CN110705490B - 视觉情感识别方法 - Google Patents
视觉情感识别方法 Download PDFInfo
- Publication number
- CN110705490B CN110705490B CN201910955033.4A CN201910955033A CN110705490B CN 110705490 B CN110705490 B CN 110705490B CN 201910955033 A CN201910955033 A CN 201910955033A CN 110705490 B CN110705490 B CN 110705490B
- Authority
- CN
- China
- Prior art keywords
- emotional state
- image
- label
- time step
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Abstract
本发明公开了一种视觉情感识别方法,包括:从图像数据中提取情境感知的图像特征表示,包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息;利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模;结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签,再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终计算出每一个时间步的预测情感状态标签类别。该方法结合全局和局部信息,从而得到更加全面的特征表示;另外,本发明方法对标签和图像特征进行联合训练,从而达到解决标签之间关联性和共现性的问题。
Description
技术领域
本发明涉及深度学习,视觉情感识别以及多标签分类领域,尤其涉及一种视觉情感识别方法。
背景技术
视觉情感识别(Visual Emotion Recognition)是计算机视觉领域一个特别重要的组成部分和研究领域。它的任务是对给定图片中的人物作情感状态分类,这在很多领域有着广泛的应用场景,比如智能物联网(IloT),在线教育,视频情感分析,政治选举预测等。
目前,关于视觉情感分类的方法主要有以下方法:
1)基于人脸表情识别的方法。
基于人脸表情识别的方法主要通过传统的特征工程方法,或者结合深度学习采用不同的神经网络结构来提取人的面部表情特征,然后采用一些分类方法对其进行分类,一般将其分为6大类(高兴、惊讶、悲伤、愤怒、厌恶、恐惧),这最初是由美国Ekman教授定义的。一些进一步的研究方法也将人体姿态特征等作为补充信息进行考虑提升情感分类的准确度。
2)基于整幅图片信息识别的方法。
不同于基于人脸表情识别的方法,基于整幅图片信息识别的方法将整幅图片作为输入,训练一个情感状态分类器。一般粗略分为2类(积极,消极)或3类(积极,消极,中性)。
在实际场景中,单个标签往往不足以充分地形容图片中人物的情感状态,比如一个人可以既惊讶又高兴。上述视觉情感分类方法都是集中于挖掘图像中的全局或局部信息,来进行单标签多分类或多标签多分类。而在更实际的多标签分类中,忽略了标签之间的关联性,比如愤怒和厌恶之间的相似性要大于高兴和悲伤。因此缺乏视觉情感分类中的情感关联性的考虑。
发明内容
本发明的目的是提供一种视觉情感识别方法,可以结合全局和局部信息,从而得到更加全面的特征表示。另外,本发明方法对标签和图像特征进行联合建模,从而达到解决标签之间关联性和共现性的问题。
本发明的目的是通过以下技术方案实现的:
一种视觉情感识别方法,包括:
从图像数据中提取情境感知的图像特征表示,包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息;
利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模;
结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签,再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别,综合所有时间步的预测情感状态标签类别,得到感兴趣的人物所包含的多个情感状态。
由上述本发明提供的技术方案可以看出,针对图片中的人物,采用情境感知的图像特征提取方法,同时获得了整幅图片的全局信息与关于人物部分的局部信息。另外,通过将多标签分类问题转化成序列生成问题,在每个时间步预测可能性最大的标签,计算过程中通过对标签空间和图片特征空间的联合建模,能够解决标签之间的关联性,引入注意力机制让不同时间步的预测更为准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种视觉情感识别方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种视觉情感识别方法,如图1所示,其主要包括如下步骤:
步骤11、从图像数据中提取情境感知的图像特征表示,包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息。
本发明实施例中,对于每一图像数据包括整幅图像区域Rc、感兴趣的人物所在的图像区域Rb、以及感兴趣人物的情感状态标签y={y1,y2,...,yq},q表示标签空间的大小,每一个标签由yk=(0,0,...,1,0,...,0)表示,标签yk为向量,其长度为q,第k位为1,其它位都为0,表示图像数据含有第k个标签,k=1,2,...,q。
通常来说,一个图像中感兴趣人物的数量为1。
本发明实施例中,使用基于卷积神经网络的图像特征提取网络从图像数据中提取情境感知的图像特征表示:
Ib=VGG19(Rb)
Ic=VGG19(Rc)
式中,VGG19表示基于卷积神经网络的图像特征提取网络,Rb表示感兴趣的人物所在的图像区域,Ib表示感兴趣人物所在区域的局部特征信息,Rc表示整幅图像区域,Ic表示全局特征信息。
特别地,基于卷积神经网络的图像特征提取网络的最后一个池化层提取出的特征大小为d×m×m。d表示每个子区域的表示维度大小,m×m表示图像的空间子区域划分数。也即感兴趣人物所在区域的局部特征信息Ib与全局特征信息Ic矩阵形式为:
对于Ic,第i个子区域的特征信息表示为Ici,对于Ib,第i个子区域的特征信息表示为Ibi,i=1,2,...,m2。
步骤12、利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模。
本步骤优选实施方式如下:
利用注意力机制,采用GRU单元,计算图像全局特征信息的表示向量:
Mt=tanh(WcIc+Whht-1)
式中,Mt为一个中间量;αt为注意力矩阵,它的第i行表示为αti,i=1,2,...,m2;Wc,Wh,Wa均为需要训练的模型参数,ht-1为GRU单元t-1时间步的隐状态;Ici表示全局特征信息Ic的第i个子区域的特征信息,m2表示子区域总数。
将GRU单元t时间步的隐状态ht视为查询(query),Ic视为关键字(key),从而在整幅图像的不同区域上计算注意力矩阵αt,ct表示根据注意力矩阵计算的图像每个区域特征的加权融合结果,也即图像全局特征信息的表示向量。
对包含的感兴趣人物的情感状态标签做词嵌入(word embedding)用于GRU单元的输入:
emb(yk)=Ek·yk
式中,矩阵E是预训练的词向量(可以从GloVe中获取),Ek是矩阵E中第k个单词的词向量,emb(yk)表示标签yk的词向量表示。
根据图像全局特征信息的表示向量ct与标签的词向量表示,采用GRU单元联合建模:
ht=GRU(ht-1,[emb(yt-1);ct])
式中,[emb(yt-1);ct]表示向量emb(yt-1)与ct的拼接,emb(yt-1)是指标签yt-1的词向量表示,ct是图像全局特征信息的表示向量。
本发明实施例中,前文定义的标签yk是指标签空间中第k个类别标签,而此处的t表示第t个时间步预测出的标签表示,一个时间步只对应一个标签,通过本步骤已经将多标签分类问题转化为序列生成的问题了,即每个时间步产生一个标签。此外,采用GRU进行建模,充分利用了不同标签之间的关系和共现性。
步骤13、结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签,再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别,综合所有时间步的预测情感状态标签类别,得到感兴趣的人物所包含的多个情感状态。
在该步骤中,考虑到以下三个原因,所以没有对隐状态向量ht直接做简单的MLP操作:1)因为需要解决的任务是对图片中的人物进行情感识别分类,所以需要更加关注人物部分的特征,但在GRU层,仅仅利用到了整幅图片的全局信息;2)在序列预测的过程中,每一个时间步的预测都和前一个时间步的预测结果有关系,即前一个时间步的预测结果是当前时间步的部分输入。但在预测过程中,前一个时间步的预测结果可能会有错误和偏差,需要在后续步骤中进行解决;3)在语言模型(如神经机器翻译,NMT)或者一些字幕(caption)生成相关的工作,可以在不同时间步预测相同的单词。但是在多标签分类中,不同时间步预测的标签不能相同,因为这会造成计算资源浪费并且影响正确的标签预测,因此需要将历史时间步的预测结果从预测标签空间中过滤掉。
本步骤优选实施方式如下:
对感兴趣人物所在区域的局部特征信息Ib做平均池化操作:
b=avg(Ib)
根据联合建模的结果ht与平均池化操作结果b,计算初步预测的情感状态标签ot:
ot=Wof(Whht+Wbb)
为了从标签空间中过滤历史时间步已经预测的标签,构建输出过滤器(OutputFilter,OF),定义如下:
输入:
Lt-1={l1,l2,...,lt-1}:前t-1个时间步预测的标签序列
y={y1,y2,...,yq}:标签空间
ot={ot1,ot2,...,otq}:t时间步GRU层的输出
返回:ot。
输出过滤器OF的主要思想是,将历史时间步预测的标签类别对应的位置处概率置为负无穷大,确保在当前时间步这些位置或者类别不会被预测出来。
pt=softmax(OF[ot])
lt=onehot(argmax(pt))
式中,pt代表情感状态标签在所有类别上的概率分布,softmax(.)表示softmax函数,lt代表在t时间步预测的情感状态标签类别,即相应的情感状态;argmax表示挑选向量pt概率最大的位置,onehot表示将相应位置变换成one-hot类型的向量。
假设共进行了t个时间步预测,综合每一个时间步的预测结果,从而则得到t个时间步预测的标签序列Lt={l1,l2,...,lt},其表示感兴趣的人物所包含的多个情感状态。
本领域技术人员可以理解,pt是一个q维的向量,对应有q个位置,也就是q个标签类别,因而位置和标签类别是一一对应的。
本发明实施例上述方案,针对图片中的人物,采用情境感知的图像特征提取方法,同时获得了整幅图片的全局信息与关于人物部分的局部信息。另外,通过将多标签分类问题转化成序列生成问题,在每个时间步预测可能性最大的标签,计算过程中通过对标签空间和图片特征空间的联合建模,能够解决标签之间的关联性,引入注意力机制让不同时间步的预测更为准确。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种视觉情感识别方法,其特征在于,包括:
从图像数据中提取情境感知的图像特征表示,包括整幅图片的全局特征信息、以及感兴趣人物所在区域的局部特征信息;
利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模;
结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签,再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别,综合所有时间步的预测情感状态标签类别,得到感兴趣的人物所包含的多个情感状态;
其中,利用注意力机制,采用GRU单元,对图像数据中包含的感兴趣人物的情感状态标签以及提取到整幅图片的全局特征信息进行联合建模包括:
利用注意力机制,采用GRU单元,计算图像全局特征信息的表示向量:
Mt=tanh(WcIc+Whht-1)
式中,Mt为一个中间量;αt为注意力矩阵,它的第i行表示为αti,i=1,2,...,m2;Wc,Wh,Wa均为需要训练的模型参数,ht-1为GRU单元t-1时间步的隐状态;Ici表示全局特征信息Ic的第i个子区域的特征信息,m2表示子区域总数;
将GRU单元t时间步的隐状态ht视为查询,Ic视为关键字,从而在整幅图像的不同区域上计算注意力矩阵αt,ct表示根据注意力矩阵计算的图像每个区域特征的加权融合结果,也即图像全局特征信息的表示向量;
对包含的感兴趣人物的情感状态标签做词嵌入用于GRU单元的输入:
emb(yk)=Ek·yk
式中,矩阵E是预训练的词向量,Ek是矩阵E中第k个单词的词向量,emb(yk)表示标签yk的词向量表示;
根据图像全局特征信息的表示向量ct与标签的词向量表示,采用GRU单元联合建模:
ht=GRU(ht-1,[emb(yt-1);ct])
式中,[emb(yt-1);ct]表示向量emb(yt-1)与ct的拼接,emb(yt-1)是指标签yt-1的词向量表示,ct是图像全局特征信息的表示向量;
利用注意力机制,结合联合建模的结果与感兴趣人物所在区域的局部特征信息,获得初步预测的情感状态标签包括:
对感兴趣人物所在区域的局部特征信息Ib做平均池化操作:
b=avg(Ib)
根据联合建模的结果ht与平均池化操作结果b,计算初步预测的情感状态标签ot:
ot=Wof(Whht+Wbb)
式中,avg代表平均池化操作,f代表非线性激活函数,Wo,Wh,Wb代表相应的模型参数。
3.根据权利要求1或2所述的一种视觉情感识别方法,其特征在于,使用基于卷积神经网络的图像特征提取网络从图像数据中提取情境感知的图像特征表示:
Ib=VGG19(Rb)
Ic=VGG19(Rc)
式中,VGG19表示基于卷积神经网络的图像特征提取网络,Rb表示感兴趣的人物所在的图像区域,Ib表示感兴趣人物所在区域的局部特征信息,Rc表示整幅图像区域,Ic表示全局特征信息。
5.根据权利要求1所述的一种视觉情感识别方法,其特征在于,所述再构建输出过滤器,获取初步预测的情感状态标签在所有类别上的概率分布,最终通过最大的概率分布计算出每一个时间步的预测情感状态标签类别包括:
输出过滤器OF,将历史时间步预测的标签类别对应的位置处概率置为负无穷大,从而过滤历史时间步已经预测的标签,获得初步预测的情感状态标签在所有类别上的概率分布pt,从而计算出每一个时间步的预测情感状态标签类别lt:
pt=softmax(OF[ot])
lt=onehot(argmax(pt))
式中,softmax(.)表示softmax函数,lt代表在t时间步预测的情感状态标签类别,即相应的情感状态;argmax表示挑选向量pt概率最大的位置,pt是一个q维的向量,对应有q个位置,即q个标签类别,所述的位置和标签类别是一一对应的;onehot表示将相应位置变换成one-hot类型的向量;
假设共进行了t个时间步预测,综合每一个时间步的预测结果,从而则得到t个时间步预测的标签序列Lt={l1,l2,...,lt},其表示感兴趣的人物所包含的多个情感状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955033.4A CN110705490B (zh) | 2019-10-09 | 2019-10-09 | 视觉情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910955033.4A CN110705490B (zh) | 2019-10-09 | 2019-10-09 | 视觉情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705490A CN110705490A (zh) | 2020-01-17 |
CN110705490B true CN110705490B (zh) | 2022-09-02 |
Family
ID=69200025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910955033.4A Active CN110705490B (zh) | 2019-10-09 | 2019-10-09 | 视觉情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705490B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511895B (zh) * | 2020-11-16 | 2024-02-02 | 四川大学 | 一种基于注意力机制多尺度网络的自然场景情绪识别方法 |
CN112784776B (zh) * | 2021-01-26 | 2022-07-08 | 山西三友和智慧信息技术股份有限公司 | 一种基于改进残差网络的bpd面部情绪识别方法 |
CN116401390B (zh) * | 2023-05-19 | 2023-10-20 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
CN116824275B (zh) * | 2023-08-29 | 2023-11-17 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951743A (zh) * | 2015-03-04 | 2015-09-30 | 苏州大学 | 基于主动形状模型算法分析人脸表情的方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
CN108985377A (zh) * | 2018-07-18 | 2018-12-11 | 太原理工大学 | 一种基于深层网络的多特征融合的图像高级语义识别方法 |
CN109359599A (zh) * | 2018-10-19 | 2019-02-19 | 昆山杜克大学 | 基于联合学习身份和情感信息的面部表情识别方法 |
CN109783684A (zh) * | 2019-01-25 | 2019-05-21 | 科大讯飞股份有限公司 | 一种视频的情感识别方法、装置、设备及可读存储介质 |
CN110119688A (zh) * | 2019-04-18 | 2019-08-13 | 南开大学 | 一种利用视觉注意力协同网络的图像情感分类方法 |
-
2019
- 2019-10-09 CN CN201910955033.4A patent/CN110705490B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951743A (zh) * | 2015-03-04 | 2015-09-30 | 苏州大学 | 基于主动形状模型算法分析人脸表情的方法 |
CN106803069A (zh) * | 2016-12-29 | 2017-06-06 | 南京邮电大学 | 基于深度学习的人群高兴程度识别方法 |
CN108985377A (zh) * | 2018-07-18 | 2018-12-11 | 太原理工大学 | 一种基于深层网络的多特征融合的图像高级语义识别方法 |
CN109359599A (zh) * | 2018-10-19 | 2019-02-19 | 昆山杜克大学 | 基于联合学习身份和情感信息的面部表情识别方法 |
CN109783684A (zh) * | 2019-01-25 | 2019-05-21 | 科大讯飞股份有限公司 | 一种视频的情感识别方法、装置、设备及可读存储介质 |
CN110119688A (zh) * | 2019-04-18 | 2019-08-13 | 南开大学 | 一种利用视觉注意力协同网络的图像情感分类方法 |
Non-Patent Citations (4)
Title |
---|
《A Hierarchical Bidirectional GRU Model With Attention for EEG-Based Emotion Classification》;J. X. Chen等;《IEEE Access》;20190822;第7卷;第118530-118540页 * |
《An Emotion-Embedded Visual Attention Model for Dimensional Emotion Context Learning》;Yuhao Tang等;《IEEE Access》;20190617;第7卷;第72457-72468页 * |
《基于Attention -based C-GRU神经网络的文本分类》;杨东等;《计算机与现代化》;20180228(第2期);第96-100页 * |
《基于区域BLSTM和CNN的情感分析模型》;周克良等;《计算机工程与设计》;20190831;第40卷(第8期);第2361-2365,2395页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110705490A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522818B (zh) | 一种表情识别的方法、装置、终端设备及存储介质 | |
Jaiswal et al. | Facial emotion detection using deep learning | |
CN110705490B (zh) | 视觉情感识别方法 | |
Gao et al. | Deep label distribution learning with label ambiguity | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
Zhang et al. | Exploring discriminative representations for image emotion recognition with CNNs | |
Zhang et al. | A gated peripheral-foveal convolutional neural network for unified image aesthetic prediction | |
Chen et al. | Automatic social signal analysis: Facial expression recognition using difference convolution neural network | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN111476315A (zh) | 一种基于统计相关性与图卷积技术的图像多标签识别方法 | |
Wang et al. | Semantic supplementary network with prior information for multi-label image classification | |
CN110851641A (zh) | 跨模态检索方法、装置和可读存储介质 | |
Farazi et al. | Reciprocal attention fusion for visual question answering | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
Abiram et al. | Identity preserving multi-pose facial expression recognition using fine tuned VGG on the latent space vector of generative adversarial network | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
Hu et al. | Sketch-a-segmenter: Sketch-based photo segmenter generation | |
CN114417785A (zh) | 知识点标注方法、模型的训练方法、计算机设备及存储介质 | |
Juyal et al. | Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset | |
Gong et al. | Human interaction recognition based on deep learning and HMM | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Ke et al. | Spatial, structural and temporal feature learning for human interaction prediction | |
CN112016493A (zh) | 图像描述方法、装置、电子设备及存储介质 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
Avula et al. | CNN based recognition of emotion and speech from gestures and facial expressions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |