CN114495217A - 基于自然语言和表情分析的场景分析方法、装置及系统 - Google Patents
基于自然语言和表情分析的场景分析方法、装置及系统 Download PDFInfo
- Publication number
- CN114495217A CN114495217A CN202210042227.7A CN202210042227A CN114495217A CN 114495217 A CN114495217 A CN 114495217A CN 202210042227 A CN202210042227 A CN 202210042227A CN 114495217 A CN114495217 A CN 114495217A
- Authority
- CN
- China
- Prior art keywords
- attention
- image
- voice
- face
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 142
- 238000010195 expression analysis Methods 0.000 title claims abstract description 57
- 230000014509 gene expression Effects 0.000 claims abstract description 58
- 230000008451 emotion Effects 0.000 claims abstract description 23
- 230000008447 perception Effects 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 92
- 238000010586 diagram Methods 0.000 claims description 63
- 238000000605 extraction Methods 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000008909 emotion recognition Effects 0.000 abstract 1
- 238000010191 image analysis Methods 0.000 abstract 1
- 230000008921 facial expression Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007794 irritation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了一种基于自然语言和表情分析的场景分析方法、装置及系统,涉及人工智能机器学习技术领域。该系统包括:数据采集模块、云AI平台和数据库;其中所述数据库包括人脸数据库和语音数据库;所述数据采集模块,用于采集待测图像和待识别语音;所述云AI平台包括人脸识别模块、注意力感知表情分析模块、语音识别模块、语调分析模块、语义分析模块和综合分析模块,所述云AI平台用于根据所述待测图像、待识别语音、人脸数据库和语音数据库进行分析,以获取情绪分析结果。本公开实施例通过进行图像分析和语音分析得到表情类别、语义、语调的识别结果,根据多维度的数据进行情绪分析,提高了情绪识别的速度和精确度。
Description
技术领域
本公开涉及人工智能机器学习技术领域,尤其涉及一种基于自然语言和表情分析的场景分析方法、装置及系统。
背景技术
随着信息化,互联网+,5G等技术的普及,智能化时代日益逼近,各种环境信息采集设备,尤其是音频,图像采集设备(如监控摄像头等)日益丰富,5G的高带宽,短延时,大容量的优势将音频、图像的采集、传送成本极大的降低。另一方面基于卷积神经网络的深度学习模型等AI技术引入自然语言,图像处理领域,让自然语义的语义分析,情感分析,机器视觉,图像识别,人脸面部表情识别更高效,更智能。
相关技术中,只根据图像、只根据语调或只根据语义进行情绪分析会导致情绪分析出现偏差,降低情绪分析的准确度。
发明内容
本公开提供一种基于自然语言和表情分析的场景分析方法、装置及系统。本公开的技术方案如下:
根据本公开实施例的第一方面,提供基于自然语言和表情分析的场景分析系统,包括:数据采集模块、云AI平台和数据库;其中
所述数据库包括人脸数据库和语音数据库;
所述数据采集模块,用于采集待测图像和待识别语音;
所述云AI平台包括人脸识别模块、注意力感知表情分析模块、语音识别模块、语调分析模块、语义分析模块和综合分析模块,所述云AI平台用于根据所述待测图像、待识别语音、人脸数据库和语音数据库进行分析,以获取情绪分析结果。
可选的,所述数据采集模块包括图像采集子模块和音频采集子模块;
所述图像采集子模块用于采集所述待测图像;
所述音频采集子模块用于采集所述待识别语音。
可选的,所述人脸识别模块,用于根据深度学习技术对所述待测图像进行人脸识别,并根据人脸数据库内的数据判断待测图像内的人脸是否已经存在;
所述注意力感知表情分析模块,用于对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
所述语音识别模块,用于对所述待识别语音进行识别,将所述待识别语音转化文本数据;
所述语调分析模块,用于对所述待识别语音的语调进行分析,以获取语调分析结果;
所述语义分析模块,用于对所述文本数据进行语义分析,以获取语义分析结果;
所述综合分析模块,用于根据所述表情类别、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
可选的,所述人脸识别模块包括人脸特征提取子模块、人脸匹配子模块和人脸识别子模块;
所述人脸特征提取子模块,用于提取所述待测图像中人脸特征向量;
所述人脸识别子模块,用于根据所述人脸特征向量获取人脸识别结果;
所述人脸匹配子模块,用于将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
可选的,所述注意力感知表情分析模块包括表情特征提取子模块、注意关系获取子模块和表情识别子模块;
所述表情特征提取子模块,用于根据所述待测图像生成注意力分布热力图;
所述注意关系获取子模块,用于根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
所述表情识别子模块,用于根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
可选的,所述表情特征提取子模块包括:特征提取单元,注意力图像获取单元和热力图获取单元;
特征提取单元,用于通过特征提取网络获取所述待测图像的特征图像;
注意力图像获取单元,用于提取所述特征图像的注意力分布特征,并生成注意力图像;
特征融合单元,用于根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
可选的,所述特征融合单元包括:特征融合子单元;
所述特征融合子单元,用于将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
可选的,所述注意关系获取子模块包括:池化单元、拼接单元和图神经网络单元;
所述池化子单元,用于对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
所述拼接子单元,用于拼接所述注意力特征值以生成注意力特征向量;
所述图神经网络子单元,用于根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
可选的,所述表情识别子模块包括:特征向量获取单元和表情识别单元;
特征向量获取单元,用于将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
表情识别单元,用于根据所述待测图像的特征向量获取表情类别。
可选的,所述语音识别模块包括语音特征提取子模块、语音识别子模块和语音匹配子模块,
所述语音特征提取子模块,用于提取所述待识别语音中语音特征向量;
所述语音识别子模块,用于根据所述语音特征向量获取语音识别结果;
所述语音匹配子模块,用于将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
根据本公开实施例的第二方面,提供一种基于自然语言和表情分析的场景分析方法,应用于上述基于自然语言和表情分析的场景分析系统,包括:
采集待测图像和待识别语音;
对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
对所述待识别语音进行识别,将所述待识别语音转化文本数据;
对所述待识别语音的语调进行分析,以获取语调分析结果;
对所述文本数据进行语义分析,以获取语义分析结果;
根据所述表情类别、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
可选的,所述对所述待测图像进行人脸识别,包括:
提取所述待测图像中人脸特征向量;
根据所述人脸特征向量获取人脸识别结果;
将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
可选的,所述对所述待测图像中的人脸进行注意力感知,包括:
根据所述待测图像生成注意力分布热力图;
根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
可选的,
所述根据所述待测图像生成注意力分布热力图,包括:
提取所述待测图像的特征图像;
提取所述特征图像的注意力分布特征,并生成注意力图像;
根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
可选的,
所述根据所述注意力图像和所述特征图像获取所述注意力分布热力图,包括:
将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
可选的,所述根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值,包括:
对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
拼接所述注意力特征值以生成注意力特征向量;
根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
可选的,所述根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别,包括:
将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
根据所述待测图像的特征向量获取表情类别。
可选的,所述对待识别语音进行识别,包括:
提取所述待识别语音中语音特征向量;
根据所述语音特征向量获取语音识别结果;
将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
根据本公开实施例的第三方面,提供一种基于自然语言和表情分析的场景分析装置,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述第二方面中任一项所述的基于自然语言和表情分析的场景分析方法。
根据本公开实施例的第四方面,提供一种算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述第二方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
综合分析模块综合人脸面部表情分析和语义语调分析结果,从而得出当前场景中被识别的该人的情绪等结果,完成场景分析。根据多种判据判断客户的情绪,降低单一判据导致的误判断的概率,提高客户情绪判断的准确度。
根据所述注意力感知表情分析模块对所述待测图像不同的注意力区域进行感知,并检测待测图像中客户的表情类别,避免关键点检测的局限性,对于非对镜头的人脸和被遮挡的人脸也有较好的识别效果,提高了人脸识别的鲁棒性。
根据场景分析结果可实时获取客户心情,获知客户满意程度,可对突发事件进行预警,另外,对于智慧城市服务来说,可以动态预警,预防社会事件发生。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图2是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图3是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图4是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图5是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图6是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析方法的流程图。
图7是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。
图8是根据一示例性实施例示出的一种装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
随着信息化,互联网+,5G等技术的普及,智能化时代日益逼近,各种环境信息采集设备,尤其是音频,图像采集设备(如监控摄像头等)日益丰富,5G的高带宽,短延时,大容量的优势将音频、图像的采集、传送成本极大的降低。另一方面基于卷积神经网络的深度学习模型等AI技术引入自然语言,图像处理领域,让自然语义的语义分析,情感分析,机器视觉,图像识别,人脸面部表情识别更高效,更智能。
人们在不同领域探索图像识别,语音识别,语义分析的应用,但是将自然语言处理和面部表情识别结合起来应用在场景分析的应用方面还比较少使用。
图1是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图1所示,所述系统100包括:数据采集模块110、云AI平台120和数据库130;其中
所述数据库包括人脸数据库131和语音数据库131;
本申请实施例中,所述系统中的数据库包括人脸数据库和语音数据库,用于存储数据采集模块采集的人脸数据和语音数据,供云AI平台对比人脸数据和语音数据,不断更新数据库中的人脸数据和语音数据。
所述数据采集模块110,用于采集待测图像和待识别语音;
在一种可能的实施例中,所述数据采集模块包括720P清晰度摄像头和一枚麦克风,还包括一块ARM控制板等构成,数据采集模块通过TCP/IP协议接入WIFI/4G/5G通信网络,与云AI服务中心通信,以传输采集到的待测图像和待识别语音。
所述云AI平台120包括人脸识别模块121、注意力感知表情分析模块122、语音识别模块123、语调分析模块124、语义分析模块125和综合分析模块126;
可选的,所述人脸识别模块,用于根据深度学习技术对所述待测图像进行人脸识别,并根据人脸数据库内的数据判断待测图像内的人脸是否已经存在;
所述注意力感知表情分析模块,用于对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
所述语音识别模块,用于对所述待识别语音进行识别,将所述待识别语音转化文本数据;
所述语调分析模块,用于对所述待识别语音的语调进行分析,以获取语调分析结果;
语调即说话的腔调,就是一句话里快慢轻重的配置和变化。一句话除了词汇意义还有语调意义。语调意义就是说话人用语调所表示的态度或口气。一句话的词汇意义加上语调意义才算是完全的意义。同样的句子,语调不同,意思就会不同,有时甚至会相差千里在一种可能的实施例中,所述语调分析模块为训练好的深度学习网络,可以提取所述待识别语音中的语调特征,并根据所述语调特征识别语音对应的语调。
所述语义分析模块,用于对所述文本数据进行语义分析,以获取语义分析结果;
语义,即文本数据的含义,所述语义分析模块为深度学习网络,通过编码器提取所述文本中的特征,并通过解码器解码所述特征,输出所述文本数据的语义分析结果。所述语义分析结果包括所述文本信息中的词语、句子等。
所述综合分析模块,用于根据所述表情分析结果、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
本申请实施例中,根据所述表情分析结果、语调分析结果和语义分析结果进行综合分析,以对图像中人的情绪进行分析。
综合分析模块综合人脸面部表情分析和语义语调分析结果,从而得出当前场景中被识别的该人的情绪等结果,完成场景分析。根据场景分析结果可实时获取客户心情,获知客户满意程度,可对突发事件进行预警,另外,对于智慧城市服务来说,可以动态预警,预防社会事件发生。
图2是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图2所示,所述数据采集模块110包括图像采集子模块111和音频采集子模块112,
所述图像采集子模块111用于采集所述待测图像;
所述音频采集子模块112用于采集所述待识别语音。
本申请实施例中,通过摄像头采集图像数据,也即待测图像,根据所述待测图像识别人脸并进行表情分析。通过麦克风采集声音数据,经过预处理去除环境音、噪音等干扰声音,提取出人声,即待识别语音。以进行语音识别、语调分析和语义分析。
图3是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图3所示,所述人脸识别模块121包括人脸特征提取子模块1211、人脸识别子模块1212和人脸匹配子模块1213。
所述人脸特征提取子模块,用于提取所述待测图像中人脸特征向量;
所述人脸识别子模块,用于根据所述人脸特征向量获取人脸识别结果;
所述人脸匹配子模块,用于将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
本申请实施例中,所述人脸识别模块为神经网络,包括编码器和解码器,所述编码器即所述人脸特征提取子模块,通过卷积核提取所述待测图像中的特征,以生成所述人脸特征向量。编码器,即所述人脸识别子模块,用于对所述人脸特征向量进行降维,以获取人脸识别的结果。人脸匹配子模块,用于将所述人脸识别的结果和人脸数据库中的人脸数据进行匹配,如果人脸数据库中存在与所述人脸识别的结果匹配的人脸数据,则对比所述人脸识别的结果和匹配的人脸数据,找出不同的数据,并更新所述人脸数据;如果人脸数据库中不存在与所述人脸识别的结果匹配的人脸数据,则将所述人脸识别的结果加入人脸数据库。
图4是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图4所示,所述注意力感知表情分析模块122包括表情特征提取子模块1221、注意关系获取子模块1222和表情识别子模块1223。
所述表情特征提取子模块1221,用于根据所述待测图像生成注意力分布热力图;
在一种可能的实施方式中,本公开实施例为了提取待测图像的特征,将待测图像输入卷积神经网络中,并提取所述待测图像的全局抽象人脸特征,生成所述待测图像对应的特征图像,以便后续提取有用的局部信息。
在一种可能的实施方式中,本公开实施例为了获取待测图像中不同区域的注意力特征,需要将所述待测图像对应的特征图像进行降维,所述待测图像的数据格式为h×w×c,h为所述特征图像高度、w为所述特征图像宽度、c为所述特征图像的通道数量。通过1×1卷积核将所述特征图像的c变为1,得到所述注意力图像。这样是为了使特征图里的有用信息被强调,同时对无用甚至噪声信息进行压缩。
将所述注意力图像和所述特征图像点对点相乘,即可得到所述注意力分布热力图。
所述注意关系获取子模块1222,用于根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
为了减少参数数量、减少计算量同时减少过拟合的情况,对所述注意力分布热力图进行全局平均池化(Global Average Pooling,GAP)处理,具体为:将特征图所有像素值相加求平均,得到一个数值,用所述数值表示对应的所述特征图。所述数值即为注意力特征值。
为了将待测图像中各部分的特征关联起来,对所述注意力特征值进行拼接concat,以获取所述注意力特征向量。再根据所述注意力特征值构建图神经网络,通过所述图神经网络获取所述注意力特征值。这样所述注意关系获取子模块就可以关注到脸部中的每个局部区域及其与其他局部区域的相关性关系。鼓励每个局部区域充分利用其他局部区域中的信息,从而使它们更具区分性。其次,它可以估计所定位的局部区域的权重大小,强调信息更为丰富的脸部部位,并增加其在表情分析中的权重。
所述表情识别子模块1223,用于根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
为了突出待测图像中人脸不同局部区域的区别,将所述注意力特征向量和注意力关系特征值相乘,以生成所述待测图像的特征向量。将所述待测图像的特征向量输入全连接网络,即可获取所述待测图像特征向量的类别,也即所述待测图像的表情类别。在一种可能的实施例中,所述表情包括以下的一项或多项:开心,愤怒,恼火,平静。需要说明的是,所述表情类别可以由实施者根据实际情况设置。
本公开实施例中根据所述注意力感知表情分析模块对所述待测图像不同的注意力区域进行感知,并检测待测图像中客户的表情类别,避免关键点检测的局限性,对于非对镜头的人脸和被遮挡的人脸也有较好的识别效果,提高了人脸识别的鲁棒性。
可选的,所述表情特征提取子模块包括:特征提取单元,注意力图像获取单元和热力图获取单元;
特征提取单元,用于通过特征提取网络获取所述待测图像的特征图像;
本申请实施例中,所述特征提取网络为卷积神经网络中,将所述待测图像输入所述特征提取网络,提取所述待测图像的全局抽象人脸特征,生成所述待测图像对应的特征图像,以便后续提取有用的局部信息。
注意力图像获取单元,用于提取所述特征图像的注意力分布特征,并生成注意力图像;
本申请实施例中,对所述特征图像进行降维操作,强调所述特征图像里的有用信息,同时对无用信息甚至噪声信息进行压缩。
在一种可能的实施方式中,所述注意力图像获取单元包括3个1×1的卷积核,所述卷积核分别对所述特征图像进行降维,输出3个所述注意力图像。
特征融合单元,用于根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
本公开实施例中,为了突出所述特征图像对应区域的特征,需要将所述注意力图像和所述特征图像点对点相乘,即可得到所述注意力分布热力图,所述注意力分布热力图中热度分布代表了注意力图像对待测图像中各部分注意力的强弱,热度越大说明注意力越集中在对应区域。
可选的,所述特征融合单元包括:特征融合子单元;
所述特征融合子单元,用于将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
可选的,所述注意关系获取子模块包括:池化单元、拼接单元和图神经网络单元;
所述池化子单元,用于对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
为了减少参数数量、减少计算量同时减少过拟合的情况,对所述注意力分布热力图进行全局平均池化(Global Average Pooling,GAP)处理,具体为:将特征图所有像素值相加求平均,得到一个数值,用所述数值表示对应的所述特征图。所述数值即为注意力特征值。
所述拼接子单元,用于拼接所述注意力特征值以生成注意力特征向量;
为了将待测图像中各部分的特征关联起来,对所述注意力特征值进行拼接concat,以获取所述注意力特征向量。
所述图神经网络子单元,用于根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
据所述注意力特征值构建图神经网络,通过所述图神经网络获取所述注意力特征值。这样所述注意关系获取子模块就可以关注到脸部中的每个局部区域及其与其他局部区域的相关性关系。鼓励每个局部区域充分利用其他局部区域中的信息,从而使它们更具区分性。其次,它可以估计所定位的局部区域的权重大小,强调信息更为丰富的脸部部位,并增加其在表情分析中的权重。
可选的,所述表情识别子模块包括:特征向量获取单元和表情识别单元;
特征向量获取单元,用于将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
为了突出待测图像中不同区域的区别,将所述注意力特征向量和注意力关系特征值相乘,以生成所述待测图像的特征向量。
表情识别单元,用于根据所述待测图像的特征向量获取表情类别。
本申请实施例中,所述表情识别单元为全连接网络,将所述待测图像的特征向量输入全连接网络,即可获取所述待测图像特征向量的类别,也即所述待测图像的表情类别。
图5是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图5所示,所述语音识别模块123包括语音特征提取子模块1231、语音识别子模块1232和语音匹配子模块1233。
所述语音特征提取子模块,用于提取所述待识别语音中语音特征向量;
所述语音识别子模块,用于根据所述语音特征向量获取语音识别结果;
所述语音匹配子模块,用于将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
本申请实施例中,所述语音识别模块为神经网络,包括编码器和解码器,所述编码器即所述语音识别子模块,通过卷积核提取所述待识别语音中语音特征,以生成所述语音特征向量。编码器,即所述语音识别子模块,用于对所述语音特征向量进行降维,以获取语音识别的结果。语音匹配子模块,用于将所述语音识别的结果和语音数据库中的语音数据进行匹配,如果语音数据库中存在与所述语音识别的结果匹配的语音数据,则对比所述语音识别的结果和匹配的语音数据,找出不同的数据,并更新所述语音数据;如果语音数据库中不存在与所述语音识别的结果匹配的语音数据,则将所述语音识别的结果加入语音数据库。
图6是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析方法的流程图。如图6所示,所述方法应用于上述基于自然语言和表情分析的场景分析系统,包括以下步骤:
步骤601,采集待测图像和待识别语音;
步骤602,对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
步骤603,对所述待识别语音进行识别,将所述待识别语音转化文本数据;
步骤604,对所述待识别语音的语调进行分析,以获取语调分析结果;
步骤605,对所述文本数据进行语义分析,以获取语义分析结果;
步骤606,根据所述表情类别、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
可选的,所述对所述待测图像进行人脸识别,包括:
提取所述待测图像中人脸特征向量;
根据所述人脸特征向量获取人脸识别结果;
将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
可选的,所述对所述待测图像中的人脸进行注意力感知,包括:
根据所述待测图像生成注意力分布热力图;
根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
可选的,所述根据所述待测图像生成注意力分布热力图,包括:
提取所述待测图像的特征图像;
提取所述特征图像的注意力分布特征,并生成注意力图像;
根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
可选的,
所述根据所述注意力图像和所述特征图像获取所述注意力分布热力图,包括:
将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
可选的,所述根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值,包括:
对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
拼接所述注意力特征值以生成注意力特征向量;
根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
可选的,所述根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别,包括:
将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
根据所述待测图像的特征向量获取表情类别。
可选的,所述对待识别语音进行识别,包括:
提取所述待识别语音中语音特征向量;
根据所述语音特征向量获取语音识别结果;
将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
关于上述实施例中的方法,其中各个步骤执行操作的具体方式已经在所述基于自然语言和表情分析的场景分析系统的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种基于自然语言和表情分析的场景分析系统的框图。如图7所示,所述系统包括设备端、云AI平台和对外接口层。所述设备端即数据采集模块,包含:摄像头,麦克风和设备控制器组成,完成图像和音频采集,并通过TCP/IP协议给云AI平台发送采集的图像和音频信息。
云AI平台,通过图像识别,语音识别接口对信息进行处理,然后通过人脸识别和人脸表情识别接口进行图像处理,分析在场景出现的人的数量和人脸表情来分析每个人的情绪(开心,愤怒,恼火,平静等);通过语调分析,进一步确认说话人的情绪,通过语义分析确定说话的内容。语义分析包括词法分析、句法分析、语用分析、语境分析、自然语言生成等。鉴于基于规则的自然语言生成系统存在的不足之处,本发明采用基于数据驱动的自然语言生成技术,从浅层的统计机器学习模型,到深层的神经网络模型,对语言生成过程中每个子任务的建模,以及多个子任务的联合建模。最后将分析结果通过对外接口发送到指定的信息处理平台。
系统使用深度学习框架,采用卷积神经网络对图像识别和语言处理进行深度学习,提高系统的智能和识别的准确率。神经网络的训练因其层次加深而变得愈加困难。本发明采用的残差学习框架可以更轻松的对比前人所提的网络进行训练。相对比之前网络所学习的是无参考的函数,本发明采用的方法显著改进的网络结构可根据网络的输入对其残差函数进行学习。
所述系统的运行流程为:首先人脸识别服务通过高清摄像头监测到走入系统的人体,并对人脸进行识别,判断是否是已经有过人脸记录的人;人脸识别完成之后,人脸表情识别服务对图像上出现的人脸的表情进行判断,分析此人的人脸面部表情;同时语音识别服务通过麦克风采集环境声音,并进行语音识别采集人声,并将人声转换为文字交由语义分析服务,进行语义分析;同时通过语调分析服务,分析说话人的语调结合人脸表情识别结果判断确定说话人的情绪,最后将分析结果通过接口发送到业务处理平台。
图8是根据一示例性实施例示出的一种用于基于自然语言和表情分析的场景分析系统的装置800的框图。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器810,上述指令可由装置800的处理器820执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种基于自然语言和表情分析的场景分析系统,其特征在于,包括:数据采集模块、云AI平台和数据库;其中
所述数据库包括人脸数据库和语音数据库;
所述数据采集模块,用于采集待测图像和待识别语音;
所述云AI平台包括人脸识别模块、注意力感知表情分析模块、语音识别模块、语调分析模块、语义分析模块和综合分析模块,所述云AI平台用于根据所述待测图像、待识别语音、人脸数据库和语音数据库进行分析,以获取情绪分析结果。
2.根据权利要求1所述的系统,其特征在于,所述数据采集模块包括图像采集子模块和音频采集子模块;
所述图像采集子模块用于采集所述待测图像;
所述音频采集子模块用于采集所述待识别语音。
3.根据权利要求1所述的系统,其特征在于,所述人脸识别模块,用于根据深度学习技术对所述待测图像进行人脸识别,并根据人脸数据库内的数据判断待测图像内的人脸是否已经存在;
所述注意力感知表情分析模块,用于对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
所述语音识别模块,用于对所述待识别语音进行识别,将所述待识别语音转化文本数据;
所述语调分析模块,用于对所述待识别语音的语调进行分析,以获取语调分析结果;
所述语义分析模块,用于对所述文本数据进行语义分析,以获取语义分析结果;
所述综合分析模块,用于根据所述表情类别、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
4.根据权利要求3所述的系统,其特征在于,所述人脸识别模块包括人脸特征提取子模块、人脸匹配子模块和人脸识别子模块;
所述人脸特征提取子模块,用于提取所述待测图像中人脸特征向量;
所述人脸识别子模块,用于根据所述人脸特征向量获取人脸识别结果;
所述人脸匹配子模块,用于将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
5.根据权利要求3所述的系统,其特征在于,所述注意力感知表情分析模块包括表情特征提取子模块、注意关系获取子模块和表情识别子模块;
所述表情特征提取子模块,用于根据所述待测图像生成注意力分布热力图;
所述注意关系获取子模块,用于根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
所述表情识别子模块,用于根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
6.根据权利要求5所述的系统,其特征在于,所述表情特征提取子模块包括:特征提取单元,注意力图像获取单元和热力图获取单元;
特征提取单元,用于通过特征提取网络获取所述待测图像的特征图像;
注意力图像获取单元,用于提取所述特征图像的注意力分布特征,并生成注意力图像;
特征融合单元,用于根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
7.根据权利要求6所述的系统,其特征在于,所述特征融合单元包括:特征融合子单元;
所述特征融合子单元,用于将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
8.根据权利要求5所述的系统,其特征在于,所述注意关系获取子模块包括:池化单元、拼接单元和图神经网络单元;
所述池化子单元,用于对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
所述拼接子单元,用于拼接所述注意力特征值以生成注意力特征向量;
所述图神经网络子单元,用于根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
9.根据权利要求5所述的系统,其特征在于,所述表情识别子模块包括:特征向量获取单元和表情识别单元;
特征向量获取单元,用于将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
表情识别单元,用于根据所述待测图像的特征向量获取表情类别。
10.根据权利要求3所述的系统,其特征在于,所述语音识别模块包括语音特征提取子模块、语音识别子模块和语音匹配子模块,
所述语音特征提取子模块,用于提取所述待识别语音中语音特征向量;
所述语音识别子模块,用于根据所述语音特征向量获取语音识别结果;
所述语音匹配子模块,用于将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
11.一种基于自然语言和表情分析的场景分析方法,其特征在于,应用于权利要求1-10中任一项所述的基于自然语言和表情分析的场景分析系统,包括:
采集待测图像和待识别语音;
对所述待测图像中的人脸进行注意力感知,获取注意力分布图,并根据所述注意力分布图提取注意力特征值和注意力特征向量,进行表情分析,并获取所述人脸对应的表情类别;
对所述待识别语音进行识别,将所述待识别语音转化文本数据;
对所述待识别语音的语调进行分析,以获取语调分析结果;
对所述文本数据进行语义分析,以获取语义分析结果;
根据所述表情类别、语调分析结果和语义分析结果进行综合分析,以获取情绪分析结果。
12.根据权利要求11所述的方法,其特征在于,所述对所述待测图像进行人脸识别,包括:
提取所述待测图像中人脸特征向量;
根据所述人脸特征向量获取人脸识别结果;
将所述人脸识别结果和人脸数据库中的人脸数据进行匹配,得到匹配结果并存入所述人脸数据库。
13.根据权利要求11所述的方法,其特征在于,所述对所述待测图像中的人脸进行注意力感知,包括:
根据所述待测图像生成注意力分布热力图;
根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值;
根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别。
14.根据权利要求13所述的方法,其特征在于,所述根据所述待测图像生成注意力分布热力图,包括:
提取所述待测图像的特征图像;
提取所述特征图像的注意力分布特征,并生成注意力图像;
根据所述注意力图像和所述特征图像获取所述注意力分布热力图。
15.根据权利要求14所述的方法,其特征在于,所述根据所述注意力图像和所述特征图像获取所述注意力分布热力图,包括:
将所述初始特征图像和所述待测图像点对点相乘,获取所述待测图像的注意力分布热力图。
16.根据权利要求13所述的方法,其特征在于,所述根据所述注意力分布热力图生成注意力特征向量和注意力关系特征值,包括:
对所述注意力分布热力图进行全局平均池化处理,以获取注意力特征值;
拼接所述注意力特征值以生成注意力特征向量;
根据所述注意力特征值构建图神经网络并获取注意力关系特征值。
17.根据权利要求13所述的方法,其特征在于,所述根据所述注意力特征向量和注意力关系特征值生成所述待测图像的表情类别,包括:
将所述注意力特征向量和所述注意力关系特征值相乘以生成所述待测图像的特征向量;
根据所述待测图像的特征向量获取表情类别。
18.根据权利要求11所述的方法,其特征在于,所述对待识别语音进行识别,包括:
提取所述待识别语音中语音特征向量;
根据所述语音特征向量获取语音识别结果;
将所述语音识别结果和语音数据库中的语音数据进行匹配,得到匹配结果并存入所述语音数据库。
19.一种基于自然语言和表情分析的场景分析装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求11至18中任一项所述的基于自然语言和表情分析的场景分析方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求11至18中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042227.7A CN114495217A (zh) | 2022-01-14 | 2022-01-14 | 基于自然语言和表情分析的场景分析方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210042227.7A CN114495217A (zh) | 2022-01-14 | 2022-01-14 | 基于自然语言和表情分析的场景分析方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114495217A true CN114495217A (zh) | 2022-05-13 |
Family
ID=81512720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210042227.7A Pending CN114495217A (zh) | 2022-01-14 | 2022-01-14 | 基于自然语言和表情分析的场景分析方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495217A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115271002A (zh) * | 2022-09-29 | 2022-11-01 | 广东机电职业技术学院 | 识别方法、急救决策方法、介质及生命健康智能监护系统 |
CN115410061A (zh) * | 2022-07-14 | 2022-11-29 | 东北林业大学 | 一种基于自然语言处理的图文情感分析系统 |
CN116453027A (zh) * | 2023-06-12 | 2023-07-18 | 深圳市玩瞳科技有限公司 | 用于教育机器人的ai识别管理方法 |
-
2022
- 2022-01-14 CN CN202210042227.7A patent/CN114495217A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410061A (zh) * | 2022-07-14 | 2022-11-29 | 东北林业大学 | 一种基于自然语言处理的图文情感分析系统 |
CN115410061B (zh) * | 2022-07-14 | 2024-02-09 | 东北林业大学 | 一种基于自然语言处理的图文情感分析系统 |
CN115271002A (zh) * | 2022-09-29 | 2022-11-01 | 广东机电职业技术学院 | 识别方法、急救决策方法、介质及生命健康智能监护系统 |
CN115271002B (zh) * | 2022-09-29 | 2023-02-17 | 广东机电职业技术学院 | 识别方法、急救决策方法、介质及生命健康智能监护系统 |
CN116453027A (zh) * | 2023-06-12 | 2023-07-18 | 深圳市玩瞳科技有限公司 | 用于教育机器人的ai识别管理方法 |
CN116453027B (zh) * | 2023-06-12 | 2023-08-22 | 深圳市玩瞳科技有限公司 | 用于教育机器人的ai识别管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
CN110751208B (zh) | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 | |
CN114495217A (zh) | 基于自然语言和表情分析的场景分析方法、装置及系统 | |
CN112686048B (zh) | 基于语音、语义、面部表情融合的情绪识别方法及装置 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
JP2017156854A (ja) | 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
Seng et al. | Video analytics for customer emotion and satisfaction at contact centers | |
CN112232276B (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112446242A (zh) | 声学场景分类方法、装置及相应设备 | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
CN113223560A (zh) | 情绪识别方法、装置、设备及存储介质 | |
CN111522916A (zh) | 一种语音服务质量检测方法、模型训练方法及装置 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
Akman et al. | Lip reading multiclass classification by using dilated CNN with Turkish dataset | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN116935889B (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
CN210516214U (zh) | 一种基于视频及语音交互服务设备 | |
CN108962281B (zh) | 一种语言表达的评价和辅助方法及装置 | |
CN116956856A (zh) | 一种数据处理方法、装置、存储介质和电子设备 | |
CN116383360A (zh) | 一种心理咨询聊天机器人的回答体贴度检测方法及系统 | |
CN112699236B (zh) | 一种基于情感识别与瞳孔大小计算的Deepfake检测方法 | |
CN113642446A (zh) | 一种基于人脸动态情绪识别的检测方法和装置 | |
CN114120425A (zh) | 一种情绪识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |