CN112133407A

CN112133407A - 一种基于语音与表情的快速智能情绪测评分析方法

Info

Publication number: CN112133407A
Application number: CN202011002355.6A
Authority: CN
Inventors: 田文洪; 张平; 巫成瑜; 姜磊; 白玉; 黄寅虓
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-09-22
Filing date: 2020-09-22
Publication date: 2020-12-25

Abstract

本发明公开一种基于语音与表情的快速智能情绪测评分析方法。其特点包括在线量表测试时记录分析被测试者对每道题所用时间，分析发现被测试人员对于不同题目的回答特点；采用语音提问和答题的创新方式，为被测试人员提供多样化的测试手段，同时捕捉答题人员的声纹特征进行心理情绪分析，采用开放式语音对话收集分析被测试人员的语音和转化为文本的特征；在被测试者测试过程中捕捉其人脸表情，采用最新深度学习技术对被测试人员表情进行及时分析。最终形成融合量表、语音和表情分析的多维度和多模态心情绪测评分析方法。

Description

一种基于语音与表情的快速智能情绪测评分析方法

技术领域

本发明涉及计算机辅助情绪分析技术领域，特别是涉及一种基于语音与表情的快速智能情绪测评分析方法。

背景技术

目前急需构建社会心理服务体系。然而，与身体疾病相比，精神障碍更难发现。精神健康的负担因诸如社会耻辱、经济费用和缺乏无障碍治疗方案等护理障碍而加剧。为了解决根深蒂固的护理障碍，需要采用可扩展的方法来检测心理健康症状。早期发现可能会影响60％未接受治疗的精神病成年人的就诊机会。

情绪对于人类的感知、记忆、学习、创造、决策和社交都有很重要的作用，有研究显示“人类交流中80％的信息都是情绪性的信息”。从认知科学角度来看，情绪本身是高级智能的一部分。作为大脑运行资源的调配者，情绪状态的不同会导致大脑计算和分配资源的方式有巨大差异，思维执行路径也会完全不同。另外，人类进化使其情绪判断的准确性不断提高，不断的正向反馈也使得我们越来越依赖用识别对方情绪的方法来判断其行为倾向，甚至已经成为自动运行的认知方式。由于情绪在人类信息沟通中的意义重大，所以情绪识别是实现人性化的人机交互过程中必不可少的部分，情绪识别与理解技术也是人机交互的基础性技术之一。

情绪识别是利用计算机对人类的情绪状态进行自动识别、判断和分类的过程。国外对于情绪识别的研究工作开展的较早，1972年，Williams等人关于说话者情绪变化给相应的语音的基础声学轮廓带来的影响的研究是最早进行语音情绪识别的研究。此后，1988年麻省理工学院的Minsky教授在他的专著《The SocietyofMind》中首次提出“计算机的情绪能力”这一概念，其主要能力就是情绪识别。1990年，麻省理工学院多媒体实验室的Cahn等人搭建并使用了一套情绪识别系统来采集人类的各种情绪信息，利用这些信息进行情绪分析。1995年麻省理工学院Picard教授在其专著《AffectiveComputing:Challenges》中首次提出“情绪计算”的概念，这一概念也一直沿用至今，成为计算机科学、人机交互科学中重要的分支领域。2015年之后，随着机器学习、深度学习的研究浪潮，情绪识别的研究也迎来一波新的热度。

传统的情绪识别只是关注单独一个模态，如从文本、语音或者图像中挖掘分析情绪。而随着社交网络的快速发展，人们在平台上的表达方式变得越来越丰富，如通过图文和视频表达自己的情绪和观点。如何分析多模态数据中的情绪，是当前情绪分析领域面临的机遇和挑战。一方面，以往情绪分析聚焦于单个模态。如文本情绪分析着眼于分析，挖掘和推理文本中蕴含的情绪。现在需要对多个模态的数据进行处理和分析，这给研究人员带来了更大的挑战。另一方面，多模态数据与单模态数据相比，包含了更多的信息，多个模态之间可以互相补充。不同模态信息相互补充，可以帮助机器更好地理解情绪。从人机交互角度出发，多模态情绪分析可以使得机器在更加自然的情况下与人进行交互。机器可以基于图像中人的表情和手势，声音中的音调，和识别出的自然语言来理解用户情绪，进而进行反馈。

在实践中，临床医生通过在面对面的临床访谈中首先测量心理疾病的严重程度来识别患者的心理疾病。在这些访谈中，临床医生评估症状的言语和非语言指标，包括单调的音调、降低的发音率、较低的说话量，更少的手势，以及更多的向下凝视。如果这种症状持续两周，患者被认为是可能有一个重大症状发作。结构化问卷已在临床人群中开发和验证，以评估抑郁症状的严重程度。最常见的问卷之一是患者健康问卷(PHQ)，这个临床验证的工具测量抑郁症症状严重程度跨越几个个人维度。但是传统问卷(量表)测评存在手段单一、维度单一和效率不高等缺点。评估症状严重性是时间密集型的，对于初始诊断和跨时间的改进都至关重要。因此，基于人工智能的评估症状严重性的解决方案可以解决获得和治疗方面根深蒂固的障碍。

随着患有抑郁症的人数不断增加，准确诊断的难度也不断增加。世界卫生组织(WTO)预测到2020年，抑郁症将成为全球第二大主要病因。抑郁症症状的自动智能检测正在为提升检测效率提供新的方式，可提高诊断准确性和有效性并节省时间，从而带来更快速的干预治疗，辅助医生做出准确快捷地评定。

抑郁症严重会导致神经生理和神经认知的变化，影响面部表情，语音和认知功能以及表达。抑郁症的表现会反映在患者的一些行为中。临床医生评估抑郁症症状的语言和非语言指标：包括音高单调、语速降低、音量降低、手势较少和总向下看、交流内容、面部微表情等特征。目前国内外已经有研究人员提出了多模态的抑郁症自动评估方法，麻省理工李飞飞团队在DAIC-WOZ数据集上已经取得了80％左右的准确率。

在国内西北工业大学为代表的早期研究者在基于DAIC-WOZ数据集的AVEC数据集上提出了多模态抑郁自动评估方法。

目前人工智能应用于抑郁症和其它心理与情绪分析评估等方面已经取得了一些成果，然而由于心理情绪的复杂性和个体差异性，仍面临如下挑战：

1)国内数据集缺乏，大多数依靠在DAIC-WOZ数据集上做的研究，缺乏本土适用性。

2)仅有较短时间和患者交流视频，其中充斥着大量音频、视频、文本信息，研究时往往通过采样，这将丢弃大量有用信息，所以需要音频、视频、文本各领域进行深入挖掘并融合。

3)采用传统问卷(量表)存在手段单一、维度单一和效率不高以及准确度不高等缺点。

发明内容

为了解决上述技术或资源问题，本发明依托于华西医院给予的医生与患者的真实数据、司法系统部分特殊对象的真实数据，以及现有的各方面可行的先进技术，设计了一种基于语音与表情的快速智能情绪测评分析方法。

一种基于语音与表情的快速智能情绪测评分析方法，其特征包括在线量表测试时记录分析测试者对每道题所用时间，采用语音提问和答题的创新方式收集分析被测试者的声纹特征，采用开放式语音对话收集分析被测试人员的语音和文本特征，在被测试者测试过程中捕捉其人脸表情并进行分析，形成融合量表、语音和表情分析的多模态心情绪分析方法。

进一步的，在线量表测试时记录分析测试者对每道题所用时间，其特征在于，包括记录分析标准量表每道题的答题时间，语音提问每道题的答题时间，可据此进行数据分析发现被测试人员的心理健康特点。所收集的被测试人员对于每道题的回答时间将在测试报告中以数值和柱状图两种形式进行分析对比，以分析发现被测试人员对于不同题目的回答特点。

进一步的，采用语音提问和答题的创新方式收集分析被测试者的声纹特征，其特征在于，设计语音提问和语音答题的方式，一方面为被测试人员提供多样化的测试手段，另一方面可以捕捉答题人员的声纹特征进行情绪分析。采用语音提问，方便与被测试人员进行交互，提升其参与测试的积极性；并收集分析被测试人员回答每道题目时的声纹特征。

进一步的，在被测试者测试过程中捕捉其人脸表情并进行分析，其特征在于在被测试人员答题交互过程之中，采用人脸表情识别分析被测试人员的表情，对不同尺寸的特征图进行双向LSTM分析，本专利中采用序列性的数据，在视频流中截取序列图片，对序列图片中的每张图片处理之后再通过串联的方式进行连接，形成情绪数据流之后传入双向LSTM模型，然后对该序列数据进行处理分析。分类得出最终的7种表情结果并整合为积极、中性和消极(积极3种，中性1种，消极3种)以应用于情绪分析。

进一步的，采用融合量表和语音及表情分析的情绪分析方法，其特征在于将被测试人员的标准量表测试结果、语音交互提问和回答结果和测试期间的抽样表情分析结果进行多维度分析，形成更为全面的情绪分析报告。对于被测试人员进行标准量表测试的结果结合每道题的答题时间形成数值和柱状图结果并依据测试得分进行症状分类与治疗调理建议；同样地，对于语音交互提问和回答结果形成形成数值和柱状图结果并依据测试得分进行症状分类与治疗调理建议；对于测试期间的抽样表情分析整合为积极、中性和消极(积极3种，中性1种，消极3种)并提供每种表情图片的数量以便于形成表情分析报告。

进一步的，形成融合量表、语音和表情分析的多模态情绪分析方法，采用多模态深度学习模型，将被测试人员的语音、语音转换为文本和人脸表情图片作为多模态输入，进行融合分析，形成对被测试人员的综合心理健康分析。本发明主要基于现有的多模态序列数据的处理方法，以一种端到端的方式解决多模态语言序列的固有问题，本发明借助多模态数据包含信息的完整性，提出一种基于人的面部表情、声音的语调以及自然语言来理解说话者的情绪分析方法。

进一步的，在所述文本采集过程中，需要根据具体医生和患者对话长短，来选择合适的现有的语音识别技术，更具对数据统计分析，对于开放性较长文本、环境较为复杂的情况下，进行语音初步识别。将开放性问答分成提问者文本和回答者回答文本，并将语音识别中的不足进行修复。将开放性问答提取的问者文本和回答者回答文本进行分词、制作词汇表、词汇表索引映射，获取问题编码和模型输入特征的融合。

附图说明

图1一种基于语音与表情的快速智能情绪测评分析方法测评示意图

图2融合表情、语音和文本特征的多模态快速智能情绪分析方法

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，为本发明的方法包括在线量表测试时记录分析测试者对每道题所用时间，采用语音提问和答题的创新方式收集分析被测试者的声纹特征，采用开放式语音对话收集分析被测试人员的语音和文本特征，在被测试者测试过程中捕捉其人脸表情并进行分析，形成融合量表、语音和表情分析的多模态情绪分析方法。

如图2所示，为本发明融合表情、语音和文本特征的多模态情绪分析方法，本发明采用被测试人员在测评过程中的人脸表情、语音对话中的语音输入和语音转换成的文本进行综合分析，建立被测试人员的多模态特征并进行情绪分析分类。

Claims

1.一种基于语音与表情的快速智能情绪测评分析方法，其特征包括在线量表测试时记录分析测试者对每道题所用时间，采用语音提问和答题的创新方式收集分析被测试者的声纹特征，采用开放式语音对话收集分析被测试人员的语音和文本特征，在被测试者测试过程中捕捉其人脸表情并进行分析，形成融合量表、语音和表情分析的多维度和多模态心情绪分析方法。

2.根据权利要求1所述的在线量表测试时记录分析测试者对每道题所用时间，其特征在于，包括记录分析标准量表每道题的答题时间，语音提问每道题的答题时间，可据此进行数据分析发现被测试人员的心理健康特点；所收集的被测试人员对于每道题的回答时间将在测试报告中以数值和柱状图两种形式进行分析对比，以分析发现被测试人员对于不同题目的回答特点。

3.根据权利要求1所述的采用语音提问和答题的创新方式收集分析被测试者的声纹特征，其特征在于，设计语音提问和语音答题的方式，一方面为被测试人员提供多样化的测试手段，另一方面可以捕捉答题人员的声纹特征进行情绪分析；采用语音提问，方便与被测试人员进行交互，提升其参与测试的积极性；并收集分析被测试人员回答每道题目时的声纹特征。

4.根据权利要求1所述的在被测试者测试过程中捕捉其人脸表情并进行分析，其特征在于在被测试人员答题交互过程之中，采用人脸表情识别分析被测试人员的表情，对不同尺寸的特征图进行双向LSTM分析，本专利中采用序列性的数据，在视频流中截取序列图片，对序列图片中的每张图片处理之后再通过串联的方式进行连接，形成情绪数据流之后传入双向LSTM模型，然后对该序列数据进行处理分析；分类得出最终的7种表情结果并整合为积极、中性和消极(积极3种，中性1种，消极3种)以应用于情绪分析。

5.根据权利要求1所述的采用融合量表和语音及表情分析的多维度情绪分析方法，其特征在于将被测试人员的标准量表测试结果、语音交互提问和回答结果和测试期间的抽样表情分析结果进行多维度分析，形成更为全面的情绪分析报告，对于被测试人员进行标准量表测试的结果结合每道题的答题时间形成数值和柱状图结果并依据测试得分进行症状分类与治疗调理建议；同样地，对于语音交互提问和回答结果形成形成数值和柱状图结果并依据测试得分进行症状分类与治疗调理建议；对于测试期间的抽样表情分析整合为积极、中性和消极(积极3种，中性1种，消极3种)并提供每种表情图片的数量以便于形成表情分析报告。

6.根据权利要求1所述的形成融合量表、语音和表情分析的多模态情绪分析方法，采用多模态深度学习模型，将被测试人员的语音、语音转换为文本和人脸表情图片作为多模态输入，进行融合分析，形成对被测试人员的综合心理健康分析，以一种端到端的方式解决多模态语言序列的固有问题，借助多模态数据包含信息的完整性，提出一种基于人的面部表情、声音的语调以及自然语言来理解说话者的情绪分析方法。