CN110991238A

CN110991238A - 一种基于语音情感分析和微表情识别的演讲辅助系统

Info

Publication number: CN110991238A
Application number: CN201911047454.3A
Authority: CN
Inventors: 逯伟; 辛淼; 冷聪
Original assignee: Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Current assignee: Nanjing Artificial Intelligence Chip Innovation Institute Institute Of Automation Chinese Academy Of Sciences; Institute of Automation of Chinese Academy of Science
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-04-10
Anticipated expiration: 2039-10-30
Also published as: CN110991238B

Abstract

本发明公开了一种基于语音情感分析和微表情识别的演讲辅助系统，包括语音情感分析模块、语音数据收集模块、微表情识别模块、微表情分析模块和语音情感修正模块；所述语音情感分析模块可以在所述语音数据收集模块收集到演讲者演讲时的声音信息后，与非演讲状态下的语音对比进行语音情感分析；所述微表情识别模块可以实时获取观众的微表情，进一步在所述微表情分析模块的帮助下进行情绪分类；所述语音情感修正模块可以帮助演讲者实时进行演讲情绪调动，进一步加强演讲的成熟度。本发明实现了同时检测演讲者语音情感变化和观众微表情变化的功能，并且进一步给予实时情绪修正反馈，有助于优化演讲者的演讲过程。

Description

一种基于语音情感分析和微表情识别的演讲辅助系统

技术领域

本发明涉及一种语音处理和表情处理技术，尤其是一种基于语音情感分析和微表情识别的演讲辅助系统。

背景技术

情感分析技术是人机交互技术的一个非常重要的组成部分，而语音作为人类表达情感极其关键的通道，其中包含了很多关键的情感信息。语音情感分析的最终目的就是让机器能够通过语音来识别人类的情感，从而做出更加合理的决策，这项研究在未来有着极其广泛的应用场景。

微表情属于心理学的专业名词，它可以将表演者内心的真情实感通过自己的微表情展现给其他人，是赋予人们交流与思维的一种工具。戏剧表演艺术是人们通过内心的情感和小表情以及演奏等各种形式表演出来的一门生活艺术，微表情在戏剧表演艺术中的作用越来越重要，是把握表演效果的直接方法。与此同时，微表情也是判断一个人真实情感的最有利的线索。经过几十年的理论发展和试验验证，微表情逐渐被学术界接受和认可，美国已经在这方面进行了几十年的研究工作，已被美国交通运输安全部用于多个机场的安检中。此外，在美国司法审讯、临床医学等领域也进行了应用测试。

对于需要演讲的人来说，想要提高自己的演讲趣味性，可以通过各种方法来改善自己演讲的吸引力，这就需要对自己的语音情感进行高效率的调控，也需要对观众的微表情进行分析，从而做好演讲节奏的最佳调整。

本发明通过对演讲者的语音进行情感分析，将演讲者的演讲状态进行可视化呈现，为演讲者调整状态提供直接有效的参考；同时，通过对观众在听讲过程中的微表情状态进行分析，可以将观众的关注度进行数据整合，为演讲者的状态调整给出优化方向。

发明内容

发明目的：提供一种基于语音情感分析和微表情识别的演讲辅助系统，以解决上述问题。

技术方案：一种基于语音情感分析和微表情识别的演讲辅助系统，包括语音情感分析模块、语音数据收集模块、微表情识别模块、微表情分析模块和语音情感修正模块，可以同时检测演讲者语音情感变化和观众微表情变化的功能，并且进一步给予实时情绪修正反馈，优化演讲者的演讲过程；

语音数据收集模块，收集演讲者在演讲时的声音数据；

语音情感分析模块，可以在所述语音数据收集模块收集到演讲者演讲时的声音信息后，与演讲者非演讲状态下的语音数据进行声音波形、声音强度等方面的对比，从而进行语音情感分析；

微表情识别模块，通过拍摄观众在聆听演讲时的面部照片，截取采样面部表情的几个区域，从而实时获取观众的微表情变化；

微表情分析模块，获取到观众的微表情信息之后，对观众的情绪进行类别划分；

语音情感修正模块，可以帮助演讲者实时进行演讲情绪调动，进一步加强演讲的成熟度；

所述语音数据收集模块，通过与演讲者使用的扩音装置直接进行连接，可以获取外在干扰较少的实时演讲语音信息，通过使用基础的中值滤波和切比雪夫滤波，对声音信号进行基础的模电转换，为后续进一步进行声音对比处理提供数据。

根据本发明的一个方面，所述语音数据情感模块对声音信号进行分析，通过事前录制演讲者在干扰较小的环境中的语音作为无干扰的参照组，与演讲时获取到的演讲声音进行比对分析，具体步骤为：

步骤1、获取一段安静环境下的演讲者语音片段，录制时尽量避开吵闹环境，选择密闭的房间进行录制，保证干扰信息较少，以此录音作为无干扰声音的参考组；

步骤2、对演讲者在演讲时的声音信号进行处理；

步骤21、以分帧的方式处理获取到的演讲语音片段，每一段语音可以按长短需求截取并记录成utterance1、utterance2、utterance3等等，用以标记一句话或者一个语音样本；

步骤22、建立起语音处理的数据参考库，采集国内外经典演讲视频的20个主要LLD特征建立数据集，其中，LLDs是手工设计的一些低水平特征；

步骤23、对语音样本的每一帧的语音信息按照先后顺序标记，分别记作frame1、frame2、frame3等等，使用LLDs在一帧语音上进行计算，用来表示一帧语音的特征；

步骤3、将用于参照的语音信息和获取到的演讲声音片段进行对比处理，分析演讲时的语音情感；

步骤31、对20个特征归一化后，使用汉明窗提取特征，生成的序列特征维度为20；

步骤32、将特征输入CNN和LSTM叠加的网络结构中，其中，CNN指沿时间方向的条状卷积，LSTM指长短期记忆网络，本身有两层；

步骤33、用交叉验证法验证，使用SVM分类器对输出分类。

根据本发明的一个方面，所述微表情识别模块通过人脸识别系统定位到观众席中五官拍摄清晰的面孔，动态拍摄人脸之后对面部微表情进行识别并采集。

根据本发明的一个方面，所述微表情分析模块对拍摄到人脸表情进行类别划分，具体步骤为：、

步骤1、采集拍摄照片中的人脸，将表情标签化；

步骤2、通过GAN网络训练一个生成模型，对输入的人脸图片生成大致相当的中性脸；

步骤3、学习残余在生成模型中的残余表情元素，生成模型中间层的输出，组合并输入到用于面部表情分类的深度模型中，对输出特征进行表情分类。

一种演讲高频词提取方法，针对演讲者语音情绪和观众的微表情调查结果，可以选出演讲中能够引起观众兴趣的高频词并进行适当使用，加强演讲的可听性，具体步骤分为：

步骤1、对演讲者的语音情感输出结果和观众的微表情输出结果进行统计，绘制实时折线图和雷达图，并显示在展示网页上；

步骤2、统计分析后，选出语音情绪和微表情情绪一致的高频关键词并给出优化建议，供演讲者进行实时调整和做事后分析；

步骤3、针对高频词与演讲主题的关系不同，选择使用高频词的不同使用方法，可以进行直接使用法进行高频词强调，或者进一步阐释法对高频词的含义进行详细解释等等。

根据本发明的一个方面，通过分析观众的微表情得出观众的情绪变化曲线之后，可以进一步对演讲者的语音情绪进行修正，避免出现观众失去对演讲的关注度的现象。

根据本发明的一个方面，所述语音情感修正模块可以分成保持流畅、加速总结和带动气氛三种模式，可以对演讲者的语音情绪给出指示性意见，保证演讲过程的趣味性。

附图说明

图1是本发明的系统流程图。

图2是本发明的微表情分析模块得出的表情分类示意图。

图3是本发明的演讲者语音情绪调整方案示意图。

具体实施方式

如图1所示，在该实施例中，一种基于语音情感分析和微表情识别的演讲辅助系统，包括语音情感分析模块、语音数据收集模块、微表情识别模块、微表情分析模块和语音情感修正模块，可以同时检测演讲者语音情感变化和观众微表情变化的功能，并且进一步给予实时情绪修正反馈，优化演讲者的演讲过程；

语音数据收集模块，收集演讲者在演讲时的声音数据；

在进一步的实施例中，所述语音数据情感模块对声音信号进行分析，通过事前录制演讲者在干扰较小的环境中的语音作为无干扰的参照组，与演讲时获取到的演讲声音进行比对分析，具体步骤为：

步骤2、对演讲者在演讲时的声音信号进行处理；

步骤33、用交叉验证法验证，使用SVM分类器对输出分类。

在进一步的实施例中，所述微表情识别模块通过人脸识别系统定位到观众席中五官拍摄清晰的面孔，动态拍摄人脸之后对面部微表情进行识别并采集。

在更进一步的实施例中，人脸识别所使用的定位模板以眉毛、眼睛、鼻子和嘴巴四个为主要识别点，如果出现无法同时识别四个部位的情况下，以亚洲脸型的基础数据模板为参考，直接通过已经准确识别的五官进行距离假定，识别出其他部位。

在进一步的实施例中，所述微表情分析模块对拍摄到人脸表情进行类别划分，具体步骤为：、

步骤1、采集拍摄照片中的人脸，将表情标签化；

步骤3、学习残余在生成模型中的残余表情元素，生成模型中间层的输出，组合并输入到用于面部表情分类的深度模型中，如图二所示，对输出特征进行表情分类。

在进一步的实施例中，通过分析观众的微表情得出观众的情绪变化曲线之后，可以进一步对演讲者的语音情绪进行修正，避免出现观众失去对演讲的关注度的现象。

在更进一步的实施例中，高频词的总结可以在演讲之前就通过演讲稿进行判断，对主题中出现次数较多的词汇直接进行高频词总结，为后面的高频词提取减轻负担；同时，高频词也可以定性为观众反应较为强烈的演讲分段，比如举例说明环节、观众互动环节等等，以此更加精确地控制观众关注度。

在进一步的实施例中，如图三所示，所述语音情感修正模块可以分成保持流畅、加速总结和带动气氛三种模式，可以对演讲者的语音情绪给出指示性意见，保证演讲过程的趣味性。

总之，本发明具有以下优点：基于深度学习技术，提出了一种实时检测演讲者语音情感变化和观众微表情变化相关性分析的工具，可以实时检测演讲者的语音情感状态变化和观众微表情状态变化，实时反馈给演讲者目前观众的状态供演讲者调整演讲方法，或事后对演讲过程进一步优化；实现了实时量化演讲过程大数据；实现了演讲过程中的关键词提取，实时分析演讲效果；实现了可视化演讲过程大数据；根据量化数据，可以不断调整演讲关键词的使用方法。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

Claims

1.一种基于语音情感分析和微表情识别的演讲辅助系统，包括语音情感分析模块、语音数据收集模块、微表情识别模块、微表情分析模块和语音情感修正模块，可以同时检测演讲者语音情感变化和观众微表情变化的功能，并且进一步给予实时情绪修正反馈，优化演讲者的演讲过程；

语音数据收集模块，收集演讲者在演讲时的声音数据；

所述语音数据收集模块，其特征在于，通过与演讲者使用的扩音装置直接进行连接，可以获取外在干扰较少的实时演讲语音信息，通过使用基础的中值滤波和切比雪夫滤波，对声音信号进行基础的模电转换，为后续进一步进行声音对比处理提供数据。

2.根据权利要求1所述的一种基于语音情感分析和微表情识别的演讲辅助系统，其特征在于，所述语音数据情感模块对声音信号进行分析，通过事前录制演讲者在干扰较小的环境中的语音作为无干扰的参照组，与演讲时获取到的演讲声音进行比对分析，具体步骤为：

步骤2、对演讲者在演讲时的声音信号进行处理；

步骤33、用交叉验证法验证，使用SVM分类器对输出分类。

3.根据权利要求1所述的一种基于语音情感分析和微表情识别的演讲辅助系统，其特征在于，所述微表情识别模块通过人脸识别系统定位到观众席中五官拍摄清晰的面孔，动态拍摄人脸之后对面部微表情进行识别并采集。

4.根据权利要求1所述的一种基于语音情感分析和微表情识别的演讲辅助系统，其特征在于，所述微表情分析模块对拍摄到人脸表情进行类别划分，具体步骤为：、

步骤1、采集拍摄照片中的人脸，将表情标签化；

5.一种演讲高频词提取方法，其特征在于，针对演讲者语音情绪和观众的微表情调查结果，可以选出演讲中能够引起观众兴趣的高频词并进行适当使用，加强演讲的可听性，具体步骤分为：

6.根据权利要求5所述的一种演讲高频词提取方法，其特征在于，通过分析观众的微表情得出观众的情绪变化曲线之后，可以进一步对演讲者的语音情绪进行修正，避免出现观众失去对演讲的关注度的现象。

7.根据权利要求1所述的一种基于语音情感分析和微表情识别的演讲辅助系统，其特征在于，所述语音情感修正模块可以分成保持流畅、加速总结和带动气氛三种模式，可以对演讲者的语音情绪给出指示性意见，保证演讲过程的趣味性。