CN104102627A

CN104102627A - 一种多模态的非接触情感分析记录系统

Info

Publication number: CN104102627A
Application number: CN201410334275.9A
Authority: CN
Inventors: 孙晓; 孙重远; 高飞; 叶嘉麒; 任福继
Original assignee: Hefei University of Technology
Current assignee: Shandong Xinfa Technology Co ltd
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2014-10-15
Anticipated expiration: 2034-07-11
Also published as: CN104102627B

Abstract

本发明公开了一种基于多模态的非接触情感分析记录系统，其特征是组成包括：用于完成从外界环境接收声音的声音接收模块、用于获取语音的音频情感标注信息的声音特征提取与处理模块、用于完成语音内容到文本内容的转换的语音识别模块、用于获取语音的文本情感标注信息的文本特征提取与处理模块、用于完成所有数据处理，存储，调度任务的综合调度模块、用于完成检测到的语音情感状态的显示的显示模块和用于完成时间记录和提供时间标签的功能的时钟模块。本发明能综合文本和音频两个模态对语音情感进行识别，从而提高识别的准确性。

Description

一种多模态的非接触情感分析记录系统

技术领域

本发明涉及人机情感交互领域，具体地说是一种多模态的非接触情感分析记录系统。

背景技术

语言是人与人之间交流最重要的工具，人类的话语中包括了文本符号信息，还饱含了人们的情感，从语音中进行情感信息特征的人工处理，在人工智能领域具有重要意义。人类通过语言来交流，人类的情感是通过多通道多模态表达的，例如通过语言内容、音频、表情和肢体动作等表达情感，语音情感识别就是从语音信号中识别出说话人的情感信息。

目前的研究主要从语音韵律中提取情感特征信息，语音情感识别系统主要依靠语音的低层次声学特征来进行识别，具有代表性的特征是基音频率、共振峰、短时平均过零率和发音持续时间等，这种方法用往往容易导致特征维数较高，模式识别研究表明，准确率不与特征空间的维数成正比，且在高维情况下泛化能力反而会减弱，甚至导致维数灾难。

也有从语言学的角度考虑语音信号中的情感分析，考虑语音文本的语义成分，利用语句的语义和语法提供说话人的情感线索，其中基于的参数主要是情感用语、冗长程度、目的频率、对话历史、词的频率等内容；此方法的不足之处为需要大量的知识，这首先给语音识别就带来了难度，进行语义分析，又需要相关语言知识，这又给情感分析增加了难度，方法复杂，在现阶段难以实现。

在语音情感信息处理领域几乎利用了所有的模式识别手段，例如人工神经网络(ANN)，隐马尔可夫模型(HMM)，混合高斯模型(GMM)，支持向量机(SVM)等，但是如果将所有的这些成果放在一起比较，可以发现特征提取的手段极其局限，几乎所有研究都是采用韵律特征或者这些韵律特征的线性组合和变换作为研究对象，大多只是在音频这个模态进行特征提取与分析，使语音情感特征总是局限在一个较小的范畴，不够全面。

发明内容

本发明克服了现有技术的不足之处，提供一种基多模态的非接触情感分析记录系统，能综合文本和音频两个模态对语音情感进行识别，从而提高识别的准确性。

本发明为解决技术问题采用如下技术方案：

本发明一种基于多模态的非接触情感分析记录系统的特点是组成包括：声音接收模块、声音特征提取与处理模块、语音识别模块、文本特征提取与处理模块、综合调度模块、显示模块和时钟模块；

所述声音接收模块获取外界环境声音并传递给所述语音识别模块以及声音特征提取与处理模块；所述语音识别模块对所接收的外界环境声音利用ASR方法进行候选词识别，获得外界环境声音中的情感关键词和程度副词，根据所述时钟模块对所述外界环境声音中的情感关键词和程度副词给予相应的时间标签，获得包含有关键词时间标签的情感关键词和包含有副词时间标签的程度副词一并传递给所述文本特征提取与处理模块；

所述文本特征提取与处理模块在所设定的周期T内根据所接收的包含有关键词时间标签的情感关键词和包含有副词时间标签的程度副词分别获得动态情感向量E'和动态程度副词向量Q'；并在所设定的周期T内统计单位时间内识别到的情感关键词的数量，从而获得文本情感关键词语速；所述文本特征提取与处理模块根据所设定的文本情感关键词语速阈值S对所述文本情感关键词语速进行比较，并利用特征参数表获得文本情感关键词语速特征修正系数L；由所述动态情感向量E'、动态程度副词向量Q'和文本情感关键词语速特征修正系数L构成文本情感标注信息并传递给所述综合调度模块；

所述声音特征提取与处理模块根据所述外界环境声音进行音量信息统计，获得音量序列，对所述音量序列中音量高于所设定音量阈值V的声音判定为音频，并根据时钟模块给予所述音频相应的音频时间标签，根据所述音频时间标签对在所设定的周期T内的音频进行FFT变换，从而提取幅值信息；所述声音特征提取与处理模块根据所设定情感音量阈值H和情感幅值阈值β分别对在所设定的周期内音频的音量序列和幅值信息进行判定，对超出所述情感音量阈值H和/或情感幅值阈值β的音频进行标注获得音频情感标注信息并传递给综合调度模块；

所述综合调度模块对所接收的文本情感标注信息和音频情感标注信息进行智能决策获得语音情感权值W并传递给显示模块进行显示。

本发明多模态的非接触情感分析记录系统的特点也在于：

所述语音识别模块中利用ASR方法进行候选词识别是按如下步骤进行：

步骤1、在所述语音识别模块中设置由N个待识别的候选词构成的候选词列表，所述候选词列表包括程度副词和X种情感关键词；设定每一种情感关键词的个数都为M个，则有(N-X×M)个程度副词；设定所述情感关键词分为正向情感关键词与负向情感关键词，所述正向情感关键词个数与负向情感关键词的个数相同；

步骤2、所述语音识别模块对所述外界环境声音通过频谱转换为文本特征，对所述文本特征匹配所述候选词列表，从而获得外界环境声音中匹配成功的情感关键词和程度副词。

在所述综合调度模块中设置情感关键词权值表、程度副词表和特征参数表；

所述情感关键词权值表的表项为(A，a)，A为情感关键词，a为情感关键词权值；所述表项的总个数为X×M；所述情感关键词权值分为正向情感关键词权值和负向情感关键词权值；所述情感关键词权值之和为零；定义所述正向情感关键词用正向情感关键词权值来表征；所述负向情感关键词用负向情感关键词权值来表征；

所述程度副词表的表项为(B，b)，B为程度副词，b为程度副词的修正系数；所述表项的总个数为(N-X×M)；

所述特征参数表的表项为(G,x,y)，G为所述情感音量阈值H和情感幅值阈值β和文本情感关键词语速阈值S的集合，x为特征修正系数集合，y为特征影响权值集合。

所述文本情感标注信息按如下步骤获得：

步骤1、初始化一个X×M维的情感向量E(E₁,E₂,E₃,…,E_X×M)和一个N-X×M维的程度副词向量Q(Q₁,Q₂,Q₃,…,Q_N-X×M)；

步骤2、根据所述情感关键词权值表对包含有关键词时间标签的情感关键词进行匹配；对匹配成功的情感关键词获取相应的情感关键词权值并存入所述情感向量E中，从而获得动态情感向量E'(E₁',E₂',E₃',…,E_X×M')；

步骤3、根据所述程度副词表对包含有副词时间标签的程度副词进行匹配，对匹配成功的程度副词获取相应的程度副词的修正系数并存入所述程度副词向量Q中，从而获得动态程度副词向量Q'(Q₁',Q₂',Q₃',…,Q_N-X×M')；

步骤4、若所述文本情感关键词语速超出所述文本情感关键词语速阈值S，则取出所述特征参数表中文本情感关键词语速阈值S所对应的特征修正系数并赋值给文本情感关键词语速特征修正系数L，否则文本情感关键词语速特征修正系数L为初始值。

所述音频情感标注信息按如下步骤获得：

步骤1、定义音频情感标注信息为数据对F(α,δ)并进行初始化；定义情感音量数据对C₁(x₁,y₁)和情感幅值数据对C₂(x₂,y₂)；

步骤2、根据所设定情感音量阈值H、情感幅值阈值β分别对所述音频的音量序列和幅值信息进行判定，若所述音量序列中的任意一个音量值与音量序列的平均值之差大于等于所设定情感音量阈值H，则取出所述特征参数表中情感音量阈值H所对应的特征修正系数和特征影响权值并存入所述情感音量数据对C₁(x₁,y₁)中，否则C₁为初始值；

步骤3、若所提取幅值信息中的任意一个采样点幅值绝对值减去所述幅值信息绝对值的平均值之差大于所述情感幅值阈值β乘以所述幅值信息绝对值的平均值，则取出所述特征参数表中情感幅值阈值β所对应的特征系数和特征影响权值并存入所述情感幅值数据对C₂(x₂,y₂)中，否则C₂为初始值；

步骤4、利用式(1)获得数据对F(α,δ)：

F(α,δ)＝(x₁×x₂,y₁+y₂) (1)。

所述智能决策按如下步骤进行：

步骤1、利用式(2)获得文本情感量P：

P = Σ_{i = 1}^{X \times M} {E_{i}}^{'} - - - (2)

步骤2、利用式(3)获得文本程度副词修正系数K：

K = K_{0} \times Σ_{m = 1}^{N - X \times M} {Q_{m}}^{'} - - - (3)

式(3)中，K₀表示文本程度副词修正系数K的初始值；

步骤3、利用式(4)获得文本情感权值Z：

Z＝P×K×L (4)

步骤4、利用式(5)对所述文本情感权值Z和所述音频情感标注信息F(α,δ)进行特征融合，从而获得所设定的周期T内语音情感权值W：

W = \{\begin{matrix} α \times Z & (z &NotEqual; 0) \\ δ & (z &NotEqual; 0) \end{matrix} - - - (5) .

与现有技术相比，本发明的有益效果体现在：

1、本发明通过在语音识别模块采用ASR技术完成对语音文本内容的识别，可以不对用户作任何地录音训练，就达到将语音在文本模态下的情感表征为情感关键词的目的，并且识别内容可以动态修改；并通过动态情感向量和动态程度副词向量降低了文本情感的特征维度，提高了系统运行效率，为长时间实时工作提供了可能性。

2、本发明通过文本特征提取与处理模块获取语音的文本情感标注信息和声音特征提取与处理模块获取音频情感标注信息，对语音在文本与音频的多模态下进行情感提取，并相互修正，扩大了语音情感处理的特征范围，解决了现有技术中语音情感信息处理特征的局限性，避免了在一些情况下由于特征不足而带来的识别错误，提高了识别的准确率。

3、本发明在综合调度模块对文本与音频标注信息进行智能决策，在文本标注信息对系统影响大的情况下，音频特征参数附着于文本特征参数，使用音频标注信息中的修正系数起修正作用；在文本标注信息对系统无影响情况下，丢弃文本特征参数，使用音频特征参数影响权值来表征结果。这样适应更多环境条件下的语音情感识别，实现语音在文本和音频模态下情感特征的真正融合，提高了识别准确率。

4、人类的情感是通过多通道多模态表达的，本发明装置可以判断周围环境中的人语音的音频和文本中饱含的情感成分，并可以进行实时持续的处理和显示，同时还具有记录功能。且本发明在嵌入式平台开发实现，设备小型化；而现在进行语音情感分析的仪器设备大多采用PC机作为数据处理和运算的主要部分，体积较大，而且PC机在对于同一问题的处理上，硬件配置有较多的冗余，性能不能得到充分发挥，采用嵌入式平台可以有效降低成本，减少体积。另外，在这类开发平台上，可以很简便地通过一定的协议端口和各种传感器，运动模块，处理模块连接，完成更深程度的开发。

5、本发明是综合音频和文本两个模态对说话人的情感进行识别，可以不间断的对说话人情感进行识别，并可以记录下说话人的情感变换，可以达到无接触识别人类情感情绪的目标，在医疗、教育、家庭、健康陪护等领域有非常广阔的应用前景。

附图说明

图1为本发明系统模块示意图；

图2为本发明系统实例化装置图。

具体实施方式

本实施例中，如图1所示，一种基于多模态的非接触情感分析记录系统的组成包括：声音接收模块：用于完成从外界环境接收声音；声音特征提取与处理模块：用于获取语音的音频情感标注信息；语音识别模块：用于完成语音内容到文本内容的转换；文本特征提取与处理模块：用于获取语音的文本情感标注信息；综合调度模块：用于完成所有数据处理，存储，调度任务；显示模块：用于完成检测到的语音情感状态的显示；时钟模块：用于完成时间记录和提供时间标签的功能；存储模块：用于完成记录开机状态下所有输入语音的情感标注信息；按键模块：用于开关、设置时间、选择、确定等操作；

在综合调度模块中设置情感关键词权值表、程度副词表和特征参数表；

情感关键词权值表的表项为(A,a)，A为情感关键词，a为情感关键词权值；表项的总个数为X×M；情感关键词权值实际上就是给每个情感关键词赋予一定的情感权值，情感关键词权值分为正向情感关键词权值和负向情感关键词权值；正向情感关键词权值的符号“+”，负向情感关键词权值的符号为“-”；情感关键词权值之和为零；从而保证了系统的正确性，因为若所设置的权值之和不为零，则会使该系统产生了一定的情感偏置，让系统自身带有情感倾向性，影响结果的判定，例如权值之和若为正，则该系统对文本的特征处理结果会倾向于正面情感，反之亦然；定义正向情感关键词用正向情感关键词权值来表征；负向情感关键词用负向情感关键词权值来表征；情感关键词权值的符号表示情感关键词的正负向极性，情感关键词数值的大小表示情感关键词的情感强弱；

程度副词表的表项为(B,b)，B为程度副词，b为程度副词的修正系数；表项的总个数为(N-X×M)；程度副词的修正系数表征了程度副词的程度强弱，程度副词对应的修正系数越大，则说明该程度副词的程度越深，程度副词修正系数b的范围一般为0≤b≤2；

特征参数表的表项为(G,x,y)，G为情感音量阈值H、情感幅值阈值β和文本情感关键词语速阈值S的集合，x为特征修正系数集合，y为特征影响权值集合；情感音量阈值H和情感幅值阈值β是对音频进行特征提取的参数音量和音调进行判定所设定的阈值，而文本情感关键词语速阈值S则是对文本进行特征提取的参数文本情感关键词语速进行判定所设定的阈值。设定特征修正系数集合x和特征影响权值集合y是为了在对文本情感标注信息和音频情感标注信息进行智能决策时可以分情况进行。

声音接收模块获取外界环境声音并传递给语音识别模块以及声音特征提取与处理模块；语音识别模块对所接收的外界环境声音利用ASR方法进行候选词识别，获得外界环境声音内容中的情感关键词和程度副词，ASR方法是基于候选词列表识别技术,只需要设定好要识别的候选词列表，并把这些关键词语以字符的形式传送到语音芯片内部，就可以对用户说出的候选词进行识别，ASR技术最重要的现实意义就在于提供了一种脱离按键，键盘，鼠标的基于语音的用户界面VUI：Voice User Interface；使得用户对于产品的操作更快速，更自然。具体可分为如下步骤：

步骤1、在语音识别模块中设置N个待识别的候选词构成的候选词列表，候选词列表包括程序副词和X种情感关键词；设定每一种情感关键词的个数都为M个，则有(N-X×M)个程度副词；设定情感关键词分为正向情感关键词与负向情感关键词，正向情感关键词个数与负向情感关键词的个数相同；在语音识别模块中所设置的待识别的情感关键词与情感关键词权值表的表项一一对应；而语音识别模块候选词中的程度副与词程度副词表的表项一一对应；

步骤2、语音识别模块对外界环境声音内容通过频谱转换为文本特征，对文本特征在候选词列表中进行匹配，从而获得外界环境声音内容中匹配成功的情感关键词和程度副词。

声音接收模块根据时钟模块对外界环境声音中的情感关键词和程度副词给予相应的时间标签，时钟模块用于时间记录和给出当前时间信息，从而能给出所识别出的情感关键词和程度副词的时间点记录，例如，在10:05分识别到情感关键词“高兴”，则给予“高兴”的关键词时间标签为(10:05)；同理可得程度副词的副词时间标签；从而获得包含有关键词时间标签的情感关键词和包含有副词时间标签的程度副词一并传递给文本特征提取与处理模块；

文本特征提取与处理模块在所设定的周期T内根据所接收的包含有关键词时间标签的情感关键词和包含有副词时间标签的程度副词分别获得动态情感向量E'和动态程度副词向量Q'，其中，所设定的周期T为本系统进行情感分析的周期；利用关键词时间标签、副词时间标签和音频时间标签是否在周期T内实现文本与音频两个模态的时间对应关系；动态情感向量E'用来记录表征文本情感量的情感关键词的情感关键词权值，动态程度副词向量Q'用来记录程度副词的修正系数；并在所设定的周期T内统计单位时间内识别到的情感关键词的数量，从而获得文本情感关键词语速，即通过统计在周期T内识别出的情感关键词数量除以周期T获得文本情感关键词语速，若单位时间内识别出的情感关键词越多说明此时用户的情感越强烈；文本特征提取与处理模块根据所设定的文本情感关键词语速阈值S对文本情感关键词语速进行比较，并利用特征参数表获得文本情感关键词语速特征修正系数L；由动态情感向量E'、动态程度副词向量Q'和文本情感关键词语速特征修正系数L构成文本情感标注信息并传递给综合调度模块；文本情感标注信息的获取步骤具体如下：

步骤1、初始化一个X×M维的情感向量E(E₁,E₂,E₃,…,E_X×M)和一个N-X×M维的程度副词向量Q(Q₁,Q₂,Q₃,…,Q_N-X×M)，E和Q的各分量初始值均为0；

步骤2、根据情感关键词权值表对包含有关键词时间标签的情感关键词进行匹配；对匹配成功的情感关键词获取相应的情感关键词权值并存入情感向量E中，从而获得动态情感向量E'(E₁',E₂',E₃',…,E_X×M')；即将识别出的情感关键词的情感关键词权值写入初始化的情感向量E中，未写入的分量仍为初始值0；

步骤3、根据程度副词表对包含有副词时间标签的程度副词进行匹配，对匹配成功的程度副词获取相应的程度副词的修正系数并存入程度副词向量Q中，从而动态程度副词向量Q'(Q₁',Q₂',Q₃',…,Q_N-X×M')；

步骤4、若文本情感关键词语速超出文本情感关键词语速阈值S，则取出特征参数表中文本情感关键词语速阈值S所对应的特征修正系数并赋值给文本情感关键词语速特征修正系数L，否则文本情感关键词语速特征修正系数L为初始值，本实施例中，文本情感关键词语速特征修正系数L的初始值为1，也就是说如果文本情感关键词语速未超出文本情感关键词语速阈值S，则对文本情感无影响。

声音特征提取与处理模块根据外界环境声音进行音量信息统计，获得音量序列，对音量序列中音量高于所设定音量阈值V的声音判定为音频，一般取35≤V≤45；人的语音音量一般为：35-45分贝，当声音音量低于35分贝时，可以说明外界环境中没有语音，因此所设定音量阈值V要大于35分贝；若所设定音量阈值V大于45分贝时，则会有很多语音被屏蔽而无法识别出来；声音特征提取与处理模块根据时钟模块给予音频相应的音频时间标签，通过音频时间标签可以判定音频所属的时间段，进而将语音的音频和文本对应上。根据音频时间标签对在所设定的周期T内的音频进行FFT变换，从而提取幅值信息，将音频信号从时域变换到频域，FFT算法的采样频率为10KHz，采样点数为64，经过FFT变换之后，就可以得到64个点的FFT结果用于提取幅值信息；声音特征提取与处理模块根据所设定情感音量阈值H和情感幅值阈值β分别对在所设定的周期内音频的音量序列和幅值信息进行判定，当在所设定的周期T内音频持续着一定的音量，而突然在某个时刻音量变大了，说明此时产生了情感，现有技术中，音量0-20分贝为很静、几乎感觉不到；20-40分贝为安静、犹如轻声絮语。40-60分贝为一般；普通室内交谈60-70分贝为吵闹、有损神经。70-90分贝为吵、神经细胞受破坏。因此设定情感音量阈值L为：10≤L≤20；而幅值的判定实际上是对时域下音频音调的判定，即当音调突然变高，一般情况下能说明说话人的情感发生了波动；本实施例中，情感幅值阈值β为增量，且取值范围为：0.2≤β≤0.3；对超出情感音量阈值H和/或情感幅值阈值β的音频进行标注获得音频情感标注信息并传递给综合调度模块；具体的分为如下步骤：

步骤1、定义音频情感标注信息为数据对F(α,δ)并进行初始化；初始化值为F(0,0)；定义情感音量数据对C₁(x₁,y₁)和情感幅值数据对C₂(x₂,y₂)；

步骤2、根据所设定情感音量阈值H、情感幅值阈值β分别对音频的音量序列音量信息、幅值信息进行判定，若音量序列中的任意一个音量值与音量序列的平均值之差大于等于所设定情感音量阈值H，即：

音量序列中的任一音量值-音量序列的平均音量值≥H

则取出特征参数表中情感音量阈值H所对应的特征修正系数和特征影响权值存入数据对C₁(x₁,y₁)中，否则C₁为初始值(1,0)；

步骤3、若所提取幅值信息中的任意一个采样点幅值绝对值减去幅值信息绝对值的平均值之差大于情感幅值阈值β乘以幅值信息绝对值的平均值，即

则取出特征参数表中情感幅值阈值β所对应的特征系数和特征影响权值存入数据对C₂(x₂,y₂)中，否则C₂为初始值(1,0)；

步骤4、利用式(1)获得数据对F(α,δ)：

F(α,δ)＝(x₁×x₂,y₁+y₂) (1)

式(1)表示对情感音量阈值H、情感幅值阈值β的特征修正系数进行整合采用的运算为相乘，而对情感音量阈值H、情感幅值阈值β的特征修正系数进行整合采用的运算为相加。

综合调度模块对所接收的文本情感标注信息和音频情感标注信息进行智能决策获得语音情感权值W，具体是按如下步骤进行：

步骤1、根据接收到的文本情感标注信息，利用式(2)获得由情感关键词表征的文本情感量P：

P = Σ_{i = 1}^{X \times M} {E_{i}}^{'} - - - (2)

步骤2、利用式(3)获得文本程度副词修正系数K：

K = K_{0} \times Σ_{m = 1}^{N - X \times M} {Q_{m}}^{'} - - - (3)

步骤3、通过文本程度副词修正系数K和文本情感关键词语速特征修正系数L修正文本情感量P，实现文本模态下的局部特征融合，利用式(4)获得文本情感权值Z：

Z＝P×K×L (4)

步骤4、利用式(5)对文本情感权值Z和音频情感标注信息F(α,δ)进行特征融合，以文本为基础特征，语音为附着特征，实现语音在文本和音频的多模态基础上的全局决策融合，使得文本情感标注信息和音频情感标注信息特征融合后，系统可以达到整体最优；从而获得所设定的周期T内语音的情感权值W：

W = \{\begin{matrix} α \times Z & (z &NotEqual; 0) \\ δ & (z &NotEqual; 0) \end{matrix} - - - (5) .

即若当前语音文本模态下有情感即Z≠0，则音频情感标注信息F(α,δ)对文本情感权值Z起修正作用，使用修正系数α修正文本情感权值；若此时语音在文本模态下没有情感即Z＝0，则音频标注信息作为独立的情感特征来处理，由音频标注信息中的特征影响权值δ来表征本段语音中的情感，这样能够适应更多情况下的语音情感分析。例如当某个人说了一些带有情感词的文本，但是由于说话对象或者说话环境的原因，说的比较平静，音量也比较小，那么现有研究中基于语音韵律中提取情感特征信息，就会将这个人此刻判定为没有什么情感，而在本装置中，在音频模态特征上是无情感的，但是在文本模态特征上是有较强情感的，因此最后识别出来的结果仍然是有较强情感的。这样使系统在简化方法，降低特征维数，减少计算量的同时，保证系统正确率不会下降，从而达到最终的整体最优。

综合调度模块将情感权值W传递给显示模块进行显示。显示模块通过LED灯颜色和范围大小来表征情感的类型和强弱，因此我们可以通过观察显示模块的颜色和范围，得到说话人的当前的情感；通过显示模块颜色的变化和范围的变化得到说话人当前的情感变化。

本系统同时还设有存储模块，存储模块通过TF卡记录开机状态下所有外界环境声音中语音的文本情感标注信息与音频情感标注信息，并可以通过USB与电脑相连直接上传数据，用以长期记录使用者的语音情感状态。

本实施例中，将本系统通过嵌入式平台来实现的一种多模态非接触情感分析记录装置如图2所示，

声音接收模块采用高保真麦克风以及其相关电路，语音识别模块使用LD3320作为语音处理芯片，LD3320是一颗使用ASR技术的语音识别/声控芯片，该芯片集成了语音识别处理器和一些外部电路，包括ADC、DAC、麦克风接口、声音输出接口等；

本实施例中，在语音识别模块LD3320中设置候选词个数N为50，情感关键词类别X设置为6，6类情感关键词分别表征语音文本内容中情感的高兴、感激、惊喜、愤怒、难过和恐惧，前三类情感关键词用来表征正面情感，后三类情感关键词用来表征负面情感，程度副词个数为8个，用来修正情感关键词权值，所设置的候选词列表如表1所示：

表1候选词列表

综合调度模块采用阿德伟诺电子原型平台，并可以在其中编程实现文本特征提取与处理模块、声音特征提取与处理模块的功能。阿德伟诺是一个基于开放原码的嵌入式开发软硬件平台，包含硬件(各种型号的阿德伟诺板)和软件(阿德伟诺IDE)，并且具有类似Java，C语言的Processing/Wiring开发环境，

在综合调度模块中设置情感关键词权值表如表2所示：

表2情感关键词表

情感关键词A

高兴

喜悦

兴奋

激动

得意

欢喜

欣喜

快活

情感关键词权值a

+10

+9

+8

+7

+6

情感关键词A

感恩

感激

感动

感谢

答谢

称赞

赞颂

承蒙

情感关键词权值a

+10

+9

+8

+7

+6

情感关键词A

惊喜

喜出望外

疼爱

欣喜

叹服

敬佩

惊讶

好奇

情感关键词权值a

+10

+9

+8

+7

情感关键词A

难过

伤心

堵

烦恼

沮丧

苦闷

悔恨

感伤

情感关键词权值a

-10

-9

-8

-7

情感关键词A

发飙

发火

来火

怒火中烧

来气

痛恨

厌恶

讨厌

情感关键词权值a

-10

-9

-8

-7

-6

情感关键词A

惊惧

恐慌

害怕

慌张

焦虑

担忧

担心

惶恐

情感关键词权值a

-10

-9

-8

-7

-6

在本系统中，选词和赋权的过程都是在实验人员参考实际会话情况下进行的，使得系统的决策更符合实际会话情况。在本装置中，若先后识别出情感关键词“高兴”，“兴奋”,“感谢”，“惊喜”，“烦恼”，“苦闷”，“痛恨”，则动态情感向量为E'(+10,+9,+9,+10,-9,-9,-8,0,0,0…,0,0)。

设置程度副词表如表3所示：

表3程度副词表实例化

程度副词B	极其	非常	特别	很	些许	稍微	有点儿	略微
									修正系数b	2.0	1.8	1.6	1.4	0.8	0.6	0.4	0.2

使用程度副词来修正情感关键词权值，例如“难过”比“感伤”的情感程度要深，但是“有点难过”的负面情感程度则没有“非常感伤”深，因此通过对修饰情感关键词的程度副词的识别来达到修正情感关键词权值的作用，能够更有效的识别情感的强弱。例如，在本装置中，若先后识别出程度副词“非常”，“很”，“特别”，则动态程度副词向量为Q'(2,1.4,1.6,0,0,0,0,0)。

设置特征参数表如表4所示：

表4特征参数表

特征参数G	特征修正系数x	特征影响权值y
			情感音量阈值L	1.4	8
情感幅值阈值β	1.2	4
			文本情感关键词语速阈值S	1.2	4

本装置中设置音量阈值V为40分贝，设置情感音量阈值H为15分贝，设置情感幅值阈值β为0.2，设置文本情感关键词语速阈值S为5词/分钟。

存储模块采用TF存储卡及其周围电路，可以通过USB与电脑相连直接上传数据。

时钟模块采用DS1302时钟电路，具有备用电路，断电维持计时。DS1302是一种高性能、低功耗、带RAM的实时时钟电路，它可以对年、月、日、时、分、秒进行计时，常用于数据记录，在本装置中，设置时间标签为记录时和分。

显示模块为采用LED构成的三原色点阵平面，每个颜色的LED点阵平面为十个灯，显示检测到的语音的情感状态，偏红代表负面情感较多，偏蓝色为平衡状态，偏绿色为正面情感较多。将语音的情感权值W映射到[-10,10]之间，W的绝对值每加1，相应颜色的LED灯就会多亮一个，而若情感权值为0，则蓝色的LED点阵平面全亮，最终通过观察LED灯的颜色和范围可以了解语音的情感正负和强弱。实验人员对本实例化装置进行了测试，结果证实了所发明系统的有效性。

Claims

1.一种基于多模态的非接触情感分析记录系统，其特征是组成包括：声音接收模块、声音特征提取与处理模块、语音识别模块、文本特征提取与处理模块、综合调度模块、显示模块和时钟模块；

2.根据权利要求1所述的多模态的非接触情感分析记录系统，其特征是：

3.根据权利要求2所述的多模态的非接触情感分析记录系统，其特征是：在所述综合调度模块中设置情感关键词权值表、程度副词表和特征参数表；

4.根据权利要求3所述的多模态的非接触情感分析记录系统，其特征是，所述文本情感标注信息按如下步骤获得：

5.根据权利要求4所述的多模态的非接触情感分析记录系统，其特征是，所述音频情感标注信息按如下步骤获得：

步骤4、利用式(1)获得数据对F(α,δ)：

F(α,δ)＝(x₁×x₂,y₁+y₂) (1)。

6.根据权利要求5所述的多模态的非接触情感分析记录系统，其特征是：所述智能决策按如下步骤进行：

步骤1、利用式(2)获得文本情感量P：

P = Σ_{i = 1}^{X \times M} {E_{i}}^{'} - - - (2)

步骤2、利用式(3)获得文本程度副词修正系数K：

K = K_{0} \times Σ_{m = 1}^{N - X \times M} {Q_{m}}^{'} - - - (3)

式(3)中，K₀表示文本程度副词修正系数K的初始值；

步骤3、利用式(4)获得文本情感权值Z：

Z＝P×K×L (4)

W = \{\begin{matrix} α \times Z & (z &NotEqual; 0) \\ δ & (z &NotEqual; 0) \end{matrix} - - - (5) .