CN112767969A

CN112767969A - 用于语音信息的情感倾向性确定方法及系统

Info

Publication number: CN112767969A
Application number: CN202110128854.8A
Authority: CN
Inventors: 张钰
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-07
Anticipated expiration: 2041-01-29
Also published as: CN112767969B

Abstract

本发明实施例提供一种用于语音信息的情感倾向性确定方法。该方法包括：基于情感词典对语音信息的识别文本进行情感倾向分析，确定识别文本情感倾向的情感值；根据语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分；基于情感倾向的情感值以及与情感倾向对应情绪类型的评分确定混合情感分析结果，以确定语音信息的情感倾向性。本发明实施例还提供一种用于语音信息的情感倾向性确定系统。本发明实施例提升情感倾向性判断的准确率，有助于结合用户情绪及时做到情绪安抚，同时为后期的语音运营提供重要参考。

Description

用于语音信息的情感倾向性确定方法及系统

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音信息的情感倾向性确定方法及系统。

背景技术

通过确定用户的情感倾向，可以有助于针对用户提供合适的信息。在情感分析中，通常是通过机器学习或者语义规则的方式进行文本挖掘，从而判断文本的情感倾向性，另一类是从音频入手，通过提取音频典型特征来判断语音情感倾向性。

主流的情感分析方法是从文本入手。一类是通过利用机器学习的方法。首先对文本数据进行预处理，再将文本进行向量化表示。接着构建情感分类模型，最后依据分类模型进行文本情感极性分析。其常见方法有最大信息熵、朴素贝叶斯、支持向量机等。另一类是采用语义规则的方式进行分析，通过提取文本中关键的情感词，并结合相关修饰词，从篇、章、段、句、词等多维度来分析文本整体的情感倾向。

另一种情感分析方法是从音频信号入手。首先需要对音频进行预处理，主要包括：端点检测、预加重、加窗分帧，再提取音频的韵律特征、音质特征、基于谱的特征、非线性特征等，最后综合考虑以上特征对音频进行情感分类。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、基于文本的情感分析方法，主要研究对象是微博，评论此类的短文本或法律公文等长文本，并非完全适用于语音音频转写出的超短文本。仅考虑了语言学层面传递的情感信息，忽略了音频带来的附加情绪信息，基于文本的情感研究本身已足够复杂，且长短文本已覆盖主流应用场景，从而市面上对实际家庭语音环境下音频转文字的超短文本研究甚少，更不会综合考虑音频信息进行情感分析。

2、基于音频信号的情感分析方法，会受到发音人地域、语言、年龄、教育背景，以及音频本身等多方面影响，对人的几种基本情感混杂情况也无法处理，另外，仅参照音频信号，对于忧伤和厌恶，愤怒和惊奇等暂时还没有很好的办法能准确区分。因此，音频信号更适合用来进行辅助情感分析。其缺陷为研究该领域长期以来的难点。首先，音频信息特征提取方法有限，主要围绕韵律特征展开研究；其次，客观因素导致用于研究的音频无法标准化，例如：发音人地域、语言、年龄等各因素，导致以此入手的各类研究结果差异较大；最后，现实生活中人的情绪表达微妙，部分情感即使是人也难以分辨，例如：忧伤和厌恶，愤怒和惊奇。

发明内容

为了至少解决现有技术中的情感倾向性的方法无法适用于语音音频转写出的超短文本、忽略了音频带来的附加情绪信息、对于部分情绪无法准确的区分的问题。

第一方面，本发明实施例提供一种用于语音信息的情感倾向性确定方法，包括：

基于情感词典对语音信息的识别文本进行情感倾向分析，确定所述识别文本情感倾向的情感值；

根据所述语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分；

基于所述情感倾向的情感值以及与所述情感倾向对应情绪类型的评分确定混合情感分析结果，以确定所述语音信息的情感倾向性。

第二方面，本发明实施例提供一种用于语音信息的情感倾向性确定系统，包括：

情感倾向确定程序模块，用于基于情感词典对语音信息的识别文本进行情感倾向分析，确定所述识别文本情感倾向的情感值；

情绪确定程序模块，用于根据所述语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分；

倾向性确定程序模块，用于基于所述情感倾向的情感值以及与所述情感倾向对应情绪类型的评分确定混合情感分析结果，以确定所述语音信息的情感倾向性。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音信息的情感倾向性确定方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音信息的情感倾向性确定方法的步骤。

本发明实施例的有益效果在于：提升情感倾向性判断的准确率，有助于结合用户情绪及时做到情绪安抚，同时为后期的语音运营提供重要参考。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音信息的情感倾向性确定方法的流程图；

图2是本发明一实施例提供的一种用于语音信息的情感倾向性确定方法的试验数据图；

图3是本发明一实施例提供的一种用于语音信息的情感倾向性确定方法的整体流程图；

图4是本发明一实施例提供的一种用于语音信息的情感倾向性确定系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音信息的情感倾向性确定方法的流程图，包括如下步骤：

S11：基于情感词典对语音信息的识别文本进行情感倾向分析，确定所述识别文本情感倾向的情感值；

S12：根据所述语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分；

S13：基于所述情感倾向的情感值以及与所述情感倾向对应情绪类型的评分确定混合情感分析结果，以确定所述语音信息的情感倾向性。

在本实施方式中，发现当前主流的文本内容的情感分析方法，主要局限在微博、评论等短文本或小说、公文等长文本，对语音识别后的超短文本并不完全适用。另外，该文本分析方法仅考虑了语言学层面传递的情感信息，忽略了音频带来的附加情绪信息。另一类基于音频信号的情感分析方法，不仅会受到发音人地域、语言、年龄等因素的限制，且现有的音频信息分析方法也较为局限。因此，本方法考虑将两种方法进行融合。

对于步骤S11，确定语音信息的情感倾向性需要从其对应的识别文本和语音信号两个方面进行判断。根据情感词典进行识别文本的情感倾向性分析。首先，要构建基础情感词典。本方法需要构建的基础情感词典包括：正面/负面情感词词典、转折词词典、程度副词词典、否定词词典。

作为一种实施方式，在本实施例中，在所述基于情感词典对语音信息的识别文本进行情感倾向分析之前，所述方法包括：

对所述语音信息进行预处理，确定所述语音信息的音频信号；

对所述音频信号进行自动语音识别，得到所述语音信息的识别文本。

所述正面情感词词典、负面情感词词典由基础情感词典确定，包括：

通过中文情感极性词典以及同义词词典对所述基础情感词典扩充；

对扩充后的基础情感词典中的正面情感词、负面情感词合并去重，得到正面情感词词典以及负面情感词词典。

在本实施方式中，本方法以知网HowNet为主体，同时使用台大的NTUSD(中文情感极性词典)以及哈工大的同义词词典对基础情感词典进行扩充，将HowNet里的中文正面情感词和评价词进行合并且去重，再将中文负面情感词和评价词进行融合并去重，从而得到正面情感词典和负面情感词典。

音频识别文本通常简短凝练，因而此处不需要考虑篇章段这类的文本，即文体结构带来的影响。在原始音频送ASR(Automatic Speech Recognition，自动语音识别)后，接着，需要依据识别结果对文本进行分词，例如，可以选用jieba分词。

最后，将分词结果与以上所构建的情感基础词典进行匹配，依据句中出现的各种类型的词语，判断该识别文本的情感倾向值w。

对于步骤S12，根据音频信号信息进行情感分析。目前通常使用音频进行情感特征分析的方法比较有限，主要围绕韵律特征展开研究，且虽然广泛的声学特征包含韵律特征、音质特征、基于谱的特征等，但情绪表达主要体现在韵律特征上。基于此，本方法选用韵律特征来代表声学特征。又因为韵律特征主要为语速、能量、时序、基音频率，从而使用简单易上手的praat软件对音频进行韵律特征提取，将平均音节时长、平均短时能量、平均基频、最大基频、基频范围来代表韵律特征。

作为一种实施方式，在本实施例中，所述情绪类型包括：愤怒、喜悦、平静；

所述根据所述语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分包括：

通过分类器对所述音频信号的韵律特征进行情感分类，得到情感分类结果C_p(m)，其中，所述m对应于各情绪类型的评分。

在情感分析中，可以将情绪划分为三类，包括：愤怒、喜悦、平静，用m来表示分类模型判断所对应的情绪类型，即：m∈{angry，happy，calm}(对于更复杂的情感需求，可以将情绪进一步划分，划分出更多种类，在此不做限定)。

接着使用简单、易用的SVM(Support Vector Machine，支持向量机)分类软件libsvm进行模型训练，选择自动的C-SVM模型工具进行分类，自定义核函数的值默认为3，得到情感分类结果C_p(m)，即文本对应的m类情感值评分。

对于步骤S13，根据以上两步骤的分析结果进行综合判断。将第一部分根据情感词典进行识别文本情感倾向性分析得出的结果w，与第二部分根据韵律特征进行情感分析得出的情感分类结果C_p(m)相结合。其中第二部分提到的三类情绪愤怒、喜悦、平静，去除平静类型的音频，对剩下的愤怒和喜悦两类情绪进行情感值融合。

作为一种实施方式，在本实施例中，所述基于所述情感倾向的情感值以及与所述情感倾向对应情绪类型的评分确定混合情感分析结果包括：

当所述识别文本情感倾向为正面情感时，将喜悦情绪类型的评分与所述识别文本情感倾向的情感值w相结合，得到混合情感分析结果；

当所述识别文本情感倾向为负面情感时，将愤怒情绪类型的评分与所述识别文本情感倾向的情感值w相结合，得到混合情感分析结果。

在本实施方式中，例如将第二部分判断为happy的情感值C_p(m)与第一部分中判断为正面情感倾向的w相结合计算，将第二部分判断为angry的情感值C_p(m)与第一部分中判断为负面情感倾向的w相结合计算。T为最终计算出的情感值。

T＝C_p(m)×w

通过以上步骤，得出了混合情感分析的结果T。据此，可以为语音场景后期的运营，情绪安抚，情感推荐作为重要的参考指标。

对本方法进行试验，将音频数据分为15组，进行方法检验。图2中的P1为仅根据识别文本判断情感倾向的正确性，P2为将音频情绪分类结果与识别文本情感判断结果综合后情感倾向判断的正确性。可以看出P2正确率的百分比均高于P1。

通过该实施方式可以看出，提升情感倾向性判断的准确率，有助于结合用户情绪及时做到情绪安抚，同时为后期的语音运营提供重要参考。例如，当判定用户为愤怒或者负面情绪时，问答回复中可以提升代表“理解”、“包容”词汇的使用频率，另外可以主动推荐轻音乐给客户，对于家居控制的指令回复也应当更精简，且执行速度更快捷；当判定用户为喜悦或正面情感时，问答回复中可以提升代表“赞赏”、“鼓励”词汇的使用频率，另外可以主动推荐新歌或庆祝、喜悦的歌曲给客户，对于家居控制的指令回复也可以适当变长，并可伴有部分推广的内容。

作为一种实施方式，在本实施例中，所述情感词典至少包括：正面情感词词典、负面情感词词典；

所述确定所述识别文本情感倾向的情感值包括：

当所述识别文本至少包括情感词时，所述情感值

其中，所述N为情感词数量，所述P为各情感词对应的情感值，所述j为预设参数。

在本实施方式中，句中仅包含情感词而无其他修饰类词汇。例句：我喜欢听歌。则计算方法为：

其中P是各情感词对应的情感值，N为句中情感词数量，w为计算出的整句情感值。

作为另一种实施方式，在本实施例中，所述情感词典至少还包括：否定词词典；

所述确定所述识别文本情感倾向的情感值包括：

当所述识别文本至少包括情感词和否定词时，所述情感值

其中，所述k为否定词的个数。

在本实施方式中，句中包含情感词和否定副词。例句：我不喜欢听歌。则计算方法为

其中k为否定副词的个数。本方法采用滑动窗口的方式计算k。否定词用于直接反转情感词，例如：不、不要、勿、别等。本方法筛选常用否定副词构建否定词词典，在计算情感词倾向性时，若有否定词出现，则直接将权重赋为-1。

作为一种实施方式，在本实施例中，所述情感词典至少还包括：程度副词词典；

所述确定所述识别文本情感倾向的情感值包括：

当所述识别文本至少包括情感词和程度副词时，所述情感值

其中，所述d为所述程度副词对应的预设权重。

在本实施方式中，句中包含情感词和程度副词。例句：我很喜欢听歌。则计算方法为

其中d为依据下表程度副词所对应的权重值。

程度副词对情感表达也起到至关重要的作用。例如：我特别喜欢周杰伦的歌，其中的“特别”就是可以加深“喜欢”情感词表达的程度副词。

作为一种实施方式，在本实施例中，所述情感词典包括：正面情感词词典、负面情感词词典、否定词词典、程度副词词典；

所述确定所述识别文本情感倾向的情感值包括：

当所述识别文本至少包括情感词、否定词和程度副词，并且所述否定词在所述程度副词之前时，所述情感值

其中，所述k为否定词的个数，所述d为所述程度副词对应的预设权重，所述a为情感词权重。

在本实施方式中，句中同时存在否定词和程度副词，且否定词在程度副词之前。例句：我不太喜欢听歌。即需要对情感词要表达的程度有所削弱，基于此其计算方法为

其中，在设定中，为了削弱，所述a小于1，以削弱情感词的表达程度。例如设定a＝0.7，计算方法为：

作为一种实施方式，在本实施例中，所述方法还包括：

当所述识别文本至少包括情感词、否定词和程度副词，并且所述否定词在所述程度副词之后时，所述情感值

其中，所述b为情感词权重，所述b大于所述a，以加强情感词的表达程度。

在本实施方式中，句中同时存在否定词和程度副词，且否定词在程度副词之后。例句：我非常不喜欢听歌。由于该组合表达方式下所表达的情感更为强烈。基于此其计算方法为

在b的设定时，考虑到情感更为强烈，这里赋予权重值1.3，计算方法为：

作为一种实施方式，在本实施例中，所述情感词典至少包括：转折词词典；

所述确定所述识别文本情感倾向的情感值包括：

当所述识别文本至少包括转折词时，对已确定的情感值w进一步感情加强，得到情绪加强后的情感值。

在本实施方式中，句中包含转折词。例句：但是我很喜欢听歌。可以看出，转折词之后的情绪表达的更强烈。转折词之后通常为用户想重点表达的内容，因此需要提升转折词之后出现的情感词权重比例。本方法选取最常用的转折词构成转折词词典：但、但是、然而、就是、可是、只是、不过、却、觉得、认为。基于此其计算方法为：w＝1.3×w_bef。其中w_bef为根据之前公式计算的w。

图3为本方法的整体流程图，上述流程包括：

步骤1：构建基础情感词典，包括：正面/负面情感词词典、转折词词典、程度副词词典、否定词词典。

步骤1-1：以知网HowNet为主体，使用台大的NTUSD以及哈工大的同义词词典对基础情感词典进行扩充，并将以上词表合并且去重，形成正面情感词典和负面情感词典。

步骤1-2：本方法选取最常用的转折词构成转折词词典：但、但是、然而、就是、可是、只是、不过、却、觉得、认为。

步骤1-3：构建否定词词典。否定词用于直接反转情感词，例如：不、不要、勿、别等。本方法筛选常用否定副词构建否定词词典，在计算情感词倾向性时，若有否定词出现，则直接将权重赋为-1。

步骤1-4：构建程度副词词典。本方法将常见的程度副词分为6个等级，并赋予不同的权重值。具体见上文实施例中的表。

步骤2：在原始音频送ASR后，依据识别结果对文本进行分词，本方法采用应用最广的jieba进行文本分词。

步骤3：将分词结果与以上所构建的情感基础词典进行匹配，依据句中出现的转折词、正面/负面情感词，程度副词和否定词判断该识别文本的情感倾向。其具体计算情感倾向性的方法见上述实施例的公式。

步骤4：提取音频韵律特征。使用praat软件对音频进行韵律特征提取，将平均音节时长、平均短时能量、平均基频、最大基频、基频范围来代表韵律特征。

步骤5：将情绪划分为三类，包括：愤怒、喜悦、平静。使用简单、易用的SVM分类软件libsvm进行模型训练，选择自动的C-SVM模型工具进行分类，自定义核函数的值默认为3。

步骤6：将导入原始音频得到最终情绪分类结果与识别文本情感判断结果综合计算，得到混合情感分析结果。

总的来说，本方法将基于情感词典进行识别文本的情感倾向性分析方法，与基于韵律特征进行情感分析的方法相结合，进行综合情感分析。结合语音音频短小精练，且表达情感单一、集中的特点，使用基于规则的情感词典进行识别文本的情感倾向性分析，并在订立规则中去除段落篇章的因素。

如图4所示为本发明一实施例提供的一种用于语音信息的情感倾向性确定系统的结构示意图，该系统可执行上述任意实施例所述的用于语音信息的情感倾向性确定方法，并配置在终端中。

本实施例提供的一种用于语音信息的情感倾向性确定系统10包括：情感倾向确定程序模块11，情绪确定程序模块12和倾向性确定程序模块13。

其中，情感倾向确定程序模块11用于基于情感词典对语音信息的识别文本进行情感倾向分析，确定所述识别文本情感倾向的情感值；情绪确定程序模块12用于根据所述语音信息的音频信号的韵律特征进行情感分析，确定多个情绪类型各自的评分；倾向性确定程序模块13用于基于所述情感倾向的情感值以及与所述情感倾向对应情绪类型的评分确定混合情感分析结果，以确定所述语音信息的情感倾向性。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音信息的情感倾向性确定方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音信息的情感倾向性确定方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音信息的情感倾向性确定方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。