CN111489766B

CN111489766B - 汉语普通话的言语情感识别能力测试评估系统

Info

Publication number: CN111489766B
Application number: CN202010240739.5A
Authority: CN
Inventors: 刘玉和; 任蕾; 魏朝刚; 张致恺; 张燕梅
Original assignee: Peking University First Hospital
Current assignee: Peking University First Hospital
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2022-12-02
Anticipated expiration: 2040-03-31
Also published as: CN111489766A

Abstract

本发明公开了汉语普通话的言语情感识别能力测试评估系统，所述系统包括：音频获取模块，用于获取包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频；语义处理模块，用于对所述有语义语句音频进行模糊处理，得到包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的伪语句音频；噪声获取模块，用于获取噪声音频，并调节噪声音频的强度；音频输出及控制模块，用于在不同信噪比下分别输出所述有语义语句音频和所述伪语句音频；言语情感识别能力评估模块，用于获取人工耳蜗用户在不同信噪比下分别听到所述有语义语句音频和所述伪语句音频后判别言语情感的正确率，进而评估所述人工耳蜗用户的汉语普通话的言语情感识别能力。

Description

汉语普通话的言语情感识别能力测试评估系统

技术领域

本发明涉及医学-生命科学言语情感识别能力评估应用技术领域，特别涉及一种汉语普通话的言语情感识别能力测试评估系统。

背景技术

交流情感是人类社交活动的基本特征，具有跨语言和文化的通用特征。情感传达通过言语内容和非语言信息实现。由于人工耳蜗装置的频谱-时域精细结构(比如音高，谐波)受限，对识别韵律线索影响明显，因此人工耳蜗用户充分理解说话者交际意图和情绪的能力受到明显影响。

目前关于情感语音相关工具分为情感语音数据库和言语情感测听工具两大类。

汉语的情感语音数据库包括：CASIA汉语情感语料库、ACCorpus系列汉语情感数据库以及清华大学、浙江大学、江苏大学、太原理工大学等大学建立的汉语情感语音数据库，主要提供语音情感识别研究的数据基础，为语音情感识别模型的建立提供训练和测试数据，是面向人机交互、人工智能研究的数据库，其目的不是为人工耳蜗植入者康复效果评估提供工具，不适合应用。

临床针对自闭症、抑郁症、帕金森等神经、精神类疾病开发的汉语普通话言语情感测听工具，测试对象是听觉功能正常的患者，目的是为了评估其因心理或认知功能存在障碍是否会导致情感韵律识别受损，不适用于人工耳蜗用户这类听力受损的患者。

发明内容

本发明实施例提供一种汉语普通话的言语情感识别能力测试评估系统，实现对人工耳蜗用户的听觉认知功能中的言语情感识别能力的评估。

本发明实施例提供的一种汉语普通话的言语情感识别能力测试评估系统包括：

音频获取模块，用于获取包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频；

语义处理模块，用于对所述包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频进行模糊处理，得到包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的伪语句音频；

噪声获取模块，用于获取噪声音频，并调节噪声音频的强度；

音频输出及控制模块，用于在不同信噪比下分别输出所述有语义语句音频和所述伪语句音频；

言语情感识别能力评估模块，用于获取人工耳蜗用户在不同信噪比下分别听到所述有语义语句音频和所述伪语句音频后判别言语情感的正确率，并利用所述判别言语情感的正确率，评估所述人工耳蜗用户的汉语普通话的言语情感识别能力。

优选地，所述有语义语句音频包含不同主题的无情感倾向的多个短句音频，每个短句音频包含5-10个字，3-4个关键词。

优选地，所述关键词是具备应用普遍性、语音频谱分布均衡性、使用频次一致性的常用实用词语。

优选地，所述语义处理模块通过对所述有语义语句音频中的关键词进行模糊处理，得到所述伪语句音频。

优选地，所述音频输出及控制模块具体用于：

通过噪声通道将调节后的噪声音频输出至第一播放设备，以便第一播放设备播放所述噪声音频，形成不同信噪比的噪声环境；

在每个信噪比的噪声环境下，通过测试通道分别将所述有语义语句音频和所述伪语句音频输出至第二播放设备，以便第二播放设备分别播放所述有语义语句音频和所述伪语句音频；

在每个信噪比的噪声环境下，当所述有语义语句音频和所述伪语句音频中的任一短句音频播放结束时，启动定时器，以便所述人工耳蜗用户在所述定时器的定时时间内判别其听到的短句音频的言语情感，并在所述定时器超时时播放下一短句音频，直至最后一个短句音频。

优选地，所述音频控制及输出模块还用于在控制所述第一播放设备播放所述噪声时，启动所述定时器，并在所述定时器超时时，控制所述第二播放设备开始播放所述有语义语句音频和所述伪语句音频。

优选地，所述言语情感识别能力评估模块具体用于：

获取人工耳蜗用户在不同信噪比下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率，并利用人工耳蜗用户在不同信噪比下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率，确定正确率为50％时的第一信噪比；

获取人工耳蜗用户在不同信噪比下听到所述伪语句音频中的每个短句音频后判别言语情感的正确率，并利用人工耳蜗用户在不同信噪比下听到所述伪语义语句音频中的每个短句音频后判别言语情感的正确率，确定正确率为50％时的第二信噪比；

根据所述第一信噪比和所述第二信噪比，评估人工耳蜗用户在噪声环境下的言语情感识别能力。

优选地，所述音频输出模块还用于在无噪声环境下，分别输出所述有语义语句音频和所述伪语句音频。

优选地，所述言语情感识别能力评估模块还用于获取人工耳蜗用户在无噪声环境下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率A以及在无噪声环境下听到所述伪语句音频中的每个短句音频后判别言语情感的正确率B，并根据所述正确率A和所述正确率B，确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分。

优选地，所述言语情感识别能力评估模块通过以下公式确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分E：E＝60A+40B。

本发明实施例建立了标准的适用于人工耳蜗用户的汉语普通话的言语情感识别能力测听工具，有助于评估人工耳蜗用户的康复效果，适用于7岁及以上的人工耳蜗用户。

附图说明

图1是本发明实施例提供的一种汉语普通话的言语情感识别能力测试评估系统的结构框图；

图2是本发明实施例提供的一种汉语普通话的言语情感识别能力测试评估系统的处理流程图；

图3是本发明实施例提供的汉语普通话的言语情感识别能力测试评估系统测试环境示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，应当理解，以下所说明的实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是本发明实施例提供的一种汉语普通话的言语情感识别能力测试评估系统的结构框图，如图1所示，所述系统包括：音频获取模块、语义处理模块、噪声获取模块、音频输出及控制模块、言语情感识别能力评估模块，以及第一和第二播放设备。

一、音频获取模块

所述音频获取模块，用于获取包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频。

在一个实施方式中，可以将不同主题的无情感倾向的多个短句保存至汉语普通话短句数据库，并由专业播音员按照高兴、愤怒、悲伤、恐惧和无情感等言语情感要求，录制所述汉语普通话短句数据库中的每个短句，得到已录制的具有高兴、愤怒、悲伤、恐惧和无情感等言语情感的短句音频，并将已录制的具有高兴、愤怒、悲伤、恐惧和无情感等言语情感的短句音频保存至有语义语句音频数据库，这样所述音频获取模块可以从所述有语义语句音频数据库中选取具有高兴、愤怒、悲伤、恐惧和无情感等言语情感的短句音频，形成包含已选取的短句音频的有语义语句音频。

在另一实施方式中，可以将不同主题的无情感倾向的多个短句保存至汉语普通话短句数据库，当需要对人工耳蜗用户进行言语情感识别能力测试评估时，从汉语普通话短句数据库中随机选取不同主题的无情感倾向的多个短句，并按照高兴、愤怒、悲伤、恐惧和无情感等言语情感要求，通过人工智能模块对已选取的多个短句进行录制并缓存。

需要说明的是，所述有语义语句或有语义语句音频包含不同主题的无情感倾向的多个短句或短句音频，每个短句或短句音频包含5-10个字，3-4个关键词，所述关键词是具备应用普遍性、语音频谱分布均衡性、使用频次一致性的常用实用词语。

二、语义处理模块

所述语义处理模块，用于对所述包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频进行模糊处理，得到包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的伪语句音频。

具体地说，所述语义处理模块对所述有语义语句音频中的关键词(例如对每个短句音频的关键词)进行模糊处理，得到所述伪语句音频。

三、噪声获取模块

所述噪声获取模块，用于获取噪声音频，并调节噪声音频的强度。

预先建立Babble噪声数据库，所述Babble噪声数据库中存储多人(例如四人)babble噪声音频，所述噪声获取模块从所述噪声数据库中获取噪声音频。

四、音频输出及控制模块

所述音频输出及控制模块，用于在不同信噪比下分别输出所述有语义语句音频和所述伪语句音频。

具体地说，所述音频输出及控制模块具体用于：通过噪声通道将调节后的噪声音频输出至第一播放设备，以便第一播放设备播放所述噪声音频，形成不同信噪比的噪声环境；在每个信噪比的噪声环境下，通过测试通道分别将所述有语义语句音频和所述伪语句音频输出至第二播放设备，以便第二播放设备分别播放所述有语义语句音频和所述伪语句音频；在每个信噪比的噪声环境下，当所述有语义语句音频和所述伪语句音频中的任一短句音频播放结束时，启动定时器，以便所述人工耳蜗用户在所述定时器的定时时间内判别其听到的短句音频的言语情感，并在所述定时器超时时播放下一短句音频，直至最后一个短句音频。

进一步说，所述音频控制及输出模块还用于在控制所述第一播放设备播放所述噪声时，启动所述定时器，并在所述定时器超时时，控制所述第二播放设备开始播放所述有语义语句音频和所述伪语句音频。

五、言语情感识别能力评估模块

所述言语情感识别能力评估模块，用于获取人工耳蜗用户在不同信噪比下分别听到所述有语义语句音频和所述伪语句音频后判别言语情感的正确率，并利用所述判别言语情感的正确率，评估所述人工耳蜗用户的汉语普通话的言语情感识别能力。

其中，所述言语情感识别能力评估模块具体用于：获取人工耳蜗用户在不同信噪比下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率，并利用人工耳蜗用户在不同信噪比下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率，确定正确率为50％时的第一信噪比；获取人工耳蜗用户在不同信噪比下听到所述伪语句音频中的每个短句音频后判别言语情感的正确率，并利用人工耳蜗用户在不同信噪比下听到所述伪语义语句音频中的每个短句音频后判别言语情感的正确率，确定正确率为50％时的第二信噪比；根据所述第一信噪比和所述第二信噪比，评估人工耳蜗用户在噪声环境下的言语情感识别能力。

具体地说，利用人工耳蜗用户在不同信噪比下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率，绘制关于信噪比和有语义语句音频的言语情感测试正确率的P-I曲线，根据该PI曲线，计算出噪声环境下情感语句判别正确率为50％时的第一信噪比。同样地，利用人工耳蜗用户在不同信噪比下听到所述伪语义语句音频中的每个短句音频后判别言语情感的正确率绘制关于信噪比和伪语句音频的言语情感测试正确率的P-I曲线，根据该PI曲线，计算出噪声环境下情感语句判别正确率为50％时的第二信噪比。

在上述实施例的基础上，所述音频输出模块还可以用于在无噪声环境下，分别输出所述有语义语句音频和所述伪语句音频。此时，所述言语情感识别能力评估模块还用于获取人工耳蜗用户在无噪声环境下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率A以及在无噪声环境下听到所述伪语句音频中的每个短句音频后判别言语情感的正确率B，并根据所述正确率A和所述正确率B，确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分，具体地说，所述言语情感识别能力评估模块通过以下公式确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分E：E＝60A+40B。

需要说明的是，所述系统还应当包括：

显示模块，可以用于显示所述受试者的第一和第二信噪比，还可以用于显示人工耳蜗用户在无噪声环境下的言语情感识别能力得分E。

为了评估人工耳蜗用户的听觉认知功能中的言语情感识别能力，本发明开发了一种用于人工耳蜗用户的汉语普通话的言语情感识别能力测试评估系统，该系统是复杂测试系统，下面结合图2对该系统进行详细说明。

所述汉语普通话的言语情感识别能力测试评估系统包括：

1、用于进行言语情感识别能力评估的汉语普通话短句数据库，该汉语普通话短句数据库中的短句的基本结构构成包括：主语关键词、状语关键词、谓语关键词、定语关键词和宾语关键词。

其中，短句录入原则如下：(1)日常生活中常用的、尽可能口语化的词语，符合日常生活的表达方式。短句可以来源于儿童读物(儿童读物中语句言语情感表达明确)。(2)语句内容无情感倾向。(3)具有应用的普遍性，避免使用由于地方文化差异导致的理解困难的词语。(4)具有汉语语音频谱分布均衡性。(5)关键词发音、语义日常生活使用频次相当，具有一致性。(6)语句按照构成的关键词主题分类形成数据库分库储存，分别为生活和动物、休闲和娱乐、食物和厨房、读书和学习。

每个短句包含5-10个字，包含3-4个关键词。如：我看到你的名字了。

2、由人工智能学习和/或专业播音员演绎，构成五种情感演绎播放软件：(1)由人工智能学习播放和/或专业播音员演绎的五种情感包括高兴、愤怒、悲伤、恐惧和无情感。(2)分别模仿男性、女性播音员(由男性、女性播音员演绎)。(3)符合真实生活特定情感要求，以能够在一般对话中让对方能够理解语句中的韵律情感为目的。(4)保证语句的时程。(5)声学处理后输出音频形成男声-成人导向型、女声-成人导向型、男声-儿童导向型和女声-儿童导向型音频材料。

3、五种情感语句伪语句(或无语义语句)处理：人工智能五种情感演绎播放软件输出情感语句后，软件声学处理后形成保留情感线索的伪语句，语句中各词模糊处理，失去语义。

4、用于干扰语句情感线索和输出环境的Babble噪声数据库，由四人Babble噪声构成的音频材料，输出强度可调节。

5、智能化输出音频信息。软件编程按照播放类别要求随机调取各分库语句，以五种情感演绎播放软件随机播放五种情感，选择伪语句播放时输出为伪语句音频。同时分通道输出Babble噪声，通过改变噪声的大小使信噪比控制为安静状态、0dB、5dB、10dB、15dB，形成音频信号输出。

输出音频标准：以每个语句为独立播放单位，目标信号(即测试语句)播放前有10秒Babble噪声，目标信号播放时无提示音，每个语句播放完毕后有10秒缓冲期，用于在每个语句播放结束后进行情感的判别。

五种情感播放频次一致，输出强度可调节。

6、数据处理单元。

音频输出后，根据被试者对4个主题五种情感语句和伪句安静环境下的测试，分别记录安静环境下汉语普通话言语情感判别的正确率A和伪句言语情感判别的正确率B，计算出安静环境下汉语普通话的言语情感识别能力得分E＝60A+40B。

根据被试者对4个主题五种情感语句和伪句噪声环境下的测试，分别记录不同信噪比情况下汉语普通话言语情感判别的正确率和伪句言语情感判别的正确率，绘制信噪比和言语情感测试正确率P-I曲线，分别计算出噪声环境下情感语句和伪句50％正确率时的信噪比。

7、结果显示单元。

汉语普通话的言语情感识别能力测试评估指标分别以安静环境下汉语普通话的言语情感识别能力得分E和噪声环境下情感语句和伪句50％正确率时的信噪比显示。

本发明根据评估结果及听力情况，可定期追踪人工耳蜗用户言语识别和言语情感识别情况，以便于提出改善人工耳蜗用户的言语情感识别能力的康复策略。

应用实例

国外人工耳蜗用户的言语情感测听工具多以英语、德语等非汉语材料居多，国内外没有针对人工耳蜗用户应用具有声调特征的汉语普通话为材料的言语情感识别能力测试工具，因而本发明实现了一种针对人工耳蜗用户的汉语普通话的言语情感识别能力测试评估系统

下面结合图3进行详细说明。

测试前准备：以matlab程序编写’emotion’软件作为测试软件。测试材料分为：男声-成人导向型、女声-成人导向型材料、男声-儿童导向型材料和女声-儿童导向型材料四块独立播放单位。有安静状态下、噪音状态下两种测试状态可供选择。目标信号(即语句)播放时无提示音，测试者根据目标信号选择他所认为的情绪。测试者使用自身日常生活中的最常用的助听方式进行测试。

测试环境：在自由声场下扬声器给声，声信号位于受试者正前方1米，目标信号刺激声强度为70dB SPL。主试者位于同一声场环境下，与受试者的距离以能明确判断受试者的回答为宜。

测试方法：对受试者进行安静下、噪音下言语识别能力测试(心爱飞扬中文言语测听平台)。主试者打开测试软件(emotion)，进入信息输入界面，输入受试者年龄、性别、左右耳助听方式，选择测试模块(男声-成人导向型、女声-成人导向型材料及男声-儿童导向型材料任一)，进入测试界面。

每个测试模块共50个音频，随机播放，目标信号播放时无提示音，测试者根据目标信号口述他所认为的情绪，主试者点击答案，后台自动记录答案及正确率，然后以同样方式依次完成剩余两个模块。测试过程中若测试者出现疲劳，可适当休息后继续测试。

情感性韵律(通过音高、音量、语速和节奏的变化来传达情感)传达说话人的情感和社会意图。因此，情感韵律的缺失会破坏所有的日常互动和人际关系，影响社会行为。对于儿童来说，说话者情绪状态的韵律提示尤为重要。与婴儿交谈时，与“成人导向的言语”相比，成年人经常使用夸大韵律特征的“婴儿导向语言”。婴儿指导的言语吸引了婴儿的注意力，为他们提供关于说话者交际意图的可靠线索，以及传达在他们的语言和情感发展中起重要作用的情感信息。对于老年人，识别情绪的能力是维持衰老中人际关系的关键因素，也是心理健康的重要资源。在日常生活中，情绪识别的缺乏与社交互动障碍，常导致沟通不畅和心理健康问题。

耳聋是人类最常见的致残性疾病之一，人工耳蜗植入是重度感音神经性听力损失唯一有效的干预措施。对于人工耳蜗术后的患者，以安静状态下、噪音状态下的音素、单词和句子的语音识别能力作为评估人工耳蜗用户的语言交流能力的主要方法，而忽视了言语情感识别能力在真实生活中的重要作用。而本发明旨在开发一项适用于人工耳蜗言语情感识别能力评估的方法，与常用的言语(音素、单词、句子)识别能力测试相结合，其优点主要有：首先，能更全面的评估人工耳蜗用户能否正确理解交流中所传递的情感及意图，反应真正的生活质量。其次，根据不同人工耳蜗患者的异质性，能更加精准的指导其下一步的康复方向；再次，人工耳蜗装置影响人工耳蜗用户识别言语情绪能力，对开发更好的人工耳蜗编码策略产生积极影响。

尽管上文对本发明进行了详细说明，但是本发明不限于此，本技术领域技术人员可以根据本发明的原理进行各种修改。因此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

Claims

1.汉语普通话的言语情感识别能力测试评估系统，其特征在于，所述系统包括：

语义处理模块，用于对所述包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的有语义语句音频中的关键词进行模糊处理，得到失去语义但保留包含高兴、愤怒、悲伤、恐惧和无情感的言语情感的伪语句音频；

言语情感识别能力评估模块，用于获取人工耳蜗用户在不同信噪比下听到所述有语义语句音频后判别言语情感的正确率和听到所述伪语句音频后判别言语情感的正确率，并利用所述人工耳蜗用户在不同信噪比下听到所述有语义语句音频后判别言语情感的正确率和听到所述伪语句音频后判别言语情感的正确率，评估所述人工耳蜗用户的汉语普通话的言语情感识别能力。

2.根据权利要求1所述的系统，其特征在于，所述有语义语句音频包含不同主题的无情感倾向的多个短句音频，每个短句音频包含5-10个字，3-4个关键词。

3.根据权利要求1所述的系统，其特征在于，所述语义处理模块通过对所述有语义语句音频中的关键词进行模糊处理，得到所述伪语句音频。

4.根据权利要求1所述的系统，其特征在于，所述音频输出及控制模块具体用于：

5.根据权利要求4所述的系统，其特征在于，所述音频控制及输出模块还用于在控制所述第一播放设备播放所述噪声音频时，启动所述定时器，并在所述定时器超时时，控制所述第二播放设备开始播放所述有语义语句音频和所述伪语句音频。

6.根据权利要求1所述的系统，其特征在于，所述言语情感识别能力评估模块具体用于：

7.根据权利要求1-6任意一项所述的系统，其特征在于，所述音频输出模块还用于在无噪声环境下，分别输出所述有语义语句音频和所述伪语句音频。

8.根据权利要求7所述的系统，其特征在于，所述言语情感识别能力评估模块还用于获取人工耳蜗用户在无噪声环境下听到所述有语义语句音频中的每个短句音频后判别言语情感的正确率A以及在无噪声环境下听到所述伪语句音频中的每个短句音频后判别言语情感的正确率B，并根据所述正确率A和所述正确率B，确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分。

9.根据权利要求8所述的系统，其特征在于，所述言语情感识别能力评估模块通过以下公式确定人工耳蜗用户在无噪声环境下的言语情感识别能力得分E：E＝60A+40B。