CN106782615A - 语音数据情感检测方法和装置及系统 - Google Patents

语音数据情感检测方法和装置及系统 Download PDF

Info

Publication number
CN106782615A
CN106782615A CN201611184299.6A CN201611184299A CN106782615A CN 106782615 A CN106782615 A CN 106782615A CN 201611184299 A CN201611184299 A CN 201611184299A CN 106782615 A CN106782615 A CN 106782615A
Authority
CN
China
Prior art keywords
speech data
feature
emotion detection
emotion
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611184299.6A
Other languages
English (en)
Other versions
CN106782615B (zh
Inventor
李宝善
李承程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201611184299.6A priority Critical patent/CN106782615B/zh
Publication of CN106782615A publication Critical patent/CN106782615A/zh
Application granted granted Critical
Publication of CN106782615B publication Critical patent/CN106782615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Abstract

本申请提出一种语音数据情感检测方法和装置及系统,该语音数据情感检测方法包括:接收待检测语音数据;获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。该方法能够提高语音数据的情感类型的检测准确度。

Description

语音数据情感检测方法和装置及系统
技术领域
本申请涉及自然语言理解及语音信号处理技术领域,尤其涉及一种语音数据情感检测方法和装置及系统。
背景技术
随着呼叫中心业务的不断发展,客服服务总量越来越大,客户对服务的质量要求也越来越高;对于呼叫中心来说,服务质量是呼叫中心的生存之本;尤其是在客户带着情绪或疑问拨入热线时,客服人员很难在第一时间了解客户的真实想法和需求,无法做出准确的应答,进而容易放大客户的不满情绪,客服在这种情况下也容易出现带有情绪的表达;因此,为了提高服务质量,呼叫中心一般会对客服与客户的通话进行监测,同时对客服的语音数据进行情感检测,当客服出现不满情绪时,给出提示,方便客服及时调整自己的情绪。
相关技术中,语音数据情感检测方法一般通过对语音信号进行分析的方法进行情感检测,具体检测时,首先接收待检测语音数据;然后对所述待检测语音数据进行信号分析,如分析待检测语音数据音量、语速、能量、基频、声调等时域特征,设定相应阈值,判断待检测语音数据的情感类型。
所述方法仅仅对语音数据进行声学上的分析,由于一些带有情感色彩的词语往往在声学上没有明显的异常,仅仅通过分析语音信号无法检测出语音数据所属情感,从而导致语音数据的情感类型的检测准确度较低。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音数据情感检测方法,该方法可以提高语音数据的情感类型的检测准确度。
本申请的另一个目的在于提出一种语音数据情感检测装置。
本申请的另一个目的在于提出一种语音数据情感检测系统。
为达到上述目的,本申请第一方面实施例提出的语音数据情感检测方法,包括:接收待检测语音数据;获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
本申请第一方面实施例提出的语音数据情感检测方法,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
为达到上述目的,本申请第二方面实施例提出的语音数据情感检测装置,包括:接收模块,用于接收待检测语音数据;获取模块,用于获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;识别模块,用于根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
本申请第二方面实施例提出的语音数据情感检测装置,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
为达到上述目的,本申请第三方面实施例提出的语音数据情感检测系统,包括:客户端,用于采集说话人说出的待检测语音数据;服务端,用于接收所述客户端发送的所述待检测语音数据;获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;以及,根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
本申请第三方面实施例提出的语音数据情感检测系统,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音数据情感检测方法的流程示意图;
图2是本申请另一个实施例提出的语音数据情感检测方法的流程示意图;
图3是本申请另一个实施例提出的语音数据情感检测方法的流程示意图;
图4是本申请实施例中获取情感检测特征的方法的流程示意图;
图5是本申请一个实施例提出的语音数据情感检测装置的结构示意图;
图6是本申请另一个实施例提出的语音数据情感检测装置的结构示意图;
图7是本申请一个实施例提出的语音数据情感检测系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音数据情感检测方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:接收待检测语音数据。
待检测语音数据例如为客服与客户通话时的客服语音数据。当然,所述待检测语音数据也可以为其它语音数据,如客户语音数据、采访时采访人的语音数据、会议时主持人的语音数据等,具体可以根据应用需求确定。
待检测语音数据可以以句为单位,从而可以对应每句语音数据进行情感检测,得到每句语音数据的情感类型,以便根据检测得到的情感类型及时通知客服注意自己的情绪,如说话用词或说话语气等。
以句为单位的待检测语音数据可以为单句语音数据,或者,也可以为多句连续语音数据中的每一句。
S12:获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征。
声学情感检测特征是指语音数据的声学上的特征,语义情感检测特征是指语音数据的语义上的特征。
在后续内容中,还会涉及获取样本的情感检测特征的步骤,因此,此处的语音数据以及后续的样本可以统称为待提取语音数据。具体的获取待提取语音数据的情感检测特征的方法可以参见后续内容。
以句为单位对语音数据情感进行检测时,当前句的语音数据的历史状态特征是指当前句所属的一段语音数据中,当前句之前的每句语音数据的情感类型,当待检测语音数据为单句语音数据或多句连续语音数据的首句时,历史状态特征为0;当待检测语音数据为多句连续语音数据的非首句时,则待检测语音数据的历史状态特征为连续语音数据中当前句之前每句待检测语音数据的情感类型。
S13:根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
具体构建情感检测模型的方法可以参见后续描述。
情感检测模型的输入为情感检测特征和历史状态特征,输出为情感类型信息,从而在获取到待检测语音数据的情感检测特征和历史状态特征后,将获取的情感检测特征和历史状态特征作为情感检测模型的输入,得到情感检测模型输出的情感类型信息,再根据情感类型信息确定待检测语音数据的情感类型,比如,情感类型信息为每种预设情感类型的概率值,则将概率值最高的情感类型确定为待检测语音数据的情感类型。
所述语音数据的情感类型是指按照语音数据中句子的情感将句子划分的类型,情感类型包括但不限于:中性、负向、正向等。
进一步地,在检测得到语音数据的情感类型后,可以将情感类型及时通知给说话人,以便说话人及时注意自己的情绪;所述说话人如客服。
在具体实施时,以客户端与服务端结合实现为例,客户端如安装在客服设备、采访设备、会议设备、手机、平板电脑、车载设备等终端上的应用程序(APP),客户端与服务端可以通过网络连接通信。
如图2所示,结合客户端与服务端,语音数据情感检测流程可以包括:
S21:客户端采集说话人说出的待检测语音数据。
S22:客户端将检测得到的待检测语音数据发送给服务端。
客户端可以通过与服务端之间的网络连接将待检测语音数据发送给服务端。
S23:服务端接收客户端发送的待检测语音数据。
S24:服务端获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征。
S25:服务端根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
进一步地,该方法还可以包括:
S26:服务端根据识别得到的情感类型向客户端发送通知消息。
S27:客户端将通知消息反馈给说话人。
如情感类型为负向时,服务端通过客户端向说话人反馈注意自己情绪的通知消息。
服务端发送给客户端的通知消息可以为文本形式,客户端向说话人反馈时可以以文本或语音形式,在语音形式时,可以采用语音合成技术将文本转换为语音。
上述各步骤的具体内容可以参见各实施例中的相关描述,在此不再详述。
可以理解的是,上述的客户端和服务端可以分别位于不同的物理设备中,如客户端位于用户侧的终端设备中,服务端位于服务器中,终端设备与服务器通过网络连接;或者,客户端和服务端可以位于相同的物理设备中,例如,在终端设备中集成客户端和服务端的功能,从而可以在终端设备本地完成语音数据情感检测。
本实施例中,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
图3是本申请另一个实施例提出的语音数据情感检测方法的流程示意图。
本实施例以客户端与服务端结合执行为例。
如图3所示,本实施例的方法包括:
S31:服务端构建情感检测模型。
所述情感检测模型通过预先收集大量语音数据,分别从语义和声学上提取所述语音数据的情感检测特征构建得到,具体构建时,以句为单位检测每句语音数据的情感类型,对于后面的语音数据,可以利用前面语音数据的检测结果辅助检测,以提高情感检测模型构建的准确度,具体构建方法如后续内容所示。
S32:客户端检测得到说话人的待检测语音数据。
S33:客户端将待检测语音数据发送给服务端。
S34:服务端接收待检测语音数据。
S35:服务端获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征。
S36:服务端根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
可以理解的是,本实施例未做详细说明的部分,可以参见其他实施例中的相关部分。
如图3所示,构建情感检测模型的方法可以包括:
S311:获取语音数据样本。
语音数据样本是指已有的语音数据,具体可以采用收集的方式得到,或者也可以预先根据应用需求录制得到,或者,也可以直接从日志等数据库中直接获取。为了提高模型的准确度,最好获取尽量多的语音数据样本。
以收集语音数据为例,所述语音数据一般根据应用需求收集,如需要对客服与客户通话时客服的语音数据进行情感检测时,则需要收集大量客服与客户通话时的客服语音数据,具体收集时,可以收集单句的语音数据,也可以收集多句连续语音数据;当然,也可以收集其它领域的语音数据,如会议录音等;
S312:对所述语音数据样本进行语音识别,得到识别文本数据样本。
在获取到语音数据样本后,可以采用各种相关技术对语音数据样本进行语音识别,将语音识别后得到的识别文本数据称为识别文本数据样本。
S313:获取对所述识别文本数据样本标注的情感类型,并将所述标注的情感类型作为所述语音数据样本的情感类型。
在对识别文本数据样本进行标注时,可以以句为单位进行标注。
具体的,可以先判断语音数据样本为单句或者多句连续的语音数据,如果为单句,则将语音识别得到的识别文本数据样本作为单句文本数据,并标注该单句文本数据的情感类型。如果为多句连续的语音数据,则划分得到每句识别文本数据,并对每句识别文本数据分别进行标注。具体判断语音数据为单句或多句,可以根据语音数据的长度,也可以根据语音数据包含的静音段长度及相应静音段数判断,具体过程可以参见各种相关技术,在此不再详述。
在对多句进行划分时,可以根据识别文本数据中的标点信息进行划分,比如,将以标点逗号“,”,句号“。”,问号“?”,及感叹号“!”结尾的识别文本数据作为一句,具体的,在识别文本数据中添加标点信息的方法可以参照各种相关技术。
具体标注时,一般通过领域专家标注每句识别文本数据样本的情感类型,每种情感类型可以使用数字表示;所述情感类型可以根据应用需求确定,如客服语音数据的情感类型一般为中性和负向,这与客服受过专业培训相关,客服说话时的情感基本上都比较中性,如可以使用1表示,偶尔会出现有个人情绪的语音数据,即情感类型为负向,如可以使用2表示;当然,如果收集的语音数据为其它领域语音数据,如会议录音,所述情感类型一般为正向、中性和负向;可以分别使用1、2、3表示,当然,也可以使用其它数字表示,具体不作限定。
S314:获取所述语音数据样本的情感检测特征和历史状态特征。
情感检测特征包括从声学上提取的声学情感检测特征和从语义上提取的语义情感检测特征,语义情感检测特征主要通过分析语音数据的识别文本,提取相应语义情感检测特征,声学情感检测特征主要通过分析语音数据的声学信息,提取相应声学情感检测特征,从而保证语音数据描述的全面性,更有利于提高语音数据情感检测的准确性,具体提取方法如图4所示。
以句为单位对语音数据样本进行处理,当前句的语音数据样本的历史状态特征是指当前句语音数据样本之前的每句语音数据样本的情感类型,如果当前句语音数据样本不存在之前的语音数据样本,如当前句语音数据样本为单句语音数据样本或者多句连续语音数据样本中的首句,则历史状态特征可以设置为0;如果当前句语音数据样本为多句连续语音数据样本中的非首句,则历史状态特征为所述多句连续语音数据样本中当前句语音数据样本之前的每句语音数据样本的情感类型,如将所述当前句语音数据样本之前的每句语音数据样本的情感类型组成向量作为当前句语音数据样本的历史状态特征。
S315:根据所述语音数据样本的情感检测特征和历史状态特征以及所述语音数据样本的情感类型,进行模型训练,构建得到情感检测模型。
具体构建时,将每句语音数据样本对应的情感检测特征和历史状态特征作为输入特征,将相应的情感类型作为输出特征,由每句语音数据样本对应的输入特征和输出特征组成一组训练数据,依据训练数据和预先确定的模型结构进行训练,构建得到情感检测模型。所述情感检测模型的结构为模式识别中常用分类模型,如支持向量机模型、决策树模型、神经网络模型及条件随机场模型等,尤其是使用条件随机场模型效果最好,具体训练过程可以参见相应模型结构对应的训练过程,在此不再详述。
下面对上述涉及的提取情感检测特征的方法进行说明。
待检测语音数据和语音数据样本可以通常为待提取语音数据,获取待提取语音数据的情感检测特征的方法可以如图4所示。
情感检测特征包括语义情感检测特征和声学情感检测特征。
如图4所示,获取待提取语音数据的情感检测特征的方法可以包括:
S41:对待提取语音数据进行语音识别,得到识别文本数据。
语音识别可以采用各种相关技术,在此不再详细说明。
S42:对识别文本数据进行语义特征提取,得到语义情感检测特征,所述语义情感检测特征包括如下项中的至少一项:
句长度特征、句中重复词数特征、句向量特征、句子情感极性特征。
上述各特征的提取方法如下所述:
(1)句长度特征
所述句长度特征指每句识别文本数据包含的词数,具体提取时,需要对每句识别文本数据进行分词,根据分词结果统计每句识别文本数据中词数。
(2)句中重复词数特征
所述句中重复词数特征指每句识别文本数据中重复出现的词数,具体提取时,直接根据识别文本数据分词结果,找出每句识别文本数据中重复出现的词,统计所述重复出现词总数即可;
如识别文本数据为“嗯可以的嗯可以”中,“嗯”和“可以”为重复出现的词,则重复出现词总数为2。
(3)句向量特征
所述句向量特征指将每句识别文本数据映射到一个高维向量空间中,具体提取时,可以先将每句识别文本数据中包含的词向量化,得到每个词的词向量;然后再将同一句识别文本数据中词的词向量相加后,得到词向量的和向量,将所述和向量作为句向量;当然也可以采用其它方法提取句向量,如采用模型训练的方法提取,具体过程参见各种相关技术相同,在此不再详述。
(4)句子情感极性特征
所述句子情感极性指每句识别文本数据与不同情感类型识别文本数据的距离,具体提取方法如下所述:
首先,计算每种情感类型识别文本数据中词的语义类,具体计算时,直接对每种情感类型语音数据对应识别文本数据包含的词进行语义聚类,得到每种情感类型识别文本数据包含词的语义类,即将每种情感类型识别文本数据中词划分为多个语义类;具体聚类时,可以直接使用每种情感类型识别文本数据中词的词向量进行语义聚类,具体聚类过程参见各种相关技术,如聚类算法使用k-means方法对每种情感类型识别文本数据中词进行聚类,如聚成10类,则每种情感类型识别文本数据中词被划分为10个语义类;
其次,分别计算每种情感类型识别文本数据中词的语义类的中心点,具体计算时,可以直接根据每个语义类中词的词向量平均值作为每个语义类的中心点,所述语义类中词的词向量的平均值为语义类中所有词的词向量的和与语义类中所有词总数的比值;
然后,分别计算每句识别文本数据中每个词与每个语义类中心点的语义距离,得到每个词与每个语义类的语义距离向量,所述距离一般为欧式距离,当然也可以为其它距离,具体不作限定;如当前句有5个词,有2种情感类型,每种情感类型有10个语义类,则当前句中每个词与每个语义类的语义距离向量大小为1x20;
最后,计算每句识别文本数据中每个词与每个语义类中心点的语义距离向量的平均值,将所述语义距离向量的平均值作为每句识别文本的情感极性特征。
通过S41-S42可以获取到语义情感检测特征。通过如下的S43可以获取到声学情感检测特征。
S43:直接对待提取语音数据进行声学特征提取,得到声学情感检测特征,所述声学情感检测特征包括如下项中的至少一项:
短时斜率变化率、短时平均能量、短时平均过零率、短时自相关系数、短时平均幅度差。
可以理解的是,S41-S42与S43无时序限制关系。
对待提取语音数据进行声学特征提取时,可以以每句语音数据为单位,提取每句语音数据的上述声学情感检测特征中的至少一项。
上述各声学情感检测特征的提取方法如下:
所述短时平均能量、短时平均过零率、短时自相关系数、短时平均幅度差提取时,直接以句为单位提取即可,具体提取方法可参见各种相关技术。
所述短时斜率变化率即每句语音数据包含的情感词对应语音信号斜率穿过零轴的次数,即斜率由正变为负,或由负变为正的次数;具体提取时,先根据预先构建的情感词表,检测每句语音数据对应识别文本中包含的所有情感词;再找到每个情感词对应语音数据段,计算所述语音数据段的斜率,具体计算方法与现有技术相同,在此不再详述,统计所述语音数据段斜率穿过零轴的次数,得到所述语音数据段的斜率变化率;最后将每句语音数据情感词对应语音数据段的斜率变化率的均值作为当前句语音数据的斜率变化率;如果语音数据对应识别文本未检测到情感词,则该句的斜率变化率为0;
需要说明的是,计算每句语音数据的斜率变化率时,在检测到每句语音数据包含的情感词后,也可分别向每个情感词前后扩展一或多个词,找到扩展后的词对应语音数据段,计算所述扩展后的语音数据段的斜率变化率。
如上,可以获取情感检测特征,从而可以依据样本的情感检测特征构建情感检测模型,以及,依据待检测语音数据的情感检测特征识别待检测语音数据的情感类型。
图5是本申请一个实施例提出的语音数据情感检测装置的结构示意图。
如图5所示,本实施例的装置50包括:接收模块51、获取模块52和识别模块53。
接收模块51,用于接收待检测语音数据;
获取模块52,用于获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;
识别模块53,用于根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
一些实施例中,参见图6,该装置50还包括:用于构建情感检测模型的构建模块54,所述构建模块54具体用于:
获取语音数据样本;
对所述语音数据样本进行语音识别,得到识别文本数据样本;
获取对所述识别文本数据样本标注的情感类型,并将所述标注的情感类型作为所述语音数据样本的情感类型;
获取所述语音数据样本的情感检测特征和历史状态特征;
根据所述语音数据样本的情感检测特征和历史状态特征以及所述语音数据样本的情感类型,进行模型训练,构建得到情感检测模型。
一些实施例中,所述获取模块52用于获取待检测语音数据的语义情感检测特征,包括:
对待检测语音数据进行语音识别,得到识别文本数据;
对识别文本数据进行语义特征提取,得到语义情感检测特征,所述语义情感检测特征包括如下项中的至少一项:
句长度特征、句中重复词数特征、句向量特征、句子情感极性特征。
一些实施例中,所述获取模块52获取的所述句子情感极性特征采用如下方法提取得到:
计算每种情感类型识别文本数据中词的语义类;
分别计算每种情感类型识别文本数据中词的语义类的中心点;
分别计算每句识别文本数据中每个词与每个语义类中心点的语义距离,得到每个词与每个语义类的语义距离向量;
计算每句识别文本数据中每个词与每个语义类中心点的语义距离向量的平均值,将所述语义距离向量的平均值作为每句识别文本的情感极性特征
一些实施例中,所述获取模块52用于获取待检测语音数据的声学情感检测特征,包括:
直接对所述待检测语音数据进行声学特征提取,得到声学情感检测特征,所述声学情感检测特征包括如下项中的至少一项:
短时斜率变化率、短时平均能量、短时平均过零率、短时自相关系数、短时平均幅度差。
一些实施例中,所述待检测语音数据以句为单位进行处理,所述获取模块52获取的所述历史状态特征包括:
如果所述待检测语音数据为单句语音数据或者多句连续语音数据的首句,则所述历史状态特征为0;或者,
如果所述待检测语音数据为多句连续语音数据的非首句时,则所述历史状态特征为所述多句连续语音数据中所述待检测语音数据之前的每句语音数据的情感类型。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
图7是本申请一个实施例提出的语音数据情感检测系统的结构示意图。
如图7所示,本实施例的系统包括:客户端71和服务端72。
客户端71,用于采集说话人说出的待检测语音数据;
服务端72,用于接收所述客户端发送的所述待检测语音数据;获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;以及,根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
一些实施例中,所述服务端72还用于:根据识别得到的情感类型向客户端发送通知消息;
所述客户端71还用于:将所述通知消息反馈给所述说话人。
图7中以客户端与服务端通过无线网络连接为例,可以理解的是,客户端与服务端也可以通过有线网络连接,或者,如果客户端与服务端集成在同一设备中,客户端与服务端可以通过设备内部的总线连接。
可以理解的是,服务端的功能与上述的装置一致,因此,服务端的具体组成可以参见图5或图6所示的装置,在此不再详述。
本实施例中,通过依据情感检测模型以及声学上和语义上的特征进行识别,可以提高语音数据的情感检测的准确度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种语音数据情感检测方法,其特征在于,包括:
接收待检测语音数据;
获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;
根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
2.根据权利要求1所述的方法,其特征在于,还包括:构建情感检测模型,所述构建情感检测模型包括:
获取语音数据样本;
对所述语音数据样本进行语音识别,得到识别文本数据样本;
获取对所述识别文本数据样本标注的情感类型,并将所述标注的情感类型作为所述语音数据样本的情感类型;
获取所述语音数据样本的情感检测特征和历史状态特征;
根据所述语音数据样本的情感检测特征和历史状态特征以及所述语音数据样本的情感类型,进行模型训练,构建得到情感检测模型。
3.根据权利要求1所述的方法,其特征在于,获取待检测语音数据的语义情感检测特征,包括:
对待检测语音数据进行语音识别,得到识别文本数据;
对识别文本数据进行语义特征提取,得到语义情感检测特征,所述语义情感检测特征包括如下项中的至少一项:
句长度特征、句中重复词数特征、句向量特征、句子情感极性特征。
4.根据权利要求3所述的方法,其特征在于,所述句子情感极性特征采用如下方法提取得到:
计算每种情感类型识别文本数据中词的语义类;
分别计算每种情感类型识别文本数据中词的语义类的中心点;
分别计算每句识别文本数据中每个词与每个语义类中心点的语义距离,得到每个词与每个语义类的语义距离向量;
计算每句识别文本数据中每个词与每个语义类中心点的语义距离向量的平均值,将所述语义距离向量的平均值作为每句识别文本的情感极性特征。
5.根据权利要求1所述的方法,其特征在于,获取待检测语音数据的声学情感检测特征,包括:
直接对所述待检测语音数据进行声学特征提取,得到声学情感检测特征,所述声学情感检测特征包括如下项中的至少一项:
短时斜率变化率、短时平均能量、短时平均过零率、短时自相关系数、短时平均幅度差。
6.根据权利要求1所述的方法,其特征在于,所述待检测语音数据以句为单位进行处理,所述历史状态特征包括:
如果所述待检测语音数据为单句语音数据或者多句连续语音数据的首句,则所述历史状态特征为0;或者,
如果所述待检测语音数据为多句连续语音数据的非首句时,则所述历史状态特征为所述多句连续语音数据中所述待检测语音数据之前的每句语音数据的情感类型。
7.一种语音数据情感检测装置,其特征在于,包括:
接收模块,用于接收待检测语音数据;
获取模块,用于获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;
识别模块,用于根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
8.根据权利要求7所述的装置,其特征在于,还包括:用于构建情感检测模型的构建模块,所述构建模块具体用于:
获取语音数据样本;
对所述语音数据样本进行语音识别,得到识别文本数据样本;
获取对所述识别文本数据样本标注的情感类型,并将所述标注的情感类型作为所述语音数据样本的情感类型;
获取所述语音数据样本的情感检测特征和历史状态特征;
根据所述语音数据样本的情感检测特征和历史状态特征以及所述语音数据样本的情感类型,进行模型训练,构建得到情感检测模型。
9.根据权利要求7所述的装置,其特征在于,所述获取模块用于获取待检测语音数据的语义情感检测特征,包括:
对待检测语音数据进行语音识别,得到识别文本数据;
对识别文本数据进行语义特征提取,得到语义情感检测特征,所述语义情感检测特征包括如下项中的至少一项:
句长度特征、句中重复词数特征、句向量特征、句子情感极性特征。
10.根据权利要求9所述的装置,其特征在于,所述获取模块获取的所述句子情感极性特征采用如下方法提取得到:
计算每种情感类型识别文本数据中词的语义类;
分别计算每种情感类型识别文本数据中词的语义类的中心点;
分别计算每句识别文本数据中每个词与每个语义类中心点的语义距离,得到每个词与每个语义类的语义距离向量;
计算每句识别文本数据中每个词与每个语义类中心点的语义距离向量的平均值,将所述语义距离向量的平均值作为每句识别文本的情感极性特征。
11.根据权利要求7所述的装置,其特征在于,所述获取模块用于获取待检测语音数据的声学情感检测特征,包括:
直接对所述待检测语音数据进行声学特征提取,得到声学情感检测特征,所述声学情感检测特征包括如下项中的至少一项:
短时斜率变化率、短时平均能量、短时平均过零率、短时自相关系数、短时平均幅度差。
12.根据权利要求7所述的装置,其特征在于,所述待检测语音数据以句为单位进行处理,所述获取模块获取的所述历史状态特征包括:
如果所述待检测语音数据为单句语音数据或者多句连续语音数据的首句,则所述历史状态特征为0;或者,
如果所述待检测语音数据为多句连续语音数据的非首句时,则所述历史状态特征为所述多句连续语音数据中所述待检测语音数据之前的每句语音数据的情感类型。
13.一种语音数据情感检测系统,其特征在于,包括:
客户端,用于采集说话人说出的待检测语音数据;
服务端,用于接收所述客户端发送的所述待检测语音数据;获取所述待检测语音数据的情感检测特征和历史状态特征,所述情感检测特征包括:声学情感检测特征和语义情感检测特征;以及,根据预先构建的情感检测模型、所述情感检测特征和所述历史状态特征,识别所述待检测语音数据的情感类型,所述情感检测模型根据获取的语音数据样本的情感检测特征和历史状态特征构建得到。
14.根据权利要求13所述的系统,其特征在于,
所述服务端还用于:根据识别得到的情感类型向客户端发送通知消息;
所述客户端还用于:将所述通知消息反馈给所述说话人。
CN201611184299.6A 2016-12-20 2016-12-20 语音数据情感检测方法和装置及系统 Active CN106782615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611184299.6A CN106782615B (zh) 2016-12-20 2016-12-20 语音数据情感检测方法和装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611184299.6A CN106782615B (zh) 2016-12-20 2016-12-20 语音数据情感检测方法和装置及系统

Publications (2)

Publication Number Publication Date
CN106782615A true CN106782615A (zh) 2017-05-31
CN106782615B CN106782615B (zh) 2020-06-12

Family

ID=58894055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611184299.6A Active CN106782615B (zh) 2016-12-20 2016-12-20 语音数据情感检测方法和装置及系统

Country Status (1)

Country Link
CN (1) CN106782615B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107277246A (zh) * 2017-06-16 2017-10-20 珠海格力电器股份有限公司 一种信息提醒方法及其装置、电子设备
CN107945790A (zh) * 2018-01-03 2018-04-20 京东方科技集团股份有限公司 一种情感识别方法和情感识别系统
CN108039181A (zh) * 2017-11-02 2018-05-15 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN108833969A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 一种直播流的剪辑方法、装置以及设备
CN109192225A (zh) * 2018-09-28 2019-01-11 清华大学 语音情感识别和标注的方法及装置
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及系统
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置
CN110910898A (zh) * 2018-09-15 2020-03-24 华为技术有限公司 一种语音信息处理的方法和装置
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111341349A (zh) * 2018-12-03 2020-06-26 本田技研工业株式会社 情绪推断装置、情绪推断方法、及存储介质
CN113112987A (zh) * 2021-04-14 2021-07-13 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置
US11810596B2 (en) 2021-08-16 2023-11-07 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for speech-emotion recognition with quantified emotional states

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103531207A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN102831891B (zh) * 2011-06-13 2014-11-05 富士通株式会社 一种语音数据处理方法及系统
CN105334743A (zh) * 2015-11-18 2016-02-17 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261832A (zh) * 2008-04-21 2008-09-10 北京航空航天大学 汉语语音情感信息的提取及建模方法
CN102831891B (zh) * 2011-06-13 2014-11-05 富士通株式会社 一种语音数据处理方法及系统
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103531207A (zh) * 2013-10-15 2014-01-22 中国科学院自动化研究所 一种融合长跨度情感历史的语音情感识别方法
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN105575388A (zh) * 2014-07-28 2016-05-11 索尼电脑娱乐公司 情感语音处理
CN105334743A (zh) * 2015-11-18 2016-02-17 深圳创维-Rgb电子有限公司 一种基于情感识别的智能家居控制方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
师晨曦: ""基于句型库的语音识别研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
李承程: ""基于深度学习的文本语音耦合情感识别方法"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107277246A (zh) * 2017-06-16 2017-10-20 珠海格力电器股份有限公司 一种信息提醒方法及其装置、电子设备
CN109254669A (zh) * 2017-07-12 2019-01-22 腾讯科技(深圳)有限公司 一种表情图片输入方法、装置、电子设备及系统
CN108039181A (zh) * 2017-11-02 2018-05-15 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN108255805B (zh) * 2017-12-13 2022-02-25 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN107945790A (zh) * 2018-01-03 2018-04-20 京东方科技集团股份有限公司 一种情感识别方法和情感识别系统
CN108833969A (zh) * 2018-06-28 2018-11-16 腾讯科技(深圳)有限公司 一种直播流的剪辑方法、装置以及设备
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
US11062708B2 (en) 2018-08-06 2021-07-13 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for dialoguing based on a mood of a user
CN110910898A (zh) * 2018-09-15 2020-03-24 华为技术有限公司 一种语音信息处理的方法和装置
CN109192225A (zh) * 2018-09-28 2019-01-11 清华大学 语音情感识别和标注的方法及装置
CN111341349A (zh) * 2018-12-03 2020-06-26 本田技研工业株式会社 情绪推断装置、情绪推断方法、及存储介质
CN111341349B (zh) * 2018-12-03 2023-07-25 本田技研工业株式会社 情绪推断装置、情绪推断方法、及存储介质
CN110363074A (zh) * 2019-06-03 2019-10-22 华南理工大学 一种针对复杂抽象化事物的类人化识别交互方法
CN110473571A (zh) * 2019-07-26 2019-11-19 北京影谱科技股份有限公司 基于短视频语音的情感识别方法和装置
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111312245B (zh) * 2020-02-18 2023-08-08 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN113112987A (zh) * 2021-04-14 2021-07-13 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置
CN113112987B (zh) * 2021-04-14 2024-05-03 北京地平线信息技术有限公司 语音合成方法、语音合成模型的训练方法及装置
US11810596B2 (en) 2021-08-16 2023-11-07 Hong Kong Applied Science and Technology Research Institute Company Limited Apparatus and method for speech-emotion recognition with quantified emotional states

Also Published As

Publication number Publication date
CN106782615B (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN106782615A (zh) 语音数据情感检测方法和装置及系统
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN108074576B (zh) 审讯场景下的说话人角色分离方法及系统
US10403282B2 (en) Method and apparatus for providing voice service
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
CN105427858B (zh) 实现语音自动分类的方法及系统
CN105405439B (zh) 语音播放方法及装置
US8412530B2 (en) Method and apparatus for detection of sentiment in automated transcriptions
US10637898B2 (en) Automatic speaker identification in calls
WO2021128741A1 (zh) 语音情绪波动分析方法、装置、计算机设备及存储介质
US9230547B2 (en) Metadata extraction of non-transcribed video and audio streams
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN108735200B (zh) 一种说话人自动标注方法
US20180308501A1 (en) Multi speaker attribution using personal grammar detection
CN111785275A (zh) 语音识别方法及装置
WO2023088448A1 (zh) 语音处理方法、设备及存储介质
Alghifari et al. On the use of voice activity detection in speech emotion recognition
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
CN114038487A (zh) 一种音频提取方法、装置、设备和可读存储介质
CN113691382A (zh) 会议记录方法、装置、计算机设备及介质
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
Lakra et al. Automated pitch-based gender recognition using an adaptive neuro-fuzzy inference system
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant