CN109903780A

CN109903780A - 哭声原因模型建立方法、系统及哭声原因辨别方法

Info

Publication number: CN109903780A
Application number: CN201910137141.0A
Authority: CN
Inventors: 詹宏勇; 卓鹏鹏
Original assignee: Baobaoshu (beijing) Information Technology Co Ltd
Current assignee: Baobaoshu (beijing) Information Technology Co Ltd
Priority date: 2019-02-22
Filing date: 2019-02-22
Publication date: 2019-06-18

Abstract

本发明提供了一种哭声原因模型建立方法、系统及哭声原因辨别方法，涉及语音识别技术领域，该哭声原因模型建立方法包括获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；根据该哭声数据提取每种哭声原因的数据对应的语音特征；利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到每种哭声原因对应的哭声原因模型。本发明实施例提供的哭声原因模型建立方法、系统及哭声原因辨别方法，通过对哭声特征的提取，并对不同哭声原因进行建模，实现了对哭声原因的辨别，并更准确地辨别哭声原因。

Description

哭声原因模型建立方法、系统及哭声原因辨别方法

技术领域

本发明涉及语音识别技术领域，尤其是涉及一种哭声原因模型建立方法、系统及哭声原因辨别方法。

背景技术

哭是宝宝出生后的到会言语之前与外界的交流方式。宝宝通过哭声向外界传递他们的情感与疾病与否。有经验的母亲可以从哭声中辨别出宝宝的需求。但是，对于缺乏育儿经验的妈妈，难以从哭声中准确辨别宝宝的需求，而无法正确和及时地照顾到宝宝的需要。

发明内容

有鉴于此，本发明的目的在于提供一种哭声原因模型建立方法、系统及哭声原因辨别方法，通过对哭声特征的提取，并对不同哭声原因进行建模，实现了对哭声原因的辨别，并更准确辨别哭声原因。

第一方面，本发明实施例提供了一种哭声原因模型建立方法，包括：获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；根据该哭声数据提取每种哭声原因的数据对应的语音特征；利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到每种哭声原因对应的哭声原因模型。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述根据该哭声数据提取每种哭声原因的数据对应的语音特征的步骤，包括：对该哭声数据先后进行重采样及归一化处理；对归一化处理后的哭声数据进行预处理，该预处理包括分帧、加窗和预加重；对预处理后的哭声数据进行时频转换以得到该哭声数据的功率谱；根据该功率谱提取每种哭声原因的数据对应的语音特征。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型的步骤，包括：利用所有哭声原因的语音特征训练高斯混合模型以得到通用背景模型；利用每种哭声原因对应的语音特征及通用背景模型分别训练高斯混合模型得到每种哭声原因对应的哭声原因模型。

结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，该语音特征包括梅尔倒谱系数特征和/或翻转梅尔频率倒谱系数特征。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，该语音特征为梅尔倒谱系数特征和翻转梅尔频率倒谱系数特征，上述利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型的步骤，包括：融合该梅尔倒谱系数特征和该翻转梅尔频率倒谱系数特征得到每种哭声原因的数据对应的哭声辨识特征；利用该每种哭声原因对应的哭声辨识特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，该哭声原因包括困了，饿了，不舒服，想抱抱中的至少一种。

结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述获取哭声数据的步骤，包括：获取用户上传的原始哭声数据；判别该原始哭声数据是否为哭声；若是，则获取多个用户对该原始哭声数据的原因标注；选取该原因标注中重复次数最多的原因作为该原始哭声数据的哭声原因。

第二方面，本发明实施例还提供了一种哭声原因模型建立系统，包括：哭声数据获取模块，用于获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；语音特征提取模块，用于根据该哭声数据提取每种哭声原因的数据对应的语音特征；哭声原因模型训练模块，用于利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型。

第三方面，本发明实施例还提供了一种哭声原因装置，包括处理器，以及多个上述第一方面及其可能的实施方式之一提供的哭声原因模型建立方法提供的哭声原因模型，该哭声原因模型加载在该处理器上。

第四方面，本发明实施例还提供了一种哭声原因辨别方法，该方法应用于上述第三方面提供的哭声原因装置，该方法包括：获取待辨别的哭声数据；提取该待辨别的哭声数据的语音特征；计算该语音特征与各个哭声原因模型的对数似然比；将该对数似然比最高的模型对应的原因输出为该哭声数据的哭声原因。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种哭声原因模型建立方法、系统及哭声原因辨别方法，该哭声原因模型建立方法包括获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；根据该哭声数据提取每种哭声原因的数据对应的语音特征；利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到每种哭声原因对应的哭声原因模型。本发明实施例提供的哭声原因模型建立方法，通过对哭声特征的提取，并对不同哭声原因进行建模，利用不同的哭声原因模型，实现了对哭声原因的辨别，并更准确辨别哭声原因。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种哭声原因模型建立方法的流程示意图；

图2为本发明实施例提供的另一种哭声原因模型建立方法的流程示意图；

图3为本发明实施例提供的一种哭声原因模型建立系统的结构示意图；

图4为本发明实施例提供的一种哭声原因辨别方法的流程示意图。

图标：

31-哭声数据获取模块；32-语音特征提取模块；33-哭声原因模型训练模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在照顾宝宝的过程中，妈妈们对于宝宝的需求通常需要通过宝宝的哭声来进行判断，但是，对于很多新妈妈来说，因缺乏经验而无法准确分辨宝宝哭声中所传达的信息，因而不能及时满足宝宝的需求，或者错误的理解宝宝的意思。

基于此，本发明实施例提供的一种哭声原因模型建立方法、系统及哭声原因辨别方法，通过对哭声特征的提取，并对不同哭声原因进行建模，实现了对哭声原因的辨别，并更准确辨别哭声原因。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种哭声原因模型建立方法进行详细介绍。

实施例一：

本实施例提供了了一种哭声原因模型建立方法，参见图1，为该方法的流程示意图，由图1可见，该方法包括以下步骤：

步骤S102：获取哭声数据；该哭声数据为包含至少一种哭声原因的数据。

这里，哭声数据可以是音频数据，其格式可以是MP3、WMA、WMV等等。对于哭声的类别可以是人的哭声，也可以是其他动物的哭声。在本实施例中，哭声数据选择为婴儿宝宝的哭声音频。并且，哭声数据不限于一个婴儿，而可以是许多婴儿的哭声数据。

其中，获取的该哭声数据是已经进行了分类的，对于哭声的原因已经进行了判断，并基于不同的哭声原因对哭声数据进行了分类。这里，获取包括至少一种哭声原因的数据。

在其中一种可能的实施方式中，可以通过以下的方式来获取哭声数据：

首先，获取用户上传的原始哭声数据。这里，用户可以在线上传各种原始哭声数据，并且，用户在上传数据的同时，也可以标注自己认为该哭声所对应的哭声原因。例如，对于宝宝哭声，哭声原因可以是困了，饿了，不舒服，想抱抱等等。在其他可能的实施方式中，例如针对年龄更大一些的宝宝，哭声原因还可以更加细化、种类更加丰富，例如还可以包括：愤怒、激动、痛苦等等。

其次，判别该原始哭声数据是否为哭声。这里对于该原始哭声数据进行初步的判断，以确认上传的数据确实是哭声，而不是其他的声音内容。

若是，则获取多个用户对该原始哭声数据的原因标注。在初步审查，判断该原始哭声数据确实是哭声的情况下，将该原始哭声数据开放给其他用户，并允许其他用户对该原始哭声数据进行辨认，以判断其原因，并标注哭声原因。这样，即可获得多个用户对同一原始哭声数据的原因标注。这里，其他用户可以是多位妈妈。

然后，选取该原因标注中重复次数最多的原因作为该原始哭声数据的哭声原因。这里，结合上传原始哭声数据用户自己的原因标注，以及其他用户对该哭声原因的标注，选择标注原因重复次数最多的原因作为该原始哭声数据的最终哭声原因。在其中一种实施方式中，可以设定限制条件，例如，将标注原因重复次数最多且其比例超过60％的原因作为最终哭声原因。并将该原始数据连同其确定的哭声原因一同保存，作为用于之后建模步骤的哭声数据输入。

步骤S104：根据该哭声数据提取每种哭声原因的数据对应的语音特征。

这里，对不同哭声原因的哭声数据，分别提取其语音特征。在其中一种可能的实施方式中，该语音特征可以包括梅尔倒谱系数(Mel-scale Frequency CepstralCoefficients，MFCC)特征和/或翻转梅尔频率倒谱系数(Inverted Mel FrequencyCepstrum Coefficient，IMFCC)特征，也即，可以单独梅尔倒谱系数特征或翻转梅尔频率倒谱系数特征，也可以同时提取梅尔倒谱系数特征和翻转梅尔频率倒谱系数特征。这里，梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，梅尔频率倒谱系数就是组成梅尔频率倒谱的系数。

在至少一种可能的实施方式中，提取语音特征的步骤包括：

首先，对该哭声数据先后进行重采样及归一化处理；

其次，对归一化处理后的哭声数据进行预处理，该预处理包括分帧、加窗和预加重；

然后，对预处理后的哭声数据进行时频转换以得到该哭声数据的功率谱；

最后，根据该功率谱提取每种哭声原因的数据对应的语音特征。

步骤S106：利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到每种哭声原因对应的哭声原因模型。

这里，高斯混合模型(Gaussian Mixture Model，GMM)指的是多个高斯分布函数的线性组合，它是用高斯概率密度函数(正态分布曲线)精确地量化事物，并将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

利用每种哭声原因对应的语音特征对不同的高斯混合模型进行训练，并设定一定的训练要求，例如8小时或者其他时间长度，并最终获得不同哭声原因模型。例如，假如哭声数据有两种原因，包括饿了和困了，则分别用“饿了”的哭声语音特征来训练一个高斯混合模型得到对应的“饿了”哭声模型，同理，利用“困了”的哭声语音特征来训练另一个高斯混合模型得到对应“困了”哭声模型。这样，就得到了两个哭声原因模型，分别对应不同的哭声原因。同理，对于N种哭声原因的哭声数据，可以相应训练得到N个对应不同哭声原因的哭声原因模型。

根据本实施例提供的哭声原因模型建立方法，可建立不同原因的哭声原因模型，并可根据这些哭声原因模型去辨识实际的哭声数据所表达的哭声原因。这样，即可更加科学准确地判断哭声原因，为实际应用中判别哭声原因提供服务。

本发明实施例提供的一种哭声原因模型建立方法，该哭声原因模型建立方法包括获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；根据该哭声数据提取每种哭声原因的数据对应的语音特征；利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到每种哭声原因对应的哭声原因模型。本发明实施例提供的哭声原因模型建立方法，通过对哭声特征的提取，并对不同哭声原因进行建模，利用不同的哭声原因模型，实现了对哭声原因的辨别，并更准确辨别哭声原因。

实施例二：

参见图2，为本发明实施例提供的另一种哭声原因模型建立方法的流程示意图，其中，该方法包括以下步骤：

步骤S202：获取哭声数据；该哭声数据为包含至少一种哭声原因的数据。

步骤S204：根据该哭声数据提取每种哭声原因的数据对应的语音特征。

在本实施例中，该语音特征为梅尔倒谱系数特征和翻转梅尔频率倒谱系数特征。

步骤S206：利用所有哭声原因的语音特征训练高斯混合模型以得到通用背景模型。这里，利用所获取的哭声数据中的全部的哭声原因的语音特征训练高斯混合模型，以得到通用背景模型。

步骤S208：利用每种哭声原因对应的语音特征及通用背景模型分别训练高斯混合模型得到每种哭声原因对应的哭声原因模型。

在本实施例中，在训练各种原因对应的哭声原因模型时，对于每一种哭声原因的语音特征，首先融合梅尔倒谱系数特征和翻转梅尔频率倒谱系数特征得到每种哭声原因的数据对应的哭声辨识特征；然后，利用该每种哭声原因对应的哭声辨识特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型。

这里，相比于实施例一，本实施例二提供的哭声原因模型建立方法在利用语音特征训练哭声原因模型时，首先利用包含各种哭声原因的语音特征训练高斯混合模型，以得到一个通用背景模型(Universal Background Model，UBM)，并以该通用背景模型作为一个初始化模型，在该初始化模型基础上再对不同哭声原因的语音特征进行分别的训练，从而得到不同哭声原因对应的哭声原因模型。这种建立哭声原因模型的方法，相比于实施例一示出的方法，可以更加快速的建立效果更优的模型。

实施例三：

本发明实施例提供了一种哭声原因模型建立系统，参见图3，为该系统的结构示意图，由图3可见，该系统包括依次连接的哭声数据获取模块31、语音特征提取模块32和哭声原因模型训练模块33，其中，各个模块的功能如下：

哭声数据获取模块31，用于获取哭声数据；该哭声数据为包含至少一种哭声原因的数据；

语音特征提取模块32，用于根据该哭声数据提取每种哭声原因的数据对应的语音特征；

哭声原因模型训练模块33，用于利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到该每种哭声原因对应的哭声原因模型。

本发明实施例所提供的哭声原因模型建立系统，其实现原理及产生的技术效果和前述哭声原因模型建立方法实施例相同，为简要描述，系统实施例部分未提及之处，可参考前述方法实施例中相应内容。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

实施例四：

本发明实施例还提供了一种哭声原因装置，该装置包括处理器，以及多个上述实施例一、实施例二及其可能的实施方式之一提供的哭声原因模型建立方法提供的哭声原因模型，且该哭声原因模型加载在该处理器上。

本发明实施例提供的哭声原因装置，与上述实施例提供的哭声原因模型建立方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

基于上述哭声原因装置，本发明实施例还提供了一种哭声原因辨别方法，应用于该哭声原因装置，参见图4，为该哭声原因辨别方法的流程示意图，由图4可见，该方法包括以下步骤：

步骤S402：获取待辨别的哭声数据。

步骤S404：提取该待辨别的哭声数据的语音特征。

步骤S406：计算该语音特征与各个哭声原因模型的对数似然比。

步骤S408：将该对数似然比最高的模型对应的原因输出为该哭声数据的哭声原因。

这样，通过该哭声原因辨别方法，即可实现在输入一段哭声数据的情况下，自动得到该哭声数据的哭声原因。在实际应用中，该方法对于妈妈们分辨宝宝哭声可以提供极大的便利和帮助，从而可以更好地照顾宝宝，及时准确地为宝宝提供所需的帮助。

实施例五：

为了更好理解上述实施例四中的哭声原因辨别方法，本实施例通过一个实例介绍该方法在宝宝哭声原因辨别中的应用。具体的实施步骤如下：

步骤10:数据获取。由于哭声不容易被标注，本实施例中采用的数据使用多重标注的方法获取。

步骤11:用户上传哭声数据并标注原因。

步骤12:初复审，确认上传的数据为哭声。

步骤13:妈妈复审，将初复审确认是哭声的数据给多位妈妈复审，结合用户上传事的标注原因，取较多重复的为最终该哭声数据的原因。

步骤20:特征提取。本实施例中采用的是梅尔倒谱系数特征与翻转梅尔频率倒谱系数特征的融合特征。

步骤21:输入哭声数据，将哭声音频重采样，本实例采用8000采样率，然后将音频数据进行归一化处理。在其他实施例中，采样率可以选择其他数值，可以大于8000，也可以小于8000，根据实际需要进行设置。

步骤22:预处理，包括分帧，加窗，预加重。

分帧：语音信号具有时变性，但在短时间内其特性相对稳定(一般是10～30毫秒)。哭声也是人体声学器官发出的声音，具有相似的特性。因此将其当成是一个准稳态过程。分析的时候引入语音的短时分析方法，将哭声分段处理，每一段取32毫秒，帧叠为16毫秒。对于整体的哭声而言，分析出的是由每一帧特征组成的特征参数时间序列。

加窗：哭声信号分帧是采用有限长度的窗口进行加权的方法来实现的。一般每帧长度为10～50毫秒。常用的窗有矩形窗，汉明窗等。本实施例中窗长为32毫秒，采用矩形窗。

预加重：哭声信号的预加重目的是为了对高频部分进行加重，去除口唇辐射对影响，增加其高频的分辨率一般通过传递函数H(z)＝1-αz^-1一阶FIR高通数字滤波器来实现预加重，其中预加重系数α一般取值范围为(0.9～1.0)。本实施例中预加重系数取0.97。

步骤23:时频转换。将步骤22处理后的数据进行傅立叶变换，得到每一帧数据对应的频谱。本实施例中采用的是512点的傅立叶变换。

步骤24:提取MFCC特征及IMFCC特征，并融合两个特征作为新的哭声特征。

(1)MFCC特征提取：梅尔倒谱系数是在Mel标度频率域提取出来的倒谱系数，Mel标度描述了人耳频率的非线性特征，它与频率的关系可以用下式近似的表示：

式中f为频率，单位为Hz。Mel尺度的三角滤波器组为一个有M个滤波器的滤波器组。三角滤波器的频率响应定义为：

式中：

将步骤23中提取的能量谱通过一组Mel尺度的三角滤波器组得到Mel能量谱。取对数得到对数能量谱，并计算每个滤波器组输出的对数能量为：

式中，|X_a(k)|²为频域能量，M为三角滤波器的个数。将得到的对数能量谱经离散余弦变换得到MFCC系数：

式中，C(n)即为所求的MFCC特征，L为MFCC系数的阶数。本实施例中M取24，L取24。

(2)IMFCC特征提取：翻转Mel频率倒谱系数。它是基于人耳听觉系统上演变的一种新的听觉系统。在这种新的听觉系统下的宝宝哭声域与Mel的顺序是相反的，故称为I-Mel(Inverted Mel)域。I-Mel标度与实际频率之间的转换如下：

式中，f_I-Mel为I-Mel频率，f为实际频率，单位为Hz。将频域转化为I-Mel域其他步骤域(1)中提取MFCC的方法一样，得到翻转Mel频率倒谱系数IMFCC。

(3)特征融合：将频域能量加上1到11维的MFCC再加上11到24维的IMFCC组成新的25维的融合特征做为哭声的特征。将25维的新特征求一阶差分得到25维的一阶差分特征。合并25维的融合特征及25维的一阶差分特征组成50维的新特征，做为哭声辨识的特征。差分参数的计算可以采用下面的公示：

其他

式中，d_t表示第t个一阶差分，C_t表示第t个倒谱系数，Q表示倒谱系数的阶数，K表示一阶导数的时间差，本实施例中取值为2。

步骤30:哭声模型训练。本实施例中采用的分类模型为高斯混合模型。采用通用背景模型初始化的方法训练每一个类的模型。

步骤31:训练通用背景模型UBM：通用背景模型采用8个小时的哭声数据的特征，这里，本实例中采用8小时不同人不同哭声原因的哭声数据的特征，根据步骤20中的方法提取特征进行训练，设置高斯个数得到高斯模型的参数，权重值、均值和方差，其结果认为包含了所有哭声的分布。本实施例中设置的高斯个数为64。

步骤32:训练哭声原因模型并保存。哭声原因模型就是每一类哭声训练一个高斯混合模型。本实施例中将哭声原因分成困了，饿了，不舒服，想抱抱四种原因。训练时将通用背景模型参数做为初始化模型参数。特征采用步骤20中的方法进行提取。经过训练之后我们就得到了4个模型及其对应的模型参数，然后我们保存通用背景模型的参数及四个哭声原因分别对应的参数，也即，哭声原因模型。

步骤40:部署应用：部署应用需要实现的是用户输入哭声音频，返回的是对应的原因。

步骤41:输入哭声：用户通过录音设备录制下宝宝哭声的音频并通过传输工具上传到服务器。

步骤42:特征提取：特征提取，获取用户上传的哭声音频，通过步骤20中的特征提取方法得到哭声对应的特征数据。

步骤43:计算得分：得分计算采用是将哭声特征对哭声模型的对数似然比减去哭声特征对通用背景模型的对数似然比，分别计算对不同哭声模型的得分，然后做归一化处理，最后输出得分最高的原因即为该哭声对应的原因(这里计算的是每一帧的到的得分，最终得分采用每一帧得分的平均值)。得分计算方法可参考下面公式：

Λ(X)＝log p(X|λ_model)-log p(X|λ_UBM)

式中，Λ(X)表示得分，logp(X|λ_model)表示哭声特征对哭声模型的对数似然比，logp(X|λ_UBM)表示哭声特征对通用背景模型的对数似然比。

步骤44:输出辨别结果，并将步骤43中识别的哭声原因返回给用户。

这样，即实现了对宝宝哭声原因的辨别。本发明实施例提供的哭声原因辨别方法，实现了对宝宝哭声原因的辨别，并更准确地辨别哭声原因。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例所提供的进行哭声原因辨别方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种哭声原因模型建立方法，其特征在于，包括：

获取哭声数据；所述哭声数据为包含至少一种哭声原因的数据；

根据所述哭声数据提取每种哭声原因的数据对应的语音特征；

利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到所述每种哭声原因对应的哭声原因模型。

2.根据权利要求1所述的哭声原因模型建立方法，其特征在于，所述根据所述哭声数据提取每种哭声原因的数据对应的语音特征的步骤，包括：

对所述哭声数据先后进行重采样及归一化处理；

对归一化处理后的哭声数据进行预处理，所述预处理包括分帧、加窗和预加重；

对预处理后的哭声数据进行时频转换以得到所述哭声数据的功率谱；

根据所述功率谱提取每种哭声原因的数据对应的语音特征。

3.根据权利要求1所述的哭声原因模型建立方法，其特征在于，所述利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到所述每种哭声原因对应的哭声原因模型的步骤，包括：

利用所有哭声原因的语音特征训练高斯混合模型以得到通用背景模型；

利用每种哭声原因对应的语音特征及通用背景模型分别训练高斯混合模型得到所述每种哭声原因对应的哭声原因模型。

4.根据权利要求1所述的哭声原因模型建立方法，其特征在于，所述语音特征包括梅尔倒谱系数特征和/或翻转梅尔频率倒谱系数特征。

5.根据权利要求4所述的哭声原因模型建立方法，其特征在于，所述语音特征为梅尔倒谱系数特征和翻转梅尔频率倒谱系数特征，所述利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到所述每种哭声原因对应的哭声原因模型的步骤，包括：

融合所述梅尔倒谱系数特征和所述翻转梅尔频率倒谱系数特征得到每种哭声原因的数据对应的哭声辨识特征；

利用所述每种哭声原因对应的哭声辨识特征分别训练高斯混合模型以得到所述每种哭声原因对应的哭声原因模型。

6.根据权利要求1所述的哭声原因模型建立方法，其特征在于，所述哭声原因包括困了，饿了，不舒服，想抱抱中的至少一种。

7.根据权利要求1所述的哭声原因模型建立方法，其特征在于，所述获取哭声数据的步骤，包括：

获取用户上传的原始哭声数据；

判别所述原始哭声数据是否为哭声；

若是，则获取多个用户对所述原始哭声数据的原因标注；

选取所述原因标注中重复次数最多的原因作为所述原始哭声数据的哭声原因。

8.一种哭声原因模型建立系统，其特征在于，包括：

哭声数据获取模块，用于获取哭声数据；所述哭声数据为包含至少一种哭声原因的数据；

语音特征提取模块，用于根据所述哭声数据提取每种哭声原因的数据对应的语音特征；

哭声原因模型训练模块，用于利用每种哭声原因对应的语音特征分别训练高斯混合模型以得到所述每种哭声原因对应的哭声原因模型。

9.一种哭声原因装置，其特征在于，包括处理器，以及多个权利要求1-7任一项所述的哭声原因模型建立方法提供的哭声原因模型，所述哭声原因模型加载在所述处理器上。

10.一种哭声原因辨别方法，其特征在于，应用于权利要求9所述的哭声原因装置，包括：

获取待辨别的哭声数据；

提取所述待辨别的哭声数据的语音特征；

计算所述语音特征与各个哭声原因模型的对数似然比；

将所述对数似然比最高的模型对应的原因输出为所述哭声数据的哭声原因。