CN110415727B

CN110415727B - 宠物情绪识别方法及装置

Info

Publication number: CN110415727B
Application number: CN201810401997.XA
Authority: CN
Inventors: 徐伟; 蒋春; 江源
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2021-12-07
Anticipated expiration: 2038-04-28
Also published as: CN110415727A

Abstract

本发明实施例提供一种宠物情绪识别方法及装置，涉及情绪识别领域。该方法包括：提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。本发明实施例提供的方法，通过提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息。由于只需提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，即可输出宠物主体对应的情绪判定信息，而不用通过逐一比对的方式，从而减少了计算量，并提高了宠物情绪识别的效率。

Description

宠物情绪识别方法及装置

技术领域

本发明实施例涉及情绪识别领域，更具体地，涉及一种宠物情绪识别方法及装置。

背景技术

在饲养宠物的过程中，为了更好地让人与宠物进行互动，可以通过宠物的声音了解宠物的情绪。在相关技术中，通常是基于预先创建的包含多种样本宠物音频数据的数据库。其中，每一样本宠物音频数据均对应预先确认的情绪信息。获取待识别情绪的宠物音频数据，将宠物音频数据分别与数据库中每一样本宠物音频数据进行匹配，基于匹配结果确定待识别情绪宠物的情绪信息。由于需要将待识别情绪的宠物音频数据与数据库中每一样本宠物音频数据进行匹配，从而导致计算量巨大，情绪识别的效率较低。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的宠物情绪识别方法及装置。

根据本发明实施例的第一方面，提供一种宠物情绪识别方法，该方法包括：

提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；

将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。

本发明实施例提供的方法，通过提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息。由于只需提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，即可输出宠物主体对应的情绪判定信息，而不用通过逐一比对的方式，从而减少了计算量，并提高了宠物情绪识别的效率。

根据本发明实施例第二方面，提供了一种宠物情绪识别装置，该装置包括：

提取模块，用于提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；

判定模块，用于将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。

根据本发明实施例的第三方面，提供了一种宠物情绪识别设备，包括：

至少一个处理器；以及

与处理器通信连接的至少一个存储器，其中：

存储器存储有可被处理器执行的程序指令，处理器调用程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的宠物情绪识别方法。

根据本发明实施例的第四方面，提供了一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的宠物情绪识别方法。

应当理解的是，以上的一般描述和后文的细节描述是示例性和解释性的，并不能限制本发明实施例。

附图说明

图1为本发明实施例的一种宠物情绪识别方法的流程示意图；

图2为本发明实施例的一种采用通用情绪表征模型和特定情绪表征模型进行宠物情绪识别的方法的流程示意图；

图3为本发明实施例的一种获取指定宠物音频数据的方法流程示意图；

图4为本发明实施例的一种获取宠物音频数据的方法流程示意图；

图5为本发明实施例的一种宠物情绪识别装置的结构示意图；

图6为本发明实施例的一种宠物情绪识别设备的结构示意图。

具体实施方式

下面结合附图和实施例，对本发明实施例的具体实施方式作进一步详细描述。以下实施例用于说明本发明实施例，但不用来限制本发明实施例的范围。

在相关技术中，通常是预先创建包含多种样本宠物音频数据的数据库。将待识别情绪的宠物音频数据分别与数据库中每一样本宠物音频数据进行匹配，基于匹配结果确定待识别情绪宠物的情绪信息。其中，可按照宠物的种类、大小、体型及鼻型等因素获取多种样本宠物音频数据，以创建数据库，数据库中的每一样本宠物音频数据均对应有预先确认的情绪信息。以宠物狗为例，可根据宠物狗的品种、大小、体型和鼻型等因素获取宠物狗的样本宠物音频数据，以创建宠物狗的数据库，数据库中的每一样本宠物音频数据均对应有预先确认的宠物狗的情绪信息，如高兴、伤心和生气等。将待识别情绪的宠物狗音频数据分别与数据库中每一样本宠物狗音频数据进行匹配，将匹配度最高的样本宠物狗音频数据对应的情绪信息，作为待识别情绪宠物狗的情绪信息。

由于需要将待识别情绪宠物的音频数据分别与数据库中每一样本宠物音频数据进行比对，从而导致计算量巨大，情绪识别的效率较低。针对上述情形，本发明实施例提供一种宠物情绪识别方法。参见图1，该方法包括：

101、提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据。

其中，宠物主体可以为任意种类且会发声的宠物。指定宠物音频数据为一只宠物主体的音频数据，如一只猫或者一只狗的音频数据。需要说明的是，指定宠物音频数据中仅包含一只宠物主体的音频数据，而不包含不同种类的宠物主体或者同一种类但为不同宠物主体的声音，且不包含空白音频段。由于指定宠物音频数据中可能会含有冗余信息，从而在本步骤中可通过提取指定宠物音频数据中声学特征的方式，以从指定宠物音频数据中提取出能够表征宠物主体情绪的有用信息。考虑到倒谱参数作为声学特征时声学特征的信息量损失小、且倒谱参数本身作为声学特征时的数据量也较小，从而本步骤可将倒谱参数作为提取的声学特征，本发明实施例对此不作限定。

102、将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定信息进行训练后得到的。

在执行步骤102之前，可预先训练得到情绪表征模型。具体地，可先收集大量样本宠物音频数据。其中，考虑到收集样本宠物音频数据时会有不同的来源渠道，而不同来源渠道的样本宠物音频数据的编码格式也会多种多样，为了便于后续处理，可将不同来源渠道的样本宠物音频数据转换成统一的编码格式。例如，可将全部样本宠物音频数据统一转换为采样频率为16K且量化位数为16bit的线性PCM(Pulse Code Modulation，脉冲编码调制)格式。相应地，上述步骤101中的指定宠物音频数据在提取声学特征之前也可以统一转换为PCM格式，本步骤102中每一样本宠物音频数据也均为一只宠物主体对应的音频数据。当然，不同样本宠物音频数据可对应不同的宠物主体。

需要说明的是，若存在样本宠物音频数据包括不同宠物主体的多段音频数据，则可对该样本宠物音频数据进行分段处理，以保证每一段样本宠物音频数据只包含一个宠物主体的声音，并可将分段后得到的每段音频数据均作为样本宠物音频数据。通过上述过程在得到统一格式的样本宠物音频数据后，可再为每一样本宠物音频数据标注对应的情绪判定结果。其中，情绪判定结果可以包括“高兴”、“伤心”和“生气”等拟人化情绪。在确定每一样本宠物音频数据对应的情绪判定结果后，可提取每一样本宠物音频数据的样本声学特征，并作为初始模型的输入，将每一样本声学特征对应的情绪判定结果作为初始模型的输出，从而训练得到情绪表征模型。需要说明的是，样本声学特征的类型与上述步骤101中提取到的声学特征的类型需一致，如均为倒谱参数，本发明实施例对此不作具体限定。另外，初始模型的类型可以为卷积神经网络模型，本发明实施例对此也不作限定。

在训练得到情绪表征模型后，可将上述步骤101中提取到的声学特征输入至情绪表征模型，从而输出得到指定宠物音频数据对应宠物主体的情绪判定信息。基于情绪判定信息即可确定该宠物主体的情绪。

考虑到不同种类宠物主体的声音差别较大，为了能够针对不同宠物种类的宠物主体进行情绪识别，基于上述实施例的内容，作为一种可选实施例，上述实施例中的声学特征可以为通用声学特征，情绪表征模型可以为通用情绪表征模型。相应地，本发明实施例不对将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息的方式作具体限定，包括但不限于：将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的情绪判定信息，通用情绪表征模型是基于样本通用声学特征、样本通用声学特征对应的宠物种类及样本通用声学特征对应的情绪判定结果进行训练后得到的。

其中，通用声学特征指的是不针对特定宠物主体，能够普适性地反映各种宠物声音特色的声学特征。通用声学特征可包括基频、响度、节奏度和谱包络平坦度等，本发明实施例对此不作具体限定。宠物种类可以按照物种划分，如宠物猫、宠物狗和宠物鸟等。在物种划分的基础上，宠物种类还可以按照品种进一步划分。例如，对于宠物狗而言，宠物狗可进一步划分为“博美犬”、“阿拉斯加犬”和“拉布拉多犬”。为了便于识别不同种类宠物的情绪，在执行本发明实施例之前，还可预先训练得到通用情绪表征模型。具体地，可将样本通用声学特征以及样本通用声学特征对应的宠物种类作为初始模型的输入，将样本通用声学特征对应的情绪判定结果作为初始模型的输出，从而训练得到通用情绪表征模型。在训练得到通用情绪表征模型之后，可将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的情绪判定信息。

属于不同宠物种类的宠物主体的样本宠物音频数据可邀请不同的专家进行标注。由于不同宠物种类的样本宠物音频数据均提取通用声学特征，但不同宠物种类的宠物主体的声音具有不同的特点，因此，为了能够准确识别不同宠物种类宠物主体的情绪，需要将宠物种类与样本通用声学特征一起作为输入数据对通用情绪表征模型进行训练。

本发明实施例提供的方法，通过将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的情绪判定信息。由于通用声学特征能够表征宠物主体的情绪，将宠物种类与通用声学特征一起作为通用情绪表征模型的输入，可结合不同宠物种类宠物主体的声音特点，针对性对不同宠物种类的宠物主体进行情绪识别，从而提高了宠物情绪识别的准确度。

不同种类的宠物发声会有区别，同一种类不同品种的宠物发声也会有区别，同一种类且同一品种但宠物属性不同的宠物发声也会有区别。其中，宠物属性可以包含宠物年龄、宠物体型等，本发明实施例对此不作具体限定。例如，以宠物狗为例，宠物狗按照宠物年龄可以分为老年犬及幼年犬等，按照宠物体型可以分为大型犬及小型犬等。对于同一种类且同一品种但宠物属性不同的宠物狗，其发声会有区别，如小型犬的发声接近于“ao”，呈现出短促快速、音量较小的特点。中大型犬的发声接近于“wang”，且音量较大，爆破性强。老年犬的发声低沉无力，小型犬的发声尖锐有力。

基于上述说明，为了更好地对同一种类且同一品种但宠物属性不同的宠物主体进行情绪识别，基于上述实施例的内容，作为一种可选实施例，声学特征为特定声学特征，情绪表征模型为特定情绪表征模型；相应地，本发明实施例不对将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息的方式作具体限定，包括但不限于：将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的情绪判定信息，特定情绪表征模型同时与宠物主体对应的宠物种类以及宠物属性相匹配，特定情绪表征模型是基于样本特定声学特征、样本特定声学特征对应的情绪判定结果进行训练后得到的。

在执行本发明实施例之前，可从指定宠物音频数据中提取特定声学特征。由上述实施例可知，在通过通用情绪表征模型识别宠物情绪时，可使用通用声学特征。通用声学特征可包括基频、响度、节奏度和谱包络平坦度等，而不同宠物属性的宠物主体其发声均有不同的特点，上述通用声学特征中一些声学特征可以更好地表现不同宠物属性的宠物主体其发声特点。特定声学特征指的是针对某一特定宠物主体的声音特色，而提取到的反映该宠物主体声音特色的声学特征。

例如，对于小型犬，基频、过零率和音节长短等周期性较强的声学特征更适合作为表现其发声特点的声学特征。对于中大型犬，响度和节奏度等声学特征更适合作为表现其发声特点的声学特征。对于老年犬，谱平坦度、谱滚降系数和低频能量系数等声学特征更适合作为表现其发声特点的声学特征。基于上述示例的内容，对于不同宠物属性的宠物主体，通用声学特征中适合表现其发声特点的声学特征即可作为该宠物主体的特定声学特征。

在将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的情绪判定信息之前，还可预先训练得到特定情绪表征模型。在训练特定情绪表征模型时可将样本特定声学特征作为初始模型的输入，将样本特定声学特征对应的情绪判定结果作为初始模型的输出，从而训练得到特定情绪表征模型。需要说明的是，不同宠物种类以及不同宠物属性的宠物主体均可以对应不同的特定情绪表征模型。

例如，以宠物种类为狗为例，不同宠物属性的狗，如小型犬、中大型犬及老年犬均可对应不同的特定情绪表征模型。其中，小型犬对应的情绪表征模型是基于老年犬的样本特定声学特征及对应的情绪判定结果训练得到，中大型犬对应的情绪表征模型是基于幼年犬的样本特定声学特征及对应的情绪判定结果训练得到。由上述内容可知，小型犬的样本特定声学特征可包括基频、过零率及音节长短等。中大型宠物狗的样本特定声学特征可包括响度、节奏度等。

考虑到不同宠物品种的宠物主体其发声也会有差异，从而在训练得到特定情绪表征模型时，不同宠物种类、不同宠物品种以及不同宠物属性的宠物主体均可以对应不同的特定情绪表征模型。例如，以宠物种类为狗，宠物品种为博美犬为例，不同宠物属性的博美犬，如老年博美犬、幼年博美犬均可对应不同的特定情绪表征模型。其中，老年博美犬对应的情绪表征模型是基于老年博美犬的样本特定声学特征及对应的情绪判定结果训练得到，幼年博美犬对应的情绪表征模型是基于幼年博美犬的样本特定声学特征及对应的情绪判定结果训练得到。

通过上述过程在得到不同宠物种类、不同宠物品种以及不同宠物属性的宠物主体所适用的特定情绪表征模型后，可将待识别情绪的宠物主体所对应的声学特征输入至相应的特定情绪表征模型中。由于需要确定待识别情绪的宠物主体适用于哪个特定情绪表征模型，从而实际实施过程中可先获取该宠物主体的宠物种类、宠物品种及宠物属性，在基于获取到的信息确定所适用的特定情绪表征模型。其中，在获取该宠物主体的宠物种类、宠物品种及宠物属性时，可以由用户输入进行获取，或者基于该宠物主体的图像进行图像识别后获取，本发明实施例对此不作限定。

本发明实施例提供的方法，通过将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的情绪判定信息。由于特定声学特征能够结合宠物属性更好地表征宠物主体的情绪，而特定情绪表征模型是与宠物主体在宠物种类及宠物属性等不同维度上是匹配的，将特定声学特征作为特定情绪表征模型的输入，可针对性对不同宠物种类及不同宠物属性的宠物主体进行情绪识别，从而提高了宠物情绪识别的准确度。

由上述实施例可知，可通过通用情绪表征模型或者特定情绪表征模型实现宠物的情绪识别。考虑到两种模型在情绪识别时输出的情绪判定信息均可作为确定宠物情绪的依据，基于上述实施例的内容，作为一种可选实施例，声学特征包括通用声学特征及特定声学特征，情绪表征模型包括通用情绪表征模型及特定情绪表征模型；相应地，本发明实施例还提供一种同时采用通用情绪表征模型和特定情绪表征模型进行宠物情绪识别的方法，如图2所示，该方法包括：

201、将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的第一情绪判定信息，通用情绪表征模型是基于样本通用声学特征、样本通用声学特征对应的宠物种类及样本通用声学特征对应的情绪判定结果进行训练后得到的。

202、将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的第二情绪判定信息，特定情绪表征模型同时与宠物主体对应的宠物种类以及宠物属性相匹配，特定情绪表征模型是基于样本特定声学特征、样本特定声学特征对应的情绪判定结果进行训练后得到的。

上述实施例已对采用通用情绪表征模型得到宠物主体对应的第一情绪判定信息的过程，以及采用特定情绪表征模型得到宠物主体对应的第二情绪判定信息的过程进行了说明，在此不再赘述。应当说明的是，本发明实施例不对执行步骤201和步骤202的先后顺序作限定，可以先执行步骤201再执行步骤202，或者先执行步骤202再执行步骤201。

203、将第一情绪判定信息及第二情绪判定信息进行整合，将整合后的结果作为宠物主体对应的情绪判定信息。

其中，整合可以为第一情绪判定信息对应的拟人化情绪及第二情绪判定信息对应的拟人化情绪进行叠加，从而叠加后的结果作为宠物主体对应的情绪判定信息。例如，若第一情绪判定信息对应的拟人化情绪为“高兴”，第二情绪判定信息对应的拟人化情绪为“兴奋”，则将两者进行叠加后得到宠物主体对应的情绪判定信息为“很高兴”。

需要说明的是，上述识别宠物情绪的过程同时用到了通用声学特征及特定声学特征，并分别输入至两个模型中，得到两个情绪判定信息，再将两个情绪判定信息进行整合得到最终的情绪判定信息。实际实施过程中，上述通用情绪表征模型及特定情绪表征模型也可以整合为一个模型，将通用声学特征及特定声学特征同时作为整合后模型的输入，从而直接输出最终的情绪判定信息，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的第一情绪判定信息。将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的第二情绪判定信息。将第一情绪判定信息及第二情绪判定信息进行整合，将整合后的结果作为宠物主体对应的情绪判定信息。由于可将两个情绪表征模型的输出结果进行整合，并将整合结果作为宠物主体对应的情绪判定信息，从而能够提高宠物情绪识别的准确度。

由上述实施例的内容可知，指定宠物音频数据为一只宠物主体的音频数据，而实际在采集音频数据时，可能会采集到混合有多只宠物主体声音的宠物音频数据，从而需要从宠物音频数据中筛选出指定宠物音频数据。为了从宠物音频数据中筛选出指定宠物音频数据，基于上述实施例的内容，作为一种可选实施例，在提取指定宠物音频数据的声学特征之前，还提供一种获取指定宠物音频数据的方法。参见图3，该方法包括：

301、对于任一特定背景模型，计算宠物音频数据中每一宠物音频帧的谱参数特征与任一特定背景模型之间的相似度。

在执行步骤301之前，可先将宠物音频数据切分为宠物音频帧。每一特定背景模型均对应一种宠物，且可以为表征一种宠物声音特点的通用背景模型(UBM)。特定背景模型可通过提取对应宠物种类的样本宠物音频数据的谱参数特征，并采用EM(ExpectationMaximization Algorithm)算法训练大型高斯混合模型(GMM)得到。

302、确定宠物音频数据中相似度大于第一预设阈值的宠物音频帧，并将相似度大于第一预设阈值的宠物音频帧进行组合，得到指定宠物音频数据，指定宠物音频数据对应的宠物种类与任一特定背景模型对应的宠物种类相同。

对于任一宠物音频帧及任一特定背景模型，若该宠物音频帧与该特定背景模型之间的相似度大于第一预设阈值，则表明作为该宠物音频帧中声音来源的宠物主体，其对应的宠物种类为该特定背景模型对应的宠物种类。因此，将相似度大于第一预设阈值的宠物音频帧进行组合，即可得到指定宠物音频数据。其中，该指定宠物音频数据对应的宠物种类与该特定背景模型对应的宠物种类相同。例如，若宠物音频数据混合有猫及狗的音频数据，通过将该宠物音频数据按帧切分，即可得到多个宠物音频帧。其中，多个宠物音频帧中包括单由猫发出声音的宠物音频帧，还包括单由狗发出的宠物音频帧。通过将由猫发出声音的宠物音频帧进行组合，即可得到宠物种类为猫的指定宠物音频数据，将由狗发出声音的宠物音频帧进行组合，即可得到宠物种类为狗的指定宠物音频数据。

需要说明的是，在上述示例中，宠物音频数据混合有猫及狗的音频数据，并非指的是猫及狗声音相互重叠，而是指的是猫及狗的声音相互不重叠、且猫及狗的声音同时出现在宠物音频数据中。实际实施过程中，对于不同宠物主体的声音相互重叠的宠物音频数据，可预先筛除掉。另外，通过上述过程筛选出指定宠物音频数据，由于筛选出指定宠物音频数据所使用的特定背景模型，其对应的宠物种类是确定的，从而筛选出的指定宠物音频数据其对应的宠物种类也是确定的，且与所使用的特定背景模型对应的宠物种类一致。

本发明实施例提供的方法，对于任一特定背景模型，通过计算宠物音频数据中每一宠物音频帧的谱参数特征与该特定背景模型之间的相似度。确定宠物音频数据中相似度大于第一预设阈值的宠物音频帧，并将相似度大于第一预设阈值的宠物音频帧进行组合，得到指定宠物音频数据。由于可从宠物音频数据中分离出不同种类的宠物主体对应的指定宠物音频数据，从而可提取出不同种类宠物主体的指定宠物音频数据。

由上述实施例的内容可知，宠物音频数据为混合有多只宠物主体声音的宠物音频数据。而实际在采集音频数据时，采集到的原始音频数据中可能还会混有人声及杂音，从而需要从原始音频数据中筛选出宠物音频数据。在相关技术中，通常是采用端点检测(VAD)方法，也即检测出原始音频数据有声音的音频段起点及终点，从而筛选出有声音的音频数据段。上述过程只能够区分有声的音频数据段和无声的音频数据段，无法从原始音频中筛选出宠物音频数据。针对上述情形，基于上述实施例的内容，作为一种可选实施例，在计算宠物音频数据中每一宠物音频帧的谱参数特征与任一特定背景模型之间的相似度之前，还提供一种获取宠物音频数据的方法。参见图4，该方法包括：

401、计算原始音频数据中每一原始音频帧的谱参数特征与通用背景模型之间的相似度。

一特定背景模型均对应一种宠物，且可以为表征一种宠物声音特点的通用背景模型(UBM)。特定背景模型可通过提取对应宠物种类的样本宠物音频数据的谱参数特征，并采用EM算法训练大型高斯混合模型(GMM)得到。

由于原始音频数据可能含有无声的音频数据，从而在执行步骤401之前，可以通过端点检测方法过滤掉原始音频数据中无声的音频数据，并将进行过滤操作后的原始音频数据切分为原始音频帧。通用背景模型可用来表征宠物声音的通用背景模型(UBM)，通用背景模型可通过提取不同宠物种类的样本宠物音频数据的谱参数特征，并采用EM算法训练大型高斯混合模型(GMM)得到。

402、确定原始音频数据中相似度大于第二预设阈值的原始音频帧，并将相似度大于第二预设阈值的原始音频帧进行组合，得到宠物音频数据。

对于任一原始音频帧，若该原始音频帧与通用背景模型之间的相似度大于第二预设阈值，则表明该原始音频帧中的声音由宠物发出的。因此，可将大于第二预设阈值的原始音频帧进行组合，即可得到仅包含宠物声音的宠物音频数据。例如，原始音频数据中包含宠物猫、宠物狗和人的声音，将原始音频数据中的每一原始音频帧与通用背景模型进行相似度比对，组合相似度大于第二预设阈值的原始音频帧即可得到仅包含宠物猫和宠物狗的声音，从而剔除了人的声音。

本发明实施例提供的方法，通过计算原始音频数据中每一原始音频帧的谱参数特征与通用背景模型之间的相似度。确定原始音频数据中相似度大于第二预设阈值的原始音频帧，并将相似度大于第二预设阈值的原始音频帧进行组合，得到宠物音频数据。由于可从原始音频数据中分离出仅包含宠物声音的宠物音频数据，从而可提取出仅包含宠物声音的宠物音频数据。

通过上述过程在得到情绪判定信息后，若仅基于情绪判定信息生成文本信息，并向用户展示文本信息，以提示用户宠物当前的情绪，则会比较缺乏趣味性。针对上述情形，基于上述实施例的内容，作为一种可选实施例，在将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息之后，还提供了一种基于情绪判定信息提示用户宠物当前情绪的方法，该方法包括：基于情绪判定信息生成文本信息，文本信息中的内容用于表示情绪判定信息对应的拟人化情绪；对文本信息进行语音合成，并播报语音合成结果。

其中，拟人化情绪是指以人的情绪描述方式来表达宠物主体的情绪。情绪判定信息可以为用于描述情绪的词，如“高兴”及“生气”等。基于情绪判定信息生成的文本信息可包含上述描述情绪的词，但考虑到文本信息在表示拟人化情绪的同时，还可增加文本信息本身的趣味性，从而可基于上述描述情绪的词，对文本信息的内容进行拓展。例如，若情绪判定信息包含的用于描述情绪的词为“高兴”，则对应拓展得到的文本信息可以为“宝宝很高兴”。同理，若情绪判定信息包含的用于描述情绪的词为“生气”，则对应拓展得到的文本信息可以为“嘟嘟很生气”。其中，“宝宝”和“嘟嘟”均为拓展的宠物主体名字。另外，还可以针对宠物的情绪向用户提醒下一步与宠物之间可进行的互动方式，并以此对文本信息进行进一步拓展。例如，可将“嘟嘟生气了”进一步扩充为“嘟嘟生气了，要不哄哄嘟嘟？”

通过上述过程在生成文本信息后，可以直接向用户展示文本信息，或者通过对文本信息进行语音合成，并向用户播报语音合成结果。

本发明实施例提供的方法，通过基于情绪判定信息生成文本信息，文本信息中的内容用于表示情绪判定信息对应的拟人化情绪。对文本信息进行语音合成，并播报语音合成结果。由于文本信息中的内容能够表示情绪判定信息对应的拟人化情绪，并可对文本信息进行语音播报，从而增添了用户与宠物之间的互动乐趣。另外，由于可对文本信息进行内容拓展，从而增添了后续语音播报内容的趣味性。

基于上述实施例的内容，本发明实施例提供了一种宠物情绪识别装置，该宠物情绪识别装置用于执行上述方法实施例中的宠物情绪识别方法。参见图5，该装置包括：

提取模块501，用于提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；

判定模块502，用于将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。

作为一种可选实施例，声学特征为通用声学特征，情绪表征模型为通用情绪表征模型；相应地，判定模块502，用于将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的情绪判定信息，通用情绪表征模型是基于样本通用声学特征、样本通用声学特征对应的宠物种类及样本通用声学特征对应的情绪判定结果进行训练后得到的。

作为一种可选实施例，声学特征为特定声学特征，情绪表征模型为特定情绪表征模型；相应地，判定模块502，用于将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的情绪判定信息，特定情绪表征模型同时与宠物主体对应的宠物种类以及宠物属性相匹配，特定情绪表征模型是基于样本特定声学特征、样本特定声学特征对应的情绪判定结果进行训练后得到的。

作为一种可选实施例，声学特征包括通用声学特征及特定声学特征，情绪表征模型包括通用情绪表征模型及特定情绪表征模型；相应地，判定模块502，用于将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的第一情绪判定信息，通用情绪表征模型是基于样本通用声学特征、样本通用声学特征对应的宠物种类及样本通用声学特征对应的情绪判定结果进行训练后得到的；将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的第二情绪判定信息，特定情绪表征模型同时与宠物主体对应的宠物种类以及宠物属性相匹配，特定情绪表征模型是基于样本特定声学特征、样本特定声学特征对应的情绪判定结果进行训练后得到的；将第一情绪判定信息及第二情绪判定信息进行整合，将整合后的结果作为宠物主体对应的情绪判定信息。

作为一种可选实施例，该装置还包括：

第一计算模块，用于对于任一特定背景模型，计算宠物音频数据中每一宠物音频帧的谱参数特征与任一特定背景模型之间的相似度；

第一组合模块，用于确定宠物音频数据中相似度大于第一预设阈值的宠物音频帧，并将相似度大于第一预设阈值的宠物音频帧进行组合，得到指定宠物音频数据，指定宠物音频数据对应的宠物种类与任一特定背景模型对应的宠物种类相同。

作为一种可选实施例，该装置还包括：

第二计算模块，用于计算原始音频数据中每一原始音频帧的谱参数特征与通用背景模型之间的相似度；

第二组合模块，用于确定原始音频数据中相似度大于第二预设阈值的原始音频帧，并将相似度大于第二预设阈值的原始音频帧进行组合，得到宠物音频数据。

作为一种可选实施例，该装置还包括：

生成模块，用于基于情绪判定信息生成文本信息，文本信息中的内容用于表示情绪判定信息对应的拟人化情绪；对文本信息进行语音合成，并播报语音合成结果。

本发明实施例的装置，通过提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息。由于只需提取指定宠物音频数据的声学特征，将声学特征输入至情绪表征模型，即可输出宠物主体对应的情绪判定信息，而不用通过逐一比对的方式，从而减少了计算量，并提高了宠物情绪识别的效率。

其次，通过将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的情绪判定信息。由于通用声学特征能够表征宠物主体的情绪，将宠物种类与通用声学特征一起作为通用情绪表征模型的输入，可结合不同宠物种类宠物主体的声音特点，针对性对不同宠物种类的宠物主体进行情绪识别，从而提高了宠物情绪识别的准确度。

再次，通过将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的情绪判定信息。由于特定声学特征能够结合宠物属性更好地表征宠物主体的情绪，而特定情绪表征模型是与宠物主体在宠物种类及宠物属性等不同维度上是匹配的，将特定声学特征作为特定情绪表征模型的输入，可针对性对不同宠物种类及不同宠物属性的宠物主体进行情绪识别，从而提高了宠物情绪识别的准确度。

从次，通过将通用声学特征及宠物主体对应的宠物种类输入至通用情绪表征模型，输出宠物主体对应的第一情绪判定信息。将特定声学特征输入至特定情绪表征模型，输出宠物主体对应的第二情绪判定信息。将第一情绪判定信息及第二情绪判定信息进行整合，将整合后的结果作为宠物主体对应的情绪判定信息。由于可将两个情绪表征模型的输出结果进行整合，并将整合结果作为宠物主体对应的情绪判定信息，从而能够提高宠物情绪识别的准确度。

另外，对于任一特定背景模型，通过计算宠物音频数据中每一宠物音频帧的谱参数特征与该特定背景模型之间的相似度。确定宠物音频数据中相似度大于第一预设阈值的宠物音频帧，并将相似度大于第一预设阈值的宠物音频帧进行组合，得到指定宠物音频数据。由于可从宠物音频数据中分离出不同种类的宠物主体对应的指定宠物音频数据，从而可提取出不同种类宠物主体的指定宠物音频数据。

最后，通过计算原始音频数据中每一原始音频帧的谱参数特征与通用背景模型之间的相似度。确定原始音频数据中相似度大于第二预设阈值的原始音频帧，并将相似度大于第二预设阈值的原始音频帧进行组合，得到宠物音频数据。由于可从原始音频数据中分离出仅包含宠物声音的宠物音频数据，从而可提取出仅包含宠物声音的宠物音频数据。

值得一提的是，通过基于情绪判定信息生成文本信息，文本信息中的内容用于表示情绪判定信息对应的拟人化情绪。对文本信息进行语音合成，并播报语音合成结果。由于文本信息中的内容能够表示情绪判定信息对应的拟人化情绪，并可对文本信息进行语音播报，从而增添了用户与宠物之间的互动乐趣。另外，由于可对文本信息进行内容拓展，从而增添了后续语音播报内容的趣味性。

本发明实施例提供了一种宠物情绪识别设备，如图6所示，该设备包括：处理器(processor)601、存储器(memory)602和总线603；

其中，处理器601及存储器602分别通过总线603完成相互间的通信；处理器601用于调用存储器602中的程序指令，以执行上述实施例所提供的宠物情绪识别方法，例如包括：提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。

本发明实施例还提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机指令，该计算机指令使计算机执行对应实施例所提供的宠物情绪识别方法，例如包括：提取指定宠物音频数据的声学特征，指定宠物音频数据为一只宠物主体对应的音频数据；将声学特征输入至情绪表征模型，输出宠物主体对应的情绪判定信息，情绪表征模型是基于样本声学特征以及样本声学特征对应的情绪判定结果进行训练后得到的。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的宠物情绪识别设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种宠物情绪识别方法，其特征在于，包括：

提取指定宠物音频数据的声学特征，所述指定宠物音频数据为一只宠物主体对应的音频数据；

将所述声学特征输入至情绪表征模型，输出所述宠物主体对应的情绪判定信息，所述情绪表征模型是基于样本声学特征以及所述样本声学特征对应的情绪判定结果进行训练后得到的；

所述声学特征包括通用声学特征和/或特定声学特征，所述情绪表征模型包括通用情绪表征模型和/或特定情绪表征模型；

所述特定声学特征指的是针对特定宠物主体的声音特色，而提取到的反映该宠物主体声音特色的声学特征；

相应地，所述将所述声学特征输入至情绪表征模型，输出所述宠物主体对应的情绪判定信息，包括：

将所述通用声学特征及所述宠物主体对应的宠物种类输入至所述通用情绪表征模型，输出所述宠物主体对应的第一情绪判定信息，所述通用情绪表征模型是基于样本通用声学特征、所述样本通用声学特征对应的宠物种类及所述样本通用声学特征对应的情绪判定结果进行训练后得到的；

和/或，将所述特定声学特征输入至所述特定情绪表征模型，输出所述宠物主体对应的第二情绪判定信息，所述特定情绪表征模型同时与所述宠物主体对应的宠物种类以及宠物属性相匹配，所述特定情绪表征模型是基于样本特定声学特征、所述样本特定声学特征对应的情绪判定结果进行训练后得到的；

将所述第一情绪判定信息及所述第二情绪判定信息进行整合，将整合后的结果作为所述宠物主体对应的情绪判定信息，或，将所述第一情绪判定信息或所述第二情绪判定信息作为所述宠物主体对应的情绪判定信息。

2.根据权利要求1所述的方法，其特征在于，所述提取指定宠物音频数据的声学特征之前，还包括：

对于任一特定背景模型，计算宠物音频数据中每一宠物音频帧的谱参数特征与所述任一特定背景模型之间的相似度；

确定所述宠物音频数据中相似度大于第一预设阈值的宠物音频帧，并将相似度大于所述第一预设阈值的宠物音频帧进行组合，得到所述指定宠物音频数据，所述指定宠物音频数据对应的宠物种类与所述任一特定背景模型对应的宠物种类相同。

3.根据权利要求2所述的方法，其特征在于，所述计算宠物音频数据中每一宠物音频帧的谱参数特征与所述任一特定背景模型之间的相似度之前，还包括：

计算原始音频数据中每一原始音频帧的谱参数特征与通用背景模型之间的相似度；

确定所述原始音频数据中相似度大于第二预设阈值的原始音频帧，并将相似度大于第二预设阈值的原始音频帧进行组合，得到所述宠物音频数据。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述将所述声学特征输入至情绪表征模型，输出所述宠物主体对应的情绪判定信息之后，还包括：

基于所述情绪判定信息生成文本信息，所述文本信息中的内容用于表示所述情绪判定信息对应的拟人化情绪；

对所述文本信息进行语音合成，并播报语音合成结果。

5.一种宠物情绪识别装置，其特征在于，包括：

提取模块，用于提取指定宠物音频数据的声学特征，所述指定宠物音频数据为一只宠物主体对应的音频数据；

判定模块，用于将所述声学特征输入至情绪表征模型，输出所述宠物主体对应的情绪判定信息，所述情绪表征模型是基于样本声学特征以及所述样本声学特征对应的情绪判定结果进行训练后得到的；

相应地，所述判定模块用于：

6.一种宠物情绪识别设备，其特征在于，包括：

至少一个处理器；

以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

7.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至4任一所述的方法。