CN111048099A

CN111048099A - 声音源的识别方法、装置、服务器及存储介质

Info

Publication number: CN111048099A
Application number: CN201911294769.8A
Authority: CN
Inventors: 杨楠
Original assignee: Suishou Beijing Information Technology Co Ltd
Current assignee: Suishou Beijing Information Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-04-21

Abstract

本发明公开了一种声音源的识别方法、装置、服务器及存储介质。一种声音源的识别方法，包括：获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。本发明的技术方案达到了降低根据用户的语音信号对应谱图的身份编码向量识别并汇总至少一个相同声音源对应的所述语音信号的计算难度和耗资源占空间的效果。同时还提升了对多个声音源产生的语音信号进行分离归类的准确性。

Description

声音源的识别方法、装置、服务器及存储介质

技术领域

本发明实施例涉及声音源的识别技术，尤其涉及一种声音源的识别方法、装置、服务器及存储介质。

背景技术

在常见的会话场景中，尤其是在电话服务中，电话录音作为和客户沟通的依据会被服务的公司保留下来，在对电话录音进行分析处理的过程中，通常比较关注客户的声音，尤其是在金融业务中，通过进一步分析客户语音信号还可以起到用户的身份认证的作用，因此，将一段电话录音中的客户一人说话的声音分离并汇总就变得很重要。而人的声纹(用于表达声音特征)如同人脸、指纹、虹膜等生物特征一样，具有独特性，因此可以根据不同人的声纹不同来区分不同说话人。现有的声纹识别通常的方法是在语音信号中提取MFCC特征，再训练GMM-UBM模型来识别语音信号中的声纹信息，需要为每一个注册用户生成一个GMM-UBM模型。在面对多个语音信号的声纹识别时，需要每个语音信号都需要建立一个模型，计算量也非常的大，对于服务器集群来说，占用的资源也较多；并且数量较多的模型的维护成本也很高。此外MFCC特征提取过程中还筛掉很多有效信息，使其对语音信号中的声纹描述的准确性降低，因此还会导致多个声音源产生的多个语音信号进行分离归类的准确性较差。

发明内容

本发明提供一种声音源的识别方法、装置、服务器及存储介质，以实现降低根据用户的语音信号对应谱图的身份编码向量识别并汇总至少一个相同声音源对应的所述语音信号的计算难度和耗资源占空间的效果，提升对多个声音源产生的语音信号进行分离归类的准确性。

第一方面，本发明实施例提供了一种声音源的识别方法，包括：

获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；

将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；

根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

可选的，所述获取用户的语音信号的谱图包括：

根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；

分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图；

将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。

可选的，所述能量图谱为梅尔能量图谱，所述获取用户的语音信号的谱图包括：

分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图；

将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为所述谱图。

可选的，所述获取用户的语音信号的谱图之前，还包括：

根据采集到的录音获取声音信号，所述录音的声音源包括至少两个；

滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号。

可选的，所述根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号还包括：

对至少两个所述身份编码向量进行聚类，以获得聚类结果；

根据所述聚类结果汇总至少一个相同声音源对应的所述语音信号。

可选的，所述根据每个身份编码向量汇总至少一个相同声音源对应的语音信号之后，还包括：

将所述相同声音源对应的所述语音信号按产生的时间顺序进行组合，以获得所述相同声音源的语音信号集。

可选的，所述对至少两个所述身份编码向量进行聚类，以获得聚类结果之后，还包括：

根据所述聚类结果的类别数量确认所述声音源的数量。

第二方面，本发明实施例还提供了一种声音源的识别装置，包括：

谱图获取模块，用于获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；

身份编码向量获取模块，用于将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；

语音信号汇总模块，用于根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一所述的声音源的识别方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一所述的声音源的识别方法。

本发明的技术方案，通过将语音信号转化为谱图，将谱图输入身份编码模型中以获得所述谱图的身份编码向量，再根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号，即将用户的语音信号转化为谱图对应的身份编码向量，由于身份编码向量维度低，但个体表征性强，易于存储、易于计算的特点，解决了汇总至少一个相同声音源对应的所述语音信号的计算复杂且耗资源占用大的问题，达到了降低根据用户的语音信号对应谱图的身份编码向量识别并汇总至少一个相同声音源对应的所述语音信号的计算难度和耗资源占空间的效果。同时还达到了提升对多个声音源产生的多个语音信号进行分离归类的准确性。

附图说明

下面将通过参照附图详细描述本发明的示例性实施例，使本领域的普通技术人员更清楚本发明实施例的上述及其他特征和优点，附图中：

图1是本发明实施例一中的声音源的识别方法的流程图；

图2是本发明实施例一中的声音源的识别方法的流程图；

图3是本发明实施例一中声音信号分割为语音信号示意图；

图4是本发明实施例一中的声音源的识别方法的流程图；

图5是本发明实施例一中的语音信号的汇总示意图；

图6是本发明实施例一中替代实施例的声音源的识别方法的流程图；

图7是本发明实施例一中替代实施例的语音信号组合成语音信号集的示意图；

图8是本发明实施例二中的声音源的识别方法的流程图；

图9是本发明实施例二中的声音源的识别方法的流程图；

图10是本发明实施例二中替代实施例的声音源的识别方法的流程图；

图11是本发明实施例三中的声音源的识别装置的示意图；

图12是本发明实施例三中替代实施例的声音源的识别装置的示意图；

图13是本发明实施例三中替代实施例的声音源的识别装置的示意图；

图14是本发明实施例三中替代实施例的声音源的识别装置的示意图；

图15是本发明实施例三中替代实施例的声音源的识别装置的示意图；

图16是本发明实施例三中替代实施例的声音源的识别装置的示意图；

图17是本发明实施例四中的服务器的示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对发明的限定。另外还需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

此外，术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等，但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第二身份编码向量集为第二身份编码向量集，且类似地，可将第二身份编码向量集称为第二身份编码向量集。第二身份编码向量集和第二身份编码向量集两者都是身份编码向量集，但其不是同一身份编码向量集。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1为本发明实施例一提供的声音源的识别方法的流程图，具体包括如下步骤：

步骤110、获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；

本实施例中，每一个语音信号对应一个谱图。

示例性的，当谱图为语音频谱图时，具体的，可以先获得语音信号的时域函数，将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数，优选的，将时域函数进行短时傅里叶变换(STFT)得到频域函数，再根据频域函数画出的波形图即为语音频谱图。

示例性的，当谱图为语音能量谱图时，本实施例中以能量谱图为梅尔能量谱图为例，可以先获得语音信号的时域函数，将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数，将频域函数输入通过梅尔标度滤波器组以获得语音信号的原始声音梅尔能量谱图。在其他实施中还可以通过时域函数直接求得能量谱图，此处不作限制。

本实施例中，在获取用户的语音信号的谱图之前还需要获取用户的语音信号，参见图2，本实施例中获取用户的语音信号包括步骤101和步骤102，具体的：

步骤101、根据采集到的录音获取声音信号，所述录音的声音源包括至少两个。

本实施例中，录音为至少两个人说话的录音，优选的录音为至少两个人说话的电话录音，示例性的，在用户拨打服务方的电话时，电话录音服务方的客服与用户的电话录音。

步骤102、滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号。

本实施例中，至少两个人说话时，一般是一个人说完另一个人再听完前一人的话之后开始的，会存在一定停顿间隙，可以采用语音端点检测技术判断声音的开始和结束点。将用户停顿的间隙滤除之后获得语音信号主要为用户说话时的语音信号，可以更加准确的表达用户的声纹。

在本实施例中，采用语音端点检测技术判断声音的开始和结束点，以每段声音的开始点和结束点将语音信号进行分割。示例性的，参见图3，声音信号001包括至少两个有声段和至少一个静音片段，在时域图上的静音片段显示接近水平直线的片段。语音端点检测技术声音信号在每段声音的开始点和结束点，在每段声音的开始点和结束点进行切割，并可以同步将静音片段对应的部分滤除，即可得到至少两个语音信号002。

在一些实施例中，滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号之前还包括：采用低通滤波器处理声音信号去除背景噪音的影响，以使语音信号更加准确的表达用户的声纹。

步骤120、将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量。

本实施例中，身份编码模型为CNN、RNN、LSTM、GRU等模型结构结合模型，具体的模型训练方式为：以交叉熵为损失函数，采用至少一个千人的谱图训练分类模型，这至少一个千人的谱图都包含特有的特征向量；在分类模型收敛后，舍弃分类层，并将倒数第二层的全连接层作为输出层，最终，获得的模型即可作为身份编码模型，将谱图输入身份编码模型即可获得身份编码向量。

步骤130、根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

本实施例中，每一个语音信号的谱图输入身份编码模型中即可获得对应的一个身份编码向量，同一个声音源的声纹相同，因此获得的编码向量也应当相同或十分接近，不同的声音源的声纹不相同，因此获得的编码向量差异也较大。

本实施例中，参见图4，所述根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号还包括：

步骤131、对至少两个所述身份编码向量进行聚类，以获得聚类结果。

本实施例中，优选采用K-means算法对步骤120中获得的所有的身份编码向量进行聚类，所有的身份编码向量聚类之后可以获得至少一个身份编码向量集，具体的，聚类结果即为至少一个身份编码向量集的类别数量、每个身份编码向量集中身份编码向量的信息等。

步骤132、根据所述聚类结果汇总至少一个相同声音源对应的所述语音信号。

本实施例中，身份编码向量聚类之后可获得的至少一个身份编码向量集，在同一个身份编码向量集中的身份编码向量所对应的语音信号为同一个声音源的语音信号。将在同一个身份编码向量集中的身份编码向量所对应的语音信号进行汇总即汇总至少一个相同声音源对应的所述语音信号。

示例性的，语音信号A、语音信号B、语音信号C、语音信号D和语音信号E的图谱一次对应为图谱A、图谱B、图谱C、图谱D和图谱E。图谱A、图谱B、图谱C、图谱D和图谱E依次输入身份编码模型后获得的身份编码向量依次对应为身份编码向量A、身份编码向量B、身份编码向量C、身份编码向量D和身份编码向量E。将身份编码向量A、身份编码向量B、身份编码向量C、身份编码向量D和身份编码向量E进行聚类，若在聚类之后，身份编码向量A、身份编码向量C和身份编码向量E属于第一身份编码向量集，而身份编码向量B和身份编码向量E属于第二身份编码向量集时；则说明语音信号A、语音信号C和语音信号E是同一个第一声音源发出的语音信号；语音信号B和语音信号E是同一个第二声音源的语音信号；也就是说第一声音源和第二声音源是不同的声音源，参见图5，即可将语音信号A、语音信号C和语音信号E作为第一声音源对应的语音信号003汇总为一类，将语音信号B和语音信号E作为第二声音源对应的语音信号汇总004为另一类。因此本实施例的技术方案可根据至少两个所述身份编码向量判别至少两个语音信号中的其中哪几个属于相同声音源发出的，根据判别结果即可将相同声音源对应的所述语音信号汇总。

替代实施例中，步骤131中所述对至少两个所述身份编码向量进行聚类，以获得聚类结果之后，还包括：

根据所述聚类结果的类别数量确认所述声音源的数量。

本替代实施例的技术方案，所有的身份编码向量聚类之后可以获得至少一个身份编码向量集，根据至少一个身份编码向量集的数量，即可确认声音源的数量，示例性的，至少一个身份编码向量集的数量为3个时，则发出至少两个语音信号的声音源的数量也为三个，当语音信号的声音信号来源为电话录音时，则声音信号为三方通话的录音的声音信号。

本实施例的技术方案，通过将语音信号转化为谱图，将谱图输入身份编码模型中以获得所述谱图的身份编码向量，再根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号，即将用户的语音信号转化为谱图对应的身份编码向量，由于身份编码向量维度低，但个体表征性强，易于存储、易于计算的特点，解决了汇总至少一个相同声音源对应的所述语音信号的计算复杂且耗资源占用大的问题，达到了降低根据用户的语音信号对应谱图的身份编码向量识别并汇总至少一个相同声音源对应的所述语音信号的计算难度和耗资源占空间的效果。同时还达到了提升对多个声音源产生的多个语音信号进行分离归类的准确性。

此外由于身份编码向量存储的占用的空间小，在将每个声音源的语音信号对应的身份编码向量存储后，还可以方便通过身份编码向量识别声音源的作用。示例性的，用户需要办理金融业务时，需要验证用户身份，则可通过现场获取用户实时的语音信号的身份编码向量与系统存储的当前用户对应的身份编码向量进行比对以判断是否与之前办理业务的为同一人。

替代实施例中，参见图6，步骤130中所述根据每个身份编码向量汇总至少一个相同声音源对应的语音信号之后，还包括：

步骤140、将所述相同声音源对应的所述语音信号按产生的时间顺序进行组合，以获得所述相同声音源的语音信号集。

本替代实施例中，由于相同声音源发出声音信号的时间是有先后顺序的，将相同声音源的语音信号按照其产生的时间顺序进行排列获得语音信号集即为相同声音源所有的语音记录。示例性的，参见图7，语音信号A、语音信号C和语音信号E为第一声音源对应的语音信号003，在语音信号A、语音信号C和语音信号E以同一类的语音信号汇总在一起之后，将语音信号A、语音信号C和语音信号E按照时间顺序组合形成一个语音信号集005，语音信号集005为第一声音源产生的语音信号的组合。本替代实施例中，语音信号集可以是多个语音信号按照产生的时间顺序排列后的集合，语音信号集还可以是多个语音信号按照产生的时间顺序重新组合连接的语音信号，此处不作限制。

本替代实施例的技术方案，通过将同一声音源的语音信号按产生的时间顺序进行组合获得同一声音源的语音信号集，解决了汇总后的多个语音信号编排混乱，提取复杂的问题，达到了建立有序集合，方便提取的效果。

实施例二

图8为本发明实施例一提供的声音源的识别方法的流程图，具体包括如下步骤：

步骤210、根据采集到的录音获取声音信号，所述录音的声音源包括至少两个。

步骤220、滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号。

本实施例中，至少两个人说话时，一般是一个人说完另一个人再听完前一人的话之后开始的，会存在一定停顿间隙，可以采用语音端点检测技术判断声音的开始和结束点。将用户停顿的间隙滤除之后获得语音信号主要为用户说话时的语音信号，可以更加准确的表达用户的声纹。在本实施例中，采用语音端点检测技术判断声音的开始和结束点，以每段声音的开始点和结束点将语音信号进行分割。

步骤230、获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；

本实施例中，参见图9，步骤230还包括步骤231至步骤233，具体的：

步骤231、根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；

本实施例中，语音信号通过HPSS(谐波冲击波源分离)算法将语音信号分离为谐波信号和冲击波信号。

步骤232、分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图；

本实施例中原始声音谱图为原始声音频谱图或原始声音能量谱图，谐波谱图为谐波频谱图或谐波能量谱图，冲击波谱图为冲击波频谱图或冲击波能量谱图。

示例性的，当原始声音谱图为原始声音频谱图时，具体的，可以先获得语音信号的时域函数，将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数，优选的，将时域函数进行短时傅里叶变换(STFT)得到频域函数，再根据频域函数画出的波形图即为原始声音频谱图。同样的方法将语音信号更换为谐波信号和冲击波信号时，可以获得谐波频谱图和所述冲击波频谱图。

示例性的，原始声音谱图为原始声音能量谱图，先获得语音信号的时域函数，再时域函数直接求得能量谱图。同样的方法将语音信号更换为谐波信号和冲击波信号时，可以获得谐波能量谱图和所述冲击波能量谱图。

步骤233、将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。

本实施例中，将将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为谱图进行堆叠为谱图，堆叠后而成的谱图相比于单张谱图通道更多，携带的信息也更加全面。

本实施例中，将语音信号、谐波信号和冲击波信号转化为原始声音谱图、谐波谱图和冲击波谱图之后，语音信号、谐波信号和冲击波信号就转变成了携带用户声纹信息的图像，将原始声音谱图、谐波谱图和冲击波谱图堆叠形成的谱图相当于一个具有三通道的图像，原始声音谱图、谐波谱图和冲击波谱图依次对应一个通道。

步骤240、将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量。

本实施例中，在步骤230中形成的堆叠形成的谱图相当于一个具有三通道的图像，在本步骤中，将图像输入身份编码模型后，需要依次对每个通道的进行卷积并求和。

步骤250、根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

本实施例中，每个语音信号的谱图输入身份编码模型中即可获得对应的身份编码向量，同一个声音源的声纹相同，因此获得的编码向量也应当相同或十分接近，不同的声音源的声纹不相同，因此获得的编码向量差异也较大。本实施例中所述根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号还包括：对至少两个所述身份编码向量进行聚类，以获得聚类结果；再根据所述聚类结果汇总至少一个相同声音源对应的所述语音信号。具体详细方法可参见步骤131-步骤132。

本实施例的技术方案，通过语音信号获取所述语音信号的谐波信号和冲击波信号，再获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图，并分别将原始声音谱图、谐波谱图和冲击波谱图堆叠为谱图，本方案解决了单种谱图识别准确度较低问题，相比于单种的谱图，堆叠的谱图的提高了对用户的语音信号中声纹描述的准确性和完整性，达到了进一步提升对多个声音源产生的语音信号进行分离归类的准确性。

本实施例中，参见图10，所述能量图谱为梅尔能量图谱，步骤230所述获取用户的语音信号的谱图还包括：

步骤232、分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图；

本实施例中，梅尔能量谱图是模拟人的听觉系统对声音的描述。梅尔能量谱图更加适合用来表征人的声音特性，并且可以更加全面展示人说话的声音特性。

示例性的，获取语音信号的原始声音梅尔能量谱图包括：可以先获得语音信号的时域函数，将时域函数进行傅里叶变换或者拉普拉斯变换得到频域函数，优选的，将时域函数进行短时傅里叶变换(STFT)得到频域函数，再根据频域函数，将频域函数输入通过梅尔滤波器组以获得语音信号的原始声音梅尔能量图。前述原始声音梅尔能量谱图的获取方法中，将语音信号替换为谐波信号或冲击波信号还可以用来获取谐波梅尔能量谱图或冲击波梅尔能量谱图。

步骤233、将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图。

本实施例中，将将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图进行堆叠为谱图，堆叠后而成的谱图相比于单张能量谱图通道更多，携带的信息也更加全面。

本实施例中，将语音信号、谐波信号和冲击波信号转化为原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图之后，语音信号、谐波信号和冲击波信号就转变成了携带用户声纹信息的图像，将原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图堆叠形成的谱图相当于一个具有三通道的图像，原始声音梅尔能量谱图、谐波梅尔能量谱图和冲击波梅尔能量谱图依次对应一个通道。

实施例三

本发明实施例所提供的声音源的识别装置可执行本发明任意实施例所提供的声音源的识别方法，参见图11，声音源的识别装置3具体包括：

谱图获取模块31，用于获取语音信号的谱图，所述谱图为频谱图或能量谱图，所述语音信号的数量为至少两个，所述谱图与所述语音信号一一对应；

身份编码向量获取模块32，用于将所述谱图输入身份编码模型中以获得所述谱图的身份编码向量；

语音信号汇总模块33，用于根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号。

替代实施例中，参见图12，所述谱图获取模块31还包括：

信号获取单元311，用于根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；

谱图获取单元312，用于分别获取所述语音信号的原始声音谱图、所述谐波信号的谐波谱图和所述冲击波信号的冲击波谱图；

堆叠单元313，用于将所述原始声音谱图、所述谐波谱图和所述冲击波谱图堆叠为所述谱图。

替代实施例中，参见图12，

所述信号获取单元311，用于根据所述语音信号获取所述语音信号的谐波信号和冲击波信号；

所述谱图获取单元312，用于分别获取所述语音信号的原始声音梅尔能量谱图、所述谐波信号的谐波梅尔能量谱图和所述冲击波信号的冲击波梅尔能量谱图；

所述堆叠单元313，用于将所述原始声音梅尔能量谱图、所述谐波梅尔能量谱图和所述冲击波梅尔能量谱图堆叠为谱图。

替代实施例中，参见图13，声音源的识别装置3还包括：

声音信号获取模块34，用于根据采集到的录音获取声音信号，所述录音的声音源包括至少两个；

语音信号获取模块35，滤除所述声音信号中的静音片段，并将所述声音信号分割为至少两个所述语音信号。

替代实施例中，参见图14，所述语音信号汇总模块33，还包括：

聚类单元331，用于对至少两个所述身份编码向量进行聚类，以获得聚类结果；

汇总单元332，用于根据所述聚类结果汇总至少一个相同声音源对应的所述语音信号。

替代实施例中，参见图15，声音源的识别装置3还包括：

语音信号组合模块36，用于将所述相同声音源对应的所述语音信号按产生的时间顺序进行组合，以获得所述相同声音源的语音信号集。

替代实施例中，参见图16，声音源的识别装置3还包括：

声音源的数量确认模块37，用于根据所述聚类结果的类别数量确认所述声音源的数量。

本发明实施例所提供的声音源的识别装置可执行本发明任意实施例所提供的声音源的识别方法，具备执行方法相应的功能模块和有益效果。

实施例四

图17为本发明实施例四提供的一种服务器的结构示意图，如图17所示，该服务器包括处理器41、存储器42；服务器中处理器41的数量可以是一个或多个，图17中以一个处理器41为例；服务器中的处理器41、存储器42可以通过总线或其他方式连接，图17中以通过总线连接为例。

存储器42作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的声音源的识别方法对应的程序指令/模块(例如，谱图获取模块、身份编码向量获取模块、语音信号汇总模块)。处理器41通过运行存储在存储器42中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述的声音源的识别方法。

存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器42可进一步包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种声音源的识别方法，该方法包括：

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的声音源的识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种声音源的识别方法，其特征在于，包括：

2.根据权利要求1所述的声音源的识别方法，其特征在于，所述获取用户的语音信号的谱图包括：

3.根据权利要求1所述的声音源的识别方法，其特征在于，所述能量图谱为梅尔能量图谱，所述获取用户的语音信号的谱图包括：

4.根据权利要求1所述的声音源的识别方法，其特征在于，所述获取用户的语音信号的谱图之前，还包括：

5.根据权利要求4所述的声音源的识别方法，其特征在于，所述根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号还包括：

对至少两个所述身份编码向量进行聚类，以获得聚类结果；

6.根据权利要求4所述的声音源的识别方法，其特征在于，所述根据所述身份编码向量汇总至少一个相同声音源对应的所述语音信号之后，还包括：

7.根据权利要求5所述的声音源的识别方法，其特征在于，所述对至少两个所述身份编码向量进行聚类，以获得聚类结果之后，还包括：

根据所述聚类结果的类别数量确认所述声音源的数量。

8.一种声音源的识别装置，其特征在于，包括：

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的声音源的识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的声音源的识别方法。