CN111785291A

CN111785291A - 语音分离方法和语音分离装置

Info

Publication number: CN111785291A
Application number: CN202010628957.6A
Authority: CN
Inventors: 杨剑宇; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2020-10-16

Abstract

本申请提供了一种语音分离方法和语音分离装置，该语音分离方法包括：获取目标语音，目标语音的结束时间为当前时间，且目标语音的时长等于预定时间；将目标语音切分为多个目标语音片段；将多个目标语音片段输入语音数据库；将多个目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，分离模型包括至少一个声纹特征模块，声纹特征模块与说话人一一对应，分离模型至少重新建立两次，每次建立时根据当前的语音数据库建立，且任意两次建立的分离模型为根据不同的语音数据库建立的。上述方法通过重建进行修正，以确保语音片段集合中的目标语音片段为同一个说话人的语音，提高了语音分离的准确率。

Description

语音分离方法和语音分离装置

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种语音分离方法和语音分离装置。

背景技术

目前对于多人说话人分离，业内通常的做法是使用硬件设备(如麦克风阵列、双向麦克风等)进行声音收集上的说话人分离，或者使用声音特征的聚类分类算法在单声道音频上进行说话人分离。

说话人分离本身只是将人声音频按照不同发音人进行分类的操作，其中不涉及声音所属发音人的具体身份的识别，对声音所属发音人具体身份的识别属于声纹识别(说话人识别)技术解决的问题。

依赖于麦克风等硬件的话者分离系统受制于硬件本身，使用起来灵活性较差，可适用的场景也非常局限。而现有的不依赖于硬件的多人说话人分离技术在落地时主要有两个问题很难解决，第一个问题是说话人数不确定的问题，第二个问题是分离模型通常具有一种不可折返的单向性，即分离模型的实时更新一般都是基于已有分离模型，分离模型更新的方向受已有分离模型的影响很大。现有技术中进行说话人分离的基础是对已有声音特征的类中心点和初始化的预设类中心点进行分类，其中缺少了对已有声音特征类中心点进行合并和分离的关键操作。即当甲和乙的声音特征接近时，甲和乙的声音可能同属于一个声音特征类中心点，一旦发生此种情况则在后续的结果中甲和乙都会被分为同一个说话人。同理，当甲的某句话的语音特征被误分类到初始化的预设类中心点时，系统会自动为甲建立一个新的类中心点，一旦发生此种情况则在后续的结果中甲有可能被不断分为两个不同的说话人。

同时，目前说话人识别和说话人分离一般是作为两个独立问题分开来进行讨论和解决的。说话人识别是指将人声和说话人身份进行对应的技术，也叫声纹识别。说话人分离是指将含有多个说话人说话声音的音频按照不同说话人进行切分，并将切出来的声音分配给不同的说话人。说话人分离一般指将声音分开并对应到不同的说话人身上，但是声音和说话人的真实身份并不会有一个对应关系。

在实际应用场景中，说话人识别和说话人分离往往是不可分割的两个功能，用户在知道第一句话和第二句话分别是两个人说的同时，还想知道第一句话是张三说的还是李四说的。在这种需求的驱动下，可以精确识别说话人身份的说话人分离问题亟需被解决。

在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

发明内容

本申请的主要目的在于提供一种语音分离方法和语音分离装置，以解决现有技术中语音分离的准确率较低的问题。

根据本发明实施例的一个方面，提供了一种语音分离方法，包括：获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；将所述目标语音切分为多个目标语音片段；将多个所述目标语音片段输入语音数据库；将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。

可选地，所述分离模型的建立满足以下之一：所述分离模型的第N次建立的时间和第N+1次建立的时间的间隔为预定时间间隔、所述分离模型的第N次建立时的所述语音数据库中的所述目标语音片段的数量和第N+1次建立时的所述语音数据库中的所述目标语音片段的数量的差为预定数量。

可选地，所述预定时间间隔为相邻两次获取所述目标语音的时间间隔。

可选地，建立所述分离模型的过程，包括：对当前的所述语音数据库中的所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；将多个所述声纹特征进行聚类分析，得到至少一个类中心，一种所述声纹特征对应一个所述类中心；根据所述类中心建立对应的声纹特征模块，至少一个所述声纹特征模块构成所述分离模型。

可选地，将多个所述目标语音片段输入分离模型进行分类，得到各所述说话人的语音片段集合，包括：对多个所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；根据所述声纹特征确定所述目标语音片段对应的声纹特征模块；根据所述声纹特征模块与所述说话人的对应关系，确定各所述说话人的语音片段集合。

可选地，在建立所述分离模型之后，在将多个所述目标语音片段输入分离模型进行分类之前，所述方法还包括：将已知的说话人标识和对应的所述声纹特征输入所述分离模型；根据所述已知的说话人的声纹特征确定所述分离模型中对应的所述声纹特征模块；将所述已知的说话人标识输入对应的所述声纹特征模块，得到第一声纹特征模块，剩余的所述声纹特征模块为第二声纹特征模块。

可选地，在得到各所述说话人的语音片段集合之后，所述方法还包括：将所述语音片段集合和所述说话人标识进行匹配。

可选地，将所述语音片段集合和所述说话人标识进行匹配，包括：在所述语音片段集合对应的声纹特征模块为所述第一声纹特征模块的情况下，将所述语音片段集合匹配第一说话人标识，所述第一说话人标识为所述第一声纹特征模块对应的所述说话人标识；在所述语音片段集合对应的声纹特征模块为所述第二声纹特征模块的情况下，将所述语音片段集合匹配第二说话人标识，所述第二说话人标识为未知说话人的标识。

可选地，在将所述语音片段集合和所述说话人标识进行匹配之后，所述方法还包括：将所述语音片段集合中的所述目标语音片段进行语音识别，得到所述目标语音片段对应的语义信息；对所述语音片段集合中的所述目标语音片段进行特征提取，得到所述目标语音片段对应的音频段标识，所述音频段标识包括时间戳或顺序编号；将各所述目标语音片段的语义信息按照所述音频段标识的顺序进行展示，并为各所述目标语音片段的语义信息匹配对应的所述第一说话人标识或者所述第二说话人标识。

根据本发明实施例的另一方面，还提供了一种语音分离装置，包括：获取单元，用于获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；第一处理单元，用于将所述目标语音切分为多个目标语音片段；输入单元，用于将多个所述目标语音片段输入语音数据库；分类单元，用于将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。

在本发明实施例中，上述语音分离方法，首先，获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，然后，将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，之后，将多个上述目标语音片段输入语音数据库，最后，将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述方法通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的一种实施例的语音分离方法的流程图；

图2示出了根据本申请的一种实施例的分类结果的展示图；以及

图3示出了根据本申请的一种实施例的语音分离装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

正如背景技术中所说的，现有技术中语音分离的准确率较低，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种语音分离方法、语音分离装置、计算机可读存储介质、处理器和语音分离系统。

根据本申请的实施例，提供了一种语音分离方法。

图1是根据本申请实施例的语音分离方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间；

步骤S102，将上述目标语音切分为多个目标语音片段；

步骤S103，将多个上述目标语音片段输入语音数据库；

步骤S104，将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。

上述语音分离方法中，首先，获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，然后，将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，之后，将多个上述目标语音片段输入语音数据库，最后，将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述方法通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

需要说明的是，在实际应用中，上述语音数据库需要定期清空，以避免语音数据库中语音片段过多，导致分离模型建立过多的无用的声纹特征模块影响分类效率，例如，上述语音分离装置适用于会议语音识别场景等多人同时说话的实际场景，会议语音分类结束后即可清空语音数据库。

还需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请的一种实施例中，上述分离模型的建立满足以下之一：上述分离模型的第N次建立的时间和第N+1次建立的时间的间隔为预定时间间隔、上述分离模型的第N次建立时的上述语音数据库中的上述目标语音片段的数量和第N+1次建立时的上述语音数据库中的上述目标语音片段的数量的差为预定数量，即上述分离模型间隔预定时间间隔重建一次，或者，语音数据库中新输入预定数量的目标语音片段重建一次，本领域技术人员可以根据实际情况选择合适的预定时间或者预定数量，以进一步提高语音分离的准确率。

本申请的一种实施例中，上述预定时间间隔为相邻两次获取上述目标语音的时间间隔，即每获取一次目标语音就重建一次分离模型，然后采用重建的分离模型对获取的目标语音进行分类，上述预定时间间隔等于预定时间，从而进一步提高语音分离的准确率。

本申请的一种实施例中，建立上述分离模型的过程，包括：对当前的上述语音数据库中的上述目标语音片段进行特征提取，得到多个声纹特征，一个上述目标语音片段对应一个上述声纹特征；将多个上述声纹特征进行聚类分析，得到至少一个类中心，一种上述声纹特征对应一个上述类中心；根据上述类中心建立对应的声纹特征模块，至少一个上述声纹特征模块构成上述分离模型。具体地，对当前的上述语音数据库中的上述目标语音片段进行特征提取，得到各目标语音片段的声纹特征，然后对声纹特征进行聚类分析，得到至少一个类中心，相同的声纹特征对于同一个类中心，根据上述类中心建立对应的声纹特征模块，即可通过声纹特征模块甄别目标语音片段，使得相同的声纹特征的目标语音片段分到一个说话人的语音片段集合，即可通过由上述声纹特征模块构成的分离模型对目标语音片段进行分类。

本申请的一种实施例中，将多个上述目标语音片段输入分离模型进行分类，得到各上述说话人的语音片段集合，包括：对多个上述目标语音片段进行特征提取，得到多个声纹特征，一个上述目标语音片段对应一个上述声纹特征；根据上述声纹特征确定上述目标语音片段对应的声纹特征模块；根据上述声纹特征模块与上述说话人的对应关系，确定各上述说话人的语音片段集合。具体地，提取目标语音片段声纹特征，即可根据声纹特征匹配对应的声纹特征模块，从而相同的声纹特征的目标语音片段分到一个说话人的语音片段集合，得到至少一个语音片段集合，语音片段集合与说话人一一对应。

本申请的一种实施例中，在建立上述分离模型之后，在将多个上述目标语音片段输入分离模型进行分类之前，上述方法还包括：将已知的说话人标识和对应的上述声纹特征输入上述分离模型；根据上述已知的说话人的声纹特征确定上述分离模型中对应的上述声纹特征模块；将上述已知的说话人标识输入对应的上述声纹特征模块，得到第一声纹特征模块，剩余的上述声纹特征模块为第二声纹特征模块。具体地，说话人与声纹特征模块一一对应，说话人分为已知说话人和未知说话人，将已知的说话人标识输入已知说话人对应的声纹特征模块，即可得到第一声纹特征模块，剩余的声纹特征模块就是第二声纹特征模块，即第一声纹特征模块对应的说话人的身份已知，可以匹配对应的已知的说话人标识，第二声纹特征模块对应的说话人的身份未知。

需要说明的是，在获取未知说话人的说话人标识后，也可以将未知说话人对应的第二声纹特征模块转化为第一声纹特征模块，例如，如图2所示，说话人有3个，两个已知的说话人对应的说话人标识为“张三”和“李四”，“张三”和“李四”分别对应一个第一声纹特征模块，一个未知的说话人对应的说话人标识为“未知一”，“未知一”对应一个第二声纹特征模块，在确定了该未知说话人的身份信息为“王五”后，即该未知说话人成为了已知说话人，将说话人标识“王五”以及“未知一”对应的声纹特征输入分离模型，根据声纹特征即可确定“未知一”对应的第二声纹特征模块，将说话人标识“王五”输入该第二声纹特征模块，即可将该第二声纹特征模块转化为第一声纹特征模块。

本申请的一种实施例中，在得到各上述说话人的语音片段集合之后，上述方法还包括：将上述语音片段集合和上述说话人标识进行匹配。具体地，将上述语音片段集合和上述说话人标识进行匹配，即可确定语音片段集合对应的说话人的身份，或者确定语音片段集合对应的说话人的身份未知。

本申请的一种实施例中，将上述语音片段集合和上述说话人标识进行匹配，包括：在上述语音片段集合对应的声纹特征模块为上述第一声纹特征模块的情况下，将上述语音片段集合匹配第一说话人标识，上述第一说话人标识为上述第一声纹特征模块对应的上述说话人标识；在上述语音片段集合对应的声纹特征模块为上述第二声纹特征模块的情况下，将上述语音片段集合匹配第二说话人标识，上述第二说话人标识为未知说话人的标识。具体地，上述语音片段集合对应的声纹特征模块为第一声纹特征模块，即可将该第一声纹特征模块对应的说话人标识与语音片段集合进行匹配，以确定语音片段集合对应的说话人的身份，上述语音片段集合对应的声纹特征模块为第二声纹特征模块，即可将未知说话人的标识与该语音片段集合进行匹配，例如，未知说话人的标识为“未知一”，如果对应的声纹特征模块为第二声纹特征模块的语音片段集合有多个，未知说话人的标识可以为“未知一”和“未知二”等等，将这些未知说话人的标识与语音片段集合一一进行匹配。

本申请的一种实施例中，在将上述语音片段集合和上述说话人标识进行匹配之后，上述方法还包括：将上述语音片段集合中的上述目标语音片段进行语音识别，得到上述目标语音片段对应的语义信息；对上述语音片段集合中的上述目标语音片段进行特征提取，得到上述目标语音片段对应的音频段标识，上述音频段标识包括时间戳或顺序编号；将各上述目标语音片段的语义信息按照上述音频段标识的顺序进行展示，并为各上述目标语音片段的语义信息匹配对应的上述第一说话人标识或者上述第二说话人标识。具体地，对目标语音进行切分得到目标语音片段时，可以在目标语音片段上作一个音频段标识，音频段标识可以为时间戳或顺序编号，将语音片段集合中的目标语音片段进行语音识别，得到目标语音片段对应的语义信息后，可以根据上述音频段标识的顺序进行展示，并各上述目标语音片段的语义信息匹配对应的上述第一说话人标识或者上述第二说话人标识，例如，如图2所示，一个语音片段集合中目标语音片段对应的语义信息匹配了第一说话人标识“张三”，另一个语音片段集合中目标语音片段对应的语义信息匹配了第一说话人标识“张三”，还有一个语音片段集合中目标语音片段对应的语义信息匹配了第二说话人标识“未知一”，并且将语义信息按照先后顺序进行展示。

本申请实施例还提供了一种语音分离装置，需要说明的是，本申请实施例的语音分离装置可以用于执行本申请实施例所提供的用于语音分离方法。以下对本申请实施例提供的语音分离装置进行介绍。

图3是根据本申请实施例的语音分离装置的示意图。如图3所示，该装置包括：

获取单元10，用于获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间；

第一处理单元20，用于将上述目标语音切分为多个目标语音片段；

输入单元30，用于将多个上述目标语音片段输入语音数据库；

分类单元40，用于将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。

上述语音分离装置中，获取单元获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，处理单元将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，输入单元将多个上述目标语音片段输入语音数据库，分类单元将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述装置通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

本申请的一种实施例中，上述装置还包括建立单元，上述建立单元包括第一处理模块、分析模块和建立模块，其中，上述第一处理模块用于对当前的上述语音数据库中的上述目标语音片段进行特征提取，得到多个声纹特征，一个上述目标语音片段对应一个上述声纹特征；上述分析模块用于将多个上述声纹特征进行聚类分析，得到至少一个类中心，一种上述声纹特征对应一个上述类中心；上述建立模块用于根据上述类中心建立对应的声纹特征模块，至少一个上述声纹特征模块构成上述分离模型。具体地，对当前的上述语音数据库中的上述目标语音片段进行特征提取，得到各目标语音片段的声纹特征，然后对声纹特征进行聚类分析，得到至少一个类中心，相同的声纹特征对于同一个类中心，根据上述类中心建立对应的声纹特征模块，即可通过声纹特征模块甄别目标语音片段，使得相同的声纹特征的目标语音片段分到一个说话人的语音片段集合，即可通过由上述声纹特征模块构成的分离模型对目标语音片段进行分类。

本申请的一种实施例中，上述分类单元包括第二处理模块、第一确定模块和第二确定模块，其中，上述第二处理模块用于对多个上述目标语音片段进行特征提取，得到多个声纹特征，一个上述目标语音片段对应一个上述声纹特征；上述第一确定模块用于根据上述声纹特征确定上述目标语音片段对应的声纹特征模块；上述第二确定模块用于根据上述声纹特征模块与上述说话人的对应关系，确定各上述说话人的语音片段集合。具体地，提取目标语音片段声纹特征，即可根据声纹特征匹配对应的声纹特征模块，从而相同的声纹特征的目标语音片段分到一个说话人的语音片段集合，得到至少一个语音片段集合，语音片段集合与说话人一一对应。

本申请的一种实施例中，上述装置还包括更新单元，上述更新单元包括输入模块、第三确定模块和更新模块，其中，上述输入模块用于在建立上述分离模型之后，在将多个上述目标语音片段输入分离模型进行分类之前，将已知的说话人标识和对应的上述声纹特征输入上述分离模型；上述第三确定模块用于根据上述已知的说话人的声纹特征确定上述分离模型中对应的上述声纹特征模块；上述更新模块用于将上述已知的说话人标识输入对应的上述声纹特征模块，得到第一声纹特征模块，剩余的上述声纹特征模块为第二声纹特征模块。具体地，说话人与声纹特征模块一一对应，说话人分为已知说话人和未知说话人，将已知的说话人标识输入已知说话人对应的声纹特征模块，即可得到第一声纹特征模块，剩余的声纹特征模块就是第二声纹特征模块，即第一声纹特征模块对应的说话人的身份已知，可以匹配对应的已知的说话人标识，第二声纹特征模块对应的说话人的身份未知。

本申请的一种实施例中，上述装置还包括第二处理单元，上述第二处理单元用于在得到各上述说话人的语音片段集合之后，将上述语音片段集合和上述说话人标识进行匹配。具体地，将上述语音片段集合和上述说话人标识进行匹配，即可确定语音片段集合对应的说话人的身份，或者确定语音片段集合对应的说话人的身份未知。

本申请的一种实施例中，上述第二处理单元包括第三处理模块和第四处理模块，其中，上述第三处理模块用于在上述语音片段集合对应的声纹特征模块为上述第一声纹特征模块的情况下，将上述语音片段集合匹配第一说话人标识，上述第一说话人标识为上述第一声纹特征模块对应的上述说话人标识；上述第四处理模块用于在上述语音片段集合对应的声纹特征模块为上述第二声纹特征模块的情况下，将上述语音片段集合匹配第二说话人标识，上述第二说话人标识为未知说话人的标识。具体地，上述语音片段集合对应的声纹特征模块为第一声纹特征模块，即可将该第一声纹特征模块对应的说话人标识与语音片段集合进行匹配，以确定语音片段集合对应的说话人的身份，上述语音片段集合对应的声纹特征模块为第二声纹特征模块，即可将未知说话人的标识与该语音片段集合进行匹配，例如，未知说话人的标识为“未知一”，如果对应的声纹特征模块为第二声纹特征模块的语音片段集合有多个，未知说话人的标识可以为“未知一”和“未知二”等等，将这些未知说话人的标识与语音片段集合一一进行匹配。

本申请的一种实施例中，上述装置还包括第三处理单元，上述第三处理单元包括识别模块、第五处理模块和展示模块，其中，上述识别模块用于在将上述语音片段集合和上述说话人标识进行匹配之后，将上述语音片段集合中的上述目标语音片段进行语音识别，得到上述目标语音片段对应的语义信息；上述第五处理模块用于对上述语音片段集合中的上述目标语音片段进行特征提取，得到上述目标语音片段对应的音频段标识，上述音频段标识包括时间戳或顺序编号；上述展示模块用于将各上述目标语音片段的语义信息按照上述音频段标识的顺序进行展示，并为各上述目标语音片段的语义信息匹配对应的上述第一说话人标识或者上述第二说话人标识。具体地，对目标语音进行切分得到目标语音片段时，可以在目标语音片段上作一个音频段标识，音频段标识可以为时间戳或顺序编号，将语音片段集合中的目标语音片段进行语音识别，得到目标语音片段对应的语义信息后，可以根据上述音频段标识的顺序进行展示，并各上述目标语音片段的语义信息匹配对应的上述第一说话人标识或者上述第二说话人标识，例如，如图2所示，一个语音片段集合中目标语音片段对应的语义信息匹配了第一说话人标识“张三”，另一个语音片段集合中目标语音片段对应的语义信息匹配了第一说话人标识“张三”，还有一个语音片段集合中目标语音片段对应的语义信息匹配了第二说话人标识“未知一”，并且将语义信息按照先后顺序进行展示。

本申请实施例还提供了一种语音分离系统，包括语音分离装置，上述语音分离装置用于执行任意一种上述的方法。

上述语音分离系统中，包括语音分离装置，获取单元获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，处理单元将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，输入单元将多个上述目标语音片段输入语音数据库，分类单元将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述装置通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

上述语音分离装置包括处理器和存储器，上述获取单元、第一处理单元、输入单元和分类单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中语音分离的准确率较低的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述语音分离方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述语音分离方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

步骤S102，将上述目标语音切分为多个目标语音片段；

步骤S103，将多个上述目标语音片段输入语音数据库；

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

步骤S102，将上述目标语音切分为多个目标语音片段；

步骤S103，将多个上述目标语音片段输入语音数据库；

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的计算机可读存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的语音分离方法中，首先，获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，然后，将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，之后，将多个上述目标语音片段输入语音数据库，最后，将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述方法通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

2)、本申请的语音分离装置中，获取单元获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，处理单元将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，输入单元将多个上述目标语音片段输入语音数据库，分类单元将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述装置通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

3)、本申请的语音分离系统中，包括语音分离装置，获取单元获取目标语音，上述目标语音的结束时间为当前时间，且上述目标语音的时长等于预定时间，即每隔预定时间获取一次时长为预定时间的目标语言，处理单元将上述目标语音切分为多个目标语音片段，使得一个目标语音片段只有一个说话人的语音，输入单元将多个上述目标语音片段输入语音数据库，分类单元将多个上述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，一个说话人对应一个语音片段集合，其中，上述语音片段集合包括至少一个上述目标语音片段，上述分离模型包括至少一个声纹特征模块，上述声纹特征模块与上述说话人一一对应，上述分离模型至少重新建立两次，每次建立时根据当前的上述语音数据库建立，且任意两次建立的上述分离模型为根据不同的上述语音数据库建立的。上述装置通过多次重建分离模型，每次重建均不会保留原分类模型的声纹特征模块，避免了根据同一个说话人的目标语音片段建立多个声纹特征模块后无法修正的问题，也避免了根据多个说话人的目标语音片段建立一个声纹特征模块后无法修正的问题，通过重建进行修正，使得声纹特征模块的数量与说话人的数量保持一致，从而使得声纹特征模块与说话人一一对应，以确保语音片段集合中的目标语音片段为同一个说话人的语音，从而提高了语音分离的准确率。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音分离方法，其特征在于，包括：

获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；

将所述目标语音切分为多个目标语音片段；

将多个所述目标语音片段输入语音数据库；

将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。

2.根据权利要求1所述的方法，其特征在于，所述分离模型的建立满足以下之一：

所述分离模型的第N次建立的时间和第N+1次建立的时间的间隔为预定时间间隔、

所述分离模型的第N次建立时的所述语音数据库中的所述目标语音片段的数量和第N+1次建立时的所述语音数据库中的所述目标语音片段的数量的差为预定数量。

3.根据权利要求2所述的方法，其特征在于，所述预定时间间隔为相邻两次获取所述目标语音的时间间隔。

4.根据权利要求1所述的方法，其特征在于，建立所述分离模型的过程，包括：

对当前的所述语音数据库中的所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；

将多个所述声纹特征进行聚类分析，得到至少一个类中心，一种所述声纹特征对应一个所述类中心；

根据所述类中心建立对应的声纹特征模块，至少一个所述声纹特征模块构成所述分离模型。

5.根据权利要求1所述的方法，其特征在于，将多个所述目标语音片段输入分离模型进行分类，得到各所述说话人的语音片段集合，包括：

对多个所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；

根据所述声纹特征确定所述目标语音片段对应的声纹特征模块；

根据所述声纹特征模块与所述说话人的对应关系，确定各所述说话人的语音片段集合。

6.根据权利要求1所述的方法，其特征在于，在建立所述分离模型之后，在将多个所述目标语音片段输入分离模型进行分类之前，所述方法还包括：

将已知的说话人标识和对应的所述声纹特征输入所述分离模型；

根据所述已知的说话人的声纹特征确定所述分离模型中对应的所述声纹特征模块；

将所述已知的说话人标识输入对应的所述声纹特征模块，得到第一声纹特征模块，剩余的所述声纹特征模块为第二声纹特征模块。

7.根据权利要求6所述的方法，其特征在于，在得到各所述说话人的语音片段集合之后，所述方法还包括：

将所述语音片段集合和所述说话人标识进行匹配。

8.根据权利要求7所述的方法，其特征在于，将所述语音片段集合和所述说话人标识进行匹配，包括：

在所述语音片段集合对应的声纹特征模块为所述第一声纹特征模块的情况下，将所述语音片段集合匹配第一说话人标识，所述第一说话人标识为所述第一声纹特征模块对应的所述说话人标识；

在所述语音片段集合对应的声纹特征模块为所述第二声纹特征模块的情况下，将所述语音片段集合匹配第二说话人标识，所述第二说话人标识为未知说话人的标识。

9.根据权利要求8所述的方法，其特征在于，在将所述语音片段集合和所述说话人标识进行匹配之后，所述方法还包括：

将所述语音片段集合中的所述目标语音片段进行语音识别，得到所述目标语音片段对应的语义信息；

对所述语音片段集合中的所述目标语音片段进行特征提取，得到所述目标语音片段对应的音频段标识，所述音频段标识包括时间戳或顺序编号；

将各所述目标语音片段的语义信息按照所述音频段标识的顺序进行展示，并为各所述目标语音片段的语义信息匹配对应的所述第一说话人标识或者所述第二说话人标识。

10.一种语音分离装置，其特征在于，包括：

获取单元，用于获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；

第一处理单元，用于将所述目标语音切分为多个目标语音片段；

输入单元，用于将多个所述目标语音片段输入语音数据库；

分类单元，用于将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。