CN113393848A

CN113393848A - 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质

Info

Publication number: CN113393848A
Application number: CN202110656988.7A
Authority: CN
Inventors: 江民
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-14

Abstract

本申请涉及语音识别技术领域，公开一种用于训练说话人识别模型的方法，包括：获取待分类语料；将待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域；在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练说话人识别模型，从而提高了垂直领域相关的说话人识别模型的准确率，进而能够满足针对垂直领域的说话人识别要求。本申请还公开一种用于训练说话人识别模型的装置、电子设备和可读存储介质。

Description

用于训练说话人识别模型的方法、装置、电子设备和可读存储介质

技术领域

本申请涉及语音识别技术领域，例如涉及一种用于训练说话人识别模型的方法、装置、电子设备和可读存储介质。

背景技术

目前，随着智能客服系统、智能家居系统、智能教学机器人等等的普及，语言模型越来越多应用到生活的方方面面，例如语言模型中的说话人识别模型用于确认语料数据是否是同一个人说的。而在一些特殊的垂直领域——例如银行、保险等领域有着专业、特有的表达方式，其语义表达之间差异性较小。现有技术通常采用生成式方法获取用于训练这些语言模型的垂直领域相关语料，即根据该垂直领域相关的业务目标预设若干有序语义表达式，将每个有序语义表达式进行分词获得分词结果，根据分词结果在预设词库中查找同义词，再通过分词结果和同义词对有序语义表达式进行处理获得用于训练说话人识别模型的垂直领域相关语料。这些语料训练出的说话人识别模型的准确率较低，无法满足针对垂直领域的说话人识别要求。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于训练说话人识别模型的方法、装置、电子设备和可读存储介质，以提高垂直领域相关的说话人识别模型的准确率。

在一些实施例中，用于训练说话人识别模型的方法，包括：获取待分类语料；将所述待分类语料输入预设的分类模型，确定所述待分类语料是否属于垂直领域；在所述待分类语料属于垂直领域的情况下，利用所述待分类语料训练第一说话人识别模型。

在一些实施例中，用于训练说话人识别模型的装置，包括：获取模块，被配置为获取待分类语料；分类模块，被配置为将所述待分类语料输入预设的分类模型，确定所述待分类语料是否属于垂直领域；训练模块，被配置为在所述待分类语料属于垂直领域的情况下，利用所述待分类语料训练第一说话人识别模型。

在一些实施例中，电子设备包括：处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行如上述用于训练说话人识别模型的方法。

在一些实施例中，可读存储介质存储有可执行指令，所述可执行指令在运行时执行上述用于训练说话人识别模型的方法。

本公开实施例提供的用于训练说话人识别模型的方法、装置、电子设备和可读存储介质，可以实现以下技术效果：能够将获取到的待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域，在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练说话人识别模型，从而提高了垂直领域相关的说话人识别模型的准确率，进而能够满足针对垂直领域的说话人识别要求。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一个用于训练说话人识别模型的方法的示意图；

图2是本公开实施例提供的一个用于训练说话人识别模型的装置的示意图；

图3是本公开实施例提供的一个电子设备的示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

结合图1所示，本公开实施例提供一种用于训练说话人识别模型的方法，包括：

步骤S101，获取待分类语料；

步骤S102，将待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域；

步骤S103，在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。

采用本公开实施例提供的用于训练说话人识别模型的方法，能够将获取到的待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域，在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练第一说话人识别模型，从而提高了垂直领域相关的说话人识别模型的准确率，进而能够满足针对垂直领域的说话人识别要求。

可选地，第一说话人识别模型用于确定输入的待识别语料是否为同一个说话人说的话。在一些实施例中，说话人识别模型用于对待识别语料是否为同一个说话人所说的话进行识别，在识别到待识别语料为同一个说话人说的话且该待识别语料属于垂直领域的情况下，通过垂直领域相关的语音识别模型启用垂直领域对应的语言库与指令，并根据对应的语言库与指令处理待识别语料。这样，使得语料的处理具有针对性，提高语料处理的效率。

本公开实施例通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练第一说话人识别模型，使得通过第一说话人识别模型能够针对垂直领域相关的语料更加准确的识别出是否为同一个说话人说的话，从而提高了垂直领域相关的说话人识别模型识别语料是否为同一个说话人说的话的准确率，进而能够满足针对垂直领域的说话人识别要求。

可选地，获取待分类语料，包括：通过预置的网络爬虫从预置网页中爬取网页文本数据，将网页文本数据确定为待分类语料；和/或，获取即时通讯软件中的聊天文本数据，将聊天文本数据确定为待分类语料。

可选地，即时通讯软件包括QQ、微信、腾讯会议等。

现有技术中，训练垂直领域相关的说话人识别模型的训练语料都是通过机器以生成式的方法生成的，生成的训练语料依赖于机器的分词结果和机器词库的同义词替换。而由于特殊的垂直领域有着专业、特有的表达方式，通过机器生成垂直领域的训练语料，其语义有可能不符合逻辑。本公开实施例通过网络爬虫和/获即时通讯软件获取待分类语料，待分类语料是人为输入的，相较于机器生成的训练语料，获取到的待分类语料的语义更贴近人的思维逻辑，通过对人为输入的待分类语料进行分类，并将属于垂直领域的待分类语料训练说话人识别模型，能够提高垂直领域相关的说话人识别模型的准确率，以满足针对垂直领域的说话人识别要求。并且网页和即时通讯软件的使用人口基数大，通过网络爬虫和即时通讯软件能过获取大量待分类语料，便于训练说话人识别模型，提高说话人识别模型的准确率。

可选地，获取即时通讯软件中的聊天文本数据后，还包括：获取聊天文本数据对应的说话人身份信息；将带有说话人身份信息的聊天文本数据输入分类模型，确定带有说话人身份信息的聊天文本数据是否属于垂直领域；在带有说话人身份信息的聊天文本数据属于垂直领域的情况下，利用带有说话人身份信息的聊天文本数据训练第二说话人识别模型。

可选地，第二说话人识别模型用于确定输入待识别语料对应的说话人的身份信息。可选地，说话人身份信息包括客服、顾客、销售员等。

利用属于垂直领域并带有说话人身份信息的聊天文本数据训练第二说话人识别模型，提高第二说话人识别模型识别输入的语料的说话人身份信息的准确性，以满足垂直领域针对说话人身份信息的识别要求，从而垂直领域相关的语音识别模块调用语料的说话人身份信息对应的数据库和指令处理语料，使得语料的处理具有针对性，提高语料处理的效率。

可选地，获取待分类语料，包括：通过录音软件获取待分类语音数据；将待分类语音数据确定为待分类语料。

可选地，分类模型通过以下方式获取：利用带有预设领域标签的样本语料训练预设的神经网络模型，获得分类模型。

可选地，预设领域标签包括属于垂直领域标签和不属于垂直领域标签。

在一些实施例中，预设的神经网络模型为BERT(Bidirectional EncoderRepresentation from Transformers，基于转换器的双向编码表征)模型。BERT模型通过联合调节模型中所有层的上下文来预先训练深度双向表示，能够通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，相较于其他神经网络模型，对垂直领域的数据分类准确率更高，得到的垂直领域的数据更精确。

可选地，在待分类语料属于垂直领域的情况下，还包括：利用待分类语料训练垂直领域语言模型。

可选地，在待分类语料属于垂直领域的情况下，还包括：在待分类语料为待分类语音数据的情况下，利用待分类语音数据训练通用声学模型。在一些实施例中，垂直领域的语料往往存在专业词汇导致语音识别模型无法正确识别，所以垂直领域的语音识别模型除了包括通用声学模型和通用语言模型外，还包括了说话人识别模型和垂直领域语言模型来对垂直领域的语料进行识别。

本公开实施例将获取到的待分类语料输入分类模型进行分类，获得的属于垂直领域的待分类语料，将属于垂直领域的待分类语料训练说话人识别模型，还将属于垂直领域的待分类语料训练垂直领域语言模型和通用声学模型，使得说话人识别模型、垂直领域语言模型和通用声学模型的准确率更高，进而提高垂直领域的语音识别模型的准确率，以满足针对垂直领域的语音识别要求，并且，随着对说话人识别模型、垂直领域语言模型和通用声学模型的训练不断地迭代向前，提高训练得到的各类模型的鲁棒性，针对垂直领域的语料识别越来越准确，从而提高语音识别的效率。

可选地，确定待分类语料是否属于垂直领域后，还包括：在待分类语料属于垂直领域的情况下，确定待分类语料的领域标签为属于垂直领域；在待分类语料不属于垂直领域的情况下，确定待分类语料的领域标签确定为不属于垂直领域；利用带有领域标签的待分类语料对分类模型进行更新训练。

这样，通过待分类语料迭代更新分类模型，提高分类模型的准确性，从而提高通过分类模型获取到的属于垂直领域的待分类语料的准确性，利用属于垂直领域的待分类语料训练说话人识别模型，提高垂直领域相关的说话人识别模型的准确率，以满足针对垂直领域的说话人识别要求。并且，通过将获取的待分类语料输入分类模型进行训练，根据分类后的待分类语料迭代训练分类模型，这种半监督协同训练的方法应用于智能设备技术，提高分类模型的准确性，同时可以减少人员工作，提高人机协同的效率。

结合图2所示，本公开实施例提供一种用于训练说话人识别模型的装置，其特征在于，包括获取模块201、分类模块202和训练模块203。获取模块201被配置为获取待分类语料；分类模块202被配置为将待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域；训练模块203被配置为在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。

采用本公开实施例提供的用于训练说话人识别模型的装置，能够将获取到的待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域，在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练说话人识别模型，从而提高了垂直领域相关的说话人识别模型的准确率，进而能够满足针对垂直领域的说话人识别要求。

可选地，获取模块被配置为：通过预置的网络爬虫从预置网页中爬取网页文本数据，将网页文本数据确定为待分类语料；和/或，获取即时通讯软件中的聊天文本数据，将聊天文本数据确定为待分类语料。

可选地，获取模块还被配置为：获取聊天文本数据对应的说话人身份信息；分类模块还被配置为：将带有说话人身份信息的聊天文本数据输入分类模型，确定带有说话人身份信息的聊天文本数据是否属于垂直领域；可选地，训练模块还被配置为：在带有说话人身份信息的聊天文本数据属于垂直领域的情况下，利用带有说话人身份信息的聊天文本数据训练第二说话人识别模型。

可选地，获取模块被配置为：通过录音软件获取待分类语音数据；将待分类语音数据确定为待分类语料。

可选地，分类模块还被配置为：利用带有预设领域标签的样本语料训练预设的神经网络模型，获得分类模型。

可选地，训练模块还被配置为：在待分类语料属于垂直领域的情况下，利用待分类语料训练垂直领域语言模型。

可选地，训练模块还被配置为：在待分类语料属于垂直领域的情况下，确定待分类语料的领域标签为属于垂直领域；在待分类语料不属于垂直领域的情况下，确定待分类语料的领域标签确定为不属于垂直领域；利用带有领域标签的待分类语料对分类模型进行更新训练。

结合图3所示，本公开实施例提供一种电子设备，包括处理器(processor)300和存储器(memory)301。可选地，该电子设备还可以包括通信接口(Communication Interface)302和总线303。其中，处理器300、通信接口302、存储器301可以通过总线303完成相互间的通信。通信接口302可以用于信息传输。处理器300可以调用存储器301中的逻辑指令，以执行上述实施例的用于训练说话人识别模型的方法。

采用本公开实施例提供的电子设备，能够将获取到的待分类语料输入预设的分类模型，确定待分类语料是否属于垂直领域，在待分类语料属于垂直领域的情况下，利用待分类语料训练第一说话人识别模型。通过将获取到的待分类语料输入分类模型进行分类，利用属于垂直领域的待分类语料训练说话人识别模型，从而提高了垂直领域相关的说话人识别模型的准确率，进而能够满足针对垂直领域的说话人识别要求。

此外，上述的存储器301中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器301作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器300通过运行存储在存储器301中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于训练说话人识别模型的方法。

存储器301可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器301可以包括高速随机存取存储器，还可以包括非易失性存储器。

本公开实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述用于训练说话人识别模型的方法。

本公开实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述用于训练说话人识别模型的方法。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本公开实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本文所披露的实施例中，所揭露的方法、产品(包括但不限于装置、设备等)，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，可以仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例。另外，在本公开实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于训练说话人识别模型的方法，其特征在于，包括：

获取待分类语料；

将所述待分类语料输入预设的分类模型，确定所述待分类语料是否属于垂直领域；

在所述待分类语料属于垂直领域的情况下，利用所述待分类语料训练第一说话人识别模型。

2.根据权利要求1所述的方法，其特征在于，获取待分类语料，包括：

通过预置的网络爬虫从预置网页中爬取网页文本数据，将所述网页文本数据确定为待分类语料；和/或，

获取即时通讯软件中的聊天文本数据，将所述聊天文本数据确定为待分类语料。

3.根据权利要求2所述的方法，其特征在于，获取即时通讯软件中的聊天文本数据后，还包括：

获取所述聊天文本数据对应的说话人身份信息；

将带有所述说话人身份信息的聊天文本数据输入所述分类模型，确定所述带有所述说话人身份信息的聊天文本数据是否属于垂直领域；

在所述带有所述说话人身份信息的聊天文本数据属于垂直领域的情况下，利用所述带有所述说话人身份信息的聊天文本数据训练第二说话人识别模型。

4.根据权利要求1所述的方法，其特征在于，获取待分类语料，包括：

通过录音软件获取待分类语音数据；

将所述待分类语音数据确定为待分类语料。

5.根据权利要求1所述的方法，其特征在于，所述分类模型通过以下方式获取：

利用带有预设领域标签的样本语料训练预设的神经网络模型，获得分类模型。

6.根据权利要求1所述的方法，其特征在于，在待分类语料属于垂直领域的情况下，还包括：

利用所述待分类语料训练垂直领域语言模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，确定待分类语料是否属于垂直领域后，还包括：

在所述待分类语料属于垂直领域的情况下，确定所述待分类语料的领域标签为属于垂直领域；在所述待分类语料不属于垂直领域的情况下，确定所述待分类语料的领域标签确定为不属于垂直领域；

利用带有领域标签的待分类语料对所述分类模型进行更新训练。

8.一种用于训练说话人识别模型的装置，其特征在于，包括：

获取模块，被配置为获取待分类语料；

分类模块，被配置为将所述待分类语料输入预设的分类模型，确定所述待分类语料是否属于垂直领域；

训练模块，被配置为在所述待分类语料属于垂直领域的情况下，利用所述待分类语料训练第一说话人识别模型。

9.一种电子设备，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至7任一项所述的用于训练说话人识别模型的方法。

10.一种可读存储介质，存储有可执行指令，其特征在于，所述可执行指令在运行时执行包括如权利要求1至7任一项所述的用于训练说话人识别模型的方法。