CN111177324B

CN111177324B - 基于语音识别结果进行意图分类的方法和装置

Info

Publication number: CN111177324B
Application number: CN201911421937.5A
Authority: CN
Inventors: 金春祥; 刘佳; 崔恒斌
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-08-11
Anticipated expiration: 2039-12-31
Also published as: CN111177324A

Abstract

本说明书实施例提供一种基于语音识别结果进行意图分类的方法和装置，方法包括：获取针对目标语音进行自动语音识别后得到的目标文本；从预先建立的汉字到拼音的映射表中，查找所述目标文本包含的各汉字分别对应的拼音；基于所述各汉字分别对应的拼音，形成目标拼音序列；将所述目标文本和所述目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；根据所述目标编码向量，对所述目标语音进行意图分类。能够降低意图分类的错误率。

Description

基于语音识别结果进行意图分类的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及基于语音识别结果进行意图分类的方法和装置。

背景技术

在语音交互场景中，常常会采用自动语音识别(automated speech recognition，ASR)将语音转为文本。而自动语音识别经常会出现识别错误的情况，并且识别错误出现几率是比较高的，目前通用的语音识别的字级别准确率在85％左右。

现有技术中，基于语音识别结果进行意图分类时，由于语音识别结果存在错误的几率较高，相应地，基于语音识别结果进行意图分类的错误率也较高。

因此，希望能有改进的方案，在基于语音识别结果进行意图分类时，能够降低意图分类的错误率。

发明内容

本说明书一个或多个实施例描述了一种基于语音识别结果进行意图分类的方法和装置，能够降低意图分类的错误率。

第一方面，提供了一种基于语音识别结果进行意图分类的方法，方法包括：

获取针对目标语音进行自动语音识别后得到的目标文本；

从预先建立的汉字到拼音的映射表中，查找所述目标文本包含的各汉字分别对应的拼音；

基于所述各汉字分别对应的拼音，形成目标拼音序列；

将所述目标文本和所述目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；

根据所述目标编码向量，对所述目标语音进行意图分类。

在一种可能的实施方式中，所述基于所述各汉字分别对应的拼音，形成目标拼音序列，包括：

基于所述各汉字分别对应的拼音，按照英文单词的切分方式将拼音切分为若干组成单元，以得到各组成单元构成的所述目标拼音序列。

基于所述各汉字分别对应的拼音，将拼音作为一个组成单元，以得到各组成单元构成的所述目标拼音序列。

在一种可能的实施方式中，所述文本编码模型通过如下方式预先训练：

获取训练文本和训练拼音序列组成的训练文本语音对；其中，所述训练文本的组成单元为汉字；所述训练拼音序列的组成单元基于所述训练文本中汉字对应的拼音而形成；

将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入；

将所述第一文本输入作为所述文本编码模型的输入，通过所述文本编码模型对应于所述若干位置中各个位置的输出，预测该位置预设字符替换前的组成单元，基于预测的正确性对所述文本编码模型进行训练。

进一步地，所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入，包括：

在所述训练文本语音对中的训练文本中，选取若干位置的第一预设比例的汉字分别用预设字符替换；

确定所述训练文本语音对中的训练拼音序列中与选取的若干位置的汉字对应的各组成单元，将确定的各组成单元分别用所述预设字符替换，得到第一文本输入。

在所述训练文本语音对包括的各组成单元中，选取若干位置的第二预设比例的组成单元分别用预设字符替换，得到第一文本输入。

获取训练样本，所述训练样本包括两个训练文本语音对和样本标签，所述训练文本语音对包括训练文本和训练拼音序列，所述样本标签用于标识所述训练样本包括的两个训练文本语音对是否属于连续对话；

将所述训练样本作为所述文本编码模型的输入，通过所述文本编码模型输出的所述训练样本的训练语义向量，预测所述训练样本包括的两个训练文本语音对是否属于连续对话，基于预测的正确性对所述文本编码模型进行训练。

在一种可能的实施方式中，所述文本编码模型包括：基于转换器的双向编码器表示(bidirectional encoder representation from transformers，BERT)模型。

第二方面，提供了一种基于语音识别结果进行意图分类的装置，装置包括：

获取单元，用于获取针对目标语音进行自动语音识别后得到的目标文本；

映射单元，用于从预先建立的汉字到拼音的映射表中，查找所述获取单元获取的目标文本包含的各汉字分别对应的拼音；

形成单元，用于基于所述映射单元得到的各汉字分别对应的拼音，形成目标拼音序列；

编码单元，用于将所述获取单元获取的目标文本和所述形成单元形成的目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；

分类单元，用于根据所述编码单元得到的目标编码向量，对所述目标语音进行意图分类。

第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

通过本说明书实施例提供的方法和装置，首先获取针对目标语音进行自动语音识别后得到的目标文本；然后从预先建立的汉字到拼音的映射表中，查找所述目标文本包含的各汉字分别对应的拼音；接着基于所述各汉字分别对应的拼音，形成目标拼音序列；再将所述目标文本和所述目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；最后根据所述目标编码向量，对所述目标语音进行意图分类。由上可见，本说明书实施例，不仅将自动语音识别后得到的汉字组成的文本作为文本编码模型的输入，而且将文本对应的拼音也同时作为文本编码模型的输入，充分利用了文本中的信息，使得文本编码模型输出的编码向量更能贴近原始语音的意图，相应地提升用户意图识别的效果，能够降低意图分类的错误率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的基于语音识别结果进行意图分类的方法流程图；

图3示出本说明书实施例提供的一种拼音序列的构成示意图；

图4示出本说明书实施例提供的另一种拼音序列的构成示意图；

图5示出本说明书实施例提供的一种模型训练原理图；

图6示出本说明书实施例提供的一种遮蔽方法示意图；

图7示出本说明书实施例提供的另一种遮蔽方法示意图；

图8示出本说明书实施例提供的另一种模型训练原理图；

图9示出根据一个实施例的基于语音识别结果进行意图分类的装置的示意性框图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于语音识别结果进行意图分类。参照图1，在语音交互场景中，用户通过语音表达某种意图，该语音经过自动语音识别转为文本，再基于该文本进行意图分类，以确定用户的意图类别，后续可以基于该意图类别与该用户进行交互。自动语音识别经常会出现识别错误的情况，主要包括汉语中常见的同音字错误、近音字错误、方言识别错误，比如用户说“花呗还款失败”，语音识别结果为“华北还款失败”。本说明书实施例，针对这种自动语音识别时，同音字、近音字识别错误较多的情况，在基于语音识别结果进行意图分类时进行了改进，以期兼容自动语音识别后的文本中的同音字、近音字等识别错误，从而能够降低意图分类的错误率。

图2示出根据一个实施例的基于语音识别结果进行意图分类的方法流程图，该方法可以基于图1所示的实施场景。如图2所示，该实施例中基于语音识别结果进行意图分类的方法包括以下步骤：步骤21，获取针对目标语音进行自动语音识别后得到的目标文本；步骤22，从预先建立的汉字到拼音的映射表中，查找所述目标文本包含的各汉字分别对应的拼音；步骤23，基于所述各汉字分别对应的拼音，形成目标拼音序列；步骤24，将所述目标文本和所述目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；步骤25，根据所述目标编码向量，对所述目标语音进行意图分类。下面描述以上各个步骤的具体执行方式。

首先在步骤21，获取针对目标语音进行自动语音识别后得到的目标文本。可以理解的是，该目标语音可以为用户发出的语音，可能存在方言或吐字不清晰的情况，该目标文本即自动语音识别后的语音识别结果，该语音识别结果可能出现识别错误。

表一示出一组正确的语音识别结果与错误的语音识别结果的对照示例。

表一

正确的语音识别结果	错误的语音识别结果
		花呗逾期	华北逾期

参照表一，用户发出的语音本来想表达的为“花呗逾期”，可是自动语音识别后得到的文本为“华北逾期”，这就是一种典型的识别错误的情况，其中，“花呗”为一种消费信贷产品，而“华北”为一个地理区域范围，“花呗逾期”和“华北逾期”二者表达的意图有明显差别。

然后在步骤22，从预先建立的汉字到拼音的映射表中，查找所述目标文本包含的各汉字分别对应的拼音。可以理解的是，不同的汉字可以对应相同的拼音，例如，汉字“花”和“华”都对应拼音“hua”,汉字“呗”和“北”都对应拼音“bei”。

本说明书实施例，通过查找目标文本包含的各汉字分别对应的拼音，可以补充目标文本涵盖的信息。

接着在步骤23，基于所述各汉字分别对应的拼音，形成目标拼音序列。本说明书实施例中，目标拼音序列包括多个组成单元，其中，一个汉字对应的拼音可以作为一个组成单元，或者，一个汉字对应的拼音可以拆分为若干个组成单元。

在一个示例中，基于所述各汉字分别对应的拼音，按照英文单词的切分方式将拼音切分为若干组成单元，以得到各组成单元构成的所述目标拼音序列。可以理解的是，拼音的字母与英文字母相同，因此可以按照英文单词的切分方式将拼音切分为若干组成单元。

图3示出本说明书实施例提供的一种拼音序列的构成示意图。拼音使用wordpieces进行切分，wordpieces是一种根据预先建立的词表，将单词转换成双字节编码的方案。如图3所示，将拼音作为英文单词来进行切分，一个拼音有可能被拆成多部分。比如图3中，“北”字的拼音“bei”，被拆分成“b##”和“##ei”两部分，这样做的优点是没有增加前述词表的大小，因此后续基于该拼音序列训练模型时，模型不会变得更大。

在另一个示例中，基于所述各汉字分别对应的拼音，将拼音作为一个组成单元，以得到各组成单元构成的所述目标拼音序列。可以理解的是，汉字对应的拼音与英文单词不同，通常并不存在于前述词表中。

图4示出本说明书实施例提供的另一种拼音序列的构成示意图。拼音作为新词加入到前述词表中。如图4所示，直接将拼音作为新词加到词表中，例如，将“北”字的拼音“bei”加到词表中，这种做法的优点是不会受到原始模型的英文语料的影响，后续基于该拼音序列训练模型时，模型输出的拼音语料向量完全代表字的语音特征。

再在步骤24，将所述目标文本和所述目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量。可以理解的是，在训练文本编码模型时也是基于文本和拼音序列组成的文本语音对，训练文本编码模型，使得文本编码模型更适合于特定的业务场景，即语音识别结果可能出现识别错误的特定业务场景。

在一个示例中，所述文本编码模型包括：基于转换器的双向编码器表示(bidirectional encoder representation from transformers，BERT)模型。在理解本说明书各实施例时，均可结合BERT模型的已有处理方式来进行理解。

当文本编码模型为BERT模型时，可以理解的是，BERT模型通常有两个预训练任务，其中，一个预训练任务是遮蔽语言模型(masked language model，MLM)任务，即将句子中的部分词替换为[mask]字符，再通过上下文预测该位置真实字符的任务；另一个预训练任务是下一句预测(next sentence prediction，NSP)任务，即判断两个句子是否为连续的任务。

在一个示例中，所述文本编码模型通过如下方式预先训练：

该示例可以对应于BERT模型的MLM任务。

图5示出本说明书实施例提供的一种模型训练原理图，对应于BERT模型的MLM任务。如图5所示，从人工对话语音转文本日志中，抽取用户单轮话术，查找每个汉字对应的拼音，以空格连接，再拼接到汉字文本末尾。具体步骤如下:从使用汉字到拼音的映射表中查找出每个汉字的拼音；对拼音进行预处理得到各组成单元，将完整拼音作为组成单元，或者使用wordpieces进行切分后得到各组成单元；将预处理后的各组成单元使用空格连接，添加到汉字文本的后方，以BERT模型中的[sep]标记符连接；随机选取预设比例(例如15％)的字符进行遮蔽(mask)操作；将经过遮蔽操作后得到的文本输入作为BERT模型的输入，经过多层转换器(transformer)计算后得出每个位置的上下文语义向量，将被遮蔽的词对应的向量通过全连接层映射到词表大小的维度，计算softmax，和该遮蔽位置实际的词的词表序号，计算交叉熵损失函数，再进行反向传播、对BERT模型进行梯度更新。

进一步地，一种遮蔽方案为采用汉字-拼音对应位置遮蔽的方案，包括：

图6示出本说明书实施例提供的一种遮蔽方法示意图，该方法采用汉字-拼音对应位置遮蔽的方案。如图6所示，先对汉字句子中的字选取预设比例(例如15％)的字进行遮蔽(即替换为预设字符)，再将后面对应的拼音也遮蔽掉，例如，先将“北”字替换为[mask]字符，再将”b##”和”##ei”也替换为[mask]字符。该方案的优点是防止了汉字和拼音没有同时MASK的场景下，可以互相作为提示信息，降低模型训练难度。

进一步地，另一种遮蔽方案为采用汉字-拼音随机遮蔽的方案，包括：

图7示出本说明书实施例提供的另一种遮蔽方法示意图，该方法采用汉字-拼音随机遮蔽的方案。如图7所示，对汉字和拼音拼接后的字符串随机选取预设比例(例如15％)的字符进行遮蔽，例如，完全随机地将“北”和”b##”和”yu”替换为[mask]字符。该方案的优点是保证了文本中预设比例的字符被遮蔽掉。

在另一个示例中，所述文本编码模型通过如下方式预先训练：

该示例可以对应于BERT模型的NSP任务。

图8示出本说明书实施例提供的另一种模型训练原理图，对应于BERT模型的NSP任务。如图8所示，判断两句话是否为真实对话中前后连续的两个对话角色说的话，比如催收员和用户的连续对话。模型结构为将两句话分别处理得到文本语音对后，再将各自对应的文本语音对拼接在一起，输入进BERT模型，经过转换器(transformer)计算后，取[cls]位置向量进行二分类。具体步骤如下：话术预处理，从人工对话语音转文本日志中抽取出整通对话，对每一轮的单条话术进行预先处理得到对应的文本语音对；正样本选取，将同一个对话(session)内，连续的不同对话角色的两条话术拼接在一起，使用[sep]相连，作为NSP任务的正样本；负样本选取，随机选取来自不同对话的两个句子，将其拼接在一起，使用[sep]相连作为负样本；可选地，正负样本的比例保持50:50；将样本输入进BERT模型，经过多层转换器(transformer)计算之后，取最后一层[cls]位置的上下文语义向量，映射到维度为2的向量，计算softmax，和正负样本的标签(0,1)计算交叉熵损失，再进行反向传播，对BERT模型更新梯度。

最后在步骤25，根据所述目标编码向量，对所述目标语音进行意图分类。可以理解的是，意图分类即确定用户的意图类别，例如，意图类别用于确定用户是否可以在预设时间段内还款，或者，意图类别用于在多个预设时间段中确定用户能够还款的目标时间段。

本说明书实施例提供的方法，不仅将自动语音识别后得到的汉字组成的文本作为文本编码模型的输入，而且将文本对应的拼音也同时作为文本编码模型的输入，充分利用了文本中的信息，使得文本编码模型输出的编码向量更能贴近原始语音的意图，相应地提升用户意图识别的效果，能够降低意图分类的错误率。

此外，在原始的文本编码模型基础之上继续进行语言模型预训练，充分将原始的文本编码模型在大训练语料上学习到的语言建模能力，迁移到了特定的业务场景中，效果更好。

根据另一方面的实施例，还提供一种基于语音识别结果进行意图分类的装置，该装置用于执行本说明书实施例提供的基于语音识别结果进行意图分类的方法。图9示出根据一个实施例的基于语音识别结果进行意图分类的装置的示意性框图。如图9所示，该装置900包括：

获取单元91，用于获取针对目标语音进行自动语音识别后得到的目标文本；

映射单元92，用于从预先建立的汉字到拼音的映射表中，查找所述获取单元91获取的目标文本包含的各汉字分别对应的拼音；

形成单元93，用于基于所述映射单元92得到的各汉字分别对应的拼音，形成目标拼音序列；

编码单元94，用于将所述获取单元91获取的目标文本和所述形成单元93形成的目标拼音序列作为目标文本语音对，将所述目标文本语音对输入预先训练的文本编码模型，通过所述文本编码模型输出所述目标文本语音对对应的目标编码向量；

分类单元95，用于根据所述编码单元94得到的目标编码向量，对所述目标语音进行意图分类。

可选地，作为一个实施例，所述形成单元93，具体用于基于所述各汉字分别对应的拼音，按照英文单词的切分方式将拼音切分为若干组成单元，以得到各组成单元构成的所述目标拼音序列。

可选地，作为一个实施例，所述形成单元93，具体用于基于所述各汉字分别对应的拼音，将拼音作为一个组成单元，以得到各组成单元构成的所述目标拼音序列。

可选地，作为一个实施例，所述文本编码模型通过如下方式预先训练：

可选地，作为一个实施例，所述文本编码模型包括：基于转换器的双向编码器表示BERT模型。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于语音识别结果进行意图分类的方法，所述方法包括：

获取针对目标语音进行自动语音识别后得到的目标文本；

基于所述各汉字分别对应的拼音，形成目标拼音序列；

根据所述目标编码向量，对所述目标语音进行意图分类；

其中，所述文本编码模型通过如下方式预先训练：

2.如权利要求1所述的方法，其中，所述基于所述各汉字分别对应的拼音，形成目标拼音序列，包括：

3.如权利要求1所述的方法，其中，所述基于所述各汉字分别对应的拼音，形成目标拼音序列，包括：

4.如权利要求1所述的方法，其中，所述文本编码模型通过如下方式预先训练：

5.如权利要求4所述的方法，其中，所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入，包括：

6.如权利要求4所述的方法，其中，所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入，包括：

7.如权利要求1所述的方法，其中，所述文本编码模型包括：基于转换器的双向编码器表示BERT模型。

8.一种基于语音识别结果进行意图分类的装置，所述装置包括：

分类单元，用于根据所述编码单元得到的目标编码向量，对所述目标语音进行意图分类；

其中，所述文本编码模型通过如下方式预先训练：

9.如权利要求8所述的装置，其中，所述形成单元，具体用于基于所述各汉字分别对应的拼音，按照英文单词的切分方式将拼音切分为若干组成单元，以得到各组成单元构成的所述目标拼音序列。

10.如权利要求8所述的装置，其中，所述形成单元，具体用于基于所述各汉字分别对应的拼音，将拼音作为一个组成单元，以得到各组成单元构成的所述目标拼音序列。

11.如权利要求8所述的装置，其中，所述文本编码模型通过如下方式预先训练：

12.如权利要求11所述的装置，其中，所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入，包括：

13.如权利要求11所述的装置，其中，所述将所述训练文本语音对中的若干位置的组成单元分别用预设字符替换，得到第一文本输入，包括：

14.如权利要求8所述的装置，其中，所述文本编码模型包括：基于转换器的双向编码器表示BERT模型。

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-7中任一项的所述的方法。

16.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-7中任一项的所述的方法。