CN116798417B

CN116798417B - 语音意图识别方法、装置、电子设备及存储介质

Info

Publication number: CN116798417B
Application number: CN202310945156.6A
Authority: CN
Inventors: 唐娟; 刘楚雄; 叶松林
Original assignee: Chengdu Seres Technology Co Ltd
Current assignee: Chongqing Selis Phoenix Intelligent Innovation Technology Co ltd
Priority date: 2023-07-31
Filing date: 2023-07-31
Publication date: 2023-11-10
Anticipated expiration: 2043-07-31
Also published as: CN116798417A

Abstract

本申请涉及智能语义技术领域，提供了一种语音意图识别方法、装置、电子设备及存储介质。该方法包括：获取语音信息，将语音信息转换为标准文本；基于标准文本，在意图模板库中获取候选匹配文本集合；分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度；基于对应最大意图相似度的候选匹配文本确定语音信息的意图。该方法无需构建大量的意图模板，能够降低识别成本；同时利用多种相似度确定与标准文本最匹配的候选匹配文本，能够提高识别降低，降低误识别和漏识别的概率。

Description

语音意图识别方法、装置、电子设备及存储介质

技术领域

本申请涉及智能语义技术领域，尤其涉及一种语音意图识别方法、装置、电子设备及存储介质。

背景技术

意图识别是车载智能语音交互中的主要任务之一，用于确定给定用户标准文本的意图或目的。在意图识别中，可以使用不同的方法，主要分为两类：基于模板匹配和基于深度学习的方法。基于模板匹配的意图识别方法使用预定义的模板或规则集来匹配输入文本与已知意图之间的相似性，当输入文本与模板匹配时，可以确定对应的意图。基于深度学习的意图识别方法使用神经网络模型，从大规模数据集中学习输入文本的表示和意图分类，训练意图识别模型。

然而，由于用户的自然语言表达具有多样性，因此，基于模板匹配进行意图识别时，需要构建大量的意图模板，识别成本较高。同时，目前基于模板匹配的意图识别通过计算输入文本和预设模板集之间的相似性来确定对应的意图，而车载语音交互中由于用户和环境的多样性，存在语音误识别问题，仅仅通过文本相似性来匹配会忽略部分语音识别错误但意图明确的请求。此外，基于深度学习的意图识别模型对数据比较敏感，在数据量较少或领域特定的场景下可能表现不佳，对于数据量较少的意图分支来说，模型难以做出正确的预测，导致模型整体的召回率下降。

发明内容

有鉴于此，本申请实施例提供了一种语音意图识别方法、装置、电子设备及存储介质，以解决现有技术中识别精度低、成本高的问题。

本申请实施例的第一方面，提供了一种语音意图识别方法，包括：

获取语音信息，将语音信息转换为标准文本；

基于标准文本，在意图模板库中获取候选匹配文本集合；

分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度；

基于对应最大意图相似度的候选匹配文本确定语音信息的意图。

本申请实施例的第二方面，提供了一种语音意图识别装置，包括：

获取模块，被配置为获取语音信息，将语音信息转换为标准文本；

匹配模块，被配置为基于标准文本，在意图模板库中获取候选匹配文本集合；

计算模块，被配置为分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度；

确定模块，被配置为基于对应最大意图相似度的候选匹配文本确定语音信息的意图。

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：本申请实施例通过将获取的语音信息转换为标准文本，使用标准文本在意图模板库中获取候选匹配文本集合，并基于标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度，进而使用意图相似度最大的候选匹配文本确定语音信息的意图，无需构建大量的意图模板，降低了识别成本；同时利用多种相似度确定与标准文本最匹配的候选匹配文本，提高了识别降低，降低了误识别和漏识别的概率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例的应用场景的场景示意图。

图2是本申请实施例提供的一种语音意图识别方法的流程示意图。

图3是本申请实施例提供的将语音信息转换为标准文本的方法的流程示意图。

图4是本申请实施例提供的一种语音意图识别的流程示意图。

图5是本申请实施例提供的计算标准文本与候选匹配文本的字面相似度的方法的流程示意图。

图6是本申请实施例提供的计算标准文本与候选匹配文本的词序相似度的方法的流程示意图。

图7是本申请实施例提供的计算各候选匹配文本相对标准文本的逆序数的方法的流程示意图。

图8是本申请实施例提供的基于字面相似度、拼音相似度和词序相似度计算候选匹配文本与标准文本的意图相似度的方法的流程示意图。

图9是本申请实施例提供的一种语音意图识别方法的流程示意图。

图10是本申请实施例提供的一种语音意图识别装置的示意图。

图11是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

下面将结合附图详细说明根据本申请实施例的一种语音意图识别方法和装置。

图1是本申请实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。

终端设备1、2和3可以是硬件，也可以是软件。当终端设备1、2和3为硬件时，其可以是具有显示屏且支持与服务器4通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、车载单元等；当终端设备1、2和3为软件时，其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备1、2和3上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器4可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器4可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器4可以是硬件，也可以是软件。当服务器4为硬件时，其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时，其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块，也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络，也可以是无需布线就能实现各种通信设备互联的无线网络，例如，蓝牙（Bluetooth）、近场通信（Near FieldCommunication，NFC）、红外（Infrared）等，本申请实施例对此不作限制。

服务器4可以经由网络5与终端设备1、2和3建立通信连接，以接收或发送信息等。具体地，服务器4可以接收终端设备1、2或3，或者其他设备发送的语音信息，并将基于该语音信息识别得到的意图发送给终端设备1、2或3。进一步的，终端设备1、2和3也可以对采集到的语音信息进行意图识别，并根据识别出的意图控制该终端设备1、2和3执行对应操作。

需要说明的是，终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整，本申请实施例对此不作限制。

上文提及，由于用户的自然语言表达具有多样性，例如，对于“关闭车窗”这一个意图，用户的表达就可能包括：关窗、关闭窗子、关闭一下车窗、帮我把窗子关一下、不要打开车窗等等。因此，基于模板匹配进行意图识别时，需要构建大量的意图模板，识别成本较高。

同时，目前基于模板匹配的意图识别通过计算输入文本和预设模板集之间的相似性来确定对应的意图，而车载语音交互中由于用户和环境的多样性，存在语音误识别问题，仅仅通过文本相似性来匹配会忽略部分语音识别错误但意图明确的请求。此外，基于深度学习的意图识别模型对数据比较敏感，在数据量较少或领域特定的场景下可能表现不佳，对于数据量较少的意图分支来说，模型难以做出正确的预测，导致模型整体的召回率下降。

鉴于此，本申请实施例提供了一种语音意图识别方法，通过将获取的语音信息转换为标准文本，使用标准文本在意图模板库中获取候选匹配文本集合，并基于标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度，进而使用意图相似度最大的候选匹配文本确定语音信息的意图，无需构建大量的意图模板，降低了识别成本；同时利用多种相似度确定与标准文本最匹配的候选匹配文本，提高了识别降低，降低了误识别和漏识别的概率。

图2是本申请实施例提供的一种语音意图识别方法的流程示意图。图2的语音意图识别方法可以由图1的终端设备或服务器执行。如图2所示，该方法包括如下步骤：

在步骤S201中，获取语音信息，将语音信息转换为标准文本。

在步骤S202中，基于标准文本，在意图模板库中获取候选匹配文本集合。

在步骤S203中，分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度。

在步骤S204中，基于对应最大意图相似度的候选匹配文本确定语音信息的意图。

本申请实施例中，该语音意图识别方法可用于识别车载语音的意图。一示例中，该语音意图识别方法可以识别车辆驾乘人员的语音指令所包含的意图，例如车辆驾乘人员发出语音指令“开窗”、“把车窗打开”、“帮我把窗子开一下”等，车载单元可以调用该语音意图识别方法，以识别出上述语音指令中的意图为“开启车窗”。

本申请实施例中，车载单元可以首先获取语音信息，将语音信息转换为标准文本。其中，可以首先使用相关技术中的语音识别方法将获取的语音信息转换为请求文本，然后通过预处理将请求文本转换为标准文本。预处理可以包括领域识别、句法清洗等，具体的预处理方法参见后文详述。进一步的，标准文本可以包括标准文字文本，以及标准拼音文本。

本申请实施例中，可以将转换得到的标准文本，在意图模板库中进行检索匹配，以得到候选匹配文本集合。其中，意图模板库为预先建立的模板库，为减少模板数量，降低搜索匹配的复杂度，意图模板库中的模板可以标准文本的方式存储。标准模版通过对获取的文本进行句法清洗得到。进一步的，意图模板库中同样可以包括文字模板文本，以及拼音模板文本。更进一步的，在意图模板库中进行检索匹配时，可以分别使用标准文字文本在意图模板库中检索匹配得到对应的文字候选匹配文本集合，以及拼音候选匹配集合。

本申请实施例中，可以分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度。其中，字面相似度用于指示标准文字文本与文字候选匹配文本集合中各候选匹配文本的字面相似度；拼音相似度用于指示标准拼音文本的与拼音候选匹配文本集合中各候选匹配文本的相似度；词序相似度用于指示标准文本中各字词之间的顺序与候选匹配文本集合中各候选匹配文本的各字词之间的顺序的相似度。

本申请实施例中，拼音相似度可用于对字面相似度进行补充，以降低由于在语音识别时产生的无识别，导致匹配效果不佳。具体的，若在对接收到的语音“打开车窗”进行语音识别时，误识别为了“打开车床”，则根据该识别得到的文本进行领域识别和模板匹配时，都将以“车床”为关键词进行，由于汉字“窗”与“床”无论是字形还是字义均差异较大，因此将导致识别结果与原始语音差别很大。为解决该技术问题，可以进一步获取语音识别的拼音文本“da kai che chuang”，此时使用该拼音文本在意图模板库中进行匹配时，由于“窗”和“床”的拼音仅声调不同，容易作为相似结果被匹配，因而能够在语音识别成文字存在明显错误的情况下，进一步通过拼音匹配得到相关的匹配结果。

本申请实施例中，词序相似度可用于对诸如切换类语音指令的相似度进行补充，以避免仅使用字面相似度和拼音相似度确定意图相似度，得到的候选匹配文本中切换对象存在明显错误。具体的，若语音指令为“系统语言从中文换成英文”，当仅使用字面相似度和拼音相似度确定意图相似度时，意图模板库中的候选匹配文本“将系统语言由中文切换至英文”和“将系统语言由英文切换至中文”与标准文本的意图相似度可能相同，此时无法识别出正确的意图。因此，可以引入词序相似度，在计算各候选匹配文本与标准文本的意图相似度时，进一步考虑文本中各字词的词序，从而避免了对切换类语音指令意图的无识别。

本申请实施例中，在确定得到各候选匹配文本与标准文本的意图相似度后，可以基于对应最大意图相似度的候选匹配文本确定语音信息的意图。具体的，可以将各意图相似度进行排序，然后选择对应最大意图相似度的候选匹配文本，将该候选匹配文本的意图作为接收到的语音的意图，将其反馈至用户。一些实施方式中，还可以确定预设意图相似度阈值，当最大意图相似度大于或者等于该预设意图相似度阈值时，将与最大意图相似度对应的候选匹配文本的意图反馈至用户，否则表示本次未识别出语音意图，再次进行识别或者向用户反馈未识别出语音意图的结果，提示用户再次输入语音。

根据本申请实施例提供的技术方案，通过将获取的语音信息转换为标准文本，使用标准文本在意图模板库中获取候选匹配文本集合，并基于标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度，进而使用意图相似度最大的候选匹配文本确定语音信息的意图，无需构建大量的意图模板，降低了识别成本；同时利用多种相似度确定与标准文本最匹配的候选匹配文本，提高了识别降低，降低了误识别和漏识别的概率。

图3是本申请实施例提供的将语音信息转换为标准文本的方法的流程示意图。如图3所示，该方法包括如下步骤：

在步骤S301中，使用语音识别工具将语音信息转换为请求文本。

在步骤S302中，对请求文本进行依存句法分析，得到请求文本的句法结构。

在步骤S303中，使用正则表达式将句法结构转换为标准请求文本。

在步骤S304中，获取标准请求文本的实体类型，将实体类型附加在标准请求文本中，得到文字标准文本。

在步骤S305中，对文字标准文本进行拼音标注，得到拼音标准文本。

在步骤S306中，将文字标准文本和拼音标准文本组合得到标准文本。

本申请实施例中，可以使用语音识别工具将语音信息转换为请求文本，然后对请求文本进行依存句法分析，得到请求文本的句法结构。接下来，可以使用正则表达式将句法结构转换为标准请求文本。

具体的，在对请求文本进行依存句法分析时，可以首先基于预设的句法清洗策略对请求文本进行清洗。其中，句法清洗策略可以包括以下中的至少一项：根据领域分类结果，去除无意义的停用词，如：的、以及、哦等；检查宾语是否存在状语、修饰词等成分，根据需求进行删除或替换；检查是否存在把助词，存在则以其中心词HEAD对应的动词替换。随后，可以使用正则表达式将清洗后的请求文本转换文标准文本。其中，正则表达式例如可以是：将“(请|麻烦)[你您]?([帮给]我们?)? ”替换为“”； 将“[把|将](.*?)(打开|关闭|退出) ”替换为“$2$1”等。

表1示出对请求文本进行依存句法分析的一个具体示例。其中，请求文本为“将QQ音乐启动一下吧”，对其进行依存句法分析得到的结果如表1所示：

表1

ID

FORM

LEMMA

CPOSTAG

POSTAG

FEATS

HEAD

DEPREL

1

将

BA

_

4

助词：把

2

QQ

NN

_

3

复合名词

3

音乐

NN

_

4

未定义

4

启动

VV

_

0

根

5

一下

AD

_

4

状语

6

吧

SP

_

4

语气

其中，ID为当前词在句子中的序号，自1开始；FORM为当前词语或标点；LEMMA为当前词语或标点的原型或词干，在中文中，此列与FORM相同；CPOSTAG为当前词语的粗粒度词性；POSTAG为当前词语的细粒度词性；FEATS为句法特征，若本次测评中此列未使用，则全部以下划线代替；HEAD为当前词语的中心词；DEPREL为当前词语与中心词的依存关系。BA表示把字结构，包括“把”、“将”；NN表示常用名词；VV表示动词，AD表示副词；SP表示句末助词。

使用正则表达式将清洗后的请求文本重新表达，得到标准请求文本为“启动QQ音乐”。

本申请实施例中，可以使用命名实体识别工具从标准请求文本中获取文本的实体名，进而确定该实体名的实体类型。将该实体类型附加在标准请求文本中，即可得到文字标准文本。仍然以确定的标准请求文本为“启动QQ音乐”为例，可以使用命名实体识别工具识别出其实体和实体类型为，实体识别结果={[{“entity”：“QQ音乐”，“label”：“app”}]}。其中，entity为实体，label为实体类型。将识别出的实体类型附加在标准请求文本之后，得到文字标准文本为“启动QQ音乐 app”。

本申请实施例中，可以对文字标准文本进行拼音标注，得到拼音标准文本。例如，对文字标准文本“启动QQ音乐 app”进行拼音标注，即可得到对应的拼音标准文本“qi3dong4 QQ yin1 yue4 app”。随后，将文字标准文本和拼音标准文本组合，即可得到所述标准文本。

采用本申请实施例的技术方案，通过对请求文本进行依存句法分析，进而使用正则表达式得到标准请求文本，将自标准请求文本中识别出的实体类型附加在标准请求文本之后，得到文字标准文本，同时对文字标准文本进行拼音标注得到拼音标准文本，将文字标准文本和拼音标准文本组合得到标准文本，可以提高用于进行搜索匹配的标准文本的表达完整性和准确性，进而提高意图识别的精度。

本申请实施例中，可以使用确定的标准文本，在预先构建的Elasticsearch意图模板库中进行检索查询，以匹配得到候选匹配文本集合。其中，在Elasticsearch意图模板库中进行检索查询时，可以对标准文本中的文字标准文本和拼音标准文本分别设置权重，例如设置文字标准文本的权重高于拼音标准文本权重。

进一步的，意图模板库可以包括无实体标签意图模板库和带实体标签意图模板库。其中，在带实体标签意图模板库中，意图模板中的实体名用该实体名所属的实体类型即类别标签进行了替换。在无实体标签意图模板库中，意图模板中的实体名未进行替换。一示例中，带实体标签意图模板库中的意图模板可以是“打开【app】”，无实体标签意图模板库中的意图模板可以是“打开车窗”。进一步的，无实体标签意图模板库和带实体标签意图模板库中的意图模板均为经过依存句法分析以及正则表达后得到的文本。

具体的，无标签模版例如可以是{"rules":"打开车窗","domain":"SmartVehicle","intent":"StatesControl","name":"window","action":"open"}，或者{"rules":"车窗打开【m】","domain":"SmartVehicle","intent":"StatesControl","name":"window","action":"set,"function":"openPercent"}。带标签模版例如可以是{"rules":"打开【app】","domain":"APP","intent":"OPEN"}，或者{"rules":"听【song】","domain":"MUSIC","intent":"PLAY"}。其中，rules为规则，domain为领域，intent为意图，name为名称，action为动作。

更进一步的，意图模板库中的各模版还包括扩展的同义词。具体的，可以对业务场景下的重点词汇进行同义词扩展，构建同义词库，进而基于同义词库构建意图模板库中的模版。其中，构建同义词库例如可以是{"word":"车窗","synonyms":["窗户", "窗", "窗子"]}，或者{"word":"打开", "synonyms":["开启", "开", "启动"]}，word为词，synonyms为同义词。

本申请实施例中，可以根据标准文本所述领域情况，确定在哪一个或多个意图模板库中进行检索。一示例中，可以首先确定标准文本所属领域，当确定的领域内实体较少，且不同实体对应的功能及操作也各有不同时，例如确定的领域为车载设备控制领域，其中实体空调和座椅都可包括调高操作，但前者的调高操作对应的是调高温度，后者的调高操作对应的是调高高度，功能差异见到，此时可以优先选择在无标签模版库中进行检索，以提高检索效率。另一方面，当确定的领域内实体数量巨大，例如APP领域，音乐领域等，且不同实体对应的操作也基本相同，例如“在一个音乐APP中听第一歌手的歌”和“在另一个音乐APP中听第二歌手的歌”，此时可以优先选择在带标签模版库中进行检索，以提高检索精度。

下面以优先在带标签模版库中进行检索为例，详细说明在意图模板库中获取候选匹配文本集合的具体实现步骤。本领域技术人员可以理解，优先在无标签模版库中进行检索的方法基本相同，此处不再赘述。

图4是本申请实施例提供的一种语音意图识别的流程示意图。其中，图4所示实施例中的步骤S401与图2所示实施例中的步骤S201基本相同，此处不再赘述。如图4所示，该方法还包括如下步骤：

在步骤S402中，确定标准文本所属的领域，基于该领域确定对应的实体标签。

在步骤S403中，基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合。

在步骤S404中，分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度。

在步骤S405中，响应于第一候选匹配文本集合中各第一候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合。

在步骤S406中，分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度。

在步骤S407中，基于对应最大意图相似度的第二候选匹配文本确定语音信息的意图。

本申请实施例中，可以首先确定标准文本所属的领域，基于该领域确定对应的实体标签。其中，标准文本所述的领域可以基于标准文本中的实体类型确定，也可以使用其他方式确定，此处不做限制。将确定的领域与带实体标签意图模板库中的实体标签相匹配，进而在对应的带实体标签意图模板库中检索查询获取第一候选匹配文本集合。

本申请实施例中，可以分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度。当第一候选匹配文本集合中各第一候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合。其中，预设阈值可以根据实际需要确定，例如可以与上文提及的预设意图相似度阈值相同。

本申请实施例中，还可以分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度。然后，基于对应最大意图相似度的第二候选匹配文本确定语音信息的意图。本领域技术人员可以理解的是，同样可以判断各第二候选匹配文本与标准文本的意图相似度中的最大意图相似度是否大于或者等于预设阈值，当大于或者等于预设阈值时，使用该最大意图相似度对应的模板中的意图确定接收到的语音的意图。当该第二候选匹配文本与标准文本的意图相似度中的最大意图相似度仍然小于预设阈值时，表示本次未识别出语音意图，再次进行识别或者向用户反馈未识别出语音意图的结果，提示用户再次输入语音。

上述实施例提供了首先在带实体标签意图模板库中进行匹配，若未获得匹配结果再在无实体标签意图模板库中进行匹配的方法。进一步的，本申请实施例中，还可以首先在无实体标签意图模板库中进行匹配，若未获得匹配结果再在带实体标签意图模板库中进行匹配。

具体的，可以首先基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合。然后分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度。当第二候选匹配文本集合中各第二候选匹配文本与标准文本的意图相似度均不满足预设阈值要求时，确定标准文本所属的领域，基于领域，确定对应的实体标签。之后基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合，分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度。最后基于对应最大意图相似度的第一候选匹配文本确定语音信息的意图。

更进一步的，还可以同时在无实体标签意图模板库和带实体标签意图模板库中进行匹配，即并行在无实体标签意图模板库和带实体标签意图模板库中执行匹配步骤。

具体的，可以首先确定标准文本所属的领域，基于领域，确定对应的实体标签。基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合。分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度。同时基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合。分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度。最后基于对应最大意图相似度的第一候选匹配文本或者第二候选匹配文本确定语音信息的意图。

表2示出根据本申请实施例的技术方案进行在意图模板库中检索查询得到候选匹配文本集合的一个具体示例。

表2

标准文本	文本=启动QQ音乐 app 拼音=qi3 dong4 QQ yin1 yue4 app
		候选匹配文本集合	{"rules":"打开【app】","domain":"APP","intent":"OPEN"} {"rules":"关闭【app】","domain":"APP","intent":"CLOSE"}{"rules":"打开【website】","domain":"WEB","intent":"OPEN"} ……

如表2所示，使用“启动QQ音乐”对应的标准文本在意图模板库中进行检索查询，能够得到表中所示多个候选匹配文本。

采用本申请实施例的技术方案，通过对意图模板库进行同义词扩展，提高了模板表达准确性，进而提高了意图识别精度。同时，通过将意图模板库分为无标签意图模板库和带标签意图模板库，能够兼顾检索查询的复杂度和意图识别精度，提高了识别效率。

图5是本申请实施例提供的计算标准文本与候选匹配文本的字面相似度的方法的流程示意图。如图5所示，该方法包括如下步骤：

在步骤S501中，使用标准文本中的实体名替换候选匹配文本中的实体名。

在步骤S502中，对标准文本和替换后的候选匹配文本分别进行分词处理和同义词转换，并对分词处理和同义词转换后的标准文本和候选匹配文本分别进行词性标注处理。

其中，文本中实体名的词性标注为对应的实体类型。

在步骤S503中，获取各类词性的预设权重值，基于词性标注后的标准文本和候选匹配文本，以及各类词性的预设权重值，使用余弦相似度算法计算得到标准文本与候选匹配文本的字面相似度。

本申请实施例中，首先可以将候选匹配文本集合中各候选匹配文本中的实体名，用标准文本中的实体名替换。例如，候选匹配文本中为“打开【app】”，标准文本中的实体名为“QQ音乐”，则替换后为“打开QQ音乐”。

然后，可以对标准文本和替换后的候选匹配文本分别进行分词处理和同义词转换，并对分词处理和同义词转换后的标准文本和候选匹配文本分别进行词性标注处理。其中，文本中实体名的词性标注为对应的实体类型。具体的，若标准文本为“开启QQ音乐”，则对其进行分词以及词性标注后的结果为：开启/v QQ音乐/app，以及分词、同义词替换和词性标注后的结果为：打开/v QQ音乐/app。

本申请实施例中，在得到分词以及词性标注后的结果后，可以获取各类词性的预设权重值，基于词性标注后的标准文本和候选匹配文本，以及各类词性的预设权重值，使用余弦相似度算法计算得到标准文本与候选匹配文本的字面相似度。

具体的，在计算字面相似度时，由于不同词性的重要性存在差异，例如“播放/v 第三歌手/singer 演唱/v 的/uj 那/z 版/qn 南屏晚钟/song”，实体“第三歌手/singer”、“南屏晚钟/song”的重要性高于动词“播放/v”，动词“播放/v”的重要性又高于“那/z”、“版/qn”。因此，可以考虑基于业务数据分析预设不同词性的权重因子boost，再利用余弦相似度计算文本的字面相似度。其中，余弦相似度计算公式可以是：

；

其中，TextSim（A，B）为字面相似度，A和B分别为待计算字面相似度的文本，V_Ai为文本A中的词频向量，V_Bi为文本B中的词频向量，boost（V_Ai）为V_Ai对应的词所属词性的权重因子，boost（V_Bi）为V_Bi对应的词所属词性的权重因子，n为文本A和文本B组成的词袋中的词频向量的个数，i为小于等于n的正整数。

一示例中，若文本A为“打开QQ音乐”，文本B为“退出QQ音乐”，各词性的权重因子为boost={entity:1.3，n:1.2，v:1.1}，其中，entity为实体，n为名词，v为动词，此时构建文本A和B的词袋为[打开/v，QQ音乐/app，退出/v]，构建文本A和B的词频向量分别为：文本A=[打开/v:1，QQ音乐/app:1，退出/v:0]，文本B=[打开/v:0，QQ音乐/app:1，退出/v:1]，代入上述公式计算可以得到文本A和B的字面相似度为0.69。

采用本申请实施例的技术方案，通过为不同词性赋予不同权重，并基于余弦相似度算法计算标准文本与候选匹配文本的字面相似度，能够准确计算文本间的字面相似度，提高意图识别精度。

本申请实施例中，标准文本与候选匹配文本的拼音相似度的计算方法，与该标准文本与候选匹配文本的字面相似度的计算方法相同，此处不再赘述。

图6是本申请实施例提供的计算标准文本与候选匹配文本的词序相似度的方法的流程示意图。如图6所示，该方法包括如下步骤：

在步骤S601中，计算各候选匹配文本相对标准文本的逆序数。

其中，逆序数包括候选匹配文本中，排列顺序与标准文本中对应的词向量的排列顺序不同的词向量的数量。

在步骤S602中，获取标准文本的最大逆序数，以及在候选匹配文本和标准文本中均出现且仅出现一次的词的个数N。

在步骤S603中，响应于N为0，确定标准文本与候选匹配文本的词序相似度为0。

在步骤S604中，响应于N为1，确定标准文本与候选匹配文本的词序相似度为1。

在步骤S605中，响应于N为大于1的整数，确定标准文本与候选匹配文本的词序相似度为（1-（逆序数/最大逆序数））。

本申请实施例中，考虑到不同词序对文本相似度具有不同影响，因此在确定标准文本与候选匹配文本的意图相似度时，进一步引入了词序相似度。

本申请实施例中，可以首先计算各候选匹配文本相对标准文本的逆序数，其中，逆序数包括候选匹配文本中，排列顺序与标准文本中对应的词向量的排列顺序不同的词向量的数量。然后获取标准文本的最大逆序数，以及在候选匹配文本和标准文本中均出现且仅出现一次的词的个数N。最后，根据逆序数的数据确定词序相似度。其中，当N为0时，确定标准文本与候选匹配文本的词序相似度为0；当N为1时，确定标准文本与候选匹配文本的词序相似度为1；当N为大于1的整数时，确定标准文本与候选匹配文本的词序相似度为（1-（逆序数/最大逆序数））。

具体的，可以选择逆序数来衡量词序相似度，逆序数即在一个序列中有多少个元素的顺序与其在排序后的位置顺序相反。基于逆序数计算词序相似度的算法如下式所示：

；

其中，InverseSim（A，B）为文本A和B之间的逆序相似度，inverseNum为逆序数，max（inverseNum）为最大逆序数，N为在文本A和文本B中都出现且只出现一次的词的个数。

图7是本申请实施例提供的计算各候选匹配文本相对标准文本的逆序数的方法的流程示意图。如图7所示，该方法包括如下步骤：

在步骤S701中，基于各候选匹配文本中任意两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数。

在步骤S702中，基于各候选匹配文本中相邻两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数。

本申请实施例中，逆序数的计算方法可以包括多种不同的方法。一示例中，可以基于各候选匹配文本中任意两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数。也就是说，可以将任意两个元素的先后词序与标准词序不同就当作一次逆序，此时max (inserseNum)=n(n-1)/2。这种计算方法能区分细微的词序调整，但计算复杂度较高，需处理大量的逆序对。

另一示例中，可以基于各候选匹配文本中相邻两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数。也就是说，可以将相邻两个元素的先后词序与标准词序不同就当作一次逆序，此时max(inserseNum)=n-1。该方式计算快捷，算法复杂度低，当句子中一个子句整体发生长距离移动后其仍与原来的语句具有较高相似性。

例如，若文本A的分词结果为[系统,语言,由,中文,转换,成,英文]，文本B的分词结果为[系统,语言,由,英文,转换,到,中文]，都出现且仅出现一次的词为[系统,语言,由,中文,转换,英文]，即N=6，此时可以得到序列A=[0,1,2,3,4,5]，序列B=[0,1,2,5,4,3]，采用第一种方式计算则共有逆序54、53和43，逆序数为3，词序相似度为1-3/(6*5/2)=0.8。采用第二种方式计算则共有逆序54和43，逆序数为2，词序相似度为1-2/5=0.6。实际应用时，可以根据需要选择使用哪一种方式进行计算，此处不做限制。

采用本申请实施例的技术方案，通过引入词序相似度计算意图相似度，进一步提高了意图识别的精度。

图8是本申请实施例提供的基于字面相似度、拼音相似度和词序相似度计算候选匹配文本与标准文本的意图相似度的方法的流程示意图。如图8所示，该方法包括如下步骤：

在步骤S801中，为字面相似度、拼音相似度和词序相似度分别赋予第一初始权重、第二初始权重和第三初始权重。

在步骤S802中，获取历史语音意图识别数据，基于历史语音意图识别数据训练第一初始权重、第二初始权重和第三初始权重，得到第一权重、第二权重和第三权重。

在步骤S803中，使用第一权重、第二权重和第三权重对字面相似度、拼音相似度和词序相似度加权求和或者加权求积，得到候选匹配文本与标准文本的意图相似度。

本申请实施例中，在计算得到字面相似度、拼音相似度与词序相似度后，可以将该字面相似度、拼音相似度与词序相似度进行加权求和或者加权求积，得到意图相似度。其中，字面相似度、拼音相似度与词序相似度各自的权重可以通过训练得到。

具体的，可以首先为字面相似度、拼音相似度和词序相似度分别赋予第一初始权重、第二初始权重和第三初始权重，然后获取历史语音意图识别数据，基于历史语音意图识别数据训练第一初始权重、第二初始权重和第三初始权重，得到第一权重、第二权重和第三权重。最后，使用第一权重、第二权重和第三权重对字面相似度、拼音相似度和词序相似度加权求和或者加权求积，得到候选匹配文本与标准文本的意图相似度。

图9是本申请实施例提供的一种语音意图识别方法的流程示意图。如图9所示，本申请实施例提供的语音意图识别方法包括如下步骤：用户请求文本预处理，意图检索，计算候选意图与用户请求的相似度，以及结果返回。其中候选意图自意图模板库中检索匹配得到，意图模板库可以预先构建得到，即，还可以包括构建意图模板库和同义词库步骤。

具体的，用户请求文本预处理步骤中，可以首先对请求文本进行依存句法分析；然后基于预设的句法清洗策略和正则替换将请求文本转换为标准文本；接下来对标准文本进行命名实体识别，将实体类型附加在请求文本后面形成新的查询文本；将查询文本转换为拼音，将所有查询文本组合得到检索文本。

在意图检索步骤中，可以基于文本和拼音，在预先构建的Elasticsearch意图检索库中查询，得到候选意图模板。

在计算候选意图与用户请求的相似度步骤中，可以首先用识别出的实体名替换候选意图模板中与该实体名同类的实体类型；然后对标准请求和候选意图文本进行分词和词性标注，并基于同义词库进行同义词转换；接下来分别计算同义词替换后的标准请求和候选意图文本的字面相似度、拼音相似度和词序相似度；最后基于相似度加权得到的意图相似度，选择相似度最大且大于给定阈值的候选意图作为最终意图。

在构建意图模板库和同义词库步骤中，可以构建意图模板库，包括无标签模板库和待实体标签模板库，还可以构建同义词库。

在结果返回步骤中，将最终解析意图返回给用户。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图10是本申请实施例提供的一种语音意图识别装置的示意图。如图10所示，该语音意图识别装置包括：

获取模块1001，被配置为获取语音信息，将语音信息转换为标准文本。

匹配模块1002，被配置为基于标准文本，在意图模板库中获取候选匹配文本集合。

计算模块1003，被配置为分别计算标准文本与候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似。

确定模块1004，被配置为基于对应最大意图相似度的候选匹配文本确定语音信息的意图。

本申请实施例中，将语音信息转换为标准文本，包括：使用语音识别工具将语音信息转换为请求文本；对请求文本进行依存句法分析，得到请求文本的句法结构；使用正则表达式将句法结构转换为标准请求文本；获取标准请求文本的实体类型，将实体类型附加在标准请求文本中，得到文字标准文本；对文字标准文本进行拼音标注，得到拼音标准文本；将文字标准文本和拼音标准文本组合得到标准文本。

本申请实施例中，意图模板库包括无实体标签意图模板库和带实体标签意图模板库；还包括：确定标准文本所属的领域，基于领域，确定对应的实体标签；基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合；分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度；响应于第一候选匹配文本集合中各第一候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合；分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度；基于对应最大意图相似度的第二候选匹配文本确定语音信息的意图。

本申请实施例中，意图模板库包括无实体标签意图模板库和带实体标签意图模板库；还包括：基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合；分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度；响应于第二候选匹配文本集合中各第二候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，确定标准文本所属的领域，基于领域，确定对应的实体标签；基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合；分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度；基于对应最大意图相似度的第一候选匹配文本确定语音信息的意图。

本申请实施例中，意图模板库包括无实体标签意图模板库和带实体标签意图模板库；还包括：确定标准文本所属的领域，基于领域，确定对应的实体标签；基于标准文本和实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合；分别计算标准文本与第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与标准文本的意图相似度；基于标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合；分别计算标准文本与第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与标准文本的意图相似度；基于对应最大意图相似度的第一候选匹配文本或者第二候选匹配文本确定语音信息的意图。

本申请实施例中，计算标准文本与候选匹配文本的字面相似度，包括：使用标准文本中的实体名替换候选匹配文本中的实体名；对标准文本和替换后的候选匹配文本分别进行分词处理和同义词转换，并对分词处理和同义词转换后的标准文本和候选匹配文本分别进行词性标注处理，其中文本中实体名的词性标注为对应的实体类型；获取各类词性的预设权重值，基于词性标注后的标准文本和候选匹配文本，以及各类词性的预设权重值，使用余弦相似度算法计算得到标准文本与候选匹配文本的字面相似度。

本申请实施例中，计算标准文本与候选匹配文本的词序相似度，包括：计算各候选匹配文本相对标准文本的逆序数，逆序数包括候选匹配文本中，排列顺序与标准文本中对应的词向量的排列顺序不同的词向量的数量；获取标准文本的最大逆序数，以及在候选匹配文本和标准文本中均出现且仅出现一次的词的个数N；响应于N为0，确定标准文本与候选匹配文本的词序相似度为0；或者响应于N为1，确定标准文本与候选匹配文本的词序相似度为1；或者响应于N为大于1的整数，确定标准文本与候选匹配文本的词序相似度为（1-（逆序数/最大逆序数））。

本申请实施例中，计算各候选匹配文本相对标准文本的逆序数，包括：基于各候选匹配文本中任意两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数；或者基于各候选匹配文本中相邻两个词向量的先后顺序，以及标准文本中对应的两个词向量的先后顺序计算得到逆序数。

本申请实施例中，还包括：在计算标准文本与候选匹配文本的拼音相似度步骤中，使用与计算字面相似度相同的方法，计算标准文本与候选匹配文本的拼音相似度。

本申请实施例中，基于字面相似度、拼音相似度与词序相似度确定各候选匹配文本与标准文本的意图相似度，包括：为字面相似度、拼音相似度和词序相似度分别赋予第一初始权重、第二初始权重和第三初始权重；获取历史语音意图识别数据，基于历史语音意图识别数据训练第一初始权重、第二初始权重和第三初始权重，得到第一权重、第二权重和第三权重；使用第一权重、第二权重和第三权重对字面相似度、拼音相似度和词序相似度加权求和或者加权求积，得到候选匹配文本与标准文本的意图相似度。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图11是本申请实施例提供的电子设备的示意图。如图11所示，该实施例的电子设备11包括：处理器1101、存储器1102以及存储在该存储器1102中并且可在处理器1101上运行的计算机程序1103。处理器1101执行计算机程序1103时实现上述各个方法实施例中的步骤。或者，处理器1101执行计算机程序1103时实现上述各装置实施例中各模块/单元的功能。

电子设备11可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备11可以包括但不仅限于处理器1101和存储器1102。本领域技术人员可以理解，图11仅仅是电子设备11的示例，并不构成对电子设备11的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器1101可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器1102可以是电子设备的内部存储单元，例如，电子设备11的硬盘或内存。存储器1102也可以是电子设备11的外部存储设备，例如，电子设备11上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（FlashCard）等。存储器1102还可以既包括电子设备11的内部存储单元也包括外部存储设备。存储器1102用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种语音意图识别方法，其特征在于，包括：

获取语音信息，将所述语音信息转换为标准文本；

基于所述标准文本，在意图模板库中获取候选匹配文本集合；

分别计算所述标准文本与所述候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于所述字面相似度、拼音相似度与词序相似度确定各候选匹配文本与所述标准文本的意图相似度；

基于对应最大意图相似度的候选匹配文本确定所述语音信息的意图；

其中，所述意图模板库包括无实体标签意图模板库和带实体标签意图模板库；所述方法还包括：

确定所述标准文本所属的领域，基于所述领域，确定对应的实体标签；

基于所述标准文本和所述实体标签，在带实体标签意图模板库中获取第一候选匹配文本集合；

分别计算所述标准文本与所述第一候选匹配文本集合中各第一候选匹配文本的字面相似度、拼音相似度与词序相似度，基于所述字面相似度、拼音相似度与词序相似度确定各第一候选匹配文本与所述标准文本的意图相似度；

响应于所述第一候选匹配文本集合中各第一候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，基于所述标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合；

分别计算所述标准文本与所述第二候选匹配文本集合中各第二候选匹配文本的字面相似度、拼音相似度与词序相似度，基于所述字面相似度、拼音相似度与词序相似度确定各第二候选匹配文本与所述标准文本的意图相似度；

基于对应最大意图相似度的第二候选匹配文本确定所述语音信息的意图。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信息转换为标准文本，包括：

使用语音识别工具将所述语音信息转换为请求文本；

对所述请求文本进行依存句法分析，得到所述请求文本的句法结构；

使用正则表达式将所述句法结构转换为标准请求文本；

获取所述标准请求文本的实体类型，将所述实体类型附加在所述标准请求文本中，得到文字标准文本；

对所述文字标准文本进行拼音标注，得到拼音标准文本；

将所述文字标准文本和所述拼音标准文本组合得到所述标准文本。

3.根据权利要求1所述的方法，其特征在于，所述意图模板库包括无实体标签意图模板库和带实体标签意图模板库；所述方法还包括：

基于所述标准文本，在无实体标签意图模板库中获取第二候选匹配文本集合；

响应于所述第二候选匹配文本集合中各第二候选匹配文本与标准文本的意图相似度均不满足预设阈值要求，确定所述标准文本所属的领域，基于所述领域，确定对应的实体标签；

基于对应最大意图相似度的第一候选匹配文本确定所述语音信息的意图。

4.根据权利要求1所述的方法，其特征在于，所述意图模板库包括无实体标签意图模板库和带实体标签意图模板库；所述方法还包括：

基于对应最大意图相似度的第一候选匹配文本或者第二候选匹配文本确定所述语音信息的意图。

5.根据权利要求1和3-4中任意一项所述的方法，其特征在于，计算所述标准文本与所述候选匹配文本的字面相似度，包括：

使用所述标准文本中的实体名替换所述候选匹配文本中的实体名；

对所述标准文本和替换后的候选匹配文本分别进行分词处理和同义词转换，并对分词处理和同义词转换后的标准文本和候选匹配文本分别进行词性标注处理，其中文本中实体名的词性标注为对应的实体类型；

获取各类词性的预设权重值，基于所述词性标注后的标准文本和候选匹配文本，以及所述各类词性的预设权重值，使用余弦相似度算法计算得到所述标准文本与所述候选匹配文本的字面相似度。

6.根据权利要求1和3-4中任意一项所述的方法，其特征在于，计算所述标准文本与所述候选匹配文本的词序相似度，包括：

计算各候选匹配文本相对所述标准文本的逆序数，所述逆序数包括所述候选匹配文本中，排列顺序与所述标准文本中对应的词向量的排列顺序不同的词向量的数量；

获取所述标准文本的最大逆序数，以及在所述候选匹配文本和标准文本中均出现且仅出现一次的词的个数N；

响应于所述N为0，确定所述标准文本与所述候选匹配文本的词序相似度为0；或者

响应于所述N为1，确定所述标准文本与所述候选匹配文本的词序相似度为1；或者

响应于所述N为大于1的整数，确定所述标准文本与所述候选匹配文本的词序相似度为1和逆序数与最大逆序数之商的差。

7. 根据权利要求6所述的方法，其特征在于，所述计算各候选匹配文本相对所述标准文本的逆序数，包括：

基于所述各候选匹配文本中任意两个词向量的先后顺序，以及所述标准文本中对应的两个词向量的先后顺序计算得到所述逆序数；或者

基于所述各候选匹配文本中相邻两个词向量的先后顺序，以及所述标准文本中对应的两个词向量的先后顺序计算得到所述逆序数。

8.根据权利要求5所述的方法，其特征在于，还包括：在计算所述标准文本与所述候选匹配文本的拼音相似度步骤中，使用与计算所述字面相似度相同的方法，计算所述标准文本与所述候选匹配文本的拼音相似度。

9.根据权利要求1和3-4中任一项所述的方法，其特征在于，所述基于所述字面相似度、拼音相似度与词序相似度确定各候选匹配文本与所述标准文本的意图相似度，包括：

为所述字面相似度、拼音相似度和词序相似度分别赋予第一初始权重、第二初始权重和第三初始权重；

获取历史语音意图识别数据，基于所述历史语音意图识别数据训练所述第一初始权重、第二初始权重和第三初始权重，得到第一权重、第二权重和第三权重；

使用所述第一权重、第二权重和第三权重对所述字面相似度、拼音相似度和词序相似度加权求和或者加权求积，得到所述候选匹配文本与所述标准文本的意图相似度。

10.一种语音意图识别装置，其特征在于，包括：

获取模块，被配置为获取语音信息，将所述语音信息转换为标准文本；

匹配模块，被配置为基于所述标准文本，在意图模板库中获取候选匹配文本集合；

计算模块，被配置为分别计算所述标准文本与所述候选匹配文本集合中各候选匹配文本的字面相似度、拼音相似度与词序相似度，基于所述字面相似度、拼音相似度与词序相似度确定各候选匹配文本与所述标准文本的意图相似度；

确定模块，被配置为基于对应最大意图相似度的候选匹配文本确定所述语音信息的意图；

其中，所述意图模板库包括无实体标签意图模板库和带实体标签意图模板库；所述装置还被配置为：

11.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述方法的步骤。