CN111767372B

CN111767372B - 语音查询的解析方法、解析模型的训练方法、装置、设备

Info

Publication number: CN111767372B
Application number: CN202010612016.3A
Authority: CN
Inventors: 张雷; 周景博; 熊辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2023-08-01
Anticipated expiration: 2040-06-30
Also published as: CN111767372A

Abstract

本申请公开了语音查询的信息的解析方法、解析模型的训练方法、装置、设备以及存储介质，涉及NLP、语音技术、人工智能、深度学习等领域。具体实现方案为：将语音查询输入预先训练的解析模型；获取解析模型输出的语音查询的解析结果，语音查询的解析结果包括语音查询的意图以及根据语音查询确定的目标空间域实体。利用解析模型处理语音查询，增加从空间域实体的角度对语音查询进行解析，确定出语音查询中的空间域实体类别。从而可以起到对空间域实体消除歧义的作用，利用消除歧义的空间域实体以类别作为解析的辅助，可以更好的理解语音查询的意图以及确定出目标空间域实体，提高解析的准确率。

Description

语音查询的解析方法、解析模型的训练方法、装置、设备

技术领域

本申请涉及数据处理领域，尤其涉及NLP、语音技术、人工智能、深度学习等领域。

背景技术

智能虚拟助手可帮助人们导航，购物或查询一些信息等日常需要。但是已有技术中对用户的所有语音查询(Query)无区别对待，例如对于与空间域相关的语音查询，便无法准确且有效的解析。

发明内容

本申请提供了一种语音查询的解析方法、解析模型的训练方法、装置、设备以及存储介质。

根据本申请的一方面，提供了一种语音查询的解析方法，包括：

将语音查询输入预先训练的解析模型；

获取解析模型输出的语音查询的解析结果，语音查询的解析结果包括语音查询的意图以及根据语音查询确定的目标空间域实体。

根据本申请的另一方面，提供了一种解析模型的训练方法，包括：

将语音查询样本输入待训练的解析模型；

获取解析模型输出的语音查询样本的解析结果预测值，语音查询样本的解析结果预测值包括语音查询样本的意图预测值以及根据语音查询样本确定的目标空间域实体预测值；

确定意图预测值与意图真值之间的第一差值，以及目标空间域实体预测值与目标空间域实体真值之间的第二差值；

利用第一差值和第二差值对待训练的解析模型进行训练。

根据本申请的第三方面，提供了一种语音查询的解析装置，包括：

语音查询输入模块，用于将语音查询输入预先训练的解析模型；

解析结果获取模块，用于获取解析模型输出的语音查询的解析结果，语音查询的解析结果包括语音查询的意图以及根据语音查询确定的目标空间域实体。

根据本申请的第四方面，提供了一种解析模型的训练装置，包括：

语音查询样本输入模块，用于将语音查询样本输入待训练的解析模型；

解析结果预测值获取模块，用于获取解析模型输出的语音查询样本的解析结果预测值，语音查询样本的解析结果预测值包括语音查询样本的意图预测值以及根据语音查询样本确定的目标空间域实体预测值；

差值确定模块，用于确定意图预测值与意图真值之间的第一差值，以及目标空间域实体预测值与目标空间域实体真值之间的第二差值；

模型训练模块，用于利用第一差值和第二差值对待训练的解析模型进行训练。

根据本申请的第五方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本申请的第六方面，本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

根据本申请的第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

根据本申请的技术，利用解析模型处理语音查询，增加从空间域实体的角度对语音查询进行解析，确定出语音查询中的空间域实体类别。从而可以起到对空间域实体消除歧义的作用，利用消除歧义的空间域实体以类别作为解析的辅助，可以更好的理解语音查询的意图以及确定出目标空间域实体，提高解析的准确率。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的语音查询的解析方法的流程图；

图2是根据本申请第一实施例的语音查询的意图确定方式的流程图；

图3是根据本申请第一实施例的输出目标空间域实体的流程图；

图4是根据本申请第一实施例的对候选空间域实体进行排序的流程图；

图5是根据本申请第二实施例的解析模型的训练方法的流程图；

图6是根据本申请第二实施例的解析模型的训练方法的流程图；

图7是根据本申请第二实施例的语音查询的解析装置的示意图；

图8是根据本申请第二实施例的解析模型的训练装置的示意图；

图9是用来实现本申请实施例的语音查询的解析方法和/或解析模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如图1所示，本申请实施例提供一种语音查询的解析方法，包括以下步骤：

S101：将语音查询输入预先训练的解析模型；

S102：获取解析模型输出的语音查询的解析结果，语音查询的解析结果包括语音查询的意图以及根据语音查询确定的目标空间域实体。

本申请实施例的执行主体可以是有屏智能设备。在接收到用户的语音查询指令的情况下，可以将语音查询指令进行识别，转换为语音查询的文本或其他解析模型可识别的编码。后文统一采用语音查询为例进行说明。

将接收的语音查询的文本输入预先训练的解析模型。该解析模型可以对语音查询进行解析。

具体解析过程可以包括以下过程：

提取出语音查询中所包含的参考空间域实体，并且得到参考空间域实体的类型。

在得到参考空间域实体以及参考空间域实体的类型的情况下，一方面根据语音查询、参考空间域实体和参考空间域实体的类型三方面的信息可以确定出空间域实体链接，通过该链接可以指向目标空间域实体；另一方面根据上述三方面的信息可以对确定出语音查询的意图。

例如，语音查询是“从五道口到朝阳公园怎么走”。语音查询中所包含的参考空间域实体可以包括“五道口”、“朝阳”、“公园”、“朝阳公园”等。参考空间域实体的类别可以包括“城市”、“省”、“地区”、“信息点”、“标签”等。例如，“五道口”的类别可以是地区，“朝阳公园”和“公园”的类别可以是“标签(公园/活动场所)”，“朝阳”的类别可以是“地区”。

利用语音查询的意图、参考空间域实体和参考空间域实体的类型三方面的信息最终可以确定出目标空间域实体为“朝阳公园”，而非“五道口”、“朝阳”或“公园”。具体确定过程在后续步骤中详述。目标空间域实体可以是预先存储在空间域实体数据库中的实体，该数据库可以实时更新。

利用意图预测，可以得到语音查询的意图是“查询从一个地区是五道口到一个标签为朝阳公园的路径”。

即，利用解析模型，可以确定语音查询的意图是“查询从一个地区是五道口到一个标签为朝阳公园的路径”，并且最终确定出的目的地是“朝阳公园”。

通过上述解析模型处理语音查询，增加从空间域的角度对语音查询进行解析，确定出语音查询中的参考空间域实体以及类别。从而可以起到对空间域实体消除歧义的作用，利用消除歧义的空间域实体以及其类别作为解析的辅助，可以更好的理解语音查询的意图以及确定出目标空间域实体，提高解析的准确率。

在一种实施方式中，解析模型包括：第一解析子模型、第二解析子模型及第三解析子模型；其中，

第一解析子模型被配置为接收语音查询，提取出至少一个参考空间域实体，并预测出至少一个参考空间域实体中的每个参考空间域实体的类别，将每个参考空间域实体的类别输入第二解析子模型，将每个参考空间域实体以及每个参考空间域实体的类别输入第三解析子模型；

第二解析子模型被配置为接收语音查询和每个参考空间域实体的类别，确定并输出语音查询的意图；

第三解析子模型被配置为接收语音查询、至少一个参考空间域实体中的每个参考空间域实体和每个参考空间域实体的类别，输出目标空间域实体。

第一子模型可以利用空间命名实体识别(Spatial-NER)可以从语音查询中提取出至少一个参考空间域实体，进一步的可以预测出至少一个参考空间域实体中每个参考空间域实体的类别。第一子模型可以预先利用语音查询样本、空间域实体样本和空间域实体的类型样本进行训练。

参考空间域实体的类别可以包括信息点(POI)、区域(AREA)、兴趣面(AOI)、标签(TAG)、城市(CITY)、品牌(BRAND)、省(PROVINCE)、周围(AROUND)、时间(TIME)和个人组类别(PERSON GROUP)。例如，参考空间域实体为“加油站”，其类别可以是信息点。参考空间域实体为“24小时便利店”，其类别可以是时间。参考空间域实体是“XX商场”，其类别可以是品牌。

第二子模型可以结合语音查询以及第一子模型输出的结果，进行语音查询意图的预测。

第三子模型可以结合语音查询以及第一子模型输出的结果，确定目标空间域实体。例如，当用户的语音查询为模糊查询或者语音查询中包括多个参考空间域实体时，利用第三子模型可以基于语音查询以及第一子模型输出的结果，确定出目标空间域实体。

在对解析模型进行训练时，可以分别预取第一子模型输出结果真值、第二子模型输出结果真值和第三子模型输出结果真值。分别确定出第一子模型输出结果预测值与第一子模型输出结果真值的差值、第二子模型输出结果预测值与第二子模型输出结果真值的差值和第三子模型输出结果预测值与第三子模型输出结果真值的差值。根据上述三个差值同时对第一子模型、第二子模型和第三子模型中的参数进行调整，直至上述三个差值在允许范围内。

通过上述方案，第一子模型作为第二子模型和第三子模型的辅助模型，第二子模型和第三子模型利用第一子模型输出的结果对语音查询进行解析。三个子模型在训练过程中是联动训练的，彼此相互作用，从而可以提高解析的精准性。

如图2所示，在一种实施方式中，语音查询的意图的确定方式，包括：

S201：获取语音查询的词向量；

S202：根据词向量确定语音查询的意图类别；

S203：根据词向量、意图类别和每个参考空间域实体的类别确定语音查询的意图。

第二子模型可以包括意图类别确定模型和意图确定模型。首先，利用词嵌入(WordEmbedding)可以提取出语音查询的词向量。例如语音查询为“从五道口到朝阳公园怎么走”，提取出的词向量包括“从”、“五道口”、“到”、“朝阳”、“公园”、“怎么走”。

意图类别确定模型根据词向量，可以得到语音查询的意图类别。在当前实施例中，意图类别可以包括以下七个类别：

(一)、询问两个地点之间的距离信息；

(二)、询问两个地点之间的除了距离和时间以外的信息；

(三)、询问两个地点之间的时间信息；

(四)、询问一个地区(区域)的地标信息；

(五)、询问询问一个地区(区域)的除了地标以外的信息；

(六)、询问建议；

(七)、只包括一个空间域实体。

上述各类别概括了基于空间域交互的中基于参考空间域实体查询的类别，利用词向量样本和类别样本对意图类别确定模型进行训练，使得意图类别确定模型可以根据词向量输出意图类别。

意图确定模型可以根据词向量、意图类别和每个参考空间域实体的类别确定出语音查询的意图。在当前实施例中，语音查询的意图可以包括百余种，百余种意图可以作为不同意图类别下的具体意图。

以意图类别为询问建议为例，在该类别下，可以包括询问城市或某一地区的餐饮建议(火锅类餐饮、西餐类餐饮)、旅游建议(名胜古迹、网红打卡)、购物建议(果蔬卖场、电器卖场)、休闲娱乐建议(电影院、健身房)等多种不同的意图。

通过上述方案，将词向量、意图类别和每个参考空间域实体的类别输入意图确定模型，即可得到语音查询的意图。通过实体类别和意图类别作为约束，可以使得最终确定的意图准确率更高。

如图3所示，在一种实施方式中，第三子模型输出目标空间域实体，包括：

S301：获取与参考空间域实体相关的至少一个候选空间域实体；

S302：根据预定规则，对至少一个候选空间域实体中的每个候选空间域实体进行排序，将排序最高的候选空间域实体作为输出的目标空间域实体。

可以根据近义词、同义词、语义相似或相同等方式获取与每个参考空间域实体相关的至少一个候选空间域实体。以参考空间域实体为“朝阳公园”为例，与“朝阳公园”相关的候选空间域实体可以包括“朝阳公园”、“朝阳公园桥”、“北京市朝阳区朝阳公园”、“青海省西宁市朝阳公园”等。

预定规则可以是相似度最高和/或根据查询语句上下文关联性确定等，根据预定规则，可以在多个候选空间域实体中选择出目标空间域实体。例如，语音查询为“从五道口到朝阳公园怎么走”。与“朝阳公园”相关的候选空间域实体可以包括“北京市朝阳区朝阳公园”、“青海省西宁市朝阳公园”、“陕西省渭南市朝阳公园”和“山西省静乐县朝阳公园”等。可以根据语义确定由于五道口在北京，因此可以将“北京市朝阳区朝阳公园”作为目标空间域实体。

通过上述方案，通过获取候选空间域实体可以在语音查询中存在模糊空间域实体时，对其进行纠正，确认正确的空间域实体。通过预定规则，可以在候选空间域实体中确定出目标空间域实体，使得目标空间域实体为符合查询语句的空间域实体。

在一种实施方式中，步骤S301包括：

根据词义、子词、编辑距离、参考空间域实体的位置和语音查询的词向量中的至少一种，获取与参考空间域实体相关的至少一个候选空间域实体。

例如，参考空间域实体为XX商场，利用的词义或者编辑距离(Edit Distance)可以得到的候选空间域实体包括XX商圈、XX商城、XX购物中心等。

又如，参考空间域实体为朝阳公园，利用子词(SUB-Word)得到的候选空间域实体可以是朝阳公园桥、北京市朝阳区朝阳公园、青海省西宁市朝阳公园等。

再如，查询语句为“推荐北京的名胜古迹”，其中参考空间域实体为北京，基于此可以确定位置在北京的名胜古迹为候选空间域实体。

再如，查询语句为“从五道口到朝阳公园怎么走”，根据语音查询的信息的词向量可以确定出在北京市内的路线导航，基于此确定为北京朝阳公园为候选空间域实体。

进一步的，为了减少后续计算量，可以对得到的候选空间域实体进行筛选。例如，通过词义得到N个候选空间域实体(XX商圈、XX商城、XX购物中心)。计算各个候选空间域实体与参考空间域实体(XX商场)的相似度，根据相似度进行排序，最终保留一定数量(例如前3)的候选空间域实体。

通过上述方案，利用多种方式确定出候选空间域实体，便于对查询语句中的参考空间域实体进行扩展。由于最终的目标空间域实体是有候选空间域实体中确定的，在参考空间域实体是模糊的情况下，通过上述方案可以实现对于参考空间域实体的校准。

如图4所示，在一种实施方式中，步骤S302包括：

S3021：根据与语音查询的词向量的相关度，确定至少一个候选空间域实体中的每个候选空间域实体的第一分数；

S3022：根据与参考空间域实体的相似性，确定至少一个候选空间域实体中的每个候选空间域实体的第二分数；

S3023：获取至少一个候选空间域实体中的每个候选空间域实体的类别，根据与参考空间域实体的类别的相似性，确定至少一个候选空间域实体中的每个候选空间域实体的第三分数；

S3024：根据第一分数、第二分数和第三分数，对至少一个候选空间域实体中的每个候选空间域实体进行排序。

利用词向量可以得到语音查询的上下文关系，例如前述示例当中，查询语句为“从五道口到朝阳公园怎么走”，则根据语音查询的词向量可以确定出在北京市内的路线导航。基于此，“北京市朝阳区朝阳公园”的第一分数会明显高于“青海省西宁市朝阳公园”、“陕西省渭南市朝阳公园”和“山西省静乐县朝阳公园”第一分数。

根据与每个参考空间域实体的相似性确定候选空间域实体中的每个候选空间域实体的第二分数。例如，查询语句为“从五道口到朝阳公园怎么走”，以参考空间域实体中的“朝阳公园”为例，候选空间域实体包括“朝阳公园”、“朝阳公园桥”和“森林公园”。通过语义相似度、编辑距离等相似度计算方式，计算出“朝阳公园”的第二分数会明显高于“朝阳公园桥”和“森林公园”。

根据与每个参考空间域实体的类别的相似性确定候选空间域实体中的每个候选空间域实体的第三分数。例如，查询语句为“朝阳有什么可以推荐的”。参考空间域实体为“朝阳”。当候选空间域实体中存在类别为“区域”的“北京市朝阳区”，以及类别为“品牌”的“朝阳超市”两个候选空间域实体。在第一子模型识别出查询语句中的朝阳的类别为“区域”的情况下，类别为“区域”的“北京市朝阳区”的第三分数会明显高于类别为“品牌”的“朝阳超市”。

通过综合考虑第一分数、第二分数和第三分数，可以确定出得分最高的候选空间域实体，将其作为目标空间域实体。综合考虑的方式可以是分数累加、加权分数和/或加权平均分等。

通过上述方案，综合多方面因素，在候选空间域实体中选择出符合查询语句的目标空间域实体，从而实现提高对查询语句解析的精准度。

如图5所示，在一种实施方式中，本申请实施例提供一种解析模型的训练方法，包括以下步骤：

S501：将语音查询样本输入待训练的解析模型；

S502：获取解析模型输出的语音查询样本的解析结果预测值，语音查询样本的解析结果预测值包括语音查询样本的意图预测值以及根据语音查询样本确定的目标空间域实体预测值；

S503：确定意图预测值与意图真值之间的第一差值，以及目标空间域实体预测值与目标空间域实体真值之间的第二差值；

S504：利用第一差值和第二差值对待训练的解析模型进行训练。

待训练的解析模型与前述实施例中预先训练的解析模型的原理以及构造相同，在此不再赘述。

在对解析模型训练时，可以分别获取模型得到的语音查询样本的意图预测值，以及目标空间域实体预测值。另一方面，预取语音查询样本的意图真值以及目标空间域实体真值。

计算意图预测值与意图真值之间的第一差值，以及目标空间域实体预测值与目标空间域实体真值之间的第二差值。根据上述两差值对解析模型中的所有参数进行训练。第一差值以及第二差值所表示的误差会在模型中的每一层进行反向传播，模型中每一层的参数都会根据这个误差进行调整，直到模型的输出收敛或达到预期的效果才结束。

通过上述方案，解析模型作为一个端到端模型，在训练时根据解析模型中得到的不同结果对解析模型进行整体训练，满足模型输出结果接近真值。

在一种实施方式中，待训练的解析模型包括：第一解析子模型、第二解析子模型及第三解析子模型；

第一解析子模型被配置为接收语音查询样本，提取出至少一个参考空间域实体，并预测出至少一个参考空间域实体中的每个参考空间域实体的类别预测值，将每个参考空间域实体的类别预测值输入第二解析子模型，将每个参考空间域实体以及每个参考空间域实体的类别预测值输入第三解析子模型；

第二解析子模型被配置为接收语音查询样本和每个参考空间域实体的类别预测值，确定并输出语音查询样本的意图预测值；

第三解析子模型被配置为接收语音查询样本、至少一个参考空间域实体中的每个参考空间域实体和每个参考空间域实体的类别预测值，输出目标空间域实体预测值。

在一种实施方式中，确定意图预测值与意图真值之间的第一差值，包括：

获取语音查询样本的词向量；

根据词向量确定语音查询样本的意图类别预测值；

根据词向量、意图类别预测值和每个参考空间域实体的类别预测值确定语音查询样本的意图预测值；

将意图类别预测值与意图类别真值的差值，以及意图预测值与意图真值的差值作为第一差值。

另外，在一种实施方式中，还包括：

将每个参考空间域实体的类别预测值与每个参考空间域实体的类别真值的差值，作为第一差值。

在一种实施方式中，确定目标空间域实体的预测值与目标空间域实体的真值之间的第二差值，包括：

获取与参考空间域实体相关的至少一个候选空间域实体；

根据预定规则，对至少一个候选空间域实体中的每个候选空间域实体进行排序，排序最高的候选空间域实体作为目标空间域实体预测值；

确定目标空间域实体预测值与目标空间域实体真值之间的第二差值。

结合图6所示，图中S^mt可以表示每个参考空间域实体的类别预测值与每个参考空间域实体的类别真值的差值。

S^qt可以表示意图类别预测值与意图类别真值的差值。

S^qi可以表示意图预测值与意图真值的差值。

S^ec可以表示候选空间域实体与语音查询的词向量的相关度之间的预测值与真值的差值；

S^em可以表示候选空间域实体与参考空间域实体的相似性之间的预测值与真值的差值；

S^et可以表示候选空间域实体与参考空间域实体的类别的相似性之间的预测值与真值的差值；

根据对S^ec、S^em和S^et进行综合计算，可以得到目标空间域实体预测值与目标空间域实体真值之间的第二差值S^el。综合计算可以包括取均值、均方差等。

利用损失函数可以对解析模型中的参数进行调整，损失函数表示为L＝λ₁(S^qi+S^el)+λ₂(S^qt+S^mt)。其中，λ₁和λ₂可以分别表示为权重，λ₁＞λ₂。当损失函数的值L逐渐减小并接近于0时，表示解析模型训练结束。

通过上述训练方案，将每个子模型的预测值和真值之间的差值联合起来对整体解析模型进行计算。可以使各个子模型联动训练，从而提升所以模型的准确率。

如图7所示，本申请实施例提供一种语音查询的解析装置，包括：

语音查询输入模块701，用于将语音查询输入预先训练的解析模型；

解析结果获取模块702，用于获取解析模型输出的语音查询的解析结果，语音查询的解析结果包括语音查询的意图以及根据语音查询确定的目标空间域实体。

在一种实施方式中，语音查询的意图的确定方式，包括：

获取语音查询的词向量；

根据词向量确定语音查询的意图类别；

根据词向量、意图类别和每个参考空间域实体的类别确定语音查询的意图。

在一种实施方式中，输出目标空间域实体，包括：

获取与参考空间域实体相关的至少一个候选空间域实体；

根据预定规则，对至少一个候选空间域实体中的每个候选空间域实体进行排序，将排序最高的候选空间域实体作为输出的目标空间域实体。

在一种实施方式中，获取与参考空间域实体相关的至少一个候选空间域实体，包括：

在一种实施方式中，根据预定规则，对至少一个候选空间域实体中的每个候选空间域实体进行排序，包括：

根据与语音查询的词向量的相关度，确定至少一个候选空间域实体中的每个候选空间域实体的第一分数；

根据与参考空间域实体的相似性，确定至少一个候选空间域实体中的每个候选空间域实体的第二分数；

获取至少一个候选空间域实体中的每个候选空间域实体的类别，根据与参考空间域实体的类别的相似性，确定至少一个候选空间域实体中的每个候选空间域实体的第三分数；

根据第一分数、第二分数和第三分数，对至少一个候选空间域实体中的每个候选空间域实体进行排序。

如图8所示，本申请实施例提供一种解析模型的训练装置，包括：

语音查询样本输入模块801，用于将语音查询样本输入待训练的解析模型；

解析结果预测值获取模块802，用于获取解析模型输出的语音查询样本的解析结果预测值，语音查询样本的解析结果预测值包括语音查询样本的意图预测值以及根据语音查询样本确定的目标空间域实体预测值；

差值确定模块803，用于确定意图预测值与意图真值之间的第一差值，以及目标空间域实体预测值与目标空间域实体真值之间的第二差值；

模型训练模块804，用于利用第一差值和第二差值对待训练的解析模型进行训练。

获取语音查询样本的词向量；

根据词向量确定语音查询样本的意图类别预测值；

在一种实施方式中，还包括：

获取与参考空间域实体相关的至少一个候选空间域实体；

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图9所示，是根据本申请实施例的语音查询的解析方法和/或解析模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器910、存储器920，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器910为例。

存储器920即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的语音查询的解析方法和/或解析模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的语音查询的解析方法和/或解析模型的训练方法。

存储器920作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的语音查询的解析方法和/或解析模型的训练方法对应的程序指令/模块(例如，附图7所示的语音查询输入模块701和解析结果获取模块702，或者附图8所示的语音查询样本输入模块801、解析结果预测值获取模块802、差值确定模块803和模型训练模块804)。处理器910通过运行存储在存储器920中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的语音查询的解析方法和/或解析模型的训练方法。

存储器920可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音查询的解析方法和/或解析模型的训练方法的电子设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器920可选包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至语音查询的解析方法和/或解析模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音查询的解析方法和/或解析模型的训练方法的电子设备还可以包括：输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置930可接收输入的数字或字符信息，以及产生与语音查询的解析方法和/或解析模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置940可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种语音查询的解析方法，包括：

将语音查询输入预先训练的解析模型；

获取所述解析模型输出的所述语音查询的解析结果，所述语音查询的解析结果包括所述语音查询的意图以及根据所述语音查询确定的目标空间域实体；

其中，所述解析模型包括：第一解析子模型、第二解析子模型及第三解析子模型；

所述第一解析子模型被配置为接收所述语音查询，提取出至少一个参考空间域实体，并预测出所述至少一个参考空间域实体中的每个参考空间域实体的类别，将所述每个参考空间域实体的类别输入所述第二解析子模型，将所述每个参考空间域实体以及所述每个参考空间域实体的类别输入所述第三解析子模型；

所述第二解析子模型被配置为接收所述语音查询和所述每个参考空间域实体的类别，确定并输出所述语音查询的意图；

所述第三解析子模型被配置为接收所述语音查询、所述至少一个参考空间域实体中的每个参考空间域实体和所述每个参考空间域实体的类别，输出所述目标空间域实体；

其中，所述语音查询的意图的确定方式，包括：

获取所述语音查询的词向量；

根据所述词向量确定所述语音查询的意图类别；

根据所述词向量、所述意图类别和所述每个参考空间域实体的类别确定所述语音查询的意图；

其中，所述输出所述目标空间域实体，包括：

获取与所述参考空间域实体相关的至少一个候选空间域实体；

根据预定规则，对所述至少一个候选空间域实体中的每个候选空间域实体进行排序，将排序最高的候选空间域实体作为输出的目标空间域实体。

2.根据权利要求1所述的方法，其中，所述获取与所述参考空间域实体相关的至少一个候选空间域实体，包括：

根据词义、子词、编辑距离、所述参考空间域实体的位置和所述语音查询的词向量中的至少一种，获取与所述参考空间域实体相关的至少一个候选空间域实体。

3.根据权利要求1或2所述的方法，其中，所述根据预定规则，对所述至少一个候选空间域实体中的每个候选空间域实体进行排序，包括：

根据与所述语音查询的词向量的相关度，确定所述至少一个候选空间域实体中的每个候选空间域实体的第一分数；

根据与所述参考空间域实体的相似性，确定所述至少一个候选空间域实体中的每个候选空间域实体的第二分数；

获取所述至少一个候选空间域实体中的每个候选空间域实体的类别，根据与所述参考空间域实体的类别的相似性，确定所述至少一个候选空间域实体中的每个候选空间域实体的第三分数；

根据所述第一分数、所述第二分数和所述第三分数，对所述至少一个候选空间域实体中的每个候选空间域实体进行排序。

4.一种解析模型的训练方法，包括：

将语音查询样本输入待训练的解析模型；

获取所述解析模型输出的所述语音查询样本的解析结果预测值，所述语音查询样本的解析结果预测值包括所述语音查询样本的意图预测值以及根据所述语音查询样本确定的目标空间域实体预测值；

确定所述意图预测值与意图真值之间的第一差值，以及所述目标空间域实体预测值与目标空间域实体真值之间的第二差值；

利用所述第一差值和所述第二差值对所述待训练的解析模型进行训练；

其中，所述待训练的解析模型包括：第一解析子模型、第二解析子模型及第三解析子模型；

所述第一解析子模型被配置为接收所述语音查询样本，提取出至少一个参考空间域实体，并预测出所述至少一个参考空间域实体中的每个参考空间域实体的类别预测值，将所述每个参考空间域实体的类别预测值输入所述第二解析子模型，将所述每个参考空间域实体以及所述每个参考空间域实体的类别预测值输入所述第三解析子模型；

所述第二解析子模型被配置为接收所述语音查询样本和所述每个参考空间域实体的类别预测值，确定并输出所述语音查询样本的意图预测值；

所述第三解析子模型被配置为接收所述语音查询样本、所述至少一个参考空间域实体中的每个参考空间域实体和所述每个参考空间域实体的类别预测值，输出所述目标空间域实体预测值。

5.根据权利要求4所述的方法，其中，所述确定所述意图预测值与意图真值之间的第一差值，包括：

获取所述语音查询样本的词向量；

根据所述词向量确定所述语音查询样本的意图类别预测值；

根据所述词向量、所述意图类别预测值和所述每个参考空间域实体的类别预测值确定所述语音查询样本的意图预测值；

将所述意图类别预测值与意图类别真值的差值，以及所述意图预测值与意图真值的差值作为所述第一差值。

6.根据权利要求4或5所述的方法，其中，还包括：

将所述每个参考空间域实体的类别预测值与每个参考空间域实体的类别真值的差值，作为所述第一差值。

7.根据权利要求4所述的方法，其中，确定所述目标空间域实体的预测值与目标空间域实体的真值之间的第二差值，包括：

根据预定规则，对所述至少一个候选空间域实体中的每个候选空间域实体进行排序，排序最高的候选空间域实体作为目标空间域实体预测值；

确定所述目标空间域实体预测值与目标空间域实体真值之间的第二差值。

8.一种语音查询的解析装置，包括：

解析结果获取模块，用于获取所述解析模型输出的所述语音查询的解析结果，所述语音查询的解析结果包括所述语音查询的意图以及根据所述语音查询确定的目标空间域实体；

其中，所述解析模型包括：第一解析子模型、第二解析子模型及第三解析子模型；其中，

其中，所述语音查询的意图的确定方式，包括：

获取所述语音查询的词向量；

根据所述词向量确定所述语音查询的意图类别；

其中，所述输出所述目标空间域实体，包括：

9.根据权利要求8所述的装置，其中，所述获取与所述参考空间域实体相关的至少一个候选空间域实体，包括：

10.根据权利要求8或9所述的装置，其中，根据预定规则，对所述至少一个候选空间域实体中的每个候选空间域实体进行排序，包括：

11.一种解析模型的训练装置，包括：

解析结果预测值获取模块，用于获取所述解析模型输出的所述语音查询样本的解析结果预测值，所述语音查询样本的解析结果预测值包括所述语音查询样本的意图预测值以及根据所述语音查询样本确定的目标空间域实体预测值；

差值确定模块，用于确定所述意图预测值与意图真值之间的第一差值，以及所述目标空间域实体预测值与目标空间域实体真值之间的第二差值；

模型训练模块，用于利用所述第一差值和所述第二差值对所述待训练的解析模型进行训练；

12.根据权利要求11所述的装置，其中，所述确定所述意图预测值与意图真值之间的第一差值，包括：

获取所述语音查询样本的词向量；

根据所述词向量确定所述语音查询样本的意图类别预测值；

13.根据权利要求11或12所述的装置，其中，还包括：

14.根据权利要求11所述的装置，其中，确定所述目标空间域实体的预测值与目标空间域实体的真值之间的第二差值，包括：

15. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1至7中任一项所述的方法。