CN112214998B

CN112214998B - 意图与实体的联合识别方法、装置、设备和存储介质

Info

Publication number: CN112214998B
Application number: CN202011279240.1A
Authority: CN
Inventors: 朱轶昂
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-08-22
Anticipated expiration: 2040-11-16
Also published as: CN112214998A

Abstract

本申请涉及人工智能领域，提供了一种意图与实体的联合识别方法、装置、设备和存储介质，获取待识别的语句；将待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；将输出向量导入到分类任务对应的第一Softmax层进行计算得到待识别的语句的意图信息；将输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到待识别的语句的实体信息；基于意图信息和实体信息得到语句的表达含义信息，根据表达含义信息得到标准语句。通过本申请提供的意图与实体的联合识别方法、装置、设备和存储介质，通过使用共享了除Softmax层的所有参数的Bert模型进行实体和意图识别，意图识别可以有效利用实体识别学习到的知识，提高了意图识别的准确性。

Description

意图与实体的联合识别方法、装置、设备和存储介质

技术领域

本申请涉及人工智能的技术领域，特别涉及一种意图与实体的联合识别方法、装置、设备和存储介质。

背景技术

随着人工智能技术的不断发展，智能机器人不断融入到人们的日常生活中，如汽车上的智能后视镜等智能语音助手等。当这些设备上的智能助手与用户进行语音交互时，不可避免的要进行实体识别与意图识别。目前业界的主流做法要么是先进行意图识别然后再进行实体识别，要么先进行实体识别然后再进行意图识别，且这两个模块相互独立，而未进行参数的共享。

加之，智能助手中涉及的实体识别模块与意图识别模块均较为耗时。此外，由于意图识别模块与实体识别模块相互独立，所以意图识别不能有效利用实体识别的参数来辅助提升意图识别的效果。因此，现在这些主流做法不可避免的存在响应用户指令时长较大，和对用户指令所表示的意图识别准确率不高的问题，从而较严重的影响了用户对智能设备的体验感。

发明内容

本申请的主要目的为提供一种意图与实体的联合识别方法、装置、设备和存储介质，旨在解决实体识别和意图识别相互独立，使得意图识别准确率较低的技术问题。

为实现上述目的，本申请提供了一种意图与实体的联合识别方法，包括以下步骤：

获取待识别的语句；

将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；

将所述输出向量导入到分类任务对应的第一Softmax层进行计算得到所述待识别的语句的意图信息；

将所述输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到所述待识别的语句的实体信息；

基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句。

进一步地，所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤，包括：

基于所述意图信息，确定标准语句的句式类型；其中，所述句式类型包括陈述句、问句；

根据所述表达含义信息和所述句式类型，得到与所述待识别的语句对应的所述标准语句。

进一步地，所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤之后，还包括：

根据预设规则，获取与所述标准语句对应的答复语句；

将所述标准语句和所述答复语句同时呈现在显示面板上，其中，标准语句和所述答复语句存在预设的差异化处理。

根据预设规则，获取与所述标准语句对应的答复语句；

将所述答复语句呈现在显示面板上；

接收所述答复语句被触发操作，将所述标准语句呈现在所述显示面板上。

进一步地，所述将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量的步骤之前，包括：

获取训练样本；

将训练样本输入到原始Bert模型中计算，得到原始输出向量；

将所述原始输出向量输入到所述第一Softmax层进行计算得到第一输出值，并利用第一损失函数对所述第一输出值进行损失计算，得到第一损失值；

将所述原始输出向量中用于表征实体的原始向量输入到所述第二Softmax层进行计算得到第二输出值，并利用第二损失函数对所述第二输出值进行损失计算，得到第二损失值；

将所述第一损失值和所述第二损失值相加得到所述原始Bert模型的总损失；

当所述总损失达到预设结果后停止对所述原始Bert模型的训练，得到所述Bert模型。

本申请还提供了一种意图与实体的联合识别装置，包括：

第一获取单元，用于获取待识别的语句；

第一计算单元，用于将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；

第二计算单元，用于将所述输出向量导入到分类任务对应的第一Softmax层进行计算得到所述待识别的语句的意图信息；

第三计算单元，用于将所述输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到所述待识别的语句的实体信息；

标准语句单元，用于基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句。

进一步地，所述标准语句单元，包括：

确定子单元，用于基于所述意图信息，确定标准语句的句式类型；其中，所述句式类型包括陈述句、问句；

标准语句子单元，用于根据所述表达含义信息和所述句式类型，得到与所述待识别的语句对应的所述标准语句。

进一步地，所述意图与实体的联合识别装置，还包括：

第二获取单元，用于根据预设规则，获取与所述标准语句对应的答复语句；

第一呈现单元，用于将所述标准语句和所述答复语句同时呈现在显示面板上，其中，标准语句和所述答复语句存在预设的差异化处理。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的意图与实体的联合识别方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的意图与实体的联合识别方法的步骤。

本申请提供的意图与实体的联合识别方法、装置、设备和存储介质，预训练的Bert模型共享了除Softmax层的所有参数，减少了近一倍的参数量，进而大大地降低了意图识别与实体识别的整体计算时间。同时，由于Bert模型的参数共享机制的存在，意图识别可以有效利用实体识别学习到的知识，从而提高自身的意图识别准确性。

附图说明

图1是本申请一实施例中意图与实体的联合识别方法步骤示意图；

图2是本申请一实施例中意图与实体的联合识别装置结构框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例提供了一种意图与实体的联合识别方法，包括：

步骤S1，获取待识别的语句。

步骤S2，将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；

步骤S3，将所述输出向量导入到分类任务对应的第一Softmax层进行计算得到所述待识别的语句的意图信息；

步骤S4，将所述输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到所述待识别的语句的实体信息；

步骤S5，基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句。

本实施例中，如上述步骤S1所述，上述待识别的语句是指需要意图识别和实体识别的语句。获取到语句的意图和语句中的实体即可得到该语句的具体想要表达的含义。比如，糖尿病可以吃糖么？其意图是问句“可以吃么”，而实体是糖尿病和糖，然后结合意图和实体即可以得到语句的含义是在问糖尿病的病人是否可以吃糖。

如上述步骤S2所述，上述预训练的Bert模型是指根据用户的标注的样本数据进行训练后得到的模型。输出向量中包括用于表征实体的向量和用于表征意图的向量，Bert模型获取每一个词的词向量的时候，都会获取特殊的分类嵌入CLS，其用于分类任务的聚合序列表示，其对应的输出向量即为用于分类任务的向量，即表征实体的向量，其他的输出向量则用于实体识别。具体地，Bert模型会将上述语句进行分词，分词是字符级别的分词，然后将每一个分词转换成对应的输入向量E_【CLS】、E₁、E₂、E₃...E_N，经过预训练的Bert模型的内部处理，得到对应的输出向量E_C、E_T1、E_T2、E_T3...E_TN，其中，E_C是用于表征意图的向量，E_T1、E_T2、E_T3...E_TN是用于表征实体的向量。

进一步地，本申请的Bert模型是Bert base模型，其具有1.1亿参数，其最后一层输出均为768维的向量。相比于large模型，层数、输出向量维度和总参数更少，所以运行速度相对更快。

如上述步骤S3-S4所述，本申请将表征意图的向量和表征实体的向量相加然后输入到分类任务对应的第一Softmax层进行计算得到所述语句的意图信息。因为，某一类的意图类别中，一般会包含有一些特定的实体，所以让意图识别共享实体识别的参数，可以有效辅助意图识别的识别效果，即意图识别可以有效利用实体识别学习到的知识，从则提升自身意图的效果。将表征实体的向量输入到第二Softmax层计算得到对应的实体信息。在其他实施例中，上述步骤S3和S4可以同时执行。

如上述步骤S5所述，上述表达含义信息即为语句对应的表达含义，而表达含义信息对应标准语句的模式。标准语句即为主语、谓语、宾语等按照固定的排序方式进行组合。

本实施例中，本申请的意图与实体的联合识别方法可应用于人工智能领域中，预训练的Bert模型共享了除Softmax层的所有参数，减少了近一倍的参数量，进而大大地降低了意图识别与实体识别的整体计算时间。同时，由于Bert模型的参数共享机制的存在，意图识别可以有效利用实体识别学习到的知识，从而提高自身的意图识别准确性。

在一实施例中，所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤S4，包括：

步骤S41，基于所述意图信息，确定标准语句的句式类型；其中，所述句式类型包括陈述句、问句；

步骤S42，根据所述表达含义信息和所述句式类型，得到与所述待识别的语句对应的所述标准语句。

本实施例中，待识别的语句的意图信息不同，其对应的句式类型也不同，比如待识别的语句的意图仅为陈述某一事件，则为陈述句，比如语句的意图是问询某一问题，则为问句等。确定好标准语句的句式后，生成对应的标准语句。

生成标准语句的目的是为了准确的得到与上述句子对应的答复语句。在意图和实体识别的场景中，有一类场景是多轮对话的场景，为了提高多轮对话的准确性，先建立标准语句的句式，然后对应的设定答复语句并进行关联，从而可以准确的得到相应答复语句。

在一实施例中，所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤S4之后，还包括：

步骤S5，根据预设规则，获取与所述标准语句对应的答复语句；

步骤S6，将所述标准语句和所述答复语句同时呈现在显示面板上，其中，标准语句和所述答复语句存在预设的差异化处理。

本实施例中，应用场景为多轮对话场景，且以文本形式展示，答复语句为陈述句，是主语、谓语、宾语等按照固定的排序方式进行组合得到的。上述差异化处理是指用户通过观察可以直接区分出哪一段话是标准语句，哪一句话是答复语句，用户可以比对标准语句与自己输入的语句表达的含义是否相同，如果相同，则可以相信答复语句，如果不同，则可以不相信答复语句，并进行后续的其他处理，如反馈反复语句不准确等操作。

步骤S4A，根据预设规则，获取与所述标准语句对应的答复语句；

步骤S4B，将所述答复语句呈现在显示面板上；

步骤S4C，接收所述答复语句被触发操作，将所述标准语句呈现在所述显示面板上。

在本实施例中，当应用场景为多轮对话场景，且以文本形式展示，与上一实施例不同的地方是并没有将标准语句直接呈现在显示面板上，而是当答复语句被触发时，才会将对应答复语句的标准语句呈现在显示板上，同样可以做到使用户可以比对标准语句与自己输入的语句表达的含义是否相同，如果相同，则可以相信答复语句，如果不同，则可以不相信答复语句，并进行后续的其他处理，如反馈反复语句不准确等操作。本申请的因为没有直接呈现标准语句，所以降低用户的读取信息的内容，减少信息干扰项，当用户觉察答复有问题的时候，可以点击答复语句以确定其输入的语句和标准语句是否表达相同的含义等。上述语句是文本语句，其可以是接收到语音信号后转换成文本的语句。

在一实施例中，所述将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量的步骤S2之前，包括：

步骤S2A，获取训练样本；

步骤S2B，将训练样本输入到原始Bert模型中计算，得到原始输出向量；

步骤S2C，将所述原始输出向量输入到所述第一Softmax层进行计算得到第一输出值，并利用第一损失函数对所述第一输出值进行损失计算，得到第一损失值；

步骤S2D，将所述原始输出向量中用于表征实体的原始向量输入到所述第二Softmax层进行计算得到第二输出值，并利用第二损失函数对所述第二输出值进行损失计算，得到第二损失值；

步骤S2E，将所述第一损失值和所述第二损失值相加得到所述原始Bert模型的总损失；

步骤S2F，当所述总损失达到预设结果后停止对所述原始Bert模型的训练，得到所述Bert模型。

在本实施例中，如上述步骤S2A-2B所述，上述训练样本多为一句话的文本数据，其对应的实体和意图均带有标记。

如上述步骤S2C所述，意图识别和实体识别使用不同的损失函数进行损失计算，在其它实施例中也可以使用相同的损失函数进行计算。

进一步地，上述第一损失函数为：

其中x是一个离散的意图随机变量，其取值为集合X＝x₀,x₁,…,x_n，其中p(x)和q(x)分别是所述离散的意图随机变量X的两个概率分布。

进一步地，上述第二损失函数为：

其中y是一个离散的实体随机变量，其取值为集合y＝y₀,y₁,…,y_n，其中p(y)和q(y)分别是所述离散的实体随机变量y的两个概率分布。

本申请因为是同时对意图和实体进行识别，所以需要在整体上得到较好的结果，因此，在本实施例中将第一损失函数进行损失计算的结果和第二损失函数进行损失计算相加得到所述原始Bert模型的总损失，当总损失符合要求的时候，停止训练，得到对应的预训练的Bert模型。当然，还会对预训练的Bert模型进行相应的测试等，只有通过测试才会上线使用。

参见图2，本申请还提供了一种意图与实体的联合识别装置，包括：

第一获取单元10，用于获取待识别的语句；

第一计算单元20，用于将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；

第二计算单元30，用于将所述输出向量导入到分类任务对应的第一Softmax层进行计算得到所述待识别的语句的意图信息；

第三计算单元40，用于将所述输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到所述待识别的语句的实体信息；

标准语句单元50，用于基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句。

在一实施例中，所述标准语句单元50，包括：

在一实施例中，所述意图与实体的联合识别装置，还包括：

第一获取单元，用于根据预设规则，获取与所述标准语句对应的答复语句；

在一实施例中，所述意图与实体的联合识别装置，还包括：

第三获取单元，用于根据预设规则，获取与所述标准语句对应的答复语句；

第二呈现单元，用于将所述答复语句呈现在显示面板上；

第三呈现单元，用于接收所述答复语句被触发操作，将所述标准语句呈现在所述显示面板上。

在一实施例中，所述意图与实体的联合识别装置，还包括：

第四获取单元，用于获取训练样本；

输入单元，用于将训练样本输入到原始Bert模型中计算，得到原始输出向量；

第四计算单元，用于将所述原始输出向量输入到所述第一Softmax层进行计算得到第一输出值，并利用第一损失函数对所述第一输出值进行损失计算，得到第一损失值；

第五计算单元，用于将所述原始输出向量中用于表征实体的原始向量输入到所述第二Softmax层进行计算得到第二输出值，并利用第二损失函数对所述第二输出值进行损失计算，得到第二损失值；

相加单元，用于将所述第一损失值和所述第二损失值相加得到所述原始Bert模型的总损失；

停止单元，用于当所述总损失达到预设结果后停止对所述原始Bert模型的训练，得到所述Bert模型。

在本实施例中，上述各个单元、子单元的具体实现请参照上述方法实施例中所述，在此不再进行赘述。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别的语句、训练样本等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图与实体的联合识别方法。

上述处理器执行上述行人特征提取方法的步骤：

获取待识别的语句；

在一实施例中，上述处理器执行所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤，包括：

在一实施例中，上述处理器执行所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤之后，还包括：

根据预设规则，获取与所述标准语句对应的答复语句；

将所述答复语句呈现在显示面板上；

在一实施例中，上述处理器执行所述将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量的步骤之前，包括：

获取训练样本；

将训练样本输入到原始Bert模型中计算，得到原始输出向量；

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种意图与实体的联合识别方法，具体的：

获取待识别的语句；

根据预设规则，获取与所述标准语句对应的答复语句；

将所述答复语句呈现在显示面板上；

获取训练样本；

将训练样本输入到原始Bert模型中计算，得到原始输出向量；

综上所述，为本申请实施例中提供的种意图与实体的联合识别方法、装置、设备和存储介质，获取待识别的语句；将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量；将所述输出向量导入到分类任务对应的第一Softmax层进行计算得到所述待识别的语句的意图信息；将所述输出向量中用于表征实体的向量导入到实体识别对应的第二Softmax层进行计算得到所述待识别的语句的实体信息；基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句。本申请中，预训练的Bert模型共享了除Softmax层的所有参数，减少了近一倍的参数量，进而大大地降低了意图识别与实体识别的整体计算时间。同时，由于Bert模型的参数共享机制的存在，意图识别可以有效利用实体识别学习到的知识，从而提高自身的意图识别准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种意图与实体的联合识别方法，其特征在于，包括以下步骤：

获取待识别的语句；

基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句；

所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤，包括：

根据所述表达含义信息和所述句式类型，得到与所述待识别的语句对应的所述标准语句；

所述基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句的步骤之后，还包括：

根据预设规则，获取与所述标准语句对应的答复语句；

将所述标准语句和所述答复语句同时呈现在显示面板上，其中，标准语句和所述答复语句存在预设的差异化处理；

根据预设规则，获取与所述标准语句对应的答复语句；

将所述答复语句呈现在显示面板上；

接收所述答复语句被触发操作，将所述标准语句呈现在所述显示面板上；

所述将所述待识别的语句输入到预训练的Bert模型进行计算，得到输出向量的步骤之前，包括：

获取训练样本；

将训练样本输入到原始Bert模型中计算，得到原始输出向量；

2.一种意图与实体的联合识别装置，其特征在于，包括：

第一获取单元，用于获取待识别的语句；

标准语句单元，用于基于所述意图信息和所述实体信息得到所述语句的表达含义信息，根据所述表达含义信息得到标准语句；

标准语句子单元，用于根据所述表达含义信息和所述句式类型，得到与所述待识别的语句对应的所述标准语句；

第一呈现单元，用于将所述标准语句和所述答复语句同时呈现在显示面板上，其中，标准语句和所述答复语句存在预设的差异化处理；

第二呈现单元，用于将所述答复语句呈现在显示面板上；

第三呈现单元，用于接收所述答复语句被触发操作，将所述标准语句呈现在所述显示面板上；

第四获取单元，用于获取训练样本；

3.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1中所述的意图与实体的联合识别方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1中所述的意图与实体的联合识别方法的步骤。