CN113377961B

CN113377961B - 基于知识图谱和用户主题的意图-语义槽联合识别系统

Info

Publication number: CN113377961B
Application number: CN202011416840.8A
Authority: CN
Inventors: 甘明刚; 郝楠; 陈博; 陈杰; 窦丽华; 陈文颉; 陈晨
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2022-12-06
Anticipated expiration: 2040-12-07
Also published as: CN113377961A

Abstract

本公开的基于知识图谱和用户主题的意图‑语义槽联合识别模型，通过特征提取模块提取输入的文本信息的语义信息、词语间的关系以及局部信息，并输出文本信息的特征信息向量；外部向量生成模块提取输入的文本信息的主题，并利用先验知识图谱库查询与主题相关的多条知识，将主题和其相关的多条知识进行Bert编码生成外部信息向量；特征融合模块利用注意力机制将特征信息向量和外部信息向量进行融合得到融合特征向量；特征分类模块利用softmax对融合特征向量进行识别分类得到文本信息的意图，利用crf算法对融合特征向量进行序列标注得到文本信息的语义槽向量。能够提高智能对话系统中语义识别的准确率，提高对输入的文本信息的意图、语义的识别准确度。

Description

基于知识图谱和用户主题的意图-语义槽联合识别系统

技术领域

本发明属于自然语言理解技术领域，具体涉及一种基于知识图谱和用户主题的意图-语义槽联合识别系统。

背景技术

自然语言理解模块是人机对话系统中最重要的部分，因此其两个子任务意图是实现自然的人机交互系统必不可少的步骤。

但是，目前的智能对话系统(例如智能手机、智能家居、车载驾驶等)中，一般是将输入的文本信息进行特征提取后，未经过用户主题的理解和推理分析，直接将得到语义的特征信息向量分类，造成智能对话系统在智能对话时，对输入的文本信息语义理解不准、语义识别准确率较低等问题。

发明内容

有鉴于此，本公开提出了一种基于知识图谱和用户主题的意图-语义槽联合识别系统，通过融入主题生成模块、知识推理模块和特征融合模块能够提高智能对话系统中语义识别的准确率，提高对输入的文本信息的意图、语义的识别准确度。

根据本发明的一方面，提出了一种基于知识图谱和用户主题的意图-语义槽联合识别系统，所述模型包括：特征提取模块、外部向量生成模块、特征融合模块和特征分类模块；

其中，所述特征提取模块，用于提取输入的文本信息的语义信息、词语之间的关系以及局部信息，并输出文本信息的特征信息向量；

所述外部向量生成模块，用于提取输入的文本信息的主题，并利用先验知识图谱库查询与所述主题相关的多条知识，将所述主题和其相关的多条知识进行Bert编码生成外部信息向量；

所述特征融合模块，利用注意力机制将所述特征信息向量和所述外部信息向量进行融合得到融合特征向量；

所述特征分类模块，利用softmax对所述融合特征向量进行识别分类得到所述文本信息的意图，利用crf算法对所述融合特征向量进行序列标注得到所述文本信息的语义槽向量。

在一种可能的实现方式中，所述外部向量生成特征包括：主题生成模块、知识推理模块和Bert编码模块；

其中，所述主题生成模块，用于提取输入的文本信息的主题，输出所述主题到所述知识推理模块；

所述知识推理模块，用于利用先验知识图谱库查询与所述主题相关的多条知识；

所述Bert编码模块，用于将所述主题和所述主题相关的多条知识进行Bert编码生成外部信息向量。

在一种可能的实现方式中，所述特征提取模块，包括：Bert模型、Bi-Lstm模型和和Text-Cnn模型；

所述Bert模型，用于提取输入的文本信息的语义信息；

所述Bi-Lstm模型，用于提取所述语义信息内的词语之间的关系信息；

所述Text-Cnn模型，用于提取所述语义信息内的局部信息，并输出所述文本信息的特征信息向量。

在一种可能的实现方式中，所述主题生成模块，还用于提取输入的文本信息的主题对应的词语。

在一种可能的实现方式中，所述Bert模型是一个双向的NLP预训练模型，用于将输入的文本信息编码成输入向量，通过多层的Transformer形成句向量，得到所述文本信息的语义信息。

在一种可能的实现方式中，所述输入向量为：Input＝TokenVec+SegmentVec+PositionVec，其中，TokenVec是普通的词向量，SegmentVec是分割向量，PositionVec是位置向量。

在一种可能的实现方式中，所述Bi-Lstm模型是一个双向的LSTM模型，包括输入门、遗忘门和输出们三个门结构，从正向和反向提取语义信息内的词语之间的关系信息。

在一种可能的实现方式中，所述Text-Cnn模型是一个一维CNN模型，卷积核宽度和所述句向量长度相同，利用不同卷积核在所述句向量上进行卷积，然后将不通卷积核得到的一维向量进行池化，拼接得到所述文本信息的特征信息向量。

在一种可能的实现方式中，所述利用注意力机制将所述特征信息向量和所述外部信息向量进行融合得到融合特征向量，包括：

利用注意力机制将所述特征信息向量和所述外部信息向量进行融合的公式为：

m＝Attention(Q,K,V)+Q，

其中，Q为特征信息向量，K和V指的是外部信息向量，

是固定系数，m是融合特征向量。

本公开的基于知识图谱和用户主题的意图-语义槽联合识别系统，通过特征提取模块提取输入的文本信息的语义信息、词语之间的关系以及局部信息，并输出文本信息的特征信息向量；外部向量生成模块提取输入的文本信息的主题，并利用先验知识图谱库查询与主题相关的多条知识，将主题和其相关的多条知识进行Bert编码生成外部信息向量；特征融合模块利用注意力机制将特征信息向量和外部信息向量进行融合得到融合特征向量；特征分类模块利用softmax对融合特征向量进行识别分类得到文本信息的意图，利用crf算法对融合特征向量进行序列标注得到文本信息的语义槽向量。通过融入主题生成模块、知识推理模块和特征融合模块能够提高智能对话系统中语义识别的准确率，提高对输入的文本信息的意图、语义的识别准确度。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的基于知识图谱和用户主题的意图-语义槽联合识别系统原理框图；

图2示出根据本公开另一实施例的特征提取模块的原理框图；

图3示出根据本公开另一实施例的外部向量生成模块的原理框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

在自然语言理解部分，首先通过特征提取，提取文本的语义特征，然后通过主题生成模块和知识推理模块生成外部信息向量，通过特征融合模块融合提取的语义特征和外部知识向量，然后通过分类器进行特征分类。

本公开可以使用Twitter-LDA主题模型实现主题生成，Bert-BiLstm-Cnn实现特征提取，用Attention模块实现特征融合，用CRF和SoftMax实现特征分类，下面对这几个部分进行具体说明。

图1示出根据本公开一实施例的基于知识图谱和用户主题的意图-语义槽联合识别系统原理框图。

如图1所示，该意图-语义槽联合识别系统可以包括：特征提取模块、外部向量生成模块、特征融合模块和特征分类模块。

其中，特征提取模块，用于提取输入的文本信息的语义信息、词语之间的关系以及局部信息，并输出文本信息的特征信息向量。

图2示出根据本公开另一实施例的特征提取模块的原理框图。

在一示例中，如图2所示，特征提取模块可以包括：Bert模型、Bi-Lstm模型和和Text-Cnn模型；Bert模型可以用于提取输入的文本信息的语义信息；Bi-Lstm模型可以用于提取语义信息内的词语之间的关系信息；Text-Cnn模型可以用于提取语义信息内的局部信息，并输出文本信息的特征信息向量。

其中，Bert模型是一个双向的NLP预训练模型，用于将输入的文本信息编码成输入向量，通过多层的Transformer形成句向量，得到所述文本信息的语义信息。

例如，Bert模型是一个大型NLP预训练模型，可以通过海量文本信息学习到大量文本中丰富的语义信息，可以初步提取文本特征。Bert模型的基本结构可以由多层Transformer的Encoder组成，因Encoder是双向的，则Bert模型也是一个双向模型，Bert模型可以先将文本信息编码成输入向量，然后通过多层的Trans-former形成句向量。

其中，输入向量由词向量TokenVec，分割向量SegmentVec是，位置向量PositionVec这三个部分构成，具体为：

Input＝TokenVec+SegmentVec+PositionVec式(1)，

式中，TokenVec是普通的词向量；SegmentVec是分割向量，用于在预训练的时候和做多个句子的相关任务时区分两个句子；PositionVec是位置向量，用于编码句子中每个词语在句子中的位置。

Bi-Lstm模型可以是一个双向的LSTM模型，包括输入门、遗忘门和输出们三个门结构，从正向和反向提取语义信息内的词语之间的关系信息。

例如，Bi-Lstm模型是一个双向LSTM模型，可以从正向和反向同时提取句子间各个词语的关系信息。LSTM模型是一个循环神经网络模型，包括输入门，遗忘门和输出门三个门结构，使其避开传统循环神经网络模型难以记住长期信息的缺点。Bi-Lstm模型在t时刻的输出如下：

f_t＝σ(w_f*[h_t-1,x_t]+b_f) (2)，

i_t＝σ(w_i*[h_t-1,x_t]+b_i) (3)，

g_t＝tanh(w_g*[h_t-1,x_t]+b_g) (4)，

o_t＝σ(w_o*[h_t-1,x_t]+b_o) (5)，

c_t＝g_t*i_t+c_t-1*f_t (6)，

h_t＝o_t*c_t (7)，

其中，f_t是遗忘门，i_t是更新门，o_t是输出门，c_t代表细胞状态，h_t代表输出，g_t是一个临时变量，w和b代表三个门的权重和偏置，Bi-Lstm模型通过三个门来决定有多少以往的内容要被遗忘，有多少本次输入被记住，有多少本次的内容要输出，从而解决了NLP预训练模型中长期依赖问题。

Text-Cnn模型可以是个一维CNN模型，Text-Cnn模型的卷积核宽度和句向量长度相同，利用不同卷积核在所述句向量上进行卷积(相当于每次观察不同数量的局部单词进行提取局部特征)，然后将不通卷积核得到的一维向量进行池化，拼接得到所述文本信息的特征信息向量。

外部向量生成模块，用于提取输入的文本信息的主题，并利用先验知识图谱库查询与主题相关的多条知识，将主题和其相关的多条知识进行Bert编码生成外部信息向量。

图3示出根据本公开一实施例的外部向量生成模块的原理框图。

在一示例中，如图3所示，外部向量生成特征可以包括：主题生成模块、知识推理模块和Bert编码模块；其中，主题生成模块可以用于提取输入的文本信息的主题，输出主题到知识推理模块；知识推理模块可以用于利用先验知识图谱库查询与主题相关的多条知识；Bert编码模块可以用于将主题和主题相关的多条知识进行Bert编码生成外部信息向量。

主题生成模型可以是一种从文本信息中自动提取出主题分布和主题对应的词语分布的方法。由于本系统包含多个短文本信息，主题生成模型可以为Twitter-LDA模型，Twitter-LDA模型与LDA模型相比，将一条短文本看成只包含一个主题，并且加入了一个背景主题变量来抑制噪声。

知识推理模块可以利用知识图谱进行推理，其中，知识图谱是一种包含两种实体以及其两者之间关系的三元组，是一种结构化的先验知识。例如，在外部向量生成特征部分，首先通过主题生成模块生成概率最高的5个主题，然后将这5个主题通过知识图谱库查询与其相关的10条知识，再将5个主题以及10条知识通过Bert编码后变成向量，即为外部信息向量。

特征融合模块，利用注意力机制将特征信息向量和外部信息向量进行融合得到融合特征向量。

其中，注意力(Attention)机制是一种模仿人在观察事物时候的机制，其会给其视野内不同的内容赋予不同的权重，模仿人类在观察到某一事物的时候会将视角聚焦在某一部分这一过程。

注意力机制首先从人类直觉中得到，在NLP预训练领域的机器翻译任务上取得不错的效果。深度学习中的注意力可以广义地解释为重要性权重的向量，即为了预测一个元素，例如句子中的单词，使用注意力机制向量来计它与其他元素的相关程度的强弱，并将其值的总和作为目标的近似值。

注意力机制来使外部信息向量和特征信息向量进行融合，如式(8)、(9)所示:

m＝Attention(Q,K,V)+Q (9)；

其中，Q为特征信息向量，K和V为外部信息向量，

为固定系数，m为融合特征向量。可以通过计算外部信息向量和特征信息向量的乘机得到与每个融合特征向量的相似度，然后，通过softmax得到每个外部信息向量的权重，然后再得到外部信息向量的加权和即为Attention向量，然后将Attention向量和特征信息向量加和即为最终的融合特征向量。

特征分类模块，利用softmax对融合特征向量进行识别分类得到文本信息的意图，利用CRF算法对融合特征向量进行序列标注得到文本信息的语义槽向量。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于知识图谱和用户主题的意图-语义槽联合识别系统，其特征在于，所述系统包括：特征提取模块、外部向量生成模块、特征融合模块和特征分类模块；

所述特征融合模块，利用注意力机制将所述特征信息向量和所述外部信息向量进行融合得到融合特征向量，利用注意力机制将所述特征信息向量和所述外部信息向量进行融合的公式为：

，

，

其中，Q为特征信息向量，K和V指的是外部信息向量，

是固定系数，m是融合特征向量；

2.根据权利要求1所述的意图-语义槽联合识别系统，其特征在于，所述外部向量生成特征包括：主题生成模块、知识推理模块和Bert编码模块；

3.根据权利要求1所述的意图-语义槽联合识别系统，其特征在于，所述特征提取模块，包括：Bert模型、Bi-Lstm模型和Text-Cnn模型；

所述Bert模型，用于提取输入的文本信息的语义信息；

4.根据权利要求2所述的意图-语义槽联合识别系统，其特征在于，所述主题生成模块，还用于提取输入的文本信息的主题对应的词语。

5.根据权利要求3所述的意图-语义槽联合识别系统，其特征在于，所述Bert模型是一个双向的NLP预训练模型，用于将输入的文本信息编码成输入向量，通过多层的Transformer形成句向量，得到所述文本信息的语义信息。

6.根据权利要求5所述的意图-语义槽联合识别系统，其特征在于，所述输入向量为：

，其中，TokenVec是普通的词向量，SegmentVec是分割向量，PositionVec是位置向量。

7.根据权利要求5所述的意图-语义槽联合识别系统，其特征在于，所述Bi-Lstm模型是一个双向的LSTM模型，包括输入门、遗忘门和输出们三个门结构，从正向和反向提取语义信息内的词语之间的关系信息。

8.根据权利要求6所述的意图-语义槽联合识别系统，其特征在于，所述Text-Cnn模型是一个一维CNN模型，卷积核宽度和所述句向量长度相同，利用不同卷积核在所述句向量上进行卷积，然后将不通卷积核得到的一维向量进行池化，拼接得到所述文本信息的特征信息向量。