CN112989839A

CN112989839A - 一种基于关键词特征嵌入语言模型的意图识别方法及系统

Info

Publication number: CN112989839A
Application number: CN201911309397.1A
Authority: CN
Inventors: 颜永红; 林格平; 付瑞柳; 万辛; 张学君; 孙旭东; 孙晓晨
Original assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Acoustics CAS; National Computer Network and Information Security Management Center
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2021-06-18

Abstract

本发明属于自然语言处理技术领域，具体涉及一种基于关键词特征嵌入语言模型的意图识别方法，包括：采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；针对获得的不同类别的分词结果，获得不同类别的分词结果对应的候选意图相关的关键词列表；剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词，获得每一种类别的分词结果对应的最终关键词表，进而获得不同的关键词特征向量；将获得的每一个关键词特征向量嵌入至预先训练好的语言模型，获得带有关键词特征的有效文本的语音信息；并对其进行编码和分类，获得该有效文本的语言信息的意图识别结果。

Description

一种基于关键词特征嵌入语言模型的意图识别方法及系统

技术领域

本发明属于自然语言处理和长文本意图识别技术领域，具体涉及一种基于关键词特征嵌入语言模型的意图识别方法及系统。

背景技术

意图识别技术是将长文本中隐含的说话人意图进行识别的重要技术，也是自然语言处理领域的一个重要研究内容。

传统的意图识别技术，采用关键词匹配以及使用词频、TFIDF(term frequency–inverse document frequency，词频逆文本频率指数)等统计信息和如支持向量机、混合高斯模型等传统机器学习模型结合的方法，这些方法都只是对潜在的语言统计数据进行了利用，而深层次的语义信息无法涉及，对于样本质量十分依赖，性能不理想。

深度学习技术发展以来，卷积神经网络、递归神经网络、transformer等先进的神经网络都用于编码更深层次的语义信息，并且在自然语言处理的各个领域均取得了不菲的成果，但是，这些方法都太依赖于训练数据，只专注于特定任务，而且会受数据集的影响，学习到数据集的其他特征而忽略任务核心语义信息，一旦数据集改变，性能会大打折扣。

发明内容

本发明的目的在于，为解决现有技术存在上述缺陷，本发明提出了一种基于关键词特征嵌入语言模型的意图识别方法及系统，基于在超大规模语料库上预先训练好的语言模型BERT，在挖掘更深层语义的同时，兼顾通用语义信息的挖掘能力，同时嵌入关键词特征的外部知识，引导系统关注更核心的语义。

为了实现上述目的，本发明提供了一种基于关键词特征嵌入语言模型的意图识别方法，其包括：

对待识别语料进行预处理，利用正则表达式提取待识别语料中的有效文本的语言信息；

采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；

针对获得的不同类别的分词结果，根据TFIDF算法，计算每一种类别的分词结果中的所有词的TFIDF值，获得不同类别的分词结果对应的候选意图相关的关键词列表；

通过类别交叉统计和去停用词，剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词，获得每一种类别的分词结果对应的最终关键词表；

根据最终的关键词列表，查找有效文本的语言信息中的每个关键词对应的位置信息，获得不同的关键词特征向量；

将获得的每一个关键词特征向量嵌入至预先训练好的语言模型，获得带有关键词特征的有效文本的语音信息；

对获得的带有关键词特征的有效文本的语音信息进行编码和分类，获得该有效文本的语言信息的意图识别结果。

作为上述技术方案的改进之一，所述对待识别语料进行预处理，利用正则表达式提取待识别语料中的有效文本的语言信息；具体为：

调整编码格式，将纷杂的文本文件的中文编码统一转为utf-8格式；去除非法字符，利用正则表达式，对待识别语料，去除汉字、英文单词、数字、常用标点符号之外的不合法字符；再将去除后的待识别语料进行数字转化，将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法；再进行标点符号转换，将转换后的待识别语料中的半角字符统一转化为对应的全角字符；再进行标签规范，利用规则匹配的方法，纠正文本意图标签中的拼写错误；文件大小筛选，删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件，进而提取删除后的待识别语料中的有效文本的语言信息。

作为上述技术方案的改进之一，所述采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；具体为：

采用前后向最大分词算法，分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配，获得在正向和逆向的不同长度片段的有效文本语言信息，将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果，最后利用正向最大匹配法，根据正向最大长度片段的有效文本语言信息，获得正向分词结果；利用逆向最大匹配法，根据逆向最大长度片段的有效文本语言信息，获得逆向分词结果；

比较正向分词结果和逆向分词结果，如果正向分词结果和逆向分词结果相同，则采用该分词结果；如果正向分词结果和逆向分词结果不同，则利用该预先训练的语言模型，选取两个分词结果之中句子困惑度最小的，从而决定最终正确的分词结果。

作为上述技术方案的改进之一，所述针对获得的不同类别的分词结果，根据TFIDF算法，计算每一种类别的分词结果中的所有词的TFIDF值，获得不同类别的分词结果对应的候选意图相关的关键词列表；具体为：

根据公式(1)，计算每个类别的分词结果中的每一个词汇的TF-IDF值：

TFIDF(x,j)＝TF(x,j)*IDF(x) (1)

其中，TF(x,j)为单个词汇x在第j类别中出现的频率；

IDF(x)为逆向文件频率，代表单个词汇x在类别中的独特代表性，

其中，d_x是包含单个词汇x的类别数，D是类别总数；

最终选择每个类别中TFIDF值最大的100个词汇作为候选意图相关的关键词列表。

作为上述技术方案的改进之一，所述通过类别交叉统计和去停用词，剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词，获得每一种类别的分词结果对应的最终关键词表；具体为：

人工去除领域无关干扰词，获得去除后的关键词列表；

采用去停用词的方法，剔除去除后的关键词列表中的高频常见词，获得剔除后的关键词列表；

剔除后的关键词列表中还包含一些相似类别之间的共同高频词，通过对不同类别间关键词进行交叉统计，剔除共同高频词，获得关键词列表；

获得的关键词列表中的关键词按照TFIDF值的大小，从每个类别中选择TFIDF值最大的50个关键词作为最终的关键词列表。

作为上述技术方案的改进之一，所述根据最终的关键词列表，查找有效文本的语言信息中的每个关键词对应的位置信息，获得不同的关键词特征向量；具体为：

对有效文本的语言信息中的每个关键词，查找最终的关键词列表中是否有该关键词对应的位置信息；

如果查找到最终的关键词列表中有该关键词对应的位置信息，则获得该关键词对应的关键词特征向量，并记录其长度为768；

如果没有查找到最终的关键词列表中有该关键词对应的位置信息，则得到长度为768的零矢量。

作为上述技术方案的改进之一，所述语言模型包括：embedding模块和编码模块；

所述embedding模块，用于将获得的带有关键词特征的有效文本的语音信息的预训练embedding与对应的关键词特征向量相加，获得相加后的语音信息；

所述编码模块，用于将获得的相加后的语音信息进行编码，获得最终的意图识别编码。

作为上述技术方案的改进之一，所述对获得的带有关键词特征的有效文本的语音信息进行编码和分类，获得该有效文本的语言信息的意图识别结果；具体为：

将获得的相加后的语音信息输入至意图识别编码网络进行编码；该意图识别编码网络采用一个一层的随机初始化的transformer网络，其中，输入向量首先被通过一个12头的多头注意力机制网络，获得的输出向量再通过一个残差网络和归一化模块，再经过一个前馈神经网络，最后再通过一个残差网络和归一化模块，获得最终的意图识别编码；

该最终的意图识别编码再经过一个全连接层加softmax层构成的分类器，得到每个类别的预测概率，选取最大似然概率的类别作为最终的意图识别结果。

本发明还提供了一种基于关键词特征嵌入语言模型的意图识别系统，该系统通过上述方法实现，其包括：

提取模块，用于对待识别语料进行预处理，利用正则表达式提取待识别语料中的有效文本的语言信息；

分词模块，用于采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；

关键词获取模块，用于针对获得的不同类别的分词结果，根据TFIDF算法，计算每一种类别的分词结果中的所有词的TFIDF值，获得不同类别的分词结果对应的候选意图相关的关键词列表；

剔除不相关词模块，用于通过类别交叉统计和去停用词，剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频词和领域无关词，获得每一种类别的分词结果对应的最终关键词表；

关键词特征向量获取模块，用于根据最终的关键词列表，查找有效文本的语言信息中的每个关键词对应的位置信息，获得不同的关键词特征向量；

获取模块，用于将获得的每一个关键词特征向量嵌入至预先训练好的语言模型，获得带有关键词特征的有效文本的语音信息；和

意图识别模块，用于对获得的带有关键词特征的有效文本的语音信息进行编码和分类，获得该有效文本的语言信息的意图识别结果。

本发明还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述方法。

本发明与现有技术相比的有益效果是：

本发明的方法通过先进的预先训练好的语言模型来提取更深层次的语义信息作为带有关键词特征的有效文本的语义信息，通过transformer编码器利用多头自注意力机制对特定意图的关键信息进行语义的编码匹配，通过嵌入不同类别的关键词特征向量到预先训练好的语言模型中，进行有效意图识别。

附图说明

图1为本发明的一种基于关键词特征嵌入预先训练好的语言模型的意图识别方法的流程图。

具体实施方式

现结合附图对本发明作进一步的描述。

如图1所示，本发明提供了一种基于关键词特征嵌入语言模型的意图识别方法，克服传统意图识别方法中存在的无法挖掘深层次语义信息、受数据集限制、无法学习到任务通用的语义等技术问题，通过引入了在超大规模语料库上预训练的语言模型BERT，同时嵌入关键词特征的外部知识，对目标文本进行更为准确的意图识别，获得文本意图识别结果。

该方法包括：

具体地，调整编码格式，将纷杂的文本文件中文编码统一转为utf-8格式；去除非法字符，利用正则表达式，对待识别语料，去除汉字、英文单词、数字、常用标点符号之外的不合法字符；再将去除后的待识别语料进行数字转化，将数字转化后的待识别语料中所有阿拉伯数字统一转换为简体中文规范写法；再进行标点符号转换，将转换后的待识别语料中的半角字符统一转化为对应的全角字符；再进行标签规范，利用规则匹配的方法，纠正文本意图标签中的拼写错误；文件大小筛选，删去转化后的待识别语料中的空白文件以及三行以内无信息的噪声文件，进而提取删除后的待识别语料中的有效文本的语言信息。

具体地，采用前后向最大分词算法，分别从正向和逆向两个方向对提取的有效文本的语言信息中的片段在预先构建的分词词典中进行匹配，获得在正向和逆向的不同长度片段的有效文本语言信息，将匹配到的正向和逆向的最大长度片段的有效文本语言信息作为各自的匹配结果，最后利用正向最大匹配法，根据正向最大长度片段的有效文本语言信息，获得正向分词结果；利用逆向最大匹配法，根据逆向最大长度片段的有效文本语言信息，获得逆向分词结果；

具体地，根据公式(1)，计算每个类别的分词结果中的每一个词汇的TF-IDF值：

TFIDF(x,j)＝TF(x,j)*IDF(x) (1)

其中，TF-IDF值是用来评估一个词汇对于一个文件集或一个语料库中的其中一个类别的数据的重要程度

TF(x,j)为单个词汇x在第j类别中出现的频率；

其中，d_x是包含单个词汇x的类别数，D是类别总数；

每个词汇对应的TFIDF值越大，则说明该TFIDF值是该词汇所对应的类别的关键特征。

通过类别交叉统计和去停用词，剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词，获得每一种类别的分词结果对应的最终关键词表；

具体地，在候选意图相关的关键词列表中的关键词依旧包含很多领域无关干扰词，例如专属的人名、地名、机构名、特殊的数字等等，人工去除领域无关干扰词，获得去除后的关键词列表；

采用去停用词的方法，剔除去除后的关键词列表中的高频常见词，例如的、你好等，获得剔除后的关键词列表；

具体地，对效文本的语言信息中的每个关键词，查找最终的关键词列表中是否有该关键词对应的位置信息；

如果查找到最终的关键词列表中有该关键词对应的位置信息，则获得该关键词对应的关键词特征向量，即该关键词对应的所属类别的one-hot编码向量，并记录其长度为768；

具体地，所述语言模型包括：embedding模块和编码模块；

将获得的相加后的语音信息输入至12层的意图识别编码网络进行编码；该意图识别编码网络采用一个一层的随机初始化的transformer网络，其中，输入向量首先被通过一个12头的多头注意力机制网络，获得的输出向量再通过一个残差网络和归一化模块，再经过一个前馈神经网络，最后再通过一个残差网络和归一化模块，获得最终的意图识别编码；

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于关键词特征嵌入语言模型的意图识别方法，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待识别语料进行预处理，利用正则表达式提取待识别语料中的有效文本的语言信息；具体为：

3.根据权利要求1所述的方法，其特征在于，所述采用前后向最大分词算法，对提取的有效文本的语言信息进行分词，获得不同类别的分词结果；具体为：

4.根据权利要求1所述的方法，其特征在于，所述针对获得的不同类别的分词结果，根据TFIDF算法，计算每一种类别的分词结果中的所有词的TFIDF值，获得不同类别的分词结果对应的候选意图相关的关键词列表；具体为：

TFIDF(x,j)＝TF(x,j)*IDF(x) (1)

其中，TF(x,j)为单个词汇x在第j类别中出现的频率；

其中，d_x是包含单个词汇x的类别数，D是类别总数；

5.根据权利要求1所述的方法，其特征在于，所述通过类别交叉统计和去停用词，剔除每一种类别的分词结果对应的候选意图相关的关键词列表中的通用高频常见词、共同高频词和领域无关干扰词，获得每一种类别的分词结果对应的最终关键词表；具体为：

人工去除领域无关干扰词，获得去除后的关键词列表；

6.根据权利要求1所述的方法，其特征在于，所述根据最终的关键词列表，查找有效文本的语言信息中的每个关键词对应的位置信息，获得不同的关键词特征向量；具体为：

7.根据权利要求1所述的方法，其特征在于，所述语言模型包括：embedding模块和编码模块；

8.根据权利要求7所述的方法，其特征在于，所述对获得的带有关键词特征的有效文本的语音信息进行编码和分类，获得该有效文本的语言信息的意图识别结果；具体为：

9.一种基于关键词特征嵌入语言模型的意图识别系统，其特征在于，其包括：

10.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1-7中任一所述的方法。