CN113553844A

CN113553844A - 一种基于前缀树特征与卷积神经网络的领域识别方法

Info

Publication number: CN113553844A
Application number: CN202110917561.8A
Authority: CN
Inventors: 刘光毅
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-10-26
Anticipated expiration: 2041-08-11
Also published as: CN113553844B

Abstract

本发明涉及自然语言处理领域，公开了一种基于前缀树特征与卷积神经网络的领域识别方法，用以解决目前模型获取特征准确率不高，以及技术领域识别准确率不高的问题。本发明从用户请求、训练数据、测试数据中获取每一个分类中的明显领域特征的名词并以类为名字存为特征文本，以特征文本生成前缀树，输入请求文本后计算的出各领域权重矩阵作为前缀树特征，将前缀树获取特征与卷积特征图结合，输入卷积神经网络进行进一步计算，弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况，使模型对输入特征的判断更准确，提高模型预测的精确度。本发明适用于领域识别。

Description

一种基于前缀树特征与卷积神经网络的领域识别方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于前缀树特征与卷积神经网络的领域识别方法。

背景技术

意图识别是自然语言处理中的一个方向，常用的方法有：基于词典模板的规则分类、基于过往日志匹配(适用于搜索引擎)、基于分类模型进行意图识别。这三种方式基本上是目前比较主流的方法。基于词典的模板规则匹配通用性有限，当请求文本发生变化时(无法预测用户请求的说法)，容易出现识别失误的情况。基于日志匹配的方法不适用于电视上语音交互系统。分类模型的方法难点主要是两点，一点是数据来源的匮乏，因为方法已经比较固定，基本都是有监督学习，需要很多的标记数据。第二点是尽管是分类工作，但是意图识别分类种类很多，并且要求的准确性，拓展性都不是之前的分类可比的，这一点也是很困难的。

目前有专门针对文本分类的文本卷积神经网络(textCNN)模型，在一般的中文文本上的分类表现情况很不错，但是依然存在获取特征准确率不高，以及技术领域识别准确率不高的问题。因为卷积神经网络模型在训练过程中，需要的训练集应该在各个领域的数据量尽可能的平衡，但是，第一，实际真实用户数据需要分为48个领域，其中VIDEO，TV,MUSIC等电视机常用领域的数据偏多，各个领域存在部分相似特征(如TV的“一键观影模式”和SMARTHOME的“观影模式”)；第二，在构建数据的时候，可能会将某一部作品多次用于构建数据(如“大话西游”)，则可能该作品名会被模型错误判断为特征，影响预测结果(如“大话西游”普遍存在VIDEO的数据中，请求“大话西游里的歌”时，容易预测到VIDEO分类，实际期望则为MUSIC)；第三，卷积神经网络在获取特征时，可能会漏掉部分关键特征信息。

发明内容

本发明要解决的技术问题是：提出一种基于前缀树特征与卷积神经网络的领域识别方法，用以解决目前模型获取特征准确率不高，以及技术领域识别准确率不高的问题。

为解决上述问题，本发明采用的技术方案是：利用提前构建的前缀树对请求文本进行特征分析，得到相应的前缀树特征；当卷积神经网络对请求文本进行领域预测时，先将其中的卷积特征与所述前缀树特征拼接之后，再将拼接后的特征输入到卷积神经网络的全连接层，得到相应的预测结果。

进一步的，本发明构建前缀树的步骤包括：

根据tf-idf统计方法，从已有的数据中，获取各领域高频关键词，高频关键词经过筛选后，将筛选后的词汇作为构件前缀树的基础数据；将基础数据中领域高频关键词的每个字作为树的一个节点，按照正常的阅读顺序生成父节点-子节点-孙子节点的前缀树。

进一步的，所述已有的数据包括用户日志数据、训练数据和测试数据。

进一步的，本发明利用前缀树对请求文本进行特征分析，得到前缀树特征的具体步骤包括：

将请求文本全分词后，在前缀树中进行查询匹配，根据匹配到的关键词字符长度与文本字符长度的比值作为其所属领域的权重，标准化到0-1之间后，对其归一化处理，转化为矩阵，作为前缀树特征矩阵。

本发明的有益效果如下：本发明利用前缀树模型，对卷积神经网络(textCNN)卷积之后得到的特征值进行修正，弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况，使模型对输入特征的判断更准确，提高模型预测的精确度。

附图说明

图1为基于前缀树特征与卷积神经网络的领域识别流程图。

具体实施方式

本发明针对目前模型获取特征准确率不高，同时现有技术领域识别准确率不高的问题，提出了一种基于前缀树特征与卷积神经网络(textCNN)的领域识别方法，从用户请求、训练数据、测试数据中获取每一个分类中的明显领域特征的名词并以类为名字存为特征文本，以特征文本生成前缀树，输入请求文本后计算的出各领域权重矩阵作为前缀树特征，将前缀树获取特征与卷积特征图结合，输入卷积神经网络进行进一步计算，弥补了卷积神经网络可能遗漏特征或者关注到错误特征的情况，使模型对输入特征的判断更准确，提高模型预测的精确度。

为了详细阐述本发明的原理，下面分步骤对本发明的方案进行说明。本发明的一种实施步骤如下：

1.分析各领域请求，通过tf-idf方法提取各领域关键词，作为特征文本。

本发明主要从用户请求、训练数据、测试数据中获取，分析各领域的请求文本，通过tf-idf方法，获取各个领域的关键词，并且通过人工筛选，提取每一个分类中的明显领域特征的名词并以类为名字存为特征文本，生成前缀树的数据。

2.以特征文本为基础，构建前缀树。

本步骤所构建的前缀树(前缀树也称Trie树或Trie，一种哈希树的变种)，树的父节点为各领域特征词，子节点为该特征词所在领域，如“我—想—听—MUSIC”，“我想听”是“MUSIC”领域的关键词，将其拆分为单字，“我”作为父节点，“想”是其子节点，依次推，最终的子节点便是该关键词所属领域“MUSIC”。

3.对请求文本特征分析，输出特征向量。

将请求文本全分词处理后得到全分词文本，将全分词文本输入前缀树，若无领域输出，则将特征向量设置为0向量(不影响本来特征)，若有领域输出，根据匹配到的关键词字符长度与文本字符长度的比值作为其所属领域的权重，标准化到0-1之间后，对其归一化处理，转化为矩阵，作为前缀树特征矩阵。

4.前缀树特征向量与卷积后的特征向量拼接融合。

将步骤2中获得的特征矩阵，与经过卷积池化层之后的特征矩阵(原卷积神经网络经过卷积后得到的特征图)融合，得到新的特征矩阵，该矩阵包含了前缀树获取的特征，可以用以修正模型获取的特征值，使其更加关注某些重要部分

5.融合后的特征向量输入全连接层，通过softmax，得到预测结果。

实施例

下面将结合附图和实施例更详细地描述本发明的示例性实施方式。如图1所示，实施例中前缀树算法以及整体算法流程如下：

S1.生成前缀树数据：

根据tf-idf统计方法，从已有的用户日志数据、训练数据、测试数据中，获取领域高频关键词，经过人工筛选后，将词汇作为前缀树的数据。

S2构建前缀树，获取文本特征：

特征词(即领域高频关键词)全分词后，按阅读顺序依次构成树的父节点-子节点-孙子节点等，最终的子节点为该特征词所属领域。同时，请求文本全分词，如“我想看电影”，分为[“我”，“想”，“看”，“电”，“影”]，依次到Trie中查找，得出各领域权重得分：W＝{ω₁,ω₂,ω₃…ω_n}，其中n为领域个数，

为某领域权重的分，l表示请求文本字符长度，l_i表示匹配到关键词的字符长度。

得到权重的分后，对其进行标准化处理，以权重表示该请求在某个领域的概率占比。

将概率占比转化为1*48向量，重复15次得到15*48的概率矩阵，后对概率矩阵归一化，得到前缀树特征矩阵:

S3.卷积特征融合：

请求文本转化为15*271的向量表示，卷积神经网络对句子单词每个可能的窗口做卷积操作得到特征图，将通过一维卷积与二维卷积的两个特征向量分别通过池化层，得到两个特征向量，将两个特征向量拼接获得新的特征向量，同时将上一步中获得的Trie特征向量维度处理后与其拼接，得到最终的文本特征向量。

S4.预测结果：

将上述步骤S3获得特征向量输入卷积神经网络的全连接层，再通过softmax等操作，得到最终预测结果。

实施例经验证，在相同训练数据的情况下，通过前缀树修正了特征，可以区分不同领域间的相似特征，在不增加训练数据的情况下，提升了这种拥有相似特征的领域的区分。具体实验结果如下(在相同的训练集与验证集下实验)：

1)、优化后的卷积神经网络算法，loss更低，融合特征前loss为0.232，融合特征后训练完成时loss为0.161；

2)优化后卷积神经网络算法训练完成的模型，在同样的验证集上的整体(包括精确率，召回率，F1值)表现更好。

Claims

1.一种基于前缀树特征与卷积神经网络的领域识别方法，其特征在于，利用提前构建的前缀树对请求文本进行特征分析，得到相应的前缀树特征；当卷积神经网络对请求文本进行领域预测时，将卷积特征与所述前缀树特征拼接之后，再将拼接后的特征输入到卷积神经网络的全连接层，得到相应的预测结果。

2.如权利要求1所述的一种基于前缀树特征与卷积神经网络的领域识别方法，其特征在于，构建前缀树的步骤包括：

根据tf-idf统计方法，从已有的数据中，获取领域高频关键词，经过筛选后，将筛选后的词汇作为前缀树的数据；将领域高频关键词的每个字作为树的一个节点，按照正常的阅读顺序生成父节点-子节点-孙子节点的前缀树。

3.如权利要求2所述的一种基于前缀树特征与卷积神经网络的领域识别方法，其特征在于，所述已有的数据包括用户日志数据、训练数据和测试数据。

4.如权利要求2所述的一种基于前缀树特征与卷积神经网络的领域识别方法，其特征在于，利用前缀树对请求文本进行特征分析得到前缀树特征的步骤包括：