CN112765989A

CN112765989A - 基于表示分类网络的变长文本语义识别方法

Info

Publication number: CN112765989A
Application number: CN202011288770.2A
Authority: CN
Inventors: 郭潇阳; 李琪; 巩天啸; 朱敏
Original assignee: China Academy of Information and Communications Technology CAICT
Current assignee: China Academy of Information and Communications Technology CAICT
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-05-07
Anticipated expiration: 2040-11-17
Also published as: CN112765989B

Abstract

本发明公开了一种基于表示分类网络的变长文本语义识别方法，该方法包括：数据采集，将语料库中的文本进行分词处理，并标定语义类别；建立表示分类网络；训练表示分类网络；输入新文本数据；输入表示网络；输出文本语义分类。通过该方法，达到了：对于一段新文本，算法无需人工进行特征工程训练，只需文本向量就可以得到其文本语义标签，节约了人力；算法可以学到语义表达空间的模式，对文本预处理如分词、标定工作要求低；新增语义类别无需重新训练。

Description

基于表示分类网络的变长文本语义识别方法

技术领域

本发明涉及自然语言处理技术领域，具体来说，涉及一种基于表示分类网络的变长文本语义识别方法。

背景技术

1.词的量化表示

Word2Vec模型

受Bengio提出的NNLM（Neural Netowrk Language Model）启发，Mikolov等提出了Word2Vec模型。它与NNLM的区别在于NNLM是一个语言模型，词向量只是“副产品”，而Word2Vec模型就是用于获取词向量的词嵌入模型。

Word2Vec主要有CBOW和Skip-gram两种模型，其中CBOW模型利用词W_t的前后各C个词来预测当前词，如图2（a）所示；Skip-gram模型是利用W_t预测其前后各C个词，如图2（b）所示。

在CBOW模型中，输入层是词W_t的前后2_C个one-hot词向量，投影层将这2_C个词向量累加求和，输出层是一颗以训练数据中所有的词作为叶子节点，以各词在数据中出现的次数作为权重的Huffman树。最后应用随机梯度上升法预测投影层的结果作为输出。Skip-gram模型类似。当获得所有词的词向量后，可发现类似这样的规律；“king”-“man”+“woman”=“queen”，可见词向量有效表达了词语的语义信息。

2.神经网络

神经网络是一种基于人类思维模式的真实神经元系统建模，在解决不同科学学科和图像处理、主题识别、控制系统、机器人等领域的问题中有很多应用。这些网络的应用范围很广，包括分类、插值近似、检测等，具有易于应用的能力优势。神经网络计算的基础是人类大脑特征在某种意义上的建模，其灵感将导致尝试根据可观察数据制定输入和输出变量之间的关系。神经网络的一般模式包括：1）确定神经元的元素中的过程；2）通过它们的互连进行数据交互；3）这些连接中的一个具有加权到从神经元传递到另一个的数据中的权重，权重是解决问题的必要数据；4）每个神经元对其输入强加一个激活函数来计算输出。神经网络的分类如图3所示。

现有方法主要通过词向量转换的方法将文本分词转化成词向量，再通过加权平均法计算文本向量，最后通过训练神经网络对文本向量进行分类。因此存在以下缺点：

（1）方法需要人工对每段文字进行大量特征提取，分时费力；

（2）特征提取只能得到离散结果，可以无限接近文本语义，但无法得到明确表达或连续表达形式，当需要分析离散点以外的信息时只能插值替代，存在较大误差；

（3）采用特征提取的方法无法解决本质问题，即新文本的语义识别问题。

发明内容

针对相关技术中的上述技术问题，本发明提出一种基于表示分类网络的变长文本语义识别方法，能够克服现有技术的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

一种基于表示分类网络的变长文本语义识别方法，该方法包括：

S1：数据采集，将语料库中的文本进行分词处理，并标定语义类别；

S2：建立表示分类网络，其中，分类网络输入的为文本向量，输出的为语义标签；

S3：训练表示分类网络；

所述步骤S3包括：

S31：每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络；

S32：利用语料库数据训练表示分类网络，其中，每有一个语义类别必须重复2000轮；

S4：输入新文本数据，其中，利用新类别文本预料的分词向量和语义类别输入给表示分类网络，每次随机抽取5组，重复2000次；

S5：输入表示网络，其中，输入前，必须将一段文字分词并转换成词向量；

S6：输出文本语义分类。

2. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S1中，训练模型的语料库为相同语义类别的2000段文字。

3. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S2中，所述分类网络利用隐变量，输入一组新的文本向量用于测试，用生成的标签概率与真实值对比。

4. 根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S2中，通过拉近两者的ELBO散度来优化目标函数。

5. 根据权利要求3所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述隐变量通过卷积和反卷积运算得到。

6. 根据权利要求1或3或所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述分类网络中参与循环的是表示网络输出的所述隐变量。

进一步的，所述网络输出预测语义类别。

本发明的有益效果：通过该方法，达到了：

1）对于一段新文本，算法无需人工进行特征工程训练，只需文本向量就可以得到其文本语义标签，节约了人力；

2）算法可以学到语义表达空间的模式，对文本预处理如分词、标定工作要求低；

3）新增语义类别无需重新训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于表示分类网络的变长文本语义识别方法的流程框图；

图2是Word2Vec模型图；

图3是神经网络分类图；

图4是表示分类网络的整体架构图；

图5是表示网络结构图；

图6是分类网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1、4、5、6所示，根据本发明实施例所述的基于表示分类网络的变长文本语义识别方法，包括：

S3：训练表示分类网络；

所述步骤S3包括：

S6：输出文本语义分类。

在本发明的一个具体实施例中，所述步骤S1中，训练模型的语料库为相同语义类别的2000段文字。

在本发明的一个具体实施例中，所述步骤S2中，所述分类网络利用隐变量，输入一组新的文本向量用于测试，用生成的标签概率与真实值对比。

在本发明的一个具体实施例中，所述步骤S2中，通过拉近两者的ELBO散度来优化目标函数。

在本发明的一个具体实施例中，所述隐变量通过卷积和反卷积运算得到。

在本发明的一个具体实施例中，所述分类网络中参与循环的是表示网络输出的所述隐变量。

在本发明的一个具体实施例中，所述网络输出预测语义类别。

为了方便理解本发明的上述技术方案，以下对本发明的上述技术方案进行详细说明。

1.数据采集

训练模型的语料库为相同语义类别的2000段文字，将语料库中的文本进行分词处理，并标定语义类别。

2.建立表示分类网络

表示分类网络的整体架构图，如图4所示。

模型包括表示网络和分类网络，左边的表示网络的目的在于利用数据集学习同类文本语义表达的模式，每次输入的是文本向量及对应的语义标签，输出是一个隐变量，也就是文本语义表达的模式。右边的分类网络则利用这一表达模式，输入新的文本向量，输出语义标签。

对于网络的训练过程需要的数据集是2000个文本的标定数据，每轮训练随机抽取同类文本的五组标定数据作为输入，表示网络由此生成一个隐变量，也就是文本的表达方式，分类网络利用这一隐变量，输入一组新的文本向量用于测试，用生成的标签概率与真实值对比。算法假设预测值与真实值都服从一定的分布，通过拉近两者的ELBO散度来优化目标函数。经过多轮训练后，网络学到了同类文本的转化模式，也就是共通性。对于一类新文本，只需2000组标定数据进行增量训练，就可以得到表示它转化方式的隐变量，也就是该标签的特殊性，进而可以利用分类网络生成文本标签。

表示网络结构及参数，如图5所示。

表示网络的输入为文本向量和对应的语义标签。通过一系列的卷积和反卷积运算得到一个隐变量r，也就是一类文本表达方式的表示。

分类网络的结构和参数，如图6所示。

分类网络利用一个LSTM，输入的是一个文本向量，网络中参与循环的是表示网络输出的隐变量，网络输出预测到的语义类别。

3.训练表示分类网络——确定共通性

每轮训练随机从一类文本中抽取5组文本向量及对应分类输入表示分类网络，利用语料库数据训练表示分类网络，每有一个语义类别需要重复2000轮。

4.输入新文本数据——确定特殊性

利用新类别文本预料的分词向量和语义类别输入给表示分类网络，每次随机抽取5组，重复2000次。

应用过程：

1.输入

调用算法时，将一段文字分词并转换成词向量，输入表示网络。

2.输出

最终输出文本语义分类。

综上所述，借助于本发明的上述技术方案，通过该方法，达到了：对于一段新文本，算法无需人工进行特征工程训练，只需文本向量就可以得到其文本语义标签，节约了人力；算法可以学到语义表达空间的模式，对文本预处理如分词、标定工作要求低；新增语义类别无需重新训练。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于表示分类网络的变长文本语义识别方法，其特征在于，包括：

S3：训练表示分类网络；

所述步骤S3包括：

S6：输出文本语义分类。

2.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S1中，训练模型的语料库为相同语义类别的2000段文字。

3.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S2中，所述分类网络利用隐变量，输入一组新的文本向量用于测试，用生成的标签概率与真实值对比。

4.根据权利要求1所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述步骤S2中，通过拉近两者的ELBO散度来优化目标函数。

5.根据权利要求3所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述隐变量通过卷积和反卷积运算得到。

6.根据权利要求1或3或所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述分类网络中参与循环的是表示网络输出的所述隐变量。

7.根据权利要求6所述的基于表示分类网络的变长文本语义识别方法，其特征在于，所述网络输出预测语义类别。