CN112328791A

CN112328791A - 一种基于DiTextCNN的中文政务信息的文本分类方法

Info

Publication number: CN112328791A
Application number: CN202011238122.6A
Authority: CN
Inventors: 吴颖; 王琳; 孙润元
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-05

Abstract

本发明公开了一种基于DiTextCNN的中文政务信息的文本分类方法，该方法包括以下步骤：步骤1：使用中文分词工具将政务数据标题文本信息切分成若干个中文单词；步骤2：将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理，得到文本信息中的各个中文单词的词向量表示；步骤3：将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算，提取局部关键词特征。本发明构思巧妙，DiTextCNN模型的全连接层有两种特征输入，一种是政务数据标题经过卷积层提取的局部关键词特征，另一种是政务数据的来源部门编码得到的one‑hot向量，两种特征拼接得到更加丰富的特征，从而更好地对政务信息进行分类，提升分类精度。

Description

一种基于DiTextCNN的中文政务信息的文本分类方法

技术领域

本发明涉及文本分类技术领域，具体为一种基于DiTextCNN的中文政务信息的文本分类方法。

背景技术

政务信息对企业起着生死攸关的作用，企业需要时刻了解政府的各项规章制度和招标信息，抓住重要机遇，实现企业的繁荣发展。国内有很多提供招标信息的服务公司，但政务信息不仅包括招标信息，还包括经济和税收政策、行业管理办法、创新创业、产业基地建设、示范项目、招标中标、人才引进等，这些对企业来说同样至关重要。因此，对国内政务信息实行分类，从中筛选出对企业有利的信息，能够帮助企业及时了解政府发布的动态，进而调整经营战略，实现企业的长远发展。

政务信息具有时效性和长期性，假如采用人工的方法对政务信息分类，将十分耗时耗力，不仅增加人力成本，还可能导致企业无法及时获取有效信息，对政府的政策变化来不及做出反应。因此，设计一种基于DiTextCNN的中文政务信息的文本分类方法是很有必要的。

发明内容

针对上述情况，为克服现有技术的缺陷，本发明提供一种基于DiTextCNN的中文政务信息的文本分类方法，该文本分类方法，构思巧妙，DiTextCNN模型的全连接层有两种特征输入，一种是政务数据标题经过卷积层提取的局部关键词特征，另一种是政务数据的来源部门编码得到的one-hot 向量，两种特征拼接得到更加丰富的特征，从而更好地对政务信息进行分类，提升分类精度。

为实现上述目的，本发明提供如下技术方案：一种基于DiTextCNN的中文政务信息的文本分类方法，该方法包括以下步骤：

步骤1：使用中文分词工具将政务数据标题文本信息切分成若干个中文单词；

步骤2：将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理，得到文本信息中的各个中文单词的词向量表示；

步骤3：将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算，提取局部关键词特征；

步骤4：将政务数据的来源部门编码得到one-hot 向量；

步骤5：将文本信息的局部关键词特征和one-hot 向量拼接成更丰富的特征，输入DiTextCNN模型的输出层，得到文本分类结果。

优选的，所述中文分词工具包括：Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。

优选的，所述预训练语言模型包括：Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。

优选的，所述步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为：

令x_i∈R^k为与句子中第i个单词相对应的k维词向量，长度为n的句子表示为：

X_1：n=X₁⊕X₂⊕…⊕X_n

其中⊕是拼接操作，W∈R^hk表示与h个单词的窗口相对应的过滤器，利用它通过卷积运算产生一个新特征，

C_i=ƒ(W•X_n-h+1+b)

其中f是非线性函数，•表示矩阵乘法，过滤器在句子上滑动生成一个特征图c，

c=[c₁, c₂,…c_n-h+1]。

优选的，所述DiTextCNN模型的输出层的激活函数为sigmoid函数。

优选的，所述sigmoid函数的描述公式为：

x的取值范围为(0,1)。

优选的，所述池化计算包括：使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。

优选的，所述DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合，包括L2 regularization，dropout，batchnormalization。

优选的，所述DiTextCNN模型还包括交叉熵损失函数和Adam优化器。

本发明的有益效果为：

1、DiTextCNN模型的全连接层有两种特征输入，一种是政务数据标题经过卷积层提取的局部关键词特征，另一种是政务数据的来源部门编码得到的one-hot 向量，两种特征拼接得到更加丰富的特征，从而更好地对政务信息进行分类，提升分类精度；

2、通过中文分词工具Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个，通过预训练语言模型Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个和TextCNN文本分类算法实现政务信息的分类，方便企业查找信息。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明DiTextCNN模型的结构示意图；

图2是本发明DiTextCNN模型主要参数的参考值。

具体实施方式

下面结合附图1-2对本发明的具体实施方式做进一步详细说明。

由图1给出，本发明提供如下技术方案：一种基于DiTextCNN的中文政务信息的文本分类方法，该方法包括以下步骤：

步骤4：将政务数据的来源部门编码得到one-hot 向量；

优选的，中文分词工具包括：Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。

优选的，预训练语言模型包括：Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。

优选的，步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为：

X_1：n=X₁⊕X₂⊕…⊕X_n

C_i=ƒ(W•X_n-h+1+b)

c=[c₁, c₂,…c_n-h+1]。

优选的，DiTextCNN模型的输出层的激活函数为sigmoid函数。

优选的，sigmoid函数的描述公式为：

x的取值范围为(0,1)。

优选的，池化计算包括：使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。

优选的，DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合，包括L2regularization，dropout，batchnormalization。

优选的，DiTextCNN模型还包括交叉熵损失函数和Adam优化器。

优选的，所述DiTextCNN模型可以参考附图2的主要参数。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于，该方法包括以下步骤：

步骤4：将政务数据的来源部门编码得到one-hot 向量；

2.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述中文分词工具包括：Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。

3.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述预训练语言模型包括：Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。

4.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为：

X_1：n=X₁⊕X₂⊕…⊕X_n

C_i=ƒ(W•X_n-h+1+b)

c=[c₁, c₂,…c_n-h+1]。

5.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述DiTextCNN模型的输出层的激活函数为sigmoid函数。

6.根据权利要求5所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述sigmoid函数的描述公式为：

x的取值范围为(0,1)。

7.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述池化计算包括：使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。

8.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合，包括L2regularization，dropout，batchnormalization。

9.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法，其特征在于：所述DiTextCNN模型还包括交叉熵损失函数和Adam优化器。