CN112328791A - 一种基于DiTextCNN的中文政务信息的文本分类方法 - Google Patents

一种基于DiTextCNN的中文政务信息的文本分类方法 Download PDF

Info

Publication number
CN112328791A
CN112328791A CN202011238122.6A CN202011238122A CN112328791A CN 112328791 A CN112328791 A CN 112328791A CN 202011238122 A CN202011238122 A CN 202011238122A CN 112328791 A CN112328791 A CN 112328791A
Authority
CN
China
Prior art keywords
ditextcnn
chinese
model
text classification
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011238122.6A
Other languages
English (en)
Inventor
吴颖
王琳
孙润元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202011238122.6A priority Critical patent/CN112328791A/zh
Publication of CN112328791A publication Critical patent/CN112328791A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

本发明公开了一种基于DiTextCNN的中文政务信息的文本分类方法,该方法包括以下步骤:步骤1:使用中文分词工具将政务数据标题文本信息切分成若干个中文单词;步骤2:将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到文本信息中的各个中文单词的词向量表示;步骤3:将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算,提取局部关键词特征。本发明构思巧妙,DiTextCNN模型的全连接层有两种特征输入,一种是政务数据标题经过卷积层提取的局部关键词特征,另一种是政务数据的来源部门编码得到的one‑hot向量,两种特征拼接得到更加丰富的特征,从而更好地对政务信息进行分类,提升分类精度。

Description

一种基于DiTextCNN的中文政务信息的文本分类方法
技术领域
本发明涉及文本分类技术领域,具体为一种基于DiTextCNN的中文政务信息的文本分类方法。
背景技术
政务信息对企业起着生死攸关的作用,企业需要时刻了解政府的各项规章制度和招标信息,抓住重要机遇,实现企业的繁荣发展。国内有很多提供招标信息的服务公司,但政务信息不仅包括招标信息,还包括经济和税收政策、行业管理办法、创新创业、产业基地建设、示范项目、招标中标、人才引进等,这些对企业来说同样至关重要。因此,对国内政务信息实行分类,从中筛选出对企业有利的信息,能够帮助企业及时了解政府发布的动态,进而调整经营战略,实现企业的长远发展。
政务信息具有时效性和长期性,假如采用人工的方法对政务信息分类,将十分耗时耗力,不仅增加人力成本,还可能导致企业无法及时获取有效信息,对政府的政策变化来不及做出反应。因此,设计一种基于DiTextCNN的中文政务信息的文本分类方法是很有必要的。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供一种基于DiTextCNN的中文政务信息的文本分类方法,该文本分类方法,构思巧妙,DiTextCNN模型的全连接层有两种特征输入,一种是政务数据标题经过卷积层提取的局部关键词特征,另一种是政务数据的来源部门编码得到的one-hot 向量,两种特征拼接得到更加丰富的特征,从而更好地对政务信息进行分类,提升分类精度。
为实现上述目的,本发明提供如下技术方案:一种基于DiTextCNN的中文政务信息的文本分类方法,该方法包括以下步骤:
步骤1:使用中文分词工具将政务数据标题文本信息切分成若干个中文单词;
步骤2:将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到文本信息中的各个中文单词的词向量表示;
步骤3:将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算,提取局部关键词特征;
步骤4:将政务数据的来源部门编码得到one-hot 向量;
步骤5:将文本信息的局部关键词特征和one-hot 向量拼接成更丰富的特征,输入DiTextCNN模型的输出层,得到文本分类结果。
优选的,所述中文分词工具包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。
优选的,所述预训练语言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。
优选的,所述步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为:
令xi∈Rk为与句子中第i个单词相对应的k维词向量,长度为n的句子表示为:
X1:n=X1⊕X2⊕…⊕Xn
其中⊕是拼接操作,W∈Rhk表示与h个单词的窗口相对应的过滤器,利用它通过卷积运算产生一个新特征,
Ci=ƒ(W•Xn-h+1+b)
其中f是非线性函数,•表示矩阵乘法,过滤器在句子上滑动生成一个特征图c,
c=[c1, c2,…cn-h+1]。
优选的,所述DiTextCNN模型的输出层的激活函数为sigmoid函数。
优选的,所述sigmoid函数的描述公式为:
Figure 100002_DEST_PATH_IMAGE002
x的取值范围为(0,1)。
优选的,所述池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。
优选的,所述DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合,包括L2 regularization,dropout,batchnormalization。
优选的,所述DiTextCNN模型还包括交叉熵损失函数和Adam优化器。
本发明的有益效果为:
1、DiTextCNN模型的全连接层有两种特征输入,一种是政务数据标题经过卷积层提取的局部关键词特征,另一种是政务数据的来源部门编码得到的one-hot 向量,两种特征拼接得到更加丰富的特征,从而更好地对政务信息进行分类,提升分类精度;
2、通过中文分词工具Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个,通过预训练语言模型Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个和TextCNN文本分类算法实现政务信息的分类,方便企业查找信息。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明DiTextCNN模型的结构示意图;
图2是本发明DiTextCNN模型主要参数的参考值。
具体实施方式
下面结合附图1-2对本发明的具体实施方式做进一步详细说明。
由图1给出,本发明提供如下技术方案:一种基于DiTextCNN的中文政务信息的文本分类方法,该方法包括以下步骤:
步骤1:使用中文分词工具将政务数据标题文本信息切分成若干个中文单词;
步骤2:将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到文本信息中的各个中文单词的词向量表示;
步骤3:将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算,提取局部关键词特征;
步骤4:将政务数据的来源部门编码得到one-hot 向量;
步骤5:将文本信息的局部关键词特征和one-hot 向量拼接成更丰富的特征,输入DiTextCNN模型的输出层,得到文本分类结果。
优选的,中文分词工具包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。
优选的,预训练语言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。
优选的,步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为:
令xi∈Rk为与句子中第i个单词相对应的k维词向量,长度为n的句子表示为:
X1:n=X1⊕X2⊕…⊕Xn
其中⊕是拼接操作,W∈Rhk表示与h个单词的窗口相对应的过滤器,利用它通过卷积运算产生一个新特征,
Ci=ƒ(W•Xn-h+1+b)
其中f是非线性函数,•表示矩阵乘法,过滤器在句子上滑动生成一个特征图c,
c=[c1, c2,…cn-h+1]。
优选的,DiTextCNN模型的输出层的激活函数为sigmoid函数。
优选的,sigmoid函数的描述公式为:
Figure DEST_PATH_IMAGE002A
x的取值范围为(0,1)。
优选的,池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。
优选的,DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合,包括L2regularization,dropout,batchnormalization。
优选的,DiTextCNN模型还包括交叉熵损失函数和Adam优化器。
优选的,所述DiTextCNN模型可以参考附图2的主要参数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于,该方法包括以下步骤:
步骤1:使用中文分词工具将政务数据标题文本信息切分成若干个中文单词;
步骤2:将文本信息中的各个中文单词依次通过预训练语言模型进行向量化处理,得到文本信息中的各个中文单词的词向量表示;
步骤3:将中文单词的词向量输入DiTextCNN模型的卷积层进行卷积和池化计算,提取局部关键词特征;
步骤4:将政务数据的来源部门编码得到one-hot 向量;
步骤5:将文本信息的局部关键词特征和one-hot 向量拼接成更丰富的特征,输入DiTextCNN模型的输出层,得到文本分类结果。
2.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述中文分词工具包括:Jieba、SnowNLP、PkuSeg、THULAC或HanLP中的一个。
3.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述预训练语言模型包括:Bert、GPT-2、XLNet、Word2Vec、GLOVE或ELMo中的一个。
4.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述步骤3中DiTextCNN模型的卷积层提取的局部关键词特征的描述公式为:
令xi∈Rk为与句子中第i个单词相对应的k维词向量,长度为n的句子表示为:
X1:n=X1⊕X2⊕…⊕Xn
其中⊕是拼接操作,W∈Rhk表示与h个单词的窗口相对应的过滤器,利用它通过卷积运算产生一个新特征,
Ci=ƒ(W•Xn-h+1+b)
其中f是非线性函数,•表示矩阵乘法,过滤器在句子上滑动生成一个特征图c,
c=[c1, c2,…cn-h+1]。
5.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述DiTextCNN模型的输出层的激活函数为sigmoid函数。
6.根据权利要求5所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述sigmoid函数的描述公式为:
Figure DEST_PATH_IMAGE002
x的取值范围为(0,1)。
7.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述池化计算包括:使用最大值(max-pooling)池化算法来进行池化计算或者使用均值池(avg-pooling)算法来进行池化计算。
8.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述DiTextCNN模型训练过程中加入了正则化机制防止模型过拟合,包括L2regularization,dropout,batchnormalization。
9.根据权利要求1所述的一种基于DiTextCNN的中文政务信息的文本分类方法,其特征在于:所述DiTextCNN模型还包括交叉熵损失函数和Adam优化器。
CN202011238122.6A 2020-11-09 2020-11-09 一种基于DiTextCNN的中文政务信息的文本分类方法 Pending CN112328791A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011238122.6A CN112328791A (zh) 2020-11-09 2020-11-09 一种基于DiTextCNN的中文政务信息的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011238122.6A CN112328791A (zh) 2020-11-09 2020-11-09 一种基于DiTextCNN的中文政务信息的文本分类方法

Publications (1)

Publication Number Publication Date
CN112328791A true CN112328791A (zh) 2021-02-05

Family

ID=74316409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011238122.6A Pending CN112328791A (zh) 2020-11-09 2020-11-09 一种基于DiTextCNN的中文政务信息的文本分类方法

Country Status (1)

Country Link
CN (1) CN112328791A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822061A (zh) * 2021-08-13 2021-12-21 国网上海市电力公司 一种基于特征图构建的小样本专利分类方法
CN116050383A (zh) * 2023-03-29 2023-05-02 珠海金智维信息科技有限公司 一种理财产品销售环节飞单话术检测方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN109885692A (zh) * 2019-01-11 2019-06-14 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN110209805A (zh) * 2018-04-26 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质和计算机设备
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN110889427A (zh) * 2019-10-15 2020-03-17 同济大学 一种拥堵交通流溯源分析方法
CN110955776A (zh) * 2019-11-16 2020-04-03 中电科大数据研究院有限公司 一种政务文本分类模型的构建方法
CN111090749A (zh) * 2019-12-23 2020-05-01 福州大学 一种基于TextCNN的报刊出版物分类方法及系统
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN111444331A (zh) * 2020-03-12 2020-07-24 腾讯科技(深圳)有限公司 基于内容的分布式特征提取方法、装置、设备及介质
CN111723203A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于终生学习的文本分类方法
CN111859936A (zh) * 2020-07-09 2020-10-30 大连理工大学 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213280A1 (en) * 2016-01-27 2017-07-27 Huawei Technologies Co., Ltd. System and method for prediction using synthetic features and gradient boosted decision tree
CN110209805A (zh) * 2018-04-26 2019-09-06 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质和计算机设备
CN109885692A (zh) * 2019-01-11 2019-06-14 平安科技(深圳)有限公司 知识数据存储方法、装置、计算机设备和存储介质
CN110347777A (zh) * 2019-07-17 2019-10-18 腾讯科技(深圳)有限公司 一种兴趣点poi的分类方法、装置、服务器及存储介质
CN110889427A (zh) * 2019-10-15 2020-03-17 同济大学 一种拥堵交通流溯源分析方法
CN110955776A (zh) * 2019-11-16 2020-04-03 中电科大数据研究院有限公司 一种政务文本分类模型的构建方法
CN111090749A (zh) * 2019-12-23 2020-05-01 福州大学 一种基于TextCNN的报刊出版物分类方法及系统
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质
CN111444331A (zh) * 2020-03-12 2020-07-24 腾讯科技(深圳)有限公司 基于内容的分布式特征提取方法、装置、设备及介质
CN111723203A (zh) * 2020-06-15 2020-09-29 苏州意能通信息技术有限公司 一种基于终生学习的文本分类方法
CN111859936A (zh) * 2020-07-09 2020-10-30 大连理工大学 一种基于深度混合网络的面向跨域立案的法律文书专业管辖权识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《ARXIV》, 3 September 2014 (2014-09-03) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113822061A (zh) * 2021-08-13 2021-12-21 国网上海市电力公司 一种基于特征图构建的小样本专利分类方法
CN113822061B (zh) * 2021-08-13 2023-09-08 国网上海市电力公司 一种基于特征图构建的小样本专利分类方法
CN116050383A (zh) * 2023-03-29 2023-05-02 珠海金智维信息科技有限公司 一种理财产品销售环节飞单话术检测方法及系统

Similar Documents

Publication Publication Date Title
CN111008274B (zh) 特征扩展卷积神经网络的案件微博观点句识别构建方法
CN103064970B (zh) 优化译员的检索方法
US20230237038A1 (en) Methods and systems for data management and analysis
CN106991085B (zh) 一种实体的简称生成方法及装置
EP4009219A1 (en) Analysis of natural language text in document using hierarchical graph
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN110427480B (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
CN112328791A (zh) 一种基于DiTextCNN的中文政务信息的文本分类方法
CN110347791B (zh) 一种基于多标签分类卷积神经网络的题目推荐方法
CN112783921A (zh) 一种数据库操作方法及装置
CN116304745B (zh) 基于深层次语义信息的文本话题匹配方法及系统
CN116089873A (zh) 模型训练方法、数据分类分级方法、装置、设备及介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN113434688A (zh) 用于舆情分类模型训练的数据处理方法和装置
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
CN116843162A (zh) 一种矛盾调解方案推荐与评分系统及方法
CN109543038B (zh) 一种应用于文本数据的情感分析方法
CN111382333A (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
WO2023077562A1 (zh) 一种基于图扰动策略的事件检测方法及装置
CN115205085A (zh) 通信地址联想方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210205

RJ01 Rejection of invention patent application after publication