CN107562729B - 基于神经网络和主题强化的党建文本表示方法 - Google Patents

基于神经网络和主题强化的党建文本表示方法 Download PDF

Info

Publication number
CN107562729B
CN107562729B CN201710825882.9A CN201710825882A CN107562729B CN 107562729 B CN107562729 B CN 107562729B CN 201710825882 A CN201710825882 A CN 201710825882A CN 107562729 B CN107562729 B CN 107562729B
Authority
CN
China
Prior art keywords
text
party
vector
party building
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710825882.9A
Other languages
English (en)
Other versions
CN107562729A (zh
Inventor
郭延哺
金宸
李维华
张学杰
岳昆
何敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN201710825882.9A priority Critical patent/CN107562729B/zh
Publication of CN107562729A publication Critical patent/CN107562729A/zh
Application granted granted Critical
Publication of CN107562729B publication Critical patent/CN107562729B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于神经网络和主题强化的党建文本表示方法。党建工作的相关文本是党建工作数据最重要形式之一,是一类具有鲜明主题的领域性文本。文本向量表示是文本分析的重要基础。本发明针对党建工作相关的文本数据,首先抽取党建文本的词集和主题词集,并采用词向量技术表示党建文本;其次,基于二维卷积神经网络提取党建文本的语义特征;第三,用党建文本的主题词向量与党建文本的语义特征进行融合强化党建文本主题特征,使得到的文本向量更能体现党建文本的领域特点;本发明将为党建文本定量计算和智能分析,尤其是党建文本分类、检索和翻译等工作提供更有效的支撑。

Description

基于神经网络和主题强化的党建文本表示方法
技术领域
本发明属于人工智能、深度学习领域;涉及一种二维卷积神经网络实现主题强化的党建文本特征学习方法。
背景技术
全国共有8779多万名党员和436多万个基层党组织数。建党以来,中国共产党的党建工作积累了海量的党建数据,人工处理这些海量的党建数据,将会耗费大量人力和物力。随着计算机技术和人工智能的发展,提高党建工作的科学化和标准化水平是必然趋势,同时信息化和智能化成为党建工作现代化的重要内容。对海量党建数据智能分析是实现这一目标的重要手段。党建工作相关的文本数据是党建工作中最重要数据形式之一,是一类具有鲜明主题的领域性文本。而文本特征表示是文本分析的重要基础。目前文本特征表示方法有向量空间模型(Vector Space Model, VSM)、词袋模型(Bag of Words, BOW)、概率主题模型(Latent Dirichlet Allocation, LDA)等。然而,这些模型或方法不仅假设词对文本的语义贡献和词出现的频率有关,并没有考虑文本在特定领域下的主题特点,因此基于这些模型获得的文本向量不能很好地表达党建文本包含的关键语义。词嵌入技术CBOW(Continuous Bag Of Words Model)和卷积神经神经网络(Convolutional NeuralNetwork, CNN)等深度学习技术已经成为自然语言处理的一种主流手段,并取得了很好的效果,所以深度学习成为目前智能分析党建文本大数据的一个更好的选择。因此,本发明基于二维卷积神经网络提取党建文本数据语义特征,再使用党建主题强化得到的党建文本特征,得到可以体现党建领域特点的文本向量,为定量计算和智能分析党建工作,尤其是党建文本的分类、检索和翻译提供更有效的支撑技术。
发明内容
本发明公开了一种基于神经网络和主题强化的党建文本表示方法,解决目前文本表示没有结合党建工作领域、对文本语义信息表达能力弱的不足。本发明包括以下步骤:
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F;其中DR l×k k为词向量的维度数;
基于党建文本的词向量表示包括时间步和特征向量维度,本发明将一条党建文本向量D传入2维过滤器mR q×d ;2维过滤器mD的时间步和特征向量维度进行卷积操作,m在时间步和特征向量维度上分别对q个词和d个特征向量进行卷积,卷积操作移动的步长为1;提取到党建文本的局部特征;
例如,一个党建文本局部特征o i,j 由式(1)生成:
o i,j =g(mD i:i+q-1,j:j+d-1+b) (1)
在式(1)中,i∈[1,l-q+1],j
Figure DEST_PATH_IMAGE001
[1,k-d+1],
Figure 180660DEST_PATH_IMAGE002
表示逐元素相乘,b
Figure DEST_PATH_IMAGE003
R表示过滤器的偏差,
Figure 160118DEST_PATH_IMAGE004
( )表示非线性函数;过滤器m将在党建文本向量表示的任意范围D i:i+q-1,j:j+d-1进行卷积操作,产生一个局部特征O
O=[o 1,1,o 1,2,o 1,3,…,o (l-q+1),(k-d+1)] (2)
在式(2)中,OR (l-q+1)×(k-d+1)
2.2)、党建文本语义选取
基于2维卷积操作提取党建文本局部特征O,然后在特征向量O上进行2维最大池化运算,保留时间步和特征向量维度的局部最优特征,获取党建文本的定长向量表示C
例如:对于任意一个2维最大池化操作PR qd1,在卷积提取的党建文本局部特征O的任意一个范围选取时间步和特征向量维度上的最大值,如式(3):
p i,j =downsample(O i:(i+q1),j:(j+d1)) (3)
在式(3)中,downsample( )是2维最大池化函数,i
Figure DEST_PATH_IMAGE005
[1,1+q1,
Figure DEST_PATH_IMAGE006
,1+(l-q1+1/q1-1)×q1],j
Figure 2172DEST_PATH_IMAGE007
[1,1+d1,
Figure DEST_PATH_IMAGE008
,1+(k-d1+1/d1-1)×d1];
经过2维池化操作得到的文本向量可以表示为(4)式:
C=[p 1,1, p 1,1+d1, …, p(1+(l-q+1/q1-1)×q1),(1+(k-d+1/d1-1)×d1] (4)
在式(4)中,C∈R;
(3)、基于向量融合的党建主题强化
3.1)、融合党建主题词向量
基于党建文本的主题词向量表示T,将主题词向量TC进行逐元素相加,得到党建文本向量表示R,如(5)式:
R=T+C (5)
在式(5)中,若二维向量T的维度小于T的维度,则对T中的向量元素用0填充;
3.2)、党建文本向量生成
基于主题词向量和2维卷积神经网络提取的语义融合,得到党建文本的表示向量R;其次将二维特征向量R拉直表示成定长的一维向量R,那么就得到融合党建主题词的文本向量表示R,其中向量R中元素长度为:⌊(l-q+1/q1⌋×⌊k-d+1/d1⌋;
在步骤(2)基于二维卷积神经网络提取党建文本的语义特征这一环节中,
对于神经网络中的参数,采用随机数初始化;对于神经网络训练,采用droupout策略避免过度拟合党建文本领域特征;对于神经网络中的神经元激活函数,采用sigmoidrelutanh函数。
附图说明
图1:党建文本向量提取过程;
图2:基于向量融合的党建主题强化模型;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明;
图1是党建文本向量提取过程;包括3个步骤:(1)、党建文本预处理;(2)、基于二维卷积神经网络提取党建文本的语义特征;(3)、基于向量融合的党建主题强化;
图2基于主题强化的党建文本向量学习模型是用党建文本主题词向量强化卷积神经网络提取的文本语义特征,得到党建文本的特征向量表示;
下面对三个步骤进行详细说明;
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、党建文本语义提取
基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F;其中DR l×k k为词向量的维度数;
基于党建文本的词向量表示包括时间步和特征向量维度,本发明将一条党建文本向量D传入2维过滤器mR q×d ;2维过滤器mD的时间步和特征向量维度进行卷积操作,m在时间步和特征向量维度上分别对q个词和d个特征向量进行卷积,卷积操作移动的步长为1;提取到党建文本的局部特征;
例如,一个党建文本局部特征o i,j 由式(1)生成:
o i,j =g(mD i:i+q-1,j:j+d-1+b) (1)
在式(1)中,i
Figure DEST_PATH_IMAGE009
[1,l-q+1],j
Figure 462628DEST_PATH_IMAGE010
[1,k-d+1],
Figure DEST_PATH_IMAGE011
表示逐元素相乘,b
Figure DEST_PATH_IMAGE012
R表示过滤器的偏差,
Figure DEST_PATH_IMAGE013
( )表示非线性函数;过滤器m将在党建文本向量表示的任意范围D i:i+q-1,j:j+d-1进行卷积操作,产生一个局部特征O
O=[o 1,1,o 1,2,o 1,3,…,o (l-q+1),(k-d+1)] (2)
在式(2)中,OR (l-q+1)×(k-d+1)
2.2)、党建文本语义选取
基于2维卷积操作提取党建文本局部特征O,然后在特征向量O上进行2维最大池化运算,保留时间步和特征向量维度的局部最优特征,获取党建文本的定长向量表示C
例如:对于任意一个2维最大池化操作PR qd1,在卷积提取的党建文本局部特征O的任意一个范围选取时间步和特征向量维度上的最大值,如式(3):
p i,j =downsample(O i:(i+q1),j:(j+d1)) (3)
在式(3)中,downsample( )是2维最大池化函数,i
Figure DEST_PATH_IMAGE014
[1,1+q1,
Figure DEST_PATH_IMAGE015
,1+(l-q1+1/q1-1)×q1],j
Figure DEST_PATH_IMAGE016
[1,1+d1,
Figure DEST_PATH_IMAGE017
,1+(k-d1+1/d1-1)×d1];
经过2维池化操作得到的文本向量可以表示为(4)式:
C=[p 1,1, p 1,1+d1, …, p(1+(l-q+1/q1-1)×q1),(1+(k-d+1/d1-1)×d1] (4)
在式(4)中,CR
(3)、基于向量融合的党建主题强化
3.1)、融合党建主题词向量
基于党建文本的主题词向量集T,将主题词向量集TC进行逐元素相加得到输入党建文本向量表示R,如(5)式:
R=T+C (5)
在式(5)中,若二维向量T的维度小于T的维度,则对T中的向量元素用0填充;
3.2)、党建文本向量生成
基于主题词向量和2维卷积神经网络提取的语义融合,得到党建文本的表示向量R;其次将二维特征向量R拉直表示成定长的一维向量R,那么就得到融合党建主题词的文本向量表示R,其中向量R中元素长度为:⌊(l-q+1/q1⌋×⌊k-d+1/d1⌋。
在步骤(2)基于二维卷积神经网络提取党建文本的语义特征这一环节中,
对于神经网络中的参数,采用随机数初始化;对于神经网络训练,采用droupout策略避免过度拟合党建文本领域特征;对于神经网络中的神经元激活函数,采用sigmoidrelutanh函数。

Claims (1)

1.一种基于神经网络和主题强化的党建文本表示方法,其特征在于包括如下步骤:
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F
2.2)、基于2维卷积操作提取的党建文本局部特征F,采用2维最大池化运算,智能判决时间步和特征向量维度的最优特征得到特征表示C
(3)、基于向量融合的党建主题强化
3.1)、基于党建文本的主题词向量T,将主题词向量表示TC进行逐元素相加得到输入党建文本向量表示R
3.2)、基于党建文本向量表示R,将二维特征向量拉直表示成一维向量表示,得到最终的党建文本表示向量。
CN201710825882.9A 2017-09-14 2017-09-14 基于神经网络和主题强化的党建文本表示方法 Expired - Fee Related CN107562729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710825882.9A CN107562729B (zh) 2017-09-14 2017-09-14 基于神经网络和主题强化的党建文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710825882.9A CN107562729B (zh) 2017-09-14 2017-09-14 基于神经网络和主题强化的党建文本表示方法

Publications (2)

Publication Number Publication Date
CN107562729A CN107562729A (zh) 2018-01-09
CN107562729B true CN107562729B (zh) 2020-12-08

Family

ID=60980781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710825882.9A Expired - Fee Related CN107562729B (zh) 2017-09-14 2017-09-14 基于神经网络和主题强化的党建文本表示方法

Country Status (1)

Country Link
CN (1) CN107562729B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740728B (zh) * 2018-12-10 2019-11-01 杭州世平信息科技有限公司 一种基于多种神经网络组合的量刑计算方法
CN109885686A (zh) * 2019-02-20 2019-06-14 延边大学 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN110083676B (zh) * 2019-04-22 2021-12-03 东北大学 一种基于短文本的领域动态跟踪方法
CN112800183B (zh) * 2021-02-25 2023-09-26 国网河北省电力有限公司电力科学研究院 内容名称数据处理方法及终端设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2624149A2 (en) * 2012-02-02 2013-08-07 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106815244A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 文本向量表示方法及装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2624149A2 (en) * 2012-02-02 2013-08-07 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
CN104636456A (zh) * 2015-02-03 2015-05-20 大连理工大学 一种基于词向量的问题路由方法
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106815244A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 文本向量表示方法及装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于卷积神经网络和关键词策略的实体关系抽取方法》;王林玉 等;《模式识别与人工智能》;20170515;第30卷(第5期);全文 *
《基于卷积神经网络的公安案件文本语义特征提取方法研究》;林志宏 等;《数学的实践与认识》;20170908;第47卷(第17期);全文 *
《融合潜在主题信息和卷积语义特征的文本主题分类》;陈培新;《信号处理》;20170825;第[1092]-[1094]页第3-4小节 *

Also Published As

Publication number Publication date
CN107562729A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN106547735B (zh) 基于深度学习的上下文感知的动态词或字向量的构建及使用方法
CN113127624B (zh) 问答模型的训练方法及装置
CN110348535B (zh) 一种视觉问答模型训练方法及装置
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
Gallant et al. Representing objects, relations, and sequences
CN111914067B (zh) 中文文本匹配方法及系统
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN110309839B (zh) 一种图像描述的方法及装置
CN109213975B (zh) 一种基于字符层级卷积变分自编码的推特文本表示方法
CN113254599A (zh) 一种基于半监督学习的多标签微博文本分类方法
CN107729311B (zh) 一种融合文本语气的中文文本特征提取方法
Prusa et al. Designing a better data representation for deep neural networks and text classification
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN110826338B (zh) 一种单选择门与类间度量的细粒度语义相似识别的方法
CN108959482A (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN105975497A (zh) 微博话题自动推荐方法及装置
CN110472245A (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN108363685B (zh) 基于递归变分自编码模型的自媒体数据文本表示方法
Kathuria et al. Real time sentiment analysis on twitter data using deep learning (Keras)
Prakash et al. Chatterbot implementation using transfer learning and LSTM encoder-decoder architecture
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN112528989A (zh) 一种图像语义细粒度的描述生成方法
Bhalekar et al. Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201208

Termination date: 20210914