CN107562729B - 基于神经网络和主题强化的党建文本表示方法 - Google Patents
基于神经网络和主题强化的党建文本表示方法 Download PDFInfo
- Publication number
- CN107562729B CN107562729B CN201710825882.9A CN201710825882A CN107562729B CN 107562729 B CN107562729 B CN 107562729B CN 201710825882 A CN201710825882 A CN 201710825882A CN 107562729 B CN107562729 B CN 107562729B
- Authority
- CN
- China
- Prior art keywords
- text
- party
- vector
- party building
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经网络和主题强化的党建文本表示方法。党建工作的相关文本是党建工作数据最重要形式之一,是一类具有鲜明主题的领域性文本。文本向量表示是文本分析的重要基础。本发明针对党建工作相关的文本数据,首先抽取党建文本的词集和主题词集,并采用词向量技术表示党建文本;其次,基于二维卷积神经网络提取党建文本的语义特征;第三,用党建文本的主题词向量与党建文本的语义特征进行融合强化党建文本主题特征,使得到的文本向量更能体现党建文本的领域特点;本发明将为党建文本定量计算和智能分析,尤其是党建文本分类、检索和翻译等工作提供更有效的支撑。
Description
技术领域
本发明属于人工智能、深度学习领域;涉及一种二维卷积神经网络实现主题强化的党建文本特征学习方法。
背景技术
全国共有8779多万名党员和436多万个基层党组织数。建党以来,中国共产党的党建工作积累了海量的党建数据,人工处理这些海量的党建数据,将会耗费大量人力和物力。随着计算机技术和人工智能的发展,提高党建工作的科学化和标准化水平是必然趋势,同时信息化和智能化成为党建工作现代化的重要内容。对海量党建数据智能分析是实现这一目标的重要手段。党建工作相关的文本数据是党建工作中最重要数据形式之一,是一类具有鲜明主题的领域性文本。而文本特征表示是文本分析的重要基础。目前文本特征表示方法有向量空间模型(Vector Space Model, VSM)、词袋模型(Bag of Words, BOW)、概率主题模型(Latent Dirichlet Allocation, LDA)等。然而,这些模型或方法不仅假设词对文本的语义贡献和词出现的频率有关,并没有考虑文本在特定领域下的主题特点,因此基于这些模型获得的文本向量不能很好地表达党建文本包含的关键语义。词嵌入技术CBOW(Continuous Bag Of Words Model)和卷积神经神经网络(Convolutional NeuralNetwork, CNN)等深度学习技术已经成为自然语言处理的一种主流手段,并取得了很好的效果,所以深度学习成为目前智能分析党建文本大数据的一个更好的选择。因此,本发明基于二维卷积神经网络提取党建文本数据语义特征,再使用党建主题强化得到的党建文本特征,得到可以体现党建领域特点的文本向量,为定量计算和智能分析党建工作,尤其是党建文本的分类、检索和翻译提供更有效的支撑技术。
发明内容
本发明公开了一种基于神经网络和主题强化的党建文本表示方法,解决目前文本表示没有结合党建工作领域、对文本语义信息表达能力弱的不足。本发明包括以下步骤:
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V;
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T;
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D;
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F;其中D∈R l×k ,k为词向量的维度数;
基于党建文本的词向量表示包括时间步和特征向量维度,本发明将一条党建文本向量D传入2维过滤器m∈R q×d ;2维过滤器m在D的时间步和特征向量维度进行卷积操作,m在时间步和特征向量维度上分别对q个词和d个特征向量进行卷积,卷积操作移动的步长为1;提取到党建文本的局部特征;
例如,一个党建文本局部特征o i,j 由式(1)生成:
o i,j =g(m⊙D i:i+q-1,j:j+d-1+b) (1)
O=[o 1,1,o 1,2,o 1,3,…,o (l-q+1),(k-d+1)] (2)
在式(2)中,O∈R (l-q+1)×(k-d+1);
2.2)、党建文本语义选取
基于2维卷积操作提取党建文本局部特征O,然后在特征向量O上进行2维最大池化运算,保留时间步和特征向量维度的局部最优特征,获取党建文本的定长向量表示C;
例如:对于任意一个2维最大池化操作P∈R q1×d1,在卷积提取的党建文本局部特征O的任意一个范围选取时间步和特征向量维度上的最大值,如式(3):
p i,j =downsample(O i:(i+q1),j:(j+d1)) (3)
经过2维池化操作得到的文本向量可以表示为(4)式:
C=[p 1,1, p 1,1+d1, …, p(1+(l-q+1/q1-1)×q1),(1+(k-d+1/d1-1)×d1] (4)
在式(4)中,C∈R;
(3)、基于向量融合的党建主题强化
3.1)、融合党建主题词向量
基于党建文本的主题词向量表示T,将主题词向量T与C进行逐元素相加,得到党建文本向量表示R,如(5)式:
R=T+C (5)
在式(5)中,若二维向量T的维度小于T的维度,则对T中的向量元素用0填充;
3.2)、党建文本向量生成
基于主题词向量和2维卷积神经网络提取的语义融合,得到党建文本的表示向量R;其次将二维特征向量R拉直表示成定长的一维向量R,那么就得到融合党建主题词的文本向量表示R,其中向量R中元素长度为:⌊(l-q+1/q1⌋×⌊k-d+1/d1⌋;
在步骤(2)基于二维卷积神经网络提取党建文本的语义特征这一环节中,
对于神经网络中的参数,采用随机数初始化;对于神经网络训练,采用droupout策略避免过度拟合党建文本领域特征;对于神经网络中的神经元激活函数,采用sigmoid、relu或tanh函数。
附图说明
图1:党建文本向量提取过程;
图2:基于向量融合的党建主题强化模型;
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明;
图1是党建文本向量提取过程;包括3个步骤:(1)、党建文本预处理;(2)、基于二维卷积神经网络提取党建文本的语义特征;(3)、基于向量融合的党建主题强化;
图2基于主题强化的党建文本向量学习模型是用党建文本主题词向量强化卷积神经网络提取的文本语义特征,得到党建文本的特征向量表示;
下面对三个步骤进行详细说明;
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V;
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T;
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D;
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、党建文本语义提取
基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F;其中D∈R l×k ,k为词向量的维度数;
基于党建文本的词向量表示包括时间步和特征向量维度,本发明将一条党建文本向量D传入2维过滤器m∈R q×d ;2维过滤器m在D的时间步和特征向量维度进行卷积操作,m在时间步和特征向量维度上分别对q个词和d个特征向量进行卷积,卷积操作移动的步长为1;提取到党建文本的局部特征;
例如,一个党建文本局部特征o i,j 由式(1)生成:
o i,j =g(m⊙D i:i+q-1,j:j+d-1+b) (1)
在式(1)中,i [1,l-q+1],j [1,k-d+1],表示逐元素相乘,b R表示过滤器的偏差,( )表示非线性函数;过滤器m将在党建文本向量表示的任意范围D i:i+q-1,j:j+d-1进行卷积操作,产生一个局部特征O:
O=[o 1,1,o 1,2,o 1,3,…,o (l-q+1),(k-d+1)] (2)
在式(2)中,O∈R (l-q+1)×(k-d+1);
2.2)、党建文本语义选取
基于2维卷积操作提取党建文本局部特征O,然后在特征向量O上进行2维最大池化运算,保留时间步和特征向量维度的局部最优特征,获取党建文本的定长向量表示C;
例如:对于任意一个2维最大池化操作P∈R q1×d1,在卷积提取的党建文本局部特征O的任意一个范围选取时间步和特征向量维度上的最大值,如式(3):
p i,j =downsample(O i:(i+q1),j:(j+d1)) (3)
经过2维池化操作得到的文本向量可以表示为(4)式:
C=[p 1,1, p 1,1+d1, …, p(1+(l-q+1/q1-1)×q1),(1+(k-d+1/d1-1)×d1] (4)
在式(4)中,C∈R;
(3)、基于向量融合的党建主题强化
3.1)、融合党建主题词向量
基于党建文本的主题词向量集T,将主题词向量集T与C进行逐元素相加得到输入党建文本向量表示R,如(5)式:
R=T+C (5)
在式(5)中,若二维向量T的维度小于T的维度,则对T中的向量元素用0填充;
3.2)、党建文本向量生成
基于主题词向量和2维卷积神经网络提取的语义融合,得到党建文本的表示向量R;其次将二维特征向量R拉直表示成定长的一维向量R,那么就得到融合党建主题词的文本向量表示R,其中向量R中元素长度为:⌊(l-q+1/q1⌋×⌊k-d+1/d1⌋。
在步骤(2)基于二维卷积神经网络提取党建文本的语义特征这一环节中,
对于神经网络中的参数,采用随机数初始化;对于神经网络训练,采用droupout策略避免过度拟合党建文本领域特征;对于神经网络中的神经元激活函数,采用sigmoid、relu或tanh函数。
Claims (1)
1.一种基于神经网络和主题强化的党建文本表示方法,其特征在于包括如下步骤:
(1)、党建文本预处理
1.1)、对党建文本集进行分词,并提取党建文本的词集和主题词集;
1.2)、基于CBOW模型训练党建文本词集,得到党建文本的词向量空间V;
1.3)、基于词向量空间V提取经过分词的党建文本的主题词向量,组成党建文本的主题词向量表示T;
1.4)、假设任意党建文本序列表示为S={x 1,x 2,…,x l },其中l表示文本长度,基于V提取党建文本序列S中所有词的词向量,组成党建文本的词向量表示D;
(2)、基于二维卷积神经网络提取党建文本的语义特征
2.1)、基于党建文本向量表示D,在文本向量的时间步和特征向量维度,进行2维卷积运算提取党建文本的局部特征F;
2.2)、基于2维卷积操作提取的党建文本局部特征F,采用2维最大池化运算,智能判决时间步和特征向量维度的最优特征得到特征表示C;
(3)、基于向量融合的党建主题强化
3.1)、基于党建文本的主题词向量T,将主题词向量表示T与C进行逐元素相加得到输入党建文本向量表示R;
3.2)、基于党建文本向量表示R,将二维特征向量拉直表示成一维向量表示,得到最终的党建文本表示向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825882.9A CN107562729B (zh) | 2017-09-14 | 2017-09-14 | 基于神经网络和主题强化的党建文本表示方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710825882.9A CN107562729B (zh) | 2017-09-14 | 2017-09-14 | 基于神经网络和主题强化的党建文本表示方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107562729A CN107562729A (zh) | 2018-01-09 |
CN107562729B true CN107562729B (zh) | 2020-12-08 |
Family
ID=60980781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710825882.9A Expired - Fee Related CN107562729B (zh) | 2017-09-14 | 2017-09-14 | 基于神经网络和主题强化的党建文本表示方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107562729B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740728B (zh) * | 2018-12-10 | 2019-11-01 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110083676B (zh) * | 2019-04-22 | 2021-12-03 | 东北大学 | 一种基于短文本的领域动态跟踪方法 |
CN112800183B (zh) * | 2021-02-25 | 2023-09-26 | 国网河北省电力有限公司电力科学研究院 | 内容名称数据处理方法及终端设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN104636456A (zh) * | 2015-02-03 | 2015-05-20 | 大连理工大学 | 一种基于词向量的问题路由方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN106815244A (zh) * | 2015-11-30 | 2017-06-09 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
-
2017
- 2017-09-14 CN CN201710825882.9A patent/CN107562729B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2624149A2 (en) * | 2012-02-02 | 2013-08-07 | Xerox Corporation | Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space |
CN104636456A (zh) * | 2015-02-03 | 2015-05-20 | 大连理工大学 | 一种基于词向量的问题路由方法 |
CN104834747A (zh) * | 2015-05-25 | 2015-08-12 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
CN106815244A (zh) * | 2015-11-30 | 2017-06-09 | 北京国双科技有限公司 | 文本向量表示方法及装置 |
CN107102989A (zh) * | 2017-05-24 | 2017-08-29 | 南京大学 | 一种基于词向量、卷积神经网络的实体消歧方法 |
Non-Patent Citations (3)
Title |
---|
《基于卷积神经网络和关键词策略的实体关系抽取方法》;王林玉 等;《模式识别与人工智能》;20170515;第30卷(第5期);全文 * |
《基于卷积神经网络的公安案件文本语义特征提取方法研究》;林志宏 等;《数学的实践与认识》;20170908;第47卷(第17期);全文 * |
《融合潜在主题信息和卷积语义特征的文本主题分类》;陈培新;《信号处理》;20170825;第[1092]-[1094]页第3-4小节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107562729A (zh) | 2018-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN106547735B (zh) | 基于深度学习的上下文感知的动态词或字向量的构建及使用方法 | |
CN113127624B (zh) | 问答模型的训练方法及装置 | |
CN110348535B (zh) | 一种视觉问答模型训练方法及装置 | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
Gallant et al. | Representing objects, relations, and sequences | |
CN111914067B (zh) | 中文文本匹配方法及系统 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN107562729B (zh) | 基于神经网络和主题强化的党建文本表示方法 | |
CN110309839B (zh) | 一种图像描述的方法及装置 | |
CN109213975B (zh) | 一种基于字符层级卷积变分自编码的推特文本表示方法 | |
CN113254599A (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN107729311B (zh) | 一种融合文本语气的中文文本特征提取方法 | |
Prusa et al. | Designing a better data representation for deep neural networks and text classification | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN110826338B (zh) | 一种单选择门与类间度量的细粒度语义相似识别的方法 | |
CN108959482A (zh) | 基于深度学习的单轮对话数据分类方法、装置和电子设备 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN108363685B (zh) | 基于递归变分自编码模型的自媒体数据文本表示方法 | |
Kathuria et al. | Real time sentiment analysis on twitter data using deep learning (Keras) | |
Prakash et al. | Chatterbot implementation using transfer learning and LSTM encoder-decoder architecture | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
CN112528989A (zh) | 一种图像语义细粒度的描述生成方法 | |
Bhalekar et al. | Generation of image captions using VGG and ResNet CNN models cascaded with RNN approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201208 Termination date: 20210914 |