CN110472047A - 一种多特征融合的汉越新闻观点句抽取方法 - Google Patents
一种多特征融合的汉越新闻观点句抽取方法 Download PDFInfo
- Publication number
- CN110472047A CN110472047A CN201910634929.2A CN201910634929A CN110472047A CN 110472047 A CN110472047 A CN 110472047A CN 201910634929 A CN201910634929 A CN 201910634929A CN 110472047 A CN110472047 A CN 110472047A
- Authority
- CN
- China
- Prior art keywords
- sentence
- chinese
- word
- emotion
- viewpoint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 60
- 239000013598 vector Substances 0.000 claims abstract description 57
- 238000010348 incorporation Methods 0.000 claims abstract description 34
- 238000012512 characterization method Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000013519 translation Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims 2
- 238000000605 extraction Methods 0.000 abstract description 18
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多特征融合的汉越新闻观点句抽取方法,属于自然语言处理技术领域。本发明首先采用跨语言表示学习的方法构建汉越双语词嵌入模型。然后计算了句子主题、情感和位置的特征权重,将这些特征权重信息融入到编码层和注意力机制中,得到了句子在主题、情感和位置等方面的表征。最后根据得到的句子表征进行观点句分类。本发明针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型;然后分别计算句子的主题、位置以及情感特征的权重,并将这些句子权重分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合,本发明可以有效提升汉越新闻观点句抽取的准确率。
Description
技术领域
本发明涉及一种多特征融合的汉越新闻观点句抽取方法,属于自然语言处理技术领域。
背景技术
如何在海量互联网新闻信息页面中快速准确地自动查找获得新闻的观点句,已经逐渐成为人们的强烈的需求,有着非常重要的应用前景。在观点句抽取任务中,现有的方法主要是基于观点句特征对文档中的观点句进行抽取。比如通过隐马尔可夫模型对句子进行序列标注,给句子不同的权重来实现观点句的识别。或者是通过词典的方式获得观点词和非观点词的词集,然后计算观点词的强度,最后通过句子中所有词的观点词强度来对观点句进行判别。还有学者提出一种基于语义模式的半监督中文观点句识别方法,通过融入语义特征对观点句进行分类。
但是以上方法无法同时识别句子的语义信息和观点句相关的特征。因此,本发明专利提出了一种多特征融合的汉越新闻观点句抽取方法。
发明内容
本发明提供了一种多特征融合的汉越新闻观点句抽取方法,解决了汉越新闻观点句抽取的问题,且能有效提升汉越新闻观点句抽取的准确性。
本发明的技术方案是:一种多特征融合的汉越新闻观点句抽取方法,该方法首先采用跨语言表示学习的方法构建汉越双语词嵌入模型。然后计算了句子主题、情感和位置的特征权重,将这些特征权重信息融入到编码层和注意力机制中,得到了句子在主题、情感和位置等方面的表征。最后根据得到的句子表征进行观点句分类。
具体步骤如下:
Step1、语料收集及标注:构建汉越双语词嵌入模型需要大量的汉越新闻文本以及少量的汉越平行文本。本方法从汉越新闻语料库中选择35000篇汉语、越南语新闻,以及10W条汉越平行句对来训练汉越双语词向量。手动挑选并标记了1367篇越南语新闻观点句和8552篇汉语新闻的观点句作为汉越新闻观点句抽取的数据集。训练集、测试集、验证集在数据集中的占比分别为90%,5%,5%。在采用的汉越双语情感词典中,中文情感词典规模为4626,越南文情感词典规模为2939;
Step2、构建汉越双语词嵌入模型:
首先使用汉语语料和越南语语料分别训练汉语和越南语的单语词嵌入模型,然后用汉语和越南语平行句对来对汉语和越南语的单语词嵌入模型进行联合训练,构建汉越双语词嵌入模型。使用skip-gram训练单语词嵌入模型。在训练汉越双语词嵌入模型时采用异步随机梯度下降的方法,分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程。
作为本发明的优选方案,所述步骤Step2中,在联合训练的过程中,使用汉越双语的正则化项对单语词嵌入模型进行约束;该方法不仅能学习到单语环境下不同词汇的关联关系,同时还能学习到中文词语和越南语词语之间的关联关系。
作为本发明的优选方案,所述步骤Step2中,在联合训练过程时,汉语和越南语的目标函数的具体公式为:
其中,L(wt,h;θl)表示单语词嵌入模型的目标函数,正则项Ω(θc,θv)表示中文词语和越南语词语的关联程度;用汉越双语的正则化项Ω(θc,θv)对单语模型进行约束,汉越双语正则项约束的具体公式为:
Ω(θc,θv)=λ1Ωtranslation(θc,θv)+λ2Ωemotion(θc,θv)
其中,λ1和λ2分别表示语义关联和情感关联这两种关联约束在训练过程中的权重;θc,θv分别表示汉越和越南语的词向量,汉越双语正则化约束的具体计算公式为:
其中,ri c表示中文词i训练得到的词向量,表示越南词j训练到的词向量,ai,j表示中文词i和越南词j之间的翻译评分,bi,j表示中文词i和越南词j之间的情感评分,翻译评分通过汉越平行句对的互译词表获得,情感评分通过汉越双语情感词典获得;Vc表示中文的词表,Vv表示越南语的词表,E表示汉越双语情感词典。
Step3、计算新闻中每个句子的观点句特征权重:
在新闻文档中,新闻的标题很大程度上能反映这篇新闻的主题。因此将新闻的标题作为该新闻的主题。本发明方法采用平均词向量的方式得到新闻标题和每个句子的向量表征。句子主题相关度score1的计算公式具体为:
其中,ST表示新闻标题的向量表征,S表示新闻中每个句子的向量表征。
句子位置特征主要考虑的是句子在文档中的位置。因为新闻文档的开头或结尾一般能体现作者的观点。该方法可以使文本中位置靠前或靠后的句子获得较高的权重。句子在文档中的位置特征score2计算公式具体为:
其中,n表示文档中的句子数目,i表示当前句子是文档中的第i句话。
句子的情感特征主要是来识别句子是否具有情感倾向。通过情感词典来计算句子的情感打分。句子si的情感特征score3计算公式具体为:
其中,emotion(wi,k)表示词wi,k是否为情感词,如果该词是情感词,则emotion(wi,k)的值为1;否则为0。m表示句子中词的个数。
接下来利用步骤Step2构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。然后在双语词向量后拼接词所在句子的主题相关度特征、情感特征和位置特征。
Step4、LSTM网络进行句子建模:
在步骤Step2构建的双语词向量中拼接该词所在句子的观点句特征权重,然后将融合观点句特征权重的双语词向量输入到LSTM网络中进行句子建模,得到不同记忆单元的隐藏状态;
作为本发明的优选方案,所述步骤Step4中,将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接,实现句子语义信息和观点句特征的融合,然后,在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中,提升模型对观点句特征的识别能力。
Step5、在注意力机制中融入句子的观点句特征权重,得到句子在主题、位置、情感方面的表征;
由于LSTM网络无法较好地识别句子的观点相关信息,因此引入了注意力机制。注意力机制的核心思想是:对重要的内容分配较多的注意力,对其他部分分配较少的注意力。在观点句抽取任务中,位置信息、情感信息和主题相关度对判断观点句具有重要作用。因此,将这些特征融入注意力机制中,通过注意力机制来捕捉与观点句抽取任务相关的信息。
所述Step5的具体步骤如下:
Step5.1、首先将LSTM网络输出的隐藏状态和观点句特征通过一层神经网络进行拼接,具体公式如下:
其中H是LSTM网络中每个神经元输出的隐向量组成的矩阵,V是词编码层中每个词所在句子的主题、情感、位置特征向量组成的特征矩阵,Wh和Wv是参数矩阵;
Step5.2、其次,通过softmax分类器对拼接后的隐藏状态M进行分类,得到注意力的权重向量;然后将注意力机制的权重向量和LSTM网络输出的隐藏状态相乘,得到主题相关度、位置信息和情感信息在句子表征中的权重;具体公式如下:
α=softmax(WTM)
r=HαT
其中,α是注意力机制的权重向量,WT表示softmax分类器的参数矩阵;H是LSTM网络中每个神经元输出的隐向量组成的矩阵,最后得到的r是主题相关度、位置信息和情感信息在句子表征中的权重;
Step5.3、然后,将LSTM网络的最后一个隐藏状态的输出以及主题、位置、情感信息的权重表征输入到一层神经网络中,得到句子在主题、位置、情感方面的表征;具体公式如下:
h*=tanh(Wpr+WxhN)
其中,hN是LSTM网络对句子建模的最后一个隐状态,包含了这个句子的语义信息,h*是句子在主题、位置、情感方面的表征,Wp和Wx是参数矩阵。
Step6、抽取观点句:使用softmax分类器来判定句子是否为观点句。
为了对句子进行分类,要添加一个隐藏层将句子向量压缩为一个二维向量表征。然后,通过softmax分类器将二维句子表征变为条件概率分布的形式。
y=softmax(Wsh*+bs)
其中,y为分类结果,Ws是权重矩阵,bs是偏置向量。
在进行模型训练时,使用skip-gram训练单语词嵌入模型,并采用异步随机梯度下降的方法来训练汉越双语词嵌入模型。分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程。汉越双语正则项约束Ω(·)的λ1语义关联权重和λ2情感关联权重分别设置为0.7和0.3。双语词嵌入模型的学习率设置为0.1。
Ω(θc,θv)=λ1Ωtranslation(θc,θv)+λ2Ωemotion(θc,θv)
由于中文和越南文的词表规模较大,因此在词表中过滤掉在文档中出现次数少于2次的词,来加速模型的训练。设定训练得到的双语词向量维度为200维。在训练双语观点句抽取模型的过程中,采用了Adagrad优化方法。模型的损失函数为交叉熵损失。设定交叉熵损失中的正则化权重为0.01,模型的学习率为0.1。具体公式为:
其中,λ||θ||2是L2正则化项。y是句子的目标分布,是预测的情感句分布。i是句子序号,j是观点句类别。
本发明的有益效果是:
1、本发明首先针对汉语和越南语标记资源不平衡的问题,构建了汉越双语词嵌入模型;然后分别计算句子的主题、位置以及情感特征的权重,并将这些句子权重分别融入词向量和注意力机制中,实现句子语义信息和情感、主题、位置特征的结合;
2、本发明通过融合句子的语义信息和多个观点句相关的特征,来改善观点句抽取的效果,能有效地提高汉越新闻观点句抽取的准确性。
附图说明
图1为本发明中的实验步骤示意图;
图2为本发明中汉越双语词嵌入模型的整体架构示意图;
图3为本发明中汉越观点句抽取模型的具体细节示意图。
具体实施方式
实施例1:如图1-3所示,一种多特征融合的汉越新闻观点句抽取方法,包括如下具体步骤:
(1)从汉越新闻语料库中选择35000篇汉语、越南语新闻,以及10W条汉越平行句对来训练汉越双语词向量。手动挑选并标记了1367篇越南语新闻观点句和8552篇汉语新闻的观点句作为汉越新闻观点句抽取的数据集。训练集、测试集、验证集在数据集中的占比分别为90%,5%,5%。在采用的汉越双语情感词典中,中文情感词典规模为4626,越南文情感词典规模为2939;
(2)使用35000篇汉越新闻文本和10W条汉越平行句对来训练汉越双语词嵌入模型;具体的,首先使用汉语语料和越南语语料分别训练汉语和越南语的单语词嵌入模型,然后用汉语和越南语平行句对来对汉语和越南语的单语词嵌入模型进行联合训练,构建汉越双语词嵌入模型。使用skip-gram训练单语词嵌入模型。在训练汉越双语词嵌入模型时采用异步随机梯度下降的方法,分别为单语词嵌入损失计算和汉越双语正则化误差计算设置不同的线程;
在联合训练过程时,汉语和越南语的目标函数的具体公式为:
其中,L(wt,h;θl)表示单语词嵌入模型的目标函数,正则项Ω(θc,θv)表示中文词语和越南语词语的关联程度;用汉越双语的正则化项Ω(θc,θv)对单语模型进行约束,汉越双语正则项约束的具体公式为:
Ω(θc,θv)=λ1Ωtranslation(θc,θv)+λ2Ωemotion(θc,θv)
其中,λ1和λ2分别表示语义关联和情感关联这两种关联约束在训练过程中的权重;θc,θv分别表示汉越和越南语的词向量,汉越双语正则化约束的具体计算公式为:
其中,ri c表示中文词i训练得到的词向量,表示越南词j训练到的词向量,ai,j表示中文词i和越南词j之间的翻译评分,bi,j表示中文词i和越南词j之间的情感评分,翻译评分通过汉越平行句对的互译词表获得,情感评分通过汉越双语情感词典获得;Vc表示中文的词表,Vv表示越南语的词表,E表示汉越双语情感词典。
(3)计算新闻中每个句子的观点句特征权重:观点句特征权重具体包括了句子的主题相关度特征、情感特征和位置特征:
句子主题相关度score1的计算公式具体为:
其中,ST表示新闻标题的向量表征,S表示新闻中每个句子的向量表征。
句子在文档中的位置特征score2计算公式具体为:
其中,n表示文档中的句子数目,i表示当前句子是文档中的第i句话。
句子si的情感特征score3计算公式具体为:
其中,emotion(wi,k)表示词wi,k是否为情感词,如果该词是情感词,则emotion(wi,k)的值为1;否则为0。m表示句子中词的个数。
接下来利用步骤Step2构建的汉越双语词嵌入模型将汉语、越南语新闻的词编码为双语词向量。然后在双语词向量后拼接词所在句子的主题相关度特征、情感特征和位置特征。
(4)将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接,实现句子语义信息和观点句特征的融合,然后,在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中,提升模型对观点句特征的识别能力。
(5)在注意力机制中融入句子的观点句特征权重,得到句子在主题、位置、情感方面的表征;
Step5.1、首先将LSTM网络输出的隐藏状态和观点句特征通过一层神经网络进行拼接,具体公式如下:
其中H是LSTM网络中每个神经元输出的隐向量组成的矩阵,V是词编码层中每个词所在句子的主题、情感、位置特征向量组成的特征矩阵,Wh和Wv是参数矩阵;
Step5.2、其次,通过softmax分类器对拼接后的隐藏状态M进行分类,得到注意力的权重向量;然后将注意力机制的权重向量和LSTM网络输出的隐藏状态相乘,得到主题相关度、位置信息和情感信息在句子表征中的权重;具体公式如下:
α=softmax(WTM)
r=HαT
其中,α是注意力机制的权重向量,WT表示softmax分类器的参数矩阵;H是LSTM网络中每个神经元输出的隐向量组成的矩阵,最后得到的r是主题相关度、位置信息和情感信息在句子表征中的权重;
Step5.3、然后,将LSTM网络的最后一个隐藏状态的输出以及主题、位置、情感信息的权重表征输入到一层神经网络中,得到句子在主题、位置、情感方面的表征;具体公式如下:
h*=tanh(Wpr+WxhN)
其中,hN是LSTM网络对句子建模的最后一个隐状态,包含了这个句子的语义信息,h*是句子在主题、位置、情感方面的表征,Wp和Wx是参数矩阵。
Step6、抽取观点句:
使用softmax分类器来判定句子是否为观点句。
为了验证本发明与其他模型的效果,本发明做了如下对比实验:表1为越南语观点句抽取模型和汉越双语观点句抽取模型的效果对比,表2为不同位置上融入不同观点句特征的效果对比;
表1越南语观点句抽取和汉越双语观点句抽取效果对比
Model | Prediction | Recall | F<sub>1</sub> |
越南语观点句抽取模型 | 0.529 | 0.603 | 0.564 |
汉越双语观点句抽取模型 | 0.637 | 0.654 | 0.645 |
表2不同位置上融入不同观点句特征的效果对比
从表1中可以看出,汉越双语观点句抽取模型在准确率、召回率和F1值上更高。该实验证明了汉越双语词嵌入模型和观点句抽取模型可以较好地缓解越南语标记缺失的问题,提升越南语新闻观点句抽取的效果。
从表2可以发现以下几点:首先,相比较句子主题特征和位置特征,融入句子情感特征更能提升观点句抽取的准确率。其次,相比在词向量中融入句子主题、位置和情感特征,同时在词向量和注意力机制中融入这些特征的准确率更高。该点说明了同时在词向量和注意力机制中进行融入的方法更能表征句子中的观点句相关信息。也就是说,同时在词向量和注意力机制中同时融入主题、位置和情感特征的方法取得了最好的效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.一种多特征融合的汉越新闻观点句抽取方法,其特征在于:具体步骤如下:
Step1、语料收集:收集中文新闻文本、越南语新闻文本以及汉越平行句对作为训练语料和测试语料;
Step2、构建汉越双语词嵌入模型:用中文语料和越南语语料分别训练汉语和越南语的单语词嵌入模型;然后用中文和越南语平行句子对汉语和越南语的单语词嵌入模型进行联合训练,构建汉越双语词嵌入模型;
Step3、计算新闻中每个句子的观点句特征权重:观点句特征权重具体包括了句子的主题相关度特征、情感特征和位置特征;
Step4、句子建模:在步骤Step2构建的双语词向量中拼接该词所在句子的观点句特征权重,然后将融合观点句特征权重的双语词向量输入到LSTM网络中进行句子建模;
Step5、在注意力机制中融入句子的观点句特征权重,得到句子在主题、位置、情感方面的表征;
Step6、使用softmax分类器来判定句子是否为观点句。
2.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法,其特征在于:所述步骤Step2中,在联合训练的过程中,使用汉越双语的正则化项对单语词嵌入模型进行约束;该方法不仅能学习到单语环境下不同词汇的关联关系,同时还能学习到中文词语和越南语词语之间的关联关系。
3.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法,其特征在于:所述步骤Step4中,将句子的主题、情感和位置特征与步骤Step2中构建的汉越双语词嵌入模型编码得到的汉越双语词向量进行拼接,实现句子语义信息和观点句特征的融合,然后,在步骤Step5中将句子的主题、情感和位置特征分别融入注意力机制中,提升模型对观点句特征的识别能力。
4.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法,其特征在于:
所述步骤Step2中,在联合训练过程时,汉语和越南语的目标函数的具体公式为:
其中,L(wt,h;θl)表示单语词嵌入模型的目标函数,正则项Ω(θc,θv)表示中文词语和越南语词语的关联程度;用汉越双语的正则化项Ω(θc,θv)对单语模型进行约束,汉越双语正则项约束的具体公式为:
Ω(θc,θv)=λ1Ωtranslation(θc,θv)+λ2Ωemotion(θc,θv)
其中,λ1和λ2分别表示语义关联和情感关联这两种关联约束在训练过程中的权重;θc,θv分别表示汉越和越南语的词向量,汉越双语正则化约束的具体计算公式为:
其中,ri c表示中文词i训练得到的词向量,表示越南词j训练到的词向量,ai,j表示中文词i和越南词j之间的翻译评分,bi,j表示中文词i和越南词j之间的情感评分,翻译评分通过汉越平行句对的互译词表获得,情感评分通过汉越双语情感词典获得;Vc表示中文的词表,Vv表示越南语的词表,E表示汉越双语情感词典。
5.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法,其特征在于:所述Step3中:
1)句子主题相关度score1的计算公式具体为:
其中,ST表示新闻标题的向量表征,S表示新闻中每个句子的向量表征;
2)句子在文档中的位置特征score2计算公式具体为:
其中,n表示文档中的句子数目,i表示当前句子是文档中的第i句话;
3)句子si的情感特征score3计算公式具体为:
其中,emotion(wi,k)表示词wi,k是否为情感词,如果该词是情感词,则emotion(wi,k)的值为1;否则为0,m表示句子中词的个数。
6.根据权利要求1所述的多特征融合的汉越新闻观点句抽取方法,其特征在于:所述Step5的具体步骤如下:
Step5.1、首先将LSTM网络输出的隐藏状态和观点句特征通过一层神经网络进行拼接,具体公式如下:
其中H是LSTM网络中每个神经元输出的隐向量组成的矩阵,V是词编码层中每个词所在句子的主题、情感、位置特征向量组成的特征矩阵,Wh和Wv是参数矩阵;
Step5.2、其次,通过softmax分类器对拼接后的隐藏状态M进行分类,得到注意力的权重向量;然后将注意力机制的权重向量和LSTM网络输出的隐藏状态相乘,得到主题相关度、位置信息和情感信息在句子表征中的权重;具体公式如下:
α=softmax(WTM)
r=HαT
其中,α是注意力机制的权重向量,WT表示softmax分类器的参数矩阵;H是LSTM网络中每个神经元输出的隐向量组成的矩阵,最后得到的r是主题相关度、位置信息和情感信息在句子表征中的权重;
Step5.3、然后,将LSTM网络的最后一个隐藏状态的输出以及主题、位置、情感信息的权重表征输入到一层神经网络中,得到句子在主题、位置、情感方面的表征;具体公式如下:
h*=tanh(Wpr+WxhN)
其中,hN是LSTM网络对句子建模的最后一个隐状态,包含了这个句子的语义信息,h*是句子在主题、位置、情感方面的表征,Wp和Wx是参数矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634929.2A CN110472047B (zh) | 2019-07-15 | 2019-07-15 | 一种多特征融合的汉越新闻观点句抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910634929.2A CN110472047B (zh) | 2019-07-15 | 2019-07-15 | 一种多特征融合的汉越新闻观点句抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472047A true CN110472047A (zh) | 2019-11-19 |
CN110472047B CN110472047B (zh) | 2022-12-13 |
Family
ID=68508688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910634929.2A Active CN110472047B (zh) | 2019-07-15 | 2019-07-15 | 一种多特征融合的汉越新闻观点句抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472047B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111178043A (zh) * | 2019-12-31 | 2020-05-19 | 武汉优聘科技有限公司 | 一种识别学术观点句的方法及系统 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN112926335A (zh) * | 2021-01-25 | 2021-06-08 | 昆明理工大学 | 融入共享主题特征的汉越新闻观点句抽取方法 |
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113076467A (zh) * | 2021-03-26 | 2021-07-06 | 昆明理工大学 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
CN113486657A (zh) * | 2021-07-26 | 2021-10-08 | 刘德喜 | 一种基于知识辅助的情感-原因对抽取系统 |
CN113626577A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023311A1 (en) * | 2006-09-13 | 2010-01-28 | Venkatramanan Siva Subrahmanian | System and method for analysis of an opinion expressed in documents with regard to a particular topic |
US20120179449A1 (en) * | 2011-01-11 | 2012-07-12 | Microsoft Corporation | Automatic story summarization from clustered messages |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
CN105138510A (zh) * | 2015-08-10 | 2015-12-09 | 昆明理工大学 | 一种基于微博的新词情感倾向判定方法 |
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN109829161A (zh) * | 2019-01-30 | 2019-05-31 | 延边大学 | 一种多语种自动摘要的方法 |
-
2019
- 2019-07-15 CN CN201910634929.2A patent/CN110472047B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100023311A1 (en) * | 2006-09-13 | 2010-01-28 | Venkatramanan Siva Subrahmanian | System and method for analysis of an opinion expressed in documents with regard to a particular topic |
US20120179449A1 (en) * | 2011-01-11 | 2012-07-12 | Microsoft Corporation | Automatic story summarization from clustered messages |
CN104991890A (zh) * | 2015-07-15 | 2015-10-21 | 昆明理工大学 | 一种基于汉越词对齐语料构建越南语依存树库的方法 |
CN105138510A (zh) * | 2015-08-10 | 2015-12-09 | 昆明理工大学 | 一种基于微博的新词情感倾向判定方法 |
CN107908712A (zh) * | 2017-11-10 | 2018-04-13 | 哈尔滨工程大学 | 基于术语提取的跨语言信息匹配方法 |
CN108536756A (zh) * | 2018-03-16 | 2018-09-14 | 苏州大学 | 基于双语信息的情绪分类方法及系统 |
CN108628828A (zh) * | 2018-04-18 | 2018-10-09 | 国家计算机网络与信息安全管理中心 | 一种基于自注意力的观点及其持有者的联合抽取方法 |
CN108984526A (zh) * | 2018-07-10 | 2018-12-11 | 北京理工大学 | 一种基于深度学习的文档主题向量抽取方法 |
CN109213995A (zh) * | 2018-08-02 | 2019-01-15 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN109829161A (zh) * | 2019-01-30 | 2019-05-31 | 延边大学 | 一种多语种自动摘要的方法 |
Non-Patent Citations (4)
Title |
---|
MD SHAD AKHTAR等: "Improving Word Embedding Coverage in Less-Resourced Languages Through Multi-Linguality and Cross-Linguality: A Case Study with Aspect-Based Sentiment Analysis", 《ACM TRANSACTIONS ON ASIAN AND LOW-RESOURCE LANGUAGE INFORMATION PROCESSING》 * |
杨启悦: "汉越新闻观点句抽取与聚类方法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
林思琦等: "融入多特征的汉越新闻观点句抽取方法", 《中文信息学报》 * |
赵虹杰等: "面向新闻的情感关键句抽取与极性判别", 《山西大学学报(自然科学版)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008274A (zh) * | 2019-12-10 | 2020-04-14 | 昆明理工大学 | 特征扩展卷积神经网络的案件微博观点句识别构建方法 |
CN111178043A (zh) * | 2019-12-31 | 2020-05-19 | 武汉优聘科技有限公司 | 一种识别学术观点句的方法及系统 |
CN111310476A (zh) * | 2020-02-21 | 2020-06-19 | 山东大学 | 一种使用基于方面的情感分析方法的舆情监控方法和系统 |
CN111339754B (zh) * | 2020-03-04 | 2022-06-21 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN112597278A (zh) * | 2020-12-25 | 2021-04-02 | 北京知因智慧科技有限公司 | 一种语义信息融合方法、装置、电子设备及存储介质 |
CN112685549A (zh) * | 2021-01-08 | 2021-04-20 | 昆明理工大学 | 融入篇章语义的涉案新闻要素实体识别方法及系统 |
CN112926335A (zh) * | 2021-01-25 | 2021-06-08 | 昆明理工大学 | 融入共享主题特征的汉越新闻观点句抽取方法 |
CN112926311A (zh) * | 2021-02-03 | 2021-06-08 | 昆明理工大学 | 一种结合序列和主题信息的无监督方面词提取方法 |
CN113076467A (zh) * | 2021-03-26 | 2021-07-06 | 昆明理工大学 | 基于跨语言神经主题模型的汉越新闻话题发现方法 |
CN113076759A (zh) * | 2021-04-25 | 2021-07-06 | 昆明理工大学 | 基于答案类别和句法指导的案情阅读理解方法 |
CN113626577A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113626577B (zh) * | 2021-07-01 | 2022-11-01 | 昆明理工大学 | 基于阅读理解的汉越跨语言新闻事件要素抽取方法 |
CN113486657A (zh) * | 2021-07-26 | 2021-10-08 | 刘德喜 | 一种基于知识辅助的情感-原因对抽取系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110472047B (zh) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472047A (zh) | 一种多特征融合的汉越新闻观点句抽取方法 | |
CN110413741B (zh) | 一种面向主观题的智能阅卷方法 | |
CN110489541B (zh) | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 | |
CN109766544B (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN109635124A (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN110019839A (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN105843801B (zh) | 多译本平行语料库的构建系统 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN110347836A (zh) | 融入观点句特征的汉越双语新闻情感分类方法 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN107247751B (zh) | 基于lda主题模型的内容推荐方法 | |
CN112417854A (zh) | 中文文档抽取式摘要方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN111914532A (zh) | 一种中文作文评分方法 | |
CN105868187B (zh) | 多译本平行语料库的构建方法 | |
CN113505200A (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN110472245B (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN110717341A (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN111708878A (zh) | 一种体育文本摘要提取方法、装置、存储介质及设备 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN115311465A (zh) | 一种基于双注意力模型的图像描述方法 | |
CN110516230A (zh) | 基于枢轴语言的汉-缅双语平行句对抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |