CN112287105A - 融合标题和正文双向互注意力的涉法新闻相关性分析方法 - Google Patents
融合标题和正文双向互注意力的涉法新闻相关性分析方法 Download PDFInfo
- Publication number
- CN112287105A CN112287105A CN202011055105.9A CN202011055105A CN112287105A CN 112287105 A CN112287105 A CN 112287105A CN 202011055105 A CN202011055105 A CN 202011055105A CN 112287105 A CN112287105 A CN 112287105A
- Authority
- CN
- China
- Prior art keywords
- text
- title
- news
- mutual attention
- auxiliary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 71
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 21
- 238000002474 experimental method Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 239000002775 capsule Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合标题和正文双向互注意力的涉法新闻相关性分析方法,属于自然语言处理技术领域。本发明包括步骤:获取标题和正文的词级特征向量;构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力;分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系,然后把提取到的深层次关系在高维度联合,以得到整篇新闻的完整信息;根据新闻特性判断其是否属于涉法新闻。本发明相比基线模型准确率提高了2.7%,实验结果表明利用标题和正文以及它们之间的相互作用对新闻文本分类有很好的支撑作用。
Description
技术领域
本发明涉及融合标题和正文双向互注意力的涉法新闻相关性分析方法,属于自然语言处理技术领域。
背景技术
涉法新闻相关性分析通常是通过文本分类的方法来解决,早期阶段,研究人员基于传统的机器学习来解决文本分类问题,如TF-IDF,朴素贝叶斯等利用特征工程进行文本分类。随着深度学习模型的迅速发展,各种针对文本分类问题的深度学习模型都取得了很好的效果,但是针对两种文本联合进行分类的研究较少。就涉法新闻相关性分析来说,由于涉法新闻文本描述的内容覆盖范围广,新闻具有标题和正文,有些新闻的标题和正文涉法特征都不明显,因此,单从标题或正文很难很好的判断新闻是否涉法。
本发明主要考虑到利用标题和正文的相互作用并联合建模进行分类。因此,本发明在Minjoon等人、Yang等人和Wan等人提出的BiDAF模型的基础上,在深度学习框架下,充分利用新闻标题和正文之间的相互作用,融合标题和正文构建双向互注意力,探索涉法新闻文本分类方法。
发明内容
本发明提供了融合标题和正文双向互注意力的涉法新闻相关性分析方法,来充分利用新闻标题和正文之间的相互作用,用以提高涉法新闻相关性分析的准确率。同时相比其他基线方法在涉法新闻相关性分析任务中取得更优的结果。
本发明的技术方案是:融合标题和正文双向互注意力的涉法新闻相关性分析方法,所述方法包括:
Step1、获取标题和正文的词级特征向量;
Step2、构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力;
Step3、分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系,然后把提取到的深层次关系在高维度联合,以得到整篇新闻的完整信息;
Step4、根据新闻特性判断其是否属于涉法新闻。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入注意力机制,得到加权后的标题词级特征向量;
Step1.2、对正文文档进行分句,再对每个句子进行分词,之后对每个句子的词进行编码得到向量,再通过注意力机制来分别提取文档中每个句子的词级特征向量。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、构建标题与正文相似矩阵;
Step2.2、计算正文辅助标题的双向互注意力,从而获取正文辅助标题的双向互注意力向量;
Step2.3、计算正文辅助标题的双向互注意力,从而获取标题辅助正文的双向互注意力向量。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系;
Step3.2、对两个双向互注意力向量进行特征提取,用连接残差来最大程度确保所有信息进入输出网络层,实现标题与正文的交叉融合。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、从网络层输出的新闻完整特征中提取最显著特征Y来判断新闻是否属于涉法新闻;
Y=Maxpooling(H)∈R10d
本发明的有益效果是:
本发明基于将标题和正文这两种信息视为共同上下文来使用这一概念,采用了一种结合标题和正文构建双向互注意力的学习方法来充分利用新闻标题和正文之间的相互作用,用以提高涉法新闻相关性分析的准确率。
构造了一个涉法新闻数据集并使用本文方法进行实验,实验结果表明本发明提出方法相比其他基线方法在实验中取得更优的结果。
附图说明
图1为本发明中的具体流程框图;
图2为本发明中的利用相似矩阵进行双向互注意力计算的示意图。
具体实施方式
实施例1:如图1-图2所示,融合标题和正文双向互注意力的涉法新闻相关性分析方法,所述方法包括:
Step1、首先输入新闻标题和新闻正文进行特征编码,输入的这两种文本的结构不同,新闻标题通常使用单句描述,而新闻正文是一篇文档,因此,将这两部分分开处理,对标题进行句子级信息提取,正文进行文档级信息提取,获取标题和正文的词级特征向量;
Step2、构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力;
Step3、分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系,然后把提取到的深层次关系在高维度联合,以得到整篇新闻的完整信息;
Step4、根据新闻特性判断其是否属于涉法新闻。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入注意力机制,得到加权后的标题词级特征向量;
Step1.2、对正文文档进行分句,再对每个句子进行分词,之后对每个句子的词进行编码得到向量,再通过注意力机制来分别提取文档中每个句子的词级特征向量。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、构建标题与正文相似矩阵;
Step2.2、计算正文辅助标题的双向互注意力,从而获取正文辅助标题的双向互注意力向量;
Step2.3、计算正文辅助标题的双向互注意力,从而获取标题辅助正文的双向互注意力向量。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系;
Step3.2、对两个双向互注意力向量进行特征提取,用连接残差来最大程度确保所有信息进入输出网络层,实现标题与正文的交叉融合。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、从网络层输出的新闻完整特征中提取最显著特征Y来判断新闻是否属于涉法新闻;
Y=Maxpooling(H)∈R10d (18)
实施例1:如图1-图2所示,融合标题和正文双向互注意力的涉法新闻相关性分析方法,所述方法包括:
Step1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入注意力机制,得到加权后的标题词级特征向量;对正文文档进行分句,再对每个句子进行分词,之后对每个句子的词进行编码得到向量,再通过注意力机制来分别提取文档中每个句子的词级特征向量。
Step2、构建标题与正文相似矩阵;计算正文辅助标题的双向互注意力,从而获取正文辅助标题的双向互注意力向量;计算正文辅助标题的双向互注意力,从而获取标题辅助正文的双向互注意力向量
用双向互注意力网络层来负责连接和融合新闻标题与新闻正文中的信息。该层网络将每次计算出来的注意力向量与前一次输入的内容都流向后续的网络层,减少了由于早期汇总引起的信息丢失。本文在两个方向上进行计算注意力:从标题到正文以及从正文到标题
Step3、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系;对两个双向互注意力向量进行特征提取,用连接残差来最大程度确保所有信息进入输出网络层,实现标题与正文的交叉融合;
Step4、根据新闻特性判断其是否属于涉法新闻。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、对标题进行特征提取,是通过使用大规模微博数据预训练的中文微博词向量,该词向量是由word2vec开源工具中的Skip-gram模型预训练的,用以获得标题中每个词wi,i∈[1,N]的嵌入表征xi∈R300;
双向门控循环单元(BiGRU)包括从x1到xN读取隐状态的前向GRU和从xN到x1读取隐状态的后向GRU。本文将标题中每个词的嵌入表征xi通过BiGRU转化为隐状态hi,具体操作如下:
hi=BiGRU(xi)∈R2d,i∈[1,N] (1)
hi表示给定单词的完整隐状态,包含了词的双向上下文信息,d表示GRU隐层输出维度。但是并非所有词对句子含义的表达都有同等的贡献,因此引入注意力机制来提取对句子有意义的词,得到加权后的标题词级特征向量,具体操作如下:
ui=tanh(Wwhi+bw) (2)
Ti=αihi∈R2d (4)
T=[T1,T2,...,TN]∈R2d*N (5)
本文首先通过多层感知机来得到hi的隐藏表示形式ui,然后将ui与单词级上下文向量uw的相似性作为词重要性的度量,并通过softmax函数进行归一化来确定权重αi,最终得到加权后的标题词级特征向量T∈R2d*N;
Step1.2、对正文进行编码与特征提取的方式与标题特征提取的做法类似,不同的是,由于新闻正文通常是一篇文档,因此借鉴了分层编码的思想,对正文文档进行分句,得到句子Sj,j∈[1,M],再对每个句子进行分词得到wjk,k∈[1,L],其中M代表每个文档中的句子个数,L代表每个句子中的词个数。再将每个句子的词进行编码,得到向量Sjk后通过BiGRU得到隐状态hjk,再通过注意力机制来分别提取文档中每个句子的词级特征向量Cj=[Cj1,Cj2,...,CjL],j∈[1,M],即是正文词级特征向量;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、本文进行标题与正文相似矩阵的构建,正文辅助标题相似矩阵S如图2所示;
Sik=α(T:i,C:k)∈RN*L (6)
其中Sik表示第i个标题描述词和第k个正文辅助词之间的相似度,T:i表示T的第i列向量,C:k表示C的第k列向量,α表示计算T与C之间相似度的可训练函数,如公式(7)所示:
其中是待训练的权重向量,是逐元素乘法,[;]是跨行的向量串联,而因式乘法表示矩阵乘法,t与T的列向量对应,c与C的列向量对应。这样得到正文辅助标题的相似矩阵S∈RN*L。标题辅助正文的相似矩阵与之类似,只需要将输入顺序转置即可。
Step2.2、本文对正文辅助标题相似矩阵S中的列向量进行softmax归一化得到注意力权重ai,再将ai与正文C中的每个词进行加权求和,就可以得到标题对正文的注意力向量矩阵U;
ai=softmax(Si:)∈RL (8)
U=∑aikC:k∈R2d*N (9)
正文对标题的注意力在正文辅助标题的情况下,指的是标题中哪个词与正文词之一具有最高的相似性。这些词对于学习标题关键特征来说至关重要。如图2所示,本文先对S中的每一列取最大值,再经过softmax归一化后得到标题词对正文词的注意力权重p,再用p与标题词进行加权求和,得到所关注标题词的向量f,该向量表示标题词相对正文而言最重要的词的加权和,f在列方向上平铺N次,得到正文对标题的注意力向量矩阵F。
p=softmax(maxcol(S))∈RN (10)
f=∑ipiT:i∈R2d (11)
为了减少信息丢失,将T,U,F联合共同传递给后续网络层。最终可以得到完整的正文辅助标题的双向互注意力向量。
Step2.3、本文用上述类似方法做标题辅助正文的双向互注意力计算。将正文辅助标题的相似矩阵S更变为标题辅助正文的相似矩阵S′,即可得到正文对标题的注意力U′∈R2d*L以及标题对正文的注意力F′∈R2d*L,最后将C,U′,F′三者通过函数得到完整的标题辅助正文的双向互注意力向量。
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、本文采用两个BiGRU来分别提取两个双向互注意力向量的上下文依赖关系。通过联合标题与正文之间的相互注意力进行特征提取,进行标题与正文之间的交互;
M=BiGRU(G)∈R2d*N (13)
M′=BiGRU(G′)∈R2d*L (14)
其中M表示对正文辅助标题的双向互注意向量进行特征提取的结果,M′表示对标题辅助正文的双向互注意向量进行特征提取的结果。
Step3.2、本文对两个双向互注意力向量进行特征提取后,连接残差以最大程度确保所有信息进入输出网络层;
MG=[M;G]∈R10d*N (15)
MG′=[M′;G′]∈R10d*L (16)
H=(MG;MG′)∈R10d*(L+N) (17)
其中MG和MG′分别是连接残差后的网络输出,代表正文辅助标题情况下体现的新闻特征和标题辅助正文情况下体现的新闻特征。H表示联合MG和MG′的新闻完整特征,代表了该篇新闻的所有信息,此变量将送入输出层。(;)表示在列向量上进行拼接。至此便实现了标题与正文的交叉融合。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、从输出的新闻完整特征中提取最显著特征Y来判断新闻是否属于涉法新闻;
Y=Maxpooling(H)∈R10d (18)
本发明构建了一个涉法新闻数据集用于进行实验,并结合本文方法做了三类实验,一类是与其他基线模型的性能进行对比实验,另一类是本文方法的各部分特征有效性验证实验,此外还进行了新闻实例测试分析实验,用于验证本文方法对于标题或正文无涉法特征的新闻可以进行性能提升,并结合实例分析了本文方法的不足。
实验参数的选取直接影响最后的实验结果。由于新闻标题长度大多在10到30个字符之间,新闻正文句子个数大多数在5到13之间,单句长度分布和标题类似。因此本文设置标题句子最大长度为20个字符,正文的最大句子个数为10,单句的最大长度也为20个字符。采用Adam算法作为优化器;学习率设为0.01;单层BiGRU的随机失活率设为丢失0.2;双层BiGRU的Dropout设为丢失0.5;批次处理大小设为16;训练轮次设置为20。本文的评价指标主要采用准确率(Acc.)、精确率(P)、召回(R)和F1值。
本发明主要采用了五种经典的文本分类模型来作为基线模型进行对比。基线模型如下:
CNN模型:Kim等人提出将CNN应用于文本分类中。该模型主要包括一个卷积层和一个池化层,最后再通过一个全连接层进行分类。
LSTM模型:使用两层的LSTM进行特征提取,再通过一个全连接层进行分类。
RCNN模型:Lai等人提出的一种结合RNN和CNN进行分类的神经网络模型。本模型主要包括一个双向递归网络层和一个卷积层,再通过一个全连接层进行分类。
Capsule模型:Zhao等人针对短文本分类提出一种具有动态路由的胶囊网络。
HAN模型:Yang等人针对文档分类提出的一种分层注意网络。
本发明采用上诉基线模型进行对比实验,并对基线模型分别在仅标题,仅正文以及标题联合正文三种情况进行训练。对于本文方法,在仅标题的情况下本文将正文使用标题替代,在仅正文的情况下本文将标题使用正文的第一句替代。实验结果对比结果如表1所示。
表1为基线模型实验结果对比
在仅标题和仅正文的情况下,本发明方法的准确率Acc.和F1值均取得最优结果,且在标题联合正文的情况下,本文方法的Acc.、P、R和F1值均超过其他基线模型在三种情况下的全部实验结果,Acc.提升了2.7%,F1值提升了2.0%。其次,本发明模型在标题联合正文输入时的结果相比在仅标题输入和仅正文输入时的结果,Acc提升了1.9%,F1值提升了1.5%。最后,在标题联合正文的情况下,本文方法的实验结果相比其他基线模型均有较大提升,其中Acc提升了3.7%,F1值提升了2.7%,有力地证明了本文所提出的融合标题和正文双向互注意力的学习方法的优越性。
表2为各部分特征有效性实验结果
本实验各部分特征有效性实验结果如表2所示。在除去某些特征的情况下,本文方法的Acc.、P、R和F1值均超过表1对比实验中的其他基线模型。分别在未使用BiGRU进行上下文特征提取、正文辅助标题情况下的双向互注意力以及标题辅助正文情况下的双向互注意力的三种情况下,实验结果的Acc.、P、R和F1均略微下降。特别的,当在正文特征提取时未使用Maxpooling转而使用分层编码网络的句子级注意力机制时,效果相比本文模型也略有下降,是因为对文档的分层编码思想是立足于关注全文特征,包括结构信息等,而Maxpooling是立足于关注关键句子特征,验证了本文在进行正文特征编码时提到的对于正文中单句涉法即全文涉法的观点。
表3为三个新闻实例
表4为三个新闻实例测试结果
本发明选用如表3所示新闻案例进行验证。表中的三个新闻实例实际都属于涉法新闻,分别代表了标题无涉法特征、正文涉法特征弱、正文无涉法特征三种情况。此三种新闻实例非常具有代表性。本发明选用上述基线模型中综合效果比较好的RCNN和Capsule来进行实验,其中0代表不涉法,1代表涉法。三个新闻实例正确的测试结果应该是1\1\1。测试结果如表4所示,由此可以证明,本发明的学习方法可以更好的联合标题和正文进行新闻分类,有效的解决新闻标题或正文涉法特征不强而造成分类不准确的问题,提高了涉法新闻相关性的准确率。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (5)
1.融合标题和正文双向互注意力的涉法新闻相关性分析方法,其特征在于:所述方法的具体步骤如下:
Step1、获取标题和正文的词级特征向量;
Step2、构建标题和正文相似矩阵去分别计算正文辅助标题的双向互注意力、正文辅助标题的双向互注意力;
Step3、分别对正文辅助标题以及标题辅助正文这两种情况下得到的双向互注意力向量进一步提取深层次关系,然后把提取到的深层次关系在高维度联合,以得到整篇新闻的完整信息;
Step4、根据新闻特性判断其是否属于涉法新闻。
2.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、使用中文微博词向量来获得标题中每个词的嵌入表征,引入注意力机制,得到加权后的标题词级特征向量;
Step1.2、对正文文档进行分句,再对每个句子进行分词,之后对每个句子的词进行编码得到向量,再通过注意力机制来分别提取文档中每个句子的词级特征向量。
3.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、构建标题与正文相似矩阵;
Step2.2、计算正文辅助标题的双向互注意力,从而获取正文辅助标题的双向互注意力向量;
Step2.3、计算正文辅助标题的双向互注意力,从而获取标题辅助正文的双向互注意力向量。
4.根据权利要求1所述的融合标题和正文双向互注意力的涉法新闻相关性分析方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、使用两个BiGRU来分别提取正文辅助标题的双向互注意力向量、标题辅助正文的双向互注意力向量的上下文依赖关系;
Step3.2、对两个双向互注意力向量进行特征提取,用连接残差来最大程度确保所有信息进入输出网络层,实现标题与正文的交叉融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055105.9A CN112287105B (zh) | 2020-09-30 | 2020-09-30 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055105.9A CN112287105B (zh) | 2020-09-30 | 2020-09-30 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287105A true CN112287105A (zh) | 2021-01-29 |
CN112287105B CN112287105B (zh) | 2023-09-12 |
Family
ID=74421143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011055105.9A Active CN112287105B (zh) | 2020-09-30 | 2020-09-30 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287105B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
CN113435436A (zh) * | 2021-06-03 | 2021-09-24 | 北京理工大学 | 一种基于线性约束矫正网络的场景文字识别方法 |
CN115080715A (zh) * | 2022-05-30 | 2022-09-20 | 重庆理工大学 | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
JP2010061587A (ja) * | 2008-09-05 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書判定装置、類似判定方法およびそのプログラム |
CN109753567A (zh) * | 2019-01-31 | 2019-05-14 | 安徽大学 | 一种结合标题与正文注意力机制的文本分类方法 |
CN109902175A (zh) * | 2019-02-20 | 2019-06-18 | 上海方立数码科技有限公司 | 一种基于神经网络结构模型的文本分类方法及分类系统 |
CN110162777A (zh) * | 2019-04-01 | 2019-08-23 | 广东外语外贸大学 | 一种看图写作型作文自动评分方法和系统 |
CN110489541A (zh) * | 2019-07-26 | 2019-11-22 | 昆明理工大学 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
CN110516053A (zh) * | 2019-08-15 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 对话处理方法、设备及计算机存储介质 |
CN110704622A (zh) * | 2019-09-27 | 2020-01-17 | 北京明略软件系统有限公司 | 文本情感分类方法、装置及电子设备 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
-
2020
- 2020-09-30 CN CN202011055105.9A patent/CN112287105B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990628B1 (en) * | 1999-06-14 | 2006-01-24 | Yahoo! Inc. | Method and apparatus for measuring similarity among electronic documents |
JP2010061587A (ja) * | 2008-09-05 | 2010-03-18 | Nippon Telegr & Teleph Corp <Ntt> | 類似文書判定装置、類似判定方法およびそのプログラム |
CN109753567A (zh) * | 2019-01-31 | 2019-05-14 | 安徽大学 | 一种结合标题与正文注意力机制的文本分类方法 |
CN109902175A (zh) * | 2019-02-20 | 2019-06-18 | 上海方立数码科技有限公司 | 一种基于神经网络结构模型的文本分类方法及分类系统 |
CN110162777A (zh) * | 2019-04-01 | 2019-08-23 | 广东外语外贸大学 | 一种看图写作型作文自动评分方法和系统 |
CN110489541A (zh) * | 2019-07-26 | 2019-11-22 | 昆明理工大学 | 基于案件要素及BiGRU的涉案舆情新闻文本摘要方法 |
CN110516053A (zh) * | 2019-08-15 | 2019-11-29 | 出门问问(武汉)信息科技有限公司 | 对话处理方法、设备及计算机存储介质 |
CN110704622A (zh) * | 2019-09-27 | 2020-01-17 | 北京明略软件系统有限公司 | 文本情感分类方法、装置及电子设备 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
Non-Patent Citations (6)
Title |
---|
BEAKCHEOL JANG等: "Bi-LSTM model to increase accuracy in text classification:combining Word2vec CNN and attention mechanism", vol. 10, no. 17, pages 1 - 14 * |
CHUHAN WU等: "Neural news recommendation with attentive multi-view learning", pages 1 - 7 * |
ZHANG YU等: "Correlation analysis of law-related news combining bidirectional attention flow of news title and body", vol. 40, no. 3, pages 5623 - 5635 * |
秦成磊等: "基于层次注意力网络模型的学术文本结构功能识别", no. 11, pages 26 - 42 * |
聂原平: "面向社交网络的文本分析关键技术研究", no. 01, pages 138 - 260 * |
财神CHILDE: "阅读理解之(bidaf)双向注意力流网络", 《HTTPS://BLOG.CSDN.NET/MR2ZHANG/ARTICLE/DETAILS/91347503》, 12 June 2019 (2019-06-12), pages 1 - 7 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966103A (zh) * | 2021-02-05 | 2021-06-15 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN112966103B (zh) * | 2021-02-05 | 2022-04-19 | 成都信息工程大学 | 一种基于多任务学习的混合注意力机制文本标题匹配方法 |
CN113435436A (zh) * | 2021-06-03 | 2021-09-24 | 北京理工大学 | 一种基于线性约束矫正网络的场景文字识别方法 |
CN113378950A (zh) * | 2021-06-22 | 2021-09-10 | 深圳市查策网络信息技术有限公司 | 一种长文本的无监督分类方法 |
CN115080715A (zh) * | 2022-05-30 | 2022-09-20 | 重庆理工大学 | 基于残差结构和双向融合注意力的跨度提取阅读理解方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112287105B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN111241294B (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
CN112287105A (zh) | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 | |
Qiu et al. | DGeoSegmenter: A dictionary-based Chinese word segmenter for the geoscience domain | |
Deng et al. | Syntax-guided hierarchical attention network for video captioning | |
Wang et al. | A hybrid document feature extraction method using latent Dirichlet allocation and word2vec | |
CN110990564B (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
Xu et al. | Deep reinforcement polishing network for video captioning | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Zhang et al. | Image caption generation using contextual information fusion with Bi-LSTM-s | |
CN115018941A (zh) | 一种基于改进版文本解析器的文本至图像生成算法 | |
CN112966069A (zh) | 一种基于普遍认知与个体认知的虚假新闻检测系统及方法 | |
CN112507717A (zh) | 融合实体关键字特征的医疗领域实体分类方法 | |
Zhang et al. | Multi-head self-attention gated-dilated convolutional neural network for word sense disambiguation | |
Wang et al. | BDBRC: A Chinese military entity recognition model combining context contribution and residual dilatation convolutional networks | |
CN113901172B (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 | |
CN114580423A (zh) | 一种基于Bert与Scat的页岩气领域命名实体识别方法 | |
CN113255360A (zh) | 基于层次化自注意力网络的文档评级方法和装置 | |
CN113901843A (zh) | 融合bert与词嵌入双重表征的汉越神经机器翻译方法 | |
CN111709245A (zh) | 基于语义自适应编码的汉-越伪平行句对抽取方法 | |
Xie et al. | Enhancing multimodal deep representation learning by fixed model reuse | |
Zheng | Modeling context and knowledge for dialogue generation | |
Jiang et al. | Research on Generative Text Summarization Fusing Multidimensional Semantic Information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |