CN111813924A - 基于可扩展动态选择与注意力机制的类别检测算法及系统 - Google Patents
基于可扩展动态选择与注意力机制的类别检测算法及系统 Download PDFInfo
- Publication number
- CN111813924A CN111813924A CN202010659504.XA CN202010659504A CN111813924A CN 111813924 A CN111813924 A CN 111813924A CN 202010659504 A CN202010659504 A CN 202010659504A CN 111813924 A CN111813924 A CN 111813924A
- Authority
- CN
- China
- Prior art keywords
- sentence
- layer
- vector
- lstm
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 146
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012216 screening Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012886 linear function Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 description 6
- 239000003814 drug Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229940012982 picot Drugs 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于可扩展动态选择与注意力机制的类别检测方法与系统,方法包括以下步骤:将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi‑LSTM,分别得到第一句向量、第二句向量;通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量;将摘要中所有单个句子对应的主句向量组成摘要向量序列并通过注意力网络进行加权;经注意力网络加权后的输出进入层连Bi‑LSTM网络,单个主句向量匹配上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。该方法能避免信息重复,同时,加入基于注意力的网络,解决现有类别检测方法中语义空洞问题。
Description
技术领域
本发明属于医学文本摘要信息化处理技术领域,具体涉及一种基于可扩展动态选择与注意力机制的类别检测算法及系统。
背景技术
循证医学(Evidence-Based Medicine,EBM)是一种临床实践方法,其作为一种流行的医学研究范式,使用当前的最佳证据来辅助医疗决策;在循证医学中,搜寻医学证据是最为关键的一个环节,医学证据主要存在于医学文献或医学指南中,但是大部分文献和指南都是以无结构化的形式呈现,这为医生搜寻最佳证据带来了困扰,故为方便医生快速找到医学证据,需要将文献按照某种医学模式进行结构化表示,即类别检测。
近几年,面向循证医学领域的类别检测研究得到了发展,研究者多着眼于以自动化的形式寻找临床证据,主要采用机器学习的方法对文献根据PICO或类似模式进行划分,有利于更高效地鉴别高质量文献和筛选最佳证据。对于文献的处理,大多以词粒度和句粒度代替文档粒度,或以多者结合的方式,因医学领域的独特性,其规则制定与语义分析成为了研究难点;且又因自然语言的多样性,如何正确对序列进行建模和分析语义是句子分类任务面临的重大困难。
现有方法大多忽略了上下文信息和句子之间的依赖关系,或是会出现信息重复问题,并且在较长文本中会出现语义“空洞”问题,比如,Wang等人在其论文“A categorydetection method for Evidence-based Medicine”中提出采用双通道层连网络(HMcN)进行类别检测,HMcN在进行类别检测时融入摘要文本的上下文信息,考虑了医学文本的特殊性,但这种方法会产生信息重复问题,且无法解决长文本的语义“空洞”问题,即当前句子的相邻语句发生了主题偏移,相关语义信息存在于更早之前的语句中;Jin等人最先将深度学习用于循证医学类别检测任务,该模型大大提升序列句子分类任务的效果,但该模型在生成句向量时忽略了摘要内句子间的关系;Huang等人提出将朴素贝叶斯方法用于PICO类别检测中,隐马尔可夫模型(Hidden Markov Models,HMM)将输入序列看作观测序列、,类别序列看作状态序列,条件随机场(Conditional Random Fields,CRF)解决了HMM无法根据完整的上下文进行标注的问题,但以上三种方法往往需要大量手工构建特征,且特征只通过词频或其他形式表示,不可对词语语义进行表征。
发明内容
有鉴于此,本发明的目的之一在于提供一种基于可扩展动态选择与注意力机制的类别检测方法,该方法能减少对医学文献摘要进行类别检测信息重复、语义空洞问题。
为实现上述目的,本发明的技术方案为:一种基于可扩展动态选择与注意力机制的类别检测方法,包括以下步骤:
将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM,分别得到第一句向量、第二句向量;
通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量;
将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权;
经所述注意力网络加权后的输出进入层连Bi-LSTM网络,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。
进一步地,所述通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量的步骤,具体方式为:
通过以下公式计算得到隐层单元向量:
其中,为通过所述Bi-LSTM得到的所述第二句向量,为通过所述ELMo得到的第一句向量,σ为Sigmoid激活函数,Wa,We∈Ru×u为权重,u为动态选择的隐层单元数,vg∈Ru为偏置,g为u维的向量且每一维皆为大于0小于1的实数;
根据所述隐层单元向量通过动态选择机制筛选得到所述主句向量,具体计算公式为:
进一步地,所述将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权的步骤具体包括:
所述注意力网络中的Bi-LSTM接收一个包含n个单词的句子S={word1,...,wordn},S∈Rn×d,得到两个方向的隐层表示,将其拼接作为经Bi-LSTM编码后的结果H∈Rn ×2×u,d为维度,u为LSTM隐层神经元数目;
H作为输入进入注意力网络,按照以下公式从多个层面对计算注意力权重:
A=soft max(Ws2 tanh(Ws1HT));
其中,Ws1∈Rda×2×u注意力的权重参数,Ws2∈Rr×da表示通过关注句子的r个层面来对句子进行编码,A为n个单词进行加权求和的权重,da为注意力网络的隐层维度;
最后句子所有单词进行加权求和得到所述第二句向量,其公式为:
M=AH。
进一步地,所述层连Bi-LSTM网络包括多个层连的Bi-LSTM,其中,层连Bi-LSTM网络的首层的计算方式为:
A=Attention(S)·S;
为正则化项,A为摘要的矩阵经注意力网络处理后得到的最终结果,为第一层LSTM的正向第i个隐层状态;为第一层LSTM的正向第i-1个隐层状态,Ai为经注意力网络第i个句子得到的结果,为第一层LSTM的反向第i个隐层状态,lstm为lstm网络,为第一层LSTM的反向第i+1个隐层状态,att为注意力计算经softmax函数处理前结果,S为注意力计算经softmax函数处理前结果,ST为S的转置,atti为第i个句子的注意力计算经softmax函数处理前结果,attj为第j个句子的注意力计算经softmax函数处理前结果,n为单个句子中单词个数。
进一步地,所述多个层连的Bi-LSTM中,除首层Bi-LSTM外的其他层输入均为其上一层的输入与输出拼接。
有鉴于此,本发明的目的之二在于提供一种基于可扩展动态选择与注意力机制的类别检测系统,该系统能减少类别检测时的信息重复。
为实现上述目的,本发明的技术方案为:一种基于可扩展动态选择与注意力机制的类别检测系统,包括:
单句编码层,包括双通道融合预训练语言模型ELMo与Bi-LSTM,用于接收摘要中的所有单个句子,ELMo将其编码生成第一句向量、Bi-LSTM编码得到第二句向量;
动态选择模块,与所述单句编码层相连,用于筛选保留所述第一句向量、第二句向量中的一个并将其设为主句向量,并将摘要中所有单个句子对应的所述主句向量组成摘要向量序列;
文本信息嵌入层,与动态选择模块相连,包括注意力网络与层连Bi-LSTM网络,用于对摘要向量序列进行加权,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
标签优化层,与所述文本信息嵌入层相连,用于优化本生成概率形成标签概率序列。
进一步地,所述动态选择模块包括非线性函数控制的门控,用于计算门控大小,控制主句向量的选择。
进一步地,非线性函数控制的门控的计算方法为:
其中,为通过所述Bi-LSTM得到的所述第二句向量,为通过所述ELMo得到的第一句向量,ρ为Sigmoid激活函数,Wa,We∈Ru×u为权重,u为动态选择的隐层单元数,vg∈Ru为偏置,g为u维的向量且每一维皆为大于0小于1的实数。
进一步地,所述层连Bi-LSTM网络中,后一层的输入为前一层的输入与输出的拼接。
有益效果
本发明提供一种基于可扩展动态选择与注意力机制的类别检测系统,在双通道网络加入动态选择机制,以及采用门控机制决定输入上层网络双通道信息,降低了网络覆盖,避免信息重复,同时,加入基于注意力的网络,解决现有类别检测方法中语义空洞问题。与此同时,本发明还提供了一种基于可扩展动态选择与注意力机制的类别方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种基于可扩展动态选择与注意力机制的类别检测系统的一实施例结构示意图;
图2为本发明一种基于可扩展动态选择与注意力机制的类别检测方法的特征图像编码过程流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
参考图1为本发明一种基于可扩展动态选择与注意力机制的类别检测系统的一实施例结构示意图。具体地,一种基于可扩展动态选择与注意力机制的类别检测系统,包括:
单句编码层1,包括双通道融合预训练语言模型ELMo11与Bi-LSTM 12,用于接收摘要中的所有单个句子,ELMo将其中的单个句子编码生成第一句向量、Bi-LSTM将相同单个句子编码得到第二句向量;
本实施例中,ELMo将接受的摘要文本中一个句子进行编码,可得到第一句向量;同时Bi-LSTM将接受的摘要文本中一个句子进行编码得到第二句向量。
优选地,第二句向量中为多种方式对单个句子编码进行加权求和得到的。
动态选择模块2,与单句编码层1相连,用于筛选保留第一句向量、第二句向量中的一个并将其设为主句向量,并将摘要中所有单个句子对应的主句向量组成摘要向量序列;
本实施例中,动态选择模块包括非线性函数控制的门控,用于计算门控大小,控制主句向量的选择,具体地,动态选择模块2中门控大小动态取决于网络对于当前任务的学习而非人为设定进一步地,非线性函数控制的门控的计算方法为:
其中,为通过Bi-LSTM得到的第二句向量,为通过ELMo得到的第一句向量,σ为Sigmoid激活函数,Wa,We∈Ru×u为权重,u为动态选择的隐层单元数,vg∈Ru为偏置,g为u维的向量且每一维皆为大于0小于1的实数;
对主向量的选择公式在动态选择模块2中设为
文本信息嵌入层3,与动态选择模块相连,包括注意力网络与层连Bi-LSTM网络,用于对摘要向量序列进行加权,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
具体地,本实施例中注意力网络进行加权的步骤为:注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S={word1,...,wordn},S∈Rn×d,得到两个方向的隐层表示,将其拼接作为经Bi-LSTM编码后的结果H∈Rn×2×u,d为维度,u为LSTM隐层神经元数目;
H作为输入并按照以下公式从多个层面对主句向量计算注意力权重:
A=soft max(Ws2tanh(Ws1HT));
其中,Ws1∈Rda×2×u,Ws2∈Rr×da表示通过关注句子的r个层面来对句子进行编码,A为n个单词进行加权求和的权重,da为注意力网络的隐层维度;
最后句子所有单词进行加权求和得到句子向量矩阵,其公式为:
M=AH。
本实施例中,进一步地,层连Bi-LSTM网络中,除首层外,后一层的输入为前一层的输入与输出的拼接,其中,层连Bi-LSTM网络中首层的计算方式为:
A=Attention(S)·S;
为正则化项,A为摘要的矩阵经注意力网络处理后得到的最终结果,为第一层LSTM的正向第i个隐层状态;为第一层LSTM的正向第i-1个隐层状态,Ai为经注意力网络第i个句子得到的结果,为第一层LSTM的反向第i个隐层状态,lstm为lstm网络,为第一层LSTM的反向第i+1个隐层状态,att为注意力计算经softmax函数处理前结果,S为注意力计算经softmax函数处理前结果,ST S的转置,atti为第i个句子的注意力计算经softmax函数处理前结果,attj为第j个句子的注意力计算经softmax函数处理前结果,n为单个句子中单词个数。
标签优化层4,与文本信息嵌入层相连,用于通过CRF优化文本生成概率形成标签概率序列,得到摘要中每个句子属于每个标签的概率,本实施例中的标签是CRF数据集中已存在的标签。
实施例2
基于实施例1的基于可扩展动态选择与注意力机制的类别检测系统,本发明还提供一种基于可扩展动态选择与注意力机制的类别检测方法,参考图2的流程图,具体地,本方法包括以下步骤:
S500:将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM,分别得到第一句向量、第二句向量;然后执行步骤S600;
本实施例中,将摘要中的句子同时间通过ELMo通道与Bi-LSTM通道进行编码,经ELMo通道编码后可得到摘要中句子对应的第一句向量,经Bi-LSTM通道编码后可得到摘要中句子对应的第二句向量;
S600:通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量;
通过动态选择机制筛选保留第一句向量、第二句向量中的一个设为主句向量的步骤,具体方式为:
在第一句向量与第二句向量到达实施例1中的动态选择模块2时,通过以下公式计算得到隐层单元向量:
其中,为通过Bi-LSTM得到的第二句向量,为通过ELMo得到的第一句向量,σ为Sigmoid激活函数,Wa,We∈Ru×u为权重,u为动态选择的隐层单元数,vg∈Ru为偏置,g为u维的向量且每一维皆为大于0小于1的实数;
根据隐层单元向量通过动态选择机制筛选得到主句向量,具体计算公式为:
为主句向量;本实施例中,当门控g为0时,语言模型ELMo得到的第一句向量信息将被丢弃,Bi-LSTM网络得到的第二句向量信息将被保留并设为主句向量;当g为1时,语言模型ELMo得到的第一句向量信息将被保留并设为主句向量,Bi-LSTM网络得到的第二句向量信息将被丢弃;与简单拼接方式相比,通过此种方法动态控制句向量的信息流入,可以防止冗余信息进入上层网络,减少了实施例1的系统中的参数量,动态选择机制的可扩展性在于公式中与可以换成通用词向量、外部信息或任意文本表示。
S700:将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权;然后执行步骤S800;
本实施例中,注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S={word1,...,wordn},S∈Rn×d,得到两个方向的隐层表示,将其拼接作为经Bi-LSTM编码后的结果H∈Rn×2×u,u为LSTM隐层神经元数目;
H作为输入并按照以下公式对主句向量计算注意力权重:
a=soft max(ωs2 tanh(Ws1HT));
其中,Ws1∈Rda×2×u为注意力的权重参数,是可学习的随机变量,ωs2∈R1×da表示通过关注句子的1个层面来对句子进行编码,da为注意力网络的隐层维度HT为H的转置,a即为对各个单词进行加权求和的权重;
优选地,对于一个句子,不应只关注其中某一方面的信息,而应关注多方面的信息,以多种不同的方式对句子进行编码。
A=soft max(Ws2 tanh(Ws1HT));
其中,Ws1∈Rda×2×u为注意力的权重参数,是可学习的随机变量,Ws2∈Rr×da表示通过关注句子的r个层面来对句子进行编码,A为n个单词进行加权求和的权重,;
最后句子所有单词进行加权求和得到句子向量矩阵,其公式为:
M=AH。
S800:将经注意力网络加权后的输出进入层连Bi-LSTM网络,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;然后执行步骤S900;
参考实施例1中的层连Bi-LSTM网络包括多个层连的Bi-LSTM,本实施例中,在步骤S700中对主句向量进行加权后,再与原始输入数据即摘要文本拼接再输入到层连Bi-LSTM网络中,层连Bi-LSTM网络直接将上下文信息与自身进行匹配,它从输入序列中动态地收集信息并过滤冗余信息,具体地,将摘要向量序列输入层连Bi-LSTM网络,其中Bi-LSTM首层的计算方式为:
A=Attention(S)·S;
为正则化项,A为摘要的矩阵经注意力网络处理后得到的最终结果,为第一层LSTM的正向第i个隐层状态;为第一层LSTM的正向第i-1个隐层状态,Ai为经注意力网络第i个句子得到的结果,为第一层LSTM的反向第i个隐层状态,lstm为lstm网络,为第一层LSTM的反向第i+1个隐层状态,att为注意力计算经softmax函数处理前结果,S为注意力计算经softmax函数处理前结果,ST S的转置,atti为第i个句子的注意力计算经softmax函数处理前结果,attj为第j个句子的注意力计算经softmax函数处理前结果,n为单个句子中单词个数。
优选地,层连Bi-LSTM网络中除首层外的其他层输入方式与现有技术类似,均为其上一层的输入与输出拼接;因层连Bi-LSTM网络已提取了部分关键信息,层连Bi-LSTM网络响应减少了参数量,这样能为解决当维度较大时,出现数值爆炸问题。
本实施例中,在层连Bi-LSTM网络后,得到每个句子属于每个标签的概率,即为文本生成概率。
S900:采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。
本实施例中,将步骤S800中得到所有单个句子对应的文本生成概率整合成概率序列并输入到CRF中,其后通过CRF算法对文本生成概率序列进行优化得到标签概率序列。
实施例3
本实施例中,对实施例1的系统和实施例2的方法的有效性进行验证,具体地,本实施例中采用精确率(Precision,P)、召回率(Recall,R)和F1值度量实验效果,数据集采用PubMed 20k RCT数据集(该数据集来自于PubMed中20k发表最多的文章摘要)与AMRCPIO数据集(Jin提出的针对PICO类别检测的数据集),利用本发明中的系统与现有的模型如:LR(逻辑回归分类器)、CRF(条件随机场分类器)、Best Published(2012年Lui提出的基于多种特征集方法)、Bi-ANN(2017年Dernoncourt提出的标注模型)、Jin(2018Jin年提出的网络)、BERT+Transformer(Cohan将BERT预训练语言模型与Transformer编码器联合使用)、HMcN(Wang等人提出的基于双通道与层连网络的类别检测算法)进行对比,得到的结果如下表:
表格1 PubMed数据集整体效果
根据表1,本发明系统的F1值比其他模型分别提高F1分数0.5%-8.7%,很明显,DA-HMcN在各指标均明显优于其他模型,而与同样使用了预训练语言模型的BERT+Transformer模型,但本系统更注重文本信息嵌入与关键字段理解,而非大规模语料信息,且系统与BERT+Transformer模型相比训练复杂度较小;另由于本系统在各指标中皆优于HMcN模型,基于HMcN模型的特性,这表明本系统可以根据任务正确选择信息,将待分类语句语义聚焦在上下文中关键片段之上,解决了摘要文本中的语义“空洞”问题。
本实施例中,还对在AMRCPIO数据集各模型的效果做了对比,由于AMRCPIO数据集为针对PICO类别检测的数据集,本实施例更注重符合PICO模式的样本,所以着重分析P类别、I类别、O类别的实验情况,得到的效果如下表:
表格2 AMRCPIO数据集P类别实验结果(%)
表格3 AMRCPIO数据集I类别实验结果(%)
模型 | P(%) | R(%) | F1(%) |
LR | 55.6 | 55.0 | 55.3 |
CRF | 67.8 | 70.3 | 69.0 |
Jin | 72.7 | 81.3 | 76.7 |
DA-HMcN | 79.7 | 74.7 | 77.1 |
表格4 AMRCPIO数据集O类别实验结果(%)
模型 | P(%) | R(%) | F1(%) |
LR | 65.4 | 67.0 | 66.2 |
CRF | 76.0 | 76.3 | 76.2 |
Jin | 81.1 | 85.3 | 83.1 |
本发明系统 | 85.6 | 85.6 | 85.6 |
根据表格2-表格4,看出在三种类别的样本中,本发明中系统的F1值都优于其他模型,与Jin等人提出的针对PICO模式的模型相比,DA-HMcN更注重上下文信息,有效分析了待分类文本语义和摘要中与待分类句子相关文本的语义。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于可扩展动态选择与注意力机制的类别检测方法,其特征在于,包括以下步骤:
将摘要中的单个句子通过双通道融合预训练语言模型ELMo与Bi-LSTM,分别得到第一句向量、第二句向量;
通过动态选择机制筛选保留所述第一句向量、第二句向量中的一个设为主句向量;
将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权;
经所述注意力网络加权后的输出进入层连Bi-LSTM网络,单个主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
采用CRF对所有单个句子对应的文本生成概率进行优化表示形成标签概率序列。
3.根据权利要求2所述的方法,其特征在于,所述将摘要中所有单个句子对应的所述主句向量组成摘要向量序列并通过注意力网络进行加权的步骤具体包括:
所述注意力网络中的Bi-LSTM接收一个包含n个单词的主句向量S={word1,...,wordn},S∈Rn×d,得到两个方向的隐层表示,将其拼接作为经Bi-LSTM编码后的结果H∈Rn ×2×u,d为维度,u为LSTM隐层神经元数目;
H作为输入并按照以下公式从多个层面对主句向量计算注意力权重:
A=softmax(Ws2tanh(Ws1HT));
其中,Ws1∈Rda×2×u为注意力的权重参数,Ws2∈Rr×da表示通过关注句子的r个层面来对句子进行编码,A为n个单词进行加权求和的权重,da为注意力网络的隐层维度;
最后句子所有单词进行加权求和得到句子向量矩阵,其公式为:
M=AH。
4.根据权利要求3所述的方法,其特征在于,所述层连Bi-LSTM网络包括多个层连的Bi-LSTM,其中,层连Bi-LSTM网络的首层的计算方式为:
A=Attention(S)·S;
5.根据权利要求4所述的方法,其特征在于,所述多个层连的Bi-LSTM中,除首层Bi-LSTM外的其他层输入均为其上一层的输入与输出拼接。
6.一种基于可扩展动态选择与注意力机制的类别检测系统,其特征在于,包括:
单句编码层,用于接收摘要中的所有单个句子,将摘要中的单个句子分别编码生成第一句向量、第二句向量;
动态选择模块,与所述单句编码层相连,用于筛选保留所述第一句向量、第二句向量中的一个并将其设为主句向量,并将摘要中所有单个句子对应的所述主句向量组成摘要向量序列;
文本信息嵌入层,与动态选择模块相连,包括注意力网络与层连Bi-LSTM网络,用于对摘要向量序列进行加权,且单个句子的主句向量自动匹配摘要向量序列的上下文,过滤冗余信息进行分类,得到摘要中所有单个句子对应的文本生成概率;
标签优化层:与所述文本信息嵌入层相连,用于优化文本生成概率形成标签概率序列。
7.根据权利要求6所述的系统,其特征在于,所述单句编码层为双通道融合预训练语言模型包括Bi-LSTM、ELMo,ELMo用于将摘要中单个句子编码生成第一句向量,Bi-LSTM用于将摘要中的单个句子编码生成第二句向量。
8.根据权利要求6所述的系统,其特征在于,所述动态选择模块包括非线性函数控制的门控,用于计算门控大小,控制主句向量的选择。
10.根据权利要求6所述的系统,其特征在于,所述层连Bi-LSTM网络中,后一层的输入为前一层的输入与输出的拼接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659504.XA CN111813924B (zh) | 2020-07-09 | 2020-07-09 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010659504.XA CN111813924B (zh) | 2020-07-09 | 2020-07-09 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111813924A true CN111813924A (zh) | 2020-10-23 |
CN111813924B CN111813924B (zh) | 2021-04-09 |
Family
ID=72842201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010659504.XA Active CN111813924B (zh) | 2020-07-09 | 2020-07-09 | 基于可扩展动态选择与注意力机制的类别检测算法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813924B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609840A (zh) * | 2021-08-25 | 2021-11-05 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018207723A1 (ja) * | 2017-05-08 | 2018-11-15 | 国立研究開発法人情報通信研究機構 | 要約生成装置、要約生成方法及びコンピュータプログラム |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN110334339A (zh) * | 2019-04-30 | 2019-10-15 | 华中科技大学 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN111291261A (zh) * | 2020-01-21 | 2020-06-16 | 江西财经大学 | 融合标签和注意力机制的跨领域推荐方法及其实现系统 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
-
2020
- 2020-07-09 CN CN202010659504.XA patent/CN111813924B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018207723A1 (ja) * | 2017-05-08 | 2018-11-15 | 国立研究開発法人情報通信研究機構 | 要約生成装置、要約生成方法及びコンピュータプログラム |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN109933801A (zh) * | 2019-03-25 | 2019-06-25 | 北京理工大学 | 基于预测位置注意力的双向lstm命名实体识别方法 |
CN109918510A (zh) * | 2019-03-26 | 2019-06-21 | 中国科学技术大学 | 跨领域关键词提取方法 |
CN110334339A (zh) * | 2019-04-30 | 2019-10-15 | 华中科技大学 | 一种基于位置感知自注意力机制的序列标注模型与标注方法 |
CN110210037A (zh) * | 2019-06-12 | 2019-09-06 | 四川大学 | 面向循证医学领域的类别检测方法 |
CN111078866A (zh) * | 2019-12-30 | 2020-04-28 | 华南理工大学 | 一种基于序列到序列模型的中文文本摘要生成方法 |
CN111291261A (zh) * | 2020-01-21 | 2020-06-16 | 江西财经大学 | 融合标签和注意力机制的跨领域推荐方法及其实现系统 |
CN111325323A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 |
Non-Patent Citations (3)
Title |
---|
CONG SUN: "A Deep Learning Approach With Deep Contextualized Word Representations for Chemical–Protein Interaction Extraction From Biomedical Literature", 《IEEE ACCESS》 * |
ZENGJIAN LIU: "Chinese Clinical Entity Recognition via Attention-Based CNN-LSTM-CRF", 《2018 IEEE INTERNATIONAL CONFERENCE ON HEALTHCARE INFORMATICS WORKSHOP》 * |
张芮 等: "基于多层次动态门控推理网络的文本蕴含识别", 《四川大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609840A (zh) * | 2021-08-25 | 2021-11-05 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
CN113609840B (zh) * | 2021-08-25 | 2023-06-16 | 西华大学 | 一种汉语法律判决摘要生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111813924B (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN110364251B (zh) | 一种基于机器阅读理解的智能交互导诊咨询系统 | |
CN111159407B (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN112667818B (zh) | 融合gcn与多粒度注意力的用户评论情感分析方法及系统 | |
CN111027595B (zh) | 双阶段语义词向量生成方法 | |
CN111651974B (zh) | 一种隐式篇章关系分析方法和系统 | |
CN117151220B (zh) | 一种基于实体链接与关系抽取的行业知识库系统及方法 | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN113065358B (zh) | 面向银行咨询服务基于多粒度对齐的文本对语义匹配方法 | |
CN110717843A (zh) | 一种可复用的法条推荐框架 | |
CN113946678A (zh) | 一种政府采购品目层次分类模型的构建方法 | |
CN112364638A (zh) | 一种基于社交文本的人格识别方法 | |
CN113157859B (zh) | 一种基于上位概念信息的事件检测方法 | |
CN114743020A (zh) | 一种结合标签语义嵌入和注意力融合的食物识别方法 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN112732921A (zh) | 一种虚假用户评论检测方法及系统 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN115796182A (zh) | 一种基于实体级跨模态交互的多模态命名实体识别方法 | |
CN114332519A (zh) | 一种基于外部三元组和抽象关系的图像描述生成方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN114817494A (zh) | 基于预训练和注意力交互网络的知识型检索式对话方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |