CN113868374B - 基于多头注意力机制的图卷积网络生物医学信息提取方法 - Google Patents
基于多头注意力机制的图卷积网络生物医学信息提取方法 Download PDFInfo
- Publication number
- CN113868374B CN113868374B CN202111083061.5A CN202111083061A CN113868374B CN 113868374 B CN113868374 B CN 113868374B CN 202111083061 A CN202111083061 A CN 202111083061A CN 113868374 B CN113868374 B CN 113868374B
- Authority
- CN
- China
- Prior art keywords
- graph
- model
- layer
- biomedical
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000005096 rolling process Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000007170 pathology Effects 0.000 claims abstract description 16
- 230000001575 pathological effect Effects 0.000 claims abstract description 10
- 238000013526 transfer learning Methods 0.000 claims abstract description 4
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 2
- 206010028980 Neoplasm Diseases 0.000 abstract description 13
- 201000011510 cancer Diseases 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 8
- 239000000126 substance Substances 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000007433 Lymphatic Metastasis Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000006916 protein interaction Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于多头注意力机制的图卷积网络生物医学信息提取方法,首先建立基于多头注意力机制的图卷积网络模型;然后对该混合模型进行训练;再对模型进行优化,调整参数,得到最终模型;最后使用最终模型进行生物医学文本中的关系提取以及病理报告的特征提取;本发明在提高关系抽取的性能的能够同时有效降低噪声数据的影响,有效地保留了生物医学文本中长距离信息中有价值的内容;使用迁移学习方法处理不同格式和写作风格的病理报告,具有良好的通用性和可重用性;应用于以癌症病理报告为数据源的信息与关系提取,识别效果好,通用性强,有效提高病理检测效率。
Description
技术领域
本发明属于生物医学信息提取技术领域,涉及一种使用图卷积网络的文本信息提取方法,具体涉及基于多头注意力机制的图卷积网络生物医学信息提取方法。
背景技术
癌症是人类健康的第一杀手,表型作为一种重要且容易观察的癌症形态学特征,为认识这一复杂事物提供了宝贵的窗口,而病理报告为研究表型形态学定义,以及恶性程度的重要数据资源,需要自动从中抽取表型与诊断的关系,对海量病人病理报告进行信息抽取和语义理解。然而,病理表型的复杂性以及诊断逻辑的复杂性使得相应的描述是以长难句的形式存在于病理报告中,这对基于自然语言处理技术的关系提取任务带来了很大的挑战。针对这一问题,学者们进行了广泛的研究,提出了多种方法。现有方法依赖传统神经网络对长难句实现关系提取,主要采用卷积神经网络或循环神经网络,但是传统神经网络对于过长句子处理一直存在瓶颈,随着句子长度不断变长,性能不断下降,难以满足病理场景下关系抽取任务的要求。
现有技术主要基于循环神经网络、卷积神经网络进行医学文本信息提取,然而,病理报告包括了长文本以及复杂描述,因而跨句子的实体难以被检测,这将导致关键信息在提取中很容易被遗漏。与传统机器学习和神经网络方法相比,图神经网络能够依靠句子之间的依赖结构捕捉不相邻的句子中的语义语法信息,然而,使用现有方法依然很难分辨文本特征的相关性。
发明内容
为了克服现有技术中存在的问题,本发明的目的在于提供一种基于多头注意力机制的图卷积网络生物医学文本信息提取方法,能够较好地满足病理场景下文本关系提取任务的需求,应用于以癌症病理报告为数据源的信息与关系提取,识别效果好,通用性强,有效提高病理检测效率。
为实现以上目的,本发明通过如下技术方案实现:
一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,具体包括以下步骤:
步骤1.建立基于多头注意力机制的图卷积网络模型:
1.1利用python将生物医学文本序列输入初始化层,生成词向量;对于给定的输入的生物医学文本,使用BioBERT预训练模型,得到输入生物医学文本中每个词生物特征,并利用每个词汇在生物医学文本中的位置信息特征和每个词自己独有的词性信息特征,将以上每个词对应的三种不同特征联系起来,初始化层的输出为每个词三种特征的组合;
1.2Bi-LSTM层:由前向LSTM与后向LSTM组合而成,将词的表示组合成句子的表示,通过Bi-LSTM捕捉句子从前到后、从后到前的双向语义依赖;
Bi-LSTM层从步骤1.1的初始化层的输出获得特征组合,并从特征组合中获取相隔距离较远的生物医学文本信息,捕捉双向的语义依赖,然后输出具有语义依赖信息的生物医学文本信息;
1.3多头注意力机制层:
引入Self-Attention,通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息,在计算过程中将生物医学文本信息的句子中任意两个单词联系起来,使长距离依赖特征之间的距离被缩短利用,然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征,通过多头注意力机制中多个独立的单个注意力机制的计算,通过线性转换,构建多个依赖关系树输出;
1.4图卷积网络层:
图卷积网络层将步骤1.3输出结果的每一个句子中具有语义依赖的单词进行提取,并对其中长距离的相互依赖的特征聚合生成新的长距离生物医学文本信息输出;
1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起,结合后的生物医学文本信息通过DropOut和SoftMax层得到用于生物医学文本信息分类的结果;
步骤2.训练步骤1建立的图卷积神经网络模型,计算该模型训练测试得到的结果和真实结果的误差,并进一步训练图卷积神经网络模型;
步骤3.优化步骤2得到的图卷积神经网络模型,得到最终对于确定任务的深度学习的图卷积神经网络模型的参数;
步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的生物医学文本的信息提取。
所述步骤1.2中通过Bi-LSTM层获得文本特征与长距离文本关系信息的具体过程如下:
其中,ht-1为前一个隐藏状态的输出,wt为在t时刻当前状态的输入,ht为当前时间t的隐藏状态,和/>分别表示前向和反向LSTM模型的输出,/>为连接操作,最终隐藏状态ht是前向和反向LSTM模型的连接。
所述步骤1.3中Bi-LSTM层的隐藏输出是多头注意力层的输入,多头注意力层对于每个从Bi-LSTM层输入的内容,给定查询Q、键K和值V,通过以下标度点积计算方法获得注意力分数:
其中,d为隐藏单元输出的维度;
前向和反向LSTM模型通过多头注意力机制学到不同种类的信息,由于多头注意力机制包含h个头,最终多头注意层将把每一个头连接为:
Multihead(Q,K,V)=Concat(head1,head2,...,headh,)W。
所述步骤1.4的具体方法为:对步骤1.3的输出结果,根据词与词之间的依赖关系,通过图卷积网络构建三种类型的边的图:基于语义的图、基于语法的图以及基于序列的图,并对图卷积网络,采取图内传播与图间传播的传播学习,计算如下:
其中hj (l-1)为图卷积网络层的输出,di为三种类型边的图的节点i在图中的度,b(j)与b(l)是偏置项,b(j)与b(l)激活函数f为非线性函数。
所述步骤1.5中,在得到多头注意力层与图卷积网络层的输出特征结果后,先对二者进行最大池化操作,然后将其拼接结合,再送入softmax函数,得到用于文本信息分类的结果。
所述步骤2的具体方法为:通过迁移学习,提高模型对不同机构的病理报告分析的适用性,首先在主数据集TCGA上训练步骤1建立的模型,其次在目标医院数据集上TFAH通过微调模型参数,再次训练迁移模型的参数,然后将TFAH作为主数据集,TCGA作为目标数据集,再次训练模型;
使用选取的生物医学文本及病理报告数据集对步骤2中训练好的模型进行调参与测试,并使用k折交叉验证方法对训练好的模型进行正确性验证:
采用准确率P、召回率R和F得分F作为模型性能的评估参数,根据评估结果调整模型的超参数以对其进行调整优化,选取最优超参数,从而得到最优模型,其计算方法如下:
其中,TP、FN和FP分别代表真阳性、假阴性和假阳性;F得分是准确率和召回率的调和平均值。
与现有技术相比,本发明具有的有益效果在于:
本发明从生物医学文本和非结构化病理报告中进行关系提取的混合神经网络,以图卷积网络为基础,引入多头注意力机制用以捕获句子中的复杂关系和上下文信息,完成关系提取的任务。
首先,使用GCN来获得基于语义、语法和序列的图表示,以提高关系抽取的性能;其次,使用多头注意力机制,可以有效降低噪声数据的影响,在不丢失有价值信息的前提下获得相对重要的上下文特征;第三,将多头注意力机制与GCN相结合可以进一步提高模型的性能。
实验表明,本发明的模型在两大生物医学关系抽取语料库和跨医院泛癌病理报告语料库上都有很好的表现,在七种不同的癌症特征提取中取得了85.3%的识别效果(F得分),效果大幅优于其他传统模型;通过评估本发明在迁移学习环境下的适用性,表明本发明在处理不同格式和写作风格的病理报告方面取得了良好的效果。
进一步的,本发明用于提取生物医学文本中的关系,包括化学物质、疾病关系(CDR)和化学物质、蛋白质相互作用(CPI)以及在跨医院的癌症病理报告语料库中进行特征提取。
进一步的,在实际情况下,描述性病理报告的格式和写作风格在不同医院风格差别较大,本发明使用迁移学习方法,可以证明该模型的通用性和可重用性得到了提高。
进一步的,本发明通过使用图卷积神经网络和多头注意力机制,提高了跨句子的关系抽取效率,同时降低了噪声数据造成的影响。
附图说明
图1是本发明中进行关系提取的混合神经网络模型。
具体实施方式
下面结合具体实施例和附图,对本发明做进一步的详细说明。
一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,具体包括以下步骤:
步骤1.建立基于多头注意力机制的图卷积网络模型:
1.1利用python将生物医学文本序列输入初始化层,生成词向量;对于给定的输入的生物医学文本,使用BioBERT预训练模型得到输入生物医学文本中每个词生物特征,并利用每个词汇在生物医学文本中的位置信息特征和每个词自己独有的词性信息特征,将以上每个词对应的三种不同特征联系起来,初始化层的输出为每个词三种特征的组合;
1.2Bi-LSTM(Bi-directional Long Short-Term Memory双向长短期记忆网络)层:由前向LSTM与后向LSTM组合而成,在自然语言处理任务中都常被用来建模上下文信息;将词的表示组合成句子的表示,可以采用相加的方法,即将所有词的表示进行加和或者取平均等方法,但是这些方法没有考虑到词语在句子中前后顺序。使用LSTM模型可以更好的捕捉到较长距离的依赖关系;因为LSTM通过训练过程可以学到记忆哪些信息和遗忘哪些信息;但是利用LSTM对句子进行建模还存在一个问题:无法编码从后到前的信息。在更细粒度的分类时,如对于强程度的褒义、弱程度的褒义、中性、弱程度的贬义、强程度的贬义的五分类任务需要注意情感词、程度词、否定词之间的交互;通过Bi-LSTM可以更好的捕捉句子从前到后、从后到前的双向语义依赖;
Bi-LSTM从初始化层的输出获得特征组合,并从特征组合中获取相隔距离较远的文本信息,更好的捕捉双向的语义依赖,Bi-LSTM层的输出是具有语义依赖信息的文本信息;
1.3多头注意力机制层:注意力机制:相比于RNN或者LSTM:引入Self-Attention后会更容易捕获句子中长距离的相互依赖的特征。因为如果是RNN或者LSTM,需要依次序序列计算,对于远距离的相互依赖的特征,要经过若干时间步步骤的信息累积才能将两者联系起来,而距离越远,有效捕获的可能性越小。但是Self-Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来,所以远距离依赖特征之间的距离被极大缩短,有利于有效地利用这些特征;除此外,Self-Attention对于增加计算的并行性也有直接帮助作用;
多头注意力机制中多头的本质是多个独立的单个注意力机制的计算,作为一个集成的作用,防止过拟合;通过线性转换,每个注意力机制函数只负责最终输出序列中一个子空间;
引入Self-Attention,通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息,在计算过程中将生物医学文本信息的句子中任意两个单词的联系起来,使长距离依赖特征之间的距离被缩短利用,然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征,通过多头注意力机制中多个独立的单个注意力机制的计算,通过线性转换,构建多个依赖关系树进行输出;
1.4图卷积网络层:卷积网络的本质是通过滤波器来对某个空间区域的像素点进行加权求和,得到新的特征表示的过程,加权系数就是卷积核的参数;
图卷积网络层将步骤1.3输出结果的每一个句子中具有语义依赖的单词进行提取,并对其中长距离的相互依赖的特征聚合生成新的长距离生物医学文本信息输出;
1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起,结合后的文本信息通过DropOut和SoftMax层得到用于生物医学文本信息分类的结果;
步骤2.训练步骤1建立的图卷积神经网络模型,计算该模型训练测试得到的结果和真实结果的误差并进一步训练图卷积神经网络模型;
步骤3.优化步骤2得到的图卷积神经网络模型,得到最终对于确定任务的深度学习的图卷积神经网络模型的参数;具体操作为本领域所熟知,不再赘述;
步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的生物医学文本的信息提取;具体操作为本领域所熟知,不再赘述。
所述步骤1.2中,Bi-LSTM模型可以更好地捕捉双向语义依赖和长距离依赖,自动高效地学习潜在的输入序列的特征;通过Bi-LSTM层获得文本特征与长距离生物医学文本关系信息的具体过程如下:
其中,ht-1为前一个隐藏状态的输出,wt为在t时刻当前状态的输入,ht为当前时间t的隐藏状态,和/>分别表示前向和反向LSTM模型的输出,/>为连接操作,最终隐藏状态ht是前向和反向LSTM模型的连接。
所述步骤1.3中,由于生物医学关系提取任务中,不同的特征权重不同,为了突出相对重要的特征,我们引入多头注意力机制,用以生成不同的子空间并减少噪音数据带来的影响;多头注意力机制的本质是自注意机制的多重应用,模型从不同的表示子空间中学习相对重要的特征;Bi-LSTM层的隐藏输出是多头注意力层的输入,多头注意力层对于每个从Bi-LSTM层输入的内容,给定查询Q、键K和值V,通过以下标度点积计算方法获得注意力分数:
其中,d为隐藏单元输出的维度。
前向和反向LSTM模型通过多头注意力机制学到不同种类的信息,由于多头注意力机制包含h个头,最终多头注意层将把每一个头连接为:
Multihead(Q,K,V)=Concat(head1,head2,...,headh,)W。
所述步骤1.4的具体方法为:对步骤1.3的输出结果,根据词与词之间的依赖关系,通过图卷积网络构建三种类型的边的图:基于语义的图、基于语法的图以及基于序列的图,并对图卷积网络,采取图内传播与图间传播的传播学习,计算如下:
其中hj (l-1)为图卷积网络层的输出,di为三种类型边的图的节点i在图中的度,b(j)与b(l)是偏置项,b(j)与b(l)激活函数f为非线性函数。
所述步骤1.5中,在得到多头注意力层与图卷积网络层的输出特征结果后,先对二者进行了最大池化操作,然后将其拼接结合,再送入softmax函数,得到用于文本信息分类的结果。
所述步骤2的具体方法为:通过迁移学习提高模型对不同机构的病理报告分析的适用性,首先在主数据集TCGA上训练步骤1建立的模型,其次在目标医院数据集上TFAH通过微调模型参数,再次训练迁移模型的参数,然后将TFAH作为主数据集,TCGA作为目标数据集,再次训练模型。
使用选取的生物医学文本及病理报告数据集对步骤2中训练好的模型进行调参与测试,并使用k折交叉验证方法对训练好的模型进行正确性验证:
k折交叉验证指:将上述生物医学文本及病理报告数据集分为k份,每次将其中k-1份作为训练数据集,其余一份另1份作为测试数据集,在测试数据集上进行测试获得验证结果,经过k次测试后获得验证结果;最后汇总所有验证结果,得到最终结果;
为了评估不同的模型的准确性,采用准确率(P)、召回率(R)和F得分(F)作为模型性能的评估参数,根据评估结果调整模型的超参数以对其进行调整优化,选取最优超参数,从而得到最优模型,其计算方法如下:
其中,TP、FN和FP分别代表真阳性、假阴性和假阳性;F得分是准确率和召回率的调和平均值。
实施例1
基于多头注意力机制使用图卷积网络的生物医学信息提取方法,应用于如下场景:
数据集:采用两种公开的生物医学数据集:CDR语料库和Chemprot语料库,同时,构建一个癌症病理报告的跨机构数据集,特征如下,CDR语料库:化学物质与疾病之间是否存在关系。
Chemprot语料库:化学物与蛋白质之间是否存在关系;
癌症病理报告:包括癌症种类、肿瘤切除位置、最大肿瘤直径、组织学亚型、组织学级别、TNM分期和淋巴结转移情况。
具体步骤如下:
1.对数据集的文本数据信息建立基于多头注意力机制的图卷积网络模型
1.1使用python实现初始化层,利用BioBERT预训练模型中的词向量将词和对应的特征进行拼接,输出词嵌入向量和位置嵌入的连接;
1.2使用python实现Bi-LSTM层;
1.3使用python实现多头注意力层,应用自注意力机制获取词之间关系的权重;
1.4使用python构建GCN层;
1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起。
步骤2.训练步骤1建立的图卷积神经网络模型,计算该模型训练测试得到的结果和真实结果的误差并进一步训练网络;每次将10%的数据作为测试集,其余90%的数据作为训练集;将验证结果保存。
步骤3.优化图卷积神经网络模型,得到最终对于确定任务的深度学习的图卷积神经网络模型的参数,根据步骤2中的结果,计算准确率(Precison)、召回率(Recall)和F得分(F-score),将其作为评价指标对验证结果进行评价,并不断调整图卷积神经网络模型超参数以优化评价指标。
步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的医学文本的信息提取。
Claims (6)
1.一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,具体包括以下步骤:
步骤1.建立基于多头注意力机制的图卷积网络模型:
1.1利用python将生物医学文本序列输入初始化层,生成词向量;对于给定的输入的生物医学文本,使用BioBERT预训练模型得到输入生物医学文本中每个词生物特征,并利用每个词汇在生物医学文本中的位置信息特征和每个词自己独有的词性信息特征,将以上每个词对应的三种不同特征联系起来,初始化层的输出为每个词三种特征的组合;
1.2 Bi-LSTM层:由前向LSTM与后向LSTM组合而成,将词的表示组合成句子的表示,通过Bi-LSTM捕捉句子从前到后、从后到前的双向语义依赖;
Bi-LSTM层从步骤1.1的初始化层的输出获得特征组合,并从特征组合中获取相隔距离较远的生物医学文本信息,捕捉双向的语义依赖,然后输出具有语义依赖信息的生物医学文本信息;
1.3多头注意力机制层:
引入Self-Attention,通过Self-Attention对步骤1.2中输出的具有语义依赖信息的生物医学文本信息,在计算过程中将生物医学文本信息的句子中任意两个单词的联系起来,使长距离依赖特征之间的距离被缩短利用,然后应用自注意力机制获取其中长距离生物医学文本信息的相互依赖的特征,通过多头注意力机制中多个独立的单个注意力机制的计算,通过线性转换,构建多个依赖关系树输出;
1.4图卷积网络层:
图卷积网络层将步骤1.3输出结果的每一个句子中具有语义依赖的单词进行提取,并对其中长距离的相互依赖的特征聚合生成新的长距离生物医学文本信息输出;
1.5将步骤1.3的输出结果和步骤1.4输出结果结合在一起,结合后的文本信息通过DropOut和SoftMax层得到用于生物医学文本信息分类的结果;
步骤2.训练步骤1建立的图卷积神经网络模型,计算该模型训练测试得到的结果和真实结果的误差并进一步训练图卷积神经网络模型;
步骤3.优化步骤2得到的图卷积神经网络模型,得到最终对于确定任务的深度学习的图卷积神经网络模型的参数;
步骤4.通过步骤3得到的最终图卷积神经网络模型进行不同类型的医学文本的信息提取。
2.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,所述步骤1.2中通过Bi-LSTM层获得文本特征与长距离生物医学文本关系信息的具体过程如下:
其中,ht-1为前一个隐藏状态的输出,wt为在t时刻当前状态的输入,ht为当前时间t的隐藏状态,和/>分别表示前向和反向LSTM模型的输出,⊕为连接操作,最终隐藏状态ht是前向和反向LSTM模型的连接。
3.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,所述步骤1.3中Bi-LSTM层的隐藏输出是多头注意力层的输入,多头注意力层对于每个从Bi-LSTM层输入的内容,给定查询Q、键K和值V,通过以下标度点积计算方法获得注意力分数:
其中,d为隐藏单元输出的维度;
前向和反向LSTM模型通过多头注意力机制学到不同种类的信息,由于多头注意力机制包含h个头,最终多头注意层将把每一个头连接为:
Multihead(Q,K,V)=Concat(headi,headz,...,headh,)W。
4.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,所述步骤1.4的具体方法为:对步骤1.3的输出结果,根据词与词之间的依赖关系,通过图卷积网络构建三种类型的边的图:基于语义的图、基于语法的图以及基于序列的图,并对图卷积网络,采取图内传播与图间传播的传播学习,计算如下:
其中hj (l-1)为图卷积网络层的输出,di为三种类型边的图的节点i在图中的度,b(j)与b(l)是偏置项,b(j)与b(l)激活函数f为非线性函数。
5.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,所述步骤1.5中,在得到多头注意力层与图卷积网络层的输出特征结果后,先对二者进行了最大池化操作,然后将其拼接结合,再送入softmax函数,得到用于文本信息分类的结果。
6.根据权利要求1所述的一种基于多头注意力机制使用图卷积网络的生物医学文本信息提取方法,其特征在于,所述步骤2的具体方法为:通过迁移学习提高模型对不同机构的病理报告分析的适用性,首先在主数据集TCGA上训练步骤1建立的模型,其次在目标医院数据集上TFAH通过微调模型参数,再次训练迁移模型的参数,然后将TFAH作为主数据集,TCGA作为目标数据集,再次训练模型;
使用选取的生物医学文本及病理报告数据集对步骤2中训练好的模型进行调参与测试,并使用k折交叉验证方法对训练好的模型进行正确性验证:
采用准确率P、召回率R和F得分F作为模型性能的评估参数,根据评估结果调整模型的超参数以对其进行调整优化,选取最优超参数,从而得到最优模型,其计算方法如下:
其中,TP、FN和FP分别代表真阳性、假阴性和假阳性;F得分是准确率和召回率的调和平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083061.5A CN113868374B (zh) | 2021-09-15 | 2021-09-15 | 基于多头注意力机制的图卷积网络生物医学信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111083061.5A CN113868374B (zh) | 2021-09-15 | 2021-09-15 | 基于多头注意力机制的图卷积网络生物医学信息提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113868374A CN113868374A (zh) | 2021-12-31 |
CN113868374B true CN113868374B (zh) | 2024-04-12 |
Family
ID=78996253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111083061.5A Active CN113868374B (zh) | 2021-09-15 | 2021-09-15 | 基于多头注意力机制的图卷积网络生物医学信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113868374B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631852B (zh) * | 2022-11-02 | 2024-04-09 | 北京大学重庆大数据研究院 | 证型推荐方法、装置、电子设备及非易失性存储介质 |
CN116306589B (zh) * | 2023-05-10 | 2024-02-09 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
CN112434172A (zh) * | 2020-10-29 | 2021-03-02 | 西安交通大学 | 一种病理图像预后特征权重计算方法及系统 |
CN112434718A (zh) * | 2020-09-02 | 2021-03-02 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-15 CN CN202111083061.5A patent/CN113868374B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211275A1 (zh) * | 2019-04-18 | 2020-10-22 | 五邑大学 | 基于预训练模型与微调技术的医疗文本关系抽取方法 |
WO2021042503A1 (zh) * | 2019-09-06 | 2021-03-11 | 平安科技(深圳)有限公司 | 信息分类抽取方法、装置、计算机设备和存储介质 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111985245A (zh) * | 2020-08-21 | 2020-11-24 | 江南大学 | 基于注意力循环门控图卷积网络的关系提取方法及系统 |
CN112434718A (zh) * | 2020-09-02 | 2021-03-02 | 武汉大学 | 基于深度图的新冠肺炎多模态特征提取融合方法及系统 |
CN112434172A (zh) * | 2020-10-29 | 2021-03-02 | 西安交通大学 | 一种病理图像预后特征权重计算方法及系统 |
Non-Patent Citations (2)
Title |
---|
基于结合多头注意力机制BiGRU网络的生物医学命名实体识别;徐凯;王崎;李振彰;康培培;谢峰;刘文印;;计算机应用与软件;20200512(第05期);全文 * |
基于自注意力门控图卷积网络的特定目标情感分析;陈佳伟;韩芳;王直杰;;计算机应用;20200810(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113868374A (zh) | 2021-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363753B (zh) | 评论文本情感分类模型训练与情感分类方法、装置及设备 | |
CN112527966B (zh) | 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN113868374B (zh) | 基于多头注意力机制的图卷积网络生物医学信息提取方法 | |
CN108920445A (zh) | 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置 | |
CN110598005A (zh) | 一种面向公共安全事件的多源异构数据知识图谱构建方法 | |
CN113590799B (zh) | 一种基于多视角推理的弱监督知识图谱问答方法 | |
Yan et al. | Research on public opinion sentiment classification based on attention parallel dual-channel deep learning hybrid model | |
Rahman et al. | Predicting human design decisions with deep recurrent neural network combining static and dynamic data | |
Lin et al. | PS-mixer: A polar-vector and strength-vector mixer model for multimodal sentiment analysis | |
CN111428481A (zh) | 一种基于深度学习的实体关系抽取方法 | |
Kim et al. | Automatic classification of the Korean triage acuity scale in simulated emergency rooms using speech recognition and natural language processing: a proof of concept study | |
CN113449204A (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN113392918A (zh) | 一种基于多源信息融合的抑郁障碍相关因素识别方法 | |
CN116579347A (zh) | 一种基于动态语义特征融合的评论文本情感分析方法、系统、设备及介质 | |
Huang et al. | Emotion detection for conversations based on reinforcement learning framework | |
Ji et al. | Code clone detection with hierarchical attentive graph embedding | |
CN116244441A (zh) | 一种基于多任务学习的社交网络攻击性言论检测方法 | |
CN117094291A (zh) | 基于智能写作的自动新闻生成系统 | |
Zeng et al. | CSDM: A context-sensitive deep matching model for medical dialogue information extraction | |
Wang et al. | Distant supervised relation extraction with position feature attention and selective bag attention | |
Liu et al. | Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Manogaran et al. | ADCCF: Adaptive deep concatenation coder framework for visual question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |