CN117035084A - 一种基于语法分析的医疗文本实体关系抽取方法和系统 - Google Patents
一种基于语法分析的医疗文本实体关系抽取方法和系统 Download PDFInfo
- Publication number
- CN117035084A CN117035084A CN202310976181.0A CN202310976181A CN117035084A CN 117035084 A CN117035084 A CN 117035084A CN 202310976181 A CN202310976181 A CN 202310976181A CN 117035084 A CN117035084 A CN 117035084A
- Authority
- CN
- China
- Prior art keywords
- sentence
- entity
- medical
- relation
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 51
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 66
- 238000002372 labelling Methods 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 4
- 239000003814 drug Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 208000030453 Drug-Related Side Effects and Adverse reaction Diseases 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语法分析的医疗文本实体关系抽取方法和系统,属于医疗数据处理技术领域。本发明考虑到医疗关系的复杂性,为了防止实体抽取的错误结果影响到关系抽取,特将关系抽取安排到实体抽取之前。在实体抽取过程中,采用cross attention融合关系和编码特征,增加关系和实体信息交互。在抽取出关系和实体之后,借助语法分析,引入语义信息,充分利用词性和语法信息,提高实体关系抽取准确度。采用端到端的模型,并构建句子级别的任务,有利于句子语义的表示和学习。
Description
技术领域
本发明属于医疗数据处理技术领域,更具体地,涉及一种基于语法分析的医疗文本实体关系抽取方法和系统。
背景技术
医疗数据具有巨大的价值,尤其是在医疗文本关系方面。医疗文本中关系的抽取是指从医疗文本中抽取指定的一类事实信息,形成结构化的数据储存在数据库中,以供用户对信息的查询或进一步分析利用的过程。如一位生物医疗科学家要从海量的生物医疗文献中寻求关于某种疾病的新的治疗方案,借助于医疗文本中的药物和疾病关系的抽取是指从文本中抽取系统抽取出的蛋白质、基因或药物等的交互关系信息,就有可能从中发现有价值的治疗线索或方法。
现有的关系抽取技术大都针对传统文本,很少针对医学文本。已有的医学数据抽取方法均存在以下缺陷和不足:语义信息利用不充分,关系和实体信息交互不充分,导致识别度较差。此外,采用BIO序列标记法,无法解决医学文本中的三元组重叠问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于语法分析的医疗文本实体关系抽取方法和系统,旨在解决现有用于现有抽取方法语义信息利用不充分,关系和实体信息交互不充分的问题。
为实现上述目的,第一方面,本发明提供了一种基于语法分析的医疗文本实体关系抽取方法,包括:
将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果;
其中,
所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块;
所述编码器,用于对医疗文本进行向量编码,得到句子级特征向量集合;
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合;
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合;
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合;
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
优选地,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
需要说明的是,本发明优选上述指针标注方式提取实体,不同于序列标注,它只标注实体的头和尾,中间不标注,这样就可以解决实体重叠的问题。
优选地,所述编码器采用SciBERT。
优选地,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
优选地,所述标注具体如下:
将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
为实现上述目的,第二方面,本发明提供了一种基于语法分析的医疗文本实体关系抽取系统,包括:处理器和存储器;所述存储器,用于存储计算机执行指令;所述处理器,用于执行所述计算机执行指令,使得第一方面所述的方法被执行。
为实现上述目的,第三方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行第一方面所述的方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下
有益效果:
本发明提出一种基于语法分析的医疗文本实体关系抽取方法和系统,考虑到医疗关系的复杂性,为了防止实体抽取的错误结果影响到关系抽取,特将关系抽取安排到实体抽取之前。在实体抽取过程中,采用cross attention融合关系和编码特征,增加关系和实体信息交互。在抽取出关系和实体之后,借助语法分析,引入语义信息,充分利用词性和语法信息,提高实体关系抽取准确度。采用端到端的模型,并构建句子级别的任务,有利于句子语义的表示和学习。
附图说明
图1是本发明提供的用于医疗文本实体关系抽取端到端模型示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于语法分析的医疗文本实体关系抽取方法,包括:将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果。
如图1所示,所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块。
编码器
所述编码器用于对医疗文本进行向量编码,得到句子级特征向量集合。
优选地,所述编码器采用SciBERT。
在网络结构上SciBERT完全双向,层数深,可表征的函数空间足够大,并且提出了self-attention克服了长距离依赖问题;预训练任务设计好,加了句子级别的任务,有利于句子语义的表示和学习,训练语料大,训练充分。
优选地,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
医疗文本是以段为单位的文本,字数在200-500左右,可以是中文或者外文,例如,中医古籍,以JSON格式保存。Key为text时,Value存放文本本身;Key为triple list时,Value存放文本中(医疗实体1,医疗关系,医疗实体2)。
在编码之前,可以先对所述待处理文本进行预处理,包括但不限于:对缺失数据进行删除或者插值,格式转化等。
医疗关系提取模块
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合。
将SciBERT的结果输入到第一线性神经网络,最终用Softmax函数进行分类,当结果大于阈值时,就表示存在着关系。
交叉注意力机制
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合。
本发明采用Cross Attention。Cross Attention通常作为Decoder模块,与SelfAttention作为Encoder共同使用。它输入的Query来自encoder(Self Attention)的输出,而Key和Value则来自初始的input。在这里Key和Value是bert的结果,Query是关系抽取的结果,从而增强关系和实体信息的交互效果。
医疗实体提取
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合。
优选地,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
语法分析模块
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
本发明对句子进行词性标注和依存句法分析。所述词性标注是对句子中的每个词贴上合适的词性标签,所谓词性就是动词、名词、形容词等分类。词性标注是很多NLP任务的预处理步骤,比如知道句子中每个词的词性后,再进行句法分析就容易多了。
优选地,所述标注具体如下:将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
在一个实施例中,使用NLP工具对句子进行预处理,得到句子中的词性信息和依存句法信息,得到词性矩阵,与真值进行比对得到Loss函数。
表1为不同抽取模型在药物不良事件数据集的评价对比。表2为不同抽取模型在chemprot数据集上算法的评价对比。对比可知,本发明采用的SciBERT,识别正确率、召回率、F1值均高于其他模型。
表1
EVALUATION ON ADVERSE DRUG EVENTS DATASET.
表2
EVALUATION OF ALGORITHMS ON CHEMPROT DATASET.
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于语法分析的医疗文本实体关系抽取方法,其特征在于,包括:
将待抽取医疗文本输入至训练好的端到端模型,得到实体关系三元组的集合,作为抽取结果;
其中,
所述端到端模型包括:编码器、医疗关系提取模块、交叉注意力机制模块、医疗实体提取模块和语法分析模块;
所述编码器,用于对医疗文本进行向量编码,得到句子级特征向量集合;
所述医疗关系提取模块,用于将句子级特征向量集合中每个特征向量输入至第一线性神经网络,得到句子级关系向量集合;
所述交叉注意力机制模块,用于将句子级关系向量集合中的每个关系向量作为Cross-Attention的查询,将对应的特征向量作为Cross-Attention的键和值,输出句子级融合向量集合;
所述医疗实体提取模块,用于将句子级融合向量集合中的每个融合向量输入至第二线性神经网络,得到句子级实体向量集合;
所述语法分析模块,用于先将句子级特征向量集合中的每个特征向量与对应句子级标注向量点乘,点乘结果向量再经过激活函数Relu,得到维度为(关系种类*句子长度*句子长度)的句子级非负向量,所述标注包括名词标注和依存关系标注;在每个关系种类中,将句子级非负向量和对应句子级实体向量进行实体匹配,得到实体关系三元组(医疗实体1,医疗关系,医疗实体2)。
2.如权利要求1所述的方法,其特征在于,在医疗实体提取模块中,采用指针标注方式句子中的实体,得到维度为(2*句子长度)的句子级实体向量,第一行用于标注该句子中各实体的头,第二行用于标注该句子中各实体的尾。
3.如权利要求1所述的方法,其特征在于,所述编码器采用SciBERT。
4.如权利要求3所述的方法,其特征在于,采用ADE ChemProt数据集和预定义的超参数对SciBERT进行微调。
5.如权利要求1所述的方法,其特征在于,所述标注具体如下:
将句子中各名词对应的标注向量元素标记为x1,若两个名词具有依存关系,将对应的标注向量元素标记为x2,得到句子级标注向量。
6.一种基于语法分析的医疗文本实体关系抽取系统,其特征在于,包括:处理器和存储器;
所述存储器,用于存储计算机执行指令;
所述处理器,用于执行所述计算机执行指令,使得权利要求1至5任一项所述的方法被执行。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器执行权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976181.0A CN117035084A (zh) | 2023-08-03 | 2023-08-03 | 一种基于语法分析的医疗文本实体关系抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310976181.0A CN117035084A (zh) | 2023-08-03 | 2023-08-03 | 一种基于语法分析的医疗文本实体关系抽取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117035084A true CN117035084A (zh) | 2023-11-10 |
Family
ID=88640639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310976181.0A Pending CN117035084A (zh) | 2023-08-03 | 2023-08-03 | 一种基于语法分析的医疗文本实体关系抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117035084A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744657A (zh) * | 2023-12-26 | 2024-03-22 | 广东外语外贸大学 | 一种基于神经网络模型的药品不良事件检测方法及系统 |
-
2023
- 2023-08-03 CN CN202310976181.0A patent/CN117035084A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744657A (zh) * | 2023-12-26 | 2024-03-22 | 广东外语外贸大学 | 一种基于神经网络模型的药品不良事件检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210240776A1 (en) | Responding to user queries by context-based intelligent agents | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
Zhang et al. | SG-Net: Syntax guided transformer for language representation | |
CN113569050B (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN111061882A (zh) | 一种知识图谱构建方法 | |
Li et al. | Neural character-level dependency parsing for Chinese | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
Wang et al. | Automatic paper writing based on a RNN and the TextRank algorithm | |
CN114564912B (zh) | 一种文档格式智能检查校正方法及系统 | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
CN112800184A (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN117035084A (zh) | 一种基于语法分析的医疗文本实体关系抽取方法和系统 | |
CN115374786A (zh) | 实体和关系联合抽取方法及装置、存储介质和终端 | |
Fayyaz et al. | Accessibility of Tables in PDF Documents: Issues, Challenges and Future Directions | |
CN112800244B (zh) | 一种中医药及民族医药知识图谱的构建方法 | |
Akdemir et al. | A review on deep learning applications with semantics | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN111813927A (zh) | 一种基于主题模型和lstm的句子相似度计算方法 | |
CN114611489A (zh) | 文本逻辑条件抽取ai模型构建方法、抽取方法及系统 | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
CN116227496B (zh) | 一种基于深度学习的电力舆情实体关系抽取方法及系统 | |
CN116720502B (zh) | 基于机器阅读理解与模板规则的航空文档信息抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |