CN112542222B - 基于深度学习的中文电子病历实体及关系联合抽取方法 - Google Patents
基于深度学习的中文电子病历实体及关系联合抽取方法 Download PDFInfo
- Publication number
- CN112542222B CN112542222B CN202011516382.5A CN202011516382A CN112542222B CN 112542222 B CN112542222 B CN 112542222B CN 202011516382 A CN202011516382 A CN 202011516382A CN 112542222 B CN112542222 B CN 112542222B
- Authority
- CN
- China
- Prior art keywords
- entity
- subject
- category
- relation
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 30
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 210000004731 jugular vein Anatomy 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 210000001685 thyroid gland Anatomy 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 2
- 206010018498 Goitre Diseases 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 201000003872 goiter Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008961 swelling Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度学习的中文电子病历实体及关系联合抽取方法,包括:1,预处理得到语句序列特征的每个字对应的特征向量X;2,将待抽取的关系用三元组表示为(s,r,o);将X作为实体抽取层网络的输入,预测获得实体subject的实体信息;3,将X和实体信息拼接作为自注意力机制的key和value,获取注意力权重α,将α和1‑α分别作为权重,以加权求和的方式得到两者结合的信息向量;4,基于信息向量获得实体object的首尾位置和关系类别r;5,基于三元组(s,r,o),根据实体subject的实体类别和关系类别r,得到实体object的实体类别。本发明对关系重叠和单句多关系的识别效果良好,解决了实体信息和编码信息的自适应结合问题,能够准确有效地联合抽取中文电子病历中的实体及关系。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于深度学习的中文电子病历实体及关系联合抽取方法。
背景技术
电子病历是对患者病情信息的一种记录,充分利用电子病历可以提高医疗质量和效率,降低医疗风险和差错。电子病历中,有很多实体及对应的关系,比如疾病和药物、身体部位和病症相关的关系,充分抽取和利用这些关系有着重要的医学研究价值。但从数量庞大的电子病历中抽取实体及对应的关系需要耗费大量的人力和时间,因此,准确有效地抽取医学文本中的实体及关系对医学价值利用有着重要的意义。
基于深度学习的实体及关系联合抽取模型一般是基于序列编码器以及相关变体来提取语句特征,然后再使用不同的策略学习实体和关系,从而实现实体和关系的联合抽取。
Miwa等人提出了基于序列和树结构的LSTMs实体和关系联合抽取方法,使用序列和树结构分别提取实体和关系,但是这两个任务的编码方式并不是共享,而且是先抽取所有实体,然后进行关系抽取,并不是完全同步进行。另外,由于树结构比较依赖外部NLP工具,这样NLP工具产生的误差也会传递到实体关系抽取任务中。
Zheng等人提出了一种新的实体关系标注方案,将实体关系联合抽取转化成序列标注问题,再使用BI-LSTM为编码,嵌入层为字向量,解码过程使用单向LSTM,获取签序列信息,实现实体和关系的联合抽取。该方法虽然将实体关系抽取简化为了序列标注问题,但是其标注方式不适用于关系重叠的情况,即一个实体与多类实体同时含有关系。
针对关系抽取模型中处理关系重叠问题的局限性,Su等人设计了一种层次化二元标注的框架来应对这个问题。这个框架将三元组的抽取任务建模为三个级别的问题,从而能够更好地解决三元组重叠的问题。其核心观点就是不再将关系抽取的过程看作实体对的离散标签,而是将其看作两个实体的映射关系。给定一个三元组(s,r,o),其中,s为subject,表示三元组的第一个实体;o为object,表示三元组的第二个实体;r表示第一个实体和第二个实体的关系类别。框架分为3层任务计算,第一层预测出来subject标签,第二层根据预测出来的subject标签预测object,第三层通过预测出来的s和o预测两个实体的关系类别。但是,其忽略了实体类别信息,在预测第一个实体的起始和结尾部分时,没有区分实体类别,相当于将所有关系中的第一个实体归为一个类别。另外,在使用第一个实体和编码层信息预测第二个实体时,只是将两者信息相加,进一步影响关系抽取的结果。
在此背景下,研究一种基于层次多元标签,且能自适应地结合实体信息和编码信息的中文电子病历实体及关系联合抽取的方法尤为重要。
发明内容
本发明的目的在于,针对现有方法中对关系重叠和单句多关系的识别效果不佳、实体信息和编码信息不能自适应结合的问题,提供一种基于深度学习的中文电子病历实体及关系联合抽取方法,对关系重叠和单句多关系的识别效果良好,解决了实体信息和编码信息的自适应结合问题,能够更加准确有效地联合抽取中文电子病历中的实体及关系。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特点是包括以下步骤:
步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;
步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;
步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;
步骤4,基于步骤3获得的特征向量,获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;
步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。
作为一种优选方式,所述步骤1中,对电子病历分句时,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。
作为一种优选方式,使用BERT模型作为编码器对语句进行编码。
作为一种优选方式,所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:
首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end;
然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;
最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。
作为一种优选方式,Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);
Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);
其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_end中第i行第j列的元素表示语句序列中第i个字为实体subject的结尾位置且实体类别为yi的概率;σ为激活函数sigmod;Ws_start为指针在实体subject起始位置的权重矩阵;Ws_end为指针在实体subject结尾位置的权重矩阵;bs_start为实体subject在起始位置的偏置;bs_end为实体subject在结尾位置的偏置。
作为一种优选方式,所述步骤3中,使用神经网络的方式获取注意力权重α的过程包括:
首先,将向量Vk和编码层向量X进行拼接,得到[X;Vk],其中Vk表示已抽取的实体subject的向量表达;k表示实体subject的位置;
然后,利用下述公式获得中间变量O:O=tanh(WO[X;Vk]+bO),其中,WO为Vk和X拼接后的权重矩阵,bO为与WO对应的偏置量;
最后,利用下述公式获得注意力权重α:α=σ(Wα·O+bα),其中,Wα为注意力权重矩阵,bα为与Wα对应的偏置量。
作为一种优选方式,所述步骤3中,基于下述公式,利用α将实体subject的实体信息和字向量X结合,得到特征向量V:V=α·X+(1-α)·Vk。
作为一种优选方式,所述步骤4包括:
首先,求得语句序列中的每个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率Po_start,求得语句序列中的每个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率po_end;
然后,设定实体object起始位置的概率阈值为ostart、实体object结尾位置的概率阈值为oend;找出Po_start中所有大于ostart的值,得到对应的实体object的起始位置和起始位置关系类别;找出po_end中所有大于oend的值,得到对应的实体object的结尾位置和结尾位置关系类别;
最后,根据实体object的起始位置和起始位置关系类别,找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置,即得到实体object的起始位置、实体object的结尾位置和关系类别r。
优选地,Po_start的计算公式为:Po_start=σ(Wo_start·V+bo_start);
po_end的计算公式为:Po_end=σ(Wo_end·V+bo_end);
其中,Po_start和po_end均表示大小为n×mr的概率矩阵,其中n表示语句序列的长度,mr表示实体object的实体类别数量,Po_start中第i行第j列的元素表示语句序列中第i个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为ri的概率,po_end中第i行第j列的元素/>表示语句序列中第i个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为ri的概率;σ为激活函数sigmod;Wo_start为指针在实体object起始位置的权重矩阵;Wo_end为指针在实体object结尾位置的权重矩阵;bo_start为实体object在起始位置的偏置;bo_end为实体object在结尾位置的偏置。
与现有技术相比,本发明对关系重叠和单句多关系的识别效果良好,解决了实体信息和编码信息的自适应结合问题,能够更加准确有效地联合抽取中文电子病历中的实体及关系。
具体实施方式
以使用句子“颈软无抵抗,无颈静脉怒张,甲状腺无肿大”为例进行抽取,本发明基于深度学习的中文电子病历实体及关系联合抽取方法包括以下步骤:
步骤1,预处理电子病历中的文本语料,将电子病历分句分字,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS]。语句变成“[CLS]颈软无抵抗,无颈静脉怒张,甲状腺肿大[SEP]”。使用BERT模型作为编码器对语句进行编码,提取得到语句序列特征的每个字对应的特征向量X。
步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别。将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。
具体地,所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:
首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end。
Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);
Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);
其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,即语句中字的个数,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_end中第i行第j列的元素/>表示语句序列中第i个字为实体subject的结尾位置且实体类别为yi的概率;σ为激活函数sigmod,该函数将输出控制在0-1范围内,从而实现二分类,即0或者1;Ws_start为指针在实体subject起始位置的权重矩阵;Ws_end为指针在实体subject结尾位置的权重矩阵;bs_start为实体subject在起始位置的偏置;bs_end为实体subject在结尾位置的偏置。
然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;
最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别。比如本实例“颈软无抵抗,无颈静脉怒张,甲状腺无肿大”中,实体subject有“颈”,“颈静脉”和“甲状腺”,首尾位置分别为(0,0),(7,9)和(13,15),实体subject实体类别分别为身体部位,身体部位和身体部位。
步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,使用神经网络的方式获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量。
所述步骤3中,使用神经网络的方式获取注意力权重α的过程包括:
首先,将向量Vk和编码层向量X进行拼接,得到[X;Vk],其中Vk表示已抽取的实体subject的向量表达,即起始位置和结尾位置指针特征向量的和;k表示实体subject的位置;
然后,通过特征变换和tanh激活方式获得中间变量O,计算公式为:O=tanh(WO[X;Vk]+bO),其中,WO为Vk和X拼接后的权重矩阵,bO为与WO对应的偏置量。
最后,对中间变量O进一步特征变换,使用sigmod激活函数,得到注意力权重α,α被控制在0-1范围内,从而实现门控的效果,计算公式为:α=σ(Wα·O+bα),其中,Wα为注意力权重矩阵,bα为与Wα对应的偏置量。
所述步骤3中,基于下述公式,利用注意力权重α将实体subject的实体信息和字向量X结合,得到特征向量V:V=α·X+(1-α)·Vk。
步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;
具体地,所述步骤4包括:
首先,求得语句序列中的每个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率Po_start,求得语句序列中的每个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率po_end。
Po_start的计算公式为:Po_start=σ(Wo_start·V+bo_start);
po_end的计算公式为:Po_end=σ(Wo_end·V+bo_end);
其中,Po_start和po_end均表示大小为n×mr的概率矩阵,其中n表示语句序列的长度,mr表示实体object的实体类别数量,Po_start中第i行第j列的元素表示语句序列中第i个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为ri的概率,po_end中第i行第j列的元素/>表示语句序列中第i个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为ri的概率;σ为激活函数sigmod,将输入控制在0-1范围内,从而实现二分类,即0或者1;Wo_start为指针在实体object起始位置的权重矩阵;Wo_end为指针在实体object结尾位置的权重矩阵;bo_start为实体object在起始位置的偏置;bo_end为实体object在结尾位置的偏置。
然后,设定实体object起始位置的概率阈值为ostart、实体object结尾位置的概率阈值为oend;找出Po_start中所有大于ostart的值,得到对应的实体object的起始位置和起始位置关系类别;找出po_end中所有大于oend的值,得到对应的实体object的结尾位置和结尾位置关系类别;
最后,根据实体object的起始位置和起始位置关系类别,找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置,即得到实体object的起始位置、实体object的结尾位置和关系类别r。比如本实例“颈软无抵抗,无颈静脉怒张,甲状腺无肿大”中,实体object有“抵抗”,“怒张”和“肿大”,首尾位置分别为(3,4),(10,11)和(16,17),关系类别r分别为BrSy(身体部位与医学发现),BrSy和BrSy。
步骤5,由于三元组中实体类别和关系一一对应且唯一,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别。本实例中,得到实体object“抵抗”,“怒张”和“肿大”的实体类别分别为医学发现,医学发现和医学发现。
上面对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是局限性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。
Claims (2)
1.一种基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,包括以下步骤:
步骤1,预处理电子病历中的文本语料,将电子病历分句分字,并对获得的语句进行编码,提取得到语句序列特征的每个字对应的特征向量X;
步骤2,将待抽取的关系用三元组表示为(s,r,o),其中s为subject并代表三元组的第一个实体,o为object并代表三元组的第二个实体,r代表实体subject和实体object的关系类别;将步骤1获得的特征向量X作为实体抽取层网络的输入,预测获得语句序列中的实体subject的实体信息,其中实体subject的实体信息包括实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;
步骤3,将步骤1所得的特征向量X和步骤2所得的实体信息进行拼接,作为自注意力机制的key和value,获取注意力权重α,将α和1-α分别作为特征向量X和实体信息的权重,以加权求和的方式得到特征向量X和实体信息两者结合的信息向量;
步骤4,基于步骤3获得的信息向量,预测获得语句序列中的实体object的起始位置、实体object的结尾位置和关系类别r;
步骤5,基于三元组(s,r,o),根据步骤2获得的实体subject的实体类别和步骤4获得的关系类别r,得到实体object的实体类别;
所述步骤1中,对电子病历分句时,在单句语句的起始位置处添加用于表示整个句子的特征的字符串[CLS],在单句语句的结尾位置处添加用于表示单句语句的分割点的字符串[CLS];
所述步骤2中,将步骤1获得的字向量X作为实体抽取层网络的输入后:
首先,求得语句序列中的每个字为实体subject的起始位置且实体类别为实体subject选定实体类别的概率Ps_start,求得语句序列中的每个字为实体subject的结尾位置且实体类别为实体subject选定实体类别的概率Ps_end;
然后,设定实体subject起始位置的概率阈值为sstart、实体subject结尾位置的概率阈值为send;找出Ps_start中所有大于sstart的值,得到对应的实体subject的起始位置和起始位置实体类别;找出Ps_end中所有大于send的值,得到对应的实体subject的结尾位置和结尾位置实体类别;
最后,根据实体subject的起始位置和起始位置实体类别,找出大于并最接近该实体subject的起始位置且结尾位置实体类别与起始位置实体类别一致的实体subject的结尾位置,即得到实体subject的起始位置、实体subject的结尾位置和实体subject的实体类别;
Ps_start的计算公式为:Ps_start=σ(Ws_startx+bs_start);
Ps_end的计算公式为:Ps_end=σ(Ws_endx+bs_end);
其中,Ps_start和Ps_end均表示大小为n×me的概率矩阵,其中n表示语句序列的长度,me表示实体subject的实体类别数量,Ps_start中第i行第j列的元素表示语句序列中第i个字为实体subject的起始位置且实体类别为yi的概率,Ps_end中第i行第j列的元素/>表示语句序列中第i个字为实体subject的结尾位置且实体类别为yi的概率;σ为激活函数sigmod;Ws_start为指针在实体subject起始位置的权重矩阵;Ws_end为指针在实体subject结尾位置的权重矩阵;bs_start为实体subject在起始位置的偏置;bs_end为实体subject在结尾位置的偏置;
所述步骤3中,使用神经网络的方式获取注意力权重α的过程包括:
首先,将向量Vk和编码层向量X进行拼接,得到[X;Vk],其中Vk表示已抽取的实体subject的向量表达;k表示实体subject的位置;
然后,利用下述公式获得中间变量O:O=tanh(WO[X;Vk]+bO),其中,WO为Vk和X拼接后的权重矩阵,bO为与WO对应的偏置量;
最后,利用下述公式获得注意力权重α:α=σ(Wα·O+bα),其中,Wα为注意力权重矩阵,bα为与Wα对应的偏置量;
所述步骤3中,基于下述公式,利用α将实体subject的实体信息和字向量X结合,得到特征向量V:V=α·X+(1-α)·Vk;
所述步骤4包括:
首先,求得语句序列中的每个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率Po_start,求得语句序列中的每个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为选定关系类别的概率po_end;
然后,设定实体object起始位置的概率阈值为ostart、实体object结尾位置的概率阈值为oend;找出Po_start中所有大于ostart的值,得到对应的实体object的起始位置和起始位置关系类别;找出po_end中所有大于oend的值,得到对应的实体object的结尾位置和结尾位置关系类别;
最后,根据实体object的起始位置和起始位置关系类别,找出大于并最接近该实体object的起始位置且结尾位置关系类别与起始位置关系类别一致的实体object的结尾位置,即得到实体object的起始位置、实体object的结尾位置和关系类别r;
Po_start的计算公式为:Po_start=σ(Wo_start·V+bo_start);
po_end的计算公式为:Po_end=σ(Wo_end·V+bo_end);
其中,Po_start和po_end均表示大小为n×mr的概率矩阵,其中n表示语句序列的长度,mr表示实体object的实体类别数量,Po_start中第i行第j列的元素表示语句序列中第i个字为实体object的起始位置且实体object与实体subject两个实体之间的关系类别为ri的概率,po_end中第i行第j列的元素/>表示语句序列中第i个字为实体object的结尾位置且实体object与实体subject两个实体之间的关系类别为ri的概率;σ为激活函数sigmod;Wo_start为指针在实体object起始位置的权重矩阵;Wo_end为指针在实体object结尾位置的权重矩阵;bo_start为实体object在起始位置的偏置;bo_end为实体object在结尾位置的偏置。
2.如权利要求1所述的基于深度学习的中文电子病历实体及关系联合抽取方法,其特征在于,使用BERT模型作为编码器对语句进行编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516382.5A CN112542222B (zh) | 2020-12-21 | 2020-12-21 | 基于深度学习的中文电子病历实体及关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011516382.5A CN112542222B (zh) | 2020-12-21 | 2020-12-21 | 基于深度学习的中文电子病历实体及关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112542222A CN112542222A (zh) | 2021-03-23 |
CN112542222B true CN112542222B (zh) | 2024-02-02 |
Family
ID=75019292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011516382.5A Active CN112542222B (zh) | 2020-12-21 | 2020-12-21 | 基于深度学习的中文电子病历实体及关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112542222B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
WO2020211250A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165385B (zh) * | 2018-08-29 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于实体关系联合抽取模型的多三元组抽取方法 |
-
2020
- 2020-12-21 CN CN202011516382.5A patent/CN112542222B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211250A1 (zh) * | 2019-04-19 | 2020-10-22 | 平安科技(深圳)有限公司 | 中文病历的实体识别方法、装置、设备及存储介质 |
CN111243699A (zh) * | 2020-01-14 | 2020-06-05 | 中南大学 | 基于字词信息融合的中文电子病历实体抽取方法 |
CN111368528A (zh) * | 2020-03-09 | 2020-07-03 | 西南交通大学 | 一种面向医学文本的实体关系联合抽取方法 |
Non-Patent Citations (2)
Title |
---|
生物医学文本挖掘若干关键技术研究;罗凌;《中国博士学位论文全文数据库 医药卫生科技辑》(第第06期期);E080-12 * |
面向医学文本的实体关系抽取研究综述;昝红英等;《郑州大学学报( 理 学 版)》;第52卷(第4期);第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112542222A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN109492202A (zh) | 一种基于拼音的编码与解码模型的中文纠错方法 | |
CN112115721B (zh) | 一种命名实体识别方法及装置 | |
CN112487820B (zh) | 一种中文医疗命名实体识别方法 | |
CN111767718B (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN113128229A (zh) | 一种中文实体关系联合抽取方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN109918681B (zh) | 一种基于汉字-拼音的融合问题语义匹配方法 | |
CN111460824B (zh) | 一种基于对抗迁移学习的无标注命名实体识别方法 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN115310448A (zh) | 一种基于bert和字词向量结合的中文命名实体识别方法 | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN111651993A (zh) | 融合局部-全局字符级关联特征的中文命名实体识别方法 | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN114911947A (zh) | 一种基于知识提示的概念抽取模型 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN112488111B (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 | |
CN113641809A (zh) | 一种基于XLNet-BiGRU-CRF的智能问答方法 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN112542222B (zh) | 基于深度学习的中文电子病历实体及关系联合抽取方法 | |
CN112733526B (zh) | 一种自动识别财税文件中征税对象的抽取方法 | |
CN114298052A (zh) | 一种基于概率图的实体联合标注关系抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |