CN110444259A - 基于实体关系标注策略的中医电子病历实体关系提取方法 - Google Patents
基于实体关系标注策略的中医电子病历实体关系提取方法 Download PDFInfo
- Publication number
- CN110444259A CN110444259A CN201910490550.9A CN201910490550A CN110444259A CN 110444259 A CN110444259 A CN 110444259A CN 201910490550 A CN201910490550 A CN 201910490550A CN 110444259 A CN110444259 A CN 110444259A
- Authority
- CN
- China
- Prior art keywords
- entity relationship
- entity
- relationship
- traditional chinese
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 37
- 208000024891 symptom Diseases 0.000 claims description 36
- 201000010099 disease Diseases 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 33
- 230000036541 health Effects 0.000 claims description 19
- 239000003814 drug Substances 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 11
- 238000000586 desensitisation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 13
- 208000011580 syndromic disease Diseases 0.000 description 10
- 239000008280 blood Substances 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 208000002513 Flank pain Diseases 0.000 description 6
- 208000000059 Dyspnea Diseases 0.000 description 4
- 206010013975 Dyspnoeas Diseases 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 208000002193 Pain Diseases 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000009514 concussion Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000002173 dizziness Diseases 0.000 description 2
- 230000001709 ictal effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 208000013220 shortness of breath Diseases 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 206010042772 syncope Diseases 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Epidemiology (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及基于实体关系标注策略的中医电子病历实体关系提取方法,属于计算机自然语言处理技术领域。本发明首先使用基于新的标注策略进行实体关系联合标注的方法来获取所需要的实体关系语料,再利用Bi‑lstm模型对标注好的实体关系进行处理,最后使用爬虫补全不完整的实体关系。最终模型避免了传统串联方法产生错误传递、误差累积、关系分类不准确等问题。
Description
技术领域
本发明涉及一种基于实体关系标注策略的中医电子病历实体关系提取方法,属于计算机自然语言处理技术领域。
背景技术
中医电子病历作为电子病历的一部分,是数字化中医医疗服务的工作记录,其 中包含了大量的中医领域的相关知识,构建一个中医领域的知识图谱将更易于中医 电子病历的这些知识在计算机之间和计算机与人之间流通,能带来更高效精准的医 疗服务,但目前针对中医电子病历知识挖掘和利用方面的研究还处于初级阶段。中 医电子病历作为承载着重要医疗知识的半结构化文本,不像数据库一样有严格的理 论模型、数据结构,还具有口语化、专业化的特点,并且中医术语大多为古汉语。 因此想要利用这些中医领域的相关知识就变得十分麻烦。作为构建知识图谱的基础 技术,实体关系提取的研究尤为重要。现有的实体关系提取多以串联方式进行提取, 即先进行命名实体识别,再进一步得到实体关系。这种方式有利于整个任务的处理, 每个部分更加的灵活便捷,但是却会忽视子任务之间的关系,命名实体识别的结果 会影响下一步的关系分类,造成累积,还会产生一些冗余信息。联合实体关系提取 方法则不同,使用一个模型整体来提取实体关系,能很好的提取实体和关系,并且 能取得很好的效果。
发明内容
本发明提供了一种基于实体关系标注策略的中医电子病历实体关系提取方法,能很容易地将提取问题转化为标注任务,又能避免传统串联方法产生错误传递、误 差累积、关系分类不准确等问题。
本发明的技术方案是:一种基于实体关系标注策略的中医电子病历实体关系提取方法,所述方法具体步骤如下:
Step1、先对中医骨科电子病历进行信息脱敏,然后对中医电子病历进行预处理,将病历原先具有的结构转化为计算机可处理的数据结构,去除病人隐私及其他与实 体关系提取无关的信息;
Step2、使用实体关系标注策略,进行实体关系联合标注,来获取训练所需要的 实体关系语料,由于获得的实体关系不一定完整,需要爬虫进行补全;
Step3、使用Bi-lstm模型对标注好的实体关系进行处理,输入已标注的语料训练好模型,然后输出抽取到的实体关系;
Step4、以获得的实体关系中疾病实体作为种子爬虫进行补充得到相对完整的实体关系。
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、先对中医骨科电子病历进行信息脱敏,然后去除病人隐私,隐私包括:姓名、床号、住院号、地址等易被他人识别的关键隐私信息;
Step1.2、电子病历为半结构化文本,中医电子病历具有一定的结构性,但又没 有严格理论模型和数据结构,因此需要进行预处理;
预处理包括进行医疗文本分词,然后去除无用、不规则的文本,即去除对提取 实体和关系无用的信息,将不规则无参考价值的文本全部去除。
进一步地,所述步骤Step2中实体关系标注策略的具体步骤如下:
Step2.1、每个词被分配一个标签,这样讲有助于提取结果,标签“O”表示“其 他”标签,这意味着相应的单词与实体关系无关;
其他标签由三部分组成:在实体中的位置、关系类型、实体的顺序;
Step2.2、使用“BIES”符号来表示一个单词在实体中的位置信息,用“1”和“2” 来表示实体关系三元组中的实体顺序。
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、标注文本中,词和标签分开来存储;
Step3.2、词向量输入到Bi-lstm模型进行迭代训练,模型根据标签自动调整参数使之拟合相关特征;
Step3.3、将训练好的模型用于实体关系自动提取。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、以实体关系中疾病实体为种子爬取对应的症状信息,对爬取的内容进行处理,将所有标点以及连词都替换为“、”;
Step4.2、再将Step4.1中新爬取到的症状信息与Step3提取到的实体关系中症状实体进行匹配,如果有则删除Step4.1中新爬取到的症状信息,没有就将Step4.1中 新爬取到的症状信息作为新的症状加入到Step3中得到的实体关系中以此来补全实 体关系。
在标注时对文本中的每个词都进行标注,将文本中的实体关系和不相关的词以不同的标签区分开来,以便更好的提取实体关系,但是文本中与实体关系无关的词 统一都标注为“O”,实体关系的标签如表1所示:
表1实体关系标签表
SOD疾病的症状 | DAWD疾病伴随的疾病 | AOD疾病的别名 |
S-SOD-1 | S-DAWD-1 | S-AOD-1 |
S-SOD-2 | S-DAWD-2 | S-AOD-2 |
B-SOD-1 | B-DAWD-1 | B-AOD-1 |
I-SOD-1 | I-DAWD-1 | I-AOD-1 |
E-SOD-1 | E-DAWD-1 | E-AOD-1 |
B-SOD-2 | B-DAWD-2 | B-AOD-2 |
I-SOD-2 | I-DAWD-2 | I-AOD-2 |
E-SOD-2 | E-DAWD-2 | E-AOD-2 |
标签由实体中的位置、关系类型和实体的顺序组成。标签中的“S”代表单个词 作为一个实体,“B”表示该词是这个实体的第一个词,“I”表示该词是实体的内部, “E”表示该次是这个实体的最后一个词;定义了三种关系的类型:SOD疾病的症状 (Symptoms ofdisease)、DAWD疾病伴随的疾病(Diseases associated with diseases)、 AOD疾病的等价关系(Alias of diseases);数字“1”实体关系三元组中的第一个实 体,“2”分别表示实体关系三元组的中的第二个实体。
在标注时,根据医院专家的指导使用上述标签来对电子病历进行标注。对“患 者自诉伤后即感腰部疼痛,未做特殊处理,……初步诊断:气滞血瘀证”这句话进 行标注时,“腰部疼痛”是“气滞血瘀证”的一个症状,因此文中的需要提取的实体 为“腰部疼痛”和“气滞血瘀证”这两个实体,而他们之间的关系属于疾病对应的 症状,“腰部”作为第一个实体的开始部分,因此“腰部”的标签为“B-SOD-1”;“疼 痛”作为第一个实体的结尾部分,标签为“E-SOD-2”,“气滞血瘀证”在分词时分为 一个单独的词,作为第二个单独的实体,标签为“S-SOD-2”;其他不相关的词如“患 者”或者标点,都标记为“O”。
所述的Bi-lstm模型作用为:输入已标注好的语料,可以输出抽取到的实体关系。读入数据、将语料和标注分别存入两个series、将词转换为1-hot特征的embedding (词嵌入)模型便于计算、构建前向后向lstm、分别进行前向后向计算、将反向层 翻转后与前向层拼接、优化求解,进行梯度下降计算、计算的最优的状态序列以输 出结果。
首先将标注后的文本生成词向量,送入Bi-LSTM模型分别开始向前层和向后 层的编码,然后将两个LSTM层所得到的隐向量进行拼接得到一个向量,接着通过 一个Softmax层将Bi-LSTM层得到的向量归一化处理,使之处于0-1之间;最后再 维特比算法来预测其标签概率,选择值最高的标签作为该词的标签输出。
Bi-LSTM由一个正向计算的LSTM(f)层和一个反向计算的LSTM(b)组成,每个 词的词向量{W0,W1,W2,W3}分别对输入进行编码之后得到向量 {hf0,hf1,hf2,hf3}和{hb0,hb1,hb2,hb3},通过将两个不同方向计算的向量拼 接得到隐向量hi作为输出向量即{h0,h1,h2,h3},这样在能保持上文特征信息的基 础上也获得了下文的特征信息,这就使得模型在处理病历文本信息上有了更大的优 势。
遗忘门:通过sigmoid函数来决定丢弃什么信息ft=σ(wf·[ht-1,xt]+bf)输 入门:Sigmoid层决定哪些信息需要更新it=σ(wi·[ht-1,xt]+bi)一个tanh层生成 一个向量(备选的用来更新的内容)
生成新的候选值输出门:运行一个sigmoid层决定细胞状态的 哪个部分将输出ot=σ(wo·[ht-1,xt]+bo)将细胞状态tanh处理并与sigmoid输出相 乘,得到最终输出ht=ot*tanh(Ct)
所述的爬去补充为以‘心悸’为种子构建url开始爬取相关的症状
url=‘https://baike.baidu.com/item/’+‘心悸’+‘/102232?fr=aladdin’
res=request.get(url)
用pquery框架对返回的html内容解析得到对应的症状
<dl class="basicInfo-block basicInfo-right">
<dt class="basicInfo-item name">常见症状</dt>
<dd class="basicInfo-item value">
发作性心慌不安,心跳剧烈,不能自主,常兼有胸闷气短、神疲乏力、头晕喘 促,不能平卧,以至晕厥
对爬取的内容进行处理,将所有标点以及连词都替换为“、”
再将新获取到的症状与提取到的进行匹配,如果有则删除,没有就作为新的症 状加入。
本发明的有益效果是:
1、当前的实体关系提取主要是以串联提取方式(也称为流水线方式),及先对 文本进行命名实体识别,然后在依据关系类型将实体组合起来完成关系分类,达到 实体关系提取的目的。但是这种方法会造成:1、错误传播,将命名实体识别产生的 错误传递下去,影响最后的实体关系正确性;2、忽视实体组合分类子任务之间的关 系,即组合后的实体对之间也可能存在关系,但这一步却忽略了这种可能存在的关 系;3、产生冗余、错误信息,若两个实体之间并无关系却仍然组合在一起,得到了 不正确的实体关系;4、提取到的实体关系并不完整。针对目前这种实体关系串联提 取方式存在的问题,提出了一种基于实体关系标注策略的实体关系联合提取方法, 克服这些问题。
2、本发明提出的方法能够更准确、高效的从中医骨科电子病历中提取实体关系,作为构建中医骨科疾病知识图谱的基础数据;
3、以爬虫的方式对不完整的实体关系进行数据补齐,解决传统方法的错误传播、忽视子任务关系和实体关系不完整等问题;
综上所述,这种基于改进标注策略的中医电子病历实体关系提取方法,首先使 用基于新的标注策略进行实体关系联合抽取的方法来获取所需要的实体关系,再利 用Bi-lstm模型对标注好的序列进行处理,最后使用爬虫补全不完整的实体关系。最 终模型避免了传统串联方法产生错误传递、误差累积、关系分类不准确等问题。
附图说明
图1为本发明提取的实体关系框架图;其中,第一排为输入实体关系语料到 Bi-lstm模型,第2-6排为在Bi-lstm模型中进行相关的处理,最后一排为输出抽取到 的实体关系。
图2为本发明实体关系标注方式实例图;
图3为本发明训练迭代次数对模型的影响图。
具体实施方式
实施例1:如图1-3所示,一种基于实体关系标注策略的中医电子病历实体关系 提取方法,所述方法具体步骤如下:
Step1、先对中医骨科电子病历进行信息脱敏,然后对中医电子病历进行预处理,将病历原先具有的结构转化为计算机可处理的数据结构,去除病人隐私及其他与实 体关系提取无关的信息;
进一步地,所述步骤Step1的具体步骤如下:
Step1.1、先对中医骨科电子病历进行信息脱敏,然后去除病人隐私,隐私包括:姓名、床号、住院号、地址等易被他人识别的关键隐私信息;
Step1.2、本发明使用中医电子病历,中医电子病历作为承载着重要医疗知识的半结构化文本,不像数据库一样有严格的理论模型、数据结构,还具有口语化、专 业化的特点,并且中医术语大多为古汉语;
中医电子病历作为电子病历的一部分,是数字化中医医疗服务的工作记录,其 中包含了大量的中医领域的相关知识,构建一个中医领域的知识图谱将更易于中医 电子病历的这些知识在计算机之间和计算机与人之间流通,能带来更高效精准的医 疗服务,但目前针对中医电子病历知识挖掘和利用方面的研究还处于初级阶段。中 医电子病历作为承载着重要医疗知识的半结构化文本,不像数据库一样有严格的理 论模型、数据结构,还具有口语化、专业化的特点,并且中医术语大多为古汉语。 想要利用这些中医领域的相关知识就变得十分麻烦,因此需要进行预处理;
预处理包括进行医疗文本分词,然后去除无用、不规则的文本,即去除对提取 实体和关系无用的信息,将不规则无参考价值的文本全部去除。
Step2、使用实体关系标注策略,进行实体关系联合标注,来获取训练所需要的 实体关系语料,由于获得的实体关系不一定完整,需要爬虫进行补全;
进一步地,所述步骤Step2中实体关系标注策略的具体步骤如下:
Step2.1、每个词被分配一个标签,这样讲有助于提取结果,标签“O”表示“其 他”标签,这意味着相应的单词与实体关系无关;
其他标签由三部分组成:在实体中的位置、关系类型、实体的顺序;
Step2.2、使用“BIES”符号来表示一个单词在实体中的位置信息,用“1”和“2” 来表示实体关系三元组中的实体顺序。
Step3、使用Bi-lstm模型对标注好的实体关系进行处理,输入已标注的语料训练好模型,然后输出抽取到的实体关系;
进一步地,所述步骤Step3的具体步骤如下:
Step3.1、标注文本中,词和标签分开来存储;
Step3.2、词向量输入到Bi-lstm模型进行迭代训练,模型根据标签自动调整参数使之拟合相关特征;
Step3.3、将训练好的模型用于实体关系自动提取。
Step4、以获得的实体关系中疾病实体作为种子爬虫进行补充得到相对完整的实体关系。
进一步地,所述步骤Step4的具体步骤如下:
Step4.1、以实体关系中疾病实体为种子爬取对应的症状信息,对爬取的内容进行处理,将所有标点以及连词都替换为“、”;
Step4.2、再将Step4.1中新爬取到的症状信息与Step3提取到的实体关系中症状实体进行匹配,如果有则删除Step4.1中新爬取到的症状信息,没有就将Step4.1中 新爬取到的症状信息作为新的症状加入到Step3中得到的实体关系中以此来补全实 体关系。
在标注时对文本中的每个词都进行标注,将文本中的实体关系和不相关的词以不同的标签区分开来,以便更好的提取实体关系,但是文本中与实体关系无关的词 统一都标注为“O”,实体关系的标签如表1所示:
表1实体关系标签表
SOD疾病的症状 | DAWD疾病伴随的疾病 | AOD疾病的别名 |
S-SOD-1 | S-DAWD-1 | S-AOD-1 |
S-SOD-2 | S-DAWD-2 | S-AOD-2 |
B-SOD-1 | B-DAWD-1 | B-AOD-1 |
I-SOD-1 | I-DAWD-1 | I-AOD-1 |
E-SOD-1 | E-DAWD-1 | E-AOD-1 |
B-SOD-2 | B-DAWD-2 | B-AOD-2 |
I-SOD-2 | I-DAWD-2 | I-AOD-2 |
E-SOD-2 | E-DAWD-2 | E-AOD-2 |
标签由实体中的位置、关系类型和实体的顺序组成。标签中的“S”代表单个词 作为一个实体,“B”表示该词是这个实体的第一个词,“I”表示该词是实体的内部, “E”表示该次是这个实体的最后一个词;定义了三种关系的类型:SOD疾病的症状(Symptoms ofdisease)、DAWD疾病伴随的疾病(Diseases associated with diseases)、 AOD疾病的等价关系(Alias of diseases);数字“1”实体关系三元组中的第一个实 体,“2”分别表示实体关系三元组的中的第二个实体。
在标注时,根据医院专家的指导使用上述标签来对电子病历进行标注。对“患 者自诉伤后即感腰部疼痛,未做特殊处理,……初步诊断:气滞血瘀证”这句话进 行标注时,“腰部疼痛”是“气滞血瘀证”的一个症状,因此文中的需要提取的实体 为“腰部疼痛”和“气滞血瘀证”这两个实体,而他们之间的关系属于疾病对应的 症状,“腰部”作为第一个实体的开始部分,因此“腰部”的标签为“B-SOD-1”;“疼 痛”作为第一个实体的结尾部分,标签为“E-SOD-2”,“气滞血瘀证”在分词时分为 一个单独的词,作为第二个单独的实体,标签为“S-SOD-2”;其他不相关的词如“患 者”或者标点,都标记为“O”。
所述的Bi-lstm模型作用为:输入已标注好的语料,可以输出抽取到的实体关系。读入数据、将语料和标注分别存入两个series、将词转换为1-hot特征的embedding (词嵌入)模型便于计算、构建前向后向lstm、分别进行前向后向计算、将反向层 翻转后与前向层拼接、优化求解,进行梯度下降计算、计算的最优的状态序列以输 出结果。
首先将标注后的文本生成词向量,送入Bi-LSTM模型分别开始向前层和向后层 的编码,然后将两个LSTM层所得到的隐向量进行拼接得到一个向量,接着通过一 个Softmax层将Bi-LSTM层得到的向量归一化处理,使之处于0-1之间;最后再维 特比算法来预测其标签概率,选择值最高的标签作为该词的标签输出。
Bi-LSTM由一个正向计算的LSTM(f)层和一个反向计算的LSTM(b)组成,每个 词的词向量{W0,W1,W2,W3}分别对输入进行编码之后得到向量 {hf0,hf1,hf2,hf3}和{hb0,hb1,hb2,hb3},通过将两个不同方向计算的向量拼 接得到隐向量hi作为输出向量即{h0,h1,h2,h3},这样在能保持上文特征信息的基 础上也获得了下文的特征信息,这就使得模型在处理病历文本信息上有了更大的优 势。
遗忘门:通过sigmoid函数来决定丢弃什么信息ft=σ(wf·[ht-1,xt]+bf)输 入门:Sigmoid层决定哪些信息需要更新it=σ(wi·[ht-1,xt]+bi)一个tanh层生成 一个向量(备选的用来更新的内容)生成新的候选值输出门:运行一个sigmoid层决定细胞状态的 哪个部分将输出ot=σ(wo·[ht-1,xt]+bo)将细胞状态tanh处理并与sigmoid输出相 乘,得到最终输出ht=ot*tanh(Ct)
所述的爬去补充为以‘心悸’为种子构建url开始爬取相关的症状
url=‘https://baike.baidu.com/item/’+‘心悸’+‘/102232?fr=aladdin’
res=request.get(url)
用pquery框架对返回的html内容解析得到对应的症状
<dl class="basicInfo-block basicInfo-right">
<dt class="basicInfo-item name">常见症状</dt>
<dd class="basicInfo-item value">
发作性心慌不安,心跳剧烈,不能自主,常兼有胸闷气短、神疲乏力、头晕喘 促,不能平卧,以至晕厥
对爬取的内容进行处理,将所有标点以及连词都替换为“、”
再将新获取到的症状与提取到的进行匹配,如果有则删除,没有就作为新的症 状加入。
本发明的实验数据是采用昆明市中医院的骨科电子病历,分多次从昆明市中医院拷贝电子病历,涵盖了各个季节、节气的骨科病人。在经过预处理工作后,以上 述介绍的实体关系标注策略为标准对电子病历进行标注,作为实验的训练数据和测 试数据。本发明共设计了3个实验来对基于实体关系标注策略的实体关系联合提取 模型的参数设置、提取结果进行验证和对比,证明模型的模型参数设置的合理性以 及实体关系提取的有效性。
1、设计第1个实验,在同等条件下只改变用于模型的数据量,验证模型在当前 数据量下的训练是否有效;
2、设计第2个实验,在同等数据量、相同参数的情况下,只改变模型训练的迭 代次数,观察损失函数值以及准确率的变化,以寻求最佳的迭代次数;
3、设计第3个实验,在数据量、迭代次数等参数均保持不变的情况下,同其他 的模型进行对比实验,对比训练计算的时间、准确率、召回率以及F1等指标。
实验1:进行训练数据量的实验,即验证本方法在不同数据量下性能如何,使用 用相同的测试数据,分别记录数据量为200,400,800,1600,2000,2400时的P(查准率)、 R(召回率)以及F1值,实验结果如下:
表2
从上表的实验数据可以看出,在数据量较少(200-400)的情况下无论是准确率 还是召回率都较低,这是由于训练数据量较少,模型特征学习不够造成的欠拟合导 致了准确率和召回率都比较低,在数据量增加至800以后准确率和召回率都开始逐 步增加,在达到2000-2400的时候准确率和召回率趋于稳定变化不大,因此该数据量 在当前阶段的研究工作中是足够的。
实验2
在深度学习模型(本发明采用Bi-lstm模型)的训练中,需要对训练数据进行多 次的迭代训练以求能拟合数据中需要的特征,但目前对于深度学习模型的训练次数 还没有一个明确的标准,不同的模型不同的数据所要训练的次数也不同,训练次数 少不能很好的拟合数据中的特征,但是训练次数过多又会过分拟合了数据中的无用 特征,为寻求本模型的最佳训练次数进行相应的实验来调整模型的训练次数达到最 佳,实验结果如图3所示。
图3的实验都是在数据量为2000的条件下,其他条件不改变仅调整训练次数得 到的,左图为损失函数值随着训练次数的增加的变化,图中的实验结果震荡是由于 模型的数据处理是以批次的形式进行的,所以造成了震荡。可以看到迭代次数从 0-300,损失值呈递减的状态,但是在迭代次数达到250次以上时,损失值的降低开 始减少,变得不那么明显,在达到300次以后的时候趋于一个稳定的状态,几乎不 下降。
右图是训练集和测试集分别在不同训练次数下的准确率对比,每个点分别取区间的平均值。可以看到一开始的时候由于模型的迭代次数较少,不能很好的拟合数 据中的特征,准确率都较低,但是随着模型训练次数的增加准确率开始急速上升, 在达到200次以后增幅降低,开始趋于稳定,达到300次时测试集的准确率达到峰 值。在随着训练次数的继续增加训练集数据的准确率持续走高,测试集的准确率却 开始降低,可以判断此时模型开始过拟合了,过分的拟合了训练集数据中没用的特 征和噪音,对于测试集中所需要的特征无法拟合了。综合左图中的损失函数走势, 在250次以后损失值开始趋于稳定,在300次时准确率达到最高,因此迭代次数为 300次最佳。
实验3
为了验证模型的性能,还与其他的模型做了训练时间以及测试实体关系提取在相同的训练数据和测试数据下所耗费时间以及准确率、召回率、F1进行对比:
表3
训练时间(s) | 提取时间(ms) | P | R | F1 | |
FCM | / | 661 | 0.55 | 0.15 | 0.24 |
RNN | 8614 | 681 | 0.50 | 0.36 | 0.41 |
LSTM+CRF | 9048 | 703 | 0.52 | 0.31 | 0.39 |
Bi-LSTM | 11554 | 821 | 0.61 | 0.43 | 0.5 |
Bi-LSTM+Viterb | 17704 | 894 | 0.59 | 0.46 | 0.52 |
从上表数据中得到,本文所提出的方法在实验中的召回率和F1值最好,这是由 于Bi-lstm网络和维特比算法其本身的特性,Bi-lstm能选择性的向下传递所需要的信 息,并且能获取上下文信息的特征,而维特比算法以动态规划的方式预测出最优的 标签,但是维特比算法本身的特性导致其时间复杂度和空间复杂度较高,这也就造 成了在训练时间上要高于其他的模型。FCM方法是手工制作的特征和学习过的单词 嵌入结合起来用于关系分类,但是需要先完成命名实体识别,属于串联方式的实体 关系提取,存在的误差传递等问题。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗 旨的前提下作出各种变化。
Claims (5)
1.基于实体关系标注策略的中医电子病历实体关系提取方法,其特征在于:所述方法具体步骤如下:
Step1、先对中医骨科电子病历进行信息脱敏,然后对中医电子病历进行预处理,将病历原先具有的结构转化为计算机可处理的数据结构,去除病人隐私及其他与实体关系提取无关的信息;
Step2、使用实体关系标注策略,进行实体关系联合标注,来获取训练所需要的实体关系语料,由于获得的实体关系不一定完整,需要爬虫进行补全;
Step3、使用Bi-lstm模型对标注好的实体关系进行处理,输入已标注的语料训练好模型,然后输出抽取到的实体关系;
Step4、以获得的实体关系中疾病实体作为种子爬虫进行补充得到相对完整的实体关系。
2.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法,其特征在于:所述步骤Step1的具体步骤如下:
Step1.1、先对中医骨科电子病历进行信息脱敏,然后去除病人隐私,隐私包括:姓名、床号、住院号、地址等易被他人识别的关键隐私信息;
Step1.2、电子病历为半结构化文本,中医电子病历具有一定的结构性,但又没有严格理论模型和数据结构,因此需要进行预处理;
预处理包括进行医疗文本分词,然后去除无用、不规则的文本,即去除对提取实体和关系无用的信息,将不规则无参考价值的文本全部去除。
3.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法,其特征在于:所述步骤Step2中实体关系标注策略的具体步骤如下:
Step2.1、每个词被分配一个标签,这样讲有助于提取结果,标签“O”表示“其他”标签,这意味着相应的单词与实体关系无关;
其他标签由三部分组成:在实体中的位置、关系类型、实体的顺序;
Step2.2、使用“BIES”符号来表示一个单词在实体中的位置信息,用“1”和“2”来表示实体关系三元组中的实体顺序。
4.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、标注文本中,词和标签分开来存储;
Step3.2、词向量输入到Bi-lstm模型进行迭代训练,模型根据标签自动调整参数使之拟合相关特征;
Step3.3、将训练好的模型用于实体关系自动提取。
5.根据权利要求1所述的基于实体关系标注策略的中医电子病历实体关系提取方法,其特征在于:所述步骤Step4的具体步骤如下:
Step4.1、以实体关系中疾病实体为种子爬取对应的症状信息,对爬取的内容进行处理,将所有标点以及连词都替换为“、”;
Step4.2、再将Step4.1中新爬取到的症状信息与Step3提取到的实体关系中症状实体进行匹配,如果有则删除Step4.1中新爬取到的症状信息,没有就将Step4.1中新爬取到的症状信息作为新的症状加入到Step3中得到的实体关系中以此来补全实体关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490550.9A CN110444259B (zh) | 2019-06-06 | 2019-06-06 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490550.9A CN110444259B (zh) | 2019-06-06 | 2019-06-06 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444259A true CN110444259A (zh) | 2019-11-12 |
CN110444259B CN110444259B (zh) | 2022-09-23 |
Family
ID=68428749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490550.9A Active CN110444259B (zh) | 2019-06-06 | 2019-06-06 | 基于实体关系标注策略的中医电子病历实体关系提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110444259B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111159770A (zh) * | 2019-12-31 | 2020-05-15 | 医渡云(北京)技术有限公司 | 文本数据脱敏方法、装置、介质及电子设备 |
CN111291554A (zh) * | 2020-02-27 | 2020-06-16 | 京东方科技集团股份有限公司 | 标注方法、关系抽取方法、存储介质和运算装置 |
CN111326262A (zh) * | 2020-03-19 | 2020-06-23 | 北京嘉和海森健康科技有限公司 | 电子病历数据中实体关系抽取方法、装置及系统 |
CN111429985A (zh) * | 2020-03-02 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN111540424A (zh) * | 2020-04-26 | 2020-08-14 | 吴九云 | 基于人工智能的智慧医疗病历管理方法及电子病历云平台 |
CN111581972A (zh) * | 2020-03-27 | 2020-08-25 | 平安科技(深圳)有限公司 | 文本中症状和部位对应关系识别方法、装置、设备及介质 |
CN112259183A (zh) * | 2020-11-11 | 2021-01-22 | 北京嘉和海森健康科技有限公司 | 一种基于电子病历的患者健康时间轴的提取方法和装置 |
CN112287665A (zh) * | 2020-10-19 | 2021-01-29 | 南京南邮信息产业技术研究院有限公司 | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
CN112711949A (zh) * | 2021-01-05 | 2021-04-27 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN113360643A (zh) * | 2021-05-27 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于短文本分类的电子病历数据质量评价方法 |
CN113515522A (zh) * | 2021-07-19 | 2021-10-19 | 南京信息职业技术学院 | 一种基于数据挖掘技术的标签自动分类方法 |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN115132303A (zh) * | 2022-04-28 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 生理标签预测方法、模型训练方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110251984A1 (en) * | 2010-04-09 | 2011-10-13 | Microsoft Corporation | Web-scale entity relationship extraction |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109243616A (zh) * | 2018-06-29 | 2019-01-18 | 东华大学 | 基于深度学习的乳腺电子病历联合关系抽取与结构化系统 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
-
2019
- 2019-06-06 CN CN201910490550.9A patent/CN110444259B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110251984A1 (en) * | 2010-04-09 | 2011-10-13 | Microsoft Corporation | Web-scale entity relationship extraction |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109243616A (zh) * | 2018-06-29 | 2019-01-18 | 东华大学 | 基于深度学习的乳腺电子病历联合关系抽取与结构化系统 |
CN109446338A (zh) * | 2018-09-20 | 2019-03-08 | 大连交通大学 | 基于神经网络的药物疾病关系分类方法 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109471895A (zh) * | 2018-10-29 | 2019-03-15 | 清华大学 | 电子病历表型抽取、表型名称规范化方法及系统 |
Non-Patent Citations (3)
Title |
---|
ZHENG, SC 等: ""Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme"", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
袁凯琦 等: ""医学知识图谱构建技术与研究进展"", 《计算机应用研究》 * |
谢先章 等: ""基于卷积神经网络的跨领域语义信息检索研究"", 《计算机应用与软件》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111078875B (zh) * | 2019-12-03 | 2022-12-13 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111159770A (zh) * | 2019-12-31 | 2020-05-15 | 医渡云(北京)技术有限公司 | 文本数据脱敏方法、装置、介质及电子设备 |
CN111291554A (zh) * | 2020-02-27 | 2020-06-16 | 京东方科技集团股份有限公司 | 标注方法、关系抽取方法、存储介质和运算装置 |
CN111291554B (zh) * | 2020-02-27 | 2024-01-12 | 京东方科技集团股份有限公司 | 标注方法、关系抽取方法、存储介质和运算装置 |
CN111429985A (zh) * | 2020-03-02 | 2020-07-17 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN111429985B (zh) * | 2020-03-02 | 2023-10-27 | 北京嘉和海森健康科技有限公司 | 电子病历数据处理方法及系统 |
CN111326262A (zh) * | 2020-03-19 | 2020-06-23 | 北京嘉和海森健康科技有限公司 | 电子病历数据中实体关系抽取方法、装置及系统 |
CN111581972A (zh) * | 2020-03-27 | 2020-08-25 | 平安科技(深圳)有限公司 | 文本中症状和部位对应关系识别方法、装置、设备及介质 |
CN111540424A (zh) * | 2020-04-26 | 2020-08-14 | 吴九云 | 基于人工智能的智慧医疗病历管理方法及电子病历云平台 |
CN111540424B (zh) * | 2020-04-26 | 2021-01-26 | 深圳坐标软件集团有限公司 | 基于人工智能的智慧医疗病历管理方法及电子病历云平台 |
CN111488467A (zh) * | 2020-04-30 | 2020-08-04 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN111488467B (zh) * | 2020-04-30 | 2022-04-05 | 北京建筑大学 | 地理知识图谱的构建方法、装置、存储介质及计算机设备 |
CN112287665B (zh) * | 2020-10-19 | 2024-05-03 | 南京南邮信息产业技术研究院有限公司 | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
CN112287665A (zh) * | 2020-10-19 | 2021-01-29 | 南京南邮信息产业技术研究院有限公司 | 基于自然语言处理和集成训练的慢病数据分析方法及系统 |
CN112259183A (zh) * | 2020-11-11 | 2021-01-22 | 北京嘉和海森健康科技有限公司 | 一种基于电子病历的患者健康时间轴的提取方法和装置 |
CN112259183B (zh) * | 2020-11-11 | 2023-08-08 | 北京嘉和海森健康科技有限公司 | 一种基于电子病历的患者健康时间轴的提取方法和装置 |
CN112711949B (zh) * | 2021-01-05 | 2022-04-22 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN112711949A (zh) * | 2021-01-05 | 2021-04-27 | 山东众阳健康科技集团有限公司 | 一种命名实体识别和实体关系抽取的联合方法 |
CN113360643A (zh) * | 2021-05-27 | 2021-09-07 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于短文本分类的电子病历数据质量评价方法 |
CN113515522A (zh) * | 2021-07-19 | 2021-10-19 | 南京信息职业技术学院 | 一种基于数据挖掘技术的标签自动分类方法 |
CN113515522B (zh) * | 2021-07-19 | 2024-05-24 | 南京信息职业技术学院 | 一种基于数据挖掘技术的标签自动分类方法 |
CN113553840A (zh) * | 2021-08-12 | 2021-10-26 | 卫宁健康科技集团股份有限公司 | 一种文本信息处理方法、装置、设备及存储介质 |
CN115132303A (zh) * | 2022-04-28 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 生理标签预测方法、模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110444259B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444259A (zh) | 基于实体关系标注策略的中医电子病历实体关系提取方法 | |
CN104834735B (zh) | 一种基于词向量的文档摘要自动提取方法 | |
CN110032739B (zh) | 中文电子病历命名实体抽取方法及系统 | |
CN106126577A (zh) | 一种基于数据源划分矩阵的加权关联规则挖掘方法 | |
CN109670179A (zh) | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 | |
CN105404632A (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
Xiong et al. | Knowledge graph question answering with semantic oriented fusion model | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
CN108875809A (zh) | 联合attention机制与神经网络的生物医学实体关系分类方法 | |
CN110046262A (zh) | 一种基于法律专家知识库的上下文推理方法 | |
CN113761893B (zh) | 一种基于模式预训练的关系抽取方法 | |
CN103530840A (zh) | 一种准确快速的电子病历录入系统 | |
Akgun et al. | Automated symmetry breaking and model selection in Conjure | |
Zhang et al. | Effective subword segmentation for text comprehension | |
CN116682553A (zh) | 一种融合知识与患者表示的诊断推荐系统 | |
CN110298036A (zh) | 一种基于词性增量迭代的在线医疗文本症状识别方法 | |
CN103513781A (zh) | 一种准确快速的电子病历录入系统 | |
CN109858020A (zh) | 一种基于语义图获取税务业务问题答案的方法及系统 | |
Wen et al. | Cross domains adversarial learning for Chinese named entity recognition for online medical consultation | |
CN115510864A (zh) | 一种融合领域词典的中文农作物病虫害命名实体识别方法 | |
CN114822874A (zh) | 一种基于特征偏差对齐的方剂功效分类方法 | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Qu et al. | A noise-aware method with type constraint pattern for neural relation extraction | |
Sui et al. | Trigger-gnn: a trigger-based graph neural network for nested named entity recognition | |
CN114444694A (zh) | 一种开放世界知识图谱补全方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |