CN112349370B - 一种基于对抗网络+众包的电子病历语料构建方法 - Google Patents
一种基于对抗网络+众包的电子病历语料构建方法 Download PDFInfo
- Publication number
- CN112349370B CN112349370B CN202011226864.7A CN202011226864A CN112349370B CN 112349370 B CN112349370 B CN 112349370B CN 202011226864 A CN202011226864 A CN 202011226864A CN 112349370 B CN112349370 B CN 112349370B
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- key
- classifier
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000002372 labelling Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000008485 antagonism Effects 0.000 claims abstract description 11
- 201000010099 disease Diseases 0.000 claims description 34
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 34
- 208000024891 symptom Diseases 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000011282 treatment Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 241000282326 Felis catus Species 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008878 coupling Effects 0.000 claims description 2
- 238000010168 coupling process Methods 0.000 claims description 2
- 238000005859 coupling reaction Methods 0.000 claims description 2
- 238000013075 data extraction Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000004088 simulation Methods 0.000 claims description 2
- 238000012706 support-vector machine Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000007429 general method Methods 0.000 abstract description 3
- 238000011160 research Methods 0.000 abstract description 2
- 238000012937 correction Methods 0.000 abstract 1
- 238000003745 diagnosis Methods 0.000 description 9
- 206010063659 Aversion Diseases 0.000 description 7
- 206010030113 Oedema Diseases 0.000 description 7
- 208000003532 hypothyroidism Diseases 0.000 description 7
- 230000002989 hypothyroidism Effects 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 239000002585 base Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 241000711573 Coronaviridae Species 0.000 description 1
- 241000208367 Euonymus Species 0.000 description 1
- 206010039966 Senile dementia Diseases 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明属于数据生成技术领域,提供了一种基于对抗网络+众包的电子病历语料构建方法,主要包括:(1)数据去隐私化;(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略;(3)基于对抗网络的实体和实体关系抽取。与现有技术相比,本发明具有成本低、质量高以及数据更新及时等优点。具体表现为本发明采用对抗模仿学习策略将众包数据逐渐学习成专家标注的高质量数据模式,从而对众包数据进行校正标注,以此来获取大规模高质量的语料,这在解决专家标注成本高、通用方法标注质量差及知识库对齐标注方法数据更新不及时等问题提供了一个有效的语料标注方法,同时,这对医疗领域的研究者也提供了一个语料构建方法,有助于他们开展后续的医学研究。
Description
技术领域
本发明属于数据生成技术领域,涉及一种对电子病历如疾病、部位、症状、检查及治疗等五类实体及其实体关系进行高质量标注的语料构建方法,具体包括:基于生成对抗网络语义一致性模仿学习策略和基于对抗网络的实体及实体关系抽取方法。
背景技术
电子病历语料中保存的是完整的患者诊疗信息,一个完整患者诊疗信息包括对患者症状的检查及诊断、对患者的治疗以及患者的康复情况,具体在电子病历语料中主要表现为疾病、部位、症状、检查及治疗等五类实体,而构建电子病历语料主要是识别上述五类实体及其实体关系。
与通用领域不同,电子病历文本包含的内容专业性极强,人工标注虽然质量高,但过程极为复杂且标注成本极高,这就导致电子病历高质量标注数据极少。对此,中国医学科学院信息研究所的胡佳慧团队开发了一套中文电子病历语义标注平台,并给出了清晰明快的标注页面,使得人工标注的难度得到一定的降低,借此利用类似众包标注的方法获取语料,但该策略没有充分利用机器学习的优势,以此获得大量的标注数据依然需要大量的人力物力。此后,学者们开始尝试利用深度学习半监督的方法来进行语料构建,如Triguero等人尝试了Self-labeled的半监督方法;Wang等人则采用了基于图网络的半监督学习方法,然而,半监督学习的方法获取的语料除了部分标注数据外完全没有人工干预,但得到的标注数据质量难以保证;Boukkouri等另辟蹊径,尝试将通用领域的语料与EMLO模型结合来训练词向量,使模型可以从中学习到更多特定领域的特征分布,从而提高模型在特定领域数据上的性能。除此之外,Mike等人将Freebase作为知识库并利用远程监督的方法对无标签的数据进行标注,且取得了不错的效果。然而,通用领域的文本与电子病历文本在语言表述和行文方式上都大相径庭,利用通用领域的文本扩充语料极大降低了电子病历文本的密度,稀释了电子病历文本的独有特点,使得训练得到的标注数据分布于电子病历高质量标注数据分布相去甚远,最终降低模型的整体标注性能。
当前,一种相对适用的电子病历语料构建方法是利用统一医学语言系统UMLS(Unified Medical Language System)标准对电子病历数据进行匹配、提取进而构建相对完善的语料。如Reimer等人利用UMLS标准采用一个4步映射过程:1)自动源码匹配;2)精确文本匹配;3)模糊匹配;以及4)人工匹配等来构建语料。不可否认,这样的方法在一定程度上可以完成电子病历语料的构建,但是对于新型出现的疾病实体(如新型冠状病毒2019-nCov)在UMLS中并没有相应的实体匹配,这无疑降低了该方法构建电子病历语料的准确性和及时性。
因此,现阶段对于电子病历语料的构建还没有相对完善的方法,通用方法的构建并未考虑电子病历领域的特殊性,这样获得的语料含有更多的噪声,对后续的任务也会造成负面的影响;基于UMLS的方法虽然在一定程度上可以避免领域特殊性的影响,但并不能解决电子病历更新的新颖性和及时性,而且UMLS是英文知识库,中文缺少相应的大规模知识库,因此,对中文的电子病历语料构建并不能采用类似的方法。
发明内容
本发明提供了一种电子病历语料构建方法,实现从大量原始的电子病历数据中抽取医学实体及实体关系的功能,解决以往电子病历语料构建的准确性低、噪声大等问题,提高了现有电子病历语料构建的准确性和完善性。
本发明的技术方案:
一种基于对抗网络+众包的电子病历语料构建方法,主要有三部分组成:(1)数据去隐私化;(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略;(3)基于对抗网络的实体和实体关系抽取。
(1)数据去隐私化
不同于其他领域的数据,电子病历数据包含大量的个人隐私信息,如:姓名、年龄、性别、职业、工作单位、住址等等。不同的隐私数据对电子病历语料的构建有不同的影响,根据是否与疾病存在相关性可以大致分为两类:与疾病相关的隐私数据(如:年龄、职业等)和非相关的隐私数据(如:姓名、住址等)。为了保证数据提取的准确性和统一性,两类不同的隐私数据去隐私化的具体方法如下:
1)与疾病相关的隐私数据
和疾病相关的隐私数据对于疾病的判断有一定的影响,比如老年痴呆症,一般发生在老年人,在幼儿青少年身上几乎是不可能发生的,因此,对于这类数据应该有相同的去隐私化标准,即替换的数据应该是一致的。为了保证隐私数据的隐蔽性和可利用性,我们采用Hash映射的方法来对隐私数据进行编码。对于任意不同类型的隐私数据可以用不同的关键字key来进行表示,相应地,关键字key的Hash映射new_repkey可以表示如下:
new_repkey=Hash(key)
对于不同类型的隐私数据可以采用不同的Hash函数,因此对于与疾病相关的隐私数据Rlist=[key1,key2,...,keyn]经过去隐私化可以表示为:
new_rep=[Hash1(key1),Hash2(key2),...,Hashn(keyn)]
2)与疾病非相关的隐私数据
与疾病非相关的隐私数据并不能对疾病的诊断治疗提供有效的帮助,因此,对于这类隐私数据NRlist=[key11,key22,...,keynn]可以采用最简单的去隐私化方法,即用mask关键字进行直接替换,具体的数学表达形式如下所示:
(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略
专家标注的少量电子病历数据是可靠的、高质量的,而众包标注的数据则是含有大量的噪声。相比于之前数据标注方法缺少领域特殊性及数据的新颖性的考虑,基于专家标注的少量数据和众包数据的对抗模拟一致性学习方法,则可以避免上述类似的问题(可见附图说明图2)。具体详细过程如下:
1)专家和众包数据的标注
在电子病历数据去隐私化之后,按照1:100的比列划分为两份,一份(少量的数据)用于专家标注,另一份则用于众包,标注使用的工具是Yang等人开发的YEDDA语料标注平台。借鉴I2B2和UMLS概念标准,将电子病历实体分为五类:疾病、部位、症状、检查和治疗及其之间的实体关系分为七类:疾病-疾病关系、疾病-部位关系、疾病-症状关系、治疗-疾病关系、检查-疾病关系、检查-症状关系和治疗-症状关系。
2)特征抽取及融合
由于电子病历数据的特殊性,首先从大规模未标注语料训练相应的词向量,使之包含更丰富的语义特征,此外,为了保证特征信息的完整性,在词特征的基础上还融入了实体位置信息及实体关系信息,详细如下:
①词特征
生成候选实体的词向量特征(对于已标注的数据直接使用实体的词向量)、生成候选实体直线上下文的词向量特征,包括词向量wi∈Rn×m和词性标注信息POSi∈Rn×r,其中n表示第i个句子的长度,m表示词嵌入的维度,r表示词性标注信息嵌入的维度。因此,词特征可以表示为词向量和词性标注信息的组合,即:词特征
WPOSi=[wi;POSi]∈Rn×(m+r)
②实体位置特征
对于实体位置特征采用one-hot编码进行嵌入,0表示该位置不是实体,1则表示该位置是实体,则实体位置特征可以表示为EPi∈Rn×1,且对必有e=0 or e=1。
③实体关系特征
不同于词特征和实体位置特征,实体关系特征涉及到两个实体关系之间的特征,为了表示实体之间的关系,采用ERi∈Rn×n的二维矩阵来表示一句话中实体之间的关系,对于矩阵中第r行和第j列的元素erj∈EP则表示第r个词和第j词之间的实体关系。由于电子病历中一共包含七种实体关系,因此,实体关系的取值从1到7分别表示不同的实体关系,相应地,ERi中的元素有8种取值0-7,其中0表示没有实体关系。
④不同特征融合
为了保证不同特征的有效性和独立性,采用简单有效的连接方式来融合不同的特征,即:
FF=cat(WPOSi;EPi;ERi)∈Rn×(m+r+n+1)
3)两类数据的对抗模仿学习
和以往数据生成的方式不同,对抗模仿学习旨在让含有噪声的数据及未标注的数据来学习已经标注好的数据分布,当两类数据真假难辨,即无法判断数据是来自专家标注还是众包标注时,此时可以说明两类数据的分布是一致的(或者可以说含噪声的数据已经学到了真实的数据分布),从而达到数据标注的目的,具体过程如算法1:(可参照附图说明图2)
算法1:专家和众包两类数据对抗模仿一致性学习策略
在算法1中,专家标注数据和众包标注数据的对抗模仿学习是按照1:1比例进行的,这样做的好处是为了防止众包数据一次性过多,造成学习困难而导致学习数据分布不均衡的问题,从而影响生成器G和分类器C的参数。
另外,生成器G是由一个双向的LSTM和一个Attention层组成的,对于输入数据表示FF(或FF'),首先经过一个前项的LSTM编码,表示为:(或者/>),相应地,经过后项LSTM编码可表示为/>(或者/>),在获取前项编码和后项编码之后,双向LSTM编码可以表示如下:
或在获得双向LSTM的编码之后,生成器G还需要经过一个Attention层,Attention层主要是为了使经过双向LSTM获取的数据分布更加显著均衡,比如:对于实体特征要比非实体特征更加显著,这样更有利于实体及实体关系的识别。Attention的具体计算方式如下:
对于双向LSTM任意时刻i的输入FFi(或FF'i)和上一时刻的输出hi-1∈h(或h'i-1∈h')有:
ei=fMLP(FFi;hi-1)
其中,fMLP是一层感知机MLP,用于耦合当前时刻的输入和上一时刻输出的得分函数,αi表示当前i时刻的权重系数。
在获取双向LSTM的输出和Attention的权重系数之后,则生成器G的输出Gout可以表示如下:
Gout=α×h
其中,α=[α0,α1,...,αi,...,αT],h=[h0,h1,...,hi,...,hT]
除此之外,判别器D是一个二分类器,可以是支持向量机SVM也可以是Logistic回归函数,但不管是哪类方法,在对抗模仿的过程中都要保证判别器D的准确率不高于某一个阈值δ。顾名思义,分类器C也是一个分类器,不同于判别器D,分类器C是一个softmax多分类器,由于用专家标注的数据是带标签的数据,因此分类器C是有监督的训练,对于分类实体来说,分类器C是一个5(实体类别)+1(非实体类别)类别的分类器,相应地,对于分类实体关系,分类器C是一个7(实体关系类别)+1(非实体关系类别)类别的分类器。
(3)基于对抗网络的实体和实体关系抽取。
针对电子病历文本的实体和实体关系抽取仍然处于起步阶段,当前普遍的做法是将通用领域的方法直接套用到电子病历文本上,但由于电子病历文本不同于通用领域文本,因此,这样的方法很大程度上并不能达到很好的效果。为了缓解这个问题,文中采用基于对抗网络的实体和实体关系抽取,具体过程如算法2所示:
算法2:基于对抗网络的实体和实体关系抽取
在算法2中,需要说明的是,众包数据本身是已经标注的数据,但含有大量的噪声,在数据嵌入层阶段,处理的方式仍然是连接了词特征、实体位置特征以及实体关系特征,这主要是为了保证数据的输入和两类数据对抗模仿一致性学习策略中产生的生成器G和分类器C参数的一致性,但标注的本身信息对分类器C并不会产生影响。另外,在步骤5中,标注的实体关系对步骤2中标注的实体进行修正,主要是为了进一步提高实体识别的准确性,这也是此方法优于大多数实体及关系识别方法的关键所在。
本发明的有益效果是:与现有技术相比,本发明提出的构建电子病历语料方法具有成本低、质量高以及数据更新及时等优点。具体表现为:本发明采用对抗模仿的学习策略将众包数据逐渐学习成专家标注的高质量数据模式,从而对众包数据进行二次校正标注,以此来获取大规模、高质量标注的电子病历语料,这在解决专家标注成本高、通用方法标注质量差以及采用知识库对齐标注方法数据更新不及时等问题提供了一个有效的语料标注方法,同时,这对涉足医疗领域的研究者也提供了一个电子病历高质量语料构建方法,有助于他们开展后续的医学研究。
附图说明
图1为电子病历语料构建系统框架图。
图2为专家和众包两类数据对抗模仿一致性学习策略图。
具体实施方式
本发明能够对大量的电子病历文本进行实体及实体关系进行识别、标注,从而构建大规模的电子病历语料语料,可以帮助研究者高效、便捷地使用电子病历数据,进而建立有利于医生诊断的相关诊疗系统。图1为电子病历语料构建系统框架图。
1.数据去隐私化
用户以文件的形式输入电子病历文本,系统首先对文本进行去隐私化处理,下面以某医院的部分电子病历文本为例,原始语料为“女性,50岁,主诉畏寒、颜面浮肿5个月,于当地某医院进行检查,诊断为“甲状腺功能减退症”,给予优甲乐50μg口服后病情好转。”,利用Hash函数去隐私化之后为“SP5761894405700189284E,SP-2055591233555984265E,主诉畏寒、颜面浮肿5个月,于当地某医院进行检查,诊断为“甲状腺功能减退症”,给予优甲乐50μg口服后病情好转。”,其中“SP”和“E”是用来做标记Hash去隐私化的结果。
2.特征抽取及融合
对于去隐私化的数据,按照1:100的比例进行专家和众包进行标注。对初始标注的语料进行特征抽取,包括词特征、实体位置特征以及实体关系特征,并对不同的特征进行融合。由于pkuseg含有医疗相关分词的接口,因此采用pkuseg工具进行分词和词性标注,以上述语料句子为例,对分词后的结果为:“主诉/畏寒/、/颜面/浮肿/5/个/月/,/于/当地/某/医院/进行/检查/,/诊断/为/“/甲状腺功能减退症/”/,/给予/优甲乐/50μg/口服/后/病情/好转/。”,另外,对于隐私化处理过的词不进行分词,分词后,采用中文BERT进行词编码;对于实体位置信息,则以上述分词的结果为例,症状实体如“畏寒”、“浮肿”;部位实体如“颜面”,疾病实体如“甲状腺功能减退症”,则可以分别表示为[0,1,0,1,1,0,0,...]。相应地,在初始标注的语料基础上可以对实体关系嵌入进行表示,最后融合获取的不同特征,作为对抗模仿一致性学习策略的输入。
3.训练对抗网络中的生成器G和分类器C
在获取两类数据特征的基础上,用专家数据训练生成器G和分类器C,调整不同的参数,保证分类器C的性能,在分类器C性能最优时,保存分类器C的参数;组合生成器G和训练好的分类器C,利用众包数据初步训练生成器G,由于分类器C的参数是固定的,当分类器C的分类效果达到最好时,生成器G的参数已经初步训练好;在上一步的基础上,分别给专家和众包数据标签1和0,组合生成器G和判别器D,再次训练生成器G,当判别器D的准确率不高于某一个阈值α时,则认为生成器G已经训练完成。
4.标注实体和实体关系
利用3中训练好的生成器G和分类器C来进行大量众包数据的实体和实体关系进一步的标注修订。首先,将众包数据按照1中的特征进行特征抽取融合,形成输入特征向量;其次,组合3中的生成器G和分类器C(六分类器)进行实体标注,之后组合生成器G和分类器C(八分类)进行关系标注;最后利用关系标注的结果进一步对实体标注进行再次修订。
5.显示数据标注结果。
当系统完成了对输入电子病历文本的标注,会以文件的形式显示该标注结果。例如,对于句子“SP5761894405700189284E,SP-2055591233555984265E,主诉畏寒、颜面浮肿5个月,于当地某医院进行检查,诊断为“甲状腺功能减退症”,给予优甲乐50μg口服后病情好转”。标注结果在txt文档显示如下:
如上所示,对于句子“SP5761894405700189284E,SP-2055591233555984265E,主诉畏寒、颜面浮肿5个月,于当地某医院进行检查,诊断为“甲状腺功能减退症”,给予优甲乐50μg口服后病情好转”。显示结果包含5个实体(T1-3-畏寒、T2-5-颜面、T1-6-浮肿、T3-20-甲状腺功能减退症及T4-24-优甲乐)和3个实体关系(E1-3-20-疾病症状关系、E1-6-20-疾病症状关系及E2-20-24-疾病治疗关系)。
Claims (1)
1.一种基于对抗网络+众包的电子病历语料构建方法,主要有三部分组成:(1)数据去隐私化;(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略;(3)基于对抗网络的实体和实体关系抽取;其特征在于,步骤如下:
(1)数据去隐私化
根据是否与疾病存在相关性将隐私数据分为两类:与疾病相关的隐私数据和非相关的隐私数据;为了保证数据提取的准确性和统一性,两类不同的隐私数据去隐私化的具体方法如下:
1)与疾病相关的隐私数据
采用Hash映射的方法对隐私数据进行编码;对于任意不同类型的隐私数据用不同的关键字key来进行表示,相应地,关键字key的Hash映射new_repkey表示如下:
new_repkey=Hash(key)
对于不同类型的隐私数据采用不同的Hash函数,因此对于与疾病相关的隐私数据Rlist=[key1,key2,...,keyn]经过去隐私化为:
new_rep=[Hash1(key1),Hash2(key2),...,Hashn(keyn)]
2)与疾病非相关的隐私数据
对于与疾病非相关的隐私数据NRlist=[key11,key22,...,keynn]采用去隐私化方法,即用mask关键字进行直接替换,具体的数学表达形式如下所示:
(2)基于专家标注少量数据和众包数据的对抗模仿一致性学习策略
基于专家标注的少量数据和众包数据的对抗模拟一致性学习方法,过程如下:
1)专家和众包数据的标注
在电子病历数据去隐私化之后,按照1:100的比列划分为两份,一份用于专家标注,一百份则用于众包,标注使用的工具是YEDDA语料标注平台;将电子病历实体分为五类:疾病、部位、症状、检查和治疗,其之间的实体关系分为七类:疾病-疾病关系、疾病-部位关系、疾病-症状关系、治疗-疾病关系、检查-疾病关系、检查-症状关系和治疗-症状关系;
2)特征抽取及融合
首先从大规模未标注语料训练相应的词向量,使之包含更丰富的语义特征,此外,为了保证特征信息的完整性,在词特征的基础上还融入了实体位置信息及实体关系信息,详细如下:
2.1)词特征
生成候选实体的词向量特征、生成候选实体直线上下文的词向量特征,包括词向量wi∈Rn×m和词性标注信息POSi∈Rn×r,其中n表示第i个句子的长度,m表示词嵌入的维度,r表示词性标注信息嵌入的维度;因此,词特征表示为词向量和词性标注信息的组合,即词特征:
WPOSi=[wi;POSi]∈Rn×(m+r)
2.2)实体位置特征
对于实体位置特征采用one-hot编码进行嵌入,0表示该位置不是实体,1则表示该位置是实体,则实体位置特征表示为EPi∈Rn×1,且对必有e=0ore=1;
2.3)实体关系特征
不同于词特征和实体位置特征,实体关系特征涉及到两个实体关系之间的特征,为了表示实体之间的关系,采用ERi∈Rn×n的二维矩阵来表示一句话中实体之间的关系,对于矩阵中第r行和第j列的元素erj∈ER则表示第r个词和第j词之间的实体关系;由于电子病历中一共包含七种实体关系,因此,实体关系的取值从1到7分别表示不同的实体关系,相应地,ERi中的元素有8种取值0-7,其中0表示没有实体关系;
2.4)不同特征融合
为了保证不同特征的有效性和独立性,采用简单有效的连接方式来融合不同的特征,即:
FF=cat(WPOSi;EPi;ERi)∈Rn×(m+r+n+1)
3)两类数据的对抗模仿学习
和以往数据生成的方式不同,对抗模仿学习旨在让含有噪声的数据及未标注的数据来学习已经标注好的数据分布,当两类数据真假难辨,即无法判断数据是来自专家标注还是众包标注时,此时说明两类数据的分布是一致的或可以说含噪声的数据已经学到了真实的数据分布,从而达到数据标注的目的,具体过程如算法1:
算法1:专家和众包两类数据对抗模仿一致性学习策略
在算法1中,专家标注数据和众包标注数据的对抗模仿学习是按照1:1比例进行的,为了防止众包数据一次性过多,造成学习困难而导致学习数据分布不均衡的问题,从而影响生成器G和分类器C的参数;
另外,生成器G是由一个双向的LSTM和一个Attention层组成的,对于输入数据表示FF或FF',首先经过一个前项的LSTM编码,表示为:或/>相应地,经过后项LSTM编码表示为/>或/>在获取前项编码和后项编码之后,双向LSTM编码表示如下:
或
在获得双向LSTM的编码之后,生成器G还需要经过一个Attention层,Attention层是为了使经过双向LSTM获取的数据分布更加显著均衡;Attention的具体计算方式如下:
对于双向LSTM任意时刻i的输入FFi或FF'i,上一时刻的输出hi-1∈h或h'i-1∈h'有:
ei=fMLP(FFi;hi-1)
其中,fMLP是一层感知机MLP,用于耦合当前时刻的输入和上一时刻输出的得分函数,αi表示当前i时刻的权重系数;
在获取双向LSTM的输出和Attention的权重系数之后,则生成器G的输出Gout表示如下:
Gout=α×h
其中,α=[α0,α1,...,αi,...,αT],h=[h0,h1,...,hi,...,hT]
除此之外,判别器D是一个二分类器,是支持向量机SVM或是Logistic回归函数,但不管是哪类方法,在对抗模仿的过程中都要保证判别器D的准确率不高于某一个阈值δ;分类器C也是一个分类器,不同于判别器D,分类器C是一个softmax多分类器,由于用专家标注的数据是带标签的数据,因此分类器C是有监督的训练,对于分类实体来说,分类器C是一个5(实体类别)+1(非实体类别)类别的分类器,相应地,对于分类实体关系,分类器C是一个7(实体关系类别)+1(非实体关系类别)类别的分类器;
(3)基于对抗网络的实体和实体关系抽取
采用基于对抗网络的实体和实体关系抽取,具体过程如算法2:
算法2:基于对抗网络的实体和实体关系抽取
在算法2中,需要说明的是,众包数据本身是已经标注的数据,但含有大量的噪声,在数据嵌入层阶段,处理的方式仍然是连接了词特征、实体位置特征以及实体关系特征,是为了保证数据的输入和两类数据对抗模仿一致性学习策略中产生的生成器G和分类器C参数的一致性,但标注的本身信息对分类器C并不会产生影响。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226864.7A CN112349370B (zh) | 2020-11-05 | 2020-11-05 | 一种基于对抗网络+众包的电子病历语料构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226864.7A CN112349370B (zh) | 2020-11-05 | 2020-11-05 | 一种基于对抗网络+众包的电子病历语料构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112349370A CN112349370A (zh) | 2021-02-09 |
CN112349370B true CN112349370B (zh) | 2023-11-24 |
Family
ID=74428803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011226864.7A Active CN112349370B (zh) | 2020-11-05 | 2020-11-05 | 一种基于对抗网络+众包的电子病历语料构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349370B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033716B (zh) * | 2021-05-26 | 2021-09-21 | 南京航空航天大学 | 一种基于对抗融合众包标签的图像标记估计方法 |
CN115859991A (zh) * | 2023-02-28 | 2023-03-28 | 智慧眼科技股份有限公司 | 一种实体抽取方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN108228564A (zh) * | 2018-01-04 | 2018-06-29 | 苏州大学 | 在众包数据上进行对抗学习的命名实体识别方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
-
2020
- 2020-11-05 CN CN202011226864.7A patent/CN112349370B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106776711A (zh) * | 2016-11-14 | 2017-05-31 | 浙江大学 | 一种基于深度学习的中文医学知识图谱构建方法 |
CN108228564A (zh) * | 2018-01-04 | 2018-06-29 | 苏州大学 | 在众包数据上进行对抗学习的命名实体识别方法 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
BiLSTM-CRF模型在中文电子病历命名实体识别中的应用研究;王若佳;魏思仪;王继民;;文献与数据学报(第02期);55-68 * |
深度学习实体关系抽取研究综述;鄂海红;张文静;肖思琪;程瑞;胡莺夕;周筱松;牛佩晴;;软件学报(06);223-248 * |
Also Published As
Publication number | Publication date |
---|---|
CN112349370A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032648B (zh) | 一种基于医学领域实体的病历结构化解析方法 | |
CN112131393B (zh) | 一种基于bert和相似度算法的医疗知识图谱问答系统构建方法 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN110838368B (zh) | 一种基于中医临床知识图谱的主动问诊机器人 | |
Qu et al. | Distant supervision for neural relation extraction integrated with word attention and property features | |
CN106951684A (zh) | 一种医学疾病诊断记录中实体消歧的方法 | |
CN111949759A (zh) | 病历文本相似度的检索方法、系统及计算机设备 | |
CN110059185A (zh) | 一种医学文档专业词汇自动化标注方法 | |
CN112349370B (zh) | 一种基于对抗网络+众包的电子病历语料构建方法 | |
Wang et al. | An attention-based Bi-GRU-CapsNet model for hypernymy detection between compound entities | |
WO2023071530A1 (zh) | 一种小样本弱标注条件下的医疗事件识别方法及系统 | |
CN112241457A (zh) | 一种融合扩展特征的事理知识图谱事件检测方法 | |
TWI723868B (zh) | 一種抽樣後標記應用在類神經網絡訓練模型之方法 | |
CN111858940A (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN112687388A (zh) | 一种基于文本检索的可解释性智慧医疗辅助诊断系统 | |
CN111651991A (zh) | 一种利用多模型融合策略的医疗命名实体识别方法 | |
CN113076411A (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
Adduru et al. | Towards Dataset Creation And Establishing Baselines for Sentence-level Neural Clinical Paraphrase Generation and Simplification. | |
CN114359656A (zh) | 一种基于自监督对比学习的黑色素瘤图像识别方法和存储设备 | |
CN112562809A (zh) | 一种基于电子病历文本进行辅助诊断的方法及系统 | |
CN107085655A (zh) | 基于属性的约束概念格的中医数据处理方法及系统 | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN113918694B (zh) | 一种面向医疗知识图谱问答的问句解析方法 | |
Wang et al. | A BERT-based named entity recognition in Chinese electronic medical record | |
CN115600602A (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |