CN111460091B - 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 - Google Patents
医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 Download PDFInfo
- Publication number
- CN111460091B CN111460091B CN202010159004.XA CN202010159004A CN111460091B CN 111460091 B CN111460091 B CN 111460091B CN 202010159004 A CN202010159004 A CN 202010159004A CN 111460091 B CN111460091 B CN 111460091B
- Authority
- CN
- China
- Prior art keywords
- training
- text
- test
- data
- eval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 166
- 238000013507 mapping Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000003745 diagnosis Methods 0.000 title claims abstract description 54
- 238000005070 sampling Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 111
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000003062 neural network model Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims description 72
- 230000006870 function Effects 0.000 claims description 34
- 238000002372 labelling Methods 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 26
- 238000007781 pre-processing Methods 0.000 claims description 16
- 238000013499 data model Methods 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract 2
- 230000000052 comparative effect Effects 0.000 description 16
- 208000027790 Rib fracture Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法,包括:基于原始医学诊断数据得到待映射文本,进而生成训练集,验证集,测试集、基于标准术语集和待映射文本集合生成正样例集合、对于正样例集合中的任意正样例,基于相似度计算函数生成候选负样例集合、获取正样例集合的一个子集,对于其中的每个正样例,从候选负样例集合中抽取部分或全部负样例生成训练集,将正样例集合的子集与训练集合并后形成一个训练批次、将训练批次带入神经网络模型中进行训练。本发明提取负样例更具代表性,分别提起正负样例对修改的模型进行模拟训练,实现对模型进行泛化改进,模型的性能得到提升,提升了对未知细粒度术语的识别泛化性。
Description
技术领域
本发明属于生命健康技术领域,尤其涉及一种基于相似度的负样例采样方法及基于负样例采样的医学诊断标准术语映射模型训练方法,适用于各种纯文本医学诊断的标准术语映射。
背景技术
随着电子病历的广泛使用,当前国内积累了大量的既往医学短文本数据,挖掘其中蕴含着丰富的信息能够极大促进询证医学的发展。但是由于我国缺乏统一的电子病历信息化标准,各地,各医院甚至各部门在实际使用电子病历系统中产生了大量的非标准的信息。将这些信息进行清洗整合,把不同的医生书写表达统一成标准的医学术语是有效的数据分析的必要前提。面对海量的电子病历记录,人工整理的方式效率低下,成本高昂,必须采用自然语言处理技术(NLP)来进行自动化标准术语映射。
目前对于病历诊断栏内容的识别映射主要是基于传统搜索引擎的方式,将标准术语当做被搜索的文档,将待映射文本当做搜索词,对于一个待映射文本返回排名第一的标准术语。传统搜索引擎通常包括召回和排序两个环节。两个环节使用不同的评分方法,在召回环节中,尽量多的返回和搜索词潜在相关的文档;在排序环节中,则强调精确性,尽量将最相关的文档排在前面。通过分词来获取相似度计算中有意义的语义单元,增加相似度计算的精确性;通过同义词表来增加泛化性。然而,通过分词,同义词表来计算标准术语和待识别文本之间的文本相似度的方法有以下弊端:1.对于分词精确度的要求很高,错误的分词直接导致很大的相似度计算偏差;2.而针对医学术语的分词拆分本身需要大量专业语料标注,成本高,分词粒度规范难以制定;3.医生书写中有许多缩略语,单独拆分开没有实际意义或者有很大歧义,必须紧密联系上下文来理解,传统的相似度计算方式采用n-gram的方式来缓解这种问题,但是往往造成特征空间爆炸,需要海量的语料进行拟合;4.相似度计算中一般采用BOW的方式,忽略术语中词之间的关系。而真实数据中往往会有多个诊断混写在一起,不同诊断的语义成分混合会形成不存在的相似诊断;5.传统相似度计算中由于忽略了上下文关系,对于同一个词采用了相同的权重,而导致精确度的损失;6.在面对多个诊断混写的情况,不知道应该取搜索引擎返回的第一个诊断还是前k个诊断。
针对传统搜索引擎方法的弊端,目前主流方法是在排序环节加入深度学习技术,比如专利号为CN 108595614 A的发明公开的应用于HIS系统的数据表映射方法,包括以下步骤:分别从第一HIS系统的数据库和第二HIS系统的数据库中选取各自的待匹配数据表,并分别提取每一个待匹配数据表的特征数据;根据提取的特征数据,计算所述第一HIS系统的待匹配数据表中的字段与所述第二HIS系统的待匹配数据表中的字段之间的相似度;基于相似度判断任意两个分别属于不同系统的字段之间是否互相匹配;如果匹配,则在所述第一HIS系统的数据表中的字段和对应的所述第二HIS系统的数据表中的字段之间建立映射关系。
上述映射方法可以理解为加入了深度学习技术对病历诊断栏内容进行识别映射,其使用字向量、循环神经网络、注意力机制来处理上下文的问题,将相似度问题转化为二分类问题进行模型训练,将相似案例作为正样例,不相似案例作为负样例。但是这种做法难以选择有代表性的负样例,虽然能满足相对精度要求不是很高的搜索场景,但是对于专业的术语映射,判断精度往往达不到实用要求。
发明内容
本发明目的在于针对现有技术的不足,提供一种不依赖HIS系统本身数据格式,适用于各种纯文本医学诊断的医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法。
为了达到目的,本发明提供的技术方案为:
本发明提供了一种基于相似度的医学短文本数据负样例采样方法,包括以下步骤:
S1.基于标准术语集和待映射文本集合生成正样例集合;
S2.对于正样例集合中的任意正样例,基于相似度计算函数生成候选负样例集合,该候选负样例集合用于医学诊断标准术语映射模型训练。
优选地,所述的基于相似度的医学短文本数据负样例采样方法,包括以下步骤:
S1.对于标准术语集为S、待映射文本集合T,生成正样例集合{pi=(xi,yi)},其中xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
S2.对于任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语。
优选地, 为相似度计算函数,θ取0.5。
优选地,其中,/>包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数,βl使用10折交叉验证来确定。
一种基于相似度的医学短文本数据负样例采样方法,包括以下步骤:
S1.对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合进一步生成扩展正样例集合{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
S2.对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语。
本发明提供了一种基于负样例采样的医学诊断标准术语映射模型训练方法,包括以下步骤:
1)基于原始医学诊断数据得到待映射文本,进而生成训练集Ptrain,验证集Peval,测试集Ptest;
2)基于标准术语集和待映射文本集合生成正样例集合;
3)对于正样例集合中的任意正样例,基于相似度计算函数生成候选负样例集合;
4)获取正样例集合的一个子集,对于其中的每个正样例,从候选负样例集合中抽取部分或全部负样例生成训练集,将正样例集合的子集与训练集合并后形成一个训练批次;
5)将训练批次带入神经网络模型中进行训练。
优选地,步骤1)包括:将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′;人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集P′train,验证集P′eval和测试集P′test;分别对训练集P′train,验证集P′eval和测试集P′test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中。
优选地,步骤1)包括下述具体步骤:
1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T,所述文本预处理包括:统一中文符号和特殊符号为标准英文符号、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整;
1.2)将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;
1.3)根据待映射文本集合T与标注数据集合P′的映射关系生成映射文本集合P,将映射文本集合P按照8:1:1的比例拆分成训练集Ptrain、验证集Peval和测试集Ptest;
1.4)将标注数据集合P′按照8:1:1的比例拆分成训练集P′train,验证集P′eval和测试集P′test,分别随机排列组合若干标注数据并组合为一条数据,得到训练集验证集测试集/>
1.5)将训练集验证集/>测试集/>分别合并到训练集Ptrain、验证集Peval和测试集Ptest中,得到训练集Ptrain,验证集Peval,测试集Ptest。
优选地,步骤2)包括:对于标准术语集为S、待映射文本集合T,生成正样例集合{pi=(xi,yi)},其中xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
步骤3)包括:对于任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语;
步骤4)包括:获取一个批次的正样例子集P={pi=(xi,yi)},对于训练集Ptrain的每个正样例,从候选负样例集合中抽取部分负样例生成训练集N,抽取负样例时采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval的每个正样例,从候选负样例集合中抽取全部负样例生成训练集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
步骤5)包括:将训练集Ptrain,验证集peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣikL(xi,yik)。
优选地,步骤3)中, 为相似度计算函数,
θ取0.5。
本发明还提供了一种基于负样例采样的医学诊断标准术语映射模型训练方法,其包括以下步骤:
1)将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集P′train,验证集P′eval和测试集P′test;分别对训练集P′train,验证集P′eval和测试集P′test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中;
2)对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合进一步生成扩展正样例集合{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
3)对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语;
4)获取一个批次的正样例子集P={pi=(xi,yi,si)},对于训练集Ptrain的每个正样例,从候选负样例集合中抽取部分负样例生成训练集N,抽取负样例时采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval中的每个正样例,从候选负样例集合中抽取全部负样例生成训练集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
5)将训练集Ptrain,验证集Peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣiksikL(xi,yik)。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
1、本发明通过基于相似度的负样例采样方法采集负样例并形成候选负样例集,这种方法选择的负样例更具代表性,用于后续的模型训练和预测准确性更高。
2、本发明在进行每一批次的模型训练时,分别抽取正负样例进行模拟训练,在映射过程中对模型进行泛化改进,模型的性能得到提升,提升了对未知细粒度术语的识别泛化性,实现了很高的精确度和召回率。
附图说明
图1是基于相似度的负样例采样方法的流程图;
图2是医学诊断标准术语映射模型训练方法的流程图;
图3是医学诊断标准术语映射模型的预测流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例涉及基于相似度的负样例采集方法,如图1所示,包括以下步骤:
S1.对于标准术语集为S、待映射文本集合T,生成正样例集合{pi=(xi,yi)},其中xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
S2.对于任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,挑选/>的方法为:/> 为相似度计算函数,θ取0.5,/> 其中,/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数,βl使用10折交叉验证来确定,通过多次尝试,/> 该候选负样例集合用于医学诊断标准术语映射模型训练。
实施例2
在标准术语映射时,对于未覆盖到的概念,我们希望模型能给出一个相对最接近而又正确的答案。首先我们将标准术语集合S按照一定的规范归类,将标准术语归类在不同的子集中,模型在预测未知概念的时候应该遵守这个规范而不是简单地顾名思义,因此,在实施例1的基础上,本实施例对医学短文本数据负样例采样方法进一步进行泛化性改进。
本实施例中基于相似度的医学短文本数据负样例采样方法,包括以下步骤:
S1.对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合进一步生成扩展正样例集合{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
S2.对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,挑选/>的方法为:/> 为相似度计算函数,θ取0.5,其中,/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数,βl使用10折交叉验证来确定,通过多次尝试,/>
该候选负样例集合用于医学诊断标准术语映射模型训练。
实施例3
本实施例是基于实施例1的负样例采样方法进行的。
参照图2,一种采用基于负样例采样的医学诊断标准术语映射模型训练方法,具体包括以下步骤:
1)将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′;人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集P′train,验证集P′eval和测试集P′test;分别对训练集P′train,验证集P′eval和测试集P′test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中。
再具体的步骤为:
1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T,所述文本预处理包括:统一中文符号和特殊符号为标准英文符号(如@nbsp会被替换为空格,中文括号「」会被替换为[]等)、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整(2-5肋骨骨折→2,3,4,5肋骨骨折);
1.2)将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;
1.3)根据待映射文本集合T与标注数据集合P′的映射关系生成映射集合P,将映射集合P按照8:1:1的比例拆分成训练集Ptrain、验证集Peval和测试集Ptest;
1.4)将标注数据集合P′按照8:1:1的比例拆分成训练集P′train,验证集P′eval和测试集P′test,分别随机排列组合若干标注数据并组合为一条数据,得到训练集验证集测试集/>
1.5)将训练集验证集/>测试集/>分别合并到训练集Ptrain、验证集Peval和测试集Ptest中,得到训练集Ptrain,验证集Peval,测试集Ptest;
2)对于标准术语集为S、待映射文本集合T,生成正样例集合{pi=(xi,yi)},其中xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
3)对于任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,挑选/>的方法为:/> 为相似度计算函数,θ取0.5,/> 其中,/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数,βl使用10折交叉验证来确定,通过多次尝试,/> 采用相似度计算函数,根据计算结果判断xl和ylk的相似度,相似度大于阈值作为高难度负样例被加入训练集。
4)获取一个批次的正样例子集pi=(xi,yi),对于训练集Ptrain的每个正样例,采用选择器从候选负样例集合中抽取10个负样例生成训练集N,所述的选择器g(ni采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval中的每个正样例,从候选负样例集合中抽取全部负样例生成训练集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
5)将训练集Ptrain,验证集Peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣikL(xi,yik)。
步骤4)形成的训练批次为验证集为Peval。其中xi∈T,T为待映射文本集合,yi={yik|yik∈S}为对应的正样例标准术语集合,/>为对应的负样例标准术语集合。
对比例1
与实施例3不同的是,本对比例1步骤3)中的候选负样例集合并不是通过相似度函数生成的,而是将标准术语集S减去正样例集合得到的。并且步骤4)对于训练集Ptrain的每个正样例,是从候选负样例集合中抽取所有负样例生成训练集N。
其它步骤与实施例3相同。
对比例2
与实施例3不同的是,本对比例1步骤3)中的候选负样例集合并不是通过相似度函数生成的,而是将标准术语集S减去正样例集合得到的。
其它步骤与实施例3相同。
效果例1
将本发明的映射模型训练方法应用于具体环境中进行训练和预测。具体应用环境为:国际疾病分类标准(ICD11),原始医学诊断数据18975条。原始医学诊断中一条数据会包含多个独立的诊断,先进行文本预处理得到待映射文本集合T,包括训练集15180条,验证集1898条,测试集1897条。
为了进一步增加算法的泛化性,步骤1.2)得到标注数据集合P′共26840条。为了增加数据的多样性,再经过拆分、排列组合、合并后得到训练集30000条,验证集1000条,测试集2000条。
参照图3,本效果例使用Bert和Albert两个相似度计算模型(预测模型)来对以上得到的映射模型进行预测,最终在测试集Ptest上验证结果,采用F1值作为评价标准。
表1为对比例1、对比例2、实施例3在测试集Ptest上的结果:
表1
对比例1 | 对比例2 | 实施例3 | |
Bert | 69.91 | 76.45 | 91.76 |
Albert | 69.67 | 76.94 | 91.11 |
从表格上看,对比例1得到的映射模型在相似度模型中F1值最低,而实施例3得到的映射模型在相似度模型中F1值达到91%,性能最好。而使用Bert和Albert模型在性能上差别不大。通过这三个方案的对比可知,本发明中的方案成功地实现了基于注意力机制的深度学习模型在诊断术语映射上的应用,实现了很高的精确度和召回率。
实施例4
本实施例是基于实施例2的泛化改进后的负样例采样方法进行的。
参照图2,本实施例中基于负样例采样的医学诊断标准术语映射模型训练方法,包括以下步骤:
1)将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集P′train,验证集P′val和测试集P′test;分别对训练集P′train,验证集P′eval和测试集P′test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中;
再具体步骤为:
1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T,所述文本预处理包括:统一中文符号为英文符号(如@nbsp会被替换为空格,中文括号「」会被替换为[]等)、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整(2-5肋骨骨折→2,3,4,5肋骨骨折);
1.2)将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;
1.3)根据待映射文本集合T与标注数据集合P'的映射关系生成映射集合P,将映射集合P按照8:1:1的比例拆分成训练集Ptrain、验证集Peval和测试集Ptest;
1.4)将标注数据集合P'按照8:1:1的比例拆分成训练集P′train,验证集P′eval和测试集P′test,分别随机排列组合若干标注数据并组合为一条数据,得到训练集验证集测试集/>
1.5)将训练集验证集/>测试集/>分别合并到训练集Ptrain、验证集Peval和测试集Ptest中,得到训练集Ptrain,验证集Peval,测试集Ptest;
2)对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合进一步生成扩展正样例集合{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
3)对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,挑选/>的方法为:/> 为相似度计算函数,θ取0.5,其中,/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数,βl使用10折交叉验证来确定,本实施例中,/>
4)获取一个批次的正样例子集P={pi=(xi,yi,si)},本实施例中,si=1,对于训练集ptrain的每个正样例,从候选负样例集合中抽取10个负样例生成训练数据集N,抽取负样例时采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval中的每个正样例,从候选负样例集合中抽取全部负样例生成训练集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
5)将训练集Ptrain的,验证集Peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣiksikL(xi,yik)。
对比例3
与实施例3不同的是,本对比例3将步骤2)替换为实施例4中的步骤2),即将正样例集合改为“扩展正样例集合”。
其它步骤与实施例3相同。
效果例2
将本发明的映射模型训练方法应用于具体环境中进行训练和预测。具体应用环境为:国际疾病分类标准(ICD11),原始医学诊断数据18975条。原始医学诊断中一条数据会包含多个独立的诊断,先进行文本预处理得到待映射文本集合T,包括训练集15180条,验证集1898条,测试集1897条。
为了进一步增加算法的泛化性,步骤1.2)得到标注数据集合P′共26840条。为了增加数据的多样性,再经过拆分、排列组合、合并后得到训练集30000条,验证集1000条,测试集2000条。
参照图3,本效果例使用Bert和Albert两个相似度计算模型(预测模型)来对对比例3和实施例4得到的映射模型进行预测,最终在测试集Ptest上验证结果,采用F1值作为评价标准。
表2是使用对比例3的映射模型与实施例4的映射模型在测试集Ptest的测试结果。
表2
对比例3 | 实施例4 | |
Bert | 86.16 | 90.43 |
Albert | 87.14 | 90.05 |
由表2可知,对比例3的映射模型在本实施例的测试集中的结果低于在实施例4的测试集中的结果。
由于对比例3将正样例集合改为“扩展正样例集合”,但训练批次数据和模型损失函数并没有根据相似度评级sik作相应的扩展,导致模型泛化能力不够,不能很好的识别和区分。
实施例4将正样例集合改为“扩展正样例集合”,同时,训练批次数据和模型损失函数根据相似度评级sik作了相应的扩展,其测试结果F1值达到了90%,比对比例3的结果提升了接近4%。并且使用Bert和Albert模型在性能上差别不大。说明使用实施例4中的泛化性扩展方案有效的提升了对未知细粒度术语的识别泛化性。
以上结合实施例对本发明进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍属于本发明的专利涵盖范围之内。
Claims (7)
1.一种基于相似度的医学短文本数据负样例采样方法,其特征在于:其包括以下步骤:
S1.基于标准术语集S和待映射文本集合T生成正样例集合{pi=(xi,yi)},其中
xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
S2.对于正样例集合中的任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,该候选负样例集合用于医学诊断标准术语映射模型训练;/>
为相似度计算函数,θ取0.5;所述的其中,
包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数,βl使用10折交叉验证来确定。
2.根据权利要求1所述的基于相似度的医学短文本数据负样例采样方法,其特征在于:其包括以下步骤:
S1.对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合
进一步生成扩展正样例集{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
S2.对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语。
3.一种医学诊断标准术语映射模型训练方法,其特征在于:其包括以下步骤:
1)基于原始医学诊断数据得到待映射文本,进而生成训练集Ptrain,验证集Peval,
测试集Ptest;
2)基于标准术语集S和待映射文本集合T生成正样例集合{pi=(xi,yi)},其中
xi∈T,yi={yik|yik∈S},xi为待映射文本,yi={yik|yik∈S}为对应的正确标准术语集合;
3)对于正样例集合中的任意正样例pi=(xi,yi),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,该候选负样例集合用于医学诊断标准术语映射模型训练;/>为相似度计算函数,θ取0.5;所述的/>其中,/>包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数,βl使用10折交叉验证来确定;
4)获取正样例集合的一个子集,对于其中的每个正样例,从候选负样例集合中抽取部分或全部负样例生成训练数据集,将正样例集合的子集与训练数据集合并后形成一个训练批次;
5)将训练批次带入神经网络模型中进行训练。
4.根据权利要求3所述的医学诊断标准术语映射模型训练方法,其特征在于:步骤1)包括:将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′;人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集Pt′rain,验证集Pe′val和测试集Pt′est;分别对训练集Pt′rain,验证集Pe′val和测试集Pt′est随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中。
5.根据权利要求4所述的医学诊断标准术语映射模型训练方法,其特征在于:步骤1)包括下述具体步骤:
1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T,所述文本预处理包括:统一中文符号和特殊符号为标准英文符号、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整;
1.2)将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;
1.3)根据待映射文本集合T与标注数据集合P′的映射关系生成映射文本集合P,将映射文本集合P按照8:1:1的比例拆分成训练集Ptrain、验证集Peval和测试集Ptest;
1.4)将标注数据集合P′按照8:1:1的比例拆分成训练集Pt′rain,验证集Pe′val和测试集Pt′est,分别随机排列组合若干标注数据并组合为一条数据,得到训练集验证集测试集/>
1.5)将训练集验证集/>测试集/>分别合并到训练集Ptrain、验证集Peval和测试集Ptest中,得到训练集Ptrain,验证集Peval,测试集Ptest。
6.根据权利要求4所述的医学诊断标准术语映射模型训练方法,其特征在于:步骤4)包括:获取一个批次的正样例子集P={pi=(xi,yi)},对于训练集Ptrain的每个正样例,从候选负样例集合中抽取部分负样例生成训练数据集N,抽取负样例时采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval的每个正样例,从候选负样例集合中抽取全部负样例生成训练数据集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
步骤5)包括:将训练集Ptrain,验证集Peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣikL(xi,yik)。
7.一种医学诊断标准术语映射模型训练方法,其特征在于:其包括以下步骤:
1)将原始医学诊断数据进行文本预处理得到待映射文本集合T;将T经过人工切分得到切分诊断数据集合T′,人工标注切分诊断数据集合T′得到标注数据集合P′,T′和P′一一对应;根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P;分别按照一定比例分割P和P′生成训练集Ptrain、验证集Peval、测试集Ptest和训练集P′train,验证集P′eval和测试集P′test;分别对训练集P′train,验证集P′eval和测试集P′test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集Ptrain、验证集Peval和测试集Ptest中;
2)对于标准术语集为S、待映射文本集合T,先生成扩展术语集合G={S,E},E为标准术语之间的从属关系结合,再生成正样例集合进一步生成扩展正样例集{pik=(xi,yik,sik)},其中sik为(xi,yik)之间的相似度评级,该相似度评级完全基于知识图谱结构sik=simg(yik,yil),sik=1/min(|eik|);
3)对于任意正样例pi=(xi,yi,si),基于相似度计算函数生成候选负样例集合 为与yi类似的错误术语,/> 为相似度计算函数,θ取0.5;所述的/>其中,包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数,βl使用10折交叉验证来确定;
4)获取一个批次的正样例子集P={pi=(xi,yi,si)},对于训练集Ptrain的每个正样例,从候选负样例集合中抽取部分负样例生成训练数据集N,抽取负样例时采用随机选择器g(pik,ni),即将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;对于验证集Peval中的每个正样例,从候选负样例集合中抽取全部负样例生成训练数据集N,将正负样例集合合并形成一个用于数据模型训练的训练批次batch=P∪N;
5)将训练集Ptrain,验证集Peval中的训练批次带入神经网络模型中进行训练,神经网络模型中的损失函数为ΣiksikL(xi,yik)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010159004.XA CN111460091B (zh) | 2020-03-09 | 2020-03-09 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010159004.XA CN111460091B (zh) | 2020-03-09 | 2020-03-09 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460091A CN111460091A (zh) | 2020-07-28 |
CN111460091B true CN111460091B (zh) | 2023-10-27 |
Family
ID=71682668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010159004.XA Active CN111460091B (zh) | 2020-03-09 | 2020-03-09 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460091B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112687369A (zh) * | 2020-12-31 | 2021-04-20 | 杭州依图医疗技术有限公司 | 医学数据的训练方法、装置及存储介质 |
CN112711652B (zh) * | 2021-01-15 | 2022-10-14 | 清华大学 | 术语标准化方法及装置 |
CN113761868B (zh) * | 2021-04-20 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及可读存储介质 |
CN114048320B (zh) * | 2022-01-12 | 2022-03-29 | 成都信息工程大学 | 一种基于课程学习的多标签国际疾病分类训练方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3336763A1 (en) * | 2016-12-14 | 2018-06-20 | Conti Temic microelectronic GmbH | Device for classifying data |
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN110276741A (zh) * | 2019-03-08 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 结节检测及其模型训练的方法和装置以及电子设备 |
CN110309874A (zh) * | 2019-06-28 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 负样本筛选模型训练方法、数据筛选方法和数据匹配方法 |
CN110472239A (zh) * | 2019-07-25 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 实体链接模型的训练方法、装置及电子设备 |
-
2020
- 2020-03-09 CN CN202010159004.XA patent/CN111460091B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3336763A1 (en) * | 2016-12-14 | 2018-06-20 | Conti Temic microelectronic GmbH | Device for classifying data |
CN108460396A (zh) * | 2017-09-20 | 2018-08-28 | 腾讯科技(深圳)有限公司 | 负采样方法和装置 |
CN108595636A (zh) * | 2018-04-25 | 2018-09-28 | 复旦大学 | 基于深度跨模态相关性学习的手绘草图的图像检索方法 |
CN110276741A (zh) * | 2019-03-08 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 结节检测及其模型训练的方法和装置以及电子设备 |
CN110309874A (zh) * | 2019-06-28 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 负样本筛选模型训练方法、数据筛选方法和数据匹配方法 |
CN110472239A (zh) * | 2019-07-25 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 实体链接模型的训练方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
赵洪 ; 王芳 ; .理论术语抽取的深度学习模型及自训练算法研究.情报学报.2018,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111460091A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460091B (zh) | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 | |
Matci et al. | Address standardization using the natural language process for improving geocoding results | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN110728151B (zh) | 基于视觉特征的信息深度处理方法及系统 | |
Balasubramanian et al. | A multimodal approach for extracting content descriptive metadata from lecture videos | |
CN111027323A (zh) | 一种基于主题模型和语义分析的实体指称项识别方法 | |
CN106886565B (zh) | 一种基础房型自动聚合方法 | |
CN110941720A (zh) | 一种基于知识库的特定人员信息纠错方法 | |
CN113076411A (zh) | 一种基于知识图谱的医疗查询扩展方法 | |
CN110781333A (zh) | 一种基于机器学习的斜拉桥非结构化监测数据处理方法 | |
CN112768080A (zh) | 基于医疗大数据的医学关键词库建立方法及系统 | |
CN116187444A (zh) | 一种基于K-means++的专业领域敏感实体知识库构建方法 | |
Fu et al. | Automatic cleaning and linking of historical census data using household information | |
Atef et al. | AQAD: 17,000+ arabic questions for machine comprehension of text | |
CN111625626A (zh) | 一种基于多维度语义联合建模的多用户案例检索系统 | |
CN114662477A (zh) | 基于中医对话的停用词表生成方法、装置及存储介质 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 | |
Deore | Human behavior identification based on graphology using artificial neural network | |
CN112612895B (zh) | 一种主体话题态度指数的计算方法 | |
CN116578708A (zh) | 一种基于图神经网络的论文数据姓名消歧算法 | |
CN111079582A (zh) | 一种图像识别的英语作文跑题判断方法 | |
CN114707517A (zh) | 一种基于开源数据事件抽取的目标跟踪方法 | |
CN114491033A (zh) | 一种基于词向量和主题模型的用户兴趣模型构建的方法 | |
Chengke et al. | New word identification algorithm in natural language processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |