CN111460091B

CN111460091B - 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法

Info

Publication number: CN111460091B
Application number: CN202010159004.XA
Authority: CN
Inventors: 刘霄; 赵鑫
Original assignee: Hangzhou Maige Algorithm Technology Co ltd
Current assignee: Hangzhou Maige Algorithm Technology Co ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-10-27
Anticipated expiration: 2040-03-09
Also published as: CN111460091A

Abstract

本发明涉及医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法，包括：基于原始医学诊断数据得到待映射文本，进而生成训练集，验证集，测试集、基于标准术语集和待映射文本集合生成正样例集合、对于正样例集合中的任意正样例，基于相似度计算函数生成候选负样例集合、获取正样例集合的一个子集，对于其中的每个正样例，从候选负样例集合中抽取部分或全部负样例生成训练集，将正样例集合的子集与训练集合并后形成一个训练批次、将训练批次带入神经网络模型中进行训练。本发明提取负样例更具代表性，分别提起正负样例对修改的模型进行模拟训练，实现对模型进行泛化改进，模型的性能得到提升，提升了对未知细粒度术语的识别泛化性。

Description

医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法

技术领域

本发明属于生命健康技术领域，尤其涉及一种基于相似度的负样例采样方法及基于负样例采样的医学诊断标准术语映射模型训练方法，适用于各种纯文本医学诊断的标准术语映射。

背景技术

随着电子病历的广泛使用，当前国内积累了大量的既往医学短文本数据，挖掘其中蕴含着丰富的信息能够极大促进询证医学的发展。但是由于我国缺乏统一的电子病历信息化标准，各地，各医院甚至各部门在实际使用电子病历系统中产生了大量的非标准的信息。将这些信息进行清洗整合，把不同的医生书写表达统一成标准的医学术语是有效的数据分析的必要前提。面对海量的电子病历记录，人工整理的方式效率低下，成本高昂，必须采用自然语言处理技术(NLP)来进行自动化标准术语映射。

目前对于病历诊断栏内容的识别映射主要是基于传统搜索引擎的方式，将标准术语当做被搜索的文档，将待映射文本当做搜索词，对于一个待映射文本返回排名第一的标准术语。传统搜索引擎通常包括召回和排序两个环节。两个环节使用不同的评分方法，在召回环节中，尽量多的返回和搜索词潜在相关的文档；在排序环节中，则强调精确性，尽量将最相关的文档排在前面。通过分词来获取相似度计算中有意义的语义单元，增加相似度计算的精确性；通过同义词表来增加泛化性。然而，通过分词，同义词表来计算标准术语和待识别文本之间的文本相似度的方法有以下弊端：1.对于分词精确度的要求很高，错误的分词直接导致很大的相似度计算偏差；2.而针对医学术语的分词拆分本身需要大量专业语料标注，成本高，分词粒度规范难以制定；3.医生书写中有许多缩略语，单独拆分开没有实际意义或者有很大歧义，必须紧密联系上下文来理解，传统的相似度计算方式采用n-gram的方式来缓解这种问题，但是往往造成特征空间爆炸，需要海量的语料进行拟合；4.相似度计算中一般采用BOW的方式，忽略术语中词之间的关系。而真实数据中往往会有多个诊断混写在一起，不同诊断的语义成分混合会形成不存在的相似诊断；5.传统相似度计算中由于忽略了上下文关系，对于同一个词采用了相同的权重，而导致精确度的损失；6.在面对多个诊断混写的情况，不知道应该取搜索引擎返回的第一个诊断还是前k个诊断。

针对传统搜索引擎方法的弊端，目前主流方法是在排序环节加入深度学习技术，比如专利号为CN 108595614 A的发明公开的应用于HIS系统的数据表映射方法，包括以下步骤：分别从第一HIS系统的数据库和第二HIS系统的数据库中选取各自的待匹配数据表，并分别提取每一个待匹配数据表的特征数据；根据提取的特征数据，计算所述第一HIS系统的待匹配数据表中的字段与所述第二HIS系统的待匹配数据表中的字段之间的相似度；基于相似度判断任意两个分别属于不同系统的字段之间是否互相匹配；如果匹配，则在所述第一HIS系统的数据表中的字段和对应的所述第二HIS系统的数据表中的字段之间建立映射关系。

上述映射方法可以理解为加入了深度学习技术对病历诊断栏内容进行识别映射，其使用字向量、循环神经网络、注意力机制来处理上下文的问题，将相似度问题转化为二分类问题进行模型训练，将相似案例作为正样例，不相似案例作为负样例。但是这种做法难以选择有代表性的负样例，虽然能满足相对精度要求不是很高的搜索场景，但是对于专业的术语映射，判断精度往往达不到实用要求。

发明内容

本发明目的在于针对现有技术的不足，提供一种不依赖HIS系统本身数据格式，适用于各种纯文本医学诊断的医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法。

为了达到目的，本发明提供的技术方案为：

本发明提供了一种基于相似度的医学短文本数据负样例采样方法，包括以下步骤：

S1.基于标准术语集和待映射文本集合生成正样例集合；

S2.对于正样例集合中的任意正样例，基于相似度计算函数生成候选负样例集合，该候选负样例集合用于医学诊断标准术语映射模型训练。

优选地，所述的基于相似度的医学短文本数据负样例采样方法，包括以下步骤：

S1.对于标准术语集为S、待映射文本集合T，生成正样例集合{p_i＝(x_i,y_i)}，其中x_i∈T,y_i＝{y_ik|y_ik∈S}，x_i为待映射文本，y_i＝{y_ik|y_ik∈S}为对应的正确标准术语集合；

S2.对于任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语。

优选地，为相似度计算函数，θ取0.5。

优选地，其中，/>包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数，βl使用10折交叉验证来确定。

一种基于相似度的医学短文本数据负样例采样方法，包括以下步骤：

S1.对于标准术语集为S、待映射文本集合T，先生成扩展术语集合G＝{S,E}，E为标准术语之间的从属关系结合，再生成正样例集合进一步生成扩展正样例集合{p_ik＝(x_i,y_ik,s_ik)}，其中s_ik为(x_i,y_ik)之间的相似度评级，该相似度评级完全基于知识图谱结构s_ik＝sim_g(y_ik,y_il)，s_ik＝1/min(|e_ik|)；

S2.对于任意正样例p_i＝(x_i,y_i,s_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语。

本发明提供了一种基于负样例采样的医学诊断标准术语映射模型训练方法，包括以下步骤：

1)基于原始医学诊断数据得到待映射文本，进而生成训练集P_train，验证集P_eval，测试集P_test；

2)基于标准术语集和待映射文本集合生成正样例集合；

3)对于正样例集合中的任意正样例，基于相似度计算函数生成候选负样例集合；

4)获取正样例集合的一个子集，对于其中的每个正样例，从候选负样例集合中抽取部分或全部负样例生成训练集，将正样例集合的子集与训练集合并后形成一个训练批次；

5)将训练批次带入神经网络模型中进行训练。

优选地，步骤1)包括：将原始医学诊断数据进行文本预处理得到待映射文本集合T；将T经过人工切分得到切分诊断数据集合T′；人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P；分别按照一定比例分割P和P′生成训练集P_train、验证集P_eval、测试集P_test和训练集P′_train，验证集P′_eval和测试集P′_test；分别对训练集P′_train，验证集P′_eval和测试集P′_test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集P_train、验证集P_eval和测试集P_test中。

优选地，步骤1)包括下述具体步骤：

1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T，所述文本预处理包括：统一中文符号和特殊符号为标准英文符号、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整；

1.2)将T经过人工切分得到切分诊断数据集合T′，人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；

1.3)根据待映射文本集合T与标注数据集合P′的映射关系生成映射文本集合P，将映射文本集合P按照8:1:1的比例拆分成训练集P_train、验证集P_eval和测试集P_test；

1.4)将标注数据集合P′按照8:1:1的比例拆分成训练集P′_train，验证集P′_eval和测试集P′_test，分别随机排列组合若干标注数据并组合为一条数据，得到训练集验证集测试集/>

1.5)将训练集验证集/>测试集/>分别合并到训练集P_train、验证集P_eval和测试集P_test中，得到训练集P_train，验证集P_eval，测试集P_test。

优选地，步骤2)包括：对于标准术语集为S、待映射文本集合T，生成正样例集合{p_i＝(x_i,y_i)}，其中x_i∈T,y_i＝{y_ik|y_ik∈S}，x_i为待映射文本，y_i＝{y_ik|y_ik∈S}为对应的正确标准术语集合；

步骤3)包括：对于任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语；

步骤4)包括：获取一个批次的正样例子集P＝{p_i＝(x_i,y_i)}，对于训练集P_train的每个正样例，从候选负样例集合中抽取部分负样例生成训练集N，抽取负样例时采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval的每个正样例，从候选负样例集合中抽取全部负样例生成训练集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；

步骤5)包括：将训练集P_train，验证集p_eval中的训练批次带入神经网络模型中进行训练，神经网络模型中的损失函数为Σ_ikL(x_i,y_ik)。

优选地，步骤3)中，为相似度计算函数，

θ取0.5。

本发明还提供了一种基于负样例采样的医学诊断标准术语映射模型训练方法，其包括以下步骤：

1)将原始医学诊断数据进行文本预处理得到待映射文本集合T；将T经过人工切分得到切分诊断数据集合T′，人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P；分别按照一定比例分割P和P′生成训练集P_train、验证集P_eval、测试集P_test和训练集P′_train，验证集P′_eval和测试集P′_test；分别对训练集P′_train，验证集P′_eval和测试集P′_test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集P_train、验证集P_eval和测试集P_test中；

2)对于标准术语集为S、待映射文本集合T，先生成扩展术语集合G＝{S,E}，E为标准术语之间的从属关系结合，再生成正样例集合进一步生成扩展正样例集合{p_ik＝(x_i,y_ik,s_ik)}，其中s_ik为(x_i,y_ik)之间的相似度评级，该相似度评级完全基于知识图谱结构s_ik＝sim_g(y_ik,y_il)，s_ik＝1/min(|e_ik|)；

3)对于任意正样例p_i＝(x_i,y_i,s_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语；

4)获取一个批次的正样例子集P＝{p_i＝(x_i,y_i,s_i)}，对于训练集P_train的每个正样例，从候选负样例集合中抽取部分负样例生成训练集N，抽取负样例时采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval中的每个正样例，从候选负样例集合中抽取全部负样例生成训练集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；

5)将训练集P_train，验证集P_eval中的训练批次带入神经网络模型中进行训练，神经网络模型中的损失函数为Σ_iks_ikL(x_i,y_ik)。

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

1、本发明通过基于相似度的负样例采样方法采集负样例并形成候选负样例集，这种方法选择的负样例更具代表性，用于后续的模型训练和预测准确性更高。

2、本发明在进行每一批次的模型训练时，分别抽取正负样例进行模拟训练，在映射过程中对模型进行泛化改进，模型的性能得到提升，提升了对未知细粒度术语的识别泛化性，实现了很高的精确度和召回率。

附图说明

图1是基于相似度的负样例采样方法的流程图；

图2是医学诊断标准术语映射模型训练方法的流程图；

图3是医学诊断标准术语映射模型的预测流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例涉及基于相似度的负样例采集方法，如图1所示，包括以下步骤：

S1.对于标准术语集为S、待映射文本集合T，生成正样例集合{p_i＝(x_i,y_i)}，其中x_i∈T,y_i＝{y^ik|y_ik∈S}，x_i为待映射文本，y_i＝{y_ik|y_ik∈S}为对应的正确标准术语集合；

S2.对于任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，挑选/>的方法为：/> 为相似度计算函数，θ取0.5，/> 其中，/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数，β_l使用10折交叉验证来确定，通过多次尝试，/> 该候选负样例集合用于医学诊断标准术语映射模型训练。

实施例2

在标准术语映射时，对于未覆盖到的概念，我们希望模型能给出一个相对最接近而又正确的答案。首先我们将标准术语集合S按照一定的规范归类，将标准术语归类在不同的子集中，模型在预测未知概念的时候应该遵守这个规范而不是简单地顾名思义，因此，在实施例1的基础上，本实施例对医学短文本数据负样例采样方法进一步进行泛化性改进。

本实施例中基于相似度的医学短文本数据负样例采样方法，包括以下步骤：

S2.对于任意正样例p_i＝(x_i,y_i,s_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，挑选/>的方法为：/> 为相似度计算函数，θ取0.5，其中，/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数，β_l使用10折交叉验证来确定，通过多次尝试，/>

该候选负样例集合用于医学诊断标准术语映射模型训练。

实施例3

本实施例是基于实施例1的负样例采样方法进行的。

参照图2，一种采用基于负样例采样的医学诊断标准术语映射模型训练方法，具体包括以下步骤：

1)将原始医学诊断数据进行文本预处理得到待映射文本集合T；将T经过人工切分得到切分诊断数据集合T′；人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P；分别按照一定比例分割P和P′生成训练集P_train、验证集P_eval、测试集P_test和训练集P′_train，验证集P′_eval和测试集P′_test；分别对训练集P′_train，验证集P′_eval和测试集P′_test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集P_train、验证集P_eval和测试集P_test中。

再具体的步骤为：

1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T，所述文本预处理包括：统一中文符号和特殊符号为标准英文符号(如@nbsp会被替换为空格，中文括号「」会被替换为[]等)、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整(2-5肋骨骨折→2,3,4,5肋骨骨折)；

1.3)根据待映射文本集合T与标注数据集合P′的映射关系生成映射集合P，将映射集合P按照8:1:1的比例拆分成训练集P_train、验证集P_eval和测试集P_test；

1.5)将训练集验证集/>测试集/>分别合并到训练集P_train、验证集P_eval和测试集P_test中，得到训练集P_train，验证集P_eval，测试集P_test；

2)对于标准术语集为S、待映射文本集合T，生成正样例集合{p_i＝(x_i,y_i)}，其中x_i∈T,y_i＝{y_ik|y_ik∈S}，x_i为待映射文本，y_i＝{y_ik|y_ik∈S}为对应的正确标准术语集合；

3)对于任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，挑选/>的方法为：/> 为相似度计算函数，θ取0.5，/> 其中，/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数，β_l使用10折交叉验证来确定，通过多次尝试，/> 采用相似度计算函数，根据计算结果判断x_l和y_lk的相似度，相似度大于阈值作为高难度负样例被加入训练集。

4)获取一个批次的正样例子集p_i＝(x_i,y_i)，对于训练集P_train的每个正样例，采用选择器从候选负样例集合中抽取10个负样例生成训练集N，所述的选择器g(n_i采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval中的每个正样例，从候选负样例集合中抽取全部负样例生成训练集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；

5)将训练集P_train，验证集P_eval中的训练批次带入神经网络模型中进行训练，神经网络模型中的损失函数为Σ_ikL(x_i,y_ik)。

步骤4)形成的训练批次为验证集为P_eval。其中x_i∈T,T为待映射文本集合，y_i＝{y_ik|y_ik∈S}为对应的正样例标准术语集合，/>为对应的负样例标准术语集合。

对比例1

与实施例3不同的是，本对比例1步骤3)中的候选负样例集合并不是通过相似度函数生成的，而是将标准术语集S减去正样例集合得到的。并且步骤4)对于训练集P_train的每个正样例，是从候选负样例集合中抽取所有负样例生成训练集N。

其它步骤与实施例3相同。

对比例2

与实施例3不同的是，本对比例1步骤3)中的候选负样例集合并不是通过相似度函数生成的，而是将标准术语集S减去正样例集合得到的。

其它步骤与实施例3相同。

效果例1

将本发明的映射模型训练方法应用于具体环境中进行训练和预测。具体应用环境为：国际疾病分类标准(ICD11)，原始医学诊断数据18975条。原始医学诊断中一条数据会包含多个独立的诊断，先进行文本预处理得到待映射文本集合T，包括训练集15180条，验证集1898条，测试集1897条。

为了进一步增加算法的泛化性，步骤1.2)得到标注数据集合P′共26840条。为了增加数据的多样性，再经过拆分、排列组合、合并后得到训练集30000条，验证集1000条，测试集2000条。

参照图3，本效果例使用Bert和Albert两个相似度计算模型(预测模型)来对以上得到的映射模型进行预测，最终在测试集P_test上验证结果，采用F1值作为评价标准。

表1为对比例1、对比例2、实施例3在测试集P_test上的结果：

表1

	对比例1	对比例2	实施例3
				Bert	69.91	76.45	91.76
Albert	69.67	76.94	91.11

从表格上看，对比例1得到的映射模型在相似度模型中F1值最低，而实施例3得到的映射模型在相似度模型中F1值达到91％，性能最好。而使用Bert和Albert模型在性能上差别不大。通过这三个方案的对比可知，本发明中的方案成功地实现了基于注意力机制的深度学习模型在诊断术语映射上的应用，实现了很高的精确度和召回率。

实施例4

本实施例是基于实施例2的泛化改进后的负样例采样方法进行的。

参照图2，本实施例中基于负样例采样的医学诊断标准术语映射模型训练方法，包括以下步骤：

1)将原始医学诊断数据进行文本预处理得到待映射文本集合T；将T经过人工切分得到切分诊断数据集合T′，人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P；分别按照一定比例分割P和P′生成训练集P_train、验证集P_eval、测试集P_test和训练集P′_train，验证集P′_val和测试集P′_test；分别对训练集P′_train，验证集P′_eval和测试集P′_test随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集P_train、验证集P_eval和测试集P_test中；

再具体步骤为：

1.1)将原始医学诊断数据进行文本预处理得到待映射文本集合T，所述文本预处理包括：统一中文符号为英文符号(如@nbsp会被替换为空格，中文括号「」会被替换为[]等)、去除无用符号和短语、中文数字转阿拉伯数字及将表示范围的数字补充完整(2-5肋骨骨折→2,3,4,5肋骨骨折)；

1.3)根据待映射文本集合T与标注数据集合P'的映射关系生成映射集合P，将映射集合P按照8:1:1的比例拆分成训练集P_train、验证集P_eval和测试集P_test；

1.4)将标注数据集合P'按照8:1:1的比例拆分成训练集P′_train，验证集P′_eval和测试集P′_test，分别随机排列组合若干标注数据并组合为一条数据，得到训练集验证集测试集/>

3)对于任意正样例p_i＝(x_i,y_i,s_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，挑选/>的方法为：/> 为相似度计算函数，θ取0.5，其中，/>包括编辑距离(edit distance)、基于tf-idf的余弦相似度(cosin)、杰卡德相似系数(jaccard similarity)文本差异三个参数，β_l使用10折交叉验证来确定，本实施例中，/>

4)获取一个批次的正样例子集P＝{p_i＝(x_i,y_i,s_i)}，本实施例中，s_i＝1，对于训练集p_train的每个正样例，从候选负样例集合中抽取10个负样例生成训练数据集N，抽取负样例时采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval中的每个正样例，从候选负样例集合中抽取全部负样例生成训练集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；

5)将训练集P_train的，验证集P_eval中的训练批次带入神经网络模型中进行训练，神经网络模型中的损失函数为Σ_iks_ikL(x_i,y_ik)。

对比例3

与实施例3不同的是，本对比例3将步骤2)替换为实施例4中的步骤2)，即将正样例集合改为“扩展正样例集合”。

其它步骤与实施例3相同。

效果例2

参照图3，本效果例使用Bert和Albert两个相似度计算模型(预测模型)来对对比例3和实施例4得到的映射模型进行预测，最终在测试集P_test上验证结果，采用F1值作为评价标准。

表2是使用对比例3的映射模型与实施例4的映射模型在测试集P_test的测试结果。

表2

	对比例3	实施例4
			Bert	86.16	90.43
Albert	87.14	90.05

由表2可知，对比例3的映射模型在本实施例的测试集中的结果低于在实施例4的测试集中的结果。

由于对比例3将正样例集合改为“扩展正样例集合”，但训练批次数据和模型损失函数并没有根据相似度评级s_ik作相应的扩展，导致模型泛化能力不够，不能很好的识别和区分。

实施例4将正样例集合改为“扩展正样例集合”，同时，训练批次数据和模型损失函数根据相似度评级s_ik作了相应的扩展，其测试结果F1值达到了90％，比对比例3的结果提升了接近4％。并且使用Bert和Albert模型在性能上差别不大。说明使用实施例4中的泛化性扩展方案有效的提升了对未知细粒度术语的识别泛化性。

以上结合实施例对本发明进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍属于本发明的专利涵盖范围之内。

Claims

1.一种基于相似度的医学短文本数据负样例采样方法，其特征在于：其包括以下步骤：

S1.基于标准术语集S和待映射文本集合T生成正样例集合{p_i＝(x_i,y_i)}，其中

x_i∈T,y_i＝{y_ik|y_ik∈S}，x_i为待映射文本，y_i＝{y_ik|y_ik∈S}为对应的正确标准术语集合；

S2.对于正样例集合中的任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，该候选负样例集合用于医学诊断标准术语映射模型训练；/>

为相似度计算函数，θ取0.5；所述的其中，

包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数，β_l使用10折交叉验证来确定。

2.根据权利要求1所述的基于相似度的医学短文本数据负样例采样方法，其特征在于：其包括以下步骤：

S1.对于标准术语集为S、待映射文本集合T，先生成扩展术语集合G＝{S,E}，E为标准术语之间的从属关系结合，再生成正样例集合

进一步生成扩展正样例集{p_ik＝(x_i,y_ik,s_ik)}，其中s_ik为(x_i,y_ik)之间的相似度评级，该相似度评级完全基于知识图谱结构s_ik＝sim_g(y_ik,y_il)，s_ik＝1/min(|e_ik|)；

3.一种医学诊断标准术语映射模型训练方法，其特征在于：其包括以下步骤：

1)基于原始医学诊断数据得到待映射文本，进而生成训练集P_train，验证集P_eval，

测试集P_test；

2)基于标准术语集S和待映射文本集合T生成正样例集合{p_i＝(x_i,y_i)}，其中

3)对于正样例集合中的任意正样例p_i＝(x_i,y_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，该候选负样例集合用于医学诊断标准术语映射模型训练；/>为相似度计算函数，θ取0.5；所述的/>其中，/>包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数，β_l使用10折交叉验证来确定；

4)获取正样例集合的一个子集，对于其中的每个正样例，从候选负样例集合中抽取部分或全部负样例生成训练数据集，将正样例集合的子集与训练数据集合并后形成一个训练批次；

5)将训练批次带入神经网络模型中进行训练。

4.根据权利要求3所述的医学诊断标准术语映射模型训练方法，其特征在于：步骤1)包括：将原始医学诊断数据进行文本预处理得到待映射文本集合T；将T经过人工切分得到切分诊断数据集合T′；人工标注切分诊断数据集合T′得到标注数据集合P′，T′和P′一一对应；根据待映射文本集合T与标注数据集合P′的映射关系得到映射文本集合P；分别按照一定比例分割P和P′生成训练集P_train、验证集P_eval、测试集P_test和训练集P_t′_rain，验证集P_e′_val和测试集P_t′_est；分别对训练集P_t′_rain，验证集P_e′_val和测试集P_t′_est随机排列组合生成排列组合训练集验证集/>测试集/>并合并到训练集P_train、验证集P_eval和测试集P_test中。

5.根据权利要求4所述的医学诊断标准术语映射模型训练方法，其特征在于：步骤1)包括下述具体步骤：

1.4)将标注数据集合P′按照8:1:1的比例拆分成训练集P_t′_rain，验证集P_e′_val和测试集P_t′_est，分别随机排列组合若干标注数据并组合为一条数据，得到训练集验证集测试集/>

6.根据权利要求4所述的医学诊断标准术语映射模型训练方法，其特征在于：步骤4)包括：获取一个批次的正样例子集P＝{p_i＝(x_i,y_i)}，对于训练集P_train的每个正样例，从候选负样例集合中抽取部分负样例生成训练数据集N，抽取负样例时采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval的每个正样例，从候选负样例集合中抽取全部负样例生成训练数据集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；

7.一种医学诊断标准术语映射模型训练方法，其特征在于：其包括以下步骤：

2)对于标准术语集为S、待映射文本集合T，先生成扩展术语集合G＝{S,E}，E为标准术语之间的从属关系结合，再生成正样例集合进一步生成扩展正样例集{p_ik＝(x_i,y_ik,s_ik)}，其中s_ik为(x_i,y_ik)之间的相似度评级，该相似度评级完全基于知识图谱结构s_ik＝sim_g(y_ik,y_il)，s_ik＝1/min(|e_ik|)；

3)对于任意正样例p_i＝(x_i,y_i,s_i)，基于相似度计算函数生成候选负样例集合为与y_i类似的错误术语，/> 为相似度计算函数，θ取0.5；所述的/>其中，包括编辑距离、基于tf-idf的余弦相似度、杰卡德相似系数文本差异三个参数，β_l使用10折交叉验证来确定；

4)获取一个批次的正样例子集P＝{p_i＝(x_i,y_i,s_i)}，对于训练集P_train的每个正样例，从候选负样例集合中抽取部分负样例生成训练数据集N，抽取负样例时采用随机选择器g(p_ik,n_i)，即将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；对于验证集P_eval中的每个正样例，从候选负样例集合中抽取全部负样例生成训练数据集N，将正负样例集合合并形成一个用于数据模型训练的训练批次batch＝P∪N；