CN113377897B

CN113377897B - 基于深度对抗学习的多语言医疗术语规范标准化系统及方法

Info

Publication number: CN113377897B
Application number: CN202110588841.9A
Authority: CN
Inventors: 任元凯; 江振荣
Original assignee: Hangzhou Laimai Medical Information Technology Co ltd
Current assignee: Hangzhou Laimai Medical Information Technology Co ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2022-04-22
Anticipated expiration: 2041-05-27
Also published as: CN113377897A

Abstract

本发明公开基于深度对抗学习的多语言医疗术语规范标准化系统，包括标准医学术语库、文件预处理模块、候选术语集生成模块及候选术语集重排模块；所述文件预处理模块，用于统一真实世界的医学术语字符串的格式，以及将长字符串开分成单个的中文及英文词token；所述候选术语集生成模块，用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语；所述候选术语集重排模块：用于将真实世界医学术语与筛选出来的候选术语组成术语对，根据匹配程度标注成正例和负例，作为深度学习模型的输入，模型通过迭代优化生成自动术语匹配模型。

Description

基于深度对抗学习的多语言医疗术语规范标准化系统及方法

技术领域

本发明涉及基于深度对抗学习的多语言医疗术语规范标准化系统及方法，属于医疗技术领域。

背景技术

国内医学领域，尤其是电子病历的书写中，术语种类繁多，不规范化情况严重，以往的方案是对电子病历进行信息提取以后，根据中文字符串匹配出相似的标准术语，再由医学领域的专家对这些术语进行全人工的或者半自动的校对。医疗术语规范化的工作费时费力，效率不高。

经检索，公开号CN109446340A，一种医学标准术语本体管理系统及方法、设备和存储介质，该专利公开了构建医学标准术语本体管理系统所需的术语概念体系、结构化定义和分类，侧重于术语标准的数量保证和质量评价。

公开号CN110349639A，一种基于通用医疗术语库的多中心医疗术语标准化系统，该专利公开了在多个医疗数据中心之间管理医疗术语标准化的流程，以解决多家医疗机构术语表达不一致的问题。

公开号CN112101014A，一种混合特征融合的中文化工文献分词方法，公开了构造word2vec语言模型，通过CNN和BiLSTM模型抽取文本特征，利用融合后的特征提高中文化工文献分词效果的方法，主要解决化工文献中、英文术语的识别和分割问题。

目前，中文医疗术语标准化的工作仍存在以下问题：

1.由于中文医疗信息化建设的历史较短，包含中文医疗标准术语、同义词及其他重要语义关系，如疾病与药品关系，等信息的知识库和知识图谱资源有限。

2.以同义词作为主要匹配方式的术语标准化方法不足以涵盖真实世界数据中大量出现的、多样化的术语不规范表达。

3.目前工作主要集中在中文医疗术语表达之间的映射，缺乏灵活的自动模型，可以灵活支持中文到中文、中文到英文、中文到其他语言的术语映射，为医学研究、应用和我国医学信息化技术与产品的国际化输出造成障碍。

针对此类情况，本发明提供了一种基于多语种医疗知识图谱特征和对抗学习的自动化术语规范化系统及方法。以英文为主的国际医疗术语标准库相对较为丰富(如SNOMED-CT，UMLS，ICD等)，可以在构建自动术语标准化模型时作为中文资源的重要补充，对抗学习模型抽取的多语种公共特征，有助于减少人工标注的数据量，增加模型的通用型，并且保持术语规范化的准确率在可接受范围内，再结合人工进行少量的校对，以此达到高精度的目的。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于深度对抗学习搜索召回率及查全率高的多语言医疗术语规范标准化系统及方法。

技术方案：基于深度对抗学习的多语言医疗术语规范标准化系统，包括标准医学术语库，其特征在于：还包括文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块；

所述文件预处理模块，用于统一真实世界的医学术语字符串的格式，以及将长字符串开分成单个的中文及英文词token；

所述候选术语集生成模块，用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语；

所述候选术语集重排模块：用于将真实世界医学术语与筛选出来的候选术语组成术语对，根据匹配程度标注成正例和负例，作为深度学习模型的输入，模型通过迭代优化生成自动术语匹配模型；

所述输出模块，用于向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。

本发明进一步限定的技术方案为：所述文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块；

所述医学术语标注语料：用于为训练基于深度学习的自动术语匹配模型，将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到所述候选术语集重排模块中；

所述编码、字符统一模块：用于去除真实世界的医学术语字符串中的噪音；

所述第一分词模块：用于将待规范化术语的长字符串开分成单个的中文及英文词token，以方便在所述候选术语集生成模块中与标准术语进行匹配。

作为优选，所述候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块；

所述第二分词模块：用于将标准医学术语的长字符串开分成单个的中文及英文词token；

所述标准术语索引：用于将已经分好词的标准术语建成索引；

所述语义搜索模块：用于从标准医学术语的索引中，基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语，以在所述候选术语集重排模块中形成候选的匹配术语对。

作为优选，所述候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型；

所述训练术语对集合：根据所述语义搜索模块中搜索得到的候选标准术语集合，以及所述医学术语标注语料中的人工标注，生成用于模型训练的正例对和负例对集合，作为深度神经网络模块的输入；

所述中文自注意力深度神经网络模块：将中文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重；

所述第一医学知识图谱嵌入模块：为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量；

所述第一参数优化模块：通过迭代逐步优化中文深度神经网络的参数；

所述第一训练误差计算模块：用于计算每次中文模型迭代的误差，并通过后向反馈调整深度神经网络参数；

所述双语种自注意力深度学习模块：用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型同时调整双语向量的各维度单元的权重；

所述第三参数优化模块:通过迭代逐步优化双语种深度神经网络的参数；

所述第三训练误差计算模块:用于计算每次双语种模型迭代的误差，并通过后向反馈调整深度神经网络参数；

所述英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重；

所述第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量；

所述第二参数优化模块:通过迭代逐步优化英文深度神经网络的参数；

所述第二训练误差计算模块：用于计算每次英文模型迭代的误差，并通过后向反馈调整深度神经网络参数；

所述自动术语匹配模型：在训练阶段，模型通过迭代优化生成自动术语匹配的模型，为真实世界医学术语匹配对应的标准医学术语。

本发明还公开了一种基于深度对抗学习的多语言医疗术语规范标准化方法，其特征在于：包括文件预处理步骤、候选术语集生成步骤、候选术语及重排步骤以及输出步骤；

所述文件预处理步骤，统一真实世界的医学术语字符串的格式以及将长字符串开分成单个的中文及英文词token；

所述候选术语集生成步骤，从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语；

所述候选术语及重排步骤，将真实世界医学术语与筛选出来的候选术语组成术语对，根据匹配程度标注成正例和负例，作为深度学习模型的输入，模型通过迭代优化生成自动术语匹配模型；

所述输出步骤，向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。

有益效果：与现有技术相比，本发明所提供具有以下优点：

1)基于注意力机制的深度神经网络，通过自监督学习从大量的医学术语中学习分布式语言嵌入的向量特征，提高后续训练得到统计模型的通用型，进而提升医学术语自动映射系统的性能。

2)针对医学领域英文标准术语和知识图谱丰富的特点，利用从多种语言的文本中训练得到的医学语言模型，借助基于对抗学习获得中英文中的共同特征，借助英文知识的迁移缓解中文标准术语资源相对匮乏的问题，进而减少人工中文语料的标准，同时提高系统性能。

3)设计的深度神经网络具有很强的可扩展性和和适应性，可以增量式添加其他语种的标注资源和领域知识以不断提升性能，也可应用于除中文以外的其他医学资源匮乏的语种的医学术语自动映射系统的自动构建，具有很大的市场和商业价值。

附图说明

图1为本发明实施例的模块架构示意图；

图2为本发明实施例的流程示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明。

如图1所示，本实施例提供一种基于深度对抗学习的多语言医疗术语规范标准化系统，本系统框架依赖于bert-base multilingual预训练模型即一种由多种语言语料训练而成的语言模型，其包括标准医学术语库、文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块。

文件预处理模块，用于统一真实世界的医学术语字符串的格式，以及将长字符串开分成单个的中文及英文词token。文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块；医学术语标注语料：用于为训练基于深度学习的自动术语匹配模型，将人工构建的真实世界医学术语与标准医学术语的语义对应关系作为训练语料输入到候选术语集重排模块中；编码、字符统一模块：用于去除真实世界的医学术语字符串中的噪音；第一分词模块：用于将待规范化术语的长字符串开分成单个的中文及英文词token，以方便在候选术语集生成模块中与标准术语进行匹配；如表1所示：

表1

待映射术语	SNOMEDCT标准术语
		恶性高血压	Malignant Hypertension
临界性高血压	Borderline hypertension
		Heart tumor	Heart Neoplasm
Ventricular false tendons	False tendon-heart

候选术语集生成模块，用于从标准医学术语集合中筛选出前n个与真实世界医学术语最相似的候选标准术语。候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块；第二分词模块：用于将标准医学术语的长字符串开分成单个的中文及英文词token；标准术语索引：用于将已经分好词的标准术语建成索引；首先，利用elasticsearch(搜索引擎)对标准化的术语进行搜索引擎的构建。新建搜索引擎索引时，采用短语的一系列特征来对搜索引擎进行优化，提高搜索结果的召回率。

在本实施例中，为了保证查全率，取K＝10，也就是说，当输入一条待规范化术语的时候，系统会返回10条最相似标准术语的列表，如表2所示：

表2

语义搜索模块：用于从标准医学术语的索引中，基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语，以在候选术语集重排模块中形成候选的匹配术语对。

候选术语集重排模块，用于将真实世界医学术语与筛选出来的候选术语组成术语对，根据匹配程度标注成正例和负例，作为深度学习模型的输入，模型通过迭代优化生成自动术语匹配模型。

候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型。

训练术语对集合：根据语义搜索模块中搜索得到的候选标准术语集合，以及医学术语标注语料中的人工标注，生成用于模型训练的正例对和负例对集合，作为深度神经网络模块的输入。

中文自注意力深度神经网络模块：将中文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重。

第一医学知识图谱嵌入模块：为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量。

第一参数优化模块：通过迭代逐步优化中文深度神经网络的参数。

第一训练误差计算模块：用于计算每次中文模型迭代的误差，并通过后向反馈调整深度神经网络参数。

双语种自注意力深度学习模块：用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型同时调整双语向量的各维度单元的权重。

第三参数优化模块:通过迭代逐步优化双语种深度神经网络的参数。

第三训练误差计算模块:用于计算每次双语种模型迭代的误差，并通过后向反馈调整深度神经网络参数。

英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重。

第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量；

第二参数优化模块:通过迭代逐步优化英文深度神经网络的参数；

第二训练误差计算模块：用于计算每次英文模型迭代的误差，并通过后向反馈调整深度神经网络参数。

自动术语匹配模型：在训练阶段，模型通过迭代优化生成自动术语匹配的模型，为真实世界医学术语匹配对应的标准医学术语。

如图2所示：在本实施例中术语映射框架核心部分包括三大部分：公共特征抽取层、独立特征抽取层及额外信息抽取层。

公共特征抽取层通过预训练语言模型分别对输入层传入的中文和英文数据进行表征,分别得到对应的词向量，然后通过一个公共的BILSTM双向长度记忆网络层来对这两类数据交替进行特征的抽取，然后在此基础上添加一个self-attention自注意力机制层，来对句子进行特征权重的抽取。通过该层，可以学习到不同语种的共同信息。

公共特征抽取层主要基于对抗学习的机制，该层的参数训练目的是准确预测当前输入的特征来自两个数据源中的哪一个，是中文还是英文。因此，公共特征抽取层保留的是不同数据源、不同任务共有的主要特征。这类特征同时分别参与优化基于单个数据源的单个任务的性能。

公共双向LSTM结构如下：

这里的

和

分别为前向和后向的LSTM抽取的特征，然后经过拼接生成句子信息h_i。

自注意力机制结构如下：

这里的Q(query),K(key),V(value)均表示经过了公共双向LSTM层抽取后得到的信息,再经过一个softmax层后得到句子中不同词语的权重。

本实施例在公共特征抽取层之后构造一个独立特征抽取层，具体的，当不同语种的数据经过了公共特征抽取模块的表示以后，对这两类语种分别添加了一个BILSTM层和自注意力层，以此来达到对不同语种各自独立信息抽取的目的。独立特征抽取层中BILSTM层和自注意力层的结构同公共特征抽取层中的结构一致。

除此之外，本实施例还定义了一层可以添加额外信息的embedding嵌入层，当输入数据中包括了一些额外的信息，例如该术语的标签，词性等特征，就可以通过该embedding嵌入层来对额外的数据进行表征，然后拼接在各自的BILSTM层之后，以此来得到输入数据的额外信息。以此提高术语映射模型的准确性。当进行模型预测的时候，输入可以是中文、英文或者同时对这两类进行处理。

输出模块，用于向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断该非规范化术语得到的规范化术语是否需要进行进一步的人工校验。以之前的k＝10来举例，输出模块会对这10条结果进行概率评分，并降序排列，返回一个列表给用户。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进，这些改进也应视为本发明的保护范围。

Claims

1.基于深度对抗学习的多语言医疗术语规范标准化系统，包括标准医学术语库，其特征在于：还包括文件预处理模块、候选术语集生成模块、候选术语集重排模块以及输出模块；

所述输出模块，用于向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断非规范化术语得到的规范化术语是否需要进行进一步的人工校验；

所述文件预处理模块具体包括医学术语标注语料、编码、字符统一模块及第一分词模块；

所述第一分词模块：用于将待规范化术语的长字符串开分成单个的中文及英文词token，以方便在所述候选术语集生成模块中与标准术语进行匹配；

所述候选术语集生成模块具体包括第二分词模块、标准术语索引及语义搜索模块；

所述语义搜索模块：用于从标准医学术语的索引中，基于语义匹配搜索出前n个与真实世界医学术语最相似的标准术语，以在所述候选术语集重排模块中形成候选的匹配术语对；

所述候选术语集重排模块具体包括训练术语对集合、中文自注意力深度神经网络模块、第一医学知识图谱嵌入模块、第一参数优化模块、第一训练误差计算模块、双语种自注意力深度学习模块、第三参数优化模块、第三训练误差计算模块、英文自注意力深度神经网络模块、第二医学知识图谱嵌入模块、第二参数优化模块、第二训练误差计算模块及自动术语匹配模型；

所述训练术语对集合：根据所述语义搜索模块中搜索得到的候选标准术语集合，以及所述医学术语标注语料中的人工标注，生成用于模型训练的正例对和负例对集合，作为深度神经网络模块的输入;

所述中文自注意力深度神经网络模块：将中文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重;

所述第一医学知识图谱嵌入模块：为中文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;

所述第一参数优化模块：通过迭代逐步优化中文深度神经网络的参数;

所述第一训练误差计算模块：用于计算每次中文模型迭代的误差，并通过后向反馈调整深度神经网络参数;

所述双语种自注意力深度学习模块：用于将中文术语对和英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型同时调整双语向量的各维度单元的权重;

所述第三参数优化模块: 通过迭代逐步优化双语种深度神经网络的参数;

所述第三训练误差计算模块: 用于计算每次双语种模型迭代的误差，并通过后向反馈调整深度神经网络参数;

所述英文自注意力深度神经网络模块:用于将英文术语对输入表示成分布式语义嵌入向量的形式，并根据自注意力模型调整向量各维度单元的权重;

所述第二医学知识图谱嵌入模块:为英文标准术语添加基于医学知识图谱生成的分布式语义嵌入向量;

所述第二参数优化模块: 通过迭代逐步优化英文深度神经网络的参数;

所述第二训练误差计算模块：用于计算每次英文模型迭代的误差，并通过后向反馈调整深度神经网络参数;

2.一种基于深度对抗学习的多语言医疗术语规范标准化方法，采用权利要求1所述的多语言医疗术语规范标准化系统，其特征在于：该方法具体包括文件预处理步骤、候选术语集生成步骤、候选术语及重排步骤以及输出步骤；

所述输出步骤，向用户返回生成的术语对数据的相似度概率，用户可以通过设定相似度的阈值来判断非规范化术语得到的规范化术语是否需要进行进一步的人工校验。