CN112711652A

CN112711652A - 术语标准化方法及装置

Info

Publication number: CN112711652A
Application number: CN202110053293.XA
Authority: CN
Inventors: 俞声; 余丽珊
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-04-27
Anticipated expiration: 2041-01-15
Also published as: CN112711652B

Abstract

本发明公开一种术语标准化方法及装置，方法包括：利用标准化术语语料库和标准术语集合构建三元组组成的训练数据集，三元组包括锚元、正元和负元，锚元为标准术语或不规范的术语，正元为与锚元对应同一标准术语的术语，负元为与锚元对应的标准术语不同的术语；利用训练数据集训练表示学习模型，获得训练好的表示学习模型；利用训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量，并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度，将相似度高于相似度阈值或相似度排行最高的标准术语作为所述待标准化术语的标准化结果。本发明可获得标准术语，适用各种语言，可获得其他语言下更合适的表述。

Description

术语标准化方法及装置

技术领域

本发明涉及一种信息技术领域，尤其涉及一种关于表示学习的术语标准化方法及装置。

背景技术

现有的术语标准化技术主要分为两类，基于规则或字符串匹配的术语标准化技术和基于机器学习的术语标准化技术。基于规则或字符串匹配的术语标准化技术将待标准化术语或经规则处理后，与已标准化术语或标准术语表述进行直接的字符串匹配，主要的技术包括基于Levenshtein距离的字符串匹配、最大公共子串匹配、模糊匹配等。基于机器学习的术语标准化技术主要是将术语标准化任务转化为多分类任务，将每一种标准术语视为一种类别，建立多分类模型，并利用已标准化的术语语料库训练模型，该模型对术语的分类是预测其标准术语，主要的方法有支持向量机、决策树和神经网络模型等。本发明中的新的术语标准化技术属于基于机器学习的术语标准化技术，是一种表示学习方法，核心思想是通过已标准化的术语语料库和标准术语集合学习到字词和术语的嵌入式表达向量，并且对应同一标准术语的术语具有相似的嵌入式表达向量。

发明内容

为解决以上问题，本发明公开一种术语标准化方法，包括：

获得标准化术语语料库和标准术语集合，其中，标准术语集合包含标准术语和与所述标准术语对应的编码，

标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合；

利用标准化术语语料库和标准术语集合构建训练数据集，所述训练数据集包括多个训练样本，每个训练样本都为一个三元组的形式，所述三元组由锚元、正元和负元组成，其中，锚元为标准术语或不规范术语，正元为与锚元对应同一标准术语的术语，负元为设定数量的与锚元对应的标准术语不同的术语；

利用所述训练数据集训练表示学习模型，获得训练好的表示学习模型；

利用所述训练好的表示学习模型获得待标准化术语和标准术语集合中的每一术语的术语嵌入式表达向量，并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度，将相似度最高的标准术语作为所述待标准化术语的标准化结果。

可选地，还包括术语预处理，所述术语预处理是指将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理。

可选地，所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层，所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量，投影层用于将字词嵌入式表达向量投射到特征空间，术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。

可选地，所述利用所述训练数据集训练表示学习模型包括：

计算每个三元组中，锚元与正元的相似度，以及锚元与负元中的每一术语的相似度，优化损失函数使锚元和正元的相似度高，并且锚元和负元中的每一术语的相似度低，直至模型损失收敛，则训练完成。

可选地，所述术语嵌入式表达向量是该术语的所有最小语言单位的字词嵌入式表达向量的加和。

可选地，所述相似度取术语嵌入式表达向量之间的余弦相似度。

本发明还公开一种术语标准化装置，包括：

训练数据集构建模块，获得标准化术语语料库和标准术语集合，其中，标准术语集合包含标准术语和与所述标准术语对应的编码，标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合；利用标准化术语语料库和标准术语集合构建训练数据集，所述训练数据集包括多个训练样本，每个训练样本都为一个三元组的形式，所述三元组由锚元、正元和负元组成，其中，锚元为标准术语或不规范术语，正元为与锚元对应同一标准术语的术语，负元为设定数量的与锚元对应的标准术语不同的术语；

模型训练模块，用于利用所述训练数据集训练表示学习模型，获得训练好的表示学习模型；

术语标准化模块，用于利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量，并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度，将相似度最高的标准术语作为所述待标准化术语的标准化结果。

可选地，还包括术语预处理模块，所述术语预处理模块用于将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理。

可选地，所述模型训练模块训练的过程包括：

本发明的有益效果：

1.本发明是以字或单词为基本单位进行嵌入式表达向量的学习，再根据字词的嵌入式表达向量获得术语的嵌入式表达向量。无论是英文、法文等以单词为基本单位，还是中文等以字为基本单位的语言，本发明都可以准确的进行术语标准化。

2.本发明以字或单词为基本单位进行嵌入式表达向量的学习，可以进行多语言之间的术语标准化。例如使用者拥有同一术语标准的多语言版本，例如关于国际疾病分类编码ICD-10的中文标准化术语和英文标准化术语，那么可以同时利用中文标准化术语和英文标准化术语来训练表示学习模型，从而使表示学习模型在一种语言下无合适表述的情况下，获得其他语言下其合适的表述。

3.本发明通过训练表示学习模型满足同一标准术语的不同术语表述间的相似度高、不同标准术语的术语表述间的相似度低的方法，可以获得各不规范术语的更加标准的向量表示，以便从标准术语集合中获得不规范术语的标准术语。

附图说明

图1是表示本发明实施例的术语标准化方法的流程示意图；

图2是表示本发明实施例的功能模块的构成图；

图3是表示本发明实施例的电子设备的构成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的术语标准化流程图，如图1所示，表示学习的术语标准化方法包括：

S1，获得标准化术语语料库和标准术语集合，其中，标准术语集合的内容为多种标准术语和其编码的对应表示，示例：“心房扑动I48.X03”，其中“心房扑动”是专业的标准术语，I48.X03是其对应的编码。标准化术语语料库则是包含多组不规范术语与含义相同的标准术语或对应编码的组合，示例：“房扑I48.X03”，或者“房扑心房扑动”。“房扑”是一个不规范术语(即不是标准术语)，其对应的含义相同的标准术语是“心房扑动”。

S2，利用标准化术语语料库和标准术语集合构建训练数据集，所述训练数据集包括多个训练样本，每个训练样本都为一个三元组的形式，如表1所示，三元组由锚元、正元和负元组成。其中，锚元为标准术语或不规范的术语；正元为与锚元对应同一标准术语的标准术语或不规范术语；负元为设定数量的术语表述，且其与锚元对应的标准术语不同，正元和负元关于锚元随机产生。具体的，是正元采用与锚元对应同一标准术语的随机选取的术语，负元是采用与锚元对应不同标准术语的随机选取的术语。

且三元组中术语经过术语预处理，所述术语预处理是指将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理，比如“维生素b12缺乏”变为“维生素b12缺乏”。需要说明的是，这里的以单词或字为单位是指根据不同语言来说的，例如中文，是以单个字为单元间隔开，英文是以单个单词间隔开，在此可以统称为以具有语义的最小语言单位为单位间隔开。

表1

锚元	正元	负元(数量假设为2)
			脑膜结核瘤	脑脊膜核瘤	(腹腔血管瘤，脓疱性皮疹)
鼓膜穿孔	鼓膜穿孔nos	(虱病，骨质溶解)
			大细胞性贫血	营养性巨幼细胞性贫血	(肾发育不良，白细胞减少)

以表1的第一行为例，其中，锚元的“脑膜结核瘤”和正元的“脑脊膜核瘤”所对应的标准术语是同一个“脑结核瘤”。负元的“腹腔血管瘤”、“脓疱性皮疹”则是与“脑膜结核瘤”对应的标准术语的不同，其中各字之间都需用空格间隔开。

S3，利用所述训练数据集训练表示学习模型，所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层，所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量，投影层用于将字词嵌入式表达向量投射到特征空间，术语表达向量输出层用于输出术语的术语嵌入式表达向量。其中，字词表达向量嵌入层(Embeddinglayer)，是将字词转化为字词嵌入式表达向量；投影层可以用线性投射，对字词嵌入式表达向量进行线性变换；术语表达向量输出层可以取经投影层后的字词嵌入式表达向量的加和作为术语嵌入式表达向量输出。并计算每个三元组中，锚元和正元的相似度，以及锚元和负元中的每一个术语的相似度，优化损失函数使锚元和正元的相似度高以及锚元和负元中的每一个术语的相似度低。

例如“脑膜结核瘤”中的“脑”、“膜”、“结”、“核”、“瘤”都具有对应的字词嵌入式表达向量，经过投影层和输出层，输出的是““脑膜结核瘤”“对应的术语嵌入式表达向量所述术语嵌入式表达向量可以是该术语的所有字词的字词嵌入式表达向量的加和。

获得了三元组的每个术语的术语嵌入式表达向量后，再计算锚元和正元的相似度，以及锚元和负元中的每一个术语的相似度。例如，对模型的损失函数的优化使让“脑膜结核瘤”与“脑脊膜核瘤”的相似度趋于1、让“脑膜结核瘤”与“腹腔血管瘤”的相似度趋于负值。

计算每个三元组中，锚元与正元的相似度，以及锚元与负元中的每一术语的相似度，优化损失函数的目的是使锚元和正元的相似度高，并且锚元和负元中的每一术语的相似度低，直至模型损失收敛，则训练完成。

通过训练数据集大量的数据训练，不断提高表示学习模型的精度，获得训练好的表示学习模型，将训练好的模型参数和结构保存到文件中以待后期调用。

S4，利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的嵌入式表达向量，并计算其与每一个标准术语的嵌入式表达向量的相似度，返回相似度最高的N个标准术语作为其标准化结果，以供用户参考，所述待标准化术语为用户计划对其标准化的术语集合，为若干个需要标准化的术语表述，且已经过术语预处理。

例如，待标准化术语是“慢阻肺”，训练好的表示学习模型可以输出其术语嵌入式表达向量，然后只要计算该术语嵌入式表达向量与每一个标准术语的嵌入式表达向量的相似度，选择相似度高的作为其标准化结果即可。表2为两个待标准化术语的结果示例(N＝3)，其中，慢性阻塞性肺病、慢性阻塞性肺病、慢性阻塞性肺病伴有急性下呼吸道感染的相似度依次降低。

表2

进一步地，所述相似度可以是术语嵌入式表达向量之间的余弦相似度。

本发明还提供一种术语标准化装置100，本发明的术语标准化装置100可以安装于电子设备1中。所述电子设备1可以包括处理器10、存储器11，还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序，例如术语标准化程序12。其中，所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述处理器是所述电子设备的控制核心，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器内的程序或者模块，以及调用存储在所述存储器内的数据，以执行电子设备的各种功能和处理数据。

根据实现的功能，所述术语标准化装置100可以包括训练数据集构建模块101、模型训练模块102、术语标准化模块103。本发明所述模块是指一种能够被电子设备的处理器10所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块的功能如下：

训练数据集构建模块，用于获得标准化术语语料库和标准术语集合，其中，标准术语集合包含标准术语与其编码的对应表示，标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合，利用标准化术语语料库和标准术语集合构建训练数据集，所述训练数据集包括多个训练样本，每个训练样本都为一个三元组的形式，所述三元组由锚元、正元和负元组成，其中，锚元为标准术语或不规范的术语，正元为与锚元对应同一标准术语的其他术语(或标准术语或不规范术语)，负元为设定数量的与锚元对应的标准术语不同的术语(或标准术语或不规范术语)；

进一步地，还包括术语预处理模块104，所述术语预处理模块用于将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理。

进一步地，所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层，所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量，投影层用于将字词嵌入式表达向量投射到特征空间，术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。

进一步地，所述模型训练模块训练的过程包括：

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种术语标准化方法，其特征在于，包括：

利用标准化术语语料库和标准术语集合构建训练数据集，所述训练数据集包括多个训练样本，每个训练样本都为三元组的形式，所述三元组由锚元、正元和负元组成，其中，锚元为标准术语或不规范术语，正元为与锚元对应同一标准术语的术语，负元为设定数量的与锚元对应的标准术语不同的术语；

2.根据权利要求1所述的术语标准化方法，其特征在于，

还包括术语预处理，所述术语预处理是指将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理。

3.根据权利要求2所述的术语标准化方法，其特征在于，

所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层，所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量，投影层用于将字词嵌入式表达向量投射到特征空间，术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。

4.根据权利要求2所述的术语标准化方法，其特征在于，所述利用所述训练数据集训练表示学习模型包括：

5.根据权利要求3所述的术语标准化方法，其特征在于，

所述术语嵌入式表达向量是该术语的所有最小语言单位的字词嵌入式表达向量的加和。

6.根据权利要求1所述的术语标准化方法，其特征在于，

所述相似度取术语嵌入式表达向量之间的余弦相似度。

7.一种术语标准化装置，其特征在于，包括：

8.根据权利要求7所述的术语标准化装置，其特征在于，

还包括术语预处理模块，所述术语预处理模块用于将术语中的最小语言单位用空格隔开，对标准化术语语料库和待标准化术语都进行术语预处理。

9.根据权利要求7所述的术语标准化装置，其特征在于，

10.根据权利要求7所述的术语标准化装置，其特征在于，所述模型训练模块训练的过程包括：