CN112883157B

CN112883157B - 一种多源异构医疗数据的标准化方法及装置

Info

Publication number: CN112883157B
Application number: CN202110176998.0A
Authority: CN
Inventors: 李红良; 秦娟娟; 张晓晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2023-04-07
Anticipated expiration: 2041-02-07
Also published as: CN112883157A

Abstract

本发明公开了一种多源异构医疗数据的标准化方法及装置，属于数据治理技术领域，其中，方法的实现包括：基于原始医疗数据构建多源异构医学数据映射文本，再基于标准术语集合和待映射文本集合生成标准化模型；根据映射结果人工标注，不断优化迭代升级标准化模型；构建成功多源医疗数据自动标准化模型及术语体系，其中，术语体系包括基础术语模块和疾病术语库。通过本发明可实现不同医疗机构，不同业务流程，不同存储方式的信息联通融合，本发明可大幅改善人工标准化效率低，准确度差等弊端，标准化术语的数据可大幅度降低数据治理的难度，有利于人工智能的方法实现多源医疗数据的整合，有助于医疗信息共享的问题。

Description

一种多源异构医疗数据的标准化方法及装置

技术领域

本发明属于数据治理技术领域，更具体地，涉及一种多源异构医疗数据的标准化方法及装置。

背景技术

医学术语是涵盖医学领域包括疾病名称、检查检验、治疗处置、手术护理操作等名称的综合。其数量庞大，构词复杂化及表达多样性等特点已经成为制约领域内信息共享和数据有意义使用的关键因素。目前国际上或国内均拥有多套在粒度和制定思路上不统一的医学术语标准体系，且繁重的医疗实际工作环境下产生的不规范的医疗记录使得目前多源异构数据难以整合。为实现卫生信息化的深入及健康大数据的应用，建立统一的医学术语体系及自动化数据标准化模型是迫切需要的。

现有技术中多是针对单种类医疗术语如药品名称及疾病诊断名称的统一术语体系，尚缺乏集合多种类医学术语的术语体系。现有对医学名词术语进行归一化的标准化技术中有两种，一是人工标注方法，其效率低且成本高。二是流行的人工智能深度学习方法，即通过海量数据训练自动化匹配模型，但是所依赖的大样本医疗标注数据极其难以获得，所以准确度和效率尚不能满足医疗数据的标准化要求。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提出了一种多源异构医疗数据的标准化方法及装置，可以包容多源机构，多样业务流程的术语结构，可大幅改善人工标准化效率低，准确度差等弊端，有利于人工智能的方法实现多源医疗数据的整合，有助于医疗信息共享的问题。

为实现上述目的，按照本发明的一个方面，提供了一种多源异构医疗数据的标准化方法，包括：

(1)针对原始医疗数据中的原始指标名称进行预处理得到目标指标，并根据目标指标名称和内容预判断目标指标名称所在术语体系的父级分类名称；

(2)将各所述目标指标与标准术语表中的术语进行比对，从所述标准术语表中找出与各所述目标指标最相似的术语作为映射结果，并记录相似度；

(3)对于未在所述标准术语表中找出最相似术语的剩余目标指标，将各所述剩余目标指标与其父级分类名称下的标准术语进行相似性比对，若相似度值不大于第一阈值，则与隶属于所推荐父级分类名称下标准术语对应的既往积累的既往术语进行相似性比较，得到匹配结果。

在一些可选的实施方案中，步骤(2)包括：

将各所述目标指标作为标准化模型的输入文件，利用自然语言处理技术，生成词向量并将词向量与标准术语表中的术语进行比对，找出最相似的术语作为映射结果，生成映射结果及相似度，其中，相似度计算原则为名称字符一致性，通过所述标准化模型的输出结果包含数据来源、原始指标名称、预处理后的指标名称、指标分类、推荐匹配术语及匹配度。

在一些可选的实施方案中，步骤(3)包括：

(3.1)对于未在所述标准术语表中找出最相似术语的剩余目标指标，将该剩余目标指标与其父级分类名称下的标准术语进行相似性比对；

(3.2)取比对过程中的第一最大相似度值，若第一最大相似度值大于第一阈值，则输出匹配的标准术语，若第一最大相似度值不大于第一阈值则该剩余目标指标与隶属于所推荐父级分类名称下的标准术语对应的既往积累的既往术语进行相似性比较，得到第二最大相似度值；

(3.3)判断第一最大相似度值与第二最大相似度值中的较大值是否大于第二阈值，若大于第二阈值则输出既往术语及对应的标准术语，若不大于第二阈值，则表示没有最佳匹配结果。

在一些可选的实施方案中，所述方法还包括：

根据输出映射结果进行人工核对标注，从而更新标准术语对应的原始指标名称库，实现更全面准确的完善标准术语对应的既往积累术语，最终优化完善标准化模型。

按照本发明的另一方面，提供了一种多源异构医疗数据的标准化装置，包括：

预处理模块，用于针对原始医疗数据中的原始指标名称进行预处理得到目标指标，并根据目标指标名称和内容预判断目标指标名称所在术语体系的父级分类名称；

第一匹配模块，用于将各所述目标指标与标准术语表中的术语进行比对，从所述标准术语表中找出与各所述目标指标最相似的术语作为映射结果，并记录相似度；

第二匹配模块，用于对于未在所述标准术语表中找出最相似术语的剩余目标指标，将各所述剩余目标指标与其父级分类名称下的标准术语进行相似性比对，若相似度值不大于第一阈值，则与隶属于所推荐父级分类名称下标准术语对应的既往积累的既往术语进行相似性比较，得到匹配结果。

在一些可选的实施方案中，所述第一匹配模块，用于将各所述目标指标作为标准化模型的输入文件，利用自然语言处理技术，生成词向量并将词向量与标准术语表中的术语进行比对，找出最相似的术语作为映射结果，生成映射结果及相似度，其中，相似度计算原则为名称字符一致性，通过所述标准化模型的输出结果包含数据来源、原始指标名称、预处理后的指标名称、指标分类、推荐匹配术语及匹配度。

在一些可选的实施方案中，所述第二匹配模块包括：

第一相似性比对单元，用于对于未在所述标准术语表中找出最相似术语的剩余目标指标，将该剩余目标指标与其父级分类名称下的标准术语进行相似性比对；

第二相似性比对单元，用于取比对过程中的第一最大相似度值，若第一最大相似度值大于第一阈值，则输出匹配的标准术语，若第一最大相似度值不大于第一阈值则该剩余目标指标与隶属于所推荐父级分类名称下的标准术语对应的既往积累的既往术语进行相似性比较，得到第二最大相似度值，判断第一最大相似度值与第二最大相似度值中的较大值是否大于第二阈值，若大于第二阈值则输出既往术语及对应的标准术语，若不大于第二阈值，则表示没有最佳匹配结果。

在一些可选的实施方案中，所述装置还包括：

核对模块，用于根据输出映射结果进行人工核对标注，从而更新标准术语对应的原始指标名称库，实现更全面准确的完善标准术语对应的既往积累术语，最终优化完善标准化模型。

按照本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

通过本发明可实现不同医疗机构，不同业务流程，不同存储方式的信息联通融合，本发明可大幅改善人工标准化效率低，准确度差等弊端，标准化术语的数据可大幅度降低数据治理的难度，有利于人工智能的方法实现多源医疗数据的整合，有助于医疗信息共享的问题。

附图说明

图1是本发明实施例提供的一种多源异构医疗数据的标准化方法的概念图；

图2是本发明实施例提供的一种多源异构医疗数据的标准化方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明实例中，“第一”、“第二”等是用于区别不同的对象，而不是用于描述特定的顺序或先后次序。

如图1所示是本发明实施例提供的一种多源异构医疗数据的标准化方法的流程示意图，包括以下步骤：

S1：针对原始医疗数据中的原始指标名称进行预处理得到目标指标，并根据目标指标名称和内容预判断目标指标名称所在术语体系的父级分类名称；

其中，在步骤S1中，考虑到医疗数据的命名特点及标准化的高准确度需求，首先针对原始数据中原始指标名称进行预处理(包括无效字符的删除)，并根据指标名称和内容预判断术语所在术语体系的父级分类名称，以助于缩小匹配范围从而提高标准化模型匹配结果准确度。

S2：将各目标指标与标准术语表中的术语进行比对，从标准术语表中找出与各目标指标最相似的术语作为映射结果，并记录相似度；

其中，步骤S2可以通过以下方式实现：

将各目标指标作为标准化模型的输入文件，利用自然语言处理技术NLP，生成词向量并将词向量与标准术语表中的术语进行比对，找出最相似的术语作为映射结果，生成映射结果及相似度，其中，相似度计算原则为名称字符一致性，通过标准化模型的输出结果包含数据来源、原始指标名称、预处理后的指标名称、指标分类、推荐匹配术语及匹配度(即相似度)，如下表1所示。

其中，标准术语表由各类医疗术语组成。

表1

S3：对于未在标准术语表中找出最相似术语的剩余目标指标，将各剩余目标指标与其父级分类名称下的标准术语进行相似性比对，若相似度值不大于第一阈值，则与隶属于所推荐父级分类名称下标准术语对应的既往积累的既往术语进行相似性比较，得到匹配结果。

其中，如图2所示，步骤S3可以通过以下方式实现：

S3.1：对于未在标准术语表中找出最相似术语的剩余目标指标，将该剩余目标指标与其父级分类名称下的标准术语进行相似性比对；

S3.2：取比对过程中的第一最大相似度值，若第一最大相似度值大于第一阈值，则输出匹配的标准术语，若第一最大相似度值不大于第一阈值则该剩余目标指标与隶属于所推荐父级分类名称下的标准术语对应的既往积累的既往术语进行相似性比较，得到第二最大相似度值；

S3.3：判断第一最大相似度值与第二最大相似度值中的较大值是否大于第二阈值，若大于第二阈值则输出既往术语及对应的标准术语，若不大于第二阈值，则表示没有最佳匹配结果。

通过步骤S3的标准化方法，具有高精度的匹配流程及基于NLP技术的数据自动标准化模型。

其中，上述方法还包括：

进一步地，还可以通过进一步完善指标对应资料类型，从而根据术语名称及资料类型形成完整的医疗数据标准化术语结果，再进行上述步骤的数据治理。

进一步地，还可以构建及维护医疗数据术语体系及对应既往术语。通过吸纳多源医疗机构原始数据及多样的医疗业务流程，构建粒度通用且规范统一的术语体系。

以下结合具体实例对本发明进行详细说明。

lib文件：基于多种已有的医疗术语集和现有医疗数据，建立13大类，共计7115条标准术语。术语体系包括标准术语及医学专业规定的术语所属父级分类(即三级分类)，如表2所示，例如：西医(一级分类)--体格检查(二级分类)--体格检查-胸部(三级分类)--心脏听诊-心率(标准术语)。

表2

指标预处理结果：对原始状态指标名称进行预处理，输出处理指标名称、推荐指标父级分类，如表3所示。

表3

来源	列号	原始指标名称	处理指标名称	指标分类
					医院单位1	2	XL-心率	心率	体格检查-心脏
医院单位1	3	XZ-心脏	心脏	体格检查-心脏
					医院单位1	4	XY-心音	心音	体格检查-心脏
医院单位1	5	XJ-心界	心界	体格检查-心脏
					医院单位1	6	QT-其它(内科)	其它(内科)	体格检查
医院单位1	7	GZ-肝脏	肝脏	体格检查-腹部
					医院单位1	8	PZ-脾脏	脾脏	体格检查-腹部
医院单位1	9	FB-腹部(未特指)	腹部(未特指)	体格检查-腹部
					医院单位1	10	FZ-肺	肺	体格检查-胸部
医院单位1	11	SZ-双肾	双肾	体格检查-腹部
					医院单位1	12	CD-肠鸣音	肠鸣音	体格检查-腹部

利用已构建的标准化模型进行自动映射。模型运行基本逻辑：

(a)按照每个原始指标名称循环；

(b)将标准术语和与之分类相同的原始指标作为待比较指标；

(c)计算文本相似度：如表4中处理指标名称“心率”，匹配出直接匹配指标“心率”对应的标准匹配术语“心脏听诊-心率”是最高的匹配度1；

(d)判断步骤(c)中匹配度是否满足阈值设定，若不满足则进一步将父级分类下的标准术语对应的既往累积原始术语作为比较指标，再进行一轮匹配度计算；

(e)以相似度最高的标准指标名称为推荐输出。

表4

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源异构医疗数据的标准化方法，其特征在于，包括：

(3)对于未在所述标准术语表中找出最相似术语的剩余目标指标，将各所述剩余目标指标与其父级分类名称下的标准术语进行相似性比对，若相似度值不大于第一阈值，则与隶属于所推荐父级分类名称下标准术语对应的既往积累的既往术语进行相似性比较，得到匹配结果；

步骤(2)包括：

将各所述目标指标作为标准化模型的输入文件，利用自然语言处理技术，生成词向量并将词向量与标准术语表中的术语进行比对，找出最相似的术语作为映射结果，生成映射结果及相似度，其中，相似度计算原则为名称字符一致性，通过所述标准化模型的输出结果包含数据来源、原始指标名称、预处理后的指标名称、指标分类、推荐匹配术语及匹配度；

步骤(3)包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.一种多源异构医疗数据的标准化装置，其特征在于，包括：

第二匹配模块，用于对于未在所述标准术语表中找出最相似术语的剩余目标指标，将各所述剩余目标指标与其父级分类名称下的标准术语进行相似性比对，若相似度值不大于第一阈值，则与隶属于所推荐父级分类名称下标准术语对应的既往积累的既往术语进行相似性比较，得到匹配结果；

所述第一匹配模块，用于将各所述目标指标作为标准化模型的输入文件，利用自然语言处理技术，生成词向量并将词向量与标准术语表中的术语进行比对，找出最相似的术语作为映射结果，生成映射结果及相似度，其中，相似度计算原则为名称字符一致性，通过所述标准化模型的输出结果包含数据来源、原始指标名称、预处理后的指标名称、指标分类、推荐匹配术语及匹配度；

所述第二匹配模块包括：

4.根据权利要求3所述的装置，其特征在于，所述装置还包括：

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2任一项所述方法的步骤。