CN113823404A

CN113823404A - 基于医疗大数据的专病建设医疗术语标准化的方法

Info

Publication number: CN113823404A
Application number: CN202110985751.3A
Authority: CN
Inventors: 钟信真
Original assignee: Shandong Health Medical Big Data Co ltd
Current assignee: Shandong Health Medical Big Data Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-12-21

Abstract

本发明公开基于医疗大数据的专病建设医疗术语标准化的方法，涉及大数据信息处理技术领域；规划诊断相关的标准诊断字典，根据标准诊断字典和诊断数据，整理诊断映射字典，数据格式化预处理需要进行标准化的诊断数据、标准诊断字典数据、诊断映射字典数据，筛选数据格式化后的诊断数据和诊断映射字典数据进行匹配，匹配成功的诊断数据根据诊断映射字典对照数据格式化后的标准诊断字典形成标准诊断数据，匹配未成功的诊断数据利用NLP进行相似性匹配，并选择相似性匹配符合要求的诊断映射字典数据对应的标准诊断数据作为当前诊断数据的标准诊断数据。

Description

基于医疗大数据的专病建设医疗术语标准化的方法

技术领域

本发明公开方法，涉及大数据信息处理技术领域，具体地说是基于医疗大数据的专病建设医疗术语标准化的方法。

背景技术

医学领域的专病建设中，建设流程为根据医疗数据中的诊断数据，进行目标疾病筛选过滤，得到目标诊断的就诊数据，再根据得到的目标就诊数据，对此类数据进行医学相关处理，得出相应的专病队列。

但在专病建设过程中，医学术语名称还没有实现完善标准化，尤其是区域医疗健康大数据场景下不同医院医学术语码值标准不统一，不利于自动化处理程度的提高，以及不利于降低人工识别专病医学术语标准化工作的难度。

发明内容

本发明针对现有技术的问题，提供基于医疗大数据的专病建设医疗术语标准化的方法，本发明提出的具体方案是：

基于医疗大数据的专病建设医疗术语标准化的方法，规划诊断相关的标准诊断字典，根据标准诊断字典和诊断数据，整理诊断映射字典，

数据格式化预处理需要进行标准化的诊断数据、标准诊断字典数据、诊断映射字典数据，

筛选数据格式化后的诊断数据和诊断映射字典数据进行匹配，

匹配成功的诊断数据根据诊断映射字典对照数据格式化后的标准诊断字典形成标准诊断数据，

匹配未成功的诊断数据利用NLP进行相似性匹配，并选择相似性匹配符合要求的诊断映射字典数据对应的标准诊断数据作为当前诊断数据的标准诊断数据。

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的方法中利用ETL数据处理流程筛选数据格式化预处理后的诊断数据和诊断映射字典数据进行匹配。

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的方法中利用余弦相似性算法度量诊断数据和诊断映射字典数据之间相似性。

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的方法中进行数据格式化预处理：

分别过滤需要进行标准化的诊断数据、标准诊断字典数据及诊断映射字典数据中的特殊字符和标点符号。

基于医疗大数据的专病建设医疗术语标准化的系统，包括字典语料构建模块、格式化预处理模块及筛选匹配模块，

字典语料构建模块规划诊断相关的标准诊断字典，根据标准诊断字典和诊断数据，整理诊断映射字典，

格式化预处理模块数据格式化预处理需要进行标准化的诊断数据、标准诊断字典数据、诊断映射字典数据，

筛选匹配模块筛选数据格式化预处理后的诊断数据和诊断映射字典数据进行匹配，

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的系统中筛选匹配模块利用ETL数据处理流程筛选数据格式化预处理后的诊断数据和诊断映射字典数据进行匹配。

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的系统筛选匹配模块利用余弦相似性算法度量诊断数据和诊断映射字典数据之间相似性。

进一步，所述的基于医疗大数据的专病建设医疗术语标准化的系统格式化预处理模块进行数据格式化预处理：

基于医疗大数据的专病建设医疗术语标准化的装置，包括至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行所述基于医疗大数据的专病建设医疗术语标准化的方法。

本发明的有益之处是：

本发明提供基于医疗大数据的专病建设医疗术语标准化的方法，可应用于区域医疗大数据场景下进行医学术语标准化，通过对诊断数据术语进行标准化匹配代替通现有医学术语编码进行码值匹配，解决不同机构码值不统一导致标准化匹配准确率低的问题，提高了匹配准确率以及医学术语标准化效率。

附图说明

图1是本发明方法中诊断数据标准化ETL数据处理流程示意图。

图2是本发明方法中结合NLP匹配方案的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

本发明提供基于医疗大数据的专病建设医疗术语标准化的方法，规划诊断相关的标准诊断字典，根据标准诊断字典和诊断数据，整理诊断映射字典，

本发明方法规划诊断相关的标准诊断字典时，可根据现有相关医学领域以国标2.0为例，规划诊断相关标准字典，进行数据格式化预处理方便后续术语精确匹配和NLP相似性模型匹配工作，提高数据处理效率。筛选诊断数据和诊断映射字典数据进行精确匹配，将匹配成功数据进行入库，此类数据标准化完成。而对于未匹配到的诊断数据，根据预处理后的数据字段去重后的数据，使用诊断映射语料库结合NLP技术，进行智能相似性匹配，再进行数据整合，存储至语料库。以便提高标准化匹配准确率以及医学术语标准化效率。

具体应用中，在本发明的一些实施例中，利用ETL数据处理流程进行数据整合。其中对需要进行标准化的诊断数据、标准诊断字典数据、诊断映射字典数据进行数据格式化预处理根据将诊断名称中特殊字符和标点符号数据过滤的处理规则进行数据格式化预处理。

例如以全国-疾病分类与代码-临床版-2.0版为例，标准化诊断字典数据表A，对数据进行格式化预处理，数据例子如下：

对诊断映射字典数据表B进行数据进行格式化预处理，原始诊断数据和标准化后诊断数据为一对一和一对多关系并存，数据例子如下：

对需要进行标准化的诊断数据表C中原始诊断名称数据进行格式化预处理，处理后结果能将部分因为标点写法不一致数据进行合并例子如下：

原始诊断名称	格式化结果
		低钾，低钠，低氯综合症	低钾低钠低氯综合症
低钾低钠低氯综合症	低钾低钠低氯综合症
		(右)肺癌(化疗后)	右肺癌化疗后
右肺癌化疗后	右肺癌化疗后
		…	…

通过ETL流程读取表C数据，通过表C.格式化结果数据和表B.格式化结果进行精确匹配，将匹配到的数据，根据表B.标准诊断格式化结果和标准化诊断字典表表A.格式化名称数据进行匹配，得到诊断数据的标准化结果。

未匹配到的诊断数据，将格式化结果存入表D，再利用NLP智能匹配模型将格式化后诊断数据和表B中格式化诊断数据进行标准化智能匹配，匹配后的结果为：

可将人工审核后正确结果分别存入标准化结果和诊断映射表中。再从读取表C数据，通过表C.格式化结果数据和表B.格式化结果进行精确匹配，将匹配到的数据，根据表B.标准诊断格式化结果和标准化诊断字典表表A.格式化名称数据进行匹配，得到诊断数据的标准化结果这一过程开始重复处理。

在本发明的另一些实施例中，说明了匹配未成功的诊断数据利用诊断映射语料库结合NLP进行相似性匹配的具体过程：

将诊断数据和诊断映射字典中格式化诊断名称字段数据进行序列化处理，先使用中文分词模型得到语料库，再通过TF-IDF算法得到诊断数据的句向量，达到诊断数据序列化目标，为后续进行相似性计算做准备。

步骤1：通过将常用分词语料库和标准诊断字典中诊断格式化数据合并为中文分词语料库，对映射表B中诊断格式化数据进行分词，并通过整理的医学停用词库对分词结果进行过滤，得到去重后的语料词库。如下表格：

其中常用词库使用的是THUOCL：清华大学开放中文词库。

步骤2：对映射表B中所有格式化文本数据进行分别分词，并结合语料库进行数据筛选，得到每个诊断数据的中文分词结果，如下表格：

诊断名称	分词后结果
		右肺癌化疗后	[右，肺癌，化疗]
肺癌化疗后	[肺癌，化疗]
		乳腺癌术后	[乳腺癌，术后]

步骤3：通过TF-IDF算法结合第一步得到的语料库，对步骤2的分词结果进行权重和词频计算，并结合计算结果对第二步骤得到的分词结果进行向量化，得到映射表数据向量集合。如下表：

诊断名称	向量结果
		右肺癌化疗后	[0.6，0.7，0.4,0,0]
肺癌化疗后	[0,0.7,0.4,0,0]
		乳腺癌术后	[0,0,0,0.8,0.5]

步骤4：对需要进行标准化的诊断数据进行步骤2和步骤3操作，得到诊断数据向量结果。

步骤5：根据余弦相似性算法将步骤4结果和步骤3向量集合中的每一个向量进行计算，即通过两个向量的夹角的余弦值来度量向量之间的相似性，得到此诊断数据和映射表中每一条诊断数据的相似程度结果。

步骤6：筛选相似度最高的前三条数据，视为此诊断标准化结果集，可以待后续审核参考，以便获得最为准确的标准化诊断数据。

除上述本发明提供的方法，本发明还提供基于医疗大数据的专病建设医疗术语标准化的系统，包括字典语料构建模块、格式化预处理模块及筛选匹配模块，

上述系统内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

同样地，本发明系统可应用于区域医疗大数据场景下进行医学术语标准化，通过对诊断数据术语进行标准化匹配代替通现有医学术语编码进行码值匹配，解决不同机构码值不统一导致标准化匹配准确率低的问题，提高了匹配准确率以及医学术语标准化效率。

所述至少一个存储器，用于存储机器可读程序；

上述装置内的处理器的信息交互、执行可读程序过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

同样地，本发明装置可应用于区域医疗大数据场景下进行医学术语标准化，通过对诊断数据术语进行标准化匹配代替通现有医学术语编码进行码值匹配，解决不同机构码值不统一导致标准化匹配准确率低的问题，提高了匹配准确率以及医学术语标准化效率。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的系统结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims

1.基于医疗大数据的专病建设医疗术语标准化的方法，其特征是规划诊断相关的标准诊断字典，根据标准诊断字典和诊断数据，整理诊断映射字典，

2.根据权利要求1所述的基于医疗大数据的专病建设医疗术语标准化的方法，其特征是利用ETL数据处理流程筛选数据格式化预处理后的诊断数据和诊断映射字典数据进行匹配。

3.根据权利要求1或2所述的基于医疗大数据的专病建设医疗术语标准化的方法，其特征是利用余弦相似性算法度量诊断数据和诊断映射字典数据之间相似性。

4.根据权利要求1所述的基于医疗大数据的专病建设医疗术语标准化的方法，其特征是进行数据格式化预处理：

5.基于医疗大数据的专病建设医疗术语标准化的系统，其特征是包括字典语料构建模块、格式化预处理模块及筛选匹配模块，

6.根据权利要求5所述的基于医疗大数据的专病建设医疗术语标准化的系统，其特征是筛选匹配模块利用ETL数据处理流程筛选数据格式化预处理后的诊断数据和诊断映射字典数据进行匹配。

7.根据权利要求5或6所述的基于医疗大数据的专病建设医疗术语标准化的系统，其特征是筛选匹配模块利用余弦相似性算法度量诊断数据和诊断映射字典数据之间相似性。

8.根据权利要求5所述的基于医疗大数据的专病建设医疗术语标准化的系统，其特征是格式化预处理模块进行数据格式化预处理：

9.基于医疗大数据的专病建设医疗术语标准化的装置，其特征是包括至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一项所述基于医疗大数据的专病建设医疗术语标准化的方法。