CN113850075A - 医疗信息数据项目名称的标准化方法、系统、设备及介质 - Google Patents
医疗信息数据项目名称的标准化方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113850075A CN113850075A CN202111098855.9A CN202111098855A CN113850075A CN 113850075 A CN113850075 A CN 113850075A CN 202111098855 A CN202111098855 A CN 202111098855A CN 113850075 A CN113850075 A CN 113850075A
- Authority
- CN
- China
- Prior art keywords
- data
- data items
- gram
- data item
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 10
- 238000011425 standardization method Methods 0.000 abstract description 9
- 238000013461 design Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 108010074051 C-Reactive Protein Proteins 0.000 description 5
- 102100032752 C-reactive protein Human genes 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 4
- 229960005070 ascorbic acid Drugs 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 1
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 1
- 229960001138 acetylsalicylic acid Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 229960001680 ibuprofen Drugs 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 229960005489 paracetamol Drugs 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及医疗数据源的数据标准化,具体为医疗信息数据项目名称的标准化方法、系统、设备及介质,能够从字面描述层面对多个数据源的数据进行自动标准化,设计合理,处理简单,适应性强,大大解放了人力,提升了效率;所述方法包括,将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;根据每个数据项目名称的字符数目,构造每个数据项目的n‑gram特征集合;根据每个数据项目的n‑gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,并构造相似矩阵;对相似矩阵内大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
Description
技术领域
本发明涉及医疗数据源的数据标准化,具体为医疗信息数据项目名称的标准化方法、系统、设备及介质。
背景技术
随着信息化建设在各个行业领域的推进,海量数据以电子化的形式存储。例如,在医疗行业,越来越多的医疗机构应用医院信息管理系统(Hospital Information System,HIS系统)对收集的数据进行管理。这类信息系统提升了数据收集和管理的能力,但是也带来了不同数据源数据标准化的问题。
每个医疗机构的HIS系统有一套数据标准的方法。但是,不同的医疗机构的数据标准方法是通常是不同的,并且在多个医疗机构中推行数据标准化在实际中是非常困难的。例如,在医保报销中,需要将不同医疗机构的收费项名称进行标准化,从而进行医保报销的统一审查。将每个医疗机构代表一个数据源,由于每个数据源对应不同的数据标准化方法,同一个数据项目在不同数据源的名称是不完全相同,更具体的,数据项目名称相似但又不完全相同。这对融合多个数据源数据带来了困难,对多个数据源数据统一标准化需要大量人工,耗时耗力,现有的标准化方法,一方面是会将名称向量化之后进行比较,计算量大,而且不同的向量化会带来结果的偏差,无法进行统一,标准调节也较为困难,另一方面,是会建立一个标准库然后进行比对后进行标准化,适应性较差,对原始数据的要求较高,并且更新缓慢,容易遇到无法匹配的问题,导致标准化的不彻底。
发明内容
针对现有技术中存在的,医院信息化建设的发展以及多个医疗机构(即多个数据源)之间数据标准化不同的实际问题,本发明提供一种医疗信息数据项目名称的标准化方法、系统、设备及介质,能够从字面描述层面对多个数据源的数据进行自动标准化,设计合理,处理简单,适应性强,大大解放了人力,提升了效率。
本发明是通过以下技术方案来实现:
医疗信息数据项目名称的标准化方法,包括,
将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
根据每个数据项目的n-gram特征集合,计算每两个数据项目之间基于字符层面的名称相似度,以构造相似矩阵;
对相似矩阵内相似度大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
可选的,所述在字符层面进行统一和去重,包括,
保留初始数据项目名称中的中文字符和数字字符,将英文字符统一成小写形式,移除中文、数字和英文字符之外的其它字符。
可选的,所述根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合,包括,
计算每个数据项目名称的字符数目,得到每个数据项目名称的长度;
计算所有数据项目名称的长度平均值m,对每个数据项目构造m个n-gram特征集合;无法构造的特征集合为空集。
可选的,所述根据每个数据项目的n-gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,包括,
在每两个数据项目对应的n-gram特征集合之间计算雅卡尔系数;
融合所有的n-gram特征集合的雅卡尔系数,得到计算雅卡尔系数的两个数据项目之间的相似度。
可选的,所述两个数据项目之间的相似度,如下式表示,
sim(A,B)=(e1*J-Index(A1-gram,B1-gram)+e2*J-Index(A2-gram,B2-gram)+……+em*J-Index(Am-gram,Bm-gram))/(e1+e2+……+em);
其中,sim(A,B)为数据项目A和B之间的相似度,Ai-gram为数据项目A的n-gram特征集合,Bi-gram为数据项目B的n-gram特征集合,i=1,2,……,m,m为所有数据项目名称的长度平均值,J-Index(Ai-gram,Bi-gram)为数据项目A和B对应的n-gram特征集合之间的雅卡尔系数,e为自然常数。
可选的,所述对相似矩阵内大于数据相似度的阈值项目进行聚类,包括,
将每个小于相似度阈值的数据项目,分别单独作为一个聚类;
将每个不小于相似度阈值的数据项目,选择相似度最高的数据项目,进行聚合,将聚合后存在交集的多个数据项目进行聚类。
可选的,所述为每个聚类中的所有数据项目指定同一个标准化名称进行标准化,包括,
在包括单独一个数据项目的聚类中,将该数据项目名称作为该聚类的标准化名称,进行标准化;
在包括多个数据项目的聚类中,对聚类中的每个数据项目计算其和所属聚类中其它数据项目相似度的平均值,将平均值最大的数据项目名称作为该聚类的标准化名称,进行标准化。
医疗信息数据项目名称的标准化系统,包括,
预处理模块,用于将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
特征构造模块,用于根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
相似矩阵构造模块,用于根据每个数据项目的n-gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,并构造相似矩阵;
名称标准化模块,用于对相似矩阵内大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述的医疗信息数据项目名称的标准化方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的医疗信息数据项目名称的标准化方法。
与现有技术相比,本发明具有以下有益的技术效果:
本发明首先在字符层面按照要求进行统一和去重,对初始数据进行预处理,减小后续标准化的计算量,利用n-gram特征提取到项目名称中多个字符的组合,利用该特征进行相似度的比较,因而能够从字符层面的字符组合来判断两个数据项目之前的名称相似度,更加准确的体现两者的关系;再通过阈值划分后的聚类,按照聚类进行标准化,不仅简化了标准化的计算量,而且适应性强,能够针对不同的数量及来源的数据进行简答的标准化操作,通过对阈值的设定,来对标准化的尺度进行调节,满足不同的需求和系统。
附图说明
图1为本发明实例中所述医疗信息数据项目名称的标准化方法的流程示意图。
图2为本发明实例中所述医疗信息数据项目名称的标准化系统结构框图。
图3为本发明实例中所述标准化系统的预处理模块结构框图。
图4为本发明实例中所述标准化系统的特征构造模块结构框图。
图5为本发明实例中所述标准化系统的相似矩阵构造模块结构框图。
图6为本发明实例中所述标准化系统的名称标准化模块结构框图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明医疗信息数据项目名称的标准化方法,如图1所示,包括,
S1将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
该步骤是对多个数据源的初始数据项目名称的预处理步骤,对每个数据项目名称在字符层面即在字面描述层面进行统一,一方面使其具有了相同的字符格式,另一方面也避免了同一名称因为字符差异导致的识别差异,便于数据去重,做好后续的计算准备。
S2根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
其中,n-gram是一种基于统计语言模型的现有算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列,N可以根据需求进行设定。每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的特征空间,列表中的每一种gram就是一个特征维度,构成了对应的n-gram特征集合。
本发明中以每个字符化后的数据项目名称作为进行滑动窗口操作的对象,以字符为基本单位进行特征选取,用上述的方法构造每个数据项目的n-gram特征集合。
S3根据每个数据项目的n-gram特征集合,计算每两个数据项目之间基于字符层面的名称相似度,以构造相似矩阵;
该步骤是为了将实则为一个数据项目,但因为不同数据源的标准不统一而导致在名称上无法完全对应的情况,通过相似度的计算来对此类的数据项目名称进行筛选,例如,维c和维生素c,以及维他命c等,可以通过相似度的计算,来体现出相互之间的相似性,为是否可以标准化做基础。
S4对相似矩阵内相似度大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
其中,通过阈值的设定,能够利用相似性对项目的名称进行筛选,从而将实质相同的名称进行聚类,例如,维c和维生素c,以及维他命c等,然后再对每一类指定一个标准化名称,上述例子中,例如指定维生素c,从而实现对医疗信息数据项目名称的标准化。
本发明所述的一优选实例中,所述在字符层面进行统一和去重,包括,保留初始数据项目名称中的中文字符和数字字符,将英文字符统一成小写形式,移除中文、数字和英文字符之外的其它字符。然后,在更新后的数据项目名称进行去重,得到n个不同名称的数据项目。并且上述的预处理步骤都可通过代码自动实现。
以下举例说明预处理的具体过程,例如有四个数据项目分别是“C反应蛋白”、“C-反应蛋白”、“c-反应蛋白”、“C-反应蛋白”。按照上面的预处理步骤,即移除除了英文和中文意外以外的字符,并且将英文字符统一小写,将这四个数据项目都预处理为“c反应蛋白”,再经过去重后,只需保留“c反应蛋白”这一个数据项目。
本发明所述的一优选实例中,所述根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合,包括,
计算每个数据项目名称的字符数目,得到每个数据项目名称的长度;
计算所有数据项目名称的长度平均值m,对每个数据项目构造m个n-gram特征集合;无法构造的特征集合为空集。即对每个数据项目分别构造1-gram,2-gram,……,m-gram特征,对每个数据项目共有m个特征集合。如果数据项目的名称长度小于m,则无法构造的特征集合为空集。
下面举例说明构造n-gram特征的过程。例如有三个数据项目(假设一共只有三个数据项目,实际数据项目数目为几千或者上万)分别是“布洛芬”、“阿司匹林”、“对乙酰氨基酚”,这n=3个数据项目名称的长度平均为m=4,所以对这三个数据项目分别构造1-gram、2-gram、3-gram、4-gram共计4个n-gram特征,具体如表1所示:
表1为三个数据项目构造得到的n-gram特征表。
上述的特征都是通过滑窗来进行筛选和确定的,而不是随意的进行字符的组合和拼接,从而在特征中也保证了数据项目名称的连贯性。
本发明所述的一优选实例中,所述根据每个数据项目的n-gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,包括,
在每两个数据项目对应的n-gram特征集合之间计算雅卡尔系数;
融合所有的n-gram特征集合的雅卡尔系数,得到该计算雅卡尔系数的两个数据项目之间的相似度。
其中,雅卡尔系数用于比较样本集的相似性与多样性,其定义为两个集合交集大小与并集大小之间的比例;例如,如果两个集合有2个共同的实体,而有4个不同的实体,那么雅卡尔系数为2/4=0.5。
本发明中建立在雅卡尔系数上的相似度计算具体如下,
首先,对每两个数据项目对应的n-gram特征集合i-gram(i=1,2,……,m)之间计算雅卡尔系数,如下式表示,
J-Index(Ai-gram,Bi-gram)=|Ai-gram∩Bi-gram|/|Ai-gram∪Bi-gram|
其中,J-Index(Ai-gram,Bi-gram)为数据项目A和B对应的n-gram特征集合之间的雅卡尔系数,Ai-gram为数据项目A的n-gram特征集合,Bi-gram为数据项目B的n-gram特征集合,i=1,2,……,m,m为所有数据项目名称的长度平均值。
然后融合所有的i-gram的雅卡尔系数,得到两个数据项目之间的相似度sim:
sim(A,B)=(e1*J-Index(A1-gram,B1-gram)+e2*J-Index(A2-gram,B2-gram)+……+em*J-Index(Am-gram,Bm-gram))/(e1+e2+……+em);
其中,sim(A,B)为数据项目A和B之间的相似度,Ai-gram为数据项目A的n-gram特征集合,Bi-gram为数据项目B的n-gram特征集合,i=1,2,……,m,m为所有数据项目名称的长度平均值,J-Index(Ai-gram,Bi-gram)为数据项目A和B对应的n-gram特征集合之间的雅卡尔系数,e为自然常数。
应用每两个数据项目名称计算得到的相似度,构造相似矩阵。该相似矩阵是以对称矩阵,即以对角线为轴对称的矩阵,矩阵元素eij=eji。对角线上元素表示数据项目自身的相似度,即eii=1。具体的,本发明所述的实例中得到的相似矩阵如表2所示。
表2为六个项目构造得到的相似矩阵表。
由于相似矩阵的对称性以及排除项目自身标准化,只关注相似矩阵的右上部分的取值,相似矩阵的其它值不再关注,如表2相似矩阵中标灰的部分,纵横坐标分别为项目名称,中间的取值为项目自身相互之间的相似度。
本发明所述的一优选实例中,对相似矩阵内大于数据相似度的阈值项目进行聚类,包括,
将每个小于相似度阈值的数据项目,分别单独作为一个聚类;
将每个不小于相似度阈值的数据项目,选择相似度最高的数据项目,进行聚合,将聚合后存在交集的多个数据项目进行聚类。
具体的,在上述步骤得到的,表2所示的相似矩阵上,将大于相似度阈值的数据项目进行聚类,将每个聚类得到的一个或者多个数据项目作为同一个名称进行标准化。
对得到的相似矩阵,首先,按照阈值threshold对数据项目进行筛选,如表2所示,将阈值设为0.5,则在图中移除数据项目6,移除的数据项目表示该项目和其它项目相似度较低,所以将该数据项目单独作为一个标准数据项目,如果不符合阈值的有多个数据项目,则每一个数据项目均单独作为一个标准数据项目;然后在保留的数据项目中,每个数据项目选择相似度最高的项目,对数据项目进行聚合,例如在表2中,项目1和项目2相似度最高为0.9,项目1和项目3相似度最高为0.8,项目4和项目5相似度最高为0.9;因此项目将项目1、项目2和项目3聚合在一起,将项目4和项目5聚合在一起,低于阈值的项目6单独作为一个聚类,最后得到三个标准化的数据项目聚类,完成数据标准化。
本发明所示又一优选实例中,所述为每个聚类中的所有数据项目指定同一个标准化名称进行标准化,包括,
在包括单独一个数据项目的聚类中,将该数据项目名称作为该聚类的标准化名称,进行标准化;
在包括多个数据项目的聚类中,对聚类中的每个数据项目计算其和所属聚类中其它数据项目相似度的平均值,将平均值最大的数据项目名称作为该聚类的标准化名称,进行标准化。
具体的,在每个聚类中,对每个其中的数据项目计算其和所属聚类下其它数据项目相似度的平均值,将平均值最大的数据项目作为该聚类的标准化名称。
例如一个聚类中一共有A、B、C三个数据项目,这三个数据项目之间的相似度如下表3所示。
表3为一个聚类中一共有A、B、C三个数据项目的相似度表。
从上面的矩阵可得知任何两个数据项目之间的相似度,接下来对每个数据项目计算其和其它数据项目之间相似度的平均数:
对于数据项目A:(sim(A,B)+sim(A,C))/2=(0.90+0.95)/2=0.925
对于数据项目B:(sim(A,B)+sim(B,C))/2=(0.90+0.85)/2=0.875
对于数据项目C:(sim(A,C)+sim(B,C))/2=(0.95+0.85)/2=0.900
从上面可知,数据项目A对应的值最大,所以在这个聚类中用数据项目A来表示这个聚类的项目名称,从而完成标准化。
本发明对应上述的方法,还提供一种医疗信息数据项目名称的标准化系统,如图2所示,包括,
预处理模块201,用于将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
特征构造模块202,用于根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
相似矩阵构造模块203,用于根据每个数据项目的n-gram特征集合,计算每两个数据项目之间基于字符层面的名称相似度,以构造相似矩阵;
名称标准化模块204,用于对相似矩阵内大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
其中,在预处理模块201中,如图3所示,包括,
转换单元,用于保留初始数据项目名称中的中文字符和数字字符,将英文字符统一成小写形式,
移除单元,用于在转换单元输出的基础上移除中文、数字和英文字符之外的其它字符。
在特征构造模块202中,如图4所示,包括,
长度单元,用于计算每个数据项目名称的字符数目,得到每个数据项目名称的长度;
构造单元,用于计算所有数据项目名称的长度平均值m,对每个数据项目构造m个n-gram特征集合;无法构造的特征集合为空集。
在相似矩阵构造模块203中,如图5所示,包括,
雅卡尔系数单元,用于在每两个数据项目对应的n-gram特征集合之间计算雅卡尔系数;
相似度单元,用于融合所有的n-gram特征集合的雅卡尔系数,得到计算雅卡尔系数的两个数据项目之间的相似度。
在名称标准化模块204中,如图6所示,包括,
聚类单元,用于将每个小于相似度阈值的数据项目,分别单独作为一个聚类;将每个不小于相似度阈值的数据项目,选择相似度最高的数据项目,进行聚合,将聚合后存在交集的多个数据项目进行聚类。
指定单元,用于在包括单独一个数据项目的聚类中,将该数据项目名称作为该聚类的标准化名称,进行标准化;在包括多个数据项目的聚类中,对聚类中的每个数据项目计算其和所属聚类中其它数据项目相似度的平均值,将平均值最大的数据项目名称作为该聚类的标准化名称,进行标准化。
总的来说,本发明提供的基于字面描述的医疗信息数据项目名称的标准化方法、系统、设备及介质,是一种能够对数据进行自动标准化的创新;解决了不同医疗机构数据标准化方法不同的问题,和人工数据标准化相比,本发明提出的自动化不同数据源数据标准化方法大大解放了人力,提升了工作效率;本发明提出的数据标准化方法的应用广泛。除了在医疗信息管理系统中,可应用于多个行业领域的信息管理系统中,当有多个不同数据源数据标准化需求时。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
本发明还提供一种计算机设备,该计算机设备可以包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被处理器执行时实现如上述实例中的医疗信息数据项目名称的标准化方法。可以理解,电子设备还可以包括,输入/输出(I/O)接口,以及通信组件。
其中,处理器用于执行如上述实例中的医疗信息数据项目名称的标准化方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据可以包括电子设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Cricuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行如上述实例中的医疗信息数据项目名称的标准化方法。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memery,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本实施例还提供一种计算机可读存储介质。在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
而前述的存储介质包括:闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、APP应用商城等等各种可以存储程序校验码的介质,其上存储有计算机程序,所述计算机程序被处理器执行时可以实现如下方法步骤:
S1将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
S2根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
S3根据每个数据项目的n-gram特征集合,计算每两个数据项目之间基于字符层面的名称相似度,以构造相似矩阵;
S4对相似矩阵内相似度大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (10)
1.医疗信息数据项目名称的标准化方法,其特征在于,包括,
将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
根据每个数据项目的n-gram特征集合,计算每两个数据项目之间基于字符层面的名称相似度,以构造相似矩阵;
对相似矩阵内相似度大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
2.根据权利要求1所述的医疗信息数据项目名称的标准化方法,其特征在于,所述在字符层面进行统一和去重,包括,
保留初始数据项目名称中的中文字符和数字字符,将英文字符统一成小写形式,移除中文、数字和英文字符之外的其它字符。
3.根据权利要求1所述的医疗信息数据项目名称的标准化方法,其特征在于,所述根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合,包括,
计算每个数据项目名称的字符数目,得到每个数据项目名称的长度;
计算所有数据项目名称的长度平均值m,对每个数据项目构造m个n-gram特征集合;无法构造的特征集合为空集。
4.根据权利要求1所述的医疗信息数据项目名称的标准化方法,其特征在于,所述根据每个数据项目的n-gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,包括,
在每两个数据项目对应的n-gram特征集合之间计算雅卡尔系数;
融合所有的n-gram特征集合的雅卡尔系数,得到计算雅卡尔系数的两个数据项目之间的相似度。
5.根据权利要求4所述的医疗信息数据项目名称的标准化方法,其特征在于,所述两个数据项目之间的相似度,如下式表示,
sim(A,B)=(e1*J-Index(A1-gram,B1-gram)+e2*J-Index(A2-gram,B2-gram)+……+em*J-Index(Am-gram,Bm-gram))/(e1+e2+……+em);
其中,sim(A,B)为数据项目A和B之间的相似度,Ai-gram为数据项目A的n-gram特征集合,Bi-gram为数据项目B的n-gram特征集合,i=1,2,……,m,m为所有数据项目名称的长度平均值,J-Index(Ai-gram,Bi-gram)为数据项目A和B对应的n-gram特征集合之间的雅卡尔系数,e为自然常数。
6.根据权利要求1所述的医疗信息数据项目名称的标准化方法,其特征在于,所述对相似矩阵内大于数据相似度的阈值项目进行聚类,包括,
将每个小于相似度阈值的数据项目,分别单独作为一个聚类;
将每个不小于相似度阈值的数据项目,选择相似度最高的数据项目,进行聚合,将聚合后存在交集的多个数据项目进行聚类。
7.根据权利要求6所述的医疗信息数据项目名称的标准化方法,其特征在于,所述为每个聚类中的所有数据项目指定同一个标准化名称进行标准化,包括,
在包括单独一个数据项目的聚类中,将该数据项目名称作为该聚类的标准化名称,进行标准化;
在包括多个数据项目的聚类中,对聚类中的每个数据项目计算其和所属聚类中其它数据项目相似度的平均值,将平均值最大的数据项目名称作为该聚类的标准化名称,进行标准化。
8.医疗信息数据项目名称的标准化系统,其特征在于,包括,
预处理模块,用于将获取的多个医疗信息数据源的初始数据项目名称,在字符层面进行统一和去重,得到名称不同的数据项目;
特征构造模块,用于根据每个数据项目名称的字符数目,构造每个数据项目的n-gram特征集合;
相似矩阵构造模块,用于根据每个数据项目的n-gram特征集合,得到每两个数据项目之间基于字符层面的名称相似度,并构造相似矩阵;
名称标准化模块,用于对相似矩阵内大于相似度阈值的数据项目进行聚类,为每个聚类中的所有数据项目指定同一个标准化名称进行标准化。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7中任一项所述的医疗信息数据项目名称的标准化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的医疗信息数据项目名称的标准化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098855.9A CN113850075A (zh) | 2021-09-18 | 2021-09-18 | 医疗信息数据项目名称的标准化方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111098855.9A CN113850075A (zh) | 2021-09-18 | 2021-09-18 | 医疗信息数据项目名称的标准化方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850075A true CN113850075A (zh) | 2021-12-28 |
Family
ID=78974622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111098855.9A Pending CN113850075A (zh) | 2021-09-18 | 2021-09-18 | 医疗信息数据项目名称的标准化方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850075A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974490A (zh) * | 2022-05-27 | 2022-08-30 | 神州医疗科技股份有限公司 | 用于构建医学术语平台的方法、装置、电子设备和介质 |
CN116682519A (zh) * | 2023-08-03 | 2023-09-01 | 广东杰纳医药科技有限公司 | 一种临床实验数据单位分析方法 |
CN116797405A (zh) * | 2023-06-29 | 2023-09-22 | 华腾建信科技有限公司 | 基于参建各方数据互通的工程数据处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN113269248A (zh) * | 2021-05-24 | 2021-08-17 | 平安科技(深圳)有限公司 | 数据标准化的方法、装置、设备及存储介质 |
-
2021
- 2021-09-18 CN CN202111098855.9A patent/CN113850075A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN109446520A (zh) * | 2018-10-17 | 2019-03-08 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN113269248A (zh) * | 2021-05-24 | 2021-08-17 | 平安科技(深圳)有限公司 | 数据标准化的方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
赵胜钢等: "编辑距离算法在科研基金名称数据分析中的应用", 《数字图书馆论坛》, no. 05, 31 May 2014 (2014-05-31), pages 53 - 58 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114974490A (zh) * | 2022-05-27 | 2022-08-30 | 神州医疗科技股份有限公司 | 用于构建医学术语平台的方法、装置、电子设备和介质 |
CN116797405A (zh) * | 2023-06-29 | 2023-09-22 | 华腾建信科技有限公司 | 基于参建各方数据互通的工程数据处理方法及系统 |
CN116797405B (zh) * | 2023-06-29 | 2023-12-19 | 华腾建信科技有限公司 | 基于参建各方数据互通的工程数据处理方法及系统 |
CN116682519A (zh) * | 2023-08-03 | 2023-09-01 | 广东杰纳医药科技有限公司 | 一种临床实验数据单位分析方法 |
CN116682519B (zh) * | 2023-08-03 | 2024-03-19 | 广东杰纳医药科技有限公司 | 一种临床实验数据单位分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220391763A1 (en) | Machine learning service | |
US20210374610A1 (en) | Efficient duplicate detection for machine learning data sets | |
US11232365B2 (en) | Digital assistant platform | |
CA2953817C (en) | Feature processing tradeoff management | |
CN106663224B (zh) | 用于机器学习模型评估的交互式界面 | |
US10452992B2 (en) | Interactive interfaces for machine learning model evaluations | |
US10339465B2 (en) | Optimized decision tree based models | |
CN113850075A (zh) | 医疗信息数据项目名称的标准化方法、系统、设备及介质 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
US11334603B2 (en) | Efficiently finding potential duplicate values in data | |
CN112231416A (zh) | 知识图谱本体更新方法、装置、计算机设备及存储介质 | |
CN113850260A (zh) | 关键信息抽取方法、装置、电子设备及可读存储介质 | |
CN114491084B (zh) | 基于自编码器的关系网络信息挖掘方法、装置及设备 | |
CN111782781A (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN111523309A (zh) | 药品信息归一化的方法、装置、存储介质及电子设备 | |
CN111752958A (zh) | 智能关联标签方法、装置、计算机设备及存储介质 | |
WO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
CN114611929A (zh) | 配置业务流程的方法、装置、设备及存储介质 | |
CN112862536B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113780806A (zh) | 基于决策树的经纪人匹配方法、装置、设备及存储介质 | |
CN115794765A (zh) | 一种元数据服务方法、装置、设备及存储介质 | |
CN115687096A (zh) | 待测试项目的分配方法、装置、设备、介质和程序产品 | |
CN116978574A (zh) | 智能随访方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |