CN114242256A - 一种医疗数据的采集方法 - Google Patents
一种医疗数据的采集方法 Download PDFInfo
- Publication number
- CN114242256A CN114242256A CN202111534928.4A CN202111534928A CN114242256A CN 114242256 A CN114242256 A CN 114242256A CN 202111534928 A CN202111534928 A CN 202111534928A CN 114242256 A CN114242256 A CN 114242256A
- Authority
- CN
- China
- Prior art keywords
- field
- node
- current
- field name
- data table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例涉及一种医疗数据的采集方法,所述方法包括:获取待采集医疗数据库中各个医疗数据表的表内字段信息,生成对应的库信息集合;根据各个表信息集合以及所有医疗数据表的表间关联关系,构建实体‑联系图生成对应的数据表联系图;获取一组待采字段名;将与各个待采字段名同类别且字段名相似度最高的表内字段名作为对应的相似字段名;选择覆盖了全部相似字段名且长度最短的结点路径作为最优全字段结点路径;根据最优全字段结点路径构建对应的数据库查询指令;并将数据库查询指令在待采集医疗数据库中的执行结果,作为与本组待采字段名对应的医疗数据采集结果返回。通过本发明既可以提高数据预处理效率,又可以提高医疗数据查询效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种医疗数据的采集方法。
背景技术
各家医疗机构的医疗数据库中都保存了大量的医疗数据表,每个医疗数据表中包括多个表内字段,每个表内字段的定义方式以院方自定义为主,如此就导致了各家医疗机构的医疗数据库、医疗数据表乃至各个表内字段的定义都不是标准统一的,各个医疗数据表间的关联关系也不是标准统一的。
在这种情况下,当第三方数据采集机构(例如医疗保险机构)按其所需待采字段名在各家医疗机构的医疗数据库中进行医疗数据采集时,就需要各家医疗机构的工作人员或医疗数据库服务商按第三方数据采集机构的数据采集要求进行以下数据处理工作:首先建立各个待采字段名与自家表内字段名的匹配关系,其次根据匹配关系定位所需采集的医疗数据表,再根据定位的多个医疗数据表之间的关联关系组装数据库查询指令,再将数据库查询指令的数据库查询结果作为数据采集结果向第三方数据采集机构回发。
在进行上述数据处理工作的过程中,我们发现以下问题:1)工作人员或医疗数据库服务商在匹配待采字段名、定位医疗数据表时缺乏较为有效的数据比对与表单定位工具,导致查询前的数据预处理效率较低;2)有些采集数据可通过不同的医疗数据表关联组合获取,由此就可能导致因为采用了较为复杂的数据表关联组合进行查询,从而引发数据库整体查询效率降低的问题。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种医疗数据的采集方法、电子设备及计算机可读存储介质,基于自然语言处理(Natural Language Processing,NLP)技术的文本相似度比较办法和知识图谱的实体-联系图(Entity Relationship Diagram)结构提供一种有效的数据比对与表单定位处理机制,借鉴知识图谱最短路径规划办法提供一种查询效率最高、占用资源最少的数据库查询指令获取机制。通过本发明在对接第三方数据采集机构的医疗数据采集操作时,既可以提高数据预处理效率,又可以提高医疗数据查询效率。
为实现上述目的,本发明实施例第一方面提供了一种医疗数据的采集方法,所述方法包括:
获取待采集医疗数据库中各个医疗数据表的表内字段信息,生成对应的库信息集合;所述库信息集合包括多个表信息集合;所述表信息集合包括多个表内字段信息;所述表内字段信息包括表内字段名和表内字段类别;所述表信息集合与所述医疗数据表一一对应;
根据各个所述医疗数据表的所述表信息集合以及所有所述医疗数据表的表间关联关系,构建实体-联系图生成对应的数据表联系图;所述数据表联系图包括多个数据表结点;所述数据表结点与所述医疗数据表一一对应;每个所述数据表结点具有一组结点信息与对应的所述表信息集合一致;
获取一组待采字段名;
将所述库信息集合中与各个所述待采字段名同类别且字段名相似度最高的所述表内字段名作为对应的相似字段名;
在所述数据表联系图中选择覆盖了全部所述相似字段名且长度最短的结点路径作为最优全字段结点路径;
根据所述最优全字段结点路径中各个所述数据表结点与各个所述待采字段名的对应关系,以及路径中各个所述数据表结点之间的关联关系,构建对应的数据库查询指令;并将所述数据库查询指令在所述待采集医疗数据库中的执行结果,作为与本组待采字段名对应的医疗数据采集结果返回。
优选的,所述将所述库信息集合中与各个所述待采字段名同类别且字段名相似度最高的所述表内字段名作为对应的相似字段名,具体包括:
对各个所述待采字段名进行轮询,并将当前被轮询的所述待采字段名记为当前待采字段名;
根据预设的字段类别列表,对所述当前待采字段名进行字段类别确认处理,生成对应的当前字段类别;
将所述库信息集合中与所述当前字段类别相同的所述表内字段类别对应的所述表内字段名记为第一字段名,并由得到的多个所述第一字段名组成第一字段名序列;
对各个所述第一字段名与所述当前待采字段名的字段名相似度进行确认,生成对应的第一相似度;
按所述第一相似度从大到小的顺序,对所述第一字段名序列中的所述第一字段名进行重新排序,并提取排序靠前指定数量的所述第一字段名构成第二字段名序列;
对所述第二字段名序列进行最匹配字段名确认生成对应的最匹配字段名;
将所述最匹配字段名作为与所述当前待采字段名对应的所述相似字段名。
进一步的,所述字段类别列表包括多个字段类别记录;所述字段类别记录包括模式参数、文本参数和类别参数;所述模式参数具体为前缀模式、后缀模式或关键字模式。
进一步的,所述根据预设的字段类别列表,对所述当前待采字段名进行字段类别确认处理,生成对应的当前字段类别,具体包括:
对所述字段类别列表的各个所述字段类别记录进行轮询,并将当前被轮询的所述字段类别记录记为当前记录,并提取所述当前记录的所述模式参数、所述文本参数和所述类别参数记为对应的当前模式参数、当前文本参数和当前类别参数,并计算所述当前文本参数的字符串长度生成对应的当前文本长度;
在所述当前模式参数为前缀模式时,以所述当前待采字段名的第1个字符位置为子字符串提取起始位置、提取长度为所述当前文本长度的子字符串作为对应的当前待采字段名前缀,若所述当前待采字段名前缀与所述当前文本参数匹配则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询;
在所述当前模式参数为后缀模式时,以所述当前待采字段名的最后1个字符位置为子字符串提取结束位置、提取长度为所述当前文本长度的子字符串作为对应的当前待采字段名后缀,若所述当前待采字段名后缀与所述当前文本参数匹配则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询;
在所述当前模式参数为关键字模式时,对所述当前待采字段名中是否包含所述当前文本参数进行确认,若包含则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询。
进一步的,所述对各个所述第一字段名与所述当前待采字段名的字段名相似度进行确认,生成对应的第一相似度,具体包括:
按预设的BERT模型的输入向量格式要求,对所述第一字段名和所述当前待采字段分别进行向量转换处理,生成对应的第一输入向量和第二输入向量;将所述第一、第二输入向量分别输入所述BERT模型进行句向量预训练,生成对应的第一句向量和第二句向量;对所述第一、第二句向量分别进行白化处理,生成对应的第一、第二白化向量;计算所述第一、第二白化向量的余弦向量相似度,生成对应的模型相似度;对所述模型相似度进行归一化处理,生成对应的归一化模型相似度;
并对所述第一字段名与所述当前待采字段名分别进行分词处理,生成对应的第一分词序列和第二分词序列;并统计所述第一、第二分词序列的交集分词数量和并集分词数量,生成对应的第一交集数量和第一并集数量;并基于杰卡德系数计算方法,以所述第一交集数量与所述第一并集数量的比值作为对应的杰卡德相似度;
取所述归一化模型相似度和所述杰卡德相似度的平均值作为对应的所述第一相似度。
进一步的,所述对所述第二字段名序列进行最匹配字段名确认生成对应的最匹配字段名,具体包括:
对预设的最匹配模式进行识别;若所述最匹配模式为最大相似度模式,则从所述第二字段名序列中选择排序最靠前的所述第一字段名作为所述最匹配字段名;若所述最匹配模式为交互确认模式,则从所述库信息集合中提取所述第二字段名序列各个所述第一字段名对应的所述表信息集合组成对应的第一表信息集合,并将所述第二字段名序列和对应的所述第一表信息集合向预设的交互确认接口发送,并将从所述交互确认接口返回的确认结果作为所述最匹配字段名。
优选的,所述数据表联系图中,与各个所述数据表结点连接的另一个所述数据表结点记为当前数据表结点的邻居结点;各个所述数据表结点与自身的所述邻居结点通过反映了二者关联关系的结点边连接;多个首尾互连的所述结点边构成一条所述结点路径;所述结点路径的长度即为路径中包含的所述结点边的数量。
优选的,所述在所述数据表联系图中选择覆盖了全部所述相似字段名且长度最短的结点路径作为最优全字段结点路径,具体包括:
将所述库信息集合中,与各个所述相似字段名对应的所述医疗数据表作为待筛数据表;并将所述数据表联系图中,与各个所述待筛数据表对应的所述数据表结点作为待筛结点;
对所述数据表联系图进行结点裁剪,只保留各个所述待筛结点的指定步数关联结点从而得到数据表联系子图;所述数据表联系子图中以各个所述待筛结点为路径起点的任一所述结点路径的长度不超过所述指定步数;
将所述数据表联系子图中,任一包含了所有所述相似字段名的所述结点路径记为全字段路径,并将其中长度最短的作为所述最优全字段结点路径。
本发明实施例第二方面提供了一种电子设备,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
本发明实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。
本发明实施例提供了一种医疗数据的采集方法、电子设备及计算机可读存储介质,首先,对医疗数据库中各医疗数据表的表内字段进行信息整合得到库信息集合,对医疗数据库中各医疗数据表信息及表间关联关系进行实体-联系图整合得到数据表联系图;其次,基于NLP技术的文本相似度比较办法对待采字段名在库信息集合的相似度字段名进行确认,并由相似度字段名在数据表联系图中定位所需的医疗数据表;然后,借鉴知识图谱最短路径规划技术从数据表联系图中筛选出既包含了所有相似度字段名又占用最少医疗数据表的最优全字段结点路径;通过这个最优全字段结点路径就可组装出查询效率最高、占用资源最少的数据库查询指令。通过本发明,在对接第三方数据采集机构的医疗数据采集操作时,既提高了数据预处理效率,又提高了医疗数据查询效率。
附图说明
图1为本发明实施例一提供的一种医疗数据的采集方法示意图;
图2为本发明实施例二提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
当各家医疗机构的信息系统在对接第三方数据采集机构的医疗数据采集操作时,通过本发明实施例一提供的一种医疗数据的采集方法,对各医疗数据表的表内字段进行信息整合得到库信息集合,对各医疗数据表信息及表间关联关系进行实体-联系图整合得到数据表联系图,通过比较文本相似度获得库内与各个待采字段名匹配的相似度字段名,经由相似度字段名在数据表联系图中进行所需医疗数据表定位,借鉴知识图谱最短路径规划技术从数据表联系图中筛选出最优全字段结点路径,根据最优全字段结点路径组装出查询效率最高、占用资源最少的数据库查询指令,最后将医疗数据库上该指令的运行结果作为当次医疗数据采集结果向第三方数据采集机构回发;图1为本发明实施例一提供的一种医疗数据的采集方法示意图,如图1所示,本方法主要包括如下步骤:
步骤1,获取待采集医疗数据库中各个医疗数据表的表内字段信息,生成对应的库信息集合;
其中,库信息集合包括多个表信息集合;表信息集合包括多个表内字段信息;表内字段信息包括表内字段名和表内字段类别;表信息集合与医疗数据表一一对应。
这里,可通过获取待采集医疗数据库的数据库部署文档来得到各个医疗数据表的表内字段信息,还可通过遍历医疗数据库的医疗数据表的表单信息来获取各个医疗数据表的表内字段信息。关于表内字段类别,医疗机构的字段命名习惯是将前缀、后缀或关键字相同的字段名纳入同一类别,例如,若按前缀“身份”来标称身份类别,那么字段名“身份证”、“身份号”、“身份证号”对应的字段类别都是身份类别;若按后缀“编码”来标称编码类别,那么字段名“病人编码”、“医生编码”、“医院编码”对应的字段类别都是编码类别;若按关键字“药品包装”来标称包装类别,那么字段名“库房药品包装规格”、“库房药品包装单位”、“库房药品包装数量”对应的字段类别都是包装类别。
步骤2,根据各个医疗数据表的表信息集合以及所有医疗数据表的表间关联关系,构建实体-联系图生成对应的数据表联系图;
其中,数据表联系图包括多个数据表结点;数据表结点与医疗数据表一一对应;每个数据表结点具有一组结点信息与对应的表信息集合一致;数据表联系图中,与各个数据表结点连接的另一个数据表结点记为当前数据表结点的邻居结点;各个数据表结点与自身的邻居结点通过反映了二者关联关系的结点边连接;多个首尾互连的结点边构成一条结点路径;结点路径的长度即为路径中包含的结点边的数量。
这里,实体-联系图的结构实际就是知识图谱的标准图谱结构,由结点对象、边对象与边关联关系构成;对应医疗数据表的数据表结点就是标准图谱结构中的结点对象,数据表结点间的结点边就是标准图谱结构中的边对象,数据表结点间的关联关系也就是标准图谱结构中的边对象连接的两个结点对象间边关联关系。
需要说明的是,因为数据表结点间的关联关系是有主从关系之分的,所以数据表联系图中各个结点边是有方向的;结点边连接两个数据表结点,其中作为出发结点的数据表结点也称作首结点,作为结束结点的数据表结点也称作尾结点;若两个结点边对接的数据表结点即是其中一个结点边的首结点、又是另一个结点边的尾节点,那么这两个结点边可被视作是两条首尾互连的结点边从而构成一条结点路径;若两个结点边对接的数据表结点同为两个结点边的首结点、又或者同为两个结点边的尾结点,那么这两个结点边方向不一致,不可被视作是两条首尾互连结点边,而是两条独立的结点边,因为在极端的情况下结点路径也可只包括一个结点边,那么这里就可以得到两条方向相反的结点路径。
例如,数据表联系图中包含3个数据表结点A、B、C,连接关系是A到B间由结点边A->B连接,B到C间由结点边B->C连接,那么数据表结点A与B互为邻居结点,数据表结点B与C互为邻居结点;由知识图谱理论可知结点边A->B的首结点为A、尾结点为B,结点边B->C的首结点为B、尾结点为C,那么数据表联系图中存在两条结点路径,分别是路径A->B,和路径A->B->C;
又例如,数据表联系图中包含3个数据表结点E、F、G,连接关系是E到F间由结点边E->F连接,G到F间由结点边G->F连接,那么数据表结点E与F互为邻居结点,数据表结点F与G互为邻居结点;由知识图谱理论可知结点边E->F的首结点为E、尾结点为F,结点边G->F的首结点为G、尾结点为F,那么数据表联系图中的两条结点路径分别是路径E->F,和路径G->F。
步骤3,获取一组待采字段名。
这里,待采字段名即是第三方数据采集机构需要采集的医疗数据的字段名,该名称可能与每个医疗机构数据库内部的表内字段名不一致,所以需要执行后续步骤对与之同含义的相似字段名进行查找。
步骤4,将库信息集合中与各个待采字段名同类别且字段名相似度最高的表内字段名作为对应的相似字段名;
具体包括:步骤41,对各个待采字段名进行轮询,并将当前被轮询的待采字段名记为当前待采字段名;
步骤42,根据预设的字段类别列表,对当前待采字段名进行字段类别确认处理,生成对应的当前字段类别;
其中,字段类别列表包括多个字段类别记录;字段类别记录包括模式参数、文本参数和类别参数;模式参数具体为前缀模式、后缀模式或关键字模式;
这里,字段类别列表中沉淀了当前待采集医疗数据库中所有表内字段的字段列别;每个字段列别对应一个字段类别记录;每个字段列别的识别模式由模式参数进行限定,包括前缀模式、后缀模式或关键字模式;每个字段列别的识别文本由文本参数限定;每个字段列别的具体类别名称由类别参数限定;当前步骤就是通过字段类别列表来对当前待采字段名进行字段类别确认;
具体包括:步骤421,对字段类别列表的各个字段类别记录进行轮询,并将当前被轮询的字段类别记录记为当前记录,并提取当前记录的模式参数、文本参数和类别参数记为对应的当前模式参数、当前文本参数和当前类别参数,并计算当前文本参数的字符串长度生成对应的当前文本长度;
步骤422,在当前模式参数为前缀模式时,以当前待采字段名的第1个字符位置为子字符串提取起始位置、提取长度为当前文本长度的子字符串作为对应的当前待采字段名前缀,若当前待采字段名前缀与当前文本参数匹配则将当前类别参数作为当前待采字段名对应的当前字段类别并退出轮询;
例如,若当前记录的当前模式参数为前缀模式、当前文本参数为“身份”、当前文本长度为2、当前类别参数为身份类别,当前待采字段名为“身份信息”;那么从当前待采字段名中提取出的当前待采字段名前缀为“身份”与当前文本参数一致,则当前待采字段名的当前字段类别为身份类别;
步骤423,在当前模式参数为后缀模式时,以当前待采字段名的最后1个字符位置为子字符串提取结束位置、提取长度为当前文本长度的子字符串作为对应的当前待采字段名后缀,若当前待采字段名后缀与当前文本参数匹配则将当前类别参数作为当前待采字段名对应的当前字段类别并退出轮询;
例如,若当前记录的当前模式参数为后缀模式、当前文本参数为“编码”、当前文本长度为2、当前类别参数为编码类别,当前待采字段名为“医生编码”;那么从当前待采字段名中提取出的当前待采字段名后缀为“编码”与当前文本参数一致,则当前待采字段名的当前字段类别为编码类别;
步骤424,在当前模式参数为关键字模式时,对当前待采字段名中是否包含当前文本参数进行确认,若包含则将当前类别参数作为当前待采字段名对应的当前字段类别并退出轮询;
例如,若当前记录的当前模式参数为关键字模式、当前文本参数为“药品包装”、当前类别参数为药品包装类别,当前待采字段名为“库房药品包装规格”;当前待采字段名中包含了当前文本参数,则当前待采字段名的当前字段类别为药品包装类别;
步骤43,将库信息集合中与当前字段类别相同的表内字段类别对应的表内字段名记为第一字段名,并由得到的多个第一字段名组成第一字段名序列;
这里,通过同类别表内字段名的收集可以降低后续字段相似度的计算量,提高相似字段的匹配效率;
步骤44,对各个第一字段名与当前待采字段名的字段名相似度进行确认,生成对应的第一相似度;
这里,采用两种NLP技术的文本相似度计算方法计算得到两个相似度,再对两个相似度取平均值作为第一相似度,这样可以结合两种算法的优势提高相似度计算的准确度;
具体包括:步骤441,按预设的BERT模型的输入向量格式要求,对第一字段名和当前待采字段分别进行向量转换处理,生成对应的第一输入向量和第二输入向量;将第一、第二输入向量分别输入BERT模型进行句向量预训练,生成对应的第一句向量和第二句向量;对第一、第二句向量分别进行白化处理,生成对应的第一、第二白化向量;计算第一、第二白化向量的余弦向量相似度,生成对应的模型相似度;对模型相似度进行归一化处理,生成对应的归一化模型相似度;
这里,BERT(Bidirectional Encoder Representation from Transformers)模型是一个句向量预训练的语言表征模型,通过BERT模型得到的句向量(第一句向量和第二句向量)可以包含丰富的语义信息和上下文信息;但是若直接使用BERT模型输出的句向量进行向量余弦相似度计算往往结果都会偏高;为改善这种情况,由公开的BERT-Whitening理论可知,可对BERT模型输出的句向量进行白化(Whitening)处理,也就是将BERT模型输出的句向量变成均值为0,协方差矩阵为单位矩阵(第一、第二白化向量);在完成白化处理之后,再使用向量余弦相似度计算方法计算第一、第二白化向量的相似度,并以此作为模型相似度;在得到模型相似度之后,为放大相似度差异再对该模型相似度进行归一化处理从而得到归一化模型相似度;
步骤442,并对第一字段名与当前待采字段名分别进行分词处理,生成对应的第一分词序列和第二分词序列;并统计第一、第二分词序列的交集分词数量和并集分词数量,生成对应的第一交集数量和第一并集数量;并基于杰卡德系数计算方法,以第一交集数量与第一并集数量的比值作为对应的杰卡德相似度;
这里,在进行分词处理时按单字进行分词;杰卡德系数(Jaccard index)计算方法就是,若存在集合1、2,二者的交集对象数量为N1,并集对象数量为N2,则集合1、2的杰卡德系数为N1/N2;
例如,第一字段名为“库房药品包装规格”,当前待采字段名为“药品包装规格”,那么第一分词序列为{“库”,“房”,“药”,“品”,“包”,“装”,“规”,“格”},第二分词序列为{“药”,“品”,“包”,“装”,“规”,“格”},第一、第二分词序列的交集分词为{“药”,“品”,“包”,“装”,“规”,“格”},第一、第二分词序列的并集分词为{“库”,“房”,“药”,“品”,“包”,“装”,“规”,“格”},那么第一、第二分词序列的交集分词数量为6、并集分词数量为8,杰卡德相似度为6/8=75%;
步骤443,取归一化模型相似度和杰卡德相似度的平均值作为对应的第一相似度;
步骤45,按第一相似度从大到小的顺序,对第一字段名序列中的第一字段名进行重新排序,并提取排序靠前指定数量的第一字段名构成第二字段名序列;
例如,重新排序后的第一字段名序列中有10个第一字段名,指定数量为4,那么第二字段名序列实际就是由第一字段名序列的前4个第一字段名构成的序列;
步骤46,对第二字段名序列进行最匹配字段名确认生成对应的最匹配字段名;
具体包括:对预设的最匹配模式进行识别;若最匹配模式为最大相似度模式,则从第二字段名序列中选择排序最靠前的第一字段名作为最匹配字段名;若最匹配模式为交互确认模式,则从库信息集合中提取第二字段名序列各个第一字段名对应的表信息集合组成对应的第一表信息集合,并将第二字段名序列和对应的第一表信息集合向预设的交互确认接口发送,并将从交互确认接口返回的确认结果作为最匹配字段名;
这里,本发明实施例支持两种最匹配字段名的确认模式,一种为最大相似度模式,也即是直接从第二字段名序列中提取最大相似度对应的第一字段名作为最匹配字段名;另一种为交互确认模式,也就是将与第二字段名序列相关的所有医疗数据表连同第二字段名序列,向预设的交互确认接口发送,此处的交互确认接口可为人工确认接口;工作人员通过交互确认接口接收到第二字段名序列以及对应的所有医疗数据表之后,对各个第一字段名在医疗数据表中的实际应用进行挨个核对,并从中选择与当前待采字段类型、用途完全匹配的第一字段名作为最匹配字段名向交互确认接口返回,如果工作人员认为第二字段名序列的所有第一字段名都不合适还可另行输入最匹配字段名向交互确认接口返回;
步骤47,将最匹配字段名作为与当前待采字段名对应的相似字段名,继续对下一个待采字段名进行轮询直到最后一个待采字段名轮询结束。
步骤5,在数据表联系图中选择覆盖了全部相似字段名且长度最短的结点路径作为最优全字段结点路径;
具体包括:步骤51,将库信息集合中,与各个相似字段名对应的医疗数据表作为待筛数据表;并将数据表联系图中,与各个待筛数据表对应的数据表结点作为待筛结点;
这里,因为库信息集合中保存了所有医疗数据表的表内字段信息,那么通过各个相似字段名反查所在的医疗数据表就可以得到待筛数据表;因为数据表联系图中每个数据表结点对应一个医疗数据表,在得到待筛数据表之后,自然可以定位对应的数据表结点也就是待筛结点;
步骤52,对数据表联系图进行结点裁剪,只保留各个待筛结点的指定步数关联结点从而得到数据表联系子图;
其中,数据表联系子图中以各个待筛结点为路径起点的任一结点路径的长度不超过指定步数;
这里,因为数据表联系图是整个待采集医疗数据库的实体-联系图,为减少图谱计算量,在计算最优全字段结点路径之前,需要对数据表联系图进行裁剪,剪裁原则:1)只保留各个待筛结点的关联结点,此处的关联结点要么是各个待筛结点的邻居结点,要么是在以待筛结点为出发结点的结点路径上的结点,也就是将与各个待筛结点没有邻居关系也不在待筛结点出发的结点路径上的其他数据表结点全部裁剪掉;2)保留各个待筛结点的指定步数关联结点,也就是在待筛结点出发的结点路径上,只保留指定步数个结点边上的数据表结点,指定步数外结点边上的数据表结点全部裁减掉;
例如,数据表联系图中有非待筛结点P0和待筛结点P11,待筛结点P11的邻居结点为P21、P22,结点P21除P11之外没有其他邻居结点,结点P22除P11之外还有一个其他邻居结点P31,结点P31除P22之外还有一个其他邻居结点P41,数据表联系子图中的结点路径有路径P11->P21、P11->P22->P31->P41,指定步数为2;那么,待筛结点P11及其邻居结点为P21、P22会被保留,其次因为结点路径P11->P22->P31->P41的长度为3大于指定步数2所以只有结点路径P11->P22->P31上的结点P22和P31会被保留,最终孤立的非待筛结点P0和超出指定步数的结点P41会被裁减掉;裁剪前数据表联系图的结点序列为(P0,P11,P21,P22,P31,P41),裁剪后数据表联系子图的结点序列为(P11,P21,P22,P31);
步骤53,将数据表联系子图中,任一包含了所有相似字段名的结点路径记为全字段路径,并将其中长度最短的作为最优全字段结点路径;
这里,因为数据表联系子图中每个数据表结点都对应一组结点信息与对应的表信息集合一致,所以通过相似字段名与表信息集合的对应关系就可追溯到与结点信息的对应关系,也就是可获得每个数据表结点对相似字段名的包含关系,从而也就可以获得任一结点路径对相似字段名的包含关系;
本发明实施例在进行全字段路径的确认时,提供两种处理机制,并通过预设的全字段路径模式参数进行处理机制选择;
具体包括:步骤531,对预设的全字段路径模式进行识别;若全字段路径模式为第一模式则转至步骤532;若全字段路径模式为第二模式则转至步骤533;
步骤532,若全字段路径模式为第一模式,则根据数据表联系子图进行第一全字段路径确认处理得到多个全字段路径;
具体包括:在数据表联系子图中,将任一待筛结点出发的任一结点路径记为第一结点路径;并对每个第一结点路径上所有数据表结点包含的相似字段名进行统计生成对应的第一路径相似字段名序列;并从所有第一路径相似字段名序列中,选择包含了所有相似字段名的记为全字段名序列;将各个全字段名序列对应的第一结点路径,记为全字段路径;转至步骤534;
步骤533,若全字段路径模式为第二模式,则根据数据表联系子图进行第二全字段路径确认处理得到多个全字段路径;
具体包括:步骤5331,在数据表联系子图中,对每个待筛结点进行轮询,并将当前被轮询的待筛结点作为当前待筛结点;并将当前待筛结点作为第一结点;
步骤5332,将从第一结点出发的所有结点路径上,第一结点的所有邻居结点记为第一邻居结点,各个第一邻居结点的所有邻居结点记为对应的下一邻居结点,并将各个第一邻居结点及其对应的所有下一邻居结点合计为第一结点集合;
步骤5333,若第一结点集合的结点数量为0,则转至步骤5336;
步骤5334,若第一结点集合的结点数量不为0,则统计各个第一结点集合包含的相似字段名数量作为第一重要性参数;并选择数值最大的第一重要性参数对应的第一邻居结点作为当前最重要邻居结点;并对从当前待筛结点到当前最重要邻居结点的结点路径上所包含的相似字段名进行统计,记为第二路径相似字段名序列;
步骤5335,判断第二路径相似字段名序列是否包含了所有待采字段名对应的相似字段名;若是则将从当前待筛结点到当前最重要邻居结点的结点路径记为全字段路径,并转至步骤5336;若否则将当前最重要邻居结点作为新的第一结点并转至步骤5332;
步骤5336,继续对下一个待筛结点进行轮询直到最后一个待筛结点轮询结束;
步骤534,从得到的所有全字段路径中,将其中长度最短的作为最优全字段结点路径。
步骤6,根据最优全字段结点路径中各个数据表结点与各个待采字段名的对应关系,以及路径中各个数据表结点之间的关联关系,构建对应的数据库查询指令;并将数据库查询指令在待采集医疗数据库中的执行结果,作为与本组待采字段名对应的医疗数据采集结果返回。
这里,最优全字段结点路径满足数据表结点最少也就是医疗数据表最少,且字段全覆盖的特征;由最优全字段结点路径构建的数据库查询指令,自然就是查询效率最高、占用资源最少的数据库查询指令;最后信息系统会将医疗数据采集结果向第三方数据采集机构回发。
图2为本发明实施例二提供的一种电子设备的结构示意图。该电子设备可以为前述的终端设备或者服务器,也可以为与前述终端设备或者服务器连接的实现本发明实施例方法的终端设备或服务器。如图2所示,该电子设备可以包括:处理器301(例如CPU)、存储器302、收发器303;收发器303耦合至处理器301,处理器301控制收发器303的收发动作。存储器302中可以存储各种指令,以用于完成各种处理功能以及实现前述方法实施例描述的处理步骤。优选的,本发明实施例涉及的电子设备还包括:电源304、系统总线305以及通信端口306。系统总线305用于实现元件之间的通信连接。上述通信端口306用于电子设备与其他外设之间进行连接通信。
在图2中提到的系统总线305可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory,RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、图形处理器(Graphics Processing Unit,GPU)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中提供的方法和处理过程。
本发明实施例还提供一种运行指令的芯片,该芯片用于执行前述方法实施例描述的处理步骤。
本发明实施例提供了一种医疗数据的采集方法、电子设备及计算机可读存储介质,首先,对医疗数据库中各医疗数据表的表内字段进行信息整合得到库信息集合,对医疗数据库中各医疗数据表信息及表间关联关系进行实体-联系图整合得到数据表联系图;其次,基于NLP技术的文本相似度比较办法对待采字段名在库信息集合的相似度字段名进行确认,并由相似度字段名在数据表联系图中定位所需的医疗数据表;然后,借鉴知识图谱最短路径规划技术从数据表联系图中筛选出既包含了所有相似度字段名又占用最少医疗数据表的最优全字段结点路径;通过这个最优全字段结点路径就可组装出查询效率最高、占用资源最少的数据库查询指令。通过本发明,在对接第三方数据采集机构的医疗数据采集操作时,既提高了数据预处理效率,又提高了医疗数据查询效率。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种医疗数据的采集方法,其特征在于,所述方法包括:
获取待采集医疗数据库中各个医疗数据表的表内字段信息,生成对应的库信息集合;所述库信息集合包括多个表信息集合;所述表信息集合包括多个表内字段信息;所述表内字段信息包括表内字段名和表内字段类别;所述表信息集合与所述医疗数据表一一对应;
根据各个所述医疗数据表的所述表信息集合以及所有所述医疗数据表的表间关联关系,构建实体-联系图生成对应的数据表联系图;所述数据表联系图包括多个数据表结点;所述数据表结点与所述医疗数据表一一对应;每个所述数据表结点具有一组结点信息与对应的所述表信息集合一致;
获取一组待采字段名;
将所述库信息集合中与各个所述待采字段名同类别且字段名相似度最高的所述表内字段名作为对应的相似字段名;
在所述数据表联系图中选择覆盖了全部所述相似字段名且长度最短的结点路径作为最优全字段结点路径;
根据所述最优全字段结点路径中各个所述数据表结点与各个所述待采字段名的对应关系,以及路径中各个所述数据表结点之间的关联关系,构建对应的数据库查询指令;并将所述数据库查询指令在所述待采集医疗数据库中的执行结果,作为与本组待采字段名对应的医疗数据采集结果返回。
2.根据权利要求1所述的医疗数据的采集方法,其特征在于,所述将所述库信息集合中与各个所述待采字段名同类别且字段名相似度最高的所述表内字段名作为对应的相似字段名,具体包括:
对各个所述待采字段名进行轮询,并将当前被轮询的所述待采字段名记为当前待采字段名;
根据预设的字段类别列表,对所述当前待采字段名进行字段类别确认处理,生成对应的当前字段类别;
将所述库信息集合中与所述当前字段类别相同的所述表内字段类别对应的所述表内字段名记为第一字段名,并由得到的多个所述第一字段名组成第一字段名序列;
对各个所述第一字段名与所述当前待采字段名的字段名相似度进行确认,生成对应的第一相似度;
按所述第一相似度从大到小的顺序,对所述第一字段名序列中的所述第一字段名进行重新排序,并提取排序靠前指定数量的所述第一字段名构成第二字段名序列;
对所述第二字段名序列进行最匹配字段名确认生成对应的最匹配字段名;
将所述最匹配字段名作为与所述当前待采字段名对应的所述相似字段名。
3.根据权利要求2所述的医疗数据的采集方法,其特征在于,
所述字段类别列表包括多个字段类别记录;所述字段类别记录包括模式参数、文本参数和类别参数;所述模式参数具体为前缀模式、后缀模式或关键字模式。
4.根据权利要求3所述的医疗数据的采集方法,其特征在于,所述根据预设的字段类别列表,对所述当前待采字段名进行字段类别确认处理,生成对应的当前字段类别,具体包括:
对所述字段类别列表的各个所述字段类别记录进行轮询,并将当前被轮询的所述字段类别记录记为当前记录,并提取所述当前记录的所述模式参数、所述文本参数和所述类别参数记为对应的当前模式参数、当前文本参数和当前类别参数,并计算所述当前文本参数的字符串长度生成对应的当前文本长度;
在所述当前模式参数为前缀模式时,以所述当前待采字段名的第1个字符位置为子字符串提取起始位置、提取长度为所述当前文本长度的子字符串作为对应的当前待采字段名前缀,若所述当前待采字段名前缀与所述当前文本参数匹配则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询;
在所述当前模式参数为后缀模式时,以所述当前待采字段名的最后1个字符位置为子字符串提取结束位置、提取长度为所述当前文本长度的子字符串作为对应的当前待采字段名后缀,若所述当前待采字段名后缀与所述当前文本参数匹配则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询;
在所述当前模式参数为关键字模式时,对所述当前待采字段名中是否包含所述当前文本参数进行确认,若包含则将所述当前类别参数作为所述当前待采字段名对应的所述当前字段类别并退出轮询。
5.根据权利要求2所述的医疗数据的采集方法,其特征在于,所述对各个所述第一字段名与所述当前待采字段名的字段名相似度进行确认,生成对应的第一相似度,具体包括:
按预设的BERT模型的输入向量格式要求,对所述第一字段名和所述当前待采字段分别进行向量转换处理,生成对应的第一输入向量和第二输入向量;将所述第一、第二输入向量分别输入所述BERT模型进行句向量预训练,生成对应的第一句向量和第二句向量;对所述第一、第二句向量分别进行白化处理,生成对应的第一、第二白化向量;计算所述第一、第二白化向量的余弦向量相似度,生成对应的模型相似度;对所述模型相似度进行归一化处理,生成对应的归一化模型相似度;
并对所述第一字段名与所述当前待采字段名分别进行分词处理,生成对应的第一分词序列和第二分词序列;并统计所述第一、第二分词序列的交集分词数量和并集分词数量,生成对应的第一交集数量和第一并集数量;并基于杰卡德系数计算方法,以所述第一交集数量与所述第一并集数量的比值作为对应的杰卡德相似度;
取所述归一化模型相似度和所述杰卡德相似度的平均值作为对应的所述第一相似度。
6.根据权利要求2所述的医疗数据的采集方法,其特征在于,所述对所述第二字段名序列进行最匹配字段名确认生成对应的最匹配字段名,具体包括:
对预设的最匹配模式进行识别;若所述最匹配模式为最大相似度模式,则从所述第二字段名序列中选择排序最靠前的所述第一字段名作为所述最匹配字段名;若所述最匹配模式为交互确认模式,则从所述库信息集合中提取所述第二字段名序列各个所述第一字段名对应的所述表信息集合组成对应的第一表信息集合,并将所述第二字段名序列和对应的所述第一表信息集合向预设的交互确认接口发送,并将从所述交互确认接口返回的确认结果作为所述最匹配字段名。
7.根据权利要求1所述的医疗数据的采集方法,其特征在于,
所述数据表联系图中,与各个所述数据表结点连接的另一个所述数据表结点记为当前数据表结点的邻居结点;各个所述数据表结点与自身的所述邻居结点通过反映了二者关联关系的结点边连接;多个首尾互连的所述结点边构成一条所述结点路径;所述结点路径的长度即为路径中包含的所述结点边的数量。
8.根据权利要求7所述的医疗数据的采集方法,其特征在于,所述在所述数据表联系图中选择覆盖了全部所述相似字段名且长度最短的结点路径作为最优全字段结点路径,具体包括:
将所述库信息集合中,与各个所述相似字段名对应的所述医疗数据表作为待筛数据表;并将所述数据表联系图中,与各个所述待筛数据表对应的所述数据表结点作为待筛结点;
对所述数据表联系图进行结点裁剪,只保留各个所述待筛结点的指定步数关联结点从而得到数据表联系子图;所述数据表联系子图中以各个所述待筛结点为路径起点的任一所述结点路径的长度不超过所述指定步数;
将所述数据表联系子图中,任一包含了所有所述相似字段名的所述结点路径记为全字段路径,并将其中长度最短的作为所述最优全字段结点路径。
9.一种电子设备,其特征在于,包括:存储器、处理器和收发器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现权利要求1-8任一项所述的方法步骤;
所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行权利要求1-8任一项所述的方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111534928.4A CN114242256A (zh) | 2021-12-15 | 2021-12-15 | 一种医疗数据的采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111534928.4A CN114242256A (zh) | 2021-12-15 | 2021-12-15 | 一种医疗数据的采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114242256A true CN114242256A (zh) | 2022-03-25 |
Family
ID=80756371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111534928.4A Pending CN114242256A (zh) | 2021-12-15 | 2021-12-15 | 一种医疗数据的采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242256A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841756A (zh) * | 2023-09-04 | 2023-10-03 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
-
2021
- 2021-12-15 CN CN202111534928.4A patent/CN114242256A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841756A (zh) * | 2023-09-04 | 2023-10-03 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
CN116841756B (zh) * | 2023-09-04 | 2023-11-10 | 奇点数联(北京)科技有限公司 | 一种目标增量型数据的采集方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919655B (zh) | 一种答案提供方法和装置 | |
US9053180B2 (en) | Identifying common data objects representing solutions to a problem in different disciplines | |
EP3654227A1 (en) | System for extracting semantic triples for building a knowledge base | |
CN108182207B (zh) | 基于分词网络的中文手术操作的智能编码方法及系统 | |
CN108182972B (zh) | 基于分词网络的中文疾病诊断的智能编码方法及系统 | |
US20190228320A1 (en) | Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium | |
CN116628172A (zh) | 基于知识图谱的政务服务领域多策略融合的对话方法 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
CN109726298B (zh) | 适用于科技文献的知识图谱构建方法、系统、终端及介质 | |
US20140351228A1 (en) | Dialog system, redundant message removal method and redundant message removal program | |
JP2020027649A (ja) | エンティティ関係データ生成方法、装置、機器、及び記憶媒体 | |
CN103593412B (zh) | 一种基于树形结构问题的应答方法及系统 | |
US11216896B2 (en) | Identification of legal concepts in legal documents | |
US20160275196A1 (en) | Semantic search apparatus and method using mobile terminal | |
JPWO2017010506A1 (ja) | 情報処理装置、情報処理方法およびコンピュータプログラム | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
CN110705302A (zh) | 命名实体的识别方法、电子设备及计算机存储介质 | |
CN113127605B (zh) | 一种目标识别模型的建立方法、系统、电子设备及介质 | |
JP2022073981A (ja) | ソースコード取得 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN107958068B (zh) | 一种基于实体知识库的语言模型平滑方法 | |
CN108319586B (zh) | 一种信息提取规则的生成和语义解析方法及装置 | |
CN114242256A (zh) | 一种医疗数据的采集方法 | |
WO2021135103A1 (zh) | 一种语义分析方法、装置、计算机设备及存储介质 | |
CN117725189B (zh) | 专业领域的生成式问答方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |