发明内容
为了解决上述方案存在的问题,本发明提供了基于数据仓库的医疗数据整合方法及系统。
本发明的目的可以通过以下技术方案实现:
基于数据仓库的医疗数据整合系统,包括储存模块,储存模块通信连接有数据查重模块,数据查重模块用于查找储存模块内完全重复的文字数据,将完全重复数据进行删除,非重复数据发送到一级数据库进行储存,一级数据库通信连接有校核模块,校核模块对一级数据库内的文字数据进行校核,获得重合数据,将重合数据进行删除,将非重合数据发送到二级数据库中进行储存;
二级数据库通信连接有完整模块,所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:
获取二级数据库中文字数据的类型,建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存。
进一步地,完整模块内设有复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存。
进一步地,设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
进一步地,所述一级数据库、二级数据库和三级数据库内均设有比对单元,通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据。
进一步地,数据查重模块的工作方法包括:
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存。
进一步地,设置文字数据采集间隔时间T的方法包括:
获取采集一次文字数据的数量N,将文字数据标记为i,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值
根据公式L=lne
(Ps +α)×n获得批次时间L;
设置超量值V,实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集。
进一步地,校核模块的工作方法包括:
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存。
基于数据仓库的医疗数据整合方法,具体方法包括:
步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。
与现有技术相比,本发明的有益效果是:通过数据查重模块对采集到的文字数据进行初步筛选,剔除特别明显的重复数据,降低后续的数据处理量和处理效率,同时避免后续处理步骤因为误差导致完全重复的数据没有被剔除出去,提供处理正确率;通过文字数据采集间隔时间T和超量值V,控制采集的数量,避免采集的数据过多,影响后续的数据处理,导致数据处理缓慢,尤其是对于将校核输入数据输入到校核模型中进行数据处理的过程,数据过多可能会出现运行卡顿的问题。
通过校核模块对一级数据库内的文字数据进行校核,进一步的对文字数据进行筛选,通过分步骤逐级的对数据进行处理,由易到难,降低后续步骤的校核数据量;通过完整模块的设置,对文字数据的完整性进行校核,将具有缺项的数据进行标记整合,便于管理员进行查看和补充,避免使用具有缺项的文字数据对病人进行诊断,产生安全隐患。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,基于数据仓库的医疗数据整合系统,包括数据查重模块、一级数据库、校核模块、二级数据库、储存模块、完整模块和三级数据库;
所述一级数据库、二级数据库和三级数据库内均设有比对单元,比对单元用于对各自数据库内的文字数据进行比对,找出重复数据并删除;通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据;本文中删除重复数据或重合数据会保留其中一条;
所述储存模块即为医疗系统中未经处理的数据储存的位置;
所述数据查重模块用于查找储存模块内完全重复的文字数据,具体方法包括:
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存;
通过数据查重模块对采集到的文字数据进行初步筛选,剔除特别明显的重复数据,降低后续的数据处理量和处理效率,同时避免后续处理步骤因为误差导致完全重复的数据没有被剔除出去,提供处理正确率;
通过文字数据采集间隔时间T和超量值V,控制采集的数量,避免采集的数据过多,影响后续的数据处理,导致数据处理缓慢,尤其是对于将校核输入数据输入到校核模型中进行数据处理的过程,数据过多可能会出现运行卡顿的问题。
设置文字数据采集间隔时间T的方法包括:
获取采集一次文字数据的数量N,N阈值,将文字数据标记为i,其中i=1、2、……、n,n=N,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值
根据公式L=lne
(Ps+α)×n获得批次时间L;
设置超量值V,超量值V即为一级数据库中的文字数据的某个数量,根据文字数据处理速度进行设置的;实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集,相当于T无限大。
所述校核模块用于对一级数据库内的文字数据进行校核,具体方法包括:
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H,重合概率线H根据往期重合率Y和对应的重合结果进行设置的,即为低于某个重合率Y时,对应的文字数据没有重合数据,重合数据即为相同意思的对个文字数据;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存;重合数据与上文中提到的重复数据并不是同一种数据,重复数据是完全相同的文字数据,重合数据是有重合部分的关键词对应的文字数据;
校核模型为神经网络模型,将往期的文字数据、关键词条和对应的重合数据作为训练集进行训练;
通过校核模块对一级数据库内的文字数据进行校核,进一步的对文字数据进行筛选,通过分步骤逐级的对数据进行处理,由易到难,降低后续步骤的校核数据量;
所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:
获取二级数据库中文字数据的类型,类型就是文字数据属于什么医疗细分领域;建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存;
建立复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,其中完整数据为没有缺项的数据,复核数据为进行复核后,确定为缺项数据,因为仅仅通过完整性模板进行校核会出现误判的情况,因为需要对缺项数据进行一步的复核,复核模型即为通过神经网络模型进行训练得到的,以历史缺项数据和对应的复核标签作为训练集进行训练的,其中复核标签包括缺项和不缺项,根据复核标签可以获得完整数据和复核数据;将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存;
设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,必要项目即为这个文字数据内必须要求的项目内容,例如关于发烧的文字数据,如果缺少了发烧的时间、时长,医院在对病人进行就诊时,将会有可能因为这个问题而产生安全隐患,同时也会对病人的就诊产生极大的不便;必要项目可以根据互联网统计、医院内部规范要求等方面进行获取,且这个必要项目是医院要求一定要有的,避免因为某个项目因为医院并不要求而列入必要项目,导致后续出现识别问题;建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,相当于用索引项对文字数据进行检索,获取检索到的词对应的文字内容,因为医院的就诊数据都有固定的模板,通过索引项是可以获得对应的文字内容的,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板,这个匹配表拥有索引项。
基于数据仓库的医疗数据整合方法,具体方法包括:
步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存。
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。
获取二级数据库中文字数据的类型,类型就是文字数据属于什么医疗细分领域;建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存;
建立复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,其中完整数据为没有缺项的数据,复核数据为进行复核后,确定为缺项数据,因为仅仅通过完整性模板进行校核会出现误判的情况,因为需要对缺项数据进行一步的复核,复核模型即为通过神经网络模型进行训练得到的,以历史缺项数据和对应的复核标签作为训练集进行训练的,其中复核标签包括缺项和不缺项,根据复核标签可以获得完整数据和复核数据;将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存;
设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。