CN113961549A - 基于数据仓库的医疗数据整合方法及系统 - Google Patents

基于数据仓库的医疗数据整合方法及系统 Download PDF

Info

Publication number
CN113961549A
CN113961549A CN202111108050.8A CN202111108050A CN113961549A CN 113961549 A CN113961549 A CN 113961549A CN 202111108050 A CN202111108050 A CN 202111108050A CN 113961549 A CN113961549 A CN 113961549A
Authority
CN
China
Prior art keywords
data
database
storage
character data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111108050.8A
Other languages
English (en)
Inventor
李凤杰
杨金奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111108050.8A priority Critical patent/CN113961549A/zh
Publication of CN113961549A publication Critical patent/CN113961549A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于数据仓库的医疗数据整合方法及系统,属于医疗数据处理技术领域,包括储存模块,储存模块通信连接有数据查重模块,数据查重模块用于查找储存模块内完全重复的文字数据,将完全重复数据进行删除,非重复数据发送到一级数据库进行储存,一级数据库通信连接有校核模块,校核模块对一级数据库内的文字数据进行校核,获得重合数据,将重合数据进行删除,将非重合数据发送到二级数据库中进行储存;通过完整模块的设置,对文字数据的完整性进行校核,将具有缺项的数据进行标记整合,便于管理员进行查看和补充,避免使用具有缺项的文字数据对病人进行诊断,产生安全隐患。

Description

基于数据仓库的医疗数据整合方法及系统
技术领域
本发明属于医疗数据处理技术领域,具体是基于数据仓库的医疗数据整合方法及系统。
背景技术
现如今,随着科学技术的发展,各种疾病都可以通过医疗手段得到诊治,而现在城市的人口较为密集,各个医院每天都有大量的患者来接受诊治,医疗数据越来越趋于高度集中化,大规模区域医疗信息系统和大型医疗数据中心将逐步建立;因此,海量医疗数据的处理方法及系统逐步形成,而在海量医疗数据处理中,海量医疗数据中的文字数据整合是重要的一个环节。
目前医院每天都会产生大量的文字数据,而产生的文字数据中具有很多重复的文字数据,给数据的储存带来很大的压力;而且对于医疗数据而言,文字数据的完整性是至关重要的,因为不完整的医疗数据具有极大的安全隐患,影响医生对病人的诊治。
发明内容
为了解决上述方案存在的问题,本发明提供了基于数据仓库的医疗数据整合方法及系统。
本发明的目的可以通过以下技术方案实现:
基于数据仓库的医疗数据整合系统,包括储存模块,储存模块通信连接有数据查重模块,数据查重模块用于查找储存模块内完全重复的文字数据,将完全重复数据进行删除,非重复数据发送到一级数据库进行储存,一级数据库通信连接有校核模块,校核模块对一级数据库内的文字数据进行校核,获得重合数据,将重合数据进行删除,将非重合数据发送到二级数据库中进行储存;
二级数据库通信连接有完整模块,所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:
获取二级数据库中文字数据的类型,建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存。
进一步地,完整模块内设有复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存。
进一步地,设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
进一步地,所述一级数据库、二级数据库和三级数据库内均设有比对单元,通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据。
进一步地,数据查重模块的工作方法包括:
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存。
进一步地,设置文字数据采集间隔时间T的方法包括:
获取采集一次文字数据的数量N,将文字数据标记为i,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值
Figure BDA0003273232560000031
根据公式L=lne(Ps +α)×n获得批次时间L;
设置超量值V,实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集。
进一步地,校核模块的工作方法包括:
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存。
基于数据仓库的医疗数据整合方法,具体方法包括:
步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。
与现有技术相比,本发明的有益效果是:通过数据查重模块对采集到的文字数据进行初步筛选,剔除特别明显的重复数据,降低后续的数据处理量和处理效率,同时避免后续处理步骤因为误差导致完全重复的数据没有被剔除出去,提供处理正确率;通过文字数据采集间隔时间T和超量值V,控制采集的数量,避免采集的数据过多,影响后续的数据处理,导致数据处理缓慢,尤其是对于将校核输入数据输入到校核模型中进行数据处理的过程,数据过多可能会出现运行卡顿的问题。
通过校核模块对一级数据库内的文字数据进行校核,进一步的对文字数据进行筛选,通过分步骤逐级的对数据进行处理,由易到难,降低后续步骤的校核数据量;通过完整模块的设置,对文字数据的完整性进行校核,将具有缺项的数据进行标记整合,便于管理员进行查看和补充,避免使用具有缺项的文字数据对病人进行诊断,产生安全隐患。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明原理框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,基于数据仓库的医疗数据整合系统,包括数据查重模块、一级数据库、校核模块、二级数据库、储存模块、完整模块和三级数据库;
所述一级数据库、二级数据库和三级数据库内均设有比对单元,比对单元用于对各自数据库内的文字数据进行比对,找出重复数据并删除;通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据;本文中删除重复数据或重合数据会保留其中一条;
所述储存模块即为医疗系统中未经处理的数据储存的位置;
所述数据查重模块用于查找储存模块内完全重复的文字数据,具体方法包括:
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存;
通过数据查重模块对采集到的文字数据进行初步筛选,剔除特别明显的重复数据,降低后续的数据处理量和处理效率,同时避免后续处理步骤因为误差导致完全重复的数据没有被剔除出去,提供处理正确率;
通过文字数据采集间隔时间T和超量值V,控制采集的数量,避免采集的数据过多,影响后续的数据处理,导致数据处理缓慢,尤其是对于将校核输入数据输入到校核模型中进行数据处理的过程,数据过多可能会出现运行卡顿的问题。
设置文字数据采集间隔时间T的方法包括:
获取采集一次文字数据的数量N,N阈值,将文字数据标记为i,其中i=1、2、……、n,n=N,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值
Figure BDA0003273232560000061
根据公式L=lne(Ps+α)×n获得批次时间L;
设置超量值V,超量值V即为一级数据库中的文字数据的某个数量,根据文字数据处理速度进行设置的;实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集,相当于T无限大。
所述校核模块用于对一级数据库内的文字数据进行校核,具体方法包括:
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H,重合概率线H根据往期重合率Y和对应的重合结果进行设置的,即为低于某个重合率Y时,对应的文字数据没有重合数据,重合数据即为相同意思的对个文字数据;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存;重合数据与上文中提到的重复数据并不是同一种数据,重复数据是完全相同的文字数据,重合数据是有重合部分的关键词对应的文字数据;
校核模型为神经网络模型,将往期的文字数据、关键词条和对应的重合数据作为训练集进行训练;
通过校核模块对一级数据库内的文字数据进行校核,进一步的对文字数据进行筛选,通过分步骤逐级的对数据进行处理,由易到难,降低后续步骤的校核数据量;
所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:
获取二级数据库中文字数据的类型,类型就是文字数据属于什么医疗细分领域;建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存;
建立复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,其中完整数据为没有缺项的数据,复核数据为进行复核后,确定为缺项数据,因为仅仅通过完整性模板进行校核会出现误判的情况,因为需要对缺项数据进行一步的复核,复核模型即为通过神经网络模型进行训练得到的,以历史缺项数据和对应的复核标签作为训练集进行训练的,其中复核标签包括缺项和不缺项,根据复核标签可以获得完整数据和复核数据;将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存;
设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,必要项目即为这个文字数据内必须要求的项目内容,例如关于发烧的文字数据,如果缺少了发烧的时间、时长,医院在对病人进行就诊时,将会有可能因为这个问题而产生安全隐患,同时也会对病人的就诊产生极大的不便;必要项目可以根据互联网统计、医院内部规范要求等方面进行获取,且这个必要项目是医院要求一定要有的,避免因为某个项目因为医院并不要求而列入必要项目,导致后续出现识别问题;建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,相当于用索引项对文字数据进行检索,获取检索到的词对应的文字内容,因为医院的就诊数据都有固定的模板,通过索引项是可以获得对应的文字内容的,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板,这个匹配表拥有索引项。
基于数据仓库的医疗数据整合方法,具体方法包括:
步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存。
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。
获取二级数据库中文字数据的类型,类型就是文字数据属于什么医疗细分领域;建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存;
建立复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,其中完整数据为没有缺项的数据,复核数据为进行复核后,确定为缺项数据,因为仅仅通过完整性模板进行校核会出现误判的情况,因为需要对缺项数据进行一步的复核,复核模型即为通过神经网络模型进行训练得到的,以历史缺项数据和对应的复核标签作为训练集进行训练的,其中复核标签包括缺项和不缺项,根据复核标签可以获得完整数据和复核数据;将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存;
设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
上述公式均是去除量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最接近真实情况的一个公式,公式中的预设参数和预设阈值由本领域的技术人员根据实际情况设定或者大量数据模拟获得。
在本发明所提供的实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。
另对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方法而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方法进行修改或等同替换,而不脱离本发明技术方法的精神和范围。

Claims (8)

1.基于数据仓库的医疗数据整合系统,包括储存模块,其特征在于,储存模块通信连接有数据查重模块,数据查重模块用于查找储存模块内完全重复的文字数据,将完全重复数据进行删除,非重复数据发送到一级数据库进行储存,一级数据库通信连接有校核模块,校核模块对一级数据库内的文字数据进行校核,获得重合数据,将重合数据进行删除,将非重合数据发送到二级数据库中进行储存;
二级数据库通信连接有完整模块,所述完整模块用于对二级数据库中文字数据的完整性进行检测,具体方法包括:
获取二级数据库中文字数据的类型,建立对应类型的储存节点,将文字数据发送到对应的储存节点中;
根据储存节点对应的类型设置完整性模板,通过完整性模板对储存节点内的文字数据进行校核,获得具有标记的文字数据和索引项,并标记为缺项数据,将未标记的文字数据发送到三级数据库进行储存。
2.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,完整模块内设有复核模型,将缺项数据输入到复核模型中,获得完整数据和复核数据,将完整数据发送到三级数据库中进行储存,建立缺项库,将复核数据发送到缺项库进行储存。
3.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,设置完整性模板的方法包括:
根据储存节点对应的类型获取文字数据必要项目,建立匹配表,将必要项目输入到匹配表中作为索引项,匹配表用于根据索引项对文字数据进行匹配,获取索引项对应的文字内容,将没有匹配到的索引项和文字数据进行标记,将匹配表标记为完整性模板。
4.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,所述一级数据库、二级数据库和三级数据库内均设有比对单元,通过比对单元对各自储存的文字数据进行比对,删除重复的文字数据。
5.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,数据查重模块的工作方法包括:
设置文字数据采集间隔时间T,每隔时间T采集一次文字数据,将采集的文字数据进行相互比较,将完全相同的文字数据标记为重复数据,获取重复数据的更新时间,将距离当前最近的一个重复数据发送到一级数据库进行保存,将其余的重复数据进行删除;
将非重复数据标记为一级待存数据,将一级待存数据与一级数据库中的文字数据进行比较;
当一级待存数据中具有与一级数据库中相同的文字数据时,将一级待存数据中的重复数据进行删除,将剩余的一级待存数据发送到一级数据库进行保存;
当一级待存数据中没有与一级数据库中相同的文字数据时,将一级待存数据发送到一级数据库进行保存。
6.根据权利要求5所述的基于数据仓库的医疗数据整合系统,其特征在于,设置文字数据采集间隔时间T的方法包括:
获取采集一次文字数据的数量N,将文字数据标记为i,获取每个文字数据的处理时间Pi以及平均处理时间Ps,进而获得时间稳值
Figure FDA0003273232550000021
根据公式L=lne(Ps+α)×n获得批次时间L;
设置超量值V,实时获取一级数据库中的文字数据数量Z,当Z≤V时,T=L;当Z>V时,停止数据采集。
7.根据权利要求1所述的基于数据仓库的医疗数据整合系统,其特征在于,校核模块的工作方法包括:
提取一级数据库内文字数据中的关键词,将同一个文字数据中的关键词整合标记为关键词条,将所有的关键词条进行比对,获取重合率Y,设置重合概率线H;
将Y<H对应的文字数据发送到二级数据库中进行储存;
将Y≥H对应的所有文字数据和关键词条整合标记为校核输入数据,建立校核模型,将校核输入数据输入到校核模型中,获得重合数据,获取重合数据的更新时间,将距离当前最近的一个重合数据发送到二级数据库进行保存,将其余的重合数据进行删除;并将非重合数据发送到二级数据库中进行储存。
8.根据权利要求1-7任一项所述的基于数据仓库的医疗数据整合系统的整合方法,其特征在于,具体方法包括:
步骤一:查找储存模块内完全重复的文字数据,将非重复数据发送到一级数据库;
步骤二:对一级数据库内的文字数据进行校核,将非重合数据发送到二级数据库中进行储存;
步骤三:对二级数据库中文字数据的完整性进行检测,将完整数据发送到三级数据库中进行储存。
CN202111108050.8A 2021-09-22 2021-09-22 基于数据仓库的医疗数据整合方法及系统 Pending CN113961549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111108050.8A CN113961549A (zh) 2021-09-22 2021-09-22 基于数据仓库的医疗数据整合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111108050.8A CN113961549A (zh) 2021-09-22 2021-09-22 基于数据仓库的医疗数据整合方法及系统

Publications (1)

Publication Number Publication Date
CN113961549A true CN113961549A (zh) 2022-01-21

Family

ID=79461873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111108050.8A Pending CN113961549A (zh) 2021-09-22 2021-09-22 基于数据仓库的医疗数据整合方法及系统

Country Status (1)

Country Link
CN (1) CN113961549A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115248578A (zh) * 2022-09-22 2022-10-28 南京旭上数控技术有限公司 一种工业设备数据采集方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2407168A1 (en) * 2001-10-10 2003-04-10 Siemens Medical Solutions Health Services Corporation A system and method for use in providing a healthcare information database
ATE246428T1 (de) * 1994-10-28 2003-08-15 United Video Properties Inc Verfahren und vorrichtung zum überprüfen einer elektronischen fernsehprogrammübersicht
US20070038913A1 (en) * 2005-07-26 2007-02-15 International Business Machines Corporation Method and apparatus for the reliability of host data stored on fibre channel attached storage subsystems
US20090234892A1 (en) * 2008-03-14 2009-09-17 International Business Machines Corporation Method and system for assuring integrity of deduplicated data
CN104732078A (zh) * 2015-03-13 2015-06-24 河南群智信息技术有限公司 基于云平台的医疗信息分级存储方法
CN105630834A (zh) * 2014-11-07 2016-06-01 中兴通讯股份有限公司 一种实现重复数据删除的方法及装置
CN105868305A (zh) * 2016-03-25 2016-08-17 西安电子科技大学 一种支持模糊匹配的云存储数据去重复方法
CN109189846A (zh) * 2018-09-11 2019-01-11 北京易华录信息技术股份有限公司 一种基于大数据技术的公安交管可视化建模系统及方法
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN110968452A (zh) * 2019-11-20 2020-04-07 华北电力大学(保定) 一种智能电网云存储中可安全去重的数据完整性验证方法
CN112528289A (zh) * 2020-12-02 2021-03-19 国家工业信息安全发展研究中心 一种基于工业信息安全的漏洞处理方法、系统及装置
WO2021109850A1 (zh) * 2019-12-03 2021-06-10 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统
CN113192579A (zh) * 2021-05-06 2021-07-30 黑河学院 一种基于云计算的医疗数据的处理方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE246428T1 (de) * 1994-10-28 2003-08-15 United Video Properties Inc Verfahren und vorrichtung zum überprüfen einer elektronischen fernsehprogrammübersicht
CA2407168A1 (en) * 2001-10-10 2003-04-10 Siemens Medical Solutions Health Services Corporation A system and method for use in providing a healthcare information database
US20070038913A1 (en) * 2005-07-26 2007-02-15 International Business Machines Corporation Method and apparatus for the reliability of host data stored on fibre channel attached storage subsystems
US20090234892A1 (en) * 2008-03-14 2009-09-17 International Business Machines Corporation Method and system for assuring integrity of deduplicated data
CN105630834A (zh) * 2014-11-07 2016-06-01 中兴通讯股份有限公司 一种实现重复数据删除的方法及装置
CN104732078A (zh) * 2015-03-13 2015-06-24 河南群智信息技术有限公司 基于云平台的医疗信息分级存储方法
CN105868305A (zh) * 2016-03-25 2016-08-17 西安电子科技大学 一种支持模糊匹配的云存储数据去重复方法
CN109189846A (zh) * 2018-09-11 2019-01-11 北京易华录信息技术股份有限公司 一种基于大数据技术的公安交管可视化建模系统及方法
CN109522746A (zh) * 2018-11-07 2019-03-26 平安医疗健康管理股份有限公司 一种数据处理方法、电子设备及计算机存储介质
CN110968452A (zh) * 2019-11-20 2020-04-07 华北电力大学(保定) 一种智能电网云存储中可安全去重的数据完整性验证方法
WO2021109850A1 (zh) * 2019-12-03 2021-06-10 世强先进(深圳)科技股份有限公司 一种pdf文件去重存储方法及系统
CN112528289A (zh) * 2020-12-02 2021-03-19 国家工业信息安全发展研究中心 一种基于工业信息安全的漏洞处理方法、系统及装置
CN113192579A (zh) * 2021-05-06 2021-07-30 黑河学院 一种基于云计算的医疗数据的处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115248578A (zh) * 2022-09-22 2022-10-28 南京旭上数控技术有限公司 一种工业设备数据采集方法

Similar Documents

Publication Publication Date Title
US10818397B2 (en) Clinical content analytics engine
CN106933983B (zh) 一种中医药知识图谱的构建方法
CN102314519B (zh) 一种基于公安领域知识本体模型的信息搜索方法
GB2293667A (en) Database management system
CN109800349A (zh) 基于用户发布内容量化新闻价值的数据处理方法和装置
CN106021545A (zh) 用于车辆远程诊断与备件检索的方法
CN111159763B (zh) 一种涉法人员群体画像分析系统及方法
CN115309734A (zh) 一种变电站多源异构数据处理方法
CN113641659A (zh) 医疗特征数据库构建方法、装置、设备及存储介质
CN113961549A (zh) 基于数据仓库的医疗数据整合方法及系统
CN112363996B (zh) 用于建立电网知识图谱的物理模型的方法及系统和介质
CN112131392A (zh) 基于知识图谱的公共卫生疫情预警方法及系统
CN112786124A (zh) 一种问题排查方法、装置、存储介质及设备
CN115510289B (zh) 一种数据立方体配置方法、装置、电子设备及存储介质
CN110442729A (zh) 一种基于粗燥集的语料库系统构建方法
CN114610748B (zh) 基于人工智能的医疗疾病数据的安全快速精准有效管理系统及应用
CN115719289A (zh) 一种房屋数据的处理方法、装置、设备及介质
CN106503125B (zh) 一种数据源扩展方法及装置
CN115274121A (zh) 健康医疗数据的管理方法、系统、电子设备及存储介质
CN114579692A (zh) 诈骗数据深度分析方法及系统
CN112883004A (zh) 一种基于日志聚合的日志知识库与健康度获取方法及系统
CN116049700B (zh) 基于多模态的运检班组画像生成方法及装置
CN110675927A (zh) 一种基于大数据的病情检索方法
CN114398392B (zh) 基于工艺公差库的产品数据调取控制系统及方法
CN116313019B (zh) 一种基于人工智能的医疗护理数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination