CN115631866B - 一种针对医疗大数据采集的快速精准去重方法 - Google Patents

一种针对医疗大数据采集的快速精准去重方法 Download PDF

Info

Publication number
CN115631866B
CN115631866B CN202211629155.2A CN202211629155A CN115631866B CN 115631866 B CN115631866 B CN 115631866B CN 202211629155 A CN202211629155 A CN 202211629155A CN 115631866 B CN115631866 B CN 115631866B
Authority
CN
China
Prior art keywords
medical data
rule
medical
records
deduplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211629155.2A
Other languages
English (en)
Other versions
CN115631866A (zh
Inventor
陈波
张晓宇
石丹杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Ruihua Kangyuan Technology Co ltd
Chengdu Ruihua Kangyuan Technology Co ltd
Original Assignee
Zhejiang Ruihua Kangyuan Technology Co ltd
Chengdu Ruihua Kangyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Ruihua Kangyuan Technology Co ltd, Chengdu Ruihua Kangyuan Technology Co ltd filed Critical Zhejiang Ruihua Kangyuan Technology Co ltd
Priority to CN202211629155.2A priority Critical patent/CN115631866B/zh
Publication of CN115631866A publication Critical patent/CN115631866A/zh
Application granted granted Critical
Publication of CN115631866B publication Critical patent/CN115631866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种针对医疗大数据采集的快速精准去重方法,属于数据处理技术领域,包括以下步骤:S1:采集医疗数据,并构建医疗数据表模型;S2:根据医疗数据表模型,配置医疗数据去重规则;S3:根据医疗数据去重规则,进行医疗数据去重;S4:对去重后的医疗数据进行索引入库。本发明的去重规则可配置化,可以灵活配置数据记录去重规则并且设定规则后实时生效,其去重效率高,维护好。

Description

一种针对医疗大数据采集的快速精准去重方法
技术领域
本发明属于数据处理技术领域,具体涉及一种针对医疗大数据采集的快速精准去重方法。
背景技术
在医疗信息系统集成时,往往因系统集成双方信息通讯、传输协议和数据标准等问题导致数据采集不全,需要重新采集某时间段数据。这往往会导致数据重复的问题。数据的重复和冗余会严重影响系统处理性能和数据的准确性。传统的数据去重方法将去重规则写死在程序中,无法灵活配置去重规则,并依托于记录关键字段数据库查重,在硬件资源受限情况下和数据量达到千万级别时,程序去重效率及其低下。
发明内容
本发明的目的是为了解决医疗数据采集过程中数据重复的问题,提出了一种针对医疗大数据采集的快速精准去重方法。
本发明的技术方案是:一种针对医疗大数据采集的快速精准去重方法包括以下步骤:
S1:采集医疗数据,并构建医疗数据表模型;
S2:根据医疗数据表模型,配置医疗数据去重规则;
S3:根据医疗数据去重规则,进行医疗数据去重;
S4:对去重后的医疗数据进行索引入库。
进一步地,步骤S1中,构建医疗数据表模型的具体方法为:根据医疗数据的字段确定医疗数据表结构,将医疗数据表结构发送至ES搜索服务器中,在ES搜索服务器中创建ESMapping,完成医疗数据表模型构建。
进一步地,步骤S2中,配置医疗数据去重规则的具体方法为:在医疗数据表模型确定若干个医疗数据字段,将若干个医疗数据字段组合,作为医疗数据去重规则,并发送至ES搜索服务器。
进一步地,步骤S3包括以下子步骤:
S31:将医疗数据去重规则发送至医疗数据表模型中,作为记录,根据医疗数据去重规则提取记录中的属性字段;
S32:根据记录中的属性字段,对医疗数据进行批次内去重,保留最新记录;
S33:根据医疗数据去重规则,对保留的最新记录进行批次间去重;
S34:对批次间去重后的记录进行再次去重。
进一步地,步骤S32中,对医疗数据进行批次内去重的具体方法为:根据记录中的属性字段,利用哈希算法判断同批次内医疗数据表模型的记录是否重复,若重复则保留业务时间最新的记录,将其余记录保存至重复记录文档中,完成对医疗数据的批次内去重。
进一步地,步骤S33中,对保留的最新记录进行批次间去重的具体方法为:将最新记录与未在ES搜索服务器中的其余批次记录进行对比,删除重复记录,完成对最新记录的批次间去重。
进一步地,步骤S34包括以下子步骤:
S341:配置ES连接,通过ES连接查询医疗数据去重规则;
S342:根据查询到的医疗数据去重规则构建ES查询;
S343:调用ES查询,并根据ES查询结果判断批次间去重后医疗数据中的记录是否存在重复,并删除重复的记录,完成对批次间去重后的医疗数据的再次去重。
进一步地,步骤S4中,对去重后的医疗数据进行索引入库的具体方法为:根据医疗数据表模型,在ES搜索器中构建模型文档,将去重后的医疗数据保存至ES搜索服务器中,完成医疗数据的索引入库。
本发明的有益效果是:
(1)本发明的去重规则可配置化,可以灵活配置数据记录去重规则并且设定规则后实时生效,其去重效率高,维护好;
(2)本发明使用ES搜索器,存储替换传统结构化数据库,利用ES 倒排索引,维护人员不用自己维护数据库索引,利用哈希算法保存记录去重字段,提高查重效率。
附图说明
图1为快速精准去重方法的流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的说明。
在描述本发明的具体实施例之前,为使本发明的方案更加清楚完整,首先对本发明中出现的缩略语和关键术语定义进行说明:
ES搜索服务器(Elasticsearch):ES搜索服务器是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎。
ES Mapping:非常类似于结构化数据库中的定义表结构和数据类型,相当于结构化数据库创建了一个tweet表,字段名为message,字段类型为varchar。
ES连接:如同mysql的connection连接,通过该连接来保存数据和查询数据。
如图1所示,本发明提供了一种针对医疗大数据采集的快速精准去重方法,包括以下步骤:
S1:采集医疗数据,并构建医疗数据表模型;
S2:根据医疗数据表模型,配置医疗数据去重规则;
S3:根据医疗数据去重规则,进行医疗数据去重;
S4:对去重后的医疗数据进行索引入库。
在本发明实施例中,步骤S1-S2均属于基于该方法的准备工作,准备好该工作才能进行数据精确去重判断。
在本发明实施例中,步骤S1中,构建医疗数据表模型类似于结构化数据库(比如MYSQL)的表模型创建,数据建模包含两个步骤,模型整理和在ES中创建表模型。构建医疗数据表模型的具体方法为:根据医疗数据的字段确定医疗数据表结构,将医疗数据表结构发送至ES搜索服务器中,在ES搜索服务器中创建ES Mapping,完成医疗数据表模型构建。
在本发明实施例中,步骤S2中,根据建立好的表模型结构,挑选一个字段或多个字段组合作为数据的去重规则(一般情况可以选择业务id作为去重字段,也可根据具体业务选择多个字段组合),发布到ES中保存以便去重校验时使用。配置医疗数据去重规则的具体方法为:在医疗数据表模型确定若干个医疗数据字段,将若干个医疗数据字段组合,作为医疗数据去重规则,并发送至ES搜索服务器。
在本发明实施例中,步骤S3包括以下子步骤:
S31:将医疗数据去重规则发送至医疗数据表模型中,作为记录,根据医疗数据去重规则提取记录中的属性字段;
S32:根据记录中的属性字段,对医疗数据进行批次内去重,保留最新记录;
S33:根据医疗数据去重规则,对保留的最新记录进行批次间去重;
S34:对批次间去重后的记录进行再次去重。
在本发明实施例中,步骤S32中,对医疗数据进行批次内去重的具体方法为:根据记录中的属性字段,利用哈希算法判断同批次内医疗数据表模型的记录是否重复,若重复则保留业务时间最新的记录,将其余记录保存至重复记录文档中,完成对医疗数据的批次内去重。
在本发明实施例中,步骤S33中,对保留的最新记录进行批次间去重的具体方法为:将最新记录与未在ES搜索服务器中的其余批次记录进行对比,删除重复记录,完成对最新记录的批次间去重。
在本发明实施例中,步骤S34包括以下子步骤:
S341:配置ES连接,通过ES连接查询医疗数据去重规则;
S342:根据查询到的医疗数据去重规则构建ES查询;
S343:调用ES查询,并根据ES查询结果判断批次间去重后医疗数据中的记录是否存在重复,并删除重复的记录,完成对批次间去重后的医疗数据的再次去重。
在本发明实施例中,步骤S4中,对去重后的医疗数据进行索引入库的具体方法为:根据医疗数据表模型,在ES搜索器中构建模型文档,将去重后的医疗数据保存至ES搜索服务器中,完成医疗数据的索引入库。
在本发明实施例中,正确数据保存入库,数据通过数据精确去重判断后,将保存入ES搜索器中,以便下一批次记录精确去重判断。根据记录所属的模型(表),创建独立的模型文档,方便文件归类,减少ES文件查询时间。 记录的保存需要根据数据校验规则构建好保存信息,记录全部保存,将导致文件过大,因此本发明中,根据配置的去重规则,提取关键属性(字段),并且对属性值进行哈希处理,一同存入ES搜索器中。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种针对医疗大数据采集的快速精准去重方法,其特征在于,包括以下步骤:
S1:采集医疗数据,并构建医疗数据表模型;
S2:根据医疗数据表模型,配置医疗数据去重规则;
S3:根据医疗数据去重规则,进行医疗数据去重;
S4:对去重后的医疗数据进行索引入库;
所述S3包括以下子步骤:
S31:将医疗数据去重规则发送至医疗数据表模型中,作为记录,根据医疗数据去重规则提取记录中的属性字段;
S32:根据记录中的属性字段,对医疗数据进行批次内去重,保留最新记录;
S33:根据医疗数据去重规则,对保留的最新记录进行批次间去重;
S34:对批次间去重后的记录进行再次去重;
所述S32中,对医疗数据进行批次内去重的具体方法为:根据记录中的属性字段,利用哈希算法判断同批次内医疗数据表模型的记录是否重复,若重复则保留业务时间最新的记录,将其余记录保存至重复记录文档中,完成对医疗数据的批次内去重;
所述S33中,对保留的最新记录进行批次间去重的具体方法为:将最新记录与未在ES搜索服务器中的其余批次记录进行对比,删除重复记录,完成对最新记录的批次间去重;
所述S34包括以下子步骤:
S341:配置ES连接,通过ES连接查询医疗数据去重规则;
S342:根据查询到的医疗数据去重规则构建ES查询;
S343:调用ES查询,并根据ES查询结果判断批次间去重后医疗数据中的记录是否存在重复,并删除重复的记录,完成对批次间去重后的医疗数据的再次去重。
2. 根据权利要求1所述的针对医疗大数据采集的快速精准去重方法,其特征在于,所述S1中,构建医疗数据表模型的具体方法为:根据医疗数据的字段确定医疗数据表结构,将医疗数据表结构发送至ES搜索服务器中,在ES搜索服务器中创建ES Mapping,完成医疗数据表模型构建。
3.根据权利要求1所述的针对医疗大数据采集的快速精准去重方法,其特征在于,所述S2中,配置医疗数据去重规则的具体方法为:在医疗数据表模型确定若干个医疗数据字段,将若干个医疗数据字段组合,作为医疗数据去重规则,并发送至ES搜索服务器。
4.根据权利要求1所述的针对医疗大数据采集的快速精准去重方法,其特征在于,所述S4中,对去重后的医疗数据进行索引入库的具体方法为:根据医疗数据表模型,在ES搜索器中构建模型文档,将去重后的医疗数据保存至ES搜索服务器中,完成医疗数据的索引入库。
CN202211629155.2A 2022-12-19 2022-12-19 一种针对医疗大数据采集的快速精准去重方法 Active CN115631866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211629155.2A CN115631866B (zh) 2022-12-19 2022-12-19 一种针对医疗大数据采集的快速精准去重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211629155.2A CN115631866B (zh) 2022-12-19 2022-12-19 一种针对医疗大数据采集的快速精准去重方法

Publications (2)

Publication Number Publication Date
CN115631866A CN115631866A (zh) 2023-01-20
CN115631866B true CN115631866B (zh) 2023-03-14

Family

ID=84910632

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211629155.2A Active CN115631866B (zh) 2022-12-19 2022-12-19 一种针对医疗大数据采集的快速精准去重方法

Country Status (1)

Country Link
CN (1) CN115631866B (zh)

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10289494B1 (en) * 2017-04-27 2019-05-14 EMC IP Holding Company LLC Smart connector for network data management protocol (NDMP) backups
CN107633096A (zh) * 2017-10-13 2018-01-26 四川长虹电器股份有限公司 数据实时写入去重处理方法
CN110196871B (zh) * 2019-03-07 2024-05-17 腾讯科技(深圳)有限公司 数据入库方法和系统
CN110569224A (zh) * 2019-08-16 2019-12-13 苏州浪潮智能科技有限公司 一种数据去重方法及装置
CN110727663A (zh) * 2019-09-09 2020-01-24 光通天下网络科技股份有限公司 数据清洗方法、装置、设备及介质
CN112100182A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 数据入库处理方法、装置和服务器
CN112463774B (zh) * 2020-10-23 2021-10-12 完美世界控股集团有限公司 文本数据的去重方法、设备及存储介质
CN112071432A (zh) * 2020-11-11 2020-12-11 上海森亿医疗科技有限公司 医疗数据的分析方法、系统、介质及装置
CN112463784A (zh) * 2020-12-10 2021-03-09 深圳前海微众银行股份有限公司 数据去重方法、装置、设备及计算机可读存储介质
CN113282623A (zh) * 2021-05-20 2021-08-20 浙江网商银行股份有限公司 数据处理方法及装置
CN113380416A (zh) * 2021-06-11 2021-09-10 山东健康医疗大数据有限公司 一种区域医疗数据快速检索方法
CN114064653A (zh) * 2021-11-18 2022-02-18 京东科技信息技术有限公司 数据的插入方法、装置、计算机设备和存储介质
CN114242262A (zh) * 2022-02-28 2022-03-25 台州市中心医院(台州学院附属医院) 一种基于大数据记录的医疗科研信息快速处理系统

Also Published As

Publication number Publication date
CN115631866A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN106227800B (zh) 一种高度关联大数据的存储方法及管理系统
CN109213756B (zh) 数据存储、检索方法、装置、服务器和存储介质
CN102426609B (zh) 一种基于MapReduce编程架构的索引生成方法和装置
US8924365B2 (en) System and method for range search over distributive storage systems
CN106815326B (zh) 一种检测无主键数据表一致性的系统及方法
CN109656958B (zh) 数据查询方法以及系统
CN113901279B (zh) 一种图数据库的检索方法和装置
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN102591864B (zh) 比对系统中的数据更新方法及装置
CN110929105B (zh) 一种基于大数据技术的用户id关联方法
CN109062936B (zh) 一种数据查询方法、计算机可读存储介质及终端设备
KR102038529B1 (ko) 인-메모리 데이터베이스의 실시간 데이터 변경 처리 시스템
CN110413631B (zh) 一种数据查询方法及装置
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
TW201514734A (zh) 資料庫管理方法、資料庫管理系統,以及資料庫樹狀結構
CN109189759A (zh) Kv存储系统中的数据读取方法、数据查询方法、装置及设备
CN103365987A (zh) 一种基于共享磁盘架构的集群数据库系统及数据处理方法
CN111125045B (zh) 一种轻量级etl处理平台
CN115631866B (zh) 一种针对医疗大数据采集的快速精准去重方法
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN115905313A (zh) 一种MySQL大表关联查询系统及方法
Bao et al. Query optimization of massive social network data based on hbase
CN112269807A (zh) 基于Elasticsearch技术的可配置信用档案检索方法及系统
CN110678854B (zh) 数据查询的方法和装置
CN112395292A (zh) 一种数据特征提取、匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant