CN116775973A - 一种医疗大数据采集的方法及系统 - Google Patents

一种医疗大数据采集的方法及系统 Download PDF

Info

Publication number
CN116775973A
CN116775973A CN202210234938.4A CN202210234938A CN116775973A CN 116775973 A CN116775973 A CN 116775973A CN 202210234938 A CN202210234938 A CN 202210234938A CN 116775973 A CN116775973 A CN 116775973A
Authority
CN
China
Prior art keywords
data
module
medical
database
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210234938.4A
Other languages
English (en)
Inventor
杨晨
王猛
丁海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Baden Medical Co ltd
Original Assignee
Nanjing Baden Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Baden Medical Co ltd filed Critical Nanjing Baden Medical Co ltd
Priority to CN202210234938.4A priority Critical patent/CN116775973A/zh
Publication of CN116775973A publication Critical patent/CN116775973A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明及医疗数据采集技术领域,具体公开了一种医疗大数据采集的方法及系统,所述采集方法包括如下步骤:S1、确定待采集数据网站的具体网址;S2、通过网页爬虫模块对于网址中的数据进行采集;S3、将步骤S2中所采集的数据利用网页解析模块进行采解析处理;S4、将步骤S3中解析后的数据利用过滤模块进行过滤处理;S5、将步骤S4中过滤后的数据进行存储在数据库中;所述采集系统中提供不同的功能模块来满足采集方法使用,完成整个医疗数据的采集;本发明所提供的采集方法以及系统,通过利用爬虫技术对于网页信息进行采集,简化了工作人员数据录入的工作,有效提高了工作人员录入数据的工作效率;相较于传统数据采集方法,耗时更短、效率更高。

Description

一种医疗大数据采集的方法及系统
技术领域
本发明及医疗数据采集技术领域,具体为一种医疗大数据采集的方法及系统。
背景技术
随着社会和信息技术的快速发展,现代化的医院管理越来越离不开计算机、网络、数据库等信息技术的支持。
每个地区以及每个时间内,医院中都会有很多的就诊患者,他们进行着各项体检,医生针对性的开具各种不同剂量的药品,记录患者不同时间段的身体状况,这些临床就诊参数在现实中并未得到统一的挖掘、收集、存储和利用,未形成一个统一的系统针对性的进行数据的利用;现有大多数据填报平台均由医生或医助手动填写。这种方式即不能保证上报数据的正确性,也给医院增加了经费支出和额外工作负担。
发明内容
本发明的目的在于提供一种医疗大数据采集的方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种医疗大数据采集的方法,包括如下步骤:
S1、确定待采集数据网站的具体网址;
S2、通过网页爬虫模块对于网址中的数据进行采集;
S3、将步骤S2中所采集的数据利用网页解析模块进行采解析处理;
S4、将步骤S3中解析后的数据利用过滤模块进行过滤处理;
S5、将步骤S4中过滤后的数据进行存储在数据库中。
优选的,所述步骤S1中,提供医疗数据的网站为医院的内网,所采集的数据具体包括但不限于临床医疗数据、电子病历数据、医药存储数据。
优选的,所述步骤S2中,网页爬虫模块设置为定期对数据进行采集或者手动启动进行采集工作。
优选的,所述步骤S3中,网页解析模块对采集到的数据判断数据来源特征以及数据种类,并解析其数据格式、存储格式、数据字段、更新机制、信息维度、数据质量,以准确读取数据内容。
优选的,所述步骤S4中,过滤模块将数据中去除无关医疗的以及重复的数据,形成清洁的存储数据。
所述步骤S5中,数据库对于数据按照步骤S中的数据来源进行分类存储,且数据库设置有云端同步单元,数据在云端服务器中进行同步。
优选的,本发明还提供了一种医疗大数据采集系统,包括用于调整系统工作的数据处理中心、用于与医院内网建立连接的web模块、用于实现网页页面信息获取的网页爬虫模块、用于对获取的信息进行解析的网页解析模块、用于对数据进行过滤处理的过滤模块以及用于数据存储的数据库,所述数据处理中心与web模块、网页爬虫模块、网页解析模块、过滤模块、数据库电性连接。
优选的,所述数据库设置有云端同步单元,在数据库发生数据变化后,对于数据变化内容在云端服务器中进行同步。
优选的,所述数据处理中心连接有移动终端,所述移动终端为台式计算机、笔记本电脑、平板电脑、智能手机中的任意一种,所述移动终端与数据处理中心通过网络通信进行连接。
与现有技术相比,本发明的有益效果是:本发明所提供的采集方法以及系统,通过利用爬虫技术对于网页信息进行采集,简化了工作人员数据录入的工作,有效提高了工作人员录入数据的工作效率;相较于传统数据采集方法,耗时更短、效率更高。
附图说明
图1为本发明的流程示意图;
图2为本发明的结构示意图;
图中标号:1、数据处理中心;2、web模块;3、网页爬虫模块;4、网页解析模块;5、过滤模块;6、数据库;7、云端同步单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种医疗大数据采集的方法,包括如下步骤:
S1、确定待采集数据网站的具体网址;
S2、通过网页爬虫模块3对于网址中的数据进行采集;
S3、将步骤S2中所采集的数据利用网页解析模块4进行采解析处理;
S4、将步骤S3中解析后的数据利用过滤模块5进行过滤处理;
S5、将步骤S4中过滤后的数据进行存储在数据库6中。
进一步的,所述步骤S1中,提供医疗数据的网站为医院的内网,所采集的数据具体包括但不限于临床医疗数据、电子病历数据、医药存储数据。
进一步的,所述步骤S2中,网页爬虫模块3设置为定期对数据进行采集或者手动启动进行采集工作。
进一步的,所述步骤S3中,网页解析模块4对采集到的数据判断数据来源特征以及数据种类,并解析其数据格式、存储格式、数据字段、更新机制、信息维度、数据质量,以准确读取数据内容。
进一步的,所述步骤S4中,过滤模块5将数据中去除无关医疗的以及重复的数据,形成清洁的存储数据。
进一步的,所述步骤S5中,数据库6对于数据按照步骤S1中的数据来源进行分类存储,且数据库6设置有云端同步单元7,数据在云端服务器中进行同步。
进一步的,本发明还提供了一种医疗大数据采集系统,包括用于调整系统工作的数据处理中心1、用于与医院内网建立连接的web模块2、用于实现网页页面信息获取的网页爬虫模块3、用于对获取的信息进行解析的网页解析模块4、用于对数据进行过滤处理的过滤模块5以及用于数据存储的数据库6,所述数据处理中心1与web模块2、网页爬虫模块3、网页解析模块4、过滤模块5、数据库6电性连接。
进一步的,所述数据库6设置有云端同步单元7,在数据库6发生数据变化后,对于数据变化内容在云端服务器中进行同步。
进一步的,所述数据处理中心1连接有移动终端,所述移动终端为台式计算机、笔记本电脑、平板电脑、智能手机中的任意一种,所述移动终端与数据处理中心1通过网络通信进行连接。
工作原理:实际使用过程中,数据处理中心1通过web模块2与医院的内网建立数据连接,从而便于网页爬虫模块3对于网址中的数据进行采集,获取临床医疗数据、电子病历数据、医药存储数据。网页解析模块4对采集到的数据判断数据来源特征以及数据种类,并解析其数据格式、存储格式、数据字段、更新机制、信息维度、数据质量,以准确读取数据内容,之后再通过过滤模块5将数据中去除无关医疗的以及重复的数据,形成清洁的存储数据,最终存储数据在数据库6中进行存储,且存储按照步骤S1中的数据来源进行分类;数据库6借用云端同步单元7来实现数据在云端服务器的同步,保证数据的安全性,同时方便远程调阅存储的数据。
数据处理中心1连接有移动终端,移动终端通过向数据处理中心1发送指令来实现调控系统的工作;可以主动通过移动终端来使网页爬虫模块3启动进行采集工作,同时网页爬虫模块3也定期对数据进行采集。移动终端在实际应用中,可以是任何与系统建立连接的智能设备,也可以设置多个,以供不同的使用者使用。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种医疗大数据采集的方法,其特征在于:包括如下步骤:
S1、确定待采集数据网站的具体网址;
S2、通过网页爬虫模块(3)对于网址中的数据进行采集;
S3、将步骤S2中所采集的数据利用网页解析模块(4)进行采解析处理;
S4、将步骤S3中解析后的数据利用过滤模块(5)进行过滤处理;
S5、将步骤S4中过滤后的数据进行存储在数据库(6)中。
2.根据权利要求1所述的一种医疗大数据采集的方法,其特征在于:所述步骤S1中,提供医疗数据的网站为医院的内网,所采集的数据具体包括但不限于临床医疗数据、电子病历数据、医药存储数据。
3.根据权利要求1所述的一种医疗大数据采集的方法,其特征在于:所述步骤S2中,网页爬虫模块(3)设置为定期对数据进行采集或者手动启动进行采集工作。
4.根据权利要求1所述的一种医疗大数据采集的方法,其特征在于:所述步骤S3中,网页解析模块(4)对采集到的数据判断数据来源特征以及数据种类,并解析其数据格式、存储格式、数据字段、更新机制、信息维度、数据质量,以准确读取数据内容。
5.根据权利要求1所述的一种医疗大数据采集的方法,其特征在于:所述步骤S4中,过滤模块(5)将数据中去除无关医疗的以及重复的数据,形成清洁的存储数据。
6.根据权利要求1所述的一种医疗大数据采集的方法,其特征在于:所述步骤S5中,数据库(6)对于数据按照步骤S1中的数据来源进行分类存储,且数据库(6)设置有云端同步单元(7),数据在云端服务器中进行同步。
7.一种医疗大数据采集系统,其特征在于:包括用于调整系统工作的数据处理中心(1)、用于与医院内网建立连接的web模块(2)、用于实现网页页面信息获取的网页爬虫模块(3)、用于对获取的信息进行解析的网页解析模块(4)、用于对数据进行过滤处理的过滤模块(5)以及用于数据存储的数据库(6),所述数据处理中心(1)与web模块(2)、网页爬虫模块(3)、网页解析模块(4)、过滤模块(5)、数据库(6)电性连接。
8.根据权利要求7所述的一种医疗大数据采集系统,其特征在于:所述数据库(6)设置有云端同步单元(7),在数据库(6)发生数据变化后,对于数据变化内容在云端服务器中进行同步。
9.根据权利要求7所述的一种医疗大数据采集系统,其特征在于:所述数据处理中心(1)连接有移动终端,所述移动终端为台式计算机、笔记本电脑、平板电脑、智能手机中的任意一种,所述移动终端与数据处理中心(1)通过网络通信进行连接。
CN202210234938.4A 2022-03-11 2022-03-11 一种医疗大数据采集的方法及系统 Pending CN116775973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210234938.4A CN116775973A (zh) 2022-03-11 2022-03-11 一种医疗大数据采集的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210234938.4A CN116775973A (zh) 2022-03-11 2022-03-11 一种医疗大数据采集的方法及系统

Publications (1)

Publication Number Publication Date
CN116775973A true CN116775973A (zh) 2023-09-19

Family

ID=87984751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210234938.4A Pending CN116775973A (zh) 2022-03-11 2022-03-11 一种医疗大数据采集的方法及系统

Country Status (1)

Country Link
CN (1) CN116775973A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150105A (zh) * 2023-10-27 2023-12-01 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150105A (zh) * 2023-10-27 2023-12-01 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台
CN117150105B (zh) * 2023-10-27 2023-12-26 四川银亿科技有限公司 一种基于网页的数据采集方法及采集平台

Similar Documents

Publication Publication Date Title
WO2018120669A1 (zh) 基于大数据关联存储的医疗数据查询系统及方法
US10373712B2 (en) Aggregation, partitioning, and management of healthcare data for efficient storage and processing
CN106933859B (zh) 一种医疗数据的迁移方法和装置
CN115497631A (zh) 一种临床科研大数据分析系统
CN116775973A (zh) 一种医疗大数据采集的方法及系统
CN114649074A (zh) 一种病历数据处理方法、平台和装置
CN106817262A (zh) 一种日志分析装置
CN117472682A (zh) 一种ftp持久化数据处理方法及系统
CN114360712A (zh) 医院就诊数据的监管方法及监管系统
Suguna et al. User interest level based preprocessing algorithms using web usage mining
CN115691773A (zh) 一种医院数据访问的方法、系统、存储介质及电子设备
CN111784284B (zh) 一种宫颈图像多人协同标记云服务系统及云服务方法
CN112800140A (zh) 一种基于区块链预言机的高可信数据获取方法
CN111143156A (zh) 大数据平台垃圾任务采集系统、方法及计算机系统
CN111403033A (zh) 一种基于智能终端的综合型健康数据采集分析系统
CN111259633A (zh) 一种将文档转化格式并自动建立数据库的系统
CN114582519B (zh) 一种基于多源数据的医院随访方法、装置及终端设备
US11508467B2 (en) Aggregation, partitioning, and management of healthcare data for efficient storage and processing
Zheng et al. Research on medical big data of health management platform based on Hadoop
CN110993115B (zh) 一种医疗数据异构融合治理的系统及方法
CN116844703A (zh) 一种基于人工智能的导诊方法及系统
CN115719627A (zh) 一种医疗健康档案采集系统及方法
CN113990416A (zh) 乳腺癌宫颈癌筛查及干预系统
CN115359863A (zh) 智能管理互联网平台、控制方法、构建方法、设备及终端
CN110910974A (zh) 一种医疗临床信息管理系统及其管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication