CN113961634A - 职工健康数据采集方法 - Google Patents
职工健康数据采集方法 Download PDFInfo
- Publication number
- CN113961634A CN113961634A CN202111371021.0A CN202111371021A CN113961634A CN 113961634 A CN113961634 A CN 113961634A CN 202111371021 A CN202111371021 A CN 202111371021A CN 113961634 A CN113961634 A CN 113961634A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- analysis
- cloud platform
- management cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 238000007405 data analysis Methods 0.000 claims abstract description 14
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004141 dimensional analysis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007407 health benefit Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24564—Applying rules; Deductive queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
职工健康数据采集方法,涉及电子信息技术,尤其是一种多系统数据的采集方法。本发明的架构包括原始数据层、数据仓库服务层、数据分析服务层和管理云平台层四个层次,其中:原始数据层,用以采集数据;数据仓库服务层,用以对采集到的数据进行存储和计算,并将处理好的数据传输至数据分析层;数据分析服务层,用以分析职工健康数据,然后将分析结果传输至管理云平台层;管理云平台层,用以将分析结果进行业务功能的展示;其中原始数据层的采集依据标准化接口针对各数据采集设备研发数据转换程序进行数据的完整采集。通过本发明的方法,解决多系统数据多而杂,元数据管理缺失造成数据没办法进行后台数据库的精确采集的问题。
Description
技术领域
本发明涉及电子信息技术,尤其是一种多系统数据的采集方法。
背景技术
职工健康管理是通过对职工健康监测、健康评估、健康干预,更好的服务于员工的一种手段。通过健康管理,降低电力职工患病风险,减少医疗费用支出,并间接提高职工生产效率、降低因病对正常工作造成的损失,以及实现加强社保政策的贯彻,最大化的利用社保医疗数据价值,从职工身体健康利益出发的目的。
在实现职工健康管理的过程中,在大数据环境下,职工体检及门诊会产生大量的数据信息再加上社保基金余额数据,各种数据信息错综复杂,职工健康管理面临着新的挑战。职工健康数据采集是其中一个难度,当前职工健康数据主要存储于体检系统、社保系统、医院his系统。系统经过多年的运行,数据多而杂,元数据管理缺失造成数据没办法进行后台数据库的精确采集。如体检报告的读取与分析也是一个难点,该报告是非结构化数据是以描述性语言来表达的信息。其次健康分析模型的建立也是难点。
发明内容
针对健康数据采集的难点,本发明提出一种采集的方法,以解决多系统数据多而杂,元数据管理缺失造成数据没办法进行后台数据库的精确采集的问题。
职工健康数据采集方法,其特征在于该方法的架构包括原始数据层、数据仓库服务层、数据分析服务层和管理云平台层四个层次,其中:
原始数据层,用以采集数据;
数据仓库服务层,用以对采集到的数据进行存储和计算,并将处理好的数据传输至数据分析层;
数据分析服务层,用以分析职工健康数据,然后将分析结果传输至管理云平台层;
管理云平台层,用以将分析结果进行业务功能的展示;
其中原始数据层的采集依据标准化接口针对各数据采集设备研发数据转换程序进行数据的完整采集。
所述的原始数据层采集对象为体检报告,则采用的采集方式是通过运用自然语言处理技术,构建深度学习分析模型,进行文本挖掘,提取文本中的关键内容信息,并进行文本标签提取、标签扩展、内容抽取、内容分类、摘要生成等,实现深度语义分析来采集。
通过本发明的方法,解决多系统数据多而杂,元数据管理缺失造成数据没办法进行后台数据库的精确采集的问题,实现员工、人力资源部门和职工健康云平台的三方互动。它不仅能让每个员工方便、及时地了解自身的健康状况和潜在隐患、积极参与自身健康管理、采取行动改善健康,同时能协助人力资源部门对所有员工的健康状况进行总体评价和掌控,从而在更高层次上管理企业的人力资源。
附图说明
图1为本发明数据采集分析流程图。
具体实施方式
实施例1:职工健康数据采集方法,采用Spark系统与Hadoop模型进行结合,利用ETL技术、Spark内存计算框架和Spark SQL技术来处理体检、门诊及社保数据,在技术方案中融入OLAP技术,实现不同种类大数据的多维度分析,从不同的角度挖掘数据信息,为企业及员工做出合理提醒及建议、总体架构示意图如图1所示。
职工健康数据采集方法,架构包括原始数据层、数据仓库服务层、数据分析服务层和管理云平台层四个层次,其中:
原始数据层,用以采集数据,主要任务是从体检系统、HIS系统、社保系统中收集数据,通过数据中心获取数据传回职工健康管理云平台服务器。应用ETL技术实现数据的初步处理,将初步处理后的大数据信息输出至数据仓库服务层。
数据仓库服务层,用以对采集到的数据进行存储和计算,通过Hadoop平台将HDFS系统与Hive数据库结合,利用Spark系统中信息读写技术和计算算法对数据进行高效率地处理,之后将处理好的数据传输至数据分析层。
数据分析服务层,用以分析职工健康数据,是健康管理云平台中的重要部分,利用该技术能够融合多维数据建模与OLAP技术中的关联规则技术和What-if技术,进而实现职工健康大数据的多维分析,然后将分析结果传输至管理云平台层中实现健康分析、干预等功能。
管理云平台层,用以将分析结果进行业务功能的展示。
所述在原始数据层进行数据采集时,依据标准化接口针对各数据采集设备研发数据转换程序进行数据的完整采集。其中,对于体检报告的读取,平台组件包括OCR识别功能模块和NLP文本处理功能模块,对体检报告、体检信息表格等信息进行结构化解析;通过运用自然语言处理技术,构建深度学习分析模型,进行文本挖掘,提取文本中的关键内容信息,并进行文本标签提取、标签扩展、内容抽取、内容分类、摘要生成等,实现深度语义分析。OCR识别功能模块支持业务流程自动化处理中的影像文件,如图片、扫描件的识别处理,支持业务场景下多种类型表格识别,包括无边框表格。支持OCR定制开发能力,能提供定制化的OCR识别处理功能模块。NLP文本处理功能模块支持业务流程自动化处理中的智能文本处理,包括对非结构化文档实现智能文本抽取功能,支持扫描件、PDF、WORD、TXT、EXCEL等多种文件类型。系统需具备非结构化文本的文本抽取模型定制开发能力,能够为业务场景需求开发训练的相应的文本抽取算法模型。
Claims (2)
1.职工健康数据采集方法,其特征在于该方法的架构包括原始数据层、数据仓库服务层、数据分析服务层和管理云平台层四个层次,其中:原始数据层,用以采集数据;数据仓库服务层,用以对采集到的数据进行存储和计算,并将处理好的数据传输至数据分析层;数据分析服务层,用以分析职工健康数据,然后将分析结果传输至管理云平台层;管理云平台层,用以将分析结果进行业务功能的展示;其中原始数据层的采集依据标准化接口针对各数据采集设备研发数据转换程序进行数据的完整采集。
2.如权利要求1所述的职工健康数据采集方法,其特征在于所述的原始数据层采集对象为体检报告,则采用的采集方式是通过运用自然语言处理技术,构建深度学习分析模型,进行文本挖掘,提取文本中的关键内容信息,并进行文本标签提取、标签扩展、内容抽取、内容分类、摘要生成等,实现深度语义分析来采集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371021.0A CN113961634A (zh) | 2021-11-18 | 2021-11-18 | 职工健康数据采集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111371021.0A CN113961634A (zh) | 2021-11-18 | 2021-11-18 | 职工健康数据采集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113961634A true CN113961634A (zh) | 2022-01-21 |
Family
ID=79471238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111371021.0A Pending CN113961634A (zh) | 2021-11-18 | 2021-11-18 | 职工健康数据采集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113961634A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605911A (zh) * | 2013-12-11 | 2014-02-26 | 东南大学 | 一种基于物联网的社区智能医护系统控制方法 |
CN103984702A (zh) * | 2014-04-21 | 2014-08-13 | 浪潮通用软件有限公司 | 一种基于xbrl报告数据搭建商业智能行业分析云的系统及方法 |
CN104956391A (zh) * | 2012-09-13 | 2015-09-30 | 帕克兰临床创新中心 | 临床仪表板用户界面系统和方法 |
CN106779485A (zh) * | 2017-01-17 | 2017-05-31 | 武汉阳光荣信息智慧科技有限公司 | 基于soa架构的综合管理系统及数据处理方法 |
CN107247863A (zh) * | 2017-04-18 | 2017-10-13 | 北京水母科技有限公司 | 整合高通量基因分型与临床医学信息的生物医学本体集成方法 |
CN109697602A (zh) * | 2018-12-26 | 2019-04-30 | 交通运输部水运科学研究所 | 一种用于规费征稽的数据处理系统 |
CN109800999A (zh) * | 2019-02-01 | 2019-05-24 | 苏州链读文化传媒有限公司 | 基于大数据分析的人才综合素质平台 |
CN111037584A (zh) * | 2020-01-08 | 2020-04-21 | 河南省中医院(河南中医药大学第二附属医院) | 一种医学影像机器人及其控制方法 |
CN111292821A (zh) * | 2020-01-21 | 2020-06-16 | 上海联影智能医疗科技有限公司 | 一种医学诊疗系统 |
CN112349404A (zh) * | 2020-11-03 | 2021-02-09 | 中国人民解放军总医院 | 基于云-边-端架构的多中心医疗设备大数据云平台 |
CN113362960A (zh) * | 2021-07-02 | 2021-09-07 | 西南科技大学 | 结合多源数据的城市居民公共健康影响因素可视分析系统及方法 |
CN113362949A (zh) * | 2021-06-04 | 2021-09-07 | 贵州电网有限责任公司 | 基于大数据的企业职工健康管理云平台 |
-
2021
- 2021-11-18 CN CN202111371021.0A patent/CN113961634A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104956391A (zh) * | 2012-09-13 | 2015-09-30 | 帕克兰临床创新中心 | 临床仪表板用户界面系统和方法 |
CN103605911A (zh) * | 2013-12-11 | 2014-02-26 | 东南大学 | 一种基于物联网的社区智能医护系统控制方法 |
CN103984702A (zh) * | 2014-04-21 | 2014-08-13 | 浪潮通用软件有限公司 | 一种基于xbrl报告数据搭建商业智能行业分析云的系统及方法 |
CN106779485A (zh) * | 2017-01-17 | 2017-05-31 | 武汉阳光荣信息智慧科技有限公司 | 基于soa架构的综合管理系统及数据处理方法 |
CN107247863A (zh) * | 2017-04-18 | 2017-10-13 | 北京水母科技有限公司 | 整合高通量基因分型与临床医学信息的生物医学本体集成方法 |
CN109697602A (zh) * | 2018-12-26 | 2019-04-30 | 交通运输部水运科学研究所 | 一种用于规费征稽的数据处理系统 |
CN109800999A (zh) * | 2019-02-01 | 2019-05-24 | 苏州链读文化传媒有限公司 | 基于大数据分析的人才综合素质平台 |
CN111037584A (zh) * | 2020-01-08 | 2020-04-21 | 河南省中医院(河南中医药大学第二附属医院) | 一种医学影像机器人及其控制方法 |
CN111292821A (zh) * | 2020-01-21 | 2020-06-16 | 上海联影智能医疗科技有限公司 | 一种医学诊疗系统 |
CN112349404A (zh) * | 2020-11-03 | 2021-02-09 | 中国人民解放军总医院 | 基于云-边-端架构的多中心医疗设备大数据云平台 |
CN113362949A (zh) * | 2021-06-04 | 2021-09-07 | 贵州电网有限责任公司 | 基于大数据的企业职工健康管理云平台 |
CN113362960A (zh) * | 2021-07-02 | 2021-09-07 | 西南科技大学 | 结合多源数据的城市居民公共健康影响因素可视分析系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708773B (zh) | 一种多源科创资源数据融合方法 | |
CN109785927A (zh) | 基于互联网一体化医疗平台的临床文档结构化处理方法 | |
CN104572615A (zh) | 案件在线侦查处理方法及其系统 | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及系统 | |
CN112349369A (zh) | 医疗影像大数据智能分析方法、系统及存储介质 | |
CN110109908B (zh) | 基于社会基础信息挖掘人物潜在关系的分析系统及方法 | |
US10331790B1 (en) | System and method for actionizing comments | |
CN110544035A (zh) | 一种内控检测方法、系统和计算机可读存储介质 | |
CN107679977A (zh) | 一种基于语义分析的税务管理平台及实现方法 | |
Keenan et al. | A shovel‐ready solution to fill the nursing data gap in the interdisciplinary clinical picture | |
CN114579653A (zh) | 基于数据集的cda文档生成方法、装置及电子设备 | |
CN108830735B (zh) | 一种线上人际关系分析方法与系统 | |
CN111984797A (zh) | 客户身份识别装置及方法 | |
Yusifov | Using public registers for development of electronic demography system: The case of Azerbaijan | |
CN113961634A (zh) | 职工健康数据采集方法 | |
Li | [Retracted] Application of Intelligent Archives Management Based on Data Mining in Hospital Archives Management | |
Kumar et al. | Analysis of Business Intelligence in Healthcare Using Machine Learning | |
Su et al. | [Retracted] Design and Application of Intelligent Management Platform Based on Big Data | |
CN112241428A (zh) | 一种数字化决策方法及系统 | |
CN112966024A (zh) | 一种基于大数据的金融风控数据分析系统 | |
JP6745686B2 (ja) | 名寄せ処理方法 | |
CN112241446A (zh) | 一种大数据下基于学生画像的精准资助系统 | |
Liu et al. | Automotive prospective technology mining method based on big data content analysis | |
Chen et al. | Research and Design of Knowledge System Construction System Based on Natural Language Processing | |
Zhu | Research on Data Preprocessing in Exam Analysis System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |