CN117352188B - 一种基于大数据分析的临床信息共享方法及系统 - Google Patents

一种基于大数据分析的临床信息共享方法及系统 Download PDF

Info

Publication number
CN117352188B
CN117352188B CN202311660298.4A CN202311660298A CN117352188B CN 117352188 B CN117352188 B CN 117352188B CN 202311660298 A CN202311660298 A CN 202311660298A CN 117352188 B CN117352188 B CN 117352188B
Authority
CN
China
Prior art keywords
data
clinical
clinical data
information
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311660298.4A
Other languages
English (en)
Other versions
CN117352188A (zh
Inventor
陈筱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongxing Zhengyuan Technology Co ltd
Original Assignee
Beijing Zhongxing Zhengyuan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongxing Zhengyuan Technology Co ltd filed Critical Beijing Zhongxing Zhengyuan Technology Co ltd
Priority to CN202311660298.4A priority Critical patent/CN117352188B/zh
Publication of CN117352188A publication Critical patent/CN117352188A/zh
Application granted granted Critical
Publication of CN117352188B publication Critical patent/CN117352188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Public Health (AREA)
  • Computer Security & Cryptography (AREA)
  • Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于大数据分析的临床信息共享方法及系统,方法包括:临床数据采集、临床数据查询、临床数据挖掘、临床数据隐私保护和临床数据可视化。本发明属于医疗信息技术领域,具体是指一种基于大数据分析的临床信息共享方法及系统,本方案采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池进行快速匹配;构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则;使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护。

Description

一种基于大数据分析的临床信息共享方法及系统
技术领域
本发明属于医疗信息技术领域,具体是一种基于大数据分析的临床信息共享方法及系统。
背景技术
临床信息共享是一种利用现代信息技术和分析方法来整合、分析和共享临床医疗数据的方式,通过整合来自不同医疗机构和临床实践的数据进行集成和分享,为医生、研究人员和决策者提供更全面、准确的临床信息,从而改善医疗决策。但是现有的临床信息共享,存在查询临床数据次数过多导致数据服务受限,消耗大量服务器资源和带宽,增加临床数据泄露风险的技术问题;存在临床数据复杂,难以获得有价值的信息和知识,导致治疗方案选择不当的技术问题;存在计算机网络缺少合理的使用管理和网络安全防范措施,容易导致患者隐私数据泄露和未经授权访问的技术问题。
发明内容
针对上述情况,为克服现有技术的缺陷,本发明提供了一种基于大数据分析的临床信息共享方法及系统,针对存在查询临床数据次数过多导致数据服务受限,消耗大量服务器资源和带宽,增加临床数据泄露风险的技术问题,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果;针对临床数据复杂,难以获得有价值的信息和知识,导致治疗方案选择不当的技术问题,采用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对临床数据挖掘模型进行验证和优化;针对存在计算机网络缺少合理的使用管理和网络安全防范措施,容易导致患者隐私数据泄露和未经授权访问的技术问题,采用数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护。
本发明采取的技术方案如下:本发明提供的一种基于大数据分析的临床信息共享方法,该方法包括以下步骤:
步骤S1:临床数据采集,引入自动化抓取技术提取临床数据,进行清洗与整合,并进行自动化质量控制;
步骤S2:临床数据查询,具体为采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果;
步骤S3:临床数据挖掘,具体为使用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对数据挖掘模型进行验证和优化;
步骤S4:临床数据隐私保护,具体为进行数据脱敏处理,并用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
步骤S5:临床数据可视化,具体为使用交互式可视化工具将临床医疗数据进行动态分析,并根据分析结果进行决策支持与优化。
进一步地,在步骤S1中,所述临床数据采集,包括以下步骤:
步骤S11:临床数据提取,引入自动化抓取技术,通过API接口自动从医院各个系统中提取临床数据;
步骤S12:数据预处理,对提取的临床数据进行数据清洗,包括去除重复数据、修正错误数据和填充缺失数据,得到预处理后的临床数据;
步骤S13:数据整合与集成,将预处理后的临床数据进行整合与集成,将不同来源和格式的数据进行映射和匹配,使临床数据可以在统一的数据存储中被查询和访问;
步骤S14:自动化质量控制,引入自动化的质量控制手段,对数据提取、清洗和整合过程进行监控和反馈,及时发现和纠正潜在问题,提高数据的准确性和一致性。
进一步地,在步骤S2中,所述临床数据查询,包括以下步骤:
步骤S21:基于分布式数据库进行信息实时查询,建立临床数据实时查询模型,临床数据实时查询模型包括存储用户输入的信息关键词、从分布式数据库查询信息关键词和分布式数据库查询信息内容;
步骤S22:实时信息分类,根据临床数据实时查询模型,构建实时信息分类模型;
步骤S23:构建分布式多元哈希算法模型,根据临床数据实时查询模型和实时信息分类模型,判断所查询的数据能否查询两次,若第一次判断结果的信息查询类型为可以进行第二次查询,将分布式数据库中的数据按照信息关键词进行排列,遇到第二个信息关键词查询的数据时,将数据顺时针排列并记录信息关键词的哈希值为1,形成信息查询池;如果第一次判断结果的信息查询类型为无法进行第二次查询,则将该信息关键词从信息查询池中删除;
步骤S24:异常信息处理,根据分布式多元哈希算法模型和实时信息分类模型,当查询关键字进入分布式多元哈希算法模型时,直接根据关键字读取哈希环上面的数据,对现有的分布式数据库架构进行改进,增加对异常信息查询池的处理机制,防止信息查询带来的数据安全问题。
进一步地,在步骤S3中,所述临床数据挖掘,包括以下步骤:
步骤S31:特征选择,进行包裹式特征选择,从特征集合中不断的筛选特征子集,训练学习器,根据学习器性能对特征子集进行评价,直至筛选出最具代表性的特征子集,减少数据维度,提高模型的计算效率和准确性;
步骤S32:构建临床数据挖掘模型,对预处理后的临床数据进行算法的应用和训练,所述数据挖掘算法包括以下步骤:
步骤S321:假设最小支持系数和信任变量是相关函数,对临床数据进行整体分类,定义数据库中两个事件之间的距离,所用公式如下:
式中,D(I1,I2)是临床医学数据库中两个事件之间的距离,P是事件发生的概率,当事件I1和事件I2同时产生时,D(I1,I2)值为0;
步骤S322:利用聚类算法对临床医学数据库进行分类,根据框架系数评估算法的函数,定义框架系数,所用公式如下:
式中,β(i)是框架系数,ai表示样本参数和其他变量的平均值,bi是样本参数自身的平均值,i是临床医学数据库中的第i个样本;
步骤S323:数据挖掘的过程需要对收集到的数据进行准确分类和检查,为了提高运行效率,在运算中加入切割技术,设置不同的数据集,定义数据集的关联规则,所用公式如下:
式中,Qe是数据集E的关联规则,Qf是数据集F的关联规则,E和F是两个不同的数据集,→表示集合到集合的映射;
步骤S324:定义信任度,所用公式如下:
式中,Γ(E→F)表示数据集E到数据集F的信任度,ξ(E∪F)表示数据集E∪F在临床医学数据库中出现的次数,ξ(E)表示数据集E在临床医学数据库中出现的次数;
步骤S33:临床数据挖掘模型评估,通过交叉验证对模型进行评估和验证,评估模型的准确性和适用性;
步骤S34:持续监测和优化,对挖掘和分析的结果进行持续监测和优化,更新临床数据挖掘模型。
进一步地,在步骤S4中,所述临床数据隐私保护,包括以下步骤:
步骤S41:数据脱敏,对数据进行脱敏处理,去除敏感个人信息,确保脱敏后的数据仍能保留有价值的特征,但无法联系到个人身份;
步骤S42:数据加密,对敏感数据进行加密存储和访问,使用临床数据加密系统,实现多用户场景下临床数据的高效检索,支持对临床数据的监督,在保证数据安全和隐私的同时实现医疗数据的可用性,解决由于单点故障,搜索服务器可能返回不匹配的搜索结果的技术问题,所述数据加密包括以下步骤:
步骤S421:临床数据加密系统由六个实体组成,包括医疗可信机构、医疗云服务器、医疗联盟区块链、医疗数据所有者、医疗数据用户和医疗数据监管者,医疗可信机构和医疗数据监管者不参与数据搜索的主要过程,在方案的执行和临床数据加密系统的维护中发挥重要作用,系统运行之前,医疗可信机构生成临床数据加密系统初始化所需的参数,并为加入临床数据加密系统的用户颁发公钥证书,其余时间医疗可信机构属于离线状态;
步骤S422:加密临床数据,医疗数据所有者使用对称加密算法对临床数据进行加密,再使用公钥密码算法将对称密钥进行加密,医疗数据所有者将密文上传到医疗云服务器;
步骤S423:生成可搜索的加密数据结构,医疗数据所有者从临床数据中提取信息关键词索引,并生成可搜索的加密数据结构,医疗数据所有者将可搜索的加密数据结构传到医疗联盟区块链;
步骤S424:搜索包含信息关键词的临床数据,医疗数据用户生成包含信息关键词的搜索请求,将包含信息关键词的搜索请求发送到附近的医疗联盟区块链节点,包含信息关键词的搜索请求触发智能合约的搜索过程,智能合约返回所有匹配的加密临床数据,所述智能合约包含一组规则和逻辑,是部署在医疗联盟区块链上的去中心化、信息可共享的程序代码,签订合约的各方就智能合约内容达成一致,并将智能合约部署在医疗联盟区块链上,不依赖任何第三方机构的情况下自动执行合同;
步骤S425:访问临床数据,多用户搜索是数据共享的基本功能,授权多个医疗数据用户访问加密数据,医疗数据用户解密智能合约返回的加密临床数据,得到明文索引后访问医疗云服务器中的数据;
步骤S426:加密监管,医疗数据监管者对数据加密进行必要监督,对医疗云服务器上存储的密码数据进行定期审计,检测包含非法和敏感信息关键词的临床数据,并审查医疗数据用户的包含信息关键词的搜索请求,实时监控医疗数据所有者向医疗联盟区块链发送的包含信息关键词的搜索请求,对不合规的包含信息关键词的搜索请求进行拦截和惩罚;
步骤S43:细粒度访问控制与审计,对数据访问进行细粒度权限管理和审计跟踪;
步骤S44:建立数据共享协议,规定临床数据的使用目的、范围和权限,遵守法律法规和行业规范。
进一步地,在步骤S5中,所述临床数据可视化,包括以下步骤:
步骤S51:结果可视化,使用交互式可视化工具进行动态分析;
步骤S52:决策支持与优化,根据结果可视化的分析结果,为临床决策提供支持,制定出更有效的治疗方案、预测疾病风险和提供个性化医疗建议。
本发明提供的一种基于大数据分析的临床信息共享系统,包括临床数据采集模块、临床数据查询模块、临床数据挖掘模块、临床数据隐私保护模块和临床数据可视化模块;
所述临床数据采集模块,引入自动化抓取技术提取临床数据,进行清洗与整合,并进行自动化质量控制;
所述临床数据查询模块,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果,减少对分布式数据库的访问次数,提升用户体验,提高数据查询的时效性,减少了分布式数据库中信息查询的查询数量、查询压力和处理时间;
所述临床数据挖掘模块,使用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对数据挖掘模型进行验证和优化;
所述临床数据隐私保护模块,进行数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
所述临床数据可视化模块,使用交互式可视化工具将临床医疗数据进行动态分析,并根据分析结果进行决策支持与优化。
采用上述方案本发明取得的有益成果如下:
(1)针对存在查询临床数据次数过多导致数据服务受限,消耗大量服务器资源和带宽,增加临床数据泄露风险的技术问题,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果,减少对分布式数据库的访问次数,提升用户体验,提高数据查询的时效性,减少了分布式数据库中信息查询的查询数量、查询压力和处理时间;
(2)针对临床数据复杂,难以获得有价值的信息和知识,导致治疗方案选择不当的技术问题,采用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对临床数据挖掘模型进行验证和优化,提高分类准确性,为临床决策提供更好的支持;
(3)针对存在计算机网络缺少合理的使用管理和网络安全防范措施,容易导致患者隐私数据泄露和未经授权访问的技术问题,采用数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护。
附图说明
图1为本发明提供的一种基于大数据分析的临床信息共享方法的流程示意图;
图2为本发明提供的一种基于大数据分析的临床信息共享系统的示意图;
图3为步骤S2的流程示意图;
图4为步骤S3的流程示意图;
图5为步骤S4的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供的一种基于大数据分析的临床信息共享方法,该方法包括以下步骤:
步骤S1:临床数据采集,引入自动化抓取技术提取临床数据,进行清洗与整合,并进行自动化质量控制;
步骤S2:临床数据查询,具体为采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果,减少对分布式数据库的访问次数,提升用户体验,提高数据查询的时效性,减少了分布式数据库中信息查询的查询数量、查询压力和处理时间;
步骤S3:临床数据挖掘,具体为使用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对数据挖掘模型进行验证和优化;
步骤S4:临床数据隐私保护,具体为进行数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
步骤S5:临床数据可视化,具体为使用交互式可视化工具将临床医疗数据进行动态分析,并根据分析结果进行决策支持与优化。
实施例二,参阅图1,该实施例基于上述实施例,在步骤S1中,所述临床数据采集,包括以下步骤:
步骤S11:临床数据提取,引入自动化抓取技术,通过API接口自动从医院各个系统中提取临床数据;
步骤S12:数据预处理,对提取的临床数据进行数据清洗,包括去除重复数据、修正错误数据和填充缺失数据,得到预处理后的临床数据;
步骤S13:数据整合与集成,将预处理后的临床数据进行整合与集成,将不同来源和格式的数据进行映射和匹配,使临床数据可以在统一的数据存储中被查询和访问;
步骤S14:自动化质量控制,引入自动化的质量控制手段,对数据提取、清洗和整合过程进行监控和反馈,及时发现和纠正潜在问题,提高数据的准确性和一致性。
实施例三,参阅图1和图3,该实施例基于上述实施例,在步骤S2中,所述临床数据查询,包括以下步骤:
步骤S21:基于分布式数据库进行信息实时查询,建立临床数据实时查询模型,临床数据实时查询模型包括存储用户输入的信息关键词、从分布式数据库查询信息关键词和分布式数据库查询信息内容;
步骤S22:实时信息分类,根据临床数据实时查询模型,构建实时信息分类模型;
步骤S23:构建分布式多元哈希算法模型,根据临床数据实时查询模型和实时信息分类模型,判断所查询的数据能否查询两次,若第一次判断结果的信息查询类型为可以进行第二次查询,将分布式数据库中的数据按照信息关键词进行排列,遇到第二个信息关键词查询的数据时,将数据顺时针排列并记录信息关键词的哈希值为1,形成信息查询池;如果第一次判断结果的信息查询类型为无法进行第二次查询,则将该信息关键词从信息查询池中删除;
步骤S24:异常信息处理,根据分布式多元哈希算法模型和实时信息分类模型,当查询关键字进入系统时,直接根据关键字读取哈希环上面的数据,对现有的分布式数据库架构进行改进,增加对异常信息查询池的处理机制,防止信息查询带来的数据安全问题。
通过执行上述操作,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果,减少对分布式数据库的访问次数,提升用户体验,提高数据查询的时效性,减少了分布式数据库中信息查询的查询数量、查询压力和处理时间,解决了查询临床数据次数过多导致数据服务受限,消耗大量服务器资源和带宽,增加临床数据泄露风险的技术问题。
实施例四,参阅图1和图4,该实施例基于上述实施例,在步骤S3中,所述临床数据挖掘,包括以下步骤:
步骤S31:特征选择,进行包裹式特征选择,从特征集合中不断的筛选特征子集,训练学习器,根据学习器性能对特征子集进行评价,直至筛选出最具代表性的特征子集,通过包裹式特征选择减少数据维度,提高模型的效率和准确性;
步骤S32:构建临床数据挖掘模型,对预处理后的临床数据进行算法的应用和训练,所述数据挖掘算法包括以下步骤:
步骤S321:假设最小支持系数和信任变量是相关函数,对临床数据进行整体分类,定义数据库中两个事件之间的距离,所用公式如下:
式中,D(I1,I2)是临床医学数据库中两个事件之间的距离,P是事件发生的概率,当事件I1和事件I2同时产生时,D(I1,I2)值为0;
步骤S322:利用聚类算法对临床医学数据库进行分类,根据框架系数评估算法的函数,定义框架系数,所用公式如下:
式中,β(i)是框架系数,ai表示样本参数和其他变量的平均值,bi是样本参数自身的平均值,i是临床医学数据库中的第i个样本;
步骤S323:数据挖掘的过程需要对收集到的数据进行准确分类和检查,为了提高运行效率,在运算中加入切割技术,设置不同的数据集,定义数据集的关联规则,所用公式如下:
式中,Qe是数据集E的关联规则,Qf是数据集F的关联规则,E和F是两个不同的数据集,→表示集合到集合的映射;
步骤S324:定义信任度,所用公式如下:
式中,Γ(E→F)表示数据集E到数据集F的信任度,ξ(E∪F)表示数据集E∪F在临床医学数据库中出现的次数,ξ(E)表示数据集E在临床医学数据库中出现的次数;
步骤S33:临床数据挖掘模型评估,通过交叉验证对模型进行评估和验证,评估模型的准确性和适用性;
步骤S34:持续监测和优化,对挖掘和分析的结果进行持续监测和优化,更新临床数据挖掘模型。
通过执行上述操作,采用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对临床数据挖掘模型进行验证和优化,提高分类准确性,为临床决策提供更好的支持,解决了临床数据复杂,难以获得有价值的信息和知识,导致治疗方案选择不当的技术问题。
实施例五,参阅图1和图5,该实施例基于上述实施例,在步骤S4中,所述临床数据隐私保护,包括以下步骤:
步骤S41:数据脱敏,对数据进行脱敏处理,去除敏感个人信息,确保脱敏后的数据仍能保留有价值的特征,但无法联系到个人身份;
步骤S42:数据加密,对敏感数据进行加密存储和访问,使用临床数据加密系统,实现多用户场景下临床数据的高效检索,支持对临床数据的监督,在保证数据安全和隐私的同时实现医疗数据的可用性,解决由于单点故障,搜索服务器可能返回不匹配的搜索结果的技术问题,所述数据加密包括以下步骤:
步骤S421:临床数据加密系统由六个实体组成,包括医疗可信机构、医疗云服务器、医疗联盟区块链、医疗数据所有者、医疗数据用户和医疗数据监管者,医疗可信机构和医疗数据监管者不参与数据搜索的主要过程,在方案的执行和临床数据加密系统的维护中发挥重要作用,系统运行之前,医疗可信机构生成临床数据加密系统初始化所需的参数,并为加入临床数据加密系统的用户颁发公钥证书,其余时间医疗可信机构属于离线状态;
步骤S422:加密临床数据,医疗数据所有者使用对称加密算法对临床数据进行加密,再使用公钥密码算法将对称密钥进行加密,医疗数据所有者将密文上传到医疗云服务器;
步骤S423:生成可搜索的加密数据结构,医疗数据所有者从临床数据中提取信息关键词索引,并生成可搜索的加密数据结构,医疗数据所有者将可搜索的加密数据结构传到医疗联盟区块链;
步骤S424:搜索包含信息关键词的临床数据,医疗数据用户生成包含信息关键词的搜索请求,将包含信息关键词的搜索请求发送到附近的医疗联盟区块链节点,包含信息关键词的搜索请求触发智能合约的搜索过程,智能合约返回所有匹配的加密临床数据,所述智能合约包含一组规则和逻辑,是部署在医疗联盟区块链上的去中心化、信息可共享的程序代码,签订合约的各方就智能合约内容达成一致,并将智能合约部署在医疗联盟区块链上,不依赖任何第三方机构的情况下自动执行合同;
步骤S425:访问临床数据,多用户搜索是数据共享的基本功能,授权多个医疗数据用户访问加密数据,医疗数据用户解密智能合约返回的加密临床数据,得到明文索引后访问医疗云服务器中的数据;
步骤S426:加密监管,医疗数据监管者对数据加密进行必要监督,对医疗云服务器上存储的密码数据进行定期审计,检测包含非法和敏感信息关键词的临床数据,并审查医疗数据用户的包含信息关键词的搜索请求,实时监控医疗数据所有者向医疗联盟区块链发送的包含信息关键词的搜索请求,对不合规的包含信息关键词的搜索请求进行拦截和惩罚;
步骤S43:细粒度访问控制与审计,对数据访问进行细粒度权限管理和审计跟踪;
步骤S44:建立数据共享协议,规定临床数据的使用目的、范围和权限,遵守法律法规和行业规范。
通过执行上述操作,采用数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护,解决了计算机网络缺少合理的使用管理和网络安全防范措施,容易导致患者隐私数据泄露和未经授权访问的技术问题。
实施例六,参阅图1,该实施例基于上述实施例,在步骤S5中,所述临床数据可视化,包括以下步骤:
步骤S51:结果可视化,使用交互式可视化工具进行动态分析;
步骤S52:决策支持与优化,根据结果可视化的分析结果,为临床决策提供支持,制定出更有效的治疗方案、预测疾病风险和提供个性化医疗建议。
实施例七,参阅图2,该实施例基于上述实施例,本发明提供的一种基于大数据分析的临床信息共享系统,包括临床数据采集模块、临床数据查询模块、临床数据挖掘模块、临床数据隐私保护模块和临床数据可视化模块;
所述临床数据采集模块,引入自动化抓取技术提取临床数据,进行清洗与整合,并进行自动化质量控制;
所述临床数据查询模块,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果,减少对分布式数据库的访问次数,提升用户体验,提高数据查询的时效性,减少了分布式数据库中信息查询的查询数量、查询压力和处理时间;
所述临床数据挖掘模块,使用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对数据挖掘模型进行验证和优化;
所述临床数据隐私保护模块,进行数据脱敏处理,并使用临床数据加密系统对敏感数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
所述临床数据可视化模块,使用交互式可视化工具将临床医疗数据进行动态分析,并根据分析结果进行决策支持与优化。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (7)

1.一种基于大数据分析的临床信息共享方法,其特征在于:该方法包括以下步骤:
步骤S1:临床数据采集,提取临床数据并进行清洗整合;
步骤S2:临床数据查询,具体为采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池进行快速匹配;
步骤S3:临床数据挖掘,具体为进行特征选择,构建临床数据挖掘模型,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对临床数据挖掘模型进行验证和优化;
步骤S4:临床数据隐私保护,具体为使用临床数据加密系统对临床数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
步骤S5:临床数据可视化,将临床数据进行可视化动态分析;
在步骤S3中,所述临床数据挖掘,包括以下步骤:
步骤S31:特征选择,筛选特征子集,训练学习器,并根据学习器性能对特征子集进行评价,直至筛选出最具代表性的特征子集;
步骤S32:构建临床数据挖掘模型,对预处理后的临床数据进行算法的应用和训练,所述数据挖掘算法包括以下步骤:
步骤S321:对临床数据进行整体分类,定义临床医学数据库中两个事件之间的距离,所用公式如下:
式中,D(I1,I2)是临床医学数据库中两个事件之间的距离,P是事件发生的概率,当事件I1和事件I2同时产生时,D(I1,I2)值为0;
步骤S322:利用聚类算法对临床医学数据库进行分类,根据框架系数评估算法的函数,定义框架系数,所用公式如下:
式中,β(i)是框架系数,ai是样本参数和其他变量的平均值,bi是样本参数自身的平均值,i是临床医学数据库中的第i个样本;
步骤S323:数据挖掘的过程需要对收集到的数据进行准确分类和检查,在运算中加入切割技术,设置不同的数据集,定义数据集的关联规则,所用公式如下:
式中,Qe是数据集E的关联规则,Qf是数据集F的关联规则,E和F是两个不同的数据集,→表示集合到集合的映射;
步骤S324:定义信任度,所用公式如下:
式中,Γ(E→F)表示数据集E到数据集F的信任度,ξ(E∪F)表示数据集E∪F在临床医学数据库中出现的次数,ξ(E)表示数据集E在临床医学数据库中出现的次数;
步骤S33:临床数据挖掘模型评估,通过交叉验证对模型进行评估和验证,评估模型的准确性和适用性;
步骤S34:持续监测和优化,对挖掘和分析的结果进行持续监测和优化,更新临床数据挖掘模型。
2.根据权利要求1所述的一种基于大数据分析的临床信息共享方法,其特征在于:在步骤S4中,所述临床数据隐私保护,包括以下步骤:
步骤S41:数据脱敏,对数据进行脱敏处理,去除敏感个人信息;
步骤S42:数据加密,对临床数据进行加密存储和访问,使用临床数据加密系统,实现多用户场景下临床数据的高效检索,支持对临床数据的监督,所述数据加密包括以下步骤:
步骤S421:临床数据加密系统由六个实体组成,包括医疗可信机构、医疗云服务器、医疗联盟区块链、医疗数据所有者、医疗数据用户和医疗数据监管者,系统运行之前,医疗可信机构生成临床数据加密系统初始化所需的参数,并为加入临床数据加密系统的用户发放公钥证书;
步骤S422:加密临床数据,医疗数据所有者使用对称加密算法对临床数据进行加密,再使用公钥密码算法将对称密钥进行加密,医疗数据所有者将密文上传到医疗云服务器;
步骤S423:生成可搜索的加密数据结构,医疗数据所有者从临床数据中提取信息关键词索引,并生成可搜索的加密数据结构,医疗数据所有者将可搜索的加密数据结构传到医疗联盟区块链;
步骤S424:搜索包含信息关键词的临床数据,医疗数据用户生成包含信息关键词的搜索请求,将包含信息关键词的搜索请求发送到附近的医疗联盟区块链节点,包含信息关键词的搜索请求触发智能合约的搜索过程,智能合约返回所有匹配的加密临床数据;
步骤S425:访问临床数据,授权多个医疗数据用户访问加密临床数据,医疗数据用户解密智能合约返回的加密临床数据,得到明文索引后访问医疗云服务器中的临床数据;
步骤S426:加密监管,医疗数据监管者对数据加密进行必要监督,对医疗云服务器上存储的密码数据进行定期审计,检测包含非法和敏感信息关键词的临床数据,并审查医疗数据用户的包含信息关键词的搜索请求,实时监控医疗数据所有者向医疗联盟区块链发送的包含信息关键词的搜索请求,对不合规的包含信息关键词的搜索请求进行拦截和惩罚;
步骤S43:细粒度访问控制与审计,对数据访问进行细粒度权限管理和审计跟踪;
步骤S44:建立数据共享协议,规定临床数据的使用目的、范围和权限,遵守法律法规和行业规范。
3.根据权利要求1所述的一种基于大数据分析的临床信息共享方法,其特征在于:在步骤S2中,所述临床数据查询,包括以下步骤:
步骤S21:基于分布式数据库进行信息实时查询,建立临床数据实时查询模型;
步骤S22:实时信息分类,根据临床数据实时查询模型,构建实时信息分类模型;
步骤S23:构建分布式多元哈希算法模型,根据临床数据实时查询模型和实时信息分类模型,判断所查询的数据能否查询两次,若第一次判断结果的信息查询类型为可以进行第二次查询,将分布式数据库中的数据按照信息关键词进行排列,遇到第二个信息关键词查询的数据时,将数据顺时针排列并记录信息关键词的哈希值为1,形成信息查询池;如果第一次判断结果的信息查询类型为无法进行第二次查询,则将该信息关键词从信息查询池中删除;
步骤S24:异常信息处理,根据分布式多元哈希算法模型和实时信息分类模型,当查询关键字进入分布式多元哈希算法模型时,直接根据关键字读取哈希环上面的数据,对现有的分布式数据库架构进行改进,增加对异常信息查询池的处理机制。
4.根据权利要求1所述的一种基于大数据分析的临床信息共享方法,其特征在于:在步骤S1中,所述临床数据采集,包括以下步骤:
步骤S11:临床数据提取,引入自动化抓取技术,通过API接口自动从医院各个系统中提取临床数据;
步骤S12:数据预处理,对提取的临床数据进行数据清洗,得到预处理后的临床数据;
步骤S13:数据整合与集成,将预处理后的临床数据进行整合与集成,将不同来源和格式的数据进行映射和匹配;
步骤S14:自动化质量控制,引入自动化的质量控制手段,对数据提取、清洗和整合过程进行监控和反馈,及时发现和纠正潜在问题。
5.根据权利要求1所述的一种基于大数据分析的临床信息共享方法,其特征在于:在步骤S5中,所述临床数据可视化,包括以下步骤:
步骤S51:结果可视化,使用交互式可视化工具进行动态分析;
步骤S52:决策支持与优化,根据结果可视化的分析结果,为临床决策提供支持,制定出更有效的治疗方案、预测疾病风险和提供个性化医疗建议。
6.一种基于大数据分析的临床信息共享系统,用于实现如权利要求1-5中任一项所述的一种基于大数据分析的临床信息共享方法,其特征在于:包括临床数据采集模块、临床数据查询模块、临床数据挖掘模块、临床数据隐私保护模块和临床数据可视化模块。
7.根据权利要求6所述的一种基于大数据分析的临床信息共享系统,其特征在于:所述临床数据采集模块,引入自动化抓取技术提取临床数据,进行清洗与整合,并进行自动化质量控制;
所述临床数据查询模块,采用分布式数据库进行信息查询,构建临床数据实时查询模型进行信息关键词的存储和判断,利用信息查询池快速匹配用户所需结果;
所述临床数据挖掘模块,使用包裹式特征选择减少数据维度,构建临床数据挖掘模型,对临床数据进行分类,加入切割技术,设置不同的数据集,定义数据集的关联规则,并对数据挖掘模型进行验证和优化;
所述临床数据隐私保护模块,进行数据脱敏处理,并使用临床数据加密系统对临床数据进行加密存储和访问,对数据访问进行细粒度权限管理和审计跟踪,建立数据共享协议,实现隐私保护;
所述临床数据可视化模块,使用交互式可视化工具将临床医疗数据进行动态分析,并根据分析结果进行决策支持与优化。
CN202311660298.4A 2023-12-06 2023-12-06 一种基于大数据分析的临床信息共享方法及系统 Active CN117352188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311660298.4A CN117352188B (zh) 2023-12-06 2023-12-06 一种基于大数据分析的临床信息共享方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311660298.4A CN117352188B (zh) 2023-12-06 2023-12-06 一种基于大数据分析的临床信息共享方法及系统

Publications (2)

Publication Number Publication Date
CN117352188A CN117352188A (zh) 2024-01-05
CN117352188B true CN117352188B (zh) 2024-02-27

Family

ID=89367212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311660298.4A Active CN117352188B (zh) 2023-12-06 2023-12-06 一种基于大数据分析的临床信息共享方法及系统

Country Status (1)

Country Link
CN (1) CN117352188B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117749527B (zh) * 2024-02-08 2024-05-07 云南蓝队云计算有限公司 基于大数据分析和云计算的安全防护方法及系统
CN117993021B (zh) * 2024-04-07 2024-06-25 北京惠每云科技有限公司 远程检查系统安全性提升方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820959A (zh) * 2015-04-29 2015-08-05 赵蒙海 基于数据挖掘的医学知识库系统
CN105528529A (zh) * 2016-02-20 2016-04-27 成都中医药大学 基于大数据分析的中医临床技能评价体系的数据处理方法
CN108597569A (zh) * 2018-04-28 2018-09-28 中南大学湘雅医院 帐篷医院的应急信息系统
CN110827981A (zh) * 2019-11-12 2020-02-21 重庆亚德科技股份有限公司 一种监管临床决策支持分析系统
CN113066563A (zh) * 2021-04-02 2021-07-02 青岛科技大学 一种可信的医疗不良信息上报处理系统
CN115274126A (zh) * 2022-08-11 2022-11-01 西南医科大学附属医院 一种基于大数据的医学检验数据共享系统
CN116364219A (zh) * 2023-03-15 2023-06-30 中国中医科学院西苑医院 一种临床医学病例数据采集与分析方法及系统
CN116825336A (zh) * 2023-08-30 2023-09-29 山东志诚普惠健康科技有限公司 一种基于ai的医疗信息智能管理方法及系统
CN117038025A (zh) * 2023-08-07 2023-11-10 深圳布雷奥特信息技术有限公司 基于医院质量监测数据分析与精细化管理系统与方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120089418A1 (en) * 2010-10-11 2012-04-12 Shwetha Ramachandra Kamath INTEGRATED INTERACTIVE SYSTEMS AND METHODS WITH SINGLE TRANSACTIONAL DATABASE AND REPORTING APPLICATION FOR eCLINICAL TRIALS

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820959A (zh) * 2015-04-29 2015-08-05 赵蒙海 基于数据挖掘的医学知识库系统
CN105528529A (zh) * 2016-02-20 2016-04-27 成都中医药大学 基于大数据分析的中医临床技能评价体系的数据处理方法
CN108597569A (zh) * 2018-04-28 2018-09-28 中南大学湘雅医院 帐篷医院的应急信息系统
CN110827981A (zh) * 2019-11-12 2020-02-21 重庆亚德科技股份有限公司 一种监管临床决策支持分析系统
CN113066563A (zh) * 2021-04-02 2021-07-02 青岛科技大学 一种可信的医疗不良信息上报处理系统
CN115274126A (zh) * 2022-08-11 2022-11-01 西南医科大学附属医院 一种基于大数据的医学检验数据共享系统
CN116364219A (zh) * 2023-03-15 2023-06-30 中国中医科学院西苑医院 一种临床医学病例数据采集与分析方法及系统
CN117038025A (zh) * 2023-08-07 2023-11-10 深圳布雷奥特信息技术有限公司 基于医院质量监测数据分析与精细化管理系统与方法
CN116825336A (zh) * 2023-08-30 2023-09-29 山东志诚普惠健康科技有限公司 一种基于ai的医疗信息智能管理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
医院科研大数据统计分析平台构建研究;杨林朋;;统计与管理(第04期);第31-36页 *

Also Published As

Publication number Publication date
CN117352188A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN117352188B (zh) 一种基于大数据分析的临床信息共享方法及系统
US11295034B2 (en) System and methods for privacy management
WO2021042843A1 (zh) 告警信息的决策方法、装置、计算机设备及存储介质
US11645528B2 (en) Continuous learning neural network system using rolling window
Siddiqa et al. A survey of big data management: Taxonomy and state-of-the-art
US10929345B2 (en) System and method of performing similarity search queries in a network
EP3713191B1 (en) Identifying legitimate websites to remove false positives from domain discovery analysis
CN116662989B (zh) 一种安全数据解析方法及系统
CN112632567A (zh) 一种多数据源全流程加密大数据分析方法和系统
CN116680704B (zh) 一种用于客户端的数据安全防护方法及系统
US9123006B2 (en) Techniques for parallel business intelligence evaluation and management
CN102088459A (zh) 一种基于可信交换的大集中数据交换与集成平台
CN113094385A (zh) 一种基于软件定义开放工具集的数据共享融合平台及方法
Kumar et al. Development of a cloud-assisted classification technique for the preservation of secure data storage in smart cities
CN117709901A (zh) 基于区块链的科技成果全流程管控方法及系统
CN112968873B (zh) 一种用于隐私数据传输的加密方法和装置
CN117614849A (zh) 一种基于家庭网络的多媒体资源共享方法及系统
CN116318907B (zh) 基于大数据和神经网络分析计算机网络态势的方法及系统
CN116912039A (zh) 一种服务平台的管理方法及系统
CN116432193A (zh) 一种金融数据库数据保护改造方法及其金融数据保护系统
CN114297223A (zh) 一种基于大数据的中小企业信息化服务平台
US20200167326A1 (en) System and method for acting on potentially incomplete data
CN111917801A (zh) 私有云环境下基于Petri网的用户行为认证方法
CN118229432B (zh) 金融一体机的网络数据处理方法及系统
CN117195292B (zh) 一种基于数据融合和边缘计算的电力业务评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant