CN112185498B - 一种中医内科患者数据信息处理方法、系统、装置 - Google Patents

一种中医内科患者数据信息处理方法、系统、装置 Download PDF

Info

Publication number
CN112185498B
CN112185498B CN202011046337.8A CN202011046337A CN112185498B CN 112185498 B CN112185498 B CN 112185498B CN 202011046337 A CN202011046337 A CN 202011046337A CN 112185498 B CN112185498 B CN 112185498B
Authority
CN
China
Prior art keywords
data
information
patient
database
chinese medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011046337.8A
Other languages
English (en)
Other versions
CN112185498A (zh
Inventor
毛真真
于得海
王凯
贾在金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011046337.8A priority Critical patent/CN112185498B/zh
Publication of CN112185498A publication Critical patent/CN112185498A/zh
Application granted granted Critical
Publication of CN112185498B publication Critical patent/CN112185498B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/90ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Primary Health Care (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Alternative & Traditional Medicine (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于中医内科信息处理技术领域,公开了一种中医内科患者数据信息处理方法、系统、装置,数据采集器采集就诊卡的患者信息及数据,存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,对在存入数据库前进行格式检查,防止坏数据的存入;对患者信息及数据对象表示为对象标识ID与对应的操作ID及对应的结果数据的之间的匹配关系,提高患者信息及数据存储的效率,扩展性好,能够快速响应用户需求的变化。将预处理的患者信息及数据运用统计分析、机器学习方法,找出数据中的规律,输入密钥,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配提高了数据的匹配成功率,对于提高医生的工作效率有很大帮助。

Description

一种中医内科患者数据信息处理方法、系统、装置
技术领域
本发明属于中医内科信息处理技术领域,尤其涉及一种中医内科患者数据信息处理方法、系统、装置。
背景技术
现在对中医的认可度越来越高,人们也普遍认为中医也能够很好的治疗疾病,甚至一些西医难以治疗或难以找到病因的疾病,通过中医的诊治、治疗能够起到很好的治疗效果。随着中医就诊、入住院人数的增加,患者数据的量级成几何倍数的提升,对患者信息的存储、分类及处理就带来了严峻的考验:
首先是中医患者数据的统一管理问题。目前的现状是就诊和入住院的系统是分开的,问诊的医生看不到患者的入住院信息,入住院的医生看不到就诊患者的信息,而且门诊和病房的信息不能互通,这给医生的诊断带来的一定的繁琐,造成患者的信息、数据不能及时获取,增加了问诊时间。
其次是中医患者数据的模糊匹配问题。在分散于多处的患者数据库中,精准的得到某一特定患者的所有数据往往是一个挑战。一个比较简单的逻辑是通过身份证号,手机号等ID来唯一的确定某段数据归属何人。然而,并非所有数据集都录有患者的ID信息,更多被记录的只是患者的姓名、年龄、性别等高重复性的数据。采用手机号来作为ID也是不合理的,很多手机号没有经过实名认证,往往只是作为临时使用,而且不同人可以重复使用同一个手机号。所以,当进行患者数据的归属匹配时,往往要进行模糊匹配。这就需要设计一套可靠的模糊匹配算法,运用大数据的处理方法,尽可能的提高匹配的成功率。
最后是如何优化海量中医患者数据的查询速度和存储成本的问题。一个中医患者的数据往往会包括轻量级的元数据:姓名、联系方式、年龄、性别等;中量级的流水数据:就诊历史、药方、账单等;也会包括重量级的多媒体数据:X光高清照片,核磁共振成像等。一个患者的数据,小的只有几KB,大的会有几GB甚至几十GB。考虑到一个医院往往要服务于几十万居民,它的患者信息系统必须得能够在TB级数据量下还能满足快速查询和低成本存储的要求。这就要求必须对患者信息系统作出相应的优化。
发明内容
针对现有技术存在的问题,本发明提供了一种中医内科患者数据信息处理方法、系统、装置。
本发明的附加特征和优点将在随后的描述中阐述,其中一部分将从描述中变得明显,或者可以通过实践在此公开的原理而学习到这些特征与优点。本发明的附加特征和优点可以借助在权利要求中具体指出的仪器和组合来实现和获得。这些和其他的本发明特征将从随后的描述和权利要求中变得更为完全地明显,或者可以通过实践在此阐述的原理来获得。
本发明是这样实现的,一种中医内科患者数据信息处理方法包括以下步骤:
第一步,统一患者信息数据格式。
数据采集器采集就诊卡的患者信息及数据,存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,并对在存入数据库前进行格式检查,防止坏数据的存入;对患者信息及数据对象表示为对象标识ID与对应的操作ID及对应的结果数据的之间的匹配关系,提高了患者信息及数据存储的效率,同时扩展性更好,能够快速响应用户需求的变化。
第二步,患者数据的加密存储。
将第一步所述数据库进行密钥加密处理;提高了数据的可靠性、安全性,便于保护患者的隐私。
第三步,患者就诊时,数据采集器识别就诊卡的条形码等信息,通过USB数据线将信息传输到智能终端上,智能终端根据患者的信息,解密存储在数据库中的患者信息,采用模糊匹配的方法,调取存储在数据库中的患者历次就诊信息、入住院信息等。
所述模糊匹配方法将预处理的患者信息及数据运用统计分析、机器学习的方法,找出数据中的规律,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配。
在数据量较小,单台计算机可以处理时,所述模糊匹配方法采用单机处理算法:
在数据量超过了单台计算机处理能力(超过存储介质容量上限)时,所述模糊匹配方法采用海量数据下的一种集合模糊匹配关联算法,如FMLASH算法(A Fuzzy MatchingLinking Algorithm about Set under Hadoop)。该方法的关键为基于关键字对数据进行哈希分区,拥有相同关键字的数据被分到同一个分组,但对于需要进行关联的属性值不能直接用作关键字来进行分区操作,相反,使用从其他属性值中产生的签名作为分区关键字,只有当关联的属性值具有至少一个公共签名时才有可能匹配,签名可以是一个字符串中各个单词的列表,也可以是匹配字符串长度的变化区间。
针对数据增加时关联操作效率变低的问题,该算法在Hadoop固有的分块策略基础之上对其分块策略再进一步优化,即在分块后再分阶段处理。针对数据处理过程中失真问题,如同一人名或者地址在不同的集合中会出现一定的差异,即使匹配了也不可能总是做到精确的匹配,实际上是满足某个匹配阈值的。即给定两个记录文件R和S、度量函数sim和一个模糊匹配度阈值,该值随着情况改变而动态改变,找出两个集合中的所有记录对S.a和R.a,且满足sim(S.a,R.a)≥k(模糊值)。针对该问题,FMLASH算法提出了更广泛的适用度模糊匹配计算方法,即使用一定的标准函数度量集合之间的模糊匹配度,对于满足度量标准的数据再进行关联操作。通过与当前存在的较好处理集合数据的匹配关联算法对比,在集合数据的匹配关联领域表现出了更广阔的应用前景。
第四步,匹配到的患者数据反馈到智能终端中,问诊医生获取这些信息,然后结合患者的当场描述进行问诊;病房的医生也可以通过智能终端、移动终端由数据库调取患者的历次就诊信息、入住院信息等,及时的了解患者的信息,便于制定适合的治疗方案。
本发明提供的中医内科患者数据信息处理方法,还包括数据库内患者数据的大数据优化。设立备份数据库:本发明为了解决数据的存储安全,设立了Oracle数据库备份系统;同时为了解决备份数据库中存在大量重复数据的问题,设计了数据块指纹去重机制。具体操作如下:在备份数据库中,首先生成临时备份患者信息及数据文件,然后把临时患者信息及数据文件划分成不重叠的块,通过哈希算法计算每个块的指纹值。然后在备份数据库建立hash表记录已存储患者信息及数据的指纹值;通过对比指纹值,检测重复数据。为了提高数据安全性,采用了一定的安全机制来防止信息泄露以及数据丢失。实验证明,该系统在实现远程备份的同时,有效地减少了备份的数据。
将数据块的指纹值与备份系统索引表中存储的指纹值比较,判断传过来的数据块是否已经存在于备份数据库中。如果不是重复的数据块,就将数据块和数据块的指纹值写入备份数据库的存储服务器中。随着备份数据库中数据块的增多,索引表也越来越大,搜索索引表中的指纹值会变得很低效,为了解决这个问题,对索引表引入二级索引缓存,内存中存放第一级缓存,里面的指纹值是最近发送过来的数据块的指纹值。磁盘中存放第二级缓存,内存中换出的指纹值放在第二级缓存中。
本发明实施例提供的中医内科患者数据信息处理装置的智能终端还包括:
数据处理模块:用于读取存储于本地或服务器的数据,验证登录信息、初始化客户端,并上传数据至数据库,分别标记已上传数据和未上传数据,使得智能终端能通过多种方式,获取到正确的数据,以维持正常工作;
本地存储模块,用于备份数据处理模块从数据库获得的数据,并保存智能终端产生的数据;作为无网络状态下,智能终端获取数据的临时数据库,让智能终端能适应各种使用环境,应对断网的突发情况;
网络检测模块,用于判断当前智能终端是否正常连接网络,以检测结果来让智能终端执行不同的操作,达到无视网络问题,始终正常运行的目的。
移动终端亦包括上述三个模块,但对移动端做了相应优化:
数据处理模块:仅用于从数据库中读取数据;
本地存储模块,用于备份数据处理模块从数据库获得的数据,并采用LRU缓存策略限制本地缓存的规模;
网络检测模块,用于判断当前移动终端是否正常连接网络;如正常连接网络则通过数据处理模块从数据库中读取数据,否则从本地存储模块中读取缓存数据。
移动终端通过无线的路由器由数据库调取信息采用了一种无线通信拥塞与故障感知的容错算法:在无线的路由器处添加对故障、拥塞感知模块,感知无线通信的故障和拥塞信息并对其编码,发送给子网中的路由器;子网中的路由器根据接收到的无线的路由器通信对状态编码,判断数据包是否使用无线传输;在不使用无线传输时,采用拥塞避免机制降低无线的路由器周围的通信负载;在无线的路由器通信对无故障时,子网路由器根据接收到的无线的路由器通信对状态编码,平衡有线无线链路的综合利用率;当无线的路由器通信对发生永久性故障时,子网路由器能够提前感知并禁用,避免大量数据包在无线的路由器处重传。
附图说明
图1是本发明实施例提供的中医内科患者数据信息处理方法流程图。
图2是本发明实施例提供的中医内科患者数据信息处理系统的结构示意图。
图3是本发明实施例提供的中医内科患者数据信息处理装置的结构示意图;
图3中:1、数据采集器;2、智能终端;3、数据库;4、路由器;5、移动终端;6、备份数据库。
具体实施方式
针对现有技术存在的问题,本发明提供了一种中医内科患者数据信息处理方法、系统、装置,下面结合附图对本发明作详细的描述。
如图1所示,本发明提供的中医内科患者数据信息处理方法包括:
第一步,统一患者信息数据格式。
患者第一次就诊时,数据采集器采集就诊卡的患者信息及数据,存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,并对在存入数据库前进行格式检查,防止坏数据的存入;对患者信息及数据对象表示为对象标识ID与对应的操作ID及对应的结果数据的之间的匹配关系,提高了患者信息及数据存储的效率,同时扩展性更好,能够快速响应用户需求的变化。
按照采集对象和数据相对应的原则具体包括:
若干患者信息及数据对象,均用以执行操作,并产生与所述操作对应的结果数据;
数据库,用以存储患者信息及数据对象,所述的数据库为各所述的患者信息及数据及所述结果数据,该患者信息及数据对象表示为对象标识ID与对应的操作ID及对应的结果数据的之间的匹配关系;
所述的对象标识ID为该系统中用以识别对象的唯一标识;
所述的操作ID为该系统中各所述对象所执行的操作的统一标识。
第二步,患者数据的加密存储。
将第一步所述数据库进行密钥加密处理;提高了数据的可靠性、安全性,便于保护患者的隐私。密钥加密处理包括:数据库根据安全参数λ,选取阶均为大素数p的椭圆曲线群G与乘法群GT、模p剩余类的一个域Zp、一个对称双线性配对映射e:G×G→GT,同时从G中选择两个生成元g1,g2;此外,数据库选择一个单向哈希函数H:{0,1}*→G、一个伪随机函数f、一个伪随机置换函数π;最后,数据库公开系统参数SP={G,GT,p,g1,g2,Zp,e,H,f,π};
智能终端或移动终端随机选取私钥
Figure GDA0003821651790000061
计算公钥
Figure GDA0003821651790000062
同理数据库随机选取私钥
Figure GDA0003821651790000071
计算公钥pk=gpkβ,同时计算一个验证参数γ=gpkinv,其中inv·β≡1(modp);智能终端或移动终端各自选取签名密钥对。
加密密钥对k组原始数据(明文)进行随机循环移位和迭代异或运算,即加密密钥对k组原始数据(明文)进行喷泉码随机化运算,其结果再进行密钥加扰运算,获得k组密文数据(密文)。k组密文数据(密文)进行逆向密钥解扰运算,其结果再与解密密钥进行逆向随机循环移位和迭代异或运算,即其结果再与解密密钥进行逆向喷泉码随机化运算,恢复k组原始数据(明文)。
第三步,患者第二次就诊时,数据采集器识别就诊卡的条形码等信息,通过USB数据线将信息传输到智能终端上,智能终端根据患者的信息,解密存储在数据库中的患者信息,采用模糊匹配的方法,调取存储在数据库中的患者历次就诊信息、入住院信息等。若调取不到信息,则返回第一步重新统一患者信息数据格式。
所述模糊匹配方法将预处理的患者信息及数据运用统计分析、机器学习的方法,找出数据中的规律,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配。
在数据量较小,单台计算机可以处理时,所述模糊匹配方法采用如下单机处理算法:
(1)读取患者的就诊卡信息与数据库存储的患者信息及数据,定义语义相似阈值rm
(2)患者数据Name属性与预处理的患者信息及数据分为字符串序列N1=n11,n12,…,n1m及N2=n21,n22,…,n2n
(3)判别n1i是否包含N2中的字符串,i=1,2,…,m,若包含,则count1++;同理判断n2j是否包含N1中的字符串,j=1,2,…,n,若包含,则count2++;
(4)计算匹配分数
Figure GDA0003821651790000072
(5)若score≥rm,则匹配超过阈值rm,匹配成功;否则匹配未达到阈值rm,匹配失败,继续读取数据库中的下一组存储的患者信息及数据;
(6)将所有匹配成功的患者信息进行合并和去重,并分配对象标识ID为该系统中用以识别对象的唯一标识;将各操作对应的结果数据分配操作ID为该系统中各所述对象所执行的操作的统一标识;
(7)将模糊匹配后的对象标识ID及对应的患者信息,操作ID及对应的结果数据存入第一步所述数据库。
在数据量超过了单台计算机处理能力(超过存储介质容量上限)时,所述模糊匹配方法采用海量数据下的一种集合模糊匹配关联算法,如FMLASH算法(A Fuzzy MatchingLinking Algorithm about Set under Hadoop)。该方法的关键为基于关键字对数据进行哈希分区,拥有相同关键字的数据被分到同一个分组,但对于需要进行关联的属性值不能直接用作关键字来进行分区操作,相反,使用从其他属性值中产生的签名作为分区关键字,只有当关联的属性值具有至少一个公共签名时才有可能匹配,签名可以是一个字符串中各个单词的列表,也可以是匹配字符串长度的变化区间。
针对数据增加时关联操作效率变低的问题,该算法在Hadoop固有的分块策略基础之上对其分块策略再进一步优化,即在分块后再分阶段处理。针对数据处理过程中失真问题,如同一人名或者地址在不同的集合中会出现一定的差异,即使匹配了也不可能总是做到精确的匹配,实际上是满足某个匹配阈值的。即给定两个记录文件R和S、度量函数sim和一个模糊匹配度阈值,该值随着情况改变而动态改变,找出两个集合中的所有记录对S.a和R.a,且满足sim(S.a,R.a)≥k(模糊值)。针对该问题,FMLASH算法提出了更广泛的适用度模糊匹配计算方法,即使用一定的标准函数度量集合之间的模糊匹配度,对于满足度量标准的数据再进行关联操作。通过与当前存在的较好处理集合数据的匹配关联算法对比,在集合数据的匹配关联领域表现出了更广阔的应用前景。
第四步,匹配到的患者数据反馈到智能终端中,问诊医生获取这些信息,然后结合患者的当场描述进行问诊;病房的医生也可以通过智能终端、移动终端由数据库调取患者的历次就诊信息、入住院信息等,及时的了解患者的信息,便于制定适合的治疗方案。
本发明提供的中医内科患者数据信息处理方法,还包括数据库内患者数据的大数据优化。
(1)对患者数据信息设置存储阈值rs;如患者数据库及索引数据库小于阈值rs的大小,则不设存储期限;否则患者数据信息将于存储时限过后自动清空;小的存储阈值rs可以保存元数据,大的存储阈值rs则可以保存更多的流水数据及多媒体数据。
(2)设立索引数据库:对数据库生成并存储对象索引数据库,该对象索引数据为对象标识ID和操作ID的集合。该对象索引数据库用以快速从所述的数据库获取对象标识ID和操作ID,进而获取相应的患者信息和操作结果数据。
(3)设立备份数据库:本发明为了解决数据的存储安全,设立了Oracle数据库备份系统;同时为了解决备份数据库中存在大量重复数据的问题,设计了数据块指纹去重机制。具体操作如下:
在备份数据库中,首先生成临时备份患者信息及数据文件,然后把临时患者信息及数据文件划分成不重叠的块,通过哈希算法计算每个块的指纹值。然后在备份数据库建立hash表记录已存储患者信息及数据的指纹值;通过对比指纹值,检测重复数据。为了提高数据安全性,采用了一定的安全机制来防止信息泄露以及数据丢失。实验证明,该系统在实现远程备份的同时,有效地减少了备份的数据。
所述指纹去重机制使用Rsync Checksum计算滑动窗口内数据块的求和校验值,如果校验值匹配,则用SHA-1算法对数据块进行更严格的hash计算,比较SHA-1hash值和存储的hash值来检测重复数据。如果检测到重复数据,将重复数据块记录后,滑动窗口滑过这个重复数据块继续向前移动。另外,还要将滑动块之前的这个碎片记录并存储下来。如果Checksum校验值和已经存储的校验值不匹配,滑动窗口继续前移进行检测,如果滑动窗口移动的距离达到定长块长度时还没有检测到重复数据,将这个块的checksum校验和与SHA-1hash值计算并存储供将来数据块重复检测。
将数据块的指纹值与备份系统索引表中存储的指纹值比较,判断传过来的数据块是否已经存在于备份数据库中。如果不是重复的数据块,就将数据块和数据块的指纹值写入备份数据库的存储服务器中。随着备份数据库中数据块的增多,索引表也越来越大,搜索索引表中的指纹值会变得很低效,为了解决这个问题,对索引表引入二级索引缓存,内存中存放第一级缓存,里面的指纹值是最近发送过来的数据块的指纹值。磁盘中存放第二级缓存,内存中换出的指纹值放在第二级缓存中。
如图2所示,本发明实施例提供的中医内科患者数据信息处理系统包括:
数据格式统一模块,用于采集就诊卡的患者信息及数据,存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,并对在存入数据库前进行格式检查。
数据模糊匹配模块,用于按照患者数据Name属性与预处理的患者信息及数据进行语义匹配。
数据加密模块,用于信息进行加密处理。
数据优化模块,用于设置存储阈值,设立索引数据库和设立备份数据库。
如图3所示,本发明实施例提供的中医内科患者数据信息处理装置包括:数据采集器1、智能终端2、数据库3、路由器4、移动终端5、备份数据库6。
数据采集器1通过USB数据线与智能终端2连接,智能终端2通过互联网与数据库3连接,数据库3通过互联网与路由器4连接,路由器4通过无线与移动终端5连接,数据库3通过互联网与备份数据库6连接。
智能终端2还包括:
数据处理模块:用于读取存储于本地或服务器的数据,验证登录信息、初始化客户端,并上传数据至数据库3,分别标记已上传数据和未上传数据,使得智能终端2能通过多种方式,获取到正确的数据,以维持正常工作;
本地存储模块,用于备份数据处理模块从数据库3获得的数据,并保存智能终端2产生的数据;作为无网络状态下,智能终端2获取数据的临时数据库,让智能终端2能适应各种使用环境,应对断网的突发情况;
网络检测模块,用于判断当前智能终端2是否正常连接网络,以检测结果来让智能终端2执行不同的操作,达到无视网络问题,始终正常运行的目的。
移动终端5亦包括上述三个模块,但对移动端做了相应优化:
数据处理模块:仅用于从数据库3中读取数据;
本地存储模块,用于备份数据处理模块从数据库3获得的数据,并采用LRU缓存策略限制本地缓存的规模;
网络检测模块,用于判断当前移动终端5是否正常连接网络;如正常连接网络则通过数据处理模块从数据库3中读取数据,否则从本地存储模块中读取缓存数据。
患者就诊时,将就诊卡放置在数据采集器1上,数据采集器1识别就诊卡的条形码等信息,通过USB数据线将信息传输到智能终端2上,智能终端2根据患者的信息,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配,调取存储在数据库3中的患者历次就诊信息、入住院信息等,然后反馈到智能终端2中,问诊医生获取这些信息,然后结合患者的当场描述进行问诊;病房的医生也可以通过智能终端2、移动终端5由数据库5调取患者的历次就诊信息、入住院信息等,及时的了解患者的信息,便于制定适合的治疗方案,移动终端5通过无线的路由器由数据库3调取信息,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配。
移动终端5通过无线的路由器4由数据库3调取信息采用了一种无线通信拥塞与故障感知的容错算法:在无线的路由器4处添加对故障、拥塞感知模块,感知无线通信的故障和拥塞信息并对其编码,发送给子网中的路由器;子网中的路由器根据接收到的无线的路由器4通信对状态编码,判断数据包是否使用无线传输;在不使用无线传输时,采用拥塞避免机制降低无线的路由器4周围的通信负载;在无线的路由器4通信对无故障时,子网路由器根据接收到的无线的路由器4通信对状态编码,平衡有线无线链路的综合利用率;当无线的路由器4通信对发生永久性故障时,子网路由器能够提前感知并禁用,避免大量数据包在无线的路由器4处重传。
本领域的技术人员应理解,取决于设计需求和其它因素,可以进行各种修改、组合、子组合和替换,只要它们处于所附权利要求或其等效的范围内即可。本发明的描述是为了示例说明的目的而提供的,而不旨在是彻底无遗漏的,或者局限于所公开的实施例。很多修改和变更对于本领域的普通技术人员将是清楚的。选择这些实施例是为了说明本发明的原理及其实际应用,并且使得本领域的其他普通技术人员能够理解本发明,以便实现可能适于其他预期用途的具有各种修改的各种实施例。

Claims (10)

1.一种中医内科患者数据信息处理方法,其特征在于,应用于客户端,所述中医内科患者数据信息处理方法包括:
第一步,将数据采集器采集的患者信息及数据存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,将所述采集对象和数据表示为对象标识ID与对应的操作ID及对应的结果数据之间的匹配关系,并对在存入所述基于分布式文件系统的数据库前的满足所述匹配关系的数据进行格式检查;
第二步,对所述格式检查后的所述数据库中的数据进行密钥加密;
第三步,对加密后数据运用统计分析、机器学习的方法,找出数据中的规律,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配,实现解密存储在所述数据库中的患者信息,并调取存储在所述数据库中的患者历次就诊信息、入住院信息;
在数据量较小,单台计算机读取患者的就诊卡信息与数据库存储的患者信息及数据,定义语义相似阈值rm
所述患者数据Name属性与预处理的患者信息及数据分为字符串序列N1=n11,n12,…,n1m及N2=n21,n22,…,n2n
判别n1i是否包含N2中的字符串,i=1,2,…,m,若包含,则count1++;同理判断n2j是否包含N1中的字符串,j=1,2,…,n,若包含,则count2++;
计算匹配分数
Figure FDA0003821651780000011
若score≥rm,则匹配超过阈值rm,匹配成功;否则匹配未达到阈值rm,匹配失败,继续读取数据库中的下一组存储的患者信息及数据;
将所有匹配成功的患者信息进行合并和去重,并分配对象标识ID为该系统中用以识别对象的唯一标识;将各操作对应的结果数据分配操作ID为该系统中各所述对象所执行的操作的统一标识;
将模糊匹配后的对象标识ID及对应的患者信息,操作ID及对应的结果数据存入数据库;
在数据量超过单台计算机处理能力,采用海量数据下的集合模糊匹配关联算法,FMLASH算法进行解密;
第四步,基于解密后的所述患者信息,匹配到的患者数据反馈到智能终端。
2.如权利要求1所述的中医内科患者数据信息处理方法,其特征在于,按照采集对象和数据相对应的原则包括:若干患者信息及数据对象,均用以执行操作,并产生与所述操作对应的结果数据;
所述的对象标识ID为用以识别对象的唯一标识;
所述的操作ID为各所述对象所执行的操作的统一标识。
3.如权利要求1所述的中医内科患者数据信息处理方法,其特征在于,所述密钥加密处理包括:数据库根据安全参数λ,选取阶均为大素数p的椭圆曲线群G与乘法群GT、模p剩余类的一个域Zp、一个对称双线性配对映射e:G×G→GT,同时从G中选择两个生成元g1,g2;此外,数据库选择一个单向哈希函数H:{0,1}*→G、一个伪随机函数f、一个伪随机置换函数π;最后,数据库公开系统参数SP={G,GT,p,g1,g2,Zp,e,H,f,π};
智能终端或移动终端随机选取私钥
Figure FDA0003821651780000021
计算公钥
Figure FDA0003821651780000022
同理数据库随机选取私钥
Figure FDA0003821651780000023
计算公钥pk=gpkβ,同时计算一个验证参数γ=gpkinv,其中inv·β≡1(modp);智能终端或移动终端各自选取签名密钥对;
加密密钥对k组原始数据进行随机循环移位和迭代异或运算,即加密密钥对k组原始数据进行喷泉码随机化运算,其结果再进行密钥加扰运算,获得k组密文数据;k组密文数据进行逆向密钥解扰运算,其结果再与解密密钥进行逆向随机循环移位和迭代异或运算,即其结果再与解密密钥进行逆向喷泉码随机化运算,恢复k组原始数据。
4.如权利要求1所述的中医内科患者数据信息处理方法,其特征在于,所述数据采集器识别就诊卡的条形码信息,通过USB数据线将信息传输到智能终端上,智能终端根据患者的信息,解密存储在数据库中的患者信息;
所述FMLASH算法基于关键字对数据进行哈希分区,拥有相同关键字的数据被分到同一个分组,但对于需要进行关联的属性值不能直接用作关键字来进行分区操作,相反,使用从其他属性值中产生的签名作为分区关键字,只有当关联的属性值具有至少一个公共签名时才匹配,签名是一个字符串中各个单词的列表或匹配字符串长度的变化区间;
数据增加时关联操作在Hadoop固有的分块策略基础之上对其分块策略再进一步优化,即在分块后再分阶段处理;针对数据处理过程中失真,同一人名或者地址在不同的集合中会出现一定的差异,即使匹配了也不可能总是做到精确的匹配,实际上是满足某个匹配阈值的;即给定两个记录文件R和S、度量函数sim和一个模糊匹配度阈值,该值随着情况改变而动态改变,找出两个集合中的所有记录对S.a和R.a,且满足sim(S.a,R.a)≥k(模糊值);FMLASH算法提出了适用度模糊匹配计算方法,使用一定的标准函数度量集合之间的模糊匹配度,对于满足度量标准的数据再进行关联操作。
5.如权利要求1所述的中医内科患者数据信息处理方法,其特征在于,所述中医内科患者数据信息处理方法还包括数据库内患者数据的大数据优化;
(1)对患者数据信息设置存储阈值rs;如患者数据库及索引数据库小于阈值rs的大小,则不设存储期限;否则患者数据信息将于存储时限过后自动清空;小的存储阈值rs保存元数据,大的存储阈值rs则保存更多的流水数据及多媒体数据;
(2)设立索引数据库:对数据库生成并存储对象索引数据库,该对象索引数据为对象标识ID和操作ID的集合;该对象索引数据库用以快速从所述的数据库获取对象标识ID和操作ID,获取相应的患者信息和操作结果数据;
(3)设立备份数据库:设计数据块指纹去重机制,具体操作如下:
在备份数据库中,首先生成临时备份患者信息及数据文件,然后把临时患者信息及数据文件划分成不重叠的块,通过哈希算法计算每个块的指纹值;然后在备份数据库建立hash表记录已存储患者信息及数据的指纹值;通过对比指纹值,检测重复数据。
6.如权利要求5所述的中医内科患者数据信息处理方法,其特征在于,所述指纹去重机制使用Rsync Checksum计算滑动窗口内数据块的求和校验值,如果校验值匹配,则用SHA-1算法对数据块进行更严格的hash计算,比较SHA-1hash值和存储的hash值检测重复数据;如果检测到重复数据,将重复数据块记录后,滑动窗口滑过这个重复数据块继续向前移动;另外,还要将滑动块之前的这个碎片记录并存储下来;如果Checksum校验值和已经存储的校验值不匹配,滑动窗口继续前移进行检测,如果滑动窗口移动的距离达到定长块长度时还没有检测到重复数据,将这个块的checksum校验和与SHA-1hash值计算并存储供将来数据块重复检测;
将数据块的指纹值与备份系统索引表中存储的指纹值比较,判断传过来的数据块是否已经存在于备份数据库中;如果不是重复的数据块,就将数据块和数据块的指纹值写入备份数据库的存储服务器中;随着备份数据库中数据块的增多,索引表也越来越大,搜索索引表中的指纹值会变得很低效;对索引表引入二级索引缓存,内存中存放第一级缓存,里面的指纹值是最近发送过来的数据块的指纹值,磁盘中存放第二级缓存,内存中换出的指纹值放在第二级缓存中。
7.一种中医内科患者数据信息处理系统,其特征在于,所述中医内科患者数据信息处理系统执行权利要求1~6任意一项所述中医内科患者数据信息处理方法,所述中医内科患者数据信息处理系统包括:
数据格式统一模块,用于采集就诊卡的患者信息及数据,存储进基于分布式文件系统的数据库中,按照采集对象和数据相对应的原则,并对在存入数据库前进行格式检查;
数据模糊匹配模块,用于按照患者数据Name属性与预处理的患者信息及数据进行语义匹配;
数据加密模块,用于信息进行加密处理;
数据优化模块,用于设置存储阈值,设立索引数据库和设立备份数据库。
8.一种中医内科患者数据信息处理装置,其特征在于,所述中医内科患者数据信息处理装置搭载权利要求7所述的中医内科患者数据信息处理系统,所述中医内科患者数据信息处理装置包括:
数据采集器通过USB数据线与智能终端连接,智能终端通过互联网与数据库连接,数据库通过互联网与路由器连接,路由器通过无线与移动终端连接,数据库通过互联网与备份数据库连接。
9.如权利要求8所述的中医内科患者数据信息处理装置,其特征在于,所述智能终端还包括:
数据处理模块:用于读取存储于本地或服务器的数据,验证登录信息、初始化客户端,并上传数据至数据库,分别标记已上传数据和未上传数据;
本地存储模块,用于备份数据处理模块从数据库获得的数据,并保存智能终端产生的数据;作为无网络状态下,智能终端获取数据的临时数据库;
网络检测模块,用于判断当前智能终端是否正常连接网络,以检测结果来让智能终端执行不同的操作,达到无视网络问题,始终正常运行的目的;
移动终端还包括:
数据处理模块:仅用于从数据库中读取数据;
本地存储模块,用于备份数据处理模块从数据库获得的数据,并采用LRU缓存策略限制本地缓存的规模;
网络检测模块,用于判断当前移动终端是否正常连接网络;如正常连接网络则通过数据处理模块从数据库中读取数据,否则从本地存储模块中读取缓存数据。
10.一种中医内科患者数据信息处理装置的运行方法,其特征在于,所述运行方法运行权利要求8或9所述的中医内科患者数据信息处理装置,其特征在于,所述运行方法包括:就诊时,将就诊卡放置在数据采集器上,数据采集器识别就诊卡的条形码信息,通过USB数据线将信息传输到智能终端上,智能终端根据患者的信息,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配,调取存储在数据库中的患者历次就诊信息、入住院信息,然后反馈到智能终端中,问诊医生获取这些信息,然后结合患者的当场描述进行问诊;病房的医生通过智能终端、移动终端由数据库调取患者的历次就诊信息、入住院信息,及时的了解患者的信息,便于制定适合的治疗方案,移动终端通过无线的路由器由数据库调取信息,按照患者数据Name属性与预处理的患者信息及数据进行语义匹配;
移动终端通过无线的路由器由数据库调取信息采用了一种无线通信拥塞与故障感知的容错算法:在无线的路由器处添加对故障、拥塞感知模块,感知无线通信的故障和拥塞信息并对其编码,发送给子网中的路由器;子网中的路由器根据接收到的无线的路由器通信对状态编码,判断数据包是否使用无线传输;在不使用无线传输时,采用拥塞避免机制降低无线的路由器周围的通信负载;在无线的路由器通信对无故障时,子网路由器根据接收到的无线的路由器通信对状态编码,平衡有线无线链路的综合利用率;当无线的路由器通信对发生永久性故障时,子网路由器能够提前感知并禁用,避免大量数据包在无线的路由器处重传。
CN202011046337.8A 2020-09-24 2020-09-24 一种中医内科患者数据信息处理方法、系统、装置 Active CN112185498B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011046337.8A CN112185498B (zh) 2020-09-24 2020-09-24 一种中医内科患者数据信息处理方法、系统、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011046337.8A CN112185498B (zh) 2020-09-24 2020-09-24 一种中医内科患者数据信息处理方法、系统、装置

Publications (2)

Publication Number Publication Date
CN112185498A CN112185498A (zh) 2021-01-05
CN112185498B true CN112185498B (zh) 2022-10-14

Family

ID=73945642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011046337.8A Active CN112185498B (zh) 2020-09-24 2020-09-24 一种中医内科患者数据信息处理方法、系统、装置

Country Status (1)

Country Link
CN (1) CN112185498B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112887297B (zh) * 2021-01-22 2022-09-02 支付宝(杭州)信息技术有限公司 保护隐私的差异数据确定方法、装置、设备及系统
CN116627946B (zh) * 2023-06-01 2024-02-06 中山市人民医院 一种糖尿病足数据模型的建立方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
CN105450650A (zh) * 2015-12-03 2016-03-30 中国人民大学 一种安全移动电子健康记录访问控制系统
CN106650261A (zh) * 2016-12-22 2017-05-10 上海智臻智能网络科技股份有限公司 智能问诊方法、装置和系统
CN110783000A (zh) * 2019-10-28 2020-02-11 四川大学华西医院 一种云端协同医学数据系统及其使用方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110910977A (zh) * 2019-11-12 2020-03-24 南京工业大学 一种融入区块链技术的医疗数据安全存储方法
CN111241265A (zh) * 2020-01-09 2020-06-05 平安国际智慧城市科技股份有限公司 信息推荐方法、设备、存储介质及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727535A (zh) * 2008-10-30 2010-06-09 北大方正集团有限公司 一种跨系统患者交叉索引方法及其系统
CN105450650A (zh) * 2015-12-03 2016-03-30 中国人民大学 一种安全移动电子健康记录访问控制系统
CN106650261A (zh) * 2016-12-22 2017-05-10 上海智臻智能网络科技股份有限公司 智能问诊方法、装置和系统
CN110783000A (zh) * 2019-10-28 2020-02-11 四川大学华西医院 一种云端协同医学数据系统及其使用方法

Also Published As

Publication number Publication date
CN112185498A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
US9977918B2 (en) Method and system for verifiable searchable symmetric encryption
Hakak et al. Approaches for preserving content integrity of sensitive online Arabic content: A survey and research challenges
EP3641220A1 (en) Cryptologic rewritable blockchain
CN102388386B (zh) 设备和用户认证
US20180357434A1 (en) Secure Generalized Bloom Filter
CN108022654B (zh) 一种基于隐私保护的关联规则挖掘方法、系统及电子设备
CN112185498B (zh) 一种中医内科患者数据信息处理方法、系统、装置
CN110413652B (zh) 一种基于边缘计算的大数据隐私化检索方法
Khedr et al. Cryptographic accumulator-based scheme for critical data integrity verification in cloud storage
US20100281269A1 (en) Identification Based on Encrypted Biometric Data
CN106776904A (zh) 一种不可信云计算环境中支持动态验证的模糊查询加密方法
CN106603561A (zh) 一种云存储中的块级加密方法及多粒度去重复方法
CN108400970A (zh) 云环境中相似数据消息锁定加密去重方法、云存储系统
CN103415856A (zh) 在线存储设备及方法、发送设备及方法、接收设备及方法
WO2022068355A1 (zh) 基于信息的特征的加密方法、装置、设备及储存介质
CN116324778A (zh) 可更新私有集合交集
CN113420049A (zh) 数据流通方法、装置、电子设备及存储介质
CN112328997A (zh) 一种基于区块链的可信身份识别方法及系统
CN115473703A (zh) 认证的基于身份的密文等值测试方法、装置、系统及介质
Liu et al. Towards fully verifiable forward secure privacy preserving keyword search for IoT outsourced data
Vaiwsri et al. Accurate and efficient privacy-preserving string matching
Randall et al. Privacy preserving record linkage using homomorphic encryption
CN116108497B (zh) 一种基于身份匿名的医疗数据轻量级云存储方法及装置
Bai et al. CryptoMask: Privacy-preserving Face Recognition
Lu et al. Verifiable privacy-preserving queries on multi-source dynamic dna datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Mao Zhenzhen

Inventor after: Yu Dehai

Inventor after: Wang Kai

Inventor after: Jia Zaijin

Inventor before: Mao Zhenzhen

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Mao Zhenzhen

Inventor after: Yu Dehai

Inventor after: Wang Kai

Inventor after: Jia Zaijin

Inventor before: Mao Zhenzhen

Inventor before: Yu Dehai

Inventor before: Wang Kai

Inventor before: Jia Zaijin

GR01 Patent grant
GR01 Patent grant