CN117216800A - 面向大批量病历数据的去隐私处理方法及装置 - Google Patents
面向大批量病历数据的去隐私处理方法及装置 Download PDFInfo
- Publication number
- CN117216800A CN117216800A CN202311433142.2A CN202311433142A CN117216800A CN 117216800 A CN117216800 A CN 117216800A CN 202311433142 A CN202311433142 A CN 202311433142A CN 117216800 A CN117216800 A CN 117216800A
- Authority
- CN
- China
- Prior art keywords
- privacy
- medical record
- information
- privacy information
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims description 71
- 238000005516 engineering process Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011282 treatment Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明实施例公开了一种面向大批量病历数据的去隐私处理方法及装置,该方法包括:对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;接收各所述客户端对所述待处理作业的去隐私处理结果。通过上述方式,本发明实施例能够对系统整体工作状况进行实时管理,增强系统处理能力,提高整体性能,适用大批量病历文本的去隐私处理。
Description
技术领域
本发明实施例涉及信息数据处理技术领域,具体涉及一种面向大批量病历数据的去隐私处理方法及装置。
背景技术
住院病历富含患者个人信息、临床症状、疾病诊疗、药品器械、以及专家经验等医疗相关知识,是电子病历重要的组成部分。对大批量的住院病历进行关联分析和深度挖掘,能够获得大量与患者、疾病、治疗等主题相关的个性数据与共性特征,从而有助于建立智能辅助筛查、辅助诊断和决策支持等系统。但是,住院病历中含有较多的隐私信息,包括患者姓名、唯一标识、通信地址、工作单位,以及医生姓名、医疗机构名称等。根据相关法律法规关于保护个人隐私的要求,在分析挖掘住院病历之前需要先进行去隐私处理。
从数据的结构化角度看,当前住院病历既包括患者基本信息、检查申请、检验结果和处方医嘱等结构化数据,又包括入院记录、病程病历、手术计划、治疗方案、出院小结等半结构/非结构化数据。对于结构化信息的去隐私处理,通常可依托关系型数据库的SQL技术实现。而对于半结构化/非结构化数据,隐私信息散落混杂在大量常规信息之间,不易识别,难以处理,容易遗漏。
通常,病历文本是一种非结构化数据。针对非结构化信息的去隐私,早期大多采用“移动窗口+逐字比对”的思路。即通过关键词(包含隐私信息的字符串)搜索,对半结构化/非结构化的目标文本从首字符开始,以定制化的窗口长度,逐个字符进行比对,逐一挑选出匹配成功的字段,再依次进行更新、替换等去隐私处理。在这类方法中,每个关键词处理都需要进行全文扫描比对。若有多个关键词,则需要进行多遍全文扫描,效率低、速度慢。
随后,出现“全文分词+逐词比对”技术。即先采用自然语言处理技术对目标文本进行分词处理,将原来的对全文逐个字符比对调整为对全文逐个词组的比对,从而有效降低计算量,提高处理效率。但仍然存在多个关键词,需要进行多遍全文扫描的问题。
之后,出现“关键词分组+并行比对”等技术,即将多个关键词分成若干个组,每个组对应一个计算节点,每个组承担一个/多个关键词的全文扫描。在这类操作中,通常同一份目标文本会被读取到多个计算节点上分别进行不同关键词的扫描和比对,存在目标文本被多个计算节点反复读写,替换结果汇总复杂等问题。因此,对非结构化数据进行去隐私,操作难度大、计算耗时长,亟需改进和创新。
发明内容
鉴于上述问题,本发明实施例提供了一种面向大批量病历数据的去隐私处理方法及装置,克服了上述问题或者至少部分地解决了上述问题。
根据本发明实施例的一个方面,提供了一种面向大批量病历数据的去隐私处理方法,所述方法包括:对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;接收各所述客户端对所述待处理作业的去隐私处理结果。
可选的,所述对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,包括:针对每个病历文本,结合医院信息系统对所述病历文本进行关联查询,获取与所述病历文本对应的表征隐私信息的关键词集合;对所述关键词集合中的各隐私信息,依次按照字符个数、拼音首字母进行排序,生成隐私信息白名单;组合所述病历文本和与所述病历文本对应的所述隐私信息白名单,得到与所述病历文本对应的待处理作业。
基于同一发明构思,还提供了一种面向大批量病历数据的去隐私处理方法,所述方法包括:接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单;采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息;根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
可选的,所述根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,包括:确定全部分词信息中的各分词是否与所述隐私信息白名单中的任一隐私信息匹配;对全部分词信息中与所述隐私信息白名单中任一隐私信息匹配的分词信息进行替换更新操作。
可选的,所述确定全部分词信息中的各分词是否与所述隐私信息白名单中的任一隐私信息匹配,包括:依次选取部分分词信息中的各分词;将选取的所述分词依次与所述隐私信息白名单中的隐私信息进行比对,判断所述分词是否与所述隐私信息匹配。
可选的,所述将选取的所述分词依次与所述隐私信息白名单中的隐私信息进行比对,判断所述分词是否与所述隐私信息匹配,包括:依次选取所述隐私信息白名单中的隐私信息;判断选取的所述隐私信息是否为长词;如果是,则根据所述分词采用包含或通配符方式对所述隐私信息进行模糊搜索,确定所述分词是否与所述隐私信息匹配;如果否,则将所述分词与所述隐私信息进行精准匹配,确定所述分词是否与所述隐私信息匹配。
基于同一发明构思,提供了一种面向大批量病历数据的去隐私处理装置,包括:作业建立单元,用于对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;作业分发单元,用于将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;结果获取单元,用于接收各所述客户端对所述待处理作业的去隐私处理结果。
基于同一发明构思,还提供了一种面向大批量病历数据的去隐私处理装置,包括:作业接收单元,用于接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单;分词处理单元,用于采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息;去隐私处理单元,用于根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
基于同一发明构思,本发明实施例还提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述的方法。
基于同一发明构思,本发明实施例还提出了一种计算机存储介质,存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行前述的方法。
本发明实施例通过对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;接收各所述客户端对所述待处理作业的去隐私处理结果,能够对系统整体工作状况进行实时管理,增强系统处理能力,提高整体性能,适用大批量病历文本的去隐私处理。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种面向大批量病历数据的去隐私处理系统的结构示意图;
图2示出了本发明实施例的面向大批量病历数据的去隐私处理系统的去隐私处理流程示意图;
图3示出了本发明实施例提供的一种面向大批量病历数据的去隐私处理方法的流程示意图;
图4示出了本发明实施例提供的另一种面向大批量病历数据的去隐私处理方法的流程示意图;
图5示出了本发明实施例提供的一种面向大批量病历数据的去隐私处理装置的结构示意图;
图6示出了本发明实施例提供的另一种面向大批量病历数据的去隐私处理装置的结构示意图;
图7示出了本发明实施例中的电子设备示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的一种面向大批量病历数据的去隐私处理系统的结构示意图。如图1所示,该面向大批量病历数据的去隐私处理系统采用“服务器-客户端”结构,包括:服务器和多个客户端。图1中,m、n为正整数,m表示客户端数量,n表示大批量病历文本的数量。其中,服务器负责管理所有初始病历文本和相应关键词等数据,监控各客户端的运行情况,适时进行作业分发与调度,以及汇总结果等任务。客户端负责接收来自服务器的初始病历文本和关键词等作业信息,依次进行文本分词、全文扫描、长短词比对、替换更新以及结果汇总申请等处理。面向大批量病历数据的去隐私处理系统的去隐私处理流程如图2所示,包括:
步骤100:开始。
步骤101:服务器作业整理,令i=1。
服务器对所有要进行去隐私处理的病历文本进行整理,为每个病历文本生成一个待处理作业。待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单。即任一个病历文本对应的待处理作业k=<关键词集合k,病历文本k>。令i=1,i表示第i个客户端。
步骤102:联系第i个客户端。
服务器建立与第i个客户端的连接。服务器依次与各客户端连接连接以便后续进行待处理作业的分发。
步骤103:分发作业。
服务器将一个待处理作业分发给已经建立连接的第i个客户端。
步骤104:接收作业。
客户端接收服务器分发的待处理作业。
步骤105:获取文本分词,令j=1。
客户端对待处理作业中的病历文本进行分词处理,获取对应的全部分词信息。然后令j=1,j表示全部分词信息中第j个分词。
步骤106:对比第j个分词。
客户端将第j个分词与隐私信息白名单中的隐私信息,即关键词,进行比对。
步骤107:判断是否比对成功。如果是,则执行步骤109;否则执行步骤108。
判断第j个分词与隐私信息白名单中的任一隐私信息比对成功。如果比对成功,则说明该第j个分词属于隐私信息。
步骤108:令j=j+1。
如果第j个分词与隐私信息白名单中的任一隐私信息比对不成功,说明该第j个分词不是隐私信息,则令j=j+1,然后返回执行步骤106,继续进行下一个分词的比对。本发明实施例中,客户端依次将各分词与隐私信息白名单中的各隐私信息进行比对,确定各分词是否与隐私信息白名单中的任一隐私信息匹配,即是否是隐私信息。
步骤109:内容替换更新。
如果第j个分词与隐私信息白名单中的任一隐私信息比对成功,说明该第j个分词是隐私信息,则对该第j个分词进行内容替换更新。具体可以应用预设的生成规则生成新的分词替换该第j个分词,也可以随机生成的新的分词来替换该第j个分词,或者还可以直接删除该第j个分词。
步骤110:判断是否完成所有分词比对。如果是,则执行步骤111;否则返回执行步骤108。
客户端判断是否完成当前待处理作业中所有分词的比对。
步骤111:向服务器发出汇总请求。
如果已经完成当前待处理作业中所有分词的比对,说明客户端已经完成了当前待处理作业的去隐私处理,客户端向服务器发出汇总请求,以向服务器反馈处理的隐私信息、通知服务器已完成待处理作业、当前空闲等信息。
步骤112:判断是否收到汇总请求。如果是,则执行步骤114;否则,执行步骤113。
服务器判断是否接收到客户端发送的汇总请求。
步骤113:令i=i+1。
如果服务器未接收到客户端发送的汇总请求,则令i=i+1,然后返回执行步骤102,与下一个客户端建立连接并发送下一个待处理作业。
步骤114:获取汇总结果。
如果服务器接收到客户端发送的汇总请求,则接收客户端发送的汇总结果,即对当前待处理作业的去隐私处理结果。
步骤115:判断是否完成全部作业。如果是,则执行步骤116;否则,返回执行步骤113。
服务器判断是否完成了全部待处理作业,即是否将所有待处理作业分发至各客户端。如果是则执行步骤116。否则返回步骤113,令i=i+1,然后返回执行步骤102,与下一个客户端建立连接并发送下一个待处理作业。
步骤116:等候各客户端完成作业。
如果已经完成全部待处理作业,即已经将所有待处理作业分发至各客户端,则等候各客户端完成各自的待处理作业。
步骤117:结束。
本发明实施例基于“服务器-客户端”结构,结合隐私信息白名单机制,提出“目标文本分组”的并行比对策略。通过待处理作业任务分发和目标文本分组,服务器将根据当前客户端数量和每个客户端工作进展等情况,将待处理作业任务依次发给当前响应的客户端。于是,每个客户端先后都将接收到多份病历文本。对于其中每一份病历文本,该客户端将独立承担其分词、扫描、比对和更新等全部操作,且无需与服务器或其他客户端进行协同。这种策略能够充分发挥各客户端的计算性能,全面利用数据并行优势,扩大系统可扩展的应用潜能,有力支撑大批量病历文本去隐私任务的高效完成。通过采用“白名单+目标文本分组”并行比对策略,非常适用大批量病历文本的去隐私处理。各客户端功能相对独立,并行工作的占比较高;服务器能够对系统整体工作状况进行实时管理,便于动态调整客户端数量,增强系统处理能力。
本发明实施例通过针对住院病历的文本分词来大幅降低文本搜索的目标空间大小,通过使用排序的白名单机制来优化文本比对的操作性能,减少字长不同、首字不同带来的不必要比对,再通过“服务器-客户端”并行架构高效实现各客户端的病历文本并行处理,三管齐下共同致力提高整体性能。
图3示出了本发明实施例提供的面向大批量病历数据的去隐私处理方法的流程示意图。如图3所示,该面向大批量病历数据的去隐私处理方法应用于服务器,包括:
步骤S11:对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单。
可选的,针对每个病历文本,结合医院信息系统(Hospital Information System,HIS)对所述病历文本进行关联查询,获取与所述病历文本对应的表征隐私信息的关键词集合;对所述关键词集合中的各隐私信息,依次按照字符个数、拼音首字母进行排序,生成隐私信息白名单;组合所述病历文本和与所述病历文本对应的所述隐私信息白名单,得到与所述病历文本对应的待处理作业。即服务器对所有要进行去隐私处理的病历文本进行整理,通过HIS信息的关联查询,为每一份病历文本建立一个关键词集合。即包括与该文档相关的患者姓名、唯一标识、医生姓名、医疗机构等隐私信息,并依次按照字符个数、拼音首字母等进行排序,此即为隐私信息白名单。因此服务器共需建立和维护好2个队列,一是所有的客户端信息,二是所有的待处理作业信息。注意:每一个待处理作业信息“待处理作业k”可表示为:待处理作业k=<关键词集合k,病历文本k>。
步骤S12:将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理。
在本发明实施例中,服务器依次与各客户端建立连接并进行待处理作业的分发。具体地,首先与第一个客户端建立连接,向其分发第一份待处理作业,即“待处理作业1”,然后判断是否接收到各客户端发来的结果汇总请求?如果有,则接收其汇总结果;否则,准备与下一个客户端建立联系。
步骤S13:接收各所述客户端对所述待处理作业的去隐私处理结果。
在各客户端完成待处理作业的去隐私处理后,接收客户端反馈的对所述待处理作业的去隐私处理结果。如果所有待处理作业都已发给客户端,则作业队列已为空。此时,服务器等待各客户端全部完成当前待处理作业,并最终结束当前任务。
本发明实施例通过HIS信息的融合计算和关联分析,可以基于已知的患者姓名或唯一标识等信息,从医院信息系统的结构化数据中获得与此相关的患者基本信息、主管医生姓名等隐私信息,以此建立该患者的隐私信息白名单。可见,白名单机制本质是一种将结构化和非结构化的病历相关信息进行融合与桥接的技术。通过利用已知的少部分结构化数据,快速获取对应的全部隐私信息内容,有利于优化病历文本的搜索策略,缩减搜索范围,提高数据比对的针对性,避免后续病历文本检索时的繁冗比对,从而大幅减少计算量,有效提升系统整体性能。
本发明实施例通过“服务器-客户端”并行架构高效实现各客户端的病历文本并行处理,有助于提高整体性能;通过采用“白名单+目标文本分组”并行比对策略,非常适用大批量病历文本的去隐私处理。各客户端功能相对独立,并行工作的占比较高;服务器能够对系统整体工作状况进行实时管理,便于动态调整客户端数量,增强系统处理能力。
本发明实施例的面向大批量病历数据的去隐私处理方法通过对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;接收各所述客户端对所述待处理作业的去隐私处理结果,能够对系统整体工作状况进行实时管理,增强系统处理能力,提高整体性能,适用大批量病历文本的去隐私处理。
图4示出了本发明实施例提供的另一种面向大批量病历数据的去隐私处理方法的流程示意图。如图4所示,该面向大批量病历数据的去隐私处理方法应用于客户端,包括:
步骤S21:接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单。
接收服务器发送的针对某一个病历文本的待处理作业。该待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单。隐私信息白名单是服务器通过HIS信息的关联查询建立关键词集合并依次按照字符个数、拼音首字母等进行排序后获取的。
步骤S22:采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息。
客户端从服务器接收当前某个待处理作业,然后采用中文分词技术对病历文本进行全文分词处理,以此获得当前病历文本的全部分词信息。
步骤S23:根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
在步骤S23中,首先确定全部分词信息中的各分词是否与所述隐私信息白名单中的任一隐私信息匹配。然后对全部分词信息中与所述隐私信息白名单中任一隐私信息匹配的分词信息进行替换更新操作。
在本发明实施例中,可选的,依次选取部分分词信息中的各分词;将选取的所述分词依次与所述隐私信息白名单中的隐私信息进行比对,判断所述分词是否与所述隐私信息匹配。在住院病历的隐私信息白名单中,通常存在长短词问题。其中,短词是指患者姓名、医生姓名等隐私信息,对其可采用精确匹配技术进行文本搜索和比对。而长词则是指通信地址、单位名称等隐私信息,通常可由多个词组构成,字数较多。然而,在病历文本的分词处理中,这些长词信息会被分解成多个独立的短词,如果沿用精确匹配技术进行文本搜索,则会发生隐私信息遗漏。因此,针对长词这种情况,可采用包含或通配符等方式进行模糊搜索。
在本发明实施例中,可选的,判断分词是否与隐私信息匹配时,依次选取所述隐私信息白名单中的隐私信息;判断选取的所述隐私信息是否为长词;如果是,则根据所述分词采用包含或通配符方式对所述隐私信息进行模糊搜索,确定所述分词是否与所述隐私信息匹配;如果否,则将所述分词与所述隐私信息进行精准匹配,确定所述分词是否与所述隐私信息匹配。例如,对第一个分词,首先判断白名单中的隐私信息是否为长词。如果是,则进行模糊匹配;否则为短词,进行精准匹配。即采用二分法等技术依次与白名单中各个隐私信息(关键词)进行快速过滤。此时,根据当前分词的字长值,可以快速过滤与之不等的关键词候选对象。只有当字长值相等时,才进入下一步比对。
本发明实施例通过长短词的区分比对,能够有力提高病历文本搜索的精准度,有效减少隐私信息的遗漏和误判。
如果客户端判断到全部分词信息中某一分词信息与所述隐私信息白名单中任一隐私信息匹配,则对该分词信息进行替换更新操作。具体可以应用预设的生成规则生成新的分词替换该分词信息以便必要时可以回溯,也可以随机生成的新的分词来替换该分词信息,或者还可以直接删除该分词信息。
本发明实施例应用长短词区分比对技术,能够有效解决长词比对精准度不高的难题,实现长短词处理的融合统一,同时,通过调整长短词的字长阈值,还有助于实现长词处理的准确性与时效性的平衡;通过针对住院病历的文本分词来大幅降低文本搜索的目标空间大小,通过使用排序的白名单机制来优化文本比对的操作性能,减少字长不同、首字不同带来的不必要比对,有助于提高整体性能。
上述对本发明特定实施例进行了描述。在一些情况下,在本发明实施例中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一个构思,本发明实施例还提供了一种面向大批量病历数据的去隐私处理装置。应用于服务器。附图5所示,面向大批量病历数据的去隐私处理装置包括:作业建立单元、作业分发单元以及结果获取单元。其中,
作业建立单元,用于对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;
作业分发单元,用于将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;
结果获取单元,用于接收各所述客户端对所述待处理作业的去隐私处理结果。
基于同一个构思,本发明实施例还提供了另一种面向大批量病历数据的去隐私处理装置。应用于客户端。附图6所示,面向大批量病历数据的去隐私处理装置包括:作业接收单元、分词处理单元以及去隐私处理单元。其中,
作业接收单元,用于接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单;
分词处理单元,用于采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息;
去隐私处理单元,用于根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
为了描述的方便,描述以上各装置时以功能分为各种模块分别描述。当然,在实施本发明实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述各装置应用于前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,本发明实施例还提供了一种电子设备,该电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的方法。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行如上任意一实施例中所述的方法。
图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器701、存储器702、输入/输出接口703、通信接口704和总线705。其中处理器701、存储器702、输入/输出接口703和通信接口704通过总线705实现彼此之间在设备内部的通信连接。
处理器701可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明方法实施例所提供的技术方案。
存储器702可以采用ROM(Read Only Memory,只读存储器)、RAM(RandomAccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器702可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明方法实施例所提供的技术方案时,相关的程序代码保存在存储器702中,并由处理器701来调用执行。
输入/输出接口703用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口704用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线705包括一通路,在设备的各个组件(例如处理器701、存储器702、输入/输出接口703和通信接口704)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器701、存储器702、输入/输出接口703、通信接口704以及总线705,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明实施例方案所必需的组件,而不必包含图中所示的全部组件。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本申请旨在涵盖落入所有实施例的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种面向大批量病历数据的去隐私处理方法,其特征在于,所述方法包括:
对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;
将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;
接收各所述客户端对所述待处理作业的去隐私处理结果。
2.根据权利要求1所述的方法,其特征在于,所述对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,包括:针对每个病历文本,
结合医院信息系统对所述病历文本进行关联查询,获取与所述病历文本对应的表征隐私信息的关键词集合;
对所述关键词集合中的各隐私信息,依次按照字符个数、拼音首字母进行排序,生成隐私信息白名单;
组合所述病历文本和与所述病历文本对应的所述隐私信息白名单,得到与所述病历文本对应的待处理作业。
3.一种面向大批量病历数据的去隐私处理方法,其特征在于,所述方法包括:
接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单;
采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息;
根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
4.根据权利要求3所述的方法,其特征在于,所述根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,包括:
确定全部分词信息中的各分词是否与所述隐私信息白名单中的任一隐私信息匹配;
对全部分词信息中与所述隐私信息白名单中任一隐私信息匹配的分词信息进行替换更新操作。
5.根据权利要求4所述的方法,其特征在于,所述确定全部分词信息中的各分词是否与所述隐私信息白名单中的任一隐私信息匹配,包括:
依次选取部分分词信息中的各分词;
将选取的所述分词依次与所述隐私信息白名单中的隐私信息进行比对,判断所述分词是否与所述隐私信息匹配。
6.根据权利要求5所述的方法,其特征在于,所述将选取的所述分词依次与所述隐私信息白名单中的隐私信息进行比对,判断所述分词是否与所述隐私信息匹配,包括:
依次选取所述隐私信息白名单中的隐私信息;
判断选取的所述隐私信息是否为长词;
如果是,则根据所述分词采用包含或通配符方式对所述隐私信息进行模糊搜索,确定所述分词是否与所述隐私信息匹配;
如果否,则将所述分词与所述隐私信息进行精准匹配,确定所述分词是否与所述隐私信息匹配。
7.一种面向大批量病历数据的去隐私处理装置,其特征在于,所述装置包括:
作业建立单元,用于对待去隐私处理的大批量病历文本进行处理,针对每个所述病历文本建立对应的待处理作业,所述待处理作业包括所述病历文本和与所述病历文本对应的隐私信息白名单;
作业分发单元,用于将所有的所述待处理作业分别依次分发至各客户端,以便各所述客户端根据所述隐私信息白名单对所述病历文本进行去隐私处理;
结果获取单元,用于接收各所述客户端对所述待处理作业的去隐私处理结果。
8.一种面向大批量病历数据的去隐私处理装置,其特征是,所述装置包括:
作业接收单元,用于接收服务器发送的待处理作业,所述待处理作业包括病历文本和与所述病历文本对应的隐私信息白名单;
分词处理单元,用于采用中文分词技术对所述病历文本进行全文分词处理,获取所述病历文本的全部分词信息;
去隐私处理单元,用于根据全部分词信息和所述隐私信息白名单对所述病历文本进行去隐私处理,并将去隐私处理结果反馈所述服务器。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-6中任意一项所述的方法。
10.一种计算机存储介质,其特征是,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311433142.2A CN117216800A (zh) | 2023-10-31 | 2023-10-31 | 面向大批量病历数据的去隐私处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311433142.2A CN117216800A (zh) | 2023-10-31 | 2023-10-31 | 面向大批量病历数据的去隐私处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216800A true CN117216800A (zh) | 2023-12-12 |
Family
ID=89039224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311433142.2A Pending CN117216800A (zh) | 2023-10-31 | 2023-10-31 | 面向大批量病历数据的去隐私处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216800A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558998A (zh) * | 2017-09-25 | 2019-04-02 | 国家电网公司信息通信分公司 | 专利价值机器评估中的调度方法及服务器 |
CN110289059A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 医疗数据处理方法、装置、存储介质及电子设备 |
CN111984987A (zh) * | 2020-09-01 | 2020-11-24 | 上海梅斯医药科技有限公司 | 一种用于电子病历脱敏及还原的方法、装置、系统和介质 |
CN112257108A (zh) * | 2020-10-23 | 2021-01-22 | 天津新开心生活科技有限公司 | 数据脱敏方法及装置、介质及电子设备 |
CN116305285A (zh) * | 2023-03-30 | 2023-06-23 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
CN116343976A (zh) * | 2022-12-26 | 2023-06-27 | 深圳九明珠信息科技有限公司 | 医疗数据实时脱敏方法、装置、计算机设备及存储介质 |
-
2023
- 2023-10-31 CN CN202311433142.2A patent/CN117216800A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109558998A (zh) * | 2017-09-25 | 2019-04-02 | 国家电网公司信息通信分公司 | 专利价值机器评估中的调度方法及服务器 |
CN110289059A (zh) * | 2019-06-13 | 2019-09-27 | 北京百度网讯科技有限公司 | 医疗数据处理方法、装置、存储介质及电子设备 |
CN111984987A (zh) * | 2020-09-01 | 2020-11-24 | 上海梅斯医药科技有限公司 | 一种用于电子病历脱敏及还原的方法、装置、系统和介质 |
CN112257108A (zh) * | 2020-10-23 | 2021-01-22 | 天津新开心生活科技有限公司 | 数据脱敏方法及装置、介质及电子设备 |
CN116343976A (zh) * | 2022-12-26 | 2023-06-27 | 深圳九明珠信息科技有限公司 | 医疗数据实时脱敏方法、装置、计算机设备及存储介质 |
CN116305285A (zh) * | 2023-03-30 | 2023-06-23 | 肇庆学院 | 结合人工智能的病患信息脱敏处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102485179B1 (ko) | 설명 정보 확정 방법, 장치, 전자 기기 및 컴퓨터 저장 매체 | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
CN111984851B (zh) | 医学资料搜索方法、装置、电子装置及存储介质 | |
CN112860727B (zh) | 基于大数据查询引擎的数据查询方法、装置、设备及介质 | |
CN113204621B (zh) | 文档入库、文档检索方法,装置,设备以及存储介质 | |
WO2007085187A1 (fr) | Procédé d'extraction de données, procédé de production de fichiers d'index et moteur de recherche | |
US20230109772A1 (en) | System and method for value based region searching and associated search operators | |
CN112667805A (zh) | 一种工单类别确定方法、装置、设备及介质 | |
US20040122660A1 (en) | Creating taxonomies and training data in multiple languages | |
CN108733790A (zh) | 数据排序方法、装置、服务器和存储介质 | |
JPWO2003034279A1 (ja) | 情報検索方法、情報検索プログラム、情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN116955538B (zh) | 医疗字典数据匹配方法及装置、电子设备及存储介质 | |
CN111931034B (zh) | 数据搜索方法、装置、设备及存储介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN111126034B (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
CN112015866A (zh) | 用于生成同义文本的方法、装置、电子设备及存储介质 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN117216800A (zh) | 面向大批量病历数据的去隐私处理方法及装置 | |
CN110362694A (zh) | 基于人工智能的文献数据检索方法、设备及可读存储介质 | |
CN113380414B (zh) | 基于大数据的数据采集方法及系统 | |
CN114925125A (zh) | 数据处理方法、装置和系统、电子设备及存储介质 | |
CN111444159B (zh) | 精算数据处理方法、装置、电子设备及存储介质 | |
CN114780589A (zh) | 多表连接查询方法、装置、设备及存储介质 | |
GB2567390A (en) | Method for building character sequence dictionary, method for searching character sequence dictionary, and system for processing character sequence dictionary | |
CN112307183A (zh) | 搜索数据识别方法、装置、电子设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |