CN114220548B - 一种服务于数字化医疗的大数据匿名防护方法及系统 - Google Patents

一种服务于数字化医疗的大数据匿名防护方法及系统 Download PDF

Info

Publication number
CN114220548B
CN114220548B CN202111517959.9A CN202111517959A CN114220548B CN 114220548 B CN114220548 B CN 114220548B CN 202111517959 A CN202111517959 A CN 202111517959A CN 114220548 B CN114220548 B CN 114220548B
Authority
CN
China
Prior art keywords
big data
medical
user
anonymity
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111517959.9A
Other languages
English (en)
Other versions
CN114220548A (zh
Inventor
周全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Vertical And Horizontal Wushuang Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202111517959.9A priority Critical patent/CN114220548B/zh
Publication of CN114220548A publication Critical patent/CN114220548A/zh
Application granted granted Critical
Publication of CN114220548B publication Critical patent/CN114220548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请涉及服务于数字化医疗的大数据匿名防护方法及系统,能够借助少量的用户画像描述来进行医疗用户就诊大数据匿名,因此匿名防护处理几乎不会受到用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例干扰,即便用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例不是太大也可以尽量保障精准的医疗用户就诊大数据匿名,这样能够提高医疗用户就诊大数据匿名的效率和准确性。

Description

一种服务于数字化医疗的大数据匿名防护方法及系统
技术领域
本申请实施例涉及数字化医疗和大数据匿名技术领域,具体涉及一种服务于数字化医疗的大数据匿名防护方法及系统。
背景技术
在大数据的时代,数据成为了科学研究的基石。人们在享受着推荐算法、语音识别、图像识别、无人车驾驶、数字化医疗、区块链支付等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。以数字化医疗为例,数字化医疗+大数据能够打破时空限制并提供灵活高效的就医服务,以尽可能发挥有限医疗资源的利用率。
在实际应用过程中发明人发现,针对数字化医疗用户的隐私泄露问题是数字化医疗服务中的一个缺陷。数字化医疗用户的隐私泄露可能会使得第三方对这些信息进行非法挖掘和分析,从而进行非法的业务推送等,这样会影响用户的正常医疗服务处理。但是相关应对方案针对医疗用户的隐私处理技术还存在一定技术壁垒,也即难以精准高效地对用户的隐私信息进行匿名保护。
发明内容
有鉴于此,本申请实施例提供了一种服务于数字化医疗的大数据匿名防护方法及系统。
本申请实施例提供了一种服务于数字化医疗的大数据匿名防护方法,包括:确定用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据;挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述;通过第一用户画像描述和第二用户画像描述之间的量化相关性,确定不少于一个第一画像描述二元组,其中,每组第一画像描述二元组包括第一用户画像描述和第二用户画像描述;通过第一画像描述二元组的推送状态数据,获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。
如此设计,通过获得不少于一个第一画像描述二元组,并确定第一画像描述二元组的推送状态数据,由此来获得获得存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据,然后便可以借助该推送状态数据信息获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,进而实现医疗用户就诊大数据的匿名化防护。此外,能够借助少量的用户画像描述来进行医疗用户就诊大数据匿名,因此匿名防护处理几乎不会受到用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例干扰,即便用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例不是太大也可以尽量保障精准的医疗用户就诊大数据匿名,这样能够提高医疗用户就诊大数据匿名的效率和准确性。可以理解的是,通过考虑推送状态数据,能够将医疗用户就诊大数据中的具有推送参考价值的用户画像描述进行匿名隐藏,从而避免第三方非法获取这些用户画像描述并进行大量推送,这样在一定程度上避免了相关就诊用户的隐私信息的安全性,以及避免相关的就诊用户尽量不会被无关紧要的推送信息打扰。
对于一些可独立实施的技术方案而言,前述挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述,包括:对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据;从用于进行匿名防护参考的医疗用户就诊大数据和不少于一个已调整用户就诊大数据中的每组医疗用户就诊大数据中分别挖掘不少于一个第一用户画像描述,以获得多个第一用户画像描述;和/或,第一用户画像描述和第二用户画像描述之间的量化相关性是通过第一用户画像描述和第二用户画像描述的数组型关键内容之间的差异获得的。
如此设计,通过获得不同内容分布状态的用于进行匿名防护参考的医疗用户就诊大数据(包括完成特征识别度调整的用于进行匿名防护参考的医疗用户就诊大数据),可以进一步提高本申请实施例的服务于数字化医疗的大数据匿名防护方法针对不同用于进行匿名防护参考的医疗用户就诊大数据的内容分布状态情况下的匿名处理质量。
对于一些可独立实施的技术方案而言,前述对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据,包括:确定用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的设定内容分布状态;通过设定内容分布状态获得不少于一个关联内容分布状态,其中,每个关联内容分布状态存在差异,且均小于设定内容分布状态;通过每个关联内容分布状态,对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得对应的已调整用户就诊大数据。
如此设计,通过获得不少于一个小于设定内容分布状态的关联内容分布状态,可以获得不少于一个小内容分布状态的用于进行匿名防护参考的医疗用户就诊大数据,由此可以在后续的用户隐私画像匿名中,提高优先级较低的内容分布状态情况下的医疗用户就诊大数据匿名的准确度。
对于一些可独立实施的技术方案而言,前述确定用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的设定内容分布状态,包括:通过存在医疗用户信息匿名需求的医疗用户就诊大数据的数据量、用于进行匿名防护参考的医疗用户就诊大数据的数据量以及用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的设定比例,获得设定内容分布状态。
如此设计,通过确定设定内容分布状态,在后续可以通过设定内容分布状态获得相关的内容分布状态,并依据这些内容分布状态来对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,可以提高本申请实施例的服务于数字化医疗的大数据匿名防护方法针对不同用于进行匿名防护参考的医疗用户就诊大数据的内容分布状态情况下的匿名处理质量。
对于一些可独立实施的技术方案而言,前述通过第一画像描述二元组的推送状态数据,获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,包括:通过第一画像描述二元组的推送状态数据,获得与第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的第一待定匿名策略作为画像描述匿名策略。
如此设计,通过对第一待定匿名策略进行针对性定位,可以获得更为准确的画像描述匿名策略。
对于一些可独立实施的技术方案而言,前述通过第一画像描述二元组的推送状态数据,获得与第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的第一待定匿名策略作为画像描述匿名策略,包括:挑选其中一个第一画像描述二元组作为目标画像描述二元组;通过目标画像描述二元组的推送状态数据,获得与目标画像描述二元组所指向的第一待定匿名策略;判断目标画像描述二元组所关联的第一待定匿名策略是否符合设定条件;基于所述目标画像描述二元组所关联的第一待定匿名策略符合设定条件,将目标画像描述二元组所关联的第一待定匿名策略作为画像描述匿名策略。
如此十二级,通过借助画像描述二元组,可以获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,实现医疗用户就诊大数据匿名。
对于一些可独立实施的技术方案而言,前述不少于一个第一画像描述二元组是依据第一画像描述二元组的量化相关性降序的规则挑选作为目标画像描述二元组;和/或,在所述判断所述目标画像描述二元组所关联的第一待定匿名策略是否符合设定条件之后,所述方法还包括:基于所述目标画像描述二元组所关联的第一待定匿名策略不符合所述设定条件,挑选当前的一个所述第一画像描述二元组作为所述目标画像描述二元组,并再次实施所述通过所述目标画像描述二元组的推送状态数据,获得与所述目标画像描述二元组所指向的第一待定匿名策略及其后续步骤;基于所述目标画像描述二元组所关联的第一待定匿名策略设定阶段内未查询到符合设定条件的第一待定匿名策略,确定未获得画像描述匿名策略。
如此设计,通过依据第一画像描述二元组的量化相关性降序的规则挑选目标画像描述二元组,可以快速确定出最有可能符合设定条件的第一画像描述二元组。另外,通过设定在设定阶段内未查询到符合设定条件的第一待定匿名策略的前提下,确定未获得画像描述匿名策略,可以释放对应的处理资源。
对于一些可独立实施的技术方案而言,前述通过第一画像描述二元组的推送状态数据,获得与第一画像描述二元组所指向的第一待定匿名策略,包括:在用于进行匿名防护参考的医疗用户就诊大数据中挖掘涵盖第一共性画像描述的第一用户就诊日志内容集,并在存在医疗用户信息匿名需求的医疗用户就诊大数据中挖掘涵盖第二共性画像描述的第二用户就诊日志内容集,其中,第一共性画像描述和第二共性画像描述分别为第一画像描述二元组中的第一用户画像描述和第二用户画像描述;确定第一用户就诊日志内容集的第一画像隐私评价和第二用户就诊日志内容集相对第二画像隐私评价;通过第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略。
如此设计,通过确定第一用户就诊日志内容集的第一画像隐私评价和第二用户就诊日志内容集的第二画像隐私评价,可以借助这些第一画像隐私评价和第二画像隐私评价获得第一待定匿名策略,以实现后续的医疗用户就诊大数据匿名。
对于一些可独立实施的技术方案而言,前述通过第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略,包括:通过第一画像描述二元组所关联的内容分布状态、第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略,其中,第一画像描述二元组所关联的内容分布状态为第一画像描述二元组所指向的医疗用户就诊大数据之间的内容分布状态。
如此设计,可以通过借助目标画像描述二元组的推送状态数据,目标画像描述二元组中的第一用户画像描述与第二用户画像描述的相对关系,来获得第一待定匿名策略,以实现后续的医疗用户就诊大数据匿名。
对于一些可独立实施的技术方案而言,前述通过第一画像描述二元组所关联的内容分布状态、第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略,包括:确定第一画像隐私评价与第二画像隐私评价之间的隐私评价比较结果;通过隐私评价比较结果和第一画像描述二元组所关联的内容分布状态,获得第一待定匿名策略。
如此设计,通过确定第一画像隐私评价与第二画像隐私评价之间的隐私评价比较结果,可以获得第一待定匿名策略,以实现后续的医疗用户就诊大数据匿名。
对于一些可独立实施的技术方案而言,前述第一用户就诊日志内容集的日志主题为用于进行匿名防护参考的医疗用户就诊大数据的日志主题;和/或,第一画像隐私评价为第一用户就诊日志内容集的热门就诊会话消息与第一用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离;第二画像隐私评价为第二用户就诊日志内容集的热门就诊会话消息与第二用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离。
如此,通过确定用户就诊日志内容集热门就诊会话消息与第一用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离,可以得到第一画像隐私评价和第二画像隐私评价。
对于一些可独立实施的技术方案而言,前述在挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述之前,方法还包括:在用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据中挑选多个第二画像描述二元组;结合多个第二画像描述二元组的相对关系,获得第二待定匿名策略;若第二待定匿名策略符合设定条件,则将第二待定匿名策略作为画像描述匿名策略;若第二待定匿名策略不符合设定条件,则实施挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述。
如此设计,可以实现先借助医疗用户就诊大数据的用户画像描述以及数组型关键内容进行医疗用户就诊大数据匿名,在借助医疗用户就诊大数据的用户画像描述以及数组型关键内容无法进行准确医疗用户就诊大数据匿名(比如用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的比例不是太大)的前提下,再借助用户画像描述的推送状态数据进行医疗用户就诊大数据匿名,以减少医疗用户就诊大数据匿名失败的可能性,提高医疗用户就诊大数据匿名的准确性。
对于一些可独立实施的技术方案而言,前述设定条件为:各待定匿名策略所关联的目标日志内容集与用于进行匿名防护参考的医疗用户就诊大数据之间的量化比较结果符合设定量化比较条件,各待定匿名策略所关联的目标日志内容集为借助各待定匿名策略在存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集。
如此设计,通过确定存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集与用于进行匿名防护参考的医疗用户就诊大数据的量化比较结果,可以由此来获得确定第一待定匿名策略的准确程度,进而能够从中挑选符合条件的第一待定匿名策略作为画像描述匿名策略。
对于一些可独立实施的技术方案而言,前述在所挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述之前,方法还包括:基于用于进行匿名防护参考的医疗用户就诊大数据的场景标签与存在医疗用户信息匿名需求的医疗用户就诊大数据的场景标签存在差异,将用于进行匿名防护参考的医疗用户就诊大数据优化为与存在医疗用户信息匿名需求的医疗用户就诊大数据场景标签一致。
如此设计,前述优化用于进行匿名防护参考的医疗用户就诊大数据的方法,可以在用于进行匿名防护参考的医疗用户就诊大数据为随机场景标签的前提下,也能够完成医疗用户就诊大数据匿名,有助于提高医疗用户就诊大数据匿名的抗干扰性。
本申请实施例还提供了一种大数据匿名防护系统,包括处理器、网络模块和存储器;所述处理器和所述存储器通过所述网络模块通信,所述处理器从所述存储器中读取计算机程序并运行,以执行上述的方法。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。
通过获得不少于一个第一画像描述二元组,并确定第一画像描述二元组的推送状态数据,由此来获得获得存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据,然后便可以借助该推送状态数据信息获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,进而实现医疗用户就诊大数据的匿名化防护。此外,能够借助少量的用户画像描述来进行医疗用户就诊大数据匿名,因此匿名防护处理几乎不会受到用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例干扰,即便用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例不是太大也可以尽量保障精准的医疗用户就诊大数据匿名,这样能够提高医疗用户就诊大数据匿名的效率和准确性。
附图说明
图1为本申请实施例所提供的一种大数据匿名防护系统的方框示意图。
图2为本申请实施例所提供的一种服务于数字化医疗的大数据匿名防护方法的流程图。
图3为本申请实施例所提供的一种服务于数字化医疗的大数据匿名防护装置的框图。
具体实施方式
图1示出了本申请实施例所提供的一种大数据匿名防护系统10的方框示意图。本申请实施例中的大数据匿名防护系统10可以为具有数据存储、传输、处理功能的服务端,如图1所示,大数据匿名防护系统10包括:存储器11、处理器12、网络模块13和服务于数字化医疗的大数据匿名防护装置20。本申请实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序在运行时实现上述的方法。图2示出了本申请实施例所提供的一种服务于数字化医疗的大数据匿名防护的流程图。所述方法有关的流程所定义的方法步骤应用于大数据匿名防护系统10,可以由所述处理器12实现,所述方法包括以下步骤所描述的技术方案。
step11:确定用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据。
对于一些可能的示例而言,存在医疗用户信息匿名需求的医疗用户就诊大数据可以是合法的大数据爬取线程爬取到的医疗用户就诊大数据。比如,在数字化在线医疗情景下,存在医疗用户信息匿名需求的医疗用户就诊大数据可以是智能计算机设备所爬取到的医疗用户就诊大数据。进一步地,存在医疗用户信息匿名需求的医疗用户就诊大数据中可以包括用于进行匿名防护参考的医疗用户就诊大数据。当存在医疗用户信息匿名需求的医疗用户就诊大数据中包括用于进行匿名防护参考的医疗用户就诊大数据时,可以实现用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据的匿名化处理。
在本申请实施例中,用于进行匿名防护参考的医疗用户就诊大数据可以作为参考,存在医疗用户信息匿名需求的医疗用户就诊大数据可以理解为待匿名医疗用户就诊大数据。其中,匿名需求可以是针对用户隐私信息或者用户个体画像的,但不限于此。
step12:挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述。
获得用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据以后,可以对用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据进行描述挖掘的操作,以获得关于用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据的显著性画像描述。对于一些可能的示例而言,可以借助一些描述挖掘算法进行描述挖掘,以获得医疗用户就诊大数据的中的用户画像描述,用户画像描述的数目不做具体限制。描述挖掘算法可以基于AI神经网络实现。
此外,在获得用户画像描述以后,还会获得与每个用户画像描述对应的数组型关键内容,数组型关键内容可以特征向量。因此,每一用户画像描述,皆存在一个与其对应的数组型关键内容。对用于进行匿名防护参考的医疗用户就诊大数据进行描述挖掘,获得的用户画像描述作为第一用户画像描述。对存在医疗用户信息匿名需求的医疗用户就诊大数据进行描述挖掘,获得的用户画像描述作为第二用户画像描述。
step13:通过第一用户画像描述和第二用户画像描述之间的量化相关性,确定不少于一个第一画像描述二元组,其中,每组第一画像描述二元组包括第一用户画像描述和第二用户画像描述。
在本申请实施例中,第一用户画像描述和第二用户画像描述之间的量化相关性,示例性的可以包括以下内容第一用户画像描述的数组型关键内容与第二用户画像描述的数组型关键内容的量化相关性。对于一些可能的示例而言,可以确定每一第一用户画像描述与每一第二用户画像描述的量化相关性,以此获得每一第一用户画像描述与每一第二用户画像描述之间的量化相关性(匹配程度)。
对于一些可能的示例而言,第一用户画像描述和第二用户画像描述之间的量化相关性是通过第一用户画像描述和第二用户画像描述的数组型关键内容之间的差异获得的。由此,可以通过确定用户画像描述的数组型关键内容之间的差异,以获得用户画像描述之间的量化相关性信息。比如,两个用户画像描述(一个是第一用户画像描述,一个是第二用户画像描述)数组型关键内容之间的差异的大小,即为量化相关性,差异越小则越相关;差异最小的,则可以认为是最相关的。
通过第一用户画像描述和第二用户画像描述之间的量化相关性,确定不少于一个第一画像描述二元组。每组第一画像描述二元组包括第一用户画像描述和第二用户画像描述。在挑选时,可以依据量化相关性的降序来挑选,确定一定数目的第一画像描述二元组。
示例性的,总共有X个第一用户画像描述(对应有X个数组型关键内容),Y个第二用户画像描述(对应有Y个数组型关键内容),通过确定每一第一用户画像描述与每一第二用户画像描述中每个第二用户画像描述的差异,可以获得XY个对应的差异,即XY个第一画像描述二元组。在获得XY个第一画像描述二元组后,可以对这XY个第一画像描述二元组的差异依据大小进行整理,然后依据差异升序的规则,挑选第一画像描述二元组。比如,第当X=4,Y=6时,则可以获得24个第一画像描述二元组,以及这些画像描述二元组对之间的差异,依据差异升序规则,挑选一定数目的第一画像描述二元组。
step14:通过第一画像描述二元组的推送状态数据,获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。
在获得第一画像描述二元组以后,可以确定第一画像描述二元组的推送状态数据。第一画像描述二元组的推送状态数据可以根据第一画像描述二元组中的第一用户画像描述和第二用户画像描述的推送状态数据来获得。在一个实施例中,第一画像描述二元组的推送状态数据可以是第一用户画像描述的方向与第二用户画像描述的推送反馈的评价指数。通过确定第一画像描述二元组的推送状态数据,可以得到存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据。
在本申请实施例中,推送状态数据一般可以理解为负面数据,比如用户画像描述对应的频繁推荐、无效推荐、强制推荐、绑定推荐等状态对应的数据,推送状态数据与用户的个体画像或者隐私数据强相关。
可以理解的是,在获得第一画像描述二元组的推送状态数据以后,后续便可以借助第一画像描述二元组的推送状态数据代表的存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据,来进行医疗用户就诊大数据匿名,最后获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。画像描述匿名策略比如是用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据对应的画像片段匿名标记列表。
示例性的,可以借助第一画像描述二元组的推送状态数据,以及第一画像描述二元组中的第一用户画像描述与第二用户画像描述的相对关系,比如是描述标签相对关系,来到用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。
如此设计,通过获得不少于一个第一画像描述二元组,并确定第一画像描述二元组的推送状态数据,由此来获得获得存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据,然后便可以借助该推送状态数据信息获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,进而实现医疗用户就诊大数据的匿名化防护。此外,能够借助少量的用户画像描述来进行医疗用户就诊大数据匿名,因此匿名防护处理几乎不会受到用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例干扰,即便用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例不是太大也可以尽量保障精准的医疗用户就诊大数据匿名,这样能够提高医疗用户就诊大数据匿名的效率和准确性。
可以理解的是,通过考虑推送状态数据,能够将医疗用户就诊大数据中的具有推送参考价值的用户画像描述进行匿名隐藏,从而避免第三方非法获取这些用户画像描述并进行大量推送,这样在一定程度上避免了相关就诊用户的隐私信息的安全性,以及避免相关的就诊用户尽量不会被无关紧要的推送信息打扰。
对于一些可能的示例而言,前述通过第一画像描述二元组的推送状态数据,获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,示例性的可以包括以下内容:通过第一画像描述二元组的推送状态数据,获得与第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的第一待定匿名策略作为画像描述匿名策略。
可以理解的,当第一画像描述二元组的数目为多个时,可以根据该多个第一画像描述二元组,获得多个用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的待定匿名策略,这些待定匿名策略可以作为第一待定匿名策略。此时,可以通过判断这些第一待定匿名策略能否符合设定条件,来确定是否将第一待定匿名策略作为画像描述匿名策略。在符合设定条件时,再将符合设定条件的第一待定匿名策略作为画像描述匿名策略。因此,通过对第一待定匿名策略进行针对性定位,可以获得更为准确的画像描述匿名策略。
对于一些可能的示例而言,设定条件为:各待定匿名策略所关联的目标日志内容集与用于进行匿名防护参考的医疗用户就诊大数据之间的量化比较结果符合设定量化比较条件。各待定匿名策略所关联的目标日志内容集是借助各待定匿名策略在存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集。
存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集,示例性的可以通过在存在医疗用户信息匿名需求的医疗用户就诊大数据中,确定与用于进行匿名防护参考的医疗用户就诊大数据的区分型就诊事项对应的就诊互动信息来确定。示例性的,可以在由存在医疗用户信息匿名需求的医疗用户就诊大数据获得的第二用户画像描述中,确定与由用于进行匿名防护参考的医疗用户就诊大数据的区分型就诊事项获得第一用户画像描述最相关的点就诊互动信息,来获得用于进行匿名防护参考的医疗用户就诊大数据的区分型就诊事项在存在医疗用户信息匿名需求的医疗用户就诊大数据中对应的。
在确定了存在医疗用户信息匿名需求的医疗用户就诊大数据中与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集以后,可以借助获得的每一第一待定匿名策略,对该日志内容集进行映射,获得与多个第一待定匿名策略对应的映射后日志内容集,然后再将这些日志内容集与用于进行匿名防护参考的医疗用户就诊大数据进行量化比较结果的对比,从中挑选量化比较结果符合设定量化比较条件的第一待定匿名策略作为画像描述匿名策略。对于一些可能的示例而言,也可以是借助获得的每一第一待定匿名策略,对基础医疗用户就诊大数据进行映射,然后借助映射的基础医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集进行量化比较结果比较,以此挑选量化比较结果符合设定量化比较条件的第一待定匿名策略作为画像描述匿名策略。
如此设计,通过确定存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集与用于进行匿名防护参考的医疗用户就诊大数据的量化比较结果,可以由此来获得确定第一待定匿名策略的准确程度,进而能够从中挑选符合要求的第一待定匿名策略作为画像描述匿名策略。
对于一些可能的示例而言,在确定第一待定匿名策略是否符合设定条件时,可以是逐一检测,即先检测一个第一待定匿名策略是否符合要求,若符合,则不再对其他个第一待定匿名策略进行检测,而直接将该第一待定匿名策略作为画像描述匿名策略;若不符合,再对另外的一个第一待定匿名策略进行检测,以此类推。因此,可以提高本申请实施例的大数据匿名防护方法的处理效率。
对于一些可能的示例而言,可以设定在设定阶段内未查询到符合设定条件的第一待定匿名策略的前提下,确定未获得画像描述匿名策略,这样可以释放对应的处理资源。
在一些可独立实施的设计思路而言,挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述还可以包括以下内容。
step121:对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据。
对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,可以是对用于进行匿名防护参考的医疗用户就诊大数据进行特征维度调整。对用于进行匿名防护参考的医疗用户就诊大数据进行第一调整比如是进行特征扩展,对用于进行匿名防护参考的医疗用户就诊大数据进行第二调整比如是特征精简。对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据,可以基于此生成关于用于进行匿名防护参考的医疗用户就诊大数据的医疗用户就诊大数据特征图。通过获得不同特征识别度的不少于一个已调整用户就诊大数据,可以提高本申请实施例的服务于数字化医疗的大数据匿名防护方法针在不同内容分布状态下的匿名化处理的准确率。
对于一些可能的示例而言,为了提高优先级较低的内容分布状态情况下的医疗用户就诊大数据匿名的准确度,可以对用于进行匿名防护参考的医疗用户就诊大数据进行特征精简,以获得一些特征识别度更精简的用于进行匿名防护参考的医疗用户就诊大数据。
在一些可独立实施的设计思路下,对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据,进一步可以包括以下step1211至step1213。
step1211:确定用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的设定内容分布状态。
在对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整时,可以事先确定调整的内容分布状态,即设定内容分布状态,由此来获得对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整。比如,可以是确定用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的设定内容分布状态。
对于一些可能的示例而言,可以通过存在医疗用户信息匿名需求的医疗用户就诊大数据的数据量、用于进行匿名防护参考的医疗用户就诊大数据的数据量以及用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的设定比例,获得设定内容分布状态。
设定比例可以理解为基础医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的占比,设定比例可以根据事件情况进行灵活调整。存在医疗用户信息匿名需求的医疗用户就诊大数据的数据量、用于进行匿名防护参考的医疗用户就诊大数据的数据量可以对应于存在医疗用户信息匿名需求的医疗用户就诊大数据的特征识别度。
通过确定设定内容分布状态,在后续可以通过设定内容分布状态获得相关的内容分布状态,并依据这些内容分布状态来对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,可以提高本申请实施例的服务于数字化医疗的大数据匿名防护方法在不同内容分布状态情况下的医疗用户就诊大数据匿名的准确度。
step1212:通过设定内容分布状态获得不少于一个关联内容分布状态,其中,每个关联内容分布状态存在差异,且每个关联内容分布状态的优先级均小于设定内容分布状态的优先级。
在获得的设定内容分布状态以后,可以通过设定内容分布状态获得不少于一个关联内容分布状态。关联内容分布状态的优先级可以是大于设定内容分布状态的优先级,可以小于设定内容分布状态的优先级。对于本申请实施例而言,每个关联内容分布状态存在差异,且对应的优先级均小于设定内容分布状态。关联内容分布状态可以是设定内容分布状态的精简化内容分布状态。此外,每个关联内容分布状态存在差异,且每个关联内容分布状态的优先级可以均大于设定内容分布状态的优先级。
step1213:通过每个关联内容分布状态,对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得对应的已调整用户就诊大数据。
示例性的,已调整用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的内容分布状态为对应的关联内容分布状态。
在获得不少于一个关联内容分布状态,即可以通过每个关联内容分布状态,对用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得对应的已调整用户就诊大数据,其中,已调整用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的内容分布状态为对应的关联内容分布状态。
如此设计,通过获得不少于一个小于设定内容分布状态的关联内容分布状态,可以不少于一个小内容分布状态的用于进行匿名防护参考的医疗用户就诊大数据,由此可以在后续的用户隐私画像匿名中,提高优先级较低的内容分布状态情况下的医疗用户就诊大数据匿名的准确度。
step122:从用于进行匿名防护参考的医疗用户就诊大数据和不少于一个已调整用户就诊大数据中的每组医疗用户就诊大数据中分别挖掘不少于一个第一用户画像描述,以获得多个第一用户画像描述。
获得了不少于一个已调整用户就诊大数据和用于进行匿名防护参考的医疗用户就诊大数据,表征获得了不同内容分布状态对应的用于进行匿名防护参考的医疗用户就诊大数据,由此可以对这些医疗用户就诊大数据都进行描述挖掘,在每组医疗用户就诊大数据中挖掘不少于一个第一用户画像描述,以获得不少于一个第一用户画像描述。
通过获得不同内容分布状态的用于进行匿名防护参考的医疗用户就诊大数据(包括完成特征识别度调整的用于进行匿名防护参考的医疗用户就诊大数据),可以进一步提高本申请实施例的服务于数字化医疗的大数据匿名防护方法针在不同内容分布状态下的匿名化处理的准确率。
在一些可独立实施的设计思路下,通过第一画像描述二元组的推送状态数据,获得与第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的第一待定匿名策略作为画像描述匿名策略可以包括以下内容。
step141:挑选其中一个第一画像描述二元组作为目标画像描述二元组。
基于上述相关内容,已经确定了不少于一个的第一画像描述二元组,此时可以挑选其中一个第一画像描述二元组作为目标画像描述二元组,来确定第一待定匿名策略。
对于一些可能的示例而言,前述不少于一个第一画像描述二元组是依据第一画像描述二元组的量化相关性降序的规则挑选作为目标画像描述二元组。换言之,从第一画像描述二元组中挑选目标画像描述二元组时,依据第一画像描述二元组的量化相关性,从最高量化相关性为起点。示例性的,量化相关性是用户画像描述之间的差异,也即从差异最小的第一画像描述二元组为起点。因此,可以快速、精准地确定出最有可能符合设定条件的第一画像描述二元组。
step142:通过目标画像描述二元组的推送状态数据,获得与目标画像描述二元组所指向的第一待定匿名策略。
在一些可独立实施的设计思路下,通过目标画像描述二元组的推送状态数据,获得与目标画像描述二元组所指向的第一待定匿名策略可以包括以下step1421至step1423。
step1421:在用于进行匿名防护参考的医疗用户就诊大数据中挖掘涵盖第一共性画像描述的第一用户就诊日志内容集,并在存在医疗用户信息匿名需求的医疗用户就诊大数据中挖掘涵盖第二共性画像描述的第二用户就诊日志内容集。
第一共性画像描述和第二共性画像描述分别为第一画像描述二元组中的第一用户画像描述和第二用户画像描述。在挖掘第一用户就诊日志内容集时,可以以第一共性画像描述为日志主题标签,获得一定场景标签的第一用户就诊日志内容集。
对于一些可能的示例而言,可以将第一用户就诊日志内容集的日志主题确定为用于进行匿名防护参考的医疗用户就诊大数据的日志主题。
step1422:确定第一用户就诊日志内容集的第一画像隐私评价和第二用户就诊日志内容集的第二画像隐私评价。
在确定第一用户就诊日志内容集和第二用户就诊日志内容集以后,可以借助该日志内容集中的每一描述标签点,来确定该日志内容集的画像隐私评价。借助第一用户就诊日志内容集得到的画像隐私评价为第一画像隐私评价,借助第二用户就诊日志内容集得到的画像隐私评价为第二画像隐私评价。
对于一些可能的示例而言,第一画像隐私评价为第一用户就诊日志内容集的热门就诊会话消息与第一用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离。第二画像隐私评价为第二用户就诊日志内容集的热门就诊会话消息与第二用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离。
如此设计,可以确定第一用户就诊日志内容集的第一画像隐私评价。第二用户就诊日志内容集的第二画像隐私评价的确定方法与上述确定第一画像隐私评价的方法类似。
step1423:通过第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略。
获得第一画像隐私评价和第二画像隐私评价以后,即可以通过这两个画像隐私评价来确定目标画像描述二元组的推送状态数据。比如,可以将第一画像隐私评价与第二画像隐私评价的差值作为目标画像描述二元组的推送状态数据。然后,通过目标画像描述二元组的推送状态数据,以及目标画像描述二元组中的第一用户画像描述与第二用户画像描述的相对关系,来获得第一待定匿名策略。
对于一些可能的示例而言,可以通过第一画像描述二元组所关联的内容分布状态、第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略。第一画像描述二元组所关联的内容分布状态为第一画像描述二元组所指向的医疗用户就诊大数据之间的内容分布状态,也就是第一共性画像描述的第一共性画像描述所属的用于进行匿名防护参考的医疗用户就诊大数据的内容分布状态。
在一些可独立实施的设计思路下,通过第一画像描述二元组所关联的内容分布状态、第一画像隐私评价和第二画像隐私评价,获得第一待定匿名策略可以包括以下(1)和(2)。
(1):确定第一画像隐私评价与第二画像隐私评价之间的隐私评价比较结果。
隐私评价比较结果比如是第一画像隐私评价与第二画像隐私评价的差值。
(2):通过隐私评价比较结果和第一画像描述二元组所关联的内容分布状态,获得第一待定匿名策略。
第一待定匿名策略比如是用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间对应的画像片段匿名标记列表。
如此设计,便可以借助一个目标画像描述二元组来得到用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间对应的画像片段匿名标记列表,进而实现医疗用户就诊大数据的匿名化处理。
可以理解的是,在得到第一待定匿名策略以后,可以进一步的判断第一待定匿名策略能否符合设定条件。
step143:判断目标画像描述二元组所关联的第一待定匿名策略是否符合设定条件。
设定条件的相关说明可以参阅前述step14。
对于一些可能的示例而言,可以先对第一待定匿名策略进行优化,以获得更为准确的第一待定匿名策略。如此一来,可以通过借助优化后的第一待定匿名策略确定获得的量化比较结果,来判断第一待定匿名策略是否符合设定条件。基于上述内容,若符合设定条件,可以执行step144。若不符合设定条件,可以执行step145。
step144:基于目标画像描述二元组所关联的第一待定匿名策略符合设定条件,将目标画像描述二元组所关联的第一待定匿名策略作为画像描述匿名策略。
若第一待定匿名策略符合设定条件,可以认为此时已经能够进行匿名化处理,可以基于目标画像描述二元组所关联的第一待定匿名策略符合设定条件,将该待定匿名策略作为用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。
step145:基于目标画像描述二元组所关联的第一待定匿名策略不符合设定条件,挑选当前的一个第一画像描述二元组作为目标画像描述二元组,并再次实施通过目标画像描述二元组的推送状态数据,获得与目标画像描述二元组所指向的第一待定匿名策略以及后续的相关实施步骤。
若第一待定匿名策略不符合设定条件,可以表征此时不能进行匿名化处理,可以基于目标画像描述二元组所关联的第一待定匿名策略不符合设定条件,并借助重新确定的第一画像描述二元组作为目标画像描述二元组来确定获得重新确定的第一待定匿名策略。如此设计,可以再次实施通过目标画像描述二元组的推送状态数据,获得与目标画像描述二元组所指向的第一待定匿名策略以及后续的相关实施步骤。
对于一些可能的示例而言,在从第一画像描述二元组中挑选一个目标画像描述二元组时,是依据量化相关性降序的规则来挑选的,因此,再次挑选时,则是挑选除了已经被挑选的第一画像描述二元组以后的画像描述二元组中,量化相关性最高的第一共性画像描述。
如此设计,通过借助一个画像描述二元组,可以获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,实现医疗用户就诊大数据匿名。
对于一些可能的示例而言,在前述step12之前,如果用于进行匿名防护参考的医疗用户就诊大数据的场景标签与存在医疗用户信息匿名需求的医疗用户就诊大数据的场景标签存在差异的,可以将用于进行匿名防护参考的医疗用户就诊大数据优化为与存在医疗用户信息匿名需求的医疗用户就诊大数据场景标签一致。比如,能够基于用于进行匿名防护参考的医疗用户就诊大数据的场景标签为异地就诊互动场景标签之外的随机场景标签,以将用于进行匿名防护参考的医疗用户就诊大数据优化为与存在医疗用户信息匿名需求的医疗用户就诊大数据场景标签一致的医疗用户就诊大数据,并以此医疗用户就诊大数据作为新的用于进行匿名防护参考的医疗用户就诊大数据。
如此设计,通过获得不少于一个第一画像描述二元组,并确定第一画像描述二元组的推送状态数据,由此来获得获得存在医疗用户信息匿名需求的医疗用户就诊大数据相对于用于进行匿名防护参考的医疗用户就诊大数据的推送状态数据,然后便可以借助该推送状态数据信息获得用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,进而实现医疗用户就诊大数据的匿名化防护。此外,能够借助少量的用户画像描述来进行医疗用户就诊大数据匿名,因此匿名防护处理几乎不会受到用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例干扰,即便用于进行匿名防护参考的医疗用户就诊大数据在存在医疗用户信息匿名需求的医疗用户就诊大数据中的比例不是太大也可以尽量保障精准的医疗用户就诊大数据匿名,这样能够提高医疗用户就诊大数据匿名的效率和准确性。
在一些可独立实施的设计思路下,在执行上述step12之前,还可以执行以下技术方案。
step21:在用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据中挑选多个第二画像描述二元组。
对于一些可能的示例而言,可以从用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据中挑选多个第二画像描述二元组。在一个第二画像描述二元组中,涵盖一个从用于进行匿名防护参考的医疗用户就诊大数据上挖掘的第一用户画像描述,和一个从第二医疗用户就诊特征集上挖掘的第二用户画像描述。
示例性的,用于进行匿名防护参考的医疗用户就诊大数据可以包括通过相关不同的内容分布状态获得的调整用于进行匿名防护参考的医疗用户就诊大数据,比如是之前相关的关联内容分布状态。存在医疗用户信息匿名需求的医疗用户就诊大数据也可以包括通过相关不同的内容分布状态获得的调整存在医疗用户信息匿名需求的医疗用户就诊大数据。获得的相关不同内容分布状态的用于进行匿名防护参考的医疗用户就诊大数据,可以作为用于进行匿名防护参考的医疗用户就诊大数据特征图,不同内容分布状态的相关存在医疗用户信息匿名需求的医疗用户就诊大数据作为存在医疗用户信息匿名需求的医疗用户就诊大数据特征图。换言之,在对用于进行匿名防护参考的医疗用户就诊大数据或者是存在医疗用户信息匿名需求的医疗用户就诊大数据进行描述挖掘时,可以是对用于进行匿名防护参考的医疗用户就诊大数据特征图或者是存在医疗用户信息匿名需求的医疗用户就诊大数据特征图中的全部医疗用户就诊大数据进行描述挖掘,从而获得相关的第一用户画像描述和第二用户画像描述。然后,便可以挑选多个第二画像描述二元组。
示例性的,可以通过第一用户画像描述和第二用户画像描述之间的量化相关性,确定多个第二画像描述二元组。示例性的挑选方法可以结合step13。
step22:结合多个第二画像描述二元组的相对关系,获得第二待定匿名策略。
在获得多个第二画像描述二元组以后,便可以根据这些第二画像描述二元组的相对关系,来获得第二待定匿名策略。由此来获得获得第二待定匿名策略。第二待定匿名策略比如是用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据对应的画像片段匿名标记列表。
step23:判断第二待定匿名策略是否符合设定条件。
判断第二待定匿名策略是否符合设定条件的方法,比如是判断第二待定匿名策略所关联的目标日志内容集与用于进行匿名防护参考的医疗用户就诊大数据之间的量化比较结果符合设定量化比较条件。其中,第二待定匿名策略所关联的目标日志内容集为借助第二待定匿名策略在存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集。判断第二待定匿名策略是否符合设定条件具体方法,可以结合上述第一待定匿名策略是否符合设定条件的相关内容。
若第二待定匿名策略符合设定条件,可以执行step24;若第二待定匿名策略不符合设定条件,则可以执行step25。
step24:将第二待定匿名策略作为画像描述匿名策略。
若第二待定匿名策略符合设定条件,可以认为此时已经能够进行匿名化处理。因此,可以将该待定匿名策略可以作为用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。在获得画像描述匿名策略以后,则可以基于画像描述匿名策略进行医疗用户就诊大数据的匿名化处理。
step25:执行挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述及其后续步骤。
若第二待定匿名策略不符合设定条件,可以认为此时还不能进行匿名化处理,因此,可以继续执行前述:挖掘用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述和后面的相关技术方案。
对于一些可能的示例而言,在执行step21时,可能已经挖掘了第一用户画像描述和第二用户画像描述,鉴于此,对于后续技术方案而言,可以不再执行挖掘用户画像描述的步骤。如果前述步骤还确定了第一用户画像描述和第二用户画像描述之间的量化相关性,则后续的步骤中也可以不再执行确定第一用户画像描述和第二用户画像描述之间的量化相关性的步骤。因此,可以提高大数据匿名防护的效率。
基于此,可以实现先借助医疗用户就诊大数据的用户画像描述以及数组型关键内容进行医疗用户就诊大数据匿名,在借助医疗用户就诊大数据的用户画像描述以及数组型关键内容无法进行准确医疗用户就诊大数据匿名(比如用于进行匿名防护参考的医疗用户就诊大数据与存在医疗用户信息匿名需求的医疗用户就诊大数据之间的比例不是太大)的前提下,再借助用户画像描述的推送状态数据进行医疗用户就诊大数据匿名,以减少医疗用户就诊大数据匿名失败的可能性,提高医疗用户就诊大数据匿名的准确性。
除此之外,在一些可独立实施的设计思路下,在获得所述用于进行匿名防护参考的医疗用户就诊大数据与所述存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略之后,该方法还可以包括以下内容:根据所述画像描述匿名策略对存在医疗用户信息匿名需求的医疗用户就诊大数据进行画像描述匿名处理,得到与所述存在医疗用户信息匿名需求的医疗用户就诊大数据对应的已完成画像描述匿名处理的远程医疗会话;基于所述已完成画像描述匿名处理的远程医疗会话进行网络安全防护处理。
除此之外,在一些可独立实施的设计思路下,基于所述已完成画像描述匿名处理的远程医疗会话进行网络安全防护处理,可以通过以下实施方式实现。
步骤401:确定蕴藏目标就医服务主题的多模态远程医疗会话和蕴藏所述目标就医服务主题的目标远程医疗会话;所述目标远程医疗会话蕴藏:实时远程医疗会话与衍生医疗服务会话中的不少于一种,所述目标远程医疗会话和所述多模态远程医疗会话为达到会话记录步长条件的远程医疗会话。
对于本申请实施例而言,目标远程医疗会话蕴藏如下若干类型:类型1:实时远程医疗会话;类型2:实时远程医疗会话和衍生医疗服务会话;类型3:衍生医疗服务会话。对于每一种类型下所对应的实时远程医疗会话和衍生医疗服务会话,皆为和多模态远程医疗会话之间达到会话记录步长条件的远程医疗会话。其中,会话记录步长条件可以理解为采集周期指标。此外,多模态远程医疗会话可以和对应于上述其中一种类型的目标远程医疗会话启用下述所描述的步骤403和步骤405。
对于本申请实施例而言,目标远程医疗会话和多模态远程医疗会话达到会话记录步长条件可以理解为:目标远程医疗会话和多模态远程医疗会话的记录时段相同,或者,目标远程医疗会话的记录时段和多模态远程医疗会话的记录时段之间的时长差小于设定时长差,例如,1min。进一步地,远程医疗会话包括不同类型的医疗服务交互消息,比如在线就诊、费用缴纳、患者信息填报等。
步骤403:依据所述多模态远程医疗会话和所述目标远程医疗会话对所述目标就医服务主题对应的会话事件进行异常倾向分析;以及依据多模态远程医疗会话和所述目标远程医疗会话对所述目标就医服务主题进行网络攻击偏好挖掘。
对于本申请实施例而言,可以在对会话事件进行异常倾向分析时,同时对目标就医服务主题进行网络攻击偏好挖掘。依据设置异常倾向分析和网络攻击偏好挖掘同时进行的技术思路,可以减少防护任务的执行耗时,提高防护任务的大数据防护时效性。在本身实施例中,异常倾向包括没有与正常的医疗交互服务匹配的行为倾向或者操作倾向,网络攻击偏好包括数据窃取、信息篡改、资金盗取等。此外,就医服务主题包括但不限于上述的远程就诊主题、费用咨询主题、信息完善主题等。
步骤405:在分析得到所述会话事件为具有异常倾向的可视化操作,且对所述目标网络攻击偏好挖掘完成的前提下,向云端医疗服务平台系统上报网络安全防护申请,所述云端医疗服务平台系统用于接收所述网络安全防护申请,为所述会话事件启用行为拦截策略。
对于一些可独立实施的技术方案而言,在分析得到所述会话事件不为具有异常倾向的可视化操作,和/或,对所述目标网络攻击偏好挖掘未成功的前提下,反馈防护未成功的告知指示。
针对异常倾向分析的主题识别情况,以及网络攻击偏好挖掘的主题识别情况,在主题识别情况和主题识别情况中至少一个结果未依据的前提下,则反馈防护未成功的告知指示。
在本申请实施例中,大数据匿名防护系统可以向上游的云端医疗服务平台系统反馈防护未成功的告知指示,以使上游的云端医疗服务平台系统对该未成功的行为拦截策略进行记录。
对于本申请实施例而言,如果分析得到所述会话事件为具有异常倾向的可视化操作,且对所述目标网络攻击偏好挖掘完成,则表明会话事件可能存在数据入侵或者数据攻击风险,在这种情况下,可以上报对应的网络安全防护申请,使得云端医疗服务平台系统对会话事件启用行为拦截策略,以拦截会话事件对应的相关异常操作行为,从而保障智慧医疗大数据的网络安全和数据信息安全。
对于本申请实施例而言,在确定出蕴藏目标就医服务主题的多模态远程医疗会话和目标远程医疗会话之后,依据多模态远程医疗会话和目标远程医疗会话对会话事件进行异常倾向分析的技术思路,可以提高异常倾向分析的准确性和可靠性,与此同时,依据多模态远程医疗会话和目标远程医疗会话对目标就医服务主题进行网络攻击偏好挖掘的技术思路,可以尽可能保障网络攻击偏好挖掘的质量,这样可以保障该应用于智慧医疗大数据的网络安全分析能够尽可能匹配各类智慧医疗网络安全防护情况。针对规模较为庞大的智慧医疗网络安全防护情况,采用本申请的设计思路同样可以得到高准确性和高可靠性的异常倾向分析结果和网络攻击偏好挖掘结果,继而保障对会话事件的针对性行为拦截,避免智慧医疗大数据受到入侵攻击等威胁。
对于一些可独立实施的技术方案而言,上述确定蕴藏目标就医服务主题的多模态远程医疗会话和蕴藏所述目标就医服务主题的目标远程医疗会话,示例性地可以包括如下步骤。
步骤1011,确定第一连续型服务日志,并对所述第一连续型服务日志中的医疗服务日志事项进行就医服务主题识别,识别得到蕴藏就医服务主题的第一医疗服务日志事项。
步骤1012,确定所述第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分。
步骤1013,在所述就医服务主题评分达到评分指标的前提下,通过所述第一医疗服务日志事项确定所述多模态远程医疗会话。
步骤1014,确定第二连续型服务日志,并从所述第二连续型服务日志中确定所述目标远程医疗会话。
对于本申请实施例而言,可以依据第一智能化线程记录第一连续型服务日志,其中,第一连续型服务日志中的医疗服务日志事项为多模态远程医疗会话消息。针对每个多模态远程医疗会话消息,可以对该多模态远程医疗会话消息进行就医服务主题识别,以识别该多模态远程医疗会话消息中是否蕴藏指定的就医服务主题。如果识别到蕴藏指定的就医服务主题,则确定该多模态远程医疗会话消息为第一医疗服务日志事项。
基于此,可以确定该第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分,并判断该就医服务主题评分是否达到评分指标。例如,可以判断该就医服务主题评分是否达到评分判定值,如果判定出是,则判定出达到评分指标的前提下,基于此,可以通过该第一医疗服务日志事项确定多模态远程医疗会话。
对于本申请实施例而言,确定所述第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分,示例性地可以包括如下步骤
(1)、对所述第一医疗服务日志事项进行就医服务主题识别,得到就医服务主题识别情况,其中,所述就医服务主题识别情况包括如下一项或多项:显著会话片段、会话识别度、主题分类情况、会话识别可信系数。
(2)、对所述就医服务主题识别情况进行主题解析,得到所述就医服务主题评分。
在得到就医服务主题识别情况之后,便可以利用该就医服务主题识别情况确定就医服务主题评分。
对于一些可独立实施的技术方案而言,可以为就医服务主题识别情况中的每个阶段性识别情况对应配置一个重要性指数,全部阶段性识别情况所对应的重要性指数之和为1。然后,将每个阶段性识别情况和重要性指数进行加权融合确定,得到的确定结果作为就医服务主题评分。
如此设计,依据显著会话片段、会话识别度、主题分类情况、会话识别可信系数中的一项或者多项,确定第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分的技术思路,可以提高就医服务主题评分的准确性。
对于本申请实施例而言,在按照上述所描述的技术思路确定出多模态远程医疗会话之后,便可以确定第二连续型服务日志。然后,在第二连续型服务日志中确定与第一医疗服务日志事项的记录会话进程相同的第二医疗服务日志事项,或者,确定与第一医疗服务日志事项的会话记录步长达到设定指标的第二医疗服务日志事项。之后,将确定出的第二医疗服务日志事项确定为目标远程医疗会话。
如果目标远程医疗会话蕴藏实时远程医疗会话,则可以确定相关合法爬虫程序爬取的第二连续型服务日志,在第二连续型服务日志中确定与第一医疗服务日志事项的记录会话进程相同的第二医疗服务日志事项,或者,确定与第一医疗服务日志事项的会话记录步长达到设定指标的第二医疗服务日志事项,并将该第二医疗服务日志事项确定为实时远程医疗会话。如果目标远程医疗会话蕴藏衍生医疗服务会话,则可以确定深度相机爬取的第二连续型服务日志,在第二连续型服务日志中确定与第一医疗服务日志事项的记录会话进程相同的第二医疗服务日志事项,或者,确定与第一医疗服务日志事项的会话记录步长达到设定指标的第二医疗服务日志事项,并将该第二医疗服务日志事项确定为衍生医疗服务会话。
如此设计,在第一连续型服务日志中定位出就医服务主题评分达到评分指标的第一医疗服务日志事项之后,依据该第一医疗服务日志事项进行异常倾向分析和网络攻击偏好挖掘时,可以提高异常倾向分析的识别质量,以及提高网络攻击偏好挖掘的识别质量,这样可以保障该应用于智慧医疗大数据的网络安全分析能够尽可能匹配不同的情况,以保证会话事件的防护性能。
对于一些可独立实施的技术方案而言,上述步骤1011中,通过所述第一医疗服务日志事项确定所述多模态远程医疗会话,示例性地可以包括如下过程:首先,在所述第一医疗服务日志事项中蕴藏若干就医服务主题的前提下,确定每个所述就医服务主题的会话标记,得到若干会话标记;其次,将若干会话标记中优先级最高的会话标记所标定得到的所述目标就医服务主题的就医服务主题远程医疗会话作为所述多模态远程医疗会话。
如果当前会话进程的网络状态较为混乱,第一连续型服务日志的医疗服务日志事项中可能出现蕴藏若干就医服务主题的情况。基于此,为了避免错误的采用其他会话事件的就医服务主题信息进行防护,可以从第一医疗服务日志事项多蕴藏的若干就医服务主题中确定目标就医服务主题,以依据该目标就医服务主题所对应的会话事件的相关信息启用行为拦截策略。
在本申请实施例中,可以确定每个就医服务主题的会话标记,然后,将若干会话标记中特征维度优先级最高的会话标记所标定得到的目标就医服务主题的就医服务主题远程医疗会话作为多模态远程医疗会话。可以理解的是,在利用该优先级最高的会话标记所标定得到的目标就医服务主题所对应会话事件启用行为拦截策略之后,可以向该会话事件上报防护完成信息。
对于本申请实施例而言,还可以包括以下步骤:在若干会话标记中确定蕴藏全局就医服务主题的全局会话标记;对该全局会话标记内的就医服务主题进行网络攻击偏好挖掘,得到主题识别情况;通过该主题识别情况在全局会话标记中确定网络攻击偏好挖掘完成的完成会话标记,并记录该完成会话标记所对应的就医服务主题所匹配的关键词的关键词信息。
如此设计,依据在若干会话标记中优先级最高的会话标记所对应的目标就医服务主题的就医服务主题远程医疗会话作为多模态远程医疗会话,可以减少该防护任务的执行耗时,以提高大数据防护时效性。与此同时,依据记录若干会话标记中蕴藏全局就医服务主题的会话标记所对应的就医服务主题所对应的关键词的身份信息的技术思路,还可以在目标就医服务主题定位异常的前提下,快速并精准地确定出存在防护偏差的关键词,尽可能保障行为拦截策略的稳定性。
对于一些可独立实施的技术方案而言,在所述第一医疗服务日志事项中蕴藏若干就医服务主题的前提下,还可以识别会话事件针对该若干就医服务主题的定位请求,并利用该定位请求确定出会话事件所选择的就医服务主题为目标就医服务主题,并在第一医疗服务日志事项中抽取出蕴藏该目标就医服务主题的远程医疗会话为多模态远程医疗会话。
对于一些可独立实施的技术方案而言,该方法还可以涵盖以下内容:(1)、在持续识别到若干所述第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分不达到所述评分指标的前提下,创建目标优化指示,其中,所述目标优化指示用于优化以下不少于一种目标变量:当前会话进程网络状态的会话热门指数,用于记录所述第一连续型服务日志的第一智能化线程的配置结果;(2)、依据所述目标优化指示对所述目标变量进行优化;(3)、在优化所述目标变量之后,再次确定第一连续型服务日志;并对再次确定到的第一连续型服务日志中的医疗服务日志事项进行就医服务主题识别。
若当前会话进程的网络状态不达到条件时,可能会导致第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分不达到评分指标。利用此,可以设置在识别到连续若干第一医疗服务日志事项中所蕴藏就医服务主题的就医服务主题评分不达到所述评分指标的前提下,创建目标优化指示。这里,该目标优化指示用于优化当前会话进程网络状态的会话热门指数,和/或,用于优化记录第一连续型服务日志的第一智能化线程的配置结果。
如此设计,依据目标优化指示对会话热门指数和第一智能化线程的配置结果进行优化,可以提高第一医疗服务日志事项中所蕴藏就医服务主题远程医疗会话的就医服务主题评分,从而能够提高异常倾向分析的质量和网络攻击偏好挖掘的质量。
对于一些可独立实施的技术方案而言,上述步骤103,依据多模态远程医疗会话和所述目标远程医疗会话对所述目标就医服务主题进行网络攻击偏好挖掘,示例性地可以包括如下步骤所描述的技术方案。
步骤11,确定当前会话进程的网络状态描述。
对于一些可独立实施的技术方案而言,确定当前会话进程的网络状态描述,包括:(1)、确定目标网络状态变量,其中,所述目标网络状态变量蕴藏如下一项或多项:会话热门指数、所述大数据匿名防护系统和会话事件之间的适配程度、会话事件所对应网络状态的风险评价;(2)、通过所述目标网络状态变量确定所述网络状态描述。
对于本申请实施例而言,在确定出目标网络状态变量之后,可以确定每个目标网络状态变量的量化指标。例如,可以依据确定目标网络状态变量和标准网络状态变量之间的量化分析结果(比如比值),来确定每个目标网络状态变量的量化指标。
在确定出量化指标之后,可以确定预先为每个目标网络状态变量配置的重要性指数;然后,对该量化指标和重要性指数进行加权融合确定,从而得到网络状态描述。
依据多种不同的目标网络状态变量来确定网络状态描述,可以考虑到多种影响行为拦截策略的网络状态变量,这样可以保障本申请的防护方案能够尽可能匹配任何的智慧医疗网络安全攻击情况,以扩大本申请技术方案的灵活性。
步骤12,在所述多模态远程医疗会话和所述目标远程医疗会话中确定与网络状态描述存在对应关系的辅助挖掘远程医疗会话。
这里,可以为网络状态描述设定判定值,例如,当网络状态描述大于判定值V时,可以选择多模态远程医疗会话为辅助挖掘远程医疗会话,又例如,当网络状态描述不大于判定值V时,可以选择目标远程医疗会话为辅助挖掘远程医疗会话。
步骤13,利用所述辅助挖掘远程医疗会话对所述目标就医服务主题进行网络攻击偏好挖掘。
如此设计,由于网络状态不同,则依据不同种类的远程医疗会话进行网络攻击偏好挖掘的质量也可能存在差异。例如,在网络状态不稳定,或者网络状态更新频繁的情况下,依据多模态远程医疗会话进行网络攻击偏好挖掘可能会降低网络攻击偏好挖掘的准确率。因此,依据确定与网络状态描述存在对应关系的辅助挖掘远程医疗会话,以通过该辅助挖掘远程医疗会话进行网络攻击偏好挖掘,可以提高网络攻击偏好挖掘的准确率,以保障智慧医疗大数据的攻击应对精度。
对于一些可独立实施的技术方案而言,在网络状态描述蕴藏会话热门指数的前提下,上述步骤12,从所述多模态远程医疗会话和所述目标远程医疗会话中,确定与所述网络状态描述存在对应关系的辅助挖掘远程医疗会话,还可以蕴藏如下步骤:识别当前会话进程网络状态的会话热门指数;在该会话热门指数达到设定指数条件的前提下,将所述多模态远程医疗会话确定为所述辅助挖掘远程医疗会话;在所述会话热门指数不达到所述设定指数条件的前提下,将所述实时远程医疗会话确定为所述辅助挖掘远程医疗会话。
对于本申请实施例而言,可以依据对第一医疗服务日志事项进行会话热门指数的识别(或者,对第一医疗服务日志事项中存在关联的其他医疗服务日志事项进行会话热门指数的识别),来确定当前会话进程网络状态的会话热门指数。
在本申请实施中,可以依据大数据匿名防护系统配置的会话热门指数的识别网络,对第一医疗服务日志事项(或者,第一医疗服务日志事项中存在关联的其他医疗服务日志事项)进行热度分析,得到当前会话进程网络状态的会话热门指数。
对于另外的实施例而言,还可以在大数据匿名防护系统内部配置智能化线程,以依据该智能化线程实时识别大数据匿名防护系统所对应网络状态的会话热门指数。
如此设计,可以依据大数据匿名防护系统上设置的智能化线程来识别当前会话进程网络状态的会话热门指数,还可以依据对多模态远程医疗会话进行远程医疗会话处理的技术思路,确定当前会话进程网络状态的会话热门指数。依据识别网络状态的会话热门指数,将该会话热门指数作为网络状态描述;并在多模态远程医疗会话和目标远程医疗会话中确定与会话热门指数存在对应关系的辅助挖掘远程医疗会话进行网络攻击偏好挖掘的技术思路,可以提高网络攻击偏好挖掘的准确性。
对于一些可独立实施的技术方案而言,上述步骤13,利用所述辅助挖掘远程医疗会话对所述目标就医服务主题进行网络攻击偏好挖掘,包括如下步骤所描述的技术方案。
步骤131,对辅助挖掘远程医疗会话进行就医服务主题描述挖掘,得到第一就医服务主题描述。
步骤132,在指定就医服务主题描述集中查询所述第一就医服务主题描述,并在查询到所述第一就医服务主题描述的前提下,确定目标就医服务主题的网络攻击偏好挖掘完成。
示例性的,对于本申请实施例而言,可以依据描述挖掘网络对辅助挖掘远程医疗会话进行就医服务主题描述挖掘,得到第一就医服务主题描述。然后,在指定就医服务主题描述集中查询第一就医服务主题描述,并在查询到第一就医服务主题描述的前提下,确定目标就医服务主题的网络攻击偏好挖掘完成。
对于本申请实施例而言,在所述指定就医服务主题描述集中未查询到所述第一就医服务主题描述的前提下,向云端医疗服务平台系统上报查询申请,其中,所述查询申请用于申请所述云端医疗服务平台系统在备用就医服务主题描述集中查询所述第一就医服务主题描述;并在检测到所述云端医疗服务平台系统针对所述查询申请反馈的告知信息的前提下,确定网络攻击偏好挖掘完成。
如此,在查询第一就医服务主题描述时,可以首先在指定就医服务主题描述集中查询所述第一就医服务主题描述;在未查询到所述第一就医服务主题描述的前提下,向云端医疗服务平台系统上报查询申请,以使云端医疗服务平台系统对所述第一就医服务主题描述进行查询,基于此,云端医疗服务平台系统便可以在备用就医服务主题描述集中所第一就医服务主题描述进行查询。云端医疗服务平台系统在查询到该第一就医服务主题描述的前提下,可以向大数据匿名防护系统反馈告知信息,以确认识别到该第一就医服务主题描述。
对于本申请实施例而言,可以设置在指定就医服务主题描述集中进行就医服务主题描述的差异化分析,还可以依据网络向云端医疗服务平台系统申请进行就医服务主题描述的差异化分析。依据上述实施方式中所描述的技术思路,设置首先在指定就医服务主题描述集进行就医服务主题描述差异化分析的技术思路,在指定就医服务主题描述集就医服务主题描述差异化分析未成功的前提下,依据云端医疗服务平台系统进行就医服务主题描述差异化分析的技术思路,可以忽视大数据匿名防护系统和云端医疗服务平台系统之间的非关键性互动,即使在通信稳定性较差的前提下,同样可以启用就医服务主题差异化分析,从而进一步提高就医服务主题差异化分析的效率。
对于一些可独立实施的技术方案而言,上述步骤103,依据所述多模态远程医疗会话和所述目标远程医疗会话对所述目标就医服务主题对应的会话事件进行异常倾向分析,示例性地可以包括如下步骤所描述的技术方案。
步骤21,在所述多模态远程医疗会话中抽取蕴藏所述目标就医服务主题的第一远程医疗会话,并在所述目标远程医疗会话中抽取蕴藏所述目标就医服务主题的第二远程医疗会话。
步骤22,利用所述第一远程医疗会话和所述第二远程医疗会话对所述会话事件进行异常倾向分析。
对于本申请实施例而言,可以在多模态远程医疗会话中抽取蕴藏该目标就医服务主题的第一远程医疗会话,并在实时远程医疗会话与衍生医疗服务会话中的不少于一种中抽取蕴藏目标就医服务主题的第二远程医疗会话。
在本申请实施例中,如果第一远程医疗会话和第二远程医疗会话的特征维度不相同,则可以对第一远程医疗会话和第二远程医疗会话的特征维度进行优化,优化至第一远程医疗会话和第二远程医疗会话的特征维度相同。进一步地,将所述第一远程医疗会话和所述第二远程医疗会话导入至异常倾向分析网络中进行操作,得到对所述会话事件进行异常倾向分析。
在对会话事件进行异常倾向分析时,可以依据异常倾向分析网络对多模态远程医疗会话进行异常倾向分析,然而,利用个别多模态远程医疗会话进行异常倾向分析的限制太多,因此无法保证会话异常倾向分析的质量。利用此,本申请技术方案依据多模态远程医疗会话和目标远程医疗会话对会话事件进行异常倾向分析,可以综合尽可能多的综合性分析思路来进行异常倾向分析,从而提升异常倾向分析质量。
对于一些可独立实施的技术方案而言,上述步骤21,在所述多模态远程医疗会话中抽取蕴藏所述目标就医服务主题的第一远程医疗会话,示例性地可以包括如下过程:(1)、对所述多模态远程医疗会话中的所述目标就医服务主题进行就医服务主题识别,得到第一主题识别情况,其中,所述第一主题识别情况包括:会话标记和/或显著会话片段;(2)、利用所述第一主题识别情况在所述多模态远程医疗会话中抽取蕴藏所述目标就医服务主题的第一远程医疗会话。
对于本申请实施例而言,可以首先依据就医服务主题识别网络,对该多模态远程医疗会话中所蕴藏的目标就医服务主题进行就医服务主题识别,从而得到会话标记和/或显著会话片段。
可以理解的是,在确定出第一主题识别情况之后,便可以通过该第一主题识别情况在多模态远程医疗会话中抽取得到第一远程医疗会话。
如此设计,依据抽取第一远程医疗会话,以依据该第一远程医疗会话进行异常倾向分析和网络攻击偏好挖掘,可以清洗掉多模态远程医疗会话中的冗余数据,从而提高异常倾向分析的识别质量和网络攻击偏好挖掘的识别质量。
除此之外,对于一些可独立实施的技术方案而言,在云端医疗服务平台系统为所述会话事件启用行为拦截策略之后,所述方法还包括:接收所述云端医疗服务平台系统反馈的拦截策略指示信息;根据所述拦截策略指示信息对所述会话事件中的入侵意图特征进行标记。
在本申请实施例中,拦截策略指示信息可以是云端医疗服务平台系统针对会话事件启用行为拦截策略之后生成的,拦截策略指示信息可以用于指示大数据匿名防护系统进行入侵意图特征的标记,从而使得大数据匿名防护系统能够通过入侵意图特征标记实现自主的会话事件拦截,这样可以实现智慧医疗大数据的有效网络安全防护。
除此之外,对于一些可独立实施的技术方案而言,根据所述拦截策略指示信息对所述会话事件中的入侵意图特征进行标记,可以通过以下实施方式实现:基于所述拦截策略指示信息的指示标签确定所述会话事件中待进行标记的目标显著性描述;对所述目标显著性描述中的多个会话描述特征依次执行本地类入侵检测和异地类入侵检测,得到本地类入侵检测信息集和异地类入侵检测信息集;借助第一指定核对策略,对所述本地类入侵检测信息集进行第一核对操作,得到对应于本地类入侵的第一显著性描述簇;借助第二指定核对策略,对所述异地类入侵检测信息集进行第二核对操作,得到对应于异地类入侵的第二显著性描述簇;基于所述第一显著性描述簇和所述第二显著性描述簇进行精简处理,得到所述目标显著性描述中与目标入侵相对应的标记指引;所述目标入侵包括本地类入侵和异地类入侵中的一种或两种,所述标记指引用于对所述目标显著性描述进行标记;根据所述标记指引对所述目标显著性描述进行标记。如此设计,通过考虑不同类别的入侵检测情况,能够实现对目标显著性描述的准确完整标记。
除此之外,对于一些可独立实施的技术方案而言,所述对所述目标显著性描述中的多个会话描述特征依次执行本地类入侵检测和异地类入侵检测,得到本地类入侵检测信息集和异地类入侵检测信息集,包括:对所述目标显著性描述中的多个会话描述特征依次执行本地类入侵检测,得到各个会话描述特征中的本地类入侵检测内容、以及各本地类入侵检测内容所对应的基础入侵类别;基于各会话描述特征中的本地类入侵检测内容和相应的基础入侵类别,确定本地类入侵检测信息集;对所述目标显著性描述中的多个会话描述特征依次执行异地类入侵检测,得到异地类入侵检测信息集。如此设计,能够完整地确定出本地类入侵检测信息集和异地类入侵检测信息集,避免本地类入侵检测信息集和异地类入侵检测信息集出现缺失。
除此之外,对于一些可独立实施的技术方案而言,所述对所述目标显著性描述中的多个会话描述特征依次执行异地类入侵检测,得到异地类入侵检测信息集,包括:对所述目标会话描述特征中的多个会话描述特征依次执行局部意图检测,得到各会话描述特征分别对应的局部意图检测结果;对所述目标会话描述特征中的多个会话描述特征依次执行衍生意图检测,得到各会话描述特征分别对应的衍生意图检测结果;将指向同一意图关键词的局部意图检测结果和衍生意图检测结果进行联合;基于所述目标会话描述特征中与目标局部意图检测结果相联合的衍生意图检测结果进行异地类入侵检测处理,得到异地类入侵检测信息集。如此设计,可以准确完整地确定出异地类入侵检测信息集。
基于上述同样的发明构思,还提供了一种服务于数字化医疗的大数据匿名防护装置20,应用于大数据匿名防护系统10,所述装置包括:
画像描述挖掘模块21,用于确定用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据;挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和所述存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述;
匿名策略确定模块22,用于通过所述第一用户画像描述和第二用户画像描述之间的量化相关性,确定不少于一个第一画像描述二元组,其中,每个所述第一画像描述二元组涵盖所述第一用户画像描述和第二用户画像描述;通过所述第一画像描述二元组的推送状态数据,获得所述用于进行匿名防护参考的医疗用户就诊大数据与所述存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种服务于数字化医疗的大数据匿名防护方法,其特征在于,应用于大数据匿名防护系统,所述方法包括:
确定用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据;挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和所述存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述;
通过所述第一用户画像描述和第二用户画像描述之间的量化相关性,确定不少于一个第一画像描述二元组,其中,每个所述第一画像描述二元组涵盖所述第一用户画像描述和第二用户画像描述;通过所述第一画像描述二元组的推送状态数据,获得所述用于进行匿名防护参考的医疗用户就诊大数据与所述存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略;
其中,推送状态数据为负面数据,包括用户画像描述对应的频繁推荐状态、无效推荐状态、强制推荐状态、绑定推荐状态对应的数据;
其中,所述通过所述第一画像描述二元组的推送状态数据,获得所述用于进行匿名防护参考的医疗用户就诊大数据与所述存在医疗用户信息匿名需求的医疗用户就诊大数据之间的画像描述匿名策略,包括:通过所述第一画像描述二元组的推送状态数据,获得与所述第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的所述第一待定匿名策略作为所述画像描述匿名策略;
其中,所述通过所述第一画像描述二元组的推送状态数据,获得与所述第一画像描述二元组所指向的第一待定匿名策略,并将符合设定条件的所述第一待定匿名策略作为所述画像描述匿名策略,包括:挑选其中一个所述第一画像描述二元组作为目标画像描述二元组;通过所述目标画像描述二元组的推送状态数据,获得与所述目标画像描述二元组所指向的第一待定匿名策略;判断所述目标画像描述二元组所关联的第一待定匿名策略是否符合设定条件;基于所述目标画像描述二元组所关联的第一待定匿名策略符合所述设定条件,将所述目标画像描述二元组所关联的第一待定匿名策略作为所述画像描述匿名策略;
其中,所述不少于一个第一画像描述二元组是依据所述第一画像描述二元组的量化相关性降序的规则挑选作为所述目标画像描述二元组;在所述判断所述目标画像描述二元组所关联的第一待定匿名策略是否符合设定条件之后,所述方法还包括:基于所述目标画像描述二元组所关联的第一待定匿名策略不符合所述设定条件,挑选当前的一个所述第一画像描述二元组作为所述目标画像描述二元组,并再次实施所述通过所述目标画像描述二元组的推送状态数据,获得与所述目标画像描述二元组所指向的第一待定匿名策略;基于设定阶段内未查询到符合所述设定条件的第一待定匿名策略,确定未获得所述画像描述匿名策略。
2.如权利要求1所述的方法,其特征在于,所述挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述,包括:
对所述用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据;
从所述用于进行匿名防护参考的医疗用户就诊大数据和所述不少于一个已调整用户就诊大数据中的每组医疗用户就诊大数据中分别挖掘不少于一个第一用户画像描述,以获得所述多个第一用户画像描述;所述第一用户画像描述和第二用户画像描述之间的量化相关性是通过所述第一用户画像描述和第二用户画像描述的数组型关键内容之间的差异获得的;
其中,所述特征识别度调整为特征维度调整,包括特征扩展和特征精简。
3.如权利要求2所述的方法,其特征在于,所述对所述用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得不同特征识别度的不少于一个已调整用户就诊大数据,包括:
确定所述用于进行匿名防护参考的医疗用户就诊大数据与所述存在医疗用户信息匿名需求的医疗用户就诊大数据之间的设定内容分布状态;
通过所述设定内容分布状态获得不少于一个关联内容分布状态,其中,每个所述关联内容分布状态存在差异,且每个所述关联内容分布状态的优先级皆小于所述设定内容分布状态的优先级;
通过每个所述关联内容分布状态,对所述用于进行匿名防护参考的医疗用户就诊大数据进行特征识别度调整,获得对应的所述已调整用户就诊大数据。
4.如权利要求1所述的方法,其特征在于,所述通过所述第一画像描述二元组的推送状态数据,获得与所述第一画像描述二元组所指向的第一待定匿名策略,包括:在所述用于进行匿名防护参考的医疗用户就诊大数据中挖掘涵盖第一共性画像描述的第一用户就诊日志内容集,并在所述存在医疗用户信息匿名需求的医疗用户就诊大数据中挖掘涵盖第二共性画像描述的第二用户就诊日志内容集,其中,所述第一共性画像描述和第二共性画像描述分别为所述第一画像描述二元组中的第一用户画像描述和第二用户画像描述;确定所述第一用户就诊日志内容集的第一画像隐私评价和所述第二用户就诊日志内容集的第二画像隐私评价;通过所述第一画像隐私评价和所述第二画像隐私评价,获得所述第一待定匿名策略;
其中,所述通过所述第一画像隐私评价和所述第二画像隐私评价,获得所述第一待定匿名策略,包括:通过所述第一画像描述二元组所关联的内容分布状态、所述第一画像隐私评价和所述第二画像隐私评价,获得所述第一待定匿名策略,其中,所述第一画像描述二元组所关联的内容分布状态为所述第一画像描述二元组所指向的医疗用户就诊大数据之间的内容分布状态;
其中,所述通过所述第一画像描述二元组所关联的内容分布状态、所述第一画像隐私评价和所述第二画像隐私评价,获得所述第一待定匿名策略,包括:确定所述第一画像隐私评价与第二画像隐私评价之间的隐私评价比较结果;通过所述隐私评价比较结果和所述第一画像描述二元组所关联的内容分布状态,获得所述第一待定匿名策略;
其中,所述第一用户就诊日志内容集的日志主题为所述用于进行匿名防护参考的医疗用户就诊大数据的日志主题;所述第一画像隐私评价为所述第一用户就诊日志内容集的热门就诊会话消息与所述第一用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离;所述第二画像隐私评价为所述第二用户就诊日志内容集的热门就诊会话消息与所述第二用户就诊日志内容集的日志主题的关键词比较结果与设定推送关键词之间的词向量距离。
5.如权利要求1所述的方法,其特征在于,在所述挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和所述存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述之前,所述方法还包括:
在所述用于进行匿名防护参考的医疗用户就诊大数据和存在医疗用户信息匿名需求的医疗用户就诊大数据中挑选多个第二画像描述二元组;根据所述多个第二画像描述二元组的相对关系,获得第二待定匿名策略;
如果所述第二待定匿名策略符合设定条件,则将所述第二待定匿名策略作为所述画像描述匿名策略;如果所述第二待定匿名策略不符合所述设定条件,则实施所述挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和所述存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述;
其中,所述设定条件为:各待定匿名策略所关联的目标日志内容集与所述用于进行匿名防护参考的医疗用户就诊大数据之间的量化比较结果符合设定量化比较条件,所述各待定匿名策略所关联的目标日志内容集为借助各待定匿名策略在所述存在医疗用户信息匿名需求的医疗用户就诊大数据中确定的与所述用于进行匿名防护参考的医疗用户就诊大数据对应的日志内容集。
6.如权利要求1所述的方法,其特征在于,在所述挖掘所述用于进行匿名防护参考的医疗用户就诊大数据的多个第一用户画像描述和所述存在医疗用户信息匿名需求的医疗用户就诊大数据的多个第二用户画像描述之前,所述方法还包括:
基于所述用于进行匿名防护参考的医疗用户就诊大数据的场景标签与所述存在医疗用户信息匿名需求的医疗用户就诊大数据的场景标签存在差异,将所述用于进行匿名防护参考的医疗用户就诊大数据优化为与所述存在医疗用户信息匿名需求的医疗用户就诊大数据场景标签一致。
7.一种大数据匿名防护系统,其特征在于,包括处理器、网络模块和存储器;所述处理器和所述存储器通过所述网络模块通信,所述处理器从所述存储器中读取计算机程序并运行,以执行权利要求1-6任一项所述的方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序在运行时实现权利要求1-6任一项所述的方法。
CN202111517959.9A 2021-12-13 2021-12-13 一种服务于数字化医疗的大数据匿名防护方法及系统 Active CN114220548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111517959.9A CN114220548B (zh) 2021-12-13 2021-12-13 一种服务于数字化医疗的大数据匿名防护方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111517959.9A CN114220548B (zh) 2021-12-13 2021-12-13 一种服务于数字化医疗的大数据匿名防护方法及系统

Publications (2)

Publication Number Publication Date
CN114220548A CN114220548A (zh) 2022-03-22
CN114220548B true CN114220548B (zh) 2022-08-30

Family

ID=80701364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111517959.9A Active CN114220548B (zh) 2021-12-13 2021-12-13 一种服务于数字化医疗的大数据匿名防护方法及系统

Country Status (1)

Country Link
CN (1) CN114220548B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114697127B (zh) * 2022-04-13 2023-04-14 以上科技有限公司 一种基于云计算的业务会话风险处理方法及服务器
CN114880709B (zh) * 2022-05-23 2023-04-07 上海焱祺华伟信息系统技术有限公司 一种应用人工智能的电商数据防护方法及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765659A (zh) * 2021-01-20 2021-05-07 丁同梅 针对大数据云服务的数据泄露防护方法及大数据服务器
CN113409014A (zh) * 2021-06-19 2021-09-17 王洪玉 基于人工智能的大数据业务处理方法及人工智能服务器
CN113641887A (zh) * 2021-08-26 2021-11-12 河南工业大学 一种基于语义轨迹模式的移动轨迹去匿名方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326981A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Universal health data collector and advisor for people
EP3049958B1 (en) * 2013-09-27 2020-01-22 Intel Corporation Methods and apparatus to identify privacy relevant correlations between data values
CN106529177B (zh) * 2016-11-12 2019-05-03 杭州电子科技大学 一种基于医疗大数据的患者画像方法及装置
US11424926B2 (en) * 2020-04-23 2022-08-23 Yo Corporation Tokenized encryption system for preserving anonymity while collecting behavioral data in networked systems
CN112071425B (zh) * 2020-09-04 2022-10-21 平安科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN113420065A (zh) * 2021-06-19 2021-09-21 王洪玉 一种应用于业务大数据的数据处理方法及大数据服务器
CN113656688A (zh) * 2021-08-09 2021-11-16 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765659A (zh) * 2021-01-20 2021-05-07 丁同梅 针对大数据云服务的数据泄露防护方法及大数据服务器
CN113409014A (zh) * 2021-06-19 2021-09-17 王洪玉 基于人工智能的大数据业务处理方法及人工智能服务器
CN113641887A (zh) * 2021-08-26 2021-11-12 河南工业大学 一种基于语义轨迹模式的移动轨迹去匿名方法及系统

Also Published As

Publication number Publication date
CN114220548A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN114220548B (zh) 一种服务于数字化医疗的大数据匿名防护方法及系统
CN109255255B (zh) 基于区块链的数据处理方法、装置、设备和存储介质
CN109614238B (zh) 一种目标对象识别方法、装置、系统及可读存储介质
US8141166B2 (en) Content access rights management system which embeds restricted metadata into a picture
US20130110802A1 (en) Context aware tagging interface
US20130097144A1 (en) Supplemental search results having social connection endorsement data on a serp
US20130097140A1 (en) Presenting social network connections on a search engine results page
CN113469663A (zh) 一种结合人工智能的智慧业务信息分析方法及系统
US9218358B2 (en) Identifying files stored on client devices as web-based search results
CN113706177A (zh) 一种基于大数据安防的威胁识别方法及数据安防服务器
US20090204560A1 (en) Method for determining validity of command and system thereof
CN102609434A (zh) 使用社交数据的面部识别
CN102542012A (zh) 分类搜索查询的结果
CN112182604B (zh) 文件检测系统以及方法
CN107016293A (zh) 有范围的资源授权策略
CN114221803B (zh) 一种应用于智慧医疗大数据的网络安全分析方法、系统及存储介质
CN114417405B (zh) 一种基于人工智能的隐私业务数据分析方法及服务器
CN114553658A (zh) 一种基于云计算的资源共享安全处理方法及服务器
CN115203282A (zh) 结合深度学习的智慧企服用户数据处理方法及系统
US20210166331A1 (en) Method and system for risk determination
CN114595382A (zh) 一种基于图像数据和深度学习的隐私决策推荐系统
US8364749B2 (en) Collaborative tagging systems and methods for resources
CN110059315B (zh) 一种科技资源感知融合决策方法
CN117459266A (zh) 一种网络安全风险识别方法、装置及相关产品
CN113656466B (zh) 保单数据查询方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220816

Address after: Niejia Village, Liuxue Town, Bincheng District, Binzhou City, Shandong Province, 256600

Applicant after: Luo Min

Address before: 256600 international building, No. 601, Bohai 16th Road, Bincheng District, Binzhou City, Shandong Province

Applicant before: Shandong imagination Big Data Service Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221130

Address after: 983-1, Floor 9, No. 11, Zhongguancun Street, Haidian District, Beijing 100080

Patentee after: Beijing Vertical and Horizontal Wushuang Technology Co.,Ltd.

Address before: Niejia Village, Liuxue Town, Bincheng District, Binzhou City, Shandong Province, 256600

Patentee before: Luo Min