CN116522401B - 基于云数据安全的信息去标识化处理方法及系统 - Google Patents

基于云数据安全的信息去标识化处理方法及系统 Download PDF

Info

Publication number
CN116522401B
CN116522401B CN202310807454.9A CN202310807454A CN116522401B CN 116522401 B CN116522401 B CN 116522401B CN 202310807454 A CN202310807454 A CN 202310807454A CN 116522401 B CN116522401 B CN 116522401B
Authority
CN
China
Prior art keywords
cloud service
service session
text
logs
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310807454.9A
Other languages
English (en)
Other versions
CN116522401A (zh
Inventor
涂浩
王泽�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Lechaoren Technology Co ltd
Original Assignee
Chengdu Lechaoren Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Lechaoren Technology Co ltd filed Critical Chengdu Lechaoren Technology Co ltd
Priority to CN202310807454.9A priority Critical patent/CN116522401B/zh
Publication of CN116522401A publication Critical patent/CN116522401A/zh
Application granted granted Critical
Publication of CN116522401B publication Critical patent/CN116522401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及一种基于云数据安全的信息去标识化处理方法及系统,鉴于挖掘的是进行文本汇总操作之后的会话交互文本大数据的文本块敏感知识描述变量,即使会话交互文本大数据中的各个目标会话交互文本信息的先后存在差异,同样能获得相同的文本块敏感知识描述变量,可确保对存在文本生成延时的会话交互文本进行精准的隐私特征共性评分确定,并且在确定隐私特征共性评分时是基于不同会话交互文本大数据的文本块敏感知识描述变量进行确定,而不必考虑全局文本向量的隐私特征共性评分,可以简化隐私特征共性评分的确定步骤,从而提升关联云服务会话日志的确定时效性,能够快速、高效地实现最少两个云服务会话日志的信息去标识化处理。

Description

基于云数据安全的信息去标识化处理方法及系统
技术领域
本发明涉及云数据技术领域,具体而言,涉及一种基于云数据安全的信息去标识化处理方法及系统。
背景技术
云数据(Cloud data)涉及基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警等技术与平台。随着云数据在云服务业务中的广泛应用,云数据安全受到越来越多的重视。云数据安全处理的其中一个关键技术是信息去标识化/信息匿名化处理。通过信息去标识化/信息匿名化处理,能够实现对隐私数据信息的保护,避免泄露。然而发明人经研究核分析发现,传统的信息去标识化/信息匿名化处理技术存在时效性低下的问题。
发明内容
为了至少克服现有技术中的上述不足,本发明的目的之一在于提供一种基于云数据安全的信息去标识化处理方法及系统。
本发明实施例提供了一种基于云数据安全的信息去标识化处理方法,应用于基于云数据安全的信息去标识化处理系统,所述方法包括:
接收不同云服务平台系统发送的多个云服务会话日志,确定各个云服务会话日志对应的最少两个目标会话交互文本信息;
将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据;
确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分;
通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志;
对所述符合隐私特征共性分析要求的最少两个云服务会话日志进行信息去标识化处理。
在一些优选的实施例中,所述确定各个云服务会话日志对应的最少两个目标会话交互文本信息,包括:
对各个云服务会话日志进行会话文本识别,得到所述各个云服务会话日志对应的多个在线会话交互文本信息;
从所述各个云服务会话日志对应的多个在线会话交互文本信息中依据设定的采样周期进行文本采样操作,得到所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息;
从所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息中任意抽取设定数量的在线会话交互文本信息,得到所述各个云服务会话日志对应的最少两个目标会话交互文本信息。
在一些优选的实施例中,所述将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据,包括:
获取设定的文本信息细粒度,通过所述文本信息细粒度对所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本细粒度更新,得到所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息;
依据所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息的时序特征,对所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据。
在一些优选的实施例中,所述确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,包括:
依据设定的敏感知识描述挖掘网络对各个会话交互文本大数据进行敏感知识描述挖掘,得到所述各个会话交互文本大数据的敏感文本知识项;
通过所述各个会话交互文本大数据的敏感文本知识项确定所述各个会话交互文本大数据的敏感知识量化决策指数;
通过所述各个会话交互文本大数据的敏感知识量化决策指数对相应的各个敏感文本知识项进行量化映射操作,得到所述各个会话交互文本大数据的文本块敏感知识描述变量。
在一些优选的实施例中,所述通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分,包括:
通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定不同云服务会话日志的文本块敏感知识描述变量中的相同知识要素分布特征;
基于文本块敏感知识描述变量的全局知识要素分布特征和所述相同知识要素分布特征,确定所述不同云服务会话日志之间的隐私特征共性评分。
在一些优选的实施例中,所述通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志,包括:
获取设定的隐私特征共性评分限值;
将隐私特征共性评分不小于所述隐私特征共性评分限值的最少两个云服务会话日志确定为符合隐私特征共性分析要求的最少两个云服务会话日志;
所述方法还包括:
从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志;
对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志;
通过所述完成优化操作的云服务会话日志确定拟共享云服务会话日志,并将所述拟共享云服务会话日志共享到云共享服务系统。
在一些优选的实施例中,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
确定所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的参与用户数量;
将所述最少两个云服务会话日志中除参与用户数量最多的剩余云服务会话日志确定为目标云服务会话日志。
在一些优选的实施例中,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
获取所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值;
当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值大于预设差异值时,将所述最少两个云服务会话日志中除隐私预警消息累计值最少的剩余云服务会话日志确定为目标云服务会话日志。
在一些优选的实施例中,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值不大于预设差异值时,响应于所述云共享服务系统发送的文本信息共享申请,获取所述云共享服务系统对应的过往共享执行记录;
通过所述过往共享执行记录确定所述云共享服务系统对应的共享需求标签;
通过所述共享需求标签,将所述符合隐私特征共性分析要求的最少两个云服务会话日志中除与所述共享需求标签适配权重最高的剩余云服务会话日志确定为目标云服务会话日志。
在一些优选的实施例中,所述对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志,包括:
将所述目标云服务会话日志从所述多个云服务会话日志中移除,得到完成优化操作的云服务会话日志;
或者;对所述目标云服务会话日志进行置信度调整处理,得到完成优化操作的云服务会话日志。
本发明实施例还提供了一种基于云数据安全的信息去标识化处理系统,包括处理器以及与所述处理器连接的存储器和总线;其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述的基于云数据安全的信息去标识化处理方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的基于云数据安全的信息去标识化处理方法。
有益效果
本发明实施例所提供的一种基于云数据安全的信息去标识化处理方法及系统,基于云数据安全的信息去标识化处理系统在接收不同云服务平台系统发送的多个云服务会话日志之后,确定各个云服务会话日志对应的最少两个目标会话交互文本信息,然后将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据,并确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分,最后通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志。这样一来,鉴于是在得到最少两个目标会话交互文本信息后进行了文本汇总操作,并挖掘的是会话交互文本大数据的文本块敏感知识描述变量,如此一来,即使会话交互文本大数据中的各个目标会话交互文本信息的先后存在差异,同样可以获得相同的文本块敏感知识描述变量,这样可以确保对存在文本生成延时的会话交互文本进行精准的隐私特征共性评分确定,并且在确定隐私特征共性评分时是基于不同会话交互文本大数据的文本块敏感知识描述变量进行确定,而不必考虑全局文本向量的隐私特征共性评分,这样可以简化隐私特征共性评分的确定步骤,从而提升关联云服务会话日志的确定时效性,在此基础上能够快速、高效地实现最少两个云服务会话日志的信息去标识化处理。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种基于云数据安全的信息去标识化处理方法的流程图。
图2为本发明实施例所提供的一种基于云数据安全的信息去标识化处理系统的方框示意图。
图标:
100-基于云数据安全的信息去标识化处理系统;
101-处理器;102-存储器;103-总线。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
图1为根据本发明一个实施例提供的基于云数据安全的信息去标识化处理方法的流程图,应用于基于云数据安全的信息去标识化处理系统,包括步骤101-步骤105。
步骤101、接收不同云服务平台系统发送的多个云服务会话日志,确定各个云服务会话日志对应的最少两个目标会话交互文本信息。
本发明实施例中,云服务平台系统可以提供在线业务服务,比如电子商务服务、政企业务服务、供应链金融服务等。而不同的云服务平台系统可以为不同地区的用户提供相应的在线业务服务。基于此,用户通过智能业务设备和对应的云服务平台系统进行交互,从而生成对应的云服务会话日志,该云服务会话日志可以通过文本流(由多个会话交互文本信息构成)的形式进行表征。
步骤102、将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据。
本发明实施例中,文本汇总操作用于将各个云服务会话日志对应的最少两个目标会话交互文本信息进行整合,从而得到各个云服务会话日志对应的会话交互文本大数据(汇总文本)。
步骤103、确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分。
本发明实施例中,文本块敏感知识描述变量可以理解为会话交互文本大数据中敏感文本块或者隐私文本单元的特征,换言之,文本块敏感知识描述变量还可以理解为会话交互文本大数据的局部文本特征。文本块敏感知识描述变量可以通过特征向量或者知识向量的形式进行表征。在此基础上,可以基于文本特征层面实现各个云服务会话日志之间的隐私特征共性评分的确定,从而确定各个云服务会话日志之间的隐私特征相似性。
步骤104、通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志。
在确定出各个云服务会话日志之间的隐私特征共性评分之后,可以进行隐私特征共性分析,从而确定出符合隐私特征共性分析要求(也即相似性条件)的最少两个云服务会话日志。
步骤105、对所述符合隐私特征共性分析要求的最少两个云服务会话日志进行信息去标识化处理。
本发明实施例中,符合隐私特征共性分析要求的最少两个云服务会话日志中的隐私特征的相对分布、语义细节以及重要程度都较为接近,这样一来,可以通过相同的信息去标识化策略对最少两个云服务会话日志进行信息去标识化处理,从而提高信息去标识化处理的准确性和效率,无需对每个云服务会话日志分别配置相应的信息去标识化策略。其中,信息去标识化可以理解为信息匿名、信息脱敏、信息泛化,旨在确保隐私数据信息的安全性。
可见,应用步骤101-步骤105,基于云数据安全的信息去标识化处理系统在接收不同云服务平台系统发送的多个云服务会话日志之后,确定各个云服务会话日志对应的最少两个目标会话交互文本信息,然后将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据,并确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分,最后通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志。这样一来,鉴于是在得到最少两个目标会话交互文本信息后进行了文本汇总操作,并挖掘的是会话交互文本大数据的文本块敏感知识描述变量,如此一来,即使会话交互文本大数据中的各个目标会话交互文本信息的先后存在差异,同样可以获得相同的文本块敏感知识描述变量,这样可以确保对存在文本生成延时的会话交互文本进行精准的隐私特征共性评分确定,并且在确定隐私特征共性评分时是基于不同会话交互文本大数据的文本块敏感知识描述变量进行确定,而不必考虑全局文本向量的隐私特征共性评分,这样可以简化隐私特征共性评分的确定步骤,从而提升关联云服务会话日志的确定时效性,在此基础上能够快速、高效地实现最少两个云服务会话日志的信息去标识化处理。
在一些可能的实施例中,步骤101中的确定各个云服务会话日志对应的最少两个目标会话交互文本信息,包括步骤1011-步骤1013。
步骤1011、对各个云服务会话日志进行会话文本识别,得到所述各个云服务会话日志对应的多个在线会话交互文本信息。
其中,会话文本识别用于进行会话文本的拆分处理或者拆解处理,以得到各个云服务会话日志对应的多个在线会话交互文本信息,在线会话交互文本信息的文本生成时刻存在差异。
步骤1012、从所述各个云服务会话日志对应的多个在线会话交互文本信息中依据设定的采样周期进行文本采样操作,得到所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息。
其中,设定的采样周期可以理解为预设的时间步长,文本采样操作用于对多个在线会话交互文本信息进行抽取,从而得到采样得到的在线会话交互文本信息(抽样会话交互文本信息)。
步骤1013、从所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息中任意抽取设定数量的在线会话交互文本信息,得到所述各个云服务会话日志对应的最少两个目标会话交互文本信息。
在本发明实施例中,通过实施步骤1011-步骤1013,能够在确定目标会话交互文本信息时通过文本采样操作和基于设定数量的抽取操作得到目标会话交互文本信息,从而引入在线会话交互文本信息的文本生成时刻作为隐私特征共性分析的条件因素,保障隐私特征共性分析的准确性和可靠性。
在一些可能的设计思路下,步骤102中的将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据,包括步骤1021和步骤1022。
步骤1021、获取设定的文本信息细粒度,通过所述文本信息细粒度对所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本细粒度更新,得到所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息。
本发明实施例中,文本信息细粒度用于表征目标会话交互文本信息的信息承载量,文本信息细粒度越高,目标会话交互文本信息的信息承载量越大,文本信息细粒度越低,目标会话交互文本信息的信息承载量越小,在此基础上进行文本细粒度更新,可以确保目标会话交互文本信息的文本信息细粒度一致性。
步骤1022、依据所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息的时序特征,对所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据。
可以理解,在完成细粒度更新之后,通过结合时序特征进行文本汇总操作,能够确保会话交互文本大数据的局部有序性和局部完整性。如此一来,通过实施步骤1021和步骤1022,通过文本细粒度更新,可以确保目标会话交互文本信息的文本信息细粒度一致性,通过结合时序特征进行文本汇总操作,能够确保会话交互文本大数据的局部有序性和局部完整性。
在一些示例性设计思路下,步骤103中的确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,包括步骤1031-步骤1033。
步骤1031、依据设定的敏感知识描述挖掘网络对各个会话交互文本大数据进行敏感知识描述挖掘,得到所述各个会话交互文本大数据的敏感文本知识项。
在本发明实施例中,敏感知识描述挖掘网络可以是深度残差可逆网络,用于进行敏感文本特征的挖掘,敏感文本知识项可以理解为会话交互文本大数据的敏感文本特征向量。
步骤1032、通过所述各个会话交互文本大数据的敏感文本知识项确定所述各个会话交互文本大数据的敏感知识量化决策指数。
在本发明实施例中,敏感知识量化决策指数可以理解为对敏感知识进行量化处理的门限值。
步骤1033、通过所述各个会话交互文本大数据的敏感知识量化决策指数对相应的各个敏感文本知识项进行量化映射操作,得到所述各个会话交互文本大数据的文本块敏感知识描述变量。
在本发明实施例中,量化映射操作用于对各个会话交互文本大数据的敏感知识量化决策指数对相应的各个敏感文本知识项进行二值化映射,这样所得到的文本块敏感知识描述变量是二值化形式的特征向量,基于此,能够将浮点型特征进行简化,从而提高确定隐私特征共性评分的时效性,减少不必要的资源开销。
在一些示例性实施例中,步骤103中的通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分,包括步骤103a和步骤103b。
步骤103a、通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定不同云服务会话日志的文本块敏感知识描述变量中的相同知识要素分布特征。
本发明实施例中,知识要素分布特征可以理解为文本块敏感知识描述变量中的知识要素的位置特征。
步骤103b、基于文本块敏感知识描述变量的全局知识要素分布特征和所述相同知识要素分布特征,确定所述不同云服务会话日志之间的隐私特征共性评分。
本发明实施例中,全局知识要素分布特征可以理解为所有知识要素的位置特征,基于此,结合全局知识要素分布特征和相同知识要素分布特征,能够准确、快速地确定不同云服务会话日志之间的隐私特征共性评分。
在一些可选的实施例中,步骤104中的通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志,包括步骤1041和步骤1042。
步骤1041、获取设定的隐私特征共性评分限值。
步骤1042、将隐私特征共性评分不小于所述隐私特征共性评分限值的最少两个云服务会话日志确定为符合隐私特征共性分析要求的最少两个云服务会话日志。
在此基础上,所述方法还包括S1051-S1053。
S1051、从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志。
S1052、对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志。
S1053、通过所述完成优化操作的云服务会话日志确定拟共享云服务会话日志,并将所述拟共享云服务会话日志共享到云共享服务系统。
本发明实施例中,优化操作用于对目标云服务会话日志进行质量过滤操作,从而确保拟共享云服务会话日志的内容质量,从而提高云服务会话日志的共享质量。
在一些可能的实施例中,S1051中的从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括S10511和S10512。
S10511、确定所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的参与用户数量。
其中,会话交互任务可以理解为会话交互场景或者会话交互线程,参与用户数量用于反映云服务会话日志的活跃程度。
S10512、将所述最少两个云服务会话日志中除参与用户数量最多的剩余云服务会话日志确定为目标云服务会话日志。
本发明实施例中,通过剔除活跃程度最高的云服务会话日志,能够避免在后续信息去标识化过程中影响参与用户数量最多的云服务会话日志的正常使用。
在一些可选的实施例中,S1051中的从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:获取所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值;当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值大于预设差异值时,将所述最少两个云服务会话日志中除隐私预警消息累计值最少的剩余云服务会话日志确定为目标云服务会话日志。
本发明实施例中,隐私预警消息用于反映云服务会话日志的隐私泄露风险高低,在此基础上,通过剔除隐私预警消息累计值最少的云服务会话日志,能够确保目标云服务会话日志的隐私防护的必要性,避免对隐私预警消息累计值较低的云服务会话日志的隐私防护处理,有效减少资源开销。
在另一些可能的实施例中,S1051中的从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括S1051a-S1051c。
S1051a、当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值不大于预设差异值时,响应于所述云共享服务系统发送的文本信息共享申请,获取所述云共享服务系统对应的过往共享执行记录。
其中,过往共享执行记录用于反映云共享服务系统之前的共性处理行为数据。
S1051b、通过所述过往共享执行记录确定所述云共享服务系统对应的共享需求标签。
其中,共享需求标签用于反映云共享服务系统针对云服务会话日志的共享要求或者偏好。
S1051c、通过所述共享需求标签,将所述符合隐私特征共性分析要求的最少两个云服务会话日志中除与所述共享需求标签适配权重最高的剩余云服务会话日志确定为目标云服务会话日志。
其中,适配权重可以理解为匹配性,基于此,可以基于过往共享执行记录确定共享需求标签,进一步实现适配权重的分析,从而确保目标云服务会话日志与云共享服务系统的共享供需匹配性。
在一些可选的实施例中,S1052中的对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志,包括如下其中一项。
第一项,将所述目标云服务会话日志从所述多个云服务会话日志中移除,得到完成优化操作的云服务会话日志。
第二项,对所述目标云服务会话日志进行置信度调整处理,得到完成优化操作的云服务会话日志。
在一些可独立的实施例中,步骤105中的对所述符合隐私特征共性分析要求的最少两个云服务会话日志进行信息去标识化处理,包括步骤1051和步骤1052。
步骤1051、将所述符合隐私特征共性分析要求的最少两个云服务会话日志分别输入到信息去标识化决策模型,获得所述信息去标识化决策模型生成的最少两个信息去标识化建议标签。
步骤1052、利用所述最少两个信息去标识化建议标签进行信息去标识化处理。
本发明实施例中,一方面,通过信息去标识化决策模型能够快速确定信息去标识化建议标签,提高时效性,另一方面,一个信息去标识化建议标签对应一个云服务会话日志,这样在保障时效性的基础上还可以实现一定的差异化信息去标识化处理,提高信息去标识化处理的处理的时效性和灵活性。
在一些可独立的实施例中,对所述符合隐私特征共性分析要求的最少两个云服务会话日志中的每个云服务会话日志进行信息去标识化建议标签确定的步骤,包括步骤(1)-步骤(3)。
步骤(1)、将所述每个云服务会话日志加载至信息去标识化决策模型中的深度可逆组件,得到所述深度可逆组件生成的所述每个云服务会话日志的第一敏感文本向量和第二敏感文本向量,其中,所述深度可逆组件包括连接的多个可逆单元,所述第一敏感文本向量是所述连接的多个可逆单元中的非末尾的可逆单元生成的敏感文本向量,所述第二敏感文本向量是所述连接的多个可逆单元中的末尾的可逆单元生成的敏感文本向量。
本发明实施例中,深度可逆组件可以理解为卷积组件,敏感文本向量可以理解为云服务会话日志的文本卷积特征,可逆单元可以理解为卷积核或者卷积模块。
步骤(2)、将所述第二敏感文本向量加载至所述信息去标识化决策模型中的个体隐私识别组件,得到所述个体隐私识别组件生成的目标个体隐私知识簇,其中,所述目标个体隐私知识簇为在所述每个云服务会话日志中识别到的目标个体隐私变量所在的个体隐私知识簇。
本发明实施例中,个体隐私识别组件用于进行个体隐私挖掘,所得到的个体隐私知识簇可以理解为个体隐私变量的集合。
步骤(3)、将所述第一敏感文本向量、所述第二敏感文本向量和第三敏感文本向量以及所述目标个体隐私知识簇加载至所述信息去标识化决策模型中的去标识判别组件,得到所述去标识判别组件生成的信息去标识化建议标签,其中,所述第三敏感文本向量是所述个体隐私识别组件中的可逆单元根据参考文本向量生成的敏感文本向量,所述参考文本向量是对所述第二敏感文本向量进行变更所得的文本向量。
本发明实施例中,参考文本向量可以理解为重构文本向量,通过步骤(1)-步骤(3),能够利用级联的卷积核进行敏感文本向量挖掘,并进一步识别目标个体隐私变量所在的个体隐私知识簇,这样可以全面、准确地进行去标识判别处理,从而提高信息去标识化建议标签的确定精度。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述基于云数据安全的信息去标识化处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述基于云数据安全的信息去标识化处理方法。
本发明实施例中,如图2所示,基于云数据安全的信息去标识化处理系统100包括至少一个处理器101、以及与处理器101连接的至少一个存储器102、总线103;其中,处理器101、存储器102通过总线103完成相互间的通信;处理器101用于调用存储器102中的程序指令,以执行上述的基于云数据安全的信息去标识化处理方法。
本发明是参照根据本发明实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,基于云数据安全的信息去标识化处理系统包括一个或多个处理器(CPU)、存储器和总线。基于云数据安全的信息去标识化处理系统还可以包括输入/输出接口、网络接口等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储计算机可读存储介质或任何其他非传输介质,可用于存储可以被基于云数据安全的信息去标识化处理系统访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者计算机可读存储介质不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者计算机可读存储介质所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括要素的过程、方法、商品或者计算机可读存储介质中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。

Claims (10)

1.一种基于云数据安全的信息去标识化处理方法,其特征在于,应用于基于云数据安全的信息去标识化处理系统,所述方法包括:
接收不同云服务平台系统发送的多个云服务会话日志,确定各个云服务会话日志对应的最少两个目标会话交互文本信息;
将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据;
确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分;
通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志;
对所述符合隐私特征共性分析要求的最少两个云服务会话日志进行信息去标识化处理;
其中,所述通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定所述各个云服务会话日志之间的隐私特征共性评分,包括:
通过所述各个云服务会话日志对应的文本块敏感知识描述变量,确定不同云服务会话日志的文本块敏感知识描述变量中的相同知识要素分布特征;
基于文本块敏感知识描述变量的全局知识要素分布特征和所述相同知识要素分布特征,确定所述不同云服务会话日志之间的隐私特征共性评分。
2.根据权利要求1所述的方法,其特征在于,所述确定各个云服务会话日志对应的最少两个目标会话交互文本信息,包括:
对各个云服务会话日志进行会话文本识别,得到所述各个云服务会话日志对应的多个在线会话交互文本信息;
从所述各个云服务会话日志对应的多个在线会话交互文本信息中依据设定的采样周期进行文本采样操作,得到所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息;
从所述各个云服务会话日志对应的多个采样得到的在线会话交互文本信息中任意抽取设定数量的在线会话交互文本信息,得到所述各个云服务会话日志对应的最少两个目标会话交互文本信息。
3.根据权利要求1所述的方法,其特征在于,所述将所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据,包括:
获取设定的文本信息细粒度,通过所述文本信息细粒度对所述各个云服务会话日志对应的最少两个目标会话交互文本信息进行文本细粒度更新,得到所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息;
依据所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息的时序特征,对所述各个云服务会话日志对应的最少两个完成细粒度更新的目标会话交互文本信息进行文本汇总操作,得到所述各个云服务会话日志对应的会话交互文本大数据。
4.根据权利要求1所述的方法,其特征在于,所述确定所述各个云服务会话日志对应的会话交互文本大数据的文本块敏感知识描述变量,包括:
依据设定的敏感知识描述挖掘网络对各个会话交互文本大数据进行敏感知识描述挖掘,得到所述各个会话交互文本大数据的敏感文本知识项;
通过所述各个会话交互文本大数据的敏感文本知识项确定所述各个会话交互文本大数据的敏感知识量化决策指数;
通过所述各个会话交互文本大数据的敏感知识量化决策指数对相应的各个敏感文本知识项进行量化映射操作,得到所述各个会话交互文本大数据的文本块敏感知识描述变量。
5.根据权利要求1所述的方法,其特征在于,所述通过所述各个云服务会话日志之间的隐私特征共性评分,确定符合隐私特征共性分析要求的最少两个云服务会话日志,包括:
获取设定的隐私特征共性评分限值;
将隐私特征共性评分不小于所述隐私特征共性评分限值的最少两个云服务会话日志确定为符合隐私特征共性分析要求的最少两个云服务会话日志;
所述方法还包括:
从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志;
对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志;
通过所述完成优化操作的云服务会话日志确定拟共享云服务会话日志,并将所述拟共享云服务会话日志共享到云共享服务系统。
6.根据权利要求5所述的方法,其特征在于,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
确定所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的参与用户数量;
将所述最少两个云服务会话日志中除参与用户数量最多的剩余云服务会话日志确定为目标云服务会话日志。
7.根据权利要求5所述的方法,其特征在于,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
获取所述符合隐私特征共性分析要求的最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值;
当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值大于预设差异值时,将所述最少两个云服务会话日志中除隐私预警消息累计值最少的剩余云服务会话日志确定为目标云服务会话日志。
8.根据权利要求7所述的方法,其特征在于,所述从所述符合隐私特征共性分析要求的最少两个云服务会话日志中确定需进行优化操作的目标云服务会话日志,包括:
当所述最少两个云服务会话日志对应会话交互任务的隐私预警消息累计值间的差异值不大于预设差异值时,响应于所述云共享服务系统发送的文本信息共享申请,获取所述云共享服务系统对应的过往共享执行记录;
通过所述过往共享执行记录确定所述云共享服务系统对应的共享需求标签;
通过所述共享需求标签,将所述符合隐私特征共性分析要求的最少两个云服务会话日志中除与所述共享需求标签适配权重最高的剩余云服务会话日志确定为目标云服务会话日志。
9.根据权利要求7所述的方法,其特征在于,所述对所述目标云服务会话日志进行优化操作,得到完成优化操作的云服务会话日志,包括:
将所述目标云服务会话日志从所述多个云服务会话日志中移除,得到完成优化操作的云服务会话日志;
或者;对所述目标云服务会话日志进行置信度调整处理,得到完成优化操作的云服务会话日志。
10.一种基于云数据安全的信息去标识化处理系统,其特征在于,包括处理器以及与所述处理器连接的存储器和总线;其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行权利要求1-9任一项所述的基于云数据安全的信息去标识化处理方法。
CN202310807454.9A 2023-07-04 2023-07-04 基于云数据安全的信息去标识化处理方法及系统 Active CN116522401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310807454.9A CN116522401B (zh) 2023-07-04 2023-07-04 基于云数据安全的信息去标识化处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310807454.9A CN116522401B (zh) 2023-07-04 2023-07-04 基于云数据安全的信息去标识化处理方法及系统

Publications (2)

Publication Number Publication Date
CN116522401A CN116522401A (zh) 2023-08-01
CN116522401B true CN116522401B (zh) 2023-08-29

Family

ID=87396263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310807454.9A Active CN116522401B (zh) 2023-07-04 2023-07-04 基于云数据安全的信息去标识化处理方法及系统

Country Status (1)

Country Link
CN (1) CN116522401B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395086B (zh) * 2023-12-12 2024-02-09 广州宇中网络科技有限公司 基于云数据安全的信息去标识化处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106716964A (zh) * 2014-09-26 2017-05-24 微软技术许可有限责任公司 用于没有用户跟踪的个人化的隐私保护cookie
CN113343699A (zh) * 2021-06-22 2021-09-03 平安普惠企业管理有限公司 日志安全风险的监测方法、装置、电子设备及介质
WO2021257052A1 (en) * 2020-06-15 2021-12-23 Google Llc Systems and methods for using document activity logs to train machine-learned models for determining document relevance
CN113918993A (zh) * 2021-10-20 2022-01-11 广州兴晟通讯科技有限公司 一种基于人工智能的用户隐私保护方法及系统
CN114417405A (zh) * 2022-01-11 2022-04-29 山东泽钜大数据技术有限公司 一种基于人工智能的隐私业务数据分析方法及服务器
CN115640602A (zh) * 2022-10-10 2023-01-24 江苏永硕舟钰数据科技有限公司 基于大数据防护的隐私数据处理方法及系统
CN116226915A (zh) * 2023-02-20 2023-06-06 周大飞 大数据匿名迁移处理方法及匿名迁移处理服务器
CN116304223A (zh) * 2023-03-08 2023-06-23 平安付科技服务有限公司 基于日志的敏感信息筛选展示方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3528150A1 (en) * 2018-02-14 2019-08-21 OneSpan NV A system, apparatus and method for privacy preserving contextual authentication

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106716964A (zh) * 2014-09-26 2017-05-24 微软技术许可有限责任公司 用于没有用户跟踪的个人化的隐私保护cookie
WO2021257052A1 (en) * 2020-06-15 2021-12-23 Google Llc Systems and methods for using document activity logs to train machine-learned models for determining document relevance
CN113343699A (zh) * 2021-06-22 2021-09-03 平安普惠企业管理有限公司 日志安全风险的监测方法、装置、电子设备及介质
CN113918993A (zh) * 2021-10-20 2022-01-11 广州兴晟通讯科技有限公司 一种基于人工智能的用户隐私保护方法及系统
CN114417405A (zh) * 2022-01-11 2022-04-29 山东泽钜大数据技术有限公司 一种基于人工智能的隐私业务数据分析方法及服务器
CN115640602A (zh) * 2022-10-10 2023-01-24 江苏永硕舟钰数据科技有限公司 基于大数据防护的隐私数据处理方法及系统
CN116226915A (zh) * 2023-02-20 2023-06-06 周大飞 大数据匿名迁移处理方法及匿名迁移处理服务器
CN116304223A (zh) * 2023-03-08 2023-06-23 平安付科技服务有限公司 基于日志的敏感信息筛选展示方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向云计算的数据加密与脱敏技术研究;韩培义;中国优秀博士学位论文全文数据库 信息科技辑(第01期);I138-37 *

Also Published As

Publication number Publication date
CN116522401A (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN109063966B (zh) 风险账户的识别方法和装置
US11347891B2 (en) Detecting and obfuscating sensitive data in unstructured text
US20190362021A1 (en) Incremental discovery of salient topics during customer interaction
US11138978B2 (en) Topic mining based on interactionally defined activity sequences
CN111831629B (zh) 一种数据处理方法及装置
CN107679856B (zh) 基于交易的业务控制方法和装置
CN116522401B (zh) 基于云数据安全的信息去标识化处理方法及系统
US11620407B2 (en) Real-time, context based detection and classification of data
CN114244611B (zh) 异常攻击检测方法、装置、设备及存储介质
CN107391532B (zh) 数据过滤的方法和装置
US11588893B1 (en) Determining which edge node to utilize based on response time and network bandwidth
CN113965389B (zh) 一种基于防火墙日志的网络安全管理方法、设备及介质
Satish et al. Big data processing with harnessing hadoop-MapReduce for optimizing analytical workloads
CN111612284B (zh) 数据的处理方法、装置及设备
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
US10990762B2 (en) Chat analysis using machine learning
US11388237B1 (en) Logical upstream preprocessing at edge node of data to be stored in a data lake
US20210019141A1 (en) Intelligent application management and decommissioning in a computing environment
CN115630070A (zh) 一种信息推送方法、计算机可读的存储介质及电子装置
CN111078867A (zh) 一种文本分类方法及装置
US11715037B2 (en) Validation of AI models using holdout sets
US20190164022A1 (en) Query analysis using deep neural net classification
US11449789B2 (en) System and method for hierarchical classification
US11503055B2 (en) Identifying siem event types
Punn et al. Testing big data application

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant