CN113468604A - 基于人工智能的大数据隐私信息解析方法及系统 - Google Patents
基于人工智能的大数据隐私信息解析方法及系统 Download PDFInfo
- Publication number
- CN113468604A CN113468604A CN202110877974.8A CN202110877974A CN113468604A CN 113468604 A CN113468604 A CN 113468604A CN 202110877974 A CN202110877974 A CN 202110877974A CN 113468604 A CN113468604 A CN 113468604A
- Authority
- CN
- China
- Prior art keywords
- user behavior
- data
- behavior
- relationship
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种基于人工智能的大数据隐私信息解析方法及系统,在获取用户行为采样数据库后,通过预先确定的隐私信息解析网络对用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列,然后,根据行为数据描述序列,将用户行为采样数据作为关系实体生成行为数据关系网络,对用户行为采样数据的初始化隐私属性标识进行优化。最后,通过优化后用户行为采样数据库对预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。如此,可以提升针对用户行为数据进行隐私信息解析的可靠性和精准性。
Description
技术领域
本发明涉及人工智能及大数据安全技术领域,具体而言,涉及一种基于人工智能的大数据隐私信息解析方法及系统。
背景技术
随着移动互联网以及信息技术的快速发展,人们可以随时随地通过手机、电脑等移动设备使用各种网络平台提供的移动互联网络服务。例如,用户可以通过移动设备方便的使用在线购物、订购飞机票和火车票、网络社交、在线互动、在线医疗、在线教育等各种各样的数字化线上服务。在使用线上服务的过程中,会产生大量的与用户行为有关的行为大数据。
此外,在不同的行业或领域中,数据都被共识的看作一种有效的资源,且是具有极大潜在价值的可变现资源。基于此,针对大数据的搜集、挖掘和分析已经成为各行各业以及各领域都重点关注的技术方向。例如,可基于对用户行为大数据的深度分析刻画出不同用户的兴趣爱好得到兴趣画像,基于兴趣画像可以实现信息推送、业务推广、锁定目标用户群体等后端应用,以促进数据的价值体现以及数据资源变现。然而,在实现大数据资源价值体现的过程中,数据安全问题则凸显出来。例如,各平台针对用户行为数据进行搜集应用的过程中,不可避免的会涉及到用户的隐私数据(如用户性别、年龄、账户、密码等)。从核心价值角度来看,大数据的价值体现关键在于数据的分析和利用,但数据分析技术会对用户隐私产生极大的威胁。此外,在大数据时代,杜绝外部数据厂商或平台挖掘相关数据显得非常困难。
为了有效的实现用户行为大数据的隐私信息保护,基于人工智能模型实现隐私数据的解析识别以利于隐私信息防护是目前的一个重要研究方向。然而,发明人经过研究发现,现有常用的人工智能模型可以通过机器自动配置的方式对事先采集的各种行为数据样本的隐私属性信息进行配置,如进行隐私标签或隐私标识信息的自动配置,又或者通过人工的方式进行配置后得到可用于进行人工智能模型训练的训练数据样本,进而对人工智能模型进行训练后以用于进行隐私数据信息的解析和识别。然而,上述方式中,无论采用机器自动配置还是人工配置的方式,都不可能避免的会存在错误配置或者配置不准确的情况,进而导致训练得到的人工智能模型在后期进行隐私数据解析和识别的准确度不高,应用效果较差的问题。
发明内容
为至少部分解决上述问题,一方面,本发明实施例提供一种基于人工智能的大数据隐私信息解析方法,所述方法包括:
获取用户行为采样数据库,所述用户行为采样数据库包括一个或多个被配置初始化隐私属性标识的用户行为采样数据;
通过预先确定的隐私信息解析网络对所述用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列;
根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络;
基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库;
通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。
基于上述方面,在一种可能的实施方式中,所述基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,包括:
将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息;
基于所述关系游走后的隐私属性标识信息,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
基于上述方面,在一种可能的实施方式中,所述将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
根据所述用户行为采样数据的初始化隐私属性标识,生成所述用户行为采样数据库对应的初始化隐私属性标识信息;
通过预先确定的关系游走规则,将所述初始化隐私属性标识信息在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
基于上述方面,在一种可能的实施方式中,所述初始化隐私属性标识信息包括各所述用户行为采样数据对应的初始化隐私属性标识特征,所述通过预先确定的关系游走规则,将所述初始化隐私属性标识信息在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
根据所述行为数据关系网络确定所述用户行为采样数据之间的行为关系量化参数;
获取所述行为关系量化参数对应的重要性量化指标,并基于所述重要性量化指标,对所述用户行为采样数据的初始化隐私属性标识特征进行特征融合;
将特征融合后的初始化隐私属性标识特征进行特征拼接,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
基于上述方面,在一种可能的实施方式中,所述将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
将所述行为数据关系网络中的各所述关系实体按照各关系实体之间的实体关联度进行实体分簇处理,得到多个关系实体分簇,其中每个关系实体分簇对应形成一个子关系网络;
基于每个所述关系实体分簇对应的子关系网络,针对所述子关系网络中的每个关系实体,执行以下步骤:
分别以所述关系实体作为关系游走起点以及目标属性映射对象,在所述子关系网络中进行关系游走,根据所述目标属性映射对象的隐私属性标识对所述子关系网络中的各个其他关系实体进行属性标识映射,得到各个其他关系实体对应的映射属性标识;
根据各个关系实体对应的映射属性标识以及各个关系实体对应的初始化隐私属性标识,计算得到各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度;
根据各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度,得到与所述目标属性映射对象对应的属性映射匹配度序列,进而得到所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列;
根据各所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列,确定目标关系实体,其中所述目标关系实体为对应的属性映射匹配度序列的属性映射匹配度均值小于预设匹配度阈值的关系实体;
将所述目标关系实体对应的初始化隐私属性标识根据所述目标关系实体所在的子关系网络中的其他关系实体对应的初始化隐私属性标识进行标识更新;
根据标识更新后的各个关系实体对应的隐私属性标识得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
所述基于所述关系游走后的隐私属性标识信息,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,包括:
在所述关系游走后的隐私属性标识信息中分析出所述用户行为采样数据对应的关系游走后的隐私属性标识特征;
在所述关系游走后的隐私属性标识特征中选取隐私属性标识权重等级最高的隐私属性标识对象;
在所述关系游走后的隐私属性标识特征中确定所述隐私属性标识对象的关系实体拓扑位置;
获取所述关系实体拓扑位置对应的目标隐私属性标识,将所述目标隐私属性标识作为所述用户行为采样数据对应的关系游走后的隐私属性标识;
将所述关系游走后的隐私属性标识与对应的用户行为采样数据被配置的初始化隐私属性标识进行匹配;
当所述关系游走后的隐私属性标识与初始化隐私属性标识不匹配时,确定所述用户行为采样数据为待进行优化的目标用户行为采样数据;
将所述目标用户行为采样数据的初始化隐私属性标识根据对应的关系游走后的隐私属性标识进行优化,得到所述优化后用户行为采样数据库。
基于上述方面,在一种可能的实施方式中,所述根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络,包括:
在所述行为数据描述序列中选取每一用户行为采样数据对应的数据行为描述,并基于所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据之间的行为描述特征差异;
基于所述行为描述特征差异,在所述用户行为采样数据库中选取所述用户行为采样数据的关联用户行为采样数据,得到所述用户行为采样数据的关联用户行为采样数据库;
根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络;
其中,所述根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络,包括:
获取所述用户行为采样数据与对应的关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据;
根据所述关联行为数据,将所述用户行为采样数据作为关系实体生成参考行为关系网络,并对所述参考行为关系网络进行网络关系转置处理,得到所述行为数据关系网络;
其中,所述获取所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据,包括:
在所述行为描述特征差异中选取所述用户行为采样数据与对应的关联用户行为采样数据库中用户行为采样数据之间的目标行为描述特征差异;
对所述目标行为描述特征差异进行特征拼接,以得到所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系;
基于所述拓扑分布关系,确定所述用户行为采样数据的关联行为数据。
基于上述方面,在一种可能的实施方式中,所述通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,包括:
a、基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
b、通过所述预先确定的隐私信息解析网络对所述优化后用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到目标行为数据描述序列;
c、基于所述目标行为数据描述序列,对所述用户行为采样数据的隐私属性标识进行优化;
d、迭代执行上述a-c的步骤,直至所述预先确定的隐私信息解析网络到达预先确定的机器学习终止条件,得到机器学习后的隐私信息解析网络。
基于上述方面,在一种可能的实施方式中,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,确定所述用户行为采样数据的隐私属性代价指标参数;
基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数;
将所述隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后的代价指标参数对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
其中,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,对所述用户行为采样数据进行序列划分,得到每一隐私属性标识对应的用户行为采样数据序列;
基于所述用户行为采样数据序列中用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列对应的目标数据行为描述;
将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数。
基于上述方面,在一种可能的实施方式中,所述将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列中用户行为采样数据之间的行为描述特征距离,得到第一行为描述特征距离;
基于所述用户行为采样数据序列对应的目标行为描述特征距离,计算所述用户行为采样数据序列之间的行为描述特征距离,得到第二行为描述特征距离;
计算所述第一行为描述特征距离和第二行为描述特征距离之间的特征距离,得到第三行为描述特征距离,并将所述第三行为描述特征距离与预先确定的参考行为描述分量进行分量聚合,得到分量聚合后的行为描述分量;
当所述分量聚合后的行为描述分量与预先确定的行为描述分量的匹配度达到设定匹配度时,根据所述分量聚合后的行为描述分量得到所述用户行为采样数据的行为描述代价指标参数。
另一方面,本发明实施例还一种基于人工智能的大数据隐私信息解析系统,包括处理器、机器可读存储介质以及隐私信息解析装置,所述机器可读存储介质和所述处理器连接,所述隐私信息解析装置包括一个或多个存储于所述机器可读存储介质中的软件功能模块,所述处理器用于执行所述软件功能模块以实现上述的方法。
本发明实施例具有下述有益效果:
综上所述,本发明实施例提供的基于人工智能的大数据隐私信息解析方法及系统,在获取用户行为采样数据库后,通过预先确定的隐私信息解析网络对用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列,然后根据行为数据描述序列,将用户行为采样数据作为关系实体生成行为数据关系网络,并基于行为数据关系网络对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。最后,通过优化后用户行为采样数据库对预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。如此,可以根据行为数据描述序列生成行为数据关系网络,利用用户行为采样数据各自的数据特性和数据间的关联性来识别出隐私标识配置的瑕疵或需优化的部分,更加匹配用户行为采样数据场景中的隐私信息解析任务。同时,还可以对相关的需进行隐私标识配置优化的部分用户行为数据进行隐私属性标识优化,可进一步提高用户行为采样数据的隐私标识配置精准性,从而进一步提高依据上述样本进行机器学习后得到的隐私信息解析网络的解析能力, 提升其针对用户行为数据进行隐私信息解析的可靠性和精准性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,针对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的用于执行基于人工智能的大数据隐私信息解析方法的大数据隐私信息解析系统的架构示意图。
图2是本发明实施例提供的基于人工智能的大数据隐私信息解析方法的流程示意图。
图3是图2中步骤S230的子步骤流程示意图。
图4是图1中的隐私信息解析装置的功能模块示意图。
具体实施方式
首先对本申请实施例的硬件环境进行说明,如图1所示,是本发明实施例提供的用于执行基于人工智能的大数据隐私信息解析方法的大数据隐私信息解析系统100的架构示意图。本实施例中,所述大数据隐私信息解析系统100可以是,但不限于,但不限于,具有通信控制能力及大数据分析能力的计算机设备、服务器、计算机设备、云服务中心、机房控制中心、云平台等各种类型的大数据分析设备。优选地,本实施例以所述大数据隐私信息解析系统100为服务器为例,该服务器可以是一个单独立的服务器,也可以是由多个服务器构成的服务器集群、数据中心、云端服务平台、分布式数据存储中心、云服务器、远程服务器等,本实施例具体不进行限制。
优选地,如图1所示,所述大数据隐私信息解析系统100可以包括机器可读介质10、处理器20、总线30和隐私信息解析装置40。本实施例中,所述机器可读介质10、处理器20和总线30彼此之间可以直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条所述总线30实现电性连接。所述机器可读介质10可以是各种可能的存储器,例如,本实施例优选为一种非易失性的机器可读存储介质。所述机器可读介质10用于存储各种类型的程序、指令或可执行代码,例如所述隐私信息解析装置40所包括的各种软件功能模块对应的软件程序部分。其中,所述隐私信息解析装置40可以包括一个或多个以软件或固件(firmware)的形式储存于所述机器可读介质10中的程序功能模块、软件功能模块或逻辑模块,所述处理器20通过运行存储在机器可读介质10内的软件程序以及模块,例如本申请实施例中的隐私信息解析装置40中的软件程序以及模块,从而实现所述大数据隐私信息解析系统100的各种功能应用以及数据处理,例如实现本申请实施例提供的相关方法。
其中,所述机器可读介质10可以是,但不限于,随机存取存储器(Random AccessMemory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(ProgrammableRead-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。所述处理器20可能是一种具有数据处理能力的芯片,例如可以是,但不限于,通用处理器,包括中央处理器 (Central Processing Unit,CPU)、多核心处理器、网络处理器 (Network Processor,NP)等,用于执行本申请实施例中的方法所包括的步骤、方法及逻辑程序等。
在上述硬件架构的基础上,请参阅图2,图2是本发明实施例提供的基于人工智能的大数据隐私信息解析方法的流程示意图。本实施例中,所述方法由上述的大数据隐私信息解析系统执行,其中,所述方法可以包括下述的步骤S210-步骤S250,下面进行详细介绍。
步骤S210,获取用户行为采样数据库,所述用户行为采样数据库包括一个或多个被配置初始化隐私属性标识的用户行为采样数据。
本实施例中,所述用户行为采样数据库可以是预先对设定的应用场景下对产生的海量用户行为数据进行采样而获得用户行为大数据构成。所述被配置的初始化隐私属性标识可以是通过机器自动标注或者人工手动标注的方式对所述用户行为采样数据库中的其中一部分或者全部的用户行为采样数据进行隐私属性标识预配置而得到。可以理解,所述初始化隐私属性标识是未经过配置优化或者矫正的隐私属性标识,可能存在一定的误差或者精确性不够的问题。
示例性地,所述设定应用场景可以是任意一种可基于用户对所提供的相关服务的使用过程而生成用户行为数据的场景,例如可以是,但不限于,可提供在线购物、订购飞机票和火车票、网络社交、在线互动、在线医疗、在线教育等各种各样的数字化线上服务的应用场景。所述用户行为大数据可以是针对某一个或多个目标用户在所述目标应用场景下针对不同的行为事项而产生的不同的用户行为数据的一个汇总(例如可以是数据集合或者数据序列等)。举例而言,所述行为事项例如可以是,但不限于针对上述各场景下的各种服务事项的具体操作,例如完成订单、服务分享、互动沟通等,本实施例对此不具体进行限定。
步骤S220,通过预先确定的隐私信息解析网络对所述用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列。
示例性地,在一种可能的实施方案中, 可以通过预先确定的隐私信息解析网络的行为描述分析函数分析用户行为采样数据库中每一用户行为采样数据的数据行为描述,得到行为数据描述序列。其中,行为描述分析函数可以是,但不限于,例如,基于不同分析深度的残差特征分析函数、基于神经网络的行为特征卷积函数等。其中,行为描述分析函数的分析复杂度及深度和函数的具体构成可以根据实际需求而定。
步骤S230,根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络。
本实施例中,所述行为数据关系网络为体现关系实体及其关联的关系实体之间的数据关联性的一种关系型网络,例如可以是结构化或非结构化的数据结构关系网络以及行为关系知识图谱等,具体不进行限定。
在一种可能的实施方式中,在步骤S230中,如图3所示,可以包括下述的步骤S231-S233,详细介绍如下。
步骤S231,在所述行为数据描述序列中,选取每一用户行为采样数据对应的数据行为描述,并基于用户行为采样数据的数据行为描述,计算所述用户行为采样数据之间的行为描述特征差异。
步骤S232,基于所述行为描述特征差异,在用户行为采样数据库中选取用户行为采样数据的关联用户行为采样数据,得到用户行为采样数据的关联用户行为采样数据库。
步骤S233,根据所述关联用户行为采样数据库,将用户行为采样数据作为关系实体生成行为数据关系网络。
示例性地,在上述内容的基础上,计算用户行为采样数据之间的行为描述特征差异的方法,例如可以是,但不限于,通过欧氏距离计算方法、曼哈顿距离计算方法、信息熵计算方法、皮尔森相关性系数法等计算方式来计算任意不同的两个数据行为描述之间的特征差异,从而得到各个不同的用户行为采样数据之间的行为描述特征差异。
其中,根据关联用户行为采样数据库,生成行为数据关系网络的一些示例性方法可以是:首先获取用户行为采样数据与对应的关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到用户行为采样数据的关联行为数据,然后,根据关联行为数据,将用户行为采样数据作为关系实体生成参考行为关系网络,并对参考行为关系网络进行网络关系转置处理,得到行为数据关系网络。
其中,关联行为数据可以为表征用户行为采样数据与关联用户行为采样数据库中的用户行为采样数据之间的关联性、拓扑分布关系等信息。得到关联行为数据的例如可以是:在行为描述特征差异中选取用户行为采样数据与对应的关联用户行为采样数据库中的用户行为采样数据之间的目标行为描述特征差异,对所述目标行为描述特征差异进行特征拼接,以得到用户行为采样数据与关联用户行为采样数据库中用户行为采样数据之间的拓扑分布关系,基于拓扑分布关系,确定用户行为采样数据的关联行为数据。
其中,对目标行为描述特征差异进行特征拼接,以得到用户行为采样数据与关联用户行为采样数据库中用户行为采样数据之间的拓扑分布关系的方法可以是:对目标行为描述特征差异进行特征拼接,得到特征拼接后的行为描述特征差异,并对特征拼接后的行为描述特征差异进行位置顺序整理,根据位置顺序整理结果,确定用户行为采样数据之间的拓扑分布关系。
其中,根据关联行为数据,将用户行为采样数据作为关系实体生成参考行为关系网络的方法示例性可以包括:基于关联行为数据,生成一个离散的行为数据关联序列,行为数据关联序列中的每一个对象表示两个用户行为采样数据之间的拓扑分布关系,当关联行为数据包括这两个用户行为采样数据时,则表示对应的两个用户行为采样数据具有数据关联关系,该对象的权重可以设置为较高,用户行为采样数据不具有数据关联关系时,该对象的权重可以是设置为较低,生成的离散的行为数据关联序列作为参考行为关系网络。在生成完参考行为关系网络之后,再对参考行为关系网络进行网络关系转置处理,得到行为数据关系网络。网络关系转置可以是将行为数据关联序列的网络关系转置,从而得到网络关系转置后的行为数据关联序列,将网络关系转置后的行为数据关联序列作为行为数据关系网络。
步骤S240,基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
本实施例中,在一种可能的实施方式中,针对步骤S240,可以将用户行为采样数据的初始化隐私属性标识在行为数据关系网络的关系实体之间进行关系游走,得到用户行为采样数据对应的关系游走后的隐私属性标识信息,基于关系游走后的隐私属性标识信息,对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。例如,在一种可能的实施方式中,上述的具体实现方法可以包括下述的步骤S241和S242的内容,详细介绍如下。
步骤S241、将用户行为采样数据的初始化隐私属性标识在行为数据关系网络的关系实体之间进行关系游走,得到用户行为采样数据对应的关系游走后的隐私属性标识信息。
其中,关系游走后的隐私属性标识信息可以是将初始化隐私属性标识对应的隐私属性标识数组在行为数据关系网络中关系游走后的得到隐私属性标识数组的信息。
其中,将用户行为采样数据的初始化隐私属性标识进行关系游走的一种示例性实现举例说明如下:
首先,根据用户行为采样数据的初始化隐私属性标识,生成用户行为采样数据库对应的初始化隐私属性标识信息,然后,通过预先确定的关系游走规则,将初始化隐私属性标识在行为数据关系网络的关系实体之间进行关系游走,得到用户行为采样数据对应的关系游走后的隐私属性标识信息。其中,所述预先确定的关系游走规则例如可以是基于网络实体的关联优先规则在所述行为数据关系网络中对各网络实体进行随机游走或者遍历游走的方式。
具体的实现方式如下述(一)和(二)的步骤。
(一)根据用户行为采样数据的初始化隐私属性标识,生成用户行为采样数据库对应的初始化隐私属性标识信息。
本申请实施例中,作为一种示例,所述用户行为采样数据库对应的初始化隐私属性标识信息可以为将用户行为采样数据库中各个所述用户行为采样数据的初始化隐私属性标识进行信息融合得到的隐私属性标识数组。
本申请实施例中,作为一种示例,生成用户行为采样数据库对应的初始化隐私属性标识信息的的一种可能的实现方式举例介绍如下:
例如,根据用户行为采样数据的个数A和用户行为采样数据的初始化隐私属性标识的个数B,生成一个A×B的隐私属性标识数组C,所述隐私属性标识数组C可以是一个二维数组。该隐私属性标识数组中的对象代表的用户行为采样数据的初始化隐私属性标识,比如,以用户行为采样数据data-i的初始化隐私属性标识为label-j为例,在序列C的第data-i行的第label-j列配置为第一数值,其他列配置为第二数值,即可代表所述用户行为采样数据的初始化隐私属性标识的信息。另外,将第data-i行中的各个对象形成一个对象分量,可以将所述对象分量作为用户行为采样数据data-i对应的初始化隐私属性标识特征。因此,初始化隐私属性标识信息中具有各个所述用户行为采样数据对应的初始化隐私属性标识特征。
(二)通过预先确定的关系游走规则,将初始化隐私属性标识信息在行为数据关系网络的关系实体之间进行关系游走,得到用户行为采样数据对应的关系游走后的隐私属性标识信息。
本申请实施例中,作为一种示例,可以根据所述行为数据关系网络确定用户行为采样数据之间的行为关系量化参数,获取行为关系量化参数对应的重要性量化指标,并基于重要性量化指标,对用户行为采样数据的初始化隐私属性标识特征进行特征融合,将特征融合后的初始化隐私属性标识特征进行特征拼接,得到用户行为采样数据对应的关系游走后的隐私属性标识信息。
本申请实施例中,根据所述行为数据关系网络确定用户行为采样数据之间的行为关系量化参数的方法示例性可以包括:在行为数据关系网络中确定关系实体之间的拓扑分布关系,根据拓扑分布关系,确定关系实体的实体特征差异,将实体特征差异转换为行为关系量化参数,实体特征差异越小,相应的用户行为采样数据的行为关系量化参数越大。
其中,将特征融合后的初始化隐私属性标识特征进行特征拼接,从而得到用户行为采样数据对应的关系游走后的隐私属性标识信息的方法示例性可以包括:可以将特征融合后的初始化隐私属性标识特征进行特征拼接,得到新的隐私属性标识分布,根据新的隐私属性标识分布,对隐私属性标识数组C进行优化,得到优化后的隐私属性标识数组C作为关系游走后的隐私属性标识信息。
进一步地,在另一种可能的实时方式中,上述步骤S241还可以通过下述的方式实现,下面进行具体介绍。
(1)将所述行为数据关系网络中的各所述关系实体按照各关系实体之间的实体关联度进行实体分簇处理,得到多个关系实体分簇,其中每个关系实体分簇对应形成一个子关系网络。其中,每个关系实体分簇可以包括两个或两个以上的关系实体。相应地,实体关联度较高的不同实体可以被划分到一个相同的关系实体分簇中。
(2)基于每个所述关系实体分簇对应的子关系网络,针对所述子关系网络中的每个关系实体,执行以下步骤:
分别以所述关系实体作为关系游走起点以及目标属性映射对象,在所述子关系网络中进行关系游走,根据所述目标属性映射对象的隐私属性标识对所述子关系网络中的各个其他关系实体进行属性标识映射,得到各个其他关系实体对应的映射属性标识;其中,属性标识映射的方式可以是按照设定的标识传播或标识传递方法将所述目标属性映射对象对应的隐私属性标识传递到其他的关系实体中,实现属性标识的映射处理;
根据各个关系实体对应的映射属性标识以及各个关系实体对应的初始化隐私属性标识,计算得到各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度;
根据各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度,得到与所述目标属性映射对象对应的属性映射匹配度序列,进而得到所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列;其中,所述属性映射匹配度序列可以包括每个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度;
根据各所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列,确定目标关系实体,其中所述目标关系实体为对应的属性映射匹配度序列的属性映射匹配度均值小于预设匹配度阈值的关系实体;可以理解,确定的目标关系实体可以表征通过属性标识映射后较多的其它关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度较低,则可以确定目标关系实体的初始化隐私属性标识可能存在配置错误或者配置误差的情况;
将所述目标关系实体对应的初始化隐私属性标识根据所述目标关系实体所在的子关系网络中的其他关系实体对应的初始化隐私属性标识进行标识更新;如此,在所述目标关系实体的初始化隐私属性标识可能存在配置错误或者配置误差,可以通过对应的子关系网络中的其他关系实体(与所述目标关系实体的关联度符合要求)的初始化隐私属性标识进行更新或矫正;
根据标识更新后的各个关系实体对应的隐私属性标识得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
步骤S242、基于关系游走后的隐私属性标识信息,对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
本申请实施例中,作为一种示例,可以在关系游走后的隐私属性标识信息中分析用户行为采样数据对应的关系游走后的隐私属性标识特征,根据关系游走后的隐私属性标识特征,确定用户行为采样数据对应的关系游走后的隐私属性标识,基于关系游走后的隐私属性标识,对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据。
其中,在关系游走后的隐私属性标识信息中分析出用户行为采样数据对应的关系游走后的隐私属性标识特征的方法示例性可以包括:以用户行为采样数据data-i为例,在所述隐私属性标识数组中选取第data-i行各个对象进行组合,可得到用户行为采样数据对应的关系游走后的隐私属性标识特征;或者,也可以对对象进行特征融合后再组合,得到用户行为采样数据对应的关系游走后的隐私属性标识特征。
在分析出用户行为采样数据对应的关系游走后的隐私属性标识特征之后,即可确定用户行为采样数据对应的关系游走后的隐私属性标识,确定的方法示例性可以包括:可以在关系游走后的隐私属性标识特征中选取隐私属性标识权重等级最高的隐私属性标识对象,在关系游走后的隐私属性标识特征中确定隐私属性标识对象的关系实体拓扑位置,获取关系实体拓扑位置对应的目标隐私属性标识,将目标隐私属性标识作为用户行为采样数据对应的关系游走后的隐私属性标识。例如,以隐私属性标识对象的位于第label-j列为例,可将第label-j列对应的隐私属性标识label-j作为用户行为采样数据对应的关系游走后的隐私属性标识。
在得到用户行为采样数据对应的关系游走后的隐私属性标识后,即可对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,优化的方法示例性可以包括:可以将关系游走后的隐私属性标识与对应的用户行为采样数据的初始化隐私属性标识进行匹配,当关系游走后的隐私属性标识与初始化隐私属性标识不匹配时,确定用户行为采样数据为待进行优化的目标用户行为采样数据,将目标用户行为采样数据的初始化隐私属性标识根据对应的关系游走后的隐私属性标识进行优化,得到优化后用户行为采样数据库。
其中,对于确定待进行优化的目标用户行为采样数据来说,初始化隐私属性标识信息在行为数据关系网络上的隐私属性标识信息进行关系游走后,隐私属性标识数组C特征拼接了各个用户行为采样数据本身的原始隐私属性标识信息以及在行为描述维度上其对应的关联用户行为采样数据的隐私属性标识信息。如果隐私属性标识数组C中对应某个数据样本的隐私属性标识特征中权重等级最高的对象对应的隐私属性标识与该数据样本的初始化隐私属性标识不匹配,表示相应的网络模型学习到的行为描述维度中,存在与该数据样本高度关联的其他数据样本但隐私属性标识却差异较大。基于此,可以确定该数据样本的隐私属性标识可能存在错位配置或者配置不准确的情况,需进行隐私属性标识的优化。在优化时,可把进行隐私属性标识信息关系游走后的隐私属性标识数组C中相对应的隐私属性标识作为对一个的数据样本在后续的机器学习的新隐私属性标识,如此反复进行迭代优化即可得到优化后的用户行为采样数据库。
步骤S250,通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。
本实施例中,作为一种示例,针对上述步骤S250,可以通过下述步骤S251和S252实现,示例性介绍如下。
步骤S251、通过优化后用户行为采样数据库对预先确定的隐私信息解析网络进行机器学习。
举例而言,可首先基于优化后用户行为采样数据库中的数据行为描述和隐私属性标识,对预先确定的隐私信息解析网络进行网络指标迭代更新,通过预先确定的隐私信息解析网络对优化后用户行为采样数据库中的用户行为采样数据进行行为描述分析,基于目标行为数据描述序列,对用户行为采样数据的隐私属性标识进行优化,返回执行基于优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对预先确定的隐私信息解析网络进行网络指标迭代更新的步骤,直至预先确定的隐私信息解析网络到达预先确定的机器学习终止条件,得到机器学习后的隐私信息解析网络。例如,下面通过下述a-e的过程对上述过程进行详细的阐述。
a、基于优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对预先确定的隐私信息解析网络进行网络指标迭代更新。
具体地,可以根据优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,确定用户行为采样数据的隐私属性代价指标参数,基于优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定用户行为采样数据的行为描述代价指标参数,将隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后的代价指标参数对预先确定的隐私信息解析网络进行网络指标迭代更新。
本实施例中,确定用户行为采样数据的隐私属性代价指标参数的方法示例性可以包括:将用户行为采样数据的初始化隐私属性标识与关系游走后的隐私属性标识进行匹配,确定预先确定的隐私信息解析网络进行信息解析的解析精准性量化指标,并通过设定代价计算模型(如均方误差代价计算模型)对解析精准性量化指标进行计算,进而得到隐私属性代价指标参数。
其中,确定用户行为采样数据的行为描述代价指标参数的方法示例性可以包括:根据优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,对用户行为采样数据进行序列划分,得到每一隐私属性标识对应的用户行为采样数据序列,基于用户行为采样数据序列中用户行为采样数据的数据行为描述,计算用户行为采样数据序列对应的目标数据行为描述,将用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到用户行为采样数据的行为描述代价指标参数。
其中,计算用户行为采样数据序列对应的目标数据行为描述的方法示例性可以包括:计算用户行为采样数据序列中用户行为采样数据的数据行为描述的行为描述中心向量,将该行为描述中心向量作为用户行为采样数据序列对应的目标数据行为描述。
在计算完用户行为采样数据序列对应的目标数据行为描述之后,即可将用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到用户行为采样数据的行为描述代价指标参数。相应的方法示例性可以包括:根据用户行为采样数据的数据行为描述,计算用户行为采样数据序列中用户行为采样数据之间的行为描述特征距离,得到第一行为描述特征距离,基于用户行为采样数据序列对应的目标行为描述特征距离,计算用户行为采样数据序列之间的行为描述特征距离,得到第二行为描述特征距离,计算第一行为描述特征距离和第二行为描述特征距离之间的特征距离,得到第三行为描述特征距离,并将第三行为描述特征距离与预先确定的参考行为描述分量进行分量聚合,得到分量聚合后的行为描述分量,当分量聚合后的行为描述分量与预先确定的行为描述分量的匹配度达到设定匹配度时,根据分量聚合后的行为描述分量计算得到用户行为采样数据的行为描述代价指标参数。例如,可以将所述分量聚合后的行为描述分量通过数字化指标量化处理后得到所述对应的代价指标参数。
其中,将隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后的行为描述代价指标参数对预先确定的隐私信息解析网络进行网络指标迭代更新,迭代更新的方式例如可以是:获取隐私属性代价指标参数和行为描述代价指标参数对应的重要性量化指标,根据重要性量化指标,分别对隐私属性代价指标参数和行为描述代价指标参数进行特征融合,并将特征融合后的隐私属性代价指标参数和行为描述代价指标参数进行加权计算,根据加权计算后得到的代价指标参数对预先确定的隐私信息解析网络的网络指标进行迭代更新,以对预先确定的隐私信息解析网络进行迭代训练。又例如,可以直接将隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后得到的代价指标参数对预先确定的隐私信息解析网络的网络指标进行迭代更新,以对预先确定的隐私信息解析网络进行迭代训练。
b、通过预先确定的隐私信息解析网络对优化后用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到目标行为数据描述序列。
例如,可以通过预先确定的隐私信息解析网络的行为描述分析层分析优化后的用户行为采样数据库中每一用户行为采样数据的数据行为描述,得到行为数据描述序列。
c、基于目标行为数据描述序列,对用户行为采样数据的隐私属性标识进行优化。
详细地,本实施例中,可以根据目标行为数据描述序列,将用户行为采样数据作为关系实体生成目标行为数据关系网络,将用户行为采样数据的隐私属性标识在目标行为数据关系网络的关系实体之间进行关系游走,得到用户行为采样数据的目标关系游走后的隐私属性标识信息,基于目标关系游走后的隐私属性标识信息对用户行为采样数据的隐私属性标识进行优化,得到优化后用户行为采样数据库,具体的隐私属性标识优化的方式可以见上文中的相关内容,此处不再赘述。
d、迭代执行上述a-c的步骤,直至预先确定的隐私信息解析网络到达预先确定的机器学习终止条件,得到机器学习后的隐私信息解析网络。
步骤S252、通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。
详细地,本实施例中,首先可以获取待进行隐私信息解析用户行为数据,该待进行隐私信息解析用户行为数据中包括一个或多个待进行隐私信息解析的数据对象,然后通过机器学习后的隐私信息解析网络对待进行隐私信息解析的用户行为数据进行行为描述分析,得到待进行隐私信息解析的用户行为数据的数据行为描述,然后再对数据行为描述进行解析,得到待进行隐私信息解析的用户行为数据的隐私信息解析结果,其中,所述隐私信息解析结果至少可以包括待进行隐私信息解析的用户行为数据的隐私数据信息及/或隐私数据信息的隐私类型或隐私等级等。
综上所述,本发明实施例中,在获取用户行为采样数据库后,通过预先确定的隐私信息解析网络对用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列,然后,根据行为数据描述序列,将用户行为采样数据作为关系实体生成行为数据关系网络,然后,基于行为数据关系网络对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,然后,通过优化后用户行为采样数据库对预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。如此,可以根据行为数据描述序列生成行为数据关系网络,利用用户行为采样数据各自的数据特性和数据间的关联性来识别出隐私标识配置的瑕疵或需优化的部分,更加匹配用户行为采样数据场景中的隐私信息解析任务。同时,还可以对相关的需进行隐私标识配置优化的部分用户行为数据进行隐私属性标识优化,可进一步提高用户行为采样数据的隐私标识配置精准性,从而进一步提高依据上述样本进行机器学习后得到的隐私信息解析网络的解析能力, 提升其针对用户行为数据进行隐私信息解析的可靠性和精准性。
如图4所示,是图2中的隐私信息解析装置40所包括的功能模块示意图。在一些其他可能的实施方式中,所述隐私信息解析装置40可以包括一个或多个存储于所述机器可读介质10中的软件功能模块,本实施例对此不进行限定。
优选地,在本实施例中,所述隐私信息解析装置40可以包括采样数据获取模块401,行为数据分析模块402,关系网络生成模块403,属性标识优化模块404,以及机器学习模块405。
采样数据获取模块401,用于获取用户行为采样数据库,所述用户行为采样数据库包括一个或多个被配置初始化隐私属性标识的用户行为采样数据。
行为数据分析模块402,用于通过预先确定的隐私信息解析网络对所述用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列。
关系网络生成模块403,用于根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络。
属性标识优化模块404,用于基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
机器学习模块405,用于通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。
其中,所述属性标识优化模块404,具体用于:
将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息;
基于所述关系游走后的隐私属性标识信息,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
其中,所述属性标识优化模块404,具体还用于:
根据所述用户行为采样数据的初始化隐私属性标识,生成所述用户行为采样数据库对应的初始化隐私属性标识信息;
通过预先确定的关系游走规则,将所述初始化隐私属性标识信息在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
其中,所述初始化隐私属性标识信息包括各所述用户行为采样数据对应的初始化隐私属性标识特征,所述属性标识优化模块404,具体还用于:
根据所述行为数据关系网络确定所述用户行为采样数据之间的行为关系量化参数;
获取所述行为关系量化参数对应的重要性量化指标,并基于所述重要性量化指标,对所述用户行为采样数据的初始化隐私属性标识特征进行特征融合;
将特征融合后的初始化隐私属性标识特征进行特征拼接,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
其中,所述属性标识优化模块404,具体用于:
在所述关系游走后的隐私属性标识信息中分析出所述用户行为采样数据对应的关系游走后的隐私属性标识特征;
根据所述关系游走后的隐私属性标识特征,确定所述用户行为采样数据对应的关系游走后的隐私属性标识;
基于所述关系游走后的隐私属性标识,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库;
其中,所述根据所述关系游走后的隐私属性标识特征,确定所述用户行为采样数据对应的关系游走后的隐私属性标识,包括:
在所述关系游走后的隐私属性标识特征中选取隐私属性标识权重等级最高的隐私属性标识对象;
在所述关系游走后的隐私属性标识特征中确定所述隐私属性标识对象的关系实体拓扑位置;
获取所述关系实体拓扑位置对应的目标隐私属性标识,将所述目标隐私属性标识作为所述用户行为采样数据对应的关系游走后的隐私属性标识;
其中,所述基于所述关系游走后的隐私属性标识,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,包括:
将所述关系游走后的隐私属性标识与对应的用户行为采样数据被配置的初始化隐私属性标识进行匹配;
当所述关系游走后的隐私属性标识与初始化隐私属性标识不匹配时,确定所述用户行为采样数据为待进行优化的目标用户行为采样数据;
将所述目标用户行为采样数据的初始化隐私属性标识根据对应的关系游走后的隐私属性标识进行优化,得到所述优化后用户行为采样数据库。
其中,关系网络生成模块403具体用于:
在所述行为数据描述序列中选取每一用户行为采样数据对应的数据行为描述,并基于所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据之间的行为描述特征差异;
基于所述行为描述特征差异,在所述用户行为采样数据库中选取所述用户行为采样数据的关联用户行为采样数据,得到所述用户行为采样数据的关联用户行为采样数据库;
根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络;
其中,所述根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络,包括:
获取所述用户行为采样数据与对应的关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据;
根据所述关联行为数据,将所述用户行为采样数据作为关系实体生成参考行为关系网络,并对所述参考行为关系网络进行网络关系转置处理,得到所述行为数据关系网络;
其中,所述获取所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据,包括:
在所述行为描述特征差异中选取所述用户行为采样数据与对应的关联用户行为采样数据库中用户行为采样数据之间的目标行为描述特征差异;
对所述目标行为描述特征差异进行特征拼接,以得到所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系;
基于所述拓扑分布关系,确定所述用户行为采样数据的关联行为数据。
其中,所述机器学习模块405,具体用于:
a、基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
b、通过所述预先确定的隐私信息解析网络对所述优化后用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到目标行为数据描述序列;
c、基于所述目标行为数据描述序列,对所述用户行为采样数据的隐私属性标识进行优化;
d、迭代执行上述a-c的步骤,直至所述预先确定的隐私信息解析网络到达预先确定的机器学习终止条件,得到机器学习后的隐私信息解析网络。
其中,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,确定所述用户行为采样数据的隐私属性代价指标参数;
基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数;
将所述隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后的代价指标参数对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
其中,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,对所述用户行为采样数据进行序列划分,得到每一隐私属性标识对应的用户行为采样数据序列;
基于所述用户行为采样数据序列中用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列对应的目标数据行为描述;
将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数。
其中,所述将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列中用户行为采样数据之间的行为描述特征距离,得到第一行为描述特征距离;
基于所述用户行为采样数据序列对应的目标行为描述特征距离,计算所述用户行为采样数据序列之间的行为描述特征距离,得到第二行为描述特征距离;
计算所述第一行为描述特征距离和第二行为描述特征距离之间的特征距离,得到第三行为描述特征距离,并将所述第三行为描述特征距离与预先确定的参考行为描述分量进行分量聚合,得到分量聚合后的行为描述分量;
当所述分量聚合后的行为描述分量与预先确定的行为描述分量的匹配度达到设定匹配度时,根据所述分量聚合后的行为描述分量得到所述用户行为采样数据的行为描述代价指标参数。
除上述内容之外,可以理解,上述采样数据获取模块401,行为数据分析模块402,关系网络生成模块403,属性标识优化模块404,以及机器学习模块405可分别对应于执行上述方法实施例中的步骤S210-S210,关于这些功能模块的更详细的内容可以参考上述对应步骤的具体内容,此处不再赘述。
综上所述,本发明实施例提供的基于人工智能的大数据隐私信息解析方法及系统,在获取用户行为采样数据库后,通过预先确定的隐私信息解析网络对用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列,然后根据行为数据描述序列,将用户行为采样数据作为关系实体生成行为数据关系网络,并基于行为数据关系网络对用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。最后,通过优化后用户行为采样数据库对预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。如此,可以根据行为数据描述序列生成行为数据关系网络,利用用户行为采样数据各自的数据特性和数据间的关联性来识别出隐私标识配置的瑕疵或需优化的部分,更加匹配用户行为采样数据场景中的隐私信息解析任务。同时,还可以对相关的需进行隐私标识配置优化的部分用户行为数据进行隐私属性标识优化,可进一步提高用户行为采样数据的隐私标识配置精准性,从而进一步提高依据上述样本进行机器学习后得到的隐私信息解析网络的解析能力, 提升其针对用户行为数据进行隐私信息解析的可靠性和精准性。
以上所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围,而仅仅是表示本发明的选定实施例。因此,本发明的保护范围应以权利要求的保护范围为准。此外,基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本发明保护的范围。
Claims (10)
1.一种基于人工智能的大数据隐私信息解析方法,其特征在于,所述方法包括:
获取用户行为采样数据库,所述用户行为采样数据库包括一个或多个被配置初始化隐私属性标识的用户行为采样数据;
通过预先确定的隐私信息解析网络对所述用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到行为数据描述序列;
根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络;
基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库;
通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,并通过机器学习后的隐私信息解析网络对待进行隐私信息解析用户行为数据进行隐私信息解析,得到隐私信息解析结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述行为数据关系网络对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,包括:
将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息;
基于所述关系游走后的隐私属性标识信息,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库。
3.根据权利要求2所述的方法,其特征在于,所述将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
根据所述用户行为采样数据的初始化隐私属性标识,生成所述用户行为采样数据库对应的初始化隐私属性标识信息;
通过预先确定的关系游走规则,将所述初始化隐私属性标识信息在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
4.根据权利要求3所述的方法,其特征在于,所述初始化隐私属性标识信息包括各所述用户行为采样数据对应的初始化隐私属性标识特征,所述通过预先确定的关系游走规则,将所述初始化隐私属性标识信息在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
根据所述行为数据关系网络确定所述用户行为采样数据之间的行为关系量化参数;
获取所述行为关系量化参数对应的重要性量化指标,并基于所述重要性量化指标,对所述用户行为采样数据的初始化隐私属性标识特征进行特征融合;
将特征融合后的初始化隐私属性标识特征进行特征拼接,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息。
5.根据权利要求2所述的方法,其特征在于,所述将所述用户行为采样数据的初始化隐私属性标识在所述行为数据关系网络的关系实体之间进行关系游走,得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息,包括:
将所述行为数据关系网络中的各所述关系实体按照各关系实体之间的实体关联度进行实体分簇处理,得到多个关系实体分簇,其中每个关系实体分簇对应形成一个子关系网络;
基于每个所述关系实体分簇对应的子关系网络,针对所述子关系网络中的每个关系实体,执行以下步骤:
分别以所述关系实体作为关系游走起点以及目标属性映射对象,在所述子关系网络中进行关系游走,根据所述目标属性映射对象的隐私属性标识对所述子关系网络中的各个其他关系实体进行属性标识映射,得到各个其他关系实体对应的映射属性标识;
根据各个关系实体对应的映射属性标识以及各个关系实体对应的初始化隐私属性标识,计算得到各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度;
根据各个所述关系实体对应的初始化隐私属性标识与映射属性标识之间的匹配度,得到与所述目标属性映射对象对应的属性映射匹配度序列,进而得到所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列;
根据各所述子关系网络中的各个关系实体分别对应的属性映射匹配度序列,确定目标关系实体,其中所述目标关系实体为对应的属性映射匹配度序列的属性映射匹配度均值小于预设匹配度阈值的关系实体;
将所述目标关系实体对应的初始化隐私属性标识根据所述目标关系实体所在的子关系网络中的其他关系实体对应的初始化隐私属性标识进行标识更新;
根据标识更新后的各个关系实体对应的隐私属性标识得到所述用户行为采样数据对应的关系游走后的隐私属性标识信息;
所述基于所述关系游走后的隐私属性标识信息,对所述用户行为采样数据的初始化隐私属性标识进行优化,得到优化后用户行为采样数据库,包括:
在所述关系游走后的隐私属性标识信息中分析出所述用户行为采样数据对应的关系游走后的隐私属性标识特征;
在所述关系游走后的隐私属性标识特征中选取隐私属性标识权重等级最高的隐私属性标识对象;
在所述关系游走后的隐私属性标识特征中确定所述隐私属性标识对象的关系实体拓扑位置;
获取所述关系实体拓扑位置对应的目标隐私属性标识,将所述目标隐私属性标识作为所述用户行为采样数据对应的关系游走后的隐私属性标识;
将所述关系游走后的隐私属性标识与对应的用户行为采样数据被配置的初始化隐私属性标识进行匹配;
当所述关系游走后的隐私属性标识与初始化隐私属性标识不匹配时,确定所述用户行为采样数据为待进行优化的目标用户行为采样数据;
将所述目标用户行为采样数据的初始化隐私属性标识根据对应的关系游走后的隐私属性标识进行优化,得到所述优化后用户行为采样数据库。
6.根据权利要求1-5任意一项所述的方法,其特征在于,所述根据所述行为数据描述序列,将所述用户行为采样数据作为关系实体生成行为数据关系网络,包括:
在所述行为数据描述序列中选取每一用户行为采样数据对应的数据行为描述,并基于所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据之间的行为描述特征差异;
基于所述行为描述特征差异,在所述用户行为采样数据库中选取所述用户行为采样数据的关联用户行为采样数据,得到所述用户行为采样数据的关联用户行为采样数据库;
根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络;
其中,所述根据所述关联用户行为采样数据库,将所述用户行为采样数据作为关系实体生成行为数据关系网络,包括:
获取所述用户行为采样数据与对应的关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据;
根据所述关联行为数据,将所述用户行为采样数据作为关系实体生成参考行为关系网络,并对所述参考行为关系网络进行网络关系转置处理,得到所述行为数据关系网络;
其中,所述获取所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系,得到所述用户行为采样数据的关联行为数据,包括:
在所述行为描述特征差异中选取所述用户行为采样数据与对应的关联用户行为采样数据库中用户行为采样数据之间的目标行为描述特征差异;
对所述目标行为描述特征差异进行特征拼接,以得到所述用户行为采样数据与所述关联用户行为采样数据库中的用户行为采样数据之间的拓扑分布关系;
基于所述拓扑分布关系,确定所述用户行为采样数据的关联行为数据。
7.根据权利要求1-5任意一项所述的方法,其特征在于,所述通过所述优化后用户行为采样数据库对所述预先确定的隐私信息解析网络进行机器学习,包括:
a、基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
b、通过所述预先确定的隐私信息解析网络对所述优化后用户行为采样数据库中的用户行为采样数据进行行为描述分析,得到目标行为数据描述序列;
c、基于所述目标行为数据描述序列,对所述用户行为采样数据的隐私属性标识进行优化;
d、迭代执行上述a-c的步骤,直至所述预先确定的隐私信息解析网络到达预先确定的机器学习终止条件,得到机器学习后的隐私信息解析网络。
8.根据权利要求7所述的方法,其特征在于,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述和隐私属性标识,对所述预先确定的隐私信息解析网络进行网络指标迭代更新,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,确定所述用户行为采样数据的隐私属性代价指标参数;
基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数;
将所述隐私属性代价指标参数和行为描述代价指标参数进行加权计算,并根据加权计算后的代价指标参数对所述预先确定的隐私信息解析网络进行网络指标迭代更新;
其中,所述基于所述优化后用户行为采样数据库中用户行为采样数据的数据行为描述,确定所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述优化后用户行为采样数据库中用户行为采样数据的隐私属性标识,对所述用户行为采样数据进行序列划分,得到每一隐私属性标识对应的用户行为采样数据序列;
基于所述用户行为采样数据序列中用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列对应的目标数据行为描述;
将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数。
9.根据权利要求8所述的方法,其特征在于,所述将所述用户行为采样数据的数据行为描述和用户行为采样数据序列对应的目标数据行为描述进行关联匹配,得到所述用户行为采样数据的行为描述代价指标参数,包括:
根据所述用户行为采样数据的数据行为描述,计算所述用户行为采样数据序列中用户行为采样数据之间的行为描述特征距离,得到第一行为描述特征距离;
基于所述用户行为采样数据序列对应的目标行为描述特征距离,计算所述用户行为采样数据序列之间的行为描述特征距离,得到第二行为描述特征距离;
计算所述第一行为描述特征距离和第二行为描述特征距离之间的特征距离,得到第三行为描述特征距离,并将所述第三行为描述特征距离与预先确定的参考行为描述分量进行分量聚合,得到分量聚合后的行为描述分量;
当所述分量聚合后的行为描述分量与预先确定的行为描述分量的匹配度达到设定匹配度时,根据所述分量聚合后的行为描述分量得到所述用户行为采样数据的行为描述代价指标参数。
10.一种基于人工智能的大数据隐私信息解析系统,其特征在于,包括处理器、机器可读存储介质以及隐私信息解析装置,所述机器可读存储介质和所述处理器连接,所述隐私信息解析装置包括一个或多个存储于所述机器可读存储介质中的软件功能模块,所述处理器用于执行所述软件功能模块以实现权利要求1-9任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877974.8A CN113468604A (zh) | 2021-08-02 | 2021-08-02 | 基于人工智能的大数据隐私信息解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110877974.8A CN113468604A (zh) | 2021-08-02 | 2021-08-02 | 基于人工智能的大数据隐私信息解析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468604A true CN113468604A (zh) | 2021-10-01 |
Family
ID=77883500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110877974.8A Withdrawn CN113468604A (zh) | 2021-08-02 | 2021-08-02 | 基于人工智能的大数据隐私信息解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468604A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828011A (zh) * | 2022-10-13 | 2023-03-21 | 徐州海清信息科技有限公司 | 基于大数据的数据分析方法和平台 |
-
2021
- 2021-08-02 CN CN202110877974.8A patent/CN113468604A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828011A (zh) * | 2022-10-13 | 2023-03-21 | 徐州海清信息科技有限公司 | 基于大数据的数据分析方法和平台 |
CN115828011B (zh) * | 2022-10-13 | 2023-11-10 | 四川宏智科信数字科技有限公司 | 基于大数据的数据分析方法和平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110347940A (zh) | 用于优化兴趣点标签的方法和装置 | |
CN110138595A (zh) | 动态加权网络的时间链路预测方法、装置、设备及介质 | |
CN112016834B (zh) | 异常驾驶行为检测方法、装置、设备及存储介质 | |
CN112231592B (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
CN114332984B (zh) | 训练数据处理方法、装置和存储介质 | |
CN111932386A (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
CN111444956B (zh) | 低负载信息预测方法、装置、计算机系统及可读存储介质 | |
CN113821667B (zh) | 基于人工智能的图像处理方法、装置及电子设备 | |
CN112561031A (zh) | 基于人工智能的模型搜索方法、装置及电子设备 | |
Concolato et al. | Data science: A new paradigm in the age of big-data science and analytics | |
CN113554175A (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
CN113190730B (zh) | 一种区块链地址的分类方法及装置 | |
CN113468604A (zh) | 基于人工智能的大数据隐私信息解析方法及系统 | |
CN116703682B (zh) | 一种基于深度学习的政务数据平台 | |
CN113515519A (zh) | 图结构估计模型的训练方法、装置、设备及存储介质 | |
CN114528908B (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 | |
CN115795005A (zh) | 一种融合对比学习去噪优化的会话推荐方法及装置 | |
Liu et al. | Automatic clustering method based on evolutionary optimisation | |
CN114329231A (zh) | 对象特征处理方法、装置、电子设备及存储介质 | |
CN111935259A (zh) | 目标帐号集合的确定方法和装置、存储介质及电子设备 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN112580676A (zh) | 聚类方法、聚类装置、计算机可读介质及电子设备 | |
CN112862536B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN116050508B (zh) | 神经网络训练方法以及装置 | |
CN114417944B (zh) | 识别模型训练方法及装置、用户异常行为识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211001 |
|
WW01 | Invention patent application withdrawn after publication |