CN112733186A

CN112733186A - 一种用户隐私数据分析方法及装置

Info

Publication number: CN112733186A
Application number: CN202011640965.9A
Authority: CN
Inventors: 周勇; 仰守浩
Original assignee: Shanghai Jingdong Technology Co Ltd
Current assignee: Shanghai Jingdong Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-30

Abstract

本申请公开的一种用户隐私数据分析方法及装置，包括如下步骤：S100数据采集：获得涉及用户隐私的初始数据；S200构建规则树：根据知识挖掘预先构建规则树，S300元数据集合构建：将所述初始数据与规则树进行匹配，从所述初始数据中自动提取字段名和字段属性值的元数据，并依据规则树的逻辑关系生成元数据集合；S400元数据集合映射：元数据集合映射至分布式特征集合进行匹配，获得分布式特征组；S500、数据输出。本发明把涉及用户隐私信息的初始数据，转化为不含有隐私信息的用户特征数据，进而提供给数据分析者实现对用户特征的分析，既保障了用户的隐私，又能够实现大数据分析在产品和服务定制，精准推荐、用户等级评估等方面的应用。

Description

一种用户隐私数据分析方法及装置

技术领域

本发明属于用户隐私数据保护技术领域，具体涉及一种用户隐私数据分析方法及装置。

背景技术

目前，与用户的身份敏感信息、行为信息等方面相关的大数据的采集和分析功能日益普及，在产品和服务定制，精准推荐、用户等级评估等方面起到了重要的作用。但是，也带来了用户隐私保护方面的新问题，可能造成记录了用户隐私的数据未经授权而被传播，甚至发生泄露。

存在问题或缺陷：现有技术中对用户隐私的保护手段主要是在存储和传输时进行加密，以及对涉隐私数据的访问进行比较严格的权限控制。这些手段对于防御非法截留、窃取数据比较有效，但是对于具有权限的数据获取者、分析者不适当地拷贝、使用、传输用户隐私相关数据的情况不能起到作用。

发明内容

针对上述数据隐私保护技术手段有限，部分情况不起作用等问题，本发明提供了一种用户隐私数据分析方法及装置。

本申请公开的一种用户隐私数据分析方法，包括下列步骤：

S100、数据采集：获得涉及用户隐私的初始数据；所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集；

S200、构建规则树：根据知识挖掘预先构建规则树，所述规则树包括按逻辑关系关联的字段名和关键词；

S300、元数据集合构建：将所述初始数据与规则树进行匹配，从所述初始数据中自动提取字段名和字段属性值的元数据，并依据规则树的逻辑关系生成元数据集合；

S400、元数据集合映射：元数据集合映射至分布式特征集合进行匹配，获得分布式特征组；所述分布式特征集合用于从元数据集合里面中提取分布式特征；所述分布式特征集合当中包含多种类型的分布式特征，每一种类型的分布式特征当中均具有该类型相应的权重参数值；

S500、数据输出：将分布式特征组进行网络传输，提供给数据分析者进行存储和分析。

进一步的，所述S300元数据集合构建中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合；

对于XML表单或者其它描述性格式采集的初始数据，采用字段匹配的方式，把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配，从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合。

进一步的，所述S400数据映射，具体包括如下步骤：S410、将分布式特征集合与元数据集合参照其结构关联进行匹配，获得分布式特征集合与元数据集合的匹配度；元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数M_k可以作为该分布式特征与元数据集合的匹配度。

进一步的，S420、根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度，确定分布式特征组的特征值；根据分布式特征集合中的每个分布式特征的权重参数值V_k以及分布式特征与元数据集合的匹配度M_k，确定元数据集合的分布式特征值组中的特征值，元数据集合对应于第k个分布式特征的特征值

T_k＝log(M_k ^l2*l3^Vk)

其中l2,l3为经验常数；

则元数据集合对应于分布式特征集合的各个分布式特征的特征值，组合在一起形成：＜T₁,T₂,…T_K…＞即作为该元数据集合的分布式特征组。

进一步的，所述步骤S420中，对于分布式特征具有N个字段名，则该分布式特征的权重参数值为：

其中k表示分布式特征集合中的第k个类型的分布式特征，V_K为第k个分布式特征的权重参数值；i为字段名的序号，共N个字段名；l1为常数系数，以经验值确定其取值，S_i为第i个字段名的取值区间范围的量化值。

本申请公开的一种用户隐私数据分析装置，包括数据采集模块，规则树构建模块，元数据集合构建模块，分布式特征组构建模块，数据输出模块，

所述数据采集模块：用于获得涉及用户隐私的初始数据；所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集；

所述规则树构建模块：用于根据知识挖掘预先构建规则树，所述规则树包括按逻辑关系关联的字段名和关键词；

所述元数据集合构建模块：用于将所述初始数据与规则树进行匹配，从所述初始数据中自动提取字段名和字段属性值的元数据，并依据规则树的逻辑关系生成元数据集合；

所述分布式特征组构建模块：用于将元数据集合映射至分布式特征集合进行匹配，获得分布式特征组；所述分布式特征集合用于从元数据集合里面中提取分布式特征；所述分布式特征集合当中包含多种类型的分布式特征，每一种类型的分布式特征当中均具有该类型相应的权重参数值；

所述数据输出模块：将分布式特征组进行网络传输，提供给数据分析者进行存储和分析。

进一步的，所述元数据集合构建模块中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合；

进一步的，所述分布式特征组构建模块中，将分布式特征集合与元数据集合参照其结构关联进行匹配，获得分布式特征集合与元数据集合的匹配度；元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数M_k可以作为该分布式特征与元数据集合的匹配度。

进一步的，所述分布式特征组构建模块中，根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度，确定分布式特征组的特征值；根据分布式特征集合中的每个分布式特征的权重参数值V_k以及分布式特征与元数据集合的匹配度M_k，确定元数据集合的分布式特征值组中的特征值，元数据集合对应于第k个分布式特征的特征值：

T_k＝log(M_k ^l2*l3^Vk)

其中l2,l3为经验常数；

进一步的，所述分布式特征的权重参数值为：

其中k表示分布式特征集合中的第k个类型的分布式特征，V_K为第k个分布式特征的权重参数值；i为字段名的序号，N为字段名总数；l1为常数系数，以经验值确定其取值，S_i为第i个字段名的取值区间范围的量化值。

本发明与现有技术相比，具有的有益效果是：把涉及用户隐私信息的初始数据，转化为不含有隐私信息但是特征分布包括用户的行为特征分布、身份敏感信息分布等与初始数据的分布一致的用户特征数据，进而可以提供给数据分析者实现对用户特征的分析，既保障了用户的隐私，又能够实现大数据分析在产品和服务定制，精准推荐、用户等级评估等方面的应用。

附图说明

图1为本发明实施例一中用户隐私数据保护方法的步骤流程图；

图2为本发明实施例二中用户隐私数据保护装置的系统框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、本申请公开的一种用户隐私数据分析方法，包括下列步骤：

S100、数据采集：获得涉及用户隐私的初始数据；所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集。

首先，由具有用户隐私的采集和保管权限的第三方机构，获得涉及用户隐私的初始数据；然后，该第三方机构将初始数据与基于知识挖掘形成的规则树进行匹配(匹配方式包括关键词匹配、字段匹配等)，从而将初始数据生成具有字段描述结构、关联结构的元数据集合。

S200、构建规则树：根据知识挖掘预先构建规则树，所述规则树包括按逻辑关系关联的字段名和关键词；具体地，知识挖掘是从和表示用户隐私信息相关的专业知识中挖掘出字段名和描述关键词，字段名表示该字段所代表的用户隐私数据的类型或者属性，例如身份证号、姓名、地址、职业等，字段属性值表示上述字段名的取值，描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述，例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等；规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成，逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

S300、元数据集合构建：将所述初始数据与规则树进行匹配，从所述初始数据中自动提取字段名和字段属性值的元数据，并依据规则树的逻辑关系生成元数据集合。

进一步的，所述S300元数据集合构建中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合。

S400、元数据集合映射：第三方机构将元数据集合映射至分布式特征集合进行匹配，获得分布式特征组；所述分布式特征集合当中包含K种类型的分布式特征，每一种类型的分布式特征当中均具有该类型相应的权重参数值。经过映射之后，元数据集合中每个字段的字段属性值的特征分布被映射为分布式特征集合中的分布式特征组的特征分布，两个特征分布具有同一性的分布规律，但是映射后的分布式特征组当中并不具备涉及用户隐私的信息。

T_k＝log(M_k ^l2*l3^Vk)

其中l2,l3为经验常数；

进一步的，所述步骤S420中，分布式特征集合当中每种类型的分布式特征，都具有与元数据集合相同的字段名，每字段名具有预定的字段属性值的取值区间；其中分布式特征的字段属性值的取值区间覆盖范围越大，则该分布式特征的该字段名对应的权重参数值越低，全部字段名的权重参数值累加作为分布式特征的权重参数值。例如：对于分布式特征具有N个字段名，则该分布式特征的权重参数值为：

S500、数据输出：将元数据集合的分布式特征组进行网络传输，提供给数据分析者进行存储和分析，可以利用各种深度学习方法进行分析，发掘产品和服务定制，精准推荐、用户等级评估等方面的规律性。

实施例二、本申请公开的一种用户隐私数据分析装置，包括数据采集模块，规则树构建模块，元数据集合构建模块，分布式特征组构建模块，数据输出模块。

所述数据采集模块：用于获得涉及用户隐私的初始数据；所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集；由具有用户隐私的采集和保管权限的第三方机构通过所述数据采集模块，获得涉及用户隐私的初始数据；然后，该第三方机构将初始数据与基于知识挖掘形成的所述规则树构建模块进行匹配(匹配方式包括关键词匹配、字段匹配等)，从而将初始数据生成具有字段描述结构、关联结构的元数据集合。

所述规则树构建模块：用于根据知识挖掘预先构建规则树，所述规则树包括按逻辑关系关联的字段名和关键词；具体地，知识挖掘是从和表示用户隐私信息相关的专业知识中挖掘出字段名和描述关键词，字段名表示该字段所代表的用户隐私数据的类型或者属性，例如身份证号、姓名、地址、职业等，字段属性值表示上述字段名的取值，描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述，例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等；规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成，逻辑关系包括并列关系、包含关系、因果关系、递进关系等。

所述元数据集合构建模块：用于将所述初始数据与规则树进行匹配，从所述初始数据中自动提取字段名和字段属性值的元数据，并依据规则树的逻辑关系生成元数据集合。

所述分布式特征组构建模块：第三方机构通过所述分布式特征组构建模块，将元数据集合映射至分布式特征集合进行匹配，获得分布式特征组；所述分布式特征集合当中包含K种类型的分布式特征，每一种类型的分布式特征当中均具有该类型相应的权重参数值。经过映射之后，元数据集合中每个字段的字段属性值的特征分布被映射为分布式特征集合中的分布式特征组的特征分布，两个特征分布具有同一性的分布规律，但是映射后的分布式特征组当中并不具备涉及用户隐私的信息。

所述数据输出模块：用于将元数据集合的分布式特征组进行网络传输，提供给数据分析者进行存储和分析，可以利用各种深度学习方法进行分析，发掘产品和服务定制，精准推荐、用户等级评估等方面的规律性。

进一步的，所述元数据集合构建模块中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合。

其中l2,l3为经验常数。

进一步的，分布式特征集合当中每种类型的分布式特征，都具有与元数据集合相同的字段名，每字段名具有预定的字段属性值的取值区间；其中分布式特征的字段属性值的取值区间覆盖范围越大，则该分布式特征的该字段名对应的权重参数值越低，全部字段名的权重参数值累加作为分布式特征的权重参数值。例如：对于分布式特征具有N个字段名，则该分布式特征的权重参数值为：

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

Claims

1.一种用户隐私数据分析方法，其特征在于：包括下列步骤：

S500、数据输出：将元数据集合的分布式特征组进行网络传输，提供给数据分析者进行存储和分析。

2.根据权利要求1所述的一种用户隐私数据分析方法，其特征在于：所述S300元数据集合构建中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合；

3.根据权利要求1所述的一种用户隐私数据分析方法，其特征在于：所述S400数据映射，具体包括如下步骤：

S410、将分布式特征集合与元数据集合参照其结构关联进行匹配，获得分布式特征集合与元数据集合的匹配度；元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数M_k作为该分布式特征与元数据集合的匹配度。

4.根据权利要求3所述的一种用户隐私数据分析方法，其特征在于：所述S400数据映射，还包括如下步骤：

S420、根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度，确定分布式特征组的特征值；根据分布式特征集合中的每个分布式特征的权重参数值V_k以及分布式特征与元数据集合的匹配度M_k，确定元数据集合的分布式特征值组中的特征值，元数据集合对应于第k个分布式特征的特征值

其中l2,l3为经验常数；

5.根据权利要求4所述的一种用户隐私数据分析方法，其特征在于：所述步骤S420中，对于分布式特征具有N个字段名，则该分布式特征的权重参数值为：

6.一种用户隐私数据分析装置，其特征在于，包括数据采集模块，规则树构建模块，元数据集合构建模块，分布式特征组构建模块，

7.根据权利要求6所述的一种用户隐私数据分析装置，其特征在于：所述元数据集合构建模块中，对于文本格式采集的初始数据，将其文本内容与规则树的字段名、描述关键词进行检索比对，然后从初始数据中自动提取字段名和字段属性值的元数据，并且元数据参照规则树的逻辑关系进行组织，形成元数据集合；

8.根据权利要求6所述的一种用户隐私数据分析装置，其特征在于：所述分布式特征组构建模块中，将分布式特征集合与元数据集合参照其结构关联进行匹配，获得分布式特征集合与元数据集合的匹配度；元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数M_k作为该分布式特征与元数据集合的匹配度。

9.根据权利要求8所述的一种用户隐私数据分析装置，其特征在于：

所述分布式特征组构建模块中，根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度，确定分布式特征组的特征值；根据分布式特征集合中的每个分布式特征的权重参数值V_k以及分布式特征与元数据集合的匹配度M_k，确定元数据集合的分布式特征值组中的特征值，元数据集合对应于第k个分布式特征的特征值：

其中l2,l3为经验常数；

10.根据权利要求9所述的一种用户隐私数据分析装置，其特征在于：所述分布式特征的权重参数值为：