CN112733186A - 一种用户隐私数据分析方法及装置 - Google Patents

一种用户隐私数据分析方法及装置 Download PDF

Info

Publication number
CN112733186A
CN112733186A CN202011640965.9A CN202011640965A CN112733186A CN 112733186 A CN112733186 A CN 112733186A CN 202011640965 A CN202011640965 A CN 202011640965A CN 112733186 A CN112733186 A CN 112733186A
Authority
CN
China
Prior art keywords
metadata
distributed
feature
distributed feature
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011640965.9A
Other languages
English (en)
Inventor
周勇
仰守浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jingdong Technology Co Ltd
Original Assignee
Shanghai Jingdong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jingdong Technology Co Ltd filed Critical Shanghai Jingdong Technology Co Ltd
Priority to CN202011640965.9A priority Critical patent/CN112733186A/zh
Publication of CN112733186A publication Critical patent/CN112733186A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Library & Information Science (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开的一种用户隐私数据分析方法及装置,包括如下步骤:S100数据采集:获得涉及用户隐私的初始数据;S200构建规则树:根据知识挖掘预先构建规则树,S300元数据集合构建:将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合;S400元数据集合映射:元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;S500、数据输出。本发明把涉及用户隐私信息的初始数据,转化为不含有隐私信息的用户特征数据,进而提供给数据分析者实现对用户特征的分析,既保障了用户的隐私,又能够实现大数据分析在产品和服务定制,精准推荐、用户等级评估等方面的应用。

Description

一种用户隐私数据分析方法及装置
技术领域
本发明属于用户隐私数据保护技术领域,具体涉及一种用户隐私数据分析方法及装置。
背景技术
目前,与用户的身份敏感信息、行为信息等方面相关的大数据的采集和分析功能日益普及,在产品和服务定制,精准推荐、用户等级评估等方面起到了重要的作用。但是,也带来了用户隐私保护方面的新问题,可能造成记录了用户隐私的数据未经授权而被传播,甚至发生泄露。
存在问题或缺陷:现有技术中对用户隐私的保护手段主要是在存储和传输时进行加密,以及对涉隐私数据的访问进行比较严格的权限控制。这些手段对于防御非法截留、窃取数据比较有效,但是对于具有权限的数据获取者、分析者不适当地拷贝、使用、传输用户隐私相关数据的情况不能起到作用。
发明内容
针对上述数据隐私保护技术手段有限,部分情况不起作用等问题,本发明提供了一种用户隐私数据分析方法及装置。
本申请公开的一种用户隐私数据分析方法,包括下列步骤:
S100、数据采集:获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集;
S200、构建规则树:根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;
S300、元数据集合构建:将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合;
S400、元数据集合映射:元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合用于从元数据集合里面中提取分布式特征;所述分布式特征集合当中包含多种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值;
S500、数据输出:将分布式特征组进行网络传输,提供给数据分析者进行存储和分析。
进一步的,所述S300元数据集合构建中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合;
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
进一步的,所述S400数据映射,具体包括如下步骤:S410、将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk可以作为该分布式特征与元数据集合的匹配度。
进一步的,S420、根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值
Tk=log(Mk l2*l3Vk)
其中l2,l3为经验常数;
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
进一步的,所述步骤S420中,对于分布式特征具有N个字段名,则该分布式特征的权重参数值为:
Figure BDA0002880373230000031
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,共N个字段名;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
本申请公开的一种用户隐私数据分析装置,包括数据采集模块,规则树构建模块,元数据集合构建模块,分布式特征组构建模块,数据输出模块,
所述数据采集模块:用于获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集;
所述规则树构建模块:用于根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;
所述元数据集合构建模块:用于将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合;
所述分布式特征组构建模块:用于将元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合用于从元数据集合里面中提取分布式特征;所述分布式特征集合当中包含多种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值;
所述数据输出模块:将分布式特征组进行网络传输,提供给数据分析者进行存储和分析。
进一步的,所述元数据集合构建模块中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合;
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
进一步的,所述分布式特征组构建模块中,将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk可以作为该分布式特征与元数据集合的匹配度。
进一步的,所述分布式特征组构建模块中,根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值:
Tk=log(Mk l2*l3Vk)
其中l2,l3为经验常数;
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
进一步的,所述分布式特征的权重参数值为:
Figure BDA0002880373230000051
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,N为字段名总数;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
本发明与现有技术相比,具有的有益效果是:把涉及用户隐私信息的初始数据,转化为不含有隐私信息但是特征分布包括用户的行为特征分布、身份敏感信息分布等与初始数据的分布一致的用户特征数据,进而可以提供给数据分析者实现对用户特征的分析,既保障了用户的隐私,又能够实现大数据分析在产品和服务定制,精准推荐、用户等级评估等方面的应用。
附图说明
图1为本发明实施例一中用户隐私数据保护方法的步骤流程图;
图2为本发明实施例二中用户隐私数据保护装置的系统框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一、本申请公开的一种用户隐私数据分析方法,包括下列步骤:
S100、数据采集:获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集。
首先,由具有用户隐私的采集和保管权限的第三方机构,获得涉及用户隐私的初始数据;然后,该第三方机构将初始数据与基于知识挖掘形成的规则树进行匹配(匹配方式包括关键词匹配、字段匹配等),从而将初始数据生成具有字段描述结构、关联结构的元数据集合。
S200、构建规则树:根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;具体地,知识挖掘是从和表示用户隐私信息相关的专业知识中挖掘出字段名和描述关键词,字段名表示该字段所代表的用户隐私数据的类型或者属性,例如身份证号、姓名、地址、职业等,字段属性值表示上述字段名的取值,描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述,例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等;规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成,逻辑关系包括并列关系、包含关系、因果关系、递进关系等。
S300、元数据集合构建:将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合。
进一步的,所述S300元数据集合构建中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
S400、元数据集合映射:第三方机构将元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合当中包含K种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值。经过映射之后,元数据集合中每个字段的字段属性值的特征分布被映射为分布式特征集合中的分布式特征组的特征分布,两个特征分布具有同一性的分布规律,但是映射后的分布式特征组当中并不具备涉及用户隐私的信息。
进一步的,所述S400数据映射,具体包括如下步骤:S410、将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk可以作为该分布式特征与元数据集合的匹配度。
进一步的,S420、根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值
Tk=log(Mk l2*l3Vk)
其中l2,l3为经验常数;
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
进一步的,所述步骤S420中,分布式特征集合当中每种类型的分布式特征,都具有与元数据集合相同的字段名,每字段名具有预定的字段属性值的取值区间;其中分布式特征的字段属性值的取值区间覆盖范围越大,则该分布式特征的该字段名对应的权重参数值越低,全部字段名的权重参数值累加作为分布式特征的权重参数值。例如:对于分布式特征具有N个字段名,则该分布式特征的权重参数值为:
Figure BDA0002880373230000081
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,共N个字段名;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
S500、数据输出:将元数据集合的分布式特征组进行网络传输,提供给数据分析者进行存储和分析,可以利用各种深度学习方法进行分析,发掘产品和服务定制,精准推荐、用户等级评估等方面的规律性。
实施例二、本申请公开的一种用户隐私数据分析装置,包括数据采集模块,规则树构建模块,元数据集合构建模块,分布式特征组构建模块,数据输出模块。
所述数据采集模块:用于获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集;由具有用户隐私的采集和保管权限的第三方机构通过所述数据采集模块,获得涉及用户隐私的初始数据;然后,该第三方机构将初始数据与基于知识挖掘形成的所述规则树构建模块进行匹配(匹配方式包括关键词匹配、字段匹配等),从而将初始数据生成具有字段描述结构、关联结构的元数据集合。
所述规则树构建模块:用于根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;具体地,知识挖掘是从和表示用户隐私信息相关的专业知识中挖掘出字段名和描述关键词,字段名表示该字段所代表的用户隐私数据的类型或者属性,例如身份证号、姓名、地址、职业等,字段属性值表示上述字段名的取值,描述关键词是以关键词标签的形式对字段名进行进一步的扩充描述,例如字段名的同义词、近义词、补充描述、因果描述、递进阐述等;规则树由彼此间按照逻辑关系进行关联的字段名和描述关键词组成,逻辑关系包括并列关系、包含关系、因果关系、递进关系等。
所述元数据集合构建模块:用于将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合。
所述分布式特征组构建模块:第三方机构通过所述分布式特征组构建模块,将元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合当中包含K种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值。经过映射之后,元数据集合中每个字段的字段属性值的特征分布被映射为分布式特征集合中的分布式特征组的特征分布,两个特征分布具有同一性的分布规律,但是映射后的分布式特征组当中并不具备涉及用户隐私的信息。
所述数据输出模块:用于将元数据集合的分布式特征组进行网络传输,提供给数据分析者进行存储和分析,可以利用各种深度学习方法进行分析,发掘产品和服务定制,精准推荐、用户等级评估等方面的规律性。
进一步的,所述元数据集合构建模块中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
进一步的,所述分布式特征组构建模块中,将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk可以作为该分布式特征与元数据集合的匹配度。
进一步的,所述分布式特征组构建模块中,根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值:
Figure BDA0002880373230000101
其中l2,l3为经验常数。
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
进一步的,分布式特征集合当中每种类型的分布式特征,都具有与元数据集合相同的字段名,每字段名具有预定的字段属性值的取值区间;其中分布式特征的字段属性值的取值区间覆盖范围越大,则该分布式特征的该字段名对应的权重参数值越低,全部字段名的权重参数值累加作为分布式特征的权重参数值。例如:对于分布式特征具有N个字段名,则该分布式特征的权重参数值为:
Figure BDA0002880373230000111
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,共N个字段名;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (10)

1.一种用户隐私数据分析方法,其特征在于:包括下列步骤:
S100、数据采集:获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集;
S200、构建规则树:根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;
S300、元数据集合构建:将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合;
S400、元数据集合映射:元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合用于从元数据集合里面中提取分布式特征;所述分布式特征集合当中包含多种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值;
S500、数据输出:将元数据集合的分布式特征组进行网络传输,提供给数据分析者进行存储和分析。
2.根据权利要求1所述的一种用户隐私数据分析方法,其特征在于:所述S300元数据集合构建中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合;
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
3.根据权利要求1所述的一种用户隐私数据分析方法,其特征在于:所述S400数据映射,具体包括如下步骤:
S410、将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk作为该分布式特征与元数据集合的匹配度。
4.根据权利要求3所述的一种用户隐私数据分析方法,其特征在于:所述S400数据映射,还包括如下步骤:
S420、根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值
Figure FDA0002880373220000021
其中l2,l3为经验常数;
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
5.根据权利要求4所述的一种用户隐私数据分析方法,其特征在于:所述步骤S420中,对于分布式特征具有N个字段名,则该分布式特征的权重参数值为:
Figure FDA0002880373220000031
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,共N个字段名;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
6.一种用户隐私数据分析装置,其特征在于,包括数据采集模块,规则树构建模块,元数据集合构建模块,分布式特征组构建模块,
所述数据采集模块:用于获得涉及用户隐私的初始数据;所述初始数据的采集方式包括文本格式采集、XML表单或者其它描述性格式采集;
所述规则树构建模块:用于根据知识挖掘预先构建规则树,所述规则树包括按逻辑关系关联的字段名和关键词;
所述元数据集合构建模块:用于将所述初始数据与规则树进行匹配,从所述初始数据中自动提取字段名和字段属性值的元数据,并依据规则树的逻辑关系生成元数据集合;
所述分布式特征组构建模块:用于将元数据集合映射至分布式特征集合进行匹配,获得分布式特征组;所述分布式特征集合用于从元数据集合里面中提取分布式特征;所述分布式特征集合当中包含多种类型的分布式特征,每一种类型的分布式特征当中均具有该类型相应的权重参数值;
所述数据输出模块:将分布式特征组进行网络传输,提供给数据分析者进行存储和分析。
7.根据权利要求6所述的一种用户隐私数据分析装置,其特征在于:所述元数据集合构建模块中,对于文本格式采集的初始数据,将其文本内容与规则树的字段名、描述关键词进行检索比对,然后从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合;
对于XML表单或者其它描述性格式采集的初始数据,采用字段匹配的方式,把XML或者其它描述标签与规则树的字段名、描述关键词进行匹配,从初始数据中自动提取字段名和字段属性值的元数据,并且元数据参照规则树的逻辑关系进行组织,形成元数据集合。
8.根据权利要求6所述的一种用户隐私数据分析装置,其特征在于:所述分布式特征组构建模块中,将分布式特征集合与元数据集合参照其结构关联进行匹配,获得分布式特征集合与元数据集合的匹配度;元数据集合中字段名的字段属性值落入第k个分布式特征的同字段名取值区间的次数Mk作为该分布式特征与元数据集合的匹配度。
9.根据权利要求8所述的一种用户隐私数据分析装置,其特征在于:
所述分布式特征组构建模块中,根据分布式特征集合的权重参数值以及分布式特征集合与元数据集合的匹配度,确定分布式特征组的特征值;根据分布式特征集合中的每个分布式特征的权重参数值Vk以及分布式特征与元数据集合的匹配度Mk,确定元数据集合的分布式特征值组中的特征值,元数据集合对应于第k个分布式特征的特征值:
Figure FDA0002880373220000041
其中l2,l3为经验常数;
则元数据集合对应于分布式特征集合的各个分布式特征的特征值,组合在一起形成:<T1,T2,…TK…>即作为该元数据集合的分布式特征组。
10.根据权利要求9所述的一种用户隐私数据分析装置,其特征在于:所述分布式特征的权重参数值为:
Figure FDA0002880373220000051
其中k表示分布式特征集合中的第k个类型的分布式特征,VK为第k个分布式特征的权重参数值;i为字段名的序号,N为字段名总数;l1为常数系数,以经验值确定其取值,Si为第i个字段名的取值区间范围的量化值。
CN202011640965.9A 2020-12-31 2020-12-31 一种用户隐私数据分析方法及装置 Pending CN112733186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011640965.9A CN112733186A (zh) 2020-12-31 2020-12-31 一种用户隐私数据分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011640965.9A CN112733186A (zh) 2020-12-31 2020-12-31 一种用户隐私数据分析方法及装置

Publications (1)

Publication Number Publication Date
CN112733186A true CN112733186A (zh) 2021-04-30

Family

ID=75609090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011640965.9A Pending CN112733186A (zh) 2020-12-31 2020-12-31 一种用户隐私数据分析方法及装置

Country Status (1)

Country Link
CN (1) CN112733186A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349879A (zh) * 2023-09-11 2024-01-05 江苏汉康东优信息技术有限公司 基于连续词袋模型的文本数据匿名化隐私保护方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106815A1 (en) * 2007-10-23 2009-04-23 International Business Machines Corporation Method for mapping privacy policies to classification labels
CN111538741A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 一种面向警情大数据的深度学习分析方法及系统
CN111581439A (zh) * 2020-03-25 2020-08-25 北方工业大学 一种用于机器学习分析的大数据信息处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090106815A1 (en) * 2007-10-23 2009-04-23 International Business Machines Corporation Method for mapping privacy policies to classification labels
CN111538741A (zh) * 2020-03-23 2020-08-14 重庆特斯联智慧科技股份有限公司 一种面向警情大数据的深度学习分析方法及系统
CN111581439A (zh) * 2020-03-25 2020-08-25 北方工业大学 一种用于机器学习分析的大数据信息处理方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349879A (zh) * 2023-09-11 2024-01-05 江苏汉康东优信息技术有限公司 基于连续词袋模型的文本数据匿名化隐私保护方法

Similar Documents

Publication Publication Date Title
CN107566376A (zh) 一种威胁情报生成方法、装置及系统
CN105426756A (zh) 机密信息的检测
CN111538741B (zh) 一种面向警情大数据的深度学习分析方法及系统
CN109800600A (zh) 面向保密需求的海洋大数据敏感度评估系统及防范方法
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN106095939B (zh) 账户权限的获取方法和装置
CN107273752A (zh) 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法
CN111367911A (zh) 一种场地环境数据分析方法及其系统
CN111159763A (zh) 一种涉法人员群体画像分析系统及方法
CN112733186A (zh) 一种用户隐私数据分析方法及装置
US20240127143A1 (en) Method, device and storage medium for information processing based on data interaction
CN112968873B (zh) 一种用于隐私数据传输的加密方法和装置
CN111460139B (zh) 一种基于智慧管理的工程监理知识服务系统及方法
CN116976435A (zh) 一种基于网络安全的知识图谱构建方法
CN111581439A (zh) 一种用于机器学习分析的大数据信息处理方法及系统
CN113610499B (zh) 一种基于区块链的求职功能团队职业信用档案方法和系统
CN115878559A (zh) 一种电子档案管理系统
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN113486191A (zh) 一种涉密电子文件定解密方法
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
CN112785335A (zh) 一种面向电子政务绩效考核系统的数据处理方法和系统
KR20070102036A (ko) 문서분석 시스템 및 그 방법
CN112559823B (zh) 一种数据标准化的数据采集方法
CN114969384B (zh) 高价值司法证据链获取存储方法、装置及可读储存介质
CN115640369B (zh) 一种应用星形数据模型的办件信息库数据存储方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430