CN108763961B - 一种基于大数据的隐私数据分级方法和装置 - Google Patents

一种基于大数据的隐私数据分级方法和装置 Download PDF

Info

Publication number
CN108763961B
CN108763961B CN201810565726.8A CN201810565726A CN108763961B CN 108763961 B CN108763961 B CN 108763961B CN 201810565726 A CN201810565726 A CN 201810565726A CN 108763961 B CN108763961 B CN 108763961B
Authority
CN
China
Prior art keywords
privacy
frequency
data
processed
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810565726.8A
Other languages
English (en)
Other versions
CN108763961A (zh
Inventor
刘晓鹏
张志群
刘智国
朱广宇
杨丰源
孙浩楠
李建忠
赵云龙
唐球
卢凯
陈波
秦媛媛
张松清
张宏斌
于增明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
6th Research Institute of China Electronics Corp
Original Assignee
6th Research Institute of China Electronics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 6th Research Institute of China Electronics Corp filed Critical 6th Research Institute of China Electronics Corp
Priority to CN201810565726.8A priority Critical patent/CN108763961B/zh
Publication of CN108763961A publication Critical patent/CN108763961A/zh
Application granted granted Critical
Publication of CN108763961B publication Critical patent/CN108763961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提供了一种基于大数据的隐私数据分级方法和装置,用于解决现有技术中对隐私数据的分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致隐私数据泄露影响信息安全的问题。所述方法包括:由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;基于所述高频词集合确定所述待处理隐私数据的隐私分类;基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。

Description

一种基于大数据的隐私数据分级方法和装置
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于大数据的隐私数据分级方法和装置。
背景技术
随着互联网和大数据技术的发展,隐私数据安全已经成为时下人们最为关注的问题之一。数据传递的日益便捷化,能够方便生活之外,还能够创造巨大生产价值,但是,出同样由于数据传递的便捷,数据中的隐私数据在传递过程中也可能带来私密信息泄露,存在安全隐患。因此,隐私数据的保护越来越受到人们重视,而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。
当前对隐私数据保护的研究,主要集中于对隐私属性及其分类的研究和基本分类或分级后的隐私数据保护的研究,而对隐私数据分类分级的手段,还基本停留在人工设定隐私数据的种类或等级。由于隐私数据的复杂性,人工分类分级存在不能及时响应,认识的局限性以及偏差,容易导致分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致一些已经不再敏感或某些因突发事件而敏感度急升的信息,不能自适应的调整隐私数据的分类分级,造成数据不能充分变现,以上因素都可能导致隐私数据泄露等信息安全事故。
发明内容
有鉴于此,本申请的目的在于提供一种基于大数据的隐私数据分级方法和装置,用于解决现在技术中对隐私数据的分类遗漏和分级不准,也无法快速感知公众对隐私数据敏感度的变化,导致隐私数据泄露影响信息安全的问题。
第一方面,本申请实施例提供了一种基于大数据的隐私数据分级方法,包括:
由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;
基于所述高频词集合确定所述待处理隐私数据的隐私分类;
基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;
以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。
可选的,所述由所述待处理隐私数据中提取多个高频的所述关键词,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合,包括:
通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;
通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。
可选的,所述基于所述高频词集合确定所述待处理隐私数据的隐私分类,包括:
采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。
可选的,所述基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵,包括:
根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;
以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;
所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。
可选的,所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级,包括:
采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。
本申请实施例中,通过大数据进行整理和统计,以已分类和已分级的所述隐私数据作为基础,建立所述高频词矩阵,从而对感知的所述待处理隐私数据进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。
第二方面,本申请实施例提供一种基于大数据的隐私数据分级装置,包括:
关键词提取模块,用于由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;
分类模块,用于基于所述高频词集合确定所述待处理隐私数据的隐私分类;
矩阵模块,用于基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;
分级模块,用于以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级。
可选的,所述关键词提取模块,具体用于:
通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;
通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。
可选的,所述分类模块,具体用于:
采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。
可选的,所述矩阵模块,具体用于:
根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;
以所述高频词词库中的每一个所述关键词为例元素,以所述隐私数据为行元素建立所述高频词矩阵;
所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。
可选的,所述分级模块,具体用于:
采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。
本申请实施例中,通过所述矩阵模块大数据进行整理和统计,以已分类和已分级的所述隐私数据作为基础,建立所述高频词矩阵,从而对所述关键词提取模块感知的所述待处理隐私数据,通过所述分类模块和所述分级模块进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种基于大数据的隐私数据分级方法的流程图;
图2为本申请实施例提供的对隐私数据分类和分级后定期抽取数据属性更新的流程图;
图3为本申请实施例提提供一种基于大数据的隐私数据分级装置的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所述,本申请实施例提供了一种基于大数据的隐私数据分级方法,包括:
101,由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的关键词生成高频词集合。
102,基于高频词集合确定待处理隐私数据的隐私分类。
103,基于采集的大数据中已分类和分级的隐私数据中,词频在第二预设阈值之上的关键词建立高频词矩阵。
104,以高频词矩阵和待处理隐私数据的隐私分类,对待处理隐私数据进行分级处理,得到待处理隐私数据的隐私分级。
可选的,步骤101中,由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的关键词生成高频词集合,可以通过如下具体方式实现,包括:
通过词频(Term Frequency,TF)技术由待处理隐私数据中提取多个高频的关键词;
通过逆文件频率(Inverse Document Frequency,IDF)技术由提取到的关键词中,取词频在第一预设阈值之上的关键词生成高频词集合。
对TF技术和IDF技术说明如下:
TF技术是用于信息检索与数据挖掘的加权技术,以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,从而确定关键词。
在待处理隐私数据里,TF是对词数(term count)的归一化。在待处理隐私数据dj中,词语ti的重要性可表示为tfi,j,如公式(1)所示:
Figure BDA0001684386860000071
其中,ni,j是词语ti在待处理隐私数据dj中的出现次数,∑knk,j是在待处理隐私数据dj中出现的所有字词次数之和。
IDF技术是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到,该对数值如公式(2)所示:
Figure BDA0001684386860000072
其中,j是待处理隐私数据dj的条数;|D|是语料库中的文件总数,语料库指经科学取样和加工的大规模电子文本库;|{j:ti∈dj}|是包含词语ti的数据条数,如果该词语不在语料库中,就会导致被除数为零,因此一般情况下使用1+|{j:ti∈dj}|。
由上,词语ti的词频tfidfij可以采用公式(3)得到:
tfidfij=tfi,j×idfi (3)
取待处理隐私数据dj中词频在第一预设阈值之上的关键词生成高频词集合。当然可以按照排名取关键词,例如词频排在前10的关键词生成高频词集合,或者取词频排在前20的关键词生成高频词集合,在此不做限制。
可选的,步骤102中,基于高频词集合确定待处理隐私数据的隐私分类,可以通过如下具体方式实现,包括:
采取朴素贝叶斯方法将高频词集合中的关键词作为属性对待处理隐私数据进行分类,确定待处理隐私数据的隐私分类。
朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法,在此不再赘述。
可选的,步骤103中,基于采集的大数据中已分类和分级的隐私数据中,词频在第二预设阈值之上的关键词建立高频词矩阵,可以通过如下具体方式实现,包括:
根据词频在第二预设阈值之上的关键词建立高频词词库;
以高频词词库中的每一个关键词为例元素,以隐私数据为行元素建立高频词矩阵;
高频词矩阵的矩阵元素为所在行的隐私数据是否包含矩阵元素所在列的关键词,若是则矩阵元素为1,若否则矩阵元素为0。
可选的,步骤104中,以高频词矩阵和待处理隐私数据的隐私分类,对待处理隐私数据进行分级处理,得到待处理隐私数据的隐私分级,可以通过如下具体方式实现,包括:
采取支持向量机方法,以高频词矩阵中的矩阵元素作为输入,结合待处理隐私数据的隐私分类和高频词矩阵中的隐私数据隐私分类的对应关系,对待处理隐私数据进行分级处理,得到待处理隐私数据的隐私分级。
需要说明的是,结合图1所示,提供图2所示的数据处理的流程示意图,在图2中对于待处理隐私数据进行分类和分级后,可添加的隐私数据库中,并定期的抽取数据属性更新,从而为后续的数据分类和分级提供依据。例如,步骤201,根据大数据对待处理隐私数据进行隐私分类;步骤202,根据大数据对待处理隐私数据进行隐私分级;步骤203,将分类和分级后的待处理隐私数据添加到隐私数据库中;步骤204,定期的抽取数据属性更新。当然,在具体实施时,可能会存在多种具体实施情况,在此不再一一列举。
本申请实施例中,通过大数据进行整理和统计,以已分类和已分级的隐私数据作为基础,建立高频词矩阵,从而对感知的待处理隐私数据进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。
如图3所示,本申请实施例提供一种基于大数据的隐私数据分级装置,包括:
关键词提取模块301,用于由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的关键词生成高频词集合;
分类模块302,用于基于高频词集合确定待处理隐私数据的隐私分类;
矩阵模块303,用于基于采集的大数据中已分类和分级的隐私数据中,词频在第二预设阈值之上的关键词建立高频词矩阵;
分级模块304,用于以高频词矩阵和待处理隐私数据的隐私分类,对待处理隐私数据进行分级处理,得到待处理隐私数据的隐私分级。
可选的,关键词提取模块301,具体用于:
通过词频TF技术由待处理隐私数据中提取多个高频的关键词;
通过逆文件频率IDF技术由提取到的关键词中,取词频在第一预设阈值之上的关键词生成高频词集合。
可选的,分类模块302,具体用于:
采取朴素贝叶斯方法将高频词集合中的关键词作为属性对待处理隐私数据进行分类,确定待处理隐私数据的隐私分类。
可选的,矩阵模块303,具体用于:
根据词频在第二预设阈值之上的关键词建立高频词词库;
以高频词词库中的每一个关键词为例元素,以隐私数据为行元素建立高频词矩阵;
高频词矩阵的矩阵元素为所在行的隐私数据是否包含矩阵元素所在列的关键词,若是则矩阵元素为1,若否则矩阵元素为0。
可选的,分级模块304,具体用于:
采取支持向量机方法,以高频词矩阵中的矩阵元素作为输入,结合待处理隐私数据的隐私分类和高频词矩阵中的隐私数据隐私分类的对应关系,对待处理隐私数据进行分级处理,得到待处理隐私数据的隐私分级。
本申请实施例中,通过矩阵模块303大数据进行整理和统计,以已分类和已分级的隐私数据作为基础,建立高频词矩阵,从而对关键词提取模块301感知的待处理隐私数据,通过分类模块302和分级模块304进行自适应分类分级,减少分类遗漏和提高分级准确度,从而提高信息安全度。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于大数据的隐私数据分级方法,其特征在于,包括:
由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;
基于所述高频词集合确定所述待处理隐私数据的隐私分类;
基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;
以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级;
所述基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵,包括:
根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;
以所述高频词词库中的每一个所述关键词为列元素,以所述隐私数据为行元素建立所述高频词矩阵;
所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。
2.根据权利要求1所述的方法,其特征在于,所述由所述待处理隐私数据中提取多个高频的所述关键词,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合,包括:
通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;
通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述高频词集合确定所述待处理隐私数据的隐私分类,包括:
采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。
4.根据权利要求1所述的方法,其特征在于,所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级,包括:
采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。
5.一种基于大数据的隐私数据分级装置,其特征在于,包括:
关键词提取模块,用于由待处理隐私数据中提取多个高频的关键词,取词频在第一预设阈值之上的所述关键词生成高频词集合;
分类模块,用于基于所述高频词集合确定所述待处理隐私数据的隐私分类;
矩阵模块,用于基于采集的大数据中已分类和分级的所述隐私数据中,词频在第二预设阈值之上的所述关键词建立高频词矩阵;
分级模块,用于以所述高频词矩阵和所述待处理隐私数据的所述隐私分类,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的隐私分级;
所述矩阵模块,具体用于:
根据词频在所述第二预设阈值之上的所述关键词建立高频词词库;
以所述高频词词库中的每一个所述关键词为列元素,以所述隐私数据为行元素建立所述高频词矩阵;
所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词,若是则所述矩阵元素为1,若否则所述矩阵元素为0。
6.根据权利要求5所述的装置,其特征在于,所述关键词提取模块,具体用于:
通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词;
通过逆文件频率IDF技术由提取到的所述关键词中,取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。
7.根据权利要求5所述的装置,其特征在于,所述分类模块,具体用于:
采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类,确定所述待处理隐私数据的所述隐私分类。
8.根据权利要求5所述的装置,其特征在于,所述分级模块,具体用于:
采取支持向量机方法,以所述高频词矩阵中的所述矩阵元素作为输入,结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系,对所述待处理隐私数据进行分级处理,得到所述待处理隐私数据的所述隐私分级。
CN201810565726.8A 2018-06-04 2018-06-04 一种基于大数据的隐私数据分级方法和装置 Active CN108763961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810565726.8A CN108763961B (zh) 2018-06-04 2018-06-04 一种基于大数据的隐私数据分级方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810565726.8A CN108763961B (zh) 2018-06-04 2018-06-04 一种基于大数据的隐私数据分级方法和装置

Publications (2)

Publication Number Publication Date
CN108763961A CN108763961A (zh) 2018-11-06
CN108763961B true CN108763961B (zh) 2020-05-22

Family

ID=64002681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810565726.8A Active CN108763961B (zh) 2018-06-04 2018-06-04 一种基于大数据的隐私数据分级方法和装置

Country Status (1)

Country Link
CN (1) CN108763961B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096896B (zh) * 2019-04-09 2021-06-11 中国航天系统科学与工程研究院 适于大数据融合与共享结果数据集敏感性评估方法及系统
CN110059502B (zh) * 2019-04-22 2020-08-21 鹏城实验室 隐私数据感知方法及装置
CN112052241A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种大数据存储用数据分类方法
CN112559850B (zh) * 2020-12-09 2024-01-09 苏州闻道网络科技股份有限公司 关键词挖掘系统及挖掘方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399901B (zh) * 2013-07-25 2016-06-08 三星电子(中国)研发中心 一种关键词抽取方法
CN106445994A (zh) * 2016-07-13 2017-02-22 广州精点计算机科技有限公司 一种基于混合算法的网页分类方法和装置
CN106503153B (zh) * 2016-10-21 2019-05-10 江苏理工学院 一种计算机文本分类体系
CN107273752B (zh) * 2017-06-26 2020-12-11 北京理工大学 基于词频统计和朴素贝叶斯融合模型的漏洞自动分类方法

Also Published As

Publication number Publication date
CN108763961A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
Shu et al. Beyond news contents: The role of social context for fake news detection
US11243993B2 (en) Document relationship analysis system
CN108763961B (zh) 一种基于大数据的隐私数据分级方法和装置
US20190018904A1 (en) Method and system for identifying and discovering relationships between disparate datasets from multiple sources
Kestemont et al. Cross-genre authorship verification using unmasking
US10445063B2 (en) Method and apparatus for classifying and comparing similar documents using base templates
US20130110839A1 (en) Constructing an analysis of a document
US20140207782A1 (en) System and method for computerized semantic processing of electronic documents including themes
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
Nguyen et al. Real-time event detection using recurrent neural network in social sensors
JPWO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
Noel et al. Applicability of Latent Dirichlet Allocation to multi-disk search
Yi A semantic similarity approach to predicting Library of Congress subject headings for social tags
Jaman et al. Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine
US20170242851A1 (en) Non-transitory computer readable medium, information search apparatus, and information search method
KR20110035001A (ko) 키워드 시각화 장치 및 그 방법
Mohemad et al. Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents
EP3489838A1 (en) Method and apparatus for determining an association
WO2019136920A1 (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN107315807B (zh) 人才推荐方法和装置
CN115098619A (zh) 资讯去重方法、装置、电子设备及计算机可读取存储介质
Karim et al. Classification of Google Play Store Application Reviews Using Machine Learning
Al-Katheri et al. Classification of sexual harassment on Facebook using term weighting schemes
CN113392329A (zh) 内容推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant