CN109766715A - 一种面向大数据环境隐私信息防泄露自动识别方法及系统 - Google Patents

一种面向大数据环境隐私信息防泄露自动识别方法及系统 Download PDF

Info

Publication number
CN109766715A
CN109766715A CN201811581970.XA CN201811581970A CN109766715A CN 109766715 A CN109766715 A CN 109766715A CN 201811581970 A CN201811581970 A CN 201811581970A CN 109766715 A CN109766715 A CN 109766715A
Authority
CN
China
Prior art keywords
privacy information
keyword
data
leakage
towards
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811581970.XA
Other languages
English (en)
Other versions
CN109766715B (zh
Inventor
杨玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Aerospace Institute of Measuring and Testing Technology
Original Assignee
Guizhou Aerospace Institute of Measuring and Testing Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Aerospace Institute of Measuring and Testing Technology filed Critical Guizhou Aerospace Institute of Measuring and Testing Technology
Priority to CN201811581970.XA priority Critical patent/CN109766715B/zh
Publication of CN109766715A publication Critical patent/CN109766715A/zh
Application granted granted Critical
Publication of CN109766715B publication Critical patent/CN109766715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统,所述方法包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。本发明实现简单,针对数据采集或数据流通的输出口面临海量数据的情况,极大程度减少隐私信息判定模块判定数据量,提升了隐私信息的判定准确率;实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率;实现了关键词列表与分类器的及时更新,进一步提升了隐私信息筛选的召回率和判定准确率。

Description

一种面向大数据环境隐私信息防泄露自动识别方法及系统
技术领域
本发明涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统。
背景技术
目前,随着政府数据开放共享进程的日益加快以及大数据在政务、交通、旅游等领域的广泛应用,政府、企业等数据提供者面临隐私信息泄露的严峻问题和挑战。可以说,隐私信息泄露已经成为制约大数据开放共享的瓶颈,并进一步限制了大数据产业的发展。
为保障政务、交通、旅游等领域数据开放共享进程中,用户隐私不被泄露,国家出台了一系列信息安全相关的法律法规,例如“网络安全法”、“保密法”、“中华人民共和国政府信息公开条例”,这就要求数据在开放共享的过程中必须符合特定的条件,必须保证用户的隐私信息不被泄露。因此,要实现数据的开放共享,发挥数据资源的价值,又要保证用户的隐私信息安全,是目前信息安全技术领域具有挑战性的问题。
目前,面向大数据环境的隐私信息保护多采用访问控制、数据脱敏、密码技术三种方式:
(1)访问控制:采用基于属性的访问控制技术,根据用户属性限制对隐私数据的访问,访问非授权用户访问隐私信息。该方法通过降低数据开放共享程度来保护用户隐私,限制了数据资源价值的挖掘。
(2)数据脱敏:多采用置换、关键字提取等方式对隐私信息进行处理,在处理的同时数据存在一定程度的失真,难以分析挖掘出数据资源潜在的价值;采用自然语言处理技术、机器学习技术实现数据脱敏,可自动完善关键词库,保障隐私信息安全,但同样存在数据置换导致的数据失真问题,且计算效率低。
(3)密码技术:采用同态加密技术对数据进行加密处理,保障数据流通过程中的隐私信息安全。该方法可保证用户隐私不被泄露,但计算的效率低,开销大;采用差分隐私、k-匿名等算法对开放共享的数据进行处理,保障隐私信息不被泄露。该方法能保证数据的真实性,但存在开放共享数据中信息的丢失,限制了数据资源价值的挖掘。
综上所述:存在的问题:
(1)已有的隐私数据保护方法大都是针对结构化数据,对于非结构化数据(如文本数据)很少涉及。
(2)采用数据脱敏技术保护用户隐私安全,均存在一定程度的数据失真,且未考虑计算效率问题。
(3)已有的隐私数据保护方法大都是直接对隐私数据进行处理,但是并未考虑到如何发现隐私信息,如何提高隐私信息的识别率。
发明内容
本发明所要解决的技术问题在于提供一种面向大数据环境隐私信息防泄露自动识别方法及系统,解决目前数据开放共享面临的隐私信息泄露问题,保障数据流通中隐私信息安全。
为解决上述技术问题,本发明采用的技术方案是:一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:
筛选关键词、判定关键词自动提取;
根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;
对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
本发明的另一目的在于提供一种面向大数据环境隐私信息防泄露自动识别系统,其特征在于,包括:
关键词提取模块,用于筛选关键词、判定关键词自动提取;
初步筛选模块:用于根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;
隐私信息判定模块:用于对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
与现有技术相比,本发明具有以下有益的技术效果:
实现简单,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。针对数据采集或数据流通的输出口面临海量数据的情况,通过采用两层结构设计,在初步筛选模块可快速过滤掉肯定无隐私信息的内容,极大程度减少隐私信息判定模块判定数据量,提升了隐私信息的判定准确率;在筛选关键词、判定关键词生成阶段与隐私信息判定模块均采用了语义分析、机器学习、主题提取技术,实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率;在隐私信息判定模块设计了反馈机制,实现了关键词列表与分类器的及时更新,进一步提升了隐私信息筛选的召回率和判定准确率。
附图说明
图1为本发明面向大数据环境的隐私信息防泄露自动识别系统结构示意图;
图2是本发明隐私信息关键词提取模块工作流程图;
图3是本发明隐私信息判定模块反馈机制工作流程图。
具体实施方式
下面通过具体实施方案对本发明作进一步详细描述,但这些实施实例仅在于举例说明,并不对本发明的范围进行限定。
请参照图1至图3,本发明的一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
在一个实施例中,所述筛选关键词、判定关键词自动提取的步骤包括:根据实践经验、专家论证,完善指定领域的词典,形成领域词典;对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词。
在一个实施例中,所述提取文档主题采用LDA主题提取算法。
在一个实施例中,所述根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入的步骤包括:将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关内容。
在一个实施例中,进一步包括:存储筛选掉的数据。
在一个实施例中,所述对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果的步骤还包括:提取输入文档主题,获取“主题”—“关键词”概率路径,与所述“主题”—“关键词”模型匹配,确定输入数据是否含有隐私信息。
在一个实施例中,所述提取输入文档主题采用LDA主题提取算法。
在一个实施例中,进一步包括:存储判定为不含隐私信息的输入数据。
在一个实施例中,进一步包括:对判定的隐私信息进行人工标定。
本发明还提供一种面向大数据环境隐私信息防泄露自动识别系统,包括:关键词提取模块,用于筛选关键词、判定关键词自动提取;初步筛选模块:用于根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;隐私信息判定模块:用于对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
在一个实施例中,所述面向大数据环境的隐私信息防泄露自动识别系统,实现方法中采用两级结构,提升了隐私信息判定的准确率;采用语义分析、机器学习、主题提取技术,实现了隐私信息的自动识别,所述的实现方法包括以下步骤:
步骤1:根据指定领域数据特点,提供人工标定的样本,通过关键词提取模块形成筛选关键词、判定关键词;
步骤2:将采集获得的数据或参与数据流通的数据作为输入,通过初步筛选模块过滤掉跟隐私完全无关,可以肯定无隐私信息的内容;
步骤3:存储筛选掉的数据,以备数据流通;
步骤4:将初步筛选后的数据作为输入,传输至隐私信息判定模块;
步骤5:通过隐私信息判定模块,对筛选后的数据进行深度的内容分析,给出判定结果;
步骤6:存储判定为不含隐私信息的输入数据,以备数据流通;
步骤7:对判定的隐私信息进行人工标定,以此进一步更新步骤1中关键词列表,训练步骤1中分类器。
步骤1所述的根据指定领域数据特点,提供人工标定的样本,通过关键词提取模块形成筛选关键词、判定关键词,包括以下步骤:
步骤1.1:根据实践经验、专家论证,完善指定领域的词典,形成领域词典;
步骤1.2:对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;
步骤1.3:采用LDA主题提取算法提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词。
步骤2所述将采集获得的数据或参与数据流通的数据作为输入,通过初步筛选模块过滤掉跟隐私完全无关,可以肯定无隐私信息的内容,包括以下步骤:
步骤2.1:将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;
步骤2.2:在初步筛选模块,将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关,可以肯定无隐私信息的内容;
步骤2.3:将初步筛选后的数据作为输入,传输至隐私信息判定模块。
步骤5所述通过隐私信息判定模块,对筛选后的数据进行深度的内容分析,给出判定结果,包括以下步骤:
步骤5.1:隐私信息判定模块接收到初步筛选模块输入的数据;
步骤5.2:在隐私信息判定模块,采用LDA主题提取算法提取输入文档主题,获取“主题”—“关键词”概率路径,与步骤1.3所述“主题”—“关键词”模型匹配,确定输入数据是否含有隐私信息;
步骤5.3:对隐私信息进行人工标定,反馈给步骤1.3,以此进一步更新关键词列表,训练分类器。
作为具体的实施例,所述的实现方法包括以下步骤:
步骤1:根据指定领域数据特点,提供人工标定的样本,通过关键词提取模块形成筛选关键词、判定关键词,也包括以下步骤:
步骤1.1:根据实践经验、专家论证,完善指定领域的词典,形成领域词典;
步骤1.2:对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;
步骤1.3:采用LDA主题提取算法提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词;
步骤2:将采集获得的数据或参与数据流通的数据作为输入,通过初步筛选模块过滤掉跟隐私完全无关,可以肯定无隐私信息的内容,也包括以下步骤:
步骤2.1:将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;
步骤2.2:在初步筛选模块,将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关,可以肯定无隐私信息的内容;
步骤2.3:将初步筛选后的数据作为输入,传输至隐私信息判定模块;
步骤3:存储筛选掉的数据,以备数据流通;
步骤4:将初步筛选后的数据作为输入,传输至隐私信息判定模块;
步骤5:通过隐私信息判定模块,对筛选后的数据进行深度的内容分析,给出判定结果,也包括以下步骤:
步骤5.1:隐私信息判定模块接收到初步筛选模块输入的数据;
步骤5.2:在隐私信息判定模块,采用LDA主题提取算法提取输入文档主题,获取“主题”—“关键词”概率路径,与步骤1.3所述“主题”—“关键词”模型匹配,确定输入数据是否含有隐私信息;
步骤5.3:对隐私信息进行人工标定,反馈给步骤1.3,以此进一步更新关键词列表,训练分类器;
步骤6:存储判定为不含隐私信息的输入数据,以备数据流通;
步骤7:对判定的隐私信息进行人工标定,以此进一步更新步骤1中关键词列表,训练步骤1中分类器。
本发明实现了以下有益的技术效果:
实现简单,包括:筛选关键词、判定关键词自动提取;根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。针对数据采集或数据流通的输出口面临海量数据的情况,通过采用两层结构设计,在初步筛选模块可快速过滤掉肯定无隐私信息的内容,极大程度减少隐私信息判定模块判定数据量,提升了隐私信息的判定准确率;在筛选关键词、判定关键词生成阶段与隐私信息判定模块均采用了语义分析、机器学习、主题提取技术,实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率;在隐私信息判定模块设计了反馈机制,实现了关键词列表与分类器的及时更新,进一步提升了隐私信息筛选的召回率和判定准确率。
本发明虽然已选取较好实施例公开如上,但并不用于限定本发明。显然,这里无需也无法对所有实施方式予以穷举。任何本领域研究人员在不脱离本发明的精神和范围内,都可采用上述公开实施例中的设计方式和内容对本发明的研究方案进行变动和修改,因此,凡是未脱离本发明方案的内容,依据本发明的研究实质对上述实施例所作的任何简单修改,参数变化及修饰,均属于本发明方案的保护范围。

Claims (10)

1.一种面向大数据环境隐私信息防泄露自动识别方法,其特征在于,包括:
筛选关键词、判定关键词自动提取;
根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;
对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
2.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述筛选关键词、判定关键词自动提取的步骤包括:
根据实践经验、专家论证,完善指定领域的词典,形成领域词典;
对指定领域人工标定的样本进行预处理,应用领域词典,对文本进行分词;
提取文档主题,形成“主题”—“关键词”模型,以此训练分类器,生成筛选关键词、判定关键词。
3.根据权利要求2所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述提取文档主题采用LDA主题提取算法。
4.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入的步骤包括:
将采集获得的数据或参与数据流通的数据作为输入,传输至初步筛选模块;
将输入数据与筛选关键词匹配,过滤掉跟隐私完全无关内容。
5.根据权利要求2所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,进一步包括:存储筛选掉的数据。
6.根据权利要求5所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果的步骤还包括:
提取输入文档主题,获取“主题”—“关键词”概率路径,与所述“主题”—“关键词”模型匹配,确定输入数据是否含有隐私信息。
7.根据权利要求6所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,所述提取输入文档主题采用LDA主题提取算法。
8.根据权利要求7所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,进一步包括:存储判定为不含隐私信息的输入数据。
9.根据权利要求8所述的面向大数据环境隐私信息防泄露自动识别方法,其特征在于,进一步包括:对判定的隐私信息进行人工标定。
10.一种面向大数据环境隐私信息防泄露自动识别系统,其特征在于,包括:
关键词提取模块,用于筛选关键词、判定关键词自动提取;
初步筛选模块:用于根据提取的关键词,过滤掉肯定无隐私信息的内容,为隐私信息判定模块提供输入;
隐私信息判定模块:用于对初步筛选后的数据进行深度的内容分析,对隐私信息进行判定,给出判定结果。
CN201811581970.XA 2018-12-24 2018-12-24 一种面向大数据环境隐私信息防泄露自动识别方法及系统 Active CN109766715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811581970.XA CN109766715B (zh) 2018-12-24 2018-12-24 一种面向大数据环境隐私信息防泄露自动识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811581970.XA CN109766715B (zh) 2018-12-24 2018-12-24 一种面向大数据环境隐私信息防泄露自动识别方法及系统

Publications (2)

Publication Number Publication Date
CN109766715A true CN109766715A (zh) 2019-05-17
CN109766715B CN109766715B (zh) 2023-07-25

Family

ID=66452116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811581970.XA Active CN109766715B (zh) 2018-12-24 2018-12-24 一种面向大数据环境隐私信息防泄露自动识别方法及系统

Country Status (1)

Country Link
CN (1) CN109766715B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795751A (zh) * 2019-10-30 2020-02-14 浪潮云信息技术有限公司 一种通过自然语言分析对敏感数据进行安全保护的方法
CN111353174A (zh) * 2020-03-16 2020-06-30 刘琴 一种医疗机构的私密客户信息管理系统及方法
CN112231650A (zh) * 2020-09-29 2021-01-15 北京瑞莱智慧科技有限公司 一种数据隐私保护协议的分析方法、装置及电子设备

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080034439A1 (en) * 2006-08-01 2008-02-07 Weifeng Chen Access control method and a system for privacy protection
US20090144255A1 (en) * 2007-11-29 2009-06-04 Palo Alto Research Center Incorporated Augmenting privacy policies with inference detection
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和系统
CN103744928A (zh) * 2013-12-30 2014-04-23 北京理工大学 一种基于历史访问记录的网络视频分类方法
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN107526819A (zh) * 2017-08-29 2017-12-29 江苏飞搏软件股份有限公司 一种面向短文本主题模型的大数据舆情分析方法
CN107577939A (zh) * 2017-09-12 2018-01-12 中国石油集团川庆钻探工程有限公司 一种基于关键字技术的数据防泄漏方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN108011809A (zh) * 2017-12-04 2018-05-08 北京明朝万达科技股份有限公司 基于用户行为和文档内容的数据防泄漏分析方法及系统
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN108171073A (zh) * 2017-12-06 2018-06-15 复旦大学 一种基于代码层语义解析驱动的隐私数据识别方法
CN108683685A (zh) * 2018-06-19 2018-10-19 三江学院 一种针对xss攻击的云安全cdn系统及监测方法
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109002561A (zh) * 2018-08-27 2018-12-14 山东师范大学 基于样本关键词学习的文本自动分类方法、系统及介质
CN109063054A (zh) * 2018-07-19 2018-12-21 天津迈基生物科技有限公司 一种机器学习和大数据处理系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080034439A1 (en) * 2006-08-01 2008-02-07 Weifeng Chen Access control method and a system for privacy protection
US20090144255A1 (en) * 2007-11-29 2009-06-04 Palo Alto Research Center Incorporated Augmenting privacy policies with inference detection
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和系统
CN103744928A (zh) * 2013-12-30 2014-04-23 北京理工大学 一种基于历史访问记录的网络视频分类方法
CN104933443A (zh) * 2015-06-26 2015-09-23 北京途美科技有限公司 一种敏感数据自动识别与分类的方法
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN108073568A (zh) * 2016-11-10 2018-05-25 腾讯科技(深圳)有限公司 关键词提取方法和装置
CN107526819A (zh) * 2017-08-29 2017-12-29 江苏飞搏软件股份有限公司 一种面向短文本主题模型的大数据舆情分析方法
CN107644269A (zh) * 2017-09-11 2018-01-30 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN107577939A (zh) * 2017-09-12 2018-01-12 中国石油集团川庆钻探工程有限公司 一种基于关键字技术的数据防泄漏方法
CN108011809A (zh) * 2017-12-04 2018-05-08 北京明朝万达科技股份有限公司 基于用户行为和文档内容的数据防泄漏分析方法及系统
CN108171073A (zh) * 2017-12-06 2018-06-15 复旦大学 一种基于代码层语义解析驱动的隐私数据识别方法
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108683685A (zh) * 2018-06-19 2018-10-19 三江学院 一种针对xss攻击的云安全cdn系统及监测方法
CN109063054A (zh) * 2018-07-19 2018-12-21 天津迈基生物科技有限公司 一种机器学习和大数据处理系统
CN109002561A (zh) * 2018-08-27 2018-12-14 山东师范大学 基于样本关键词学习的文本自动分类方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱冬雪等: "基于敏感信息识别技术的服务质量闭环管控", 《电力设备管理》 *
朱冬雪等: "基于敏感信息识别技术的服务质量闭环管控", 《电力设备管理》, no. 07, 25 July 2018 (2018-07-25) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795751A (zh) * 2019-10-30 2020-02-14 浪潮云信息技术有限公司 一种通过自然语言分析对敏感数据进行安全保护的方法
CN111353174A (zh) * 2020-03-16 2020-06-30 刘琴 一种医疗机构的私密客户信息管理系统及方法
CN111353174B (zh) * 2020-03-16 2021-06-11 杭州康晟健康管理咨询有限公司 一种医疗机构的私密客户信息管理系统及方法
CN112231650A (zh) * 2020-09-29 2021-01-15 北京瑞莱智慧科技有限公司 一种数据隐私保护协议的分析方法、装置及电子设备

Also Published As

Publication number Publication date
CN109766715B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
US11574077B2 (en) Systems and methods for removing identifiable information
Peng et al. Astroturfing detection in social media: a binary n‐gram–based approach
Caliskan-Islam et al. De-anonymizing programmers via code stylometry
CN108171073B (zh) 一种基于代码层语义解析驱动的隐私数据识别方法
CN109766715A (zh) 一种面向大数据环境隐私信息防泄露自动识别方法及系统
CN110557382A (zh) 一种利用域名共现关系的恶意域名检测方法及系统
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
Uwagbole et al. Numerical encoding to tame SQL injection attacks
Vanamala et al. Recommending attack patterns for software requirements document
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
Hofmann et al. The reddit politosphere: a large-scale text and network resource of online political discourse
CN102982029B (zh) 一种搜索需求识别方法及装置
CN113645222A (zh) 报文流量检测方法、系统、装置及计算机可读存储介质
Layton et al. Automating open source intelligence
Nachman et al. How China divides the left: competing transnational left-wing alternative media on Twitter
Alkhammash Islamophobia in the UK print media: An intersectional critical discourse analysis
Coray Óðinn: A Framework for Large-Scale Wordlist Analysis and Struc-ture-Based Password Guessing
McKnight et al. Style counsel: Seeing the (random) forest for the trees in adversarial code stylometry
Timonin et al. Research of filtration methods for reference social profile data
Song Leveraging Writing And Photography Styles For Drug Trafficker Identification In Darknet Markets
Manandhar et al. Towards Automated Regulation Analysis for Effective Privacy Compliance
CN113094469B (zh) 文本数据分析方法、装置、电子设备及存储介质
Luo et al. Experimental study on the extraction and distribution of textual domain keywords
Aaby et al. Privacy parameter variation using RAPPOR on a malware dataset
RU2701990C1 (ru) Способ использования системы определения тематики документов для целей информационной безопасности

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yang Yulong

Inventor after: Zheng Shaobo

Inventor after: Zhu Yijie

Inventor after: Feng Jiangong

Inventor after: Wu Yujia

Inventor after: Wang Qian

Inventor before: Yang Yulong

GR01 Patent grant
GR01 Patent grant