CN102012985B - 一种基于数据挖掘的敏感数据动态识别方法 - Google Patents

一种基于数据挖掘的敏感数据动态识别方法 Download PDF

Info

Publication number
CN102012985B
CN102012985B CN2010105526528A CN201010552652A CN102012985B CN 102012985 B CN102012985 B CN 102012985B CN 2010105526528 A CN2010105526528 A CN 2010105526528A CN 201010552652 A CN201010552652 A CN 201010552652A CN 102012985 B CN102012985 B CN 102012985B
Authority
CN
China
Prior art keywords
sensitive data
document
data
sensitive
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2010105526528A
Other languages
English (en)
Other versions
CN102012985A (zh
Inventor
林为民
张涛
邓松
费稼轩
秦超
邵志鹏
楚杰
陈亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electric Power Research Institute Co Ltd CEPRI
State Grid Electric Power Research Institute
Original Assignee
State Grid Electric Power Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Electric Power Research Institute filed Critical State Grid Electric Power Research Institute
Priority to CN2010105526528A priority Critical patent/CN102012985B/zh
Publication of CN102012985A publication Critical patent/CN102012985A/zh
Application granted granted Critical
Publication of CN102012985B publication Critical patent/CN102012985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时,需要判断当前待传输或处理的业务数据是否敏感,根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理,得到该敏感数据文档的特征词-文档矩阵,利用主成分分析法对特征词-文档矩阵进行降维,得到降维后的特征词-文档矩阵,再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模,得到敏感数据识别模型,对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算,判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。

Description

一种基于数据挖掘的敏感数据动态识别方法
技术领域
本发明涉及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动态准确的识别,为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
背景技术
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私,数据安全,作为信息安全领域中的重要课题,正越来越受到关注。
数据安全涵盖了防泄露、防丢失、防滥用三个方面,其中,数据防泄漏是当前尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用,在提升人们工作效率的同时,也不可避免地扩展了数据泄漏的通道,尤其是主动泄密行为,其泄漏途径更是纷繁复杂。面对这样的严峻形势,国内外安全厂商纷纷推出自己的解决方案,目标就是确保数据的安全,防止数据被有意和无意的非法窃取和丢失。
敏感数据泄漏事关国家安全和社会稳定,其防泄漏产品是信息安全的基础性产品,无论从国家安全的高度来看,还是从经济发展的角度来看,敏感数据防泄漏都变得日益重要。
敏感数据防泄漏的关键技术主要包括:敏感数据识别、敏感数据标记、敏感数据阻断与销毁和策略管理等,其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环,只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力,具有重要的意义。
敏感数据识别主要考虑如下几方面的问题:(1)敏感数据和待识别文档的预处理;(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言,首先就是要对敏感数据和待识别文档进行分词、量化和归一化处理,得到敏感数据和待识别文档对应的特征词-文档矩阵,然后对特征词-文档矩阵中进行降维处理,再对降维后的敏感数据文档进行训练,得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识别模型中进行动态识别。
发明内容
本发明的目的是提供一种基于数据挖掘的敏感数据识别方法,来解决数据防泄漏方案中敏感数据的识别问题,通过使用本方法可以实现对企业数据中心中存储的敏感数据的自动、准确和高效的识别。
为了实现上述发明目的,本发明采用的是一种数据挖掘的方法,通过对已知的敏感数据文档向量化和特征提取,组成敏感数据训练样本集,使用BP神经网络来训练学习出一个敏感数据识别模型,最终使用该BP神经网络模型来识别敏感数据。该模型还可以在使用过程中通过不断地学习来提高识别的准确度。
一种基于数据挖掘的敏感数据动态识别方法,包括以下步骤为:
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;
步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;
步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记录分词后的特征词在文档中出现的频率;
步骤4:采用向量空间模型对特征词-文档矩阵进行向量化处理,构造出文本特征向量;
步骤5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;
步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文本特征向量空间的主成分后,确定文本特征向量的各个特征分量在各个主成分向量上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;
步骤7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;
步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;
步骤9:由BP神经网络来对训练数据集进行运算;
步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤12;
步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;
步骤12:输出一个敏感数据识别模型;
步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;
步骤14:敏感数据识别结束。
本发明的有益效果在于提出了一种基于数据挖掘的敏感数据动态识别方法,主要用于解决数据防泄漏中敏感数据动态识别的问题,通过使用本发明中提出的方法可以快速识别出当前用户操作的数据是否为敏感数据,便于结合策略管理来阻断敏感数据的泄漏。
附图说明
图1是敏感数据识别组成结构图。主要包括:敏感数据动态识别器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。
图2是参考体系结构示意图。表示本发明方法包括的组件。
图3是本发明方法的流程示意图。
具体实施方式
体系结构
图1给出了基于数据挖掘的敏感数据识别方法的组成结构图,它主要包括四个部分:敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的敏感数据进行识别的所有具体操作。本发明增加的其它三个部分是用来保证使用数据挖掘的方法进行敏感数据识别的辅助模块,能够保证敏感数据识别更加顺利有效地进行。
下面给出这四个部分的具体介绍:
敏感数据动态识别器:在该发明中进行敏感数据识别主要是使用BP神经网络作为识别敏感数据的模型,通过该模型来完成对敏感数据的动态识别,本发明中由敏感数据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。
敏感数据识别操作核心:该部分是在其他三个部分的辅助下完成敏感数据识别具体操作的核心部分,通过将预处理过的文档以多个分向量的方式作为一个识别模型的输入,由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。
文本预处理控制器:由文本分词器提取出来的各敏感关键词的频度并不能直接作为敏感数据识别操作核心中敏感数据识别模型的输入,需要将其量化,使用向量空间模型表示出来,并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。
敏感数据动态识别控制器:在该发明中,需要通过BP神经网络的方法来得到一个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络训练得到,同时将待识别的文档输入到该模型中得到相应的敏感数据类型,故需要一个控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感数据动态识别控制的具体实现不做任何限制。
方法流程
1、文本预处理控制器
文本属于非结构化的数据,对可能包含敏感数据的文档进行识别时首先需要对文档进行预处理将其转化为可处理的结构化形式,它把从文本中抽取出的特征词进行量化来表示文本信息,将文档从无结构的原始文本转化为结构化的计算机可识别和处理的信息,这样就可以由计算机挖掘和识别文本中的一些有用信息。
目前对文本的预处理需要考虑如下的几个问题:1)有具体的分词方法,对敏感数据进行分词处理,将文档中有独立含义的词汇统计出来;2)对分词处理后的词汇统计信息这种离散值进行处理,用结构化的形式表示;3)对从不同结构的文本中统计出来的数据要能够屏蔽其差异;4)对统计出来的初始结构化信息表示要能够尽量消除其中无用数据的干扰。
针对上述问题,在本发明中,我们对分词过后的文本采用词频统计的方法来得到文本中词汇的统计信息,对这样一种离散的信息我们采用向量空间模型来得到文本的向量描述。
在选择特征词汇时,本发明主要考虑如下的几个原则:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。一般在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,本发明中采用词作为文本的特征项,称作为特征词,用Tk表示。
特征词的选取方面我们主要采用对文本进行分词的方法,使用一个中文电子词典与文档中的汉字串匹配,将匹配得到的文本中的汉字串作为文本的特征词。匹配过程采用逆向最大匹配算法,该算法从右往左对文本中的汉字串进行最大匹配,匹配成功则将该汉字串提取出来作为文本的一个特征词,若匹配不成功则将文本中用于匹配的汉字串最前的一个汉字去掉,剩下的汉字串作为新的匹配字段与中文电子词典中的字符串进行匹配,重复上述的过程直到提取出所有的特征词。
对预处理的文本用Dj(j=1,2,...,n)来表示,经过分词处理得到一个词—文档矩阵,矩阵中的每一个元素表示词Tk在文档Dj中出现的频率。如表1所示:
表1词在文档中出现的频率
上述统计出来的只是文本中词汇的离散信息,接下来使用向量空间模型在词-文档矩阵的基础上生成文本向量表示,当文本被表示为文本空间的向量时,就可以以处理向量的方式来对文本中的一些信息进行计算。在向量空间模型中,主要使用特征词Tk及其权值Wi表示文本。假设要处理的文档集合为D,其表示为:D={D1,D2,...,Dm},其中Di的特征向量定义为Di={wi1,wi2,wi3,...win}(i=1,2,...,m),wij表示第i个文档中第j个词汇的权值,权值的计算采用TFIDF函数:wij=tij*log(N/nj,)其中tij表示第i个文档中第j个词汇出现的频率,N表示文档库中文档的总数,nj表示文档数据库中含有词汇tj的文档数目。同时对这些值进一步归一化,将其转化为0到1之间的值。
如果把文本中所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要进一步完成对文本中敏感数据的识别就会变得非常困难。特征抽取的主要功能是在不破坏文本核心信息的情况下尽量减少要处理的词汇数,以此来降低向量空间维数,从而简化计算,提高文本敏感数据识别处理的速度和效率。本发明中主要采用主成分分析法来对文本特征向量空间进行降维处理,该方法从高维度的文本特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量,作为原文本特征向量空间的主成分,从而达到文本特征降维的目的。
主要工作流程如下:
(1)对归一化后的文本特征向量所对应的矩阵计算其相关系数矩阵;
(2)计算出相关系数矩阵的特征值和特征向量,将得到的特征值按照从大到小的顺序排列;
(3)计算出各特征值在所有特征值和中所占的比例,对各特征值所占的比例进行累加,累加达到一定的累计值后选取所对应的几个特征值作为相应的主成分;
(4)计算文本特征向量的各个特征分量在各个主成分向量上的载荷;
(5)计算各主成分所对应的向量表示;
通过提取文本特征词将文本向量化以及使用主成分分析的方法,将无结构的文本信息转化成计算机可识别和处理的结构化数据—文本特征向量,文本特征向量又进一步地使用主成分分量来代替,提高了计算机动态识别敏感数据的效率和准确度。
2、敏感数据动态识别器
由计算机来完成对敏感数据的动态识别需要有一个识别模型来对输入向量进行运算,模型定义的好坏会直接影响到最后识别的效率和准确度。在本发明中通过建立一个BP神经网络,使用已知的敏感数据文本对该神经网络进行训练,通过对BP神经网络隐层节点结构和权值的调整,使得对BP神经网络的输出和预定义的输出误差控制在一定的范围内,这样最后得到一个敏感数据识别模型,使用该识别模型,以待识别文本的主成分分量作为模型的输入,得到是否为敏感文本。
主要工作流程:
(1)初始化BP神经网络的结构,包括输入层、隐层、输出层、权值和阈值,输入层神经元节点个数为文本主成分向量的维度,输出层为敏感数据级别的向量表示,隐层定义其初始神经元节点结构及权值;
(2)将训练用的已经确定包含敏感数据的文本主成分分量输入BP神经网络,通过BP神经网络的计算得到输出向量,根据输出向量的误差调整BP神经网络隐层的神经元结构和权值,使得输出向量的误差能够被控制在一定的范围内;
(3)当BP神经网络输出向量的误差稳定在预定义的范围内,即得到一个稳定的BP神经网络结构,作为敏感数据的识别模型;
(4)将待识别的文本主成分分量输入到敏感数据识别模型中,得到是否为敏感数据的输出分量;
通过敏感数据识别器,可以实现对敏感数据高效准确的识别,由训练得到的敏感数据识别模型来计算。
文本预处理控制器通过分词和主成分分析法,降低了敏感文档和待识别文档的特征维数。分词是中文文档分类的前提,首先对敏感文档和待识别文档进行预处理将其转化为结构化形式,并将从文本中抽取出的特征词进行量化来表示文本信息,最后使用逆向最大匹配算法对敏感文档及待识别文档和中文电子词典进行匹配,同时进行量化和归一化处理,得到特征词-文档矩阵。但由于中文文本的特点,使得该特征词-文档矩阵中的特征向量维数较大,导致后期的文档识别的计算量太大。为了提高计算的效率,我们采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理,通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量,从而达到降维的目的。
敏感数据动态识别器通过BP神经网络对预处理后的敏感文档进行分类训练,得到敏感数据识别模型,再把待识别文档输入到敏感数据识别模型中,实现敏感数据的动态识别。首先根据预处理后的敏感文档特征词-文档矩阵的特征向量维数,初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值,然后对预处理后的敏感文档进行训练,直到满足条件为止,确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值,得到敏感数据识别模型。最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算,并输出待识别的文档是否为敏感数据,从而达到对敏感数据动态识别的目的。
为了方便描述,我们假设有如下应用实例:
某企业拥有敏感数据文档X,为了建立敏感数据动态识别模型,需要利用BP神经网络对预处理后的敏感数据文档X进行建模,得到敏感数据动态识别模型,便于企业在实际工作过程中,实时对所操作的数据进行动态识别,防止敏感数据的泄漏,保护企业的知识资产。
其具体的实施方案为:
(1)根据文本预处理控制器首先使用逆向最大匹配算法将敏感文档及待识别文档和中文电子词典进行匹配,同时进行量化和归一化处理,最后得到特征词-文档矩阵。
(2)采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理,通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量,利用计算得到的主成分构成新的敏感文档及待识别文档。
(3)敏感数据动态识别器根据预处理后的敏感文档特征词-文档矩阵的特征向量维数,初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值,然后对预处理后的敏感文档进行训练,直到满足条件为止,确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值,得到敏感数据识别模型。
(4)最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算,并输出待识别的文档是否为敏感数据,从而达到对敏感数据动态识别的目的。整个敏感数据动态识别过程结束。

Claims (1)

1.一种基于数据挖掘的敏感数据动态识别方法,其特征就在于,包括以下步骤为:
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;
步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;
步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记录分词后的特征词在文档中出现的频率;
步骤4:采用向量空间模型对特征词-文档矩阵进行向量化处理,构造出文本特征向量;
步骤 5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;
步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文本特征向量空间的主成分后,确定文本特征向量的各个特征分量在各个主成分向量上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;
步骤 7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;
步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;
步骤9:由BP神经网络来对训练数据集进行运算;
步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤12;
步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;
步骤12:输出一个敏感数据识别模型;
步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;
步骤14:敏感数据识别结束。
CN2010105526528A 2010-11-19 2010-11-19 一种基于数据挖掘的敏感数据动态识别方法 Active CN102012985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105526528A CN102012985B (zh) 2010-11-19 2010-11-19 一种基于数据挖掘的敏感数据动态识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105526528A CN102012985B (zh) 2010-11-19 2010-11-19 一种基于数据挖掘的敏感数据动态识别方法

Publications (2)

Publication Number Publication Date
CN102012985A CN102012985A (zh) 2011-04-13
CN102012985B true CN102012985B (zh) 2013-12-25

Family

ID=43843158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105526528A Active CN102012985B (zh) 2010-11-19 2010-11-19 一种基于数据挖掘的敏感数据动态识别方法

Country Status (1)

Country Link
CN (1) CN102012985B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819576A (zh) * 2012-07-23 2012-12-12 无锡雅座在线科技发展有限公司 一种基于微博的数据挖掘方法及系统
CN103442061A (zh) * 2013-08-28 2013-12-11 百度在线网络技术(北京)有限公司 云端服务器文件的加密方法、装置和云端服务器
CN103973708B (zh) * 2014-05-26 2018-09-07 中电长城网际系统应用有限公司 一种外泄事件的确定方法和系统
CN104484371B (zh) * 2014-12-05 2017-11-10 广州供电局有限公司 电力营销异常数据在线监控分析方法和系统
DE102015200210A1 (de) 2015-01-09 2016-07-14 Siemens Aktiengesellschaft Sichere Übermittlung von sensiblen Messdaten in einemAutomatisierungsnetzwerk
CN106549762B (zh) * 2015-09-22 2019-08-09 阿里巴巴集团控股有限公司 一种数据加密方法和装置
CN107293285B (zh) * 2016-04-06 2020-10-13 中国移动通信集团四川有限公司 一种语音处理方法和装置
CN107818077A (zh) * 2016-09-13 2018-03-20 北京金山云网络技术有限公司 一种敏感内容识别方法及装置
CN107066882B (zh) * 2017-03-17 2019-07-12 平安科技(深圳)有限公司 信息泄露检测方法及装置
CN107292193A (zh) * 2017-05-25 2017-10-24 北京北信源软件股份有限公司 一种实现数据泄露防护的方法和系统
CN107368542B (zh) * 2017-06-27 2020-08-14 山东华软金盾软件股份有限公司 一种涉密数据的涉密等级评定方法
CN107547718B (zh) * 2017-08-22 2020-11-03 电子科技大学 基于深度学习的电信诈骗识别与防御系统
CN107644104B (zh) * 2017-10-17 2021-06-25 北京锐安科技有限公司 一种文本特征提取方法及系统
CN107832925A (zh) * 2017-10-20 2018-03-23 阿里巴巴集团控股有限公司 互联网内容风险评价方法、装置及服务器
CN108023882B (zh) * 2017-12-04 2020-09-25 北京明朝万达科技股份有限公司 一种协同数据防泄漏方法及系统
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN108932434B (zh) * 2018-06-20 2021-06-25 中国农业银行股份有限公司 一种基于机器学习技术的数据加密方法及装置
CN110740111B (zh) * 2018-07-19 2022-01-25 中国移动通信集团有限公司 一种数据防漏方法、装置及计算机可读存储介质
CN110807309B (zh) * 2018-08-01 2024-05-03 珠海金山办公软件有限公司 一种pdf文档的内容类型识别方法、装置及电子设备
CN109522740B (zh) * 2018-10-16 2021-04-20 易保互联医疗信息科技(北京)有限公司 健康数据的去隐私化处理方法及系统
CN109308264B (zh) * 2018-10-22 2021-11-16 北京天融信网络安全技术有限公司 数据脱敏效果的评价方法及相应设备和存储介质
CN109409127B (zh) * 2018-10-30 2022-04-26 北京天融信网络安全技术有限公司 网络数据安全策略的生成方法、装置及存储介质
CN109656141A (zh) * 2019-01-11 2019-04-19 武汉天喻聚联网络有限公司 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质
CN110222170B (zh) * 2019-04-25 2024-05-24 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN113553846A (zh) * 2020-04-24 2021-10-26 华为技术有限公司 一种非结构化数据的处理方法、装置、设备及介质
CN115062702B (zh) * 2022-06-16 2023-09-08 四川大学 基于pca-e的产品感性语义词汇提取方法
US11868432B1 (en) 2022-06-16 2024-01-09 Sichuan University Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E)
CN115563654B (zh) * 2022-11-23 2023-03-31 山东智豆数字科技有限公司 一种数字化营销大数据处理方法
CN115994628B (zh) * 2023-03-23 2023-07-18 湖北长江电气有限公司 基于大数据的能源管理方法和装置
CN116881687B (zh) * 2023-06-25 2024-04-05 国网冀北电力有限公司信息通信分公司 一种基于特征提取的电网敏感数据识别方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794362A (zh) * 2010-01-22 2010-08-04 华北计算技术研究所 计算机用可信计算信任根设备及计算机

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655939B2 (en) * 2007-01-05 2014-02-18 Digital Doors, Inc. Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101794362A (zh) * 2010-01-22 2010-08-04 华北计算技术研究所 计算机用可信计算信任根设备及计算机

Also Published As

Publication number Publication date
CN102012985A (zh) 2011-04-13

Similar Documents

Publication Publication Date Title
CN102012985B (zh) 一种基于数据挖掘的敏感数据动态识别方法
CN103455562A (zh) 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN109635297A (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
CN108268554A (zh) 一种生成垃圾短信过滤策略的方法和装置
CN105095222B (zh) 单元词替换方法、搜索方法及装置
CN113011889A (zh) 账号异常识别方法、系统、装置、设备及介质
CN106502990A (zh) 一种微博特征项提取方法和改进tf‑idf归一化方法
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
Zhao et al. Effective linguistic steganography detection
Wang et al. Transferable adversarial examples can efficiently fool topic models
Hou et al. Identification of Chinese dark jargons in Telegram underground markets using context-oriented and linguistic features
Agrawal et al. An effective approach to classify fraud sms using hybrid machine learning models
CN115129819A (zh) 文本摘要模型生产方法及其装置、设备、介质
Villar-Rodriguez et al. A feature selection method for author identification in interactive communications based on supervised learning and language typicality
Li et al. automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective
CN110457009B (zh) 基于数据分析的软件安全需求推荐模型的实现方法
CN117150116A (zh) 一种面向用户兴趣的个性化消息推荐系统的构建方法
Liu et al. Maximum entropy loss, the silver bullet targeting backdoor attacks in pre-trained language models
CN111538893A (zh) 一种从非结构化数据中提取网络安全新词的方法
CN102375848A (zh) 评价对象聚类方法和装置
Wang et al. A novel framework of identifying Chinese jargons for telegram underground markets
Harshvardhan et al. Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization
Shil et al. An approach for detecting Bangla spam comments on Facebook

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant