CN102012985B - 一种基于数据挖掘的敏感数据动态识别方法 - Google Patents
一种基于数据挖掘的敏感数据动态识别方法 Download PDFInfo
- Publication number
- CN102012985B CN102012985B CN2010105526528A CN201010552652A CN102012985B CN 102012985 B CN102012985 B CN 102012985B CN 2010105526528 A CN2010105526528 A CN 2010105526528A CN 201010552652 A CN201010552652 A CN 201010552652A CN 102012985 B CN102012985 B CN 102012985B
- Authority
- CN
- China
- Prior art keywords
- sensitive data
- document
- data
- text
- sensitive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000007418 data mining Methods 0.000 title abstract description 3
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 48
- 230000019771 cognition Effects 0.000 claims description 28
- 238000013499 data model Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 15
- 238000000513 principal component analysis Methods 0.000 claims description 14
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 238000009825 accumulation Methods 0.000 claims description 4
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 abstract description 4
- 238000007726 management method Methods 0.000 abstract description 3
- 238000011002 quantification Methods 0.000 abstract description 3
- 230000035945 sensitivity Effects 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 abstract 1
- 238000012847 principal component analysis method Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时,需要判断当前待传输或处理的业务数据是否敏感,根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理,得到该敏感数据文档的特征词-文档矩阵,利用主成分分析法对特征词-文档矩阵进行降维,得到降维后的特征词-文档矩阵,再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模,得到敏感数据识别模型,对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算,判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。
Description
技术领域
本发明涉及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动态准确的识别,为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
背景技术
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私,数据安全,作为信息安全领域中的重要课题,正越来越受到关注。
数据安全涵盖了防泄露、防丢失、防滥用三个方面,其中,数据防泄漏是当前尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用,在提升人们工作效率的同时,也不可避免地扩展了数据泄漏的通道,尤其是主动泄密行为,其泄漏途径更是纷繁复杂。面对这样的严峻形势,国内外安全厂商纷纷推出自己的解决方案,目标就是确保数据的安全,防止数据被有意和无意的非法窃取和丢失。
敏感数据泄漏事关国家安全和社会稳定,其防泄漏产品是信息安全的基础性产品,无论从国家安全的高度来看,还是从经济发展的角度来看,敏感数据防泄漏都变得日益重要。
敏感数据防泄漏的关键技术主要包括:敏感数据识别、敏感数据标记、敏感数据阻断与销毁和策略管理等,其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环,只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力,具有重要的意义。
敏感数据识别主要考虑如下几方面的问题:(1)敏感数据和待识别文档的预处理;(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言,首先就是要对敏感数据和待识别文档进行分词、量化和归一化处理,得到敏感数据和待识别文档对应的特征词-文档矩阵,然后对特征词-文档矩阵中进行降维处理,再对降维后的敏感数据文档进行训练,得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识别模型中进行动态识别。
发明内容
本发明的目的是提供一种基于数据挖掘的敏感数据识别方法,来解决数据防泄漏方案中敏感数据的识别问题,通过使用本方法可以实现对企业数据中心中存储的敏感数据的自动、准确和高效的识别。
为了实现上述发明目的,本发明采用的是一种数据挖掘的方法,通过对已知的敏感数据文档向量化和特征提取,组成敏感数据训练样本集,使用BP神经网络来训练学习出一个敏感数据识别模型,最终使用该BP神经网络模型来识别敏感数据。该模型还可以在使用过程中通过不断地学习来提高识别的准确度。
一种基于数据挖掘的敏感数据动态识别方法,包括以下步骤为:
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;
步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;
步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记录分词后的特征词在文档中出现的频率;
步骤4:采用向量空间模型对特征词-文档矩阵进行向量化处理,构造出文本特征向量;
步骤5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;
步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文本特征向量空间的主成分后,确定文本特征向量的各个特征分量在各个主成分向量上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;
步骤7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;
步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;
步骤9:由BP神经网络来对训练数据集进行运算;
步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤12;
步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;
步骤12:输出一个敏感数据识别模型;
步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;
步骤14:敏感数据识别结束。
本发明的有益效果在于提出了一种基于数据挖掘的敏感数据动态识别方法,主要用于解决数据防泄漏中敏感数据动态识别的问题,通过使用本发明中提出的方法可以快速识别出当前用户操作的数据是否为敏感数据,便于结合策略管理来阻断敏感数据的泄漏。
附图说明
图1是敏感数据识别组成结构图。主要包括:敏感数据动态识别器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。
图2是参考体系结构示意图。表示本发明方法包括的组件。
图3是本发明方法的流程示意图。
具体实施方式
体系结构
图1给出了基于数据挖掘的敏感数据识别方法的组成结构图,它主要包括四个部分:敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的敏感数据进行识别的所有具体操作。本发明增加的其它三个部分是用来保证使用数据挖掘的方法进行敏感数据识别的辅助模块,能够保证敏感数据识别更加顺利有效地进行。
下面给出这四个部分的具体介绍:
敏感数据动态识别器:在该发明中进行敏感数据识别主要是使用BP神经网络作为识别敏感数据的模型,通过该模型来完成对敏感数据的动态识别,本发明中由敏感数据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。
敏感数据识别操作核心:该部分是在其他三个部分的辅助下完成敏感数据识别具体操作的核心部分,通过将预处理过的文档以多个分向量的方式作为一个识别模型的输入,由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。
文本预处理控制器:由文本分词器提取出来的各敏感关键词的频度并不能直接作为敏感数据识别操作核心中敏感数据识别模型的输入,需要将其量化,使用向量空间模型表示出来,并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。
敏感数据动态识别控制器:在该发明中,需要通过BP神经网络的方法来得到一个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络训练得到,同时将待识别的文档输入到该模型中得到相应的敏感数据类型,故需要一个控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感数据动态识别控制的具体实现不做任何限制。
方法流程
1、文本预处理控制器
文本属于非结构化的数据,对可能包含敏感数据的文档进行识别时首先需要对文档进行预处理将其转化为可处理的结构化形式,它把从文本中抽取出的特征词进行量化来表示文本信息,将文档从无结构的原始文本转化为结构化的计算机可识别和处理的信息,这样就可以由计算机挖掘和识别文本中的一些有用信息。
目前对文本的预处理需要考虑如下的几个问题:1)有具体的分词方法,对敏感数据进行分词处理,将文档中有独立含义的词汇统计出来;2)对分词处理后的词汇统计信息这种离散值进行处理,用结构化的形式表示;3)对从不同结构的文本中统计出来的数据要能够屏蔽其差异;4)对统计出来的初始结构化信息表示要能够尽量消除其中无用数据的干扰。
针对上述问题,在本发明中,我们对分词过后的文本采用词频统计的方法来得到文本中词汇的统计信息,对这样一种离散的信息我们采用向量空间模型来得到文本的向量描述。
在选择特征词汇时,本发明主要考虑如下的几个原则:1)特征项要能够确实标识文本内容;2)特征项具有将目标文本与其他文本相区分的能力;3)特征项的个数不能太多;4)特征项分离要比较容易实现。一般在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言,词比字具有更强的表达能力,而词和短语相比,词的切分难度比短语的切分难度小得多。因此,本发明中采用词作为文本的特征项,称作为特征词,用Tk表示。
特征词的选取方面我们主要采用对文本进行分词的方法,使用一个中文电子词典与文档中的汉字串匹配,将匹配得到的文本中的汉字串作为文本的特征词。匹配过程采用逆向最大匹配算法,该算法从右往左对文本中的汉字串进行最大匹配,匹配成功则将该汉字串提取出来作为文本的一个特征词,若匹配不成功则将文本中用于匹配的汉字串最前的一个汉字去掉,剩下的汉字串作为新的匹配字段与中文电子词典中的字符串进行匹配,重复上述的过程直到提取出所有的特征词。
对预处理的文本用Dj(j=1,2,...,n)来表示,经过分词处理得到一个词—文档矩阵,矩阵中的每一个元素表示词Tk在文档Dj中出现的频率。如表1所示:
表1词在文档中出现的频率
上述统计出来的只是文本中词汇的离散信息,接下来使用向量空间模型在词-文档矩阵的基础上生成文本向量表示,当文本被表示为文本空间的向量时,就可以以处理向量的方式来对文本中的一些信息进行计算。在向量空间模型中,主要使用特征词Tk及其权值Wi表示文本。假设要处理的文档集合为D,其表示为:D={D1,D2,...,Dm},其中Di的特征向量定义为Di={wi1,wi2,wi3,...win}(i=1,2,...,m),wij表示第i个文档中第j个词汇的权值,权值的计算采用TFIDF函数:wij=tij*log(N/nj,)其中tij表示第i个文档中第j个词汇出现的频率,N表示文档库中文档的总数,nj表示文档数据库中含有词汇tj的文档数目。同时对这些值进一步归一化,将其转化为0到1之间的值。
如果把文本中所有的词都作为特征项,那么特征向量的维数将过于巨大,从而导致计算量太大,在这样的情况下,要进一步完成对文本中敏感数据的识别就会变得非常困难。特征抽取的主要功能是在不破坏文本核心信息的情况下尽量减少要处理的词汇数,以此来降低向量空间维数,从而简化计算,提高文本敏感数据识别处理的速度和效率。本发明中主要采用主成分分析法来对文本特征向量空间进行降维处理,该方法从高维度的文本特征向量空间中计算出几个可以综合表示原特征向量空间的几个分向量,作为原文本特征向量空间的主成分,从而达到文本特征降维的目的。
主要工作流程如下:
(1)对归一化后的文本特征向量所对应的矩阵计算其相关系数矩阵;
(2)计算出相关系数矩阵的特征值和特征向量,将得到的特征值按照从大到小的顺序排列;
(3)计算出各特征值在所有特征值和中所占的比例,对各特征值所占的比例进行累加,累加达到一定的累计值后选取所对应的几个特征值作为相应的主成分;
(4)计算文本特征向量的各个特征分量在各个主成分向量上的载荷;
(5)计算各主成分所对应的向量表示;
通过提取文本特征词将文本向量化以及使用主成分分析的方法,将无结构的文本信息转化成计算机可识别和处理的结构化数据—文本特征向量,文本特征向量又进一步地使用主成分分量来代替,提高了计算机动态识别敏感数据的效率和准确度。
2、敏感数据动态识别器
由计算机来完成对敏感数据的动态识别需要有一个识别模型来对输入向量进行运算,模型定义的好坏会直接影响到最后识别的效率和准确度。在本发明中通过建立一个BP神经网络,使用已知的敏感数据文本对该神经网络进行训练,通过对BP神经网络隐层节点结构和权值的调整,使得对BP神经网络的输出和预定义的输出误差控制在一定的范围内,这样最后得到一个敏感数据识别模型,使用该识别模型,以待识别文本的主成分分量作为模型的输入,得到是否为敏感文本。
主要工作流程:
(1)初始化BP神经网络的结构,包括输入层、隐层、输出层、权值和阈值,输入层神经元节点个数为文本主成分向量的维度,输出层为敏感数据级别的向量表示,隐层定义其初始神经元节点结构及权值;
(2)将训练用的已经确定包含敏感数据的文本主成分分量输入BP神经网络,通过BP神经网络的计算得到输出向量,根据输出向量的误差调整BP神经网络隐层的神经元结构和权值,使得输出向量的误差能够被控制在一定的范围内;
(3)当BP神经网络输出向量的误差稳定在预定义的范围内,即得到一个稳定的BP神经网络结构,作为敏感数据的识别模型;
(4)将待识别的文本主成分分量输入到敏感数据识别模型中,得到是否为敏感数据的输出分量;
通过敏感数据识别器,可以实现对敏感数据高效准确的识别,由训练得到的敏感数据识别模型来计算。
文本预处理控制器通过分词和主成分分析法,降低了敏感文档和待识别文档的特征维数。分词是中文文档分类的前提,首先对敏感文档和待识别文档进行预处理将其转化为结构化形式,并将从文本中抽取出的特征词进行量化来表示文本信息,最后使用逆向最大匹配算法对敏感文档及待识别文档和中文电子词典进行匹配,同时进行量化和归一化处理,得到特征词-文档矩阵。但由于中文文本的特点,使得该特征词-文档矩阵中的特征向量维数较大,导致后期的文档识别的计算量太大。为了提高计算的效率,我们采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理,通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量,从而达到降维的目的。
敏感数据动态识别器通过BP神经网络对预处理后的敏感文档进行分类训练,得到敏感数据识别模型,再把待识别文档输入到敏感数据识别模型中,实现敏感数据的动态识别。首先根据预处理后的敏感文档特征词-文档矩阵的特征向量维数,初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值,然后对预处理后的敏感文档进行训练,直到满足条件为止,确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值,得到敏感数据识别模型。最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算,并输出待识别的文档是否为敏感数据,从而达到对敏感数据动态识别的目的。
为了方便描述,我们假设有如下应用实例:
某企业拥有敏感数据文档X,为了建立敏感数据动态识别模型,需要利用BP神经网络对预处理后的敏感数据文档X进行建模,得到敏感数据动态识别模型,便于企业在实际工作过程中,实时对所操作的数据进行动态识别,防止敏感数据的泄漏,保护企业的知识资产。
其具体的实施方案为:
(1)根据文本预处理控制器首先使用逆向最大匹配算法将敏感文档及待识别文档和中文电子词典进行匹配,同时进行量化和归一化处理,最后得到特征词-文档矩阵。
(2)采用主成分分析的方法对特征词-文档矩阵中的特征向量空间进行降维处理,通过计算特征词-文档矩阵中的特征向量的主成分代替原有的特征向量,利用计算得到的主成分构成新的敏感文档及待识别文档。
(3)敏感数据动态识别器根据预处理后的敏感文档特征词-文档矩阵的特征向量维数,初始化BP神经网络输入层、隐层、输出层节点数、权值和阈值,然后对预处理后的敏感文档进行训练,直到满足条件为止,确定BP神经网络最终的输入层、隐层、输出层节点数、权值和阈值,得到敏感数据识别模型。
(4)最后将待识别的文档进行预处理后代入到敏感数据识别模型中进行计算,并输出待识别的文档是否为敏感数据,从而达到对敏感数据动态识别的目的。整个敏感数据动态识别过程结束。
Claims (1)
1.一种基于数据挖掘的敏感数据动态识别方法,其特征就在于,包括以下步骤为:
步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;
步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;
步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记录分词后的特征词在文档中出现的频率;
步骤4:采用向量空间模型对特征词-文档矩阵进行向量化处理,构造出文本特征向量;
步骤 5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;
步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文本特征向量空间的主成分后,确定文本特征向量的各个特征分量在各个主成分向量上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;
步骤 7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;
步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;
步骤9:由BP神经网络来对训练数据集进行运算;
步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤12;
步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;
步骤12:输出一个敏感数据识别模型;
步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;
步骤14:敏感数据识别结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105526528A CN102012985B (zh) | 2010-11-19 | 2010-11-19 | 一种基于数据挖掘的敏感数据动态识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010105526528A CN102012985B (zh) | 2010-11-19 | 2010-11-19 | 一种基于数据挖掘的敏感数据动态识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102012985A CN102012985A (zh) | 2011-04-13 |
CN102012985B true CN102012985B (zh) | 2013-12-25 |
Family
ID=43843158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010105526528A Active CN102012985B (zh) | 2010-11-19 | 2010-11-19 | 一种基于数据挖掘的敏感数据动态识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102012985B (zh) |
Families Citing this family (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819576A (zh) * | 2012-07-23 | 2012-12-12 | 无锡雅座在线科技发展有限公司 | 一种基于微博的数据挖掘方法及系统 |
CN103442061A (zh) * | 2013-08-28 | 2013-12-11 | 百度在线网络技术(北京)有限公司 | 云端服务器文件的加密方法、装置和云端服务器 |
CN103973708B (zh) * | 2014-05-26 | 2018-09-07 | 中电长城网际系统应用有限公司 | 一种外泄事件的确定方法和系统 |
CN104484371B (zh) * | 2014-12-05 | 2017-11-10 | 广州供电局有限公司 | 电力营销异常数据在线监控分析方法和系统 |
DE102015200210A1 (de) | 2015-01-09 | 2016-07-14 | Siemens Aktiengesellschaft | Sichere Übermittlung von sensiblen Messdaten in einemAutomatisierungsnetzwerk |
CN106549762B (zh) * | 2015-09-22 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种数据加密方法和装置 |
CN107293285B (zh) * | 2016-04-06 | 2020-10-13 | 中国移动通信集团四川有限公司 | 一种语音处理方法和装置 |
CN107818077A (zh) * | 2016-09-13 | 2018-03-20 | 北京金山云网络技术有限公司 | 一种敏感内容识别方法及装置 |
CN107066882B (zh) * | 2017-03-17 | 2019-07-12 | 平安科技(深圳)有限公司 | 信息泄露检测方法及装置 |
CN107292193A (zh) * | 2017-05-25 | 2017-10-24 | 北京北信源软件股份有限公司 | 一种实现数据泄露防护的方法和系统 |
CN107368542B (zh) * | 2017-06-27 | 2020-08-14 | 山东华软金盾软件股份有限公司 | 一种涉密数据的涉密等级评定方法 |
CN107547718B (zh) * | 2017-08-22 | 2020-11-03 | 电子科技大学 | 基于深度学习的电信诈骗识别与防御系统 |
CN107644104B (zh) * | 2017-10-17 | 2021-06-25 | 北京锐安科技有限公司 | 一种文本特征提取方法及系统 |
CN107832925A (zh) * | 2017-10-20 | 2018-03-23 | 阿里巴巴集团控股有限公司 | 互联网内容风险评价方法、装置及服务器 |
CN108023882B (zh) * | 2017-12-04 | 2020-09-25 | 北京明朝万达科技股份有限公司 | 一种协同数据防泄漏方法及系统 |
CN108710613B (zh) * | 2018-05-22 | 2022-04-08 | 平安科技(深圳)有限公司 | 文本相似度的获取方法、终端设备及介质 |
CN108932434B (zh) * | 2018-06-20 | 2021-06-25 | 中国农业银行股份有限公司 | 一种基于机器学习技术的数据加密方法及装置 |
CN110740111B (zh) * | 2018-07-19 | 2022-01-25 | 中国移动通信集团有限公司 | 一种数据防漏方法、装置及计算机可读存储介质 |
CN110807309B (zh) * | 2018-08-01 | 2024-05-03 | 珠海金山办公软件有限公司 | 一种pdf文档的内容类型识别方法、装置及电子设备 |
CN109522740B (zh) * | 2018-10-16 | 2021-04-20 | 易保互联医疗信息科技(北京)有限公司 | 健康数据的去隐私化处理方法及系统 |
CN109308264B (zh) * | 2018-10-22 | 2021-11-16 | 北京天融信网络安全技术有限公司 | 数据脱敏效果的评价方法及相应设备和存储介质 |
CN109409127B (zh) * | 2018-10-30 | 2022-04-26 | 北京天融信网络安全技术有限公司 | 网络数据安全策略的生成方法、装置及存储介质 |
CN109656141A (zh) * | 2019-01-11 | 2019-04-19 | 武汉天喻聚联网络有限公司 | 基于人工智能技术的违规识别及机器行为控制方法、设备、存储介质 |
CN110222170B (zh) * | 2019-04-25 | 2024-05-24 | 平安科技(深圳)有限公司 | 一种识别敏感数据的方法、装置、存储介质及计算机设备 |
CN111626318A (zh) * | 2019-11-04 | 2020-09-04 | 中科软科技股份有限公司 | 一种基于深度学习的多语言有害信息特征智能挖掘方法 |
CN113553846A (zh) * | 2020-04-24 | 2021-10-26 | 华为技术有限公司 | 一种非结构化数据的处理方法、装置、设备及介质 |
CN113962302B (zh) * | 2021-10-20 | 2025-05-06 | 国网智能电网研究院有限公司 | 一种基于标签分布学习的敏感数据智能识别方法 |
CN114372456B (zh) * | 2021-11-22 | 2025-04-15 | 中山大学孙逸仙纪念医院 | 文本处理方法、装置及存储介质 |
CN115017254A (zh) * | 2022-05-16 | 2022-09-06 | 北京计算机技术及应用研究所 | 一种利用本征值和正交变换计算文档哈希值的方法 |
US11868432B1 (en) | 2022-06-16 | 2024-01-09 | Sichuan University | Method for extracting kansei adjective of product based on principal component analysis and explanation (PCA-E) |
CN115062702B (zh) * | 2022-06-16 | 2023-09-08 | 四川大学 | 基于pca-e的产品感性语义词汇提取方法 |
CN115563654B (zh) * | 2022-11-23 | 2023-03-31 | 山东智豆数字科技有限公司 | 一种数字化营销大数据处理方法 |
CN115994628B (zh) * | 2023-03-23 | 2023-07-18 | 湖北长江电气有限公司 | 基于大数据的能源管理方法和装置 |
CN116522388A (zh) * | 2023-04-27 | 2023-08-01 | 安徽龙运智能科技有限公司 | 一种智慧林业信息传输涉密脱敏系统 |
CN116881687B (zh) * | 2023-06-25 | 2024-04-05 | 国网冀北电力有限公司信息通信分公司 | 一种基于特征提取的电网敏感数据识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794362A (zh) * | 2010-01-22 | 2010-08-04 | 华北计算技术研究所 | 计算机用可信计算信任根设备及计算机 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655939B2 (en) * | 2007-01-05 | 2014-02-18 | Digital Doors, Inc. | Electromagnetic pulse (EMP) hardened information infrastructure with extractor, cloud dispersal, secure storage, content analysis and classification and method therefor |
-
2010
- 2010-11-19 CN CN2010105526528A patent/CN102012985B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101794362A (zh) * | 2010-01-22 | 2010-08-04 | 华北计算技术研究所 | 计算机用可信计算信任根设备及计算机 |
Also Published As
Publication number | Publication date |
---|---|
CN102012985A (zh) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102012985B (zh) | 一种基于数据挖掘的敏感数据动态识别方法 | |
CN102629261B (zh) | 由钓鱼网页查找目标网页的方法 | |
CN106098059A (zh) | 可定制语音唤醒方法及系统 | |
Zhou et al. | A statistical language modeling approach to online deception detection | |
CN109948125A (zh) | 改进的Simhash算法在文本去重中的方法及系统 | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
Xiang et al. | A word-embedding-based steganalysis method for linguistic steganography via synonym substitution | |
Li et al. | Structure-aware language model pretraining improves dense retrieval on structured data | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN107463703A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN111581952A (zh) | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 | |
CN110457711A (zh) | 一种基于主题词的社交媒体事件主题识别方法 | |
CN106502990A (zh) | 一种微博特征项提取方法和改进tf‑idf归一化方法 | |
Agrawal et al. | An effective approach to classify fraud sms using hybrid machine learning models | |
Li et al. | automatically detecting peer-to-peer lending intermediary risk—Top management team profile textual features perspective | |
CN115688771B (zh) | 一种文书内容比对性能提升方法及系统 | |
Sari et al. | Fake News Detection Using Optimized Convolutional Neural Network and Bidirectional Long Short-Term Memory. | |
Hatua et al. | On the Feasibility of Using GANs for Claim Verification-Experiments and Analysis. | |
CN102375848A (zh) | 评价对象聚类方法和装置 | |
Zhang et al. | An adaptive speech homomorphic encryption scheme based on energy in cloud storage | |
Anjana et al. | Secured natural language processing for conversion of unstructured text into structured intelligence | |
CN104580234A (zh) | 一种社交网络中行为特征的保护方法 | |
Chatel et al. | Fast gaussian pairwise constrained spectral clustering | |
Gang et al. | [Retracted] Research on Clue Mining in Criminal Cases of Smart Phone Trojan Horse under the Background of Information Security | |
Karamollaoğlu et al. | Content Based Sentiment Analysis for Turkish Twitter Feeds Through Vector Space Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |