CN106897459A - 一种基于半监督学习的文本敏感信息识别方法 - Google Patents
一种基于半监督学习的文本敏感信息识别方法 Download PDFInfo
- Publication number
- CN106897459A CN106897459A CN201710147072.2A CN201710147072A CN106897459A CN 106897459 A CN106897459 A CN 106897459A CN 201710147072 A CN201710147072 A CN 201710147072A CN 106897459 A CN106897459 A CN 106897459A
- Authority
- CN
- China
- Prior art keywords
- document
- sensitive
- semi
- sensitive documents
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息安全技术领域,公开了一种基于半监督学习的文本敏感信息识别方法。包括以下过程:步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本,进行半监督学习,得到分类策略知识库;步骤2、对于待检测的文档进行中文分词和去停词处理,得到该文档中的特征元数据;步骤3、用特征向量对特征元数据进行表示,并提取特征值;步骤4、用分类策略知识库对特征值进行敏感文档性质判断,给出为敏感文档或安全文档的判断结果。本发明对少量敏感文档进行标注,对大量未知的文档集进行半监督学习,提高了敏感信息识别的可扩展能力和实用性。
Description
技术领域
本发明涉及信息安全技术领域,特别是一种基于半监督学习的文本敏感信息识别方法。
背景技术
对于现代社会而言,数据是企业的资产,数据是人们的隐私,更是众多行业核心竞争力的体现。对企业的关键敏感数据进行有效保护,就能使企业自身在激烈的商业竞争中立于不败之地;对个人敏感信息进行保护,就能防止其泄露产生社会危害。因此近些年来催生了对敏感数据识别的火热研究。该问题涉及文本挖掘和信息安全等多个领域,是数据安全产品数据防护泄漏DLP(Data Leakage Prevention)的核心技术。
现有的敏感信息识别方法包括基础检测技术和高级检测技术两类。基础检查技术包括正则表达式检测、关键字匹配以及文档属性判别等方法;高级检测技术包括精确数据对比(EDM)、指纹文档对比(IDM)等方法。但是这些方法无一例外需要依赖专家搜集的敏感信息数据集,首先通过对这个数据集进行抽象、分析以及学习形成先验知识(敏感词集或其它),然后利用这些先验知识来判别未知样本的敏感程度。在这个过程中,被用于学习的敏感信息数据集合必须尽可能真实完整的反应所属问题域的敏感信息,否则算法的准确性就会大打折扣。然而现实情况是,标注文档性质的人工成本较高,大量的未知文档更易获取,我们很难得到这样一个完备的敏感数据集,导致这些方法的使用受到了限制。
由此可见,目前的敏感信息识别方法还存在问题,亟待提出一种解决上述问题的方案。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供了一种基于半监督学习的文本敏感信息识别方法。
本发明采用的技术方案如下:一种基于半监督学习的文本敏感信息识别方法,具体包括以下过程:步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本,进行半监督学习,得到分类策略知识库;步骤2、对于待检测的文档进行中文分词和去停词处理,得到该文档中的特征元数据;步骤3、用特征向量对特征元数据进行表示,并提取特征值;步骤4、用分类策略知识库对特征值进行敏感文档性质判断,给出为敏感文档或安全文档的判断结果。
进一步的,所述步骤1中,半监督学习过程为:步骤11、构造敏感文档集和未知文档集;步骤12、根据敏感文档集中的样本训练分类器,获取分类器;步骤13、构造未知文档集的子集U’,利用分类器进行子集U’中文档X′的类别判断;步骤14、若类别判断文档X′为敏感文档,则将文档X′标注加入敏感文档集中,如果类别判断文档X′为安全文档,则从未知文档集中删除文档X′;步骤15、迭代步骤11到步骤14直到未知文档集为空集,输出分类策略知识库。
进一步的,训练分类器的过程为:(1)对敏感文档集的文档进行中文分词和去停词处理;(2)利用SVM算法对处理后的敏感文档集进行特征表示;(3)利用信息增益方法对特征进行提取,保留有效的文本特征;(4)采用libsvm工具训练分类器;(5)进行分类器模型评估,改进训练分类器;(6)结束训练,输出分类器。
进一步的,所述步骤3的具体过程为:步骤31、采用向量空间模型,将文档表示成向量x=(t1,t2,…,tk,…,tn),其中tk表示第k个特征项,用向量xi=(wi1,wi2,…,wik,…,wi|V|),其中wik表示特征tk的权重,即在文档X中的重要程度,其中N为敏感文档集的文档总数,Nk为敏感文档集中出现特征项tk的文档数,TF(tK)为特征项出现的频率;步骤32、采取信息增益方法的特征提取算法来提取特征值。
与现有技术相比,采用上述技术方案的有益效果为:本发明对少量敏感文档进行标注,对大量位置的位置文档集进行半监督学习,提高了敏感信息识别的可扩展能力和实用性;采用该方法形成的分类策略知识库进行待检测文档的分类判断,有效的检测出待检测文档是敏感文档还是安全文档。
附图说明
图1是本发明半监督学习的敏感信息识别方法示意图。
图2是本发明半监督学习流程示意图。
图3是本发明分类器训练流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1所示,一种基于半监督学习的文本敏感信息识别方法,具体包括以下过程。
(1)基于有标注的敏感文档集L和未标注的未知文档集U中的学习样本,进行半监督学习,得到分类策略知识库。
半监督学习的目的是综合利用有标注和未标注的文档样本形成分离策略知识,在敏感识别问题中,文档分为敏感文档和安全文档(非敏感文档)。如图2所示,半监督学习过程为:
①构造有标注的敏感文档集L和未标注的未知文档集U;
敏感文档集L中存放的是已确认的敏感信息文档集合,未知文档集U中存放的是文档性质不确定的文档集合;类别标签集合C={c1,c2},其中c1表示敏感文档,c2表示安全文档,设有标注的敏感文档集L是带有类别标签的训练集,L={(d1,c1),…,(dN,c1)},其中di表示第i个文档,未标注的未知文档集U为U={x1,…,xN}。
②根据敏感文档集L中的样本训练分类器,获取分类器C;
为了得到分类器C,分类算法可采用K近邻分类算法、贝叶斯分类算法、关联规则分类算法和支持向量机SVM等多种算法。本实施例采用支持向量机SVM算法。训练过程依照图3中所示。训练分类器的过程为:(1)对敏感文档集L的文档进行中文分词和去停词处理;本实施例采用中科院发布的文档词法分析系统(ICTCLAS)进行预处理;(2)利用SVM算法对处理后的敏感文档集进行特征表示;(3)利用信息增益方法对特征进行提取,保留有效的文本特征,缩减文本向量空间的规模;(4)采用libsvm工具训练分类器C;libsvm是台湾大学林智仁副教授开发的一个开源SVM工具软件包。Libsvm提供了训练分类器的工具svmtrain命令,该命令同时提供了对训练过程多种参数的选择,非常灵活和易操作;训练前将上一步得到的数据转化为工具所需要的格式,并存入data_file中;这里设置命令“svmtrain–s 0–c 2–t1–g 1–r 1–d 3data_file model_file”进行训练,训练结果存入model_file文件中;(5)若分类器准确度不高或者不稳定需要对模型进行调整继续利用上一步骤训练,评估方法采用精度(Precision)和召回率来度量模型的好坏;令TP(cj)表示属于cj类的样本且被正确分为cj的样本数;FN(cj)表示属于cj类样本,但是没有被分为cj类的样本数;FP(cj)表示不属于cj类的样本但是被分为cj类的样本数。精度采用公式计算,召回率采用公式计算;(5)结束训练,输出分类器C,用model_file中训练参数表示。
③构造未知文档集U的子集U',利用分类器C进行子集U'中文档X′的类别判断;用分类器C对U’中的每个文档X′进行预测,使用libsvm提供的类别判断命令svmpredict进行预测,将结果输出到文件output_x_file中。
④若根据output_x_file中的结果,类别判断文档X′为敏感文档,则将文档X′标注加入敏感文档集L中,如果根据output_x_file中的结果,类别判断文档X′为安全文档,则从未知文档集U中删除文档X。
⑤迭代步骤①到步骤④直到未知文档集U为空集,在整个迭代过程中,分类器C不断被更新,最终输出的是依据集合敏感文档集L和未知文档集U中置信度较高的敏感文件得到的最优分类器C,用model_file中的各项参数来描述C,输出分类策略知识库。
(2)对于待检测的文档X进行中文分词和去停词处理,得到该文档X中的特征元数据;
例如,待检测的文档X包括语句“国新办有关南海问题的发布会即将开始,现场已架起了数台摄像机,记者们聚集在现场等待发布会召开”,中文分词的方法有基于词典的最大匹配法、最小分词法,以及基于统计的分词方法等,本实施例选择中科院发布的文档词法分析系统(ICTCLAS)进行处理,中文分词结果为{国新办,有关,南海,问题,的,发布会,即将,开始,现场,已,架起,了,数,台,摄像机,记者,们,聚集,在,现场,等待,发布会,召开};经过分词的文档得到了零散的单词,存在着大量对文本挖掘无用的词语,也就是无关特征,例如“的”、“所以”、“我们”,这类词在文本中出现的频率很高,但是对分析文本并没有太多贡献;另外文档中有一些稀有词,它们出现频率比较低,同样不具有代表性;这两种词语都应该删除,否则会影响文本分析;经过去停词处理后得到特征元数据为{国新办,南海,发布会,架起,摄像机,记者,聚集,等待,发布会,召开}。
(3)用特征向量对特征元数据进行表示,文档X的可以表示为x=(t1,t2,…,tk,…,tn),并提取特征值;
文本特征表示模型有布尔逻辑模型、向量空间模型(Vector Space Model,VSM)、潜在语义索引(Latent Semantic Indexing,LSI)和概率模型等。
本实施例采用向量空间模型。舍弃了各个特征项之间的顺序信息之后,一个文本就表示成向量,也即是文档集中的一个点。具体过程为:(1)采用向量空间模型,将文档X表示成向量x=(t1,t2,…,tk,…,tn),其中tk表示第k个特征项,用向量xi=(wi1,wi2,…,wik,…,wiV),其中wik表示特征tk的权重,即该特征项在文档X中的重要程度,权重用TF-IDF表示,即其中N为敏感文档集L的文档总数,Nk为敏感文档集L中出现特征项tk的文档数,TF(tK)为特征项出现的频率;(2)、采用向量空间模型表示元数据的向量的维数往往会很高,如此高维的特征大大增加分析学习时间。因此需要通过特征提取的过程来提高程序的效率,保证有意义的特征和防止过拟合。特征提取算法包括逆文本频率(TF-IDF)、信息增益(Information Gain)、期望交叉熵(Expected Cross Entropy)。本实施例选用信息增益方法来提取特征值,信息增益的评估函数公式定义如下:
其中,s表示特征项单词词出现,表示特征项单词s不出现,P(s)表示特征项单词s出现的概率,表示特征词s不出现的概率;P(cj)是类cj的先验概率,P(cj|s)是基于s的cj的条件概率,是基于的cj的条件概率。
(4)用分类策略知识库对特征值进行敏感文档性质判断,给出为敏感文档或安全文档的判断结果;
半监督学习训练出来的分类器C输出的分类策略知识库为svm分类器的训练结果,通过libsvm工具获取的训练结果存放在model_file文件中,文件包括了支持向量样本数、支持向量样本以及拉格朗日系数等必须的参数。
libsvm工具包提供了分类预测工具svmpredict,利用svmpredict和model_file可以判断待测试文档X的类别,即敏感文档或安全文档。设test_file为经过格式处理的待检测文档,通过命令“svmpredict test_file model_file output_file”将判断结果存入output_file文件中。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
Claims (4)
1.一种基于半监督学习的文本敏感信息识别方法,其特征在于,包括以下过程:
步骤1、基于有标注的敏感文档集和未标注的未知文档集中的学习样本,进行半监督学习,得到分类策略知识库;
步骤2、对于待检测的文档进行中文分词和去停词处理,得到该文档中的特征元数据;
步骤3、用特征向量对特征元数据进行表示,并提取特征值;
步骤4、用分类策略知识库对特征值进行敏感文档性质判断,给出为敏感文档或安全文档的判断结果。
2.如权利要求1所述的基于半监督学习的文本敏感信息识别方法,其特征在于,所述步骤1中,半监督学习过程为:
步骤11、构造敏感文档集和未知文档集;
步骤12、根据敏感文档集中的样本训练分类器,获取分类器;
步骤13、构造未知文档集的子集U’,利用分类器进行子集U’中文档X′的类别判断;
步骤14、若类别判断文档X′为敏感文档,则将文档X′标注加入敏感文档集中,如果类别判断文档X′为安全文档,则从未知文档集中删除文档X′;
步骤15、迭代步骤11到步骤14直到未知文档集为空集,输出分类策略知识库。
3.如权利要求2所述的基于半监督学习的文本敏感信息识别方法,其特征在于,训练分类器的过程为:(1)对敏感文档集的文档进行中文分词和去停词处理;(2)利用SVM算法对处理后的敏感文档集进行特征表示;(3)利用信息增益方法对特征进行提取,保留有效的文本特征;(4)采用libsvm工具训练分类器;(5)进行分类器模型评估,改进训练分类器;(6)结束训练,输出分类器。
4.如权利要求3所述的基于半监督学习的文本敏感信息识别方法,其特征在于,所述步骤3的具体过程为:
步骤31、采用向量空间模型,将文档表示成向量x=(t1,t2,…,tk,…,tn),其中tk表示第k个特征项,用向量xi=(wi1,wi2,…,wik,…,wiV),其中wik表示特征tk的权重,即在文档X中的重要程度,其中N为敏感文档集的文档总数,Nk为敏感文档集中出现特征项tk的文档数,TF(tK)为特征项出现的频率;
步骤32、采取信息增益方法的特征提取算法来提取特征值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016111531906 | 2016-12-14 | ||
CN201611153190 | 2016-12-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106897459A true CN106897459A (zh) | 2017-06-27 |
Family
ID=59192316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710147072.2A Pending CN106897459A (zh) | 2016-12-14 | 2017-03-13 | 一种基于半监督学习的文本敏感信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106897459A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590177A (zh) * | 2017-07-31 | 2018-01-16 | 南京邮电大学 | 一种结合监督学习的中文文本分类方法 |
CN107908774A (zh) * | 2017-11-30 | 2018-04-13 | 云易天成(北京)安全科技开发有限公司 | 一种文件分类方法、存储介质及设备 |
CN107918740A (zh) * | 2017-12-02 | 2018-04-17 | 北京明朝万达科技股份有限公司 | 一种敏感数据决策判决方法及系统 |
CN108363717A (zh) * | 2017-12-29 | 2018-08-03 | 天津南大通用数据技术股份有限公司 | 一种数据安全级别的识别检测方法及装置 |
CN108920710A (zh) * | 2018-07-20 | 2018-11-30 | 北京开普云信息科技有限公司 | 一种对互联网信息进行涉密涉敏信息监测方法及系统 |
CN109241013A (zh) * | 2018-09-18 | 2019-01-18 | 北京工业大学 | 一种共享图书系统中图书内容审核的方法 |
CN109344258A (zh) * | 2018-11-28 | 2019-02-15 | 中国电子科技网络信息安全有限公司 | 一种智能化自适应敏感数据识别系统及方法 |
WO2019035765A1 (en) * | 2017-08-14 | 2019-02-21 | Dathena Science Pte. Ltd. | METHODS, AUTOMATIC LEARNING ENGINES AND FILE MANAGEMENT PLATFORM SYSTEMS FOR CONTENT AND DATA CONTEXT-SENSITIVE CLASSIFICATION AND FOR SECURITY MALFUNCTION DETECTION |
CN109409127A (zh) * | 2018-10-30 | 2019-03-01 | 北京天融信网络安全技术有限公司 | 网络数据安全策略的生成方法、装置及存储介质 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
CN110750638A (zh) * | 2019-06-28 | 2020-02-04 | 厦门美域中央信息科技有限公司 | 一种基于半监督学习的多标签语料库文本分类方法 |
CN110795564A (zh) * | 2019-11-01 | 2020-02-14 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN111079186A (zh) * | 2019-12-20 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 数据分析的方法、装置、设备和存储介质 |
CN112132238A (zh) * | 2020-11-23 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种识别隐私数据的方法、装置、设备和可读介质 |
CN112612894A (zh) * | 2020-12-29 | 2021-04-06 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、计算机设备和存储介质 |
CN113269271A (zh) * | 2021-04-30 | 2021-08-17 | 清华大学 | 用于人工智能文本分析的双词典模型的初始化方法及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150578A (zh) * | 2013-04-09 | 2013-06-12 | 山东师范大学 | 一种基于半监督学习的支持向量机分类器训练方法 |
CN105069474A (zh) * | 2015-08-05 | 2015-11-18 | 山东师范大学 | 用于音频事件分类的半监督学习高置信度样本挖掘方法 |
-
2017
- 2017-03-13 CN CN201710147072.2A patent/CN106897459A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103150578A (zh) * | 2013-04-09 | 2013-06-12 | 山东师范大学 | 一种基于半监督学习的支持向量机分类器训练方法 |
CN105069474A (zh) * | 2015-08-05 | 2015-11-18 | 山东师范大学 | 用于音频事件分类的半监督学习高置信度样本挖掘方法 |
Non-Patent Citations (1)
Title |
---|
王浩: ""基于半监督学习的网络敏感信息识别"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590177B (zh) * | 2017-07-31 | 2021-02-02 | 南京邮电大学 | 一种结合监督学习的中文文本分类方法 |
CN107590177A (zh) * | 2017-07-31 | 2018-01-16 | 南京邮电大学 | 一种结合监督学习的中文文本分类方法 |
US12033040B2 (en) | 2017-08-14 | 2024-07-09 | Dathena Science Ptd. Ltd. | Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection |
WO2019035765A1 (en) * | 2017-08-14 | 2019-02-21 | Dathena Science Pte. Ltd. | METHODS, AUTOMATIC LEARNING ENGINES AND FILE MANAGEMENT PLATFORM SYSTEMS FOR CONTENT AND DATA CONTEXT-SENSITIVE CLASSIFICATION AND FOR SECURITY MALFUNCTION DETECTION |
CN107908774A (zh) * | 2017-11-30 | 2018-04-13 | 云易天成(北京)安全科技开发有限公司 | 一种文件分类方法、存储介质及设备 |
CN107918740A (zh) * | 2017-12-02 | 2018-04-17 | 北京明朝万达科技股份有限公司 | 一种敏感数据决策判决方法及系统 |
CN108363717A (zh) * | 2017-12-29 | 2018-08-03 | 天津南大通用数据技术股份有限公司 | 一种数据安全级别的识别检测方法及装置 |
CN108363717B (zh) * | 2017-12-29 | 2021-03-12 | 天津南大通用数据技术股份有限公司 | 一种数据安全级别的识别检测方法及装置 |
CN108920710A (zh) * | 2018-07-20 | 2018-11-30 | 北京开普云信息科技有限公司 | 一种对互联网信息进行涉密涉敏信息监测方法及系统 |
CN109241013A (zh) * | 2018-09-18 | 2019-01-18 | 北京工业大学 | 一种共享图书系统中图书内容审核的方法 |
CN109409127A (zh) * | 2018-10-30 | 2019-03-01 | 北京天融信网络安全技术有限公司 | 网络数据安全策略的生成方法、装置及存储介质 |
CN109344258B (zh) * | 2018-11-28 | 2021-11-12 | 中国电子科技网络信息安全有限公司 | 一种智能化自适应敏感数据识别系统及方法 |
CN109344258A (zh) * | 2018-11-28 | 2019-02-15 | 中国电子科技网络信息安全有限公司 | 一种智能化自适应敏感数据识别系统及方法 |
CN109960727A (zh) * | 2019-02-28 | 2019-07-02 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
CN109960727B (zh) * | 2019-02-28 | 2023-04-07 | 天津工业大学 | 针对非结构化文本的个人隐私信息自动检测方法及系统 |
CN110750638A (zh) * | 2019-06-28 | 2020-02-04 | 厦门美域中央信息科技有限公司 | 一种基于半监督学习的多标签语料库文本分类方法 |
CN110795564A (zh) * | 2019-11-01 | 2020-02-14 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN110795564B (zh) * | 2019-11-01 | 2022-02-22 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
CN111079186A (zh) * | 2019-12-20 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 数据分析的方法、装置、设备和存储介质 |
CN111079186B (zh) * | 2019-12-20 | 2022-05-03 | 百度在线网络技术(北京)有限公司 | 数据分析的方法、装置、设备和存储介质 |
CN112132238A (zh) * | 2020-11-23 | 2020-12-25 | 支付宝(杭州)信息技术有限公司 | 一种识别隐私数据的方法、装置、设备和可读介质 |
CN112612894A (zh) * | 2020-12-29 | 2021-04-06 | 平安科技(深圳)有限公司 | 意图识别模型的训练方法、装置、计算机设备和存储介质 |
CN113269271A (zh) * | 2021-04-30 | 2021-08-17 | 清华大学 | 用于人工智能文本分析的双词典模型的初始化方法及设备 |
CN113269271B (zh) * | 2021-04-30 | 2022-11-15 | 清华大学 | 用于人工智能文本分析的双词典模型的初始化方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106897459A (zh) | 一种基于半监督学习的文本敏感信息识别方法 | |
CN109582949B (zh) | 事件元素抽取方法、装置、计算设备及存储介质 | |
Mishra et al. | FACTIFY: A Multi-Modal Fact Verification Dataset. | |
US10963912B2 (en) | Method and system for filtering goods review information | |
Budhiraja et al. | DWEN: deep word embedding network for duplicate bug report detection in software repositories | |
TW201737118A (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN108537240A (zh) | 基于领域本体的商品图像语义标注方法 | |
CN109960727B (zh) | 针对非结构化文本的个人隐私信息自动检测方法及系统 | |
CN105824959A (zh) | 舆情监控方法及系统 | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN109165529B (zh) | 一种暗链篡改检测方法、装置和计算机可读存储介质 | |
CN104778283B (zh) | 一种基于微博的用户职业分类方法及系统 | |
CN109902223A (zh) | 一种基于多模态信息特征的不良内容过滤方法 | |
CN102034107A (zh) | 基于鲁棒视觉注意特征与稀疏表示的不良图像判别方法 | |
CN109299469A (zh) | 一种在长文本中识别复杂住址的方法 | |
Mao et al. | Zero-shot object detection with attributes-based category similarity | |
CN110427458A (zh) | 基于双门lstm的社交网络双语的五分类情感分析方法 | |
Tian et al. | Image classification based on the combination of text features and visual features | |
CN112528022A (zh) | 主题类别对应的特征词提取和文本主题类别识别方法 | |
Zhang et al. | A multi-level author name disambiguation algorithm | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 | |
Zhou et al. | A sequence level latent topic modeling method for sentiment analysis via CNN based diversified restrict boltzmann machine | |
Indarapu et al. | Comparative analysis of machine learning algorithms to detect fake news | |
KR20190023503A (ko) | 이미지 기반 특허 검색 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170627 |