CN110851590A - 一种通过敏感词检测与非法内容识别进行文本分类的方法 - Google Patents

一种通过敏感词检测与非法内容识别进行文本分类的方法 Download PDF

Info

Publication number
CN110851590A
CN110851590A CN201910859082.8A CN201910859082A CN110851590A CN 110851590 A CN110851590 A CN 110851590A CN 201910859082 A CN201910859082 A CN 201910859082A CN 110851590 A CN110851590 A CN 110851590A
Authority
CN
China
Prior art keywords
text
illegal
sensitive
executing
sensitive word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910859082.8A
Other languages
English (en)
Inventor
马祥祥
张校源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN201910859082.8A priority Critical patent/CN110851590A/zh
Publication of CN110851590A publication Critical patent/CN110851590A/zh
Priority to US17/638,167 priority patent/US20230015054A1/en
Priority to PCT/CN2020/108652 priority patent/WO2021047341A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种通过敏感词检测与非法内容识别进行文本分类的方法,包括:步骤1:获取待测文本,然后同时执行步骤2和步骤3;步骤2:通过AC自动机进行敏感词检测,然后执行步骤4;步骤3:通过循环神经网络模型进行非法内容识别,然后执行步骤6;步骤4:判断文本中是否含有敏感词汇,若是,则执行步骤5,否则,返回步骤3;步骤5:文本含有敏感词汇,根据敏感词汇判断文本类别;步骤6:判断文本中是否含有非法内容,若是,则执行步骤7,否则执行步骤8;步骤7:文本含有非法内容,根据非法内容判断文本类别;步骤8:文本不含有非法内容;步骤9:结束本轮处理逻辑。与现有技术相比,本发明具有准确率高、效率高、扩展性强等优点。

Description

一种通过敏感词检测与非法内容识别进行文本分类的方法
技术领域
本发明涉及文本分析技术领域,尤其是涉及一种通过敏感词检测与非法内容识别进行文本分类的方法。
背景技术
在文本分析领域,文本分类一直是研究的重点,更多地研究对象时普通文本的分类,比如财经、娱乐、体育等类别,对非法或政治敏感的文章研究比较少。在文本分类领域有传统的及其学习算法,比如SVM、KNN、随机森林等,还有近几年比较流行的神经网络分类方法,通过文本特征词利用算法构建模型,对文本进行分类,但是也只能对文本给出一个概率值,并没有根据某一个词就可以判定为某类文章。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种通过敏感词检测与非法内容识别进行文本分类的方法。
本发明的目的可以通过以下技术方案来实现:
一种通过敏感词检测与非法内容识别进行文本分类的方法,包括以下步骤:
步骤1:获取待测文本,然后同时执行步骤2和步骤3;
步骤2:通过AC自动机进行敏感词检测,然后执行步骤4;
步骤3:通过循环神经网络模型进行非法内容识别,然后执行步骤6;
步骤4:判断文本中是否含有敏感词汇,若是,则执行步骤5,否则,返回步骤3;
步骤5:文本含有敏感词汇,根据敏感词汇判断文本类别,然后执行步骤9;
步骤6:判断文本中是否含有非法内容,若是,则执行步骤7,否则执行步骤 8;
步骤7:文本含有非法内容,根据非法内容判断文本类别,然后执行步骤9;
步骤8:文本不含有非法内容,然后执行步骤9;
步骤9:结束本轮处理逻辑。
优选地,所述步骤2的具体步骤为:
步骤2-1:根据敏感词词典创建trie树;
步骤2-2:在trie树上添加fail指针。
优选地,所述的步骤3的具体步骤为:
步骤3-1:对文本进行预处理,然后执行步骤3-2;
步骤3-2:通过完成训练的循环神经网络模型进行非法内容检测。
优选地,所述步骤3-1中的预处理具体为文本的分词处理。
优选地,所述步骤3-2中循环神经网络模型的训练具体为:
步骤3-2-1:根据非法词库对带有标签的训练文本进行向量化操作;
步骤3-2-2:将带有标签的文本向量输入循环神经网络进行训练,输出训练好的循环神经网络模型。
优选地,所述的步骤3-2-2中的文本向量具体为训练文本中所包含的非法词库中词的词频向量。
优选地,所述步骤5具体为:根据敏感词词典判断敏感词所属类别。
优选地,所述步骤7具体为:通过循环神经网络对文本分类进行打分,分数超过设定值的类别即为文本类别。
与现有技术相比,本发明具有以下优点:
一、准确率高:本发明将敏感词检测和非法内容识别结合到一起,平滑了敏感词检测分类的绝对性,也增强了利用非法内容识别的概率性,提高了分类的准确率。
二、效率高:本发明首先通过敏感词检测对文本进行分类,然后判断是否需要进行非法内容的识别,提高了文本分类过程的效率。
三、扩展性强:本发明中的敏感词词典可使用自带词典也可通过自定义创建,增强了本发明的扩展性。
附图说明
图1为本发明的流程图;
图2为本发明实施例中trie树的结构示意图;
图3为本发明实施例中trie树和fail指针的结构示意图;
图4为本发明实施例中的匹配路径的结构示意图;
图5为本发明中循环神经网络进行非法内容识别的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种通过敏感词检测与非法内容识别进行文本分类的方法,包括以下步骤:
步骤1:获取待测文本,然后同时执行步骤2和步骤3;
步骤2:通过AC自动机进行敏感词检测,然后执行步骤4;
步骤3:通过循环神经网络模型进行非法内容识别,然后执行步骤6;
步骤4:判断文本中是否含有敏感词汇,若是,则执行步骤5,否则,返回步骤3;
步骤5:文本含有敏感词汇,根据敏感词汇判断文本类别,然后执行步骤9;
步骤6:判断文本中是否含有非法内容,若是,则执行步骤7,否则执行步骤 8;
步骤7:文本含有非法内容,根据非法内容判断文本类别,然后执行步骤9;
步骤8:文本不含有非法内容,然后执行步骤9;
步骤9:结束本轮处理逻辑。
在步骤2中利用AC自动机进行敏感词检测时,首先需要利用敏感词词典创建trie树,本实施例中,以[共青团、团长、青年]多个词词典为例创建trie树,如图2 所示,trie树最大的作用是储存字典里的词,只是表达的方式是以树的形式存在;然后在trie树的基础上再添加fail指针,如图3所示。
敏感词词典可以通过用户自定义创建,也可以使用自带词典。
实施例1
当传入一个字符串,如“我是一名共青团的团员”,可以匹配出共青团,匹配路径如图4所示,具体匹配过程如下:根节点的子节点只有‘共’、‘团’和‘青’字,遍历传入字符串“我是一名共青团的团员”,前四个字符‘我’‘是’‘一’‘名’都不符合,直到‘共’匹配上,‘共’的下一个节点有‘产’和‘青’,可匹配上‘青’,‘青’的下一个节点是‘团’,当匹配到‘团’后已经是这个路径的最大长度,词典中有‘共青团’这个词,可以匹配出‘共青团’,然后跳转到‘团’的fail指针位置,但是“我是一名共青团的团员”中‘团’的下一个字符是‘的’,所以‘团’ fail指针指向根节点,最终匹配出‘共青团’。
在步骤3中通过循环神经网络进行非法文本检测时主要分为两部分,如图5 所示,一个是模型训练,另一个是使用完成训练的模型进行非法内容检测。
模型的训练需要词典及带标签的训练数据,词典包括的词要尽量多,要包含非法词,也可包含一些正常词;训练数据带的标签要准确,可以通过人工标注的方式对训练数据进行打标签,从而保证准确性;模型训练利用词典查找到的训练数据中每篇文章所包含的词库里的词频向量作为输入向量进行训练。
实施例2
(1)训练参数
词典:{非法、政治、反动、禁止、合法}
训练文本:“某网站是一个非法网站,包含很多政治反动的内容,是我国禁止访问的网站”。
(2)训练预处理
文本标签:[0,1,0,0]([1,0,0,0]表示正常文本,[0,1,0,0]表示政治反动文本,[0,0,1,0] 表示色情文本,[0,0,0,1]表示其他文本)
文本向量:[1,1,1,1,0](第一个数字1代表词典中'非法'在文本中出来1次,第二个数字1表示词典中'政治'在文本中出现1此,以此类推)
(3)模型训练
把带有标签的文本向量输入循环神经网络中进行学习,输出一个训练好的模型。
(4)模型应用
模型训练完成后,即可通过图5中步骤进行非法内容检测,最终对一个文本进行分类打分,分数较高的类别即为此文本类别。
Figure RE-GDA0002362630400000041
Figure RE-GDA0002362630400000051
可根据以上打分结果的分数判断文章为涉政文章。
实施例3
一、对敏感词检测的测试:
1、测试文本
测试文本数量 涵盖内容 其他说明
3944篇 时政、体育、娱乐等新闻 爬取网络新闻
2、测试敏感词词典:[“XX”:“政治敏感”,
“XXX”:“政治敏感”,
“XXX”:“政治敏感”]
3、测试结果:
4、结果说明
利用敏感词检测功能可以准确的识别出文本里含有的敏感词,利用识别出来的敏感词判断文章为政治敏感文章,设置其他类别敏感词也可准确识别出来,并判断相应类别。
二、对非法内容识别分类的测试:
1、模型创建:
在本发明的方法中,敏感词检测不需要创建模型,只编写代码即可,非法内容识别分类需要创建模型,创建模型用到的数据有:
数据类型 正常文本 政治反动 色情 其他
数量(篇) 67265 25971 2886 11549
2、测试
2.1测试文本:
Figure RE-GDA0002362630400000053
Figure RE-GDA0002362630400000061
2.2测试结果:
模型 准确率 精确率 召回率 F1值
分类模型 0.9852 0.9803 0.9984 0.992
2.3说明:
准确率、精确率、召回率和F1值定义说明:
介绍各个指标之前,看一下混淆矩阵。假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如下四种情况。
Figure RE-GDA0002362630400000062
由于用数字1、0表示不太方便阅读,我们转换一下,用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预测结果(P|N),然后再针对实际结果对比预测结果,给出判断结果(T|F)。按照上面逻辑,重新分配后为
Figure RE-GDA0002362630400000063
TP、FP、FN、TN可以理解为
TP:预测为1,实际为1,预测正确。
FP:预测为1,实际为0,预测错误。
FN:预测为0,实际为1,预测错误。
TN:预测为0,实际为0,预测正确。
准确率:预测正确的结果占总样本的百分比,表达式为
Figure RE-GDA0002362630400000071
精确率:针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率,表达式为
Figure RE-GDA0002362630400000072
召回率:针对原样本而言的,其含义实在实际为正的样本中被预测为正样本的概率,表达式为
Figure RE-GDA0002362630400000073
F1分数表达式为
Figure RE-GDA0002362630400000074
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述的文本分类方法包括以下步骤:
步骤1:获取待测文本,然后同时执行步骤2和步骤3;
步骤2:通过AC自动机进行敏感词检测,然后执行步骤4;
步骤3:通过循环神经网络模型进行非法内容识别,然后执行步骤6;
步骤4:判断文本中是否含有敏感词汇,若是,则执行步骤5,否则,返回步骤3;
步骤5:文本含有敏感词汇,根据敏感词汇判断文本类别,然后执行步骤9;
步骤6:判断文本中是否含有非法内容,若是,则执行步骤7,否则执行步骤8;
步骤7:文本含有非法内容,根据非法内容判断文本类别,然后执行步骤9;
步骤8:文本不含有非法内容,然后执行步骤9;
步骤9:结束本轮处理逻辑。
2.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述步骤2的具体步骤为:
步骤2-1:根据敏感词词典创建trie树;
步骤2-2:在trie树上添加fail指针。
3.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述的步骤3的具体步骤为:
步骤3-1:对文本进行预处理,然后执行步骤3-2;
步骤3-2:通过完成训练的循环神经网络模型进行非法内容检测。
4.根据权利要求3所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述步骤3-1中的预处理具体为文本的分词处理。
5.根据权利要求3所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述步骤3-2中循环神经网络模型的训练具体为:
步骤3-2-1:根据非法词库对带有标签的训练文本进行向量化操作;
步骤3-2-2:将带有标签的文本向量输入循环神经网络进行训练,输出训练好的循环神经网络模型。
6.根据权利要求5所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述的步骤3-2-2中的文本向量具体为训练文本中所包含的非法词库中词的词频向量。
7.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述步骤5具体为:根据敏感词词典判断敏感词所属类别。
8.根据权利要求1所述的一种通过敏感词检测与非法内容识别进行文本分类的方法,其特征在于,所述步骤7具体为:通过循环神经网络对文本分类进行打分,分数超过设定值的类别即为文本类别。
CN201910859082.8A 2019-09-11 2019-09-11 一种通过敏感词检测与非法内容识别进行文本分类的方法 Pending CN110851590A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910859082.8A CN110851590A (zh) 2019-09-11 2019-09-11 一种通过敏感词检测与非法内容识别进行文本分类的方法
US17/638,167 US20230015054A1 (en) 2019-09-11 2020-08-12 Text classification method, electronic device and computer-readable storage medium
PCT/CN2020/108652 WO2021047341A1 (zh) 2019-09-11 2020-08-12 文本分类方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910859082.8A CN110851590A (zh) 2019-09-11 2019-09-11 一种通过敏感词检测与非法内容识别进行文本分类的方法

Publications (1)

Publication Number Publication Date
CN110851590A true CN110851590A (zh) 2020-02-28

Family

ID=69595503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910859082.8A Pending CN110851590A (zh) 2019-09-11 2019-09-11 一种通过敏感词检测与非法内容识别进行文本分类的方法

Country Status (3)

Country Link
US (1) US20230015054A1 (zh)
CN (1) CN110851590A (zh)
WO (1) WO2021047341A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置
CN112100361A (zh) * 2020-11-12 2020-12-18 南京中孚信息技术有限公司 一种基于ac自动机的字符串多模模糊匹配方法
CN112256635A (zh) * 2020-10-19 2021-01-22 厦门天锐科技股份有限公司 一种识别文件类型的方法及装置
WO2021047341A1 (zh) * 2019-09-11 2021-03-18 上海爱数信息技术股份有限公司 文本分类方法、电子设备及计算机可读存储介质
CN113761203A (zh) * 2021-08-31 2021-12-07 苏州市吴江区公安局 一种案件的分析方法和系统
CN114266247A (zh) * 2021-12-20 2022-04-01 中国农业银行股份有限公司 一种敏感词过滤方法、装置、存储介质及电子设备
CN117313695A (zh) * 2023-09-01 2023-12-29 鹏城实验室 文本敏感性检测方法、装置、电子设备及可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936551A (zh) * 2022-04-28 2022-08-23 北京明朝万达科技股份有限公司 一种基于词义相似度的智能数据治理方法和系统
CN117235270B (zh) * 2023-11-16 2024-02-02 中国人民解放军国防科技大学 基于信度混淆矩阵的文本分类方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386168A (en) * 1994-04-29 1995-01-31 The United States Of America As Represented By The Secretary Of The Army Polarization-sensitive shear wave transducer
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022835B (zh) * 2015-08-14 2018-01-12 武汉大学 一种群智感知大数据公共安全识别方法及系统
US10192148B1 (en) * 2017-08-22 2019-01-29 Gyrfalcon Technology Inc. Machine learning of written Latin-alphabet based languages via super-character
CN110019795B (zh) * 2017-11-09 2021-10-12 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN108984530B (zh) * 2018-07-23 2022-04-12 北京信息科技大学 一种网络敏感内容的检测方法及检测系统
CN110851590A (zh) * 2019-09-11 2020-02-28 上海爱数信息技术股份有限公司 一种通过敏感词检测与非法内容识别进行文本分类的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5386168A (en) * 1994-04-29 1995-01-31 The United States Of America As Represented By The Secretary Of The Army Polarization-sensitive shear wave transducer
CN106055541A (zh) * 2016-06-29 2016-10-26 清华大学 一种新闻内容敏感词过滤方法及系统
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021047341A1 (zh) * 2019-09-11 2021-03-18 上海爱数信息技术股份有限公司 文本分类方法、电子设备及计算机可读存储介质
CN111738011A (zh) * 2020-05-09 2020-10-02 完美世界(北京)软件科技发展有限公司 违规文本的识别方法及装置、存储介质、电子装置
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置
CN111343203B (zh) * 2020-05-18 2020-08-28 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置
CN112256635A (zh) * 2020-10-19 2021-01-22 厦门天锐科技股份有限公司 一种识别文件类型的方法及装置
CN112256635B (zh) * 2020-10-19 2022-06-17 厦门天锐科技股份有限公司 一种识别文件类型的方法及装置
CN112100361A (zh) * 2020-11-12 2020-12-18 南京中孚信息技术有限公司 一种基于ac自动机的字符串多模模糊匹配方法
CN112100361B (zh) * 2020-11-12 2021-02-26 南京中孚信息技术有限公司 一种基于ac自动机的字符串多模模糊匹配方法
CN113761203A (zh) * 2021-08-31 2021-12-07 苏州市吴江区公安局 一种案件的分析方法和系统
CN114266247A (zh) * 2021-12-20 2022-04-01 中国农业银行股份有限公司 一种敏感词过滤方法、装置、存储介质及电子设备
CN117313695A (zh) * 2023-09-01 2023-12-29 鹏城实验室 文本敏感性检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
US20230015054A1 (en) 2023-01-19
WO2021047341A1 (zh) 2021-03-18

Similar Documents

Publication Publication Date Title
CN110851590A (zh) 一种通过敏感词检测与非法内容识别进行文本分类的方法
Sharma et al. Natural language understanding with the quora question pairs dataset
CN111198995B (zh) 一种恶意网页识别方法
KR101312770B1 (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
Tiedemann et al. Efficient discrimination between closely related languages
CN102411563A (zh) 一种识别目标词的方法、装置及系统
CN109241741B (zh) 一种基于图像纹理指纹的恶意代码分类方法
CN101782898A (zh) 一种情感词倾向性的分析方法
CN108228845B (zh) 一种手机游戏分类方法
Probierz et al. Rapid detection of fake news based on machine learning methods
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
CN107180084A (zh) 词库更新方法及装置
CN110191096A (zh) 一种基于语义分析的词向量网页入侵检测方法
CN109522412A (zh) 文本情感分析方法、装置及介质
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
TWI452475B (zh) A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program
Smitha et al. Meme classification using textual and visual features
CN106649264B (zh) 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN108733652A (zh) 基于机器学习的影评情感倾向性分析的测试方法
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
CN113536777A (zh) 新闻关键词的抽取方法、装置、设备及存储介质
Jain et al. Automatic question tagging using k-nearest neighbors and random forest
CN109543049B (zh) 一种针对写作特点自动推送素材的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination