CN114662486A - 一种基于机器学习的突发事件敏感词检测方法 - Google Patents

一种基于机器学习的突发事件敏感词检测方法 Download PDF

Info

Publication number
CN114662486A
CN114662486A CN202210357018.1A CN202210357018A CN114662486A CN 114662486 A CN114662486 A CN 114662486A CN 202210357018 A CN202210357018 A CN 202210357018A CN 114662486 A CN114662486 A CN 114662486A
Authority
CN
China
Prior art keywords
sensitive
text
word
background
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210357018.1A
Other languages
English (en)
Inventor
刘硕愚
邱云飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN202210357018.1A priority Critical patent/CN114662486A/zh
Publication of CN114662486A publication Critical patent/CN114662486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的突发事件敏感词检测方法,包括确定突发事件相关的违规主题词及语句;建立敏感词库与背景词库;利用确定的正样本、强负样本及敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值;获得待审核文本后,首先将文本去除停用词并分段,后使用TF‑IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分;通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本。本发明提出了解决突发事件的敏感词库建立的有效方法,可以更高效、更精准的建立敏感词库、背景词库,并将建立过程自动化,省去大量人工建库的成本。

Description

一种基于机器学习的突发事件敏感词检测方法
技术领域
本发明属于敏感词检测的技术领域,尤其涉及一种基于机器学习的突发事件敏感词检测方法。
背景技术
随着互联网时代的到来,海量网络资源使得人们日常生活、社会交流、学习工作等变得越来越方便快捷。但是人们在享受着互联网带来的便利的同时,也有不少人利用互联网信息传播速度快,传播范围大的特点,在网上发布各种非法信息,这给人们尤其是青少年带来了巨大的危害,也给社会带来了诸多的不良影响。为了应对这种问题,互联网公司以及公共信息管理部门,每时每刻都在对发布在互联网上的信息进行审查与过滤。
现有技术对自动审核方式已经有了很多的解决办法,但是应对于突发事件,极少有技术提到该如何应对。突发事件的保密工作要求高,泄密风险大,且敏感词库不完善,具有敏感词库构建不足、模型需求新,敏感词匹配模型精确度不足等一系列难题。
现有技术一的技术方案:
首先利用关键词匹配算法获得敏感文本,接着将敏感文本输入BERT 模型,取得敏感文本敏感度概率的概率分布,第三步则是对取得的敏感文本敏感度概率分布进行模型分析并阈值过滤,得到违规文本和待定文本,将违规文本置入违规文本库中,最后则是对待定文本进行相似度过滤确定是否违规。
现有技术一中利用BERT模型等一系列神经网络模型,精度可能会很高,但是计算成本极大,耗时长且具有可解释性不强的问题,其次对于敏感文本的敏感词库建立问题,文中并没有提出解决方案。第三点,关键词匹配的算法得出的敏感文本只是带有敏感词本身,无法解决变音、变形但意思不变的违规词汇问题。
现有技术二的技术方案,包括以下步骤:
S1.构建敏感词词典并按预设周期更新,敏感词按照首字母顺序将汉字字形和对应的拼音添加至所述敏感词词典中,并根据敏感词词典构建决策树;
S2.将文本输入至敏感词检测模型中,所述敏感词检测模型以所述决策树为基础通过匹配算法以及匹配标准检测文本中的敏感词,并对所述敏感词进行定位。
敏感词的定位具体为,所述敏感词的位置使用元组表示,所述元组的第一位为所述敏感词在文本中的起始位置,所述元组的第二位为所述敏感词在文本中的结束位置。敏感词定位后还包括,将所述敏感词与定位以字典的形式保存,其中所述字典的键值为所述敏感词,所述键值对应的值为对应所述敏感词的定位元组。
决策树的结构具体为,通过类结构表示各节点,类中属性包括汉字、字符、英文字符串、结束位、当前节点的下一级节点,所述汉字字符用于存储节点对应的汉字,所述英文字符串用于存储汉字的拼音和\或英文敏感词;类中的方法包括查找指定汉字的下一级节点以及查找指定拼音的下一级节点。
现有技术二的缺点:
首先,此技术中未考虑敏感词场景问题,经过调研发现,是否为敏感文本与敏感词使用场景关系密切,故而单以敏感词与其拼音等匹配敏感文本,精确度稍显不足。其次,该技术中并未提出敏感词检测模型的优化迭代问题,检测的大量已确定敏感文本并未加以利用,造成了资源浪费。而且,该技术并未提出如何构建敏感词词典,是否自动构建并未提及。
发明内容
为了解决突发事件的敏感词库自动构建与敏感文本检测问题,本发明的目的在于提供一种基于机器学习的突发事件敏感词检测方法,能够解决当前技术中应对突发事件敏感词检测工作的难题,更快、更准确且效率更高。
为了解决上述技术问题,本发明通过以下技术方案来实现:
本发明提供的基于机器学习的突发事件敏感词检测方法,包括以下步骤:
S1:确定突发事件相关的违规主题词及语句;
S2:建立敏感词库与背景词库;
S3:利用步骤S1中确定的正样本、强负样本及步骤S2中确定的敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值;
S4:获得待审核文本后,首先将文本去除停用词并分段,后使用TF-IDF 计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分,利用在步骤S3中训练得出的决策树或贝叶斯分类模型通过计算敏感词和背景词的词频、在每段中的分段词频以及与文章关联度得分获得文本敏感概率;
S5:通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本;
S6:将审核得出的敏感文本库、非敏感文本库、及无关样本库反馈回步骤S2得到新的敏感词与背景词以扩充敏感词库与背景词库,且将敏感文本库与非敏感文本库反馈回步骤S3继续优化模型,以进一步提高精确度。
进一步的,所述步骤S1中,通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本,将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库。
进一步的,所述步骤S2具体包括以下步骤:
步骤S2.1:利用BiGRU-CRF算法对正样本,强负样本和无关样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽取,并利用 TF-IDF算法对所抽取的关键词进行分段式关联度打分;在正样本内每段平均分超过第一阈值,无关样本内每段平均分不超过第二阈值,负样本内每段平均分低于第三阈值的关键词定义为敏感词并加入敏感词库;
步骤S2.2:利用BiGRU-CRF算法对背景样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽,并利用TF-IDF算法对所抽取的关键词进行分段式打分,平均分数高于第四阈值的关键词定义为背景词并加入背景词库。
优选的,所述步骤S5具体包括以下步骤:
步骤S5.1:若文本敏感概率大于第一敏感阈值,则将文本判定为敏感文本,并将文本加入敏感文本库;
步骤S5.2:若文本敏感概率小于第二敏感阈值,则将文本判定为非敏感文本,并将文本加入非敏感文本库;
步骤S5.3:若文本敏感概率小于第一敏感阈值且大于第二敏感阈值,则将文本判定为待定文本,并加入待定文本库,交由人工审核;人工审核判定为敏感文本的,加入敏感文本库,人工审核判定为非敏感文本的,加入非敏感文本库,人工审核判定为无关样本或背景样本的,加入无关文本库或背景文本库。
由上,本发明具有以下有益效果:
1、提出了解决突发事件的敏感词库建立的有效方法,可以更高效、更精准的建立敏感词库、背景词库,并将建立过程自动化,省去大量人工建库的成本。
2、通过词在敏感文档中出现的词频等自动建立敏感词库,可以将变音,变形的敏感词自动加入敏感词库中,解决了变音、变形但意思不变的违规词汇问题。
3、提出了双反馈的方法,将审核得到的正负文本反馈到模型以进行模型优化,并且将正负文本反馈到敏感词库、背景词库的建立中,以达到扩充敏感词库、背景词库的目的,进一步提高精确度。
4、使用的文本审核模型为机器学习模型,模型更为轻量级,速度更快,资源利用更小,算力资源利用率更高,且有更高的可解释性。
5、提出了TF-IDF分段式计分发,可以有效解决文本中敏感文本在某段内高度聚集,其他段内极少引发的误判定问题。
6、提出了背景词辅助审核的概念,建立背景词库辅助敏感词进行敏感文本审核,缩小了审核范围,提高了审核精确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍。
图1为本发明的基于机器学习的突发事件敏感词检测方法的流程图。
具体实施方式
下面结合附图详细说明本发明的具体实施方式,其作为本说明书的一部分,通过实施例来说明本发明的原理,本发明的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
如图1所示,本发明的基于机器学习的突发事件敏感词检测方法,包括以下步骤:
S1.确定突发事件相关的违规主题词及语句,通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本,将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库。
S2.建立敏感词库与背景词库
S2.1.利用BiGRU-CRF算法对正样本,强负样本和无关样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽取,并利用TF-IDF 算法对所抽取的关键词进行分段式关联度打分,即针对关键词在每段出现的词频数进行打分,判断其与全文的关联度情况。在正样本内每段平均分超过第一阈值,无关样本内每段平均分不超过第二阈值,负样本内每段平均分低于第三阈值的关键词定义为敏感词并加入敏感词库。
S2.2.利用BiGRU-CRF算法对背景样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽,并利用TF-IDF算法对所抽取的关键词进行分段式打分,平均分数高于第四阈值的关键词定义为背景词并加入背景词库。
S3.利用步骤S1中确定的正样本、强负样本及步骤S2中确定的敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值,以达到通过背景词缩小审核范围、增加审核精确度的目的,并不断通过审核得到的敏感文本、非敏感文本进行进一步优化。
S4.获得待审核文本后,首先将文本去除停用词并分段,后使用TF-IDF 计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分,利用在S3中训练得出的决策树或贝叶斯分类模型通过计算敏感词和背景词的词频、在每段中的分段词频以及与文章关联度得分获得文本敏感概率。
S5.通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本。
S5.1.若文本敏感概率大于第一敏感阈值,则将文本判定为敏感文本,并将文本加入敏感文本库。
S5.2.若文本敏感概率小于第二敏感阈值,则将文本判定为非敏感文本,并将文本加入非敏感文本库。
S5.3.若文本敏感概率小于第一敏感阈值且大于第二敏感阈值,则将文本判定为待定文本,并加入待定文本库,交由人工审核。人工审核判定为敏感文本的,加入敏感文本库,人工审核判定为非敏感文本的,加入非敏感文本库,人工审核判定为无关样本或背景样本的,加入无关文本库或背景文本库。
S6.将审核得出的敏感文本库、非敏感文本库、及无关样本库反馈回步骤S2得到新的敏感词与背景词以扩充敏感词库与背景词库。并且将敏感文本库与非敏感文本库反馈回步骤S3继续优化模型,以进一步提高精确度。
在文本审核算法确定中,本发明使用的是贝叶斯和决策树算法,可以使用其他机器学习分类算法如SVM、随机森林等,以及深度学习算法,如 CNN,BERT,Attention-BERT等算法进行算法替代,不会影响分类结果。在分库操作中,本发明分了敏感文本库,敏感词库,背景文本库,背景词库,无关文本库,背景文本库六个库,可以使用政治文本库,社会文本库等具体分类进行替代,可以划分的更细,对精确度提高有帮助,但是库的维护较为繁琐,对资源利用性价比不高。
以上所述是本发明的优选实施方式而已,当然不能以此来限定本发明之权利范围,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和变动,这些改进和变动也视为本发明的保护范围。

Claims (4)

1.一种基于机器学习的突发事件敏感词检测方法,其特征在于,包括以下步骤:
S1:确定突发事件相关的违规主题词及语句;
S2:建立敏感词库与背景词库;
S3:利用步骤S1中确定的正样本、强负样本及步骤S2中确定的敏感词库、背景词库训练决策树或贝叶斯分类模型,对敏感词和背景词设定不同权重值;
S4:获得待审核文本后,首先将文本去除停用词并分段,后使用TF-IDF计算敏感词库中的各个敏感词与背景词库中的各个背景词在每段的平均得分,利用在步骤S3中训练得出的决策树或贝叶斯分类模型通过计算敏感词和背景词的词频、在每段中的分段词频以及与文章关联度得分获得文本敏感概率;
S5:通过文本敏感概率判定待定文本是否为敏感文本或非敏感文本;
S6:将审核得出的敏感文本库、非敏感文本库、及无关样本库反馈回步骤S2得到新的敏感词与背景词以扩充敏感词库与背景词库,且将敏感文本库与非敏感文本库反馈回步骤S3继续优化模型,以进一步提高精确度。
2.如权利要求1所述的基于机器学习的突发事件敏感词检测方法,其特征在于,所述步骤S1中,通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本,将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库。
3.如权利要求1所述的基于机器学习的突发事件敏感词检测方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S2.1:利用BiGRU-CRF算法对正样本,强负样本和无关样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽取,并利用TF-IDF算法对所抽取的关键词进行分段式关联度打分;在正样本内每段平均分超过第一阈值,无关样本内每段平均分不超过第二阈值,负样本内每段平均分低于第三阈值的关键词定义为敏感词并加入敏感词库;
步骤S2.2:利用BiGRU-CRF算法对背景样本进行分词、去除停用词操作,再对样本进行分段后进行关键词抽,并利用TF-IDF算法对所抽取的关键词进行分段式打分,平均分数高于第四阈值的关键词定义为背景词并加入背景词库。
4.如权利要求1所述的基于机器学习的突发事件敏感词检测方法,其特征在于,所述步骤S5具体包括以下步骤:
步骤S5.1:若文本敏感概率大于第一敏感阈值,则将文本判定为敏感文本,并将文本加入敏感文本库;
步骤S5.2:若文本敏感概率小于第二敏感阈值,则将文本判定为非敏感文本,并将文本加入非敏感文本库;
步骤S5.3:若文本敏感概率小于第一敏感阈值且大于第二敏感阈值,则将文本判定为待定文本,并加入待定文本库,交由人工审核;人工审核判定为敏感文本的,加入敏感文本库,人工审核判定为非敏感文本的,加入非敏感文本库,人工审核判定为无关样本或背景样本的,加入无关文本库或背景文本库。
CN202210357018.1A 2022-04-01 2022-04-01 一种基于机器学习的突发事件敏感词检测方法 Pending CN114662486A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210357018.1A CN114662486A (zh) 2022-04-01 2022-04-01 一种基于机器学习的突发事件敏感词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210357018.1A CN114662486A (zh) 2022-04-01 2022-04-01 一种基于机器学习的突发事件敏感词检测方法

Publications (1)

Publication Number Publication Date
CN114662486A true CN114662486A (zh) 2022-06-24

Family

ID=82034802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210357018.1A Pending CN114662486A (zh) 2022-04-01 2022-04-01 一种基于机器学习的突发事件敏感词检测方法

Country Status (1)

Country Link
CN (1) CN114662486A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969348A (zh) * 2022-07-27 2022-08-30 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969348A (zh) * 2022-07-27 2022-08-30 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统
CN114969348B (zh) * 2022-07-27 2023-10-27 杭州电子科技大学 基于逆变调节知识库的电子文件分级分类方法及系统

Similar Documents

Publication Publication Date Title
CN114610515B (zh) 基于日志全语义的多特征日志异常检测方法及系统
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
WO2017091985A1 (zh) 停用词识别方法与装置
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113962293A (zh) 一种基于LightGBM分类与表示学习的姓名消歧方法和系统
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN113312476A (zh) 一种文本自动打标签方法及其装置和终端
CN114757302A (zh) 一种文本处理用聚类方法系统
CN115510500A (zh) 一种文本内容的敏感分析方法及系统
CN104794209B (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
CN113032573B (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
CN114662486A (zh) 一种基于机器学习的突发事件敏感词检测方法
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN112632969B (zh) 一种增量式行业词典更新方法和系统
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
Suhasini et al. A Hybrid TF-IDF and N-Grams Based Feature Extraction Approach for Accurate Detection of Fake News on Twitter Data
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114860903A (zh) 一种面向网络安全领域的事件抽取、分类和融合方法
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN113157857A (zh) 面向新闻的热点话题检测方法、装置及设备
CN112488593A (zh) 一种用于招标的辅助评标系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination