CN112434523A - 一种降低敏感词谐音匹配误警率的文本审核装置及方法 - Google Patents
一种降低敏感词谐音匹配误警率的文本审核装置及方法 Download PDFInfo
- Publication number
- CN112434523A CN112434523A CN202011336483.4A CN202011336483A CN112434523A CN 112434523 A CN112434523 A CN 112434523A CN 202011336483 A CN202011336483 A CN 202011336483A CN 112434523 A CN112434523 A CN 112434523A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- word
- text
- auditing
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种降低敏感词谐音匹配误警率的文本审核装置及方法,该装置包括:特定词语单元替换模块,对包含敏感谐音词的待审核文本,将其敏感谐音词替换为敏感词原型,得到替换后的替换文本;分词模块,对待审核文本及替换文本进行中文分词处理,分别输出分词单元位置索引列表;语法单元一致性审核模块,根据待审核文本及替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核;词性标注模块,对具有语法单元一致性的待审核文本及替换文本分别进行词性标注处理;词性标注一致性审核模块,对词性标注结果,比较特定词语单元替换前后的词语词性;审核结果判断输出模块,根据词性标注一致性审核模块的审核结果进行相应的判断处理。
Description
技术领域
本发明涉及文本审核技术领域,特别是涉及一种降低敏感词谐音匹配误警率的文本审核装置及方法。
背景技术
随着计算机技术、网络技术的快速发展,诸多网络社交平台如微博、聊天论坛、视频弹幕等应运而生,这些网络平台持续产生海量的用户交互数据如文本数据、视频数据在丰富人们精神生活的同时,也给有效的信息审核和监管带来了困难。
典型的传统文本审核方法通常是基于敏感词对文本进行审核,而且,为了适应网络语言的不规范性、多变性,这种文本审核方法往往会在对原始敏感词匹配的基础上进行一些扩展匹配,其中典型的如敏感词谐音匹配,即对与敏感词拼音相同或者拼音相近的词语进行匹配并报警,这种扩展方法的优点是适应了网络语言的不规范性、多变性特点,表现在对违规文本的审核召回率的提升,但同时也因单纯基于匹配的方法不具备语法分析能力、上下文分析能力等,不可避免地造成了一些误报,从而导致准确率明显降低;另外,敏感词库中敏感单字的存在也使得误报警情形加剧,从而使得文本审核系统的可用性降低。上述这些缺点具体表现在:
1)不具备语法单元分析能力,可能导致的误报警,例如:样本“批改试卷”中“改试”对敏感词“该死”的谐音误报警;
2)不具备上下文分析能力,可能导致的误报警,例如:样本“骑摩托车一定要戴好头盔”中“头盔”对敏感词“偷窥”的谐音误报警;
3)尤其对于敏感单字情形,谐音匹配将导致大量误报警,例如:样本“记得去邮局寄信”中“信”对敏感单字“性”的谐音误报警。
因此,实有必要提出一种技术手段,以解决传统基于敏感词谐音匹配的文本审核方法的不足,降低敏感词谐音匹配误警率。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种降低敏感词谐音匹配误警率的文本审核装置及方法,以对基于敏感词谐音匹配的传统审核方法从多个不同角度进一步审核,达到降低误警率、提升文本审核系统可用性的效果。
为达上述及其它目的,本发明提出一种降低敏感词谐音匹配误警率的文本审核装置,包括:
特定词语单元替换模块,用于对包含敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词库中的敏感词原型,得到经过特定词语单元替换后的替换文本;
分词模块,用于对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表;
语法单元一致性审核模块,用于根据所述待审核文本text的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核;
词性标注模块,用于对经所述语法单元一致性审核模块确定具有语法单元一致性的待审核文本,及其经过特定词语单元替换后的替换文本,分别进行词性标注处理,获得各词语单元的词性;
词性标注一致性审核模块,用于对所述词性标注模块得到的待审核文本以及经过特定词语单元替换后的替换文本的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,将审核结果输出至审核结果判断输出模块;
审核结果判断输出模块,用于根据所述词性标注一致性审核模块的审核结果进行相应的判断处理。
优选地,所述装置还包括MLM预测一致性审核模块,用于对经所述语法单元一致性审核模块判断替换前后不具有一致性、或者经所述词性标注一致性审核模块判断替换前后词性不同的所述待审核文本中的敏感词审核结果处通过MASK进行掩模处理后,使用采用WWM方式训练的MLM模型的上下文分析能力对掩模处进行预测,将按照置信度降序排列的前若干个预测词与敏感词原型进行相似度比较,并将模型审核结果输出至所述审核结果判断输出模块。
优选地,所述语法单元一致性审核考察以下两个条件是否同时满足:
1)两个分词单元位置索引列表中的对应元素完全相同;
2)敏感词审核结果在待审核文本中的开始、结束位置均在分词单元位置索引列表中;
若以上两个条件同时满足,则认为具有语法单元一致性,则进入所述词性标注模块继续进行增强分析处理;否则,进入所述MLM预测一致性审核模块进行上下文分析处理。
优选地,所述装置还包括敏感词扩展审核模块,用于所述对待审核文本,基于预先构建的敏感词扩展库进行包括原型及谐音在内的匹配审核,相应地根据匹配得到的敏感词审核结果转向不同的模块进一步处理。
优选地,所述匹配类型包括敏感词原型匹配与敏感词谐音匹配,若判断为敏感词原型匹配,则直接转向所述审核结果判断输出模块;若判断为敏感词谐音匹配,则进入所述特定词语单元替换模块。
优选地,所述装置还包括敏感词扩展库构建模块,用于基于敏感词库,对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,以扩展后的词替换掉敏感单字,进而构建所述敏感词扩展库。
优选地,若所述敏感词扩展审核模块的敏感词审核结果的匹配类型为敏感词原型匹配,则所述审核结果判断输出模块直接对其敏感词审核结果作报警处理。
优选地,若所述词性标注一致性审核模块输出的审核结果认为一致,则所述审核结果判断输出模块对其敏感词审核结果作报警处理;否则,进入所述MLM预测一致性审核模块进行上下文分析处理。
优选地,若所述MLM预测一致性审核模块输出的审核结果认为一致,则所述审核结果判断输出模块对敏感词审核结果作报警处理,否则作过滤处理。
为达到上述目的,本发明还提供一种降低敏感词谐音匹配误警率的文本审核方法,包括如下步骤:
步骤S1,对包含敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词库中的敏感词原型,得到经过特定词语单元替换后的替换文本;
步骤S2,对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表;
步骤S3,根据所述待审核文本的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核;
步骤S4,对经步骤S3确定具有语法单元一致性的待审核文本,及其经过特定词语单元替换后的替换文本,分别进行词性标注处理,获得各词语单元的词性;
步骤S5,对步骤S4得到的待审核文本以及经过特定词语单元替换后的替换文本的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,将审核结果输出至审核结果判断输出模块;
步骤S6,根据步骤S5的审核结果进行相应的判断处理。
与现有技术相比,本发明具有如下有益效果:
一、本发明通过构建敏感词扩展库从源头上减少了敏感单字谐音匹配因匹配范围过于宽泛而带来的误报警;
二、本发明利用语法单元一致性审核,能够根据审核结果相应地决定继续进行词性分析或者上下文分析的进一步审核处理,从而减少了因不具备语法单元分析能力而带来的误报警;
三、本发明在语法单元一致的基础上进一步结合词性标注一致性审核,达到了对文本进行增强分析审核的目的,并能够根据审核结果相应地作直接报警处理或继续进行更为复杂的上下文分析审核;
四、本发明采用WWM方式训练的MLM模型预测一致性审核能够通过分析上下文来对敏感词位置词语进行预测,优点是可以从上下文语义感知的角度直接与敏感词原型进行匹配,实现了高层次审核。
附图说明
图1为本发明一种降低敏感词谐音匹配误警率的文本审核装置的系统架构图;
图2为本发明一种降低敏感词谐音匹配误警率的文本审核方法的步骤流程图;
图3为本发明实施例之降低敏感词谐音匹配误警率的文本审核方法的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种降低敏感词谐音匹配误警率的文本审核装置的系统架构图。如图1所示,本发明一种降低敏感词谐音匹配误警率的文本审核装置,包括:
敏感词扩展审核模块101,用于对待审核文本,基于预先构建的敏感词扩展库进行包括原型及谐音在内的匹配审核,然后根据匹配类型,相应地将匹配得到的敏感词审核结果转向不同的模块作进一步处理,在本发明具体实施例中,匹配类型包括敏感词原型匹配、敏感词谐音匹配两种类型。
具体地,当将待审核文本text基于敏感词扩展库匹配后,若判断为敏感词原型匹配,则直接转向审核结果判断输出模块108;若判断为敏感词谐音匹配,则转向特定词语单元替换模块102。例如对于待审核文本“批改试卷”,首先,将实际词“改试”与敏感词扩展库中的敏感词匹配,没有匹配上任何敏感词,因此不符合敏感词原型匹配关系,进而再判断是否满足谐音关系,从待审核文本“批改试卷”对应的“pi gai shijuan”中找到“gai shi”,与敏感词扩展库中的“该死”对应的“gai si”满足谐音匹配。
优选地,本发明之一种降低敏感词谐音匹配误警率的文本审核装置,还包括:
敏感词扩展库构建模块100,用于基于敏感词库,对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,以扩展后的词替换掉敏感单字,进而构建完成敏感词扩展库。所述敏感词库包含若干敏感词或敏感单字,敏感词扩展库构建模块100对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,以扩展后的词替换掉敏感单字,进而构建完成敏感词扩展库,例如,对敏感单字“码”,扩展为“打码”、“无码”、“有码”等。
特定词语单元替换模块102,用于对具有敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词扩展库中的敏感词原型,得到经过特定词语单元替换后的替换文本。
具体地,假设待审核文本text“批改试卷”,具有敏感谐音词“改试”,敏感词库中具有其对应的敏感词原型“该死”,则将该敏感词原型“该死”替换其中的“改试”,得到经过特定词语单元替换后的替换文本text2“批该死卷”。
分词模块103,用于对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表。
具体地,对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex:
listindex=[0,index1,…,indexM]
类似地,对经过特定词语单元替换后的文本text2,进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex2:
listindex2=[0,index21,…,index2N]
上面的两个表达式中,M、N分别表示text、text2的分词结果所包括的词语单元总数,索引值的计数单位为字符。
语法单元一致性审核模块104,用于根据所述待审核文本text的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核。
具体地,根据待审核文本text的分词单元位置索引列表listindex以及经过特定词语单元替换后的替换文本text2的分词单元位置索引列表listindex2,进行替换前后的语法单元一致性审核,所述语法单元一致性审核具体考察以下两个条件是否同时满足:
1)两个分词单元位置索引列表中的对应元素完全相同;
2)敏感词审核结果在待审核文本中的开始、结束位置均在分词单元位置索引列表中。例如,待审核文本“提供特色服务”,其分词结果为“提供、特色、服务”,敏感词审核结果:“特色服务”。
如果以上两个条件同时满足,则认为具有语法单元一致性,并转向词性标注模块105继续进行增强分析处理;否则,转向MLM预测一致性审核模块107继续进行上下文分析处理。
词性标注模块105,用于对待审核文本text,以及经过特定词语单元替换后的替换文本text2,分别进行词性标注处理,获得各词语单元的词性。所述词语单元指的是分词后得到的切分开的词语。
词性标注一致性审核模块106,用于对词性标注模块105得到的待审核文本text以及经过特定词语单元替换后的替换文本text2的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,如果替换前后词性相同,则直接转向审核结果判断输出模块108,以作报警处理;否则,转向MLM预测一致性审核模块107继续进行上下文分析处理。也就是说,词性标注模块是对整个待审核文本以及经过特定词语单元替换后的替换文本text2分别进行词性标注,但最终用于比较的仅需观察替换位置上的词性。
MLM预测一致性审核模块107,用于对所述待审核文本中的敏感词审核结果处通过MASK进行掩模处理后,使用采用WWM(Whole Word Masking,整词掩模)方式训练的MLM模型的上下文分析能力对掩模处进行预测,将按照置信度降序排列的前若干个预测词与敏感词原型进行相似度比较,并将模型审核结果输出至审核结果判断输出模块108。
具体地,当将待审核文本text中的敏感词审核结果(例如“批改试卷”的“改试”)处用MASK进行掩模处理;然后使用采用WWM(Whole Word Masking,整词掩模)方式训练的Masked Language Modeling(MLM,掩模语言建模)模型对掩模位置处进行预测,并将按照置信度降序排列的前K个预测词与敏感词原型依次进行相似度比较,比较方法可采用诸如整词匹配法、字符串相似度计算法(Jaccard相似度、Levenshtein相似度)、词向量(如Word2Vec)相似度计算法等,一旦完全匹配或者相似度高于设定阈值则认为预测结果与敏感词扩展库中的敏感词原型具有一致性,此时将不再进行后面的预测词与敏感词原型的相似度计算以节省运算开销,并将模型审核结果输出至审核结果判断输出模块108,一旦命中则认为预测结果与敏感词原型具有一致性,作报警处理,否则作过滤处理。
在本发明具体实施例中,MLM模型具体可以使用深度学习模型如BERT、RoBERTa等,优选地,可使用BERT模型。前K个预测值的K值可按照经验进行设置,一般地,对于处理来自语法单元一致性审核模块104时的K值设置要大于处理来自词性标注一致性审核模块106时的K值设置,优选地,前者K值可设为20,后者K值可设为10。
审核结果判断输出模块108,用于对敏感词扩展审核模块101、词性标注一致性审核模块106以及MLM预测一致性审核模块107输出的审核结果进行相应的判断处理。
具体地,如果敏感词扩展审核模块101的敏感词审核结果的匹配类型为敏感词原型匹配,则直接对敏感词审核结果作报警处理;如果词性标注一致性审核模块106输出的审核结果认为“一致”,则对敏感词审核结果作报警处理;如果MLM预测一致性审核模块107输出的审核结果认为“一致”,则对敏感词审核结果作报警处理,否则作过滤处理。
同时,审核结果判断输出模块108还对上述处理结果进行输出和展示。
图2为本发明一种降低敏感词谐音匹配误警率的文本审核方法的步骤流程图。如图2所示,本发明一种降低敏感词谐音匹配误警率的文本审核方法,包括如下步骤:
步骤S1,对待审核文本,基于预先构建的敏感词扩展库进行包括原型及谐音在内的匹配审核,然后根据匹配类型,相应地将匹配得到的敏感词审核结果转向不同的后续步骤进一步处理,在本发明具体实施例中,匹配类型包括敏感词原型匹配、敏感词谐音匹配两种类型。
具体地,于步骤S1中,将待审核文本text基于敏感词扩展库匹配后,若判断其为敏感词原型匹配,则直接进入步骤S8;若判断为敏感词谐音匹配,则进入步骤S2。
优选地,于步骤S1之前,还包括如下步骤:
步骤S0,基于敏感词库,对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,以扩展后的词替换掉敏感单字,进而构建完成敏感词扩展库以便于后续的敏感词审核,例如,对敏感单字“码”,扩展为“打码”、“无码”、“有码”等。本发明通过构建敏感词扩展库可从源头上减少敏感单字谐音匹配因匹配范围过于宽泛而带来的误报警。
步骤S2,对包含敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词扩展库中的敏感词原型,得到经过特定词语单元替换后的替换文本。
具体地,假设待审核文本text“批改试卷”,具有敏感谐音词“改试”,敏感词库中具有其对应的敏感词原型“该死”,则将该敏感词原型“该死”替换其中的“改试”,得到经过特定词语单元替换后的替换文本text2“批该死卷”。
步骤S3,对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表。
具体地,对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex:
listindex=[0,index1,…,indexM]
类似地,对经过特定词语单元替换后的文本text2,进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex2:
listindex2=[0,index21,…,index2N]
上面的两个表达式中,M、N分别表示text、text2的分词结果所包括的词语单元总数,索引值的计数单位为字符。
步骤S4,根据所述待审核文本text的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核,若具有语法单元一致性,进入步骤S5,否则进入步骤S7。
具体地,根据待审核文本text的分词单元位置索引列表listindex以及经过特定词语单元替换后的替换文本text2的分词单元位置索引列表listindex2,以进行替换前后的语法单元一致性审核,在本发明具体实施例中,所述语法单元一致性审核具体考察以下两个条件是否同时满足:
1)两个分词单元位置索引列表中的对应元素完全相同;
2)敏感词审核结果在待审核文本中的开始、结束位置均在分词单元位置索引列表中。
如果以上两个条件同时满足,则认为具有语法单元一致性,并进入步骤S5继续进行增强分析处理;否则,进入步骤S7进行上下文分析处理。
步骤S5,对所述待审核文本text,以及经过特定词语单元替换后的替换文本text2,分别进行词性标注处理,获得各词语单元的词性,所述词语单元指的是分词后得到的切分开的词语。
步骤S6,对步骤S5得到的待审核文本text以及经过特定词语单元替换后的替换文本text2的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,如果替换前后词性相同,则直接进入步骤S8,以作报警处理;否则,进入步骤S7继续进行上下文分析处理。
步骤S7,对所述待审核文本text中的敏感词审核结果处通过MASK进行掩模处理后,使用采用WWM(Whole Word Masking,整词掩模)方式训练的MLM模型的上下文分析能力对掩模处进行预测,将按照置信度降序排列的前若干个预测词与敏感词原型进行相似度比较,并输出模型审核结果。
具体地,当将待审核文本text中的敏感词审核结果(例如“批改试卷”的“改试”)处用MASK进行掩模处理;然后使用采用WWM(Whole Word Masking,整词掩模)方式训练的Masked Language Modeling(MLM,掩模语言建模)模型对掩模位置处进行预测,并将按照置信度降序排列的前K个预测词与敏感词原型依次进行相似度比较,比较方法可采用诸如整词匹配法、字符串相似度计算法(Jaccard相似度、Levenshtein相似度)、词向量(如Word2Vec)相似度计算法等,一旦完全匹配或者相似度高于设定阈值则认为预测结果与敏感词扩展库的敏感词原型具有一致性,此时将不再进行后面的预测词与敏感词原型的相似度计算以节省运算开销,并并由步骤S8根据模型审核结果进行处理,一旦命中则认为预测结果与敏感词原型具有一致性,则作报警处理,否则作过滤处理。
在本发明具体实施例中,MLM模型具体可以使用深度学习模型如BERT、RoBERTa等,优选地,可使用BERT。
前K个预测值的K值可按照经验进行设置,需注意的是,对于来自步骤S4时的K值设置要大于处理来自步骤S6时的K值设置。优选地,前者可设为20,后者可设为10。
步骤S8,对步骤S1、步骤S6以及步骤S7输出的审核结果进行相应的判断处理。
具体地,如果步骤S1的敏感词审核结果的匹配类型为敏感词原型匹配,则直接对敏感词审核结果作报警处理;如果步骤S6输出的审核结果认为“一致”,则对敏感词审核结果作报警处理;如果步骤S7输出的审核结果认为“一致”,则对敏感词审核结果作报警处理,否则作过滤处理。
同时,步骤S8还对上述处理结果进行输出和展示。
实施例
如图3所示,在本实施例中,一种降低敏感词谐音匹配误警率的文本审核方法,其步骤如下:
步骤1,利用敏感词扩展库构建模块对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,同时替换掉敏感单字,进而构建敏感词扩展库。例如,对敏感单字“码”,扩展为“打码”、“无码”、“有码”等。
步骤2,由敏感词扩展审核模块对待审核文本text,基于敏感词扩展库构建模块生成的敏感词扩展库进行包括原型及谐音在内的匹配审核,然后根据匹配类型(包括敏感词原型匹配、敏感词谐音匹配),相应地将匹配得到的敏感词审核结果转向不同的模块作进一步处理:
1)如果是敏感词原型匹配,则直接转向审核结果判断输出模块;
2)如果是敏感词谐音匹配,则转向特定词语单元替换模块。
步骤3,利用特定词语单元替换模块对待审核文本text,将文本中的敏感谐音词替换为敏感词库中的敏感词原型,进一步得到经过特定词语单元替换后的文本text2。
步骤4,由分词模块对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex:
listindex=[0,index1,…,indexM]
类似地,对经过特定词语单元替换后的文本text2,进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex2:
listindex2=[0,index21,…,index2N]
上面的两个表达式中,M、N分别表示text、text2的分词结果所包括的词语单元总数,索引值的计数单位为字符。
步骤5,由语法单元一致性审核模块根据待审核文本text的分词单元位置索引列表listindex、经过特定词语单元替换后的文本text2的分词单元位置索引列表listindex2,进行替换前后的语法单元一致性审核,语法单元一致性审核模块具体考察以下两个条件是否同时满足:
1)两个分词单元位置索引列表中的对应元素完全相同;
2)敏感词审核结果在待审核文本中的开始、结束位置均在分词单元位置索引列表中。
如果以上两个条件同时满足,则认为具有语法单元一致性,并转向词性标注模块继续进行增强分析处理;否则,转向MLM预测一致性审核模块继续进行上下文分析处理。
步骤6,词性标注模块对待审核文本text,以及经过特定词语单元替换后的文本text2,分别进行词性标注处理,获得各词语单元的词性。
步骤7,词性标注一致性审核模块对词性标注模块输出的待审核文本text、经过特定词语单元替换后的文本text2的词性标注结果,比较特定词语单元替换前后的词性,如果替换前后词性相同,则直接转向审核结果判断输出模块,并作报警处理;否则,转向MLM预测一致性审核模块继续进行上下文分析处理。
步骤8,由MLM预测一致性审核模块将待审核文本text中的敏感词审核结果处用MASK进行掩模处理;然后使用采用WWM(Whole Word Masking,整词掩模)方式训练的MaskedLanguage Modeling(MLM,掩模语言建模)模型对掩模位置处进行预测,并将按照置信度降序排列的前K个预测词与敏感词原型依次进行相似度比较,比较方法可采用诸如整词匹配法、字符串相似度计算法(Jaccard相似度、Levenshtein相似度)、词向量(如Word2Vec)相似度计算法等,一旦完全匹配或者相似度高于设定阈值则认为预测结果与敏感词原型具有一致性,此时将不再进行后面的预测词与敏感词原型的相似度计算以节省运算开销,并将模型审核结果输出至审核结果判断输出模块。
MLM具体模型可以使用深度学习模型如BERT、RoBERTa等,优选地,可使用BERT。
步骤9,审核结果判断输出模块对来自多个模块的输出结果进行如下判断处理:
1)如果敏感词审核结果的匹配类型是敏感词原型匹配,则直接对敏感词审核结果作报警处理;
2)如果词性标注一致性审核模块输出的审核结果认为“一致”,则对敏感词审核结果作报警处理;
3)如果MLM预测一致性审核模块输出的审核结果认为“一致”,则对敏感词审核结果作报警处理,否则作过滤处理。
同时,对上述处理结果进行输出和展示。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种降低敏感词谐音匹配误警率的文本审核装置,包括:
特定词语单元替换模块,用于对包含敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词库中的敏感词原型,得到经过特定词语单元替换后的替换文本;
分词模块,用于对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表;
语法单元一致性审核模块,用于根据所述待审核文本的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核;
词性标注模块,用于对经所述语法单元一致性审核模块确定具有语法单元一致性的待审核文本,及其经过特定词语单元替换后的替换文本,分别进行词性标注处理,获得各词语单元的词性;
词性标注一致性审核模块,用于对所述词性标注模块得到的待审核文本以及经过特定词语单元替换后的替换文本的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,将审核结果输出至审核结果判断输出模块;
审核结果判断输出模块,用于根据所述词性标注一致性审核模块的审核结果进行相应的判断处理。
2.如权利要求1所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:所述装置还包括MLM预测一致性审核模块,用于对经所述语法单元一致性审核模块判断替换前后不具有一致性、或者经所述词性标注一致性审核模块判断替换前后词性不同的所述待审核文本中的敏感词审核结果处通过MASK进行掩模处理后,使用采用WWM方式训练的MLM模型的上下文分析能力对掩模处进行预测,将按照置信度降序排列的前若干个预测词与敏感词原型进行相似度比较,并将模型审核结果输出至所述审核结果判断输出模块。
3.如权利要求2所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:所述语法单元一致性审核考察以下两个条件是否同时满足:
1)两个分词单元位置索引列表中的对应元素完全相同;
2)敏感词审核结果在待审核文本中的开始、结束位置均在分词单元位置索引列表中;
若以上两个条件同时满足,则认为具有语法单元一致性,则进入所述词性标注模块继续进行增强分析处理;否则,进入所述MLM预测一致性审核模块进行上下文分析处理。
4.如权利要求3所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:所述装置还包括敏感词扩展审核模块,用于所述对待审核文本,基于预先构建的敏感词扩展库进行包括原型及谐音在内的匹配审核,相应地根据匹配得到的敏感词审核结果转向不同的模块进一步处理。
5.如权利要求4所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:所述匹配类型包括敏感词原型匹配与敏感词谐音匹配,若判断为敏感词原型匹配,则直接转向所述审核结果判断输出模块;若判断为敏感词谐音匹配,则进入所述特定词语单元替换模块。
6.如权利要求5所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:所述装置还包括敏感词扩展库构建模块,用于基于敏感词库,对敏感词库中的敏感单字,通过组词的方式在敏感语境层面进行穷举扩展,以扩展后的词替换掉敏感单字,进而构建所述敏感词扩展库。
7.如权利要求5所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:若所述敏感词扩展审核模块的敏感词审核结果的匹配类型为敏感词原型匹配,则所述审核结果判断输出模块直接对其敏感词审核结果作报警处理。
8.如权利要求5所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:若所述词性标注一致性审核模块输出的审核结果认为一致,则所述审核结果判断输出模块对其敏感词审核结果作报警处理;否则,进入所述MLM预测一致性审核模块进行上下文分析处理。
9.如权利要求8所述的一种降低敏感词谐音匹配误警率的文本审核装置,其特征在于:若所述MLM预测一致性审核模块输出的审核结果认为一致,则所述审核结果判断输出模块对敏感词审核结果作报警处理,否则作过滤处理。
10.一种降低敏感词谐音匹配误警率的文本审核方法,包括如下步骤:
步骤S1,对包含敏感谐音词的待审核文本,将文本中的敏感谐音词替换为敏感词库中的敏感词原型,得到经过特定词语单元替换后的替换文本;
步骤S2,对所述待审核文本及经过特定词语单元替换后的替换文本进行中文分词处理,分别输出按先后顺序排列的分词单元位置索引列表;
步骤S3,根据所述待审核文本的分词单元位置索引列表以及所述替换文本的分词单元位置索引列表,进行替换前后的语法单元一致性审核;
步骤S4,对经步骤S3确定具有语法单元一致性的待审核文本,及其经过特定词语单元替换后的替换文本,分别进行词性标注处理,获得各词语单元的词性;
步骤S5,对步骤S4得到的待审核文本以及经过特定词语单元替换后的替换文本的词性标注结果,比较特定词语单元替换前后的敏感谐音词及敏感原型词性,将审核结果输出至审核结果判断输出模块;
步骤S6,根据步骤S5的审核结果进行相应的判断处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336483.4A CN112434523B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336483.4A CN112434523B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434523A true CN112434523A (zh) | 2021-03-02 |
CN112434523B CN112434523B (zh) | 2022-08-26 |
Family
ID=74699197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336483.4A Active CN112434523B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434523B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158695A (zh) * | 2021-05-06 | 2021-07-23 | 上海极链网络科技有限公司 | 一种面向多语言混合文本的语义审核方法与系统 |
CN113535899A (zh) * | 2021-07-07 | 2021-10-22 | 西安康奈网络科技有限公司 | 一种针对互联网信息情感倾向性的自动研判方法 |
CN118013963A (zh) * | 2024-04-09 | 2024-05-10 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
CN118013963B (zh) * | 2024-04-09 | 2024-06-21 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016081170A1 (en) * | 2014-11-20 | 2016-05-26 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN110472234A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 敏感文本识别方法、装置、介质和计算机设备 |
CN110674247A (zh) * | 2019-09-23 | 2020-01-10 | 广州虎牙科技有限公司 | 弹幕信息的拦截方法、装置、存储介质及设备 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
-
2020
- 2020-11-25 CN CN202011336483.4A patent/CN112434523B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016081170A1 (en) * | 2014-11-20 | 2016-05-26 | Oracle International Corporation | Automatic generation of contextual search string synonyms |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN110472234A (zh) * | 2019-07-19 | 2019-11-19 | 平安科技(深圳)有限公司 | 敏感文本识别方法、装置、介质和计算机设备 |
CN110674247A (zh) * | 2019-09-23 | 2020-01-10 | 广州虎牙科技有限公司 | 弹幕信息的拦截方法、装置、存储介质及设备 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
Non-Patent Citations (2)
Title |
---|
余敦辉等: "基于决策树的敏感词变形体识别算法研究及应用", 《计算机应用研究》 * |
周昊等: "基于改进音形码的中文敏感词检测算法", 《南京大学学报(自然科学)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158695A (zh) * | 2021-05-06 | 2021-07-23 | 上海极链网络科技有限公司 | 一种面向多语言混合文本的语义审核方法与系统 |
CN113535899A (zh) * | 2021-07-07 | 2021-10-22 | 西安康奈网络科技有限公司 | 一种针对互联网信息情感倾向性的自动研判方法 |
CN113535899B (zh) * | 2021-07-07 | 2024-02-27 | 西安康奈网络科技有限公司 | 一种针对互联网信息情感倾向性的自动研判方法 |
CN118013963A (zh) * | 2024-04-09 | 2024-05-10 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
CN118013963B (zh) * | 2024-04-09 | 2024-06-21 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112434523B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428044B (zh) | 多模态获取监管识别结果的方法、装置、设备及存储介质 | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
WO2021000497A1 (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN112434523B (zh) | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 | |
US20220147814A1 (en) | Task specific processing of regulatory content | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN113642316B (zh) | 中文文本纠错方法、装置、电子设备及存储介质 | |
Bizzoni et al. | “deep” learning: Detecting metaphoricity in adjective-noun pairs | |
CN109670050A (zh) | 一种实体关系预测方法及装置 | |
CN114372470B (zh) | 基于边界检测和提示学习的中文法律文本实体识别方法 | |
CN115292520B (zh) | 一种面向多源移动应用知识图谱构建方法 | |
CN113761883A (zh) | 一种文本信息识别方法、装置、电子设备及存储介质 | |
CN113158695A (zh) | 一种面向多语言混合文本的语义审核方法与系统 | |
CN113704410A (zh) | 情绪波动检测方法、装置、电子设备及存储介质 | |
CN115017879A (zh) | 文本对比方法、计算机设备及计算机存储介质 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN113076749A (zh) | 一种文本识别方法和系统 | |
CN117332073A (zh) | 基于特征融合的工业领域事件联合抽取方法、装置和设备 | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN116187304A (zh) | 一种基于改进bert的自动文本纠错算法及系统 | |
US9449277B2 (en) | Implication determining device, implication determining method and implication determining program determining if hypothesis is a new fact | |
CN115964997A (zh) | 选择题的混淆选项生成方法及装置、电子设备、存储介质 | |
CN115358287A (zh) | 基于异质图神经网络的新闻立场判别方法及系统 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |