CN112434522B - 一种降低敏感词误警率的文本审核后处理装置及方法 - Google Patents
一种降低敏感词误警率的文本审核后处理装置及方法 Download PDFInfo
- Publication number
- CN112434522B CN112434522B CN202011336476.4A CN202011336476A CN112434522B CN 112434522 B CN112434522 B CN 112434522B CN 202011336476 A CN202011336476 A CN 202011336476A CN 112434522 B CN112434522 B CN 112434522B
- Authority
- CN
- China
- Prior art keywords
- sensitive
- word
- text
- module
- local context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012805 post-processing Methods 0.000 title claims abstract description 17
- 238000012550 audit Methods 0.000 title claims description 27
- 238000012545 processing Methods 0.000 claims abstract description 71
- 230000011218 segmentation Effects 0.000 claims abstract description 59
- 238000001914 filtration Methods 0.000 claims abstract description 17
- 238000012552 review Methods 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 238000010276 construction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 7
- 238000013136 deep learning model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 241000393496 Electra Species 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种降低敏感词误警率的文本审核后处理装置及方法,所述装置包括:分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
Description
技术领域
本发明涉及文本审核技术领域,特别是涉及一种降低敏感词误警率的文本审核后处理装置及方法。
背景技术
随着计算机技术、网络技术的快速发展,诸多网络社交平台如微博、聊天论坛、视频弹幕等应运而生,这些网络平台持续产生海量的用户交互数据如文本数据、视频数据在丰富人们精神生活的同时,也给有效的信息审核和监管带来了困难。
典型的传统文本审核方法通常是基于敏感词对文本进行审核,这些基于敏感词的文本审核方法通常有以下几种类型:1)直接根据敏感词库对文本进行基于关键词的检索匹配审核;2)或者是先将敏感词映射为语义向量(如Word2Vec静态语义向量)后再与同样经过向量化的待审核文本中的词依次进行向量相似度计算,并在与预设阈值进行比较后决定报警与否,从而实现对敏感同义词进行审核的目的。
然而,以上从多种角度出发的传统审核方法虽然能够获得较高的召回率,但是也不可避免地造成了一定的误报,从而使文本审核系统的可用性降低,具体体现在:
一、基于敏感词直接检索匹配的方法的不足之处在于:
(a)该方法不具备分析语法单元的能力,可能存在不符合语法单元正确性时的误报警,如“黑夜总会过去”中对敏感词“夜总会”的误匹配;
(b)该方法不具备上下文分析能力,可能存在敏感词多义性时的误报警,如“计算机三级证书”中对敏感多义词“三级”的误报警;
二、基于语义向量进行匹配的方法(如Word2Vec静态语义向量)的不足之处在于:该方法可能因未考虑上下文信息导致对多义词的误匹配,如“树叶是黄色的”中的“黄色”对敏感词“色情”的同义词误匹配,等等。
因此,实有必要提出一种技术手段,以解决上述基于敏感词的文本审核方法的不足,提高文本审核系统的可用性,有效降低敏感词误警率。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种降低敏感词误警率的文本审核后处理装置及方法,以实现对基于敏感词直接匹配、基于敏感同义词匹配的多种不同角度的传统审核方法进一步审核过滤的目的,以达到降低误警率、提升文本审核系统可用性的效果。
为达上述及其它目的,本发明提出一种降低敏感词误警率的文本审核后处理装置,包括:
分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;
语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;
审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
优选地,所述装置还包括:
敏感多义词查询模块,用于对所述语法单元正确性审核模块审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,由所述审核结果判断输出模块根据所述敏感多义词查询模块的判断结果进行报警或过滤处理。
优选地,所述装置还包括:
局部上下文获取模块,用于在所述敏感多义词查询模块判断该敏感词为多义词时,基于所述待审核文本中标记为多义词的敏感词,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文;
特定词语单元替换模块,用于对经过局部上下文定位处理后的原始局部上下文,将文本中标记为多义词的敏感词替换为所述敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文;
语义一致性审核模块,用于将经过所述局部上下文获取模块局部上下文处理输出的原始局部上下文以及经所述特定词语单元替换模块得到的替换后的局部上下文同时输入已训练好的语义一致性模型进行审核,输出审核结果至所述审核结果判断输出模块,由所述审核结果判断输出模块根据所语义一致性审核模块的审核结果进行报警或过滤处理。
优选地,所述局部上下文获取模块基于所述待审核文本,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文。
优选地,所述装置还包括:
敏感词审核结果输入模块,用于输入对待审核文本的初步敏感词审核结果以及匹配类型,若其匹配类型为敏感词原型匹配,进入所述分词模块,若匹配类型为敏感同义词匹配,则进入所述局部上下文获取模块。
优选地,所述局部上下文获取模块对于确定为敏感同义词匹配的待审核文本,基于该待审核文本,分别定位该敏感同义词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感同义词的原始局部上下文;所述特定词语单元替换模块对经过所述局部上下文获取模块局部上下文定位处理后的原始局部上下文文本,将文本中的敏感同义词替换为敏感词库中的敏感词原型,则得到替换后的局部上下文文本。
优选地,所述装置还包括语义一致性模型训练模块,利用训练数据集对所述语义一致性模型进行训练,其训练步骤包括:
将包含敏感词的批量文本数据输入所述局部上下文获取模块后通过局部上下文处理后获得对应的原始局部上下文数据。
对经过局部上下文处理后的原始局部上下文,通过所述特定词语单元替换模块进行如下操作:
(a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后获得标签为语义一致的文本数据;
(b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换,在替换操作完成后,与替换前数据配对后获得标签为语义不一致的文本数据;
将以上所有标注数据输入初始化后的语义一致性模型进行训练。
优选地,所述装置还包括:
敏感多义消歧词库构建模块,用于在敏感词库的基础上构建敏感多义消歧词库。
优选地,若所述语法单元正确性审核模块输出的审核结果为不符合语法单元正确性,则所述审核结果判断输出模块对敏感词审核结果过滤处理;若所述敏感多义词查询模块输出的审核结果认为敏感词不是多义词,则所述审核结果判断输出模块进行报警处理;若所述语义一致性审核模块输出的审核结果认为原始文本的局部上下文与替换后的局部上下文的语义不一致,则所述审核结果判断输出模块对敏感词审核结果进行过滤处理,否则进行报警处理。
为达到上述目的,本发明还提供一种降低敏感词误警率的文本审核后处理方法,包括如下步骤:
步骤S1,对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;
步骤S2,根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;
步骤S3,根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
与现有技术相比,本发明具有如下有益效果:
一、本发明通过中文分词,从语法单元正确性的角度出发,来对不合理的敏感词匹配结果进行过滤,减少了直接检索匹配因不具备语法单元分析能力而带来的误报警;
二、本发明通过构建敏感多义消歧词库,可以进一步对敏感多义词结合上下文语境进行审核,从而减少因语境不相同带来的敏感多义词误报警;
三、本发明通过对敏感词替换前后的局部上下文语义一致性审核,来对替换后发生语义改变的结果进行过滤,其优点是既通过局部约束保留了对敏感词影响最大的上下文信息,又能够突出敏感词本身在上下文中的作用与影响,而且,使用基于具有上下文表征能力的深度学习模型(如BERT等)训练的语义一致性模型,能够有效避免不具备上下文适应能力的传统语义向量(如Word2Vec静态语义向量)相似度计算方法造成的误报警;
四、本发明无论是在敏感词直接匹配时的多义词审核,还是敏感同义词匹配时的审核,其局部上下文获取模块、特定词语单元替换模块、语义一致性审核模块是共享的,从而简化了系统架构复杂度。
附图说明
图1为本发明一种降低敏感词误警率的文本审核后处理装置的系统架构图;
图2为本发明一种降低敏感词误警率的文本审核后处理方法的步骤流程图;
图3为本发明实施例之降低敏感词误警率的文本审核后处理方法的流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种降低敏感词误警率的文本审核后处理装置的系统架构图。如图1所示,本发明一种降低敏感词误警率的文本审核后处理装置,包括:
敏感词审核结果输入模块101,用于输入待审核文本的敏感词审核结果以及匹配类型,根据匹配类型,相应地将匹配得到的敏感词审核结果转向不同的模块作进一步处理,在本发明具体实施例中,所述匹配类型包括但不限于敏感词原型匹配、敏感同义词匹配,也就是说,本发明是对现有技术中对待审核文本的敏感词审核结果的基础上的进一步处理,本发明基于的基础则是获得待审核文本的敏感词审核结果以及匹配类型,敏感词审核结果输入模块101则直接获取的是通过现有技术获得的审核结果和匹配类型,由于现有的敏感词审核技术不属于本发明的保护范围,在此不予赘述。
在本发明具体实施例中,假设待审核文本text,输入从待审核文本text中,基于敏感词库匹配得到敏感词审核结果,根据匹配类型(包括敏感词原型匹配、敏感同义词匹配),若为敏感词原型匹配,则转向分词模块102,若为敏感同义词匹配,则转向局部上下文获取模块105。
分词模块102,用于对待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表。
在本发明具体实施例中,假设输入中文的待审核文本text,对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex:
listindex=[0,index1,…,indexM]
上式中,M表示分词结果所包括的词语单元总数,索引的计数单位为字符。由于这里采用的是现有的中文分词处理技术,在此不予赘述。
语法单元正确性审核模块103,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核。具体地,若敏感词在待审核文本中的位置索引与分词模块分词结果中的语法单元索引相吻合,或者与分词结果中若干连续语法单元索引的边界相吻合,则认为该敏感词符合语法单元正确性,进入敏感多义词查询模块104,否则进入审核结果判断输出模块109。
在本发明具体实施例中,根据获得的现有的敏感词匹配审核结果,假设敏感词在文本中的起始位置索引为indexbegin,结束位置索引为indexend,如果indexbegin、indexend均为分词单元位置索引列表listindex中的元素,也即敏感词在文本中的位置索引与分词结果中的语法单元索引相吻合,或者与分词结果中若干连续语法单元索引的边界相吻合,则认为敏感词符合语法单元正确性,进入敏感多义词查询模块104,若审核结果为敏感词不符合语法单元正确性,则直接进入审核结果判断输出模块109。例如对待审核文本“黑夜总会过去”,其通过分词模块得到的分词结果为:“黑夜、总会、过去”,对敏感词“夜总会”进行语法单元正确性审核,则确定其不符合语法单元正确性,进入审核结果判断输出模块109,从而进行过滤处理
敏感多义词查询模块104,用于对语法单元正确性审核模块103审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,若为多义词,则进入局部上下文获取模块105,否则直接进入审核结果判断输出模块109。
具体地,本发明之降低敏感词误警率的文本审核处理装置,还包括:
敏感多义消歧词库构建模块100,用于在敏感词库的基础上构建敏感多义消歧词库。所述敏感多义消歧词库构建的具体步骤如下:对敏感词库中的每个敏感词,首先标记是否为多义词;若为多义词,则进一步添加在敏感语境下的同义词作为敏感多义消歧词,例如,对敏感多义词“三级”,列举其在敏感语境下的同义词“色情”;遍历敏感词库,从而完成对敏感多义消歧词库的构建。
在敏感多义词查询模块104中,对于经语法单元正确性审核模块103获得的符合语法单元正确性的敏感词,则将其与敏感多义消歧词库中的每个敏感词进行匹配,若所述敏感多义消歧词库中有标记为多义词的敏感词与其匹配,则说明该敏感词为多义词,否则不是多义词,若经语法单元正确性审核模块103获得的符合语法单元正确性的敏感词为多义词,则进入局部上下文获取模块105处理,否则进入审核结果判断输出模块109。
局部上下文获取模块105,用于基于待审核文本text中的指定词,分别定位该词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于指定词的原始局部上下文sub_text_1,所述指定词是指待审核文本text中标记为多义词的敏感词或敏感同义词。
具体地,对于经敏感多义词查询模块104确定为多义词的敏感词,基于其对应的待审核文本text,分别定位该词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文sub_text_1。
对于确定为敏感同义词匹配的待审核文本text,则基于该待审核文本text,分别定位敏感词同义词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词同义词的原始局部上下文sub_text_1
特定词语单元替换模块106,用于对经过局部上下文定位处理后的原始局部上下文,将文本中的敏感同义词或标记为多义词的敏感词替换为敏感词库中的敏感词原型或敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文。
在本发明具体实施例中,对于敏感同义词情形:对于经过局部上下文定位处理后的原始局部上下文文本sub_text_1,将文本中的敏感同义词替换为敏感词库中的敏感词原型,则进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2;对于敏感多义词情形:对于经过局部上下文定位处理后的原始局部上下文文本sub_text_1,将文本中标记为多义词的敏感词替换为敏感多义消歧词库中对应的敏感多义消歧词(若有多个则需重复进行替换),则进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2。
语义一致性审核模块107,用于将经过局部上下文获取模块105的局部上下文处理输出的原始局部上下文以及经特定词语单元替换模块106替换后的局部上下文同时输入已训练好的语义一致性模型进行审核,输出审核结果至审核结果判断输出模块109。
在本发明具体实施例中,所述语义一致性模型可以使用深度学习模型如TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT、GPT、T5、ELECTRA等,优选地,可使用BERT。为了使用所述语义一致性模型,本发明之降低敏感词误警率的文本审核处理装置,还包括:
语义一致性模型训练模块108,用于利用训练数据集对所述语义一致性模型进行训练。首先,利用包含敏感词的批量文本数据建立训练数据集,训练过程如下:
首先,将包含敏感词的批量文本数据输入局部上下文获取模块105后通过局部上下文处理后获得对应的原始局部上下文数据。
然后,对经过局部上下文处理后的原始局部上下文,通过特定词语单元替换模块107进行如下操作:
(a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后获得标签为“语义一致”的文本数据,需说明的是,该模块是为模型训练准备数据,同义词确定、上下文语境判断都由人工进行,这里不予赘述;
(b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换,在替换操作完成后,与替换前数据配对后获得标签为“语义不一致”的文本数据。例如对待审核文本“计算机三级证书”中的敏感词“三级”为多义词,则使用敏感词不在当前上下文语境里的同义词“黄色”进行替换,得到标签为“语义不一致”文本“计算机黄色证书”;对待审核文本“看色情电影”中的敏感词“色情”不是多义词,则使用不相关词例如“科幻”进行替换,得到标签为“语义不一致”的文本“看科幻电影”,
最后,将以上所有标注数据输入初始化后的语义一致性模型进行训练。
审核结果判断输出模块109,用于对语法单元正确性审核模块103、敏感多义词查询模块104以及语义一致性审核模块107输出的审核结果进行相应的处理。
具体地,若语法单元正确性审核模块103输出的审核结果为不符合语法单元正确性,则审核结果判断输出模块109对敏感词审核结果过滤处理;若敏感多义词查询模块104输出的审核结果认为敏感词不是多义词,则审核结果判断输出模块109进行报警处理;若语义一致性审核模块107输出的审核结果认为原始文本的局部上下文、经特定词语单元替换后的局部上下文二者的语义不一致,则审核结果判断输出模块109对敏感词审核结果进行过滤处理,否则进行报警处理,同时,审核结果判断输出模块109还可对上述处理结果进行输出和展示。
图2为本发明一种降低敏感词误警率的文本审核后处理方法的步骤流程图。如图2所示,本发明一种降低敏感词误警率的文本审核后处理方法,包括如下步骤:
步骤S1,对待审核文本,输入基于敏感词库进行匹配审核的结果以及匹配类型,若为敏感词原型匹配,则进入步骤S2,若为敏感同义词匹配,则进入步骤S5。在本发明具体实施例中,所述匹配类型包括但不限于敏感词原型匹配、敏感同义词匹配。
在本发明具体实施例中,假设待审核文本text,输入从待审核文本text中匹配得到的敏感词审核结果,以及匹配类型(包括敏感词原型匹配、敏感同义词匹配),若为敏感词原型匹配,则进入步骤S2,若为敏感同义词匹配,则进入步骤S5。
步骤S2,对待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表。
在本发明具体实施例中,假设输入中文的待审核文本text,对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表litindex:
listindex=[0,index1,…,indexM]
上式中,M表示分词结果所包括的词语单元总数,索引的计数单位为字符。由于这里采用的是现有的中文分词处理技术,在此不予赘述。
步骤S3,根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核。具体地,若敏感词在待审核文本中的位置索引与步骤S1分词结果中的语法单元索引相吻合,或者与分词结果中若干连续语法单元索引的边界相吻合,则认为该敏感词符合语法单元正确性,进入步骤S4,否则进入步骤S8。
在本发明具体实施例中,根据匹配结果,假设敏感词在文本中的起始位置索引为indexbegin,结束位置索引为indexend,如果indexbegin、indexend均为分词单元位置索引列表listindex中的元素,也即敏感词在文本中的位置索引与分词结果中的语法单元索引相吻合,或者与分词结果中若干连续语法单元索引的边界相吻合,则认为敏感词符合语法单元正确性,进入步骤S4,,若审核结果为敏感词不符合语法单元正确性,则直接进入步骤S8。
步骤S4,对步骤S3审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,若为多义词,则进入步骤S5,否则直接进入步骤S8。
具体地,本发明之降低敏感词误警率的文本审核处理方法,还包括:
步骤S0,用于在敏感词库的基础上构建敏感多义消歧词库。所述敏感多义消歧词库构建的具体步骤如下:对敏感词库中的每个敏感词,首先标记是否为多义词;若为多义词,则进一步列举在敏感语境下的同义词作为敏感多义消歧词,例如,对敏感多义词“三级”,列举其在敏感语境下的同义词“色情”;遍历敏感词库,从而完成对敏感多义消歧词库的构建。
也就是说,在步骤S4中,对于经步骤S3获得的符合语法单元正确性的敏感词,则将其与敏感多义消歧词库中的每个敏感词进行匹配,若所述敏感多义消歧词库中有标记为多义词的敏感词与其匹配,则说明该敏感词为多义词,否则不是多义词,若经步骤S3获得的符合语法单元正确性的敏感词为多义词,则进入步骤S5处理,否则进入步骤S8。
步骤S5,基于待审核文本text中的指定词,分别定位该词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于指定词的原始局部上下文sub_text_1,所述指定词是指待审核文本text中标记为多义词的敏感词或敏感同义词。
具体地,对于经敏感多义词查询模块104确定为多义词的敏感词,基于其对应的待审核文本text,分别定位该词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文sub_text_1。
对于确定为敏感同义词匹配的待审核文本text,则基于该待审核文本text,分别定位敏感词同义词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词同义词的原始局部上下文sub_text_1步骤S6,对经过局部上下文定位处理后的原始局部上下文,将文本中的敏感同义词或敏感词替换为敏感词库中的敏感词原型或敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文。
在本发明具体实施例中,对于敏感同义词情形:对于经过局部上下文定位处理后的原始局部上下文文本sub_text_1,将文本中的敏感同义词替换为敏感词库中的敏感词原型,则进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2;对于敏感多义词情形:对于经过局部上下文定位处理后的原始局部上下文文本sub_text_1,将文本中标记为多义词的敏感词替换为敏感多义消歧词库中对应的敏感多义消歧词,则进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2。
步骤S7,将经过步骤S5的局部上下文处理输出的原始局部上下文以及经步骤S6替换后的局部上下文同时输入已训练好的语义一致性模型进行审核。
在本发明具体实施例中,所述语义一致性模型可以使用深度学习模型如TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT、GPT、T5、ELECTRA等,优选地,可使用BERT,所述语义一致性模型的训练过程如下:
首先,将包含敏感词的批量文本数据输入局部上下文获取模块后通过局部上下文处理后获得对应的原始局部上下文数据。
然后,对经过局部上下文处理后的原始局部上下文,通过特定词语单元替换模块进行如下操作:
(a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后获得标签为“语义一致”的文本数据;
(b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换,在替换操作完成后,与替换前数据配对后获得标签为“语义不一致”的文本数据。
最后,将以上所有标注数据输入初始化后的语义一致性模型进行训练。
步骤S8,对步骤S3、步骤S4以及步骤S7输出的审核结果进行过滤或报警处理。
具体地,若步骤S3输出的审核结果为不符合语法单元正确性,则对敏感词审核结果过滤处理;若步骤S4输出的审核结果认为敏感词不是多义词,则进行报警处理;若步骤S7输出的审核结果认为原始文本的局部上下文、经特定词语单元替换后的局部上下文二者的语义不一致,则对敏感词审核结果进行过滤处理,否则进行报警处理,同时,还可对上述处理结果进行输出和展示。
实施例
如图3所示,在本实施例中,一种降低敏感词误警率的文本审核后处理方法,其步骤如下:
步骤1,向敏感词审核结果输入模块输入从待审核文本text中匹配得到的敏感词审核结果,以及匹配类型(包括敏感词原型匹配、敏感同义词匹配),并根据匹配类型,转向不同的模块作进一步处理:
1)如果是敏感词原型匹配,则转向分词模块;
2)如果是敏感同义词匹配,则转向局部上下文获取模块;
步骤2,利用分词模块对输入的待审核文本text进行中文分词处理,输出按先后顺序排列的分词单元位置索引列表listindex:
listindex=[0,index1,…,indexM]
上式中,M表示分词结果所包括的词语单元总数,索引的计数单位为字符。
步骤3,语法单元正确性审核模块根据分词模块输出的分词单元位置索引列表、敏感词在文本中的索引位置,对敏感词进行语法单元正确性审核,方法如下:
根据匹配结果,设敏感词在文本中的起始位置索引为indexbegin,结束位置索引为indexend。如果indexbegin、indexend均为分词单元位置索引列表listindex中的元素,也即敏感词在文本中的位置索引与分词结果中的语法单元索引相吻合,或者与分词结果中若干连续语法单元索引的边界相吻合,则认为敏感词符合语法单元正确性,并将审核结果输出至敏感多义词查询模块。
如果认为敏感词不满足语法单元正确性,则直接将审核结果输出至审核结果判断输出模块。
步骤4,敏感多义消歧词库构建模块在敏感词库的基础上进行高级处理,构建敏感多义消歧词库,方法如下:
1)对每个敏感词,首先标记是否为多义词;
2)如果是多义词,则还需进一步列举在敏感语境下的同义词作为敏感多义消歧词(举例,对敏感多义词“三级”,列举其在敏感语境下的同义词“色情”);
3)遍历敏感词库后,完成对敏感多义消歧词库的构建。
步骤5,利用敏感多义词查询模块从敏感多义消歧词库中查询该敏感词是否为多义词:
1)如果不是多义词,则直接将审核结果输出至审核结果判断输出模块;
2)如果是多义词,则将审核结果继续输出至局部上下文获取模块。
步骤6,局部上下文获取模块基于文本数据text中的指定词,分别定位该词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于指定词的局部上下文sub_text_1。
步骤7,特定词语单元替换模块对经过局部上下文定位处理后的原始局部上下文,将文本中的敏感词替换为敏感词库中的敏感词原型或敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文。其中:
对于敏感同义词情形:对于经过局部上下文定位处理后的文本sub_text_1,将文本中的敏感同义词替换为敏感词库中的敏感词原型,进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2。
对于敏感多义词情形:对于经过局部上下文定位处理后的文本sub-text_1,将文本中的敏感词替换为敏感多义消歧词,进一步得到经过特定词语单元替换后的局部上下文文本sub_text_2。
步骤8,构建语义一致性模型,语义一致性模型训练模块对语义一致性模型进行训练。
语义一致性模型的具体模型可以使用深度学习模型如TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT、GPT、T5、ELECTRA等,优选地,可使用BERT。训练步骤如下:
1)首先,将包含敏感词的批量文本数据输入局部上下文获取模块后获得对应的局部上下文数据;
2)然后,对局部上下文数据,通过特定词语单元替换模块进行如下操作:
(a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后获得标签为“语义一致”的文本数据;
(b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换。在替换操作完成后,与替换前数据配对后获得标签为“语义不一致”的文本数据;
3)最后,将以上所有标注数据输入初始化后的语义一致性模型进行训练。
步骤9,由语义一致性审核模块将经过局部上下文获取模块输出的sub_text_1、特定词语单元替换模块输出的sub_text_2二者同时输入已训练好的语义一致性模型进行审核,并将模型审核结果输出至审核结果判断输出模块。
步骤10,审核结果判断输出模块
1)如果语法单元正确性审核模块输出的审核结果认为不符合语法单元正确性,则对敏感词审核结果过滤处理;
2)如果敏感多义词查询模块输出的审核结果认为敏感词不是多义词,则作报警处理;
3)如果语义一致性审核模块输出的审核结果认为原始文本的局部上下文、经特定词语单元替换后的局部上下文二者的语义不一致,则对敏感词审核结果作过滤处理,否则作报警处理。
同时,对上述处理结果进行输出和展示。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种降低敏感词误警率的文本审核后处理装置,包括:
分词模块,用于对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;
语法单元正确性审核模块,用于根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;
审核结果判断输出模块,用于根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
2.如权利要求1所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:
敏感多义词查询模块,用于对所述语法单元正确性审核模块审核得到的符合语法单元正确性的敏感词,利用预先建立的敏感多义消歧词库判断其是否为多义词,由所述审核结果判断输出模块根据所述敏感多义词查询模块的判断结果进行报警或过滤处理。
3.如权利要求2所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:
局部上下文获取模块,用于在所述敏感多义词查询模块判断该敏感词为多义词时,基于所述待审核文本中标记为多义词的敏感词,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文;
特定词语单元替换模块,用于对经过局部上下文定位处理后的原始局部上下文,将文本中标记为多义词的敏感词替换为所述敏感多义消歧词库中对应的敏感多义消歧词,得到替换后的局部上下文;
语义一致性审核模块,用于将经过所述局部上下文获取模块局部上下文处理输出的原始局部上下文以及经所述特定词语单元替换模块得到的替换后的局部上下文同时输入已训练好的语义一致性模型进行审核,输出审核结果至所述审核结果判断输出模块,由所述审核结果判断输出模块根据所语义一致性审核模块的审核结果进行报警或过滤处理。
4.如权利要求3所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于:所述局部上下文获取模块基于所述待审核文本,分别定位该敏感词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感词的原始局部上下文。
5.如权利要求4所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:
敏感词审核结果输入模块,用于输入对待审核文本的初步敏感词审核结果以及匹配类型,若其匹配类型为敏感词原型匹配,进入所述分词模块,若匹配类型为敏感同义词匹配,则进入所述局部上下文获取模块。
6.如权利要求5所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于:所述局部上下文获取模块对于确定为敏感同义词匹配的待审核文本,基于该待审核文本,分别定位该敏感同义词前后最近邻的标点符号,并对前后最近邻标点符号之间的文本部分进行截取,得到对应于该敏感同义词的原始局部上下文;所述特定词语单元替换模块对经过所述局部上下文获取模块局部上下文定位处理后的原始局部上下文文本,将文本中的敏感同义词替换为敏感词库中的敏感词原型,则得到替换后的局部上下文文本。
7.如权利要求6所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括语义一致性模型训练模块,利用训练数据集对所述语义一致性模型进行训练,其训练步骤包括:
将包含敏感词的批量文本数据输入所述局部上下文获取模块后通过局部上下文处理后获得对应的原始局部上下文数据;
对经过局部上下文处理后的原始局部上下文,通过所述特定词语单元替换模块进行如下操作:
(a)使用敏感词在当前上下文语境里的同义词进行替换,并与替换前数据配对后获得标签为语义一致的文本数据;
(b)如果敏感词为多义词,则使用敏感词不在当前上下文语境里的同义词进行替换;如果敏感词不是多义词,则使用不相关词进行替换,在替换操作完成后,与替换前数据配对后获得标签为语义不一致的文本数据;
将以上所有标注数据输入初始化后的语义一致性模型进行训练。
8.如权利要求7所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于,所述装置还包括:
敏感多义消歧词库构建模块,用于在敏感词库的基础上构建敏感多义消歧词库。
9.如权利要求8所述的一种降低敏感词误警率的文本审核后处理装置,其特征在于:若所述语法单元正确性审核模块输出的审核结果为不符合语法单元正确性,则所述审核结果判断输出模块对敏感词审核结果过滤处理;若所述敏感多义词查询模块输出的审核结果认为敏感词不是多义词,则所述审核结果判断输出模块进行报警处理;若所述语义一致性审核模块输出的审核结果认为原始文本的局部上下文与替换后的局部上下文的语义不一致,则所述审核结果判断输出模块对敏感词审核结果进行过滤处理,否则进行报警处理。
10.一种降低敏感词误警率的文本审核后处理方法,包括如下步骤:
步骤S1,对已初步敏感词匹配审核的待审核文本进行分词处理,输出按先后顺序排列的分词单元位置索引列表;
步骤S2,根据敏感词在待审核文本中的索引位置以及获得的分词单元位置索引列表,对敏感词进行语法单元正确性审核;
步骤S3,根据语法单元正确性审核模块的审核结果进行过滤或报警处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336476.4A CN112434522B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011336476.4A CN112434522B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434522A CN112434522A (zh) | 2021-03-02 |
CN112434522B true CN112434522B (zh) | 2022-08-26 |
Family
ID=74699196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011336476.4A Expired - Fee Related CN112434522B (zh) | 2020-11-25 | 2020-11-25 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434522B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
CN113299036B (zh) * | 2021-05-10 | 2023-01-06 | 深圳市中恒嘉信息工程有限公司 | 一种智能化校园it运维及安全预警一体化平台的操作方法 |
CN114707489B (zh) * | 2022-03-29 | 2023-08-18 | 马上消费金融股份有限公司 | 标注数据集获取方法、装置、电子设备及存储介质 |
CN118013963B (zh) * | 2024-04-09 | 2024-06-21 | 四川易景智能终端有限公司 | 敏感词的识别和替换方法及其装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106682089A (zh) * | 2016-11-26 | 2017-05-17 | 山东大学 | 一种基于RNNs的短信自动安全审核的方法 |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
-
2020
- 2020-11-25 CN CN202011336476.4A patent/CN112434522B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521816A (en) * | 1994-06-01 | 1996-05-28 | Mitsubishi Electric Research Laboratories, Inc. | Word inflection correction system |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106682089A (zh) * | 2016-11-26 | 2017-05-17 | 山东大学 | 一种基于RNNs的短信自动安全审核的方法 |
CN107609103A (zh) * | 2017-09-12 | 2018-01-19 | 电子科技大学 | 一种基于推特的事件检测方法 |
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111723571A (zh) * | 2020-06-12 | 2020-09-29 | 上海极链网络科技有限公司 | 一种文本信息审核方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112434522A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434522B (zh) | 一种降低敏感词误警率的文本审核后处理装置及方法 | |
Gong et al. | Natural language inference over interaction space | |
CN110968699B (zh) | 一种基于事理推荐的逻辑图谱构建及预警方法和装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN112786194A (zh) | 基于人工智能的医学影像导诊导检系统、方法及设备 | |
Sun et al. | On the importance of building high-quality training datasets for neural code search | |
Rogers et al. | What’s in your embedding, and how it predicts task performance | |
CN111339269B (zh) | 模板自动生成的知识图谱问答训练及应用服务系统 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
WO2020074017A1 (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN106257455A (zh) | 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Hussein | Arabic document similarity analysis using n-grams and singular value decomposition | |
Bouarroudj et al. | Named entity disambiguation in short texts over knowledge graphs | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
CN112347271A (zh) | 基于文字语义识别的配电物联网设备缺陷辅助录入方法 | |
CN112633012A (zh) | 一种基于实体类型匹配的未登录词替换方法 | |
Portugal et al. | Nfrfinder: a knowledge based strategy for mining non-functional requirements | |
CN116244448A (zh) | 基于多源数据信息的知识图谱构建方法、设备及系统 | |
Rakhsha et al. | Detecting adverse drug reactions from social media based on multichannel convolutional neural networks modified by support vector machine | |
CN114388141A (zh) | 一种基于药物实体词掩码和Insert-BERT结构的药物关系抽取方法 | |
Devisree et al. | A hybrid approach to relationship extraction from stories | |
Ning | [Retracted] Natural Language Processing Technology Used in Artificial Intelligence Scene of Law for Human Behavior | |
Zhekova et al. | An Algorithm for Translation of a Natural Language Question into SQL Query. | |
Gashkov et al. | Improving the question answering quality using answer candidate filtering based on natural-language features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220826 |