CN118114660A - 文本检测方法、系统及计算机可读存储介质 - Google Patents
文本检测方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN118114660A CN118114660A CN202410256186.0A CN202410256186A CN118114660A CN 118114660 A CN118114660 A CN 118114660A CN 202410256186 A CN202410256186 A CN 202410256186A CN 118114660 A CN118114660 A CN 118114660A
- Authority
- CN
- China
- Prior art keywords
- text
- variant
- character
- word
- sensitive words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 106
- 238000012545 processing Methods 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims description 55
- 238000013507 mapping Methods 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 11
- 238000012550 audit Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000003058 natural language processing Methods 0.000 abstract description 11
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本检测方法、系统及计算机可读存储介质,该方法包括:对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。由此,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。进一步地,还可针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可实现任意逻辑敏感词的组合检测。
Description
技术领域
本发明涉及文本检测技术领域,尤其涉及一种文本检测方法、系统及计算机可读存储介质。
背景技术
目前,对于文本违规敏感词的变体检测,通常是将违规敏感词的变种加入到审核词库,通过提升匹配速率来进行大规模词库的审核,对于UGC(User Generated Content,用户生成内容)场景下,文本违规敏感词的变体形式的检测,由于UGC场景的变体违规敏感词变化多样层出不穷,采用现有的这种方案需要及时检索敏感词的变种并更新词库,导致人工成本较高。而且在UGC应用场景的文本审核实践中,存在用户利用文本变种和多样化组合的方式逃避违规敏感词审核的问题,导致违规敏感词检出率较低。
发明内容
本发明的主要目的在于提供一种文本检测方法、系统及计算机可读存储介质,旨在针对UGC应用场景,提高文本违规敏感词检出率的同时减少人力成本的投入。
为实现上述目的,本发明提供一种文本检测方法,所述方法包括:
对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;
基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;
将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。
可选地,所述方法还包括:
利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除。
可选地,所述对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表的步骤包括:
对待审核的原文本进行繁体字简化和字母小写化;
利用正则表达式检索文本中的空白字符串,获得所述空白字符串在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用预设的图标转义库中配置的图标-含义转换表,检索文本中的待转义图标,获得所述待转义图标在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的字母串,并将所述字母串根据中文汉字拼音或者拼音首字母进行分割,获得汉字拼音或拼音首字母在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的数字串,获得数字串在原文本中的起始索引位置和逻辑处理字符的映射关系;
根据所述起始索引位置和逻辑处理字符的映射关系,以及繁体字简化和字母小写化后的文本,获得原文本的完整逻辑处理字符列表;
利用预设的汉字信息库中配置的汉字分元-汉字转换表,检索所述原文本的完整逻辑处理字符列表中两个汉字分元逻辑处理字符,并合并处理为一个逻辑处理字符,得到最终的逻辑处理字符列表。
可选地,所述审核词库包括敏感词词库,所述基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词的步骤包括:
将所述逻辑处理字符列表中的逻辑处理字符依次和所述敏感词词库中的敏感词的单字符列表进行滑动比较,判断两个字符是否为变体相似;
若判断整个敏感词和逻辑处理字符列表中的逻辑处理字符序列为变体相似,则命中违规变体文本,得到命中的变体违规敏感词。
可选地,判断两个字符为变体相似的规则包括以下至少一项:
一个逻辑处理字符的预处理文本和敏感词中的字符相同时,判定为相同;
一个逻辑处理字符的预处理文本是敏感词中汉字拼音的首字母时,判定为首字母替换变体相似;
一个逻辑处理字符的预处理文本是敏感词中汉字的形近字时,判定为形近字变体相似;
一个逻辑处理字符的预处理文本的汉字发音与敏感词中汉字的发音相同或相似时,判定为同音字或音近字变体相似。
可选地,所述发音相同或相似的判定规则包括以下至少一项:
若声母、韵母、声调相同,则判定发音相同;
若声母、韵母相同,声调不同,则判定发音相似;
若声母不同且仅为卷翘舌的不同,韵母、声调相同,则判定为发音相似;
若声母相同,韵母不同且仅为前后鼻音的不同,声调相同,则判定为发音相似。
可选地,所述将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词的步骤包括:
根据获得的变体相似逻辑处理字符序列中首尾逻辑处理字符记录的索引位置信息,截取原文本中首逻辑处理字符中记录的原文本的起始索引位置到尾逻辑处理字符中记录的原文本的结束索引位置,得到返回的原文本中的违规文本。
可选地,所述利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除的步骤包括:
利用自定义分词词库对所述原文本中命中的变体违规敏感词进行匹配;
若命中的变体违规敏感词和自定义分词词库中的敏感词完全相同,则保留命中的变体违规敏感词;
若命中的变体违规敏感词和自定义分词词库中的敏感词不完全相同,则利用文本分词工具对命中的非违规敏感词本身的变体违规敏感词进行分词并处理,生成变体违规敏感词分词处理文本;
对原文本进行分词并处理,生成原始文本分词处理文本;
若命中的非违规敏感词本身的变体违规敏感词为非全首字母相似的文本,且所述原始文本分词处理文本中包含变体违规敏感词分词处理文本,则保留命中的变体违规敏感词;
其余情况命中的变体违规敏感词皆过滤排除。
可选地,所述方法还包括:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测。
可选地,所述响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测的步骤包括:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于组合匹配模式预处理及自动机多模式匹配机制进行多个逻辑敏感词的组合检测。
本发明实施例还提出一种文本检测系统,所述文本检测系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本检测程序,所述文本检测程序被所述处理器执行时实现如上所述的文本检测方法的步骤。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本检测程序,所述文本检测程序被处理器执行时实现如上所述的文本检测方法的步骤。
本发明实施例提出的文本检测方法、系统及计算机可读存储介质,通过对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。由此,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。进一步地,本发明方案,还可以针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可以基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
附图说明
图1为本发明文本检测装置所属终端设备的功能模块示意图;
图2为本发明文本检测方法第一实施例的流程示意图;
图3为本发明实施例涉及的变体词检测策略的流程示意图;
图4为本发明文本检测方法第二实施例的流程示意图;
图5为本发明文本检测方法第三实施例的流程示意图;
图6为本发明实施例涉及的组合词检测策略中构建的完整自动机的架构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:利用自然语言处理技术,实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。进一步地,本发明方案,还可以针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,可以借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可以基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
本发明实施例涉及的技术术语:
UGC,全称为User Generated Content,含义为用户生成内容,即用户原创内容。UGC的概念最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。UGC是伴随着以提倡个性化为主要特点的Web2.0概念兴起的,也可叫做UCC(User-created Content)。它并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。随着互联网运用的发展,网络用户的交互作用得以体现,用户既是网络内容的浏览者,也是网络内容的创造者。
AC自动机,全称Aho-Corasick automaton,Aho Corasick自动机,是1975由贝尔实验室发明的一种多模式匹配的算法。常用于给定多个模式串并要求匹配的一类问题中。
例如,由一个问题开始:给出m个字符串,再给出一个字符串S,问:S中出现了多少次前面给出的字符串?
算法流程:首先用最开始的m个字符串建立Trie,每一个节点包含,然后就到了AC自动机最经典的部分,fail指针的构造。这个fail指针就相当于KMP算法中的next数组,它表示了如果当前发生了失配,下一个匹配的位置就是当前节点的fail指向的位置。这里的fail指针也表示的是:和当前节点表示的后缀匹配的最长前缀的位置。可以用BFS找出每一个节点的fail指针指向的位置。显然,根节点以及与根节点直接相连接的点的fail指针是指向根节点的,其余节点则是从其父节点的fail指针指向的位置出发,一直到当前节点存在表示这个字符的子节点或者到根节点为止。匹配过程则是和KMP算法类似,如果与当前节点匹配成功,就继续向子节点匹配,如果不成功,则沿着fail指针继续匹配。其余细节与Trie基本相同。
Double-array trie算法:双数组Trie树(double-array Trie,DAT),也叫双数组前缀树,是一种Trie树的高效实现,兼顾了查询效率和空间存储。DAT本质是一个有限状态自动机,需要构建一些状态,来表达状态的自动转移。
DAT双数组计算过程:
DAT本质还是在表达一棵树结构,其中的parent与next-children的概念是相通的。给任意一个字符串赋一个状态,添加一个字符导致进入一个新的状态。前后两个状态可以理解为树中二个相邻的节点,而边为输入字符。那么goto(s,c)=t函数表示状态s的字符串添加一个新的字符c,而进入新的状态t。
比如,当前字符串状态为s,在s状态下添加了一个字符c后进入状态t。二个一维数组满足如下转移方程:
base[s]+c=t
check[t]=s。
本发明实施例考虑到:由于UGC场景的变体违规敏感词变化多样层出不穷,采用现有的文本违规敏感词的变体检测方法,需要及时检索敏感词的变种并更新词库,导致人工成本较高;而且在UGC应用场景的文本审核实践中,存在用户利用文本变种和多样化组合的方式逃避违规敏感词审核的问题。其常用的文本变体方式多种多样,常见的有:简体汉字转繁体汉字,大小写杂糅,音近字形近字替换,图标替换汉字,汉字拼音替换汉字,汉字拼音首字母替换汉字,汉字拆分组合,穿插空白字符或者其他标点符号以及前述多种变体形式组合等等方式。由此,本发明方案利用自然语言处理技术实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。
此外,本发明实施例还考虑到:目前,在实际审核过程中存在需要多个敏感词逻辑组合进行审核的需求,如“多个词同时出现”、“单个或多个词出现,单个或多个指定词不出现”等。针对组合词进行检测,首先会基于多个Map同时进行遍历后根据规则进行排列组合比对。但此方案存在两个明显问题,一是基于Map的存储方式在面对海量策略库时会造成内存占用过高;二是基于遍历匹配的方式使得审核耗时大幅增加。为此,本发明方案借助AhoCorasick自动机(Aho-Corasick-Autonmanton,AC自动机)结合Double Array Trie算法实现字符串模式匹配机制,实现多模式匹配的同时保证内存可控,最后基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
具体地,参照图1,图1为本发明文本检测装置所属终端设备的功能模块示意图。该文本检测装置可以为独立于终端设备的装置,其可以通过硬件或软件的形式承载于终端设备或系统上。该终端设备可以为手机、平板电脑等智能移动终端,还可以为服务器等网络设备。
在本实施例中,该文本检测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及文本检测程序;输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,作为一种实施例方式,存储器130中的文本检测程序被处理器执行时实现以下步骤:
对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;
基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;
将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
对待审核的原文本进行繁体字简化和字母小写化;
利用正则表达式检索文本中的空白字符串,获得所述空白字符串在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用预设的图标转义库中配置的图标-含义转换表,检索文本中的待转义图标,获得所述待转义图标在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的字母串,并将所述字母串根据中文汉字拼音或者拼音首字母进行分割,获得汉字拼音或拼音首字母在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的数字串,获得数字串在原文本中的起始索引位置和逻辑处理字符的映射关系;
根据所述起始索引位置和逻辑处理字符的映射关系,以及繁体字简化和字母小写化后的文本,获得原文本的完整逻辑处理字符列表;
利用预设的汉字信息库中配置的汉字分元-汉字转换表,检索所述原文本的完整逻辑处理字符列表中两个汉字分元逻辑处理字符,并合并处理为一个逻辑处理字符,得到最终的逻辑处理字符列表。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
将所述逻辑处理字符列表中的逻辑处理字符依次和所述敏感词词库中的敏感词的单字符列表进行滑动比较,判断两个字符是否为变体相似;
若判断整个敏感词和逻辑处理字符列表中的逻辑处理字符序列为变体相似,则命中违规变体文本,得到命中的变体违规敏感词。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
一个逻辑处理字符的预处理文本和敏感词中的字符相同时,判定为相同;
一个逻辑处理字符的预处理文本是敏感词中汉字拼音的首字母时,判定为首字母替换变体相似;
一个逻辑处理字符的预处理文本是敏感词中汉字的形近字时,判定为形近字变体相似;
一个逻辑处理字符的预处理文本的汉字发音与敏感词中汉字的发音相同或相似时,判定为同音字或音近字变体相似。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
若声母、韵母、声调相同,则判定发音相同;
若声母、韵母相同,声调不同,则判定发音相似;
若声母不同且仅为卷翘舌的不同,韵母、声调相同,则判定为发音相似;
若声母相同,韵母不同且仅为前后鼻音的不同,声调相同,则判定为发音相似。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
根据获得的变体相似逻辑处理字符序列中首尾逻辑处理字符记录的索引位置信息,截取原文本中首逻辑处理字符中记录的原文本的起始索引位置到尾逻辑处理字符中记录的原文本的结束索引位置,得到返回的原文本中的违规文本。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
利用自定义分词词库对所述原文本中命中的变体违规敏感词进行匹配;
若命中的变体违规敏感词和自定义分词词库中的敏感词完全相同,则保留命中的变体违规敏感词;
若命中的变体违规敏感词和自定义分词词库中的敏感词不完全相同,则利用文本分词工具对命中的非违规敏感词本身的变体违规敏感词进行分词并处理,生成变体违规敏感词分词处理文本;
对原文本进行分词并处理,生成原始文本分词处理文本;
若命中的非违规敏感词本身的变体违规敏感词为非全首字母相似的文本,且所述原始文本分词处理文本中包含变体违规敏感词分词处理文本,则保留命中的变体违规敏感词;
其余情况命中的变体违规敏感词皆过滤排除。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测。
进一步地,存储器130中的文本检测程序被处理器执行时还实现以下步骤:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于组合匹配模式预处理及自动机多模式匹配机制进行多个逻辑敏感词的组合检测。
本实施例通过上述方案,具体通过对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。由此,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。进一步地,本发明方案,还可以针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,可以借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可以基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
本发明实施例设计一种检测UGC场景文本违规敏感词的变体形式的方法,本实施例方案可以适用于UGC应用场景的文本审核。
具体地,参照图2,图2为本发明文本检测方法第一实施例的流程示意图。
如图2所示,本发明实施例提出的一种文本检测方法,所述方法包括以下步骤:
步骤S101,对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;
其中,待审核文本可以是UGC应用场景需要审核的原始文本(以下简称原文本)。
为了检测UGC场景文本违规敏感词的变体形式,本发明方案整体可以包括两部分策略,一部分是变体词检测策略,另一部分是组合词检测策略。本实施例主要针对变体词检测策略进行阐述。
其中,变体词检测策略的流程可以分为四个部分:文本预处理+变体字符匹配+预处理文本还原+误检过滤。其具体流程可以如图3所示,图3为本发明实施例涉及的变体词检测策略的流程示意图。
本实施例主要针对文本预处理、变体字符匹配以及预处理文本还原的流程进行详细阐述。
其中,文本预处理实现繁简转化、字母小写化、空格消除、图标转义、数字聚合、汉字拆字复原,汉字拼音或拼音首字母检索和分割并实现预处理过程中字符变化信息生成待审核文本的逻辑处理字符列表。
变体字符匹配是将预处理阶段生成的逻辑处理字符列表和违规敏感词词库中的敏感词从多个角度进行变体相似性比较。
预处理文本还原则是将命中的预处理过后的变体违规敏感词还原成原文本。
在本实施例中,设计了一个逻辑处理字符实体类CharBean用于文本预处理和处理文本还原,包含五个私有属性,分别是:原文本;预处理文本;预处理文本在原文本中起始位置的下标;预处理文本在原文本中结束位置的下标;字符拼音(记录汉字的拼音,非汉字字符则设置为none)。
具体地,在本实施例中,在文本预处理阶段,首先对获取的待审核文本的原文本进行预处理,生成待审核文本的逻辑处理字符列表,以便对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感。
其中,作为一种实施方式,所述对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表的步骤可以包括:
首先,对待审核的原文本进行繁体字简化和字母小写化;
然后,利用正则表达式检索文本中的空白字符串,获得所述空白字符串在原文本中的起始索引位置和逻辑处理字符的映射关系;
然后,利用预设的图标转义库中配置的图标-含义转换表,检索文本中的待转义图标,获得所述待转义图标在原文本中的起始索引位置和逻辑处理字符的映射关系;
然后,利用正则表达式检索文本中的字母串,并将所述字母串根据中文汉字拼音或者拼音首字母进行分割,获得汉字拼音或拼音首字母在原文本中的起始索引位置和逻辑处理字符的映射关系;
然后,利用正则表达式检索文本中的数字串,获得数字串在原文本中的起始索引位置和逻辑处理字符的映射关系;
然后,根据所述起始索引位置和逻辑处理字符的映射关系,以及繁体字简化和字母小写化后的文本,获得原文本的完整逻辑处理字符列表;
最后,利用预设的汉字信息库中配置的汉字分元-汉字转换表,检索所述原文本的完整逻辑处理字符列表中两个汉字分元逻辑处理字符,并合并处理为一个逻辑处理字符,得到最终的逻辑处理字符列表。
步骤S102,基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;
在变体字符匹配阶段,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词。
其中,审核词库可以包括预设的敏感词词库。
具体地,作为一种实施方式,对所述逻辑处理字符列表进行变体字符匹配可以采用如下方案:
将所述逻辑处理字符列表中的逻辑处理字符依次和所述敏感词词库中的敏感词的单字符列表进行滑动比较,判断两个字符是否为变体相似;
若判断整个敏感词和逻辑处理字符列表中的逻辑处理字符序列为变体相似,则命中违规变体文本,得到命中的变体违规敏感词。
更为具体地,首先,将敏感词的第一个字符与原文本的逻辑处理字符列表中的第一个预处理文本为非标点的逻辑处理字符进行比较。
根据上述变体相似规则,判断比较的两个字符是否为变体相似,若相似,则将敏感词取下一个字符,比较逻辑处理字符取列表中下一个预处理文本为非标点的逻辑处理字符;若不相似,则重新取敏感词的第一个字符与逻辑处理字符列表的下一个预处理文本为非标点的逻辑处理字符。重复前述比较过程,若判断整个敏感词和原文本中的逻辑处理字符序列为变体相似,则命中违规变体文本。
其中,判断两个字符为变体相似的规则包括以下至少一项:
一个逻辑处理字符的预处理文本和敏感词中的字符相同时,判定为相同;
一个逻辑处理字符的预处理文本是敏感词中汉字拼音的首字母时,判定为首字母替换变体相似;
一个逻辑处理字符的预处理文本是敏感词中汉字的形近字时,判定为形近字变体相似;
一个逻辑处理字符的预处理文本的汉字发音与敏感词中汉字的发音相同或相似时,判定为同音字或音近字变体相似。
其中,发音相同或相似的判定规则包括以下至少一项:
若声母、韵母、声调相同,则判定发音相同;
若声母、韵母相同,声调不同,则判定发音相似;
若声母不同且仅为卷翘舌的不同,韵母、声调相同,则判定为发音相似;
若声母相同,韵母不同且仅为前后鼻音的不同,声调相同,则判定为发音相似。
步骤S103,将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。
在预处理文本还原阶段,将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。
具体地,作为一种实施方式,将命中的变体违规敏感词还原成原文本,可以采用如下方案:
根据获得的变体相似逻辑处理字符序列中首尾逻辑处理字符记录的索引位置信息,截取原文本中首逻辑处理字符中记录的原文本的起始索引位置到尾逻辑处理字符中记录的原文本的结束索引位置,得到返回的原文本中的违规文本。
也就是说,根据获得的变体相似逻辑处理字符串序列中首尾逻辑处理字符记录的索引位置信息返回原文本中的违规文本,计算方法为截取原文本中首逻辑处理字符中记录的原文本的起始索引位置到尾逻辑处理字符中记录的原文本的结束索引位置。
本实施例通过上述方案,具体通过对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。由此,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。
如前所述,在UGC应用场景的文本审核实践中,存在用户利用文本变种和多样化组合的方式逃避违规敏感词审核的问题。其常用的文本变体方式多种多样,常见的有:简体汉字转繁体汉字,大小写杂糅,音近字形近字替换,图标替换汉字,汉字拼音替换汉字,汉字拼音首字母替换汉字,汉字拆分组合,穿插空白字符或者其他标点符号以及前述多种变体形式组合等等方式。本实施例利用自然语言处理技术实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。
参照图4,图4为本发明文本检测方法第二实施例的流程示意图。
如图4所示,本发明第二实施例提出的一种文本检测方法,基于上述图2所示的实施例,所述方法还包括:
步骤S104,利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除。
其中,误检过滤是利用文本分词工具和自定义分词词库对命中的违规敏感词误检做判断并进行过滤处理。
参照图3所示,由于本实施例设计的违规敏感词变体检测方案通过规则检索潜在的违规敏感词,在提升检出能力的同时不可避免地会产生误检,所以需要对误检进行识别和过滤。
考虑到由于绝大部分的违规敏感词变体本身的逻辑性低,所以本实施例设计了一种利用分词工具过滤误检的方法,具体方案如下:
首先,利用自定义分词词库对所述原文本中命中的变体违规敏感词进行匹配;
若命中的变体违规敏感词和自定义分词词库中的敏感词完全相同,则保留命中的变体违规敏感词;
若命中的变体违规敏感词和自定义分词词库中的敏感词不完全相同,则利用文本分词工具对命中的非违规敏感词本身的变体违规敏感词进行分词并处理,生成变体违规敏感词分词处理文本;
其中,对非违规敏感词本身的变体违规敏感词进行分词,消除分词列表中长度大于1的词语,保留字母、字母串、数字和空白字符,再拼接成文本生成变体违规敏感词分词处理文本。
然后,采用如上同样的方法,对原文本进行分词并处理,生成原始文本分词处理文本;
若命中的非违规敏感词本身的变体违规敏感词为非全首字母相似的文本,且所述原始文本分词处理文本中包含变体违规敏感词分词处理文本,则保留命中的变体违规敏感词;
其余情况命中的变体违规敏感词皆过滤排除。
本实施例通过上述方案,具体通过对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词;进一步地,利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除。由此,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入,而且对误检进行识别和过滤,对判断误检的变体违规敏感词进行过滤排除,提高了变体违规敏感词的检测准确性。
参照图5,图5为本发明文本检测方法第二实施例的流程示意图。
如图5所示,本发明第二实施例提出的一种文本检测方法,基于上述图2所示的实施例,所述方法还包括:
步骤S105,响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测。
相比上述图2所示的实施例,本实施例还包括:基于预设的组合词检测策略实现任意逻辑敏感词的组合检测的方案。
在本实施例中,响应于对多个敏感词逻辑组合进行审核的需求指令,基于组合匹配模式预处理及自动机多模式匹配机制进行多个逻辑敏感词的组合检测。
具体地,组合词检测策略分为两部分流程,即组合匹配模式预处理+AC自动机多模式匹配查找。其中:
组合匹配模式预处理阶段:
抽象出“且”、“非”来设计组合词模式敏感词的存储方案,由特定符号“﹁”表示组合词模式中指定词语不出现,由“,”连接符表示出现词语和不出现词语的“且”关系,保障程序可读的同时,实现组合词最小化内存占用。
AC自动机多模式匹配查找阶段:
通过AC自动机算法实现,AC自动机算法是通过将模式串预处理为确定有限状态自动机,扫描一遍文本就能结束对应信息的查找,其复杂度为O(n),与模式串的数量和长度无关。
针对审核场景存在众多组合敏感词的情况,利用此种算法会大大提升查找效率。如文本为“ushers”,模式串包含“he/she/his/hers”,其构建的完整自动机可以如图6所示,图6为本发明实施例涉及的组合词检测策略中构建的完整自动机的架构示意图。
如图6所示,自动机从根节点0出发,自动机多模式匹配过程如下:
(1)首先尝试按success表转移(如图6中实线所示)。按照文本的指示转移,接收一个u。此时success表中并没有相应路线,转移失败。
(2)失败了则按照failure表回去(如图6中虚线所示)。按照文本指示,接收一个s,转移到状态7。
(3)成功了则继续按success表转移,直到失败跳转步骤2,或者遇到output表中标明的“可输出状态”。此时输出匹配到的模式串,然后将此状态视作普通的状态继续转移。
其中,AC自动机核心就是建立对应的Trie(字典树),结合Double Array Trie实现字符串模式匹配的机制,直接通过基于数组进行output、success、fail表的存储,实现内存消耗可控的同时实现多模式匹配,满足审核场景下的实时需要。
在业务策略多模式命中后,将业务字符通过状态Map的方式,将策略数据进一步整合,建立(关键字->模式串list)的映射模式,保证相同词语不会重复进行匹配确认,加速组合词场景下的命中输出。具体流程如下:
首先,将全部的组合词数据进行词语汇总,建立统一的WordSet后灌入AC自动机,实现Trie树的初始化生成。
然后,基于(关键字->模式串list)的模式,将每种组合词的第一个字符作为关键字进行模式整理,生成andWordPatternMap、notWordPatternMap分别作为存在词语映射、非存在词语映射,满足后续快速匹配需要。
然后,针对输入文本数据,基于预生成的Tire树进行匹配词检索,输出全部命中词语的list。
最后,基于命中的list词语进行遍历确认,将andWordPatternMap、notWordPatternMap中对应词语命中,及对应list满足的模式进行反馈输出。其中,模式串list中通过“﹁”特定符号作为剔除词语的标识,判断时仅需进行是否存在判断即可。
本实施例通过上述方案,具体通过对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词;利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除;此外,对于多个敏感词逻辑组合进行审核的需求场景,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测。从而,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入,对误检进行识别和过滤,对判断误检的变体违规敏感词进行过滤排除,提高了变体违规敏感词的检测准确性。进一步地,本发明方案,还可以针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可以基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
相比现有技术相比,本发明方案具有如下优点:
本发明利用自然语言处理技术实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入;利用AC自动机和Trie字典树实现任意逻辑敏感词的组合检测,占用内存小,检测速率快。
此外,本发明实施例还提出一种文本检测系统,所述文本检测系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本检测程序,所述文本检测程序被所述处理器执行时实现如上实施例所述的文本检测方法的步骤。
本发明文本检测系统的实现原理,可以参照上述各实施例,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本检测程序,所述文本检测程序被处理器执行时实现如上实施例所述的文本检测方法的步骤。
由于本文本检测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本发明实施例方案,利用自然语言处理技术,可以实现UGC场景中绝大部分任意变体方式逻辑组合的违规文本的拦截,能在提高违规敏感词检出率的同时减少人力成本的投入。此外,还可以针对实际审核过程中存在多个敏感词逻辑组合进行审核的需求,可以借助自动机结合字符串模式匹配机制,实现多模式匹配的同时保证内存可控,并可以基于自主策略Pattern进行命中输出,实现任意逻辑敏感词的组合检测。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台推荐效果评价系统(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种文本检测方法,其特征在于,所述方法包括:
对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表;
基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词;
将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除。
3.根据权利要求2所述的方法,其特征在于,所述对待审核文本进行预处理,生成待审核文本的逻辑处理字符列表的步骤包括:
对待审核的原文本进行繁体字简化和字母小写化;
利用正则表达式检索文本中的空白字符串,获得所述空白字符串在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用预设的图标转义库中配置的图标-含义转换表,检索文本中的待转义图标,获得所述待转义图标在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的字母串,并将所述字母串根据中文汉字拼音或者拼音首字母进行分割,获得汉字拼音或拼音首字母在原文本中的起始索引位置和逻辑处理字符的映射关系;
利用正则表达式检索文本中的数字串,获得数字串在原文本中的起始索引位置和逻辑处理字符的映射关系;
根据所述起始索引位置和逻辑处理字符的映射关系,以及繁体字简化和字母小写化后的文本,获得原文本的完整逻辑处理字符列表;
利用预设的汉字信息库中配置的汉字分元-汉字转换表,检索所述原文本的完整逻辑处理字符列表中两个汉字分元逻辑处理字符,并合并处理为一个逻辑处理字符,得到最终的逻辑处理字符列表。
4.根据权利要求3所述的方法,其特征在于,所述审核词库包括敏感词词库,所述基于预设的审核词库,对所述逻辑处理字符列表进行变体字符匹配,得到命中的变体违规敏感词的步骤包括:
将所述逻辑处理字符列表中的逻辑处理字符依次和所述敏感词词库中的敏感词的单字符列表进行滑动比较,判断两个字符是否为变体相似;
若判断整个敏感词和逻辑处理字符列表中的逻辑处理字符序列为变体相似,则命中违规变体文本,得到命中的变体违规敏感词。
5.根据权利要求4所述的方法,其特征在于,判断两个字符为变体相似的规则包括以下至少一项:
一个逻辑处理字符的预处理文本和敏感词中的字符相同时,判定为相同;
一个逻辑处理字符的预处理文本是敏感词中汉字拼音的首字母时,判定为首字母替换变体相似;
一个逻辑处理字符的预处理文本是敏感词中汉字的形近字时,判定为形近字变体相似;
一个逻辑处理字符的预处理文本的汉字发音与敏感词中汉字的发音相同或相似时,判定为同音字或音近字变体相似。
6.根据权利要求5所述的方法,其特征在于,所述发音相同或相似的判定规则包括以下至少一项:
若声母、韵母、声调相同,则判定发音相同;
若声母、韵母相同,声调不同,则判定发音相似;
若声母不同且仅为卷翘舌的不同,韵母、声调相同,则判定为发音相似;
若声母相同,韵母不同且仅为前后鼻音的不同,声调相同,则判定为发音相似。
7.根据权利要求4所述的方法,其特征在于,所述将命中的变体违规敏感词还原成原文本,得到原文本中的变体违规敏感词的步骤包括:
根据获得的变体相似逻辑处理字符序列中首尾逻辑处理字符记录的索引位置信息,截取原文本中首逻辑处理字符中记录的原文本的起始索引位置到尾逻辑处理字符中记录的原文本的结束索引位置,得到返回的原文本中的违规文本。
8.根据权利要求2所述的方法,其特征在于,所述利用文本分词工具和自定义分词词库对所述原文本中命中的变体违规敏感词进行误检判断,对判断误检的变体违规敏感词进行过滤排除的步骤包括:
利用自定义分词词库对所述原文本中命中的变体违规敏感词进行匹配;
若命中的变体违规敏感词和自定义分词词库中的敏感词完全相同,则保留命中的变体违规敏感词;
若命中的变体违规敏感词和自定义分词词库中的敏感词不完全相同,则利用文本分词工具对命中的非违规敏感词本身的变体违规敏感词进行分词并处理,生成变体违规敏感词分词处理文本;
对原文本进行分词并处理,生成原始文本分词处理文本;
若命中的非违规敏感词本身的变体违规敏感词为非全首字母相似的文本,且所述原始文本分词处理文本中包含变体违规敏感词分词处理文本,则保留命中的变体违规敏感词;
其余情况命中的变体违规敏感词皆过滤排除。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述方法还包括:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测。
10.根据权利要求9所述的方法,其特征在于,所述响应于对多个敏感词逻辑组合进行审核的需求指令,基于预设的组合词检测策略进行多个逻辑敏感词的组合检测的步骤包括:
响应于对多个敏感词逻辑组合进行审核的需求指令,基于组合匹配模式预处理及自动机多模式匹配机制进行多个逻辑敏感词的组合检测。
11.一种文本检测系统,其特征在于,所述文本检测系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本检测程序,所述文本检测程序被所述处理器执行时实现如权利要求1至10中任一项所述的文本检测方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文本检测程序,所述文本检测程序被处理器执行时实现如权利要求1至10中任一项所述的文本检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256186.0A CN118114660A (zh) | 2024-03-06 | 2024-03-06 | 文本检测方法、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410256186.0A CN118114660A (zh) | 2024-03-06 | 2024-03-06 | 文本检测方法、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118114660A true CN118114660A (zh) | 2024-05-31 |
Family
ID=91210379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410256186.0A Pending CN118114660A (zh) | 2024-03-06 | 2024-03-06 | 文本检测方法、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118114660A (zh) |
-
2024
- 2024-03-06 CN CN202410256186.0A patent/CN118114660A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
US9195738B2 (en) | Tokenization platform | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
US8645350B2 (en) | Dictionary compilations | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
US20120143897A1 (en) | Wild Card Auto Completion | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
US20200210441A1 (en) | System and method of database creation through form design | |
CN111209753B (zh) | 一种实体命名识别方法及装置 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN114297143A (zh) | 一种搜索文件的方法、显示文件的方法、装置及移动终端 | |
KR101245631B1 (ko) | 근사조합장치, 근사조합방법, 프로그램 및 기록매체 | |
CN112989011B (zh) | 数据查询方法、数据查询装置和电子设备 | |
WO2022134824A1 (en) | Tuning query generation patterns | |
US20180293508A1 (en) | Training question dataset generation from query data | |
CN118114660A (zh) | 文本检测方法、系统及计算机可读存储介质 | |
CN114817498A (zh) | 用户意图识别方法、装置、设备及存储介质 | |
CN114595696A (zh) | 实体消歧方法、实体消歧装置、存储介质与电子设备 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
CN116340263B (zh) | 一种基于机器识别的word文档转换方法、装置及存储介质 | |
US20220382753A1 (en) | Narrowing synonym dictionary results using document attributes | |
JP5337575B2 (ja) | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム | |
CN117891904A (zh) | 搜索方法、终端设备及计算机可读存储介质 | |
JP2001325293A (ja) | 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体 | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |