CN111506708A - 一种文本审核方法、装置、设备和介质 - Google Patents
一种文本审核方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111506708A CN111506708A CN202010323240.0A CN202010323240A CN111506708A CN 111506708 A CN111506708 A CN 111506708A CN 202010323240 A CN202010323240 A CN 202010323240A CN 111506708 A CN111506708 A CN 111506708A
- Authority
- CN
- China
- Prior art keywords
- auditing
- text
- module
- sensitive word
- audited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本审核方法、装置、设备和介质。该方法应用于级联审核装置,级联审核装置中包括敏感词审核模块、灌水审核模块和语义审核模块,敏感词审核模块、灌水审核模块和语义审核模块依次级联设置,该方法包括:对待审核文本进行分词处理,基于敏感词审核模块对分词后的待审核文本进行敏感词审核;当敏感词审核通过时,基于灌水审核模块对待审核文本进行灌水审核;当灌水审核通过时,基于语义审核模块对待审核文本进行语义审核,并输出审核结果;其中,当敏感词审核、灌水审核和语义审核中任一项审核不通过时,输出审核结果并结束对待审核文本的审核。解决了复杂文本审核困难的问题,提高了违规文本的审核召回率并兼顾了审核效率。
Description
技术领域
本发明实施例涉及网络信息安全技术,尤其涉及一种文本审核方法、装置、设备和介质。
背景技术
在计算机技术、网络通信技术助力下的信息化时代,微博、微信、聊天社区、视频弹幕等诸多的网络媒体、社交平台走进了人们的生活,这些网络平台每时每刻都在源源不断地产生着多样化的用户交互数据如聊天、评论、弹幕等文本,这些数据资源在促进人际沟通、丰富人们精神生活的同时,也给信息审核和监管带来了困难和挑战。
目前的文本审核方法通常是针对某类所关注的违规类型进行处理,当对具有复杂多样性特点的文本进行审核时,违规文本审核召回率则大大降低。
发明内容
本发明实施例提供一种文本审核方法、装置、设备和介质,以实现对具有复杂多样性特点的违规文本进行审核,提高文本审核的召回率及效率。
第一方面,本发明实施例提供了一种文本审核方法,应用于级联审核装置,所述级联审核装置中包括敏感词审核模块、灌水审核模块和语义审核模块,所述敏感词审核模块、所述灌水审核模块和所述语义审核模块依次级联设置,所述方法包括:对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;
当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;
当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;
其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
第二方面,本发明实施例还提供了一种文本审核装置,该装置包括:
敏感词审核模块,用于对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;
灌水审核模块,用于当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;
语义审核模块,用于当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;
审核结果输出模块,用于当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
第三方面,本发明实施例还提供了一种设备,其中,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的文本审核方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如本发明任意实施例所提供的文本审核方法。
本发明实施例通过对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;检测待审核文本中是否包含敏感词,若包含则审核不通过,避免审核通过的文本中包含不健康的或恶意的词汇。当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;检测通过敏感词审核的待审核文本中是否有有规则可循的字符、数字,或相互间并无关联的词语的堆砌。当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;语义审核是对待审核文本进行高层次的自然语言的理解,通过语义审核,可以进一步检测待审核文本的语义是否符合要求,从而满足更高层次的审核要求,其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。解决了对具有复杂多样性特点的文本审核困难的问题,实现了提高违规文本的审核召回率及效率的效果。
附图说明
图1是本发明实施例一中的一种文本审核方法的流程图;
图2是敏感词审核模块的审核流程图;
图3是灌水审核模块的审核流程图;
图4是语义审核模块的审核流程图;
图5是一种文本审核方法的流程图;
图6是本发明实施例二中的一种文本审核装置的结构图;
图7是本发明实施例三中的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种文本审核方法的流程图,本实施例可适用于审核情况复杂的文本情况,该方法可以由文本审核装置来执行,具体包括如下步骤:
S110、对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核。
可选的,所述敏感词审核模块包括敏感词匹配子模块和敏感词相似度计算子模块,所述敏感词匹配子模块和所述敏感词相似度计算子模块级联设置。如图2所示,待审核文本通过敏感词审核模块进行敏感词审核时,先通过敏感词匹配子模块进行审核,审核通过后再通过敏感词相似度计算子模块进行审核,提高了对待审核文本敏感词审核的召回率。
所述敏感词审核模块包括敏感词匹配子模块;其中,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核,包括:读取预设敏感词库中的敏感词,对所述敏感词进行变形生成变形敏感词,生成敏感词集合,其中,所述敏感词集合包括读取各敏感词和所述各敏感词的变形敏感词;获取所述待审核文本中,基于语义进行分词处理得到的至少一个分词,将各分词或者基于分词顺序形成的连续分词的组合在所述敏感词集合中进行匹配;遍历读取预设敏感词库中的敏感词,按照预设的变形规则对敏感词进行变形,示例性的,预设的变形规则包括:音字混合变形、谐音变形、拼音缩写变形、前后鼻音及平翘舌音变形、反读变形、填字变形、缺字变形、拆解字变形和形近字变形等。将变形后的词语与原始的敏感词组建成敏感词集合。
因待审核文本为一句或一段语句,而本模块的文本审核是针对词语进行审核,故在进行审核前,需将待审核文本根据语义进行分词处理,将一句或一段话分为多个词语,并按词语出现的先后顺序进行排列,生成分词结果列表listseg。示例性的,对语句“洽谈买房事宜”进行分词,得到词语:洽谈、买房和事宜,得到分词结果列表为listseg=[洽谈,买房,事宜]。将分词结果列表中的词语或按照词语的排列顺序形成的连续词语的组合与敏感词集合中的词语进行匹配,若匹配成功,说明待审核文本中包含敏感词,审核不通过。若匹配不成功,说明待审核文本中未包含敏感词,审核通过,本例正是通过分词措施避免了对诸如“房事”这种敏感词的误报。示例性的,待审核文本为“小明对一部色情电影进行保存”,分词后得到的分词结果列表为listseg=[小明,对,一部,色情,电影,进行,保存],设在敏感词集合中有敏感词“色情电影”,此时,无论是“色情”还是“电影”都不能与敏感词“色情电影”匹配成功,此时需要将分词结果列表中连续的词语进行组合,将列表中的“色情”和“电影”进行组合生成“色情电影”,此时就可与敏感词集合中的敏感词匹配成功,该文本审核不能通过。将分词结果列表中的连续词语组合后与敏感词集合中的敏感词进行匹配,可以提高敏感词审核的召回率,防止敏感词审核出现遗漏的现象。
可选的,所述敏感词审核模块包括敏感词相似度计算子模块;其中,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核,包括:从预设的语义向量库中读取与所述预设敏感词库中的敏感词对应语义向量,生成敏感词语义向量集合;从所述语义向量库中读取与所述待审核文本的分词结果列表中的各分词对应的语义向量,生成词语语义向量集合;分别计算所述词语语义向量集合中的每个语义向量与所述敏感词语义向量集合中所有语义向量的相似度;若计算得到的相似度最大值大于预设的相似度阈值,则确定所述待审核文本审核不通过。待审核文本通过敏感词匹配子模块的审核后,再通过敏感词相似度计算子模块进行审核。示例性的,从预设的语义向量库中读取与敏感词库中的词语对应的语义向量生成敏感词语义向量集合vectorlib={vectorlib(1),…,vectorlib(j),…,vectorlib(N)},其中,N表示敏感词库所包含敏感词的个数,1≤j≤N。再从语义向量库中读取分词结果列表中的词语对应的语义向量,生成词语语义向量集合vectortext={vectortext(1),…,vectortext(i),…,vectortext(M)},其中,M表示分词结果列表的元素个数,1≤i≤M。分别计算词语语义向量集合中的每个向量与敏感词语义向量集合中所有敏感词语义向量的相似度,即计算vectortext(1)与vectorlib中所有敏感词语义向量的相似度,输出相似度的最大值v1,计算vectortext(2)与vectorlib中所有敏感词语义向量的相似度,输出相似度的最大值v2,直至vectortext(M),输出相似度vM,若v1,v2……vM当中存在大于预设的相似度阈值的元素,则说明待审核文本中有词语与敏感词具有很高的相似度,待审核文本审核不通过。
S120、当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核。
因敏感词审核模块与灌水审核模块是级联设置的,故当待审核文本通过敏感词审核后再通过灌水审核模块进行审核。灌水审核模块是对审核待审核文本中无关联字词的堆砌进行审核。如图3所示为灌水审核模块的审核流程图。
可选的,所述灌水审核模块包括灌水规则审核子模块和灌水模型审核子模块中的至少一项,其中,基于所述灌水审核模块对所述待审核文本进行灌水审核,包括:基于预先设置的灌水规则对所述待审核文本进行审核;或者,将通过敏感词审核的所述待审核文本输入至预先训练好的灌水识别模型中进行审核。灌水规则审核子模块是通过预先设定的灌水审核规则对待审核文本进行审核,示例性的,预先设定的灌水审核规则包括:对待审核文本中的符号、数字、中文、英文的重复次数、重复模式、字符个数、词语的合理性等进行规定和要求。示例性的,当待审核文本中某个词语重复出现的次数超过3次则判定为灌水文本,如对于待审核文本“你好你好你好你好”,因“你好”这个词语重复出现4次所以被判定为灌水文本。
可选的,所述灌水规则审核子模块和所述灌水模型审核子模块级联设置,当待审核文本通过灌水规则审核子模块审核后输入至灌水模型审核子模块进行审核。灌水模型审核子模块使用预先训练的灌水模型,示例性的,可以使用深度学习方法如TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT等,也可以使用传统方法如逻辑回归、支持向量机等训练灌水模型。将通过敏感词审核的待审核文本输入至灌水审核模块进行审核,通过灌水审核模块的待审核文本可以同时满足敏感词审核和灌水审核的要求,进一步提高了对文本的审核功能。
S130、当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果。
将通过灌水审核的待审核文本输入至语义审核模块进行语义审核,并将最终的审核结果输出。如图4所示为语义审核模块的审核流程图。
可选的,所述基于所述语义审核模块对所述待审核文本进行语义审核,包括:将所述待审核文本输入至预先训练语义分类模型进行语义审核,生成语义标签,根据所述语义标签确定审核结果。语义审核模块中包括预先训练好的语义分类模型,示例性的,语义分类模型可以使用深度学习方法如TextCNN、TextRNN、BERT、XLNet、RoBERTa、ALBERT等,也可以使用传统方法如逻辑回归、支持向量机等进行训练。通过语义分类模型对待审核文本进行语义分类,并根据分类结果为待审核文本打上相应的审核标签,审核过程结束。将通过敏感词审核和灌水审核的待审核文本输入至语义审核模块进行审核,审核通过的文本可以同时满足敏感词审核、灌水审核和语义审核的审核要求,可以适应复杂多样的文本审核,提高对文本审核的准确性,保证违规文本的审核召回率。
S140、其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
因各审核模块采用级联的布局模式,各审核模块依次执行,一旦待审核文本被当前模块审核为“不通过”,则审核过程结束输出审核结果,不必走完全部过程。
在上述实施例的基础上,文本审核方法还包括:所述敏感词审核模块包括敏感词匹配子模块和敏感词相似度计算子模块,所述敏感词匹配子模块和所述敏感词相似度计算子模块级联设置;所述灌水审核模块包括灌水规则审核子模块和灌水模型审核子模块中的至少一项,其中,基于所述灌水审核模块对所述待审核文本进行灌水审核;所述灌水规则审核子模块和所述灌水模型审核子模块级联设置。如图5所示,将待审核文本输入至文本审核模块,先通过敏感词审核模块中的敏感词匹配子模块对待审核文本进行审核,将待审核文本中的词语与预设的敏感词库中的敏感词以及敏感词的变形词进行匹配,匹配成功,审核不通过,匹配失败则审核通过,再将审核通过的待审核文本输入至敏感词审核模块中的敏感词相似度计算子模块进行审核,若待审核文本中的词语的语义向量与敏感词的语义向量的相似度超过预设阈值,则审核不通过,若相似度在预设的阈值范围内,则审核通过,将审核通过的待审核文本输入至灌水审核模块的灌水规则审核子模块进行审核,通过预先审定的灌水规则对待审核文本进行审核,审核不通过则结束审核,审核通过则输入至灌水审核模块中的灌水模型审核子模块中进行审核,若审核不通过,则结束审核,若审核通过则将审核通过的待审核文本输入至语义审核模块进行审核,审核结束后,将最终的审核结果输出,当敏感词审核、灌水审核和语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。通过将多个审核模块进行级联后对待审核文本进行审核,对复杂多样的文本具有良好的审核效果,提高了违规文本的审核召回率。
本实施例的技术方案,通过级联的文本审核装置,对待审核文本进行多重审核,实现对待审核文本的多重方向审核,解决了对具有复杂多样性特点的文本审核困难的问题,实现了提高违规文本的审核召回率及效率的效果。具体的,通过对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;检测待审核文本中是否包含敏感词,若包含则审核不通过,避免审核通过的文本中包含不健康的或恶意的词汇。当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;检测通过敏感词审核的待审核文本中是否有有规则可循的字符、数字,或相互间并无关联的词语的堆砌。当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;语义审核是对待审核文本进行高层次的自然语言的理解,通过语义审核,可以进一步检测待审核文本的语义是否符合要求,从而满足更高层次的审核要求,其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
实施例二
图6为本发明实施例二提供的一种文本审核装置的结构图,该装置包括:敏感词审核模块310、灌水审核模块320、语义审核模块330和审核结果输出模块340,所述敏感词审核模块310、所述灌水审核模块320和所述语义审核模块330依次级联设置。
其中,敏感词审核模块310,用于对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;灌水审核模块320,用于当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;语义审核模块330,用于当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;审核结果输出模块340,用于当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
在上述实施例方案中,敏感词审核模块310,包括:敏感词匹配子模块,所述敏感词子模块包括:
敏感词集合生成单元,用于读取预设敏感词库中的敏感词,对所述敏感词进行变形生成变形敏感词,生成敏感词集合,其中,所述敏感词集合包括读取各敏感词和所述各敏感词的变形敏感词;
分词匹配单元,用于获取所述待审核文本中,基于语义进行分词处理得到的至少一个分词,将各分词或者基于分词顺序形成的连续分词的组合在所述敏感词集合中进行匹配;
审核结果确定单元,用于当与所述敏感词集合中任一敏感词或变形敏感词匹配成功时,确定所述待审核文本审核不通过。
在上述实施例方案中,敏感词审核模块310,包括:敏感词相似度计算子模块,所述敏感词相似度计算子模块,包括:
敏感词语义向量集合生成单元,用于从预设的语义向量库中读取与所述预设敏感词库中的敏感词对应语义向量,生成敏感词语义向量集合;
词语语义向量集合生成单元,用于从所述语义向量库中读取与所述待审核文本的分词结果列表中的各分词对应的语义向量,生成词语语义向量集合;
相似度计算单元,用于分别计算所述词语语义向量集合中的每个语义向量与所述敏感词语义向量集合中所有语义向量的相似度;
审核结果确定单元,用于若计算得到的相似度最大值大于预设的相似度阈值,则确定所述待审核文本审核不通过。
可选的,所述敏感词审核模块包括敏感词匹配子模块和敏感词相似度计算子模块,所述敏感词匹配子模块和所述敏感词相似度计算子模块级联设置。
在上述实施例方案中,灌水审核模块320,包括:灌水审核模块包括灌水规则审核子模块和灌水模型审核子模块中的至少一项。
灌水规则审核子模块,用于基于预先设置的灌水规则对所述待审核文本进行审核;
灌水模型审核子模块,用于将通过敏感词审核的所述待审核文本输入至预先训练好的灌水识别模型中进行审核。
可选的,所述灌水规则审核子模块和所述灌水模型审核子模块级联设置。
在上述实施例方案中,语义审核模块330,包括:
语义审核结果确定单元,用于将所述待审核文本输入至预先训练语义分类模型进行语义审核,生成语义标签,根据所述语义标签确定审核结果。
本发明实施例通过对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;检测待审核文本中是否包含敏感词,若包含则审核不通过,避免审核通过的文本中包含不健康的或恶意的词汇。当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;检测通过敏感词审核的待审核文本中是否有有规则可循的字符、数字,或相互间并无关联的词语的堆砌。当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;语义审核是对待审核文本进行高层次的自然语言的理解,通过语义审核,可以进一步检测待审核文本的语义是否符合要求,从而满足更高层次的审核要求,其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。解决了对具有复杂多样性特点的文本审核困难的问题,实现了提高违规文本的审核召回率及效率的效果。
本发明实施例所提供的文本审核装置可执行本发明任意实施例所提供的文本审核方法,具备执行方法相应的功能模块和有益效果。
实施例三
图7为本发明实施例三提供的一种设备的结构示意图,如图7所示,该设备包括处理器410、存储器420、输入装置430和输出装置440;设备中处理器410的数量可以是一个或多个,图7中以一个处理器410为例;设备中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本审核方法对应的程序指令/模块(例如,文本审核装置中的敏感词审核模块310、灌水审核模块320、语义审核模块330和审核结果输出模块340)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的文本审核方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文本审核方法,该方法包括:
对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;
当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;
当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;
其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本审核方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文本审核装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文本审核方法,其特征在于,应用于级联审核装置,所述级联审核装置中包括敏感词审核模块、灌水审核模块和语义审核模块,所述敏感词审核模块、所述灌水审核模块和所述语义审核模块依次级联设置,所述方法包括:
对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;
当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;
当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;
其中,当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
2.根据权利要求1所述的方法,其特征在于,所述敏感词审核模块包括敏感词匹配子模块;其中,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核,包括:
读取预设敏感词库中的敏感词,对所述敏感词进行变形生成变形敏感词,生成敏感词集合,其中,所述敏感词集合包括读取各敏感词和所述各敏感词的变形敏感词;
获取所述待审核文本中,基于语义进行分词处理得到的至少一个分词,将各分词或者基于分词顺序形成的连续分词的组合在所述敏感词集合中进行匹配;
当与所述敏感词集合中任一敏感词或变形敏感词匹配成功时,确定所述待审核文本审核不通过。
3.根据权利要求1所述的方法,其特征在于,所述敏感词审核模块包括敏感词相似度计算子模块;其中,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核,包括:
从预设的语义向量库中读取与所述预设敏感词库中的敏感词对应语义向量,生成敏感词语义向量集合;
从所述语义向量库中读取与所述待审核文本的分词结果列表中的各分词对应的语义向量,生成词语语义向量集合;
分别计算所述词语语义向量集合中的每个语义向量与所述敏感词语义向量集合中所有语义向量的相似度;
若计算得到的相似度最大值大于预设的相似度阈值,则确定所述待审核文本审核不通过。
4.根据权利要求1所述的方法,其特征在于,所述敏感词审核模块包括敏感词匹配子模块和敏感词相似度计算子模块,所述敏感词匹配子模块和所述敏感词相似度计算子模块级联设置。
5.根据权利要求1所述的方法,其特征在于,所述灌水审核模块包括灌水规则审核子模块和灌水模型审核子模块中的至少一项,其中,基于所述灌水审核模块对所述待审核文本进行灌水审核,包括:
基于预先设置的灌水规则对所述待审核文本进行审核;或者,
将通过灌水规则审核子模块审核的所述待审核文本输入至预先训练好的灌水识别模型中进行审核。
6.根据权利要求5所述的方法,其特征在于,所述灌水规则审核子模块和所述灌水模型审核子模块级联设置。
7.根据权利要求1所述的方法,其特征在于,所述基于所述语义审核模块对所述待审核文本进行语义审核,包括:
将所述待审核文本输入至预先训练语义分类模型进行语义审核,生成语义标签,根据所述语义标签确定审核结果。
8.一种文本审核装置,其特征在于,包括:
敏感词审核模块,用于对待审核文本进行分词处理,基于所述敏感词审核模块对分词后的所述待审核文本进行敏感词审核;
灌水审核模块,用于当所述敏感词审核通过时,基于所述灌水审核模块对所述待审核文本进行灌水审核;
语义审核模块,用于当所述灌水审核通过时,基于所述语义审核模块对所述待审核文本进行语义审核,并输出审核结果;
审核结果输出模块,用于当所述敏感词审核、所述灌水审核和所述语义审核中任一项审核不通过时,输出审核结果并结束对所述待审核文本的审核。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的文本审核方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的文本审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323240.0A CN111506708A (zh) | 2020-04-22 | 2020-04-22 | 一种文本审核方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010323240.0A CN111506708A (zh) | 2020-04-22 | 2020-04-22 | 一种文本审核方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506708A true CN111506708A (zh) | 2020-08-07 |
Family
ID=71874580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010323240.0A Pending CN111506708A (zh) | 2020-04-22 | 2020-04-22 | 一种文本审核方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506708A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
CN112364637A (zh) * | 2020-11-30 | 2021-02-12 | 北京天融信网络安全技术有限公司 | 一种敏感词检测方法、装置,电子设备及存储介质 |
CN112434522A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
CN112434523A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
CN113688630A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 文本内容审核方法、装置、计算机设备和存储介质 |
WO2022143541A1 (zh) * | 2020-12-30 | 2022-07-07 | 百果园技术(新加坡)有限公司 | 直播审核的方法、装置、服务器和存储介质 |
CN115238044A (zh) * | 2022-09-21 | 2022-10-25 | 广州市千钧网络科技有限公司 | 一种敏感词检测方法、装置、设备及可读存储介质 |
CN116304062A (zh) * | 2023-05-17 | 2023-06-23 | 南京物浦大数据有限公司 | 一种基于级联深度学习模型的公平竞争审查方法 |
RU2807642C1 (ru) * | 2020-12-30 | 2023-11-20 | Биго Текнолоджи Пте. Лтд. | Способ и устройство, сервер и носитель данных для модерации прямой трансляции |
CN117236328A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180268A1 (zh) * | 2015-05-13 | 2016-11-17 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
US9590941B1 (en) * | 2015-12-01 | 2017-03-07 | International Business Machines Corporation | Message handling |
CN108228760A (zh) * | 2017-12-25 | 2018-06-29 | 湛江正信科技服务有限公司 | 敏感词过滤的方法、装置、移动终端及存储介质 |
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN110727880A (zh) * | 2019-10-18 | 2020-01-24 | 西安电子科技大学 | 一种基于词库与词向量模型的敏感语料检测方法 |
-
2020
- 2020-04-22 CN CN202010323240.0A patent/CN111506708A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180268A1 (zh) * | 2015-05-13 | 2016-11-17 | 阿里巴巴集团控股有限公司 | 一种文本聚合方法及装置 |
US9590941B1 (en) * | 2015-12-01 | 2017-03-07 | International Business Machines Corporation | Message handling |
CN108228760A (zh) * | 2017-12-25 | 2018-06-29 | 湛江正信科技服务有限公司 | 敏感词过滤的方法、装置、移动终端及存储介质 |
CN110674255A (zh) * | 2019-09-24 | 2020-01-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 文本内容审核方法及装置 |
CN110727880A (zh) * | 2019-10-18 | 2020-01-24 | 西安电子科技大学 | 一种基于词库与词向量模型的敏感语料检测方法 |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686036A (zh) * | 2020-08-18 | 2021-04-20 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN112686036B (zh) * | 2020-08-18 | 2022-04-01 | 平安国际智慧城市科技股份有限公司 | 风险文本识别方法、装置、计算机设备及存储介质 |
CN112101010A (zh) * | 2020-11-23 | 2020-12-18 | 中博信息技术研究院有限公司 | 一种基于bert的电信行业oa办公自动化文稿审核的方法 |
CN112434523B (zh) * | 2020-11-25 | 2022-08-26 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN112434522A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
CN112434523A (zh) * | 2020-11-25 | 2021-03-02 | 上海极链网络科技有限公司 | 一种降低敏感词谐音匹配误警率的文本审核装置及方法 |
CN112434522B (zh) * | 2020-11-25 | 2022-08-26 | 上海极链网络科技有限公司 | 一种降低敏感词误警率的文本审核后处理装置及方法 |
CN112364637A (zh) * | 2020-11-30 | 2021-02-12 | 北京天融信网络安全技术有限公司 | 一种敏感词检测方法、装置,电子设备及存储介质 |
CN112364637B (zh) * | 2020-11-30 | 2024-02-09 | 北京天融信网络安全技术有限公司 | 一种敏感词检测方法、装置,电子设备及存储介质 |
WO2022143541A1 (zh) * | 2020-12-30 | 2022-07-07 | 百果园技术(新加坡)有限公司 | 直播审核的方法、装置、服务器和存储介质 |
RU2807642C1 (ru) * | 2020-12-30 | 2023-11-20 | Биго Текнолоджи Пте. Лтд. | Способ и устройство, сервер и носитель данных для модерации прямой трансляции |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
CN113688630A (zh) * | 2021-08-31 | 2021-11-23 | 中国平安人寿保险股份有限公司 | 文本内容审核方法、装置、计算机设备和存储介质 |
CN113688630B (zh) * | 2021-08-31 | 2023-09-12 | 中国平安人寿保险股份有限公司 | 文本内容审核方法、装置、计算机设备和存储介质 |
CN115238044A (zh) * | 2022-09-21 | 2022-10-25 | 广州市千钧网络科技有限公司 | 一种敏感词检测方法、装置、设备及可读存储介质 |
CN116304062A (zh) * | 2023-05-17 | 2023-06-23 | 南京物浦大数据有限公司 | 一种基于级联深度学习模型的公平竞争审查方法 |
CN116304062B (zh) * | 2023-05-17 | 2023-07-21 | 南京物浦大数据有限公司 | 一种基于级联深度学习模型的公平竞争审查方法 |
CN117236328A (zh) * | 2023-11-10 | 2023-12-15 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
CN117236328B (zh) * | 2023-11-10 | 2024-01-30 | 深圳市泰铼科技有限公司 | 基于数据分析的金融文本智能核查系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506708A (zh) | 一种文本审核方法、装置、设备和介质 | |
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN112231569A (zh) | 新闻推荐方法、装置、计算机设备及存储介质 | |
CN113297840B (zh) | 恶意流量账号检测方法、装置、设备和存储介质 | |
Li et al. | Sa-nli: A supervised attention based framework for natural language inference | |
CN111324810A (zh) | 一种信息过滤方法、装置及电子设备 | |
CN111291551B (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN110895656A (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
TWI749349B (zh) | 文本還原方法、裝置及電子設備與電腦可讀儲存媒體 | |
CN112084779A (zh) | 用于语义识别的实体获取方法、装置、设备及存储介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
Guo et al. | Adversarial machine learning on social network: A survey | |
Han et al. | Text adversarial attacks and defenses: Issues, taxonomy, and perspectives | |
CN114548274A (zh) | 一种基于多模态交互的谣言检测方法及系统 | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN116992052B (zh) | 用于威胁情报领域的长文本摘要方法、装置和电子设备 | |
CN113297525A (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN112364198A (zh) | 一种跨模态哈希检索方法、终端设备及存储介质 | |
Zhou et al. | Virtual data augmentation: A robust and general framework for fine-tuning pre-trained models | |
CN108304540B (zh) | 一种文本数据识别方法、装置及相关设备 | |
An et al. | Global-view and Speaker-aware Emotion Cause Extraction in Conversations | |
CN114238574B (zh) | 基于人工智能的意图识别方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200807 |
|
RJ01 | Rejection of invention patent application after publication |