CN111723571A

CN111723571A - 一种文本信息审核方法及系统

Info

Publication number: CN111723571A
Application number: CN202010534330.4A
Authority: CN
Inventors: 王晓平
Original assignee: Shanghai Jilian Network Technology Co ltd
Current assignee: Shanghai Jilian Network Technology Co ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-29

Abstract

本发明公开了一种文本信息审核方法及系统，基于本发明所提供的方法，相比于传统的基于关键词的文本审核方法，本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报，并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法，从而在引入分词约束提高匹配合理性的同时，也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。

Description

一种文本信息审核方法及系统

技术领域

本申请涉及信息处理技术领域，尤其涉及一种文本信息审核方法及系统。

背景技术

随着计算机技术及网络技术的快速发展，诸多网络社交平台如微博、微信、聊天社区、视频弹幕等走进了人们的生活，每一天，这些网络平台都在持续不断地产生着海量的用户交互数据如文本数据、视频数据，这在丰富了人们精神生活的同时，也给网络场景下有效的信息审核和监管带来了困难。

传统的文本审核方法通常是根据敏感词库对文本进行基于关键词的匹配审核，或者是先将敏感词映射为语义向量后再与同样经过向量化的待审核文本中的词进行向量相似度比对，这些传统方法对于语法规范的文本具有较好的效果。然而，在网络平台中的用户语言有着明显的不规范性和多变性，具体表现在网络文本语言的表述中充斥着大量的音字混合变形、谐音变形、词语填字变形、词语缺字变形、汉字拆解变形、网络习惯用语替代变形等诸多情形。

显然，对于此类网络文本信息的审核需求，传统的方法已经不能胜任，表现在：基于关键词的匹配审核方法由于缺少语义层次的高级理解，匹配出的词语往往虽然从字面上看与敏感词一致，但却有着截然不同的场景语义从而导致误报警，例如，假设有敏感词“房事”，传统方法将从待审核文本“洽谈买房事宜”中匹配成功并进行报警，但事实上这却是一例误报；而基于语义向量的匹配审核方法虽然具有高层次的语义表征，但面对充斥着不规范词语表达的网络文本语言时，往往无法有效获取词语的向量表征，从而因无法进行语义比较而导致召回率降低。

发明内容

本发明提供了一种文本信息审核方法及系统，用于解决现有技术中基于关键词的匹配审核方案因词语拆分匹配带来的不合理误报问题，并进一步解决了若直接引入分词措施进行匹配审核所带来的低召回率问题。

其具体的技术方案如下：

一种文本信息审核方法，所述方法包括：

在敏感词库中读取敏感词，并确定所述敏感词对应的各个变形映射，并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合；

确定所述敏感词对应的敏感词匹配位置，其中，所述匹配位置包含了开始位置以及结束位置；

将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核。

进一步地，在敏感词库中读取敏感词之前，所述方法还包括：

对输入的文本信息进行中文分词处理，得到各个分词；

输出按照词语出现先后顺序排列的分词结果列表。

进一步地，确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表，包括：

基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置，其中，所述敏感词匹配位置包括开始位置以及结束位置；

定义分词索引位置列表，并初始化位移量。

进一步地，将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核，包括：

将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配；

在所述开始位置以及结束位置隶属于所述索引位置列表时，则判定匹配成功，则输出文本信息审核未通过；

在所述开始位置以及结束位置未隶属于所述索引位置列表时，则判定未匹配成功，则输出文本信息审核通过。

进一步地，在输出文本信息审核未通过时，所述方法还包括：

输出未通过文本信息中的所述敏感词，并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。

本发明还公开一种文本信息审核系统，所述系统包括：

敏感词读取模块，用于在敏感词库中读取敏感词；

敏感词变形映射模块，用于确定所述敏感词对应的各个变形映射，并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合；

弹性匹配子模块，用于确定所述敏感词对应的敏感词匹配位置，其中，所述匹配位置包含了开始位置以及结束位置；将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核。

进一步地，在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理，得到各个分词；输出按照词语出现先后顺序排列的分词结果列表。

进一步地，所述弹性匹配子模块，具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置，定义分词索引位置列表，并初始化位移量；根据分词结果列表对分词索引位置列表进行更新计算，其中，所述敏感词匹配位置包括开始位置以及结束位置。

进一步地，所述弹性匹配子模块，具体用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配；在所述开始位置以及结束位置隶属于所述索引位置列表时，则判定匹配成功，则输出文本信息审核未通过；在所述开始位置以及结束位置未隶属于所述索引位置列表时，则判定未匹配成功，则输出文本信息审核通过。

进一步地，所述系统还包括：

审核结果输出模块，具体用于输出未通过文本信息中的所述敏感词，并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。

基于本发明所提供的方法，相比于传统的基于关键词语的文本审核方法，本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报，并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法，从而在引入分词约束提高匹配合理性的同时，也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。

另外，本专利提出基于关键词匹配位置与分词索引位置列表的隶属比对方法。如果按照传统常规方法思路，需要首先从分词结果列表中连续选取若干分词，然后将它们串行连接成重构体，最后再对重构体与敏感词之间进行匹配，其中遍历选取连续分词并进行匹配的计算量是O(N2)，而本专利仅需执行一次关键词匹配检索，再将匹配位置结果直接与分词索引位置列表进行隶属比对即可，从而大大节省了计算量。

附图说明

图1为本发明实施例中一种文本信息审核方法的流程图；

图2为本发明实施例中一种文本信息审核系统的结构示意图。

具体实施方式

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解，本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明，而不是限定，在不冲突的情况下，本发明实施例以及实施例中的具体技术特征可以相互组合。

如图1所示为本发明实施例中一种文本信息审核方法的流程图，该方法包括：

S1，在敏感词库中读取敏感词，并确定所述敏感词对应的各个变形映射，并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合；

首先来讲，在敏感词库中读取敏感词之前，该方法中需要进行中文分词处理，也就是引入中文分词方法对待审核的文本信息进行分词处理，并输出按照词语出现先后顺序排列的分词结果列表list_seg。

list_seg＝[seg₁，seg₂，…，seg_n]，

其中，n表示分词结果列表中的元素个数。

基于上述的分词结果列表，首先遍历地读取敏感词库，对于从敏感词库中读取输出的敏感词，按照预先设定的变形规则进行变形处理，这里的变形规则可以是音字混合变形、谐音变形、词语填字变形、词语缺字变形、汉字拆解变形、网络习惯用语替代变形等等。

举例来讲，对敏感词w进行变形，并与原始敏感词共同组成匹配词元素集合collection。

其中，f_y(x)表示按照定义的变形规则y对词语x进行变形，并返回变形结果，m表示变形规则总数。

S2，确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表；

对于敏感词变形映射输出的匹配词元素集合collection，依次将集合中的每一个元素与list_seg中的若干连续元素进行弹性匹配，从而达到跨分词单元匹配的审核的目的。因此本发明中为了高效的实现弹性匹配过程，提出了基于关键词匹配位置与分词索引位置列表的隶属对比方法，首先基于关键词匹配找出文本中的敏感词匹配位置(包括开始位置、结束位置)；然后将敏感词匹配位置与预先计算存储的分词索引位置列表进行隶属比对，如果前者完全隶属于后者则表示敏感词与从分词结果列表中连续选取的若干分词的串连重构体之间弹性匹配成功，从而判断该文本未能通过审核，同时输出敏感词匹配原形及变形映射信息以及在输入文本中出现的位置信息。

然后将敏感词匹配位置与预先计算存储的分词索引位置列表进行隶属对比。

在进行对比之前，首先是定义分词索引位置变量index，并将该分词索引位置变量初始化为0。

定义分词索引位置列表list_index，并初始化添加index值。

list_index计算生成，流程如下：

For词语元素iinlist_seg:

index＝index+length(i)

list_index添加经过累积计算更新的index值。

基于关键词检索匹配找出文本中的敏感词匹配位置(包括开始位置index_begin、结束位置index_end)，并通过While循环找出敏感词在文本中所有的出现位置以确保召回率。

S3，将敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核。

将敏感词匹配位置的开始位置index_begin、结束位置index_end与预先存储的分词索引位置列表list_index进行隶属比对，以判断是否弹性匹配成功，如果前者完全隶属于后者，则表示敏感词与分词结果列表中连续选取的若干分词的串连重构体之间弹性匹配成功，从而确定该文本未能通过审核，并输出敏感词匹配原形及变形映射信息以及在输入文本中出现的位置信息，如果未匹配成功，则确定该文本信息通过审核。

下面通过具体的应用场景来对本发明技术方案做进一步的说明。

定义分词索引位置变量index并初始化为0；

定义分词索引位置列表list_index并初始化添加index值；

For词语元素iinlist_seg:；

index＝index+length(i)

向list_index添加过累积更新的index值

定义审核结果储存列表list_found并初始化为空

For词语元素w′incollection:；

Iflist_seg包含w′(假设为列表list_seg中的第i个元素)；

检索词w′在输入文本中出现的位置信息index_begin＝list_index(i)；

计算敏感词w′末字符在text中的匹配位置index_end；

index_end＝list_index(i+1)

将检索词w′在输入文本中出现的位置信息index_begin、index_end及匹配的原形及变形信息w、w′结构化后储存入list_found；

Else：

定义待检索位置index_detect并初始化为0；

在文本text中从位置index_detect开始检索词w′，并获取w′首字符在text中的匹配index_begin；

Whileindex_begin非空：

计算敏感词w′末字符在text中的匹配位置index_end；

index_end＝index_begin+length(w′)

Ifindex_begin、index_end均隶属于list_index：

将检索词w′在输入文本中出现的位置信息index_begin、index_end

及匹配的原形及变形信息w、w′结构化后储存入list_found；

index_detect＝index_end+1

Ifindex_detect≤length(text)-length(w′)：

对文本text：从位置index_detect起往后继续检索词w′，并用下一

次匹配到的位置对index_begin的值进行更新；

Iflist_found非空：

判断文本text未通过审核，同时按列表元素储存顺序将list_found中的详细内容

进行输出；

Else:

判断文本text通过审核。

基于本发明所提供的方法，相比于传统的基于关键词的文本审核方法，本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报，并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法，从而在引入分词约束提高匹配合理性的同时，也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。

另外，本专利提出基于关键词匹配位置与分词索引位置列表的隶属比对方法。如果按照传统常规方法思路，需要首先从分词结果列表中连续选取若干分词，然后将它们串行连接成重构体，最后再对重构体与敏感词之间进行匹配，其中遍历选取连续分词并进行匹配的计算量是O(N²)，而本专利仅需执行一次关键词匹配检索，再将匹配位置结果直接与分词索引位置列表进行隶属比对即可，从而大大节省了计算量。

对应本发明所提供的方法，本发明实施例中还提供了一种文本信息审核系统，如图2所示为本发明实施例中一种文本信息审核系统的结构示意图，该系统包括：

敏感词读取模块201，用于在敏感词库中读取敏感词；

敏感词变形映射模块202，用于确定所述敏感词对应的各个变形映射，并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合；

弹性匹配子模块203，用于确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表，其中，所述匹配位置包含了开始位置以及结束位置；将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核。

此外，在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理，得到各个分词；输出按照词语出现先后顺序排列的分词结果列表。

进一步，在本发明实施例中，所述弹性匹配子模块203，具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置，定义分词索引位置列表，并初始化位移量；根据分词结果列表对分词索引位置列表进行更新计算，其中，所述敏感词匹配位置包括开始位置以及结束位置。

进一步，在本发明实施例中，所述弹性匹配子模块203，用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配；在所述开始位置以及结束位置隶属于所述索引位置列表时，则判定匹配成功，则输出文本信息审核未通过；在所述开始位置以及结束位置未隶属于所述索引位置列表时，则判定未匹配成功，则输出文本信息审核通过。

进一步，在本发明实施例中，所述系统还包括：

尽管已描述了本申请的优选实施例，但本领域内的普通技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改，包括采用特定符号、标记确定顶点等变更方式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种文本信息审核方法，其特征在于，所述方法包括：

确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表，其中，所述匹配位置包含了开始位置以及结束位置；

2.如权利要求1所述的方法，其特征在于，在敏感词库中读取敏感词之前，所述方法还包括：

对输入的文本信息进行中文分词处理，得到各个分词；

输出按照词语出现先后顺序排列的分词结果列表。

3.如权利要求1所述的方法，其特征在于，确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表，包括：

定义分词索引位置列表，并初始化位移量；根据分词结果列表对分词索引位置列表进行更新计算。

4.如权利要求1所述的方法，其特征在于，将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配，根据匹配结果确定文本是否通过审核，包括：

5.如权利要求4所述的方法，其特征在于，在输出文本信息审核未通过时，所述方法还包括：

6.一种文本信息审核系统，其特征在于，所述系统包括：

敏感词读取模块，用于在敏感词库中读取敏感词；

7.如权利要求6所述的系统，其特征在于，在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理，得到各个分词；输出按照词语出现先后顺序排列的分词结果列表。

8.如权利要求6所述的系统，其特征在于，所述弹性匹配子模块，具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置，定义分词索引位置列表，并初始化位移量；根据分词结果列表对分词索引位置列表进行更新计算，其中，所述敏感词匹配位置包括开始位置以及结束位置。

9.如权利要求6所述的系统，其特征在于，所述弹性匹配子模块，具体用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配；在所述开始位置以及结束位置隶属于所述索引位置列表时，则判定匹配成功，则输出文本信息审核未通过；在所述开始位置以及结束位置未隶属于所述索引位置列表时，则判定未匹配成功，则输出文本信息审核通过。

10.如权利要求6所述的系统，其特征在于，所述系统还包括：