CN114579693B

CN114579693B - 一种nlp文本安全审核多级检索系统

Info

Publication number: CN114579693B
Application number: CN202111473148.3A
Authority: CN
Inventors: 曾锐鸿; 马金龙; 熊佳; 王伟喆; 吴文亮; 罗箫; 盘子圣; 焦南凯; 黎子骏; 徐志坚; 谢睿; 陈光尧
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2024-05-14
Anticipated expiration: 2041-12-02
Also published as: CN114579693A

Abstract

本发明公开了一种NLP文本安全审核多级检索系统，利用压缩前缀树的数据结构进行数据的存储和查找，查询速度快，且内存占用比使用字典树数据结构降低了两千多倍，关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构，查询准确率高，既能覆盖到显性敏感词的搜索，同时能从语义上进行文本内容安全审核，在准确率、容错率以及覆盖率上都有保障，又能提高系统的模型泛化能力，解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储，占用存储空间大，增加了服务器的内存成本，不便于在同一台服务器上大规模部署，在性能上难以达到最优，以及模型泛化能力受限制，预测准确性不稳定的技术问题的技术问题。

Description

一种NLP文本安全审核多级检索系统

技术领域

本发明涉及文本安全审核技术领域，尤其涉及一种NLP文本安全审核多级检索系统。

背景技术

文本内容安全审核本质上是一个文本分类问题，也就是给定一个文本，然后给出这个文本的安全意图是什么，这里的安全意图就是文本标签。NLP 文本安全审核系统主要用于在用户文本聊天中做安全审核，审核的领域一般有广告、黑名单和违禁等。在现有的NLP文本安全审核系统中，使用Trie树、句子相似度匹配以及深度学习文本分类模型三种组合技术做层级搜索，同时匹配了定制化的文本前预处理技术。Trie树的数据结构优点是查询速度非常快，但问题在于存储空间非常大，意味着服务器的内存成本会非常高，因而不便于在同一台服务器上大规模部署，在性能上难以达到最优，且深度学习文本分类模型容易因样本的多样性和数量不足，在模型泛化能力上会有限制以及在预测准确性上不稳定。因此，本发明中提供了一种NLP文本安全审核多级检索系统，用于解决现有的NLP文本安全审核系统使用Trie树的数据结构进行存储，占用存储空间大，增加了服务器的内存成本，不便于在同一台服务器上大规模部署，在性能上难以达到最优，以及模型泛化能力受限制，预测准确性不稳定的技术问题。

发明内容

本发明提供了一种NLP文本安全审核多级检索系统，用于解决现有的 NLP文本安全审核系统使用Trie树的数据结构进行存储，占用存储空间大，增加了服务器的内存成本，不便于在同一台服务器上大规模部署，在性能上难以达到最优，以及模型泛化能力受限制，预测准确性不稳定的技术问题。

有鉴于此，本发明提供了一种NLP文本安全审核多级检索系统，包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块；

环境检查模块用于对运行环境和数据库进行预检查和预加载；

文本预处理模块用于对文本数据进行预处理，去除冗余无效信息；

文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块；

关键词匹配子模块采用压缩前缀树进行数据存储和查找；

句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用，句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块，弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索，分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词；

文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用，采用预置文本分类深度学习模型进行文本分类；

结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。

可选地，句子相似度匹配子模块还包括：

句子差异性计算子模块，用于计算查询文本和结果文本集合的最小编辑距离，根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。

可选地，预置文本分类深度学习模型为浅层神经网络，浅层神经网络包括输入层、隐藏层和输出层。

可选地，结果解析模块具体用于：

按预置标签优先级对文本分类深度学习子模块的文本分类结果进行排序和输出。

可选地，环境检查模块具体用于：

预检查和预加载Redis数据库、ES数据库、FastText模型、Trie树模型和 Trie树关键词列表。

可选地，文本预处理模块具体用于：

对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL检测和IP检测。

从以上技术方案可以看出，本发明提供的NLP文本安全审核多级检索系统具有以下优点：

本发明提供的NLP文本安全审核多级检索系统，利用压缩前缀树的数据结构进行数据的存储和查找，查询速度达毫秒级别，且内存占用比使用字典树数据结构降低了两千多倍，关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块构成三级搜索的层级搜索结构，查询准确率高，既能覆盖到显性敏感词的搜索，同时能从语义上进行文本内容安全审核，在准确率、容错率以及覆盖率上都有保障，又能提高系统的模型泛化能力，解决了现有的NLP文本安全审核系统使用Trie树的数据结构进行存储，占用存储空间大，增加了服务器的内存成本，不便于在同一台服务器上大规模部署，在性能上难以达到最优，以及模型泛化能力受限制，预测准确性不稳定的技术问题的技术问题。

附图说明

为了更清楚的说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明提供的一种NLP文本安全审核多级检索系统的结构示意图；

图2为本发明提供的浅层神经网络的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明中提供了一种NLP文本安全审核多级检索系统的实施例，包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块；

关键词匹配子模块采用压缩前缀树进行数据存储和查找；

需要说明的是，环境检查模块主要是对系统所使用到的算法所需要的环境以及数据库做预检查和预加载，确保正常运行系统所需要的前置条件都预备。在环境检查模块中，主要检查Redis数据库、ES(ElasticSearch)数据库、深度学习模型(比如FastText模型)、Trie树模型和Trie树关键词列表。若这些组件没有准备好，则会自动按照不同的系统进行组件配置部署，确保系统能够正常运行。

文本预处理模块主要是对数据进行预处理，以符合文本分类处理模块的算法输入处理的要求，本质上是优化输入特征空间，去除冗余无效信息，提高信息的浓缩度。文本预处理模块的文本处理主要包括对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL 检测和IP检测。其中：

标点符号清洗：主要是对标点符号进行清洗，如“今天，天气真的，非常不错”，进行标点符号清洗后的结果为“今天天气真的非常不错”。

单词纠正：对错误词进行纠正，例如“公公公交车车车”，纠正结果为“公交车”。

停用词过滤：为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，譬如下列、下去、下来等这些表修饰的词不会影响文本安全审核结果，因此可以选择过滤掉，用以提高推理速度。

繁体转简体：譬如“心裏”，“雨裏”，“夢裏”或“心裡”，“雨裡”，“夢裡”，这些都是表达同一个意思，因此如果都映射到同一个特征空间的话，这样模型所需学习的内容会更加简单，因此都需要统一转成简化输入特征空间。

分词：主要用于专门学习特定字词的语义空间而考虑的。

数字转文本：在这个模块我们主要将数字转成文本，规整输入特征空间，这里的数字有年代、时间、电话号码、百分比、分数、小数以及变种数字。

URL检测和IP检测：主要用于判断非法URL和IP。

文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块

关键词匹配子模块采用压缩前缀树进行数据存储和查找。在字典树的存储中，会存在大量的空节点和分支，而且每个节点中会存储大量的子节点和父节点信息，而且针对长文本的存储需要开辟非常大的内存进行结构信息的存储，造成一定的空间浪费。即便字典树能够实现快速查找，但是在内存占用方面过于庞大，不便于线上大规模部署，进一步会带来部署成本的大幅上升。因此，需要新的数据结构来弥补字典树的内存占用缺陷。双数组字典树结合了数组查询效率高，列表节省空间的优点，将原来需要多个数组才能表达的字典树，通过两个数组就可以存储下来了。具体是通过基础数组和查询数组来实现，字典树可以等同于一个自动机，状态为树节点的编号，边为字符，那么可以用g(r,c)＝s来表示状态r可以按照字符c转移到状态s。基础数组用于记录状态，将所有节点的状态都记录到一个数组中，以避免数组的大量空置。基础数组仅仅会通过数组的位置记录下字符的状态(结点)，用以实现在一维数组中实现字典中字符的链路关系。查询数组用于验证转移的有效性，用以标识出基础数组中每个状态的前一状态，以检验状态转移的正确性，也就是检查各个字符是否是从一个状态转移而来的。因而可以实现查询速度不变的情况下，内存占用大幅下降的效果。

但是双数组字典树的内存占用效果还是达不到最优，为进一步降低内存占用空间，本发明中使用压缩前缀树进行数据存储和查找。压缩前缀树是一种更节省空间的字典树，对于数组的每个节点，如果该节点是唯一的孩子，则就和父节点合并，使用压缩前缀树的查询速度达毫秒级别，内存占用情况比使用字典树数据结构降低了两千多倍。

关键词匹配子模块比较依赖于关键词词库，如果有一些敏感词没有在词库中，单靠关键词匹配子模块的话，就没有办法预测这种集外情况。因此，本发明中还设置有句子相似度匹配子模块，在关键词匹配子模块无法预测敏感词时，通过句子相似度匹配子模块进行匹配。在句子相似度匹配子模块中，结合弹性搜索的高性能分布式子模块和分词子模块，用以实现在海量数据中进行毫秒级别的句子匹配。具体而言，弹性搜索的高性能分布式子模块用于在极短的时间内分布式存储、搜索以及分析海量的数据，能够应对复杂搜索场景。分词子模块则是为了更好地适配业务场景，把一些垂直领域的特有名词加到分词模型里面，这样搜索模块在进行文本搜索时能够更加精准地匹配。

同关键词匹配子模块相同的问题，句子相似度匹配子模块的词库有可能不足以覆盖复杂语义空间的文本，因此在审核能力上仍需要考虑补充。出于语义空间预测的需求考虑，在句子相似度匹配子模块之后设置文本分类深度学习子模块，对句子相似度匹配子模块无法预测的句子进行深度学习的文本分类。

经过文本分类处理模块之后，文本应被赋予对应的分类标签，譬如广告、黑名单和违禁。结果解析模块根据文本分类处理模块的文本匹配结果进行解析和输出，解析层面可以是对查询结果进行优先级排序，譬如如果优先关注的是广告内容，则将广告标签前置。结果解析模块设置PASS、REJECT和 REVIEW单元，PASS单元为文本安全审核结果通过时的输出，REJECT单元为文本安全审核结果不通过时的输出，REVIEW单元为文本安全审核结果不确定时的输出。

在一个实施例中，文本分类深度学习子模块中的文本分类深度学习模型为浅层神经网络，浅层神经网络包括输入层、隐藏层和输出层，如图2所示。使用一个浅层神经网络，考虑将文本信息映射到一个低维输入特征空间上，用于降低维度信息，同时结合分层归一化指数函数进行快速分类，通过使用树的层级结构替代扁平化的标准归一化指数函数，使得在计算概率时，只需要计算一条路径上的所有节点的概率值。经收集业务数据进行处理，通过关键词匹配子模块、句子相似度匹配子模块和以浅层神经网络作为学习模型的文本分类深度学习模型的结合，文本内容安全审核准确率可达到94％以上。

对于句子相似度匹配子模块中的弹性搜索的高性能分布式子模块，匹配出来的句子不一定是相似的，因此，在一个实施例中，还可以在句子相似度匹配子模块中设置句子差异性计算子模块，用于计算查询文本和结果文本集合的最小编辑距离，根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。也就是说，在给定查询文本的时候，弹性搜索的高性能分布式子模块会结合自身海量的文本数据库进行匹配搜索，而在匹配搜索的过程中，会应用到业务特定的分词模块进行文本分词，借以提高匹配的准确率。而在弹性搜索的高性能分布式子模块匹配候选集出来之后，会再经过句子差异性计算子模块的计算模型进行二次校验，来判定查询文本是否真正和匹配候选集相似。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种NLP文本安全审核多级检索系统，其特征在于，包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块；

关键词匹配子模块采用压缩前缀树进行数据存储和查找；

2.根据权利要求1所述的NLP文本安全审核多级检索系统，其特征在于，句子相似度匹配子模块还包括：

3.根据权利要求1所述的NLP文本安全审核多级检索系统，其特征在于，预置文本分类深度学习模型为浅层神经网络，浅层神经网络包括输入层、隐藏层和输出层。

4.根据权利要求1所述的NLP文本安全审核多级检索系统，其特征在于，结果解析模块具体用于：

5.根据权利要求1所述的NLP文本安全审核多级检索系统，其特征在于，环境检查模块具体用于：

预检查和预加载Redis数据库、ES数据库、FastText模型、Trie树模型和Trie树关键词列表。

6.根据权利要求1所述的NLP文本安全审核多级检索系统，其特征在于，文本预处理模块具体用于：