CN114386388B

CN114386388B - 一种用于用户生成文本内容合规校验的文本检测引擎

Info

Publication number: CN114386388B
Application number: CN202210281882.8A
Authority: CN
Inventors: 李遵山
Original assignee: Shenzhen Shang Mi Network Technology Co ltd
Current assignee: Shenzhen Shang Mi Network Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-28
Anticipated expiration: 2042-03-22
Also published as: CN114386388A

Abstract

本发明提供了一种用于用户生成文本内容合规校验的文本检测引擎，应用于用户生成文本内容的合规性校验；所述文本检测引擎包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块；第一合规校验模块包括：黑白名单过滤模块、关键词检测模块、用户检测模块；第一合规校验模块可实现黑白名单过滤、关键词检测、用户检测、风险因数计算；第二合规校验模块用于恶意文本检验；数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果。

Description

一种用于用户生成文本内容合规校验的文本检测引擎

技术领域

本发明涉及计算机技术领域，具体涉及一种用于用户生成文本内容合规校验的文本检测引擎。

背景技术

随着网络用户的日益增长，互联网平台的用户发布内容的审核治理问题日益严峻，针对有违法违规或违反互联网平台规定的信息或内容需要及时发现和治理，以避免用户发布信息造成恶劣的社会影响或对互联网平台的正常运行带来负面影响。因此，互联网平台需要依赖高效、准确的用户生成内容合规检验方法来实现上述需求。

用户生成内容的主要内容形式包括文本、图像、音频、视频等，其中文本内容占用户生成内容相当大比重。当前针对用户生成文本内容的检验方法包括人工审核、关键词屏蔽、文本聚类分析、自然语言处理算法、人工智能算法等。

但由于当前用户生成文本以用户评论、分享、答案等场景出现，且往往与所评论、分析、回答的内容主题有较强关联性，其中违规文本多为具有恶意诱导性的文本，如以恶意商业竞争为目的的文本；传统的用户生成文本检测方法往往会出现漏检或误检的问题，需要耗费大量人工成本进行人工检验，且往往由于人工检测不及时造成不良的社会影响。

发明内容

针对上述存在的技术局限性，本发明提出了一种用于用户生成文本内容合规校验的文本检测引擎；依靠文本检测引擎的关键词检测、用户检测、恶意文本检验方法，克服了背景技术中提到的不足和缺陷。

为实现上述目的，本发明采用以下技术方案：

一种文本检测引擎，包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块。所述第一合规校验模块包括：黑白名单过滤模块、关键词检测模块、用户检测模块。所述第一合规校验模块可实现黑白名单过滤、关键词检测、用户检测、风险因数计算；所述第二合规校验模块用于恶意文本检验。所述数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果。所述数据库模块包括违规关键词数据库、用户黑白名单数据库、IP黑白名单数据库及引擎参数数据库。

所述文本检测引擎通过以下步骤实现用户生成文本内容的合规校验：

步骤S1、文本检测引擎获取用户生成文本请求，将用户生成文本请求信息输入第一合规校验模块，得到第一合规校验结果；所述用户生成文本请求信息包括用户发布文本内容、文本关联主题信息、用户信息及设备环境信息；所述第一合规校验结果为风险因数；

步骤S2、当风险因数小于风险阈值N₀时，文本检测引擎准许用户生成文本请求；当风险因数大于风险阈值N₁时，文本检测引擎拒绝用户生成文本请求；当风险因数介于N₀、N₁之间时，文本检测引擎调用第二合规校验模块，并将用户生成文本请求信息及风险因数输入第二合规校验模块；

步骤S3、第二合规校验模块对输入数据进行恶意文本检验，得到恶意文本检验结果；

步骤S4、文本检测引擎根据恶意文本检测结果准许或拒绝用户生成文本请求。

所述黑白名单过滤模块通过以下方式进行黑白名单过滤：

文本检测引擎调用第一合规校验模块中的黑白名单过滤模块从用户生成文本请求中提取用户id、IP数据、并分别在所述用户黑白名单数据库、所述IP黑白名单数据库中进行查询；若用户id或IP命中白名单，则输出黑白名单校验结果为“0”；若用户id或IP命中黑名单，则输出黑白名单校验结果为“1”；若用户id、IP均未在所述用户黑白名单数据库、所述IP黑白名单数据库中，则输出黑白名单校验结果为“2”。

所述关键词检测模块通过以下方式进行关键词检测：

关键词检测模块对输入的用户发布文本内容进行分词处理，得到关键词列表，并从关键词列表中删除安全词组；将关键词列表中的元素分别在所述违规关键词数据库中进行查询检测，得到关键词违规特征，并输出至风险分析模块。

所述用户检测模块通过以下方式进行用户检测：

用户检测模块对输入的用户信息及设备环境信息进行特征提取，得到用户特征数据，并将用户特征数据输入至已训练的用户分析模型，得到用户风险概率数值。

所述用户分析模型通过以下方式得到：对原始用户操作数据集进行数据清洗和特征提取获得用户分析模型数据集；将所述用户分析模型数据集拆分为用户分析模型训练集和用户分析模型测试集；采用机器学习算法依靠用户分析模型训练集训练用户分析模型，并利用用户分析模型测试集对用户分析模型进行评估；调整参数不断训练模型直到召回率和准确率满足预设阈值，输出用户分析模型。

所述恶意文本检验模型通过以下方式得到：

通过人工筛选标注从原始文本数据及对应文本的原始用户数据得到原始恶意文本检验模型数据集；将原始恶意文本检验数据集输入所述第一合规校验模块对原始恶意文本检验数据集的每一条数据进行风险因数计算，将风险因数并入原始恶意文本检验数据集；将原始恶意文本检验数据集中的原始文本数据按照所述步骤S31方法计算主题相似度，将主题相似度并入原始恶意文本检验数据集；从原始恶意文本检验数据集中提取得到原始恶意文本检验模型数据集；将原始恶意文本检验模型数据集拆分为恶意文本检验训练集和恶意文本检验测试集；采用机器学习算法依靠恶意文本检验训练集训练综合文本检测模型，并利用恶意文本检验测试集对恶意文本检验模型进行评估；调整参数不断训练模型直到召回率和准确率满足预设阈值，输出恶意文本检验模型。

所述文本检测引擎还包括引擎管理优化模块，引擎管理优化模块用于支持文本检测引擎的关键参数优化。

所述关键参数优化是指文本检测引擎的运维人员通过引擎管理优化模块提供的数据库操作接口，根据业务需要对所述关键词数据库、所述用户黑白名单数据库、所述IP黑白名单数据库、所述引擎参数数据库中的数据进行增加、修改、删除操作。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种用户生成文本内容的合规校验方法达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明借助关键词和用户分析检测对用户生成文本进行合规检验，提高了文本合规检验的效率和准确性；依靠文本检测引擎的恶意诱导文本检测模型针对恶性竞争、恶意诱导类型的用户生成文本有针对性的检测效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图,详细说明如下。

附图说明

图1为本发明实施例提供的一种用户生成文本的文本检测引擎结构图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例，对依据本发明提出的一种用户生成文本内容的合规校验方法，详细说明如后。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本发明实施例提供了一种用于用户生成文本内容合规校验的文本检测引擎。

参照图1所示，文本检测引擎包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块。所述第一合规校验模块包括：黑白名单过滤模块、关键词检测模块、用户检测模块、风险分析模块。所述第一合规校验模块可实现黑白名单过滤、关键词检测、用户检测、风险因数计算；所述第二合规校验模块用于恶意文本检验。所述数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果。

进一步的，所述数据库模块包括违规关键词数据库、用户黑白名单数据库、IP黑白名单数据库及引擎参数数据库。

所述违规关键词数据库存储有违法违规关键字字符及对应的违法违规类型。所述关键字字符包括违法违规的关键字及对应的缩写、同音、外文翻译字符。所述违规关键词数据库包括违规关键词列表。所述违规关键词列表包括违规词字符串字段、违规词关联id字段、违规词类型标识字段。

所述用户黑白名单数据库存储有黑白名单用户信息，包括用户黑名单列表、用户白名单列表。所述用户黑名单列表、用户白名单列表均包括用户id字段、用户名称字符串字段、用户注册信息关联id字段。

所述IP黑白名单数据库存储有黑白名单IP信息，包括IP黑名单列表、IP白名单列表。所述IP黑名单列表、IP白名单列表均包括IP字符串字段。

所述引擎参数数据库包括引擎参数列表、违规类型风险系数列表。所述引擎参数列表包括引擎参数标识字段、参数值数值字段。所述违规类型风险系数列表包括违规词类型标识字段、违规词类型风险系数数值字段。

作为一种实施例，步骤S1包括：

步骤S11、当用户生成文本并发出用户生成文本请求时，文本检测引擎调用数据接口模块获取用户生成文本请求；

步骤S12、文本检测引擎调用第一合规校验模块中的黑白名单过滤模块从用户生成文本请求中提取用户id、IP数据、并分别在所述用户黑白名单数据库、所述IP黑白名单数据库中进行查询；若用户id或IP命中白名单，则输出黑白名单校验结果为“0”；若用户id或IP命中黑名单，则输出黑白名单校验结果为“1”；若用户id、IP均未在所述用户黑白名单数据库、所述IP黑白名单数据库中，则输出黑白名单校验结果为“2”；

步骤S13、当黑白名单校验结果为“0”或“1”时，风险因数相应置为“0”或“1”，并输出风险因数；当黑白名单校验结果为“2”时，文本检测引擎调用第一合规校验模块中的关键词检测模块、用户检测模块分别对用户生成文本请求进行关键词检测和用户检测得到关键词违规特征、用户风险概率数值，随后调用风险分析模块根据关键词违规特征、用户风险概率数值计算风险因数。

作为一种实施例，所述关键词检测模块通过以下方式进行关键词检测：

可以理解的是，所述分词处理为常规的文本处理手段，依靠现有的中文分词算法可实现本发明中的分词处理操作，在此不赘述。

可以理解的是，所述查询检测即以所述关键词列表中的所有元素为关键词在违规关键词数据库中进行查询统计，依靠数据库结构化查询语言（SQL）或通过C、C++、Java语言编写的数据库查询函数均可完成查询检测操作，在此不赘述。

所述关键词违规特征包括违规词出现的数量、频率、违规类型标识，所述关键词违规特征以数据字典列表的形式输出，形式为[{"违规类型标识":I _i, "出现数量":n _i, "出现频率":P _i ,}, ……]；其中出现频率即违规关键词在关键词列表中所占的比例，违规类型标识取值及含义如下：

作为一种实施例，所述用户检测模块通过以下方式进行用户检测：

所述用户检测结果为用户风险概率数值，表征发出用户生成文本请求的用户是否存在恶意发布风险，其中“0”代表“不违规”、“1”代表“违规”、其余数值代表“存在违规可能”。

所述原始用户数据集由文本检测引擎外部的用户数据库直接获得，所述原始用户操作数据集包括但不限于以下数据字段：操作对象、操作类型、操作时间、操作时登录ip地址、违规标识、违规类型标签，违规时间。

可以理解的是，所述用户分析模型训练时所采用的机器学习算法包括：逻辑回归算法、决策树、遗传算法、支持向量机（SVN）、K-means算法、随机森林和朴素贝叶斯算法，采用不同算法时其程序设计有所差异，但均为成熟技术手段，本领域的技术人员根据上述实施例的描述，完全可顺利实现该算法，在此不赘述。

所述风险分析模块依据所述关键词检测模块输出的关键词违规特征及所述用户检测模块输出的用户风险概率数值通过预设的风险计算模型计算得出风险因数。

作为一种实施例，所述风险计算模型为：

其中，β为风险因数，β ₀、β ₁分别代表用户风险因数和关键字风险因数，a ₀、a ₁分别为用户风险因数权值和关键字风险因数权值。

所述用户风险因数的值为用户风险概率数值。

所述关键字风险因数依据所述关键词违规特征通过以下方式计算：

其中，P _i为关键词违规特征数据字典列表第i个元素对应的出现频率，α _i为关键词违规特征数据字典列表第i个元素对应的出现频率违规类型标识I _i的风险系数。

作为一种实施例，步骤S3包括：

步骤S31、第二合规校验模块提取用户生成文本请求信息中的用户发布文本内容、文本关联主题文本内容，并对用户发布文本内容和文本关联主题文本内容数据进行相似性检测，得到主题相似度；

步骤S32、第二合规校验模块提取用户发布文本内容的文本特征信息，并将文本特征信息、主题相似度、风险因数输入至已训练的恶意文本检验模型进行恶意文本检验；

步骤S33、第二合规校验模块输出恶意文本检验结果，所述恶意文本检验结果表征用户生成文本是否包含恶意诱导违规情况。

作为一种实施例，考虑到文本检测引擎的恶意文本检验实际应用场景中以中长文本为主，步骤S31中所述的相似性检测采用改进的SimHash算法，具体包括：

步骤S311、分别提取所述用户发布文本内容和文本关联主题文本内容的关键词和词频，得到包含关键词和词频的二维元组的第一文本特征集合和第二文本特征集合；

步骤S312、对第一文本特征集合的关键词均按照hash算法转化为二进制的hash字符串，得到包含关键词hash字符串和词频的二元组的第一文本hash特征集合；

步骤S322、对第一文本hash特征集合中的每一个二元组均按照以下方式处理得到第一文本权值特征集合：二元组关键词hash字符串的每一位乘以对应词频得到一维元组；其中当前位为0时词频乘-1，当前位为1时词频乘1；

步骤S313、将第一文本权值特征集合所有元组中的数字按位相加，并对每一位做如下映射得到第一文本SimHash值：若当前位的数值大于0，则该位置为1，否则该位置为0；

步骤S314、按照步骤S312、步骤S313的方法对步骤S311中得到的第二文本特征集合进行处理，得到第二文本SimHash值；

步骤S315、计算第一文本SimHash值与第二文本SimHash值的汉明距离并归一化得到主题相似度；

作为一种实施例，步骤S32中所述恶意文本检验模型通过以下方式得到：

所述从原始文本数据包括用户文本、关联主题文本、违规标记、用户id。所述原始用户数据包括用户id、操作对象、操作类型、操作时间、操作时登录ip地址、违规标识、违规类型标签，违规时间。所述原始恶意文本检验模型数据集包括用户文本、风险因数、主题相似度。

可以理解的是，所述恶意文本检验模型训练时所采用的机器学习算法包括：逻辑回归算法、决策树、遗传算法、支持向量机（SVN）、K-means算法、随机森林和朴素贝叶斯算法，采用不同算法时其程序设计有所差异，但均为成熟技术手段，本领域的技术人员根据上述实施例的描述，完全可顺利实现该算法，在此不赘述。

本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机、可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后，需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明,任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

所述文本检测引擎包括第一合规校验模块、第二合规校验模块、数据接口模块、数据库模块、引擎管理优化模块；所述第一合规校验模块包括：黑白名单过滤模块、关键词检测模块、用户检测模块、风险分析模块；所述第一合规校验模块用于黑白名单过滤、关键词检测、用户检测、风险因数计算；所述第二合规校验模块用于恶意文本检验；所述数据接口模块用于获取用户生成文本请求、从外部数据库获取用户信息数据、输出文本内容合规检验结果；

步骤S1、文本检测引擎获取用户生成文本请求，将用户生成文本请求信息输入第一合规校验模块，得到第一合规检验结果；所述用户生成文本请求信息包括用户发布文本内容、文本关联主题信息、用户信息及设备环境信息；所述第一合规检验结果为风险因数；

步骤S4、文本检测引擎根据恶意文本检测结果准许或拒绝用户生成文本请求；

其中，所述步骤S3包括：

步骤S33、第二合规检验模块输出恶意文本检验结果，所述恶意文本检验结果表征用户生成文本是否包含恶意诱导违规情况。

2.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，所述数据库模块包括违规关键词数据库、用户黑白名单数据库、IP黑白名单数据库及引擎参数数据库。

3.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，步骤S1包括：

步骤S12、文本检测引擎调用第一合规校验模块中的黑白名单过滤模块从用户生成文本请求中提取用户id、IP数据、并分别在用户黑白名单数据库、IP黑白名单数据库中进行查询；若用户id或IP命中白名单，则输出黑白名单校验结果为“0”；若用户id或IP命中黑名单，则输出黑白名单校验结果为“1”；若用户id、IP均未在用户黑白名单数据库、IP黑白名单数据库中，则输出黑白名单校验结果为“2”；

步骤S13、当黑白名单校验结果为“0”或“1”时，风险因数相应置为“0”或“1”，并输出风险因数；当黑白名单校验结果为“2”时，文本检测引擎调用第一合规校验模型中的关键词检测模块、用户检测模块分别对用户生成文本请求进行关键词检测和用户检测得到关键词违规特征、用户风险概率数值，随后调用风险分析模块根据关键词违规特征、用户风险概率数值计算风险因数。

4.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

所述关键词检测模块通过以下方式进行关键词检测：

关键词检测模块对输入的用户发布文本内容进行分词处理，得到关键词列表，并从关键词列表中删除安全词组；将关键词列表中的元素分别在违规关键词数据库中进行查询检测，得到关键词违规特征，并输出至风险分析模块。

5.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

所述用户检测模块通过以下方式进行用户检测：

用户检测模块对输入的用户信息及设备环境信息进行特征提取，得到用户特征数据，并将用户特征数据输入至已训练的用户分析模型，得到用户风险概率数值；

用户检测结果为用户风险概率数值，表征发出用户生成文本请求的用户是否存在恶意发布风险，其中“0”代表“不违规”、“1”代表“违规”、其余数值代表“存在违规可能”。

6.根据权利要求5所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

7.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本

检测引擎，其特征在于，步骤S31包括：

步骤S313、将第一文本权值特征集合所有元组中的数字按位相加，并对每一位做如下映射得到第一文本SimHash值：若当前位的数值大于0，则该位数置为1，否则该位数置为0；

步骤S315、计算第一文本SimHash值与第二文本SimHash值的汉明距离并归一化得到主题相似度。

8.根据权利要求1所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

所述恶意文本检验模型通过以下方式得到：

通过人工筛选标注从原始文本数据及对应文本的原始用户数据得到原始恶意文本检验模型数据集；将原始恶意文本检验数据集输入第一合规检验模型对原始恶意文本检验数据集的每一条数据进行风险因数计算，将风险因数并入原始恶意文本检验数据集；将原始恶意文本检验数据集中的原始文本数据按照所述步骤S31方法计算主题相似度，将主题相似度并入原始恶意文本检验数据集；从原始恶意文本检验数据集中提取得到原始恶意文本检验模型数据集；将原始恶意文本检验模型数据集拆分为恶意文本检验训练集和恶意文本检验测试集；采用机器学习算法依靠恶意文本检验训练集训练综合文本检测模型，并利用恶意文本检验测试集对恶意文本检验模型进行评估；调整参数不断训练模型直到召回率和准确率满足预设阈值，输出恶意文本检验模型。

9.根据权利要求8所述的一种用于用户生成文本内容合规校验的文本检测引擎，其特征在于，

所述机器学习算法包括：逻辑回归算法、决策树、遗传算法、支持向量机、K-means算法、随机森林和朴素贝叶斯算法。