CN115544204A

CN115544204A - 一种不良语料过滤方法以及系统

Info

Publication number: CN115544204A
Application number: CN202210905334.8A
Authority: CN
Inventors: 蒋晓宁; 刘凯; 程凯林; 周郁寒; 谢洪民
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-12-30
Also published as: US20240037328A1

Abstract

本发明公开了一种不良语料过滤方法以及系统，其中方法包括以下步骤：获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；抽取基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；根据语料识别模型对基础文本语料进行检测识别，得到第二识别结果；根据第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。本发明通过知识图谱技术对不良文本进行筛选，利用其语义网络本质和强大关联能力，能够获取多个候选不良实体有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。

Description

一种不良语料过滤方法以及系统

技术领域

本发明涉及文本信息的处理，具体涉及一种面向网络平台的不良语料过滤方法。

背景技术

近年来，随着移动互联网时代的到来以及5G通信等技术的蓬勃发展，使得各种社交平台及电商平台应声而起，海量用户可以通过弹幕评论和留言评论等文本形式来进行实时交流和思想表达。然而由于互联网的虚拟性，使得这些网络平台上充斥着大量的网络不良文本语料，各种广告、色情低俗、暴力以及反动为主的不良信息层出不穷，严重损害了互联网的沟通环境，并且渐渐以更为隐晦的方式，如拼音、谐音、拆分词和新词等形式出现。因此，如何抑制不良信息的扩散，过滤各种不良低俗信息，以保证良好的互联网环境就显得尤为重要。

目前，网络平台的不良信息过滤方法主要基于关键字匹配方式进行信息过滤，虽然该类方法简单、快捷、易操作，但实际过滤效果仍不理想，易出现漏过滤现象，且难以应付现有多变且隐晦的互联网评论环境中，无法及时有效的对更隐晦的不良信息进行准确过滤。

发明内容

为了过滤网络平台中的不良语料信息，本申请提供一种不良语料过滤方法。

一种不良语料过滤方法，包括以下步骤：

获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；

抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；

根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果；

根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。

进一步地，所述不良文本知识图谱的构建包括：

获取大量在网络平台中的原始不良文本信息，抽取所述原始不良文本信息的实体，得到若干不良词实体；

对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体；

按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取，并通过实体消歧处理进行三元组构建，得到不良文本知识图谱。

进一步地，得到第一识别结果，具体包括：

根据所述不良文本知识图谱筛选所述基础文本语料的实体，按预设数量获取若干候选不良实体；

利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量，根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度，根据所述相似度得到第一识别结果。

进一步地，所述语料识别模型为KNN模型

进一步地，所述语料识别模型的构建包括：

获取用户反馈的不良信息，采集正常语料信息；

对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换，得到拼音语料信息和谐音语料信息；

将所述不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集划分为训练集和测试集，并将所述样本集通过word2vec模型映射为空间向量；

利用KNN模型对映射为空间向量的训练集进行训练，获得语料识别模型。

进一步地，对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体，包括：

对所述不良词实体进行拼音转换，将不良词实体的汉字逐词进行拼音转换，得到不良词拼音实体；

对所述不良词实体进行谐音转换，将不良词实体的汉字逐词进行谐音转换，得到不良词谐音实体。

进一步地，所述待识别文本语料包括弹幕评论和留言评论。

进一步地，所述预处理包括分词处理、停用词处理和虚词处理。

本发明的有益效果为：

本申请的不良信息过滤方法通过对大量初始不良文本语料进行实体抽取，并将其进行拼音和谐音的实体转换构建得到不良文本知识图谱，本发明通过知识图谱技术对不良文本进行筛选，利用其语义网络本质和强大关联能力，能够获取多个候选不良实体，并利用余弦相似度进行进一步确定，从而有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。此外，本发明还提供第二种识别方式，其基于用户反馈不良信息构建机器学习模型，从而有利于筛选过滤出新词形式的隐晦不良信息；而且通过将新词形式不良信息实时更新到不良文本知识图谱中，进而有利于及时有效的对多种隐晦的不良信息进行精准过滤，且有利于降低漏过滤现象的发生，有利于净化互联网的沟通环境。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是不良语料的过滤方法流程示意图；

图2是不良语料过滤系统的示意图。

具体实施方式

为使得本申请的申请目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面结合附图和具体实施例，进一步阐明本发明。

实施例1

本实施例提供一种不良语料过滤方法，如图1所示，包括以下步骤：

S1，获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料。

S2，抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果。

S3，根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果。

步骤S2和S3不存在先后关系。可能会发生并无第一识别结果的情况，因为不良文本知识图谱是在不断更新中的，有些不良词可能在一开始没有被不良文本知识图谱收录。若无第一识别结果，则执行步骤S3；若有第一识别结果，则执行步骤S4。

S4，根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料。

S5，根据所述第二识别结果对不良文本知识图谱进行更新。

步骤S4和S5不存在先后关系。

S1中的待识别文本语料是在网络平台中获取的，包括弹幕评论和留言评论。对待识别文本语料预处理，具体包括对待识别文本语料中的分词、停用词以及虚词进行处理。

S2中的不良文本知识图谱的构建包括以下步骤：

基于数据爬虫技术获取大量在网络平台中的原始不良文本信息，逐一对这些原始不良文本信息进行预处理，利用外部词典方法抽取原始不良文本信息的实体，得到若干不良词实体。

对不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体。具体包括：对不良词实体进行拼音转换，将不良词实体的汉字逐词进行拼音转换，得到不良词拼音实体；对不良词实体进行谐音转换，将不良词实体的汉字逐词进行谐音转换，得到不良词谐音实体。

按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取，并通过实体消歧处理进行三元组构建，得到不良文本知识图谱，将不良文本知识图谱存入Neo4j图数据库。

第一识别的过程包括如下步骤：

对预处理后的待识别文本语料的基础文本语料的实体进行抽取，根据不良文本知识图谱筛选这些被抽取的实体，按预设数量获取若干候选不良实体；

利用word2vec模型将基础文本语料和候选不良实体映射成多维向量，根据余弦相似度计算方法计算基础文本语料与候选不良实体的相似度，根据相似度得到第一识别结果。

相似度计算公式如下：

其中，cosθ为余弦相似度，区间[0,1]；A为基础文本语料向量特征；B为候选不良实体向量特征；n为向量特征个数。

S3中的语料识别模型为KNN模型，具体构建过程包括以下步骤：

在多个网络平台上获取用户反馈的不良信息，采集正常语料信息。

对不良信息以及正常语料信息逐词进行拼音转换和谐音转换，得到拼音语料信息和谐音语料信息。

将不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集按照 7:3的比例划分为训练集和测试集，并将样本集通过word2vec模型映射为空间向量。

利用KNN模型对映射为空间向量的训练集进行训练，获得语料识别模型；对训练后的语料识别模型进行模型评价，若模型评价结果是满足模型生成条件，则该语料识别模型合格，可输出，否则继续训练。

本方案中以第二识别结果作为第一识别结果的补充，建立模型可以过滤出新词形式的隐晦不良信息，将新词形式不良信息实时更新到不良文本知识图谱中，进而有利于及时有效的对多种隐晦的不良信息进行精准过滤。

实施例2

本实施例提供一种不良语料过滤系统，用于实现上述实施例1中的不良语料过滤方法。如图2所示，包括：

信息获取模块，用于获取待识别文本语料；将待识别文本语料导入预处理模块，预处理模块对待识别文本语料进行分词、停用词和虚词的预处理，得到基础文本语料。将基础文本语料导入第一识别模块和第二识别模块进行检测识别。

图数据库，用于存储不良文本知识图谱，模型库，用于存储语料识别模型。

第一识别模块，调用图数据库存储的不良文本知识图谱，抽取基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果。具体识别过程包括如下步骤：

相似度计算公式如下：

第二识别模块，调用模型库中存储的语料识别模型，根据语料识别模型检测识别基础文本语料，得到第二识别结果。

过滤模块，接收第一识别模块得到的第一识别结果和第二识别模块得到的第二识别结果，根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语料。

更新模块，用于根据所述第二识别结果对不良文本知识图谱进行更新。

还包括构建模块，用于构建不良文本知识图谱和语料识别模型，构建好的不良文本知识图谱和语料识别模型分别存入图数据库和模型库。

构建不良文本知识图谱的构建过程如下：

语料识别模型的构建过程如下：

利用KNN模型对映射为空间向量的训练集进行训练，获得语料识别模型；对训练后的语料识别模型进行模型评价，若模型评价结果是满足模型生成条件，则该语料识别模型合格，可输出，否则继续训练。将语料识别模型输出至模型库存储。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。

所述模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理模块或多个物理模块，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基础并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和 /或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种不良语料过滤方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的不良语料过滤方法，其特征在于，所述不良文本知识图谱的构建包括：

3.根据权利要求1所述的不良语料过滤方法，其特征在于，得到第一识别结果，具体包括：根据所述不良文本知识图谱筛选所述基础文本语料的实体，按预设数量获取若干候选不良实体；

4.根据权利要求1所述的不良语料过滤方法，其特征在于，所述语料识别模型为KNN模型。

5.根据权利要求4所述的不良语料过滤方法，其特征在于，所述语料识别模型的构建包括：

获取用户反馈的不良信息，采集正常语料信息；

6.根据权利要求2所述的不良语料过滤方法，其特征在于，对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体，包括：

7.根据权利要求1所述的不良语料过滤方法，其特征在于，所述待识别文本语料包括弹幕评论和留言评论。

8.根据权利要求1所述的不良语料过滤方法，其特征在于，所述预处理包括分词处理、停用词处理和虚词处理。

9.一种不良语料过滤系统，其特征在于，包括：

信息获取模块，用于获取待识别文本语料；

预处理模块，用于对所述待识别文本语料进行预处理，得到基础文本语料；

图数据库，用于存储不良文本知识图谱，模型库，用于存储语料识别模型；

第一识别模块，用于抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；

第二识别模块，用于根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果；

过滤模块，用于根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语料；

10.根据权利要求9所述的不良语料过滤系统，其特征在于，还包括构建模块，用于构建不良文本知识图谱以及语料识别模型。