CN110347934A

CN110347934A - 一种文本数据过滤方法、装置及介质

Info

Publication number: CN110347934A
Application number: CN201910650852.8A
Authority: CN
Inventors: 徐灿
Original assignee: Tencent Technology Chengdu Co Ltd
Current assignee: Tencent Technology Chengdu Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-10-18
Anticipated expiration: 2039-07-18
Also published as: CN110347934B

Abstract

本申请提供一种文本数据过滤方法，用于对用户生成内容进行过滤，例如贴吧、论坛或应用商店中用户发表的评论内容，包括：获取待过滤的第一文本数据；通过启发式规则过滤第一文本数据中的垃圾数据，得到第二文本数据；通过第一语言模型过滤第二文本数据中的非正常语句，得到第三文本数据；本申请还提供一种文本数据过滤装置、计算机设备及介质；能够对用户生成内容中不同类型的垃圾数据分别进行过滤。

Description

一种文本数据过滤方法、装置及介质

技术领域

本发明涉及文本处理技术领域，更具体地说，涉及一种文本数据过滤方法、装置及介质。

背景技术

用户生成内容(user generated content，UGC)，即用户原创内容，比如百度贴吧，各大论坛或应用商店中用户发表的评论等。网站管理员需要对UGC进行管理，从而避免评论区充斥大量垃圾数据，导致影响评论质量。

UGC垃圾数据包含多种不同的类型的垃圾数据。现有技术中还没有一种方法，能够分别对UGC中不同类型的垃圾数据进行过滤。

因此，上述问题还有待于改进。

发明内容

有鉴于此，为解决上述问题，本发明提供一种分布式文本聚类方法。技术方案如下：

一种文本数据过滤方法，包括：

获取待过滤的第一文本数据；

通过启发式规则过滤所述第一文本数据中的垃圾数据，得到第二文本数据；

通过第一语言模型过滤所述第二文本数据中的非正常语句，得到第三文本数据。

一种文本数据过滤装置，包括：

获取单元，所述获取单元用于获取待过滤的第一文本数据；

第一过滤单元，所述第一过滤单元用于通过启发式规则过滤所述获取单元获取的所述第一文本数据中的垃圾数据，得到第二文本数据；

第二过滤单元，所述第二过滤单元用于通过第一语言模型过滤所述第一过滤单元过滤后的所述第二文本数据中的非正常语句，得到第三文本数据。

可选地，该第一过滤单元，用于：

获取所述第一文本数据中符合第二预设规则的文本作为所述垃圾数据；

剔除所述垃圾数据，得到所述第二文本数据；

其中，符合所述第二预设规则的文本为：包含有乱码的文本、长度超过阈值的文本、文本内容中片段重复多次的文本及出现敏感词的文本中的至少一种；

当所述第一文本数据中的文本根据字典树和正则匹配规则匹配到敏感词库中敏感词的文本，判定为所述出现敏感词的文本数据。

可选地，该第二过滤单元，用于：

通过模型训练获取所述第一语言模型，所述第一语言模型中包含所述第二文本数据中所有词语的词向量；

所述通过第一语言模型过滤所述第二文本数据中的非正常语句，得到第三文本数据，包括：

所述第一语言模型根据所述词向量，获取所述第二文本数据中任意两个连续出现的词语之间的词语正确率；

获取所述第二文本数据的每个句子中的所述词语正确率的和，得到每个句子的句子正确率；

判定所述第二文本数据中句子正确率低于预设值的句子为所述非正常语句；

将所有非正常语句从所述第二文本数据中滤除，得到所述第三文本数据。

可选地，所述文本数据过滤装置还包括：

文本向量化单元，所述文本向量化单元用于，对所述第三文本数据进行文本向量化，得到文本向量集合；

聚类单元，所述聚类单元用于，通过分布式文本聚类方法对所述文本向量集合中的所有文本向量进行聚类，以得到聚类结果；

第三过滤单元，所述第三过滤单元用于，按照第一预设规则从所述聚类结果中获取过滤后的第四文本数据。

可选地，所述文本数据过滤装置还包括：

分词单元，所述分词单元用于，对所述第三文本数据进行分词；

第四过滤单元，所述第四过滤单元用于，对分词后的所述第三文本数据进行停止词的过滤；

所述文本向量化单元，还用于：

对经过所述分词单元分词和所述第四过滤单元进行停止词过滤后的所述第三文本数据进行文本向量化，得到所述文本向量集合，所述文本向量集合包含所述第三文本数据中所有文本的文本向量。

可选地，所述聚类单元用于：

根据文本向量集合获取第一矩阵，所述第一矩阵包含所述文本向量集合中的所有文本向量；

拆分所述第一矩阵得到X个子矩阵，所述X为大于1的整数；

根据所述X个子矩阵确定X个相似度子矩阵，其中，第一相似度子矩阵中包括第一子矩阵中的Y个文本向量与所述第一矩阵中的Z个文本向量分别比对后的Y*Z个相似度，所述Y和所述Z均为大于1的整数，所述第一子矩阵为所述X个子矩阵中的一个，所述第一相似度子矩阵为所述X个相似度子矩阵中的一个；

对所述X个相似度子矩阵分别进行矩阵稀疏化处理，以得到稀疏化后的X个第二相似度子矩阵；

对所述X个第二相似度子矩阵进行合并，以得到第一相似度矩阵；

根据所述第一相似度矩阵对所述文本向量集合中的所有文本向量进行聚类。

可选地，所述聚类单元还用于：

根据M行N列的拆分规则对所述第一矩阵进行拆分，得到所述X个子矩阵。

可选地，所述聚类单元还用于：

将所述X个子矩阵分别乘以所述第一矩阵的转置矩阵，以得到所述X个相似度子矩阵。

可选地，所述聚类单元还用于：

在所述X个相似度子矩阵中，将低于预设值的相似度的值设置为零；

剔除所述X个相似度子矩阵中数值为零的相似度，得到所述X个第二相似度子矩阵。

可选地，所述聚类单元还用于：

将所述第一相似度矩阵输入噪声的基于密度的聚类方法DBSCAN算法；

根据所述DBSCAN算法对所述文本向量集合中的所有文本向量进行聚类。

可选地，所述聚类单元还用于：

设置第一输入条件；

根据所述第一输入条件从所述聚类结果中获取第一输出结果；

当所述第一输出结果对应有多个相同的文本时，判断所述第一输出结果所对应的文本为重复文本；

剔除所述重复文本，得到过滤后的所述第四文本数据。

本申请还提供一种文本数据过滤方法，该方法应用于文本过滤，例如对网站用户生成内容进行垃圾数据的过滤，包括：获取待过滤的第一文本数据；通过启发式规则过滤第一文本数据中的垃圾数据，得到第二文本数据；通过第一语言模型过滤第二文本数据中的非正常语句，得到第三文本数据。从而剔除垃圾数据和非正常语句，实现对用户生成内容快速全面的过滤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1A为本申请实施例提供的一种分布式文本聚类方法的流程图；

图1B为本申请实施例提供的一种分布式文本聚类方法的一场景示例示意图；

图1C为本申请实施例提供的一种分布式文本聚类方法的另一场景示例示意图；

图1D为本申请实施例提供的一种分布式文本聚类方法的另一场景示例示意图；

图1E为本申请实施例提供的一种分布式文本聚类方法的另一场景示例示意图；

图1F为本申请实施例提供的一种分布式文本聚类方法的另一场景示例示意图；

图2A为本申请实施例提供的文本数据过滤方法的流程图；

图2B为本申请实施例提供的文本数据过滤方法中的模型训练方法的流程图；

图2C为本申请实施例提供的文本数据过滤方法的流程图；

图3为本申请实施例提供的计算机设备的结构示意图；

图4为本申请实施例提供的一种文本数据过滤装置的结构示意图；

图5为本申请实施例所提供的文本数据过滤方法在具体产品中使用的示意图；

图6为本申请实施例所提供的文本数据过滤方法在具体产品中使用的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

用户生成内容(user generated content，UGC)，即用户原创内容，比如百度贴吧，各大论坛或应用商店中用户发表的评论等。网站管理员需要对UGC进行垃圾数据过滤，在UGC垃圾数据过滤的过程中，对于用户刷帖和灌水行为的过滤是一个难点。

用户刷帖和灌水行为的模式主要包括：单一用户短在时间内发表大量内容相似的帖子或在某个主贴下的大量回帖相似内容等。为了对用户的刷帖和灌水行为进行过滤，需要对用户评论数据进行聚类，其核心步骤为：获取所有UGC，之后对所有UGC进行两两比对，从而得到各个UGC之间的相似程度。

然而在上述工作过程中，若UGC的数据量较大，例如有100万条评论时，两两比对之后的数据量为100万×100万，过大的数据量严重消耗内存，影响运行速度，从而限制了聚类算法的使用。

为解决上述问题，本申请实施例提供一种分布式文本聚类方法，能够通过对矩阵进行分块比对后分别进行矩阵稀疏化处理，从而在合并之后得到稀疏化的相似度矩阵，降低了大数据量时聚类算法的内存消耗，提升了运行速度。为便于理解，以下结合附图，对本申请实施例所提供的分布式文本聚类方法做详细说明。

请参阅图1A，如图1A所示，本申请实施例所提供的分布式文本聚类方法，包括以下步骤。

101、根据文本向量集合获取第一矩阵。

本实施例中，该第一矩阵包含该文本向量集合中的所有文本向量，请参阅图1B，如图1B所示，文本向量集合经执行主体10处理后得到第一矩阵，该执行主体可以为本申请实施例所提供的计算机设备，后面会详细叙述。即，文本向量集合中的一个文本向量对应第一矩阵中的一个元素；在具体工作过程中，该文本向量即为经过文本向量化处理之后的待过滤的UGC，例如，论坛的用户评论内容或发帖内容，第一矩阵中的一个元素对应用户在论坛中发布的一条内容。

102、拆分第一矩阵得到X个子矩阵。

本实施例中，X为大于1的整数；具体拆分方式可以为：根据M行N列的拆分规则对第一矩阵进行拆分，得到X个子矩阵。请参阅图1C，如图1C所示,将一个M行N列的矩阵M，按照每100行一个的拆分方式，得到矩阵M1至Mi。例如，第一矩阵为一个1000行1000列的矩阵，经拆分后，每个子矩阵具有100行1000列，则该第一矩阵可以拆分为10个子矩阵，可以表示为：第一矩阵M＝[M1,M2…M10]，其中，M1至M10用于表示拆分后得到的10个子矩阵。

103、根据X个子矩阵确定X个相似度子矩阵。

本实施例中，请参阅图1D，如图1D所示，X个子矩阵经执行主体10处理后得到X个相似度子矩阵，其中，第一相似度子矩阵中包括第一子矩阵中的Y个文本向量与第一矩阵中的Z个文本向量分别比对后的Y*Z个相似度，Y和Z均为大于1的整数，第一子矩阵为X个子矩阵中的一个，第一相似度子矩阵为所述X个相似度子矩阵中的一个。

具体地，根据X个子矩阵确定X个相似度子矩阵的方式可以基于Spark算法，具体为：将X个子矩阵分别乘以第一矩阵的转置矩阵，以得到X个相似度子矩阵。例如，第一子矩阵M1，包括第一矩阵M前100行的文本向量，第一子矩阵M1乘以第一矩阵M的转置M^T，则第一相似度子矩阵M1’＝M1×M^T，可选地，可以直接使用numpy进行上述计算。对剩余的子矩阵重复上述操作，以得到剩余的全部相似度子矩阵，可选地，上述获得X个相似度子矩阵的步骤可以是同步进行的，例如，子矩阵M1至M10同时乘以M^T，同时得到10个相似度子矩阵M1’至M10’。

需要说明的是，上述将X个子矩阵分别乘以第一矩阵的转置矩阵的目的，在于将X个子矩阵中每个矩阵的文本向量分别与第一矩阵中所记录的文本向量进行两两比对，从而在X个相似度子矩阵中记录文本向量两两之间的相似度。由于比对是通过分块之后的子矩阵的方式进行的，能够有效节省内存空间，例如，一个记录有100万条文本向量的第一矩阵，若直接乘以本身的转置进行相似度比对，会产生100万×100万的数据量，若按照上述方案将该第一矩阵拆分为100行一块的子矩阵，则一个子矩阵在乘以第一矩阵的转置进行相似度比对后，产生的数据量大幅缩小，从而缩小了内存消耗。

104、对X个相似度子矩阵分别进行矩阵稀疏化处理，以得到稀疏化后的X个第二相似度子矩阵。

本实施例中，Spark分布式本身提供了分布式的矩阵乘法，若仅仅是将X个相似度子矩阵合并，其数据量与第一矩阵乘以其转置相同，当矩阵过大时，内存会溢出，因此需要对X个相似度子矩阵进行稀疏化处理，从而使得最终得到的相似度矩阵不会产生内存溢出。请参阅图1E，如图1E所示，X个相似度子矩阵经执行主体10处理后得到X个第二相似度子矩阵。

可选地，该矩阵稀疏化处理的具体步骤可以为：

在X个相似度子矩阵中，将低于预设值的相似度的值设置为零；

剔除X个相似度子矩阵中数值为零的相似度，得到X个第二相似度子矩阵。

例如，第一矩阵M的元素是float32类型，M×M^T后的矩阵大小是100w×100w，所需内存是4T，这显然是难以接受的。在聚类过程中，相似度小于某个值的两个文本可以认为是无关的，可以直接置其相似度为0，并不影响聚类结果。这样相似度矩阵其实是一个非常稀疏的矩阵。实验发现，将相似度矩阵中小于0.5的值全部置为0，得到的稀疏矩阵中的非零元素个数只有原来的0.04％，同样100W的文本，原来需要4T内存空间，稀疏后只需要1.6G。经过修改，DBSCAN直接使用100w×100w的相似度稀疏矩阵能在10秒内完成聚类。

需要说明的是，当步骤103中，当采用并行方式同时根据X个子矩阵确定X个相似度子矩阵时，在获得X个相似度子矩阵的同时，即刻就需要对该X个相似度子矩阵执行步骤104的矩阵稀疏化步骤，以免产生内存溢出。

105、对X个第二相似度子矩阵进行合并，以得到第一相似度矩阵。

本实施例中，请参阅图1F，如图1F所示，X个第二相似度子矩阵经执行主体10处理后得到第一相似度矩阵。从而对X个第二相似度子矩阵进行合并，得到稀疏化的第一相似度矩阵。

106、根据第一相似度矩阵对文本向量集合中的所有文本向量进行聚类。

本实施例中，第一相似度矩阵中记录了第一矩阵中任意一个文本向量与另一个文本向量的相似度，因此，可以根据该第一相似度矩阵对文本向量集合中的所有文本向量进行聚类。

可选地，具体聚类方法可以为：

将第一相似度矩阵输入噪声的基于密度的聚类方法DBSCAN算法；

根据DBSCAN算法对文本向量集合中的所有文本向量进行聚类。

其中，由于DBSCAN算法输入的是距离矩阵而非相似度矩阵，而由于矩阵稀疏化的算法思想在于去除数值为零的数值，因此只有采用相似度矩阵时，去零后保留的文本向量才是有意义的(距离矩阵中，两个距离为零的文本向量完全相同)。而第一相似度矩阵无法直接用于聚类。为了克服该问题，本申请实施例采用修改DBSCAN算法的方式，使其直接使用相似度矩阵代替距离矩阵进行聚类。本申请实施例是通过直接修改的Sklearn的DBSCAN源码来实现的，具体修改源码的方式可以为：在寻找核心对象的邻域样本集时，将距离度量改为相似度度量，既将相似度大于某个值的样本加入邻域样本集。

综上所述，本申请实施例所提供的分布式文本聚类方法，应用于文本聚类，例如对网站用户生成内容进行聚类，包括：根据文本向量集合获取第一矩阵；拆分第一矩阵得到X个子矩阵；根据X个子矩阵确定X个相似度子矩阵，其中，每个相似度子矩阵中包括该相似度子矩阵中的Y个文本向量与第一矩阵中的Z个文本向量分别比对后的Y*Z个相似度；对X个相似度子矩阵分别进行矩阵稀疏化处理，以得到稀疏化后的X个第二相似度子矩阵，合并X个第二相似度子矩阵得到第一相似度矩阵，根据第一相似度矩阵对文本向量集合中的所有文本向量进行聚类；通过先对矩阵进行分块比对得到相似度子矩阵，进行矩阵稀疏化之后再合并的方式，降低了大数据量时聚类算法的内存消耗，提升了运行速度。

需要说明的是，对于UGC的过滤，不仅限于通过聚类来过滤灌水和刷帖等行为，UGC中还有以下内容需要过滤：

1、出现敏感词的内容，例如包含色情、广告营销、钓鱼及政治敏感类等敏感词的内容。

2、长度超过阈值的文本，例如，论坛规定了评论文字数量的上限，超过该上限的评论文本需要被归类为垃圾信息。

3、文本内容中片段重复多次的文本，例如，用户为了在论坛评论中凑够评论字数，评论“真棒真棒真棒真棒真棒真棒真棒”，属于无意义的垃圾评论，因此需要被归类为垃圾信息。

4、包含有乱码的文本。

5、用户为了大量刷经验，输入不符合语法逻辑，前言不搭后语的句子。

为了过滤上述不同类型的垃圾数据，需要设置一套系统，按照不同的规则对UGC进行过滤，以剔除不同类型的垃圾信息。

对此，本申请实施例还提供了一种文本数据过滤方法，能够先后过滤文本数据中的垃圾数据，非正常语句，以及通过聚类算法剔除重复文本；并且对聚类算法提出了改进，从而能够在消耗内存较小的情况下，快速地对文本数据进行全面的过滤。为便于理解，以下结合附图，对本实施例的具体实现方式做详细说明。

请参阅图2A，如图2A所示，本申请实施例所提供的文本数据过滤方法包括。

201、获取待过滤的第一文本数据。

本实施例中，第一文本数据可以为UGC，比如百度贴吧，各大论坛或应用商店中用户发表的评论等。

202、通过启发式规则过滤第一文本数据中的垃圾数据，得到第二文本数据。

本实施例中，启发式规则就是基于启发式的规则，重点在于特征值识别技术上的更新、解决单一特征码比对的缺陷。具体地，本实施例中的启发式规则可以为第二预设规则，该第二预设规则为，将包含有乱码的文本，和/或，长度超过阈值的文本，和/或，文本内容中片段重复多次的文本，和/或，出现敏感词的文本判定为垃圾数据，之后剔除符合第二预设规则的垃圾数据，以实现对垃圾数据的过滤。进一步地，对于出现敏感词的文本的判定，具体方法为，根据字典树和正则匹配规则匹配到敏感词库中敏感词的文本当匹配成功时，认定匹配成功的文本为包含敏感词的文本。

203、通过第一语言模型过滤第二文本数据中的非正常语句，得到第三文本数据。

本实施例中，第一语言模型用于过滤第二文本数据中表达不符合逻辑、或者不符合正常语言使用习惯的非正常语句。

进一步地，在通过第一语言模型过滤第二文本数据中的非正常语句，还包括该第一语音模型的训练步骤，通过模型训练获取的第一语言模型包含第二文本数据中所有词语的词向量。如图2B所示，可选地，该模型训练的具体训练方式为：

2031、选择高质量的论坛，例如taptap数据，构建非垃圾UGC样本数据。

2032、使用结巴分词工具对该非垃圾UGC样本数据进行分词。

2033、使用word2vec工具在该非垃圾UGC样本数据上训练词向量，具体地，可以设置词向量维度为512。

2034、采用12个编码层，隐向量维度为768，self-attention heads的个数是12个，选择交叉熵作为损失函数，选择Adam优化器，不断迭代训练，导出模型。

根据上述步骤2031至2033所得到的第一语音模型，步骤203的具体过滤方式可以为：

第一语言模型根据词向量，获取第二文本数据中任意两个连续出现的词语之间的词语正确率。

例如，词语A和词语B为一句用户评论中连续出现的两个词语，其中，B紧随着A出现，此时，第一语言模型获取A的词向量和B的词向量，并计算，当出现词语A时，紧接着出现的词语B与词语A组成正常语句的概率，从而得到该句用户评论中，词语A和词语B之间的词语正确率。

可选地，该第一语言模型可以为transformer语言模型，也可以为传统的n-gram或者LSTM模型。

取第二文本数据的每个句子中的词语正确率的和，得到每个句子的句子正确率。

例如，第二文本数据的一句用户评论中，出现了连续的ABCD四个词语，其中，当出现词语A时，紧接着出现的词语B与词语A组成正常语句的概率为0.4，当出现词语B时，紧接着出现的词语C与词语B组成正常语句的概率为0.5,当出现词语C时，紧接着出现的词语D与词语A组成正常语句的概率为0.3，则该句子的句子正确率为0.4+0.5+0.3＝1.2。从而可以根据该句子正确率的值，判断该句子为非正常语句的可能性。

判定第二文本数据中句子正确率低于预设值的句子为非正常语句。

例如，预设值为1，则当一个句子的句子正确率为0.8时，说明该句子为一个非正常语句。

将所有非正常语句从第二文本数据中滤除，得到第三文本数据。

本实施例中，将非正常语句剔除，从而得到的第三文本数据中，剩余的都是表达正常，符合语法习惯及正常表达习惯的自然语句。

可选地，请参阅图2C，如图2C所示，在上述步骤203之后，还可以进一步包括下述步骤。

204、对第三文本数据进行分词和停止词过滤。

本实施例中，具体实现方式可以为：获取所有UGC，将所有文本进行分词，可采用结巴分词，并过滤停止词。

205、对第三文本数据进行文本向量化，得到文本向量集合。

本实施例中，对第三文本数据进行文本向量化，以方便后续进行文本类聚的步骤，可选地，该第三文本数据的向量化可以包含以下步骤：

1)、利用word2vec工具在全网评论上训练词向量；

需要说明的是，本申请实施例对词向量训练工具并不进行限定，除了word2vec之外，也可以使用Glove等其他词向量训练方法

2)、统计每个词的词频，计算每个词出现的概率；

3)、对句子中的每个词向量，乘以一个独特的权值。这个权值是一个常数α除以α与该词出现概率的和，也就是说高频词的权值会相对下降。求和后得到暂时的句向量；

4)、计算语料库所有句向量构成的矩阵的第一个主成分u，让每个句向量减去它在u上的投影(公共部分)得到最终的句向量。其中，一个向量v在另一个向量u上的投影定义如下：

206、通过分布式文本聚类方法对文本向量集合中的所有文本向量进行聚类，已得到聚类结果。

本实施例中，所采用的分布式文本聚类方法可以参阅上述步骤101至106的记载，此处不再赘述。

207、按照第一预设规则从聚类结果中获取过滤后的第四文本数据。

本实施例中，过滤的具体实施方式可以为：

设置第一输入条件；

根据第一输入条件从聚类结果中获取第一输出结果；

当第一输出结果对应有多个相同的文本时，判断第一输出结果所对应的文本为重复文本；

剔除重复文本，得到过滤后的所述第四文本数据。

例如，设置第一输入条件为作者，因此以同一作者为第一输入条件，获取同一作者在一段时间内发表的帖子，当该作者发表的帖子内容重复时，即可认定为刷帖垃圾，因此剔除该重复文本，得到过滤后的所述第四文本数据。

需要说明的是，在上述工作过程中，步骤201至203为在线实时进行的步骤，因为对于一天用户评论而言，是否为垃圾数据以及是否为非正常语句，是可以根据用户评论内容实时判定的，同时，在网站上实时地过滤这些内容也有利于维持网站健康的评论氛围。进一步地，该步骤204至207为离线进行的步骤，原因在于，对于刷帖灌水的内容，只有用户发布累积到一定的量后，才能判断该内容是否为刷帖和灌水内容，因此无法实时进行。因此，在进行完步骤203后，还有一个步骤，具体为：将第三文本数据写入离线文档，以使得后续步骤能够离线进行。

需要进一步说明的是，对于上述步骤201至207所述的文本数据过滤方法，其中的每一个过滤步骤，本领域技术人员可根据实际使用需要，对其中的步骤进行增加或删减，该增加或删减均属于本申请实施例的保护范围。

在具体使用过程中，用户侧的使用方法请参阅图5和图6，本申请实施例所提供的文本数据过滤方法使用于全网评论的垃圾过滤模块中，如图5所示，图5示出了全网评论的垃圾过滤模块的操作界面，其中，方框501框选的部分为条件筛选栏，举例而言，用户可以根据501中所设置的条件，对关于A游戏的全网评论进行筛选，其中，501中的筛选条件可以包括：

时间：即用户评论生成的时间区间；

数据类型：选择所需筛选的评论是来自论坛平台、社交平台还是客服工单；

渠道：用于筛选评论内容的来源，例如论坛或贴吧；

论坛显示：用于选择筛选主贴和回帖中的评论。还是仅仅筛选主贴中的评论；

情感显示：用于筛选评论是带有正面情感色彩、负面情感色彩还是中性情感色彩，其中，对于情感色彩的判定方式，可以是通过预设关键词，含有特定关键词的评论，判定为具备特定情感色彩的关键词，例如：包含词语“真棒”、“完美”等词语的评论，判定为正面情感色彩的评论，进一步地，不包含正面或负面情感色彩关键词的评论，判定为中性情感色彩。需要说明的是，上述对于评论情感的判定只是一种示例，具体本申请实施例并不进行限定。

搜索内容：用于对评论中的特定评论进行搜索。

通过501框中的设置，触发筛选后，方框502中显示经过筛选得到的评论总数，具体搜索结果在方框503中显示，其中，503中的搜索结果包括具体的用户生成内容(主贴)，该主贴的回复数及该主贴的来源。

进一步地，方框502中还包括有“垃圾过滤”的勾选框，用户勾选该勾选框后，即可触发本申请实施例所提供的文本数据过滤方法，对筛选得到的用户生成内容进行过滤，得到如图6所示的筛选后的用户内容。

如图5中的方框502所示，在执行垃圾过滤前，全网共有评论1052704条，如图6中的方框601所示，勾选“垃圾过滤”勾选框后，经过文本数据过滤方法过滤后剩余评论889124条。从而通过上述步骤，实现了对全网用户生成内容的快速过滤。

上述对本申请实施例提供的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

从硬件结构上来描述，上述方法可以由一个实体设备实现，也可以由多个实体设备共同实现，还可以是一个实体设备内的一个逻辑功能模块，本申请实施例对此不作具体限定。

例如，上述分布式文本聚类方法或文本数据过滤方法均可以通过图3中的计算机设备来实现。图3为本申请实施例提供的计算机设备的硬件结构示意图。该计算机设备包括至少一个处理器301，通信线路302，存储器303以及至少一个通信接口304。

处理器301可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路302可包括一通路，在上述组件之间传送信息。

通信接口304，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器303可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyer服务器able programmable read-only memory，EEPROM)、只读光盘(compact discread-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信线路302与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器303用于存储执行本申请方案的计算机执行指令，并由处理器301来控制执行。处理器301用于执行存储器303中存储的计算机执行指令，从而实现本申请上述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，处理器301可以包括一个或多个CPU，例如图3中的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，例如图3中的处理器301和处理器307。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备305和输入设备306。输出设备305和处理器301通信，可以以多种方式来显示信息。例如，输出设备305可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备306和处理器301通信，可以以多种方式接收用户的输入。例如，输入设备306可以是鼠标、键盘、触摸屏设备或传感设备等。

上述的计算机设备可以是一个通用设备或者是一个专用设备。在具体实现中，计算机设备可以是台式机、便携式电脑、网络服务器、掌上电脑(personal digitalassistant，PDA)、移动手机、平板电脑、无线终端设备、嵌入式设备或有图3中类似结构的设备。本申请实施例不限定计算机设备的类型。

本申请实施例可以根据上述方法示例对存储设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，以采用集成的方式划分各个功能单元的情况下，图4示出了一种分布式文本聚类装置的示意图。

如图4所示，本申请实施例提供的文本数据过滤装置，包括：

获取单元401，所述获取单元401用于获取待过滤的第一文本数据；

第一过滤单元402，所述第一过滤单元402用于通过启发式规则过滤所述获取单元401获取的所述第一文本数据中的垃圾数据，得到第二文本数据；

第二过滤单元403，所述第二过滤单元403用于通过第一语言模型过滤所述第一过滤单元402过滤后的所述第二文本数据中的非正常语句，得到第三文本数据。

可选地，该第一过滤单元402，用于：

剔除所述垃圾数据，得到所述第二文本数据；

可选地，该第二过滤单元403，用于：

可选地，所述文本数据过滤装置还包括：

文本向量化单元404，所述文本向量化单元404用于，对所述第三文本数据进行文本向量化，得到文本向量集合；

聚类单元405，所述聚类单元405用于，通过分布式文本聚类方法对所述文本向量集合中的所有文本向量进行聚类，以得到聚类结果；

第三过滤单元406，所述第三过滤单元406用于，按照第一预设规则从所述聚类结果中获取过滤后的第四文本数据。

可选地，所述文本数据过滤装置还包括：

分词单元407，所述分词单元407用于，对所述第三文本数据进行分词；

第四过滤单元408，所述第四过滤单元408用于，对分词后的所述第三文本数据进行停止词的过滤；

所述文本向量化单元404，还用于：

对经过所述分词单元407分词和所述第四过滤单元408进行停止词过滤后的所述第三文本数据进行文本向量化，得到所述文本向量集合，所述文本向量集合包含所述第三文本数据中所有文本的文本向量。

可选地，所述聚类单元405用于：

拆分所述第一矩阵得到X个子矩阵，所述X为大于1的整数；

可选地，所述聚类单元405还用于：

设置第一输入条件；

剔除所述重复文本，得到过滤后的所述第四文本数据。

进一步的，本发明实施例还提供一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述分布式文本聚类方法。

进一步的，本发明实施例还提供一种计算机存储介质，包括指令，当该指令在计算机设备上运行时，使得该计算机设备执行上述文本数据过滤方法。

有关本申请实施例提供的计算机存储介质中存储的程序的详细描述可参照上述实施例，在此不做赘述。

综上所示，本申请提供一种分布式文本聚类方法，该方法应用于文本聚类，例如对网站用户生成内容进行聚类，包括：根据文本向量集合获取第一矩阵；拆分第一矩阵得到X个子矩阵；根据X个子矩阵确定X个相似度子矩阵，其中，每个相似度子矩阵中包括该相似度子矩阵中的Y个文本向量与第一矩阵中的Z个文本向量分别比对后的Y*Z个相似度；对X个相似度子矩阵分别进行矩阵稀疏化处理，以得到稀疏化后的X个第二相似度子矩阵，合并X个第二相似度子矩阵得到第一相似度矩阵，根据第一相似度矩阵对文本向量集合中的所有文本向量进行聚类；通过先对矩阵进行分块比对得到相似度子矩阵，进行矩阵稀疏化之后再合并的方式，降低了大数据量时聚类算法的内存消耗，提升了运行速度。

本申请还提供一种文本数据过滤方法，该方法应用于文本聚类，例如对网站用户生成内容进行垃圾数据的过滤，包括：获取待过滤的第一文本数据；分别通过启发式规则和第一语言模型过滤掉垃圾数据和非正常语句，得到第三文本数据；对所述第三文本数据进行文本向量化，得到文本向量集合；通过上述分布式文本聚类方法对文本进行聚类；根据第一预设规则对聚类结果中的刷帖、灌水等行为进行过滤；从而能够在消耗内存较小的情况下，快速地对文本数据进行全面的过滤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的核心思想或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本数据过滤方法，其特征在于，包括：

获取待过滤的第一文本数据；

2.根据权利要求1所述的方法，其特征在于，所述通过启发式规则过滤所述第一文本数据中的垃圾数据，得到第二文本数据，包括：

剔除所述垃圾数据，得到所述第二文本数据；

3.根据权利要求1或2所述的方法，其特征在于，所述通过第一语言模型过滤所述第二文本数据中的非正常语句之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述通过第一语言模型过滤所述第二文本数据中的非正常语句，得到第三文本数据之后，还包括：

对所述第三文本数据进行文本向量化，得到文本向量集合；

通过分布式文本聚类方法对所述文本向量集合中的所有文本向量进行聚类，以得到聚类结果；

按照第一预设规则从所述聚类结果中获取过滤后的第四文本数据。

5.根据权利要求4所述的方法，其特征在于，所述对所述第三文本数据进行文本向量化之前，还包括：

对所述第三文本数据进行分词；

对分词后的所述第三文本数据进行停止词的过滤；

所述对所述第三文本数据进行文本向量化，得到文本向量集合，包括：

对经过分词和停止词过滤后的所述第三文本数据进行文本向量化，得到所述文本向量集合，所述文本向量集合包含所述第三文本数据中所有文本的文本向量。

6.根据权利要求4所述的方法，其特征在于，所述分布式文本聚类方法，包括：

拆分所述第一矩阵得到X个子矩阵，所述X为大于1的整数；

7.根据权利要求6所述的方法，其特征在于，所述拆分所述第一矩阵得到X个子矩阵，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述X个子矩阵确定X个相似度子矩阵，包括：

9.根据权利要求8所述的方法，其特征在于，所述对所述X个相似度子矩阵分别进行矩阵稀疏化处理，以得到稀疏化后的X个第二相似度子矩阵，包括：

10.根据权利要求6至9任一所述的方法，其特征在于，所述根据所述第一相似度矩阵对所述文本向量集合中的所有文本向量进行聚类，包括：

11.根据权利要求4至10任一所述的方法，其特征在于，所述按照第一预设规则从所述聚类结果中获取过滤后的第四文本数据，包括：

设置第一输入条件；

剔除所述重复文本，得到过滤后的所述第四文本数据。

12.一种文本数据过滤装置，其特征在于，包括：

获取单元，所述获取单元用于获取待过滤的第一文本数据；

13.一种计算机设备，其特征在于，所述计算机设备包括：交互装置、输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述交互装置用于获取用户输入的操作指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1-11任一所述的方法。

14.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1-11中任一项所述的方法。