CN105955951B

CN105955951B - 一种消息过滤的方法及装置

Info

Publication number: CN105955951B
Application number: CN201610283866.7A
Authority: CN
Inventors: 刘荻; 刘冶; 王砚文; 陈宇恒; 印鉴; 马朔
Original assignee: Flamingo Network (guangzhou) Ltd By Share Ltd; Sun Yat Sen University
Current assignee: Flamingo Network (guangzhou) Ltd By Share Ltd; Sun Yat Sen University
Priority date: 2016-04-29
Filing date: 2016-04-29
Publication date: 2018-12-11
Anticipated expiration: 2036-04-29
Also published as: CN105955951A

Abstract

本发明涉及一种消息过滤的方法，利用贝叶斯分类器模型计算消息为不良消息的概率，根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息，直接过滤掉不良消息，保留正常消息和可疑消息，再利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息。相对于现有技能，本发明能够自动学习，定时更新训练集并且识别近义词，节省大量人工标注的成本，具有更好的准确率、健壮性和稳定性。另外，本发明还提供了一种消息过滤的实现装置。

Description

一种消息过滤的方法及装置

技术领域

本发明属于消息处理和数据挖掘领域，尤其是涉及一种通过基于贝叶斯算法和深度学习的消息过滤方法及装置。

背景技术

消息过滤技术，是通过对信息进行过滤操作，进而过滤掉暴力、反动、色情等不良信息，常用于对网络环境中发布信息的过滤，或者弹幕评论中的消息过滤。现有的消息过滤技术一般是对每条消息进行关键字匹配，通过人为事先设置好一些需要过滤的敏感词语，再判断出现的消息文本中是否包含这些词语，如果包含则过滤消息，如果不包含，则认为消息是正常消息，但这种方法的作用十分局限、不灵活，需要人为事先设置需要过滤的词语，而且人为地设定若干关键词很容易被消息发送者用其他方式如同音字、形近字或在词中间插入其他符号等办法逃避，而且不良消息的内容、句式等都在不停地变化，现有的文本过滤技术往往不能及时地对变化做出反应。

发明内容

本发明的目的在于克服现有技术中的缺点与不足，提供一种新的消息过滤的方法。

本发明是通过以下技术方案实现的：

一种消息过滤的方法，包括步骤：

S1：利用贝叶斯分类器模型计算消息为不良消息的概率；

S2：根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息，直接过滤掉不良消息，保留正常消息和可疑消息；

S3：对所述性质为正常和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息。

相对于现在技术，本发明的消息过滤方法，通过将基于贝叶斯模型的分类器和基于语义的深度学习模型相结合的技术方案，能够自动学习，定时更新训练集并且识别近义词，节省大量人工标注的成本，具有更好的准确率、健壮性和稳定性。

进一步的，所述步骤S1进一步包括步骤：

S11：对消息进行分词处理，获取消息中所包含的词语；

S12：根据所述消息中包含的词语计算消息为不良消息的概率。

进一步的，所述步骤S12根据所述消息中包含的词语在训练集中出现的概率，利用贝叶斯模型来判断消息为不良消息的概率，所述不良消息的概率的具体计算公式为：

其中，W₁W₂...W_n为消息中包含的词语，S表示消息为不良消息。

进一步的，所述训练集使用离线自动更新的模式，定期从线上模型的历史记录中自动提取类型比较确定的消息作为训练集，统计不良消息和正常消息的条数、所有的词语分别在不良消息和正常消息中出现的次数，作为贝叶斯分类器模型中概率计算的参数。

进一步的，在所述步骤S1之前，包括步骤S0:对消息进行预处理，具体包括：编码检查、关键字过滤、连续数字过滤和重复消息过滤。

进一步的，在所述步骤2中，首先计算不良消息与正常消息的概率比：

然后再将所述概率比与预设的两个阈值r₀和r₁(r₀<r₁)比较来判断所述消息的性质：

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。

进一步的，步骤S3进一步包括：

S31：对训练集中的消息进行语义聚类，获得语料库中所有词的词向量；

S32：使用聚类方法，根据步骤S31所得的词向量将语料库中的所有词分成k类；

S33：根据步骤S32所得的词的类别，获得k维消息向量，并训练出消息分类模型。

S34：将所述正常消息和可疑消息映射产生对应的k维消息向量，并将该消息向量输入步骤S33训练出的消息分类模型，得出正常消息或者不良消息的分类结果。

另外，本发明还提供一种消息过滤的装置，包括贝叶斯分类模块，消息性质判断模块和深度学习分类模块，其中，

贝叶斯分类模块，用于利用贝叶斯分类器模型计算消息为不良消息的概率；

消息性质判断模块，用于根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息，直接过滤掉不良消息，保留正常消息和可疑消息；

深度学习分类模块，用于对所述性质为正常和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息。

相对于现在技术，本发明的消息过滤装置，通过将基于贝叶斯模型的分类器和基于语义的深度学习模型相结合的技术方案，能够自动学习，定时更新训练集并且识别近义词，节省大量人工标注的成本，具有更好的准确率、健壮性和稳定性。

进一步的，所述贝叶斯分类模块进一步包括：

分词模块，用于对消息进行分词处理，获取消息中所包含的词语；

概率计算模块，用于根据所述消息中包含的词语计算消息为不良消息的概率。

进一步的，所述概率计算模块根据所述消息中包含的词语在训练集中出现的概率，利用贝叶斯模型来计算消息为不良消息的概率，所述不良消息的概率的具体计算公式为：

进一步的，包括消息预处理模块，用于对消息进行预处理，具体包括：编码检查、关键字过滤、连续数字过滤和重复消息过滤。

进一步的，在所述消息性质判断模块中，首先计算不良消息与正常消息的概率比：

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。

进一步的，深度学习分类模块进一步包括：

词向量获取模块，用于对训练集中的消息进行语义聚类，获得语料库中所有词的词向量；

聚类模块，用于使用聚类方法，根据语义聚类模块所得的词向量将语料库中的所有词分成k类；

分类模型训练模块，用于根据聚类模块所得的词的类别，获得消息向量，并训练出消息分类模型。

结果输出模块：用于将所述正常消息和可疑消息映射产生对应的k维消息向量，并将该消息向量输入分类模型训练模块训练出的消息分类模型，得出正常消息或者不良消息的分类结果。

为了能更清晰的理解本发明，以下将结合附图说明阐述本发明的具体实施方式。

附图说明

图1是本发明的一种消息过滤方法的步骤流程图。

图2是本发明步骤S3的具体步骤流程图。

图3是CBOW模型的结构图。

图4是CBOW模型训练示意图。

图5是本发明的一种消息过滤装置的结构示意图。

图6是深度学习分类模块3的具体结构示意图。

具体实施方式

本消息过滤技术从机器学习的角度来设计技术方案，将判断一条用户发出的消息是否是不良消息的任务看作一个分类问题，定义问题如下：对于一个样本(一条消息)X，为其指定一个标签y：y＝1(认为其为不良消息)或y＝0(认为其为正常消息)。为了解决该分类问题，提出了基于贝叶斯模型的分类器和基于语义的深度学习模型相结合的技术方案。先用贝叶斯分类器初步解决问题，然后用深度学习解决贝叶斯分类器的遗留问题，以得到更好的结果。

基于以上发明思路，本案通过以下的具体实施例来进行说明。

请参阅图1，其为本发明的一种消息过滤方法的步骤流程图。本发明的消息过滤方法包括以下步骤S0～S3：

S0：对消息进行预处理。

出于效率考虑，在消息处理的第一步使用之前一些传统的基于简单规则的方法作为预处理，对于一些很容易判断为不良消息的情况，可以直接过滤以提高系统的反应速度，主要包括：

(1)编码检查

如果一条消息编码不正确，客户端是无法解析并显示的，因此可以直接过滤。

(2)关键字过滤

为提高效率，设定一些特定的敏感词语，对出现的这些敏感词语的消息即视为不良消息直接过滤，或者在显示时使用一些特殊的符号如*号来替换。

(3)连续数字过滤

对于某些业务特征，包含有较长的连续的数字串很可能就是QQ号码，手机号码等联系方式，可以直接进行屏蔽。

(4)重复消息过滤

记录最近一段时间的消息，如果在这些消息中找到较多的与当前消息相同或相似的消息，则屏蔽掉该消息。

S1：利用贝叶斯分类器模型计算消息为不良消息的概率。

在信息预处理之后，再用贝叶斯模型来解决消息过滤问题，贝叶斯定理是关于两个随机事件之间发生的条件概率的一则定理，即一个事件发生对另一事件发生概率的影响，主要依据如下公式：

P(A│B)＝(P(B│A)P(A))/(P(B))

P(A|B)即事件A在事件B发生的情况下发生的概率，P(A)、P(B)是事件A、B发生的概率，P(B│A)为事件B在事件A发生的情况下发生的概率。

对一个待分类的样本X(消息)，需要将其分类到预先指定的若干个类中的一个或多个。而多分类问题可以转化为多个二分类问题(对每个类别判断样本属不属于该类别)，因此以二分类问题为例。

该步骤可以具体分为两个步骤：

S11：对消息进行分词处理，获取消息中所包含的词语。

本发明利用消息里的所有词作为特征，因此首先要对消息进行分词处理，得到该消息中的所有词，消息文本的分词处理目前已经有比较多的成熟的工具，例如可以使用jieba(“结巴”)分词工具包。假设该消息中包含的词为W₁W₂...W_n，我们要求的概率为P(S|W₁W₂...W_n)：也即包含的词为W₁W₂...W_n的消息是不良消息的概率，S表示不良消息。

在对消息进行分词之后，将每一个词的出现都当作消息的一个特征。为了减少复杂性，忽略词之间的顺序、相互之间的影响和词出现的次数。考虑一个词是否出现而忽略出现的次数，并认为不同单词是否在消息中出现相互不影响，这样贝叶斯分类器模型中P(S|W₁W₂…W_n)可以表示为如下形式：

其中对于每个词语W_i i∈[1,2...n]，P(W_i|S)表示一条不良消息中出现词语W_i的概率，通过训练集中出现词语W_i的不良消息的条数占所有不良消息条数的比例来计算，同样，使用训练集中的统计数据来得到不良消息在全部消息中的比例P(S)、每个词W_i出现在一条消息中的概率P(W_i)。

由于用户的消息的习惯和用词会随时间变化，不良消息的形式和内容也会变化。因此模型需要使用最近的消息数据学习不良消息的最新的特点。本发明使用离线自动更新的模式：定期从线上模型的历史记录中自动提取类型比较确定的消息(贝叶斯分类器判断为正常消息和不良消息的)作为训练集，统计正样本(不良消息)和负样本(正常消息)的条数，对正样本和负样本中所有的消息正文进行分词，所有的词分别在正样本和负样本中出现的次数，记录作为模型的参数，更新原有的模型。这里所述类型比较确定的消息为历史记录中贝叶斯分类器判断为正常消息和不良消息。

S2：根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息。

一般来说一条消息属于正常消息的概率和属于不良消息的概率之和为1，为了增加区分，本发明使用两个概率之比作为消息性质的判断条件：

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。

对于性质为不良消息，直接过滤，对于性质正常和可疑的消息，继续调用步骤S3的深度学习模块进行判断。

由于业务的实际情况，需要减少将正常消息误判为不良消息的几率以避免影响用户体验，因此需要设置合适的r₁值。

这里使用两个阈值，将消息归类为类型可疑消息和类型比较确认的消息(正常消息、不良消息)，后者可以作为模型自动更新的训练集。可以减少人工标注数据的需求量，如果数量足够，可以完全省掉人工标注的工作。

贝叶斯模型具有反应快和直观的优点，但缺点是只使用了词的出现来计算消息是不良消息还是正常消息的概率，并没有利用消息的语义信息，对比较明显的不良消息(如包含一些关键的字眼的)可以做出准确判断，对语义上接近但用词上不同的消息则无能为力。为了弥补贝叶斯分类器在ratio≤r₁的情况下无法精确甄别不良消息的不足，本发明进一步使用了更精确和功能强大的深度学习模型，对贝叶斯分类器模型结果出现ratio≤r₁情况下的不确定的消息进一步处理，以提高过滤的准确率。

本发明在基于贝叶斯分类器模型的过滤机制的基础上，使用基于语义的深度学习模型，先将消息表示为多个保持语义信息的词向量，再使用词向量对消息进行分类判断，训练分类模型，进而更加精确地确定消息为正常消息还是不良消息，提高了过滤的效果。

下面对语义模型作介绍：

文章、段落、句子、词语都带有一定的语义，一句话是由词语组成的，可以认为一句话的语义是由词语的语义组合而来的，如果两句的组成词语的语义组合后相近，那么就可以认为这两个句子语义相似。具体到消息过滤上，如果一条消息和不良消息语义很相似，那么可以认为这条消息属于不良消息。

在自然语言中，有很多意思相近的近义词，这些词可以归为同一语义类，在文本挖掘中常用词向量表示一个词语，如果同一语义类的词的词向量很接近，而不同语义类中词的词向量差别较大，就可以认为词向量保持了词的语义。用一个数值向量来表示一个词，也更方便使用数学模型来对其进行计算，本发明使用深度学习模型来产生词的词向量。

如图2所示，步骤S3进一步包括：

S31：对训练集中的消息进行语义聚类，获得语料库中所有词的词向量。

目前已经有一些开源的工具来实现语义聚类，本发明使用word2vec实现词语的语义聚类。word2vec是Google于2013年开源的一个用于获取词的向量表示的工具包，具有简单、高效的特点。本发明引入word2vec的目的在于将消息的中所有的词语进行聚类，使语义相近的词归入相同的聚类。使用数目远少于单词数目的词的聚类作为一条消息的特征向量，使得后续机器学习分类器使用的特征维数大大降低，以提高效率。

word2vec用一个m维的向量来表示一个词，并使用一个词语的上下文信息来确定一个词的语义。word2vec将构造若干个相互连接的分类器，这些分类器以一个文本某个位置的上下文(该位置前后若干个词)为输入，输出为一个句子中每一个词和该词出现在该位置的概率。通过训练优化分类器参数和每个词语的词向量，使得在某个位置给定了特定的上下文后(前后若干个词)，合法的词出现在该位置的概率远大于非法词。本发明使用基于Hierarchical Softmax(分层Softmax)的CBOW(Continuous Bag-of-Words Model，连续词袋模型)，CBOW的结构图如图3所示，该结构包含三层：输入层、映射层和输出层。

输入层：Context(w)，即一个词w在某一句话中其前后各c个词(c的值可以自由设定)的词向量Context(w)₁、Context(w)₂…、Context(w)_2c

映射层：将输入的2c个词的词向量累加，得到X_w

输出层：输出层对应一棵霍夫曼树，以所有的词在语料库中出现的频率作为权重构建，每个叶子节点都对应语料库中的一个词；每一个非叶子节点都有两个子节点，将每个非叶子节点的子节点都分别标记0和1(可以将左边的子节点标记为1，右边的子节点标记为0，反之亦可)。每一个非叶子结点处构造一个概率二分类器(这里使用了逻辑回归)，每个分支输出一个概率表示下一步选择该分支的可能性。

CBOW模型词向量的训练过程为：输出层树的每个叶子节点表示一个语料库中词语，这样对于每一个叶子节点都有一条从根节点到它的路径，这个路径要经过若干个分类器(中间节点)，每个分类器到下一层分类器都会有一个概率。计算叶节点的概率就是将路径上每个分类器的概率相乘，如图4所示，节点10的概率(对特定上下文，该位置的词为w为的概率)的方法如下：

从根节点到10节点的路径为1,3,7,8,10，对应的编码为(,0,0,1,1)(根节点不需要编码)。从根节点到10前面的节点，可以分别以该节点上的参数构造一个逻辑回归模型，认为节点的子节点中1为正例，0为负例(反之亦可)，如图4的节点8上的逻辑回归的参数就是输入为X_ω，输出就是从图4中可以发现，它的输出为1。后面就可以使用逻辑回归常用的随机梯度下降等方法，每次朝着减小逻辑回归预测损失的方向更新参数(所有的)和X_w，而输入层的每个词的向量均分X_w的变化，即Context(w)_i＝Context(w)_i+ΔX_w/2c，最后得到词库中每一个词的词向量。

这里为了尽量获取消息中所有可能出现的词的词向量，使用了历史消息加额外的通用语料库作为word2vec的输入。

S32：使用聚类方法，根据步骤S31所得的词向量将语料库中的所有词分成k类。

使用word2vec训练得到所有词的词向量后，使用k-means聚类方法，将所有词聚成k类，k的值可以跟据实际情况调节。

对训练集中所有的正负样本(不良消息和正常消息)，对其分词，并根据分出的每一个词在所在的聚类，将每一个的样本(每一条消息)记为一个k维的消息向量，每一维代表该消息中有多少个词在某一个聚类中。

具体地先进行分词，得到消息中所有的词语，构造一个k维的向量，每一维对应上一步得到的聚类中的一个类型，k维的向量初始全部为0，对消息的每个词，找到该词属于的聚类，将其在向量中对应维的值加一，这样就得到了该消息的k维的消息向量。

为了保证用户体验，根据业务实际情况，k需要根据具体的业务场景来定。在本公司的业务场景下，k的取值为150时可以得到较好的聚类结果。

得到所有消息的特征向量后，将消息的特征向量和标签(正或负样本)输入迭代决策树GBDT(Gradient Boosting Decision Tree)进行训练。GBDT是基于残差的效果增进模型，属于非线性回归模型，这里把它当作分类模型使用，用回归的分数作为分类的依据。

另外，除了使用上述特征外，考虑到长串的数字很可能是一个电话或者QQ号码之类的广告消息，还增加了一个数字维度，这个维度用以记录句子中数字的个数。

对一个代表输入样本的特征向量，GBDT会输出一个回归分数，预先设置一个阈值，经过业务场景的实验测试，将GBDT回归分数的阈值设置为0.37，分数大于等于0.37阈值则为正样本(即不良消息)，否则为负样本(正常消息)，阈值可以根据实际情况进行调节，较高的阈值会使较多的消息被判断为正常消息，表示了较宽松的过滤条件，反之较低的阈值则表示比较强的过滤条件。阈值可以根据实际情况进行调节，较高的阈值会使较多的消息被判断为正常消息，表示了较宽松的过滤条件，反之较低的阈值则表示比较强的过滤条件。

当贝叶斯模型出现ratio≤r₁情况时，调用步骤S31和S32，对一条新消息，先分词，再获得包含词语的词向量，再映射产生对应的k维消息向量，将该k维消息向量作为步骤S33中回归模型的输入，得出回归分数，根据回归分数即可得到最终的分类结果，确定所述消息为正样本(不良消息)或者负样本(正常消息)。

请参阅图5，根据本发明的消息过滤的方法，本发明还提供了一种消息过滤的装置，包括消息预处理模块0，贝叶斯分类模块1，消息性质判断模块2和深度学习分类模块3。

消息性质判断模块，用于根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息，直接过滤掉不良消息；

深度学习分类模块，用于对所述性质正常和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息。

消息预处理模块0，用于对消息进行预处理。

(1)编码检查

(2)关键字过滤

(3)连续数字过滤

(4)重复消息过滤

贝叶斯分类模块1，用于利用贝叶斯分类器模型计算消息为不良消息的概率。

P(A│B)＝(P(B│A)P(A))/(P(B))

该贝叶斯分类模块1可以具体分为两个子模块，分词模块11和概率计算模块12：

分词模块11，用于对消息进行分词处理，获取消息中所包含的词语。

概率计算模块12，用于根据所述消息中包含的词语计算消息为不良消息的概率。

在对消息进行分词之后，将每一个词的出现都当作消息的一个特征。为了减少复杂性，忽略词之间的顺序、相互之间的影响和词出现的次数。考虑一个词是否出现而忽略出现的次数，并认为不同单词是否在消息中出现相互不影响，这样贝叶斯分类器模型中P(S|W₁W₂...W_n)可以表示为如下形式：

由于用户的消息的习惯和用词会随时间变化，不良消息的形式和内容也会变化。因此模型需要使用最近的消息数据学习不良消息的最新的特点。本发明使用离线自动更新的模式：定期从线上模型的历史记录中自动提取类型比较确定的消息(贝叶斯分类器判断为正常消息和不良消息的)作为训练集，统计正样本(不良消息)和负样本(正常消息)的条数，对正样本和负样本中所有的消息正文进行分词，统计所有的词分别在正样本和负样本中出现的次数，记录作为模型的参数，更新原有的模型。这里所述类型比较确定的消息为历史记录中贝叶斯分类器判断为正常消息和不良消息。

消息性质判断模块2，用于根据所述不良消息的概率判断消息的性质，该消息的性质包括正常消息、不良消息和可疑消息，直接过滤掉不良消息，保留正常消息和可疑消息。

然后再将所述概率比与预设的两个阈值r₀和r₁(r₀<r₁)比较来判断所述消息的性质：：

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。

对于性质为不良消息，直接过滤，对于性质为正常和可疑的消息，继续调用深度学习分类模块3的深度学习模块进行判断。

这里使用两个阈值，将消息归类为类型可疑消息和类型比较确认的消息(正常消息、不良消息)，后者可以作为模型自动更新的训练集。可以减少人工标注数据的需求量，如果数量足够，可以完全省掉人工标注的工作。深度学习分类模块3，用于对所述性质正常和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息。

贝叶斯模型具有反应快和直观的优点，但缺点是只使用了词的出现来计算消息是不良消息还是正常消息的概率，并没有利用消息的语义信息，对比较明显的不良消息(如包含一些关键的字眼的)可以做出准确判断，对语义上接近但用词上不同的消息则无能为力。为了弥补贝叶斯分类器在ratio≤r₁的情况下无法精确甄别不良消息的不足，本发明进一步使用了更精确和功能强大的深度学习模型，对贝叶斯分类器模型结果出现ratio≤r₁情况下的消息进一步处理，以提高过滤的准确率。

下面对语义模型作介绍：

文章、段落、句子、词语都带有一定的语义，一句话是由词语组成的，可以认为一句话的语义是由词语的语义组合而来的，如果两句的组成词语的语义组合后相近，那么就可以认为这两个句子语义相似。具体到消息过滤上，如果一条消息和不良消息(或其他被认为应该过滤的消息类型)语义很相似，那么可以认为这条消息属于不良消息。

在自然语言中，有很多意思相近的近义词，这些词可以归为同一语义类，在文本挖掘中常用词向量表示一个词语，如果同一语义类的词的词向量很接近，而不同语义类中词的词向量差别较大，就可以认为词向量保持了词的语义。用一个数值向量来表示一个词，也更方便使用数学模型来对其进行计算，本发明使用深度学习模型来产生词的词向量中。

因此深度学习分类模块3进一步包括词向量获取模块31，聚类模块32，分类模型训练模块33和结果输出模块34，其中，

词向量获取模块31，用于对训练集中的消息进行语义聚类，获得语料库中所有词的词向量。

输入层：Context(w)，即一个词w在某一句话中其前后各c个词(c的值可以自由设定，本发明用20)的词向量Context(w)₁、Context(w)₂…、Context(w)_2c

映射层：将输入的2c个词的词向量累加，得到X_w

聚类模块32，用于使用聚类方法，根据向量获取模块31所得的词向量将语料库中的所有词分成k类。

使用word2vec训练得到所有词的词向量后，使用k-means(k-平均)聚类方法，将所有词聚成k类，k的值可以根据情况调节。

分类模型训练模块33，用于根据聚类模块32所得的词的类别，获得k维消息向量，并训练出消息分类模型。

得到所有消息的特征向量后，将消息的特征向量和标签(正或负样本)输入迭代决策树GBDT(Gradient Boosting Decision Tree)进行训练，GBDT是基于残差的效果增进模型，属于非线性回归模型，这里把它当作分类模型使用，用回归的分数作为分类的依据。

结果输出模块34，用于将所述正常消息和可疑消息映射产生对应的k维消息向量，并将该消息向量输入分类模型训练模块33训练出的消息分类模型，得出正常消息或者不良消息的分类结果。

当贝叶斯模型出现ratio≤r₁情况时，调用向量获取模块31和聚类模块32，对一条新消息，先分词再获得包含词语的词向量，再映射产生对应的k维消息向量，将该k维消息向量作为分类模型训练模块33中回归模型的输入，得出回归分数，根据回归分数即可得到最终的分类结果，确定所述消息为正样本(不良消息)或者负样本(正常消息)。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种消息过滤的方法，其特征在于：包括步骤：

S1：利用贝叶斯分类器模型计算消息为不良消息的概率；

S3：对所述性质为正常的和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息；

所述步骤S3进一步包括：

S33：根据步骤S32所得的词的类别，获得k维消息向量，并训练出消息分类模型；

S34：将所述正常消息和可疑消息映射产生对应的k维消息向量，并将该消息向量输入步骤S33训练出的消息回归模型，根据回归分数得出正常消息或者不良消息的分类结果。

2.根据权利要求1所述的消息过滤的方法，其特征在于：所述步骤S1进一步包括步骤：

S11：对消息进行分词处理，获取消息中所包含的词语；

3.根据权利要求2所述的消息过滤的方法，其特征在于：

所述步骤S12根据所述消息中包含的词语在训练集中出现的概率，利用贝叶斯模型来计算消息为不良消息的概率，所述不良消息的概率的具体计算公式为：

其中，W₁W₂…W_n为消息中包含的词语，S表示消息为不良消息。

4.根据权利要求3所述的消息过滤的方法，其特征在于：所述训练集使用离线自动更新的模式，定期从线上模型的历史记录中自动提取类型比较确定的消息作为训练集，统计不良消息和正常消息的条数、所有的词语分别在不良消息和正常消息中出现的次数，作为贝叶斯分类器模型中概率计算的参数。

5.根据权利要求4所述的消息过滤的方法，其特征在于：在所述步骤S1之前，包括步骤S0:对消息进行预处理，具体包括：编码检查、关键字过滤、连续数字过滤和重复消息过滤。

6.根据权利要求5所述的消息过滤的方法，其特征在于：

在所述步骤2中，首先计算不良消息与正常消息的概率比：

然后再将所述概率比与预设的两个阈值r₀和r₁，比较来判断所述消息的性质，

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。

7.一种消息过滤的装置，其特征在于：包括贝叶斯分类模块，消息性质判断模块和深度学习分类模块，其中，

深度学习分类模块，用于对所述性质为正常和可疑的消息，利用基于语义的深度学习模型进一步分类，确定消息为正常消息或者不良消息；

所述深度学习分类模块进一步包括：

词向量获取模块，用于对训练集中的消息进行语义聚类，获得语料库中所有词的词向量；聚类模块，用于使用聚类方法，根据语义聚类模块所得的词向量将语料库中的所有词分成k类；

分类模型训练模块，用于根据聚类模块所得的词的类别，获得消息向量，并训练出消息分类模型；

8.根据权利要求7所述的消息过滤的装置，其特征在于：所述贝叶斯分类模块进一步包括：分词模块，用于对消息进行分词处理，获取消息中所包含的词语；

9.根据权利要求8所述的消息过滤的装置，其特征在于：

所述概率计算模块根据所述消息中包含的词语在训练集中出现的概率，利用贝叶斯模型来计算消息为不良消息的概率，所述不良消息的概率的具体计算公式为：

10.根据权利要求9所述的消息过滤的装置，其特征在于：所述训练集使用离线自动更新的模式，定期从线上模型的历史记录中自动提取类型比较确定的消息作为训练集，统计不良消息和正常消息的条数、所有的词语分别在不良消息和正常消息中出现的次数，作为贝叶斯分类器模型中概率计算的参数。

11.根据权利要求10所述的消息过滤的装置，其特征在于：包括消息预处理模块，用于对消息进行预处理，具体包括：编码检查、关键字过滤、连续数字过滤和重复消息过滤。

12.根据权利要求11所述的消息过滤的装置，其特征在于：在所述消息性质判断模块中，首先计算不良消息与正常消息的概率比：

然后再将所述概率比与预设的两个阈值r₀和r₁，比较来判断所述消息的性质：

若ratio≤r₀，判断该消息的性质为正常消息；

若ratio>r₁，判断该消息的性质为不良消息；

若r₀<ratio≤r₁，将该消息的性质为可疑消息。