CN107515873B

CN107515873B - 一种垃圾信息识别方法及设备

Info

Publication number: CN107515873B
Application number: CN201610425979.6A
Authority: CN
Inventors: 肖谦; 赵争超; 林君; 潘林林; 张一昌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2016-06-16
Filing date: 2016-06-16
Publication date: 2020-10-16
Anticipated expiration: 2036-06-16
Also published as: CN107515873A

Abstract

一种垃圾信息识别方法及设备，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统，从而一方面可提高所述信息识别模型对变异垃圾信息的抓取能力，另一方面还可确保所述信息识别模型对旧有形式的垃圾信息的识别能力不下降，达到了提高信息识别的时效性、准确性以及减轻人力成本等的效果。

Description

一种垃圾信息识别方法及设备

技术领域

本申请涉及信息处理技术领域，尤其涉及一种垃圾信息识别方法及设备。

背景技术

随着网络的推广和普及，网络信息量越来越大。大量的网络信息中必然存在一些非法信息(也可称为垃圾信息)，不仅浪费网络资源，而且污染了网络环境，为用户带来诸多困扰。

例如，在电子商务领域，出现越来越多的不法用户通过发布广告评价信息(即垃圾信息)来推销三无产品，或者炒信、作弊，以误导消费者；这种行为不仅污染了评价系统，甚至可能严重损害消费者的利益。因此，为了保证网络信息的健康、合法，垃圾信息的自动识别变得越来越重要。

目前，在垃圾信息的自动识别领域(即反垃圾领域)，工业界常用的技术主要有以下几种：

第一、基于关键字的垃圾信息识别技术。该技术主要采用匹配关键字或关键词的方法，将关键字或关键词和用户输入的信息内容进行精确或模糊匹配，将符合预设规则的信息(如命中多个关键字或关键词的信息)确定为垃圾信息，以达到垃圾信息识别的效果。该方法简单有效，易于实现，消耗的计算资源少，且准确率能够基本满足业务需求，在垃圾信息识别的初级阶段是个可行的方案。

但是，基于关键字的垃圾信息识别技术存在很大的局限性。这是因为，一些非垃圾信息(即正常信息)中也可能会包含有相应的关键字或关键词，从而可能会存在信息的误判。此外，由于自然语言中词的多义性和同义性，同一个关键字或关键词，在不同的上下文环境中，所代表的意义就不同，很难做到普适性，进一步增大了信息的误判，使得垃圾信息识别的准确度难以得到保证。

第二、黑白名单过滤技术。该技术在判断信息是否为垃圾信息时，首先会判断发布信息的用户是否在黑名单或者白名单中，对于处于黑名单中的用户则直接屏蔽掉该用户发表的信息。该技术简单、明确，能够极大地节约反垃圾信息系统的资源；且，还能够迫使垃圾信息发布者需要不停更换账号来发布信息，由于目前账号申请需要实名验证，因此也可达到增加垃圾信息发布者发布信息的成本，以减少垃圾信息的目的。

但该技术的局限性也很大，一则是垃圾信息发布者也可能发布正常的信息，如，进行正常的购物行为、发布正常的评价等，从而导致这些正常信息被误判，降低垃圾信息识别的准确度；二则是黑白名单库需要人工实时维护，耗费巨大的人力资源。

第三、贝叶斯统计过滤技术。该技术是基于机器学习中贝叶斯分类器的一种垃圾信息识别技术，其主要思想是通过对正常的文本与垃圾文本中的单词进行概率统计，从整体上判断文本是否为垃圾文本。该分类器有较好的准确率，且不需要人工去干涉评判垃圾信息的规则，系统可以通过训练样本自动学习垃圾信息文本与正常文本之间的差别，在一定程度上降低了垃圾信息识别的人力成本，且垃圾信息发布者无法猜测出过滤器的具体规则。

但是，基于机器学习的垃圾信息识别方法需要每隔设定时间(例如，几个月或半年)人工重新训练机器学习模型以更新垃圾信息识别模型，因此，对更新变种较快的垃圾信息具备很大的延时性，往往导致对变异垃圾信息的漏判，降低垃圾信息识别的准确度。

由此可见，现有的垃圾信息识别技术都在不同程度上存在着识别结果不准确，以及耗费人力资源较大的问题。

发明内容

本申请实施例提供了一种垃圾信息识别方法及设备，用以解决现有的垃圾信息识别技术都在不同程度上存在着识别结果不准确，以及耗费人力资源较大的问题。

本申请实施例提供了一种垃圾信息识别方法，所述方法包括：

确定训练样本集合、以及训练样本集合中的各训练样本所属的信息类别以及各训练样本的基础特征数据；

根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型；

基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；

根据分类结果，选取第一设定数量的被确定为垃圾信息的待识别信息，并将选取的待识别信息以及第二设定数量的、与当前时段被举报的垃圾信息的相似度不低于设定的相似度阈值的信息作为垃圾信息训练样本加入到训练样本集合中，以更新所述训练样本集合；

基于更新后的训练样本集合对所述信息识别模型进行更新，并基于更新后的信息识别模型确定接收到的各待识别信息是否为垃圾信息。

相应地，本申请实施例还提供了一种垃圾信息识别设备，包括：

样本确定单元，用于确定训练样本集合、以及训练样本集合中的各训练样本所属的信息类别以及各训练样本的基础特征数据；

模型学习单元，用于根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型；

垃圾信息识别单元，用于基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；

样本更新单元，用于根据所述垃圾信息识别单元的分类结果，选取第一设定数量的被确定为垃圾信息的待识别信息，并将选取的待识别信息以及第二设定数量的、与当前时段被举报的垃圾信息的相似度不低于设定的相似度阈值的信息作为垃圾信息训练样本加入到训练样本集合中，以更新所述训练样本集合；

所述模型学习单元，还用于基于更新后的训练样本集合对所述信息识别模型进行更新；

所述垃圾信息识别单元，还用于基于更新后的信息识别模型确定接收到的各待识别信息是否为垃圾信息。

本申请有益效果如下：

本申请实施例提供了一种垃圾信息识别方法及设备，可根据确定的训练样本集合，训练得到用于识别垃圾信息的信息识别模型；以及，基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；并，基于历史识别到的垃圾信息、以及与最近时间段被举报的垃圾信息相关的垃圾信息更新训练样本集合，并基于更新后的训练样本集合对所述信息识别模型进行更新，如此循环。也就是说，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统，从而一方面可提高所述信息识别模型对变异垃圾信息的抓取能力，另一方面还可确保所述信息识别模型对旧有形式的垃圾信息的识别能力不下降，达到了提高信息识别的时效性、准确性以及减轻人力成本等的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1所示为本申请实施例一中的垃圾信息识别方法的步骤流程图；

图2所示为本申请实施例一中的对多个机器学习模型进行融合训练的具体过程示意图；

图3所示为本申请实施例二中的垃圾信息识别设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

实施例一：

本申请实施例一提供了一种垃圾信息识别方法，具体地，如图1所示，其为本申请实施例一中所述方法的步骤流程图，所述方法可包括以下步骤：

步骤101：确定训练样本集合、以及训练样本集合中的各训练样本所属的信息类别以及各训练样本的基础特征数据。

需要说明的是，在机器学习中，训练样本集合的数据构成至关重要，正、负样的分布应该尽量去逼近真实环境的数据分布，才能使识别模型在真实的环境中有更好的鲁棒性与更高的准确率。因此，所述训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值通常可处于设定的比例范围之内。

经过试验和人工测评，优选地，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值可处于1:5～1:10的范围值之内(当然还可根据实际情况调整为其它比例)，与真实环境的数据分布较为接近，识别效果较好。

另外，需要说明的是，初始构建的训练样本集合中的垃圾信息训练样本可包含与被举报的垃圾信息的相似度不低于设定的相似度阈值(可根据实际情况灵活设置)的垃圾信息训练样本、和/或、人工标记的垃圾信息训练样本；初始构建的训练样本集合中的非垃圾信息训练样本可包括人工标记的非垃圾信息训练样本，此处不作任何限定。

可选地，所述训练样本的基础特征数据可包括评价元特征、文本元特征、语法语义特征、用户特征、对象特征，以及交叉特征中的任意一种或多种，其中：

所述评价元特征可为用于描述训练样本的评价属性的特征，例如，以训练样本为电子交易平台中的用户发布的评价信息样本为例，可用评价信息是好评、中评或差评，评价信息是否携带图片，携带的图片是否为盗用其他用户的图片，评价信息来自无线终端或是电脑终端等信息作为评价元特征；

所述文本元特征可为用于描述训练样本的字面内容的特征，例如，仍以训练样本为电子交易平台中的用户发布的评价信息样本为例，可用评价信息的字面内容是否包含一连串的数字，所包含的一连串的数字是否为手机号码、座机号码、或QQ群号码等，评价信息的字面内容是否包含URL(Uniform Resource Locator，统一资源定位符)信息，评价信息的字面内容是否包含垃圾信息关键词，或者提取评价信息字面内容得到的高阶统计信息(如基于贝叶斯技术的一元词频信息、二元词频信息)等信息作为文本元特征；

所述语法语义特征可为用于描述训练样本的语义内容的特征，例如，仍以训练样本为电子交易平台中的用户发布的评价信息样本为例，可用评价信息的感情色彩是偏向正面情感或负面情感，评价信息中包含正、负面情感的词或短语的个数，评价信息的语义与广告信息(垃圾信息)的语义的相似度等可以表征评价信息的抽象含义的信息作为语法语义特征；

所述用户特征可为用于描述训练样本的相关用户的操作行为的特征，例如，仍以训练样本为电子交易平台中的用户发布的评价信息样本为例，用户特征可包括用于描述买家(评价信息发布者)的操作行为的特征，如，该买家在设定时间长度(如1天、7天)内的评论次数与购买次数的比值，评价信息的文本长度与该评价信息的相关商品对象的所有评价的平均文本长度的比值，该买家在设定时间长度(如，1天、7天)内在该评价信息的相关商品对象的所属类目下发布评价信息的次数，该买家对服务评分的方差、对卖家评分的方差、对物流评分的方差以及对订单评分的方差等，该买家发布的各评价信息的相似度，该买家发布的相似评价信息的数量，该买家最近两次发布评价信息的间隔时间，该买家发布评价信息的平均时间间距，设定时间段(如，1天、7天或全部时间)内该买家发布评价信息的总次数，该买家在发布该评价信息时的输入行为(粘贴、复制、或打字等)信息等；另外，所述用户特征还可包括用于描述卖家(评价信息的被评价者)的操作行为的特征，如设定时间段(如，1天、7天或全部时间)内卖家收到的评价信息的总数量等，此处不再赘述；

所述对象特征可为用于描述训练样本的相关对象的属性的特征。例如，仍以训练样本为电子交易平台中的用户发布的评价信息样本为例，可用评价信息的相关商品对象的所属类目，评价信息的相关商品对象在设定时间段内的销量，评价信息的相关商品对象是否属于热门类目(热门类目可指在设定时间段内的搜索热度不低于设定的一热度阈值的类目)，评价信息的相关商品对象是否属于热门商品对象(热门商品对象可指在设定时间段内的搜索热度不低于设定的一热度阈值的商品对象)等信息作为对象特征；

所述交叉特征可为由两种或两种以上其它基础特征交互组合所得到的、用于描述训练样本的多维属性的特征。

也就是说，本实施例所述方案可有效地融合多渠道的特征，包括信息本身的属性特征、信息文本的词法特征、信息文本的语义特征、与信息相关的用户的操作行为特征，以及与信息相关的对象的属性特征等，从而为信息的识别提供了更多的信息量，可进一步提高识别准确率。

此外，需要说明的是，以训练样本为电子交易平台中的用户发布的评价信息样本为例，本实施例中，除了可通过用户对电子交易平台中的各商品对象进行指定行为(如浏览、收藏、加购、购买等行为)所产生的操作日志数据来获取各训练样本的基础特征数据之外，还可通过其它渠道获取训练样本的更多的基础特征数据，如通过用户的订单信息、账户信息、所处网络社区信息等来获取训练样本的更多的基础特征数据，本实施例在此不作任何限定。

另外，可选地，在确定训练样本集合中的各训练样本所属的信息类别以及各训练样本的基础特征数据之前，还可对各训练样本进行相应的数据预处理，如：根据训练样本的来源对各训练样本进行过滤，以确保过滤后的各训练样本均为正常样本；根据设定的规则过滤掉训练样本中无意义的文本内容(比如全部是表情符号的文本、全部是数字的文本、或者无意义的英文字母等)；对训练样本进行归一化处理(包括去除空格、全角半角转换、繁简体转换、拼音转汉字等)中的任意一种或多种。

步骤102：根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型。

可选地，所述根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型，可具体包括：

根据各训练样本所属的信息类别以及各训练样本的基础特征数据，对多个机器学习模型进行融合训练，得到用于识别垃圾信息的信息识别模型。

即，本实施例中，可引入多机器学习模型融合的技术，训练得到用于识别垃圾信息的信息识别模型，以克服单一分类器的缺陷，提高信息识别的准确性。

可选地，所述多个机器学习模型，可具体包括：

(一)分类目朴素贝叶斯模型：

由于对于任一待识别信息来说，若所述待识别信息的相关对象(即待识别信息所针对的对象)所属的类目与该待识别信息的文本内容描述的对象不相关，则该待识别信息很有可能为垃圾信息。例如，以识别电子交易平台中用户发布的评价信息是否为广告为例，在女装的类目下，大部分的评价信息的内容都与女装相关，如果有评价信息的内容与话费充值的相关度更高，那么该评价信息很有可能是一条广告评价(即垃圾信息)；相反，在话费充值类目下，如果有评价信息的内容与话费充值的相关度很高，该评价信息却很有可能不是广告评价。现有的基于贝叶斯技术的垃圾信息识别技术，求解的是P(T|S)(事件T在另外一事件S已经发生的条件下的发生概率，这里，T表示训练样本的信息类别，S表示训练样本的文本内容，该公式表示训练样本S属于信息类别T的概率)，可见，其并不能满足在各待识别信息的相关对象所属的类目下，对待识别信息进行识别的需要。

因此，为了解决上述问题，本方案引入了分类目朴素贝叶斯算法，将求解P(T|S)转换为求解P(T|S,C)：

其中，T表示训练样本的信息类别，S表示训练样本的文本内容，S∈w₁w₂...w_n，w₁、w₂……w_n为S的各分词，n为S所包含的总分词数；C表示训练样本的相关对象所属的类目，P(T|S,C)表示在类目C下S属于T的概率；P(S,C)表示在类目C中S成立的概率；P(T,C)表示在类目C中T出现的概率；

其中，

其中，P(w₁,T,C)表示在类目C下T出现，且S的第一个分词为w₁的概率，P(w_i+1|w_i,T,C)表示在类目C下T出现，且S中连续出现w_i+1w_i的概率。

由上述的推导过程可知，由于分类目朴素贝叶斯模型引入了信息的相关对象所属的类目这个变量，使其不仅仅可以学习到垃圾信息样本与非垃圾信息样本之间的区别，而且还可以学习到在某个训练样本的相关对象所属的类目下，非垃圾信息样本与垃圾信息样本的差别，可进一步提高识别的准确率。

(二)、最大熵模型：

最大熵模型的引入主要是为了克服分类目朴素贝叶斯模型需要整体考虑信息文本偏向垃圾信息的概率，而相对降低了一些垃圾信息用语(例如广告词汇等)占有的权重比例的问题。最大熵模型可以在约束条件为模型期望与训练样本期望一致的情况下，为信息文本中的各个词语分配最优的权重，如，最大熵模型会根据训练样本自动计算训练样本中每个词的垃圾信息权重，当某个词在垃圾信息样本中大量出现时，该词相对普通的词汇具有很大的垃圾信息权重，从而达到分配给垃圾信息用语更高权重的目的，以帮助用户识别整体正常但部分文本为垃圾内容的垃圾信息。

(三)、文本深度表示模型：

由于在不同的待识别信息的文本中，词汇不同，表达的语义内容却可能相同；例如，仍以识别电子交易平台中用户发布的评价信息是否为广告为例，有广告评价为了避免出现“QQ号码为***”的内容从而被判定为垃圾信息的情况，可将其转换为“企鹅号为***”，为信息识别带来障碍。因此，为了更好地提高识别能力，识别模型需学习词汇之间的语义相似度。

在本实施例中，文本深度表示模型，即，Word2Vec模块的引入主要是为了计算词语之间的语义相似度。首先，确定一批种子垃圾信息词汇，然后利用Word2vec模型去学习分词后的训练样本中的词向量；最后，可利用学习到的词向量去做相似度关联，获取更多的语义相似的垃圾信息词汇，加入到垃圾信息词汇集合与垃圾信息词汇得分等特征中。

(四)、深度信念网络模型：

深度信念网络模型(Deep Belief Network，DBN)的引入主要是为了获取更抽象的高维特征数据，以此来提高信息识别的准确率。DBN模型是一个概率生成模型，与传统的判别模型的神经网络相对，用于建立一个观察数据和标签之间的联合分布。

下面将讲解本实施例是如何利用DBN模型提取高维特数据的：

首先，假设有一个二部图，每一层的节点之间没有连接(每一层的所有节点之间是条件独立的)，一层是可视层，即输入数据层(v)；一层是隐藏层(h)，如果假设所有的节点都是随机二值变量节点(只能取0或者1)，同时假设全概率分布P(v,h)满足Boltzmann分布，则称这个模型是限制波尔兹曼机(Restricted BoltzmannMachine，RBM)；当输入(v)时，通过P(h|v)可以得到隐藏层(h)，而得到隐藏层(h)之后，通过P(v|h)又能得到可视层；如果通过调整参数，使得从隐藏层得到的可视层与原来的可视层(v)一样，那么得到的隐藏层就是可视层另外一种表达，也就是说，隐藏层可以作为可视层输入数据的特征。

在本实施例中，可使用3层RBM神经网络，每层的节点数都为100，得到的三层节点输出可作为训练样本(或待识别信息)的高维特征数据(更为抽象的特征数据)，并可将其输入到梯度提升决策树(Gradient Boost Decision Tree，GBDT)模型中进行学习(或识别)。

(五)、梯度提升决策树模型：

GBDT模型是以决策树为基函数的提升方法，可以表示为决策树的加法模型：

其中，T(x；θ_m)表示决策树，θ_m表示决策树的参数，M表示树的个数；

提升树算法采用前向分步算法：

1、首先确定初始提升树f₀(x)＝0；

2、分别计算第m＝1,2,…M步的模型：

通过经验风险极小化确定下一个决策树的参数θ_m：

其中，f_m-1(x)为当前(第m-1步)模型，L(y_i,f_m-1(x_i)+T(x_i；θ))为损失函数；

更新f_m(x)＝f_m-1(x)+T(x；θ_m)；

3，得到加法模型：

由于树的线性组合可以很好地拟合训练数据，即便数据中的输入与输出之间的关系很复杂也是如此，因此，GBDT模型可以学习很复杂的特征与样本之间的关系，而且不要求特征之间相互独立，是一个非常高级、有效的学习方法。在本实施例的多模型融合框架中，将基础特征数据与最大熵模型、分类目朴素贝叶斯模型、Word2Vec模型、以及DBN模型抽取的高维特征数据一起输入到GBDT模型中进行学习，可使得信息识别的准确率得到较大幅度的提升。

因此，本实施例中，如图2所示(图2为根据各训练样本所属的信息类别以及各训练样本的基础特征数据，对多个机器学习模型进行融合训练的具体过程示意图)，根据各训练样本所属的信息类别以及各训练样本的基础特征数据，对多个机器学习模型进行融合训练，得到用于识别垃圾信息的训练模型，可具体包括：

基于各训练样本的文本内容，分别对最大熵模型、分类目朴素贝叶斯模型以及Word2vec模型进行训练，并基于训练后的最大熵模型、分类目朴素贝叶斯模型以及Word2vec模型，计算各训练样本的第一高维特征数据；

基于各训练样本的基础特征数据，以及计算得到的各训练样本的第一高维特征数据，对DBN模型进行训练，并基于训练后的DBN模型，计算各训练样本的第二高维特征数据；

基于各训练样本的基础特征数据、第一高维特征数据以及第二高维特征数据，对GBDT模型进行训练，得到用于识别垃圾信息的信息识别模型。

也就是说，本实施例中，可将各训练样本的文本内容输入最大熵模型对其进行训练，并基于训练后的最大熵模型，可计算得到各训练样本为垃圾信息的概率值、为非垃圾信息的概率值、以及为垃圾信息的概率与为非垃圾信息的概率的差值；将各训练样本的文本内容输入分类目朴素贝叶斯模型对其进行训练，并基于训练后的分类目朴素贝叶斯模型，可计算得到各训练样本分别在各相关对象所属的类目下为垃圾消息的概率值、为非垃圾信息的概率值、以及为垃圾信息的概率与为非垃圾信息的概率的差值；将各训练样本的文本内容输入Word2vec模型对其进行训练，并基于训练后的Word2vec模型，可获取各训练样本中与预先设定的垃圾信息词汇相关度不小于设定的相似度阈值的词汇；并将基于上述各模型得到的数据作为第一高维特征数据，并将其与各基本特征数据一起输入到DBN模型中进行训练，得到更为抽象的高维特征数据(第二高维特征数据)；以及，在得到上述高维特征数据之后，可将基础特征数据、第一高维特征数据以及第二高维特征数据等一并输入到GBDT模型中进行拟合训练，学习多维度的特征与样本之间的关系，得到用于识别垃圾信息的信息识别模型。

需要说明的是，所述多个机器学习模型包括但不限于上述各机器学习模型，可加入新的机器学习模型进行进一步融合；也可用具备相似功能的新的机器学习模型对上述各机器学习模型进行替换，此处不再赘述。

步骤103：基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息。

可选地，针对任一待识别信息，若确定该待识别信息为非垃圾信息，则可将该待识别信息进行正常显示；若确定该待识别信息为垃圾信息，则可对该待识别信息进行屏蔽。另外，还可根据实际需要，将分类结果(各待识别信息及其所对应的类别)存储在设定的存储设备(如ODPS系统，该系统为可以存储或对大数据进行运算的大数据处理平台)中，以便后续可从中获取历史识别结果以对训练样本集合进行更新。此外，还可将发布垃圾信息的用户的账号信息发送至相应的系统中做账号处罚，以达到进一步减少垃圾信息的目的。

步骤104：根据分类结果，选取第一设定数量的被确定为垃圾信息的待识别信息，并将选取的待识别信息以及第二设定数量的、与当前时段被举报的垃圾信息的相似度不低于设定的相似度阈值(可根据实际情况灵活设置)的信息作为垃圾信息训练样本加入到训练样本集合中，以更新所述训练样本集合。

即，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统。

需要说明的是，将第一设定数量的已经被所述识别模型确定为垃圾信息的评价信息作为一部分新的训练样本更新到所述训练样本集合中，是为了确保所述识别模型对旧有形式的垃圾信息的识别能力不下降；通过读取当前设定时间段内的用户举报数据，获取最新的变异垃圾信息(最近时间发展出来的无法被当前的识别模型识别出来的垃圾信息)，然后进行相似度关联，获取第二设定数量的与最新的变异垃圾信息的相似度较高的垃圾信息更新到所述训练样本集合中，是为了提高识别模型对新变异垃圾信息的抓取能力。

可选地，所述更新后的训练样本集合中还可包含第三设定数量的人工标识为垃圾信息的垃圾信息训练样本。也就是说，在更新后的训练样本集合中，仍可保留一部分通过人工标识所得到的垃圾信息训练样本，以控制识别模型抓取垃圾信息的种类。

进一步可选地，在所述更新后的训练样本集合中，根据信息识别模型的分类结果得到的垃圾信息训练样本的数量、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本的数量，以及通过人工标识所得到的垃圾信息训练样本的数量三者之间的比值可为设定的比例值。经过反复试验与人工评测，优选地，所述设定的比例值可为4:3:4(当然还可根据实际情况调整为其它比例)，以保证效果最优。

这是因为，太少的人工举报数据在机器学习方法中不能保证识别模型能有效学习到新样本的特征分布；40％的通过人工标识所得到的垃圾信息训练样本可保证需要抓取的广告(垃圾信息)的基本种类，能够防止模型在自动迭代的过程中偏离预期，另外，还可有效地提高识别的准确率；40％的根据信息识别模型的分类结果得到的垃圾信息训练样本可保证模型的识别能力平滑变化，即可保证识别模型的稳定性与可持续性。

另外，需要说明的是，为了使更新后的识别模型在真实的环境中仍有很好的鲁棒性与很高的准确率，所述更新后的训练样本集合中的正、负样的分布仍应该尽量去逼近真实环境的数据分布，即，在所述更新后的训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值仍可处于设定的比例范围(优选为1:5～1:10，当然还可根据实际情况调整为其它比例)之内。

步骤105：基于更新后的训练样本集合对所述信息识别模型进行更新，并基于更新后的信息识别模型确定接收到的各待识别信息是否为垃圾信息。

需要说明的是，本实施例中，可每隔设定的时间段(如一个星期等)，循环执行步骤104～105，以对所述训练样本集合以及所述识别模型进行更新，保持识别模型的准确性。

可选地，本实施例中，可以增量的方式更新训练样本集合，即，将设定比例的根据信息识别模型的分类结果得到的垃圾信息训练样本、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本，以及通过人工标识所得到的垃圾信息训练样本更新到训练样本集合中，且不删除训练样本集合中的旧有样本；也可用替换的方式更新训练样本集合，即，将设定比例的根据信息识别模型的分类结果得到的垃圾信息训练样本、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本，以及通过人工标识所得到的垃圾信息训练样本更新到训练样本集合中，同时，删除训练样本集合中的所有旧有样本，本实施例在此不作任何限定。

此外，为满足实际需求，训练样本集合中的垃圾信息样本与非垃圾信息样本也可通过其它渠道获取，如，通过其它第三方系统或平台获取，本实施例在此不作任何限定。

另外，本实施例中所述的识别模型，可对接收到的各待识别信息进行实时识别，也可对各待识别信息进行离线判定，此处不再赘述。

综上所述，本申请实施例提供了一种垃圾信息识别方法，可根据确定的训练样本集合，训练得到用于识别垃圾信息的信息识别模型；以及，基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；并，基于历史识别到的垃圾信息、以及与最近时间段被举报的垃圾信息相关的垃圾信息更新训练样本集合，并基于更新后的训练样本集合对所述信息识别模型进行更新，如此循环。也就是说，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统，从而一方面可提高所述信息识别模型对变异垃圾信息的抓取能力，另一方面还可确保所述信息识别模型对旧有形式的垃圾信息的识别能力不下降，达到了提高信息识别的时效性、准确性以及减轻人力成本等的效果。

另外，所述方法还可有效地融合多渠道的特征，包括信息本身的属性特征、信息文本的词法特征、信息文本的语义特征、与信息相关的用户的操作行为特征，以及与信息相关的对象的属性特征等，从而为信息识别提供了更多的信息量；以及，引入分类目朴素贝叶斯模型，使得识别模型不仅仅可以学习到垃圾信息样本与非垃圾信息样本之间的区别，而且可以学习到在各训练样本的相关对象所属的类目下，非垃圾信息样本与垃圾信息样本的差别；另外，还采用了多机器学习模型融合的方法，得到高维特征数据并将得到的高维特征数据与基础特征数据一起进行拟合训练，学习多维度的特征与样本之间的关系，以上各种措施都使得识别模型的准确率得到进一步地大幅度提升。

实施例二：

基于同样的发明构思，本申请实施例二提供了一种信息识别设备，具体地，如图3所示，其为本申请实施例二中所述设备的结构示意图，所述设备可包括：

样本确定单元301，用于确定训练样本集合、以及训练样本集合中的各训练样本所属的信息类别以及各训练样本的基础特征数据；

模型学习单元302，用于根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型；

垃圾信息识别单元303，用于基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；

样本更新单元304，用于根据所述垃圾信息识别单元的分类结果，选取第一设定数量的被确定为垃圾信息的待识别信息，并将选取的待识别信息以及第二设定数量的、与当前时段被举报的垃圾信息的相似度不低于设定的相似度阈值的信息作为垃圾信息训练样本加入到训练样本集合中，以更新所述训练样本集合；

所述模型学习单元302，还用于基于更新后的训练样本集合对所述信息识别模型进行更新；

所述垃圾信息识别单元303，还用于基于更新后的信息识别模型确定接收到的各待识别信息是否为垃圾信息。

也就是说，本申请实施例提供的垃圾信息识别设备，可根据确定的训练样本集合，训练得到用于识别垃圾信息的信息识别模型；以及，基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；并，基于历史识别到的垃圾信息、以及与最近时间段被举报的垃圾信息相关的垃圾信息更新训练样本集合，并基于更新后的训练样本集合对所述信息识别模型进行更新，如此循环。也就是说，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统，从而一方面可提高所述信息识别模型对变异垃圾信息的抓取能力，另一方面还可确保所述信息识别模型对旧有形式的垃圾信息的识别能力不下降，达到了提高信息识别的时效性、准确性以及减轻人力成本等的效果。

需要说明的是，在机器学习中，训练样本集合的数据构成至关重要，正、负样的分布应该尽量去逼近真实环境的数据分布，才能使识别模型在真实的环境中有更好的鲁棒性与更高的准确率。因此，在所述样本确定单元301确定的训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值处于设定的比例范围之内。经过试验和人工测评，优选地，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值可处于1:5～1:10的范围值之内，与真实环境的数据分布较为接近，识别效果较好。

所述评价元特征为用于描述训练样本的评价属性的特征；

所述文本元特征为用于描述训练样本的字面内容的特征；

所述语法语义特征为用于描述训练样本的语义内容的特征；

所述用户特征为用于描述训练样本的相关用户的操作行为的特征；

所述对象特征为用于描述训练样本的相关对象的属性的特征；

所述交叉特征为由两种或两种以上其它基础特征交互组合所得到的、用于描述训练样本的多维属性的特征。

也就是说，所述样本确定单元301可有效地融合多渠道的特征，包括信息本身的属性特征、信息文本的词法特征、信息文本的语义特征、与信息相关的用户的操作行为特征，以及与信息相关的对象的属性特征等，从而为信息的识别提供了更多的信息量，可进一步提高识别准确率。

可选地，所述模型学习单元302，可具体用于：

进一步可选地，所述多个机器学习模型，可具体包括：

最大熵模型、分类目朴素贝叶斯模型、文本深度表示模型、深度信念网络模型、以及梯度提升决策树模型。

其中，所述分类目朴素贝叶斯模型的表达式可为：

其中，

可选地，所述模型学习单元302，可具体用于：

基于各训练样本的文本内容，分别对最大熵模型、分类目朴素贝叶斯模型以及文本深度表示模型进行训练，并基于训练后的最大熵模型、分类目朴素贝叶斯模型以及文本深度表示模型，计算各训练样本的第一高维特征数据；并

基于各训练样本的基础特征数据，以及计算得到的各训练样本的第一高维特征数据，对深度信念网络模型进行训练，并基于训练后的深度信念网络模型，计算各训练样本的第二高维特征数据；以及

基于各训练样本的基础特征数据、第一高维特征数据以及第二高维特征数据，对梯度提升决策树模型进行训练，得到用于识别垃圾信息的信息识别模型。

由此可见，所述模型学习单元302可采用多机器学习模型融合的方法，得到高维特征数据并将得到的高维特征数据与基础特征数据一起进行拟合训练，学习多维度的特征与样本之间的关系，使得识别模型的准确率得到进一步地大幅度提升。

可选地，所述更新后的训练样本集合中还可包含第三设定数量的人工标识为垃圾信息的垃圾信息训练样本。

进一步可选地，在所述更新后的训练样本集合中，根据信息识别模型的分类结果得到的垃圾信息训练样本的数量、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本的数量，以及通过人工标识所得到的垃圾信息训练样本的数量三者之间的比值可为设定的比例值。优选地，所述设定的比例值可为4:3:4。

也就是说，所述样本更新单元304可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统。

进一步可选地，为了使更新后的识别模型在真实的环境中仍有很好的鲁棒性与很高的准确率，所述样本更新单元304还可使得更新后的训练样本集合中的正、负样的分布仍应该尽量去逼近真实环境的数据分布，即，所述更新后的训练样本集合中还可包含第四设定数量的非垃圾信息训练样本，且在所述更新后的训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值处于设定的比例范围(优选为1:5～1:10)之内。

综上所述，本申请实施例提供了一种垃圾信息识别设备，可根据确定的训练样本集合，训练得到用于识别垃圾信息的信息识别模型；以及，基于得到的信息识别模型，对各待识别信息进行分类，确定各待识别信息是否为垃圾信息；并，基于历史识别到的垃圾信息、以及与最近时间段被举报的垃圾信息相关的垃圾信息更新训练样本集合，并基于更新后的训练样本集合对所述信息识别模型进行更新，如此循环。也就是说，可将历史识别到的垃圾信息、以及、与最近时间段被举报的垃圾信息相关的垃圾信息自动更新到训练样本集中，以对训练得到的信息识别模型进行不断更新，形成完整的基于闭环数据流的信息识别系统，从而一方面可提高所述信息识别模型对变异垃圾信息的抓取能力，另一方面还可确保所述信息识别模型对旧有形式的垃圾信息的识别能力不下降，达到了提高信息识别的时效性、准确性以及减轻人力成本等的效果。

另外，所述设备还可有效地融合多渠道的特征，包括信息本身的属性特征、信息文本的词法特征、信息文本的语义特征、与信息相关的用户的操作行为特征，以及与信息相关的对象的属性特征等，为信息识别提供了更多的信息量；以及，引入分类目朴素贝叶斯模型，使得识别模型不仅仅可以学习到垃圾信息样本与非垃圾信息样本之间的区别，而且可以学习到在各训练样本的相关对象所属的类目下，非垃圾信息样本与垃圾信息样本的差别；另外，还采用多机器学习模型融合的方法，得到高维特征数据并将得到的高维特征数据与基础特征数据一起进行拟合训练，学习多维度的特征与样本之间的关系，以上各种措施都使得识别模型的准确率得到进一步地大幅度提升。

本领域技术人员应明白，本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种垃圾信息识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述训练样本的基础特征数据包括评价元特征、文本元特征、语法语义特征、用户特征、对象特征，以及交叉特征中的任意一种或多种，其中：

所述评价元特征为用于描述训练样本的评价属性的特征；

所述文本元特征为用于描述训练样本的字面内容的特征；

所述语法语义特征为用于描述训练样本的语义内容的特征；

3.如权利要求1所述的方法，其特征在于，所述更新后的训练样本集合中还包含第三设定数量的人工标识为垃圾信息的垃圾信息训练样本。

4.如权利要求3所述的方法，其特征在于，在所述更新后的训练样本集合中，根据信息识别模型的分类结果得到的垃圾信息训练样本的数量、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本的数量，以及通过人工标识所得到的垃圾信息训练样本的数量三者之间的比值为设定的比例值。

5.如权利要求4所述的方法，其特征在于，所述设定的比例值为4:3:4。

6.如权利要求5所述的方法，其特征在于，所述更新后的训练样本集合中还包含第四设定数量的非垃圾信息训练样本，且在所述更新后的训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值处于设定的比例范围之内。

7.如权利要求1所述的方法，其特征在于，所述根据各训练样本所属的信息类别以及各训练样本的基础特征数据，训练得到用于识别垃圾信息的信息识别模型，具体包括：

8.如权利要求7所述的方法，其特征在于，所述多个机器学习模型，具体包括：

9.如权利要求8所述的方法，其特征在于，根据各训练样本所属的信息类别以及各训练样本的基础特征数据，对多个机器学习模型进行融合训练，得到用于识别垃圾信息的训练模型，具体包括：

基于各训练样本的文本内容，分别对最大熵模型、分类目朴素贝叶斯模型以及文本深度表示模型进行训练，并基于训练后的最大熵模型、分类目朴素贝叶斯模型以及文本深度表示模型，计算各训练样本的第一高维特征数据；

基于各训练样本的基础特征数据，以及计算得到的各训练样本的第一高维特征数据，对深度信念网络模型进行训练，并基于训练后的深度信念网络模型，计算各训练样本的第二高维特征数据；

10.如权利要求9所述的方法，其特征在于，所述分类目朴素贝叶斯模型的表达式为：

其中，

11.一种垃圾信息识别设备，其特征在于，所述设备包括：

12.如权利要求11所述的设备，其特征在于，所述训练样本的基础特征数据包括评价元特征、文本元特征、语法语义特征、用户特征、对象特征，以及交叉特征中的任意一种或多种，其中：

所述评价元特征为用于描述训练样本的评价属性的特征；

所述文本元特征为用于描述训练样本的字面内容的特征；

所述语法语义特征为用于描述训练样本的语义内容的特征；

13.如权利要求11所述的设备，其特征在于，所述更新后的训练样本集合中还包含第三设定数量的人工标识为垃圾信息的垃圾信息训练样本。

14.如权利要求13所述的设备，其特征在于，在所述更新后的训练样本集合中，根据信息识别模型的分类结果得到的垃圾信息训练样本的数量、通过与被举报的垃圾信息进行相似度关联所得到的垃圾信息训练样本的数量，以及通过人工标识所得到的垃圾信息训练样本的数量三者之间的比值为设定的比例值。

15.如权利要求14所述的设备，其特征在于，所述设定的比例值为4:3:4。

16.如权利要求15所述的设备，其特征在于，所述更新后的训练样本集合中还包含第四设定数量的非垃圾信息训练样本，且在所述更新后的训练样本集合中，垃圾信息训练样本的数量与非垃圾信息训练样本的数量的比值处于设定的比例范围之内。

17.如权利要求11所述的设备，其特征在于，所述模型学习单元，具体用于：

18.如权利要求17所述的设备，其特征在于，所述多个机器学习模型，具体包括：

19.如权利要求18所述的设备，其特征在于，所述模型学习单元，具体用于：

20.如权利要求19所述的设备，其特征在于，所述分类目朴素贝叶斯模型的表达式为：

其中，