CN104424208A

CN104424208A - 对消息进行过滤处理的方法及装置

Info

Publication number: CN104424208A
Application number: CN201310369473.4A
Authority: CN
Inventors: 贾铸斌; 袁昌文
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2013-08-22
Filing date: 2013-08-22
Publication date: 2015-03-18
Anticipated expiration: 2033-08-22
Also published as: CN104424208B

Abstract

本发明公开了对消息进行过滤处理的方法及装置，其中，该方法包括：由消息训练样本构建出特征词数据模型；从待处理消息中提取特征词；采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率；判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉。本发明方案能够提高对消息进行过滤处理的准确率。

Description

对消息进行过滤处理的方法及装置

技术领域

本发明涉及信息处理技术，尤其涉及对消息进行过滤处理的方法及装置。

背景技术

在消息发布领域，常涉及对消息进行过滤处理，以确定发布的是否为低质量消息，如果为低质量消息，则滤除掉该消息，进而筛选出高质量的消息。

进行消息滤除的应用场景很多，下面具体以在微博平台发布消息为例，进行说明。微博平台是一个比较开放的消息分享与交流平台，同时微博开放平台提供了较多的应用程序编程接口（API，Application Programming Interface），通过API将微博平台的功能开放给第三方应用。目前使用微博开放平台的API应用多达2000家，在众多应用中，各个应用发布的消息质量参差不齐。很多应用在微博平台发布的消息质量很低，带来很大的干扰；为此需要一套低质量过滤方案，以自动识别出低质量消息，帮助筛选高质量的消息，优化消息发布。

目前对消息进行过滤处理的方法主要有以下两种，下面进行详细说明。

方法一、

根据消息来源判断消息是低质量消息还是高质量消息。该方法存在以下缺陷：分析消息的发表来源比较困难，较难实现对消息的质量的判别，导致筛选的准确率较低。

针对开放平台的某一应用，根据消息来源对该应用发布的所有消息进行过滤，如果判断出发布的消息中80%为低质量消息，可以封杀该应用的分享能力；但这种方式只能封杀发布大量低质量内容的应用，对于发布少量低质量内容的应用无法进行封杀。

方法二、

首先进行分析，提取低质量特征词；然后进行判断，如果消息中包含这些特征词，则判定为低质量消息的概率很高，将其确定为低质量消息。例如，低质量特征词为“淘宝”、“分享”、“测试”等特征词，如果消息中包含这些低质量特征词，则判定该消息为低质量消息，对其进行滤除。

方法二存在以下缺陷：在消息中发现低质量特征词就将其确定为低质量的消息，错误判别的概率很高，导致筛选的准确率较低；为了提高准确率，可对结果进一步进行人工筛选，但这样做需要大量的人工介入，工作量很大，一般很少采用。

综上，现有对消息进行过滤处理的方案存在筛选准确率较低的缺陷。

发明内容

本发明提供了一种对消息进行过滤处理的方法，该方法能够提高筛选的准确率。

本发明提供了一种对消息进行过滤处理的装置，该装置能够提高筛选的准确率。

一种对消息进行过滤处理的方法，该方法包括：

由消息训练样本构建出特征词数据模型，特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系；

从待处理消息中提取特征词；

采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率；

判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉。

一种对消息进行过滤处理的装置，该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元；

所述模型训练单元，由消息训练样本构建出特征词数据模型，特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系；

所述特征词提取单元，从待处理消息中提取特征词，发送给所述联合概率计算单元；

所述联合概率计算单元，采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率，发送给所述过滤判断单元；

所述过滤判断单元，判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉。

从上述方案可以看出，本发明中，由消息训练样本构建出特征词数据模型，结合构建出的特征词数据模块，分别计算出待处理消息中各特征词对应的低质量概率，对计算出的所有低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。本发明方案并不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息，也不简单根据消息是否包含低质量特征词来确定该消息是低质量消息还是高质量消息，从而，提高了消息筛选的准确率，简化了操作。

附图说明

图1为本发明对消息进行过滤处理的方法示意性流程图；

图2为本发明对消息进行过滤处理的方法流程图实例；

图3为本发明进行消息推送的方法流程图实例；

图4为本发明对消息进行过滤处理的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明进一步详细说明。

本发明中，分别计算出待处理消息中各特征词对应的低质量概率，对计算出的所有低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率；而不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息，也不简单地依据消息是否包含低质量特征词来确定该消息为低质量消息还是高质量消息，进而，提高了计算待处理消息为低质量概率的准确性。参见图1，为本发明对消息进行过滤处理的方法示意性流程图，其包括以下步骤：

步骤101，由消息训练样本构建出特征词数据模型，特征词数据模型包含特征词与特征词所在消息的低质量概率之间的映射关系。

特征词数据模型用于确定某特征词对应的低质量概率。

消息训练样本中包含较多消息，并且已知各条消息是高质量消息还是低质量消息。确定某条消息是高质量还是低质量可采用现有技术中准确率较高的判断方式实现，如采用背景技术部分方法二提及的人为介入方式；也就是，先根据某条消息是否包含低质量特征词来确定该消息为低质量消息还是高质量消息，然后进一步用人工筛选方式，以提高其准确率。由于消息训练样本中的消息有限，且首次构建出特征词数据模型，后续进行消息过滤时都可直接使用，无需每次进行消息过滤再重新进行构建，人为介入的工作量较少。

特征词数据模型包含了特征词与特征词所在消息的低质量概率之间的映射关系，基于消息训练样本构建出特征词数据模型的方法有多种，下面进行举例说明。构建方法包括：从消息训练样本中选取一组低质量消息和高质量消息，对选取的低质量消息和高质量消息进行训练，构建出特征词数据模型。对选取的低质量消息和高质量消息进行训练的方法具体如：对选取的消息进行划分，得到分词；然后对分词逐个进行统计，得到其低质量概率。假设对分词A进行统计，方法包括：对分词A所在消息为低质量消息的条数进行统计，用统计值除以提取的消息总条数，得到的相除值即为低质量概率。

进一步地，还可以对构建出的特征词数据模型进行优化调整，具体包括：

再从消息训练样本中提取另一组低质量消息和高质量消息，采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率；

判断准确率是否低于第二设定阈值，如果是，则对构建的特征词数据模型进行调整；否则，将构建出的特征词数据模型用于后续计算。

上述确定准确率可具体采用下述方法实现：从消息训练样本中获取所述另一组低质量消息和高质量消息的低质量概率，将所述另一组低质量消息和高质量消息采用特征词数据模型计算出各消息的低质量概率，将其与从消息训练样本中获取的低质量概率进行比较，以确定计算结果是否准确；然后对确定为准确的计算结果进行统计，以得到准确率如果准确率低于第二设定阈值，如90%，则对特征词数据模型进行调整，如果准确率高于90%，则无需调整。前述采用特征词数据模型计算某消息的低质量概率具体可采用下述方式：提取该消息的特征词，采用特征词训练模型确定出各特征词对应的低质量概率，对各特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。联合计算可参见步骤103出的详细记载。

步骤102，从待处理消息中提取特征词。

提取特征词的方式有多种，简单地，可以对待处理消息进行划分，得到分词，将分词作为特征词。再如，还可以采用如下的方式进行特征词提取：

对待处理消息进行降噪处理，得到降噪处理后消息；

对降噪处理后消息进行划分，得到分词；

计算出各分词在降噪处理后消息中的权重，对权重进行排序，从最大的权重开始提取出设定个数的分词，作为待处理消息的特征词。

降噪处理可过滤掉消息中的字符、字母、数字、链接、图片、音频等干扰字符；然后对降噪处理后消息的内容进行划分，得到分词，例如，待处理消息为“Hello，我真的非常爱北京天安门”，经过处理之后，提取出来的分词为：“我”、“爱”、“北京”、“天安门”。然后可具体采用TF-IDF算法，计算出各分词的权重，计算出各分词在降噪处理后消息中的权重包括：

将需要计算的分词称为待处理分词，计算出待处理分词在降噪处理后消息中出现的概率TF：TF=（待处理分词在降噪处理后消息中出现的个数）/(降噪处理后消息中出现的分词总个数)；

计算出待处理分词在消息训练样本中出现的概率IDF：IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1))；

由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-IDF：TF-IDF=TF*IDF。

得到各分词的权重后，对权重进行排序，从最大的权重开始提取出设定个数的分词，作为待处理消息的特征词。

步骤103，采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。

对多个值的联合计算，为本领域技术人员熟悉的技术，例如，粗略地，可以将多个值进行求和，将求和值作为最终的结果；还可以将多个值进行相乘，将乘积作为最终的结果。再如，可采用朴素贝叶斯数据模型进行联合计算；举例说明，假设待处理消息包含3个特征词，低质量概率分别为P1、P2和P3，则联合概率P，可采用下述公式计算得到：

P=P1*P2*P3/(P1*P2*P3+(1-P1)*(1-P2)*(1-P3))。

步骤104，判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉。

本发明中，由消息训练样本构建出特征词数据模型，结合构建出的特征词数据模块，分别计算出待处理消息中各特征词对应的低质量概率，对计算出的所有低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。本发明方案并不简单地依据消息来源判断待处理消息为低质量消息还是高质量消息，也不简单地依据消息是否包含低质量特征词来确定该消息为低质量消息还是高质量消息，从而，提高了消息筛选的准确率。

下面通过图2的流程，对本发明进行消息过滤处理的方法进行实例说明，图2的流程包括以下步骤：

步骤201，从消息训练样本中选取一组低质量消息和高质量消息。

步骤202，由选取的低质量消息和高质量消息，构建出特征词数据模型。

步骤203，再从消息训练样本中提取另一组低质量消息和高质量消息，采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率。

步骤204，判断准确率是否低于第二设定阈值，如果是，则对构建的特征词数据模型进行调整；否则，将构建出的特征词数据模型用于后续计算。

步骤205，对待处理消息进行降噪处理，得到降噪处理后消息。

步骤206，对降噪处理后消息进行划分，得到分词。

步骤207，计算出各分词在降噪处理后消息中的权重，对权重进行排序，从最大的权重开始提取出设定个数的分词，作为待处理消息的特征词。

计算出各分词在降噪处理后消息中的权重包括：

以待处理消息为“Hello，我真的非常爱北京天安门”为例，降噪处理后消息为“我真的非常爱北京天安门”，提取出来的分词为：“我”、“爱”、“北京”、“天安门”。对于分词“我”：

TF=1/4；

IDF=log(1000/(20+1))；其中消息训练样本的消息总条数为1000，消息训练样本中包含“我”的消息条数为20；

“我”在降噪处理后消息中的权重TF-IDF：TF-IDF=1/4*log(1000/(20+1))。

步骤208，采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。

步骤209，判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉，不进行公布，否则在公开平台公布待处理消息。

判断待处理消息的低质量概率大于第一设定阈值之后，可根据该判断结果进行后续的多种处理。例如，将待处理消息率除掉，不在开放平台上发布该处理消息。再如，如果待处理消息由开放平台上的指定第三方应用发布，在判断出所述指定第三方应用发布的大量消息的低质量概率都大于第一设定阈值之后，除了将这些消息滤除掉，不进行发布外，还可以拒绝所述指定第三方应用在开放平台的分享功能。

并且，对于请求方调用API向开放平台请求消息的情况，在判断出待处理消息的低质量概率不大于第一设定阈值后，则将待处理消息推送给请求方。

任何需要对消息进行筛选的应用场景，都可以采用本发明的过滤处理方案。并且，在开放平台上公布的消息可通过调用API获取，下面具体以在微博平台发布的消息为例，对消息获取进行说明。

微博开放平台是一个开放的信息订阅、分享与交流平台。微博开放平台为开发者提供了海量的微博信息、粉丝关系、以及随时随地发生的信息裂变式传播渠道。现有技术中，如果需要从开放平台获取微博数据，只能通过调用微博开放平台的API，以获取微博数据。

这种方式存在以下缺陷：请求方一般是周期性地调用API，获取微博数据，无法实时获取用户的更新数据；为了实时获取用户的更新消息，请求方需要不断调用对外开放的API，而用户更新消息的时机完全是随机的，导致请求方调用API有效获取数据的成功率非常低，引起大量的无效请求；这种获取用户更新数据的方式，不仅增高了使用API的门槛，同时也给API服务带来大量无效的请求，造成非常大的负担。可见，现有进行消息推送的方案存在以下缺陷：没有对获取的数据进行质量过滤，通过API获取的数据质量无法得到很好的保证；API使用复杂度比较高，需要非常高的学习成本，增高了使用API的门槛；采用主动拉取API的方式，无法及时获取用户更新的消息。

为了克服进行数据质量保证的缺陷，本发明采用前述的过滤方法对消息进行质量过滤，以提高数据质量；并且，可以根据用户的订阅需求向其推送消息，具体地：接收请求方输入的订阅条件；判断待处理消息是否满足订阅条件，如果满足，则采用前述的过滤方法对消息进行质量过滤，将过滤后的消息发送给请求方；否则不进行质量过滤及消息推送。进一步地，在接收请求方输入的订阅条件之后，还可以判断是否进行了消息更新，如果是，则将更新消息作为待处理消息，执行所述判断待处理消息是否满足订阅条件的步骤；否则不执行所述判断待处理消息是否满足订阅条件的步骤；这样，用户可即时获取更新消息，且无需用户主动拉取，降低了API的使用复杂度。

采用本发明进行消息推送的方案，可以达到以下效果：自动对消息进行质量过滤，提高推送消息的质量，降低低质量消息的推送量；请求方输入订阅条件后，便可指定按照订阅条件对消息自动进行智能分类；实现实时将更新消息自动推送给第三方服务，取代现有技术通过API主动进行数据获取的方式，简化了操作；降低API服务的复杂性，降低请求方获取数据的门槛。

下面通过图3的流程，对本发明进行消息推送的方法进行实例说明，图3的流程包括以下步骤：

步骤301，接收请求方输入的订阅条件。

本实例中，请求方为第三方服务端，请求方需要选择实时获取消息的订阅条件，该订阅条件例如为关于地域、行业（旅游、科技、美容等行业）、评论内容等的订阅规则，这里假设选择的行业为旅游。

步骤302，对消息发布情况进行监控，判断是否进行了消息更新，如果是，则执行步骤303，否则继续监控消息发布情况。

获知用户更新了消息，获取消息内容，包括：发表者的昵称、等级、头像、长短链接、音频、视频、图片等。

步骤303，将更新消息作为待处理消息，判断待处理消息是否满足订阅条件，如果是，则执行步骤304，否则结束流程。

启动消息内容智能分析服务，分析消息的所属分类，将消息划分到合适的消息分类中，例如：旅游、科技、美容等行业。本实例中，如果消息分类为旅游，则执行步骤304。

步骤304，计算待处理消息的低质量概率。

本步骤所述计算待处理消息的低质量概率，可采用本发明前述提供的消息过滤方法实现，包括：由消息训练样本构建出特征词数据模型；从待处理消息中提取特征词；采用特征词训练模型确定出特征词对应的低质量概率，对待处理消息的所有特征词对应的低质量概率进行联合计算，得到联合概率，作为待处理消息的低质量概率。如果特征词数据模型预先已经构建出来，则执行本步骤是无需再进行构建，直接采用预先构建的特征词数据模型进行计算。

除了采用本发明前述提供的消息过滤方法，来计算待处理消息的低质量概率外；还可以采用现有的消息过滤方法确定待处理消息的低质量概率。

步骤305，判断待处理消息的低质量概率是否大于第一设定阈值，如果是，则将待处理消息滤除掉，不发送给请求方；否则，将待处理消息发送给请求方

被筛选为低质量消息的主要内容有：抽奖消息、游戏广告、购物广告、测试消息等，判断为低质量消息的内容，将不会被推送给第三方服务端，只将高质量消息通过API推动给第三方服务端，以保证第三方服务端收到的都是高质量的消息。

参见图4，为本发明对消息进行过滤处理的装置，该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元，即图中虚线左侧的部分；

较佳地，所述模型训练单元包括构建模块和调整模块；

所述构建模块，从消息训练样本中选取一组低质量消息和高质量消息，由选取的低质量消息和高质量消息，构建出特征词数据模型；

所述调整模块，从消息训练样本中提取另一组低质量消息和高质量消息，采用提取的所述另一组低质量消息和高质量消息计算由特征词数据模型确定低质量消息的准确率；判断准确率是否低于第二设定阈值，如果是，则对构建的特征词数据模型进行调整；否则，将构建出的特征词数据模型用于后续计算。

较佳地，所述特征词提取单元包括降噪模块、划分模块和分词提取模块；

所述降噪模块，对待处理消息进行降噪处理，得到降噪处理后消息，发送给所述划分模块；

所述划分模块，对降噪处理后消息进行划分，得到分词，发送给所述分词提取单元；

所述分词提取模块，计算出各分词在降噪处理后消息中的权重，对权重进行排序，从最大的权重开始提取出设定个数的分词，作为待处理消息的特征词。

较佳地，所述分词提取模块包括权重计算子模块，将需要计算的分词称为待处理分词，计算出待处理分词在降噪处理后消息中出现的概率TF：TF=（待处理分词在降噪处理后消息中出现的个数）/(降噪处理后消息中出现的分词总个数)；计算出待处理分词在消息训练样本中出现的概率IDF：IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1))；由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-IDF：TF-IDF=TF*IDF。

较佳地，该装置还包括消息推送单元，所述过滤判断单元判断出待处理消息的低质量概率不大于第一设定阈值时，向所述消息推送单元发送推送指令；

所述消息推送单元，接收推送指令，将待处理消息推送给请求方。

较佳地，该装置还包括订阅条件获取单元和订阅条件判断单元；

所述订阅条件获取单元，接收请求方输入的订阅条件；

所述订阅条件判断单元，判断待处理消息是否满足订阅条件，如果满足，则向所述特征词提取单元发送启动指令；

所述特征词提取单元接收来自所述订阅条件判断单元的启动之后，才从待处理消息中提取特征词，发送给所述联合概率计算单元。

较佳地，该装置还包括更新监控单元，实时进行更新监控，判断是否进行了消息更新，如果是，则将更新消息作为待处理消息，向所述订阅条件判断单元发送启动指令；

所述订阅条件判断单元接收来自所述更新监控单元的启动指令后，才判断待处理消息是否满足订阅条件。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种对消息进行过滤处理的方法，其特征在于，该方法包括：

从待处理消息中提取特征词；

2.如权利要求1所述的方法，其特征在于，所述由消息训练样本构建出特征词数据模型包括：

从消息训练样本中选取一组低质量消息和高质量消息；

由选取的低质量消息和高质量消息，构建出特征词数据模型；

3.如权利要求1所述的方法，其特征在于，所述从待处理消息中提取特征词包括：

对待处理消息进行降噪处理，得到降噪处理后消息；

对降噪处理后消息进行划分，得到分词；

4.如权利要求3所述的方法，其特征在于，所述计算出各分词在降噪处理后消息中的权重包括：

5.如权利要求1至4中任一项所述的方法，其特征在于，如果判断出待处理消息的低质量概率不大于第一设定阈值，则将待处理消息推送给请求方。

6.如权利要求5所述的方法，其特征在于，所述从待处理消息中提取特征词之前，该方法还包括：

接收请求方输入的订阅条件；

判断待处理消息是否满足订阅条件，如果满足，则执行所述从待处理消息中提取特征词的步骤。

7.如权利要求6所述的方法，其特征在于，接收请求方输入的订阅条件之后，该方法还包括：

判断是否进行了消息更新，如果是，则将更新消息作为待处理消息，执行所述判断待处理消息是否满足订阅条件的步骤。

8.一种对消息进行过滤处理的装置，其特征在于，该装置包括模型训练单元、特征词提取单元、联合概率计算单元和过滤判断单元；

9.如权利要求8所述的装置，其特征在于，所述模型训练单元包括构建模块和调整模块；

10.如权利要求8所述的装置，其特征在于，所述特征词提取单元包括降噪模块、划分模块和分词提取模块；

11.如权利要求10所述的装置，其特征在于，所述分词提取模块包括权重计算子模块，将需要计算的分词称为待处理分词，计算出待处理分词在降噪处理后消息中出现的概率TF：TF=（待处理分词在降噪处理后消息中出现的个数）/(降噪处理后消息中出现的分词总个数)；计算出待处理分词在消息训练样本中出现的概率IDF：IDF=log(消息训练样本的消息总条数/(包含待处理分词的消息条数+1))；由TF和IDF计算出待处理分词在降噪处理后消息中的权重TF-IDF：TF-IDF=TF*IDF。

12.如权利要求8至11中任一项所述的装置，其特征在于，该装置还包括消息推送单元，所述过滤判断单元判断出待处理消息的低质量概率不大于第一设定阈值时，向所述消息推送单元发送推送指令；

13.如权利要求12所述的装置，其特征在于，该装置还包括订阅条件获取单元和订阅条件判断单元；

所述订阅条件获取单元，接收请求方输入的订阅条件；

14.如权利要求13所述的装置，其特征在于，该装置还包括更新监控单元，实时进行更新监控，判断是否进行了消息更新，如果是，则将更新消息作为待处理消息，向所述订阅条件判断单元发送启动指令；