CN104182539A

CN104182539A - 异常信息批量处理的方法及系统

Info

Publication number: CN104182539A
Application number: CN201410442442.1A
Authority: CN
Inventors: 曹亮; 张开庆; 王永康; 何松; 张爱华
Original assignee: Beijing 58 Information Technology Co Ltd
Current assignee: Beijing 58 Information Technology Co Ltd
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2014-12-03
Anticipated expiration: 2034-09-02
Also published as: CN104182539B

Abstract

本发明提供了一种批量处理异常信息的系统及方法。该方法包括如下步骤：a)收集信息，对所述信息进行分词预处理，以得到对应于所述信息的文本向量；b)计算所述文本向量与多个信息簇的每个质心之间的距离，将所述文本向量对应的信息加入到所述距离最小的质心所在的信息簇；以及c)对所述多个信息簇进行审核并处理。

Description

异常信息批量处理的方法及系统

技术领域

本发明涉及互联网技术领域，特别是一种批量处理异常信息的方法及系统。

背景技术

分类信息网是互联网新兴起的一种涉及日常生活的方方面面信息资讯的网站类型。在这些网站里面用户可以获得免费、便利的信息发布服务，包括二手物品交易、二手车买卖、房屋租售、宠物、招聘、兼职、求职、交友活动、生活服务信息等。分类信息又称分类广告，人们日常在电视、报刊上所看到的广告，往往是不管观看者愿不愿意，它都会强加给观看者，这类广告为被动广告；而人们主动去查询招聘、租房、旅游等方面的信息，对这些信息，称它为主动广告。在信息社会逐步发展的今天，被动广告越来越引起人们的反感，而主动广告却受到人们的广泛青睐。几乎每个地方的晚报、日报、生活娱乐报都少不了分类信息的身影，而且办得越好的报纸，分类信息的篇幅往往越大。由此就产生了分类信息网。

在分类信息网站发布信息的用户中，常会出现一部分劣质用户，他们以发布虚假信息、恶意信息等劣质信息的方式欺诈用户来获取利益。因此，分类信息网站通常会设置一些对劣质信息的处理规则和过滤逻辑等。

现有的解决劣质信息的方案是基于传统的系统过滤和人工审核实现的，例如通过添加一些关键词或者一些其它特征进行系统过滤，系统过虑完以后根据关键词的属性进行一些处理处理，比如删除等；系统无法识别的会交给人工进行审核，由人工判断信息的质量好坏，并做处理。

现有方案存在以下两方面的缺陷。一方面劣质信息的变化很多，会在正常的文本中加入异常文本，或者对系统要过滤的内容做一些变形，使系统无法检测，从而绕过系统检测，以达到欺骗系统和用户的目的；另一方面，劣质信息有可能分类别分城市地集中发布，而准确地集中发现这些信息需要大量的人力资源，实现起来较为困难。

因此，需要一种批量处理异常信息的系统及方法，以简单的系统结构高效地对劣质信息进行识别及处理。

发明内容

本发明的目的是提供一种批量处理异常信息的系统及方法。

根据本发明的实施方式，异常信息批量处理的方法，包括如下步骤：

a)收集信息，对所述信息进行分词预处理，以得到对应于所述信息的文本向量；

b)计算所述文本向量与多个信息簇的每个质心之间的距离，将所述文本向量对应的信息加入到所述距离最小的质心所在的信息簇；以及

c)对所述多个信息簇进行审核并处理。

根据本发明的实施方式，批量处理异常信息的系统，包括信息提取模块、预处理模块、信息簇确定模块、以及信息处理模块，其中，

所述信息提取模块，用于收集信息；

所述预处理模块，用于根据由所述信息提取模块收集的所述信息的信息类别，对所述信息进行分词预处理，以转化为文本向量；

所述信息簇确定模块，用于根据所述信息的文本向量将所述信息聚类，得到多个信息簇；

所述信息处理模块，用于识别并处理所述信息，包括审核模块以及信息自动处理模块，其中，

所述审核模块，用于对所述信息簇进行审核，判断所述信息簇是否异常，若是，则对所述被判定为异常的信息簇进行处理；

所述信息自动处理模块，针对属于异常的信息簇的所述向量文本进行自动处理。

本发明公开的方案将对信息的过滤与审核转化为对信息簇的过滤与审核，实现批量处理信息，采用简单的系统进行信息处理的同时，提高处理效率。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1a示意性示出了对信息进行聚类的方法流程图。

图1b示意性示出了基于图1a生成的信息簇对异常信息进行批量处理的方法流程图。

图2示意性示出了批量处理异常文本的系统框图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1a示意性示出了批量处理异常文本的方法流程图。如图1a所示：

步骤110，收集信息，对信息进行分类，并对信息进行分词预处理，以得到对应于每条信息的文本向量。所述信息是指保存在数据库中的用户发布的信息，包括标题、内容、发布时间等。所述信息可以是原始收集的信息，或是经过系统过滤后的信息。系统对信息的过滤可以是通过添加某些特征(例如关键词)来对信息进行过滤筛选，在系统过滤完以后再根据特征的属性进行一系列处理，比如经筛选发现命中了属于劣质信息的关键词，则对该信息进行删除。

根据本发明的一个实施例，可以定时对信息进行收集。例如，可以利用定时任务的方式来收集信息。

对信息进行的分类可以按照信息所属的类别进行。例如，按照信息发布时所在的目录或栏目。例如，将这些信息按照所属的类别，比如房产类别、二手车类别、招聘类别等进行分类后再分别进行处理。

对信息进行的预处理是对分类后的信息进行分词，然后将所产生的至少一个分词转化为对应于每条信息的文本向量，并将结果保存到系统的内存中。所得到的由n个分词构成的文本向量例如为：

信息文本向量＝{分词1；分词2；分词3；分词4；……；分词n}

根据本发明的一个实施例，在分词预处理前还可以进行过滤掉信息中的高频词的预处理，具体地：根据信息所属的类别，去掉该信息中区分度较低的高频词。信息类别例如房产类别、二手车类别、招聘类别等。以房产类别信息为例，在收集信息后，根据房产类别的特点，去掉在房产类别中区分度较低的高频词，其目的是去掉一些对判定信息的是否异常做不出明显贡献的词，比如“小区”、“二室一厅”、“开间”等诸如此类的词。

步骤120，基于预处理所得到的文本向量，对步骤110中收集到的信息进行聚类，在步骤110中生成的所有文本向量中选取多个(例如k个)文本向量作为初始的聚类中心(即，质心)。优选地，可以随机地选取该多个文本向量。k值优选为5、6和7中的任意一个。在计算中，也可以将不同的k值分别设为初始值进行计算，最终基于结果的好坏选择最适合的初始k值。

可替换地，在计算的过程中，对于k个质心的选择，可以根据实际要处理的信息所属分类来决定，也可以根据多次观察最终聚类结果正确率、召回率来确定。

步骤130，计算各文本向量与各聚类中心之间的距离，根据距离将文本向量所对应的信息聚类，例如基于距离大小得到多个信息簇。所述信息簇的数目对应于聚类中心的数目，每个信息簇以其各自的聚类中心作为中心。具体地，对于第m(m≤k)个聚类中心，选取与其之间距离最短的n个文本向量构成其初始信息簇。聚类中心与文本之间的距离越小，表示二者的相似程度越高。不同的信息簇之间的文本相似度则较低。

根据一个实施例，所述文本向量与各个聚类中心之间的距离为欧氏距离。

步骤140，对于生成的多个初始信息簇，计算每个信息簇内的平均距离，以得到新的聚类中心。具体地，可以将聚类中的均值点(即，类中所有数据的几何中心点)作为新的聚类中心。

步骤150，重复上述步骤130和步骤140，直到最终结果(聚类中心)不再变化，即直到标准测度函数开始收敛为止，生成得到多个信息簇。优选地，采用均方差作为标准测度函数。最终将计算完成的各个簇保存到数据库中。

所得到多个信息簇中可以包括包含正常信息的信息簇，也可以包括包含异常信息的信息簇。每个信息簇中包含的信息均是与信息簇的聚类中心相似度最高的信息。

图1b示出了基于图1a生成的信息簇对异常信息进行批量处理的方法。如图1b所示，

步骤160，收集新的信息，对于新收集到的每个信息，对所述信息进行分词预处理，以得到对应于所述信息的文本向量；

步骤170，计算该信息的文本向量分别与通过上述步骤150生成的k个信息簇的每个质心的距离，并将与该文本向量距离最小的质心所在的信息簇判定为该信息所属的信息簇，将该信息归属到所选择的距离最小的信息簇中。某个新的信息距离某个信息簇的质心的距离越小，说明该条信息与该信息簇的相似度越高。

通过上述处理，可以将彼此相似的信息集中在一起，最终形成至少一个大的信息簇。

优选存在步骤175，可以重复所述步骤160-170直至收集多个信息后再统一进行处理。当需要收集多个信息并对其进行处理时，执行本步骤。

步骤180，对该各个信息簇进行审核并处理。例如，可以根据实际的情况对某一簇信息进行集中处理，比如删除、锁定操作等，实现对有问题的异常的信息批处理，从而实现了较现有技术更为快速高效的信息识别和处理。

根据一个实施例，在步骤170中，可计算该信息的文本向量分别与m个质心的距离，而质心可是预先确定的聚类中心。

根据一个实施例，在对信息簇处理的过程中，还可以把不同的信息簇设置一个属性或者特征，比如“异常文本类别”，根据属性或特征值选择相应的处理方式。当定时任务在收集到新的信息、计算信息与信息簇质心的距离后选择将该信息放到某一个簇的时候，根据所述属性或者特征值审核所述多个信息簇，如果该簇被标记为异常，就可以直接对该信息簇中的信息进行处理，例如认定该信息簇中的信息为异常，从而实现了智能识别加系统自动处理的批量异常文本处理，提高处理效率，节省了人工审核的成本。

根据本发明的又一个实施例，由于对每次新采集到的信息会根据其与k个信息簇的质心距离进行判断从而加入到距离最小的信息簇中，当该方法运行一定的时间段后，会造成信息簇中包含的信息过多，从而降低不同信息簇之间信息相似度的差异，造成信息簇的质量下降。为了保证各个信息簇的信息质量，可以间隔一定的时间周期对已建立的k个信息簇重新进行聚类处理。所述间隔的时间周期例如1小时、10小时、24小时、1周等。所进行的聚类处理的方法类似于上述步骤130-150，在此不再赘述。

当下一次收集到新的信息时，新选取的信息会与重新计算完成生成的k个信息簇的质心做距离计算，以将该信息归入到距离最小的信息簇中。

图2示意性示出了批量处理异常文本的系统框图。如图2所示：本发明的批量处理异常文本的系统200包括信息提取模块210、预处理模块220、信息簇确定模块230、以及信息处理模块240。其中，信息处理模块240包括审核模块241以及信息自动处理模块242。

信息提取模块210，用于收集信息。根据本发明的一个实施例，定时收集信息。其中，信息是指保存在数据库中的用户发布的信息，包括标题、内容、发布时间等。

预处理模块220，用于根据由信息提取模块210收集的信息的信息类别，对该信息进行预处理。具体为：将信息文本进行分词以转化为文本向量。

根据本发明的一个实施例，预处理模块220在进行上述预处理之前还进行以下预处理：还根据信息类别，去掉文本中的高频词。

信息簇确定模块230，用于根据所述信息的文本向量将所述信息聚类，得到多个信息簇。在一实施例中，例如信息簇确定模块230计算所述文本向量分别与多个聚类中心的距离，根据所述距离将所述文本向量所对应的信息聚类。例如信息簇确定模块230在所述所有文本向量中选取多个文本向量作为聚类中心；然后计算除所述聚类中心外的各文本向量与所述多个聚类中心的距离，并根据所述距离确定与所述聚类中心归属于同一信息簇的所述文本向量，从而得到多个信息簇；例如，对于所述多个信息簇，信息簇确定模块230计算每个所述信息簇内的平均距离，以得到新的所述聚类中心；最后，重复计算所述距离以及所述信息簇的平均距离，直到标准测度函数开始收敛为止，得到多个所述信息簇。

信息处理模块240，用于识别并处理信息。具体地，信息处理模块240包括审核模块241以及信息自动处理模块242：

审核模块241，用于对信息簇进行审核，判断信息簇是否异常，若是，则对该被判定为异常的信息簇进行处理。该处理例如为，删除、锁定等操作。对信息簇进行审核的方式例如人工审核。

信息自动处理模块242，针对属于异常的信息簇的向量文本进行自动处理。具体地，对于由信息提取模块210新收集的每个信息，并经过由处理模块220的预处理生成的文本向量，根据该文本向量分别与由信息簇确定模块230生成的k个信息簇的质心的距离，判定该信息所属的信息簇，若该信息簇已经被判定为异常，则直接对该信息进行处理。由此，实现了智能识别加系统自动处理的批量异常文本处理，提高处理效率，节省了人工审核的成本。

根据本发明的批量处理异常文本的系统及方法，能够实现以简单的系统结构高效地对劣质信息进行识别及处理，特别是进行批量的处理，从而提高了处理效率，节省了人工审核的成本。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种异常信息批量处理的方法，其特征在于，包括如下步骤：

c)对所述多个信息簇进行审核并处理。

2.根据权利要求1所述的方法，其特征在于，所述多个信息簇的生成方法包括如下步骤：

s1)收集用于生成所述信息簇的信息，对所述信息进行分类和分词预处理，以得到对应于每条所述信息的文本向量；

s2)选取所述步骤s1中得到的多个所述文本向量作为初始的多个聚类中心；

s3)计算所述文本向量与所述多个聚类中心之间的距离，根据所述距离将所述文本向量所对应的信息聚类，得到多个信息簇；

s4)计算每个所述信息簇内的所述文本向量与所述信息簇的聚类中心的平均距离，以得到新的所述聚类中心；

s5)重复所述步骤s3及步骤s4直至标准测度函数开始收敛为止，得到多个所述信息簇。

3.根据权利要求1所述的方法，其特征在于，在所述步骤a中，所述收集信息为定时收集所述信息。

4.根据权利要求1或2所述的方法，其特征在于，在所述步骤a或所述步骤a与s1中，在进行分词预处理前过滤掉所述信息中的高频词。

5.根据权利要求2所述的方法，其特征在于，在所述步骤s2中，对多个所述文本向量的选取为随机选取。

6.根据权利要求2所述的方法，其特征在于，所述步骤s3中根据所述距离将文本向量所对应的信息聚类，为将所述文本向量分别归类于与其距离最小的聚类中心的聚类中。

7.根据权利要求2所述的方法，其特征在于，在所述步骤s2中选取的所述多个文本向量的数量为5、6和7中的任意一个。

8.根据权利要求2所述的方法，其特征在于，在所述步骤s5中，采用均方差作为标准测度函数。

9.根据权利要求1所述的方法，其特征在于，在所述步骤c中，根据对所述多个信息簇的审核或处理结果，对所述信息簇中的信息进行处理。

10.根据权利要求1所述的方法，其特征在于，为所述信息簇设置属性或者特征值，并根据属性或特征值选择相应的处理方式。

11.根据权利要求2所述的方法，其特征在于，间隔一定时间后对所述多个信息簇重复进行步骤s3以及步骤s4，直至所述标准测度函数开始收敛为止。

12.一种批量处理异常信息的系统，其特征在于，包括信息提取模块、预处理模块、信息簇确定模块、以及信息处理模块，其中，

所述信息提取模块，用于收集信息；

所述信息自动处理模块，针对属于异常的信息簇的所述信息进行自动处理。

13.根据权利要求12所述的系统，其特征在于，所述信息提取模块定时收集所述信息。

14.根据权利要求12所述的系统，其特征在于，所述预处理模块在进行所述分词预处理之前还进行以下处理：根据信息类别，去掉文本中的高频词。

15.根据权利要求12所述的系统，其特征在于，所述信息簇确定模块计算所述文本向量分别与多个聚类中心的距离，根据所述距离将所述文本向量所对应的信息聚类。

16.根据权利要求15所述的系统，其特征在于，所述聚类中心是预先确定的，或选自所述文本向量，或根据之前所收集的信息的文本向量计算得到。