CN107256214A

CN107256214A - 一种垃圾信息判断方法和装置以及一种服务器集群

Info

Publication number: CN107256214A
Application number: CN201710558595.6A
Authority: CN
Inventors: 宋时雨
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2017-10-17
Anticipated expiration: 2037-06-30
Also published as: CN107256214B

Abstract

本发明的实施例提供了一种垃圾信息判断方法和装置以及一种服务器集群，所述垃圾信息判断方法包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

Description

一种垃圾信息判断方法和装置以及一种服务器集群

技术领域

本发明的实施例涉及通信技术领域，尤其涉及一种垃圾信息判断方法和装置以及一种服务器集群。

背景技术

网络社区及论坛的兴起由来已久，网民们可以在论坛上针对自己感兴趣的事物发表观点，为了及时获取用户对于自己使用的某种产品或服务的看法，产品或服务提供商可以借助舆情分析系统来挖掘网民的情感倾向及观点态度。然而，网民评论的内容往往质量良莠不齐，并且会掺杂有大量与观点表达无关的评论，这部分评论语料不仅浪费系统资源，还将影响舆情分析结论的准确性。

在现有技术中，一般基于Logistic回归来识别网络社区中的垃圾评论。具体地，这一方案采用人为标注的垃圾评论与合法评论作为训练数据，利用向量空间模型来表示每条评论，并基于Logistic算法训练垃圾评论识别模型。但是，该方案得到的模型对垃圾评论的识别效果很大程度上依赖于人为标注的评论语料，由于人为标注数据的成本较大，所以很难得到较为充足的标注数据；此外，即便能够获得充足的标注数据，但由于网络用语总在变化，用于训练模型的数据同样需要不断更新，这也极大增加了数据标注的难度。

因此，需要一种能够准确有效地判断垃圾信息的方法和装置。

发明内容

根据本发明的一个方面，提供了一种垃圾信息判断方法，包括：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

根据本发明的另一个方面，提供了一种垃圾信息判断装置，包括：获取单元，配置为获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收单元，配置为接收待判断的目标信息；判断单元，配置为将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

根据本发明的再一方面，提供了一种服务器集群，包括：至少一个处理器；至少一个存储器；和存储在所述至少一个存储器的一个或多个存储器中的计算机程序指令，在所述计算机程序指令被所述至少一个处理器中的一个或多个处理器运行时，使得所述一个或多个处理器执行以下步骤：获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；接收待判断的目标信息；将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

在根据本发明提供的垃圾信息判断方法和装置以及服务器集群中，可以根据样本信息的文本相似度计算获取特征词汇表，并根据特征词汇表的信息判断目标信息是否为垃圾信息。本发明提供的垃圾信息判断方法能够准确判断垃圾信息，并且能够及时高效地对垃圾信息进行更新，以获取更加精确的舆情分析数据，节约系统资源。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示意性图示了根据本发明实施例的垃圾信息判断方法的流程图；

图2示意性图示了根据本发明实施例的垃圾信息判断装置的结构框图；

图3示意性图示了根据本发明实施例的服务器集群的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

在网络社区、论坛或贴吧等网民聚集地，用户往往会针对某个或某些特定的主题发表自己的看法和观点。舆情分析系统可以用来很好地分析网民对某主题的舆论倾向和观点态度。然而，在这些网络社区中，往往掺杂着大量无意义或重复的垃圾评论或攻击性言语等，对系统分析结果带来较大的影响。

考虑到上述因素，本发明实施例提出如下的垃圾信息判断方法。图1示出根据本发明实施例的垃圾信息判断方法100的流程图，所述方法可以由计算机执行。

如图1所示，在步骤S101中，获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到。

本步骤中，考虑到网络社区或论坛中的垃圾信息往往具有两两之间相似度较高的特点，因此，在本发明实施例中，用于判断垃圾信息的特征词汇表并非通过神经网络训练得到，而是通过对预先获取的多条样本信息之间进行文本相似度计算而得到。具体地，在本步骤中，可以首先获取多条样本信息中每条样本信息的样本信息向量；随后对多条样本信息向量计算两两之间的文本相似度，当存在其中两条样本信息向量之间的文本相似度符合预设条件时，将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合；此外，将没有列入第一信息集合的样本信息列入第二信息集合；最后根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。

其中，获取多条样本信息中每一条的样本信息向量可以包括：对所述多条样本信息中的每一条样本信息进行分词，获取分词后每个词汇的词向量；根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。例如，针对某一条内容为“我希望中国队夺冠”的样本信息，分词后得到的每个词可以分别是“我”、“希望”、“中国队”和“夺冠”。在对样本信息分词之后，可以获取每个词汇的词向量。词向量是用来将语言中的词进行数学化的一种方式，其基本思想是将每个词汇映射成一个K维实数向量(其中，K可以为模型中的超参数，例如可以为200)，而将一条样本信息中每个词汇的词向量进行相应的计算汇总则可以得到样本信息向量。两条样本信息分别对应的样本信息向量可以用于判断两条样本信息之间的语义相似度。如上所述，当两条样本信息向量之间的文本相似度符合预设条件，例如大于预设阈值时，可以判断这两条样本信息向量所对应的样本信息可能为垃圾信息，从而将这两条样本信息共同列入第一信息集合，即垃圾信息集合。在本发明一个实施例中，可选地，预设阈值可以为0.6，或0.7。并在对所有预先获取的样本信息对应的样本信息向量两两之间均计算完毕文本相似度之后，将所有没有被列入第一信息集合的样本信息均列入第二信息集合，即非垃圾信息集合。以上划分第一信息集合和第二信息集合的方法仅为示例，在实际应用中，可以采用任意划分第一信息集合和第二信息集合的方式，也可以选择不同的预设阈值划分这两个集合。

在划分完毕第一信息集合和第二信息集合之后，可以根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。具体地，可以首先获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表；然后针对所述总词汇表中的每个词汇，计算对应所述第一信息集合的卡方统计量，将所述卡方统计量符合预设条件，例如大于一定阈值的词汇列入所述特征词汇表。具体地，根据第一信息集合和第二信息集合计算对应第一信息集合的卡方统计量的具体公式为：

其中，chi为卡方统计量，A为出现目标词，且为第一信息集合的样本信息数量；B为出现目标词，且为第二信息集合的样本信息数量；C为未出现目标词，且为第一信息集合的样本信息数量；D为未出现目标词，且为第二信息集合的样本信息数量。

例如，对于“求关注”这个词，出现这个词，且为第一信息集合的样本信息数量A为900；出现这个词，且为第二信息集合的样本信息数量B为200；未出现这个词，且为第一信息集合的样本信息数量C为500；未出现这个词，且为第二信息集合的样本信息数量D为700，那么，对于“求关注”这个词对应第一信息集合的卡方统计量为：

对“求关注”这个词对应第一信息集合的卡方统计量所得到的数值为：212803。

在本发明实施例中，可以将卡方统计量的计算结果大于一定阈值的词汇列入特征词汇表，作为垃圾词汇来进行后续的比对过程。具体地，对于具有2000条样本信息所对应的特征词汇表，卡方统计量的阈值可以为7000或8000。根据这一阈值，“求关注”这个词的卡方统计量远远大于列入特征词汇表的预设阈值，因此“求关注”这个词可以作为垃圾词汇列入特征词汇表。

在本发明另一个实施例中，为了避免某些有意义的特定词汇，例如科技术语、专业词汇等被误列为垃圾词汇，还可以利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤，得到过滤后的特征词汇表，并采用过滤后的特征词汇表进行后续比较步骤，以进一步提高特征词汇表的精度。

在步骤S102中，接收待判断的目标信息。

在本步骤中，待判断的目标信息可以采集自网络社区或论坛、贴吧等网络发帖集中的场所进行采样，获取目标信息并留待分析。

在步骤S103中，将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

具体地，在获取目标信息和特征词汇表之后，可以对目标信息进行分词，并计算所述目标信息中包含所述特征词汇表中词汇的比例，当所述比例超过预设阈值时，判断所述目标信息为垃圾信息。其中，目标信息包含特征词汇表中词汇的比例可以为目标信息中包含特征词汇表中词汇的个数与目标信息总词汇个数的比值，也可以为目标信息中包含特征词汇表中词汇的长度与目标信息总长度的比值。上述将目标信息与特征词汇表进行比较的方法仅为示例，在实际应用中，可以采用任意判断目标信息的方式以获得判断结果。

在根据本发明实施例提供的垃圾信息判断方法中，可以根据样本信息的文本相似度计算获取特征词汇表，并根据特征词汇表的信息判断目标信息是否为垃圾信息。本发明提供的垃圾信息判断方法能够准确判断垃圾信息，并且能够及时高效地对垃圾信息进行更新，以获取更加精确的舆情分析数据，节约系统资源。

下面，参照图2来描述根据本发明实施例的垃圾信息判断装置200的框图。该装置可以执行上述垃圾信息判断方法。由于该装置的操作与上文所述的垃圾信息判断方法的各个步骤基本相同，因此在这里只对其进行简要的描述，而省略对相同内容的重复描述。

如图2所示，垃圾信息判断装置200包括获取单元210、接收单元220和判断单元230。需要认识到，图2仅示出与本发明的实施例相关的部件，而省略了其他部件，但这只是示意性的，根据需要，垃圾信息判断装置200可以包括其他部件。

如图2所示，获取单元210获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到。

考虑到网络社区或论坛中的垃圾信息往往具有两两之间相似度较高的特点，因此，在本发明实施例中，用于判断垃圾信息的特征词汇表并非通过神经网络训练得到，而是通过获取单元210对预先获取的多条样本信息之间进行文本相似度计算而得到。具体地，获取单元210可以首先获取多条样本信息中每条样本信息的样本信息向量；随后对多条样本信息向量计算两两之间的文本相似度，当存在其中两条样本信息向量之间的文本相似度符合预设条件时，将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合；此外，将没有列入第一信息集合的样本信息列入第二信息集合；最后根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。

其中，获取单元210获取多条样本信息中每一条的样本信息向量可以包括：对所述多条样本信息中的每一条样本信息进行分词，获取分词后每个词汇的词向量；根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。例如，针对某一条内容为“我希望中国队夺冠”的样本信息，分词后得到的每个词可以分别是“我”、“希望”、“中国队”和“夺冠”。在对样本信息分词之后，可以获取每个词汇的词向量。词向量是用来将语言中的词进行数学化的一种方式，其基本思想是将每个词汇映射成一个K维实数向量(其中，K可以为模型中的超参数，例如可以为200)，而将一条样本信息中每个词汇的词向量进行相应的计算汇总则可以得到样本信息向量。两条样本信息分别对应的样本信息向量可以用于判断两条样本信息之间的语义相似度。如上所述，当两条样本信息向量之间的文本相似度符合预设条件，例如大于预设阈值时，可以判断这两条样本信息向量所对应的样本信息可能为垃圾信息，从而将这两条样本信息共同列入第一信息集合，即垃圾信息集合。在本发明一个实施例中，可选地，预设阈值可以为0.6，或0.7。并在获取单元210对所有预先获取的样本信息对应的样本信息向量两两之间均计算完毕文本相似度之后，将所有没有被列入第一信息集合的样本信息均列入第二信息集合，即非垃圾信息集合。以上获取单元210划分第一信息集合和第二信息集合的方法仅为示例，在实际应用中，可以采用任意划分第一信息集合和第二信息集合的方式，也可以选择不同的预设阈值划分这两个集合。

在划分完毕第一信息集合和第二信息集合之后，获取单元210可以根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。具体地，获取单元210可以首先获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表；然后针对所述总词汇表中的每个词汇，计算对应所述第一信息集合的卡方统计量，将所述卡方统计量符合预设条件，例如大于一定阈值的词汇列入所述特征词汇表。具体地，获取单元210根据第一信息集合和第二信息集合计算对应第一信息集合的卡方统计量的具体公式为：

获取单元210对“求关注”这个词对应第一信息集合的卡方统计量所得到的数值为：212803。

在本发明实施例中，获取单元210可以将卡方统计量的计算结果大于一定阈值的词汇列入特征词汇表，作为垃圾词汇来进行后续的比对过程。具体地，对于具有2000条样本信息所对应的特征词汇表，卡方统计量的阈值可以为7000或8000。根据这一阈值，“求关注”这个词的卡方统计量远远大于列入特征词汇表的预设阈值，因此“求关注”这个词可以作为垃圾词汇列入特征词汇表。

在本发明另一个实施例中，为了避免某些有意义的特定词汇，例如科技术语、专业词汇等被误列为垃圾词汇，获取单元210还可以利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤，得到过滤后的特征词汇表，并采用过滤后的特征词汇表进行后续比较步骤，以进一步提高特征词汇表的精度。

接收单元220接收待判断的目标信息。

接收单元220待判断的目标信息可以采集自网络社区或论坛、贴吧等网络发帖集中的场所进行采样，获取目标信息并留待分析。

判断单元230将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

具体地，判断单元230在获取目标信息和特征词汇表之后，可以对目标信息进行分词，并计算所述目标信息中包含所述特征词汇表中词汇的比例，当所述比例超过预设阈值时，判断单元230判断所述目标信息为垃圾信息。其中，目标信息包含特征词汇表中词汇的比例可以为目标信息中包含特征词汇表中词汇的个数与目标信息总词汇个数的比值，也可以为目标信息中包含特征词汇表中词汇的长度与目标信息总长度的比值。上述将目标信息与特征词汇表进行比较的方法仅为示例，在实际应用中，可以采用任意判断目标信息的方式以获得判断结果。

在根据本发明实施例提供的垃圾信息判断装置中，可以根据样本信息的文本相似度计算获取特征词汇表，并根据特征词汇表的信息判断目标信息是否为垃圾信息。本发明提供的垃圾信息判断方法能够准确判断垃圾信息，并且能够及时高效地对垃圾信息进行更新，以获取更加精确的舆情分析数据，节约系统资源。

下面，参照图3来描述根据本发明实施例的服务器集群300的框图。该服务器集群300可以执行上述垃圾信息判断方法。由于该服务器集群300的操作与上文参照图1所述的垃圾信息判断方法的各个步骤基本相同，因此在这里只对其进行简要的描述，而省略对相同内容的重复描述。

图3中的服务器集群300可以包括至少一个处理器310和至少一个存储器320。所述服务器集群300可以为分布式服务器集群，其中，可以由多个自主的、相互连接的分别包含一个或多个处理器和存储器的服务器，在协调下共同完成垃圾信息判断这一任务。当然，服务器集群300还可以包括诸如输入单元、输出单元(未示出)等其他各项组件，这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的服务器集群300的组件和结构只是示例性的，而非限制性的，根据需要，服务器集群300也可以具有其他组件和结构。

所述至少一个处理器310是控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在至少一个存储器320中的一个或多个存储器内的软件程序和/或模块，以及调用存储在至少一个存储器320中的一个或多个存储器内的数据，执行服务器集群300的各种功能和处理数据，从而对服务器集群300进行整体监控。较佳地，处理器310可包括一个或多个处理核心；优选的，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

存储器320所包括的计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令。

其中，在存储在所述至少一个存储器320的一个或多个存储器中的计算机程序指令被所述至少一个处理器310中的一个或多个处理器运行时，所述一个或多个处理器可以执行以下步骤：

获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；

接收待判断的目标信息；

将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃3圾信息。

未示出的输入单元可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。较佳的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器310，并能接收处理器310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

输出单元可以向外部(例如用户)输出各种信息，例如图像信息、应用控制信息等。例如，输出单元可以为显示单元，可用于显示由用户输入的信息或提供给用户的信息以及服务器集群300的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元可包括显示面板，较佳地，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器310以确定触摸事件的类型，随后处理器310根据触摸事件的类型在显示面板上提供相应的视觉输出。触敏表面与显示面板可以作为两个独立的部件来实现输入和输入功能，在某些实施例中，也可以将触敏表面与显示面板集成而实现输入和输出功能。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书中说明的各方式/实施方式的处理步骤、次序、流程图等只要没有矛盾就可以将顺序替换。例如，在本说明书说明的方法以示例的顺序来提示各种步骤的要素，不限于提示的特定的顺序。

在本说明书中说明的各方式/实施方式可以单独使用，也可以组合使用，还可以伴随着执行而进行切换。另外，指定的信息的通知(例如判定“为真”的通知)不限于明显地进行，也可以暗地(例如，不进行该指定信息的通知)地进行。

软件与称作软件、固件、中间件、微代码、硬件描述语言或称作其它名称无关，能够广泛地解释成指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例行程序、子例行程序、对象、可执行文件、执行线程、步骤、功能等意思。

另外，软件、指令等可以经由传送介质来收发信。例如，软件在使用同轴线缆、光纤、双绞线及数字用户线路(DSL)等有线技术及/或红外线、无线及微波等无线技术从网页、服务器、或者其它远程数据源发送的情况下，这些有线技术及/或无线技术包含在传送介质的定义中。

在此公开的方法包括用于实现描述的方法的一个或多个动作。方法和/或动作可以彼此互换而不脱离权利要求的范围。换句话说，除非指定了动作的具体顺序，否则可以修改具体动作的顺序和/或使用而不脱离权利要求的范围。

其他例子和实现方式在本公开和所附权利要求的范围和精神内。例如，由于软件的本质，以上描述的功能可以使用由处理器、硬件、固件、硬连线或这些的任意的组合执行的软件实现。实现功能的特征也可以物理地位于各个位置，包括被分发以便功能的部分在不同的物理位置处实现。而且，如在此使用的，包括在权利要求中使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的信息处理方法的具体实现，可以参考产品实施例中的对应描述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种垃圾信息判断方法，包括：

接收待判断的目标信息；

将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

2.如权利要求1所述的方法，其中，所述获取特征词汇表包括：

获取多条样本信息中每条样本信息的样本信息向量；

对多条样本信息向量计算两两之间的文本相似度，当存在其中两条样本信息向量之间的文本相似度符合预设条件时，将所述两条样本信息向量分别对应的两条样本信息共同列入第一信息集合；

将没有列入第一信息集合的样本信息列入第二信息集合；

根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表。

3.如权利要求2所述的方法，其中，所述获取多条样本信息中每一条的样本信息向量包括：

对所述多条样本信息中的每一条样本信息进行分词，获取分词后每个词汇的词向量；

根据每一条样本信息中每个词汇的词向量获取对应的样本信息向量。

4.如权利要求2所述的方法，其中，所述其中两条样本信息向量之间的文本相似度符合预设条件包括：

所述两条样本信息向量之间的文本相似度大于预设阈值。

5.如权利要求2所述的方法，其中，所述根据所述第一信息集合和所述第二信息集合的内容获取所述特征词汇表包括：

获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表；

针对所述总词汇表中的每个词汇，计算对应所述第一信息集合的卡方统计量，将所述卡方统计量符合预设条件的词汇列入所述特征词汇表。

6.如权利要求5所述的方法，其中，所述方法还包括：

利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤，得到过滤后的特征词汇表。

7.如权利要求1所述的方法，其中，所述将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息包括：

计算所述目标信息中包含所述特征词汇表中词汇的比例；

当所述比例超过预设阈值时，判断所述目标信息为垃圾信息。

8.一种垃圾信息判断装置，包括：

获取单元，配置为获取特征词汇表，其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到；

接收单元，配置为接收待判断的目标信息；

判断单元，配置为将所述目标信息与所述特征词汇表进行比较，以判断所述目标信息是否为垃圾信息。

9.如权利要求8所述的装置，其中，

所述获取单元获取多条样本信息中每条样本信息的样本信息向量；

将没有列入第一信息集合的样本信息列入第二信息集合；

10.如权利要求9所述的装置，其中，

所述获取单元对所述多条样本信息中的每一条样本信息进行分词，获取分词后每个词汇的词向量；

11.如权利要求9所述的装置，其中，所述其中两条样本信息向量之间的文本相似度符合预设条件包括：

所述两条样本信息向量之间的文本相似度大于预设阈值。

12.如权利要求9所述的装置，其中，

所述获取单元获取所述第一信息集合中的样本信息所包含的所有词汇的总词汇表；

13.如权利要求8所述的装置，其中，

所述判断单元计算所述目标信息中包含所述特征词汇表中词汇的比例；

14.如权利要求13所述的装置，其中，

所述判断单元利用所述第二信息集合中符合预设条件的词汇对所述特征词汇表中的词汇进行过滤，得到过滤后的特征词汇表。

15.一种服务器集群，包括：

至少一个处理器；

至少一个存储器；和

存储在所述至少一个存储器的一个或多个存储器中的计算机程序指令，在所述计算机程序指令被所述至少一个处理器中的一个或多个处理器运行时，使得所述一个或多个处理器执行以下步骤：

接收待判断的目标信息；