CN103678373B

CN103678373B - 一种垃圾模板文章识别方法和设备

Info

Publication number: CN103678373B
Application number: CN201210344209.0A
Authority: CN
Inventors: 郝志新; 何建国; 张国强; 何小晨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-09-17
Filing date: 2012-09-17
Publication date: 2017-11-17
Anticipated expiration: 2032-09-17
Also published as: CN103678373A; US9330075B2; WO2014040570A1; US20150227497A1

Abstract

本发明公开了一种垃圾模板文章识别方法和设备，属于网络通讯领域。该方法包括：对符合条件的微博文章提取特征，生成文章特征；其中，文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；获取垃圾模板列表，垃圾模板列表中包含垃圾模板特征；垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同；当文章特征与垃圾模板列表中的垃圾模板特征相同时，判定微博文章为垃圾模板文章。该设备包括：特征提取模块、获取模块、识别模块。本发明通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章，解决了目前微博平台中无法有效识别从而导致浪费搜索引擎资源的问题。

Description

一种垃圾模板文章识别方法和设备

技术领域

本发明涉及网络通讯领域，特别涉及一种垃圾模板文章识别方法和设备。

背景技术

随着微博的飞速发展，某些微博用户为了达到广告或活动宣传的目的制作微博APP（application，应用程序），发文吸引其他用户点击并自动发表转播文章，在短时间内制造大量的格式相似的模板文章，这就造成在微博平台中，垃圾模板文章大量存在。这些垃圾模板文章一般都是重复的，或者根据转发人的个人信息或某种规律随机的修改某些文字，包含的信息量非常少，但是数据量却很大，据统计垃圾模板文章约占全量博文的10%。如果不对这些垃圾模板文章进行识别以及过滤，会极大的浪费搜索引擎资源，大量的重复模板也会严重影响用户体验。

同一类的垃圾模板文章具有某些共性特征，目前，主要通过人工对文章所包含的语义进行分析，从而判断某一篇微博文章是否为垃圾模板文章。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

人工识别的方式速度比较慢，效率较低，无法应对微博平台庞大的数据量，不可能对每篇微博文章都进行人工识别。

发明内容

为了有效解决目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源且严重影响用户体验的问题，本发明实施例提供了一种垃圾模板文章识别方法和设备。所述技术方案如下：

本发明实施例提供了一种垃圾模板文章识别方法，所述方法包括：

对符合条件的微博文章提取特征，生成文章特征；其中，所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；

获取垃圾模板列表，所述垃圾模板列表中包含垃圾模板特征；所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同；

当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时，判定所述微博文章为垃圾模板文章。

具体地，所述符合条件的微博文章为原创形式且包含链接和图片的微博文章，所述对符合条件的微博文章提取特征之前，还包括：

将所述符合条件的微博文章中的数字以及字母去掉，并将所述微博文章中的各种括号中的内容去掉保留所述括号。

具体地，所述对符合条件的微博文章提取特征，包括：

将符合条件的微博文章以标点进行分段，并按顺序依次生成分段编号；

在所述每个分段中，提取所述分段的标点，并将提取的所述标点组成字符串，生成所述标点特征；

在所述每个分段中，提取有话题的分段的话题和对应的分段编号，并将提取的所述话题以及所述分段编号组成字符串，生成所述话题特征；

在所述每个分段中，提取有括号的分段对应的分段编号和所述分段对应的括号类型，将提取的所述分段编号以及所述括号类型组成字符串，生成所述括号特征；

在所述每个分段中，根据所述每个分段中是否有链接而生成序列，作为所述链接特征；

在所述每个分段中，根据所述每个分段中是否有账户名标识而生成序列，作为所述账户名特征。

进一步地，所述文章特征还包括内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征。

进一步地，所述文章特征还包括前段内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征。

进一步地，所述文章特征还包括后段内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

在所述每个分段中，将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征。

本发明实施例还提供了一种垃圾模板文章识别设备，所述设备包括：

特征提取模块，用于对符合条件的微博文章提取特征，生成文章特征；其中，所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；

获取模块，用于获取垃圾模板列表，所述垃圾模板列表中包含垃圾模板特征；所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同；

识别模块，用于当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时，判定所述微博文章为垃圾模板文章。

具体地，所述设备还包括：

预处理模块，用于对符合条件的微博文章提取特征之前，将所述微博文章中的数字以及字母去掉，并将所述微博文章中的各种括号中的内容去掉保留所述括号；所述符合条件的微博文章为原创形式且包含链接和图片的微博文章。

具体地，所述特征提取模块，包括：

分段单元，用于将符合条件的微博文章以标点进行分段，并按顺序依次生成分段编号；

标点特征单元，用于在所述每个分段中，提取所述分段的标点，并将提取的所述标点组成字符串，生成所述标点特征；

话题特征单元，用于在所述每个分段中，提取有话题的分段的话题和对应的分段编号，并将提取的所述话题以及所述分段编号组成字符串，生成所述话题特征；

括号特征单元，用于在所述每个分段中，提取有括号的分段对应的分段编号和所述分段对应的括号类型，将提取的所述分段编号以及所述括号类型组成字符串，生成所述括号特征；链接特征单元，用于在所述每个分段中，根据所述每个分段中是否有链接而生成序列，作为所述链接特征；

账户名特征单元，用于在所述每个分段中，根据所述每个分段中是否有账户名标识而生成序列，作为所述账户名特征。

进一步地，所述特征提取模块，还包括：

内容特征单元，用于在所述每个分段中，将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征。

进一步地，所述特征提取模块，还包括：

前段内容特征单元，用于在所述每个分段中，将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征。

进一步地，所述特征提取模块，还包括：

后段内容特征单元，用于在所述每个分段中，将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的垃圾模板文章识别方法和设备，通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板的文章不予显示，解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题，提高了用户使用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种垃圾模板文章识别方法的流程图；

图2是本发明实施例二提供的一种垃圾模板文章识别方法的流程图；

图3是本发明实施例三提供的一种垃圾模板文章识别设备的结构示意图；

图4是本发明实施例三提供的一种垃圾模板文章识别设备的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

图1是本发明实施例提供了一种垃圾模板文章识别方法的流程图，参见图1，该实施例包括：

101、对符合条件的微博文章提取特征，生成文章特征；其中，文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；

102、获取垃圾模板列表，垃圾模板列表中包含垃圾模板特征；垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同；

103、当文章特征与垃圾模板列表中的垃圾模板特征相同时，判定微博文章为垃圾模板文章。

具体地，本发明实施例中的符合条件的微博文章为原创形式且包含链接和图片的微博文章，对符合条件的微博文章提取特征之前，还包括：

将符合条件的微博文章中的数字以及字母去掉，并将微博文章中的各种括号中的内容去掉保留括号。

具体地，对符合条件的微博文章提取特征，包括：

在每个分段中，提取分段的标点，并将提取的标点组成字符串，生成标点特征；

在每个分段中，提取有话题的分段的话题和对应的分段编号，并将提取的话题以及分段编号组成字符串，生成话题特征；

在每个分段中，提取有括号的分段对应的分段编号和分段对应的括号类型，将提取的分段编号以及括号类型组成字符串，生成括号特征；

在每个分段中，根据每个分段中是否有链接而生成序列，作为链接特征；

在每个分段中，根据每个分段中是否有账户名标识而生成序列，作为账户名特征。

进一步地，文章特征还包括内容特征，相应地对符合条件的微博文章提取特征，还包括：

在每个分段中，将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征。

进一步地，文章特征还包括前段内容特征，相应地对符合条件的微博文章提取特征，还包括：

在每个分段中，将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征。

进一步地，文章特征还包括后段内容特征，相应地对符合条件的微博文章提取特征，还包括：

在每个分段中，将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征。

本发明实施例提供的垃圾模板文章识别方法，通过对微博文章的多个特征来判断文章是否为垃圾模板文章并对判为垃圾模板的文章不予显示，解决了目前微博中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题，提高了用户使用体验。

实施例二

图2是本发明实施例提供了一种垃圾模板文章识别方法的流程图。参见图2，该实施例包括：

201、获取垃圾模板文章，并对垃圾模板文章分别进行预处理和特征提取，并生成垃圾模板特征存储在垃圾模板列表中；

具体地，该步骤可以包括预处理和特征提取两个步骤：

（1）获取垃圾模板文章，并对垃圾模板文章分别进行预处理：

垃圾模板文章一般为原创形式且同时包含链接和图片，将微博文章中的数字以及字母去掉，并将微博文章中的各种括号中的内容去掉保留括号。

比如“QQ等级加速443天”和“QQ等级加速373天”，该类垃圾模板文章除了里面的数字不一样，其他的都一样，因此去掉字母数字更能提高模板的召回率；由于有些类模板仅改变括号里面的内容，所以将文章中各种括号如(),[],<>,（），【】，《》，“”等中的内容去掉，括号本身要保留，供后续特征提取时使用，

（2）对预处理后的垃圾模板文章提取特征，分别生成包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征，包括：

将预处理后的垃圾模板文章以标点比如逗号、句号、感叹号、问号、分号进行分段，按顺序依次生成分段编号；

a、在每个分段中，按顺序在每个分段中提取分段的标点，将提取的标点组成字符串，生成标点特征；

b、在每个分段中，判断是否有话题，如果分段中有话题，则提取该分段对应的话题和对应的分段编号，并将提取的话题以及分段编号组成字符串，生成话题特征；比如第2分段有#话题1#和第4分段有#话题2#，则生成“话题1，2；话题2，4”；

c、在每个分段中，提取有括号的分段对应的分段编号和所述分段对应的括号类型，将提取的所述分段编号以及所述括号类型组成字符串，生成所述括号特征；比如第1分段中有（），第3分段中{}，则生成“1（），3{}”；

d、在每个分段中，根据每个分段中是否有链接而生成序列，作为链接特征；比如第1、2分段中如果有链接则为1，第3、4分段中如果没有链接则为0，生成“1100”；

e、在每个分段中，根据每个分段中是否有账户名标识而生成序列，作为账户名特征；比如第1、3分段中如果有账户名标识则为1，第2、4分段中如果没有账户名标识则为0，生成“1010”；

f、在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征；

g、在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征；比如可以取内容的前4个字节，生成前段内容特征；

h、在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征；比如可以取内容的后4个字节，生成后段内容特征；

可以将上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征，按顺序组合生成包含内容特征的垃圾模板特征；

也可以将标点特征、话题特征、括号特征、链接特征、账户名特征以及前段内容特征，按顺序组合生成包含前段内容特征的垃圾模板特征；

还可以将标点特征、话题特征、括号特征、链接特征、账户名特征以及后段内容特征，按顺序组合生成包含后段内容特征的垃圾模板特征。

需要说明的是，上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征、前段内容特征、后段内容特征的提取先后顺序可以相互调换，对此本发明实施例不做限制，但是需要按照提取特征的先后顺序生成相应地包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征，并且后续的对微博文章提取特征时的先后顺序与垃圾模板特征提取时的先后顺序要相同。

（3）将生成的包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征保存到垃圾模板列表中；

需要特别说明的是，本发明实施例的垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与后续的微博文章特征的提取方式相同；比如按照每12小时定时对满足条件的微博文章进行上述预处理和特征提取，分别生成包含内容特征的文章特征、包含前段内容特征的文章特征和包含后段内容特征的文章特征，离线计算每个特征出现的频率，当频率达到阈值时，认定该文章为垃圾模板文章，并将提取到的3个包含内容特征的文章特征、包含前段内容特征的文章特征和包含后段内容特征的文章特征判定为垃圾模板特征，保存到垃圾模板列表中，从而不断更新垃圾模板列表中的垃圾模板特征。

202、获取用户发表的微博文章，并对微博文章进行预处理；

（1）首先判定微博文章是否为原创形式以及是否包含链接和图片；

其中，绝大多数垃圾模板文章都是以原创形式发表的，为了达到病毒式的宣传效果模板一般都会包含链接，用户点击后自动发表，而且为了达到吸引眼球的目的，绝大多数垃圾模板文章都包含图片。

（2）当微博文章为原创形式且同时包含链接和图片时，将微博文章中的数字以及字母去掉，并将微博文章中的各种括号中的内容去掉且保留括号。

首先，对满足为原创形式且同时包含链接和图片的微博文章，将其中的数字以及字母去掉，比如将“QQ等级加速443天”里面的数字443去掉；然后，由于有些类模板仅改变括号里面的内容，所以将微博文章中各种括号如(),[],<>,（），【】，《》，“”等中的内容去掉，括号本身要保留，供后续特征提取时使用，

203、对上述预处理后的微博文章提取特征，生成文章特征；

具体地，该步骤提取特征的方式与上述步骤201相同，在此不再赘述。本步骤所提取的文章特征至少包括：标点特征、话题特征、括号特征、链接特征、账户名特征，其中还可以提取该微博文章的内容特征、前段内容特征、后段内容特征。

其中，可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征，按顺序组合生成全部文章特征；

也可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及前段内容特征，按顺序组合生成前段文章特征；

还可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及后段内容特征，按顺序组合生成后段文章特征。

需要说明的是，上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征、前段内容特征、后段内容特征的提取先后顺序可以相互调换，对此本发明实施例不做限制，但是需要按照提取特征的先后顺序生成相应地文章特征、前段文章特征、后段文章特征，并且与步骤201生成的垃圾模板特征的先后顺序相同。

204、获取步骤201生成的垃圾模板列表中包含的垃圾模板特征；

具体地，获取步骤201生成的包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征。

205、当文章特征与垃圾模板列表中的垃圾模板特征相同时，判定该微博文章为垃圾模板文章；

具体地，当步骤203生成的全部文章特征、前段文章特征和后段文章特征中的任一特征与垃圾模板列表中的垃圾模板特征相同时，判定微博文章为垃圾模板文章；具体地，

当全部文章特征与包含全部内容特征的垃圾模板特征相同时，判定微博文章为垃圾模板文章；

或，

当前段文章特征与包含前段内容特征的垃圾模板特征相同时，判定微博文章为垃圾模板文章；

或，

当后段文章特征与包含后段内容特征的垃圾模板特征相同时，判定微博文章为垃圾模板文章。

当满足上述条件中的任一条件时，判定该微博文章为垃圾模板文章；如果仅用全部文章特征与包含全部内容特征的垃圾模板特征匹配，那么可能由于某个名字的不同，就会导致本来是同一模板的微博文章识别不出来，因此增加包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征，就可以对此进行识别，这样可以增加模板识别的召回率，当然也有可能导致误判，但由于还要同标点特征、话题特征、括号特征、链接特征、账户名特征联合判断，误判的概率还是比较低的。

206、当判定该微博文章为垃圾模板文章时，在以后的微博文章检索时，当检索到该微博文章时不予显示。

其中，当判定该微博文章为垃圾模板文章时，对于后续的微博文章检索中，不管是什么形式的检索，只要检索到该微博文章，都不予显示

本发明实施例提供的垃圾模板文章识别方法，通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板文章的微博文章不予显示，解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题，提高了用户使用体验。

实施例三

图3是本发明实施例提供了一种垃圾模板文章识别设备，参见图3，该设备包括：

特征提取模块301，用于对符合条件的微博文章提取特征，生成文章特征；其中，文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征；

获取模块302，用于获取垃圾模板列表，垃圾模板列表中包含垃圾模板特征；垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同；

识别模块303，用于当文章特征与垃圾模板列表中的垃圾模板特征相同时，判定微博文章为垃圾模板文章。

具体地，设备还包括：

预处理模块304，用于对符合条件的微博文章提取特征之前，将微博文章中的数字以及字母去掉，并将微博文章中的各种括号中的内容去掉保留括号；符合条件的微博文章为原创形式且包含链接和图片的微博文章。

具体地，特征提取模块301，包括：

标点特征单元，用于在每个分段中，提取分段的标点，并将提取的标点组成字符串，生成标点特征；

话题特征单元，用于在每个分段中，提取有话题的分段的话题和对应的分段编号，并将提取的话题以及分段编号组成字符串，生成话题特征；

括号特征单元，用于在每个分段中，提取有括号的分段对应的分段编号和分段对应的括号类型，将提取的分段编号以及括号类型组成字符串，生成括号特征；

链接特征单元，用于在每个分段中，根据每个分段中是否有链接而生成序列，作为链接特征；

账户名特征单元，用于在每个分段中，根据每个分段中是否有账户名标识而生成序列，作为账户名特征。

进一步地，特征提取模块301，还包括：

内容特征单元，用于在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容，按顺序拼装在一起，生成内容特征。

进一步地，特征提取模块301，还包括：

前段内容特征单元，用于在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分，生成前段内容特征。

进一步地，特征提取模块301，还包括：

后段内容特征单元，用于在每个分段中，将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分，生成后段内容特征。

本发明实施例提供的垃圾模板文章识别设备，通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板文章的微博文章不予显示，解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题，提高了用户使用体验。

需要说明的是：上述实施例提供的垃圾模板文章识别设备在识别垃圾模板文章时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将垃圾模板文章识别设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的垃圾模板文章识别设备与的垃圾模板文章识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种垃圾模板文章识别方法，其特征在于，所述方法包括：

其中，所述对符合条件的微博文章提取特征，包括：

在每个分段中，提取所述分段的标点，并将提取的所述标点组成字符串，生成所述标点特征；

在所述每个分段中，根据所述每个分段中是否有账户名标识而生成序列，作为所述账户名特征；

2.根据权利要求1所述的方法，其特征在于，所述符合条件的微博文章为原创形式且包含链接和图片的微博文章，所述对符合条件的微博文章提取特征之前，还包括：

3.根据权利要求1所述的方法，其特征在于，所述文章特征还包括内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

4.根据权利要求1所述的方法，其特征在于，所述文章特征还包括前段内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

5.根据权利要求1所述的方法，其特征在于，所述文章特征还包括后段内容特征，相应地所述对符合条件的微博文章提取特征，还包括：

6.一种垃圾模板文章识别设备，其特征在于，所述设备包括：

标点特征单元，用于在每个分段中，提取所述分段的标点，并将提取的所述标点组成字符串，生成所述标点特征；

括号特征单元，用于在所述每个分段中，提取有括号的分段对应的分段编号和所述分段对应的括号类型，将提取的所述分段编号以及所述括号类型组成字符串，生成所述括号特征；

链接特征单元，用于在所述每个分段中，根据所述每个分段中是否有链接而生成序列，作为所述链接特征；

账户名特征单元，用于在所述每个分段中，根据所述每个分段中是否有账户名标识而生成序列，作为所述账户名特征；

7.根据权利要求6所述的设备，其特征在于，所述设备还包括：

8.根据权利要求6所述的设备，其特征在于，所述特征提取模块，还包括：

9.根据权利要求6所述的设备，其特征在于，所述特征提取模块，还包括：

10.根据权利要求6所述的设备，其特征在于，所述特征提取模块，还包括：