CN103678373B - 一种垃圾模板文章识别方法和设备 - Google Patents

一种垃圾模板文章识别方法和设备 Download PDF

Info

Publication number
CN103678373B
CN103678373B CN201210344209.0A CN201210344209A CN103678373B CN 103678373 B CN103678373 B CN 103678373B CN 201210344209 A CN201210344209 A CN 201210344209A CN 103678373 B CN103678373 B CN 103678373B
Authority
CN
China
Prior art keywords
feature
segmentation
article
garbage template
bracket
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210344209.0A
Other languages
English (en)
Other versions
CN103678373A (zh
Inventor
郝志新
何建国
张国强
何小晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210344209.0A priority Critical patent/CN103678373B/zh
Priority to US14/428,314 priority patent/US9330075B2/en
Priority to PCT/CN2013/083613 priority patent/WO2014040570A1/zh
Publication of CN103678373A publication Critical patent/CN103678373A/zh
Application granted granted Critical
Publication of CN103678373B publication Critical patent/CN103678373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Processing Of Solid Wastes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种垃圾模板文章识别方法和设备,属于网络通讯领域。该方法包括:对符合条件的微博文章提取特征,生成文章特征;其中,文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;获取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同;当文章特征与垃圾模板列表中的垃圾模板特征相同时,判定微博文章为垃圾模板文章。该设备包括:特征提取模块、获取模块、识别模块。本发明通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章,解决了目前微博平台中无法有效识别从而导致浪费搜索引擎资源的问题。

Description

一种垃圾模板文章识别方法和设备
技术领域
本发明涉及网络通讯领域,特别涉及一种垃圾模板文章识别方法和设备。
背景技术
随着微博的飞速发展,某些微博用户为了达到广告或活动宣传的目的制作微博APP(application,应用程序),发文吸引其他用户点击并自动发表转播文章,在短时间内制造大量的格式相似的模板文章,这就造成在微博平台中,垃圾模板文章大量存在。这些垃圾模板文章一般都是重复的,或者根据转发人的个人信息或某种规律随机的修改某些文字,包含的信息量非常少,但是数据量却很大,据统计垃圾模板文章约占全量博文的10%。如果不对这些垃圾模板文章进行识别以及过滤,会极大的浪费搜索引擎资源,大量的重复模板也会严重影响用户体验。
同一类的垃圾模板文章具有某些共性特征,目前,主要通过人工对文章所包含的语义进行分析,从而判断某一篇微博文章是否为垃圾模板文章。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
人工识别的方式速度比较慢,效率较低,无法应对微博平台庞大的数据量,不可能对每篇微博文章都进行人工识别。
发明内容
为了有效解决目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源且严重影响用户体验的问题,本发明实施例提供了一种垃圾模板文章识别方法和设备。所述技术方案如下:
本发明实施例提供了一种垃圾模板文章识别方法,所述方法包括:
对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;
当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。
具体地,所述符合条件的微博文章为原创形式且包含链接和图片的微博文章,所述对符合条件的微博文章提取特征之前,还包括:
将所述符合条件的微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号。
具体地,所述对符合条件的微博文章提取特征,包括:
将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
在所述每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;
在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;
在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;
在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;
在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征。
进一步地,所述文章特征还包括内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
进一步地,所述文章特征还包括前段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
进一步地,所述文章特征还包括后段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
本发明实施例还提供了一种垃圾模板文章识别设备,所述设备包括:
特征提取模块,用于对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
获取模块,用于获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;
识别模块,用于当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。
具体地,所述设备还包括:
预处理模块,用于对符合条件的微博文章提取特征之前,将所述微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号;所述符合条件的微博文章为原创形式且包含链接和图片的微博文章。
具体地,所述特征提取模块,包括:
分段单元,用于将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
标点特征单元,用于在所述每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;
话题特征单元,用于在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;
括号特征单元,用于在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;链接特征单元,用于在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;
账户名特征单元,用于在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征。
进一步地,所述特征提取模块,还包括:
内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
进一步地,所述特征提取模块,还包括:
前段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
进一步地,所述特征提取模块,还包括:
后段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的垃圾模板文章识别方法和设备,通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板的文章不予显示,解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题,提高了用户使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种垃圾模板文章识别方法的流程图;
图2是本发明实施例二提供的一种垃圾模板文章识别方法的流程图;
图3是本发明实施例三提供的一种垃圾模板文章识别设备的结构示意图;
图4是本发明实施例三提供的一种垃圾模板文章识别设备的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
图1是本发明实施例提供了一种垃圾模板文章识别方法的流程图,参见图1,该实施例包括:
101、对符合条件的微博文章提取特征,生成文章特征;其中,文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
102、获取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同;
103、当文章特征与垃圾模板列表中的垃圾模板特征相同时,判定微博文章为垃圾模板文章。
具体地,本发明实施例中的符合条件的微博文章为原创形式且包含链接和图片的微博文章,对符合条件的微博文章提取特征之前,还包括:
将符合条件的微博文章中的数字以及字母去掉,并将微博文章中的各种括号中的内容去掉保留括号。
具体地,对符合条件的微博文章提取特征,包括:
将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
在每个分段中,提取分段的标点,并将提取的标点组成字符串,生成标点特征;
在每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的话题以及分段编号组成字符串,生成话题特征;
在每个分段中,提取有括号的分段对应的分段编号和分段对应的括号类型,将提取的分段编号以及括号类型组成字符串,生成括号特征;
在每个分段中,根据每个分段中是否有链接而生成序列,作为链接特征;
在每个分段中,根据每个分段中是否有账户名标识而生成序列,作为账户名特征。
进一步地,文章特征还包括内容特征,相应地对符合条件的微博文章提取特征,还包括:
在每个分段中,将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
进一步地,文章特征还包括前段内容特征,相应地对符合条件的微博文章提取特征,还包括:
在每个分段中,将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
进一步地,文章特征还包括后段内容特征,相应地对符合条件的微博文章提取特征,还包括:
在每个分段中,将每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
本发明实施例提供的垃圾模板文章识别方法,通过对微博文章的多个特征来判断文章是否为垃圾模板文章并对判为垃圾模板的文章不予显示,解决了目前微博中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题,提高了用户使用体验。
实施例二
图2是本发明实施例提供了一种垃圾模板文章识别方法的流程图。参见图2,该实施例包括:
201、获取垃圾模板文章,并对垃圾模板文章分别进行预处理和特征提取,并生成垃圾模板特征存储在垃圾模板列表中;
具体地,该步骤可以包括预处理和特征提取两个步骤:
(1)获取垃圾模板文章,并对垃圾模板文章分别进行预处理:
垃圾模板文章一般为原创形式且同时包含链接和图片,将微博文章中的数字以及字母去掉,并将微博文章中的各种括号中的内容去掉保留括号。
比如“QQ等级加速443天”和“QQ等级加速373天”,该类垃圾模板文章除了里面的数字不一样,其他的都一样,因此去掉字母数字更能提高模板的召回率;由于有些类模板仅改变括号里面的内容,所以将文章中各种括号如(),[],<>,(),【】,《》,“”等中的内容去掉,括号本身要保留,供后续特征提取时使用,
(2)对预处理后的垃圾模板文章提取特征,分别生成包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征,包括:
将预处理后的垃圾模板文章以标点比如逗号、句号、感叹号、问号、分号进行分段,按顺序依次生成分段编号;
a、在每个分段中,按顺序在每个分段中提取分段的标点,将提取的标点组成字符串,生成标点特征;
b、在每个分段中,判断是否有话题,如果分段中有话题,则提取该分段对应的话题和对应的分段编号,并将提取的话题以及分段编号组成字符串,生成话题特征;比如第2分段有#话题1#和第4分段有#话题2#,则生成“话题1,2;话题2,4”;
c、在每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;比如第1分段中有(),第3分段中{},则生成“1(),3{}”;
d、在每个分段中,根据每个分段中是否有链接而生成序列,作为链接特征;比如第1、2分段中如果有链接则为1,第3、4分段中如果没有链接则为0,生成“1100”;
e、在每个分段中,根据每个分段中是否有账户名标识而生成序列,作为账户名特征;比如第1、3分段中如果有账户名标识则为1,第2、4分段中如果没有账户名标识则为0,生成“1010”;
f、在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征;
g、在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征;比如可以取内容的前4个字节,生成前段内容特征;
h、在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征;比如可以取内容的后4个字节,生成后段内容特征;
可以将上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征,按顺序组合生成包含内容特征的垃圾模板特征;
也可以将标点特征、话题特征、括号特征、链接特征、账户名特征以及前段内容特征,按顺序组合生成包含前段内容特征的垃圾模板特征;
还可以将标点特征、话题特征、括号特征、链接特征、账户名特征以及后段内容特征,按顺序组合生成包含后段内容特征的垃圾模板特征。
需要说明的是,上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征、前段内容特征、后段内容特征的提取先后顺序可以相互调换,对此本发明实施例不做限制,但是需要按照提取特征的先后顺序生成相应地包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征,并且后续的对微博文章提取特征时的先后顺序与垃圾模板特征提取时的先后顺序要相同。
(3)将生成的包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征保存到垃圾模板列表中;
需要特别说明的是,本发明实施例的垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与后续的微博文章特征的提取方式相同;比如按照每12小时定时对满足条件的微博文章进行上述预处理和特征提取,分别生成包含内容特征的文章特征、包含前段内容特征的文章特征和包含后段内容特征的文章特征,离线计算每个特征出现的频率,当频率达到阈值时,认定该文章为垃圾模板文章,并将提取到的3个包含内容特征的文章特征、包含前段内容特征的文章特征和包含后段内容特征的文章特征判定为垃圾模板特征,保存到垃圾模板列表中,从而不断更新垃圾模板列表中的垃圾模板特征。
202、获取用户发表的微博文章,并对微博文章进行预处理;
(1)首先判定微博文章是否为原创形式以及是否包含链接和图片;
其中,绝大多数垃圾模板文章都是以原创形式发表的,为了达到病毒式的宣传效果模板一般都会包含链接,用户点击后自动发表,而且为了达到吸引眼球的目的,绝大多数垃圾模板文章都包含图片。
(2)当微博文章为原创形式且同时包含链接和图片时,将微博文章中的数字以及字母去掉,并将微博文章中的各种括号中的内容去掉且保留括号。
首先,对满足为原创形式且同时包含链接和图片的微博文章,将其中的数字以及字母去掉,比如将“QQ等级加速443天”里面的数字443去掉;然后,由于有些类模板仅改变括号里面的内容,所以将微博文章中各种括号如(),[],<>,(),【】,《》,“”等中的内容去掉,括号本身要保留,供后续特征提取时使用,
203、对上述预处理后的微博文章提取特征,生成文章特征;
具体地,该步骤提取特征的方式与上述步骤201相同,在此不再赘述。本步骤所提取的文章特征至少包括:标点特征、话题特征、括号特征、链接特征、账户名特征,其中还可以提取该微博文章的内容特征、前段内容特征、后段内容特征。
其中,可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征,按顺序组合生成全部文章特征;
也可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及前段内容特征,按顺序组合生成前段文章特征;
还可以将上述提取的该微博文章的标点特征、话题特征、括号特征、链接特征、账户名特征以及后段内容特征,按顺序组合生成后段文章特征。
需要说明的是,上述标点特征、话题特征、括号特征、链接特征、账户名特征以及内容特征、前段内容特征、后段内容特征的提取先后顺序可以相互调换,对此本发明实施例不做限制,但是需要按照提取特征的先后顺序生成相应地文章特征、前段文章特征、后段文章特征,并且与步骤201生成的垃圾模板特征的先后顺序相同。
204、获取步骤201生成的垃圾模板列表中包含的垃圾模板特征;
具体地,获取步骤201生成的包含全部内容特征的垃圾模板特征、包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征。
205、当文章特征与垃圾模板列表中的垃圾模板特征相同时,判定该微博文章为垃圾模板文章;
具体地,当步骤203生成的全部文章特征、前段文章特征和后段文章特征中的任一特征与垃圾模板列表中的垃圾模板特征相同时,判定微博文章为垃圾模板文章;具体地,
当全部文章特征与包含全部内容特征的垃圾模板特征相同时,判定微博文章为垃圾模板文章;
或,
当前段文章特征与包含前段内容特征的垃圾模板特征相同时,判定微博文章为垃圾模板文章;
或,
当后段文章特征与包含后段内容特征的垃圾模板特征相同时,判定微博文章为垃圾模板文章。
当满足上述条件中的任一条件时,判定该微博文章为垃圾模板文章;如果仅用全部文章特征与包含全部内容特征的垃圾模板特征匹配,那么可能由于某个名字的不同,就会导致本来是同一模板的微博文章识别不出来,因此增加包含前段内容特征的垃圾模板特征和包含后段内容特征的垃圾模板特征,就可以对此进行识别,这样可以增加模板识别的召回率,当然也有可能导致误判,但由于还要同标点特征、话题特征、括号特征、链接特征、账户名特征联合判断,误判的概率还是比较低的。
206、当判定该微博文章为垃圾模板文章时,在以后的微博文章检索时,当检索到该微博文章时不予显示。
其中,当判定该微博文章为垃圾模板文章时,对于后续的微博文章检索中,不管是什么形式的检索,只要检索到该微博文章,都不予显示
本发明实施例提供的垃圾模板文章识别方法,通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板文章的微博文章不予显示,解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题,提高了用户使用体验。
实施例三
图3是本发明实施例提供了一种垃圾模板文章识别设备,参见图3,该设备包括:
特征提取模块301,用于对符合条件的微博文章提取特征,生成文章特征;其中,文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
获取模块302,用于获取垃圾模板列表,垃圾模板列表中包含垃圾模板特征;垃圾模板特征为出现频率达到预设阈值的文章特征且垃圾模板特征的提取方式与微博文章特征的提取方式相同;
识别模块303,用于当文章特征与垃圾模板列表中的垃圾模板特征相同时,判定微博文章为垃圾模板文章。
具体地,设备还包括:
预处理模块304,用于对符合条件的微博文章提取特征之前,将微博文章中的数字以及字母去掉,并将微博文章中的各种括号中的内容去掉保留括号;符合条件的微博文章为原创形式且包含链接和图片的微博文章。
具体地,特征提取模块301,包括:
分段单元,用于将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
标点特征单元,用于在每个分段中,提取分段的标点,并将提取的标点组成字符串,生成标点特征;
话题特征单元,用于在每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的话题以及分段编号组成字符串,生成话题特征;
括号特征单元,用于在每个分段中,提取有括号的分段对应的分段编号和分段对应的括号类型,将提取的分段编号以及括号类型组成字符串,生成括号特征;
链接特征单元,用于在每个分段中,根据每个分段中是否有链接而生成序列,作为链接特征;
账户名特征单元,用于在每个分段中,根据每个分段中是否有账户名标识而生成序列,作为账户名特征。
进一步地,特征提取模块301,还包括:
内容特征单元,用于在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
进一步地,特征提取模块301,还包括:
前段内容特征单元,用于在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
进一步地,特征提取模块301,还包括:
后段内容特征单元,用于在每个分段中,将每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
本发明实施例提供的垃圾模板文章识别设备,通过提取微博文章的多个特征来判断微博文章是否为垃圾模板文章并对判定为垃圾模板文章的微博文章不予显示,解决了目前微博平台中大量的垃圾模板文章无法有效识别从而导致浪费搜索引擎资源的问题,提高了用户使用体验。
需要说明的是:上述实施例提供的垃圾模板文章识别设备在识别垃圾模板文章时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将垃圾模板文章识别设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的垃圾模板文章识别设备与的垃圾模板文章识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种垃圾模板文章识别方法,其特征在于,所述方法包括:
对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
其中,所述对符合条件的微博文章提取特征,包括:
将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
在每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;
在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;
在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;
在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;
在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征;
获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;
当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。
2.根据权利要求1所述的方法,其特征在于,所述符合条件的微博文章为原创形式且包含链接和图片的微博文章,所述对符合条件的微博文章提取特征之前,还包括:
将所述符合条件的微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号。
3.根据权利要求1所述的方法,其特征在于,所述文章特征还包括内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
4.根据权利要求1所述的方法,其特征在于,所述文章特征还包括前段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
5.根据权利要求1所述的方法,其特征在于,所述文章特征还包括后段内容特征,相应地所述对符合条件的微博文章提取特征,还包括:
在所述每个分段中,将所述每个分段去除所有的标点、话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
6.一种垃圾模板文章识别设备,其特征在于,所述设备包括:
特征提取模块,用于对符合条件的微博文章提取特征,生成文章特征;其中,所述文章特征至少包括标点特征、话题特征、括号特征、链接特征以及账户名特征;
分段单元,用于将符合条件的微博文章以标点进行分段,并按顺序依次生成分段编号;
标点特征单元,用于在每个分段中,提取所述分段的标点,并将提取的所述标点组成字符串,生成所述标点特征;
话题特征单元,用于在所述每个分段中,提取有话题的分段的话题和对应的分段编号,并将提取的所述话题以及所述分段编号组成字符串,生成所述话题特征;
括号特征单元,用于在所述每个分段中,提取有括号的分段对应的分段编号和所述分段对应的括号类型,将提取的所述分段编号以及所述括号类型组成字符串,生成所述括号特征;
链接特征单元,用于在所述每个分段中,根据所述每个分段中是否有链接而生成序列,作为所述链接特征;
账户名特征单元,用于在所述每个分段中,根据所述每个分段中是否有账户名标识而生成序列,作为所述账户名特征;
获取模块,用于获取垃圾模板列表,所述垃圾模板列表中包含垃圾模板特征;所述垃圾模板特征为出现频率达到预设阈值的文章特征且所述垃圾模板特征的提取方式与所述微博文章特征的提取方式相同;
识别模块,用于当所述文章特征与所述垃圾模板列表中的垃圾模板特征相同时,判定所述微博文章为垃圾模板文章。
7.根据权利要求6所述的设备,其特征在于,所述设备还包括:
预处理模块,用于对符合条件的微博文章提取特征之前,将所述微博文章中的数字以及字母去掉,并将所述微博文章中的各种括号中的内容去掉保留所述括号;所述符合条件的微博文章为原创形式且包含链接和图片的微博文章。
8.根据权利要求6所述的设备,其特征在于,所述特征提取模块,还包括:
内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容,按顺序拼装在一起,生成内容特征。
9.根据权利要求6所述的设备,其特征在于,所述特征提取模块,还包括:
前段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取前面的部分,生成前段内容特征。
10.根据权利要求6所述的设备,其特征在于,所述特征提取模块,还包括:
后段内容特征单元,用于在所述每个分段中,将所述每个分段去除所有的话题、括号、链接以及账户名标识后剩余的内容按预定的字节数只取后面的部分,生成后段内容特征。
CN201210344209.0A 2012-09-17 2012-09-17 一种垃圾模板文章识别方法和设备 Active CN103678373B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210344209.0A CN103678373B (zh) 2012-09-17 2012-09-17 一种垃圾模板文章识别方法和设备
US14/428,314 US9330075B2 (en) 2012-09-17 2013-09-17 Method and apparatus for identifying garbage template article
PCT/CN2013/083613 WO2014040570A1 (zh) 2012-09-17 2013-09-17 一种垃圾模板文章识别方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210344209.0A CN103678373B (zh) 2012-09-17 2012-09-17 一种垃圾模板文章识别方法和设备

Publications (2)

Publication Number Publication Date
CN103678373A CN103678373A (zh) 2014-03-26
CN103678373B true CN103678373B (zh) 2017-11-17

Family

ID=50277651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210344209.0A Active CN103678373B (zh) 2012-09-17 2012-09-17 一种垃圾模板文章识别方法和设备

Country Status (3)

Country Link
US (1) US9330075B2 (zh)
CN (1) CN103678373B (zh)
WO (1) WO2014040570A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105120440B (zh) * 2015-08-26 2019-05-07 小米科技有限责任公司 信息处理方法及装置
CN107229638A (zh) * 2016-03-24 2017-10-03 北京搜狗科技发展有限公司 一种文本信息处理方法及装置
CN107239440B (zh) * 2017-04-21 2021-05-25 同盾控股有限公司 一种垃圾文本识别方法和装置
CN109033224B (zh) * 2018-06-29 2022-02-01 创新先进技术有限公司 一种风险文本识别方法和装置
CN110209838A (zh) * 2019-06-10 2019-09-06 广东工业大学 一种文本模板获取方法及相关装置
CN111310465B (zh) * 2020-02-18 2021-07-23 北京字节跳动网络技术有限公司 平行语料获取方法、装置、电子设备、及存储介质
CN113535813B (zh) * 2021-06-30 2023-07-28 北京百度网讯科技有限公司 一种数据挖掘方法、装置、电子设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
US7912907B1 (en) * 2005-10-07 2011-03-22 Symantec Corporation Spam email detection based on n-grams with feature selection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050015626A1 (en) * 2003-07-15 2005-01-20 Chasin C. Scott System and method for identifying and filtering junk e-mail messages or spam based on URL content
CN101661468B (zh) 2008-08-29 2011-08-31 中国科学院计算技术研究所 一种从论坛帖子列表页面中抽取帖子元数据的方法
JP5488002B2 (ja) 2010-01-28 2014-05-14 富士通株式会社 事例データ生成プログラム、方法及び装置
US20110271179A1 (en) * 2010-04-28 2011-11-03 Peter Jasko Methods and systems for graphically visualizing text documents
CN102622365B (zh) 2011-01-28 2015-04-29 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102662965A (zh) 2012-03-07 2012-09-12 上海引跑信息科技有限公司 一种自动发现互联网热点新闻主题的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912907B1 (en) * 2005-10-07 2011-03-22 Symantec Corporation Spam email detection based on n-grams with feature selection
CN101393555A (zh) * 2008-09-09 2009-03-25 浙江大学 一种垃圾博客检测方法
CN101350032A (zh) * 2008-09-23 2009-01-21 胡辉 判断网页内容是否相同的方法
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN101859309A (zh) * 2009-04-07 2010-10-13 慧科讯业有限公司 重复文本识别系统及方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法

Also Published As

Publication number Publication date
CN103678373A (zh) 2014-03-26
US9330075B2 (en) 2016-05-03
WO2014040570A1 (zh) 2014-03-20
US20150227497A1 (en) 2015-08-13

Similar Documents

Publication Publication Date Title
CN103678373B (zh) 一种垃圾模板文章识别方法和设备
CN106469554B (zh) 一种自适应的识别方法及系统
CN105955951B (zh) 一种消息过滤的方法及装置
CN103257957A (zh) 一种基于中文分词的文本相似性识别方法及装置
CN103631963B (zh) 一种基于大数据的关键词优化处理方法及装置
CN107766328A (zh) 结构化文本的文本信息提取方法、存储介质和服务器
CN103942340A (zh) 一种基于文本挖掘的微博用户兴趣识别方法
CN105812554A (zh) 一种智能管理手机短信的方法和系统
CN104284306B (zh) 一种垃圾短信过滤方法、系统、移动终端以及云服务器
CN104462509A (zh) 垃圾评论检测方法及装置
CN103095737B (zh) 一种网络浏览信息的处理方法和装置
CN104317784A (zh) 一种跨平台用户识别方法和系统
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN105224955A (zh) 基于微博大数据获取网络服务状态的方法
CN107644106A (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
EP2742652A1 (en) Information filtering
CN102542063A (zh) 内容过滤的方法、装置及系统
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN102945246A (zh) 网络信息数据的处理方法及装置
CN107729481A (zh) 一种自定义规则的文本信息抽取结果筛选方法及装置
CN104572736A (zh) 基于社交网络的关键词提取方法及装置
CN105117466A (zh) 一种互联网信息筛选系统及方法
CN102063497A (zh) 一种开放式知识共享平台及其词条处理方法
CN103984731B (zh) 微博环境下自适应话题追踪方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant