CN101477544B - 一种识别垃圾文本的方法和系统 - Google Patents

一种识别垃圾文本的方法和系统 Download PDF

Info

Publication number
CN101477544B
CN101477544B CN2009100015773A CN200910001577A CN101477544B CN 101477544 B CN101477544 B CN 101477544B CN 2009100015773 A CN2009100015773 A CN 2009100015773A CN 200910001577 A CN200910001577 A CN 200910001577A CN 101477544 B CN101477544 B CN 101477544B
Authority
CN
China
Prior art keywords
spam
rubbish
text
weight
storehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009100015773A
Other languages
English (en)
Other versions
CN101477544A (zh
Inventor
刘怀军
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2009100015773A priority Critical patent/CN101477544B/zh
Publication of CN101477544A publication Critical patent/CN101477544A/zh
Priority to PCT/CN2009/075498 priority patent/WO2010078792A1/zh
Application granted granted Critical
Publication of CN101477544B publication Critical patent/CN101477544B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种识别垃圾文本的方法和系统,该方法包括:提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库;将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。该系统包括垃圾特征库和垃圾文本识别装置;垃圾特征库,存储有赋予了垃圾权重的垃圾特征;垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。本发明能够提高识别垃圾文本的准确性。

Description

一种识别垃圾文本的方法和系统
技术领域
本发明涉及互联网信息处理和模式识别技术领域,尤其涉及一种识别垃圾文本的方法和系统。
背景技术
在互联网领域中,为了能够为互联网用户提供其所需要的信息,需要进行信息过滤。信息过滤是指,计算机根据反映用户需求的模板信息,从动态变化的信息流中识别出满足用户需求的信息,并剔除与用户需求无关或者对用户需求有害的信息。
信息过滤的一个典型应用是,从互联网中的新闻文本、问答互动平台中的提问或回答文本等文本中过滤垃圾文本,使得提供给用户的新闻文本、提问文本和回答文本是能够满足用户需求的文本。
过滤垃圾文本的过程中,首先要识别出垃圾文本。目前,现有技术中存在一种根据敏感词识别垃圾文本的方法,具体参见图1。
图1是现有技术中根据敏感词识别垃圾文本的方法流程图,如图1所示,该方法包括:
步骤101:手动方式建立敏感词表。
该敏感词表由垃圾文本识别程序或者装置的设计人员根据当前的社会需求来确定,例如,将涉及当前国家安全的词、网络广告中的常用词设置为敏感词,存入敏感词表中。
步骤102:判断待处理文本中是否包含敏感词表中的敏感词,如果是,执行步骤103,否则,执行步骤104。
步骤103,将该待处理文本识别为垃圾文本,结束本流程。
步骤104,将该待处理文本识别为非垃圾文本,结束本流程。
由图1可见,现有这种识别垃圾文本的方法中,只要待处理文本中含有敏感词,就将其识别为垃圾文本,而实际上,待处理文本中含有的敏感词不同、或者含有敏感词的数目不同时,其属于垃圾文本的概率也是不同的,图1所示方法将非垃圾文本识别为垃圾文本的概率较大。
发明内容
有鉴于此,本发明实施例的目的在于提供一种识别垃圾文本的方法和系统,以提高识别垃圾文本的准确性。
为达到上述目的,本发明实施例的技术方案具体是这样实现的:
一种识别垃圾文本的方法,该方法包括:
提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库,所述垃圾特征库中包括敏感词表;
建立第一垃圾样本训练库和第一非垃圾样本训练库;
对于敏感词表中的每个敏感词,统计第一垃圾样本训练库中包含该敏感词的垃圾样本,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该敏感词的正向上下文特征库;
对于敏感词表中的每个敏感词,统计第一非垃圾样本训练库中包含该敏感词的非垃圾样本,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该敏感词的负向上下文特征库;
所述垃圾特征库还包括正向上下文特征库和负向上下文特征库;
预先确定正向权重因子取值和负向权重因子取值,正向权重因子取值与负向权重因子取值的和是1;
将待处理文本与垃圾特征库中的垃圾特征进行匹配,对于匹配到的待处理文本中的每个敏感词,将待处理文本中除该敏感词以外的其他特征与该敏感词对应的正向上下文特征库和负向上下文特征库进行匹配,根据正向权重因子取值、负向权重因子取值以及匹配到的正向上下文特征和负向上下文特征得到敏感词的当前垃圾权重;根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重,根据待处理文本的第一垃圾权重判断待处理文本是否是垃圾文本。
一种识别垃圾文本的系统,该系统包括垃圾特征库和垃圾文本识别装置;
所述垃圾特征库,存储有赋予了垃圾权重的垃圾特征,存储的垃圾特征包括敏感词,该垃圾特征库中还存储了每个敏感词的正向上下文特征库和负向上下文特征库;
其中,每个敏感词的所述正向上下文特征库,通过统计预先建立的第一垃圾样本训练库中包含该敏感词的垃圾样本,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到;
每个敏感词的所述负向上下文特征库,通过统计预先建立的第一非垃圾样本训练库中包含该敏感词的非垃圾样本,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到;
所述垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中的垃圾特征进行匹配,在匹配到敏感词时,将该敏感词的正向上下文特征库和负向上下文特征库与待处理文本进行匹配,根据匹配到的正向上下文特征和负向上下文特征计算该敏感词的当前垃圾权重,根据匹配到的敏感词的当前垃圾权重判断待处理文本是否是垃圾文本。
由上述技术方案可见,本发明在识别垃圾文本之前,预先建立垃圾特征库,其中的每个垃圾特征都按照包含该垃圾特征的文本属于垃圾文本的概率被赋予了垃圾权重,在识别垃圾文本时,首先提取待处理文本的特征,判断待处理文本的各个特征是否在垃圾特征库中,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本,与现有技术中只要匹配到垃圾特征,就将其判定为垃圾文本相比,由于本发明考虑了匹配到的所有垃圾特征,并根据所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本,因此,能够提高识别垃圾文本的准确性。
附图说明
图1是现有技术中根据敏感词识别垃圾文本的方法流程图。
图2是本发明识别垃圾文本的方法流程图。
图3是从本发明角度一出发识别垃圾文本的方法流程图。
图4是本发明通过建立敏感词的上下文特征库来实现根据上下文的语义联系识别垃圾文本的方法流程图。
图5是从本发明角度二出发识别垃圾文本的方法流程图。
图6是本发明识别垃圾文本的系统结构图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明识别垃圾文本的方法主要分为两大步骤,具体请见图2。
图2是本发明识别垃圾文本的方法流程图,如图2所示,该方法包括:
步骤201,建立垃圾特征库。
本步骤中,提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库。
其中的垃圾样本一般由编辑人员从所有文本中进行人工筛选,然后手动标注得到。
步骤202,根据匹配到的所有垃圾特征判断待处理文本是否是垃圾文本。
本步骤中,首先提取待处理文本的特征,判断待处理文本的各个特征是否在垃圾特征库中,然后根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。
一般来说,不同的处理对象表现出的特征不相同。例如,与新闻类型的文本相比,问答互动平台的文本的长度较短。不同的处理对象中的垃圾文本涵盖的范围也不相同,例如,问答互动平台的垃圾文本中包括威胁国家或社会稳定的反动、色情等特定内容的信息,与问答互动平台的知识性相背离的广告、征友、恶意灌水、恶意辱骂等非问答信息。
问答互动平台的文本的特殊性,给问答互动平台的垃圾文本过滤带来了困难。例如,由于互动问答平台的文本一般较短,比如提问文本一般不超过100个汉字,平均长度是20个汉字,这使得挖掘这类文本的信息的难度加大。
另外,问答互动平台的文本的规范性也很差。例如,在词法上,存在口语、方言、错字、火星文、脑残体等非常规汉字;在表达上,标点符号使用很不规范,有的提问文本甚至没有标点符号。
本发明针对问答互动平台的文本的特殊性,从多个角度提取问答互动平台的文本的特征,从中提取出垃圾特征并建立垃圾特征库,然后根据垃圾特征库识别待处理文本是否是垃圾文本。从本发明提供的任意角度出发,均能够提高识别垃圾文本的准确性,当综合考虑垃圾特征库中从各个角度触发提取的垃圾特征来识别垃圾文本时,识别垃圾文本的准确性会进一步得到提高。另外,针对问答互动平台的文本的不规范性,还可以在从垃圾样本中提取特征和从待处理文本中提取特征之前,对垃圾样本和待处理文本进行预处理,一方面减小垃圾特征库的大小,另一方面也提高识别垃圾文本的速度。
上文所述从多个角度提取问答互动平台的文本的特征主要包括三个角度。角度一,从问答互动平台的文本中可能包括威胁国家或社会稳定的反动、色情等特定内容的信息出发,由编辑人员以手动方式建立敏感词表,将表示该特定内容的敏感词写入敏感词表,并根据当前的社会需求即根据包含该敏感词的文本属于垃圾文本的概率为每个敏感词赋予垃圾权重。角度二,从问答互动平台的文本中可能包括与问答互动平台的知识性相背离的广告、征友、恶意灌水、恶意辱骂等非问答信息出发,利用有监督的机器学习机制从这些非问答信息中学习出垃圾特征,并根据包含该垃圾特征的文本属于垃圾文本的概率为每个垃圾特征赋予垃圾权重。通过角度二可以涵盖角度一所未能涵盖的其他垃圾特征。角度三,从问答互动平台中的垃圾文本的格式角度出发,根据广告、征友、恶意灌水、恶意辱骂等垃圾文本所具有的区别于非垃圾文本的格式信息,提取相应的格式特征。
其中,在从角度一或角度二出发识别垃圾文本时,还可以将同时出现在同一垃圾样本中的概率大于第一预定阈值的两个以上的特征组合为组合垃圾特征,将该组合垃圾特征确定为用于组成垃圾特征库的特征并写入垃圾特征库。由于通常情况下,当某些特征同时出现在待处理文本中时,待处理文本是垃圾文本的概率较大,而当该某些特征中只有一个特征出现在待处理文本中时,其是垃圾文本的概率则大大减小,因此,通过组合出组合垃圾特征并将其写入垃圾特征库,日后根据垃圾特征库识别待处理文本是否含有所述组合垃圾特征,从而识别待处理文本是否是垃圾文本,能够提高识别垃圾文本的准确性。
下面对从上述三个角度出发识别垃圾文本的方法分别予以说明。
图3是从本发明角度一出发识别垃圾文本的方法流程图,如图3所示,该方法包括:
步骤301,建立敏感词表。
本步骤中,由编辑人员根据问答互动平台的文本中涉及反动、色情等特定内容的信息中,将能够表达该特定内容的敏感词编辑进敏感词表。其中,该敏感词可以是单个词,也可以是两个以上的词的组合,还可以是短语或者句子。
当敏感词是两个以上的词的组合(下文简称组合敏感词)时,该组合敏感词能够表达出上下文的语义联系,如果待处理文本中含有该组合敏感词,则该待处理文本是垃圾文本的概率较大,因此,可以为组合敏感词赋予不低于其他非组合敏感词的垃圾权重。例如,当待处理文本中包含敏感词“炸药”时,待处理文本可能是“炸药在何时发明”,也可能是“如何制造炸药”,而如果将“制造”和“炸药”这两个词组合为组合敏感词“制造炸药”,由于组合敏感词“制造炸药”体现了上下文的语义联系,因此,当待处理文本中包含“制造炸药”这一组合敏感词时,其属于垃圾文本的概率较大,因此,可以为“制造炸药”赋予较高的垃圾权重,其中,组合成组合敏感词的各个词可以相邻也可以不相邻,例如,当待处理文本为“炸药如何制造”时,其也包含组合敏感词“制造炸药”。由于组合敏感词能够表达出上下文的语义联系,因此,能够降低把非垃圾文本识别为垃圾文本的误判率,例如,如果只要待处理文本中出现“炸药”这一敏感词,则将其识别为垃圾文本,那么,“炸药在何时发明”这一非垃圾文本将被误判为垃圾文本,相应地,如果需要出现“制造炸药”这个组合敏感词,才将其识别为垃圾文本时,就不会将“炸药在何时发明”这一非垃圾文本误判为垃圾文本。
步骤302,对待处理文本与敏感词表中的敏感词进行匹配。
本步骤中,可以利用现有技术中的搜索树等数据结构或者字符串匹配算法来对待处理文本与敏感词表中的敏感词进行匹配,从而匹配出待处理文本中的所有敏感词。
其中,对于组合敏感词,可以根据组合敏感词的标识识别待处理文本中是否包含组合敏感词,例如,如果待处理文本中含有“制造”和“炸药”这两个词,而敏感词表中含有“制造&炸药”,其中的字符“&”是组合敏感词标识,则可以匹配出待处理文本中包含“制造炸药”这一组合敏感词。
步骤303,根据匹配到的所有敏感词的垃圾权重判断待处理文本是否是垃圾文本。
本步骤中,根据匹配到的所有敏感词的垃圾权重计算待处理文本的第一垃圾权重。本步骤可以在第一垃圾权重大于第二预定阈值时,判定待处理文本是垃圾文本,例如,当组合敏感词的垃圾权重大于所述第二预定阈值时,如果待处理文本中包含组合敏感词,则将待处理文本直接判定为垃圾文本。本步骤还可以将待处理文本的第一垃圾权重作为判定待处理文本是否是垃圾文本的一个因素。
将待处理文本的第一垃圾权重作为判定待处理文本是否是垃圾文本的一个因素时,识别垃圾文本的具体方法请见后文相关叙述。
图3所示方法中,组合敏感词实际上是一种组合垃圾特征,即由两个以上的特征组合而成。这种组合垃圾特征能够体现出上下文的语义联系,从而提高识别出垃圾文本的概率。
还可以通过建立敏感词的上下文特征库来实现根据上下文的语义联系识别垃圾文本,从而提高识别垃圾文本的准确性。下面对通过建立敏感词的上下文特征库来实现根据上下文的语义联系识别垃圾文本的方法进行详细介绍。
图4是本发明通过建立敏感词的上下文特征库来实现根据上下文的语义联系识别垃圾文本的方法流程图,如图4所示,该方法包括训练和识别两个阶段,其中训练阶段是预先完成的,具体请见步骤401~402,识别阶段是根据训练得到的垃圾特征库对待处理文本进行处理的阶段,具体请见步骤403~406:
步骤401,建立敏感词表。
本步骤建立敏感词表的方法与步骤301相同。
步骤402,建立敏感词表中每个敏感词的上下文特征库。
本步骤中,首先建立第一垃圾样本训练库和第一非垃圾样本训练库。
对于每个敏感词,统计第一垃圾样本训练库中包含该敏感词的垃圾样本,对各个垃圾样本进行分词处理,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该垃圾特征的正向上下文特征库。
对于每个敏感词,统计第一非垃圾样本训练库中包含该敏感词的非垃圾样本,对各个非垃圾样本进行分词处理,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该垃圾特征的负向上下文特征库。
其中,通常从垃圾样本和非垃圾样本中与敏感词的距离在一定范围内的字符中提取所述其他特征,这样可以保证提取的该其他特征与该敏感词有上下文语义联系。例如,当从距离敏感词前后各3个词以内的文本中提取除该敏感词以外的其他特征,例如,对于垃圾样本“海淀区哪里有卖~~~~的商店”这一非垃圾样本,其中的“~~~”代表敏感词,如果从距离敏感词前后各3个词以内的文本中提取除该敏感词以外的其他特征,则需要从“哪里”、“有”、“卖”和“的”、“商店”中提取其他特征。
步骤403,对待处理文本与敏感词表中的敏感词进行匹配。
本步骤同步骤302。
步骤404,根据匹配到的各个敏感词对应的上下文特征库,计算该各个敏感词的当前垃圾权重。
本步骤中,需要预先确定正向权重因子取值和负向权重因子取值。
对于待处理文本中的每个敏感词,将待处理文本中除该敏感词以外的其他特征与该敏感词对应的正向上下文特征库和负向上下文特征库进行匹配,根据正向权重因子取值、负向权重因子取值以及匹配到的正向上下文特征和负向上下文特征得到敏感词的当前垃圾权重。
本步骤中预先确定正向权重因子α取值和负向权重因子β取值可以包括:
预先建立权重因子训练集,其由垃圾样本和非垃圾样本组成,其中的垃圾样本和非垃圾样本可以由编辑人员手工标注得到。
随机或者按照预定规则初始化正向权重因子α和负向权重因子β,其中α+β=1。根据正向权重因子α和负向权重因子β的当前值判断权重因子训练集中的各个样本是否是垃圾样本,根据判断结果得到误判率和漏检率,当误判率和漏检率不在预设范围内时,更新正向权重因子α的取值和负向权重因子β的取值并保证α+β=1,直至漏检率和误判率在预设范围内,将正向权重因子α和负向权重因子β的当前值作为预先确定的正向权重因子α取值和负向权重因子β取值。
根据正向权重因子α取值、负向权重因子β取值以及匹配到的正向上下文特征和负向上下文特征得到该垃圾特征的当前垃圾权重可以包括:
将预先确定的正向权重因子α取值与所述正向上下文特征的数目相乘得到正向权重更新值,将预先确定的负向权重因子β取值与所述负向上下文特征的数目相乘得到负向权重更新值,将该垃圾特征在垃圾特征库的初始垃圾权重值加上所述正向权重更新值,将所得和减去所述负向权重更新值。对所得差进行归一化处理,即,当所得差小于等于0时,将垃圾权重最小门限值作为该垃圾特征的当前垃圾权重,当所得差大于等于1时,将垃圾权重最大门限值作为该垃圾特征的当前垃圾权重,当所得差在0和1之间时,将该所得差作为该垃圾特征的当前垃圾权重。
假设,敏感词Wi的垃圾权重为Scorei(0<Scorei<1),如果在待处理文本中匹配到敏感词Wi,根据敏感词Wi索引到其对应的正向上下文特征库和负向上下文特征库,与待处理文本中与敏感词Wi的距离在一定范围内的字符中提取其他特征与该正向上下文特征库和负向上下文特征库中的特征进行匹配,假设在正向上下文特征库中匹配到的特征组成的集合是{Cpi1,Cpi2,...,Cpik},在负向上下文特征库中匹配到的特征组成的集合是{Cnj1,Cnj2,...,Cnjt},则Wi未经归一化的当前垃圾权重为 Score newi = Score i + ( Σ t β - Σ k α ) .
对Scorenewi进行归一化处理,即令
Score normi = { Score min , Score newi < = 0 Score max , Score newi > = 1 Score newi , 0 < Score newi < 1 ( 0 < Score min < 1,0 < Score max < 1 , )
其中的Scoremin是垃圾权重最小门限值、Scoremax是垃圾权重最大门限值,Scorenormi是该垃圾特征的当前垃圾权重。
其中,在计算Wi未经归一化的当前垃圾权重Scorenewi时,还可以考虑区分正向上下文特征库和负向上下文特征库中不同的上下文特征对Wi的影响程度的不同,具体地,为每个正向上下文特征设置正向分值梯度Vp,为每个负向上下文特征设置负向分值梯度Vn,其中0<Vp<1,0<Vn<1,分别用于表示各个上下文特征的权重更新程度。根据
Figure GSB00000171536200101
计算Scorenewi
正向分值梯度Vp和负向分值梯度Vn的具体取值可以通过预先建立分值梯度训练集,然后利用神经网络训练方法进行训练得到。
步骤405,根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重。
本步骤中,所述根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重包括:
将匹配到的所有垃圾特征的当前垃圾权重相乘得到负向权重值,用1减去每一垃圾特征的当前权重得到每一垃圾特征的当前非垃圾权重,将所有垃圾特征的当前非垃圾权重值相乘得到正向权重值,将负向权重值除以正向权重值与负向权重值的和,将所得商作为该待处理文本的第一垃圾权重值。
例如,如果待处理文本中包含的所有敏感词组成的集合是{W1,W2,...,Wy},则待处理文本的第一绝对垃圾权重值为
Figure GSB00000171536200102
第一绝对非垃圾权重值为
Figure GSB00000171536200103
则待处理文本的第一垃圾权重值为
Figure GSB00000171536200104
步骤406,根据待处理文本的第一垃圾权重判断待处理文本是否是垃圾文本。
本步骤可以在第一垃圾权重大于第二预定阈值时,判定待处理文本是垃圾文本,还可以将待处理文本的第一垃圾权重作为判定待处理文本是否是垃圾文本的一个因素。
图5是从本发明角度二出发识别垃圾文本的方法流程图。
图5所示方法中,通过有监督的机器学习机制从大量的垃圾样本中学习出垃圾特征,并且学习出的垃圾特征能够体现出待处理文本上下文语义之间的联系,从而提高识别垃圾文本的准确性。
在图5所示方法中,需要预先建立第二垃圾样本训练库和第二非垃圾样本训练库,其中的垃圾样本和非垃圾样本可以由编辑人员手工标注得到。如图5所示,该方法包括训练和识别两个阶段,其中训练阶段是预先完成的,具体请见步骤501~502,识别阶段是根据训练得到的垃圾特征库对待处理文本进行处理的阶段,具体请见步骤503~506:
步骤501,从第二垃圾样本训练库中提取待选的顺序组合垃圾特征。
本步骤中,对第二垃圾样本训练库中的垃圾样本进行分词处理,将同时出现在同一垃圾样本中的两个以上的词按照该两个以上的词在该同一垃圾样本中出现的先后顺序组合为待选的顺序组合垃圾特征。
本步骤中用于组成待选的顺序组合垃圾特征的两个以上的词在所述同一垃圾样本中相邻或者至少有两个词之间存在间隔。例如,假设对待处理样本进行分词处理后,得到待处理样本由w1至wm组成的词序列(如表一所示),当用于组成待选的顺序组合垃圾特征的两个以上的词在所述同一垃圾样本中相邻时,待选的顺序组合垃圾特征fi为fi={wj,...,wj+k},0<k<φ(如表二所示),当用于组成待选的顺序组合垃圾特征的两个以上的词在所述同一垃圾样本中不相邻时,待选的顺序组合垃圾特征ti为ti={wj,wj+k},1<k<θ(如表三所示其中,φ和θ是上下文窗口大小,即是用于组成待选的顺序组合垃圾特征的词之间间隔的最大距离。
例如,表二中,φ=2,以词w1开始的待选的顺序组合垃圾特征为f1={w1,w2}、f2={w1,w2,w3},以词w2开始的待选的顺序组合垃圾特征为f3={w2,w3}、f4={w2,w3,w4},以此类推。
表三,θ=3,以词w1开始的待选的顺序组合垃圾特征为t1={w1,w3}、t2={w1,w3,w4},t3={w1,w4},词w2开始的待选的顺序组合垃圾特征为t4={w2,w4}、t5={w2,w4,w5},t6={w2,w5},以此类推。
  w1   w2   w3   w4 ... wm
表一
Figure GSB00000171536200121
表二
Figure GSB00000171536200122
表三
步骤502,根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾样本训练库中的出现概率,从待选的顺序组合垃圾特征中确定出顺序组合垃圾特征。将顺序组合垃圾特征写入垃圾特征库。
本步骤中,统计待选的顺序组合垃圾特征在第二垃圾样本库的所有垃圾样本中出现的文档频度DF值,提取DF值在预设区间内的待选的顺序组合垃圾特征,按照
Figure GSB00000171536200123
计算该DF值在预设区间内的待选的顺序组合垃圾特征与垃圾类别的相关度χ2(f,ci)值,将χ2(f,ci)值大于预定值的待选的顺序组合垃圾特征确定为顺序组合垃圾特征。
其中,N是第二垃圾样本库和第二非垃圾样本库中所有样本的数目,A是第二垃圾样本库中包含待选的顺序组合垃圾特征f(f可以是fi,也可以是ti)的垃圾样本数,B是第二非垃圾样本库中包含待选的顺序组合垃圾特征f的非垃圾样本数,C是第二垃圾样本库中不包含待选的顺序组合垃圾特征f的垃圾样本数,D是第二非垃圾样本库中不包含待选的顺序组合垃圾特征f的非垃圾样本数。
每个顺序组合垃圾特征的垃圾权重值可以设置为每个顺序组合垃圾特征属于垃圾类别的最大似然统计值P(f/c),该最大似然统计值P(f/c)可以根据第二垃圾样本库和第二非垃圾样本库计算得到。具体地,
Figure GSB00000171536200131
其中,T(c)表示第二垃圾样本库中的样本数,T(f,c)表示第二垃圾样本库中具备顺序组合垃圾特征f的样本数。
步骤503,从待处理文本中提取顺序组合特征。
本步骤从待处理文本中提取顺序组合特征的方法与步骤501中从第二垃圾样本训练库中提取待选的顺序组合垃圾特征的方法相同。
步骤504,根据匹配到的所有顺序组合垃圾特征得到该待处理文本的垃圾特征向量F,计算垃圾特征向量F属于垃圾类别的概率值P(F/c)。
本步骤中,垃圾特征向量F的元素包括fi和ti。其中,如果待处理文本中包含多个具有相同起点的fi,则只将该多个具有相同起点的fi中长度最长的fi作为垃圾特征向量F的元素,例如,如果待处理文本中包括f1={w1,w2}和f2={w1,w2,w3},则只将f2={w1,w2,w3}作为垃圾特征向量F的元素,因此,在垃圾特征向量F的元素中,其所包含的各个fi元素的起点不同。而对于ti,无论待处理文本中包含的各个ti是否具有相同的起点,均将其作为垃圾特征向量F的元素。
本步骤中,将各个顺序组合垃圾特征f的垃圾权重值相乘,所得乘积是垃圾特征向量F属于垃圾类别的概率值P(F/c)。
步骤505,根据垃圾特征向量F属于垃圾类别的概率值P(F/c)计算待处理文本属于垃圾文本的第二垃圾权重。
本步骤中,根据第二垃圾样本库和第二非垃圾样本库计算垃圾类别的最大似然概率P(C)和非垃圾类别的最大似然概率
Figure GSB00000171536200132
按照
Figure GSB00000171536200133
Figure GSB00000171536200134
计算包含垃圾特征向量F的待处理样本属于垃圾文本的概率P(C/F),将P(C/F)作为待处理文本的第二垃圾权重。
步骤506,根据待处理文本的第二垃圾权重判断待处理文本是否是垃圾文本。
本步骤可以在第二垃圾权重大于第二预定阈值时,判定待处理文本是垃圾文本,还可以将待处理文本的第二垃圾权重作为判定待处理文本是否是垃圾文本的一个因素。
图5所示方法实际上利用的是Bayes概率统计方法,其需要满足条件独立性假设前提。当垃圾特征向量F包含的各个ti具有相同的起点时,各个ti之间不满足独立性假设前提,则采用Bayes概率统计方法中的独立性概率公式计算垃圾特征向量F属于垃圾类别的概率P(F/c)会导致各个ti的相同起点的垃圾程度被多次放大,使得分类后的数据两端分布比较严重,影响准确率。例如,垃圾特征向量F为{f1,f2,t1,t2,t3},其中的t1={w1,w3}、t2={w1,w4}、t3={w1,w5},t1、t2和t3具有相同的起点w1,如果采用
Figure GSB00000171536200141
计算垃圾特征向量F属于垃圾类别的概率P(F/c),会导致顺序组合垃圾特征t1、t2和t3共同的起点w1的垃圾程度被多次放大。
对此,本发明提出一种平滑式处理方法,具体为:预设加权因子λ和θ,λ和θ满足λ+θ=1,将待处理样本X的垃圾特征向量F划分为F′和T′两个子向量,其中的子向量F′中的各个元素是由相邻词组成的顺序组合特征,向量T′中的各个元素是由不相邻词组成的顺序组合特征。
分别计算这两个子向量属于垃圾类别的概率P(F′/c)和P(T′/c),进而计算包含子向量F′的待处理文本属于垃圾类别的概率P(C/F′)和包含子向量T′的待处理文本属于垃圾类别的概率P(C/T′),根据P(X/C)=λP(C/F′)+θP(C/T′)计算待处理样本X的第二垃圾权重P(X/C)。
具体地,在计算子向量F′属于垃圾类别的概率P(F′/c)时,将子向量F′中各个元素属于垃圾类别的概率相乘,所得乘积是P(F′/c)。
在计算子向量T′属于垃圾类别的概率P(T′/c)时,先计算起始于相同起点wk的所有顺序组合垃圾特征同时在垃圾类别中出现的概率P(Wk/c),然后根据计算P(T′/c),n是子向量T′中的起点个数。
起始于相同起点wk的所有顺序组合垃圾特征同时在垃圾类别中出现的概率P(Wk/c)的计算公式为:
Figure GSB00000171536200152
其中,各个顺序组合垃圾特征t′i具有相同的起点wk
包含子向量F′的待处理文本属于垃圾类别的概率P(C/F′)为:
P ( C / F &prime; ) 1 1 + e - log P ( C / F &prime; ) P ( &Not; C / F &prime; ) ,
其中, log P ( C / F &prime; ) P ( &Not; C / F &prime; ) = log P ( C ) P ( &Not; C ) + &Sigma; i log P ( f i / C ) P ( f i / &Not; C ) .
包含子向量T′的待处理文本属于垃圾类别的概率P(C/T′)为:
P ( C / T &prime; ) = 1 1 + e - log P ( C / T &prime; ) P ( &Not; C / T &prime; ) ,
其中, log P ( C / T &prime; ) P ( &Not; C / T &prime; ) = log P ( C ) P ( &Not; C ) + &Sigma; i log P ( t i / C ) P ( t i / &Not; C ) .
这种平滑式处理方法能够综合考虑应用Bayes概率统计方法时的条件独立性前提和各个具有相同起点的顺序组合垃圾特征对起点词的概率加强过程。
其中加权因子λ和θ的具体取值可以预先通过测试得到。具体地,预先建立加权因子测试集,其由垃圾样本和非垃圾样本组成。随机或者按照预定规则初始化加权因子λ和θ,根据加权因子λ和θ的当前值判断加权因子测试集中的各个样本是否是垃圾样本,根据判断结果得到误判率和漏检率,当误判率和漏检率不在预设范围内时,更新加权因子λ和θ的取值,直至漏检率和误判率在预设范围内,将加权因子λ和θ的当前值作为预先确定的加权因子λ和θ取值。
图5所示利用Bayes概率统计识别垃圾文本的方法,其通过有监督的机器学习方法学习出由相邻词组成的顺序组合垃圾特征和由非相邻词组成的顺序组合垃圾特征,根据由相邻词组成的顺序组合垃圾特征和由非相邻词组成的顺序组合垃圾特征对待处理文本进行分类的分类器可以称之为Bayes分类器,这种Bayes分类器能够将所有的待处理文本分为垃圾文本和非垃圾文本两类文本,并且由于利用了由相邻词组成的顺序组合垃圾特征和由非相邻词组成的顺序组合垃圾特征,因此,能够提高分类的准确性。
在图3、图4和图5所示方法中,其中的组合敏感词、上下文特征库以及顺序组合垃圾特征均可以体现出垃圾文本的上下文语义联系,从而使得根据组合敏感词、上下文特征库以及顺序组合垃圾特征识别垃圾文本的准确性较好。
本发明从角度三出发识别垃圾文本的方法中,从问答互动平台中的垃圾文本的格式角度出发,根据广告、征友、恶意灌水、恶意辱骂等垃圾文本所具有的区别于非垃圾文本的格式信息,提取相应的格式特征作为垃圾格式特征,将该垃圾格式特征写入垃圾特征库中。提取待处理文本的格式信息,将提取的格式信息与垃圾特征库中的垃圾格式特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重计算待处理文本的第三垃圾权重,根据第三垃圾权重判断待处理文本是否是垃圾文本,例如,在第三垃圾权重大于第二预定阈值时,将待处理文本判定为垃圾文本,或者,将第三垃圾权重作为待处理文本是否是垃圾文本的因素之一。
其中,所述的垃圾格式特征可以是文本长度短于预定长度(例如,文本长度为2个字符)、和/或文本中含有联系方式信息、和/或文本中含有生僻字、和/或文本中含有重复字符串信息、和/或文本中含有无意义的回答信息(例如“不知道”)。第三垃圾权重可以是匹配到的各个垃圾格式特征的垃圾权重的乘积。
为了进一步提高识别垃圾文本的准确性,本发明可以综合从多个角度出发得到的垃圾权重,计算出综合垃圾权重,根据综合垃圾权重判断待处理文本是否是垃圾文本,例如,在综合垃圾权重大于第二预定阈值时,判定待处理文本是垃圾文本。
当综合考虑从角度一、角度二和角度三触发得到的第一垃圾权重、第二垃圾权重和第三垃圾权重时,垃圾特征库中包括敏感词表、顺序组合垃圾特征和垃圾格式特征,综合垃圾权重根据第一垃圾权重、第二垃圾权重和第三垃圾权重计算得到。例如,将第一垃圾权重、第二垃圾权重和第三垃圾权重这三者中的最大值作为综合垃圾权重,或者,将这三者的平均值作为综合垃圾权重。
为了减小垃圾特征库占用的存储空间,同时提高识别垃圾文本的速度,在上述识别垃圾文本的方法中,可以在提取待处理文本的特征之前,对待处理文本进行预处理,即,将待处理文本转化为统一的表述方式,例如,将全角字符和半角字符统一为半角字符或全角字符,将大写字符和小写字符统一为小写字符或大写字符,去除待处理文本中的空格,提取出待处理文本中的广告核心串,和将带有跳转字符的网址处理成正常的网址形式。
上文提到的第一预定阈值、第二预定阈值以及建立正向上下文特征库用到的预定值、建立负向上下文特征库用到的预定值、确定顺序组合垃圾特征用到的预定值,均可以由本领域技术人员依据经验而定,或者,通过建立相应的参数测试样本库进行测试得到。所述测试样本库由预定数目的垃圾样本和预定数目的非垃圾样本组成。具体如何根据参数测试样本库测试得到最佳参数取值属于现有技术。
图6是本发明提供的识别垃圾文本的系统结构图,如图6所示,该系统包括垃圾特征库601和垃圾文本识别装置602。
垃圾特征库601,存储有赋予了垃圾权重的垃圾特征。
垃圾文本识别装置602,接收待处理文本,将待处理文本与垃圾特征库601中的垃圾特征进行匹配,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本。
垃圾特征库中存储的垃圾特征包括有敏感词和/或顺序组合垃圾特征和/或垃圾格式特征。
当垃圾特征库中存储的垃圾特征包括敏感词时,垃圾特征库还可以进一步存储有每个敏感词的正向上下文特征库和负向上下文特征库。
其中,每个敏感词的所述正向上下文特征库,通过统计预先建立的第一垃圾样本训练库中包含该敏感词的垃圾样本,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到。
每个敏感词的所述负向上下文特征库,通过统计预先建立的第一非垃圾样本训练库中包含该敏感词的非垃圾样本,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到。
相应地,垃圾文本识别装置602用于,在匹配到敏感词时,将该敏感词的正向上下文特征库和负向上下文特征库与待处理文本进行匹配,根据匹配到的正向上下文特征和负向上下文特征计算该敏感词的当前垃圾权重,根据匹配到的敏感词的当前垃圾权重判断待处理文本是否是垃圾文本。
垃圾文本识别装置还可以进一步用于,在将待处理文本与垃圾特征库601中的垃圾特征进行匹配之前,将待处理文本转化为统一表述方式。
由上述技术方案可见,由于本发明在识别垃圾文本之前,预先建立垃圾特征库,在识别垃圾文本时,首先提取待处理文本的特征,根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本,与现有技术中只要匹配到垃圾特征,就将其判定为垃圾文本相比,由于本发明考虑了匹配到的所有垃圾特征,并根据所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本,因此,能够提高识别垃圾文本的准确性。
本发明针对问答互动平台的垃圾文本的多样性,从多个角度提出识别各种垃圾文本的方案。从本发明的任意角度出发,都能够提高识别垃圾文本的准确性。
当本发明从角度一和/或角度二出发识别垃圾文本时,由于角度一中的组合敏感词和上下文特征库以及角度二中的顺序组合垃圾特征均可以体现出垃圾文本的上下文语义联系,即体现出待处理文本中同时出现某些特征时是垃圾文本的概率,因而使得识别垃圾文本的准确性进一步提高。
当本发明综合从多个角度出发得到的垃圾权重,计算出综合垃圾权重,根据综合垃圾权重判断待处理文本是否是垃圾文本时,提高识别垃圾文本的准确性可以得到进一步提高。
当本发明在提取待处理文本的特征之前,对待处理文本进行预处理,即,将待处理文本转化为统一的表述方式时,还可以为了减小垃圾特征库占用的存储空间,同时提高识别垃圾文本的速度。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (27)

1.一种识别垃圾文本的方法,其特征在于,该方法包括:
提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征,并为每个垃圾特征赋予垃圾权重,由所有赋予了垃圾权重的垃圾特征组成垃圾特征库,所述垃圾特征库中包括敏感词表;
建立第一垃圾样本训练库和第一非垃圾样本训练库;
对于敏感词表中的每个敏感词,统计第一垃圾样本训练库中包含该敏感词的垃圾样本,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该敏感词的正向上下文特征库;
对于敏感词表中的每个敏感词,统计第一非垃圾样本训练库中包含该敏感词的非垃圾样本,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成该敏感词的负向上下文特征库;
所述垃圾特征库还包括正向上下文特征库和负向上下文特征库;
预先确定正向权重因子取值和负向权重因子取值,正向权重因子取值与负向权重因子取值的和是1;
将待处理文本与垃圾特征库中的垃圾特征进行匹配,对于匹配到的待处理文本中的每个敏感词,将待处理文本中除该敏感词以外的其他特征与该敏感词对应的正向上下文特征库和负向上下文特征库进行匹配,根据正向权重因子取值、负向权重因子取值以及匹配到的正向上下文特征和负向上下文特征得到敏感词的当前垃圾权重;根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重,根据待处理文本的第一垃圾权重判断待处理文本是否是垃圾文本。
2.如权利要求1所述的方法,其特征在于,所述按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征包括:
将同时出现在同一垃圾样本中的概率大于第一预定阈值的两个以上的特征组合为组合垃圾特征,将该组合垃圾特征确定为用于组成垃圾特征库的垃圾特征。
3.如权利要求2所述的方法,其特征在于,所述组合垃圾特征包括组合敏感词;
所述组成垃圾特征库包括:
建立组合敏感词的词表。
4.如权利要求3所述的方法,其特征在于,该方法进一步包括:
为组合敏感词赋予组合敏感词标识;
所述为每个垃圾特征赋予垃圾权重包括:为组合敏感词赋予的垃圾权重不低于其他垃圾特征的垃圾权重;
所述将待处理文本与垃圾特征库中的垃圾特征进行匹配包括:
根据垃圾特征库中组合敏感词的标识,判断待处理文本中是否包含能够组合成该组合敏感词的特征,若是,则判定匹配到组合敏感词。
5.如权利要求4所述的方法,其特征在于,所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本包括:
当匹配到的所有垃圾特征各自的垃圾权重有大于第二预定阈值的垃圾权重时,判定待处理文本是垃圾文本;
所述第二预定阈值小于组合敏感词的垃圾权重。
6.如权利要求2所述的方法,其特征在于,所述组合垃圾特征包括顺序组合垃圾特征;
所述将同时出现在同一垃圾样本中的概率大于预定值的两个以上的特征组合为组合垃圾特征包括:
建立第二垃圾样本训练库和第二非垃圾样本训练库;
对第二垃圾样本训练库中的垃圾样本进行分词处理,将同时出现在同一垃圾样本中的两个以上的词按照该两个以上的词在该同一垃圾样本中出现的先后顺序组合为待选的顺序组合垃圾特征;
根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾样本训练库中的出现概率,从待选的顺序组合垃圾特征中确定出顺序组合垃圾特征;
所述待处理文本的特征包括顺序组合特征,所述提取待处理文本的特征包括:
对待处理文本进行分词处理,将该待处理文本的两个以上的词按照该两以上的词在待处理文本中的出现顺序组合为顺序组合特征;
所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本包括:
根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权重,根据待处理文本的第二垃圾权重判断待处理文本是否是垃圾文本。
7.如权利要求6所述的方法,其特征在于,所述垃圾特征包括垃圾格式特征;
所述提取垃圾样本的特征,按照包含该特征的文本属于垃圾文本的概率从垃圾样本的所有特征中确定出垃圾特征包括:
将垃圾样本区别于非垃圾样本的格式信息作为垃圾格式特征;
所述提取待处理文本的特征包括:提取待处理文本的格式信息;
所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本包括:
根据匹配到的所有垃圾格式特征计算待处理文本的第三垃圾权重,根据待处理文本的第三垃圾权重判断待处理文本是否是垃圾文本。
8.如权利要求7所述的方法,其特征在于,所述判断是否是垃圾文本包括:
根据待处理文本的第一垃圾权重、第二垃圾权重和第三垃圾权重计算待处理文本的综合垃圾权重,在待处理文本的综合垃圾权重大于预定值时,判定待处理文本是垃圾文本。
9.如权利要求8所述的方法,其特征在于,所述计算待处理文本的综合垃圾权重包括:
将第一垃圾权重、第二垃圾权重和第三垃圾权重三者的最大值作为综合垃圾权重,
或者,将第一垃圾权重、第二垃圾权重和第三垃圾权重的平均值作为综合垃圾权重。
10.如权利要求2所述的方法,其特征在于,所述组合垃圾特征包括顺序组合垃圾特征;
所述将同时出现在同一垃圾样本中的概率大于预定值的两个以上的特征组合为组合垃圾特征包括:
建立第二垃圾样本训练库和第二非垃圾样本训练库;
对第二垃圾样本训练库中的垃圾样本进行分词处理,将同时出现在同一垃圾样本中的两个以上的词按照该两个以上的词在该同一垃圾样本中出现的先后顺序组合为待选的顺序组合垃圾特征;
根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾样本训练库中的出现概率,从待选的顺序组合垃圾特征中确定出顺序组合垃圾特征;
所述待处理文本的特征包括顺序组合特征,所述提取待处理文本的特征包括:
对待处理文本进行分词处理,将该待处理文本的两个以上的词按照该两个以上的词在待处理文本中的出现顺序组合为顺序组合特征;
所述根据匹配到的所有垃圾特征的垃圾权重判断待处理文本是否是垃圾文本包括:
根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权重,根据待处理文本的第二垃圾权重判断待处理文本是否是垃圾文本。
11.如权利要求6或10所述的方法,其特征在于,所述判断待处理文本是否是垃圾文本包括:
判断第一垃圾权重或第二垃圾权重是否大于第三预定阈值,若是,判定待处理文本是垃圾文本,否则,判定待处理文本不是垃圾文本。
12.如权利要求1所述的方法,其特征在于,
提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征包括:在距离敏感词预定范围内提取所述其他特征;
所述提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征包括:在距离敏感词预定范围内提取所述其他特征。
13.如权利要求1所述的方法,其特征在于,所述预先确定正向权重因子和负向权重因子包括:
建立权重因子训练集,其由垃圾样本和非垃圾样本组成;
随机或者按照预定规则初始化正向权重因子和负向权重因子,根据正向权重因子和负向权重因子的当前值判断权重因子训练集中的各个样本是否是垃圾样本,根据判断结果得到误判率和漏检率,当误判率和漏检率不在预设范围内时,更新正向权重因子的取值和负向权重因子的取值,直至漏检率和误判率在预设范围内,将正向权重因子和负向权重因子的当前值作为预先确定的正向权重因子取值和负向权重因子取值。
14.如权利要求1所述的方法,其特征在于,所述根据正向权重因子取值、负向权重因子取值以及匹配到的正向上下文特征和负向上下文特征得到敏感词的当前垃圾权重包括:
将预先确定的正向权重因子取值与所述正向上下文特征的数目相乘得到正向权重更新值,将预先确定的负向权重因子取值与所述负向上下文特征的数目相乘得到负向权重更新值;
将该垃圾特征在垃圾特征库的初始垃圾权重值加上所述正向权重更新值,将所得和减去所述负向权重更新值,当所得差小于等于0时,将垃圾权重最小门限值作为该垃圾特征的当前垃圾权重;当所得差大于等于1时,将垃圾权重最大门限值作为该垃圾特征的当前垃圾权重,当所得差在0和1之间时,将该所得差作为该垃圾特征的当前垃圾权重。
15.如权利要求1所述的方法,其特征在于,
该方法进一步包括:预先设置正向上下文特征库中各个正向上下文特征的正向分值梯度Vp和负向上下文特征库中各个负向上下文特征的负向分值梯度Vn,正向分值梯度Vp和负向分值梯度Vn的取值均大于0且小于1;
所述根据正向权重因子取值、负向权重因子取值以及匹配到的正向上下文特征和负向上下文特征得到该垃圾特征的当前垃圾权重包括:
将预先确定的正向权重因子取值与各个正向上下文特征的正向分值梯度Vp相乘,将所得的各个乘积累加,所得和是正向权重更新值,将预先确定的负向权重因子取值与各个负向上下文特征的负向分值梯度Vn相乘,将所得的各个乘积累加,所得和是负向权重更新值;
将该垃圾特征在垃圾特征库的初始垃圾权重值加上所述正向权重更新值,将所得和减去所述负向权重更新值,当所得差小于等于0时,将垃圾权重最小门限值作为该垃圾特征的当前垃圾权重;当所得差大于等于1时,将垃圾权重最大门限值作为该垃圾特征的当前垃圾权重,当所得差在0和1之间时,将该所得差作为该垃圾特征的当前垃圾权重。
16.如权利要求1所述的方法,其特征在于,所述根据匹配到的所有敏感词的当前垃圾权重计算待处理文本的第一垃圾权重包括:
将匹配到的所有垃圾特征的当前垃圾权重相乘得到负向权重值,用1减去每一垃圾特征的当前权重得到每一垃圾特征的当前非垃圾权重,将所有垃圾特征的当前非垃圾权重值相乘得到正向权重值,将负向权重值除以正向权重值与负向权重值的和,将所得商作为该待处理文本的第一垃圾权重值。
17.如权利要求6或10所述的方法,其特征在于,所述两个以上的词相邻或者至少有两个词之间存在间隔。
18.如权利要求6或10所述的方法,其特征在于,根据待选的顺序组合垃圾特征在第二垃圾样本训练库和第二非垃圾样本训练库中的出现概率,从待选的顺序组合垃圾特征中确定出顺序组合垃圾特征包括:
统计待选的顺序组合垃圾特征在第二垃圾样本库的所有垃圾样本中出现的文档频度DF值,提取DF值在预设区间内的待选的顺序组合垃圾特征,按照
Figure FSB00000171536100071
计算该DF值在预设区间内的待选的顺序组合垃圾特征属于垃圾类别的相关度χ2(f,c)值,将χ2(f,c)值大于预定值的待选的顺序组合垃圾特征确定为顺序组合垃圾特征;
其中,N是第二垃圾样本库和第二非垃圾样本库中所有样本的数目,A是第二垃圾样本库中包含待选的顺序组合垃圾特征f的垃圾样本数,B是第二非垃圾样本库中包含待选的顺序组合垃圾特征f的非垃圾样本数,C是第二垃圾样本库中不包含待选的顺序组合垃圾特征f的垃圾样本数,D是第二非垃圾样本库中不包含待选的顺序组合垃圾特征f的非垃圾样本数。
19.如权利要求6或10所述的方法,其特征在于,所述为每个垃圾特征赋予垃圾权重包括:
根据第二垃圾样本库和第二非垃圾样本库计算每个顺序组合垃圾特征属于垃圾类别的最大似然统计值,将该最大似然统计值作为顺序组合垃圾特征的垃圾权重值。
20.如权利要求6或10所述的方法,其特征在于,所述根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权重包括:
由匹配到的所有顺序组合垃圾特征f组成垃圾特征向量F,其中,对于多个具有相同起点的顺序组合垃圾特征,仅将其中长度最长的顺序组合垃圾特征作为垃圾特征向量F的元素,将各个顺序组合垃圾特征f的垃圾权重值相乘,所得乘积是垃圾特征向量F属于垃圾类别的概率值P(F/c);
根据第二垃圾样本库和第二非垃圾样本库计算垃圾类别的最大似然概率P(C)和非垃圾类别的最大似然概率
Figure FSB00000171536100072
按照
Figure FSB00000171536100073
Figure FSB00000171536100074
计算包含垃圾特征向量F的待处理样本属于垃圾文本的概率P(C/F),将P(C/F)作为待处理文本的第二垃圾权重。
21.如权利要求6或10所述的方法,其特征在于,
该方法进一步包括,预先设置加权因子λ和θ,λ与θ的和是1;
所述根据匹配到的所有顺序组合垃圾特征计算待处理文本的第二垃圾权重包括:
由匹配到的具有相同起点且由相邻词构成的顺序组合特征中长度最长的顺序组合特征,以及所有由不相邻词构成的顺序组合特征组成垃圾特征向量F,其中,所有具有相同起点且由相邻词构成的顺序组合特征中长度最长的顺序组合特征构成垃圾特征向量F的子向量F′,所有由不相邻词构成的顺序组合特征构成垃圾特征向量F的子向量T′;
将子向量F′中各个元素属于垃圾类别的概率相乘,所得乘积是子向量F′属于垃圾类别的概率P(F′/c);
按照
Figure FSB00000171536100081
计算具有相同的起点wk的由不相邻词构成的各个顺序组合垃圾特征的均衡垃圾权重值P(Wk/c),按照
Figure FSB00000171536100082
计算子向量T′属于垃圾类别的概率P(T′/c),其中,n是子向量T′中的起点个数;
按照
Figure FSB00000171536100083
计算包含子向量F′的待处理文本属于垃圾类别的概率P(C/F′);
按照
Figure FSB00000171536100084
计算包含子向量T′的待处理文本属于垃圾类别的概率P(C/T′);
其中, log P ( C / F &prime; ) P ( &Not; C / F &prime; ) = log P ( C ) P ( &Not; C ) + &Sigma; i log P ( f i / C ) P ( f i / &Not; C ) ,
log P ( C / T &prime; ) P ( &Not; C / T &prime; ) = log P ( C ) P ( &Not; C ) + &Sigma; i log P ( t i / C ) P ( t i / &Not; C ) ,
P(C)和是根据第二垃圾样本库和第二非垃圾样本库计算得到的垃圾类别最大似然概率和非垃圾类别最大似然概率。
22.如权利要求7所述的方法,其特征在于,所述格式信息包括:文本长度信息、和/或文本中含有联系方式信息、和/或文本中含有生僻字、和/或文本中含有重复字符串信息、和/或文本中含有无意义的回答信息。
23.如权利要求1至10任一权项所述的方法,其特征在于,在提取待处理文本的特征之前,该方法进一步包括:
将待处理文本转化为统一表述方式的预处理步骤。
24.如权利要求23所述的方法,其特征在于,所述预处理步骤包括:
将全角字符和半角字符统一为半角字符或全角字符,将大写字符和小写字符统一为小写字符或大写字符,去除待处理文本中的空格,提取出待处理文本中的广告核心串,和将带有跳转字符的网址处理成正常的网址形式。
25.一种识别垃圾文本的系统,其特征在于,该系统包括垃圾特征库和垃圾文本识别装置;
所述垃圾特征库,存储有赋予了垃圾权重的垃圾特征,存储的垃圾特征包括敏感词,该垃圾特征库中还存储了每个敏感词的正向上下文特征库和负向上下文特征库;
其中,每个敏感词的所述正向上下文特征库,通过统计预先建立的第一垃圾样本训练库中包含该敏感词的垃圾样本,提取包含该敏感词的各个垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到;
每个敏感词的所述负向上下文特征库,通过统计预先建立的第一非垃圾样本训练库中包含该敏感词的非垃圾样本,提取包含该敏感词的各个非垃圾样本中除该敏感词外的其他特征,判断每个所述其他特征在包含该敏感词的所有非垃圾样本中的出现概率是否大于预定值,由出现概率大于预定值的所述其他特征组成得到;
所述垃圾文本识别装置,接收待处理文本,将待处理文本与垃圾特征库中的垃圾特征进行匹配,在匹配到敏感词时,将该敏感词的正向上下文特征库和负向上下文特征库与待处理文本进行匹配,根据匹配到的正向上下文特征和负向上下文特征计算该敏感词的当前垃圾权重,根据匹配到的敏感词的当前垃圾权重判断待处理文本是否是垃圾文本。
26.如权利要求25所述的系统,其特征在于,
所述垃圾特征库,还存储有顺序组合垃圾特征和/或垃圾格式特征。
27.如权利要求25或26所述系统,其特征在于,
所述垃圾文本识别装置进一步用于,在将待处理文本与垃圾特征库中的垃圾特征进行匹配之前,将待处理文本转化为统一表述方式。
CN2009100015773A 2009-01-12 2009-01-12 一种识别垃圾文本的方法和系统 Active CN101477544B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2009100015773A CN101477544B (zh) 2009-01-12 2009-01-12 一种识别垃圾文本的方法和系统
PCT/CN2009/075498 WO2010078792A1 (zh) 2009-01-12 2009-12-11 一种识别垃圾文本的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100015773A CN101477544B (zh) 2009-01-12 2009-01-12 一种识别垃圾文本的方法和系统

Publications (2)

Publication Number Publication Date
CN101477544A CN101477544A (zh) 2009-07-08
CN101477544B true CN101477544B (zh) 2011-09-21

Family

ID=40838260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100015773A Active CN101477544B (zh) 2009-01-12 2009-01-12 一种识别垃圾文本的方法和系统

Country Status (2)

Country Link
CN (1) CN101477544B (zh)
WO (1) WO2010078792A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477544B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN102567304B (zh) * 2010-12-24 2014-02-26 北大方正集团有限公司 一种网络不良信息的过滤方法及装置
CN102147711B (zh) * 2010-12-31 2014-04-02 华为数字技术(成都)有限公司 一种基于数据内容识别的存储方法及装置
CN102279875B (zh) * 2011-06-24 2013-04-24 华为数字技术(成都)有限公司 钓鱼网站的识别方法和装置
CN103389995B (zh) * 2012-05-10 2016-11-23 阿里巴巴集团控股有限公司 一种垃圾内容识别方法及装置
CN102946400B (zh) * 2012-11-29 2016-03-09 广东全通教育股份有限公司 一种基于行为分析的海量短信内容安全过滤方法和系统
CN103902570B (zh) * 2012-12-27 2018-11-09 腾讯科技(深圳)有限公司 一种文本分类特征提取方法、分类方法及装置
CN103092975A (zh) * 2013-01-25 2013-05-08 武汉大学 基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法
CN103116572B (zh) * 2013-02-02 2015-10-21 深圳先进技术研究院 文学作品出品时期识别方法及装置
CN104050191B (zh) * 2013-03-14 2019-04-12 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备
CN103324745B (zh) * 2013-07-04 2017-04-05 微梦创科网络科技(中国)有限公司 基于贝叶斯模型的文本垃圾识别方法和系统
CN103605692A (zh) * 2013-11-04 2014-02-26 北京奇虎科技有限公司 用于问答社区中屏蔽广告内容的装置和方法
CN104699717B (zh) * 2013-12-10 2019-01-18 中国银联股份有限公司 数据挖掘方法
CN103744802B (zh) * 2013-12-20 2017-05-24 北京奇安信科技有限公司 Sql注入攻击的识别方法及装置
CN104750665B (zh) * 2013-12-30 2019-05-14 腾讯科技(深圳)有限公司 文本信息的处理方法和装置
CN103795612B (zh) * 2014-01-15 2017-09-12 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法
CN104866465B (zh) 2014-02-25 2017-11-03 腾讯科技(深圳)有限公司 敏感文本检测方法及装置
CN104866510B (zh) * 2014-02-26 2019-02-19 北京金山安全软件有限公司 残留文件的清除方法、装置及其特征库的建立方法、装置
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN105516941A (zh) * 2014-10-13 2016-04-20 中兴通讯股份有限公司 一种垃圾短信的拦截方法及装置
CN104375983A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 网络上传文件中敏感轨迹的检测系统
CN104375984A (zh) * 2014-11-21 2015-02-25 无锡科思电子科技有限公司 一种检测网络上传文件中敏感轨迹的方法
CN104331396A (zh) * 2014-11-26 2015-02-04 深圳市英威诺科技有限公司 一种智能识别广告的方法
CN105119910A (zh) * 2015-07-23 2015-12-02 浙江大学 基于模板的在线社交网络垃圾信息实时检测方法
CN106445908B (zh) * 2015-08-07 2019-11-15 阿里巴巴集团控股有限公司 文本识别方法和装置
CN106909534A (zh) * 2015-12-23 2017-06-30 中国移动通信集团公司 一种判别文本安全性的方法及装置
CN107180022A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 对象分类方法及装置
CN107688576B (zh) * 2016-08-04 2020-06-16 中国科学院声学研究所 一种cnn-svm模型的构建及倾向性分类方法
CN106446032A (zh) * 2016-08-30 2017-02-22 江苏博智软件科技有限公司 一种垃圾信息的处理方法和装置
CN106535003A (zh) * 2016-09-28 2017-03-22 乐视控股(北京)有限公司 处理弹幕信息的方法、装置及系统
CN111611786B (zh) * 2017-04-07 2023-03-21 创新先进技术有限公司 文本相似度的计算方法及装置
CN107679075B (zh) * 2017-08-25 2020-06-02 北京德塔精要信息技术有限公司 网络监控方法和设备
CN107943941B (zh) * 2017-11-23 2021-10-15 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统
CN108038190A (zh) * 2017-12-11 2018-05-15 杭州有赞科技有限公司 基于多层字典树的敏感词过滤方法及系统
CN110019681B (zh) * 2017-12-19 2022-05-17 阿里巴巴(中国)有限公司 一种评论内容过滤方法及系统
CN110941959B (zh) * 2018-09-21 2023-05-26 阿里巴巴集团控股有限公司 文本违规检测、文本还原方法、数据处理方法及设备
CN109325123B (zh) * 2018-09-29 2020-10-16 武汉斗鱼网络科技有限公司 基于补集特征的贝叶斯文档分类方法、装置、设备及介质
CN109766441B (zh) * 2018-12-28 2021-07-09 奇安信科技集团股份有限公司 文本分类方法、装置及系统
CN110222182B (zh) * 2019-06-06 2022-12-27 腾讯科技(深圳)有限公司 一种语句分类方法及相关设备
CN110472234A (zh) * 2019-07-19 2019-11-19 平安科技(深圳)有限公司 敏感文本识别方法、装置、介质和计算机设备
CN110502624A (zh) * 2019-08-13 2019-11-26 出门问问(武汉)信息科技有限公司 一种对话处理方法及电子设备
CN111581956B (zh) * 2020-04-08 2022-09-13 国家计算机网络与信息安全管理中心 基于bert模型和k近邻的敏感信息识别方法及系统
CN111507350B (zh) * 2020-04-16 2024-01-05 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN111695353B (zh) * 2020-06-12 2023-07-04 百度在线网络技术(北京)有限公司 时效性文本的识别方法、装置、设备及存储介质
CN111783427B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111753539B (zh) * 2020-06-30 2023-12-26 北京搜狗科技发展有限公司 一种识别敏感文本的方法及装置
CN112926301B (zh) * 2020-12-28 2023-02-14 广州坚和网络科技有限公司 基于敏感词库构建的敏感词监控方法及装置
CN115221891B (zh) * 2022-06-16 2023-05-05 深圳市八方通科技开发有限公司 基于上下文语义分析的目标信息检测方法、装置、系统及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627670B2 (en) * 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
CN101304589A (zh) * 2008-04-14 2008-11-12 中国联合通信有限公司 利用短信网关发送垃圾短信的监控与过滤方法及系统
CN101477544B (zh) * 2009-01-12 2011-09-21 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239440A (zh) * 2017-04-21 2017-10-10 同盾科技有限公司 一种垃圾文本识别方法和装置

Also Published As

Publication number Publication date
CN101477544A (zh) 2009-07-08
WO2010078792A1 (zh) 2010-07-15

Similar Documents

Publication Publication Date Title
CN101477544B (zh) 一种识别垃圾文本的方法和系统
CN107239440B (zh) 一种垃圾文本识别方法和装置
Bramsen et al. Extracting social power relationships from natural language
US8335683B2 (en) System for using statistical classifiers for spoken language understanding
US20080249764A1 (en) Smart Sentiment Classifier for Product Reviews
US7412093B2 (en) Hybrid apparatus for recognizing answer type
CN101261623A (zh) 基于搜索的无词边界标记语言的分词方法以及装置
Jauhiainen et al. HeLI-based experiments in Swiss German dialect identification
CN112380349A (zh) 商品性别分类方法、装置及电子设备
KR20150037924A (ko) 제품 인식에 근거한 정보 분류 기법
CN110851590A (zh) 一种通过敏感词检测与非法内容识别进行文本分类的方法
Jarvis Data mining with learner corpora
O’Shea et al. A multi-classifier approach to dialogue act classification using function words
Wahbeh et al. Comparative assessment of the performance of three WEKA text classifiers applied to arabic text
Prasad et al. Influence of lexical, syntactic and structural features and their combination on authorship attribution for Telugu text
Utomo et al. Text classification of british english and American english using support vector machine
CN114925702A (zh) 文本相似度识别方法、装置、电子设备及存储介质
CN110727764A (zh) 一种话术生成方法、装置及话术生成设备
Joo et al. Author profiling on social media: An ensemble learning model using various features
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN109902306B (zh) 一种语音识别方法、装置、存储介质及语音设备
JP3794597B2 (ja) 話題抽出方法及び話題抽出プログラム記録媒体
Alcañiz et al. Profiling Hate Spreaders using word N-grams.
CN115309899A (zh) 一种文本中特定内容识别存储方法及系统
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131021

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.