CN102567304A - 一种网络不良信息的过滤方法及装置 - Google Patents

一种网络不良信息的过滤方法及装置 Download PDF

Info

Publication number
CN102567304A
CN102567304A CN2010106211421A CN201010621142A CN102567304A CN 102567304 A CN102567304 A CN 102567304A CN 2010106211421 A CN2010106211421 A CN 2010106211421A CN 201010621142 A CN201010621142 A CN 201010621142A CN 102567304 A CN102567304 A CN 102567304A
Authority
CN
China
Prior art keywords
filtered
information
model information
text message
user feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106211421A
Other languages
English (en)
Other versions
CN102567304B (zh
Inventor
郑妍
于晓明
杨建武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201010621142.1A priority Critical patent/CN102567304B/zh
Priority to US13/997,666 priority patent/US20140013221A1/en
Priority to PCT/CN2011/084699 priority patent/WO2012083892A1/zh
Priority to EP11850052.9A priority patent/EP2657852A4/en
Priority to JP2013545039A priority patent/JP5744228B2/ja
Publication of CN102567304A publication Critical patent/CN102567304A/zh
Application granted granted Critical
Publication of CN102567304B publication Critical patent/CN102567304B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种网络不良信息的过滤方法以及装置,涉及计算机信息处理及信息过滤技术领域。其中,本发明实施例提供的一种网络不良信息的过滤方法,包括:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。采用本发明实施例能够实现提高不良信息自动过滤性能,且可以实现系统信息自动更新。

Description

一种网络不良信息的过滤方法及装置
技术领域
本发明涉及计算机信息处理及信息过滤技术领域,尤其涉及一种基于统计与规则的网络不良信息的过滤方法及装置。
背景技术
随着互联网的迅速发展,信息传播速度也随之加快。由于互联网上的内容良莠不齐,例如:广告、色情、暴力以及反动为主的不良信息都难以杜绝,并渐渐以更为隐蔽的方式扩散,因此,抑制不良信息的扩散以及净化互联网络空间就显得十分重要。对于互联网中海量的数据信息,如果采用人工的方法去过滤互联网上的不良信息,则需要耗费巨大的人力物力。因此,基于互联网内容的不良信息的自动过滤技术成为近年来研究的热点。
目前,基于互联网内容的不良信息自动过滤技术通常采用如下两种方式:
(1)基于关键字匹配的过滤方法;该方法在判定过程中,采取精确匹配的策略,过滤掉出现关键字的文本。采用该方法过滤互联网内容的不良信息速度快,简单易操作。
(2)基于统计的文本分类模型的过滤方法;该方法中基于统计的不良文本过滤模型本质上是一个两类的文本分类问题,文本分类是自然语言处理领域的研究重点方向,有大量经典模型可供参考。基于统计的文本分类模型从理论角度来看应该是效果不错的方法,但在实际应用中性能却不理想,误判情况十分突出,主要原因分析如下:
(1)正向与负向语料不均衡。其中,正向语料只包含了少量类别,例如:广告、色情、暴力、反动以及用户所关心的不良信息为主。负向语料则包含了大量类别,例如:按照文本内容可划分为:经济、体育、政治、医药、艺术、历史、政治、文化、环境、交通、计算机、教育、军事等等。
(2)不良信息的内容表现具有很大的多变性和隐蔽性。发布者经常有意避开常用词,取而代之,如:同音字,拆分字,非汉字噪音,缩略现象,新词等。
(3)用户词典只提供关键词精确匹配方式,造成判定方法的机械与不灵活。且单一关键词的语义倾向性不具有代表性,误判率高。比如,当“免费”和“发票”同时出现在上下文环境中要比单一的“发票”更具有说服性。
(4)一些传统的中文信息处理做法并不适用于基于文本分类的不良信息过滤。如使用一定规模的禁用词;如特征项只包括双字以上的词汇等。
(5)缺少统一的模型,对包括广告、色情、暴力、反动等不良信息进行综合过滤。
在实现上述基于互联网内容的不良信息自动过滤技术的过程中,发明人发现现有技术中,不良信息自动过滤性能无法满足当前互联网的过滤需求,且无法实现自动更新。
发明内容
本发明实施例提供一种网络不良信息的过滤方法及装置,为达到上述目的,本发明的实施例采用如下技术方案:
一种网络不良信息的过滤方法,包括:
获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
对所述待过滤文本信息进行预处理;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
一种网络不良信息的过滤装置,包括:
信息获取单元,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
预处理单元,用于对所述待过滤文本信息进行预处理;
第一匹配单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
第二匹配单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
过滤单元,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
本发明实施例提供的网络不良信息的过滤方法以及装置,通过获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。由于本发明中采用了两次匹配进行系统过滤,所以系统自动过滤不良信息的准确性较高,从而提高了系统的性能;还由于本发明实施例采用了用户反馈模型信息进行不良信息的过滤,使得用户反馈信息能够及时的应用于系统自动过滤不良信息的过程中,从而实现了系统模型信息自动更新的功能。
附图说明
图1为本发明实施例提供的一种网络不良信息的过滤方法流程图;
图2为本发明实施例提供的另一种网络不良信息的过滤方法流程图;
图3为本发明实施例提供的一种网络不良信息的过滤装置结构示意图;
图4为本发明实施例提供的另一种网络不良信息的过滤装置结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的一种网络不良信息的过滤方法以及装置进行详细描述。
如图1所述,为本发明实施例提供的一种网络不良信息的过滤方法;该方法包括:
101:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
102:对所述待过滤文本信息进行预处理;
103:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
104:将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
105:根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
如图2所述,为本发明实施例提供的另一种网络不良信息的过滤方法,该方法包括:
201:获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。其中,所述用户反馈模型信息的语料可以包括:用户反馈语料和/或被过滤语料。通常所述系统预研模型与所述用户反馈模型的训练语料的选择分为正向语料与负向语料;例如:正向语料的准备的不良信息内容文本的收集可以主要包括:广告、色情、暴力、反动等内容文本,共10000篇;负向语料的准备的非不良信息内容文本的收集主要包含任务主要的文本类别,如经济、政治、体育、文化、医药、交通、环境、军事、文艺、历史、计算机、教育、法律、房产、科技、汽车、人才、娱乐等,共30000篇。
需要说明的是,所述训练语料的收集过程中,经常出现正负语料不均衡;一个类别的语料范围很广,另一个类别语料范围则相对较少。本发明中的解决方案是允许这种不均衡的语料分布,对于语料范围很大的类别的准备策略是求全不求量。
202:获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
203:对所述待过滤文本信息进行预处理;
该步骤具体包括:对所述待过滤文本信息进行切分处理;例如:根据标点和常见词对语料进行断句,常见词是指常用且对判定无意义的词汇,如“的”、“了”等,但“您”较常见于正向语料,“我”较常见于负向语料,不适合作为常用词。
需要注意的是,自然语言处理中常用的禁用词表不适合作为常用词表。通常可采用方正智思分词4.0对语料进行分词及词性标注工作。所述切分处理后的切分单元是后续工作最小的处理单元。
统计所述切分处理后的候选特征项数量。例如:对所述切分处理后的切分单元统计其中非汉字部分数量;如:所述切分单元总数为N1,非汉字部分为N2,若N2/N1大于阈值,则判定此候选特征项所对应的待滤文本信息为不良信息。依据是此信息中含有大量噪音字符,可能是广告等垃圾文本;或者,统计所述切分单元中的网址、电话、邮箱、QQ等联系方式出现数量num(ad),此类信息常用于广告中,并赋予默认权重
Figure BSA00000408375400051
204:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;该步骤具体可以包括:
2041:获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;其中,所述规则索引库中的用户规则索引库和用户关键词索引库的生成过程如下:
步骤S1:关键词解析;所述关键词解析方法为:首先,对常用字的汉语拼音建索引,依据关键词中每个字的汉语拼音索引生成整体关键词的索引;然后,再对关键词中的每个字进行结构上的拆分,依据拆分结果递归重组关键词;最后,将关键词索引及拆分集合形成键值对,保存所有解析结果生成用户关键词索引库。如“法轮功”关键词解析后,会生成一个索引值,且有多种拆分结果,具体可以包括,“三去车仑工力”,“法车仑功”等等。
步骤S2:语法解析;计算机将规则语法解析为能够处理的形式。所述规则语法包括:AND、OR、NEAR、NOT。如“A ANDB”,其中A与B都是待解析的关键词,AND语法表示在上下文环境中,当A与B同时出现时,该条规则匹配成功。对关键词及规则语法形成键值对,保存所有解析结果生成用户规则索引库。
需要注意的是,以上所述索引库规则可以是用户配置的规则,还可以系统预置规则;以上所述步骤是对用户配置规则进行解析生成相应的索引库过程,该索引库可以优化以下匹配过程。
2042:将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;其中,所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;该步骤获取系统预研模型特征项信息的过程具体可以为:
步骤S1,将所述切分单元组成词串作为候选特征项;例如:
(1)对连续的切分单元组合成词串。对于每句中的切分单元,从第1个切分单元开始,组合窗口最大为N,进行组合。如有序切分单元“ABCD”,最大窗口为3,则生成词串的组合共有9种:ABC、BCD、AB、BC、CD、A、B、C、D。
(2)对非连续的切分单元组合成词串。对(1)中的生成的词串计算汉语拼音索引,依据所述2041中的步骤S1生成的用户关键词索引库中进行匹配。若有匹配成功的集合,统计匹配成功数量num(user);然后,再依据所述2041中的步骤S2生成的用户规则索引库中进行匹配,若匹配成功,对于非连续的切分单元生成一个词串。如(1)中9个词串,若在用户关键词索引库中匹配成功两个词串A、D。在用户规则索引库中有规则“A NEAR2 D”,则生成新的特征项AD。这里的2代表A与D的距离不超过2。累加统计匹配成功数量num(user),赋予默认权重
Figure BSA00000408375400061
步骤S2,对所述候选特征项进行频次过滤;具体的讲,就是在训练语料中统计候选特征项的出现次数,以频次作为指标进行过滤,对频次大于等于阈值的候选特征项保留,小于阈值的候选特征项剔除,可以调整阈值对保留的范围进行控制。
步骤S3,对所述候选特征项进行频次再过滤;具体的过滤过程包括:
首先,对不合理的频次进行重新估计,比如,若所有出现B时都是AB的情况,则B的频次变为零。频次重新估计公式为:
Figure BSA00000408375400062
其中,a表示特征项;f(a)表示a的词频;b表示包含了a的长串特征项;
Figure BSA00000408375400063
表示b的集合;
Figure BSA00000408375400064
表示集合大小。
然后,以重新评估后的频次作为指标进行再次过滤,对频次大于等于阈值的候选特征项保留,小于阈值的候选特征项剔除,可以调整阈值,对保留的范围进行控制。
步骤S4:对所述候选特征项进行自动选择,从而提取特征项。具体的讲,就是该步骤将正向语料从所述步骤S3中获取到的候选特征项与负向语料从所述步骤S3中获取的候选特征项进行合并,因此合并后这些候选特征项有两个词频,分别对应正向频次和负向频次。采用统计学的卡方统计量来进行特征项的自动选择,保留卡方值最大的前N个候选特征项作为最终特征项信息。卡方统计量公式为:
Figure BSA00000408375400071
其中A、B、C、D、N的含义如下:
Figure BSA00000408375400072
表中k只取0或1,代表两种类别,即正向类别和负向类别。
需要说明的是,所述特征项包括单字词和多字词。单字词对负向文本的判定影响较大。特别是论坛文本信息的内容,单字的切分单元较常见,如果不考虑单字,对负向文本很容易造成误判。
2043:统计所述特征项的语料信息得分;在步骤S4中已保存了所述特征项的频次,且每个特征项都有两个频次,分别代表正向频次和负向频次,比如,“发票”的正向频次要远远大于负向频次,因为“发票”更常见于广告的不良信息中。将每个特征项的正向频次看作是特征项的正向权重,将每个特征项的负向频次看作是特征项的负向权重。对于所有特征项,分别对正负向权重进行归一化,这样,权重值才有比较意义。归一化的公式为:
score ( w i ) = freq ( w i ) Σfreq ( w i )
由于生成的特征项及其权重是根据系统预先准备的标准两类语料训练得到的,保存生成结果作为系统预研模型特征项信息。
将所述预处理后的待过滤文本信息与所述系统预研模型特征项信息进行特征信息匹配,获得待过滤文本特征项信息,计算所述特征项信息正向得分,其计算公式为:
Figure BSA00000408375400082
计算所述特征项信息负向得分,其计算公式为:
同时,考虑到num(ad)与num(user),上述计算公式右侧变化为:
Figure BSA00000408375400084
2044:根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;若则系统预研模型信息判定此待处理文本为不良文本;若
Figure BSA00000408375400086
则此模型失效,判定失败:若
Figure BSA00000408375400087
则系统预研模型信息判定此待处理文本为正常文本。
2045:根据判断结果,给出所述第一匹配结果。
205:将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;该步骤具体可以包括的流程与步骤204所述流程大致相同。
需要说明的是,所述获取用户反馈模型信息的过程与获取系统预研模型信息的过程主要不同的地方是步骤201中训练语料的选择。所述用户反馈模型信息的训练语料的来源还可以包括如下两方面:
(1)用户反馈机制。用户在实际体验过程中发现判定出现问题的信息,主要是将不良信息判定为正常信息的情况,对系统进行报错,系统接收用户标准答案作为反馈语料。
(2)判定模型机制。待处理文本进入步骤206的不良信息判定流程,输出对该文本的判定结果。结果包括的两种情况,即不良文本或者正常文本。根据判定可信度情况决定待处理文本是否参与反馈训练。
206:根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。具体的讲,就是判断所述第一匹配结果与所述第二匹配结果的判定结果是否一致,即系统预研模型信息与用户反馈模型信息的判定结果。若判定相同,同为不良信息文本或正常信息文本,则判定结果可信度较大,可用于反馈训练;若判定不同,则判定结果可信度有损失,但若采取较为严格的过滤策略,则过滤此文本,但不可用于反馈训练;若其中有一模型失效,则结果依据剩余模型的判定结果,且认为有一定可信度,可用于反馈训练;若两个模型皆失效,则返回失效标志,不可用于反馈训练。
需要注意的是,每完成一个待过滤文本信息的判定过程后,该方法还可以包括:
获取所述用户反馈模型信息的语料数量以及其对应的阈值;具体的讲,就是统计可以用于反馈训练的语料数量,判断所述语料数量是否超出其对应阈值。
根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。若语料数量大于阈值,则对反馈语料进行重新训练,更新用户反馈模型信息。调整阈值的大小,可以调整更新周期。
如图3所示,为本发明实施例提供的一种网络不良信息的过滤装置;该装置包括:
信息获取单元301,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
预处理单元302,用于对所述待过滤文本信息进行预处理;
第一匹配单元303,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
第二匹配单元304,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
过滤单元305,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本进行过滤处理。
如图4所示,为本发明实施例提供的一种网络不良信息的过滤装置;该装置包括:
信息获取单元401,用于获取待过滤文本、系统预研模型信息以及用户反馈模型信息;还用于获取所述用户反馈模型信息的训练语料。其中,所述用户反馈模型信息的语料包括:用户反馈语料和/或被过滤语料。
预处理单元402,用于对所述待过滤文本信息进行预处理;该单元具体包括:
切分子单元4021,用于对所述待过滤文本信息进行切分处理;
统计子单元4022,用于统计所述切分处理后的候选特征项数量。
第一匹配单元403,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;该单元具体可以包括:
信息获取子单元4031,用于获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;其中,所述系统预研模型信息包括:规则索引库和所述系统预研模型特征项信息;
匹配子单元4032,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;
统计子单元4033,用于统计所述特征项的语料信息得分;
判断子单元4034,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元4035,用于根据判断结果,给出所述第一匹配结果。
第二匹配单元404,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;该单元具体可以包括:
信息获取子单元4041,用于获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息;其中,所述用户反馈模型信息包括:规则索引库和所述用户反馈模型特征项信息;
匹配子单元4042,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项;
统计子单元4043,用于统计所述特征项的语料信息得分;
判断子单元4044,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元4045,用于根据判断结果,给出所述第二匹配结果。
过滤单元405,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
需要注意的是,该装置还包括:
阈值获取单元406,用于获取所述用户反馈模型信息的语料数量以及其对应的阈值;
更新单元407,用于根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。当所述阈值获取单元获取到的用户反馈模型信息的语料数量达到其对应的阈值时,所述更新单元根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
本发明实施例提供的网络不良信息的过滤方法以及装置,通过获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;对所述待过滤文本信息进行预处理;将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。由于本发明中采用了两次匹配进行系统过滤,所以系统自动过滤不良信息的准确性较高,从而提高了系统的性能;还由于本发明实施例采用了用户反馈模型信息进行不良信息的过滤,使得用户反馈信息能够及时的应用于系统自动过滤不良信息的过程中,从而实现了系统的匹配信息自动更新的功能。
通过以上的实施方式的描述,本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如上述方法实施例的步骤,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (16)

1.一种网络不良信息的过滤方法,其特征在于,包括:
获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
对所述待过滤文本信息进行预处理;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
2.根据权利要求1所述的网络不良信息的过滤方法,其特征在于,该方法还包括:
获取所述系统预研模型信息的语料与所述用户反馈模型信息的语料。
3.根据权利要求2所述的网络不良信息的过滤方法,其特征在于,所述用户反馈模型信息的语料包括:用户反馈语料和/或被过滤语料。
4.根据权利要求3所述的网络不良信息的过滤方法,其特征在于,该方法还包括:
获取所述用户反馈模型信息的语料数量以及其对应的阈值;
根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
5.根据权利要求2或3或4所述的网络不良信息的过滤方法,其特征在于,所述对所述待过滤文本信息进行预处理的步骤,包括:
对所述待过滤文本信息进行切分处理;
统计所述切分处理后的候选特征项数量。
6.根据权利要求5所述的网络不良信息的过滤方法,其特征在于,所述将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果步骤,包括:
获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;
将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;
统计所述特征项的语料信息得分;
根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
根据判断结果,给出所述第一匹配结果。
7.根据权利要求6所述的网络不良信息的过滤方法,其特征在于,所述将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果步骤,包括:
获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息;
将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项;
统计所述特征项的语料信息得分;
根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
根据判断结果,给出所述第二匹配结果。
8.根据权利要求6或7所述的网络不良信息的过滤方法,其特征在于,所述系统预研模型信息包括:规则索引库和系统预研模型特征项信息;所述用户反馈模型信息包括:规则索引库和用户反馈模型特征项信息。
9.根据权利要求8所述的网络不良信息的过滤方法,其特征在于,所述系统预研模型信息的规则索引库包括:系统预置规则;所述用户反馈模型信息的规则索引库包括:用户配置规则。
10.一种网络不良信息的过滤装置,其特征在于,包括:
信息获取单元,用于获取待过滤文本信息、系统预研模型信息以及用户反馈模型信息;
预处理单元,用于对所述待过滤文本信息进行预处理;
第一匹配单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行特征信息匹配,给出第一匹配结果;
第二匹配单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行特征信息匹配,给出第二匹配结果;
过滤单元,用于根据所述第一匹配结果与所述第二匹配结果,对所述待过滤文本信息进行过滤处理。
11.根据权利要求10所述的网络不良信息的过滤装置,其特征在于,所述信息获取单元,还用于获取所述用户反馈模型信息的语料。
12.根据权利要求11所述的网络不良信息的过滤装置,其特征在于,所述用户反馈模型信息的语料包括:用户反馈语料和/或被过滤语料。
13.根据权利要求12所述的网络不良信息的过滤装置,其特征在于,该方装置还包括:
阈值获取单元,用于获取所述用户反馈模型信息的语料数量以及其对应的阈值;
更新单元,用于根据所述用户反馈模型信息的语料数量以及其对应的阈值,对所述用户反馈模型信息进行更新。
14.根据权利要求11或12或13所述的网络不良信息的过滤装置,其特征在于,所述预处理单元,包括:
切分子单元,用于对所述待过滤文本信息进行切分处理;
统计子单元,用于统计所述切分处理后的候选特征项数量。
15.根据权利要求14所述的网络不良信息的过滤装置,其特征在于,所述第一匹配单元,包括:
信息获取子单元,用于获取所述预处理后的待过滤文本信息以及所述系统预研模型信息;
匹配子单元,用于将所述预处理后的待过滤文本信息与所述系统预研模型信息进行匹配,获取特征项;
统计子单元,用于统计所述特征项的语料信息得分;
判断子单元,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元,用于根据判断结果,给出所述第一匹配结果。
16.根据权利要求15所述的网络不良信息的过滤装置,其特征在于,所述第二匹配单元,包括:
信息获取子单元,用于获取所述预处理后的待过滤文本信息以及所述用户反馈模型信息;
匹配子单元,用于将所述预处理后的待过滤文本信息与所述用户反馈模型信息进行匹配,获取特征项;
统计子单元,用于统计所述特征项的语料信息得分;
判断子单元,用于根据所述语料信息得分,判断所述特征项所对应的待过滤文本信息是否为不良信息;
结果输出子单元,用于根据判断结果,给出所述第二匹配结果。
CN201010621142.1A 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置 Expired - Fee Related CN102567304B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201010621142.1A CN102567304B (zh) 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置
US13/997,666 US20140013221A1 (en) 2010-12-24 2011-12-26 Method and device for filtering harmful information
PCT/CN2011/084699 WO2012083892A1 (zh) 2010-12-24 2011-12-26 一种网络不良信息的过滤方法及装置
EP11850052.9A EP2657852A4 (en) 2010-12-24 2011-12-26 METHOD AND DEVICE FOR FILTERING HARMFUL INFORMATION
JP2013545039A JP5744228B2 (ja) 2010-12-24 2011-12-26 インターネットにおける有害情報の遮断方法と装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010621142.1A CN102567304B (zh) 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置

Publications (2)

Publication Number Publication Date
CN102567304A true CN102567304A (zh) 2012-07-11
CN102567304B CN102567304B (zh) 2014-02-26

Family

ID=46313198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010621142.1A Expired - Fee Related CN102567304B (zh) 2010-12-24 2010-12-24 一种网络不良信息的过滤方法及装置

Country Status (5)

Country Link
US (1) US20140013221A1 (zh)
EP (1) EP2657852A4 (zh)
JP (1) JP5744228B2 (zh)
CN (1) CN102567304B (zh)
WO (1) WO2012083892A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
CN103729384A (zh) * 2012-10-16 2014-04-16 中国移动通信集团公司 信息过滤方法、系统与装置
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、系统

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514227B (zh) * 2012-06-29 2016-12-21 阿里巴巴集团控股有限公司 一种更新数据库的方法及装置
KR20140025113A (ko) * 2012-08-21 2014-03-04 한국전자통신연구원 유해 컨텐츠 고속 판단 장치 및 방법
US9773182B1 (en) 2012-09-13 2017-09-26 Amazon Technologies, Inc. Document data classification using a noise-to-content ratio
CN103886026B (zh) * 2014-02-25 2017-09-05 厦门客来点信息科技有限公司 基于个体特征的服装匹配方法
CN104281696B (zh) * 2014-10-16 2017-09-15 江西师范大学 一种主动的空间信息个性化分发方法
CN105183894B (zh) * 2015-09-29 2020-03-10 百度在线网络技术(北京)有限公司 过滤网站内链的方法及装置
CN105528404A (zh) * 2015-12-03 2016-04-27 北京锐安科技有限公司 种子关键字字典建立方法和装置及关键词提取方法和装置
CN106874253A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 识别敏感信息的方法及装置
US10498752B2 (en) 2016-03-28 2019-12-03 Cisco Technology, Inc. Adaptive capture of packet traces based on user feedback learning
CN106339429A (zh) * 2016-08-17 2017-01-18 浪潮电子信息产业股份有限公司 一种实现智能客服的方法、装置和系统
CN108038245A (zh) * 2017-12-28 2018-05-15 中译语通科技(青岛)有限公司 一种基于多语言的数据挖掘方法
CN109597987A (zh) * 2018-10-25 2019-04-09 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN110633466B (zh) * 2019-08-26 2021-01-19 深圳安巽科技有限公司 基于语义分析的短信犯罪识别方法、系统和可读存储介质
CN112749565A (zh) * 2019-10-31 2021-05-04 华为终端有限公司 基于人工智能的语义识别方法、装置和语义识别设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US20040167964A1 (en) * 2003-02-25 2004-08-26 Rounthwaite Robert L. Adaptive junk message filtering system
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN101908055A (zh) * 2010-03-05 2010-12-08 黑龙江工程学院 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867799A (en) * 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
AU2000233633A1 (en) * 2000-02-15 2001-08-27 Thinalike, Inc. Neural network system and method for controlling information output based on user feedback
US7543053B2 (en) * 2003-03-03 2009-06-02 Microsoft Corporation Intelligent quarantining for spam prevention
US7813482B2 (en) * 2005-12-12 2010-10-12 International Business Machines Corporation Internet telephone voice mail management
US7827125B1 (en) * 2006-06-01 2010-11-02 Trovix, Inc. Learning based on feedback for contextual personalized information retrieval
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US20100205123A1 (en) * 2006-08-10 2010-08-12 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
CN101166159B (zh) * 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
KR100815530B1 (ko) * 2007-07-20 2008-04-15 (주)올라웍스 유해성 컨텐츠 필터링 방법 및 시스템
US8965888B2 (en) * 2007-10-08 2015-02-24 Sony Computer Entertainment America Llc Evaluating appropriateness of content
JP5032286B2 (ja) * 2007-12-10 2012-09-26 株式会社ジャストシステム フィルタリング処理方法、フィルタリング処理プログラムおよびフィルタリング装置
EP2071339A3 (en) * 2007-12-12 2015-05-20 Sysmex Corporation System for providing animal test information and method of providing animal test information
US8850571B2 (en) * 2008-11-03 2014-09-30 Fireeye, Inc. Systems and methods for detecting malicious network content
US20140108156A1 (en) * 2009-04-02 2014-04-17 Talk3, Inc. Methods and systems for extracting and managing latent social networks for use in commercial activities
US8849725B2 (en) * 2009-08-10 2014-09-30 Yahoo! Inc. Automatic classification of segmented portions of web pages
CN101702167A (zh) * 2009-11-03 2010-05-05 上海第二工业大学 一种基于互联网的模板抽取属性和评论词的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US20040167964A1 (en) * 2003-02-25 2004-08-26 Rounthwaite Robert L. Adaptive junk message filtering system
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101639824A (zh) * 2009-08-27 2010-02-03 北京理工大学 一种针对不良信息的基于情感倾向性分析的文本过滤方法
CN101794303A (zh) * 2010-02-11 2010-08-04 重庆邮电大学 采用特征扩展分类文本及构造文本分类器的方法和装置
CN101908055A (zh) * 2010-03-05 2010-12-08 黑龙江工程学院 一种优化lam%的信息分类阈值的设定方法及使用该方法的信息过滤系统
CN101877704A (zh) * 2010-06-02 2010-11-03 中兴通讯股份有限公司 一种进行网络访问控制的方法及服务网关
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马建国 等: "信息过滤技术及Visual J++实现", 《系统工程与电子技术》, vol. 26, no. 3, 31 March 2004 (2004-03-31), pages 382 - 385 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729384A (zh) * 2012-10-16 2014-04-16 中国移动通信集团公司 信息过滤方法、系统与装置
CN103729384B (zh) * 2012-10-16 2017-02-22 中国移动通信集团公司 信息过滤方法、系统与装置
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
CN105653649A (zh) * 2015-12-28 2016-06-08 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN105653649B (zh) * 2015-12-28 2019-05-21 福建亿榕信息技术有限公司 海量文本中低占比信息识别方法及装置
CN107239447A (zh) * 2017-06-05 2017-10-10 厦门美柚信息科技有限公司 垃圾信息识别方法及装置、系统
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、系统

Also Published As

Publication number Publication date
JP2014502754A (ja) 2014-02-03
CN102567304B (zh) 2014-02-26
US20140013221A1 (en) 2014-01-09
EP2657852A1 (en) 2013-10-30
JP5744228B2 (ja) 2015-07-08
EP2657852A4 (en) 2014-08-20
WO2012083892A1 (zh) 2012-06-28

Similar Documents

Publication Publication Date Title
CN102567304B (zh) 一种网络不良信息的过滤方法及装置
CN106598944B (zh) 一种民航安保舆情情感分析方法
Dey et al. Opinion mining from noisy text data
Hidayatullah et al. Pre-processing tasks in Indonesian Twitter messages
US10496749B2 (en) Unified semantics-focused language processing and zero base knowledge building system
Danisman et al. Feeler: Emotion classification of text using vector space model
US20170286867A1 (en) Methods to determine likelihood of social media account deletion
WO2019236360A1 (en) Taxonomy enrichment using ensemble classifiers
CN101599071A (zh) 对话文本主题的自动提取方法
Sharma et al. NIRMAL: Automatic identification of software relevant tweets leveraging language model
CN107463703A (zh) 基于信息增益的英文社交媒体账号分类方法
CN103473380A (zh) 一种计算机文本情感分类方法
CN105183765A (zh) 一种基于大数据的话题抽取方法
Setiawan et al. Feature expansion for sentiment analysis in twitter
CN102779119B (zh) 一种抽取关键词的方法及装置
Samonte et al. Sentence-level sarcasm detection in English and Filipino tweets
Tayal et al. Fast retrieval approach of sentimental analysis with implementation of bloom filter on Hadoop
CN104794209A (zh) 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统
Campbell et al. Content+ context networks for user classification in twitter
Banados et al. Optimizing support vector machine in classifying sentiments on product brands from Twitter
Morchid et al. An author-topic based approach to cluster tweets and mine their location
Buntoro Sentiment Analysis to Prediction DKI Jakarta Governor 2017 on Indonesian Twitter
Terko et al. Neurips conference papers classification based on topic modeling
KR101240330B1 (ko) 다차원 문서 분류 시스템 및 방법
Kumar et al. A comparative analysis of sarcasm detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220620

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140226