CN102024045B - 信息分类处理方法、装置和终端 - Google Patents

信息分类处理方法、装置和终端 Download PDF

Info

Publication number
CN102024045B
CN102024045B CN2010105879939A CN201010587993A CN102024045B CN 102024045 B CN102024045 B CN 102024045B CN 2010105879939 A CN2010105879939 A CN 2010105879939A CN 201010587993 A CN201010587993 A CN 201010587993A CN 102024045 B CN102024045 B CN 102024045B
Authority
CN
China
Prior art keywords
information
bayes
participle
sample
training result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010105879939A
Other languages
English (en)
Other versions
CN102024045A (zh
Inventor
王鹏
靳伟
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2010105879939A priority Critical patent/CN102024045B/zh
Publication of CN102024045A publication Critical patent/CN102024045A/zh
Application granted granted Critical
Publication of CN102024045B publication Critical patent/CN102024045B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息分类处理方法、装置和终端,该方法包括:将接收到的待分类信息进行分词处理,获得待分类信息的分词结果;根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类信息进行分类;所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。本发明实施例,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,该动态更新的贝叶斯训练结果很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。

Description

信息分类处理方法、装置和终端
技术领域
本发明涉及通信技术领域,尤其涉及一种信息分类处理方法、装置和终端。 
背景技术
垃圾短信日益成为困扰通信运营商和手机用户的问题。中国互联网协会发布的调查结果称,我国手机用户平均每周收到8.29条垃圾短信。目前,我国的手机用户数已达6亿,根据上述调查结果可知,全国用户每天收到的垃圾短信可达7亿条以上。这些垃圾短信不仅带来了通信网络压力,给用户带来了困扰,同时也带来了巨大的不良社会影响和潜在社会问题。 
以往的垃圾短信过滤方法大多在网络侧实现,通过与网关相连的服务器或利用网关服务器实现垃圾短信过滤。但是在网络侧进行的垃圾短信过滤方法,没有考虑到单个用户对垃圾短信认定的差异性,而过分强调了垃圾短信的全网特征。 
由此,现有技术提供了在终端侧实现的垃圾短信过滤方法,该方法采用“黑白名单”+“黑白关键词”+“关键词加权控制”,其具体过程如下: 
步骤1、判断发送方是否属于用户定义的黑名单或白名单;若属于黑名单,则判定为垃圾短信;若属于白名单,则判定为合法短信;若不属于黑名单和白名单,则执行步骤2; 
步骤2、判断短信内容是否包含用户定义的黑关键词或白关键词;若包含黑关键词,则判定为垃圾短信;若包含白关键词,则判定为合法短信;若不包含黑关键词和白关键词,则执行步骤3; 
步骤3、从短信内容中挑选出存在于数据库中的垃圾关键词,根据数据库中对各垃圾关键词标注的权重分,计算该短信的垃圾度,并根据该垃圾度判断该短信是否为垃圾短信。
现有技术中至少存在如下问题: 
1、对于不断出现的垃圾短信发送方和垃圾短信新类型,用户需要不断增加黑白名单和黑白关键词;由此,黑白关键词以及黑白名单的过滤效果取决于用户的添加意愿和添加频频率;并且,用户不可能定义出所有垃圾短信发送方和所有黑关键词,随着过滤效果的降低,用户自定义的意愿和频率都会逐渐降低,最终使这两种过滤手段失去原有的作用,因此过滤效果不佳,也就是对短信进行分类的准确性较差。 
2、在计算短信的垃圾度的过程中,所使用的包括垃圾关键词的数据库,是由服务器根据全网垃圾短信样本统计出的结果,没有考虑到单个用户对垃圾短信认定的差异性,可能会导致对某些短信的分类产生误判。 
发明内容
本发明实施例提供一种信息分类处理方法、装置和终端,用以提高信息分类的准确性。 
本发明实施例提供一种信息分类处理方法,包括: 
将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果; 
根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类; 
所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果; 
所述根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类,包括: 
查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶斯训练结果的交集中的交集分词和所述交集分词的后验概率; 
根据所述交集分词的所述后验概率计算所述待分类信息的联合概率; 
若所述联合概率大于预设阈值,则所述待分类信息为第一分类信息,否则所述待分类信息为第二分类信息。 
本发明实施例提供一种信息分类处理装置,包括: 
分词获取模块,用于将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果; 
附图说明
过滤模块,用于根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类; 
所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果; 
所述过滤模块包括: 
查询单元,用于查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶斯训练结果的交集中的交集分词和所述交集分词 的后验概率; 
第一计算单元,用于根据所述交集分词的所述后验概率计算所述待分类信息的联合概率; 
判断单元,用于若所述联合概率大于预设阈值,则判断所述待分类信息为第一分类信息,否则判断所述待分类信息为第二分类信息。 
本发明实施例还提供了一种终端,该终端包括本发明实施例提供的任一信息分类处理装置。 
本发明实施例的信息分类处理方法、装置和终端,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明信息分类处理方法实施例一的流程图; 
图2为本发明信息分类处理方法实施例二的流程图; 
图3为本发明信息分类处理方法实施例三的流程图; 
图4为本发明信息分类处理方法实施例四的流程图; 
图5为本发明信息分类处理装置实施例一的结构图; 
图6为本发明信息分类处理装置实施例二的结构图。 
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
需要说明的是,本发明部分实施例是以手机短信为例,这只是为了方便说明,本领域技术人员应该知道,但本发明实施例同样适用于其他情况下的信息接收,例如电子邮件分类、寻呼机信息分类、基于internet的即时通讯软件(例如MSN、QQ)的信息分类等。 
图1为本发明信息分类处理方法实施例一的流程图,如图1所示,该方法包括: 
步骤101、将接收到的待分类信息进行分词处理,获得待分类信息的分词结果。 
本发明实施例可以应用于各种需要对信息文本进行分类的嵌入式操作系统中,例如:手机终端需要将接收到的短信进行分类,分为垃圾短信和合法短信,以实现对垃圾短信的过滤。 
当使用嵌入式操作系统的终端接收到待分类信息后,根据终端上存储的词典,将该信息进行分词处理,得到该信息的分词结果。 
步骤102、根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类信息进行分类;该动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。 
查询当前的贝叶斯训练结果,得到步骤101中获得的分词结果中存在于该贝叶斯训练结果中的各个词语的贝叶斯后验概率,根据这些词语的贝叶斯后验概率计算该信息的联合概率;若联合概率大于阈值,则该信息为第一分类信息,否则该信息为第二分类信息。其中,在手机终端对短信进行过滤的过程中,第一分类信息可以为垃圾短信,第二分类信息可以为合法短信。 
其中,贝叶斯训练结果包括:信息样本库的所有词语中贝叶斯后验概率 最高的N个词语及其贝叶斯后验概率,N为预设的一自然数。 
为了能够满足个体用户对分类的差异性需求,本发明各实施例中的信息样本库随着用户收发信息而不断动态更新。信息样本库中包括有多个信息样本,信息样本包括:信息的样本类型、信息的信息内容和信息的分词结果;其中信息的样本类型包括第一分类信息样本和第二分类信息样本。当用户收发的信息中,出现一个具有新的信息样本的信息时,就可以将该新的信息样本添加到信息样本库中,以更新信息样本库。其中出现一个新的信息样本的情况包括:一、终端中出现一新信息,例如用户使用手机发送出一新短信或接收到一短信;二、终端中原有的信息样本的样本类型发生改变,例如在手机终端中从垃圾箱转入收件箱一短信,则该短信的样本类型由垃圾短信样本转变为合法短信样本,从收件箱转入垃圾箱一短信,则该短信的样本类型由合法短信样本转变为垃圾短信样本。 
当信息样本库更新后,根据更新后的信息样本库进行增量贝叶斯自学习,得到新的贝叶斯训练结果,以供下一次对接收到的待分类信息进行分类。 
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
图2为本发明信息分类处理方法实施例二的流程图,在本发明方法实施例一的基础上,如图2所示,该方法包括: 
步骤201、将接收到的待分类信息进行分词处理,获得待分类信息的分词结果。 
本发明以下各实施例以手机终端对接收到的短信进行分类为例进行说明,手机终端将接收到的短信分类为垃圾短信和合法短信,实现了对垃圾短信的过滤;其中本实施例中的待分类信息可以为手机终端接收到的待过滤短 信,第一分类信息可以为垃圾短信,第二分类信息可以为合法短信。 
当手机终端接收到短信后,根据手机终端上存储的词典,将该短信进行分词处理,得到该短信的分词结果。 
步骤202、查询动态更新的贝叶斯训练结果,获得待分类信息的分词结果与动态更新的贝叶斯训练结果的交集中的交集分词和该交集分词的后验概率。后验概率为包含一词的信息为第一分类信息的概率。 
可以采用下式计算一词语的后验概率Pi。 
Pi = NSi / NS NSi / NS + NLi / NL
其中,后验概率Pi可以包括第一后验概率和第二后验概率。当NS和NL分别为垃圾短信样本总数和合法短信样本总数,NSi和NLi分别为包含该词语的垃圾短信样本数和包含该词语的合法短信样本数时,该后验概率Pi为第一后验概率;当NS和NL分别为垃圾短信样本总词数和合法短信样本总词数,NSi和NLi分别为该词语在垃圾短信样本中出现的总次数和该词语在合法短信样本中出现的总次数时,后验概率Pi为第二后验概率。本发明各实施例中所述的后验概率可以是第一后验概率,也可以是第二后验概率。 
步骤203、根据交集分词的后验概率计算待分类信息的联合概率;若该联合概率大于预设阈值,则判断待分类信息为第一分类信息,否则判断待分类信息为第二分类信息。 
根据贝叶斯原理,可以采用下式计算待过滤短信的联合概率: 
P = P 1 * P 2 * . . . * Pm P 1 * P 2 * . . . * Pm + ( 1 - P 1 ) * ( 1 - P 2 ) * . . . * ( 1 - Pm )
其中,P1、P2、...、Pm为该短信中存在于贝叶斯训练结果中的各个词语的后验概率。如果联合概率P大于预先设定的阈值则将该短信判定为垃圾短信,否则将该短信判定为合法短信。 
步骤204、获取新增信息,将新增信息对应的新增信息样本添加到信息样本库中,以更新信息样本库;信息样本包括:信息的样本类型、信息内容 和分词结果。 
当步骤203中对待过滤的短信进行过滤后,即获得了一新增短信,根据过滤结果可以获知该新增短信的样本类型,然后将该新增短信对应的新增短信样本添加到短信样本库中。短信样本库中存储的短信样本包括短信的短信内容和分词结果,本发明实施例中采用的短信内容和分词结果关联存储的方法,可以在保留短信内容的同时,保存其分词结果,可以在后续过程中用于贝叶斯增量自学习,而无需每次自学习都对所有样本重新进行分词,减少了计算的过程。 
其中,为了合理的利用存储空间,短信样本存储的个数可以有限制,例如垃圾短信样本最多存储S条,合法短信样本最多存储T条,存满后循环更新,剔除最旧的短信样本。 
本实施例中的获取新增信息的方式可以是:获取存储在使用嵌入式操作系统的终端上,新增的且已确认样本类型的信息;或者获取存储在使用嵌入式操作系统的终端上,样本类型改变的信息。其中,存储在使用嵌入式操作系统的终端上,新增的且已确认样本类型的信息例如可以为:手机终端新接收到的、已经过过滤的短信,手机终端新发送的短信,草稿箱中新增的短信或者私人文件夹中新增的短信;其中,根据过滤结果可以获知新接收到的短信的样本类型,手机终端新发送的短信、草稿箱中新增的短信和私人文件夹中新增的短信的样本类型为合法短信样本。存储在嵌入式操作系统终端上,样本类型改变的信息例如可以为:从垃圾箱转入收件箱的短信,或者从收件箱转入垃圾箱的短信;从垃圾箱转入收件箱的短信的样本类型为合法短信样本,从收件箱转入垃圾箱的短信的样本类型为垃圾短信样本。需要说明的是,本发明实施例并不限制新增信息的来源,只要该新增信息是存储在终端上,并且能代表用户自身特点的信息都可以作为本发明实施例中的新增信息。 
当通过上述方式获取到了新增短信后,同样进行上述步骤204的操作,以更新短信样本库。 
步骤205、根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量自学习,以获得动态更新的贝叶斯训练结果。 
贝叶斯自学习就是计算出所有样本中所有词语的后验概率,并从计算结果中挑出后验概率最高的N个词组成集合,也即组成贝叶斯训练结果。 
具体的步骤205可以包括,依次对新增信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作;更新贝叶斯训练结果的操作包括:根据信息样本库,计算第一分词的后验概率;若第一分词的后验概率大于贝叶斯训练结果中最小的后验概率,则将第一分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验概率对应的分词,然后检查是否对所有的第一分词都已操作完毕,是则结束,否则对下一个第一分词进行更新贝叶斯训练结果的操作;若第一分词的后验概率小于或等于贝叶斯训练结果中最小的后验概率,则检查是否对所有的第一分词都已操作完毕,是则结束,否则对下一个第一分词进行更新贝叶斯训练结果的操作。其中,第一分词为新增信息样本的分词结果中包括的分词。 
在新增短信样本时,如果短信样本库中存储的短信样本的个数已达最大个数时,需要删除最旧的一条短信样本。在后验概率为第一后验概率的情况下,当删除最旧的一条短信样本后,步骤205中依次对新增短信样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作之前还包括:从新增短信样本的分词结果中,剔除与已删除的短信样本的分词结果相同的分词;其中并不在短信样本库中删除该相同的分词,而仅将删除后的结果用于更新贝叶斯训练结果。在新增短信样本的分词结果中包含有与已删除的短信样本的分词结果相同的分词,由于包含该分词的短信样本分别增加了一条(新增短信样本)和删除了一条(最旧的一条短信样本),所以该分词的第一后验概率不变,就不需要再计算该分词的第一后验概率。 
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行 增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
图3为本发明信息分类处理方法实施例三的流程图。本实施例在本发明方法实施例二的基础上,除了获取到新增信息时对信息样本库进行动态更新以外,还可以在用于对信息进行分词处理的词典升级为更新词典后,根据更新词典对原有的信息样本库进行更新,然后根据贝叶斯原理对更新后的信息样本库进行自学习,也就是根据贝叶斯原理对信息样本库中的所有信息样本进行全样本增量自学习,以获得动态更新的贝叶斯训练结果。本实施例的方法除了包括图2所示的方法流程(图3中未示出)以外,如图3所示,本实施例的方法还可以包括: 
步骤301、接收到网络侧发送过来的增量词典后,将用于对信息进行分词处理的词典升级为更新词典。该更新词典包括增量词典和基本词典;增量词典包括该更新词典比原有的基本词典增加的分词。 
终端侧原有的用于对信息进行分词处理的词典为基本词典,终端侧可以接收到网络侧推送的增量词典,根据该增量词典可以将基本词典升级为更新词典,即形成新的基本词典。 
步骤302、根据增量词典和信息样本的信息内容,更新信息样本的分词结果,以更新信息样本库。 
由于新增了增量词典,需要更新原有的信息样本的分词结果。若根据更新词典对所有的信息样本重新进行分词,则需要进行大量的运算,由此所需的系统资源也较大。本发明实施例为了提高运算效率并且节省系统资源,根据增量词典,对所有信息样本原有的分词结果进行增量更新,具体可以为:将一信息样本的信息内容中命中增量词典中的分词,根据现有的分词规则判断是否将上述命中的分词添加至该信息样本的原分词结果中;若不将该分词添加至该信息样本的原分词结果中,则丢弃该分词,并保持原分词结果不变; 若将该分词添加至该信息样本的原分词结果中,则将原分词结果中组成该分词的词语删除,例如:信息样本A的原分词结果中包含分词“贝叶斯”、“算法”,新增的增量词典中包含分词“贝叶斯算法”,当根据现有的分词规则需要将“贝叶斯算法”该分词添加到信息样本A的分词结果中时,就需要将原分词“贝叶斯”和“算法”删除。 
当根据增量词典对所有信息样本原有的分词结果进行增量更新后,信息样本库得到了更新,然后将增量词典与基础词典合并,形成新的基础词典,用于对下一个待分类信息进行分词处理。 
步骤303、重新计算每个第二分词的后验概率;该第二分词为更新所有信息样本的分词结果时,分词结果中数量减少的分词。 
在根据增量词典对信息样本原有的分词结果进行增量更新的过程中,当将增量词典中的一分词添加至信息样本的原分词结果中时,原分词结果中组成该分词的词语相应的被删除,由此这些被删除的词语在所有的分词结果中的数量减少,使得这些被删除的词语的后验概率发生变化,所以需要重新计算这些词语的后验概率,以更新可能包含在贝叶斯训练结果中的这些词语的后验概率。 
步骤304、依次对每个第三分词进行更新贝叶斯训练结果的操作;该更新贝叶斯训练结果的操作包括:根据信息样本库,计算第三分词的后验概率;若第三分词的后验概率大于贝叶斯训练结果中最小的后验概率,则将第三分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验概率对应的分词,然后检查是否对所有的第三分词都已操作完毕,是则结束,否则对下一个第三分词进行更新贝叶斯训练结果的操作;若第三分词的后验概率小于或等于贝叶斯训练结果中最小的后验概率,则检查是否对所有的第三分词都已操作完毕,是则结束,否则对下一个第三分词进行更新贝叶斯训练结果的操作。其中,第三分词为增量词典中包括的分词。 
进一步的,为了更加准确的使用动态更新的贝叶斯训练结果对待分类短 信进行过滤,在本实施例中,贝叶斯训练结果可以包括第一训练结果和第二训练结果两部分;其中,贝叶斯训练结果中包括有N个词语,第一训练结果为该贝叶斯训练结果中后验概率最高的N1个词语,第二训练结果为该贝叶斯训练结果中剩余的N2个词语,N1+N2=N。在步骤304中更新贝叶斯训练结果的操作中,将第三分词的后验概率与贝叶斯训练结果中最小的后验概率(也就是第二训练结果中最小的后验概率)进行比较,而在对待分类短信进行过滤时,只使用第一训练结果对短信进行过滤,由此可以保证第一训练结果中包括的词语始终是后验概率最高的N1个词语。 
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
本发明方法实施例三中,介绍了在词典进行更新后,根据更新的词典更新信息样本库并进而更新贝叶斯训练结果的方案。然而,在词典进行更新后,可以如方法实施例三中所述的方法即时更新贝叶斯训练结果,也可以暂时先不更新贝叶斯训练结果,直到获取到下一个新增信息样本需要对该新增信息样本进行单样本增量自学习时,先根据更新的词典更新贝叶斯训练结果,然后再对该新增信息样本进行单样本增量自学习。 
图4为本发明信息分类处理方法实施例四的流程图,本实施例的应用场景为:在词典更新后,暂时先不更新贝叶斯训练结果,而是在获取新增信息后,更新贝叶斯训练结果;在本发明方法实施例二的基础上,如图4所示,该方法可以还包括以下更新贝叶斯训练结果的方法: 
步骤401、在获取新增信息,并将新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识词典升级版本的第一版本号和用于标识信息样本库更新版本的第二版本号。 
本发明各实施例中采用“基本词典”+“增量词典”构成“双词典”进行分词。增量词典仅存放添加的新词汇,当终端侧接收到一增量词典后,就改变一次词典的第一版本号,例如将第一版本号加1。信息样本库具有第二版本号。原始状态中词典的第一版本号与信息样本库的第二版本号相一致,当更新过词典后,词典的第一版本号改变,当根据更新后的词典对信息样本库进行过增量更新后,信息样本库的第二版本号也做相应的改变,使得第二版本号与第一版本号相一致。所以经判断获知词典的第一版本号与信息样本库的第二版本号不一致时,说明此时词典已更新,但是还未根据更新后的词典更新贝叶斯训练结果;若判断获知词典的第一版本号与信息样本库的第二版本号相一致时,则说明此时的信息样本库是由现在最新的词典进行过增量更新后的。 
步骤402、判断第一版本号与第二版本号是否一致;若第一版本号与第二版本号相一致,则执行步骤403;若第一版本号与第二版本号不一致,则执行步骤404。 
步骤403、根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量自学习,以获得动态更新的贝叶斯训练结果,然后结束。 
步骤404、根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本增量自学习。 
步骤405、根据贝叶斯原理,在进行过全样本增量自学习后的信息样本库中,对新增信息样本进行单样本增量自学习,以获得动态更新的贝叶斯训练结果。 
其中,在步骤405中,在依次对新增信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作之前还包括:从新增信息样本的分词结果中,剔除与第二分词和第三分词相同的分词。这是由于在步骤403中,已经对第二分词和第三分词进行过更新贝叶斯训练结果的操作,此处就可不再对第二分词和第三分词进行更新贝叶斯训练结果的操作;其中,此处剔除与第二分词和第三分词相同的分词,并不是在信息样本库中删除与第二分词和第 三分词相同的分词,而仅将剔除后的结果用于更新贝叶斯训练结果。其中,对新增信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作参见图2所示实施例步骤205中的描述。 
步骤402到步骤404的具体步骤参见本发明前述各方法实施例中的描述,在此不再赘述。 
本实施例的信息分类处理方法,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
本发明实施例提供的方案使得基于贝叶斯决策的分类算法能够在使用嵌入式操作系统的终端上得以实现。使用用户自身收发信息作为信息样本进行训练,得到贝叶斯训练结果,该训练结果能够良好表达用户自身的个体差异性,有效提高在每个终端上进行信息分类处理的准确性。并且,贝叶斯自学习过程可以在后台进行,不需要用户干预,提高了用户使用感受。同时,自学习过程能够伴随用户信息收发的行为持续进行,及时对用户可能改变的信息内容语义进行自学习,同步调整训练结果,使过滤准确率始终保持在较高水平。并且与网络侧的分类或过滤方法相比,本发明实施例不需要运营商进行网络改造,实施方法简单、方便,具有良好的可推广性。 
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。 
图5为本发明信息分类处理装置实施例一的结构图,如图5所示,该装置包括:分词获取模块51和过滤模块53。 
分词获取模块51用于将接收到的待分类信息进行分词处理,获得待分类 信息的分词结果。过滤模块53用于根据待分类信息的分词结果和动态更新的贝叶斯训练结果,对待分类信息进行分类;动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果。 
本实施例中各模块的工作原理和工作流程参见本发明各方法实施例中的描述,在此不再赘述。 
本实施例的信息分类处理装置,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
图6为本发明信息分类处理装置实施例二的结构图,在装置实施例一的基础上,如图6所示,该装置还包括:信息获取模块55、第一自学习模块57、第二自学习模块59、查询模块52、第一启动模块54、第二启动模块56和剔除模块50。 
信息获取模块55用于获取新增信息,并将新增信息对应的新增信息样本添加到信息样本库中,以更新信息样本库;信息样本包括:信息的样本类型、信息内容和分词结果。第一自学习模块57用于根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量自学习,以获得动态更新的贝叶斯训练结果。 
第二自学习模块59用于在用于对信息进行分词处理的词典升级为更新词典后,根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本增量自学习,以获得动态更新的贝叶斯训练结果,更新词典包括增量词典和基本词典,增量词典包括更新词典比原有的基本词典增加的分词。查询模块52用于在信息获取模块55获取新增信息,并将新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识词典升级版本的第一版本号和用于标识信息样本库更新版本的第二版本号。第一启动模块54用于若第一版本号与第二版本号相一致,则启动第一自学习模块57,以使第一自学习模块 57根据贝叶斯原理,在信息样本库中,对新增信息样本进行单样本增量自学习。第二启动模块56用于若第一版本号与第二版本号不一致,则启动第二自学习模块59,以使第二自学习模块59根据更新词典和贝叶斯原理,对信息样本库中的信息样本进行全样本增量自学习,然后启动第一自学习模块57,以使第一自学习模块57根据贝叶斯原理,在进行过全样本增量自学习后的信息样本库中,对新增信息样本进行单样本增量自学习。剔除模块50用于在第二启动模块56启动第一自学习模块57时,在第一自学习模块57依次对新增信息样本的分词结果中每个第一分词进行更新贝叶斯训练结果的操作之前,从新增信息样本的分词结果中,剔除与第二分词和第三分词相同的分词。 
过滤模块53包括:查询单元531、第一计算单元533和判断单元535。 
查询单元531用于查询贝叶斯训练结果,获得待分类信息的分词结果与动态更新的贝叶斯训练结果的交集中的交集分词和交集分词的后验概率。第一计算单元533用于根据交集分词的后验概率计算待分类信息的联合概率。判断单元535用于若联合概率大于预设阈值,则判断待分类信息为第一分类信息,否则判断待分类信息为第二分类信息。 
第一自学习模块57包括:第二计算单元573和第一添加单元575。 
第二计算单元573用于根据信息样本库,计算一第一分词的后验概率;第一分词为新增信息样本的分词结果中包括的分词。第一添加单元575用于若第一分词的后验概率大于贝叶斯训练结果中最小的后验概率,则将第一分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验概率对应的分词。 
第二自学习模块59包括:样本库更新单元591、第三计算单元593、第四计算单元597和第二添加单元599。 
样本库更新单元591用于根据增量词典和信息样本的信息内容,更新信息样本的分词结果,以更新信息样本库。第三计算单元593用于重新计算每个第二分词的后验概率,第二分词为更新信息样本的分词结果时,分词结果 中数量减少的分词。第四计算单元597用于根据信息样本库,计算第三分词的后验概率,第三分词为增量词典中包括的分词。第二添加单元599用于若第三分词的后验概率大于贝叶斯训练结果中最小的后验概率,则将第三分词添加到贝叶斯训练结果中,并删除贝叶斯训练结果中最小的后验概率对应的分词。 
本实施例中各模块和单元的工作原理和工作流程参见本发明各方法实施例中的描述,在此不再赘述。 
本实施例的信息分类处理装置,在使用嵌入式操作系统的终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果源自终端自身收发的信息,因此很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
本发明实施例还提供了一种使用嵌入式操作系统的终端,该终端包括本发明各实施例中提供的任一信息分类处理装置。 
本实施例中各模块的工作原理和工作流程参见本发明各方法实施例中的描述,在此不再赘述。 
本实施例的终端,在终端侧进行信息收发的过程中,动态更新信息样本库,并根据动态更新的信息样本库进行增量贝叶斯自学习获得动态更新的贝叶斯训练结果,以对接收到的信息进行分类,由于该动态更新的贝叶斯训练结果很好的体现了各个用户终端的个体差异性,有效的提高了信息分类的准确性。 
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。 

Claims (9)

1.一种信息分类处理方法,其特征在于,包括:
将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;
根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类,所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果;
所述根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类,包括:
查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶斯训练结果的交集中的交集分词和所述交集分词的后验概率;
根据所述交集分词的所述后验概率计算所述待分类信息的联合概率;
若所述联合概率大于预设阈值,则所述待分类信息为第一分类信息,否则所述待分类信息为第二分类信息。
2.根据权利要求1所述的信息分类处理方法,其特征在于,所述根据动态更新的信息样本库进行增量贝叶斯自学习包括:
获取新增信息;
将所述新增信息对应的新增信息样本添加到信息样本库中,以更新所述信息样本库,所述信息样本包括所述信息的样本类型、信息内容和分词结果;
根据贝叶斯原理,在所述信息样本库中,对所述新增信息样本进行单样本增量自学习,以获得所述动态更新的贝叶斯训练结果;
所述对所述新增信息样本进行单样本增量自学习包括:
根据所述信息样本库,计算第一分词的后验概率,所述第一分词为所述新增信息样本的分词结果中包括的分词;若所述第一分词的后验概率大于所述贝叶斯训练结果中最小的后验概率,则将所述第一分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结果中所述最小的后验概率对应的分词。
3.根据权利要求2所述的信息分类处理方法,其特征在于,所述根据动态更新的信息样本库进行增量贝叶斯自学习还包括:
在用于对信息进行分词处理的所述词典升级为更新词典后,根据所述更新词典和贝叶斯原理,对所述信息样本库中的信息样本进行全样本增量自学习,以获得动态更新的贝叶斯训练结果;所述更新词典包括增量词典和基本词典;所述增量词典包括新增加的分词;
所述对所述信息样本库中的信息样本进行全样本增量自学习包括:
根据所述增量词典和所述信息样本的信息内容,更新所述信息样本的分词结果,以更新所述信息样本库;重新计算每个第二分词的后验概率,所述第二分词为更新所述信息样本的分词结果时,所述分词结果中数量减少的分词;根据所述信息样本库,计算第三分词的后验概率,所述第三分词为所述增量词典中包括的分词;若所述第三分词的后验概率大于所述贝叶斯训练结果中最小的后验概率,则将所述第三分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结果中所述最小的后验概率对应的分词。
4.根据权利要求3所述的信息分类处理方法,其特征在于,还包括:
在所述获取新增信息,并将所述新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识所述词典升级版本的第一版本号和用于标识所述信息样本库更新版本的第二版本号;
若所述第一版本号与所述第二版本号相一致,则直接根据贝叶斯原理,在所述信息样本库中,对所述新增信息样本进行单样本增量自学习;
若所述第一版本号与所述第二版本号不一致,则先根据所述更新词典和贝叶斯原理,对所述信息样本库中的信息样本进行所述全样本增量自学习;根据贝叶斯原理,在进行过所述全样本增量自学习后的所述信息样本库中,对所述新增信息样本进行单样本增量自学习。
5.一种信息分类处理装置,其特征在于,包括:
分词获取模块,用于将接收到的待分类信息进行分词处理,获得所述待分类信息的分词结果;
过滤模块,用于根据所述待分类信息的分词结果和动态更新的贝叶斯训练结果,对所述待分类信息进行分类;
所述动态更新的贝叶斯训练结果为根据动态更新的信息样本库进行增量贝叶斯自学习获得的贝叶斯训练结果;
所述过滤模块包括:
查询单元,用于查询所述贝叶斯训练结果,获得所述待分类信息的分词结果与所述动态更新的贝叶斯训练结果的交集中的交集分词和所述交集分词的后验概率;
第一计算单元,用于根据所述交集分词的所述后验概率计算所述待分类信息的联合概率;
判断单元,用于若所述联合概率大于预设阈值,则判断所述待分类信息为第一分类信息,否则判断所述待分类信息为第二分类信息。
6.根据权利要求5所述的信息分类处理装置,其特征在于,还包括:
信息获取模块,用于获取新增信息,并将所述新增信息对应的新增信息样本添加到信息样本库中,以更新所述信息样本库,所述信息样本包括所述信息的样本类型、信息内容和分词结果;
第一自学习模块,用于根据贝叶斯原理,在所述信息样本库中,对所述新增信息样本进行单样本增量自学习,以获得所述动态更新的贝叶斯训练结果;
所述第一自学习模块包括:
第二计算单元,用于根据所述信息样本库,计算一第一分词的后验概率,所述第一分词为所述新增信息样本的分词结果中包括的分词;
第一添加单元,用于若所述第一分词的后验概率大于所述贝叶斯训练结果中最小的后验概率,则将所述第一分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结果中所述最小的后验概率对应的分词。
7.根据权利要求6所述的信息分类处理装置,其特征在于,还包括:
第二自学习模块,用于在用于对信息进行分词处理的所述词典升级为更新词典后,根据所述更新词典和贝叶斯原理,对所述信息样本库中的信息样本进行全样本增量自学习,以获得动态更新的贝叶斯训练结果;所述更新词典包括增量词典和基本词典;所述增量词典包括增加的分词;
所述第二自学习模块包括:
样本库更新单元,用于根据所述增量词典和所述信息样本的信息内容,更新所述信息样本的分词结果,以更新所述信息样本库;
第三计算单元,用于重新计算每个第二分词的后验概率,所述第二分词为更新所述信息样本的分词结果时,所述分词结果中数量减少的分词;
第四计算单元,用于根据所述信息样本库,计算第三分词的后验概率,所述第三分词为所述增量词典中包括的分词;
第二添加单元,用于若所述第三分词的后验概率大于所述贝叶斯训练结果中最小的后验概率,则将所述第三分词添加到所述贝叶斯训练结果中,并删除所述贝叶斯训练结果中所述最小的后验概率对应的分词。
8.根据权利要求7所述的信息分类处理装置,其特征在于,还包括:
查询模块,用于在所述信息获取模块获取所述新增信息,并将所述新增信息对应的新增信息样本添加到信息样本库中之后,查询用于标识所述词典升级版本的第一版本号和用于标识所述信息样本库更新版本的第二版本号;
第一启动模块,用于若所述第一版本号与所述第二版本号相一致,则启动所述第一自学习模块,以使所述第一自学习模块根据贝叶斯原理,在所述信息样本库中,对所述新增信息样本进行单样本增量自学习;
第二启动模块,用于若所述第一版本号与所述第二版本号不一致,则启动所述第二自学习模块,以使所述第二自学习模块根据所述更新词典和贝叶斯原理,对所述信息样本库中的信息样本进行所述全样本增量自学习,然后启动所述第一自学习模块,以使所述第一自学习模块根据贝叶斯原理,在进行过所述全样本增量自学习后的所述信息样本库中,对所述新增信息样本进行单样本增量自学习。
9.一种终端,包括如权利要求5-8任一所述的信息分类处理装置。
CN2010105879939A 2010-12-14 2010-12-14 信息分类处理方法、装置和终端 Expired - Fee Related CN102024045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105879939A CN102024045B (zh) 2010-12-14 2010-12-14 信息分类处理方法、装置和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105879939A CN102024045B (zh) 2010-12-14 2010-12-14 信息分类处理方法、装置和终端

Publications (2)

Publication Number Publication Date
CN102024045A CN102024045A (zh) 2011-04-20
CN102024045B true CN102024045B (zh) 2012-02-22

Family

ID=43865342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105879939A Expired - Fee Related CN102024045B (zh) 2010-12-14 2010-12-14 信息分类处理方法、装置和终端

Country Status (1)

Country Link
CN (1) CN102024045B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
CN102332012B (zh) * 2011-09-13 2014-10-22 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103490979B (zh) * 2013-09-03 2016-09-14 福建伊时代信息科技股份有限公司 电子邮件鉴定方法和系统
CN104156228B (zh) * 2014-04-01 2017-11-10 兰州工业学院 一种客户端短信过滤嵌入式特征库及更新方法
CN105282720B (zh) * 2014-07-23 2018-12-04 中国移动通信集团重庆有限公司 一种垃圾短信过滤方法及装置
CN104168548A (zh) * 2014-08-21 2014-11-26 北京奇虎科技有限公司 短信拦截方法及装置、云端服务器
CN105630827B (zh) * 2014-11-05 2019-04-02 阿里巴巴集团控股有限公司 一种信息处理方法、系统及辅助系统
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN105101124A (zh) * 2015-08-07 2015-11-25 北京奇虎科技有限公司 标注短信类别的方法及装置
CN105243389A (zh) * 2015-09-28 2016-01-13 北京橙鑫数据科技有限公司 公司名称的行业分类标签的确定方法和装置
CN105447505B (zh) * 2015-11-09 2018-12-18 成都数之联科技有限公司 一种多层次重要邮件检测方法
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
CN105791543A (zh) * 2016-02-23 2016-07-20 北京奇虎科技有限公司 一种清理短信的方法、装置、客户端和系统
CN107230090B (zh) * 2016-03-23 2021-11-16 中国移动通信集团上海有限公司 一种净推荐值nps分类方法及装置
CN107305636A (zh) * 2016-04-22 2017-10-31 株式会社日立制作所 目标识别方法、目标识别装置、终端设备和目标识别系统
CN107463935A (zh) * 2016-06-06 2017-12-12 工业和信息化部电信研究院 应用分类方法和应用分类装置
CN107169523B (zh) * 2017-05-27 2020-07-21 鹏元征信有限公司 自动确定机构的所属行业类别的方法、存储设备及终端
CN109033300A (zh) * 2018-07-16 2018-12-18 江苏满运软件科技有限公司 一种过滤宣传信息的方法及系统
CN109766440B (zh) * 2018-12-17 2023-09-01 航天信息股份有限公司 一种用于为对象文本描述确定默认分类信息的方法及系统
CN110321411A (zh) * 2019-06-26 2019-10-11 国网江苏省电力有限公司 一种电网监控告警信息分类方法、系统及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1714371A (zh) * 2002-11-19 2005-12-28 Gni美国公司 根据时间序列基因表达数据的基因网络的非线性模拟
CN100440200C (zh) * 2007-01-24 2008-12-03 浙江大学 一种校正测量数据显著误差与随机误差的方法

Also Published As

Publication number Publication date
CN102024045A (zh) 2011-04-20

Similar Documents

Publication Publication Date Title
CN102024045B (zh) 信息分类处理方法、装置和终端
CN101877837B (zh) 一种短信过滤的方法和装置
CN101184259B (zh) 垃圾短信中的关键词自动学习及更新方法
CN102413076B (zh) 基于行为分析的垃圾邮件判定系统
CN102761627B (zh) 基于终端访问统计的云网址推荐方法及系统及相关设备
CN103347009B (zh) 一种信息过滤方法及装置
CN108959244A (zh) 地址分词的方法和装置
CN102591864B (zh) 比对系统中的数据更新方法及装置
CN101141416A (zh) 一种可用于传输汇集阶段的实时垃圾邮件过滤方法和系统
CN103064908B (zh) 一种通过内存快速去重名单的方法
CN105812554A (zh) 一种智能管理手机短信的方法和系统
CN102098638A (zh) 短信分类处理方法、装置和终端
CN102855238A (zh) 资源数据下载方法及系统
CN103796183A (zh) 一种垃圾短信识别方法及装置
CN105589845A (zh) 垃圾文本识别方法、装置及系统
CN105049334A (zh) 电子邮件过滤方法及装置
CN103634470A (zh) 一种基于终端移动数据接入网Qos的人机交互预测方法
CN106815232A (zh) 目录管理方法、装置及系统
CN110209742B (zh) 一种基于区块链依据数据重要性分类存储系统及方法
CN113656438B (zh) 数据树的数据查询方法及装置
CN114240179A (zh) 一种基于事件图谱的财务流程挖掘方法和相关装置
CN101389099A (zh) 一种移动通信终端及消息管理方法
CN109165325A (zh) 用于切分图数据的方法、装置、设备以及计算机可读存储介质
CN104156228A (zh) 一种客户端短信过滤嵌入式特征库及更新方法
CN104902542B (zh) 一种信息共享方法和移动通信终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: Huawei Symantec Technologies Co., Ltd.

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: Chengdu Huawei Symantec Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120222

Termination date: 20191214

CF01 Termination of patent right due to non-payment of annual fee