CN102355517A - 信息分类装置、信息分类方法和终端 - Google Patents

信息分类装置、信息分类方法和终端 Download PDF

Info

Publication number
CN102355517A
CN102355517A CN2011101833983A CN201110183398A CN102355517A CN 102355517 A CN102355517 A CN 102355517A CN 2011101833983 A CN2011101833983 A CN 2011101833983A CN 201110183398 A CN201110183398 A CN 201110183398A CN 102355517 A CN102355517 A CN 102355517A
Authority
CN
China
Prior art keywords
information
insincere
note
classification
reliable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011101833983A
Other languages
English (en)
Inventor
刘珍珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Original Assignee
Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yulong Computer Telecommunication Scientific Shenzhen Co Ltd filed Critical Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority to CN2011101833983A priority Critical patent/CN102355517A/zh
Publication of CN102355517A publication Critical patent/CN102355517A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种信息分类装置、一种信息分类方法和一种终端。该信息分类装置包括:学习过滤模块,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;分类模块,根据分类规则,将信息分类为可信信息或不可信信息。通过本发明,可以将已经分类完的可信信息集合和不可信信息集合作为学习样本,从中分析出用于实现信息分类的规则,随着可信信息集合和不可信信息集合包含越来越多,包含的内容越来越全面,可以保证对信息的分类也越来越精确。

Description

信息分类装置、信息分类方法和终端
技术领域
本发明涉及移动通信领域,具体而言,涉及一种信息分类装置、一种信息分类方法和一种终端。
背景技术
现阶段,通过手机、电脑等终端传递的信息种类越来越多,数量越来越大。例如,对于手机用户而言,很多广告、保险等信息以短信的形式强制发送给用户,尤其当用户在网购、团购的订单中留下自己的手机号码,厂商则保留用户手机信息,并每天推送商品、活动信息。这给用户带来了极大的困扰。
用户可以通过屏蔽短信号码、设置黑名单等形式来实现对类似短信的屏蔽。同时,或由服务器端生成过滤关键字,并利用该过滤关键字,在服务器端对短信进行复分析,以实现信息的过滤。也有位于终端,基于自适应学习单元、分类器或进化学习单元的短信过滤装置,方法包括黑白名单过滤、词频统计、概率统计。
现有方案的缺陷在于:
现在的信息系统,例如是短信网络系统中,用于发送短信的号码是随机的,每次发送来的号码都不一样,用户无法通过屏蔽号码的方式完全过滤广告信息。用户收到不愿意看到的不可信短信时往往很生气,然后直接删除,耗费时间处理的同时,本来就有限的手机存储空间也被占用了很多。
基于关键字过滤的方案是由服务器完成关键字的生成,需要把存储在用户终端上的短信内容上传到服务器,只有当用户登录到服务器时,服务器才能进行与移动终端的交互,而且,此方案不能保证过滤关键字的即时有效性和准确性。
基于自适应学习单元、分类器或进化学习单元的位于终端的短信过滤装置,对信息内容中的词语采用概率计算及词频排序的处理,根据处理结果来实现过滤,这种判别方法代价高,误判率高,容易把正常短信误判为垃圾短信,给用户带来的损失较大。
因此,需要一种新的用于信息过滤分类的方法,能够即时有效地实现信息的分类,保证用户需要受到垃圾信息的困扰,又能够避免将有效信息误判为垃圾信息。
发明内容
本发明所要解决的问题在于,一种新的用于信息过滤分类的方法,能够即时有效地实现信息的分类,保证用户需要受到垃圾信息的困扰,和/或能够避免将有效信息误判为垃圾信息。
有鉴于此,本发明提供一种信息分类装置,包括:学习过滤模块,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;分类模块,根据分类规则,将信息分类为可信信息或不可信信息。通过该技术方案,可以将已经分类完的可信信息集合和不可信信息集合作为学习样本,从中分析出用于实现信息分类的规则,随着可信信息集合和不可信信息集合包含越来越多,包含的内容越来越全面,可以保证对信息的分类也越来越精确。
在上述技术方案中,优选地,还包括:条件启动模块,根据信息的属性,确定是否启动分类模块,来对信息分类。通过该技术方案,对于一些特殊的信息,例如好友发送的短信,则无须判断其是否为垃圾短信,这样一方面可以减少不必要的分类操作带来的功耗,同时也避免了降低了不必要的分类错误的风险。
在上述技术方案中,优选地,条件启动模块在确定不启动分类模块时,还根据信息的属性,将信息直接分类为可信信息或不可信信息。通过该技术方案,实现了一种简单准确且减少功耗的信息分类方式,例如,当手机用户接收到短信时,如果该短信的发送者位于手机的联系人目录中,可以直接判断其为可信短信,如果其位于用户制定的黑名单中,可直接判断其为不可信短信。
在上述技术方案中,优选地,信息的类型包括短信、彩信和邮件,信息的属性的类型包括信息的来源和格式,信息的来源可以是短信的发送者、邮件的发件者等等,信息的格式可以是其包括内容的类型,例如信息里存在多个网址、多个号码等等。本领域技术人员应当理解,本发明技术方案中,信息的类型、信息属性的类型可包括任何适用的内容,并不限于以上列举的几种。
在上述技术方案中,优选地,学习过滤模块解析可信信息集合和/或不可信信息集合,以获取可信信息集合或不可信信息集合中的词语分别出现在可信信息集合和/或不可信信息集合中的概率,以及可信信息集合和/或不可信信息集合中出现词语的概率,用来确定分类规则。通过该技术方案,利用以上提及的概率确定分类规则,可保证分类更加精确,一个制定好的分类规则可以是例如,某个词汇的出现,可判定其所在的信息为可信信息或不可信信息。
在上述技术方案中,优选地,学习过滤模块根据贝叶斯过滤算法进行解析。通过该技术方案,利用贝叶斯过滤算法取得的分类规则,更有利于准确实现信息的分类。现有技术中基本不采用贝叶斯过滤算法来取得学习规则,但事实上,采用贝叶斯过滤算法来获取的分类规则,更具有分类判断代价低、误判几率小的优点。
在上述技术方案中,优选地,分类模块还根据最小风险的贝叶斯决策算法,来实现信息的分类。通过该技术方案,由于将可信信息判别为不可信信息的损害很大,通过最小风险的贝叶斯决策算法,可降低将可信信息误判为不可信信息的几率,能够较好地保证不给用户遗漏任何有用信息。
在上述技术方案中,优选地,分类模块还提供用户修改选项,以供用户将任一可信信息修改为不可信信息,以及将任一不可信信息修改为可信信息。通过该技术方案,由于在作为学习样本的可信信息集合和不可信信息集合不够全面,从中取得的学习规则难免不够完善,通过用户自主修改,可保证可信信息集合和不可信信息集合中不会存在误判的信息,更有利于下次获取的学习规则的可靠性。
本发明还提供一种信息分类方法,包括:步骤202,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;步骤204,根据分类规则,将信息分类为可信信息或不可信信息。通过该技术方案,可以将已经分类完的可信信息集合和不可信信息集合作为学习样本,从中分析出用于实现信息分类的规则,随着可信信息集合和不可信信息集合包含越来越多,包含的内容越来越全面,可以保证对信息的分类也越来越精确。
在上述技术方案中,优选地,还包括:在步骤202之前,根据信息的属性,确定是否进入步骤204,来对信息分类。通过该技术方案,对于一些特殊的信息,例如好友发送的短信,则无须判断其是否为垃圾短信,这样一方面可以减少不必要的分类操作带来的功耗,同时也避免了降低了不必要的分类错误的风险。
在上述技术方案中,优选地,还包括:在确定不进入步骤204时,还根据信息的属性,将信息直接分类为可信信息或不可信信息。例如,当手机用户接收到短信时,如果该短信的发送者位于手机的联系人目录中,可以直接判断其为可信短信,如果其位于用户制定的黑名单中,可直接判断其为不可信短信。
在上述技术方案中,优选地,信息的类型包括短信、彩信和邮件,信息的属性的类型包括信息的来源和格式,信息的来源可以是短信的发送者、邮件的发件者等等,信息的格式可以是其包括内容的类型,例如信息里存在多个网址、多个号码等等。本领域技术人员应当理解,本发明技术方案中,信息的类型、信息属性的类型可包括任何适用的内容,并不限于以上列举的几种。
在上述技术方案中,优选地,步骤202具体包括:解析可信信息集合和/或不可信信息集合,以获取可信信息集合或不可信信息集合中的词语分别出现在可信信息集合和/或不可信信息集合中的概率,以及可信信息集合和/或不可信信息集合中出现词语的概率,用来确定分类规则。通过该技术方案,利用以上提及的概率确定分类规则,可保证分类更加精确,一个制定好的分类规则可以是例如,某个词汇的出现,可判定其所在的信息为可信信息或不可信信息。
在上述技术方案中,优选地,在步骤202中,根据贝叶斯过滤算法进行解析。现有技术中基本不采用贝叶斯过滤算法来取得学习规则,但事实上,采用贝叶斯过滤算法来获取的分类规则,更具有分类判断代价低、误判几率小的优点。
在上述技术方案中,优选地,在步骤204中,还根据最小风险的贝叶斯决策算法,来实现信息的分类。通过该技术方案,由于将可信信息判别为不可信信息的损害很大,通过最小风险的贝叶斯决策算法,可降低将可信信息误判为不可信信息的几率,能够较好地保证不给用户遗漏任何有用信息。
在上述技术方案中,优选地,还包括:提供用户修改选项,以供用户将任一可信信息修改为不可信信息,以及将任一不可信信息修改为可信信息。通过该技术方案,由于在作为学习样本的可信信息集合和不可信信息集合不够全面,从中取得的学习规则难免不够完善,通过用户自主修改,可保证可信信息集合和不可信信息集合中不会存在误判的信息,更有利于下次获取的学习规则的可靠性。
本发明还提供一种终端,包括:如上述的信息分类装置。该终端的类型可以是手机、电脑等任何适用的设备。
通过以上技术方案,可以实现一种信息分类装置、一种信息分类方法和一种终端,能够即时有效地实现信息的分类,保证用户需要受到垃圾信息的困扰,又能够避免将有效信息误判为垃圾信息。
附图说明
图1是根据本发明的一个实施例的信息分类装置的框图;
图2是根据本发明的一个实施例的信息分类方法的流程图;
图3是根据本发明的一个实施例的终端的框图;
图4是根据本发明的一个实施例的信息分类装置对信息分类的示意图;
图5是根据本发明的一个实施例的信息分类装置的工作原理图;
图6是根据本发明的一个实施例的信息分类装置提供的界面示意图;
图7是根据本发明的一个实施例的信息分类装置提供的界面示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1是根据本发明的一个实施例的信息分类装置的框图。
如图1所示,本发明提供一种信息分类装置100,包括:学习过滤模块102,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;分类模块104,根据分类规则,将信息分类为可信信息或不可信信息。通过该技术方案,可以将已经分类完的可信信息集合和不可信信息集合作为学习样本,从中分析出用于实现信息分类的规则,随着可信信息集合和不可信信息集合包含越来越多,包含的内容越来越全面,可以保证对信息的分类也越来越精确。
在上述技术方案中,还包括:条件启动模块106,根据信息的属性,确定是否启动分类模块104,来对信息分类。通过该技术方案,对于一些特殊的信息,例如好友发送的短信,则无须判断其是否为垃圾短信,这样一方面可以减少不必要的分类操作带来的功耗,同时也避免了降低了不必要的分类错误的风险。
在上述技术方案中,条件启动模块106在确定不启动分类模块104时,还根据信息的属性,将信息直接分类为可信信息或不可信信息。通过该技术方案,实现了一种简单准确且减少功耗的信息分类方式,例如,当手机用户接收到短信时,如果该短信的发送者位于手机的联系人目录中,可以直接判断其为可信短信,如果其位于用户制定的黑名单中,可直接判断其为不可信短信。
在上述技术方案中,信息的类型包括短信、彩信和邮件,信息的属性的类型包括信息的来源和格式,信息的来源可以是短信的发送者、邮件的发件者等等,信息的格式可以是其包括内容的类型,例如信息里存在多个网址、多个号码等等。本领域技术人员应当理解,本发明技术方案中,信息的类型、信息属性的类型可包括任何适用的内容,并不限于以上列举的几种。
在上述技术方案中,学习过滤模块102解析可信信息集合和/或不可信信息集合,以获取可信信息集合或不可信信息集合中的词语分别出现在可信信息集合和/或不可信信息集合中的概率,以及可信信息集合和/或不可信信息集合中出现词语的概率,用来确定分类规则。通过该技术方案,利用以上提及的概率确定分类规则,可保证分类更加精确,一个制定好的分类规则可以是例如,某个词汇的出现,可判定其所在的信息为可信信息或不可信信息。
在上述技术方案中,学习过滤模块102根据贝叶斯过滤算法进行解析。通过该技术方案,利用贝叶斯过滤算法取得的分类规则,更有利于准确实现信息的分类。现有技术中基本不采用贝叶斯过滤算法来取得学习规则,但事实上,采用贝叶斯过滤算法来获取的分类规则,更具有分类判断代价低、误判几率小的优点。
在上述技术方案中,分类模块104还根据最小风险的贝叶斯决策算法,来实现信息的分类。通过该技术方案,由于将可信信息判别为不可信信息的损害很大,通过最小风险的贝叶斯决策算法,可降低将可信信息误判为不可信信息的几率,能够较好地保证不给用户遗漏任何有用信息。
在上述技术方案中,分类模块104还提供用户修改选项,以供用户将任一可信信息修改为不可信信息,以及将任一不可信信息修改为可信信息。通过该技术方案,由于在作为学习样本的可信信息集合和不可信信息集合不够全面,从中取得的学习规则难免不够完善,通过用户自主修改,可保证可信信息集合和不可信信息集合中不会存在误判的信息,更有利于下次获取的学习规则的可靠性。
图2是根据本发明的一个实施例的信息分类方法的流程图;
如图2所示,本发明还提供一种信息分类方法,包括:步骤202,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;步骤204,根据分类规则,将信息分类为可信信息或不可信信息。通过该技术方案,可以将已经分类完的可信信息集合和不可信信息集合作为学习样本,从中分析出用于实现信息分类的规则,随着可信信息集合和不可信信息集合包含越来越多,包含的内容越来越全面,可以保证对信息的分类也越来越精确。
在上述技术方案中,还包括:在步骤202之前,根据信息的属性,确定是否进入步骤202,来对信息分类。通过该技术方案,对于一些特殊的信息,例如好友发送的短信,则无须判断其是否为垃圾短信,这样一方面可以减少不必要的分类操作带来的功耗,同时也避免了降低了不必要的分类错误的风险。
在上述技术方案中,还包括:在确定不进入步骤202时,还根据信息的属性,将信息直接分类为可信信息或不可信信息。例如,当手机用户接收到短信时,如果该短信的发送者位于手机的联系人目录中,可以直接判断其为可信短信,如果其位于用户制定的黑名单中,可直接判断其为不可信短信。
在上述技术方案中,信息的类型包括短信、彩信和邮件,信息的属性的类型包括信息的来源和格式,信息的来源可以是短信的发送者、邮件的发件者等等,信息的格式可以是其包括内容的类型,例如信息里存在多个网址、多个号码等等。本领域技术人员应当理解,本发明技术方案中,信息的类型、信息属性的类型可包括任何适用的内容,并不限于以上列举的几种。
在上述技术方案中,步骤202具体包括:解析可信信息集合和/或不可信信息集合,以获取可信信息集合或不可信信息集合中的词语分别出现在可信信息集合和/或不可信信息集合中的概率,以及可信信息集合和/或不可信信息集合中出现词语的概率,用来确定分类规则。通过该技术方案,利用以上提及的概率确定分类规则,可保证分类更加精确,一个制定好的分类规则可以是例如,某个词汇的出现,可判定其所在的信息为可信信息或不可信信息。
在上述技术方案中,在步骤202中,根据贝叶斯过滤算法进行解析。现有技术中基本不采用贝叶斯过滤算法来取得学习规则,但事实上,采用贝叶斯过滤算法来获取的分类规则,更具有分类判断代价低、误判几率小的优点。
在上述技术方案中,在步骤204中,还根据最小风险的贝叶斯决策算法,来实现信息的分类。通过该技术方案,由于将可信信息判别为不可信信息的损害很大,通过最小风险的贝叶斯决策算法,可降低将可信信息误判为不可信信息的几率,能够较好地保证不给用户遗漏任何有用信息。
在上述技术方案中,还包括:提供用户修改选项,以供用户将任一可信信息修改为不可信信息,以及将任一不可信信息修改为可信信息。通过该技术方案,由于在作为学习样本的可信信息集合和不可信信息集合不够全面,从中取得的学习规则难免不够完善,通过用户自主修改,可保证可信信息集合和不可信信息集合中不会存在误判的信息,更有利于下次获取的学习规则的可靠性。
图3是根据本发明的一个实施例的终端的框图。
如图3所示,本发明还提供一种终端300,包括:如上述的信息分类装置100。该终端的类型可以是手机、电脑等任何适用的设备。
以下对根据本发明的一个实施例的信息分类装置进行详细说明。
如图1所示的信息分类装置100位于用户的手机终端,包括条件启动模块106、学习过滤模块102、分类模块104等三个模块,实现对用户的短信进行过滤的功能,将接收到的短信集合分类为可信短信和不可信短信,可以如图4所示,对于不可信短信,用户为节约存储空间、提高处理效率,可以进一步集中处理,比如删除、号码屏蔽等操作,以下对其给模块的功能进行详细描述。
条件启动模块106:
条件启动模块106需要判断是否启动学习过滤模块102和分类模块104实现的短信分类机制,这是因为并不是所有的短信都需要分类,此处进行判断可以减少判别代价。因此,通过设定启动条件机制来实现。
条件过滤模块106首先获取发送到移动终端的短信号码,检测此号码是否存在联系人列表中,或者是否为暂存近期联系人号码。如果是联系人列表中存储的号码,或者是暂存近期联系人记录中的号码,则此短信认为是正常短信,在接收过程中不启动分类机制。如果是黑名单中存储的号码,则直接判断其为不可信短信。如果未处于两种名单中,就不确定是否为可信短信,启动分类机制,进一步判别是否为可信短信。
学习过滤模块102:
学习过滤模块102实现的学习过程是在已经确定的可信短信集和不可信短信集进行学习,根据每个词语分别在两个集合中出现的次数,计算词语是作为判定不可信短信的词汇的概率。学习样本包括可信短信集和不可信短信集。学习过滤模块102利用基于贝叶斯过滤的方法,实现过程是统计出现在短信集中的词语文本属于可信短信和不可信短信的概率,取较大的概率值,来得到该词语文本用于判断短信是否为可信短信,最后获取所有词语文本出现在可信短信和不可信短信的概率,以及从可信短信和不可信短信这两种类别分别生成对应词语文本的概率,这两个概率可以通过学习过滤模块102得到。
比如,学习过滤模块102通过从学习样本中分析,得到“广告”这个词语可能同时出现在可信短信和不可信短信中,出现在可信短信中的概率为20%,出现在不可信短信中的概率为80%,可信短信中出现“广告”这个词语的概率为0.02%,而不可信短信中出现“广告”这个词语的概率为10%,因此,基于以上概率,可知含有“广告”这个词语的短信初步判为不可信短信的概率增加,并结合短信中其他词语出现在可信短信和不可信短信的概率、可信短信和不可信短信中出现其他词语的概率,最终统计判断出此短信是否为可信短信。这种方法通过对短信中的词语进行概率统计,根据以前收到的不可信短信和可信短信中的相同词语及短语出现的概率进行对比,以及对上述词语或短语出现在可信短信和不可信短信中的概率对比,取得学习规则,来确定不可信短信的可能性。与其他的词频统计或概率统计方法相比较,是判别不可信短信的精确技术。
通过以上方式,学习过滤模块102会自动从学习样本中总结出判断为不可信短信的学习规则或特征,比如学习过滤模块很容易识别“广告”这样的词语可能是不可信短信的标志。当不可信短信发送者改变了不可信短信的特征时,比如使用“优惠活动”等广告推广词语,过滤模块可以统计出“优惠活动”等词语作为判别不可信短信的词汇的概率,并利用该概率进一步进行判别可信短信或不可信短信。学习过滤模块102能够在不断的学习中适应这种变化,依然很准确的找出其中的学习规则。
分类模块104:
分类模块104实现的分类过程是当一封新短信到达时,对短信全部内容进行分词,得到一组词汇流,计算整个词汇流中每个词语的出现的概率,然后结合学习过滤模块102学习到的学习规则,判断其中每个词语是否为能将短信判断为不可信短信的词汇,并最终判断该短信是否为不可信短信。但是,在短信的过滤和分类中,可信短信与不可信短信具有不同的特征,一般会产生两种分类错误,一种是将不可信短信分类到可信短信当中去,另一种是将可信短信分类到不可信短信中去,这两类错误造成的损失相差很大,可信短信被判为不可信短信会给用户带来更大的损失。因此,考虑到这钟分类错误造成的损失,分类模块104采用基于最小风险的贝叶斯决策进行调整,以便减少将可信短信误判为不可信短信的几率,解决应用中更为敏感的问题。分类模块104采用的最小风险的贝叶斯决策是把各种分类错误而引起的损失考虑进去,最大程度地降低误判风险和损失。
使用以上信息分类装置100的移动终端的工作原理如图5所示。该移动终端可以通过信息分类装置100包括的条件启动模块106、学习过滤模块102和分类模块104,通过预置在后台算法库的算法实现学习、过滤和分类等,并通过友好的用户界面实现交互操作及各项设置。
在该移动终端中,分为三大部分,包括后台数据集、后台算法库和移动终端交互界面。首先,在后台数据集中,需要构建不可信短信集合、可信短信集合和学习规则库,为学习过滤模块102提供数据源及学习样本,对应移动终端中的不可信短信箱和收件箱。其次,条件启动模块106的对应算法包括用户的过滤号码设置及后台的号码搜索算法,用户通过设置需要过滤的号码,此类号码发送来的短信为过滤对象,过滤优先级最高,后台通过号码搜索及匹配算法实现。学习过滤模块102的技术方案包括与用户的过滤条件交互,可以预先手动设置一些可信短信标识为不可信短信,学习过滤模块102从而通过统计,在后台通过贝叶斯过滤算法,总结出新的过滤规则并保存至规则库中。分类模块104的技术方案包括与用户的分类条件交互,即恢复被判为不可信短信的过滤对象为可信短信,更改系统的分类对象,从而降低误判的风险,分类模块104在后台通过基于最小风险的贝叶斯决策算法实现。最后,在移动终端中,基于以上三个模块构成了一套完整的短信分类体系,并在与用户的交互过程中不断更新规则,降低决策风险。
以上移动终端进行工作的一个实施例可以如下:用户收到一条商场通过网络随机号码发送的促销活动短信,内容包含关键词:“折扣”、“女装”、“男装”、“节日”、“免费赠送”、“恭喜”等。首先,条件启动模块106在通讯录和黑名单中搜索该短信的发送者,并且在通讯录和黑名单中都未检索到,于是通知学习过滤模块102和分类模块104来进行短信分类。学习过滤模块102从收件箱中取得可信短信集合,从不可信短信箱中取得不可信短信集合,并基于以上两个短信集合进行分析,以取得学习规则,例如,学习过滤模块102根据“广告”出现在可信短信中的概率为20%,出现在不可信短信中的概率为80%,可信短信中出现“广告”这个词语的概率为0.02%,而不可信短信中出现“广告”这个词语的概率为10%,在学习规则中记录,“广告”为将短信判定为不可信短信的词汇。分类模块104对接收的短信进行分词,取得其中的词语,并结合学习规则进行判断,例如,根据学习规则,可得知“广告”在接收短信中出现的概率为5%,“恭喜”出现概率为1%,且“恭喜”为将短信判定为可信短信的词汇,分类模块104结合学习规则,对上述概率进行分析,最终判断该短信为不可信短信。
其中,分类模块104还通过在收件箱和不可信短信箱中提供选项,实现用户交互的功能。具体的不可信短信箱和收件箱的选项界面,可以如图6和图7所示。
如图6所示,在短信为不可信短信时:短信存入移动终端的不可信短信箱。对应菜单为“恢复到收件箱”、“过滤此号码”,用户可以把不可信短信箱中的短信恢复到收件箱,也可以直接屏蔽发送短信的号码。
如图7所示,在短信为可信短信时:短信存入移动终端的收件箱,用户可以把收件箱中的短信转移至不可信收件箱中,标记为过滤对象,为学习过滤模块提供不可信短信集合,学习过滤模块学习后总结出更多的分类规则,从而提高判别的准确率。
通过以上技术方案,可以实现一种信息分类装置、一种信息分类方法和一种终端,能够即时有效地实现信息的分类,保证用户需要受到垃圾信息的困扰,又能够避免将有效信息误判为垃圾信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种信息分类装置,其特征在于,包括:
学习过滤模块,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;
分类模块,根据所述分类规则,将所述信息分类为可信信息或不可信信息。
2.根据权利要求1所述的信息分类装置,其特征在于,还包括:
条件启动模块,根据所述信息的属性,确定是否启动所述分类模块,来对所述信息分类。
3.根据权利要求2所述的信息分类装置,其特征在于,所述条件启动模块在确定不启动所述分类模块时,还根据所述信息的属性,将所述信息直接分类为所述可信信息或所述不可信信息。
4.根据权利要求2所述的信息分类装置,其特征在于,所述信息的类型包括短信、彩信和邮件,所述信息的属性的类型包括所述信息的来源和格式。
5.根据权利要求1所述的信息分类装置,其特征在于,所述学习过滤模块解析所述可信信息集合和/或所述不可信信息集合,以获取所述可信信息集合或所述不可信信息集合中的词语分别出现在所述可信信息集合和/或所述不可信信息集合中的概率,以及所述可信信息集合和/或所述不可信信息集合中出现所述词语的概率,用来确定所述分类规则。
6.根据权利要求1至5中任一项所述的信息分类装置,其特征在于,所述学习过滤模块根据贝叶斯过滤算法进行解析。
7.一种信息分类方法,其特征在于,包括:
步骤202,解析已存在的可信信息集合和/或不可信信息集合,以获取适用于信息的分类规则;
步骤204,根据所述分类规则,将所述信息分类为可信信息或不可信信息。
8.根据权利要求7所述的信息分类方法,其特征在于,还包括:
在所述步骤202之前,根据所述信息的属性,确定是否进入所述步骤204,来对所述信息分类。
9.根据权利要求8所述的信息分类方法,其特征在于,还包括:
在确定不进入所述步骤204时,还根据所述信息的属性,将所述信息直接分类为所述可信信息或所述不可信信息。
10.根据权利要求8所述的信息分类方法,其特征在于,所述信息的类型包括短信、彩信和邮件,所述信息的属性的类型包括所述信息的来源和格式。
11.根据权利要求7所述的信息分类方法,其特征在于,所述步骤202具体包括:
解析所述可信信息集合和/或所述不可信信息集合,以获取所述可信信息集合或所述不可信信息集合中的词语分别出现在所述可信信息集合和/或所述不可信信息集合中的概率,以及所述可信信息集合和/或所述不可信信息集合中出现所述词语的概率,用来确定所述分类规则。
12.根据权利要求7至11中任一项所述的信息分类方法,其特征在于,在所述步骤202中,根据贝叶斯过滤算法进行解析。
13.一种终端,其特征在于,包括:
权利要求1至6中任一项所述的信息分类装置。
CN2011101833983A 2011-07-01 2011-07-01 信息分类装置、信息分类方法和终端 Pending CN102355517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011101833983A CN102355517A (zh) 2011-07-01 2011-07-01 信息分类装置、信息分类方法和终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011101833983A CN102355517A (zh) 2011-07-01 2011-07-01 信息分类装置、信息分类方法和终端

Publications (1)

Publication Number Publication Date
CN102355517A true CN102355517A (zh) 2012-02-15

Family

ID=45579010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011101833983A Pending CN102355517A (zh) 2011-07-01 2011-07-01 信息分类装置、信息分类方法和终端

Country Status (1)

Country Link
CN (1) CN102355517A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888921A (zh) * 2013-09-21 2014-06-25 天津思博科科技发展有限公司 一种短信智能删除模块
CN103957516A (zh) * 2014-05-13 2014-07-30 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎
CN104427115A (zh) * 2013-09-04 2015-03-18 腾讯科技(深圳)有限公司 对已拦截短信的处理方法及装置
CN105979101A (zh) * 2016-07-18 2016-09-28 广东乐源数字技术有限公司 一种未读消息选择性推送的系统
WO2016197337A1 (zh) * 2015-06-10 2016-12-15 华为技术有限公司 短信息处理方法、装置及电子设备
CN106304084A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 信息处理方法及装置
CN107209835A (zh) * 2014-08-29 2017-09-26 邻客音公司 用于在线幻灯片组呈现的垃圾信息检测
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN109639838A (zh) * 2019-02-13 2019-04-16 广州秦耀照明电器有限公司 一种基于大数据的信息分类存储系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635886A (zh) * 2008-07-22 2010-01-27 北京光芒星空信息技术有限公司 一种基于用户选择的垃圾短信过滤方法
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端
US20110099003A1 (en) * 2009-10-28 2011-04-28 Masaaki Isozu Information processing apparatus, information processing method, and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635886A (zh) * 2008-07-22 2010-01-27 北京光芒星空信息技术有限公司 一种基于用户选择的垃圾短信过滤方法
US20110099003A1 (en) * 2009-10-28 2011-04-28 Masaaki Isozu Information processing apparatus, information processing method, and program
CN102024045A (zh) * 2010-12-14 2011-04-20 成都市华为赛门铁克科技有限公司 信息分类处理方法、装置和终端

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104427115A (zh) * 2013-09-04 2015-03-18 腾讯科技(深圳)有限公司 对已拦截短信的处理方法及装置
CN104427115B (zh) * 2013-09-04 2018-01-09 腾讯科技(深圳)有限公司 对已拦截短信的处理方法及装置
CN103888921A (zh) * 2013-09-21 2014-06-25 天津思博科科技发展有限公司 一种短信智能删除模块
CN103957516A (zh) * 2014-05-13 2014-07-30 北京网秦天下科技有限公司 垃圾短信过滤方法及引擎
CN107209835A (zh) * 2014-08-29 2017-09-26 邻客音公司 用于在线幻灯片组呈现的垃圾信息检测
US10165419B2 (en) 2015-06-10 2018-12-25 Huawei Technologies Co., Ltd. Short message processing method and apparatus, and electronic device
WO2016197337A1 (zh) * 2015-06-10 2016-12-15 华为技术有限公司 短信息处理方法、装置及电子设备
US11765557B2 (en) 2015-06-10 2023-09-19 Honor Device Co. Ltd. Short message processing method and apparatus, and electronic device
US11337042B2 (en) 2015-06-10 2022-05-17 Honor Device Co., Ltd. Short message processing method and apparatus, and electronic device
US10708726B2 (en) 2015-06-10 2020-07-07 Huawei Technologies Co., Ltd Short message processing method and apparatus, and electronic device
CN105979101A (zh) * 2016-07-18 2016-09-28 广东乐源数字技术有限公司 一种未读消息选择性推送的系统
CN105979101B (zh) * 2016-07-18 2021-06-01 深圳市禅游科技股份有限公司 一种未读消息选择性推送的系统
CN106304084A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 信息处理方法及装置
CN106304084B (zh) * 2016-08-15 2019-10-29 成都九鼎瑞信科技股份有限公司 信息处理方法及装置
CN107992501A (zh) * 2016-10-27 2018-05-04 腾讯科技(深圳)有限公司 社交网络信息识别方法、处理方法及装置
CN109639838B (zh) * 2019-02-13 2020-03-17 随身云(南京)信息技术有限公司 一种基于大数据的信息分类存储系统
CN109639838A (zh) * 2019-02-13 2019-04-16 广州秦耀照明电器有限公司 一种基于大数据的信息分类存储系统

Similar Documents

Publication Publication Date Title
CN102355517A (zh) 信息分类装置、信息分类方法和终端
CN103024746B (zh) 一种电信运营商垃圾短信处理系统及处理方法
US10235720B2 (en) Merchant identification and expense item classification from a mobile device capture of an event receipt
EP3211925A1 (en) Smart reminding method, system and apparatus
CN101784022A (zh) 短信过滤、分类方法及系统
CN108241667A (zh) 用于推送信息的方法和装置
CN107038178A (zh) 舆情分析方法和装置
CN110334241A (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
CN104462509A (zh) 垃圾评论检测方法及装置
CN104717674A (zh) 号码属性识别方法、装置、终端和服务器
CN108491720B (zh) 一种应用识别方法、系统以及相关设备
CN104750795A (zh) 一种智能语义检索系统和方法
CN101438283A (zh) 用于本地字轮/web搜索的基于人口统计的分类
CN103368992A (zh) 一种信息推送方法及装置
CN104104778A (zh) 一种移动终端的短消息处理方法和装置
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN103415004A (zh) 一种检测垃圾短消息的方法及装置
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN103631963A (zh) 一种基于大数据的关键词优化处理方法及装置
CN102098638A (zh) 短信分类处理方法、装置和终端
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN113268649A (zh) 基于多元化数据融合的线索监测方法及系统
CN115640463A (zh) 一种互联网舆情监测分析系统
CN108268438A (zh) 一种页面内容提取方法、装置以及客户端
CN110941757A (zh) 一种基于大数据的政策信息查询推送系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120215