CN101600178A - 垃圾信息确认方法和装置、终端 - Google Patents

垃圾信息确认方法和装置、终端 Download PDF

Info

Publication number
CN101600178A
CN101600178A CNA2009100883598A CN200910088359A CN101600178A CN 101600178 A CN101600178 A CN 101600178A CN A2009100883598 A CNA2009100883598 A CN A2009100883598A CN 200910088359 A CN200910088359 A CN 200910088359A CN 101600178 A CN101600178 A CN 101600178A
Authority
CN
China
Prior art keywords
information
spam
cell
checking
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100883598A
Other languages
English (en)
Other versions
CN101600178B (zh
Inventor
孟健
孙知信
寇浩
宫婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Huawei Technology Co Ltd
Original Assignee
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Symantec Technologies Co Ltd filed Critical Huawei Symantec Technologies Co Ltd
Priority to CN2009100883598A priority Critical patent/CN101600178B/zh
Publication of CN101600178A publication Critical patent/CN101600178A/zh
Application granted granted Critical
Publication of CN101600178B publication Critical patent/CN101600178B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种垃圾信息确认方法和装置、终端,该方法包括:获取接收到的信息的验证特征信息;将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。本发明实施例提供的垃圾信息确认方法和装置、终端,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。

Description

垃圾信息确认方法和装置、终端
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种垃圾信息确认方法和装置、终端。
背景技术
短信作为移动通信增值服务之一,在为人们提供便捷的同时,也产生了大量垃圾短信。垃圾短信的监管问题受到社会各界的广泛重视,对短信进行必要的内容过滤是营造健康手机环境的重要环节,除了从立法层面对信息发布进行监管外,更重要的是从技术层面探索对垃圾短信的防范技术。
现有的一种手机短信过滤方法是基于手机通讯录进行的,该方法通过提取接收到的短信中发送方的电话号码,然后检查该电话号码是否包含在用户的通讯录中,如果通讯录中没有包含该电话号码,则确认该短信为垃圾短信,由此会导致通讯录以外的电话号码发送的正常短信也被确认为垃圾短信,造成过滤垃圾短信的准确率低。
发明内容
本发明实施例提供一种垃圾信息确认方法和装置、终端,以实现精确的确认垃圾信息。
本发明实施例提供一种垃圾信息确认方法,包括:
获取接收到的信息的验证特征信息;
将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;
若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
本发明实施例提供一种垃圾信息确认装置,包括:
获取模块,用于获取接收到的信息的验证特征信息;
相似度匹配模块,用于将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;
确认模块,用于若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
本发明实施例提供一种终端,该终端包括任一本发明实施例提供的垃圾信息确认装置。
本发明实施例提供的垃圾信息确认方法和装置、终端,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明垃圾信息确认方法实施例一的流程示意图;
图2为本发明垃圾信息确认方法实施例二的流程示意图;
图3为本发明垃圾信息确认方法实施例三的流程示意图;
图4为本发明垃圾信息确认装置实施例一的结构示意图;
图5为本发明垃圾信息确认装置实施例二的结构示意图;
图6为本发明垃圾信息确认装置实施例三的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和具体实施例进一步说明本发明实施例的技术方案。
图1为本发明垃圾信息确认方法实施例一的流程示意图,参见图1,该方法实施例可以包括以下步骤:
步骤101,获取接收到的信息的验证特征信息;
其中,接收到的信息,可以是手机短信、彩信或手机wap网页等信息;验证特征信息是从信息中提取出的、可以表示该信息语义信息的特征。
步骤102,将验证特征信息与预置的垃圾特征信息进行相似度匹配;
本步骤具体可以为将获取到的验证特征信息与预置的垃圾信息库中的垃圾特征信息进行相似度匹配;其中,垃圾信息库是通过对大量的垃圾信息和正常信息进行特征信息分析得到的。
步骤103,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息;
其中,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小于预设阈值,则确认该信息为正常信息。
本发明实施例提供的垃圾信息确认方法,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
图2为本发明垃圾信息确认方法实施例二的流程示意图,参见图2,该方法实施例可以包括以下步骤:
步骤201,将接收到的信息分割为至少一个信元;
当接收到的信息为文字信息时,可以使用分词工具对接收到的信息内容进行分词处理,即将信息内容分割为信元;在进行分词处理前,首先剔除文档中所有与分类任务无关的内容,如标点符号、无意义的连词等;例如,信息A为:XX酒店开业酬宾并举办幸运抽奖,消费满XX元可免费抽奖;对该信息的分词处理结果为将该信息分割为以下信元:XX酒店/开业/酬宾/举办/幸运/抽奖/消费/满/XX元/可/免费/抽奖。
步骤202,根据预设策略,计算出与至少一个信元对应的权重值;
本步骤是根据预设策略,计算出与每个信元对应的权重值;其中,该预设策略可以采用多种算法,例如使用互信息、信息增益、期望交叉熵和文本证据权等特征提取函数来进行计算并提取。采用互信息算法为例,对上述信息A分词得到的信元,计算互信息量,将每个信元对应的互信息量作为每个信元对应的的权重值。
步骤203,根据权重值从至少一个信元中提取至少一个信元作为验证特征信元;
本步骤是根据每个信元对应的权重值从所有的信元中提取一个或多个具有代表性的信元作为验证特征信元;其中,在提取验证特征信元时,可以提取权重值最高的几个(具体个数由实际情况决定,在此并不限制具体的个数)信元作为验证特征信元,也可以提取权重值高低排列位于中间的几个信元作为验证特征信元,在此只是根据信元对应的权重值的高低来提取验证特征信元,而并不限制提取时依据的规则;采用互信息算法对上述信息A分词得到的信元,计算得到每个信元的权重值后,根据权重值的高低提取的验证特征信元为:举办/抽奖/消费/免费,其中上述四个验证特征信元对应的权重值分别为:0.75,0.92,0.77,0.82。
步骤204,根据验证特征信元和验证特征信元对应的权重值,生成验证特征信元对应的验证特征向量;
其中,验证特征信元和验证特征信元对应的验证特征向量包含在验证特征信息之中。根据步骤203提取出的所有验证特征信元和所有验证特征信元对应的权重值生成一个验证特征向量;对文本信息中每个句子提取验证特征信元并表示为验证特征向量,由此用向量的方式表示该信息的语义信息。根据上述信息A的验证特征信元及其对应的权重值,生成的验证特征向量为:{举办,0.75;抽奖,0.92;消费,0.77;免费,0.82}。
步骤205,计算验证特征向量与垃圾特征向量之间的相似度,并将计算得到的相似度与预设阈值进行比较;
本步骤具体可以为:将该信息的验证特征向量与垃圾特征向量库中的垃圾特征向量逐一计算相似度,然后将计算得到的相似度与预设阈值进行比较。其中,两个向量之间的相似度可以用现有的多种算法来计算,例如:两个向量之间夹角的余弦值、欧氏距离或者向量内积距离,都可以用来计算两个向量之间的相似度。两个向量之间夹角的余弦值可以表示为:
Sim ( d , pf ) = ( Σ k = 1 m d k × pf k ) / ( Σ k = 1 m d k 2 ) ( Σ k = 1 m pf k 2 )
其中,d表示验证特征向量,pf表示垃圾特征向量,m表示特征向量的维数,dk表示d中第k个词的权重值,pfk表示pf中第k个词的权重值。
此外,在进行垃圾信息确认方法进行之前,要预先建立垃圾信息库,垃圾信息库包括有垃圾特征信元库和垃圾特征向量库。建立垃圾信息库的方法可以包括:根据大量已知的各类垃圾信息,对每一条垃圾信息进行分词,计算分词得到的每个垃圾信元的权重值,根据权重值提取垃圾特征信元,并根据该垃圾特征信元及其对应的权重值生成该垃圾特征信元对应的垃圾特征向量(即每一条垃圾信息对应的垃圾特征向量),然后将提取的垃圾特征信元添加到垃圾特征信元库中,将该垃圾特征信元对应的垃圾特征向量(垃圾特征信元和权重值)作为一条记录添加到垃圾特征向量库中。具体的分词、计算权重值、提取特征信元、以及生成特征向量的方法,参见上述步骤201到步骤204中相应的描述。
在进行确认垃圾信息之前,还要预先确定预设阈值,具体确定预设阈值的方法可以为:预先设定一预设阈值的初始值,然后使用该初始值对一定数量的测试信息(包括正常信息和垃圾信息)进行垃圾信息确认,再根据垃圾信息确认的准确程度调整初始值,选择能产生最佳性能的阈值作为预设阈值。
步骤206,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息;
具体为,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小于预设阈值,则确认该信息为正常信息。
当确认该信息为垃圾信息后,可以有多种处理方式,比如:直接将该垃圾信息删除;或者,将该垃圾信息放入垃圾箱中,用户可以随时查阅垃圾箱;或者,在将该垃圾信息放入垃圾箱的同时,提示用户收到一个垃圾信息,本发明实施例并不限制对于垃圾信息的处理方法。当确认该信息不是垃圾信息,即确认该信息为正常信息时,向用户正常显示该信息。
本发明方法实施例还可以包括:
步骤207,当确认接收到的信息为垃圾信息时,将该信息的验证特征信息添加到垃圾特征信息中;
当通过步骤201到步骤206确认接收到的信息为垃圾信息时,将该信息的验证特征信息添加到垃圾特征信息中,由此,可以增加后续垃圾信息确认过程的准确性;当然,为了避免垃圾信息库中的垃圾特征信息的存储量过大,也可以在接收到的信息的验证特征信息与垃圾特征信息的相似度非常高或者完全相同时,就不将该信息的验证特征信息添加到垃圾特征信息中。此外,由于垃圾信息库中的垃圾特征信息是通过对大量垃圾信息进行提取得到的,所以某些特殊的垃圾信息或者新类型的垃圾信息的垃圾特征信息可能没有包含在垃圾信息库中,当此类垃圾信息经过步骤201到步骤206的确认后,可能会被确认为正常信息并向用户正常显示,此时若用户确定该信息为垃圾信息,则发送指示该信息为垃圾信息的指示消息,当用户终端接收到该指示消息时,将该信息的验证特征信息添加到垃圾特征信息中,增加了后续垃圾信息确认过程的准确性。
本发明实施例提供的垃圾信息确认方法,通过对将接收到的信息分割为信元,计算得到信元对应的权重值,并根据信元对应的权重值从信元中提取出验证特征信元,从而生成验证特征信元对应的验证特征向量,根据验证特征向量与垃圾特征向量之间的相似度匹配结果,来确认该信息是否为垃圾信息;并且能够及时的添加垃圾特征信息的内容,可以比较精确地确认垃圾信息。
图3为本发明垃圾信息确认方法实施例三的流程示意图,参见图3,该方法实施例可以包括以下步骤:
步骤301,将接收到的信息分割为至少一个信元;
当接收到的信息为文字信息时,可以使用分词工具对接收到的信息内容进行分词处理,即将信息内容分割为信元。
步骤302,根据预设策略,计算出与至少一个信元对应的权重值;
本步骤是根据预设策略,计算出与每个信元对应的权重值;其中,该预设策略可以采用多种算法,例如使用互信息、信息增益、期望交叉熵和文本证据权等特征提取函数来进行计算并提取。
步骤303,根据权重值从至少一个信元中提取至少一个信元作为验证特征信元;
本步骤是根据每个信元对应的权重值从所有的信元中提取一个或多个具有代表性的信元作为验证特征信元;其中,在提取验证特征信元时,可以提取权重值最高的几个信元作为验证特征信元,也可以提取权重值高低排列位于中间的几个信元作为验证特征信元,在此只是根据信元对应的权重值的高低来提取验证特征信元,而并不限制提取时依据的规则。
步骤304,根据验证特征信元和验证特征信元对应的权重值,生成验证特征信元对应的验证特征向量;
其中,验证特征信元和验证特征信元对应的验证特征向量包含在验证特征信息之中。根据步骤303提取出的所有验证特征信元和所有验证特征信元对应的权重值生成一个验证特征向量。
步骤305,将验证特征信元与垃圾特征信元进行匹配;
垃圾信息库中包含有多个垃圾特征信元,将每个验证特征信元与垃圾信息库中的垃圾特征信元逐一进行匹配;其中垃圾信息库的建立方法参见本发明方法实施例二中的描述,在此不再赘述。
步骤306,若存在验证特征信元和垃圾特征信元相匹配,则执行步骤307;
只要存在任意一个验证特征信元与垃圾信息库中的垃圾特征信元相一致,则执行步骤307;否则确认该信息为正常信息;该步骤的目的是防止做无谓的步骤307的计算。
步骤307,计算验证特征向量与垃圾特征向量之间的相似度,并将计算得到的相似度与预设阈值进行比较;
本步骤中计算验证特征向量与垃圾特征向量之间的相似度具体可以包括以下两种计算方式:
一是将验证特征向量与垃圾特征向量库中的垃圾特征向量逐一计算相似度;
二是分别计算验证特征向量与包含和该验证特征信元相匹配的垃圾特征信元的垃圾特征向量之间的相似度;即在将验证特征信元与垃圾特征信元进行匹配后,确定出与验证特征信元相匹配的垃圾特征信元以及包含这些垃圾特征信元所对应的权重值的垃圾特征向量,然后仅仅将该验证特征向量与前述确定的垃圾特征向量进行相似度计算。
本步骤可以包括上述两种方式中的任意一种,计算得到相似度后,将该相似度与预设阈值进行比较。本步骤中向量之间的相似度的算法以及预设阈值的设置方法可以参加本发明方法实施例二中的描述,在此不再赘述。
步骤308,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息;
具体为,若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小于预设阈值,则确认该信息为正常信息。
步骤309,当确认接收到的信息为垃圾信息时,将该信息的验证特征信息添加到所述垃圾特征信息中;
当通过步骤301到步骤308确认接收到的信息为垃圾信息时,将该信息的验证特征信息添加到垃圾特征信息中;当然,为了避免垃圾信息库中的垃圾特征信息的存储量过大,也可以在接收到的信息的验证特征信息与垃圾特征信息的相似度非常高或者完全相同时,就不将该信息的验证特征信息添加到垃圾特征信息中。此外,某些垃圾信息经过上述确认垃圾信息的步骤后,可能会被确认为正常信息并向用户正常显示,此时若用户确定该信息为垃圾信息,则发送指示该信息为垃圾信息的指示消息,当用户终端接收到该指示消息时,将该信息的验证特征信息添加到垃圾特征信息中。
本发明方法实施例三除了具有本发明方法实施例二的优点以外,还增加了预先对验证特征信元进行匹配。当验证特征信元与垃圾特征信元相匹配时,才进行验证特征向量的相似度匹配;当没有验证特征信元与垃圾特征信元相匹配时,则直接确认该信息为正常信息,而无需再进行验证特征向量的相似度匹配;由于验证特征信元的匹配比验证特征向量的匹配过程简单,因此本实施例简化了对每条信息都进行验证特征向量匹配的过程。
图4为本发明垃圾信息确认装置实施例一的结构示意图,参见图4,该装置实施例具体可以包括:
获取模块41,用于获取接收到的信息的验证特征信息;
相似度匹配模块43,用于将获取模块41获得的验证特征信息与预置的垃圾特征信息进行相似度匹配;
确认模块45,用于若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息。
获取模块41从接收到的信息中获取验证特征信息,其中,接收到的信息可以是手机短信、彩信或手机wap网页等信息,验证特征信息是从信息中提取出的、可以表示该信息语义信息的特征;相似度匹配模块43根据垃圾特征信息,将获取模块41获得的验证特征信息与预置的垃圾信息库中的垃圾特征信息进行相似度匹配,其中,垃圾信息库是通过对大量的垃圾信息和正常信息进行特征信息分析得到的;若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认模块45确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小于预设阈值,则确认模块45确认该信息为正常信息。
本发明实施例提供的垃圾信息确认装置,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
图5为本发明垃圾信息确认装置实施例二的结构示意图,参见图5,该装置实施例具体可以包括:
获取模块51,用于获取接收到的信息的验证特征信息;
其中,获取模块51具体可以包括:
分割单元511,用于将信息分割为至少一个信元;
权重值计算单元513,用于根据预设策略,计算出与至少一个信元对应的权重值;
提取单元515,用于根据权重值从至少一个信元中提取至少一个信元作为验证特征信元;
向量生成单元517,用于根据验证特征信元和验证特征信元对应的权重值,生成验证特征信元对应的验证特征向量;
其中,验证特征信元和验证特征信元对应的验证特征向量包含在验证特征信息之中。
当接收到的信息为文字信息时,分割单元511可以使用分词工具对接收到的信息内容进行分词处理,即将信息内容分割为信元;权重值计算单元513根据预设策略计算出每个信元对应的权重值,其中,该预设策略可以采用多种算法,例如使用互信息、信息增益、期望交叉熵和文本证据权等特征提取函数来进行计算;提取单元515根据每个信元对应的权重值的高低从所有的信元中提取一个或多个具有代表性的信元作为验证特征信元;向量生成单元517根据提取单元515提取出的所有验证特征信元和所有验证特征信元对应的权重值生成一个验证特征向量。
相似度匹配模块53,用于将验证特征信息与预置的垃圾特征信息进行相似度匹配;
相似度匹配模块53具体可以包括第一相似度计算单元531和第一相似度比较单元533。第一相似度计算单元531用于计算验证特征向量与垃圾信息库中的垃圾特征向量之间的相似度;其中垃圾特征信息包括垃圾特征信元和垃圾特征信元对应的垃圾特征向量。第一相似度比较单元533用于将第一相似度计算单元531计算得到的相似度与预设阈值进行比较。其中,两个向量之间的相似度可以用现有的多种算法来计算,例如:两个向量之间夹角的余弦值、欧氏距离或者向量内积距离,都可以用来计算两个向量之间的相似度。此外,垃圾信息库的建立方法和预设阈值的设置方法参见本发明方法实施例中的描述,在此不再赘述。
确认模块55,用于若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认该信息为垃圾信息;
若验证特征信息与垃圾特征信息之间的相似度不小于预设阈值,则确认模块55确认该信息为垃圾信息,若验证特征信息与垃圾特征信息之间的相似度小于预设阈值,则确认模块55确认该信息为正常信息。
特征添加模块57,用于当确认接收到的信息为垃圾信息时,将该信息的验证特征信息添加到所述垃圾特征信息中;
当通过上述各个模块确认接收到的信息为垃圾信息时,特征添加模块57将该信息的验证特征信息添加到垃圾特征信息中,由此,可以增加后续垃圾信息确认过程的准确性;当然,为了避免垃圾信息库中的垃圾特征信息的存储量过大,也可以在接收到的信息的验证特征信息与垃圾特征信息的相似度非常高或者完全相同时,就不将该信息的验证特征信息添加到垃圾特征信息中。此外,某些垃圾信息经过上述模块的确认后,可能会被确认为正常信息并向用户正常显示,此时若用户确定该信息为垃圾信息,则发送指示该信息为垃圾信息的指示消息,当特征添加模块57接收到该指示消息时,将该信息的验证特征信息添加到垃圾特征信息中。
本发明实施例提供的垃圾信息确认装置,通过对将接收到的信息分割为信元,计算得到信元对应的权重值,并根据信元对应的权重值从信元中提取出验证特征信元,从而生成验证特征信元对应的验证特征向量,根据验证特征向量与垃圾特征向量之间的相似度匹配结果,来确认该信息是否为垃圾信息;并且能够及时的添加垃圾特征信息的内容,可以比较精确地确认垃圾信息。
图6为本发明垃圾信息确认装置实施例三的结构示意图,参见图6,本发明装置实施例三与本发明装置实施例二的区别在于,相似度匹配模块63具体可以包括:
信元匹配单元631,用于将验证特征信元与垃圾特征信元进行匹配;
判断单元633,用于判断验证特征信元和垃圾特征信元是否相匹配;
第二相似度计算单元635,用于若存在验证特征信元和垃圾特征信元相匹配,则计算验证特征向量与垃圾特征向量之间的相似度,或者,计算验证特征向量与包含和该验证特征信元相匹配的垃圾特征信元的垃圾特征向量之间的相似度;
第二相似度比较单元637,用于将第二相似度计算单元635计算得到的相似度与预设阈值进行比较。
本实施例中的获取模块61、确认模块65和特征添加模块67,分别相当于本发明装置实施例二中的获取模块51、确认模块55和特征添加模块57,在此不再赘述。
当通过获取模块61获取到信息的验证特征信元和验证特征向量后,信元匹配单元631将每个验证特征信元与垃圾信息库中的垃圾特征信元逐一进行匹配;判断单元633判断匹配单元631匹配的结果,只要存在任意一个验证特征信元与垃圾信息库中的垃圾特征信元相一致,则通过第二相似度计算单元635和第二相似度比较单元637进行相似度匹配。其中,第二相似度计算单元635计算相似度的过程为:将验证特征向量与垃圾特征向量库中的垃圾特征向量逐一计算相似度;或者在将验证特征信元与垃圾特征信元进行匹配后,确定出与验证特征信元相匹配的垃圾特征信元以及包含这些垃圾特征信元所对应的权重值的垃圾特征向量,然后仅仅将该验证特征向量与前述确定的垃圾特征向量进行相似度计算。
本发明装置实施例三除了具有本发明装置实施例二的优点以外,还增加了预先对验证特征信元进行匹配。当验证特征信元与垃圾特征信元相匹配时,才进行验证特征向量的相似度匹配;当没有验证特征信元与垃圾特征信元相匹配时,则直接确认该信息为正常信息,而无需再进行验证特征向量的相似度匹配;由于验证特征信元的匹配比验证特征向量的匹配过程简单,因此本实施例简化了对每条信息都进行验证特征向量匹配的过程。
本发明实施例还提供了一种终端,该终端包括上述各个本发明装置实施例之中提供的垃圾信息确认装置,该终端具体的结构和功能参见上述各个本发明实施例之中的描述,在此不再赘述。
本发明实施例提供的终端,通过获取接收到的信息的验证特征信息,并根据垃圾特征信息对该验证特征信息进行相似度匹配,由相似度匹配结果来确认该信息是否为垃圾信息,可以比较精确地确认垃圾信息。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1、一种垃圾信息确认方法,其特征在于,包括:
获取接收到的信息的验证特征信息;
将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;
若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
2、根据权利要求1所述的方法,其特征在于,所述验证特征信息包括验证特征信元和根据所述验证特征信元得到的与所述验证特征信元对应的验证特征向量;所述获取接收到的信息的验证特征信息包括:
将所述信息分割为至少一个信元;
根据预设策略,计算出与所述至少一个信元对应的权重值;
根据所述权重值从所述至少一个信元中提取至少一个信元作为验证特征信元;
根据所述验证特征信元和所述验证特征信元对应的权重值,生成所述验证特征信元对应的验证特征向量。
3、根据权利要求2所述的方法,其特征在于,所述垃圾特征信息包括垃圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾特征向量,所述将所述验证特征信息与预置的垃圾特征信息进行相似度匹配包括:
计算所述验证特征向量与所述垃圾特征向量之间的相似度;
将所述相似度与预设阈值进行比较。
4、根据权利要求2所述的方法,其特征在于,所述垃圾特征信息包括垃圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾特征向量,所述将所述验证特征信息与预置的垃圾特征信息进行相似度匹配包括:
将所述验证特征信元与垃圾特征信元进行匹配;
若所述验证特征信元和垃圾特征信元相匹配,则计算所述验证特征向量与垃圾特征向量之间的相似度;
将所述相似度与预设阈值进行比较。
5、根据权利要求1-4任一所述的方法,其特征在于,还包括:
当确认所述信息为垃圾信息时,将所述信息的验证特征信息添加到所述垃圾特征信息中。
6、一种垃圾信息确认装置,其特征在于,包括:
获取模块,用于获取接收到的信息的验证特征信息;
相似度匹配模块,用于将所述验证特征信息与预置的垃圾特征信息进行相似度匹配;
确认模块,用于若所述验证特征信息与所述垃圾特征信息之间的相似度不小于预设阈值,则确认所述信息为垃圾信息。
7、根据权利要求6所述的装置,其特征在于,所述验证特征信息包括验证特征信元和根据所述验证特征信元得到的与所述验证特征信元对应的验证特征向量,所述获取模块包括:
分割单元,用于将所述信息分割为至少一个信元;
权重值计算单元,用于根据预设策略,计算出与所述至少一个信元对应的权重值;
提取单元,用于根据所述权重值从所述至少一个信元中提取至少一个信元作为验证特征信元;
向量生成单元,用于根据所述验证特征信元和所述验证特征信元对应的权重值,生成所述验证特征信元对应的验证特征向量。
8、根据权利要求7所述的装置,其特征在于,所述垃圾特征信息包括垃圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾特征向量,所述相似度匹配模块包括:
第一相似度计算单元,用于计算所述验证特征向量与所述垃圾特征向量之间的相似度;
第一相似度比较单元,用于将所述相似度与预设阈值进行比较。
9、根据权利要求7所述的装置,其特征在于,所述垃圾特征信息包括垃圾特征信元和根据所述垃圾特征信元得到的与所述垃圾特征信元对应的垃圾特征向量,所述相似度匹配模块包括:
信元匹配单元,用于将所述验证特征信元与垃圾特征信元进行匹配;
判断单元,用于判断所述验证特征信元和垃圾特征信元是否相匹配;
第二相似度计算单元,用于若所述验证特征信元和垃圾特征信元相匹配,则计算所述验证特征向量与所述垃圾特征向量之间的相似度;
第二相似度比较单元,用于将所述相似度与预设阈值进行比较。
10、根据权利要求6-9任一所述的装置,其特征在于,还包括:
特征添加模块,用于当确认所述信息为垃圾信息时,将所述信息的验证特征信息添加到所述垃圾特征信息中。
11、一种终端,其特征在于,包括权利要求6-10之中任意一项权利要求所述的垃圾信息确认装置。
CN2009100883598A 2009-06-26 2009-06-26 垃圾信息确认方法和装置、终端 Expired - Fee Related CN101600178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100883598A CN101600178B (zh) 2009-06-26 2009-06-26 垃圾信息确认方法和装置、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100883598A CN101600178B (zh) 2009-06-26 2009-06-26 垃圾信息确认方法和装置、终端

Publications (2)

Publication Number Publication Date
CN101600178A true CN101600178A (zh) 2009-12-09
CN101600178B CN101600178B (zh) 2012-04-04

Family

ID=41421374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100883598A Expired - Fee Related CN101600178B (zh) 2009-06-26 2009-06-26 垃圾信息确认方法和装置、终端

Country Status (1)

Country Link
CN (1) CN101600178B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930458A (zh) * 2010-08-18 2010-12-29 杭州东信北邮信息技术有限公司 一种基于特征值的短信匹配方法
CN102541899A (zh) * 2010-12-23 2012-07-04 阿里巴巴集团控股有限公司 一种信息识别方法及设备
CN102572744A (zh) * 2010-12-13 2012-07-11 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN102970663A (zh) * 2012-11-29 2013-03-13 北京小米科技有限责任公司 一种处理短信的方法及装置
CN103369486A (zh) * 2013-08-01 2013-10-23 上海粱江通信系统股份有限公司 诈骗短信防范系统与防范方法
CN103813279A (zh) * 2012-11-14 2014-05-21 中国移动通信集团设计院有限公司 一种垃圾短信检测方法及装置
CN104008105A (zh) * 2013-02-25 2014-08-27 腾讯科技(北京)有限公司 一种识别垃圾文本的方法和装置
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN105022815A (zh) * 2015-07-13 2015-11-04 腾讯科技(深圳)有限公司 信息拦截方法及装置
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN105491444A (zh) * 2015-11-25 2016-04-13 珠海多玩信息技术有限公司 一种数据识别处理方法以及装置
CN106817472A (zh) * 2015-12-02 2017-06-09 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1922837A (zh) * 2004-05-14 2007-02-28 布赖特梅有限公司 基于相似性量度过滤垃圾邮件的方法和装置
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
WO2008053426A1 (en) * 2006-10-31 2008-05-08 International Business Machines Corporation Identifying unwanted (spam) sms messages
CN101350957B (zh) * 2008-07-28 2011-04-06 杨沁沁 屏蔽垃圾短信的方法和设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930458A (zh) * 2010-08-18 2010-12-29 杭州东信北邮信息技术有限公司 一种基于特征值的短信匹配方法
CN102572744A (zh) * 2010-12-13 2012-07-11 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置
CN102572744B (zh) * 2010-12-13 2014-11-05 中国移动通信集团设计院有限公司 识别特征库获取方法、装置及短消息识别方法、装置
CN102541899A (zh) * 2010-12-23 2012-07-04 阿里巴巴集团控股有限公司 一种信息识别方法及设备
CN102541899B (zh) * 2010-12-23 2014-04-16 阿里巴巴集团控股有限公司 一种信息识别方法及设备
CN102890688B (zh) * 2011-07-22 2018-01-02 深圳市世纪光速信息技术有限公司 一种自动提交内容的检测方法以及装置
CN102890688A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种自动提交内容的检测方法以及装置
CN103813279A (zh) * 2012-11-14 2014-05-21 中国移动通信集团设计院有限公司 一种垃圾短信检测方法及装置
CN102970663A (zh) * 2012-11-29 2013-03-13 北京小米科技有限责任公司 一种处理短信的方法及装置
CN104008105A (zh) * 2013-02-25 2014-08-27 腾讯科技(北京)有限公司 一种识别垃圾文本的方法和装置
CN103369486A (zh) * 2013-08-01 2013-10-23 上海粱江通信系统股份有限公司 诈骗短信防范系统与防范方法
CN104794125A (zh) * 2014-01-20 2015-07-22 中国科学院深圳先进技术研究院 一种垃圾短信的识别方法及装置
CN105022815A (zh) * 2015-07-13 2015-11-04 腾讯科技(深圳)有限公司 信息拦截方法及装置
CN105138611A (zh) * 2015-08-07 2015-12-09 北京奇虎科技有限公司 短信类别识别方法及装置
CN105491444A (zh) * 2015-11-25 2016-04-13 珠海多玩信息技术有限公司 一种数据识别处理方法以及装置
CN105491444B (zh) * 2015-11-25 2018-11-06 珠海多玩信息技术有限公司 一种数据识别处理方法以及装置
CN106817472A (zh) * 2015-12-02 2017-06-09 华为技术有限公司 一种通讯账号确定方法、终端设备及服务器
CN108733730A (zh) * 2017-04-25 2018-11-02 北京京东尚科信息技术有限公司 垃圾消息拦截方法和装置
CN108171529A (zh) * 2017-12-04 2018-06-15 昆明理工大学 一种地址相似度评估方法
CN108171529B (zh) * 2017-12-04 2021-09-14 昆明理工大学 一种地址相似度评估方法
CN114528404A (zh) * 2022-02-18 2022-05-24 浪潮卓数大数据产业发展有限公司 一种识别省市区的方法及装置

Also Published As

Publication number Publication date
CN101600178B (zh) 2012-04-04

Similar Documents

Publication Publication Date Title
CN101600178B (zh) 垃圾信息确认方法和装置、终端
US8126484B2 (en) Apparatus and methods of sharing contact information between mobile communication devices using short message service
CN101534261B (zh) 一种垃圾消息的识别方法、装置和系统
CN101071418B (zh) 聊天方法与系统
CN103067896B (zh) 垃圾短信过滤方法及装置
CN101697238B (zh) 一种nfc移动终端及其刷卡考勤提示方法和装置
CN101438283A (zh) 用于本地字轮/web搜索的基于人口统计的分类
CN102541937A (zh) 一种网页信息探测方法及系统
CN103200293A (zh) 一种导入通讯录文件过程中自动合并重名联系人的方法
CN101989289A (zh) 数据聚类方法和装置
CN104184763A (zh) 一种反馈信息处理方法及系统、服务设备
CN101631341A (zh) 信息的识别方法及移动终端
CN101807399A (zh) 一种语音识别方法及装置
CN111931491A (zh) 领域词典构建方法及装置
CN101389085B (zh) 基于发送行为的垃圾短消息识别系统及方法
CN104053131A (zh) 一种文本通讯信息处理方法及相关设备
CN105808583A (zh) 文件类型识别方法及装置
CN104038639A (zh) 一种终端通讯方法和终端
CN102811288A (zh) 一种通话信息的记录方法及设备
CN112185417B (zh) 人工合成语音检测方法、装置、计算机设备及存储介质
CN105808602B (zh) 一种垃圾信息的检测方法及装置
CN103810280A (zh) 一种微博话题检测方法
CN105898722B (zh) 一种非正常短信息的鉴别方法、装置和电子设备
CN101329668A (zh) 一种信息规则生成方法及装置、信息类型判断方法及系统
CN112417886A (zh) 意图实体信息抽取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP03 Change of name, title or address

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Address before: High tech Park No. 88 University of Electronic Science and technology of Sichuan province 611731 Chengdu Tianchen Road

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20220905

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120404

CF01 Termination of patent right due to non-payment of annual fee