CN103970832A - 一种识别垃圾信息的方法与装置 - Google Patents

一种识别垃圾信息的方法与装置 Download PDF

Info

Publication number
CN103970832A
CN103970832A CN201410128835.5A CN201410128835A CN103970832A CN 103970832 A CN103970832 A CN 103970832A CN 201410128835 A CN201410128835 A CN 201410128835A CN 103970832 A CN103970832 A CN 103970832A
Authority
CN
China
Prior art keywords
information
identified
junk
user
junk information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410128835.5A
Other languages
English (en)
Inventor
刘昊
施鹏
张书娟
王坚
牛章鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410128835.5A priority Critical patent/CN103970832A/zh
Publication of CN103970832A publication Critical patent/CN103970832A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Abstract

本发明的目的是提供一种识别垃圾信息的方法与装置。其中,本发明通过将已识别信息和待识别信息提供给用户来进行垃圾信息判断,并根据其中每个用户判断垃圾信息的准确率来确定待识别信息是否属于垃圾信息。根据本发明的方案,其一方面可以解决采用单纯的技术手段不能全面识别垃圾信息的问题,以提供更加纯净的网络环境,提升用户的使用体验;另一方面,可以使得企业不再需要雇佣审查专员来进行垃圾信息识别的工作,降低了企业成本,同时提高了垃圾信息的识别效率。进一步地,本发明通过确定用户对已识别信息进行垃圾信息判断的准确率,还可以解决一部分用户误判的问题,提升整体判断待识别信息是否属于垃圾信息的准确度。

Description

一种识别垃圾信息的方法与装置
技术领域
本发明涉及网络信息技术领域,尤其涉及一种识别垃圾信息的技术。
背景技术
当前,在互联网社区产品中,如百度贴吧、新浪微博等,普遍存在垃圾信息,这些垃圾信息中包含恶意推广、甚至欺诈的内容,从而会伤害用户正常使用互联网社区产品的体验。
现有技术中,识别垃圾信息的方式主要包括以下2种:1)采用单纯的技术手段来进行识别,然而,由于垃圾信息的发布者会发布包含各种内容的垃圾信息,因此,采用这种方式不能完全有效地识别全部垃圾信息,且具有一定的滞后性;2)人工进行识别,然而,人工审核成本较高,且效率较低。
发明内容
本发明的目的是提供一种识别垃圾信息的方法与装置。
根据本发明的一个方面,提供了一种识别垃圾信息的方法,该方法包括:
-将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断;
-获取所述一个或多个用户所反馈的对所述已识别信息和所述待识别信息的判断结果;
-根据其中每个用户对所述已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率;
-根据所述一个或多个用户对所述待识别信息的判断结果,并结合所述一个或多个用户判断垃圾信息的准确率,来确定所述待识别信息是否属于垃圾信息。
根据本发明的另一个方面,还提供了一种识别垃圾信息的装置,该装置包括:
-用于将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断的装置;
-用于获取所述一个或多个用户所反馈的对所述已识别信息和所述待识别信息的判断结果的装置;
-用于根据其中每个用户对所述已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率的装置;
-用于根据所述一个或多个用户对所述待识别信息的判断结果,并结合所述一个或多个用户判断垃圾信息的准确率,来确定所述待识别信息是否属于垃圾信息的装置。
与现有技术相比,本发明通过将已识别信息和待识别信息提供给用户来进行垃圾信息判断,并根据其中每个用户判断垃圾信息的准确率来确定待识别信息是否属于垃圾信息。根据本发明的识别垃圾信息的方案,其一方面可以解决采用单纯的技术手段不能全面识别垃圾信息的问题,以提供更加纯净的网络环境,提升用户的使用体验;另一方面,可以使得企业不再需要雇佣审查专员来进行垃圾信息识别的工作,降低了企业成本,同时提高了垃圾信息的识别效率。进一步地,本发明通过确定用户对已识别信息进行垃圾信息判断的准确率,还可以解决一部分用户误判的问题,提升整体判断待识别信息是否属于垃圾信息的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面的一种识别垃圾信息的方法的流程图;
图2示出根据本发明另一个方面的一种识别垃圾信息的装置的示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明中对垃圾信息的识别通过网络设备和用户设备的交互来实现。具体地,网络设备将已识别信息和待识别信息提供给一个或多个用户设备;接着,用户设备对已识别信息和待识别信息进行呈现,以供用户进行垃圾信息判断;随后,用户设备将用户所反馈的对待识别信息和已识别信息的判断结果提供给网络设备,相应地,网络设备获取这些判断结果;接着,网络设备根据其中每个用户对已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率;随后,网络设备根据用户对待识别信息的判断结果,并结合用户判断垃圾信息的准确率,来确定待识别信息是否属于垃圾信息。
在此,用户设备包括但不限于任何一种可与用户通过键盘、触摸板以及声控设备等输入设备进行人机交互的电子产品,例如计算机、手机、智能手机、PDA、平板电脑等。
在此,网络设备包括但不限于网络主机、单个网络服务器、多个网络服务器集合或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集合组成的一个超级虚拟计算机。
进一步地,本发明中,多个网络设备可作为整体或由其中部分网络设备,甚至装置于一个或多个网络设备中的特定装置,如信息识别装置,来与用户设备进行交互并获取其所提供的判断结果进而识别垃圾信息。如无特别说明,本文中网络设备与信息识别装置等同使用。
图1为根据本发明一个方面的方法流程图,示出一种识别垃圾信息的过程。如图1所示,在步骤S1中,网络设备1将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断;在步骤S2中,用户设备2对已识别信息和待识别信息进行呈现以供用户进行垃圾信息判断;在步骤S3中,网络设备1获取用户所反馈的对已识别信息和待识别信息的判断结果;在步骤S4中,网络设备1根据其中每个用户对已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率;在步骤S5中,网络设备1根据用户对待识别信息的判断结果,并结合用户判断垃圾信息的准确率,来确定待识别信息是否属于垃圾信息。
上述各步骤之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各步骤分别实时地,或者按照设定的或实时调整的工作模式要求,网络设备1进行已识别信息和待识别信息的提供、判断结果的获取、用户对已识别信息判断准确率的确定以及待识别信息是否属于垃圾信息的确定。
具体地,在步骤S1中,网络设备1将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断。
在此,已识别信息意指经识别已明确可知其是否属于垃圾信息的信息。
网络设备1将已识别信息提供给一个或多个用户来进行垃圾信息判断,以在后续的步骤中用于确定用户进行垃圾信息判断的准确率,进而结合该准确率来确定待识别信息是否属于垃圾信息。
在此,待识别信息意指未知的需进行识别来判断其是否属于垃圾信息的信息。
待识别信息和已识别信息在形式上可以没有差别,也即,在向用户提供时不必对这两种信息进行区分。这两种信息的差别在于,通过用户对待识别信息进行垃圾信息判断来确定待识别信息是否属于垃圾信息,而已识别信息是否属于垃圾信息是已知的,用于在后续的步骤中根据用户反馈来确定用户判断垃圾信息的准确率。
网络设备1可将任何不确定是否属于垃圾信息的信息作为待识别信息。优选地,网络设备1也可获取一个或多个待处理信息,接着,网络设备1通过垃圾信息的特征模型来对待处理信息进行筛选,以获得待识别信息。
其中,待处理信息意指,网络中发布的任何需要用来确定其是否属于垃圾信息的信息。
网络设备1可从其资料库中或从其他设备处获得网络中发布的任意信息,如各种内容网页,具体如用户帖子、博客等,这些信息即为待处理信息;接着,网络设备1通过垃圾信息的特征模型来对待处理信息进行评估,以获取待处理信息对应的垃圾信息概率;随后,网络设备1根据预定的阈值来对待处理信息进行筛选,以获取其中垃圾信息概率介于预定的垃圾信息阈值和预定的非垃圾信息阈值之间的信息,这些信息即为待识别信息。可替代地,网络设备1也可将所有非垃圾信息均作为待识别信息,也即对应垃圾信息概率高于预定的非垃圾信息阈值的信息均为非垃圾信息,从而可作为待识别信息。
网络设备1可以将已识别信息和待识别信息按照各种组合方式提供给用户,如按照随机数量组合后提供给用户,或按照预定比例组合后提供给用户。
例如,网络设备1可以将任意数量的已识别信息和任意数量的待识别信息组合后提供给用户来进行垃圾信息判断。
又如,网络设备1可以按照预定比例将已识别信息和待识别信息组合后提供给用户来进行垃圾信息判断。其中,已识别信息的比例可较低,从而待识别信息可占比较多地提供给用户,以由用户来尽快识别更多数量的待识别信息,提高计算处理的效率。已识别信息的比例也可较高,从而待识别信息可占比较少地提供给用户,以在后续步骤中更精准地通过较多的已识别信息来确定用户进行垃圾信息判断的准确率。
此外,网络设备1也可将待识别信息和已识别信息提供给较少或较多的用户来进行垃圾信息判断。
例如,网络设备1可以将待识别信息和已识别信息提供给一个用户来进行垃圾信息判断,从而可以更迅速地得到用户反馈,进而确定待识别信息是否属于垃圾信息,以提高计算处理的效率。
又如,网络设备1可以将待识别信息和已识别信息提供给多个用户来进行垃圾信息判断,从而可以在后续步骤中获取多个用户所反馈的对同一个待识别信息的多个判断结果,以综合这些判断结果来更准确地确定待识别信息是否属于垃圾信息。
进一步地,网络设备1还可以将待识别信息进行分组,以将不同的待识别信息组与已识别信息组合后分发给不同的用户来进行垃圾信息判断。
例如,对于待识别信息A、B、C、D、E,网络设备1可以按照每组中包含3个待识别信息的方式进行分组,以获取ABC、ABD、BCD、BDE、CDE共计5个待识别信息组。网络设备1向5个用户甲、乙、丙、丁、戊分别提供1个待识别信息组和已识别信息,如向用户甲提供ABC,向用户乙提供BCD,向用户丙提供CDE、向用户丁提供BDE、向用户戊提供ABD,以使不同用户对不同的待识别信息组进行垃圾信息判断。其中,网络设备1向这些用户提供的已识别信息也可以是相同的或不同的。
由于每个用户判断垃圾信息的速度可能是不同的,网络设备1对待识别信息进行分组,可以减少每个用户判断待识别信息的数量,从而提高计算处理的效率。当其中任一用户先于其他用户完成判断时,网络设备1还可继续向该用户提供其它待识别信息,以在后续的步骤中获取更多的对待识别信息的判断结果。
网络设备1也可对已识别信息进行分组,或分别对已识别信息和待识别信息进行分组,分组的方式与上述对待识别信息分组的方式相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
本领域技术人员应能理解上述网络设备1将已识别信息和待识别信息提供给用户的方式仅为举例,其他现有的或今后可能出现的网络设备1将已识别信息和待识别信息提供给用户的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在步骤S2中,用户设备2对已识别信息和待识别信息进行呈现以供用户进行垃圾信息判断。
例如,用户设备2在页面的中间部分向用户呈现待识别信息,在页面的右侧向用户呈现已识别信息。本领域技术人员应能理解,前述举例仅用于解释说明本发明之目的,而不应被理解为对本发明的任何限制,其他现有或将来的已识别信息和待识别信息的呈现方式,诸如在页面中混合呈现已识别信息和待识别信息、分别在页面上部和下部呈现待识别信息和已识别信息等,如其可适用于本发明,则均应被包含在本发明的专利保护范围之内。
在此,用户设备2还可在每条信息的邻近区域,诸如右侧、下侧等区域,呈现判断结果选项,如“A属于垃圾信息”、“B不确定”、“C不属于垃圾信息”,以供用户选择相应判断结果选项。
进一步地,用户设备2可一次性地呈现所有已识别信息和待识别信息,也可逐条地进行呈现。
在步骤S3中,当用户提交判断结果后,用户设备2将该判断结果提供给网络设备1。据此,网络设备1获取一个或多个用户所反馈的对已识别信息和待识别信息的判断结果。
在此,为简单说明起见,本发明多以判断结果包括属于垃圾信息、不确定、不属于垃圾信息这3种判断结果来进行举例。然而,本领域技术人员应能理解,上述举例仅用于说明本发明之目的,而不应被理解为对本发明的任何限制,其他现有的或今后可能出现的其他判断结果的类型和/或表现形式如可适用于本发明,也应包含在本发明的专利保护范围之内,并以引用方式包含于此。
在步骤S4中,网络设备1根据其中每个用户对已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率。
由于网络设备1已知这些已识别信息的正确判断结果,将其与用户对已识别信息的判断结果进行比较,以确定用户对已识别信息判断正确的数量,进而结合相应用户所判断已识别信息的总数量来确定每个用户判断垃圾信息的准确率。
例如,第i个用户对3个已识别信息的判断结果为:已识别信息1属于垃圾信息、已识别信息2不确定、已识别信息3不属于垃圾信息;相应的正确判断结果为:已识别信息1属于垃圾信息、已识别信息2不属于垃圾信息、已识别信息3不属于垃圾信息;在此采用m′i来表示第i个用户对已识别信息判断正确的数量,即m′i=2,采用mi来表示第i个用户所识别的已识别信息的总数量,即mi=3,采用Pi来表示第i个用户判断垃圾信息的准确率,其具体计算方式如下:
P i = m i ′ m i
因此,网络设备1可确定第i个用户判断垃圾信息的准确率为0.667。
在步骤S5中,网络设备1根据一个或多个用户对待识别信息的判断结果,并结合一个或多个用户判断垃圾信息的准确率,来确定待识别信息是否属于垃圾信息。
在此,网络设备1确定待识别信息是否属于垃圾信息的方式包括但不限于以下方式:
1)网络设备1选择判断垃圾信息的准确率较高的一个或多个用户,根据该(等)用户对待识别信息的判断结果,来确定待识别信息是否属于垃圾信息。
例如,网络设备1选择判断垃圾信息的准确率最高的一个用户,并根据该用户对待识别信息的判断结果来确定相应待识别信息是否属于垃圾信息。
又如,网络设备1选择判断垃圾信息的准确率排前的10个用户,并根据这些用户对待识别信息的判断结果来确定待识别信息是否属于垃圾信息,如对一条待识别信息的10个判断结果,其中8个判断结果为“属于垃圾信息”,另2个判断结果为“不属于垃圾信息”,网络设备1可确定待识别信息属于垃圾信息。
再如,网络设备1按照预定的准确率阈值来筛选判断垃圾信息的准确率高于该阈值的用户,并根据这些用户对待识别信息的判断结果来确定待识别信息是否属于垃圾信息,如其中超过半数的用户判断一待识别信息属于垃圾信息,则将相应待识别信息确定为垃圾信息。
其中,网络设备1统计用户反馈的判断结果,将一条待识别信息是否属于垃圾信息判断为“不确定”,网络设备1随后可将该待识别信息再次提供给用户以进行垃圾信息判断。在此,再次被提供的用户与之前已判断过相应待识别信息的用户之间可部分重合,也可完全不同。
进一步地,当一条待识别信息的判断结果中“属于垃圾信息”和“不属于垃圾信息”的数量相等时,网络设备1也可将该待识别信息再次提供给用户以进行垃圾信息判断,或直接将该待识别信息判断为“属于垃圾信息”。
2)网络设备1根据每个用户对待识别信息的判断结果及其判断垃圾信息的准确率,以及这些用户对待识别信息的判断结果的统计值,来确定待识别信息是否属于垃圾信息。
网络设备1可采用数值来分别表示不同的判断结果,例如,采用Rij来表示第i个用户对第j个待识别信息的判断结果所对应的数值,当判断结果为“属于垃圾信息”时,Rij=-1;当判断结果为“不确定”时,Rij=0;当判断结果为“不属于垃圾信息”时,Rij=1。
定义n为判断结果的总数量,由于不同的待识别信息的判断结果中“不确定”的判断结果的数量可能不同,为去除掉“不确定”的判断结果,第j个待识别信息的判断结果的统计值如下式所示:
Σ i = 1 n | R ij |
定义第j个待识别信息的最终判断结果为Fj,因此,可采用以下公式来计算得出Fj
F j = Σ i = 1 n P i × R ij Σ i = 1 n | R ij |
其中,Pi为第i个用户判断垃圾信息的准确率。
本领域技术人员容易理解,Fj的数值范围为-1至1之间;网络设备1将Fj的数值与常数C进行比较,以确定待识别信息是否属于垃圾信息。
例如,为简单起见,设定C=0,当Fj<C时,第j个待识别信息属于垃圾信息;当Fj>C时,第j个待识别信息不属于垃圾信息。本领域技术人员应能理解,常数C也可设定为-1至1之间的其它数值。
本领域技术人员还应能理解上述网络设备1确定待识别信息是否属于垃圾信息的方式仅为举例,其他现有的或今后可能出现的网络设备1确定待识别信息是否属于垃圾信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本发明中,用于识别待处理信息是否属于垃圾信息的垃圾信息特征模型可以是网络设备1采集垃圾信息的特征信息后建立的,也可以由其他设备采用相同或类似方式建立后,网络设备1访问该其他设备,以请求调用该垃圾信息的特征模型来对待处理信息进行识别。
优选地,垃圾信息的特征模型基于以下至少任一项信息来建立:
1)与账号发布行为相关的信息,其具体包括但不限于以下至少任一项:
1.1)同一账号发布信息所对应的地点数量大于预定阈值。
一些垃圾信息的发布者为避免IP地址被封禁,会采用特定的发布软件来使用同一账号通过不同的IP地址发布信息,以逃避IP地址被封禁而无法发布信息的问题。因此,如果同一账号发布信息所对应的地点数量大于预定阈值,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息所对应的地点数量大于预定阈值作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布的多个信息各自对应的地点可以根据历史记录中各信息所源自的IP地址来分别确定。
1.2)同一账号发布信息的频率大于预定阈值。
一般而言,垃圾信息的发布者为传播其产品/内容,会在短时间内通过同一账号发送大量垃圾信息。因此,如果同一账号发布信息的频率大于预定阈值,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息的频率大于预定阈值作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布信息的频率可以根据历史记录中一个账号在一段时间内发布信息的数量来确定。
1.3)同一账号发布信息所间隔的时间相等。
一些垃圾信息的发布者采用具有特定功能的发布软件来通过同一账号发布信息,例如,每隔固定时间段发布一条或多条垃圾信息。因此,如果同一账号发布信息所间隔的时间相等,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息所间隔的时间相等作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布信息所间隔的时间是否相等可以根据历史记录中一个账号的信息发布周期来确定。
1.4)同一账号发布的多个信息具有相同的内容。
一般而言,垃圾信息的发布者通常通过同一账号来重复发布相同内容,例如,同一条广告信息。因此,如果同一账号发布的多个信息具有相同的内容,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布的多个信息具有相同的内容作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布的多个信息是否具有相同的内容,可以通过获取历史记录中一个账号所发布信息的内容,并比较多个信息的文本是否一致来确定。
2)与发布信息的内容相关的信息,其具体包括但不限于以下至少任一项:
2.1)发布信息的内容中包括指向低质量网页的网址。
垃圾信息的发布者所发布信息的内容中,可能包含指向低质量网页的网址,如指向推广网页的网址。因此,如果发布信息的内容中包括指向低质量网页的网址,该发布信息将被认定为垃圾信息,从而发布信息的内容中包括指向低质量网页的网址作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
例如,网络设备1可对待处理信息的内容进行扫描,以确定其中是否包含网址特征字符串,如“http://”、“www”、“.com”等,当扫描到网址特征字符串时,网络设备1可基于网址规则来确定完整的网址;接着,网络设备1基于该完整的网址所指向的网页,在网页索引数据库中进行查询,以确定该网页是否为低质量网页;随后,网络设备1将待处理信息的内容中包括指向低质量网页的网址作为输入参数输入至垃圾信息的特征模型,以供其判断该待处理信息是否属于垃圾信息。
2.2)发布信息的内容中包括符合广告特征的字符串。
垃圾信息的发布者所发布信息的内容中,一般包含符合广告特征的字符串。因此,如果发布信息的内容中包括符合广告特征的字符串,该发布信息将被认定为垃圾信息,从而发布信息的内容中包括符合广告特征的字符串作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
例如,网络设备1可扫描待处理信息的内容,以确定其内容中是否包括符合广告特征的字符串,并将相应结果作为输入参数输入至垃圾信息的特征模型,以供其判断该待处理信息是否属于垃圾信息。
其中,符合广告特征的字符串包括但不限于以下至少任一项:
2.2.1)符合广告关键词的字符串,例如“减肥药”、“化妆品”、“XX牌减肥药”等。
2.2.2)符合电话号码规则的字符串。例如,以“400”、“800”开头的十位数字字符串,或者,以“13”、“15”开头的十一位数字字符串等;再如,一些字符串中夹杂数字字符和特定的英文字符,如英文字符“I”、“O”,这些英文字符与数字字符“1”、“0”形似,因此,这些夹杂数字字符和特定的英文字符的字符串可能也符合电话号码规则,网络设备1可采用与特定的英文字符形似的数字字符对其进行替换,以获取数字字符串,随后,网络设备1检测该数字字符串是否属于符合电话号码规则的字符串。
2.2.3)符合预置推荐模板的字符串;其中,预置的推荐模板基于表达推荐语气的关键词来获得。
网络设备1可通过统计多个垃圾信息中特定推荐内容前后的关键词,如出现在特定推广产品前后的关键词,来确定出现次数较多的表达推荐语气的关键词,例如,“不错”、“建议使用”等;接着,网络设备1将这些关键词进行组合,以获得多个推荐模板,如“……不错,建议使用……”、“建议使用……,……不错”;随后,网络设备1统计这些推荐模板在多个垃圾信息中出现的次数,将出现次数达到设定阈值的模板作为预置推荐模板。
在此,可通过垃圾信息指数来对待处理信息是否属于垃圾信息进行量化,当待处理信息符合垃圾信息的特征模型中的特征越多时,其垃圾信息指数越高,当垃圾信息指数高于预定的上限阈值时,相应待处理信息为垃圾信息;当待处理信息符合垃圾信息的特征模型中的特征越少时,其垃圾信息指数低,当垃圾信息指数低于预定的下限阈值时,相应待处理信息为非垃圾信息;当待处理信息的垃圾信息指数介于预定的上限阈值和预定的下限阈值之间时,相应待处理信息将被作为待识别信息提供给用户进行识别。
网络设备1通过垃圾信息的特征模型来进行垃圾信息的识别,并获取需要人工辅助识别的待识别信息,可以减少需由用户介入来进行辅助识别的待识别信息的数量,以提高计算处理的效率。
图2为根据本发明另一个方面的装置示意图,示出一种识别垃圾信息的装置10。如图2所示,信息识别装置10可装置于网络设备1中,其具体包括用于将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断的装置11(以下简称信息提供装置11)、用于获取所述一个或多个用户所反馈的对所述已识别信息和所述待识别信息的判断结果的装置12(以下简称结果获取装置12)、用于根据其中每个用户对所述已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率的装置13(以下简称准确率确定装置13)、用于根据所述一个或多个用户对所述待识别信息的判断结果,并结合所述一个或多个用户判断垃圾信息的准确率,来确定所述待识别信息是否属于垃圾信息的装置14(以下简称信息确定装置14)。
更具体地,网络设备1的信息提供装置11将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断;用户设备2对已识别信息和待识别信息进行呈现以供用户进行垃圾信息判断;网络设备1的结果获取装置12获取用户所反馈的对已识别信息和待识别信息的判断结果;准确率确定装置13根据其中每个用户对已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率;信息确定装置14根据用户对待识别信息的判断结果,并结合用户判断垃圾信息的准确率,来确定待识别信息是否属于垃圾信息。
上述各装置是持续不断执行其对应操作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地,或者按照设定的或实时调整的工作模式要求,进行已识别信息和待识别信息的提供、判断结果的获取、用户对已识别信息判断准确率的确定以及待识别信息是否属于垃圾信息的确定。
具体地,网络设备1的信息提供装置11将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断。
在此,已识别信息意指经识别已明确可知其是否属于垃圾信息的信息。
信息提供装置11将已识别信息提供给一个或多个用户来进行垃圾信息判断,以在后续的步骤中用于确定用户进行垃圾信息判断的准确率,进而结合该准确率来确定待识别信息是否属于垃圾信息。
在此,待识别信息意指未知的需进行识别来判断其是否属于垃圾信息的信息。
待识别信息和已识别信息在形式上可以没有差别,也即,在向用户提供时不必对这两种信息进行区分。这两种信息的差别在于,通过用户对待识别信息进行垃圾信息判断来确定待识别信息是否属于垃圾信息,而已识别信息是否属于垃圾信息是已知的,用于在后续的步骤中根据用户反馈来确定用户判断垃圾信息的准确率。
信息提供装置11可将任何不确定是否属于垃圾信息的信息作为待识别信息。优选地,网络设备1还可包括一用于获取一个或多个待处理信息的装置(图2未示出,以下简称信息获取装置)和一用于通过垃圾信息的特征模型来对待处理信息进行筛选,以获得待识别信息的装置(图2未示出,以下简称信息筛选装置)。
其中,待处理信息意指,网络中发布的任何需要用来确定其是否属于垃圾信息的信息。
例如,信息获取装置可从资料库中或其他设备处获得网络中发布的任意信息,如各种内容网页,具体如用户帖子、博客等,这些信息即为待处理信息;接着,信息筛选装置通过垃圾信息的特征模型来对待处理信息进行评估,以获取待处理信息对应的垃圾信息概率,并根据预定的阈值来对待处理信息进行筛选,以获取其中垃圾信息概率介于预定的垃圾信息阈值和预定的非垃圾信息阈值之间的信息,这些信息即为待识别信息。可替代地,信息筛选装置也可将所有非垃圾信息均作为待识别信息,也即对应垃圾信息概率高于预定的非垃圾信息阈值的信息均为非垃圾信息,从而可作为待识别信息。
信息提供装置11可以将已识别信息和待识别信息按照各种组合方式提供给用户,如按照随机数量组合后提供给用户,或按照预定比例组合后提供给用户。
例如,信息提供装置11可以将任意数量的已识别信息和任意数量的待识别信息组合后提供给用户来进行垃圾信息判断。
又如,信息提供装置11可以按照预定比例将已识别信息和待识别信息组合后提供给用户来进行垃圾信息判断。其中,已识别信息的比例可较低,从而待识别信息可占比较多地提供给用户,以由用户来尽快识别更多数量的待识别信息,提高计算处理的效率。已识别信息的比例也可较高,从而待识别信息可占比较少地提供给用户,以在后续步骤中更精准地通过较多的已识别信息来确定用户进行垃圾信息判断的准确率。
此外,信息提供装置11也可将待识别信息和已识别信息提供给较少或较多的用户来进行垃圾信息判断。
例如,信息提供装置11可以将待识别信息和已识别信息提供给一个用户来进行垃圾信息判断,从而可以更迅速地得到用户反馈,进而确定待识别信息是否属于垃圾信息,以提高计算处理的效率。
又如,信息提供装置11可以将待识别信息和已识别信息提供给多个用户来进行垃圾信息判断,从而可以在后续步骤中获取多个用户所反馈的对同一个待识别信息的多个判断结果,以综合这些判断结果来更准确地确定待识别信息是否属于垃圾信息。
进一步地,信息提供装置11还可以将待识别信息进行分组,以将不同的待识别信息组与已识别信息组合后分发给不同的用户来进行垃圾信息判断。
例如,对于待识别信息A、B、C、D、E,信息提供装置11可以按照每组中包含3个待识别信息的方式进行分组,以获取ABC、ABD、BCD、BDE、CDE共计5个待识别信息组。信息提供装置11向5个用户甲、乙、丙、丁、戊分别提供1个待识别信息组和已识别信息,如向用户甲提供ABC,向用户乙提供BCD,向用户丙提供CDE、向用户丁提供BDE、向用户戊提供ABD,以使不同用户对不同的待识别信息组进行垃圾信息判断。其中,信息提供装置11向这些用户提供的已识别信息也可以是相同的或不同的。
由于每个用户判断垃圾信息的速度可能是不同的,信息提供装置11对待识别信息进行分组,可以减少每个用户判断待识别信息的数量,从而提高计算处理的效率。当其中任一用户先于其他用户完成判断时,信息提供装置11还可继续向该用户提供其它待识别信息,以在后续的步骤中获取更多的对待识别信息的判断结果。
信息提供装置11也可对已识别信息进行分组,或分别对已识别信息和待识别信息进行分组,分组的方式与上述对待识别信息分组的方式相同或基本相同,故此处不再赘述,并通过引用的方式包含于此。
本领域技术人员应能理解上述信息提供装置11将已识别信息和待识别信息提供给用户的方式仅为举例,其他现有的或今后可能出现的信息提供装置11将已识别信息和待识别信息提供给用户的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,用户设备2对已识别信息和待识别信息进行呈现以供用户进行垃圾信息判断。
例如,用户设备2在页面的中间部分向用户呈现待识别信息,在页面的右侧向用户呈现已识别信息。本领域技术人员应能理解,前述举例仅用于解释说明本发明之目的,而不应被理解为对本发明的任何限制,其他现有或将来的已识别信息和待识别信息的呈现方式,诸如在页面中混合呈现已识别信息和待识别信息、分别在页面上部和下部呈现待识别信息和已识别信息等,如其可适用于本发明,则均应被包含在本发明的专利保护范围之内。
在此,用户设备2还可在每条信息的邻近区域,诸如右侧、下侧等区域,呈现判断结果选项,如“A属于垃圾信息”、“B不确定”、“C不属于垃圾信息”,以供用户选择相应判断结果选项。
进一步地,用户设备2可一次性地呈现所有已识别信息和待识别信息,也可逐条地进行呈现。
当用户提交判断结果后,用户设备2将该判断结果提供给网络设备1。据此,网络设备1的结果获取装置12获取一个或多个用户所反馈的对已识别信息和待识别信息的判断结果。
在此,为简单说明起见,本发明多以判断结果包括属于垃圾信息、不确定、不属于垃圾信息这3种判断结果来进行举例。然而,本领域技术人员应能理解,上述举例仅用于说明本发明之目的,而不应被理解为对本发明的任何限制,其他现有的或今后可能出现的其他判断结果的类型和/或表现形式如可适用于本发明,也应包含在本发明的专利保护范围之内,并以引用方式包含于此。
接着,准确率确定装置13根据其中每个用户对已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率。
由于准确率确定装置13已知这些已识别信息的正确判断结果,将其与用户对已识别信息的判断结果进行比较,以确定用户对已识别信息判断正确的数量,进而结合相应用户所判断已识别信息的总数量来确定每个用户判断垃圾信息的准确率。
例如,第i个用户对3个已识别信息的判断结果为:已识别信息1属于垃圾信息、已识别信息2不确定、已识别信息3不属于垃圾信息;相应的正确判断结果为:已识别信息1属于垃圾信息、已识别信息2不属于垃圾信息、已识别信息3不属于垃圾信息;在此采用m′i来表示第i个用户对已识别信息判断正确的数量,即m′i=2,采用mi来表示第i个用户所识别的已识别信息的总数量,即mi=3,采用Pi来表示第i个用户判断垃圾信息的准确率,其具体计算方式如下:
P i = m i &prime; m i
因此,准确率确定装置13可确定第i个用户判断垃圾信息的准确率为0.667。
随后,信息确定装置14根据一个或多个用户对待识别信息的判断结果,并结合一个或多个用户判断垃圾信息的准确率,来确定待识别信息是否属于垃圾信息。
在此,信息确定装置14确定待识别信息是否属于垃圾信息的方式包括但不限于以下方式:
1)信息确定装置14选择判断垃圾信息的准确率较高的一个或多个用户,根据该(等)用户对待识别信息的判断结果,来确定待识别信息是否属于垃圾信息。
例如,信息确定装置14选择判断垃圾信息的准确率最高的一个用户,并根据该用户对待识别信息的判断结果来确定相应待识别信息是否属于垃圾信息。
又如,信息确定装置14选择判断垃圾信息的准确率排前的10个用户,并根据这些用户对待识别信息的判断结果来确定待识别信息是否属于垃圾信息,如对一条待识别信息的10个判断结果,其中8个判断结果为“属于垃圾信息”,另2个判断结果为“不属于垃圾信息”,信息确定装置14可确定待识别信息属于垃圾信息。
再如,信息确定装置14按照预定的准确率阈值来筛选判断垃圾信息的准确率高于该阈值的用户,并根据这些用户对待识别信息的判断结果来确定待识别信息是否属于垃圾信息,如其中超过半数的用户判断一待识别信息属于垃圾信息,则将相应待识别信息确定为垃圾信息。
其中,信息确定装置14统计用户反馈的判断结果,将一条待识别信息是否属于垃圾信息判断为“不确定”,网络设备1的信息提供装置11随后可将该待识别信息再次提供给用户以进行垃圾信息判断。在此,再次被提供的用户与之前已判断过相应待识别信息的用户之间可部分重合,也可完全不同。
进一步地,当一条待识别信息的判断结果中“属于垃圾信息”和“不属于垃圾信息”的数量相等时,信息确定装置14也可将该待识别信息再次提供给用户以进行垃圾信息判断,或直接将该待识别信息判断为“属于垃圾信息”。
2)信息确定装置14根据每个用户对待识别信息的判断结果及其判断垃圾信息的准确率,以及这些用户对待识别信息的判断结果的统计值,来确定待识别信息是否属于垃圾信息。
信息确定装置14可采用数值来分别表示不同的判断结果,例如,采用Rij来表示第i个用户对第j个待识别信息的判断结果所对应的数值,当判断结果为“属于垃圾信息”时,Rij=-1;当判断结果为“不确定”时,Rij=0;当判断结果为“不属于垃圾信息”时,Rij=1。
定义n为判断结果的总数量,由于不同的待识别信息的判断结果中“不确定”的判断结果的数量可能不同,为去除掉“不确定”的判断结果,第j个待识别信息的判断结果的统计值如下式所示:
&Sigma; i = 1 n | R ij |
定义第j个待识别信息的最终判断结果为Fj,因此,可采用以下公式来计算得出Fj
F j = &Sigma; i = 1 n P i &times; R ij &Sigma; i = 1 n | R ij |
其中,Pi为第i个用户判断垃圾信息的准确率。
本领域技术人员容易理解,Fj的数值范围为-1至1之间;信息确定装置14将Fj的数值与常数C进行比较,以确定待识别信息是否属于垃圾信息。
例如,为简单起见,设定C=0,当Fj<C时,第j个待识别信息属于垃圾信息;当Fj>C时,第j个待识别信息不属于垃圾信息。本领域技术人员应能理解,常数C也可设定为-1至1之间的其它数值。
本领域技术人员还应能理解上述信息确定装置14确定待识别信息是否属于垃圾信息的方式仅为举例,其他现有的或今后可能出现的信息确定装置14确定待识别信息是否属于垃圾信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
本发明中,用于识别待处理信息是否属于垃圾信息的垃圾信息特征模型可以是网络设备1采集垃圾信息的特征信息后建立的,也可以由其他设备采用相同或类似方式建立后,网络设备1访问该其他设备,以请求调用该垃圾信息的特征模型来对待处理信息进行识别。
优选地,垃圾信息的特征模型基于以下至少任一项信息来建立:
1)与账号发布行为相关的信息,其具体包括但不限于以下至少任一项:
1.1)同一账号发布信息所对应的地点数量大于预定阈值。
一些垃圾信息的发布者为避免IP地址被封禁,会采用特定的发布软件来使用同一账号通过不同的IP地址发布信息,以逃避IP地址被封禁而无法发布信息的问题。因此,如果同一账号发布信息所对应的地点数量大于预定阈值,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息所对应的地点数量大于预定阈值作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布的多个信息各自对应的地点可以根据历史记录中各信息所源自的IP地址来分别确定。
1.2)同一账号发布信息的频率大于预定阈值。
一般而言,垃圾信息的发布者为传播其产品/内容,会在短时间内通过同一账号发送大量垃圾信息。因此,如果同一账号发布信息的频率大于预定阈值,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息的频率大于预定阈值作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布信息的频率可以根据历史记录中一个账号在一段时间内发布信息的数量来确定。
1.3)同一账号发布信息所间隔的时间相等。
一些垃圾信息的发布者采用具有特定功能的发布软件来通过同一账号发布信息,例如,每隔固定时间段发布一条或多条垃圾信息。因此,如果同一账号发布信息所间隔的时间相等,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布信息所间隔的时间相等作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布信息所间隔的时间是否相等可以根据历史记录中一个账号的信息发布周期来确定。
1.4)同一账号发布的多个信息具有相同的内容。
一般而言,垃圾信息的发布者通常通过同一账号来重复发布相同内容,例如,同一条广告信息。因此,如果同一账号发布的多个信息具有相同的内容,该账号所发布的所有信息将被认定为垃圾信息,从而同一账号发布的多个信息具有相同的内容作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
在此,同一账号发布的多个信息是否具有相同的内容,可以通过获取历史记录中一个账号所发布信息的内容,并比较多个信息的文本是否一致来确定。
2)与发布信息的内容相关的信息,其具体包括但不限于以下至少任一项:
2.1)发布信息的内容中包括指向低质量网页的网址。
垃圾信息的发布者所发布信息的内容中,可能包含指向低质量网页的网址,如指向推广网页的网址。因此,如果发布信息的内容中包括指向低质量网页的网址,该发布信息将被认定为垃圾信息,从而发布信息的内容中包括指向低质量网页的网址作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
例如,网络设备1或其中的一特定装置可对待处理信息的内容进行扫描,以确定其中是否包含网址特征字符串,如“http://”、“www”、“.com”等,当扫描到网址特征字符串时,网络设备1可基于网址规则来确定完整的网址;接着,网络设备1基于该完整的网址所指向的网页,在网页索引数据库中进行查询,以确定该网页是否为低质量网页;随后,网络设备1将待处理信息的内容中包括指向低质量网页的网址作为输入参数输入至垃圾信息的特征模型,以供其判断该待处理信息是否属于垃圾信息。
2.2)发布信息的内容中包括符合广告特征的字符串。
垃圾信息的发布者所发布信息的内容中,一般包含符合广告特征的字符串。因此,如果发布信息的内容中包括符合广告特征的字符串,该发布信息将被认定为垃圾信息,从而发布信息的内容中包括符合广告特征的字符串作为垃圾信息的一项特征信息,可用于单独或结合其他特征信息来建立垃圾信息的特征模型。
例如,网络设备1或其中的一特定装置可扫描待处理信息的内容,以确定其内容中是否包括符合广告特征的字符串,并将相应结果作为输入参数输入至垃圾信息的特征模型,以供其判断该待处理信息是否属于垃圾信息。
其中,符合广告特征的字符串包括但不限于以下至少任一项:
2.2.1)符合广告关键词的字符串,例如“减肥药”、“化妆品”、“XX牌减肥药”等。
2.2.2)符合电话号码规则的字符串。例如,以“400”、“800”开头的十位数字字符串,或者,以“13”、“15”开头的十一位数字字符串等;再如,一些字符串中夹杂数字字符和特定的英文字符,如英文字符“I”、“O”,这些英文字符与数字字符“1”、“0”形似,因此,这些夹杂数字字符和特定的英文字符的字符串可能也符合电话号码规则,网络设备1可采用与特定的英文字符形似的数字字符对其进行替换,以获取数字字符串,随后,网络设备1检测该数字字符串是否属于符合电话号码规则的字符串。
2.2.3)符合预置推荐模板的字符串;其中,预置的推荐模板基于表达推荐语气的关键词来获得。
网络设备1或其中的一特定装置可通过统计多个垃圾信息中特定推荐内容前后的关键词,如出现在特定推广产品前后的关键词,来确定出现次数较多的表达推荐语气的关键词,例如,“不错”、“建议使用”等;接着,网络设备1将这些关键词进行组合,以获得多个推荐模板,如“……不错,建议使用……”、“建议使用……,……不错”;随后,
网络设备1统计这些推荐模板在多个垃圾信息中出现的次数,将出现次数达到设定阈值的模板作为预置推荐模板。
在此,可通过垃圾信息指数来对待处理信息是否属于垃圾信息进行量化,当待处理信息符合垃圾信息的特征模型中的特征越多时,其垃圾信息指数越高,当垃圾信息指数高于预定的上限阈值时,相应待处理信息为垃圾信息;当待处理信息符合垃圾信息的特征模型中的特征越少时,其垃圾信息指数低,当垃圾信息指数低于预定的下限阈值时,相应待处理信息为非垃圾信息;当待处理信息的垃圾信息指数介于预定的上限阈值和预定的下限阈值之间时,相应待处理信息将被作为待识别信息提供给用户进行识别。
网络设备1通过垃圾信息的特征模型来进行垃圾信息的识别,并获取需要人工辅助识别的待识别信息,可以减少需由用户介入来进行辅助识别的待识别信息的数量,以提高计算处理的效率。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种识别垃圾信息的方法,其中,该方法包括:
-将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断;
-获取所述一个或多个用户所反馈的对所述已识别信息和所述待识别信息的判断结果;
-根据其中每个用户对所述已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率;
-根据所述一个或多个用户对所述待识别信息的判断结果,并结合所述一个或多个用户判断垃圾信息的准确率,来确定所述待识别信息是否属于垃圾信息。
2.根据权利要求1所述的方法,其中,所述确定所述待识别信息是否属于垃圾信息的步骤进一步包括:
-根据其中每个用户对所述待识别信息的判断结果及其判断垃圾信息的准确率,以及所述一个或多个用户对所述待识别信息的判断结果的统计值,来确定所述待识别信息是否属于垃圾信息。
3.根据权利要求1或2所述的方法,其中,该方法还包括:
-获取一个或多个待处理信息;
-通过垃圾信息的特征模型来对所述待处理信息进行筛选,以获得所述待识别信息。
4.根据权利要求3所述的方法,其中,所述垃圾信息的特征模型基于以下至少任一项信息来建立:
-与账号发布行为相关的信息;
-与发布信息的内容相关的信息。
5.根据权利要求4所述的方法,其中,所述与账号发布行为相关的信息包括以下至少任一项:
-同一账号发布信息所对应的地点数量大于预定阈值;
-同一账号发布信息的频率大于预定阈值;
-同一账号发布信息所间隔的时间相等;
-同一账号发布的多个信息具有相同的内容。
6.根据权利要求4或5所述的方法,其中,所述与发布信息的内容相关的信息包括以下至少任一项:
-发布信息的内容中包括指向低质量网页的网址;
-发布信息的内容中包括符合广告特征的字符串。
7.根据权利要求6所述的方法,其中,所述符合广告特征的字符串进一步包括符合预置推荐模板的字符串;
其中,所述预置推荐模板基于表达推荐语气的关键词来获得。
8.根据权利要求1至7中任一项所述的方法,其中,所述将已识别信息和待识别信息提供给一个或多个用户的步骤进一步包括:
-按照预定比例将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断。
9.一种识别垃圾信息的装置,其中,该装置包括:
-用于将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断的装置;
-用于获取所述一个或多个用户所反馈的对所述已识别信息和所述待识别信息的判断结果的装置;
-用于根据其中每个用户对所述已识别信息的判断结果,来确定每个用户判断垃圾信息的准确率的装置;
-用于根据所述一个或多个用户对所述待识别信息的判断结果,并结合所述一个或多个用户判断垃圾信息的准确率,来确定所述待识别信息是否属于垃圾信息的装置。
10.根据权利要求9所述的装置,其中,所述用于确定所述待识别信息是否属于垃圾信息的装置进一步用于:
-根据其中每个用户对所述待识别信息的判断结果及其判断垃圾信息的准确率,以及所述一个或多个用户对所述待识别信息的判断结果的统计值,来确定所述待识别信息是否属于垃圾信息。
11.根据权利要求9或10所述的装置,其中,该装置还包括:
-用于获取一个或多个待处理信息的装置;
-用于通过垃圾信息的特征模型来对所述待处理信息进行筛选,以获得所述待识别信息的装置。
12.根据权利要求11所述的装置,其中,所述垃圾信息的特征模型基于以下至少任一项信息来建立:
-与账号发布行为相关的信息;
-与发布信息的内容相关的信息。
13.根据权利要求12所述的装置,其中,所述与账号发布行为相关的信息包括以下至少任一项:
-同一账号发布信息所对应的地点数量大于预定阈值;
-同一账号发布信息的频率大于预定阈值;
-同一账号发布信息所间隔的时间相等;
-同一账号发布的多个信息具有相同的内容。
14.根据权利要求12或13所述的装置,其中,所述与发布信息的内容相关的信息包括以下至少任一项:
-发布信息的内容中包括指向低质量网页的网址;
-发布信息的内容中包括符合广告特征的字符串。
15.根据权利要求14所述的装置,其中,所述符合广告特征的字符串进一步包括符合预置推荐模板的字符串;
其中,所述预置推荐模板基于表达推荐语气的关键词来获得。
16.根据权利要求9至15中任一项所述的装置,其中,所述用于将已识别信息和待识别信息提供给一个或多个用户的装置进一步用于:
-按照预定比例将已识别信息和待识别信息提供给一个或多个用户来进行垃圾信息判断。
CN201410128835.5A 2014-04-01 2014-04-01 一种识别垃圾信息的方法与装置 Pending CN103970832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410128835.5A CN103970832A (zh) 2014-04-01 2014-04-01 一种识别垃圾信息的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410128835.5A CN103970832A (zh) 2014-04-01 2014-04-01 一种识别垃圾信息的方法与装置

Publications (1)

Publication Number Publication Date
CN103970832A true CN103970832A (zh) 2014-08-06

Family

ID=51240329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410128835.5A Pending CN103970832A (zh) 2014-04-01 2014-04-01 一种识别垃圾信息的方法与装置

Country Status (1)

Country Link
CN (1) CN103970832A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653740A (zh) * 2016-03-22 2016-06-08 中南林业科技大学 一种用于文本挖掘的系统
CN105808602A (zh) * 2014-12-31 2016-07-27 中国移动通信集团公司 一种垃圾信息的检测方法及装置
CN105824805A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 一种识别方法及装置
CN105873064A (zh) * 2016-03-28 2016-08-17 伍文华 一种互联网app垃圾信息鉴定系统及方法
CN107562759A (zh) * 2016-06-30 2018-01-09 北京金山安全软件有限公司 一种处理信息源的方法、装置及电子设备
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248072A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation System and method for spam identification
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102760130A (zh) * 2011-04-27 2012-10-31 腾讯科技(深圳)有限公司 处理信息的方法和装置
CN102880952A (zh) * 2012-09-07 2013-01-16 盈世信息科技(北京)有限公司 一种电子邮件收集分类方法
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060248072A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation System and method for spam identification
CN102315952A (zh) * 2010-06-29 2012-01-11 百度在线网络技术(北京)有限公司 一种用于社区网络中检测垃圾帖子的方法与设备
CN102760130A (zh) * 2011-04-27 2012-10-31 腾讯科技(深圳)有限公司 处理信息的方法和装置
CN103514174A (zh) * 2012-06-18 2014-01-15 北京百度网讯科技有限公司 一种文本分类方法和装置
CN102880952A (zh) * 2012-09-07 2013-01-16 盈世信息科技(北京)有限公司 一种电子邮件收集分类方法
CN103617213A (zh) * 2013-11-19 2014-03-05 北京奇虎科技有限公司 识别新闻网页属性特征的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韦泽: "百度众测——用户标注系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808602A (zh) * 2014-12-31 2016-07-27 中国移动通信集团公司 一种垃圾信息的检测方法及装置
CN105808602B (zh) * 2014-12-31 2020-04-21 中国移动通信集团公司 一种垃圾信息的检测方法及装置
CN105653740A (zh) * 2016-03-22 2016-06-08 中南林业科技大学 一种用于文本挖掘的系统
CN105873064A (zh) * 2016-03-28 2016-08-17 伍文华 一种互联网app垃圾信息鉴定系统及方法
CN105824805A (zh) * 2016-05-09 2016-08-03 腾讯科技(深圳)有限公司 一种识别方法及装置
CN105824805B (zh) * 2016-05-09 2024-04-23 腾讯科技(深圳)有限公司 一种识别方法及装置
CN107562759A (zh) * 2016-06-30 2018-01-09 北京金山安全软件有限公司 一种处理信息源的方法、装置及电子设备
CN107562759B (zh) * 2016-06-30 2020-11-13 北京金山安全软件有限公司 一种处理信息源的方法、装置及电子设备
CN108306811A (zh) * 2017-02-06 2018-07-20 腾讯科技(深圳)有限公司 一种消息处理方法及装置
CN108306811B (zh) * 2017-02-06 2021-03-26 腾讯科技(深圳)有限公司 一种消息处理方法及装置

Similar Documents

Publication Publication Date Title
CN108628741B (zh) 网页页面测试方法、装置、电子设备和介质
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
CN103970832A (zh) 一种识别垃圾信息的方法与装置
CN104866969A (zh) 个人信用数据处理方法和装置
US11275748B2 (en) Influence score of a social media domain
EP2941724A1 (en) Method and apparatus for generating webpage content
CN104536980A (zh) 一种确定候评项的质量信息的方法与装置
CN109189931B (zh) 一种目标语句的筛选方法及装置
US20170155664A1 (en) Method and apparatus for identifying malicious account
CN103389971A (zh) 一种确定应用对应的评论内容的优质等级的方法与设备
CN107908959A (zh) 网站信息检测方法、装置、电子设备及存储介质
US20230023630A1 (en) Creating predictor variables for prediction models from unstructured data using natural language processing
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN105894183A (zh) 项目评价方法及装置
CN103631787A (zh) 网页类型识别方法以及网页类型识别装置
WO2020258773A1 (zh) 确定推送用户群的方法、装置、设备及存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN103886016A (zh) 一种用于确定页面中的垃圾文本信息的方法与设备
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN102402552B (zh) 一种基于分析结果提供推广账户优化建议的方法与设备
US11886597B2 (en) Detection of common patterns in user generated content with applications in fraud detection
CN102402553A (zh) 一种用于对推广账户的运营质量进行分析的方法与设备
CN108021941A (zh) 药物肝毒性预测方法及装置
JP6872853B2 (ja) 検出装置、検出方法及び検出プログラム
CN102314498B (zh) 一种用于对页面进行主体识别的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140806

RJ01 Rejection of invention patent application after publication