CN104539514A - 消息过滤方法和装置 - Google Patents

消息过滤方法和装置 Download PDF

Info

Publication number
CN104539514A
CN104539514A CN201410788733.6A CN201410788733A CN104539514A CN 104539514 A CN104539514 A CN 104539514A CN 201410788733 A CN201410788733 A CN 201410788733A CN 104539514 A CN104539514 A CN 104539514A
Authority
CN
China
Prior art keywords
message
violation
sum
user
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410788733.6A
Other languages
English (en)
Other versions
CN104539514B (zh
Inventor
林彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Kugou Computer Technology Co Ltd
Original Assignee
Guangzhou Kugou Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Kugou Computer Technology Co Ltd filed Critical Guangzhou Kugou Computer Technology Co Ltd
Priority to CN201410788733.6A priority Critical patent/CN104539514B/zh
Publication of CN104539514A publication Critical patent/CN104539514A/zh
Application granted granted Critical
Publication of CN104539514B publication Critical patent/CN104539514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种消息过滤方法和装置,属于计算机和互联网技术领域。所述方法包括:获取目标用户发送的目标消息;计算在预定时段内该目标用户发送的相似消息的总数,相似消息是指与目标消息的消息内容完全相同或部分关键词相同的消息;检测该总数是否达到预设阈值;若该总数达到预设阈值,则滤除上述目标消息。本发明解决了现有技术对一些垃圾消息仍然存在漏判的问题;实现了将重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。

Description

消息过滤方法和装置
技术领域
本发明涉及计算机和互联网技术领域,特别涉及一种消息过滤方法和装置。
背景技术
随着社交类应用的兴起,出现了各式各样的具备多人聊天互动功能的应用。比如,支持以群组为单位进行多人聊天互动的群聊应用,支持以频道(或房间)为单位进行多人聊天互动的直播应用,等等。
然而,部分用户在聊天过程中,经常发送一些垃圾消息,比如广告消息,诈骗消息或者包含有不良内容的消息。这些垃圾消息严重影响了用户间的正常聊天互动。相关技术中,通过对用户发送的消息的内容进行分析和识别,以确定该消息中是否包含违规词汇,并在包含违规词汇的情况下,对该消息进行滤除。
在实现本发明的过程中,发明人发现上述技术至少存在以下问题:上述消息过滤方法无法很好地适用于社交类应用,对一些垃圾消息仍然存在漏判的问题。
发明内容
为了解决上述技术对一些垃圾消息仍然存在漏判的问题,本发明实施例提供了一种消息过滤方法和装置。所述技术方案如下:
第一方面,提供了一种消息过滤方法,所述方法包括:
获取目标用户发送的目标消息;
计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息;
检测所述总数是否达到预设阈值;
若所述总数达到预设阈值,则滤除所述目标消息。
可选的,所述计算在预定时段内所述目标用户发送的相似消息的总数之前,还包括:
检测所述目标消息是否属于允许重复发送的消息;
若所述目标消息不属于所述允许重复发送的消息,则执行所述计算在预定时段内所述目标用户发送的相似消息的总数的步骤。
可选的,所述检测所述目标消息是否属于允许重复发送的消息,包括:
从所述目标消息中提取至少一个关键词;检测提取的所述关键词是否存在于关键词白名单中,所述关键词白名单中包含至少一个关键词;若提取的所述关键词不存在于所述关键词白名单中,则确定所述目标消息不属于所述允许重复发送的消息;
或者,
获取与所述目标用户对应的用户标识;检测所述用户标识是否存在于用户标识白名单中,所述用户标识白名单中包含至少一个用户标识;若所述用户标识不存在于所述用户标识白名单中,则确定所述目标消息不属于所述允许重复发送的消息。
可选的,所述计算在预定时段内所述目标用户发送的相似消息的总数,包括:
从缓存的消息中选取在所述预定时段内所述目标用户发送的其它消息;
对各个所述其它消息的消息内容与所述目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同;
根据各个匹配结果统计与所述目标消息的消息内容完全相同或部分关键词相同的其它消息的数量;
根据统计得到的所述数量确定所述相似消息的总数;其中,所述相似消息的总数等于统计得到的所述数量,或者,所述相似消息的总数等于统计得到的所述数量加1。
可选的,所述计算在预定时段内所述目标用户发送的相似消息的总数之前,还包括:
根据获取所述目标消息的时刻和预设时长确定所述预定时段;
其中,所述预定时段的时间长度是所述预设时长,所述预定时段的结束时刻是获取所述目标消息的时刻。
可选的,所述滤除所述目标消息之后,还包括:
生成违规公告消息,所述违规公告消息包括所述目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项;
向各个客户端发送所述违规公告消息。
可选的,所述生成违规公告消息之前,还包括:
在滤除所述目标消息的情况下,增加与所述目标用户对应的违规次数;
检测增加后的所述违规次数是否达到违规次数阈值;
若增加后的所述违规次数达到所述违规次数阈值,则执行所述生成违规公告消息的步骤。
第二方面,提供了一种消息过滤装置,所述装置包括:
消息获取模块,用于获取目标用户发送的目标消息;
总数计算模块,用于计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息;
总数检测模块,用于检测所述总数是否达到预设阈值;
消息过滤模块,用于当所述总数达到预设阈值时,滤除所述目标消息。
可选的,所述装置还包括:
消息检测模块,用于检测所述目标消息是否属于允许重复发送的消息;
所述总数计算模块,还用于当所述目标消息不属于所述允许重复发送的消息时,计算在预定时段内所述目标用户发送的相似消息的总数。
可选的,所述消息检测模块,包括:关键词提取单元、关键词检测单元和第一确定单元;
所述关键词提取单元,用于从所述目标消息中提取至少一个关键词;所述关键词检测单元,用于检测提取的所述关键词是否存在于关键词白名单中,所述关键词白名单中包含至少一个关键词;所述第一确定单元,用于当提取的所述关键词不存在于所述关键词白名单中时,确定所述目标消息不属于所述允许重复发送的消息;
或者,所述消息检测模块,包括:标识获取单元、标识检测单元和第二确定单元;
所述标识获取单元,用于获取与所述目标用户对应的用户标识;所述标识检测单元,用于检测所述用户标识是否存在于用户标识白名单中,所述用户标识白名单中包含至少一个用户标识;所述第二确定单元,用于当所述用户标识不存在于所述用户标识白名单中时,确定所述目标消息不属于所述允许重复发送的消息。
可选的,所述总数计算模块,包括:消息选取单元、消息匹配单元、数量统计单元和总数确定单元;
所述消息选取单元,用于从缓存的消息中选取在所述预定时段内所述目标用户发送的其它消息;
所述消息匹配单元,用于对各个所述其它消息的消息内容与所述目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同;
所述数量统计单元,用于根据各个匹配结果统计与所述目标消息的消息内容完全相同或部分关键词相同的其它消息的数量;
所述总数确定单元,用于根据统计得到的所述数量确定所述相似消息的总数;其中,所述相似消息的总数等于统计得到的所述数量,或者,所述相似消息的总数等于统计得到的所述数量加1。
可选的,所述装置还包括:
时段确定模块,用于根据获取所述目标消息的时刻和预设时长确定所述预定时段;
其中,所述预定时段的时间长度是所述预设时长,所述预定时段的结束时刻是获取所述目标消息的时刻。
可选的,所述装置还包括:
公告生成模块,用于生成违规公告消息,所述违规公告消息包括所述目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项;
公告发送模块,用于向各个客户端发送所述违规公告消息。
可选的,所述装置还包括:
次数增加模块,用于在滤除所述目标消息的情况下,增加与所述目标用户对应的违规次数;
次数检测模块,用于检测增加后的所述违规次数是否达到违规次数阈值;
所述公告生成模块,还用于当增加后的所述违规次数达到所述违规次数阈值时,生成违规公告消息。
本发明实施例提供的技术方案带来的有益效果是:
通过在获取到目标用户发送的目标消息时,对该目标用户在预定时段内发送的相似消息的总数进行检测,并在该总数达到预设阈值的情况下,滤除上述目标消息。解决了现有技术对一些垃圾消息仍然存在漏判的问题。针对社交类应用的特点,由于部分用户经常在社交类应用中重复地发送相同或相似的消息,这些消息也严重影响了用户间的正常聊天互动,因此这些消息也应当判定为垃圾消息。通过本发明实施例提供的技术方案,可以将这些重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明各个实施例所涉及的一种实施环境的结构示意图;
图2是本发明一个实施例提供的消息过滤方法的方法流程图;
图3是本发明另一实施例提供的消息过滤方法的方法流程图;
图4是本发明一个实施例提供的消息过滤装置的结构方框图;
图5是本发明另一实施例提供的消息过滤装置的结构方框图;
图6是本发明一个实施例提供的服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其示出了本发明各个实施例所涉及的一种实施环境的结构示意图,该实施环境可以包括:至少一个终端120、消息推送服务器140和违规处理服务器160。
终端120中可运行有社交类应用客户端,该社交类应用具备多人聊天互动功能。终端120可以是手机、平板电脑、电子书阅读器、台式计算机、膝上型便携计算机等等。
各个终端120与消息推送服务器140之间可通过有线网络或者无线网络相连。
消息推送服务器140用于收发消息。具体来讲,消息推送服务器140用于接收用户通过社交类应用客户端发送的消息,并将接收到的消息发送给其他用户所登录的社交类应用客户端,以实现多人聊天互动。另外,消息推送服务器140还用于将接收的来自于各个社交类应用客户端的消息发送给违规处理服务器160,通过违规处理服务器160检测上述消息是否为垃圾消息。消息推送服务器140可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
消息推送服务器140与违规处理服务器160之间可通过有线网络或者无线网络相连。
违规处理服务器160用于对各个社交类应用客户端发送的消息进行检测,以检测上述消息是否为垃圾消息。违规处理服务器160可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
另外,上述实施环境仅以消息推送服务器140和违规处理服务器160为相互独立的服务器进行举例说明。在其它可能的实现方式中,消息推送服务器140和违规处理服务器160也可以集成为一台服务器,对此不作具体限定。
请参考图2,其示出了本发明一个实施例提供的消息过滤方法的方法流程图,本实施例以该消息过滤方法应用于图1所示实施环境中的违规处理服务器中进行举例说明。该消息过滤方法可以包括:
步骤202,获取目标用户发送的目标消息。
步骤204,计算在预定时段内该目标用户发送的相似消息的总数,相似消息是指与目标消息的消息内容完全相同或部分关键词相同的消息。
步骤206,检测总数是否达到预设阈值。
步骤208,若总数达到预设阈值,则滤除目标消息。
综上所述,本实施例提供的消息过滤方法,通过在获取到目标用户发送的目标消息时,对该目标用户在预定时段内发送的相似消息的总数进行检测,并在该总数达到预设阈值的情况下,滤除上述目标消息。解决了现有技术对一些垃圾消息仍然存在漏判的问题。针对社交类应用的特点,由于部分用户经常在社交类应用中重复地发送相同或相似的消息,这些消息也严重影响了用户间的正常聊天互动,因此这些消息也应当判定为垃圾消息。通过本实施例提供的消息过滤方法,可以将这些重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。
请参考图3,其示出了本发明另一实施例提供的消息过滤方法的方法流程图,本实施例以该消息过滤方法应用于图1所示实施环境中的违规处理服务器中进行举例说明。该消息过滤方法可以包括:
步骤301,获取目标用户发送的目标消息。
违规处理服务器获取目标用户发送的目标消息,该目标用户可以是具备多人聊天互动功能的社交类应用中的任意一个用户,该目标消息可以是目标用户发送的任意一条消息。
在一种可能的实施方式中,违规处理服务器获取目标用户发送的目标消息报文,对该目标消息报文进行解析得到目标用户对应的用户标识和消息内容。可选的,在其它可能的实施方式中,违规处理服务器还可从目标消息报文中解析得到目标用户对应的用户昵称或者其它用户信息。
步骤302,从目标消息的消息内容中提取至少一个关键词。
违规处理服务器采用关键词提取算法从目标消息的消息内容中提取至少一个关键词。比如,违规处理服务器可以将消息内容所对应的字符串拆分为一个或多个子字符串,每一个子字符串对应于一个关键词。当然,还可根据实际需求选择其他的关键词提取算法,这是本领域技术人员在本发明实施例的基础上易于思及的内容,在此不再赘述。
步骤303,检测提取的关键词是否存在于违规关键词库中。
其中,运营人员可以在违规处理服务器中预先配置违规关键词库。该违规关键词库中包含至少一个违规关键词,违规关键词是指不允许用户发送的词汇或者表情,通常为一些垃圾消息中常见的敏感词汇。
违规处理服务器检测提取的关键词是否存在于违规关键词库中;若提取的关键词存在于违规关键词库中,即可判定该目标消息为垃圾消息,则执行下述步骤307滤除目标消息;若提取的关键词不存在于违规关键词库中,则执行下述步骤304。
步骤304,检测目标消息是否属于允许重复发送的消息。
为了防止将一些常见的、出现频次较高的消息误判为垃圾消息,违规处理服务器可检测目标消息是否属于允许重复发送的消息。具体来讲,本步骤可以包括如下两种可能的实施方式:
在第一种可能的实施方式中,从目标消息中提取至少一个关键词;检测提取的关键词是否存在于关键词白名单中;若提取的关键词不存在于关键词白名单中,则确定目标消息不属于允许重复发送的消息。
其中,关键词白名单中包含至少一个关键词。关键词白名单中的关键词是指允许用户重复发送的词汇或者表情,通常为一些常见的、出现频次较高的词汇或者表情。
违规处理服务器可以采用关键词提取算法从目标消息中提取至少一个关键词。比如,违规处理服务器可以将消息内容所对应的字符串拆分为一个或多个子字符串,每一个子字符串对应于一个关键词。之后,违规处理服务器检测提取的关键词是否存在于关键词白名单中;若提取的关键词存在于关键词白名单中,则确定目标消息属于允许重复发送的消息,执行下述步骤308向各个客户端发送该目标消息;若提取的关键词不存在于关键词白名单中,则确定目标消息不属于允许重复发送的消息,执行下述步骤305。
在第二种可能的实施方式中,获取与目标用户对应的用户标识;检测用户标识是否存在于用户标识白名单中;若用户标识不存在于用户标识白名单中,则确定目标消息不属于允许重复发送的消息。
其中,用户标识白名单中包含至少一个用户标识。用户标识白名单中的用户标识是指允许重复发送消息的用户所对应的用户标识。这些用户通常可以是权限用户,如群聊应用中的群主或管理员,或者如直播应用中的主播或管理员,等等。
违规处理服务器检测与目标用户对应的用户标识是否存在于用户标识白名单中;若该用户标识存在于用户标识白名单中,则确定目标消息属于允许重复发送的消息,执行下述步骤308向各个客户端发送该目标消息;若该用户标识不存在于用户标识白名单中,则确定目标消息不属于允许重复发送的消息,执行下述步骤305。
步骤305,计算在预定时段内该目标用户发送的相似消息的总数。
其中,相似消息是指与目标消息的消息内容完全相同或部分关键词相同的消息。比如,消息内容完全相同的两条消息“主播,跳舞”互为相似消息;再比如,消息内容为“主播,跳舞”和消息内容为“主播,快跳舞”的两条消息存在部分关键词相同,该两条消息也互为相似消息。
另外,预定时段的时间长度是预设时长,该预设时长为预先设定的经验值,如10秒。预定时段的结束时刻是获取目标消息的时刻。违规处理服务器可以根据获取目标消息的时刻和预设时长确定预定时段。比如,当获取目标消息的时刻为11时30分45秒,且预设时长为10秒时,该预定时段即为11时30分35秒至11时30分45秒这一时段。
具体来讲,本步骤可以包括如下几个子步骤:
1、从缓存的消息中选取在预定时段内该目标用户发送的其它消息。
违规处理服务器将获取到的消息缓存一定时长,该将消息进行缓存的时长大于或者等于上述预定时段的时间长度,也即大于或者等于预设时长。违规处理服务器可根据目标用户的用户标识,从缓存的消息中选取该目标用户在预定时段内发送的其它消息。
2、对各个其它消息的消息内容与目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同。
违规处理服务器可采用精确匹配算法对各个其它消息的消息内容与目标消息的消息内容进行匹配,检测两者是否完全相同。比如,可以按照从左至右的顺序,将两条消息的消息内容所对应的两个字符串进行逐字符地匹配。
或者,违规处理服务器也可采用模糊匹配算法对各个其它消息的消息内容与目标消息的消息内容进行匹配,检测两者是否存在部分关键词相同。比如,可以分别从两条消息的消息内容中提取至少一个关键词,然后比对并计算相同关键词的数量。
3、根据各个匹配结果统计与目标消息的消息内容完全相同或部分关键词相同的其它消息的数量。
4、根据统计得到的数量确定相似消息的总数。
当相似消息不包括目标消息时,相似消息的总数即等于统计得到的数量。当相似消息包括目标消息时,相似消息的总数等于统计得到的数量加1。
步骤306,检测总数是否达到预设阈值。
违规处理服务器计算出在预定时段内该目标用户发送的相似消息的总数后,检测该总数是否达到预设阈值。其中,预设阈值为预先设定的经验值,比如5。若该总数达到预设阈值,则将该目标消息判定为垃圾消息,执行下述步骤307;若该总数未达到预设阈值,则执行下述步骤308。
步骤307,滤除目标消息。
违规处理服务器在判定目标消息为垃圾消息的情况下,将目标消息滤除,使得目标消息不被发送到各个客户端,避免目标消息影响用户间的正常聊天互动。
另外,在其它可能的实施方式中,违规处理服务器在判定目标消息为垃圾消息的情况下,还可通过消息推送服务器将目标消息发送给目标用户所对应的客户端。
步骤308,向各个客户端发送目标消息。
违规处理服务器在判定目标消息不是垃圾消息的情况下,通过消息推送服务器将目标消息发送给各个客户端,完成正常的消息广播。
可选的,本实施例提供的消息过滤方法,还可包括如下几个步骤:
步骤309,在滤除目标消息的情况下,增加与目标用户对应的违规次数。
违规处理服务器对各个用户的违规次数进行统计。比如,违规处理服务器中可设置违规次数列表,该违规次数列表中包含不同用户标识与不同违规次数之间的对应关系。当对目标用户发送的目标消息进行滤除时,对违规次数列表进行更新,将该目标用户的用户标识对应的违规次数加1。
步骤310,检测增加后的违规次数是否达到违规次数阈值。
其中,违规次数阈值是预先设定的经验值,比如3。违规处理服务器对增加后的违规次数和违规次数阈值进行比对;若增加后的违规次数达到违规次数阈值,则执行下述步骤311;否则,结束流程。
步骤311,生成违规公告消息。
违规公告消息可以包括目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项。
步骤312,向各个客户端发送违规公告消息。
违规处理服务器通过消息推送服务器将生成的违规公告消息广播给各个客户端,以实现对目标用户的违规行为进行警告,同时可起到警示其它用户的作用。
可选的,当目标用户的违规次数达到最大门限值时,违规处理服务器还可禁止目标用户发送消息的权限。该最大门限值可以等于或者大于上述违规次数阈值。当然,违规处理服务器还可执行其它的警告和处罚措施,这是本领域技术人员在本实施例的基础上易于思及的内容,在此不再赘述。
综上所述,本实施例提供的消息过滤方法,通过在获取到目标用户发送的目标消息时,对该目标用户在预定时段内发送的相似消息的总数进行检测,并在该总数达到预设阈值的情况下,滤除上述目标消息。解决了现有技术对一些垃圾消息仍然存在漏判的问题。针对社交类应用的特点,由于部分用户经常在社交类应用中重复地发送相同或相似的消息,这些消息也严重影响了用户间的正常聊天互动,因此这些消息也应当判定为垃圾消息。通过本实施例提供的消息过滤方法,可以将这些重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。
另外,本实施例提供的消息过滤方法,在对相似消息的总数进行计算之前,还通过检测目标消息是否属于允许重复发送的消息,有效避免了将一些常见的、出现频次较高的消息误判为垃圾消息,提高了消息过滤的准确度。
另外,本实施例提供的消息过滤方法,还通过对目标用户的违规次数进行统计,当违规次数达到预先设定的违规次数阈值时,执行诸如广播违规公告消息、禁用目标用户发送消息的权限等操作,达到了对违规行为进行警告和处罚的效果,有利于减少违规行为的发生。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参考图4,其示出了本发明一个实施例提供的消息过滤装置的结构方框图,该消息过滤装置可以通过软件、硬件或者两者的结合实现成为图1所示实施环境中的违规处理服务器的部分或者全部。该消息过滤装置可以包括:消息获取模块410、总数计算模块420、总数检测模块430和消息过滤模块440。
消息获取模块410,用于获取目标用户发送的目标消息。
总数计算模块420,用于计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息。
总数检测模块430,用于检测所述总数是否达到预设阈值。
消息过滤模块440,用于当所述总数达到预设阈值时,滤除所述目标消息。
综上所述,本实施例提供的消息过滤装置,通过在获取到目标用户发送的目标消息时,对该目标用户在预定时段内发送的相似消息的总数进行检测,并在该总数达到预设阈值的情况下,滤除上述目标消息;解决了现有技术对一些垃圾消息仍然存在漏判的问题;实现了将重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。
请参考图5,其示出了本发明另一实施例提供的消息过滤装置的结构方框图,该消息过滤装置可以通过软件、硬件或者两者的结合实现成为图1所示实施环境中的违规处理服务器的部分或者全部。该消息过滤装置可以包括:消息获取模块410、总数计算模块420、总数检测模块430和消息过滤模块440。
消息获取模块410,用于获取目标用户发送的目标消息。
总数计算模块420,用于计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息。
其中,所述总数计算模块420,包括:消息选取单元420a、消息匹配单元420b、数量统计单元420c和总数确定单元420d。
所述消息选取单元420a,用于从缓存的消息中选取在所述预定时段内所述目标用户发送的其它消息。
所述消息匹配单元420b,用于对各个所述其它消息的消息内容与所述目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同。
所述数量统计单元420c,用于根据各个匹配结果统计与所述目标消息的消息内容完全相同或部分关键词相同的其它消息的数量。
所述总数确定单元420d,用于根据统计得到的所述数量确定所述相似消息的总数;其中,所述相似消息的总数等于统计得到的所述数量,或者,所述相似消息的总数等于统计得到的所述数量加1。
总数检测模块430,用于检测所述总数是否达到预设阈值。
消息过滤模块440,用于当所述总数达到预设阈值时,滤除所述目标消息。
可选的,所述装置还包括:消息检测模块412。
消息检测模块412,用于检测所述目标消息是否属于允许重复发送的消息。
所述总数计算模块420,还用于当所述目标消息不属于所述允许重复发送的消息时,计算在预定时段内所述目标用户发送的相似消息的总数。
在第一种可能的实施方式中,所述消息检测模块412,包括:关键词提取单元412a、关键词检测单元412b和第一确定单元412c。
所述关键词提取单元412a,用于从所述目标消息中提取至少一个关键词;所述关键词检测单元412b,用于检测提取的所述关键词是否存在于关键词白名单中,所述关键词白名单中包含至少一个关键词;所述第一确定单元412c,用于当提取的所述关键词不存在于所述关键词白名单中时,确定所述目标消息不属于所述允许重复发送的消息.
在第二种可能的实施方式中,所述消息检测模块412,包括:标识获取单元412d、标识检测单元412e和第二确定单元412f。
所述标识获取单元412d,用于获取与所述目标用户对应的用户标识;所述标识检测单元412e,用于检测所述用户标识是否存在于用户标识白名单中,所述用户标识白名单中包含至少一个用户标识;所述第二确定单元412f,用于当所述用户标识不存在于所述用户标识白名单中时,确定所述目标消息不属于所述允许重复发送的消息。
可选的,所述装置还包括:时段确定模块414。
时段确定模块414,用于根据获取所述目标消息的时刻和预设时长确定所述预定时段。其中,所述预定时段的时间长度是所述预设时长,所述预定时段的结束时刻是获取所述目标消息的时刻。
可选的,所述装置还包括:公告生成模块450和公告发送模块460
公告生成模块450,用于生成违规公告消息,所述违规公告消息包括所述目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项。
公告发送模块460,用于向各个客户端发送所述违规公告消息。
可选的,所述装置还包括:次数增加模块442和次数检测模块444。
次数增加模块442,用于在滤除所述目标消息的情况下,增加与所述目标用户对应的违规次数。
次数检测模块444,用于检测增加后的所述违规次数是否达到违规次数阈值。
所述公告生成模块450,还用于当增加后的所述违规次数达到所述违规次数阈值时,生成违规公告消息。
综上所述,本实施例提供的消息过滤装置,通过在获取到目标用户发送的目标消息时,对该目标用户在预定时段内发送的相似消息的总数进行检测,并在该总数达到预设阈值的情况下,滤除上述目标消息;解决了现有技术对一些垃圾消息仍然存在漏判的问题;实现了将重复多次发送的相同或相似的垃圾消息进行滤除,提高了对垃圾消息的判断准确度,降低了漏判率。
另外,本实施例提供的消息过滤装置,在对相似消息的总数进行计算之前,还通过检测目标消息是否属于允许重复发送的消息,有效避免了将一些常见的、出现频次较高的消息误判为垃圾消息,提高了消息过滤的准确度。
另外,本实施例提供的消息过滤装置,还通过对目标用户的违规次数进行统计,当违规次数达到预先设定的违规次数阈值时,执行诸如广播违规公告消息、禁用目标用户发送消息的权限等操作,达到了对违规行为进行警告和处罚的效果,有利于减少违规行为的发生。
需要说明的是:上述实施例提供的消息过滤装置在对垃圾消息进行过滤时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的消息过滤装置与消息过滤方法的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图6示出了本发明一个实施例提供的服务器的结构示意图。该服务器用于实施上述实施例中提供的消息过滤方法。具体来讲:
所述服务器600包括中央处理单元(CPU)601、包括随机存取存储器(RAM)602和只读存储器(ROM)603的系统存储器604,以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)606,和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。
所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为服务器600提供非易失性存储。也就是说,所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。
根据本发明的各种实施例,所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612,或者说,也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行如上述图2或图3所示实施例提供的消息过滤方法的指令。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种消息过滤方法,其特征在于,所述方法包括:
获取目标用户发送的目标消息;
计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息;
检测所述总数是否达到预设阈值;
若所述总数达到预设阈值,则滤除所述目标消息。
2.根据权利要求1所述的方法,其特征在于,所述计算在预定时段内所述目标用户发送的相似消息的总数之前,还包括:
检测所述目标消息是否属于允许重复发送的消息;
若所述目标消息不属于所述允许重复发送的消息,则执行所述计算在预定时段内所述目标用户发送的相似消息的总数的步骤。
3.根据权利要求2所述的方法,其特征在于,所述检测所述目标消息是否属于允许重复发送的消息,包括:
从所述目标消息中提取至少一个关键词;检测提取的所述关键词是否存在于关键词白名单中,所述关键词白名单中包含至少一个关键词;若提取的所述关键词不存在于所述关键词白名单中,则确定所述目标消息不属于所述允许重复发送的消息;
或者,
获取与所述目标用户对应的用户标识;检测所述用户标识是否存在于用户标识白名单中,所述用户标识白名单中包含至少一个用户标识;若所述用户标识不存在于所述用户标识白名单中,则确定所述目标消息不属于所述允许重复发送的消息。
4.根据权利要求1所述的方法,其特征在于,所述计算在预定时段内所述目标用户发送的相似消息的总数,包括:
从缓存的消息中选取在所述预定时段内所述目标用户发送的其它消息;
对各个所述其它消息的消息内容与所述目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同;
根据各个匹配结果统计与所述目标消息的消息内容完全相同或部分关键词相同的其它消息的数量;
根据统计得到的所述数量确定所述相似消息的总数;其中,所述相似消息的总数等于统计得到的所述数量,或者,所述相似消息的总数等于统计得到的所述数量加1。
5.根据权利要求1至4任一所述的方法,其特征在于,所述计算在预定时段内所述目标用户发送的相似消息的总数之前,还包括:
根据获取所述目标消息的时刻和预设时长确定所述预定时段;
其中,所述预定时段的时间长度是所述预设时长,所述预定时段的结束时刻是获取所述目标消息的时刻。
6.根据权利要求1至4任一所述的方法,其特征在于,所述滤除所述目标消息之后,还包括:
生成违规公告消息,所述违规公告消息包括所述目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项;
向各个客户端发送所述违规公告消息。
7.根据权利要求6所述的方法,其特征在于,所述生成违规公告消息之前,还包括:
在滤除所述目标消息的情况下,增加与所述目标用户对应的违规次数;
检测增加后的所述违规次数是否达到违规次数阈值;
若增加后的所述违规次数达到所述违规次数阈值,则执行所述生成违规公告消息的步骤。
8.一种消息过滤装置,其特征在于,所述装置包括:
消息获取模块,用于获取目标用户发送的目标消息;
总数计算模块,用于计算在预定时段内所述目标用户发送的相似消息的总数,所述相似消息是指与所述目标消息的消息内容完全相同或部分关键词相同的消息;
总数检测模块,用于检测所述总数是否达到预设阈值;
消息过滤模块,用于当所述总数达到预设阈值时,滤除所述目标消息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
消息检测模块,用于检测所述目标消息是否属于允许重复发送的消息;
所述总数计算模块,还用于当所述目标消息不属于所述允许重复发送的消息时,计算在预定时段内所述目标用户发送的相似消息的总数。
10.根据权利要求9所述的装置,其特征在于,
所述消息检测模块,包括:关键词提取单元、关键词检测单元和第一确定单元;
所述关键词提取单元,用于从所述目标消息中提取至少一个关键词;所述关键词检测单元,用于检测提取的所述关键词是否存在于关键词白名单中,所述关键词白名单中包含至少一个关键词;所述第一确定单元,用于当提取的所述关键词不存在于所述关键词白名单中时,确定所述目标消息不属于所述允许重复发送的消息;
或者,所述消息检测模块,包括:标识获取单元、标识检测单元和第二确定单元;
所述标识获取单元,用于获取与所述目标用户对应的用户标识;所述标识检测单元,用于检测所述用户标识是否存在于用户标识白名单中,所述用户标识白名单中包含至少一个用户标识;所述第二确定单元,用于当所述用户标识不存在于所述用户标识白名单中时,确定所述目标消息不属于所述允许重复发送的消息。
11.根据权利要求8所述的装置,其特征在于,所述总数计算模块,包括:消息选取单元、消息匹配单元、数量统计单元和总数确定单元;
所述消息选取单元,用于从缓存的消息中选取在所述预定时段内所述目标用户发送的其它消息;
所述消息匹配单元,用于对各个所述其它消息的消息内容与所述目标消息的消息内容进行匹配,检测两者是否完全相同或部分关键词相同;
所述数量统计单元,用于根据各个匹配结果统计与所述目标消息的消息内容完全相同或部分关键词相同的其它消息的数量;
所述总数确定单元,用于根据统计得到的所述数量确定所述相似消息的总数;其中,所述相似消息的总数等于统计得到的所述数量,或者,所述相似消息的总数等于统计得到的所述数量加1。
12.根据权利要求8至11任一所述的装置,其特征在于,所述装置还包括:
时段确定模块,用于根据获取所述目标消息的时刻和预设时长确定所述预定时段;
其中,所述预定时段的时间长度是所述预设时长,所述预定时段的结束时刻是获取所述目标消息的时刻。
13.根据权利要求8至11任一所述的装置,其特征在于,所述装置还包括:
公告生成模块,用于生成违规公告消息,所述违规公告消息包括所述目标用户对应的用户标识、用户昵称、违规次数和违规类型中至少一项;
公告发送模块,用于向各个客户端发送所述违规公告消息。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
次数增加模块,用于在滤除所述目标消息的情况下,增加与所述目标用户对应的违规次数;
次数检测模块,用于检测增加后的所述违规次数是否达到违规次数阈值;
所述公告生成模块,还用于当增加后的所述违规次数达到所述违规次数阈值时,生成违规公告消息。
CN201410788733.6A 2014-12-17 2014-12-17 消息过滤方法和装置 Active CN104539514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410788733.6A CN104539514B (zh) 2014-12-17 2014-12-17 消息过滤方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410788733.6A CN104539514B (zh) 2014-12-17 2014-12-17 消息过滤方法和装置

Publications (2)

Publication Number Publication Date
CN104539514A true CN104539514A (zh) 2015-04-22
CN104539514B CN104539514B (zh) 2018-07-17

Family

ID=52854983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410788733.6A Active CN104539514B (zh) 2014-12-17 2014-12-17 消息过滤方法和装置

Country Status (1)

Country Link
CN (1) CN104539514B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105262672A (zh) * 2015-08-31 2016-01-20 小米科技有限责任公司 群内防骚扰方法及装置
CN105635180A (zh) * 2016-03-04 2016-06-01 广州酷狗计算机科技有限公司 消息推送方法及装置
CN105897445A (zh) * 2016-05-30 2016-08-24 北京奇艺世纪科技有限公司 一种小号外挂的确定方法及装置
CN106331872A (zh) * 2016-08-26 2017-01-11 微梦创科网络科技(中国)有限公司 一种在直播互动过程中消息筛选方法及装置
CN106453322A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 通知过滤方法
CN106559695A (zh) * 2016-10-14 2017-04-05 北京金山安全软件有限公司 弹幕消息的处理方法、装置以及电子设备
CN106789425A (zh) * 2016-12-22 2017-05-31 北京东土科技股份有限公司 一种确定重复报文的方法及装置
CN107734076A (zh) * 2017-11-29 2018-02-23 湖北三新文化传媒有限公司 消息推送方法、装置及存储介质
CN108259922A (zh) * 2016-12-28 2018-07-06 中兴通讯股份有限公司 一种互动直播方法、装置及系统
CN108334256A (zh) * 2018-02-27 2018-07-27 维沃移动通信有限公司 一种消息控制方法及移动终端
CN108471618A (zh) * 2017-02-23 2018-08-31 大唐移动通信设备有限公司 一种消息处理方法及装置
CN109547319A (zh) * 2017-09-22 2019-03-29 中移(杭州)信息技术有限公司 一种消息处理方法及装置
CN110248211A (zh) * 2018-03-07 2019-09-17 香港乐蜜有限公司 直播间消息限流方法、装置、电子设备及存储介质
CN112468386A (zh) * 2020-11-17 2021-03-09 福建天泉教育科技有限公司 一种重复消息的处理方法及终端
CN113704638A (zh) * 2021-08-31 2021-11-26 连尚(北京)网络科技有限公司 一种在社交群聊中识别呈现信息的方法与设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015714A1 (en) * 2000-03-22 2004-01-22 Comscore Networks, Inc. Systems and methods for user identification, user demographic reporting and collecting usage data using biometrics
CN101075980A (zh) * 2006-07-26 2007-11-21 腾讯科技(深圳)有限公司 对通讯系统中的通讯信息进行过滤的方法和过滤系统
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101472245A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 垃圾短信拦截方法和装置
CN101616101A (zh) * 2008-06-26 2009-12-30 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
CN101635894A (zh) * 2009-08-28 2010-01-27 中兴通讯股份有限公司 一种垃圾信息监控系统、监控方法、信息发送方法
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040015714A1 (en) * 2000-03-22 2004-01-22 Comscore Networks, Inc. Systems and methods for user identification, user demographic reporting and collecting usage data using biometrics
CN101075980A (zh) * 2006-07-26 2007-11-21 腾讯科技(深圳)有限公司 对通讯系统中的通讯信息进行过滤的方法和过滤系统
CN101257671A (zh) * 2007-07-06 2008-09-03 浙江大学 基于内容的大规模垃圾短信实时过滤方法
CN101472245A (zh) * 2007-12-27 2009-07-01 中国移动通信集团公司 垃圾短信拦截方法和装置
CN101616101A (zh) * 2008-06-26 2009-12-30 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
CN101635894A (zh) * 2009-08-28 2010-01-27 中兴通讯股份有限公司 一种垃圾信息监控系统、监控方法、信息发送方法
CN101860822A (zh) * 2010-06-11 2010-10-13 中兴通讯股份有限公司 垃圾短信监控方法和系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105262672A (zh) * 2015-08-31 2016-01-20 小米科技有限责任公司 群内防骚扰方法及装置
CN105635180B (zh) * 2016-03-04 2019-03-19 广州酷狗计算机科技有限公司 消息推送方法及装置
CN105635180A (zh) * 2016-03-04 2016-06-01 广州酷狗计算机科技有限公司 消息推送方法及装置
CN105897445A (zh) * 2016-05-30 2016-08-24 北京奇艺世纪科技有限公司 一种小号外挂的确定方法及装置
CN106331872A (zh) * 2016-08-26 2017-01-11 微梦创科网络科技(中国)有限公司 一种在直播互动过程中消息筛选方法及装置
CN106559695A (zh) * 2016-10-14 2017-04-05 北京金山安全软件有限公司 弹幕消息的处理方法、装置以及电子设备
CN106453322A (zh) * 2016-10-18 2017-02-22 江西博瑞彤芸科技有限公司 通知过滤方法
CN106789425A (zh) * 2016-12-22 2017-05-31 北京东土科技股份有限公司 一种确定重复报文的方法及装置
CN106789425B (zh) * 2016-12-22 2019-08-02 北京东土科技股份有限公司 一种确定重复报文的方法及装置
CN108259922B (zh) * 2016-12-28 2022-08-19 中兴通讯股份有限公司 一种互动直播方法、装置及系统
CN108259922A (zh) * 2016-12-28 2018-07-06 中兴通讯股份有限公司 一种互动直播方法、装置及系统
CN108471618A (zh) * 2017-02-23 2018-08-31 大唐移动通信设备有限公司 一种消息处理方法及装置
CN109547319A (zh) * 2017-09-22 2019-03-29 中移(杭州)信息技术有限公司 一种消息处理方法及装置
CN107734076A (zh) * 2017-11-29 2018-02-23 湖北三新文化传媒有限公司 消息推送方法、装置及存储介质
CN108334256A (zh) * 2018-02-27 2018-07-27 维沃移动通信有限公司 一种消息控制方法及移动终端
CN110248211A (zh) * 2018-03-07 2019-09-17 香港乐蜜有限公司 直播间消息限流方法、装置、电子设备及存储介质
CN110248211B (zh) * 2018-03-07 2021-08-24 卓米私人有限公司 直播间消息限流方法、装置、电子设备及存储介质
CN112468386A (zh) * 2020-11-17 2021-03-09 福建天泉教育科技有限公司 一种重复消息的处理方法及终端
CN112468386B (zh) * 2020-11-17 2022-09-06 福建天泉教育科技有限公司 一种重复消息的处理方法及终端
CN113704638A (zh) * 2021-08-31 2021-11-26 连尚(北京)网络科技有限公司 一种在社交群聊中识别呈现信息的方法与设备

Also Published As

Publication number Publication date
CN104539514B (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN104539514A (zh) 消息过滤方法和装置
US20190342415A1 (en) Event information push method, event information push apparatus, and storage medium
CN108416041B (zh) 语音日志分析方法和系统
CN108920649B (zh) 一种信息推荐方法、装置、设备和介质
US20220027572A1 (en) Systems and methods for generating a summary of a multi-speaker conversation
CN105263590B (zh) 用于游戏数据收集的方法和系统
CN111160624B (zh) 一种用户意向预测方法、用户意向预测装置及终端设备
WO2017107831A1 (zh) 一种基于应用软件实现播报的方法、装置及电子设备
CN110069769B (zh) 应用标签生成方法、装置及存储设备
CN110543506A (zh) 数据分析方法、装置、电子设备及存储介质
CN105323145A (zh) 恶意信息识别方法、恶意信息识别装置及系统
US20180322526A1 (en) Advertisement detection method, advertisement detection apparatus, and storage medium
CN112148958A (zh) 用于信息推荐的方法、设备和计算机存储介质
CN114390011B (zh) 一种消息处理方法、装置以及可读存储介质
CN112541645B (zh) 伴随车辆产品项目开发的数据处理方法、系统及相关装置
CN105630996B (zh) 一种信息处理方法和服务器
CN111354013A (zh) 目标检测方法及装置、设备和存储介质
CN103106239A (zh) 一种图像中对象的识别方法和装置
CN111966919A (zh) 一种事件消息的处理方法、装置及设备
US10572750B2 (en) Publisher tool for controlling sponsored content quality across mediation platforms
CN111324707A (zh) 用户交互方法和装置、计算机可读存储介质、电子设备
CN113052632B (zh) 一种广告流量数据的识别方法、装置、设备及存储介质
US11849006B2 (en) Method for reporting asynchronous data, electronic device and storage medium
CN117499129B (zh) 应用于入侵检测系统的规则同步方法、装置和存储介质
CN112749320B (zh) 信息投放方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510660 Guangzhou City, Guangzhou, Guangdong, Whampoa Avenue, No. 315, self - made 1-17

Applicant after: Guangzhou KuGou Networks Co., Ltd.

Address before: 510000 B1, building, No. 16, rhyme Road, Guangzhou, Guangdong, China 13F

Applicant before: Guangzhou KuGou Networks Co., Ltd.

GR01 Patent grant
GR01 Patent grant