CN104021178A - 多媒体信息过滤方法和装置 - Google Patents
多媒体信息过滤方法和装置 Download PDFInfo
- Publication number
- CN104021178A CN104021178A CN201410245701.1A CN201410245701A CN104021178A CN 104021178 A CN104021178 A CN 104021178A CN 201410245701 A CN201410245701 A CN 201410245701A CN 104021178 A CN104021178 A CN 104021178A
- Authority
- CN
- China
- Prior art keywords
- numerical value
- default
- conventional number
- sign
- pending
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供了一种多媒体信息过滤方法,所述方法包括:获取对应用户标识的待处理多媒体标识;采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识;判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值;若是则过滤掉所述待处理多媒体标识所对应的多媒体信息。本发明提供的多媒体信息过滤方法,不需要直接存储用户标识和待处理多媒体标识的对应关系来作为过滤相应的多媒体信息的依据,而仅需要存储相应的标志数值位置标识即可实现对多媒体信息的过滤,对存储资源消耗小。本发明还提供了一种多媒体信息过滤装置。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种多媒体信息过滤方法和装置。
背景技术
随着互联网技术的发展,用户可以通过PC(个人计算机)或者移动终端等各种设备观看视频,若用户手动从大数据量的视频库中找出未观看的视频播放,则需要花费时间进行大量查找操作,费时费力。为了改善这种情况,有必要将用户已经观看的视频过滤掉再将其它视频信息推送到用户使用的客户端。
目前的视频过滤方法主要通过建立一个过滤列表来实现,该过滤列表中存储了用户最近观看的50部视频的标识,当要向客户端推送视频信息时,获取用户标识所对应的过滤列表,先查找要推送的视频的标识是否存在于该过滤列表中,如果是就过滤掉,仅将其标识不存在于过滤列表中的视频信息推送给客户端。
然而,目前的视频过滤方法需要对应每个用户建立过滤列表,若过滤列表容量太小可能因用户过于活跃而无法达到过滤效果,若过滤列表容量大些则需要大容量的存储空间,对存储资源消耗太大。比如假设每天的视频播放量为2亿,如果直接存储用户标识和视频标识的对应关系,若用户标识占10字节,视频标识占15字节,加上连接两者的连接符,每条记录需要26字节的存储空间。半年累积下来就需要30*6*2亿*26字节=9000亿字节,大约需要900G的存储空间,这无疑给提供视频播放服务的服务器带来了很大负担。
发明内容
基于此,有必要针对目前的视频过滤方法对存储资源消耗大的技术问题,提供一种多媒体信息过滤方法和装置。
一种多媒体信息过滤方法,所述方法包括:
获取对应用户标识的待处理多媒体标识;
采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识;
判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值;
若是则对应所述用户标识而过滤掉所述待处理多媒体标识所对应的多媒体信息。
一种多媒体信息过滤装置,所述装置包括:
第一获取模块,用于获取对应用户标识的待处理多媒体标识;
第一映射模块,用于采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识;
判断模块,用于判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值;
判断结果处理模块,用于若所述判断模块判断为是则对应所述用户标识而过滤掉所述待处理多媒体标识所对应的多媒体信息。
上述多媒体信息过滤方法和装置,通过预设哈希函数的映射,待处理多媒体标识和相应的用户标识被共同映射为占用存储空间更小的待处理标志数值位置标识,该待处理标志数值位置标识对应预设标志数值序列中的标志数值,若该对应的标志数值为预定标志数值,则过滤掉该待处理多媒体标识所对应的多媒体信息。这样不需要直接存储用户标识和待处理多媒体标识的对应关系来作为过滤相应的多媒体信息的依据,而仅需要存储相应的标志数值位置标识即可实现对多媒体信息的过滤,对存储资源消耗小。
附图说明
图1为一个实施例中多媒体信息过滤方法的流程示意图;
图2为一个实施例中生成预设标志数值序列的步骤的流程示意图;
图3为一个具体应用场景中生成预设标志数值序列的过程的示意图;
图4为一个实施例中多媒体信息过滤装置的结构框图;
图5为另一个实施例中多媒体信息过滤装置的结构框图;
图6为再一个实施例中多媒体信息过滤装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,在一个实施例中,提供了一种多媒体信息过滤方法,本实施例以该方法应用于多媒体服务器来举例说明。该方法具体包括如下步骤:
步骤102,获取对应用户标识的待处理多媒体标识。
多媒体服务器在接收到客户端发送的携带有用户标识的请求后,响应于该请求而获取对应该用户标识的待处理多媒体标识。待处理多媒体标识可为多个,则可获取对应用户标识的待处理多媒体标识的列表。
用户标识用于唯一标识用户身份,可为账号,比如登录即时通信客户端或登录多媒体播放客户端的账号。多媒体包括但不限于视频、音频以及音、视频的结合等,多媒体标识用于标识出不同的多媒体,可用预设形式的字符串表示。待处理多媒体标识是指需要判断其多媒体信息被过滤掉还是保留的多媒体的标识。多媒体信息是与该多媒体相关的信息,包括但不限于多媒体名称、多媒体介绍信息、播放地址、所属类别、播放时长等。
步骤104,采用预设哈希函数将用户标识和待处理多媒体标识共同映射为待处理标志数值位置标识。
哈希函数或称为散列函数可把任意长度的输入压缩为预设长度的输出,该输出为哈希值或称为散列值。本实施例中可将用户标识和相应的待处理多媒体标识组合,包括直接拼接或者通过中间连接符连接,将组合后的数据输入预设哈希函数以进行映射,获得的输出为对应预设标志数值序列中的标志数值的待处理标志数值位置标识。或者可将组合后的数据输入第一预设哈希函数获得中间值,再将该中间值输入第二预设哈希函数来获得待处理标志数值位置标识。当获取的待处理多媒体标识为多个时,需分别将每个待处理多媒体标识和其对应的用户标识共同映射为待处理标志数值位置标识。
一个标志数值位置标识用于表示在预设标志数值序列中的一个标志数值的具体位置。预设标志数值序列包括一系列的标志数值,该标志数值有两种取值,分别用来表示在过滤多媒体信息时,该标志数值所对应的用户标识和多媒体标识的对应关系所对应的多媒体信息要被过滤掉还是保留。
预设哈希函数的值域固定,为预设标志数值序列的标志数值位置标识的取值集合。假设预设标志数值序列共包括m个标志数值,相应的标志数值位置标识为0、1、……、m-1,则该预设哈希函数的值域为[0,m-1]。预设哈希函数可为多个,相应的步骤104具体可包括:采用多个不同的预设哈希函数分别将用户标识和待处理多媒体标识共同映射为对应每个预设哈希函数的待处理标志数值位置标识。
步骤106,判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值是否为预定标志数值。若判断为是则执行步骤108,若判断为否则执行步骤110。
将用户标识和待处理多媒体标识共同映射为待处理标志数值位置标识后,判断该待处理标志数值位置标识所对应的预设标志数值序列中的标志数值是否为预定标志数值,从而根据判断结果执行不同的动作。预定标志数值用于表示当用户标识和多媒体标识共同映射到预设标志数值序列中对应预定标志数值的标志数值位置标识时,则该多媒体标识所对应的多媒体信息需要对应该用户标识而被过滤掉。
当预设哈希函数为多个,相应的采用多个不同的预设哈希函数分别将用户标识和待处理多媒体标识共同映射为对应每个预设哈希函数的待处理标志数值位置标识后,则步骤106包括:判断在预设标志数值序列中每个待处理标志数值位置标识所对应的标志数值是否均为预定标志数值。
采用预设哈希函数将用户标识和待处理多媒体标识共同压缩映射为长度较短的待处理标志数值位置标识,会存在不同的用户标识和待处理多媒体标识对应关系却映射为相同的标志数值位置标识的情况,这样被设定为需要过滤的多媒体信息一定会被过滤掉,但未被设定为需要过滤的多媒体信息可能因为一定几率的误判也被过滤掉。因此本实施中采用多个不同的预设哈希函数来分别映射,当映射获得的待处理标志数值位置标识在预设标志数值序列中所对应的标志数值都为预定标志数值,才执行步骤108,否则将执行步骤110。这样可以降低误判率,从而防止不需要过滤的多媒体信息因误判而被过滤掉。优选可采用8个不同的预设哈希函数进行分别映射,可以达到降低误判率和避免计算量过大的平衡。
步骤108,对应用户标识而过滤掉待处理多媒体标识所对应的多媒体信息。
当步骤106中经判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值为预定标志数值时,说明通过该预定标志数值来表示上述多媒体标识所对应的多媒体信息需要对应上述用户标识过滤掉。比如该多媒体标识所对应的多媒体被该用户标识所对应的客户端播放过,或者该多媒体标识所对应的多媒体信息已向该用户标识所对应的客户端推送且未被点击的次数超过预定次数阈值,这样应将其过滤掉而无需再向其推送该多媒体信息。
步骤110,对应用户标识而保留待处理多媒体标识所对应的多媒体信息。
当步骤106中经判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值不是预定标志数值时,说明通过该预定标志数值来表示上述多媒体标识所对应的多媒体信息需要对应上述用户标识被保留,这样应将其过滤掉而无需再向相应的用户标识所对应的客户端推送该多媒体信息。
在一个实施例中,步骤110之后还包括:将保留的多媒体信息推送给用户标识所对应的客户端。当对于对应用户标识的待处理多媒体标识列表中的每个待处理多媒体标识分别通过上述步骤102~步骤110处理后,获得保留的多媒体信息的集合,并将该多媒体信息的集合推送给用户标识所对应的客户端,使该客户端在预设的推荐信息显示区域显示该多媒体信息的集合。
上述多媒体信息过滤方法,通过预设哈希函数的映射,待处理多媒体标识和相应的用户标识被共同映射为占用存储空间更小的待处理标志数值位置标识,该待处理标志数值位置标识对应预设标志数值序列中的标志数值,若该对应的标志数值为预定标志数值,则过滤掉该待处理多媒体标识所对应的多媒体信息。这样不需要直接存储用户标识和待处理多媒体标识的对应关系来作为过滤相应的多媒体信息的依据,而仅需要存储相应的标志数值位置标识即可实现对多媒体信息的过滤,对存储资源消耗小。
在一个实施例中,预设标志数值序列为二进制比特位序列,预定标志数值取自0和1中的一种。若预设哈希函数的个数为8个,则只需8比特即1字节便可表示用户标识所对应的多媒体标识所对应的多媒体信息是否要被过滤,相比目前的视频过滤方法,即使预留一倍缓存,同样的用户数量在半年内仅需30*6*2亿*2字节=720亿字节,大约需要72G的存储空间,大大降低了对存储资源的消耗。
如图2所示,在一个实施例中,在上述步骤102之前,该多媒体信息过滤方法还包括生成预设标志数值序列的步骤,具体包括如下步骤:
步骤202,创建标志数值序列,初始化该创建的标志数值序列中的标志数值为初始标志数值。
创建一个包括预设数量的标志数值的标志数值序列,该预设数量可根据用户数量和采用的不同的预设哈希函数的数量来确定,比如每个用户可对应预设个数的标志数值;或者该预设数量可根据用户数量、采用的不同的预设哈希函数的数量以及每个用户播放多媒体的频率来确定,对于活跃的用户可以考虑预留更多的标志数值。将该创建的标志数值序列中的标志数值都初始化为初始标志数值,该初始标志数值为与上述预定标志数值相异的数值。在一个实施例中,可预留一倍的缓存,具体上述预设数量可设置为计算出的实际所需的标志数值的数量的2倍,这样虽然会多占用一倍存储空间,但却可以大幅度降低误判率。
步骤204,获取存在对应关系的用户标识和被过滤多媒体标识。
被过滤多媒体标识是事先确定的需要对应该用户标识而被过滤掉其信息的多媒体的标识,可为已在该用户标识所对应的客户端上播放的多媒体的标识,和/或其相关信息已向该用户标识所对应的客户端推送且未被点击的次数超过预定次数阈值的多媒体的标识。
步骤206,采用预设哈希函数将用户标识和被过滤多媒体标识共同映射为过滤标志数值位置标识。
这里采用的预设哈希函数,与上述步骤104中采用的预设哈希函数一致。本实施例中可将存在对应关系的被过滤多媒体标识和用户标识组合,包括直接拼接或者通过中间连接符连接,将组合后的数据输入预设哈希函数以进行映射,获得的对应初始化的标志数值序列中的标志数值的标志数值位置标识,为过滤标志数值位置标识。或者可将组合后的数据输入第一预设哈希函数获得中间值,再将该中间值输入第二预设哈希函数来获得过滤标志数值位置标识。当获取的被过滤多媒体标识为多个时,需分别将每个被过滤多媒体标识和其对应的用户标识共同映射为过滤标志数值位置标识。
预设哈希函数可为多个,相应的步骤206具体可包括:采用多个不同的预设哈希函数分别将用户标识和被过滤多媒体标识共同映射为对应每个预设哈希函数的过滤标志数值位置标识。本实施例中的多个不同的预设哈希函数,与上述实施例中映射为对应每个预设哈希函数的待处理标志数值位置标识所采用的多个不同的预设哈希函数一致。
步骤208,将初始化的标志数值序列中的过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得预设标志数值序列。
计算获得过滤标志数值位置标识后,将每个过滤标志数值位置标识在初始化的标志数值序列中所对应的标志数值更改为预定标志数值,从而获得上述实施例中所用到的预设标志数值序列。若采用的预设哈希函数为多个,则分别将计算获得的对应每个预设哈希函数的过滤标志数值位置标识在初始化的标志数值序列中所对应的标志数值更改为预定标志数值,最终获得预设标志数值序列。在一个实施例中,预设标志数值序列为二进制比特位序列,预定标志数值和初始标志数值相异且分别取自0和1中的一种。
本实施例中,提供了生成预设标志数值序列的步骤,生成的预设标志数值序列所消耗的存储资源小。
在一个实施例中,该多媒体信息过滤方法还包括步骤:按照预设时间区段生成预设标志数值序列;当生成的预设标志数值序列的数量超过预设数量阈值时,将超过预设数量阈值的根据最早预设时间区段生成的预设标志数值序列删除。
按照预设时间区段来执行上述生成预设标志数值序列的步骤,这里的预设时间区段是指一个时间段,比如一个月、30天、60天等。具体地,每隔一个预设时间区段的时间长度,创建一个标志数值序列并将其中的标志数值初始化为初始标志数值,根据当前处理的预设时间区段中所产生的用户使用记录来获取被过滤多媒体标识和与其相应的用户标识,从而采用预设哈希函数将当前处理的预设时间区段中的用户标识和被过滤多媒体标识共同映射为过滤标志数值位置标识;将当前处理的预设时间区段中的初始化的标志数值序列中的过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得对应当前处理的预设时间区段的预设标志数值序列。这样最终获得多个预设时间区段的预设标志数值序列。
过滤多媒体信息时,在步骤104之后,分别对应每个预设时间区段的预设标志数值序列执行上述步骤106,当根据任意一个预设时间区段的预设标志数值序列判断为是时执行上述步骤108,当根据每个预设时间区段的预设标志数值序列都判断为否时执行上述步骤110。
预设数量阈值是事先设定的用来回收存储资源的一个数值,当生成的预设标志数值序列的数量超过预设数量阈值时,将超过预设数量阈值的个数的预设标志数值序列删除,且删除的预设标志数值序列是根据最早预设时间区段生成的。比如按月依次生成了编号为1-6的预设标志数值序列,若预设数量阈值为6,则在生成编号为7的预设标志数值序列时,就将编号为1的预设标志数值序列删除,依次类推,这样多媒体信息被过滤的有效期限为半年。
本实施例中,按照预设时间区段来循环生成预设标志数值序列,并通过删除最早生成的预设标志数值序列来维持预设标志数值序列的总数不变,可以进一步节约存储空间,也可以防止因为一个预设标志数值序列发生错误而导致无法实现多媒体信息的过滤。
下面用一个具体应用场景来说明上述多媒体信息过滤方法的原理,本应用场景以该方法应用于多媒体服务器来举例说明,其中用户标识为账号uin,多媒体为视频,相应的多媒体标识用视频标识vid表示。具体包括如下步骤:
预先按月生成预设标志数值序列,参照图3,具体先创建一个m位的BitSet(一种二进制比特位序列),m为大于或等于2的整数。该BitSet的每一位为一个标志数值,分别对应标志数值位置标识为0,1,……,m-1。将该BitSet的每一位初始化为初始标志数值“0”。根据各uin所对应的用户使用数据,比如uin所对应的已播放视频vid列表和/或已向该uin所对应的客户端推送N(N≥2)次且N次未被点击的视频信息的vid列表,来获取需要过滤的uin和vid数据对。将每对需要过滤的uin和vid通过连接符#连接后,采用k个不同的预设哈希函数{Hi,i=1,……,k}来计算每对uin和vid所对应的过滤标志数值位置标识为hi(uin#vid),(i=1,……,k);其中hi为每个预设哈希函数Hi的哈希结果,hi的取值范围为{0,1,……,m-1}。在初始化的BitSet中,将上述计算出的过滤标志数值位置标识为hi(uin#vid)的标志数值更改为预定标志数值“1”。这样将每个需要过滤的uin和vid数据对都处理完毕后,获得预设标志数值序列。若当前生成的预设标志数值序列的总数超过预设数量阈值6时,将超过该预设数量阈值的根据最早预设时间区段生成的预设标志数值序列删除。
在接收到客户端发送的携带有uin的请求后,响应于该请求而获取对应该uin的待处理vid列表。采用上述k个不同的预设哈希函数{Hi,i=1,……,k}来计算每对uin和待处理vid所对应的待处理标志数值位置标识为hi’(uin#vid),i=1,……,k。判断每个待处理标志数值位置标识hi’(uin#vid)所对应的预设标志数值序列中的标志数值是否均为预定标志数值1,如果是则将该vid从待处理vid列表中删除,否则保留。这样将该uin所对应的待处理vid列表中所有vid处理完毕后,将保留的vid所对应的多媒体信息推送给该uin所对应的客户端。该客户端接收到这些多媒体信息后在预设的推荐信息显示区域显示这些推送的多媒体信息。
其中,假设用户总数为2亿,按月生成预设标志数值序列,每月约为30天,维持6个月的预设标志数值序列。k取8,则每个用户已观看的一个视频的vid至少需要8比特位的存储空间,若预留一倍缓存,则半年所需存储空间为:30*6*2亿*2*8比特位=5760亿比特位=720亿字节,大约需要72G的存储空间,可减少为目前传统的视频过滤方法所需的十分之一。采用上述多媒体信息过滤方法的误判率可用如下公式计算:
其中k=8;n=360亿,表示半年内需要过滤的uin和vid的数据对的总个数;M=5760亿,表示半年内所需的预设标志数值序列的比特位总数量,则误判率仅约为万分之五。
如图4所示,在一个实施例中,提供了一种多媒体信息过滤装置,该装置包括第一获取模块402、第一映射模块404、判断模块406和判断结果处理模块408。
第一获取模块402,用于获取对应用户标识的待处理多媒体标识。
第一获取模块402用于响应于客户端发送的携带有用户标识的请求,获取对应该用户标识的待处理多媒体标识。待处理多媒体标识可为多个,则第一获取模块402可用于获取对应用户标识的待处理多媒体标识的列表。
用户标识用于唯一标识用户身份,可为账号,比如登录即时通信客户端或登录多媒体播放客户端的账号。多媒体包括但不限于视频、音频以及音、视频的结合等。多媒体信息是与该多媒体相关的信息,包括但不限于多媒体名称、多媒体介绍信息、播放地址、所属类别、播放时长等。
第一映射模块404,用于采用预设哈希函数将用户标识和待处理多媒体标识共同映射为待处理标志数值位置标识。
第一映射模块404可用于将用户标识和相应的待处理多媒体标识组合,包括直接拼接或者通过中间连接符连接,将组合后的数据输入预设哈希函数以进行映射,获得的输出为对应预设标志数值序列中的标志数值的待处理标志数值位置标识。或者可用于将组合后的数据输入第一预设哈希函数获得中间值,再将该中间值输入第二预设哈希函数来获得待处理标志数值位置标识。当获取的待处理多媒体标识为多个时,第一映射模块404用于分别将每个待处理多媒体标识和其对应的用户标识共同映射为待处理标志数值位置标识。
预设哈希函数的值域固定,为预设标志数值序列的标志数值位置标识的取值集合。预设哈希函数可为多个,则相应的第一映射模块404可用于采用多个不同的预设哈希函数分别将用户标识和待处理多媒体标识共同映射为对应每个预设哈希函数的待处理标志数值位置标识。
判断模块406,用于判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值是否为预定标志数值。
将用户标识和待处理多媒体标识共同映射为待处理标志数值位置标识后,判断模块406用于判断该待处理标志数值位置标识所对应的预设标志数值序列中的标志数值是否为预定标志数值,从而根据判断结果执行不同的动作。预定标志数值用于表示当用户标识和多媒体标识共同映射到预设标志数值序列中对应预定标志数值的标志数值位置标识时,则该多媒体标识所对应的多媒体信息需要对应该用户标识而被过滤掉。
判断结果处理模块408,用于若判断模块判断为是则对应用户标识而过滤掉待处理多媒体标识所对应的多媒体信息;若判断模块判断为否则对应用户标识而保留待处理多媒体标识所对应的多媒体信息。
经判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值为预定标志数值时,说明通过该预定标志数值来表示上述多媒体标识所对应的多媒体信息需要对应上述用户标识过滤掉,此时判断结果处理模块408用于将其过滤掉而无需再向相应的用户标识所对应的客户端推送该多媒体信息。
当经判断在预设标志数值序列中待处理标志数值位置标识所对应的标志数值不是预定标志数值时,说明通过该预定标志数值来表示上述多媒体标识所对应的多媒体信息需要对应上述用户标识被保留,此时判断结果处理模块408用于将该多媒体信息保留并推送给该用户标识所对应的客户端。
在一个实施例中,判断结果处理模块408还用于将保留的多媒体信息推送给用户标识所对应的客户端。具体地,判断结果处理模块408用于获得保留的多媒体信息的集合,并将该多媒体信息的集合推送给用户标识所对应的客户端,使该客户端在预设的推荐信息显示区域显示该多媒体信息的集合。
当预设哈希函数为多个,相应的第一映射模块404用于采用多个不同的预设哈希函数分别将用户标识和待处理多媒体标识共同映射为对应每个预设哈希函数的待处理标志数值位置标识,则判断模块406用于判断在预设标志数值序列中每个待处理标志数值位置标识所对应的标志数值是否均为预定标志数值。本实施中采用多个不同的预设哈希函数来分别映射,当映射获得的待处理标志数值位置标识在预设标志数值序列中所对应的标志数值都为预定标志数值,判断结果处理模块408才用于过滤掉待处理多媒体标识所对应的多媒体信息。这样可以降低误判率,从而防止不需要过滤的多媒体信息因误判而被过滤掉。优选可采用8个不同的预设哈希函数进行分别映射,可以达到降低误判率和避免计算量过大的平衡。
上述多媒体信息过滤装置,通过预设哈希函数的映射,待处理多媒体标识和相应的用户标识被共同映射为占用存储空间更小的待处理标志数值位置标识,该待处理标志数值位置标识对应预设标志数值序列中的标志数值,若该对应的标志数值为预定标志数值,则过滤掉该待处理多媒体标识所对应的多媒体信息。这样不需要直接存储用户标识和待处理多媒体标识的对应关系来作为过滤相应的多媒体信息的依据,而仅需要存储相应的标志数值位置标识即可实现对多媒体信息的过滤,对存储资源消耗小。
如图5所示,在一个实施例中,该多媒体信息过滤装置还包括预设标志数值序列生成模块405,包括标志数值序列创建模块405a、第二获取模块405b、第二映射模块405c和标志数值更改模块405d。
标志数值序列创建模块405a,用于创建标志数值序列,初始化创建的标志数值序列中的标志数值为初始标志数值。
具体地,标志数值序列创建模块405a用于创建一个包括预设数量的标志数值的标志数值序列,该预设数量可根据用户数量和采用的不同的预设哈希函数的数量来确定,或者该预设数量可根据用户数量、采用的不同的预设哈希函数的数量以及每个用户播放多媒体的频率来确定。标志数值序列创建模块405a用于将该创建的标志数值序列中的标志数值都初始化为初始标志数值,该初始标志数值为与上述预定标志数值相异的数值。在一个实施例中,标志数值序列创建模块405a可用于预留一倍的缓存,具体上述预设数量可设置为计算出的实际所需的标志数值的数量的2倍,这样虽然会多占用一倍存储空间,但却可以大幅度降低误判率。
第二获取模块405b,用于获取存在对应关系的用户标识和被过滤多媒体标识。
被过滤多媒体标识是事先确定的需要对应该用户标识而被过滤掉其信息的多媒体的标识,可为已在该用户标识所对应的客户端上播放的多媒体的标识,和/或其相关信息已向该用户标识所对应的客户端推送且未被点击的次数超过预定次数阈值的多媒体的标识。
第二映射模块405c,用于采用预设哈希函数将用户标识和被过滤多媒体标识共同映射为过滤标志数值位置标识。
这里采用的预设哈希函数,与上述第一映射模块404所采用的预设哈希函数一致。本实施例中第二映射模块405c可用于将被过滤多媒体标识和相应的用户标识组合,包括直接拼接或者通过中间连接符连接,将组合后的数据输入预设哈希函数以进行映射,获得的对应初始化的标志数值序列中的标志数值的标志数值位置标识,为过滤标志数值位置标识。或者第二映射模块405c可用于将组合后的数据输入第一预设哈希函数获得中间值,再将该中间值输入第二预设哈希函数来获得过滤标志数值位置标识。当获取的被过滤多媒体标识为多个时,第二映射模块405c用于分别将每个被过滤多媒体标识和其对应的用户标识共同映射为过滤标志数值位置标识。
预设哈希函数可为多个,相应的第二映射模块405c可用于采用多个不同的预设哈希函数分别将存在对应关系的用户标识和被过滤多媒体标识共同映射为对应每个预设哈希函数的过滤标志数值位置标识。本实施例中的多个不同的预设哈希函数,与上述实施例中第一映射模块404在映射获得对应每个预设哈希函数的待处理标志数值位置标识所采用的多个不同的预设哈希函数一致。
标志数值更改模块405d,用于将初始化的标志数值序列中的过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得预设标志数值序列。
计算获得过滤标志数值位置标识后,标志数值更改模块405d用于将每个过滤标志数值位置标识在初始化的标志数值序列中所对应的标志数值更改为预定标志数值,从而获得上述实施例中所用到的预设标志数值序列。若采用的预设哈希函数为多个,则标志数值更改模块405d用于分别将计算获得的对应每个预设哈希函数的过滤标志数值位置标识在初始化的标志数值序列中所对应的标志数值更改为预定标志数值,最终获得预设标志数值序列。在一个实施例中,预设标志数值序列为二进制比特位序列,预定标志数值取自0和1中的一种,初始标志数值与预定标志数值相异且取自0和1中的一种。
如图6所示,在一个实施例中,该多媒体信息过滤装置所包括的预设标志数值序列生成模块405用于按照预设时间区段生成预设标志数值序列。该多媒体信息过滤装置还包括预设标志数值序列删除模块407,用于当生成的预设标志数值序列的数量超过预设数量阈值时,将超过预设数量阈值的根据最早预设时间区段生成的预设标志数值序列删除。
预设标志数值序列生成模块405包括上述实施例中预设标志数值序列生成模块405所包括的各个模块,用于按照预设时间区段来生成预设标志数值序列。具体地,预设标志数值序列生成模块405用于每隔一个预设时间区段的时间长度,创建一个标志数值序列并将其中的标志数值初始化为初始标志数值,根据当前处理的预设时间区段中所产生的用户使用记录来获取被过滤多媒体标识和与其相应的用户标识,从而采用预设哈希函数将当前处理的预设时间区段中的用户标识和被过滤多媒体标识共同映射为过滤标志数值位置标识;将当前处理的预设时间区段中的初始化的标志数值序列中的过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得对应当前处理的预设时间区段的预设标志数值序列。这样最终获得多个预设时间区段的预设标志数值序列。
过滤多媒体信息时,判断模块406用于分别对应每个预设时间区段的预设标志数值序列,判断在每个预设标志数值序列中待处理标志数值位置标识所对应的标志数值是否为预定标志数值。当其中任意一个预设标志数值序列中的待处理标志数值位置标识所对应的标志数值均为预定标志数值时,相应的待处理多媒体标识所对应的多媒体信息会被对应上述用户标识而过滤掉。
本实施例中,按照预设时间区段来循环生成预设标志数值序列,并通过删除最早生成的预设标志数值序列来维持预设标志数值序列的总数不变,可以进一步节约存储空间,也可以防止因为一个预设标志数值序列发生错误而导致无法实现多媒体信息的过滤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种多媒体信息过滤方法,所述方法包括:
获取对应用户标识的待处理多媒体标识;
采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识;
判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值;
若是则对应所述用户标识而过滤掉所述待处理多媒体标识所对应的多媒体信息。
2.根据权利要求1所述的方法,其特征在于,所述采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识,包括:
采用多个不同的预设哈希函数分别将所述用户标识和所述待处理多媒体标识共同映射为对应每个所述预设哈希函数的待处理标志数值位置标识;
所述判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值,包括:
判断在预设标志数值序列中每个所述待处理标志数值位置标识所对应的标志数值是否均为预定标志数值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建标志数值序列,初始化所述创建的标志数值序列中的标志数值为初始标志数值;
获取存在对应关系的用户标识和被过滤多媒体标识;
采用预设哈希函数将所述用户标识和所述被过滤多媒体标识共同映射为过滤标志数值位置标识;
将所述初始化的标志数值序列中的所述过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得预设标志数值序列。
4.根据权利要求1所述的方法,其特征在于,所述预设标志数值序列为二进制比特位序列,所述预定标志数值取自0和1中的一种。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
按照预设时间区段生成所述预设标志数值序列;
当生成的所述预设标志数值序列的数量超过预设数量阈值时,将超过预设数量阈值的根据最早预设时间区段生成的所述预设标志数值序列删除。
6.一种多媒体信息过滤装置,其特征在于,所述装置包括:
第一获取模块,用于获取对应用户标识的待处理多媒体标识;
第一映射模块,用于采用预设哈希函数将所述用户标识和所述待处理多媒体标识共同映射为待处理标志数值位置标识;
判断模块,用于判断在预设标志数值序列中所述待处理标志数值位置标识所对应的标志数值是否为预定标志数值;
判断结果处理模块,用于若所述判断模块判断为是则对应所述用户标识而过滤掉所述待处理多媒体标识所对应的多媒体信息。
7.根据权利要求6所述的装置,其特征在于,所述第一映射模块还用于采用多个不同的预设哈希函数分别将所述用户标识和所述待处理多媒体标识共同映射为对应每个所述预设哈希函数的待处理标志数值位置标识;
所述判断模块还用于判断在预设标志数值序列中每个所述待处理标志数值位置标识所对应的标志数值是否均为预定标志数值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括预设标志数值序列生成模块,包括:
标志数值序列创建模块,用于创建标志数值序列,初始化所述创建的标志数值序列中的标志数值为初始标志数值;
第二获取模块,用于获取存在对应关系的用户标识和被过滤多媒体标识;
第二映射模块,用于采用预设哈希函数将所述用户标识和所述被过滤多媒体标识共同映射为过滤标志数值位置标识;
标志数值更改模块,用于将所述初始化的标志数值序列中的所述过滤标志数值位置标识所对应的标志数值更改为预定标志数值,获得预设标志数值序列。
9.根据权利要求6所述的装置,其特征在于,所述预设标志数值序列为二进制比特位序列,所述预定标志数值取自0和1中的一种。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预设标志数值序列生成模块,用于按照预设时间区段生成所述预设标志数值序列;
预设标志数值序列删除模块,用于当生成的所述预设标志数值序列的数量超过预设数量阈值时,将超过预设数量阈值的根据最早预设时间区段生成的所述预设标志数值序列删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410245701.1A CN104021178B (zh) | 2014-06-04 | 2014-06-04 | 多媒体信息过滤方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410245701.1A CN104021178B (zh) | 2014-06-04 | 2014-06-04 | 多媒体信息过滤方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104021178A true CN104021178A (zh) | 2014-09-03 |
CN104021178B CN104021178B (zh) | 2018-02-02 |
Family
ID=51437932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410245701.1A Active CN104021178B (zh) | 2014-06-04 | 2014-06-04 | 多媒体信息过滤方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104021178B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063199A (zh) * | 2018-09-11 | 2018-12-21 | 广州神马移动信息科技有限公司 | 资源过滤方法及其装置、电子设备、计算机可读介质 |
CN109886025A (zh) * | 2019-01-04 | 2019-06-14 | 平安科技(深圳)有限公司 | 用户标识的管理方法、装置、计算机设备及存储介质 |
CN110427557A (zh) * | 2019-07-30 | 2019-11-08 | 广州虎牙科技有限公司 | 主播推荐方法、装置、电子设备及计算机可读存储介质 |
CN113282902A (zh) * | 2021-07-26 | 2021-08-20 | 南京蓝鲸人网络科技有限公司 | 一种业务行为安全控制方法、系统与设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477527A (zh) * | 2008-12-30 | 2009-07-08 | 深圳市迅雷网络技术有限公司 | 一种检索多媒体资源的方法及装置 |
US20090216755A1 (en) * | 2008-02-21 | 2009-08-27 | Einav Itamar | Indexing Method For Multimedia Feature Vectors Using Locality Sensitive Hashing |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
-
2014
- 2014-06-04 CN CN201410245701.1A patent/CN104021178B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090216755A1 (en) * | 2008-02-21 | 2009-08-27 | Einav Itamar | Indexing Method For Multimedia Feature Vectors Using Locality Sensitive Hashing |
CN101477527A (zh) * | 2008-12-30 | 2009-07-08 | 深圳市迅雷网络技术有限公司 | 一种检索多媒体资源的方法及装置 |
CN102682085A (zh) * | 2012-04-18 | 2012-09-19 | 北京十分科技有限公司 | 一种网页去重的方法 |
Non-Patent Citations (1)
Title |
---|
黄恩博: "基于布隆过滤器的网页搜索去重方法", 《现代计算机》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063199A (zh) * | 2018-09-11 | 2018-12-21 | 广州神马移动信息科技有限公司 | 资源过滤方法及其装置、电子设备、计算机可读介质 |
CN109063199B (zh) * | 2018-09-11 | 2022-10-25 | 优视科技有限公司 | 资源过滤方法及其装置、电子设备、计算机可读介质 |
CN109886025A (zh) * | 2019-01-04 | 2019-06-14 | 平安科技(深圳)有限公司 | 用户标识的管理方法、装置、计算机设备及存储介质 |
CN110427557A (zh) * | 2019-07-30 | 2019-11-08 | 广州虎牙科技有限公司 | 主播推荐方法、装置、电子设备及计算机可读存储介质 |
CN113282902A (zh) * | 2021-07-26 | 2021-08-20 | 南京蓝鲸人网络科技有限公司 | 一种业务行为安全控制方法、系统与设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104021178B (zh) | 2018-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10969971B2 (en) | Data storage method and apparatus | |
CN101861583B (zh) | 用于多媒体文件的分级及简化索引结构 | |
CN109756760B (zh) | 视频标签的生成方法、装置及服务器 | |
US20100332958A1 (en) | Context Aware Image Representation | |
CN104426841A (zh) | 设置背景图像的方法及相关的服务器和系统 | |
CN107436725A (zh) | 一种数据写、读方法、装置及分布式对象存储集群 | |
CN102129474A (zh) | 一种视频数据检索方法及其装置和系统 | |
CN105608117A (zh) | 一种信息推荐方法及装置 | |
CN105279440A (zh) | 照片文件加密方法 | |
CN103049491A (zh) | 一种图片文件的管理方法及装置 | |
CN104021178A (zh) | 多媒体信息过滤方法和装置 | |
AU2019283979A1 (en) | Systems and methods for personalized video rendering | |
CN103577516A (zh) | 内容显示方法和装置 | |
CN104811458A (zh) | 一种信息的展示方法及装置 | |
CN102546668A (zh) | 一种独立访问者的统计方法、装置及系统 | |
CN108255915A (zh) | 一种文件管理方法、装置及机器可读存储介质 | |
CN114610951A (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN104331515A (zh) | 一种自动生成旅游日记的方法和系统 | |
US11258922B2 (en) | Method of combining image files and other files | |
CN104598651B (zh) | 一种移动终端收藏夹的管理方法及装置 | |
CN105677579B (zh) | 缓存系统中的数据访问方法和系统 | |
KR102393278B1 (ko) | Sns 광고 제공 방법 및 시스템 | |
US20180314698A1 (en) | Media sharing based on identified physical objects | |
CN105354510A (zh) | 照片的命名方法及命名系统 | |
KR20150055776A (ko) | 퍼스널 클라우드 스토리지 체인 서비스 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |