CN105991312B - 一种网络资源的排重方法及装置 - Google Patents

一种网络资源的排重方法及装置 Download PDF

Info

Publication number
CN105991312B
CN105991312B CN201510054849.1A CN201510054849A CN105991312B CN 105991312 B CN105991312 B CN 105991312B CN 201510054849 A CN201510054849 A CN 201510054849A CN 105991312 B CN105991312 B CN 105991312B
Authority
CN
China
Prior art keywords
resource object
similar value
internet resources
resource
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510054849.1A
Other languages
English (en)
Other versions
CN105991312A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Shenzhen Tencent Computer Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tencent Computer Systems Co Ltd filed Critical Shenzhen Tencent Computer Systems Co Ltd
Priority to CN201510054849.1A priority Critical patent/CN105991312B/zh
Publication of CN105991312A publication Critical patent/CN105991312A/zh
Application granted granted Critical
Publication of CN105991312B publication Critical patent/CN105991312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络资源的排重方法及装置,其中该方法包括:获取关于网络资源的搜索请求;根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;获取所述资源列表中每两个资源对象之间的相似值;根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。本发明实施例根据每两个网络资源对象之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。

Description

一种网络资源的排重方法及装置
技术领域
本发明属于通信技术领域,尤其涉及一种网络资源的排重方法及装置。
背景技术
随着互联网技术的迅速发展,互联网上可供用户搜索查询的网络资源也越来越多,在这众多的资源中,可能会存在很多重复的资源,以视频资源为例,由于各家视频网站的影片资源信息,如:影片名,导演/演员名等字段都是依赖于人工编辑补充和审核,而且各家视频网站人工编辑对于同一部影片所填写的名称可能不同,导演和演员所填写的名称或数量也有所不同,比如:某部影片具有中英文名或某部影片会有多个演员,不同的编辑选填的可能都只是其中不同的子集,所以,在影片开放搜索下,必然会面临一系列的视频重复问题。在现有技术中,一般会采用“完全字符串匹配”的方式来离线排除重复的网络资源,从而来提高用户搜索网络资源的效率,一般的,将这种技术简称为“排重”。
在对现有技术的研究和实践过程中,本发明的发明人发现,由于现有技术仅仅基于影片名及导演演员名等这些简单的信息作完全字符串匹配,因此会导致排重的准确率低、召回率不高的问题。
发明内容
本发明的目的在于提供一种网络资源的排重方法及装置,旨在提高网络资源的排重准确率以及召回率。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种网络资源的排重方法,其中所述方法包括:
获取关于网络资源的搜索请求;
根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;
获取所述资源列表中每两个资源对象之间的相似值;
根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种网络资源的排重装置,其中所述装置包括:
请求获取模块,用于获取关于网络资源的搜索请求;
生成模块,用于根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;
相似值获取模块,用于获取所述资源列表中每两个资源对象之间的相似值;
第一排除模块,用于根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
相对于现有技术,本实施例,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据每两个网络资源对象之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1是本发明第一实施例提供的网络资源的排重方法的流程示意图;
图2为本发明第二实施例提供的网络资源的排重方法的流程示意图;
图3为本发明第三实施例提供的网络资源的排重方法的流程示意图;
图4为本发明第四实施例提供的网络资源的排重装置的结构示意图;
图5为本发明第五实施例提供的网络资源的排重装置的结构示意图;
图6为本发明第六实施例提供的服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本发明的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本发明的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境,其中包括了任何的上述系统或装置。
本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
而且本文所使用的词语“优选的”意指用作实例、示例或例证。奉文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或多个实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件、资源等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或多个其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
第一实施例
请参阅图1,图1是本发明第一实施例提供的网络资源的排重方法的流程示意图。所述方法包括:
在步骤S101中,获取关于网络资源的搜索请求。
在步骤S102中,根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象。
其中,所述步骤S101与步骤S102可具体为:
可以理解的是,所述网络资源的排重方法可基于一终端服务器上运行,根据用户发起的网络资源搜索请求,服务器基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,在线对资源对象进行排重。
本发明实施例中所述网络资源可以具体为视频影片、或者网络图像、或者网络商品、或者网页等等,对应的,基于所述网络资源生成对应的资源列表中包括两个以上资源对象具体为视频影片、网络图像、网络商品以及网页等,此处不作具体限定。另容易想到的是,所述资源列表中指示的是上述资源对象的信息,如对应的链接信息等,此处不作具体描述。
在步骤S103中,获取所述资源列表中每两个资源对象之间的相似值。
在步骤S104中,根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
其中,所述步骤S103与步骤S104可具体为:
可以理解的是,所述资源列表中的资源对象两两之间会具有相似值,用以判断对应的两个资源对象之间的相似度;例如,若网络资源具体为视频影片,则生成的资源列表中每两个视频影片会计算相似值以指示该两个视频影片的相似度。
在一种可能的实施方式中,每两个资源对象之间的相似值可以预先根据网络资源的属性特征进行计算,并将相似值分别存储于服务器中,以便在用户查询时,服务器调用该相似值与所述预设条件进行比较,将满足预设条件的资源对象进行提取并排除。
在另一种可能的实施方式中,可以在根据所述搜索请求,基于网络资源生成对应的资源列表之后,根据资源列表中的资源对象的属性特征,对每两个资源对象之间进行相似值的计算,以便服务器利用实时计算得出的相似值与所述预设条件进行比较,将满足预设条件的资源对象进行提取并排除。
其中,所述预设条件可预先设置于服务器中,所述预设条件可以具体指示根据相似值的大小,对资源对象执行的相应操作,如是否需要排重或需要进一步判断等,即可以根据相似值的大小,在线控制对应的排重条件,可提高排重准确率及资源对象召回率。
由上述可知,本实施例提供的网络资源的排重方法中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。
第二实施例
请参阅图2,图2为本发明第二实施例提供的网络资源的排重方法的流程示意图。其中,所述网络资源的排重方法基于一终端服务器上运行,根据用户发起的网络资源搜索请求,服务器基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,在线对资源对象进行排重。
优选的,本发明实施例中,在资源对象进行在线排重之前还可以包括离线排重,区别于第一实施例,本实施例主要针对资源对象进行离线排重的过程进行详细说明。所述方法包括:
在步骤S201中,获取网络资源中各个资源对象的属性特征信息。
在步骤S202中,根据所述属性特征信息,计算每两个资源对象之间的相似值。
其中,所述步骤S201与步骤S202可具体为:
在进行在线排重之前,服务器可优先对网络资源进行离线排重;离线排重时首先需要对网络资源中各个资源对象之间的相似值进行计算,可具体的:
遍历网络资源中各个资源对象的属性特征信息的字段的simhash值,其后计算每两个资源对象各个字段simhash值的汉明距离,最后将各个字段的汉明距离进行线性插值求和,从而生成资源对象之间的相似值以表示资源对象之间的相似度。
可以理解的是,simhash是用来网页排重最常用的hash方法,其排重速度很快,本发明实施例中simhash仅作举例应用,对其具体实现操作不作详细描述。
优选的,该实施例中所述网络资源可具体为视频影片,则对应的属性特征信息可具体包括影片名、导演名、演员名、视频缩略图、影片详情等信息中的一个或两个以上组合;每两个视频影片之间的相似值的计算可具体包括:遍历计算所有视频的影片名,导演演员名,视频缩略图,影片详情等字段的simhash值;计算任意两部视频影片各个字段simhash值的汉明距离;将各个字段的汉明距离进行线性插值求和算相似度。
另容易想到的是,该实施例仅以网络资源为视频影片为例进行描述,所述网络资源还可以具体为网络图像、或者网络商品、或者网页等,此处举例不构成对本发明的限定。
在步骤S203中,将所述相似值与第一预设阈值进行比较。
在步骤S204中,若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象。
在步骤S205中,从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源。
其中,所述步骤S203至步骤S205可具体为:
将相似值与第一预设阈值进行初步比较,根据比较结果对网络资源中被认为重复的资源对象进行排除,从而得到初步排重后的网络资源,即得到离线排重后的网络资源;该实施例中,相似值大于或者等于所述第一预设阈值对应的两个资源对象,可被认为是重复的资源对象。
可以理解的是,所述第一预设阈值预先设置于服务器中,用于对网络资源的初步排重,可适当的设置为较大一点,其具体取值根据具体的场景进行确定,此处不作具体限定。
优选的,该实施例中所述网络资源可具体为视频影片,将预先设置的第一预设阈值与视频影片的相似值进行比较,若视频影片的相似值大于第一预设阈值,则将该相似值对应的两个视频影片认为重复视频对,进而,从重复视频对中排除其中一个视频影片,从而得到离线排重后的视频影片,以供用户查询召回。
进一步的,从所述重复的资源对象中排除其中一个资源对象,可预先设定一排除条件,例如,根据视频影片的出处、出片时间、点击播放率、热门搜索统计等信息进行打分和排序,保留打分相对较高的视频源,其中,打分较高可被认为相对权威较高。
例如,在确定出视频影片的相似值大于所述第一预设阈值对应的重复视频对时,如果确定出该重复视频对中有公司Q的视频数据,则保留公司Q的视频影片,排除另外一个视频影片,从而可保留更贴合用户需求的视频源。另容易想到的是,此处关于所述排除条件的实现仅为举例说明,不构成对本发明的限定。
在步骤S206中,获取关于网络资源的搜索请求,根据所述搜索请求,基于所述初步排重后的网络资源生成对应的资源列表。
可以理解的是,所述资源列表中包含两个以上相应的资源对象,即在离线排重后,根据用户的搜索请求,服务器基于离线排重后的网络资源生成资源列表,其中,所述资源列表中指示的是上述资源对象的信息,如对应的链接信息等。
在步骤S207中,获取所述资源列表中每两个资源对象之间的相似值。
在步骤S208中,根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
步骤S207至步骤S208,在获取资源列表中每两个资源对象之间的相似值的过程中,具体包括:
在一种可能的实施方式下,可以预先根据网络资源的属性特征进行计算,并将相似值分别存储于服务器中,在另一种可能的实施方式下,可以在根据所述搜索请求,基于网络资源生成对应的资源列表之后,根据资源列表中的资源对象的属性特征,对每两个资源对象之间进行相似值的计算,以便服务器通过该相似值与所述预设条件进行比较,将满足预设条件的资源对象进行提取并排除。
其中,所述预设条件可预先设置于服务器中,所述预设条件可以具体指示根据相似值的大小,对资源对象执行的相应操作,如是否需要排重或需要进一步判断等,即可以根据相似值的大小,在线控制对应的排重条件。
可以理解的是,该过程中可根据如上述步骤S201以及步骤S202对相似值进行计算,此处不再赘述。
由上述可知,本实施例提供的网络资源的排重方法中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。并且,在在线排重之前先进行离线排重,可进一步提高排重的准确率。
第三实施例
请参阅图3,图3为本发明第三实施例提供的网络资源的排重方法的流程示意图。同上述实施例,所述网络资源的排重方法基于一终端服务器上运行,根据用户发起的网络资源搜索请求,服务器基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,在线对资源对象进行排重。
区别于第二实施例,本实施例主要针对通过在线排重和离线排重相结合的方式,对资源对象在线排重的实现过程进行详细说明。所述方法包括:
在步骤S301中,获取关于网络资源的搜索请求。
在步骤S302中,根据所述搜索请求,基于初步排重后的网络资源生成对应的资源列表。
其中,所述步骤S301与步骤S302可具体为:
优选的,在对资源对象进行在线排重之前,先对网络资源进行离线排重,可包括:
步骤a、获取网络资源中各个资源对象的属性特征信息;
步骤b、根据所述属性特征信息,计算每两个资源对象之间的相似值;
步骤c、将所述相似值与第一预设阈值进行比较;
步骤d、若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象;
步骤e、从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源。
其中,所述步骤a至步骤e为离线排重的过程,得到的初步排重后的网络资源即为离线排重后的网络资源。
可以理解的是,步骤a至步骤e的具体过程可参考第二实施例中步骤S201至步骤S205的相关描述来实现,此处不再赘述。
基于初步排重后的网络资源,服务器根据获取到的关于网络资源的搜索请求,生成对应的资源列表。其中,所述资源列表中包含两个以上相应的资源对象。
进一步的优选的,在根据所述属性特征信息,计算每两个资源对象之间的相似值(即步骤b)之后,还可以包括:将所述相似值保存在数据库,即将网络资源中的资源对象之间的相似值进行预设置,以便后续在在线排重时进行调用,提高处理效率。
在步骤S303中,获取所述资源列表中每两个资源对象之间的相似值。
可选的,可根据资源列表中各个资源对象的属性特征信息,在线分别计算每两个资源对象之间的相似值。
进一步可选的,由于在离线排重过程中,已将所述相似值保存在数据库,因此可以从所述数据库中,直接获取所述资源列表中每两个资源对象之间的相似值,以避免在线处理较为庞大的数据,提高处理效率。
在获取相似值后,需要将满足预设条件的资源对象进行提取和排除,可包括:
在步骤S304中,将所述相似值与第一预设阈值进行比较。
在步骤S305中,若所述相似值小于所述第一预设阈值,则将相应的资源对象组成第一候选集合。
即获取相似值小于所述第一预设阈值对应的资源对象并提取,将提取的资源对象进行集合并作为第一候选集合。
在步骤S306中,确定在所述第一候选集合中是否存在与所述搜索请求完全匹配的资源对象。
可以理解的是,确定在所述候选集合中是否存在与所述搜索请求完全匹配的资源对象可认为是判断在该候选集合是否已满足用户需求。
根据步骤S306判断的结果,分别执行步骤S307和步骤S308,以及执行步骤S309和步骤S310;
在步骤S307中,若存在,则在第一候选集合中,将每两个资源对象的相似值与第二预设阈值进行比较。
在步骤S308中,当所述相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取。
其中,若确定出该第一候选集合已满足用户需求,则执行所述步骤S307与步骤S308,在该情形下,设定第二预设阈值,且所述第二预设阈值小于所述第一预设阈值,将相似值与所述第二预设阈值进行比较,并对满足相似值大于或等于所述第二预设阈值的资源对象集合进行排重,也就是说,在所述第一候选集合中,进一步确定重复可能性较高的资源对象集合。
可具体的,当所述相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,从而,第一候选集合中除去满足预设条件的资源对象后,余下的为在线排重后的资源对象。
在步骤S309中,若不存在,则在第一候选集合中,将所述相似值小于所述第二预设阈值相应的资源对象组成第二候选集合,并在所述第二候选集合中,将每两个资源对象的相似值与第三预设阈值进行比较。
在步骤S310中,当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取。
其中,若确定出该第一候选集合不满足用户需求,则执行所述步骤S309与步骤S310,柔性的多保留一些相似率较小的资源对象;在该情形下,设定第二预设阈值,将相似值与所述第二预设阈值进行比较,并对满足相似值小于所述第二预设阈值的资源对象集合进行排重。
在排重过程中,在设定第三预设阈值,且所述第三预设阈值小于所述第二预设阈值,当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,从而,第二候选集合中除去满足预设条件的资源对象后,余下的为在线排重后的资源对象。
可以理解的是,从所述重复的资源对象中排除其中一个资源对象,可预先设定一排除条件,例如,根据视频影片的出处、出片时间、点击播放率、热门搜索统计等信息进行打分和排序,从而保留可认为相对权威较高的视频源;例如,如果确定出该重复视频对中有公司Q的视频数据,则保留公司Q的视频影片,排除另外一个视频影片,从而可保留更贴合用户需求的视频源。另容易想到的是,此处关于所述排除条件的实现仅为举例说明,不构成对本发明的限定。
在步骤S311中,将提取的满足预设条件的资源对象组成排重组合,基于所述排重组合排除提取的资源对象。
由上述可知,本实施例提供的网络资源的排重方法中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。并且,在在线排重之前先进行离线排重,可进一步提高排重的准确率。
第四实施例
为便于更好的实施本发明实施例提供的网络资源的排重方法,本发明实施例还提供一种基于上述网络资源的排重方法的装置。其中名词的含义与上述网络资源的排重的方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图4,图4为本发明实施例提供的网络资源的排重装置的结构示意图,其中所述网络资源的排重装置可基于一接收终端服务器上运行,根据用户发起的网络资源搜索请求,服务器基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,在线对资源对象进行排重。
如图4所示,本发明所述网络资源的排重装置可以包括请求获取模块401、生成模块402、相似值获取模块403以及第一排除模块404。
其中,所述请求获取模块401,用于获取关于网络资源的搜索请求;所述生成模块402,用于根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象。
可以理解的是,本发明实施例中所述网络资源可以具体为视频影片、或者网络图像、或者网络商品、或者网页等等,对应的,基于所述网络资源生成对应的资源列表中包括两个以上资源对象具体为视频影片、网络图像、网络商品以及网页等,此处不作具体限定。另容易想到的是,所述资源列表中指示的是上述资源对象的信息,如对应的链接信息等,此处不作具体描述。
所述相似值获取模块403,用于获取所述资源列表中每两个资源对象之间的相似值;所述第一排除模块404,用于根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
可以理解的是,所述资源列表中的资源对象两两之间会具有相似值,用以判断对应的两个资源对象之间的相似度;例如,若网络资源具体为视频影片,则生成的资源列表中每两个视频影片会计算相似值以指示该两个视频影片的相似度。
在一种可能的实施方式中,所述相似值获取模块403获取的每两个资源对象之间的相似值,可以预先根据网络资源的属性特征进行计算,并将相似值分别进行预先存储,以便在用户查询时,所述第一排除模块404调用该相似值与所述预设条件进行比较,将满足预设条件的资源对象进行提取并排除。
在另一种可能的实施方式中,可以在所述生成模块402根据所述搜索请求,基于网络资源生成对应的资源列表之后,根据资源列表中的资源对象的属性特征,对每两个资源对象之间进行相似值的计算,以便第一排除模块404利用实时计算得出的相似值与所述预设条件进行比较,将满足预设条件的资源对象进行提取并排除。
其中,所述预设条件可预先设置于服务器中,所述预设条件可以具体指示根据相似值的大小,对资源对象执行的相应操作,如是否需要排重或需要进一步判断等,即可以根据相似值的大小,在线控制对应的排重条件,可提高排重准确率及资源对象召回率。
由上述可知,本实施例提供的网络资源的排重装置中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。
第五实施例
请参阅图5,图5为本发明实施例提供的网络资源的排重装置的结构示意图,其中所述网络资源的排重装置包括:请求获取模块501、生成模块502、相似值获取模块503以及第一排除模块504,其中,该实施例中上述各功能模块的功能作用可对应参考第四实施例中的所述请求获取模块401、生成模块402、相似值获取模块403以及第一排除模块404的相关描述,此处不作赘述。
优选的,在进行在线排重之前,服务器可优先对网络资源进行离线排重;离线排重时首先需要对网络资源中各个资源对象之间的相似值进行计算,从而所述网络资源的排重装置还可以包括特征获取模块505和计算模块506。
其中所述特征获取模块505,用于获取网络资源中各个资源对象的属性特征信息;所述计算模块506,用于根据所述属性特征信息,计算每两个资源对象之间的相似值。
进一步优选的,该实施例中所述网络资源可具体为视频影片,则对应的属性特征信息可具体包括影片名、导演名、演员名、视频缩略图、影片详情等信息中的一个或两个以上组合;每两个视频影片之间的相似值的计算可具体包括:遍历计算所有视频的影片名,导演演员名,视频缩略图,影片详情等字段的simhash值;计算任意两部视频影片各个字段simhash值的汉明距离;将各个字段的汉明距离进行线性插值求和算相似度。
另容易想到的是,该实施例仅以网络资源为视频影片为例进行描述,所述网络资源还可以具体为网络图像、或者网络商品、或者网页等,此处举例不构成对本发明的限定。
更进一步的,所述网络资源的排重装置还可以包括比较模块507、确定模块508以及第二排除模块509,用于离线排重,得到初步排重后的网络资源;
其中所述比较模块507,用于将所述相似值与第一预设阈值进行比较;所述确定模块508,用于若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象;所述第二排除模块509,用于从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源。
将相似值与第一预设阈值进行初步比较,根据比较结果对网络资源中被认为重复的资源对象进行排除,从而得到初步排重后的网络资源,即得到离线排重后的网络资源;该实施例中,相似值大于或者等于所述第一预设阈值对应的两个资源对象,可被认为是重复的资源对象。
可以理解的是,所述第一预设阈值预先设置于服务器中,用于对网络资源的初步排重,可适当的设置为较大一点,其具体取值根据具体的场景进行确定,此处不作具体限定。
优选的,该实施例中所述网络资源可具体为视频影片,将预先设置的第一预设阈值与视频影片的相似值进行比较,若视频影片的相似值大于第一预设阈值,则将该相似值对应的两个视频影片认为重复视频对,进而,从重复视频对中排除其中一个视频影片,从而得到离线排重后的视频影片,以供用户查询召回。
进一步的,从所述重复的资源对象中排除其中一个资源对象,可预先设定一排除条件,例如,根据视频影片的出处、出片时间、点击播放率、热门搜索统计等信息进行打分和排序,保留打分相对较高的视频源,其中,打分较高可被认为相对权威较高。
在该实施方式中,则所述生成模块502,具体用于:根据所述搜索请求,基于所述初步排重后的网络资源生成对应的资源列表。
可以理解的是,所述资源列表中包含两个以上相应的资源对象,即在离线排重后,根据用户的搜索请求,服务器基于离线排重后的网络资源生成资源列表,其中,所述资源列表中指示的是上述资源对象的信息,如对应的链接信息等。
在获取资源列表中每两个资源对象之间的相似值的过程中,在一种可能的实施方式中,所述网络资源的排重装置还可以包括存储模块510,用于将所述相似值保存在数据库;在该实施方式中,则所述相似值获取模块503,具体用于从所述数据库中获取所述资源列表中每两个资源对象之间的相似值。
在另一种可能的实施方式中,所述相似值获取模块503,具体用于获取所述资源列表中各个资源对象的属性特征信息,根据所述属性特征信息,计算每两个资源对象之间的相似值。
其中,所述预设条件可预先设置于服务器中,所述预设条件可以具体指示根据相似值的大小,对资源对象执行的相应操作,如是否需要排重或需要进一步判断等,即可以根据相似值的大小,在线控制对应的排重条件。
可以理解的是,相似值的计算过程可对应上述第二实施例和第三实施例的方法步骤的描述进行具体实现,此处不再赘述。
在某些实施方式中,基于在线排重的过程,所述第一排除模块504还可以包括第一比较单元、第一集合单元、第二比较单元以及第一提取单元,用于根据所述相似值,提取满足预设条件的资源对象。
其中所述第一比较单元,用于将所述相似值与第一预设阈值进行比较;所述第一集合单元,用于若所述相似值小于所述第一预设阈值,则将相应的资源对象组成第一候选集合;
所述第二比较单元,用于若确定在所述第一候选集合中存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将每两个资源对象的相似值与第二预设阈值进行比较;所述第一提取单元,用于当所述相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第二预设阈值小于所述第一预设阈值。
即在确定出该第一候选集合已满足用户需求的情形下,设定第二预设阈值,且所述第二预设阈值小于所述第一预设阈值,将相似值与所述第二预设阈值进行比较,并对满足相似值大于或等于所述第二预设阈值的资源对象集合进行排重,也就是说,在所述第一候选集合中,进一步确定重复可能性较高的资源对象集合。
进一步的,所述第一排除模块504用于根据所述相似值,提取满足预设条件的资源对象时,还可以包括第二集合单元、第三比较单元以及第二提取单元:
其中所述第二集合单元,用于若确定在所述候选集合中不存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将所述相似值小于所述第二预设阈值相应的资源对象组成第二候选集合;所述第三比较单元,用于在所述第二候选集合中,将每两个资源对象的相似值与第三预设阈值进行比较;
所述第二提取单元,用于当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第三预设阈值小于所述第二预设阈值。
其中,若确定出该第一候选集合不满足用户需求的情形下,柔性的多保留一些相似率较小的资源对象,先设定第二预设阈值,将相似值与所述第二预设阈值进行比较,并对满足相似值小于所述第二预设阈值的资源对象集合进行排重,在排重过程中,在设定第三预设阈值,且所述第三预设阈值小于所述第二预设阈值,将相似值与所述第三预设阈值进行比较,并对满足相似值大于或等于所述第三预设阈值的资源对象集合进行排重。
在某些实施方式中,在提取了满足预设条件的情形下,所述第一排除模块504,还可以包括组合单元和排除单元,用于排除提取的资源对象,其中所述组合单元,用于将提取的满足预设条件的资源对象组成排重组合;所述排除单元,用于基于所述排重组合排除提取的资源对象。
由上述可知,本实施例提供的网络资源的排重装置中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。并且,在在线排重之前先进行离线排重,可进一步提高排重的准确率。
第六实施例
本发明实施例还提供一种服务器,其中可以集成本发明实施例的网络资源的排重装置,所述服务器可基于一接收终端服务器上运行,如图6所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、射频(Radio Frequency,RF)电路603、电源604、输入单元605、以及显示单元606等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
RF电路603可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器601处理;另外,将涉及上行的数据发送给基站。通常,RF电路603包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路603还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System of Mobilecommunication)、通用分组无线服务(GPRS,General Packet Radio Service)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband CodeDivision Multiple Access)、长期演进(LTE,Long Term Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源604(比如电池),优选的,电源可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源604还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元605,该输入单元605可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元606,该显示单元606可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元608可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-EmittingDiode)等形式来配置显示面板。
具体在本实施例中,服务器中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取关于网络资源的搜索请求;根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;获取所述资源列表中每两个资源对象之间的相似值;根据所述相似值,提取满足预设条件的资源对象,排除提取的资源对象。
优选的,所述处理器601还可以用于:将提取的满足预设条件的资源对象组成排重组合;基于所述排重组合排除提取的资源对象,以排除提取的资源对象。
优选的,所述处理器601还可以用于:获取关于网络资源的搜索请求之前,获取网络资源中各个资源对象的属性特征信息;根据所述属性特征信息,计算每两个资源对象之间的相似值。
优选的,所述处理器601还可以用于,在根据所述属性特征信息,计算每两个资源对象之间的相似值之后,将所述相似值与第一预设阈值进行比较;若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象;从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源;
基于此,所述处理器601还可以用于根据所述搜索请求,基于所述初步排重后的网络资源生成对应的资源列表。
优选的,所述处理器601还可以用于,在根据所述属性特征信息,计算每两个资源对象之间的相似值之后,将所述相似值保存在数据库;
基于此,所述处理器601还可以用于从所述数据库中获取所述资源列表中每两个资源对象之间的相似值。
优选的,所述处理器601还可以用于,获取所述资源列表中各个资源对象的属性特征信息;根据所述属性特征信息,计算每两个资源对象之间的相似值,以获取所述资源列表中每两个资源对象之间的相似值。
优选的,所述处理器601还可以用于,将所述相似值与第一预设阈值进行比较;若所述相似值小于所述第一预设阈值,则将相应的资源对象组成第一候选集合;若确定在所述第一候选集合中存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将每两个资源对象的相似值与第二预设阈值进行比较;当所述相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第二预设阈值小于所述第一预设阈值,以根据所述相似值,提取满足预设条件的资源对象。
优选的,所述处理器601还可以用于,若确定在所述候选集合中不存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将所述相似值小于所述第二预设阈值相应的资源对象组成第二候选集合;在所述第二候选集合中,将每两个资源对象的相似值与第三预设阈值进行比较;当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第三预设阈值小于所述第二预设阈值,以根据所述相似值,提取满足预设条件的资源对象。
由上述可知,本实施例提供的服务器中,根据在线获取的搜索请求,基于网络资源生成对应的资源列表,其后根据该资源列表中每两个资源对象之间的相似值,提取满足预设条件的资源对象并排除;本发明实施例根据网络资源对象两两之间的相似值以及预设条件进行判断分析,根据分析结果在线排除重复的资源对象,并根据在线当前查询召回的资源对象情况,在线控制对应的排重策略,相对于基于简单信息作完全字符串匹配进行排重的方式,提高了排重准确率以及召回率。并且,在在线排重之前先进行离线排重,可进一步提高排重的准确率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对网络资源的排重方法的详细描述,此处不再赘述。
本发明实施例提供的所述网络资源的排重装置,譬如为计算机、平板电脑、具有触摸功能的手机等等,所述网络资源的排重装置与上文实施例中的网络资源的排重方法属于同一构思,在所述网络资源的排重装置上可以运行所述网络资源的排重方法实施例中提供的任一方法,其具体实现过程详见所述网络资源的排重方法实施例,此处不再赘述。
需要说明的是,对本发明所述网络资源的排重方法而言,本领域普通测试人员可以理解实现本发明实施例所述网络资源的排重方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如所述网络资源的排重方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的所述网络资源的排重装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种网络资源的排重方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种网络资源的排重方法,其特征在于,包括:
获取关于网络资源的搜索请求;
根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;
获取所述资源列表中每两个资源对象之间的相似值;
将所述资源列表中每两个资源对象之间的相似值与第一预设阈值进行比较;
若所述资源列表中每两个资源对象之间的相似值小于所述第一预设阈值,则将相应的资源对象组成第一候选集合;
若确定在所述第一候选集合中存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将每两个资源对象的相似值与第二预设阈值进行比较;
当所述第一候选集合中每两个资源对象之间的相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第二预设阈值小于所述第一预设阈值;
排除提取的资源对象。
2.根据权利要求1所述的网络资源的排重方法,其特征在于,所述排除提取的资源对象,包括:
将提取的满足预设条件的资源对象组成排重组合;
基于所述排重组合排除提取的资源对象。
3.根据权利要求1所述的网络资源的排重方法,其特征在于,所述获取关于网络资源的搜索请求之前,还包括:
获取网络资源中各个资源对象的属性特征信息;
根据所述属性特征信息,计算每两个资源对象之间的相似值。
4.根据权利要求3所述的网络资源的排重方法,其特征在于,所述根据所述属性特征信息,计算每两个资源对象之间的相似值之后,还包括:
将所述相似值与第一预设阈值进行比较;
若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象;
从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源;
所述根据所述搜索请求,基于网络资源生成对应的资源列表,具体为:根据所述搜索请求,基于所述初步排重后的网络资源生成对应的资源列表。
5.根据权利要求3所述的网络资源的排重方法,其特征在于,所述根据所述属性特征信息,计算每两个资源对象之间的相似值之后,还包括:
将所述相似值保存在数据库;
所述获取所述资源列表中每两个资源对象之间的相似值,具体为:从所述数据库中获取所述资源列表中每两个资源对象之间的相似值。
6.根据权利要求1所述的网络资源的排重方法,其特征在于,所述获取所述资源列表中每两个资源对象之间的相似值,具体为:
获取所述资源列表中各个资源对象的属性特征信息;
根据所述属性特征信息,计算每两个资源对象之间的相似值。
7.根据权利要求1所述的网络资源的排重方法,其特征在于,所述根据所述相似值,提取满足预设条件的资源对象,还包括:
若确定在所述第一候选集合中不存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将所述相似值小于所述第二预设阈值相应的资源对象组成第二候选集合;
在所述第二候选集合中,将每两个资源对象的相似值与第三预设阈值进行比较;
当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第三预设阈值小于所述第二预设阈值。
8.一种网络资源的排重装置,其特征在于,包括:
请求获取模块,用于获取关于网络资源的搜索请求;
生成模块,用于根据所述搜索请求,基于网络资源生成对应的资源列表,所述资源列表中包含两个以上相应的资源对象;
相似值获取模块,用于获取所述资源列表中每两个资源对象之间的相似值;
第一排除模块,包括第一比较单元、第一集合单元、第二比较单元以及第一提取单元;
所述第一比较单元,用于将所述资源列表中每两个资源对象之间的相似值与第一预设阈值进行比较;
所述第一集合单元,用于若所述资源列表中每两个资源对象之间的相似值小于所述第一预设阈值,则将相应的资源对象组成第一候选集合;
所述第二比较单元,用于若确定在所述第一候选集合中存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将每两个资源对象的相似值与第二预设阈值进行比较;
所述第一提取单元,用于当所述第一候选集合中每两个资源对象之间的相似值大于或等于所述第二预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第二预设阈值小于所述第一预设阈值;排除提取的资源对象。
9.根据权利要求8所述的网络资源的排重装置,其特征在于,所述第一排除模块,还包括:
组合单元,用于将提取的满足预设条件的资源对象组成排重组合;
排除单元,用于基于所述排重组合排除提取的资源对象。
10.根据权利要求8所述的网络资源的排重装置,其特征在于,所述装置还包括:
特征获取模块,用于获取网络资源中各个资源对象的属性特征信息;
计算模块,用于根据所述属性特征信息,计算每两个资源对象之间的相似值。
11.根据权利要求10所述的网络资源的排重装置,其特征在于,所述装置还包括:
比较模块,用于将所述相似值与第一预设阈值进行比较;
确定模块,用于若所述相似值大于或者等于所述第一预设阈值,则确定相应的两个资源对象为重复的资源对象;
第二排除模块,用于从所述重复的资源对象中排除其中一个资源对象,得到初步排重后的网络资源;
则所述生成模块,具体用于:根据所述搜索请求,基于所述初步排重后的网络资源生成对应的资源列表。
12.根据权利要求10所述的网络资源的排重装置,其特征在于,所述装置还包括:
存储模块,用于将所述相似值保存在数据库;
则所述相似值获取模块,具体用于从所述数据库中获取所述资源列表中每两个资源对象之间的相似值。
13.根据权利要求8所述的网络资源的排重装置,其特征在于,所述相似值获取模块,具体用于获取所述资源列表中各个资源对象的属性特征信息,根据所述属性特征信息,计算每两个资源对象之间的相似值。
14.根据权利要求8所述的网络资源的排重装置,其特征在于,所述第一排除模块还包括:
第二集合单元,用于若确定在所述第一候选集合中不存在与所述搜索请求完全匹配的资源对象,则在第一候选集合中,将所述相似值小于所述第二预设阈值相应的资源对象组成第二候选集合;
第三比较单元,用于在所述第二候选集合中,将每两个资源对象的相似值与第三预设阈值进行比较;
第二提取单元,用于当所述相似值大于或等于所述第三预设阈值时,确定相应的两个资源对象为重复的资源对象,且将重复的资源对象中的一个资源对象作为满足预设条件的资源对象并提取,所述第三预设阈值小于所述第二预设阈值。
CN201510054849.1A 2015-01-30 2015-01-30 一种网络资源的排重方法及装置 Active CN105991312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510054849.1A CN105991312B (zh) 2015-01-30 2015-01-30 一种网络资源的排重方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510054849.1A CN105991312B (zh) 2015-01-30 2015-01-30 一种网络资源的排重方法及装置

Publications (2)

Publication Number Publication Date
CN105991312A CN105991312A (zh) 2016-10-05
CN105991312B true CN105991312B (zh) 2019-06-18

Family

ID=57035642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510054849.1A Active CN105991312B (zh) 2015-01-30 2015-01-30 一种网络资源的排重方法及装置

Country Status (1)

Country Link
CN (1) CN105991312B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106454398A (zh) * 2016-11-02 2017-02-22 珠海市魅族科技有限公司 一种视频处理的方法及终端
KR102560508B1 (ko) * 2016-11-18 2023-07-28 구글 엘엘씨 대화형 어시스턴트 컨텍스트 포함하여 사후 검색 결과를 자율적으로 제공

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法
CN102737059A (zh) * 2011-04-14 2012-10-17 北京百度网讯科技有限公司 用于确定资源描述信息的准确度信息的方法、装置和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968819A (zh) * 2010-11-05 2011-02-09 中国传媒大学 面向广域网的音视频智能编目信息获取方法
CN102063498A (zh) * 2010-12-31 2011-05-18 百度在线网络技术(北京)有限公司 基于内容特征信息对链接进行去重处理的方法与设备
CN102737059A (zh) * 2011-04-14 2012-10-17 北京百度网讯科技有限公司 用于确定资源描述信息的准确度信息的方法、装置和设备
CN102567473A (zh) * 2011-12-14 2012-07-11 鸿富锦精密工业(深圳)有限公司 网络信息检索系统及检索方法

Also Published As

Publication number Publication date
CN105991312A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
CN104239535B (zh) 一种为文字配图的方法、服务器、终端及系统
CN105095195B (zh) 基于知识图谱的人机问答方法和系统
US10817786B2 (en) Multi-round session interaction method and system, and computer device
WO2016197577A1 (zh) 评论信息的标注方法、装置和计算机设备
CN104572889A (zh) 一种搜索词推荐方法、装置和系统
CN105988996B (zh) 一种索引文件生成方法及装置
CN107436875A (zh) 文本分类方法及装置
CN107391509B (zh) 标签推荐方法及装置
CN107102941A (zh) 一种测试用例的生成方法及装置
CN107741937A (zh) 一种数据查询方法及装置
CN101996195A (zh) 音频文件中语音信息的搜索方法、装置及设备
CN104182488A (zh) 搜索方法、服务器及客户端
CN104750795A (zh) 一种智能语义检索系统和方法
US10146880B2 (en) Determining a filtering parameter for values displayed in an application card based on a user history
CN104462113A (zh) 搜索方法、装置及电子设备
TW201229790A (en) Information providing method and device
CN106201890B (zh) 一种应用的性能优化方法及服务器
US20170300573A1 (en) Webpage data analysis method and device
CN106055586A (zh) 应用程序的推荐系统及方法、终端、服务器
CN104516887A (zh) 一种网页数据搜索方法、装置和系统
CN108171267A (zh) 用户群划分方法及装置、消息推送方法及装置
US20140358912A1 (en) Identifying Event-Specific Social Discussion Threads
CN104063400B (zh) 数据搜索方法和装置
CN109657093A (zh) 音频检索方法、装置及存储介质
CN110069769A (zh) 应用标签生成方法、装置及存储设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant