CN111708942B - 多媒体资源推送方法、装置、服务器及存储介质 - Google Patents

多媒体资源推送方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111708942B
CN111708942B CN202010537512.7A CN202010537512A CN111708942B CN 111708942 B CN111708942 B CN 111708942B CN 202010537512 A CN202010537512 A CN 202010537512A CN 111708942 B CN111708942 B CN 111708942B
Authority
CN
China
Prior art keywords
search
multimedia
multimedia resource
pushing
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010537512.7A
Other languages
English (en)
Other versions
CN111708942A (zh
Inventor
张志伟
林靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202010537512.7A priority Critical patent/CN111708942B/zh
Publication of CN111708942A publication Critical patent/CN111708942A/zh
Application granted granted Critical
Publication of CN111708942B publication Critical patent/CN111708942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种多媒体资源推送方法、装置、服务器及存储介质,属于互联网技术领域。所述方法包括:响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度;根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征;根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多个多媒体资源的推送顺序;按照多个多媒体资源的推送顺序进行推送。本公开在搜索词的长度超过目标长度时,确定多媒体资源的标记特征,由于该标记特征能够表示多媒体资源与搜索词之间的相关性,因而基于该标记特征确定的多媒体资源的推送顺序,能够弥补因与用户的交互数据较少导致的不准确问题,提高了所推送的多媒体资源的准确性。

Description

多媒体资源推送方法、装置、服务器及存储介质
技术领域
本公开涉及互联网技术领域,尤其涉及一种多媒体资源推送方法、装置、服务器及存储介质。
背景技术
在现代生活中,很多用户会在手机、平板电脑等电子设备上观看视频或聆听音乐。例如,用户可在电子设备上音视频应用的搜索框中输入搜索词,后台服务器基于用户输入的搜索词,可向用户推送与搜索词相关的多媒体资源。由于互联网上与搜索词相关的多媒体资源较多,有些是热门资源,有些是冷门资源,因此,需要将这些多媒体资源排序后推送给用户。
相关技术在推送多媒体资源时,可采用如下方法:获取用户输入的搜索词;将该搜索词和多媒体资源的点击率信息输入到多媒体资源评分模型中,输出在该搜索词下多媒体资源的分数,该多媒体资源评分模型能够基于搜索词和多媒体资源的点击率信息,对多媒体资源进行评分;按照分数由高到低的顺序,将多媒体资源推送给用户。
然而,多媒体资源评分模型主要基于点击率信息对多媒体资源进行评分,对于长度较长的搜索词,因与用户的交互数据较少,点击率信息并非十分可靠,导致在搜索词下多媒体资源的分数不够准确,进一步使得所推送的多媒体资源不够准确。
发明内容
本公开提供一种多媒体资源推送方法、装置、服务器及存储介质,以至少解决相关技术中推送的多媒体资源不够准确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种多媒体资源的推送方法,所述方法包括:
响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度;
根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,所述标记特征用于表示所述多媒体资源与所述搜索词之间的相关性;
根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在所述搜索词下所述多个多媒体资源的推送顺序;
按照所述多个多媒体资源的推送顺序进行推送。
在一种可能的实现方式中,所述目标长度通过下述方法确定:
从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
将不同长度的搜索词的搜索次数与所述总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度。
在一种可能的实现方式中,所述根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度,包括:
按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
在一种可能的实现方式中,所述根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度,包括:
按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
在一种可能的实现方式中,所述响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度,包括:
对于任一多媒体资源,确定所述搜索词与所述多媒体资源的封面文字之间的第一相似度;
确定所述搜索词与所述多媒体资源的标题之间的第二相似度;
将所述第一相似度与所述第二相似度中的最大值,确定所述多媒体资源与所述搜索词之间的相似度。
在一种可能的实现方式中,所述根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,包括:
对于任一多媒体资源,根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值;
根据所述多媒体资源对应的权重值,确定所述多媒体资源的标记特征。
在一种可能的实现方式中,所述根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值,包括:
当所述多媒体资源与所述搜索词之间的相似度大于等于第一参数,确定所述多媒体资源对应的权重值为第一权重值;
当所述多媒体资源与所述搜索词之间的相似度大于第二参数小于所述第一参数,确定所述多媒体资源对应的权重值为第二权重值;
当所述多媒体资源与所述搜索词之间的相似度小于等于所述第二参数,确定所述多媒体资源对应的权重值为第三权重值;
其中,所述第一参数大于所述第二参数,所述第一权重值大于所述第二权重值,所述第二权重值大于所述第三权重值。
在一种可能的实现方式中,所述响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度之前,所述方法还包括:
统计所述搜索词包括的中文字符和英文字符的数量,得到所述搜索词的长度;将所述长度与所述目标长度进行比较。
在另一种可能的实现方式中,所述根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在所述搜索词下所述多个多媒体资源的推送顺序,包括:
将所述搜索词和添加有标记特征的所述多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下所述多个多媒体资源的推送参数值;
按照所述多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下所述多个多媒体资源的推送顺序。
在一种可能的实现方式中,所述多媒体资源推送模型的训练过程包括:
获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值;
根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到所述多媒体资源推送模型。
根据本公开实施例的第二方面,提供一种多媒体资源的推送装置,所述装置包括:
第一确定模块,被配置为响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度;
第二确定模块,被配置为根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,所述标记特征用于表示所述多媒体资源与所述搜索词之间的相关性;
第三确定模块,被配置为根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在所述搜索词下所述多个多媒体资源的推送顺序;
推送模块,被配置为按照所述多个多媒体资源的推送顺序进行推送。
在一种可能的实现方式中,用于确定所述目标长度的装置包括:
第一获取模块,被配置为从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
搜索次数作比模块,被配置为将不同长度的搜索词的搜索次数与所述总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
第四确定模块,被配置为根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度。
在一种可能的实现方式中,所述第四确定模块,被配置为按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
在一种可能的实现方式中,所述第四确定模块,被配置为按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
在一种可能的实现方式中,所述第一确定模块,被配置为对于任一多媒体资源,确定所述搜索词与所述多媒体资源的封面文字之间的第一相似度;确定所述搜索词与所述多媒体资源的标题之间的第二相似度;将所述第一相似度与所述第二相似度中的最大值,确定所述多媒体资源与所述搜索词之间的相似度。
在一种可能的实现方式中,所述第二确定模块,被配置为对于任一多媒体资源,根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值;根据所述多媒体资源对应的权重值,确定所述多媒体资源的标记特征。
在一种可能的实现方式中,所述第二确定模块,被配置为当所述多媒体资源与所述搜索词之间的相似度大于等于第一参数,确定所述多媒体资源对应的权重值为第一权重值;当所述多媒体资源与所述搜索词之间的相似度大于第二参数小于所述第一参数,确定所述多媒体资源对应的权重值为第二权重值;当所述多媒体资源与所述搜索词之间的相似度小于等于所述第二参数,确定所述多媒体资源对应的权重值为第三权重值;
其中,所述第一参数大于所述第二参数,所述第一权重值大于所述第二权重值,所述第二权重值大于所述第三权重值。
在一种可能的实现方式中,所述装置还包括:
统计模块,被配置为统计所述搜索词包括的中文字符和英文字符的数量,得到所述搜索词的长度;
比较模块,被配置为将所述长度与所述目标长度进行比较。
在一种可能的实现方式中,所述第三确定模块,用于将所述搜索词和添加有标记特征的所述多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下所述多个多媒体资源的推送参数值;按照所述多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下所述多个多媒体资源的推送顺序。
在一种可能的实现方式中,用于训练所述多媒体资源推送模型的装置包括:
第二获取模块,被配置为获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
第五确定模块,被配置为确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
第六确定模块,被配置为根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
加权计算模块,被配置为根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值;
第七确定模块,被配置为根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
训练模块,被配置为根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到所述多媒体资源推送模型。
根据本公开实施例的第三方面,提供一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述第一方面所述的多媒体资源推送方法。
根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述第一方面所述的多媒体资源推送方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行上述第一方面所述的多媒体资源推送方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
在搜索词的长度超过目标长度时,确定多媒体资源的标记特征,由于该标记特征能够表示多媒体资源与搜索词之间的相关性,因而基于该标记特征确定的多媒体资源的推送顺序,能够弥补因与用户的交互数据较少导致的不准确问题,提高了所推送的多媒体资源的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1(A)是根据一示例性实施例示出的一种多媒体资源推送方法所涉及的实施环境。
图1(B)是根据一示例性实施例示出的另一种多媒体资源推送方法所涉及的实施环境。
图2是根据一示例性实施例示出的一种多媒体资源推送方法的流程图。
图3是根据一示例性实施例示出的一种多媒体资源推送方法的流程图。
图4是根据一示例性实施例示出的一种多媒体资源推送模型的构建方法的流程图。
图5是根据一示例性实施例示出的一种多媒体资源推送装置的结构示意图。
图6是根据一示例性实施例示出的一种用于多媒体资源推送的服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。
本公开实施例提供了一种多媒体资源推送方法,该方法通过对每个训练样本多媒体资源对应的推送参数值进行加权计算,以实现对每个训练样本多媒体资源对应推送参数值进行修正,进而基于修正后的每个训练样本多媒体资源训练多媒体资源推送模型。然后,基于所训练的多媒体资源推送模型和用户输入的长度超过目标长度的搜索词,确定在搜索词下多媒体资源的推送顺序,进而按照多媒体资源的推送顺序进行推送。
本公开实施例涉及到模型训练及多媒体资源推送两个过程,这两个过程可在一个服务器或服务器集群上完成,也可以在不同的服务器或服务器集群中完成,即模型训练在一个服务器或服务器集群中实现,多媒体资源推送过程在安装有所训练模型的另一个服务器或服务器集群中实现。针对上述两种情况,本公开实施例提供的多媒体资源推送方法涉及的实施环境可包括图1(A)和图1(B)两种。
参见图1(A),该实施环境包括服务器101和终端102。
其中,服务器101为音视频播放应用的后台服务器。服务器101可以为单独的服务器,也可以为由多个服务器组成的服务器集群。服务器101具有较强的计算能力,能够训练多媒体资源推送模型。服务器101中安装有所训练的多媒体资源推送模型,基于所安装的多媒体资源推送模型,可确定在搜索词下多媒体资源的推送顺序,并按照多媒体资源的推送顺序进行推送。
终端102安装有音视频播放应用,可以为智能手机、平板电脑、笔记本电脑等具有显示屏幕的设备,用户可在终端的显示屏幕上输入搜索词,从而获取音视频播放服务。
上述服务器101与终端102之间可通过有线网络或无线网络进行通信。
参见图1(B),该实施环境包括服务器101、终端102及服务器103。
服务器101为音视频播放应用的后台服务器。服务器101可以为单独的服务器,也可以为由多个服务器组成的服务器集群。服务器101中安装有服务器103所训练的多媒体资源推送模型,能够确定在搜索词下多媒体资源的推送顺序,并按照多媒体资源的推送顺序进行推送。
终端102与图1(A)中的终端102相同,此处不再赘述。
服务器103可以为单独的服务器,也可以为由多个服务器组成的服务器集群。服务器103具有较强的计算能力,能够训练多媒体资源推送模型。
上述服务器101与终端102之间可通过有线网络或无线网络进行通信。服务器101与服务器103之间可通过有线网络或无线网络进行通信。
基于图1(A)和图1(B)所示的实施环境,图2是根据一示例性实施例示出的一种多媒体资源推送方法的流程图,如图2所示,多媒体资源推送方法用于服务器中,该服务器可以为图1(A)中的服务器101,也可以为图1(B)中的服务器103。本公开实施例提供的方法包括以下步骤。
在步骤201中,响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度。
其中,多媒体资源包括音频、视频、图片等。
在步骤202中,根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征。
其中,标记特征用于表征对多媒体资源与搜索词之间的相关性,标记特征值越大,多媒体资源与搜索词的越相关。
在步骤203中,根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多个多媒体资源的推送顺序。
在步骤204中,按照多个多媒体资源的推送顺序进行推送。
本公开实施例提供的方法,在搜索词的长度超过目标长度时,确定多媒体资源的标记特征,由于该标记特征能够表示多媒体资源与搜索词之间的相关性,因而基于该标记特征确定的多媒体资源的推送顺序,能够弥补因与用户的交互数据较少导致的不准确问题,提高了所推送的多媒体资源的准确性。
在一种可能的实现方式中,目标长度通过下述方法确定:
从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
将不同长度的搜索词的搜索次数与总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
根据不同长度的搜索词的搜索次数占比和指定阈值,确定目标长度。
在一种可能的实现方式中,根据不同长度的搜索词的搜索次数占比和指定阈值,确定目标长度,包括:
按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于指定阈值的搜索词的长度,确定为目标长度。
在一种可能的实现方式中,根据不同长度的搜索词的搜索次数占比和指定阈值,确定目标长度,包括:
按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于指定阈值的搜索词的长度,确定为目标长度。
在一种可能的实现方式中,响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度,包括:
对于任一多媒体资源,确定搜索词与多媒体资源的封面文字之间的第一相似度;
确定搜索词与多媒体资源的标题之间的第二相似度;
将第一相似度与第二相似度中的最大值,确定多媒体资源与搜索词之间的相似度。
在一种可能的实现方式中,根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征,包括:
对于任一多媒体资源,根据多媒体资源与搜索词之间的相似度,确定多媒体资源对应的权重值;
根据多媒体资源对应的权重值,确定多媒体资源的标记特征。
在一种可能的实现方式中,根据多媒体资源与搜索词之间的相似度,确定多媒体资源对应的权重值,包括:
当多媒体资源与搜索词之间的相似度大于等于第一参数,确定多媒体资源对应的权重值为第一权重值;
当多媒体资源与搜索词之间的相似度大于第二参数小于第一参数,确定多媒体资源对应的权重值为第二权重值;
当多媒体资源与搜索词之间的相似度小于等于第二参数,确定多媒体资源对应的权重值为第三权重值;
其中,第一参数大于第二参数,第一权重值大于第二权重值,第二权重值大于第三权重值。
在一种可能的实现方式中,响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度之前,方法还包括:
统计搜索词包括的中文字符和英文字符的数量,得到搜索词的长度;将长度与目标长度进行比较。
在一种可能的实现方式中,根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多个多媒体资源的推送顺序,包括:
将搜索词和添加有标记特征的多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下多个多媒体资源的推送参数值;
按照多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下多个多媒体资源的推送顺序。
在一种可能的实现方式中,多媒体资源推送模型的训练过程包括:
获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数;
根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到多媒体资源推送模型。
基于图1(A)和图1(B)所示的实施环境,图3是根据一示例性实施例示出的一种多媒体资源推送方法的流程图,如图3所示,多媒体资源推送方法用于服务器中,该服务器可以为图1(A)中的服务器101,也可以为图1(B)中的服务器101或103。以多媒体资源为视频为例,本公开实施例提供的方法包括以下步骤。
在步骤301中,服务器统计搜索词包括的中文字符和英文字符的数量,得到搜索词的长度,并将搜索词的长度与目标长度进行比较。
当用户想要观看视频时,用户可在终端的显示屏幕上输入搜索词,终端通过检测用户的输入操作,获取用户输入的搜索词,并向服务器发送搜索请求,当接收到终端发送的搜索请求,服务器将确定该搜索词是否为长度超过目标长度的长搜索词。当该搜索词为长度超过目标长度的长搜索词,则在基于该搜索词进行多媒体资源推送时,即可采用本公开实施例提供的方法进行推送。
服务器确定搜索词是否为长度超过目标长度的长搜索词时,可先统计搜索词包括的中文字符和英文字符的数量,将该搜索词包括的中文字符和英文字符的总数,作为该搜索词的长度。例如,搜索词为王者荣耀,则搜索词的长度为4个字符;搜索词为LOL,则搜索词LOL的长度为3个字符;搜索词为英雄联盟LOL,则搜索词的长度为7个字符。然后,服务器将该搜索词的长度与目标长度进行比较,当该搜索词的长度大于目标长度时,可确定该搜索词是否为长度超过目标长度的长搜索词。其中,目标长度用于衡量搜索词是否为长搜索词的临界长度,目标长度可以为5个字符、6个字符等。
上述确定长搜索词的过程,可采用下面函数表示:
long_queryset={query|querylen>i}
其中,query为搜索词,i为目标长度。上述函数的含义为:对于任一搜索词query,当该搜索词的长度大于目标长度i,则该搜索词为长搜索词long_queryset
例如,目标长度为5个字符,当任一搜索词的长度为7个字符时,则该搜索词为长搜索词。本公开实施例提供的方法通过统计搜索词包括的中文字符和英文字符的数量得到搜索词的长度,并通过将搜索词的长度与目标长度进行比较,确定搜索词是否为长搜索词,从而提供了一种长搜索词的确定方法。
具体地,目标长度可以通过下述方法确定:
3011、服务器从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数。
其中,历史搜索信息包括搜索词、每个搜索词的搜索次数及相应的搜索结果等。服务器可从历史搜索信息中,获取每个搜索词的搜索次数,并将各个搜索词的搜索次数相加,得到总搜索次数。服务器还可统计每个搜索词包括的中文字符和英文字符的数量,得到每个搜索词的长度,并统计每个长度所包含的搜索词的搜索次数之和,得到不同长度的搜索词的搜索次数。
3012、服务器将不同长度的搜索词的搜索次数与总搜索次数作比,得到不同长度的搜索词的搜索次数占比。
服务器依次将不同长度的搜索词的搜索次数与总搜索次数作比,可得到每不同长度的搜索词的搜索次数占比,该搜索次数占比可以表示为pvraito。例如,总搜索次数为1000次,长度为4个字符的搜索词的搜索次数为10次,则长度为4个字符的搜索词的搜索次数占比为10/1000=0.01。
3013、服务器根据不同长度的搜索词的搜索次数占比和指定阈值,确定目标长度。
其中,指定阈值可根据技术人员的经验确定,该指定阈值可以为0.1、0.2、0.3等,本公开实施例中可以选取指定阈值为0.2。服务器在根据不同长度的搜索词的搜索次数占比和指定阈值确定目标长度时,包括但不限于采用如下两种方式:
第一种方式、服务器可按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于指定阈值的搜索词的长度,确定为目标长度。
设定指定阈值为thresc,则目标长度为
其中,i为搜索词的长度,maxlen为搜索词的最大长度,为长度小于等于i的搜索词的搜索占比总和。
例如,指定阈值thresc为0.4,长度为2个字符的搜索词的搜索次数占比为0.2,长度为3个字符的搜索词的搜索次数占比为0.3,长度为4个字符的搜索词的搜索次数占比为0.4,长度为5个字符的搜索词的搜索次数占比为0.1。服务器按照长度由长到短的顺序,遍历不同长度的搜索词,长度小于等于5个字符的搜索词的搜索次数占比总和为0.1,长度小于等于4个字符的搜索词的搜索占比总和为0.5,长度小于等于3个字符的搜索词的搜索次数占比总和为0.8,长度小于等于2个字符的搜索词的搜索次数占比总和为1。搜索次数占比总和首次大于指定阈值0.4的搜索词的长度为4个字符,则确定目标长度为4个字符。
第二种方式、服务器还可按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于指定阈值的搜索词的长度,确定为目标长度。
设定指定阈值为thresc,则目标长度为
其中,i为搜索词的长度,maxlen为搜索词的最大长度,为长度大于等于i的搜索词的搜索占比总和。
例如,指定阈值thresc为0.4,长度为2个字符的搜索词的搜索次数占比为0.2,长度为3个字符的搜索词的搜索次数占比为0.3,长度为4个字符的搜索词的搜索次数占比为0.4,长度为5个字符的搜索词的搜索次数占比为0.1。服务器按照长度由短到长的顺序,遍历不同长度的搜索词,长度大于等于2个字符的搜索词的搜索次数占比总和为1,长度大于等于3个字符的搜索词的搜索占比总和为0.8,长度大于等于4个字符的搜索词的搜索次数占比总和为0.5,长度大于等于5个字符的搜索词的搜索次数占比总和为0.1。搜索次数占比总和最后一次大于指定阈值0.4的搜索词的长度为4个字符,则确定目标长度为4个字符。
本公开实施例提供的方法,根据历史搜索信息中获取的总搜索次数和不同长度的搜索词的搜索次数,确定出不同长度的搜索词的搜索次数占比,从而基于该搜索次数占比,确定出目标长度,该目标长度用于衡量任一搜索词是否为需要进行加权计算的长搜索词,通过确定目标长度,实现了对搜索词的精确分类,从而在搜索词长度大于目标长度时,确保所推送的多媒体资源的准确性。
在步骤302中,服务器响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度。
当搜索词的长度超过目标长度时,响应于搜索词的长度超过目标长度,服务器将确定多个多媒体资源与搜索词之间的相似度。该相似度用于表征多媒体资源与搜索词之间的相似程度。
对于任一多媒体资源,服务器确定该多媒体资源与搜索词之间的相似度时,可采用如下方法:
3021、服务器确定搜索词与多媒体资源的封面文字之间的第一相似度。
其中,多媒体资源的封面文字可以为OCR(Optical Character Recognition,光学字符识别)文字。搜索词与多媒体资源的封面文字之间的第一相似度可采用bm25算法确定。其中,Bm25是一种用来评价搜索词和文档相关性的算法。采用bm25算法计算搜索词与多媒体资源的封面文字之间的第一相似度时,可对搜索词进行切分,得到多个单词,然后计算每个单词与多媒体资源的封面文字之间的相似度,将各个单词与多媒体资源的封面文字之间的相似度之和,作为搜索词与多媒体资源的封面文字之间的第一相似度。
3022、服务器确定搜索词与多媒体资源的标题之间的第二相似度。
其中,搜索词与多媒体资源的标题之间的第二相似度也可以采用bm25算法确定。采用bm25算法计算搜索词与多媒体资源的标题之间的第二相似度时,可对搜索词进行切分,得到多个单词,然后计算每个单词与多媒体资源的标题之间的相似度,将各个单词与多媒体资源的标题之间的相似度之和,作为搜索词与多媒体资源的标题之间的第二相似度。
3023、服务器将第一相似度与第二相似度中的最大值,确定多媒体资源与搜索词之间的相似度。
设定第一相似度为bmocr,第二相似度为bmtitle,则多媒体资源与搜索词之间的相似度为correlationi=max(bmocr,bmtitle)。
例如,多媒体资源的标题为“大唐芙蓉园不倒翁小姐姐表演”,封面文字为“西安大唐不夜城不倒翁姐姐”,搜索词为“不倒翁姐姐”,采用bm25算法计算搜索词“不倒翁姐姐”与多媒体资源的封面文字“西安大唐不夜城不倒翁姐姐”之间的第一相似度,并采用bm25算法计算搜索词“不倒翁姐姐”与多媒体资源的标题“大唐芙蓉园不倒翁小姐姐表演”之间的第二相似度,将第一相似度和第二相似度中的最大值,确定为多媒体资源与搜索词“不倒翁姐姐”之间的相似度。
本公开实施例提供的方法,根据搜索词与多媒体资源的封面文字之间的第一相似度,以及搜索词与多媒体资源的标题之间的第二相似度,确定出多媒体资源与搜索词之间的相似度。由于多媒体资源的封面文字和多媒体资源的标题能够体现出多媒体资源内容,因而基于第一相似度和第二相似度确定出的多媒体资源与搜索词之间的相似度更为准确。
在步骤303中,服务器根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征。
其中,标记特征用于表征多媒体资源与搜索词之间的相关性。通过添加标记特征,可以弥补基于长搜索词进行多媒体资源推送时,因与用户的交互数据较少导致不够准确的问题。
具体地,服务器根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征时,可采用如下方法:
3031、对于任一多媒体资源,服务器根据多媒体资源与搜索词之间的相似度,确定多媒体资源对应的权重值。
服务器根据多媒体资源与搜索词之间的相似度,确定多媒体资源对应的权重值时,包括以下几种情况:
第一种情况、当多媒体资源与搜索词之间的相似度大于等于第一参数,服务器确定多媒体资源对应的权重值为第一权重值。
第二种情况、当多媒体资源与搜索词之间的相似度大于第二参数小于第一参数,服务器确定多媒体资源对应的权重值为第二权重值。
第三种情况、当多媒体资源与搜索词之间的相似度小于等于第二参数,服务器确定多媒体资源对应的权重值为第三权重值。
其中,第一参数大于第二参数,第一参数和第二参数可根据技术人员的经验确定,例如,第一参数可以为0.8,第二参数可以为0.4。第一权重值大于第二权重值,第二权重值大于第三权重值,例如,第一权重值可以为1.6,第二权重值可以为1,第三权重值可以为0.4。
3032、服务器根据多媒体资源对应的权重值,确定多媒体资源的标记特征。
服务器根据多媒体资源对应的权重值,确定多媒体资源的标记特征时,包括以下几种情况:
第一种情况、当多媒体资源对应的权重值为第一权重值,服务器确定多媒体资源的标记特征值为第一数值。
第二种情况、当多媒体资源对应的权重值为第二权重值,服务器确定多媒体资源的标记特征值为第二数值。
第三种情况、当多媒体资源对应的权重值为第三权重值,服务器确定多媒体资源的标记特征值为第三数值。
第四种情况、当多媒体资源对应的权重值为除第一权重值、第二权重值及第三权重值以外的其他数值,服务器确定多媒体资源的标记特征值为第四数值。
其中,第一数值大于第二数值,第二数值大于第三数值,第三数值大于第四数值,例如,第一数值可以为3,第二数值可以为2,第三数值可以为1,第四数值可以为0。
本公开实施例提供的方法,根据多媒体资源与搜索词之间的相似度不同,确定出不同的权重值,并根据多媒体资源对应的权重值,确定多媒体资源的标记特征,该标记特征能够表示多媒体资源与搜索词之间的相关性,根据该标记特征可以确定出多媒体资源的推送顺序。
在步骤304中,服务器根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多个多媒体资源的推送顺序。
服务器在根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多媒体资源的推送顺序时,可将搜索词和添加有标记特征的多个多媒体资源输入到多媒体资源推送模型中,多媒体资源推送模型提取每个多媒体资源的特征,将提取的特征与标记特征组成特征矩阵,并基于特征矩阵,确定出在搜索词下每个多媒体资源的推送参数值,进而输出在搜索词下多个多媒体资源的推送参数值,并按照多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下多个多媒体资源的推送顺序。
其中,推送参数用于衡量对多媒体资源的推送顺序,推送参数值越大,相应多媒体资源的推送顺序越靠前;推送参数值越小,相应多媒体资源的推送顺序越靠后。
本公开实施例提供的多媒体资源推送模型能够确定出在搜索词下多媒体资源的推送参数值,通过将搜索词和添加标记特征的多媒体资源输入到该多媒体资源推送模型中,可以输出在搜索词下多媒体资源的推送参数值,进而确定出搜索词在多媒体资源下的推送顺序,从而提供了一种多媒体资源的推送顺序的确定方法。
在步骤305中,服务器按照多个多媒体资源的推送顺序进行推送。
服务器按照多个多媒体资源的推送顺序,将多媒体资源推送给用户。进一步地,考虑到多媒体资源的数量较多,而终端的显示屏幕有限,因而服务器可将排名在前预设位数的多媒体资源推送给用户,其中,前预设位数可以为前10位、前15位等。
本公开实施例提供的方法,在搜索词的长度超过目标长度时,确定多媒体资源的标记特征,由于该标记特征能够表示多媒体资源与搜索词之间的相关性,因而基于该标记特征确定的多媒体资源的推送顺序,能够弥补因与用户的交互数据较少导致的不准确问题,提高了所推送的多媒体资源的准确性。
图4是根据一示例性实施例示出的一种多媒体推送模型的构建方法的流程图,如图4所示,多媒体推送模型的构建方法用于服务器中,该服务器可以为图1(A)中的服务器101,也可以为图1(B)中的服务器103。本公开实施例提供的方法包括以下步骤。
在步骤401中,服务器获取至少一个训练样本多媒体资源。
其中,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值,以多媒体资源为视频为例,可采用表示<query,video,score>。在获取多个训练样本多媒体资源时,可构建搜索任务,基于所构建的搜索任务,通过用户的历史行为,统计出一个搜索词下多媒体资源的推送参数值,该推送参数值可根据点击率、点赞率、关注率等确定,并将搜索词、多媒体资源及对应的推送参数值,作为训练样本多媒体资源。
在步骤402中,服务器确定每个训练样本多媒体资源与所对应的搜索词之间的相似度。
对于任一训练样本多媒体资源,服务器确定该训练样本多媒体资源的封面文字与对应的搜索词之间的第一相似度,并确定该训练样本多媒体资源的标题与对应的搜索词之间的第二相似度,进而将第一相似度与第二相似度中的最大值,作为该训练样本多媒体资源与对应的搜索词之间的相似度。
在步骤403中,服务器根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值。
服务器将每个训练样本多媒体资源与所对应的搜索词之间的相似度与第一参数和第二参数进行比较,根据比较结果确定每个训练样本多媒体资源对应的权重值。对于任一训练样本多媒体资源,当该训练样本媒体资源与搜索词之间的相似度大于等于第一参数,服务器确定该训练样本多媒体资源对应的权重值为第一权重值;当训练样本多媒体资源与搜索词之间的相似度大于第二参数小于第一参数,服务器确定该训练样本多媒体资源对应的权重值为第二权重值;当训练样本多媒体资源与搜索词之间的相似度小于等于第二参数,服务器确定该多媒体资源对应的权重值为第三权重值。
例如,第一参数为0.8,第二参数为0.4,第一权重值为1.6,第二权重值为1,第三权重值为0.4。当训练样本媒体资源与搜索词之间的相似度大于等于0.8,服务器确定该训练样本多媒体资源对应的权重值为1.6;当训练样本多媒体资源与搜索词之间的相似度大于0.4小于0.8,服务器确定该训练样本多媒体资源对应的权重值为1;当训练样本多媒体资源与搜索词之间的相似度小于等于0.4,服务器确定该多媒体资源对应的权重值为0.4。
在步骤404中,服务器根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值。
基于每个训练样本多媒体资源对应的权重值,服务器将每个训练样本多媒体资源对应的搜索词的长度与目标长度进行比较,当任一训练样本多媒体资源对应的搜索词的长度大于目标长度,服务器确定该搜索词为长搜索词,并将该训练样本多媒体资源对应的权重值与对应的推送参数值进行加权计算,得到该训练样本多媒体资源的推送参数加权值;当该训练样本多媒体资源的长度小于等于目标长度,则服务器将不再对该训练样本多媒体资源对应的推送参数值进行加权计算,直接采用该训练样本多媒体资源对应的推送参数值进行模型训练。
在步骤405中,服务器根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征。
服务器将每个训练样本多媒体资源对应的搜索词的长度与目标长度进行比较,当任一训练样本多媒体资源对应的搜索词的长度大于目标长度,服务器确定该搜索词为长搜索词,并根据该训练样本多媒体资源对应的权重值,确定该训练样本多媒体资源的标记特征。如果该训练样本多媒体资源对应的权重值为第一权重值,可确定该训练样本多媒体资源的标记特征值为第一数值;如果该训练样本多媒体资源对应的权重值为第二权重值,可确定该训练样本多媒体资源的标记特征值为第二数值;如果该训练样本多媒体资源对应的权重值为第三权重值,可确定该训练样本多媒体资源的标记特征值为第三数值;如果该训练样本多媒体资源对应的权重值为除第一权重值、第二权重值及第三权重值以外的其他数值,可确定该训练样本多媒体资源的标记特征值为第四数值。当然,如果训练样本多媒体资源对应的搜索词的长度小于等于目标长度,也可确定该训练样本多媒体资源的标记特征值为第四数值。
例如,设定第一权重值为1.6,第二权重值为1,第三权重值为0.4,第一数值为3,第二数值为2,第三数值为1,第四数值为0,对于长搜索词,当训练样本多媒体资源对应的权重值为1.6时,可确定该训练样本多媒体资源的标记特征值为3;当训练样本多媒体资源对应的权重值为1时,可确定该训练样本多媒体资源的标记特征值为2;当训练样本多媒体资源对应的权重值为0.4时,可确定该训练样本多媒体资源的标记特征值为1;当训练样本多媒体资源对应的权重值为除1.6、1及0.4以外的其他数值时,可确定该训练样本多媒体资源的标记特征值为0。
在步骤406中,服务器根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到多媒体资源推送模型。
服务器可预先为初始多媒体资源推送模型的模型参数设置初始值,基于所设置的各个参数的初始值,通过将每个添加标记特征的训练样本多媒体资源和对应的搜索词输入到初始多媒体资源推送模型,得到每个训练样本多媒体资源的推送参数预测值。然后,将每个训练样本多媒体资源的推送参数预测值和推送参数加权值输入到预先构建的目标损失函数中,得到目标损失函数的函数值。如果目标损失函数的函数值不满足阈值条件,对初始多媒体资源推送模型的模型参数进行调整,并继续计算目标损失函数的函数值,直至得到的函数值满足阈值条件。其中,阈值条件可根据处理精度进行设置。获取满足阈值条件时各个参数的参数值,并将满足阈值条件时各个参数的参数值所对应的初始多媒体资源推送模型,作为训练得到的多媒体资源评分模型。
本公开实施例提供的方法,根据每个训练样本多媒体资源与对应搜索词之间的相似度,确定出训练样本多媒体资源对应的权重值,通过该权重值对每个训练样本多媒体资源对应的推送参数值进行加权计算,以实现对每个训练样本多媒体资源对应的推送参数值的修正,基于修正后的推送参数值训练多媒体资源推送模型,使得训练的多媒体资源推送模型更准确。
图5是根据一示例性实施例示出的一种多媒体资源推送装置框图。参照图5,该装置包括:第一确定模块501、第二确定模块502、第三确定503及推送模块504。
第一确定模块501,被配置为响应于搜索词的长度超过目标长度,确定多个多媒体资源与搜索词之间的相似度;
第二确定模块502,被配置为根据多个多媒体资源与搜索词之间的相似度,确定多个多媒体资源的标记特征,所述标记特征用于表示所述多媒体资源与所述搜索词之间的相关性;
第三确定模块503,被配置为根据搜索词和添加有标记特征的多个多媒体资源,确定在搜索词下多个多媒体资源的推送顺序;
推送模块504,被配置为按照多个多媒体资源的推送顺序进行推送。
在一种可能的实现方式中,用于确定目标长度的装置包括:第一获取模块、搜索次数作比模块及第四确定模块。
第一获取模块,被配置为从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
搜索次数作比模块,被配置为将不同长度的搜索词的搜索次数与总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
第四确定模块,被配置为根据不同长度的搜索词的搜索次数占比和指定阈值,确定目标长度。
在一种可能的实现方式中,第四确定模块,被配置为按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于指定阈值的搜索词的长度,确定为目标长度。
在一种可能的实现方式中,第四确定模块,被配置为按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于指定阈值的搜索词的长度,确定为目标长度。
在一种可能的实现方式中,第一确定模块,被配置为对于任一多媒体资源,确定搜索词与多媒体资源的封面文字之间的第一相似度;确定搜索词与多媒体资源的标题之间的第二相似度;将第一相似度与第二相似度中的最大值,确定多媒体资源与搜索词之间的相似度。
在一种可能的实现方式中,第二确定模块,被配置为对于任一多媒体资源,根据多媒体资源与搜索词之间的相似度,确定多媒体资源对应的权重值;根据多媒体资源对应的权重值,确定多媒体资源的标记特征。
在一种可能的实现方式中,第二确定模块,被配置为当多媒体资源与搜索词之间的相似度大于等于第一参数,确定多媒体资源对应的权重值为第一权重值;当多媒体资源与搜索词之间的相似度大于第二参数小于第一参数,确定多媒体资源对应的权重值为第二权重值;当多媒体资源与搜索词之间的相似度小于等于第二参数,确定多媒体资源对应的权重值为第三权重值;
其中,第一参数大于第二参数,第一权重值大于第二权重值,第二权重值大于第三权重值。
在一种可能的实现方式中,该装置还包括:统计模块和比较模块。
统计模块,被配置为统计搜索词包括的中文字符和英文字符的数量,得到搜索词的长度;
比较模块,被配置为将长度与目标长度进行比较。
在一种可能的实现方式中,第三确定模块,用于将搜索词和添加有标记特征的多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下多个多媒体资源的推送参数值;按照多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下多个多媒体资源的推送顺序。
在一种可能的实现方式中,用于训练多媒体资源推送模型的装置包括:
第二获取模块,被配置为获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
第五确定模块,被配置为确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
第六确定模块,被配置为根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
加权计算模块,被配置为根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值;
第七确定模块,被配置为根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
训练模块,被配置为根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到多媒体资源推送模型。
本公开实施例提供的装置,在搜索词的长度超过目标长度时,确定多媒体资源的标记特征,由于该标记特征能够表示多媒体资源与搜索词之间的相关性,因而基于该标记特征确定的多媒体资源的推送顺序,能够弥补因与用户的交互数据较少导致的不准确问题,提高了所推送的多媒体资源的准确性。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种用于多媒体资源推送的服务器。参照图6,服务器600包括处理组件622,其进一步包括一个或多个处理器,以及由存储器632所代表的存储器资源,用于存储可由处理组件622的执行的指令,例如应用程序。存储器632中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件622被配置为执行指令,以执行上述多媒体资源推送方法中服务器所执行的功能。
服务器600还可以包括一个电源组件626被配置为执行服务器600的电源管理,一个有线或无线网络接口650被配置为将服务器600连接到网络,和一个输入输出(I/O)接口658。服务器600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开实施例提供了一种存储介质,该存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。当存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述实施例所述的多媒体资源推送方法。
本公开实施例提供了一种计算机程序产品,计算机程序产品中的指令由服务器的处理器执行时,使得服务器能够执行如上述实施例所述的多媒体资源推送方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种多媒体资源推送方法,其特征在于,所述方法包括:
响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度;
根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,所述标记特征用于表示所述多媒体资源与所述搜索词之间的相关性;
根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在所述搜索词下所述多个多媒体资源的推送顺序;
按照所述多个多媒体资源的推送顺序进行推送;
其中,所述目标长度通过下述方法确定:
从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
将不同长度的搜索词的搜索次数与所述总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度。
2.根据权利要求1所述的多媒体资源推送方法,其特征在于,所述根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度,包括:
按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
3.根据权利要求1所述的多媒体资源推送方法,其特征在于,所述根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度,包括:
按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
4.根据权利要求1所述的多媒体资源推送方法,其特征在于,所述响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度,包括:
对于任一多媒体资源,确定所述搜索词与所述多媒体资源的封面文字之间的第一相似度;
确定所述搜索词与所述多媒体资源的标题之间的第二相似度;
将所述第一相似度与所述第二相似度中的最大值,确定所述多媒体资源与所述搜索词之间的相似度。
5.根据权利要求1所述的多媒体资源推送方法,其特征在于,所述根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,包括:
对于任一多媒体资源,根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值;
根据所述多媒体资源对应的权重值,确定所述多媒体资源的标记特征。
6.根据权利要求5所述的多媒体资源推送方法,其特征在于,所述根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值,包括:
当所述多媒体资源与所述搜索词之间的相似度大于等于第一参数,确定所述多媒体资源对应的权重值为第一权重值;
当所述多媒体资源与所述搜索词之间的相似度大于第二参数小于所述第一参数,确定所述多媒体资源对应的权重值为第二权重值;
当所述多媒体资源与所述搜索词之间的相似度小于等于所述第二参数,确定所述多媒体资源对应的权重值为第三权重值;
其中,所述第一参数大于所述第二参数,所述第一权重值大于所述第二权重值,所述第二权重值大于所述第三权重值。
7.根据权利要求1所述的多媒体资源推送方法,其特征在于,所述响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度之前,所述方法还包括:
统计所述搜索词包括的中文字符和英文字符的数量,得到所述搜索词的长度;将所述长度与所述目标长度进行比较。
8.根据权利要求1至7中任一项所述的多媒体资源推送方法,其特征在于,所述根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在所述搜索词下所述多个多媒体资源的推送顺序,包括:
将所述搜索词和添加有标记特征的所述多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下所述多个多媒体资源的推送参数值;
按照所述多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下所述多个多媒体资源的推送顺序。
9.根据权利要求8所述的多媒体资源推送方法,其特征在于,所述多媒体资源推送模型的训练过程包括:
获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值;
根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到所述多媒体资源推送模型。
10.一种多媒体资源推送装置,其特征在于,所述装置包括:
第一确定模块,被配置为响应于搜索词的长度超过目标长度,确定多个多媒体资源与所述搜索词之间的相似度;
第二确定模块,被配置为根据所述多个多媒体资源与所述搜索词之间的相似度,确定所述多个多媒体资源的标记特征,所述标记特征用于表示所述多媒体资源与所述搜索词之间的相关性;
第三确定模块,被配置为根据所述搜索词和添加有标记特征的所述多个多媒体资源,确定在搜索词下所述多个多媒体资源的推送顺序;
推送模块,被配置为按照所述多个多媒体资源的推送顺序进行推送;
其中,用于确定所述目标长度的装置包括:
第一获取模块,被配置为从历史搜索信息中,获取历史搜索过程中搜索词的总搜索次数以及不同长度的搜索词的搜索次数;
搜索次数作比模块,被配置为将不同长度的搜索词的搜索次数与所述总搜索次数作比,得到不同长度的搜索词的搜索次数占比;
第四确定模块,被配置为根据不同长度的搜索词的搜索次数占比和指定阈值,确定所述目标长度。
11.根据权利要求10所述的多媒体资源推送装置,其特征在于,所述第四确定模块,被配置为按照长度由长到短的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和首次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
12.根据权利要求10所述的多媒体资源推送装置,其特征在于,所述第四确定模块,被配置为按照长度由短到长的顺序,遍历不同长度的搜索词的搜索次数占比,将搜索次数占比总和最后一次大于所述指定阈值的搜索词的长度,确定为所述目标长度。
13.根据权利要求10所述的多媒体资源推送装置,其特征在于,所述第一确定模块,被配置为对于任一多媒体资源,确定所述搜索词与所述多媒体资源的封面文字之间的第一相似度;确定所述搜索词与所述多媒体资源的标题之间的第二相似度;将所述第一相似度与所述第二相似度中的最大值,确定所述多媒体资源与所述搜索词之间的相似度。
14.根据权利要求10所述的多媒体资源推送装置,其特征在于,所述第二确定模块,被配置为对于任一多媒体资源,根据所述多媒体资源与所述搜索词之间的相似度,确定所述多媒体资源对应的权重值;根据所述多媒体资源对应的权重值,确定所述多媒体资源的标记特征。
15.根据权利要求14所述的多媒体资源推送装置,其特征在于,所述第二确定模块,被配置为当所述多媒体资源与所述搜索词之间的相似度大于等于第一参数,确定所述多媒体资源对应的权重值为第一权重值;当所述多媒体资源与所述搜索词之间的相似度大于第二参数小于所述第一参数,确定所述多媒体资源对应的权重值为第二权重值;当所述多媒体资源与所述搜索词之间的相似度小于等于所述第二参数,确定所述多媒体资源对应的权重值为第三权重值;
其中,所述第一参数大于所述第二参数,所述第一权重值大于所述第二权重值,所述第二权重值大于所述第三权重值。
16.根据权利要求10所述的多媒体资源推送装置,其特征在于,所述装置还包括:
统计模块,被配置为统计所述搜索词包括的中文字符和英文字符的数量,得到所述搜索词的长度;
比较模块,被配置为将所述长度与所述目标长度进行比较。
17.根据权利要求10至16中任一项所述的多媒体资源推送装置,其特征在于,所述第三确定模块,用于将所述搜索词和添加有标记特征的所述多个多媒体资源输入到多媒体资源推送模型中,输出在搜索词下所述多个多媒体资源的推送参数值;按照所述多个多媒体资源的推送参数值由大到小的顺序,确定在搜索词下所述多个多媒体资源的推送顺序。
18.根据权利要求17所述的多媒体资源推送装置,其特征在于,用于训练所述多媒体资源推送模型的装置包括:
第二获取模块,被配置为获取至少一个训练样本多媒体资源,每个训练样本多媒体资源对应一个搜索词及在所对应的搜索词下的推送参数值;
第五确定模块,被配置为确定每个训练样本多媒体资源与所对应的搜索词之间的相似度;
第六确定模块,被配置为根据每个训练样本多媒体资源与所对应的搜索词之间的相似度,确定每个训练样本多媒体资源对应的权重值;
加权计算模块,被配置为根据每个训练样本多媒体资源对应的权重值,对在搜索词下每个训练样本多媒体资源的推送参数值进行加权计算,得到每个训练样本多媒体资源的推送参数加权值;
第七确定模块,被配置为根据每个训练样本多媒体资源对应的权重值,确定每个训练样本多媒体资源的标记特征;
训练模块,被配置为根据每个添加标记特征的训练样本多媒体资源、对应的搜索词及推送参数加权值,对初始多媒体资源推送模型进行训练,得到所述多媒体资源推送模型。
19.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的多媒体资源推送方法。
20.一种存储介质,其特征在于,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至9中任一项所述的多媒体资源推送方法。
CN202010537512.7A 2020-06-12 2020-06-12 多媒体资源推送方法、装置、服务器及存储介质 Active CN111708942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010537512.7A CN111708942B (zh) 2020-06-12 2020-06-12 多媒体资源推送方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010537512.7A CN111708942B (zh) 2020-06-12 2020-06-12 多媒体资源推送方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111708942A CN111708942A (zh) 2020-09-25
CN111708942B true CN111708942B (zh) 2023-08-08

Family

ID=72540837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010537512.7A Active CN111708942B (zh) 2020-06-12 2020-06-12 多媒体资源推送方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111708942B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528435A (zh) * 2020-11-23 2022-05-24 北京达佳互联信息技术有限公司 搜索场景下的视频排序方法、装置、电子设备及存储介质
CN113490057B (zh) * 2021-06-30 2023-03-24 海信电子科技(武汉)有限公司 显示设备和媒资推荐方法
CN113377976B (zh) * 2021-08-16 2022-09-09 北京达佳互联信息技术有限公司 资源搜索方法、装置、计算机设备及存储介质
CN114003739A (zh) * 2021-10-29 2022-02-01 北京达佳互联信息技术有限公司 一种多媒体资源的处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262586A (ja) * 2008-06-06 2008-10-30 Internatl Business Mach Corp <Ibm> 検索装置、検索プログラムおよび検索方法
CN102521321A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于检索词歧义性和用户偏好的视频搜索方法
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN105808739A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于Borda算法的搜索结果排序方法
CN110069610A (zh) * 2019-03-16 2019-07-30 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262586A (ja) * 2008-06-06 2008-10-30 Internatl Business Mach Corp <Ibm> 検索装置、検索プログラムおよび検索方法
CN102521321A (zh) * 2011-12-02 2012-06-27 华中科技大学 基于检索词歧义性和用户偏好的视频搜索方法
CN104462060A (zh) * 2014-12-03 2015-03-25 百度在线网络技术(北京)有限公司 通过计算机实现的计算文本相似度和搜索处理方法及装置
CN105808739A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于Borda算法的搜索结果排序方法
CN110069610A (zh) * 2019-03-16 2019-07-30 平安科技(深圳)有限公司 基于Solr的检索方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111708942A (zh) 2020-09-25

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
US11182564B2 (en) Text recommendation method and apparatus, and electronic device
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
US10977447B2 (en) Method and device for identifying a user interest, and computer-readable storage medium
WO2020006835A1 (zh) 智能客服多轮问答方法、设备、存储介质及装置
US6901411B2 (en) Statistical bigram correlation model for image retrieval
EP2438539B1 (en) Co-selected image classification
US8868569B2 (en) Methods for detecting and removing duplicates in video search results
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN108846091B (zh) 资讯推荐方法、装置及设备
US20220300543A1 (en) Method of retrieving query, electronic device and medium
WO2021219117A1 (zh) 图像检索方法、图像检索装置、图像检索系统及图像显示系统
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN110377721B (zh) 自动问答方法、装置、存储介质及电子设备
CN110275986B (zh) 基于协同过滤的视频推荐方法、服务器及计算机存储介质
CN113722484A (zh) 基于深度学习的谣言检测方法、装置、设备及存储介质
CN114564653A (zh) 信息推荐方法、装置、服务器及存储介质
CN108763208B (zh) 话题信息获取方法、装置、服务器和计算机可读存储介质
CN111984867A (zh) 一种网络资源确定方法及装置
CN111611491A (zh) 搜索词推荐方法、装置、设备及可读存储介质
CN111970327A (zh) 一种基于大数据处理的新闻传播方法及系统
CN111612783A (zh) 一种数据质量评估方法及系统
CN112015888B (zh) 摘要信息提取方法和摘要信息提取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant