CN113704507B - 数据处理方法、计算机设备以及可读存储介质 - Google Patents

数据处理方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN113704507B
CN113704507B CN202111249742.4A CN202111249742A CN113704507B CN 113704507 B CN113704507 B CN 113704507B CN 202111249742 A CN202111249742 A CN 202111249742A CN 113704507 B CN113704507 B CN 113704507B
Authority
CN
China
Prior art keywords
text
media
associated multimedia
recall
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111249742.4A
Other languages
English (en)
Other versions
CN113704507A (zh
Inventor
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111249742.4A priority Critical patent/CN113704507B/zh
Publication of CN113704507A publication Critical patent/CN113704507A/zh
Application granted granted Critical
Publication of CN113704507B publication Critical patent/CN113704507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、计算机设备以及可读存储介质,其中方法包括:获取由目标对象所提供的搜索输入文本;在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。本申请实施例可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。采用本申请,可提高用于向目标对象提供的输出建议文本的准确性。

Description

数据处理方法、计算机设备以及可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、计算机设备以及可读存储介质。
背景技术
随着多媒体在生活中应用愈加广泛,多媒体搜索转化率越来越受人重视。
实际应用中,当在搜索框内输入部分搜索语句时,通常会在搜索框的下拉框中显示若干与部分搜索语句相关联的建议搜索语句,通过点击某个建议搜索语句,可以实现更高效的数据搜索,若想提高针对搜索结果的转化率,就得提高所推荐的建议搜索语句的准确性。但目前通常都只会将与部分搜索语句的字符重合度比较高的建议搜索语句优先显示在搜索框的下拉框中,这种方式所得到的建议搜索语句往往不够准确,进而会导致所得到的搜索结果的随机性过高,无法保证搜索结果的转化率。
发明内容
本申请实施例提供一种数据处理方法、计算机设备以及可读存储介质,可以提高用于向目标对象提供的输出建议文本的准确性,从而可以提高搜索结果的转化率。
本申请一方面提供了一种数据处理方法,包括:
获取由目标对象所提供的搜索输入文本;
在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;
根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
进一步地,根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本,包括:
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度;
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;
获取关联多媒体对应的媒体质量;
根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
进一步地,目标对象的对象属性信息包括目标对象的兴趣标签文本;
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度,包括:
从对象兴趣库中获取目标对象的兴趣标签文本,将兴趣标签文本、搜索输入文本和召回候选建议文本输入到文本兴趣度识别模型;
在文本兴趣度识别模型中,生成兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量;
对第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量;
对第一对象表示向量与第三文本表示向量进行注意力交互,得到目标对象针对召回候选建议文本的文本兴趣度。
进一步地,目标对象的对象属性信息包括目标对象的兴趣标签文本;召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于关联多媒体的数量的正整数;
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度,包括:
从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;
将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;
在媒体兴趣度识别模型中,生成兴趣标签文本对应的第四文本表示向量、搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本对应的媒体表示向量;
对第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量;
对第二对象表示向量与媒体表示向量进行注意力交互,得到目标对象针对关联多媒体fi的子兴趣度;
对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
进一步地,召回候选建议文本所映射的关联多媒体的数量为至少两个;
获取关联多媒体对应的媒体质量,包括:
对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;
获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;
根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。
进一步地,至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于关联多媒体的数量的正整数;
获取每两个关联多媒体之间的媒体相似度,包括:
获取关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本;
将关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本输入相似度识别模型;
在相似度识别模型中,生成关联多媒体fi的媒体属性文本对应的媒体表示向量,以及关联多媒体fj的媒体属性文本对应的媒体表示向量;
根据关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,确定关联多媒体fi和关联多媒体fj之间的媒体相似度。
进一步地,召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于召回候选建议文本的数量的正整数;
根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本,包括:
对召回候选建议文本Mk对应的文本兴趣度、媒体兴趣度以及媒体质量进行加权求和,得到召回候选建议文本Mk对应的推荐建议评分;
根据每个召回候选建议文本分别对应的推荐建议评分,对至少两个召回候选建议文本进行排序;
从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向目标对象提供的输出建议文本;S为小于或等于召回候选建议文本的数量的正整数。
进一步地,根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本,包括:
根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;
获取初始候选建议文本与搜索输入文本之间的文本匹配度;
对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;
将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。
本申请一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取由目标对象所提供的搜索输入文本;
第二获取模块,用于在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
召回模块,用于根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;
第三获取模块,用于根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
其中,第三获取模块包括:
文本兴趣获取单元,用于根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度;
媒体兴趣获取单元,用于根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;
媒体质量获取单元,用于获取关联多媒体对应的媒体质量;
输出文本获取单元,用于根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;
文本兴趣获取单元包括:
兴趣标签获取子单元,用于从对象兴趣库中获取目标对象的兴趣标签文本,将兴趣标签文本、搜索输入文本和召回候选建议文本输入到文本兴趣度识别模型;
文本模型识别子单元,用于在文本兴趣度识别模型中,生成兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量;
文本模型识别子单元,还用于对第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量;
文本模型识别子单元,还用于对第一对象表示向量与第三文本表示向量进行注意力交互,得到目标对象针对召回候选建议文本的文本兴趣度。
其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于关联多媒体的数量的正整数;
媒体兴趣获取单元包括:
媒体属性获取子单元,用于从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;
媒体模型识别子单元,用于将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;
媒体模型识别子单元,还用于在媒体兴趣度识别模型中,生成兴趣标签文本对应的第四文本表示向量、搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本对应的媒体表示向量;
媒体模型识别子单元,还用于对第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量;
媒体模型识别子单元,还用于对第二对象表示向量与媒体表示向量进行注意力交互,得到目标对象针对关联多媒体fi的子兴趣度;
媒体模型识别子单元,还用于对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
其中,召回候选建议文本所映射的关联多媒体的数量为至少两个;
媒体质量获取单元包括:
联合归一子单元,用于对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;
相似媒体获取子单元,用于获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;
媒体质量确定子单元,用于根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。
其中,至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于关联多媒体的数量的正整数;
相似媒体获取子单元,具体用于获取关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本,将关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本输入相似度识别模型,在相似度识别模型中,生成关联多媒体fi的媒体属性文本对应的媒体表示向量,以及关联多媒体fj的媒体属性文本对应的媒体表示向量,根据关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,确定关联多媒体fi和关联多媒体fj之间的媒体相似度。
其中,召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于召回候选建议文本的数量的正整数;
输出文本获取单元包括:
推荐评分获取子单元,用于对召回候选建议文本Mk对应的文本兴趣度、媒体兴趣度以及媒体质量进行加权求和,得到召回候选建议文本Mk对应的推荐建议评分;
候选文本排序子单元,用于根据每个召回候选建议文本分别对应的推荐建议评分,对至少两个召回候选建议文本进行排序;
召回文本选择子单元,用于从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向目标对象提供的输出建议文本;S为小于或等于召回候选建议文本的数量的正整数。
其中,召回模块包括:
历史评分获取单元,用于根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;
公共子序列选取单元,用于获取初始候选建议文本与搜索输入文本之间的文本匹配度;
召回评分获取单元,用于对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;
召回文本确定单元,用于将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。
本申请另一方面提供了一种计算机设备,包括:处理器、存储器以及网络接口;
处理器与存储器、网络接口相连,其中,网络接口用于提供数据通信功能,存储器用于存储程序代码,处理器用于调用程序代码,以执行如本申请实施例中一方面中的方法。
本申请另一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序适于由处理器加载并执行如本申请实施例中一方面中的方法。
本申请另一方面提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如本申请实施例中一方面中的方法。
本申请实施例当获取到搜索输入文本时,即可基于候选建议文本库所得到的初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,获取召回候选建议文本,可见召回候选建议文本的选择不仅考虑了初始候选建议文本与搜索输入文本之间的文本匹配度,还考虑历史搜索记录,即可以将历史搜索记录中对转化率更有帮助的初始候选建议文本作为召回候选建议文本。再根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本,由于输出建议文本的选择考虑了目标对象的对象属性信息和召回候选建议文本所映射的关联多媒体,所以输出建议文本以及输出建议文本所映射的关联多媒体均可以与目标对象更加匹配,即可以提高用于向目标对象提供的输出建议文本的准确性,从而可以提高搜索结果的转化率(即针对输出建议文本所映射的关联多媒体的转化率)。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构示意图;
图2是本申请实施例提供的一种用于对象兴趣多媒体搜索的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种数据处理方法的流程示意图;
图5a是本申请实施例提供的一种数据处理方法的流程示意图;
图5b是本申请实施例提供的一种文本兴趣度识别模型的结构示意图;
图6a是本申请实施例提供的一种数据处理方法的流程示意图;
图6b是本申请实施例提供的一种媒体兴趣度识别模型的结构示意图;
图7是本申请实施例提供的一种数据处理方法的流程示意图;
图8a是本申请实施例提供的一种数据处理方法的流程示意图;
图8b是本申请实施例提供的一种多媒体相似度计算模型的结构示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,本申请实施例中的文本处理或图像处理或其他处理过程可以使用AI模型。
请参见图1,是本申请实施例提供的一种网络架构示意图。该网络架构可以包括服务器100和多个终端设备(如图1所示,具体包括终端设备200a、终端设备200b、终端设备200c等)。以终端设备200a为例,终端设备200a可以获取目标对象在多媒体搜索输入框中所输入的搜索输入文本,然后终端设备200a将获取的搜索输入文本发送给服务器100,终端设备200a也可以接收从服务器100发送过来的调用指令或数据文本,服务器100 可以基于终端设备200a发送的搜索输入文本获取与目标对象的兴趣相匹配的输出建议文本,且将输出建议文本返回至终端设备200a,终端设备200a就可以在多媒体搜索输入框的下拉框中显示输出建议文本,以供目标对象点击搜索。服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器100可以通过网络与每个终端设备进行通信,每个终端设备均可以安装多媒体播放应用,服务器100可以为该多媒体播放应用对应的后台服务器,因此,每个终端设备均可以通过该多媒体播放应用对应的客户端与服务器100进行数据传递。终端设备可以包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、POS(Point Of Sales,销售点)机、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电、车载终端等。每个终端设备都可以安装多媒体应用,使用多媒体应用可以进行多媒体搜索以及点击播放等操作。本申请实施例可以应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
请参见图2,图2是本申请实施例提供的一种用于对象兴趣多媒体搜索的场景示意图。在图2中,以终端设备200c为例,终端设备200c上可以显示多媒体搜索界面210、多媒体搜索输入框211与输出建议文本212等多媒体相关信息,目标对象可以通过点击输出建议文本212来获取与输出建议文本212具有映射关系的多媒体集合,然后可以对该多媒体集合中的多媒体进行播放。其中,输出建议文本212可以是由服务器100基于终端设备200c所发送的搜索输入文本所决策筛选出的,其中,搜索输入文本可以为在多媒体搜索输入框211中所输入的内容。
服务器100决策筛选输出建议文本212的过程也可以一并参见图2。在图2中,服务器100可以获取由目标对象在多媒体搜索输入框211中所输入的搜索输入文本;服务器100可以在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;服务器100可以根据所述初始候选建议文本对应的历史搜索记录(例如历史搜索记录可以包括初始候选建议文本被搜索的次数)、以及所述初始候选建议文本与所述搜索输入文本之间的文本匹配度,在所述初始候选建议文本中获取召回候选建议文本,即根据历史搜索记录获取到的被搜索次数越多、文本匹配度越高的初始候选建议文本,被确定为召回候选建议文本的概率越高,即可以初步地从初始候选建议文本中选择出对转化率有帮助的召回候选建议文本。进一步的,服务器100通过对象兴趣库获取目标对象对召回候选建议文本的兴趣度、目标对象对召回候选建议文本所映射的关联多媒体的兴趣度,还可以通过多媒体库获取关联多媒体的媒体质量(媒体质量可以是由关联多媒体之间的多样性以及关联多媒体本身的播放情况所决定),服务器100再基于目标对象对召回候选建议文本的兴趣度、目标对象对候选建议文本所映射的关联多媒体的兴趣度以及关联多媒体的媒体质量,对召回候选建议文本进行排序,从排序完成后的召回候选建议文本中选择若干输出建议文本212,将所选择的输出建议文本212推送至终端设备200c进行展示。由于输出建议文本212以及输出建议文本212所映射的关联多媒体均具备与目标对象兴趣度的高度相关性,且还可以保证输出建议文本212所映射的关联多媒体的媒体质量,所以本申请中的输出建议文本212具有较高的准确性,从而可以提高输出建议文本212所映射的关联多媒体的转化率。
请参见图3,是本申请实施例提供的一种数据处理方法的流程示意图,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中方法可以包括:
S301,获取由目标对象所提供的搜索输入文本;
具体的,目标对象就是搜索输入的主体,例如目标对象可以为用户,也可以为智能机器人,也可以为游戏中的虚拟人物(如该虚拟人物可以在游戏世界中提供搜索输入文本)。搜索输入文本可以是各种语言的文本,如汉语文本、英语文本、法语文本、德语文本、日语文本等。搜索输入文本也可以是各种类型的字符,例如可以是拼音、词语、字母、句子等。搜索输入文本也可以是花卉、人名、地名、工具、影视剧、歌曲、诗词、艺术形式等。例如,由目标对象所提供的搜索输入文本可以是“北京”。其中,以终端设备和服务器交互为例,搜索输入文本可以是目标对象在终端设备的搜索框中所输入的内容,终端设备在搜索框中检测到存在搜索输入文本时,即可以将搜索输入文本发送给服务器。
S302,在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
具体的,候选建议文本库可以包括至少两个候选建议文本。计算机设备可以在候选建议文本库中进行候选建议文本筛选,该筛选过程可以为将与搜索输入文本相关联的候选建议文本确定为初始候选建议文本。其中,候选建议文本与搜索输入文本的相关联关系既可以是候选建议文本与搜索输入文本存在交集关系,也可以是候选建议文本与搜索输入文本有其他关联,如在语义方面,可以通过候选建议文本对应的文本向量与搜索输入文本对应的文本向量之间的向量距离来计算候选建议文本与搜索输入文本的关联度,若候选建议文本对应的文本向量与搜索输入文本对应的文本向量之间的向量距离大于关联阈值,则确定候选建议文本与搜索输入文本有关联。其中,向量距离的计算可以借助闵可夫斯基距离、欧氏距离(Euclidean Distance)、曼哈顿距离(Manhattan Distance)、切比雪夫距离(Chebyshev Distance)、夹角余弦(Cosine)、汉明距离(Hamming Distance)、杰卡德相似系数(Jaccard Similarity Coefficient)等算法。例如,当搜索输入文本为“北京”,且候选建议文本库中的侯选建议文本包括“北京旅游攻略”、“北京小吃合集”、“北京公交路线”、“北京奥运会”、“不到长城非好汉”、“最值得一听的相声”、“与相声相关的喜剧电影”等时,可以将与搜索输入文本相关联的候选建议文本确定为初始候选建议文本,即初始候选建议文本可以包括“北京旅游攻略”、“北京小吃合集”、“北京公交路线”、“北京奥运会”、“不到长城非好汉”,其中,初始候选建议文本“北京旅游攻略”、“北京小吃合集”、“北京公交路线”、“北京奥运会”与搜索输入文本“北京”存在交集关系,初始候选建议文本“不到长城非好汉”与搜索输入文本“北京”之间有语义关联。
需要说明的是,候选建议文本库可以通过多个对象(可以包括目标对象)的搜索记录构建,还可以将多个对象的搜索记录与多媒体平台中的多个多媒体进行整合筛选来构建,即候选建议文本库中的候选建议文本即可以包括由多个对象所输入的历史搜索输入文本,也可以包括多媒体平台中的多个多媒体的媒体属性文本(如多媒体名称、多媒体的类型标签等等)。候选建议文本库中的格式可以是:候选建议文本X、候选建议文本X在搜索输入框(如上述图2的多媒体搜索输入框211)的展示次数、候选建议文本X在搜索输入框(如上述图2的多媒体搜索输入框211)进行展示时被点击次数、候选建议文本X在多媒体平台中的总搜索次数、候选建议文本X所映射的关联多媒体被点击播放次数。
S303,根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;
具体的,计算机设备在获取到初始候选建议文本后,可以进一步从候选建议文本库中获取初始候选建议文本对应的历史搜索记录,历史搜索记录可以包括候选建议文本在搜索输入框的展示次数、候选建议文本在搜索输入框进行展示时被点击次数、候选建议文本在多媒体平台中的总搜索次数、候选建议文本所映射的关联多媒体被点击播放次数。通过对历史搜索记录中的各项参数进行运算分析,可以得到用于初步衡量初始候选建议文本的转化率的历史表现评分。计算机设备还可以进一步分析初始候选建议文本与搜索输入文本之间的文本匹配度,根据历史表现评分以及初始候选建议文本与搜索输入文本之间的文本匹配度,可以在初始候选建议文本中获取召回候选建议文本。历史搜索记录中的各项参数越大、文本匹配度越高的初始候选建议文本,被确定为召回候选建议文本的概率越高。
S304,根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本;
具体的,计算机设备通过对召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息进行分析,可以得到目标对象对召回候选建议文本的兴趣度、目标对象对召回候选建议文本所映射的关联多媒体的兴趣度,以及关联多媒体的媒体质量。根据目标对象对召回候选建议文本的兴趣度、目标对象对召回候选建议文本所映射的关联多媒体的兴趣度,以及关联多媒体的媒体质量,可以在召回候选建议文本中获取用于向目标对象提供的输出建议文本。由于输出建议文本以及输出建议文本所映射的关联多媒体均具备与目标对象兴趣度的高度相关性,且还可以保证输出建议文本所映射的关联多媒体的媒体质量,所以本申请中的输出建议文本具有较高的准确性,从而可以提高输出建议文本所映射的关联多媒体的转化率。
本申请实施例当获取到搜索输入文本时,即可基于候选建议文本库所得到的初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,获取召回候选建议文本,可见召回候选建议文本的选择不仅考虑了初始候选建议文本与搜索输入文本之间的文本匹配度,还考虑历史搜索记录,即可以将历史搜索记录中对转化率更有帮助的初始候选建议文本作为召回候选建议文本。再根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本,由于输出建议文本的选择考虑了目标对象的对象属性信息和召回候选建议文本所映射的关联多媒体,所以输出建议文本以及输出建议文本所映射的关联多媒体均可以与目标对象更加匹配,即可以提高用于向目标对象提供的输出建议文本的准确性,从而可以提高搜索结果的转化率(即针对输出建议文本所映射的关联多媒体的转化率)。
请参见图4,是本申请实施例提供的一种数据处理方法的流程示意图,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中方法可以包括:
S401,获取由目标对象所提供的搜索输入文本;在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
本步骤的具体过程可以参见上述图3所对应实施例中的S301- S302,这里不再进行赘述。
S402,根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;
具体的,计算机设备在获取到初始候选建议文本后,可以进一步从候选建议文本库中获取初始候选建议文本对应的历史搜索记录,历史搜索记录可以包括候选建议文本在搜索输入框的展示次数、候选建议文本在搜索输入框进行展示时被点击次数、候选建议文本在多媒体平台中的总搜索次数、候选建议文本所映射的关联多媒体被点击播放次数。计算机设备可以根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分。例如,初始候选建议文本在搜索输入框的展示次数可以是A1,初始候选建议文本在搜索输入框进行展示时被点击次数可以是A2,初始候选建议文本在多媒体平台的总搜索次数可以是A3,初始候选建议文本所映射的关联多媒体被点击播放次数可以是A4,则初始候选建议文本对应的初始历史表现评分B1= sqrt(A3)*(A2/A1)*(A4/A2)。计算机设备再对初始候选建议文本对应的初始历史表现评分B1进行概率归一化,得到历史表现评分B2。其中,初始候选建议文本的数量可以为k,k个初始候选建议文本的初始历史表现评分的加权平均值可以是A5,则概率归一化后所得到的历史表现评分B2可以为:
B2= B1/A5。
S403,获取初始候选建议文本与搜索输入文本之间的文本匹配度;
具体的,计算机设备可以获取初始候选建议文本与搜索输入文本之间的文本匹配度,既可以通过将初始候选建议文本与搜索输入文本之间进行比对后,进行相同公共子序列选取,得到最大公共子序列长度,进而基于最大公共子序列长度确定初始候选建议文本与搜索输入文本之间的文本匹配度;也可以通过初始候选建议文本对应的文本向量与搜索输入文本对应的文本向量之间的向量距离来计算初始候选建议文本与搜索输入文本的文本匹配度。需要说明的是,向量距离的计算可以借助闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、夹角余弦、汉明距离、杰卡德相似系数等算法。其中,若通过最大公共子序列长度方式获取文本匹配度时,初始候选建议文本与搜索输入文本的最大公共子序列长度可以是A5,对象搜索输入文本长度可以是A6,初始候选建议文本长度可以是A7,则初始候选建议文本与搜索输入文本之间的文本匹配度B3= A5/ (A6和A7中的较大者),若通过向量距离中夹角余弦(Cosine)方式获取文本匹配度时,对象搜索输入文本向量可以是E1,初始候选建议文本向量可以是E2,则初始候选建议文本与搜索输入文本之间的文本匹配度B3=cosθ(E1*E2)/(|E1|*|E2|)。例如,搜索输入文本可以是“北京雪景”,初始候选建议文本可以是“北京奥运会”,则对象搜索输入文本长度A6为4,初始候选建议文本长度A7为5,且初始候选建议文本与搜索输入文本的最大公共子序列为“北京”,初始候选建议文本与搜索输入文本的最大公共子序列长度A5为2,由于A7大于A6,所以初始候选建议文本与搜索输入文本之间的文本匹配度B3= A5/ A7,即B3为2/5。或者,搜索输入文本向量E1为“北京雪景”根据余弦词汇分数对照表转化的分数H1,初始候选建议文本向量E2为“北京奥运会”根据余弦词汇分数对照表转化的分数H2,其中,余弦词汇分数对照表为余弦距离向量运算中词汇与词汇对应分数之间的转化对照表格,则初始候选建议文本与搜索输入文本之间的文本匹配度B3=cosθ(H1*H2)/(|H1|*|H2|)。
S404,对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;
具体的,计算机设备将历史表现评分B2与文本匹配度B3进行相乘后,即可得到针对初始候选建议文本的召回评分。其中,针对初始候选建议文本的召回评分可以是g_recall [i],i是指多个初始候选建议文本中的第i个初始候选建议文本,且i为小于或等于初始候选建议文本的数量的正整数,则针对第i个初始候选建议文本的召回评分g_recall[i]=B2*B3。
S405,将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。
具体的,计算机设备可以将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。召回候选建议文本至多保留F个,其中,召回评分阈值和F均可由目标对象自行设置,例如,若F设置为50,则只保留50个召回候选建议文本。
S406,根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度;
具体的,对象属性信息可以为目标对应的兴趣标签文本,例如,兴趣标签文本可以包括如文艺、国内、国外、军事、财经、娱乐、体育、科技、游戏这类粗粒度标签,也可以包括篮球、足球、乒乓球这类细粒度标签。通过兴趣标签文本可以得知目标对象的兴趣类型,所以计算机设备通过分析兴趣标签文本与召回候选建议文本之间的语义关联性,即可得到目标对象针对召回候选建议文本的文本兴趣度。
S407,根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;
具体的,计算机设备可以进一步通过多媒体平台的多媒体库获取召回候选建议文本所映射的关联多媒体,进而获取关联多媒体的媒体属性文本,例如,若关联多媒体为视频,则媒体属性文本可以为该视频的视频名称或视频类型标签等等。通过兴趣标签文本可以得知目标对象的兴趣类型,通过媒体属性文本可以得知关联多媒体的内容类型,所以计算机设备通过分析兴趣标签文本与媒体属性文本之间的语义关联性,即可得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
S408,获取关联多媒体对应的媒体质量;
具体的,计算机设备在获取到召回候选建议文本所映射的关联多媒体后,可以分析关联多媒体之间的多样性程度(关联多媒体的数量可以为至少两个),还可以分析每个关联多媒体的历史播放情况,通过多样性程度和历史播放情况来确定召回候选建议文本所映射的关联多媒体的媒体质量。多样性程度越高,表明至少两个关联多媒体之间的内容差异越大,所以多样性程度越高、历史播放情况越好,则所生成的媒体质量也将越高,所以在筛选媒体质量更高的召回候选建议文本作为输出建议文本时,可以更好地减少推送给目标对象的关联多媒体过于单一的情况发生,也可以更好的保证推送给目标对象的关联多媒体的转化率。
S409,根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
具体的,召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于召回候选建议文本的数量的正整数。计算机设备可以对召回候选建议文本Mk对应的文本兴趣度、媒体兴趣度以及媒体质量进行加权求和,得到召回候选建议文本Mk对应的推荐建议评分;根据每个召回候选建议文本分别对应的推荐建议评分,对至少两个召回候选建议文本进行排序;从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向目标对象提供的输出建议文本;S为小于或等于召回候选建议文本的数量的正整数。
需要说明的是,构建第i个召回候选建议文本的推荐建议评分g_cand[i] = x0 *g_recall[i] + x1 * g_cint[i] + x2 * g_vint[i] + x3 * g_cqua[i],其中i是指多个召回候选建议文本中的第i个召回候选建议文本,且i为小于或等于召回候选建议文本的数量的正整数,x0、x1、x2、x3为权重, x0 + x1 + x2 + x3 = 1.0,g_recall [i]可以是针对初始候选建议文本的召回评分,g_cint[i]可以是目标对象针对召回候选建议文本的文本兴趣度,g_vint[i]可以是目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度,g_cqua[i]可以是至少两个关联多媒体对应的媒体质量,依据推荐建议评分对多个召回候选建议文本进行排序,且可以从排序后的多个召回候选建议文本中选择N个推荐建议评分大于评分阈值的召回候选建议文本,作为输出建议文本,将N个输出建议文本返回给目标对象选取使用。
本申请实施例通过历史表现评分与文本匹配度计算针对初始候选建议文本的召回评分,进而确定召回候选建议文本,再根据目标对象的对象属性信息获取文本兴趣度、媒体兴趣度以及媒体质量,进行搜索范围内文本匹配度筛选,提升了搜索范围内文本匹配度筛选的精确度,而且进一步通过目标对象的对象属性信息获取文本兴趣度、媒体兴趣度以及媒体质量的这些考量因素,充分挖掘了目标对象对召回候选建议文本与对应的关联多媒体的兴趣,同时增强了对关联多媒体的质量识别,可大幅提高目标对象对召回候选建议文本的点击选择使用情况,以及对关联多媒体的播放观看情况,提升召回候选建议文本的存在价值,进而拉动多媒体平台的整体效果指标,可以有效提高输出建议文本的准确性,进而提高多媒体搜索的相关性,节省了多媒体搜索的耗时,从而也可以提高搜索结果的转化率(即针对输出建议文本所映射的关联多媒体的转化率)。
请参见图5a,是本申请实施例提供的一种数据处理方法的流程示意图。图5a所描述的方法流程为上述图4对应实施例中步骤S406的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;
图5a中的方法流程可以包括如下步骤:
S501,从对象兴趣库中获取目标对象的兴趣标签文本,将兴趣标签文本、搜索输入文本和召回候选建议文本输入到文本兴趣度识别模型;
具体的,计算机设备可以从对象兴趣库中获取目标对象的兴趣标签文本,将兴趣标签文本、搜索输入文本和召回候选建议文本输入到已经训练好的文本兴趣度识别模型。对象兴趣库可以是预先设置好的包含多个对象的对象画像的数据库。
其中,已经训练好的文本兴趣度识别模型可以通过对初始文本兴趣度识别模型进行训练得到,从历史触发库中,获取推荐至历史对象的历史输出建议文本集合,在所述历史输出建议文本集合中获取由所述历史对象所触发的历史输出建议文本,将由所述历史对象所触发的历史输出建议文本确定为正样本文本,为所述正样本文本设置正向兴趣标签;例如,搜索输入内容为“北京”,则“北京奥运会”、“北京交通信息”等可以为正样本文本;在所述历史输出建议文本集合中获取所述历史对象未触发的历史输出建议文本,将所述历史对象未触发的历史输出建议文本确定为负样本文本,为所述负样本文本设置负向兴趣标签;例如,搜索输入内容为“北京”,则“最值得听的相声”、“与相声相关的喜剧电影”等不包含“北京”的文本等可以为负样本文本;通过正样本文本和历史对象的对象属性信息可以得到第一预测结果,第一预测结果与正向兴趣标签之间的比对可以生成正样本损失值;同理通过负样本文本和历史对象的对象属性信息可以得到第二预测结果,第二预测结果与负向兴趣标签之间的比对可以生成负样本损失值,正样本损失值与负样本损失值可以对初始文本兴趣度识别模型的模型参数进行调整,将调整后收敛的初始文本兴趣度识别模型确定为文本兴趣度识别模型。
S502,在文本兴趣度识别模型中,生成兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量;
具体的,请一并参见图5b,是本申请实施例提供的一种文本兴趣度识别模型的结构示意图。在图5b中,借助文本兴趣度识别模型可以将兴趣标签文本、搜索输入文本、召回候选建议文本进行特征提取,以生成对应的向量,得到兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量。其中,媒体兴趣度识别模型可以是隐马尔可夫模型(Hidden Markov Model,Hmm)、最大熵模型(The Maximum Entropy Principle,Maxent)和条件随机场模型(ConditionalRandom Field,Crf)。
S503,对第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量;
具体的,如图5b所示,可以在文本兴趣度识别模型中将第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量,其融合的方式可以是第一文本表示向量和第二文本表示向量的拼接,也可以是将第一文本表示向量和第二文本表示向量中相同维度上的数值进行融合。
S504,对第一对象表示向量与第三文本表示向量进行注意力交互,得到目标对象针对召回候选建议文本的文本兴趣度。
具体的,如图5b所示,文本兴趣度识别模型可以求取第一对象表示向量与第三文本表示向量之间的注意力转化率来进行注意力交互,注意力转化率可通过对需求强度、兴趣浓度、时间长度、可视项数量进行融合权值运算获取,通过注意力交互可以得到目标对象针对召回候选建议文本的文本兴趣度,即通过文本兴趣度识别模型可以输出目标对象针对召回候选建议文本的文本兴趣度g_cint[i] ,其中,i是指多个召回候选建议文本中的第i个召回候选建议文本,且i为小于或等于召回候选建议文本的数量的正整数。
本实施例通过获取对象对候选建议文本的兴趣度,增加了对象亲密感,提升了对象对多媒体平台的粘性程度,可以更快速地搜索出对象想要的关联多媒体,通过文本兴趣度识别模型的识别,可以更准确得到搜索输入文本与召回候选建议文本之间的文本兴趣度,可以提高用于向目标对象提供的输出建议文本的准确性,可以提高针对输出建议文本的搜索结果的转化率。
请参见图6a,是本申请实施例提供的一种数据处理方法的流程示意图。图6a所描述的方法流程为上述图4对应实施例中步骤S407的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于关联多媒体的数量的正整数;
图6a中的方法流程可以包括如下步骤:
S601,从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;
具体的,媒体属性文本可以是媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本等。媒体类型可以为国内、国外、军事、财经、娱乐、体育、科技、游戏等种类。媒体标签可以为对媒体的特殊标注。媒体标题可以是媒体的原始标题,若媒体没有原始标题,则标题也可以是对媒体进行摘要概括后得到的内容。媒体描述可以是与媒体标签类似的内容,也可以是区别于媒体标签的其他描述。媒体音频或媒体字幕转化的文本可以借助光学字符识别和自动语音识别技术来获取。对象兴趣库可以参见图5a对应实施例中的步骤S501的详细描述。计算机设备可以从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本。
S602,将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;
具体的,计算机设备可以将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本均可以输入到已经训练好的媒体兴趣度识别模型。
其中,已经训练好的媒体兴趣度识别模型可以通过对初始媒体兴趣度识别模型进行训练得到,从历史触发库中,获取推荐至历史对象的针对历史输出建议文本的历史播放多媒体集合,在历史播放多媒体集合中获取由历史对象所触发的历史播放多媒体,将由历史对象所触发的历史播放多媒体确定为正样本多媒体,为正样本多媒体设置正向多媒体标签;在历史播放多媒体集合中获取历史对象未触发的历史播放多媒体,将历史对象未触发的历史播放多媒体确定为负样本多媒体,为负样本多媒体设置负向多媒体标签;通过正样本多媒体和历史对象的对象属性信息、历史对象的历史搜索输入文本可以得到第三预测结果,第三预测结果与正向多媒体标签之间的比对可以生成正样本损失值;同理通过负样本多媒体和历史对象的对象属性信息、历史对象的历史搜索输入文本可以得到第四预测结果,第四预测结果与负向多媒体标签之间的比对可以生成负样本损失值,正样本损失值与负样本损失值可以对初始媒体兴趣度识别模型的模型参数进行调整,将调整后收敛的初始媒体兴趣度识别模型确定为媒体兴趣度识别模型。
S603,在媒体兴趣度识别模型中,生成兴趣标签文本对应的第四文本表示向量、搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本对应的媒体表示向量;
具体的,在媒体兴趣度识别模型中,兴趣标签文本借助媒体兴趣度识别模型可以生成兴趣标签文本对应的第四文本表示向量、搜索输入文本借助媒体兴趣度识别模型可以生成搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本借助媒体兴趣度识别模型可以生成关联多媒体fi的媒体属性文本对应的媒体表示向量。
S604,对第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量;
具体的,如图6b所示,可以在媒体兴趣度识别模型中将第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量,其融合的方式可以是第四文本表示向量和第五文本表示向量的拼接,也可以是将第四文本表示向量和第五文本表示向量中相同维度上的数值进行融合,需要说明的是,第四文本表示向量与图5a中的步骤S503中的第一文本表示向量可以是一样的,第五文本表示向量与图5a中的步骤S503中的第二文本表示向量也可以是一样的。
S605,对第二对象表示向量与媒体表示向量进行注意力交互,得到目标对象针对关联多媒体fi的子兴趣度;
具体的,如图6b所示,媒体兴趣度识别模型可以求取第二对象表示向量与媒体表示向量之间的注意力转化率来进行注意力交互,注意力转化率可通过对需求强度、兴趣浓度、时间长度、可视项数量进行融合权值运算获取,通过注意力交互可以得到目标对象针对关联多媒体fi的子兴趣度。
S606,对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
具体的,在图6b中,可以进一步对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度,目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度可以是g_vint[i],其中,i是指多个召回候选建议文本中的第i个召回候选建议文本,且i为小于或等于召回候选建议文本的数量的正整数。
本申请实施例通过媒体兴趣度识别模型获取了对象对针对召回候选建议文本所映射的关联多媒体的媒体兴趣度,根据对象对关联多媒体的媒体兴趣度可以在多媒体搜索过程中将对象媒体兴趣度低的关联多媒体进行剔除,留下对象媒体兴趣度高的关联多媒体,从而增强了对象搜索到的关联多媒体的质量,更充分挖掘了对象对不同召回候选建议文本的青睐程度,通过筛选对象青睐程度更高的召回候选建议文本,大幅提高了对象对青睐程度更高的召回候选建议文本对应的输出建议文本的点击选择使用情况,以及提高对关联多媒体进行播放观看的概率,提升了多媒体搜索输入建议功能的产品价值,进而拉动了多媒体平台的整体效果指标,通过媒体兴趣度识别模型的识别,可以更准确得到搜索输入文本与关联多媒体之间的媒体兴趣度,由此可以提高用于向目标对象提供的输出建议文本的准确性,从而可以提高搜索结果的转化率(即针对输出建议文本所映射的关联多媒体的转化率)。
请参见图7,是本申请实施例提供的一种数据处理方法的流程示意图。图7所描述的方法流程为上述图4对应实施例中步骤S408的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,召回候选建议文本所映射的关联多媒体的数量为至少两个;
图7中的方法流程可以包括如下步骤:
S701,对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;
具体的,计算机设备可以对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,其中,联合归一运算可以借助归一化因子G,得到至少两个关联多媒体对应的整体效果质量评分g_vqua[i],其中,i是指多个召回候选建议文本中的第i个召回候选建议文本,且i为小于或等于召回候选建议文本的数量的正整数。假设第i个召回候选建议文本所映射的多个关联多媒体包括关联多媒体X1和关联多媒体X2,关联多媒体X1的整体播放次数可以是C1, 关联多媒体X1的完播率可以是C2,关联多媒体X2的整体播放次数可以是C3, 关联多媒体X2的完播率可以是C4,则多个关联多媒体对应的整体效果质量评分g_vqua[i]= (C1* C2+ C3* C4)/2G。
S702,获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;
具体的,计算机设备还可以获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分,第i个召回候选建议文本对应的关联多媒体可以有V个视频,V个视频内任意两个视频的相似度之和可以是D,则至少两个关联多媒体对应的多样性评分g_vmul[i] = 1-D / sqrt(V)。
S703,根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。
具体的,计算机设备可以根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量,至少两个关联多媒体对应的媒体质量g_cqua[i] = 至少两个关联多媒体对应的整体效果质量评分g_vqua[i] * 至少两个关联多媒体对应的多样性评分g_vmul[i]。
本申请实施例通过对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。增加了关联多媒体的多样性和关联多媒体的播放情况分析,根据整体效果质量评分和多样性评分可以筛选留下整体效果质量评分和多样性评分更高的关联多媒体,从而增强了对关联多媒体的质量识别,通过搜索得到的高质量的关联多媒体可以大幅提高对象对多媒体搜索候选建议文本的点击选择使用情况,以及提高对关联多媒体进行播放观看的概率,可以提高输出建议文本的准确性,进而提升目标对象的多媒体搜索输入效率。
请参见图8a,是本申请实施例提供的一种数据处理方法的流程示意图。图8a所描述的方法流程为上述图7对应实施例中步骤S702的具体实现过程,方法可以由计算机设备执行,计算机设备可以为终端设备或服务器,其中,至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于关联多媒体的数量的正整数;
图8a中的方法流程可以包括如下步骤:
S801,获取关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本;
具体的,媒体属性文本的相关介绍可以参见上述图6a所对应实施例中的S602,这里不再进行赘述。获取关联多媒体fi的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本等,以及关联多媒体fj的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本等。
S802,将关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本输入相似度识别模型;
具体的,将关联多媒体fi的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本,以及关联多媒体fj的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本输入相似度识别模型。
S803,在相似度识别模型中,生成关联多媒体fi的媒体属性文本对应的媒体表示向量,以及关联多媒体fj的媒体属性文本对应的媒体表示向量;
具体的,请一并参见图8b,是本申请实施例提供的一种多媒体相似度计算模型的结构示意图。如图8b所示,可以在相似度识别模型中,生成关联多媒体fi的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本分别对应的文本向量,这些文本向量可以融合为针对关联多媒体fi的媒体表示向量;还可以生成关联多媒体fj的媒体类型、媒体标签、媒体标题、媒体描述、媒体音频或媒体字幕转化的文本分别对应的文本向量,这些文本向量可以融合为针对关联多媒体fj的媒体表示向量。
S804,根据关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,确定关联多媒体fi和关联多媒体fj之间的媒体相似度。
具体的,如图8b所示,在相似度识别模型中,可以计算关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,如可以计算它们之间的欧式距离,将向量距离转换为百分比,将该百分比确定为关联多媒体fi和关联多媒体fj之间的媒体相似度。
本申请实施例在多媒体搜索过程中引入了关联多媒体之间的媒体相似度,借助关联多媒体之间的媒体相似度,减少重复内容的关联多媒体的存在,增加了关联多媒体的多样性,增强了对关联多媒体的质量识别,可以大幅提高对象对多媒体搜索候选建议文本的点击选择使用情况,以及提高对关联多媒体进行播放观看的概率,可以提高输出建议文本的准确性,进而提升目标对象的多媒体搜索输入效率。
请参见图9,是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,该数据处理装置1可以应用于上述图1对应实施例中的任意一个计算机设备,该数据处理装置1可以包括:第一获取模块11、第二获取模块12、召回模块13、第三获取模块14;
第一获取模块11,用于获取由目标对象所提供的搜索输入文本;
上述第一获取模块11的具体实施方式可以参见上述图3实施例中的步骤S301,这里不再进行赘述。
第二获取模块12,用于在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
上述第二获取模块12的具体实施方式可以参见上述图3实施例中的步骤S302,这里不再进行赘述。
召回模块13,用于根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;
上述召回模块13的具体实施方式可以参见上述图3实施例中的步骤S303,这里不再进行赘述。
第三获取模块14,用于根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
上述第三获取模块14的具体实施方式可以参见上述图3实施例中的步骤S304,这里不再进行赘述。
其中,第三获取模块14包括:
文本兴趣获取单元141,用于根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度;
上述文本兴趣获取单元141的具体实施方式可以参见上述图4实施例中的步骤S406,这里不再进行赘述。
媒体兴趣获取单元142,用于根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;
上述媒体兴趣获取单元142的具体实施方式可以参见上述图4实施例中的步骤S407,这里不再进行赘述。
媒体质量获取单元143,用于获取关联多媒体对应的媒体质量;
上述媒体质量获取单元143的具体实施方式可以参见上述图4实施例中的步骤S408,这里不再进行赘述。
输出文本获取单元144,用于根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
其中,输出文本获取单元144的具体实施方式可以参见上述图4实施例中的步骤S409,这里不再进行赘述。
其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;
文本兴趣获取单元141包括:
兴趣标签获取子单元1411,用于从对象兴趣库中获取目标对象的兴趣标签文本,将兴趣标签文本、搜索输入文本和召回候选建议文本输入到文本兴趣度识别模型;
上述兴趣标签获取子单元1411的具体实施方式可以参见上述图5a实施例中的步骤S501,这里不再进行赘述。
文本模型识别子单元1412,用于在文本兴趣度识别模型中,生成兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量;
上述文本模型识别子单元1412的具体实施方式可以参见上述图5a实施例中的步骤S502,这里不再进行赘述。
文本模型识别子单元1412,还用于对第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量;
上述文本模型识别子单元1412的具体实施方式可以参见上述图5a例中的步骤S503,这里不再进行赘述。
文本模型识别子单元1412,还用于对第一对象表示向量与第三文本表示向量进行注意力交互,得到目标对象针对召回候选建议文本的文本兴趣度。
文本模型识别子单元1412的具体实施方式可以参见上述图5a实施例中的步骤S504,这里不再进行赘述。
其中,目标对象的对象属性信息包括目标对象的兴趣标签文本;召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于关联多媒体的数量的正整数;
媒体兴趣获取单元142包括:
媒体属性获取子单元1421,用于从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;
上述媒体属性获取子单元1421的具体实施方式可以参见上述图6a实施例中的步骤S601,这里不再进行赘述。
媒体模型识别子单元1422,用于将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;
上述媒体模型识别子单元1422的具体实施方式可以参见上述图6a实施例中的步骤S602,这里不再进行赘述。
媒体模型识别子单元1422,还用于在媒体兴趣度识别模型中,生成兴趣标签文本对应的第四文本表示向量、搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本对应的媒体表示向量;
上述媒体模型识别子单元1422的具体实施方式可以参见上述图6a实施例中的步骤S603,这里不再进行赘述。
媒体模型识别子单元1422,还用于对第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量;
媒体模型识别子单元1422的具体实施方式可以参见上述图6a实施例中的步骤S604,这里不再进行赘述。
媒体模型识别子单元1422,还用于对第二对象表示向量与媒体表示向量进行注意力交互,得到目标对象针对关联多媒体fi的子兴趣度;
上述媒体模型识别子单元1422的具体实施方式可以参见上述图6a实施例中的步骤S605,这里不再进行赘述。
媒体模型识别子单元1422,用于对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
上述媒体模型识别子单元1422的具体实施方式可以参见上述图6a实施例中的步骤S606,这里不再进行赘述。
其中,召回候选建议文本所映射的关联多媒体的数量为至少两个;
媒体质量获取单元143包括:
联合归一子单元1431,用于对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;
上述联合归一子单元1431的具体实施方式可以参见上述图7实施例中的步骤S701,这里不再进行赘述。
相似媒体获取子单元1432,用于获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;
上述相似媒体获取子单元1432的具体实施方式可以参见上述图7实施例中的步骤S702,这里不再进行赘述。
媒体质量确定子单元1433,用于根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。
上述媒体质量确定子单元1433的具体实施方式可以参见上述图7实施例中的步骤S703,这里不再进行赘述。
其中,至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于关联多媒体的数量的正整数;
相似媒体获取子单元1432,具体用于获取关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本;
上述相似媒体获取子单元1432的具体实施方式可以参见上述图8a实施例中的步骤S801,这里不再进行赘述。
相似媒体获取子单元1432,具体用于将关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本输入相似度识别模型;
上述相似媒体获取子单元1432的具体实施方式可以参见上述图8a实施例中的步骤S802,这里不再进行赘述。
相似媒体获取子单元1432,具体用于在相似度识别模型中,生成关联多媒体fi的媒体属性文本对应的媒体表示向量,以及关联多媒体fj的媒体属性文本对应的媒体表示向量;
上述相似媒体获取子单元1432的具体实施方式可以参见上述图8a实施例中的步骤S803,这里不再进行赘述。
相似媒体获取子单元1432,具体用于根据关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,确定关联多媒体fi和关联多媒体fj之间的媒体相似度。
上述相似媒体获取子单元1432的具体实施方式可以参见上述图8a实施例中的步骤S804,这里不再进行赘述。
其中,召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于召回候选建议文本的数量的正整数;
输出文本获取单元144包括:
推荐评分获取子单元1441,用于对召回候选建议文本Mk对应的文本兴趣度、媒体兴趣度以及媒体质量进行加权求和,得到召回候选建议文本Mk对应的推荐建议评分;
候选文本排序子单元1442,用于根据每个召回候选建议文本分别对应的推荐建议评分,对至少两个召回候选建议文本进行排序;
召回文本选择子单元1443,用于从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向目标对象提供的输出建议文本;S为小于或等于召回候选建议文本的数量的正整数。
其中,推荐评分获取子单元1441、候选文本排序子单元1442及召回文本选择子单元1443的具体实施方式可以一并参见上述图4实施例中的步骤S408,这里不再进行赘述。
其中,召回模块13包括:
历史评分获取单元131,用于根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;
上述历史评分获取单元131的具体实施方式可以参见上述图4实施例中的步骤S402,这里不再进行赘述。
公共子序列选取单元132,用于获取初始候选建议文本与搜索输入文本之间的文本匹配度;
上述公共子序列选取单元132的具体实施方式可以参见上述图4实施例中的步骤S403,这里不再进行赘述。
召回评分获取单元133,用于对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;
上述召回评分获取单元133的具体实施方式可以参见上述图4实施例中的步骤S404,这里不再进行赘述。
召回文本确定单元134,用于将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。
上述召回文本确定单元的具体实施方式可以参见上述图4实施例中的步骤S405,这里不再进行赘述。
本申请实施例通过获取由目标对象所提供的搜索输入文本;在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;获取初始候选建议文本与搜索输入文本之间的文本匹配度;对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度及目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;获取关联多媒体对应的媒体质量;根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。本申请通过增加了对象对多媒体搜索输入候选建议文本的兴趣度、对搜索关联多媒体的兴趣度的分析,以及强化了搜索关联多媒体质量,增强了对关联多媒体的质量识别,提高了对象对召回候选建议文本的点击使用率,降低了对象针对搜索输入文本的输入代价,提升了对象的搜索输入效率,同时高质量的搜索关联多媒体,提升了对象对关联多媒体的播放转化率,进而带动多媒体平台的整体播放指标。可以提升目标对象的多媒体搜索输入效率。
请参见图10,是本申请实施例提供的又一种计算机设备的结构示意图。如图10示,该计算机设备可以应用于上述图1对应实施例中的计算机设备。计算机设备1000包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能,以用于与服务器进行通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
处理器1001获取由目标对象所提供的搜索输入文本;在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
在一个实施例中,处理器1001在将根据召回候选建议文本、召回候选建议文本所映射的关联多媒体以及目标对象的对象属性信息,在召回候选建议文本中获取用于向目标对象提供的输出建议文本时,具体执行以下步骤:
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度;根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;获取关联多媒体对应的媒体质量;根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。
在一个实施例中,处理器1001在将目标对象的对象属性信息包括目标对象的兴趣标签文本;
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度时,执行以下步骤:
在文本兴趣度识别模型中,生成兴趣标签文本对应的第一文本表示向量、搜索输入文本对应的第二文本表示向量、以及召回候选建议文本对应的第三文本表示向量;对第一文本表示向量和第二文本表示向量进行融合,得到第一对象表示向量;对第一对象表示向量与第三文本表示向量进行注意力交互,得到目标对象针对召回候选建议文本的文本兴趣度。
在一个实施例中,处理器1001在将目标对象的对象属性信息包括目标对象的兴趣标签文本;召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于关联多媒体的数量的正整数;
根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度时,具体执行以下步骤:
从对象兴趣库中获取目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;将兴趣标签文本、搜索输入文本和关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;在媒体兴趣度识别模型中,生成兴趣标签文本对应的第四文本表示向量、搜索输入文本对应的第五文本表示向量、以及关联多媒体fi的媒体属性文本对应的媒体表示向量;对第四文本表示向量和第五文本表示向量进行融合,得到第二对象表示向量;对第二对象表示向量与媒体表示向量进行注意力交互,得到目标对象针对关联多媒体fi的子兴趣度;对目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度。
在一个实施例中,处理器1001在将召回候选建议文本所映射的关联多媒体的数量为至少两个;
获取关联多媒体对应的媒体质量时,还执行以下步骤:
对至少两个关联多媒体的播放次数以及至少两个关联多媒体的完整播放率进行联合归一运算,得到至少两个关联多媒体对应的整体效果质量评分;获取每两个关联多媒体之间的媒体相似度,根据媒体相似度以及至少两个关联多媒体的数量,确定至少两个关联多媒体对应的多样性评分;根据整体效果质量评分和多样性评分,确定至少两个关联多媒体对应的媒体质量。
在一个实施例中,处理器1001在将至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于关联多媒体的数量的正整数;
获取每两个关联多媒体之间的媒体相似度时,还执行以下步骤:
获取关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本;将关联多媒体fi的媒体属性文本,以及关联多媒体fj的媒体属性文本输入相似度识别模型;在相似度识别模型中,生成关联多媒体fi的媒体属性文本对应的媒体表示向量,以及关联多媒体fj的媒体属性文本对应的媒体表示向量;根据关联多媒体fi对应的媒体表示向量,与关联多媒体fj对应的媒体表示向量之间的向量距离,确定关联多媒体fi和关联多媒体fj之间的媒体相似度。
在一个实施例中,处理器1001在将召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于召回候选建议文本的数量的正整数;
根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本时,还执行以下步骤:
对召回候选建议文本Mk对应的文本兴趣度、媒体兴趣度以及媒体质量进行加权求和,得到召回候选建议文本Mk对应的推荐建议评分;根据每个召回候选建议文本分别对应的推荐建议评分,对至少两个召回候选建议文本进行排序;从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向目标对象提供的输出建议文本;S为小于或等于召回候选建议文本的数量的正整数。
在一个实施例中,处理器1001在将根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本时,还执行以下步骤:
根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;获取初始候选建议文本与搜索输入文本之间的文本匹配度;对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。
本申请实施例通过获取由目标对象所提供的搜索输入文本;在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;根据初始候选建议文本对应的历史搜索记录获取初始候选建议文本对应的历史表现评分;获取初始候选建议文本与搜索输入文本之间的文本匹配度;对历史表现评分与文本匹配度进行运算,得到针对初始候选建议文本的召回评分;将召回评分大于召回评分阈值的初始候选建议文本确定为召回候选建议文本。根据目标对象的对象属性信息,获取目标对象针对召回候选建议文本的文本兴趣度及目标对象针对召回候选建议文本所映射的关联多媒体的媒体兴趣度;获取关联多媒体对应的媒体质量;根据文本兴趣度、媒体兴趣度以及媒体质量,在召回候选建议文本中获取用于向目标对象提供的输出建议文本。本申请通过增加了对象对多媒体搜索输入候选建议文本的兴趣度、对搜索关联多媒体的兴趣度的分析,以及强化了搜索关联多媒体质量,增强了对关联多媒体的质量识别,提高了对象对召回候选建议文本的点击使用率,降低了对象针对搜索输入文本的输入代价,提升了对象的搜索输入效率,同时高质量的搜索关联多媒体,提升了对象对关联多媒体的播放转化率,进而带动多媒体平台的整体播放指标。可以提升目标对象的多媒体搜索输入效率。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图3、图4、图5a、图6a、图7、图8a中任一个所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的计算机设备所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2、图3、图4、图5a、图6a、图7、图8a任一个所对应实施例中对数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (8)

1.一种数据处理方法,其特征在于,包括:
获取由目标对象所提供的搜索输入文本;
在候选建议文本库中获取与所述搜索输入文本相关联的初始候选建议文本;
根据所述初始候选建议文本对应的历史搜索记录、以及所述初始候选建议文本与所述搜索输入文本之间的文本匹配度,在所述初始候选建议文本中获取召回候选建议文本;
根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本的文本兴趣度,根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本所映射的关联多媒体的媒体兴趣度;所述召回候选建议文本所映射的关联多媒体的数量为至少两个;
对至少两个关联多媒体的播放次数以及所述至少两个关联多媒体的完整播放率进行联合归一运算,得到所述至少两个关联多媒体对应的整体效果质量评分,获取每两个关联多媒体之间的媒体相似度,根据所述媒体相似度以及所述至少两个关联多媒体的数量,确定所述至少两个关联多媒体对应的多样性评分,根据所述整体效果质量评分和所述多样性评分,确定所述至少两个关联多媒体对应的媒体质量;
根据所述文本兴趣度、所述媒体兴趣度以及所述媒体质量,在所述召回候选建议文本中获取用于向所述目标对象提供的输出建议文本。
2.根据权利要求1所述的方法,其特征在于,所述目标对象的对象属性信息包括所述目标对象的兴趣标签文本;
所述根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本的文本兴趣度,包括:
从对象兴趣库中获取所述目标对象的兴趣标签文本,将所述兴趣标签文本、所述搜索输入文本和所述召回候选建议文本输入到文本兴趣度识别模型;
在所述文本兴趣度识别模型中,生成所述兴趣标签文本对应的第一文本表示向量、所述搜索输入文本对应的第二文本表示向量、以及所述召回候选建议文本对应的第三文本表示向量;
对所述第一文本表示向量和所述第二文本表示向量进行融合,得到第一对象表示向量;
对所述第一对象表示向量与所述第三文本表示向量进行注意力交互,得到所述目标对象针对所述召回候选建议文本的文本兴趣度。
3.根据权利要求1所述的方法,其特征在于,所述目标对象的对象属性信息包括所述目标对象的兴趣标签文本;所述召回候选建议文本所映射的关联多媒体的数量为至少两个,至少两个关联多媒体包括关联多媒体fi,i为小于或等于所述关联多媒体的数量的正整数;
所述根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本所映射的关联多媒体的媒体兴趣度,包括:
从对象兴趣库中获取所述目标对象的兴趣标签文本,获取关联多媒体fi的媒体属性文本;
将所述兴趣标签文本、所述搜索输入文本和所述关联多媒体fi的媒体属性文本输入到媒体兴趣度识别模型;
在所述媒体兴趣度识别模型中,生成所述兴趣标签文本对应的第四文本表示向量、所述搜索输入文本对应的第五文本表示向量、以及所述关联多媒体fi的媒体属性文本对应的媒体表示向量;
对所述第四文本表示向量和所述第五文本表示向量进行融合,得到第二对象表示向量;
对所述第二对象表示向量与所述媒体表示向量进行注意力交互,得到所述目标对象针对所述关联多媒体fi的子兴趣度;
对所述目标对象分别针对每个关联多媒体的子兴趣度进行加权平均,得到所述目标对象针对所述召回候选建议文本所映射的关联多媒体的媒体兴趣度。
4.根据权利要求1所述的方法,其特征在于,所述至少两个关联多媒体包括关联多媒体fi和关联多媒体fj,i和j为小于或等于所述关联多媒体的数量的正整数;
所述获取每两个关联多媒体之间的媒体相似度,包括:
获取所述关联多媒体fi的媒体属性文本,以及所述关联多媒体fj的媒体属性文本;
将所述关联多媒体fi的媒体属性文本,以及所述关联多媒体fj的媒体属性文本输入相似度识别模型;
在所述相似度识别模型中,生成所述关联多媒体fi的媒体属性文本对应的媒体表示向量,以及所述关联多媒体fj的媒体属性文本对应的媒体表示向量;
根据所述关联多媒体fi对应的媒体表示向量,与所述关联多媒体fj对应的媒体表示向量之间的向量距离,确定所述关联多媒体fi和所述关联多媒体fj之间的媒体相似度。
5.根据权利要求1所述的方法,其特征在于,所述召回候选建议文本的数量为至少两个,至少两个召回候选建议文本包括召回候选建议文本Mk,k为小于或等于所述召回候选建议文本的数量的正整数;
所述根据所述文本兴趣度、所述媒体兴趣度以及所述媒体质量,在所述召回候选建议文本中获取用于向所述目标对象提供的输出建议文本,包括:
对所述召回候选建议文本Mk对应的所述文本兴趣度、所述媒体兴趣度以及所述媒体质量进行加权求和,得到所述召回候选建议文本Mk对应的推荐建议评分;
根据每个召回候选建议文本分别对应的推荐建议评分,对所述至少两个召回候选建议文本进行排序;
从排序后的至少两个召回候选建议文本中按序选择S个召回候选建议文本,作为用于向所述目标对象提供的输出建议文本;S为小于或等于所述召回候选建议文本的数量的正整数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述初始候选建议文本对应的历史搜索记录、以及所述初始候选建议文本与所述搜索输入文本之间的文本匹配度,在所述初始候选建议文本中获取召回候选建议文本,包括:
根据所述初始候选建议文本对应的历史搜索记录获取所述初始候选建议文本对应的历史表现评分;
获取所述初始候选建议文本与所述搜索输入文本之间的文本匹配度;
对所述历史表现评分与所述文本匹配度进行运算,得到针对所述初始候选建议文本的召回评分;
将所述召回评分大于召回评分阈值的所述初始候选建议文本确定为召回候选建议文本。
7.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取由目标对象所提供的搜索输入文本;
第二获取模块,用于在候选建议文本库中获取与搜索输入文本相关联的初始候选建议文本;
召回模块,用于根据初始候选建议文本对应的历史搜索记录、以及初始候选建议文本与搜索输入文本之间的文本匹配度,在初始候选建议文本中获取召回候选建议文本;
第三获取模块,用于根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本的文本兴趣度,根据所述目标对象的对象属性信息,获取所述目标对象针对所述召回候选建议文本所映射的关联多媒体的媒体兴趣度;所述召回候选建议文本所映射的关联多媒体的数量为至少两个;
所述第三获取模块,还用于对至少两个关联多媒体的播放次数以及所述至少两个关联多媒体的完整播放率进行联合归一运算,得到所述至少两个关联多媒体对应的整体效果质量评分,获取每两个关联多媒体之间的媒体相似度,根据所述媒体相似度以及所述至少两个关联多媒体的数量,确定所述至少两个关联多媒体对应的多样性评分,根据所述整体效果质量评分和所述多样性评分,确定所述至少两个关联多媒体对应的媒体质量;
所述第三获取模块,还用于根据所述文本兴趣度、所述媒体兴趣度以及所述媒体质量,在所述召回候选建议文本中获取用于向所述目标对象提供的输出建议文本。
8.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-6任一项所述的方法。
CN202111249742.4A 2021-10-26 2021-10-26 数据处理方法、计算机设备以及可读存储介质 Active CN113704507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111249742.4A CN113704507B (zh) 2021-10-26 2021-10-26 数据处理方法、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111249742.4A CN113704507B (zh) 2021-10-26 2021-10-26 数据处理方法、计算机设备以及可读存储介质

Publications (2)

Publication Number Publication Date
CN113704507A CN113704507A (zh) 2021-11-26
CN113704507B true CN113704507B (zh) 2022-02-11

Family

ID=78647037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111249742.4A Active CN113704507B (zh) 2021-10-26 2021-10-26 数据处理方法、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN113704507B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528496B (zh) * 2022-04-22 2022-07-08 腾讯科技(深圳)有限公司 多媒体数据处理方法、装置、设备及存储介质
CN114611637B (zh) * 2022-05-11 2022-08-05 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质
CN115563394B (zh) * 2022-11-24 2023-03-28 腾讯科技(深圳)有限公司 搜索召回方法、召回模型训练方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN111400516A (zh) * 2020-03-16 2020-07-10 北京奇艺世纪科技有限公司 标签确定方法、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102368262B (zh) * 2011-10-14 2013-05-29 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
EP3751575A1 (en) * 2019-06-11 2020-12-16 Esaote S.p.A. A method for generating diagnostic reports and an imaging system carrying out the said method
CN111984689B (zh) * 2020-08-21 2023-07-25 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质
CN112100480A (zh) * 2020-09-15 2020-12-18 北京百度网讯科技有限公司 搜索方法、装置、设备及存储介质
CN112650907B (zh) * 2020-12-25 2023-07-14 百度在线网络技术(北京)有限公司 搜索词的推荐方法、目标模型的训练方法、装置及设备
CN113177154A (zh) * 2021-04-30 2021-07-27 挂号网(杭州)科技有限公司 搜索词推荐方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508394A (zh) * 2018-10-18 2019-03-22 青岛聚看云科技有限公司 一种多媒体文件搜索排序模型的训练方法及装置
CN111400516A (zh) * 2020-03-16 2020-07-10 北京奇艺世纪科技有限公司 标签确定方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113704507A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN111143610B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
CN113704507B (zh) 数据处理方法、计算机设备以及可读存储介质
CN102549603B (zh) 基于相关性的图像选择
CN108776676B (zh) 信息推荐方法、装置、计算机可读介质及电子设备
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110737783A (zh) 一种推荐多媒体内容的方法、装置及计算设备
CN112738556B (zh) 视频处理方法及装置
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
CN111611436A (zh) 一种标签数据处理方法、装置以及计算机可读存储介质
US11475054B2 (en) Language detection of user input text for online gaming
CN111372141B (zh) 表情图像生成方法、装置及电子设备
CN111639228B (zh) 视频检索方法、装置、设备及存储介质
CN113642536B (zh) 数据处理方法、计算机设备以及可读存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
CN110717038A (zh) 对象分类方法及装置
CN115269913A (zh) 一种基于注意力片段提示的视频检索方法
CN113806588A (zh) 搜索视频的方法和装置
CN113392265A (zh) 多媒体处理方法、装置及设备
CN111223014B (zh) 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统
CN116775980B (zh) 一种跨模态搜索方法及相关设备
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant