CN113469298B - 模型训练方法及资源推荐方法 - Google Patents
模型训练方法及资源推荐方法 Download PDFInfo
- Publication number
- CN113469298B CN113469298B CN202111029187.4A CN202111029187A CN113469298B CN 113469298 B CN113469298 B CN 113469298B CN 202111029187 A CN202111029187 A CN 202111029187A CN 113469298 B CN113469298 B CN 113469298B
- Authority
- CN
- China
- Prior art keywords
- multimedia
- resource
- information
- feature
- multimedia resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本公开关于一种模型训练方法及资源推荐方法,属于机器学习技术领域。该模型训练方法包括从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;利用多个多媒体资源样本训练多媒体特征表征模型,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。采用本公开提供的模型训练方法及资源推荐方法,至少解决现有模型训练成本高,且训练样本的数量有限的问题。
Description
技术领域
本公开涉及机器学习技术领域,尤其涉及一种模型训练方法及资源推荐方法。
背景技术
随着网络中的多媒体资源不断增多,如何提高对多媒体资源内容的表征的准确性,对多媒体资源的推荐、搜索、安全等有重要作用。
现有技术中,通常使用神经网络模型对多媒体资源内容进行识别和表征,但是,在模型训练的过程中经常需要大量经标注的数据作为模型训练样本,这样,就需要对大量的数据进行人工标注,导致模型训练成本高,且得到的训练样本的数量有限。
发明内容
本公开提供一种模型训练方法及资源推荐方法,以至少解决现有模型训练成本高,且训练样本的数量有限的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种模型训练方法,该方法可以包括:
从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源;
根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;
根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联;
将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息;
根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
在其中一个实施例中,上述涉及的根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系,具体可以包括:
根据搜索词与多媒体资源之间的匹配关系,以搜索词和多媒体资源为节点,在搜索词和多媒体资源之间建立连接,得到第一二部图;
根据第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
在其中一个实施例中,在基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图之前,上述涉及模型训练方法还可以包括:
从多媒体资源搜索日志中获取与多媒体资源对应的用户操作行为数据;
相应地,上述涉及的基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图,具体可以包括:
根据用户操作行为数据,计算第一二部图中搜索词与多媒体资源之间的连接权重;
将第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到任意两个多媒体资源之间的连接权重;
根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
基于此,在其中一个实施例中,上述涉及的根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图,具体可以包括:
在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在第一资源与第二资源之间建立连接,得到第二二部图;其中,第一资源和第二资源为与同一搜索词连接的任意两个多媒体资源。
另外,在其中一个实施例中,上述涉及的根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本,具体可以包括:
根据关联关系,获取与标定资源对应的正样本和负样本;其中,正样本为与标定资源相关联的多媒体资源,负样本为与标定资源不关联的多媒体资源,标定资源为多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源;
根据标定资源及其对应的正样本和负样本,构建多媒体资源三元组,为标定资源、正样本和负样本添加标签;
将根据关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为多个多媒体资源样本。
在其中一个实施例中,上述涉及的将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息,具体可以包括:
获取多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与多媒体资源样本对应的特征表征信息。
基于此,在其中一个实施例中,上述涉及的将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与样本多媒体资源对应的特征表征信息,具体可以包括:
利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与多媒体资源样本对应的N个维度的特征信息;
利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与多媒体资源样本对应的N个维度的类型信息;
利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与多媒体资源样本对应的特征表征信息。
在其中一个实施例中,上述涉及的N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,上述涉及的文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
根据本公开实施例的第二方面,提供一种资源推荐方法,该方法可以包括:
获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源;
将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到;
根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值;
向用户推荐至少一个多媒体资源。
在其中一个实施例中,获取目标多媒体资源,具体可以包括:
接收用户输入的目标搜索词;
根据目标搜索词向用户推荐至少一个多媒体资源;
获取用户从至少一个多媒体资源中选择的目标多媒体资源。
在其中一个实施例中,将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息,包括:
获取目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息,具体可以包括:
利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与目标多媒体资源对应的N个维度的特征信息;
利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与目标多媒体资源对应的N个维度的类型信息;
利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
根据本公开实施例的第三方面,提供一种模型训练装置,该装置可以包括:
结果获取模块,被配置为执行从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源;
关系确定模块,被配置为执行根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;
样本构建模块,被配置为执行根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联;
信息处理模块,被配置为执行将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息;
参数调整模块,被配置为执行根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
在其中一个实施例中,上述涉及的关系确定模块具体可以包括:
第一连接子模块,被配置为执行根据搜索词与多媒体资源之间的匹配关系,以搜索词和多媒体资源为节点,在搜索词和多媒体资源之间建立连接,得到第一二部图;
第二连接子模块,被配置为执行基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图;
关系确定子模块,被配置为执行根据第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
在其中一个实施例中,上述涉及的关系确定模块还可以包括:
行为获取子模块,被配置为执行在基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图之前,从多媒体资源搜索日志中获取与多媒体资源对应的用户操作行为数据;
第二连接子模块,包括:
权重计算单元,被配置为执行根据用户操作行为数据,计算第一二部图中搜索词与多媒体资源之间的连接权重;
权重相加单元,被配置为执行将第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到任意两个多媒体资源之间的连接权重;
连接建立单元,被配置为执行根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
基于此,在其中一个实施例中,上述涉及的连接建立单元具体可以包括:
连接子单元,被配置为执行在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在第一资源与第二资源之间建立连接,得到第二二部图;其中,第一资源和第二资源为与同一搜索词连接的任意两个多媒体资源。
另外,在其中一个实施例中,上述涉及的样本构建模块具体可以包括:
样本获取子模块,被配置为执行根据关联关系,获取与标定资源对应的正样本和负样本;其中,正样本为与标定资源相关联的多媒体资源,负样本为与标定资源不关联的多媒体资源,标定资源为多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源;
三元组构建子模块,被配置为执行根据标定资源及其对应的正样本和负样本,构建多媒体资源三元组,为标定资源、正样本和负样本添加标签;
样本组成子模块,被配置为执行将根据关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为多个多媒体资源样本。
在其中一个实施例中,上述涉及的信息处理模块具体可以包括:
第一获取子模块,被配置为执行获取多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第一输入子模块,被配置为执行将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与多媒体资源样本对应的特征表征信息。
基于此,在其中一个实施例中,上述涉及的第一输入子模块具体可以包括:
第一提取单元,被配置为执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与多媒体资源样本对应的N个维度的特征信息;
第一分类单元,被配置为执行利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与多媒体资源样本对应的N个维度的类型信息;
第一融合单元,被配置为执行利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与多媒体资源样本对应的特征表征信息。
在其中一个实施例中,上述涉及的N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,上述涉及的文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
根据本公开实施例的第四方面,提供一种多媒体资源内容表征装置,该装置可以包括:
第一获取模块,被配置为执行获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源;
特征表征模块,被配置为执行将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到;
第二获取模块,被配置为执行根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值;
第一推荐模块,被配置为执行向用户推荐至少一个多媒体资源。
在其中一个实施例中,上述涉及的第一获取模块具体可以包括:
搜索词接收子模块,被配置为执行在获取目标多媒体资源对应的N个维度的多媒体信息之前,接收用户输入的目标搜索词;
第二推荐子模块,被配置为执行根据目标搜索词向用户推荐至少一个多媒体资源;
资源确定子模块,被配置为执行获取用户从至少一个多媒体资源中选择的目标多媒体资源。
在其中一个实施例中,特征表征模块具体可以包括:
第二获取子模块,被配置为执行获取目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第二输入子模块,被配置为执行将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,第二输入子模块具体可以包括:
第二提取单元,被配置为执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与目标多媒体资源对应的N个维度的特征信息;
第二分类单元,被配置为执行利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与目标多媒体资源对应的N个维度的类型信息;
第二融合单元,被配置为执行利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
根据本公开实施例的第五方面,提供一种电子设备,该电子设备可以包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面的任一项实施例中所示的模型训练方法或者如第二方面的任一项实施例中所示的多媒体资源内容表征方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由模型训练装置的处理器执行时,以使模型训练装置实现以实现如第一方面的任一项实施例中所示的模型训练方法,或者,当计算机可读存储介质中的指令由资源推荐装置的处理器执行时,以使资源推荐装置实现以实现如第二方面的任一项实施例中所示的资源推荐方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中,设备的至少一个处理器从计算机可读存储介质读取并执行计算机程序,使得设备执行第一方面的任一项实施例中所示的模型训练方法或者第二方面的任一项实施例中所示的资源推荐方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开实施例通过利用从多媒体资源搜索日志中获取的搜索词及其对应的用户关注的多媒体资源搜索结果,以搜索词与用户关注的多媒体资源之间的匹配关系为依据,确定不同多媒体资源与相同搜索词相匹配的匹配结果,进而确定不同多媒体资源之间的关联关系,再根据该关联关系对该多个多媒体资源进行标注,得到多个训练样本,进而使用该训练样本训练多媒体特征表征模型,这样,本公开实施例在模型训练过程中能够对用户搜索多媒体资源时关注过的海量的资源,以搜索词为媒介进行多媒体资源之间的关联学习,从而可以在避免通过人工方式标注样本,降低模型训练成本的同时,构造得到大量的训练样本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限值本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种视频推荐或搜索的架构图;
图2是根据一示例性实施例示出的一种模型训练方法的流程图;
图3是根据一示例性实施例示出的另一种模型训练方法的流程图;
图4是根据一示例性实施例示出的第一二部图的示意图;
图5是根据一示例性实施例示出的一种资源推荐方法的流程图;
图6是根据一示例性实施例示出的一种模型训练装置的结构框图;
图7是根据一示例性实施例示出的一种资源推荐装置的结构框图;
图8是根据一示例性实施例示出的一种电子设备的结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的视频,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开所提供的模型训练方法及资源推荐方法,可以应用于视频、图片、文本内容等多媒体资源的推荐、搜索等应用场景中,具体结合图1进行详细说明。
图1是根据一示例性实施例示出的一种视频推荐或搜索的架构图。
如图1所示,该架构图中可以包括至少一个客户端10和服务器11。用户可通过登录任一客户端10,与服务器11建立网络连接并进行信息交互。其中,客户端10可以是手机、平板电脑、一体机等具有通讯功能的设备,也可以是虚拟机或模拟器模拟的设备。服务器11可以是云服务器或者服务器集群等具有存储以及计算功能的设备。
基于上述架构,在视频推荐场景中,服务器11可以先通过多媒体特征表征模型得到多个视频的特征表征信息,再根据特征表征信息查找与用户观看过的历史视频相似的视频,并将该视频推送给客户端10。
另外,在视频搜索场景中,用户可以在客户端10登录短视频APP(Application,应用程序),或者打开浏览器并登陆相应的短视频网站,通过在该短视频APP或短视频网站中输入相应的视频搜索词,进而客户端10向服务器11发送视频搜索请求,服务器11接收到该视频搜索请求后,通过多媒体特征表征模型输出得到的多个视频的特征表征信息,获取与该视频搜索词相匹配的视频,并将该视频返回给客户端10。
在使用多媒体特征表征模型对视频内容进行表征之前,首先需要对多媒体特征表征模型进行训练,目前,主要通过人工方式对训练样本进行标注,导致模型训练成本高,且能够得到的训练样本的数量有限。
针对上述问题,本公开实施例通过如下方式对多媒体特征表征模型进行训练,也即,从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源;根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联;将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息;根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
这样,本公开实施例在模型训练过程中能够对用户搜索多媒体资源时关注过的海量的多媒体资源,以搜索词为媒介进行多媒体资源之间的关联学习,从而可以在避免通过人工方式标注样本,降低模型训练成本的同时,构造得到大量的训练样本。
另外,使用多媒体特征表征模型对多媒体资源进行推荐的过程可以是,获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源;将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到;根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值;向用户推荐至少一个多媒体资源。
如此,通过使用基于用户搜索行为训练得到的多媒体特征表征模型,可以使推荐的多媒体资源更接近用户关注的多媒体资源,从而能够提高多媒体资源推荐的准确性。
根据上述架构以及应用场景,下面结合图2-图4对本公开实施例提供的模型训练方法进行详细说明,该模型训练方法可以由任一具有计算功能的电子设备来执行。
图2是根据一示例性实施例示出的一种模型训练方法的流程图。
如图2所示,该模型训练方法具体可以包括如下步骤:
步骤210,从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源。
步骤220,根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系。
步骤230,根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联。
步骤240,将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息。
步骤250,根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
由此,通过利用从多媒体资源搜索日志中获取的搜索词及其对应的用户关注的多媒体资源搜索结果,以搜索词与用户关注的多媒体资源之间的匹配关系为依据,确定不同多媒体资源与相同搜索词相匹配的匹配结果,进而确定不同多媒体资源之间的关联关系,再根据该关联关系对该多个多媒体资源进行标注,得到多个训练样本,进而使用该训练样本训练多媒体特征表征模型,这样,本公开实施例在模型训练过程中能够对用户搜索多媒体资源时关注过的海量的资源,以搜索词为媒介进行多媒体资源之间的关联学习,从而可以在避免通过人工方式标注样本,降低模型训练成本的同时,构造得到大量的训练样本。
下面对上述步骤进行详细说明,具体如下所示:
首先,涉及步骤210,本公开实施例中多媒体资源例如可以是视频、图片、文本等。多媒体资源搜索日志可以是用于记录用户搜索多媒体资源时的相关信息的日志,其中,用户搜索多媒体资源时的相关信息包括但不限于用户输入的搜索词,根据该搜索词搜索到的用户关注的多媒体资源搜索结果,以及用户对该多媒体资源搜索结果包括的至少一个多媒体资源进行操作时的用户操作行为数据等。用户操作行为数据中可以包括针对该资源的用户点击次数、观看时长、点赞次数、转发分享次数等数据。
这里,用户关注的多媒体资源搜索结果可以是用户操作过的多媒体资源搜索结果。其中,用户对多媒体资源的操作行为可以是点击、观看、点赞、转发分享等行为。
另外,需要说明的是,搜索词包括但不限于用于作为多媒体资源搜索依据的字符、词组、短句等。
示例性地,可对所有用户的多媒体资源搜索日志进行聚合,从聚合后的多媒体资源搜索日志中获取各个搜索词下用户操作过的视频。
接着,涉及步骤220,匹配关系可以是搜索词与多媒体资源之间的对应关系,也即,在目标多媒体资源为根据目标搜索词搜索得到的情况下,该目标搜索词与该目标多媒体资源之间具有匹配关系。如此,可得到多个搜索词与多个多媒体资源之间的匹配关系。这里,需要说明的是,一个搜索词可对应多个多媒体资源,一个多媒体资源也可对应多个视频搜索词。
另外,关联关系可以是不同多媒体资源之间的对应关系,也即,在两个多媒体资源为与相同搜索词相匹配的情况下,例如不同的两个多媒体资源是根据同一搜索词或相似搜索词搜索得到的情况下,该两个多媒体资源之间相关联,否则不关联。其中,相同搜索词可以是同一搜索词,和/或近义词,在此不作限定。如此,可根据搜索词与多媒体资源之间的匹配关系,确定多个不同多媒体资源是否与相同的搜索词相匹配,若是,则该多个多媒体资源之间相关联,若否,则该多个多媒体资源之间不关联,得到不同多媒体资源之间的关联关系。
这里,具体确定不同多媒体资源之间的关联关系的方式可以是直接按照关联规则进行确定,也可以是通过构建二部图来确定,在此不做限定。
然后,涉及步骤230,本公开实施例主要利用不同多媒体资源之间的关联关系,来构建训练样本。具体的,可将多媒体资源之间是否相关联作为构建训练样本的依据。
示例性地,训练样本可包括正样本对和负样本对,其中,正样本对中可包括两个相关联的多媒体资源样本,负样本对中可包括两个不关联的多媒体资源样本,进而为相关联的多媒体资源样本添加相同的标签,为不关联的多媒体资源样本添加不同的标签。这样,可以自动挖掘得到包含多个正负样本对的训练样本,进而无需进行人工标注即可构建得到大量的训练样本。
为了进一步增加训练样本的数量,在一种可选的实施方式中,上述步骤230具体可以包括:
根据关联关系,获取与标定资源对应的正样本和负样本;其中,正样本为与标定资源相关联的多媒体资源,负样本为与标定资源不关联的多媒体资源,标定资源为多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源;
根据标定资源及其对应的正样本和负样本,构建多媒体资源三元组,为标定资源、正样本和负样本添加标签;
将根据关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为多个多媒体资源样本。
这里,多媒体资源三元组(anchor-pos-neg)中可包括标定资源(anchor)及其对应的正样本(pos)和负样本(neg)。其中,正样本可以为与标定资源相关联的多媒体资源,负样本可以与标定资源不关联的多媒体资源,标定资源可以为从多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源,也即从多媒体资源搜索日志中获取的任意多媒体资源都可作为标定资源。
需要说明的是,在获取负样本时,可从用户历史关注的多个多媒体资源构成的多媒体资源池中,随机抽取一个多媒体资源作为该标定资源的负样本,同时,考虑到随机选取的负样本倾向于简单负样本,因此,可以采用预设样本挖掘方式,挖掘正样本和简单负样本的同时,增加少量的困难负样本。
这样,通过上述基于不同多媒体资源之间的关联关系构建多个多媒体资源三元组的方式,可以得到大量的训练数据,避免了监督学习需要的标注成本及训练量的限制,降低了模型训练成本。
最后,涉及步骤240和步骤250,多媒体特征表征模型可以是基于度量学习(metriclearning)算法构建的模型,也即将上述方式构建得到的训练样本作为metric learning的训练样本,训练该多媒体特征表征模型。
示例性地,可以将训练样本中的多媒体资源样本直接输入至多媒体特征表征模型,输出得到该多媒体资源样本对应的特征表征信息,进而根据正负样本对中不同多媒体资源样本对应的特征表征信息之间的相似度,来调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,使正样本对中两个多媒体资源样本对应的特征表征信息之间的相似度越高越好,使负样本对中两个多媒体资源样本对应的特征表征信息之间的相似度越低越好。
为了使视频内容表征更加全面,可从多个维度对视频内容进行表征,在一种可选的实施方式中,上述步骤240具体可以包括:
获取多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与多媒体资源样本对应的特征表征信息。
这里,可从至少两个维度对多媒体资源内容进行表征。其中,N个维度的多媒体信息可以包括文本信息、图像信息、声音信息等,在此不做限定。
示例性地,可先从多媒体资源样本中提取多个维度的多媒体信息,例如文本信息、图像信息等,再将该多媒体资源样本对应的多个维度的多媒体信息分别输入至多媒体特征表征模型,输出得到融合有多个维度内容特征的特征表征信息,在得到正负样本对中两个多媒体资源样本分别对应的特征表征信息之后,再根据该两个多媒体资源样本之间是否关联,计算损失函数,进而根据损失函数调整模型参数,实现对模型的训练过程。
其中,正负样本对可以组成视频三元组(anchor-pos-neg),视频三元组中可包括标定资源(anchor),与标定资源相关联的正样本(pos)以及与标定资源不关联的负样本(neg)。相应地,损失函数例如可以使用三元组损失(triplet loss)、对比损失(contrastive loss)等metric learning中经常使用到的损失函数。这样,正样本对中两个视频对应的特征表征信息之间的距离越远,损失越大;负样本对中两个视频对应的特征表征信息之间的距离越近,损失越大。损失函数的作用可以是拉进正样本对中两个视频之间的距离,而推远负样本对中两个视频之间的距离。
如此,通过上述模型训练过程,可以使模型学习到的视频内容的表征,更加内敛,在同类数据(正样本对)上的类内距离小,在不同类型的数据(负样本对)上的类间距离大,使得模型对于视频内容的区别表征能力更好。
基于此,在一种可选的实施方式中,上述将N个维度的多媒体信息输入至多媒体特征表征模型,输出得到与多媒体资源样本对应的特征表征信息的步骤,具体可以包括:
利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与多媒体资源样本对应的N个维度的特征信息;
利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与多媒体资源样本对应的N个维度的类型信息;
利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与多媒体资源样本对应的特征表征信息。
这里,多媒体特征表征模型具体可以包括特征提取网络、全连接层单元以及特征融合层。其中,特征提取网络和全连接层单元的数量与多媒体信息维度相匹配。
在一种可选实施方式中,N个维度的多媒体信息可以包括文本信息和图像信息,上述多媒体特征表征模型中的N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
由于多媒体资源主要包括文本和图像两个方面的内容,因此,从这两个维度对多媒体资源进行识别和模型训练,可以提高对多媒体资源内容表征的准确性。
另外,文本信息可以包括用户输入文本、语音识别文本以及图像识别文本等。以多媒体资源为视频为例,用户输入文本例如可以是视频的标题、视频附带的配文等,语音识别文本例如可以是对视频声音进行语音识别后得到的文本,图像识别文本例如可以是对视频中的每一帧图像进行字符识别得到的文本,具体可以利用OCR(Optical CharacterRecognition,光学字符识别)方式识别每一帧图像中的文本。这样,文本信息基本可以覆盖多媒体资源中所有能够识别到的文本,使文本信息的内容更加全面。
具体的,特定种类的特征提取网络可用于对特定维度下的多媒体信息进行特征提取。在一个具体例子中,可将文本输入至文本特征提取网络,输出得到文本特征,将图像输入至图像特征提取网络,输出得到图像特征。其中,文本特征提取网络例如可以是BERT(Bidirectional Encoder Representations from Transformers,基于转换器的双向编码表征)模型,BERT模型是一种语言表示模型;图像特征提取网络例如可以是CNN(Convolutional Neural Networks,卷积神经网络),具体可以使用ResNet(ResidualNetwork,残差网络)、vgg(Visual Geometry Group Network,视觉几何组网络)、inception结构等网络结构。
另外,全连接层单元可包括多个连接层,连接层用于对特征信息进行分类,以便区别表征各个多媒体资源的内容。特征融合层例如可以是Self-Attention(自注意力)层,特征融合层用于进行特征融合,Self-Attention(自注意力)层可以在特征融合的过程中自动学习什么样的多媒体资源在各个维度特征之间更偏向哪个维度的特征,以视频为例,脱口秀类视频可能文本特征更具有内容表征意义,因此在进行特征融合时可以更多地参考文本特征,而舞蹈类视频可能图像特征更具有内容表征意义,因此在进行特征融合时可以更多地参考图像特征。
示例性地,可将每个特征提取网络的输出端与全连接层单元的输入端相连,再将所有全连接层单元的输出端连接至特征融合层,也即,将各个维度的特征信息分别经过几个全连接层进行特征分类之后,再将多个维度的特征融合为一个特征,得到该多媒体资源样本对应的特征表征信息。
这样,通过对多媒体资源样本不同维度的多媒体信息分别进行特征提取后,再进行分类和特征融合,可以更加有针对性地对多媒体资源样本中不同维度的多媒体信息进行分析,进而提高对多媒体资源样本特征表征的准确性。
另外,基于上述步骤210-250,在一种可能的实施例中,如图3所示,上述涉及的步骤220具体可以包括:步骤2201至步骤2203,具体如下所示:
步骤2201,根据搜索词与多媒体资源之间的匹配关系,以搜索词和多媒体资源为节点,在搜索词和多媒体资源之间建立连接,得到第一二部图。
这里,可将搜索词与多媒体资源之间的匹配关系通过构建的第一二部图体现。具体的,可以搜索词和多媒体资源为连接节点,在相匹配的搜索词与多媒体资源之间建立无向连接,得到第一二部图。
在一个具体例子中,在第一视频、第二视频和第三视频是根据第一视频搜索词搜索得到的情况下,如图4所示,可在第一视频搜索词对应的第一搜索词节点411与第一视频对应的第一视频节点421之间建立无向连接,同样地,在第一搜索词节点411与第二视频对应的第二视频节点422之间建立无向连接,在第一搜索词节点411与第三视频对应的第三视频节点423之间建立无向连接。同理,在第一视频还可根据第二视频搜索词搜索得到的情况下,如图4所示,还可在第一视频节点421与第二视频搜索词对应的第二搜索词节点412之间建立无向连接。另外,在第四视频是根据第二视频搜索词搜索得到的情况下,如图4所示,还可在第四视频对应的第四视频节点424与第二视频搜索词412之间建立无向连接。以此类推,可得到query(搜索词)-photo(视频)的无向连接二部图。
步骤2202,基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图。
这里,可以在第一二部图的基础上,以搜索词为跳板,建立多媒体资源的无向连接二部图,也即第二二部图。
示例性地,可直接将第一二部图中的搜索词用连接线替换,也即,将所有连接同一搜索词的多媒体资源连接起来,进而得到第二二部图。当然,也可以根据各个搜索词与其连接的多媒体资源之间的关联度,选择性地将连接同一搜索词的多媒体资源连接起来,得到第二二部图。
在一个具体例子中,如图4所示,可在连接第一搜索词节点411的第一视频节点421、第二视频节点422和第三视频节点423之间建立无向连接,在连接第二搜索词节点412的第一视频节点421和第四视频节点424之间建立无向连接。以此类推,可得到photo-photo的无向连接二部图。
在一种可选实施方式中,在上述步骤2202之前,本公开实施例提供的模型训练方法还可以包括:
从多媒体资源搜索日志中获取与多媒体资源对应的用户操作行为数据;
相应地,上述步骤2202具体可以包括:
根据用户操作行为数据,计算第一二部图中搜索词与多媒体资源之间的连接权重;
将第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到任意两个多媒体资源之间的连接权重;
根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
这里,用户操作行为数据包括但不限于针对该多媒体资源的用户点击次数、视频观看时长、点赞次数、转发分享次数等数据。
示例性地,可根据用户对多媒体资源的操作行为,确定第一二部图中搜索词与其连接的多媒体资源之间的连接权重,进而根据该连接权重确定多媒体资源之间的连接关系,得到第二二部图。其中,连接权重可根据用户操作行为数据计算得到,具体的,可先对用户操作行为数据中的数据进行处理,例如处理得到点击率、观看时长、点赞率等,再根据这些处理后的数据进行加权求和得到相应搜索词下该多媒体资源对应的权重,作为该搜索词与该多媒体资源之间的连接权重,进而根据该连接权重判断两个多媒体资源之间是否需要建立连接。
在一个具体例子中,如图4所示,若第二搜索词节点412与第一视频节点421之间的连接权重为0.7,且第二搜索词节点412与第四视频节点424之间的连接权重为0.9,则第一视频节点421与第四视频节点424之间的连接权重为0.7+0.9=1.6。
这样,通过计算连接权重,建立两个多媒体资源之间的连接关系,如此,可以在确定两个多媒体资源之间的关联关系时,加入用户对多媒体资源的操作行为这一参考因素,使得关联结果更加准确,进而可以提高训练样本的准确性和可靠性。
基于此,在一种可选实施方式中,上述根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图,具体可以包括:
在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在第一资源与第二资源之间建立连接,得到第二二部图;其中,第一资源和第二资源为与同一搜索词连接的任意两个多媒体资源。
这里,设置阈值的目的在于去除图中置信度较低的部分连接边,预设阈值可根据实际情况进行设置,在此不作限定。
在一个具体例子中,如图4所示,若第一搜索词节点411与第一视频节点421之间的连接权重为0.8,第一搜索词节点411与第二视频节点422之间的连接权重为0.4,第一搜索词节点411与第三视频节点423之间的连接权重为0.5,则当预设阈值为1的情况下,由于第一视频节点421与第二视频节点422之间的连接权重为0.8+0.4=1.2>1,因此,可在第一视频节点421与第二视频节点422之间建立无向连接;同理,由于第二视频节点422与第三视频节点423之间的连接权重为0.4+0.5=0.9<1,因此,不在第二视频节点422与第三视频节点423之间建立连接;另外,由于第一视频节点421与第三视频节点423之间的连接权重为0.8+0.5=1.3>1,因此,还可在第一视频节点421与第三视频节点423之间建立连接。
这样,通过设置阈值,保留置信度较高的连接边,而去除置信度较低的连接边,可以提高第二二部图中连接的两个多媒体资源之间的关联性,进而为构建训练样本提供可靠保障。
步骤2203,根据第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
这里,可利用第二二部图中各个多媒体资源之间的连接关系,确定不同多媒体资源之间的关联关系,进而根据不同多媒体资源之间是否存在关联关系构建正负样本对,得到训练样本。
在一个具体的例子中,可基于第二二部图中多媒体资源之间的连接关系进行样本数据挖掘,例如,可获取与标定资源之间M阶连接的多媒体资源作为正样本或负样本,其中,M为正整数,当M为1时,多媒体资源与标定资源直接连接,即为正样本;当M为正无穷时,多媒体资源与标定资源无连接,即为简单负样本;当M在预设取值区间时,多媒体资源与标定资源间接连接,即为困难负样本。这里,预设取值区间例如可以是[6,10]。如此,可基于第二二部图,根据不同的标定资源挖掘得到多个多媒体资源三元组,作为训练样本。
这样,通过在搜索词与多媒体资源之间建立连接,构建第一二部图,并根据第一二部图在不同多媒体资源之间建立连接,构建第二二部图,再基于第二二部图构建训练样本,可以更加方便和快捷地挖掘训练数据,使训练数据挖掘过程更加直观,便于提高训练样本的构建效率。
下面结合图5对本公开实施例提供的资源推荐方法进行详细说明。
图5是根据一示例性实施例示出的一种资源推荐方法的流程图。该资源推荐方法可以由任一具有计算功能的电子设备来执行。
如图5所示,该资源推荐方法具体可以包括如下步骤:
步骤510,获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源。
这里,目标多媒体资源可以是等待进行内容表征的视频、图片、文本等。获取目标多媒体资源的方式包括但不限于从多媒体资源搜索日志中获取,该目标多媒体资源例如可以是用户点击、点赞、转发、评论过的多媒体资源。
在一种可选的实施方式中,在上述步骤510之前,本公开实施例提供的资源推荐方法还可以包括:
接收用户输入的目标搜索词;
根据目标搜索词向用户推荐至少一个多媒体资源;
获取用户从至少一个多媒体资源中选择的目标多媒体资源。
这里,在一种应用场景下,用户可在客户端上输入所需资源的搜索词,进而服务器可根据该搜索词向用户推荐至少一个多媒体资源,这些多媒体资源对应的特征表征信息与搜索词之间的相似度可以大于预设阈值。然后,可将用户最终选择的多媒体资源,作为资源推荐时的参考依据的目标多媒体资源。
这样,通过将用户选中的多媒体资源作为资源推荐时的参考依据的目标多媒体资源,可提高资源推荐的准确性,提升用户的点击率。
步骤520,将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到。
其中,多媒体特征表征模型可以为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到。具体训练过程可参见上述模型训练方法的相关描述,在此不再赘述。
这里,将至少两个维度的多媒体信息输入至多媒体特征表征模型进行处理的具体过程可参见前面实施例中相关的描述,在此不再赘述。
在一种可选实施方式中,上述步骤520具体可以包括:
获取目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息。
这里,N个维度的多媒体信息例如可以是文本信息和图像信息等,具体可参见前面实施例中关于多媒体信息及其获取方式的相关描述,在此不再赘述。
在一种可选的实施方式中,上述将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息,具体可以包括:
利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与目标多媒体资源对应的N个维度的特征信息;
利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与目标多媒体资源对应的N个维度的类型信息;
利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与目标多媒体资源对应的第一特征表征信息。
上述特征提取过程与模型训练时对多媒体资源样本的特征提取过程相同,在此不再赘述。
这样,通过对目标多媒体资源不同维度的多媒体信息分别进行特征提取后,再进行分类和特征融合,可以更加有针对性地对目标多媒体资源中不同维度的多媒体信息进行分析,进而提高对目标多媒体资源特征表征的准确性。
可选的,上述N个维度的多媒体信息可以包括文本信息和图像信息,所述N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
可选的,文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
对于此部分的解释可参见上述相关描述,在此不再赘述。
步骤530,根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,该至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值。
这里,多媒体资源池中可包含有各种多媒体资源,每个多媒体资源可以对应有特征表征信息,且每个多媒体资源对应的特征表征信息也可通过多媒体特征表征模型输出得到。
示例性地,通过遍历多媒体资源池中的每一个多媒体资源,将第一特征表征信息与每一个多媒体资源对应的特征表征信息进行相似度比对,可得到相似度大于预设阈值的第二特征表征信息,进而将该第二特征表征信息对应的多媒体资源作为与目标多媒体资源内容相似的资源,推荐给用户。
步骤540,向用户推荐至少一个多媒体资源。
这里,可以将待推荐的至少一个多媒体资源发送至该用户登录的客户端,以通过该客户端将该至少一个多媒体资源推荐给用户。
如此,通过使用基于用户搜索行为训练得到的多媒体特征表征模型,可以使推荐的多媒体资源更接近用户关注的多媒体资源,从而能够提高多媒体资源推荐的准确性。
需要说明的是,上述本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
基于相同的发明构思,本公开还提供了一种模型训练装置。具体结合图6进行详细说明。
图6是根据一示例性实施例示出的一种模型训练装置的结构示意图。
如图6所示,该模型训练装置6具体可以包括:
结果获取模块601,被配置为执行从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源;
关系确定模块602,被配置为执行根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;
样本构建模块603,被配置为执行根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联;
信息处理模块604,被配置为执行将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息;
参数调整模块605,被配置为执行根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
下面对上述模型训练装置6进行详细说明,具体如下所示:
在其中一个实施例中,上述涉及的关系确定模块602具体可以包括:
第一连接子模块,被配置为执行根据搜索词与多媒体资源之间的匹配关系,以搜索词和多媒体资源为节点,在搜索词和多媒体资源之间建立连接,得到第一二部图;
第二连接子模块,被配置为执行基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图;
关系确定子模块,被配置为执行根据第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
在其中一个实施例中,上述涉及的关系确定模块602还可以包括:
行为获取子模块,被配置为执行在基于第一二部图,以多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图之前,从多媒体资源搜索日志中获取与多媒体资源对应的用户操作行为数据;
第二连接子模块,包括:
权重计算单元,被配置为执行根据用户操作行为数据,计算第一二部图中搜索词与多媒体资源之间的连接权重;
权重相加单元,被配置为执行将第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到任意两个多媒体资源之间的连接权重;
连接建立单元,被配置为执行根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
基于此,在其中一个实施例中,上述涉及的连接建立单元具体可以包括:
连接子单元,被配置为执行在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在第一资源与第二资源之间建立连接,得到第二二部图;其中,第一资源和第二资源为与同一搜索词连接的任意两个多媒体资源。
另外,在其中一个实施例中,上述涉及的样本构建模块603具体可以包括:
样本获取子模块,被配置为执行根据关联关系,获取与标定资源对应的正样本和负样本;其中,正样本为与标定资源相关联的多媒体资源,负样本为与标定资源不关联的多媒体资源,标定资源为多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源;
三元组构建子模块,被配置为执行根据标定资源及其对应的正样本和负样本,构建多媒体资源三元组,为标定资源、正样本和负样本添加标签;
样本组成子模块,被配置为执行将根据关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为多个多媒体资源样本。
在其中一个实施例中,上述涉及的信息处理模块604具体可以包括:
第一获取子模块,被配置为执行获取多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第一输入子模块,被配置为执行将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与多媒体资源样本对应的特征表征信息。
基于此,在其中一个实施例中,上述涉及的第一输入子模块具体可以包括:
第一提取单元,被配置为执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与多媒体资源样本对应的N个维度的特征信息;
第一分类单元,被配置为执行利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与多媒体资源样本对应的N个维度的类型信息;
第一融合单元,被配置为执行利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与多媒体资源样本对应的特征表征信息。
在其中一个实施例中,上述涉及的N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,上述涉及的文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
由此,通过利用从多媒体资源搜索日志中获取的搜索词及其对应的用户关注的多媒体资源搜索结果,以搜索词与用户关注的多媒体资源之间的匹配关系为依据,确定不同多媒体资源与相同搜索词相匹配的匹配结果,进而确定不同多媒体资源之间的关联关系,再根据该关联关系对该多个多媒体资源进行标注,得到多个训练样本,进而使用该训练样本训练多媒体特征表征模型,这样,本公开实施例在模型训练过程中能够对用户搜索多媒体资源时关注过的海量的资源,以搜索词为媒介进行多媒体资源之间的关联学习,从而可以在避免通过人工方式标注样本,降低模型训练成本的同时,构造得到大量的训练样本。
基于相同的发明构思,本公开还提供了一种资源推荐装置。具体结合图7进行详细说明。
图7是根据一示例性实施例示出的一种资源推荐装置的结构示意图。
如图7所示,该资源推荐装置7具体可以包括:
第一获取模块701,被配置为执行获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源;
特征表征模块702,被配置为执行将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到;
第二获取模块703,被配置为执行根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值;
第一推荐模块704,被配置为执行向用户推荐至少一个多媒体资源。
下面对上述资源推荐装置7进行详细说明,具体如下所示:
在其中一个实施例中,第一获取模块701具体可以包括:
搜索词接收子模块,被配置为执行在获取目标多媒体资源对应的N个维度的多媒体信息之前,接收用户输入的目标搜索词;
第二推荐子模块,被配置为执行根据目标搜索词向用户推荐至少一个多媒体资源;
资源确定子模块,被配置为执行获取用户从至少一个多媒体资源中选择的目标多媒体资源。
在其中一个实施例中,特征表征模块702具体可以包括:
第二获取子模块,被配置为执行获取目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第二输入子模块,被配置为执行将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,第二输入子模块具体可以包括:
第二提取单元,被配置为执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与目标多媒体资源对应的N个维度的特征信息;
第二分类单元,被配置为执行利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与目标多媒体资源对应的N个维度的类型信息;
第二融合单元,被配置为执行利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与目标多媒体资源对应的第一特征表征信息。
在其中一个实施例中,N个维度的多媒体信息可以包括文本信息和图像信息,N个特征提取网络可以包括文本特征提取网络和图像特征提取网络。
在其中一个实施例中,文本信息可以包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
由此,通过使用基于用户搜索行为训练得到的多媒体特征表征模型,可以使推荐的多媒体资源更接近用户关注的多媒体资源,从而能够提高多媒体资源推荐的准确性。
基于同一发明构思,本公开实施例还提供了一种电子设备,具体结合图8进行详细说明。
图8是根据一示例性实施例示出的一种电子设备的结构框图。
如图8所示,为能够实现根据本公开实施例中的模型训练方法和模型训练装置或者资源推荐方法和资源推荐装置的电子设备8的示例性硬件架构的结构图。
该电子设备8可以包括处理器801以及存储有计算机程序指令的存储器802。
具体地,上述处理器801可以包括中央处理器(CPU),或者特定集成电路(application specific integrated circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器802可以包括用于信息或指令的大容量存储器。举例来说而非限制,存储器802可包括硬盘驱动器(hard disk drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,USB)驱动器或者两个及其以上这些的组合。在合适的情况下,存储器802可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器802可在综合网关设备的内部或外部。在特定实施例中,存储器802是非易失性固态存储器。在特定实施例中,存储器802包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存,或者两个或及其以上这些的组合。
例如,处理器801通过读取并执行存储器802中存储的计算机程序指令,以执行如下步骤:
处理器801,执行从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,用户关注的多媒体资源搜索结果中包括根据搜索词搜索到的至少一个多媒体资源;根据搜索词与多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据匹配结果确定不同多媒体资源之间的关联关系;根据关联关系,为多媒体资源搜索日志中获取的多个多媒体资源添加标签,得到多个多媒体资源样本;其中,标签用于表征多媒体资源之间是否关联;将多个多媒体资源样本输入至多媒体特征表征模型,输出得到与多个多媒体资源样本分别对应的特征表征信息;根据多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整多媒体特征表征模型的模型参数,直至多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
在其中一个实施例中,处理器801具体执行根据搜索词与多媒体资源之间的匹配关系,以搜索词和多媒体资源为节点,在搜索词和多媒体资源之间建立连接,得到第一二部图;根据第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
在其中一个实施例中,处理器801具体还执行从多媒体资源搜索日志中获取与多媒体资源对应的用户操作行为数据;
相应地,处理器801具体还执行根据用户操作行为数据,计算第一二部图中搜索词与多媒体资源之间的连接权重;将第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到任意两个多媒体资源之间的连接权重;根据任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
基于此,在其中一个实施例中,上述涉及的处理器801具体还执行在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在第一资源与第二资源之间建立连接,得到第二二部图;其中,第一资源和第二资源为与同一搜索词连接的任意两个多媒体资源。
另外,在其中一个实施例中,上述涉及的处理器801具体还执行根据关联关系,获取与标定资源对应的正样本和负样本;其中,正样本为与标定资源相关联的多媒体资源,负样本为与标定资源不关联的多媒体资源,标定资源为多媒体资源搜索日志中获取的多个多媒体资源中标定的任意多媒体资源;根据标定资源及其对应的正样本和负样本,构建多媒体资源三元组,为标定资源、正样本和负样本添加标签;将根据关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为多个多媒体资源样本。
在其中一个实施例中,上述涉及的处理器801具体还执行获取多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与多媒体资源样本对应的特征表征信息。
基于此,在其中一个实施例中,上述涉及的处理器801具体还执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与多媒体资源样本对应的N个维度的特征信息;利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与多媒体资源样本对应的N个维度的类型信息;利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与多媒体资源样本对应的特征表征信息。
又如,处理器801通过读取并执行存储器802中存储的计算机程序指令,以执行如下步骤:
处理器801,执行获取目标多媒体资源;其中,目标多媒体资源为用户关注的多媒体资源;将目标多媒体资源输入至多媒体特征表征模型,输出得到与目标多媒体资源对应的第一特征表征信息;其中,多媒体特征表征模型为根据多媒体资源搜索日志中获取的多个搜索词及其分别对应搜索到的用户关注的至少一个多媒体资源训练得到;根据第一特征表征信息,从多媒体资源池中获取与目标多媒体资源关联的至少一个多媒体资源;其中,至少一个多媒体资源对应的第二特征表征信息与第一特征表征信息之间的相似度大于预设阈值;向用户推荐至少一个多媒体资源。
另外,在其中一个实施例中,处理器801,还执行接收用户输入的目标搜索词;根据目标搜索词向用户推荐至少一个多媒体资源;获取用户从至少一个多媒体资源中选择的目标多媒体资源。
在其中一个实施例中,上述涉及的处理器801,还执行获取目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;将N个维度的多媒体信息输入至多媒体特征表征模型,利用多媒体特征表征模型从N个维度的多媒体信息中提取信息,输出得到与目标多媒体资源对应的第一特征表征信息。
基于此,在其中一个实施例中,上述涉及的处理器801,还执行利用多媒体特征表征模型中的N个特征提取网络分别对N个维度的多媒体信息进行特征提取,得到与目标多媒体资源对应的N个维度的特征信息;利用多媒体特征表征模型中的N个全连接层单元分别对N个维度的特征信息进行特征分类,得到与目标多媒体资源对应的N个维度的类型信息;利用多媒体特征表征模型中的特征融合层对N个维度的类型信息进行特征融合,得到与目标多媒体资源对应的第一特征表征信息。
在一个示例中,该电子设备8还可包括收发器803和总线804。其中,如图8所示,处理器801、存储器802和收发器803通过总线804连接并完成相互间的通信。
总线804包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围控件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线804可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本公开实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于实现本公开实施例所记载的模型训练方法或资源推荐方法。
在一些可能的实施方式中,本公开提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本公开各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行本公开实施例所记载的模型训练方法或资源推荐方法。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本公开是参照根据本公开的方法、设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性地,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (32)
1.一种模型训练方法,其特征在于,包括:
从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,所述用户关注的多媒体资源搜索结果中包括根据所述搜索词搜索到的至少一个多媒体资源;
根据所述搜索词与所述多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据所述匹配结果确定不同多媒体资源之间的关联关系;
根据所述关联关系,为所述多媒体资源搜索日志中获取的多个所述多媒体资源添加标签,得到多个多媒体资源样本;其中,所述标签用于表征所述多媒体资源之间是否关联;
将所述多个多媒体资源样本输入至多媒体特征表征模型,输出得到与所述多个多媒体资源样本分别对应的特征表征信息;
根据所述多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整所述多媒体特征表征模型的模型参数,直至所述多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词与所述多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据所述匹配结果确定不同多媒体资源之间的关联关系,包括:
根据所述搜索词与所述多媒体资源之间的匹配关系,以所述搜索词和所述多媒体资源为节点,在所述搜索词和所述多媒体资源之间建立连接,得到第一二部图;
基于所述第一二部图,以所述多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图;
根据所述第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
3.根据权利要求2所述的方法,其特征在于,在基于所述第一二部图,以所述多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图之前,所述方法还包括:
从所述多媒体资源搜索日志中获取与所述多媒体资源对应的用户操作行为数据;
所述基于所述第一二部图,以所述多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图,包括:
根据所述用户操作行为数据,计算所述第一二部图中所述搜索词与所述多媒体资源之间的连接权重;
将所述第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到所述任意两个多媒体资源之间的连接权重;
根据所述任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
4.根据权利要求3所述的方法,其特征在于,所述根据所述任意两个多媒体资源之间的连接权重建立连接,得到第二二部图,包括:
在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在所述第一资源与所述第二资源之间建立连接,得到所述第二二部图;其中,所述第一资源和所述第二资源为与同一搜索词连接的任意两个多媒体资源。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系,为所述多媒体资源搜索日志中获取的多个所述多媒体资源添加标签,得到多个多媒体资源样本,包括:
根据所述关联关系,获取与标定资源对应的正样本和负样本;其中,所述正样本为与所述标定资源相关联的多媒体资源,所述负样本为与所述标定资源不关联的多媒体资源,所述标定资源为所述多媒体资源搜索日志中获取的多个所述多媒体资源中标定的任意多媒体资源;
根据所述标定资源及其对应的所述正样本和所述负样本,构建多媒体资源三元组,为所述标定资源、所述正样本和所述负样本添加标签;
将根据所述关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为所述多个多媒体资源样本。
6.根据权利要求1所述的方法,其特征在于,所述将所述多个多媒体资源样本输入至多媒体特征表征模型,输出得到与所述多个多媒体资源样本分别对应的特征表征信息,包括:
获取所述多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述多媒体资源样本对应的特征表征信息。
7.根据权利要求6所述的方法,其特征在于,所述将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述多媒体资源样本对应的特征表征信息,包括:
利用所述多媒体特征表征模型中的N个特征提取网络分别对所述N个维度的多媒体信息进行特征提取,得到与所述多媒体资源样本对应的N个维度的特征信息;
利用所述多媒体特征表征模型中的N个全连接层单元分别对所述N个维度的特征信息进行特征分类,得到与所述多媒体资源样本对应的N个维度的类型信息;
利用所述多媒体特征表征模型中的特征融合层对所述N个维度的类型信息进行特征融合,得到与所述多媒体资源样本对应的特征表征信息。
8.根据权利要求7所述的方法,其特征在于,所述N个维度的多媒体信息包括文本信息和图像信息,所述N个特征提取网络包括文本特征提取网络和图像特征提取网络。
9.根据权利要求8所述的方法,其特征在于,所述文本信息包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
10.一种资源推荐方法,其特征在于,包括:
获取目标多媒体资源;其中,所述目标多媒体资源为用户关注的多媒体资源;
将所述目标多媒体资源输入至多媒体特征表征模型,输出得到与所述目标多媒体资源对应的第一特征表征信息;
根据所述第一特征表征信息,从多媒体资源池中获取与所述目标多媒体资源关联的至少一个多媒体资源;其中,所述至少一个多媒体资源对应的第二特征表征信息与所述第一特征表征信息之间的相似度大于预设阈值;
向所述用户推荐所述至少一个多媒体资源;
其中,所述多媒体特征表征模型为通过如下步骤训练得到:
从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,所述用户关注的多媒体资源搜索结果中包括根据所述搜索词搜索到的至少一个多媒体资源;
根据所述搜索词与所述多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据所述匹配结果确定不同多媒体资源之间的关联关系;
根据所述关联关系,为所述多媒体资源搜索日志中获取的多个所述多媒体资源添加标签,得到多个多媒体资源样本;其中,所述标签用于表征所述多媒体资源之间是否关联;
将所述多个多媒体资源样本输入至多媒体特征表征模型,输出得到与所述多个多媒体资源样本分别对应的特征表征信息;
根据所述多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整所述多媒体特征表征模型的模型参数,直至所述多媒体特征表征模型收敛。
11.根据权利要求10所述的方法,其特征在于,所述获取目标多媒体资源,包括:
接收所述用户输入的目标搜索词;
根据所述目标搜索词向所述用户推荐至少一个多媒体资源;
获取所述用户从所述至少一个多媒体资源中选择的目标多媒体资源。
12.根据权利要求10所述的方法,其特征在于,所述将所述目标多媒体资源输入至多媒体特征表征模型,输出得到与所述目标多媒体资源对应的第一特征表征信息,包括:
获取所述目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述目标多媒体资源对应的第一特征表征信息。
13.根据权利要求12所述的方法,其特征在于,所述将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述目标多媒体资源对应的第一特征表征信息,包括:
利用所述多媒体特征表征模型中的N个特征提取网络分别对所述N个维度的多媒体信息进行特征提取,得到与所述目标多媒体资源对应的N个维度的特征信息;
利用所述多媒体特征表征模型中的N个全连接层单元分别对所述N个维度的特征信息进行特征分类,得到与所述目标多媒体资源对应的N个维度的类型信息;
利用所述多媒体特征表征模型中的特征融合层对所述N个维度的类型信息进行特征融合,得到与所述目标多媒体资源对应的第一特征表征信息。
14.根据权利要求13所述的方法,其特征在于,所述N个维度的多媒体信息包括文本信息和图像信息,所述N个特征提取网络包括文本特征提取网络和图像特征提取网络。
15.根据权利要求14所述的方法,其特征在于,所述文本信息包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
16.一种模型训练装置,其特征在于,包括:
结果获取模块,被配置为执行从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,所述用户关注的多媒体资源搜索结果中包括根据所述搜索词搜索到的至少一个多媒体资源;
关系确定模块,被配置为执行根据所述搜索词与所述多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据所述匹配结果确定不同多媒体资源之间的关联关系;
样本构建模块,被配置为执行根据所述关联关系,为所述多媒体资源搜索日志中获取的多个所述多媒体资源添加标签,得到多个多媒体资源样本;其中,所述标签用于表征所述多媒体资源之间是否关联;
信息处理模块,被配置为执行将所述多个多媒体资源样本输入至多媒体特征表征模型,输出得到与所述多个多媒体资源样本分别对应的特征表征信息;
参数调整模块,被配置为执行根据所述多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整所述多媒体特征表征模型的模型参数,直至所述多媒体特征表征模型收敛,得到经训练的多媒体特征表征模型。
17.根据权利要求16所述的装置,其特征在于,所述关系确定模块包括:
第一连接子模块,被配置为执行根据所述搜索词与所述多媒体资源之间的匹配关系,以所述搜索词和所述多媒体资源为节点,在所述搜索词和所述多媒体资源之间建立连接,得到第一二部图;
第二连接子模块,被配置为执行基于所述第一二部图,以所述多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图;
关系确定子模块,被配置为执行根据所述第二二部图,确定不同多媒体资源之间的关联关系;其中,直接连接的任意两个多媒体资源之间相关联,间接连接或无连接的任意两个多媒体资源之间不关联。
18.根据权利要求17所述的装置,其特征在于,所述关系确定模块还包括:
行为获取子模块,被配置为执行在基于所述第一二部图,以所述多媒体资源为节点,在不同多媒体资源之间建立连接,得到第二二部图之前,从所述多媒体资源搜索日志中获取与所述多媒体资源对应的用户操作行为数据;
所述第二连接子模块,包括:
权重计算单元,被配置为执行根据所述用户操作行为数据,计算所述第一二部图中所述搜索词与所述多媒体资源之间的连接权重;
权重相加单元,被配置为执行将所述第一二部图中与同一搜索词连接的任意两个多媒体资源对应的连接权重相加,得到所述任意两个多媒体资源之间的连接权重;
连接建立单元,被配置为执行根据所述任意两个多媒体资源之间的连接权重建立连接,得到第二二部图。
19.根据权利要求18所述的装置,其特征在于,所述连接建立单元包括:
连接子单元,被配置为执行在第一资源与第二资源之间的连接权重大于预设阈值的情况下,在所述第一资源与所述第二资源之间建立连接,得到所述第二二部图;其中,所述第一资源和所述第二资源为与同一搜索词连接的任意两个多媒体资源。
20.根据权利要求16所述的装置,其特征在于,所述样本构建模块包括:
样本获取子模块,被配置为执行根据所述关联关系,获取与标定资源对应的正样本和负样本;其中,所述正样本为与所述标定资源相关联的多媒体资源,所述负样本为与所述标定资源不关联的多媒体资源,所述标定资源为所述多媒体资源搜索日志中获取的多个所述多媒体资源中标定的任意多媒体资源;
三元组构建子模块,被配置为执行根据所述标定资源及其对应的所述正样本和所述负样本,构建多媒体资源三元组,为所述标定资源、所述正样本和所述负样本添加标签;
样本组成子模块,被配置为执行将根据所述关联关系构建的多个多媒体资源三元组中包括的多媒体资源及其对应的标签,作为所述多个多媒体资源样本。
21.根据权利要求16所述的装置,其特征在于,所述信息处理模块包括:
第一获取子模块,被配置为执行获取所述多媒体资源样本对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第一输入子模块,被配置为执行将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述多媒体资源样本对应的特征表征信息。
22.根据权利要求21所述的装置,其特征在于,所述第一输入子模块包括:
第一提取单元,被配置为执行利用所述多媒体特征表征模型中的N个特征提取网络分别对所述N个维度的多媒体信息进行特征提取,得到与所述多媒体资源样本对应的N个维度的特征信息;
第一分类单元,被配置为执行利用所述多媒体特征表征模型中的N个全连接层单元分别对所述N个维度的特征信息进行特征分类,得到与所述多媒体资源样本对应的N个维度的类型信息;
第一融合单元,被配置为执行利用所述多媒体特征表征模型中的特征融合层对所述N个维度的类型信息进行特征融合,得到与所述多媒体资源样本对应的特征表征信息。
23.根据权利要求22所述的装置,其特征在于,所述N个维度的多媒体信息包括文本信息和图像信息,所述N个特征提取网络包括文本特征提取网络和图像特征提取网络。
24.根据权利要求23所述的装置,其特征在于,所述文本信息包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
25.一种资源推荐装置,其特征在于,包括:
第一获取模块,被配置为执行获取目标多媒体资源;其中,所述目标多媒体资源为用户关注的多媒体资源;
特征表征模块,被配置为执行将所述目标多媒体资源输入至多媒体特征表征模型,输出得到与所述目标多媒体资源对应的第一特征表征信息;
第二获取模块,被配置为执行根据所述第一特征表征信息,从多媒体资源池中获取与所述目标多媒体资源关联的至少一个多媒体资源;其中,所述至少一个多媒体资源对应的第二特征表征信息与所述第一特征表征信息之间的相似度大于预设阈值;
第一推荐模块,被配置为执行向所述用户推荐所述至少一个多媒体资源;
其中,所述多媒体特征表征模型为通过如下步骤训练得到:
从多媒体资源搜索日志中获取搜索词及其对应的用户关注的多媒体资源搜索结果;其中,所述用户关注的多媒体资源搜索结果中包括根据所述搜索词搜索到的至少一个多媒体资源;
根据所述搜索词与所述多媒体资源之间的匹配关系,确定不同多媒体资源与相同搜索词相匹配的匹配结果,根据所述匹配结果确定不同多媒体资源之间的关联关系;
根据所述关联关系,为所述多媒体资源搜索日志中获取的多个所述多媒体资源添加标签,得到多个多媒体资源样本;其中,所述标签用于表征所述多媒体资源之间是否关联;
将所述多个多媒体资源样本输入至多媒体特征表征模型,输出得到与所述多个多媒体资源样本分别对应的特征表征信息;
根据所述多个多媒体资源样本分别对应的特征表征信息之间的相似度和标签,调整所述多媒体特征表征模型的模型参数,直至所述多媒体特征表征模型收敛。
26.根据权利要求25所述的装置,其特征在于,所述第一获取模块包括:
搜索词接收子模块,被配置为执行在获取目标多媒体资源对应的N个维度的多媒体信息之前,接收所述用户输入的目标搜索词;
第二推荐子模块,被配置为执行根据所述目标搜索词向所述用户推荐至少一个多媒体资源;
资源确定子模块,被配置为执行获取所述用户从所述至少一个多媒体资源中选择的目标多媒体资源。
27.根据权利要求25所述的装置,其特征在于,所述特征表征模块,包括:
第二获取子模块,被配置为执行获取所述目标多媒体资源对应的N个维度的多媒体信息;其中,N为正整数,N≥2;
第二输入子模块,被配置为执行将所述N个维度的多媒体信息输入至所述多媒体特征表征模型,利用所述多媒体特征表征模型从所述N个维度的多媒体信息中提取信息,输出得到与所述目标多媒体资源对应的第一特征表征信息。
28.根据权利要求27所述的装置,其特征在于,所述第二输入子模块,包括:
第二提取单元,被配置为执行利用所述多媒体特征表征模型中的N个特征提取网络分别对所述N个维度的多媒体信息进行特征提取,得到与所述目标多媒体资源对应的N个维度的特征信息;
第二分类单元,被配置为执行利用所述多媒体特征表征模型中的N个全连接层单元分别对所述N个维度的特征信息进行特征分类,得到与所述目标多媒体资源对应的N个维度的类型信息;
第二融合单元,被配置为执行利用所述多媒体特征表征模型中的特征融合层对所述N个维度的类型信息进行特征融合,得到与所述目标多媒体资源对应的第一特征表征信息。
29.根据权利要求28所述的装置,其特征在于,所述N个维度的多媒体信息包括文本信息和图像信息,所述N个特征提取网络包括文本特征提取网络和图像特征提取网络。
30.根据权利要求29所述的装置,其特征在于,所述文本信息包括用户输入文本、语音识别文本以及图像识别文本中的至少一项。
31.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的模型训练方法或者如权利要求10至15中任一项所述的资源推荐方法。
32.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由模型训练装置的处理器执行时,以使所述模型训练装置实现如权利要求1至9中任一项所述的模型训练方法,或者,当所述计算机可读存储介质中的指令由资源推荐装置的处理器执行时,以使所述资源推荐装置实现如权利要求10至15中任一项所述的资源推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111029187.4A CN113469298B (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法及资源推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111029187.4A CN113469298B (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法及资源推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469298A CN113469298A (zh) | 2021-10-01 |
CN113469298B true CN113469298B (zh) | 2022-01-21 |
Family
ID=77867300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111029187.4A Active CN113469298B (zh) | 2021-09-03 | 2021-09-03 | 模型训练方法及资源推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469298B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301886B (zh) * | 2021-12-17 | 2024-02-23 | 北京达佳互联信息技术有限公司 | 一种多媒体资源的识别方法、装置、设备及存储介质 |
CN114462502A (zh) * | 2022-01-06 | 2022-05-10 | 支付宝(杭州)信息技术有限公司 | 一种核身推荐模型训练方法及装置 |
CN114491272B (zh) * | 2022-02-14 | 2023-09-12 | 北京有竹居网络技术有限公司 | 一种多媒体内容推荐方法及装置 |
CN115545121A (zh) * | 2022-11-25 | 2022-12-30 | 北京红棉小冰科技有限公司 | 一种模型训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132322A1 (en) * | 2015-02-13 | 2017-05-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search recommendation method and device |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN110019852A (zh) * | 2017-12-27 | 2019-07-16 | 上海全土豆文化传播有限公司 | 多媒体资源搜索方法和装置 |
CN111708964A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 多媒体资源的推荐方法、装置、电子设备和存储介质 |
CN112380453A (zh) * | 2021-01-15 | 2021-02-19 | 腾讯科技(深圳)有限公司 | 物品推荐方法、装置、存储介质及设备 |
-
2021
- 2021-09-03 CN CN202111029187.4A patent/CN113469298B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170132322A1 (en) * | 2015-02-13 | 2017-05-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Search recommendation method and device |
CN108121736A (zh) * | 2016-11-30 | 2018-06-05 | 北京搜狗科技发展有限公司 | 一种主题词确定模型的建立方法、装置及电子设备 |
CN110019852A (zh) * | 2017-12-27 | 2019-07-16 | 上海全土豆文化传播有限公司 | 多媒体资源搜索方法和装置 |
CN111708964A (zh) * | 2020-05-27 | 2020-09-25 | 北京百度网讯科技有限公司 | 多媒体资源的推荐方法、装置、电子设备和存储介质 |
CN112380453A (zh) * | 2021-01-15 | 2021-02-19 | 腾讯科技(深圳)有限公司 | 物品推荐方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113469298A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469298B (zh) | 模型训练方法及资源推荐方法 | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN109299457B (zh) | 一种观点挖掘方法、装置及设备 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN110717325B (zh) | 文本的情感分析方法、装置、电子设备及存储介质 | |
CN112533051B (zh) | 弹幕信息显示方法、装置、计算机设备和存储介质 | |
CN111259215A (zh) | 基于多模态的主题分类方法、装置、设备、以及存储介质 | |
CN109299399B (zh) | 一种学习内容的推荐方法及终端设备 | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN111444326A (zh) | 一种文本数据处理方法、装置、设备以及存储介质 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN113094552A (zh) | 视频模板的搜索方法、装置、服务器及可读存储介质 | |
CN111428025B (zh) | 文本摘要方法、装置、电子设备和存储介质 | |
CN111708909A (zh) | 视频标签的添加方法及装置、电子设备、计算机可读存储介质 | |
CN112214984A (zh) | 内容抄袭识别方法、装置、设备及存储介质 | |
CN113297525A (zh) | 网页分类方法、装置、电子设备、及存储介质 | |
CN113992944A (zh) | 视频编目方法、装置、设备、系统及介质 | |
CN115730073A (zh) | 文本处理方法、装置及存储介质 | |
CN115527520A (zh) | 异常检测方法、装置、电子设备和计算机可读存储介质 | |
CN115098729A (zh) | 视频处理方法、样本生成方法、模型训练方法及装置 | |
CN114363664A (zh) | 生成视频合集标题的方法及装置 | |
CN113343922A (zh) | 视频识别方法、装置、电子设备及存储介质 | |
CN113987264A (zh) | 视频摘要生成方法、装置、设备、系统及介质 | |
CN113704549A (zh) | 视频标签的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |