CN111988668B - 一种视频推荐方法、装置、计算机设备及存储介质 - Google Patents

一种视频推荐方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111988668B
CN111988668B CN202010889214.4A CN202010889214A CN111988668B CN 111988668 B CN111988668 B CN 111988668B CN 202010889214 A CN202010889214 A CN 202010889214A CN 111988668 B CN111988668 B CN 111988668B
Authority
CN
China
Prior art keywords
tendency
video
title
information
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010889214.4A
Other languages
English (en)
Other versions
CN111988668A (zh
Inventor
梁涛
张晗
马连洋
衡阵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010889214.4A priority Critical patent/CN111988668B/zh
Publication of CN111988668A publication Critical patent/CN111988668A/zh
Application granted granted Critical
Publication of CN111988668B publication Critical patent/CN111988668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频推荐方法、装置、计算机设备及存储介质;获取目标视频的视频标题的多个隐藏状态信息;对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息;获取目标视频的图像倾向特征信息;将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息;将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息;将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐,其中,可以将目标视频的目标视频倾向特征信息存储到云服务器中,以便后续进行信息读取。本方案可以提高视频推荐的准确率。

Description

一种视频推荐方法、装置、计算机设备及存储介质
技术领域
本申请涉及通信技术领域,具体涉及一种视频推荐方法、装置、计算机设备及存储介质。
背景技术
随着信息技术的飞速发展,针对挖掘出的用户浏览视频的倾向与视频本身的内容倾向,向用户进行的视频推荐也得到了飞速的发展,在实际生活中可以利用云服务器来辅助挖掘视频的内容的倾向信息,来进行视频推荐,将视频推荐给对应的用户。
在对相关技术的研究和实践过程中,本申请的发明人发现目前对视频倾向信息的挖掘,主要是通过视频中单一的模态信息进行倾向信息的挖掘,挖掘到的视频的倾向信息精准性较差,不能很好的表征视频的内容倾向,进而在进行视频推荐的时候,视频推荐的准确率较低。
发明内容
本申请实施例提供一种视频推荐方法、装置、计算机设备及存储介质,可以提高视频推荐的准确率。
本申请实施例提供了一种视频推荐方法,包括:
获取目标视频的视频标题的多个隐藏状态信息,所述隐藏状态信息表征所述视频标题的标题上下文语义信息;
对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,所述标题倾向特征信息指示用户对所述视频标题的标题内容的倾向;
获取所述目标视频的图像倾向特征信息,所述图像倾向特征信息指示用户对所述目标视频中目标图像的图像内容的倾向;
将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息;
将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息;
将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,基于所述目标视频倾向特征信息,对所述目标视频进行推荐。
相应的,本申请实施例提供了一种视频推荐装置,包括:
第一获取单元,用于获取目标视频的视频标题的多个隐藏状态信息,所述隐藏状态信息表征所述视频标题的标题上下文语义信息;
第一融合单元,用于对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,所述标题倾向特征信息指示用户对所述视频标题的标题内容的倾向;
第二获取单元,用于获取所述目标视频的图像倾向特征信息,所述图像倾向特征信息指示用户对所述目标视频中目标图像的图像内容的倾向;
第二融合单元,用于将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息;
第三融合单元,用于将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息;
第四融合单元,用于将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,基于所述目标视频倾向特征信息,对所述目标视频进行推荐。
在一实施例中,所述第一获取单元,包括:
分词子单元,用于对目标视频的视频标题进行分词处理,得到所述目标视频的多个标题词组;
第一特征提取子单元,用于对所述多个标题词组进行语义特征提取,得到所述视频标题的多个隐藏状态信息。
在一实施例中,所述第一特征提取子单元还用于将所述多个标题词组进行向量转化,得到所述视频标题的多个标题词向量;提取所述多个标题词向量的语义特征信息,得到所述视频标题的多个隐藏状态信息。
在一实施例中,所述第一融合单元,包括:
第一向量转化子单元,用于对所述多个隐藏状态信息进行向量转化,得到每个隐藏状态信息对应的隐藏状态词向量;
第一融合子单元,用于对每个隐藏状态词向量进行融合,得到所述视频标题的标题倾向特征信息。
在一实施例中,所述第二获取单元,包括:
图像处理子单元,用于对所述目标视频的目标图像进行图像裁剪处理,得到所述目标视频的裁剪后图像;
第二特征提取子单元,用于对所述裁剪后图像进行图像倾向特征提取,得到所述目标视频的图像倾向特征信息。
在一实施例中,所述第二特征提取子单元还用于获取所述裁剪后图像的像素值;对所述像素值进行归一化处理,得到所述裁剪后图像的三维数组;对所述三维数组进行图像倾向特征提取,得到所述目标视频的图像倾向特征信息。
在一实施例中,所述第二融合单元,包括:
第二融合子单元,用于将所述多个隐藏状态信息与所述图像倾向特征信息进行信息融合,得到所述视频标题的标题内容关联参数,所述标题内容关联参数表征所述视频标题与所述目标图像的标题内容关联程度;
加权子单元,用于将所述多个隐藏状态信息与所述标题内容关联参数进行加权处理,得到所述视频标题的目标标题倾向信息。
在一实施例中,所述第三融合单元,包括:
第三融合子单元,用于将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的图像内容关联参数,所述图像内容关联参数表征所述视频标题与所述目标图像的图像内容关联程度;
第四融合子单元,用于将所述图像内容关联参数、所述标题倾向特征信息、以及所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息。
在一实施例中,所述第四融合子单元还用于对所述标题倾向特征信息与所述图像倾向特征信息进行向量转化,得到所述标题倾向特征信息对应的标题倾向词向量与所述图像倾向特征信息对应的图像倾向词向量;对所述图像内容关联参数与所述标题倾向词向量进行融合,得到所述目标图像的标题倾向程度信息;将所述标题倾向程度信息与所述图像倾向词向量进行融合,得到所述目标图像的目标图像倾向信息。
在一实施例中,所述第四融合单元,包括:
第五融合子单元,用于将所述目标标题倾向信息与所述目标图像倾向信息进行融合,得到所述目标视频的视频倾向特征信息;
特征信息处理子单元,用于对所述视频倾向特征信息进行非线性处理,得到所述目标视频的目标视频倾向特征信息。
在一实施例中,所述特征信息处理子单元还用于对所述视频倾向特征信息进行非线性处理,得到处理后视频倾向特征信息;对所述处理后视频倾向特征信息进行调整,得到所述目标视频的内容倾向参数;当所述内容倾向参数的参数值大于预设内容倾向阈值时,基于所述内容倾向参数确定所述目标视频的目标视频倾向特征信息。
在一实施例中,所述第四融合单元,包括:
统计子单元,用于统计目标用户浏览历史视频的用户倾向特征信息;
匹配子单元,用于将所述用户倾向特征信息与所述目标视频倾向特征信息进行匹配;
推荐子单元,用于当所述用户倾向特征信息与所述目标视频倾向特征信息相匹配时,向所述目标用户推荐所述目标视频倾向特征信息对应的目标视频。
相应的,本申请实施例还提供了一种计算机设备,包括存储器,处理器及存储在储存器上并可在处理器上运行的计算机程序,其中,所述处理器执行本申请实施例任一提供的视频推荐方法中的步骤。
相应的,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适用于处理器进行加载,以执行本申请实施例任一提供的视频推荐方法中的步骤。
本申请实施例可以获取目标视频的视频标题的多个隐藏状态信息,所述隐藏状态信息表征所述视频标题的标题上下文语义信息;对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,所述标题倾向特征信息指示用户对所述视频标题的标题内容的倾向;获取所述目标视频的图像倾向特征信息,所述图像倾向特征信息指示用户对所述目标视频中目标图像的图像内容的倾向;将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息;将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息;将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,基于所述目标视频倾向特征信息,对所述目标视频进行推荐。本方案可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的视频推荐方法的场景示意图;
图2a是本申请实施例提供的视频推荐方法的流程图;
图2b是本申请实施例提供的视频推荐方法的另一场景示意图;
图2c是本申请实施例提供的视频推荐方法的倾向信息挖掘流程图;
图2d是本申请实施例提供的视频推荐方法的另一倾向信息挖掘流程图;
图2e是本申请实施例提供的视频推荐方法的全连接层处理操作图;
图3a是本申请实施例提供的视频推荐方法的另一流程图;
图3b是本申请实施例提供的视频推荐方法的另一倾向信息挖掘流程图;
图3c是本申请实施例提供的视频推荐方法的另一倾向信息挖掘流程图;
图4a是本申请实施例提供的视频推荐方法的装置图;
图4b是本申请实施例提供的视频推荐方法的另一装置图;
图4c是本申请实施例提供的视频推荐方法的另一装置图;
图4d是本申请实施例提供的视频推荐方法的另一装置图;
图4e是本申请实施例提供的视频推荐方法的另一装置图;
图4f是本申请实施例提供的视频推荐方法的另一装置图;
图4g是本申请实施例提供的视频推荐方法的另一装置图;
图5是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种视频推荐方法、装置、计算机设备及存储介质。具体地,本申请实施例提供适用于计算机设备的视频推荐装置。其中,该计算机设备可以为终端或服务器等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
参考图1,以计算机设备为云服务器为例,该云服务器可以获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息;对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向;获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向;将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息;将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息;将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
其中,该视频标题的多个隐藏状态信息可以基于云平台技术进行获取,而云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。本实施例中的云平台可以理解为基于上述云服务器构成的平台,该平台可以为用户提供各种需要的服务,例如为用户提供公司网站构建和运营服务等等,用户可以在该云平台上购买云服务器资源,例如存储资源和计算资源等等,用户可以基于购买的资源和云服务器提供的各种组件,完成各种任务。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费,本实施例中,目标账户的历史操作,可以是利用云服务器中分布式的服务器实现的,可以理解的是,目标账户的不同历史操作,可以是通过云服务器中的不同实体服务器实现,本实施例对此没有限制。
由以上可知,本申请实施例可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
本实施例可以以下分别进行详细说明,需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本申请实施例提供一种视频推荐方法,该方法可以由终端或服务器执行,也可以由终端和服务器共同执行;本申请实施例以视频推荐方法由服务器执行为例来进行说明,具体的,由集成在服务器中的视频推荐装置来执行。如图2a所示,该视频推荐方法的具体流程可以如下:
201、获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息。
其中,隐藏状态信息为表征视频标题语义的信息,可以对隐藏状态信息进行信息融合,得到视频标题的标题倾向特征信息,也可以将隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息。
其中,视频标题包含目标视频内容的整体信息梗概,进而获取视频标题的多个隐藏状态信息,也可以较好的表征目标视频的内容。
在一实施例中,步骤“获取目标视频的视频标题的多个隐藏状态信息”,可以包括:
对目标视频的视频标题进行分词处理,得到目标视频的多个标题词组;
对多个标题词组进行语义特征提取,得到视频标题的多个隐藏状态信息。
在一示例中,每个隐藏状态信息都对应有一个标题词组,每个隐藏状态信息可以表征对应标题词组本身的语义、以及该标题词组与其他标题词组的标题上下文语义。
在一实施例中,详细步骤“对多个标题词组进行语义特征提取,得到视频标题的多个隐藏状态信息”,可以包括:
将多个标题词组进行向量转化,得到视频标题的多个标题词向量;
提取多个标题词向量的语义特征信息,得到视频标题的多个隐藏状态信息。
在一示例中,如图2b所示,可以获取目标视频的视频标题与目标图像,其中,目标图像可以为视频封面图像,可以为视频中比较具有代表性的图像,等图像,然后分别挖掘视频标题与目标图像的倾向特征信息。
202、对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向。
其中,标题倾向特征信息可以用于辅助挖掘用户对目标视频的视频内容的倾向,提高对视频内容的用户倾向识别的准确性。
在一实施例中,步骤“对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息”,可以包括:
对多个隐藏状态信息进行向量转化,得到每个隐藏状态信息对应的隐藏状态词向量;
对每个隐藏状态词向量进行融合,得到视频标题的标题倾向特征信息。
在一示例中,如图2c所示,本申请将整个目标视频的倾向信息挖掘分为三个模块,具体步骤可以为:文本模态—标题倾向性挖掘;视觉模态—图像倾向性挖掘;标题倾向性和图像倾向性交互关系挖掘。
文本模态—标题倾向性挖掘具体步骤可以为:将视频标题预处理后形成词列表,然后对形成的词列表进行向量化处理,比如可以以谷歌预训练词向量word2vec对词列表进行向量化处理,随后传入一个序列网络长短期记忆网络(Long Short Term Memory,LSTM)中,挖掘出视频标题的标题倾向特征信息。
其中,LSTM是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
视觉模态—图像倾向性挖掘具体步骤可以为:图像模态—图像倾向性挖掘,对目标视频的目标图像进行预处理,将目标图像进行预处理之后传入50层的残差网络(Residual Network 50,ResNet50)中进行特征提取,取网络池化层(pool2)的输出作为目标图像的图像倾向特征信息。
其中,ResNet(Residual Network,残差网络)广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的网络有ResNet50。ResNet50的网络结构,首先对输入做了卷积操作,之后包含4个残差块(Residual Block),最后进行全连接操作以便于进行分类任务。
标题倾向性和图像倾向性交互关系挖掘具体步骤可以为:视频标题通过LSTM获得标题序列各个时刻的隐藏状态信息,随后与图像倾向特征信息进行融合,构建以视频标题为基础的视频标题的目标标题倾向信息。另一方面,将图像倾向特征信息与标题倾向特征信息进行融合,构建以目标图像为基础的目标图像的目标图像倾向信息,随后将目标标题倾向信息与目标图像倾向信息进行融合,随后传入全连接层(Full-connected layer,FC)进行视频倾向性识别。
其中,全连接层在整个卷积神经网络中起到“分类器”的作用,即通过卷积、激活函数、池化等深度网络后,再经过全连接层对结果进行识别分类。首先将经过卷积、激活函数、池化的深度网络后的结果串起来。
203、获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向。
其中,图像倾向特征信息也可以用于辅助挖掘用户对目标视频的视频内容的倾向,提高对视频内容的用户倾向识别的准确性。
在一实施例中,步骤“获取目标视频的图像倾向特征信息”,可以包括:
对目标视频的目标图像进行图像裁剪处理,得到目标视频的裁剪后图像;
对裁剪后图像进行图像倾向特征提取,得到目标视频的图像倾向特征信息。
在一示例中,可以获取目标视频的多个视频图像,对多个视频图像进行图像裁剪,得到目标视频的多个裁剪后图像,然后对该多个裁剪后图像进行图像倾向特征提取,得到目标视频的图像倾向特征信息。
在一实施例中,详细步骤“对裁剪后图像进行图像倾向特征提取,得到目标视频的图像倾向特征信息”,可以包括:
获取裁剪后图像的像素值;
对像素值进行归一化处理,得到裁剪后图像的三维数组;
对三维数组进行图像倾向特征提取,得到目标视频的图像倾向特征信息。
其中,像素值是原稿图像被数字化时由计算机赋予的值,它代表了原稿某一小方块的平均亮度信息,或者说是该小方块的平均反射(透射)密度信息,在本方案中的像素值指的是裁剪后图像被数字化时,由计算机赋予的值,对其进行归一化处理,可以的到一个三维数组,比如,可以得到一个大小为224的三维数组。
其中,归一化就是要把需要处理的数据经过处理后,限制在一定范围内。首先归一化是为了后面数据处理的方便,其次是保证程序运行时收敛加快。归一化有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
204、将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息。
其中,目标标题倾向信息为以视频标题为基础的强视频标题倾向性信息,与标题倾向特征信息相比较而言,可以更为精准的指示用户对视频标题的标题内容的倾向。
在一实施例中,步骤“将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息”,可以包括:
将多个隐藏状态信息与图像倾向特征信息进行信息融合,得到视频标题的标题内容关联参数,标题内容关联参数表征视频标题与目标图像的标题内容关联程度;
将多个隐藏状态信息与标题内容关联参数进行加权处理,得到视频标题的目标标题倾向信息。
在一实施例中,如图2d所示,已经得到了视频标题的隐藏状态信息列表,即隐藏状态信息1、隐藏状态信息2、……、隐藏状态信息n,和图像倾向特征信息,将各隐藏状态信息与图像倾向特征信息进行融合,得到视频标题关于目标图像的标题内容关联参数,其中,该标题内容关联参数表征视频标题与目标图像的标题内容关联程度,随后将该标题内容关联参数和各隐藏状态信息进行加权处理,得到以视频标题为基础的视频标题的目标视频标题倾向信息。
205、将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息。
其中,目标图像倾向信息为以目标图像为基础的强图像倾向性信息,与图像倾向特征信息相比较而言,可以更为精准的指示用户对目标图像的图像内容的倾向。
在一实施例中,步骤“将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息”,可以包括:
将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的图像内容关联参数,图像内容关联参数表征视频标题与目标图像的图像内容关联程度;
将图像内容关联参数、标题倾向特征信息、以及图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息。
在一实施例中,如图2d所示,将标题倾向特征信息和图像倾向特征信息进行融合,得到目标图像关于视频标题的图像内容关联参数,接着将图像内容关联参数、标题倾向特征信息、以及图像倾向特征信息进行融合,得到以目标图像为基础的目标图像倾向信息。
在一实施例中,详细步骤“将图像内容关联参数、标题倾向特征信息、以及图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息”,可以包括:
对标题倾向特征信息与图像倾向特征信息进行向量转化,得到标题倾向特征信息对应的标题倾向词向量与图像倾向特征信息对应的图像倾向词向量;
对图像内容关联参数与标题倾向词向量进行融合,得到目标图像的标题倾向程度信息;
将标题倾向程度信息与图像倾向词向量进行融合,得到目标图像的目标图像倾向信息。
206、将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
其中,目标视频倾向特征信息是基于视频标题与目标图像两种模态中挖掘的倾向信息之间的交互关系挖掘,构建的强倾向信息。
在一实施例中,步骤“将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息”,可以包括:
将目标标题倾向信息与目标图像倾向信息进行融合,得到目标视频的视频倾向特征信息;
对视频倾向特征信息进行非线性处理,得到目标视频的目标视频倾向特征信息。
在一示例中,可以将目标标题倾向信息与目标图像倾向信息进行向量化处理,得到目标标题倾向信息对应的目标标题倾向词向量,与目标图像倾向信息对应的目标图像倾向词向量,然后对目标标题倾向词向量与目标图像倾向词向量进行融合,比如,可以对目标标题倾向词向量与目标图像倾向词向量进行向量拼接,得到目标视频的视频倾向词向量,然后将该视频倾向词向量输入全连接层进行非线性变换,并输出视频倾向词向量变换后的信息,基于该信息得到目标视频的目标视频倾向特征信息。
在一实施例中,步骤“对视频倾向特征信息进行非线性处理,得到目标视频的目标视频倾向特征信息”,可以包括:
对视频倾向特征信息进行非线性处理,得到处理后视频倾向特征信息;
对处理后视频倾向特征信息进行调整,得到目标视频的内容倾向参数;
当内容倾向参数的参数值大于预设内容倾向阈值时,基于内容倾向参数确定目标视频的目标视频倾向特征信息。
在一示例中,可以对处理后视频倾向特征信息进行调整,使得到的视频内容参数的参数值在预设数值范围内,比如,视频内容参数的参数值在0~1范围内,当视频内容倾向参数的参数值为0.6,预设内容倾向阈值为0.5时,可以确定用户对目标视频的目标视频倾向(喜欢)特征信息。
在一实施例中,获取目标视频的多个视频台词;对多个台词进行分词,得到目标视频的多个台词词组;对多个台词词组进行语义特征提取,得到多个视频台词的多个台词隐藏状态信息;对多个台词隐藏状态信息进行融合,得到多个视频台词的台词倾向特征信息。
在一实施例中,将目标标题倾向信息、目标图像倾向信息、以及台词倾向特征信息进行融合,构建目标视频的目标视频倾向特征信息。
在一实施例中,获取目标视频的多个视频评论;对多个视频评论进行分词,得到目标视频的多个视频评论词组;对多个视频评论词组进行语义特征提取,得到多个视频评论的评论倾向特征信息。
在一实施例中,将目标标题倾向信息、目标图像倾向信息、以及评论倾向特征信息进行融合,构建目标视频的目标视频倾向特征信息。
在一示例中,如图2e所示,将目标标题倾向信息和目标图像倾向信息进行融合,得到视频倾向特征信息,可以对视频倾向特征信息进行向量化处理,然后将向量化处理得到的词向量输入全连接层,全连接层可以对输入的词向量进行非线性变换Y=f(WX+b)并输出。
其中f为图2e中的节点,为激活函数,W为权重矩阵,b为偏置常量。然后将fc层的输出结果转化为倾向性推荐的概率,计算方法如下。其中zj=Wxj+b为全连接层输出,W、b为该层待训练参数。
Figure BDA0002656426130000141
在一实施例中,步骤“基于目标视频倾向特征信息,对目标视频进行推荐”,可以包括:
统计目标用户浏览历史视频的用户倾向特征信息;
将用户倾向特征信息与目标视频倾向特征信息进行匹配;
当用户倾向特征信息与目标视频倾向特征信息相匹配时,向目标用户推荐目标视频倾向特征信息对应的目标视频。
在一实施例中,对当前多个热门视频的推荐权重进行调整,挖掘各热门视频的目标视频倾向特征信息,并统计目标用户浏览历史视频的用户倾向特征信息,然后,将各热门视频的目标视频倾向特征信息与用户倾向特征信息进行匹配,基于匹配结果与各热门视频的推荐权重,向目标用户推荐热门视频。
由以上可知,本申请实施例可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
根据上述介绍的内容,下面将举例来进一步说明本申请的视频推荐方法。参考图3a,一种视频推荐方法,具体流程可以如下:
301、服务器对目标视频的视频标题进行分词处理,得到目标视频的多个标题词组。
在一实施例中,可以对视频标题进行分词和去停用词处理,得到处理后的目标视频的多个标题词组,然后在对多个标题词组进行语义特征提取,得到视频标题的多个隐藏状态信息。
其中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后,会自动过滤掉某些字或词,这些字或词被称为Stop Words(停用词),停用词大致分为两类。一类是人类语言中包含的功能词,这些功能词极其普遍,与其他词相比,功能词没有什么实际含义;另一类词包括词汇词,这些词应用十分广泛,但是对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率,所以通常会把这些词从问题中移去,从而提高搜索性能。
在一实施例中,可以过滤掉视频标题的预设字符,比如标点符号、数字、字母等,然后再对过滤后的视频标题进行分词处理,得到目标视频的多个标题词组。
302、服务器对多个标题词组进行语义特征提取,得到视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息。
在一示例中,如图3b所示,标题倾向特征信息详细挖掘过程可以包括:首先将视频标题通过分词和去停用词后形成词列表,比如,可以得到标题词组1、标题词组2、……、标题词组n,随后使用谷歌预训练词向量word2vec进行标题词组的向量化处理,得到标题词向量列表,比如,标题词向量列表可以包括标题词向量1、标题词向量2、……、标题词向量n,其中,每个标题词向量维度可以为300,也可以为其他维度,随后将标题词向量列表传入一个LSTM中,挖掘每个词对应的隐藏状态信息,每个隐藏状态信息可以表征对应标题词组本身的语义、以及该标题词组与其他标题词组的标题上下文语义。
303、服务器对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向。
在一实施例中,可以将所有的隐藏状态信息进行向量化处理,得到对应多个隐藏状态词向量,对这些隐藏状态词向量求和再平均,然后再对其进行倾向特征提取,可以得到视频标题的标题倾向特征信息。
304、服务器对目标视频的目标图像进行图像裁剪处理,得到目标视频的裁剪后图像。
在一实施例中,服务器还可以获取目标视频的多个图像帧,对每个图像帧进行图像裁剪处理,以便从经过裁剪处理后得到的多个裁剪后图像帧中提取图像倾向特征信息,得到目标视频的图像倾向特征信息。
305、服务器对裁剪后图像进行图像倾向特征提取,得到目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向。
在一实施例中,目标图像可以为目标视频的任一视频图像,可以为目标视频的视频封面(Cover of Video,CV)等,可以理解的是,视频封面可以较好的代表了目标视频的主要场景和人物信息,即可以较好的代表视频场景内容的。
在一示例中,如图3c所示,在目标图像中挖掘出用户倾向性信息,首先对目标图像进行resize(调整目标图像的大小)、数组化和归一化预处理,得到一个三维数组,比如,可以得到一个大小为224的三维数组,随后将该三维数组传入ResNet50网络中进行特征提取,比如,可以提取裁剪后图像中的人物、物品、色彩等特征,该网络采用ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)预训练权重进行初始化,将网络中pool2层的输出作为目标图像的图像倾向特征信息。
其中,数组化指的是获取裁剪后图像的像素值,归一化则指的是调整得到的裁剪后图像的像素值,以得到一个三维数组。
306、服务器将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息。
在一示例中,多个隐藏状态信息可以构成隐藏状态信息列表,将每个隐藏状态信息与图像特征信息进行融合,得到视频标题的标题内容关联参数集合,该标题内容关联参数集合包括多个标题内容关联参数,然后将多个隐藏状态信息与多个标题内容关联参数进行加权处理,比如,标题内容关联参数集合中可以包括:标题内容关联参数1、标题内容关联参数2、……、标题内容关联参数n,隐藏状态信息列表中可以包括:隐藏状态信息1、隐藏状态信息2、……、隐藏状态信息n,可以对隐藏状态信息列表中的各隐藏状态信息进行向量化处理,得到隐藏状态词向量1、隐藏状态词向量2、……、隐藏状态词向量n,随后将标题内容关联参数1、标题内容关联参数2、……、标题内容关联参数n与隐藏状态词向量1、隐藏状态词向量2、……、隐藏状态词向量n进行加权求和,之后再进行倾向特征信息提取,可以得到以视频标题为基础的视频标题的目标标题倾向信息。
307、服务器将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息。
在一实施例中,对标题倾向特征信息与图像倾向特征信息进行向量化处理,得到标题倾向词向量与图像倾向词向量,对标题倾向词向量与图像倾向词向量进行向量融合,比如,标题倾向词向量与图像倾向词向量进行向量相乘,得到目标图像的图像内容关联参数,接着将标题倾向词向量与图像内容关联参数进行向量相乘,得到的向量相乘结果再与图像倾向词向量进行相加,之后再进行倾向特征信息提取,可以得到以目标图像为基础的目标图像的目标图像倾向信息。
308、服务器将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
其中,对于用户视频倾向性识别,目前常用的识别方案是使用视频中单一模态信息,比如,使用视频标题来进行用户视频倾向信息挖掘,这种方法对于视频中的倾向信息挖掘不够充分,而本申请将对目标视频的用户视频倾向性识别划分为三个模块步骤,一个模块是对视频标题进行倾向信息挖掘,一个模块是对视频的目标图像进行倾向信息挖掘,从两种不同的视频模态中获取更多的倾向信息,最后一个模块是基于所挖掘的两种模态倾向信息进行模态间交互关系挖掘,并基于这种交互关系来构建强倾向信息,这将有助于提升用户对目标视频的视频内容的倾向识别。
其中,可以基于挖掘出的目标视频倾向特征信息,向对应的用户推荐该目标视频倾向特征信息对应的目标视频。
由以上可知,本申请实施例可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
为了更好地实施以上方法,相应的,本申请实施例还提供一种视频推荐装置,其中,该视频推荐装置具体可以集成在服务器中,参考图4a,该视频推荐装置可以包括第一获取单元401、第一融合单元402、第二获取单元403、第二融合单元404、第三融合单元405和第四融合单元406,如下:
(1)第一获取单元401;
第一获取单元401,用于获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息。
在一实施例中,如图4b所示,第一获取单元401,包括:
分词子单元4011,用于对目标视频的视频标题进行分词处理,得到目标视频的多个标题词组;
第一特征提取子单元4012,用于对多个标题词组进行语义特征提取,得到视频标题的多个隐藏状态信息。
在一实施例中,第一特征提取子单元4012还用于将多个标题词组进行向量转化,得到视频标题的多个标题词向量;提取多个标题词向量的语义特征信息,得到视频标题的多个隐藏状态信息。
(2)第一融合单元402;
第一融合单元402,用于对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向。
在一实施例中,如图4c所示,第一融合单元402,包括:
第一向量转化子单元4021,用于对多个隐藏状态信息进行向量转化,得到每个隐藏状态信息对应的隐藏状态词向量;
第一融合子单元4022,用于对每个隐藏状态词向量进行融合,得到视频标题的标题倾向特征信息。
(3)第二获取单元403;
第二获取单元403,用于获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向。
在一实施例中,如图4d所示,第二获取单元403,包括:
图像处理子单元4031,用于对目标视频的目标图像进行图像裁剪处理,得到目标视频的裁剪后图像;
第二特征提取子单元4032,用于对裁剪后图像进行图像倾向特征提取,得到目标视频的图像倾向特征信息。
在一实施例中,第二特征提取子单元4032还用于获取裁剪后图像的像素值;对像素值进行归一化处理,得到裁剪后图像的三维数组;对三维数组进行图像倾向特征提取,得到目标视频的图像倾向特征信息。
(4)第二融合单元404;
第二融合单元404,用于将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息。
在一实施例中,如图4e所示,第二融合单元404,包括:
第二融合子单元4041,用于将多个隐藏状态信息与图像倾向特征信息进行信息融合,得到视频标题的标题内容关联参数,标题内容关联参数表征视频标题与目标图像的标题内容关联程度;
加权子单元4042,用于将多个隐藏状态信息与标题内容关联参数进行加权处理,得到视频标题的目标标题倾向信息。
(5)第三融合单元405;
第三融合单元405,用于将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息。
在一实施例中,如图4f所示,第三融合单元405,包括:
第三融合子单元4051,用于将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的图像内容关联参数,图像内容关联参数表征视频标题与目标图像的图像内容关联程度;
第四融合子单元4052,用于将图像内容关联参数、标题倾向特征信息、以及图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息。
在一实施例中,第四融合子单元4052还用于对标题倾向特征信息与图像倾向特征信息进行向量转化,得到标题倾向特征信息对应的标题倾向词向量与图像倾向特征信息对应的图像倾向词向量;对图像内容关联参数与标题倾向词向量进行融合,得到目标图像的标题倾向程度信息;将标题倾向程度信息与图像倾向词向量进行融合,得到目标图像的目标图像倾向信息。
(6)第四融合单元406;
第四融合单元406,用于将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
在一实施例中,如图4g所示,第四融合单元406,包括:
第五融合子单元4061,用于将目标标题倾向信息与目标图像倾向信息进行融合,得到目标视频的视频倾向特征信息;
特征信息处理子单元4062,用于对视频倾向特征信息进行非线性处理,得到目标视频的目标视频倾向特征信息。
在一实施例中,特征信息处理子单元4062还用于对视频倾向特征信息进行非线性处理,得到处理后视频倾向特征信息;对处理后视频倾向特征信息进行调整,得到目标视频的内容倾向参数;当内容倾向参数的参数值大于预设内容倾向阈值时,基于内容倾向参数确定目标视频的目标视频倾向特征信息。
在一实施例中,如图4g所示,第四融合单406元,包括:
统计子单元4063,用于统计目标用户浏览历史视频的用户倾向特征信息;
匹配子单元4064,用于将用户倾向特征信息与目标视频倾向特征信息进行匹配;
推荐子单元4065,用于当用户倾向特征信息与目标视频倾向特征信息相匹配时,向目标用户推荐目标视频倾向特征信息对应的目标视频。
由以上可知,本申请实施例的视频推荐装置的第一获取单元401获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息;然后,由第一融合单元402对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向;由第二获取单元403获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向;由第二融合单元404将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息;由第三融合单元405将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息;由第四融合单元406将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。该方案可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器等设备,如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息;对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向;获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向;将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息;将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息;将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
由以上可知,本申请实施例可以从语言与视觉两种模态来共同挖掘视频的内容的倾向信息,即通过视频标题与视频目标图像来共同挖掘视频的内容的倾向信息,然后构建视频标题对应的标题倾向特征信息与视频目标图像对应的图像倾向特征信息之间的交互关系,最后根据该交互关系来构建视频的倾向信息,即构建上述的目标视频倾向特征信息,最后基于目标视频倾向特征信息进行视频推荐,可以提高视频推荐的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种视频推荐方法中的步骤。例如,该指令可以执行如下步骤:
获取目标视频的视频标题的多个隐藏状态信息,隐藏状态信息表征视频标题的标题上下文语义信息;对多个隐藏状态信息进行融合,得到视频标题的标题倾向特征信息,标题倾向特征信息指示用户对视频标题的标题内容的倾向;获取目标视频的图像倾向特征信息,图像倾向特征信息指示用户对目标视频中目标图像的图像内容的倾向;将多个隐藏状态信息与图像倾向特征信息进行融合,得到视频标题的目标标题倾向信息;将标题倾向特征信息与图像倾向特征信息进行融合,得到目标图像的目标图像倾向信息;将目标标题倾向信息与目标图像倾向信息进行融合,构建目标视频的目标视频倾向特征信息,基于目标视频倾向特征信息,对目标视频进行推荐。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种视频推荐方法中的步骤,因此,可以实现本申请实施例所提供的任一种视频推荐方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述发明内容和实施例中提供的视频推荐方法。
以上对本申请实施例所提供的一种视频推荐方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (15)

1.一种视频推荐方法,其特征在于,包括:
获取目标视频的视频标题的多个隐藏状态信息,所述隐藏状态信息表征所述视频标题的标题上下文语义信息;
对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,所述标题倾向特征信息指示用户对所述视频标题的标题内容的倾向;
获取所述目标视频的图像倾向特征信息,所述图像倾向特征信息指示用户对所述目标视频中目标图像的图像内容的倾向;
将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息;
将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息;
将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,基于所述目标视频倾向特征信息,对所述目标视频进行推荐。
2.根据权利要求1所述的方法,其特征在于,所述获取目标视频的视频标题的多个隐藏状态信息,包括:
对目标视频的视频标题进行分词处理,得到所述目标视频的多个标题词组;
对所述多个标题词组进行语义特征提取,得到所述视频标题的多个隐藏状态信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个标题词组进行语义特征提取,得到所述视频标题的多个隐藏状态信息,包括:
将所述多个标题词组进行向量转化,得到所述视频标题的多个标题词向量;
提取所述多个标题词向量的语义特征信息,得到所述视频标题的多个隐藏状态信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,包括:
对所述多个隐藏状态信息进行向量转化,得到每个隐藏状态信息对应的隐藏状态词向量;
对每个隐藏状态词向量进行融合,得到所述视频标题的标题倾向特征信息。
5.根据权利要求1所述的方法,其特征在于,所述获取所述目标视频的图像倾向特征信息,包括:
对所述目标视频的目标图像进行图像裁剪处理,得到所述目标视频的裁剪后图像;
对所述裁剪后图像进行图像倾向特征提取,得到所述目标视频的图像倾向特征信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述裁剪后图像进行图像倾向特征提取,得到所述目标视频的图像倾向特征信息,包括:
获取所述裁剪后图像的像素值;
对所述像素值进行归一化处理,得到所述裁剪后图像的三维数组;
对所述三维数组进行图像倾向特征提取,得到所述目标视频的图像倾向特征信息。
7.根据权利要求1所述的方法,其特征在于,所述将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息,包括:
将所述多个隐藏状态信息与所述图像倾向特征信息进行信息融合,得到所述视频标题的标题内容关联参数,所述标题内容关联参数表征所述视频标题与所述目标图像的标题内容关联程度;
将所述多个隐藏状态信息与所述标题内容关联参数进行加权处理,得到所述视频标题的目标标题倾向信息。
8.根据权利要求1所述的方法,其特征在于,所述将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息,包括:
将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的图像内容关联参数,所述图像内容关联参数表征所述视频标题与所述目标图像的图像内容关联程度;
将所述图像内容关联参数、所述标题倾向特征信息、以及所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息。
9.根据权利要求8所述的方法,其特征在于,所述将所述图像内容关联参数、所述标题倾向特征信息、以及所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息,包括:
对所述标题倾向特征信息与所述图像倾向特征信息进行向量转化,得到所述标题倾向特征信息对应的标题倾向词向量与所述图像倾向特征信息对应的图像倾向词向量;
对所述图像内容关联参数与所述标题倾向词向量进行融合,得到所述目标图像的标题倾向程度信息;
将所述标题倾向程度信息与所述图像倾向词向量进行融合,得到所述目标图像的目标图像倾向信息。
10.根据权利要求1所述的方法,其特征在于,所述将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,包括:
将所述目标标题倾向信息与所述目标图像倾向信息进行融合,得到所述目标视频的视频倾向特征信息;
对所述视频倾向特征信息进行非线性处理,得到所述目标视频的目标视频倾向特征信息。
11.根据权利要求10所述的方法,其特征在于,所述对所述视频倾向特征信息进行非线性处理,得到所述目标视频的目标视频倾向特征信息,包括:
对所述视频倾向特征信息进行非线性处理,得到处理后视频倾向特征信息;
对所述处理后视频倾向特征信息进行调整,得到所述目标视频的内容倾向参数;
当所述内容倾向参数的参数值大于预设内容倾向阈值时,基于所述内容倾向参数确定所述目标视频的目标视频倾向特征信息。
12.根据权利要求1所述的方法,其特征在于,所述基于所述目标视频倾向特征信息,对所述目标视频进行推荐,包括:
统计目标用户浏览历史视频的用户倾向特征信息;
将所述用户倾向特征信息与所述目标视频倾向特征信息进行匹配;
当所述用户倾向特征信息与所述目标视频倾向特征信息相匹配时,向所述目标用户推荐所述目标视频倾向特征信息对应的目标视频。
13.一种视频推荐装置,其特征在于,包括:
第一获取单元,用于获取目标视频的视频标题的多个隐藏状态信息,所述隐藏状态信息表征所述视频标题的标题上下文语义信息;
第一融合单元,用于对所述多个隐藏状态信息进行融合,得到所述视频标题的标题倾向特征信息,所述标题倾向特征信息指示用户对所述视频标题的标题内容的倾向;
第二获取单元,用于获取所述目标视频的图像倾向特征信息,所述图像倾向特征信息指示用户对所述目标视频中目标图像的图像内容的倾向;
第二融合单元,用于将所述多个隐藏状态信息与所述图像倾向特征信息进行融合,得到所述视频标题的目标标题倾向信息;
第三融合单元,用于将所述标题倾向特征信息与所述图像倾向特征信息进行融合,得到所述目标图像的目标图像倾向信息;
第四融合单元,用于将所述目标标题倾向信息与所述目标图像倾向信息进行融合,构建所述目标视频的目标视频倾向特征信息,基于所述目标视频倾向特征信息,对所述目标视频进行推荐。
14.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至12任一项所述的视频推荐方法中的步骤。
15.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至12任一项所述的视频推荐方法中的步骤。
CN202010889214.4A 2020-08-28 2020-08-28 一种视频推荐方法、装置、计算机设备及存储介质 Active CN111988668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010889214.4A CN111988668B (zh) 2020-08-28 2020-08-28 一种视频推荐方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010889214.4A CN111988668B (zh) 2020-08-28 2020-08-28 一种视频推荐方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111988668A CN111988668A (zh) 2020-11-24
CN111988668B true CN111988668B (zh) 2021-06-08

Family

ID=73441029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010889214.4A Active CN111988668B (zh) 2020-08-28 2020-08-28 一种视频推荐方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111988668B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010740B (zh) 2021-03-09 2023-05-30 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质
CN113434757A (zh) * 2021-06-23 2021-09-24 青岛聚看云科技有限公司 一种媒资套餐推荐方法及显示设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111125386A (zh) * 2019-12-02 2020-05-08 腾讯科技(北京)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法
CN111382309A (zh) * 2020-03-10 2020-07-07 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI553494B (zh) * 2015-11-04 2016-10-11 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
BR102016007265B1 (pt) * 2016-04-01 2022-11-16 Samsung Eletrônica da Amazônia Ltda. Método multimodal e em tempo real para filtragem de conteúdo sensível

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111368870A (zh) * 2019-10-31 2020-07-03 杭州电子科技大学 一种基于模态内间协同多线性池化的视频时序定位方法
CN111125386A (zh) * 2019-12-02 2020-05-08 腾讯科技(北京)有限公司 媒体资源的处理方法和装置、存储介质及电子装置
CN111382309A (zh) * 2020-03-10 2020-07-07 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质

Also Published As

Publication number Publication date
CN111988668A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112330455B (zh) 用于推送信息的方法、装置、设备以及存储介质
US10579655B2 (en) Method and apparatus for compressing topic model
CN113254711B (zh) 一种互动图像的显示方法、装置、计算机设备和存储介质
KR20210091076A (ko) 비디오를 처리하기 위한 방법, 장치, 전자기기, 매체 및 컴퓨터 프로그램
CN111988668B (zh) 一种视频推荐方法、装置、计算机设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
US20240177506A1 (en) Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption
WO2021169453A1 (zh) 用于文本处理的方法和装置
CN113806588A (zh) 搜索视频的方法和装置
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN117635275B (zh) 基于大数据的智能电商运营商品管理平台及方法
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN113139110A (zh) 区域特征处理方法、装置、设备、存储介质和程序产品
WO2023168997A1 (zh) 一种跨模态搜索方法及相关设备
CN116226533A (zh) 基于关联性预测模型的新闻关联推荐方法、装置及介质
CN114329206A (zh) 标题生成方法和装置、电子设备、计算机可读介质
CN115774797A (zh) 视频内容检索方法、装置、设备和计算机可读存储介质
CN111667306A (zh) 面向定制化生产的客户需求识别方法、系统及终端
CN110688487A (zh) 一种文本分类的方法和装置
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN113392257B (zh) 图像检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant