CN112948626B - 视频处理方法、装置、电子设备及计算机可读存储介质 - Google Patents
视频处理方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112948626B CN112948626B CN202110527579.7A CN202110527579A CN112948626B CN 112948626 B CN112948626 B CN 112948626B CN 202110527579 A CN202110527579 A CN 202110527579A CN 112948626 B CN112948626 B CN 112948626B
- Authority
- CN
- China
- Prior art keywords
- video
- node
- feature vector
- processed
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 493
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 107
- 238000003062 neural network model Methods 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 43
- 238000000605 extraction Methods 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013473 artificial intelligence Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Library & Information Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种视频处理方法、装置、电子设备及计算机可读存储介质,涉及网络媒体、视频、人工智能及区块链技术领域。该方法包括:获取待处理视频的视频相关信息;获取待处理视频以及视频相关信息中各项信息的初始特征向量;确定待处理视频对应的关联关系,其中,关联关系为待处理视频和视频相关信息中各项信息之间的关联关系;基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,以基于视频特征向量进行待处理视频的处理。本申请实施例所提供的方案,在确定待处理视频的特征向量时,除了考虑视频自身之外,还考虑了视频相关信息,从而使得基于本申请方案确定的视频特征向量对于视频的表达更加准确。
Description
技术领域
本申请涉及网络媒体、视频、人工智能及区块链技术领域,具体的,本申请涉及一种视频处理方法、装置、电子设备及计算机可读存储介质。
背景技术
视频的向量化表达(即视频的向量特征)在视频处理技术领域有着广泛的应用,比如视频分类、视频推荐等等。虽然现有技术中已经存在很多种不同的获取视频的向量化表达的方法,但是在实际应用中发现视频的向量化表达的准确度仍然不够准确,仍有待提升。
发明内容
本申请实施例的目的旨在提供一种能够提高视频的视频特征向量表达的准确性的视频处理方法、装置、电子设备及计算机可读存储介质。
一方面,本申请实施例提供了一种视频处理方法,该方法包括:
获取待处理视频的视频相关信息,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项;
获取待处理视频以及视频相关信息中各项信息的初始特征向量;
确定待处理视频对应的关联关系,其中,该关联关系为待处理视频和视频相关信息中各项信息之间的关联关系;
基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,以基于视频特征向量进行待处理视频的处理。
另一方面,本申请实施例提供了一种视频处理装置,该装置包括:
信息获取模块,用于获取待处理视频的视频相关信息,该视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项;
初始向量获取模块,用于获取待处理视频以及视频相关信息中各项信息的初始特征向量;
关联关系确定模块,用于确定待处理视频对应的关联关系,其中,该关联关系为待处理视频和视频相关信息中各项信息之间的关联关系;
视频向量提取模块,用于基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,以基于视频特征向量进行待处理视频的处理。
可选的,上述关联关系确定模块在确定待处理视频对应的关联关系时,具体用于:
基于视频相关信息以及待处理视频,构建待处理视频对应的图,该图表征了关联关系;
其中,上述图中的节点包括待处理视频对应的节点、以及视频相关信息中各项信息各自对应的节点,图中的边包括待处理视频和视频相关信息中各项信息对应的节点之间的连边;
视频向量提取模块在基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量时,具体用于:
基于各初始特征向量以及图,确定待处理视频的视频特征向量。
可选的,上述视频相关信息包括至少一个视频标签,上述图中的边还包括各视频标签所对应的节点之间的连边。
可选的,视频向量提取模块在基于各初始特征向量以及图,确定待处理视频的视频特征向量时,具体用于:
对于图中目标节点,基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种类型的信息对应的第一特征向量,目标节点为待处理视频对应的节点,视频相关信息中的每一项信息对应的节点属于一种类型的节点;
基于目标节点所对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量。
可选的,该装置还包括:
节点特征向量提取模块,用于对于图中每一节点,通过执行至少一次以下操作提取该节点的节点特征向量:基于该节点的每种类型的各邻居节点的当前特征向量,提取得到该类型的信息对应的第二特征向量;基于该节点的当前特征向量和该节点对应的各第二特征向量,得到该节点的目标特征向量;其中,若操作为一次,当前特征向量为初始特征向量,目标特征向量为节点特征向量,若操作为至少两次,第一次操对应的当前特征向量为初始特征向量,除第一次操作之前对应的当前特征向量为上一次操作得到的目标特征向量,节点特征向量为最后一次操作得到的目标特征向量;
视频向量提取模块在基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种该类型的信息对应的第一特征向量时,具体用于:
对于每一种类型,将目标节点的该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量;
视频向量提取模块在基于目标节点对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量时,具体用于:
将目标节点对应的各第一特征向量和目标节点的节点特征向量进行拼接;
基于拼接后的特征向量,提取待处理视频的视频特征向量。
可选的,上述视频向量提取模块在将各种类型的信息对应的第一特征向量和目标节点的节点特征向量进行拼接时,具体用于:
获取各类型的信息对应的第一权重,以及待处理视频对应的第二权重;
基于各类型的信息对应的第一权重,对各类型的信息对应的第一特征向量进行加权,得到各类型的信息对应的第二特征向量;
基于第二权重,对目标节点的节点特征向量进行加权,得到第三特征向量;
对各类型的信息对应的第二特征向量和第三特征向量进行拼接。
可选的,信息获取模块在获取待处理视频以及视频相关信息中各项信息的初始特征向量时,具体用于:
获取待处理视频的视频标题,提取视频标题对应的标题特征向量,将标题特征向量作为待处理视频的初始特征向量;
若视频相关信息包括关联用户,对于任一关联用户,获取关联用户对应的历史视频,基于历史视频确定关联用户的初始特征向量。
可选的,上述关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项;上述关联视频包括待处理视频的目标观看者所观看的目标视频,目标视频为目标观看者在观看待处理视频之前和/或之后的至少一个视频。
可选的,上述关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项,若上述关联用户包括目标观看者,历史视频为目标观看者在当前时刻之前的第一设定时长内所观看的视频,若上述关联用户包括发布者,历史视频为发布者在当前时刻之前的第二设定时长内所发布的视频。
可选的,上述视频向量提取模块在基于视频特征向量进行待处理视频的处理时,具体用于:
基于待处理视频的视频特征向量和第一视频库中各待推荐视频的视频特征向量的匹配度,从第一视频库中确定出目标推荐视频,将目标推荐视频发送给目标用户,其中,待处理视频为目标用户观看过的视频;或者,
基于第二视频库中各视频的视频特征向量之间的相似度,对第二视频库中的各视频进行分类处理,其中,待处理视频为第二视频库中的每一视频。
可选的,上述基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量是图神经网络模型实现的,图神经网络模型是通过模型训练模块训练得到的:
模型训练模块用于:
获取训练数据,训练数据中包括多个样本数据,每个样本数据包括一个样本视频对应的样本图以及该样本图中各节点的初始特征向量,其中,任一样本图中的各节点包括样本视频对应的第一节点和各第一信息对应第二节点,第一信息为样本视频的视频相关信息中任一项信息,样本图中的边包括第一节点与各第二节点之间的连边;
将各样本数据输入至初始神经网络模型,得到每个样本数据对应的各节点的预测特征向量;
对于每个样本数据,基于该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的相似度,确定样本数据对应的第一训练损失值;
基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值;
若总训练损失值满足训练结束条件,则结束训练,并将训练结束时对应的模型作为图神经网络模型,否则,调整图神经网络模型的模型参数,并基于训练数据对图神经网络模型继续进行训练。
对于每个样本图,样本图中还包括各第二信息对应的第三节点,第二信息包括与样本视频非相关且与第一信息中的至少一项信息相关的信息,对于每一第一信息,样本图中的边还包括该第一信息对应的第二节点与第二信息中与该第一信息相关的信息对应的第三节点之间的连边;
该装置还包括:
损失确定模块,用于对于每个样本数据,基于各第三节点的预测特征向量和第一节点的预测特征向量之间的相似度,确定样本数据对应的第二训练损失值;
模型训练模块在基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值时,具体用于:
基于各样本数据对应的第一训练损失值和第二训练损失值,确定总训练损失值。
另一方面,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器中存储有计算机程序,处理器在运行计算机程序时执行本申请任一可选实施例中提供的视频处理方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序在被处理器运行时,处理器执行本申请任一可选实施例中提供的视频处理方法。
再一方面,本申请实施例还提供了一种计算机程序产品或计算机程序,当其在计算机设备上运行时,是的计算机设备执行本申请所提供的任一可选实施方法。该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请任一可选实施方式中提供的视频处理方法。
本申请提供的技术方案带来的有益效果是:本申请实施例所提供的方案,在获取视频的特征向量时,除了考虑待处理视频本身之前,还考虑了该视频的视频相关信息,具体的,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项,视频标签是能够反映了视频本身内容的信息,关联视频可以反映观看者的视频喜好,即关联视频能够从另一个方面反映待处理视频的视频特征,而待处理视频通常也是与关联用户的个性化信息息息相关的,因此关联用户也是能够从一定程度与能够反映视频特征的相关信息,因此,基于本申请实施例所提供的方法,所确定出的视频特征向量中不仅包含了视频本身的信息,还包括与视频相关的多个不同维度的信息,从而使得该视频特征向量对于视频的表达更加准确。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种视频处理方法的流程示意图;
图2为本申请实施例提供的一种视频处理系统的结构示意图;
图3为本申请实施例提供的一种视频处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请实施例所提供的视频处理方法,是可以应用于各种实际应用场景中,解决各种实际的技术问题的,是具有实用价值的。比如,基于本申请提供的视频处理方案,可以基于视频的视频特征向量进行视频推荐,视频召回,视频归类,视频话题挖掘等。
本申请各可选实施例中所提供的方法,所涉及到的特征向量的获取(如获取图中各节点的初始特征向量、基于图以及图中各节点的初始特征向量获取视频特征向量等),可以采用人工智能技术实现,具体涉及到基于各初始特征向量以及关联关系,通过训练好的图神经网络模型确定待处理视频的视频特征向量。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例所涉及的视频数据的处理(包括待处理视频的处理、样本数据的处理等)可以采用云技术实现,如处理过程中所涉及的数据存储(包括待处理视频的视频特征向量、图神经网络模型等)可以采用云存储方式,处理过程中所涉及的数据计算可以采用云计算方式。
在本申请的一可选实施例中,如图2所示的视频处理系统的结构示意图,可将图2中所示的终端A,终端B,终端C ,终端D以及服务器M组成一区块链,终端A,终端B,终端C ,终端D以及服务器M分别为该区块链上的节点。其中,终端A可以为待处理视频对应的终端,终端B至终端C可以为待处理视频的目标观看者对应的终端,服务器M可以为对待处理视频的视频相关信息以及待处理视频进行处理,以得到待处理视频的视频特征向量的数据处理设备。
其中,该区块链上的各节点可以通过网络通信的形式连接形成的分布式系统,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P 协议是一个运行在传输控制协议(TCP,Transmission Control Protocol )协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,比如,待处理视频对应的目标观看者还包括终端F对应的终端,则可将终端F加入该区块链中,作为该区块链中的一个节点。
本申请实施例所提供的方案可以由任一电子设备执行,可以是用户终端设备,也可以是服务器执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种可能的实现方式,如图1所示,提供了一种视频处理方法的流程图,该方案可以由任一电子设备执行,例如,本申请实施例的方案可以在终端设备或者服务器上执行,或者由终端设备和服务器交互执行。为描述方便,下面将以服务器作为执行主体为例,对本申请实施例提供的方法进行说明。
图1示出了本申请实施例提供的一种视频处理方法的流程示意图,如图1中所示,该方法可以包括以下步骤:
步骤S110:获取待处理视频的视频相关信息,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项。
其中,本申请中不限定待处理视频的数据来源,可选的,待处理视频可以是多媒体数据发布平台对应的服务器接收到的用户通过用户终端发送的数据,或者,也可以是多媒体发布平台对应的服务器从预设的存储空间中获取到的数据。
本申请实施例中,视频相关信息指的是与待处理视频的视频本身内容具有直接关联关系的信息,包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频中的至少一项。
其中,一个视频中可同时具体一个或多个视频标签。视频标签可以表征视频的视频类型或者视频中的某些内容信息,比如,某个视频的视频标签为美食,则该视频属于美食类的视频。可选的,视频标签可以是预先人工标注的或者通过视频识别自动确定的比如,可以通过提取待处理视频中的关键信息,基于该关键信息自动为待处理视频添加视频标签,或者对待处理视频进行视频分类处理,基于分类结果确定视频的标签。
可选的,视频标签可以以文字或字符的形式显示在视频的标题中。本申请中不限定视频标签的具体表现形式。
其中,关联用户指的是与待处理视频之间有关联的用户,比如,观看过该待处理视频的用户,发布该待处理视频的用户,分享过该待处理视频的用户等,通过关联用户可从另一方面反映待处理视频的视频特征。
可选的,关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项;关联视频包括待处理视频的目标观看者所观看的目标视频,目标视频为目标观看者在观看待处理视频之前和/或之后的至少一个视频。
其中,发布者指的是发布待处理视频的发布者对应的身份信息,具体可以通过发布者标识表征,如可以是发布者的名称、发布者的设备标识、发布者在应用中的用户标识(如昵称、账号名)等。
其中,目标观看者指的是观看过待处理视频的用户。
其中,关联视频为目标观看者在观看待处理视频之前和/或之后所观看的至少一个视频,通过关联视频可反映出用户的视频喜好。
可选的,获取待处理视频的目标观看者,包括:
获取待处理视频的各初始观看者,以及各初始观看者对待处理视频的观看时长;
基于各观看者对应的观看时长,将各初始观看者的观看时长中大于或等于第一设定时长的初始观看者作为目标观看者,或者,基于各观看者对应的观看时长,将各初始观看者中观看时长较长的设定个数的初始观看者作为目标观看者。
其中,初始观看者指的是所有观看过待处理视频的用户,观看时长指的是一次观看待处理视频对应的时长,观看时长不大于与待处理视频的播放时长。观看待处理视频的观看时长越长,表明该观看者对该待处理视频越感兴趣。则选择观看时长大于第一设定时长的观看者,可以更加准确的反映观看该待处理视频的用户的特征。
可选的,获取关联视频可通过以下至少一种方式:
将目标观看者观看的视频按照观看时长进行排序,将排序后的各视频中,待处理视频之前的第一设定个数的视频或之后的第二设定个数的视频中的至少一项作为待处理视频的关联视频。
将目标观看者观看的视频按照观看的先后顺序进行排序,将排序后的各视频中,待处理视频之前的第三设定个数的视频或之后的第四设定个数的视频中的至少一项作为待处理视频的关联视频。
将待处理视频的目标观看者在第二设定时长内观看的视频作为关联视频,第二设定时长是指相对于待处理视频的观看时间的时长。
其中,待处理视频与关联视频是一段时间内所观看的视频。待处理视频的观看时长指的是观看待处理视频所用的时间。第二设定时长是指相对于待处理视频的观看时间的时长,表征了观看关联视频与观看待处理视频的时间间隔较小。即关联视频是观看待处理视频之前的一段时间(第二设定时长)内所观看的视频,或之后的一段时间内所观看的视频。
步骤S120,获取待处理视频以及视频相关信息中各项信息的初始特征向量。
其中,待处理视频的初始特征向量可以反映待处理视频的特征,视频相关信息中各项信息的初始特征向量可以反映各项信息的特征。
本申请的可选实施例中,获取待处理视频以及视频相关信息中各项信息的初始特征向量,包括:
获取待处理视频的视频标题,提取视频标题对应的标题特征向量,将标题特征向量作为待处理视频的初始特征向量;
若视频相关信息包括关联用户,对于任一关联用户,获取关联用户对应的历史视频,基于历史视频确定关联用户的初始特征向量。
其中,视频标题可反映视频的相关特征,则可将视频标题的标题特征向量作为待处理视频对应节点的初始特征向量。
可选的,提取视频标题对应的标题特征向量可通过以下方式实现:
对视频标题进行分词处理,得到视频标题中包含的各分词;提取各分词的词特征向量;基于各分词的词特征向量,确定标题特征向量。可选的,可对各分词的词特征向量求均值,得到标题特征向量。
作为一个示例,基于视频标题,确定该视频标题的标题特征向量,具体包括:对视频标题进行分词处理,得到视频标题中包含的各分词;各分词可通过词序列表示:{w1,w2,…, wn},其中,wi(i∈[1,n])表示视频标题中的第i个词,n表示视频标题中所包含的分词的数量。然后通过训练好的词向量字典(词特征提取模型),提取各分词的词特征向量,表示为:{v1, v2,…, vn},其中,vi为第i个词的特征向量,,R为实数,k为词特征向量的维数。最后,可以通过将上述各词特征向量求平均得到视频标题的标题特征向量v,即。
其中,关联用户在观看或发布待处理视频之前观看或发布的历史视频可以反映出该关联用户的视频喜好,则通过历史视频的视频特征向量可表征关联用户对应节点的初始特征向量。
可选的,可对各历史视频的视频特征向量求均值,将该均值作为目标观看者或发布者对应节点的初始特征向量。
本申请的可选实施例中,关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项,若关联用户包括目标观看者,历史视频为目标观看者在当前时刻之前的第一设定时长内所观看的视频,若关联用户包括发布者,历史视频为发布者在当前时刻之前的第二设定时长内所发布的视频。
可选的,若关联用户包括目标观看者,可在当前时刻之前的第一设定时长内所观看的至少一个视频中选择近期(与观看待处理视频的时间间隔较小)观看的视频作为历史视频。近期观看的视频可以更加准确的反应用户的喜好变化,使得确定的目标观看者对应节点的初始特征向量更加准确。
可选的,若关联用户包括发布者,可在当前时刻之前的第二设定时长内所发布的至少一个视频中选择近期(与发布待处理视频的时间间隔较小)发布的视频作为历史视频。近期发布的视频可以更加准确的反应用户的喜好变化,使得确定的发布者对应节点的初始特征向量更加准确。
本申请的可选实施例中,若视频相关信息包括待处理视频的视频标签,视频标签为文本,对于任一视频标签对应的节点,可基于与视频标题同样的处理方法,得到视频标签对应的标签特征向量,将标签特征向量作为视频标签对应节点的初始特征向量。如果视频标签不是文本,可将视频标签转化为文本,然后基于上述相同的方法确定视频标签对应节点的初始特征向量。
上述确定初始特征向量的过程中,某些信息(比如,目标观看者)对应节点的初始特征向量是基于目标观看者观看视频的行为信息确定的,则通过初始特征向量不仅可以反映出各信息本身的特征,还可以反映出目标观看者与各信息之间的互动特征(观看视频的行为信息对应的特征),从而使得基于初始特征向量确定的待处理视频的视频特征向量更加准确。
步骤S130:确定待处理视频对应的关联关系,其中,关联关系为待处理视频和视频相关信息中各项信息之间的关联关系。
步骤S140:基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,以基于视频特征向量进行待处理视频的处理。
其中,由于关联关系可以反映待处理视频与视频相关信息中各项信息之间的关联关系,各初始特征向量可以反映待处理视频的视频本身特征,以及视频相关信息中各项信息的信息本身的特征,因此,基于各初始特征向量以及关联关系确定的视频特征向量对于视频的表达更加准确。
基于待处理视频的视频特征向量可对待处理视频进行相关处理,比如,基于待处理视频的视频特征向量进行视频推荐。具体将在下文结合具体应用场景对待处理视频的处理进行详细的说明,在此不再赘述。
本申请实施例所提供的方案,在获取视频的特征向量时,除了考虑待处理视频本身之前,还考虑了该视频的视频相关信息,具体的,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项,视频标签是能够反映了视频本身内容的信息,关联视频可以反映观看者的视频喜好,即关联视频能够从另一个方面反映待处理视频的视频特征,而待处理视频通常也是与关联用户的个性化信息息息相关的,因此关联用户也是能够从一定程度与能够反映视频特征的相关信息,因此,基于本申请实施例所提供的方法,所确定出的视频特征向量中不仅包含了视频本身的信息,还包括与视频相关的多个不同维度的信息,从而使得该视频特征向量对于视频的表达更加准确。
本申请的可选实施例中,确定待处理视频对应的关联关系,包括:
基于视频相关信息以及待处理视频,构建待处理视频对应的图,该图表征了关联关系;
其中,图中的节点包括待处理视频对应的节点、以及视频相关信息中各项信息各自对应的节点,图中的边包括待处理视频和视频相关信息中各项信息对应的节点之间的连边;
基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,包括:
基于各初始特征向量以及图,确定待处理视频的视频特征向量。
其中,通过图表征视频相关信息与待处理视频之间的关联关系。图中不但包括各节点的信息,还包括图中的拓扑结构(各边)的信息,即关联关系,则基于图表征关联关系,可以更加准确反映待处理视频对应的特征。
可选的,由于视频相关信息与待处理视频属于不同类型的信息,则可通过异构图表征上述信息,异构图为包含不同类型的节点的图。其中,异构图可表示为:G(V, E, T),其中,V为所有节点的集合,E为所有边的集合,T为节点类型的集合。视频相关信息和关联信息中包含的每一种信息对应的节点属于一种类型的节点。比如,视频相关信息中包括视频标签和关联用户,每一个视频标签对应一个节点,每一个关联用户对应一个节点,所有视频标签对应的节点为一种类型的节点,所有关联用户对应的节点为另一种类型的节点。
作为一个示例,待处理视频A的视频相关信息中包括视频标签B1,关联用户,关联用户包括目标观看者C1和目标观看者C2,发布者D1,关联视频E1和关联视频E2,则该待处理视频对应的图中的节点包括A对应的节点a,视频标签B1对应的节点b1,目标观看者C1对应的节点c1,目标观看者C2对应的节点c2,发布者D1对应的节点d1,关联视频E1对应的节点e1,关联视频E2对应的节点e2;该图中的边包括节点a分别与节点b1、节点c1、节点c2、节点d1、节点e1以及节点e2之间的连边。
本申请的可选实施例中,视频相关信息包括至少一个视频标签,图中的边还包括各视频标签所对应的节点之间的连边。
其中,如果视频相关信息中包括至少两个视频标签,即待处理视频具有至少两个标签时,由于多个视频标签均是该待处理视频的标签,是具有关联关系的,因此,图中的边还可以包括各视频标签所对应的节点之间的连边,以通过该连边来表示该连边所连接的节点对应的都是该处理视频的标签,从而通过该图更准确、细化的表达了待处理视频和待处理视频的各视频标签之间的关联关系,基于该图结构可以获取到更准确的待处理视频的特征表达即视频特征向量。
在上述视频中,若待处理视频A的视频标签还包括视频标签B2,则图中的节点还包括视频标签B2对应的节点b2,图中的边还包括节点a与节点b2之间的连边,以及节点b2和节点b1之间的连边。
本申请的可选实施例中,基于各初始特征向量以及图,确定待处理视频的视频特征向量,包括:
对于图中目标节点,基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种类型的信息对应的第一特征向量,目标节点为待处理视频对应的节点,视频相关信息中的每一项信息对应的节点属于一种类型的节点;
基于目标节点所对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量。
其中,目标节点的邻居节点指的是与目标节点有连边的节点,邻居节点可以反映出目标节点的某些特征,为此,提取目标节点对应的视频特征向量时,会参考目标节点的各邻居节点的特征向量。
不同类型的邻居节点对应反映的节点特征不同,因此,在提取各邻居节点的节点特征向量(第一特征向量)时,可以按照邻居节点的类型进行提取。同一类型的信息对应一个第一特征向量。
需要说明的是,对于图中的每个节点,均需要基于该节点的每种类型的信息对应的初始特征向量,提取得到该节点对应的每种类型的信息对应的第一特征向量。
本申请的可选实施例中,该方法还可以包括:
对于图中每一节点,通过执行至少一次以下操作提取该节点的节点特征向量:
基于该节点的每种类型的各邻居节点的当前特征向量,提取得到该类型的信息对应的第二特征向量;基于该节点的当前特征向量和该节点对应的各第二特征向量,得到该节点的目标特征向量;其中,若操作为一次,当前特征向量为初始特征向量,目标特征向量为节点特征向量,若操作为至少两次,第一次操对应的当前特征向量为初始特征向量,除第一次操作之前对应的当前特征向量为上一次操作得到的目标特征向量,节点特征向量为最后一次操作得到的目标特征向量;
其中,基于图中各节点的初始特征向量,对各节点进行进一步的特征提取,得到各节点的节点特征向量,通过节点特征向量更深层次的表征节点的特征。
其中,对于图中的每一节点,在得到该节点的初始特征向量之后,可基于该节点的初始特征向量,对该节点进行至少一次的特征提取,得到该节点的节点特征向量,即一次操作对应一次特征提取。当前次操作得到的目标特征向量作为下一次操作的当前特征向量。
作为一个示例,k为操作次数,k为大于等于2的整数。如果k=1,即操作一次,当前特征向量为初始特征向量,目标特征向量为节点特征向量。如果k=2,即操作两次,当前特征向量为初始特征向量,第二特征向量为通过第1次操作所得到的目标特征向量,节点特征向量为第2次(最后一次操作)操作所得到的目标特征向量。
基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种该类型的信息对应的第一特征向量,包括:
对于每一种类型,将目标节点的该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量。
基于目标节点对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量,包括:
将目标节点对应的各第一特征向量和目标节点的节点特征向量进行拼接;
基于拼接后的特征向量,提取待处理视频的视频特征向量。
其中,对应任一类型的各邻居节点,不同邻居节点的节点特征向量反映了不同的特征,将各邻居节点的节点特征向量进行融合,将融合后的特征向量作为该类型的信息对应的第一特征向量。对于图中的目标节点的每种类型的各邻居节点均进行相同的处理,得到该目标节点的各类型的信息对应的第一特征向量。
可选的,本申请中不限定对该类型的各邻居节点的节点特征向量进行融合的具体实现方式,比如,加权融合的算法,求均值,AGG聚合函数等。
其中,在得到各种类型的信息对应的第一特征向量之后,可对各种类型的信息对应的第一特征向量和目标节点的节点特征向量进行拼接,得到拼接后的特征向量,该拼接后的特征向量中包含了各邻居节点的特征向量以及目标节点的特征向量,则对该拼接后的特征向量进行进一步的特征提取得到的待处理视频的视频特征向量更加准确。
本申请的可选实施例中,将各种类型的信息对应的第一特征向量和目标节点的节点特征向量进行拼接,包括:
获取各类型的信息对应的第一权重,以及待处理视频对应的第二权重;
基于各类型的信息对应的第一权重,对各类型的信息对应的第一特征向量进行加权,得到各类型的信息对应的第二特征向量;
基于第二权重,对目标节点的节点特征向量进行加权,得到第三特征向量;对各类型的信息对应的第二特征向量和第三特征向量进行拼接。
其中,由于不同类型的信息对于待处理视频的视频特征向量的重要程度不同,则可基于各类型的信息对应的第一权重,以及待处理视频对应的第二权重,对各种类型的信息对应的第一特征向量和目标节点的节点特征向量进行拼接,以使得到的拼接后的特征向量中充分考虑到了不同类型的信息对视频特征向量的影响,从而使得最终确定的视频特征向量更加准确。
可选的,第一权重可以为权重矩阵,对于目标节点,该目标节点对应的权重矩阵中的每个元素对应于该目标节点的每种类型的信息对应的第一特征向量。
可选的,图中的不同节点的各类型的信息对应的第一权重可以不同。
在得到了待处理视频的视频特征向量之后,可基于该视频特征向量对待处理视频进行处理,处理的方式有很多,比如,视频推荐,视频召回,视频分类,视频话题挖掘等,本申请中不限定具体的处理方式。下面以视频推荐和视频归类为例进行进一步的说明:
本申请的可选实施例中,待处理视频为用户观看的视频,基于视频特征向量进行待处理视频的处理,包括:
基于待处理视频的视频特征向量和第一视频库中各待推荐视频的视频特征向量的匹配度,从第一视频库中确定出目标推荐视频,将目标推荐视频发送给目标用户,其中,待处理视频为目标用户观看过的视频;或者,
基于第二视频库中各视频的视频特征向量之间的相似度,对第二视频库中的各视频进行分类处理,其中,待处理视频为第二视频库中的每一视频。
其中,基于待处理视频的视频特征向量,从第一视频库中确定与待处理视频相关联的待推荐视频的一种可实现方案为:基于确定待处理视频的视频特征向量相同的方法,确定第一视频库中的各待推荐视频的视频特征向量,然后基于待处理视频的视频特征向量和各待推荐视频的视频特征向量之间的相似度,确定待处理视频相关联的目标推荐视频。
其中,目标用户指的是观看过待处理视频的任一用户。
本申请的可选实施例中,基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量是图神经网络模型实现的,图神经网络模型是通过以下方式训练得到的:
获取训练数据,训练数据中包括多个样本数据,每个样本数据包括一个样本视频对应的样本图以及该样本图中各节点的初始特征向量,其中,任一样本图中的各节点包括样本视频对应的第一节点和各第一信息对应第二节点,第一信息为样本视频的视频相关信息中任一项信息,样本图中的边包括第一节点与各第二节点之间的连边;
将各样本数据输入至初始神经网络模型,得到每个样本数据对应的各节点的预测特征向量;
对于每个样本数据,基于该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的相似度,确定样本数据对应的第一训练损失值;
基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值;
若总训练损失值满足训练结束条件,则结束训练,并将训练结束时对应的模型作为图神经网络模型,否则,调整图神经网络模型的模型参数,并基于训练数据对图神经网络模型继续进行训练。
其中,样本图指的是样本视频对应的图,样本图中各节点的初始特征向量可基于前文所描述的待处理视频对应的图中各节点的初始特征向量的方式确定,在此不再赘述。
可选的,初始神经网络模型可以为图卷积神经网络模型。比如,HinSAGE网络。
其中,对于一个样本数据,通过初始神经网络模型得到该样本数据对应的样本视频对应的节点(第一节点)的预测特征向量的具体确定过程,可参照前文描述的基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量的方式确定,在此不再赘述。对于该样本数据对应的样本图中的其他节点,可以采用上述相同的方式确定其他节点中各节点对应的预测特征向量,比如,对于将样本图中除样本视频对应的节点之外其他节点中的任一节点,可基于该节点的节点特征向量以及该节点的邻居节点对应的第一特征向量,确定该节点的预测特征向量。
对于每个样本数据,第一训练损失值表征了该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的差异。该损失值越大,表明第一节点的预测特征向量和第二节点之间的差异越大。对于该模型,总训练损失值越小,表示模型的性能越好,即基于模型确定出的视频特征向量越准确。
本申请中的图神经网络模型采用无监督的训练方式,减少数据处理量。
本申请的可选实施例中,对于每个样本图,样本图中还包括各第二信息对应的第三节点,第二信息包括与样本视频非相关且与第一信息中的至少一项信息相关的信息,对于每一第一信息,样本图中的边还包括该第一信息对应的第二节点与第二信息中与该第一信息相关的信息对应的第三节点之间的连边;
该方法还可以包括:
对于每个样本数据,基于各第三节点的预测特征向量和第一节点的预测特征向量之间的相似度,确定样本数据对应的第二训练损失值;
基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值,包括:
基于各样本数据对应的第一训练损失值和第二训练损失值,确定总训练损失值。
其中,第二信息包括与样本视频非相关且与第一信息中的至少一项信息相关的信息,作为一个示例,比如,样本视频A的视频相关信息包括关联视频B,关联视频B的视频相关信息包括视频标签a,视频标签a是与样本视频A不相关(非相关),且与关联视频B相关的信息。样本图中的节点还包括各第二信息各自对应的第三节点,该样本图中的边还包括视频标签a与关联视频B之间的连边。
通过第二训练损失值对总训练损失值进行约束,第二训练损失值表征了各第二信息对应的第三节点的预测特征向量和第一节点的预测特征向量之间的差异。
为了更好的理解及说明本申请提供的方案,下面结合具体应用下的可选实施例对本申请提供的方案进行进一步的说明。本实施例中以向用户推荐与待处理视频相关的待推荐视频的应用场景为例进行说明。
本申请实施例提供的方案可以利用人工智能领域的神经网络模型实现,可以分为神经网络模型的训练阶段和测试/应用。阶段(应用阶段和测试阶段的原理相同)。
在训练之前,首先获取多个样本视频,对于每个样本视频,获取该样本视频的视频相关信息,视频相关信息包括该样本视频的视频标签、该样本视频的关联用户或该样本视频的关联视频的至少一项。在本示例中,视频相关信息包括至少两个视频标签。
对于每个样本视频,基于该样本视频和该样本视频的视频相关信息,构建该样本视频对应的图(本示例中,可称为样本图,或者也可为异构图)。其中,该异构图中的节点包括该视频相关信息对应的节点以及该样本视频对应的节点,该异构图中的边包括该样本视频对应的节点和该视频相关信息中各项信息各自对应的节点之间的连边,以及各视频标签所对应的节点之间的连边。视频相关信息中的每一项信息对应的节点属于一种类型的节点,则该异构图中包括4种类型的节点。
对每个样本视频均进行上述相同的处理,得到各样本视频对应的异构图。
对于每个异构图,获取该异构图中各节点的初始特征向量,具体实现方式可参见前文描述的获取待处理视频对应图中各节点的初始特征向量的方式,在此不再赘述。
在得到各样本视频对应的异构图和各异构图中各节点的初始特征向量之后,将一个样本视频对应的异构图和该异构图中各节点的初始特征向量作为一个样本数据,得到多个样本数据。
在本示例中,对于一个样本图,该样本图中的各节点的初始特征向量可通过以下公式表示:
对于训练阶段,将各样本数据输入至初始神经网络模型,通过初始神经网络模型执行以下操作得到每个样本数据对应的各节点的预测特征向量:
具体的:对于每个样本数据,基于该样本数据对应的异构图,确定该样本数据中样本视频对应的节点的各邻居节点。为描述方便,下文将该样本视频对应的节点称为第一节点(节点v),将该第一节点的邻居节点称为第二节点(即各第一信息对应的第二节点)。
对于每个样本数据,基于该样本数据对应的异构图中各节点的初始特征向量,提取该异构图中各节点的节点特征向量(第k-1层特征提取层对应的输出特征向量)。
对于每个样本数据中每种类型的邻居节点,对该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量(第k层特征提取层的输出特征向量)。本示例中,采用均值聚合AGG的方法进行融合(也可称为聚合)。
具体可参见以下公式:
其中,k为初始神经网络模型包括的特征提取层的层数,表示类型为r的邻居节点的集合,u为中的任一个邻居节点,为一个邻居节点在第k-1层的输出特征向量(节点特征向量),AGG为聚合算法,表示一个类型的邻居节点的数量,为中任一个邻居节点在第k层的输出特征向量(第一特征向量)。
对于该异构图中每一节点,该节点的每种类型的各邻居节点均通过上述公式进行聚合,则可得到R(本示例中,R=4)个第一特征向量,r∈R。其中,本示例中,共有R种类型的节点。该R种类型的信息各自对应的第一特征向量可表示为:。
然后,对于每个样本数据,获取各类型的信息对应的第一权重,以及该样本数据中的样本视频对应的第二权重;基于各类型的信息对应的第一权重,对各类型的信息对应的第一特征向量进行加权,得到各类型的信息对应的第二特征向量;基于第二权重,对第一节点的节点特征向量进行加权,得到第三特征向量;对各类型的信息对应的第二特征向量和第三特征向量进行拼接,基于拼接后的特征向量,提取样本视频对应节点的预测特征向量。
其中,一个样本视频对应节点的预测特征向量,具体可参见以下公式:
其中,为tv类型的节点(第一节点)在第k层特征提取层的权重(第二权重),为该第一节点对应的任一类型的信息对应的权重(第一权重),其中,i大于等于1,小于等于R,为节点v(第一节点)在第k-1层特征提取层的输出特征向量(节点特征向量),为各类型的信息对应的第一特征向量,为第三特征向量,为类型1的信息对应的第二特征向量,concat为拼接函数,用于对第三特征向量和各第二特征向量进行拼接,为初始神经网络模型的非线性激活函数,为样本视频对应的预测特征向量。
基于上述相同的方法,对该样本数据对应的异构图中的每个节点均执行以上操作,得到该异构图中各节点的预测特征向量。
对于每个样本数据,该样本数据对应的样本图中还包括各第二信息对应的第三节点,第二信息包括与样本视频非相关且与第一信息中的至少一项信息相关的信息,对于每一第一信息,样本图中的边还包括该第一信息对应的第二节点与第二信息中与该第一信息相关的信息对应的第三节点之间的连边。则初始神经网络模型的输出还包括该样本数据中的各第二信息对应的第三节点的预测特征向量。
对于每个样本数据,基于该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的相似度,确定样本数据对应的第一训练损失值。并基于各第三节点的预测特征向量和第一节点的预测特征向量之间的相似度,确定样本数据对应的第二训练损失值。
基于各样本数据对应的第一训练损失值和第二训练损失值,确定图神经网络模型对应的总训练损失值。
一个样本数据对应的总训练损失值可参见以下公式:
其中,v表示第一节点,表示第一节点的预测特征向量,u表示第二节点,表示各第二节点的预测特征向量,表示第三节点,表示第三节点的预测特征向量,节点(非关联信息对应的节点)为节点u(此处节点u指的是异构图中除了第一节点之外的所有节点)的负采样分布采样得到的,Q为采样样本数(第三节点的个数)。为的转置,为初始神经网络模型的非线性激活函数,表示第一训练损失值,对应的矩阵中的每个元素表示两个预测特征向量(第一节点对应的预测特征向量表示与第二节点的预测特征向量)之间的相似度,该矩阵对角线的元素表征了一个预测特征向量与其本身之间的相似度,为1。该矩阵中,各元素对应的相似度越高越好,即第一节点与第二节点之间的向量越相似,模型的性能越好。
表示第二训练损失值,对应的矩阵中的每个元素表示两个预测特征向量(第一节点对应的预测特征向量表示与第三节点的预测特征向量)之间的相似度,该矩阵中,各元素对应的相似度越低越好,即第一节点与第三节点之间的越不相似,模型的性能越好。表示一个样本数据对应的总训练损失值,该损失值越小,模型的性能越好。
若模型对应的总训练损失值满足训练结束条件,则结束训练,并将训练结束时对应的模型作为图神经网络模型,否则,调整图神经网络模型的模型参数,并基于训练数据对图神经网络模型继续进行训练。
其中,训练结束条件可以为小于设定阈值,则在总训练损失值小于设定阈值时,结束训练。将训练结束时对应的模型作为图神经网络模型,否则,调整图神经网络模型的模型参数,并基于训练数据对图神经网络模型继续进行训练。
在训练得到上述图神经网络模型之后,可基于该图神经网络模型确定视频的视频特征向量。
比如,对于用户观看的一个视频,可将该视频对应的异构图以及该异构图中各节点的初始特征向量输入至训练好的图神经网络模型,得到该视频的视频特征向量,然后基于该视频的视频特征向量,从第一视频库中确定出该视频相关的待推荐视频,并将待推荐视频发送给用户。
本申请提供了一种视频处理方法,可以基于视频的视频相关信息以及视频,得到该视频的视频特征向量,本申请的方案可以适用于任何需要确定视频的视频特征向量的场景,比如,视频推荐场景,为了更好的说明本申请的视频处理方法,下面结合图2所示的视频处理系统的结构示意图,对本申请的视频处理方法进行进一步的说明:
参见图2所示的视频处理系统结构示意图,该系统包括终端A,终端B,终端C ,终端D以及服务器M,其中,终端A至终端D均可向服务器提供待处理视频,即待处理视频可以为终端A至终端D中的任一终端对应的视频,假设,将用户在终端A所观看的一个视频作为待处理视频,即目标用户对应的终端为终端A,终端B至终端D为观看待处理视频的目标观看者的终端,即终端B至终端D对应的用户均观看过待处理视频,还可将目标观看者在各自终端上所观看的其他视频作为待处理视频的关联视频。
终端A可向服务器M发送待处理视频,服务器M基于该待处理视频,获取该待处理视频的视频相关信息,包括待处理视频的目标观看者以及待处理视频的关联视频等信息,基于本方案前文所描述的方法确定待处理视频的视频特征向量,以及第一视频库中各待推荐视频的视频特征向量,然后基于待处理视频的视频特征向量和第一视频库中各待推荐视频的视频特征向量的匹配度,从第一视频库中确定出目标推荐视频,将目标推荐视频发送给目标用户对应的终端A,以使得目标用户通过终端A观看该目标推荐视频。
基于与本申请实施例所提供的方法相同的原理,本申请实施例还提供了一种视频处理装置,如图3所示,该视频处理装置20包括信息获取模块210,初始向量获取模块220,关联关系确定模块230和视频向量提取模块240;其中:
信息获取模块210,用于获取待处理视频的视频相关信息,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项;
初始向量获取模块220,用于获取待处理视频以及视频相关信息中各项信息的初始特征向量;
关联关系确定模块230,用于确定待处理视频对应的关联关系,其中,关联关系为待处理视频和视频相关信息中各项信息之间的关联关系;
视频向量提取模块240,用于基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量,以基于视频特征向量进行待处理视频的处理。
本申请实施例所提供的方案,在获取视频的特征向量时,除了考虑待处理视频本身之前,还考虑了该视频的视频相关信息,具体的,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项,视频标签是能够反映了视频本身内容的信息,关联视频可以反映观看者的视频喜好,即关联视频能够从另一个方面反映待处理视频的视频特征,而待处理视频通常也是与关联用户的个性化信息息息相关的,因此关联用户也是能够从一定程度与能够反映视频特征的相关信息,因此,基于本申请实施例所提供的方法,所确定出的视频特征向量中不仅包含了视频本身的信息,还包括与视频相关的多个不同维度的信息,从而使得该视频特征向量对于视频的表达更加准确。
可选的,关联关系确定模块在确定待处理视频对应的关联关系时,具体用于:基于视频相关信息以及待处理视频,构建待处理视频对应的图,该图表征了关联关系;
其中,图中的节点包括待处理视频对应的节点、以及视频相关信息中各项信息各自对应的节点,图中的边包括待处理视频和视频相关信息中各项信息对应的节点之间的连边;
视频向量提取模块在基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量时,具体用于:基于各初始特征向量以及图,确定待处理视频的视频特征向量。
可选的,视频相关信息包括至少一个视频标签,图中的边还包括各视频标签所对应的节点之间的连边。
可选的,视频向量提取模块在基于各初始特征向量以及图,确定待处理视频的视频特征向量时,具体用于:
对于图中目标节点,基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种类型的信息对应的第一特征向量,目标节点为待处理视频对应的节点,视频相关信息中的每一项信息对应的节点属于一种类型的节点;
基于目标节点所对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量。
可选的,该装置还包括:
节点特征向量提取模块,用于对于图中每一节点,通过执行至少一次以下操作提取该节点的节点特征向量:基于该节点的每种类型的各邻居节点的当前特征向量,提取得到该类型的信息对应的第二特征向量;基于该节点的当前特征向量和该节点对应的各第二特征向量,得到该节点的目标特征向量;其中,若操作为一次,当前特征向量为初始特征向量,目标特征向量为节点特征向量,若操作为至少两次,第一次操对应的当前特征向量为初始特征向量,除第一次操作之前对应的当前特征向量为上一次操作得到的目标特征向量,节点特征向量为最后一次操作得到的目标特征向量;
视频向量提取模块在基于目标节点的每种类型的各邻居节点对应的初始特征向量,提取得到每种该类型的信息对应的第一特征向量时,具体用于:
对于每一种类型,将目标节点的该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量;
视频向量提取模块在基于目标节点对应的各第一特征向量和目标节点的初始特征向量,提取待处理视频的视频特征向量时,具体用于:
将目标节点对应的各第一特征向量和目标节点的节点特征向量进行拼接;
基于拼接后的特征向量,提取待处理视频的视频特征向量。
可选的,视频向量提取模块在将各种类型的信息对应的第一特征向量和目标节点的节点特征向量进行拼接时,具体用于:
获取各类型的信息对应的第一权重,以及待处理视频对应的第二权重;
基于各类型的信息对应的第一权重,对各类型的信息对应的第一特征向量进行加权,得到各类型的信息对应的第二特征向量;
基于第二权重,对目标节点的节点特征向量进行加权,得到第三特征向量;
对各类型的信息对应的第二特征向量和第三特征向量进行拼接。
可选的,信息获取模块在获取待处理视频以及视频相关信息中各项信息的初始特征向量时,具体用于:
获取待处理视频的视频标题,提取视频标题对应的标题特征向量,将标题特征向量作为待处理视频的初始特征向量;
若视频相关信息包括关联用户,对于任一关联用户,获取关联用户对应的历史视频,基于历史视频确定关联用户的初始特征向量。
可选的,关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项;关联视频包括待处理视频的目标观看者所观看的目标视频,目标视频为目标观看者在观看待处理视频之前和/或之后的至少一个视频。
可选的,关联用户包括待处理视频的目标观看者或待处理视频的发布者中的至少一项,若关联用户包括目标观看者,历史视频为目标观看者在当前时刻之前的第一设定时长内所观看的视频,若关联用户包括发布者,历史视频为发布者在当前时刻之前的第二设定时长内所发布的视频。
可选的,视频向量提取模块在基于视频特征向量进行待处理视频的处理时,具体用于:
基于待处理视频的视频特征向量和第一视频库中各待推荐视频的视频特征向量的匹配度,从第一视频库中确定出目标推荐视频,将目标推荐视频发送给目标用户,其中,待处理视频为目标用户观看过的视频;或者,
基于第二视频库中各视频的视频特征向量之间的相似度,对第二视频库中的各视频进行分类处理,其中,待处理视频为第二视频库中的每一视频。
可选的,基于各初始特征向量以及关联关系,确定待处理视频的视频特征向量是图神经网络模型实现的,图神经网络模型是通过模型训练模块训练得到的:
模型训练模块用于:
获取训练数据,训练数据中包括多个样本数据,每个样本数据包括一个样本视频对应的样本图以及该样本图中各节点的初始特征向量,其中,任一样本图中的各节点包括样本视频对应的第一节点和各第一信息对应第二节点,第一信息为样本视频的视频相关信息中任一项信息,样本图中的边包括第一节点与各第二节点之间的连边;
将各样本数据输入至初始神经网络模型,得到每个样本数据对应的各节点的预测特征向量;
对于每个样本数据,基于该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的相似度,确定样本数据对应的第一训练损失值;
基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值;
若总训练损失值满足训练结束条件,则结束训练,并将训练结束时对应的模型作为图神经网络模型,否则,调整图神经网络模型的模型参数,并基于训练数据对图神经网络模型继续进行训练。
对于每个样本图,样本图中还包括各第二信息对应的第三节点,第二信息包括与样本视频非相关且与第一信息中的至少一项信息相关的信息,对于每一第一信息,样本图中的边还包括该第一信息对应的第二节点与第二信息中与该第一信息相关的信息对应的第三节点之间的连边;
该装置还包括:
损失确定模块,用于对于每个样本数据,基于各第三节点的预测特征向量和第一节点的预测特征向量之间的相似度,确定样本数据对应的第二训练损失值;
模型训练模块在基于各样本数据对应的第一训练损失值,确定图神经网络模型对应的总训练损失值时,具体用于:基于各样本数据对应的第一训练损失值和第二训练损失值,确定总训练损失值。
本实施例的视频处理装置可执行本申请方法实施例提供的一种视频处理方法,其实现原理相类似,此处不再赘述。
视频处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该用户界面的显示装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的视频处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的视频处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的视频处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的视频处理装置可以采用软件方式实现,存储在存储器中的视频处理装置20,其可以是程序和插件等形式的软件,并包括一系列的模块,包括信息获取模块210,初始向量获取模块220,关联关系确定模块230和视频向量提取模块240;其中,信息获取模块210,初始向量获取模块220,关联关系确定模块230和视频向量提取模块240用于实现本发明实施例提供的视频处理方法。
本申请实施例提供了一种视频处理装置,与现有技术相比,本申请的方案在获取视频的特征向量时,除了考虑待处理视频本身之前,还考虑了该视频的视频相关信息,具体的,视频相关信息包括待处理视频的视频标签、待处理视频的关联用户或待处理视频的关联视频的至少一项,视频标签是能够反映了视频本身内容的信息,关联视频可以反映观看者的视频喜好,即关联视频能够从另一个方面反映待处理视频的视频特征,而待处理视频通常也是与关联用户的个性化信息息息相关的,因此关联用户也是能够从一定程度与能够反映视频特征的相关信息,因此,基于本申请实施例所提供的方法,所确定出的视频特征向量中不仅包含了视频本身的信息,还包括与视频相关的多个不同维度的信息,从而使得该视频特征向量对于视频的表达更加准确。
上述从虚拟模块或者虚拟单元的角度介绍本申请的语音信号处理装置,下面从实体装置的角度介绍本申请的电子设备。
基于与本申请实施例提供的方法相同的原理,本申请实施例中提供了一种电子设备,该电子设备包括存储器和处理器;存储器中存储有计算机程序,该计算机程序在被处理器执行时,可以实现本申请任一可选方式中所提供的方法。
作为一个可选方案,图4中示出了本申请实施例所适用的一种电子设备的结构示意图,如图4所示,图4所示的电子设备4000包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于用户终端设备、服务器,其中,服务器可以是物理服务器、云服务器、单个服务器或服务器集群等。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当该程序在计算机上运行时,可以使得计算机可以执行前述方法实施例中相应内容。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例涉及的各种可选实现方式中提供的方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种视频处理方法,其特征在于,包括:
获取待处理视频的视频相关信息,所述视频相关信息包括所述待处理视频的视频标签、所述待处理视频的关联用户或所述待处理视频的关联视频的至少一项;
获取所述待处理视频以及所述视频相关信息中各项信息的初始特征向量;
确定所述待处理视频对应的关联关系,其中,所述关联关系为所述待处理视频和所述视频相关信息中各项信息之间的关联关系;
基于各所述初始特征向量以及所述关联关系,确定所述待处理视频的视频特征向量,以基于所述视频特征向量进行所述待处理视频的处理;
所述确定所述待处理视频对应的关联关系,包括:
基于所述视频相关信息以及所述待处理视频,构建所述待处理视频对应的图,所述图表征了所述关联关系;其中,所述图中的节点包括所述待处理视频对应的节点、以及所述视频相关信息中各项信息各自对应的节点,所述图中的边包括所述待处理视频和所述视频相关信息中各项信息对应的节点之间的连边;
对于所述图中每一节点,通过执行至少一次以下操作提取该节点的节点特征向量:基于该节点的每种类型的各邻居节点的当前特征向量,提取得到该类型的信息对应的第二特征向量;基于该节点的当前特征向量和该节点对应的各第二特征向量,得到该节点的目标特征向量;其中,若所述操作为一次,所述当前特征向量为所述初始特征向量,所述目标特征向量为所述节点特征向量,若所述操作为至少两次,第一次操对应的当前特征向量为所述初始特征向量,除所述第一次操作之前对应的当前特征向量为上一次操作得到的目标特征向量,所述节点特征向量为最后一次操作得到的目标特征向量;
对于每一种类型,将目标节点的该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量,所述目标节点为所述待处理视频对应的节点,所述视频相关信息中的每一项信息对应的节点属于一种类型的节点;
将所述目标节点对应的各第一特征向量和所述目标节点的节点特征向量进行拼接;基于拼接后的特征向量,提取所述待处理视频的视频特征向量。
2.根据权利要求1所述的方法,其特征在于,所述视频相关信息包括至少一个视频标签,所述图中的边还包括各视频标签所对应的节点之间的连边。
3.根据权利要求1所述的方法,其特征在于,所述将所述目标节点对应的各第一特征向量和所述目标节点的节点特征向量进行拼接,包括:
获取各所述类型的信息对应的第一权重,以及所述待处理视频对应的第二权重;
基于各所述类型的信息对应的第一权重,对各所述类型的信息对应的第一特征向量进行加权,得到各所述类型的信息对应的第四特征向量;
基于所述第二权重,对所述目标节点的节点特征向量进行加权,得到第三特征向量;
对各所述类型的信息对应的第四特征向量和所述第三特征向量进行拼接。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取所述待处理视频以及所述视频相关信息中各项信息的初始特征向量,包括:
获取所述待处理视频的视频标题,提取所述视频标题对应的标题特征向量,将所述标题特征向量作为所述待处理视频的初始特征向量;
若所述视频相关信息包括所述关联用户,对于任一所述关联用户,获取所述关联用户对应的历史视频,基于所述历史视频确定所述关联用户的初始特征向量。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述关联用户包括所述待处理视频的目标观看者或所述待处理视频的发布者中的至少一项;所述关联视频包括所述待处理视频的目标观看者所观看的目标视频,所述目标视频为所述目标观看者在观看所述待处理视频之前和/或之后的至少一个视频。
6.根据权利要求4所述的方法,其特征在于,所述关联用户包括所述待处理视频的目标观看者或所述待处理视频的发布者中的至少一项,若所述关联用户包括目标观看者,所述历史视频为所述目标观看者在当前时刻之前的第一设定时长内所观看的视频,若所述关联用户包括发布者,所述历史视频为所述发布者在当前时刻之前的第二设定时长内所发布的视频。
7.根据权利要求1至3中任一项所述的方法,其特征在于,基于所述视频特征向量进行所述待处理视频的处理,包括:
基于所述待处理视频的视频特征向量和第一视频库中各待推荐视频的视频特征向量的匹配度,从第一视频库中确定出目标推荐视频,将所述目标推荐视频发送给目标用户,其中,所述待处理视频为所述目标用户观看过的视频;
或者,
基于第二视频库中各视频的视频特征向量之间的相似度,对所述第二视频库中的各视频进行分类处理,其中,所述待处理视频为第二视频库中的每一视频。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述基于各所述初始特征向量以及所述关联关系,确定所述待处理视频的视频特征向量是图神经网络模型实现的,所述图神经网络模型是通过以下方式训练得到的:
获取训练数据,所述训练数据中包括多个样本数据,每个样本数据包括一个样本视频对应的样本图以及该样本图中各节点的初始特征向量,其中,任一样本图中的各节点包括样本视频对应的第一节点和各第一信息对应第二节点,所述第一信息为样本视频的视频相关信息中任一项信息,所述样本图中的边包括所述第一节点与各所述第二节点之间的连边;
将各所述样本数据输入至初始神经网络模型,得到每个所述样本数据对应的各节点的预测特征向量;
对于每个所述样本数据,基于该样本数据的样本图中第一节点的预测特征向量和各第二节点的预测特征向量之间的相似度,确定所述样本数据对应的第一训练损失值;
基于各所述样本数据对应的第一训练损失值,确定所述图神经网络模型对应的总训练损失值;若所述总训练损失值满足训练结束条件,则结束训练,并将训练结束时对应的模型作为所述图神经网络模型,否则,调整所述图神经网络模型的模型参数,并基于所述训练数据对所述图神经网络模型继续进行训练。
9.根据权利要求8所述的方法,其特征在于,对于每个所述样本图,所述样本图中还包括各第二信息对应的第三节点,所述第二信息包括与所述样本视频非相关且与所述第一信息中的至少一项信息相关的信息,对于每一所述第一信息,所述样本图中的边还包括该第一信息对应的第二节点与所述第二信息中与该第一信息相关的信息对应的第三节点之间的连边;
所述方法还包括:
对于每个所述样本数据,基于各所述第三节点的预测特征向量和所述第一节点的预测特征向量之间的相似度,确定所述样本数据对应的第二训练损失值;
所述基于各所述样本数据对应的第一训练损失值,确定所述图神经网络模型对应的总训练损失值,包括:
基于各所述样本数据对应的第一训练损失值和所述第二训练损失值,确定所述总训练损失值。
10.一种视频处理装置,其特征在于,包括:
信息获取模块,用于获取待处理视频的视频相关信息,所述视频相关信息包括所述待处理视频的视频标签、所述待处理视频的关联用户或所述待处理视频的关联视频的至少一项;
初始向量获取模块,用于获取所述待处理视频以及所述视频相关信息中各项信息的初始特征向量;
关联关系确定模块,用于确定所述待处理视频对应的关联关系,其中,所述关联关系为所述待处理视频和所述视频相关信息中各项信息之间的关联关系;
视频向量提取模块,用于基于各所述初始特征向量以及所述关联关系,确定所述待处理视频的视频特征向量,以基于所述视频特征向量进行所述待处理视频的处理;
所述关联关系确定模块在确定所述待处理视频对应的关联关系时,具体用于:
基于所述视频相关信息以及所述待处理视频,构建所述待处理视频对应的图,所述图表征了所述关联关系;其中,所述图中的节点包括所述待处理视频对应的节点、以及所述视频相关信息中各项信息各自对应的节点,所述图中的边包括所述待处理视频和所述视频相关信息中各项信息对应的节点之间的连边;
所述视频向量提取模块在基于各所述初始特征向量以及所述关联关系,确定所述待处理视频的视频特征向量时,具体用于:
对于所述图中每一节点,通过执行至少一次以下操作提取该节点的节点特征向量:基于该节点的每种类型的各邻居节点的当前特征向量,提取得到该类型的信息对应的第二特征向量;基于该节点的当前特征向量和该节点对应的各第二特征向量,得到该节点的目标特征向量;其中,若所述操作为一次,所述当前特征向量为所述初始特征向量,所述目标特征向量为所述节点特征向量,若所述操作为至少两次,第一次操对应的当前特征向量为所述初始特征向量,除所述第一次操作之前对应的当前特征向量为上一次操作得到的目标特征向量,所述节点特征向量为最后一次操作得到的目标特征向量;
对于每一种类型,将目标节点的该类型的各邻居节点的节点特征向量进行融合,得到该类型的信息对应的第一特征向量,所述目标节点为所述待处理视频对应的节点,所述视频相关信息中的每一项信息对应的节点属于一种类型的节点;
将所述目标节点对应的各第一特征向量和所述目标节点的节点特征向量进行拼接;基于拼接后的特征向量,提取所述待处理视频的视频特征向量。
11.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器在运行所述计算机程序时执行权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序在被处理器运行时,所述处理器执行权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110527579.7A CN112948626B (zh) | 2021-05-14 | 2021-05-14 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110527579.7A CN112948626B (zh) | 2021-05-14 | 2021-05-14 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112948626A CN112948626A (zh) | 2021-06-11 |
CN112948626B true CN112948626B (zh) | 2021-08-17 |
Family
ID=76233886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110527579.7A Active CN112948626B (zh) | 2021-05-14 | 2021-05-14 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948626B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113610016B (zh) * | 2021-08-11 | 2024-04-23 | 人民中科(济南)智能技术有限公司 | 视频帧特征提取模型的训练方法、系统、设备及存储介质 |
CN113792183B (zh) * | 2021-09-17 | 2023-09-08 | 咪咕数字传媒有限公司 | 一种文本生成方法、装置及计算设备 |
CN114328987A (zh) * | 2021-09-18 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 媒体内容的召回方法、装置、设备、存储介质和产品 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834686B (zh) * | 2015-04-17 | 2018-12-28 | 中国科学院信息工程研究所 | 一种基于混合语义矩阵的视频推荐方法 |
CN105574132A (zh) * | 2015-12-15 | 2016-05-11 | 海信集团有限公司 | 一种多媒体文件推荐方法和终端 |
CN108307240B (zh) * | 2018-02-12 | 2019-10-22 | 北京百度网讯科技有限公司 | 视频推荐方法和装置 |
CN109360028B (zh) * | 2018-10-30 | 2020-11-27 | 北京字节跳动网络技术有限公司 | 用于推送信息的方法和装置 |
CN110941740B (zh) * | 2019-11-08 | 2023-07-14 | 深圳市雅阅科技有限公司 | 视频推荐方法及计算机可读存储介质 |
CN111444387A (zh) * | 2020-03-27 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 视频分类方法、装置、计算机设备和存储介质 |
CN111737520B (zh) * | 2020-06-22 | 2023-07-25 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置、电子设备及存储介质 |
CN111918104A (zh) * | 2020-07-29 | 2020-11-10 | 有半岛(北京)信息科技有限公司 | 一种视频数据的召回方法、装置、计算机设备和存储介质 |
CN112163122B (zh) * | 2020-10-30 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 确定目标视频的标签的方法、装置、计算设备及存储介质 |
-
2021
- 2021-05-14 CN CN202110527579.7A patent/CN112948626B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112948626A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112948626B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN110781407A (zh) | 用户标签生成方法、装置及计算机可读存储介质 | |
CN113590854B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114529765B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114283350A (zh) | 视觉模型训练和视频处理方法、装置、设备及存储介质 | |
CN113592041B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114398973A (zh) | 一种媒体内容标签识别方法、装置、设备及存储介质 | |
CN113569610A (zh) | 视频内容识别方法和装置、存储介质及电子设备 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN113688814B (zh) | 图像识别方法及装置 | |
CN114398505A (zh) | 目标词语的确定方法、模型的训练方法、装置及电子设备 | |
CN113822127A (zh) | 视频处理方法、装置、视频处理设备及存储介质 | |
CN116958590A (zh) | 媒体资源的处理方法和装置、存储介质及电子设备 | |
CN115205606A (zh) | 一种图像的多标签分类的方法、装置及相关产品 | |
CN116775980A (zh) | 一种跨模态搜索方法及相关设备 | |
CN114449342A (zh) | 视频推荐方法、装置、计算机可读存储介质和计算机设备 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN112417260A (zh) | 本地化推荐方法、装置及存储介质 | |
CN114897046B (zh) | 媒体资源的语义特征确定方法和装置、存储介质及设备 | |
CN118230224B (zh) | 标签打分方法、标签打分模型训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40047266 Country of ref document: HK |