CN113395594A - 一种视频处理方法、装置、设备以及介质 - Google Patents
一种视频处理方法、装置、设备以及介质 Download PDFInfo
- Publication number
- CN113395594A CN113395594A CN202110075946.4A CN202110075946A CN113395594A CN 113395594 A CN113395594 A CN 113395594A CN 202110075946 A CN202110075946 A CN 202110075946A CN 113395594 A CN113395594 A CN 113395594A
- Authority
- CN
- China
- Prior art keywords
- video
- target
- sample
- network model
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 239000013598 vector Substances 0.000 claims abstract description 271
- 238000010422 painting Methods 0.000 claims abstract description 112
- 238000012545 processing Methods 0.000 claims abstract description 83
- 239000012634 fragment Substances 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 73
- 238000000605 extraction Methods 0.000 claims abstract description 33
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 48
- 238000012549 training Methods 0.000 claims description 46
- 230000002776 aggregation Effects 0.000 claims description 45
- 238000004220 aggregation Methods 0.000 claims description 45
- 230000004927 fusion Effects 0.000 claims description 42
- 238000012552 review Methods 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 34
- 230000008569 process Effects 0.000 claims description 24
- 238000009826 distribution Methods 0.000 claims description 23
- 230000006399 behavior Effects 0.000 claims description 20
- 230000007704 transition Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008707 rearrangement Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 239000003973 paint Substances 0.000 description 20
- 238000012550 audit Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 210000002569 neuron Anatomy 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 241000209094 Oryza Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 230000003796 beauty Effects 0.000 description 2
- 230000034303 cell budding Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- XCWPUUGSGHNIDZ-UHFFFAOYSA-N Oxypertine Chemical compound C1=2C=C(OC)C(OC)=CC=2NC(C)=C1CCN(CC1)CCN1C1=CC=CC=C1 XCWPUUGSGHNIDZ-UHFFFAOYSA-N 0.000 description 1
- 206010034912 Phobia Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 238000010426 hand crafting Methods 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 235000008935 nutritious Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000019899 phobic disease Diseases 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4668—Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
Abstract
本申请实施例提供了一种视频处理方法、装置、设备以及介质,该方法涉及人工智能领域,方法包括:获取目标视频以及目标网络模型;将目标视频的目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,得到目标视频的目标画风标签。采用本申请,可以提高短视频推荐的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种视频处理方法、装置、设备以及介质。
背景技术
随着多媒体技术的发展,视频已成为人们日常生活之中获取信息与享受娱乐的主要载体。因为各类视频媒体平台的普及,衍生出了各式各样的短视频,这里的短视频是指在各种视频媒体平台上播放的、适合在移动状态和短时休闲状态下观看的视频内容。
目前,短视频的推荐主要是利用用户的画像进行视频推荐,然而,这里的用户画像往往是基于该用户的用户注册信息和该用户所请求播放的视频的基本视频信息所确定的,比如,这里的基本视频信息主要是指人工标记的某些短视频的标签信息和主题信息等,这里的用户注册信息可以包含该用户的年龄信息和性别信息等。由此可见,现有的视频推荐,主要依赖于一些抽象程度低(即概括程度高)的粗粒度的信息,基于此,在使用这些粗粒度的信息为用户进行视频推荐时,势必会降低短视频推荐的准确度。
发明内容
本申请实施例提供一种视频处理方法、装置、设备以及介质,可以提高短视频推荐的准确度。
本申请实施例一方面提供了一种视频处理方法,包括:
获取目标视频以及目标视频对应的目标网络模型;目标网络模型包含第一网络模型和第二网络模型;
获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;K为正整数,且每个视频片段中的视频帧的数量均为N;N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于N;
获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签;目标画风标签用于为第一用户推送与目标视频相关的关联视频。
本申请实施例一方面提供了一种视频处理装置,包括:
目标获取模块,用于获取目标视频以及目标视频对应的目标网络模型;目标网络模型包含第一网络模型和第二网络模型;
第一输出模块,用于获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
第一确定模块,用于将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;K为正整数,且每个视频片段中的视频帧的数量均为N;N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于N;
第二输出模块,用于获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
画风识别模块,用于基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签;目标画风标签用于为第一用户推送与目标视频相关的关联视频。
其中,目标获取模块包括:
视频获取单元,用于通过调度中心服务组件调用视频画风识别服务,通过视频画风识别服务获取第二用户通过视频上传接口所上传的目标视频;
目标获取单元,用于通过视频画风识别服务获取用于对目标视频进行画风识别的目标网络模型。
其中,第一输出模块包括:
文本获取单元,用于获取目标视频的视频主题信息、视频分类信息以及视频标签信息,将视频主题信息、视频分类信息以及视频标签信息作为目标视频的目标文本信息;
文本分词单元,用于对目标文本信息进行分词处理,得到目标文本信息的文本分词,将文本分词进行向量转换,得到文本分词对应的文本分词向量;
特征提取单元,用于将文本分词向量输入第一网络模型,由第一网络模型提取得到文本分词向量的向量特征;
文本确定单元,用于确定文本分词在目标文本信息中的文本位置,基于文本位置以及提取到的向量特征,确定目标文本信息对应的文本特征向量。
其中,第一子网络包括神经网络和多层感知机;其中,多层感知机包括输入层、隐藏层和输出层;神经网络用于提取输入的视频分片的初始视频特征;输入层用于将初始视频特征作为隐藏层的输入特征,隐藏层用于提取输入特征的隐藏特征;输出层用于根据隐藏特征输出输入的视频分片的视频特征向量。
其中,画风识别模块包括:
向量投影单元,用于将文本特征向量与每个视频分片的视频特征向量投影至目标向量空间;
向量融合单元,用于在目标向量空间中对文本特征向量和每个视频分片的视频特征向量进行特征融合,得到融合向量特征;
匹配度确定单元,用于将融合向量特征输入至目标网络模型的分类器,由目标网络模型的分类器对目标视频进行画风识别,得到融合向量特征与分类器中的样本属性特征之间的匹配度;匹配度用于描述目标视频属于样本属性特征对应的样本标签的概率;
标签确定单元,用于从匹配度中将具有最大匹配概率的样本属性特征所对应的样本标签,作为目标视频的目标画风标签。
其中,装置还包括:
初始获取模块,用于获取用于训练初始网络模型的样本视频和样本视频的样本画风标签;初始网络模型包括第一样本模型和第二样本模型;
第三输出模块,用于获取样本视频的样本文本信息,将样本文本信息输入至第一样本模型,由第一样本模型输出样本文本信息对应的样本文本向量;
第二确定模块,用于将样本视频均匀划分为K个样本片段,基于时间采样策略对K个样本片段进行随机抽帧处理,得到每个样本片段的样本分片;K为正整数,且每个样本片段中的视频帧的数量均为M;M为正整数;一个样本片段对应一个样本分片,且一个样本分片中的视频帧的数量小于或者等于M;
第四输出模块,用于获取第二样本模型中的K个第二子网络,将每个样本分片分别输入至不同的第二子网络,由K个第二子网络分别输出每个样本分片的样本视频向量;
初始训练模块,用于基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型。
其中,初始训练模块包括:
迭代训练单元,用于基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,得到模型训练结果;
过渡确定单元,用于当模型训练结果指示迭代训练后的初始网络模型的模型损失函数不满足模型收敛条件时,将迭代训练后的初始网络模型作为过渡网络模型;
目标确定单元,用于基于不满足模型收敛条件的模型损失函数,对过渡网络模型的模型参数进行调整,直到调整后的过渡网络模型满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标网络模型。
其中,装置还包括:
排重处理模块,用于通过调度中心服务组件获取第二用户上传的目标视频,对目标视频进行排重处理,得到排重处理结果,基于排重处理结果将目标视频存储至内容数据库;
视频审核模块,用于根据从内容数据库中读取到的目标视频以及目标视频的元信息,对目标视频进行视频审核,得到视频审核结果;
分发启用模块,用于在视频审核结果指示目标视频为可分发视频时,启动内容分发服务,调用内容分发服务从视频推荐数据库中获取目标画风标签所映射的聚合簇,将可分发视频添加至聚合簇;
视频推送模块,用于获取第一用户的用户画像,基于用户画像中所携带的目标画风标签,从聚合簇中获取待推送给第一用户的至少一个关联视频,将至少一个关联视频推送给第一用户。
其中,排重处理模块包括:
特征配置单元,用于通过调度中心服务组件获取第二用户上传的目标视频,为目标视频配置视频指纹特征;
距离确定单元,用于获取内容数据库中的每个历史视频的历史指纹特征,确定每个历史指纹特征与视频指纹特征的向量距离;
视频存储单元,用于若向量距离中不存在大于与历史视频相关联的向量阈值的向量距离,则确定视频指纹特征满足排重处理条件,将第二用户上传的目标视频存储至内容数据库。
其中,排重处理模块还包括:
视频删除单元,用于若向量距离中存在小于向量阈值的向量距离,则确定视频指纹特征不满足排重处理条件,且确定内容数据库中存在与目标视频相匹配的历史视频,删除第二用户上传的目标视频。
其中,视频审核模块包括:
视频读取单元,用于从内容数据库中读取目标视频,且从内容数据库中读取目标视频第一辅助信息、第二辅助信息以及第三辅助信息;第一辅助信息是由第二用户在上传目标视频时所录入的信息;第二辅助信息是由视频分类模型对目标视频进行分类后得到的;第三辅助信息是对目标视频进行转码后得到的;
第一确定单元,用于将第一辅助信息、第二辅助信息以及第三辅助信息作为目标视频的元信息,基于元信息对目标视频进行第一视频审核,得到初始视频审核结果;
第二确定单元,用于若初始视频审核结果指示目标视频具备合法性,则对目标视频进行第二视频审核,得到目标视频审核结果,将目标视频审核结果作为目标视频的视频审核结果。
其中,目标视频为第一用户在视频客户端中播放的视频;
视频推送模块包括:
信息获取单元,用于获取第一用户的行为日志表,从行为日志表中提取与第一用户相关联的历史视频信息;历史视频信息是基于第一用户在视频客户端中的历史用户行为所确定的;
画像确定单元,用于获取历史视频信息的历史画风标签,基于历史画风标签和目标画风标签,确定用于表征第一用户的用户画像。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
在本申请实施例中,计算机设备在获取到某个视频(例如,第二用户所上传的目标视频)时,可以获取该视频对应的目标网络模型,这里的目标网络模型可以包含第一网络模型和第二网络模型。进一步的,计算机设备可以在获取到目标视频的目标文本信息时,通过第一网络模型输出目标文本信息对应的文本特征向量。进一步的,计算机设备可以在将目标视频均匀划分为K个视频片段时,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片,进而可以获取第二网络模型中的K个第一子网络,以通过不同的第一子网络分别输出每个视频分片的视频特征向量。其中,这里的K可以为正整数,且每个视频片段中的视频帧的数量均为N,一个视频片段可以对应一个视频分片,因此,一个视频分片中的视频帧的数量小于或者等于N,这里的N可以为正整数。进一步的,计算机设备可以基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签。由此可见,本申请实施例可以通过具有画风识别功能的目标网络模型,准确识别出目标视频的目标画风标签。比如,本申请实施例可以通过第一网络模型提取得到前述目标文本信息的文本特征向量,应当理解,这里的文本特征向量为该目标视频的辅助视频向量。此外,本申请实施例还可以通过第二网络模型中的K个第一子网络,提取得到每个视频分片的视频特征向量,应当理解,通过将不同视频分片分别输入至不同的第一子网络,可以在时间维度上提取得到更为丰富的视频特征向量。这样,当通过目标网络模型中的分类器,对文本特征向量(即前述辅助视频向量)和更为丰富的视频特征向量进行向量融合处理后,即可以对融合得到用于准确表征该目标视频的视频特征进行画风识别,以准确得到目标视频的目标画风标签,应当理解,这里的目标画风标签可以用于表征该目标视频的视频风格和视频调性,属于一种对更深层次的高维度的视频分类属性。基于此,当基于识别到的目标画风标签进行视频聚类后,可以快速且准确地得到用于为第一用户推送与所述目标视频相关的关联视频,这意味着在得到目标画风标签之后,可以在进行短视频推荐时,提高短视频推荐的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种进行数据交互的场景示意图;
图3是本申请实施例提供的一种视频处理方法的流程示意图;
图4是本申请实施例提供的一种抽取视频分片的场景示意图;
图5是本申请实施例提供的一种画风识别模型的结构示意图;
图6是本申请实施例提供的一种多层感知机的结构示意图;
图7是本申请实施例提供的一种视频处理方法的流程示意图;
图8是本申请实施例提供的一种画风标签识别的系统流程图;
图9是本申请实施例提供的一种进行画风识别的场景示意图;
图10a是本申请实施例提供的一种进行视频分发的场景示意图;
图10b是本申请实施例提供的一种进行视频推荐的场景示意图;
图10c是本申请实施例提供的一种进行视频搜索的场景示意图;
图11是本申请实施例提供的一种视频处理装置的结构示意图;
图12是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,本申请实施例提供的方案主要涉及人工智能的自然语言处理(NatureLanguage Processing,简称NLP)技术与机器学习(Machine Learning,简称ML)技术。
其中,自然语言处理(Nature Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
具体的,请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括业务服务器2000和用户终端集群。其中,用户终端集群具体可以包括一个或者多个用户终端,这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示,多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n。其中,用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接,以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。
其中,如图1所示的业务服务器2000可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
应当理解,如图1所示的用户终端集群中的每个用户终端均可以集成安装有应用客户端,当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中,该应用客户端可以理解为一种能够加载并显示视频的应用,例如,这里的应用客户端具体可以包括:车载客户端、智能家居客户端、娱乐客户端(例如,游戏客户端)、多媒体客户端(例如,视频客户端)、社交客户端以及资讯类客户端(例如,新闻客户端)等。其中,为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端,该目标用户终端可以包括:智能手机、平板电脑、笔记本电脑、智能电视、车载设备等具有视频加载功能的智能终端。例如,本申请实施例可以将图1所示的用户终端3000a作为目标用户终端。
为便于理解,本申请实施例可以将某个用户(例如,用户Y)通过应用客户端上传的视频(比如,视频集锦)统称为目标视频。
应当理解,本申请实施例中的应用客户端可以集成在某客户端(例如,社交客户端)中,例如,在应用客户端集成在社交客户端中时,应用客户端可以为QQ看点。可选的,本申请实施例中的应用客户端还可以为独立于上述社交客户端的客户端(例如,新闻客户端),例如,在应用客户端为独立的客户端时,应用客户端可以为看点快报。本申请实施例不对应用客户端的类型进行限定。
可以理解的是,本申请实施例可以将通过第一账号信息(例如,账号信息1)登录应用客户端的用户称之为第一用户,该第一用户对应的用户终端可以称之为第一终端。本申请实施例可以在上述用户终端集群中任意选择一个用户终端作为第一终端,例如,本申请实施例可以将上述用户终端集群中的用户终端3000a作为第一终端。应当理解,本申请实施例中的第一用户可以为通过应用客户端接收视频的用户,即视频接收者。
可以理解的是,本申请实施例可以将通过第二账号信息(例如,账号信息2)登录应用客户端的用户称之为第二用户(例如,上述用户Y),该第二用户对应的用户终端可以称之为第二终端。本申请实施例可以在上述用户终端集群中任意选择一个用户终端作为第二终端,例如,本申请实施例可以将上述用户终端集群中的用户终端3000b作为第二终端。应当理解,本申请实施例中的第二用户可以为通过应用客户端上传视频的用户,即视频上传者。
应当理解,本申请实施例中的第一用户既可以作为上述视频接收者,也可以作为上述视频上传者,比如,第一用户可以通过第一终端中的应用客户端成为视频接收者,第一用户还可以通过第一终端中的应用客户端成为视频上传者。同理,本申请实施例中的第二用户既可以作为上述视频上传者,也可以作为上述视频接收者,比如,第二用户可以通过第二终端中的应用客户端成为视频上传者,第二用户还可以通过第二终端中的应用客户端成为视频接收者。
其中,可以理解的是,上述网络框架所适用的业务场景具体可以包括:视频分发场景、视频推荐场景、视频搜索场景等,这里将不对具体的业务场景进行一一列举。
比如,在视频分发场景下,计算机设备(例如,上述业务服务器2000)可以基于用户Y的用户画像,为该用户Y推荐至少一个关联视频,其中,这里的至少一个关联视频可以与用户Y所喜爱的(或者观看过的)视频具有相同的画风标签。例如,通过对用户Y的用户画像进行分析,可以确定该用户Y所喜爱的(或者观看过的)画风标签为萌宠,则计算设备可以获取画风标签为萌宠的一个或多个关联视频(例如,视频S1和视频S2),进而计算机设备可以将视频S1和视频S2推送至用户Y对应的应用客户端中。应当理解,用户Y所喜爱的画风标签的数量还可以为多个(例如,2个),本申请实施例不对这里的画风标签的数量进行限定。
又比如,在视频推荐场景下,计算机设备(例如,上述业务服务器2000)可以获取用户Y正在观看的视频的画风标签,并为用户Y推荐至少一个关联视频,其中,这里的至少一个关联视频可以与用户Y正在观看的视频具有相同的画风标签。例如,用户Y正在观看的视频(例如,视频S3)的画风标签为校园生活,则计算机设备可以获取画风标签为校园生活的一个或多个关联视频(例如,视频S4),进而计算机设备可以将视频S4推送至用户Y正在观看的视频S3所对应的应用客户端中。
又比如,在视频搜索场景下,计算机设备(例如,上述业务服务器2000)可以在用户Y进行搜索时,识别用户Y搜索的内容所对应的画风标签,为用户Y推荐至少一个关联视频,其中,这里的至少一个关联视频可以与用户Y搜索的内容具有相同的画风标签。例如,用户Y搜索的内容为插秧,插秧所对应的画风标签为农村生活,则计算机设备可以获取画风标签为农村生活的一个或多个关联视频(例如,视频S5和视频S6),进而计算机设备可以将视频S5和视频S6推送到用户Y对应的应用客户端的搜索结果界面中。
为便于理解,进一步的,请参见图2,图2是本申请实施例提供的一种进行数据交互的场景示意图。其中,如图2所示的业务服务器可以为上述图1所对应实施例中的业务服务器2000,如图2所示的终端Z(即上述第一终端)可以为上述图1所对应实施例的用户终端集群中的任意一个用户终端,为便于理解,本申请实施例以上述图1所示的用户终端3000a作为该终端Z为例,以阐述图2所示的终端Z和业务服务器进行数据交互的具体过程。
如图2所示,业务服务器可以在获取到目标视频时,将该目标视频均匀划分为K个视频片段,这里的K个视频片段具体可以包括:视频片段20a,视频片段20b,…,视频片段20K,这里的K可以为正整数。其中,K个视频片段中的每个视频片段具有相同数量的视频帧,例如,每个视频片段可以包含N个视频帧,这里的N可以为正整数。
进一步的,如图2所示,业务服务器可以基于时间采样策略对该K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片,这里的视频分片的数量为K个,这里的K个视频分片具体可以包括:视频分片200a,视频分片200b,…,视频分片200K。其中,视频分片200a可以为对视频片段20a进行随机抽帧处理所得到的,视频分片200b可以为对视频片段20b进行随机抽帧处理所得到的,…,视频分片200K可以为对视频片段20K进行随机抽帧处理所得到的。可以理解的是,视频分片200a中的视频帧的数量小于或者等于视频片段20a中的视频帧的数量,视频分片200b中的视频帧的数量小于或者等于视频片段20b中的视频帧的数量,…,视频分片200K中的视频帧的数量小于或者等于视频片段20K中的视频帧的数量。
进一步的,如图2所示,业务服务器可以获取第二网络模型中的K个第一子网络,将K个视频分片中的每个视频分片分别输入至不同的第一子网络,以输出每个视频分片的视频特征向量,这里的K个第一子网络具体可以包括:第一子网络1,第一子网络2,…,第一子网络K。比如,业务服务器可以将视频分片200a输入至第一子网络1,由第一子网络1输出视频分片200a的特征向量1;将视频分片200b输入至第一子网络2,由第一子网络2输出视频分片200b的特征向量2;…;将视频分片200K输入至第一子网络K,由第一子网络K输出视频分片200K的特征向量K。可以理解的是,这里的特征向量1,特征向量2,…,特征向量K可以称之为视频特征向量。
如图2所示,业务服务器还可以获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息的文本特征向量。进一步的,如图2所述,业务服务器可以基于目标文本信息的文本特征向量、每个视频分片的视频特征向量(即特征向量1,特征向量2,…,特征向量K)以及目标网络模型的分类器,对目标视频进行画风识别,得到该目标视频的目标画风标签。可以理解的是,上述第一网络模型和第二网络模型可以统称为目标网络模型。
其中,可以理解的是,通过对用户Y(即上述第一用户)的历史用户行为进行分析,可以得到用户Y的用户画像,当用户Y在应用客户端(例如,视频客户端)中播放过或正在播放目标视频时(即当用户画像携带目标视频的目标画风标签时),图2所示的业务服务器可以获取与该目标画风标签相关的至少一个关联视频,以作为与目标视频相关的至少一个关联视频,进而将这里的至少一个关联视频推送至用户Y对应的终端Z。这样,用户Y可以在终端Z所显示的至少一个关联视频中选择一个或多个视频,以在终端Z的视频客户端中观看这一个或多个视频,例如,用户Y可以在视频客户端中选择观看视频G。
其中,业务服务器对目标视频进行画风识别的具体过程,可以参见下述图3-图10c所对应的实施例。
进一步的,请参见图3,图3是本申请实施例提供的一种视频处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端3000a)执行,也可以由业务服务器(例如,上述图1所示的业务服务器2000)执行,还可以由用户终端和业务服务器共同执行。为便于理解,本实施例以该方法由业务服务器执行为例进行说明。其中,该视频处理方法至少可以包括以下步骤S101-步骤S105:
步骤S101,获取目标视频以及目标视频对应的目标网络模型;
具体的,业务服务器可以通过调度中心服务组件调用视频画风识别服务,通过视频画风识别服务获取第二用户通过视频上传接口所上传的目标视频。进一步的,业务服务器可以通过视频画风识别服务获取用于对目标视频进行画风识别的目标网络模型。其中,目标网络模型可以包含第一网络模型和第二网络模型。
应当理解,第二用户可以为自媒体或视频制作机构(例如,多渠道网络MCN,Multi-Channel Network),则第二用户通过视频上传接口所上传的目标视频可以为自媒体或视频制作机构的PGC(Professional Generated Content,专业生产内容,还可以为Professionally-produced Content,简称PPC)内容和UGC(User Generated Content,用户生产内容)内容。其中,MCN是一种多频道网络的产品形态,可以将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。其中,PGC内容可以用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。
其中,可以理解的是,目标视频可以为任意场景下需要进行画风识别的视频。例如,该目标视频可以为在音视频通话场景中,第二用户通过第二终端所录屏的视频;该目标视频也可以为第二用户通过第二终端的摄像头所录制的视频;该目标视频还可以为第二用户在网络上所下载的视频;该目标视频还可以为第二用户通过视频剪辑工具所剪辑的视频;该目标视频还可以为第二终端或业务服务器通过视频生成方法所自动生成的视频。本申请实施例不对目标视频的生成方式进行限定。
步骤S102,获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
具体的,业务服务器可以获取目标视频的视频主题信息、视频分类信息以及视频标签信息,将视频主题信息、视频分类信息以及视频标签信息作为目标视频的目标文本信息。进一步的,业务服务器可以对目标文本信息进行分词处理,得到目标文本信息的文本分词,将文本分词进行向量转换,得到文本分词对应的文本分词向量。进一步的,业务服务器可以将文本分词向量输入第一网络模型,由第一网络模型提取得到文本分词向量的向量特征。进一步的,业务服务器可以确定文本分词在目标文本信息中的文本位置,基于文本位置以及提取到的向量特征,确定目标文本信息对应的文本特征向量。
应当理解,分词处理就是将连续的字序列按照一定的规范重新组合成词序列的过程。例如,若视频主题信息为:“我和我的两个小伙伴”,则在对视频主题信息进行分词处理后,可以得到视频主题信息的文本分词为:“我”、“和”、“我的”、“两个”、“小伙伴”。
可选的,可以理解的是,业务服务器在得到文本分词对应的文本分词向量时,可以对文本位置进行向量转换,得到文本位置对应的文本位置向量,进而可以将文本分词向量与文本位置向量进行特征融合(例如,将文本分词向量和文本位置向量进行向量相加),得到目标文本信息对应的目标文本向量,从而可以将目标文本向量输入第一网络模型,由第一网络模型提取得到目标文本向量的文本特征向量。
其中,可以理解的是,业务服务器可以通过词嵌入算法(例如,Word2Vec、Glove等算法)将文本分词进行向量转换,得到文本分词对应的文本分词向量。可选的,业务服务器可以通过位置公式将文本位置进行向量转换,得到文本位置对应的文本位置向量。应当理解,本申请实施例对将文本分词以及文本位置进行向量转换的具体实现方式不做限定。
应当理解,第一网络模型可以为Transformer模型,这里的Transformer模型是一种NLP(即自然语言处理)经典模型。Transformer模型使用了自注意力机制(即Self-Attention机制),不采用RNN(Recurrent Neural Network,简称循环神经网络)的顺序结构,使得模型可以并行化训练,且拥有全局信息。其中,RNN(Recurrent Neural Network)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion),且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。应当理解,本申请实施例不对第一网络模型的具体类型进行限定。
其中,可以理解的是,自注意力机制是注意力机制(即Attention机制)的改进,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐,从而增加部分区域的观察精细度的机制,而自注意力机制是注意力机制的改进,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。
步骤S103,将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;
其中,这里的K可以为正整数,且每个视频片段中的视频帧的数量均为N;这里的N可以为正整数。其中,一个视频片段可以对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于N。
为便于理解,请参见图4,图4是本申请实施例提供的一种抽取视频分片的场景示意图。如图4所示的目标视频可以为业务服务器获取到的目标视频,该目标视频可以包括n个视频帧,这里的n个视频帧具体可以包括:视频帧1,视频帧2,视频帧3,…,视频帧(n-2),视频帧(n-1)以及视频帧n。
进一步的,通过对图4所示的目标视频进行均匀划分,可以得到K个视频片段,K可以为大于1的正整数,这里的K个视频片段具体可以包括:片段4a、片段4b、…、片段4k。其中,每个视频片段中的视频帧的数量均为3(即N等于3),即每个视频片段均可以包括3个视频帧。其中,片段4a中可以包括视频帧1、视频帧2和视频帧3,片段4b中可以包括视频帧4、视频帧5和视频帧6,…,片段4k中可以包括视频帧(n-2)、视频帧(n-1)和视频帧n。
进一步的,通过对图4所示的K个视频片段中的每个视频片段进行随机抽帧处理,可以得到K个视频片段所对应的K个视频分片,这里的K个视频分片具体可以包括:分片40a、分片40b、…、分片40k。其中,一个视频片段对应一个视频分片,一个视频分片中的视频帧的数量小于或者等于N(即3)。比如,可以从片段4a中随机抽取3个视频帧(例如,视频帧1、视频帧2和视频帧3),作为片段4a所对应的视频分片,即分片40a;可以从片段4b中随机抽取1个视频帧(例如,视频帧6),作为片段4b所对应的视频分片,即分片40b;…;可以从片段4k中随机抽取2个视频帧(例如,视频帧(n-1)和视频帧n),作为片段4k所对应的视频分片,即分片40k。
应当理解,在一个视频片段包括N个视频帧时,从该视频片段中随机抽取的视频帧的数量可以为1个、…、N个。可以理解的是,在一个视频片段包括3个视频帧时,从该视频片段中随机抽取的视频帧的数量可以为1个、2个或3个,为便于理解,以该视频片段为片段4a为例。可以理解的是,在随机抽帧处理得到的视频帧的数量为1时,随机抽取的视频帧可以包括视频帧1,即可以将视频帧1作为片段4a所对应的视频分片;随机抽取的视频帧可以包括视频帧2,即可以将视频帧2作为片段4a所对应的视频分片;随机抽取的视频帧可以包括视频帧3,即可以将视频帧3作为片段4a所对应的视频分片。
同理,可以理解的是,在随机抽帧处理得到的视频帧的数量为2时,随机抽取的视频帧可以包括视频帧1和视频帧2,即可以将视频帧1和视频帧2作为片段4a所对应的视频分片;随机抽取的视频帧可以包括视频帧2和视频帧3,即可以将视频帧2和视频帧3作为片段4a所对应的视频分片。
同理,可以理解的是,在随机抽帧处理得到的视频帧的数量为3时,随机抽取的视频帧可以包括视频帧1、视频帧2和视频帧3,即可以将视频帧1、视频帧2和视频帧3作为片段4a所对应的视频分片。
应当理解,对片段4b、…、片段4k进行随机抽帧处理的具体过程,可以参见上述对片段4a进行随机抽帧处理的描述,这里将不再进行赘述。
应当理解,从视频片段(例如,片段4a)中随机抽帧处理得到的视频帧可以为连续的视频帧。可选的,从视频片段中随机抽帧处理得到的视频帧还可以为不连续的视频帧,例如,从片段4a中随机抽取的视频帧可以包括视频帧1和视频帧3,即可以将视频帧1和视频帧3作为片段4a所对应的视频分片。本申请对此不做限定。
步骤S104,获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
其中,第一子网络包括神经网络和多层感知机(即多层感知器)。其中,多层感知机包括输入层、隐藏层和输出层;神经网络用于提取输入的视频分片的初始视频特征,输入层用于将初始视频特征作为隐藏层的输入特征,隐藏层用于提取输入特征的隐藏特征,输出层用于根据隐藏特征输出输入的视频分片的视频特征向量。
应当理解,第二网络模型可以为TSN(TemporalSegmentNetworks)网络模型,TSN网络模型的具体执行过程可以表示为:TSN(T1,T2,…,TK)=H(G(F(T1;W),F(T2;W),…,F(TK;W)))。其中,T1可以表示第一个视频分片,T2可以表示第二个视频分片,…,TK可以表示第K个视频分片,F可以表示第一子网络(即卷积神经网络(Convolutional Neural Networks,简称CNN))输出的每个视频分片的视频特征向量,G可以表示通过特征融合函数(即聚合函数)对K个视频分片进行特征融合后所得到的特征,H可以表示通过归一化指数函数(即Softmax函数)进行分类后所得到的特征。应当理解,本申请实施例不对第二网络模型的具体类型进行限定。
其中,可以理解的是,上述神经网络可以为卷积神经网络,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks,简称FNN),是深度学习(Deep Learning,简称DL)的代表算法之一。具有表征学习(representationlearning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)。其中,深度学习的概念源于人工神经网络(Artificial NeuralNetwork,简称ANN)的研究,深度学习可以通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。可以理解的是,卷积神经网络中的全连接层可以为多层感知机(Multi-layer Perceptron,简称MLP),多层感知机就是一种深度学习结构,可以对提取的特征进行非线性组合得到输出。
步骤S105,基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签。
具体的,业务服务器可以将文本特征向量与每个视频分片的视频特征向量投影至目标向量空间。进一步的,业务服务器可以在目标向量空间中对文本特征向量和每个视频分片的视频特征向量进行特征融合,得到融合向量特征。进一步的,业务服务器可以将融合向量特征输入至目标网络模型的分类器,由目标网络模型的分类器对目标视频进行画风识别,得到融合向量特征与分类器中的样本属性特征之间的匹配度。其中,匹配度用于描述目标视频属于样本属性特征对应的样本标签的概率。进一步的,业务服务器可以从匹配度中将具有最大匹配概率的样本属性特征所对应的样本标签,作为目标视频的目标画风标签。其中,目标画风标签可以用于为第一用户推送与目标视频相关的关联视频。
为便于理解,请参见图5,图5是本申请实施例提供的一种画风识别模型的结构示意图。如图5所示的小视频即为目标视频,该画风识别模型(即目标网络模型)的具体执行过程可以表示为:TSN(V,T1,T2,…,TK)=H(G(F(V),F(T1;W),F(T2;W),…,F(TK;W)))。其中,V可以表示目标文本信息,F(V)可以表示第一网络模型输出的文本特征向量。
可以理解的是,如图5所示的时间小片可以为上述视频分片,例如,时间小片1(即Fragment1)可以为上述图4所示的分片40a,时间小片2(即Fragment2)可以为上述图4所示的分片40b,…,时间小片K(即FragmentK)可以为上述图4所示的分片40k。
如图5所示,在第一子网络为卷积神经网络时,业务服务器可以将每个时间小片(即视频分片)分别输入至不同的卷积神经网络,由卷积神经网络输出每个时间小片的初始视频特征。其中,不同的时间小片对应不同的卷积神经网络,不同的卷积神经网络具有独自的权重参数。进一步的,业务服务器可以将每个时间小片的初始视频特征输入至多层感知机,由卷积神经网络中的多层感知机输出每个时间小片的视频特征向量。
如图5所示,业务服务器还可以将目标文本信息(即视频主题信息(即主题)、视频标签信息(即标签)和视频分类信息(即分类))输入第一网络模型,由第一网络模型中的Encoder模块(即编码器)输出目标文本信息的初始文本特征(即编码过程)。其中,这里的目标文本信息可以包括目标视频的视频主题信息、视频标签信息和视频分类信息。进一步的,业务服务器可以将目标文本信息的初始文本特征输入至多层感知机,由多层感知机输出目标文本信息的文本特征向量。
进一步的,业务服务器可以将文本特征向量(即F(V)输出的特征)和每个时间小片视频特征向量(即F(T1;W)、F(T2;W)、…、F(TK;W)输出的特征)进行多模态特征融合,即将文本特征向量和每个时间小片视频特征向量输入特征融合函数,得到融合向量特征(即G(F(V),F(T1;W),F(T2;W),…,F(TK;W))输出的特征)。其中,特征融合函数可以结合目标文本信息和每个时间小片相对于所有样本标签的概率,以获得他们之间关于样本标签的共识,比如,可以对目标文本信息和每个时间小片属于同一样本标签的概率作计算,例如,通过均值函数作均值计算。
进一步的,业务服务器可以将特征融合函数的输出(即融合向量特征)作为归一化指数函数的输入,得到融合向量特征对应的标签向量特征(即H(G(F(V),F(T1;W),F(T2;W),…,F(TK;W)))输出的特征),进而可以根据标签向量特征确定小视频属于不同样本标签的概率,从而可以在最大匹配概率的值大于概率阈值时,将最大匹配概率所对应的样本标签作为小视频的画风标签(即小视频的目标画风标签)。
其中,为了方便存储与处理,归一化指数函数可以将一个实数向量进行归一化处理,以使该实数向量满足特定条件,例如,压缩实数向量中实数的取值范围,使得每一个实数的范围都在(0,1)之间,且所述实数的和为1。可以理解的是,本申请实施例中的归一化指数函数可以将融合向量特征进行归一化处理之后,得到融合向量特征对应的标签向量特征。因此,归一化指数函数可以理解为目标网络模型的分类器,标签向量特征中的值即为目标视频属于样本标签的概率。
其中,通过多层感知机输出目标文本信息的文本特征向量,以及输出每个视频分片的视频特征向量的具体过程可以参见图6,图6是本申请实施例提供的一种多层感知机的结构示意图。多层感知机的层与层之间是全连接(即把上一层节点的输出全部连接在一起,作为下一层界面的输入)的,如图6所示是一种三层神经网络的基本构成,最底层是输入层(即LayerL1),中间层是隐藏层(即LayerL2),最高层是输出层(即LayerL3)。其中,输入层、隐藏层以及输出层是由神经元组成的,每个神经元上都有各自的权重。
其中,可以理解的是,输入层可以为一个n维向量,这样,输入层就有n个神经元,例如,输入层可以为3维的向量X={X1,X2,X3},这样,输入层就有3个神经元。应当理解,输入层的输入和输出是相同的,在输入层的输出为向量X时,输入层的输出也可以为向量X。其中,本申请实施例可以将目标视频先验抽取的每个视频分片(即时间小片)和目标文本信息(即视频主题信息、视频标签信息以及视频分类信息)的子网络向量(即每个视频分片的初始视频特征和目标文本信息的初始文本特征)作为输入层的输入。
其中,可以理解的是,隐藏层和输入层之间为全连接的,在输入层的输出为向量X时,隐藏层的输入可以为向量X,因此,隐藏层的输出(即a1、a2和a3)可以为:f(W1X+b1),其中,W1可以为输入层的每个神经元对应的权重(也可以称之为连接系数1),b1可以为输入层的偏置项,这里的函数f可以称之为激活函数,该激活函数可以为常用的sigmoid函数或者tanh函数,这里选择sigmoid函数作为激活函数。其中,输入层神经元上的(+1)可以表示偏置项b1的权重为(+1)。其中,通过激活函数与偏置项可以将非线性引入到神经元的输出中,以此达到神经元学习非线性表示的目的。
其中,可以理解的是,隐藏层到输出层可以看成是一个类别的逻辑回归(即softmax回归),输出层和隐藏层之间为全连接的,在隐藏层的输出为f(W1X+b1)时,输出层的输入可以为f(W1X+b1),因此,输出层的输出可以为:softmax(W2X1+b2),其中,X1可以表示隐藏层的输出,W2可以为隐藏层的每个神经元对应的权重(也可以称之为连接系数2),b2可以为隐藏层的偏置项,这里的softmax函数可以为sigmoid函数。其中,隐藏层神经元上的(+1)可以表示偏置项b2的权重为(+1)。
其中,可以理解的是,通过如图6所示的多层感知机,可以输出一个n维(例如,1024维)的低维稠密向量,进而得到后验概率:结果F(即每个视频分片的视频特征向量和目标文本信息的文本特征向量)。其中,F可以表示每个视频分片和目标文本信息属于不同样本标签的概率,例如,F(V)可以表示目标文本信息属于不同样本标签的概率,F(T1;W)可以表示上述图5所述时间小片1属于不同样本标签的概率,…,F(TK;W)可以表示上述图5所示时间小片K属于不同样本标签的概率。
可以理解的是,通过特征融合函数可以在目标向量空间中对文本特征向量和每个视频分片的视频特征向量进行特征融合,得到融合向量特征。其中,特征融合的方式可以为向量拼接的方式,例如,对三个128维的特征向量进行向量拼接之后,可以得到这三个特征向量对应的融合向量特征,这里的融合向量特征的维度可以为384维。可选的,特征融合的方式也可以为加权平均的方式,特征融合的方式还可以为取最大值或最小值的方式,本申请实施例不对特征融合函数的具体实现方式进行限定。
应当理解,在绘画(包括漫画)界,画风指绘画风格,主要包括作者对人物,布景等的绘画手法,线条处理,如对人物鼻子,眼睛,耳朵,肌肉,头发的线条处理以及绘画手法。在插画和其他彩色画中,画风还包括作者对色彩,色调等其他方面的处理手法。
因此,画风标签可以表示短视频(即目标视频)的风格和调性,即视觉风格特性。短视频的风格和调性,是一种短视频的整体视觉的感受,同样风格和调性的内容具有一定的共性,可以引起一类消费者的共鸣,对于相同的意境,可以使用不同的风格调性(即画风)表现出来,以给人不同的感受。其中,风格调性可以包括短视频的色彩风格、色调风格、光线风格、画面风格(例如,空间感、层次感)等。这样,通过风格调性这种高层维度的定义和区分,可以对短视频进行高层维度的划分。
应当理解,本申请实施例可以将画风标签划分为三种类型,这三种类型具体可以包括:高调性、中调性以及低调性。其中,这里的高调性具体可以包括:优美场景、时尚、养眼(例如,帅哥美女)、超酷画风(例如,极限运动、创意特效、创意手工、创意实验、炫技、炫豪车)等;这里的中调性具体可以包括:校园画风(例如,校园段子、校园生活)、创业励志风(例如,创业加盟、厨师)、治愈画风(例如,萌宠、萌娃、二次元、情感)、中老年画风(例如,广场舞、赶集、书法)等;这里的低调性具体可以包括:三农(例如,农业相关、农村美食、农村生活、制造修理)、重口味(例如,恐怖、恶心)等。应当理解,本申请实施例中的画风标签在现有的视频标签信息与视频分类信息中是没有的。
本申请实施例可以通过具有画风识别功能的目标网络模型,准确识别出目标视频的目标画风标签。比如,本申请实施例可以通过第一网络模型提取得到前述目标文本信息的文本特征向量,应当理解,这里的文本特征向量为该目标视频的辅助视频向量。此外,本申请实施例还可以通过第二网络模型中的K个第一子网络,提取得到每个视频分片的视频特征向量,应当理解,通过将不同视频分片分别输入至不同的第一子网络,可以在时间维度上提取得到更为丰富的视频特征向量。这样,当通过目标网络模型中的分类器,对文本特征向量(即前述辅助视频向量)和更为丰富的视频特征向量进行向量融合处理后,即可以对融合得到用于准确表征该目标视频的视频特征进行画风识别,以准确得到目标视频的目标画风标签,应当理解,这里的目标画风标签可以用于表征该目标视频的视频风格和视频调性,属于一种对更深层次的高维度的视频分类属性。基于此,当基于识别到的目标画风标签进行视频聚类后,可以快速且准确地得到用于为第一用户推送与所述目标视频相关的关联视频,这意味着在得到目标画风标签之后,可以在进行短视频推荐时,提高短视频推荐的准确度。
进一步的,请参见图7,图7是本申请实施例提供的一种视频处理方法的流程示意图。该方法可以由用户终端(例如,上述图1所示的用户终端3000a)执行,也可以由业务服务器(例如,上述图1所示的业务服务器2000)执行,还可以由用户终端和业务服务器共同执行。为便于理解,本实施例以该方法由业务服务器执行为例进行说明。其中,该视频处理方法可以包括以下步骤:
步骤S201,获取用于训练初始网络模型的样本视频和样本视频的样本画风标签;
其中,初始网络模型包括第一样本模型和第二样本模型。
应当理解,本申请实施例可以通过监督学习的方式标记样本视频,得到样本视频的样本画风标签。
步骤S202,获取样本视频的样本文本信息,将样本文本信息输入至第一样本模型,由第一样本模型输出样本文本信息对应的样本文本向量;
其中,样本文本信息可以包括样本视频的样本主题信息、样本标签信息和样本分类信息。
其中,通过第一样本模型输出样本文本信息对应的样本文本向量的具体过程,可以参见通过第一网络模型输出目标文本信息对应的文本特征向量的描述,即参见上述图3所对应的实施例中对步骤S102的描述,这里将不再进行赘述。
步骤S203,将样本视频均匀划分为K个样本片段,基于时间采样策略对K个样本片段进行随机抽帧处理,得到每个样本片段的样本分片;
其中,这里的K可以为正整数,且每个样本片段中的视频帧的数量均为M;这里的M可以为正整数。其中,一个样本片段对应一个样本分片,且一个样本分片中的视频帧的数量小于或者等于M。
可以理解的是,在目标视频的视频帧的数量等于样本视频的视频帧的数量时,K个样本片段中的每个样本片段的视频帧的数量可以等于K个视频片段中的每个视频片段的视频帧的数量,即M可以等于N。
其中,业务服务器基于样本视频得到K个样本分片的具体过程,可以参见基于目标视频得到K个视频分片的描述,即参见上述图3所对应实施例中对步骤S103的描述,这里将不再进行赘述。
步骤S204,获取第二样本模型中的K个第二子网络,将每个样本分片分别输入至不同的第二子网络,由K个第二子网络分别输出每个样本分片的样本视频向量;
其中,通过K个第二子网络输出每个样本分片的样本视频向量的具体过程,可以参见通过K个第一子网络输出每个视频分片的视频特征向量的描述,即参见上述图3所对应实施例中对步骤S104的描述,这里将不再进行赘述。
步骤S205,基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型;
具体的,业务服务器可以基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,得到模型训练结果。进一步的,当模型训练结果指示迭代训练后的初始网络模型的模型损失函数不满足模型收敛条件时,业务服务器可以将迭代训练后的初始网络模型作为过渡网络模型。进一步的,业务服务器可以基于不满足模型收敛条件的模型损失函数,对过渡网络模型的模型参数进行调整,直到调整后的过渡网络模型满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标网络模型。应当理解,通过训练的目标网络模型,可以提取得到更丰富的图像特征,来确保短视频推荐的准确度。
应当理解,模型训练过程中的损失函数可以用来表示预测值与实际值的差距程度,损失函数越小,则模型就越好,因此,训练一个机器学习模型的目标就是找到损失函数达到极小值的点。在样本视频的样本画风标签可以划分为两类时(例如,样本视频的样本画风标签可以为帅哥或者美女,即预测值可以划分为帅哥(即正)或者美女(即负)),可以使用二分类交叉熵作为模型的损失函数,即损失函数可以表示为:C=-(1/n)∑n[y ln a+(1-y)ln(1-a)],这里的n可以为样本视频的数量,这里的y可以表示样本画风标签的实际值(在实际值为帅哥时,y可以为1;在实际值为美女时,y可以为0),这里的a可以表示预测值为帅哥(即正)的概率。
其中,可以理解的是,本申请实施例可以将样本视频划分为多类(例如,样本视频的样本画风标签可以为极限运动、萌娃、农业相关等),则可以使用多分类交叉熵作为模型的损失函数,即损失函数可以表示为: 这里的n可以为样本视频的数量,这里的m可以表示样本画风标签的数量,这里yc可以表示指示变量(在实际值与样本画风标签c相同时,指示变量可以为1;在实际值与样本画风标签c不同时,指示变量可以为0),这里的ac可以表示预测值为样本画风标签c的概率。比如,样本视频1的损失函数值为:loss1=-(0×ln0.3+0×ln0.3+1×ln0.4)=0.91,样本视频2的损失函数值为:loss2=-(0×ln0.3+1×ln0.4+0×ln0.3)=0.91,样本视频3的损失函数值为:loss3=-(1×ln0.1+0×ln0.2+0×ln0.7)=2.30,则所有样本视频的损失函数值为:C=(1/3)×(0.91+0.91+2.30)=1.37。
为便于理解,请参见图8,图8是本申请实施例提供的一种画风标签识别的系统流程图。如图8所示,编号11-编号20可以为一个执行路径,编号31-编号32可以为一个执行路径、编号41-编号42可以为一个执行路径、编号51-编号52可以为一个执行路径、编号61-编号64可以为一个执行路径,这5个执行路径可以同步交叉执行,以构成本申请实施例中进行画风识别的流程。可以理解的是,编号41-编号42的执行路径以及编号61-编号64的执行路径可以对应步骤S201-步骤S205的描述。
如图8所示,在编号41-编号42的执行路径中,业务服务器可以调用视频抽帧服务,从视频内容存储服务器(即小视频分发内容库)中获取用于训练初始网络模型的样本视频(即下载视频文件),进而可以对样本视频进行均匀划分以及随机抽帧处理,得到样本视频的样本分片(即抽帧信息)。此外,业务服务器可以获取样本视频的样本文本信息(即内容元数据,这里的内容元数据主要包括样本视频的样本主题信息、样本分类信息以及样本标签信息),进而可以将抽帧信息和内容元数据存储至样本数据库。
应当理解,视频抽帧服务可以由视频抽帧服务器来完成,视频抽帧服务器通常是一组并行的服务器,有相关的任务调度和分发集群构成,可以控制视频文件下载的速度和进度。
其中,视频内容存储服务器可以提供视频内容存储服务。其中,视频内容存储服务器可以为一组分布范围广、离用户很近的存储服务器,通常外围可以通过CDN(ContentDistribute Network,即内容分发网络)加速服务器进行分布式缓存加速。CDN加速服务器能够实时的依据网络流量和各个节点之间的链接、负载的情况以及用户的距离、相应时间等综合信息将用户的请求进行重新导向离用户最近的服务节点(即上述存储服务器)上,以此让用户就近取到所需的内容,有效的解决存储服务器网络拥挤的状况,进而可以提高用户访问存储服务器的速度。
如图8所示,在编号61-编号64的执行路径中,业务服务器可以调用画风内容标记服务从内容数据库中读取样本视频(内容数据库中的样本视频可以理解为存储在视频内容存储服务器中的可分发视频,这里的可分发视频指示该样本视频已经通过排重处理以及视频审核),通过人工审核系统对样本视频的样本画风标签进行人工标记,进而可以将该样本画风标签存储至样本数据库。
进一步的,业务服务器可以从样本数据库中获取样本画风标签、样本文本信息(即内容元数据)以及样本分片(即抽帧信息),基于样本画风标签、内容元数据、抽帧信息以及初始网络模型中的分类器,对该初始网络模型进行迭代训练,将训练后的初始网络模型作为图8所示视频画风识别模型(即目标网络模型),进而可以将该视频画风识别模型服务化。
步骤S206,通过调度中心服务组件获取第二用户上传的目标视频,对目标视频进行排重处理,得到排重处理结果,基于排重处理结果将目标视频存储至内容数据库;
具体的,业务服务器可以通过调度中心服务组件获取第二用户上传的目标视频,为目标视频配置视频指纹特征。进一步的,业务服务器可以获取内容数据库中的每个历史视频的历史指纹特征,确定每个历史指纹特征与视频指纹特征的向量距离。进一步的,若向量距离中不存在大于与历史视频相关联的向量阈值的向量距离,则业务服务器可以确定视频指纹特征满足排重处理条件,将第二用户上传的目标视频存储至内容数据库。其中,若视频指纹特征满足排重处理条件,则确定内容数据库中不存在与目标视频相匹配的历史视频。
可选的,若向量距离中存在小于向量阈值的向量距离,则业务服务器可以确定视频指纹特征不满足排重处理条件,且确定内容数据库中存在与目标视频相匹配的历史视频,删除第二用户上传的目标视频。
应当理解,通过对历史指纹特征与视频指纹特征进行比较,可以获取目标视频与历史视频的相似度,从而在相似度满足相似阈值时,删除目标视频,这样,可以在业务服务器中只保留一份重复或相似的视频,进而对该视频进行后续处理,以减少后续处理过程中的重复或相似的视频,以有效建设进入视频审核过程当中需要处理的视频,提高视频审核的效率。应当理解,通过排重处理可以有效识别第二用户是否通过格式转换、编辑(例如,更改码率、清晰度、尺寸、滤镜等)、裁剪拼接、压缩旋转等操作,在历史视频的基础上得到目标视频。
步骤S207,根据从内容数据库中读取到的目标视频以及目标视频的元信息,对目标视频进行视频审核,得到视频审核结果;
具体的,业务服务器可以从内容数据库中读取目标视频,且从内容数据库中读取目标视频第一辅助信息、第二辅助信息以及第三辅助信息。其中,第一辅助信息是由第二用户在上传目标视频时所录入的信息;第二辅助信息是由视频分类模型对目标视频进行分类后得到的;第三辅助信息是对目标视频进行转码后得到的。进一步的,业务服务器可以将第一辅助信息、第二辅助信息以及第三辅助信息作为目标视频的元信息,基于元信息对目标视频进行第一视频审核,得到初始视频审核结果。进一步的,若初始视频审核结果指示目标视频具备合法性,则业务服务器可以对目标视频进行第二视频审核,得到目标视频审核结果,将目标视频审核结果作为目标视频的视频审核结果。
可以理解的是,第一辅助信息可以包括目标视频的视频主题信息(即标题)、视频时间信息(即发布时间)、视频摘要信息和视频作者信息(即发布者);第二辅助信息可以包括目标视频的视频标签信息和视频分类信息;第三辅助信息可以包括目标视频的视频大小信息(即文件大小,例如,3.2MB)、封面链接信息、视频码率信息(例如,4818kbps)、视频尺寸信息(即规格,例如,1280*720像素)和视频格式信息(例如,avi)。应当理解,本申请实施例对上述第一辅助信息、第二辅助信息和第三辅助信息中所包含的信息类型不做限定。
其中,可以理解的是,视频分类模型可以对目标视频进行分析,得到目标视频的第二辅助信息,本申请对视频分类模型的模型类型不做限定。
其中,可以理解的是,视频转码可以将已经压缩编码的视频码流转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理能力和不同的用户需求。因此,视频转码可以将目标视频进行规范化,通过保存目标视频的元信息,提升视频在各个平台播放的兼容性。
其中,可以理解的是,视频分类信息可以包括一级分类、二级分类和三级分类,视频标签信息的数量可以为一个或多个。比如,一段关于手机(例如,手机J,这里的手机J可以为手机品牌或手机型号)的视频的一级分类可以为科技,二级分类可以为手机,三级分类可以为国内手机,视频标签信息可以为手机J、骁龙855等。
可以理解的是,第一视频审核可以通过人工的方式,对目标视频是否涉及黄赌毒(即色情、赌博、毒品)以及政治敏感的特性进行一轮初步过滤,即审核目标视频的合法性。
应当理解,由于机器学习(比如,深度学习)还不完全成熟,所以完全通过机器学习的方式确定目标视频的视频标签信息和视频分类信息是不完全准确的,需要在视频分类模型得到第二辅助信息的基础上,对第二辅助信息进行人工审核,通过人机协作,提高目标视频标注的准确性和效率。可以理解的是,第二视频审核可以通过人工的方式,对目标视频的视频标签信息和视频分类信息进行确认,即审核目标视频的元信息(例如,第二辅助信息)的正确性。此外,第二次审核还可以通过人工的方式,对目标视频的内容质量(比如,视频无营养、视频不完整)和安全性等机器难以识别的质量问题进行审核,即审核目标视频的完整性。
步骤S208,获取目标视频以及目标视频对应的目标网络模型;
步骤S209,获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
步骤S210,将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;
步骤S211,获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
步骤S212,基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频的进行画风识别,得到目标视频的目标画风标签;
步骤S213,在视频审核结果指示目标视频为可分发视频时,启动内容分发服务,调用内容分发服务从视频推荐数据库中获取目标画风标签所映射的聚合簇,将可分发视频添加至聚合簇;
为便于理解,请参见图8,在编号11-编号20的执行路径中,第二用户(即生产端)可以通过C端发布系统或web发布系统(即视频上传接口)将目标视频上传至上下行内容接口服务器,上下行接口服务器在获取到第二用户上传的目标视频时,可以将这个目标视频(即源文件)存储至视频内容存储服务器,以使视频内容存储服务器对目标视频进行转码处理。其中,可以理解的是,这里的web发布系统可以为浏览器/服务器(Browser/Server,B/S)架构中的浏览器,这里的C端发布系统可以为客户机/服务器(Client/Server,C/S)架构中的客户机。
进一步的,上下行内容接口服务器可以获取目标视频的元信息(这里的元信息可以包括第一辅助信息、第二辅助信息和第三辅助信息),将元信息写入内容数据库,并将目标视频直接上传给调度中心服务器(即调度中心服务组件),以进行后续的内容处理和流转。
进一步的,调度中心服务器可以获取目标视频,调用视频排重服务对目标视频进行排重处理,并将排重处理的结果写入内容数据库。其中,在排重处理通过时,可以通过人工审核系统对这个目标视频进行视频审核;在排重处理不通过时,可以删除这个目标视频。因此,在小视频画风标签识别的系统(即内容调性风格识别的系统)中,未通过排重处理的目标视频,不会通过人工审核系统进行视频审核。
进一步的,在人工审核系统对目标视频进行视频审核时,可以从内容数据库中读取目标视频(即原始内容)以及目标视频的元信息,以对目标视频进行第一视频审核(即初审)以及第二视频审核(即复核)。其中,可以理解的是,在目标视频的第一视频审核通过时,可以对目标视频进行第二视频审核,在目标视频的第二视频审核通过时,可以将该目标视频作为可分发视频;在目标视频的第一视频审核通过、第二视频审核未通过时,可以更新该目标视频的元信息,将满足完整性的目标视频作为可分发视频。其中,人工审核系统通常是一个业务复杂的基于web数据库开发的系统。
如图8所示,在编号51-编号52的执行路径中,调度中心服务器可以调用视频画风识别服务,通过视频画风识别模型,对目标视频进行画风识别,得到目标视频的目标画风标签,进而可以将该目标视频添加至目标画风标签对应的内容池(即视频推荐数据库中目标画风标签对应的聚合簇)。
因此,调度中心服务器可以调用内容分发出口服务,启用内容(即目标视频)开始分发,从内容池中获取至少一个推荐视频,将至少一个推荐视频分发至视频内容消费端(例如,第一用户对应的第一终端)。
应当理解,在生产端上传目标视频至上下行内容接口服务器后,目标视频可以通过上下行内容接口服务器进入服务端,这里的服务端可以为部署在多组服务器上、专门为应用客户端(即终端程序)提供远程网络服务的服务器程序,本申请实施例可以将这里的多组服务器统称为业务服务器。
其中,可以理解的是,本申请实施例可以将实现视频内容存储服务的服务器称之为视频内容存储服务器,将实现视频排重服务的服务器称之为视频排重服务器,将实现视频抽帧服务的服务器称之为视频抽帧服务器,将实现视频画风识别服务的服务器称之为视频画风识别服务器,将实现内容分发出口服务的服务器称之为内容分发出口服务器,将实现画风内容标记服务的服务器称之为画风内容标记服务器,进而可以将上下行内容接口服务器、调度中心服务器、视频内容存储服务器、视频排重服务器、视频抽帧服务器、视频画风识别服务器、内容分发出口服务器以及画风内容标记服务器统称为业务服务器。
步骤S214,获取第一用户的用户画像,基于用户画像中所携带的目标画风标签,从聚合簇中获取待推送给第一用户的至少一个关联视频,将至少一个关联视频推送给第一用户。
可以理解的是,业务服务器可以获取第一用户的行为日志表,从行为日志表中提取与第一用户相关联的历史视频信息。其中,历史视频信息是基于第一用户在视频客户端中的历史用户行为所确定的。进一步的,业务服务器可以获取历史视频信息的历史画风标签,基于历史画风标签和目标画风标签,确定用于表征第一用户的用户画像。其中,目标画风标签可以为目标视频的画风标签,目标视频为第一用户在应用客户端(例如,视频客户端)中播放的视频。可以理解的是,这里的目标视频可以为当前时刻,第一用户在视频客户端中正在观看的视频,还可以为历史时刻,第一用户在视频客户端中观看过的视频。
其中,可以理解的是,历史视频信息用于记录第一用户访问应用客户端(例如,视频客户端)时,产生的历史用户行为(访问,浏览,搜索,点击等),这里的历史用户行为可以包括第一用户访问视频的类型、浏览视频的时间、浏览视频的次数、搜索视频的记录、点击视频的次数,以及第一用户收藏的视频、推荐的视频、点赞的视频、购买的视频、投币的视频、转发的视频、评论的视频等,因此,第一用户的用户画像可以沉淀在历史用户行为所对应的这些视频的画风标签上。
其中,可以理解的是,用户画像可以包括:由短期兴趣所确定的短期用户画像以及由长期兴趣所确定的长期用户画像,因此,通过历史用户行为的记录周期,可以确定第一用户的短期用户画像和长期用户画像。
可以理解的是,本申请实施例可以通过用户画像以及视频推荐算法,为第一用户进行视频推荐。应当理解,为第一用户推荐关联视频的视频推荐算法可以为协同推荐算法,矩阵分解算法,监督学习算法(例如,逻辑回归模型),基于深度学习模型(例如,因子分解机以及梯度提升决策树(GradientBoostingDecisionTree,简称GBDT))等,本申请对此不做限定。
比如,协同推荐算法可以划分为基于用户的推荐和基于物品的推荐。其中,在基于用户的推荐下,可以根据用户(例如,用户Y1)对物品的偏好发现与其具有相同偏好的其他用户(例如,用户Y2),基于用户Y2的偏好为用户Y1进行推荐,例如,用户Y1与用户Y2具有相似的兴趣,则可以将用户Y2所喜爱的视频(例如,视频S)推荐给用户Y1。其中,在基于物品的推荐下,可以根据用户(例如,用户Y)对物品(例如,物品W1)的偏好,发现物品之间的相似度,基于用户Y的偏好为用户Y推荐类似的物品(例如,物品W2),例如,用户Y喜爱物品W1对应的视频(例如,视频S1),物品W2与物品W1具有较高的相似度,则可以将物品W2对应的视频(例如,视频S2)推荐给用户Y。其中,这里的物品可以理解为视频的画风标签。
为便于理解,请参见图9,图9是本申请实施例提供的一种进行画风识别的场景示意图。如图9所示有4个目标视频,这4个目标视频具体可以包括:视频9a,视频9b,视频9c和视频9d。其中,在对视频9a进行画风识别之后,可以确定视频9a的目标画风标签为极限运动,因此,可以将视频9a添加至视频推荐数据库中的聚合簇1,这里的聚合簇1可以为极限运动所映射的聚合簇。
同理,在对视频9b进行画风识别之后,可以确定视频9b的目标画风标签为萌娃,因此,可以将视频9b添加至视频推荐数据库中的聚合簇2,这里的聚合簇2可以为萌娃所映射的聚合簇。同理,在对视频9c进行画风识别之后,可以确定视频9c的目标画风标签为萌宠,因此,可以将视频9c添加至视频推荐数据库中的聚合簇3,这里的聚合簇3可以为萌宠所映射的聚合簇。同理,在对视频9d进行画风识别之后,可以确定视频9d的目标画风标签为农业相关,因此,可以将视频9d添加至视频推荐数据库中的聚合簇m,这里的聚合簇m可以为农业相关所映射的聚合簇。
应当理解,本申请实施例提供的视频处理方法可以用于建设短视频优质内容池(即视频推荐数据库),这样,业务服务器可以直接从视频推荐数据库中的聚合聚中获取至少一个关联视频,并将至少一个关联视频推送给第一用户。
其中,可以理解的是,极限运动的属性可以为高调性,萌娃和萌宠的属性可以为中调性,农业相关的数据可以为低调性。因此,聚合簇1的属性可以为高调性,聚合簇2和聚合簇3的属性可以为中调性,聚合簇m的属性可以为低调性。可选的,本申请实施例还可以将目标视频添加至具有相同属性的聚合簇,这样,视频推荐数据库中聚合簇的数量可以为3个(例如,聚合簇m1,聚合簇m2和聚合簇m3,这里的聚合簇m1可以为高调性对应的聚合簇,这里的聚合簇m2可以为中调性对应的聚合簇,这里的聚合簇m3可以为低调性对应的聚合簇),例如,业务服务器可以将视频9a添加至聚合簇m1,可以将视频9b和视频9c添加至聚合簇m2,可以将视频9d添加至聚合簇m3。
应当理解,通过画风标签可以实现同一画风标签的视频的冷启动,以对用户进行视频推荐。比如,在某个用户(例如,用户Y1)上传的视频(例如,视频S1)为一种新的视频,则可以通过识别该视频S1的画风标签,以将该视频S1推荐至喜欢该画风标签的视频的某个用户(例如,用户Y2)。可选的,通过画风标签可以实现同一画风标签的用户的冷启动,以对该用户进行视频推荐。比如,在某个用户(例如,用户Y)为新注册的用户时,则可以根据用户Y所选择的画风标签,为用户Y推荐与该画风标签相关的视频(例如,视频S2)。
可以理解的是,用户终端可以将至少一个关联视频通过信息流的形式呈现给第一用户(即内容消费者),即Feeds流,这里的Feeds流是一种资料格式,服务器可以将第一用户感兴趣的内容推荐给用户终端,以使用户终端可以以Feeds流的形式展示这些内容,并对这些内容进行快速刷新。其中,Feeds流通常以时间轴(即Timeline)方式进行排序,即时间轴是Feeds流最直观的展示形式。其中,信息流推荐给第一用户阅读的视频(即关联视频),可以包括竖版或横版的视频。
应当理解,聚合器可以将上述Feeds流聚合在一起,这里的聚合器表示用于聚合Feeds流的软件,例如,聚合器可以为专门用来订阅网址(不同网址对应不同服务器)的软件,聚合器还可以称之为RSS(Really Simple Syndication)阅读器、feed阅读器、新闻阅读器等。
为便于理解,请参见图10a,图10a是本申请实施例提供的一种进行视频分发的场景示意图。如图10a所示,在第一用户(例如,用户Y1)针对客户端显示界面中的视频客户端1执行触发操作(例如,点击操作)时,可以向业务服务器发送客户端启动请求,业务服务器可以响应该客户端启动请求,基于用户Y1的用户画像,选取用户Y1可能感兴趣的一个或多个关联视频(例如,视频S1、视频S2、视频S3以及视频S4)。在用户Y1所使用的第一终端打开视频客户端1时,业务服务器可以将用户Y1可能感兴趣的一个或多个关联视频输出至视频客户端1中。
其中,视频S1的画风标签可以为“帅哥美女”,视频S2的画风标签可以为“萌宠”,视频S3的画风标签可以为“优美风景”,视频S4的画风标签可以为“炫技”。因此,在对用户Y1的用户画像进行分析时,可以确定用户Y1所喜爱的画风标签包括:“帅哥美女”、“萌宠”、“优美风景”以及“炫技”。应当理解,用户Y1所喜爱的画风标签的数量可以为一个或多个,本申请对此不做限定。
为便于理解,请参见图10b,图10b是本申请实施例提供的一种进行视频推荐的场景示意图。如图10b所示,视频客户端2可以为第一用户(例如,用户Y2)所使用的客户端,在用户Y2针对视频客户端2中的业务控件执行触发操作(例如,点击操作)时,可以向业务服务器发送视频推荐请求,业务服务器可以响应该视频推荐请求,获取用户Y2正在观看的目标视频的目标画风标签,这里的正在观看的目标视频可以为视频播放界面中的视频,进而可以选取与用户Y2正在观看的目标视频具有相同画风标签的一个或多个关联视频(例如,视频S11、视频S22、视频S33以及视频S44),并将这些关联视频输出至视频客户端2中。
其中,视频S11、视频S22、视频S33以及视频S44的画风标签可以为“萌宠”,因此,用户Y2正在观看的目标视频的目标画风标签可以为:“萌宠”。
可选的,用户Y2针对应用客户端2的触发操作还可以为滑动操作,业务服务器可以基于视频推荐算法,将与用户Y2正在观看的目标视频具有相同画风标签的一个关联视频输出至视频客户端2中。本申请对此不做限定。
为便于理解,请参见图10c,图10c是本申请实施例提供的一种进行视频搜索的场景示意图。如图10c所示,视频客户端3可以为第一用户(例如,用户Y3)所使用的客户端,在用户Y3针对视频客户端3中的搜索控件执行触发操作(例如,点击操作)时,可以向业务服务器发送携带搜索文本的搜索请求,这里的搜索文本可以为“可爱宠物”,业务服务器可以响应该搜索请求,识别该搜索文本对应的画风标签,例如,搜索文本“可爱宠物”对应的画风标签为“萌宠”,进而可以选取画风标签为“萌宠”的一个或多个关联视频(例如,视频S111、视频S222、视频S333以及视频S444),并将这些关联视频输出至视频客户端3中。
可以理解的是,第一用户可以针对至少一个关联视频中的一个或多个视频执行触发操作,以选择观看一个或多个视频。为便于理解,如图8所示,在编号31-编号32的执行路径中,在视频内容消费端(即第一用户)选择观看某个视频(例如,视频S)时,可以从上下行内容接口服务器获取该视频S的索引信息,这里的索引信息可以为视频S对应的URL(Uniform Resource Locator,统一资源定位符)地址,进而视频内容消费端可以基于该URL地址从视频内容存储服务器中直接获取该视频S的流媒体文件(即源文件),并通过本地播放器来播放观看获取到的流媒体文件。应当理解,使用流媒体文件可以无需一次性下载整个视频的媒体文件,而是将视频经压缩得到数据包后,在网络中分段发送数据包,即使得数据包得以像流水一样发送。
可以理解的是,如图8所示生产端在上传目标视频、以及视频内容消费端在下载关联视频的过程中,可以将生产端以及视频内容消费端的行为数据、卡顿、加载时间、播放点击等上报给统计服务器(未在图上示出)。其中,视频内容消费端包括明显的内容质量反馈入口,在对内容质量进行反馈时,上报给统计服务器的内容可以包括:质量问题类型、上述质量特征、视频的标识信息等。
应当理解,本申请实施例中的视频处理方法还可以称之为小视频内容调性风格识别方法,该小视频内容调性风格识别方法可以应用于图8所对应实施例中的画风标签识别系统(即小视频内容调性风格识别系统)。
由此可见,本申请实施例可以通过训练好的画风识别模型(即目标网络模型)智能识别目标视频的画风标签。其中,需要注意的是,这里的目标网络模型可以包括用于提取目标视频的文本特征向量的第一网络模型和用于提取目标视频的每个视频分片的视频特征向量的第二网络模型,该第二网络模型可以包含K个第一子网络,每个第一子网络对应一个视频分片。应当理解,基于时间采样策略所随机抽取到的每个视频分片的帧数可以部分相同或者完全不同。由此可见,本发明可以将不同的视频分片分别输入至不同的第一子网络,以通过不同的第一子网络分别提取到每个视频分片的视频特征向量,进而可以在画风标签的识别过程中,提取得到更为丰富的特征,从而可以提升画风标签识别的准确度。基于此,当使用识别得到的画风标签为用户进行视频推荐时,可以提高视频推荐的准确度,进而可以提高用户消费视频的粘性。
进一步的,请参见图11,图11是本申请实施例提供的一种视频处理装置的结构示意图。其中,该视频处理装置1可以包括:目标获取模块10,第一输出模块20,第一确定模块30,第二输出模块40,画风识别模块50;进一步的,视频处理装置1还可以包括:初始获取模块60,第三输出模块70,第二确定模块80,第四输出模块90,初始训练模块100,排重处理模块110,视频审核模块120,分发启用模块130,视频推送模块140;
目标获取模块10,用于获取目标视频以及目标视频对应的目标网络模型;目标网络模型包含第一网络模型和第二网络模型;
其中,目标获取模块10包括:视频获取单元101,目标获取单元102;
视频获取单元101,用于通过调度中心服务组件调用视频画风识别服务,通过视频画风识别服务获取第二用户通过视频上传接口所上传的目标视频;
目标获取单元102,用于通过视频画风识别服务获取用于对目标视频进行画风识别的目标网络模型。
其中,视频获取单元101以及目标获取单元102的具体实现方式,可以参见上述图3所对应实施例中对步骤S101的描述,这里将不再进行赘述。
第一输出模块20,用于获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
其中,第一输出模块20包括:文本获取单元201,文本分词单元202,特征提取单元203,文本确定单元204;
文本获取单元201,用于获取目标视频的视频主题信息、视频分类信息以及视频标签信息,将视频主题信息、视频分类信息以及视频标签信息作为目标视频的目标文本信息;
文本分词单元202,用于对目标文本信息进行分词处理,得到目标文本信息的文本分词,将文本分词进行向量转换,得到文本分词对应的文本分词向量;
特征提取单元203,用于将文本分词向量输入第一网络模型,由第一网络模型提取得到文本分词向量的向量特征;
文本确定单元204,用于确定文本分词在目标文本信息中的文本位置,基于文本位置以及提取到的向量特征,确定目标文本信息对应的文本特征向量。
其中,文本获取单元201,文本分词单元202,特征提取单元203以及文本确定单元204的具体实现方式,可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再进行赘述。
第一确定模块30,用于将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;K为正整数,且每个视频片段中的视频帧的数量均为N;N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于N;
第二输出模块40,用于获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
其中,第一子网络包括神经网络和多层感知机;其中,多层感知机包括输入层、隐藏层和输出层;神经网络用于提取输入的视频分片的初始视频特征;输入层用于将初始视频特征作为隐藏层的输入特征,隐藏层用于提取输入特征的隐藏特征;输出层用于根据隐藏特征输出输入的视频分片的视频特征向量。
画风识别模块50,用于基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签;目标画风标签用于为第一用户推送与目标视频相关的关联视频。
其中,画风识别模块50包括:向量投影单元501,向量融合单元502,匹配度确定单元503,标签确定单元504;
向量投影单元501,用于将文本特征向量与每个视频分片的视频特征向量投影至目标向量空间;
向量融合单元502,用于在目标向量空间中对文本特征向量和每个视频分片的视频特征向量进行特征融合,得到融合向量特征;
匹配度确定单元503,用于将融合向量特征输入至目标网络模型的分类器,由目标网络模型的分类器对目标视频进行画风识别,得到融合向量特征与分类器中的样本属性特征之间的匹配度;匹配度用于描述目标视频属于样本属性特征对应的样本标签的概率;
标签确定单元504,用于从匹配度中将具有最大匹配概率的样本属性特征所对应的样本标签,作为目标视频的目标画风标签。
其中,向量投影单元501,向量融合单元502,匹配度确定单元503以及标签确定单元504的具体实现方式,可以参见上述图3所对应实施例中对步骤S105的描述,这里将不再进行赘述。
可选的,初始获取模块60,用于获取用于训练初始网络模型的样本视频和样本视频的样本画风标签;初始网络模型包括第一样本模型和第二样本模型;
第三输出模块70,用于获取样本视频的样本文本信息,将样本文本信息输入至第一样本模型,由第一样本模型输出样本文本信息对应的样本文本向量;
第二确定模块80,用于将样本视频均匀划分为K个样本片段,基于时间采样策略对K个样本片段进行随机抽帧处理,得到每个样本片段的样本分片;K为正整数,且每个样本片段中的视频帧的数量均为M;M为正整数;一个样本片段对应一个样本分片,且一个样本分片中的视频帧的数量小于或者等于M;
第四输出模块90,用于获取第二样本模型中的K个第二子网络,将每个样本分片分别输入至不同的第二子网络,由K个第二子网络分别输出每个样本分片的样本视频向量;
初始训练模块100,用于基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型。
其中,初始训练模块100包括:迭代训练单元1001,过渡确定单元1002,目标确定单元1003;
迭代训练单元1001,用于基于样本画风标签、样本文本向量、每个样本分片的样本视频向量以及初始网络模型的分类器,对初始网络模型进行迭代训练,得到模型训练结果;
过渡确定单元1002,用于当模型训练结果指示迭代训练后的初始网络模型的模型损失函数不满足模型收敛条件时,将迭代训练后的初始网络模型作为过渡网络模型;
目标确定单元1003,用于基于不满足模型收敛条件的模型损失函数,对过渡网络模型的模型参数进行调整,直到调整后的过渡网络模型满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标网络模型。
其中,迭代训练单元1001,过渡确定单元1002以及目标确定单元1003的具体实现方式,可以参见上述图7所对应实施例中对步骤S205的描述,这里将不再进行赘述。
可选的,排重处理模块110,用于通过调度中心服务组件获取第二用户上传的目标视频,对目标视频进行排重处理,得到排重处理结果,基于排重处理结果将目标视频存储至内容数据库;
其中,排重处理模块110包括:特征配置单元1101,距离确定单元1102,视频存储单元1103;可选的,排重处理模块11可以进一步包括:视频删除单元1104;
特征配置单元1101,用于通过调度中心服务组件获取第二用户上传的目标视频,为目标视频配置视频指纹特征;
距离确定单元1102,用于获取内容数据库中的每个历史视频的历史指纹特征,确定每个历史指纹特征与视频指纹特征的向量距离;
视频存储单元1103,用于若向量距离中不存在大于与历史视频相关联的向量阈值的向量距离,则确定视频指纹特征满足排重处理条件,将第二用户上传的目标视频存储至内容数据库。
可选的,视频删除单元1104,用于若向量距离中存在小于向量阈值的向量距离,则确定视频指纹特征不满足排重处理条件,且确定内容数据库中存在与目标视频相匹配的历史视频,删除第二用户上传的目标视频。
其中,特征配置单元1101,距离确定单元1102,视频存储单元1103以及视频删除单元1104的具体实现方式,可以参见上述图7所对应实施例中对步骤S206的描述,这里将不再进行赘述。
视频审核模块120,用于根据从内容数据库中读取到的目标视频以及目标视频的元信息,对目标视频进行视频审核,得到视频审核结果;
其中,视频审核模块120包括:视频读取单元1201,第一确定单元1202,第二确定单元1203;
视频读取单元1201,用于从内容数据库中读取目标视频,且从内容数据库中读取目标视频第一辅助信息、第二辅助信息以及第三辅助信息;第一辅助信息是由第二用户在上传目标视频时所录入的信息;第二辅助信息是由视频分类模型对目标视频进行分类后得到的;第三辅助信息是对目标视频进行转码后得到的;
第一确定单元1202,用于将第一辅助信息、第二辅助信息以及第三辅助信息作为目标视频的元信息,基于元信息对目标视频进行第一视频审核,得到初始视频审核结果;
第二确定单元1203,用于若初始视频审核结果指示目标视频具备合法性,则对目标视频进行第二视频审核,得到目标视频审核结果,将目标视频审核结果作为目标视频的视频审核结果。
其中,视频读取单元1201,第一确定单元1202以及第二确定单元1203的具体实现方式,可以参见上述图7所对应实施例中对步骤S207的描述,这里将不再进行赘述。
分发启用模块130,用于在视频审核结果指示目标视频为可分发视频时,启动内容分发服务,调用内容分发服务从视频推荐数据库中获取目标画风标签所映射的聚合簇,将可分发视频添加至聚合簇;
视频推送模块140,用于获取第一用户的用户画像,基于用户画像中所携带的目标画风标签,从聚合簇中获取待推送给第一用户的至少一个关联视频,将至少一个关联视频推送给第一用户。
其中,目标视频为第一用户在视频客户端中播放的视频;
视频推送模块140包括:信息获取单元1401,画像确定单元1402;
信息获取单元1401,用于获取第一用户的行为日志表,从行为日志表中提取与第一用户相关联的历史视频信息;历史视频信息是基于第一用户在视频客户端中的历史用户行为所确定的;
画像确定单元1402,用于获取历史视频信息的历史画风标签,基于历史画风标签和目标画风标签,确定用于表征第一用户的用户画像。
其中,信息获取单元1401以及画像确定单元1402的具体实现方式,可以参见上述图7所对应实施例中对步骤S214的描述,这里将不再进行赘述。
其中,目标获取模块10,第一输出模块20,第一确定模块30,第二输出模块40以及画风识别模块50的具体实现方式,可以参见上述图3所对应实施例中对步骤S101-步骤S105的描述,这里将不再进行赘述。可选的,初始获取模块60,第三输出模块70,第二确定模块80,第四输出模块90,初始训练模块100,排重处理模块110,视频审核模块120,分发启用模块130以及视频推送模块140的具体实现方式,可以参见上述图7所对应实施例中对步骤S201-步骤S207以及步骤S213-步骤S214的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步的,请参见图12,图12是本申请实施例提供的一种计算机设备的结构示意图。如图12所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图12所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取目标视频以及目标视频对应的目标网络模型;目标网络模型包含第一网络模型和第二网络模型;
获取目标视频的目标文本信息,将目标文本信息输入至第一网络模型,由第一网络模型输出目标文本信息对应的文本特征向量;
将目标视频均匀划分为K个视频片段,基于时间采样策略对K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;K为正整数,且每个视频片段中的视频帧的数量均为N;N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于N;
获取第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由K个第一子网络分别输出每个视频分片的视频特征向量;
基于文本特征向量、每个视频分片的视频特征向量以及目标网络模型的分类器,对目标视频进行画风识别,得到目标视频的目标画风标签;目标画风标签用于为第一用户推送与目标视频相关的关联视频。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3或图7所对应实施例中对视频处理方法的描述,也可执行前文图11所对应实施例中对视频处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的视频处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3或图7所对应实施例中对视频处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3或图7所对应实施例中对视频处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (15)
1.一种视频处理方法,其特征在于,包括:
获取目标视频以及所述目标视频对应的目标网络模型;所述目标网络模型包含第一网络模型和第二网络模型;
获取所述目标视频的目标文本信息,将所述目标文本信息输入至所述第一网络模型,由所述第一网络模型输出所述目标文本信息对应的文本特征向量;
将所述目标视频均匀划分为K个视频片段,基于时间采样策略对所述K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;所述K为正整数,且所述每个视频片段中的视频帧的数量均为N;所述N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于所述N;
获取所述第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由所述K个第一子网络分别输出所述每个视频分片的视频特征向量;
基于所述文本特征向量、所述每个视频分片的视频特征向量以及所述目标网络模型的分类器,对所述目标视频进行画风识别,得到所述目标视频的目标画风标签;所述目标画风标签用于为第一用户推送与所述目标视频相关的关联视频。
2.根据权利要求1所述的方法,其特征在于,所述获取目标视频以及所述目标视频对应的目标网络模型,包括:
通过调度中心服务组件调用视频画风识别服务,通过所述视频画风识别服务获取第二用户通过视频上传接口所上传的目标视频;
通过所述视频画风识别服务获取用于对所述目标视频进行画风识别的目标网络模型。
3.根据权利要求1所述的方法,其特征在于,所述获取所述目标视频的目标文本信息,将所述目标文本信息输入至所述第一网络模型,由所述第一网络模型输出所述目标文本信息对应的文本特征向量,包括:
获取所述目标视频的视频主题信息、视频分类信息以及视频标签信息,将所述视频主题信息、所述视频分类信息以及所述视频标签信息作为所述目标视频的目标文本信息;
对所述目标文本信息进行分词处理,得到所述目标文本信息的文本分词,将所述文本分词进行向量转换,得到所述文本分词对应的文本分词向量;
将所述文本分词向量输入所述第一网络模型,由所述第一网络模型提取得到所述文本分词向量的向量特征;
确定所述文本分词在所述目标文本信息中的文本位置,基于所述文本位置以及提取到的向量特征,确定所述目标文本信息对应的文本特征向量。
4.根据权利要求1所述的方法,其特征在于,所述第一子网络包括神经网络和多层感知机;其中,所述多层感知机包括输入层、隐藏层和输出层;所述神经网络用于提取输入的视频分片的初始视频特征;所述输入层用于将所述初始视频特征作为所述隐藏层的输入特征,所述隐藏层用于提取所述输入特征的隐藏特征;所述输出层用于根据所述隐藏特征输出所述输入的视频分片的视频特征向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征向量、所述每个视频分片的视频特征向量以及所述目标网络模型的分类器,对所述目标视频进行画风识别,得到所述目标视频的目标画风标签,包括:
将所述文本特征向量与所述每个视频分片的视频特征向量投影至目标向量空间;
在所述目标向量空间中对所述文本特征向量和所述每个视频分片的视频特征向量进行特征融合,得到融合向量特征;
将所述融合向量特征输入至所述目标网络模型的分类器,由所述目标网络模型的分类器对所述目标视频进行画风识别,得到所述融合向量特征与所述分类器中的样本属性特征之间的匹配度;所述匹配度用于描述所述目标视频属于所述样本属性特征对应的样本标签的概率;
从所述匹配度中将具有最大匹配概率的样本属性特征所对应的样本标签,作为所述目标视频的目标画风标签。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用于训练初始网络模型的样本视频和所述样本视频的样本画风标签;所述初始网络模型包括第一样本模型和第二样本模型;
获取所述样本视频的样本文本信息,将所述样本文本信息输入至所述第一样本模型,由所述第一样本模型输出所述样本文本信息对应的样本文本向量;
将所述样本视频均匀划分为K个样本片段,基于时间采样策略对所述K个样本片段进行随机抽帧处理,得到每个样本片段的样本分片;所述K为正整数,且所述每个样本片段中的视频帧的数量均为M;所述M为正整数;一个样本片段对应一个样本分片,且一个样本分片中的视频帧的数量小于或者等于所述M;
获取所述第二样本模型中的K个第二子网络,将每个样本分片分别输入至不同的第二子网络,由所述K个第二子网络分别输出所述每个样本分片的样本视频向量;
基于所述样本画风标签、所述样本文本向量、所述每个样本分片的样本视频向量以及所述初始网络模型的分类器,对所述初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型。
7.根据权利要求6所述的方法,所述基于所述样本画风标签、所述样本文本向量、所述每个样本分片的样本视频向量以及所述初始网络模型的分类器,对所述初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型,包括:
基于所述样本画风标签、所述样本文本向量、所述每个样本分片的样本视频向量以及所述初始网络模型的分类器,对所述初始网络模型进行迭代训练,得到模型训练结果;
当所述模型训练结果指示迭代训练后的初始网络模型的模型损失函数不满足模型收敛条件时,将所述迭代训练后的初始网络模型作为过渡网络模型;
基于不满足所述模型收敛条件的模型损失函数,对所述过渡网络模型的模型参数进行调整,直到调整后的过渡网络模型满足所述模型收敛条件时,将满足所述模型收敛条件的过渡网络模型作为所述目标网络模型。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过调度中心服务组件获取第二用户上传的目标视频,对所述目标视频进行排重处理,得到排重处理结果,基于所述排重处理结果将所述目标视频存储至内容数据库;
根据从所述内容数据库中读取到的所述目标视频以及所述目标视频的元信息,对所述目标视频进行视频审核,得到视频审核结果;
在所述视频审核结果指示所述目标视频为可分发视频时,启动内容分发服务,调用所述内容分发服务从视频推荐数据库中获取所述目标画风标签所映射的聚合簇,将所述可分发视频添加至所述聚合簇;
获取所述第一用户的用户画像,基于所述用户画像中所携带的所述目标画风标签,从所述聚合簇中获取待推送给所述第一用户的至少一个关联视频,将所述至少一个关联视频推送给所述第一用户。
9.根据权利要求8所述的方法,其特征在于,所述通过调度中心服务组件获取第二用户上传的目标视频,对所述目标视频进行排重处理,得到排重处理结果,基于所述排重处理结果将所述目标视频存储至内容数据库,包括:
通过调度中心服务组件获取第二用户上传的目标视频,为所述目标视频配置视频指纹特征;
获取内容数据库中的每个历史视频的历史指纹特征,确定每个历史指纹特征与所述视频指纹特征的向量距离;
若所述向量距离中不存在大于与所述历史视频相关联的向量阈值的向量距离,则确定所述视频指纹特征满足排重处理条件,将所述第二用户上传的所述目标视频存储至所述内容数据库。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若所述向量距离中存在小于所述向量阈值的向量距离,则确定所述视频指纹特征不满足所述排重处理条件,且确定所述内容数据库中存在与所述目标视频相匹配的历史视频,删除所述第二用户上传的所述目标视频。
11.根据权利要求8所述的方法,其特征在于,所述根据从所述内容数据库中读取到的所述目标视频以及所述目标视频的元信息,对所述目标视频进行视频审核,得到视频审核结果,包括:
从所述内容数据库中读取所述目标视频,且从所述内容数据库中读取所述目标视频第一辅助信息、第二辅助信息以及第三辅助信息;所述第一辅助信息是由所述第二用户在上传所述目标视频时所录入的信息;所述第二辅助信息是由视频分类模型对所述目标视频进行分类后得到的;所述第三辅助信息是对所述目标视频进行转码后得到的;
将所述第一辅助信息、所述第二辅助信息以及所述第三辅助信息作为所述目标视频的元信息,基于所述元信息对所述目标视频进行第一视频审核,得到初始视频审核结果;
若所述初始视频审核结果指示所述目标视频具备合法性,则对所述目标视频进行第二视频审核,得到目标视频审核结果,将所述目标视频审核结果作为所述目标视频的视频审核结果。
12.根据权利要求8所述的方法,其特征在于,所述目标视频为所述第一用户在所述视频客户端中播放的视频;
所述获取所述第一用户的用户画像,包括:
获取所述第一用户的行为日志表,从所述行为日志表中提取与所述第一用户相关联的历史视频信息;所述历史视频信息是基于所述第一用户在视频客户端中的历史用户行为所确定的;
获取所述历史视频信息的历史画风标签,基于所述历史画风标签和所述目标画风标签,确定用于表征所述第一用户的用户画像。
13.一种视频处理装置,其特征在于,包括:
目标获取模块,用于获取目标视频以及所述目标视频对应的目标网络模型;所述目标网络模型包含第一网络模型和第二网络模型;
第一输出模块,用于获取所述目标视频的目标文本信息,将所述目标文本信息输入至所述第一网络模型,由所述第一网络模型输出所述目标文本信息对应的文本特征向量;
第一确定模块,用于将所述目标视频均匀划分为K个视频片段,基于时间采样策略对所述K个视频片段进行随机抽帧处理,得到每个视频片段的视频分片;所述K为正整数,且所述每个视频片段中的视频帧的数量均为N;所述N为正整数;一个视频片段对应一个视频分片,且一个视频分片中的视频帧的数量小于或者等于所述N;
第二输出模块,用于获取所述第二网络模型中的K个第一子网络,将每个视频分片分别输入至不同的第一子网络,由所述K个第一子网络分别输出所述每个视频分片的视频特征向量;
画风识别模块,用于基于所述文本特征向量、所述每个视频分片的视频特征向量以及所述目标网络模型的分类器,对所述目标视频进行画风识别,得到所述目标视频的目标画风标签;所述目标画风标签用于为第一用户推送与所述目标视频相关的关联视频。
14.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075946.4A CN113395594A (zh) | 2021-01-20 | 2021-01-20 | 一种视频处理方法、装置、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110075946.4A CN113395594A (zh) | 2021-01-20 | 2021-01-20 | 一种视频处理方法、装置、设备以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113395594A true CN113395594A (zh) | 2021-09-14 |
Family
ID=77616712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110075946.4A Pending CN113395594A (zh) | 2021-01-20 | 2021-01-20 | 一种视频处理方法、装置、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113395594A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642536A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN113688951A (zh) * | 2021-10-25 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 视频数据处理方法以及装置 |
CN114531603A (zh) * | 2022-02-10 | 2022-05-24 | 广联达科技股份有限公司 | 一种视频流的图像处理方法、系统及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781347A (zh) * | 2019-10-23 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备以及可读存储介质 |
CN111191078A (zh) * | 2020-01-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 基于视频信息处理模型的视频信息处理方法及装置 |
CN111491187A (zh) * | 2020-04-15 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 视频的推荐方法、装置、设备及存储介质 |
CN112131430A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 视频聚类方法、装置、存储介质和电子设备 |
-
2021
- 2021-01-20 CN CN202110075946.4A patent/CN113395594A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781347A (zh) * | 2019-10-23 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、设备以及可读存储介质 |
CN111191078A (zh) * | 2020-01-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 基于视频信息处理模型的视频信息处理方法及装置 |
CN111491187A (zh) * | 2020-04-15 | 2020-08-04 | 腾讯科技(深圳)有限公司 | 视频的推荐方法、装置、设备及存储介质 |
CN112131430A (zh) * | 2020-09-24 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 视频聚类方法、装置、存储介质和电子设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113642536A (zh) * | 2021-10-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 数据处理方法、计算机设备以及可读存储介质 |
CN113688951A (zh) * | 2021-10-25 | 2021-11-23 | 腾讯科技(深圳)有限公司 | 视频数据处理方法以及装置 |
CN114531603A (zh) * | 2022-02-10 | 2022-05-24 | 广联达科技股份有限公司 | 一种视频流的图像处理方法、系统及电子设备 |
CN114531603B (zh) * | 2022-02-10 | 2024-03-22 | 广联达科技股份有限公司 | 一种视频流的图像处理方法、系统及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deldjoo et al. | Using visual features based on MPEG-7 and deep learning for movie recommendation | |
CN112565825B (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
CN111209440B (zh) | 一种视频播放方法、装置和存储介质 | |
CN113569088B (zh) | 一种音乐推荐方法、装置以及可读存储介质 | |
US10459975B1 (en) | Method and system for creating an automatic video summary | |
CN113395594A (zh) | 一种视频处理方法、装置、设备以及介质 | |
CN112131411A (zh) | 一种多媒体资源推荐方法、装置、电子设备及存储介质 | |
CN112765373B (zh) | 资源推荐方法、装置、电子设备和存储介质 | |
Nie et al. | Multimodal learning toward micro-video understanding | |
EP1949263A1 (en) | Method of providing selected content items to a user | |
CN113766299B (zh) | 一种视频数据播放方法、装置、设备以及介质 | |
CN108475283A (zh) | 用于搜索多个视频流的文本文摘生成 | |
CN110633669A (zh) | 家居环境中基于深度学习的移动端人脸属性识别方法 | |
CN113469152A (zh) | 相似视频检测方法及装置 | |
Tous et al. | Automated curation of brand-related social media images with deep learning | |
Hazrati et al. | Addressing the New Item problem in video recommender systems by incorporation of visual features with restricted Boltzmann machines | |
Lu et al. | Research on the influence of new media technology on internet short video content production under artificial intelligence background | |
CN116665083A (zh) | 一种视频分类方法、装置、电子设备及存储介质 | |
CN115935049A (zh) | 基于人工智能的推荐处理方法、装置及电子设备 | |
CN116976327A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN117011745A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
Gupta et al. | A comprehensive study of automatic video summarization techniques | |
CN114357301A (zh) | 数据处理方法、设备及可读存储介质 | |
CN113656560A (zh) | 情感类别的预测方法和装置、存储介质及电子设备 | |
CN114363660A (zh) | 视频合集确定方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40051774 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |