CN114419527B - 一种数据处理方法、设备以及计算机可读存储介质 - Google Patents

一种数据处理方法、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN114419527B
CN114419527B CN202210336414.6A CN202210336414A CN114419527B CN 114419527 B CN114419527 B CN 114419527B CN 202210336414 A CN202210336414 A CN 202210336414A CN 114419527 B CN114419527 B CN 114419527B
Authority
CN
China
Prior art keywords
video
candidate
quality
text
sharing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210336414.6A
Other languages
English (en)
Other versions
CN114419527A (zh
Inventor
陈小帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210336414.6A priority Critical patent/CN114419527B/zh
Publication of CN114419527A publication Critical patent/CN114419527A/zh
Application granted granted Critical
Publication of CN114419527B publication Critical patent/CN114419527B/zh
Priority to PCT/CN2023/074763 priority patent/WO2023185257A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种数据处理方法、设备以及计算机可读存储介质,该方法包括:根据至少两个视频片段分别对应的片段共享质量确定候选视频片段;根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量确定候选共享视频片段;根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量以及候选共享视频片段对应的辅助描述信息;根据候选共享视频片段分别对应的片段共享质量、对象共享质量、辅助共享质量,确定共享数据。采用本申请,可以提高视频的共享效率以及共享效果。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

一种数据处理方法、设备以及计算机可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、设备以及计算机可读存储介质。
背景技术
视频分享(视频共享),即视频对应的浏览对象在视频应用浏览视频时,将视频分享给其他浏览对象,视频分享是视频浏览对象交流的一个主要途径,对视频应用的对象活跃度、播放情况影响较大。
在现有技术中,视频共享过程是将视频整个内容均共享至好友,且携带的辅助描述信息是视频应用对应的运营平台提前构建好的信息,明显地,共享整个视频会占用过多的网络资源,进而降低视频的共享效率;又由于共享至不同的对象都是相同的辅助描述信息,故会导致共享展示方式过于单一,降低了共享效果。
发明内容
本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质,可以提高视频的共享效率以及共享效果。
本申请实施例一方面提供了一种数据处理方法,包括:
获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段;
获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段;
根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息;
根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
本申请实施例一方面提供了一种数据处理方法,包括:
获取训练样本集;训练样本集包括样本视频、与样本视频相关联的浏览样本对象的对象标签样本文本序列、样本视频对应的视频质量标签、样本视频对应的对象质量标签,以及样本视频对应的辅助质量标签;
将训练样本集输入至视频识别初始模型,通过视频识别初始模型,确定样本视频对应的视频预测质量;
根据对象标签样本文本序列以及样本视频,确定样本视频对应的对象预测质量以及样本视频对应的辅助预测质量;
根据视频质量标签、对象质量标签、辅助质量标签、视频预测质量、对象预测质量以及辅助预测质量,对视频识别初始模型中的参数进行调整,得到视频识别模型;视频识别模型用于确定视频的共享数据;共享数据包括视频中的共享视频片段以及共享视频片段对应的辅助描述信息。
本申请实施例一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段;
第二获取模块,用于获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段;
第一确定模块,用于根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息;
第二确定模块,用于根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
其中,第一获取模块,包括:
第一处理单元,用于获取视频,根据时间窗口对视频进行切分处理,得到视频对应的至少两个视频片段;至少两个视频片段包括视频片段Ab,b为正整数,且b小于或等于至少两个视频片段对应的总数量;
第一获取单元,用于从视频片段Ab中获取K个视频帧,以及K个视频帧分别对应的音频帧;K为正整数;
第二处理单元,用于对视频片段Ab进行音频识别处理,得到音频识别文本,提取视频片段Ab中的视频描述文本以及对象评论文本;
第一确定单元,用于将音频识别文本、视频描述文本以及对象评论文本,确定为视频片段Ab对应的内容文本Eb
第一生成单元,用于根据K个视频帧、K个音频帧以及内容文本Eb,生成视频片段Ab对应的多媒体融合特征;
第二确定单元,用于根据至少两个视频片段分别对应的多媒体融合特征,确定至少两个视频片段分别对应的片段共享质量。
其中,第一生成单元,包括:
第一获取子单元,用于获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括视频融合网络层、音频融合网络层、文本融合网络层以及多媒体融合网络层;
第一输入子单元,用于将K个视频帧分别输入至视频融合网络层,通过视频融合网络层,对K个视频帧分别进行特征提取,得到K个视频帧分别对应的待融合视频特征,对K个待融合视频特征进行特征融合,得到视频片段Ab对应的视频特征;
第二输入子单元,用于将K个音频帧分别输入至音频融合网络层,通过音频融合网络层,对K个音频帧分别进行特征提取,得到K个音频帧分别对应的待融合音频特征,对K个待融合音频特征进行特征融合,得到视频片段Ab对应的音频特征;
第三输入子单元,用于将内容文本Eb输入至文本融合网络层,通过文本融合网络层,提取内容文本Eb中的关键文本,对关键文本进行特征提取,得到关键文本对应的文本特征;
第四输入子单元,用于将视频特征、音频特征以及文本特征分别输入至多媒体融合网络层,通过多媒体融合网络层,对视频特征、音频特征以及文本特征进行特征融合,得到视频片段Ab对应的多媒体融合特征。
其中,第二确定单元,包括:
第二获取子单元,用于获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括第一全连接网络层;
第五输入子单元,用于将视频片段Ab对应的多媒体融合特征输入至第一全连接网络层,通过第一全连接网络层,对视频片段Ab对应的多媒体融合特征进行特征变换,得到视频片段Ab对应的片段共享质量;
则第一获取模块,包括:
第一对比单元,用于将至少两个视频片段分别对应的片段共享质量分别与片段共享质量阈值进行对比;
第三确定单元,用于在至少两个视频片段中,将等于或大于片段共享质量阈值的片段共享质量对应的视频片段,确定为候选视频片段。
其中,第二获取模块,包括:
第二获取单元,用于获取与视频相关联的浏览对象的对象标签文本,获取与浏览对象相关联的共享对象的对象标签文本;
第二生成单元,用于根据浏览对象的对象标签文本以及共享对象的对象标签文本,生成对象标签文本序列;
第三获取单元,用于获取视频识别模型,将对象标签文本序列以及候选视频片段分别输入至视频识别模型;视频识别模型包括第二视频识别子模型;第二视频识别子模型包括第一文本编码网络层;
文本编码单元,用于通过第一文本编码网络层,对对象标签文本序列中的每个对象标签文本进行文本编码,得到对象标签文本序列对应的第一对象标签特征;
第四确定单元,用于获取候选视频片段对应的多媒体融合特征,根据第一对象标签特征以及候选视频片段对应的多媒体融合特征,确定候选视频片段对应的对象共享质量。
其中,第二视频识别子模型还包括第一拼接网络层以及第二全连接网络层;
第四确定单元,包括:
第六输入子单元,用于将第一对象标签特征以及候选视频片段对应的多媒体融合特征分别输入至第一拼接网络层;
第六输入子单元,还用于通过第一拼接网络层,对第一对象标签特征以及候选视频片段对应的多媒体融合特征进行特征拼接,得到候选视频片段对应的第一多媒体拼接特征;
第七输入子单元,用于将第一多媒体拼接特征输入至第二全连接网络层,通过第二全连接网络层,对第一多媒体拼接特征进行特征变换,得到候选视频片段对应的对象共享质量;
其中,候选视频片段的数量为至少两个;
则第二获取模块,包括:
第二对比单元,用于将至少两个候选视频片段分别对应的对象共享质量与对象共享质量阈值进行对比;
第五确定单元,用于在至少两个候选视频片段中,将大于对象共享质量阈值的对象共享质量对应的候选视频片段,确定为候选共享视频片段。
其中,候选共享视频片段对应的辅助共享质量包括候选共享视频片段对应的图像共享质量,以及候选共享视频片段对应的文本共享质量;候选共享视频片段对应的辅助描述信息包括候选共享视频片段对应的辅助图像,以及候选共享视频片段对应的辅助文本;
第一确定模块,包括:
第四获取单元,用于获取候选共享视频片段中的至少两个视频帧分别对应的共享图像特征;
第六确定单元,用于根据至少两个共享图像特征、候选共享视频片段、对象标签文本序列,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像;候选共享视频片段对应的辅助图像属于至少两个视频帧;
第七确定单元,用于根据对象标签文本序列以及候选共享视频片段对应的内容文本,确定候选共享视频片段对应的文本共享质量,以及候选共享视频片段对应的辅助文本。
其中,第四获取单元,包括:
图像采样子单元,用于根据图像采样周期,对候选共享视频片段进行图像采样,得到候选共享视频片段中的至少两个视频帧;
第三获取子单元,用于获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括图像识别网络层;
第三获取子单元,还用于将至少两个视频帧分别输入至图像识别网络层,通过图像识别网络层,对至少两个视频帧分别进行特征提取,得到至少两个视频帧分别对应的共享图像特征。
其中,至少两个视频帧包括视频帧Fg,至少两个共享图像特征包括视频帧Fg对应的共享图像特征;g为正整数,且g小于或等于至少两个视频帧对应的总数量;
第六确定单元,包括:
第四获取子单元,用于获取候选共享视频片段对应的多媒体融合特征,获取对象标签文本序列对应的第二对象标签特征;
第四获取子单元,还用于获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括第二拼接网络层;
第八输入子单元,用于将视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征分别输入至第二拼接网络层;
第八输入子单元,还用于通过第二拼接网络层,对视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征进行特征拼接,得到视频帧Fg对应的第二多媒体拼接特征;
第一确定子单元,用于根据至少两个视频帧分别对应的第二多媒体拼接特征,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像。
其中,第三视频识别子模型还包括第三全连接网络层;
第一确定子单元,具体用于将视频帧Fg对应的第二多媒体拼接特征输入至第三全连接网络层,通过第三全连接网络层,对视频帧Fg对应的第二多媒体拼接特征进行特征变换,得到视频帧Fg对应的图像共享质量;
第一确定子单元,还具体用于从至少两个视频帧分别对应的图像共享质量中,获取最大的图像共享质量,将最大的图像共享质量确定为候选共享视频片段对应的图像共享质量;
第一确定子单元,还具体用于在至少两个视频帧中,将最大的图像共享质量对应的视频帧确定为候选共享视频片段对应的辅助图像。
其中,辅助文本是由N个共享词所组成的;
第七确定单元,包括:
第五获取子单元,用于获取视频识别模型;视频识别模型包括第四视频识别子模型;第四识别视频子模型包括第二文本编码网络层、第三文本编码网络层、注意力网络层以及文本解码网络层;
第一编码子单元,用于将候选共享视频片段对应的内容文本输入至第二文本编码网络层,通过第二文本编码网络层,对候选共享视频片段对应的内容文本进行文本编码,得到内容文本特征;
第二编码子单元,用于将对象标签文本序列输入至第三文本编码网络层,通过第三文本编码网络层,对对象标签文本序列进行文本编码,得到第三对象标签特征;
第九输入子单元,用于将内容文本特征、候选共享视频片段对应的待解码文本特征Si以及第三对象标签特征分别输入至注意力网络层,通过注意力网络层,对内容文本特征、待解码文本特征Si以及第三对象标签特征进行特征融合,得到内容文本特征对应的注意力权重;i为小于N的非负整数;
第二确定子单元,用于根据内容文本特征对应的注意力权重,确定候选共享视频片段对应的待解码文本特征Si+1;待解码文本特征Si所指示的共享词为待解码文本特征Si+1所指示的共享词的上一个共享词;
第一生成子单元,用于当i+1等于N时,将N个待解码文本特征分别输入至文本解码网络层,通过文本解码网络层,生成N个待解码文本特征分别指示的共享词,将N个共享词组成为候选共享视频片段对应的辅助文本;
第二生成子单元,用于根据N个待解码文本特征,生成候选共享视频片段对应的文本共享质量。
其中,候选共享视频片段的数量为至少两个,至少两个候选共享视频片段包括候选共享视频片段Jm,m为正整数,且m小于或等于至少两个候选共享视频片段的数量;
第二确定模块,包括:
质量求和单元,用于对候选共享视频片段Jm对应的片段共享质量、候选共享视频片段Jm对应的对象共享质量,以及候选共享视频片段Jm对应的辅助共享质量进行加权求和,得到候选共享视频片段Jm对应的总共享质量;
第五获取单元,用于从至少两个候选共享视频片段分别对应的总共享质量中,获取最大的总共享质量;
第八确定单元,用于在至少两个候选共享视频片段中,将最大的总共享质量对应的候选共享视频片段确定为共享视频片段;
第六获取单元,用于在至少两个候选共享视频片段分别对应的辅助描述信息中,获取共享视频片段对应的辅助描述信息。
本申请实施例一方面提供了一种数据处理装置,包括:
第一获取模块,用于获取训练样本集;训练样本集包括样本视频、与样本视频相关联的浏览样本对象的对象标签样本文本序列、样本视频对应的视频质量标签、样本视频对应的对象质量标签,以及样本视频对应的辅助质量标签;
第一确定模块,用于将训练样本集输入至视频识别初始模型,通过视频识别初始模型,确定样本视频对应的视频预测质量;
第二确定模块,用于根据对象标签样本文本序列以及样本视频,确定样本视频对应的对象预测质量以及样本视频对应的辅助预测质量;
参数调整模块,用于根据视频质量标签、对象质量标签、辅助质量标签、视频预测质量、对象预测质量以及辅助预测质量,对视频识别初始模型中的参数进行调整,得到视频识别模型;视频识别模型用于确定视频的共享数据;共享数据包括视频中的共享视频片段以及共享视频片段对应的辅助描述信息。
其中,样本视频的数量为至少两个,至少两个样本视频包括样本视频Po,o为正整数且o小于或等于至少两个样本视频的数量;
数据处理装置,还包括:
第一运算模块,用于对样本视频Po对应的播放次数、样本视频Po对应的时长以及样本视频Po对应的平均播放完成度进行乘积运算,得到样本视频Po对应的第一样本参数;
第二运算模块,用于对样本视频Po对应的对象评论文本数量以及样本视频Po对应的对象评论文本互动数量进行求和运算,得到样本视频Po对应的第二样本参数;
第二获取模块,用于在至少两个样本视频分别对应的第一样本参数中,获取最大的第一样本参数,在至少两个样本视频分别对应的第二样本参数中,获取最大的第二样本参数;
第三确定模块,用于确定样本视频Po对应的第一样本参数以及最大的第一样本参数之间的第一比例,确定样本视频Po对应的第二样本参数以及最大的第二样本参数之间的第二比例;
比例求和模块,用于对第一比例以及第二比例进行加权求和,得到样本视频Po对应的候选视频质量标签;
第一对比模块,用于将样本视频Po对应的候选视频质量标签与视频质量标签阈值进行对比;
第四确定模块,用于若样本视频Po对应的候选视频质量标签小于视频质量标签阈值,则将样本视频Po对应的候选视频质量标签确定为样本视频Po对应的视频质量标签;
第四确定模块,还用于若样本视频Po对应的候选视频质量标签等于或大于视频质量标签阈值,则将视频质量标签阈值确定为样本视频Po对应的视频质量标签。
其中,数据处理装置,还包括:
第二对比模块,用于获取浏览样本对象针对样本视频的第一播放完成度,将第一播放完成度与第一播放完成度阈值进行对比;
第五确定模块,用于若第一播放完成度大于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一正向关联关系,将第一正向关联关系确定为对象质量标签;
第五确定模块,还用于若第一播放完成度小于或等于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一反向关联关系,将第一反向关联关系确定为对象质量标签。
其中,训练样本集还包括样本视频对应的样本辅助图像;辅助质量标签包括辅助图像质量标签;
数据处理装置,还包括:
第三对比模块,用于获取浏览样本对象针对样本视频的第二播放完成度,将第二播放完成度与第二播放完成度阈值进行对比;
第六确定模块,用于若第二播放完成度大于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二正向关联关系,将第二正向关联关系确定为辅助图像质量标签;
第六确定模块,还用于若第二播放完成度小于或等于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二反向关联关系,将第二反向关联关系确定为辅助图像质量标签。
其中,辅助质量标签包括辅助文本质量标签;
数据处理装置,还包括:
第三获取模块,用于获取浏览样本对象针对样本视频的第三播放完成度;
第四获取模块,用于若第三播放完成度大于第三播放完成度阈值,则获取样本视频对应的样本内容文本,将样本内容文本添加至训练样本集;
第七确定模块,用于确定对象标签样本文本序列以及样本内容文本之间存在第三正向关联关系,将第三正向关联关系确定为辅助文本质量标签。
其中,视频识别初始模型包括用于确定视频预测质量的第一视频识别初始子模型、用于确定对象预测质量的第二视频识别初始子模型,以及用于确定辅助预测质量的辅助视频识别初始子模型;视频识别初始模型中的参数包括第一视频识别初始子模型中的参数、第二视频识别初始子模型中的参数,以及辅助视频识别初始子模型中的参数;
参数调整模块,包括:
第一调整单元,用于确定视频质量标签以及视频预测质量之间的视频质量损失值,根据视频质量损失值,对第一视频识别初始子模型中的参数进行调整,得到第一视频识别子模型;
第二调整单元,用于确定对象质量标签以及对象预测质量之间的对象质量损失值,根据对象质量损失值,对第二视频识别初始子模型中的参数进行调整,得到第二视频识别子模型;
第三调整单元,用于确定辅助质量标签以及辅助预测质量之间的辅助质量损失值,根据辅助质量损失值,对辅助视频识别初始子模型中的参数进行调整,得到辅助视频识别子模型;
模型生成单元,用于当第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型均满足模型收敛条件时,生成包含第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型的视频识别模型。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行本申请实施例中的方法。
在本申请实施例中,计算机设备确定视频中的至少两个视频片段分别对应的片段共享质量,故可以根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段,可以理解的是,候选视频片段属于视频且其共享价值(质量)优于视频的共享价值;进一步,计算机设备获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,故可以根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段,可以理解的是,候选共享视频片段不仅基于候选视频片段的视频内容确定,还基于对象标签文本序列确定,故其共享价值(质量)优于候选视频片段的共享价值;进一步,计算机设备根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息,可以理解的是,辅助描述信息不仅与候选共享视频片段相关联,还与对象标签文本序列相关联;进一步,计算机设备根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。上述可知,本申请中的共享数据是基于不同维度的共享质量所确定的,不仅与共享视频片段自身的视频内容相关联,还与对象标签文本序列相关联,故通过共享数据,可以提高视频的共享效率以及共享效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种数据处理的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图一;
图4是本申请实施例提供的一种第一视频识别子模型的模型结构示意图;
图5是本申请实施例提供的一种第二视频识别子模型的模型结构示意图;
图6是本申请实施例提供的一种数据处理方法的流程示意图二;
图7是本申请实施例提供的一种第三视频识别子模型的模型结构示意图;
图8是本申请实施例提供的一种第四视频识别子模型的模型结构示意图;
图9是本申请实施例提供的一种数据处理方法的流程示意图三;
图10是本申请实施例提供的一种数据处理装置的结构示意图一;
图11是本申请实施例提供的一种数据处理装置的结构示意图二;
图12是本申请实施例提供的一种数据处理装置的结构示意图三;
图13是本申请实施例提供的一种数据处理装置的结构示意图四;
图14是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,首先对部分名词进行以下简单解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中,计算机视觉技术可以用于识别视频中用于共享至共享对象的共享视频片段。
语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition,ASR)、语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。在本申请实施例中,语音技术可以用于识别视频中的音频数据。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中,自然语言处理可以用于处理视频中的内容文本(包括弹幕、字幕等),以及与视频相关联的对象标签文本序列。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中,视频识别模型是基于机器学习的AI模型,可用于对视频进行识别处理。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括业务服务器100以及终端设备集群,终端设备集群可以包括:终端设备200a、终端设备200b、终端设备200c、…、终端设备200n,可以理解的是,上述系统可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。
其中,终端设备集群之间可以存在通信连接,例如终端设备200a与终端设备200b之间存在通信连接,终端设备200a与终端设备200c之间存在通信连接。同时,终端设备集群中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备200a与业务服务器100之间存在通信连接,其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端设备集群中的每个终端设备均可以安装有应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的业务服务器100进行数据交互,即上述的通信连接。其中,该应用客户端可以为视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、浏览器等具有加载视频功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。以视频应用为例,业务服务器100可以为包括视频应用对应的后台服务器、数据处理服务器等多个服务器的集合,因此,每个终端设备均可以通过该视频应用对应的应用客户端与业务服务器100进行数据传输,如每个终端设备均可以通过视频应用的应用客户端将其本地的视频上传至业务服务器100,进而业务服务器100可以将该视频下发给其它终端设备或传送至云服务器。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息(例如对象标签文本序列)等相关的数据,当本申请中的实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为便于后续理解和说明,本申请实施例可以在图1所示的终端设备集群中选择一个终端设备作为目标终端设备,例如以终端设备200a作为目标终端设备。当获取到视频,并接收到将视频共享至与浏览对象相关联的共享对象的视频共享指令时,终端设备200a可以将视频标识、浏览对象标识以及共享对象标识作为待识别数据发送至业务服务器100,本申请实施例将使用终端设备200a的用户称作浏览对象,将与浏览对象具有关联关系的用户(例如好友用户)称作共享对象,其中,本申请实施例不对浏览对象标识(浏览对象已授权)进行限定,包括但不限于浏览对象在应用客户端中所绑定的手机、标识号,可以根据实际应用场景进行设定,同理,共享对象标识亦如此;视频标识可以为任意一种能够用于标识应用客户端中的视频的信息。
进一步,业务服务器100接收到终端设备200a发送的待识别数据后,可以根据视频标识获取视频,根据浏览对象标识以及共享对象标识可以获取对象标签文本序列。业务服务器100获取视频中的至少两个视频片段,业务服务器100获取已训练好的视频识别模型,该视频识别模型可以包括第一视频识别子模型、第二视频识别子模型以及辅助视频识别子模型;通过第一视频识别子模型,业务服务器100可以确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,可以从至少两个视频片段中确定候选视频片段;进一步,在第二视频识别子模型中,业务服务器100可以根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,可以从候选视频片段中确定候选共享视频片段;进一步,在辅助视频识别子模型中,根据对象标签文本序列以及候选共享视频片段,业务服务器100可以确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,可以确定候选共享视频片段对应的辅助描述信息;进一步,根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,业务服务器100从候选共享视频片段中可以确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
后续,业务服务器100将共享数据发送至终端设备200a,终端设备200a接收到业务服务器100发送的共享数据后,可以在其对应的屏幕上显示该共享数据,进一步,终端设备200a可以将携带视频标识的共享数据,发送至共享对象对应的终端设备(例如图1中的终端设备200b)。终端设备200b获取到携带视频标识的共享数据后,可以在其屏幕上显示该共享数据,进一步,共享对象可以根据共享数据所携带的视频标识,查看完整的视频。可选的,若浏览对象授权业务服务器100具备共享权限,则业务服务器100在生成共享数据后,可以将该共享数据发送至共享对象对应的终端设备(如图1中的终端设备200b),后续过程请参见上文描述,此处不进行赘述。
可选的,业务服务器100生成针对共享视频片段的共享标识,将共享标识以及辅助描述信息发送至终端设备200a,则终端设备200a获取到共享标识后,可以生成针对视频的携带该共享标识以及辅助描述信息的共享信息,进一步,终端设备200a将共享信息发送至共享对象对应的终端设备200b,则终端设备200b获取到该共享信息时,可以根据共享标识播放视频中的共享视频片段。可选的,若浏览对象授权业务服务器100具备共享权限,则业务服务器100生成共享标识后,可以将共享标识以及辅助描述信息发送至终端设备200b,后续过程请参见上文描述,此处不进行赘述。
可选的,若终端设备200a的本地存储了上述视频识别模型,则终端设备200a可以通过视频识别模型,确定视频中的至少两个视频片段分别对应的片段共享质量,故可以从至少两个视频片段中确定候选视频片段;根据对象标签文本序列以及候选视频片段,终端设备200a可以确定候选视频片段对应的对象共享质量,进而可以从候选视频片段中确定候选共享视频片段;根据对象标签文本序列以及候选共享视频片段,终端设备200a可以确定候选共享视频片段对应的辅助共享质量,进而可以确定候选共享视频片段对应的辅助描述信息;根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,终端设备200a可以从候选共享视频片段中确定共享视频片段,所以可以将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
其中,由于训练视频识别模型涉及到大量的离线计算,因此终端设备200a本地的视频识别模型,可以是由业务服务器100训练完成后发送至终端设备200a的。
可以理解的是,本申请实施例中的共享数据,是基于视频以及对象标签文本序列所自动构建的,具备高共享价值,故共享视频片段可以直观反映视频的精彩内容,同时与浏览对象/共享对象的兴趣标签吻合,故可以提升视频的共享效率与效果。
需要说明的是,上述业务服务器100、终端设备200a、终端设备200b、终端设备200c...、终端设备200n均可以为区块链网络中的区块链节点,全文叙述的数据(例如对象标签文本序列以及共享数据)可以进行存储,存储方式可以是区块链节点根据数据生成区块,并将区块添加至区块链中进行存储的方式。
区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式,主要用于对数据按时间顺序进行整理,并加密成账本,使其不可被篡改和伪造,同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库,该数据库中的每个节点均存储一条相同的区块链,区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识,也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的交易数据被写入账本的流程可以为,区块链网络中的数据节点或轻节点获取到交易数据,将交易数据在区块链网络中传递(也就是节点以接力棒的方式进行传递),直到共识节点收到该交易数据,共识节点再将该交易数据打包进区块,对该区块执行共识,待共识完成后将该交易数据写入账本。此处以对象标签文本序列以及共享数据示例交易数据,业务服务器100(区块链节点)在通过对交易数据的共识后,根据交易数据生成区块,将区块存储至区块链网络中;而对于交易数据(即对象标签文本序列以及共享数据)的读取,则可以由区块链节点在区块链网络中,获取到包含该交易数据的区块,进一步,在区块中获取交易数据。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机设备包括但不限于终端设备或业务服务器。其中,业务服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。其中,终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
进一步地,请参见图2,图2是本申请实施例提供的一种数据处理的场景示意图。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。本申请实施例可适用于针对视频的视频片段推荐场景、视频片段分发场景、视频片段搜索场景等业务场景,这里将不对具体的业务场景进行一一列举。其中,该数据处理场景的实现过程可以在业务服务器中进行,也可以在终端设备中进行,还可以在终端设备和业务服务器中交互进行,此处不做限制。为了便于叙述以及理解,本申请实施例以在终端设备和业务服务器中交互进行为例进行叙述,其中,终端设备可以为上述图1所对应实施例的终端设备集群中的任意一个终端设备,图2以终端设备200a为例进行叙述,业务服务器可以为上述图1所对应实施例的业务服务器100。
如图2所示,浏览对象20b与终端设备200a具有绑定关系,当浏览对象20b通过终端设备200a浏览视频201a时,终端设备200a可以在播放界面显示视频201a的基本信息,如视频时长(图2示例为6分钟),如视频封面(图2示例为猫咪图像205a),如视频文案(图2示例文案“小猫咪争食物”206a),此外,终端设备200a还可以在播放界面显示针对视频201a的控件,例如图2所示例的播放控件207a以及共享控件202a。当浏览对象20b触发共享控件202a时,终端设备200a响应针对共享控件202a的触发操作,显示浏览对象20b的好友列表,图2示例好友列表包括3个好友,即好友“aa”、好友“bb”以及好友“cc”,若浏览对象20b触发好友“cc”对应的选择控件203a,则终端设备200a可以显示提示子页面,该提示子页面可以显示“取消控件”以及“共享”控件204a,当浏览对象20b触发“共享”控件204a时,终端设备200a将好友“cc”确定为共享对象。
可以理解的是,图2中所展示的界面以及控件仅仅是一些可供参考的表现形式,在实际业务场景中,开发人员可以根据产品需求来进行相关设计,本申请实施例对涉及到的界面和控件的具体形式不做限制。
终端设备200a可以获取视频201a对应的视频标识、浏览对象20b对应的浏览对象标识,以及共享对象对应的共享对象标识,然后将视频标识、浏览对象标识以及共享对象标识均发送至业务服务器100,以使业务服务器100通过视频标识获取视频201a,通过浏览对象标识以及共享对象标识确定对象标签文本序列。其中,本申请实施例不对业务服务器100获取视频201a以及对象标签文本序列的方式进行限定,可以如上文描述获取视频201a以及对象标签文本序列,还可以是终端设备200a将视频201a以及对象标签文本序列均发送至业务服务器100,业务服务器100还可以通过其他方式确定视频201a以及对象标签文本序列,具体应当根据实际场景进行设定。
进一步,业务服务器100可以通过时间窗口对视频201a进行切分处理,得到至少两个视频片段20d,本申请实施例示例时间窗口的长度为1分钟,结合视频201a对应的视频时长(图2示例为6分钟),故至少两个视频片段20d的数量为6,如图2所示例的视频片段201d、视频片段202d、视频片段203d、视频片段204d、视频片段205d以及视频片段206d。业务服务器100获取已训练好的视频识别模型20c,该视频识别模型20c可以包括第一视频识别子模型20e、第二视频识别子模型20f以及辅助视频识别子模型20g。
业务服务器100将至少两个视频片段20d分别输入至第一视频识别子模型20e,通过第一视频识别子模型20e,确定至少两个视频片段20d分别对应的片段共享质量,如图2所示例,视频片段201d的片段共享质量为0.8,视频片段202d的片段共享质量为0.85,视频片段203d的片段共享质量为0.89,视频片段204d的片段共享质量为0.7,视频片段205d的片段共享质量为0.75,视频片段206d的片段共享质量为0.9;其中,业务服务器100确定视频片段对应的片段共享质量的具体过程,此处暂不展开叙述,请参见下文图3所对应的实施例中步骤S101的描述。
业务服务器100获取片段共享质量阈值,可以理解的是,片段共享质量阈值可以根据实际应用场景进行调整,本申请实施例示例为0.8。业务服务器100将至少两个片段共享质量分别与片段共享质量阈值进行对比,将等于或大于该片段共享质量阈值的片段共享质量对应的视频片段,确定为候选视频片段201e,如图2所示,候选视频片段201e包括视频片段201d、视频片段202d、视频片段203d以及视频片段206d。进一步,业务服务器100将对象标签文本序列以及候选视频片段201e均输入至第二视频识别子模型20f,通过第二视频识别子模型20f,可以确定候选视频片段201e对应的对象共享质量,如图2所示例,视频片段201d的对象共享质量为0.74,视频片段202d的对象共享质量为0.86,视频片段203d的对象共享质量为0.8,视频片段206d的对象共享质量为0.9;其中,业务服务器100确定候选视频片段对应的对象共享质量的具体过程,此处暂不展开叙述,请参见下文图3所对应的实施例中步骤S102的描述。
业务服务器100获取对象共享质量阈值,可以理解的是,对象共享质量阈值可以根据实际应用场景进行调整,本申请实施例示例为0.85。业务服务器100将4个对象共享质量分别与片段共享质量阈值进行对比,将大于该对象共享质量阈值的对象共享质量对应的候选视频片段,确定为候选共享视频片段201f,如图2所示,候选共享视频片段201f包括视频片段202d以及视频片段206d。进一步,业务服务器100将对象标签文本序列以及候选共享视频片段201f均输入至辅助视频识别子模型20g,通过辅助视频识别子模型20g,可以确定候选共享视频片段201f对应的辅助共享质量,如图2所示例,视频片段202d的辅助共享质量为0.82,视频片段206d的辅助共享质量为0.87;其中,业务服务器100确定候选共享视频片段对应的辅助共享质量的具体过程,此处暂不展开叙述,请参见下文图3所对应的实施例中步骤S103的描述。
根据候选共享视频片段对应的辅助共享质量,业务服务器100可以确定候选共享视频片段对应的辅助描述信息,如图2所示例,业务服务器100确定视频片段202d的辅助描述信息202g,确定视频片段206d的辅助描述信息206g;其中,业务服务器100确定候选共享视频片段对应的辅助描述信息的具体过程,此处暂不展开叙述,请参见下文图3所对应的实施例中步骤S103的描述。
进一步,业务服务器100对视频片段202d对应的片段共享质量(图2示例为0.85)、视频片段202d对应的对象共享质量(图2示例为0.86),以及视频片段202d对应的辅助共享质量(图2示例为0.82)进行加权求和,可以得到视频片段202d对应的总共享质量;同样地,对视频片段206d对应的片段共享质量(图2示例为0.9)、视频片段206d对应的对象共享质量(图2示例为0.9),以及视频片段206d对应的辅助共享质量(图2示例为0.87)进行加权求和,业务服务器100可以得到视频片段206d对应的总共享质量;进一步,业务服务器100将视频片段202d对应的总共享质量以及视频片段206d对应的总共享质量进行对比,在两个总共享质量中,获取最大的总共享质量,本申请实施例示例视频片段206d对应的总共享质量为最大的总共享质量,则业务服务器100可以确定视频片段206d为共享视频片段;进一步,可以将共享视频片段(即视频片段206d)以及共享视频片段对应的辅助描述信息(如图2中示例的辅助描述信息206g),确定为共享数据20h。后续,业务服务器100可以将共享数据20h同步至终端设备200a,故终端设备200a可以将共享数据200a发送至共享对象(如图2所示例的好友“cc”)。
上述可知,本申请通过对视频进行深度建模,可以构建出多个具备高分享价值的视频片段,结合对象标签文本序列,可以生成与浏览对象以及共享对象强相关的辅助描述信息,实现视频共享的个性多样化,丰富视频共享功能,提升视频共享的用户体验。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图一。该数据处理方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由业务服务器执行为例进行说明。如图3所示,该数据处理方法至少可以包括以下步骤S101-步骤S104。
步骤S101,获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段。
具体的,获取视频,根据时间窗口对视频进行切分处理,得到视频对应的至少两个视频片段;至少两个视频片段包括视频片段Ab,b为正整数,且b小于或等于至少两个视频片段对应的总数量;从视频片段Ab中获取K个视频帧,以及K个视频帧分别对应的音频帧;K为正整数;对视频片段Ab进行音频识别处理,得到音频识别文本,提取视频片段Ab中的视频描述文本以及对象评论文本;将音频识别文本、视频描述文本以及对象评论文本,确定为视频片段Ab对应的内容文本Eb;根据K个视频帧、K个音频帧以及内容文本Eb,生成视频片段Ab对应的多媒体融合特征;根据至少两个视频片段分别对应的多媒体融合特征,确定至少两个视频片段分别对应的片段共享质量。
其中,生成视频片段Ab对应的多媒体融合特征的具体过程可以包括:获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括视频融合网络层、音频融合网络层、文本融合网络层以及多媒体融合网络层;将K个视频帧分别输入至视频融合网络层,通过视频融合网络层,对K个视频帧分别进行特征提取,得到K个视频帧分别对应的待融合视频特征,对K个待融合视频特征进行特征融合,得到视频片段Ab对应的视频特征;将K个音频帧分别输入至音频融合网络层,通过音频融合网络层,对K个音频帧分别进行特征提取,得到K个音频帧分别对应的待融合音频特征,对K个待融合音频特征进行特征融合,得到视频片段Ab对应的音频特征;将内容文本Eb输入至文本融合网络层,通过文本融合网络层,提取内容文本Eb中的关键文本,对关键文本进行特征提取,得到关键文本对应的文本特征;将视频特征、音频特征以及文本特征分别输入至多媒体融合网络层,通过多媒体融合网络层,对视频特征、音频特征以及文本特征进行特征融合,得到视频片段Ab对应的多媒体融合特征。
其中,确定至少两个视频片段分别对应的片段共享质量的具体过程可以包括:获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括第一全连接网络层;将视频片段Ab对应的多媒体融合特征输入至第一全连接网络层,通过第一全连接网络层,对视频片段Ab对应的多媒体融合特征进行特征变换,得到视频片段Ab对应的片段共享质量;则从至少两个视频片段中确定候选视频片段的具体过程可以包括:将至少两个视频片段分别对应的片段共享质量分别与片段共享质量阈值进行对比;在至少两个视频片段中,将等于或大于片段共享质量阈值的片段共享质量对应的视频片段,确定为候选视频片段。
业务服务器获取视频,可以通过时间窗口对视频进行切分,得到视频的至少两个视频片段,其中,时间窗口可以根据实际应用场景进行设定。可以理解的是,业务服务器确定每个视频片段分别对应的片段共享质量的过程是一致的,故本申请实施例以确定视频片段A1对应的片段共享质量为例进行叙述,至少两个视频片段中的剩余视频片段对应的片段共享质量的确定过程,请参见如下描述,其中,视频片段A1属于上述的视频片段Ab。请一并参加图4,图4是本申请实施例提供的一种第一视频识别子模型的模型结构示意图。如图4所示,业务服务器从视频片段A1中获取K个视频帧,以及K个视频帧分别对应的音频帧,其中,K个视频帧可以是随机抽取的,也可以是按照周期(例如一秒一帧)抽取的,本申请实施例不对获取视频帧的方式进行限定,可以根据实际应用场景进行设定;业务服务器对视频片段A1进行音频识别处理,例如通过ASR技术,得到音频识别文本;例如通过OCR技术,提取视频片段A1中的视频描述文本,提取对象评论文本,其中,视频描述文本可以包括字幕文本,对象评论文本可以包括弹幕文本;进一步,业务服务器将音频识别文本、视频描述文本以及对象评论文本,确定为视频片段A1对应的内容文本E1
请再参见图4,业务服务器获取视频识别模型中的第一视频识别子模型,第一视频识别子模型包括视频融合网络层40a、音频融合网络层40b、文本融合网络层40c、多媒体融合网络层40e以及第一全连接网络层40f。业务服务器将K个视频帧分别输入至视频融合网络层40a,假设K个视频帧包括第一视频帧以及第二视频帧,则通过视频融合网络层40a,对第一视频帧进行特征提取,可以得到第一视频帧对应的第一待融合视频特征,对第二视频帧进行特征提取,可以得到第二视频帧对应的第二待融合视频特征,故业务服务器可以得到K个视频帧分别对应的待融合视频特征;对K个待融合视频特征401a进行特征融合,业务服务器可以得到视频片段A1对应的视频特征401d。可以理解的是,该视频融合网络层40a可以视为用于提取K个视频帧的深度特征的网络,本申请实施例不对视频融合网络层40a的网络类型进行限定,可以由任意一种或多种神经网络组成,如卷积神经网络(ConvolutionalNeural Networks,CNN)、残差网络(Residual Network,ResNet)、高分辨率网络 (High-Resolution Net,HRNet)、标准化的卷积网络扩展(EfficientNet)等。
此外,业务服务器将K个音频帧分别输入至音频融合网络层40b,假设K个音频帧包括第一视频帧对应的第一音频帧,以及第二视频帧对应的第二音频帧,则通过音频融合网络层40b,对第一音频帧进行特征提取,可以得到第一音频帧对应的第一待融合音频特征,对第二音频帧进行特征提取,可以得到第二音频帧对应的第二待融合音频特征,以此,业务服务器可以得到K个音频帧分别对应的待融合音频特征,对K个待融合音频特征401b进行特征融合,得到视频片段A1对应的音频特征402d。可以理解的是,该音频融合网络层40b可以视为用于提取K个音频帧的深度特征的网络,本申请实施例不对音频融合网络层40b的网络类型进行限定,可以由任意一种或多种神经网络组成,如卷积-时域音频分离网络(Conv-TasNet)、双向长短期记忆网络以及时域音频分离网络(BiLSTM-TasNet)、基于tensorflow的Visual Geometry Group Network模型(VGGish)等。
业务服务器将内容文本E1输入至文本融合网络层40c,通过文本融合网络层40c,提取内容文本E1中的关键文本,对关键文本进行特征提取,得到关键文本对应的文本特征。本申请实施例不对文本融合网络层40c的网络类型进行限定,可以为任意一种自然语言处理网络,例如深度自注意力变换网络(Transformer,一种广泛应用于自然语言翻译和图像处理领域的深度学习模型),Word2Vec(用来产生词向量的模型),双向编码模型(Bidirectional Encoder Representation from Transformers,Bert)等。
进一步,业务服务器将视频特征401d、音频特征402d以及文本特征403d分别输入至多媒体融合网络层40e,通过多媒体融合网络层40e,对视频特征401d、音频特征402d以及文本特征403d进行特征融合,可以得到视频片段A1对应的多媒体融合特征401e。业务服务器将多媒体融合特征401e输入至第一全连接网络层40f,通过第一全连接网络层40f,对多媒体融合特征401e进行特征变换,得到视频片段A1对应的片段共享质量。其中,根据至少两个片段共享质量,业务服务器从至少两个视频片段中确定候选视频片段的具体过程,请参见上文图2中的描述,此次不进行赘述。
步骤S102,获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段。
具体的,获取与视频相关联的浏览对象的对象标签文本,获取与浏览对象相关联的共享对象的对象标签文本;根据浏览对象的对象标签文本以及共享对象的对象标签文本,生成对象标签文本序列;获取视频识别模型,将对象标签文本序列以及候选视频片段分别输入至视频识别模型;视频识别模型包括第二视频识别子模型;第二视频识别子模型包括第一文本编码网络层;通过第一文本编码网络层,对对象标签文本序列中的每个对象标签文本进行文本编码,得到对象标签文本序列对应的第一对象标签特征;获取候选视频片段对应的多媒体融合特征,根据第一对象标签特征以及候选视频片段对应的多媒体融合特征,确定候选视频片段对应的对象共享质量。
其中,第二视频识别子模型还包括第一拼接网络层以及第二全连接网络层;确定候选视频片段对应的对象共享质量的具体过程可以包括:将第一对象标签特征以及候选视频片段对应的多媒体融合特征分别输入至第一拼接网络层;通过第一拼接网络层,对第一对象标签特征以及候选视频片段对应的多媒体融合特征进行特征拼接,得到候选视频片段对应的第一多媒体拼接特征;将第一多媒体拼接特征输入至第二全连接网络层,通过第二全连接网络层,对第一多媒体拼接特征进行特征变换,得到候选视频片段对应的对象共享质量;
其中,候选视频片段的数量为至少两个;从候选视频片段中确定候选共享视频片段的具体过程可以包括:将至少两个候选视频片段分别对应的对象共享质量与对象共享质量阈值进行对比;在至少两个候选视频片段中,将大于对象共享质量阈值的对象共享质量对应的候选视频片段,确定为候选共享视频片段。
步骤S101 构建出互动率高、共享价值高的候选视频片段,本步骤对候选视频片段限定于对象兴趣的相关性,使得构建的候选视频片段与对象的兴趣更加契合,可以进一步提升视频共享的播放转化。业务服务器获取浏览对象的对象标签文本(简写为浏览对象标签文本),浏览对象标签文本可以表征浏览对象的兴趣,例如标签文本(猫、动漫、宠物),则表征浏览对象对猫、动漫以及宠物类型的视频感兴趣;同样地,获取共享对象的对象标签文本(简写为共享对象标签文本),共享对象标签文本可以表征共享对象的兴趣,例如标签文本(猫、动画片、少儿),则表征共享对象对猫、动画片以及少儿类型的视频感兴趣,进一步,结合浏览对象标签文本以及共享对象标签文本,业务服务器得到对象标签文本序列,例如将标签文本(猫、动漫、宠物)以及标签文本(猫、动画片、少儿)组合,得到标签文本序列(猫、动漫、宠物、动画片、少儿)。如果在构建对象标签文本序列时,只能获取到一个对象(例如浏览对象,或共享对象)的对象标签文本,则以获取到的对象标签文本生成对象标签文本序列。
本申请实施例可以提供两种获取候选视频片段对应的多媒体融合特征的方式,第一种方式:步骤S101已提供至少两个视频片段分别对应的多媒体融合特征(包括图4中的多媒体融合特征401e),且候选视频片段属于至少两个视频片段,故业务服务器可以在第一视频识别子模型中所输出的至少两个视频片段分别对应的多媒体融合特征中,获取候选视频片段对应的多媒体融合特征。请再参见图2,业务服务器可以通过第一视频识别子模型20e分别获取视频片段201d对应的多媒体融合特征、视频片段202d对应的多媒体融合特征、视频片段203d对应的多媒体融合特征、视频片段204d对应的多媒体融合特征、视频片段205d对应的多媒体融合特征、视频片段206d对应的多媒体融合特征,且业务服务器确定视频片段201d、视频片段202d、视频片段203d、视频片段206d,为候选视频片段,则可以直接将第一视频识别子模型20e所输出的针对视频片段201d的多媒体融合特征、针对视频片段202d的多媒体融合特征、针对视频片段203d的多媒体融合特征、针对视频片段206d的多媒体融合特征,确定为候选视频片段对应的多媒体融合特征。上述第一种获取候选视频片段对应的多媒体融合特征的方式,可以减小视频识别模型的运算时间以及运算成本。
为了提高候选视频片段对应的多媒体融合特征的精度,业务服务器可以采用第二种方式,请一并参见图5,图5是本申请实施例提供的一种第二视频识别子模型的模型结构示意图。如图5所示的虚线区域中的模型结构与图4的第一视频识别子模型中的模型结构相同,但两者之间的模型参数不一致,因为训练第二视频识别子模型时,业务服务器是将已训练好的第一视频识别子模型中的视频融合网络层40a、音频融合网络层40b、文本融合网络层40c以及多媒体融合网络层40e分别对应的模型参数,作为图5的虚线区域中的初始化模型参数,并基于第二训练样本集(包括样本视频、对象标签样本文本序列以及样本视频对应的对象质量标签)对初始化模型参数进行微调。可以理解的是,业务服务器通过图5的虚线区域得到候选视频片段对应的多媒体融合特征402e的过程,与通过第一视频识别子模型得到至少两个视频片段分别对应的多媒体融合特征的过程是一致的,故请参见上文步骤S101的描述,此处不进行赘述。由于图5的虚线区域中的模型参数优于图4中的模型参数,故多媒体融合特征402e优于步骤S101中的至少两个多媒体融合特征。
本申请实施例通过图 5,同时对对象的个性化兴趣以及视频片段内容进行联合建模,如图5所示,第二视频识别子模型可以包括第一文本编码网络层40g、第一拼接网络层40h以及第二全连接网络层40i。通过第一文本编码网络层40h,业务服务器对对象标签文本序列中的每个对象标签文本进行文本编码,得到对象标签文本序列对应的第一对象标签特征401g;业务服务器将第一对象标签特征401g以及候选视频片段对应的多媒体融合特征(例如图5中的多媒体融合特征402e)分别输入至第一拼接网络层40h,通过第一拼接网络层40h,对第一对象标签特征401g以及多媒体融合特征402e进行特征拼接,可以得到候选视频片段对应的第一多媒体拼接特征401h;进一步,业务服务器将第一多媒体拼接特征401h输入至第二全连接网络层40i,通过第二全连接网络层40i,可以得到候选视频片段对应的对象共享质量。
本申请实施例不对第一文本编码网络层40g的网络类型进行限定,可以为任意一种自然语言处理网络。
其中,业务服务器根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段的过程,请参见上文图2中的描述,此处不进行赘述。
步骤S103,根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息。
具体的,辅助描述信息是指用于辅助视频片段的描述信息,包括但不限于以下一种模态信息或多种模态信息的组成:视频片段的文案(文本模态)、封面(图像模态)、语音介绍(音频模态)等,具体可以根据实际应用场景进行设定。
业务服务器通过视频识别模型中的辅助视频识别子模型,确定候选共享视频片段对应的辅助共享质量,进而确定辅助描述信息的过程,请参见上文图2中的描述。若辅助描述信息包括文案,则上述的辅助视频识别子模型包括第三视频识别子模型;若辅助描述信息包括封面,则上述的辅助视频识别子模型包括第四视频识别子模型;若辅助描述信息包括文案以及封面,则辅助视频识别子模型可以包括第三视频识别子模型以及第四视频识别子模型。其中,针对第三视频识别子模型以及第四视频识别子模型的相关描述,请参见下文图6所对应的实施例中的描述,此处暂不展开叙述。
步骤S104,根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
具体的,候选共享视频片段的数量为至少两个,至少两个候选共享视频片段包括候选共享视频片段Jm,m为正整数,且m小于或等于至少两个候选共享视频片段的数量;对候选共享视频片段Jm对应的片段共享质量、候选共享视频片段Jm对应的对象共享质量,以及候选共享视频片段Jm对应的辅助共享质量进行加权求和,得到候选共享视频片段Jm对应的总共享质量;从至少两个候选共享视频片段分别对应的总共享质量中,获取最大的总共享质量;在至少两个候选共享视频片段中,将最大的总共享质量对应的候选共享视频片段确定为共享视频片段;在至少两个候选共享视频片段分别对应的辅助描述信息中,获取共享视频片段对应的辅助描述信息。
本申请实施例提出一种视频智能共享实现方法,通过对视频内容多维度进行深度理解,并且结合弹幕等互动数据,该方法可以自动挖掘出视频中的多个具备高共享价值的视频片段,基于对对象的兴趣挖掘,选择出与对象个性化兴趣更加符合的高价值共享片段,并可以生成相应的个性化共享封面图与共享文案,使视频共享更加智能,在能更加直观地展现出更有价值的视频精彩内容的同时,该方法可以与对象个性化更加吻合,故可以进一步提升视频共享效果。
请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图二。该方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由业务服务器执行为例进行说明。如图6所示,该方法至少可以包括以下步骤。
步骤S201,获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段。
步骤S202,获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段。
其中,步骤S201-步骤S202的具体实现过程,请参见上文图3所对应的实施例中的步骤S101-步骤S102,此处不进行赘述。
步骤S203,获取候选共享视频片段中的至少两个视频帧分别对应的共享图像特征。
具体的,根据图像采样周期,对候选共享视频片段进行图像采样,得到候选共享视频片段中的至少两个视频帧;获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括图像识别网络层;将至少两个视频帧分别输入至图像识别网络层,通过图像识别网络层,对至少两个视频帧分别进行特征提取,得到至少两个视频帧分别对应的共享图像特征。
业务服务器可以通过图像采样周期(例如每秒采样一张图片)从候选共享视频片段中,获取至少两个视频帧,该至少两个视频帧均作为候选辅助图像,业务服务器需要确定至少两个视频帧分别对应的图像共享质量,进而确定候选共享视频片段对应的图像共享质量,请一并参见图7,图7是本申请实施例提供的一种第三视频识别子模型的模型结构示意图。可以理解的是,业务服务器通过第三视频识别子模型得到每个视频帧分别对应的图像共享质量的过程是一致的,故本申请实施例以得到视频帧F1对应的图像共享质量为例进行叙述,至少两个视频帧中的剩余视频帧的处理过程请参见下文的描述。
业务服务器将视频帧F1(属于步骤S204中的视频帧Fg)输入至第三视频识别子模型中的图像识别网络层70a,通过图像识别网络层70a,对视频帧F1进行特征提取,得到视频帧F1对应的共享图像特征701a。
步骤S204,根据至少两个共享图像特征、候选共享视频片段、对象标签文本序列,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像;候选共享视频片段对应的辅助图像属于至少两个视频帧。
具体的,至少两个视频帧包括视频帧Fg,至少两个共享图像特征包括视频帧Fg对应的共享图像特征;g为正整数,且g小于或等于至少两个视频帧对应的总数量;获取候选共享视频片段对应的多媒体融合特征,获取对象标签文本序列对应的第二对象标签特征;获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括第二拼接网络层;将视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征分别输入至第二拼接网络层;通过第二拼接网络层,对视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征进行特征拼接,得到视频帧Fg对应的第二多媒体拼接特征;根据至少两个视频帧分别对应的第二多媒体拼接特征,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像。
其中,第三视频识别子模型还包括第三全连接网络层;确定候选共享视频片段对应的辅助图像的具体过程可以包括:将视频帧Fg对应的第二多媒体拼接特征输入至第三全连接网络层,通过第三全连接网络层,对视频帧Fg对应的第二多媒体拼接特征进行特征变换,得到视频帧Fg对应的图像共享质量;从至少两个视频帧分别对应的图像共享质量中,获取最大的图像共享质量,将最大的图像共享质量确定为候选共享视频片段对应的图像共享质量;在至少两个视频帧中,将最大的图像共享质量对应的视频帧确定为候选共享视频片段对应的辅助图像。
本申请实施例可以提供3种不同的获取候选共享视频片段对应的多媒体融合特征的方式,第一种获取方式可以参见上文图3所对应的实施例中步骤S102关于获取候选视频片段对应的多媒体融合特征的描述,两者原理一致;第二种获取方式与第一种获取方式类似,图3的步骤S102已提供候选视频片段对应的多媒体融合特征(包括图4中的多媒体融合特征402e),且候选共享视频片段属于候选视频片段,故业务服务器可以在第二视频识别子模型中所输出的候选视频片段对应的多媒体融合特征中,获取候选共享视频片段对应的多媒体融合特征。上述两种获取方式均可以减小视频识别模型的运算时间以及运算成本。
为了提高候选共享视频片段对应的多媒体融合特征的精度,业务服务器可以采用第三种方式,请一并参见图7,图7是本申请实施例提供的一种第三视频识别子模型的模型结构示意图。如图7所示的虚线区域中的模型结构与图5的第二视频识别子模型中的模型结构相同,但两者之间的模型参数不一致,因为训练第三视频识别子模型时,业务服务器是将已训练好的第二视频识别子模型中的模型参数,作为图7的虚线区域中的初始化模型参数,并基于第三训练样本集(包括样本视频、对象标签样本文本序列、样本视频对应的样本辅助图像以及样本视频对应的辅助图像质量标签)对初始化模型参数进行微调。可以理解的是,业务服务器通过图7的虚线区域得到候选共享视频片段对应的多媒体融合特征的过程,与通过第二视频识别子模型得到多媒体融合特征402e的过程是一致的,故请参见上文步骤S101的描述,此处不进行赘述。由于图7的虚线区域中的模型参数优于图5中的模型参数,故图7所输出的候选共享视频片段对应的多媒体融合特征优于图5中的多媒体融合特征402e。
同样的原理,本申请实施例可以提供两种获取第二对象标签特征的方式,第一种获取方式:将图5所输出的第一对象标签特征401g确定为第二对象标签特征;第二种获取方式:如图7所示,将对象标签文本序列输入至第三视频识别子模型,其中,业务服务器通过图7的虚线区域得到第二对象标签特征的过程,与通过图5中的第一文本编码网络层40g得到第一对象标签特征401g的过程是一致的,故请参见上文步骤S102的描述,此处不进行赘述。
请再参见图7,业务服务器将视频帧F1对应的共享图像特征701a、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征分别输入至第二拼接网络层70b;通过第二拼接网络层70b,可以对共享图像特征701a、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征进行特征拼接,故可以得到视频帧F1对应的第二多媒体拼接特征701b;进一步,业务服务器将第二多媒体拼接特征701b输入至第三全连接网络层70c,通过第三全连接网络层70c,可以对第二多媒体拼接特征701b进行特征变换,故可以得到视频帧F1对应的图像共享质量。按照上述描述,业务服务器可以得到至少两个视频帧分别对应的图像共享质量。
步骤S205,根据对象标签文本序列以及候选共享视频片段对应的内容文本,确定候选共享视频片段对应的文本共享质量,以及候选共享视频片段对应的辅助文本。
具体的,辅助文本是由N个共享词所组成的;获取视频识别模型;视频识别模型包括第四视频识别子模型;第四识别视频子模型包括第二文本编码网络层、第三文本编码网络层、注意力网络层以及文本解码网络层;将候选共享视频片段对应的内容文本输入至第二文本编码网络层,通过第二文本编码网络层,对候选共享视频片段对应的内容文本进行文本编码,得到内容文本特征;将对象标签文本序列输入至第三文本编码网络层,通过第三文本编码网络层,对对象标签文本序列进行文本编码,得到第三对象标签特征;将内容文本特征、候选共享视频片段对应的待解码文本特征Si以及第三对象标签特征分别输入至注意力网络层,通过注意力网络层,对内容文本特征、待解码文本特征Si以及第三对象标签特征进行特征融合,得到内容文本特征对应的注意力权重;i为小于N的非负整数;根据内容文本特征对应的注意力权重,确定候选共享视频片段对应的待解码文本特征Si+1;待解码文本特征Si所指示的共享词为待解码文本特征Si+1所指示的共享词的上一个共享词;当i+1等于N时,将N个待解码文本特征分别输入至文本解码网络层,通过文本解码网络层,生成N个待解码文本特征分别指示的共享词,将N个共享词组成为候选共享视频片段对应的辅助文本;根据N个待解码文本特征,生成候选共享视频片段对应的文本共享质量。
其中,候选共享视频片段对应的内容文本的定义请参见上文图3中的内容文本E1的定义,第二文本编码网络层以及第三文本编码网络层的定义,请参见上文图3中的第一文本编码网络层的定义;注意力网络层为Attention网络。
请一并参见图8,图8是本申请实施例提供的一种第四视频识别子模型的模型结构示意图。如图8所示,业务服务器对候选共享视频片段对应的内容文本进行基本处理,包括分词、标记(Token),通过词表(例如Lookuptable)查询每个词(如图8所示的词1、词2、…词n)分别对应的初始词向量,将每个初始词向量作为第二文本编码网络层的输入,以对候选共享视频片段对应的内容文本进行理解,得到内容文本特征,即每个词分别对应的词向量,如图所示例的词1表示、词2表示、…、词n表示。其中,业务服务器得到第三对象标签特征(即图8中的对象表示)的过程,可以参见上文的第二对象标签特征的生成过程,此处不进行赘述。
进一步,业务服务器将内容文本特征(词1表示、词2表示、…、词n表示)、第三对象标签特征(对象表示)以及上一步生成的共享词表示,作为注意力网络层的输入,逐步生成候选共享视频片段对应的共享文案(即辅助文本),在生成每一步的共享词时,基于Attention 机制确定是从内容文本中拷贝,还是从词表中选取词进行生成,最后,业务服务器将每步生成时的最大概率连乘,作为候选共享视频片段生成辅助文本的文本共享质量。其中,图8中的符号“<S>”标识开始。
步骤S206,根据候选共享视频片段对应的图像共享质量,以及候选共享视频片段对应的文本共享质量,确定候选共享视频片段对应的辅助共享质量;根据候选共享视频片段对应的辅助图像,以及候选共享视频片段对应的辅助文本,确定候选共享视频片段对应的辅助描述信息。
具体的,辅助图像可以作为候选共享视频片段的视频封面,辅助文本可以作为候选共享视频片段的视频文案,本申请实施例是以辅助描述信息包括辅助图像以及辅助文本为例叙述,可选的,辅助描述信息仅包括辅助文本,或仅包括辅助图像,或辅助描述信息包括音频内容等,本申请实施例不对辅助描述信息的内容进行限定,可以根据实际应用场景进行设定。
步骤S207,根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
具体的,对候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量、候选共享视频片段对应的图像共享质量以及候选共享视频片段对应的文本共享质量进行加权求和,得到候选共享视频片段对应的总共享质量,后续过程可以参见上文图3所对应的实施例中步骤S104的描述,此处不进行赘述。
本申请实施例提出一种视频智能共享实现方法,通过对视频内容、视频互动数据进行深度挖掘,自动构建出共享价值高的多个候选共享视频片段,基于对象兴趣(即对象标签文本序列)选择符合共享对象的共享视频片段进行分享,并构建符合共享对象个性化的辅助图像(可以作为共享视频片段的封面)以及辅助文本(可以作为共享视频片段的文案),故可以吸引共享对象观看共享视频片段,进而可以提升视频平台共享转化,提升视频平台的整体播放情况。
请参见图9,图9是本申请实施例提供的一种数据处理方法的流程示意图三。该方法可以由业务服务器(例如,上述图1所示的业务服务器100)执行,也可以由终端设备(例如,上述图1所示的终端设备200a)执行,还可以由业务服务器和终端设备交互执行。为便于理解,本申请实施例以该方法由业务服务器执行为例进行说明。如图9所示,该方法至少可以包括以下步骤。
步骤S301,获取训练样本集;训练样本集包括样本视频、与样本视频相关联的浏览样本对象的对象标签样本文本序列、样本视频对应的视频质量标签、样本视频对应的对象质量标签,以及样本视频对应的辅助质量标签。
具体的,样本视频的数量为至少两个,至少两个样本视频包括样本视频Po,o为正整数且o小于或等于至少两个样本视频的数量;对样本视频Po对应的播放次数、样本视频Po对应的时长以及样本视频Po对应的平均播放完成度进行乘积运算,得到样本视频Po对应的第一样本参数;对样本视频Po对应的对象评论文本数量以及样本视频Po对应的对象评论文本互动数量进行求和运算,得到样本视频Po对应的第二样本参数;在至少两个样本视频分别对应的第一样本参数中,获取最大的第一样本参数,在至少两个样本视频分别对应的第二样本参数中,获取最大的第二样本参数;确定样本视频Po对应的第一样本参数以及最大的第一样本参数之间的第一比例,确定样本视频Po对应的第二样本参数以及最大的第二样本参数之间的第二比例;对第一比例以及第二比例进行加权求和,得到样本视频Po对应的候选视频质量标签;将样本视频Po对应的候选视频质量标签与视频质量标签阈值进行对比;若样本视频Po对应的候选视频质量标签小于视频质量标签阈值,则将样本视频Po对应的候选视频质量标签确定为样本视频Po对应的视频质量标签;若样本视频Po对应的候选视频质量标签等于或大于视频质量标签阈值,则将视频质量标签阈值确定为样本视频Po对应的视频质量标签。
具体的,获取浏览样本对象针对样本视频的第一播放完成度,将第一播放完成度与第一播放完成度阈值进行对比;若第一播放完成度大于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一正向关联关系,将第一正向关联关系确定为对象质量标签;若第一播放完成度小于或等于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一反向关联关系,将第一反向关联关系确定为对象质量标签。
具体的,训练样本集还包括样本视频对应的样本辅助图像;辅助质量标签包括辅助图像质量标签;获取浏览样本对象针对样本视频的第二播放完成度,将第二播放完成度与第二播放完成度阈值进行对比;若第二播放完成度大于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二正向关联关系,将第二正向关联关系确定为辅助图像质量标签;若第二播放完成度小于或等于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二反向关联关系,将第二反向关联关系确定为辅助图像质量标签。
具体的,辅助质量标签包括辅助文本质量标签;获取浏览样本对象针对样本视频的第三播放完成度;若第三播放完成度大于第三播放完成度阈值,则获取样本视频对应的样本内容文本,将样本内容文本添加至训练样本集;确定对象标签样本文本序列以及样本内容文本之间存在第三正向关联关系,将第三正向关联关系确定为辅助文本质量标签。
其中,训练样本集可以包括用于训练第一视频识别初始子模型的第一训练样本集、用于训练第二视频识别初始子模型的第二训练样本集、用于训练辅助视频识别初始子模型的辅助训练样本集,当辅助描述信息只包括辅助图像时,辅助视频识别初始子模型包括第三视频识别初始子模型,辅助训练样本集为第三训练样本集;当辅助描述信息只包括辅助文本时,辅助视频识别初始子模型包括第四视频识别初始子模型,辅助训练样本集为第四训练样本集;当辅助描述信息包括辅助图像以及辅助文本时,辅助视频识别初始子模型包括第三视频识别初始子模型以及第四视频识别初始子模型,辅助训练样本集包括第三训练样本集以及第四训练样本集。其中,第一训练样本集包括样本视频以及样本视频对应的视频质量标签;第四训练样本集包括样本视频、与样本视频相关联的浏览样本对象的对象标签样本文本序列以及样本视频对应的辅助文本质量标签。
可以理解的是,上述四个训练样本集分别包括的样本视频可以相同,也可以不相同,区别主要是标签不相同以及用途不相同。可以理解的是,视频平台有较多的短视频,故可以将短视频确定为样本视频,相较于图3所对应的实施例中的视频对应的时长,短视频对应的时长较短,例如短视频对应的时长等同于视频片段对应的时长。
可以理解的是,视频质量标签阈值、第一播放完成度阈值、第二播放完成度阈值以及第三播放完成度阈值,均可以根据实际应用场景进行调整,本申请实施例不对上述4个阈值进行限定。
步骤S302,将训练样本集输入至视频识别初始模型,通过视频识别初始模型,确定样本视频对应的视频预测质量。
具体的,业务服务器可以将步骤S301中的第一训练样本集输入至视频识别初始模型中的第一视频识别初始子模型,其中,业务服务器通过第一视频识别初始子模型,得到样本视频对应的视频预测质量的处理过程,与通过第一视频识别子模型,得到视频片段对应的片段共享质量的处理过程是一致的,故请参见上文图3所对应的实施例中步骤S101的描述,此处不进行赘述。
步骤S303,根据对象标签样本文本序列以及样本视频,确定样本视频对应的对象预测质量以及样本视频对应的辅助预测质量。
具体的,业务服务器可以将步骤S301中的第二训练样本集输入至视频识别初始模型中的第二视频识别初始子模型,其中,业务服务器通过第二视频识别初始子模型,得到样本视频对应的对象预测质量的处理过程,与通过第二视频识别子模型,得到视频片段对应的对象共享质量的处理过程是一致的,故请参见上文图3所对应的实施例中步骤S102的描述,此处不进行赘述。
业务服务器可以将步骤S301中的辅助训练样本集输入至视频识别初始模型中的辅助视频识别初始子模型,其中,业务服务器通过辅助视频识别初始子模型,得到样本视频对应的辅助预测质量的处理过程,与通过辅助视频识别子模型,得到视频片段对应的辅助共享质量的处理过程是一致的,故请参见上文图3所对应的实施例中步骤S103的描述,此处不进行赘述。
步骤S304,根据视频质量标签、对象质量标签、辅助质量标签、视频预测质量、对象预测质量以及辅助预测质量,对视频识别初始模型中的参数进行调整,得到视频识别模型;视频识别模型用于确定视频的共享数据;共享数据包括视频中的共享视频片段以及共享视频片段对应的辅助描述信息。
具体的,视频识别初始模型包括用于确定视频预测质量的第一视频识别初始子模型、用于确定对象预测质量的第二视频识别初始子模型,以及用于确定辅助预测质量的辅助视频识别初始子模型;视频识别初始模型中的参数包括第一视频识别初始子模型中的参数、第二视频识别初始子模型中的参数,以及辅助视频识别初始子模型中的参数;确定视频质量标签以及视频预测质量之间的视频质量损失值,根据视频质量损失值,对第一视频识别初始子模型中的参数进行调整,得到第一视频识别子模型;确定对象质量标签以及对象预测质量之间的对象质量损失值,根据对象质量损失值,对第二视频识别初始子模型中的参数进行调整,得到第二视频识别子模型;确定辅助质量标签以及辅助预测质量之间的辅助质量损失值,根据辅助质量损失值,对辅助视频识别初始子模型中的参数进行调整,得到辅助视频识别子模型;当第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型均满足模型收敛条件时,生成包含第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型的视频识别模型。
本申请实施例通过第一训练样本集对第一视频识别初始子模型进行深度建模,以使第一视频识别子模型可以在多个视频片段中确定具备高共享价值的候选视频片段,通过第二训练样本集对第二视频识别初始子模型进行深度建模,以使第二视频识别子模型可以在候选视频片段中确定具备高共享价值的候选共享视频片段,通过辅助训练样本集对辅助视频识别初始子模型进行深度建模,以使辅助视频识别子模型可以确定候选共享视频片段对应的辅助共享质量以及辅助描述信息,进而可以通过不同维度的共享质量,确定共享视频片段以及其对应的辅助描述信息,进而可以生成共享数据,由于共享数据不仅与共享视频片段自身的视频内容相关联,还与对象标签文本序列相关联,故通过共享数据,可以提高视频的共享效率以及共享效果。
进一步地,请参见图10,图10是本申请实施例提供的一种数据处理装置的结构示意图一。上述数据处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,该数据处理装置1可以包括:第一获取模块110、第二获取模块120、第一确定模块130以及第二确定模块140。
第一获取模块110,用于获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段;
第二获取模块120,用于获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段;
第一确定模块130,用于根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息;
第二确定模块140,用于根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
其中,第一获取模块110、第二获取模块120、第一确定模块130以及第二确定模块140的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图11,图11是本申请实施例提供的一种数据处理装置的结构示意图二。上述数据处理装置2可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,该数据处理装置2可以包括:第一获取模块11、第二获取模块12、第一确定模块13以及第二确定模块14。
需要说明的是,图11中的第一获取模块11具有图10中的第一获取模块110的全部或部分功能,图11中的第二获取模块12具有图10中的第二获取模块120的全部或部分功能,图11中的第一确定模块13具有图10中的第一确定模块130的全部或部分功能,图11中的第二确定模块14具有图10中的第二确定模块140的全部或部分功能。
再请参见图11,第一获取模块11可以包括:第一处理单元111、第一获取单元112、第二处理单元113、第一确定单元114、第一生成单元115以及第二确定单元116。
第一处理单元111,用于获取视频,根据时间窗口对视频进行切分处理,得到视频对应的至少两个视频片段;至少两个视频片段包括视频片段Ab,b为正整数,且b小于或等于至少两个视频片段对应的总数量;
第一获取单元112,用于从视频片段Ab中获取K个视频帧,以及K个视频帧分别对应的音频帧;K为正整数;
第二处理单元113,用于对视频片段Ab进行音频识别处理,得到音频识别文本,提取视频片段Ab中的视频描述文本以及对象评论文本;
第一确定单元114,用于将音频识别文本、视频描述文本以及对象评论文本,确定为视频片段Ab对应的内容文本Eb
第一生成单元115,用于根据K个视频帧、K个音频帧以及内容文本Eb,生成视频片段Ab对应的多媒体融合特征;
第二确定单元116,用于根据至少两个视频片段分别对应的多媒体融合特征,确定至少两个视频片段分别对应的片段共享质量。
其中,第一处理单元111、第一获取单元112、第二处理单元113、第一确定单元114、第一生成单元115以及第二确定单元116的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图11,第一生成单元115可以包括:第一获取子单元1151、第一输入子单元1152、第二输入子单元1153、第三输入子单元1154以及第四输入子单元1155。
第一获取子单元1151,用于获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括视频融合网络层、音频融合网络层、文本融合网络层以及多媒体融合网络层;
第一输入子单元1152,用于将K个视频帧分别输入至视频融合网络层,通过视频融合网络层,对K个视频帧分别进行特征提取,得到K个视频帧分别对应的待融合视频特征,对K个待融合视频特征进行特征融合,得到视频片段Ab对应的视频特征;
第二输入子单元1153,用于将K个音频帧分别输入至音频融合网络层,通过音频融合网络层,对K个音频帧分别进行特征提取,得到K个音频帧分别对应的待融合音频特征,对K个待融合音频特征进行特征融合,得到视频片段Ab对应的音频特征;
第三输入子单元1154,用于将内容文本Eb输入至文本融合网络层,通过文本融合网络层,提取内容文本Eb中的关键文本,对关键文本进行特征提取,得到关键文本对应的文本特征;
第四输入子单元1155,用于将视频特征、音频特征以及文本特征分别输入至多媒体融合网络层,通过多媒体融合网络层,对视频特征、音频特征以及文本特征进行特征融合,得到视频片段Ab对应的多媒体融合特征。
其中,第一获取子单元1151、第一输入子单元1152、第二输入子单元1153、第三输入子单元1154以及第四输入子单元1155的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图11,第二确定单元116可以包括:第二获取子单元1161以及第五输入子单元1162。
第二获取子单元1161,用于获取视频识别模型;视频识别模型包括第一视频识别子模型;第一视频识别子模型包括第一全连接网络层;
第五输入子单元1162,用于将视频片段Ab对应的多媒体融合特征输入至第一全连接网络层,通过第一全连接网络层,对视频片段Ab对应的多媒体融合特征进行特征变换,得到视频片段Ab对应的片段共享质量;
则第一获取模块11可以包括:第一对比单元117以及第三确定单元118。
第一对比单元117,用于将至少两个视频片段分别对应的片段共享质量分别与片段共享质量阈值进行对比;
第三确定单元118,用于在至少两个视频片段中,将等于或大于片段共享质量阈值的片段共享质量对应的视频片段,确定为候选视频片段。
其中,第二获取子单元1161、第五输入子单元1162、第一对比单元117以及第三确定单元118的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图11,第二获取模块12可以包括:第二获取单元121、第二生成单元122、第三获取单元123、文本编码单元124以及第四确定单元125。
第二获取单元121,用于获取与视频相关联的浏览对象的对象标签文本,获取与浏览对象相关联的共享对象的对象标签文本;
第二生成单元122,用于根据浏览对象的对象标签文本以及共享对象的对象标签文本,生成对象标签文本序列;
第三获取单元123,用于获取视频识别模型,将对象标签文本序列以及候选视频片段分别输入至视频识别模型;视频识别模型包括第二视频识别子模型;第二视频识别子模型包括第一文本编码网络层;
文本编码单元124,用于通过第一文本编码网络层,对对象标签文本序列中的每个对象标签文本进行文本编码,得到对象标签文本序列对应的第一对象标签特征;
第四确定单元125,用于获取候选视频片段对应的多媒体融合特征,根据第一对象标签特征以及候选视频片段对应的多媒体融合特征,确定候选视频片段对应的对象共享质量。
其中,第二获取单元121、第二生成单元122、第三获取单元123、文本编码单元124以及第四确定单元125的具体功能实现方式可以参见上述图3对应实施例中的步骤S102,这里不再进行赘述。
再请参见图11,第二视频识别子模型还包括第一拼接网络层以及第二全连接网络层;
第四确定单元125可以包括:第六输入子单元1251以及第七输入子单元1252。
第六输入子单元1251,用于将第一对象标签特征以及候选视频片段对应的多媒体融合特征分别输入至第一拼接网络层;
第六输入子单元1251,还用于通过第一拼接网络层,对第一对象标签特征以及候选视频片段对应的多媒体融合特征进行特征拼接,得到候选视频片段对应的第一多媒体拼接特征;
第七输入子单元1252,用于将第一多媒体拼接特征输入至第二全连接网络层,通过第二全连接网络层,对第一多媒体拼接特征进行特征变换,得到候选视频片段对应的对象共享质量;
其中,候选视频片段的数量为至少两个;
则第二获取模块12可以包括:第二对比单元126以及第五确定单元127。
第二对比单元126,用于将至少两个候选视频片段分别对应的对象共享质量与对象共享质量阈值进行对比;
第五确定单元127,用于在至少两个候选视频片段中,将大于对象共享质量阈值的对象共享质量对应的候选视频片段,确定为候选共享视频片段。
其中,第六输入子单元1251、第七输入子单元1252、第二对比单元126以及第五确定单元127的具体功能实现方式可以参见上述图3对应实施例中的步骤S102,这里不再进行赘述。
再请参见图11,候选共享视频片段对应的辅助共享质量包括候选共享视频片段对应的图像共享质量,以及候选共享视频片段对应的文本共享质量;候选共享视频片段对应的辅助描述信息包括候选共享视频片段对应的辅助图像,以及候选共享视频片段对应的辅助文本;
第一确定模块13可以包括:第四获取单元131、第六确定单元132以及第七确定单元133。
第四获取单元131,用于获取候选共享视频片段中的至少两个视频帧分别对应的共享图像特征;
第六确定单元132,用于根据至少两个共享图像特征、候选共享视频片段、对象标签文本序列,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像;候选共享视频片段对应的辅助图像属于至少两个视频帧;
第七确定单元133,用于根据对象标签文本序列以及候选共享视频片段对应的内容文本,确定候选共享视频片段对应的文本共享质量,以及候选共享视频片段对应的辅助文本。
其中,第四获取单元131、第六确定单元132以及第七确定单元133的具体功能实现方式可以参见上述图6对应实施例中的步骤S203-步骤S206,这里不再进行赘述。
再请参见图11,第四获取单元131可以包括:图像采样子单元1311以及第三获取子单元1312。
图像采样子单元1311,用于根据图像采样周期,对候选共享视频片段进行图像采样,得到候选共享视频片段中的至少两个视频帧;
第三获取子单元1312,用于获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括图像识别网络层;
第三获取子单元1312,还用于将至少两个视频帧分别输入至图像识别网络层,通过图像识别网络层,对至少两个视频帧分别进行特征提取,得到至少两个视频帧分别对应的共享图像特征。
其中,图像采样子单元1311以及第三获取子单元1312的具体功能实现方式可以参见上述图6对应实施例中的步骤S203,这里不再进行赘述。
再请参见图11,至少两个视频帧包括视频帧Fg,至少两个共享图像特征包括视频帧Fg对应的共享图像特征;g为正整数,且g小于或等于至少两个视频帧对应的总数量;
第六确定单元132可以包括:第四获取子单元1321、第八输入子单元1322以及第一确定子单元1323。
第四获取子单元1321,用于获取候选共享视频片段对应的多媒体融合特征,获取对象标签文本序列对应的第二对象标签特征;
第四获取子单元1321,还用于获取视频识别模型;视频识别模型包括第三视频识别子模型;第三视频识别子模型包括第二拼接网络层;
第八输入子单元1322,用于将视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征分别输入至第二拼接网络层;
第八输入子单元1322,还用于通过第二拼接网络层,对视频帧Fg对应的共享图像特征、候选共享视频片段对应的多媒体融合特征以及第二对象标签特征进行特征拼接,得到视频帧Fg对应的第二多媒体拼接特征;
第一确定子单元1323,用于根据至少两个视频帧分别对应的第二多媒体拼接特征,确定候选共享视频片段对应的图像共享质量,根据候选共享视频片段对应的图像共享质量,确定候选共享视频片段对应的辅助图像。
其中,第四获取子单元1321、第八输入子单元1322以及第一确定子单元1323的具体功能实现方式可以参见上述图6对应实施例中的步骤S204,这里不再进行赘述。
再请参见图11,第三视频识别子模型还包括第三全连接网络层;
第一确定子单元1323,具体用于将视频帧Fg对应的第二多媒体拼接特征输入至第三全连接网络层,通过第三全连接网络层,对视频帧Fg对应的第二多媒体拼接特征进行特征变换,得到视频帧Fg对应的图像共享质量;
第一确定子单元1323,还具体用于从至少两个视频帧分别对应的图像共享质量中,获取最大的图像共享质量,将最大的图像共享质量确定为候选共享视频片段对应的图像共享质量;
第一确定子单元1323,还具体用于在至少两个视频帧中,将最大的图像共享质量对应的视频帧确定为候选共享视频片段对应的辅助图像。
其中,第一确定子单元1323的具体功能实现方式可以参见上述图6对应实施例中的步骤S204,这里不再进行赘述。
再请参见图11,辅助文本是由N个共享词所组成的;
第七确定单元133可以包括:第五获取子单元1331、第一编码子单元1332、第二编码子单元1333、第九输入子单元1334、第二确定子单元1335、第一生成子单元1336以及第二生成子单元1337。
第五获取子单元1331,用于获取视频识别模型;视频识别模型包括第四视频识别子模型;第四识别视频子模型包括第二文本编码网络层、第三文本编码网络层、注意力网络层以及文本解码网络层;
第一编码子单元1332,用于将候选共享视频片段对应的内容文本输入至第二文本编码网络层,通过第二文本编码网络层,对候选共享视频片段对应的内容文本进行文本编码,得到内容文本特征;
第二编码子单元1333,用于将对象标签文本序列输入至第三文本编码网络层,通过第三文本编码网络层,对对象标签文本序列进行文本编码,得到第三对象标签特征;
第九输入子单元1334,用于将内容文本特征、候选共享视频片段对应的待解码文本特征Si以及第三对象标签特征分别输入至注意力网络层,通过注意力网络层,对内容文本特征、待解码文本特征Si以及第三对象标签特征进行特征融合,得到内容文本特征对应的注意力权重;i为小于N的非负整数;
第二确定子单元1335,用于根据内容文本特征对应的注意力权重,确定候选共享视频片段对应的待解码文本特征Si+1;待解码文本特征Si所指示的共享词为待解码文本特征Si+1所指示的共享词的上一个共享词;
第一生成子单元1336,用于当i+1等于N时,将N个待解码文本特征分别输入至文本解码网络层,通过文本解码网络层,生成N个待解码文本特征分别指示的共享词,将N个共享词组成为候选共享视频片段对应的辅助文本;
第二生成子单元1337,用于根据N个待解码文本特征,生成候选共享视频片段对应的文本共享质量。
其中,第五获取子单元1331、第一编码子单元1332、第二编码子单元1333、第九输入子单元1334、第二确定子单元1335、第一生成子单元1336以及第二生成子单元1337的具体功能实现方式可以参见上述图6对应实施例中的步骤S205,这里不再进行赘述。
再请参见图11,候选共享视频片段的数量为至少两个,至少两个候选共享视频片段包括候选共享视频片段Jm,m为正整数,且m小于或等于至少两个候选共享视频片段的数量;
第二确定模块14可以包括:质量求和单元141、第五获取单元142、第八确定单元143以及第六获取单元144。
质量求和单元141,用于对候选共享视频片段Jm对应的片段共享质量、候选共享视频片段Jm对应的对象共享质量,以及候选共享视频片段Jm对应的辅助共享质量进行加权求和,得到候选共享视频片段Jm对应的总共享质量;
第五获取单元142,用于从至少两个候选共享视频片段分别对应的总共享质量中,获取最大的总共享质量;
第八确定单元143,用于在至少两个候选共享视频片段中,将最大的总共享质量对应的候选共享视频片段确定为共享视频片段;
第六获取单元144,用于在至少两个候选共享视频片段分别对应的辅助描述信息中,获取共享视频片段对应的辅助描述信息。
其中,质量求和单元141、第五获取单元142、第八确定单元143以及第六获取单元144的具体功能实现方式可以参见上述图3对应实施例中的步骤S104,这里不再进行赘述。
本申请中的共享数据是基于不同维度的共享质量所确定的,不仅与共享视频片段自身的视频内容相关联,还与对象标签文本序列相关联,故通过共享数据,可以提高视频的共享效率以及共享效果。
进一步地,请参见图12,图12是本申请实施例提供的一种数据处理装置的结构示意图三。上述数据处理装置3可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,该数据处理装置3可以包括:第一获取模块210、第一确定模块220、第二确定模块230以及参数调整模块240。
第一获取模块210,用于获取训练样本集;训练样本集包括样本视频、与样本视频相关联的浏览样本对象的对象标签样本文本序列、样本视频对应的视频质量标签、样本视频对应的对象质量标签,以及样本视频对应的辅助质量标签;
第一确定模块220,用于将训练样本集输入至视频识别初始模型,通过视频识别初始模型,确定样本视频对应的视频预测质量;
第二确定模块230,用于根据对象标签样本文本序列以及样本视频,确定样本视频对应的对象预测质量以及样本视频对应的辅助预测质量;
参数调整模块240,用于根据视频质量标签、对象质量标签、辅助质量标签、视频预测质量、对象预测质量以及辅助预测质量,对视频识别初始模型中的参数进行调整,得到视频识别模型;视频识别模型用于确定视频的共享数据;共享数据包括视频中的共享视频片段以及共享视频片段对应的辅助描述信息。
其中,第一获取模块210、第一确定模块220、第二确定模块230以及参数调整模块240的具体功能实现方式可以参见上述图9对应实施例中的步骤S301-步骤S304,这里不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图13 ,图13是本申请实施例提供的一种数据处理装置的结构示意图四。上述数据处理装置4可以用于执行本申请实施例提供的方法中的相应步骤。如图13所示,该数据处理装置4可以包括:第一获取模块21、第一确定模块22、第二确定模块23以及参数调整模块24。
需要说明的是,图13中的第一获取模块21具有图12中的第一获取模块210的全部或部分功能,图13中的第一确定模块22具有图12中的第一确定模块220的全部或部分功能,图13中的第二确定模块23具有图12中的第二确定模块230的全部或部分功能,图13中的参数调整模块24具有图12中的参数调整模块240的全部或部分功能。
请再参见图13,样本视频的数量为至少两个,至少两个样本视频包括样本视频Po,o为正整数且o小于或等于至少两个样本视频的数量;
数据处理装置4还可以包括:第一运算模块25、第二运算模块26、第二获取模块27、第三确定模块28、比例求和模块29、第一对比模块30以及第四确定模块31。
第一运算模块25,用于对样本视频Po对应的播放次数、样本视频Po对应的时长以及样本视频Po对应的平均播放完成度进行乘积运算,得到样本视频Po对应的第一样本参数;
第二运算模块26,用于对样本视频Po对应的对象评论文本数量以及样本视频Po对应的对象评论文本互动数量进行求和运算,得到样本视频Po对应的第二样本参数;
第二获取模块27,用于在至少两个样本视频分别对应的第一样本参数中,获取最大的第一样本参数,在至少两个样本视频分别对应的第二样本参数中,获取最大的第二样本参数;
第三确定模块28,用于确定样本视频Po对应的第一样本参数以及最大的第一样本参数之间的第一比例,确定样本视频Po对应的第二样本参数以及最大的第二样本参数之间的第二比例;
比例求和模块29,用于对第一比例以及第二比例进行加权求和,得到样本视频Po对应的候选视频质量标签;
第一对比模块30,用于将样本视频Po对应的候选视频质量标签与视频质量标签阈值进行对比;
第四确定模块31,用于若样本视频Po对应的候选视频质量标签小于视频质量标签阈值,则将样本视频Po对应的候选视频质量标签确定为样本视频Po对应的视频质量标签;
第四确定模块31,还用于若样本视频Po对应的候选视频质量标签等于或大于视频质量标签阈值,则将视频质量标签阈值确定为样本视频Po对应的视频质量标签。
其中,第一运算模块25、第二运算模块26、第二获取模块27、第三确定模块28、比例求和模块29、第一对比模块30以及第四确定模块31的具体功能实现方式可以参见上述图9对应实施例中的步骤S301,这里不再进行赘述。
再请参见图13,数据处理装置4还可以包括:第二对比模块32以及第五确定模块33。
第二对比模块32,用于获取浏览样本对象针对样本视频的第一播放完成度,将第一播放完成度与第一播放完成度阈值进行对比;
第五确定模块33,用于若第一播放完成度大于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一正向关联关系,将第一正向关联关系确定为对象质量标签;
第五确定模块33,还用于若第一播放完成度小于或等于第一播放完成度阈值,则确定对象标签样本文本以及样本视频之间存在第一反向关联关系,将第一反向关联关系确定为对象质量标签。
其中,第二对比模块32以及第五确定模块33的具体功能实现方式可以参见上述图9对应实施例中的步骤S301,这里不再进行赘述。
再请参见图13,训练样本集还包括样本视频对应的样本辅助图像;辅助质量标签包括辅助图像质量标签;
数据处理装置4还可以包括:第三对比模块34以及第六确定模块35。
第三对比模块34,用于获取浏览样本对象针对样本视频的第二播放完成度,将第二播放完成度与第二播放完成度阈值进行对比;
第六确定模块35,用于若第二播放完成度大于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二正向关联关系,将第二正向关联关系确定为辅助图像质量标签;
第六确定模块35,还用于若第二播放完成度小于或等于第二播放完成度阈值,则确定样本辅助图像、对象标签样本文本以及样本视频之间存在第二反向关联关系,将第二反向关联关系确定为辅助图像质量标签。
其中,第三对比模块34以及第六确定模块35的具体功能实现方式可以参见上述图9对应实施例中的步骤S301,这里不再进行赘述。
再请参见图13,辅助质量标签包括辅助文本质量标签;
数据处理装置4还可以包括:第三获取模块36、第四获取模块37以及第七确定模块38。
第三获取模块36,用于获取浏览样本对象针对样本视频的第三播放完成度;
第四获取模块37,用于若第三播放完成度大于第三播放完成度阈值,则获取样本视频对应的样本内容文本,将样本内容文本添加至训练样本集;
第七确定模块38,用于确定对象标签样本文本序列以及样本内容文本之间存在第三正向关联关系,将第三正向关联关系确定为辅助文本质量标签。
其中,第三获取模块36、第四获取模块37以及第七确定模块38的具体功能实现方式可以参见上述图9对应实施例中的步骤S301,这里不再进行赘述。
再请参见图13,视频识别初始模型包括用于确定视频预测质量的第一视频识别初始子模型、用于确定对象预测质量的第二视频识别初始子模型,以及用于确定辅助预测质量的辅助视频识别初始子模型;视频识别初始模型中的参数包括第一视频识别初始子模型中的参数、第二视频识别初始子模型中的参数,以及辅助视频识别初始子模型中的参数;
参数调整模块24可以包括:第一调整单元241、第二调整单元242、第三调整单元243以及模型生成单元244。
第一调整单元241,用于确定视频质量标签以及视频预测质量之间的视频质量损失值,根据视频质量损失值,对第一视频识别初始子模型中的参数进行调整,得到第一视频识别子模型;
第二调整单元242,用于确定对象质量标签以及对象预测质量之间的对象质量损失值,根据对象质量损失值,对第二视频识别初始子模型中的参数进行调整,得到第二视频识别子模型;
第三调整单元243,用于确定辅助质量标签以及辅助预测质量之间的辅助质量损失值,根据辅助质量损失值,对辅助视频识别初始子模型中的参数进行调整,得到辅助视频识别子模型;
模型生成单元244,用于当第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型均满足模型收敛条件时,生成包含第一视频生成子模型、第二视频识别子模型以及辅助视频识别子模型的视频识别模型。
其中,第一调整单元241、第二调整单元242、第三调整单元243以及模型生成单元244的具体功能实现方式可以参见上述图9对应实施例中的步骤S304,这里不再进行赘述。
本申请实施例通过第一训练样本集对第一视频识别初始子模型进行深度建模,以使第一视频识别子模型可以在多个视频片段中确定具备高共享价值的候选视频片段,通过第二训练样本集对第二视频识别初始子模型进行深度建模,以使第二视频识别子模型可以在候选视频片段中确定具备高共享价值的候选共享视频片段,通过辅助训练样本集对辅助视频识别初始子模型进行深度建模,以使辅助视频识别子模型可以确定候选共享视频片段对应的辅助共享质量以及辅助描述信息,进而可以通过不同维度的共享质量,确定共享视频片段以及其对应的辅助描述信息,进而可以生成共享数据,由于共享数据不仅与共享视频片段自身的视频内容相关联,还与对象标签文本序列相关联,故通过共享数据,可以提高视频的共享效率以及共享效果。
进一步地,请参见图14,图14是本申请实施例提供的一种计算机设备的结构示意图。如图14所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,在一些实施例中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图14所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图14所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取视频中的至少两个视频片段,确定至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从至少两个视频片段中确定候选视频片段;
获取与视频相关联的对象标签文本序列,根据对象标签文本序列以及候选视频片段,确定候选视频片段对应的对象共享质量,根据候选视频片段对应的对象共享质量,从候选视频片段中确定候选共享视频片段;
根据对象标签文本序列以及候选共享视频片段,确定候选共享视频片段对应的辅助共享质量,根据候选共享视频片段对应的辅助共享质量,确定候选共享视频片段对应的辅助描述信息;
根据候选共享视频片段对应的片段共享质量、候选共享视频片段对应的对象共享质量,以及候选共享视频片段对应的辅助共享质量,从候选共享视频片段中确定共享视频片段,将共享视频片段以及共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备可执行前文各实施例中对数据处理方法或装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (20)

1.一种数据处理方法,其特征在于,包括:
获取视频中的至少两个视频片段,确定所述至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从所述至少两个视频片段中确定候选视频片段;
获取与所述视频相关联的对象标签文本序列,根据所述对象标签文本序列以及所述候选视频片段,确定所述候选视频片段对应的对象共享质量,根据所述候选视频片段对应的对象共享质量,从所述候选视频片段中确定候选共享视频片段;
根据所述对象标签文本序列以及所述候选共享视频片段,确定所述候选共享视频片段对应的辅助共享质量,根据所述候选共享视频片段对应的辅助共享质量,确定所述候选共享视频片段对应的辅助描述信息;
根据所述候选共享视频片段对应的片段共享质量、所述候选共享视频片段对应的对象共享质量,以及所述候选共享视频片段对应的辅助共享质量,从所述候选共享视频片段中确定共享视频片段,将所述共享视频片段以及所述共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
2.根据权利要求1所述的方法,其特征在于,所述获取视频中的至少两个视频片段,确定所述至少两个视频片段分别对应的片段共享质量,包括:
获取视频,根据时间窗口对所述视频进行切分处理,得到所述视频对应的至少两个视频片段;所述至少两个视频片段包括视频片段Ab,b为正整数,且b小于或等于所述至少两个视频片段对应的总数量;
从所述视频片段Ab中获取K个视频帧,以及所述K个视频帧分别对应的音频帧;K为正整数;
对所述视频片段Ab进行音频识别处理,得到音频识别文本,提取所述视频片段Ab中的视频描述文本以及对象评论文本;
将所述音频识别文本、所述视频描述文本以及所述对象评论文本,确定为所述视频片段Ab对应的内容文本Eb
根据所述K个视频帧、K个音频帧以及所述内容文本Eb,生成所述视频片段Ab对应的多媒体融合特征;
根据所述至少两个视频片段分别对应的多媒体融合特征,确定所述至少两个视频片段分别对应的片段共享质量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述K个视频帧、K个音频帧以及所述内容文本Eb,生成所述视频片段Ab对应的多媒体融合特征,包括:
获取视频识别模型;所述视频识别模型包括第一视频识别子模型;所述第一视频识别子模型包括视频融合网络层、音频融合网络层、文本融合网络层以及多媒体融合网络层;
将所述K个视频帧分别输入至所述视频融合网络层,通过所述视频融合网络层,对所述K个视频帧分别进行特征提取,得到所述K个视频帧分别对应的待融合视频特征,对K个待融合视频特征进行特征融合,得到所述视频片段Ab对应的视频特征;
将所述K个音频帧分别输入至所述音频融合网络层,通过所述音频融合网络层,对所述K个音频帧分别进行特征提取,得到所述K个音频帧分别对应的待融合音频特征,对K个待融合音频特征进行特征融合,得到所述视频片段Ab对应的音频特征;
将所述内容文本Eb输入至所述文本融合网络层,通过所述文本融合网络层,提取所述内容文本Eb中的关键文本,对所述关键文本进行特征提取,得到所述关键文本对应的文本特征;
将所述视频特征、所述音频特征以及所述文本特征分别输入至所述多媒体融合网络层,通过所述多媒体融合网络层,对所述视频特征、所述音频特征以及所述文本特征进行特征融合,得到所述视频片段Ab对应的多媒体融合特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述至少两个视频片段分别对应的多媒体融合特征,确定所述至少两个视频片段分别对应的片段共享质量,包括:
获取视频识别模型;所述视频识别模型包括第一视频识别子模型;所述第一视频识别子模型包括第一全连接网络层;
将所述视频片段Ab对应的多媒体融合特征输入至所述第一全连接网络层,通过所述第一全连接网络层,对所述视频片段Ab对应的多媒体融合特征进行特征变换,得到所述视频片段Ab对应的片段共享质量;
则所述根据至少两个片段共享质量,从所述至少两个视频片段中确定候选视频片段,包括:
将所述至少两个视频片段分别对应的片段共享质量分别与片段共享质量阈值进行对比;
在所述至少两个视频片段中,将等于或大于所述片段共享质量阈值的片段共享质量对应的视频片段,确定为候选视频片段。
5.根据权利要求1所述的方法,其特征在于,所述获取与所述视频相关联的对象标签文本序列,根据所述对象标签文本序列以及所述候选视频片段,确定所述候选视频片段对应的对象共享质量,包括:
获取与所述视频相关联的浏览对象的对象标签文本,获取与所述浏览对象相关联的所述共享对象的对象标签文本;
根据所述浏览对象的对象标签文本以及所述共享对象的对象标签文本,生成对象标签文本序列;
获取视频识别模型,将所述对象标签文本序列以及所述候选视频片段分别输入至所述视频识别模型;所述视频识别模型包括第二视频识别子模型;所述第二视频识别子模型包括第一文本编码网络层;
通过所述第一文本编码网络层,对所述对象标签文本序列中的每个对象标签文本进行文本编码,得到所述对象标签文本序列对应的第一对象标签特征;
获取所述候选视频片段对应的多媒体融合特征,根据所述第一对象标签特征以及所述候选视频片段对应的多媒体融合特征,确定所述候选视频片段对应的对象共享质量。
6.根据权利要求5所述的方法,其特征在于,所述第二视频识别子模型还包括第一拼接网络层以及第二全连接网络层;
所述根据所述第一对象标签特征以及所述候选视频片段对应的多媒体融合特征,确定所述候选视频片段对应的对象共享质量,包括:
将所述第一对象标签特征以及所述候选视频片段对应的多媒体融合特征分别输入至所述第一拼接网络层;
通过所述第一拼接网络层,对所述第一对象标签特征以及所述候选视频片段对应的多媒体融合特征进行特征拼接,得到所述候选视频片段对应的第一多媒体拼接特征;
将所述第一多媒体拼接特征输入至所述第二全连接网络层,通过所述第二全连接网络层,对所述第一多媒体拼接特征进行特征变换,得到所述候选视频片段对应的对象共享质量;
其中,所述候选视频片段的数量为至少两个;
则所述根据所述候选视频片段对应的对象共享质量,从所述候选视频片段中确定候选共享视频片段,包括:
将至少两个候选视频片段分别对应的对象共享质量与对象共享质量阈值进行对比;
在所述至少两个候选视频片段中,将大于所述对象共享质量阈值的对象共享质量对应的候选视频片段,确定为候选共享视频片段。
7.根据权利要求1所述的方法,其特征在于,所述候选共享视频片段对应的辅助共享质量包括所述候选共享视频片段对应的图像共享质量,以及所述候选共享视频片段对应的文本共享质量;所述候选共享视频片段对应的辅助描述信息包括所述候选共享视频片段对应的辅助图像,以及所述候选共享视频片段对应的辅助文本;
所述根据所述对象标签文本序列以及所述候选共享视频片段,确定所述候选共享视频片段对应的辅助共享质量,根据所述候选共享视频片段对应的辅助共享质量,确定所述候选共享视频片段对应的辅助描述信息,包括:
获取所述候选共享视频片段中的至少两个视频帧分别对应的共享图像特征,根据至少两个共享图像特征、所述候选共享视频片段、所述对象标签文本序列,确定所述候选共享视频片段对应的图像共享质量,根据所述候选共享视频片段对应的图像共享质量,确定所述候选共享视频片段对应的辅助图像;所述候选共享视频片段对应的辅助图像属于所述至少两个视频帧;
根据所述对象标签文本序列以及所述候选共享视频片段对应的内容文本,确定所述候选共享视频片段对应的文本共享质量,以及所述候选共享视频片段对应的辅助文本。
8.根据权利要求7所述的方法,其特征在于,所述获取所述候选共享视频片段中的至少两个视频帧分别对应的共享图像特征,根据至少两个共享图像特征、所述候选共享视频片段、所述对象标签文本序列,确定所述候选共享视频片段对应的图像共享质量,根据所述候选共享视频片段对应的图像共享质量,确定所述候选共享视频片段对应的辅助图像,包括:
根据图像采样周期,对所述候选共享视频片段进行图像采样,得到所述候选共享视频片段中的至少两个视频帧;
获取视频识别模型;所述视频识别模型包括第三视频识别子模型;所述第三视频识别子模型包括图像识别网络层以及第二拼接网络层;
将所述至少两个视频帧分别输入至所述图像识别网络层,通过所述图像识别网络层,对所述至少两个视频帧分别进行特征提取,得到所述至少两个视频帧分别对应的共享图像特征;所述至少两个视频帧包括视频帧Fg,至少两个共享图像特征包括所述视频帧Fg对应的共享图像特征;g为正整数,且g小于或等于所述至少两个视频帧对应的总数量;
获取所述候选共享视频片段对应的多媒体融合特征,获取所述对象标签文本序列对应的第二对象标签特征;
将所述视频帧Fg对应的共享图像特征、所述候选共享视频片段对应的多媒体融合特征以及所述第二对象标签特征分别输入至所述第二拼接网络层;
通过所述第二拼接网络层,对所述视频帧Fg对应的共享图像特征、所述候选共享视频片段对应的多媒体融合特征以及所述第二对象标签特征进行特征拼接,得到所述视频帧Fg对应的第二多媒体拼接特征;
根据所述至少两个视频帧分别对应的第二多媒体拼接特征,确定所述候选共享视频片段对应的图像共享质量,根据所述候选共享视频片段对应的图像共享质量,确定所述候选共享视频片段对应的辅助图像。
9.根据权利要求7所述的方法,其特征在于,所述辅助文本是由N个共享词所组成的;
所述根据所述对象标签文本序列以及所述候选共享视频片段对应的内容文本,确定所述候选共享视频片段对应的文本共享质量,以及所述候选共享视频片段对应的辅助文本,包括:
获取视频识别模型;所述视频识别模型包括第四视频识别子模型;所述第四视频识别子模型包括第二文本编码网络层、第三文本编码网络层、注意力网络层以及文本解码网络层;
将所述候选共享视频片段对应的内容文本输入至所述第二文本编码网络层,通过所述第二文本编码网络层,对所述候选共享视频片段对应的内容文本进行文本编码,得到内容文本特征;
将所述对象标签文本序列输入至所述第三文本编码网络层,通过所述第三文本编码网络层,对所述对象标签文本序列进行文本编码,得到第三对象标签特征;
将所述内容文本特征、所述候选共享视频片段对应的待解码文本特征Si以及所述第三对象标签特征分别输入至所述注意力网络层,通过所述注意力网络层,对所述内容文本特征、所述待解码文本特征Si以及所述第三对象标签特征进行特征融合,得到所述内容文本特征对应的注意力权重;i为小于N的非负整数;
根据所述内容文本特征对应的注意力权重,确定所述候选共享视频片段对应的待解码文本特征Si+1;所述待解码文本特征Si所指示的共享词为所述待解码文本特征Si+1所指示的共享词的上一个共享词;
当i+1等于N时,将N个待解码文本特征分别输入至所述文本解码网络层,通过所述文本解码网络层,生成所述N个待解码文本特征分别指示的共享词,将所述N个共享词组成为所述候选共享视频片段对应的辅助文本;
根据所述N个待解码文本特征,生成所述候选共享视频片段对应的文本共享质量。
10.根据权利要求1所述的方法,其特征在于,所述候选共享视频片段的数量为至少两个,至少两个候选共享视频片段包括候选共享视频片段Jm,m为正整数,且m小于或等于所述至少两个候选共享视频片段的数量;
所述根据所述候选共享视频片段对应的片段共享质量、所述候选共享视频片段对应的对象共享质量,以及所述候选共享视频片段对应的辅助共享质量,从所述候选共享视频片段中确定共享视频片段,包括:
对所述候选共享视频片段Jm对应的片段共享质量、所述候选共享视频片段Jm对应的对象共享质量,以及所述候选共享视频片段Jm对应的辅助共享质量进行加权求和,得到所述候选共享视频片段Jm对应的总共享质量;
从所述至少两个候选共享视频片段分别对应的总共享质量中,获取最大的总共享质量;
在所述至少两个候选共享视频片段中,将最大的总共享质量对应的候选共享视频片段确定为共享视频片段;
在所述至少两个候选共享视频片段分别对应的辅助描述信息中,获取所述共享视频片段对应的辅助描述信息。
11.一种数据处理方法,其特征在于,包括:
获取训练样本集;所述训练样本集包括样本视频、与所述样本视频相关联的浏览样本对象的对象标签样本文本序列、所述样本视频对应的视频质量标签、所述样本视频对应的对象质量标签,以及所述样本视频对应的辅助质量标签;
将所述训练样本集输入至视频识别初始模型,通过所述视频识别初始模型,确定所述样本视频对应的视频预测质量;
根据所述对象标签样本文本序列以及所述样本视频,确定所述样本视频对应的对象预测质量以及所述样本视频对应的辅助预测质量;
根据所述视频质量标签、所述对象质量标签、所述辅助质量标签、所述视频预测质量、所述对象预测质量以及所述辅助预测质量,对所述视频识别初始模型中的参数进行调整,得到视频识别模型;所述视频识别模型用于确定视频的共享数据;所述共享数据包括所述视频中的共享视频片段以及所述共享视频片段对应的辅助描述信息。
12.根据权利要求11所述的方法,其特征在于,所述样本视频的数量为至少两个,至少两个样本视频包括样本视频Po,o为正整数且o小于或等于所述至少两个样本视频的数量;
所述方法还包括:
对所述样本视频Po对应的播放次数、所述样本视频Po对应的时长以及所述样本视频Po对应的平均播放完成度进行乘积运算,得到所述样本视频Po对应的第一样本参数;
对所述样本视频Po对应的对象评论文本数量以及所述样本视频Po对应的对象评论文本互动数量进行求和运算,得到所述样本视频Po对应的第二样本参数;
在所述至少两个样本视频分别对应的第一样本参数中,获取最大的第一样本参数,在所述至少两个样本视频分别对应的第二样本参数中,获取最大的第二样本参数;
确定所述样本视频Po对应的第一样本参数以及所述最大的第一样本参数之间的第一比例,确定所述样本视频Po对应的第二样本参数以及所述最大的第二样本参数之间的第二比例;
对所述第一比例以及所述第二比例进行加权求和,得到所述样本视频Po对应的候选视频质量标签;
将所述样本视频Po对应的候选视频质量标签与视频质量标签阈值进行对比;
若所述样本视频Po对应的候选视频质量标签小于所述视频质量标签阈值,则将所述样本视频Po对应的候选视频质量标签确定为所述样本视频Po对应的视频质量标签;
若所述样本视频Po对应的候选视频质量标签等于或大于所述视频质量标签阈值,则将所述视频质量标签阈值确定为所述样本视频Po对应的视频质量标签。
13.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取所述浏览样本对象针对所述样本视频的第一播放完成度,将所述第一播放完成度与第一播放完成度阈值进行对比;
若所述第一播放完成度大于所述第一播放完成度阈值,则确定所述对象标签样本文本以及所述样本视频之间存在第一正向关联关系,将所述第一正向关联关系确定为所述对象质量标签;
若所述第一播放完成度小于或等于所述第一播放完成度阈值,则确定所述对象标签样本文本以及所述样本视频之间存在第一反向关联关系,将所述第一反向关联关系确定为所述对象质量标签。
14.根据权利要求11所述的方法,其特征在于,所述训练样本集还包括所述样本视频对应的样本辅助图像;所述辅助质量标签包括辅助图像质量标签;
所述方法还包括:
获取所述浏览样本对象针对所述样本视频的第二播放完成度,将所述第二播放完成度与第二播放完成度阈值进行对比;
若所述第二播放完成度大于所述第二播放完成度阈值,则确定所述样本辅助图像、所述对象标签样本文本以及所述样本视频之间存在第二正向关联关系,将所述第二正向关联关系确定为所述辅助图像质量标签;
若所述第二播放完成度小于或等于所述第二播放完成度阈值,则确定所述样本辅助图像、所述对象标签样本文本以及所述样本视频之间存在第二反向关联关系,将所述第二反向关联关系确定为所述辅助图像质量标签。
15.根据权利要求11所述的方法,其特征在于,所述辅助质量标签包括辅助文本质量标签;
所述方法还包括:
获取所述浏览样本对象针对所述样本视频的第三播放完成度;
若所述第三播放完成度大于第三播放完成度阈值,则获取所述样本视频对应的样本内容文本,将所述样本内容文本添加至训练样本集;
确定所述对象标签样本文本序列以及所述样本内容文本之间存在第三正向关联关系,将所述第三正向关联关系确定为所述辅助文本质量标签。
16.根据权利要求11所述的方法,其特征在于,所述视频识别初始模型包括用于确定所述视频预测质量的第一视频识别初始子模型、用于确定所述对象预测质量的第二视频识别初始子模型,以及用于确定所述辅助预测质量的辅助视频识别初始子模型;所述视频识别初始模型中的参数包括所述第一视频识别初始子模型中的参数、所述第二视频识别初始子模型中的参数,以及所述辅助视频识别初始子模型中的参数;
所述根据所述视频质量标签、所述对象质量标签、所述辅助质量标签、所述视频预测质量、所述对象预测质量以及所述辅助预测质量,对所述视频识别初始模型中的参数进行调整,得到视频识别模型,包括:
确定所述视频质量标签以及所述视频预测质量之间的视频质量损失值,根据所述视频质量损失值,对所述第一视频识别初始子模型中的参数进行调整,得到第一视频识别子模型;
确定所述对象质量标签以及所述对象预测质量之间的对象质量损失值,根据所述对象质量损失值,对所述第二视频识别初始子模型中的参数进行调整,得到第二视频识别子模型;
确定所述辅助质量标签以及所述辅助预测质量之间的辅助质量损失值,根据所述辅助质量损失值,对所述辅助视频识别初始子模型中的参数进行调整,得到辅助视频识别子模型;
当所述第一视频生成子模型、所述第二视频识别子模型以及所述辅助视频识别子模型均满足模型收敛条件时,生成包含所述第一视频生成子模型、所述第二视频识别子模型以及所述辅助视频识别子模型的视频识别模型。
17.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取视频中的至少两个视频片段,确定所述至少两个视频片段分别对应的片段共享质量,根据至少两个片段共享质量,从所述至少两个视频片段中确定候选视频片段;
第二获取模块,用于获取与所述视频相关联的对象标签文本序列,根据所述对象标签文本序列以及所述候选视频片段,确定所述候选视频片段对应的对象共享质量,根据所述候选视频片段对应的对象共享质量,从所述候选视频片段中确定候选共享视频片段;
第一确定模块,用于根据所述对象标签文本序列以及所述候选共享视频片段,确定所述候选共享视频片段对应的辅助共享质量,根据所述候选共享视频片段对应的辅助共享质量,确定所述候选共享视频片段对应的辅助描述信息;
第二确定模块,用于根据所述候选共享视频片段对应的片段共享质量、所述候选共享视频片段对应的对象共享质量,以及所述候选共享视频片段对应的辅助共享质量,从所述候选共享视频片段中确定共享视频片段,将所述共享视频片段以及所述共享视频片段对应的辅助描述信息,确定为用于发送至共享对象的共享数据。
18.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取训练样本集;所述训练样本集包括样本视频、与所述样本视频相关联的浏览样本对象的对象标签样本文本序列、所述样本视频对应的视频质量标签、所述样本视频对应的对象质量标签,以及所述样本视频对应的辅助质量标签;
第一确定模块,用于将所述训练样本集输入至视频识别初始模型,通过所述视频识别初始模型,确定所述样本视频对应的视频预测质量;
第二确定模块,用于根据所述对象标签样本文本序列以及所述样本视频,确定所述样本视频对应的对象预测质量,确定所述样本视频对应的辅助预测质量;
参数调整模块,用于根据所述视频质量标签、所述对象质量标签、所述辅助质量标签、所述视频预测质量、所述对象预测质量以及所述辅助预测质量,对所述视频识别初始模型中的参数进行调整,得到视频识别模型;所述视频识别模型用于确定视频的共享数据;所述共享数据包括所述视频中的共享视频片段以及所述共享视频片段对应的辅助描述信息。
19.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1至16任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-16任一项所述的方法。
CN202210336414.6A 2022-04-01 2022-04-01 一种数据处理方法、设备以及计算机可读存储介质 Active CN114419527B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210336414.6A CN114419527B (zh) 2022-04-01 2022-04-01 一种数据处理方法、设备以及计算机可读存储介质
PCT/CN2023/074763 WO2023185257A1 (zh) 2022-04-01 2023-02-07 数据处理方法、设备以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336414.6A CN114419527B (zh) 2022-04-01 2022-04-01 一种数据处理方法、设备以及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114419527A CN114419527A (zh) 2022-04-29
CN114419527B true CN114419527B (zh) 2022-06-14

Family

ID=81263299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336414.6A Active CN114419527B (zh) 2022-04-01 2022-04-01 一种数据处理方法、设备以及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN114419527B (zh)
WO (1) WO2023185257A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114419527B (zh) * 2022-04-01 2022-06-14 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质
CN116777914B (zh) * 2023-08-22 2023-11-07 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888988A (zh) * 2017-11-17 2018-04-06 广东小天才科技有限公司 一种视频剪辑方法及电子设备
CN110888854A (zh) * 2019-11-29 2020-03-17 维沃移动通信有限公司 内容分享方法及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8953452B2 (en) * 2013-05-16 2015-02-10 Cisco Technology, Inc. Enhancing performance of rapid channel changes and other playback positioning changes in adaptive streaming
US10509825B2 (en) * 2017-07-21 2019-12-17 Fuji Xerox Co., Ltd. Systems and methods for topic guidance in video content using sequence mining
CN109862397B (zh) * 2019-02-02 2021-11-09 广州虎牙信息科技有限公司 一种视频分析方法、装置、设备和存储介质
CN111581510B (zh) * 2020-05-07 2024-02-09 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111866607B (zh) * 2020-07-30 2022-03-11 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质
CN113515997B (zh) * 2020-12-28 2024-01-19 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置以及可读存储介质
CN113766299B (zh) * 2021-05-06 2024-04-19 腾讯科技(深圳)有限公司 一种视频数据播放方法、装置、设备以及介质
CN114419527B (zh) * 2022-04-01 2022-06-14 腾讯科技(深圳)有限公司 一种数据处理方法、设备以及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107888988A (zh) * 2017-11-17 2018-04-06 广东小天才科技有限公司 一种视频剪辑方法及电子设备
CN110888854A (zh) * 2019-11-29 2020-03-17 维沃移动通信有限公司 内容分享方法及电子设备

Also Published As

Publication number Publication date
WO2023185257A1 (zh) 2023-10-05
CN114419527A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN110781347B (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN114419527B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN113766299B (zh) 一种视频数据播放方法、装置、设备以及介质
CN109871736B (zh) 自然语言描述信息的生成方法及装置
CN116977457A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN117173497B (zh) 一种图像生成方法、装置、电子设备及存储介质
CN113590854B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN111063006A (zh) 基于图像的文学作品生成方法、装置、设备及存储介质
CN117474748A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN114567693B (zh) 视频生成方法、装置和电子设备
CN114419514B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN114529635A (zh) 一种图像生成方法、装置、存储介质及设备
CN115905605A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN113821677A (zh) 一种生成封面图像的方法、装置、设备及存储介质
CN113569585A (zh) 翻译方法和装置、存储介质及电子设备
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
WO2023207463A1 (zh) 投票信息生成方法、投票信息显示方法及装置
CN115424266A (zh) 表情符号预测方法、装置、设备及存储介质
CN118098203A (zh) 说话对象识别的方法、装置以及计算机可读存储介质
CN116974439A (zh) 一种数据处理方法、装置、设备以及计算机可读存储介质
CN118070807A (zh) 一种数据处理方法、装置、设备、存储介质及程序产品
CN116127081A (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40068121

Country of ref document: HK