CN112418011A - 视频内容的完整度识别方法、装置、设备及存储介质 - Google Patents

视频内容的完整度识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112418011A
CN112418011A CN202011237365.8A CN202011237365A CN112418011A CN 112418011 A CN112418011 A CN 112418011A CN 202011237365 A CN202011237365 A CN 202011237365A CN 112418011 A CN112418011 A CN 112418011A
Authority
CN
China
Prior art keywords
video
integrity
audio
content
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011237365.8A
Other languages
English (en)
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011237365.8A priority Critical patent/CN112418011A/zh
Publication of CN112418011A publication Critical patent/CN112418011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种视频内容的完整度识别方法、装置、设备及存储介质,涉及深度学习领域。通过人工智能技术构建出视频完整度识别模型,利用计算机设备实现识别视频完整度的功能。该方法包括:获取视频文件和视频文件的视频发布信息,视频发布信息表示在发布视频文件对应的视频内容时所提供的信息;从视频文件中分离出音频数据;从音频数据中提取音频特征,从视频发布信息中提取文本特征;将音频特征和文本特征进行拼接,得到拼接后的特征;对拼接后的特征进行识别,得到视频文件对应的视频内容的完整度。通过对视频文件对应的音频特征和文本特征拼接后的向量进行识别,综合多个维度的特征确定视频内容的完整度,使得视频完整度审核的准确率提高。

Description

视频内容的完整度识别方法、装置、设备及存储介质
技术领域
本申请涉及深度学习领域,特别涉及一种视频内容的完整度识别方法、装置、设备及存储介质。
背景技术
短视频是指视频时长在几秒至几分钟不等的视频,短视频通常在应用程序中以消息来源(Feeds)流的形式呈现在用户的面前。
短视频创作者将短视频上传至短视频平台,短视频平台对上传的短视频进行审核,审核通过的短视频根据相关的推荐算法推荐至用户对应的客户端。在一些情况下,短视频创作者为了提升收益,会发布大量类似或者重复的视频内容,这些视频内容很多是通过视频剪辑工具自动剪辑产生的,使得短视频的质量得不到保障。示意性的,在这些短视频中可能包含一些不完整的音频内容,如,短视频中的歌声戛然而止,短视频平台对此类短视频的审核结果为视频内容不完整,不允许视频发布在短视频平台上。
在上述情况中,以人工审核的方式,需要审核人员观看每个上传至短视频平台的短视频,审核过程耗时较长,审核效率较低。
发明内容
本申请实施例提供了一种视频内容的完整度识别方法、装置、设备及存储介质。通过对视频文件对应的音频特征和文本特征拼接后的向量进行识别,综合多个维度的特征确定视频内容的完整度,使得视频完整度审核的准确率提高。所述技术方案包括:
根据本申请的一方面,提供了一种视频内容的完整度识别方法,所述方法包括:
获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
从所述视频文件中分离出音频数据;
从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。
根据本申请的另一方面,提供了一种视频内容的完整度识别装置,所述装置包括:
获取模块,用于获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
处理模块,用于从所述视频文件中分离出音频数据;
特征提取模块,用于从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
所述处理模块,用于将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
识别模块,用于对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频内容的完整度识别方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频内容的完整度识别方法。
根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上方面所述的视频内容的完整度识别方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过将视频文件对应的音频特征和文本特征进行拼接,使得视频完整度识别模型能够从多个维度对视频内容进行识别,综合多个维度的特征确定视频内容的完整度,相比于人工审核的方式,提高了视频完整度的审核效率,同时通过对视频内容的完整度识别,计算机设备能够将完整的视频推荐给用户,使得用户能够收到高质量的视频内容。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机系统的框架图;
图2是本申请一个示例性实施例提供的视频内容的完整度识别的流程图;
图3是本申请一个示例性实施例提供的视频内容生产端和视频内容消费端的系统框架图;
图4是本申请另一个示例性实施例提供的视频内容的完整度识别的流程图;
图5是本申请一个示例性实施例提供的特征提取方法的流程框架图;
图6是本申请一个示例性实施例提供的含有人声的频谱图;
图7是本申请一个示例性实施例提供的视频完整度识别模型的训练方法的流程图;
图8是本申请一个示例性实施例提供的样本视频的标注示意图;
图9是本申请一个示例性实施例提供的视频完整度识别模型的输出层的结构示意图;
图10是本申请另一个示例性实施例提供的视频内容生产端和视频内容消费端的系统框架图;
图11是本申请一个示例性实施例提供的视频内容的完整度识别装置的结构示意图;
图12是本申请一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例涉及的名词进行介绍。
梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC):是指在声音处理领域中,基于声音频率的非线性梅尔刻度(Mel Scale)的对数能量频谱的线性变换。梅尔频率是基于人耳听觉特性提出的概念,梅尔频率与声音频率成非线性对应关系,梅尔频率倒谱系数则利用这一对应关系计算出声音的频谱特征。MFCC的过程一般包括:预加重、分帧、加窗、快速傅里叶变换(Fast Fourier Transform,FFT)、梅尔滤波器组和离散余弦变换(Discrete Cosine Transform,DCT)。
类视觉几何组网络模型(VGGish):是指基于油管(Youtube)的AudioSet数据集训练得到,类似于视觉几何组网络模型(Visual Geometry Group Network,VGG)的音频模型,AudioSet数据集是一个由200万人标记的10秒YouTube视频音轨组成的数据集,数据集中的标签来自600多个音频事件类的本体,用于为音频检测事件提供常见的大规模评估任务。VGGish模型可生成128维高层级(High-level)的嵌入特征向量,这128维高层级的嵌入特征向量可作为下游模型的输入。
基于转换模型的双向编码表示模型(Bidirectional Encoder Representationfrom Transformers,BERT):是指一种用于预训练语言表征的模型,在大量文本语料的基础上训练一个通用的“语言理解”模型,通过BERT模型执行自然语言处理(Natural LanguageProcessing,NLP)任务。
消息来源(Feeds,Web Feed,News Feed,Syndicated Feed):又被命名为源料,或馈送,或资讯提供,或供稿,或摘要,或源,或新闻订阅,或网源(英文:web feed、news feed、syndicated feed)是一种资料格式。信息发布平台将最新资讯传播给用户,通常以时间轴(Timeline)方式排列,时间轴是消息来源最原始、最直觉也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将Feeds汇流于一处称为聚合(Aggregation),而用于聚合的软体称为聚合器(Aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,通常包括简易信息聚合(RSS,Really Simple Syndication)阅读器、Feed阅读器、新闻阅读器等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的视频内容的完整度识别方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中,本申请实施例提供的视频内容的完整度识别方法可以应用于个人计算机、工作站或服务器中,即可以通过个人计算机、工作站或服务器检测视频内容的完整程度。示意性的,视频内容的完整度识别方法应用于应用程序的后台服务器中,以便安装有应用程序的终端借助后台服务器能够接收到视频内容完整的高质量短视频。
图1示出了本申请一个示例性实施例提供的计算机系统的示意图。该计算机系统100包括终端110和服务器120,其中,终端110与服务器120之间通过通信网络进行数据通信,可选地,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
终端110中安装和运行有应用程序,该应用程序是具有视频播放功能的应用程序。该应用程序可以是视频应用程序(包括短视频应用程序)、音乐应用程序、社交类应用程序、虚拟现实应用程序(Virtual Reality,VR)、增强现实应用程序(Augmented Reality,AR)、游戏应用程序、购物应用程序、支付应用程序、团购应用程序等。示意性的,终端110上安装有短视频应用程序,用户以Feeds流的形式浏览短视频,短视频是通过短视频创作者将短视频上传至短视频应用程序对应的后台服务器,后台服务器通过对短视频的音频信息进行识别,将具有完整音频信息的短视频推送至短视频应用程序中,使得用户能够在短视频应用程序中观看高质量的短视频。可以理解的是,短视频应用程序还具有调用终端110的摄像头组件录制视频(包括短视频)的功能。
可选的,终端110可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人等移动终端,也可以是台式电脑、投影式电脑等终端,本申请实施例对终端的类型不加以限定。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能的实施方式中,服务器120是终端110中应用程序的后台服务器。
如图1所示,在本实施例中,终端110中运行有支持视频录制和视频播放功能的短视频应用程序。可以理解的是,用户既能够录制短视频,也能够观看短视频,即用户既是短视频的生产者,又是短视频的消费者。以短视频的生产者和消费者不是同一用户为例进行说明,用户A是短视频的生产者,用户B是短视频的消费者,用户A将录制的短视频上传至短视频应用程序对应的服务器120中,服务器120根据获取到的短视频10,从短视频10中提取音频特征。音频特征包括利用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)从短视频10中提取的第一音频特征11,利用类视觉几何组网络(Visual GeometryGroup Network,VGGish)从短视频10中提取的第二音频特征12,以及从短视频中提取的文本特征13。
服务器120调用视频完整度识别模型14对第一音频特征11、第二音频特征12和视频文件对应的文本特征13进行处理,输出短视频对应的视频内容的完整度15,从而服务器120根据视频内容的完整度15确定向终端110推荐具有完整视频内容的短视频16。如图1所示,在终端110上显示有推荐的短视频,该短视频是关于汽车的短视频。
可以理解的是,上述实施例仅以终端中的短视频应用程序为例,在实际应用中,上述音频识别方法还可以应用于音乐应用程序对应的服务器中,本申请实施例对此不加以限定。
为了方便表述,下述各个实施例以视频内容的完整度识别方法由应用程序对应的服务器执行为例进行说明。
图2示出了本申请一个示例性实施例提供的视频内容的完整度识别方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明,该方法包括如下步骤:
步骤201,获取视频文件和视频文件的视频发布信息,视频发布信息表示在发布视频文件对应的视频内容时所提供的信息。
视频文件是指包含有视频的文件。在一些实施例中,视频文件还包含有视频的格式信息、视频流编码信息、音频流编码信息等。
本实施例以在视频应用程序对应的服务器中执行进行说明。示意性的,服务器预先存储有视频文件,或,终端将采集到的视频发送至服务器中。当用户使用终端采集视频时,用户使用终端系统中的摄像头采集视频,或者,用户使用的终端上安装有支持视频采集的视频应用程序,通过该视频应用程序调用终端系统中的摄像头采集视频。在一些实施例中,用户使用的终端存储有视频,该视频是用户从网络上下载的。终端将获取到的视频发送至视频应用程序对应的服务器中,该服务器获取视频文件。
视频通过视频应用程序上传至服务器,服务器将各个视频应用程序的客户端发送的视频进行整合,然后发送至各个视频应用程序的客户端中,使得安装有该视频应用程序的客户端能够接收其他客户端发布的视频。示意性的,用户通过视频应用程序将采集到的视频上传至服务器时,视频应用程序要求用户填写一些与视频相关的信息,如视频的标题、视频的标签、发布视频的用户帐号、视频的关键词等信息。此时,用户相当于视频的生产者,需要提供视频文件的视频发布信息。
步骤202,从视频文件中分离出音频数据。
视频包括视频流和音频流,将音频流从视频中分离出来得到音频数据。示意性的,通过音频处理应用程序将音频从视频文件中分离出来,音频处理应用程序输出音频数据。从视频文件中分离出音频数据是本领域较为成熟的技术手段,此处不再赘述。
步骤203,从音频数据中提取音频特征,从视频发布信息中提取文本特征。
服务器调用音频特征提取模型从音频数据中提取音频特征,服务器调用文本特征提取模型从视频发布信息中提取文本特征。
服务器按照一定顺序从音频数据中提取音频特征和文本特征,示意性的,服务器先调用音频特征提取模型从音频数据中提取音频特征,再调用文本特征提取模型从视频发布信息中提取文本特征;示意性的,服务器先调用文本特征提取模型从视频发布信息中提取文本特征,再调用音频特征提取模型从音频数据中提取音频特征;示意性的,服务器同时调用音频特征提取模型和文本特征提取模型分别对音频特征和文本特征进行提取。
服务器针对视频文件的类型设定文本特征和音频特征的优先级,比如,一个关于唱歌的视频,音频特征的优先级高于文本特征的优先级,服务器优先调用音频特征提取模型提取音频特征,然后调用文本特征提取模型提取文本特征。
示意性的,音频特征提取模型和文本特征提取模型是不同的模型,或,音频特征提取模型和文本特征提取模型是相同的模型,或,音频特征提取模型和文本特征提取模型融合为同一特征提取模型,支持音频特征提取和文本特征提取。
步骤204,将音频特征和文本特征进行拼接,得到拼接后的特征。
示意性的,服务器包括音频特征提取模型和文本特征提取模型,在音频特征提取模型输出音频特征,在文本特征提取模型输出文本特征后,服务器将音频特征和文本特征进行拼接,得到拼接后的特征。拼接后的特征同时包括文本特征和音频特征。
步骤205,对拼接后的特征进行识别,得到视频文件对应的视频内容的完整度。
服务器调用视频完整度识别模型对拼接后的特征进行识别,视频完整度识别模型是具有视频内容完整度识别能力的机器学习模型,视频完整度视频模型输出该视频内容的完整度。视频完整度识别模型是通过拼接后的样本文本特征和样本音频特征进行训练后得到的,样本文本特征和样本音频特征是从样本视频中提取到的。
该视频完整度识别模型包括卷积层、最大池化层、平均池化层和隐藏层,卷积层和最大池化层交替连接,即一个卷积层和一个最大池化层连接,该最大池化层与下一个卷积层连接,以此类推,其中,最后一个最大池化层与平均池化层相连,平均池化层与隐藏层相连,隐藏层包括输出层,输出层用于输出视频完整度的分类标签。示意性的,视频完整度识别模型输出分类标签0和1,0代表视频内容不完整,1代表视频内容完整,因此根据视频完整度识别模型输出的标签类别即可判定视频内容是否完整。
在一些实施例中,还可采用具有分类功能的模型作为视频度完整度识别模型,该具有分类功能的模型的输入是文本特征和音频特征,输出为视频完整度的分类标签。
视频内容的完整度是指视频内容中是否存在内容缺失的情况,导致视频内容不完整,视频内容的缺失包括音频缺失、视频画面缺失和视频发布信息的缺失中的至少一种。本申请实施例以音频缺失作为判定视频内容的完整度的标准,视频画面可作为判定结果的参考。
综上所述,本实施例提供的方法,通过将视频文件对应的音频特征和文本特征进行拼接,使得视频完整度识别模型能够综合多个维度的特征确定视频内容的完整度,相比于人工审核的方式,提高了视频完整度的审核效率,同时通过对视频内容的完整度识别,服务器能够将完整的视频推荐给用户,使得用户能够接收到高质量的视频内容。
图3示出了本申请一个示例性实施例提供的视频内容生产端到视频内容消费端的系统框架图。该系统框架包括视频内容生产端21、上行内容接口服务器22、视频内容存储服务器23、内容数据库服务器24、调度中心服务器25、视频完整度识别服务26、构建视频完整度识别模型27、视频排重服务28、人工审核系统29、下行内容接口服务器30和视频内容消费端31。
以视频创作者(第一用户)录制短视频为例进行说明,第一用户将录制好的短视频上传至短视频应用程序对应的后台服务器。第一用户对应的客户端为视频内容生产端21。视频生产端21包括专业生产内容或专家生产内容的视频网站(PGC,ProfessionalGenerated Content,又被命名为PPC,Professionally-produced Content),视频生产端21还包括用户原创内容(UGC,User Generated Content)多频道网络(MCN,Multi-ChannelNetwork)、专业用户生产内容(PUGC,Professional User Generated Content)等内容生产者。示意性的,短视频应用程序的后台服务器包括上行内容接口服务器22、视频内容存储服务器23、内容数据库服务器24、调度中心服务器25、下行内容接口服务器30。
视频内容生产端21通过上行接口服务器22将短视频发送至视频内容存储服务器23中并进行视频内容的存储,视频内容消费端31在获取内容索引信息后,也可以直接访问视频内容存储服务器23下载对应的视频内容;上行内容接口服务器22将短视频的元信息存储在内容数据库服务器24中,元信息包括视频文件的大小、封面图、视频链接、转码率、文件格式、视频标题、发布时间、作者(发布视频的用户帐号)、人工审核过程中对内容的分类中的至少一种信息;其中,人工审核过程中对内容的分类包括一、二、三级分类和标签信息,比如一篇讲解品牌A手机的视频内容,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是品牌A,mate30)。上行内容接口服务器22将短视频发送至调度中心服务器25。
调度中心服务器25调用视频排重服务28对短视频进行去重处理,去重处理是指从视频中去除掉具有相同或相似内容的视频,去重处理包括对短视频的标题去重处理、封面图去重处理、文案去重处理、视频指纹去重处理和音频指纹去重处理中的至少一种。视频排重服务28对短视频进行去重处理后向调度中心服务器25反馈去重结果。
调度中心服务器25调用人工审核系统29对经过视频排重服务28去重后的短视频进行审核,人工审核系统29从调度中心服务器25中获取去重后的短视频;或者,视频排重服务28将去重后的视频发送至人工审核系统29。人工审核系统29对短视频进行审核,并向调度中心服务器25反馈审核结果。人工审核是对视频内容是否涉及色情、赌博、政治敏感的特性进行初步审核,然后由审核人员需要对视频的分类以标签进行标记或确认视频内容的标签是否正确。
调度中心服务器25调用视频完整度识别服务26对视频内容的完整度进行识别,视频完整度识别服务26是基于视频完整度识别模型构建的服务模块,即通过构建视频完整度识别模型27实现的。视频完整度识别模型从短视频中提取音频特征和文本特征,音频特征是根据短视频的音频数据提取的,文本特征是根据短视频的视频发布信息提取的。将音频特征和文本特征进行拼接,视频完整度识别模型对拼接后的特征进行识别,输出短视频属于完整视频的预测概率,根据该预测概率确定短视频是否为完整视频。
视频完整度识别服务26将完整的视频反馈至调度中心服务器25,调度中心服务器25将最终的短视频对应的视频地址发送至下行内容接口服务器30。
当用户观看短视频时(视频内容消费端31),从下行接口内容服务器30(还可以是内容分发服务器)中获取视频地址,视频内容消费端31在获取到视频地址后,根据视频地址从视频内容存储服务器23中获取短视频。可以理解的是,下行内容接口服务器30中的视频地址均对应完整的视频内容,从而保证用户观看完整的高质量短视频。
需要说明的是,调度中心服务器25负责视频内容流转的整个调度过程,通过上行内容接口服务器22接收视频内容,然后从内容数据库服务器24中获取视频的元信息;调度中心服务器25还用于调度人工审核系统和机器处理系统,控制调度的顺序和优先级,调度的顺序和优先级主要依赖视频内容来源的渠道和分类,依据原则是内容供给和消费的匹配关系,比如,对于视频内容的消费需求(视频内容31消费端产生的需求)旺盛的视频优先处理。
另外,对于视频内容,视频排重服务对视频的不同码率、不同清晰度、不同尺寸、部分黑屏、有无滤镜、有无标志(Logo)、在相似的视频内容中插入部分广告内容以及片头片尾的裁剪都可以进行处理,减轻人工审核系统审核的工作量。
上述视频内容生产端和视频内容消费端的系统中,通过各个服务器的分工协作,使得视频能够高效地被分发至视频内容消费端,加快了视频内容完整度的审核效率,同时使得视频应用程序能够向用户推荐具有完整视频内容的高质量视频。
图4示出了本申请另一个示例性实施例提供的视频内容的完整度识别方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明,该方法包括如下步骤:
步骤401,获取视频文件和视频文件的视频发布信息,视频发布信息表示在发布视频文件对应的视频内容时所提供的信息。
示意性的,用户使用的终端上安装有支持视频采集的视频应用程序,该视频应用程序对应有后台服务器,用户通过视频应用程序采集视频,视频应用程序调用终端的系统中的摄像头进行视频采集。通过视频应用程序,将采集到的视频上传至视频应用程序对应的服务器中。服务器获取到终端采集的视频。
示意性的,终端将视频以视频文件的形式上传至服务器中,在上传视频时用户需要填写视频发布信息,以保证视频内容的完整。视频发布信息是指视频发布时所要提供的信息,视频发布信息包括视频标题、视频标签、上传视频(发布视频)的用户帐号、视频关键字幕(或经典台词)、视频关键词中的至少一种。
步骤402,从视频文件中分离出音频数据。
视频包括视频流和音频流,将音频流从视频中分离出来得到音频数据。示意性的,通过音频处理应用程序将音频从视频文件中分离出来,音频处理应用程序输出音频数据。从视频文件中分离出音频数据是本领域较为成熟的技术手段,此处不再赘述。
步骤403,调用音频特征提取模型从音频数据中提取音频特征。
服务器从视频41中分离出音频42,并获取视频对应的视频标题、视频标签和用户帐号43。然后服务器调整音频特征提取模型和文本特征提取模型分别从音频数据和视频发布信息中提取特征。
机器学习(Machine Learning,ML)是指通过研究计算机模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心是计算机具有智能的根本途径。本申请实施例中利用训练后的音频特征提取模型来提取音频数据中的音频特征。可以理解的是,上述音频特征提取模型在训练时通过不断缩小误差,从而提高提取音频特征的准确率和效率。
其中,音频特征的提取方式包括如下三种:
1、调用类视觉几何组网络模型VGGish从音频数据中提取第一音频特征。
VGGish模型是一种类似于集合组网络模型(Visual Geometry Group Network,VGG)的音频模型,该音频模型是基于AudioSet数据集训练得到的。
如图5所示,将音频数据输入至VGGish模型44中,输出具有语义和意义的高维度(High-Level)特征向量,该特征向量可以作为下游模型的输入,比如,Vggish模型44输出的特征向量作为隐藏层48的输入。此时,VGGish模型即为音频特征提取模型。
VGGish模型提取音频特征的过程如下:首先,通过重采样的方式将音频数据变换为预设频率下的单声道音频数据,然后,根据汉宁窗函数对单声道音频数据进行傅里叶变换,得到单声道音频数据对应的频谱图像,将单声道音频数据对应的频谱图像映射到梅尔滤波器中,得到单声道频谱信号对应的梅尔频谱图,最后,根据梅尔频谱图得到音频数据对应的第一音频特征。
在一个示例中,输入VGGish模型的音频数据为波形声音(wav)格式的音频文件,将该音频重采样为16kHz的单声道音频,使用25毫秒(ms)的汉宁时窗(Hann),10毫秒(ms)的帧移对音频进行短时傅里叶变换得到单声道音频数据对应的频谱图像,然后,通过将单声道频谱图像映射到64阶梅尔滤波器组中计算梅尔声谱,计算log(mel-spectrum+0.01),其中,mel-spectrum得到稳定的梅尔声谱,mel-spectrum是指梅尔滤波器对应的参数,所加的0.01的偏置是为了避免对0取对数,最后将这些特征已0.96秒(s)的时长被组帧,并且帧与帧之间无重叠的部分,每一帧都包含64个梅尔频带,时长10毫秒(ms),即一共96帧。VGGish模型输出数据格式为[nums_frames,128],其中nums_frames为帧长,nums_frames=音频时长/0.96。
2、通过梅尔频率倒谱系数算法MFCC从音频数据中提取第二音频特征。
梅尔频率倒谱系数算法是指在声音处理领域中,基于声音频率的非线性梅尔刻度(MelScale)的对数能量频谱的线性变化。
如图5所示,将音频数据42通过MFCC算法45计算出的第一数值输入至音频特征提取模型47中,该音频特征提取模型47包括嵌入层、卷积层、最大池化层和平均池化层。由平均池化层输出第二音频特征,该第二音频特征作为隐藏层48的输入。
人声在频谱图像上具有可辨认的特征,因此,根据该可辨认的特征来提取音频特征时,需要根据图像识别技术从频谱图像上判断人声是否在最后时刻戛然而止(即音频数据是否完整)。如图6所示,在区域51和区域52中含有人声部分(即扭动的痕迹),横坐标是视频的时间轴(从0秒开始到视频结束),左侧的纵坐标表示对应时间点采样的序号按照采样点频率从低到高排列后形成的数值,数值不代表真实频率的大小(是序号),数值越大频率越高;右侧的纵坐标表示振幅,带有负数振幅的是经过对数计算后的振幅,使得低频振幅能够在频谱图像上明显表示出来。图6的(a)中区域51表示音频戛然而止,即音频不完整,图6的(b)中区域52表示音频正常结束,即音频完整。
通过MFCC算法提取音频特征的过程如下:首先,通过MFCC算法将音频数据转换为频谱图像,该频谱图像包括时间域和振幅域,该频谱图像是如图6所示的频谱图像,然后,调用音频特征提取模型中的卷积层对音频图像进行处理,得到中间特征向量,最后,调用音频特征提取模型中的平均池化层对中间特征向量进行处理,得到第二音频特征。
在一个示例中,经过MFCC算法45计算音频42对应的梅尔频谱系数,得到梅尔频谱图像,将梅尔频谱图像输入至音频特征提取模型47中,音频特征提取模型47包括嵌入层(Embedding)、四层卷积层(Convolution,Conv)、四层最大池化层(MaxPooling),以及平均池化层(AveragePooling),卷积层参数为3×3×8,最大池化层参数为2×2。示意性的,MFCC算法也可以作为音频特征提取模型47的一部分。输入的图像经过音频特征提取模型47的多层卷积和池化运算,输出音频特征序列,该音频特征序列即为第二音频特征。
3、调用VGGish模型从音频数据中提取第一音频特征;通过MFCC算法从音频数据中提取第二音频特征。
示意性的,还可结合上述两种音频特征的提取方式,从音频数据中提取音频特征,使得输出的视频完整度识别结果能够综合多种特征准确输出视频内容的完整度。
步骤404,调用文本特征提取模型从视频发布信息中提取文本特征。
本申请实施例通过基于转换器模型的双向编码表示模型(BidirectionalEncoder Representation from Transformers,BERT)从视频发布信息中提取文本特征。BERT模型是一种基于双向转换器模型(Transformer)的语言模型。
同样地,本申请实施例中利用训练后的文本特征提取模型来提取视频发布信息中的文本特征。可以理解的是,上述文本特征提取模型在训练时通过不断缩小误差,从而提高提取文本特征的准确率和效率。
示意性的,视频发布信息包括视频标题、视频标签和用户帐号中的至少一种。
响应于视频发布信息包括视频标题,调用BERT模型对视频标题进行处理,得到视频标题对应的第一文本特征,视频标题是视频文件中的视频内容对应的视频标题。
将视频标题输入至BERT模型中,经过BERT模型提取出文本的语义特征,也即将文本字符串转换为向量。通常提取BERT模型的倒数第二层的向量作为文本表示向量。若提取BERT模型中的最后一层作为文本表示向量,由于最后一层距离输出目标较近,可能使得输出的文本表示向量存在偏差。
利用BERT模型从文本中提取文本特征是本领域中较为成熟的技术手段,此处不再赘述。
响应于视频发布信息包括视频标签,调用BERT模型对视频标签进行处理,得到视频标签对应的第二文本特征,视频标签是视频文件中的视频内容所属的类别。
同理,调用BERT模型对视频标签进行处理,能够得到与视频标签对应的第二文本特征。视频标签是指视频文件中的视频内容所属的类别,在用户上传视频时,用户可自行对视频添加标签,如美妆标签、科技标签等。
响应于视频发布信息包括用户帐号,调用BERT模型对用户帐号进行处理,得到用户帐号对应的第三文本特征,用户帐号是发布视频文件中的视频内容的用户帐号。
用户帐号是指发布视频的用户帐号,用户在上传视频时,视频应用应用程序的服务器会自动识别视频发布信息中的用户帐号,或者,在用户上传的视频中含有用户帐号,如在视频画面上显示有用户帐号对应的水印。在一些实施例中国,视频画面上显示有用户昵称对应的水印。
需要说明的是,步骤404可先于步骤405执行,步骤404也可在步骤405之后执行,步骤404还可与步骤405同时执行。
步骤405,将音频特征和文本特征进行拼接,得到拼接后的特征。
服务器将音频特征提取模型输出的音频特征和文本特征提取模型输出的文本特征进行拼接,得到拼接后的特征。拼接后的特征同时包括文本特征和音频特征。
如图5所示,VGGish模型输出第一音频特征,音频特征提取模型47输出第二音频特征,BERT模型46输出文本特征,服务器将第一音频特征、第二音频特征和文本特征进行拼接,得到拼接后的特征。
在一些实施例中,调用BERT模型分别对视频标题、视频标签和用户帐号进行识别,分别输出视频标题对应的第一文本特征、视频标签对应的第二文本特征和用户帐号对应的第三文本特征。服务器将第一音频特征、第二音频特征、第一文本特征、第二文本特征和第三文本特征进行拼接,得到拼接后的特征。
步骤406,调用视频完整度识别模型对拼接后的特征进行识别,得到视频文件对应的视频内容属于完整视频内容的预测概率。
如图5所示,将拼接后的特征输入至隐藏层48中,该隐藏层48还包括输出层(图中未示出),隐藏层48输出视频文件对应的视频内容属于完整视频内容的预测概率。
步骤407,根据预测概率得到视频文件对应的视频内容的完整度。
本申请实施例通过机器学习的方式来训练视频完整度识别模型,使得训练后的视频完整度识别模型能够准确识别出视频内容的完整度。
示意性的,针对预测概率设置有概率阈值,当视频完整度识别模型输出的预测概率高于概率阈值,则该预测概率对应的视频文件对应的视频内容属于完整的视频内容;当视频完整度识别模型输出的预测概率低于概率阈值,则该预测概率对应的视频内容属于不完整的视频内容。
在一个示例中,概率阈值为0.7,视频完整度识别模型输出视频文件的预测概率为0.4,则该视频文件对应的视频内容属于不完整的视频内容;在另一个示例中,视频完整度识别模型输出的视频文件的预测概率为0.8,则该视频文件对应的视频内容属于完整的视频内容。
综上所述,本实施例的方法,通过将视频文件对应的音频特征和文本特征进行拼接,使得视频完整度识别模型能够综合多个维度的特征确定视频内容的完整度,相比于人工审核的方式,提高了视频完整度的审核效率,同时通过对视频内容的完整度识别,服务器能够将完整的视频推荐给用户,使得用户能够接收到高质量的视频内容。
通过从音频数据中提取音频特征,从视频发布信息中提取文本特征,使得视频完整度识别模型能够根据多种维度的特征对视频内容的完整度进行识别。
通过VGGish模型提取第一音频特征的方式,将音频数据转换为具有语义和意义的特征向量,能够为下游模型提供具有代表的特征向量。
通过MFCC算法提取第二音频特征的方式,将音频数据转换为音频图像,利用“转化”的思想,将提取音频特征转换为从图像中提取特征,同时,从图像中能够直观地确定一段音频中出现不完整视频内容所在的位置。
通过BERT模型提取文本特征的方式,能够准确提取视频文件的文本特征,使得文本特征能够代表视频发布信息,使得后续视频完整度识别模型对视频内容的识别更加准确。
根据视频完整度识别模型对视频内容属于完整视频的预测概率确定视频内容的完整度,将视频内容的完整度量化,从而能够准确对视频内容的完整度进行识别。
上述视频完整度识别模型是通过如下方式获得的:
图7示出了本申请一个示例性实施例提供的视频完整度识别模型的训练方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明,该方法包括如下步骤:
步骤701,获取样本视频文件和样本视频文件的样本视频发布信息,样本视频文件对应的样本视频标注有视频内容完整度,样本视频发布信息表示在发布样本视频文件对应的视频内容时所提供的信息。
类比于视频完整度视频识别模型的测试阶段(或使用阶段),在训练视频完整度识别模型时,服务器需要通过获取样本视频文件以及样本视频文件的样本视频发布信息。示意性的,样本视频文件是服务器从大量用户上传的视频中选择的符合样本标准的视频文件,作为样本视频文件。
本申请实施例样本视频的标注方法如下:
采用人工标注的方式,以四分类的方式标注视频内容,四分类括0、1、2、3四个分类,其中0代表正常样本视频,即样本视频内容属于完整视频,1-3代表非正常样本视频,即样本视频内容属于不完整视频。标注过程中,通过访问视频内容的原始统一资源定位符(Uniform Resource Locator,URL),拖动视频进度条至最后5s,标注仅需要关注视频结尾是否有戛然而止的不完整,以音频信息是否戛然而止作为标注的标准,画面可作为理解音频的参考,但不作为标注判断的依据。
下面对正常样本视频和非正常样本视频进行说明:
0代表正常样本视频,如图8的句子61所示,以方框区域表示视频时间轴的长度,方框中的汉字代表视频中的音频。该句话为视频结尾处的结语,由此可知,结语对应的音频结束后还有一段时间视频才结束,因此该音频是完整的,该样本视频属于完整视频,即正常样本视频。
标注为1-3的非正常音频包括如下类型中的至少一种:
1、截断型结束:是指单个字(或单词)的发音不完整的音频类型。
比如,人声(包括说话和唱歌,包括前景人声和背景音乐)最后一个字还没来得及说完,直接截断结束;这里最后一个字并非指一句完整的话的最后一个字,这里不考虑语义上是否完整,而只关注单个字的发音是否完整。
a.影视剧类型(举例但不限于此类型),人物台词明显念到一半一个字发音发到一半,戛然而止,属于此类;如图8的句子62、句子63和句子64所示,在“观”字已结束发音,但“看”字还未发音,或“看”字发音不全,表明该结语对应的音频还未结束,视频已经结束,因此该音频不完整,该样本视频属于非完整视频,即非正常样本视频。
b.生活类搞笑视频,搞笑情节过后,通常会伴随有笑声(在剪辑视频过程中添加的笑声,比如“哈哈哈哈哈”的连续笑声),由于笑声也属于人声,因此,也需要判断笑声对应的音频是否完整。
2、非截断型结束:音频中的最后一个字(或单词)的结束时刻与音频结束时刻的时间间隔小于预设时间间隔的音频类型。
话音刚落立刻结束,最后一个字说完到音频结束之间时间间隔小于预设时间间隔(如0.5秒),听感上有戛然而止的感觉,但没有说话截断感。
影视剧类型(举例但不限于此类型),人物台词刚刚念完或也还没念完,就突然结束,听感上有戛然而止感,但并没有发生字的发音截断,而是中断在一个字发音完整后,下一个词未说出口的地方,如图8的句子65、句子66和句子67所示,结语中的结束处都是在最后一个字发音是完整的情况下进行结束的,如句子65中,在发完“的”的音,视频结束;句子66中,在发完“观”的音,视频结束;句子67中,在发完“看”的音,视频结束,且发完“看”的音距离视频结束之间的时间小于预设时间间隔。
3、其它非人声结束或难以分辨的类型:音频中的非人声突然结束,使得非人声不完整的音频类型。
a.在一些视频的音频末尾没妥善处理,会有爆破音,造成听感不舒服的戛然而止感,但不是人声,则将该类视频划分为此类。
b.物体碰撞声、翻落声,枪声,打斗声等非人声的突然结束。
c.非人声的音乐突然结束,如纯音乐、歌曲伴奏部分、视频片尾没播放完整导致音乐也突然结束等情况。
步骤702,从样本视频对应的音频数据中提取样本音频特征,从样本视频发布信息中提取样本文本特征。
服务器调用音频特征提取模型从样本视频对应的音频数据中提取样本音频特征。服务器调用文本特征提取模型从样本视频发布信息中提取样本文本特征。服务器按照一定顺序从音频数据中提取音频特征和文本特征,示意性的,服务器先调用音频特征提取模型从音频数据中提取音频特征,再调用文本特征提取模型从视频发布信息中提取文本特征;示意性的,服务器先调用文本特征提取模型从视频发布信息中提取文本特征,再调用音频特征提取模型从音频数据中提取音频特征;示意性的,服务器同时调用音频特征提取模型和文本特征提取模型分别对音频特征和文本特征进行提取。
示意性的,服务器调用VGGish模型从样本视频对应的音频数据中提取第一样本音频特征,通过MFCC算法从样本视频对应的音频数据中提取第二样本音频特征。
示意性的,样本视频发布信息包括样本视频对应的视频标题、视频标签和用户帐号中的至少一种。服务器调用BERT模型对样本视频文件对应的视频标题、视频标签和用户帐号中分别进行特征提取,输出视频标题对应的第一样本文本特征、视频标签对应的第二样本文本特征和用户帐号对应的第三样本文本特征。
在一个示例中,服务器先调用VGGish模型从样本视频中提取第一样本音频特征,再通过MFCC算法从样本视频中提取第二样本音频特征,最后调用BERT模型从样本视频文件中提取文本特征。
步骤703,将样本音频特征和本文本特征进行拼接,得到拼接后的样本特征。
示意性的,服务器将第一样本音频特征、第二样本音频特征、第一样本文本特征、第二样本文本特征和第三样本文本特征进行拼接,得到拼接后的样本特征。
步骤704,对拼接后的样本特征进行识别,得到样本视频文件对应的样本视频的内容预测完整度。
将拼接后的样本特征输入至视频完整度识别模型中,输出样本视频文件对应的样本视频的内容预测完整度,该内容预测完整度以预测概率表示。
步骤705,根据内容预测完整度和样本视频标注的视频内容完整度对视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。
步骤705可替换为如下步骤:
步骤7051,计算内容预测完整度和视频内容完整度的误差损失。
利用用于二分类交叉熵损失函数来计算内容预测完整度和视频内容完整度的误差损失,误差损失可通过如下方式计算:
1)获取视频完整度识别模型对应的激活函数。
2)根据激活函数、内容预测完整度和视频内容完整度,得到用于分类的交叉熵损失函数。
3)根据用于二分类的交叉熵损失函数计算内容预测完整度和视频内容完整度的误差损失。
交叉熵损失函数的计算公式为:
Figure BDA0002767191300000201
其中,p(x)表示真实分布的概率,q(x)表示视频完整度识别模型通过数据计算出来的概率估计,i表示第i个样本视频文件,N表示样本视频文件的总数量。
交叉熵损失函数是用来评估当前训练得到的概率分布与真实分布的差异情况,减少交叉熵损失即提高了视频完整度视频模型的预测概率。
基于交叉熵损失函数可得用于二分类的交叉熵损失函数(Binary Cross EntropyLoss,BCE):
Figure BDA0002767191300000202
其中,x(i)表示样本视频的真实标注结果,y(i)表示视频完整度识别模型输出的预测结果(y(i)∈(0,1),0代表正常样本视频,1代表非正常样本视频),w表示权重矩阵,b表示偏移向量。
本申请实施例利用逻辑回归函数(Sigmoid)和交叉熵损失函数进行二分类,实际上就是对每个输出与一个sigmoid层71连接,再将sigmoid层71与交叉熵损失函数连接,如图9所示。使用用于二分类的交叉熵损失函数进行优化,基于BCE loss的方法构建视频完整度识别模型。
示意性的,交叉上损失函数还可以用如下公式表示:
Figure BDA0002767191300000211
其中,t1表示视频完整度识别模型输出的预测结果,0代表正常样本视频,1代表非正常样本视频,s1表示输出层输出的结果。
步骤7052,根据误差损失对视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。
根据误差损失训练视频完整度识别模型是通过如下方式进行的:
1)通过用于二分类的交叉熵损失函数计算误差损失,用于二分类的交叉熵损失函数是通过视频完整度识别模型对应的激活函数、内容预测完整度和视频内容完整度得到的。
2)响应于误差损失收敛,得到视频完整度识别模型对应的权重矩阵和偏移向量,权重矩阵用于表征样本视频文件对视频完整度识别模型输出内容预测完整度的影响程度,偏移向量用于表征内容预测完整度与视频完整度之间的偏差。
3)根据所述权重矩阵和所述偏移向量得到所述训练后的视频完整度识别模型。
根据用于二分类的交叉熵损失函数计算权重矩阵和偏移向量,不断更新迭代,当用于二分类的交叉熵损失函数收敛时,得到权重矩阵和偏移向量,则可以确定训练后的视频完整度视频模型对应的参数。当拼接后的特征输入至训练后的视频完整度识别模型中时,视频完整度识别模型根据对应的参数(权重矩阵和偏移向量)输出视频完整度的预测结果。
综上所述,本实施例的方法,通过从样本视频文件中提取样本音频特征和样本文本特征,利用样本音频特征和样本文本特征拼接后得到的特征来训练视频完整度识别模型,使得训练后的视频完整度识别模型能够识别各种类型的视频对应的视频完整度,提高了识别效率和识别准确率。
根据视频内容的内容预测完整度和视频内容完整度之间的误差损失来训练视频完整度识别模型,使得视频完整度识别模型识别出与视频内容实际标定的完整度趋于一致的结果,从而提高了视频完整度识别模型的识别准确率和识别效率。
根据用于二分类的交叉熵损失函数计算内容预测完整度和视频内容完整度之间的误差损失,从而使得视频完整度识别模型能够准确根据误差损失进行准确训练,提高了视频完整度识别模型的训练效率,以及训练后的视频完整度识别模型的识别效率和识别准确率。
根据用于二分类的交叉熵损失函数计算得到的权重参数和偏移参数来有针对性地对视频完整度识别模型进行训练,提高了视频完整度识别模型的训练效率,以及训练后的视频完整度识别模型的识别效率和识别准确率。
由此可知,图3所示视频完整度识别服务26是根据训练后的视频完整度识别模型实现的,构建视频完整度识别模型27的过程如图7所示的实施例。
对视频完整度识别服务的流程进行说明:
如图10所示,在视频应用程序的后台服务器还包括下载文件系统32,下载文件系统32用于从视频内容存储服务器23下载和获取原始的视频内容,控制下载的速度和进度,通常是一组并行的服务器,有相关的任务调度和分发集群构成;下载完成的视频文件调用抽取音频信息服务33从视频源文件当中获取必要的视频文件音频信息,即提取音频特征信息,作为后续构建视频完整度识别模型27的信息。抽取音频信息服务33按照前文提到的方法得到频谱特征,同时降低运算维度。比如,对于一帧有512维(采样点)数据,经过MFCC算法后可以提取出最重要的40维数据,也达到了将维的目的。
同时从内容数据库服务器24中读取元信息,元信息包括视频文件的大小、视频文件格式、转码率、视频标题、截取封面图、发布时间、作者中的至少一种。通过上述文本特征的提取方式,从元信息中提取文本特征。
根据抽取音频信息服务33提取的音频特征和从内容数据库服务器24中提取到的文本特征,构建视频完整度识别模型27。将视频完整度识别模型27进行标准化,得到视频完整度识别服务26。标准化是指将视频完整度视频模型构建在服务框架中,即将视频完整度识别模型对应的权重参数添加至服务框架中,在使用视频完整度识别服务26时,需要向该服务提供实际输入参数(如视频文件或将音频特征和文本特征拼接后得到的特征),从而得到关于视频完整度的输出结果。
图11示出了本申请一个示例性实施例提供的视频内容的完整度识别装置的结构框图,该装置包括如下部分:
获取模块1110,用于获取视频文件和视频文件的视频发布信息,视频发布信息表示在发布视频文件对应的视频内容时所提供的信息;
处理模块1120,用于从视频文件中分离出音频数据;
特征提取模块1130,用于从音频数据中提取音频特征,从视频发布信息中提取文本特征;
所述处理模块1120,用于将音频特征和文本特征进行拼接,得到拼接后的特征;
识别模块1140,用于对拼接后的特征进行识别,得到视频文件对应的视频内容的完整度。
在一个可选的实施例中,所述识别模块1140,用于调用视频完整度识别模型对拼接后的特征进行识别,得到视频文件对应的视频内容属于完整视频内容的预测概率;根据预测概率得到视频文件对应的视频内容的完整度。
在一个可选的实施例中,装置还包括训练模块1150;
所述获取模块1110,用于获取样本视频文件和样本视频文件的样本视频发布信息,样本视频文件对应的样本视频标注有视频内容完整度,样本视频发布信息表示在发布样本视频文件对应的视频内容时所提供的信息;
所述特征提取模块1130,用于从样本视频对应的音频数据中提取样本音频特征,从样本视频发布信息中提取样本文本特征;
处理模块1120,用于将样本音频特征和样本文本特征进行拼接,得到拼接后的样本特征;
所述识别模块1140,用于对拼接后的样本特征进行识别,得到样本视频文件对应的样本视频的内容预测完整度;
所述训练模块1150,用于根据内容预测完整度和样本视频标注的视频内容完整度对视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。
在一个可选的实施例中,所述训练模块1150,用于计算内容预测完整度和视频内容完整度的误差损失;根据误差损失对视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。
在一个可选的实施例中,所述获取模块1110,用于获取视频完整度识别模型对应的激活函数;
所述训练模块1150,用于根据激活函数、内容预测完整度和视频内容完整度,得到用于二分类的交叉熵损失函数;根据用于二分类的交叉熵损失函数计算内容预测完整度和视频内容完整度的误差损失。
在一个可选的实施例中,所述训练模块1150,用于通过用于二分类的交叉熵损失函数计算误差损失,用于二分类的交叉熵损失函数是通过视频完整度识别模型对应的激活函数、内容预测完整度和视频内容完整度得到的;响应于误差损失收敛,得到视频完整度识别模型对应的权重矩阵和偏移向量,权重矩阵用于表征样本视频文件对视频完整度识别模型输出内容预测完整度的影响程度,偏移向量用于表征内容预测完整度与视频完整度之间的偏差;根据权重矩阵和偏移向量得到训练后的视频完整度识别模型。
在一个可选的实施例中,所述特征提取模块1130,用于调用音频特征提取模型从音频数据中提取音频特征;调用文本特征提取模型从视频发布信息中提取文本特征。
在一个可选的实施例中,所述特征提取模块1130,用于调用类视觉几何组网络模型VGGish从音频数据中提取第一音频特征;或,通过梅尔频率倒谱系数算法MFCC从音频数据中提取第二音频特征;或,调用VGGish模型从音频数据中提取第一音频特征;通过MFCC算法从音频数据中提取第二音频特征。
在一个可选的实施例中,视频发布信息包括视频标题、视频标签和用户帐号中的至少一种;
所述特征提取模块1130,用于响应于视频发布信息包括视频标题,调用基于转换器模型的双向编码表示模型BERT对视频标题进行处理,得到视频标题对应的第一文本特征,视频标题是视频文件中的视频内容对应的视频标题;响应于视频发布信息包括视频标签,调用BERT模型对视频标签进行处理,得到视频标签对应的第二文本特征,视频标签是视频文件中的视频内容所属的类别;响应于视频发布信息包括用户帐号,调用BERT模型对用户帐号进行处理,得到用户帐号对应的第三文本特征,用户帐号是发布视频文件中的视频内容的用户帐号。
综上所述,本实施例提供的装置,通过将视频文件对应的音频特征和文本特征进行拼接,使得视频完整度识别模型能够综合多个维度的特征确定视频内容的完整度,相比于人工审核的方式,提高了视频完整度的审核效率,同时通过对视频内容的完整度识别,服务器能够将完整的视频推荐给用户,使得用户能够接收到高质量的视频内容。
通过从音频数据中提取音频特征,从视频发布信息中提取文本特征,使得视频完整度识别模型能够根据多种维度的特征对视频内容的完整度进行识别。
通过VGGish模型提取第一音频特征的方式,将音频数据转换为具有语义和意义的特征向量,能够为下游模型提供具有代表的特征向量。
通过MFCC算法提取第二音频特征的方式,将音频数据转换为音频图像,利用“转化”的思想,将提取音频特征转换为从图像中提取特征,同时,从图像中能够直观地确定一段音频中出现不完整视频内容所在的位置。
通过BERT模型提取文本特征的方式,能够准确提取视频文件的文本特征,使得文本特征能够代表视频发布信息,使得后续视频完整度识别模型对视频内容的识别更加准确。
根据视频完整度识别模型对视频内容属于完整视频的预测概率确定视频内容的完整度,将视频内容的完整度量化,从而能够准确对视频内容的完整度进行识别。
需要说明的是:上述实施例提供的视频内容的完整度识别装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频内容的完整度识别装置与视频内容的完整度识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图1所示的计算机系统100中的服务器120。
服务器1200包括中央处理单元(CPU,Central Processing Unit)1201、包括随机存取存储器(RAM,Random Access Memory)1202和只读存储器(ROM,Read Only Memory)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统,Input Output System)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,大容量存储设备1207可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM,Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。
计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM,Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(DVD,Digital Versatile Disc)或固态硬盘(SSD,Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请的各种实施例,服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
在一个可选的实施例中,提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频内容的完整度识别方法。
在一个可选的实施例中,提供了一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视频内容的完整度识别方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述,不代表实施例的优劣。
本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上方面所述的视频内容的完整度识别方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种视频内容的完整度识别方法,其特征在于,所述方法包括:
获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
从所述视频文件中分离出音频数据;
从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。
2.根据权利要求1所述的方法,其特征在于,所述对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度,包括:
调用视频完整度识别模型对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容属于完整视频内容的预测概率;
根据所述预测概率得到所述视频文件对应的视频内容的完整度。
3.根据权利要求2所述的方法,其特征在于,所述视频完整度识别模型是通过如下方式获得的:
获取样本视频文件和所述样本视频文件的样本视频发布信息,所述样本视频文件对应的样本视频标注有视频内容完整度,所述样本视频发布信息表示在发布所述样本视频文件对应的视频内容时所提供的信息;
从所述样本视频对应的音频数据中提取样本音频特征,从所述样本视频发布信息中提取样本文本特征;
将所述样本音频特征和所述样本文本特征进行拼接,得到拼接后的样本特征;
对所述拼接后的样本特征进行识别,得到所述样本视频文件对应的样本视频的内容预测完整度;
根据所述内容预测完整度和所述样本视频标注的视频内容完整度对所述视频完整度识别模型进行训练,得到训练后的视频完整度识别模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述内容预测完整度和所述样本视频标注的视频内容完整度对所述视频完整度识别模型进行训练,得到训练后的视频完整度识别模型,包括:
计算所述内容预测完整度和所述视频内容完整度的误差损失;
根据所述误差损失对所述视频完整度识别模型进行训练,得到所述训练后的视频完整度识别模型。
5.根据权利要求4所述的方法,其特征在于,所述计算所述内容预测完整度和所述视频内容完整度的误差损失,包括:
获取所述视频完整度识别模型对应的激活函数;
根据所述激活函数、所述内容预测完整度和所述视频内容完整度,得到用于二分类的交叉熵损失函数;
根据所述用于二分类的交叉熵损失函数计算所述内容预测完整度和所述视频内容完整度的误差损失。
6.根据权利要求4所述的方法,其特征在于,所述根据所述误差损失对所述视频完整度识别模型进行训练,得到所述训练后的视频完整度识别模型,包括:
通过用于二分类的交叉熵损失函数计算所述误差损失,所述用于二分类的交叉熵损失函数是通过所述视频完整度识别模型对应的激活函数、所述内容预测完整度和所述视频内容完整度得到的;
响应于所述误差损失收敛,得到所述视频完整度识别模型对应的权重矩阵和偏移向量,所述权重矩阵用于表征所述样本视频文件对所述视频完整度识别模型输出所述内容预测完整度的影响程度,所述偏移向量用于表征所述内容预测完整度与所述视频完整度之间的偏差;
根据所述权重矩阵和所述偏移向量得到所述训练后的视频完整度识别模型。
7.根据权利要求1至6任一所述的方法,其特征在于,所述从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征,包括:
调用音频特征提取模型从所述音频数据中提取所述音频特征;
调用文本特征提取模型从所述视频发布信息中提取所述文本特征。
8.根据权利要求7所述的方法,其特征在于,所述调用音频特征提取模型从所述音频数据中提取所述音频特征,包括:
调用类视觉几何组网络模型VGGish从所述音频数据中提取第一音频特征;
或,
通过梅尔频率倒谱系数算法MFCC从所述音频数据中提取第二音频特征;
或,
调用所述VGGish模型从所述音频数据中提取第一音频特征;通过所述MFCC算法从所述音频数据中提取第二音频特征。
9.根据权利要求7所述的方法,其特征在于,所述视频发布信息包括视频标题、视频标签和用户帐号中的至少一种;
所述调用文本特征提取模型从所述视频发布信息中提取所述文本特征,包括:
响应于所述视频发布信息包括所述视频标题,调用基于转换器模型的双向编码表示模型BERT对所述视频标题进行处理,得到所述视频标题对应的第一文本特征,所述视频标题是所述视频文件中的视频内容对应的视频标题;
响应于所述视频发布信息包括所述视频标签,调用所述BERT模型对所述视频标签进行处理,得到所述视频标签对应的第二文本特征,所述视频标签是所述视频文件中的视频内容所属的类别;
响应于所述视频发布信息包括所述用户帐号,调用所述BERT模型对所述用户帐号进行处理,得到所述用户帐号对应的第三文本特征,所述用户帐号是发布所述视频文件中的视频内容的用户帐号。
10.一种视频内容的完整度识别装置,其特征在于,所述装置包括:
获取模块,用于获取视频文件和所述视频文件的视频发布信息,所述视频发布信息表示在发布所述视频文件对应的视频内容时所提供的信息;
处理模块,用于从所述视频文件中分离出音频数据;
特征提取模块,用于从所述音频数据中提取音频特征,从所述视频发布信息中提取文本特征;
所述处理模块,用于将所述音频特征和所述文本特征进行拼接,得到拼接后的特征;
识别模块,用于对所述拼接后的特征进行识别,得到所述视频文件对应的视频内容的完整度。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的视频内容的完整度识别方法。
12.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的视频内容的完整度识别方法。
CN202011237365.8A 2020-11-09 2020-11-09 视频内容的完整度识别方法、装置、设备及存储介质 Pending CN112418011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011237365.8A CN112418011A (zh) 2020-11-09 2020-11-09 视频内容的完整度识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011237365.8A CN112418011A (zh) 2020-11-09 2020-11-09 视频内容的完整度识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112418011A true CN112418011A (zh) 2021-02-26

Family

ID=74780729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011237365.8A Pending CN112418011A (zh) 2020-11-09 2020-11-09 视频内容的完整度识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112418011A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344062A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 异常帐户识别方法、装置、服务器及存储介质
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
CN113569097A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 结构化信息抽取方法、装置、设备以及存储介质
CN113761589A (zh) * 2021-04-21 2021-12-07 腾讯科技(北京)有限公司 视频检测的方法、装置及电子设备
CN113836328A (zh) * 2021-07-09 2021-12-24 腾讯科技(深圳)有限公司 图像数据处理方法及装置
CN114170687A (zh) * 2021-12-08 2022-03-11 山东大学 基于指导信息的人体骨架动作早期识别方法及系统
CN114328990A (zh) * 2021-10-13 2022-04-12 腾讯科技(深圳)有限公司 图像完整性识别方法、装置、计算机设备和存储介质
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114898271A (zh) * 2022-05-26 2022-08-12 中国平安人寿保险股份有限公司 视频内容监控方法、装置、设备及介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761589A (zh) * 2021-04-21 2021-12-07 腾讯科技(北京)有限公司 视频检测的方法、装置及电子设备
CN113344062A (zh) * 2021-05-31 2021-09-03 北京达佳互联信息技术有限公司 异常帐户识别方法、装置、服务器及存储介质
CN113344062B (zh) * 2021-05-31 2024-03-22 北京达佳互联信息技术有限公司 异常帐户识别方法、装置、服务器及存储介质
CN113393643A (zh) * 2021-06-10 2021-09-14 上海安亭地平线智能交通技术有限公司 异常行为预警方法、装置、车载终端以及介质
CN113836328A (zh) * 2021-07-09 2021-12-24 腾讯科技(深圳)有限公司 图像数据处理方法及装置
CN113569097A (zh) * 2021-07-23 2021-10-29 北京百度网讯科技有限公司 结构化信息抽取方法、装置、设备以及存储介质
CN114328990A (zh) * 2021-10-13 2022-04-12 腾讯科技(深圳)有限公司 图像完整性识别方法、装置、计算机设备和存储介质
CN114170687A (zh) * 2021-12-08 2022-03-11 山东大学 基于指导信息的人体骨架动作早期识别方法及系统
CN114170687B (zh) * 2021-12-08 2024-05-07 山东大学 基于指导信息的人体骨架动作早期识别方法及系统
CN114817456A (zh) * 2022-03-10 2022-07-29 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114817456B (zh) * 2022-03-10 2023-09-05 马上消费金融股份有限公司 关键词检测方法、装置、计算机设备及存储介质
CN114898271A (zh) * 2022-05-26 2022-08-12 中国平安人寿保险股份有限公司 视频内容监控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN112418011A (zh) 视频内容的完整度识别方法、装置、设备及存储介质
CN111933129B (zh) 音频处理方法、语言模型的训练方法、装置及计算机设备
JP6876752B2 (ja) 応答方法及び装置
CN114822512B (zh) 音频数据的处理方法、装置、电子设备及存储介质
CN111581437A (zh) 一种视频检索方法及装置
CN112104919B (zh) 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
US10607595B2 (en) Generating audio rendering from textual content based on character models
WO2018229693A1 (en) Method and system for automatically generating lyrics of a song
CN111626049B (zh) 多媒体信息的标题修正方法、装置、电子设备及存储介质
JPWO2007043679A1 (ja) 情報処理装置およびプログラム
CN113469152B (zh) 相似视频检测方法及装置
CN108885869A (zh) 控制包含语音的音频数据的回放
US11741941B2 (en) Configurable neural speech synthesis
WO2023114688A1 (en) Automated evaluation of acting performance using cloud services
CN111414513A (zh) 音乐流派的分类方法、装置及存储介质
CN115713257A (zh) 基于多模态融合的主播表现力评价方法、装置和计算设备
CN116682411A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN114420097A (zh) 语音定位方法、装置、计算机可读介质及电子设备
CN114637885A (zh) 模型训练方法、多样性评分确定方法、介质、装置及设备
CA3136210A1 (en) METHODS AND SYSTEMS OF AUGMENTATION OF SOUND CONTENT
CN117216185A (zh) 分发内容的评论生成方法、装置、设备及存储介质
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
Banga et al. Indian EmoSpeech Command Dataset: A dataset for emotion based speech recognition in the wild
Jitaru et al. Lrro: a lip reading data set for the under-resourced romanian language
CN112837688B (zh) 语音转写方法、装置、相关系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038253

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination