CN112543371A

CN112543371A - 视频数据处理方法、装置、终端及存储介质

Info

Publication number: CN112543371A
Application number: CN202011360473.4A
Authority: CN
Inventors: 艾鹏; 王思梦; 秦瑞雄; 郑峥; 杜嘉; 何德飞; 杜炳谦; 管瑞晗; 吴想想; 赵金鑫; 胡智; 柏露
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-23

Abstract

本发明公开了一种视频数据处理方法、装置、终端及存储介质，该方法包括：提取视频数据中的音频数据；对音频数据进行语音识别，得到语音识别结果；根据语音识别结果确定多个关键词；根据关键词确定视频数据的标签，为视频数据配置标签。本发明能够将视频数据转换为音频数据，基于音频数据得到关键词，根据关键词确定视频数据的标签，实现机器自动化的为视频数据添加标签，无需人工添加标签，解放人工劳动力，同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置，提高视频数据的标签配置效率。

Description

视频数据处理方法、装置、终端及存储介质

技术领域

本发明实施例涉及互联网视频数据检索技术，尤其涉及一种视频数据处理方法、装置、终端及存储介质。

背景技术

目前随着在线教育行业的爆发，越来越多的用户愿意接受在线教育视频的学习。为了保证用户从海量的视频课程中找出自己感兴趣的内容，提出了视频课程检索方案。

目前，在进行视频检索时，首先为上传的视频配置标签，然后根据标签对视频数据进行检索。但是，上述标签需要由人工进行配置，随着视频数量的越来越多，人工为视频数据配置标签工作量巨大，费时费力，视频数据的标签配置效率低。

发明内容

本发明提供一种视频数据处理方法、装置、终端及存储介质，以实现由机器自动化的为视频数据配合标签，提高视频数据的标签配置效率。

第一方面，本发明实施例提供了一种视频数据处理方法，包括：

提取视频数据中的音频数据；

对音频数据进行语音识别，得到语音识别结果；

根据语音识别结果确定多个关键词；

根据关键词确定视频数据的标签，为视频数据配置标签。

第二方面，本发明实施例还提供了一种视频数据处理装置，包括：

音频提取模块，用于提取视频数据中的音频数据；

语音识别模块，用于对音频数据进行语音识别，得到语音识别结果；

关键词确定模块，用于根据语音识别结果确定多个关键词；

标签配置模块，用于根据关键词确定视频数据的标签，为视频数据配置标签。

第三方面，本发明实施例还提供了一种视频数据处理终端，视频数据处理终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本申请实施例所示的视频数据处理方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本申请实施例所示的视频数据处理方法。

本发明提供的视频数据处理方法，提取视频数据中的音频数据；对音频数据进行语音识别，得到语音识别结果；根据语音识别结果确定多个关键词；根据关键词确定视频数据的标签，为视频数据配置标签。相对于目前需要由人工对视频数据添加标签，本发明能够将视频数据转换为音频数据，基于音频数据得到关键词，根据关键词确定视频数据的标签，实现机器自动化的为视频数据添加标签，无需人工添加标签，解放人工劳动力，同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置，提高视频数据的标签配置效率。

附图说明

图1是本发明实施例一中的视频数据处理方法的流程示意图；

图2是本发明实施例二中的视频数据处理方法的流程示意图；

图3是本发明实施例三中的一个视频数据处理装置的结构示意图；

图4是本发明实施例三中的另一个视频数据处理装置的结构示意图；

图5是本发明实施例四中的另一个视频数据处理终端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频数据处理方法的流程图，本实施例可适用于为视频数据配置标签的情况，该方法可以由计算机设备来执行，具体包括如下步骤：

步骤110、提取视频数据中的音频数据。

视频数据可以为用户上传的，也可以为从数据库中获取的。从视频数据中将音频数据进行分离，得到音频数据。

可选的，使用音视频处理工具FFmpeg提取视频数据中的音频数据。FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。可以通过调用FFmpeg中的音频处理功能，提取视频数据中的音频数据。

步骤120、对音频数据进行语音识别，得到语音识别结果。

可以通过文字识别实现音频数据向语音识别结果的转换。语音识别结果为文本数据，用于表示语音数据内容。可以使用常规的音频转文字工具得到语音识别结果。可选的，使用自动语音识别技术(Automatic Speech Recognition，ASR)识别教学视频中人类口语。

但常规的语音识别算法无法准确识别教育视频中音频数据包含的专用词语。基于此，步骤120可通过下述方式实施：

步骤一、对音频数据进行预处理，得到多个子数据。

通常，教育视频的时长较长，若直接对音频视频进行识别，会导致长时间的识别。基于此，可以对音频数据进行预处理，以便将音频数据拆分为多个子数据。

示例性的，预处理可以通过下述方式实施：

首先，消除音频数据首部和尾部的静音内容，得到第一数据。其次，对第一数据进行降噪处理，得到第二数据。再次，根据第二数据的时长确定时间窗口。最后，根据时间窗口对第二数据进行分帧，得到多个子数据。

教学视频的首部和尾部常会存在留白，留白部分为静音内容。将音频数据中首部和尾部的静音内容进行消除后，得到第一数据。此外，教学视频中由于讲师现场授课时存在回声等噪音，因此对第一数据进行降噪处理，得到第二数据。

根据第二数据的时长和时间窗口长度呈正比。可以设置预设窗口数量，如100个。根据第二数据的时长和预设窗口数量确定时间窗口。将第二数据的时长和预设窗口数量商作为时间窗口。

使用时间窗口对第二数据进行分帧。分帧用于使用时间窗口依次从第二数据中截取子数据。

步骤二、分别将每个子数据输入至语音识别模型，得到语音识别结果，语音识别模型用于从子数据中识别出包含预设词汇的文本，文本作为语音识别结果。

语音识别模型用于从子数据中识别出语音识别结果，语音识别结果为子数据中的关键词汇。不同科目涉及的专业词汇不同，可以使用识别模板记录不同科目需要识别的词汇。可以预先对语音识别模型进行训练，以便使语音识别模型可以分析子数据所属科目，并使用该科目适配的识别模板进行识别。识别模板可以在语音识别模型的训练过程中进行不断优化。可以通过模板库存储各科目所使用的识别模板。

示例性的，分别将每个子数据输入至语音识别模型，以便语音识别模型根据子数据查找匹配的识别模板；语音识别模型根据识别模板对子数据中的预设词汇进行识别，得到语音识别结果。

语音识别模型接收到子数据后，识别子数据适配的识别模型。从模板库中读取该识别模板。识别模板中存在多个关键词汇。使用该识别模板对子数据中的预设词汇进行识别。若子数据中存在与识别模板中关键词汇匹配的内容，则提取出该关键词汇，作为语音识别结果。或者，将子数据进行文本转换，在进行文本转换时，参照识别模板识别关紧词汇等专业名词。

在得到多个子数据之后，并行的对多个子数据进行语音识别，得到语音识别结果。

在一种实现方式中，视频数据为教学视频，识别模板为教学视频所属学科对应的模板。在上述实施例中，可以将教学视频作为视频数据。可以在训练过程中国，对识别模板中的关键词汇进行总结，使得识别模板包含教学视频所属学科。

步骤130、根据语音识别结果确定多个关键词。

步骤120中每个子数据得到一个语音识别结果，每个语音识别结果中包含多个关键词汇，也包含常规词汇。如果语音识别结果由多个关键词汇组合，则可以将多个关键词汇确定为关键词。若语音识别结果为整句对应的文本，则需要对该文本进行分词，以得到多个关键词。

在上述实施例的基础上，对每个子数据的语音识别结果进行分词处理，得道多个关键词。

可以使用人工智能算法进行分词，如自然语言处理(Natural LanguageProcessing，NLP)算法等。分词处理可以将整句对应的文本划分为多个关键词。

步骤140、根据关键词确定视频数据的标签，为视频数据配置标签。

分别根据每个子数据确定关键词后，多个子数据的关键词之间可能存在重复。在上述实施例的基础上，可以将多个关键词进行去重处理；根据去重处理的关键词确定所述视频数据的标签。

从关键词中去掉重复的关键词，将剩余为重复的关键词作为视频数据的标签。为视频数据配置该标签，以便后续检索时可以根据该标签对视频数据进行检索。

本发明实施例提供的视频数据处理方法，提取视频数据中的音频数据；对音频数据进行语音识别，得到语音识别结果；根据语音识别结果确定多个关键词；根据关键词确定视频数据的标签，为视频数据配置标签。相对于目前需要由人工对视频数据添加标签，本发明能够将视频数据转换为音频数据，基于音频数据得到关键词，根据关键词确定视频数据的标签，实现机器自动化的为视频数据添加标签，无需人工添加标签，解放人工劳动力，同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置，提高视频数据的标签配置效率。

实施例二

图2为本发明实施例二提供的一种视频数据处理方法的流程图，本实施例可适用于为对视频数据进行检索的情况，该方法可以由计算机设备来执行，具体包括如下步骤：

步骤210、提取视频数据中的音频数据。

步骤220、对音频数据进行语音识别，得到语音识别结果。

步骤230、根据语音识别结果确定多个关键词。

步骤240、根据关键词确定视频数据的标签，为视频数据配置标签。

步骤250、当触发视频数据处理时，根据视频数据的标签和用户输入的检索词汇确定目标视频数据。

用户在对视频数据进行检索时，可以输入检索词汇。检索词汇往往是某个领域较为专业的专业词汇。例如某个成语、物理变量、化学元素、人工智能AI领域专业数据等。可以根据用户历史搜索记录确定用户的常规搜索领域，优先从该领域中检索与用户输入的检索词汇匹配的目标视频数据。

在检索时，使用用户输入的检索词汇与视频数据的标签进行比对。当用户输入了多个词汇时，从标签中查找与该多个词汇匹配度最大的一组标签，将该组标签对应的视频数据作为目标视频数据。其中，匹配度最大可以为相同词汇最多或则语义最接近。

本发明实施例提供的视频数据处理方法，提取视频数据中的音频数据；对音频数据进行语音识别，得到语音识别结果；根据语音识别结果确定多个关键词；根据关键词确定视频数据的标签，为视频数据配置标签。当触发视频数据处理时，根据视频数据的标签和用户输入的检索词汇确定目标视频数据。实现使用自动化配置的标签进行检索，由于自动化配置的标签是由音频数据进行语音识别后得到的，因此能够准确的表示视频数据内容。因此基于上述标签检索视频数据时，能够更加准确的查找到与用户预期查找内容相符的目标视频数据。

实施例三

图3为本发明实施例三提供的一种视频数据处理装置的结构示意图，本实施例可适用于为视频数据配置标签以及基于配置的标签进行检索的情况，该方法可以位于计算机设备来执行，具体包括：音频提取模块310、语音识别模块320、关键词确定模块330以及标签配置模块340。

音频提取模块310，用于提取视频数据中的音频数据；

语音识别模块320，用于对音频数据进行语音识别，得到语音识别结果；

关键词确定模块330，用于根据语音识别结果确定多个关键词；

标签配置模块340，用于根据关键词确定视频数据的标签，为视频数据配置标签。

在上述实施例的基础上，音频提取模块310用于：

对音频数据进行预处理，得到多个子数据；

分别将每个子数据输入至语音识别模型，得到语音识别结果，语音识别模型用于从子数据中识别出包含预设词汇的文本，文本作为语音识别结果。

在上述实施例的基础上，音频提取模块310用于：

分别将每个子数据输入至语音识别模型，以便语音识别模型根据子数据查找匹配的识别模板；

语音识别模型根据识别模板对子数据中的预设词汇进行识别，得到语音识别结果。

在上述实施例的基础上，视频数据为教学视频，识别模板为教学视频所属学科对应的模板。

在上述实施例的基础上，音频提取模块310用于：

消除音频数据首部和尾部的静音内容，得到第一数据；

对第一数据进行降噪处理，得到第二数据；

根据第二数据的时长确定时间窗口；

根据时间窗口对第二数据进行分帧，得到多个子数据。

在上述实施例的基础上，关键词确定模块330用于：

对每个子数据的语音识别结果进行分词处理，得道多个关键词；

相应的，根据关键词确定视频数据的标签，包括：

将多个关键词进行去重处理；

根据去重处理的关键词确定所述视频数据的标签。

在上述实施例的基础上，音频提取模块310用于：

使用音视频处理工具FFmpeg提取视频数据中的音频数据。

如图4所示，在上述实施例的基础上，还包括搜索模块350。搜索模块350用于当触发视频数据处理时，根据视频数据的标签和用户输入的检索词汇确定目标视频数据。

本发明实施例提供的视频数据处理装置，音频提取模块310提取视频数据中的音频数据；语音识别模块320对音频数据进行语音识别，得到语音识别结果；关键词确定模块330根据语音识别结果确定多个关键词；标签配置模块340根据关键词确定视频数据的标签，为视频数据配置标签。相对于目前需要由人工对视频数据添加标签，本发明能够将视频数据转换为音频数据，基于音频数据得到关键词，根据关键词确定视频数据的标签，实现机器自动化的为视频数据添加标签，无需人工添加标签，解放人工劳动力，同时机器自动化的配置标签能够更加快速的完成视频数据的标签配置，提高视频数据的标签配置效率。

本发明实施例所提供的视频数据处理装置可执行本发明任意实施例所提供的视频数据处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种视频数据处理终端的结构示意图，如图5所示，该视频数据处理终端包括处理器50、存储器51、输入装置52和输出装置53；视频数据处理终端中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；视频数据处理终端中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频数据处理方法对应的程序指令/模块(例如，视频数据处理装置中的音频提取模块310、语音识别模块320、关键词确定模块330、标签配置模块340以及搜索模块350)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行视频数据处理终端的各种功能应用以及数据处理，即实现上述的视频数据处理方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至视频数据处理终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置52可用于接收输入的数字或字符信息，以及产生与视频数据处理终端的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种视频数据处理方法，该方法包括：

提取视频数据中的音频数据；

对音频数据进行语音识别，得到语音识别结果；

根据语音识别结果确定多个关键词；

根据关键词确定视频数据的标签，为视频数据配置标签。

在上述实施例的基础上，对音频数据进行语音识别，得到语音识别结果，包括：

对音频数据进行预处理，得到多个子数据；

在上述实施例的基础上，分别将每个子数据输入至语音识别模型，得到语音识别结果，包括：

在上述实施例的基础上，对音频数据进行预处理，得到多个子数据，包括：

消除音频数据首部和尾部的静音内容，得到第一数据；

对第一数据进行降噪处理，得到第二数据；

根据第二数据的时长确定时间窗口；

根据时间窗口对第二数据进行分帧，得到多个子数据。

在上述实施例的基础上，根据语音识别结果确定多个关键词，包括：

相应的，根据关键词确定视频数据的标签，包括：

将多个关键词进行去重处理；

根据去重处理的关键词确定所述视频数据的标签。

在上述实施例的基础上，提取视频数据中的音频数据，包括：

使用音视频处理工具FFmpeg提取视频数据中的音频数据。

在上述实施例的基础上，在为视频数据配置标签之后，还包括：

当触发视频数据处理时，根据视频数据的标签和用户输入的检索词汇确定目标视频数据。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的视频数据处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频数据处理方法，其特征在于，包括：

提取视频数据中的音频数据；

对所述音频数据进行语音识别，得到语音识别结果；

根据所述语音识别结果确定多个关键词；

根据所述关键词确定所述视频数据的标签，为所述视频数据配置所述标签。

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据进行语音识别，得到语音识别结果，包括：

对所述音频数据进行预处理，得到多个子数据；

分别将每个子数据输入至语音识别模型，得到语音识别结果，所述语音识别模型用于从所述子数据中识别出包含预设词汇的文本，所述文本作为语音识别结果。

3.根据权利要求2所述的方法，其特征在于，所述分别将每个子数据输入至语音识别模型，得到语音识别结果，包括：

分别将每个子数据输入至语音识别模型，以便所述语音识别模型根据所述子数据查找匹配的识别模板；

所述语音识别模型根据所述识别模板对所述子数据中的预设词汇进行识别，得到语音识别结果。

4.根据权利要求3所述的方法，其特征在于，所述视频数据为教学视频，所述识别模板为所述教学视频所属学科对应的模板。

5.根据权利要求2所述的方法，其特征在于，所述对所述音频数据进行预处理，得到多个子数据，包括：

消除所述音频数据首部和尾部的静音内容，得到第一数据；

对所述第一数据进行降噪处理，得到第二数据；

根据所述第二数据的时长确定时间窗口；

根据所述时间窗口对所述第二数据进行分帧，得到多个子数据。

6.根据权利要求2所述的方法，其特征在于，所述根据所述语音识别结果确定多个关键词，包括：

相应的，所述根据所述关键词确定所述视频数据的标签，包括：

将所述多个关键词进行去重处理；

根据去重处理的关键词确定所述视频数据的标签。

7.根据权利要求1所述的方法，其特征在于，所述提取视频数据中的音频数据，包括：

使用音视频处理工具FFmpeg提取视频数据中的音频数据。

8.根据权利要求1所述的方法，其特征在于，在为所述视频数据配置所述标签之后，还包括：

当触发视频数据处理时，根据所述视频数据的标签和用户输入的检索词汇确定目标视频数据。

9.一种视频数据处理装置，其特征在于，包括：

音频提取模块，用于提取视频数据中的音频数据；

语音识别模块，用于对所述音频数据进行语音识别，得到语音识别结果；

关键词确定模块，用于根据所述语音识别结果确定多个关键词；

标签配置模块，用于根据所述关键词确定所述视频数据的标签，为所述视频数据配置所述标签。

10.根据权利要求9所述的装置，其特征在于，所述音频提取模块用于：

对所述音频数据进行预处理，得到多个子数据；

11.根据权利要求10所述的装置，其特征在于，所述音频提取模块用于：

12.根据权利要求11所述的装置，其特征在于，所述视频数据为教学视频，所述识别模板为所述教学视频所属学科对应的模板。

13.根据权利要求10所述的装置，其特征在于，所述音频提取模块用于：

消除所述音频数据首部和尾部的静音内容，得到第一数据；

对所述第一数据进行降噪处理，得到第二数据；

根据所述第二数据的时长确定时间窗口；

14.根据权利要求10所述的装置，其特征在于，所述关键词确定模块用于：

将所述多个关键词进行去重处理；

根据去重处理的关键词确定所述视频数据的标签。

15.根据权利要求9所述的装置，其特征在于，所述音频提取模块用于：

使用音视频处理工具FFmpeg提取视频数据中的音频数据。

16.根据权利要求9所述的装置，其特征在于，还包括搜索模块，用于当触发视频数据处理时，根据所述视频数据的标签和用户输入的检索词汇确定目标视频数据。

17.一种视频数据处理终端，其特征在于，所述视频数据处理终端包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的视频数据处理方法。

18.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的视频数据处理方法。