CN112738555B

CN112738555B - 视频处理方法及装置

Info

Publication number: CN112738555B
Application number: CN202011529290.0A
Authority: CN
Inventors: 谢畅; 李佩易
Original assignee: Shanghai Hode Information Technology Co Ltd
Current assignee: Shanghai Hode Information Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-03-29
Anticipated expiration: 2040-12-22
Also published as: WO2022134699A1; EP4207771A1; CN112738555A; EP4207771A4; US20230252786A1

Abstract

本说明书提供视频处理方法及装置，其中所述视频处理方法包括：从接收的目标视频中抽取至少两种模态信息；按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征；将所述至少两种模态特征进行融合，获得所述目标视频的目标特征，以便于后续用户基于目标特征进一步应用。

Description

视频处理方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种视频处理方法。本说明书同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的进步，移动设备不断革新，视频作为移动端信息传递的重要载体之一，视频数据越来越丰富，对视频数据的处理方式也越来越多样，但在数以亿计的海量视频中，并不是所有人都对其中每一帧视频包含的信息感兴趣，因此，准确提取视频中的特征信息尤为重要。现有的对视频特征的提取方式较为简单，提取范围较小，并未考虑提取视频的有效信息，使得提取的视频特征信息准确性较差，进而不便于用户对视频特征的使用。

发明内容

有鉴于此，本说明书实施例提供了一种视频处理方法。本说明书同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的提取视频特征的准确性较差的问题。

根据本说明书实施例的第一方面，提供了一种视频处理方法，包括：

从接收的目标视频中抽取至少两种模态信息；

按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征；

将所述至少两种模态特征进行融合，获得所述目标视频的目标特征。

根据本说明书实施例的第二方面，提供了一种视频处理装置，包括：

抽取模块，被配置为从接收的目标视频中抽取至少两种模态信息；

提取模块，被配置为按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征；

融合模块，被配置为将所述至少两种模态特征进行融合，获得所述目标视频的目标特征。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述视频处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述视频处理方法的步骤。

本说明书一个实施例提供的视频处理方法及装置，其中，所述视频处理方法包括从接收的目标视频中抽取至少两种模态信息；按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征；将所述至少两种模态特征进行融合，获得所述目标视频的目标特征；所述视频处理方法通过在目标视频中抽取至少两种模态信息，按照预设特征提取模型提取至少两种模态特征，并将两种模态特征进行融合，进而获得目标视频的目标特征，通过此种方式不仅可以准确地提取视频的多模态特征，进一步扩大视频中特征信息的提取范围，并且基于获得的多模态特征便于用户对视频的多模态特征的具体应用。

附图说明

图1是本说明书一实施例提供的一种视频处理方法的结构示意图；

图2是本说明书一个实施例提供的一种视频处理方法的流程图；

图3是本说明书一个实施例提供的一种视频处理方法的语音信息特征提取流程图；

图4是本说明书一个实施例提供的一种视频处理方法的文本信息特征提取流程图；

图5是本说明书一个实施例提供的一种视频处理方法的对象信息特征提取流程图；

图6是本说明书一个实施例提供的一种视频处理方法的画面信息特征提取流程图；

图7是本说明书一个实施例提供的一种视频处理方法的多模态信息融合示意图；

图8是本说明书一实施例提供的一种视频处理装置的结构示意图；

图9是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

OCR(英文全称：Optical Character Recognition，中文全称：光学字符识别)：电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。

目标检测(Object Detection)：目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。

自然语言处理(英文简称：NLP，英文全称：Natural Language Processing)：自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，它的研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

自动语音识别(英文简称：ASR，英文全称：Automatic Speech Recognition)：将人说话的声音自动转换为文本的过程。

语言模型(Language Model)：语言模型是根据语言客观事实而进行的语言抽象数学建模，是一种对应关系。语言模型与语言客观事实之间的关系，如同数学上的抽象直线与具体直线之间的关系。

词嵌入(Word Embedding)：嵌入是一种将文本中的词转换成数字向量的方法，为了使用标准机器学习算法来对它们进行分析，就需要把这些被转换成数字的向量以数字形式作为输入。

自动语音识别技术(英文简称：ASR，英文全称：Automatic Speech Recognition)：自动语音识别技是一种将人的语音转换为文本的技术。

多模态(Multimodal)：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。多模态指通过特定的方法实现处理和理解多源模态信息的能力。

特征(Feature)：原意指某事物异于其他事物的特点，在本文及同领域文献中指可以表征某种信息的抽象特性。

文本顺滑(Disfluency Detection)：文本顺滑指通过算法自动删除自动语音识别(ASR)结果中的不顺滑的词，从而得到更自然和通顺的句子。

卷积神经网络(英文简称：CNN，英文全称：Convolution Neural Network)：卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。

深度残差网络(英文简称：ResNet，英文全称：Deep Residual Network)：深度残差网络是来自微软研究院(Microsoft Research)的4位学者提出的一种卷积神经网络结构。

VGG(英文全称：Very Deep Convolutional Network for Large-Scale ImageRecognition，中文全称：深度卷积神经网络结构)：一种主要用于图像识别与分类。

Inception：谷歌(google)公司研究团队提出的一种深度卷积神经网络结构，主要用于图像分类与识别。

YOLO(英文全称：You Look Only Once)：一种单阶段(one-stage)目标检测网络结构，用于物体检测。

Faster-RCNN(英文全称：Faster Region Based Convolutional NeuralNetwork)：一种两阶段(two-stage)目标检测网络结构，用于物体检测。

SSD(英文全称：Single Shot MultiBox Detector)：一种单阶段(one-stage)目标检测网络结构，用于物体检测。

长短期记忆网络(英文简称：LSTM，英文全称：Long-Short Term Memory)：一种循环神经网络，是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的网络结构。

循环神经网络(英文简称：RNN，英文全称：Recurrent Neural Network)：一类以序列数据为输入，在序列的演进方向进行递归且所有节点按链式连接的神经网络结构。

视频作为移动端信息传递的重要载体之一，成为人们日常生活、学习、娱乐中不可缺少的一部分，视频信息主要有以下几个特征：第一，信息容量大，人们在相同时间能处理完的信息中，视频是携带信息量最大的一种；第二，信息呈多模态，视频信息天然具有多个维度，既包含每一帧的图像信息，字幕携带的文字信息，也包含音轨中携带的音频信息等等；第三，信息具有时序关联，视频中每一帧的或每一段携带的信息，通常与上一段、下一段视频内容是相关的，视频不仅每一帧承载信息，也通过上下文的关联携带更深层次、更复杂的信息。

视频信息对于观看者来说，是需要尽可能多地接收，但面对数以亿计的海量视频信息，并不是所有人都对其中每一帧包含的信息感兴趣。在具体任务比如视频检索、摘要，视频推荐、审核等任务中，只需要提取视频信息中感兴趣的部分。如何提取视频中的有效信息，来完成各类任务，成为一个需要解决的问题。

目前，图像/视频信息的提取、理解已成为比较热门的话题。本申请实施例也提供了一种对于视频中信息进行提取的技术。该技术包括但不限于目标检测技术、语音识别、三维卷积、异常检测、文字识别、目标跟踪等等。这些技术对于视频中信息的发现与理解，起到了很大作用，能在很多任务中代替人工，获得视频中存在的关键信息，辅助判断。

在本说明书中，提供了一种视频处理方法，本说明书同时涉及一种视频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本说明书一实施例提供的一种视频处理方法的结构示意图。

图1中的目标视频为服务器基于用户对于目标视频的特征提取请求而接收的视频；图1中的音频信息为该目标视频中的通过音轨分离后的音频信息，文本信息可以为该目标视频中的字幕文本或弹幕文本信息，对象信息可以为该目标视频中目标对象信息，画面信息可以为该目标视频画面中的画面内容信息；图1中的语音特征是基于音频信息提取出来的特征，字幕特征是基于文本信息提取出来的特征，目标特征是基于对象信息提取出来的特征，图像特征是基于画面信息提取出来的特征。

实际应用中，服务器将目标视频进行视频与音轨分离的操作，从中抽取出该目标视频的音频信息，并从该音频信息中按照预设语音特征提取模型提取音频信息的语音特征；服务器对该目标视频按照预设提取方式提取该目标视频中的目标视频帧，并从该目标视频帧中抽取文本信息，并从文本信息中按照预设文本特征提取模型提取文本信息的文本特征；服务器对该目标视频按照预设提取方式提取该目标视频的目标视频帧，并从该目标视频帧中抽取对象信息，并从该对象信息中按照预设图像特征提取模型提取目标特征；服务器从该目标视频帧中抽取画面信息，并从该画面信息中按照预设图像特征提取模型提取图像特征；最后，将获得的语音特征、字幕特征、目标特征以及图像特征进行融合，可获得该目标视频的多模态视频特征。

本说明书实施例中，通过在目标视频中抽取至少两种模态信息，按照预设特征提取模型提取至少两种模态特征，并将两种模态特征进行融合，进而获得目标视频的目标特征，通过此种方式不仅可以准确地提取视频的多模态特征，进一步扩大视频中特征信息的提取范围，并且基于获得的多模态特征便于用户对视频的多模态特征的具体应用。

参见图2，图2示出了根据说明书一实施例提供的一种视频处理方法的流程图，具体包括以下步骤。

步骤202：从接收的目标视频中抽取至少两种模态信息。

其中，目标视频可以理解为用户所需提取视频特征的任意类型、任意长度的视频。例如，短视频、电视剧剧集视频或者娱乐节目视频等；模态信息可以理解为目标视频中各类特征信息，比如，目标视频中的音频信息、文本信息、图像信息等。

需要说明的是，视频中的语音、视频、文字等信息的任意一种都可以称为一种模态信息。本说明书实施例中提供的视频处理方法可以抽出至少两种模态信息，即可为多模态信息。

实际应用中，为了保证从目标视频中抽取的更多的特征信息，以准确地表达目标视频的特征，即可从目标视频中抽出多种模态信息；具体的，所述从接收的目标视频中抽取至少两种模态信息，包括：

从接收的目标视频中抽取所述目标视频中的音频信息；

从接收的目标视频中抽取所述目标视频中的文本信息；

从接收的目标视频中抽取所述目标视频中的图像信息。

具体的，服务器从接收的目标视频中抽取目标视频的音频信息、文本信息以及图像信息。比如，服务器接收的目标视频为新闻视频，则从该新闻视频中抽取整个新闻视频的音频信息、文本信息以及图像信息。

本说明书实施例中，通过提取目标视频的音频信息、文本信息以及图像信息，以实现对目标视频的多模态信息的提取，以便于后续分别对该目标视频的多模态信息进行特征提取，实现快速地获取该目标视频的多特征信息。

为了快速且准确地获取目标视频中的音频信息，将获取的音频信息通过预设语音识别模型获取，以便于后续从音频信息中获取语音特征；具体的，所述从接收的目标视频中抽取所述目标视频中的音频信息，包括：

将接收的目标视频输入语音识别模型，获得所述目标视频中的初始音频信息；

基于文本顺滑模型和文本修正模型对所述初始音频信息进行调整，以获得所述目标视频中的音频信息。

其中，语音识别模型可以理解为任意一种将语音转化为文本的语音识别模型。比如，ASR模型等，本说明书实施例对该模型类型不做任何限定。

其中，文本顺滑模型可以理解为任意一种可去掉语音转换的文本信息中不通顺地方的文本处理模型，可以根据该模块的方法及对应数据建模修正文本信息中不流利的地方，本说明书实施例对文本顺滑模型的类型不做任何限定。

其中，文本修正模型可以理解为任意一种对文本语法通顺，但语义不通顺的文本信息进行修正的模型。比如，自然语言处理模型等，文本信息携带的语义具有上下文的关联性，将语句编码为特征后，该文本处理模块会根据文本的抽象信息以及上下文的抽象信息来判断文本是否符合语境，从而修正文本信息，本说明书实施例对文本修正模型的类型不做任何限定。

具体的，服务器将接收的目标视频输入语音识别模型，可获得该目标视频的初始音频信息，并将初始音频信息通过文本顺滑模型以及文本修正模型进行相应的调整，进而获得目标视频的音频信息。

实际应用中，根据语音识别模型获得的初始音频信息，该初始音频信息为文本信息，可能出现文本不通顺、感叹词或拟声词较多等情况，需要先利用文本顺滑模型对初始音频信息中不通顺的内容进行调整或将多余的拟声词或感叹词去掉，将处理后的文本信息再通过文本修正模型对文本内容进一步修正，以调整该文本信息的语义信息等内容。

例如，目标视频为新闻短视频，以从该新闻短视频提取的一段初始音频信息为例，将该新闻短视频通过ASR模型将音轨中的语音转换为文字，该文字信息为“啊啊张三今天去了一家宾馆呢，问前台务员水饺多少钱一碗”，将该文字信息作为初始音频信息；然后通过文本顺滑模型调整该初始音频信息中不通顺的地方或去掉过多的拟声词或感叹词，即可将该初始音频信息调整为“张三今天去了一家宾馆，问前台服务员水饺多少钱一碗”；最后通过自然语言处理模型对调整后的初始音频信息进一步修正，即可获得修正后的音频信息为“张三今天去了一家宾馆，问前台服务员睡觉多少钱一晚”，进而可获得最终该新闻短视频的一段音频信息。

本说明书实施例中，通过将目标视频输入语音识别模型获得初始音频信息，并将初始音频信息通过文本处理模型进一步进行修正，可以实现更加快速且准确地获取目标视频中音频信息对应的文本信息。

为了进一步获取目标视频的多模态信息，目标视频中的字幕或者弹幕等文本信息仍可呈现目标视频的重点特征信息，但并不是所有的视频帧均具有有效信息，因此可对目标视频中视频帧进行抽取，以便于后续获取目标视频的有效文本信息的特征；具体的，所述从接收的目标视频中抽取所述目标视频中的文本信息，包括：

按照预设提取方式从接收的目标视频提取目标视频帧；

将所述目标视频帧输入文本识别模型，获得所述目标视频中的初始文本信息；

基于文本顺滑模型和文本修正模型对所述初始文本信息进行调整，以获得所述目标视频中的文本信息。

其中，文本识别模型可以理解为任意一种可将目标视频中的字幕或弹幕等文本信息转化为文本内容的模型，比如，OCR光学识别模型等，可以利用字符识别方法将扫描的视频形状翻译成文字，本说明书实施例中对该模型类型不做任何限定。

需要说明的是，文本顺滑模型以及文本修正模型与上述实施例中所述的文本处理模型类型相同，均可实现对文本信息的进一步调整与处理，在此不做过多的限定。

具体实施时，服务器在获取到目标视频后，将按照预设提取方式提取该目标视频的目标视频帧，其中，预设提取方式可以是对目标视频进行抽帧处理，目的是抽取出该目标视频中关键的视频帧，作为该目标视频的目标视频帧，实际应用中，目标视频帧可表示该目标视频中的重点视频内容或者热点视频内容等。在获取到目标视频帧之后，将该目标视频帧输入文本识别模型中，可通过文本识别模型将展示在目标视频帧中的文本信息识别出来，形成目标视频的初始文本信息。将初始文本信息通过文本顺滑模型和文本修正模型进行调整，可获得目标视频的文本信息。

实际应用中，文本识别模型识别的文本信息，可能将不是字符的区域识别成了文字，导致了文本信息出现了乱码、形近字等错误的文本内容，通过文本顺滑模型可去除掉初始文本信息中的无关字符等信息，也可通过第二处理模型根据上下文的语义信息对错误识别的形近字进行修正，以获取目标视频中的文本信息。

沿用上例，目标视频为新闻短视频，将该新闻短视频通过抽帧处理，获得该新闻短视频的目标视频帧，以通过光学字符识别模型识别该目标视频帧中的弹幕内容为例，获得该目标视频帧的初始文本信息为“a什么曰期a”，再通过语言模型将该初始文本信息进行修正处理，可获得文本信息为“什么日期”。此外，该目标视频帧之间可能出现间隔太小的情况下，相邻视频帧的识别结果为：视频帧1：“什么日期”、视频帧2：“什么日期”、视频帧3：“a什么日期”、视频帧4：“b什么日期”、视频帧5：“哪一家宾馆”，在相邻的视频帧中按照内容进行投票，文本去重模块即可获得该目标视频帧的文本信息为“什么日期”。

本说明书实施例中，通过对目标视频进行提取目标视频帧获得初始文本信息，并将初始文本信息通过文本处理模型进一步进行修正，可以实现更加快速且准确地获取到目标视频的文本信息。

此外，为了获取视频的多模态信息，还可以获取视频中的图像信息，从视频图像的主要表现内容上看，也可以更好地获取到该视频的特征信息；具体的，所述从接收的目标视频中抽取所述目标视频中的图像信息，包括：

从接收的目标视频中抽取所述目标视频中的目标对象和/或视频帧画面信息。

其中，目标对象可以理解为目标视频中主要展现的对象，比如，新闻短视频中的目标对象可以为新闻主播、嘉宾、或者场景中的汽车等视频中主要展现的物体等。

具体实施时，服务器从目标视频中抽取视频中的目标对象信息和/或视频帧的画面信息，比如，在新闻短视频中，从该新闻短视频抽取的目标对象信息为汽车的信息，视频帧画面信息为道路信息等。

本说明书实施例中，通过获取目标视频的目标对象和/或视频帧画面信息组成目标视频中的多模态特征信息，以便于准确地确定目标视频的特征信息。

进一步地，所述从接收的目标视频中抽取所述目标视频中的目标对象和/或视频帧画面信息，包括：

按照预设提取方式从接收的目标视频提取目标视频帧；

将所述目标视频帧输入对象识别模型获得所述目标视频的目标对象以及所述目标对象的属性信息；和/或

将所述目标视频帧输入图像识别模型获得所述目标视频的视频帧画面信息。

其中，对象识别模型可以理解为任意一种能够检测出图像中出现的具体目标的模型，比如，YOLO、Faster-RCNN、SSD等目标检测模型，本说明书对此不做任何限定。

其中，图像识别模型可以理解为任意一种可以识别图像内容的模型，比如，ResNet、VGG、Inception等卷积神经网络模型，本说明书对此不做任何限定。

具体实施时，服务器在获取到目标视频后，将按照预设提取方式提取该目标视频的目标视频帧，具体的预设提取方式可参见上述实施例，在此不做过多赘述。将获取的目标视频帧输入对象识别模型可获得目标视频帧中的目标对象，以及该目标对象对应的属性信息。再将获取的目标视频帧输入对象识别模型获得目标视频的视频帧画面信息。

例如，目标视频为新闻短视频，将该新闻短视频进行抽帧处理获得目标视频帧后，将该目标视频帧输入目标检测模型中，检测出视频帧中存在的具体的车辆，并且得到车辆的位置信息以及名称。将该目标视频帧输入图像识别模型，可获得视频帧画面信息为道路信息。

本说明书实施例中，通过获取目标视频的对象信息以及视频帧画面信息，可以快速且准确地获取目标视频的图像信息，以便于后续准确地获取图像特征，反映图像需要传递的信息。

步骤204：按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征。

其中，预设特征提取模型可以理解为任意一个可以进行特征提取的模型，比如，CNN、Bert模型等，本说明书实施例对此不做任何限定；模态特征可以理解为从目标视频中提出的该目标视频中音频、图像、文本等特征。

具体实施时，按照预设特征提取模型从目标视频中获取的多个模态信息进行特征提取，获得多个模态特征，比如，对处理好的文本进行分句，分词，词嵌入的方式进行模态特征提取。

进一步地，所述按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征，包括：

按照预设语音特征提取模型提取所述音频信息的语音特征；

按照预设文本特征提取模型提取所述文本信息的文本特征；

按照预设图像特征提取模型提取所述图像信息的图像特征。

其中，预设语音特征提取模型可以理解为针对处理后的音频信息进行特征提取的模型，比如，分句、分词、词嵌入的方式或其他特征提取方式，本说明书对此不做过多的限定。

具体实施时，可参见图3，图3示出了本说明书一实施例提供的视频处理方法的语音信息特征提取流程图。

将接收的视频先进行音轨分离，获取该视频的音频信息；再通过语音识别模块将音频信息转换为文字，获得语音识别结果；再利用文本顺滑模块去掉语音识别结果中不通顺的地方、口头语等信息；再通过自然语言修正模块再进一步修正语音识别结果，进而获得处理后的语音文本信息，对处理好的语音文本信息进行分句、分词、词嵌入或其他特征提取方式，提取处理后的文本信息，进而得到音频信息的语音特征。

其中，预设文本特征提取模型可以理解为针对处理后的文本信息进行特征提取的模型，比如，分句、分词、词嵌入的方式或其他特征提取方式，本说明书对此不做过多的限定。

具体实施时，可参见图4，图4示出了本说明书一实施例提供的视频处理方法的文本信息特征提取流程图。

将接收到的视频进行抽帧处理，得到视频帧图像；再通过文字识别模型将抽帧后的视频帧图像进行光学字符识别，得到文本信息；再用语言模型对识别结果进行修正，去噪；对于获得的视频帧图像帧间的间隔太小的情况下，相邻的视频帧图像的文本信息可能相同，则利用文本去重模块进行去重处理，获得去重后的文本信息；再通过分句、分词、词嵌入或其他特征提取方式，提取文本信息，进而得到文本信息的文本特征。

其中，预设图像特征提取模型可以理解为针对图像信息进行特征提取的模型，可以提取图像中的对象特征以及画面特征，本说明书对此不做过多的限定。

具体实施时，所述按照预设图像特征提取模型提取所述图像信息的图像特征，包括：

按照第一预设图像特征提取模型提取所述目标对象的对象特征，和/或按照第二预设图像特征提取模型提取所述视频帧画面信息的画面特征。

其中，第一预设图像特征提取模型可以理解为考虑到目标对象的位置信息以及目标对象的名称进行特征提取的模型，比如，将目标对象的名称进行词嵌入，并与其位置信息进行联合编码，进行特征提取的模型。

其中，第二预设图像特征提取模型可以理解为基于神经网络对图像的特征进行提取的模型，包括但不限于ResNet，VGG，Inception等。

具体的，可按照第一预设图像特征提取模型提取对于视频帧图像中的目标对象的对象特征，和/或按照第二预设图像特征提取模型提取抽帧后的视频帧画面信息的画面特征。

本说明书实施例中，通过预设提取模型提取视频帧图像的对象特征以及画面特征，以实现更加准确地获取目标视频中的关键信息，以便于后续对于视频特征的使用。

为了更加准确地获取目标视频中的目标对象的对象特征，所述按照第一预设图像特征提取模型提取所述目标对象的对象特征，包括：

将所述目标视频的目标对象以及所述目标对象的属性信息输入第一预设图像特征提取模型，提取所述目标对象的对象特征。

其中，目标对象可以理解为目标视频中能够表现视频信息的对象，比如，交通视频画面中，目标对象可以为车辆，可以为行人等；属性信息可以理解为目标对象的位置信息以及名称信息等。

具体的，可通过目标检测模型对目标视频中的目标对象进行检测，检测出目标对象在目标视频的图像中存在的具体目标，得到目标的具体位置信息与名称，比如，交通道路的画面中，通过目标检测网络检测出该交通道路画面中的存在车辆与行人，那么车辆与行人则为该图像中存在的具体目标，可进一步获取该目标的具体位置信息，并将该目标的名称进行词嵌入，并与位置信息进行联合编码，进而获得该目标视频的目标对象的对象特征。

假设目标对象的位置信息为(x，y，w，h)，x和y代表目标对象的质心坐标，w和h分别代表目标的宽度和高度，因此我们就可以得到目标对象在图像中的相对位置，并检测出目标对象的名称，通过词嵌入进行编码，得到一段编码后的数值，假设v表示目标对象的名称，将这些数值拼接起来即可完成联合编码，如[v/x，y，w，h]，将联合编码后获得的信息作为该目标视频中目标对象的对象特征。

具体实施时，可参见图5，图5示出了本说明书一实施例提供的视频处理方法的对象信息特征提取流程图。

将接收到的视频通过抽帧处理，获得视频帧图像，通过目标检测模块对视频帧图像进行检测，检测出图像中存在的具体目标，得到目标的位置信息以及名称信息，对目标的名称进行词嵌入，并与位置信息进行联合编码，通过特征提取模块进行特征提取，获得视频的对象特征。

具体实施时，可参见图6，图6示出了本说明书一实施例提供的视频处理方法的画面信息特征提取流程图。

将接收到的视频通过抽帧处理，获得视频帧图像，并基于卷积的深度神经网络提取视频抽帧后每张图像的特征，作为图像的基础特征。

本说明书实施例中，基于视频的目标对象以及目标对象对应的位置信息，通过图像特征提取模型进行特征提取，不仅可以准确地表达视频中的特征信息，也可保证获得的信息的有效性。

步骤206：将所述至少两种模态特征进行融合，获得所述目标视频的目标特征。

其中，目标特征可以理解为目标视频所包括的多种模态特征融合后的特征。

为了获得多模态特征，将获得的多种模态特征进行融合处理，即可获得目标视频的目标特征；具体的，所述将所述至少两种模态特征进行融合，获得所述目标视频的目标特征，包括：

将所述语音特征、所述文本特征、所述对象特征以及所述画面特征进行融合，获得所述目标视频的目标特征。

具体的，将语音特征、文本特征、对象特征、以及画面特征进行融合，即可获得该目标视频的目标特征，需要说明的是，目标视频的目标特征不限于上述提取的语音特征、文本特征、对象特征以及画面特征，可以根据用户的实际需求，提取不同的特征信息进行融合，进而获得符合用户需求的目标特征，以便于后续对于目标视频的目标特征的进一步使用。

本说明书实施例中，通过对获得的视频特征进行融合，可以获得融合后的特征信息，可以更加准确地表达视频的特征信息，同时根据不同的用户需求，获取的不同的目标特征，以便于后续用户对目标特征的进一步使用。

为了将多种模态特征进行融合后，可获得固定大小的特征，可以对多种模态特征进行编码操作；具体的，所述将所述至少两种模态特征进行融合，获得所述目标视频的目标特征，包括：

将所述至少两种模态特征分别进行编码，将编码后的所述至少两种模态特征进行融合，获得所述目标视频的目标特征。

具体的，至少两种模态特征包括语音特征、文本特征、对象特征以及画面特征，并将获得的语音特征、文本特征、对象特征以及画面特征通过编码程序进行时序编码，并将编码后的语音特征、文本特征、对象特征以及画面特征融合在一区，形成视频的多模态特征，需要说明的是，编码程序可以为LSTM进行时序编码，也可以为其他任意一种可以实现编码操作的程序，需要说明的是，本说明书实施例中，采取LSTM进行时序编码，比如，编码后的特征可表示为[0.00001，-0.232151，0.2351123，0.215231]。目的是为了获得固定长度的视频多模态特征，其中，固定长度是指该特征形成后，特征长度固定，一方面是方便计算机读取，另一方面其具体编码数值也是可以根据具体的编码任务进一步调整，并且，将多个模态特征进行融合时，不需要考虑顺序信息，特征排序的先后本说明书实施例对此不做任何限定。

参见图7，图7示出了本说明书一实施例提供的视频处理方法的多模态信息融合示意图。

实际应用中，服务器在接收到目标视频之后，对目标视频的语音特征、文本特征、对象特征以及视频帧中的画面特征分别进行提取，再将获取到的语音特征进行LSTM编码，文本特征进行LSTM编码，对象特征进行LSTM编码，画面特征进行LSTM编码，将编码后的语音特征、文本特征、对象特征、画面特征进行融合，可获得多模态信息，用户可基于融合后的多模态信息应用至各个领域。

综上，本说明书实施例提供的视频处理方法，通过对目标视频的语音特征、文本特征、对象特征以及画面特征的提取与融合，进而获得目标视频的目标特征，通过此种方式不仅可以准确地提取视频的多模态特征，进一步扩大视频中特征信息的提取范围，并且基于获得的多模态特征便于用户对视频的多模态特征的具体应用。

与上述方法实施例相对应，本说明书还提供了视频处理装置实施例，图8示出了本说明书一实施例提供的一种视频处理装置的结构示意图。如图8所示，该装置包括：

抽取模块802，被配置为从接收的目标视频中抽取至少两种模态信息；

提取模块804，被配置为按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征；

融合模块806，被配置为将所述至少两种模态特征进行融合，获得所述目标视频的目标特征。

可选的，所述抽出模块802，被配置为：

从接收的目标视频中抽取所述目标视频中的音频信息；

从接收的目标视频中抽取所述目标视频中的文本信息；

从接收的目标视频中抽取所述目标视频中的图像信息。

可选的，所述提取模块804，被配置为：

按照预设语音特征提取模型提取所述音频信息的语音特征；

按照预设文本特征提取模型提取所述文本信息的文本特征；

按照预设图像特征提取模型提取所述图像信息的图像特征。

可选的，所述抽出模块802，被配置为：

可选的，所述提取模块804，被配置为：

可选的，所述融合模块806，被配置为：

可选的，所述抽出模块802，被配置为：

按照预设提取方式从接收的目标视频提取目标视频帧；

可选的，所述抽出模块802，被配置为：

按照预设提取方式从接收的目标视频提取目标视频帧；

可选的，所述提取模块804，被配置为：

可选的，所述融合模块806，被配置为：

本申请提供的所述视频处理装置，通过在目标视频中抽取至少两种模态信息，按照预设特征提取模型提取至少两种模态特征，并将至少两种模态特征进行融合，进而获得目标视频的目标特征，通过此种方式不仅可以准确地提取视频的多模态特征，进一步扩大视频中特征信息的提取范围，并且基于获得的多模态特征便于用户对视频的多模态特征的具体应用。

上述为本实施例的一种视频处理装置的示意性方案。需要说明的是，该视频处理装置的技术方案与上述的视频处理方法的技术方案属于同一构思，视频处理装置的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

图9示出了根据本说明书一实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接，数据库950用于保存数据。

计算设备900还包括接入设备940，接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图9所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备900可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。

其中，处理器920用于执行如下计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现所述视频处理方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述视频处理方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述视频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

从接收的目标视频中抽取至少两种模态信息，其中，所述至少两种模态信息至少包括音频信息，在从所述目标视频中抽取所述音频信息时，将所述目标视频输入语音识别模型，获得所述目标视频中的初始音频信息；基于文本顺滑模型和文本修正模型对所述初始音频信息进行调整，以获得所述目标视频中的音频信息，其中，所述文本修正模型为任意一种对文本语法通顺，但语义不通顺的文本信息进行修正的模型，所述文本修正模型根据文本的抽象信息以及上下文的抽象信息判断文本是否符合语境，从而修正文本信息；

2.根据权利要求1所述的视频处理方法，其特征在于，所述从接收的目标视频中抽取至少两种模态信息，还包括：

从接收的目标视频中抽取所述目标视频中的文本信息；

从接收的目标视频中抽取所述目标视频中的图像信息。

3.根据权利要求2所述的视频处理方法，其特征在于，所述按照预设特征提取模型提取所述至少两种模态信息对应的至少两种模态特征，包括：

按照预设语音特征提取模型提取所述音频信息的语音特征；

按照预设文本特征提取模型提取所述文本信息的文本特征；

按照预设图像特征提取模型提取所述图像信息的图像特征。

4.根据权利要求3所述的视频处理方法，其特征在于，所述从接收的目标视频中抽取所述目标视频中的图像信息，包括：

5.根据权利要求4所述的视频处理方法，其特征在于，所述按照预设图像特征提取模型提取所述图像信息的图像特征，包括：

6.根据权利要求5所述的视频处理方法，其特征在于，所述将所述至少两种模态特征进行融合，获得所述目标视频的目标特征，包括：

7.根据权利要求2-5任意一项所述的视频处理方法，其特征在于，所述从接收的目标视频中抽取所述目标视频中的文本信息，包括：

按照预设提取方式从接收的目标视频提取目标视频帧；

8.根据权利要求5所述的视频处理方法，其特征在于，所述从接收的目标视频中抽取所述目标视频中的目标对象和/或视频帧画面信息，包括：

按照预设提取方式从接收的目标视频提取目标视频帧；

9.根据权利要求8所述的视频处理方法，其特征在于，所述按照第一预设图像特征提取模型提取所述目标对象的对象特征，包括：

10.根据权利要求1或3所述的视频处理方法，其特征在于，所述将所述至少两种模态特征进行融合，获得所述目标视频的目标特征，包括：

11.一种视频处理装置，其特征在于，包括：

抽取模块，被配置为从接收的目标视频中抽取至少两种模态信息，其中，所述至少两种模态信息至少包括音频信息，在从所述目标视频中抽取所述音频信息时，将所述目标视频输入语音识别模型，获得所述目标视频中的初始音频信息；基于文本顺滑模型和文本修正模型对所述初始音频信息进行调整，以获得所述目标视频中的音频信息，其中，所述文本修正模型为任意一种对文本语法通顺，但语义不通顺的文本信息进行修正的模型，所述文本修正模型根据文本的抽象信息以及上下文的抽象信息判断文本是否符合语境，从而修正文本信息；

12.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，其中，所述处理器执行所述计算机可执行指令时实现权利要求1-11任意一项所述的视频处理方法的步骤。

13.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1-11任意一项所述视频处理方法的步骤。