CN110557678A

CN110557678A - 视频处理方法、装置及设备

Info

Publication number: CN110557678A
Application number: CN201810556777.4A
Authority: CN
Inventors: 陈思姣; 蒋帅; 刁世亮; 梁海金; 罗雨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2019-12-10
Anticipated expiration: 2038-05-31
Also published as: EP3499900A3; US20190370557A1; EP3993434A1; US10929683B2; CN110557678B; EP3499900A2

Abstract

本发明实施例提供一种视频处理方法、装置及设备。该方法包括：获取待处理的视频；对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果；对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果；根据所述第一处理结果和所述第二处理结果，确定所述视频中的实体；根据所述实体的索引信息，获得所述实体的关联信息；根据所述每帧图像对应的第二处理结果和所述实体的关联信息，生成用于描述所述每帧图像的第一文本信息；根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。本发明实施例提高了视频转换为目标文章的效率。

Description

视频处理方法、装置及设备

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种视频处理方法、装置及设备。

背景技术

随着视频行业的发展，互联网中的视频资源越来越丰富，用户可通过终端设备从互联网中下载视频或上传视频，并在该终端设备上播放并观看该视频。

目前，移动终端已经成为用户不可或缺的通信工具，另外，用户还可以通过移动终端从互联网获取视频、播放并观看该视频。但是，用户有时候所处的环境可能不适合该移动终端进行视频播放，例如，用户所处的环境比较安静，如果该移动终端进行视频播放，则会造成一定的影响。

现有技术通过人工编辑的方式,将视频转换为文本文章,以适合用户在不同环境下的需求,但是,人工处理的效率较低。

发明内容

本发明实施例提供一种视频处理方法、装置及设备，以提高视频转换为目标文章的效率。

第一方面，本发明实施例提供一种视频处理方法，包括：

获取待处理的视频；

对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果；

对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果；

根据所述第一处理结果和所述第二处理结果，确定所述视频中的实体；

根据所述实体的索引信息，获得所述实体的关联信息；

根据所述每帧图像对应的第二处理结果和所述实体的关联信息，生成用于描述所述每帧图像的第一文本信息；

根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

第二方面，本发明实施例提供一种视频处理装置，包括：

获取模块，用于获取待处理的视频；

音频处理模块，用于对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果；

图像处理模块，用于对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果；

确定模块，用于根据所述第一处理结果和所述第二处理结果，确定所述视频中的实体；

所述获取模块还用于：根据所述实体的索引信息，获得所述实体的关联信息；

生成模块，用于根据所述每帧图像对应的第二处理结果和所述实体的关联信息，生成用于描述所述每帧图像的第一文本信息；根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

第三方面，本发明实施例提供一种视频处理设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现第一方面所述的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本发明实施例提供的视频处理方法、装置及设备，通过对视频中的音频和图像分别进行处理，根据处理结果确定出该视频中的实体，进一步根据该实体的索引信息获得该实体的关联信息，根据处理结果和该实体的关联信息生成每帧图像的文本描述信息，根据该视频中的图像和每帧图像的文本描述信息可生成图文并茂的目标文章，相比于人工方式将视频转换为文本文章，提高了视频转换为目标文章的效率。

附图说明

图1为本发明实施例提供的一种应用场景的示意图；

图2为本发明实施例提供的视频处理方法流程图；

图3为本发明另一实施例提供的视频处理方法流程图；

图4为本发明另一实施例提供的视频处理方法流程图；

图5为本发明实施例提供的视频中图像的示意图；

图6为本发明实施例提供的视频处理装置的结构示意图；

图7为本发明实施例提供的视频处理设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明提供的视频处理方法，可以适用于图1所示的通信系统。如图1所示，该通信系统包括：接入网设备11、终端设备12以及服务器13。其中，接入网设备11可以是基站、中继站或接入点等设备，终端设备12可以是移动终端例如智能手机、个人计算机或平板电脑等。服务器13具体位于网络侧。终端设备12可通过接入网设备11从服务器13下载视频，或者，服务器13通过接入网设备11接收由终端设备12上传的视频。

本发明提供的视频处理方法，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图2为本发明实施例提供的视频处理方法流程图。本发明实施例针对现有技术的如上技术问题，提供了视频处理方法，该方法具体步骤如下：

步骤201、获取待处理的视频。

在本实施例中，视频可以是如图1所示的终端设备12通过接入网设备11从服务器13下载的视频，或者是服务器13通过接入网设备11接收的由终端设备12上传的视频。终端设备12或服务器13可根据本实施例所述的视频处理方法对该视频进行处理。下面以服务器13对该视频进行处理为例，该视频可以是该服务器13中预先存储的视频，或者，该服务器13还可以从与其关联的数据库中获取该视频。

步骤202、对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果。

可以理解，视频由音频和图像构成。可选的，该视频包括多帧音频和多帧图像。例如，服务器13获取到终端设备12上传的视频后，对该视频中的多帧音频进行音频处理得到每帧音频对应的第一处理结果。可选的，所述每帧音频对应的第一处理结果包括如下至少一种：所述每帧音频对应的声纹信息、所述每帧音频对应的文本信息、所述每帧音频在所述视频中的时间信息。

此处，为了和后续步骤中出现的用于描述所述每帧图像的文本信息加以区分，将用于描述所述每帧图像的文本信息记为第一文本信息，将所述每帧音频对应的文本信息记为第二文本信息。

例如，服务器13可分析出每帧音频中的声纹信息，可以理解，每个人的声纹信息有所不同，通过声纹信息可识别出相应的音频对应的是谁说的话。另外，服务器13还可以将该视频中的音频转换为文本信息，以及确定出该音频在该视频中出现的时间，例如，该视频的总时长为180秒，与该声纹信息匹配的人物在该180秒的第3秒到第6秒之间说了一句话，则服务器13可根据音频的特征，从该视频中分析出该音频出现的时间。

步骤203、对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果。

可选的，服务器13以秒为单元截取该视频中的一帧图像，并对该图像进行图像处理得到每帧图像对应的第二处理结果。可选的，所述每帧图像对应的第二处理结果包括如下至少一种：所述每帧图像中的字幕信息、人物信息、背景信息。其中，所述人物信息包括如下至少一种：人物动作信息、人物表情信息、人物名字。

例如，服务器13通过机器学习方法识别出每帧图像中有字符的区域，并根据有字符的区域确定出字幕信息。根据显著性识别算法可识别出图像中的人物区域和背景区域。另外，服务器13通过识别图像中人物的躯体部分可确定出人物动作信息，通过识别图像中人物的脸部可确定出人物表情信息。可以理解，并不是每帧图像中都包括人物。

另外，通过人物的脸部特征还可确定出人物名字，例如，服务器13或与服务器13关联的数据库中存储有大量的人物图像和该人物的属性信息例如名字，服务器13根据该视频对应的图像中人物的脸部特征，从服务器13或该数据库中查询获取与该脸部特征匹配的人物图像，进一步确定出与该脸部特征匹配的人物名字。

步骤204、根据所述第一处理结果和所述第二处理结果，确定所述视频中的实体。

服务器13根据上述第一处理结果和第二处理结果，确定该视频中的实体，该实体具体可以是该视频的名称例如电视剧名称，另外，该实体还可以是该视频中出现的人物。例如，该视频是某电视剧的一个片段，通过对该视频中每帧图像进行人脸识别，可确定出该视频中出现的人物。进一步，根据不同人物出镜的次数可确定出不同人物在该视频中的出镜比例，从而根据该出镜比例确定出该视频中的主角人物。此外，该视频的某几帧图像中还可能显示有该电视剧的名称，服务器13通过上述的图像处理可获取到该电视剧的名称。

步骤205、根据所述实体的索引信息，获得所述实体的关联信息。

例如，服务器13识别出该电视剧的名称为“隋唐演义”，该视频中频繁出现的人物为“王宝强”，则服务器13可将“隋唐演义”和“王宝强”作为索引信息，查询数据库获得该电视剧的相关历史背景和相关描述，以及“王宝强”在该电视剧中扮演的角色例如“李元霸”，进一步，服务器13还可以将“李元霸”作为索引信息，获得关于“李元霸”的介绍信息。

步骤206、根据所述每帧图像对应的第二处理结果和所述实体的关联信息，生成用于描述所述每帧图像的第一文本信息。

例如，该视频中的某一帧图像中包括人物“王宝强”，以及“王宝强”说的台词对应的字幕信息，服务器13根据“王宝强”可确定出“王宝强”扮演的角色为“李元霸”，进一步对该帧图像进行图像处理以确定“王宝强”在该帧图像中的动作和表情，从而生成对该帧图像进行描述的文本信息，该文本信息例如为“李元霸听罢笑着说：你的锤比我的锤大”。该视频中其他图像对应的描述信息的生成方法与此类似，此处不再赘述。

步骤207、根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

在本实施例中，目标文章的类型包括但不限于如下几种：视频片段描述类型、明星精彩剧照类型、视频转写类型。可选的，本实施例将视频片段描述类型记为第一类型，将视频转写类型记为第二类型，将明星精彩剧照类型记为第三类型。

当服务器13生成该视频中每帧图像的描述信息即第一文本信息后，可根据该视频中的多帧图像和每帧图像的描述信息，生成视频片段描述类型的目标文章，该视频片段描述类型的目标文章适用于人物之间对话的视频。

一种可能的方式中，根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

可以理解，该视频包括多帧图像，但是每帧图像的信息增益可能是不同的，根据每帧图像的信息增益，可从该多帧图像中筛选出至少一帧信息增益大于阈值的目标图像，例如，该视频一共包括180帧图像，去除分辨率较低的图像以及和目标文章主题不符的图像，可能只有10帧图像的信息增益大于阈值，因此，可将该10帧图像和每帧图像的描述信息构成视频片段描述类型的目标文章。例如，服务器13中预先存储有文章模板，该文章模板包括图像的放置区域，以及描述信息的放置区域，服务器13将该10帧图像和每帧图像的描述信息放置到该文章模板的相应区域，即可得到视频片段描述类型的目标文章，可以理解，该目标文章是图文并茂的文章。进一步，服务器13可以将该视频片段描述类型的目标文章推送给其他终端设备，使得其他终端设备在接收到该目标文章后，用户通过阅读该目标文章即可了解该视频的内容。此外，服务器13还可以将该视频和该视频对应的目标文章一起推送给其他终端设备，使得用户可以自由选择观看该视频，或阅读该视频对应的目标文章。

另外，在本实施例的基础上，还可以根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

可以理解，视频的类型有很多，其中包括解说类的视频，例如，演示做菜的解说类视频、知识讲座的解说类视频等。对于这类视频，服务器13识别出每帧图像中的字幕信息后，根据该视频中的多帧图像和每帧图像中的字幕信息可生成视频转写类型的目标文章。如果该视频没有字幕信息，服务器13还可以将该视频中的音频转换为文本信息，并根据多帧图像和由该音频转换成的文本信息生成视频转写类型的目标文章。

一种可能的方式中，根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

同理于视频片段描述类型的目标文章的生成方法，服务器13需要从该视频的多帧图像中筛选出至少一帧信息增益大于阈值的目标图像，具体方法及过程与上述内容一致，此处不再赘述。对于演示做菜的解说类视频，该目标图像可以是做菜过程中关键步骤的图像。

服务器13根据该至少一帧信息增益大于阈值的目标图像和每帧图像中的字幕信息可生成视频转写类型的目标文章；或者，服务器13根据该至少一帧信息增益大于阈值的目标图像和由该音频转换成的文本信息生成视频转写类型的目标文章。进一步，服务器13将该视频转写类型的目标文章推送给其他终端设备，或者，将该解说类视频和该解说类视频对应的目标文章一起推送给其他终端设备。

可以理解的，本实施例以服务器执行该视频处理方法为例，本实施例还可以适用终端设备执行该视频处理方法的场景，当终端设备对视频进行处理得到该视频对应的目标文章后，可以将该目标文章上传到服务器上，再由服务器将该目标文章推送给其他终端设备。

此外，服务器13还可以获取视频中的明星精彩剧照，并结合该视频中每帧图像的描述信息生成明星精彩剧照类型的目标文章，类似于该视频片段描述类型的目标文章，此处不再赘述。

或者，服务器13还可以查询某位明星出演过的各部电视剧，并从各部电视剧中获取该明星精彩剧照，并结合每部电视剧的描述信息生成明星精彩剧照类型的目标文章。

本发明实施例通过对视频中的音频和图像分别进行处理，根据处理结果确定出该视频中的实体，进一步根据该实体的索引信息获得该实体的关联信息，根据处理结果和该实体的关联信息生成每帧图像的文本描述信息，根据该视频中的图像和每帧图像的文本描述信息可生成图文并茂的目标文章，相比于人工方式将视频转换为文本文章，提高了视频转换为目标文章的效率。

图3为本发明另一实施例提供的视频处理方法流程图。在上述实施例的基础上，对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果的方法具体包括如下步骤：

步骤301、对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域。

在本实施例中，视频的每帧图像包括字幕区域，该字幕区域具体有如下几方面的特征：

空间特征：字幕区域在图像中的位置相对固定，通常字幕区域有如下三种对齐方式：左对齐、右对齐、居中对齐。

时间特征：字幕区域可容纳的字符个数是有限的，当该字幕区域中的文字信息越长时，该文字信息在视频中停留的时间越长，以便用户可以有足够的时间阅读完该文字信息。例如，该文字信息包括10个字符，该文字信息会持续出现在相邻的4帧图像中，若该文字信息包括3个字符，该文字信息可能只会出现在1帧图像中，此处只是示意性说明，并不限定文字信息的长度和该文字信息停留的时间长度的关系。

由于字幕区域具有以上特征，服务器13可根据该字幕区域的特征，确定出每帧图像的字幕区域。

步骤302、从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。

由于字幕区域在每帧图像中的位置是相对固定的，则当服务器13确定出每帧图像的字幕区域后，可从每帧图像的字幕区域中获取该帧图像中的字幕信息。

作为对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域的一种可行的实现方式包括如图4所示的如下步骤：

步骤401、对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像包括字符的字符区域。

可以理解，该视频的图像中不仅包括字幕区域，可能还有新闻、广告的显示区域、或该视频名称的显示区域，由于新闻、广告、视频名称由文字形式展现，而新闻、广告、视频名称可能分布在图像的不同区域，如图5所示，50表示该视频的某帧图像，其中，该视频名称位于区域51、字幕区域对应于区域52，新闻、广告等滚动信息位于区域53。

服务器13对图像50进行图像处理时，可确定出图像50中包括字符的字符区域，例如区域51、区域52和区域53，服务器13需要进一步确定区域51、区域52和区域53中的哪个区域是字幕区域即显示台词的区域。此处只是示意性说明，并不限定区域51、区域52和区域53在图像中的布局。

步骤402、对所述每帧图像中同一位置的字符区域进行叠加，得到所述位置的字符区域对应的叠加区域。

可选的，区域51、区域52和区域53在该每帧图像中的位置相对固定，服务器13可以对该视频中的多帧图像进行叠加，该多帧图像可以是该视频包括的所有图像，也可以是和图像50相邻的多帧图像。可以理解，对多帧图像进行叠加后，相当于对每帧图像中的区域51进行了叠加、对每帧图像中的区域52进行了叠加、以及对每帧图像中的区域53进行了叠加，从而得到区域51对应的叠加区域、区域52对应的叠加区域、以及区域53对应的叠加区域。

步骤403、根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域。

可以理解，区域51中显示的该视频名称例如电视剧名称长度是固定的；区域52中显示的字幕长度是变化的，例如部分图像显示的字幕长、部分图像显示的字幕短；区域53中显示的新闻、广告等滚动信息的长度也是变化的，但是由于大部分图像中显示的滚动信息可以填满区域53，少数图像中显示的滚动信息不足以填满区域53。因此，区域51对应的叠加区域的亮度是均匀分布的，区域52对应的叠加区域的亮度会有渐变，区域53对应的叠加区域的亮度不会有明显的渐变。因此，根据区域51、区域52和区域53分别对应的叠加区域的亮度分布可确定出字幕区域。

可选的，根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域，包括如下几种可行的实现方式：

一种可行的实现方式是：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减，则确定所述位置的字符区域为字幕区域。

例如，字幕区域以左对齐方式对齐，则字幕区域的左侧总会有字符显示，但是字幕区域的中部或右侧有时会有字符显示、有时没有字符显示，则字幕区域对应的叠加区域的亮度从该叠加区域的左侧开始向右侧衰减。因此，如果区域52对应的叠加区域满足亮度从该叠加区域的左侧开始向右侧衰减的条件，且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件，则确定区域52为字幕区域。

另一种可行的实现方式是：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减，则确定所述位置的字符区域为字幕区域。

例如，字幕区域以右对齐方式对齐，同理于左对齐方式，该字幕区域对应的叠加区域的亮度将从该叠加区域的右侧开始向左侧衰减。因此，如果区域52对应的叠加区域满足亮度从该叠加区域的右侧开始向左侧衰减的条件，且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件，则确定区域52为字幕区域。

再一种可行的实现方式是：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减，则确定所述位置的字符区域为字幕区域。

例如，字幕区域以居中对齐方式对齐，则字幕区域的中间位置总会有字符显示，但是字幕区域的左右两侧有时会有字符显示、有时没有字符显示，则字幕区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减。因此，如果区域52对应的叠加区域满足亮度从该叠加区域的中间向左右两侧衰减的条件，且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件，则确定区域52为字幕区域。

作为另一种可能的方式，本实施例还可以根据字幕区域的时间特征，从区域51、区域52和区域53中确定出字幕区域。

由于字幕区域中的文字信息越长，该文字信息在视频中停留的时间越长，例如，该视频的第3秒到第6秒之间的音频对应人物所说的一句话，该音频对应的字幕将停留在第3秒到第6秒之间的每帧图像上，即第3秒到第6秒之间每帧图像显示的字幕是相同的。但是，对于新闻、广告等滚动信息，连续数帧图像显示的新闻、广告等对应的文字是不同的。

可选的，服务器13将每帧图像中区域51显示的文字记为第一字符串，将区域52显示的文字记为第二字符串，将区域53显示的文字记为第三字符串。服务器13统计同一个第一字符串在该视频连续的几帧图像中出现，统计同一个第二字符串在该视频连续的几帧图像中出现，以及统计同一个第三字符串在该视频连续的几帧图像中出现。可以理解，如果区域51中显示的是视频名称，则该视频名称将出现在该视频的每帧图像中。如果区域52为字幕区域，则该区域52中同一个字幕可能会出现在连续的3到5帧图像中出现。如果区域53显示新闻、广告等滚动信息，则在连续数帧图像中区域53显示的字符串是不同的。

本发明实施例通过将视频转换为带有文字的文章，使得用户可以通过不同的方式获取视频内容，增加了用户获取视频内容的灵活性，另外，对于写作文章的用户而言，不需要逐字逐句的撰写文章，可以将选好的视频直接转换为文章，并上传到服务器，提高了用户撰写文章的效率。

图6为本发明实施例提供的视频处理装置的结构示意图。本发明实施例提供的视频处理装置可以执行视频处理方法实施例提供的处理流程，如图6所示，视频处理装置60包括：获取模块61、音频处理模块62、图像处理模块63、确定模块64、生成模块65；其中，获取模块61用于获取待处理的视频；音频处理模块62用于对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果；图像处理模块63用于对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果；确定模块64用于根据所述第一处理结果和所述第二处理结果，确定所述视频中的实体；获取模块61还用于：根据所述实体的索引信息，获得所述实体的关联信息；生成模块65用于根据所述每帧图像对应的第二处理结果和所述实体的关联信息，生成用于描述所述每帧图像的第一文本信息；根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

可选的，所述每帧音频对应的第一处理结果包括如下至少一种：所述每帧音频对应的声纹信息、所述每帧音频对应的第二文本信息、所述每帧音频在所述视频中的时间信息。

可选的，所述每帧图像对应的第二处理结果包括如下至少一种：所述每帧图像中的字幕信息、人物信息、背景信息。

可选的，所述人物信息包括如下至少一种：人物动作信息、人物表情信息、人物名字。

可选的，生成模块65包括：选择单元651和生成单元652；所述选择单元651用于根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；所述生成单元652用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

可选的，生成模块65还用于：根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

可选的，生成模块65包括：选择单元651和生成单元652；所述选择单元651用于根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；所述生成单元652用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

可选的，图像处理模块63对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果时，具体用于：对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域；从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。

可选的，图像处理模块63对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域时，具体用于：对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像包括字符的字符区域；对所述每帧图像中同一位置的字符区域进行叠加，得到所述位置的字符区域对应的叠加区域；根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域。

可选的，图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减，则确定所述位置的字符区域为字幕区域。

可选的，图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减，则确定所述位置的字符区域为字幕区域。

可选的，图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减，则确定所述位置的字符区域为字幕区域。

图6所示实施例的视频处理装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图7为本发明实施例提供的视频处理设备的结构示意图。本发明实施例提供的视频处理设备可以执行视频处理方法实施例提供的处理流程，如

图7所示，视频处理设备70包括存储器71、处理器72、计算机程序和通讯接口73；其中，计算机程序存储在存储器71中，并被配置为由处理器72执行以上实施例所述的视频处理方法。

图7所示实施例的视频处理设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的视频处理方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待处理的视频；

根据所述实体的索引信息，获得所述实体的关联信息；

2.根据权利要求1所述的方法，其特征在于，所述每帧音频对应的第一处理结果包括如下至少一种：

所述每帧音频对应的声纹信息、所述每帧音频对应的第二文本信息、所述每帧音频在所述视频中的时间信息。

3.根据权利要求1所述的方法，其特征在于，所述每帧图像对应的第二处理结果包括如下至少一种：

所述每帧图像中的字幕信息、人物信息、背景信息。

4.根据权利要求3所述的方法，其特征在于，所述人物信息包括如下至少一种：

人物动作信息、人物表情信息、人物名字。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章，包括：

根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；

根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

7.根据权利要求6所述的方法，其特征在于，所述根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章，包括：

根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果，包括：

对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域；

从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。

9.根据权利要求8所述的方法，其特征在于，所述对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域，包括：

对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像包括字符的字符区域；

对所述每帧图像中同一位置的字符区域进行叠加，得到所述位置的字符区域对应的叠加区域；

根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域。

10.根据权利要求9所述的方法，其特征在于，所述根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域，包括；

若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减，则确定所述位置的字符区域为字幕区域。

11.根据权利要求9所述的方法，其特征在于，所述根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域，包括；

若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减，则确定所述位置的字符区域为字幕区域。

12.根据权利要求9所述的方法，其特征在于，所述根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域，包括；

若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减，则确定所述位置的字符区域为字幕区域。

13.一种视频处理装置，其特征在于，包括：

获取模块，用于获取待处理的视频；

14.根据权利要求13所述的视频处理装置，其特征在于，所述每帧音频对应的第一处理结果包括如下至少一种：

15.根据权利要求13所述的视频处理装置，其特征在于，所述每帧图像对应的第二处理结果包括如下至少一种：

所述每帧图像中的字幕信息、人物信息、背景信息。

16.根据权利要求15所述的视频处理装置，其特征在于，所述人物信息包括如下至少一种：

人物动作信息、人物表情信息、人物名字。

17.根据权利要求13-16任一项所述的视频处理装置，其特征在于，所述生成模块包括：选择单元和生成单元；

所述选择单元用于根据所述多帧图像中每帧图像的信息增益，从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像；

所述生成单元用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。

18.根据权利要求13-16任一项所述的视频处理装置，其特征在于，所述生成模块还用于：

19.根据权利要求18所述的视频处理装置，其特征在于，所述生成模块包括：选择单元和生成单元；

所述生成单元用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。

20.根据权利要求13-16任一项所述的视频处理装置，其特征在于，所述图像处理模块对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果时，具体用于：

21.根据权利要求20所述的视频处理装置，其特征在于，所述图像处理模块对所述视频中多帧图像进行图像处理，确定所述多帧图像中每帧图像的字幕区域时，具体用于：

22.根据权利要求21所述的视频处理装置，其特征在于，所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：

23.根据权利要求21所述的视频处理装置，其特征在于，所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：

24.根据权利要求21所述的视频处理装置，其特征在于，所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化，从所述不同位置的字符区域中确定出字幕区域时，具体用于：

25.一种视频处理设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-12任一项所述的方法。

26.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-12任一项所述的方法。