CN108377418B

CN108377418B - 一种视频标注处理方法和装置

Info

Publication number: CN108377418B
Application number: CN201810118587.4A
Authority: CN
Inventors: 王嘉春
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: 3600 Technology Group Co ltd
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2021-06-18
Anticipated expiration: 2038-02-06
Also published as: CN108377418A

Abstract

本发明公开了一种视频标注处理方法、装置、电子设备和计算机可读存储介质。该方法包括：从指定视频中选取需要进行标注处理的帧；对于选取的一个帧，确定该帧图像中的实体对象；生成符合该帧图像中的实体对象的情绪状态的文本内容；将文本内容标注到该帧图像中的实体对象的对应位置。通过本技术方案，对视频图像中标注与指定对象情绪对应的文本内容，使得视频展示的效果更加丰富，增加视频的趣味性，且不需要用户手动标注，满足用户的需求，提高用户的使用体验。

Description

一种视频标注处理方法和装置

技术领域

本发明涉及计算机技术领域，具体涉及一种视频标注处理方法、装置、电子设备和计算机可读存储介质。

背景技术

随着电子设备的功能的日益增多，通过电子设备采集视频的功能也越来越完善。当用户想要播放指定视频或者录制好视频后，需要对视频进行编辑，以达到自己满意的效果，以便视频在播放时显示的是编辑后的播放效果。但是现如今的视频编辑，要不是用户手动进行标记，操作繁琐；要不就是当用播放视频时，对视频进行简单的编辑，无法满足用户的需求，降低用户的使用体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频标注处理方法、装置、电子设备和计算机可读存储介质。

根据本发明的一个方面，提供了一种视频标注处理方法，其中，该方法包括：

从指定视频中选取需要进行标注处理的帧；

对于选取的一个帧，确定该帧图像中的实体对象；

生成符合该帧图像中的实体对象的情绪状态的文本内容；

将所述文本内容标注到该帧图像中的实体对象的对应位置。

可选地，所述从指定视频中选取需要进行标注处理的帧包括：

对指定视频的各帧进行图像识别处理，从中选取有人或动物的帧；

或者，对指定的各相邻帧进行差分处理，从中选出包含有可移动对象的帧。

可选地，

所述确定该帧图像中的实体对象包括：识别该帧图像中的人、动物，分析并记录该帧图像中的各人、动物的面部特征；

所述将所述文本内容标注到该帧图像中的实体对象的对应位置包括：将文本内容标注到该帧图像中的面部特征与之匹配的人或动物的对应位置处。

可选地，该方法进一步包括：

根据所述指定视频的音频信号，记录该帧图像中的发出声音的实体对象生成声音特征；

所述将所述文本内容标注到该帧图像中的实体对象的对应位置包括：将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的人或动物的对应位置处。

可选地，所述生成符合该帧图像中的实体对象的情绪状态的文本内容包括：

将该帧图像输入到实现图像转文本的神经网络中，获取该神经网络输出的表示该帧图像中的实体对象的情绪状态的文本内容。

根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容。

可选地，该方法进一步包括：

保存所述指定视频的原始版本和标注版本；

在播放所述指定视频时，如果用户选择了标注版本，则播放该指定视频的标注版本，否则播放该指定视频的原始版本。

根据本发明的另一方面，提供了一种视频标注处理装置，其中，该装置包括：

选取单元，适于从指定视频中选取需要进行标注处理的帧；

确定单元，适于对于选取的一个帧，确定该帧图像中的实体对象；

生成单元，适于生成符合该帧图像中的实体对象的情绪状态的文本内容；

标注单元，适于将所述文本内容标注到该帧图像中的实体对象的对应位置。

可选地，

所述选取单元，适于对指定视频的各帧进行图像识别处理，从中选取有人或动物的帧；或者，对指定的各相邻帧进行差分处理，从中选出包含有可移动对象的帧。

可选地，

所述确定单元，适于识别该帧图像中的人、动物，分析并记录该帧图像中的各人、动物的面部特征；

所述标注单元，适于将文本内容标注到该帧图像中的面部特征与之匹配的人或动物的对应位置处。

可选地，该装置进一步包括：

声音特征生成单元，适于根据所述指定视频的音频信号，记录该帧图像中的发出声音的实体对象生成声音特征；

所述标注单元，适于将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的人或动物的对应位置处。

可选地，

所述生成单元，适于将该帧图像输入到实现图像转文本的神经网络中，获取该神经网络输出的表示该帧图像中的实体对象的情绪状态的文本内容。

可选地，

所述生成单元，适于根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容。

可选地，该装置进一步包括：

保存单元，适于保存所述指定视频的原始版本和标注版本；

播放单元，适于在播放所述指定视频时，如果用户选择了标注版本，则播放该指定视频的标注版本，否则播放该指定视频的原始版本。

根据本发明的又一方面，提供了一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据前述的方法。

根据本发明的再一方面，提供了一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现前述的方法。

根据本发明的技术方案，从指定视频中选取需要进行标注处理的帧；对于选取的一个帧，确定该帧图像中的实体对象；生成符合该帧图像中的实体对象的情绪状态的文本内容；将文本内容标注到该帧图像中的实体对象的对应位置。通过本技术方案，对视频图像中标注与指定对象情绪对应的文本内容，使得视频展示的效果更加丰富，增加视频的趣味性，且不需要用户手动标注，满足用户的需求，提高用户的使用体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的视频标注处理方法的流程示意图；

图2示出了根据本发明一个实施例的视频标注处理装置的结构示意图；

图3示出了根据本发明一个实施例的电子设备的结构示意图；

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的视频标注处理方法的流程示意图。如图1所示，该方法包括：

步骤S110，从指定视频中选取需要进行标注处理的帧。

对指定视频进行标注，主要是对视频中指定对象进行标注，在指定视频中，有的帧中没有指定对象，或者又的帧不需要进行标注，所以，在本实施例中，首先进行筛选，即从指定视频中选取出需要进行标注处理的帧。

步骤S120，对于选取的一个帧，确定该帧图像中的实体对象。

在本实施例中，是根据实体对象的情绪状态对实体对象进行文本内容的标注，为了进行情绪状态的分析以及标注，需要从选取的需要进行标出处理的帧中确定实体对象。

步骤S130，生成符合该帧图像中的实体对象的情绪状态的文本内容。

在本实施例中，可以分析实体对象的情绪状态，如高兴、愤怒等，然后根据实体对象的情绪状态生成相对应的文本内容。例如，从指定视频中识别到人脸的实体对象，当前帧中识别到人脸的情绪状态是高兴，则可以生成相应的文本内容是“我今天太开心了”。

步骤S140，将文本内容标注到该帧图像中的实体对象的对应位置。

在上述例子的基础上，将生成的文本内容标注到当前帧的人脸对应的位置，例如，为了不遮挡人脸，可以标注在人脸的旁边。

当从指定视频中选取出需要进行标注处理的多帧时，对每一帧都进行上述的处理，即确定每一帧图像中的实体对象，生成符合每一帧图像中的实体对象的情绪状态的文本内容，将文本内容标注对应的到每一帧图像中的实体对象的对应位置。例如，选取的需要进行标注处理的帧有帧1、帧2，从帧1中识别到人脸的情绪状态是悲伤，生成文本“我今天失恋了”；从帧2中识别到人脸的情绪状态是着急，生成文本“我的手机哪里去了”。则将生成的文本“我今天失恋了”标注在帧1中人脸的对应位置；将生成的文本“我的手机哪里去了”标注在帧2中人脸的对应位置。

可见，通过本实施例，对视频图像中标注与指定对象情绪对应的文本内容，使得视频展示的效果更加丰富，增加视频的趣味性，且不需要用户手动标注，满足用户的需求，提高用户的使用体验。

在本发明的一个实施例中，步骤S110中的从指定视频中选取需要进行标注处理的帧包括：对指定视频的各帧进行图像识别处理，从中选取有人或动物的帧；或者，对指定的各相邻帧进行差分处理，从中选出包含有可移动对象的帧。

本实施例中，通常情况下，情绪状态可以反映到人或者动物身上，因此，指定视频中包含有人或动物的帧应当被确定为是需要进行标注处理的帧。另外，指定视频中的可移动对象也可以进行标注，以实现标注处理后的指定视频的趣味性，因此，包含可移动对象的帧也被确定为需要进行标出处理的帧。这里的识别出可移动对象，需要对指定视频的相邻帧进行差分处理。

图像差分，就是把两幅图像的对应像素值相减，以削弱图像的相似部分，突出显示图像的变化部分。如果对象不移动则前后帧的视频图像相应的部分像素值是无差别的或者差别很小；如果对象移动，前后帧的视频图像的相应部分像素值的差别较大。

在本发明的一个实施例中，步骤S120中的确定该帧图像中的实体对象包括：识别该帧图像中的人、动物，分析并记录该帧图像中的各人、动物的面部特征。

步骤S140中的将文本内容标注到该帧图像中的实体对象的对应位置包括：将文本内容标注到该帧图像中的面部特征与之匹配的人或动物的对应位置处。

在本实施例中，实体对象可以是人、动作，因为要根据实体对象的情绪状态生成对应的文本内容，所以在本实施例中，在确定了图像中的实体对象后，还需要对实体对象的面部特征进行分析，以便获取实体对象的情绪状态。

在标注文本内容时，需要进行对应的标注。例如，在该帧图像中识别到指定对象1的面部特征表现的情绪状态是伤心，生成的文本内容是“我今天失恋了”，指定对象2的面部特征表现的情绪状态是着急，生成的文本内容是“你别哭啊，急死人”，则标注时，将文本内容“我今天失恋了”标准在指定对象1对应的位置，将文本内容“你别哭啊，急死人”标注在指定对象2对应的位置。

进一步地，在本发明的一个实施例中，图1所示的方法进一步包括：根据指定视频的音频信号，记录该帧图像中的发出声音的实体对象生成声音特征。

步骤S140中的将文本内容标注到该帧图像中的实体对象的对应位置包括：将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的人或动物的对应位置处。

在本实施例中，如果视频中的实体对象发出声音，则在标注时，需要将声音特征考虑。例如，该帧视频中的实体对象是一个人和一个小猫，根据其面部特征生成文本内容“主人，您的饭来了”以及文本内容“行了，跪安吧”，则进行标注时，当人在说话时，根据人的声音特征，将文本内容“主人，您的饭来了”标注在人对应的位置，在猫叫时，将文本内容“行了，跪安吧”标注在猫对应的位置。

在本发明的一个实施例中，步骤S130中的生成符合该帧图像中的实体对象的情绪状态的文本内容包括：将该帧图像输入到实现图像转文本的神经网络中，获取该神经网络输出的表示该帧图像中的实体对象的情绪状态的文本内容。

在本实施例中，实现图像转文本的神经网络是根据样本数据进行训练得到，当将图像输入到神经网络中，可以直接得到图像中的各实体对象对应的情绪状态的文本内容。也就是说，在该神经网络中已经实现了对图像中的实体对象的面部识别以及对应的文本内容的生成。

在本发明的一个实施例中，步骤S130中的生成符合该帧图像中的实体对象的情绪状态的文本内容包括：根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容。

实体对象的情绪状态虽然可以体现在实体对象的面部特征中，还可能会体现在音频内容或字幕内容中，本实施例中，生成文本内容时，还可以根据该帧图像中对应的音频内容和字幕内容，以便生成与指定视频当前场景匹配的文本内容，即生成应时应景的文本内容，进一步提高用户的使用体验。

例如，根据该帧图像中实体对象是人，对应的音频内容和字幕内容均是“我真是太高兴了”，而人的面部特征反而是哭泣的情绪，为了应时应景，则生成文本内容是“喜极而泣”。

在本发明的一个实施例中，图1所示的方法进一步包括：保存指定视频的原始版本和标注版本；在播放指定视频时，如果用户选择了标注版本，则播放该指定视频的标注版本，否则播放该指定视频的原始版本。

在本实施例中，用户可以根据需求进行选择是否进行带标注的视频播放，进一步提高用户的使用体验。所以，为了实现指定视频的原始版本或标注版本的播放，需要将这两版本均进行存储，以便根据用户的选择进行播放。例如，在用户选择该指定视频进行播放时，可以显示“原始视频”和“标注视频”的选择控件，以便用户选择，用户选择了标注版本，则播放该指定视频的标注版本，否则播放该指定视频的原始版本；或者，在该播放装置的设置选项中提供播放标注视频的功能开关选项，当该播放标注视频的功能是开启的状态，则播放指定视频的标注版本，如果该功能选项是关闭的状态，则播放指定视频的原始版本。

图2示出了根据本发明一个实施例的视频标注处理装置的结构示意图。如图2所示，该视频标注处理装置200包括；

选取单元210，适于从指定视频中选取需要进行标注处理的帧。

确定单元220，适于对于选取的一个帧，确定该帧图像中的实体对象。

生成单元230，适于生成符合该帧图像中的实体对象的情绪状态的文本内容。

标注单元，适于将文本内容标注到该帧图像中的实体对象的对应位置。

在本发明的一个实施例中，选取单元210，适于对指定视频的各帧进行图像识别处理，从中选取有人或动物的帧；或者，对指定的各相邻帧进行差分处理，从中选出包含有可移动对象的帧。

在本发明的一个实施例中，确定单元220，适于识别该帧图像中的人、动物，分析并记录该帧图像中的各人、动物的面部特征。

标注单元240，适于将文本内容标注到该帧图像中的面部特征与之匹配的人或动物的对应位置处。

进一步地，在本发明的一个实施例中，图2所示的装置进一步包括：

声音特征生成单元，适于根据指定视频的音频信号，记录该帧图像中的发出声音的实体对象生成声音特征。

标注单元240，适于将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的人或动物的对应位置处。

在本发明的一个实施例中，生成单元230，适于将该帧图像输入到实现图像转文本的神经网络中，获取该神经网络输出的表示该帧图像中的实体对象的情绪状态的文本内容。

在本发明的一个实施例中，生成单元230，适于根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容。

在本发明的一个实施例中，图2所示的装置进一步包括：

保存单元，适于保存指定视频的原始版本和标注版本。

播放单元，适于在播放指定视频时，如果用户选择了标注版本，则播放该指定视频的标注版本，否则播放该指定视频的原始版本。

本发明还提供了一种电子设备，其中，该电子设备包括：

处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行根据图1所示的及其各实施例中的视频标注处理方法

图3示出了根据本发明一个实施例的电子设备的结构示意图。如图3所示，该电子设备300包括：

处理器310；以及被安排成存储计算机可执行指令(程序代码)的存储器320，在存储器320中，有存储程序代码的存储空间330，用于执行根据本发明的方法步骤的程序代码330存储在存储空间330中，该程序代码在被执行时使处理器310执行根据图1所示的及其各实施例中的视频标注处理方法。

图4示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。如图4所示，该计算机可读存储介质400，存储一个或多个程序(程序代码)410，一个或多个程序(程序代码)410当被处理器执行时，用于执行根据本发明的方法步骤，即图1所示的以及其各实施例中的视频标注处理方法。

需要说明的是，图3所示的电子设备和图4所示的计算机可读存储介质的各实施例与图1所示的方法的各实施例对应相同，上文已有详细说明，在此不再赘述。

综上所述，根据本发明的技术方案，从指定视频中选取需要进行标注处理的帧；对于选取的一个帧，确定该帧图像中的实体对象；生成符合该帧图像中的实体对象的情绪状态的文本内容；将文本内容标注到该帧图像中的实体对象的对应位置。通过本技术方案，对视频图像中标注与指定对象情绪对应的文本内容，使得视频展示的效果更加丰富，增加视频的趣味性，且不需要用户手动标注，满足用户的需求，提高用户的使用体验。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的视频标注处理装置、电子设备和计算机可读存储介质中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图3示出了根据本发明一个实施例的电子设备的结构示意图。该电子设备300传统上包括处理器310和被安排成存储计算机可执行指令(程序代码)的存储器320。存储器320可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器320具有存储用于执行图1所示的以及各实施例中的任何方法步骤的程序代码340的存储空间330。例如，用于程序代码的存储空间330可以包括分别用于实现上面的方法中的各种步骤的各个程序代码340。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图4所述的计算机可读存储介质400。该计算机可读存储介质400可以具有与图3的电子设备中的存储器320类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常，存储单元存储有用于执行根据本发明的方法步骤的程序代码410，即可以由诸如310之类的处理器读取的程序代码，当这些程序代码由电子设备运行时，导致该电子设备执行上面所描述的方法中的各个步骤。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了A1、一种视频标注处理方法，其中，该方法包括：

从指定视频中选取需要进行标注处理的帧；

对于选取的一个帧，确定该帧图像中的实体对象；

生成符合该帧图像中的实体对象的情绪状态的文本内容；

将所述文本内容标注到该帧图像中的实体对象的对应位置。

A2、如A1所述的方法，其中，所述从指定视频中选取需要进行标注处理的帧包括：

A3、如A1所述的方法，其中，

A4、如A3所述的方法，其中，该方法进一步包括：

A5、如A1所述的方法，其中，所述生成符合该帧图像中的实体对象的情绪状态的文本内容包括：

A6、如A1所述的方法，其中，所述生成符合该帧图像中的实体对象的情绪状态的文本内容包括：

A7、如A1-A6中所述的方法，其中，该方法进一步包括：

保存所述指定视频的原始版本和标注版本；

本发明还公开了B8、一种视频标注处理装置，其中，该装置包括：

选取单元，适于从指定视频中选取需要进行标注处理的帧；

B9、如B8所述的装置，其中，

B10、如B8所述的装置，其中，

B11、如B10所述的装置，其中，该装置进一步包括：

B12、如B8所述的装置，其中，

B13、如B8所述的装置，其中，

B14、如B8-B13中所述的装置，其中，该装置进一步包括：

保存单元，适于保存所述指定视频的原始版本和标注版本；

本发明还公开了C15、一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据A1～A7中任一项所述的方法。

本发明还公开了D16、一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现A1～A7中任一项所述的方法。

Claims

1.一种视频标注处理方法，其中，该方法包括：

从指定视频中选取需要进行标注处理的帧；

对于选取的一个帧，识别该帧图像中的各实体对象，分析并记录该帧图像中的各实体对象的面部特征，所述实体对象为人、动物；

生成符合该帧图像中的实体对象的情绪状态的文本内容；

将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的实体对象的对应位置处；

所述生成符合该帧图像中的实体对象的情绪状态的文本内容包括：

根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容；

所述从指定视频中选取需要进行标注处理的帧包括：

2.如权利要求1所述的方法，其中，所述生成符合该帧图像中的实体对象的情绪状态的文本内容包括：

3.如权利要求1或2中所述的方法，其中，该方法进一步包括：

保存所述指定视频的原始版本和标注版本；

4.一种视频标注处理装置，其中，该装置包括：

选取单元，适于从指定视频中选取需要进行标注处理的帧；

确定单元，适于对于选取的一个帧，识别该帧图像中的各实体对象，分析并记录该帧图像中的各实体对象的面部特征，所述实体对象为人、动物；

标注单元，适于将所述文本内容标注到该帧图像中的实体对象的对应位置；

所述生成单元，适于根据该帧图像对应的音频内容以及字幕内容，生成符合该帧图像中的实体对象的情绪状态的文本内容；

所述选取单元，适于对指定视频的各帧进行图像识别处理，从中选取有人或动物的帧；或者，对指定的各相邻帧进行差分处理，从中选出包含有可移动对象的帧；

所述标注单元，适于将文本内容标注到该帧图像中的面部特征以及声音特征均与之匹配的实体对象的对应位置处。

5.如权利要求4所述的装置，其中，

6.如权利要求4或5中所述的装置，其中，该装置进一步包括：

保存单元，适于保存所述指定视频的原始版本和标注版本；

7.一种电子设备，其中，该电子设备包括：

处理器；以及，

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行根据权利要求1~3中任一项所述的方法。

8.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现权利要求1~3中任一项所述的方法。