CN114095782A

CN114095782A - 一种视频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN114095782A
Application number: CN202111340397.5A
Authority: CN
Inventors: 许静
Original assignee: Guangzhou Boguan Information Technology Co Ltd
Current assignee: Guangzhou Boguan Information Technology Co Ltd
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2022-02-25

Abstract

本申请实施例公开了一种视频处理方法、装置、计算机设备及存储介质。本方案通过设计多种字幕样式，将每一字幕样式与相关的情感关键词进行关联，以构建字幕样式库，进一步的，对视频内容进行语音识别和自然语言处理情感分析，确定出视频内容中每句话对应的情感关键词，然后根据情感关键词从字幕库中匹配出合适的字幕样式，为视频内容自动添加对应的字幕样式，减少视频处理的工作量，提高视频处理速度，从而提高视频处理效率。

Description

一种视频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种视频处理方法、装置、计算机设备及存储介质。

背景技术

随着用户需求与媒体技术的发展，视频的数量也呈指数级的爆炸增长，对视频进行剪辑也成为人们关注的视频处理方式。视频剪辑指的是使用软件对视频源进行非线性编辑，加入的文字、图片、背景音乐、特效、场景等素材与视频进行重混合，对视频源进行切割、合并，通过二次编码，生成具有不同表现力的新视频。视频剪辑通常应用于短视频制作、视频集锦等视频剪辑场景。

在相关技术中，在视频剪辑过程中可以为不同文字设置不同显示样式，但是需要剪辑工作者手动设置，当视频文件过大时，需要耗费大量人力资源，从而影响视频剪辑的效率。

发明内容

本申请实施例提供一种视频处理方法、装置、计算机设备及存储介质，可以提高视频处理效率。

本申请实施例提供了一种视频处理方法，包括：

从目标视频的音频信息中识别出至少一条语句内容；

对所述语句内容进行自然语言情感分析处理，得到所述语句内容对应的情感关键词；

从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式；

基于所述目标字幕样式，在所述目标视频中对所述语句内容所属视频画面的字幕进行处理，得到所述视频画面对应的处理后字幕。

相应的，本申请实施例还提供了一种视频处理装置，包括：

第一识别单元，用于从目标视频的音频信息中识别出至少一条语句内容；

第一处理单元，用于对所述语句内容进行自然语言情感分析处理，得到所述语句内容对应的情感关键词；

第一确定单元，用于从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式；

第二处理单元，用于基于所述目标字幕样式，在所述目标视频中对所述语句内容所属视频画面的字幕进行处理，得到所述视频画面对应的处理后字幕。

在一些实施例中，该装置还包括：

获取单元，用于获取所述语句内容在所述目标视频中对应的视频帧图像；

提取单元，用于从所述视频帧图像中提取人脸图像；

第二识别单元，用于对所述人脸图像进行脸部表情识别，得到脸部表情识别结果；

第二确定单元，用于基于所述脸部表情识别结果从多个情感关键词中确定目标情感关键词。

在一些实施例中，第二识别单元包括：

第一确定子单元，用于确定所述视频帧图像中所述语句内容对应的目标人物；

第一识别子单元，用于对所述目标人物的人脸图像进行脸部表情识别，得到脸部表情识别结果。

在一些实施例中，第一确定单元包括：

计算子单元，用于计算所述情感关键词与每一候选字幕样式的匹配度；

第二确定子单元，用于基于所述匹配度从所述多个候选字幕样式中确定所述目标字幕样式。

在一些实施例中，第一确定单元还包括：

第二识别子单元，用于对每一候选字幕样式进行识别处理，得到每一候选字幕样式对应的目标情感关键词。

在一些实施例中，计算子单元具体用于：

计算所述情感关键词与每一候选字幕样式对应的目标情感关键词的匹配度。

在一些实施例中，该装置还包括：

第三确定单元，用于确定所述视频画面在所述目标视频中的目标播放进度；

显示单元，用于当通过视频播放界面播放所述目标视频的播放进度达到所述目标播放进度时，在所述视频播放界面显示所述视频画面以及所述处理后字幕。

在一些实施例中，显示单元包括：

第三识别子单元，用于对所述视频画面中的人物进行面部表情识别，确定所述语句内容对应的目标人物；

第三确定子单元，用于从所述视频画面中确定位于所述目标人物附近的显示区域，并将所述处理后字幕叠加在所述显示区域，得到目标视频画面；

第一显示子单元，用于在所述视频播放界面显示所述目标视频画面。

在一些实施例中，显示单元包括：

第四确定子单元，用于从所述视频画面中确定字幕显示区域；

叠加子单元，用于将所述处理后字幕叠加在所述字幕显示区域，得到目标视频画面；

第二显示子单元，用于在所述视频播放界面显示所述目标视频画面。

在一些实施例中，显示子单元具体用于：

确定所述语句内容的显示时长；

基于所述显示时长在所述视频播放界面显示所述视频画面与所述处理后字幕。

在一些实施例中，第一处理单元包括：

第一处理子单元，用于对所述语句内容进行分词处理，得到所述语句内容中的词汇；

第二处理子单元，用于将所述词汇输入情感词典，通过所述情感词典对所述词汇进行分类处理，得到所述语句内容对应的情感关键词。

在一些实施例中，第一识别单元包括：

获取子单元，用于获取所述目标视频的音频信息，所述音频信息包括至少一音频片段；

第四识别子单元，用于对所述音频片段进行语音识别，得到所述音频片段对应的语句内容。

相应的，本申请实施例还提供了一种计算机设备，包括存储器，处理器及存储在储存器上并可在处理器上运行的计算机程序，其中，处理器执行本申请实施例任一提供的视频处理方法。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有多条指令，指令适于处理器进行加载，以执行如上的视频处理方法。

本申请实施例通过设计多种字幕样式，将每一字幕样式与相关的情感关键词进行关联，以构建字幕样式库，进一步的，对视频内容进行语音识别和自然语言处理情感分析，确定出视频内容中每句话对应的情感关键词，然后根据情感关键词从字幕库中匹配出合适的字幕样式，为视频内容自动添加对应的字幕样式，减少视频处理的工作量，提高视频处理速度，从而提高视频处理效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的流程示意图。

图2为本申请实施例提供的一种视频处理方法的语句处理流程示意图。

图3为本申请实施例提供的另一种视频处理方法的流程示意图。

图4为本申请实施例提供的一种视频处理装置的结构框图。

图5为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频处理方法、装置、存储介质及计算机设备。具体地，本申请实施例的视频处理方法可以由计算机设备执行，其中，该计算机设备可以为服务器等设备。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，该计算机设备可以是服务器，该服务器可以从目标视频的音频信息中识别出至少一条语句内容；对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词；从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式；基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。

基于上述问题，本申请实施例提供第一种视频处理方法、装置、计算机设备及存储介质，可以提高视频处理效率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本申请实施例提供一种视频处理方法，该方法可以由终端或服务器执行，本申请实施例以视频处理方法由服务器执行为例来进行说明。

请参阅图1，图1为本申请实施例提供的一种视频处理方法的流程示意图。该视频处理方法的具体流程可以如下：

101、从目标视频的音频信息中识别出至少一条语句内容。

在本申请实施例中，目标视频指的是需要进行编辑处理的视频，编辑处理可以包括视频剪辑，视频字幕添加等。目标视频可以为已经录制好的视频，为了提高视频播放量，可以对视频进行编辑处理，然后将编辑处理的视频通过视频播放平台进行播放，以供用户观看。

其中，目标视频包括影像信息，也即视频画面，和音频信息，也即视频声音。

在一些实施例中，为了提高语音识别效率，步骤“从目标视频的音频信息中识别出至少一条语句内容”，可以包括以下操作：

获取目标视频的音频信息；

对音频片段进行语音识别，得到音频片段对应的语句内容。

具体的，可以从目标视频的视频资源文件中获取音频文件，然后从音频文件中获取每一段语音对应的音频片段，得到多个音频片段。

进一步的，对每一音频片段进行语音识别处理，即可以得到每一音频片段对应的语句内容。

例如，音频信息中可以包括：语音片段A，语音片段B，语音片段C等，对每一语音片段进行语音识别，得到语音片段A对应的语句内容可以为“太搞笑了”，语音片段B对应的语句内容可以为“你是不是欠打”，语音片段C的语句内容可以为“好了，别生气了”，以此，可以得到音频信息对应的所有语句内容。

102、对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词。

在获取到语句内容后，可以对语句内容进行自然语言情感分析处理，利用构建好的情感词典，对语句内容进行情感分类，提炼出该语句内容对应的情感关键词。

其中，情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术，对带有情感色彩的主观性文本进行分析、处理和抽取的过程。

具体的，情感分类又称情感倾向性分析，是指对给定的文本，识别其中主观性文本的倾向是肯定还是否定的，或者说是正面还是负面的。通常文本存在大量的主观性文本和客观性文本。客观性文本是对事物的客观性描述，不带有感情色彩和情感倾向，主观性文本则是作者对各种事物的看法或想法，带有作者的喜好厌恶等情感倾向。情感分类的对象是带有情感倾向的主观性文本，因此情感分类首先要进行文本的主客观分类。文本的主客观分类主要以情感词识别为主，利用不同的文本特征表示方法和分类器进行识别分类，对文本事先进行主客观分类，能够提高情感分类的速度和准确度。目前主观性文本情感倾向性分析的方式可以包括基于语义的情感词典方法和基于机器学习的方法。在本申请实施例中，为了降低情感分类难度，可以采用基于语义的情感词典方法对文本内容进行情感分类。

其中，情感词典的构建是情感分类的前提和基础，目前在实际使用中，可将情感词典归为4类，包括：通用情感词、程度副词、否定词、领域词。情感词典的构建方法主要是利用已有电子词典扩展生成情感词典。利用语义相似度计算方法计算词语与基准情感词集的语义相似度，以此推断该词语的情感倾向。

在一些实施例中，为了提高语句情感分类的准确性，步骤“对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词”，可以包括以下流程：

对语句内容进行分词处理，得到语句内容中的词汇；

将词汇输入情感词典，通过情感词典对词汇进行分类处理，得到语句内容对应的情感关键词。

其中，基于情感词典的方法，先对文本进行分词和停用词处理等预处理，再利用先构建好的情感词典，对文本进行字符串匹配，从而挖掘文本中的正面和负面信息。

在本申请实施例中，情感词典可以使用BosonNLP情感词典，BosonNLP情感词典是基于网络数据来源构建的情感词典，以及知网情感词典等。或者也可以通过语料自行训练情感词典。

具体的，基于情感词典的文本匹配算法包括：逐个遍历分词后的语句中的词语，如果词语命中词典，则进行相应权重的处理。正面词权重为加法，负面词权重为减法，否定词权重取相反数，程度副词权重则和它修饰的词语权重相乘，利用最终输出的权重值，就可以区分语句内容是正面、负面还是中性情感。

例如，请参阅图2，图2为本申请实施例提供的一种视频处理方法的语句处理流程示意图。在图2中，首先获取语句文本，对语句文本进行分词处理，得到语句文本包括的词汇。然后将词汇输入情感词典，预先在情感词典中添加积极、消极词汇，以及否定词、程度副词，通过情感词典对输入的词汇进行分析，计算输入词汇在各情感词的权重值，将最大权重值对应的情感词作为语句文本对应的情感关键词。

103、从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式。

其中，候选字幕样式指的是视频画面的字幕显示的表现形式，候选字幕样式可以为视频处理人员预先进行设计，或者可以为通过网络进行获取。其中，字幕是指以文字形式显示电视、电影等视频作品中的对话内容，也可以指影视作品后期加工的文字。

在一些实施例中，为了快速选取语句内容对应的字幕样式，步骤“从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式”，可以包括以下操作：

计算情感关键词与每一候选字幕样式的匹配度；

基于匹配度从多个候选字幕样式中确定目标字幕样式。

具体的，计算情感关键词与每一候选字幕样式的匹配度，也即计算情感关键词与候选字幕样式对应的情感关键词的匹配度，进一步的，确定与情感关键词匹配度最高的候选字幕样式，即可以得到目标字幕样式。

例如，候选字幕样式可以包括：第一字幕样式，第二字幕样式，第三字幕样式等，其中，第一字幕样式对应的情感关键词可以为第一情感关键词，第二字幕样式对应的情感关键词可以为第二情感关键词，第三字幕样式对应的情感关键词可以为第三情感关键词，然后分别计算语句内容对应的情感关键词与各候选字幕样式对应的情感关键词的匹配度，得到语句内容对应的情感关键词与第一情感关键词的匹配度可以为100％，与第二情感关键词的匹配度可以为30％，与第一情感关键词的匹配度可以为0，则可以确定匹配度最高的为第一情感关键词，则可以确定第一情感关键词对应的第一字幕样式为目标字幕样式。

在一些实施例中，若候选字幕样式为视频处理人员预先设计，则可以直接标记每一候选字幕样式对应的情感关键词；若候选字幕样式为通过网络获取的，则需要判断候选字幕样式对应的情感关键词，则在步骤“计算情感关键词与每一候选字幕样式的匹配度”之前，还可以包括以下步骤：

对每一候选字幕样式进行识别处理，得到每一候选字幕样式对应的目标情感关键词；

则步骤“计算情感关键词与每一候选字幕样式的匹配度”，可以包括以下操作：

计算情感关键词与每一候选字幕样式对应的目标情感关键词的匹配度。

具体的，对候选字幕样式进行识别处理，可以是对候选字幕样式的图像进行识别，从而确定该候选字幕样式对应的情感关键词。然后可以执行步骤计算情感关键词与每一候选字幕样式的匹配度。

在一些实施例中，若分析出语句内容对应多个情感关键词，为了进一步确定语句内容对应的准确情感关键词，在步骤“从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式”之前，还可以包括以下操作：

获取语句内容在目标视频中对应的视频帧图像；

从视频帧图像中提取人脸图像；

对人脸图像进行脸部表情识别，得到脸部表情识别结果；

基于脸部表情识别结果从多个情感关键词中确定目标情感关键词。

其中，视频帧图像指的是目标视频中语句内容对应的音频关联的视频帧。具体的，可以通过语句内容对应的音频在目标视频中的时间戳，确定该时间戳对应的视频帧，从而可以得到视频帧图像。

进一步的，对该视频帧图像进行人脸识别处理，得到视频帧图像中包括的人脸图像，然后对人脸图像进行脸部表情识别，得到脸部表情识别结果，其中，脸部表情识别结果可以包括脸部表情对应的情感关键词。最后，结合脸部表情识别结果从语句内容对应的多个情感关键词中选取准确的情感关键词，得到目标情感关键词。

当对语句内容进行自然语言情感分析处理后，得到语句内容对应多个情感关键词，多个情感关键词可能为不同情感方向的情感关键词，比如，多个情感关键词可以包括忧伤，绝望等，此时，为了进一步确定语句内容对应的正确情感关键词，可以结合对语句内容对应的视频帧图像进行图像分析，可以为对视频帧图像中的人脸表情进行识别，得到人脸表情对应的情感关键词，然后结合自然语言情感分析得到的情感关键词，从而可以确定语句内容对应的目标文本关键词。

例如，对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词包括：忧伤，绝望，然后对目标视频中语句内容对应的视频帧图像进行人脸表情识别，得到人脸表情识别结果为：忧伤，则可以确定语句内容对应的目标情感关键词可以为：忧伤，以此，可以得到准确的情感关键词。

在一些实施例中，当视频帧图像中包括多个人脸图像时，由于语句内容可能为其中一人脸图像对应的人物进行的说话，为了提高表情识别准确性，步骤“对人脸图像进行脸部表情识别，得到脸部表情识别结果”，可以包括以下操作：

确定视频帧图像中语句内容对应的目标人物；

对目标人物的人脸图像进行脸部表情识别，得到脸部表情识别结果。

其中，语句内容对应的目标人物指的是视频帧图像中进行讲话的人物，且讲话的内容为该语句内容。具体的，可以通过对视频帧图像中的人物进行口型识别或者对视频帧图像对应的音频进行音色识别，从而可以确定语句内容对应的说话人物，也即目标人物。

具体的，对视频帧图像的人脸图像进行表情识别指的是对目标人物的脸部图像进行表情识别，得到目标人物的脸部表情识别结果。

104、基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。

其中，视频画面指的是包括有语句内容对应的字幕的视频帧。具体的，基于目标字幕样式对视频画面的字幕进行处理，也即为视频画面的字幕添加目标字幕样式，从而可以得到视频画面中的处理后字幕。

在一些实施例中，为了提高用户的视频观看体验，在步骤“基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理”之后，还可以包括以下步骤：

确定视频画面在目标视频中的目标播放进度；

当通过视频播放界面播放目标视频的播放进度达到目标播放进度时，在视频播放界面显示视频画面以及处理后字幕。

其中，目标播放进度指的是视频画面在目标视频的播放时间轴上的时间点，比如，目标视频的播放时间轴的时间长度可以为1小时，目标播放进度可以为播放时间轴上的第30分钟。

其中，视频播放界面指的是目标视频的播放界面，当视频播放界面中目标视频的播放进度达到目标播放进度时，也即需要显示语句内容对应的视频画面时，则可以在视频播放界面显示视频画面以及处理后字幕。

例如，语句内容可以为“太好笑了”，该语句内容对应的目标字幕样式可以为开心字幕样式，获取该语句内容在目标视频中的目标视频画面，然后在目标视频画面中为文本“太好笑了”添加开心字幕样式，得到添加字幕样式后的目标视频画面。进一步确定目标视频画面的播放进度可以在目标视频的播放时间的第30分钟，则在播放目标视频时，当播放进度达到第30分钟时，在视频播放界面显示添加字幕样式后的目标视频画面，增加视频趣味性。

在一些实施例中，视频画面中可以包括至少一个人物，则视频画面的字幕的文本可以为视频画面中的人物进行的讲话，为了确定视频播放界面中字幕显示的合适位置，步骤“在视频播放界面显示视频画面以及处理后字幕”，可以包括以下操作：

对视频画面中的人物进行面部表情识别，确定文本内容对应的目标人物；

从视频画面中确定位于目标人物附近的显示区域，并将处理后字幕叠加在显示区域，得到目标视频画面；

在视频播放界面显示目标视频画面。

其中，对视频画面中的人物进行面部表情识别可以是对人物的口型进行识别，通过口型判断正在讲话的人物，其中，讲话内容可以为语句内容，即可以得到语句内容对应的目标人物。

进一步的，从视频画面中识别目标人物所在的区域，然后获取该区域附近的区域，可以为该区域的上方区域，下方区域，左方区域或者右方区域等，以得到显示区域，然后将添加字幕样式的语句内容，也即处理后的字幕叠加到该显示区域，以生成目标视频画面，最后，在视频播放界面显示该目标视频画面。

在一些实施例中，当视频画面中不包括人物时，为了确定处理后字幕的显示位置，步骤“在视频播放界面显示视频画面以及处理后字幕”，可以包括以下操作：

从视频画面中确定字幕显示区域；

将处理后字幕叠加在字幕显示区域，得到目标视频画面；

在视频播放界面显示目标视频画面。

其中，字幕显示区域指的是预先设置的默认字幕放置区域，或者，字幕显示区域可以通过对视频画面进行识别，选取出的视频画面中的非重要内容区域，以避免遮挡视频画面的内容。

进一步的，将处理后字幕叠加在视频画面的显示区域，以生成目标视频画面，最后，在视频播放界面显示该目标视频画面。

在一些实施例中，为了保证视频画面的字幕显示效果，步骤“在视频播放界面显示视频画面以及处理后字幕”，可以包括以下操作：

确定语句内容的显示时长；

基于显示时长在视频播放界面显示视频画面与处理后字幕。

其中，语句内容的显示时长指的是语句内容的文本以字幕形式显示在视频播放界面的时长，比如可以为3秒等。

进一步的，在视频播放界面显示视频画面时，持续显示该视频画面的时间为显示时长。

本申请实施例公开了一种视频处理方法，该方法包括：从目标视频的音频信息中识别出至少一条语句内容；对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词；从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式；基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。本申请实施例通过设计多种字幕样式，将每一字幕样式与相关的情感关键词进行关联，以构建字幕样式库，进一步的，对视频内容进行语音识别和自然语言处理情感分析，确定出视频内容中每句话对应的情感关键词，然后根据情感关键词从字幕库中匹配出合适的字幕样式，为视频内容自动添加对应的字幕样式，减少视频处理的工作量，提高视频处理速度，从而提高视频处理效率。

根据上述介绍的内容，下面将举例来进一步说明本申请的视频处理方法。请参阅图3，图3为本申请实施例提供的另一种视频处理方法的流程示意图，以该视频处理方法应用综艺视频的后期编辑场景为例，具体流程可以如下：

201、获取目标综艺视频的音频信息，并对音频信息进行语音识别，得到多个语句文本。

在本申请实施例中，综艺视频指的是预先录制视频，然后对录制的视频进行剪辑处理，得到的视频。其中，目标综艺视频的音频信息包括该目标综艺视频录制过程中的所有音频片段。然后将获取到的音频信息进行语音识别处理，得到音频信息对应的多个语句文本，其中，语句文本可以为目标综艺视频中视频画面中的人物的说话内容或者旁白内容等。

例如，获取目标综艺视频的音频信息，通过对音频信息进行语音识别处理，得到音频信息中包括语句文本为：第一语句文本，第二语句文本，第三语句文本，第四语句文本。

202、对每一语句文本进行自然语言情感分析，确定每一语句文本对应的情感关键词。

进一步的，对每一语句文本进行自然语言情感分析，具体可以参见上述实施例，在此不多做说明。

其中，情感关键词指的是表现人物情感的词汇，比如，情感关键词可以为：开心，生气，悲伤，惊讶，哭泣等。

例如，语句文本包括：第一语句文本，第二语句文本，第三语句文本，第四语句文本，通过对每一语句文本进行自然语言情感分析处理，得到第一语句文本对应的情感关键词可以为：开心，第二语句文本对应的情感关键词可以为：生气，第三语句文本对应的情感关键词可以为：悲伤，第四语句文本对应的情感关键词可以为：哭泣。

203、基于每一语句文本对应的情感关键词，从字幕样式库中为每一语句文本选取对应的目标字幕样式。

在本申请实施例中，视频剪辑人员预先设计多种字幕样式，并为每一设计的字幕样式标记情感关键词，以得到字幕样式库。

例如，字幕样式库中可以包括：第一字幕样式，第二字幕样式，第三字幕样式，第四字幕样式，第五字幕样式。其中，第一字幕样式标记的情感关键词可以为开心，第二字幕样式标记的情感关键词可以为生气，第三字幕样式标记的情感关键词可以为悲伤，第四字幕样式标记的情感关键词可以为惊讶，第五字幕样式标记的情感关键词可以为哭泣。

在确定每一语句文本对应的情感关键词后，可以从字幕样式库中选取与每一语句文本对应的情感关键词相匹配的情感关键词对应的字幕样式。

例如，第一语句文本对应的情感关键词可以为：开心，第二语句文本对应的情感关键词可以为：生气，第三语句文本对应的情感关键词可以为：悲伤，第四语句文本对应的情感关键词可以为：哭泣；第一字幕样式标记的情感关键词可以为开心，第二字幕样式标记的情感关键词可以为生气，第三字幕样式标记的情感关键词可以为悲伤，第四字幕样式标记的情感关键词可以为惊讶，第五字幕样式标记的情感关键词可以为哭泣，则通过情感关键词的匹配，可以确定第一语句文本的字幕样式为第一字幕样式，第二语句文本的字幕样式为第二字幕样式，第三语句文本的字幕样式为第三字幕样式，第四语句文本的字幕样式为第五字幕样式。

204、获取每一语句文本在目标综艺视频中的播放位置对应的视频画面。

具体的，可以获取目标综艺视频的播放时间轴，基于播放时间轴上的每一时间戳对应的语句文本与视频画面，将对应相同时间戳的语句文本与视频画面进行管理，也即得到每一语句文本对应的视频画面。

例如，目标综艺视频的播放时间轴包括第一时间戳，第二时间戳，第三时间戳，第四时间戳。其中，第一时间戳对应第一语句文本和第一视频画面，第二时间戳对应第二语句文本和第二视频画面，第三时间戳对应第三语句文本和第三视频画面，第四时间戳对应第四语句文本和第四视频画面，则可以确定第一语句文本对应第一视频画面，第二语句文本对应第二视频画面，第三语句文本对应第三视频画面，第四语句文本对应第四视频画面。

205、将语句文本对应的视频画面的字幕设置为语句文本对应的目标字幕样式。

具体的，基于语句文本与视频画面的对应关系，以及每一语句文本对应的目标字幕样式，对每一视频画面中的字幕进行设置。

例如，第一语句文本的字幕样式为第一字幕样式，第二语句文本的字幕样式为第二字幕样式，第三语句文本的字幕样式为第三字幕样式，第四语句文本的字幕样式为第五字幕样式；第一语句文本对应第一视频画面，第二语句文本对应第二视频画面，第三语句文本对应第三视频画面，第四语句文本对应第四视频画面，则可以将第一视频画面中的字幕设置为第一字幕样式，将第二视频画面中的字幕设置为第二字幕样式，将第三视频画面中的字幕设置为第三字幕样式，将第四视频画面中的字幕设置为第五字幕样式。

在本申请实施例中，预先建立可以复用的综艺视频的字幕样式库，及其将每种样式的字幕与相关的情感关键词相对应，然后对综艺视频的音频内容进行语音识别和自然语言处理情感分析，提炼出每句语句文本的情感关键词，然后将情感关键词与字幕样式库中的字幕样式进行匹配，确定每一语句文本对应的目标字幕样式，以实现对视频自动化添加字幕样式，有利于减少视频处理的时间成本、降低专业门槛，同时提高视频的可观看性和趣味性。

本申请实施例公开了一种视频处理方法，该方法包括：获取目标综艺视频的音频信息，并对音频信息进行语音识别，得到多个语句文本，对每一语句文本进行自然语音情感分析，确定每一语句文本对应的情感关键词，基于每一语句文本对应的情感关键词，从字幕样式库中为每一语句文本选取对应的目标字幕样式，获取每一语句文本在目标综艺视频中的播放位置对应的视频画面，将语句文本对应的视频画面的字幕设置为语句文本对应的目标字幕样式。以此，可以提高用户的视频观看体验。

为便于更好的实施本申请实施例提供的视频处理方法，本申请实施例还提供一种基于上述视频处理方法的视频处理装置。其中名词的含义与上述视频处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图4，图4为本申请实施例提供的一种视频处理装置的结构框图。该装置包括：

第一识别单元301，用于从目标视频的音频信息中识别出至少一条语句内容；

第一处理单元302，用于对所述语句内容进行自然语言情感分析处理，得到所述语句内容对应的情感关键词；

第一确定单元303，用于从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式；

第二处理单元304，用于基于所述目标字幕样式，在所述目标视频中对所述语句内容所属视频画面的字幕进行处理，得到所述视频画面对应的处理后字幕。

在一些实施例中，该装置还可以包括：

提取单元，用于从所述视频帧图像中提取人脸图像；

在一些实施例中，第二识别单元可以包括：

在一些实施例中，第一确定单元303可以包括：

在一些实施例中，第一确定单元303还可以包括：

在一些实施例中，计算子单元具体可以用于：

在一些实施例中，该装置还可以包括：

在一些实施例中，显示单元可以包括：

在一些实施例中，显示子单元具体可以用于：

确定所述语句内容的显示时长；

在一些实施例中，第一处理单元302可以包括：

在一些实施例中，第一识别单元301可以包括：

本申请实施例公开了一种视频播放装置，通过第一识别单元301从目标视频的音频信息中识别出至少一条语句内容，第一处理单元302对所述语句内容进行自然语言情感分析处理，得到所述语句内容对应的情感关键词，第一确定单元303从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式，第二处理单元304基于所述目标字幕样式，在所述目标视频中对所述语句内容所属视频画面的字幕进行处理，得到所述视频画面对应的处理后字幕。以此，可以提高视频处理效率。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为服务器。如图5所示，图5为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是计算机设备400的控制中心，利用各种接口和线路连接整个计算机设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备400的各种功能和处理数据，从而对计算机设备400进行整体监控。

在本申请实施例中，计算机设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

从目标视频的音频信息中识别出至少一条语句内容；对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词；从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式；基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图5所示，计算机设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图5中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行游戏应用程序在触控显示屏403上生成图形用户界面，图形用户界面上的虚拟场景中包含至少一个技能控制区域，技能控制区域中包含至少一个技能控件。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一计算机设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给计算机设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图5中未示出，计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，通过从目标视频的音频信息中识别出至少一条语句内容；对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词；从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式；基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法中的步骤。例如，该计算机程序可以执行如下步骤：

从目标视频的音频信息中识别出至少一条语句内容；

对语句内容进行自然语言情感分析处理，得到语句内容对应的情感关键词；

从多个候选字幕样式中确定与情感关键词匹配的目标字幕样式；

基于目标字幕样式，在目标视频中对语句内容所属视频画面的字幕进行处理，得到视频画面对应的处理后字幕。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种视频处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频处理方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

从目标视频的音频信息中识别出至少一条语句内容；

2.根据权利要求1所述的方法，其特征在于，所述情感关键词的数量为多个；

在所述从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式之前，还包括：

获取所述语句内容在所述目标视频中对应的视频帧图像；

从所述视频帧图像中提取人脸图像；

对所述人脸图像进行脸部表情识别，得到脸部表情识别结果；

基于所述脸部表情识别结果从多个情感关键词中确定目标情感关键词。

3.根据权利要求2所述的方法，其特征在于，所述视频帧图像中包括多个人脸图像；

所述对所述人脸图像进行脸部表情识别，得到脸部表情识别结果，包括：

确定所述视频帧图像中所述语句内容对应的目标人物；

对所述目标人物的人脸图像进行脸部表情识别，得到脸部表情识别结果。

4.根据权利要求1所述的方法，其特征在于，所述从多个候选字幕样式中确定与所述情感关键词匹配的目标字幕样式，包括：

计算所述情感关键词与每一候选字幕样式的匹配度；

基于所述匹配度从所述多个候选字幕样式中确定所述目标字幕样式。

5.根据权利要求4所述的方法，其特征在于，在所述计算所述情感关键词与每一候选字幕样式的匹配度之前，还包括：

所述计算所述情感关键词与每一候选字幕样式的匹配度，包括：

6.根据权利要求1所述的方法，其特征在于，在所述基于所述目标字幕样式，在所述目标视频中对所述语句内容所属视频画面的字幕进行处理之后，还包括：

确定所述视频画面在所述目标视频中的目标播放进度；

当通过视频播放界面播放所述目标视频的播放进度达到所述目标播放进度时，在所述视频播放界面显示所述视频画面以及所述处理后字幕。

7.根据权利要求6所述的方法，其特征在于，所述视频画面包括至少一个人物；

所述在所述视频播放界面显示所述视频画面以及所述处理后字幕，包括：

对所述视频画面中的人物进行面部表情识别，确定所述语句内容对应的目标人物；

从所述视频画面中确定位于所述目标人物附近的显示区域，并将所述处理后字幕叠加在所述显示区域，得到目标视频画面；

在所述视频播放界面显示所述目标视频画面。

8.根据权利要求6所述的方法，其特征在于，所述视频画面不存在人物；

从所述视频画面中确定字幕显示区域；

将所述处理后字幕叠加在所述字幕显示区域，得到目标视频画面；

在所述视频播放界面显示所述目标视频画面。

9.根据权利要求6所述的方法，其特征在于，所述在所述视频播放界面显示所述视频画面以及所述处理后字幕，包括：

确定所述语句内容的显示时长；

10.根据权利要求1所述的方法，其特征在于，所述对所述语句内容进行自然语言情感分析处理，得到所述语句内容对应的情感关键词，包括：

对所述语句内容进行分词处理，得到所述语句内容中的词汇；

将所述词汇输入情感词典，通过所述情感词典对所述词汇进行分类处理，得到所述语句内容对应的情感关键词。

11.根据权利要求1所述的方法，其特征在于，所述从目标视频的音频信息中识别出至少一条语句内容，包括：

获取所述目标视频的音频信息，所述音频信息包括至少一音频片段；

对所述音频片段进行语音识别，得到所述音频片段对应的语句内容。

12.一种视频处理装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器，处理器及存储在存储器上并在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至11任一项所述的视频处理方法。

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至11任一项所述的视频处理方法。