CN113326844B

CN113326844B - 视频字幕添加方法、装置、计算设备及计算机存储介质

Info

Publication number: CN113326844B
Application number: CN202110677601.6A
Authority: CN
Inventors: 郭宝
Original assignee: China Mobile Communications Group Co Ltd; MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Digital Media Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2023-04-18
Anticipated expiration: 2041-06-18
Also published as: CN113326844A

Abstract

本发明公开了一种视频字幕添加方法、装置、计算设备及计算机存储介质。方法包括：识别视频帧中的发音对象及对话对象，确定发音对象本体区域、对话对象本体区域以及对话对象关联区域，根据发音对象本体区域、对话对象本体区域以及对话对象关联区域确定发音对象对应的视频字幕的禁示区域，继而根据禁示区域确定发音对象对应的视频字幕的显示区域，最终将发音对象对应的视频字幕添加至显示区域。采用本方案，视频字幕无法遮挡发音对象及对话对象，从而提升用户观看体验；并且能够避免用户对视频字幕所对应的发音对象产生混淆，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，继而提升用户体验。

Description

视频字幕添加方法、装置、计算设备及计算机存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及一种视频字幕添加方法、装置、计算设备及计算机存储介质。

背景技术

视频字幕是一种以文字形式显示视频对话内容的信息，视频字幕能够帮助视频观看用户快速地理解视频内容，从而被广泛应用于各类视频中。

然而，发明人在实施过程中发现，现有技术中存在如下缺陷：现有技术中视频字幕主要显示于视频的固定位置，如显示于视频的下方或上方等。采用该种方式，视频观看用户并无法准确地判断出字幕所对应的发音对象，从而不利于用户准确地理解视频内容，降低用户体验。

发明内容

为解决上述问题，本发明提供了一种视频字幕添加方法、装置、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种视频字幕添加方法，包括：

识别视频帧中的发音对象，以及所述发音对象对应的对话对象；

从所述视频帧中识别出发音对象本体区域以及对话对象本体区域；

根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定所述对话对象对应的对话对象关联区域；

根据所述发音对象本体区域、所述对话对象本体区域以及所述对话对象关联区域，确定所述发音对象对应的视频字幕的禁示区域；

根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域；

将所述发音对象对应的视频字幕添加至所述显示区域。

可选的，所述根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域进一步包括：

将所述视频帧中所述禁示区域之外的区域作为候选区域；

从所述候选区域中筛选出所述显示区域。

可选的，所述方法还包括：根据所述发音对象对应的视频字幕生成显示有所述发音对象对应的视频字幕的字幕区块；

则所述显示区域为能够完全包含所述字幕区块的所述候选区域。

可选的，所述方法还包括：将所述视频帧进行网格化处理；

则所述从所述候选区域中筛选出所述显示区域进一步包括：根据所述候选区域中网格的优先级，从所述候选区域中筛选出所述显示区域。

可选的，所述方法还包括：

根据所述候选区域中网格与所述发音对象本体区域的距离，确定所述候选区域中网格的优先级；其中，所述候选区域中网格的优先级负相关于该网格与所述发音对象本体区域的距离。

可选的，若从所述候选区域中无法筛选出所述显示区域，则所述方法还包括：

调整所述字幕区块的尺寸；和/或，调整所述发音对象本体区域的尺寸；和/或，调整所述网格化处理中的网格尺寸；

则所述从所述候选区域中筛选出所述显示区域进一步包括：基于调整结果，从所述候选区域中筛选出所述显示区域。

可选的，所述根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定所述对话对象对应的对话对象关联区域进一步包括：

根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定与所述对话对象相邻且远离所述发音对象的区域，将该区域确定为所述对话对象对应的对话对象关联区域。

根据本发明的另一个方面，提供了一种视频字幕添加装置，包括：

对象识别模块，用于识别视频帧中的发音对象，以及所述发音对象对应的对话对象；

区域识别模块，用于从所述视频帧中识别出发音对象本体区域以及对话对象本体区域；以及，根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定所述对话对象对应的对话对象关联区域；

禁示区确定模块，用于根据所述发音对象本体区域、所述对话对象本体区域以及所述对话对象关联区域，确定所述发音对象对应的视频字幕的禁示区域；

显示区确定模块，用于根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域；

添加模块，用于将所述发音对象对应的视频字幕添加至所述显示区域。

可选的，所述显示区确定模块进一步用于：将所述视频帧中所述禁示区域之外的区域作为候选区域；

从所述候选区域中筛选出所述显示区域。

可选的，所述装置还包括：字幕区块生成模块，用于根据所述发音对象对应的视频字幕生成显示有所述发音对象对应的视频字幕的字幕区块；

可选的，所述装置还包括：网格化模块，用于将所述视频帧进行网格化处理；

则所述显示区确定模块进一步包括：根据所述候选区域中网格的优先级，从所述候选区域中筛选出所述显示区域。

可选的，所述装置还包括：优先级确定模块，用于根据所述候选区域中网格与所述发音对象本体区域的距离，确定所述候选区域中网格的优先级；其中，所述候选区域中网格的优先级负相关于该网格与所述发音对象本体区域的距离。

可选的，若从所述候选区域中无法筛选出所述显示区域，则所述装置包括：调整模块，用于调整所述字幕区块的尺寸；和/或，调整所述发音对象本体区域的尺寸；和/或，调整所述网格化处理中的网格尺寸；

则所述显示区确定模块进一步用于：基于调整结果，从所述候选区域中筛选出所述显示区域。

可选的，所述区域识别模块进一步用于：根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定与所述对话对象相邻且远离所述发音对象的区域，将该区域确定为所述对话对象对应的对话对象关联区域。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述视频字幕添加方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述视频字幕添加方法对应的操作。

本发明公开了一种视频字幕添加方法、装置、计算设备及计算机存储介质。本方案识别视频帧中的发音对象及对话对象，确定发音对象本体区域、对话对象本体区域以及对话对象关联区域，根据发音对象本体区域、对话对象本体区域以及对话对象关联区域确定发音对象对应的视频字幕的禁示区域，继而根据禁示区域确定发音对象对应的视频字幕的显示区域，最终将发音对象对应的视频字幕添加至显示区域。采用本方案，发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本方案将对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本方案将每个发音对象对应的视频字幕显示在视频帧各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验；并且，本方案视频字幕嵌合在视频帧内，有利于用户沉浸式的观看视频。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例一提供的一种视频字幕添加方法的流程示意图；

图2示出了本发明实施例二提供的一种视频字幕添加方法的流程示意图；

图3示出了本发明实施例二提供的一种禁示区域示意图；

图4示出了本发明实施例二提供的一种候选区域中网格编号的示意图；

图5示出了本发明实施例二提供的一种气泡区块示意图；

图6示出了本发明实施例三提供的一种视频字幕添加装置的结构示意图；

图7示出了本发明实施例五提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1示出了本发明实施例一提供的一种视频字幕添加方法的流程示意图。

其中，本实施例所提供的方法可以应用于各类视频等。本实施例对具体的应用场景不作限定。

如图1所示，该方法包括：

步骤110，识别视频帧中的发音对象，以及该发音对象对应的对话对象。

针对于任意一个视频帧，从该视频帧中识别出发音对象及发音对象对应的对话对象。其中，视频帧中的发音对象是指在该视频帧中具有对应视频字幕的对象。发音对象对应的对话对象为该视频帧中与该发音对象进行对话的对象。本实施例中的发音对象和/或对话对象可以为人物、物品、动物、或植物等等。例如，某视频帧中一个人正与一匹马说话，则该人即为发音对象，而马为该发音对象的对话对象。

在一些可选的实施场景中，视频帧中不存在任何发音对象。例如，某些视频帧无对应的视频字幕，则表明该视频帧中不存在任何发音对象；又或者，有些视频帧中虽然具有相对应的视频字幕，但该视频字幕为旁白等非视频帧中的对象发出的字幕。针对于不存在任何发音对象的视频帧，本实施例对此不作处理，从而提升视频字幕的整体添加效率。

在另一些可选的实施场景中，视频帧中存在一个发音对象，则针对于该发音对象通过本步骤识别出其对应的对话对象，其中，一个发音对象对应的对话对象可以为一个或多个。进而通过后续步骤120-步骤160将该发音对象对应的视频字幕添加至该发音对象的视频字幕对应的显示区域。

在又一些可选的实施场景中，视频帧中存在多个发音对象，则本实施例需识别出每个发音对象，并针对于每个发音对象，确定该发音对象的对话对象，及进一步通过后续步骤120-步骤160将该发音对象对应的视频字幕添加至对应的显示区域。重复上述操作，直至将该视频帧中所有的发音对象对应的视频字幕均添加至相应的显示区域。其中，为提升字幕的添加效率，每个发音对象的视频字幕添加过程可并发执行。

本实施例中，对从视频帧中识别出发音对象及对话对象的具体方式不作限定。例如，作为一种可选的实施方式，可预先构建及训练对象识别模型，该对象识别模型基于机器学习算法构建，继而将视频帧输入至该对象识别模型中，并获得对象识别模型输出的发音对象及对话对象的识别结果；作为又一种可选的实施方式中，可基于特征点的识别方式识别发音对象及对话对象，如利用面部特征点等识别方式识别发音对象等；作为再一种可选的实施方式，可采用声纹识别辅助技术来识别发音对象，在该种实施方式中，预先配置不同的声纹与对象图像的映射关系，从而在识别过程中获得视频帧所对应的音频数据，继而识别出音频数据对应的对象图像，最终将视频帧中与该对象图像匹配的对象作为发音对象。

步骤120，从该视频帧中识别出发音对象本体区域以及对话对象本体区域。

发音对象本体区域为发音对象在该视频帧中所占据的区域，对话对象本体区域为对话对象在该视频帧中占据的区域。

作为一种可选的实施方式，采用图像边缘提取算法从视频帧中勾勒出发音对象本体区域及对话对象本体区域。在该种实施方式中，可对视频帧进行灰度处理以降低颜色等对区域识别的干扰，继而基于灰度处理结果采用边缘提取算法来确定出发音对象本体区域及对话对象本体区域。

作为又一种可选的实施方式，将视频帧进行网格化处理，继而将发音对象占据的网格作为发音对象本体区域，将对话对象占据的网格作为对话对象本体区域。

步骤130，根据发音对象与对话对象在视频帧中的位置关系，确定对话对象对应的对话对象关联区域。

其中，对话对象的关联区域为容易被用户认为是对话对象的专属区域，在对话对象的关联区域显示的视频字幕易被用户认为是对话对象的视频字幕。

本实施例具体是根据发音对象与对话对象在视频帧中的位置关系，确定对话对象对应的对话对象关联区域。例如，可根据发音对象与对话对象在视频帧中的位置关系，确定出与对话对象相邻且远离发音对象的区域，继而将该区域作为对话对象对应的对话对象关联区域。

步骤140，根据发音对象本体区域、对话对象本体区域以及对话对象关联区域，确定发音对象对应的视频字幕的禁示区域。

发音对象对应的视频字幕的禁示区域为该发音对象的视频字幕无法显示的区域。具体地，本实施例将发音对象本体区域及对话对象本体区域作为禁示区域，从而可以避免视频字幕遮挡发音对象和/或对话对象，保障用户体验。将对话对象关联区域作为发音对象对应的视频字幕的禁示区域，能够便于用户快速地分辨出视频字幕所对应的发音对象，避免用户在观看视频过程中混淆视频字幕所对应的发音对象，从而进一步提升用户体验。

步骤150，根据禁示区域确定发音对象对应的视频字幕的显示区域。

具体将视频帧中除禁示区域之外的其他区域作为发音对象对应的视频字幕的显示区域。

步骤160，将发音对象对应的视频字幕添加至该显示区域。

在确定发音对象对应的视频字幕的显示区域后，将获取到的发音对象的视频字幕添加至该显示区域。例如将视频字幕添加至显示区域中靠近发音对象的区域，从而进一步便于用户分辨视频字幕所对应的发音对象。

由此可见，本实施例从视频帧中识别出发音对象及对话对象，并将发音对象本体区域及对话对象本体区域作为该发音对象对应的视频字幕的禁示区域，从而使发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本实施例根据发音对象与对话对象在视频帧中的位置关系，准确地确定出对话对象对应的对话对象关联区域，并将该对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户在视频观看过程中对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本实施例将每个发音对象对应的视频字幕显示在各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验；并且，本方案视频字幕嵌合在视频帧内，有利于用户沉浸式的观看视频。

实施例二

图2示出了本发明实施例二提供的一种视频字幕添加方法的流程示意图。

其中，本实施例所提供的视频字幕添加方法是针对实施例一的进一步优化。

如图2所示，该方法包括：

步骤210，识别视频帧中的发音对象，以及发音对象对应的对话对象。

本步骤的具体实施过程可参照实施例一中相应步骤的描述，本实施例在此不做赘述。

步骤220，将视频帧进行网格化处理，并从视频帧中识别出发音对象本体区域、对话对象本体区域及对话对象关联区域。

为了便于后续快速准确地确定出发音对象的视频字幕对应的显示区域，本实施例可将视频帧进行网格化处理。在网格化处理过程中，具体是将视频帧均等地划分为多个网格，每个网格的尺寸相同。

在对视频帧进行网格化处理后，进一步确定出发音对象本体区域、对话对象本体区域及对话对象关联区域，其中，发音对象本体区域、对话对象本体区域及对话对象关联区域具体为发音对象本体、对话对象本体及对话对象关联区在视频帧所占的网格。

在确定发音对象本体区域时，可先识别出发音对象的至少一个部位。例如，若发音对象为人物，则识别出发音对象的嘴唇部位、面部、躯干等部位。继而将发音对象的至少一个部位在视频帧所占区域作为发音对象本体区域。如图3所示，识别出的发音对象为人物A，人物A包含面部、躯干及肢体部位，从而可将人物A的面部、躯干及肢体在视频帧中的整体区域作为发音对象本体区域，(如图3中左侧斜线阴影部分)，也可以仅将人物A的面部在视频帧中的区域作为发音对象本体区域。

在确定对话对象本体区域时，也可以将对话对象的至少一个部位在视频帧所占区域作为对话对象本体区域。如图3所示，发音对象人物A的对话对象为人物B，可将人物B面部、躯干及肢体在视频帧中的整体区域作为对话对象本体区域(如图3中右侧斜线阴影部分)。

在确定对话对象关联区域时，具体根据发音对象与对话对象在视频帧中的位置关系来确定。

在一种可选的实施方式中，可将与对话对象相邻且远离发音对象的区域确定为对话对象对应的对话对象关联区域，例如，若对话对象位于发音对象右侧，则将对话对象右侧至视频帧右侧边缘的区域作为对话对象关联区域；若对话对象位于发音对象左侧，则将对话对象左侧至视频帧左侧边缘的区域作为对话对象关联区域；若对话对象位于发音对象上侧，则将对话对象上侧至视频帧上侧边缘的区域作为对话对象关联区域；若对话对象位于发音对象下侧，则将对话对象下侧至视频帧下侧边缘的区域作为对话对象关联区域。如图3所示，发音对象为人物A，对话对象为人物B，对话对象位于发音对象的右侧，从而以对话对象本体区域右侧边缘为起始点，向右延伸至视频帧右侧边缘，从而形成右侧的点状阴影部分，该点状阴影部分即为对话对象关联区域。

在又一种可选的实施方式中，可根据对话对象的预设外接矩形确定对话对象关联区域，例如将预设外接矩形中对话对象本体区域之外的部分作为对话对象关联区域。其中，该对话对象的预设外接矩形完全包含对话对象本体区域，并且对话对象的预设外接矩形与该对话对象的最小外接矩形的尺寸差小于预设阈值。例如，预设外接矩形的长＝对话对象的最小外接矩形长+N，预设外接矩形的宽＝对话对象的最小外接矩形宽+N，N小于或等于2。

步骤230，根据发音对象本体区域、对话对象本体区域以及对话对象关联区域，确定发音对象对应的视频字幕的禁示区域。

将发音对象本体区域、对话对象本体区域以及对话对象关联区域的整体确定为发音对象对应的视频字幕的禁示区域。

步骤240，根据视频字幕的禁示区域确定发音对象对应的视频字幕的候选区域。

为了进一步地提升发音对象对应的视频字幕的显示效果，本实施例并非直接将禁示区域之外的区域作为视频字幕的显示区域，而是先将视频帧中除了禁示区域之外的区域作为候选区域，如图3所示，图3中空白网格区域即为发音对象人物A对应的视频字幕的候选区域。继而后续从该候选区域中筛选出显示区域。

步骤250，从候选区域中筛选出显示区域。

在筛选显示区域过程中，需根据发音对象对应的视频字幕生成显示有视频字幕的字幕区块，从而在候选区域中查找能够完全包含该字幕区块的候选区域。即最终确定的显示区域是能够完全包含字幕区块的候选区域。在生成字幕区块的过程中，可根据发音对象对应的视频字幕的文本长度及屏幕长度或宽度确定字幕行数，继而根据确定的字幕行数、字体大小、文字数量等生成字幕区块。

在一种可选的实施方式中，若候选区域中仅能够查找到一处完全包含该字幕区块的候选区域，则将该唯一一处候选区域确定为显示区域。

在又一种可选的实施方式中，候选区域往往存在多处能够完全包含该字幕区块的候选区域，为了进一步提升视频字幕的显示效果，则本实施例根据候选区域中网格的优先级，从候选区域中筛选出显示区域。具体地，根据候选区域中网格与发音对象本体区域的距离，确定候选区域中网格的优先级；其中，候选区域中网格的优先级负相关于该网格与发音对象本体区域的距离，即网格与发音对象本体区域越近，则该网格的优先级越高。

如图4所示，确定发音对象人物A的最小外接矩形，该最小外接矩形为第1级外接矩形，该最小外接矩形长为L，宽为H，将位于该第1级外接矩形中的候选区域的网格设置编号1；设置第2级外接矩形，该第2级外接矩形长为L+2，宽为H+2，并且包含第1级外接矩形，并将第2级外接矩形中尚未编号的候选区域网格设置编号2；依次类推，第N级外接矩形长为L+2*(N-1)，宽为H+2*(N-1)，第N级外接矩形完全覆盖第N-1级外接矩形，将第N级外接矩形内尚未编号的候选区域的网格设置编号N，其中，各级外接矩形的对称线重合。采用该种方式获得的视频帧候选区域中网格的编号如图4所示，候选区域中网格的编号由1～11，其中编号越小，优先级越高。

进一步地，将候选区域中能够完全包含该字幕区块，且总优先级最高的区域确定为显示区域。作为一种实施方式，可先设定第1级外接矩形，若在编号为1的网格中能够查找到完全包含该字幕区块的连续区域，则将该区域确定为显示区域；若在编号为1的网格中无法查找到完全包含该字幕区块的连续区域，则在编号为1及2的网格中查找完全包含该字幕区块的连续区域……，依次类推，直至在候选区域中查找到完全包含该字幕区块的连续区域，并将该连续区域作为显示区域；作为另一种实施方式，可先确定候选区域中能够包含该字幕区块的连续区域，并进一步计算各个连续区域的总优先级(区域的总优先级等于各网格优先级的总和)，继而将总优先级最高的候选区域中的该连续区域作为显示区域。

在再一种可选的实施方式中，候选区域不存在能够完全包含该字幕区块的候选区域，即根据当前情况从候选区域中无法筛选出显示区域，则可以调整字幕区块的尺寸，例如缩小字幕区块的尺寸；和/或，调整发音对象本体区域的尺寸，例如原先将发音对象的面部、躯干及四肢所占区域确定为发音对象本体区域，则可当前调整为仅将发音对象的面部所占区域确定为发音对象本体区域；和/或，调整网格化处理中网格尺寸，例如将网格进一步细化，缩小每个网格的尺寸等等。经过调整处理后，基于调整结果，再从候选区域中筛选出显示区域；若仍无法筛选出显示区域，则进行下一步调整，直至从候选区域中筛选出显示区域。

步骤260，将发音对象对应的视频字幕添加至显示区域。

具体地，可将步骤250生成的字幕区块添加至显示区域。本实施例对字幕区块的具体显示方式不作限定。例如，为进一步方便用户确定字幕所对应的发音对象，可将字幕区块进行气泡化展示，即将字幕区块显示于气泡区块中，气泡区块具有对应的气泡角，该气泡角指向发音对象的发音部位。

如图5所示，确定发音对象人物A的发音部位，将字幕区块的中心点和发音部位中心点连线确定为气泡角的指向方向，从而生成气泡区块，并将气泡区块显示于对应的显示区域。

由此可见，本实施例将发音对象本体区域及对话对象本体区域作为该发音对象对应的视频字幕的禁示区域，从而使发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本实施例根据发音对象与对话对象在视频帧中的位置关系，准确地确定出对话对象对应的对话对象关联区域，并将该对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本实施例将每个发音对象对应的视频字幕显示在各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验。

另外，本实施例先根据禁示区域确定出候选区域，再从候选区域中筛选出显示区域，从而使得最终视频字幕的显示位置更加合理，避免用户对发音对象的混淆；而且本实施例具体是根据候选区域中网格的优先级来确定出显示区域，进一步提升了视频字幕的显示位置与发音对象的契合度，有利于用户体验的进一步提升；再者，当从候选区域中无法筛选出显示区域时，通过调整字幕区块尺寸、调整发音对象本体区域尺寸、和/或调整网格尺寸等调整方式进行调整，并基于调整结果，再从候选区域中筛选出显示区域，从而进一步提升显示区域的准确性。

实施例三

图6示出了本发明实施例三提供的一种视频字幕添加装置的结构示意图。如图6所示，该装置600包括：对象识别模块610、区域识别模块620、禁示区确定模块630、显示区确定模块640以及添加模块650。

对象识别模块610，用于识别视频帧中的发音对象，以及所述发音对象对应的对话对象；

区域识别模块620，用于从所述视频帧中识别出发音对象本体区域以及对话对象本体区域；以及，根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定所述对话对象对应的对话对象关联区域；

禁示区确定模块630，用于根据所述发音对象本体区域、所述对话对象本体区域以及所述对话对象关联区域，确定所述发音对象对应的视频字幕的禁示区域；

显示区确定模块640，用于根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域；

添加模块650，用于将所述发音对象对应的视频字幕添加至所述显示区域。

从所述候选区域中筛选出所述显示区域。

其中，本装置的具体功能及实施过程可参照实施例一及实施例二中相应部分的描述，本实施例在此不做赘述。

由此可见，采用本装置，发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本方案将对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本方案将每个发音对象对应的视频字幕显示在各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验。

实施例四

本发明实施例四提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的视频字幕添加方法。

可执行指令具体可以用于使得处理器执行以下操作：

将所述发音对象对应的视频字幕添加至所述显示区域。

在一种可选的实施方式中，可执行指令具体可以用于使得处理器执行以下操作：

将所述视频帧中所述禁示区域之外的区域作为候选区域；

从所述候选区域中筛选出所述显示区域。

根据所述发音对象对应的视频字幕生成显示有所述发音对象对应的视频字幕的字幕区块；

将所述视频帧进行网格化处理；

根据候选区域中网格的优先级，从所述候选区域中筛选出所述显示区域。

若从所述候选区域中无法筛选出所述显示区域，调整所述字幕区块的尺寸；和/或，调整所述发音对象本体区域的尺寸；和/或，调整所述网格化处理中的网格尺寸；

基于调整结果，从所述候选区域中筛选出所述显示区域。

由此可见，采用本存储介质，发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本方案将对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本方案将每个发音对象对应的视频字幕显示在各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验。

实施例五

图7示出了本发明实施例五提供的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图7所示，该计算设备可以包括：处理器(processor)702、通信接口(Communications Interface)704、存储器(memory)706、以及通信总线708。

其中：处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。通信接口704，用于与其它设备比如客户端或其它服务器等的网元通信。处理器702，用于执行程序710，具体可以执行上述方法实施例中的相关步骤。

具体地，程序710可以包括程序代码，该程序代码包括计算机操作指令。

处理器702可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器706，用于存放程序710。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序710具体可以用于使得处理器702执行以下操作：

将所述发音对象对应的视频字幕添加至所述显示区域。

在一种可选的方式中，程序710具体可以用于使得处理器702执行以下操作：

将所述视频帧中所述禁示区域之外的区域作为候选区域；

从所述候选区域中筛选出所述显示区域。

将所述视频帧进行网格化处理；

根据所述候选区域中网格的优先级，从所述候选区域中筛选出所述显示区域。

基于调整结果，从所述候选区域中筛选出所述显示区域。

由此可见，采用本计算设备，发音对象的视频字幕无法遮挡发音对象及对话对象，提升用户观看体验；并且本方案将对话对象关联区域作为发音对象对应的视频字幕的禁示区域，从而避免用户对视频字幕所对应的发音对象产生混淆，进一步提升用户体验；而且本方案将每个发音对象对应的视频字幕显示在各自对应的显示区域内，便于用户分辨视频字幕所对应的发音对象，以及便于用户准确地理解视频内容，提升用户体验。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种视频字幕添加方法，其特征在于，包括：

识别视频帧中的发音对象，以及所述发音对象对应的对话对象；其中，发音对象对应的对话对象为该视频帧中与该发音对象进行对话的对象；从所述视频帧中识别出发音对象本体区域以及对话对象本体区域；

根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域；其中，将所述视频帧进行网格化处理，根据候选区域中网格的优先级，从候选区域中筛选出所述显示区域；若从所述候选区域中无法筛选出所述显示区域，调整所述网格化处理中的网格尺寸，基于调整结果，从所述候选区域中筛选出所述显示区域；

将所述发音对象对应的视频字幕添加至所述显示区域。

2.根据权利要求1所述的方法，其特征在于，所述根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域进一步包括：

将所述视频帧中所述禁示区域之外的区域作为候选区域；

从所述候选区域中筛选出所述显示区域。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据所述发音对象对应的视频字幕生成显示有所述发音对象对应的视频字幕的字幕区块；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：若从所述候选区域中无法筛选出所述显示区域，调整所述字幕区块的尺寸；和/或，调整所述发音对象本体区域的尺寸。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述发音对象与所述对话对象在所述视频帧中的位置关系，确定所述对话对象对应的对话对象关联区域进一步包括：

7.一种视频字幕添加装置，其特征在于，包括：

对象识别模块，用于识别视频帧中的发音对象，以及所述发音对象对应的对话对象；其中，发音对象对应的对话对象为该视频帧中与该发音对象进行对话的对象；

显示区确定模块，用于根据所述禁示区域确定所述发音对象对应的视频字幕的显示区域；其中，将所述视频帧进行网格化处理，根据候选区域中网格的优先级，从候选区域中筛选出所述显示区域；若从所述候选区域中无法筛选出所述显示区域，调整所述网格化处理中的网格尺寸，基于调整结果，从所述候选区域中筛选出所述显示区域；

8.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的视频字幕添加方法对应的操作。

9.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的视频字幕添加方法对应的操作。