CN108419141B

CN108419141B - 一种字幕位置调整的方法、装置、存储介质及电子设备

Info

Publication number: CN108419141B
Application number: CN201810102767.3A
Authority: CN
Inventors: 李硕
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2020-12-22
Anticipated expiration: 2038-02-01
Also published as: CN108419141A

Abstract

本发明提供一种字幕位置调整的方法、装置、存储介质及电子设备，该方法包括步骤：获取视频流数据及字幕数据；对所述视频流数据的图像帧进行图像识别，若识别到发声物信息，则获取图像帧中发声物的位置信息；将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置。该方法使得观看者容易辨别字幕与发声物的对应关系，以此提升观看者的用户体验。

Description

一种字幕位置调整的方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，尤其涉及一种字幕位置调整的方法、装置、存储介质及电子设备。

背景技术

字幕(subtitles of motion picture)是指以文字形式显示电视、电影、舞台作品中的对话等非视频内容。目前的字幕一般显示在视频图像的特定位置，如图像的顶部或图像的底部，而当图像中人物较多时，观看者难以辨别字幕与发声物之间的关系，如该字幕为图像中一发声者的说话内容，观看者可能会误以为该字幕为该图像中其他人物的说话内容，如此导致观看者的用户体验不佳。尤其对于屏幕尺寸较大的显示设备，以及无法获得音频信息的听力障碍人士，字幕与发声物的对应关系的对观看体验的影响显得尤为突出。

发明内容

有鉴于此，本发明提供一种字幕位置调整的方法，使得观看者容易辨别字幕与发声物的对应关系，以此提升观看者的用户体验。

在一个实施例中，本发明是通过以下方式实现的：

一种字幕位置调整的方法，该方法包括步骤：

获取视频流数据及字幕数据；

对所述视频流数据的图像帧进行图像识别，若识别到发声物信息，则获取图像帧中发声物的位置信息；

将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置。

在某些例子中，对所述视频流数据的图像帧进行图像识别之前，该方法包括步骤：

响应用户指令，获取对所述视频流的图像帧进行图像识别的频率。

在某些例子中，对所述视频流数据的图像帧进行图像识别，包括步骤：

根据字幕数据的时间戳信息，获取所述时间戳信息对应的图像帧进行图像识别。

在某些例子中，该方法还包括步骤：获取发声物的尺寸信息，根据发声物的尺寸信息确定字幕数据的字体尺寸。

在某些例子中，将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置之后，该方法还包括步骤：将所述图像帧与对应字幕数据合成目标图像帧。

在某些例子中，所述图像识别包括步骤：

对所述视频流的图像帧进行面部识别，获取图像帧中面部的数量；

若面部的数量大于1，对所述视频流的图像帧进行嘴巴识别，获取图像帧中嘴巴的数量；

若嘴巴的数量大于或等于1，则获取所述图像帧的相邻几帧图像帧，通过对比相邻至少两帧图像帧中嘴巴的变化，判断是否存在发声物信息。

在某些例子中，所述位置信息包括以下任一：面部的位置信息、嘴巴的位置信息、身体的位置信息；

所述字幕数据的位置包括：位置信息的周围、位置信息的正下方、位置信息的正上方。

在某些例子中，所述字幕数据包括文字及背景，所述文字与所述背景的颜色不同。

一种字幕位置调整装置，包括：

处理模块：用于获取视频流数据及字幕数据；对所述视频流数据的图像帧进行图像识别，若检测到发声物信息，则获取图像帧中发声物的位置信息；

渲染模块：将所述图像帧对应字幕数据渲染至所述位置信息关联的位置。

在某些例子中，所述装置装载于播放器中或字幕调整的应用程序中。

一种电子设备，包括：

存储处理器可执行指令的存储器；其中，所述处理器耦合于所述存储器，用于读取所述存储器存储的程序指令，并作为响应，执行如下操作：

获取视频流数据及字幕数据；

对所述视频流数据的图像帧进行图像识别，若检测到发声物信息，则获取图像帧中发声物的位置信息；

一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

获取视频流数据及字幕数据；

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明的实施例针对字幕位置调整，通过获取视频流数据和字幕数据，对所述视频流的图像帧进行图像识别，来检测图像帧中是否存在发声物，若检测到发声物信息，则说明存在所述图像帧中存在发声物，接着获取图像帧中发声物的位置信息，最后将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置。本发明提出的字幕位置调整的方案通过检测出发声物的位置信息，将字幕数据的位置渲染在发声物位置信息的相关联的位置，通过位置的对应关系，用户容易辨别字幕与发声物之间的关系，因此提升了用户的观看体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中字幕显示方式的示意图；

图2是本发明一示例性实施例示出的一种字幕位置调整的方法的流程图；

图3是本发明一示例性实施例示出的一种字幕位置调整的示意图；

图4是本发明一示例性实施例示出的一种字幕位置调整的渲染效果示意图；

图5是本发明一示例性实施例示出的图像识别的流程图；

图6是本发明一示例性实施例示出的一种字幕位置调整的渲染效果示意图；

图7本发明一示例性实施例中一种电子设备的硬件架构图；

图8是本发明一示例性实施例中字幕位置调整装置的应用程序逻辑框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1为现有技术中字幕的显示方式，如图1所示，视频画面中显示出有A人物和B人物，字幕“小明，你吃饭了吗”显示在图像最下方，作为观看者很难通过视觉效果很快判断出上述字幕的发生物为A人物还是B人物。如此导致观看者的用户体验不佳。尤其对于屏幕尺寸较大的显示设备，以及无法获得音频信息的听力障碍人士，字幕与发声物的对应关系的对观看体验的影响显得尤为突出。

针对上述问题，本发明实施例提供一种字幕位置调整的方法，如图2所示，该方法包括步骤：

S201：获取视频流数据及字幕数据；

S202：对所述视频流数据的图像帧进行图像识别，若识别到发声物信息，则获取图像帧中发声物的位置信息；

S203：将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置。

本发明实施例提供的方法的执行主体可以是运行在智能电视、电脑及智能手机的应用程序。上述应用程序可以是具有播放功能的播放器应用程序，也可以是字幕调整应用程序，以执行主体为运行在智能电视的播放器应用程序为例，用户将存储有某电影的视频流数据，及对应的字幕数据的存储设备插入智能电视的接口中，用户双击存储设备中的视频流数据，播放器应用程序获取存储设备中的视频流数据，并获取与视频流数据在同一目录下的字幕数据，当然，在某些例子中，视频流数据与对应的字幕数据也可以不在同一目录下。然后播放器应用程序对视频流数据的每一帧图像帧进行图像识别，若识别到发声物信息，例如图3所示，图像帧301被识别出存在发声物信息，发声物为人物310，则获取人物310的位置信息，将图像帧301对应的字幕数据320“小明，你吃饭了吗？”渲染至人物310的正下方，并在播放器的显示窗口进行显示。可以看出，通过字幕位置调整的方法，检测出发声物为人物310，再将字幕数据320渲染在人物310的正下方，使得用户容易辨别字幕数据320“小明，你吃饭了吗？”为人物310所说，而不是图像帧301中其他人物所说，因此提升了用户的观看体验。

当然，在某些例子中，若执行主体为字幕调整应用程序，步骤S203将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置之后，还可以包括步骤：存储所述图像帧对应字幕数据的位置信息。例如如图3所示，图像帧301被识别出存在发声物信息，获取其中人物310的位置信息，对应的字幕数据320“小明，你吃饭了吗？”的位置为人物310的正下方，存储字幕数据320的位置信息，待用户使用播放器播放经过字幕调整应用程序处理过的视频流时，字幕320数据“小明，你吃饭了吗？”将显示在人物310的正下方。

为了减少视频流数据与字幕数据的占用空间大小，在某些例子中，步骤S203将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置之后，可以将所述图像帧与对应字幕数据合成目标图像帧。

本发明实施例提供的视频流数据与字幕数据可以同时被获取，当然根据实际情况，在某些例子中，字幕数据可以先于视频流数据被获取，也可以后于视频流数据被获取。本发明并不限定视频流数据与字幕数据被获取的顺序。

本发明实施例提供的视频流数据可以包括音频流及视频流。

本发明实施例提供的位置信息可以包括以下任一：面部的位置信息、嘴巴的位置信息及身体的位置信息。

本发明实施例提供的字幕数据的位置可以包括：位置信息的周围、位置信息的正下方或位置信息的正上方。当然，字幕数据的显示位置不仅仅局限于上述的提到的情况，若能体现出字幕数据与发声物的对应关系，任何字幕数据的位置都落入本发明保护范围，例如字幕数据的位置可以如图4所示的方式显示。

为了提升图像识别的效率，在某些例子中，对视频流数据的图像帧进行图像识别之前，还可以调节所述视频流图像帧的图像识别的频率。例如：将识别的频率定为高频、中频及低频三个档次，高频为每5帧图像帧进行一次图像识别，中频为每10帧图像帧进行一次图像识别，低频为每15帧图像帧进行一次图像识别，用户可以实时调整图像识别的频率，如当前图像无对话场景，用户可以选择低频，如当前对话场景较多，用户可以选择高频。如此便可提升图像识别的效率。当然，该图像识别的频率可以为默认值，也可以通过如下步骤获得：获取视频图像帧的帧率，根据所述帧率确定图像识别的频率。

在某些应用场景中，一个时长约两小时的视频流，也许仅一半的图像帧存在对应的字幕，有时甚至连续百帧图像帧不存在对应的字幕数据，只有当图像帧存在对应字幕数据时，才需进行字幕位置调整，如果依然按照固定的频率进行图像识别，可能会降低图像识别的效率。为了解决上述问题，在某些例子中，根据字幕数据的时间戳信息，获取所述时间戳信息对应的图像帧进行图像识别。例如，如表格1所示，表格1示例性的示出视频数据图像帧与字幕数据的关系，视频流数据的每帧图像帧以及每条字幕数据均携带时间戳信息，图像帧与字幕数据通过时间戳建立对应关系。获取字幕数据和视频流数据后，先通过解析字幕数据，得到字幕1的时间戳信息为0：00:20，再从视频流数据中获取时间戳信息为0：00:20的图像帧，即图像帧3，对图像帧3进行图像识别即可。当然，在某些例子中，可以先获取字幕数据，对整个字幕数据进行解析，例如如表1所示，解析出字幕数据对应的时间戳为0：00:20、0：00:40、0：00:45、0：00:50、0：00:55及0：01:15，再获取视频流数据，从视频流数据中获取时间戳信息对应的图像帧，即图像帧3、图像帧7、图像帧8、图像帧9、图像帧10及图像帧14，然后对上述图像帧进行图像识别。在某些情况下，同一个字幕数据可能对应多个图像帧，比如：字幕“小明，你吃饭了吗？”显示时长为2秒，即时间戳信息为0:00:20-0:00:22，而时间戳信息为0:00:20-0:00:22的时间段内，存在4帧图像帧，在某些例子中，可以选取4帧图像帧中的一帧图像帧进行图像识别。

在某些例子中，为了提高图像识别的效率，也可以获取视频流数据，对其中音频流数据进行解析，通过识别音频数据中发声者的语音频率，判断出单位时间内需要进行图像识别的图像帧。在某些例子中，可以根据音频流数据的频率，实时动态调整图像识别的频率。

视频流数据图像帧	时间戳	字幕数据
			图像帧1	0:00:10
图像帧2	0:00:15
			图像帧3	0:00:20	字幕1
图像帧4	0:00:25
			图像帧5	0:00:30
图像帧6	0:00:35
			图像帧7	0:00:40	字幕2
图像帧8	0:00:45	字幕3
			图像帧9	0:00:50	字幕4
图像帧10	0:00:55	字幕5
			图像帧11	0:01:00
图像帧12	0:01:05
			图像帧13	0:01:10
图像帧14	0:01:15	字幕6
			……	……	……
图像帧16	2:01:15

表格1

如图5所示，在某些例子中，图像识别可以包括步骤：

S501：对所述视频流的图像帧进行面部识别，获取图像帧中面部的数量；

S502：判断面部的数量是否大于1；

S503：若面部的数量大于1，则对所述视频流的图像帧进行嘴巴识别，获取图像帧中嘴巴的数量；

若面部数量不大于1，则执行步骤S508：不对字幕数据进行调整；

S504：判断嘴巴的数量是否大于或等于1；

S505：若嘴巴的数量大于或等于1时，获取所述图像帧的相邻至少帧图像帧，通过对比相邻至少两帧图像帧中嘴巴的变化；

若嘴巴的数量小于1，可以认为该字幕可能为背景音字幕，则执行步骤S508：不对字幕数据进行调整；

S506：判断是否存在发声物信息；

S507：若存在发声物信息，则获取图像帧中发声物的位置信息；将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置。

若不存在发声物信息，则执行步骤S508：不对字幕数据进行调整。

在某些例子中，步骤S505中：获取所述图像帧的相邻至少帧图像帧，通过对比相邻至少两帧图像帧中嘴巴的变化可以是：将所述图像帧与其前至少一帧图像帧或后至少一帧图像帧比较，也可以是将与所述图像帧相邻的至少两帧图像帧进行比较。以所述图像帧为图像帧c，图像帧c的前两帧图像帧为图像帧a及图像帧b，图像帧c的后两帧图像帧为图像帧e及图像帧d进行描述，通过对比相邻至少两帧图像帧可以是：比较图像帧c与f，也可以是比较图像帧c与a，当然还可以是比较图像帧a与e。本发明不限制对比的图像帧与进行图像识别的图像帧的图像帧间隔数量，也不限制对比的图像帧与进行图像识别的图像帧的顺序。

在某些应用场景中，视频流数据的显示大小会根据显示窗口的大小而进行缩放，若字数据的尺寸不能根据显示窗口的大小而进行缩放，可能会导致在较大的屏幕上播放时，字幕字体的大小较小，而导致观看者看不清字幕；而在较小屏幕的上播放时，字幕字体的大小较大，而导致遮挡图像帧的画面。针对上述问题，在某些例子中，可以获取发声物的尺寸信息，根据发声物的尺寸信息确定字幕数据的字体尺寸。在视频播放时，视频流数据的显示大小会根据显示窗口的大小而进行缩放，因此发声物的尺寸也会根据显示窗口的大小进行缩放，因为字幕数据的字体大小与发声物的尺寸相关联，所以字幕数据的字体大小也能匹配显示窗口的尺寸。当然，若字幕调整的方法运用实时调整字幕的场景中，也可以获取显示窗口尺寸信息，根据显示的窗口的尺寸信息确定字幕数据的字体尺寸。

在某些应用场景中，可能存在字幕数据被渲染到发声物的衣服位置，若字幕的字体颜色为黑色，而发声物的衣服颜色也为黑色时，观看者将看不清字幕。为了解决上述问题，在某些例子中，字幕数据包括文字及背景，所述文字与所述背景的颜色不同，且背景不透明，一个实施例中，字幕数据包括文字及背景的展示效果如图6所示。当然，上述实施例为本发明的可选实施例而已，本发明实施例提到的字幕数据也可以仅包括文字。

与前述字幕位置调整方法的实施例相对应，本发明还提供了字幕位置调整装置的实施例。

本发明字幕位置调整装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明字幕位置调整装置所在电子设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的电子设备通常根据该电子设备的实际功能，还可以包括其他硬件，对此不再赘述。

某些例子中，处理器耦合于所述存储器，用于读取所述存储器存储的软件和文件，并做出响应，执行如下操作：

获取视频流数据及字幕数据；

在某些例子中个，所述装置可以装载于播放器中或字幕调整的应用程序中。图8是本发明一示例性实施例示出的一种字幕位置调整装置800的逻辑框图；如图8所示，该字幕位置调整装置800可以包括：

处理模块801：用于获取视频流数据及字幕数据；对所述视频流数据的图像帧进行图像识别，若检测到发声物信息，则获取图像帧中发声物的位置信息；

渲染模块802：将所述图像帧对应字幕数据渲染至所述位置信息关联的位置。

在某些例子中，处理模块801对所述视频流数据的图像帧进行图像识别之前，响应用户指令，获取对所述视频流的图像帧进行图像识别的频率。

在某些例子中，处理模块801对所述视频流数据的图像帧进行图像识别，可以包括：根据字幕数据的时间戳信息，获取所述时间戳信息对应的图像帧进行图像识别。

在某些例子中，处理装置801获取发声物的尺寸信息，根据发声物的尺寸信息确定字幕数据的字体尺寸。

在某些例子中，将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置之后，包括：将所述图像帧与对应字幕数据合成目标图像帧。

在某些例子中，图像识别可以包括：

在某些例子中，所述位置信息包括以下任一：面部的位置信息、嘴巴的位置信息、身体的位置信息。

在某些例子中，所述字幕数据的显示位置包括：位置信息的周围、位置信息的正下方、位置信息的正上方。

在本发明实施例中，计算机可读存储介质可以是多种形式，比如，在不同的例子中，所述机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。特殊的，所述的计算机可读介质还可以是纸张或者其他合适的能够打印程序的介质。使用这些介质，这些程序可以被通过电学的方式获取到(例如，光学扫描)、可以被以合适的方式编译、解释和处理，然后可以被存储到计算机介质中。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种字幕位置调整的方法，其特征在于，该方法包括步骤：

获取视频流数据及字幕数据；

将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置；

其中，所述图像识别包括步骤：

若嘴巴的数量大于或等于1，则获取所述图像帧的相邻几帧图像帧，通过对比相邻至少两帧图像帧中嘴巴的变化，判断是否存在发声物信息；

若面部的数量不大于1，或者嘴巴的数量小于1，或者不存在发声物信息，则不对字幕数据进行调整。

2.根据权利要求1所述的字幕位置调整的方法，其特征在于，对所述视频流数据的图像帧进行图像识别之前，该方法包括步骤：

3.根据权利要求1所述的字幕位置调整的方法，其特征在于，对所述视频流数据的图像帧进行图像识别，包括步骤：

4.根据权利要求1所述的字幕位置调整的方法，其特征在于，该方法还包括步骤：获取发声物的尺寸信息，根据发声物的尺寸信息确定字幕数据的字体尺寸。

5.根据权利要求1所述的字幕位置调整的方法，其特征在于，将所述图像帧对应字幕数据渲染至与所述位置信息关联的位置之后，该方法还包括步骤：将所述图像帧与对应字幕数据合成目标图像帧。

6.根据权利要求1所述的字幕位置调整的方法，其特征在于，所述位置信息包括以下任一：面部的位置信息、嘴巴的位置信息及身体的位置信息；

7.根据权利要求1所述的字幕位置调整的方法，其特征在于，所述字幕数据包括文字及背景，所述文字与所述背景的颜色不同。

8.一种字幕位置调整装置，其特征在于，包括：

渲染模块：将所述图像帧对应字幕数据渲染至所述位置信息关联的位置；

其中，所述图像识别包括步骤：

9.根据权利要求8所述的装置，其特征在于，包括：

所述装置装载于播放器中或字幕调整的应用程序中。

10.一种电子设备，其特征在于，包括：

获取视频流数据及字幕数据；

其中，所述图像识别包括步骤：

11.一种机器可读存储介质，其特征在于，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

获取视频流数据及字幕数据；

其中，所述图像识别包括步骤：