CN112383809A

CN112383809A - 字幕显示方法、装置和存储介质

Info

Publication number: CN112383809A
Application number: CN202011213254.3A
Authority: CN
Inventors: 袁赛春
Original assignee: TCL Overseas Electronics Huizhou Ltd
Current assignee: TCL Overseas Electronics Huizhou Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-02-19

Abstract

本发明提供一种字幕显示方法、装置和存储介质，该方法包括以下步骤：获取待处理的视频数据；根据所述视频数据获得对应的字幕以及确定所述视频数据中目标人物；获取所述目标人物的位置信息，并确定所述字幕和目标人物的对应关系。本发明能够根据视频中说话人物对应调整字幕的位置，提高用户体验。

Description

字幕显示方法、装置和存储介质

技术领域

本发明涉及显示技术领域，尤其涉及一种字幕显示方法、装置和存储介质。

背景技术

随着技术的进步，电视内容也越来越丰富，为方便用户观看，大部分的视频都采用在图像的下端显示字幕的方式显示对应的字幕。

目前字幕的显示方式存在如下问题：字幕显示的位置在图像的下端，这导致让观看者在看内容时无法顾及字幕，而在看字幕时则容易忽略掉视频内容。

发明内容

本发明的主要目的在于提供一种字幕显示方法、装置和存储介质，旨在解决现有技术中字幕显示不合理的技术问题。

为实现上述目的，本发明提供一种字幕显示方法，所述方法包括以下步骤：

获取待处理的视频数据；

根据所述视频数据获得对应的字幕以及确定所述视频数据中目标人物；

获取所述目标人物的位置信息，并确定所述字幕和目标人物的对应关系；；

根据所述位置信息和对应关系将所述字幕调整至的对应位置。

可选地，所述根据所述位置信息和对应关系将所述字幕调整至的对应位置的步骤之后，所述方法还包括：

接收用户触发的字幕调整指令；

根据所述字幕调整指令将所述字幕进行对应调整。

可选地，所述字幕调整指令包括字幕位置调整指令、字体调整指令和字号调整指令中的一种或者两者以上组合。

可选地，所述视频数据包括节目数据流数信息，所述根据所述视频数据获得对应的字幕的步骤包括：

解析所述节目数据流信息，获得对应的字幕。

可选地，所述视频数据包括即时通信信息，所述获取待处理的视频数据的步骤包括：

通过即时通信软件接收对应的即时通信信息；

所述根据所述视频数据获得对应的字幕的步骤包括：

解析所述即时通信信息提取对应的字幕。

可选地，所述根据所述视频数据获得对应的字幕的步骤包括：

识别所述视频数据中目标人物的口型，获得对应的字幕。

可选地，所述确定所述字幕和目标人物的对应关系的步骤之前，所述方法还包括：

识别所述目标人物的口型，获得对应的语音数据；

所述确定所述字幕和目标人物的对应关系的步骤包括：

根据所述语音数据确定所述目标人物与所述字幕的对应关系。

可选地，所述确定所述字幕和目标人物的对应关系的步骤包括：

接收用户触发的所述字幕与目标人物绑定指令；

根据所述绑定指令确定所述字幕与目标人物的对应关系。

可选地，所述根据所述视频数据获得对应的字幕的步骤之后，所述方法还包括：

记录所述字幕的起止时间。

可选地，所述根据所述位置信息和对应关系将所述字幕调整至的对应位置的步骤包括：

以列表的形式依序显示所述字幕。

接收用户触发的字幕排序指令；

根据所述字幕排序指令和对应的字幕起止时间重组对应的图像和语音，并播放重组后的图像和语音。

此外，为实现上述目的，本发明还提供一种字幕显示装置，所述装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的字幕显示方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有字幕显示程序，所述字幕显示方法程序被处理器执行时实现如上所述的字幕显示方法的步骤。

本发明通过获取待处理的视频数据；根据所述视频数据获得对应的字幕以及确定所述视频数据中目标人物；获取所述目标人物的位置信息，并确定所述字幕和目标人物的对应关系；根据所述位置信息和对应关系将所述字幕调整至的对应位置。通过上述方式，本发明在获得视频数据后，获取对应的字幕，并根据视频数据确定目标人物的位置信息，在确定好字幕和目标人物的对应关系后从而可以根据目标人物的位置信息将字幕调整到对应的位置，实现字幕显示位置的合理分布。

附图说明

图1为本发明实施例方案涉及的字幕显示装置的硬件结构示意图；

图2为本发明字幕显示方法第一实施例的流程示意图；

图3为现有技术展示效果示意图；

图4为本发明实施例中第一展示效果示意图；

图5为本发明实施例中第二展示效果示意图；

图6为本发明实施例中第三展示效果示意图；

图7为本发明实施例中第四展示效果示意图；

图8为本发明字幕显示方法第二实施例的流程示意图；

图9为本发明实施例中第五展示效果示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明实施例方案涉及的字幕显示装置的硬件结构示意图。

所述字幕显示装置在硬件结构上可以包括处理器1001、通信模块1002以及存储器1003等部件。本领域技术人员可以理解，图1中示出的字幕显示装置结构并不构成对字幕显示装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中，所述处理器1001分别与所述存储器1002以及所述通信模块1002连接，所述存储器1002上存储有字幕显示程序，所述字幕显示程序同时被处理器1001执行，所述字幕显示程序执行时实现下述方法实施例的步骤。

处理器1001，是字幕显示装置的控制中心，利用各种接口和线路连接整个字幕显示装置的各个部分，通过运行或执行存储在存储器1003内的软件程序和/或模块，以及调用存储在存储器1003内的数据，执行字幕显示装置的各种功能和处理数据，近而对字幕显示装置进行整体监控。处理器1001可包括一个或多个处理单元；可选地，处理器1001可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1001中。

通信模块1002，可通过网络与外部通讯设备连接。通信模块1002可以接收外部通讯设备发出的请求，还可以发送请求、指令及信息至所述外部通讯设备。所述外部通讯设备可以是用户终端或其他系统服务器等等。

存储器1003，可用于存储软件程序以及各种数据。存储器1003可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可包括数据库，存储数据区可存储根据字幕显示装置的使用所创建的数据或信息等。此外，存储器1003可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件。

尽管图1未示出，但上述字幕显示装置还可以包括电路控制模块，用于与电源连接，保证其他部件的正常工作。

根据上述硬件结构，提出本发明方法各个实施例。

请参阅图2，为本发明字幕显示方法第一实施例的流程示意图。

在本发明实施例中，该方法用于字幕显示装置，所述方法包括以下步骤：

步骤S100，获取待处理的视频数据；

步骤S200，根据所述视频数据获得对应的字幕以及确定所述视频数据中目标人物；

步骤S300，获取所述目标人物的位置信息，并确定所述字幕和目标人物的对应关系；

本发明可以应用于电视端，也可以应用到即时通信视频终端等，视频数据在应用与电视端则可以为节目数据流信息或者本地存储的视频数据；若应用于即时通信视频终端则视频数据则可以为即时通信信息，其中节目数据流信息则可以包括电视节目的视频数据、字幕数据等数据，即时通信信息则可以包括即时通信的视频数据，或者包括即时通信的视频数据和语音数据。

作为一实施例：本实施例以应用于电视端进行说明：

在应用于电视端时，通过电视端可以获取本地存储、外接存储设备中获取到待处理视频数据，其中本地存储和外接存储设备中存储的的视频可以是用于重播的视频数据或者从网络上下载的视频数据，当然具体实施中还可以通过网络实时获取到节目数据流信息作为待处理视频数据，在获得待处理视频数据后，对待处理视频数据进行解析，从而获得对应的字幕。并且对待处理视频数据进行识别，确定待处理视频中目标人物，其中目标人物的确定，可以通过识别视频中人物的口型是否发生说话动作来确定是否为目标人物，也可以预先在视频中对每个目标人物添加标签，从而方便后续确定等方式，进而确定待处理视频中目标人物的位置信息，其中该位置信息是指目标人物在整个显示屏幕所处的位置，具体地目标人物的位置信息可以指目标人物嘴所在的位置也可以为整个人物的中点位置，具体实施中目标人物的位置信息还可以为其他位置；该位置信息可以以显示屏一角的端点为零点，水平方向和竖直方向分别作为x、y轴建立的坐标系中的位置信息，坐标系在具体实施例中还可以其他位置、方向作为x、y轴进行建立。

作为另一实施例：应用到即时通信视频终端进行说明，本实施例即时通信终端通过即时通信软件获得即时通信信息，该即时通信信息包括视频数据和语音数据，在获得即时通信信息后，解析该即时通信信息从而获得对应的语音数据，根据语音数据进行识别即可获得对应的字幕。同时识别视频数据确定正在识别人物的位置，识别视频数据确定正在识别人物的位置的过程与上一实施例相同，此处不在赘述。

在获得字幕和确认目标人物之后，则可以确定字幕和正在说话人的对应的关系，具体地，本实施例中分为2种情况：1、视频中每条字幕的时间段对应的视频中仅有一个人物说话；2、视频中存在至少一条字幕的时间段对应的视频中有多个人物说话。针对第一种情况本实施例中在检测到字幕和目标人物时，即可直接确定字幕与目标人物为对应关系，也就是说说话人物所说的内容转换为文字与字幕相同。针对第二种情况，作为一种实施例，可以通过识别视频中人物，然后通过视频数据中存储的字幕和人物的对应关系确定字幕与目标人物的对应关系，即预先在视频中存储字幕与人物名称的对应关系，然后识别视频中目标人物，从而可以确定正在说明人物的名称，进而确定字幕与目标人物的对应关系。

作为另外的实施例，确定所述字幕和目标人物的对应关系的步骤包括：

接收用户触发的所述字幕与目标人物绑定指令；

根据所述绑定指令确定所述字幕与目标人物的对应关系。

具体实施中，本实施所述的方式一般在视频中存在多个目标人物或者通过上述方式无法确定字幕和目标人物的对应关系的情况下使用，本发明用户还可以通过控制设备或者触屏操作的方式触发绑定指令(或者说配对指令)，将字幕和目标人物进行绑定或者配对，从而确定字幕与目标人物的对应关系。

进一步地，为了提高使用便捷性以及提高字幕和目标人物对应关系的准确性，在用户触发字幕与目标人物绑定指令后，字幕显示装置还可以对用户所绑定的目标人物提取人物特征，并语音的语音特征，然后根据用户触发的绑定指令，即可确定人物特征和语音特征的对应关系，从而使得在后续视频的播放过程中如果出现多个目标人物或者播放语音时视频图像中人物因为拍摄角度或者其他物品遮挡的原因导致无法获取目标人物口型的情况下，此时可以通过人物特征和语音特征的对应关系确定视频中目标人物和字幕的对应关系。当然上述通过人物特征和语音特征的对应关系确定视频中目标人物和字幕的对应关系的逻辑还可以应用于其他情形，比如在确定目标人物和字幕的对应关系后，通过人物特征和语音特征进一步确定结果的正确性，具体地在播放字幕1和对应的视频时，确定字幕1与目标人物1的对应关系，此时提取目标人物1的人物特征，并提取播放语音的语音特征，在后续播放过程中则通过提取视频中待确认目标人物的人物特征和对应时段语音的语音特征，然后对比待确认目标人物的人物特征和对应时段语音的语音特征，根据对比结果确定待确认目标人物对应时段语音是否存在对应关系或者说根据对比结果确定通过上述其他方式确定对应关系是否正确。在另一个具体实施中，本实施所述的方式一般在视频中存在多个目标人物并且一开始场面混杂的情况下，此时通过上述方式无法确定字幕和目标人物的对应关系的情况下使用。当用户选择自动触发绑定指令后，字幕显示装置在每次识别到人物说话时，会判断说话动作与语音的同步关系，并且对用户所绑定的目标人物提取人物特征，以及语音的语音特征，若为同步，即可建立人物特征和语音特征的对应关系，并进行计数。由于存在多个人物，也存在多种语音，此时会出现多种语音交叉对应的情况。但由于匹配的人物和语音出现同步频次会更高，从而也能够在混乱交叉的情况下，正确的确定视频中目标人物和字幕的对应关系。

进一步地，在实际使用中可能无法直接在待处理视频数据中获得字幕，因此此时根据所述视频数据获得对应的字幕的步骤则可以包括：

识别所述视频数据中目标人物的口型，获得对应的字幕。

具体地，本实施例主要针对无法直接通过待处理视频数据中获得字幕的情况，在待处理视频数据中不存在字幕时，识别出待处理视频数据中目标人物，然后对目标人物的口型进行对应的语音识别，获得对应的语音信息，然后将语音信息转换为对应的字幕，语音识别的具体过程为现有技术，此处不多做赘述。

步骤S400，根据所述位置信息和对应关系将所述字幕调整至的对应位置。

在获得字幕信息和目标人物的位置后，根据预存的字幕和目标人物的对应关系，以及目标人物的位置信息调整到对应的位置，具体地，可以将字幕调整到目标人物附近的位置，比如调整到目标人物头像的下方或者左右方附近的位置，从而缩小人物影像与字幕之间的距离，方便用户在观看视频的同时可以兼顾字幕。进一步地，在显示字幕的同时还可以将字幕放置在带有指向的字幕框内，或者说字幕可以带有指向性的标识，方便用户可以一目了然知道对应的字幕由哪位人物说出。

如图3所示，现有的字幕显示方式是将字幕显示在整个画面中的下方位置，以应用于电视端为例，通过本发明方法处理后，此时图示中男性人物正在说话，因此对应的字幕1的显示可以如图4所示，将字幕显示在说话人物的头像附近位置，在另外字幕播放时间段，如图5所示，此时为女性人物说明时，则将字幕2对应调整到女性人物头像附近位置。在应用到即时通信视频终端时，可以如图6所示，若图6中男性在说话，此时字幕为字幕3，则将对应的字幕3调整到通讯视频界面中男性头像附近。具体实施中还可以将字幕以列表的形式将所有的字幕现在在即时通讯界面如图7所示。

需要说明是在待处理视频数据为节目流数据时，为避免所有数据度在同一个内存分区导致的可以在接受节目流数据的同时开辟一个内存分区，用于存储数据，字幕显示终端按照上述方式处理内存分区中的数据，同时将播放内容延迟播放，从而实现将字幕位置调整到对应的位置。

具体地，请参阅图8，基于上述实施例，该字幕显示方法还可以包括：

步骤S500，接收用户触发的字幕调整指令；

步骤S600，根据所述字幕调整指令将所述字幕进行对应调整。

在本实施例中，为方便用户使用，用户可以自己对字幕的显示位置进行调整，具体地，在视频播放过程中或者在播放之前，用户可以通过遥控器或者触屏的方式调出字幕调整菜单，通过字幕调整菜单触发字幕调整指令，字幕调整指令包括字体调整指令、字体大小(即字号)调整指令和字幕位置调整指令中至少一种。在用户触发字幕调整指令后，字幕显示装置则跟进字幕调整指令将字幕的位置、大小和字体中的至少一种进行对应的调整。

进一步地，提高字幕显示的准确性，基于上述实施例，在步骤S400之前，该字幕显示方法还包括：

步骤S600，识别目标人物的口型，获得对应的语音数据；

步骤S300则包括：根据所述语音数据确定所述人物与所述字幕的对应关系；

本实施例主要针对在同一时间段内存在多个说话人物的情况，在同一时间段内存在多个人物说话时，对待处理视频数据进行识别，识别出正在说话的多个人物，然后对正在说话人物的口型进行语音识别，获得对应的语音数据。由于语音数据则为字幕对应的语音，因此可以再将语音数据转化为文字，从而通过文字和字幕进行对比确定语音数据和各个字幕存在的对应关系，进而确定各个字幕与正在说话人物的对应关系。当然在具体的实施中也可以在同一时间仅有一个人物说话的情况时使用本实施所描述的流程。

在确定说话人物和字幕的对应关系后，在播放过程则可以根据该对应关系、目标人物的位置信息将字幕调整到对应位置，从而提高了字幕显示的准确性，尤其在播放的视频数据中存在多个人物说话时，通过先确定说话人物和字幕的对应关系的方式可以大大提高字幕显示的准确性。

进一步地，基于上述实施例，该字幕显示方法还可以包括：

步骤S800，记录所述字幕对应的的视频的起止时间；

此时步骤S400可以包括：步骤S401，以列表的形式依序显示所述字幕。

作为一实施例，在获得对应字幕之后，且在执行将字幕调整到对应的位置之前，记录各个字幕对应的起止时间，并在显示字幕时间，可以以列表的方式依序显示该字幕，具体地根据当前播放视频的播放时间点，显示对应的字幕位于整个列表的中间位置，该字幕列表可以位于整个屏幕的左侧，如图如图9所示，用户触发字幕调整菜单后，可以将所有字幕显示在屏幕的左侧，根据字幕的初始时间进行依序排列。具体实施中字幕的显示方式也可以通过其他方式显示，比如在屏幕中从左至右依序进行排列的方式。

进一步地，基于上述实施例，该字幕显示方法还可以包括：

步骤S900，接收用户触发的字幕排序指令；

步骤S1000，根据所述字幕排序指令和对应的字幕起止时间重组对应的图像数据和语音，并播放重组后的图像和语音。

本实施例为提高用户使用的趣味性，在记录每条字幕对应视频的起止时间后，用户可以调用字幕调整菜单，通过列表的方式显示对应的字幕，如图9所示，用户触发字幕调整菜单后，可以将所有字幕显示在屏幕的左侧，然后根据字幕的初始时间进行随意排列，即用户则可以通过拖动或者遥控器调整列表中字幕的顺序从而实现字幕的重组，然后字幕显示终端则根据重组后的字幕以及每条字幕对应的的视频的起止时间重组对应的图像数据，获得重组后的图像数据和字幕，即获得重组的视频数据。重组后用户可以保存或者将重组的视频数据进行播放。

此外，为实现上述目的，本发明还提供一种字幕显示装置，所述装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上任一项实施例所述的字幕显示方法的步骤，在此不再赘述。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质可以是图1的字幕显示装置中的存储器，也可以是如ROM(Read-OnlyMemory，只读存储器)/RAM(Random Access Memory，随机存取存储器)、磁碟、光盘中的至少一种，所述计算机可读存储介质包括若干指令用以使得一台具有处理器的终端设备(可以是手机，计算机，服务器，终端，或者网络设备等)执行本发明各个实施例所述的字幕显示方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

此外，在本发明中涉及“第一”、“第二”、“第三”、“第四”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种字幕显示方法，其特征在于，所述方法包括以下步骤：

获取待处理的视频数据；

获取所述目标人物的位置信息，并确定所述字幕和目标人物的对应关系；

2.根据权利要求1所述的字幕显示方法，其特征在于，所述根据所述位置信息和对应关系将所述字幕调整至的对应位置的步骤之后，所述方法还包括：

接收用户触发的字幕调整指令；

根据所述字幕调整指令将所述字幕进行对应调整。

3.根据权利要求2所述的字幕显示方法，其特征在于，所述字幕调整指令包括字幕位置调整指令、字体调整指令和字号调整指令中的一种或者两者以上组合。

4.根据权利要求1所述的字幕显示方法，其特征在于，所述视频数据包括节目数据流数信息，所述根据所述视频数据获得对应的字幕的步骤包括：

解析所述节目数据流信息，获得对应的字幕。

5.根据权利要求1所述的字幕显示方法，其特征在于，所述视频数据包括即时通信信息，所述获取待处理的视频数据的步骤包括：

通过即时通信软件接收对应的即时通信信息；

所述根据所述视频数据获得对应的字幕的步骤包括：

解析所述即时通信信息提取对应的字幕。

6.根据权利要求1～5中任一项所述的字幕显示方法，其特征在于，所述根据所述视频数据获得对应的字幕的步骤包括：

识别所述视频数据中目标人物的口型，获得对应的字幕。

7.根据权利要求1所述的字幕显示方法，其特征在于，所述确定所述字幕和目标人物的对应关系的步骤之前，所述方法还包括：

识别所述目标人物的口型，获得对应的语音数据；

所述确定所述字幕和目标人物的对应关系的步骤包括：

8.根据权利要求1所述的字幕显示方法，其特征在于，所述确定所述字幕和目标人物的对应关系的步骤包括：

接收用户触发的所述字幕与目标人物绑定指令；

根据所述绑定指令确定所述字幕与目标人物的对应关系。

9.根据权利要求1所述的字幕显示方法，其特征在于，所述根据所述视频数据获得对应的字幕的步骤之后，所述方法还包括：

记录所述字幕的起止时间。

10.根据权利要求9所述的字幕显示方法，其特征在于，所述根据所述位置信息和对应关系将所述字幕调整至的对应位置的步骤包括：

以列表的形式依序显示所述字幕。

11.根据权利要求9所述的字幕显示方法，其特征在于，所述根据所述位置信息和对应关系将所述字幕调整至的对应位置的步骤之后，所述方法还包括：

接收用户触发的字幕排序指令；

12.一种字幕显示装置，其特征在于，所述装置包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至11中任一项所述的字幕显示方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有字幕显示程序，所述字幕显示程序被处理器执行时实现如权利要求1至11中任一项所述的字幕显示方法的步骤。