CN115623275A

CN115623275A - 一种字幕显示方法及显示设备

Info

Publication number: CN115623275A
Application number: CN202211275642.3A
Authority: CN
Inventors: 余准
Original assignee: Vidaa Netherlands International Holdings BV
Current assignee: Vidaa Netherlands International Holdings BV
Priority date: 2022-10-18
Filing date: 2022-10-18
Publication date: 2023-01-17

Abstract

本申请实施例公开了一种字幕显示方法及显示设备，涉及多媒体技术领域，能够提高字幕的显示速度，实现字幕与视频中的音频的同步播放。具体方案为：接收用户触发播放视频的指令；响应于指令，获取音视频数据和字幕数据；其中，字幕数据包括：多条字幕、以及多条字幕中每条字幕的显示信息；每条字幕的显示信息包括每条字幕的显示样式；根据音视频数据，播放视频，并获取视频的播放时间；根据每条字幕和每条字幕的显示样式，生成字幕图片；根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片。

Description

一种字幕显示方法及显示设备

技术领域

本申请涉及多媒体技术领域，尤其涉及一种字幕显示方法及显示设备。

背景技术

目前，用户看到的视频大多数都是带有字幕的。因此，显示设备(如，电视机，手机)在获取一个音视频数据的同时，还要获取与该音视频数据对应的字幕数据。与音视频数据分开的字幕数据也可以称为外挂字幕数据。然后，显示设备通过该音视频数据播放音视频的同时，根据视频的播放时间和字幕数据显示字幕，以实现字幕和视频中的音频的同步播放。

其中，字幕数据除了包括多条字幕，还可以包括每条字幕的显示信息。该显示信息可以表示每条字幕的播放时间、每条字幕在视频中的显示位置、以及每条字幕的文字样式等等。那么，显示设备需要针对每条字幕，根据每条字幕的显示信息生成字幕并显示。这样就导致显示设备显示多条字幕的速度较慢，耗时较长。从而导致字幕与音频的播放不同步的问题。

发明内容

本申请实施例提供一种字幕显示方法及显示设备，能够提高字幕的显示速度，实现字幕与视频中的音频的同步播放。

为达到上述目的，本申请的实施例采用如下技术方案：

第一方面，提供了一种显示设备，该显示设备包括：显示器、通信器和控制器。

其中，显示器，被配置为显示多媒体。通信器，被配置为接收用户触发播放视频的指令。

控制器，被配置为：响应于指令，获取音视频数据和字幕数据；其中，字幕数据包括：多条字幕、以及多条字幕中每条字幕的显示信息；每条字幕的显示信息包括每条字幕的显示样式；根据音视频数据，控制显示器播放视频，并获取视频的播放时间；根据每条字幕和每条字幕的显示样式，生成字幕图片；根据视频的播放时间、以及每条字幕的显示信息，控制显示器显示字幕图片。

结合第一方面，在一种可能的实现方式中，每条字幕的显示样式包括以下至少一项：每条字幕的文字样式和每条字幕的背景颜色；每条字幕的文字样式包括以下至少一项：字体、字体大小、字体样式和字体粗细。

结合第一方面，在一种可能的实现方式中，每条字幕的显示信息包括：每条字幕的开始播放时间和结束播放时间、以及每条字幕的位置信息。控制器，具体被配置为：在视频的播放时间等于每条字幕的开始播放时间的情况下，根据每条字幕的位置信息，控制显示器显示字幕图片；在视频的播放时间等于每条字幕的结束播放时间的情况下，停止显示字幕图片。

结合第一方面，在一种可能的实现方式中，控制器，具体被配置为：控制显示器，在视频中每条字幕的位置信息所指示的位置上显示字幕图片。

结合第一方面，在一种可能的实现方式中，字幕图片的图片类型为位图或矢量图。

结合第一方面，在一种可能的实现方式中，显示设备还包括：扬声器，被配置为播放音频。控制器，还被配置为根据音视频数据，控制扬声器播放音频。

第二方面，提供了一种字幕显示方法，该方法包括：接收用户触发播放视频的指令；响应于指令，获取音视频数据和字幕数据；其中，字幕数据包括：多条字幕、以及多条字幕中每条字幕的显示信息；每条字幕的显示信息包括每条字幕的显示样式；根据音视频数据，播放视频，并获取视频的播放时间；根据每条字幕和每条字幕的显示样式，生成字幕图片；根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片。

结合第二方面，在一种可能的实现方式中，每条字幕的显示样式包括以下至少一项：每条字幕的文字样式和每条字幕的背景颜色。每条字幕的文字样式包括以下至少一项：字体、字体大小、字体样式和字体粗细。

结合第二方面，在一种可能的实现方式中，每条字幕的显示信息包括：每条字幕的开始播放时间和结束播放时间、以及每条字幕的位置信息。上述根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片，包括：在视频的播放时间等于每条字幕的开始播放时间的情况下，根据每条字幕的位置信息，显示字幕图片；在视频的播放时间等于每条字幕的结束播放时间的情况下，停止显示字幕图片。

结合第二方面，在一种可能的实现方式中，上述根据每条字幕的位置信息，显示字幕图片，包括：在视频中每条字幕的位置信息所指示的位置上显示字幕图片。

结合第二方面，在一种可能的实现方式中，字幕图片的图片类型为位图或矢量图。

结合第二方面，在一种可能的实现方式中，该方法还包括：根据音视频数据，播放音频。

第三方面，提供了一种显示设备，该显示设备具有实现上述第二方面所述的方法的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。

第四方面，提供了一种显示设备，包括：处理器和存储器；该存储器用于存储计算机指令，当该显示设备运行时，该处理器执行该存储器存储的该计算机指令，以使该显示设备执行如上述第二方面中任一项所述的字幕显示方法。

第五方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在显示设备上运行时，使得显示设备可以执行上述第二方面中任一项所述的字幕显示方法。

第六方面，提供了一种包含计算机指令的计算机程序产品，当计算机指令在显示设备上运行时，使得显示设备可以执行上述第二方面中任一项所述的字幕显示方法。

第七方面，提供了一种装置(例如，该装置可以是芯片系统)，该装置包括处理器，用于支持显示设备实现上述第二方面中所涉及的功能。在一种可能的设计中，该装置还包括存储器，该存储器，用于保存显示设备必要的程序指令和数据。该装置是芯片系统时，可以由芯片构成，也可以包含芯片和其他分立器件。

本申请实施例中的本申请实施例提供一种字幕显示方法，显示设备获取音视频数据和字幕数据后，根据音视频数据，播放视频，并获取视频的播放时间。显示设备还根据字幕数据中每条字幕和每条字幕的显示样式(如，文字样式，背景颜色等)，生成字幕图片。该字幕图片可以包括符合每条字幕的显示样式的字幕。然后，显示设备可以根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片。由于该字幕图片包括符合每条字幕的显示样式的字幕，因此，显示设备通过显示字幕图片直接能够显示出符合每条字幕的显示样式的字幕，无需再根据每条字幕的显示样式生成字幕后显示。简化了显示设备显示字幕的过程，从而提高了字幕的显示速度。进而实现了字幕与视频中的音频的同步播放。

附图说明

图1为相关方案提供的一种显示设备的软件结构图；

图2为本申请实施例提供的一种字幕显示方法的场景示意图；

图3为本申请实施例提供的一种控制装置的结构示意图；

图4为本申请实施例提供的一种显示设备的硬件结构图一；

图5为本申请实施例提供的一种字幕显示方法的流程图一；

图6为本申请实施例提供的一种显示设备的软件架构图一；

图7为本申请实施例提供的一种字幕显示方法的流程图二；

图8为本申请实施例提供的一种显示设备的软件架构图二；

图9为本申请实施例提供的一种显示设备的硬件结构图二；

图10为本申请实施例提供的一种芯片系统的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

本申请中术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

目前，随着显示设备的普及，越来越多的用户通过在显示设备(如，电视机，手机)上浏览视频来获取信息。浏览视频的某些用户可能是使用某种语言的用户。为了让使用某种语言的用户能够理解视频的信息，显示设备在播放音视频的同时还会显示音频对应的字幕。该字幕是采用某种语言生成的文字，则使用某种语言的用户通过该字幕能够获悉视频的信息。

具体地，显示设备可以获取音视频数据、以及与该音视频数据对应的字幕数据。然后，显示设备可以根据该音视频数据和该字幕数据，播放音视频和字幕。与音视频数据分开的字幕数据属于外挂字幕数据。

其中，该字幕数据除了包括多条字幕，还可以包括每条字幕的显示信息(也可以成为字幕描述信息)。该显示信息可以表示每条字幕的播放时间、每条字幕在视频中的显示位置、以及每条字幕的文字样式等等。不同字幕的播放时间不同，不同字幕的显示位置和文字样式也可能不同。因此，显示设备需要针对每条字幕，根据每条字幕的显示信息生成字幕并显示。这样就导致显示设备显示多条字幕的速度较慢，耗时较长。从而导致字幕与音频的播放不同步的问题。

示例性地，结合图1所示的相关方案提供的显示设备的软件架构图，介绍相关方案中显示设备100播放音视频和字幕的具体过程。显示设备100可以包括：传输模块(可以称为播放器管道)110和播放模块120。传输模块110可以包括：音视频解析模块111、字幕解析模块(可以称为外挂字幕解析模块)112、码流同步模块113和管道输出模块114。

首先，显示设备100可以接收用户触发播放视频的指令。该指令可以包括下载地址。显示设备100中的音视频解析模块111响应于该指令，从该下载地址下载得到音视频数据。音视频解析模块111再对该音视频数据进行解析，得到音频基本流数据和视频基本流数据，并将音频基本流数据和视频基本流数据传输至码流同步模块113。显示设备中的字幕解析模块112也响应于该指令，从该下载地址下载得到字幕数据。字幕解析模块112再对该字幕数据进行解析，得到字幕基本流数据，并将字幕基本流数据传输至码流同步模块113。

然后，码流同步模块113确定接收到第一时长内的音频基本流数据、视频基本流数据和字幕基本流数据的时候，分别向管道输出模块114传输第一时长内的音频基本流数据、视频基本流数据和字幕基本流数据。其中，第一时长可以是指从视频的播放时间(也可以成为管道中的当前时间)开始的一段时长(例如，1秒(s)，3s)。视频的播放时间可以是指播放模块120正在播放的视频的时间(也可以称为当前管道中的时间)。

其次，管道输出模块114再将第一时长内的音频基本流数据、视频基本流数据和字幕基本流数据传输至播放模块120。

最后，播放模块120用于根据接收到的音频基本流数据、视频基本流数据和字幕基本流数据，播放音频、视频和字幕。其中，播放模块120可以为一个集解码功能、信息同步功能和渲染功能为一体的模块。

可以知道的是，对字幕数据解析得到的字幕基本流数据也可以包括上述的每条字幕的显示信息。播放模块120需要针对每条字幕，根据每条字幕的显示信息生成字幕并显示。这样就导致播放模块120显示多条字幕的速度较慢，耗时较长。从而导致字幕与音频的播放不同步的问题。

针对上述问题，本申请实施例提供一种字幕显示方法，显示设备获取音视频数据和字幕数据后，根据音视频数据，播放视频，并获取视频的播放时间。显示设备还根据字幕数据中每条字幕和每条字幕的显示样式(如，文字样式，背景颜色等)，生成字幕图片。该字幕图片可以包括符合每条字幕的显示样式的字幕。然后，显示设备可以根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片。由于该字幕图片包括符合每条字幕的显示样式的字幕，因此，显示设备通过显示字幕图片直接能够显示出符合每条字幕的显示样式的字幕，无需再根据每条字幕的显示样式生成字幕后显示。简化了显示设备显示字幕的过程，从而提高了字幕的显示速度。进而实现了字幕与视频中的音频的同步播放。

下面对本申请实施例提供的字幕显示方法进行描述。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视机、智能电视、激光投影设备、电子白板(electronic bulletin board)、电子桌面(electronictable)等具有显示器的显示设备。本申请实施例在此对显示设备的具体形态不做限制。本申请实施例中以显示设备为电视机为例进行示意说明。图2和图3为本申请的显示设备的一种具体实施方式。

图2为根据实施例中显示设备与控制装置之间操作场景的示意图。如图2所示，用户可通过智能设备400或控制装置200操作电视机300。

在一些实施例中，控制装置200可以是遥控器，遥控器和电视机300的通信包括红外协议通信，及其他短距离通信方式，通过无线或有线方式来控制电视机300。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制电视机300。

在一些实施例中，用户也可以使用智能设备400(如移动终端、平板电脑、计算机、笔记本电脑等)控制电视机300。例如，使用在智能设备上运行的应用程序控制电视机300。

在一些实施例中，电视机300可以不从上述的智能设备400或控制装置200接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，电视机300还可以采用除了控制装置200和智能设备400之外的方式进行控制，例如，可以通过电视机300设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过电视机300设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，电视机300还与服务器500进行数据通信。可允许电视机300通过局域网(Local Area Network，LAN)、无线局域网(Wireless Local Area Networks，WLAN)和其他网络进行通信连接。服务器500可以向电视机300提供各种内容和互动(例如，音视频数据、字幕数据)。服务器500可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

示例性地，图3示出了本申请实施例中控制装置200的配置框图。如图3所示，控制装置200包括控制器210、通信接口220、用户输入/输出接口230、存储器、供电电源。控制装置200可接收用户的输入操作指令，且将操作指令转换为电视机300可识别和响应的指令，起用户与电视机300之间交互的中介作用。

示例性地，图4示出了本申请实施例提供的一种电视机的结构示意图。

如图4，电视机300包括调谐解调器310、通信器320、检测器330、外部装置接口340、控制器350、显示器360、音频输出接口370、存储器、供电电源、用户接口380中的至少一种。

在一些实施例中，控制器350包括：中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

显示器360包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器350输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控用户界面(Use Interface，UI)。

显示器360可为液晶显示器、有机发光二极管(Organic Light-Emitting Diode，OLED)显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器320是用于根据各种通信协议类型与外部设备进行通信的组件。例如：通信器320可以包括无线网络通信技术Wi-Fi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外模块(如，红外接收器和红外发射器)中的至少一种。电视机300可以通过通信器320与控制装置200建立连接，以收发信息(如，控制信号和数据信号)。

用户接口380，可用于接收控制装置200的控制信号。

检测器330用于采集外部环境或与外部交互的信号。例如，检测器330包括光接收器，用于采集环境光线强度的传感器；或者，检测器330包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器330包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口340可以包括但不限于如下：高清多媒体接口接口(HighDefinition Multimedia Interface，HDMI)、模拟或数据高清分量输入接口(可以称为分量)、复合视频输入接口CVBS、通用串行总线(Universal Serial Bus，USB)输入接口(可以称为USB口)等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器310通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器350和调谐解调器310可以位于不同的分体设备中，即调谐解调器310也可在控制器350所在的主体设备的外置设备中，如外置机顶盒等。

控制器350，通过存储在存储器上中各种软件控制程序，来控制电视机300的工作和响应用户的操作。控制器350控制电视机300的整体操作。例如：控制器350响应于用户触发播放视频的指令，获取音视频数据和字幕数据，并根据音视频数据控制显示器360播放视频。

用户可在显示器360上显示的用户界面UI输入用户命令，则用户输入接口通过用户界面UI接收用户输入命令。

“用户界面UI”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电视机300的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、微件Widget等可视的界面元素。

以下实施例中的方法均可以在具有上述硬件结构的显示设备中实现。

以下结合附图5对本申请实施例提供的字幕显示方法进行详细说明。如图5所示，继续以本申请实施例提供的显示设备为电视机300为例进行示意说明，本申请实施例提供的字幕显示方法可以包括以下S501-S505。

S501、电视机300接收用户触发播放视频的指令。

用户可以向控制装置100输入触发播放视频的操作。例如，该操作可以是用户对遥控器中至少一个按键的按压操作。控制装置100接收并响应于该操作，生成触发播放视频的指令，并向电视机300发送该指令。电视机300在开机状态下，可以接收控制装置100发送的该指令。

S502、电视机300响应于指令，获取音视频数据和字幕数据；其中，字幕数据包括：多条字幕、以及多条字幕中每条字幕的显示信息；每条字幕的显示信息包括每条字幕的显示样式。

电视机300响应于该指令，从该指令所指示的下载地址下载音视频数据和字幕数据，或者，从该指令所指示的存储地址获取音视频数据和字幕数据。

在一些实施例中，音视频数据可以包括多个音视频片段数据。电视机300可以依次下载多个音视频片段数据。电视机300下载多个音视频片段数据的顺序可以是多个音视频片段数据的播放时间的先后顺序。

同理地，字幕数据也可以包括多个字幕片段数据。电视机300可以依次下载多个字幕片段数据。电视机300下载多个字幕片段数据的顺序可以是多个字幕片段数据的播放时间的先后顺序。

在一些实施例中，每条字幕的显示信息可以包括以下至少一项：每条字幕的显示样式、每条字幕的开始播放时间和结束播放时间、每条字幕的位置信息等。每条字幕的显示样式包括以下至少一项：每条字幕的文字样式和每条字幕的背景颜色。每条字幕的文字样式包括以下至少一项：字体(如，楷体或宋体)、字体大小、字体样式和字体粗细。字体样式可以为斜体或非斜体。每条字幕的开始播放时间和结束播放时间均属于视频总时长内的时间。每条字幕的位置信息可以是指每条字幕在视频中的位置信息。

在一些实施例中，电视机300获取的音视频数据和字幕数据是匹配的。

示例性地，音视频数据可以为基于HTTP的动态自适应流(Dynamic AdaptiveStreaming over HTTP，DASH)的流媒体，则字幕数据为定时文本标记语言(Timed TextMarkup Language，TTML)格式的字幕数据。或者，音视频数据可以为基于HTTP的自适应码率流媒体传输协议(HTTP Live Streaming，HLS)的流媒体，则字幕数据为Web视频文本跟踪格式(WebVTT)的字幕数据。又或者，音视频数据可以为普通网络媒体(如，动态图像专家组(Moving Picture Experts Group 4，MP4))，则字幕数据为SRT(SubRip Text)格式或ASS格式的字幕数据。

S503、电视机300根据音视频数据，播放视频，并获取视频的播放时间。

电视机300获取音视频数据和字幕数据后，可以根据音视频数据，控制电视机300中的显示器播放视频，并获取视频的播放时间。该视频的播放时间是实时更新的。该视频的播放时间可以为显示器当前播放的视频时间。

进一步地，电视机300根据音视频数据，控制显示器播放视频的同时，还可以控制电视机300中的扬声器播放音频。

示例性地，电视机300依次下载多个音视频片段数据。电视机300对下载到的每个音视频片段数据进行解析，得到至少一个音频基本流数据、至少一个视频基本流数据、至少一个音频基本流数据中每个音频基本流数据对应的播放时间、以及至少一个视频基本流数据中每个视频基本流数据对应的播放时间。电视机300根据播放时间在第一时长内的音频基本流数据，控制扬声器播放音频片段；还根据播放时间在第一时长内的视频基本流时间，控制显示器播放视频片段。该音频片段属于音频。该视频片段属于视频。

其中，第一时长的详细可以参见上述对第一时长的具体介绍，本申请实施例这里不予赘述。每个音频基本流数据对应的播放时间可以为该音频基本流数据的开始播放时间。每个视频基本流数据对应的播放时间可以为该视频基本流数据的开始播放时间。

S504、电视机300根据每条字幕和每条字幕的显示样式，生成字幕图片。

电视机300获取音视频数据和字幕数据后，还可以根据字幕数据中的每条字幕和每条字幕的显示样式，生成字幕图片，并保存字幕图片。该字幕图片包括符合每条字幕的显示样式的字幕。该字幕图片的图片类型可以为位图或矢量图。

在一些实施例中，电视机300可以按照字幕数据中所有字幕的开始播放时间的先后顺序，生成所有字幕各自的字幕图片。

示例性地，电视机300依次下载多个字幕片段数据。电视机300对下载到的每个字幕片段数据进行解析，得到至少一个字幕基本流数据。至少一个字幕基本流数据包括至少一个字幕中每条字幕和每条字幕的显示信息。电视机300可以根据至少一个字幕的开始播放时间的先后顺序，依次针对至少一个字幕中的每个字幕，根据每个字幕和每个字幕的显示样式，生成每个字幕的字幕图片。

S505、电视机300根据视频的播放时间、以及每条字幕的显示信息，显示字幕图片。

电视机300可以在生成字幕图片的同时，可以根据每条字幕的显示信息中除显示样式之外的其他信息，控制显示器显示每条字幕的字幕图片。

在一些实施例中，每条字幕的显示信息除显示样式之外的其他信息可以包括：每条字幕的开始播放时间和结束播放时间、以及每条字幕的位置信息。电视机300可以判断视频的播放时间是否等于每条字幕的开始播放时间。若视频的播放时间不等于每条字幕的开始播放时间(例如，视频的播放时间早于每条字幕的开始播放时间)，电视机300不显示每条字幕的字幕图片。若视频的播放时间等于每条字幕的开始播放时间，电视机300根据每条字幕的位置信息，显示每条字幕的字幕图片。然后，电视机300再判断视频的播放时间是否等于每条字幕的结束播放时间。若视频的播放时间不等于每条字幕的结束播放时间，则电视机300保持显示该字幕图片。若视频的播放时间等于每条字幕的结束播放时间，则电视机300停止显示该字幕图片。

需要说明的是，由于视频的播放时间是实时更新的，因此可知，视频的播放时间可以先等于每条字幕的开始播放时间，再等于或晚于每条字幕的结束播放时间。其次，电视机300获取的视频的播放时间受电视机300获取视频的播放时间的周期(可以简称为时间获取周期)的影响。因此可知，电视机300连续获取的两个视频的播放时间中一个播放时间可能早于每条字幕的开始播放时间，另一个播放时间可能晚于每条字幕的开始播放时间。也就是说，电视机300获取的视频的播放时间可能不会等于每条字幕的开始播放时间。因此，上述“视频的播放时间等于每条字幕的开始播放时间”可以是指视频的播放时间近似等于每条字幕的开始播放时间。例如，视频的播放时间和每条字幕的开始播放时间之间的时间差在一个时间获取周期内，则电视机300可以确定视频的播放时间等于每条字幕的开始播放时间。同理地，上述“视频的播放时间等于每条字幕的结束播放时间”也可以是指视频的播放时间近似等于每条字幕的结束播放时间。

在一些实施例中，电视机300可以在视频中每条字幕的位置信息所指示的位置上，显示字幕图片。

可以理解的是，电视机300在视频的播放时间等于每条字幕的开始播放时间的时候，根据每条字幕的位置信息，显示每条字幕的字幕图片；或者，在每条字幕的显示信息不包括每条字幕的位置信息的情况下，直接显示媒体字幕的字幕图片。电视机300无需根据每条字幕的显示样式先生成符合该显示样式的字幕再显示。电视机300直接显示媒体字幕的字幕图片的速度，比根据每条字幕的显示样式先生成符合该显示样式的字幕再显示的速度快。进而可以保证电视机300同步显示字幕和音频。

另外，电视机300获取音视频数据和字幕数据之后，根据音视频数据播放音频和视频的同时，生成字幕图片，再显示字幕图片。即电视机300在S502之后，执行S503的同时，执行S504-S505。

示例性地，如图6所示的本申请实施例提供的电视机300的软件架构图，电视机300可以包括：传输模块610和播放模块120。传输模块610可以包括：音视频解析模块111、字幕解析模块612和管道输出模块114。

其中，音视频解析模块111可以包括：音视频下载模块111-1、视频格式探测模块111-2、第一媒体缓冲模块111-3、音视频解封装模块111-4和多缓冲队列111-5。字幕解析模块612可以包括：字幕下载模块112-1、字幕格式探测模块112-2、第二媒体缓冲模块112-3、字幕解析子模块612-1和字幕同步模块612-2。管道输出模块614可以包括：视频基本流注入模块114-1、音频基本流注入模块114-2、字幕基本流注入模块114-3和字幕渲染模块614-1。字幕基本流注入模块114-3和字幕渲染模块614-1可以统称为通用字幕渲染模块。

进一步地，结合图6，介绍电视机300执行S502-S505的过程。如图7所示，上述S502-S505可以包括S701-S709。

S701、音视频解析模块111响应于该指令，获取音视频数据。

音视频解析模块111可以从该指令所指示的下载地址下载得到该音视频数据。例如，音视频解析模块111中的音视频下载模块111-1从该下载地址下载得到该音视频数据。

S702、音视频解析模块111对该音视频数据进行解析，得到音频基本流数据和视频基本流数据。

音视频解析模块111中的视频格式探测模块111-2可以获取该音视频数据的视频格式(如，DASH、HLS和MP4)。该音视频数据可以包括多个音视频片段数据。然后，音视频解析模块111中的第一媒体缓冲模块111-3可以在下载得到每个音视频片段数据的时候，向音视频解析模块111中的音视频解封装模块111-4发送该音视频数据的视频格式和下载到的每个音视频片段数据。音视频解封装模块111-4根据该音视频数据的视频格式，对每个音视频片段数据进行解析(也可以称为解封装)，得到至少一个音频基本流数据、至少一个视频基本流数据、至少一个音频基本流数据中每个音频基本流数据对应的播放时间、以及至少一个视频基本流数据中每个视频基本流数据对应的播放时间。音视频解封装模块111-4将至少一个音频基本流数据、至少一个视频基本流数据、至少一个音频基本流数据中每个音频基本流数据对应的播放时间、以及至少一个视频基本流数据中每个视频基本流数据对应的播放时间，发送至多缓冲队列111-5。

其中，针对不同的视频格式的音视频数据，采用不同的解封装方式。例如，针对DASH和HLS等视频格式的音视频数据，采用协议解封装和格式解封装。针对普通网络媒体(如，MP4)的音视频数据，采用格式解封装。

S703、音视频解析模块111将音频基本流数据和视频基本流数据分别传输至管道输出模块614。

音视频解析模块111将音频基本流数据传输至管道输出模块614中的音频基本流注入模块114-2。音视频解析模块111将视频基本流数据传输至管道输出模块614中的视频基本流注入模块114-1。

S704、管道输出模块614分别将音频基本流数据和视频基本流数据传输至播放模块120。

管道输出模块614中的音频基本流注入模块114-2将音频基本流数据传输至播放模块120。管道输出模块614中的视频基本流注入模块114-1将视频基本流数据传输至播放模块120。

S705、播放模块120根据音频基本流数据和视频基本流数据，控制扬声器播放音频，控制显示器播放视频，并获取视频的播放时间。

播放模块120分别对音频基本流数据和视频基本流数据进行解码；再根据音视频基本流数据对应的播放时间和视频基本流数据对应的播放时间，根据解码后的视频基本流数据绘制渲染生成视频并显示，并根据解码后的音频基本流数据播放音频。

S706、字幕解析模块612响应于该指令，获取字幕数据。

字幕解析模块612中的字幕下载模块112-1可以从该指令所指示的下载地址下载得到该字幕数据。

S707、字幕解析模块612对该字幕数据进行解析，得到字幕基本流数据，再根据字幕基本流数据中每条字幕和每条字幕的显示样式，生成每条字幕的字幕图片。

字幕解析模块612中的字幕格式探测模块112-2可以获取该字幕数据的字幕格式(如，SRT、ASS)。该字幕数据可以包括多个字幕片段数据。然后，字幕解析模块612中的、第二媒体缓冲模块112-3可以在下载得到每个字幕片段数据的时候，向字幕解析模块612中的字幕解析子模块612-1发送下载到的每个字幕片段数据。字幕解析子模块612-1根据该字幕数据的视频格式，对每个字幕片段数据进行解析(也可以称为解封装)，得到至少一个字幕基本流数据；再针对每个字幕基本流数据，生成每个字幕的字幕图片。字幕解析子模块612-1将每个字幕的字幕图片和每个字幕的显示信息发送至字幕同步模块612-2。字幕同步模块612-2根据每个字幕的显示信息中的开始播放时间、以及视频的播放时间，判断是否向通用字幕渲染模块发送每个字幕的字幕图片和每个字幕的显示信息。

S708、字幕解析模块612在视频的播放时间等于每条字幕的开始播放时间的情况下，将每条字幕的字幕图片和每条字幕的显示信息传输至管道输出模块614中的通用字幕渲染模块。

字幕解析模块612中的字幕同步模块612-2在视频的播放时间等于每条字幕的开始播放时间的情况下，将每个字幕的字幕图片和每个字幕的显示信息传输至通用字幕渲染模块中的字幕基本流注入模块114-3。

S709、通用字幕渲染模块根据每条字幕的显示信息，显示每条字幕的字幕图片。

通用字幕渲染模块中的字幕基本流注入模块114-3将每个字幕的字幕图片和每个字幕的显示信息发送至字幕渲染模块614-1。字幕渲染模块614-1根据每个字幕的字幕图片进行绘制渲染，生成该字幕图片；再根据每个字幕的显示信息(例如，每个字幕的位置信息)，显示该字幕图片。

在一些实施例中，字幕解析模块612的功能可以由开源视频处理软件(例如，GStreamer^TM)实现。通用字幕渲染模块的功能可以由播放器软件(如，媒体后端mediabackend软件)实现。

示例性地，以电视机300包括GStreamer^TM和媒体后端软件为例，介绍电视机300显示字幕的过程。如图8所示，首先，GStreamer^TM中的Cairo/Pango插件获取字幕数据，并将字幕数据发送到字幕数据处理组件。例如，处理TTML格式的字幕的字幕数据处理组件可以称为TTML Render。字幕数据处理组件根据字幕数据，生成每个字幕的字幕图片(如，位图)。字幕数据处理组件将每个字幕的字幕图片和每个字幕的显示信息发送至字幕同步模块。字幕同步模块在视频的播放时间等于每个字幕的开始播放时间的时候，将每个字幕的字幕图片和每个字幕的显示信息经过多队列组件(MultiQueue)、字幕传输组件(Subtitle Essink)送到媒体后端软件中的组织化后端组件(Streaming Backend)。组织化后端组件将每个字幕的字幕图片和每个字幕的显示信息传给字幕处理组件(SubtitleRender)。字幕处理组件调用图形处理组件(Direct FB^TM Render)绘制渲染每个字幕的字幕图片，再根据每个字幕的显示信息显示该字幕图片。

其中，多队列组件(MultiQueue)可以接收视频处理软件(如，AVDemux^TM)发送的视频。

可以理解的是，图形处理组件渲染生成的字幕图片可以自动适应显示器的屏幕大小，减少了各种不同尺寸的屏幕的适配工作。另外，图形处理组件渲染图片的速度很快，可以将字幕和音频的播放时间差控制在40ms以内，能够满足用户对字幕和音频同步播放的要求，也满足了数字电视标准(如，FreeView Play)中对字幕和音频的播放时间差的要求。

需要说明的是，与相关方案提供的显示设备100中的字幕解析模块112不同的是，本申请实施例提供的电视机300中的字幕解析模块612还包括字幕同步模块612-2。其次，字幕解析模块612中的字幕解析子模块612-1不仅能够解析得到字幕基本流数据，还可以根据字幕基本流数据，生成所有字幕中每个字幕的字幕图片。而字幕解析模块112中的字幕解析子模块112-1只能够解析得到字幕基本流数据。

另外，与相关方案提供的显示设备100中的管道输出模块114不同的是，本申请实施例中的管道输出模块614还包括字幕渲染模块614-1。

还有的是，与相关方案提供的显示设备100中的传输模块110不同的是，本申请实施例提供的电视机300传输模块610不包括码流同步模块113。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对显示设备(如，电视机300)进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请的实施例还提供一种显示设备。如图9所示，显示设备800包括：显示器801、通信器802和控制器803。

其中，显示器801，被配置为显示多媒体。

通信器802，被配置为接收用户触发播放视频的指令。

控制器803，被配置为：响应于指令，获取音视频数据和字幕数据；其中，字幕数据包括：多条字幕、以及多条字幕中每条字幕的显示信息；每条字幕的显示信息包括每条字幕的显示样式；根据音视频数据，控制显示器801播放视频，并获取视频的播放时间；根据每条字幕和每条字幕的显示样式，生成字幕图片；根据视频的播放时间、以及每条字幕的显示信息，控制显示器801显示字幕图片。

结合第一方面，在一种可能的实现方式中，每条字幕的显示信息包括：每条字幕的开始播放时间和结束播放时间、以及每条字幕的位置信息。控制器803，具体被配置为：在视频的播放时间等于每条字幕的开始播放时间的情况下，根据每条字幕的位置信息，控制显示器801显示字幕图片；在视频的播放时间等于每条字幕的结束播放时间的情况下，停止显示字幕图片。

结合第一方面，在一种可能的实现方式中，控制器803，具体被配置为：控制显示器801，在视频中每条字幕的位置信息所指示的位置上显示字幕图片。

结合第一方面，在一种可能的实现方式中，显示设备800还包括：扬声器804，被配置为播放音频。控制器803，还被配置为根据音视频数据，控制扬声器804播放音频。

当然，本申请实施例提供的显示设备800包括但不限于上述模块，例如显示设备800还可以包括存储器。存储器可以用于存储该写显示设备800的可执行指令，还可以用于存储显示设备800在运行过程中生成的数据，如每个字幕的字幕图片等。

本申请实施例还提供一种显示设备，包括：处理器和存储器；该存储器用于存储计算机指令，当该显示设备运行时，该处理器执行该存储器存储的该计算机指令，以使该显示设备执行本申请实施例提供的字幕显示方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当计算机指令在显示设备上运行时，使得显示设备可以执行本申请实施例提供的字幕显示方法。

例如，该计算机可读存储介质可以是ROM、RAM、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种包含计算机指令的计算机程序产品，当计算机指令在显示设备上运行时，使得显示设备可以执行本申请实施例提供的字幕显示方法。

本申请实施例还提供一种装置(例如，该装置可以是芯片系统)，该装置包括处理器，用于支持显示设备实现本申请实施例提供的字幕显示方法。在一种可能的设计中，该装置还包括存储器，该存储器，用于保存显示设备必要的程序指令和数据。该装置是芯片系统时，可以由芯片构成，也可以包含芯片和其他分立器件。

示例性地，如图10所示，本申请实施例提供的芯片系统可以包括至少一个处理器901和至少一个接口电路902。该处理器901可以是上述电视机300中的处理器。处理器901和接口电路902可通过线路互联。该处理器901可以通过接口电路902从上述电视机300的存储器接收并执行计算机指令。当计算机指令被处理器901执行时，可使得电视机300执行上述实施例中电视机300执行的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置(如，第一控制设备，区域控制器)的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置(如，第一控制设备，区域控制器)和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置(如，第一控制设备，区域控制器)和方法，可以通过其它的方式实现。例如，以上所描述的装置(如，第一控制设备，区域控制器)实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种显示设备，其特征在于，所述显示设备包括：

显示器，被配置为显示多媒体；

通信器，被配置为接收用户触发播放视频的指令；

控制器，被配置为：

响应于所述指令，获取音视频数据和字幕数据；其中，所述字幕数据包括：多条字幕、以及所述多条字幕中每条字幕的显示信息；所述每条字幕的显示信息包括所述每条字幕的显示样式；

根据所述音视频数据，控制所述显示器播放视频，并获取所述视频的播放时间；

根据所述每条字幕和所述每条字幕的显示样式，生成字幕图片；

根据所述视频的播放时间、以及所述每条字幕的显示信息，控制所述显示器显示所述字幕图片。

2.根据权利要求1所述的显示设备，其特征在于，所述每条字幕的显示样式包括以下至少一项：所述每条字幕的文字样式和所述每条字幕的背景颜色；所述每条字幕的文字样式包括以下至少一项：字体、字体大小、字体样式和字体粗细。

3.根据权利要求1或2所述的显示设备，其特征在于，所述每条字幕的显示信息包括：所述每条字幕的开始播放时间和结束播放时间、以及所述每条字幕的位置信息；

所述控制器，具体被配置为：

在所述视频的播放时间等于所述每条字幕的开始播放时间的情况下，根据所述每条字幕的位置信息，控制所述显示器显示所述字幕图片；

在所述视频的播放时间等于所述每条字幕的结束播放时间的情况下，停止显示所述字幕图片。

4.根据权利要求3所述的显示设备，其特征在于，所述控制器，具体被配置为：控制所述显示器，在所述视频中所述每条字幕的位置信息所指示的位置上显示所述字幕图片。

5.根据权利要求1或2所述的显示设备，其特征在于，所述字幕图片的图片类型为位图或矢量图。

6.根据权利要求1或2所述的显示设备，其特征在于，所述显示设备还包括：扬声器，被配置为播放音频；

所述控制器，还被配置为根据所述音视频数据，控制所述扬声器播放音频。

7.一种字幕显示方法，其特征在于，所述方法包括：

接收用户触发播放视频的指令；

根据所述音视频数据，播放视频，并获取所述视频的播放时间；

根据所述视频的播放时间、以及所述每条字幕的显示信息，显示所述字幕图片。

8.根据权利要求7所述的方法，其特征在于，所述每条字幕的显示样式包括以下至少一项：所述每条字幕的文字样式和所述每条字幕的背景颜色；所述每条字幕的文字样式包括以下至少一项：字体、字体大小、字体样式和字体粗细。

9.根据权利要求7或8所述的方法，其特征在于，所述每条字幕的显示信息包括：所述每条字幕的开始播放时间和结束播放时间、以及所述每条字幕的位置信息；

所述根据所述视频的播放时间、以及所述每条字幕的显示信息，显示所述字幕图片，包括：

在所述视频的播放时间等于所述每条字幕的开始播放时间的情况下，根据所述每条字幕的位置信息，显示所述字幕图片；

10.根据权利要求9所述的方法，其特征在于，所述根据所述每条字幕的位置信息，显示所述字幕图片，包括：在所述视频中所述每条字幕的位置信息所指示的位置上显示所述字幕图片。