CN114007145A

CN114007145A - 一种字幕显示方法及显示设备

Info

Publication number: CN114007145A
Application number: CN202111280246.5A
Authority: CN
Inventors: 段宝山
Original assignee: Qingdao Hisense Media Network Technology Co Ltd
Current assignee: Qingdao Hisense Media Network Technology Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-02-01

Abstract

本发明公开一种字幕显示方法及显示设备，显示设备接收资源服务器同步发送的视频数据和字幕数据，所述字幕数据包括字幕信息、时间信息和用于指示所述字幕信息的发声对象的目标信息；根据所述视频数据和所述目标信息，计算所述发声对象在视频画面中的相对位置和尺寸信息；根据所述时间信息、所述发声对象在视频画面中的相对位置和尺寸信息，在所述视频画面上显示所述字幕信息。本申请能提升字幕显示的精准性和丰富性，从而为用户，尤其是听力障碍人士提供更好的视频及其字幕的观看体验。

Description

一种字幕显示方法及显示设备

技术领域

本发明涉及显示设备领域，尤其涉及一种字幕显示方法及显示设备。

背景技术

显示设备在播放视频资源时，视频画面中一般显示字幕信息，字幕信息与视频画面中人物的人声和对话同步，通过显示字幕信息，一方面提供语言翻译功能，将人声转化为用户习惯的语言文字，另一方面还能为听力障碍人士提供帮助，便于用户理解视频播放的内容。常规的字幕信息是在视频画面上的固定位置(例如底部)逐句显示，但这种字幕显示方式对于具有听力障碍的用户并不友好，比如视频中多人同时发声，听力障碍人士就无法获知当前字幕对应于哪一人物。

发明内容

为解决上述背景技术中存在的问题，本发明提供一种字幕显示方法及显示设备，以提升字幕显示的精准性和丰富性，从而为用户，尤其是听力障碍人士提供更好的视频及其字幕的观看体验。

第一方面提供一种显示设备，包括：

显示器，用于显示视频及其字幕信息；

通信器，用于与资源服务器通信连接；

控制器，被配置为执行：

接收所述资源服务器同步发送的视频数据和字幕数据，所述字幕数据包括字幕信息、时间信息和用于指示所述字幕信息的发声对象的目标信息；

根据所述视频数据和所述目标信息，计算所述发声对象在视频画面中的相对位置和尺寸信息；

根据所述时间信息、所述发声对象在视频画面中的相对位置和尺寸信息，控制显示器在所述视频画面上显示所述字幕信息。

在第一方面第一种示例性的实现方式中，所述目标信息中包括所述发声对象的形象特征和位置分布，则所述控制器被配置为按照如下方式计算所述发声对象在视频画面中的相对位置和尺寸信息：

从所述视频数据中提取目标视频图像；

根据所述目标信息，从所述目标视频图像中分割及识别出所述发声对象；

计算所述发声对象在图像坐标系中的坐标、以及，计算所述发声对象的宽度和高度。

在第一方面第二种示例性的实现方式中，所述目标信息中包括所述发声对象的状态描述信息，则所述控制器被配置为按照如下方式显示所述字幕信息：

确定与所述状态描述信息相匹配的展示特效；

根据所述展示特效和所述发声对象的尺寸信息，绘制当前的字幕模板；

在达到所述时间信息指示的时间节点时，控制显示器在所述视频画面上发声对象所在的位置按照所述字幕模板，加载显示所述字幕信息。

在第一方面第三种示例性的实现方式中，所述控制器被配置为按照如下方式计算所述发声对象在视频画面中的相对位置和尺寸信息：

调用本地存储的处理模型；

将所述目标视频图像输入至所述处理模型，控制所述处理模型对所述目标视频图像进行处理；

获取所述处理模型的输出结果，所述输出结果包括从所述目标视频图像中分割出的对象元素，以及各对象元素的坐标、宽度和高度；

从所述对象元素中筛选出与所述目标信息相匹配的发声对象。

在第一方面第四种示例性的实现方式中，所述发声对象为具备发声能力的生物对象或者环境中能够产生物理声响的非生物对象。

结合第一方面第三种示例性的实现方式，在第一方面第五种示例性的实现方式中，所述通信器还用于与模型服务器通信连接，所述控制器还被配置为执行：

在接收到所述模型服务器推送的模型更新消息时，向所述模型服务器请求下载更新后的处理模型；

删除旧版本的处理模型，将更新后的处理模型存储于本地。

结合第一方面第三种示例性的实现方式，在第一方面第六种示例性的实现方式中，在将所述目标视频图像输入至所述处理模型之前，所述控制器还配置为执行：

对所述目标视频图像进行预处理，所述预处理包括对所述目标视频图像进行缩放，和/或，对所述目标视频图像进行二值化处理。

第二方面提供一种字幕显示方法，包括：

接收资源服务器同步发送的视频数据和字幕数据，所述字幕数据包括字幕信息、时间信息和用于指示所述字幕信息的发声对象的目标信息；

根据所述时间信息、所述发声对象在视频画面中的相对位置和尺寸信息，在所述视频画面上显示所述字幕信息。

第二方面的其他示例性实现方式可以参照前述第一方面，此处不再赘述。

在本申请上述示例的技术方案中，在资源服务器端，运营商可为每个视频资源配置需同步播放的字幕数据，常规的字幕数据中包括字幕信息和时间信息，字幕信息为声音所转换成的可视化语言文字，即为随视频画面同步展示的字幕文本，时间信息用于指定显示该条字幕信息的时间节点，例如某视频的总时长为30min，字幕信息1被配置在视频播放至第1min时开始显示。本申请中字幕数据除包括字幕信息和时间信息，还包括运营商根据视频内容预先配置的目标信息，目标信息用于指示该条字幕信息具体的发声对象，所述发声对象为视频画面中发出该条字幕的声音的目标，发声对象可以是具有发声能力的生物，例如人物、动物等，发声对象也可以是环境中能够产生物理声响的非生物对象，例如雷雨、汽车等，由于常规方案中非人声基本是无关联字幕的，因此本申请中也可以令听力障碍人士看到环境中除人物外其他发声对象的字幕信息，从而使听力障碍人士获知更真实和精准的声音内容表达。

本申请中显示设备在获取视频数据后，可以抓取目标视频图像，从而定位发声对象在视频画面中的相对位置，并计算发声对象的尺寸信息，这样即可在发声对象的位置处，显示与发声对象的尺寸大小相适配的字幕信息，使得用户能够肉眼直观辨别出字幕信息对应于哪个目标对象，即便同一时间节点处有多对象同时发声，但听力障碍人士仍可通过每个发声对象局部展示的字幕信息，获知当前有几处发声，以及每个发声对象分别说了什么内容，从而提升字幕显示的精准性和丰富性，从而为用户，尤其是听力障碍人士提供更好的视频及其字幕的观看体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要访问的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了显示设备的使用场景；

图2示例性示出了控制装置100的硬件配置框图；

图3示例性示出了显示设备200的硬件配置框图；

图4示例性示出了显示设备200中软件配置图；

图5(a)示例性示出了改进前男人和女人同时发声时，字幕信息1、2的显示效果图；

图5(b)示例性示出了改进前女人单独发声时，字幕信息3的显示效果图；

图5(c)示例性示出了改进前切换到男人单独发声时，字幕信息4的显示效果图；

图5(d)示例性示出了改进前男人和女人出门时的视频画面显示效果图；

图6(a)示例性示出了改进后男人和女人同时发声时，字幕信息1、2的显示效果图；

图6(b)示例性示出了改进后女人单独发声时，字幕信息3的显示效果图；

图6(c)示例性示出了改进后切换到男人单独发声时，字幕信息4的显示效果图；

图6(d)示例性示出了改进后男人和女人出门时，字幕信息5的显示效果图；

图7示例性示出了一种字幕显示方法的流程图；

图8示例性示出了字幕显示的逻辑架构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

在一些实施例中，一个步骤执行主体执行的软件步骤可以随需求迁移到与之进行数据通信的另一步骤执行主体上进行执行。示例性的，服务器执行的软件步骤可以随需求迁移到与之数据通信的显示设备上执行，反之亦然。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接、图标或其他可操作的控件。与所选择的对象有关操作有：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，图形处理器，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等中的至少一种。图形处理器包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象；还包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器，用于将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等视频处理中的至少一种，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等中的至少一种。其中，解复用模块，用于对输入音视频数据流进行解复用处理。视频解码模块，用于对解复用后的视频信号进行处理，包括解码和缩放处理等。图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。帧率转换模块，用于对转换输入视频帧率。显示格式化模块，用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，音频处理器，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理中的至少一种，得到可以在扬声器中播放的声音信号。

在一些实施例中，用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素中的至少一种。

在一些实施例中，用户接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

以上实施例介绍了显示设备的硬件/软件架构以及功能实现等内容。对于该显示设备，比如可从外部信号源(如机顶盒等)或网络获取视频资源，并加载播放该视频资源。显示设备在播放视频资源时，除播放视频数据，一般还同步播放字幕信息，字幕信息是发声对象说出的声音内容所转换成的文本，字幕信息可以根据用户语言习惯进行显示或翻译，例如某影片的原音为英文，面向中国大陆用户，可将原音翻译为简体中文语言的文字，进而以简体中文显示字幕信息。此外，通过将音频内容转化为可视化的字幕信息，也便于听力障碍人士理解视频资源所传达的情节和内容。

在一些实施例中，运营商除提供视频资源，还可一并提供该视频资源的字幕数据，字幕数据中包括若干条字幕信息，并为每条字幕信息配置对应的时间信息，所述时间信息用于指示字幕信息所显示的时间节点，例如某视频资源的总播放时长为30分钟，字幕信息1被配置在视频播放进度为第50秒的时间节点处显示。

在一些实施例中，每个视频资源可以关联有一个播放时间轴，该播放时间轴的长度等于为视频总时长，在该播放时间轴上对视频资源所包括的各条字幕信息的显示节点进行标记，在每一标记的节点处可记录要显示的字幕信息ID，从而使显示设备获知在节点处应显示哪个或哪些字幕信息。播放时间轴上每个标记的节点可映射于一条或多条字幕信息，当节点与字幕信息是一对多的映射关系时，说明节点时刻存在多个对象同时发出声音，而同一条字幕信息不可映射于多个节点。

在一些实施例中，显示设备在接收视频数据时，同步接收字幕数据，并根据当前时间和运营商预设好的时间信息，来控制字幕显示。参照图5(a)～图5(d)示例，假设在视频的环境场景中包括两个人物间的对话，分别为男人和女人，其中图5(a)对应的时间节点为19:30:31，在该时间节点处，视频画面中男人和女人同时发声，由此显示两条并列的字幕信息1和字幕信息2，字幕信息1对应于男人的发声，字幕信息2对应于女人的发声，例如字幕信息1为“出去吃晚饭吧”，字幕信息2为“有点饿了，该吃晚饭啦”。

其中图5(b)对应的时间节点为19:30:32，在该时间节点处，视频画面中仅女人单独发声，由此显示一条字幕信息3，例如字幕信息3为“好呀，我想吃火锅”。图5(c)对应的时间节点为19:30:33，视频画面中仅男人单独发声，由此产生一条字幕信息4，字幕信息4是对字幕信息3的应答，例如字幕信息4为“OK，我请客，咱们走吧”。之后男人和女人出门时，两人均未发声，因此显示如图5(d)的效果图，无字幕显示。

由图5(a)～图5(d)的视频及其字幕的显示示例可以看出，常规来说，字幕信息的显示位置及格式一般是固定模式的，例如本申请附图中字幕信息始终显示于视频画面的底部，字幕信息中文本的字体、字号、字形和字体颜色等板式也统一不变，其字幕显示模式较为单一，不够丰富和形象；对于5(a)的示例，听力良好的用户自然能根据男女声音的音色、音调等差异，准确区分出字幕信息1是男人发出的，字幕信息2是女人发出的，而对于听力障碍人士来说，他们能看到视频画面中男人和女人的嘴部都是发声时的活动状态，并且人物位置随机分布，字幕信息1和字幕信息2所表达的内容相似，导致听力障碍人士根本无法分辨两条并列显示的字幕信息分别由谁说出；此外，场景中环境产生的物理声响是无字幕显示的，例如5(d)的示例中，男女二人出门过程中，会产生“砰”的关门声，但关门声无拟声的字幕，听力障碍人士无法通过听觉和视觉感知环境所触发的声音。由此可见，普通的字幕显示方式对听力障碍人士并不友好，影响其对视频的观看和理解。

为克服常规字幕显示方式所存在的缺陷，在一种示例性的实现方式中，运营商在配置字幕数据时，除设置字幕信息和时间信息外，还增设目标信息，目标信息用于指示该条字幕信息的发声对象，本申请中所述发声对象不仅为具备发声能力的生物对象，例如人物、动物等，还可以是环境中能够产生物理声响的非生物对象，例如雷雨、河流、汽车、门、广播喇叭等。目标信息中具体包括用于描述发声对象的形象特征或身份标识，例如男人、女人、猫、飞机等。

在一种示例性的实现方式中，对于人物类型的发声对象，可以基于其在视频资源中实际的声音内容，进行如语义识别等语音处理，从而转换成相应的文本信息；对于动物类型、非生物类型等发声对象，可以将视频资源中的声音进行拟声生成字幕信息，例如对于猫，可以转换为“喵～喵～喵”的叫声，对于雷，可以转换为“轰隆～轰隆”的雷声，对于相机，可以转换为“咔嚓”的拍照声，等等。也就是说，改进后的字幕数据中不仅包括人声的字幕信息及其显示节点，还包括其他能够产生声音的非人声对象的字幕信息及其显示节点，这样显示设备端解析字幕数据后，不仅能显示人声字幕，还能显示如动物、昆虫、环境等非人声字幕，使得字幕显示更加丰富和形象，更贴近实际视频声音的播放内容和效果。

在一种示例性的实现方式中，所述目标信息还可包括对发声对象的位置分布的描述，通过形象特征和位置分布，可相对更精准地指示和定位发声对象，例如在图5(a)的示例中，包括三个对象元素，即男人、女人和门，三者近似于同行站立，则可通过站位排序，设置每个对象元素的位置分布，例如若按照从左向右的顺序，则门的位置分布为“左一”，男人的位置分布为“左二”，女人的位置分布为“左三”；若按照从右向左的顺序，则女人的位置分布为“右一”，男人的位置分布为“右二”，门的位置分布为“右三”。

在一种示例性的实现方式中，也可根据视频图像中包括的对象元素的数量、各对象元素间的位置分布规律等方面，将视频图像的区域进行阵列划分，例如在图5(a)的示例中，包括三个近乎呈行分布的对象元素，则将视频图像划分为一行三列，则位置分布＝[i′，j′]，其中i′表示对象元素所处的行序号，j′表示对象元素所处的列序号，则门的位置分布为[1，1]，男人的位置分布为[1，2]，女人的位置分布为[1，3]。在视频图像中哪个或哪些对象元素发声，则将该对象元素的位置分布填加到对应的字幕数据的目标信息中，以图5(b)为例，仅有女人单独发声，则将女人的位置分布[1，3]填加到字幕信息3所对应的目标信息3中。需要说明的是，发声对象的位置分布的定义形式不限于本申请实施例的示例。

在一些示例性的实现方式中，所述目标信息还可包括发声对象的状态描述信息，所述状态描述信息用于描述发声对象在发声时所处的状态，例如对于人物和动物等生物，则状态描述信息包括但不限于平静、激动、开心、悲伤等心理/情绪状态，以及疲惫、疼痛、困乏等身体状态，以及生物的活动状态等，这是由于身心状态和活动状态都可能会影响生物发声时的语气、语调、音量等，听力良好人士自然能通过听觉直观感知视频中生物对象的状态，然而听力障碍人士主要依赖字幕来理解和感受视频内容，但常规字幕的显示效果固定且单一，无法向听力障碍人士传达发声对象的情绪和状态波动，因此在目标信息中填加对字幕发声对象的状态描述和定义，使得显示设备解析字幕数据后，能够以状态描述信息作为参考，对字幕信息实施相匹配的展示特效，例如发声对象为男人，其情绪状态为“激动”，则对其字幕信息实施的特效可以是字幕文字为红色，以及相对增大字号；又例如，发声对象为老鼠，其活动状态为“悄悄啃食”，则实施的特效可以是使字幕信息若隐若现，以传达声音隐隐的、轻微的效果。

在一些示例性的实现方式中，对于如门、汽车、河流、雷等环境中的非生物元素，则状态描述信息包括但不限于运行状态、工作状态、自然状态等，则显示设备同样可以状态描述信息为参考，来适配为字幕实施的特效，例如发声对象为门，其状态为“关门”，则对“砰”这一关门时的字幕信息实施类似于爆炸的特效，以传达声音突变响亮的效果；又例如，发声对象为扩音器，其状态为“正在播放广播”，则可选择实施的特效是将字幕信息嵌入于小喇叭图标中，从而呈现出“广播中”的效果。通过为字幕信息实施与状态描述信息相适配的特效，从而使字幕显示更生动形象，更利于向用户传达视频中发声对象的状态，提升字幕显示的精准性和丰富性，从而为用户，尤其是听力障碍人士提供更好的视频及其字幕的观看体验。需要说明的是，字幕特效的设置及实施方式不限于本申请的示例。

在一种示例性的实现方式中，显示设备在获取视频数据和字幕数据后，一方面需要对视频数据进行解码及播放控制，所述播放控制包括但不限于根据用户操作执行的起播、暂停播放、seek、倍速播放等；另一方面则是在视频起播后，根据视频播放进程和预先已打点标记的时间信息，控制字幕显示。

在一种示例性的实现方式中，显示设备对字幕数据进行解析，获取到字幕信息序列，所述字幕信息序列包括当前视频资源所具有全部字幕信息，以及每条字幕信息所对应的时间信息和目标信息，可选地，按照显示字幕的时间顺序，对序列中的各条字幕信息进行排序。

为便于描述，仅以视频中某一简化的片段为例，示例的字幕信息序列为：

[字幕1：{发声对象：男人；位置：左二；状态：平静；时间节点：19:30:31；字幕信息1：“出去吃晚饭吧”}；

字幕2：{发声对象：女人；位置：左三；状态：平静；时间节点：19:30:31；字幕信息2：“有点饿了，该吃晚饭啦”}；

字幕3：{发声对象：女人；位置：左三；状态：兴奋；时间节点：19:30:32；字幕信息3：“好呀，我想吃火锅”}；

字幕4：{发声对象：男人；位置：左二；状态：兴奋；时间节点：19:30:33；字幕信息4：“OK，我请客，咱们走吧”}；

字幕5：{发声对象：门；位置：右一；状态：被关闭；时间节点：19:31:15；字幕信息5：“砰”}]

根据上述视频片段以及字幕信息序列，提供的字幕显示效果如图6(a)～图6(d)的示例。其中，字幕1和字幕2对应于同一个时间节点19:30:31，即在19:30:31节点处存在多人同时发声，则参照图6(a)的示例，在19:30:31这一时间节点处，在男人所在的左二位置处的局部区域内显示字幕信息1“出去吃晚饭吧”，以及，在女人所在的左三位置处的局部区域内显示字幕信息2“有点饿了，该吃晚饭啦”，由于视频中男人和女人均处于平静状态，因此对字幕信息1和字幕信息2同时实施与平静状态相匹配的特效，例如特效为字幕文字颜色为绿色，而字体和字形等可采用默认格式，字号则可根据发声对象的尺寸大小进行适配。由图6(a)可以看出，通过将每条字幕信息与发声对象的位置进行定位关联，实现在多对象同时发声的视频场景内，用户通过字幕信息的显示位置，即可快速锁定各条字幕所指向的发声对象，克服了听力障碍人士经常遇到的字幕与发声对象无法匹配的问题。

当视频播放进程达到19:30:32这一时间节点时，参照图6(b)的示例，停止显示字幕信息1和字幕信息2，并在女人所在的左三位置处的局部区域内显示字幕信息3“好呀，我想吃火锅”，由于此时视频中女人转变为兴奋状态，因此需要对字幕信息3实施与兴奋状态相匹配的特效，例如特效为字幕文字颜色为红色，字体相对放大。

当视频播放进程达到19:30:33这一时间节点时，参照图6(c)的示例，停止显示字幕信息3，并在男人所在的左二位置处的局部区域内显示字幕信息4“OK，我请客，咱们走吧”，由于此时视频中男人转变为兴奋状态，因此需要对字幕信息4实施与兴奋状态相匹配的特效，例如特效为字幕文字颜色为红色，字体相对放大。

当视频播放进程达到19:31:15这一时间节点时，视频场景跳转至男女二人出门后关门，参照图6(d)的示例，停止显示字幕信息4，并在门当前所在的右一位置处的局部区域内显示字幕信息5“砰”，由于此时视频呈现为用户进行关门动作，因此需要对字幕信息5实施与关门相匹配的特效，例如呈现类似于爆炸的效果，并且将字体相对放大。由图6(d)可以看出，本申请还可对环境中产生物理声响的非生物对象显示拟声字幕，使得听力障碍人士能够获知环境中的其他发声来源，提升用户体验。

在一种示例性的实现方式中，显示设备按时序、遍历显示字幕信息序列中包括的字幕信息，在此期间，显示设备可判断序列中的全部字幕信息是否都已显示完毕，若都已显示完毕，则根据用户对下一视频资源的选定和点播操作，继续获取下一视频资源的视频数据和字幕数据，并按照上述示例的各实现方式控制字幕显示；若字幕显示序列尚未显示完毕，则继续根据视频播放进程，控制序列中字幕信息的显示，直至序列中全部字幕信息都显示完毕。

本申请提供的UI附图仅是为便于描述方案而作出的示意，不代表实际产品设计，字幕格式及显示效果应以实际应用和设计为准。

在一种示例性的实现方式中，参照图7提供的字幕显示方法，所述方法由显示设备端的控制器250执行，所述方法包括如下程序步骤：

步骤S01，接收资源服务器同步发送的视频数据和字幕数据。

其中，所述资源服务器是对视频运营商的概括，相当于提供视频资源的信号源，所述资源服务器可以是网络资源的服务器，也可以是如有线广播电视、电视盒子等运营商的服务器。参照前述相关实施例的描述，所述字幕数据包括以文本形式表达视频声音内容的字幕信息、用于指示字幕显示节点的时间信息，以及用于指示字幕信息对应的发声对象的目标信息。可选地，目标信息包括发声对象的形象特征/身份标识、位置分布和状态描述信息。字幕数据可内置于视频数据中，或者，字幕数据也可作为独立数据与视频数据进行关联绑定。

步骤S02，根据所述视频数据和所述目标信息，计算所述发声对象在视频画面中的相对位置和尺寸信息。

通过计算当前视频图像中发声对象的相对位置，从而为字幕信息的显示位置提供参照依据；视频图像中发声对象的尺寸信息，则用于使显示设备确定字幕信息的字体大小和所覆盖的区域大小，以避免因字体过小而导致用户浏览不便，也避免字体过大导致字幕信息同时覆盖到发声及未发声的对象元素上，保证听力障碍用户能够准确辨别出字幕信息所对应的发声对象。

在一种示例性的实现方式中，显示设备接收到视频数据后，可以从中提取出一帧帧的视频图像，每帧视频图像具有对应的显示时间戳，以指示该帧视频图像在什么时间节点处显示于屏幕上，而字幕显示与视频播放进程相关，例如在某时间节点处需要在第S帧视频图像上开始显示字幕信息1，由于发声对象A说完一句台词会产生时间消耗，设此发声耗时为T(单位为秒/s)，当发声对象A说完字幕信息1对应的台词，同步地，显示器取消显示字幕信息1，则显示字幕信息1的持续时间为T，在字幕信息1显示的起止时间段内，显示器刷新了T*f帧视频图像，其中f为刷新频率(单位Hz)，也就是说，视频数据中连续播放的第S帧～第(S+T*f)帧视频图像显示同一条字幕信息1。由于本申请中字幕信息1的显示位置与发声对象A的位置分布相关联，发声对象A可能发生移动，例如第S帧时发声对象A位于视频画面的左侧，当播放至第S+K帧(K小于或等于T*f)时，发声对象A的位置变换到了视频画面的中央，因此可追踪第S帧～第(S+T*f)帧中发声对象A的动态位置变化，并使字幕信息1随发声对象A的移动而联动，从而保证字幕信息显示的精准性。

在步骤S02示例性的实现方式中，跟随视频播放进程，首先从视频数据中提取目标视频图像，目标视频图像为第S_i帧～第(S_i+T_i*f)帧，其中S_i为序列中第i个字幕信息对应的时间节点处应同步显示的视频图像的帧序号，T_i为序列中第i个字幕信息所对应的发声耗时，1≤i≤M，M为字幕信息序列中所包括的字幕信息的总条数。

在步骤S02示例性的实现方式中，在提取出目标视频图像后，参照目标信息对发声对象的描述，从目标视频图像中分割及识别出发声对象，在具体实现时，可在目标视频图像中构建图像坐标系，并计算发声对象在图像坐标系中的坐标(x，y)，以及计算尺寸信息所包括的发声对象的高度h和宽度w。可选地，从发声对象上选取关键点，并计算该关键点的坐标(x，y)，所述关键点可以是发声对象的中点，或者边缘点等。发声对象的高度h＝∣y_max-y_min∣，发声对象的宽度w＝∣x_max-x_min∣，假设图像坐标系以左下角为原点，x轴向右为正向，y轴向上为正向，则y_max为发声对象上的最高点在y轴(高度方向)的坐标值，y_min为发声对象上的最低点在y轴的坐标值，x_max为发声对象上的最右点在x轴(宽度方向)的坐标值，x_min为发声对象上的最左点在x轴的坐标值。在获取到发声对象的高度h和宽度w后，即可确定发声对象大约占据的区域范围，从而为决策字幕信息的字体显示格式提供参考依据。

在一种示例性的实现方式中，可以构建并训练一处理模型，可选地，所述处理模型可采用深度学习模型，例如基于卷积神经网络的深度网络模型等，显示设备可调用所述处理模型来完成如图像分割、目标识别等解析处理。所述处理模型的一端接收目标视频图像的输入，处理模型的另一端给出输出结果，所述输出结果包括从目标视频图像中分割及识别出的对象元素Object_j，以及各对象元素Object_j的坐标(x_j，y_j)、高度h_j和宽度w_j，其中j表示目标视频图像中的对象元素的序号，1≤j≤N，N为目标视频图像中具有的对象元素总数。然后，从对象元素Object_j中筛选出与目标信息相匹配的发声对象，并由处理模型的输出结果一并获取到发声对象的坐标、高度和宽度。

以图6(b)中的视频图像为例进行说明，处理模型可分割及识别出N＝3个对象元素，Object₁为门，Object₂为男人，Object₃为女人，并计算及输出门、男人和女人的位置坐标及尺寸，处理模型输出结果的格式例如为[{Object₁：门；x₁:150；y₁:450；w₁:300；h₁:900}，{Object₂：男人；x₂:750；y₂:536；w₂:203；h₂:714}，{Object₃：女人；x₃:975；y₃:480；w₃:152；h₃:655}]。例如目标信息指示为{发声对象：女人；位置：左三；状态：兴奋}，控制器250利用该目标信息和处理模型的输出结果进行筛选匹配，匹配出发声对象为对象元素中的Object₃，则发声对象的坐标为(975，480)，发声对象的宽度*高度＝152*655。

在另一种示例性的实现方式中，针对另一种训练模式的处理模型，可将目标视频图像和目标信息作为输入项，同时输入至处理模型中，由处理模型进行包括图像分割、目标识别和发声对象的筛选匹配等处理环节，则处理模型可直接输出发声对象及其坐标和尺寸，后续无需控制器在从对象元素中匹配发声对象。模型输出结果的格式例如为{发声对象：女人；坐标：(975，480)；宽度:152；高度:655}。

在一种示例性的实现方式中，处理模型可以通过长期的训练和校正实现进化，从而使模型的处理效率及输出结果的准确性得以加强，提供更好的字幕效果，即处理模型是可不断更新的，这一过程可以由显示设备来执行，但维护处理模型会占用控制器的处理资源并且增大内存开销，可能会影响到显示设备的运行性能。对此，可以设置一模型服务器，模型服务器可与显示设备通信连接，所述模型服务器用于构建和训练处理模型，并对处理模型进行更新，因此处理模型构建后的进化过程中会衍生出多种版本，显示设备从模型服务器下载新版本模型，以替换旧版本模型，即可实现显示设备端处理模型的更新。这种改进方式由模型服务器代替显示设备对处理模型进行更新和维护，从而降低显示设备的内存开销和CPU处理资源的消耗。

在一种示例性的实现方式中，模型服务器每次更新成功处理模型时，向显示设备推送模型更新消息；显示设备接收到模型更新消息时，向模型服务器请求下载更新后的处理模型，下载完成后，显示设备删除旧版本的处理模型，并将更新后的处理模型存储于本地，之后显示设备即可调用当前最新版本的处理模型对目标视频图像进行解析处理。

在一种示例性的实现方式中，在将目标视频图像输入至处理模型之前，可根据神经网络的要求先对目标视频图像进行预处理，所述预处理包括但不限于对目标视频图像进行缩放、二值化处理、灰度处理等。例如，神经网络仅接受288*288分辨率的图像，而提取出的目标视频图像的分辨率大小为1280*720，则预先对目标视频图像做压缩处理，从而将目标视频图像缩小至288*288；又例如，神经网络仅接受黑白图像，而提取的目标视频图像是彩色图像，则可以对目标视频图像进行二值化处理，将彩色图像转换为黑白图像。需要说明的是，目标视频图像预处理与否以及实施怎样的预处理，具体取决于处理模型中神经网络的要求，因此不限于本申请的示例。

步骤S03，根据所述时间信息、所述发声对象在视频画面中的相对位置和尺寸信息，控制显示器在所述视频画面上显示所述字幕信息。

在视频播放进程达到时间信息所指示的时间节点时，需要在视频画面上显示对应的字幕信息，根据步骤S02中计算出的发声对象的相对位置(包括坐标)，确定字幕信息的显示位置，实现字幕与发声对象联动，从而使用户能精准辨别当前字幕信息由哪个对象元素发出，以及，根据步骤S02中计算出的发声对象的尺寸信息，确定字幕信息的字体大小和所占据的区域范围等，以避免字幕过大或过小所产生的不利影响。其中，发声对象的尺寸信息不限于前述实施例中包括的宽度和高度，例如还可以是发声对象的面积等形式。

在其他示例性的实现方式中，若显示设备解析出目标信息中配置有发声对象的状态描述信息，则对字幕实施与状态描述信息相适配的展示特效。可选地，显示设备端可以维护一个状态-特效列表，该列表中记录有发声对象在不同状态下的预设特效，并支持用户新增、删减或修改状态特效，仅作为一种示例，例如愤怒状态下的预设特效为大号红色加粗字体，发声对象由远及近的活动状态下的预设特效为字体渐变放大的动画效果，虚弱状态下的预设特效为字幕闪烁，等等。需要说明的是，字幕信息的显示格式不限于字体格式和特效，还包括如行距、字符间距、语言等。

在一种示例性的实现方式中，在根据状态-特效列表筛选出与状态描述信息相匹配的展示特效后，根据展示特效和发声对象的尺寸信息，可确定与发声对象相适配的字幕显示格式，由此根据该字幕显示格式绘制当前的字幕模板，也就是说，字幕模板里约束了字幕信息的字体、特效、语言等格式，并在达到时间信息指示的时间节点时，在视频画面上发声对象所在的位置处按照字幕模板，加载显示字幕信息，从而提升了字幕显示的多样性、精准性和生动性，为用户尤其是听力障碍人士提供更好的视频及其字幕的观看体验。

在一种示例性的实现方式中，图8提供一种字幕显示的逻辑架构，架构中整体上包括服务器端和显示设备端，服务器端可细化为包括资源服务器和模型服务器。其中，资源服务器用于向显示设备提供视频资源的视频数据和字幕数据，并且在资源服务器端，运营商会在字幕数据中增加配置目标信息，从而为显示设备端提供字幕显示格式的参考依据；模型服务器则用户创建、训练及更新处理模型，实现对处理模型的管理和维护，并在处理模型更新成功时，及时通知显示设备端升级模型版本。

在一种示例性的实现方式中，参照图8的示例，显示设备端可配置五个模块，分别为数据接收模块、抓图模块、神经网络处理模块、字幕解析模块和绘制渲染模块，这些功能模块可配置在控制器250内，并由控制器协调控制模块间的逻辑运行。资源服务器与显示设备建立通信连接后，数据接收模块可接收资源服务器发送的视频数据和字幕数据，并将字幕数据发送给字幕解析模块，将视频数据分别发送给解码器和抓图模块。可选地，当字幕数据内置于视频数据内时，数据接收模块可以先从视频数据内分离出字幕数据，然后再将字幕数据发送给字幕解析模块。视频数据注入解码器后，由解码器进行解码处理，并将解码数据发送给显示器，实现视频播放，其中所述解码器包括视频解码器和音频解码器。

在一种示例性的实现方式中，抓图模块用于提取目标视频图像，并将目标视频图像存储于内存中，以供神经网络处理模块对目标视频图像进行处理。可选地，抓图模块可根据神经网络处理模块对待处理图像的要求，对提取出的目标视频图像进行预处理。

在一种示例性的实现方式中，神经网络处理模块用于完成两项功能，其一是加载本地存储的所述处理模型，然后从内存中读取目标视频图像，并将目标视频图像输入至所述处理模型中，最后将所述处理模型的输出结果发送给绘制渲染模块；其二是神经网络处理模块可以根据模型服务器推送的模型更新消息，从模型服务器下载新版本的处理模型，下载成功后，删除旧版本的处理模型，并将新版本的处理模型存储于本地，实现显示设备端处理模型的升级。

在一种示例性的实现方式中，字幕解析模块用于解析字幕数据，以获取字幕信息、时间信息以及额外配置的目标信息，所述目标信息包括但不限于发声对象的形状特征/身份标识、位置分布和状态描述信息等，然后将解析获取的这些信息发送给绘制渲染模块。

在一种示例性的实现方式中，绘制渲染模块属于与显示器关联的前端模块，用于根据神经网络处理模块和字幕解析模块发送的参考信息，确定与发声对象适配的字幕显示格式，从而绘制字幕模板以及对字幕效果进行渲染，之后在达到时间信息指示的时间节点时，由显示器在发声对象所在的位置处按照字幕模板，加载显示对应的字幕信息。

在一种示例性的实现方式中，针对神经网络处理模块发送的模型输出结果，若处理模型输出的是目标视频图像中全部对象元素及其位置和尺寸信息，则绘制渲染模块还需进一步根据模型输出结果和目标信息，匹配出发声对象及其位置和尺寸；若处理模型输出的是已匹配完成的发声对象及其位置和尺寸信息，则绘制渲染模块无需重复匹配。

由以上实施例方案可知，本申请中显示设备在获取视频数据后，可以抓取目标视频图像，从而定位发声对象在视频画面中的相对位置，并计算发声对象的尺寸信息，这样即可在发声对象的位置处，显示与发声对象的尺寸大小相适配的字幕信息，使得用户能够肉眼直观辨别出字幕信息对应于哪个目标对象，获知谁是发声对象，即便同一时间节点处有多对象同时发声，但听力障碍人士仍可通过每个发声对象局部展示的字幕信息，获知当前有几处发声，以及每个发声对象分别说了什么内容，从而提升字幕显示的精准性和丰富性，从而为用户，尤其是听力障碍人士提供更好的视频及其字幕的观看体验。此外，本申请中还支持对环境中发出物理声响的非生物对象提供其拟声字幕，从而为听力障碍人士提供更贴近于视频声音效果的更为生动形象的字幕显示，而不再局限于常规人声字幕。

需要说明的是，在本申请提供的字幕与发声对象位置联动机制的基础上，可以对字幕显示格式和效果进行灵活设置，例如运营商端在配置字幕数据内的目标信息时，可以多角度考虑可能影响字幕显示效果的因素，并在目标信息中增加相应的描述，从而为显示设备端决策字幕显示效果提供更多的参考依据；又例如，显示设备端在配置字幕效果时，可以从字幕信息表达的内容、发声对象状态、字幕观赏性和生动性等多角度，适配字幕的格式和特效。本申请中的处理模型可基于高精度图像算法进行神经网络建模和训练，所述图像算法包括但不限于图像分割、目标识别、边缘检测等，处理模型及其相关训练算法不限定，具体可参照现有技术，只要能实现本申请中处理模型的功能配置即可。本申请支持针对不同的视频资源，对字幕显示的控制方案作出适当的修改、变型及扩展，以适应实际用户观看资源及其字幕的需求。

在一种示例性的实现方式中，本发明还提供一种计算机存储介质，该计算机存储介质可存储有程序，该程序执行时可包括前述各实施例中字幕显示方法所涉及的程序步骤。其中，计算机存储介质可为磁碟、光盘、只读存储记忆体(英文：Read-Only Memory，简称ROM)或随机存储记忆体(英文：Random Access Memory，简称RAM)等。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器，用于显示视频及其字幕信息；

通信器，用于与资源服务器通信连接；

控制器，被配置为执行：

2.根据权利要求1所述的显示设备，其特征在于，所述目标信息中包括所述发声对象的形象特征和位置分布，则所述控制器被配置为按照如下方式计算所述发声对象在视频画面中的相对位置和尺寸信息：

从所述视频数据中提取目标视频图像；

3.根据权利要求1或2所述的显示设备，其特征在于，所述目标信息中包括所述发声对象的状态描述信息，则所述控制器被配置为按照如下方式显示所述字幕信息：

确定与所述状态描述信息相匹配的展示特效；

4.根据权利要求2所述的显示设备，其特征在于，所述控制器被配置为按照如下方式计算所述发声对象在视频画面中的相对位置和尺寸信息：

调用本地存储的处理模型；

获取所述处理模型的输出结果，所述输出结果包括从所述目标视频图像中分割及识别出的对象元素，以及各对象元素的坐标、宽度和高度；

5.根据权利要求1所述的显示设备，其特征在于，所述发声对象为具备发声能力的生物对象或者环境中能够产生物理声响的非生物对象。

6.根据权利要求4所述的显示设备，其特征在于，所述通信器还用于与模型服务器通信连接，所述控制器还被配置为执行：

删除旧版本的处理模型，将更新后的处理模型存储于本地。

7.根据权利要求4所述的显示设备，其特征在于，在将所述目标视频图像输入至所述处理模型之前，所述控制器还配置为执行：

8.一种字幕显示方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述目标信息中包括所述发声对象的状态描述信息，则在所述视频画面上显示所述字幕信息，包括：

确定与所述状态描述信息相匹配的展示特效；

10.根据权利要求8或9所述的方法，其特征在于，所述发声对象为具备发声能力的生物对象或者环境中能够产生物理声响的非生物对象。