CN116744051A

CN116744051A - 一种显示设备和字幕生成方法

Info

Publication number: CN116744051A
Application number: CN202310605662.0A
Authority: CN
Inventors: 朱宗花; 李斌
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-09-12

Abstract

本公开涉及一种显示设备和字幕生成方法，应用于智能电视技术领域，该显示设备包括：控制器，被配置为复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。能够通过软解码得到PCM数据，进而识别PCM数据得到对应的字幕。

Description

一种显示设备和字幕生成方法

技术领域

本申请实施例涉及智能电视技术。更具体地讲，涉及一种显示设备和字幕生成方法。

背景技术

近年来，随着人工智能(Artificial Intelligence，AI)技术的发展，传统字幕又焕发新机，实时识别音频并生成字幕成为研究热门，如百度、网易等均提供了用于进行实时语音识别的AI语音识别服务。

但现有的AI语音识别服务均是通过识别特定参数的脉冲编码调制(Pulse CodeModulation，PCM)音频数据，得到对应的字幕。而在安卓平台中，音频硬解码后的PCM数据通常直接渲染显示，一般在渲染前无法直接获取硬解码后的PCM数据进行语音识别，导致无法基于已有的AI语音识别服务进行实时语音识别生成字幕。

发明内容

为了解决上述技术问题或者至少部分的解决上述技术问题，本申请提供了一种显示设备和字幕生成方法，能够通过软解码得到PCM数据，进而识别PCM数据得到对应的字幕。

第一方面，本申请实施例提供了一种显示设备，包括：控制器，被配置为：复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。

第二方面，本申请提供了一种字幕生成方法，应用于显示设备，包括：复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。

第三方面，本申请提供了一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第二方面所示的字幕生成方法。

第四方面，本申请提供了一种计算机程序产品，包括：当计算机程序产品在计算机上运行时，使得计算机实现如第二方面所示的字幕生成方法。

本申请实施例提供的技术方案与现有技术相比具有如下优点：本申请实施例中，复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。由于现有的播放器本地实现中无法直接获取到PCM数据，因此，在现有的播放器本地实现中，本方案新增加了基于目标音频ES数据得到初始PCM数据的处理过程，得到实时语音识别依赖的PCM数据，从而识别初始PCM数据得到对应的目标字幕，实现了实时语音识别生成字幕。

附图说明

为了更清楚地说明本申请实施例或相关技术中的实施方式，下面将对实施例或相关技术描述中所需要使用的附图作一简单的介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1示出了根据一些实施例的控制设备与显示设备之间操作场景；

图2示出了根据一些实施例的控制设备100的硬件配置框图；

图3示出了根据一些实施例的显示设备200的硬件配置框图；

图4示出了根据一些实施例的安卓系统框架的示意图之一；

图5示出了根据一些实施例的安卓系统框架的示意图之二；

图6示出了根据一些实施例的安卓系统框架的示意图之三；

图7示出了根据一些实施例的安卓系统框架的示意图之四；

图8示出了根据一些实施例的安卓系统框架的示意图之五；

图9示出了根据一些实施例的字幕生成方法的流程示意图之一；

图10示出了根据一些实施例的字幕生成方法的流程示意图之二；

图11示出了根据一些实施例的字幕生成方法的流程示意图之三；

图12示出了根据一些实施例的字幕生成方法的流程示意图之四；

图13示出了根据一些实施例的字幕生成方法的流程示意图之五；

图14示出了根据一些实施例的字幕生成方法的流程示意图之六；

图15示出了根据一些实施例的字幕生成方法的流程示意图之七；

图16示出了根据一些实施例的字幕生成方法的流程示意图之八。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整的描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)、手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备等。

图1为根据实施例中显示设备与控制设备之间操作场景的示意图，其中控制设备包括智能设备或控制装置。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、外部存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、用户接口280、外部存储器、供电电源中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器，以及投影显示器，还可以为一种投影装置和投影屏幕。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制装置100或服务器400建立控制信号和数据信号的发送和接收。

用户接口280，可用于接收控制装置100(如：红外遥控器等)的控制信号。也可以用于直接接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，此时可以称为用户输入接口。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合型的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器(内部存储器或外部存储器)上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，以及随机存取存储器(Random Access Memory，RAM)，只读存储器(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

其中，RAM也叫主存，是与控制器直接交换数据的内部存储器。它可以随时读写(刷新时除外)，而且速度很快，通常作为操作系统或其他正在运行中的程序的临时数据存储介质。它与ROM的最大区别是数据的易失性，即一旦断电所存储的数据将随之丢失。RAM在计算机和数字系统中用来暂时存储程序、数据和中间结果。ROM以非破坏性读出方式工作，只能读出无法写入信息。信息一旦写入后就固定下来，即使切断电源，信息也不会丢失，所以又称为固定存储器。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在显示设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

为了便于理解本申请的方案，下述首先对涉及的名词进行解释。

原始流(Elementary Streams，ES)：指从编码器出来的数据流，可以是编码过的视频数据流、音频数据流，或其他编码数据流的统称。

脉冲编码调制(Pulse Code Modulation，PCM)，指把声音从模拟信号转化为数字信号，即对声音进行采样、量化的过程，经过PCM处理后的PCM数据，是最原始的音频数据，即未对经进行任何的编码和压缩处理的数据裸流。

pad：是元素(element)对外地接口。数据流从一个element的source pad到另一个element的sink pad，pad的功能(capabilities)决定了一个element所能处理的媒体类型。

element：从应用的角度，可以将一个element视为一个功能块，用于实现一个特定的功能，如：数据读取，音频解码，声音输出等。各个element之间可以通过pad进行数据传输，具体地，element通过对应的sink pad接收数据，通过对应的source pad输出数据。

现有的实时将语音转换为文字的方案为：一种是通过AI语音识别服务器得到识别结果，一种是通过AI语音识别工具得到识别结果，具体地：

通过AI语音识别服务器得到识别结果的具体过程为：需要进行语音识别的客户端首先与AI语音识别服务器建立连接，进行认证，并传递签名、采样率、声道等信息；认证通过后，客户端向AI语音识别服务器发送用于指示即将开始发送待识别的音频流的标识信息，并循环向AI语音识别服务器发送音频流；同时，客户端循环接收AI语音识别服务器返回的识别结果，从识别结果中提取文本数据。结束时，客户端向服务器发送指示语音识别结束的结束消息，服务器接收到结束消息后，停止语音识别，断开与客户端的连接。

通过AI语音识别工具得到识别结果，一种方案是直接获取PCM数据。具体过程为：应用向播放器设置PCM数据监听接口，播放器输出PCM数据时，监听接口监听到有PCM数据，则将该PCM数据同步回调给应用，应用调用AI语音识别工具识别PCM数据得到识别结果。

如图4所示，为安卓系统的整体框架，包括应用层40，包括客制化的应用或系统应用；系统服务层(又名Java Framework层)41，是Android提供的Java接口，包括Android四大组件以及业务接口；本地服务层(又名native实现层)42，是c/c++库，通常用于实现具体的功能；本地服务层42与系统服务层41通过Java本地接口(Java Native Interface，JNI)进行通信。本地服务层42中的播放器本地实现层包括：文件下载模块421，用于读取本地或下载网络上的媒体资源；协议解析模块422，用于对文件下载模块下载得到的流媒体索引文件进行解析，获取媒体片段地址并进行下载，若是非流媒体文件，则不包含此模块；格式解封装模块423，用于对封装文件进行解析，提取出音频ES数据、视频ES数据、字幕ES数据，若封装文件包含多路字幕，则会解析得到多路字幕ES数据；ES缓存模块424，用于缓存音频ES数据、视频ES数据、字幕ES数据等，目的是使播放流畅，减少频繁缓冲的次数，以及断网状态下仍可播放缓冲的数据，同时为了保证切音轨、字幕的速度；音频解码模块425用于对输入的音频ES数据进行解码，得到对应的PCM数据；在监听到音频解码模块输出PCM数据时，播放器接口411同步回调PCM数据，将该PCM数据发送至应用层40，应用层40向语音识别接口(即AI语音识别工具)412输入该PCM数据，语音识别接口412将识别得到的文本发送至应用层，通过应用层显示该文本。

通过AI语音识别工具得到识别结果，另一种方案是通过Android提供的原生音频采集接口(又名AudioRecoder接口)录制得到PCM数据。如图5所示，音频采集接口413录制播放器输出的PCM数据，将录制得到的PCM数据发送至应用层40，应用层40向语音识别接口(即AI语音识别工具)412输入该PCM数据，语音识别接口412将识别得到的文本发送至应用层，通过应用层显示该文本。

上述方案是建立在可以获取到音频解码模块解码得到的PCM数据，但实际应用中，音频解码模块采用硬解码，内部会做上混处理，输出更多的声道数据，无法得到原始的PCM数据；并且，对音频ES数据硬解码完成后一般直接渲染显示，通常无法获取到硬解码后的数据。因此，上述方案在安卓平台中使用时，无法获取到PCM数据，导致无法借助AI语音识别服务器或者AI语音识别工具实现实时语音识别。

本申请实施例中，提供了一种显示设备，包括：控制器，被配置为：复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。

可以理解，目标音频ES数据为通过格式解封装模块解析目标媒体片段得到的，目标音频ES数据用于通过音频解码模块解码并将解码后的数据通过音频同步渲染模块进行渲染播放。

可以理解，第一音频ES数据为复制的目标音频ES数据，将复制得到的第一音频ES数据通过软解码处理，得到对应的初始PCM数据。软件码处理，仅是对第一音频ES数据进行解码处理，相对于硬解码处理，软解码处理不会更改声道、采样率等信息，并且软解码处理无硬件限制，只要内存够用，可同时存在多路软解码，但硬解码处理一般存在硬件资源限制，一般只允许进行一路硬解码。

可以理解，对初始PCM数据进行语音识别处理，可以是通过AI语音识别工具进行识别得到识别结果，也可以是通过AI语音识别服务器识别得到识别结果，本申请实施例不做具体限定。

可以理解，复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据。即在现有的播放器本地实现中，增加用于得到PCM数据的处理过程。

具体地实现架构如图6所示，格式解封装模块423中，标号50指示的audio_0为一个source pad，该source pad用于将格式解封装模块423解析得到的音频ES数据输出到ES缓存模块424中；标号60指示的sink_0为一个sink pad，用于接收audio_0的输出，标号61指示的src_0为一个source pad，用于输出音频ES数据至音频解码模块425。标号51指示的video_0为一个source pad，该source pad用于将格式解封装模块423解析得到视频ES数据输出到ES缓存模块424中；标号62指示的sink_1为一个sink pad，用于接收video_0的输出，标号63指示的src_1为一个source pad，用于输出视频ES数据至视频解码模块。标号52指示的audio_1为一个source pad，该source pad为复制的标号50指示的audio_0，该pad中的ES格式信息与audio_0相同，用于将复制的格式解封装模块423解析得到的音频ES数据的副本，输出到ES缓存模块424中；标号64指示的sink_2为一个sink pad，用于接收audio_1的输出，标号65指示的src_2为一个source pad，用于输出音频ES数据的副本至音频软解码模块426。音频软解码模块426对音频ES数据的副本进行解码得到对应的PCM数据。进而识别PCM数据，得到对应的字幕。

需要说明的是，针对多音轨片源，若执行切音轨操作，由于采用软解码得到PCM数据，因此，其余模块均可复用，只需基于切换后的音轨(不同的音轨，解码方式不同)，重建音频软解插件即可，此处不做赘述。

需要说明的是，由于复制的audio_1不是音频的输出信息，因此在上报给应用原数组时，该audio_1不上报。

本申请实施例中，复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕；渲染并显示目标字幕。由于现有的播放器本地实现中无法直接获取到PCM数据，因此，在现有的播放器本地实现中，本方案新增加了基于目标音频ES数据得到初始PCM数据的处理过程，得到实时语音识别依赖的PCM数据，从而识别初始PCM数据得到对应的目标字幕，实现了实时语音识别生成字幕。

本申请一些实施例中，控制器，具体被配置为：按照预设参数，对初始PCM数据进行重采样，得到目标PCM数据；对目标PCM数据进行语音识别处理，得到目标字幕。

可以理解，对PCM数据进行语音识别处理时，不同的AI语音识别服务需要的PCM数据的参数可能不同，因此，在识别初始PCM数据得到目标字幕前，按照预设参数，对初始PCM数据进行重采样，已得到AI语音识别服务需要参数的目标PCM数据。

可以理解，重采样即改变初始PCM数据的采样率、采样格式、声道数等参数，使重采样得到的目标PCM数据的参数为预设参数。

可以理解，预设参数包括采样率、采样格式、声道数等，根据识别需要的PCM数据，确定预设参数。

本申请实施例中，按照预设参数，对初始PCM数据进行重采样，得到目标PCM数据；对目标PCM数据进行语音识别处理，得到目标字幕。对初始PCM进行重采样得到的目标PCM数据，满足语音识别处理的要求，确保语音识别结果的准确性。

本申请一些实施例中，控制器包括：格式解封装插件、ES缓存插件、音频软解码插件和音频重采样插件；控制器，还被配置为：在复制目标音频原始流ES数据得到第一音频ES数据之前，在通过格式解封装插件确定显示设备支持AI字幕功能的情况下，在格式解封装插件中复制目标音频输出插件，得到第一音频输出插件，目标音频输出插件用于输出音频ES数据，第一音频输出插件用于输出复制音频ES数据得到的副本音频ES数据；在ES缓存插件中创建目标输入插件和目标输出插件，目标输入插件用于接收第一音频输出插件输出的副本音频ES数据，目标输出插件用于输出副本音频ES数据到音频软解码插件；创建音频软解码插件和音频重采样插件，音频软解码插件用于解码副本音频ES数据得到对应的PCM数据，音频重采样插件用于按照预设参数对PCM数据进行重采样；播放目标媒体。

可以理解，对于任意的显示设备，底层的框架设置相同，因此，在通过格式解封装插件确定显示设备支持AI字幕功能的情况下，再创建需要的插件；在通过格式解封装插件确定显示设备不支持AI字幕功能的情况下，不再增加插件。

可以理解，应用层响应于播放目标媒体的用户操作，基于目标媒体的片源地址预加载目标媒体的头信息，该头信息用于解释目标媒体，包括目标媒体的格式信息、目标媒体包括的段数、每段的播放时长、轨道信息、分辨率等；播放器本地实现基于头信息，创建目标媒体对应的播放管道，播放管道包括：文件下载插件，协议解封装插件，格式解封装插件，ES缓存插件，音频解码插件，音频软解码插件，视频解码插件，音频同步渲染插件，视频同步渲染插件，音频重采样插件。其中，格式解封装插件包括音频输出插件、视频输出插件和第一音频输出插件，ES缓存插件包括多对输入输出插件。在播放管道创建完成后，播放器本地实现通过Framework层向应用层发送指示开始播放目标媒体的播放通知，应用层接收到播放通知后，开始播放目标媒体。

具体地，结合图6，如图7所示，图中包括的各个模块的功能具体通过对应的上述插件实现。音频重采样模块427用于按照预设参数，对初始PCM数据进行重采样。标号50指示的audio_0对应目标音频输出插件，标号51指示的video_0对应视频输出插件，标号52指示的audio_1对应第一音频输出插件；标号60指示的sink_0对应目标音频输入插件，标号61指示的src_0对应目标音频输出插件，标号62指示的sink_1对应视频输入插件，标号63指示的src_1对应视频输出插件，标号64指示的sink_2对应目标输入插件，标号65指示的src_2对应目标输出插件。其余模块具体参考上述对于图6的描述。

本申请实施例中，控制器包括：格式解封装插件、ES缓存插件、音频软解码插件和音频重采样插件；控制器，还被配置为：在复制目标音频原始流ES数据得到第一音频ES数据之前，在通过格式解封装插件确定显示设备支持AI字幕功能的情况下，在格式解封装插件中复制目标音频输出插件，得到第一音频输出插件，目标音频输出插件用于输出音频ES数据，第一音频输出插件用于输出复制音频ES数据得到的副本音频ES数据；在ES缓存插件中创建目标输入插件和目标输出插件，目标输入插件用于接收第一音频输出插件输出的副本音频ES数据，目标输出插件用于输出副本音频ES数据到音频软解码插件；创建音频软解码插件和音频重采样插件，音频软解码插件用于解码副本音频ES数据得到对应的PCM数据，音频重采样插件用于按照预设参数对PCM数据进行重采样；播放目标媒体。如此，所有的显示设备采用相同的代码逻辑，在显示设备支持AI字幕功能的情况下，创建对应的用于得到PCM数据的插件，在显示设备支持AI字幕功能的情况下，按照现有技术进行处理，从而，对于所有显示设备统一了代码逻辑，避免了支持AI字幕功能的显示设备和不支持AI字幕功能的设备代码逻辑不同，导致后期维护困难的问题。

本申请一些实施例中，控制器，还被配置为：在播放目标媒体之前，创建AI字幕同步渲染插件，AI字幕同步渲染插件用于与第三方AI语音识别服务器通信；向第三方AI语音识别服务器发送目标PCM数据；接收第三方AI语音识别服务器返回的识别结果；解析识别结果得到目标字幕。

可以理解，AI字幕同步渲染插件用于与第三方AI语音识别服务器通信，即AI字幕同步渲染插件与第三方AI语音识别服务器建立连接，进行认证，并传递签名、采样率、声道等信息；认证通过后，AI字幕同步渲染插件与AI语音识别服务器即可进行通信。

可以理解，若是第一帧PCM数据，则通过AI字幕同步渲染插件向第三方AI语音识别服务器发送标识音频流开始的文本消息并将该帧PCM数据发送给第三方AI语音识别服务器；当第三方AI语音识别服务器识别到文本时，将识别结果回传给AI字幕同步渲染插件，AI字幕同步渲染插件解析出识别结果中包括的字幕。

具体地，结合图7，如图8所示，AI字幕同步渲染模块428对应AI字幕同步渲染插件，AI字幕同步渲染模块428通过与第三方AI语音识别服务器70通信，得到目标PCM数据对应的识别结果，AI字幕同步渲染模块428解析识别结果得到目标字幕，将目标字幕上报至系统服务层41中的播放器接口411，播放器接口411再将目标字幕上报至应用层40，应用层40渲染并显示目标字幕。

本申请实施例中，在播放目标媒体之前，创建AI字幕同步渲染插件，AI字幕同步渲染插件用于与第三方AI语音识别服务器通信；向第三方AI语音识别服务器发送目标PCM数据；接收第三方AI语音识别服务器返回的识别结果；解析识别结果得到目标字幕。如此，通过AI字幕同步渲染插件与第三方AI语音识别服务器通信，得到目标PCM数据对应的目标字幕，无需显示设备识别目标PCM数据对应的目标字幕，减少了显示设备的处理压力。

本申请一些实施例中，控制器，还被配置为：获取第三方AI语音识别服务器的延迟时长；确定目标媒体的第一已播放时长和目标PCM数据的目标显示时刻；在第一同步时长与第一已播放时长的差值的绝对值小于或者等于时长阈值的情况下，向第三方AI语音识别服务器发送目标PCM数据，第一同步时长为目标显示时间与延迟时长的差值；在第一同步时长与第一已播放时长的差值大于时长阈值的情况下，等待第一同步时长与第一已播放时长的差值后，向第三方AI语音识别服务器发送目标PCM数据；在第一已播放时长与第一同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。

可以理解，第三方AI语音识别服务器的延迟时长为第三方AI语音识别服务器基于多次实验测试得到的，不同的第三方AI语音识别服务器对应的延迟时长可能相同也可能不同。

可以理解，以音频提供的时钟作为同步时钟(由图8中的音频同步渲染模块提供)，目标媒体的第一已播放时长即目标媒体的音频已播放时长，目标PCM数据的目标显示时刻即目标PCM数据在显示设备上显示的时刻。

示例性地，第一已播放时长为120s，延迟时长为1s，目标显示时刻为第121s，时长阈值10ms，则第一同步时长为：121-1＝120s，第一同步时长与第一已播放时长的差值为0s，则向第三方AI语音识别服务器发送目标PCM数据，以在接收到第三方AI语音识别服务器返回的识别结果后，直接解析出目标字幕并渲染显示；目标显示时刻为第122s，则第一同步时长为：122-1＝121s，第一同步时长与第一已播放时长的差值为1s，1s大于10ms，则等待1s后，向第三方AI语音识别服务器发送目标PCM数据；目标显示时刻为第120s，则第一同步时长为：120-1＝119s，第一已播放时长与第一同步时长的差值为1s，1s大于10ms(指示字幕落后于音频，丢弃后确保后续字幕与音频同步)，则丢弃目标PCM数据，继续处理下一帧数据。

本申请实施例中，获取第三方AI语音识别服务器的延迟时长；确定目标媒体的第一已播放时长和目标PCM数据的目标显示时刻；在第一同步时长与第一已播放时长的差值的绝对值小于或者等于时长阈值的情况下，向第三方AI语音识别服务器发送目标PCM数据，第一同步时长为目标显示时间与延迟时长的差值；在第一同步时长与第一已播放时长的差值大于时长阈值的情况下，等待第一同步时长与第一已播放时长的差值后，向第三方AI语音识别服务器发送目标PCM数据；在第一已播放时长与第一同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。如此，确保字幕与音频同步输出，提升用户体验。

本申请一些实施例中，控制器，还被配置为：在复制目标音频原始流ES数据得到第一音频ES数据之前，导入第三方AI语音识别工具；在监听到音频重采样插件输出的目标PCM数据的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕。

可以理解，在播放目标媒体之前，若显示设备支持AI字幕功能，则导入第三方AI语音识别工具，以使在后续通过第三方AI语音识别工具识别PCM数据得到对应的字幕。

本申请实施例中，在复制目标音频原始流ES数据得到第一音频ES数据之前，导入第三方AI语音识别工具；在监听到音频重采样插件输出的目标PCM数据的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕。如此，提供了更多的识别PCM数据得到对应的字幕的方法，可以根据实际需要，灵活选择通过第三方AI语音识别工具或者第三方AI语音识别服务器进行语音识别。

本申请一些实施例中，控制器，具体被配置为：确定第三方AI语音识别工具对应的识别时长；在监听到音频重采样插件输出的目标PCM数据的情况下，确定目标媒体的第二已播放时长和目标PCM数据的目标显示时刻；在第二同步时长与第二已播放时长的差值的绝对值小于或者等于时长阈值的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕，第二同步时长为目标显示时间与识别时长的差值；在第二同步时长与第二已播放时长的差值大于时长阈值的情况下，等待第二同步时长与第二已播放时长的差值后，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕；在第二已播放时长与第二同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。

可以理解，识别时长可以是基于用户设置确定的，也可以是预先通过实验数据测试得到的。

需要说明的是，第二已播放时长、第二同步时长与上述第一已播放时长、第一同步时长的作用相同，具体描述可以参考上述对第一已播放时长、第一同步时长的描述，此处不再赘述。

本申请实施例中，确定第三方AI语音识别工具对应的识别时长；在监听到音频重采样插件输出的目标PCM数据的情况下，确定目标媒体的第二已播放时长和目标PCM数据的目标显示时刻；在第二同步时长与第二已播放时长的差值的绝对值小于或者等于时长阈值的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕，第二同步时长为目标显示时间与识别时长的差值；在第二同步时长与第二已播放时长的差值大于时长阈值的情况下，等待第二同步时长与第二已播放时长的差值后，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕；在第二已播放时长与第二同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。如此，确保目标字幕与对应的音频同步输出，提升用户体验。

本申请一些实施例中，控制器，具体被配置为：在AI字幕开关处于打开状态的情况下，渲染并显示目标字幕。

可以理解，AI字幕开关可以默认处于打开或者关闭状态。

可以理解，在AI字幕开关处于打开状态的情况下，渲染并显示目标字幕，避免目标媒体本身携带有字幕，又实时识别显示字幕，导致显示的字幕重叠、显示混乱的问题。

本申请实施例中，在AI字幕开关处于打开状态的情况下，渲染并显示目标字幕。如此，通过AI字幕开关，控制是否显示实时识别得到的字幕，避免在目标媒体中本身携带有字幕的情况下，显示的实时识别的字幕与目标媒体本身的字幕重叠，导致显示混乱、影响用户观感的问题。

本申请实施例中，提供了一种字幕生成方法，如图9所示，包括下述步骤901至步骤904。

901、复制目标音频原始流ES数据得到第一音频ES数据，并将第一音频ES数据存储到ES缓存区。

其中，目标音频ES数据为从目标媒体片段解析得到的，目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到目标媒体片段对应的目标音频；

902、对第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据。

903、对初始PCM数据进行语音识别处理，得到初始PCM数据对应的目标字幕。

904、渲染并显示目标字幕。

本申请一些实施例中，结合图9，如图10所示，上述步骤903之前，本申请实施例提供的字幕生成方法还包括下述步骤905，上述步骤903具体通过下述步骤903a实现。

905、按照预设参数，对初始PCM数据进行重采样，得到目标PCM数据。

903a、对目标PCM数据进行语音识别处理，得到目标字幕。

本申请一些实施例中，结合图10，如图11所示，上述步骤901之前，该字幕生成方法还包括下述步骤906至步骤909。

906、在通过格式解封装插件确定显示设备支持AI字幕功能的情况下，在格式解封装插件中复制目标音频输出插件，得到第一音频输出插件。

其中，目标音频输出插件用于输出音频ES数据，第一音频输出插件用于输出复制音频ES数据得到的副本音频ES数据；

907、在ES缓存插件中创建目标输入插件和目标输出插件。

其中，目标输入插件用于接收第一音频输出插件输出的副本音频ES数据，目标输出插件用于输出副本音频ES数据到音频软解码插件。

908、创建音频软解码插件和音频重采样插件。

其中，音频软解码插件用于解码副本音频ES数据得到对应的PCM数据，音频重采样插件用于按照预设参数对PCM数据进行重采样。

909、播放目标媒体。

本申请实施例中，在复制目标音频原始流ES数据得到第一音频ES数据之前，在通过格式解封装插件确定显示设备支持AI字幕功能的情况下，在格式解封装插件中复制目标音频输出插件，得到第一音频输出插件，目标音频输出插件用于输出音频ES数据，第一音频输出插件用于输出复制音频ES数据得到的副本音频ES数据；在ES缓存插件中创建目标输入插件和目标输出插件，目标输入插件用于接收第一音频输出插件输出的副本音频ES数据，目标输出插件用于输出副本音频ES数据到音频软解码插件；创建音频软解码插件和音频重采样插件，音频软解码插件用于解码副本音频ES数据得到对应的PCM数据，音频重采样插件用于按照预设参数对PCM数据进行重采样；播放目标媒体。如此，所有的显示设备采用相同的代码逻辑，在显示设备支持AI字幕功能的情况下，创建对应的用于得到PCM数据的插件，在显示设备支持AI字幕功能的情况下，按照现有技术进行处理，从而，对于所有显示设备统一了代码逻辑，避免了支持AI字幕功能的显示设备和不支持AI字幕功能的设备代码逻辑不同，导致后期维护困难的问题。

本申请一些实施例中，结合图11，如图12所示，上述步骤909之前，该字幕生成方法还包括下述步骤910，上述步骤903a具体可以通过下述步骤903b至步骤903d实现。

910、创建AI字幕同步渲染插件。

其中，AI字幕同步渲染插件用于与第三方AI语音识别服务器通信。

903b、向第三方AI语音识别服务器发送目标PCM数据。

903c、接收第三方AI语音识别服务器返回的识别结果。

903d、解析识别结果得到目标字幕。

本申请一些实施例中，结合图12，如图13所示，上述步骤903b之前，该字幕生成方法还包括下述步骤903e、步骤903f和步骤903i，上述步骤903b具体可以通过下述步骤903g和步骤903h实现。

903e、获取第三方AI语音识别服务器的延迟时长。

903f、确定目标媒体的第一已播放时长和目标PCM数据的目标显示时刻。

903g、在第一同步时长与第一已播放时长的差值的绝对值小于或者等于时长阈值的情况下，向第三方AI语音识别服务器发送目标PCM数据。

其中，第一同步时长为目标显示时间与延迟时长的差值。

903h、在第一同步时长与第一已播放时长的差值大于时长阈值的情况下，等待第一同步时长与第一已播放时长的差值后，向第三方AI语音识别服务器发送目标PCM数据。

903i、在第一已播放时长与第一同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。

本申请一些实施例中，结合图11，如图14所示，上述步骤901之前，该字幕生成方法还包括下述步骤911，上述步骤903a具体可以通过下述步骤903j实现。

911、导入第三方AI语音识别工具；

903j、在监听到音频重采样插件输出的目标PCM数据的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕。

本申请一些实施例中，结合图14，如图15所示，上述步骤903j之前，该字幕生成方法还包括下述步骤903k、步骤903l和步骤903o，上述步骤903j具体可以通过下述步骤903m和步骤903n实现。

903k、确定第三方AI语音识别工具对应的识别时长。

903l、在监听到音频重采样插件输出的目标PCM数据的情况下，确定目标媒体的第二已播放时长和目标PCM数据的目标显示时刻。

903m、在第二同步时长与第二已播放时长的差值的绝对值小于或者等于时长阈值的情况下，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕。

其中，第二同步时长为目标显示时间与识别时长的差值。

903n、在第二同步时长与第二已播放时长的差值大于时长阈值的情况下，等待第二同步时长与第二已播放时长的差值后，将目标PCM数据输入到第三方AI语音识别工具，得到目标字幕。

903o、在第二已播放时长与第二同步时长的差值大于时长阈值的情况下，丢弃目标PCM数据。

本申请一些实施例中，结合图9，如图16所示，上述步骤904具体可以通过下述步骤904a实现。

904a、在AI字幕开关处于打开状态的情况下，渲染并显示目标字幕。

本发明实施例提供还提供了一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述字幕生成方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本发明提供一种计算机程序产品，包括：当所述计算机程序产品在计算机上运行时，使得所述计算机实现上述的字幕生成方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好地解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

控制器，被配置为：

复制目标音频原始流ES数据得到第一音频ES数据，并将所述第一音频ES数据存储到ES缓存区，所述目标音频ES数据为从目标媒体片段解析得到的，所述目标音频ES数据用于通过进行音频硬解码处理和音频渲染处理以得到所述目标媒体片段对应的目标音频；

对所述第一音频ES数据进行软解码处理，得到初始脉冲编码调制PCM数据；

对所述初始PCM数据进行语音识别处理，得到所述初始PCM数据对应的目标字幕；

渲染并显示所述目标字幕。

2.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

按照预设参数，对所述初始PCM数据进行重采样，得到目标PCM数据；

对所述目标PCM数据进行语音识别处理，得到所述目标字幕。

3.根据权利要求2所述的显示设备，其特征在于，所述控制器包括：格式解封装插件、ES缓存插件、音频软解码插件和音频重采样插件；所述控制器，还被配置为：

在所述复制目标音频原始流ES数据得到第一音频ES数据之前，在通过所述格式解封装插件确定所述显示设备支持AI字幕功能的情况下，在所述格式解封装插件中复制目标音频输出插件，得到第一音频输出插件，所述目标音频输出插件用于输出音频ES数据，所述第一音频输出插件用于输出复制所述音频ES数据得到的副本音频ES数据；

在所述ES缓存插件中创建目标输入插件和目标输出插件，所述目标输入插件用于接收所述第一音频输出插件输出的所述副本音频ES数据，所述目标输出插件用于输出所述副本音频ES数据到音频软解码插件；

创建所述音频软解码插件和音频重采样插件，所述音频软解码插件用于解码所述副本音频ES数据得到对应的PCM数据，所述音频重采样插件用于按照所述预设参数对所述PCM数据进行重采样；

播放所述目标媒体。

4.根据权利要求3所述的显示设备，其特征在于，所述控制器，还被配置为：

在所述播放所述目标媒体之前，创建AI字幕同步渲染插件，所述AI字幕同步渲染插件用于与第三方AI语音识别服务器通信；

向所述第三方AI语音识别服务器发送所述目标PCM数据；

接收所述第三方AI语音识别服务器返回的识别结果；

解析所述识别结果得到所述目标字幕。

5.根据权利要求4所述的显示设备，其特征在于，所述控制器，还被配置为：

获取所述第三方AI语音识别服务器的延迟时长；

确定所述目标媒体的第一已播放时长和所述目标PCM数据的目标显示时刻；

在第一同步时长与所述第一已播放时长的差值的绝对值小于或者等于时长阈值的情况下，向所述第三方AI语音识别服务器发送所述目标PCM数据，所述第一同步时长为所述目标显示时间与所述延迟时长的差值；

在所述第一同步时长与所述第一已播放时长的差值大于所述时长阈值的情况下，等待所述第一同步时长与所述第一已播放时长的差值后，向所述第三方AI语音识别服务器发送所述目标PCM数据；

在所述第一已播放时长与所述第一同步时长的差值大于所述时长阈值的情况下，丢弃所述目标PCM数据。

6.根据权利要求3所述的显示设备，其特征在于，所述控制器，还被配置为：

在所述复制目标音频原始流ES数据得到第一音频ES数据之前，导入第三方AI语音识别工具；

在监听到所述音频重采样插件输出的所述目标PCM数据的情况下，将所述目标PCM数据输入到所述第三方AI语音识别工具，得到所述目标字幕。

7.根据权利要求6所述的显示设备，其特征在于，所述控制器，具体被配置为：

确定所述第三方AI语音识别工具对应的识别时长；

在监听到所述音频重采样插件输出的所述目标PCM数据的情况下，确定所述目标媒体的第二已播放时长和所述目标PCM数据的目标显示时刻；

在第二同步时长与所述第二已播放时长的差值的绝对值小于或者等于时长阈值的情况下，将所述目标PCM数据输入到所述第三方AI语音识别工具，得到所述目标字幕，所述第二同步时长为所述目标显示时间与所述识别时长的差值；

在所述第二同步时长与所述第二已播放时长的差值大于所述时长阈值的情况下，等待所述第二同步时长与所述第二已播放时长的差值后，将所述目标PCM数据输入到所述第三方AI语音识别工具，得到所述目标字幕；

在所述第二已播放时长与所述第二同步时长的差值大于所述时长阈值的情况下，丢弃所述目标PCM数据。

8.根据权利要求1所述的显示设备，其特征在于，所述控制器，具体被配置为：

在AI字幕开关处于打开状态的情况下，渲染并显示所述目标字幕。

9.一种字幕生成方法，其特征在于，应用于显示设备，包括：

渲染并显示所述目标字幕。

10.根据权利要求9所述的字幕生成方法，其特征在于，所述对所述初始PCM数据进行语音识别处理，得到所述初始PCM数据对应的目标字幕之前，所述方法还包括：

所述对所述初始PCM数据进行语音识别处理，得到所述初始PCM数据对应的目标字幕，包括：

对所述目标PCM数据进行语音识别处理，得到所述目标字幕。