CN112055253A

CN112055253A - 独立字幕流的添加复用方法和装置

Info

Publication number: CN112055253A
Application number: CN202010821081.7A
Authority: CN
Inventors: 高伟; 端木义平
Original assignee: Cctv International Video Communication Co ltd
Current assignee: Cctv International Video Communication Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-08
Anticipated expiration: 2040-08-14
Also published as: CN112055253B

Abstract

本公开的实施例提供了独立字幕流的添加复用方法、装置、设备和计算机可读存储介质。所述方法包括接收TS流信号，对所述TS流信号进行解复用；根据解复用得到的PES层中的时间戳确定第一系统时钟；对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。以此方式，可以在对节目实时性影响较小的情况下，对电视台提供的没有字幕的原始视频音频信号进行了独立字幕流的添加复用，以便用户通过对机顶盒或者手机APP的操作显示或隐藏所添加的字幕，提高了用户体验。

Description

独立字幕流的添加复用方法和装置

技术领域

本公开的实施例一般涉及广播电视技术领域，并且更具体地，涉及独立字幕流的添加复用方法、装置、设备和计算机可读存储介质。

背景技术

现有数字电视广播中，一般由电视台提供原始视频音频信号，通过有线网络/IPTV/OTT运营商等发送到用户家中的机顶盒或者手机APP；用户通过对机顶盒或者手机APP的操作即可观看并收听所述视频音频信号。

但是，电视台提供的原始视频音频信号中大多数没有字幕；而少量带有字幕的原始视频音频信号中，字幕往往是烧进视频图像里。听力障碍观众无法通过独立的字幕提示正常观看所有音视频节目，也影响了一些外文节目的观看和理解。

有的运营商把语音解析成文字之后，把文字烧入视频层，但是影响到了不想观看字幕提示的观众的观看体验，没能给观众选择是否观看字幕的权利。

发明内容

根据本公开的实施例，提供了一种独立字幕流的添加复用方案。

在本公开的第一方面，提供了一种独立字幕流的添加复用方法。该方法包括：接收TS流信号，对所述TS流信号进行解复用；根据解复用得到的PES层中的时间戳确定第一系统时钟；对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对所述TS流信号进行解复用包括：从所述TS流信号中过滤出待进行独立字幕流的添加复用的频道，进行解扰解复用得到对应的TS层、PES层和ES层。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：对解复用得到的ES层进行分析，根据分析得到的分辨率和帧率，确定后期展示字幕的位置信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，对解复用得到的音频流进行语音识别包括：采用VAD算法对所述音频流检测语音，采集到待识别语音信号；获取当前待识别语音信号的语音特征序列；将所述语音特征序列输入预先训练得到的神经网络模型，得到表示各个音素的概率的输出序列；将所述输出系列输入预先训练的CTC模型，得到对应的音素序列；将所述音素序列输入语言模型，转换成最终的文字序列作为识别结果；其中，所述神经网络模型是通过对已有字幕文件的电视节目生成的训练样本集，采用teachers-student框架进行训练得到的。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第二时钟为对应的文本信息的语音识别输出时间，用于与所述第一系统时钟进行延迟计算，实现字幕流与音视频流的同步。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，生成字幕流包括：根据所述文本信息、第二时钟进行编码，生成字幕流。

在本公开的第二方面，提供了一种独立字幕流的显示方法，该方法包括接收上述带有独立字幕流的TS流信号，对所述TS流信号进行解复用；根据用户输入的控制选项，在屏幕上显示/隐藏对应所述独立字幕流。

在本公开的第三方面，提供了一种独立字幕流的添加复用装置。该装置包括：解复用模块，用于接收TS流信号，对所述TS流信号进行解复用；第一系统时钟确定模块，用于根据解复用得到的PES层中的时间戳确定第一系统时钟；字幕流生成模块，用于对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；复用模块，用于根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

在本公开的第四方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

在本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了能够在其中实现本公开的实施例的示例性运行环境的示意图；

图2示出了根据本公开的实施例的独立字幕流的添加复用方法的流程图；

图3示出了根据本公开的实施例的独立字幕流的显示方法的流程图；

图4示出了根据本公开的实施例的独立字幕流的添加复用装置的方框图；

图5示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1示出了能够在其中实现本公开的实施例的示例性运行环境100的示意图。在运行环境100中包括信号源102、字幕添加复用系统104和终端106。

其中，信号源102可以是电视台，用于提供原始视频音频信号；字幕添加复用系统104位于有线网络/IPTV/OTT运营商处，用于对所述原始视频音频信号添加独立字幕流；并通过有线网络/IPTV/OTT终端106，终端106可以是用户家中的机顶盒或者手机APP。

图2示出了根据本公开实施例的独立字幕流的添加复用方法300的流程图。方法200可以由图1中的字符添加复用系统104执行。

在框210，接收TS流信号，对所述TS流信号进行解复用。

TS主要分为三层：TS层(Transport Stream)，PES层(Packet Element Stream)，ES层(Element Stream)，ES层为压缩编码(视频采用H264,音频采用acc)后的基本的音视频码流，PES在ES层的基础上加入了时间戳(PTS/DTS)等信息，而TS层在PES层加入了定时信息(PCR)和节目专用信息(PSI)进而形成MPEG-TS码流。

在一些实施例中，TS流信号中包括多频道音视频数据，可以根据需要，对其中的一个或多个频道的音视频数据分别进行独立字幕流添加复用。

在一些实施例中，所述TS流信号包含多频道音视频数据，将其作为第一TS流。字幕添加复用系统104从第一输入端口接收到第一TS流(合成的TS流)时，从包含多频道音视频数据的第一TS流过滤出待进行独立字幕流的添加复用的第二TS流(加扰的TS流)，对第二TS流解扰后得到第三TS流；对第三TS流进行解复用，以得到所述第三TS流对应的TS层、PES层和ES层。

在一些实施例中，根据PAT表中的节目频道号确定待进行独立字幕流的添加复用的节目频道对应的第二TS流。

在一些实施例中，对解复用得到的ES层中的压缩编码后的音视频码流进行解码，得到对应的视频流和音频流；

在框220，根据解复用得到的PES层中的PTS/DTS标志确定第一系统时钟。

其中，所述第一系统时钟为节目时钟基准，即进行TS流编码、多路复用、解码、重建的时间。

在一些实施例中，还包括对所述ES层进行分析，根据分析得到的分辨率和帧率，确定后期展示字幕的位置信息。例如，分辨率为1920*1080P，帧率为25fps，则后期展示字幕的位置信息为：X：192，Y：285。

在框230，对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；

在一些实施例中，通过预先训练得到的神经网络模型进行语音识别。

在一些实施例中，所述第二时钟为对应的文本信息的语音识别输出时间。在本实施例中，采用“流式”模式下一边接收语音一边返回识别结果，因此，所述第二时钟为对应的文本信息的首个字符的输出时间。

在一些实施例中，根据对解复用得到的音频流进行语音识别得到的待识别语音信号的开始时间和结束时间，确定对应的文本信息在后期开始展示的时间和结束展示的时间(以第二时钟为基准)。在一些实施例中，可以根据所述文本信息的字符数、字体、开始展示的时间和结束展示的时间确定字幕的滚动速度。

在一些实施例中，由于进行语音识别需要一定的处理时间，如果将对应的文本信息生成的字幕直接添加复用到原音视频流中，会造成字幕与音视频的不同步，因此，所述第二时钟用于与所述第一系统时钟进行延迟计算，一般的，所述第二时钟对所述第一系统时钟的延迟小于等于预设阈值。

在一些实施例中，对于不同的语音信号，其对应的文本信息的首个字符的输出时间也不尽相同，为了保证后期字幕流与视频流、音频流的同步，将所述预设阈值设置为大于等于最大的第二时钟延迟，以保证所有的字幕流都能与视频流、音频流同步播放。

在一些实施例中，为了保证电视节目的实时性，需要设置尽量小的阈值，例如3s，在这3s的延迟中，足以保证通过语音识别输出对应的文本信息的首个字符，并保证后续的字符输出。

在一些实施例中，对所述音频流进行语音识别包括:采用VAD算法对所述音频流检测语音，采集到待识别语音信号；获取当前待识别语音信号的语音特征序列；将所述语音特征序列输入预先训练得到的神经网络模型，得到表示各个音素的概率的输出序列；将所述输出系列输入预先训练的CTC模型，得到对应的音素序列；将所述音素序列输入语言模型，转换成最终的文字序列作为识别结果。其中，所述神经网络模型为深度神经网络(DeepNeural Network，DNN)模型、前馈型序列记忆网络FSMN(Feed-forward Sequential MemoryNetwork)模型、Deep-FSMN模型。

在一些实施例中，采用teachers-student框架，首先使用小规模语音样本数据训练一个“非流式”大模型，训练时前后看很多帧；将未人工标注的大规模语音样本输入训练后的“非流式”大模型，将输出结果作为所述语音样本label，所述label即音素在预设分类上的各自概率；使用所述label及对应的语音数据训练一个小的“流式”模型，所述小的流式模型预设前后参考的帧数较小。“非流式”简单来说就是整句语音结束后返回识别结果，“流式”模式下一边接收语音一边返回识别结果。

在一些实施例中，所述神经网络模型是通过对已有字幕文件的电视节目生成的训练样本集进行训练得到的。例如，对ES层中的压缩编码后的音视频码流进行解码，得到对应的视频流和音频流；采用VAD算法对对已有字幕文件的电视节目的音频流检测语音，采集到待识别语音信号；同时，将对应的字幕文件中的文字序列作为标注结果；生成训练样本集。

在框240，根据所述文本信息进行编码，生成字幕流；

在一些实施例中，根据所述文本信息、第二时钟进行编码，生成字幕流。

在一些实施例中，根据所述文本信息、第二时钟、位置信息进行编码，生成字幕流。其中，所述位置信息用于确定后期展示字幕的位置。

在一些实施例中，根据所述文本信息的字符数、字体、开始展示的时间和结束展示的时间确定字幕的滚动速度。

在一些实施例中，以字幕窗口为基础定义隐藏字幕编码、传输协议，字幕窗口的位置信息，字幕窗口和字幕文本的颜色、大小等属性。

在一些实施例中，将所述文本信息进行编码得到的字幕编码数据封装在基于帧打包的MXF的文件中。

在框250，根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流；

在一些实施例中，通过复用器对所述视频流、音频流、字幕流进行复用，根据所述第二时钟对所述第一时钟的延迟，将所述视频流、音频流进行延迟，使得所述视频流、音频流、字幕流实现同步，避免了图像、声音与字幕的不同步。

在一些实施例中，所述字幕流可以被放置在视频流的基本流中或被放置在一个专用的PES中。

在框260，将带有独立字幕流的TS流发送给数字电视接收机。

根据本公开的实施例，实现了以下技术效果：

在对节目实时性影响较小的情况下，对电视台提供的没有字幕的原始视频音频信号进行了独立字幕流的添加复用，以便用户通过对机顶盒或者手机APP的操作显示或隐藏所添加的字幕，提高了用户体验。

图3示出了根据本公开实施例的独立字幕流的显示方法300的流程图。方法300可以由图1中的终端104执行。

在框310，接收上述带有独立字幕流的TS流信号，对所述TS流信号进行解复用。

在一些实施例中，对解复用得到的ES层中的压缩编码后的音视频码流进行解码，得到对应的视频流、音频流，并得到对应的字幕流。

在框320，根据用户输入的控制选项，在屏幕上显示/隐藏所述独立字幕流。

在一些实施例中，终端机顶盒或者手机APP，通过‘字幕选项’可以添加字幕或者隐藏字幕，给观众选择的权利。用户可以显示或隐藏字幕。

在一些实施例中，用户可以控制字幕显示样式和属性，例如，可以控制字幕字体大小、字幕颜色、字幕透明度和亮度等。

根据本公开的实施例，实现了以下技术效果：

用户通过对机顶盒或者手机APP的操作即可显示或隐藏所添加的字幕，提高了用户体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图4示出了根据本公开的实施例的独立字幕流的添加复用装置400的方框图。装置400可以被包括在图1的字幕添加复用系统104中或者被实现为字幕添加复用系统104。如图4所示，装置400包括：

解复用模块410，用于接收TS流信号，对所述TS流信号进行解复用；

第一系统时钟确定模块420，用于根据解复用得到的PES层中的时间戳确定第一系统时钟；

字幕流生成模块430，用于对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；

复用模块440，用于根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图5示出了可以用来实施本公开的实施例的电子设备500的示意性框图。设备500可以用于实现图1的字幕添加复用系统104和终端106中的至少一个。如图所示，设备500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的计算机程序指令或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序指令，来执行各种适当的动作和处理。在RAM 503中，还可以存储设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元501执行上文所描述的各个方法和处理，例如方法200、300。例如，在一些实施例中，方法200、300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由CPU 501执行时，可以执行上文描述的方法200、300的一个或多个步骤。备选地，在其他实施例中，CPU501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种独立字幕流的添加复用方法，其特征在于，包括：

接收TS流信号，对所述TS流信号进行解复用；

根据解复用得到的PES层中的时间戳确定第一系统时钟；

对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；

根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

2.根据权利要求1所述的方法，其特征在于，对所述TS流信号进行解复用包括：

从所述TS流信号中过滤出待进行独立字幕流的添加复用的频道，进行解扰解复用得到对应的TS层、PES层和ES层。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对解复用得到的ES层进行分析，根据分析得到的分辨率和帧率，确定后期展示字幕的位置信息。

4.根据权利要求1所述的方法，其特征在于，对解复用得到的音频流进行语音识别包括：

采用VAD算法对所述音频流检测语音，采集到待识别语音信号；

获取当前待识别语音信号的语音特征序列；将所述语音特征序列输入预先训练得到的神经网络模型，得到表示各个音素的概率的输出序列；

将所述输出系列输入预先训练的CTC模型，得到对应的音素序列；

将所述音素序列输入语言模型，转换成最终的文字序列作为识别结果；其中，

所述神经网络模型是通过对已有字幕文件的电视节目生成的训练样本集，采用teachers-student框架进行训练得到的。

5.根据权利要求1所述的方法，其特征在于，

所述第二时钟为对应的文本信息的语音识别输出时间，用于与所述第一系统时钟进行延迟计算，实现字幕流与音视频流的同步。

6.根据权利要求1所述的方法，其特征在于，生成字幕流包括：

根据所述文本信息、第二时钟进行编码，生成字幕流。

7.一种独立字幕流的显示方法，其特征在于，包括：

接收根据权利要求1-6任一所述的带有独立字幕流的TS流信号，对所述TS流信号进行解复用；

根据用户输入的控制选项，在屏幕上显示/隐藏对应所述独立字幕流。

8.一种独立字幕流的添加复用装置，其特征在于，包括：

解复用模块，用于接收TS流信号，对所述TS流信号进行解复用；

第一系统时钟确定模块，用于根据解复用得到的PES层中的时间戳确定第一系统时钟；

字幕流生成模块，用于对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；

复用模块，用于根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～7中任一项所述的方法。