CN107222792A

CN107222792A - 一种字幕叠加方法及装置

Info

Publication number: CN107222792A
Application number: CN201710559772.2A
Authority: CN
Inventors: 牛伟; 李俊
Original assignee: Chengdu Core Digital Polytron Technologies Inc
Current assignee: Chengdu Core Digital Polytron Technologies Inc
Priority date: 2017-07-11
Filing date: 2017-07-11
Publication date: 2017-09-29

Abstract

本发明提供一种字幕叠加方法及装置，应用于字幕叠加终端，该字幕叠加终端包括多个输入接口。所述方法包括：接收分别从多个输入接口输入的TS流信号，将TS流信号的模式转换为指定模式；对转换后的TS流信号进行解码，获得音频流和视频流；对获得的音频流进行滤波处理，获得语音信息；通过语音识别将语音信息转换为文本信息，并根据文本信息生成对应的字幕图片；将视频流和字幕图片进行叠加处理，生成包括字幕的数据流视频文件。该字幕叠加方案可直接对无字幕的电视节目进行自动语音识别，以生成文本信息，并将文本信息转换为字幕图片以与视频流进行叠加生成包含字幕的数据流视频文件，以方便听力障碍人群收看电视节目。

Description

一种字幕叠加方法及装置

技术领域

本发明涉及广播电视技术领域，具体而言，涉及一种字幕叠加方法及装置。

背景技术

随着科学技术的发展和人们生活水平的提高，视频已经成为人们工作、学习、社交以及休闲娱乐不可替代的重要方式，并且人们对于视频的要求也越来越高。目前，在视频编辑系统中，对于数据流视频文件的字幕的设定及生成的方式各不相同。但是，目前常用的解码器显示的字幕一般都是电视台通过采编系统直接在视频上进行编辑，编辑完成以后给编码器压缩编码再进行传输。所以，接收机解出来的字幕只能是电视台预先编辑好的字幕。如此，部分无字幕的电视节目将不利于听力障碍人群收看。

发明内容

有鉴于此，本发明的目的在于提供一种字幕叠加方法及装置，以解决上述问题。

本发明实施例提供一种字幕叠加方法，应用于字幕叠加终端，所述字幕叠加终端包括多个输入接口，所述方法包括：

接收分别从所述多个输入接口输入的TS流信号，将所述TS流信号的模式转换为指定模式；

对转换后的TS流信号进行解码，获得音频流和视频流；

对获得的所述音频流进行滤波处理，获得语音信息；

通过语音识别将所述语音信息转换为文本信息，并根据所述文本信息生成对应的字幕图片；

将所述视频流和所述字幕图片进行叠加处理，生成包括字幕的数据流视频文件。

进一步地，所述转换后的TS流信号包括多套节目的TS流信号，所述方法还包括：

接收输入的叠加请求指令以及输入的节目信息；

根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。

进一步地，所述方法还包括：

检测解码后的与所述节目信息对应的视频流中是否包含文本信息，若不包含文本信息，则执行所述对获得的所述音频流进行滤波处理的步骤。

进一步地，所述通过语音识别将所述语音信息转换为文本信息的步骤，包括：

对所述语音信息进行分帧处理，获得多段语音帧；

将各帧语音帧进行转换，获得对应的多维向量，其中各所述多维向量分别包含各所述语音帧的内容信息；

根据获得的多个所述多维向量，获得所述语音信息对应的文本信息。

进一步地，所述方法还包括：

设定一线性递增的参考时钟；

根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳；

读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳，并参考当前参考时钟上的时间来进行音频输出和视频输出，以使音视频达到同步。

本发明另一较佳实施例提供一种字幕叠加装置，应用于字幕叠加终端，所述字幕叠加终端包括多个输入接口，所述字幕叠加装置包括接收模块、解码模块、滤波处理模块、第一转换模块及叠加处理模块；

所述接收模块用于接收分别从所述多个输入接口输入的TS流信号，将所述TS流信号的模式转换为指定模式；

所述解码模块用于对转换后的TS流信号进行解码，获得音频流和视频流；

所述滤波处理模块用于对获得的所述音频流进行滤波处理，获得语音信息；

所述第一转换模块用于通过语音识别将所述语音信息转换为文本信息，并根据所述文本信息生成对应的字幕图片；

所述叠加处理模块用于将所述视频流和所述字幕图片进行叠加处理，生成包括字幕的数据流视频文件。

进一步地，所述转换后的TS流信号包括多套节目的TS流信号，所述字幕叠加装置还包括指令接收模块及第二转换模块；

所述指令接收模块用于接收输入的叠加请求指令以及输入的节目信息；

所述第二转换模块用于根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。

进一步地，所述字幕叠加装置还包括检测模块；

所述检测模块用于检测解码后的与所述节目信息对应的视频流中是否包含文本信息，若不包含文本信息，则执行所述滤波处理模块所执行的对获得的所述音频流进行滤波处理的步骤。

进一步地，所述第一转换模块包括分帧单元、转换单元以及获取单元；

所述分帧单元用于对所述语音信息进行分帧处理，获得多段语音帧；

所述转换单元用于将各帧语音帧进行转换，获得对应的多维向量，其中各所述多维向量分别包含各所述语音帧的内容信息；

所述获取单元用于根据获得的多个所述多维向量，获得所述语音信息对应的文本信息。

进一步地，所述字幕叠加装置还包括设定模块、时间戳设置模块以及读取模块；

所述设定模块用于设定一线性递增的参考时钟；

所述时间戳设置模块用于根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳；

所述读取模块用于读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳，并参考当前参考时钟上的时间来进行音频输出和视频输出，以使音视频达到同步。

本发明实施例提供的字幕叠加方法及装置，通过对接收到的TS流信号进行解码以获得音频流和视频流，对获得的音频流进行自动语音识别以获得文本信息，再将文本信息转换为字幕图片，将生成的字幕图片与解码获得的视频流进行叠加以最终生成包含字幕的数据流视频文件。该字幕叠加方案可直接对无字幕的电视节目进行自动语音识别，以生成文本信息，并将文本信息转换为字幕图片以与视频流进行叠加生成包含字幕的数据流视频文件，以方便听力障碍人群收看电视节目。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明较佳实施例提供的一种字幕叠加终端的示意性结构框图。

图2为本发明较佳实施例提供的一种字幕叠加方法的流程图。

图3为图2中步骤S104的子步骤的流程图。

图4为本发明较佳实施例提供的字幕叠加方法的另一流程图。

图5为本发明较佳实施例提供的字幕叠加方法的另一流程图。

图6为本发明较佳实施例提供的字幕叠加装置的功能模块框图。

图7为本发明较佳实施例提供的第一转换模块的功能模块框图。

图8为本发明较佳实施例提供的字幕叠加装置的另一功能模块框图。

图标：100-字幕叠加终端；110-字幕叠加装置；111-接收模块；112-解码模块；113-滤波处理模块；114-第一转换模块；1141-分帧单元；1142-转换单元；1143-获取单元；115-叠加处理模块；116-指令接收模块；117-第二转换模块；118-检测模块；119-设定模块；1110-时间戳设置模块；1111-读取模块；120-处理器；130-存储器。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参阅图1，为本发明较佳实施例提供的一种字幕叠加终端100的示意性结构框图。所述字幕叠加终端100包括字幕叠加装置110、处理器120及存储器130。其中，所述存储器130与处理器120之间直接或间接地电性连接，以实现数据的传输或交互。所述字幕叠加装置110包括至少一个可以软件或固件的形式存储于所述存储器130中或固化在所述字幕叠加装置110的操作系统中的软件功能模块。所述处理器120用于执行存储器130中存储的可执行模块，例如所述字幕叠加装置110包括的软件功能模块或计算机程序，以对无字幕的电视节目进行语音识别及字幕叠加。在本实施例中，可选地，所述处理器120可以为FPGA芯片。

在本实施例中，所述字幕叠加装置110可以是独立的具有数据处理能力的终端设备。

如图2所示，是本发明实施例提供的一种应用于图1所示的字幕叠加终端100的字幕叠加方法的示意性流程图。所应说明是，本实施例提供的方法不以图2及以下所述的顺序为限制。下面将对图2所示的具体流程进行详细的阐述。

步骤S101，接收分别从所述多个输入接口输入的TS流信号，将所述TS流信号的模式转换为指定模式。

步骤S102，对转换后的TS流信号进行解码，获得音频流和视频流。

步骤S103，对获得的所述音频流进行滤波处理，获得语音信息。

可选地，在本实施例中，所述字幕叠加终端100包括多个输入接口，从不同输入接口所输入的TS流信号的模式各异，需要将从不同输入接口所输入的TS流信号的模式转换为所述字幕叠加终端100所需的统一的指定模式。

由于在数据传输过程中，为了将一个或更多的音频、视频或者其他的基本数据流合成单个或多个数据流，以适应于存储和传送，在传输之前需要对其进行压缩，即需要通过一定的编码，才能用最小的容量来存储质量更高的音频视频数据。那么，在需要对数据进行播放时则首先需要进行解码过程。可选地，从所述TS流信号中获取到PAT(节目关联表)，从PAT中获取到TS流中所有节目映射表。从节目映射表中获取到PMT，解析PMT得到每个节目数据(包括视频流和音频流)的PID(包标识符)。最后，根据传输过来的数据PID对对应的视频流数据和音频流数据进行系统层的复用及解码，最终，得到视频流数据和音频流数据。

由于最终获得的音频流除了包含人的语音信息之外，还包括诸多背景音频，例如背景音乐、背景杂音等等。因此，为了降低对后续语音识别的干扰，需要对获得的音频流进行滤波处理，以获得待识别的语音信息。

步骤S104，通过语音识别将所述语音信息转换为文本信息，并根据所述文本信息生成对应的字幕图片。

可选地，请参阅图3，在本实施例中，步骤S104可以包括步骤S1041、步骤S1042和步骤S1043三个子步骤。

步骤S1041，对所述语音信息进行分帧处理，获得多段语音帧。

步骤S1042，将各帧语音帧进行转换，获得对应的多维向量，其中各所述多维向量分别包含各所述语音帧的内容信息。

步骤S1043，根据获得的多个所述多维向量，获得所述语音信息对应的文本信息。

可选地，首先需要对语音进行分帧处理以获得多段的语音帧。分帧后的语音波形在时域上是没有描述能力的，因此需要将波形进行变换。例如，将每一帧的波形变成一个多维向量，该多维向量则包含了这帧语音的内容信息。一般性地，人的声音中，单词的发音由音素构成，而一个音素又由多个状态构成，即比音素更为细致的语音单位。

其中，若干帧语音可对应一个状态，而多个状态可组合成一个音素，若干个音素可组合成一个单词。即，需要将每个语音帧和状态对应起来，那么就可获得与语音信息对应的文本信息。将获得的文本信息生成相应的字幕图片，以便后续将其与视频流中的图层进行叠加。

步骤S105，将所述视频流和所述字幕图片进行叠加处理，生成包括字幕的数据流视频文件。

应当理解，转换后的TS流信号往往包括多道节目信号，每道节目由一个或多个原始流和一些其他流复合在一起，包括视频流、音频流及节目特殊信息流等。可选地，请参阅图4，在本实施例中，所述字幕叠加方法还包括以下步骤：

步骤S201，接收输入的叠加请求指令以及输入的节目信息。

步骤S202，根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。

为了满足用户的实际需求，可选地，用户可以根据自身需求发起字幕叠加请求的指令，例如可以是通过输入按键发起请求，也可以是通过与所述字幕叠加终端100通信连接的其他终端发起字幕叠加的请求，对此在本实施例中并不作具体限制。并且，用户还可根据自身需求输入想要进行字幕叠加的节目信息。所述字幕叠加终端100在接收到该叠加请求指令以及用户输入的节目信息之后，将所接收到的包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号，以此，更加贴合于用户的需求，可提高用户的操作体验性。

应当理解，在具体实施时，不排除可能会出现所述字幕叠加终端100根据用户需求所转换后的TS流信号中已包含文本信息的情况，因此为了避免在这种情况下，进行重复语音识别及文本转换工作，而造成的资源浪费，可选地，在本实施例中，所述字幕叠加方法还可以包括以下步骤：

可选地，在进行TS流信号解码之后，可检测解码后的视频流中是否包含文本信息。若已包含文本信息，则可不进行音频流滤波、语音识别及文本转换等工作，只需将解码后的视频流和音频流同步输出即可。若解码后的视频流中不包含文本信息，则再进行音频流滤波、语音识别、文本转换叠加等工作。如此设置，在进行语音识别之前，首先检测是否存在文本信息，可避免出现重复不必要的工作，可节省大量资源及时间。

在本实施例中，为了避免在最后数据流视频文件输出时，音视频出现延时现象，可选地，请参阅图5，所述字幕叠加方法还可以包括以下步骤：

步骤S301，设定一线性递增的参考时钟。

步骤S302，根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳。

步骤S303，读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳，并参考当前参考时钟上的时间来进行音频输出和视频输出，以使音视频达到同步。

可选地，在本实施例中，为了保证最终所输出的包含字幕的数据流视频文件不出现延时现象，可对音视频进行同步处理。可选地，可首先选择一个参考时钟，一般性地，要求该参考时钟上的时间是线性递增的。在对TS流信号进行解码生成音频流和视频流时，依据所述参考时钟上的时间给所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳，一般包括开始时间和结束时间。

在输出时，读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳来进行输出并播放。例如某数据块上的开始时间大于当前参考时钟上的时间，则不急于播放该数据块，直到参考时钟达到该数据块的开始时间。若某数据块的开始时间小于当前参考时钟上的时间，则需要及时安排输出并播放该数据块，或者是将该数据块进行丢弃处理，以使当前的输出播放进度与参考时钟同步。

请参阅图6，为本发明另一较佳实施例提供的字幕叠加装置110的功能模块框图。所述字幕叠加装置110包括接收模块111、解码模块112、滤波处理模块113、第一转换模块114及叠加处理模块115。

所述接收模块111用于接收分别从所述多个输入接口输入的TS流信号，将所述TS流信号的模式转换为指定模式。具体地，该接收模块111可用于执行图2中所示的步骤S101，具体的操作方法可参考步骤S101的详细描述。

所述解码模块112用于对转换后的TS流信号进行解码，获得音频流和视频流。具体地，该解码模块112可用于执行图2中所示的步骤S102，具体的操作方法可参考步骤S102的详细描述。

所述滤波处理模块113用于对获得的所述音频流进行滤波处理，获得语音信息。具体地，该滤波处理模块113可用于执行图2中所示的步骤S103，具体的操作方法可参考步骤S103的详细描述。

所述第一转换模块114用于通过语音识别将所述语音信息转换为文本信息，并根据所述文本信息生成对应的字幕图片。具体地，该第一转换模块114可用于执行图2中所示的步骤S104，具体的操作方法可参考步骤S104的详细描述。

请参阅图7，在本实施例中，所述第一转换模块114包括分帧单元1141、转换单元1142以及获取单元1143。

所述分帧单元1141用于对所述语音信息进行分帧处理，获得多段语音帧。具体地，该分帧单元1141可用于执行图3中所示的步骤S1041，具体的操作方法可参考步骤S1041的详细描述。

所述转换单元1142用于将各帧语音帧进行转换，获得对应的多维向量，其中各所述多维向量分别包含各所述语音帧的内容信息。具体地，该转换单元1142可用于执行图3中所示的步骤S1042，具体的操作方法可参考步骤S1042的详细描述。

所述获取单元1143用于根据获得的多个所述多维向量，获得所述语音信息对应的文本信息。具体地，该获取单元1143可用于执行图3中所示的步骤S1043，具体的操作方法可参考步骤S1043的详细描述。

所述叠加处理模块115用于将所述视频流和所述字幕图片进行叠加处理，生成包括字幕的数据流视频文件。具体地，该叠加处理模块115可用于执行图2中所示的步骤S105，具体的操作方法可参考步骤S105的详细描述。

在本实施例中，所述转换后的TS流信号包括多套节目的TS流信号，可选地，请参阅图8，所述字幕叠加装置110还包括指令接收模块116及第二转换模块117。

所述指令接收模块116用于接收输入的叠加请求指令以及输入的节目信息。具体地，该指令接收模块116可用于执行图4中所示的步骤S201，具体的操作方法可参考步骤S201的详细描述。

所述第二转换模块117用于根据接收到的所述节目信息将包含多套节目的TS流信号转换为与所述节目信息对应的TS流信号。具体地，该第二转换模块117可用于执行图4中所示的步骤S202，具体的操作方法可参考步骤S202的详细描述。

所述字幕叠加装置110还包括检测模块118，所述检测模块118用于检测解码后的与所述节目信息对应的视频流中是否包含文本信息，若不包含文本信息，则执行所述滤波处理模块113所执行的对获得的所述音频流进行滤波处理的步骤。

可选地，在本实施例中，所述字幕叠加装置110还包括设定模块119、时间戳设置模块1110以及读取模块1111。

所述设定模块119用于设定一线性递增的参考时钟。具体地，该设定模块119可用于执行图5中所示的步骤S301，具体的操作方法可参考步骤S301的详细描述。

所述时间戳设置模块1110用于根据所述参考时钟将获得的所述音频流中的每个音频数据块和所述视频流中的每个视频数据块打上时间戳。具体地，该时间戳设置模块1110可用于执行图5中所示的步骤S302，具体的操作方法可参考步骤S302的详细描述。

所述读取模块1111用于读取所述音频流中的各所述音频数据块和所述视频流中的各所述视频数据块上的时间戳，并参考当前参考时钟上的时间来进行音频输出和视频输出，以使音视频达到同步。具体地，该读取模块1111可用于执行图5中所示的步骤S303，具体的操作方法可参考步骤S303的详细描述。

综上所述，本发明实施例提供的字幕叠加方法及装置，通过对接收到的TS流信号进行解码以获得音频流和视频流，对获得的音频流进行自动语音识别以获得文本信息，再将文本信息转换为字幕图片，将生成的字幕图片与解码获得的视频流进行叠加以最终生成包含字幕的数据流视频文件。该字幕叠加方案可直接对无字幕的电视节目进行自动语音识别，以生成文本信息，并将文本信息转换为字幕图片以与视频流进行叠加生成包含字幕的数据流视频文件，以方便听力障碍人群收看电视节目。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种字幕叠加方法，其特征在于，应用于字幕叠加终端，所述字幕叠加终端包括多个输入接口，所述方法包括：

对转换后的TS流信号进行解码，获得音频流和视频流；

对获得的所述音频流进行滤波处理，获得语音信息；

2.根据权利要求1所述的字幕叠加方法，其特征在于，所述转换后的TS流信号包括多套节目的TS流信号，所述方法还包括：

接收输入的叠加请求指令以及输入的节目信息；

3.根据权利要求2所述的字幕叠加方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的字幕叠加方法，其特征在于，所述通过语音识别将所述语音信息转换为文本信息的步骤，包括：

对所述语音信息进行分帧处理，获得多段语音帧；

5.根据权利要求1所述的字幕叠加方法，其特征在于，所述方法还包括：

设定一线性递增的参考时钟；

6.一种字幕叠加装置，其特征在于，应用于字幕叠加终端，所述字幕叠加终端包括多个输入接口，所述字幕叠加装置包括接收模块、解码模块、滤波处理模块、第一转换模块及叠加处理模块；

7.根据权利要求6所述的字幕叠加装置，其特征在于，所述转换后的TS流信号包括多套节目的TS流信号，所述字幕叠加装置还包括指令接收模块及第二转换模块；

8.根据权利要求7所述的字幕叠加装置，其特征在于，所述字幕叠加装置还包括检测模块；

9.根据权利要求6所述的字幕叠加装置，其特征在于，所述第一转换模块包括分帧单元、转换单元以及获取单元；

10.根据权利要求6所述的字幕叠加装置，其特征在于，所述字幕叠加装置还包括设定模块、时间戳设置模块以及读取模块；

所述设定模块用于设定一线性递增的参考时钟；