CN102801925A

CN102801925A - 一种字幕加配的方法及装置

Info

Publication number: CN102801925A
Application number: CN2012102800799A
Authority: CN
Inventors: 刘赵杰
Original assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Current assignee: Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date: 2012-08-08
Filing date: 2012-08-08
Publication date: 2012-11-28

Abstract

本发明公开了一种字幕加配的方法及装置。所述方法包括：获取待加配字幕的视频和对应的字幕文本；提取所述待加配字幕的视频的音频；对所述音频进行语音识别并转换为带时间点信息的文本；将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。本发明还公开了用于实现所述方法的装置。

Description

一种字幕加配的方法及装置

技术领域

本发明涉及视频技术领域，尤其涉及一种字幕加配的方法及装置。

背景技术

字幕是电视等视频节目的一个重要组成部分，视频节目的字幕作为视频节目传递的声音和图像之外的部分，可以增加信息传播量，特别是专业内容等可以辅助增加传播效果。另外，一个国家电视字幕节目的比例，反应了一个国家的人文水平，反应了社会对残疾人的关怀程度。目前，日本，美国和欧洲等很多国家的电视节目都已经加配字幕。目前国内有字幕加配的节目是少之又少，在我国广播电视事业的发展趋势下，各制作与播出单位对电视节目字幕加配越来越重视，电视字幕已经成为电视节目的不可缺少的一部分。

目前最为广泛使用的字幕加配方案是手工加配方案，对于有台文本的电视节目，需要由专业人员手工把电视字幕一句一句的加配到电视节目的相应的时间点上；对于没有台文本的电视节目，则需要专业人员把电视节目中的语音内容一句话一句话的转写成文本内容并加配到对应的电视节目的时间点上。

上述的手工加配字幕的方法的不足之处在于花费了需要大量的人员，实现周期长，实现成本高，对于目前每天海量出现的电视节目很难及时处理。

在手工加配字幕之外，还可以利用语音识别系统进行电视节目字幕的自动加配。该方案的基本思想就是把字幕中的语音部分使用语音识别系统转换为字幕文本，并利用语音识别的时间信息把语音识别的结果加配到电视节目的对应的时间段上。

上述语音识别加配字幕的不足之处在于，在使用自动语音识别结果作为电视节目字幕的方案中，语音识别率可能不能达到100%，特别是对电视节目中带有明显噪音的部分，对应产生的电视字幕的准确率非常低，所以基于语音识别的方案仅仅使用于新闻节目等噪声比较小的节目。

发明内容

本发明实施例提供一种字幕加配方法及装置，能够实现准确的字幕加配，能够解决手工加配字幕耗时而且成本高的缺点以及语音识别加配字幕准确率不高的缺点。

一种字幕加配的方法，包括以下步骤：获取待加配字幕的视频和对应的字幕文本；提取所述待加配字幕的视频的音频；对所述音频进行语音识别并转换为带时间点信息的文本；将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。采用该技术方案，能够实现自动加配字幕和准确的文本对齐，提高了字幕加配的准确率。

上述技术方案中，优选的，所述提取所述待加配字幕的视频的音频步骤还包括过滤提取得到所述音频的噪音。采用该技术方案，能够使字幕加配不仅仅应用在新闻类视频节目中，能够扩展到大部分的视频节目。

上述技术方案中，优选的，所述对所述音频进行语音识别并转换为带时间点信息的文本步骤之前还包括根据音频的频谱特征对所述音频进行分句。采用该技术方案，对音频进行分句，能够使得系统对电视节目的长度不敏感，处理长段的电视节目。

上述技术方案中，优选的，所述将所述带时间点信息的文本与所述字幕文本进行对齐的步骤进一步包括，将所述带时间点信息的文本与所述字幕文本逐句对齐；对于对齐的正确率超过一预定阈值的语句作为对齐结果输出。采用该技术方案，能够进一步提高字幕加配的准确率。

上述技术方案中，优选的，所述对于对齐的正确率超过一预定阈值的语句作为对齐结果输出的步骤后还包括，对于对齐的正确率未达到所述预定阈值的语句，重新进行语音识别和文本对齐。

在上述技术方案中，优选的，重新进行语音识别的步骤进一步包括，在识别的最后一个迭代中，使用剩余的没有加配的文本作为语音识别的有限状态语法进行语音识别。采用该技术方案，能够进一步提高语音识别的识别率。

上述技术方案中，优选的，所述重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，则将最后一次的语音识别和文本对齐结果作为结果输出。采用该技术方案，针对对比不好的节目部分，对语音识别系统进行迭代的自适应，能够使语音识别系统更好的匹配节目的声学条件，对对齐不好的句子具有更好的识别效果，提高了对存在噪声的节目的鲁棒性，扩展了系统可用性，而不再仅仅适用于新闻类节目。

一种字幕加配装置，包括资源获取模块、音频提取模块、语音识别模块、文本对其模块和字幕加配模块，所述各模块依次连接，其中所述资源获取模块用于获取待加配字幕的视频和对应的字幕文本；所述音频提取模块用于提取所述待加配字幕的视频的音频；所述语音识别模块用于对所述音频进行语音识别并转换为带时间点信息的文本；所述文本对齐模块用于将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；所述字幕加配模块用于将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

在上述技术方案中，优选的，所述音频提取模块还用于过滤提取得到的所述音频的噪音。

在上述技术方案中，优选的，所述语音识别模块还用于根据音频的频谱特征对所述音频进行分句。

在上述技术方案中，优选的，所述文本对齐模块还用于：将所述带时间点信息的文本与所述字幕文本逐句对齐；对于对齐的正确率超过一预定阈值的语句作为对齐结果输出。

在上述技术方案中，优选的，所述文本对比模块还用于对于对齐的正确率未达到所述预定阈值的语句，重新转至语音识别模块进行语音识别和文本对齐。

在上述技术方案中，优选的，所述语音识别模块还用于在识别的最后一个迭代中，使用剩余的没有加配的文本作为有限状态语法进行语音识别。

在上述技术方案中，优选的，所述文本对比模块还用于，对于重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，将最后一次的语音识别和文本对齐结果作为结果输出。

本发明的技术效果在于克服了人工加配字幕耗时而且成本高的缺点，可以快速而且低成本地自动产生电视字幕文件。与使用自动语音识别技术的方法相比，本发明方案中产生的字幕更加准确。此外，因为本发明方案中采用多次迭代的语音识别，而且每次迭代都对语音识别系统针对没有对齐的句子部分进行自适应，因此对电视节目中含有噪音的电视节目部分可以比较鲁棒的加配字幕。本发明方案在最后针对没有对齐的句子进行了基于有限状态语法的语音识别，这个方法进一步提高了对含有噪音的电视节目部分字幕加配的鲁棒性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种字幕加配方法的流程图；

图2为本发明实施例中字幕加配方法的一种优选的实施方式的流程图；

图3为本发明实施例中字幕加配方法的另一种优选的实施方式的流程图；

图4为本发明实施例中字幕加配装置的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明的主要思想在于针对有台文本的电视等视频节目，提出了一种鲁棒的语音和文本对齐的方法，将已有的台文本跟电视节目进行对齐，作为字幕进行显示，因此解决了自动加配中字幕精度不高的问题，以及基于迭代对齐和自适应的方法，提高了自动字幕产生系统对电视节目中噪声容忍度，进一步提高了系统的鲁棒性，扩展了系统的可用范围，而不仅仅适用于新闻类电视节目一种，在电视节目制作中有非常广泛的应用。

如图1所示，为本发明实施例中一种字幕加配的方法，包括以下步骤：

步骤101、获取待加配字幕的视频和对应的字幕文本；

步骤102、提取所述待加配字幕的视频的音频；

步骤103、对所述音频进行语音识别并转换为带时间点信息的文本；

步骤104、将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；

步骤105、将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

采用上述技术方案，能够实现自动加配字幕和准确的文本对齐，提高了字幕加配的准确率，节省人工成本，节约工作时间。

如图2所示，为本发明一种字幕加配的方法的一种优选实施方式，包括以下步骤：

步骤201、获取待加配字幕的视频和对应的字幕文本；

步骤202、提取所述待加配字幕的视频的音频，过滤所述音频的噪音，对所述过滤噪音后的音频进行分句；

步骤203、对所述音频进行语音识别，将语音内容转换为带时间信息的文本；

步骤204、将所述带时间点信息的文本与所述字幕文本进行对齐，将所述带时间点信息的文本与所述字幕文本逐句对齐；

步骤205、判断对齐正确率是否达到某一预定阈值，如是则转至步骤206，否则转至步骤203；

在最后一个迭代过程中，在识别完成之后，使用剩余的没有加配的文本作为语音识别的有限状态语法进行识别，并把识别结果转换为带有时间点信息的文本；

步骤206、对于对齐的正确率超过一预定阈值的语句作为对齐结果输出，生成带时间点信息的字幕文件；

步骤207、将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

采用该技术方案，能够使字幕加配不仅仅应用在新闻类视频节目中，能够扩展到大部分的视频节目，能够使得系统对电视节目的长度不敏感，处理长段的电视节目；进一步提高语音识别的识别率和字幕加配的准确率。

如图3所示，为本发明实施例中字幕加配方法的另一种优选实施方式，包括：

步骤301、根据需要处理的电视节目，获取电视节目和已有的字母文本并保存在系统中；

步骤302、从电视节目中抽取相应的音频流，并转换为预先指定的格式；

此处音频流的格式可以是RA、WMA或MOV格式。

步骤303、将提取到的音频流进行标准的语音和非语音的区分；

此处的区分根据音频的频谱特性可以很容易做到，因为一段电视节目中的语音部分肯定会有波动。而非语音部分可能只有背景音，那样在频谱特征中应该是一个常数。利用这个特征可以讲提取到的音频流分为语音部分和非语音部分。

步骤304、对区分后的语音部分进行语音识别，并同时记录与语音部分对应的时间点，这样就得到了一个带有时间点信息的文本；

步骤305、对于得到的带有时间点信息的文本与现有的字幕文本进行对齐操作，生成带有时间点信息的字幕文件；

为了提高语音识别的准确性，此处对语音识别进行了自适应，对于每次识别得到的文本，将其与现有的台文本进行对齐时，对于对齐正确率超过预设阈值的才将其作为结果输出，对于不符合要求的部分重新进行语音识别，直到迭代次数达到一个预设的数值。

如果是最后一个迭代，则使用剩余的没有加配的文本作为语音识别的有限状态语法进行识别并转换为带时间点信息的文本。

有限状态语法是语音识别中的常识，语音识别语法规范是一种用于语音识别语法如何被说明的万维网联盟W3C标准。语音识别语法是是一组词模式，讲述了一个语音识别系统所期望一个人说的东西。例如，如果您调用一个汽车服务员应用程序，将提示您输入一个人的名字(期望你的电话将被转移到那个人的电话)。然后，它将启动一个语音识别器，给它一个语音识别的语法，这个语法包括汽车服务员名字的目录以及一个集合的句子模式，这些都是呼叫者立即得到的典型反馈。在此处，利用最后一个迭代中剩余的没有加配的文本作为语音识别的有限状态语法进行语音识别，能够进一步提高语音识别的识别率。

如果所述重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，则将最后一次的语音识别和文本对齐结果作为结果输出。这样针对对比不好的节目部分，对语音识别系统进行迭代的自适应，能够使语音识别系统更好的匹配节目的声学条件，对对齐不好的句子具有更好的识别效果，提高了对存在噪声的节目的鲁棒性，扩展了系统可用性，而不再仅仅适用于新闻类节目。

步骤306、将得到的最终字幕文本加配到电视节目对应片段中，输出最终带字幕的电视节目。

本发明实施例的字幕加配方法，把电视节目自动加配问题作为一个语音和字幕文本对齐问题，进而进一步的作为一个迭代的语音识别以及文本对其问题，能够使得在字幕加配中对电视节目的长度不敏感，能够处理长段的电视节目，例如一整段的长达半个小时的电视新闻。

另外，针对对齐不好的节目部分，也就是声学条件不好的部分，对语音识别进行迭代的自适应，使字幕加配能够更好的匹配节目的声学条件，对对齐不好的句子具有更好的识别效果，提高了对存在噪声的电视节目的鲁棒性，使电视节目加配扩展到新闻类节目之外。

最后，对于系统的最后对齐过程中，没有对齐的节目部分使用基于有限状态语法的语音识别，进一步提高了语音识别的识别率。

本发明实施例还提供了用于实现本方法的装置，如图4所示，一种字幕加配装置，包括资源获取模块401、音频提取模块402、语音识别模块403、文本对齐模块404和字幕加配模块405，所述各模块依次连接。

资源获取模块401用于获取待加配字幕的视频和对应的字幕文本；该视频可以来源于网络视频节目，也可以来源于电视节目，字幕文本对应于所获取的各节目。

音频提取模块402用于提取所述待加配字幕的视频的音频；在提取音频的时候，如果该视频中包含的音频轨迹含有噪声较多，还可以对其进行过滤噪声的处理，这样保证在语音识别时获得更为准确的语音识别结果。对于节目时间较长的视频，对获取的音频进行分句处理，能够解决节目时间长的问题。

语音识别模块403用于对所述音频进行语音识别并转换为带时间点信息的文本；音频提取模块402对音频进行过滤噪声和分句之后，语音识别模块403开始按照时间顺序对每一句音频进行识别，在识别的最后一轮，使用剩余的没有对齐的文本作为有限状态语法的语音识别的识别内容，能够进一步提高语音识别的识别率。

文本对齐模块404用于将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；作为一种优选的实施方式，具体包括将所述带时间点信息的文本与所述字幕文本逐句对齐；对于对齐的正确率超过一预定阈值的语句作为对齐结果输出。如果对齐的正确率未达到所述预定阈值的语句，重新转至语音识别模块进行语音识别和文本对齐。对于重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，将最后一次的语音识别和文本对齐结果作为结果输出。这样就将字幕加配问题进一步变成迭代的语音识别和文本对齐问题，而不是只作为一个语音识别问题。这样对于识别和对齐效果不好的节目部分可以进行迭代的自适应，使语音识别模块能够更好的匹配节目的声学条件，对对齐不好的句子具有更好的识别效果，提高了对存在噪声的节目的鲁棒性，扩张了系统的可用性，而不仅仅适用于新闻类节目。

字幕加配模块405用于将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种字幕加配的方法，其特征在于，包括以下步骤：

获取待加配字幕的视频和对应的字幕文本；

提取所述待加配字幕的视频中的音频；

对所述音频进行语音识别并转换为带时间点信息的文本；

将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；

将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

2.如权利要求1所述的字幕加配的方法，其特征在于，所述提取所述待加配字幕的视频的音频步骤还包括过滤所述音频中的噪音。

3.如权利要求1所述的字幕加配的方法，其特征在于，所述对所述音频进行语音识别并转换为带时间点信息的文本步骤之前还包括根据音频的频谱特征对所述音频进行分句。

4.如权利要求3所述的字幕加配的方法，其特征在于，所述将所述带时间点信息的文本与所述字幕文本进行对齐的步骤进一步包括：

将所述带时间点信息的文本与所述字幕文本逐句对齐；

对于对齐的正确率超过一预定阈值的语句作为对齐结果输出。

5.如权利要求4所述的字幕加配的方法，其特征在于，所述对于对齐的正确率超过一预定阈值的语句作为对齐结果输出的步骤后还包括，对于对齐的正确率未达到所述预定阈值的语句，重新进行语音识别和文本对齐。

6.如权利要求5所述的字幕加配的方法，其特征在于，在重新进行语音识别的最后一个迭代中，使用剩余的没有加配的文本作为有限状态语法进行语音识别。

7.如权利要求6所述的字幕加配的方法，其特征在于，所述重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，则将最后一次的语音识别和文本对齐结果作为结果输出。

8.一种字幕加配装置，其特征在于，包括资源获取模块、音频提取模块、语音识别模块、文本对齐模块和字幕加配模块，所述各模块依次连接，其中：

所述资源获取模块用于获取待加配字幕的视频和对应的字幕文本；

所述音频提取模块用于提取所述待加配字幕的视频的音频；

所述语音识别模块用于对所述音频进行语音识别并转换为带时间点信息的文本；

所述文本对齐模块用于将所述带时间点信息的文本与所述字幕文本进行对齐，生成带时间点信息的字幕文件；

所述字幕加配模块用于将所述带时间点信息的字幕文件加配到所述待加配字幕的视频上。

9.如权利要求8所述的字幕加配装置，其特征在于，所述音频提取模块还用于过滤所述音频的噪音。

10.如权利要求8所述的字幕加配装置，其特征在于，所述语音识别模块还用于对所述音频进行分句。

11.如权利要求8所述的字幕加配装置，其特征在于，所述文本对齐模块还用于：

将所述带时间点信息的文本与所述字幕文本逐句对齐；

12.如权利要求11所述的字幕加配装置，其特征在于，所述文本对比模块还用于对于对齐的正确率未达到所述预定阈值的语句，重新转至语音识别模块进行语音识别和文本对齐。

13.如权利要求12所述的字幕加配的方法，其特征在于，所述语音识别模块还用于，在识别的最后一个迭代，使用剩余的没有加配的文本作为有限状态语法进行语音识别。

14.如权利要求13所述的字幕加配装置，其特征在于，所述文本对比模块还用于，对于重新进行语音识别和文本对齐的次数到达预定次数，仍未获得对齐的正确率超过所述预定阈值的语句，将最后一次的语音识别和文本对齐结果作为结果输出。