CN105635782A

CN105635782A - 一种字幕输出方法及装置

Info

Publication number: CN105635782A
Application number: CN201511018269.3A
Authority: CN
Inventors: 廖伟健
Original assignee: Meizu Technology China Co Ltd
Current assignee: Meizu Technology China Co Ltd
Priority date: 2015-12-28
Filing date: 2015-12-28
Publication date: 2016-06-01

Abstract

本发明实施例公开了一种字幕输出方法及装置。通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。

Description

一种字幕输出方法及装置

技术领域

本发明涉及多媒体技术领域，尤其涉及一种字幕输出方法及装置。

背景技术

随着互联网的迅速发展，多媒体在人类社会中产生的影响和作用越来越明显，且越来越重要，然而，在某些时候，用户接触到的媒体文件并没有提供字幕，例如手机中的录像、外国影片的宣传视频、学习资料等，由于这些媒体文件没有字幕，导致用户仅通过音频和/或视频无法获取更多的信息。

发明内容

本发明实施例提供一种字幕输出方法及装置，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。

一方面，提供了一种字幕输出方法，所述方法包括：

获取媒体文件中的音频数据；

识别所述音频数据为文字；

当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

优选地，所述方法还包括：

当接收到播放所述媒体文件的指令时，监测所述媒体文件中是否包含字幕数据，若否，则延迟设定时间播放所述媒体文件，执行所述识别所述音频数据为文字的步骤；

当到达所述设定时间时，执行播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出的步骤。

优选地，所述识别所述音频数据为文字，包括：

识别所述音频数据为第一语言文字；

所述方法还包括：

将所述第一语言文字翻译为第二语言文字。

优选地，所述识别所述音频数据为文字，包括：

消除所述音频数据中的噪声；

将消除噪声后的所述音频数据划分为至少一段音频数据；

提取每段音频数据中的特征矢量；

在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系；

将所述查找到的文字生成字幕显示文件。

优选地，所述将所述识别出的文字作为所述媒体文件的字幕与所述音频信号同步显示，包括：

将所述字幕显示文件导入所述媒体文件；

在播放所述媒体文件时，将所述字幕显示文件中的字幕与所述音频信号同步显示。

另一方面，提供了一种字幕输出装置，所述装置包括：

获取模块，用于获取媒体文件中的音频数据；

识别模块，用于识别所述音频数据为文字；

播放模块，用于当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

优选地，所述装置还包括：

监测模块，用于当接收到播放所述媒体文件的指令时，监测所述媒体文件中是否包含字幕数据；

延迟模块，用于若所述监测模块的结果为否，则延迟设定时间播放所述媒体文件；

所述播放模块具体用于当到达所述设定时间时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

优选地，所述识别模块具体用于识别所述音频数据为第一语言文字；

所述装置还包括：

翻译模块，用于将所述第一语言文字翻译为第二语言文字。

优选地，所述识别模块包括：

消除单元，用于消除所述音频数据中的噪声；

划分单元，用于将消除噪声后的所述音频数据划分为至少一段音频数据；

提取单元，用于提取每段音频数据中的特征矢量；

查找单元，用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系；

生成单元，用于将所述查找到的文字生成字幕显示文件。

优选地，所述播放模块包括：

导入单元，用于将所述字幕显示文件导入所述媒体文件；

显示单元，用于在播放所述媒体文件时，将所述字幕显示文件中的字幕与所述音频信号同步显示。

实施本发明实施例提供的一种字幕输出方法及装置，具有如下有益效果：

通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种字幕输出方法的流程示意图；

图2为本发明实施例提供的另一种字幕输出方法的流程示意图；

图3为本发明实施例提供的又一种字幕输出方法的流程示意图；

图4为本发明实施例提供的一种字幕输出装置的结构示意图；

图5为本发明实施例提供的另一种字幕输出装置的结构示意图；

图6为本发明实施例提供的又一种字幕输出装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种字幕输出方法的流程示意图，该方法包括以下步骤：

S101，获取媒体文件中的音频数据。

当要播放媒体文件时，可以预先从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。本实施例中，音频数据没有对应的字幕，如果直接播放该媒体文件，用户只能观看视频和听取声音，而不能同时阅读字幕，这给用户造成一定的理解困难或不能给用户提供更多的信息。

S102，识别所述音频数据为文字。

在播放媒体文件前，将该媒体文件中的音频数据自动识别为文字，即将声音识别为文字。

S103，当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

播放媒体文件的同时，将识别出的文字作为媒体文件的字幕与音频数据同步输出，给没有字幕的媒体文件提供了字幕，从而可以给用户提供更多的信息。进行同步显示，即在播放音频数据时，显示对应的字幕，字幕的显示时间上与对应的音频数据播放同步，可采用现有的时间同步技术实现。

根据本发明实施例提供的一种字幕输出方法，通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。

图2为本发明实施例提供的另一种字幕输出方法的流程示意图，该方法包括以下步骤：

S201，当接收到播放媒体文件的指令时，监测所述媒体文件中是否包含字幕数据；若是，则进行到步骤S202，否则，转至步骤S203。

S202，播放所述媒体文件。

S203，延迟设定时间播放所述媒体文件。

对于媒体文件中是否包含字幕数据，在播放媒体文件之前，需要进行监测，对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件，对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件，以在该设定时间内获得媒体文件的字幕。

S204，获取所述媒体文件中的音频数据。

从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。

S205，消除所述音频数据中的噪声。

消除原始音频数据中的噪声，使处理后的数据更能反映语音的本质特征。

S206，将消除噪声后的所述音频数据划分为至少一段音频数据。

本步骤即进行端点检测，端点检测是指在音频数据中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

S207，提取每段音频数据中的特征矢量。

特征矢量的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。

S208，在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系。

将提取的特征矢量依次与语音数据库中的每个模板进行匹配，将匹配成功的结果进行输出，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出，其中语义信息的获取是根据系统中存储的词汇量提取关键词。

S209，将所述查找到的文字生成字幕显示文件。

生成格式确定的字幕显示文件，从而在播放媒体文件时，可以直接同时显示该字幕显示文件。

S210，将所述字幕显示文件导入所述媒体文件。

S211，当到达所述设定时间时，播放所述媒体文件，将所述字幕显示文件中的字幕与所述音频信号同步显示。

图3为本发明实施例提供的又一种字幕输出方法的流程示意图，该方法包括以下步骤：

S301，当接收到播放媒体文件的指令时，监测所述媒体文件中是否包含字幕数据；若是，则进行到步骤S302，否则，转至步骤S303。

S302，播放所述媒体文件。

S303，延迟设定时间播放所述媒体文件。

S304，获取所述媒体文件中的音频数据。

S305，识别所述音频数据为第一语言文字。

该音频数据识别为第一语言文字识别的过程为原声识别，如果该音频数据不是用户的母语或用户容易听懂的语言，则识别出的该第一语言文字不是用户的母语或容易阅读的文字，即使识别出来，用户还是不能尽快获取更多的信息。

S306，将所述第一语言文字翻译为第二语言文字。

需要将第一语言文字转换或翻译为用户的母语或用户容易听懂的语言，以使用户更快地了解媒体文件内容。

S307，当到达所述设定时间时，播放所述媒体文件，并且将所述识别出的第二语言文字作为所述媒体文件的字幕与所述音频信号同步显示。

在本实施例中，显示的字幕即为翻译后的第二语言文字。

根据本发明实施例提供的一种字幕输出方法，通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息；且在显示字幕前，将识别出的原声对应的语言文字翻译为用户最容易读懂的语言文字，可以帮助用户更快地了解媒体文件内容。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为根据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

图4为本发明实施例提供的一种字幕输出装置的结构示意图，该装置1000包括：

获取模块11，用于获取媒体文件中的音频数据。

识别模块12，用于识别所述音频数据为文字。

播放模块13，用于当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

根据本发明实施例提供的一种字幕输出装置，通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息。

图5为本发明实施例提供的另一种字幕输出装置的结构示意图，该装置2000包括：

监测模块21，用于当接收到播放媒体文件的指令时，监测所述媒体文件中是否包含字幕数据。

延迟模块22，用于延迟设定时间播放所述媒体文件。

获取模块23，用于获取所述媒体文件中的音频数据。

识别模块24，用于识别所述音频数据为文字。

在本实施例中，识别模块24包括消除单元241、划分单元242、提取单元243、查找单元244和生成单元245。

消除单元241，用于消除所述音频数据中的噪声。

划分单元242，用于将消除噪声后的所述音频数据划分为至少一段音频数据。

即进行端点检测，端点检测是指在音频数据中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点。经过端点检测后，后续处理就可以只对语音信号进行，这对提高模型的精确度和识别正确率有重要作用。

提取单元243，用于提取每段音频数据中的特征矢量。

查找单元244，用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字，所述语音数据库包括多个音频数据的特征矢量与文字的对应关系。

生成单元245，用于将所述查找到的文字生成字幕显示文件。

播放模块25，用于当接收到播放所述媒体文件的指令时，播放所述媒体文件，并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。

在本实施例中，播放模块25包括导入单元251和显示单元252。

导入单元251，用于将所述字幕显示文件导入所述媒体文件。

显示单元252，用于当到达所述设定时间时，播放所述媒体文件，将所述字幕显示文件中的字幕与所述音频信号同步显示。

图6为本发明实施例提供的又一种字幕输出装置的结构示意图，该装置3000包括：

监测模块31，用于当接收到播放媒体文件的指令时，监测所述媒体文件中是否包含字幕数据。

延迟模块32，用于延迟设定时间播放所述媒体文件。

获取模块33，用于获取所述媒体文件中的音频数据。

识别模块34，用于识别所述音频数据为第一语言文字。

翻译模块35，用于将所述第一语言文字翻译为第二语言文字。

播放模块36，用于当到达所述设定时间时，播放所述媒体文件，并且将所述识别出的第二语言文字作为所述媒体文件的字幕与所述音频信号同步显示。

在本实施例中，显示的字幕即为翻译后的第二语言文字。

根据本发明实施例提供的一种字幕输出装置，通过获取媒体文件中的音频数据，识别该音频数据为文字，当接收到播放该媒体文件的指令时，播放该媒体文件，并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出，以给没有字幕的媒体文件提供字幕，给用户提供更多的信息；且在显示字幕前，将识别出的原声对应的语言文字翻译为用户最容易读懂的语言文字，可以帮助用户更快地了解媒体文件内容。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可以用硬件实现，或固件实现，或它们的组合方式来实现。当使用软件实现时，可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于：计算机可读介质可以包括随机存取存储器(RandomAccessMemory，RAM)、只读存储器(Read-OnlyMemory，ROM)、电可擦可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory，EEPROM)、只读光盘(CompactDiscRead-OnlyMemory，CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如，如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DigitalSubscriberLine，DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的，那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的，盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟，其中盘通常磁性的复制数据，而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。

总之，以上所述仅为本发明技术方案的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种字幕输出方法，其特征在于，所述方法包括：

获取媒体文件中的音频数据；

识别所述音频数据为文字；

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求1或2所述的方法，其特征在于，所述识别所述音频数据为文字，包括：

识别所述音频数据为第一语言文字；

所述方法还包括：

将所述第一语言文字翻译为第二语言文字。

4.如权利要求1或2所述的方法，其特征在于，所述识别所述音频数据为文字，包括：

消除所述音频数据中的噪声；

将消除噪声后的所述音频数据划分为至少一段音频数据；

提取每段音频数据中的特征矢量；

将所述查找到的文字生成字幕显示文件。

5.如权利要求4所述的方法，其特征在于，所述将所述识别出的文字作为所述媒体文件的字幕与所述音频信号同步显示，包括：

将所述字幕显示文件导入所述媒体文件；

6.一种字幕输出装置，其特征在于，所述装置包括：

获取模块，用于获取媒体文件中的音频数据；

识别模块，用于识别所述音频数据为文字；

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

8.如权利要求6或7所述的装置，其特征在于，所述识别模块具体用于识别所述音频数据为第一语言文字；