CN111556372A

CN111556372A - 为视音频节目实时添加字幕的方法和装置

Info

Publication number: CN111556372A
Application number: CN202010313136.3A
Authority: CN
Inventors: 宣振生
Original assignee: Beijing Jiagu Jinsheng Technology Co ltd
Current assignee: Beijing Jiagu Jinsheng Technology Co ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-18

Abstract

本申请公开了一种为视音频节目实时添加字幕的方法和装置，涉及辅助字幕领域。该方法包括：获取视音频节目；使用语音识别引擎实时将所述视音频节目的语音转换成文本；采用分词算法将所述文本生成字幕；将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。该装置包括：获取模块、识别模块、字幕模块和匹配模块。本发明实现了字幕和视音频画面“一块屏”的输出，彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。

Description

为视音频节目实时添加字幕的方法和装置

技术领域

本申请涉及辅助字幕领域，特别是涉及一种为视音频节目实时添加字幕的方法和装置。

背景技术

在数字有线电视时代，有线电视采用的是电视机+外置机顶盒的方式来实现播放的。在各种类型的视音频节目中，新闻和直播体育赛事等视音频节目均没有字幕，此种情况下聋人无法准确知晓视音频节目内容。根据第二次全国残疾人抽样调查，我国有2057万听力言语残疾人，占残疾人总数的三分之一。每年还新增聋儿3万人，这一群体对直播节目的字幕需求极为迫切。

目前，聋人收看无字幕电视节目采用的手段主要是，在手机上打开如讯飞听见、音书等APP，开启语音识别后，APP上就会出现当前播放的电视节目的声音转换后的文本，从而可以进行查看。

但是，上述现有技术的缺点显而易见，首先观看者需要同时观看电视屏幕和手机屏幕两块屏，在电视屏幕上观看视频画面，在手机屏幕上观看文本，无法同时顾及，体验非常差。另外，手机APP中转换出来的密密麻麻的大段文本，通常错别字较多，且毫无逻辑，理解起来相当吃力，根本无法与电视上分行显示且断句逻辑清晰的字幕相比，因此，对理解电视节目内容的效果大打折扣，无法满足听障人士获取字幕的现实需求。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种为视音频节目实时添加字幕的方法，包括：

获取视音频节目；

使用语音识别引擎实时将所述视音频节目的语音转换成文本；

采用分词算法将所述文本生成字幕；

将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。

可选地，采用分词算法将所述文本生成字幕，包括：

采用分词算法对所述文本进行分词、分句和分行处理后得到字幕。

可选地，采用分词算法对所述文本进行分词、分句和分行处理后得到字幕，包括：

采用分词算法对所述文本进行分词，替换其中的特殊标点符号，按照语气间隔进行分句，且对过短语句进行自动拼接，然后进行分行，如果超过每行上限字数则进行切割，最终得到字幕。

可选地，所述方法还包括：

在分行之前，过滤掉背景音乐和歌曲的识别结果，处理病句和错句，过滤重复文字。

可选地，所述方法还包括：

获取视音频节目之后，判断当前设置的字幕状态，如果为开启状态，则执行后续生成字幕及输出的流程，如果为关闭状态，则直接输出所述视音频节目。

根据本申请的另一个方面，提供了一种为视音频节目实时添加字幕的装置，包括：

获取模块，其配置成获取视音频节目；

识别模块，其配置成使用语音识别引擎实时将所述视音频节目的语音转换成文本；

字幕模块，其配置成采用分词算法将所述文本生成字幕；

匹配模块，其配置成将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出。

可选地，所述字幕模块包括：

分词算法单元，其配置成采用分词算法对所述文本进行分词、分句和分行处理后得到字幕。

可选地，所述分词算法单元具体配置成：

可选地，所述分词算法单元还配置成：

可选地，所述装置还包括：

控制模块，其配置成在所述获取模块获取视音频节目之后，判断当前设置的字幕状态，如果为开启状态，则触发所述识别模块执行后续流程，如果为关闭状态，则直接输出所述视音频节目。

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过获取视音频节目，使用语音识别引擎实时将所述视音频节目的语音转换成文本，采用分词算法将所述文本生成字幕，将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出，实现了字幕和视音频画面“一块屏”的输出，彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。进一步地，通过设置字幕状态可以随时关闭字幕，不会影响不需要此类辅助字幕的其它家庭成员收看视音频节目，方便了听障人士和正常人士不同需求的使用，使用更灵活。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的为视音频节目实时添加字幕的方法流程图；

图2是根据本申请另一个实施例的为视音频节目实时添加字幕的方法流程图；

图3是根据本申请另一个实施例的为视音频节目实时添加字幕的装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

本发明实施例涉及为视音频节目实时添加字幕，其中的视音频节目包括但不限于电视节目或网络视音频节目等等，尤其适用于播出时间固定且无字幕的直播新闻、综艺、体育等节目。对于自带字幕的视音频节目不在本发明涉及的范围之内，本发明实施例中的视音频节目均是指不配有字幕的视音频节目，下文不再特别声明。本发明实施例不仅适用于听障人士，同样也适用于需要静音收视者，或者多语种字幕收视者等等，应用极为广泛。

图1是根据本申请一个实施例的为视音频节目实时添加字幕的方法流程图。

参见图1，该方法包括：

101：获取视音频节目；

102：使用语音识别引擎实时将视音频节目的语音转换成文本；

103：采用分词算法将文本生成字幕；

104：将生成的字幕匹配且叠加到视音频节目的画面上输出。

本实施例中，可选的，采用分词算法将文本生成字幕，包括：

采用分词算法对文本进行分词、分句和分行处理后得到字幕。

本实施例中，可选的，采用分词算法对文本进行分词、分句和分行处理后得到字幕，包括：

采用分词算法对文本进行分词，替换其中的特殊标点符号，按照语气间隔进行分句，且对过短语句进行自动拼接，然后进行分行，如果超过每行上限字数则进行切割，最终得到字幕。

本实施例中，可选的，上述方法还包括：

获取视音频节目之后，判断当前设置的字幕状态，如果为开启状态，则执行后续生成字幕及输出的流程，如果为关闭状态，则直接输出视音频节目。

本实施例中，可选的，使用语音识别引擎实时将视音频节目的语音转换成文本，包括：

判断当前设置的显示语种，然后使用语音识别引擎实时将视音频节目的语音转换成该语种下的文本。

本实施例提供的上述方法，通过获取视音频节目，使用语音识别引擎实时将所述视音频节目的语音转换成文本，采用分词算法将所述文本生成字幕，将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出，实现了字幕和视音频画面“一块屏”的输出，彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。进一步地，通过设置字幕状态可以随时关闭字幕，不会影响不需要此类辅助字幕的其它家庭成员收看视音频节目，方便了听障人士和正常人士不同需求的使用，使用更灵活。

图2是根据本申请另一个实施例的为视音频节目实时添加字幕的方法流程图。参见图2，该方法包括：

201：获取视音频节目；

202：判断当前设置的字幕状态，如果为关闭状态，则执行203；如果为开启状态，则执行204；

203：直接输出视音频节目，流程结束；

204：使用语音识别引擎实时将视音频节目的语音转换成文本；

其中，语音识别引擎可以采用任一种，本发明实施例不做具体限定，如科大讯飞、腾讯、思必驰、百度等推出的语音识别技术均可以采用。

205：采用分词算法对文本进行分词，替换其中的特殊标点符号，按照语气间隔进行分句，且对过短语句进行自动拼接；

其中，分词可以保证词语的完整性，特殊标点符号是指预先指定的标点符号，一般是指对于字幕来说可有可无的标点，即使没有也不会对句子的理解造成影响，因此会将其过滤掉，尽量减少对画面的占用。

分句过程中通常将句子以空格隔断，且以语气间隔为一句，能够保证句子的可观性。

206：过滤掉背景音乐和歌曲的识别结果，处理病句和错句，过滤重复文字，然后进行分行，如果超过每行上限字数则进行切割，最终得到字幕；

其中，每行字幕的上限字数可以根据需要设置，具体字数不限定。长句进行切割可以避免过长的句子无法在画面上一次都显示出来，切割后分屏显示更合理有效。

207：将生成的字幕匹配且叠加到视音频节目的画面上输出，流程结束。

图3是根据本申请另一个实施例的为视音频节目实时添加字幕的装置结构图。参见图3，该装置包括：

获取模块301，其配置成获取视音频节目；

识别模块302，其配置成使用语音识别引擎实时将视音频节目的语音转换成文本；

字幕模块303，其配置成采用分词算法将文本生成字幕；

匹配模块304，其配置成将生成的字幕匹配且叠加到视音频节目的画面上输出。

本实施例中，可选的，字幕模块包括：

分词算法单元，其配置成采用分词算法对文本进行分词、分句和分行处理后得到字幕。

本实施例中，可选的，分词算法单元具体配置成：

本实施例中，可选的，分词算法单元还配置成：

本实施例中，可选的，上述装置还包括：

控制模块，其配置成在获取模块获取视音频节目之后，判断当前设置的字幕状态，如果为开启状态，则触发识别模块执行后续流程，如果为关闭状态，则直接输出视音频节目。

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不再赘述。

本实施例提供的上述装置，通过获取视音频节目，使用语音识别引擎实时将所述视音频节目的语音转换成文本，采用分词算法将所述文本生成字幕，将生成的所述字幕匹配且叠加到所述视音频节目的画面上输出，实现了字幕和视音频画面“一块屏”的输出，彻底解决了听障人士无法观看无字幕视音频节目或只能多屏配合收看的痛处。进一步地，通过设置字幕状态可以随时关闭字幕，不会影响不需要此类辅助字幕的其它家庭成员收看视音频节目，方便了听障人士和正常人士不同需求的使用，使用更灵活。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种为视音频节目实时添加字幕的方法，包括：

获取视音频节目；

采用分词算法将所述文本生成字幕；

2.根据权利要求1所述的方法，其特征在于，采用分词算法将所述文本生成字幕，包括：

3.根据权利要求2所述的方法，其特征在于，采用分词算法对所述文本进行分词、分句和分行处理后得到字幕，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

6.一种为视音频节目实时添加字幕的装置，包括：

获取模块，其配置成获取视音频节目；

字幕模块，其配置成采用分词算法将所述文本生成字幕；

7.根据权利要求6所述的装置，其特征在于，所述字幕模块包括：

8.根据权利要求7所述的装置，其特征在于，所述分词算法单元具体配置成：

9.根据权利要求7所述的装置，其特征在于，所述分词算法单元还配置成：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述装置还包括：