CN112135197A

CN112135197A - 字幕显示方法及装置、存储介质、电子设备

Info

Publication number: CN112135197A
Application number: CN201910550122.0A
Authority: CN
Inventors: 黄思军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-24
Filing date: 2019-06-24
Publication date: 2020-12-25
Anticipated expiration: 2039-06-24
Also published as: CN112135197B

Abstract

本公开提供一种字幕显示方法及装置、电子设备、存储介质；涉及计算机技术领域。所述字幕显示方法包括：获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示；在判定需要启动字幕显示时，获取视频数据对应的音频数据；对音频数据进行语音识别处理，生成视频数据对应的字幕数据；在呈现视频数据的显示界面上显示字幕数据。本公开的技术方案能够在媒体音量过小或者周围噪音过大的情况下将视频中的语音内容自动转化为字幕，提升用户的使用体验。

Description

字幕显示方法及装置、存储介质、电子设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种字幕显示方法、字幕显示装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的发展，人们已经能够随时随地的观看移动设备上的视频。

然而，虽然随时随地能够看视频，给用户带来较好的视频观赏体验，但是在公共场合时也有诸多不便，例如当周围环境比较嘈杂时，如果没有携带耳机或者把视频音量调大时，不仅视频观赏体验较差，而且会影响到身边的人，降低了用户的使用体验。同时，关闭视频的音量会使用户不清楚视频内容，导致用户观赏体验较差。

因此，提供一种根据音量设置以及周围环境噪声变化调整视频数据对应语音内容的呈现方式是非常必要的。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种字幕显示方法、字幕显示装置、电子设备以及计算机可读存储介质，进而在一定程度上克服周围噪声较大或者不方便的情况下，关闭视频音量造成视频观赏体验较差的问题。

根据本公开的第一方面，提供一种字幕显示方法，包括：

获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示；

在判定需要启动字幕显示时，获取视频数据对应的音频数据；

对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据；

在呈现所述视频数据的显示界面上显示所述字幕数据。

在本公开的一种示例性实施例中，对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据，还包括：

对所述音频数据进行语音活性检测处理以过滤所述音频数据中的非语音数据；

将过滤后的所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据。

在本公开的一种示例性实施例中，在判定需要启动字幕显示时，获取视频数据对应的音频数据，包括：

在判定需要启动字幕显示时，通过目标位置处的音频回调接口获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述环境音量包括媒体音量和/或噪音音量。

在本公开的一种示例性实施例中，所述获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示，包括：

获取所述媒体音量的强度数据，并检测所述强度数据是否等于或低于第一预设阈值；或者

获取所述噪音音量的强度数据，并检测所述强度数据是否等于或高于第二预设阈值；或者

获取所述媒体音量的强度数据以及所述噪音音量的强度数据，并检测所述媒体音量的强度数据是否高于第一预设阈值且所述噪音音量的强度数据是否低于第二预设阈值，并计算所述噪音音量的强度数据与所述媒体音量的强度数据的差值数据以判断所述差值数据是否高于第三预设阈值。

在本公开的一种示例性实施例中，所述在判定需要启动字幕显示时，获取视频数据对应的音频数据，还包括：

如果所述媒体音量的强度数据等于或低于第一预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

如果所述噪音音量的强度数据等于或高于第二预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

如果所述媒体音量的强度数据高于第一预设阈值且所述噪音音量的强度数据低于第二预设阈值，且所述差值数据高于第三预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，在呈现所述视频数据的显示界面上显示所述字幕数据，还包括：

获取单位时间内所述视频数据对应的字幕数据；所述字幕数据包括与所述视频数据同步的时间信息；

根据所述时间信息在呈现所述视频数据的显示界面上显示所述字幕数据以使所述字幕数据与所述视频数据进行同步显示。

根据本公开的第二方面，提供一种字幕显示装置，包括：

音量强度检测单元，用于获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示；

音频数据获取单元，用于在判定需要启动字幕显示时，获取视频数据对应的音频数据；

字幕数据生成单元，用于对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据；

字幕数据显示单元，用于在呈现所述视频数据的显示界面上显示所述字幕数据。

在本公开的一种示例性实施例中，所述字幕数据生成单元被配置为：对所述音频数据进行语音活性检测处理以过滤所述音频数据中的非语音数据；将过滤后的所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据。

在本公开的一种示例性实施例中，所述音频数据获取单元被配置为：在判定需要启动字幕显示时，通过目标位置处的音频回调接口获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音量强度检测单元被配置为：获取所述媒体音量的强度数据，并检测所述强度数据是否等于或低于第一预设阈值；或者获取所述噪音音量的强度数据，并检测所述强度数据是否等于或高于第二预设阈值；或者获取所述媒体音量的强度数据以及所述噪音音量的强度数据，并检测所述媒体音量的强度数据是否高于第一预设阈值且所述噪音音量的强度数据是否低于第二预设阈值，并计算所述噪音音量的强度数据与所述媒体音量的强度数据的差值数据以判断所述差值数据是否高于第三预设阈值。

在本公开的一种示例性实施例中，所述音频数据获取单元被配置为：如果所述媒体音量的强度数据低于第一预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音频数据获取单元还被配置为：如果所述噪音音量的强度数据高于第二预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音频数据获取单元还被配置为：如果所述媒体音量的强度数据高于第一预设阈值且所述噪音音量的强度数据低于第二预设阈值，且所述差值数据高于第三预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述字幕数据显示单元被配置为：获取单位时间内所述视频数据对应的字幕数据；所述字幕数据包括与所述视频数据同步的时间信息；根据所述时间信息在呈现所述视频数据的显示界面上显示所述字幕数据以使所述字幕数据与所述视频数据进行同步显示。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果：

在本公开的一示例实施方式所提供的字幕显示方法中，在根据环境音量的强度数据判定需要启动字幕显示时，对视频数据中的音频数据进行语音识别处理生成视频数据对应的字幕数据，并在呈现视频数据的显示界面上显示字幕数据。一方面，在根据环境音量的强度数据判定需要启动字幕显示时，识别视频数据中的语音内容并生成字幕显示在显示界面，能够在周围环境嘈杂或者不方便时自动显示视频数据对应的字幕，优化用户在观看视频时对环境的适应性，提升用户的使用体验；另一方面，在显示界面上显示与视频数据对应的字幕数据，避免用户因听不到语音内容导致的不清楚视频内容的问题，提升用户的视频观赏体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图；

图2示意性示出了根据本公开的一个实施例的字幕显示方法的流程图；

图3示意性示出了根据本公开的一个实施例的终端执行字幕显示过程的示意图；

图4示意性示出了根据本公开的一个实施例中显示单位时间内视频数据对应字幕数据的示意图；

图5示意性示出了根据本公开的一个实施例的字幕显示方法中信息交互的示意图；

图6示意性示出了根据本公开的一个实施例的字幕显示装置的框图；

图7示意性示出了根据本公开的一个实施例的具体应用场景的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图1示出的电子设备的计算机系统100仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图1所示，计算机系统100包括中央处理单元(CPU)101，其可以根据存储在只读存储器(ROM)102中的程序或者从存储部分108加载到随机访问存储器(RAM)103中的程序而执行各种适当的动作和处理。在RAM 103中，还存储有系统操作所需的各种程序和数据。CPU101、ROM 102以及RAM 103通过总线104彼此相连。输入/输出(I/O)接口105也连接至总线104。

以下部件连接至I/O接口105：包括键盘、鼠标等的输入部分106；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分107；包括硬盘等的存储部分108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分109。通信部分109经由诸如因特网的网络执行通信处理。驱动器110也根据需要连接至I/O接口105。可拆卸介质111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器110上，以便于从其上读出的计算机程序根据需要被安装入存储部分108。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分109从网络上被下载和安装，和/或从可拆卸介质111被安装。在该计算机程序被中央处理单元(CPU)101执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，计算机系统100还可以包括ASR(Automatic SpeechRecognition，语音识别)处理器，该ASR处理器用于处理有关语音识别或者语音活性检测的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

特别的，在本示例实施例中，电子设备可以是具备储存单元并安装有微处理器而具有运算能力的终端，也可以是具备储存单元并安装有处理器而具有运算能力的服务器。其中服务器可以为单台服务器、也可以为多个服务器组成的服务器集群、还可以是云服务器等，本公开对此不做特殊限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。例如，所述的电子设备可以实现如图2所示的各个步骤等。

以下对本公开实施例的技术方案进行详细阐述：

目前，人们的手机配置越来越高，用户每个月的可用流量也是越来越多，同时免费WI-FI(在中文里又称作“行动热点”，是Wi-Fi联盟制造商的商标做为产品的品牌认证，是一个创建于IEEE 802.11标准的无线局域网技术)的广泛覆盖，在提高用户体验的同时，也可以让用户随时随地观看网络上的视频。虽然技术的进步能给用户带来较好的视频观看体验，但是在某些公共场合会产生较多不便，例如在商场时，周围的环境较嘈杂，这种情况下如果把手机音量调大的话，会影响到身边的人，视频声音也不会听的很清楚，降低了用户的使用体验。

其次，目前市面上有许多产品都支持语音识别，当用户按下语音键，对着终端自带的麦克风(或者遥控器上的麦克风)说话的时候，界面上就会实时展示出说话的内容。语音识别的动作，需要用户手动触发，用于识别的语音需要通过麦克风采集并且传输到电视上，电视端的语音识别应用采集到语音数据之后，再将语音传输到后台做语音识别，后台将识别出来的文本内容返回给电视端的应用，并且实时展示出来。这种技术方案仅能识别用户简单的语音指令，不能应用于视频内音频的智能识别，且操作复杂，识别流程较长，影响识别的效率，降低用户的使用体验。

基于上述一个或多个问题，本示例实施方式提供了一种字幕显示方法。该字幕显示方法可以应用于带有显示界面的终端，且该终端可以包括一声音采集单元，例如手机的麦克风或者电视遥控器的麦克风，本示例性实施例中对此不做特殊限定。当然，该字幕显示方法也可以应用于服务器，或由终端和服务器构成的系统中，本公开对此不做特殊限定。本示例实施例中以终端执行该方法为例进行具体说明，图2示意性示出了根据本公开的一个实施例的字幕显示方法的流程图，参考图2所示，该字幕显示方法可以包括以下步骤S210至步骤S240：

步骤S210，获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示；

步骤S220，在判定需要启动字幕显示时，获取视频数据对应的音频数据；

步骤S230，对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据；

步骤S240，在呈现所述视频数据的显示界面上显示所述字幕数据。

在本示例实施方式所提供的字幕显示方法中，一方面，在根据环境音量的强度数据判定需要启动字幕显示时，识别视频数据中的语音内容并生成字幕显示在显示界面，能够在周围环境嘈杂或者不方便时自动显示视频数据对应的字幕，优化用户在观看视频时对环境的适应性，提升用户的使用体验；另一方面，在显示界面上显示与视频数据对应的字幕数据，避免用户因听不到语音内容导致的不清楚视频内容的问题，提升用户的视频观赏体验。

下面，对于本示例实施方式的上述步骤进行更加详细的说明。

在步骤S210中，获取当前环境中的环境音量的强度数据，并根据强度数据判断是否启动字幕显示。

本示例实施方式中，环境音量可以是指用于判断是否需要启动字幕显示功能的音量数据，例如环境音量可以是终端通过遥控器或者功能键控制的媒体音量，也可以是终端所处环境的噪声音量，当然，环境音量也可以是其他用于启动字幕显示功能的音量数据，例如环境音量还可以是指用户通过终端的声音采集单元输入的音量数据，用于主动控制字幕显示功能的开关，本示例性实施例中对此不做特殊限定。强度数据可以是指介质中存在机械波时，使介质中附加的能量数据，环境音量的强度数据的单位是“分贝(dB)”，强度数据的数值越大，机械波在介质中的振幅就越大，环境音量就越大。预设条件可以是指开发人员或者用户预先设置的用于判断是否触发字幕显示功能的触发标准。

具体的，终端获取所述媒体音量的强度数据，并检测所述强度数据是否等于或低于第一预设阈值；或者获取所述噪音音量的强度数据，并检测所述强度数据是否等于或高于第二预设阈值；或者获取媒体音量的强度数据以及噪音音量的强度数据，并检测媒体音量的强度数据是否高于第一预设阈值且噪音音量的强度数据是否低于第二预设阈值，并计算噪音音量的强度数据与媒体音量的强度数据的差值数据以判断差值数据是否高于第三预设阈值。第一预设阈值可以是指开发人员或者用户预先设置的媒体音量的强度数据对应的阈值数据，例如第一预设阈值可以为0dB，具体数值可以根据实际情况或者用户设定的值而定，本示例实施例对此不做任何特殊限定。第二预设阈值可以是指开发人员或者用户预先设置的噪音音量的强度数据对应的阈值数据，例如第一预设阈值可以为40dB，具体数值可以根据实际情况或者用户设定的值而定，本示例实施例对此不做任何特殊限定。当终端检测到媒体音量的强度数据等于或低于第一预设阈值和/或噪音音量的强度数据等于或高于第二预设阈值时，启动字幕显示功能。

优选的，终端在获取媒体音量的强度数据以及噪音音量的强度数据时，如果判定媒体音量的强度数据高于第一预设阈值且噪音音量的强度数据超过第二预设阈值时，终端还需要进一步计算噪音音量的强度数据与媒体音量的强度数据的差值数据是否超过第三预设阈值。差值数据可以是指噪音音量的强度数据超过媒体音量的强度数据的数值，用于判断噪音音量是否超过媒体音量。第三预设阈值可以是指用于判定噪音音量是否掩盖媒体音量的阈值数据，例如第三阈值可以是10dB，当噪音音量与媒体音量的差值数据超过10dB时认为噪音音量掩盖了媒体音量。如果判定噪音音量超过媒体音量时，则认为噪音音量掩盖了媒体音量，此时需要启动字幕显示。例如，媒体音量为10dB(高于第一预设阈值1dB)，噪音音量为30dB(低于第二预设阈值40dB)，但是此时噪音音量与媒体音量的差值数据为20dB(高于第三预设阈值10dB)，认为噪音音量掩盖了媒体音量，需要启动字幕显示。当然，此处仅是示意性说明，不应对本公开造成任何特殊限定。且本示例实施例中的第一预设阈值，第二预设阈值以及第三预设阈值可以根据实际情况进行设定，或者用户自定义设置，本公开对此不做特殊限定。

举例而言，终端根据用户输入的数据(例如通过电视的遥控器或者手机的功能键输入的媒体音量)或者相关接口获取终端当前通过播放器播放的的媒体音量。终端判断媒体音量的强度数据是否等于或低于预设阈值(例如媒体音量为1dB或者低于1dB)以便于确定是否需要触发字幕显示功能；同样地，终端根据声音采集单元获取当前所处环境中的噪音音量，并判断所处环境的噪音音量的强度数据是否等于或高于预设阈值(例如噪音音量为40dB或者超过40dB)以便于确定是否触发字幕显示功能；当然，终端还可以根据媒体音量以及噪音音量共同判断是否触发字幕显示功能，本示例性实施例中对此不做特殊限定。

在步骤S220中，在判定需要启动字幕显示时，获取视频数据对应的音频数据。

本示例实施方式中，根据环境音量的强度数据判断是否需要启动字幕显示可以是媒体音量的强度数据等于或低于第一预设阈值，也可以是噪音音量的强度数据等于或高于第二预设阈值，当然还可以是媒体音量的强度数据高于媒体音量的预设阈值，但是噪音音量的强度数据高于噪音音量的预设阈值；或者噪音音量的强度数据低于噪音音量的预设阈值，但是媒体音量的强度数据低于媒体音量的预设阈值，终端启动字幕显示功能，本示例性实施例中对此不做特殊限定。视频数据可以是指在终端上播放的、包含语音内容的动态影像，例如视频数据可以是以MPEG/MPG/DAT、AVI、WMV、MP4、RMVB、FLV等数据存储格式的动态影像。音频数据可以是指视频数据中包含的角色人物的语音内容。

需要说明的是，本公开中的术语“第一”、“第二”等，仅是为了说明本公开中媒体音量以及噪音音量的强度数据对应不同的预设阈值，并不应对本公开造成任何限制。

具体的，终端在判定需要启动字幕显示时，通过目标位置处的音频回调接口获取视频数据对应的音频数据。目标位置可以是指终端中用于播放视频数据中的音频数据的硬件或者外接接口，例如目标位置可以是终端的播放器，也可以是终端中连接外部播放器的外接接口，本示例实施例对此不做任何特殊限定。音频回调接口可以是指用于在终端的相关播放单元(例如播放器或者外接接口等)抓取音频数据的接口，例如音频回调接口可以是Loopback接口(Loopback Address，本地环回接口或者本地环回地址)，当然，此处仅是示意性说明，本示例实施例对此不做任何特殊限定。

在步骤S230中，对音频数据进行语音识别处理，生成视频数据对应的字幕数据。

本示例实施方式中，语音识别处理可以是指通过语音识别技术(AutomaticSpeech Recognition，自动语音识别，ASR)处理音频数据。通过语音识别技术能够将音频回调接口抓取的音频数据转换为用户可以识别的文字，例如汉字、英文等，文字的类型或者种类可以根据用户的设置而定，本示例实施例对此不做任何特殊限定。字幕数据可以是指根据语音识别处理生成的文本内容制作的字幕文件，该字幕文件可以显示到终端的用于呈现视频数据的上层且与视频数据的内容一一对应。

进一步的，终端对音频数据进行语音活性检测处理以过滤音频数据中的非语音数据；将过滤后的音频数据进行语音识别处理，生成视频数据对应的字幕数据。语音活性检测处理可以是指通过语音活性检测技术(Voice activity detection，VAD)对音频回调接口抓取的音频数据进行过滤的处理过程，例如过滤视频数据中的汽车鸣笛声、风雨声以及背景噪声等声音数据。将过滤后的音频数据发送到对应的识别接口进行语音识别处理，转化成对应的文本内容，并将文本内容处理生成对应的字幕数据。仅将检测到的人声语音数据送往后台的识别接口进行语音识别，能够减少不必要的网络资源消耗，优化终端的系统性能，提升终端的工作效率。

在步骤S240中，在呈现视频数据的显示界面上显示字幕数据。

本示例实施方式中，呈现视频数据的显示界面即终端的显示界面，在终端的显示界面上播放视频数据，并通过终端中播放单元的音频回调接口将视频数据对应的音频数据进行抓取，经过过滤后进行语音识别生成对应的字幕数据，终端将生成的字幕数据发送到正在呈现视频数据的显示界面的上层进行展示。

具体的，终端获取单位时间内视频数据对应的字幕数据，字幕数据可以包括与视频数据同步的时间信息；根据时间信息在呈现视频数据的显示界面上显示字幕数据以使字幕数据与视频数据进行同步显示。时间信息可以是指根据视频数据的时间戳确定的字幕数据对应的时间戳，该时间信息可以与视频数据的时间戳相对应。获取单位时间内(例如单位时间可以是1s)视频数据对应的字幕数据可以认为是获取预设时间段内视频数据对应的音频数据，并及时将该音频数据进行语音识别生成字幕数据并显示在显示界面上，即字幕数据中的每个字与视频数据中的语音内容一一对应。

图3示意性示出了根据本公开的一个实施例的终端执行字幕显示过程的示意图。

步骤S301，通过显示界面播放视频数据；

步骤S302，判断字幕显示功能是否开启(字幕显示功能可以默认开启，当然，用户也可以通过相关操作进行设置，本示例实施例对此不做任何特殊限定)；当判定字幕显示功能打开时执行步骤S303，否则执行步骤S310；

步骤S303，通过预先设置的相关接口获取并判断当前媒体音量的强度数据，当判定媒体音量的强度数据等于或小于第一预设阈值时(例如第一预设阈值为1，具体数值可以根据实际情况或者用户的设置而定，本示例实施例对此不做任何特殊限定)执行步骤S307；当判定媒体音量的强度数据等于或高于第一预设阈值时执行步骤S304；

步骤S304，开启麦克风(声音采集单元)，并判断麦克风是否接收到声音数据，当判定麦克风接收到声音数据时执行步骤S305；否则执行步骤S310；

步骤S305，通过麦克风实时监测周围环境的声音强度数据以判断周围环境的噪音音量大小；

步骤S306，判断监测到的噪音音量的强度数据是否等于或高于第二预设阈值(例如第二预设阈值为40dB，具体数值可以根据实际情况或者用户的设置而定，本示例实施例对此不做任何特殊限定)，当判定噪音音量的强度数据等于或高于第二预设阈值执行步骤S307；否则执行步骤S310；

步骤S307，通过目标位置处(例如终端的播放器)的音频回调接口抓取视频数据对应的音频数据；

步骤S308，将音频回调接口抓取的音频数据进行语音活性检测处理，过滤音频数据中的非语音数据；将过滤后的音频数据进行语音识别处理生成对应的字幕数据；

步骤S309，将得到的字幕数据在播放视频数据的显示界面的上层进行实时显示，使字幕数据与视频数据同步显示；

步骤S310，响应于判定不需要做任何处理，结束流程。

图4示意性示出了根据本公开的一个实施例中显示单位时间内视频数据对应字幕数据的示意图，参考图4所示，终端获取视频数据对应的音频数据“内部优惠价的话……”，并及时将该音频数据进行语音识别生成字幕数据并显示在显示界面上；易于想到的，当视频数据对应的音频数据为“内部……”，显示在显示界面上的字幕数据为“内部”，即字幕数据中的每个字词与视频数据中的语音内容一一对应。当然，此处仅是对本示例实施例进行示意性说明，不应对本公开造成任何特殊限定。

图5示意性示出了根据本公开的一个实施例的字幕显示方法中信息交互的示意图。

参考图5所示，步骤501，在播放器处注册音频回调接口；步骤502，在语音模块处注册音频回调触发接口；步骤503，初始化字幕管理器，并在字幕管理器处注册音频回调触发接口；步骤504，在语音模块处注册文本回调接口；步骤505，判断媒体音量的强度数据；步骤506，当判定媒体音量的强度数据为0或者低于或等于第一预设阈值时，通过音频回调触发接口触发音频回调；步骤507，当判定媒体音量的强度数据不为0或者高于第一预设阈值时，通过终端的声音采集单元检测终端周围环境的噪音音量的强度数据；步骤508，当判定噪音音量的强度数据高于第二预设阈值时，通过音频回调触发接口触发音频回调；步骤509，通过播放器的音频回调接口抓取视频数据对应的音频数据；步骤510，对抓取的音频数据进行语音活性检测处理以过滤音频数据中的非语音数据；步骤511，将过滤后的音频数据进行语音识别处理生成音频数据对应的文本内容；步骤512，将识别的文本内容返回；步骤513，通过文本回调接口将识别的文本内容发送到字幕管理器并生成字幕数据；步骤514，将字幕数据在显示视频数据的显示界面上层进行显示，且字幕数据与视频数据同步展示。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中，还提供了一种字幕显示装置。该字幕显示装置可以应用于一带有显示界面的终端。图6示意性示出了根据本公开的一个实施例的字幕显示装置的框图，参考图6所示，该字幕显示装置600可以包括音量强度检测单元610、音频数据获取单元620、字幕数据生成单元630以及字幕数据显示单元640。其中：

音量强度检测单元610用于获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示；

音频数据获取单元620用于在判定需要启动字幕显示时，获取视频数据对应的音频数据；

字幕数据生成单元630用于对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据；

字幕数据显示单元640用于在呈现所述视频数据的显示界面上显示所述字幕数据。

在本公开的一种示例性实施例中，所述字幕数据生成单元630被配置为：对所述音频数据进行语音活性检测处理以过滤所述音频数据中的非语音数据；将过滤后的所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据。

在本公开的一种示例性实施例中，所述音频数据获取单元620被配置为：在判定需要启动字幕显示时，通过目标位置处的音频回调接口获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音量强度检测单元610被配置为：获取所述媒体音量的强度数据，并检测所述强度数据是否等于或低于第一预设阈值；或者获取所述噪音音量的强度数据，并检测所述强度数据是否等于或高于第二预设阈值，或者获取所述媒体音量的强度数据以及所述噪音音量的强度数据，并检测所述媒体音量的强度数据是否高于第一预设阈值且所述噪音音量的强度数据是否低于第二预设阈值，并计算所述噪音音量的强度数据与所述媒体音量的强度数据的差值数据以判断所述差值数据是否高于第三预设阈值。

在本公开的一种示例性实施例中，所述音频数据获取单元620被配置为：如果所述强度数据等于或低于第一预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音频数据获取单元620还被配置为：如果所述强度数据等于或高于第二预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述音频数据获取单元620还被配置为：如果所述媒体音量的强度数据高于第一预设阈值且所述噪音音量的强度数据低于第二预设阈值，且所述差值数据高于第三预设阈值，则判定需要启动字幕显示并获取视频数据对应的音频数据。

在本公开的一种示例性实施例中，所述字幕数据显示单元640被配置为：获取单位时间内所述视频数据对应的字幕数据；所述字幕数据包括与所述视频数据同步的时间信息；根据所述时间信息在呈现所述视频数据的显示界面上显示所述字幕数据以使所述字幕数据与所述视频数据进行同步显示。

上述字幕显示装置中各模块或单元的具体细节已经在对应的字幕显示方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

参考图7所示，为本公开示例性实施例中所提供的字幕显示方法的一种场景示意图。其中，字幕显示装置具体可以集成在平板电脑、手机、智能电视机、笔记本电脑或者台式电脑等具备储存单元并安装有微处理器而具有运算能力的终端702中，该终端702可以用于接收用户701输入的播放视频数据的指令。终端702基于播放视频数据的指令，在显示界面显示视频数据，并通过声音采集单元703获取环境中的噪音数据。当终端702的媒体音量的强度数据等于或低于第一预设阈值，或者当终端702的媒体音量的强度数据高于第一预设阈值且声音采集单元703获取的噪音音量的强度数据高于第二预设阈值时，终端702通过音频回调接口获取播放单元处视频数据对应的音频数据。终端702根据抓取的音频数据在本地或者网络服务端进行语音活性检测以及语音识别处理，确定过滤的音频数据对应的字幕数据，并在终端702显示视频数据的显示界面上层显示字幕数据，使字幕数据与视频数据同步显示。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种字幕显示方法，其特征在于，包括：

在呈现所述视频数据的显示界面上显示所述字幕数据。

2.根据权利要求1所述的字幕显示方法，其特征在于，对所述音频数据进行语音识别处理，生成所述视频数据对应的字幕数据，还包括：

3.根据权利要求1所述的字幕显示方法，其特征在于，在判定需要启动字幕显示时，获取视频数据对应的音频数据，包括：

在判定启动字幕显示时，通过目标位置处的音频回调接口获取视频数据对应的音频数据。

4.根据权利要求1所述的字幕显示方法，其特征在于，所述环境音量包括媒体音量和/或噪音音量。

5.根据权利要求4所述的字幕显示方法，其特征在于，所述获取当前环境中的环境音量的强度数据，并根据所述强度数据判断是否需要启动字幕显示，包括：

6.根据权利要求5所述的字幕显示方法，其特征在于，所述在判定需要启动字幕显示时，获取视频数据对应的音频数据，包括：

7.根据权利要求5所述的字幕显示方法，其特征在于，所述在判定需要启动字幕显示时，获取视频数据对应的音频数据，包括：

8.根据权利要求5所述的字幕显示方法，其特征在于，所述在判定需要启动字幕显示时，获取视频数据对应的音频数据，包括：

9.根据权利要求1所述的字幕显示方法，其特征在于，在呈现所述视频数据的显示界面上显示所述字幕数据，包括：

根据所述时间信息在呈现所述视频数据的显示界面上显示所述字幕数据，以使所述字幕数据与所述视频数据进行同步显示。

10.一种字幕显示装置，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的字幕显示方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任一项所述的字幕显示方法。