CN112511910A

CN112511910A - 实时字幕的处理方法和装置

Info

Publication number: CN112511910A
Application number: CN202011321714.4A
Authority: CN
Inventors: 贺志龙; 吴林锋
Original assignee: Inspur Tianyuan Communication Information System Co Ltd
Current assignee: Inspur Tianyuan Communication Information System Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-03-16

Abstract

本发明提供了一种实时字幕的处理方法和装置，该方法包括：基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。本发明的方案能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

Description

实时字幕的处理方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及一种实时字幕的处理方法和装置。

背景技术

在当前的视频直播技术领域中，由于视频直播场景对实时性的要求很高，往往无法提供实时字幕。随着视频直播的流行，人们对视频直播字幕的需求也越来越迫切。但是视频直播是随着事件的现场发生和进行而开展的，无法提前录制字幕，如何生成字幕并及时合成到视频直播中，这是一个无法避免的问题。

目前业界的解决方案是：将视频直播的音频流和视频流进行分离，将剥离出的音频流进行语音识别转换为文字，这样就解决了字幕的生成问题。接下来要解决的是字幕的合成问题，因为一段音频不可能全部都是主播在说话，需要识别出字幕的开始时间和结束时间，再比对原音频流的时间戳，进行同步合成。在合成的过程中，根据直播的不同场景需求，往往还需要对字幕进行各种定制化处理。

字幕的生成、合成和处理都需要时间，这些延时都将推迟整个视频直播的播出。因此实时性问题就成为一个亟待解决的问题。

发明内容

本发明实施例提供了实时字幕的处理方法和装置，能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

第一方面，本发明实施例提供了实时字幕的处理方法，包括：

基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；

基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；

基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；

根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。

在一种可能的设计中，所述根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成，包括：

根据预设的定制化处理规则对所述字幕进行处理，得到目标字幕；

将所述视频流、所述音频流和所述目标字幕进行合成。

在一种可能的设计中，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；

所述字幕过滤规则包括对所述字幕中第一目标词语进行过滤；

所述字幕替换规则包括对所述字幕中第二目标词语进行替换；

所述字幕修饰规则包括对所述字幕中第三目标词语进行修饰。

在一种可能的设计中，所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理，包括：

基于WebSocket协议将除所述起始时间戳外的音频流进行数据转换，得到第一音频数据，其中，所述数据转换包括数据大小转换和数据格式转换；

将所述第一音频数据按照按照预设的编码类型进行编码，得到第二音频数据；

将所述第二音频数据输入到内存队列中；

基于WebSocket协议将位于所述内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。

第二方面，本发明实施例提供了实时字幕的处理装置，包括：

获取模块，用于基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；

发送模块，用于基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；

接收模块，用于基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；

合成模块，用于根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。

在一种可能的设计中，所述合成模块，用于执行如下操作：

将所述视频流、所述音频流和所述目标字幕进行合成。

在一种可能的设计中，所述发送模块，用于执行如下操作：

将所述第二音频数据输入到内存队列中；

第三方面，本发明实施例提供了实时字幕的处理装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述所述的方法。

第四方面，本发明实施例提供了计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述所述的方法。

由上述方案可知，本发明提供的实时字幕的处理方法和装置，基于WebSocket协议获取实时采集的视频流和音频流，其中，音频流携带有起始时间戳；基于WebSocket协议将音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由语音识别器发来的与音频流对应的字幕，其中，字幕携带有字幕的时间轴，时间轴包括字幕相对于起始时间戳的起始时间和结束时间；根据起始时间戳和时间轴，将视频流、音频流和字幕进行合成。由于通过WebSocket协议分别建立起获取音频流、发送音频流和接收与音频流对应的字幕的连接，如此可以实时将获取的音频流转换为字幕，从而能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的实时字幕的处理方法的流程图；

图2是本发明一个实施例提供的实时字幕的处理装置所在设备的示意图；

图3是本发明一个实施例提供的实时字幕的处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例提供的实时字幕的处理方法的流程图。如图1所示，该方法可以包括以下步骤：

步骤101、基于WebSocket协议获取实时采集的视频流和音频流。

在本步骤中，音频流携带有起始时间戳。

在具体实现中，可以采用一多媒体处理服务器，基于WebSocket协议(一种长连接)的形式，持续地获取实时采集的视频流和音频流。其中，视频流可以为实时采集的视频流式媒体，音频流可以为实时采集的音频流式媒体。

在本发明实施例中，上述多媒体处理服务器可以从一预设的采集客户端，获取视频流和音频流。在一种具体实现方式中，采集客户端可以分别与视频采集设备和音频采集设备连接，以获取视频采集设备和音频采集设备发发送至采集客户端的视频流和音频流。在另一种具体实现方式中，采集客户端也可以自身设置有视频采集设备和音频采集设备，以调用视频采集设备和音频采集设备，来获取视频流和音频流。在一些实施方式中，采集客户端可以为台式电脑、笔记本电脑等，视频采集设备可以为摄像机，音频采集设备可以为麦克风，采集客户端与摄像机和麦克风连接，以获取摄像机实时采集的视频流和麦克风实时采集的音频流。

步骤102、基于WebSocket协议将音频流发送给外部的语音识别器进行语音识别处理。

在本步骤中，外部的语音识别器以采用预设的语音识别模型，实现对音频流的语音识别处理。在一些实施方式中，该语音识别模型可以为隐马尔科夫模型、N-gram语言模型和深度学习神经网络等，在此本发明对此不做限制。

在具体实现时，该步骤包括：

基于WebSocket协议将除起始时间戳外的音频流进行数据转换，得到第一音频数据，其中，数据转换包括数据大小转换和数据格式转换；

将第一音频数据按照按照预设的编码类型进行编码，得到第二音频数据；

将第二音频数据输入到内存队列中；

基于WebSocket协议将位于内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理。

在本发明实施例中，采集的音频流的分辨率往往都比较高，处理这些数据对服务器的处理能力要求较高，同时不利于快速处理，因此有必要将这些处理进行数据转换的处理(例如采用率和位宽等转换的处理)，以使处理得到的第一音频数据能够更好地被服务器快速处理，同时也能更大程度地适应处理器所处的网络环境(即处于网络环境好的服务器的处理能力更好，反之更差)，而且这种对音频流的处理不会改变音频流的第一时间戳(即将除起始时间戳外的音频流进行数据转换)，如此有利于后续的字幕合成。此外，将第一音频数据按照预设的编码类型进行编码，以使得到的第二音频数据能够被外部的语音识别器识别；而将第二音频数据输入到内存队列中，可以防止第二音频数据可能因为服务器的系统宕机等原因而丢失。

在一些实施例中，步骤基于WebSocket协议将位于内存队列中的第二音频数据发送给外部的语音识别器进行语音识别处理，包括：

在内存队列中缓存的第二音频数据的数量达到预设的数量阈值时，基于WebSocket协议通过至少两个线程以并行的方式将从内存队列中缓存的等于预设的数量阈值的第二音频数据发送给外部的语音识别器进行语音识别处理。

在该实施例中，通过将从内存队列中缓存的等于预设的数量阈值的第二音频数据发送给外部的语音识别器进行语音识别处理，如此可以将超过预设的数量阈值的第二音频数据不再发送给外部的语音识别器进行语音识别处理，从而可以防止计算资源被耗尽；而且利用至少两个线程以并行的方式将等于预设的数量阈值的第二音频数据进行发送，如此可以提高处理第二音频数据的速度，从而有利于有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

步骤103、基于WebSocket协议接收由语音识别器发来的与音频流对应的字幕。

在本步骤中，字幕携带有字幕的时间轴，时间轴包括字幕相对于起始时间戳的起始时间和结束时间。

在具体实现中，字幕的时间轴可以包含至少一行字幕相对于起始时间戳的起始时间和结束时间，如此有利于音频流和与音频流对应的字幕保持同步。

步骤104、根据起始时间戳和时间轴，将视频流、音频流和字幕进行合成。

在本步骤中，根据起始时间戳和时间轴，可以将相互分离的视频流、音频流和字幕进行合成，得到包含视频流、音频流和字幕的合成媒体流。在具体实现中，上述多媒体处理服务器可以将视频流、音频流和字幕封装至同一文件中，从而得到合成媒体流。

例如，音频流的起始时间戳为2020年11月21日10点00分00秒，其中一行字幕的相对于起始时间戳的起始时间和结束时间分别为2分10秒和2分14秒，从而可以根据该行字幕所在的时间轴与音频流的起始时间戳，确定该行字幕在合成媒体流中出现的时刻。需要说明的是，判断不同行的字幕的依据是：不同行的字幕对应的音频流的间隔时长超过预设的间隔时长，例如0.5s。

在本发明一个实施例中，由于不同的直播场景会存在一些不利于大众接受的话语(例如脏话、听不懂的专业术语和方言、意思不完全的话语)，因此有必要对这些话语进行修正。步骤104具体包括：

根据预设的定制化处理规则对字幕进行处理，得到目标字幕；

将视频流、音频流和目标字幕进行合成。

在本发明实施例中，通过根据预设的定制化处理规则对字幕进行处理，如此可以将一些不利于大众接受的话语修正为利于大众接受的话语，从而提高了字幕的多样性，有利于提高用户体验。

在本发明一个实施例中，定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；

字幕过滤规则包括对字幕中第一目标词语进行过滤；

字幕替换规则包括对字幕中第二目标词语进行替换；

字幕修饰规则包括对字幕中第三目标词语进行修饰。

在本发明实施例中，例如一些不利于大众接受的话语包括脏话，那么可以利用字幕过滤规则对字幕中第一目标词语(即脏话)进行过滤；再例如一些不利于大众接受的话语包括听不懂的专业术语和方言，那么可以利用字幕替换规则对字幕中第二目标词语(即听不懂的专业术语和方言)进行替换；再例如一些不利于大众接受的话语包括意思不完全的话语，那么可以利用字幕修饰规则对字幕中第三目标词语(即意思不完全的话语)进行修饰。

在本发明实施例中，本发明提供的实时字幕的处理方法通过基于WebSocket协议获取实时采集的视频流和音频流，其中，音频流携带有起始时间戳；基于WebSocket协议将音频流发送给外部的语音识别器进行语音识别处理；基于WebSocket协议接收由语音识别器发来的与音频流对应的字幕，其中，字幕携带有字幕的时间轴，时间轴包括字幕相对于起始时间戳的起始时间和结束时间；根据起始时间戳和时间轴，将视频流、音频流和字幕进行合成。由于通过WebSocket协议分别建立起获取音频流、发送音频流和接收与音频流对应的字幕的连接，如此可以实时将获取的音频流转换为字幕，从而能够有效降低字幕的生成、合成和处理的延时，保证视频直播的实时性。

如图2和图3所示，本发明实施例提供了一种实时字幕的处理装置所在的设备和实时字幕的处理装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言，如图2所示，为本发明实施例提供的实时字幕的处理装置所在设备的一种硬件结构图，除了图2所示的处理器、内存、网络接口、和非易失性存储器之外，实施例中装置所在的设备通常还可以包括其他硬件，如负责处理报文的转发芯片等等。以软件实现为例，如图3所示，作为一个逻辑意义上的装置，是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。

如图3所示，本实施例提供的实时字幕的处理装置，包括：

获取模块301，用于基于WebSocket协议获取实时采集的视频流和音频流，其中，所述视频流和所述音频流均携带有起始时间戳；

发送模块302，用于基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理；

接收模块303，用于基于WebSocket协议接收由所述语音识别器发来的与所述音频流对应的字幕，其中，所述字幕携带有所述字幕的时间轴，所述时间轴包括所述字幕相对于所述起始时间戳的起始时间和结束时间；

合成模块304，用于根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成。

在本发明实施例中，获取模块301可用于执行上述方法实施例中的步骤101，发送模块302可用于执行上述方法实施例中的步骤102，接收模块303可用于执行上述方法实施例中的步骤103，合成模块304可用于执行上述方法实施例中的步骤104。

在本发明的一个实施例中，所述合成模块304，用于执行如下操作：

将所述视频流、所述音频流和所述目标字幕进行合成。

在本发明的一个实施例中，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；

在本发明的一个实施例中，所述发送模块302，用于执行如下操作：

将所述第二音频数据输入到内存队列中；

可以理解的是，本发明实施例示意的结构并不构成对实时字幕的处理装置的具体限定。在本发明的另一些实施例中，实时字幕的处理装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各模块之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例还提供了一种实时字幕的处理装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行本发明任一实施例中的实时字幕的处理方法。

本发明实施例还提供了一种计算机可读介质，存储用于使一计算机执行如本文所述的实时字幕的处理方法的指令。具体地，可以提供配有存储介质的方法或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该方法或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作方法等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.实时字幕的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述起始时间戳和所述时间轴，将所述视频流、所述音频流和所述字幕进行合成，包括：

将所述视频流、所述音频流和所述目标字幕进行合成。

3.根据权利要求2所述的方法，其特征在于，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于WebSocket协议将所述音频流发送给外部的语音识别器进行语音识别处理，包括：

将所述第二音频数据输入到内存队列中；

5.实时字幕的处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述合成模块，用于执行如下操作：

将所述视频流、所述音频流和所述目标字幕进行合成。

7.根据权利要求6所述的装置，其特征在于，所述定制化处理规则，包括：字幕过滤规则、字幕替换规则和/或字幕修饰规则；

8.根据权利要求5-7中任一项所述的装置，其特征在于，所述发送模块，用于执行如下操作：

将所述第二音频数据输入到内存队列中；

9.实时字幕的处理装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至4中任一项所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至4中任一项所述的方法。