CN111107284B

CN111107284B - 一种视频字幕实时生成系统及生成方法

Info

Publication number: CN111107284B
Application number: CN201911422039.1A
Authority: CN
Inventors: 宁乐飞; 陈天萍; 陈文杰; 蔡佳良; 阚小优
Original assignee: Luoyang Lexiang Network Technology Co ltd
Current assignee: Luoyang Lexiang Network Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-09-06
Anticipated expiration: 2039-12-31
Also published as: CN111107284A

Abstract

一种视频字幕实时生成系统，包括：声音静默采集装置，与视频播放设备电性连接，用于从视频播放设备获取声音原始电信号；前端处理装置，与所述声音静默采集装置和视频播放设备均电性连接，用于对声音原始电信号进行处理生成声音压缩电信号；远端服务器，与所述前端处理装置电性连接，用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。本发明提供一种视频字幕实时生成系统及生成方法，能够快速生成字幕并且实时显示。

Description

一种视频字幕实时生成系统及生成方法

技术领域

本发明涉及视频播放技术领域，具体的说是一种视频字幕实时生成系统及生成方法。

背景技术

听障人面临语音信息获取障碍和传递障碍，因此在信息接收和传输过程中存在困难。作为信息传递的重要媒介，视频在人们生活中具有很重要的地位，但是视频中重要信息也多是语音传达，在这样的情况下听障人很难获取有效视频信息，而听障人呼吁的视频添加字幕，由于各种各样的原因一直没能在视频中直接添加。

随着语音识别技术的快速发展，利用语音识别技术实时生成字幕成为了可能。遗憾的是，语音识别技术虽然可以让语音快速转换为文字，但是语音识别技术只针对说话的语音进行转换，且语音要求原始的16000HZ，16bit的PCM格式或者特定的语音格式，通常使用时一般现场录音现场识别或者是录音后对音频文件解码进行识别。这种处理技术只涉及语音音频或者音频流。而视频播放时都是一种编码形成的格式流，是视频格式的码流和音频的码流聚合而成的新流，这种视频格式的流需要解码才能使用。

在这样的情况下，要想在对视频进行字幕输出，需要对视频进行解码处理，然后再分离出音频流，然后再对音频流进行语音前后端处理，处理后才能语音转文字，生成字幕，流程非常多，也非直接对视频中音频流进行处理。

发明内容

为了解决现有技术中的不足，本发明提供一种视频字幕实时生成系统及生成方法，能够快速生成字幕并且实时显示。

为了实现上述目的，本发明采用的具体方案为：一种视频字幕实时生成系统，包括：声音静默采集装置，与视频播放设备电性连接，用于从视频播放设备获取声音原始电信号；前端处理装置，与所述声音静默采集装置和视频播放设备均电性连接，用于对声音原始电信号进行处理生成声音压缩电信号；远端服务器，与所述前端处理装置电性连接，用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。

作为一种优选方案，所述前端处理装置包括电性连接的核心处理器和通信模块，其中核心处理器与所述声音静默采集装置电性连接，通信模块与所述远端服务器电性连接。

一种视频字幕实时生成系统的生成方法，包括如下步骤：

S1、判断所述声音静默采集装置的状态，若声音静默采集装置就绪，则执行S2，否则结束；

S2、启动视频播放设备并且播放视频；

S3、声音静默采集装置从视频播放设备获取声音原始电信号，并且将声音原始电信号发送给所述前端处理装置；

S4、前端处理装置依次对声音原始电信号进行抽样、前处理和重采样得到声音压缩电信号，并且将声音压缩电信号发送给所述远端服务器；

S5、远端服务器对声音压缩电信号进行识别得到字幕数据，并且将字幕数据发送给前端处理装置；

S6、前端处理装置将字幕数据发送给视频播放设备；

S7、视频播放设备在视频字幕区显示字幕数据。

作为一种优选方案，S1的具体方法为：

S1.1、检测所述声音静默采集装置与视频播放设备的连接状态，若连接正常则执行S1.2，否则直接结束；

S1.2、检测声音静默采集装置的运行状况，若运行正常则执行S2，否则直接结束。

作为一种优选方案，S3中，所述声音静默采集装置每经过40ms向所述前端处理装置发送一次声音原始电信号并且清空缓存。

作为一种优选方案，S4中，抽样的具体方法为：

S4.11、将声音原始电信号分解为若干个连续的数据元，每N个数据元组成一组，每组数据元中抽取一个作为样本集；

S4.12，将样本集转化为时域连续信号，每N个信号为一组，每组信号中抽取一个作为初始样本D；

S4.13、计算除了初始样本D之外其余(N-1)个信号的绝对值之和SUM，并且计算D＝SUM/(N-1)；

S4.14、若|D|≥D，则用|D|替换其余(N-1)个信号，否则用D替换其余(N-1)个信号；

S4.15、重复执行S4.11至S4.14直到将声音原始电信号处理完毕得到声音一次电信号。

作为一种优选方案，S4中，在执行S4.11之前对声音原始电信号进行抗混叠滤波处理。

作为一种优选方案，S4中，前处理的具体方法为：

S4.21、按照20ms为一帧的方式将声音一次电信号分解为若干帧数据；

S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理；

S4.23、利用低通滤波算法对平滑处理后的数据进行抗混叠滤波处理。

S4中，重采样后的频率为16000HZ、量化位数为16bit。

有益效果：

1、本发明无需进行复杂的视频解码算法，极大加速视频字幕的实时生成速度，能够快速生成字幕，从而保障听障人视频观看时实时同屏得到视频字幕信息；

2、本发明采用静默采集的方式，能够适用于任意视频格式和播放器，适用范围更广；

3、本发明无需视频声音外放，可以减少对外界环境的干扰。

附图说明

图1是生成系统的结构框图；

图2是前端处理装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1和2，一种视频字幕实时生成系统，包括声音静默采集装置、前端处理装置和远端服务器。

声音静默采集装置，与视频播放设备电性连接，用于从视频播放设备获取声音原始电信号。

前端处理装置，与声音静默采集装置和视频播放设备均电性连接，用于对声音原始电信号进行处理生成声音压缩电信号。

远端服务器，与前端处理装置电性连接，用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。

前端处理装置包括电性连接的核心处理器和通信模块，其中核心处理器与声音静默采集装置电性连接，通信模块与远端服务器电性连接。

本系统在使用时，利用声音静默采集装置获取声音原始电信号，然后通过前端处理装置处理后发送给远端服务器，远端服务器借助于自身的高性能进行语音识别得到字幕数据，然后将字幕数据发送给前端控制装置，前端控制装置再通过视频播放设备播放字幕数据，实现实时为视频添加字幕的目的，以方便听障人观看视频，从视频中获取信息。

需要说明的是，在本发明中，声音静默采集装置是指不需要通过录音就能够采集声音信息的装置，即并不需要视频声音外放即可顺利采集，因此成为静默采集。对于不同的视频播放设备来说，声音静默采集装置可以有不同的选择，例如对于普通计算机来说，声音静默采集装置可以采用全双工声卡，利用全双工声卡所具有的内录功能实现，当然也可以采用外置声卡的方式；前端处理装置则可以直接利用计算机的处理器；最终显示字幕的方法可以采用音乐播放器常采用的桌面歌词的方式。均是本领域的现有技术，在此不在赘述。

因为本发明采用了静默采集的方式，所以采集到的声音信息是没有经过编码的原始电信号，避开了复杂的视频解码过程，从而大幅度地提高了本发明的字幕数据生成速度，进而提升了使用体验。

基于上述系统，本发明还提供一种视频字幕实时生成系统的生成方法，包括S1至S7。

S1、判断声音静默采集装置的状态，若声音静默采集装置就绪，则执行S2，否则结束。S1的具体方法为S1.1至S1.2。

S1.1、检测声音静默采集装置与视频播放设备的连接状态，若连接正常则执行S1.2，否则直接结束。

因为声音静默采集装置是本发明的核心装置，若声音静默采集装置无法工作则完全无法运行，因此首先需要确定声音静默采集装置的状态。

S2、启动视频播放设备并且播放视频。

S3、声音静默采集装置从视频播放设备获取声音原始电信号，并且将声音原始电信号发送给前端处理装置。S3中，声音静默采集装置每经过40ms向前端处理装置发送一次声音原始电信号并且清空缓存。

S4、前端处理装置依次对声音原始电信号进行抽样、前处理和重采样得到声音压缩电信号，并且将声音压缩电信号发送给远端服务器。

S4中，抽样的具体方法为S4.11至S4.15。

S4.11、将声音原始电信号分解为若干个连续的数据元，每N个数据元组成一组，每组数据元中抽取一个作为样本集。

S4.12，将样本集转化为时域连续信号，每N个信号为一组，每组信号中抽取一个作为初始样本D。

S4.13、计算除了初始样本D之外其余(N-1)个信号的绝对值之和SUM，并且计算D＝SUM/(N-1)。

S4.14、若|D|≥D，则用|D|替换其余(N-1)个信号，否则用D替换其余(N-1)个信号。

如果对采集到的数据进行完整处理的话数据量过大，会大幅延长字幕生成耗时，因此需要进行抽样以降低数据量，在本实施例中采用优化的内插值抽样算法，因为普通的插值抽样算法选择在声音数据的边界点进行抽样，造成波形失真严重，语音识别准确率下降，不宜直接使用，因此本发明进行了优化，增加了样本数量并且通过求取均值的方法保证了失真情况在可控范围内，同时又降低了算法复杂度和字幕生成耗时。

进一步的，S4中，在执行S4.11之前对声音原始电信号进行抗混叠滤波处理，进一步降低波形失真，提升语音识别正确率。抗混叠滤波处理可以采用通用低通滤波器实现，也可以由前端处理装置通过低通滤波算法实现。

S4中，前处理的具体方法为S4.21至S4.23。

S4.21、按照20ms为一帧的方式将声音一次电信号分解为若干帧数据。

S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理。

前处理过程可以利用基于汉明或者汉宁窗函数的FIR低通滤波器实现，

S4中，重采样后的频率为16000HZ、量化位数为16bit。重采样算法可以利用现有技术中的算法，例如基于频域快速傅里叶变换FFT的音频重采样算法、基于SPEEX重采样算法或者基于FFTW的重采样算法等等。

S5、远端服务器对声音压缩电信号进行识别得到字幕数据，并且将字幕数据发送给前端处理装置。具体的识别方法可以利用现有的第三方识别软件实现，例如讯飞语音识别软件。

S6、前端处理装置将字幕数据发送给视频播放设备。

S7、视频播放设备在视频字幕区显示字幕数据。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频字幕实时生成方法，基于一种视频字幕实时生成系统，系统包括：

声音静默采集装置，与视频播放设备电性连接，用于从视频播放设备获取声音原始电信号；

前端处理装置，与所述声音静默采集装置和视频播放设备均电性连接，用于对声音原始电信号进行处理生成声音压缩电信号；

远端服务器，与所述前端处理装置电性连接，用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备；

其特征在于，所述方法包括如下步骤：

S2、启动视频播放设备并且播放视频；

S3、声音静默采集装置通过内录方式从视频播放设备获取声音原始电信号，并且将声音原始电信号发送给所述前端处理装置；

S4中，抽样的具体方法为：

S4.12，将样本集转化为时域信号，每N个信号为一组，每组信号中抽取一个作为初始样本D；

S4.15、重复执行S4.11至S4.14直到将声音原始电信号处理完毕得到声音一次电信号；

S6、前端处理装置将字幕数据发送给视频播放设备；

S7、视频播放设备在视频字幕区显示字幕数据。

2.如权利要求1所述的方法，其特征在于，所述前端处理装置包括电性连接的核心处理器和通信模块，其中核心处理器与所述声音静默采集装置电性连接，通信模块与所述远端服务器电性连接。

3.如权利要求1所述方法，其特征在于，S1的具体方法为：

4.如权利要求1所述方法，其特征在于，S3中，所述声音静默采集装置每经过40ms向所述前端处理装置发送一次声音原始电信号并且清空缓存。

5.如权利要求4所述方法，其特征在于，S4中，在执行S4.11之前对声音原始电信号进行抗混叠滤波处理。

6.如权利要求4所述方法，其特征在于，S4中，前处理的具体方法为：

S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理；

7.如权利要求1所述方法，其特征在于，S4中，重采样后的频率为16000HZ、量化位数为16bit。