CN109525787B

CN109525787B - 面向直播场景的实时字幕翻译及系统实现方法

Info

Publication number: CN109525787B
Application number: CN201811523195.2A
Authority: CN
Inventors: 张晖; 丁一全
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Transn Iol Technology Co ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2021-03-16
Anticipated expiration: 2038-12-13
Also published as: CN109525787A

Abstract

本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法，包括如下步骤：S1、使用训练数据集训练深度卷积神经网络；S2、对输入的每帧语音进行傅里叶变换，将时间和频率作为图像的两个维度，获取输入的语音信号的语谱图；S3、将获取的语谱图输入已经训练好的深度卷积神经网络，得到与语音信号相对应的文本数据；S4、将所述文本数据实时显示在屏幕上。本发明能够对每个人的讲话进行实时翻译，并及时显示在屏幕上，从而有效地提升了转写的效率，为观众带来了更为优异的用户体验。

Description

面向直播场景的实时字幕翻译及系统实现方法

技术领域

本发明涉及一种依托于计算机技术的实时翻译方法，具体而言，涉及一种面向直播场景的实时字幕翻译及系统实现方法，属于深度学习技术领域。

背景技术

近年来，网络直播行业及其相关技术的发展极为迅速，各种直播平台层出不穷，直播内容也日渐丰富，不仅有各类主题的个人直播，同时，以直播形式进行的会议及网络课程也陆续出现。正是基于这样的行业发展趋势，现如今，在各类直播平台中，对直播者的话语进行实时翻译显示的需求也愈来愈强烈。

目前，也出现了一些语音识别显示的技术方案，例如双向LSTM(Long Short-TermMemory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)等技术，但在实际的应用过程中，人们发现，这些技术仍然存在着诸多不足之处。具体而言，双向LSTM技术虽然能够对语音长时相关性进行建模，但由于需要完整的序列才能进行语音识别，时延很高，很难适用于直播平台的实时翻译。CNN技术在2012年左右就被应用于语音识别中，但由于其使用固定长度的帧拼接作为输入，无法看到足够长的语音上下文信息，且将CNN作为一种特征提取器，所用的卷积层很少表达能力有限，因此其对于直播平台的实时翻译也很难适用。

综上所述，如何在现有技术的基础上提出一种面向直播场景的实时字幕翻译及系统实现方法，将直播者的话语实时翻译显示到屏幕上，也就成为了本领域内技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种面向直播场景的实时字幕翻译及系统实现方法，包括如下步骤：

S1、使用训练数据集训练深度卷积神经网络；

S2、对输入的每帧语音进行傅里叶变换，将时间和频率作为图像的两个维度，获取输入的语音信号的语谱图；

S3、将获取的语谱图输入已经训练好的深度卷积神经网络，得到与语音信号相对应的文本数据；

S4、将所述文本数据实时显示在屏幕上。

优选地，S1具体包括如下步骤：

S11、使用训练数据集对深度卷积神经网络进行训练，得到训练后的深度卷积神经网络；

S12、使用梯度下降法来优化所有参数以减少代价函数；

S13、使用梯度下降法进行训练，更新网络所有层的所有权重。

优选地，所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。

优选地，S2具体包括如下步骤：

S21、对一段语音信号x(t)，对其进行分帧处理，将其变为x(m,n)，其中m表示帧的个数，n表示帧长；

S22、做快速傅里叶变换，将x(m,n)转换为X(m,n)；

S23、做周期图Y(m,n)(Y(m,n)＝X(m,n)*X(m,n)’)；

S24、取10*lg(Y(m,n))，根据时间将m变换得到刻度M，根据频率将n变换得到刻度N；

S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图。

优选地，所述深度卷积神经网络使用了多个卷积层和池化层，且每两个卷积层后连接一个池化层，第一个卷积层的输出为第二个卷积层的输入，第二个卷积层的输出为池化层的输入；每个卷积层使用3*3的过滤器。

优选地，S3具体包括如下步骤：

S31、对所获取的语音信号的语谱图进行图像识别；

S32、将语谱图输入训练好的深度卷积神经网络中，利用众多卷积层和池化层，对整句语音进行建模，输出单元直接与最终的识别结果相对应、并以此作为文本数据，所述最终的识别结果为汉字。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明直接将语谱图输入已经训练好的深度卷积神经网络内，其中深度卷积神经网络使用了多个卷积层和池化层，对整句语音进行建模，最终得到文本数据并将其实时显示在屏幕上。

本发明可广泛地应用于各类直播节目中，既包括正规大会直播，又包括很多个人直播。本发明能够对每个人的讲话进行实时翻译，并及时显示在屏幕上，与现有技术中所采用的逐词进行识别转写的方式相比，有效地提升了转写的效率，解决了现有技术所存在的实时性不高的问题，为观众带来了更为优异的用户体验。

此外，本发明也为同领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸，运用于同领域内其他实时翻译及字幕显示的技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明所提供的实时字幕翻译方法的总体流程示意图；

图2为本发明所提供的语音信号转语谱图的结构框图；

图3为本发明的直播终端硬件设备框图。

具体实施方式

如图1所示，本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法，其特征在于，包括如下步骤：

S1、使用训练数据集训练深度卷积神经网络。

具体而言，S1具体包括如下步骤：

S12、使用梯度下降法来优化所有参数以减少代价函数；

所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。

S2、对输入的每帧语音进行傅里叶变换，将时间和频率作为图像的两个维度，获取输入的语音信号的语谱图。

语谱图是一种三维频谱，它是表示语音频谱随时间变化的图形，其纵轴为频率，横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息，它综合了频谱图和时域波形的特点，明显地显示出语音频谱随时间的变化情况，或者说是一种动态的频谱。图2显示了本发明提供的一种语音信号转语谱图的方法，该方法主要包括以下步骤：

S22、做快速傅里叶变换，将x(m,n)转换为X(m,n)；

S23、做周期图Y(m,n)(Y(m,n)＝X(m,n)*X(m,n)’)；

S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图。

S3、将获取的语谱图输入已经训练好的深度卷积神经网络，得到与语音信号相对应的文本数据。

本发明中所述深度卷积神经网络使用了多个卷积层和池化层，且每两个卷积层后连接一个池化层，第一个卷积层的输出为第二个卷积层的输入，第二个卷积层的输出为池化层的输入；每个卷积层使用3*3的过滤器。

具体而言，此处提供的深度卷积神经网络算法，主要包括以下步骤：

S31、对所获取的语音信号的语谱图进行图像识别；

深度卷积神经网络采用的是多个卷积层池化层对，其中每两个卷积层之后加上一个池化层，第i层卷积层的操作是i层的输入的维度为N_h ^[i-1]*N_w ^[i-1]*N_c ^[i-1]；第i层输出图像的大小为N_h ^[i]*N_w ^[i]*N_c ^[i]；

输出图像N_h ^[i]的高度：

输出图像N_w ^[i]的宽度：

其中，N_h为图片的高度，N_w为图片的宽度，N_c为通道数量，F_i表示i层过滤器的大小为F*F，P_i表示i层的填充数量，S_i为i层的标记步幅。

为了保证输出维度不变，即填充后的输入大小和输出大小是一样的，在此系统中填充方法使用的是Same卷积，而此系统每个卷积层使用3*3的过滤器，则填充尺寸为：

即填充的尺寸为1个像素，且第一个卷积层的输出为第二个卷积层的输入，第二个卷积层的输出为池化层的输入。卷积过程用公式表达出来即：

O_(i,j)＝ReLU(∑(X_k*W_k)_(i,j)+b)，

其中，O_(i,j)为过滤器对应的输出矩阵的对应位置元素的值，X_k为第k个输入矩阵，W_k为过滤器的第k个子矩阵，b为偏差。

池化层用到而池化类型为最大池化，最大池化只是计算计算神经网络某一层的静态属性，最大池化的输入就是N_h*N_w*N_c，为上一个卷积层的输出，输出为

其中，池化的超级参数F为过滤器大小，S为步幅，可以设置为F＝2，S＝2等。

S32、将语谱图输入训练好的深度卷积神经网络中，利用众多卷积层和池化层，对整句语音进行建模，输出单元直接与最终的识别结果相对应。输出单元直接为最终的识别结果即汉字，从而实现将整个语音输入，输出文本数据，减小时延。

S4、最终将所述文本数据，即翻译好的字幕实时显示在屏幕上。

本发明实施系统的硬件配置建议如图3所示，主要包括以下方面：

音频输入设备：应选用定向麦克风或会议麦克风，这些麦克风具有方向性好，啸声抑制等性能；

音频辅助设备：当会场较大时，为了获得更好的声音效果，建议配备功放，调音台等设备，以避免麦克风和音响之间产生啸叫，也可以配备专门的回音抑制设备；

视频输入设备：建议选用较高端的模拟摄像头。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种面向直播场景的实时字幕翻译及系统实现方法，其特征在于，包括如下步骤：

S1、使用训练数据集训练深度卷积神经网络；

S4、将所述文本数据实时显示在屏幕上；

S1具体包括如下步骤，

S12、使用梯度下降法来优化所有参数以减少代价函数；

S13、使用梯度下降法进行训练，更新网络所有层的所有权重；

S2具体包括如下步骤，

S22、做快速傅里叶变换，将x(m,n)转换为X(m,n)；

S23、做周期图Y(m,n)，其中Y(m,n)=X(m,n)*X(m,n)’，X(m,n)’表示对X(m,n)求转置；

S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图；

S3具体包括如下步骤，

S31、对所获取的语音信号的语谱图进行图像识别；

2.根据权利要求1所述的面向直播场景的实时字幕翻译及系统实现方法，其特征在于：所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。

3.根据权利要求1所述的面向直播场景的实时字幕翻译及系统实现方法，其特征在于：所述深度卷积神经网络使用了多个卷积层和池化层，且每两个卷积层后连接一个池化层，第一个卷积层的输出为第二个卷积层的输入，第二个卷积层的输出为池化层的输入；每个卷积层使用3*3的过滤器。