CN109525787B - 面向直播场景的实时字幕翻译及系统实现方法 - Google Patents

面向直播场景的实时字幕翻译及系统实现方法 Download PDF

Info

Publication number
CN109525787B
CN109525787B CN201811523195.2A CN201811523195A CN109525787B CN 109525787 B CN109525787 B CN 109525787B CN 201811523195 A CN201811523195 A CN 201811523195A CN 109525787 B CN109525787 B CN 109525787B
Authority
CN
China
Prior art keywords
time
neural network
spectrogram
voice signal
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811523195.2A
Other languages
English (en)
Other versions
CN109525787A (zh
Inventor
张晖
丁一全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Transn Iol Technology Co ltd
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201811523195.2A priority Critical patent/CN109525787B/zh
Publication of CN109525787A publication Critical patent/CN109525787A/zh
Application granted granted Critical
Publication of CN109525787B publication Critical patent/CN109525787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法,包括如下步骤:S1、使用训练数据集训练深度卷积神经网络;S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图;S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据;S4、将所述文本数据实时显示在屏幕上。本发明能够对每个人的讲话进行实时翻译,并及时显示在屏幕上,从而有效地提升了转写的效率,为观众带来了更为优异的用户体验。

Description

面向直播场景的实时字幕翻译及系统实现方法
技术领域
本发明涉及一种依托于计算机技术的实时翻译方法,具体而言,涉及一种面向直播场景的实时字幕翻译及系统实现方法,属于深度学习技术领域。
背景技术
近年来,网络直播行业及其相关技术的发展极为迅速,各种直播平台层出不穷,直播内容也日渐丰富,不仅有各类主题的个人直播,同时,以直播形式进行的会议及网络课程也陆续出现。正是基于这样的行业发展趋势,现如今,在各类直播平台中,对直播者的话语进行实时翻译显示的需求也愈来愈强烈。
目前,也出现了一些语音识别显示的技术方案,例如双向LSTM(Long Short-TermMemory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)等技术,但在实际的应用过程中,人们发现,这些技术仍然存在着诸多不足之处。具体而言,双向LSTM技术虽然能够对语音长时相关性进行建模,但由于需要完整的序列才能进行语音识别,时延很高,很难适用于直播平台的实时翻译。CNN技术在2012年左右就被应用于语音识别中,但由于其使用固定长度的帧拼接作为输入,无法看到足够长的语音上下文信息,且将CNN作为一种特征提取器,所用的卷积层很少表达能力有限,因此其对于直播平台的实时翻译也很难适用。
综上所述,如何在现有技术的基础上提出一种面向直播场景的实时字幕翻译及系统实现方法,将直播者的话语实时翻译显示到屏幕上,也就成为了本领域内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种面向直播场景的实时字幕翻译及系统实现方法,包括如下步骤:
S1、使用训练数据集训练深度卷积神经网络;
S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图;
S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据;
S4、将所述文本数据实时显示在屏幕上。
优选地,S1具体包括如下步骤:
S11、使用训练数据集对深度卷积神经网络进行训练,得到训练后的深度卷积神经网络;
S12、使用梯度下降法来优化所有参数以减少代价函数;
S13、使用梯度下降法进行训练,更新网络所有层的所有权重。
优选地,所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。
优选地,S2具体包括如下步骤:
S21、对一段语音信号x(t),对其进行分帧处理,将其变为x(m,n),其中m表示帧的个数,n表示帧长;
S22、做快速傅里叶变换,将x(m,n)转换为X(m,n);
S23、做周期图Y(m,n)(Y(m,n)=X(m,n)*X(m,n)’);
S24、取10*lg(Y(m,n)),根据时间将m变换得到刻度M,根据频率将n变换得到刻度N;
S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图。
优选地,所述深度卷积神经网络使用了多个卷积层和池化层,且每两个卷积层后连接一个池化层,第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为池化层的输入;每个卷积层使用3*3的过滤器。
优选地,S3具体包括如下步骤:
S31、对所获取的语音信号的语谱图进行图像识别;
S32、将语谱图输入训练好的深度卷积神经网络中,利用众多卷积层和池化层,对整句语音进行建模,输出单元直接与最终的识别结果相对应、并以此作为文本数据,所述最终的识别结果为汉字。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明直接将语谱图输入已经训练好的深度卷积神经网络内,其中深度卷积神经网络使用了多个卷积层和池化层,对整句语音进行建模,最终得到文本数据并将其实时显示在屏幕上。
本发明可广泛地应用于各类直播节目中,既包括正规大会直播,又包括很多个人直播。本发明能够对每个人的讲话进行实时翻译,并及时显示在屏幕上,与现有技术中所采用的逐词进行识别转写的方式相比,有效地提升了转写的效率,解决了现有技术所存在的实时性不高的问题,为观众带来了更为优异的用户体验。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他实时翻译及字幕显示的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明所提供的实时字幕翻译方法的总体流程示意图;
图2为本发明所提供的语音信号转语谱图的结构框图;
图3为本发明的直播终端硬件设备框图。
具体实施方式
如图1所示,本发明揭示了一种面向直播场景的实时字幕翻译及系统实现方法,其特征在于,包括如下步骤:
S1、使用训练数据集训练深度卷积神经网络。
具体而言,S1具体包括如下步骤:
S11、使用训练数据集对深度卷积神经网络进行训练,得到训练后的深度卷积神经网络;
S12、使用梯度下降法来优化所有参数以减少代价函数;
S13、使用梯度下降法进行训练,更新网络所有层的所有权重。
所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。
S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图。
语谱图是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间。任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。用语谱图分析语音又称为语谱分析。语谱图中显示了大量的与语音的语句特性有关的信息,它综合了频谱图和时域波形的特点,明显地显示出语音频谱随时间的变化情况,或者说是一种动态的频谱。图2显示了本发明提供的一种语音信号转语谱图的方法,该方法主要包括以下步骤:
S21、对一段语音信号x(t),对其进行分帧处理,将其变为x(m,n),其中m表示帧的个数,n表示帧长;
S22、做快速傅里叶变换,将x(m,n)转换为X(m,n);
S23、做周期图Y(m,n)(Y(m,n)=X(m,n)*X(m,n)’);
S24、取10*lg(Y(m,n)),根据时间将m变换得到刻度M,根据频率将n变换得到刻度N;
S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图。
S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据。
本发明中所述深度卷积神经网络使用了多个卷积层和池化层,且每两个卷积层后连接一个池化层,第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为池化层的输入;每个卷积层使用3*3的过滤器。
具体而言,此处提供的深度卷积神经网络算法,主要包括以下步骤:
S31、对所获取的语音信号的语谱图进行图像识别;
深度卷积神经网络采用的是多个卷积层池化层对,其中每两个卷积层之后加上一个池化层,第i层卷积层的操作是i层的输入的维度为Nh [i-1]*Nw [i-1]*Nc [i-1];第i层输出图像的大小为Nh [i]*Nw [i]*Nc [i]
输出图像Nh [i]的高度:
Figure BDA0001903739800000051
输出图像Nw [i]的宽度:
Figure BDA0001903739800000052
其中,Nh为图片的高度,Nw为图片的宽度,Nc为通道数量,Fi表示i层过滤器的大小为F*F,Pi表示i层的填充数量,Si为i层的标记步幅。
为了保证输出维度不变,即填充后的输入大小和输出大小是一样的,在此系统中填充方法使用的是Same卷积,而此系统每个卷积层使用3*3的过滤器,则填充尺寸为:
Figure BDA0001903739800000061
即填充的尺寸为1个像素,且第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为池化层的输入。卷积过程用公式表达出来即:
O(i,j)=ReLU(∑(Xk*Wk)(i,j)+b),
其中,O(i,j)为过滤器对应的输出矩阵的对应位置元素的值,Xk为第k个输入矩阵,Wk为过滤器的第k个子矩阵,b为偏差。
池化层用到而池化类型为最大池化,最大池化只是计算计算神经网络某一层的静态属性,最大池化的输入就是Nh*Nw*Nc,为上一个卷积层的输出,输出为
Figure BDA0001903739800000062
其中,池化的超级参数F为过滤器大小,S为步幅,可以设置为F=2,S=2等。
S32、将语谱图输入训练好的深度卷积神经网络中,利用众多卷积层和池化层,对整句语音进行建模,输出单元直接与最终的识别结果相对应。输出单元直接为最终的识别结果即汉字,从而实现将整个语音输入,输出文本数据,减小时延。
S4、最终将所述文本数据,即翻译好的字幕实时显示在屏幕上。
本发明实施系统的硬件配置建议如图3所示,主要包括以下方面:
音频输入设备:应选用定向麦克风或会议麦克风,这些麦克风具有方向性好,啸声抑制等性能;
音频辅助设备:当会场较大时,为了获得更好的声音效果,建议配备功放,调音台等设备,以避免麦克风和音响之间产生啸叫,也可以配备专门的回音抑制设备;
视频输入设备:建议选用较高端的模拟摄像头。
本发明直接将语谱图输入已经训练好的深度卷积神经网络内,其中深度卷积神经网络使用了多个卷积层和池化层,对整句语音进行建模,最终得到文本数据并将其实时显示在屏幕上。
本发明可广泛地应用于各类直播节目中,既包括正规大会直播,又包括很多个人直播。本发明能够对每个人的讲话进行实时翻译,并及时显示在屏幕上,与现有技术中所采用的逐词进行识别转写的方式相比,有效地提升了转写的效率,解决了现有技术所存在的实时性不高的问题,为观众带来了更为优异的用户体验。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他实时翻译及字幕显示的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (3)

1.一种面向直播场景的实时字幕翻译及系统实现方法,其特征在于,包括如下步骤:
S1、使用训练数据集训练深度卷积神经网络;
S2、对输入的每帧语音进行傅里叶变换,将时间和频率作为图像的两个维度,获取输入的语音信号的语谱图;
S3、将获取的语谱图输入已经训练好的深度卷积神经网络,得到与语音信号相对应的文本数据;
S4、将所述文本数据实时显示在屏幕上;
S1具体包括如下步骤,
S11、使用训练数据集对深度卷积神经网络进行训练,得到训练后的深度卷积神经网络;
S12、使用梯度下降法来优化所有参数以减少代价函数;
S13、使用梯度下降法进行训练,更新网络所有层的所有权重;
S2具体包括如下步骤,
S21、对一段语音信号x(t),对其进行分帧处理,将其变为x(m,n),其中m表示帧的个数,n表示帧长;
S22、做快速傅里叶变换,将x(m,n)转换为X(m,n);
S23、做周期图Y(m,n),其中Y(m,n)=X(m,n)*X(m,n)’,X(m,n)’表示对X(m,n)求转置;
S24、取10*lg(Y(m,n)),根据时间将m变换得到刻度M,根据频率将n变换得到刻度N;
S25、就(M,N,10lg(Y(m,n)))生成二维图或者三维图;
S3具体包括如下步骤,
S31、对所获取的语音信号的语谱图进行图像识别;
S32、将语谱图输入训练好的深度卷积神经网络中,利用众多卷积层和池化层,对整句语音进行建模,输出单元直接与最终的识别结果相对应、并以此作为文本数据,所述最终的识别结果为汉字。
2.根据权利要求1所述的面向直播场景的实时字幕翻译及系统实现方法,其特征在于:所述训练数据集包括多种语音信号的语谱图以及与所述语音信号对应的文本数据。
3.根据权利要求1所述的面向直播场景的实时字幕翻译及系统实现方法,其特征在于:所述深度卷积神经网络使用了多个卷积层和池化层,且每两个卷积层后连接一个池化层,第一个卷积层的输出为第二个卷积层的输入,第二个卷积层的输出为池化层的输入;每个卷积层使用3*3的过滤器。
CN201811523195.2A 2018-12-13 2018-12-13 面向直播场景的实时字幕翻译及系统实现方法 Active CN109525787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523195.2A CN109525787B (zh) 2018-12-13 2018-12-13 面向直播场景的实时字幕翻译及系统实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523195.2A CN109525787B (zh) 2018-12-13 2018-12-13 面向直播场景的实时字幕翻译及系统实现方法

Publications (2)

Publication Number Publication Date
CN109525787A CN109525787A (zh) 2019-03-26
CN109525787B true CN109525787B (zh) 2021-03-16

Family

ID=65795550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523195.2A Active CN109525787B (zh) 2018-12-13 2018-12-13 面向直播场景的实时字幕翻译及系统实现方法

Country Status (1)

Country Link
CN (1) CN109525787B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008927A (zh) * 2019-04-15 2019-07-12 河南大华安防科技股份有限公司 一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法
CN115938385A (zh) * 2021-08-17 2023-04-07 中移(苏州)软件技术有限公司 一种语音分离方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077336A (zh) * 2013-05-09 2014-10-01 腾讯科技(深圳)有限公司 一种拖拽音频文件进行音频文件信息检索的方法和装置
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
WO2017196931A1 (en) * 2016-05-10 2017-11-16 Google Llc Frequency based audio analysis using neural networks
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN108564940A (zh) * 2018-03-20 2018-09-21 平安科技(深圳)有限公司 语音识别方法、服务器及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077336A (zh) * 2013-05-09 2014-10-01 腾讯科技(深圳)有限公司 一种拖拽音频文件进行音频文件信息检索的方法和装置
WO2017196931A1 (en) * 2016-05-10 2017-11-16 Google Llc Frequency based audio analysis using neural networks
CN108281139A (zh) * 2016-12-30 2018-07-13 深圳光启合众科技有限公司 语音转写方法和装置、机器人
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN108564940A (zh) * 2018-03-20 2018-09-21 平安科技(深圳)有限公司 语音识别方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
CN109525787A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
JP6019108B2 (ja) 文字に基づく映像生成
WO2010081395A1 (zh) 语音驱动动画中嘴唇形状变化、获取嘴唇动画的方法及装置
JP2014519082A5 (zh)
CN112309365B (zh) 语音合成模型的训练方法、装置、存储介质以及电子设备
CN110085244A (zh) 直播互动方法、装置、电子设备及可读存储介质
KR20070020252A (ko) 메시지를 수정하기 위한 방법 및 시스템
CN1639738A (zh) 产生漫画化的正在说话的头部的方法和系统
EP1203352A1 (en) Method of animating a synthesised model of a human face driven by an acoustic signal
CN109525787B (zh) 面向直播场景的实时字幕翻译及系统实现方法
WO2023011221A1 (zh) 混合变形值的输出方法及存储介质、电子装置
CN110675886A (zh) 音频信号处理方法、装置、电子设备及存储介质
JP2014215461A (ja) 音声処理装置および方法、並びにプログラム
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN111460094B (zh) 一种基于tts的音频拼接优化的方法及其装置
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN106327555A (zh) 一种获得唇形动画的方法及装置
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN116580720A (zh) 一种基于视听语音分离的说话人视觉激活解释方法及系统
CN116912375A (zh) 面部动画生成方法、装置、电子设备及存储介质
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
CN110505405A (zh) 基于体感技术的视频拍摄系统及方法
CN115223224A (zh) 数字人说话视频生成方法、系统、终端设备及介质
KR100849027B1 (ko) 음성 신호에 대한 립싱크 동기화 방법 및 장치
CN115883869B (zh) 基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备
Kumar et al. Towards robust speech recognition model using Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221020

Address after: Room A1430, Room 01, 02, 03, 04, 10, 11, 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan 430000, Hubei Province (Wuhan area of the Free Trade Zone)

Patentee after: Wuhan Ruidimu Network Technology Co.,Ltd.

Address before: 210003, 66 new model street, Gulou District, Jiangsu, Nanjing

Patentee before: NANJING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221220

Address after: 430070 Building B2, Phase I, Longshan Innovation Park, Future City, No. 999, Gaoxin Avenue, Donghu New Technology Development Zone, Wuhan, Hubei Province (except Room 101) (Wuhan area of the Free Trade Zone)

Patentee after: TRANSN IOL TECHNOLOGY Co.,Ltd.

Address before: Room A1430, Room 01, 02, 03, 04, 10, 11, 18/F, Building A, Wuhan Optics Valley International Business Center, No. 111, Guanshan Avenue, Donghu New Technology Development Zone, Wuhan 430000, Hubei Province (Wuhan area of the Free Trade Zone)

Patentee before: Wuhan Ruidimu Network Technology Co.,Ltd.