CN115312029A - 一种基于语音深度表征映射的语音翻译方法及系统 - Google Patents

一种基于语音深度表征映射的语音翻译方法及系统 Download PDF

Info

Publication number
CN115312029A
CN115312029A CN202211244884.6A CN202211244884A CN115312029A CN 115312029 A CN115312029 A CN 115312029A CN 202211244884 A CN202211244884 A CN 202211244884A CN 115312029 A CN115312029 A CN 115312029A
Authority
CN
China
Prior art keywords
voice
voice data
translation
target
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211244884.6A
Other languages
English (en)
Other versions
CN115312029B (zh
Inventor
郑书凯
李太豪
阮玉平
黄剑韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211244884.6A priority Critical patent/CN115312029B/zh
Publication of CN115312029A publication Critical patent/CN115312029A/zh
Application granted granted Critical
Publication of CN115312029B publication Critical patent/CN115312029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。

Description

一种基于语音深度表征映射的语音翻译方法及系统
技术领域
本发明属于人工智能领域,具体涉及一种基于语音深度表征映射的语音翻译方法及系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,机器翻译广泛应用于影视、外交、外贸等各个领域。
当前主流的机器翻译方法是基于深度学习的文本翻译,其翻译水平已经在特定领域已经超过了人类,此种翻译方法通常采用基于序列到序列的神经网络模型,通过将源语言的文本表征映射成目标语言的文本表征,再通过目标语言文本表征转换成目标文本的方法实现文本的机器翻译;
但是目前这种基于深度学习的文本翻译方法在用于语音翻译时,通常需要先将语音通过语音识别模型转换成文本,再通过文本机器翻译方法转换成目标语言文本,最后再通过语音合成方法转换成目标语言语音,流程复杂,而且由于多了语音识别和语音合成的步骤,一方面由于语音识别的误差导致翻译质量下降,另外一方面,由于合成的语音通常为某些预设的特定音色,导致翻译的语音存在与原始语音发音不协调的情况,从而使得翻译产品用户体验不佳。
发明内容
为了解决上述文本翻译方法在语音翻译上存在的问题,本发明基于深度神经网络的表征学习方法及表征映射方法,提供了一种基于语音深度表征映射的直接语音到语音的翻译方法,本方法基于海量无标注的源语言语音及目标语言语音数据训练深度神经网络模型Wav2Vec2.0,学习出语音表征,然后基于成对的源语言语音与目标语言语音数据,通过自注意力机制神经网络模型,学习源语言语音表征与目标语音语音表征的映射,最后通过嵌入说话人表征的神经网络声码器模型,实现翻译后的高质量的目标语音生成。本发明方法具体技术方案如下:
一种基于语音深度表征映射的语音翻译方法,包括如下步骤:
S1:通过网络收集语音数据并保存,调整语音数据的长度,最后将语音数据转换成格式统一的数据集
Figure 817272DEST_PATH_IMAGE001
S2:将S1得到的数据集
Figure 203254DEST_PATH_IMAGE001
训练Wav2Vec2.0网络,得到语音表征模型
Figure DEST_PATH_IMAGE002
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,其中源语言语音数据集表示为
Figure 858358DEST_PATH_IMAGE003
,目标翻译语言语音数据集表示为
Figure DEST_PATH_IMAGE004
S4:将S3得到的源语言语音数据集
Figure 847042DEST_PATH_IMAGE003
,输入到S2得到的语音表征模型
Figure 130256DEST_PATH_IMAGE002
,得到源语言语音的深度表征
Figure 218298DEST_PATH_IMAGE005
S5:将S3得到的目标翻译语言语音数据集
Figure 829539DEST_PATH_IMAGE004
,输入到S2得到的语音表征模型
Figure 231701DEST_PATH_IMAGE002
,得到目标翻译语言的深度表征
Figure DEST_PATH_IMAGE006
S6:将S4得到的源语言语音的深度表征
Figure 572684DEST_PATH_IMAGE007
,作为特征映射网络的输入,S5得到的目标翻译语言的深度表征
Figure DEST_PATH_IMAGE008
作为特征映射网络的监督数据,训练特征映射网络,得到预测表征
Figure 34889DEST_PATH_IMAGE009
S7:将将S3得到的源语言语音数据集
Figure DEST_PATH_IMAGE010
输入到开源的训练好的声纹识别模型,输入到开源的训练好的声纹识别模型,得到发音人的深度表征
Figure 195743DEST_PATH_IMAGE011
S8:将S6得到的预测表征
Figure 932755DEST_PATH_IMAGE009
和S7得到的发音人的深度表征
Figure 659403DEST_PATH_IMAGE011
在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集
Figure 354826DEST_PATH_IMAGE004
作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音
Figure DEST_PATH_IMAGE012
作为优选,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集
Figure 189927DEST_PATH_IMAGE001
作为优选,所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,其中源语言语音数据集表示为
Figure DEST_PATH_IMAGE013
,目标翻译语言语音数据集表示为
Figure DEST_PATH_IMAGE014
一种基于语音深度表征映射的语音翻译系统,包括按顺序依次连接的如下模块:
语音信号采集模块,用于采集待翻译语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据;
云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号;
分析存储模块,用于利用MysQL等数据库,存储用户的语音数据以及翻译好的语音数据。
进一步的,所述语音信号采集模块采用高保真单麦克风或者麦克风阵列或者本地音频文件搜索算法。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱谱特征;
进一步的,所述静音去除采用谱减法,所述短时傅里叶变换用于对语音进行声谱特征提取,所述人声检测采用基于短时能量和过零率的方法进行。
进一步的,所述云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并通过音频流方式分段回传终端,达到实时播放的目的;
本发明的优点如下:
1、本发明的基于语音深度表征映射的语音翻译方法,通过对采集的数据集训练Wav2Vec2.0网络得到语音表征模型,再通过语音表征模型实现源语言语音和目标翻译语言语音的转化,能够实现直接语音到语音的翻译,简化了语音翻译的流程,提高了语音翻译的精度。
2、收集的语音数据基于海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,可方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案,实现语音直接翻译任务,适用于口语翻译、电视剧翻译配音、外语教学等场景。
3、将预测表征和发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将目标翻译语言语音数据作为神经网络声码器的监督数据,训练神经网络声码器,可实现语音翻译发音音色指定可控,并且基于深度学习神经网络的声码器能够使得合成的语音保真度更高。
附图说明
图1为本发明的基于语音深度表征映射的语音翻译系统的结构示意图;
图2为本发明的基于语音深度表征映射的语音翻译方法的流程示意图;
图3为本发明的基于语音深度表征映射的语音翻译方法的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种基于语音深度表征映射的语音翻译系统,包括按顺序依次连接的以下模块:
语音信号采集模块,用麦克风或者本地音频搜索方法采集待翻译语音信号;
语音信号预处理模块,采用预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取,采用基于短时能量和过零率的方法进行人声检测,最终生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据。
云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号。
分析存储模块,用于利用MysQL等数据库,存储用户的语音数据以及翻译好的语音数据。
如图2所示,一种基于语音深度表征映射的语音翻译方法,包括如下步骤:
S1:通过网络收集语音数据并保存,调整语音数据的长度,最后将语音数据转换成格式统一的数据集
Figure 22973DEST_PATH_IMAGE001
S2:将S1得到的数据集
Figure 869706DEST_PATH_IMAGE001
训练Wav2Vec2.0网络,得到语音表征模型
Figure 798348DEST_PATH_IMAGE002
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,其中源语言语音数据集表示为
Figure 996111DEST_PATH_IMAGE010
,目标翻译语言语音数据集表示为
Figure 419133DEST_PATH_IMAGE004
S4:将S3得到的源语言语音数据集
Figure 182690DEST_PATH_IMAGE003
,输入到S2得到的语音表征模型
Figure 423179DEST_PATH_IMAGE002
,得到源语言语音的深度表征
Figure 701713DEST_PATH_IMAGE005
S5:将S3得到的目标翻译语言语音数据集
Figure 849798DEST_PATH_IMAGE004
,输入到S2得到的语音表征模型
Figure 671123DEST_PATH_IMAGE002
,得到目标翻译语言的深度表征
Figure 692300DEST_PATH_IMAGE015
S6:将S4得到的源语言语音的深度表征
Figure 395814DEST_PATH_IMAGE007
,作为特征映射网络的输入,S5得到的目标翻译语言的深度表征
Figure DEST_PATH_IMAGE016
作为特征映射网络的监督数据,训练特征映射网络,得到预测表征
Figure 285272DEST_PATH_IMAGE009
S7:将将S3得到的源语言语音数据集
Figure 85738DEST_PATH_IMAGE003
输入到开源的训练好的声纹识别模型,输入到开源的训练好的声纹识别模型,得到发音人的深度表征
Figure 464767DEST_PATH_IMAGE011
S8:将S6得到的预测表征
Figure 593260DEST_PATH_IMAGE009
和S7得到的发音人的深度表征
Figure 83147DEST_PATH_IMAGE011
在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集
Figure 223273DEST_PATH_IMAGE004
作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音
Figure 773203DEST_PATH_IMAGE012
其中,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集
Figure DEST_PATH_IMAGE017
所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,其中源语言语音数据集表示为
Figure 654571DEST_PATH_IMAGE018
,目标翻译语言语音数据集表示为
Figure 10466DEST_PATH_IMAGE014
实施例1
本实施例1网络结构如图3所示,具体操作如下:
S1:通过网络收集10000小时以上的源语言(例如中文)语音数据,及10000小时以上的目标语言(例如英语)语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成统一的16KHz,16Bits的.wav格式文件,表示为
Figure 457628DEST_PATH_IMAGE001
S2:通过S1得到的
Figure 850563DEST_PATH_IMAGE001
数据集训练Wav2Vec2.0网络,得到语音表征模型
Figure 15965DEST_PATH_IMAGE002
;具体的:
所使用的Wav2Vec2.0的网络为领域内研究人员所知,在具体参数设置上,所用Wav2Vec2.0在特征提取层采用了7层步长为(5,2,2,2,2,2,2),卷积核宽度为(10,3,3,3,3,2,2)的一维卷积,在编码器层采用了12层的Transformer块。
S3:通过网络收集1000小时以上的源语言(例如中文)语音数据,及其对应的目标翻译(例如英语)语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成统一的16KHz,16Bits的.wav格式文件,其中源语言语音数据表示为,目标翻译语言语音数据表示为
Figure 582076DEST_PATH_IMAGE004
S4:将S3得到的源语言语音数据
Figure 962372DEST_PATH_IMAGE010
,输入到S2得到的
Figure 588526DEST_PATH_IMAGE002
,得到源语言语音的深度表征
Figure DEST_PATH_IMAGE019
S5:将S3得到的源语言语音数据
Figure 444486DEST_PATH_IMAGE014
,输入到S2得到的
Figure 142184DEST_PATH_IMAGE002
,得到源语言语音的深度表征
Figure 298359DEST_PATH_IMAGE008
S6:将S4得到的
Figure 298676DEST_PATH_IMAGE005
,作为特征映射网络的输入,S5得到的
Figure 907512DEST_PATH_IMAGE020
作为特征映射网络的监督数据,训练特征映射网络,得到预测表征
Figure 346583DEST_PATH_IMAGE009
;具体的:
特征映射网络由3层单向长短期记忆网络,和注意力网络构成,其中注意力网络集成在第一层长短期记忆网络中,特征映射网络的计算可用以下公式表示:
Figure DEST_PATH_IMAGE021
其中
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
Figure DEST_PATH_IMAGE024
分别表示第一层,第二层和第三层长短期记忆网络,注意力网络
Figure DEST_PATH_IMAGE025
的计算方式如下:
Figure DEST_PATH_IMAGE026
其中,为网络维度,这里设置为256,另外,
Figure DEST_PATH_IMAGE027
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
其中,
Figure 305400DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
Figure 742198DEST_PATH_IMAGE032
分别表示三个维度为256的全连接层网络的网络权重参数。
另外,
Figure DEST_PATH_IMAGE033
Figure 103909DEST_PATH_IMAGE034
经过两层维度为256的全连接网络层处理后的特征,可以表示如下:
Figure DEST_PATH_IMAGE035
其中,
Figure 408988DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
分别表示第一层全连接层和第二层全连接层。
S7:将S3得到的源语言语音数据
Figure 743018DEST_PATH_IMAGE004
,输入到开源的训练好的声纹识别模型(例如百度提出的Deepspeeker网络模型,此模型为该领域研究人员所熟知),得到得到发音人的的深度表征
Figure 881875DEST_PATH_IMAGE011
S8:将S6得到的预测表征
Figure 543932DEST_PATH_IMAGE009
,和S7得到的发音人特征
Figure 59227DEST_PATH_IMAGE011
在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的原始目标语音
Figure 247762DEST_PATH_IMAGE004
作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音
Figure 823100DEST_PATH_IMAGE012
,具体的:
S8.1:首先,在时间维度上,将
Figure 221721DEST_PATH_IMAGE009
Figure 540706DEST_PATH_IMAGE011
进行拼接,得到特征
Figure 583749DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
其中,
Figure 329988DEST_PATH_IMAGE040
表示拼接函数;
S8.2:将S8.1得到的
Figure DEST_PATH_IMAGE041
输入到声码器网络中,得到最终合成的翻译语音
Figure 966637DEST_PATH_IMAGE012
,可以表示如下:
Figure 26997DEST_PATH_IMAGE042
其中表示声码器网络,它由7层步长分别为(2,2,2,2,2,2,5),卷积核宽度为(2,2,3,3,3,3,3,10)的一维反卷积网络构成。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于语音深度表征映射的语音翻译方法,其特征在于,包括如下步骤:
S1:通过网络收集语音数据并保存,调整语音数据的长度,最后将语音数据转换成格式统一的数据集;
S2:将S1得到的数据集训练Wav2Vec2.0网络,得到语音表征模型;
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,得到源语言语音数据集和目标翻译语言语音数据集;
S4:将S3得到的源语言语音数据集输入到S2得到的语音表征模型,得到源语言语音的深度表征;
S5:将S3得到的目标翻译语言语音数据集输入到S2得到的语音表征模型,得到目标翻译语言的深度表征;
S6:将S4得到的源语言语音的深度表征作为特征映射网络的输入,S5得到的目标翻译语言的深度表征作为特征映射网络的监督数据,训练特征映射网络,得到预测表征;
S7:将S3得到的源语言语音数据集输入到开源的训练好的声纹识别模型,输入到开源的训练好的声纹识别模型,得到发音人的深度表征;
S8:将S6得到的预测表征和S7得到的发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音。
2.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法,其特征在于,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集。
3.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法,其特征在于,所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,得到源语言语音数据集和目标翻译语言语音数据集。
4.一种基于语音深度表征映射的语音翻译系统,其特征在于,包括按顺序依次连接的如下模块:
语音信号采集模块,用于采集待翻译语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据;
云端语音翻译模块,采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号;
分析存储模块,用于利用MysQL数据库,存储用户的语音数据以及翻译好的语音数据。
5.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述语音信号采集模块采用高保真单麦克风或者麦克风阵列或者本地音频文件搜索算法。
6.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述预处理包括预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测,将语音信号从时域信号转换到频域信号。
7.根据权利要求6所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述静音去除采用谱减法,所述短时傅里叶变换用于对语音进行声谱特征提取,所述人声检测采用基于短时能量和过零率的方法进行。
8.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述的云端语音翻译模块采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并通过音频流方式分段回传终端,达到实时播放的目的。
CN202211244884.6A 2022-10-12 2022-10-12 一种基于语音深度表征映射的语音翻译方法及系统 Active CN115312029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211244884.6A CN115312029B (zh) 2022-10-12 2022-10-12 一种基于语音深度表征映射的语音翻译方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211244884.6A CN115312029B (zh) 2022-10-12 2022-10-12 一种基于语音深度表征映射的语音翻译方法及系统

Publications (2)

Publication Number Publication Date
CN115312029A true CN115312029A (zh) 2022-11-08
CN115312029B CN115312029B (zh) 2023-01-31

Family

ID=83868140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211244884.6A Active CN115312029B (zh) 2022-10-12 2022-10-12 一种基于语音深度表征映射的语音翻译方法及系统

Country Status (1)

Country Link
CN (1) CN115312029B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007068123A1 (en) * 2005-12-16 2007-06-21 National Research Council Of Canada Method and system for training and applying a distortion component to machine translation
CN108460027A (zh) * 2018-02-14 2018-08-28 广东外语外贸大学 一种口语即时翻译方法及系统
CN111597825A (zh) * 2020-05-13 2020-08-28 北京字节跳动网络技术有限公司 语音翻译方法、装置、可读介质及电子设备
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
CN112204653A (zh) * 2019-03-29 2021-01-08 谷歌有限责任公司 通过机器学习的直接的语音到语音翻译
CN112562721A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN112614482A (zh) * 2020-12-16 2021-04-06 平安国际智慧城市科技股份有限公司 移动端外语翻译方法、系统及存储介质
CN112686058A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备
US20210200965A1 (en) * 2019-12-30 2021-07-01 Tmrw Foundation Ip S. À R.L. Cross-lingual voice conversion system and method
CN113436606A (zh) * 2021-05-31 2021-09-24 引智科技(深圳)有限公司 一种原声语音翻译方法
CN113569562A (zh) * 2021-07-02 2021-10-29 中译语通科技股份有限公司 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
US20210343270A1 (en) * 2018-09-19 2021-11-04 Langogo Technology Co., Ltd Speech translation method and translation apparatus
CN113947091A (zh) * 2021-10-13 2022-01-18 北京有竹居网络技术有限公司 用于语言翻译的方法、设备、装置和介质
CN114048758A (zh) * 2021-11-10 2022-02-15 北京有竹居网络技术有限公司 训练方法、语音翻译方法、设备和计算机可读介质
WO2022057637A1 (zh) * 2020-09-18 2022-03-24 北京字节跳动网络技术有限公司 语音翻译方法、装置、设备和存储介质
WO2022073417A1 (zh) * 2020-10-10 2022-04-14 华为技术有限公司 融合场景感知机器翻译方法、存储介质及电子设备
CN114783428A (zh) * 2022-02-28 2022-07-22 北京百度网讯科技有限公司 语音翻译、模型训练方法、装置、设备及存储介质
CN114842858A (zh) * 2022-04-27 2022-08-02 成都爱奇艺智能创新科技有限公司 一种音频处理方法、装置、电子设备及存储介质

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007068123A1 (en) * 2005-12-16 2007-06-21 National Research Council Of Canada Method and system for training and applying a distortion component to machine translation
CN108460027A (zh) * 2018-02-14 2018-08-28 广东外语外贸大学 一种口语即时翻译方法及系统
US20210343270A1 (en) * 2018-09-19 2021-11-04 Langogo Technology Co., Ltd Speech translation method and translation apparatus
US20210209315A1 (en) * 2019-03-29 2021-07-08 Google Llc Direct Speech-to-Speech Translation via Machine Learning
CN112204653A (zh) * 2019-03-29 2021-01-08 谷歌有限责任公司 通过机器学习的直接的语音到语音翻译
CN112037768A (zh) * 2019-05-14 2020-12-04 北京三星通信技术研究有限公司 语音翻译方法、装置、电子设备及计算机可读存储介质
US20210200965A1 (en) * 2019-12-30 2021-07-01 Tmrw Foundation Ip S. À R.L. Cross-lingual voice conversion system and method
CN111597825A (zh) * 2020-05-13 2020-08-28 北京字节跳动网络技术有限公司 语音翻译方法、装置、可读介质及电子设备
CN111785258A (zh) * 2020-07-13 2020-10-16 四川长虹电器股份有限公司 一种基于说话人特征的个性化语音翻译方法和装置
WO2022057637A1 (zh) * 2020-09-18 2022-03-24 北京字节跳动网络技术有限公司 语音翻译方法、装置、设备和存储介质
WO2022073417A1 (zh) * 2020-10-10 2022-04-14 华为技术有限公司 融合场景感知机器翻译方法、存储介质及电子设备
CN112562721A (zh) * 2020-11-30 2021-03-26 清华珠三角研究院 一种视频翻译方法、系统、装置及存储介质
CN112614482A (zh) * 2020-12-16 2021-04-06 平安国际智慧城市科技股份有限公司 移动端外语翻译方法、系统及存储介质
CN112686058A (zh) * 2020-12-24 2021-04-20 中国人民解放军战略支援部队信息工程大学 Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备
CN113436606A (zh) * 2021-05-31 2021-09-24 引智科技(深圳)有限公司 一种原声语音翻译方法
CN113569562A (zh) * 2021-07-02 2021-10-29 中译语通科技股份有限公司 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统
CN113947091A (zh) * 2021-10-13 2022-01-18 北京有竹居网络技术有限公司 用于语言翻译的方法、设备、装置和介质
CN114048758A (zh) * 2021-11-10 2022-02-15 北京有竹居网络技术有限公司 训练方法、语音翻译方法、设备和计算机可读介质
CN114783428A (zh) * 2022-02-28 2022-07-22 北京百度网讯科技有限公司 语音翻译、模型训练方法、装置、设备及存储介质
CN114842858A (zh) * 2022-04-27 2022-08-02 成都爱奇艺智能创新科技有限公司 一种音频处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANNE WU ET AL: "Self-Supervised Representations Improve End-to-End Speech Translation", 《ARXIV》 *
刘晓峰等: "基于注意力机制的大同方言语音翻译模型研究", 《中北大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN115312029B (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN112767958B (zh) 一种基于零次学习的跨语种音色转换系统及方法
WO2022083083A1 (zh) 一种声音变换系统以及声音变换系统的训练方法
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN110970036B (zh) 声纹识别方法及装置、计算机存储介质、电子设备
CN102543073A (zh) 一种沪语语音识别信息处理方法
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
Gamit et al. Isolated words recognition using mfcc lpc and neural network
CN110648655B (zh) 一种语音识别方法、装置、系统及存储介质
Kumar et al. Machine learning based speech emotions recognition system
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
Goyani et al. Performance analysis of lip synchronization using LPC, MFCC and PLP speech parameters
Liu et al. AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning
Dave et al. Speech recognition: A review
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN115312029B (zh) 一种基于语音深度表征映射的语音翻译方法及系统
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
JP2019191378A (ja) 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム
CN114298019A (zh) 情绪识别方法、装置、设备、存储介质、程序产品
CN114842878A (zh) 一种基于神经网络的语音情感识别方法
US20200312322A1 (en) Electronic device, method and computer program
Xiao et al. Speech intelligibility enhancement by non-parallel speech style conversion using CWT and iMetricGAN based CycleGAN
Camarena-Ibarrola et al. Speaker identification using entropygrams and convolutional neural networks
CN116403562B (zh) 一种基于语义信息自动预测停顿的语音合成方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant