CN115312029A - 一种基于语音深度表征映射的语音翻译方法及系统 - Google Patents
一种基于语音深度表征映射的语音翻译方法及系统 Download PDFInfo
- Publication number
- CN115312029A CN115312029A CN202211244884.6A CN202211244884A CN115312029A CN 115312029 A CN115312029 A CN 115312029A CN 202211244884 A CN202211244884 A CN 202211244884A CN 115312029 A CN115312029 A CN 115312029A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- translation
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000013507 mapping Methods 0.000 title claims abstract description 38
- 238000012512 characterization method Methods 0.000 title claims description 45
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 241000282414 Homo sapiens Species 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000011410 subtraction method Methods 0.000 claims description 3
- 238000010845 search algorithm Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语音深度表征映射的语音翻译方法及系统属于人工智能领域,涉及人工智能领域,本发明基于语音深度表征映射的语音翻译方法及海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案;本发明基于语音深度表征映射的语音翻译方法提供了一种声纹嵌入的声码器进行语音合成,可实现语音翻译发音音色指定可控,并且能够使得合成的语音保真度更高;本发明的语音深度表征映射的语音翻译系统集成了基于语音深度表征映射的语音翻译方法,能够实现语音直接翻译任务,简化了语音翻译的流程,提高了语音翻译的精度。
Description
技术领域
本发明属于人工智能领域,具体涉及一种基于语音深度表征映射的语音翻译方法及系统。
背景技术
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程,机器翻译广泛应用于影视、外交、外贸等各个领域。
当前主流的机器翻译方法是基于深度学习的文本翻译,其翻译水平已经在特定领域已经超过了人类,此种翻译方法通常采用基于序列到序列的神经网络模型,通过将源语言的文本表征映射成目标语言的文本表征,再通过目标语言文本表征转换成目标文本的方法实现文本的机器翻译;
但是目前这种基于深度学习的文本翻译方法在用于语音翻译时,通常需要先将语音通过语音识别模型转换成文本,再通过文本机器翻译方法转换成目标语言文本,最后再通过语音合成方法转换成目标语言语音,流程复杂,而且由于多了语音识别和语音合成的步骤,一方面由于语音识别的误差导致翻译质量下降,另外一方面,由于合成的语音通常为某些预设的特定音色,导致翻译的语音存在与原始语音发音不协调的情况,从而使得翻译产品用户体验不佳。
发明内容
为了解决上述文本翻译方法在语音翻译上存在的问题,本发明基于深度神经网络的表征学习方法及表征映射方法,提供了一种基于语音深度表征映射的直接语音到语音的翻译方法,本方法基于海量无标注的源语言语音及目标语言语音数据训练深度神经网络模型Wav2Vec2.0,学习出语音表征,然后基于成对的源语言语音与目标语言语音数据,通过自注意力机制神经网络模型,学习源语言语音表征与目标语音语音表征的映射,最后通过嵌入说话人表征的神经网络声码器模型,实现翻译后的高质量的目标语音生成。本发明方法具体技术方案如下:
一种基于语音深度表征映射的语音翻译方法,包括如下步骤:
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,其中源语言语音数据集表示为,目标翻译语言语音数据集表示为;
S8:将S6得到的预测表征和S7得到的发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音。
作为优选,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集。
作为优选,所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,其中源语言语音数据集表示为,目标翻译语言语音数据集表示为。
一种基于语音深度表征映射的语音翻译系统,包括按顺序依次连接的如下模块:
语音信号采集模块,用于采集待翻译语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据;
云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号;
分析存储模块,用于利用MysQL等数据库,存储用户的语音数据以及翻译好的语音数据。
进一步的,所述语音信号采集模块采用高保真单麦克风或者麦克风阵列或者本地音频文件搜索算法。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱谱特征;
进一步的,所述静音去除采用谱减法,所述短时傅里叶变换用于对语音进行声谱特征提取,所述人声检测采用基于短时能量和过零率的方法进行。
进一步的,所述云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并通过音频流方式分段回传终端,达到实时播放的目的;
本发明的优点如下:
1、本发明的基于语音深度表征映射的语音翻译方法,通过对采集的数据集训练Wav2Vec2.0网络得到语音表征模型,再通过语音表征模型实现源语言语音和目标翻译语言语音的转化,能够实现直接语音到语音的翻译,简化了语音翻译的流程,提高了语音翻译的精度。
2、收集的语音数据基于海量无标注数据和大量成对数据训练深度学习模型,可以方便的使用海量影视等媒体数据进行模型训练,可方便的应用于各种语言语音的互译,提供了一种便捷通用的语音互译方案,实现语音直接翻译任务,适用于口语翻译、电视剧翻译配音、外语教学等场景。
3、将预测表征和发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将目标翻译语言语音数据作为神经网络声码器的监督数据,训练神经网络声码器,可实现语音翻译发音音色指定可控,并且基于深度学习神经网络的声码器能够使得合成的语音保真度更高。
附图说明
图1为本发明的基于语音深度表征映射的语音翻译系统的结构示意图;
图2为本发明的基于语音深度表征映射的语音翻译方法的流程示意图;
图3为本发明的基于语音深度表征映射的语音翻译方法的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种基于语音深度表征映射的语音翻译系统,包括按顺序依次连接的以下模块:
语音信号采集模块,用麦克风或者本地音频搜索方法采集待翻译语音信号;
语音信号预处理模块,采用预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱特征提取,采用基于短时能量和过零率的方法进行人声检测,最终生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据。
云端语音翻译模块,采用上述一种基于语音深度表征映射的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号。
分析存储模块,用于利用MysQL等数据库,存储用户的语音数据以及翻译好的语音数据。
如图2所示,一种基于语音深度表征映射的语音翻译方法,包括如下步骤:
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,其中源语言语音数据集表示为,目标翻译语言语音数据集表示为;
S8:将S6得到的预测表征和S7得到的发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音。
其中,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集。
所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,其中源语言语音数据集表示为,目标翻译语言语音数据集表示为。
实施例1
本实施例1网络结构如图3所示,具体操作如下:
S1:通过网络收集10000小时以上的源语言(例如中文)语音数据,及10000小时以上的目标语言(例如英语)语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成统一的16KHz,16Bits的.wav格式文件,表示为;
所使用的Wav2Vec2.0的网络为领域内研究人员所知,在具体参数设置上,所用Wav2Vec2.0在特征提取层采用了7层步长为(5,2,2,2,2,2,2),卷积核宽度为(10,3,3,3,3,2,2)的一维卷积,在编码器层采用了12层的Transformer块。
S3:通过网络收集1000小时以上的源语言(例如中文)语音数据,及其对应的目标翻译(例如英语)语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成统一的16KHz,16Bits的.wav格式文件,其中源语言语音数据表示为,目标翻译语言语音数据表示为;
特征映射网络由3层单向长短期记忆网络,和注意力网络构成,其中注意力网络集成在第一层长短期记忆网络中,特征映射网络的计算可用以下公式表示:
其中,为网络维度,这里设置为256,另外,
S8:将S6得到的预测表征,和S7得到的发音人特征在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的原始目标语音作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音,具体的:
其中表示声码器网络,它由7层步长分别为(2,2,2,2,2,2,5),卷积核宽度为(2,2,3,3,3,3,3,10)的一维反卷积网络构成。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于语音深度表征映射的语音翻译方法,其特征在于,包括如下步骤:
S1:通过网络收集语音数据并保存,调整语音数据的长度,最后将语音数据转换成格式统一的数据集;
S2:将S1得到的数据集训练Wav2Vec2.0网络,得到语音表征模型;
S3:通过网络收集源语言语音数据和对应的目标翻译语言语音数据并保存,调整源语言语音数据和目标翻译语言语音数据的长度,最后将源语言语音数据和目标翻译语言语音数据转换成格式统一的数据集,得到源语言语音数据集和目标翻译语言语音数据集;
S4:将S3得到的源语言语音数据集输入到S2得到的语音表征模型,得到源语言语音的深度表征;
S5:将S3得到的目标翻译语言语音数据集输入到S2得到的语音表征模型,得到目标翻译语言的深度表征;
S6:将S4得到的源语言语音的深度表征作为特征映射网络的输入,S5得到的目标翻译语言的深度表征作为特征映射网络的监督数据,训练特征映射网络,得到预测表征;
S7:将S3得到的源语言语音数据集输入到开源的训练好的声纹识别模型,输入到开源的训练好的声纹识别模型,得到发音人的深度表征;
S8:将S6得到的预测表征和S7得到的发音人的深度表征在时间维度进行拼接,作为神经网络声码器的输入,将S3得到的目标翻译语言语音数据集作为神经网络声码器的监督数据,训练神经网络声码器,从而得到最终生成预测的翻译语音。
2.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法,其特征在于,所述的步骤S1通过网络收集语音数据,源语言语音数据和目标语言语音数据,语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条语音数据控制在2秒到10秒长度,最后将语音通过FFMPEG软件转换成格式统一的数据集。
3.根据权利要求1所述的一种基于语音深度表征映射的语音翻译方法,其特征在于,所述的步骤S3通过网络收集源语言语音数据和对应的目标翻译语言语音数据,源语言语音数据和目标翻译语言语音数据按句子进行保存,并用语谱能量评估方法,去除语音句子前后静音,并保证每条源语言语音数据和目标翻译语言语音数据控制在2秒到10秒长度,最后将源语言语音数据和目标翻译语言语音数据通过FFMPEG软件转换成格式统一的数据集,得到源语言语音数据集和目标翻译语言语音数据集。
4.一种基于语音深度表征映射的语音翻译系统,其特征在于,包括按顺序依次连接的如下模块:
语音信号采集模块,用于采集待翻译语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成可用于神经网络处理的数据;
信息传输模块,将预处理模块处理好的信息传输到云端后台处理,以及从云端获取翻译好的语音数据;
云端语音翻译模块,采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并回传终端;
语音播报模块,用于播放云端返回的语音信号;
分析存储模块,用于利用MysQL数据库,存储用户的语音数据以及翻译好的语音数据。
5.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述语音信号采集模块采用高保真单麦克风或者麦克风阵列或者本地音频文件搜索算法。
6.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述预处理包括预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测,将语音信号从时域信号转换到频域信号。
7.根据权利要求6所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述静音去除采用谱减法,所述短时傅里叶变换用于对语音进行声谱特征提取,所述人声检测采用基于短时能量和过零率的方法进行。
8.根据权利要求4所述的一种基于语音深度表征映射的语音翻译系统,其特征在于:所述的云端语音翻译模块采用如权利要求1所述的语音翻译方法训练好的翻译模型处理上传的语音数据,翻译成目标语言语音数据,并通过音频流方式分段回传终端,达到实时播放的目的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211244884.6A CN115312029B (zh) | 2022-10-12 | 2022-10-12 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211244884.6A CN115312029B (zh) | 2022-10-12 | 2022-10-12 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115312029A true CN115312029A (zh) | 2022-11-08 |
CN115312029B CN115312029B (zh) | 2023-01-31 |
Family
ID=83868140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211244884.6A Active CN115312029B (zh) | 2022-10-12 | 2022-10-12 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115312029B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007068123A1 (en) * | 2005-12-16 | 2007-06-21 | National Research Council Of Canada | Method and system for training and applying a distortion component to machine translation |
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
CN111597825A (zh) * | 2020-05-13 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、可读介质及电子设备 |
CN111785258A (zh) * | 2020-07-13 | 2020-10-16 | 四川长虹电器股份有限公司 | 一种基于说话人特征的个性化语音翻译方法和装置 |
CN112037768A (zh) * | 2019-05-14 | 2020-12-04 | 北京三星通信技术研究有限公司 | 语音翻译方法、装置、电子设备及计算机可读存储介质 |
CN112204653A (zh) * | 2019-03-29 | 2021-01-08 | 谷歌有限责任公司 | 通过机器学习的直接的语音到语音翻译 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、系统及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
US20210200965A1 (en) * | 2019-12-30 | 2021-07-01 | Tmrw Foundation Ip S. À R.L. | Cross-lingual voice conversion system and method |
CN113436606A (zh) * | 2021-05-31 | 2021-09-24 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
CN113569562A (zh) * | 2021-07-02 | 2021-10-29 | 中译语通科技股份有限公司 | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 |
US20210343270A1 (en) * | 2018-09-19 | 2021-11-04 | Langogo Technology Co., Ltd | Speech translation method and translation apparatus |
CN113947091A (zh) * | 2021-10-13 | 2022-01-18 | 北京有竹居网络技术有限公司 | 用于语言翻译的方法、设备、装置和介质 |
CN114048758A (zh) * | 2021-11-10 | 2022-02-15 | 北京有竹居网络技术有限公司 | 训练方法、语音翻译方法、设备和计算机可读介质 |
WO2022057637A1 (zh) * | 2020-09-18 | 2022-03-24 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、设备和存储介质 |
WO2022073417A1 (zh) * | 2020-10-10 | 2022-04-14 | 华为技术有限公司 | 融合场景感知机器翻译方法、存储介质及电子设备 |
CN114783428A (zh) * | 2022-02-28 | 2022-07-22 | 北京百度网讯科技有限公司 | 语音翻译、模型训练方法、装置、设备及存储介质 |
CN114842858A (zh) * | 2022-04-27 | 2022-08-02 | 成都爱奇艺智能创新科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-10-12 CN CN202211244884.6A patent/CN115312029B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007068123A1 (en) * | 2005-12-16 | 2007-06-21 | National Research Council Of Canada | Method and system for training and applying a distortion component to machine translation |
CN108460027A (zh) * | 2018-02-14 | 2018-08-28 | 广东外语外贸大学 | 一种口语即时翻译方法及系统 |
US20210343270A1 (en) * | 2018-09-19 | 2021-11-04 | Langogo Technology Co., Ltd | Speech translation method and translation apparatus |
US20210209315A1 (en) * | 2019-03-29 | 2021-07-08 | Google Llc | Direct Speech-to-Speech Translation via Machine Learning |
CN112204653A (zh) * | 2019-03-29 | 2021-01-08 | 谷歌有限责任公司 | 通过机器学习的直接的语音到语音翻译 |
CN112037768A (zh) * | 2019-05-14 | 2020-12-04 | 北京三星通信技术研究有限公司 | 语音翻译方法、装置、电子设备及计算机可读存储介质 |
US20210200965A1 (en) * | 2019-12-30 | 2021-07-01 | Tmrw Foundation Ip S. À R.L. | Cross-lingual voice conversion system and method |
CN111597825A (zh) * | 2020-05-13 | 2020-08-28 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、可读介质及电子设备 |
CN111785258A (zh) * | 2020-07-13 | 2020-10-16 | 四川长虹电器股份有限公司 | 一种基于说话人特征的个性化语音翻译方法和装置 |
WO2022057637A1 (zh) * | 2020-09-18 | 2022-03-24 | 北京字节跳动网络技术有限公司 | 语音翻译方法、装置、设备和存储介质 |
WO2022073417A1 (zh) * | 2020-10-10 | 2022-04-14 | 华为技术有限公司 | 融合场景感知机器翻译方法、存储介质及电子设备 |
CN112562721A (zh) * | 2020-11-30 | 2021-03-26 | 清华珠三角研究院 | 一种视频翻译方法、系统、装置及存储介质 |
CN112614482A (zh) * | 2020-12-16 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 移动端外语翻译方法、系统及存储介质 |
CN112686058A (zh) * | 2020-12-24 | 2021-04-20 | 中国人民解放军战略支援部队信息工程大学 | Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备 |
CN113436606A (zh) * | 2021-05-31 | 2021-09-24 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
CN113569562A (zh) * | 2021-07-02 | 2021-10-29 | 中译语通科技股份有限公司 | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 |
CN113947091A (zh) * | 2021-10-13 | 2022-01-18 | 北京有竹居网络技术有限公司 | 用于语言翻译的方法、设备、装置和介质 |
CN114048758A (zh) * | 2021-11-10 | 2022-02-15 | 北京有竹居网络技术有限公司 | 训练方法、语音翻译方法、设备和计算机可读介质 |
CN114783428A (zh) * | 2022-02-28 | 2022-07-22 | 北京百度网讯科技有限公司 | 语音翻译、模型训练方法、装置、设备及存储介质 |
CN114842858A (zh) * | 2022-04-27 | 2022-08-02 | 成都爱奇艺智能创新科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ANNE WU ET AL: "Self-Supervised Representations Improve End-to-End Speech Translation", 《ARXIV》 * |
刘晓峰等: "基于注意力机制的大同方言语音翻译模型研究", 《中北大学学报(自然科学版)》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115312029B (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112767958B (zh) | 一种基于零次学习的跨语种音色转换系统及方法 | |
WO2022083083A1 (zh) | 一种声音变换系统以及声音变换系统的训练方法 | |
CN109767778B (zh) | 一种融合Bi-LSTM和WaveNet的语音转换方法 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN102543073A (zh) | 一种沪语语音识别信息处理方法 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
CN110648655B (zh) | 一种语音识别方法、装置、系统及存储介质 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
CN113611286B (zh) | 一种基于共性特征提取的跨语种语音情感识别方法和系统 | |
Goyani et al. | Performance analysis of lip synchronization using LPC, MFCC and PLP speech parameters | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
Dave et al. | Speech recognition: A review | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
CN115312029B (zh) | 一种基于语音深度表征映射的语音翻译方法及系统 | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
JP2019191378A (ja) | 発音変換装置、ピッチマーク時刻抽出装置、それらの方法、およびプログラム | |
CN114298019A (zh) | 情绪识别方法、装置、设备、存储介质、程序产品 | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
US20200312322A1 (en) | Electronic device, method and computer program | |
Xiao et al. | Speech intelligibility enhancement by non-parallel speech style conversion using CWT and iMetricGAN based CycleGAN | |
Camarena-Ibarrola et al. | Speaker identification using entropygrams and convolutional neural networks | |
CN116403562B (zh) | 一种基于语义信息自动预测停顿的语音合成方法、系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |