CN111785258A - 一种基于说话人特征的个性化语音翻译方法和装置 - Google Patents
一种基于说话人特征的个性化语音翻译方法和装置 Download PDFInfo
- Publication number
- CN111785258A CN111785258A CN202010668930.XA CN202010668930A CN111785258A CN 111785258 A CN111785258 A CN 111785258A CN 202010668930 A CN202010668930 A CN 202010668930A CN 111785258 A CN111785258 A CN 111785258A
- Authority
- CN
- China
- Prior art keywords
- speaker
- text
- voice
- vector
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 235000004936 Bromus mango Nutrition 0.000 description 1
- 240000007228 Mangifera indica Species 0.000 description 1
- 235000014826 Mangifera indica Nutrition 0.000 description 1
- 235000009184 Spondias indica Nutrition 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 235000019692 hotdogs Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于说话人特征的个性化语音翻译方法,包括以下步骤:采集说话人语音,提取说话人语音的语音声学特征,并转化为说话人特征向量;说话人特征向量结合说话人语音声学特征进行说话人文本识别;将说话人的文本翻译成目标语言的文本;将上一步生成的目标语言的文本编码结合第一步生成的说话人特征向量,得到带有说话人特征的目标文本向量;通过文本转语音模型将上一步生成的目标文本向量生成目标语音。本发明通过加入说话人特征提取网络,可以将不同说话人语气语调加入语音识别和文本转语音的过程中,帮助更加精确的翻译说话人的意思。本发明还公开一种基于说话人特征的个性化语音翻译装置。
Description
技术领域
本发明涉及语音翻译技术领域,尤其涉及一种基于说话人特征的个性化语音翻译方法和装置。
背景技术
随着全球化的发展,不同国家交流的增加,实时语音翻译的重要性越来越大,传统的语音翻译当说话人语气发生变化时,有可能无法表达说话人的意思,以及不同的地区对某些单词可能存在不同的发音,个性化翻译的重要性就体现了出来。
同时在翻译过程中,有可能出现因为说话人的口音语调的不同导致翻译出的结果跟实际的应用结果有不同的情况,比如说话者要表达的信息是“附近有卖热狗的吗?”,而经过语音识别可能会错误识别成“附近有卖芒果的吗?”,这就要求对说话人的说话特征进行区别,对不同的说话人采用不同的识别系统。
在现有技术中CN108447486提供了一种个性化翻译的方式,该方法通过提取目标发音人的声学特征,结合识别后的文本特征完成个性化翻译,使得生成的语音具有目标发音人的说话特征。但是在发音人的语音识别过程中无法避免不同人物说话口音不同所带来的翻译上的误差。
在现有技术中CN 108231062 A提供了一种通过说话人的发音特征进行个性化翻译的方法,该方法通过提取说话人特征结合语音识别的文本进行翻译,解决了翻译上不同人的特征问题,但是没有实现文本转语音的个性化生成。
综上所述,现有的个性化翻译技术,要么只在翻译端实现个性化,要么在合成端实现个性化,没有解决将说话人特征应用于从说话人语音到文本再到语音的整个个性化翻译系统的问题。
发明内容
本发明提供了一种基于说话人特征的个性化语音翻译方法和装置,以解决现有技术中没有解决将说话人特征应用于从说话人语音到文本再到语音的整个个性化翻译系统的问题。
本发明采用的技术方案是:提供一种基于说话人特征的个性化语音翻译方法,包括以下步骤:
步骤1、采集说话人语音,提取说话人语音的语音声学特征,并转化为说话人特征向量;
步骤2、说话人特征向量结合说话人语音声学特征进行说话人文本识别;
步骤3、将说话人的文本翻译成目标语言的文本;
步骤4、将步骤3生成的目标语言的文本编码结合步骤1生成的说话人特征向量,得到带有说话人特征的目标文本向量;
步骤5、通过文本转语音模型将步骤4生成的目标文本向量生成目标语音。
优选地,步骤1中,提取说话人语音的语音声学特征的方法,包括:
说话人的声音进行加窗傅里叶变化得到线性特征,再通过梅尔滤波处理得到说话人语音声学特征。
优选地,步骤1中,说话人语音的语音声学特征转化为说话人特征向量的方法,包括:
通过不同人物语音样本训练的语音特征识别模型,该语音特征识别模型至少包括深度神经网络;
将步骤1中提取的说话人语音的语音声学特征输入所述语音特征识别模型,得到说话人特征向量。
优选地,步骤2中,根据步骤1得到的说话人特征向量与步骤1中说话人语音的语音声学特征参数进行拼接形成新的特征向量,并将其作为文本识别模型的神经网络的输入,将语音识别为对应文本。
对说话人特征向量和说话人语音声学特征分别进行特征向量化;
将说话人特征向量按照说话人语音声学特征中的帧数进行拓展并拼接到一起;
将拼接后的向量作为神经网络的输入,将语音识别为对应文本。
优选地,步骤3中,将说话人的文本翻译成目标语言的文本的方法,包括:
通过使用端到端网络,采用自注意力机制,加入了文本的位置信息作为神经网络翻译的辅助信息,实现由说话人文本翻译为目标语言文本。
优选地,步骤4中,得到带有说话人特征的目标文本向量的方法,包括:
将目标语音文本进行通过音素字典查找文本的数字序号并进行编码,产生目标文本特征向量和步骤1得到的说话人特征向量结合,得到带有说话人特征的目标文本向量;
根据文本中单词的位置得到文本的位置特征,并转化为文本位置特征向量;
步骤1产生的的说话人特征向量按照说话人语音文本中的音素数量进行拓展,每个目标文本向量对应一个说话人特征向量;
将目标文本向量、文本位置特征向量和说话人特征向量按照声学特征帧数进行拓展并结合,输入端到端网络。
优选地,步骤5中,所述文本转语音模型至少包括端到端的神经网络,并使用注意力机制进行解码,得到输出端的音频线性预测系数,将音频线性预测系数生成目标语音声学特征,用端到端网络和对抗神经网络声码器串联实现个性化语音生成,声码器通过不同样本的声学特征作为输入,样本的音频编码作为输出训练得到。
一种基于说话人特征的个性化语音翻译装置,其特征在于,包括:
说话人音频特征提取单元,用于训练语音特征提取模型,并提取语音特征向量;
说话人语音识别单元,用于根据目标的语音特征选择语音转文本模型,并将语音识别为文本;
翻译单元,用于将说话人的语言翻译成目标语言;
编码器单元,将目标语言结合说话人语音特征进行编码;
端到端文本特征转音频特征单元,用于通过文本转语音模型合成目标语音。
本发明的有益效果是:通过加入说话人特征提取网络,可以将不同说话人语气语调加入语音识别和文本转语音的过程中,帮助更加精确的翻译说话人的意思,表达说话人的心情,同时通过语音到文本再到语音可以实现同声传译的功能,本发明可应用于语音个性化翻译领域,但不仅限于该领域。
附图说明
图1为本发明公开的一种基于说话人特征的个性化语音翻译方法流程图;
图2为本发明公开的一种基于说话人特征的个性化语音翻译装置结构示意图;
图3为本发明公开的端到端网络示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
参见图1-3,一种基于说话人特征的个性化语音翻译方法,包括以下步骤:
步骤1、采集说话人语音,提取说话人语音声学特征,并转化为说话人特征向量;
提取说话人语音声学特征的方法,具体为对说话人的声音进行加窗傅里叶变化的得到线性特征,再通过梅尔滤波器处理得到说话人语音声学特征。
通过采集不同语调特征的人提取的说话人语音声学特征输入深度语音识别模型中,再用深度学习网络训练,得到不同说话人语音声学特征对应的说话人特征向量模型。
将说话人提取的说话人语音声学特征输入之前通过不同人物语音样本训练的说话人特征向量模型中,采用深度学习网络,得到说话人语音声学特征对应的说话人特征向量。
步骤2、说话人特征向量和说话人语音声学特征进行拼接形成新的特征向量进行说话人文本识别;
根据训练的语音说话人特征向量结合说话人语音声学特征作为文本识别模型的神经网络输入,神经网络通过深度学习训练的模型,将语音识别为对应文本。对说话人特征向量和说话人语音声学特征分别进行特征向量化;将说话人特征向量按照说话人语音声学特征中的帧数进行拓展并拼接到一起;将拼接后的向量作为神经网络的输入,进行文本识别,得到说话人文本;增加了语音说话人特征提高了语音识别的精确度,适应了不同发音习惯的人。
语音转文本模型通过不同样本人物的声学特征作为输入,对应文本作为输出,经过训练的得到。
步骤3、将说话人的文本翻译成目标语言的文本;
翻译模型通过自然语音处理中的端到端模型实现,根据说话人文本和文本中的单词的位置,采用自注意力机制,生成对应目标文本。
翻译模型通过由说话人语言文本产生的训练样本作为输入,目标语言文本产生的训练样本作为输出训练得到,端到端模型提高了训练的效率,自注意力机制减少了训练的误差。
步骤4、将步骤3生成的目标语言的文本进行编码并结合步骤1生成的说话人特征向量,得到带有说话人特征的目标文本向量;
根据文本中单词的位置得到文本的位置特征,并转化为文本位置特征向量;
将目标语音的文本通过音素字典查找文本的数字序号并进行编码,通过神经网络产生的编码表,找到每个音素对应的512维编码信息,产生目标文本特征向量和步骤1得到的说话人特征向量以及文本位置特征向量合并,得到带有说话人特征的目标文本向量。
步骤5、通过文本转语音模型将步骤4生成的目标文本向量生成目标语音;
文本转语音模型将步骤4生成的带有说话人特征的目标文本向量生成目标语音,包括如图3文本转语音模型合成目标语音的方法,采用文本转语音神经网络,将上一步生成的带有说话人特征的目标文本向量作为输入,并在文本转语音端到端网络中使用了限定范围的注意力机制,结合后的特征根据注意力机制得到权重进行解码,得到输出端的目标语音声学特征。文本转语音端到端网络模型通过不同语音特征的语音样本结合文本训练得到。
文本转语音模型将步骤4生成的说话人特征目标文本向量生成目标语音,包括用个性化后的文本转语音端到端网络和声码器串联实现个性化语音生成,声码器通过不同样本的声学特征结合样本的音频编码采用对抗神经网络训练得到,提高了声码器合成的速度,声码器的输入声学特征采用用之前文本转语音端到端模型生成的目标语音声学特征。
根据本方法,将说话人语音声学特征通过说话人特征向量模型生成说话人特征向量,通过与说话人语音声学特征结合,通过文本识别模型进行音频转文字,翻译过后再将目标语言文本结合说话人特征向量进行文本转语音,通过这种方法提高了识别的准确性,并降低了网络拟合的难度,丰富了合成语音的自然度。
实施例二
本实施例中,一种基于说话人特征的个性化语音翻译装置,包括说话人音频特征提取单元、说话人语音识别单元、翻译单元、编码器单元、端到端文本特征转音频特征单元。
说话人音频特征提取单元,该单元对说话人的声音进行加窗傅里叶变化的得到线性特征,再通过梅尔滤波器处理得到说话人语音声学特征,将目标语音声学特征输入说话人特征向量模型,得到说话人特征向量。
说话人语音识别单元,该单元根据说话人特征向量结合说话人语音声学特征作为文本识别模型的神经网络输入,将语音识别为对应文本。
翻译单元,用于将说话人的语言翻译成目标语言,该单元翻译通过自然语音处理中的端到端模型实现,根据文本和文本中的单词的位置,采用自注意力机制,生成对应目标文本。
编码器单元,将目标语言结合说话人语音特征进行编码,该单元将目标语音文本进行通过音素字典查找文本的数字序号并进行编码,产生目标文本特征向量和说话人特征向量结合,得到带有说话人特征的目标文本特征向量。
端到端文本特征转音频特征单元,用于通过文本转语音模型合成目标语音,该单元采用端到端的神经网络,将上一步生成的说话人特征目标文本向量作为输入,并在端到端网络中使用了限定范围的注意力机制,结合后的特征根据注意力机制得到权重进行解码,得到文本转语音端到端模型生成的声学特征,再将文本转语音端到端模型生成的声学特征输入声码器实现个性化语音生成。
通过本发明实施例二提供的一种基于说话人特征的个性化语音翻译装置,声音的音频通过提取特征在混合模型的基础上,合成的声音的MOS(Mean Opinion Score)高达4.2左右。
需要说明的是,本实施例中的各模块(或单元)是逻辑意义上的,具体实现时,多个模块(或单元)可以合并成一个模块(或单元),一个模块(或单元)也可以拆分成多个模块(或单元)。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于说话人特征的个性化语音翻译方法,其特征在于,包括以下步骤:
步骤1、采集说话人语音,提取说话人语音的语音声学特征,并转化为说话人特征向量;
步骤2、说话人特征向量结合说话人语音声学特征进行说话人文本识别;
步骤3、将说话人的文本翻译成目标语言的文本;
步骤4、将步骤3生成的目标语言的文本编码结合步骤1生成的说话人特征向量,得到带有说话人特征的目标文本向量;
步骤5、通过文本转语音模型将步骤4生成的目标文本向量生成目标语音。
2.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤1中,提取说话人语音的语音声学特征的方法,包括:
说话人的声音进行加窗傅里叶变化得到线性特征,再通过梅尔滤波处理得到说话人语音声学特征。
3.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤1中,说话人语音的语音声学特征转化为说话人特征向量的方法,包括:
通过不同人物语音样本训练的语音特征识别模型,该语音特征识别模型至少包括深度神经网络;
将步骤1中提取的说话人语音的语音声学特征输入所述语音特征识别模型,得到说话人特征向量。
4.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤2中,根据步骤1得到的说话人特征向量与步骤1中说话人语音的语音声学特征参数进行拼接形成新的特征向量,并将其作为文本识别模型的神经网络的输入,将语音识别为对应文本。
5.根据权利要求4所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,
对说话人特征向量和说话人语音声学特征分别进行特征向量化;
将说话人特征向量按照说话人语音声学特征中的帧数进行拓展并拼接到一起;
将拼接后的向量作为神经网络的输入,将语音识别为对应文本。
6.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤3中,将说话人的文本翻译成目标语言的文本的方法,包括:
通过使用端到端网络,采用自注意力机制,实现由说话人文本翻译为目标语言文本。
7.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤4中,得到带有说话人特征的目标文本向量的方法,包括:
将目标语音文本进行通过音素字典查找文本的数字序号并进行编码,产生目标文本特征向量和步骤1得到的说话人特征向量结合,得到带有说话人特征的目标文本向量;
根据文本中单词的位置得到文本的位置特征,并转化为文本位置特征向量;
步骤1产生的的说话人特征向量按照说话人语音文本中的音素数量进行拓展,每个目标文本向量对应一个说话人特征向量;
将目标文本向量、文本位置特征向量和说话人特征向量按照声学特征帧数进行拓展并结合,输入端到端网络。
8.根据权利要求1所述的一种基于说话人特征的个性化语音翻译方法,其特征在于,步骤5中,所述文本转语音模型至少包括端到端的神经网络,并使用注意力机制进行解码,得到输出端的音频线性预测系数,将音频线性预测系数生成目标语音声学特征,用端到端网络和对抗神经网络声码器串联实现个性化语音生成,声码器通过不同样本的声学特征作为输入,样本的音频编码作为输出训练得到。
9.一种基于说话人特征的个性化语音翻译装置,其特征在于,包括:
说话人音频特征提取单元,用于训练语音特征提取模型,并提取语音特征向量;
说话人语音识别单元,用于根据目标的语音特征选择语音转文本模型,并将语音识别为文本;
翻译单元,用于将说话人的语言翻译成目标语言;
编码器单元,将目标语言结合说话人语音特征进行编码;
端到端文本特征转音频特征单元,用于通过文本转语音模型合成目标语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668930.XA CN111785258B (zh) | 2020-07-13 | 2020-07-13 | 一种基于说话人特征的个性化语音翻译方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010668930.XA CN111785258B (zh) | 2020-07-13 | 2020-07-13 | 一种基于说话人特征的个性化语音翻译方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111785258A true CN111785258A (zh) | 2020-10-16 |
CN111785258B CN111785258B (zh) | 2022-02-01 |
Family
ID=72768396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010668930.XA Active CN111785258B (zh) | 2020-07-13 | 2020-07-13 | 一种基于说话人特征的个性化语音翻译方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785258B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883149A (zh) * | 2020-07-30 | 2020-11-03 | 四川长虹电器股份有限公司 | 一种带情感和韵律的语音转换方法及装置 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制系统 |
CN113436606A (zh) * | 2021-05-31 | 2021-09-24 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
CN114203153A (zh) * | 2021-10-29 | 2022-03-18 | 广州虎牙科技有限公司 | 一种跨语种语音合成方法、装置、电子设备及存储介质 |
CN115312029A (zh) * | 2022-10-12 | 2022-11-08 | 之江实验室 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932807A (zh) * | 2005-09-15 | 2007-03-21 | 株式会社东芝 | 用于翻译语音和进行翻译结果的语音合成的装置和方法 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN104125548A (zh) * | 2013-04-27 | 2014-10-29 | 中国移动通信集团公司 | 一种对通话语言进行翻译的方法、设备和系统 |
CN106919559A (zh) * | 2015-12-25 | 2017-07-04 | 松下知识产权经营株式会社 | 机器翻译方法以及机器翻译系统 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108231062A (zh) * | 2018-01-12 | 2018-06-29 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108874788A (zh) * | 2018-06-22 | 2018-11-23 | 深圳市沃特沃德股份有限公司 | 语音翻译方法及装置 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
CN110136749A (zh) * | 2019-06-14 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 说话人相关的端到端语音端点检测方法和装置 |
WO2019175574A1 (en) * | 2018-03-14 | 2019-09-19 | Papercup Technologies Limited | A speech processing system and a method of processing a speech signal |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN110853615A (zh) * | 2019-11-13 | 2020-02-28 | 北京欧珀通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN111143553A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种实时文本数据流的特定信息识别方法及系统 |
US20200211565A1 (en) * | 2019-03-06 | 2020-07-02 | Syncwords Llc | System and method for simultaneous multilingual dubbing of video-audio programs |
-
2020
- 2020-07-13 CN CN202010668930.XA patent/CN111785258B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932807A (zh) * | 2005-09-15 | 2007-03-21 | 株式会社东芝 | 用于翻译语音和进行翻译结果的语音合成的装置和方法 |
CN101751922A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 基于隐马尔可夫模型状态映射的文本无关语音转换系统 |
CN104125548A (zh) * | 2013-04-27 | 2014-10-29 | 中国移动通信集团公司 | 一种对通话语言进行翻译的方法、设备和系统 |
CN106919559A (zh) * | 2015-12-25 | 2017-07-04 | 松下知识产权经营株式会社 | 机器翻译方法以及机器翻译系统 |
CN107481713A (zh) * | 2017-07-17 | 2017-12-15 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN108109613A (zh) * | 2017-12-12 | 2018-06-01 | 苏州思必驰信息科技有限公司 | 用于智能对话语音平台的音频训练和识别方法及电子设备 |
CN108231062A (zh) * | 2018-01-12 | 2018-06-29 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
CN108447486A (zh) * | 2018-02-28 | 2018-08-24 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
WO2019175574A1 (en) * | 2018-03-14 | 2019-09-19 | Papercup Technologies Limited | A speech processing system and a method of processing a speech signal |
CN108874788A (zh) * | 2018-06-22 | 2018-11-23 | 深圳市沃特沃德股份有限公司 | 语音翻译方法及装置 |
CN109671442A (zh) * | 2019-01-14 | 2019-04-23 | 南京邮电大学 | 基于STARGAN与x向量的多对多说话人转换方法 |
US20200211565A1 (en) * | 2019-03-06 | 2020-07-02 | Syncwords Llc | System and method for simultaneous multilingual dubbing of video-audio programs |
CN110136749A (zh) * | 2019-06-14 | 2019-08-16 | 苏州思必驰信息科技有限公司 | 说话人相关的端到端语音端点检测方法和装置 |
CN110767210A (zh) * | 2019-10-30 | 2020-02-07 | 四川长虹电器股份有限公司 | 一种生成个性化语音的方法及装置 |
CN110853615A (zh) * | 2019-11-13 | 2020-02-28 | 北京欧珀通信有限公司 | 一种数据处理方法、装置及存储介质 |
CN111143553A (zh) * | 2019-12-06 | 2020-05-12 | 国家计算机网络与信息安全管理中心 | 一种实时文本数据流的特定信息识别方法及系统 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111883149A (zh) * | 2020-07-30 | 2020-11-03 | 四川长虹电器股份有限公司 | 一种带情感和韵律的语音转换方法及装置 |
CN111883149B (zh) * | 2020-07-30 | 2022-02-01 | 四川长虹电器股份有限公司 | 一种带情感和韵律的语音转换方法及装置 |
CN112435650A (zh) * | 2020-11-11 | 2021-03-02 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112712802A (zh) * | 2020-12-23 | 2021-04-27 | 江西远洋保险设备实业集团有限公司 | 密集架智能信息处理语音识别操作控制系统 |
CN113436606A (zh) * | 2021-05-31 | 2021-09-24 | 引智科技(深圳)有限公司 | 一种原声语音翻译方法 |
CN114203153A (zh) * | 2021-10-29 | 2022-03-18 | 广州虎牙科技有限公司 | 一种跨语种语音合成方法、装置、电子设备及存储介质 |
CN115312029A (zh) * | 2022-10-12 | 2022-11-08 | 之江实验室 | 一种基于语音深度表征映射的语音翻译方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111785258B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111785258B (zh) | 一种基于说话人特征的个性化语音翻译方法和装置 | |
CN108899009B (zh) | 一种基于音素的中文语音合成系统 | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
Ghai et al. | Literature review on automatic speech recognition | |
US10176809B1 (en) | Customized compression and decompression of audio data | |
US10319365B1 (en) | Text-to-speech processing with emphasized output audio | |
TWI721268B (zh) | 用於語音合成的系統和方法 | |
US20200410981A1 (en) | Text-to-speech (tts) processing | |
WO2016209924A1 (en) | Input speech quality matching | |
KR20170103209A (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
CN112489629B (zh) | 语音转写模型、方法、介质及电子设备 | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
JP4829477B2 (ja) | 声質変換装置および声質変換方法ならびに声質変換プログラム | |
CN113112995B (zh) | 词声学特征系统、词声学特征系统的训练方法及系统 | |
KR20230133362A (ko) | 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성 | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
CN113744722A (zh) | 一种用于有限句库的离线语音识别匹配装置与方法 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
CN115762466A (zh) | 一种合成不同情感音频的方法和装置 | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
Kuzdeuov et al. | Speech command recognition: Text-to-speech and speech corpus scraping are all you need | |
Nursetyo | LatAksLate: Javanese script translator based on Indonesian speech recognition using sphinx-4 and google API | |
CN115424604A (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
CN114255735A (zh) | 语音合成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |