CN117275455B - 一种用于翻译耳机的声音克隆方法 - Google Patents

一种用于翻译耳机的声音克隆方法 Download PDF

Info

Publication number
CN117275455B
CN117275455B CN202311558033.3A CN202311558033A CN117275455B CN 117275455 B CN117275455 B CN 117275455B CN 202311558033 A CN202311558033 A CN 202311558033A CN 117275455 B CN117275455 B CN 117275455B
Authority
CN
China
Prior art keywords
translated
voice
frame
frames
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311558033.3A
Other languages
English (en)
Other versions
CN117275455A (zh
Inventor
林日壮
黎炳新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yangri Electronic Co ltd
Original Assignee
Shenzhen Yangri Electronic Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yangri Electronic Co ltd filed Critical Shenzhen Yangri Electronic Co ltd
Priority to CN202311558033.3A priority Critical patent/CN117275455B/zh
Publication of CN117275455A publication Critical patent/CN117275455A/zh
Application granted granted Critical
Publication of CN117275455B publication Critical patent/CN117275455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及语音合成技术领域,提出了一种用于翻译耳机的声音克隆方法,包括:采集语音数据并进行预处理,获取待译语音数据;将待译语音数据划分为待译语音帧,进而获取待译语音帧的待译音频特征向量和待译音频帧窗矩阵,获取待译音频帧窗矩阵中包含的所有元素的影响权重,进而获取待译语音帧的情绪变异指数;获取待译语音帧的重音识别指数;根据待译语音数据获取目标语言分词向量序列,获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,进而获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机,完成自然、流畅的声音克隆翻译。本发明旨在解决现有的声音克隆翻译的话语不自然、不流畅的问题。

Description

一种用于翻译耳机的声音克隆方法
技术领域
本发明涉及语音合成技术领域,具体涉及一种用于翻译耳机的声音克隆方法。
背景技术
翻译耳机的声音克隆能够将说话者所讲语言转换为另一种语言,并尽可能的保持说话者所具有的音色和语音特点,使克隆后的声音能够更好的传达原始说话者的情感和语气,使获取的另一种语言更加自然、生动和准确,同时,帮助听者更容易理解到原始说话者所讲内容的重点。
可使用例如WaveNet深度学习模型等声音合成模型将说话者所讲语言转换为另一种语言,WaveNet深度学习模型支持多语言语音生成、适用于多种应用场景,但是,在生成跨语言语音时,即对说话者的话语进行翻译后生成语音时,由于不同语言之间存在一定差异,WaveNet深度学习模型翻译后生成的语音不够自然、流畅,无法获取高质量的翻译后的语音,使听者无法直观地理解说话者的语音内容以及情感,容易导致听者错误理解说话者想要表达的含义,进而导致听者与说话者交流不畅。
发明内容
本发明提供一种用于翻译耳机的声音克隆方法,以解决现有的声音克隆翻译的话语不自然、不流畅的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种用于翻译耳机的声音克隆方法,该方法包括以下步骤:
采集语音数据并进行预处理,获取待译语音数据;
将待译语音数据划分为待译语音帧,获取待译语音帧的待译音频特征向量,获取待译语音帧的长期语音帧窗,根据待译语音帧的长期语音帧窗内包含的待译语音帧的待译音频特征向量获取待译音频帧窗矩阵,获取待译音频帧窗矩阵中包含的所有元素的影响权重,根据待译语音帧的待译音频帧窗矩阵内包含的元素和所有元素的影响权重获取待译语音帧的情绪变异指数;
获取待译语音帧的短期语音帧窗,根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数;
根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机。
进一步,所述采集语音数据并进行预处理,获取待译语音数据,包括的具体方法为:
采集语音数据并按照时间顺序进行排列;
获取语音数据中说话语音的起始点与终止点,将说话语音的起始点与终止点之间的语音数据记为语音段,将语音数据不是语音段的语音数据记为非语音段;
对语音段进行去噪处理和归一化处理,获取待译语音数据。
进一步,所述将待译语音数据划分为待译语音帧,获取待译语音帧的待译音频特征向量,包括的具体方法为:
将待译语音数据划分为等长度的待译语音帧;
将待译语音帧从时域转换到频域,获取待译语音帧的频谱图;
根据待译语音帧的频谱图获取待译语音帧振幅的最大值、基频频率和峰值,将待译语音帧振幅的最大值记为第一振幅极值;
将待译语音帧的基频频率、第一振幅极值和峰值组成的向量记为待译语音帧的待译音频特征向量。
进一步,所述获取待译语音帧的长期语音帧窗,根据待译语音帧的长期语音帧窗内包含的待译语音帧的待译音频特征向量获取待译音频帧窗矩阵,包括的具体方法为:
将与待译语音帧相邻的第二预设阈值个待译语音帧记为中心待译语音帧的长期语音帧窗;
将待译语音帧的长期语音帧窗内包含的所有待译语音帧的待译音频特征向量按照时间的先后顺序、从上至下依次排列,获取待译音频帧窗矩阵。
进一步,所述获取待译音频帧窗矩阵中包含的所有元素的影响权重,包括的具体方法为:
根据待译音频帧窗矩阵中元素的信息量获取每个元素的影响权重。
进一步,所述根据待译语音帧的待译音频帧窗矩阵内包含的元素和所有元素的影响权重获取待译语音帧的情绪变异指数,包括的具体方法为:
将每个待译语音帧分别作为第一待译语音帧;
将第一待译语音帧的长期语音帧窗内包含的待译语音帧中相邻的待译语音帧记为相邻第二待译语音帧,将相邻第二待译语音帧中编号最大的待译语音帧记为第三待译语音帧;
将相邻第二待译语音帧的待译音频特征向量中对应元素的差值的绝对值与第三待译语音帧的影响权重的乘积记为第一加权值;
将相邻第二待译语音帧的待译音频特征向量中所有第一加权值的和记为第一加权和;
将第一待译语音帧的长期语音帧窗内所有第一加权和的和与长期语音帧窗内包含的待译语音帧数量的比值记为第一待译语音帧的情绪变异指数。
进一步,所述获取待译语音帧的短期语音帧窗,包括的具体方法为:
将与待译语音帧相邻的第三预设阈值个待译语音帧记为中心待译语音帧的短期语音帧窗。
进一步,所述根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数,包括的具体方法为:
其中,表示第/>个待译语音帧的重音识别指数;/>表示第/>个待译语音帧的情绪变异指数;/>表示第/>个待译语音帧的短期语音帧窗内包含的待译语音帧的数量;/>表示第/>个待译语音帧的待译音频特征向量中包含的元素个数;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;/>表示第一调参因子;/>表示双曲正切函数。
进一步,所述根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,包括的具体方法为:
将待译语音数据转换为文本数据,将文本数据记为待译文本数据;
将待译文本数据翻译为目标语言,获取目标语言文本数据;
对目标语言文本数据进行分词处理,将分词后获取的词语按照词语的原顺序进行排列,获取目标语言文本分词序列;
将目标语言文本分词序列中的词语转换为词向量,获取目标语言分词向量序列;
将待译语音帧的重音识别指数按照待译语音帧的获取时间顺序进行排列,获取重音识别指数序列;
获取情绪变异指数序列和待译音频特征向量序列。
进一步,所述获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机,包括的具体方法为:
将目标语言分词向量序列、重音识别指数序列、情绪变异指数序列和待译音频特征向量序列进行对齐并作为WaveNet深度学习模型的输入,获取目标语言音频波形;
将目标语言音频波形解码生成语音信号,获取经过翻译合成后的音频信号;
将经过翻译合成后的音频信号传输至翻译耳机,完成自然、流畅的声音克隆翻译。
本发明的有益效果是:
本发明对于说话者的语音数据进行分帧处理,根据影响声音特征的基频、振幅、峰值等特征构建按待译语音帧的待译音频特征向量,待译音频特征向量可反映说话者的音色、响度等声音特征;其次,结合人在情绪稳定的情况下讲话时,吐字往往更加清晰,所说出的话更具有条理性的特征构建情绪变异指数,反映说话者在说话时的情绪状态;然后,结合说话者强调所说话中的重点时会重点部分重读的特征构建重音识别指数,反映说话者话语中强调的内容的重要程度;接着,根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,根据上述所有序列获取经过翻译合成后的音频信号,使经过翻译合成后的音频信号更加自然、流畅,能够更准确的反映出说话者的情绪、音色、重音等特征,将经过翻译合成后的音频信号传输至翻译耳机,完成自然、流畅的声音克隆翻译,解决现有的声音克隆翻译的话语不自然、不流畅的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种用于翻译耳机的声音克隆方法流程示意图;
图2为重音识别指数获取流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种用于翻译耳机的声音克隆方法流程图,该方法包括以下步骤:
步骤S001、采集语音数据并进行预处理,获取待译语音数据。
通过耳机内的麦克风采集说话者的语音数据,将所得语音数据缓存至耳机中,进而使用耳机WiFi通路将耳机中缓存的语音数据上传至实时流服务器中,获取实时流服务器中按照时间顺序进行排列的语音数据。记耳机中缓存的语音数据时长的经验值为100毫秒,语音数据的采样频率经验值取16kHz。
对按照时间顺序进行排列的语音数据使用语音端点检测算法,获取语音数据对应的时间段内说话语音的起始点与终止点,将说话语音的起始点与终止点之间的语音数据记为语音段,将语音数据不是语音段的语音数据记为非语音段。其中,语音端点检测算法可使用双门限法,双门限法为公知技术,不再赘述。
在采集语音段的过程中,由于环境等因素的干扰,采集的语音段中包含大量噪声。为避免噪声对后续的语音处理过程和结果产生影响,需要对所得语音段进行去噪处理。常用的语音去噪技术包括小波变换去噪、谱减算法、自适应滤波算法等。为适应不同环境的噪声,达到更好的去噪效果,使用自适应滤波算法对语音段进行去噪处理,获取去噪后的语音段。其中,自适应滤波算法为公知技术,不再赘述。
为减少语音段中音频振幅的变化,提高语音识别的准确率,对去噪后的语音段进行归一化处理,使语音段更为均衡。使用峰值归一化的方法对去噪后的语音段进行归一化处理,获取预处理后的语音段。其中,峰值归一化方法为公知技术,不再赘述。
将预处理后的语音段的语言类型记为待译语言,将待译语言的语音段记为待译语音数据。
至此,获取待译语音数据。
步骤S002、将待译语音数据划分为待译语音帧,获取待译语音帧的待译音频特征向量,获取待译语音帧的长期语音帧窗,根据待译语音帧的长期语音帧窗内包含的待译语音帧的待译音频特征向量获取待译音频帧窗矩阵,获取待译音频帧窗矩阵中包含的所有元素的影响权重,根据待译语音帧的待译音频帧窗矩阵内包含的元素和所有元素的影响权重获取待译语音帧的情绪变异指数。
对待译语音数据进行分帧处理,将待译语音数据划分时间长度为第一预设阈值的时间段,将每个待译语音数据划分为的时间段记为待译语音帧。其中,第一预设阈值为20毫秒。对待译语音帧使用快速傅里叶变换算法进行处理,将待译语音帧从时域转换到频域,获取待译语音帧的频谱图,根据待译语音帧的频谱图获取待译语音帧振幅的最大值、基频频率和峰值,将待译语音帧振幅的最大值记为第一振幅极值。其中,分帧处理和快速傅里叶变换为公知技术,不再赘述。
人的声音是由声带振动引起的,声带振动的振幅能够反映声音的响度,即音量大小,声带的基频决定了声音的音调高低。同时,声带振动时会产生谐波,谐波通常为基频的整数倍,表现为频率的峰值,同时,谐波决定声音的音色。
所以,根据影响声音特征的因素构建待译语音帧的待译音频特征向量,待译音频特征向量用以反映待译语音帧对应的说话者的声音特征。
其中,表示第/>个待译语音帧的待译音频特征向量,/>表示第/>个待译语音帧的基频频率,/>表示第/>个待译语音帧的第一振幅极值,/>表示第/>个语音帧频率的峰值,其中,;/>表示待译语音数据中包含的待译语音帧的数量。
人在情绪稳定的情况下讲话时,吐字往往更加清晰,所说出的话更具有条理性,反映到声音中即为待译音频特征向量中各元素伴随着时间变化较为稳定;反之,人在情绪激动的情况下讲话时,可能存在声音不稳、吐字不清晰的现象,且所说的话可能不具有一定的条理性,反映到声音中,即为待译音频特征向量中各元素在相邻帧上的变化较大。
按照时间顺序选取待译语音帧相邻的第二预设阈值个待译语音帧,将选取的待译语音帧记为中心待译语音帧的长期语音帧窗。其中,第二预设阈值为60。选取待译语音帧的长期语音帧窗内包含的各待译语音帧的待译音频特征向量,将待译音频特征向量按照对应的时间的先后顺序,从上至下依次排列,获取待译音频帧窗矩阵,对待译音频帧窗矩阵使用熵权法进行处理,获取各待译音频特征向量中每个元素的影响权重。其中,熵权法根据数据提供的信息量确定数据的权重,对信息量越大的数据赋予越高的权重,熵权法为公知技术,不再赘述。
根据待译语音帧的待译音频帧窗矩阵内包含的元素和每个元素的影响权重获取待译语音帧的情绪变异指数,情绪变异指数用以反映说话者在说话时的情绪波动情况。
其中,表示第/>个待译语音帧的情绪变异指数;/>表示第/>个待译语音帧的长期语音帧窗内包含的待译语音帧的数量,取值为第二预设阈值;/>表示第/>个待译语音帧的待译音频特征向量中包含的元素个数;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译音频特征向量中第/>个元素的影响权重;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译音频特征向量中第/>个元素;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译音频特征向量中第/>个元素。
当待译语音帧的长期语音帧窗内包含的不同待译音频特征向量对应元素之间的差异越大时,待译语音帧的情绪变异指数越大,即说话者在说该段话时情绪较为激动,导致说话时的音调、响度等发生较大程度的变化;当待译语音帧的长期语音帧窗内包含的不同待译音频特征向量对应元素之间的差异越小时,待译语音帧的情绪变异指数越小,即说话者此时情绪较为平缓,说话时的音调、响度等较为平稳、未发生较大变化。其中,待译音频特征向量对应元素包含基频频率、第一振幅极值和峰值。
至此,获取待译语音帧的情绪变异指数。
步骤S003、获取待译语音帧的短期语音帧窗,根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数。
通常情况下,说话者在想强调所说话中的重点时,会将话中的重点部分发重音,即对将话中的重点部分重读,话中的其余非重点部分在说话时则比较平稳。由于同一句语言中的关键字较短、重点较少,所以,同一句语言对应的各待译语音帧的待译音频特征向量之间通常较为稳定,只在重音部分短暂的发生突变现象。与情绪激动不同的是,情绪激动时,同一句语言对应的各待译语音帧的待译音频特征向量之间变化均较大,以此为基础构建重音识别指数,重音识别指数用以衡量语言对应的说话者想要表述的重点内容。
按照时间顺序选取待译语音帧相邻的第三预设阈值个待译语音帧,将选取的待译语音帧记为中心待译语音帧的短期语音帧窗。其中,第三预设阈值为20。
根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数。
其中,表示第/>个待译语音帧的重音识别指数;/>表示第/>个待译语音帧的情绪变异指数;/>表示第/>个待译语音帧的短期语音帧窗内包含的待译语音帧的数量,取值为第三预设阈值;/>表示第/>个待译语音帧的待译音频特征向量中包含的元素个数;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;/>表示第一调参因子,经验值为1;/>表示双曲正切函数。
式中,使用双曲正切函数的原因为:双曲正切函数在0附近的梯度值较大,可以更为敏感地衡量待译语音帧的短期语音帧窗内不同待译语音帧的待译音频特征向量之间差异。
当待译语音帧的情绪变异指数越小时,表明此时说话者的情绪状态越稳定,同时,当待译语音帧的短期语音帧窗内不同待译语音帧的待译音频特征向量之间差异越大时,待译语音帧的重音识别指数越大,此时说话者所讲述的内容越可能为重点强调内容。其中,重音识别指数获取流程图如图2所示。
至此,获取待译语音帧的重音识别指数。
步骤S004、根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机。
将待译语音数据作为隐马尔可夫模型的输入,得到待译语音数据转换后的文本数据,将文本数据记为待译文本数据。将待译文本数据要翻译为的语言类型记为目标语言,例如,英译汉时,英语语音数据为待译语音数据,英语为待译语言,汉语为目标语言。
将待译文本数据作为Seq2Seq神经机器翻译模型的输入,得到目标语言文本数据。通过jieba分词库将目标语言文本数据进行分词处理,将目标语言文本分解为若干词语,将词语按照词语在目标语言文本中的顺序进行排列,获取目标语言文本分词序列。通过词嵌入向量模型将目标语言文本分词序列中的词语转换为词向量,得到目标语言分词向量序列。
分别将各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量按照其对应的获取时间顺序进行排列,获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列。
将目标语言分词向量序列、重音识别指数序列、情绪变异指数序列和待译音频特征向量序列进行对齐,将对齐后的目标语言分词向量序列、重音识别指数序列、情绪变异指数序列和待译音频特征向量序列作为音频合成器的音频合成单元中WaveNet深度学习模型的输入,得到经过翻译、与说话者特征合成后的目标语言音频波形。
将目标语言音频波形作为Griffin-Lim声码器的输入,解码生成语音信号,得到经过翻译合成后的音频信号。
其中,通过隐马尔可夫模型进行语音识别、通过Seq2Seq神经机器翻译模型对待译文本数据进行翻译、通过WaveNet深度学习模型生成语音波形、通过Griffin-Lim声码器解码生成语音信号均为公知技术,不再赘述。
将经过翻译合成后的音频信号通过WiFi通路从实时流服务器中传输至翻译耳机中,使用户听到说话者所述语言经过翻译、声音克隆后的声音。其中,经过翻译合成后的音频信号保留了说话者话语中的语气、情绪、音色、重音等声音特征,使翻译效果更好,便于用户更能真实的理解说话者的情感,使用户能够在多语言环境中更轻松愉快的与他人进行交流,同时,有助于促进不同文化间的相互交流。
至此,完成自然、流畅的声音克隆翻译。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于翻译耳机的声音克隆方法,其特征在于,该方法包括以下步骤:
采集语音数据并进行预处理,获取待译语音数据;
将待译语音数据划分为待译语音帧,获取待译语音帧的待译音频特征向量,获取待译语音帧的长期语音帧窗,根据待译语音帧的长期语音帧窗内包含的待译语音帧的待译音频特征向量获取待译音频帧窗矩阵,获取待译音频帧窗矩阵中包含的所有元素的影响权重,根据待译语音帧的待译音频帧窗矩阵内包含的元素和所有元素的影响权重获取待译语音帧的情绪变异指数;
获取待译语音帧的短期语音帧窗,根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数;
根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机;
所述获取待译语音帧的短期语音帧窗,包括的具体方法为:将与待译语音帧相邻的第三预设阈值个待译语音帧记为中心待译语音帧的短期语音帧窗;
所述根据待译语音帧的短期语音帧窗内包含的待译语音帧的待译音频特征向量和待译语音帧的情绪变异指数获取待译语音帧的重音识别指数,包括的具体方法为:
其中,表示第/>个待译语音帧的重音识别指数;/>表示第/>个待译语音帧的情绪变异指数;/>表示第/>个待译语音帧的短期语音帧窗内包含的待译语音帧的数量;/>表示第/>个待译语音帧的待译音频特征向量中包含的元素个数;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;/>表示第/>个待译语音帧的长期语音帧窗内包含的第/>个待译语音帧的待译音频特征向量中第/>个元素;/>表示第一调参因子;/>表示双曲正切函数。
2.根据权利要求1所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述采集语音数据并进行预处理,获取待译语音数据,包括的具体方法为:
采集语音数据并按照时间顺序进行排列;
获取语音数据中说话语音的起始点与终止点,将说话语音的起始点与终止点之间的语音数据记为语音段,将语音数据不是语音段的语音数据记为非语音段;
对语音段进行去噪处理和归一化处理,获取待译语音数据。
3.根据权利要求2所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述将待译语音数据划分为待译语音帧,获取待译语音帧的待译音频特征向量,包括的具体方法为:
将待译语音数据划分为等长度的待译语音帧;
将待译语音帧从时域转换到频域,获取待译语音帧的频谱图;
根据待译语音帧的频谱图获取待译语音帧振幅的最大值、基频频率和峰值,将待译语音帧振幅的最大值记为第一振幅极值;
将待译语音帧的基频频率、第一振幅极值和峰值组成的向量记为待译语音帧的待译音频特征向量。
4.根据权利要求3所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述获取待译语音帧的长期语音帧窗,根据待译语音帧的长期语音帧窗内包含的待译语音帧的待译音频特征向量获取待译音频帧窗矩阵,包括的具体方法为:
将与待译语音帧相邻的第二预设阈值个待译语音帧记为中心待译语音帧的长期语音帧窗;
将待译语音帧的长期语音帧窗内包含的所有待译语音帧的待译音频特征向量按照时间的先后顺序、从上至下依次排列,获取待译音频帧窗矩阵。
5.根据权利要求4所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述获取待译音频帧窗矩阵中包含的所有元素的影响权重,包括的具体方法为:
根据待译音频帧窗矩阵中元素的信息量获取每个元素的影响权重。
6.根据权利要求1所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述根据待译语音帧的待译音频帧窗矩阵内包含的元素和所有元素的影响权重获取待译语音帧的情绪变异指数,包括的具体方法为:
将每个待译语音帧分别作为第一待译语音帧;
将第一待译语音帧的长期语音帧窗内包含的待译语音帧中相邻的待译语音帧记为相邻第二待译语音帧,将相邻第二待译语音帧中编号最大的待译语音帧记为第三待译语音帧;
将相邻第二待译语音帧的待译音频特征向量中对应元素的差值的绝对值与第三待译语音帧的影响权重的乘积记为第一加权值;
将相邻第二待译语音帧的待译音频特征向量中所有第一加权值的和记为第一加权和;
将第一待译语音帧的长期语音帧窗内所有第一加权和的和与长期语音帧窗内包含的待译语音帧数量的比值记为第一待译语音帧的情绪变异指数。
7.根据权利要求1所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述根据待译语音数据获取目标语言分词向量序列,根据各待译语音帧的重音识别指数、情绪变异指数和待译音频特征向量获取重音识别指数序列、情绪变异指数序列和待译音频特征向量序列,包括的具体方法为:
将待译语音数据转换为文本数据,将文本数据记为待译文本数据;
将待译文本数据翻译为目标语言,获取目标语言文本数据;
对目标语言文本数据进行分词处理,将分词后获取的词语按照词语的原顺序进行排列,获取目标语言文本分词序列;
将目标语言文本分词序列中的词语转换为词向量,获取目标语言分词向量序列;
将待译语音帧的重音识别指数按照待译语音帧的获取时间顺序进行排列,获取重音识别指数序列;
获取情绪变异指数序列和待译音频特征向量序列。
8.根据权利要求7所述的一种用于翻译耳机的声音克隆方法,其特征在于,所述获取经过翻译合成后的音频信号,将经过翻译合成后的音频信号传输至翻译耳机,包括的具体方法为:
将目标语言分词向量序列、重音识别指数序列、情绪变异指数序列和待译音频特征向量序列进行对齐并作为WaveNet深度学习模型的输入,获取目标语言音频波形;
将目标语言音频波形解码生成语音信号,获取经过翻译合成后的音频信号;
将经过翻译合成后的音频信号传输至翻译耳机,完成自然、流畅的声音克隆翻译。
CN202311558033.3A 2023-11-22 2023-11-22 一种用于翻译耳机的声音克隆方法 Active CN117275455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311558033.3A CN117275455B (zh) 2023-11-22 2023-11-22 一种用于翻译耳机的声音克隆方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311558033.3A CN117275455B (zh) 2023-11-22 2023-11-22 一种用于翻译耳机的声音克隆方法

Publications (2)

Publication Number Publication Date
CN117275455A CN117275455A (zh) 2023-12-22
CN117275455B true CN117275455B (zh) 2024-02-13

Family

ID=89218132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311558033.3A Active CN117275455B (zh) 2023-11-22 2023-11-22 一种用于翻译耳机的声音克隆方法

Country Status (1)

Country Link
CN (1) CN117275455B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
KR20140123715A (ko) * 2013-04-15 2014-10-23 한국과학기술원 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
US10423727B1 (en) * 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN113160852A (zh) * 2021-04-16 2021-07-23 平安科技(深圳)有限公司 语音情绪识别方法、装置、设备及存储介质
CN114358026A (zh) * 2021-12-23 2022-04-15 科大讯飞股份有限公司 语音翻译方法、装置、设备和计算机可读存储介质
CN116933806A (zh) * 2023-08-15 2023-10-24 宁波译链科技有限公司 一种同传翻译系统及同传翻译终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
KR20140123715A (ko) * 2013-04-15 2014-10-23 한국과학기술원 감정 전달이 가능한 라이브 텍스트 및 라이브 텍스트를 이용한 라이브 보이스를 제공하기 위한 텍스트 편집 및 보이스 변환 시스템 및 방법
CN107315742A (zh) * 2017-07-03 2017-11-03 中国科学院自动化研究所 具有人机对话功能的拟人化口语翻译方法及系统
US10423727B1 (en) * 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN113160852A (zh) * 2021-04-16 2021-07-23 平安科技(深圳)有限公司 语音情绪识别方法、装置、设备及存储介质
CN114358026A (zh) * 2021-12-23 2022-04-15 科大讯飞股份有限公司 语音翻译方法、装置、设备和计算机可读存储介质
CN116933806A (zh) * 2023-08-15 2023-10-24 宁波译链科技有限公司 一种同传翻译系统及同传翻译终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《嵌入式语音翻译系统的研究》;屈庆琳;《中国优秀硕士学位论文全文数据库信息科技辑》;I136-160 *

Also Published As

Publication number Publication date
CN117275455A (zh) 2023-12-22

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
CN102779508B (zh) 语音库生成设备及其方法、语音合成系统及其方法
AU2016262636B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
WO2020145353A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び音声信号処理方法
CN110570842B (zh) 基于音素近似度和发音标准度的语音识别方法及系统
CN110767210A (zh) 一种生成个性化语音的方法及装置
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
GB2603776A (en) Methods and systems for modifying speech generated by a text-to-speech synthesiser
US9685169B2 (en) Coherent pitch and intensity modification of speech signals
Savchenko Method for reduction of speech signal autoregression model for speech transmission systems on low-speed communication channels
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN117275455B (zh) 一种用于翻译耳机的声音克隆方法
Csapó et al. Modeling irregular voice in statistical parametric speech synthesis with residual codebook based excitation
Lian et al. Whisper to normal speech based on deep neural networks with MCC and F0 features
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Fujiwara et al. Data augmentation based on frequency warping for recognition of cleft palate speech
CN114913844A (zh) 一种基音归一化重构的广播语种识别方法
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
Kurian et al. Connected digit speech recognition system for Malayalam language
CN113838169A (zh) 一种基于文本驱动的虚拟人微表情表达方法
CN113539239A (zh) 语音转换方法、装置、存储介质及电子设备
CN114550741A (zh) 一种语义识别的方法和系统
Wang et al. Beijing opera synthesis based on straight algorithm and deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant