CN115956269A

CN115956269A - 语音转换装置、语音转换方法、程序及记录介质

Info

Publication number: CN115956269A
Application number: CN202280005607.1A
Authority: CN
Inventors: 广芝和之; 小田桐优理; 北冈伸也
Original assignee: Dwango Co Ltd
Current assignee: Dwango Co Ltd
Priority date: 2021-06-30
Filing date: 2022-06-01
Publication date: 2023-04-11
Also published as: WO2023276539A1; JP2023007405A; US20230317090A1; JP7069386B1; JP2023006218A

Abstract

语音转换装置(1)具备：输入部(11)，其输入转换目标语音的指定；提取部(12)，其对转换源语音的语音信号进行解析来提取包含音素和音高的时序数据；调整部(13)，其使音高的高度与被指定的转换目标语音的高度一致；以及生成部(14)，其生成将音素和音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的转换目标语音的语音信号。

Description

语音转换装置、语音转换方法、程序及记录介质

技术领域

本发明涉及语音转换装置、语音转换方法、程序及记录介质。

背景技术

随着发布在虚拟空间内操作了计算机图形角色(以下，称为虚拟形象)的影像的服务的扩展，期望与虚拟形象的外观相符的语音转换。例如，即使在操作虚拟形象的发布者的性别及年龄不符合虚拟形象的外观的情况下，也可以将发布者的语音转换为符合虚拟形象的外观的语音。

包含语音转换的语音合成的品质由于这几年深度学习技术的进步而大幅地提高。其中，通过采取了一点一点地生成语音样本的自回归方法的深度学习模型WaveNet，能够合成与实际的语音几乎没有差别的品质的语音。WaveNet合成的品质高，另一方面存在合成的速度慢的弱点，也出现了改善了这一点的Wave RNN等模型。

现有技术文献

专利文献

专利文献1：日本专利第6783475号

发明内容

发明所要解决的课题

在使用了深度学习的语音转换的方法之一中，有如下方法：准备通过转换源语音和转换目标语音朗读相同文章的语音的配对数据，将这些配对数据作为学习数据来进行语音转换。但是，该方法需要让转换源语音的人朗读多个文章来对语音进行录音，再利用该语音数据进行深度学习，因此存在非常花费时间的问题。在语音转换的深度学习中需要转换源的语音数据是因为想要通过深度学习来直接(End-to-End)解决语音转换。

另外，存在想要对相同外观的虚拟形象以相同的语音说话的要求。即，期望无论是谁的语音都能够转换为相同语音。进而，若能够从任何人的语音转换为各种各样的人的语音，则能够选择发布者所希望的语音作为虚拟形象的语音，或者由一个或者少数的发布者操作大量虚拟形象。

本发明是鉴于所述情况而完成的，其目的在于，无论谁的语音，都转换为各种人的语音。

用于解决课题的手段

本发明的一个方式的语音转换装置具备：输入部，其输入转换目标语音的指定；提取部，其对转换源语音的语音信号进行解析而提取包含音素和音高的时序数据；调整部，其使所述音高的高度与被指定的所述转换目标语音的高度一致；以及生成部，其生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音信号。

本发明的一个方式的语音转换方法中，计算机输入转换目标语音的指定，对转换源语音的语音信号进行解析而提取包含音素和音高的时序数据，使所述音高的高度与被指定的所述转换目标语音的高度一致，生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音信号。

发明效果

根据本发明，无论谁的语音，都能够转换为各种人的语音。

附图说明

图1是表示本实施方式的语音转换装置的结构的一例的图。

图2是用于说明音高的高度调整的图。

图3是用于说明语音转换装置的深度学习模型的图。

图4是表示不限定转换源语音而能够进行语音转换的情形的图。

图5是表示语音转换装置的处理流程的一例的流程图。

图6是表示本实施方式的语音转换装置的变形例的结构的一例的图。

图7是表示使用了语音转换装置的Web应用的画面的一例的图。

图8是表示将速度转换装置连接到语音转换装置的结构的一个例子的图。

具体实施方式

[结构]

以下，使用附图对本发明的实施方式进行说明。

参照图1，对本实施方式的语音转换装置1的结构的一例进行说明。图1所示的语音转换装置1具备输入部11、提取部12、调整部13以及生成部14。语音转换装置1所具备的各部也可以由具备运算处理装置、存储装置等的计算机构成，各部的处理通过程序来执行。该程序存储在语音转换装置1所具备的存储装置中，也能够记录在磁盘、光盘、半导体存储器等记录介质中或通过网络提供。

输入部11输入转换目标语音的指定。例如，输入部11可以输入转换目标语音的识别符或者名字，也可以输入转换目标语音的属性(性别、大人的语音、小孩的语音、高的语音或者低的语音等)。在输入了转换目标语音的属性的情况下，输入部11从转换目标语音的候选中选择与该属性相应的转换目标语音。

提取部12输入转换源语音的语音信号(以下，称为语音数据)，对转换源语音进行语音识别，从转换源语音中提取包含音素(子音+元音)和针对各音素的音高(pitch)的时序数据。音高也包含抑扬、音调以及语音的长度等语音信息。提取部12既可以读入记录有语音数据的文件，也可以使用语音转换装置1具备的麦克风(未图示)输入语音数据，也可以从与语音转换装置1具备的外部端子连接的设备输入语音数据。提取部12通过现有的语音识别技术，从语音数据中提取音素和音高。例如，在音素的提取中能够利用OpenJTalk，在音高的提取中能够利用WORLD。此外，音素的数量由语音数据的内容(文本的内容)决定，音高的数量由语音数据的长度决定，因此音素和音高也可以不是一一对应。

提取部12也可以与语音数据一起输入与语音数据相同内容的文章。提取部12可以从输入的文章中提取音素，也可以通过输入的文章来修正语音数据的语音识别结果。通过输入语音和文章双方，能够实现音素读取的准确性和音高信息的获得这两者。例如，在由于口齿不清的情况等理由，识别出错误的音素的情况下，能够用输入的文章进行调整。

提取部12按照时序顺序向生成部14发送音素，并且向调整部13发送音高。音高由调整部13进行高度调整后发送到生成部14。

如图2所示，调整部13对提取部12提取出的每个音素的音高实施线性转换，使转换源语音的高度与转换目标语音的高度一致。例如，调整部13将较低的语音转换为较高的语音，或者将较高的语音转换为较低的语音。另外，转换目标语音的高度是已知的，保持在语音转换装置1具备的存储装置中。调整部13可以针对每个转换目标语音计算语音的高度的平均，将转换源语音的高度的平均调整为转换目标语音的高度的平均。

生成部14将音素和转换后的音高输入到学习完多人的语音数据的深度学习模型，合成用由输入部11指定的转换目标语音发声的语音信号。生成部14所保持的深度学习模型，当输入音素和音高时，输出用由输入部11指定的语音发声的语音信号。深度学习模型例如能够使用Wave RNN。在提取转换源语音数据的音素时，提取各音素的发声区间并附随于各音素，将各音素和音高输入到生成部14，从而生成部14能够输出保持转换源语音数据的发声期间的语音。关于无音区间，也可以将无音区间输入到生成部14，并输出相同长度的无音区间。

语音转换装置1也可以具备学习部15。学习部15从成为转换目标语音的多人的语音数据中提取音素以及音高，学习能够从音素和音高分别合成提取源的多人的语音的深度学习模型。例如，在本实施方式中，从100人的专业说话者的高音质的语音数据即JVS语料库中提取音素和音高，学习了当输入音素和音高时，将100人的专业说话者中的指定的人的语音进行合成并输出的深度学习模型。通过将多人的说话者的语音一起进行深度学习，即使各说话者的语音数据少，也能够以高质量合成各说话者的语音。

如以上说明的那样，在本实施方式中，将转换源语音分解为不依赖于说话者的要素，从分解出的要素合成转换目标语音，从而能够进行不转换转换源语音的波形的语音转换。具体而言，如图3所示，在进行语音转换时，从语音数据中提取音素作为语言信息，提取音高和发音定时作为非语言信息，将提取出的音素和音高输入到深度学习模型来对转换目标语音进行语音合成。

在本实施方式中，由于将转换源语音分解为不依赖于说话者的要素后进行语音合成，所以不需要学习转换源语音和转换目标语音的配对数据，如图4所示，无论是谁的语音，都可以转换成用于学习的各种各样的人的语音。

[动作]

接着，参照图5的流程图，对语音转换装置1的语音转换的动作进行说明。

在步骤S11中，语音转换装置1输入转换目标语音的指定。

在步骤S12中，语音转换装置1输入转换目标语音的语音数据，从语音数据中提取音素和音高。

在步骤S13中，语音转换装置1将在步骤S12中提取出的音高与转换目标语音一致地进行转换。

在步骤S14中，语音转换装置1将音素和转换后的音高输入到深度学习模型，合成转换目标语音并输出。在以多人的语音进行输出的情况下，重复步骤S13和步骤S14的处理，合成多个转换目标语音。

[变形例]

接着，参照图6，对本实施方式的语音转换装置1的变形例的结构的一例进行说明。图6所示的语音转换装置1具备输入部11、调整部13、生成部14、音素取得部16以及音高生成部17。图6的语音转换装置1与图1的语音转换装置1在取代提取部12而具备音素取得部16和音高生成部17这一点上不同，不是输入语音数据而是输入文本，输出指定的转换目标语音的语音信号。

输入部11输入转换目标语音的指定。

音素取得部16输入文本，从输入的文本取得音素。例如，音素取得部16对输入的文本进行词素分析，生成用字符代码表现语音的语音符号串，从语音符号串取得音素。音素取得部16保持单词等音调信息，在从文本取得音素时，向音高生成部17指示基于音调的音高的生成。

音高生成部17生成与音素对应的音高。例如，音高生成部17将标准的音高存储在存储装置中，读出并输出与所指定的音调对应的音高。

调整部13使音高生成部17生成的音高与转换目标语音的音高一致。

生成部14向深度学习模型输入音素和线性转换后的音高，合成用由输入部11指定的转换目标语音发声的语音信号。

[实施例]

接着，说明利用了本实施方式的语音转换装置1的实施例。

图7是表示当输入语音时转换为多人的语音的Web应用的画面100的一例的图。例如，当用户通过移动终端或个人计算机(PC)的浏览器访问提供语音转换服务的网站时，显示图7的画面100。

在画面100内配置有录音按钮110、文本输入栏120、转换目标语音标签130A～130D、语音转换按钮140以及转换目标语音播放按钮150A～150D。

用户按下录音按钮110，从与便携终端或PC连接的麦克风输入语音。由此，用户的语音的语音数据被录音。

用户在文本输入栏120中输入与所录音的语音相同内容的文章。例如，在用户进行了“早上好”的录音的情况下，用户在文本输入栏120中输入“早上好”。也可以利用便携终端或PC的语音识别功能，将与用户录音的语音相同内容的文章自动地输入到文本输入栏120。

在转换目标语音标签130A～130D中显示表示转换目标语音的标签。在图7的例子中，显示有“语音1”、“语音12”、“语音31”以及“语音99”的标签。这表示被转换为第1号、第12号、第31号、第99号的人的语音。转换目标语音既可以事先决定，也可以随机选择。或者，用户也可以选择转换目标语音。

当用户按下语音转换按钮140时，开始语音转换处理。具体而言，将所录音的语音数据、输入到文本输入栏120的文章以及转换目标语音标签130A～130D所示的语音的识别符输入到语音转换装置1。语音转换装置1从语音数据中提取音素和音高，并且也从文章中提取音素。语音转换装置1可以通过从文章中提取的音素来修正从语音数据中提取出的音素，也可以在后段的处理中使用从文章中提取出的音素。语音转换装置1对转换目标语音标签130A～130D所示的转换目标语音分别进行音高的高度调整和语音合成，输出将用户的语音分别语音转换为转换目标语音的语音数据。

在语音转换处理后，当用户按下转换目标语音播放按钮150A～150D时，播放与转换目标语音播放按钮150A～150D对应的语音的语音数据。

接着，对将本实施方式的语音转换装置用于语音的速度转换的例子进行说明。在将语音转换装置1用于语音的速度转换的情况下，输入部11受理播放速度的指定，将包含提取部12提取出的音素和音高的时序数据在时间方向上压缩或伸长后输入到生成部14。例如，在以倍速进行播放的情况下，对提取部12提取出的音素的发声区间进行压缩，并且调整部13在将音高在时间方向压缩之后，将音高调整为转换目标语音的高度，将音素和音高输入到生成部14。由此，输入语音以无不适感的音质(转换目标语音)进行倍速播放。转换目标语音可以选择任意的语音。如果作为转换目标语音选择接近转换源语音的语音，则能够更无不适感地变更语音的播放速度。在缓慢播放输入语音的情况下，使音素的发声区间伸长，并且使音高在时间方向上伸长即可。

在图8中示出了将速度转换装置3连接到语音转换装置1的例子。速度转换装置3输入语音(也可以是动态图像)，改变输入语音的播放速度进行快进播放或缓慢播放。改变了播放速度的语音的音高发生变化而变高或者变低。

当将改变了播放速度的(音高变化了的)语音输入到语音转换装置1时，语音转换装置1从改变了播放速度的语音数据中提取音素和音高，将提取出的音高线性转换为转换目标语音的高度，将音素和音高输入到深度学习模型，合成基于转换目标语音的语音。由此，由于播放速度的变更而音高变化了的语音在播放速度变更后的发声定时以转换目标语音播放。另外，通过输入与向语音转换装置1输入的语音的内容相同的文本数据，能够掩饰快进播放的语音的识别率的降低。

在图8中，由不同的装置构成了语音转换装置1和速度转换装置3，但语音转换装置1也可以具备速度转换装置3的功能。另外，即使在不具备速度转换装置3的情况下，如果将倍速播放或缓慢播放的语音输入到语音转换装置1，则能够使速度保持倍速或者缓慢而转换为通常时的语音高度的自然的语音。

如以上说明的那样，本实施方式的语音转换装置1具备：输入部11，其输入转换目标语音的指定；提取部12，其对转换源语音的语音信号进行解析而提取包含音素和音高的时序数据；调整部13，其使音高的高度与被指定的转换目标语音的高度一致；以及生成部14，其生成将音素和音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型而合成了指定的转换目标语音的语音信号。在本实施方式中，将转换源语音分解为不依赖于说话者的音素和音高，根据音素和音高合成转换目标语音，从而能够进行不转换转换源语音的波形的语音转换。由此，仅通过学习从音素和音高进行语音合成的深度学习模型，不使用转换源语音数据，任何人的语音都能够转换为转换目标语音。

附图标记的说明

1语音转换装置、

11输入部、

12提取部、

13调整部、

14生成部、

15学习部、

16音素取得部、

17音高生成部、

3速度转换装置。

Claims

1.一种语音转换装置，其特征在于，

该语音转换装置具备：

输入部，其输入转换目标语音的指定；

提取部，其解析转换源语音的语音数据来提取包含音素和音高的时序数据；

调整部，其使所述音高的高度与指定的所述转换目标语音的高度一致；以及

生成部，其生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音数据。

2.根据权利要求1所述的语音转换装置，其特征在于，

该语音转换装置具备学习部，该学习部从成为转换目标语音的多人的语音数据提取音素以及音高，学习能够根据音素和音高合成所述多人的语音的各个语音的深度学习模型。

3.根据权利要求1或2所述的语音转换装置，其特征在于，

所述提取部与所述转换源语音的语音数据一起输入与所述转换源语音的说话内容相同的文章，对该文章进行解析而提取音素。

4.根据权利要求1或2所述的语音转换装置，其特征在于，

所述提取部代替所述转换源语音的语音数据而解析文章来提取音素，从存储装置读出与音素对应的音高并发送给所述调整部。

5.根据权利要求1-3中任一项所述的语音转换装置，其特征在于，

所述提取部提取所述音素各自的发声区间，将压缩或伸长后的发声区间输入到所述生成部，

所述调整部与所述发声区间的压缩或伸长一致地将所述音高在时间方向上压缩或伸长。

6.一种语音转换方法，其特征在于，

计算机输入转换目标语音的指定，

对转换源语音的语音数据进行解析来提取包含音素和音高的时序数据，

使所述音高的高度与指定的所述转换目标语音的高度一致，

生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音数据。

7.一种程序，其特征在于，

该程序使计算机执行以下处理：

输入转换目标语音的指定的处理；

解析转换源语音的语音数据来提取包含音素和音高的时序数据的处理；

使所述音高的高度与指定的所述转换目标语音的高度一致的处理；以及

生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音数据的处理。

8.一种记录介质，记录了程序，其特征在于，

该程序使计算机执行以下处理：

输入转换目标语音的指定的处理；