JP7181332B2

JP7181332B2 - 音声変換方法、装置及び電子機器

Info

Publication number: JP7181332B2
Application number: JP2021051620A
Authority: JP
Inventors: シーレイワン，; ウェンフーワン，; タオスン，
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2021-03-25
Publication date: 2022-11-30
Anticipated expiration: 2041-03-25
Also published as: CN112259072A; EP3859735A2; US20210280202A1; JP2021103328A; KR102484967B1; EP3859735A3; KR20210106397A

Description

本出願は、コンピュータ技術分野における音声変換、音声対話、自然言語処理、深層学習技術分野に関し、特に音声変換方法、装置、電子機器及び記憶媒体に関する。

音声変換方法は、１人のユーザの１つの音声をターゲットユーザの音色を有する１つの音声に変換することができ、すなわちターゲットユーザの音色の模倣を実現することができる。現在、関連技術における音声変換方法では、ユーザが音声クリップを事前に録音し、ユーザの音声クリップに基づいてモデルのトレーニングと更新を行った後、更新されたモデルに基づいて音声変換を行う必要があり、この方法はユーザの音声録音に高い要求があり、音声変換を行うたびにモデルを更新する必要があり、音声変換の待ち時間が長く、柔軟性が低い。

音声変換方法、装置、電子機器及び記憶媒体を提供する。

第１の態様によれば、音声変換方法を提供し、第１のユーザのソース音声と第２のユーザの参照音声を取得するステップと、前記ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出するステップと、前記参照音声から第２の音響特性を抽出するステップと、前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するステップであって、前記予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして取得されるステップと、前記第３の音響特性に基づいてターゲット音声を合成するステップと、を含む。

第２の態様によれば、音声変換装置を提供し、第１のユーザのソース音声と第２のユーザの参照音声を取得するための取得モジュールと、前記ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出するための第１の抽出モジュールと、前記参照音声から第２の音響特性を抽出するための第２の抽出モジュールと、前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するための変換モジュールであって、前記予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして取得される変換モジュールと、前記第３の音響特性に基づいてターゲット音声を合成するための合成モジュールと、を備える。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、該少なくとも１つのプロセッサと通信可能に接続されるメモリと、を備え、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが本出願の第１の態様に記載の音声変換方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、コンピュータに本出願の第１の態様に記載の音声変換方法を実行させる。第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記実施例に本出願の第１の態様に記載の音声変換方法を実行させる。

なお、この部分に記載されているコンテンツは、本開示の実施例の主なまたは重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明を通して容易に理解される。

図面は、本技術案をよりよく理解するために使用されており、本出願を限定するものではない。
本出願の第１の実施例に係る音声変換方法の概略フローチャートである。本出願の第２の実施例に係る音声変換方法のシーン概略図である。本出願の第３の実施例に係る音声変換方法のシーン概略図である。本出願の第４の実施例に係る音声変換方法における再構成された第３の音響特性を取得する概略フローチャートである。本出願の第４の実施例に係る音声変換方法における予めトレーニングされた音声変換モデルを取得する概略フローチャートである。本出願の第１の実施例に係る音声変換装置のブロック図である。本出願の第２の実施例に係る音声変換装置のブロック図である。本出願の実施例の音声変換方法を実現するための電子機器のブロック図である。

以下、図面を組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項を含んでおり、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

図１は本出願の第１の実施例に係る音声変換方法の概略フローチャートである。

図１に示すように、本出願の１の実施例の音声変換方法は、ステップＳ１０１～Ｓ１０５を含む。

Ｓ１０１：第１のユーザのソース音声と第２のユーザの参照音声を取得する。

なお、本出願の実施例の音声認識方法の実行本体は、データ情報処理能力を有するハードウェアデバイス及び／又はこのハードウェアデバイスの動作を駆動するために必要なソフトウェアであることができる。選択可能に、実行本体は、ワークステーション、サーバ、コンピュータ、ユーザ端末及びその他の機器を備えることができる。ここで、ユーザ端末は、携帯電話、パソコン、インテリジェントな音声対話型デバイス、スマート家電、車載端末などを含むが、これらに限定されない。

なお、ソース音声は、第１のユーザが発音した、音色が変換されていない音声であり、第１のユーザの音色特徴を有し、参照音声は、第２のユーザが発音した音声であり、第２のユーザの音色特徴を有する。本開示の実施例における音声変換方法は、第１のユーザのソース音声を、第２のユーザの参照音声の表徴を有する第２のユーザの音色の１つの音声に変換して、第２のユーザの音色の模倣を実現することができる。ここで、第１のユーザ、第２のユーザは、人、インテリジェントな音声対話型デバイスなどを含むが、これらに限定されない。

選択可能に、第１のユーザのソース音声、第２のユーザの参照音声は、いずれも録音、ネットワーク転送など方式によって取得できる。

なお、録音の方式によって第１のユーザのソース音声及び／又は第２のユーザの参照音声を取得する場合、機器には音声収集装置があり、音声収集装置は、マイクロホン（Ｍｉｃｒｏｐｈｏｎｅ）、マイクロホンアレイ（ＭｉｃｒｏｐｈｏｎｅＡｒｒａｙ）などであってもよい。

または、ネットワーク転送の方式によって第１のユーザのソース音声及び／又は第２のユーザの参照音声を取得する場合、機器にはネットワーク装置があり、ネットワーク装置によって他の機器またはサーバとネットワーク転送を行うことができる。

具体的な実施では、本開示の実施例の音声変換方法はインテリジェントな音声対話型デバイスに適用されることができ、このインテリジェントな音声対話型デバイスは文章の朗読、質問応答などの機能を実現することができる。あるユーザが、インテリジェントな音声対話型デバイスのある文字を朗読する音色を自分の音色に置き換えたい場合、その応用シーンでは、インテリジェントな音声対話型デバイスがある文字を朗読するソース音声を取得し、自分の参照音声を録音することができる。

具体的な実施では、本開示の実施例の音声変換方法は、あるビデオＡＰＰ（Ａｐｐｌｉｃａｔｉｏｎ、アプリケーション）に適用することもでき、このビデオＡＰＰは、映画・テレビ作品の二次創作を実現することができ、例えば、ユーザは、映画・テレビ作品におけるある音声を、ある俳優の音色を有しながら語意が異なる音声に置き換えることができ、その応用シーンでは、ユーザが１つの自分のソース音声を録音し、ある俳優の参照音声をインターネットでダウンロードすることができる。

Ｓ１０２：ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出する。

本開示の実施例では、第１の音声コンテンツ情報は、ソース音声の音声テキスト、語意テキストを含むが、これに限定されない。第１の音響特性は、メル（Ｍｅｌ）特徴、メルケプストラム係数（Ｍｅｌ－ｓｃａｌｅＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ、ＭＦＣＣ）特徴、知覚線形予測（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔ、ＰＬＰ）特徴などを含むが、ここでは過度に限定しない。

具体的な実施では、音声認識モデルによってソース音声から第１の音声コンテンツ情報を抽出することができ、及び音響モデルによってソース音声から第１の音響特性を抽出することができ、音声認識モデル、音響モデルはいずれも実際の状況に基づいて予め設定できる。

Ｓ１０３：参照音声から第２の音響特性を抽出する。

ステップＳ１０３の具体的な実現プロセス及び原理は、上記実施例におけるソース音声から第１の音響特性を抽出する関連コンテンツを参照し、ここでは説明を省略する。

Ｓ１０４：第１の音声コンテンツ情報、第１の音響特性及び第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得し、予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして取得される。

本開示の実施例では、第３のユーザの音声に基づいて音声変換モデルを予めトレーニングして、第１の音声コンテンツ情報、第１の音響特性及び第２の音響特性に基づいて、再構成された第３の音響特性を取得するための予めトレーニングされた音声変換モデルを取得することができる。

なお、第３の音響特性に関する関連コンテンツは上記実施例における第１の音響特性の関連コンテンツを参照することができ、ここでは説明を省略する。

選択可能に、第１の音響特性、第２の音響特性及び第３の音響特性はいずれもメル特徴であってもよい。

なお、予めトレーニングされた音声変換モデルは第１のユーザ、第２のユーザに関係なく、関連技術中において毎回音声変換を行う前に、ユーザが長い時間の高品質な音声を録音し、ユーザで録音された音声に基づいて音声変換モデルをトレーニングと更新する必要がある方法と比較して、当該方法における音声変換モデルが予め構築され、後続に異なるユーザに基づいてトレーニングと更新する必要がなく、柔軟性が高く、コンピューティングリソースとストレージリソースの節約に役立ち、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、ユーザの音声録音に対する要件も低い。

なお、本開示の実施例の音声変換方法は、多言語、多音色切り替えなどの応用シーンに適用できる。ここで、多言語応用シーンは、第１のユーザのソース音声に対応する語種が第２のユーザの参照音声に対応する語種と異なる場合を指し、多音色切り替え応用シーンは、第１のユーザが一意で、第２のユーザが複数である場合を指す。

関連技術において、多言語、多音色切り替えなどの応用シーンでは、複数の異なる音声変換モデルを構築する必要があり、音声変換モデルのトレーニングと更新が煩雑で、音声変換の安定性と流動性が悪いのに対し、本出願では１つの音声変換モデルを予め構築しておくだけで、その後は異なるユーザによるトレーニングと更新が必要とされず、標準語を含む多言語、多音色切り替えなどの応用シーンでの音声変換の安定性と流動性を向上させることに役立つ。

Ｓ１０５：第３の音響特性に基づいてターゲット音声を合成する。

本開示の実施例では、ターゲット音声に対応する音色特徴は第２のユーザの参照音声に対応する音色特徴であってもよく、すなわち当該方法は第２のユーザの音色の模倣を実現することができる。

選択可能に、ターゲット音声に対応する音声コンテンツ情報はソース音声の第１の音声コンテンツ情報であってもよく、すなわち当該方法は第１のユーザのソース音声の音声コンテンツ情報を保留することができる。

選択可能に、ターゲット音声に対応する話速、感情、リズムなどの特徴はソース音声に対応する話速、感情、リズムなどの特徴であってもよく、すなわち当該方法は第１のユーザのソース音声の話速、感情、リズムなどの特徴を保留することができ、ターゲット音声とソース音声の一貫性を向上させることに役立つ。

選択可能に、ボコーダによって第３の音響モデルに基づいてターゲット音声を合成することができる。

要約すると、本出願の実施例の音声変換方法によれば、ソース音声の第１の音声コンテンツ情報と第１の音響特性、及び参照音声の第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得し、再構成された第３の音響特性に基づいてターゲット音声を合成し、音声変換モデルが予め構築され、かつ後続にトレーニングと更新の必要がなく、柔軟性が高く、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、多言語、多音色切り替えなどの応用シーンに適用することができる。

上記いずれかの実施例に基づいて、ステップＳ１０２におけるソース音声から第１の音声コンテンツ情報を抽出するステップは、ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、音声事後確率行列を第１の音声コンテンツ情報とするステップを含むことができる。

なお、音声事後確率行列（ＰｈｏｎｅｔｉｃＰｏｓｔｅｒｉｏｒＧｒａｍ、ＰＰＧ）は、音声の発信者に関係なく、音声の音声コンテンツ情報を特徴付けることができる。

本開示の実施例では、多言語自動音声認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）モデルによって音声事後確率行列を取得し、音声事後確率行列をソース音声の第１の音声コンテンツ情報とすることができる。ここで、多言語自動音声認識モデルはソース音声の語種に限定しなく、複数の異なる語種のソース音声に対して音声認識を行って、音声事後確率行列を取得することができる。

上記いずれかの実施例に基づいて、図２に示すように、ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出し、参照音声から第２の音響特性を抽出し、第１の音声コンテンツ情報、第１の音響特性、及び第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得し、その後第３の音響特性に基づいてターゲット音声を合成して、音声変換を実現することができる。

なお、音声変換モデルには複数のネットワークが含まれることができる。図３を例として、音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含むことができる。

さらに、図４に示すように、ステップＳ１０４における第１の音声コンテンツ情報、第１の音響特性及び第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するステップは、ステップＳ２０１～Ｓ３０２を含むことができる。

Ｓ２０１：第１の音響特性を隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得する。

本開示の実施例では、隠れ変数ネットワークは、第１の音響特性に基づいてソース音声の基本周波数（ＦｕｎｄａｍｅｎｔａｌＦｒｅｑｕｅｎｃｙ）とエネルギーパラメータを取得することができる。ここで、隠れ変数ネットワークは実際の状況に基づいて設定でき、エネルギーパラメータは、ソース音声の周波数、振幅などを含むが、ここでは過度に限定しない。

なお、ソース音声の基本周波数エネルギーパラメータはソース音声の低次元パラメータであり、ソース音声の基本周波数、エネルギーなどの低次元特徴を反映することができる。

選択可能に、前記第１の音響特性を隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップは、第１の音響特性を隠れ変数ネットワークに入力して、隠れ変数ネットワークがフレームスケールで第１の音響特性を圧縮し、圧縮された第１の音響特性から基本周波数エネルギーパラメータを抽出するステップを含むことができる。これにより、当該方法は圧縮の方式によって第１の音響特性から基本周波数エネルギーパラメータを取得することができる。

具体的な実施では、ソース音声の長さがＴ秒であると仮定すると、隠れ変数ネットワークが第１の音響特性に基づいて、Ｔ＊３の大きさの行列を取得することができ、行列にはソース音声の基本周波数エネルギーパラメータが含まれる。

Ｓ２０２：第２の音響特性を音色ネットワークに入力して、音色パラメータを取得する。

本開示の実施例では、音色ネットワークは、第２の音響特性に基づいて参照音声の音色パラメータを取得することができる。ここで、音色ネットワーク実際の状況に基づいて設定でき、例えば、音色ネットワークは、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＤＮＮ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＲＮＮ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）などを含むが、これに限定されない。

なお、参照音声の音色パラメータは参照音声の音色特徴を反映することができる。

選択可能に、前記第２の音響特性を音色ネットワークに入力して、音色パラメータを取得するステップは、第２の音響特性を音色ネットワークに入力するステップであって、音色ネットワークがディープリカレントニューラルネットワーク（ＤｅｅｐＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＤＲＮＮ）及び変分オートエンコーダ（ＶａｒｉａｔｉｏｎａｌＡｕｔｏＥｎｃｏｄｅｒ、ＶＡＥ）によって第２の音響特性を抽象化して、音色パラメータを取得するステップを含むことができる。これにより、当該方法は、抽象化の方式によって第２の音響特性から音色パラメータを取得することができる。

具体的な実施では、音色ネットワークは、第２の音響特性に基づいて１＊６４の行列を取得することができ、行列には参照音声の音色パラメータが含まれる。

Ｓ２０３：第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力して、第３の音響特性を取得する。

本開示の実施例では、再構成ネットワークは、第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて、第３の音響特性を取得することができる。ここで、再構成ネットワークに関する関連コンテンツは上記実施例における音色ネットワークの関連コンテンツを参照することができ、ここでは説明を省略する。

なお、第１の音声コンテンツ情報はソース音声の音声コンテンツ情報を反映することができ、基本周波数エネルギーパラメータはソース音声の基本周波数、エネルギーなどの低次元特徴を反映することができ、音色パラメータは参照音声の音色特徴を反映することができ、第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて取得された第３の音響特性は、ソース音声の音声コンテンツ情報、及びソース音声の基本周波数、エネルギーなどの低次元特徴、及び参照音声の音色特徴を反映することができ、後に第３の音響特性に基づいてターゲット音声を合成する時に、第１のユーザのソース音声的音声コンテンツ情報を保留し、及びターゲット音声の基本周波数とエネルギーの安定性を保持し、及び第２のユーザの参照音声の音色特徴を保留することができるようにする。

選択可能に、前記第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力して、第３の音響特性を取得するステップは、第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータを再構成ネットワークに入力するステップであって、再構成ネットワークがディープリカレントニューラルネットワークによって、第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに対して音響特性再構成を行って、第３の音響特性を取得するステップを含むことができる。

これにより、当該方法における音声変換モデルは、隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、隠れ変数ネットワークは第１の音響特性に基づいてソース音声の基本周波数エネルギーパラメータを取得することができ、音色ネットワークは第２の音響特性に基づいて参照音声の音色パラメータを取得することができ、再構成ネットワークは第１の音声コンテンツ情報、基本周波数エネルギーパラメータ及び音色パラメータに基づいて、第３の音響特性を取得することができ、これによって第３の音響特性に基づいてターゲット音声を合成する時に、第１のユーザのソース音声的音声コンテンツ情報を保留し、及びターゲット音声の基本周波数とエネルギーの安定性を保持し、及び第２のユーザの参照音声の音色特徴を保留することができる。

上記いずれかの実施例に基づいて、図５に示すように、予めトレーニングされた音声変換モデルを取得するステップは、ステップＳ３０１～Ｓ３０５を含むことができる。

Ｓ３０１：第３のユーザの第１の音声と第２の音声を取得する。

本開示の実施例では、第１の音声と第２の音声は異なる。

Ｓ３０２：第１の音声から第２の音声コンテンツ情報と第４の音響特性を抽出する。

Ｓ３０３：第２の音声から第５の音響特性を抽出する。

Ｓ３０４：第２の音声コンテンツ情報、第４の音響特性及び第５の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第６の音響特性を取得する。

ステップＳ３０１～Ｓ３０４の具体的な実現プロセス及び原理は、上記実施例における関連コンテンツを参照し、ここでは説明を省略する。

Ｓ３０５：第６の音響特性と第４の音響特性との相違に基づいて、トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、第６の音響特性と第４の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、第３のユーザの第１の音声と第２の音声を取得するステップに戻り、最後にモデルパラメータを調整した後のトレーニング対象の音声変換モデルを予めトレーニングされた音声変換モデルとして決定する。

本開示の実施例では、一度に同じユーザの２つの異なる音声を用いてトレーニング対象の音声変換モデルのトレーニングを行い、そのうちの１つの音声を上記実施例におけるソース音声とし、他の１つの音声を上記実施例における参照音声とし、本出願では第３のユーザの第１の音声、第２の音声を用いてトレーニング対象の音声変換モデルのトレーニングを行うことを例とする。

例えば、第３のユーザの第１の音声を上記実施例におけるソース音声として、第１の音声から第２の音声コンテンツ情報と第４の音響特性を抽出し、及び第３のユーザの第２の音声を上記実施例における参照音声として、第２の音声から第５の音響特性を抽出し、その後第２の音声コンテンツ情報、第４の音響特性及び第５の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第６の音響特性を取得することができる。

なお、第１の音声、第２の音声がいずれも第３のユーザで発音されており、この時のターゲット音声とソース音声との相違が大きくないため、再構成された第６の音響特性と第４の音響特性との相違がそれほど大きいものではないはずだ。この時に第６の音響特性と第４の音響特性との相違に基づいて、トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、第６の音響特性と第４の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、第３のユーザの第１の音声と第２の音声を取得するステップ及び後続のステップに戻って実行して、複数のセットのサンプルデータに基づいてトレーニング対象の音声変換モデルに対してトレーニングと更新を行い、最後にモデルパラメータを調整した後のトレーニング対象の音声変換モデルを予めトレーニングされた音声変換モデルとして決定することができる。

ここで、予め設定されたトレーニング終了条件は実際の状況に基づいて設定でき、例えば、第６の音響特性と第４の音響特性との相違が予め設定された閾値より小さいことと設置することができる

これにより、当該方法は、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルに対してトレーニングと更新を行って、予めトレーニングされた音声変換モデルを取得することができる。

もう１つの可能な実施形態として、音声変換モデルには複数のネットワークが含まれることができ、各ネットワークは各自のネットワークパラメータに対応し、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルにおける複数のネットワークに対して共同トレーニングを行って、トレーニング対象の音声変換モデルにおける各ネットワーク中のネットワークパラメータをそれぞれ調整し、予めトレーニングされた音声変換モデルを取得することができる。

図３を例として、音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含むことができ、複数のセットのサンプルデータに基づいて、トレーニング対象の音声変換モデルにおける隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークに対して共同トレーニングを行って、トレーニング対象の音声変換モデルにおける隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワーク中のネットワークパラメータをそれぞれ調整し、予めトレーニングされた音声変換モデルを取得することができる。

図６は本出願の第１の実施例に係る音声変換装置のブロック図である。

図６に示すように、本出願の実施例の音声変換装置６００は、取得モジュール６０１と、第１の抽出モジュール６０２と、第２の抽出モジュール６０３と、変換モジュール６０４と、合成モジュール６０５と、を備える。

取得モジュール６０１は、第１のユーザのソース音声と第２のユーザの参照音声を取得することに用いられ、第１の抽出モジュール６０２は、前記ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出することに用いられ、第２の抽出モジュール６０３は、前記参照音声から第２の音響特性を抽出することに用いられ、変換モジュール６０４は、前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得することに用いられ、前記予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして得られたものであり、合成モジュール６０５は、前記第３の音響特性に基づいてターゲット音声を合成することに用いられる。

本出願の１つの実施例では、前記第１の抽出モジュール６０２はさらに、前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、及び前記音声事後確率行列を前記第１の音声コンテンツ情報とすることに用いられる。

本出願の１つの実施例では、前記第１の音響特性、前記第２の音響特性及び前記第３の音響特性はメル特徴である。

本出願の１つの実施例では、前記音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記変換モジュール６０４は、前記第１の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するための第１の入力ユニットと、前記第２の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するための第２の入力ユニットと、前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第３の音響特性を取得するための第３の入力ユニットと、を備える。

本出願の１つの実施例では、前記第１の入力ユニットはさらに、前記第１の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第１の音響特性を圧縮し、圧縮された第１の音響特性から基本周波数エネルギーパラメータを抽出することに用いられる。

本出願の１つの実施例では、前記第２の入力ユニットはさらに、前記第２の音響特性を前記音色ネットワークに入力することに用いられ、前記音色ネットワークはディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第２の音響特性を抽象化して、前記音色パラメータを取得する。

本出願の１つの実施例では、前記第３の入力ユニットはさらに、前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力することに用いられ、前記再構成ネットワークはディープリカレントニューラルネットワークによって前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第３の音響特性を取得する。

本出願の１つの実施例では、図７に示すように、前記音声変換装置６００は、前記第３のユーザの第１の音声と第２の音声を取得し、前記第１の音声から第２の音声コンテンツ情報と第４の音響特性を抽出し、前記第２の音声から第５の音響特性を抽出し、前記第２の音声コンテンツ情報、前記第４の音響特性及び前記第５の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第６の音響特性を取得し、及び前記第６の音響特性と前記第４の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第６の音響特性と前記第４の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第３のユーザの第１の音声と第２の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定するためのモデルトレーニングモジュール６０６をさらに備える。

要約すると、本出願の実施例の音声変換装置によれば、ソース音声の第１の音声コンテンツ情報と第１の音響特徴、及び参照音声の第２の音響特徴を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特徴を取得し、再構成された第３の音響特徴に基づいてターゲット音声を合成し、音声変換モデルが予め構築され、かつ後続にトレーニングと更新の必要がなく、柔軟性が高く、リアルタイムの音声変換を実現でき、音声変換の待ち時間を短縮することに役立ち、多語種、多音色切り替えなどの応用シーンに適用されることができる。

本出願の実施例によれば、本出願は、電子機器及び読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される音声変換方法を実行させる。

図８に示すように、それは本出願の実施例に係る音声変換方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなどの様々な形式のデジタルコンピュータを表すことを目的とする。電子機器は、携帯情報端末、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形式のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図８に示すように、当該電子機器は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースと、を備える。各コンポーネントは、異なるバスで互いに接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図８では、１つのプロセッサ８０１を例とする。

メモリ８０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本出願により提供される音声変換方法を実行するように、少なくとも１つのプロセッサによって実行される命令を記憶が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータが本出願により提供される音声変換方法を実行するためのコンピュータ命令を記憶する。

メモリ８０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における音声変換方法に対応するプログラム命令／モジュール（例えば、図６に取得モジュール６０１、第１の抽出モジュール６０２、第２の抽出モジュール６０３、変換モジュール６０４及び合成モジュール６０５）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶するために用いられる。プロセッサ８０１は、メモリ８０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施例における音声変換方法を実現する。

メモリ８０２は、プログラム記憶領域とデータ記憶領域とを備えることができ、ここで、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、音声変換方法ことに基づく電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ８０２は、高速ランダムアクセスメモリを備えることができ、非一時的なメモリをさらに備えることができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ８０２は、プロセッサ８０１に対して遠隔に設定されたメモリを選択的に備えることができ、これらの遠隔メモリは、ネットワークを介して音声変換の電子機器に接続されることができる。上記ネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

音声変換方法の電子機器は、入力装置８０３と出力装置８０４とをさらに備えることができる。プロセッサ８０１、メモリ８０２、入力装置８０３、及び出力装置８０４は、バス又は他の方式を介して接続することができ、図８では、バスを介して接続することを例とする。

入力装置８０３は、入力された数字又は文字情報を受信することができ、及び音声変換の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケーターロッド、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置８０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを備えることができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えることができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを備えるプログラム可能なシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバー）、又はフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。

本出願の実施例の技術案によれば、サーバは、インテリジェントな音声対話型デバイスで送信されたユーザの第１の音声信号に基づいて、音声認識と語意解析を行って、ユーザの語意テキストを取得し、語意テキストに基づいてビジネスクエリ結果を取得し、インテリジェントな音声対話型デバイスにフィードバックすることができ、当該方法は、音声処理技術によってビジネス処理の自動化を実現し、ユーザがスタッフの協力なしに自らビジネスを処理することができ、人件費が低く、人々のビジネス処理の待ち時間と処理時間を減らすことに役立ち、ビジネス処理の効率を向上させる。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案の所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願に対する保護範囲の制限を構成するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれなければならない。

Claims

第１のユーザのソース音声と第２のユーザの参照音声を取得するステップと、
前記ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出するステップと、
前記参照音声から第２の音響特性を抽出するステップと、
前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するステップであって、前記予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして取得されるステップと、
前記第３の音響特性に基づいてターゲット音声を合成するステップと、
前記第３のユーザの第１の音声と第２の音声を取得するステップと、
前記第１の音声から第２の音声コンテンツ情報と第４の音響特性を抽出するステップと、
前記第２の音声から第５の音響特性を抽出するステップと、
前記第２の音声コンテンツ情報、前記第４の音響特性及び前記第５の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第６の音響特性を取得するステップと、
前記第６の音響特性と前記第４の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第６の音響特性と前記第４の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第３のユーザの第１の音声と第２の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定するステップと、
を含む音声変換方法。
前記ソース音声から第１の音声コンテンツ情報を抽出するステップが、
前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得するステップと、
前記音声事後確率行列を前記第１の音声コンテンツ情報とするステップと、
を含む請求項１に記載の音声変換方法。
前記第１の音響特性、前記第２の音響特性及び前記第３の音響特性がメル特徴である請求項１に記載の音声変換方法。
前記音声変換モデルが隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するステップが、
前記第１の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップと、
前記第２の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するステップと、
前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第３の音響特性を取得するステップと、
を含む請求項１に記載の音声変換方法。
前記第１の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するステップが、前記第１の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第１の音響特性を圧縮し、圧縮された第１の音響特性から基本周波数エネルギーパラメータを抽出するステップを含む請求項４に記載の音声変換方法。
前記第２の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するステップが、前記第２の音響特性を前記音色ネットワークに入力し、前記音色ネットワークがディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第２の音響特性を抽象化して、前記音色パラメータを取得するステップを含む請求項４に記載の音声変換方法。
前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第３の音響特性を取得するステップが、前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力し、前記再構成ネットワークがディープリカレントニューラルネットワークによって前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第３の音響特性を取得するステップを含む請求項４に記載の音声変換方法。
第１のユーザのソース音声と第２のユーザの参照音声を取得するための取得モジュールと、
前記ソース音声から第１の音声コンテンツ情報と第１の音響特性を抽出するための第１の抽出モジュールと、
前記参照音声から第２の音響特性を抽出するための第２の抽出モジュールと、
前記第１の音声コンテンツ情報、前記第１の音響特性及び前記第２の音響特性を予めトレーニングされた音声変換モデルに入力して、再構成された第３の音響特性を取得するための変換モジュールであって、前記予めトレーニングされた音声変換モデルは第３のユーザの音声に基づいてトレーニングして取得される変換モジュールと、
前記第３の音響特性に基づいてターゲット音声を合成するための合成モジュールと、
モデルトレーニングモジュールと、
を備え、
該モデルトレーニングモジュールが、
前記第３のユーザの第１の音声と第２の音声を取得し、
前記第１の音声から第２の音声コンテンツ情報と第４の音響特性を抽出し、
前記第２の音声から第５の音響特性を抽出し、
前記第２の音声コンテンツ情報、前記第４の音響特性及び前記第５の音響特性をトレーニング対象の音声変換モデルに入力して、再構成された第６の音響特性を取得し、
前記第６の音響特性と前記第４の音響特性との相違に基づいて、前記トレーニング対象の音声変換モデルにおけるモデルパラメータを調整し、前記第６の音響特性と前記第４の音響特性との相違が予め設定されたトレーニング終了条件を満たすまで、前記第３のユーザの第１の音声と第２の音声を取得するステップに戻り、最後にモデルパラメータを調整した後の前記トレーニング対象の音声変換モデルを前記予めトレーニングされた音声変換モデルとして決定する音声変換装置。
前記第１の抽出モジュールが、
前記ソース音声を予めトレーニングされた多言語自動音声認識モデルに入力して、音声事後確率行列を取得し、
前記音声事後確率行列を前記第１の音声コンテンツ情報とする請求項８に記載の音声変換装置。
前記第１の音響特性、前記第２の音響特性及び前記第３の音響特性がメル特徴である請求項８に記載の音声変換装置。
前記音声変換モデルは隠れ変数ネットワーク、音色ネットワーク及び再構成ネットワークを含み、前記変換モジュールが、
前記第１の音響特性を前記隠れ変数ネットワークに入力して、基本周波数エネルギーパラメータを取得するための第１の入力ユニットと、
前記第２の音響特性を前記音色ネットワークに入力して、音色パラメータを取得するための第２の入力ユニットと、
前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力して、前記第３の音響特性を取得するための第３の入力ユニットと、
を備える請求項８に記載の音声変換装置。
前記第１の入力ユニットが、前記第１の音響特性を前記隠れ変数ネットワークに入力し、前記隠れ変数ネットワークがフレームスケールで前記第１の音響特性を圧縮し、圧縮された第１の音響特性から基本周波数エネルギーパラメータを抽出する請求項１１に記載の音声変換装置。
前記第２の入力ユニットが、前記第２の音響特性を前記音色ネットワークに入力し、前記音色ネットワークがディープリカレントニューラルネットワーク及び変分オートエンコーダによって前記第２の音響特性を抽象化して、前記音色パラメータを取得する請求項１１に記載の音声変換装置。
前記第３の入力ユニットが、前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータを前記再構成ネットワークに入力し、前記再構成ネットワークがディープリカレントニューラルネットワークによって前記第１の音声コンテンツ情報、前記基本周波数エネルギーパラメータ及び前記音色パラメータに対して音響特性再構成を行って、前記第３の音響特性を取得する請求項１１に記載の音声変換装置。
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信可能に接続されるメモリと、
を備え、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が、前記少なくとも１つのプロセッサが請求項１から７のいずれか一項に記載の音声変換方法を実行できるように、前記少なくとも１つのプロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令が、コンピュータに請求項１から７のいずれか一項に記載の音声変換方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１から７のいずれか一項に記載の音声変換方法を実行させるコンピュータプログラム。