JP7356597B2

JP7356597B2 - 歌声変換

Info

Publication number: JP7356597B2
Application number: JP2022545341A
Authority: JP
Inventors: ユー，チェンギュ; ルー，ヘン; ウェン，チャオ; ユー，ドン
Original assignee: テンセント・アメリカ・エルエルシー
Priority date: 2020-02-13
Filing date: 2021-02-08
Publication date: 2023-10-04
Anticipated expiration: 2041-02-08
Also published as: EP4062397A4; KR20220128417A; CN114981882A; US11721318B2; WO2021162982A1; EP4062397A1; US20210256958A1; JP2023511604A; US11183168B2; US20220036874A1

Description

［関連出願の相互参照］
本出願は、その全体が参照により本出願に明示的に組み込まれる2020年2月13日に出願された米国特許出願第16/789,674号に対する優先権を主張する。

本開示は、概して、コンピューティング（computing）の分野に関し、特に、データ処理に関する。

歌うことは人間の表現の重要な手段であり、コンピュータによる音声合成は長年関心を集めてきた。歌声変換（Singing voice conversion）は、既存の歌の中に存在する音楽的表現を他の歌手の声を用いて抽出及び再現することができる歌声を合成する１つの方法である。

実施形態は、第１の歌声を第２の歌声に変換するための方法、システム、及びコンピュータ可読媒体に関する。一態様によれば、第１の歌声を第２の歌声に変換する方法が提供される。この方法は、コンピュータによって、第１の歌声に対応する１つ又は複数の音素に関連付けられたコンテキストをエンコーディングする（encoding）こと含み得る。コンピュータは、エンコーディングされたコンテキストに基づいて、１つ又は複数の音素を１つ又は複数のターゲット音響フレーム（target acoustic frames）に位置合わせし（align）得、位置合わせされた音素及びターゲット音響フレームから１つ又は複数のメルスペクトログラム特徴（mel-spectrogram features）を再帰的に生成し得る。第１の歌声に対応するサンプルが、生成されたメルスペクトログラム特徴を用いて、コンピュータによって第２の歌声に対応するサンプルに変換され得る。

別の態様によれば、第１の歌声を第２の歌声に変換するコンピュータシステムが提供される。コンピュータシステムは、１つ又は複数のプロセッサ、１つ又は複数のコンピュータ可読メモリ、１つ又は複数のコンピュータ可読有形記憶装置、及び１つ又は複数のメモリのうちの少なくとも１つを介して１つ又は複数のプロセッサのうちの少なくとも１つによる実行のために、１つ又は複数の記憶装置のうちの少なくとも１つに記憶されたプログラム命令を含み、それによってコンピュータシステムは方法を実行することができる。この方法は、コンピュータによって、第１の歌声に対応する１つ又は複数の音素に関連付けられたコンテキストをエンコーディングすることを含み得る。コンピュータは、エンコーディングされたコンテキストに基づいて、１つ又は複数の音素を１つ又は複数のターゲット音響フレームに位置合わせし得、位置合わせされた音素及びターゲット音響フレームから１つ又は複数のメルスペクトログラム特徴を再帰的に生成し得る。第１の歌声に対応するサンプルは、生成されたメルスペクトログラム特徴を用いて、コンピュータによって第２の歌声に対応するサンプルに変換され得る。

さらに別の態様によれば、第１の歌声を第２の歌声に変換するためのコンピュータ可読媒体が提供される。コンピュータ可読媒体は、１つ又は複数のコンピュータ可読記憶装置と、１つ又は複数の有形記憶装置のうちの少なくとも１つに記憶されたプログラム命令とを含み、プログラム命令は、プロセッサによって実行可能である。プログラム命令は、適宜に、コンピュータによって、第１の歌声に対応する１つ又は複数の音素に関連付けられたコンテキストをエンコーディングすることを含み得る方法を実行するためのプロセッサによって実行可能である。コンピュータは、エンコーディングされたコンテキストに基づいて、１つ又は複数の音素を１つ又は複数のターゲット音響フレームに位置合わせし得、位置合わせされた音素及びターゲット音響フレームから１つ又は複数のメルスペクトログラム特徴を再帰的に生成し得る。第１の歌声に対応するサンプルは、生成されたメルスペクトログラム特徴を用いて、コンピュータによって第２の歌声に対応するサンプルに変換され得る。

これら及び他の目的、特徴及び利点は、添付の図面に関連して読まれる例示的な実施形態の以下の詳細な説明から明らかになるであろう。図面の種々の特徴は、図面が、詳細な説明に関連して当業者の理解を容易にすることを明確にするためのものであるため、正確なスケールではない。
少なくとも１つの実施形態によるネットワーク化されたコンピュータ環境を示す。少なくとも１つの実施形態による、第１の歌声を第２の歌声に変換するプログラムのブロック図である。少なくとも１つの実施形態による、第１の歌声を第２の歌声に変換するプログラムによって実行されるステップを示す動作フローチャートである。少なくとも１つの実施形態による、図１に示されたコンピュータ及びサーバの内部及び外部コンポーネントのブロック図である。少なくとも１つの実施形態による、図１に示されるコンピュータシステムを含む例示的なクラウドコンピューティング環境のブロック図である。少なくとも１つの実施形態による、図５の例示的なクラウドコンピューティング環境の機能層のブロック図である。

請求項に係る構造及び方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、単に、種々の形態で実施され得る請求項に係る構造及び方法を例示するに過ぎないことを理解することができる。しかしながら、これらの構造及び方法は、多くの異なる形態で具体化することができ、本明細書に記載の例示的な実施形態に限定されるものと解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が完全かつ完全であり、当業者に範囲を完全に伝えるように提供される。説明では、良く知られた特徴及び技術の詳細は、提示された実施形態を不必要に不明瞭にすることを避けるために省略され得る。

実施形態は、概して、コンピューティングの分野に関し、より詳細には、データ処理に関する。以下に説明する例示的な実施形態は、特に、第１の歌声のコンテンツ（内容（content））を変更することなく、第１の話者の声の音色を第２の話者の声の音色に変換するためのシステム、方法及びプログラム製品を提供する。従って、いくつかの実施形態は、並列データなしで歌声を変換するためにディープニューラルネットワークの使用を可能にすることによって、データ処理の分野を改善する能力を有する。

先に述べたように、歌うことは人間の表現の重要な手段であり、コンピュータによる音声合成は長年関心を集めてきた。歌声変換は、既存の歌の中に存在する音楽的表現を他の歌手の声を用いて抽出及び再現することができる歌声を合成する１つの方法である。しかしながら、歌声変換は、音声変換と同様であり得るが、歌声変換は、音声変換よりも広い範囲の周波数変動の処理、並びに歌声内に存在する音量及びピッチ（pitch）のより鋭い変化を必要とし得る。歌変換のパフォーマンスは、変換された歌の音楽的表現と、ターゲット歌手の声と比較した変換された声の音色（voice timbre）の類似性とに大きく依存する。伝統的な歌合成システムは、連結又は隠れマルコフモデルベースのアプローチを使用し得る、又はソース歌手とターゲット歌手の両方が歌う同じ曲などの並列データを必要とし得る。従って、トレーニングのために並列データを必要とせずに、歌声変換のために機械学習及びニューラルネットワークを使用することは有利であり得る。

様々な実施形態による方法、装置（システム）、及びコンピュータ可読媒体のフロー図及び／又はブロック図を参照して、態様が本明細書に記載される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

以下に説明する例示的な実施形態は、第１の歌声を第２の歌声に変換するシステム、方法、及びプログラム製品を提供する。本実施形態によれば、並列データを必要としないこの教師なしの歌声変換アプローチは、複数話者（multi-speaker）トレーニング中に１又は複数の話者に関連する埋め込みデータを学習することによって達成され得る。従って、システムは、単に話者を埋め込み間で切り替えることによって、そのコンテンツを変更することなく歌の音色を変換することができる。

次に、図１を参照すると、第１の歌声の第２の歌声への改良された変換のための歌声変換システム１００（以下、「システム」という）を示すネットワーク化されたコンピュータ環境の機能ブロック図が示されている。図１は、１つの実装の例示にすぎず、異なる実施形態が実装され得る環境に関するいかなる限定も意味しないことを理解されたい。図示された環境に対する多くの修正は、設計及び実装要件に基づいて行われ得る。

システム１００は、コンピュータ１０２及びサーバコンピュータ１１４を含み得る。コンピュータ１０２は、通信ネットワーク１１０（以下、「ネットワーク」という）を介してサーバコンピュータ１１４と通信し得る。コンピュータ１０２は、プロセッサ１０４と、データ記憶装置１０６に記憶され、ユーザとインターフェースし、サーバコンピュータ１１４と通信することを可能にするソフトウェアプログラム１０８とを含み得る。図４を参照して後述するように、コンピュータ１０２は、それぞれ内部コンポーネント８００Ａ及び外部コンポーネント９００Ａを含み得、サーバコンピュータ１１４は、それぞれ内部コンポーネント８００Ｂ及び外部コンポーネント９００Ｂを含み得る。コンピュータ１０２は、例えば、モバイルデバイス、電話、パーソナルデジタルアシスタント、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、又はプログラムを実行し、ネットワークにアクセスし、データベースにアクセスすることができる任意の種類のコンピューティングデバイスであり得る。

サーバコンピュータ１１４はまた、図５及び図６に関して後述するように、サービスとしてのソフトウェア（ＳａａＳ）、サービスとしてのプラットフォーム（ＰａａＳ）、又はサービスとしてのインフラストラクチャ（ＩａａＳ）のようなクラウドコンピューティングサービスモデルにおいて動作し得る。サーバコンピュータ１１４はまた、プライベートクラウド、コミュニティクラウド、パブリッククラウド、又はハイブリッドクラウドのようなクラウドコンピューティング展開モデルに位置し得る。

第１の歌声を第２の歌声に変換するために使用され得るサーバコンピュータ１１４は、データベース１１２と対話し得る歌声変換プログラム１１６（以下、「プログラム」という）を実行することができる。歌声変換プログラム方法は、図３に関して以下により詳細に説明される。一実施形態では、コンピュータ１０２は、ユーザインターフェースを含む入力デバイスとして動作し得、一方、プログラム１１６は、主としてサーバコンピュータ１１４上で動作し得る。代替的な実施形態では、プログラム１１６は、主として１つ又は複数のコンピュータ１０２上で動作し得、一方、サーバコンピュータ１１４は、プログラム１１６によって使用されるデータの処理及び記憶のために使用され得る。プログラム１１６は、スタンドアロンプログラムであり得る又はより大きな歌声変換プログラムに統合され得ることに留意されたい。

しかしながら、プログラム１１６のための処理は、ある場合には、コンピュータ１０２とサーバコンピュータ１１４との間で任意の比率で共有され得ることに留意されたい。別の実施形態では、プログラム１１６は、１より多いコンピュータ、サーバコンピュータ、又はコンピュータとサーバコンピュータのいくつかの組み合わせ、例えば、ネットワーク１１０を介して単一のサーバコンピュータ１１４と通信する複数のコンピュータ１０２で動作し得る。別の実施形態では、例えば、プログラム１１６は、ネットワーク１１０を介して複数のクライアントコンピュータと通信する複数のサーバコンピュータ１１４上で動作し得る。代替的には、プログラムは、ネットワークを介してサーバ及び複数のクライアントコンピュータと通信するネットワークサーバ上で動作し得る。

ネットワーク１１０は、有線接続、無線接続、光ファイバ接続、又はそれらのいくつかの組み合わせを含み得る。一般に、ネットワーク１１０は、コンピュータ１０２とサーバコンピュータ１１４との間の通信をサポートする接続とプロトコルの任意の組み合わせであることができる。ネットワーク１１０は、例えば、ローカルエリアネットワーク（ＬＡＮ）、インターネットのような広域ネットワーク（ＷＡＮ）、公衆交換電話ネットワーク（ＰＳＴＮ）のような電気通信ネットワーク、無線ネットワーク、公衆交換ネットワーク、衛星ネットワーク、セルラネットワーク（例えば、第５世代（５Ｇ）ネットワーク、ロングタームエボリューション（ＬＴＥ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多重アクセス（ＣＤＭＡ）ネットワーク等）、公衆陸上移動ネットワーク（ＰＬＭＮ）、大都市エリアネットワーク（ＭＡＮ）、専用ネットワーク、アドホックネットワーク、イントラネット、光ファイバベースのネットワーク等、及び／又はこれらの又は他のタイプのネットワークの組合せのような種々のタイプのネットワークを含み得る。

図１に示すデバイス及びネットワークの数及び配置は、一例として提供される。実際には、図１に示されたものよりも、追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク、又は異なる配置のデバイス及び／又はネットワークが存在し得る。さらに、図１に示す２つ以上のデバイスは、単一のデバイス内に実装されてもよく、又は図１に示す単一のデバイスは、複数の分散デバイスとして実装されてもよい。追加的に、又は代替的に、システム１００のデバイスのセット（例えば、１つ又は複数のデバイス）は、システム１００のデバイスの別のセットによって実行されるものとして説明される１つ又は複数以上の機能を実行してもよい。

図２を参照すると、図１の歌声変換プログラム１１６のブロック図２００が示されている。図２は、図１に示された例示的な実施形態の助けを借りて説明することができる。従って、歌声変換プログラム１１６は、特に、エンコーダ２０２、アライメントモジュール２０４、及びデコーダ２０６を含み得る。一実施形態によれば、歌声変換プログラム１１６は、コンピュータ１０２（図１）に位置し得る。代替的な実施形態によれば、歌声変換プログラム１１６は、サーバコンピュータ１１４（図１）に位置し得る。

従って、エンコーダ２０２は、埋め込みモジュール２０８と、完全に接続された層（fully connected layer）２１０と、ＣＢＨＧ（１次元畳み込みバンク＋ハイウェイネットワーク＋双方向ゲート付き回帰ユニット）モジュール２１２とを含み得る。埋め込みモジュール２０８は、音声合成及び歌の合成（speech and singing synthesis）の両方のために、データリンク２２４を介して音素シーケンス入力（phoneme sequence input）を受信し得る。エンコーダ２０２は、入力音素に関連付けられた連続的な（シーケンシャルな）表現（sequential representation）を含む隠れ状態（hidden states）のシーケンスを出力し得る。

アライメントモジュール２０４は、完全に接続された層２１４、及び状態拡張モジュール２１６を含み得る。状態拡張モジュール２１６は、データリンク２２６を介して音素継続時間（phoneme duration）入力、データリンク２２８を介して二乗平均平方根誤差（ＲＭＳＥ）入力、及びデータリンク２３０を介して基本周波数（Ｆ_０）入力を受信し得る。アライメントモジュール２０４は、データリンク２３４によってエンコーダ２０２に結合され得る。アライメントモジュールは、自己回帰生成（autoregressive generation）のための入力として使用され得る１つ又は複数のフレームに位置合わせされた隠れ状態（frame-aligned hidden states）を生成し得る。エンコーダ２０２からの出力隠れシーケンスは、埋め込まれた話者情報と連結され得る。完全に接続された層２１４は、次元低減（dimension reduction）のために使用され得る。次元低減後の出力隠れ状態は、データリンク２２６を介して受信した各音素の継続時間データにしたがって拡張され得る。状態拡張は、例えば、受信した音素継続時間に応じた隠れ状態の複製であり得る。各音素の継続時間は、入力音素及び音響特徴に対して実行されるフォースアライメント（force alignments）から得られ得る。次に、フレームに位置合わせされた隠れ状態は、フレームレベル、ＲＭＳＥ、及び各音素内の全てのフレームの相対位置と連結される。ボコーダを使用して、歌のリズム及びメロディを反映し得る基本周波数Ｆ_０を抽出し得る。従って、入力は、音素シーケンス、音素継続時間、Ｆ_０、ＲＭＳＥ、及び話者のアイデンティティを含み得る。

デコーダ２０６は、完全に接続された層２１８と、再帰的ニューラルネットワーク２２０と、メルスペクトログラム生成モジュール２２２とを含み得る。完全に接続された層２１８は、データリンク２３２を介してフレーム入力を受信し得る。デコーダ２０６は、データリンク２３６によってアライメントモジュール２０４に結合され得る。再帰的ニューラルネットワーク２２０は、２つの自己回帰ＲＮＮ層から構成され得る。アテンション値（attention value）は、ターゲットフレームと位置合わせされ得る少数のエンコーディングされた隠れ状態から計算され得、これは、エンドツーエンドシステムにおいて観察され得るアーチファクトを低減し得る。一実施形態によれば、タイムステップ当たり２つのフレームがデコーディングされ得る。しかしながら、タイムステップ当たりの任意の数のフレームが、利用可能な計算能力に基づいてデコーディングされ得ることが理解され得る。再帰的ニューラルネットワーク２２０の各再帰（each recursion）からの出力は、とりわけ、予測されるメルスペクトログラムの品質を改善するためにポストＣＢＨＧ技術を実行し得るメルスペクトログラム生成モジュール２２２を通過され得る。デコーダは、メルスペクトログラムを再構成するようにトレーニングされ得る。トレーニング段階では、埋め込まれたデータは音声サンプルに対応し、１又は複数の話者の歌のサンプルは共同で最適化され得る。デコーダ２０６は、ポストＣＢＨＧステップの前後のメルスペクトログラムに関連する予測損失値を最小化するようにトレーニングされ得る。モデルがトレーニングされた後、それは、任意の歌をターゲット話者の声に変換するために使用され得る。変換後のモデルからの生成されたメルスペクトログラムは、第２の歌声の波形生成のためのモデルとして使用され得る。

次に、図３を参照すると、第１の歌声を第２の歌声に変換するプログラムによって実行されるステップを示す動作フローチャート４００が示されている。図３は、図１及び図２の助けを借りて説明することができる。前述したように、歌声変換プログラム１１６（図１）は、歌声を迅速かつ効果的に変換し得る。

３０２において、１つ又は複数の音素に関連付けられ、第１の歌声に対応するコンテキストが、コンピュータによってエンコーディングされる。エンコーダの出力は、入力音素の連続的表現を含む隠れ状態のシーケンスであり得る。動作中、エンコーダ２０２（図２）は、データリンク２２４（図２）を介して音素シーケンスデータを受信し得、埋め込みモジュール２０８（図２）、完全に接続された層２１０（図２）、及びＣＢＨＧモジュール２１２（図２）を介してデータを通過させ得る。

３０４において、１つ又は複数の音素は、エンコーディングされたコンテキストに基づいて１つ又は複数のターゲット音響フレームに位置合わせされる。アライメントモジュールは、自己回帰生成のための入力として使用されるフレームに位置合わせされた隠れ状態を生成し得る。これは、とりわけ、ソース音素がそれらの意図されたターゲット音素と一致し得ることを確実にし得る。動作中に、アライメントモジュール２０４（図２）は、データリンク２３４（図２）を介してエンコーダ２０２（図２）から音素データを受信し得る。完全に接続された層２１４（図２）は、音素データの次元を減少させ得る。状態拡張モジュール２１６（図２）は、それぞれ、データリンク２２６、２２８、２３０（図２）を介して、音素継続時間データ、ＲＭＳＥデータ、及び基本周波数データを受信し得、音素データを処理するためのいくつかの隠れ状態を作成し得る。

３０６において、１つ又は複数のメルスペクトログラム特徴が、位置合わせされた音素及びターゲット音響フレームから再帰的に生成される。メルスペクトログラム特徴の生成は、１つ又は複数のターゲット音響フレームと位置合わせされた１つ又は複数のエンコーディングされた隠れ状態からアテンションコンテキスト（attention context）を計算し、計算されたアテンションコンテキストにＣＢＨＧ技法を適用することを含み得る。動作中、デコーダ２０６（図２）は、データリンク２３６（図２）を介してアライメントモジュール２０４（図２）から音素を受信し得る。このデータは、再帰的ニューラルネットワーク２２０（図２）に渡され得る。フレーム入力データは、データリンク２３２（図２）を介して完全に接続された層２１８（図２）によって受信され得る。フレーム入力データ及び音素データは、再帰的ニューラルネットワーク２２０及び完全に接続された層２１８によって再帰的に処理され得る。各再帰の結果は、メルスペクトログラム生成モジュール２２２（図２）に渡され得、このモジュールは、各再帰の結果を集約し、メルスペクトログラムを生成するためにＣＢＨＧ操作（CBHG operation）を実行し得る。

３０８において、第１の歌声に対応するサンプルが、生成されたメルスペクトログラム特徴を用いて、コンピュータによって第２の歌声に対応するサンプルに変換される。歌声変換方法は、トレーニングのために並列データ（すなわち、異なる歌手によって生成された同一の歌）を必要とせず、高度に表現が豊か（expressive）で自然に響く（natural-sounding）変換された歌声を生成し得る自動回帰生成モジュールを含み得る。動作中、歌声変換プログラム１１６（図１）は、生成されたメルスペクトログラムを使用して、第１の話者の歌声を第２の話者の歌声に変換する。歌声変換プログラム１１６は、オプションで、通信ネットワーク１１０（図１）を介してコンピュータ１０２（図１）に第２の話者の声の出力を送信し得る。

図３は、１つの実装の例示のみを提供し、異なる実施形態がどのように実装され得るかに関していかなる限定も意味しないことが理解されよう。図示された環境に対する多くの修正は、設計及び実装要件に基づいて行われ得る。

図４は、例示的な実施形態による、図１に示されたコンピュータの内部及び外部コンポーネントのブロック図４００である。図４は、１つの実装の例示にすぎず、異なる実施形態が実装され得る環境に関するいかなる限定も意味しないことを理解されたい。図示された環境に対する多くの修正が、設計及び実装要件に基づいて行われ得る。

コンピュータ１０２（図１）及びサーバコンピュータ１１４（図１）は、図４に示す内部コンポーネント８００Ａ、Ｂ及び外部コンポーネント９００Ａ、Ｂのそれぞれのセットを含み得る。内部コンポーネント８００のセットの各々は、１つ又は複数のプロセッサ８２０、１つ又は複数のバス８２６上の１つ又は複数のコンピュータ可読ＲＡＭ８２２及び１つ又は複数のコンピュータ可読ＲＯＭ８２４、１つ又は複数のオペレーティングシステム８２８、及び１つ又は複数のコンピュータ可読有形記憶装置８３０を含む。

プロセッサ８２０は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装される。プロセッサ８２０は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、加速処理装置（ＡＰＵ）、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は別のタイプの処理コンポーネントである。いくつかの実装では、プロセッサ８２０は、機能を実行するようにプログラムされることができる１つ又は複数のプロセッサを含む。バス８２６は、内部コンポーネント８００Ａ、Ｂ間の通信を可能にするコンポーネントを含む。

１つ又は複数のオペレーティングシステム８２８、ソフトウェアプログラム１０８（図１）及びサーバコンピュータ１１４（図１）上の歌声変換プログラム１１６（図１）は、それぞれのＲＡＭ８２２（典型的にはキャッシュメモリを含む）の１つ又は複数を介してそれぞれのプロセッサ８２０のうちの１つ又は複数による実行のために、それぞれのコンピュータ可読有形記憶装置８３０のうちの１つ又は複数に記憶される。図４に示す実施形態では、コンピュータ可読有形記憶装置８３０の各々は、内部ハードドライブの磁気ディスク記憶装置である。代替的には、コンピュータ可読有形記憶装置８３０の各々は、ＲＯＭ８２４、ＥＰＲＯＭ、フラッシュメモリ、光ディスク、光磁気ディスク、ソリッドステートディスク、コンパクトディスク（ＣＤ）、デジタル汎用ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、カートリッジ、磁気テープ、及び／又は、コンピュータプログラム及びデジタル情報を記憶することができる他のタイプの非一時的コンピュータ可読有形記憶装置のような半導体記憶装置である。

内部コンポーネント８００Ａ、Ｂの各セットはまた、ＣＤ－ＲＯＭ、ＤＶＤ、メモリスティック、磁気テープ、磁気ディスク、光ディスク又は半導体記憶装置のような１つ又は複数のポータブルコンピュータ可読有形記憶装置９３６から読み書きするためのＲ／Ｗドライブ又はインターフェース８３２を含む。ソフトウェアプログラム１０８（図１）及び歌声変換プログラム１１６（図１）などのソフトウェアプログラムは、それぞれのポータブルコンピュータ可読有形記憶装置９３６の１つ又は複数に記憶され、それぞれのＲ／Ｗドライブ又はインターフェース８３２を介して読み込まれ、それぞれのハードドライブ８３０にロードされることができる。

内部コンポーネント８００Ａ、Ｂの各セットはまた、ＴＣＰ／ＩＰアダプタカード、無線Ｗｉ－Ｆｉインターフェースカード、又は３Ｇ、４Ｇ、若しくは５Ｇ無線インターフェースカード又は他の有線若しくは無線通信リンクなどのネットワークアダプタ又はインターフェース８３６を含む。ソフトウェアプログラム１０８（図１）及びサーバコンピュータ１１４（図１）上の歌声変換プログラム１１６（図１）は、ネットワーク（例えば、インターネット、ローカルエリアネットワーク又は他の広域ネットワーク）及びそれぞれのネットワークアダプタ又はインターフェース８３６を介して、外部コンピュータからコンピュータ１０２（図１）及びサーバコンピュータ１１４にダウンロードすることができる。ネットワークアダプタ又はインターフェース８３６から、ソフトウェアプログラム１０８及びサーバコンピュータ１１４上の歌声変換プログラム１１６がそれぞれのハードドライブ８３０にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含み得る。

外部コンポーネント９００Ａ、Ｂのセットの各々は、コンピュータディスプレイモニタ９２０、キーボード９３０、及びコンピュータマウス９３４を含むことができる。外部コンポーネント９００Ａ、Ｂはまた、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、及び他のヒューマンインターフェースデバイスを含むことができる。内部コンポーネント８００Ａ、Ｂのセットの各々はまた、コンピュータディスプレイモニタ９２０、キーボード９３０及びコンピュータマウス９３４にインターフェースするためのデバイスドライバ８４０を含む。デバイスドライバ８４０、Ｒ／Ｗドライブ又はインターフェース８３２、及びネットワークアダプタ又はインターフェース８３６は、ハードウェア及びソフトウェア（記憶装置８３０及び／又はＲＯＭ８２４に記憶される）を備える。

本開示は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実装は、クラウドコンピューティング環境に限定されないことが、予め理解される。むしろ、いくつかの実施形態は、現在知られているか、又は後に開発される任意の他のタイプのコンピューティング環境と共に実装されることができる。

クラウドコンピューティングは、最小限の管理努力又はサービスの提供者とのやりとりで迅速にプロビジョン及びリリースすることができる構成可能なコンピューティングリソース（ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービス）の共有プールへの便利でオンデマンドなネットワークアクセスを可能にするためのサービス提供のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

特徴は以下の通りである：
オンデマンドセルフサービス:クラウドコンシューマは、サービスプロバイダとの人的なやりとりを必要とせずに、必要に応じて自動的に、サーバの時間やネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
広域ネットワークアクセス：能力は、ネットワーク経由で利用可能であり、異種のシン又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、及びＰＤＡ）による使用を促進する標準メカニズムを通じてアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数のコンシューマにサービスを提供するためにプールされ、様々な物理リソースと仮想リソースが、需要に応じて動的に割り当てられ、再割り当てされる。コンシューマは、一般に、提供されたリソースの正確な位置に関する制御や知識を持たないが、より高いレベルの抽象化（例えば、国、州、データセンタ）で位置を指定できる場合があるという点で、位置の独立性の感覚がある。
迅速な拡張性（Rapid elasticity）：能力は、場合によっては自動的に、迅速にスケールアウトし、迅速にスケールインするために、迅速にかつ弾力的にプロビジョニングされることができる。コンシューマにとって、プロビジョニングに利用可能な能力はしばしば無制限であるように見え、いつでも任意の量で購入できる。
測定されるサービス（Measured service）：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント）に適したあるレベルの抽象化で計量能力（metering capability）機能を利用することにより、自動的にリソースの使用を制御し、最適化する。リソースの使用を監視し、制御し、報告して、利用サービスのプロバイダとコンシューマの両方に透明性を提供することができる。

サービスモデルは次のとおりである：
サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される能力は、クラウドインフラ上で動作するプロバイダのアプリケーションを利用することである。アプリケーションは、Ｗｅｂブラウザ（例えば、Ｗｅｂベースの電子メール）のようなシンクライアントインターフェースを介して、さまざまなクライアントデバイスからアクセスできる。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、さらには個々のアプリケーション機能を含む基盤にあるクラウドインフラストラクチャを管理又は制御しないが、限られたユーザ固有のアプリケーション構成設定の可能性のある例外がある。
サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される能力は、プロバイダがサポートするプログラミング言語及びツールを使用して作成された、コンシューマが作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む基盤となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーションや、場合によってはアプリケーションホスティング環境の構成に対する制御を有する。
サービスとしてのインフラストラクチャ（ｌａａＳ）：コンシューマに提供される機能は、処理、ストレージ、ネットワーク、及びその他の基本的なコンピューティングリソースをプロビジョニングすることであり、コンシューマは、オペレーティングシステム及びアプリケーションを含むことができる任意のソフトウェアを展開及び実行することができる。コンシューマは、基盤となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、及び場合によっては選択されたネットワークコンポーネント（例えば、ホストファイアウォール）の限定された制御を有する。

展開モデルは、以下の通りである：
プライベートクラウド：クラウドインフラストラクチャは組織のためだけに運用される。組織又は第三者によって管理され、オンプレミス（on-premises）又はオフプレミス（off-premises）に存在し得る。
コミュニティクラウド：クラウドインフラストラクチャは、いくつかの組織で共有され、共通の関心事（例えば、ミッション、セキュリティ要件、ポリシー、及びコンプライアンスの考慮事項）を持つ特定のコミュニティをサポートする。組織又は第三者によって管理され、オンプレミス又はオフプレミスに存在し得る。
パブリッククラウド：クラウドインフラストラクチャは、一般の人々又は大規模な業界団体が利用できるようにされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド：クラウドインフラストラクチャは、ユニークなエンティティのままであるが、データとアプリケーションの移植性（例えば、クラウド間の負荷分散のためのクラウドバースト）を可能にする標準化された又は独自の技術によって結合されている２つ以上のクラウド（プライベート、コミュニティ、パブリック）の構成である。

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を当てたサービス指向である。クラウドコンピューティングの核心は、相互接続されたノードのネットワークを有するインフラストラクチャである。

図５を参照すると、例示的なクラウドコンピューティング環境５００が示されている。図示のように、クラウドコンピューティング環境５００は、１つ又は複数のクラウドコンピューティングノード１０を含み、クラウドコンシューマによって使用される、例えば、携帯デジタルアシスタント（ＰＤＡ）又は携帯電話５４Ａ、デスクトップコンピュータ５４Ｂ、ラップトップコンピュータ５４Ｃ、及び／又は自動車コンピュータシステム５４Ｎなどのローカルコンピューティングデバイスが、それらと通信し得る。クラウドコンピューティングノード１０は、互いに通信し得る。それらは、物理的又は仮想的に、上述のようなプライベート、コミュニティ、パブリック、又はハイブリッドクラウド、又はそれらの組み合わせのような１つ又は複数のネットワークにおいてグループ化（図示せず）され得る。これは、クラウドコンピューティング環境５００が、クラウドコンシューマがローカルコンピューティングデバイス上のリソースを維持する必要のないサービスとして、インフラストラクチャ、プラットフォーム及び／又はソフトウェアを提供することを可能にする。図５に示すコンピューティングデバイス５４Ａ～Ｎのタイプは、例示的なものに過ぎず、クラウドコンピューティングノード１０及びクラウドコンピューティング環境５００は、任意のタイプのネットワーク及び／又はネットワークアドレス指定可能接続（例えば、ウェブブラウザを使用する）を介して任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。

図６を参照すると、クラウドコンピューティング環境５００（図５）によって提供される機能抽象化層のセット６００が示されている。図６に示すコンポーネント、層、及び機能は、例示的なものに過ぎず、実施形態はこれに限定されるものではないことを予め理解されたい。図示のように、以下の層及び対応する機能が提供される：

ハードウェア及びソフトウェア層６０は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例は：メインフレーム６１；ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースのサーバ６２；サーバ６３；ブレードサーバ６４；記憶装置６５；並びにネットワーク及びネットワークコンポーネント６６；を含む。いくつかの実施形態では、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７及びデータベースソフトウェア６８を含む。

仮想化層７０は、抽象化層を提供し、そこから、仮想エンティティの次の例が提供され得る：仮想サーバ７１；仮想ストレージ７２；仮想プライベートネットワークを含む仮想ネットワーク７３；仮想アプリケーション及びオペレーティングシステム７４；及び仮想クライアント７５。

一例では、管理層８０は、以下に記載される機能を提供し得る。リソースプロビジョニング８１は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソース及びその他のリソースの動的調達を提供する。メータリング及びプライシング（Metering and Pricing）８２は、クラウドコンピューティング環境内でリソースが利用されるときのコスト追跡、及びこれらのリソースの消費に対する請求又はインボイス送付（billing or invoicing）を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウドコンシューマとタスクのためのＩＤ確認（identity verification）、並びにデータ及びその他のリソースの保護を提供する。ユーザポータル８３は、コンシューマ及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、要求されるサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を提供する。サービスレベルアグリーメント（ＳＬＡ）の計画及び履行８５は、ＳＬＡに従って将来の要件が予測されるクラウドコンピューティングリソースの事前準備及び調達を提供する。

ワークロード層９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例は：マッピング及びナビゲーション９１；ソフトウェア開発及びライフサイクル管理９２；仮想教室教育配信９３；データ分析処理９４；トランザクション処理９５；及び歌声変換９６；を含む。歌声変換９６は、第１の歌声を第２の歌声に変換し得る。

いくつかの実施形態は、任意の可能な技術的詳細レベルの統合におけるシステム、方法、及び／又はコンピュータ可読媒体に関連し得る。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読非一時的記憶媒体を含み得る。

コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置であることができる。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、又はこれらの任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは次のものを含む：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル汎用ディスク（ＤＶＤ）、メモリスティック、フロッピー（登録商標）ディスク、パンチカード又はそれらに記録された命令を有する溝内の隆起構造のような機械的にエンコーディングされた装置、及びこれらの任意の適切な組み合わせ。本明細書で使用されるとき、コンピュータ可読記憶媒体は、それ自体、例えば、電波又は他の自由に伝搬する電磁波、導波管又は他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通って伝送される電気信号のような、一時的な信号であると解釈されるべきではない。

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理装置に、あるいは、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークを介して、外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含み得る。各コンピューティング／処理装置内のネットワークアダプタカード又はネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、各コンピューティング／処理装置内のコンピュータ可読記憶媒体に記憶するために転送する。

動作を実行するためのコンピュータ可読プログラムコード／命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又はSmalltalk、C++などのようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は類似のプログラミング言語などの手続型プログラミング言語を含む、１つ又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的にリモートコンピュータ上で、又は完全にリモートコンピュータ若しくはサーバ上で、実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続され得る、又は、接続は、外部コンピュータ（例えば、インターネットサービスプロバイダを使用するインターネットを介して）に行われ得る。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、態様又は動作を実行するために、電子回路をパーソナライズするためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供されて、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図のブロック又はブロック（複数）に指定された機能／行為を実装するための手段を生成するように、機械を作り得る。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置、及び／又は他の装置を特定の方法で機能させることができるコンピュータ可読記憶媒体に記憶されてもよく、その結果、その中に記憶された命令を有するコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図のブロック又はブロック（複数）に指定された機能／行為の態様を実装する命令を含む製造品を含む。

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他の装置にロードされて、コンピュータ、他のプログラマブル装置、又は他の装置で実行される命令がフローチャート及び／又はブロック図のブロック又はブロック（複数）に指定された機能／行為を実装するように、コンピュータ、他のプログラマブル装置又は他の装置に一連の動作ステップを実行させて、コンピュータ実装プロセスを生成させ得る。

図中のフローチャート及びブロック図は、様々な実施形態によるシステム、方法、及びコンピュータ可読媒体の可能な実装のアーキテクチャ、機能、及び動作を示す。この点に関し、フローチャート又はブロック図の各ブロックは、特定の論理機能（複数可）を実装するための１つ以上の実行可能な命令を含む、モジュール、セグメント、又は命令の一部を表し得る。この方法、コンピュータシステム、及びコンピュータ可読媒体は、図面に示されたものよりも、追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含み得る。いくつかの代替的な実装では、ブロックに記載された機能は、図に記載された順序から外れて生じてもよい。例えば、連続して示される２つのブロックは、実際には、同時又は実質的に同時に実行されてもよく、又は、ブロックは、関連する機能に応じて、逆の順序で実行されてもよい。また、ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図のブロックの組み合わせは、指定された機能又は動作を実行する又は専用のハードウェア及びコンピュータ命令の組み合わせを実行する専用のハードウェアベースのシステムによって実装することができることに留意されたい。

本明細書に記載したシステム及び／又は方法は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせの異なる形態で実装され得ることは明らかであろう。これらのシステム及び／又は方法を実装するために使用される実際の専用制御ハードウェア又はソフトウェアコードは、実装を限定するものではない。したがって、システム及び／又は方法の動作及び挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェア及びハードウェアは、本明細書の記載に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

本明細書中で使用されるいかなる要素、行為、又は命令も、明示的に記述されない限り、重要又は必須と解釈されるべきではない。また、本明細書で使用される場合、冠詞「１つの（「a」及び「an」）」は、１つ又は複数のアイテムを含むことを意図し、「１つ又は複数」と互換的に使用され得る。さらに、本明細書で使用される場合、用語「セット」は、１つ又は複数のアイテム（例えば、関連アイテム、非関連アイテム、関連アイテムと非関連アイテムの組み合わせなど）を含むことを意図し、「１つ又は複数」と互換的に使用され得る。１つのアイテムのみが意図される場合、用語「１つ」又は類似の言語が使用される。また、本明細書で使用される場合、用語「有する」、「有する」、「有している」などは、オープンエンドの用語であることが意図されている。さらに、語句「に基づく」は、明示的に別段の記載がない限り、「少なくとも部分的に基づく」を意味することが意図されている。

種々の態様及び実施形態の説明は、説明のために提示されてきたが、開示された実施形態を網羅することを意図するものではなく、限定するものでもない。特徴の組み合わせが特許請求の範囲に記載される及び／又は明細書に開示されているとしても、これらの組み合わせは、可能な実装の開示を限定するものではない。実際、これらの特徴の多くは、請求項に具体的に記載されていない及び／又は明細書に開示されていない方法で組み合わせることができる。以下に列挙される各従属請求項は、１つの請求項のみに直接従属し得るが、可能な実装の開示は、請求項のセット中の他の全ての請求項と組み合わせの各従属請求項を含む。多くの修正及び変形は、説明した実施形態の範囲から逸脱することなく、当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際的な応用又は技術的な改良を最もよく説明するため、又は当業者が本明細書で開示される実施形態を理解することを可能にするために選択された。

Claims

第１の歌声を第２の歌声に変換する方法であって：
コンピュータによって、前記第１の歌声に対応する１つ又は複数の音素に関連付けられたコンテキストをエンコーディングすることと；
前記コンピュータによって、エンコーディングされた前記コンテキストに基づいて前記１つ又は複数の音素を１つ又は複数のターゲット音響フレームに位置合わせすることと；
前記コンピュータによって、位置合わせされた前記音素及び前記ターゲット音響フレームから、再帰的ニューラルネットワークによって１つ又は複数のメルスペクトログラム特徴を再帰的に生成することであって、前記再帰的ニューラルネットワークへの入力は、前記１つ又は複数の音素のシーケンス、前記１つ又は複数の音素の各々に関連付けられる継続時間、基本周波数、二乗平均平方根誤差値、及び話者に関連付けられるアイデンティティを含む、生成することと；
前記コンピュータによって、生成された前記メルスペクトログラム特徴を用いて、前記第１の歌声に対応するサンプルを前記第２の歌声に対応するサンプルに変換することと；を含む、
方法。
前記エンコーディングすることは：
前記１つ又は複数の音素のシーケンスを受信することと；
受信した前記音素のシーケンスに関連付けられた連続的表現を含む１つ又は複数の隠れ状態のシーケンスを出力することと；を含む、
請求項１に記載の方法。
前記１つ又は複数の音素を前記１つ又は複数のターゲット音響フレームに位置合わせすることは：
前記隠れ状態の出力されたシーケンスを前記第１の歌声に対応する情報と連結することと；
完全に接続された層を使用して連結された前記出力されたシーケンスに次元低減を適用することと；
各音素に関連付けられる継続時間に基づいて、次元低減された前記出力されたシーケンスを拡張することと；
拡張された前記出力されたシーケンスを前記ターゲット音響フレームに位置合わせすることと；を含む、
請求項２に記載の方法。
１つ又は複数のフレームに位置合わせされた隠れ状態を、フレームレベル、二乗平均平方根誤差値、及び全てのフレームに関連付けられた相対位置と連結することをさらに含む、
請求項３に記載の方法。
前記各音素の前記継続時間は、１つ又は複数の入力音素及び１つ又は複数の音響特徴に対して実行されるフォースアライメントから得られる、
請求項４に記載の方法。
前記１つ又は複数のメルスペクトログラム特徴を再帰的に生成することは：
前記１つ又は複数のターゲット音響フレームと位置合わせされた１つ又は複数のエンコーディングされた隠れ状態からアテンションコンテキストを計算することと；
計算された前記アテンションコンテキストにＣＢＨＧ技法を適用することと；を含む、
請求項１に記載の方法。
前記メルスペクトログラム特徴に関連付けられる損失値が最小化される、
請求項６に記載の方法。
前記第１の歌声は、並列データなしに且つ前記第１の歌声に関連付けられるコンテンツを変えることなく、前記第２の歌声に変換される
請求項１に記載の方法。
第１の歌声を第２の歌声に変換するコンピュータシステムであって、前記コンピュータシステムは：
コンピュータプログラムコードを記憶するように構成された１つ又は複数のコンピュータ可読非一時的記憶媒体と；
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって、請求項１乃至８のいずれか１項に記載の方法を実行するように構成された１つ又は複数のコンピュータプロセッサと；を有する、
システム。
第１の歌声を第２の歌声に変換するためのコンピュータプログラムであって、前記コンピュータプログラムは、１つ又は複数のコンピュータプロセッサに、請求項１乃至８のいずれか１項に記載の方法を実行させる、
コンピュータプログラム。