JP2023013684A

JP2023013684A - 歌唱声質変換プログラム及び歌唱声質変換装置

Info

Publication number: JP2023013684A
Application number: JP2021118044A
Authority: JP
Inventors: 和生飛河; Kazuo Hikawa; 壮騎三浦; Masaki Miura
Original assignee: Crimson Tech Inc
Current assignee: Crimson Tech Inc
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2023-01-26

Abstract

【課題】歌唱を行う際の声質変換を高いリアルタイム性で実現することを可能とする。【解決手段】ボーカルモデルデータベース１０ｂは、対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第１特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの第２音声信号から抽出された第２特徴量間の対応関係をモデル化することによって得られるモデルデータを格納する。選択部２１は、モデルデータを選択する。音声入力部２３は、リクエストされた楽曲に合わせて歌唱を行う歌唱ユーザの音声信号を入力する。分析処理部２４は、歌唱ユーザの音声信号から第３特徴量を抽出する。差分推定部２５及び声質変換部２６は、抽出された第３特徴量及び選択されたモデルデータに基づいて、歌唱ユーザの声質がターゲットの声質に変換された音声信号を生成する。出力部２２は、生成された音声信号を出力する。【選択図】図３

Description

本発明は、歌唱声質変換プログラム及び歌唱声質変換装置に関する。

自身とは異なる声で歌唱を行いたいというニーズが存在し、例えばカラオケにおいては、ユーザの声質を変換する機能（以下、声質変換機能と表記）が提供されている。この声質変換機能によれば、例えばユーザの声質を変換してテクノボイス、アニメボイス、ラジオボイス及びダブルボイス等を出力する、当該ビブラートを付与するように声質を変換する、男性の声質を女性の声質に変換するまたは女性の声質を男性の声質に変換するようなことが可能である。しかしながら、このような声質変換は、入力される音声に基づく音声信号に対してフォルマント変換またはピッチシフト（基本周波数変換）のような特定の音声信号処理を施すことによって実現されるものであり、声質を変換することができるものの、特定の歌手やキャラクタの音声で歌唱を行うようなことはできない。

また、近年では、例えば音声チャット及び音声コミュニティのような音声が重要な位置づけとなるサービスが増えており、バーチャルキャラクター、遠隔接客及びバーチャルユーチューバー（Ｖｔｕｂｅｒ）等においても声質が変換された音声を用いる場合がある。

このような声質変換（ボイスチェンジ）を行うためのアプリケーションプログラムも開発されており、歌唱を行う場合に当該アプリケーションプログラムを利用することが考えられる。しかしながら、このようなアプリケーションプログラムを利用したとしても上記した特定の歌手またはキャラクタの音声で歌唱を行うようなことはできない。

なお、例えば特許文献１には、特定のキャラクタの音声が出力されるようにリアルタイムで声質を変換する技術（以下、先行技術と表記）が開示されている。

この先行技術は、アクター（声質が変換される側の話者）とターゲット（変換後の目標となる声質の話者）とが同一の文章を読み上げたものを収録した音声データ（音声信号）を用いて機械学習により変換モデルを作成し、基本周波数を変換する処理が実行されたアクターの音声信号に対して当該変換モデルで推定した声質変換フィルタを用いたフィルタ処理を行うことによって、アクターの声質をターゲットの声質にリアルタイムで変換するものである。

しかしながら、歌唱を行う際の声質変換に上記した先行技術を適用した場合、基本周波数の変換により大きなレイテンシ（遅延時間）が生じるため、当該先行技術は、当該歌唱を行う場合のような高いリアルタイム性が要求される用途には適していない。

特開２０１８－００５０４８号公報

そこで、本発明の目的は、歌唱を行う際の声質変換を高いリアルタイム性で実現することが可能な歌唱声質変換プログラム及び歌唱声質変換装置を提供することにある。

本発明の１つの態様によれば、対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第１特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第２特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置のコンピュータによって実行される歌唱声質変換プログラムが提供される。前記歌唱声質変換プログラムは、前記コンピュータに、歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択するステップと、前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力するステップと、前記歌唱ユーザの音声信号から第３特徴量を抽出するステップと、前記抽出された第３特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成するステップと、前記生成された音声変換信号を出力するステップとを実行させる。

本発明は、歌唱を行う際の声質変換を高いリアルタイム性で実現することを可能とする。

本発明の実施形態における歌唱声質変換システムの構成を概略的に示す図。歌唱声質学習装置の機能構成を示すブロック図。歌唱声質変換装置の機能構成を示すブロック図。歌唱声質学習装置の処理手順の一例を示すフローチャート。歌唱声質変換装置の処理手順の一例を示すフローチャート。

以下、図面を参照して、本発明の実施形態について説明する。
図１は、本実施形態における歌唱声質変換システムの構成を概略的に示す図である。本実施形態における歌唱声質変換システムは、例えばカラオケ等で楽曲に合わせて歌唱を行うユーザ１またはユーザ３（以下、ユーザ１及びユーザ３を区別しない場合には、歌唱ユーザと表記）の声質をターゲットと称される歌手またはキャラクタ（以下、単にターゲットと表記）２の声質に変換するために用いられる。換言すれば、本実施形態における歌唱声質変換システムは、例えば歌唱ユーザがターゲット２の音声で歌唱を行うような用途に用いられることを想定している。

図１に示すように、歌唱声質変換システムは、歌唱声質学習装置１０及び歌唱声質変換装置２０を備える。

歌唱声質学習装置１０は、各種プログラム（ソフトウェア）を実行可能なＣＰＵのようなプロセッサ（コンピュータ）を備える電子機器（例えば、パーソナルコンピュータ等）を含む。歌唱声質学習装置１０は、解析エンジン１０ａ及びボーカルモデルデータベース（ＤＢ）１０ｂを有する。

解析エンジン１０ａは、所定の楽曲に基づいて歌唱を行うユーザ１の音声（以下、ユーザ１の歌唱音声と表記）と、当該ユーザ１が歌唱を行う楽曲と同一の楽曲に基づいて歌唱を行うターゲット２の音声（以下、ターゲット２の歌唱音声と表記）とを用いて学習処理を実行する（歌唱声質変換モデルを学習する）。解析エンジン１０ａは、学習処理の結果（学習結果）をもとに解析を実行し、ボーカルモデルデータベース１０ｂを作成する。

なお、図１には示されていないが、歌唱声質学習装置１０は、上記したユーザ１またはターゲット２の歌唱音声を入力するためのマイクロフォン等を備えているものとする。なお、ターゲット２の歌唱音声入力は予め収録された録音物を用いてもよい。

歌唱声質学習装置１０は一体となっていなくてもよく、解析エンジンだけ先に用いて解析を行っておき、後にその結果を別途データベースに保管して適宜取り出すようにしても良い。

歌唱声質変換装置２０は、歌唱声質学習装置１０と同様に、各種プログラム（ソフトウェア）を実行可能なＣＰＵのようなプロセッサ（コンピュータ）を備える電子機器を含む。なお、歌唱声質変換装置２０が例えばカラオケを行う歌唱ユーザによって利用される場合であれば、当該歌唱声質変換装置２０は、例えばカラオケルーム等に設置される。また、歌唱声質変換装置２０は、カラオケを行うためのカラオケ機器等に組み込まれていてもよい。

歌唱声質変換装置２０は、上記した歌唱声質学習装置１０において作成されたボーカルモデルデータベース１０ｂを利用して、歌唱を行う歌唱ユーザの声質をターゲット２の声質に変換する。このように歌唱声質変換装置２０によって声質が変換された歌唱音声は、歌唱声質変換装置２０に備えられる例えばスピーカ２０ａから出力される。なお、解析エンジン１０ａはユーザ３の声質の解析は行っていないため、ユーザ１が歌った際の変換に比較してユーザ３が歌った声質変換の品質が低下する可能性があるが、ある程度の変換類似性は維持される。したがって、コストや対応すべき歌唱ユーザ数の多さなどの理由により、全てのユーザの声を解析することが難しい場合は簡易的にユーザ３の声質に対してユーザ１の声質を用いて解析されたボーカルモデルデータベース１０ｂを用いることで代用を行うことも可能である。すなわち、本実施形態においては、例えばユーザ１の歌唱音声データでボーカルモデルを作成し、ユーザ３が当該ボーカルモデルを用いて歌唱を行うようなことも可能である。

なお、図１には示されていないが、歌唱声質変換装置２０は、歌唱ユーザの歌唱音声を入力するためのマイクロフォン等を備えているものとする。

本実施形態における歌唱声質変換システムにおいては、歌唱声質学習装置１０及び歌唱声質変換装置２０が別個の装置であるものとして説明するが、当該歌唱声質学習装置１０及び歌唱声質変換装置２０は、１つの装置として実現されていても構わない。

更に、歌唱声質学習装置１０及び歌唱声質変換装置２０は、例えばスマートフォンまたはタブレット端末等として実現されていてもよい。また、歌唱声質学習装置１０及び歌唱声質変換装置２０は、本実施形態において説明する各機能がチップ等に格納され一体化されたマイクのような形態を有していてもよいし、他の形態を有する専用機器として実現されていてもよい。

以下、本実施形態における歌唱声質変換システムにおける声質の変換手法の概要について説明する。

本実施形態における歌唱声質変換システムにおいては、混合正規分布モデル（ＧＭＭ：Gaussian Mixture Model）に基づいて声質を変換する手法（以下、ＧＭＭに基づく声質変換と表記）が採用されているものとする。このＧＭＭに基づく声質変換においては、歌唱声質学習装置１０によって学習処理が実行され、歌唱声質変換装置２０によって変換処理が実行される。

まず、学習処理について簡単に説明する。学習処理では、例えば同一の楽曲に基づいて歌唱を行うユーザ１及びターゲット２それぞれの歌唱音声に基づく音声信号（以下、単にユーザ１及びターゲット２の音声信号と表記）を用意する。

歌唱声質学習装置１０は、このユーザ１及びターゲット２の音声信号（つまり、ユーザ１及びターゲット２による同一の楽曲に基づく歌唱音声信号）を入力する。

歌唱声質学習装置１０は、双方の音声信号を各フレームに分割して短時間分析処理を実行する。通常は、固定長（例えば、５ｍｓ）で分析区間をシフトさせることで、双方の音声信号を短時間音声波形に分割する。

歌唱声質学習装置１０は、分割されたフレーム毎に音声の特徴を表す特徴量の分析（スペクトル分析）を行い、局所的な時間フレーム系列の伸縮を行い、時間同期をとることによって、双方の音声フレーム間のマッチングを行う。対応するフレーム毎のスペクトルを結合したデータを順次算出し、結合確率密度関数をＧＭＭでモデル化する。

本実施形態においては、このような学習処理によって得られるモデルデータ（以下、ボーカルモデルと表記）がボーカルモデルデータベース１０ｂに蓄積される。

すなわち、上記した学習処理においては、時間の対応づけがされたユーザ１及びターゲット２の音声信号（波形）の特徴量のペアから、当該ユーザ１の声質をターゲット２の声質に変換するための変換規則が統計的にモデル化される。

次に、変換処理について簡単に説明する。上記したＧＭＭに基づく声質変換の変換処理においては一般的に音声合成技術を使用して基本音声を作り出すが、本実施形態における変換処理では、機械的な音声ではなく比較的自然な音声を出力するために、ユーザ１の音声信号（波形）をそのまま使用するものとする。

すなわち、この変換処理では、音声の特徴量を変換するのではなく、ユーザ１の音声と出力すべきターゲット２の音声との特徴量の差分を上記ＧＭＭに基づき推定し、当該推定された特徴量の差分をユーザ１の音声信号（波形）に合成フィルタにより畳み込む（すなわち、差分スペクトル補正を適用する）ことによって、ユーザ１の声質をターゲット２の声質に変換する。

上記したＧＭＭに基づく声質変換においては、学習処理によって作成されたボーカルモデルデータベース１０ｂに蓄積されたボーカルモデルを利用して、変換処理によってユーザ１の声質をターゲット２の声質に変換することができる。

以下、本実施形態における歌唱声質変換システムに備えられる歌唱声質学習装置１０及び歌唱声質変換装置２０の各々の機能構成について説明する。

図２は、歌唱声質学習装置１０の機能構成を示すブロック図である。歌唱声質学習装置１０は、上記したように歌唱声質変換装置２０においてユーザ１の声質をターゲット２の声質に変換するために、当該ユーザ１の音声（声質）及び当該ターゲット２の音声（声質）を学習しておく機能を有する。

図２に示すように、歌唱声質学習装置１０は、第１音声入力部１１、第１分析処理部１２、第２音声入力部１３、第２分析処理部１４及びモデル学習部１５を含む。

本実施形態において、第１音声入力部１１、第１分析処理部１２、第２音声入力部１３、第２分析処理部１４及びモデル学習部１５は、図１に示す解析エンジン１０ａを構成する機能部であり、例えば歌唱声質学習装置１０に備えられるＣＰＵ等のコンピュータにプログラム（歌唱声質学習プログラム）を実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、歌唱声質学習装置１０のコンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて歌唱声質学習装置１０にダウンロードされてもよい。

ここでは各部１１～１５がソフトウェアによって実現されるものとして説明したが、当該各部１１～１５の一部または全ては、ＩＣ（Integrated Circuit）等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。

ここで、上記した学習処理のために歌唱声質学習装置１０に対して発せられたターゲット２の音声（歌唱音声）は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にＡ／Ｄコンバータを通してデジタル信号（つまり、音声信号）に変換され、第１音声入力部１１によって入力される。以下、第１音声入力部１１によって入力された音声信号（第１音声信号）を便宜的にターゲット２の学習用音声信号と称する。なお、第１音声入力部１１は、ターゲット２の学習用音声信号として事前にターゲット２の歌唱音声が収録された音声ファイルを入力してもよい。

上記したターゲット２の学習用音声信号には、当該ターゲット２の音声の特徴を表すパラメータ（特徴量）として、例えば音韻性及び声質等を表現するスペクトル特徴量（スペクトル包絡）と、声の高さ（音高）及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。

第１分析処理部１２は、ターゲット２の学習用音声信号を分析し、当該ターゲット２の学習用音声信号からスペクトル特徴量（第１特徴量）を抽出する。

また、学習処理のために歌唱声質学習装置１０に対して発せられたユーザ１の音声（歌唱音声）は、例えばマイクロフォンを介して電気信号（音声信号）に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にＡ／Ｄコンバータを通してデジタル信号（つまり、音声信号）に変換され、第２音声入力部１３に入力される。以下、第２音声入力部１３によって入力された音声信号を便宜的にユーザ１の学習用音声信号と称する。なお、第２音声入力部１３は、ユーザ１の学習用音声信号として事前にユーザ１の歌唱音声が収録された音声ファイルを入力してもよい。

上記したユーザ１の学習用音声信号には、当該ユーザ１の音声の特徴を表すパラメータ（特徴量）として、例えば音韻性及び声質等を表現するスペクトル特徴量（スペクトル包絡）と、声の高さ（音高）及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。

第２分析処理部１４は、ユーザ１の学習用音声信号を分析し、当該ユーザ１の学習用音声信号からスペクトル特徴量（第２特徴量）を抽出する。

モデル学習部１５は、上述した学習処理を実行する機能部である。モデル学習部１５は、第１分析処理部１２によって抽出されたスペクトル特徴量（つまり、ターゲット２の歌唱音声の特徴量）及び第２分析処理部１４によって抽出されたスペクトル特徴量（つまり、ユーザ１の歌唱音声の特徴量）のペアに関する変換規則を統計的にモデル化する。モデル学習部１５は、このような学習処理によって作成されるボーカルモデルをボーカルモデルデータベース１０ｂに格納する。なお、異なるターゲット２の学習用音声信号を用意することによって、ボーカルモデルデータベース１０ｂには、当該ターゲット２毎のボーカルモデルを格納（蓄積）することができる。

図３は、歌唱声質変換装置２０の機能構成を示すブロック図である。歌唱声質変換装置２０は、歌唱を行うユーザ１の声質をターゲット２の声質に変換する機能を有する。

図３に示すように、歌唱声質変換装置２０は、選択部２１、出力部２２、音声入力部２３、分析処理部２４、差分推定部２５及び声質変換部２６を含む。

本実施形態において、選択部２１、出力部２２、音声入力部２３、分析処理部２４、差分推定部２５及び声質変換部２６は、例えば歌唱声質変換装置２０に備えられるＣＰＵ等のコンピュータにプログラム（歌唱声質変換プログラム）を実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、歌唱声質変換装置２０のコンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて歌唱声質変換装置２０にダウンロードされてもよい。

ここでは各部２１～２６がソフトウェアによって実現されるものとして説明したが、これらの各部２１～２６の一部または全ては、ＩＣ等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。

ここで、本実施形態における歌唱声質変換装置２０は上記したように楽曲に基づいて歌唱ユーザが歌唱を行う際に用いられるが、歌唱ユーザは、例えば歌唱声質変換装置２０に対して、当該歌唱ユーザなどが歌唱を行う楽曲を予約（登録）する操作（以下、楽曲予約操作と表記）を行うことができる。なお、楽曲予約操作において歌唱ユーザなどによって登録される楽曲は、上記したユーザ１の学習用音声信号が歌唱声質学習装置１０（第２音声入力部１３）によって入力される際にユーザ１が歌唱を行った楽曲と同一であってもよいが、同一である必要はない。

上記した楽曲予約操作が行われた場合、歌唱声質変換装置２０においては当該楽曲予約操作に応じて歌唱ユーザによって予約された楽曲をリクエストする楽曲リクエスト情報が生成され、選択部２１は、当該楽曲リクエスト情報に基づいて楽曲を選択する。

なお、歌唱声質変換装置２０は楽曲（データ）を格納する楽曲データベース（ＤＢ）３０と通信可能な状態で接続されており、選択部２１は、楽曲リクエスト情報に基づいて楽曲データベース３０に格納されている楽曲の中から歌唱ユーザによって予約された楽曲を選択（取得）する。

更に、歌唱ユーザは、当該歌唱ユーザの声質を変換するためのボーカルモデルを指定する操作（以下、ボーカルモデル指定操作と表記）を行うことができる。ボーカルモデル指定操作が行われた場合、選択部２１は、上記したボーカルモデルデータベース１０ｂに格納されているボーカルモデルの中から歌唱ユーザによって指定されたボーカルモデルを選択する。

なお、図３に示す例では楽曲データベース３０が歌唱声質変換装置２０の外部に配置されているが、当該楽曲データベース３０は、歌唱声質変換装置２０内部に備えられていてもよい。また、歌唱声質変換装置２０は、ボーカルモデルデータベース１０ｂをインストールし、当該ボーカルモデルデータベース１０ｂに蓄積されているボーカルモデルを内部に保持する構成であってもよい。更に、楽曲データベース３０及びボーカルモデルデータベース１０ｂは、例えばクラウドコンピューティングサービスを提供するサーバ装置（クラウドサーバ）に配置されていてもよい。

選択部２１によって選択された楽曲は、出力部２２によって出力される。これにより、歌唱ユーザは、出力部２２によって出力された楽曲に基づいて歌唱を行うことができる。なお、楽曲は例えば歌唱声質変換装置２０に備えられるスピーカ２０ａ等から出力されるが、例えば歌唱声質変換装置２０にディスプレイ（モニタ）が接続されている場合には、出力部２２は、楽曲に対応する歌詞等を含む映像（動画）を当該ディスプレイに出力することも可能である。

上記したように楽曲が出力部２２によって出力された場合、歌唱ユーザは、当該楽曲に基づいて歌唱を行う。これにより、歌唱ユーザの歌唱音声は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にＡ／Ｄコンバータを通してデジタル電気信号（つまり、音声信号）に変換され、音声入力部２３によって入力される。以下、音声入力部２３によって入力された音声信号を便宜的に歌唱ユーザの変換用音声信号と称する。

なお、歌唱ユーザの変換用音声信号には、上記したユーザ１の学習用音声信号と同様に、当該歌唱ユーザの音声の特徴を表すパラメータ（特徴量）として、スペクトル特徴量、基本周波数及び非周期成分等が含まれる。

分析処理部２４は、歌唱ユーザの変換用音声信号を分析し、当該歌唱ユーザの変換用音声信号からスペクトル特徴量（第３特徴量）を抽出する。

差分推定部２５及び声質変換部２６は、上述した変換処理を実行する機能部である。具体的には、差分推定部２５及び声質変換部２６は、選択部２１によって選択されたボーカルモデル及び分析処理部２４によって抽出されたスペクトル特徴量に基づく変換処理によって、歌唱ユーザの声質がターゲット２の声質に変換された音声信号（第４音声信号）を生成する。このように生成される音声信号は、歌唱ユーザの変換用音声信号に対応するターゲット２の音声信号に相当する。

この場合、差分推定部２５は、選択部２１によって選択されたボーカルモデルを用いて、分析処理部２４によって抽出されたスペクトル特徴量（つまり、歌唱ユーザの変換用音声信号に含まれるスペクトル特徴量）と当該歌唱ユーザの変換用音声信号に対応するターゲット２の音声信号のスペクトル特徴量との差分（以下、差分特徴量と表記）を推定する。

声質変換部２６は、歌唱ユーザの変換用音声信号（音声波形）に対して差分推定部２５によって推定された差分特徴量を適用する処理（フィルタ処理）を実行する。これにより、音声入力部２３によって入力された歌唱ユーザの変換用音声信号において、歌唱ユーザの声質をターゲット２の声質に変換することができる。

出力部２２は、声質変換部２６によって声質が変換された音声信号を、上記した楽曲と重畳させるように例えばスピーカ２０ａを介して出力する。また、ボーカルモデルデータベース１０ｂと楽曲データベース（ＤＢ）３０は別々の構成として記したが、例えば、ユーザが実際に楽曲を購入する際に楽曲とボーカルモデルをセットにした形態のファイル形式でデータベースに保管しておき、このファイルをダウンロードするようにしても良い。

以下、本実施形態における歌唱声質変換システム（歌唱声質学習装置１０及び歌唱声質変換装置２０）の動作について説明する。

まず、図４のフローチャートを参照して、歌唱声質学習装置１０の処理手順の一例について説明する。

第１音声入力部１１は、例えばユーザ１によって指定されたターゲット２（つまり、変換後の目標となる声質のターゲット２）の学習用音声信号を入力する（ステップＳ１）。ここで、ターゲット２の学習用音声信号は、所定の楽曲に基づいて歌唱を行うターゲット２の発声に応じた音声（歌唱音声）に基づく音声信号であるが、本実施形態においてターゲット２は例えば歌手等であるため、ターゲット２の学習用音声信号としては例えばボーカルトラック（音声ファイル）等に収録されているターゲット２の歌唱音声に基づく音声信号を利用することが一般的であると考えられる。

第１分析処理部１２は、ステップＳ１において入力されたターゲット２の学習用音声信号からスペクトル特徴量を抽出する（ステップＳ２）。

また、第２音声入力部１３は、上記したようにユーザによって指定されたターゲット２（特定の歌手またはキャラクタ）の楽曲に基づいて歌唱を行うユーザ１の発声に応じた音声（歌唱音声）に基づく音声信号（つまり、ユーザ１の学習用音声信号）を入力する（ステップＳ３）。

第１分析処理部１２は、ステップＳ１において入力されたユーザ１の学習用音声信号からスペクトル特徴量を抽出する（ステップＳ４）。

ここで、歌唱を行う際の発声は通常の会話の発声とは声質が異なる場合が多いため、本実施形態においては歌唱時の音声（歌唱音声）に基づく音声信号を学習用音声信号として用いるものとする。なお、上記したユーザ１及びターゲット２の学習用音声信号の入力において、当該ユーザ１及びターゲット２は予め指定された同一の歌詞、同一のメロディ及び同一の歌唱の仕方（歌い方及びタイミング）に従って歌唱を行うことが好ましい。

この場合、ターゲット２の学習用音声信号は上記したボーカルトラックに収録されているターゲット２の歌唱音声に基づく音声信号であればよいが、当該ボーカルトラックを入手することが困難である場合には、ターゲット２の歌唱音声を含む楽曲から当該歌唱音声のみを抽出する技術を利用してもよい。これによれば、楽曲から抽出されたターゲット２の歌唱音声に基づく音声信号をターゲット２の学習用音声信号として利用することができる。このような構成によれば、現在のターゲット２の歌唱音声が年齢や病気等により変化していたとしても、例えばターゲット２の過去の歌唱音声に基づく音声信号を学習用音声信号として利用するようなことが可能となる。

一方、ユーザ１は、例えばレコーディングまたはライブ等で歌唱を行っているターゲット２の歌唱音声（ボーカルトラック）を参考にして、当該ターゲット２の発声タイミングや歌唱の仕方を合わせるように当該楽曲に基づいて歌唱を行うものとする。

これによれば、上記したように同一の歌詞、同一のメロディ及び同一の歌唱の仕方に従って歌唱を行ったユーザ１及びターゲット２の学習用音声信号を入力することができる。

なお、ターゲット２の学習用音声信号として、例えば当該ターゲット２と声質が似ている他のターゲットの歌唱音声に基づく音声信号を利用してもよい。同様に、ユーザ１の学習用音声信号として、例えばユーザ１と声質が似ている他のユーザの歌唱音声に基づく音声信号を利用してもよい。

また、歌唱を行う楽曲の選択も声質変換（ボーカルモデル）の品質を左右する大きな要素となる。音韻がはっきりと発音されていることが多いことから、曲調がゆっくりとした楽曲（テンポの遅い楽曲）を選ぶことでボーカルモデルの精度（つまり、ボーカルモデルを用いた声質変換の品質）が向上する傾向がある。このため、上記した学習用音声信号は、比較的テンポの遅い楽曲に対する歌唱音声に基づく音声信号であることが好ましい。

更に、上記したようにターゲット２の歌唱音声を含む楽曲から当該ターゲット２の歌唱音声を抽出する場合、当該ターゲット２の歌唱音声全体に基づく音声信号をターゲット２の学習用音声信号として利用するのではなく、例えばターゲット２が歌唱を行うタイミングで楽器等が演奏（発音）されている部分、歌唱音声と当該歌唱音声と略同一の帯域の楽器音とが重複している部分、ターゲット２以外の人（例えば、バックコーラス等）の音声が入っている部分、ディレイまたはリバーヴ等のエフェクトが強く適用されている部分を、ターゲット２の学習用音声信号から取り除いてもよい。すなわち、本実施形態においては、例えば楽曲から抽出されたターゲット２の歌唱音声に基づく音声信号をイコライジング等の信号処理を行うことによって編集または加工した音声信号をターゲット２の学習用音声信号として学習処理（機械学習）に用いるようにしてもよい。

なお、信号処理による音声信号の改変は歌唱音声の特徴成分も削ぎ落としてしまう（つまり、声質変換の品質が低下する）場合があるため、例えばターゲット２の声質や歌唱を行った楽曲の種別等に従って異なる信号処理を行うようにしてもよい。また、上記したように編集または加工された（つまり、切り出した）音声信号の先頭や終端には楽器音やリバーヴ等のエフェクトによる反響音等が入っていることが多いため、当該音声信号の前後にフェードイン処理またはフェードアウト処理を行うことが好ましい。

ここでは楽曲から抽出されたターゲット２の歌唱音声に基づく音声信号を当該ターゲット２の学習用音声信号として利用する場合に、当該音声信号を編集または加工するものとして説明したが、このようにターゲット２の歌唱音声に基づく音声信号が編集された場合には、ユーザ１の歌唱音声に基づく音声信号（ユーザ１の学習用音声信号）についても当該ターゲット２の歌唱音声に基づく音声信号と同様の編集または加工が行われるものとする。

モデル学習部１５は、上記した学習処理を実行し、ステップＳ２において抽出されたスペクトル特徴量（ターゲット２の歌唱音声のスペクトル特徴量）及びステップＳ４において抽出されたスペクトル特徴量（ユーザ１の歌唱音声のスペクトル特徴量）間の対応関係をモデル化する（ステップＳ５）。具体的には、モデル学習部１５は、上述したように時間（フレーム）毎に対応づけられたスペクトル特徴量に基づく変換規則を統計的にモデル化（ＧＭＭでモデル化）することによってボーカルモデルを作成することができる。換言すれば、ボーカルモデルは、抽出された特徴量系列を時間伸縮することによって時間的マッチングを行い、当該時間的マッチングの取れた双方の特徴量系列を用いて機械学習を行うことによって作成される。

モデル学習部１５によって作成されたボーカルモデルは、ボーカルモデルデータベース１０ｂに蓄積される（ステップＳ６）。

上記した図４に示す処理（学習処理）によれば、上記したようにターゲット２の学習用音声信号及びユーザ１の学習用音声信号を用いて作成されたボーカルモデルをボーカルモデルデータベース１０ｂに蓄積することができる。

なお、ターゲット２の学習用音声信号及びユーザ１の学習用音声信号の組（歌唱音声データセット）を複数用意することによって、当該歌唱音声データセット毎に図４の処理を繰り返し実行することができる。これによれば、例えば既に作成されているターゲット２のボーカルモデル（ユーザ１の声質をターゲット２の声質に変換するためのボーカルモデル）の精度を向上させるための追加の機械学習を実行することも可能であるし、他のターゲット２のボーカルモデルを新たに作成することも可能である。本実施形態においては、このような図４の処理（学習処理）が繰り返し実行されることによって、ボーカルモデルデータベース１０ｂにターゲット２毎に複数のボーカルモデルを蓄積することもでき、ユーザ３の声質に合わせて変換品質が最適なボーカルモデルを適宜選択させることも可能となる。

次に、図５のフローチャートを参照して、歌唱声質変換装置２０の処理手順の一例について説明する。

本実施形態において、歌唱声質変換装置２０は、カラオケルーム等に設置され、当該カラオケルームにおいて歌唱を行う歌唱ユーザの声質をターゲット２の声質に変換する（つまり、歌唱ユーザがターゲット２の音声で歌唱を行う）ような用途で使用される。

なお、ここでは図４に示す処理は既に実行されており、例えば複数のターゲット２のボーカルモデル（ユーザ１の声質を複数のターゲット２の各々の声質に変換するための複数のボーカルモデル）がボーカルモデルデータベース１０ｂに蓄積されているものとする。なおユーザ１はボーカルモデル毎に別の人物（声質）であっても構わないし、同一人物（声質）でもよい。
まず、歌唱ユーザは、例えばカラオケルーム内に設置されている歌唱声質変換装置２０に対して、上記した楽曲予約操作を行う。歌唱ユーザは、この楽曲予約操作において、当該歌唱ユーザが歌唱を行う楽曲を予約する。

歌唱ユーザによって楽曲予約操作が行われた場合、選択部２１は、当該楽曲予約操作に応じて生成された楽曲リクエスト情報を入力し、当該歌唱ユーザによって予約された楽曲を楽曲データベース３０から選択する（ステップＳ１１）。

なお、上記した楽曲予約操作は、例えば既存のカラオケ等で行われているようにコマンダー（コントローラ）を用いて行われてもよいし、歌唱声質変換装置２０（カラオケ機器）の本体に対して行われてもよい。また、楽曲予約操作はこれに限らず、例えば所定のアプリケーションプログラムが動作するスマートフォンまたはタブレット端末等を用いて行われてもよい。

更に、楽曲予約操作を行うためには歌唱ユーザは楽曲データベース３０に格納されている楽曲の中から所望の楽曲を検索する必要があるが、当該楽曲の検索は、例えば５０音順またはアルファベット順に並べられた楽曲のリストを参照して行われることができる。また、楽曲の検索は、例えばジャンル別または年代別等のヒットチャートや、カラオケ機器等に記録されている最近歌われた曲のリスト等を参照して行われてもよい。また、例えば男性の声質を女性の声質に変換するまたは女性の声質を男性の声質に変換する場合に、歌唱ユーザの音域に合わせて歌唱を行うことが可能な曲を検索する（つまり、音域検索を行う）ようにしてもよい。

また、歌唱ユーザは、例えば歌唱声質変換装置２０に対して、ボーカルモデル指定操作を行う。歌唱ユーザは、このボーカルモデル指定操作において、声質を変換したいターゲット２のボーカルモデルを指定する。

歌唱ユーザによってボーカルモデル指定操作が行われた場合、選択部２１は、当該ボーカルモデル指定操作において当該歌唱ユーザによって指定されたボーカルモデルをボーカルモデルデータベース１０ｂから選択する（ステップＳ１２）。

なお、上記したようにボーカルモデルデータベース１０ｂにはターゲット２毎のボーカルモデルが蓄積されている（つまり、ターゲット２とボーカルモデルとは１対１の関係にある）ため、ボーカルモデル指定操作においては、例えばターゲット２の名前等が指定されても構わない。また、ボーカルモデル指定操作においては、例えばボーカルモデルに割り当てられた番号のような識別情報が指定されてもよい。また、ユーザ１が複数の声質で対応する場合や、歌唱声質学習装置１０の学習条件が異なるボーカルモデルを複数用意する場合などは、ターゲット２とボーカルモデルとは１対多の関係の関係になるが、この場合はそれを適宜選択できるようなボーカルモデル指定操作が行えるようなインターフェースに変更すればよい。

また、ボーカルモデル指定操作において歌唱ユーザによって指定されるボーカルモデルは、上記した楽曲予約操作においてユーザによって予約された楽曲と関係のあるターゲット２（つまり、当該楽曲を歌っている歌手等）のボーカルモデルであってもよいし、当該楽曲とは関係のないターゲット２のボーカルモデルであってもよい。

ここではステップＳ１１及びＳ１２の順で処理が実行されるものとして説明したが、当該ステップＳ１１及びＳ１２の処理は入れ替えられても構わない。

次に、出力部２２は、ステップＳ１１において選択された楽曲を例えばスピーカ２０ａを介して出力（再生）する（ステップＳ１３）。この場合、上記したように楽曲に対応する映像（歌詞テロップ及び背景動画等）がディスプレイを介して出力されても構わない。更に、ステップＳ１３においては、例えば収録済みのバック演奏音声データまたはＭＩＤＩ等に基づく演奏情報がシンセサイザーで再生される（つまり、カラオケのバック演奏を提供する）ようにしてもよい。

ステップＳ１３の処理が実行されると、歌唱ユーザは、当該ステップＳ１３において出力された楽曲に基づいて歌唱を行う。これにより、音声入力部２３は、マイクロフォンを介して、歌唱ユーザの変換用音声信号（歌唱ユーザの歌唱音声に基づく音声信号）を入力する（ステップＳ１４）。

次に、分析処理部２４は、ステップＳ１４において入力された歌唱ユーザの変換用音声信号からスペクトル特徴量を抽出する（ステップＳ１５）。

以下、差分推定部２５及び声質変換部２６は、上述した変換処理を実行する。具体的には、差分推定部２５は、ステップＳ１５において抽出されたスペクトル特徴量（歌唱ユーザの歌唱音声のスペクトル特徴量）とステップＳ１４において入力された歌唱ユーザの変換用音声信号に対応するターゲット２の音声信号（のスペクトル特徴量）との差分特徴量を、ステップＳ１２において選択されたボーカルモデルに基づいて推定する（ステップＳ１６）。なお、ステップＳ１６における推定処理においては、例えばＧＭＭに対して変数変換を行うことにより歌唱ユーザの音声のスペクトル特徴量（ベクトル）と差分特徴量（ベクトル）との結合確率密度をモデル化したＧＭＭを導出し、このように導出されたＧＭＭに基づき差分特徴量を推定するものとする。

声質変換部２６は、ステップＳ１５において抽出されたスペクトル特徴量に対して、ステップＳ１６において推定された差分特徴量を合成フィルタにより畳み込む（合成する）ことにより、歌唱ユーザの声質がターゲット２の声質に変換された音声信号を生成する（ステップＳ１７）。なお、合成フィルタとしては、音声合成に用いられる例えばＭＬＳＡ（Mel-Log Spectrum Approximation）フィルタ等を使用することができる。

ステップＳ１７において声質が変換された後の音声信号は、出力部２２によって出力される（ステップＳ１８）。なお、ステップＳ１８において、音声信号は、例えば図示しないエフェクト・ＭＩＸ部によりカラオケのバック演奏とミックスされて出力されてもよいし、例えばリバーヴ等のエフェクトが施されて出力されてもよい。

上記した図５に示す処理によれば、歌唱ユーザによって指定されたターゲット２のボーカルモデルを用いて、当該歌唱ユーザによって予約された楽曲に基づいて歌唱を行うユーザの声質を当該ターゲット２の声質に変換して出力することができる。

なお、図５に示すステップＳ１４以降の処理は、歌唱ユーザの変換用音声信号が入力される度に実行される。具体的には、連続的に入力される歌唱ユーザの変換用音声信号を例えば５ｍｓ程度の固定長毎に処理することによって、ほぼリアルタイムでの声質変換を実現することが可能となる。

なお、本実施形態における声質変換においては、例えば特開２０１８－００５０４８号公報及び特開２０２１－０３３１２９号公報に開示されているように音響特徴量の変換フィルタ（つまり、差分特徴量を畳み込む合成フィルタ）を推定して当該変換フィルタを音声信号に適用することを想定しているが、本実施形態においては、特開２０２１－０３３１２９号公報に開示されている入力話者の音響特徴量から目標話者の音響特徴量を推定するモデルとボコーダと称される音響特徴量から音声を合成する技術とを組み合わせる手法を用いて声質変換を行うようにしてもよい。また、変換精度向上などでリアルタイムでの変換が難しいような声質変換手法を用いる場合は、例えば、インターネット上へのファイルアップロードによるファイル共有などで歌唱を楽しむような構成にすることで、歌唱声質変換装置２０の出力音声の遅延を補正し、カラオケ演奏と変換された歌唱音声のタイミングを完全に合わせた上で一旦ファイル形式で保存し、そのファイルを展開するような構成をとってもよい。

また、本実施形態における声質変換は、ニューラルボコーダと称されるＤＮＮ（Deep Neural Network）で音響特徴量から音声を合成する機械学習モデルと、音響特徴量を話者変換する機械学習モデルとを組み合わせた手法を用いて行われてもよい。

更に、信号処理による音響特徴量の抽出を経由しない“Ｅｎｄ－ｔｏ－Ｅｎｄ”と称されるＤＮＮの機械学習モデルによる手法を用いて声質変換を行う構成であってもよい。

また、本実施形態における声質変換は、音素情報（テキスト・音素事後確率等）を利用する、音声認識及びＴｅｘｔ－ｔｏ－Ｓｐｅｅｃｈの機械学習モデルを組み合わせた手法を用いて実現されてもよい。

すなわち、本実施形態においては、様々なアプローチによる声質変換手法が考えられるが、歌唱ユーザの声質がターゲット２の声質に変換されるものであればどのような手法を用いても構わない。

上記したように本実施形態において、歌唱声質変換装置２０は、例えば第１楽曲に基づいて歌唱を行うターゲット２の学習用音声信号（第１音声信号）から抽出された第１特徴量及び当該第１楽曲に基づいて歌唱を行うユーザ１の学習用音声信号（第２音声信号）から抽出された第２特徴量の対応関係をモデル化することによって得られるボーカルモデル（モデルデータ）を格納するボーカルモデルデータベース１０ｂと接続され、第２楽曲に基づいて歌唱を行う歌唱ユーザの変換用音声信号（第３音声信号）を入力し、当該歌唱ユーザの変換用音声信号から第３特徴量を抽出し、当該抽出された第３特徴量及びボーカルモデルデータベース１０ｂに格納されているボーカルモデルに基づいて、歌唱ユーザの声質がターゲット２の声質に変換された音声信号（第４信号）を生成し、当該音声信号を出力する。

本実施形態においては、上記した構成により、歌唱を行う際の声質変換を高いリアルタイム性で実現することが可能となる。すなわち、本実施形態においては、例えばマイクロフォンに向かって歌唱を行うユーザの声質を、当該ユーザが歌唱を行っている楽曲の歌手などの特定の人物（つまり、ターゲット２）の声質にリアルタイムで変換することによって、歌唱ユーザがターゲット２の音声で歌唱を行うようなサービス（機能）を提供することが可能となる。

なお、本実施形態においては、歌唱の仕方の特徴を加えるために歌唱音声（歌唱を行う際の発声）に基づく音声信号を学習用音声信号として学習処理を実行するため、より歌唱における声質変換時の類似性（つまり、声質変換の制度）を向上させることができる。

ところで、通常の会話音声に関して声質を変換する場合には音韻が網羅的に含まれた文章等を読み上げた音声に基づく音声信号を用いて学習処理が実行されるが、一般的に、楽曲の歌詞は音韻を網羅することを考慮されていないため、ユーザ１及びターゲット２の学習用音声信号に十分に含まれていない音韻部分についての変換精度は低くなる。このような精度の低い変換(以下、誤変換と表記する)が起こる場合には、学習用音声信号に十分に含まれていない音韻を含む別の学習用音声信号を用いて追加の学習処理（機械学習）を実行するようにしてもよい。なお、「誤変換」は、音声分析合成における専門用語ではないが、精度の低い変換を表す用語として便宜的に用いている。

一方、本実施形態のようにカラオケにおける利用を考えると、上記したような音韻の誤変換が生じたとしても、声質が変換された音声信号が出力されると同時に楽曲（バック演奏等の音楽）が大きな音で出力されている、または、歌詞がディスプレイに表示されている等の要素により、当該誤変換は知覚されにくい。これは、声質が変換された音声信号と同時に楽曲が出力されることで誤変換がマスキングされている、または、表示されている歌詞が本来の音韻として知覚されることを補助しているためと考えられる。この点を考慮すると、上記した歌唱ユーザ及びターゲット２の学習用音声信号に十分に含まれていない音韻部分についての変換精度が低いとしても、本実施形態の使用態様では影響が小さいと考えられる。

なお、歌唱ユーザが歌唱を行ってから声質が変換された音声信号が実際に出力されるまでのレイテンシ（遅延）は、変換処理の原理的に必ず発生するものであるが、カラオケルーム（カラオケボックス）内ではスピーカ２０ａからの歌唱音声が大音量でフィードバックされる影響で、歌唱を行う最中で当該歌唱ユーザが適応し、遅延した音声信号による歌唱への悪影響は緩和されるものと考えられる。

更に、テンポの速い楽曲に基づく歌唱を行う場合には、声質変換の精度の悪化及びレイテンシの影響等によってサービスの品質が低下する可能性がある。このような場合には、上記した楽曲予約操作において、ある一定のテンポ以下の楽曲のみを予約させるようにしてもよい。また、楽曲予約操作において予約された楽曲のテンポを下げ、テンポの低い楽曲にアレンジするようにしてもよい。

なお、歌唱を行う際の楽曲のキーが歌唱ユーザと合わない場合は、基本周波数変換を行うのではなく、当該楽曲（カラオケ伴奏）のキーを変更することで対応可能である。

更に、ユーザ１が歌唱を行う楽曲（リスト）が事前にわかっている場合は、当該楽曲に基づいて歌唱を行った音声（歌唱音声）に基づく音声信号（学習用音声信号）を用いた学習処理を実行しておくことで、ボーカルモデルを用いた声質変換の品質（精度）を向上させることができる。

また、本実施形態においてはボーカルモデル指定操作に応じて歌唱ユーザによって指定されたボーカルモデルを選択するものとして説明したが、上記したようにターゲット２とボイスモデルとは１対１の関係にあるため、歌唱ユーザによって予約された楽曲と関係のあるターゲット２のボーカルモデル（当該楽曲に対応するボーカルモデル）が自動的に選択される構成とすることも可能である。すなわち、楽曲（データ）に埋め込まれたメタデータを用いて、当該楽曲に対応するボイスモデル（モデルデータ）を選択する構成としてもよい。この場合、例えば楽曲予約操作において予約された楽曲が出力（再生）される際にボーカルモデルを切り替えるような構成が実現可能となる。このような構成によれば、歌唱ユーザは上記したボーカルモデル指定操作を行う必要がないため、当該歌唱ユーザの利便性が向上する。この場合、図５のステップＳ１２は自動的に選択されることになる。

換言すれば、通常、カラオケで歌唱が行われる楽曲と当該楽曲を歌っている歌手等のターゲット２は一意的に決定される関係であるため、上記した構成によれば、歌唱ユーザは楽曲を予約（リクエスト）するだけで当該楽曲に対応するターゲット２（歌手）の声質で歌唱を行うことが可能となる。なお、ターゲット２として適用する歌手は、１名でもいいし、複数のメンバーで構成される歌手グループ形態の歌唱音声でもよい。

また、上記したボーカルモデルが自動的に選択される（切り替えられる）構成によれば、例えば複数のターゲット２の楽曲に基づく歌唱をメドレー形式で行う場合に、当該楽曲が切り替わるタイミングで自動的にボーカルモデルが切り替わるようにすることも可能である。この場合、歌唱ユーザはボーカルモデルの切り替えを意識することなく、歌唱に専念することができる。

同様に、デュエットのような楽曲等においても自動でボーカルモデルの切り替えを行うことができ、歌唱ユーザ一人で男性パート（男性の声質）及び女性パート（女性の声質）の歌唱を続けて行うことができる。また、コーラスパート毎にボーカルモデルを切り替えるような構成も可能である。

更に、グループの歌手等の楽曲に基づく歌唱を歌唱ユーザが行う場合に、当該グループのメンバーの各々のボーカルモデルを順次切り替えるようなことも可能である。

なお、本実施形態における歌唱声質変換システム（歌唱声質学習装置１０及び歌唱声質変換装置２０）は、例えばカラオケにおいて歌唱ユーザが歌唱を行う際に用いられるものとして主に説明したが、カラオケ以外にも、カバーバンドのステージでオリジナルの歌手の声質で歌唱を行う用途や複数のメンバーで歌唱を行うアイドルバンド等で欠席したメンバーの代わりにスタッフが歌唱を行う用途等で用いられてもよい。更に、本実施形態における歌唱声質変換システムは、歌の物真似イベントや、歌手本人の病気や老化等によって声質が変化した歌手が過去の自身の声質で歌唱を行う場合に用いられてもよい。

また、本実施形態における歌唱声質変換装置２０から出力される音声信号（声質が変換された音声信号）は、例えばボーカロイド（登録商標）のような歌唱音声合成システムが用いる機械学習モデルを学習させるための音声データの作成に利用されても構わない。また、歌唱音声合成システムを含むテキスト音声合成システムの合成音声をターゲット２として用いても構わない。

更に、近年では音楽配信サービスが主流になっているが、楽曲（コンテンツ）に対応するボーカルモデルを指定するためのデータ（以下、ボーカルモデル指定データと表記）を楽曲自体に電子透かしを用いて埋め込むことにより、当該楽曲をストリーミング、ダウンロードまたはファイルシェアリング等の方法で再生する際に、当該楽曲に埋め込まれているボーカルモデル指定データを取り出して、当該ボーカルモデル指定データに基づいてボーカルモデルを切り替えるような構成としてもよい。

なお、ボーカルモデル指定データは、例えばボーカルモデルを指定するコードまたはボーカルモデル名等であればよい。また、ボーカルモデル指定データは、電子透かしを用いて楽曲に埋め込む以外に、例えばファイルのヘッダ等の領域に格納されていてもよいし、別のテーブルで参照するようにしてもよい。

このような構成によれば、ボーカルモデルを意識することなく、既存の音楽配信サービスの仕組みをそのまま利用して、歌唱声質変換システムによるサービス（声質変換サービス）を提供することができる。この場合、再生アプリまたは再生機器側でボーカルモデル指定データを読み出すことで、ボーカルモデルの自動的な切り替えを実現することができる。具体的には、既存の音楽配信の仕組みでカラオケに用いられる楽曲を配信すれば、歌唱ユーザは通常の音楽を再生するのと同じ手順で当該楽曲を再生して歌唱を行うのみで、当該楽曲に対応するボーカルモデルを用いた声質変換サービスを利用することが可能となる。

なお、例えば音楽配信時に電子透かし（情報）が消滅するようなエンコードが楽曲に対して施される場合には、例えばＩＳＲＣ等の楽曲を特定できるコードを用いて当該楽曲に対応するボーカルモデルを指定する（当該ボーカルモデルに切り替える）ようにしてもよい。

上記した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスクなど）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤなど）光磁気ディスク（ＭＯ）、半導体メモリなどの記憶媒体に格納して頒布することもできる。

また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。

また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているＯＳ（オペレーティングシステム）や、データベース管理ソフト、ネットワークソフト等のＭＷ（ミドルウェア）等が本実施形態を実現するための各処理の一部を実行してもよい。歌唱ユーザの歌唱音声データをネットワーク上にアップロードし、クラウドサーバ上で声質変換を実行してもよい。

更に、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、ＬＡＮやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。

また、記憶媒体は１つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。

なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の１つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。

また、本発明におけるコンピュータとは、パソコンに限らず、電子機器または情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。

なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。

１０…歌唱声質学習装置、１０ａ…解析エンジン、１０ｂ…ボーカルモデルデータベース（ＤＢ）、１１…第１音声入力部、１２…第１分析処理部、１３…第２音声入力部、１４…第２分析処理部、１５…モデル学習部、２０…歌唱声質変換装置、２０ａ…スピーカ、２１…選択部、２２…出力部、２３…音声入力部、２４…分析処理部、２５…差分推定部、２６…声質変換部、３０…楽曲データベース（ＤＢ）。

Claims

対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第１特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第２特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置のコンピュータによって実行される歌唱声質変換プログラムであって、
前記コンピュータに、
歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択するステップと、
前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力するステップと、
前記歌唱ユーザの音声信号から第３特徴量を抽出するステップと、
前記抽出された第３特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成するステップと、
前記生成された音声変換信号を出力するステップと
を実行させるための歌唱声質変換プログラム。
対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第１特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第２特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置において、
歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択する選択手段と、
前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力する入力手段と、
前記歌唱ユーザの音声信号から第３特徴量を抽出する抽出手段と、
前記抽出された第３特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成する生成手段と、
前記生成された音声変換信号を出力する出力手段と
を具備する歌唱声質変換装置。