JP2023013684A - 歌唱声質変換プログラム及び歌唱声質変換装置 - Google Patents
歌唱声質変換プログラム及び歌唱声質変換装置 Download PDFInfo
- Publication number
- JP2023013684A JP2023013684A JP2021118044A JP2021118044A JP2023013684A JP 2023013684 A JP2023013684 A JP 2023013684A JP 2021118044 A JP2021118044 A JP 2021118044A JP 2021118044 A JP2021118044 A JP 2021118044A JP 2023013684 A JP2023013684 A JP 2023013684A
- Authority
- JP
- Japan
- Prior art keywords
- singing
- voice
- voice quality
- user
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 160
- 230000004044 response Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001755 vocal effect Effects 0.000 abstract description 106
- 238000012545 processing Methods 0.000 abstract description 59
- 239000000284 extract Substances 0.000 abstract description 7
- 230000005236 sound signal Effects 0.000 description 75
- 238000000034 method Methods 0.000 description 39
- 230000003595 spectral effect Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 21
- 238000003786 synthesis reaction Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000010801 machine learning Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 208000010473 Hoarseness Diseases 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001342895 Chorus Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
【課題】歌唱を行う際の声質変換を高いリアルタイム性で実現することを可能とする。【解決手段】ボーカルモデルデータベース10bは、対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第1特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの第2音声信号から抽出された第2特徴量間の対応関係をモデル化することによって得られるモデルデータを格納する。選択部21は、モデルデータを選択する。音声入力部23は、リクエストされた楽曲に合わせて歌唱を行う歌唱ユーザの音声信号を入力する。分析処理部24は、歌唱ユーザの音声信号から第3特徴量を抽出する。差分推定部25及び声質変換部26は、抽出された第3特徴量及び選択されたモデルデータに基づいて、歌唱ユーザの声質がターゲットの声質に変換された音声信号を生成する。出力部22は、生成された音声信号を出力する。【選択図】図3
Description
本発明は、歌唱声質変換プログラム及び歌唱声質変換装置に関する。
自身とは異なる声で歌唱を行いたいというニーズが存在し、例えばカラオケにおいては、ユーザの声質を変換する機能(以下、声質変換機能と表記)が提供されている。この声質変換機能によれば、例えばユーザの声質を変換してテクノボイス、アニメボイス、ラジオボイス及びダブルボイス等を出力する、当該ビブラートを付与するように声質を変換する、男性の声質を女性の声質に変換するまたは女性の声質を男性の声質に変換するようなことが可能である。しかしながら、このような声質変換は、入力される音声に基づく音声信号に対してフォルマント変換またはピッチシフト(基本周波数変換)のような特定の音声信号処理を施すことによって実現されるものであり、声質を変換することができるものの、特定の歌手やキャラクタの音声で歌唱を行うようなことはできない。
また、近年では、例えば音声チャット及び音声コミュニティのような音声が重要な位置づけとなるサービスが増えており、バーチャルキャラクター、遠隔接客及びバーチャルユーチューバー(Vtuber)等においても声質が変換された音声を用いる場合がある。
このような声質変換(ボイスチェンジ)を行うためのアプリケーションプログラムも開発されており、歌唱を行う場合に当該アプリケーションプログラムを利用することが考えられる。しかしながら、このようなアプリケーションプログラムを利用したとしても上記した特定の歌手またはキャラクタの音声で歌唱を行うようなことはできない。
なお、例えば特許文献1には、特定のキャラクタの音声が出力されるようにリアルタイムで声質を変換する技術(以下、先行技術と表記)が開示されている。
この先行技術は、アクター(声質が変換される側の話者)とターゲット(変換後の目標となる声質の話者)とが同一の文章を読み上げたものを収録した音声データ(音声信号)を用いて機械学習により変換モデルを作成し、基本周波数を変換する処理が実行されたアクターの音声信号に対して当該変換モデルで推定した声質変換フィルタを用いたフィルタ処理を行うことによって、アクターの声質をターゲットの声質にリアルタイムで変換するものである。
しかしながら、歌唱を行う際の声質変換に上記した先行技術を適用した場合、基本周波数の変換により大きなレイテンシ(遅延時間)が生じるため、当該先行技術は、当該歌唱を行う場合のような高いリアルタイム性が要求される用途には適していない。
そこで、本発明の目的は、歌唱を行う際の声質変換を高いリアルタイム性で実現することが可能な歌唱声質変換プログラム及び歌唱声質変換装置を提供することにある。
本発明の1つの態様によれば、対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第1特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第2特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置のコンピュータによって実行される歌唱声質変換プログラムが提供される。前記歌唱声質変換プログラムは、前記コンピュータに、歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択するステップと、前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力するステップと、前記歌唱ユーザの音声信号から第3特徴量を抽出するステップと、前記抽出された第3特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成するステップと、前記生成された音声変換信号を出力するステップとを実行させる。
本発明は、歌唱を行う際の声質変換を高いリアルタイム性で実現することを可能とする。
以下、図面を参照して、本発明の実施形態について説明する。
図1は、本実施形態における歌唱声質変換システムの構成を概略的に示す図である。本実施形態における歌唱声質変換システムは、例えばカラオケ等で楽曲に合わせて歌唱を行うユーザ1またはユーザ3(以下、ユーザ1及びユーザ3を区別しない場合には、歌唱ユーザと表記)の声質をターゲットと称される歌手またはキャラクタ(以下、単にターゲットと表記)2の声質に変換するために用いられる。換言すれば、本実施形態における歌唱声質変換システムは、例えば歌唱ユーザがターゲット2の音声で歌唱を行うような用途に用いられることを想定している。
図1は、本実施形態における歌唱声質変換システムの構成を概略的に示す図である。本実施形態における歌唱声質変換システムは、例えばカラオケ等で楽曲に合わせて歌唱を行うユーザ1またはユーザ3(以下、ユーザ1及びユーザ3を区別しない場合には、歌唱ユーザと表記)の声質をターゲットと称される歌手またはキャラクタ(以下、単にターゲットと表記)2の声質に変換するために用いられる。換言すれば、本実施形態における歌唱声質変換システムは、例えば歌唱ユーザがターゲット2の音声で歌唱を行うような用途に用いられることを想定している。
図1に示すように、歌唱声質変換システムは、歌唱声質学習装置10及び歌唱声質変換装置20を備える。
歌唱声質学習装置10は、各種プログラム(ソフトウェア)を実行可能なCPUのようなプロセッサ(コンピュータ)を備える電子機器(例えば、パーソナルコンピュータ等)を含む。歌唱声質学習装置10は、解析エンジン10a及びボーカルモデルデータベース(DB)10bを有する。
解析エンジン10aは、所定の楽曲に基づいて歌唱を行うユーザ1の音声(以下、ユーザ1の歌唱音声と表記)と、当該ユーザ1が歌唱を行う楽曲と同一の楽曲に基づいて歌唱を行うターゲット2の音声(以下、ターゲット2の歌唱音声と表記)とを用いて学習処理を実行する(歌唱声質変換モデルを学習する)。解析エンジン10aは、学習処理の結果(学習結果)をもとに解析を実行し、ボーカルモデルデータベース10bを作成する。
なお、図1には示されていないが、歌唱声質学習装置10は、上記したユーザ1またはターゲット2の歌唱音声を入力するためのマイクロフォン等を備えているものとする。なお、ターゲット2の歌唱音声入力は予め収録された録音物を用いてもよい。
歌唱声質学習装置10は一体となっていなくてもよく、解析エンジンだけ先に用いて解析を行っておき、後にその結果を別途データベースに保管して適宜取り出すようにしても良い。
歌唱声質変換装置20は、歌唱声質学習装置10と同様に、各種プログラム(ソフトウェア)を実行可能なCPUのようなプロセッサ(コンピュータ)を備える電子機器を含む。なお、歌唱声質変換装置20が例えばカラオケを行う歌唱ユーザによって利用される場合であれば、当該歌唱声質変換装置20は、例えばカラオケルーム等に設置される。また、歌唱声質変換装置20は、カラオケを行うためのカラオケ機器等に組み込まれていてもよい。
歌唱声質変換装置20は、上記した歌唱声質学習装置10において作成されたボーカルモデルデータベース10bを利用して、歌唱を行う歌唱ユーザの声質をターゲット2の声質に変換する。このように歌唱声質変換装置20によって声質が変換された歌唱音声は、歌唱声質変換装置20に備えられる例えばスピーカ20aから出力される。なお、解析エンジン10aはユーザ3の声質の解析は行っていないため、ユーザ1が歌った際の変換に比較してユーザ3が歌った声質変換の品質が低下する可能性があるが、ある程度の変換類似性は維持される。したがって、コストや対応すべき歌唱ユーザ数の多さなどの理由により、全てのユーザの声を解析することが難しい場合は簡易的にユーザ3の声質に対してユーザ1の声質を用いて解析されたボーカルモデルデータベース10bを用いることで代用を行うことも可能である。すなわち、本実施形態においては、例えばユーザ1の歌唱音声データでボーカルモデルを作成し、ユーザ3が当該ボーカルモデルを用いて歌唱を行うようなことも可能である。
なお、図1には示されていないが、歌唱声質変換装置20は、歌唱ユーザの歌唱音声を入力するためのマイクロフォン等を備えているものとする。
本実施形態における歌唱声質変換システムにおいては、歌唱声質学習装置10及び歌唱声質変換装置20が別個の装置であるものとして説明するが、当該歌唱声質学習装置10及び歌唱声質変換装置20は、1つの装置として実現されていても構わない。
更に、歌唱声質学習装置10及び歌唱声質変換装置20は、例えばスマートフォンまたはタブレット端末等として実現されていてもよい。また、歌唱声質学習装置10及び歌唱声質変換装置20は、本実施形態において説明する各機能がチップ等に格納され一体化されたマイクのような形態を有していてもよいし、他の形態を有する専用機器として実現されていてもよい。
以下、本実施形態における歌唱声質変換システムにおける声質の変換手法の概要について説明する。
本実施形態における歌唱声質変換システムにおいては、混合正規分布モデル(GMM:Gaussian Mixture Model)に基づいて声質を変換する手法(以下、GMMに基づく声質変換と表記)が採用されているものとする。このGMMに基づく声質変換においては、歌唱声質学習装置10によって学習処理が実行され、歌唱声質変換装置20によって変換処理が実行される。
まず、学習処理について簡単に説明する。学習処理では、例えば同一の楽曲に基づいて歌唱を行うユーザ1及びターゲット2それぞれの歌唱音声に基づく音声信号(以下、単にユーザ1及びターゲット2の音声信号と表記)を用意する。
歌唱声質学習装置10は、このユーザ1及びターゲット2の音声信号(つまり、ユーザ1及びターゲット2による同一の楽曲に基づく歌唱音声信号)を入力する。
歌唱声質学習装置10は、双方の音声信号を各フレームに分割して短時間分析処理を実行する。通常は、固定長(例えば、5ms)で分析区間をシフトさせることで、双方の音声信号を短時間音声波形に分割する。
歌唱声質学習装置10は、分割されたフレーム毎に音声の特徴を表す特徴量の分析(スペクトル分析)を行い、局所的な時間フレーム系列の伸縮を行い、時間同期をとることによって、双方の音声フレーム間のマッチングを行う。対応するフレーム毎のスペクトルを結合したデータを順次算出し、結合確率密度関数をGMMでモデル化する。
本実施形態においては、このような学習処理によって得られるモデルデータ(以下、ボーカルモデルと表記)がボーカルモデルデータベース10bに蓄積される。
すなわち、上記した学習処理においては、時間の対応づけがされたユーザ1及びターゲット2の音声信号(波形)の特徴量のペアから、当該ユーザ1の声質をターゲット2の声質に変換するための変換規則が統計的にモデル化される。
次に、変換処理について簡単に説明する。上記したGMMに基づく声質変換の変換処理においては一般的に音声合成技術を使用して基本音声を作り出すが、本実施形態における変換処理では、機械的な音声ではなく比較的自然な音声を出力するために、ユーザ1の音声信号(波形)をそのまま使用するものとする。
すなわち、この変換処理では、音声の特徴量を変換するのではなく、ユーザ1の音声と出力すべきターゲット2の音声との特徴量の差分を上記GMMに基づき推定し、当該推定された特徴量の差分をユーザ1の音声信号(波形)に合成フィルタにより畳み込む(すなわち、差分スペクトル補正を適用する)ことによって、ユーザ1の声質をターゲット2の声質に変換する。
上記したGMMに基づく声質変換においては、学習処理によって作成されたボーカルモデルデータベース10bに蓄積されたボーカルモデルを利用して、変換処理によってユーザ1の声質をターゲット2の声質に変換することができる。
以下、本実施形態における歌唱声質変換システムに備えられる歌唱声質学習装置10及び歌唱声質変換装置20の各々の機能構成について説明する。
図2は、歌唱声質学習装置10の機能構成を示すブロック図である。歌唱声質学習装置10は、上記したように歌唱声質変換装置20においてユーザ1の声質をターゲット2の声質に変換するために、当該ユーザ1の音声(声質)及び当該ターゲット2の音声(声質)を学習しておく機能を有する。
図2に示すように、歌唱声質学習装置10は、第1音声入力部11、第1分析処理部12、第2音声入力部13、第2分析処理部14及びモデル学習部15を含む。
本実施形態において、第1音声入力部11、第1分析処理部12、第2音声入力部13、第2分析処理部14及びモデル学習部15は、図1に示す解析エンジン10aを構成する機能部であり、例えば歌唱声質学習装置10に備えられるCPU等のコンピュータにプログラム(歌唱声質学習プログラム)を実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、歌唱声質学習装置10のコンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて歌唱声質学習装置10にダウンロードされてもよい。
ここでは各部11~15がソフトウェアによって実現されるものとして説明したが、当該各部11~15の一部または全ては、IC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。
ここで、上記した学習処理のために歌唱声質学習装置10に対して発せられたターゲット2の音声(歌唱音声)は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にA/Dコンバータを通してデジタル信号(つまり、音声信号)に変換され、第1音声入力部11によって入力される。以下、第1音声入力部11によって入力された音声信号(第1音声信号)を便宜的にターゲット2の学習用音声信号と称する。なお、第1音声入力部11は、ターゲット2の学習用音声信号として事前にターゲット2の歌唱音声が収録された音声ファイルを入力してもよい。
上記したターゲット2の学習用音声信号には、当該ターゲット2の音声の特徴を表すパラメータ(特徴量)として、例えば音韻性及び声質等を表現するスペクトル特徴量(スペクトル包絡)と、声の高さ(音高)及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。
第1分析処理部12は、ターゲット2の学習用音声信号を分析し、当該ターゲット2の学習用音声信号からスペクトル特徴量(第1特徴量)を抽出する。
また、学習処理のために歌唱声質学習装置10に対して発せられたユーザ1の音声(歌唱音声)は、例えばマイクロフォンを介して電気信号(音声信号)に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にA/Dコンバータを通してデジタル信号(つまり、音声信号)に変換され、第2音声入力部13に入力される。以下、第2音声入力部13によって入力された音声信号を便宜的にユーザ1の学習用音声信号と称する。なお、第2音声入力部13は、ユーザ1の学習用音声信号として事前にユーザ1の歌唱音声が収録された音声ファイルを入力してもよい。
上記したユーザ1の学習用音声信号には、当該ユーザ1の音声の特徴を表すパラメータ(特徴量)として、例えば音韻性及び声質等を表現するスペクトル特徴量(スペクトル包絡)と、声の高さ(音高)及び声のかすれ等を表現する基本周波数及び非周期成分とが含まれる。
第2分析処理部14は、ユーザ1の学習用音声信号を分析し、当該ユーザ1の学習用音声信号からスペクトル特徴量(第2特徴量)を抽出する。
モデル学習部15は、上述した学習処理を実行する機能部である。モデル学習部15は、第1分析処理部12によって抽出されたスペクトル特徴量(つまり、ターゲット2の歌唱音声の特徴量)及び第2分析処理部14によって抽出されたスペクトル特徴量(つまり、ユーザ1の歌唱音声の特徴量)のペアに関する変換規則を統計的にモデル化する。モデル学習部15は、このような学習処理によって作成されるボーカルモデルをボーカルモデルデータベース10bに格納する。なお、異なるターゲット2の学習用音声信号を用意することによって、ボーカルモデルデータベース10bには、当該ターゲット2毎のボーカルモデルを格納(蓄積)することができる。
図3は、歌唱声質変換装置20の機能構成を示すブロック図である。歌唱声質変換装置20は、歌唱を行うユーザ1の声質をターゲット2の声質に変換する機能を有する。
図3に示すように、歌唱声質変換装置20は、選択部21、出力部22、音声入力部23、分析処理部24、差分推定部25及び声質変換部26を含む。
本実施形態において、選択部21、出力部22、音声入力部23、分析処理部24、差分推定部25及び声質変換部26は、例えば歌唱声質変換装置20に備えられるCPU等のコンピュータにプログラム(歌唱声質変換プログラム)を実行させること、すなわち、ソフトウェアによって実現されるものとする。なお、歌唱声質変換装置20のコンピュータに実行させるプログラムは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて歌唱声質変換装置20にダウンロードされてもよい。
ここでは各部21~26がソフトウェアによって実現されるものとして説明したが、これらの各部21~26の一部または全ては、IC等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせ構成として実現されてもよい。
ここで、本実施形態における歌唱声質変換装置20は上記したように楽曲に基づいて歌唱ユーザが歌唱を行う際に用いられるが、歌唱ユーザは、例えば歌唱声質変換装置20に対して、当該歌唱ユーザなどが歌唱を行う楽曲を予約(登録)する操作(以下、楽曲予約操作と表記)を行うことができる。なお、楽曲予約操作において歌唱ユーザなどによって登録される楽曲は、上記したユーザ1の学習用音声信号が歌唱声質学習装置10(第2音声入力部13)によって入力される際にユーザ1が歌唱を行った楽曲と同一であってもよいが、同一である必要はない。
上記した楽曲予約操作が行われた場合、歌唱声質変換装置20においては当該楽曲予約操作に応じて歌唱ユーザによって予約された楽曲をリクエストする楽曲リクエスト情報が生成され、選択部21は、当該楽曲リクエスト情報に基づいて楽曲を選択する。
なお、歌唱声質変換装置20は楽曲(データ)を格納する楽曲データベース(DB)30と通信可能な状態で接続されており、選択部21は、楽曲リクエスト情報に基づいて楽曲データベース30に格納されている楽曲の中から歌唱ユーザによって予約された楽曲を選択(取得)する。
更に、歌唱ユーザは、当該歌唱ユーザの声質を変換するためのボーカルモデルを指定する操作(以下、ボーカルモデル指定操作と表記)を行うことができる。ボーカルモデル指定操作が行われた場合、選択部21は、上記したボーカルモデルデータベース10bに格納されているボーカルモデルの中から歌唱ユーザによって指定されたボーカルモデルを選択する。
なお、図3に示す例では楽曲データベース30が歌唱声質変換装置20の外部に配置されているが、当該楽曲データベース30は、歌唱声質変換装置20内部に備えられていてもよい。また、歌唱声質変換装置20は、ボーカルモデルデータベース10bをインストールし、当該ボーカルモデルデータベース10bに蓄積されているボーカルモデルを内部に保持する構成であってもよい。更に、楽曲データベース30及びボーカルモデルデータベース10bは、例えばクラウドコンピューティングサービスを提供するサーバ装置(クラウドサーバ)に配置されていてもよい。
選択部21によって選択された楽曲は、出力部22によって出力される。これにより、歌唱ユーザは、出力部22によって出力された楽曲に基づいて歌唱を行うことができる。なお、楽曲は例えば歌唱声質変換装置20に備えられるスピーカ20a等から出力されるが、例えば歌唱声質変換装置20にディスプレイ(モニタ)が接続されている場合には、出力部22は、楽曲に対応する歌詞等を含む映像(動画)を当該ディスプレイに出力することも可能である。
上記したように楽曲が出力部22によって出力された場合、歌唱ユーザは、当該楽曲に基づいて歌唱を行う。これにより、歌唱ユーザの歌唱音声は、例えばマイクロフォンを介してアナログ電気信号に変換される。マイクロフォンを介してアナログ電気信号に変換された音声は、更にA/Dコンバータを通してデジタル電気信号(つまり、音声信号)に変換され、音声入力部23によって入力される。以下、音声入力部23によって入力された音声信号を便宜的に歌唱ユーザの変換用音声信号と称する。
なお、歌唱ユーザの変換用音声信号には、上記したユーザ1の学習用音声信号と同様に、当該歌唱ユーザの音声の特徴を表すパラメータ(特徴量)として、スペクトル特徴量、基本周波数及び非周期成分等が含まれる。
分析処理部24は、歌唱ユーザの変換用音声信号を分析し、当該歌唱ユーザの変換用音声信号からスペクトル特徴量(第3特徴量)を抽出する。
差分推定部25及び声質変換部26は、上述した変換処理を実行する機能部である。具体的には、差分推定部25及び声質変換部26は、選択部21によって選択されたボーカルモデル及び分析処理部24によって抽出されたスペクトル特徴量に基づく変換処理によって、歌唱ユーザの声質がターゲット2の声質に変換された音声信号(第4音声信号)を生成する。このように生成される音声信号は、歌唱ユーザの変換用音声信号に対応するターゲット2の音声信号に相当する。
この場合、差分推定部25は、選択部21によって選択されたボーカルモデルを用いて、分析処理部24によって抽出されたスペクトル特徴量(つまり、歌唱ユーザの変換用音声信号に含まれるスペクトル特徴量)と当該歌唱ユーザの変換用音声信号に対応するターゲット2の音声信号のスペクトル特徴量との差分(以下、差分特徴量と表記)を推定する。
声質変換部26は、歌唱ユーザの変換用音声信号(音声波形)に対して差分推定部25によって推定された差分特徴量を適用する処理(フィルタ処理)を実行する。これにより、音声入力部23によって入力された歌唱ユーザの変換用音声信号において、歌唱ユーザの声質をターゲット2の声質に変換することができる。
出力部22は、声質変換部26によって声質が変換された音声信号を、上記した楽曲と重畳させるように例えばスピーカ20aを介して出力する。また、ボーカルモデルデータベース10bと楽曲データベース(DB)30は別々の構成として記したが、例えば、ユーザが実際に楽曲を購入する際に楽曲とボーカルモデルをセットにした形態のファイル形式でデータベースに保管しておき、このファイルをダウンロードするようにしても良い。
以下、本実施形態における歌唱声質変換システム(歌唱声質学習装置10及び歌唱声質変換装置20)の動作について説明する。
まず、図4のフローチャートを参照して、歌唱声質学習装置10の処理手順の一例について説明する。
第1音声入力部11は、例えばユーザ1によって指定されたターゲット2(つまり、変換後の目標となる声質のターゲット2)の学習用音声信号を入力する(ステップS1)。ここで、ターゲット2の学習用音声信号は、所定の楽曲に基づいて歌唱を行うターゲット2の発声に応じた音声(歌唱音声)に基づく音声信号であるが、本実施形態においてターゲット2は例えば歌手等であるため、ターゲット2の学習用音声信号としては例えばボーカルトラック(音声ファイル)等に収録されているターゲット2の歌唱音声に基づく音声信号を利用することが一般的であると考えられる。
第1分析処理部12は、ステップS1において入力されたターゲット2の学習用音声信号からスペクトル特徴量を抽出する(ステップS2)。
また、第2音声入力部13は、上記したようにユーザによって指定されたターゲット2(特定の歌手またはキャラクタ)の楽曲に基づいて歌唱を行うユーザ1の発声に応じた音声(歌唱音声)に基づく音声信号(つまり、ユーザ1の学習用音声信号)を入力する(ステップS3)。
第1分析処理部12は、ステップS1において入力されたユーザ1の学習用音声信号からスペクトル特徴量を抽出する(ステップS4)。
ここで、歌唱を行う際の発声は通常の会話の発声とは声質が異なる場合が多いため、本実施形態においては歌唱時の音声(歌唱音声)に基づく音声信号を学習用音声信号として用いるものとする。なお、上記したユーザ1及びターゲット2の学習用音声信号の入力において、当該ユーザ1及びターゲット2は予め指定された同一の歌詞、同一のメロディ及び同一の歌唱の仕方(歌い方及びタイミング)に従って歌唱を行うことが好ましい。
この場合、ターゲット2の学習用音声信号は上記したボーカルトラックに収録されているターゲット2の歌唱音声に基づく音声信号であればよいが、当該ボーカルトラックを入手することが困難である場合には、ターゲット2の歌唱音声を含む楽曲から当該歌唱音声のみを抽出する技術を利用してもよい。これによれば、楽曲から抽出されたターゲット2の歌唱音声に基づく音声信号をターゲット2の学習用音声信号として利用することができる。このような構成によれば、現在のターゲット2の歌唱音声が年齢や病気等により変化していたとしても、例えばターゲット2の過去の歌唱音声に基づく音声信号を学習用音声信号として利用するようなことが可能となる。
一方、ユーザ1は、例えばレコーディングまたはライブ等で歌唱を行っているターゲット2の歌唱音声(ボーカルトラック)を参考にして、当該ターゲット2の発声タイミングや歌唱の仕方を合わせるように当該楽曲に基づいて歌唱を行うものとする。
これによれば、上記したように同一の歌詞、同一のメロディ及び同一の歌唱の仕方に従って歌唱を行ったユーザ1及びターゲット2の学習用音声信号を入力することができる。
なお、ターゲット2の学習用音声信号として、例えば当該ターゲット2と声質が似ている他のターゲットの歌唱音声に基づく音声信号を利用してもよい。同様に、ユーザ1の学習用音声信号として、例えばユーザ1と声質が似ている他のユーザの歌唱音声に基づく音声信号を利用してもよい。
また、歌唱を行う楽曲の選択も声質変換(ボーカルモデル)の品質を左右する大きな要素となる。音韻がはっきりと発音されていることが多いことから、曲調がゆっくりとした楽曲(テンポの遅い楽曲)を選ぶことでボーカルモデルの精度(つまり、ボーカルモデルを用いた声質変換の品質)が向上する傾向がある。このため、上記した学習用音声信号は、比較的テンポの遅い楽曲に対する歌唱音声に基づく音声信号であることが好ましい。
更に、上記したようにターゲット2の歌唱音声を含む楽曲から当該ターゲット2の歌唱音声を抽出する場合、当該ターゲット2の歌唱音声全体に基づく音声信号をターゲット2の学習用音声信号として利用するのではなく、例えばターゲット2が歌唱を行うタイミングで楽器等が演奏(発音)されている部分、歌唱音声と当該歌唱音声と略同一の帯域の楽器音とが重複している部分、ターゲット2以外の人(例えば、バックコーラス等)の音声が入っている部分、ディレイまたはリバーヴ等のエフェクトが強く適用されている部分を、ターゲット2の学習用音声信号から取り除いてもよい。すなわち、本実施形態においては、例えば楽曲から抽出されたターゲット2の歌唱音声に基づく音声信号をイコライジング等の信号処理を行うことによって編集または加工した音声信号をターゲット2の学習用音声信号として学習処理(機械学習)に用いるようにしてもよい。
なお、信号処理による音声信号の改変は歌唱音声の特徴成分も削ぎ落としてしまう(つまり、声質変換の品質が低下する)場合があるため、例えばターゲット2の声質や歌唱を行った楽曲の種別等に従って異なる信号処理を行うようにしてもよい。また、上記したように編集または加工された(つまり、切り出した)音声信号の先頭や終端には楽器音やリバーヴ等のエフェクトによる反響音等が入っていることが多いため、当該音声信号の前後にフェードイン処理またはフェードアウト処理を行うことが好ましい。
ここでは楽曲から抽出されたターゲット2の歌唱音声に基づく音声信号を当該ターゲット2の学習用音声信号として利用する場合に、当該音声信号を編集または加工するものとして説明したが、このようにターゲット2の歌唱音声に基づく音声信号が編集された場合には、ユーザ1の歌唱音声に基づく音声信号(ユーザ1の学習用音声信号)についても当該ターゲット2の歌唱音声に基づく音声信号と同様の編集または加工が行われるものとする。
モデル学習部15は、上記した学習処理を実行し、ステップS2において抽出されたスペクトル特徴量(ターゲット2の歌唱音声のスペクトル特徴量)及びステップS4において抽出されたスペクトル特徴量(ユーザ1の歌唱音声のスペクトル特徴量)間の対応関係をモデル化する(ステップS5)。具体的には、モデル学習部15は、上述したように時間(フレーム)毎に対応づけられたスペクトル特徴量に基づく変換規則を統計的にモデル化(GMMでモデル化)することによってボーカルモデルを作成することができる。換言すれば、ボーカルモデルは、抽出された特徴量系列を時間伸縮することによって時間的マッチングを行い、当該時間的マッチングの取れた双方の特徴量系列を用いて機械学習を行うことによって作成される。
モデル学習部15によって作成されたボーカルモデルは、ボーカルモデルデータベース10bに蓄積される(ステップS6)。
上記した図4に示す処理(学習処理)によれば、上記したようにターゲット2の学習用音声信号及びユーザ1の学習用音声信号を用いて作成されたボーカルモデルをボーカルモデルデータベース10bに蓄積することができる。
なお、ターゲット2の学習用音声信号及びユーザ1の学習用音声信号の組(歌唱音声データセット)を複数用意することによって、当該歌唱音声データセット毎に図4の処理を繰り返し実行することができる。これによれば、例えば既に作成されているターゲット2のボーカルモデル(ユーザ1の声質をターゲット2の声質に変換するためのボーカルモデル)の精度を向上させるための追加の機械学習を実行することも可能であるし、他のターゲット2のボーカルモデルを新たに作成することも可能である。本実施形態においては、このような図4の処理(学習処理)が繰り返し実行されることによって、ボーカルモデルデータベース10bにターゲット2毎に複数のボーカルモデルを蓄積することもでき、ユーザ3の声質に合わせて変換品質が最適なボーカルモデルを適宜選択させることも可能となる。
次に、図5のフローチャートを参照して、歌唱声質変換装置20の処理手順の一例について説明する。
本実施形態において、歌唱声質変換装置20は、カラオケルーム等に設置され、当該カラオケルームにおいて歌唱を行う歌唱ユーザの声質をターゲット2の声質に変換する(つまり、歌唱ユーザがターゲット2の音声で歌唱を行う)ような用途で使用される。
なお、ここでは図4に示す処理は既に実行されており、例えば複数のターゲット2のボーカルモデル(ユーザ1の声質を複数のターゲット2の各々の声質に変換するための複数のボーカルモデル)がボーカルモデルデータベース10bに蓄積されているものとする。なおユーザ1はボーカルモデル毎に別の人物(声質)であっても構わないし、同一人物(声質)でもよい。
まず、歌唱ユーザは、例えばカラオケルーム内に設置されている歌唱声質変換装置20に対して、上記した楽曲予約操作を行う。歌唱ユーザは、この楽曲予約操作において、当該歌唱ユーザが歌唱を行う楽曲を予約する。
まず、歌唱ユーザは、例えばカラオケルーム内に設置されている歌唱声質変換装置20に対して、上記した楽曲予約操作を行う。歌唱ユーザは、この楽曲予約操作において、当該歌唱ユーザが歌唱を行う楽曲を予約する。
歌唱ユーザによって楽曲予約操作が行われた場合、選択部21は、当該楽曲予約操作に応じて生成された楽曲リクエスト情報を入力し、当該歌唱ユーザによって予約された楽曲を楽曲データベース30から選択する(ステップS11)。
なお、上記した楽曲予約操作は、例えば既存のカラオケ等で行われているようにコマンダー(コントローラ)を用いて行われてもよいし、歌唱声質変換装置20(カラオケ機器)の本体に対して行われてもよい。また、楽曲予約操作はこれに限らず、例えば所定のアプリケーションプログラムが動作するスマートフォンまたはタブレット端末等を用いて行われてもよい。
更に、楽曲予約操作を行うためには歌唱ユーザは楽曲データベース30に格納されている楽曲の中から所望の楽曲を検索する必要があるが、当該楽曲の検索は、例えば50音順またはアルファベット順に並べられた楽曲のリストを参照して行われることができる。また、楽曲の検索は、例えばジャンル別または年代別等のヒットチャートや、カラオケ機器等に記録されている最近歌われた曲のリスト等を参照して行われてもよい。また、例えば男性の声質を女性の声質に変換するまたは女性の声質を男性の声質に変換する場合に、歌唱ユーザの音域に合わせて歌唱を行うことが可能な曲を検索する(つまり、音域検索を行う)ようにしてもよい。
また、歌唱ユーザは、例えば歌唱声質変換装置20に対して、ボーカルモデル指定操作を行う。歌唱ユーザは、このボーカルモデル指定操作において、声質を変換したいターゲット2のボーカルモデルを指定する。
歌唱ユーザによってボーカルモデル指定操作が行われた場合、選択部21は、当該ボーカルモデル指定操作において当該歌唱ユーザによって指定されたボーカルモデルをボーカルモデルデータベース10bから選択する(ステップS12)。
なお、上記したようにボーカルモデルデータベース10bにはターゲット2毎のボーカルモデルが蓄積されている(つまり、ターゲット2とボーカルモデルとは1対1の関係にある)ため、ボーカルモデル指定操作においては、例えばターゲット2の名前等が指定されても構わない。また、ボーカルモデル指定操作においては、例えばボーカルモデルに割り当てられた番号のような識別情報が指定されてもよい。また、ユーザ1が複数の声質で対応する場合や、歌唱声質学習装置10の学習条件が異なるボーカルモデルを複数用意する場合などは、ターゲット2とボーカルモデルとは1対多の関係の関係になるが、この場合はそれを適宜選択できるようなボーカルモデル指定操作が行えるようなインターフェースに変更すればよい。
また、ボーカルモデル指定操作において歌唱ユーザによって指定されるボーカルモデルは、上記した楽曲予約操作においてユーザによって予約された楽曲と関係のあるターゲット2(つまり、当該楽曲を歌っている歌手等)のボーカルモデルであってもよいし、当該楽曲とは関係のないターゲット2のボーカルモデルであってもよい。
ここではステップS11及びS12の順で処理が実行されるものとして説明したが、当該ステップS11及びS12の処理は入れ替えられても構わない。
次に、出力部22は、ステップS11において選択された楽曲を例えばスピーカ20aを介して出力(再生)する(ステップS13)。この場合、上記したように楽曲に対応する映像(歌詞テロップ及び背景動画等)がディスプレイを介して出力されても構わない。更に、ステップS13においては、例えば収録済みのバック演奏音声データまたはMIDI等に基づく演奏情報がシンセサイザーで再生される(つまり、カラオケのバック演奏を提供する)ようにしてもよい。
ステップS13の処理が実行されると、歌唱ユーザは、当該ステップS13において出力された楽曲に基づいて歌唱を行う。これにより、音声入力部23は、マイクロフォンを介して、歌唱ユーザの変換用音声信号(歌唱ユーザの歌唱音声に基づく音声信号)を入力する(ステップS14)。
次に、分析処理部24は、ステップS14において入力された歌唱ユーザの変換用音声信号からスペクトル特徴量を抽出する(ステップS15)。
以下、差分推定部25及び声質変換部26は、上述した変換処理を実行する。具体的には、差分推定部25は、ステップS15において抽出されたスペクトル特徴量(歌唱ユーザの歌唱音声のスペクトル特徴量)とステップS14において入力された歌唱ユーザの変換用音声信号に対応するターゲット2の音声信号(のスペクトル特徴量)との差分特徴量を、ステップS12において選択されたボーカルモデルに基づいて推定する(ステップS16)。なお、ステップS16における推定処理においては、例えばGMMに対して変数変換を行うことにより歌唱ユーザの音声のスペクトル特徴量(ベクトル)と差分特徴量(ベクトル)との結合確率密度をモデル化したGMMを導出し、このように導出されたGMMに基づき差分特徴量を推定するものとする。
声質変換部26は、ステップS15において抽出されたスペクトル特徴量に対して、ステップS16において推定された差分特徴量を合成フィルタにより畳み込む(合成する)ことにより、歌唱ユーザの声質がターゲット2の声質に変換された音声信号を生成する(ステップS17)。なお、合成フィルタとしては、音声合成に用いられる例えばMLSA(Mel-Log Spectrum Approximation)フィルタ等を使用することができる。
ステップS17において声質が変換された後の音声信号は、出力部22によって出力される(ステップS18)。なお、ステップS18において、音声信号は、例えば図示しないエフェクト・MIX部によりカラオケのバック演奏とミックスされて出力されてもよいし、例えばリバーヴ等のエフェクトが施されて出力されてもよい。
上記した図5に示す処理によれば、歌唱ユーザによって指定されたターゲット2のボーカルモデルを用いて、当該歌唱ユーザによって予約された楽曲に基づいて歌唱を行うユーザの声質を当該ターゲット2の声質に変換して出力することができる。
なお、図5に示すステップS14以降の処理は、歌唱ユーザの変換用音声信号が入力される度に実行される。具体的には、連続的に入力される歌唱ユーザの変換用音声信号を例えば5ms程度の固定長毎に処理することによって、ほぼリアルタイムでの声質変換を実現することが可能となる。
なお、本実施形態における声質変換においては、例えば特開2018-005048号公報及び特開2021-033129号公報に開示されているように音響特徴量の変換フィルタ(つまり、差分特徴量を畳み込む合成フィルタ)を推定して当該変換フィルタを音声信号に適用することを想定しているが、本実施形態においては、特開2021-033129号公報に開示されている入力話者の音響特徴量から目標話者の音響特徴量を推定するモデルとボコーダと称される音響特徴量から音声を合成する技術とを組み合わせる手法を用いて声質変換を行うようにしてもよい。また、変換精度向上などでリアルタイムでの変換が難しいような声質変換手法を用いる場合は、例えば、インターネット上へのファイルアップロードによるファイル共有などで歌唱を楽しむような構成にすることで、歌唱声質変換装置20の出力音声の遅延を補正し、カラオケ演奏と変換された歌唱音声のタイミングを完全に合わせた上で一旦ファイル形式で保存し、そのファイルを展開するような構成をとってもよい。
また、本実施形態における声質変換は、ニューラルボコーダと称されるDNN(Deep Neural Network)で音響特徴量から音声を合成する機械学習モデルと、音響特徴量を話者変換する機械学習モデルとを組み合わせた手法を用いて行われてもよい。
更に、信号処理による音響特徴量の抽出を経由しない“End-to-End”と称されるDNNの機械学習モデルによる手法を用いて声質変換を行う構成であってもよい。
また、本実施形態における声質変換は、音素情報(テキスト・音素事後確率等)を利用する、音声認識及びText-to-Speechの機械学習モデルを組み合わせた手法を用いて実現されてもよい。
すなわち、本実施形態においては、様々なアプローチによる声質変換手法が考えられるが、歌唱ユーザの声質がターゲット2の声質に変換されるものであればどのような手法を用いても構わない。
上記したように本実施形態において、歌唱声質変換装置20は、例えば第1楽曲に基づいて歌唱を行うターゲット2の学習用音声信号(第1音声信号)から抽出された第1特徴量及び当該第1楽曲に基づいて歌唱を行うユーザ1の学習用音声信号(第2音声信号)から抽出された第2特徴量の対応関係をモデル化することによって得られるボーカルモデル(モデルデータ)を格納するボーカルモデルデータベース10bと接続され、第2楽曲に基づいて歌唱を行う歌唱ユーザの変換用音声信号(第3音声信号)を入力し、当該歌唱ユーザの変換用音声信号から第3特徴量を抽出し、当該抽出された第3特徴量及びボーカルモデルデータベース10bに格納されているボーカルモデルに基づいて、歌唱ユーザの声質がターゲット2の声質に変換された音声信号(第4信号)を生成し、当該音声信号を出力する。
本実施形態においては、上記した構成により、歌唱を行う際の声質変換を高いリアルタイム性で実現することが可能となる。すなわち、本実施形態においては、例えばマイクロフォンに向かって歌唱を行うユーザの声質を、当該ユーザが歌唱を行っている楽曲の歌手などの特定の人物(つまり、ターゲット2)の声質にリアルタイムで変換することによって、歌唱ユーザがターゲット2の音声で歌唱を行うようなサービス(機能)を提供することが可能となる。
なお、本実施形態においては、歌唱の仕方の特徴を加えるために歌唱音声(歌唱を行う際の発声)に基づく音声信号を学習用音声信号として学習処理を実行するため、より歌唱における声質変換時の類似性(つまり、声質変換の制度)を向上させることができる。
ところで、通常の会話音声に関して声質を変換する場合には音韻が網羅的に含まれた文章等を読み上げた音声に基づく音声信号を用いて学習処理が実行されるが、一般的に、楽曲の歌詞は音韻を網羅することを考慮されていないため、ユーザ1及びターゲット2の学習用音声信号に十分に含まれていない音韻部分についての変換精度は低くなる。このような精度の低い変換(以下、誤変換と表記する)が起こる場合には、学習用音声信号に十分に含まれていない音韻を含む別の学習用音声信号を用いて追加の学習処理(機械学習)を実行するようにしてもよい。なお、「誤変換」は、音声分析合成における専門用語ではないが、精度の低い変換を表す用語として便宜的に用いている。
一方、本実施形態のようにカラオケにおける利用を考えると、上記したような音韻の誤変換が生じたとしても、声質が変換された音声信号が出力されると同時に楽曲(バック演奏等の音楽)が大きな音で出力されている、または、歌詞がディスプレイに表示されている等の要素により、当該誤変換は知覚されにくい。これは、声質が変換された音声信号と同時に楽曲が出力されることで誤変換がマスキングされている、または、表示されている歌詞が本来の音韻として知覚されることを補助しているためと考えられる。この点を考慮すると、上記した歌唱ユーザ及びターゲット2の学習用音声信号に十分に含まれていない音韻部分についての変換精度が低いとしても、本実施形態の使用態様では影響が小さいと考えられる。
なお、歌唱ユーザが歌唱を行ってから声質が変換された音声信号が実際に出力されるまでのレイテンシ(遅延)は、変換処理の原理的に必ず発生するものであるが、カラオケルーム(カラオケボックス)内ではスピーカ20aからの歌唱音声が大音量でフィードバックされる影響で、歌唱を行う最中で当該歌唱ユーザが適応し、遅延した音声信号による歌唱への悪影響は緩和されるものと考えられる。
更に、テンポの速い楽曲に基づく歌唱を行う場合には、声質変換の精度の悪化及びレイテンシの影響等によってサービスの品質が低下する可能性がある。このような場合には、上記した楽曲予約操作において、ある一定のテンポ以下の楽曲のみを予約させるようにしてもよい。また、楽曲予約操作において予約された楽曲のテンポを下げ、テンポの低い楽曲にアレンジするようにしてもよい。
なお、歌唱を行う際の楽曲のキーが歌唱ユーザと合わない場合は、基本周波数変換を行うのではなく、当該楽曲(カラオケ伴奏)のキーを変更することで対応可能である。
更に、ユーザ1が歌唱を行う楽曲(リスト)が事前にわかっている場合は、当該楽曲に基づいて歌唱を行った音声(歌唱音声)に基づく音声信号(学習用音声信号)を用いた学習処理を実行しておくことで、ボーカルモデルを用いた声質変換の品質(精度)を向上させることができる。
また、本実施形態においてはボーカルモデル指定操作に応じて歌唱ユーザによって指定されたボーカルモデルを選択するものとして説明したが、上記したようにターゲット2とボイスモデルとは1対1の関係にあるため、歌唱ユーザによって予約された楽曲と関係のあるターゲット2のボーカルモデル(当該楽曲に対応するボーカルモデル)が自動的に選択される構成とすることも可能である。すなわち、楽曲(データ)に埋め込まれたメタデータを用いて、当該楽曲に対応するボイスモデル(モデルデータ)を選択する構成としてもよい。この場合、例えば楽曲予約操作において予約された楽曲が出力(再生)される際にボーカルモデルを切り替えるような構成が実現可能となる。このような構成によれば、歌唱ユーザは上記したボーカルモデル指定操作を行う必要がないため、当該歌唱ユーザの利便性が向上する。この場合、図5のステップS12は自動的に選択されることになる。
換言すれば、通常、カラオケで歌唱が行われる楽曲と当該楽曲を歌っている歌手等のターゲット2は一意的に決定される関係であるため、上記した構成によれば、歌唱ユーザは楽曲を予約(リクエスト)するだけで当該楽曲に対応するターゲット2(歌手)の声質で歌唱を行うことが可能となる。なお、ターゲット2として適用する歌手は、1名でもいいし、複数のメンバーで構成される歌手グループ形態の歌唱音声でもよい。
また、上記したボーカルモデルが自動的に選択される(切り替えられる)構成によれば、例えば複数のターゲット2の楽曲に基づく歌唱をメドレー形式で行う場合に、当該楽曲が切り替わるタイミングで自動的にボーカルモデルが切り替わるようにすることも可能である。この場合、歌唱ユーザはボーカルモデルの切り替えを意識することなく、歌唱に専念することができる。
同様に、デュエットのような楽曲等においても自動でボーカルモデルの切り替えを行うことができ、歌唱ユーザ一人で男性パート(男性の声質)及び女性パート(女性の声質)の歌唱を続けて行うことができる。また、コーラスパート毎にボーカルモデルを切り替えるような構成も可能である。
更に、グループの歌手等の楽曲に基づく歌唱を歌唱ユーザが行う場合に、当該グループのメンバーの各々のボーカルモデルを順次切り替えるようなことも可能である。
なお、本実施形態における歌唱声質変換システム(歌唱声質学習装置10及び歌唱声質変換装置20)は、例えばカラオケにおいて歌唱ユーザが歌唱を行う際に用いられるものとして主に説明したが、カラオケ以外にも、カバーバンドのステージでオリジナルの歌手の声質で歌唱を行う用途や複数のメンバーで歌唱を行うアイドルバンド等で欠席したメンバーの代わりにスタッフが歌唱を行う用途等で用いられてもよい。更に、本実施形態における歌唱声質変換システムは、歌の物真似イベントや、歌手本人の病気や老化等によって声質が変化した歌手が過去の自身の声質で歌唱を行う場合に用いられてもよい。
また、本実施形態における歌唱声質変換装置20から出力される音声信号(声質が変換された音声信号)は、例えばボーカロイド(登録商標)のような歌唱音声合成システムが用いる機械学習モデルを学習させるための音声データの作成に利用されても構わない。また、歌唱音声合成システムを含むテキスト音声合成システムの合成音声をターゲット2として用いても構わない。
更に、近年では音楽配信サービスが主流になっているが、楽曲(コンテンツ)に対応するボーカルモデルを指定するためのデータ(以下、ボーカルモデル指定データと表記)を楽曲自体に電子透かしを用いて埋め込むことにより、当該楽曲をストリーミング、ダウンロードまたはファイルシェアリング等の方法で再生する際に、当該楽曲に埋め込まれているボーカルモデル指定データを取り出して、当該ボーカルモデル指定データに基づいてボーカルモデルを切り替えるような構成としてもよい。
なお、ボーカルモデル指定データは、例えばボーカルモデルを指定するコードまたはボーカルモデル名等であればよい。また、ボーカルモデル指定データは、電子透かしを用いて楽曲に埋め込む以外に、例えばファイルのヘッダ等の領域に格納されていてもよいし、別のテーブルで参照するようにしてもよい。
このような構成によれば、ボーカルモデルを意識することなく、既存の音楽配信サービスの仕組みをそのまま利用して、歌唱声質変換システムによるサービス(声質変換サービス)を提供することができる。この場合、再生アプリまたは再生機器側でボーカルモデル指定データを読み出すことで、ボーカルモデルの自動的な切り替えを実現することができる。具体的には、既存の音楽配信の仕組みでカラオケに用いられる楽曲を配信すれば、歌唱ユーザは通常の音楽を再生するのと同じ手順で当該楽曲を再生して歌唱を行うのみで、当該楽曲に対応するボーカルモデルを用いた声質変換サービスを利用することが可能となる。
なお、例えば音楽配信時に電子透かし(情報)が消滅するようなエンコードが楽曲に対して施される場合には、例えばISRC等の楽曲を特定できるコードを用いて当該楽曲に対応するボーカルモデルを指定する(当該ボーカルモデルに切り替える)ようにしてもよい。
上記した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。歌唱ユーザの歌唱音声データをネットワーク上にアップロードし、クラウドサーバ上で声質変換を実行してもよい。
更に、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
また、記憶媒体は1つに限らず、複数の媒体から本実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であってもよい。
なお、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本発明におけるコンピュータとは、パソコンに限らず、電子機器または情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
なお、本願発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10…歌唱声質学習装置、10a…解析エンジン、10b…ボーカルモデルデータベース(DB)、11…第1音声入力部、12…第1分析処理部、13…第2音声入力部、14…第2分析処理部、15…モデル学習部、20…歌唱声質変換装置、20a…スピーカ、21…選択部、22…出力部、23…音声入力部、24…分析処理部、25…差分推定部、26…声質変換部、30…楽曲データベース(DB)。
Claims (2)
- 対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第1特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第2特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置のコンピュータによって実行される歌唱声質変換プログラムであって、
前記コンピュータに、
歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択するステップと、
前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力するステップと、
前記歌唱ユーザの音声信号から第3特徴量を抽出するステップと、
前記抽出された第3特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成するステップと、
前記生成された音声変換信号を出力するステップと
を実行させるための歌唱声質変換プログラム。 - 対象楽曲に合わせて歌唱を行うターゲットの音声信号から抽出された第1特徴量及び当該対象楽曲に合わせて歌唱を行うユーザの音声信号から抽出された第2特徴量間の対応関係をモデル化することによって得られるモデルデータを用いた歌唱声質変換装置において、
歌唱ユーザによってリクエストされた楽曲に対応するモデルデータを自動的に選択するまたは当該歌唱ユーザの操作に応じてモデルデータを選択する選択手段と、
前記リクエストされた楽曲に合わせて歌唱を行う前記歌唱ユーザの音声信号を入力する入力手段と、
前記歌唱ユーザの音声信号から第3特徴量を抽出する抽出手段と、
前記抽出された第3特徴量及び前記選択されたモデルデータに基づいて、前記歌唱ユーザの声質が前記ターゲットの声質に変換された音声変換信号を生成する生成手段と、
前記生成された音声変換信号を出力する出力手段と
を具備する歌唱声質変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021118044A JP2023013684A (ja) | 2021-07-16 | 2021-07-16 | 歌唱声質変換プログラム及び歌唱声質変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021118044A JP2023013684A (ja) | 2021-07-16 | 2021-07-16 | 歌唱声質変換プログラム及び歌唱声質変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023013684A true JP2023013684A (ja) | 2023-01-26 |
Family
ID=85128991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021118044A Pending JP2023013684A (ja) | 2021-07-16 | 2021-07-16 | 歌唱声質変換プログラム及び歌唱声質変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023013684A (ja) |
-
2021
- 2021-07-16 JP JP2021118044A patent/JP2023013684A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5703311A (en) | Electronic musical apparatus for synthesizing vocal sounds using format sound synthesis techniques | |
US7825321B2 (en) | Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals | |
JP5143569B2 (ja) | 音響的特徴の同期化された修正のための方法及び装置 | |
US20170140745A1 (en) | Music performance system and method thereof | |
JP6569712B2 (ja) | 電子楽器、電子楽器の楽音発生方法、及びプログラム | |
JP6784022B2 (ja) | 音声合成方法、音声合成制御方法、音声合成装置、音声合成制御装置およびプログラム | |
JP2003241757A (ja) | 波形生成装置及び方法 | |
US11087727B2 (en) | Auto-generated accompaniment from singing a melody | |
WO2020095950A1 (ja) | 情報処理方法および情報処理システム | |
JP7476934B2 (ja) | 電子楽器、電子楽器の制御方法、及びプログラム | |
JP2010014913A (ja) | 声質変換音声生成装置および声質変換音声生成システム | |
JP5598516B2 (ja) | カラオケ用音声合成システム,及びパラメータ抽出装置 | |
JP6288197B2 (ja) | 評価装置及びプログラム | |
WO2014142200A1 (ja) | 音声処理装置 | |
JP6102076B2 (ja) | 評価装置 | |
TW201027514A (en) | Singing synthesis systems and related synthesis methods | |
JP2023013684A (ja) | 歌唱声質変換プログラム及び歌唱声質変換装置 | |
JP6252420B2 (ja) | 音声合成装置、及び音声合成システム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2022065566A (ja) | 音声合成方法およびプログラム | |
JP2013210501A (ja) | 素片登録装置,音声合成装置,及びプログラム | |
CN112825244A (zh) | 配乐音频生成方法和装置 | |
JP6380305B2 (ja) | データ生成装置、カラオケシステム、及びプログラム | |
WO2022080395A1 (ja) | 音声合成方法およびプログラム | |
JP4033146B2 (ja) | カラオケ装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240510 |