JP2023530262A

JP2023530262A - オーディオ移調

Info

Publication number: JP2023530262A
Application number: JP2022575932A
Authority: JP
Inventors: フォントマークフェラス; ジオージオファブロ; フォークマーティンフォフマン; トーマスケンプ; ステファンウーリッヒ
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2020-06-16
Filing date: 2021-06-14
Publication date: 2023-07-14
Also published as: US20230215454A1; WO2021254961A1; CN115885342A

Abstract

電子機器は、オーディオソースによって、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備える電子機器であって、前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと前記第２のボーカル信号の第２のピッチレンジとの比較に基づく。【選択図】図１

Description

本開示は、概して、オーディオ処理の分野に関し、特に、装置、方法、およびコンピュータプログラムオーディオ移調に関する。

例えば、コンパクトディスク（ＣＤ）、テープ、インターネットからダウンロード可能なオーディオデータファイルの方式だけではなく、例えばデジタルビデオディスク等に記憶されたビデオのサウンドトラックの方式で、利用可能な多くのオーディオコンテンツがある。

音楽プレーヤが既存の音楽データベースの曲を再生しているとき、聴者は、一緒に歌いたいと思うことがある。もちろん、聴者の音声は、録音に存在するオリジナルのアーティストの音声に追加され、潜在的にそれに干渉する。これにより、聴者自身の曲の解釈が妨げられたり歪められたりする可能性がある。したがって、カラオケシステムは、カラオケ歌唱者が再生に合わせて歌うために、オリジナルの楽曲録音の音楽キーにおける楽曲の再生を提供する。これにより、カラオケ歌唱者は、自身の能力を超えるピッチレンジ（すなわち高すぎるまたは低すぎる）に到達することになる。これは、カラオケ歌唱者がオリジナル曲のピッチレンジに到達するために高い歌唱労力を要求し、したがって、カラオケ歌唱者は、長い歌唱セッションに耐えることができないか、または声帯を損傷させ得る。これはまた、カラオケ歌唱者が、自身の労力を減らし声帯を守るために自身のピッチを適応させなければならず、したがって、パフォーマンスの全体的な品質が悪くなり得る。

オーディオ移調のための技術が一般に存在するが、オーディオコンテンツの移調のための方法および装置を改善することが一般に望ましい。

第１の態様によれば、本開示は、オーディオソース分離によって、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと第２のボーカル信号の第２のピッチレンジとの比較に基づく電子機器に関する。

第２の態様によれば、本開示は、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調する方法であって、前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと前記第２のボーカル信号の第２のピッチレンジとの比較に基づく方法に関する。

さらに別の態様は、従属請求項、以下の説明および図面に記載される。

実施形態は、添付の図面に関して例として説明される。

オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を自動移調するカラオケシステムのプロセスの第１の実施形態を概略的に示す。音源分離（ＭＳＳ）などのブラインドソース分離（ＢＳＳ）によるオーディオアップミックス／リミックスの一般的なアプローチを概略的に示す。図１におけるピッチ解析部において実行されるピッチ解析のプロセスの実施形態をより詳細に示す。図１のピッチレンジ判断部の処理を説明するフローチャートを概略的に示す。ピッチ解析結果のグラフを概略的に示す。図ｌのピッチレンジ比較部のプロセスを説明するフローチャートを概略的に示す。図ｌの比較部のプロセスを説明するフローチャートを概略的に示す。オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第２の実施形態を概略的に示す図８の歌唱労力判断部を概略的に説明する。図８の移調値判断部を概略的に示す。オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第３の実施形態を概略的に示す。オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第４の実施形態を概略的に示す。音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第５の実施形態を概略的に示す上述のピッチレンジ判断および移調のプロセスを実施することができる電子機器の実施形態を概略的に説明する。

図１以下を参照して一般的な説明形態を詳細に説明する前に、いくつかの一般的な説明を行う。

実施形態は、オーディオソース分離によって、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと第２のボーカル信号の第２のピッチレンジとの比較に基づく電子機器に関する。

電子機器は、例えば、カラオケボックス、スマートフォン、ＰＣ、ＴＶ、シンセサイザ、ミキシングコンソールなどの任意の音楽または映像再生装置である。

電子機器の回路は、プロセッサを含んでもよく、例えば、ＣＰＵ、メモリ（ＲＡＭ、ＲＯＭなど）、メモリおよび／またはストレージ、インタフェースなどであってもよい。回路は入力手段（マウス、キーボード、カメラ等）、出力手段（ディスプレイ（例えば、液晶、（有機）発光ダイオード等））、スピーカ等、（無線）インタフェース等を備えてもよく、またはこれらと接続されてもよく、これらは、電子機器（コンピュータ、スマートフォン等）として一般的に既知である。さらに、回路は、静止画像またはビデオ画像データを感知するためのセンサ（イメージセンサ、カメラセンサ、ビデオセンサなど）を備えてもよく、またはそれに接続されてもよい。

入力信号は、どのようなタイプのオーディオ信号でも構わない。入力信号は、アナログ信号、デジタル信号の形態であってもよいし、ハードディスク、コンパクトディスク、デジタルビデオディスク等から生じてもよいし、ウェーブファイル、ｍｐ３ファイル等のようなデータファイルであってもよく、本開示は、入力オーディオコンテンツにおいて特定のフォーマットに限定されない。入力オーディオコンテンツは例えば、第１のチャネル入力オーディオ信号および第２のチャネル入力オーディオ信号を有するステレオオーディオ信号であってもよく、本開示は、２つのオーディオチャネルを有する入力オーディオコンテンツに限定されない。他の実施形態では、入力オーディオコンテンツが５．１オーディオ信号のリミックスなど、任意の数のチャンネルを含むことができる。

入力信号は、１つ以上のソース信号を含み得る。特に、入力信号は、いくつかのオーディオソースを含み得る。オーディオソースは、音波を生成する任意のエンティティ、例えば、楽器、ボイス、ボーカル、人工的に生成された音（例えば、シンセサイザからの生成）などであり得る。

入力オーディオコンテンツは、ミックスされたオーディオソースを表すまたは含むことができ、これは、そのサウンド情報が入力オーディオコンテンツの全てのオーディオソースに対して個別に利用可能ではないが、異なるオーディオソース用のサウンド情報が、例えば、少なくとも部分的にオーバーラップしているか、またはミックスされていることを意味する。伴奏は、オーディオ入力信号からボーカル信号を分離することから生じる残余信号であってもよい。例えば、オーディオ入力信号は、ボーカル、ギター、キーボード、およびドラムを含む楽曲であってもよく、伴奏信号は、オーディオ入力信号からボーカルを分離した後の残余としてギター、キーボード、およびドラムを含む信号であってもよい。

移調とは、あるインターバルごとに楽曲のトーンのピッチを変化させたり、インターバルごとに楽曲全体を異なるキーにシフトさせたりすることである。

ピッチ比は、２つのピッチ間の比であり得る。ピッチ比による移調とは、２つのピッチの間の比によって、楽曲のトーンのピッチをシフトさせること、または２つのピッチの間の比によって定義される半音の数に従って楽曲全体を異なるキーにシフトさせることを意味し得る。

ブラインド信号分離としても知られるブラインドソース分離（ＢＳＳ）は、ミックス信号のセットからのソース信号のセットの分離である。ブラインドソース分離（ＢＳＳ）の１つの用途は、オリジナルコンテンツのアップミックスまたはリミックスが可能であるように、楽曲を個々の楽器トラックに分離することである。

以下では、リミックス、アップミックス、およびダウンミックスという用語は、ミックスされた入力オーディオコンテンツから生じる分離されたオーディオソース信号に基づいて出力オーディオコンテンツを生成する全体的なプロセスを指すことができ、一方、「ミックス」という用語は、分離されたオーディオソース信号のミックスを指すことができる。したがって、分離されたオーディオソース信号の「ミックス」は、入力オーディオコンテンツソースの「リミックス」、「アップミックス」、または「ダウンミックス」でもある。

オーディオソース分離では、多数のソース（例えば、楽器、ボイスなど）を含む入力信号がデコンポーズされ分離される。オーディオソース分離は、スーパーバイズされていない（「ブラインドソース分離」、ＢＳＳと呼ばれる）場合もあれば、部分的にスーパーバイズされている場合もある。「ブラインド」とは、ブラインドソース分離が、必ずしもオリジナルのソースに関する情報を持っているとは限らないことを意味する。例えば、オリジナルの信号がいくつのオーディオソースを含んでいるか、または、入力信号のどの音情報がどのオリジナルのオーディオソースに属しているかを必ずしも知る必要はない。ブラインドソース分離の目的は、以前の分離を知ることなく、オリジナルの信号が分離するようにデコンポーズすることである。ブラインドソース分離部は、当業者に既知の任意のブラインドソース分離技術を使用することができる。（ブラインド）オーディオソース分離では、確率論的または情報理論的な意味で、またはオーディオオーディオソース信号に対する非負行列因数分解構造制約に基づいて、最小限に相関する、すなわち最大限に独立したオーディオソース信号を探索することができる。（ブラインド）ソース分離を実行するための方法は、当業者に知られており、例えば、主成分解析、特異値分解、（独立）成分解析、非負行列因数分解、人工ニューラルネットワークなどに基づく。

いくつかの実施形態は、分離されたオーディオソース信号を生成するためにブラインドソース分離を使用するが、本開示は、オーディオソース信号の分離のためにさらなる情報が使用されない実施形態に限定されず、いくつかの実施形態では、分離されたオーディオソース信号の生成のためにさらなる情報が使用される。このようなさらなる情報は例えば、ミキシング処理に関する情報、入力オーディオコンテンツに含まれるオーディオソースのタイプに関する情報、入力オーディオコンテンツに含まれるオーディオソースの空間的位置に関する情報などである。

回路は、少なくとも１つのフィルタリングされた分離されたソースに基づいて、およびブラインドソース分離によって取得された他の分離されたソースに基づいて、リミックスまたはアップミックスを実行して、リミックスまたはアップミックスされた信号を取得するように構成され得る。リミックスまたはアップミックスは、分離されたソース、ここでは「ボーカル」および「伴奏」のリミックスまたはアップミックスを実行して、リミックスまたはアップミックスされた信号を生成するように構成され得、これはスピーカシステムに送信され得る。リミックスまたはアップミックスは、スピーカシステムの出力チャンネルのうちの１つまたは複数に送信され得るリミックスまたはアップミックスされた信号を生成するために、分離されたソースのうちの１つまたは複数の歌詞置換を実行するようにさらに構成され得る。

いくつかの実施形態によれば、回路は、第１のボーカル信号の第１のピッチ解析結果に基づいて第１のボーカル信号の第１のピッチレンジを判断するようにさらに構成されてもよく、第２のボーカル信号の第２のピッチ解析結果に基づいて第２のボーカル信号の第２のピッチレンジを判断するように構成されてもよい。

いくつかの実施形態によれば、前記第１のボーカル信号は、前記オーディオ入力信号を含む。

いくつかの実施形態によれば、オーディオ出力信号は、伴奏であってもよい。

いくつかの実施形態によれば、オーディオ出力信号は、オーディオ入力信号であってもよい。

いくつかの実施形態によれば、オーディオ出力信号は、伴奏と第１のボーカル信号とのミックスであってもよい。

いくつかの実施形態によれば、伴奏を複数の楽器に分離するようにさらに構成されてもよい。

いくつかの実施形態によれば、第２のオーディオ入力信号は、第２のボーカル信号と残余信号とに分離され得る。

いくつかの実施形態によれば、回路は、第２のボーカル信号に基づいて歌唱労力を判断するようにさらに構成され得、移調値は、歌唱労力とピッチ比とに基づく。

いくつかの実施形態によれば、歌唱労力は、第２のボーカル信号の第２のピッチ解析結果と、第２のボーカル信号の第２のピッチレンジとに基づき得る。

いくつかの実施形態によれば、回路は、ジッタ値および／またはＲＡＰ値および／またはシマー値および／またはＡＰＱ値および／またはノイズ対高調波比および／またはソフト発声指数に基づいて歌唱労力を判断するようにさらに構成され得る。

いくつかの実施形態によれば、回路は、移調値が半音の整数倍に対応するように、ピッチ比に基づいてオーディオ出力信号を移調するようにさらに構成され得る。

移調値は、天井に丸められてもよいし、床に丸められてもよいし、これにより、半音の次の整数倍に丸められてもよい。したがって、伴奏は、半音の整数倍によって移調され得る。

いくつかの実施形態によれば、回路は、第２のボーカル信号をキャプチャするように構成されたマイクロフォンを備えてもよい。

いくつかの実施形態によれば、回路は、第１のオーディオ入力信号をリアルオーディオ録音からキャプチャするようにさらに構成され得る。

リアルオーディオ録音は、例えば、コンピュータ生成音と対比して、マイクロフォンで録音される音楽の任意の録音であってもよい。リアルオーディオ録音は、ＷＡＶ、ＭＰ３、ＡＡＣ、ＷＭＡ、ＡＩＦＦなどのような適切なオーディオファイルに記憶され得る。すなわち、オーディオ入力は現実のオーディオであってもよく、これは、例えば、商業的にパフォーマンスされた歌ではない、準備されたものではない生のオーディオを意味する。

本実施形態によれば、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離することと、ピッチ比に基づく移調値によってオーディオ出力信号を移調することとを含む方法を開示し、ピッチ比は、第１のボーカル信号の第１のピッチレンジと第２のボーカル信号の第２のピッチレンジとの比較に基づく。

本実施形態によれば、命令を備えるコンピュータプログラムを開示し、命令は、プロセッサ上で実行されたとき、プロセッサに、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離することと、ピッチ比に基づいて移調値によってオーディオ出力信号を移調することとを備える方法を実行させ、ピッチ比は、第１のボーカル信号の第１のピッチレンジと第２のボーカル信号の第２のピッチレンジとの比較に基づく。

以下、図面を参照して本実施形態について説明する。

図１は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を自動移調するカラオケシステムのプロセスの第１の実施形態を概略的に示す。モノラルまたはステレオオーディオ入力１３から受信されるオーディオ入力信号ｘ（ｎ）は、複数ソース（図２の１、２、…、Ｋ参照）を含み、音源分離１２の処理に入力され、分離され（図２の分離されたソース２および残余信号３参照）、ここでは分離されたソース２、すなわちオリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）、および残余信号３、すなわち伴奏ｓ_Ａｃｃ（ｎ）に分離される。音源分離２のプロセスの例示的な実施形態は、以下の図２に記載される。

オーディオ出力信号ｘ*（ｎ）は伴奏ｓ_Ａｃｃ（ｎ）に等しく、オーディオ出力信号ｘ^*（ｎ）は移調部１７に送信され、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）が信号加算器１８およびピッチ解析部１４（詳述は図３）に送信される。ピッチ解析部１４は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_ｆ，_{ｏｒｉｇｉｎａｌ}（ｎ）を推定する。ピッチ解析結果ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）は、ピッチレンジ推定部１５（図４に詳述）に入力される。ピッチレンジ推定部１５は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}を推定する。ピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}は、ピッチ比較部１６に入力される。ユーザマイクロフォン１１は、音源分離１２の処理に入力されて分離されたオーディオ入力信号ｙ（ｎ）を取得し（図２の分離音源２および残余信号３を参照）、ここでは分離音源２、すなわち、ユーザボーカルｓ_ｕｓｅｒ（ｎ）と、以下では不要な残余信号３とに分離する。ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）は、ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）を推定するピッチ解析部１４（詳述は図３）に送信される。ピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）は、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}を推定するピッチレンジ推定部１５（図４で詳述）に入力され、ピッチレンジＲ_{ω，ｕｓｅｒ}は、ピッチ比較部１６に入力される。ピッチレンジ推定部１５（図５で詳述）は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}、およびユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}を受け取り、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}の平均値と、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}の平均値との間のピッチ比Ｐ_ωを出力する。ピッチ比Ｐ_ωは、移調部１７（図６に詳述）に入力される。移調部１７は、ここではピッチ比Ｐ_ωと等しい移調量ｔｒａｎｓｐｏｓｅ＿ｖａｌを入力として受け付け、オーディオ出力信号はｘ^*（ｎ）（＝伴奏ｓ_Ａｃｃ（ｎ））であり、オーディオ出力信号ｘ^*（ｎ）（＝伴奏ｓ_Ａｃｃ（ｎ））をピッチ比Ｐ_ωで移調する。移調部１７は、移調後伴奏ｓ^* _Ａｃｃ（ｎ）を出力し、それを信号加算器１８に入力する。信号加算器１８は、移調後伴奏ｓ^* _Ａｃｃ（ｎ）と、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）とを入力して加算し、加算した信号をスピーカシステム１９に出力する。ピッチ比Ｐ_ωは、さらに表示部２０に出力され、ユーザに提示される。また、表示部２０は、ユーザボーカルｓ_ｕｓｅｒ（ｎ）の歌詞を受信し、ユーザに提示する。

図１の実施形態では、オーディオ入力信号ｙ（ｎ）に対してオーディオソース分離がリアルタイムで実行される。オーディオ入力信号ｙ（ｎ）は、例えば、ユーザボーカルとバックグラウンドサウンドとを含むカラオケ信号である。バックグラウンドサウンドは、カラオケ歌唱者のマイクロフォンによってキャプチャされ得る任意のノイズ、例えば、群衆のノイズなどであり得る。オーディオ入力信号ｙ（ｎ）は、音声分離アルゴリズムを介してオンラインで処理され、バックグラウンドサウンドからユーザボーカルを抽出し、潜在的に除去する。リアルタイム音声分離の例は、既知の論文（Uhlich, Stefan,et al. “Improving music source separation based on deep neural networks through data augmentation and network blending.” 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE,2017）に記載される。論文において、双方向ＬＳＴＭレイヤは、一方向ＬＳＴＭレイヤによって置き換えられる。

オーディオソース分離は、オーディオ入力信号ｘ（ｎ）に対してリアルタイムで実行される。オーディオ入力信号ｘ（ｎ）は、例えば、オリジナルボーカルと伴奏とを含むカラオケ歌唱される曲である。オーディオ入力信号ｘ（ｎ）は、音声分離アルゴリズムを介してオンラインで処理されて、再生音からユーザ音声を抽出し、潜在的に除去することができ、またはオーディオ入力信号ｘ（ｎ）は、例えば、オーディオ入力信号ｘ（ｎ）が音楽ライブラリに記憶されているときに、事前に処理することができる。事前処理の場合、ピッチ解析およびピッチレンジ推定も事前に実行されてもよい。カラオケ楽曲データベース内の各楽曲を事前処理するためには、ピッチレンジについて解析する必要がある。

マニュアル移調が可能なカラオケボックスが存在する。しかしながら、ほとんどのカラオケ歌唱者（カラオケユーザとも呼ばれる）は、ピッチレンジが自身の能力に適しているかどうかを知らず、したがって、伴奏ｓ_Ａｃｃ（ｎ）の自動オンライン移調は、大きな優位性を有する。

一実施形態では、オーディオ入力ｘ（ｎ）は、ＭＩＤＩファイルである（以下の図７の説明でより詳細に参照されたい）。この例では、ＭＩＤＩシンセサイザによって、それぞれのＭＩＤＩトラックの伴奏ｓ_Ａｃｃ（ｎ）が移調される。

別の実施形態では、オーディオ入力ｘ（ｎ）は、オーディオ録音、例えば、ＷＡＶファイル、ＭＰ３ファイル、ＡＡＣファイル、ＷＭＡファイル、ＡＩＦＦファイルなどである。これは、オーディオ入力ｘ（ｎ）が実際のオーディオであることを意味し、例えば、商業的にパフォーマンスされた歌ではない、準備されたものではない生のオーディオを意味する。カラオケ素材は、マニュアルによる準備を必要とせず、完全に自動処理することができ、オンラインであり、良好な品質および高い現実感を提供することができるので、この実施形態では、事前準備されたオーディオ／ＭＩＤＩ素材は必要とされない。

カラオケシステムは、カラオケ歌唱者のピッチレンジと歌唱労力（図８参照）を解析するために、カラオケ歌唱者のマイクまたはオリジナル曲（オリジナルの歌手によって歌われた）からクリーンなボーカル録音を得るために、ボーカル／楽器分離アルゴリズム（図２参照）を使用する。

ピッチ解析部と比較部は、図１では機能的に分離されているが、これらは両方の段階で自動実行され、歌唱者の疲労と労力を最小限に抑えながら、最小の移調係数でオリジナルの録音とは異なるように接続される。システムは、基本的に、カラオケセッションの歌唱者および聴者の両方のためのパフォーマンス体験を最適化する。

さらに、上述のカラオケシステムの利点は、ボーカル／楽器分離の低遅延処理がオンラインピッチ解析および移調を可能にすることである。さらに、ボーカルの分離は、ボーカルのピッチレンジの正確な解析および歌唱労力の判断を可能にする。さらに、リアルオーディオのボーカル／楽器分離処理は、カラオケをＭＩＤＩカラオケ曲に限定せず、したがって、音楽がはるかにリアルになる。さらに、ボーカル／楽器分離は、リアルオーディオ録音の移調品質を改善可能である。

オーディオソース分離によるオーディオリミックス／アップミックス

図２は、音源分離（ＭＳＳ）のようなブラインドソース分離（ＢＳＳ）によるオーディオアップミックス／リミックスの一般的なアプローチを概略的に示す。第１に、ソースオーディオ信号１（ここでは、複数のチャネルＩと、複数のオーディオソースソース１、ソース２、…、ソースＫ（例えば、楽器、音声など）からのオーディオとを含むオーディオ入力信号ｘ（ｎ））にオーディオソース分離（「デミキシング」とも呼ばれる）が実行され、各チャネルｉ毎に、分離後のソース２（例えばボーカルＳ_０（ｎ））および残余信号３（例えば伴奏ｓ_Ａ（ｎ））に「分離」する。ここで、Ｋは整数であり、オーディオソースの個数を示す。ここで、残余信号は、オーディオ入力信号からボーカルを分離した後に得られる信号である。すなわち、残余信号は、入力オーディオ信号のボーカルを除去した後の「休止」オーディオ信号である。ここでの実施形態では、ソースオーディオ信号１は、２つのチャネルｉ＝１およびｉ＝２を有するステレオ信号である。続いて、分離されたソース２および残余信号３は、リミックスされ、新たなスピーカ信号４、ここでは５つのチャネル４ａ－４ｅを含む信号、すなわち５．０チャネルシステムにレンダリングされる。オーディオソース分離プロセス（図１の１０４参照）は、例えば、既知の論文（Uhlich, Stefan、et al。“Improving music source separation based on deep neural networks through data augmentation and network blending”.2017 IEEE International Conference on Acoustics、Speech and Signal IEEE、2017.）に詳細に記載される。

オーディオソース信号の分離が不完全である場合、例えば、オーディオソースのミックスにより、分離されたオーディオソース信号２ａ－２ｄに加えて、残余信号３（ｒ（ｎ））が生成される。この残余信号は例えば、入力オーディオコンテンツと、全ての分離されたオーディオソース信号の総和との間の差を表すことができる。各オーディオソースによって発せられるオーディオ信号は、入力オーディオコンテンツ１において、そのそれぞれの録音された音波によって表される。ステレオまたはサラウンドサウンド入力オーディオコンテンツなど、２つ以上のオーディオチャンネルを有する入力オーディオコンテンツの場合、オーディオソースのための空間情報も、典型的には、入力オーディオコンテンツに含まれるまたは表される（例えば、異なるオーディオチャンネルに含まれるオーディオソース信号の割合として）。入力オーディオコンテンツ１から分離されたオーディオソース信号２ａ－２ｄおよび残余信号３への分離は、ブラインドソース分離、またはオーディオソースを分離することができる他の技術に基づいて実行される。

第２のステップでは、分離されたオーディオソース信号２ａ－２ｄおよび残余が存在する場合は残余信号３がリミックスされ、新たなスピーカ信号４、ここでは５つのチャネル４ａ－４ｅを含む信号、すなわち５．０チャネルシステムにレンダリングされる。分離したオーディオソース信号および残余信号に基づいて、空間情報に基づいて分離したオーディオソース信号および残余信号をミックスすることにより、出力オーディオコンテンツが生成される。出力オーディオコンテンツは、図２に例示的に示され、参照番号４で示されている。

第２のステップでは、分離および残余が存在する場合は残余がリミックスされ、新たなスピーカ信号４、ここでは５つのチャネル４ａ－４ｅを含む信号、すなわち５．０チャネルシステムにレンダリングされる。分離したオーディオソース信号および残余信号に基づいて、空間情報に基づいて分離したオーディオソース信号および残余信号をミックスすることにより、出力オーディオコンテンツが生成される。出力オーディオコンテンツは、図２に例示的に示され、参照番号４で示されている。

オーディオ入力ｘ（ｎ）とオーディオ入力ｙ（ｎ）は、図２で説明した方式で分離することができ、オーディオ入力ｙ（ｎ）は、ユーザボーカルｓ_ｕｓｅｒ（ｎ）と不使用のバックグラウンドサウンドとに分離され、オーディオ入力ｘ（ｎ）は、オリジナルボーカルｓ_ｕｓｅｒ（ｎ）と伴奏ｓ_ａｃｃ（ｎ）とに分離される。伴奏ｓ_ａｃｃ（ｎ）は、ドラム、ピアノ、ストリングスなど、それぞれのトラックにさらに分割される（図１１参照）。ボーカルの分離は、伴奏とボーカルの両方が処理される方法の大幅な改善を可能にする。

オーディオ入力ｙ（ｎ）から伴奏を除去するための別の方法は、例えば、クロストークキャンセル方法であり、そこでは、伴奏のリファレンスが、例えば、アダプティブフィルタリングを使用することによって、マイクロフォン信号から同相で減算される。

オーディオ入力ｙ（ｎ）を分離するための別の方法は、オーディオ入力ｙ（ｎ）についてのマスタリング録音が、オーディオ入力ｙ（ｎ）（すなわち、歌）がどのようにマスタリングされたかについての詳細な知識がある場合において利用可能である。この場合、ステムは、ボーカルなしで再びミックスされる必要があり、ボーカルは、全ての伴奏なしで再びミックスされる必要がある。このプロセスでは、マスタリング中に、はるかに多数のステム、例えば、階層化されたボーカル、マルチマイクロフォンテイク、適用されているエフェクトなどが使用される。

ピッチ解析

図３は、図１のピッチ解析部１３において実行されるピッチ解析のプロセスの実施形態をより詳細に示す。図１に示すように、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）およびユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）に対してそれぞれピッチ解析を行い、ピッチ解析結果ω_ｆ（ｎ）を得る。特に、信号フレーム化３０１の処理は、ボーカル３００に対して、すなわちボーカル信号ｓ（ｎ）に対して実行され、フレーム化されたボーカルｓ_ｎ（ｉ）を得る。高速フーリエ変換（ＦＦＴ）スペクトル解析３０２の処理が、フレーム化されたボーカルＳ_ｎ（ｉ）に対して実行され、ＦＦＴスペクトルＳ_ω（ｎ）が得られる。ＦＦＴスペクトルＳ_ω（ｎ）に対してピッチ測定解析３０３が実行され、ピッチ測定値Ｒ_Ｐ（ω_ｆ）が得られる。

信号フレーム化３０１において、フレーム化されたボーカルｓ_ｎ（ｉ）などのウィンドウ化フレームは、数１によって得ることができる。

ここで、ｓ（ｎ＋ｉ）が、ｎ個のサンプルだけシフトされた離散化オーディオ信号（ｉは、サンプル番号、したがって時間を表す）を表す。ｈ（ｉ）が、例えば、当業者に周知のハミング関数のように、時間ｎ（それぞれサンプルｎ）付近のフレーム化関数である。

ＦＦＴスペクトル解析３０２において、各フレーム化されたボーカルは、それぞれの短期パワースペクトルに変換される。パワースペクトル密度としても知られる離散フーリエ変換で得られる短期パワースペクトルＳ（ω）は、数２によって得ることができる。

ここで、Ｓ_ｎ（ｉ）は、上で定義されたようなフレーム化されたボーカルＳ_ｎ（ｉ）のようなウィンドウ化フレーム内の信号であり、ωは、周波数ドメイン内の周波数であり、｜Ｓ_ω（ｎ）｜は、短期パワースペクトルＳ（ω）の成分であり、Ｎは、例えば、フレーム化された各ボーカルにおける、ウィンドウ化フレーム内のサンプルの数である。

ピッチ測定解析３０３は、例えば、既知論文Der-Jenq Liu and Chin-Teng Lin, "Fundamental frequency estimation based on the joint time frequency analysis of harmonic spectral structure" in IEEE Transactions on Speech and Audio Processing, vol. 9, no. 6, pp. 609-621, Sept. 2001に記載されているように実施することができる。

ピッチ測定値Ｒ_Ｐ（ω_ｆ）は、基本周波数候補ω_ｆごとに、フレームウィンドウＳ_ｎのパワースペクトル密度Ｓ_ω（ｎ）から数３により得られる。

ここで、Ｒ_Ｅ（ω_ｆ）は基本周波数候補ω_ｆのエネルギー測定値であり、Ｒ_Ｉ（ω_ｆ）は基本周波数候補ω_ｆのインパルス測定値である。

基本周波数候補ω_ｆのエネルギー測定値Ｒ_Ｅ（ω_ｆ）は、数４で得られる。

ここで、Ｋ（ω_ｆ）が基本周波数候補ω_ｆの高調波の個数であり、ｈ_ｉｎ（ｎω_ｆ）が基本周波数候補ω_ｆの高調波ｌω_ｆに関連する内部エネルギーであり、Ｅが総エネルギーである。ここでＥは数５で得られる。

内部エネルギーは数６で得られる。

内部エネルギーは長さＷ_ｉｎのインナーウィンドウによって境界付けられたスペクトルの曲線下面積であり、総エネルギーは、スペクトルの曲線下面積の総計である。

基本周波数候補ω_ｆのインパルス測定値Ｒ_Ｉ（ω_ｆ）は数７で得られる。

ここで、ω_ｆが基本周波数候補であり、Ｋ（ω_ｆ）が基本周波数候補ω_ｆの高調波の個数であり、ｈ_ｉｎ（ｌω_ｆ）が高調波ｎω_ｆに関連する基本周波数候補の内部エネルギーであり、ｈ_ｏｕｔ（ｌω_ｆ）が高調波ｌω_ｆに関連する外部エネルギーである。

外部エネルギーは数８で得られる。

外部エネルギーは、長さｗ_ｏｕｔのアウターウィンドウで囲まれたスペクトルの曲線の下の領域である。

フレームウィンドウＳ_ｎのピッチ解析結果ω＾_ｆ（ｎ）は、数９で得られる。

ここで、ω＾_ｆ（ｎ）は、ウィンドウＳ（ｎ）の基本周波数であり、Ｒ_Ｐ（ω_ｆ）は、上述したように、ピッチ測定値解析３０３で得られる基本周波数候補ω_ｆのピッチ測定値である。

サンプルｎにおける基本周波数ω＾_ｆ（ｎ）は、ボーカル信号ｓ（ｎ）におけるサンプルｎにおけるボーカルのピッチを示すピッチ測定結果である。

さらに、ピッチ測定結果ω＾_ｆ（ｎ）に対してローパスフィルタ（ＬＰ）３０４を実行し、ピッチ解析結果ω_ｆ（ｎ）３０５を得る。

ローパスフィルタ３０５は、Ｍ次の因果的離散時間ローパス有限インパルス応答（ＦＩＲ）フィルタとすることができ、数１０で得られる。

α_ｉは、０≦ｉ≦Ｍにおいてｉ^ｔｈ時点におけるインパルス応答の値であり、Ｍ次の因果的離散時間ＦＩＲフィルタｅ_ｐ（ｎ）では、出力系列のそれぞれの値は、最新の入力値の重み付け総和である。

フィルタパラメータＭおよびα_ｉは、当業者の設計選択に従って選択することができる。例えば、正規化のためにα_０＝１とする。パラメータＭは、例えば、１ｓｅｃまでのタイムスケールで選択することができる。

図３に関して上述したようなピッチ解析処理が、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）に対して実行されて、オリジナルボーカルピッチ解析結果ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）が得られる。ピッチ解析処理が、ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）に対して実行されて、ユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）が得られる。

図３の実施形態では、ＦＦＴスペクトルに基づいて基本周波数ω_ｆを推定するために、ピッチ測定値解析３０３などのピッチ測定値解析を実行することが提案される。代わりに、基本周波数ω_ｆは、高速適応表現（ＦＡＲ）スペクトルアルゴリズムに基づいて推定され得る。

図３に記載される方法の代わりに、またはそれに加えて使用することができる、モノフォニック信号のピッチ解析および推定のための他の方法は、以下の科学論文に記載されている。乗法的自己相関法は、"New methods of pitch extraction," by Sondhi, M. M, published in EEE Trans. Audio Electroacoust. AU-16, 262-266, in 1968. に記載されている。平均振幅差関数法は、"Average magnitude difference function pitch extractor" by Ross, M. J., Shaffer, H. L., Cohen, A., Freudberg, R., and Manley, H. J, published in IEEE Trans. Acoust. Speech Signal Process. ASSP-22, 353-362, in 1974. に記載されている。櫛型フィルタリング法は、"The optimum comb method of pitch period analysis of continuous digitized speech" by Moorer, J.A., published in IEEE Trans. Acoust. Speech Signal Process. ASSP-22, 330-338, in 1974.に記載されている。線形予測解析に基づく方法は、"Linear Prediction of Speech", by Moorer, J. A, published in Springer-Verlag, New York, in 1974.に記載されている。ケプストラムに基づく方法は、"Cepstrum pitch determination", by Noll, A.M., published in J. Acoust. Soc. Am. 41, 293-309, in 1966. に記載されている。期間ヒストグラム法は、"Period histogram and product spectrare: New methods for fundamental frequency measurement," by Schroeder, M. R., published in J. Acoust. Soc. Am. 43, 829-834, in 1968.に記載されている。

さらに、図３に記載された方法の代わりに、またはそれに加えて使用することができる、ピッチ解析および推定のための他のより先進的な方法が、科学論文"Fundamental frequency estimation of musical signals using a two-way mismatch procedure", by R.C. Maher, J. W. Beauchamp, published in the Journal of the Acoustical Society of America 95(4）、 in April 1994. に記載されている。

ロバストなピッチ判断のために、ピッチトラッキング（ピッチダブリングエラーおよび有声／無声検出を回避する）を使用することが必要とされ、これは、上記で与えられた方法のいずれかにおいて説明されたように、ピッチＦ０候補に対する動的プログラミングを使用することによってしばしば行われる。ピッチトラッキング方法は、"An integrated pitch tracking algorithm for speech systems", B. Secrest and G. Doddington, published in ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing, Boston, Massachusetts, USA, 1983, pp. 1352-1355, doi: 10.1109/ICASSP.1983.1172016. に記載されている。

さらに、ピッチ解析および（キー）移調は、ボーカルと伴奏が別々である場合に、より良好である。

ピッチレンジ判断

図４は、図１のピッチレンジ判断部１５の処理を説明するフローチャートを概略的に示す。ステップ４１において、ピッチ解析結果ω_ｆ（ｎ）が、ピッチレンジ判断部１５への入力として受信される。ステップ４２において、サンプル番号ｎがゼロであるかどうかがテストされる。ステップ４２のクエリにＹｅｓと応答された場合、プロセスはステップ４３に進む。ステップ４３では、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の下限値ｍｉｎ＿ω_ｆ（ｎ）を、ｍｉｎ＿ω_ｆ（０）＝ω_ｆ（０）で初期化する。ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍａｘ＿ω_ｆ（ｎ）を、ｍａｘ＿ω_ｆ（０）＝ω_ｆ（０）で初期化する。ステップ４３の後、プロセスはステップ５１に続く。ステップ５１では、ピッチレンジＲ_ω＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］がピッチレンジ判断部１５によって出力され、ストレージ、例えばストレージメモリ１２０２に記憶される。ステップ４２のクエリにＮｏと応答された場合、プロセスはステップ４４に進む。ステップ４４では、オールドピッチレンジＲ_{ω，ｏｌｄ}＝［ｍｉｎ＿ω_ｆ（ｎ－１），ｍａｘ＿ω_ｆ（ｎ－１）］がストレージからロードされる。ステップ４５では、ピッチ解析結果ω_ｆ（ｎ）が、オールドピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ－１），ｍａｘ＿ω_ｆ（ｎ－１）］の下限値ｍｉｎ＿ω_ｆ（ｎ－１）よりも小さいか否かをテストする。ステップ４５のクエリにＹｅｓと応答された場合、プロセスはステップ４６に進む。ステップ４６では、ｍｉｎ＿ω_ｆ（ｎ）＝ω_ｆ（ｎ）が、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の下限値ｍｉｎ＿ω_ｆ（ｎ）に設定され、ステップ５０に進む。ステップ５０では、ｍａｘ＿ω_ｆ（ｎ）＝ｍａｘ＿ω_ｆ（ｎ－１）が、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍｉｎ＿ω_ｆ（ｎ）に設定され、ステップ５１に進む。ステップ５１では、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］がピッチレンジ判断部１５によって出力され、ストレージ、例えばストレージメモリ１２０２に記憶される。ステップ４５のクエリにＮｏと応答された場合、プロセスはステップ４７に進む。ステップ４７では、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の下限値ｍａｘ＿ω_ｆ（ｎ）に、ｍｉｎ＿ω_ｆ（ｎ）＝ｍｉｎ＿ω_ｆ（ｎ－１）が設定され、ステップ４８に進む。ステップ４８では、ピッチ解析結果ω_ｆ（ｎ）が、オールドピッチレンジＲ_ω＝［ｍｉｎ＿ω_ｆ（ｎ－１），ｍａｘ＿ω_ｆ（ｎ－１）］の上限値ｍａｘ＿ω_ｆ（ｎ－１）よりも大きいか否かがテストされる。ステップ４８のクエリにＹｅｓと応答された場合、プロセスはステップ４９に進む。ステップ４９において、ピッチレンジＲ_ω＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍａｘ＿Ｒ_ω（ｎ）は、ｍａｘ＿ω_ｆ（ｎ）＝ω_ｆ（ｎ）に設定され、プロセスはステップ５１に進む。ステップ５１では、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］がピッチレンジ判断部１５によって出力され、ストレージ、例えばストレージメモリ１２０２に記憶される。ステップ４８のクエリにＮｏと応答された場合、プロセスはステップ５０に進む。ステップ５０では、ピッチレンジＲ_ω＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍａｘ＿ω_ｆ（ｎ）が、ｍａｘ＿ω_ｆ（ｎ）＝ｍａｘ＿ω_ｆ（ｎ－１）に設定され、ステップ５１に進む。ステップ５１では、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］がピッチレンジ判断部１５によって出力され、ストレージ、例えばストレージメモリ１２０２に記憶される。

以上のようなピッチレンジ判断処理は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）と、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）とに基づいて行うことができる。

図４において上述したようなピッチ判断部１５のピッチ判断処理は、オンラインで実行することができ、これは、オーディオ入力ｙ（ｎ）（例えば、ユーザのカラオケパフォーマンス）の各サンプル（またはフレーム）ごとに、ピッチ解析処理１４、およびピッチレンジ判断処理１５が実行されることを意味する。

別の実施形態では、上述のようなピッチ判断部１５のピッチレンジ判断処理は、予め記憶されたオーディオ入力ｘ（ｎ）（例えば、カラオケシステムで記憶されたピッチレンジを判断すべき曲）に対して実行され得る。ここで、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍａｘ＿ω_ｆ（ｎ）は、ｍａｘ＿ω_ｆ（ｎ）＝数１１とする設定によって判断される。ここで、ｍａｘは最大関数、Ｎは記憶されたオーディオ入力ｘ（ｎ）の全サンプルの個数である。

ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の下限値ｍｉｎ＿ω_ｆ（ｎ）は、数１２の設定によって判断される。ここで、ｍｉｎは最小関数である。

さらに別の実施形態では、上記のようなピッチ判断部１５のピッチレンジ判断処理は、予め記憶されたオーディオ入力ｙ（ｎ）（すなわち、例えば、ピッチレンジおよび歌唱労力（以下を参照）プロファイルをコンパイルすることができる、多数の既存の曲に対する、記憶されたユーザのカラオケパフォーマンス）に対して実行され得る。ここで、ピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］は、前のパラグラフで説明したように判断することができる。

図５にピッチ解析結果のグラフを模式的に示す。グラフ５０のｘ軸上に、オーディオ入力ｔｙ（ｎ）またはｔｘ（ｎ）のサンプル数ｎが示され、サンプルの総数はＮである。

グラフ５０のｙ軸上に、ピッチレンジ解析結果ω_ｆ（ｎ）が示されている。グラフ線５３は、標本数ｎに対するピッチレンジ解析結果ω_ｆ（ｎ）を示す。全Ｎ個のサンプルにわたるピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の下限値ｍｉｎ＿ω_ｆ（ｎ）は、グラフ線５３が到達する全Ｎ個のサンプルの最低値ｍｉｎ＿ω_ｆ（Ｎ）である。全Ｎ個のサンプルにわたるピッチレンジＲ_ω（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］の上限値ｍａｘ＿ω_ｆ（ｎ）は、グラフ線５３が到達する全Ｎ個の最高値ｍａｘ＿ω_ｆ（Ｎ）である。

ピッチレンジ比較

図６は、図１のピッチレンジ比較部１６の処理を説明するフローチャートを概略的に示す。ステップ６１において、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）（第１のボーカル信号とも呼ばれる）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ），ｍａｘ＿ω_ｆ（ｎ）］（第１のピッチレンジとも呼ばれる）が受け付けられ、ステップ６３に入力される。ステップ６２において、ユーザボーカルｓ_ｕｓｅｒ（ｎ）（第２ボーカル信号とも呼ばれる）のピッチレンジＲ_{ω，ｕｓｅｒ}（ｎ）＝［ｍｉｎ＿ω_ｆ（ｎ）_，ｍａｘ＿ω_ｆ（ｎ）］（第２ピッチレンジとも呼ばれる）が受け付けられ、ステップ６４に入力される。ステップ６３において、オリジナルボーカルピッチレンジ平均値ａｖｇ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}は、ａｖｇ_{ωｆ，ｏｒｉｇｉｎａｌ}（ｎ）＝［ｍａｘ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）－ｍｉｎ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）］／２＋ｍｉｎ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）として判断される。ステップ６４において、ユーザボーカルピッチレンジ平均値ａｖｇ＿ω_{ｆ，ｕｓｅｒ}（ｎ）は、ａｖｇ＿ω_{ｆ，ｕｓｅｒ}（ｎ）＝［ｍａｘ＿ω_{ｆ，ｕｓｅｒ}（ｎ）－ｍｉｎ＿ω_{ｆ，ｕｓｅｒ}（ｎ）］／２＋ｍｉｎ＿ω_{ｆ，ｕｓｅｒ}（ｎ）として判断される。ステップ６５では、ピッチ比Ｐ_ω（ｎ）を、Ｐ_ω（ｎ）＝［（ａｖｇ_{ωｆ，ｕｓｅｒ}（ｎ）－ａｖｇ_{ωｆ，ｏｒｉｇｉｎａｌ}（ｎ））／ａｖｇ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）＋１］と判断する。ステップ６６では、ピッチ比Ｐ_ω（ｎ）をピッチレンジ比較部１６のピッチレンジ比較処理により出力する。

上述したようなピッチレンジ比較部１６のピッチレンジ比較処理を、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のサンプルｎ毎に行う。つまり、ユーザがカラオケを行う間、サンプルｎごとにピッチ比Ｐ_ω（ｎ）を適応させることができる。ユーザによるカラオケパフォーマンスが終了した後の、全サンプルｎ＝１…Ｎの最終ピッチ比Ｐ_ω（Ｎ）は、データベース、例えば、ストレージ１２０２に記憶され、ユーザにリンクされ得る。

ピッチ比Ｐ_ω（ｎ）は、オリジナルボーカルピッチレンジ平均値ａｖｇ＿ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）に対する値であり、１を中心値とするので、そのオリジナルボーカルピッチ周波数ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）に適用すべき「移調係数」の一種と見ることができる。

上述したように、ピッチ解析部１４からのピッチ解析結果ω_ｆ（ｎ）およびピッチレンジ判断部１５からのピッチレンジＲ_ω（ｎ）と同様に、ピッチ比_ω（ｎ）は、オーディオ入力ｙ（ｎ）（例えばユーザのライブカラオケパフォーマンス）から、およびオーディオ入力ｘ（ｎ）（例えばカラオケパフォーマンスが行われるべき選択された曲）から、サンプルｎごとにオンラインで判断することができる。

ユーザピッチレンジＲ_{ω，ｕｓｅｒ}（Ｎ）が予め（すなわち、ある曲に対してカラオケがパフォーマンスされオーディオ入力ｙ（ｎ）が得られる前）既知である場合（例えば、ユーザによってパフォーマンスされ、ストレージ１２０２に記憶された別の曲から）、ピッチ比Ｐ_ω（Ｎ）は、ユーザの予め既知のレンジＲ_{ω，ｕｓｅｒ}と、ユーザの予め既知のレンジＲ_{ω，ｏｒｉｇｉｎａｌ}（Ｎ）とに基づいて判断され得る。

音楽および音楽移調の分野では、音楽がどのくらい半音または全音で移調されるかがしばしば記述される。１オクターブは１２半音で構成され、１オクターブはピッチ比Ｐ_ω（ｎ）＝２に対応するので、半音上の移調はピッチ比Ｐ_ω（ｎ）＝２^１／１２＝１．０８７に対応する。半音下の移調は、ピッチ比Ｐ_ω（ｎ）＝（１／２）^１／^１２＝０．９２０に対応する。これにより、ピッチ比Ｐ_ω（ｎ）と半音移調明細とを容易に変換することができる。したがって、別の実施形態では、ピッチ比Ｐ_ω（ｎ）は、ピッチ比Ｐ_ω（ｎ）が必ず半音の整数倍の移調に対応するように、天井または床（すなわち、上または下）に対して次の半音に丸められてもよい。

移調

上述のように、目的は、ユーザのカラオケパフォーマンス中に、ユーザが自身の声を伴奏ｓ_Ａｃｃ（ｎ）により容易にマッチさせることができるように、歌の伴奏ｓ_Ａｃｃ（ｎ）を移調することである。伴奏ｓ_Ａｃｃ（ｎ）が移調されるべき「移調係数」は、上記の図６に記載されるように判断される。オーディオ入力の移調は、例えば、標準的なピッチスケール修正技術によって行うことができ、ここでは、全ての周波数は、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）によって所定の値が乗算される。標準的なピッチスケール修正技術は、タイムスケール修正のステップと、リサンプリングのステップとを含む。

図７は、図１の移調部１７のプロセスを説明するフローチャートを概略的に示す。ステップ７１において、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌが受信される。この実施形態では、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）は、ピッチ比Ｐ_{ω，ｕｓｅｒ}（ｎ）に等しく設定され、すなわち、ｔｒａｎｓｐｏｓｅ_{ｖａｌ（ｎ）}＝Ｒ_{ω，ｕｓｅｒ}（ｎ）である。ステップ７２において、伴奏ｓ_Ａｃｃ（ｎ）が入力として受信される。ステップ７３において、伴奏ｓ_Ａｃｃ（ｎ）のタイムスケール修正は、移調値と共に、ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）を時間係数として用いる。伴奏ｓ_Ａｃｃ（ｎ）のタイムスケール修正は、位相ボコーダを用いて行われる。位相ボコーダは、伴奏ｓ_Ａｃｃ（ｎ）の周波数を変更せずに、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌの係数だけ伴奏ｓ_Ａｃｃ（ｎ）を拡張または短縮する。これにより、ステップ７３の出力として、かつステップ７４への入力として、タイムスケール修正後伴奏ｓ_{Ａｃｃ，ｍｏｄ}（ｎ）が得られる。ステップ７４において、タイムスケール修正後伴奏ｓ_{Ａｃｃ，ｍｏｄ}（ｎ）は、新しいサンプリング期間ΔＴ*ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）でリサンプリングされ、ここで、ΔＴは、伴奏ｓ_Ａｃｃ（ｎ）をサンプリングするときに使用されたサンプリング期間である。これは、新しいサンプリング周期ΔＴ*ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）でのリサンプリングの間、タイムスケール修正後伴奏ｓ_{Ａｃｃ，ｍｏｄ}（ｎ）が伴奏ｓ_Ａｃｃ（ｎ）のオリジナルの長さに短縮または拡張され、それによって、すべての周波数が移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）の係数で乗算され、移調後伴奏ｓ^* _Ａｃｃ（ｎ）が得られることを意味する。ステップ７５で、移調後伴奏ｓ^* _Ａｃｃ（ｎ）は、移調部１７によって出力される。

この実施形態では、オーディオ出力信号ｘ^*（ｎ）は、伴奏ｓ_Ａｃｃ（ｎ）に等しい。一般に、他のオーディオ出力信号ｘ^*（ｎ）にも、図７で説明した処理と同様の処理を適用することができる。例えば、別の実施形態では、オーディオ出力信号はｘ^*（ｎ）であり、オーディオ入力信号ｘ（ｎ）に等しくてもよい。このとき、図７で説明したのと同じ移調が、オーディオ出力信号ｘ^*（ｎ）に適用される。この例では、比較部の出力信号は、移調後信号ｓ^*（ｎ）と呼ばれることがある。

タイムスケール修正位相ボコーダおよびリサンプリングは、例えば、科学論文Ｐ"New phase-vocoder techniques for pitch-shifting, harmonizing and other exotic effects", z published in Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999 or in the papers mentioned therein. Still further an improved phase-vocoder is explained in more detail for example in the paper, "Improved Phase Vocoder Time-Scale Modification of Audio", by Jean Laroche and Mark Dolson, published in IEEE transactions on speech and audio processing, vol. 7, no. 3, May 1999の中でより詳細に記述されている。

移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）が１より小さい場合、図７のステップ７３および７４は逆順でもよい。

上述したように、ピッチ比Ｐ_ω（ｎ）は、サンプルｎごとにオンラインで判断することができ、移調後伴奏ｓ^* _Ａｃｃ（ｎ）は、現在の移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）（これは、移調キーと見なすこともできる）に応じて、ｎごとにオンラインで判断することができ、その後、リアルタイムで曲全体に適用することができる。

なお、選択されたカラオケ曲と特定のユーザとのピッチ比Ｐ_ω（Ｎ）（および移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ））が予め分かっている場合には、上述したように、移調後伴奏ｓ^* _Ａｃｃ（ｎ）も予め決めておいてもよい。

上述したように、音源分離１２（図２参照）が出力する伴奏ｓ_Ａｃｃ（ｎ）は、例えば、ドラム、ピアノ、ストリングスなどのような全ての楽器（トラック）を含むことができる。この例では、比較部の移調処理は、図７で説明されているように、「完全な」伴奏ｓ_Ａｃｃ（ｎ）（ポリフォニックピッチ移調とも呼ばれる）に直接的に適用される。ポリフォニックピッチ移調は、シングルトラックピッチ移調（図１１参照）よりも品質が低くなることがある。これは、複数の楽器を持つトラックでは、非常に異なるアタック／リリース、メロディック／パーカッシブ、マルチノート・オン・ノート・オフに対処することが難しいためである。そのため、パーカッションパートのプレエコーやメロディパートのコム／フランジ効果などのアーチファクトが発生してしまうことがある。

上述のように、ピッチ比Ｐ_ω（ｎ）は、半音または全音で記述することもでき、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）について全く同じことが当てはまる。

さらに別の実施形態では、オーディオ入力信号ｘ（ｎ）は、ＭＩＤＩ（Musical Instrument Digital Interface）を利用可能であり得、したがって、伴奏ｓ_Ａｃｃ（ｎ）または伴奏の単一トラックは、ＭＩＤＩファイルとしても利用可能であり得る。このとき、ＭＩＤＩファイルの伴奏ｓ_Ａｃｃ（ｎ）の移調は、移調フィルタのような通常のＭＩＤＩコマンドで行うことができる。つまり、この場合、楽器合成の前に、ＭＩＤＩトラックのキーを必要な移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）だけ移調するだけで移調が実行される。

したがって、上述の比較部は、高分離品質およびピッチ解析および移調値判断によって移調品質を改善することができる、任意のタイプの録音（合成ＭＩＤＩ、サードパーティのカバー、または商業的にリリースされた録音）を処理することができる。

歌唱労力の判断

図８は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第２の実施形態を概略的に示す。モノラルまたはステレオオーディオ入力１３から受信されるオーディオ入力信号ｘ（ｎ）は、複数ソース（図２の１、２、…、Ｋ参照）を含み、音源分離１２の処理に入力され（図２の分離されたソース２および残余信号３参照）、ここでは分離されたソース２、すなわちオリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）、および残余信号３、すなわち伴奏ｓ_Ａｃｃ（ｎ）に分離される。音源分離２のプロセスの例示的な実施形態は、以下の図２に記載される。オーディオ出力信号はｘ*（ｎ）が伴奏ｓ_Ａｃｃ（ｎ）に等しく、オーディオ出力信号はｘ*（ｎ）が移調部１７に送信され、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）は、信号加算器１８およびオリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）を推定するピッチ解析部１４（詳述は図３）に送信される。ピッチ解析結果ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ）は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}を推定するピッチレンジ推定部１５（図４で詳述）に入力される。ピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}は、ピッチ比較部１６に入力される。ユーザマイクロフォン１１は、音源分離１２の処理に入力されて分離されたオーディオ入力信号ｙ（ｎ）を取得し（図２の分離音源２および残余信号３を参照）、ここでは分離音源２、すなわち、ユーザボーカルｓ_ｕｓｅｒ（ｎ）と、以下では不要な残余信号３とに分離する。ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）は、歌唱労力判断部２２、信号加算器１８、およびユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）を推定するピッチ解析部１４（詳述は図３）に送信される。ピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）は、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}を推定するピッチレンジ推定部１５（図４で詳述）に入力される。ピッチレンジＲ_{ω，ｕｓｅｒ}は、ピッチ比較部１６に入力される。ピッチ比較部１６（図５で詳述）は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}およびユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}を受け取り、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチレンジＲ_{ω，ｏｒｉｇｉｎａｌ}の平均値とおよびユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}の平均値との間のピッチ比Ｐ_ωを出力する。ピッチ比Ｐ_ωは、移調値判断部２３に入力される。歌唱労力判断部２２は、ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）、ユーザボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）のピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）、および、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}を受け取り、歌唱労力を判断する（図９参照）。歌唱労力判断部２２は、移調値判断部２３に入力された歌唱労力フラグＥを出力する。移調値判断部２３は、ピッチ比Ｐ_ωと歌唱労力フラグＥとに基づいて、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌを判断する。移調値判断部２３は、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌを移調部１７に出力する。比較部は、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌを受け取り、オーディオ出力信号はｘ*（ｎ）（＝伴奏ｓ_Ａｃｃ（ｎ））であり、オーディオ出力信号ｘ*（ｎ）（＝伴奏ｓ_Ａｃｃ（ｎ））を移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌによって移調する。移調部１７は、移調後伴奏ｓ*_Ａｃｃ（ｎ）を出力し、信号加算器１８に入力する。信号加算器１８は、移調後伴奏ｓ*_Ａｃｃ（ｎ）とオリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）とを入力し、これらを加算してスピーカシステム１９に出力する。移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌはさらに、表示部２０に出力され、ユーザに提示される。また、表示部２０は、ユーザボーカルｓ_ｕｓｅｒ（ｎ）の歌詞を受信し、ユーザに提示する。

歌唱労力と声帯の病理

カラオケシステムは、さらに、カラオケ歌唱者の歌唱労力を推定することができる。歌唱労力は、カラオケユーザが、オリジナル曲のピッチレンジに到達するために多大な労力を要するかどうか、すなわち、カラオケユーザが、オリジナル曲の高さまたは低さまで歌うために多大な労力を要しなければならないかどうかを示す。アマチュアカラオケユーザが、より長い時間、自身の固有能力を超えて歌う場合、ユーザは、長い歌唱セッションに耐えることができず、自身の声帯を損傷し、パフォーマンスの質が悪くなる可能性がある。

ユーザボーカルｓ_ｕｓｅｒ（ｎ）および／またはユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）の解析から推定することができる様々な特性パラメータがあり、これらは、高い歌唱労力を示す。これらの異なる特性パラメータは、例えば以下の通りである。

ジッタ値（パーセント％単位）。解析された音声サンプル内のユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）のピリオドツーピリオド（非常に短期間）の変動の相対的評価。ボイスブレイク領域が除外される。

ＲＡＰ値（パーセント％単位）。３つの期間の平滑化係数を有する、解析された音声サンプル内のピッチのピリオドツーピリオドの変動の相対的評価。ボイスブレイク領域は除外される。

シマー値（パーセント％単位）。解析された音声サンプル内のピークツーピーク振幅の、ピリオドツーピリオド（非常に短期間）の変動の相対的評価。ボイスブレイク領域が除外される。

ＡＰＱ値（パーセント％単位）。１１周期の平滑化において解析された音声サンプル内のピークツーピーク振幅の、ピリオドツーピリオド（非常に短期間）の変動の相対的評価。ボイスブレイク領域が除外される。

ノイズ対高調波比（ＮＨＲ）値。７０－４５００Ｈｚの周波数帯域の高調波スペクトルエネルギーに対する１５００－４５００Ｈｚの周波数帯域の低周波スペクトルエネルギーの平均値比。これは、解析された信号に存在するノイズの一般的な評価である。

軟発音指数（ＳＰＩ）値。これは、７０－１６００Ｈｚのレンジの低周波高調波エネルギーと１６００－４５００Ｈｚのレンジの高周波高調波エネルギーの平均値比である。このパラメータは、ボーカルの近似を反映する。高いＳＰＩ値は、不完全な声帯の内転と相関すると言われており、エレクトログロトグラフ（ＥＧＧ）よりも良好な息苦しさの指標である。ＮＨＲおよびＳＰＩは共にピッチ同期周波数領域法を用いて計算される。

ユーザボーカルｓ_ｕｓｅｒ（ｎ）および／またはユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）に基づいて、上述のパラメータおよびそれらを測定および検出する方法のより詳細な解析は、科学論文"Vocal Folds Disorder Detection using Pattern Recognition Methods", J. Wang and C. Jo, published in 200729th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, Lyon, 2007, pp. 3253-3256, doi: 10.1109/IEMBS.2007.4353023. に記載される。

上記のパラメータのほとんどは声帯に関連している。これらのうちのいくつかは、ジッタ（ビブラート）のように、歌唱中の表現力に関連するが、カラオケ歌唱セッションを通して連続的なカオス的な声帯行動を呈することは、膨潤などの短期的な声帯トラブルを発症する指標であり得る。ＮＨＲ値は、失語症を検出するためにも同様に使用することができる。カラオケシステムは、ユーザのカラオケセッションにわたるこれら上述の指標およびそのバリエーションをモニタし、歌唱労力および発症し得る声帯損傷を（例えば、歌唱品質の漸進的な劣化を通して）判断することができる。

図９は、図８の歌唱労力判断部２２を模式的に示している。ステップ９１では、歌唱労力判断部２２にユーザボーカルｓ_ｕｓｅｒ（ｎ）が入力される。ステップ９２では、ユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）が歌唱労力判断部２２に入力される。ステップ９３では、歌唱労力判断部２２に、ユーザボーカルｓ_ｕｓｅｒ（ｎ）のピッチレンジＲ_{ω，ｕｓｅｒ}（ｎ）＝［ｍｉｎ＿ω_{ｆ，ｕｓｅｒ}（ｎ）_，ｍａｘ＿ω_{ｆ，ｕｓｅｒ}（ｎ）］が入力される。ステップ９４において、ジッタ値ｊｉｔｔｅｒ＿ｖａｌは、ユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）およびユーザボーカルｓ_ｕｓｅｒ（ｎ）に基づいて判断される。これは、J. Wang and C. Joの論文（これは、そこに引用されている論文の上に引用されている）においてより詳細に記載されている。ステップ９５において、第１の歌唱労力値ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）は、ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）＝０で初期化され、ここで、第１の歌唱労力値ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）＝１に設定された場合、カラオケ歌唱者が大きな労力を要する、または、高ピッチに到達できないことを示す。さらにステップ９５において、第２の歌唱労力値ｐｉｔｃｈ＿ｌｏｗ（ｎ）は、ｐｉｔｃｈ＿ｌｏｗ（ｎ）＝０で初期化され、ここで、第２の歌唱労力値ｐｉｔｃｈ＿ｌｏｗ（ｎ）＝１に設定された場合、カラオケ歌唱者が大きな労力を要する、または低ピッチに到達できないことを示す。ステップ９６において、ジッタ値ｊｉｔｔｅｒ＿ｖａｌ（ｎ）が５％の閾値よりも大きいかどうかがテストされる。別の実施形態では、ジッタの閾値は別の値を有することができる。ステップ９６のクエリにＹｅｓと応答された場合、ステップ９７に進む。ステップ９７では、ユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）および低値ピッチレンジＲ_{ω，ｕｓｅｒ}（ｎ）の差分の絶対値が、ユーザピッチ解析結果ω_{ｆ，ｕｓｅｒ}（ｎ）及び高値ピッチレンジＲ_{ω，ｕｓｅｒ}（ｎ）の差分の絶対値よりも大きいか、すなわち、│ω_{ｆ，ｕｓｅｒ}（ｎ）－ｍｉｎ＿ω_{ｆ，ｕｓｅｒ}（ｎ）│＞│ω_{ｆ，ｕｓｅｒ}（ｎ）－ｍａｘ＿ω_{ｆ，ｕｓｅｒ}（ｎ）│がテストされる。ステップ９７のクエリにＹｅｓと応答された場合、ステップ９８に進む。ステップ９８において、第１の歌唱労力値ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）が１に設定され、ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）＝１であり、ステップ１００に進む。ステップ９７のクエリにＮｏと応答されると、ステップ９９に進む。ステップ９９において、第２の歌唱労力値ｐｉｔｃｈ＿ｌｏｗ（ｎ）が１に設定され、ｐｉｔｃｈ＿ｌｏｗ（ｎ）＝１であり、ステップ１００に進む。ステップ９６のクエリにＮｏと応答されると、ステップ１００に進む。ステップ１００において、歌唱労力判断部２２は、歌唱労力値Ｅ（ｎ）＝｛ｐｉｔｃｈ＿ｌｏｗ（ｎ），ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）｝を出力する。

上記の実施形態では、歌唱労力値Ｅ（ｎ）は、ジッタ値ｊｉｔｔｅｒ＿ｖａｌ（ｎ）の「二値化された」値であり、すなわち、閾値を上回ったときにフラグがセットされ、閾値を下回ったときにフラグがセットされなかった。別の実施形態では、歌唱労力値Ｅ（ｎ）は、定量値、例えば、ジッタ値ｊｉｔｔｅｒ＿ｖａｌ（ｎ）に直接比例する値であり得る。

さらに別の実施形態では、図９に記載されるように、ジッタの代わりに、または第１および第２の歌唱労力値を判断するために、他の上述の異なる特性パラメータのいずれかを使用することができる。

さらに別の実施形態では、歌唱労力値Ｅ（ｎ）は、定量的な値、例えば、上述の異なる特性パラメータの任意の線形または非線形の組み合わせに直接比例する値とすることができる。

別の実施形態では、カラオケシステムは、より深刻な声帯の問題を予防するために、歌唱を停止または一時停止することを提案することができる。高い歌唱労力を検出するために利用することもできる病理発声を認識する方法のさらなる詳細は、例えば、"A system for automatic recognition of pathological speech", by : Dibazar, Alireza & Narayanan, Shrikanth, published in Proceedings of the Asilomar Conference on Signals, Systems and Computers, November 2002.に記載されている。本論文では、スタンダードメル周波数ケプストラム係数（ＭＦＣＣ）およびピッチ特徴を、いくつかの音声生成関連病理の分類のために使用する。

歌唱労力判断部２２が、歌唱労力値Ｅおよびピッチ比Ｐ_ωを判断した場合、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌを判断することができる。

図１０は、図８の移調値判断部２３を模式的に示している。ステップ１０１において、ピッチ比Ｐ_ωは、移調値判断部２３に入力される。ステップ１０２において、歌唱労力値Ｅ＝｛ｐｉｔｃｈ＿ｌｏｗ（ｎ），ｐｉｔｃｈ＿ｈｉｇｈ（ｎ）｝が、移調値判断部２３への入力として受け付けられる。ステップ１０３において、ピッチ比Ｐ_ωは、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）に等しく設定され、ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）＝Ｐ_ωである。ステップ１０４では、第１の歌唱労力値ｐｉｔｃｈ＿ｈｉｇｈ＝１に設定されているかどうかがテストされる。ステップ１０４のクエリにＹｅｓと応答された場合、ステップ１０５に進む。ステップ１０５において、移調ｔｒａｎｓｐｏｓｅ＿ｖａｌ値は０．０５だけ減算され、すなわち、ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）＝ｔｒａｎｓｐｏｓｅ＿ｖａｌ－０．０５、ステップ１０８に進む。ステップ１０４のクエリにＮｏと応答されると、ステップ１０６に進む。ステップ１０６では、第２の歌唱労力値ｐｉｔｃｈ＿ｌｏｗ＝１に設定されているかどうかがテストされる。ステップ１０６のクエリにＹｅｓと応答された場合、ステップ１０７に進む。ｎステップ１０７において、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）は０．０５だけ加算され、すなわち、ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）＝ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）＋０．０５、ステップ１０８に進む。ステップ１０８では、移調値判断部２３により移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌが出力される。

図１１は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第３の実施形態を概略的に示す。図１１の実施形態は、図１の実施形態とほぼ同様である。しかしながら、図１１では、伴奏ｓ_Ａｃｃ（ｎ）は、音源分離１２によって、例えば、ドラム、ピアノ、ストリングスなどの、例えば、第１の楽器ｓ_Ａ１（ｎ）、第２の楽器ｓ_Ａ２（ｎ）および第３の楽器ｓ_Ａ３（ｎ）などの様々な楽器（トラック）に分離することができる。３つの楽器ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ）のそれぞれは、図７で上述したのと同じ移調によって、移調部１７によって移調され、ｘ^*（ｎ）として設定され得る。移調部１７は、第１の楽器ｓ_Ａ１（ｎ）の入力に対して移調後の第１の楽器ｓ^* _Ａ１（ｎ）、または第２の楽器ｓ_Ａ２（ｎ）の入力に対して移調後の第２の楽器ｓ^* _Ａ２（ｎ）、および第３の楽器ｓ_Ａ３（ｎ）の入力に対して移調後の第３の楽器ｓ^* _Ａ３（ｎ）を出力する。移調後の第１の楽器ｓ^* _Ａ１（ｎ）、移調後の第２の楽器_Ａ２ ^*（ｎ）、移調後の第３の楽器ｓ^* _Ａ３（ｎ）は加算器１１０１および１１０２によって統合され、完全な伴奏ｓ^* _Ａｃｃ（ｎ）が受信される。

さらに別の実施形態では、伴奏ｓ_Ａｃｃ（ｎ）は、メロディック／ハーモニックトラックおよびパーカッショントラックに分離することができ、上記と同じシングルトラック（シングル楽器）移調を適用することができる。伴奏ｓ_Ａｃｃ（ｎ）が２つ以上のトラック（楽器）に分離される場合、移調部１７の移調処理は、分離されたトラックのそれぞれに個別に適用され、個々の移調後のトラックは、その後、ステレオ録音に統合されて、完全な移調後伴奏ｓ^* _Ａｃｃ（ｎ）が受信される。

図１２は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第４の実施形態を概略的に示す。図１２の実施形態は、図１の実施形態とほぼ同様である。しかし、図１２では、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）によって移調されるオーディオ出力信号ｘ^*（ｎ）は、オーディオ入力信号ｘ（ｎ）に等しく、これは、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）（および伴奏ｓ_ａｃｃ（ｎ））も、上述のように値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）によって移調されることを意味する。比較部の出力、すなわち移調後の信号ｓ^*（ｎ）は、加算器１８に入力され、図１で説明したように進む。

図１３は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムの処理の第５の実施形態を概略的に示す。図１３の実施形態は、図１の実施形態と最も似ている。ただし、図１３では、移調値ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ）によって移調されるオーディオ出力信号ｘ*（ｎ）は、伴奏ｓ_ａｃｃ（ｎ）とミックスされたオリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）から構成されている。例えば、出力信号ｘ*（ｎ）は、オリジナルボーカルｓ_{ｏｒｉｇｉｎａｌ}（ｎ）にゲインＧ（増幅または減衰されることを意味する）と伴奏ｓ_ａｃｃ（ｎ）を乗算したものである。比較部の出力、すなわち移調後の信号ｓ^*（ｎ）は、加算器１８に入力され、図１に記載されるように進む。

図１４は、上述のピッチレンジ判断および移調のプロセスを実施することができる電子機器の実施形態を概略的に説明する。電子機器１２００は、プロセッサとしてのＣＰＵ１２０１を備える。電子機器１２００は、マイクロフォンアレイ１２１０、スピーカアレイ１２１１、およびプロセッサ１２０１に接続される畳み込みニューラルネットワーク部１２２０をさらに備える。プロセッサ１２０１は、例えば、図１、図８、図３、図４、図５、図６、図７、図９および図１０に関して説明したプロセスをより詳細に実現するピッチ解析部、ピッチレンジ判断部、ピッチ比較部、歌唱労力判断部、移調判断部または比較部を実装することができる。ＣＮＮ１２２０は例えば、ハードウェア内の人工ニューラルネットワーク、例えば、ＧＰＵ上のニューラルネットワーク、または人工ニューラルネットワークを実装する目的に特化された任意の他のハードウェアであってもよい。ＣＮＮ１２２０は、例えば、ソース分離１０４を実装し得る。図１、図８に関して説明したスピーカシステム１１１などのスピーカアレイ１２１１は、所定の空間にわたって分散され、３Ｄオーディオなどの任意の種類のオーディオをレンダリングするように構成された１つまたは複数のスピーカからなる。電子機器１２００は、プロセッサ１２０１に接続されたユーザインタフェース１２１２をさらに備える。このユーザインタフェース１２１２は、マンマシンインタフェースとして機能し、管理者と電子システムとの間の対話を可能にする。例えば、管理者は、このユーザインタフェース１２１２を使用してシステムを構成することができる。電子機器１２００は、イーサネット（登録商標）インタフェース１２２１、ブルートゥース（登録商標）インタフェース１２０４、およびＷＬＡＮインタフェース１２０５をさらに備える。これらのユニット１２０４、１２０５は、外部機器とのデータ通信のための入出力インタフェースとして機能する。例えば、イーサネット（登録商標）、ＷＬＡＮ、またはブルートゥース接続を有する追加のスピーカ、マイクロフォン、およびビデオカメラが、プロセッサ１２０１にインタフェース１２２１、１２０４、および１２０５を介して接続され得る。電子機器１２００は、データストレージ１２０２と、データメモリ１２０３（ここではＲＡＭ）とをさらに備える。データメモリ１２０３は、プロセッサ１２０１による処理のために、データまたはコンピュータ命令を一時的に保存またはキャッシュするように配置される。データストレージ１２０２は、例えば、マイクロフォンアレイ１２１０から取得され、ＣＮＮ１２２０に提供されるかまたはそこから取り出されるセンサデータを記録するための長期ストレージとして構成される。また、データストレージ１２０２は、音声メッセージを表す音声データを記憶することができ、この音声データは、公共アナウンスシステムが、所定の空間内を移動する人に転送することができる。

なお、上記の説明は単なる構成例である。代替の構成は、追加のまたは他のセンサ、ストレージ、インタフェースなどを用いて実装されてもよい。

上述した実施形態は、方法ステップの例示的な順序付けを伴う方法を説明していることを理解されたい。しかしながら、方法ステップの特定の順序付けは、例示の目的のみのために与えられ、拘束力のあるものとして解釈されるべきではない。

また、図１の電子機器をユニットに分割することは、例示の目的のためだけに行われ、本開示は、特定のユニットにおける機能のいかなる特定の分割にも限定されないことにも留意されたい。例えば、回路の少なくとも一部は、それぞれプログラムされたプロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用回路等によって実現することができる。

本明細書に記載され、添付の特許請求の範囲に記載されたすべてのユニットおよびエンティティは別段の記載がない限り、例えばチップ上の集積回路ロジックとして実装することができ、そのようなユニットおよびエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実装することができる。

上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、およびそのようなコンピュータプログラムが提供される伝送、記憶、または他の媒体が、本開示の態様として想定されることが理解される。

本開示は、以下の各構成を有してもよい。

（１）
オーディオソース分離によって、第１のオーディオ入力信号（ｘ（ｎ））を第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））と伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））とに分離し、ピッチ比（Ｐ_ω（ｎ））に基づく移調値（ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ））によってオーディオ出力信号（ｘ*（ｎ））を移調するように構成された回路を備え、
前記ピッチ比（Ｐ_ω（ｎ））は、前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））の第１のピッチレンジ（Ｒ_{ω，ｏｒｉｇｉｎａｌ}（ｎ））と第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の第２のピッチレンジ（Ｒ_{ω，ｕｓｅｒ}（ｎ））との比較に基づく
電子機器。
（２）
前記回路は、
前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））の第１のピッチ解析結果（ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ））に基づいて前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））の前記第１のピッチレンジ（Ｒ_{ω，ｏｒｉｇｉｎａｌ}（ｎ））を判断し、
前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の第２のピッチ解析結果（ω_{ｆ，ｕｓｅｒ}（ｎ））に基づいて前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の前記第２のピッチレンジ（Ｒ_{ω，ｕｓｅｒ}（ｎ））を判断するようにさらに構成される
（１）に記載の電子機器。
（３）
前記回路は、
前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））に基づいて前記第１のピッチ解析結果（ω_{ｆ，ｏｒｉｇｉｎａｌ}（ｎ））を判断し、
前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））に基づいて前記第２のピッチ解析結果（ω_{ｆ，ｕｓｅｒ}（ｎ））を判断するようにさらに構成される
（１）または（２）に記載の電子機器。
（４）
前記伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））は、前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））を除く前記第１のオーディオ入力信号（ｘ（ｎ））の全ての部分を含む
（１）乃至（３）の何れかに記載の電子機器。
（５）
前記オーディオ出力信号（ｘ*（ｎ））は、前記伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））である
（１）乃至（４）の何れかに記載の電子機器。
（６）
前記オーディオ出力信号（ｘ*（ｎ））は、前記第１のオーディオ入力信号（ｘ（ｎ））である
（１）乃至（５）の何れかに記載の電子機器。
（７）
前記オーディオ出力信号（ｘ*（ｎ））は、前記伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））と前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））とのミックスである
（１）乃至（６）の何れかに記載の電子機器。
（８）
前記回路は、前記伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））を複数の楽器（ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））に分離するようにさらに構成される
（１）乃至（８）の何れかに記載の電子機器。
（９）
前記回路は、オーディオソース分離によって第２のオーディオ入力信号（ｙ（ｎ））を分離するようにさらに構成される
（１）乃至（８）の何れかに記載の電子機器。
（１０）
前記第２のオーディオ入力信号（ｙ（ｎ））は、前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））と残余信号とに分離される
（９）に記載の電子機器。
（１１）
前記回路は、前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））に基づいて歌唱労力（Ｅ（ｎ））を判断するようにさらに構成され、
前記移調値（ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ））は、前記歌唱労力（Ｅ（ｎ））および前記ピッチ比（Ｐ_ω（ｎ））に基づく
（１）乃至（１０）の何れかに記載の電子機器。
（１２）
前記歌唱労力（Ｅ（ｎ））は、前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の前記第２のピッチ解析結果（ω_{ｆ，ｕｓｅｒ}（ｎ））と、前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の前記第２のピッチレンジ（Ｒ_{ω，ｕｓｅｒ}（ｎ））とに基づく
（１１）に記載の電子機器。
（１３）
前記回路は、ジッタ値（ｊｉｔｔｅｒ＿ｖａｌ）および／またはＲＡＰ値および／またはシマー値および／またはＡＰＱ値および／またはノイズ対高調波比および／またはソフト発声指数に基づいて、前記歌唱労力（Ｅ（ｎ））を判断するようにさらに構成される
（１１）または（１２）に記載の電子機器。
（１４）
前記回路は、移調値（ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ））が半音の整数倍に対応するように、ピッチ比（Ｐ_ω（ｎ））に基づいて前記オーディオ出力信号（ｘ*（ｎ））を移調するように構成される
（１）乃至（１３）の何れかに記載の電子機器。
（１５）
前記回路は、前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））をキャプチャするように構成されたマイクロフォンを備える
（１）乃至（１４）の何れかに記載の電子機器。
（１６）
前記回路は、リアルオーディオ録音から前記第１のオーディオ入力信号（ｘ（ｎ））をキャプチャするように構成される
（１）乃至（１５）の何れかに記載の電子機器。
（１７）
第１のオーディオ入力信号（ｘ（ｎ））を第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））と伴奏（ｓ_Ａｃｃ（ｎ）；ｓ_Ａ１（ｎ）、ｓ_Ａ２（ｎ）、ｓ_Ａ３（ｎ））とに分離し、
ピッチ比（Ｐ_ω（ｎ））に基づく移調値（ｔｒａｎｓｐｏｓｅ＿ｖａｌ（ｎ））によってオーディオ出力信号（ｘ*（ｎ））を移調し、
前記ピッチ比（Ｐ_ω（ｎ））は、前記第１のボーカル信号（ｓ_{ｏｒｉｇｉｎａｌ}（ｎ））の第１のピッチレンジ（Ｒ_{ω，ｏｒｉｇｉｎａｌ}（ｎ））と前記第２のボーカル信号（ｓ_ｕｓｅｒ（ｎ））の第２のピッチレンジ（Ｒ_{ω，ｕｓｅｒ}（ｎ））との比較に基づく
方法。
（１８）
命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに（１７）に記載の方法を実行させる
コンピュータプログラム。

Claims

オーディオソース分離によって、第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、
前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと第２のボーカル信号の第２のピッチレンジとの比較に基づく
電子機器。
前記回路は、
前記第１のボーカル信号の第１のピッチ解析結果に基づいて前記第１のボーカル信号の前記第１のピッチレンジを判断し、
前記第２のボーカル信号の第２のピッチ解析結果に基づいて前記第２のボーカル信号の前記第２のピッチレンジを判断するようにさらに構成される
請求項１に記載の電子機器。
前記回路は、
前記第１のボーカル信号に基づいて前記第１のピッチ解析結果を判断し、
前記第２のボーカル信号に基づいて前記第２のピッチ解析結果を判断するようにさらに構成される
請求項１に記載の電子機器。
前記伴奏は、前記第１のボーカル信号を除く前記第１のオーディオ入力信号の全ての部分を含む
請求項１に記載の電子機器。
前記オーディオ出力信号は、前記伴奏である
請求項１に記載の電子機器。
前記オーディオ出力信号は、前記第１のオーディオ入力信号である
請求項１に記載の電子機器。
前記オーディオ出力信号は、前記伴奏と前記第１のボーカル信号とのミックスである
請求項１に記載の電子機器。
前記回路は、前記伴奏を複数の楽器に分離するようにさらに構成される
請求項１に記載の電子機器。
前記回路は、オーディオソース分離によって第２のオーディオ入力信号を分離するようにさらに構成される
請求項１に記載の電子機器。
前記第２のオーディオ入力信号は、前記第２のボーカル信号と残余信号とに分離される
請求項９に記載の電子機器。
前記回路は、前記第２のボーカル信号に基づいて歌唱労力を判断するようにさらに構成され、
前記移調値は、前記歌唱労力および前記ピッチ比に基づく
請求項１に記載の電子機器。
前記歌唱労力は、前記第２のボーカル信号の前記第２のピッチ解析結果と、前記第２のボーカル信号の前記第２のピッチレンジとに基づく
請求項１１に記載の電子機器。
前記回路は、ジッタ値および／またはＲＡＰ値および／またはシマー値および／またはＡＰＱ値および／またはノイズ対高調波比および／またはソフト発声指数に基づいて、前記歌唱労力を判断するようにさらに構成される
請求項１１に記載の電子機器。
前記回路は、移調値が半音の整数倍に対応するように、ピッチ比に基づいて前記オーディオ出力信号を移調するように構成される
請求項１に記載の電子機器。
前記回路は、前記第２のボーカル信号をキャプチャするように構成されたマイクロフォンを備える
請求項１に記載の電子機器。
前記回路は、リアルオーディオ録音から前記第１のオーディオ入力信号をキャプチャするように構成される
請求項１に記載の電子機器。
第１のオーディオ入力信号を第１のボーカル信号と伴奏とに分離し、
ピッチ比に基づく移調値によってオーディオ出力信号を移調し、
前記ピッチ比は、前記第１のボーカル信号の第１のピッチレンジと前記第２のボーカル信号の第２のピッチレンジとの比較に基づく
方法。
命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに請求項１７に記載の方法を実行させる
コンピュータプログラム。