JP2023530262A - オーディオ移調 - Google Patents

オーディオ移調 Download PDF

Info

Publication number
JP2023530262A
JP2023530262A JP2022575932A JP2022575932A JP2023530262A JP 2023530262 A JP2023530262 A JP 2023530262A JP 2022575932 A JP2022575932 A JP 2022575932A JP 2022575932 A JP2022575932 A JP 2022575932A JP 2023530262 A JP2023530262 A JP 2023530262A
Authority
JP
Japan
Prior art keywords
pitch
signal
vocal
audio
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022575932A
Other languages
English (en)
Inventor
フォント マーク フェラス
ジオージオ ファブロ
フォーク マーティン フォフマン
トーマス ケンプ
ステファン ウーリッヒ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2023530262A publication Critical patent/JP2023530262A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/18Selecting circuits
    • G10H1/20Selecting circuits for transposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/325Musical pitch modification
    • G10H2210/331Note pitch correction, i.e. modifying a note pitch or replacing it by the closest one in a given scale
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

電子機器は、オーディオソースによって、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備える電子機器であって、前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと前記第2のボーカル信号の第2のピッチレンジとの比較に基づく。【選択図】図1

Description

本開示は、概して、オーディオ処理の分野に関し、特に、装置、方法、およびコンピュータプログラムオーディオ移調に関する。
例えば、コンパクトディスク(CD)、テープ、インターネットからダウンロード可能なオーディオデータファイルの方式だけではなく、例えばデジタルビデオディスク等に記憶されたビデオのサウンドトラックの方式で、利用可能な多くのオーディオコンテンツがある。
音楽プレーヤが既存の音楽データベースの曲を再生しているとき、聴者は、一緒に歌いたいと思うことがある。もちろん、聴者の音声は、録音に存在するオリジナルのアーティストの音声に追加され、潜在的にそれに干渉する。これにより、聴者自身の曲の解釈が妨げられたり歪められたりする可能性がある。したがって、カラオケシステムは、カラオケ歌唱者が再生に合わせて歌うために、オリジナルの楽曲録音の音楽キーにおける楽曲の再生を提供する。これにより、カラオケ歌唱者は、自身の能力を超えるピッチレンジ(すなわち高すぎるまたは低すぎる)に到達することになる。これは、カラオケ歌唱者がオリジナル曲のピッチレンジに到達するために高い歌唱労力を要求し、したがって、カラオケ歌唱者は、長い歌唱セッションに耐えることができないか、または声帯を損傷させ得る。これはまた、カラオケ歌唱者が、自身の労力を減らし声帯を守るために自身のピッチを適応させなければならず、したがって、パフォーマンスの全体的な品質が悪くなり得る。
オーディオ移調のための技術が一般に存在するが、オーディオコンテンツの移調のための方法および装置を改善することが一般に望ましい。
第1の態様によれば、本開示は、オーディオソース分離によって、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと第2のボーカル信号の第2のピッチレンジとの比較に基づく電子機器に関する。
第2の態様によれば、本開示は、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調する方法であって、前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと前記第2のボーカル信号の第2のピッチレンジとの比較に基づく方法に関する。
さらに別の態様は、従属請求項、以下の説明および図面に記載される。
実施形態は、添付の図面に関して例として説明される。
オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を自動移調するカラオケシステムのプロセスの第1の実施形態を概略的に示す。 音源分離(MSS)などのブラインドソース分離(BSS)によるオーディオアップミックス/リミックスの一般的なアプローチを概略的に示す。 図1におけるピッチ解析部において実行されるピッチ解析のプロセスの実施形態をより詳細に示す。 図1のピッチレンジ判断部の処理を説明するフローチャートを概略的に示す。 ピッチ解析結果のグラフを概略的に示す。 図lのピッチレンジ比較部のプロセスを説明するフローチャートを概略的に示す。 図lの比較部のプロセスを説明するフローチャートを概略的に示す。 オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第2の実施形態を概略的に示す 図8の歌唱労力判断部を概略的に説明する。 図8の移調値判断部を概略的に示す。 オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第3の実施形態を概略的に示す。 オーディオソース分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第4の実施形態を概略的に示す。 音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第5の実施形態を概略的に示す 上述のピッチレンジ判断および移調のプロセスを実施することができる電子機器の実施形態を概略的に説明する。
図1以下を参照して一般的な説明形態を詳細に説明する前に、いくつかの一般的な説明を行う。
実施形態は、オーディオソース分離によって、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと第2のボーカル信号の第2のピッチレンジとの比較に基づく電子機器に関する。
電子機器は、例えば、カラオケボックス、スマートフォン、PC、TV、シンセサイザ、ミキシングコンソールなどの任意の音楽または映像再生装置である。
電子機器の回路は、プロセッサを含んでもよく、例えば、CPU、メモリ(RAM、ROMなど)、メモリおよび/またはストレージ、インタフェースなどであってもよい。回路は入力手段(マウス、キーボード、カメラ等)、出力手段(ディスプレイ(例えば、液晶、(有機)発光ダイオード等))、スピーカ等、(無線)インタフェース等を備えてもよく、またはこれらと接続されてもよく、これらは、電子機器(コンピュータ、スマートフォン等)として一般的に既知である。さらに、回路は、静止画像またはビデオ画像データを感知するためのセンサ(イメージセンサ、カメラセンサ、ビデオセンサなど)を備えてもよく、またはそれに接続されてもよい。
入力信号は、どのようなタイプのオーディオ信号でも構わない。入力信号は、アナログ信号、デジタル信号の形態であってもよいし、ハードディスク、コンパクトディスク、デジタルビデオディスク等から生じてもよいし、ウェーブファイル、mp3ファイル等のようなデータファイルであってもよく、本開示は、入力オーディオコンテンツにおいて特定のフォーマットに限定されない。入力オーディオコンテンツは例えば、第1のチャネル入力オーディオ信号および第2のチャネル入力オーディオ信号を有するステレオオーディオ信号であってもよく、本開示は、2つのオーディオチャネルを有する入力オーディオコンテンツに限定されない。他の実施形態では、入力オーディオコンテンツが5.1オーディオ信号のリミックスなど、任意の数のチャンネルを含むことができる。
入力信号は、1つ以上のソース信号を含み得る。特に、入力信号は、いくつかのオーディオソースを含み得る。オーディオソースは、音波を生成する任意のエンティティ、例えば、楽器、ボイス、ボーカル、人工的に生成された音(例えば、シンセサイザからの生成)などであり得る。
入力オーディオコンテンツは、ミックスされたオーディオソースを表すまたは含むことができ、これは、そのサウンド情報が入力オーディオコンテンツの全てのオーディオソースに対して個別に利用可能ではないが、異なるオーディオソース用のサウンド情報が、例えば、少なくとも部分的にオーバーラップしているか、またはミックスされていることを意味する。伴奏は、オーディオ入力信号からボーカル信号を分離することから生じる残余信号であってもよい。例えば、オーディオ入力信号は、ボーカル、ギター、キーボード、およびドラムを含む楽曲であってもよく、伴奏信号は、オーディオ入力信号からボーカルを分離した後の残余としてギター、キーボード、およびドラムを含む信号であってもよい。
移調とは、あるインターバルごとに楽曲のトーンのピッチを変化させたり、インターバルごとに楽曲全体を異なるキーにシフトさせたりすることである。
ピッチ比は、2つのピッチ間の比であり得る。ピッチ比による移調とは、2つのピッチの間の比によって、楽曲のトーンのピッチをシフトさせること、または2つのピッチの間の比によって定義される半音の数に従って楽曲全体を異なるキーにシフトさせることを意味し得る。
ブラインド信号分離としても知られるブラインドソース分離(BSS)は、ミックス信号のセットからのソース信号のセットの分離である。ブラインドソース分離(BSS)の1つの用途は、オリジナルコンテンツのアップミックスまたはリミックスが可能であるように、楽曲を個々の楽器トラックに分離することである。
以下では、リミックス、アップミックス、およびダウンミックスという用語は、ミックスされた入力オーディオコンテンツから生じる分離されたオーディオソース信号に基づいて出力オーディオコンテンツを生成する全体的なプロセスを指すことができ、一方、「ミックス」という用語は、分離されたオーディオソース信号のミックスを指すことができる。したがって、分離されたオーディオソース信号の「ミックス」は、入力オーディオコンテンツソースの「リミックス」、「アップミックス」、または「ダウンミックス」でもある。
オーディオソース分離では、多数のソース(例えば、楽器、ボイスなど)を含む入力信号がデコンポーズされ分離される。オーディオソース分離は、スーパーバイズされていない(「ブラインドソース分離」、BSSと呼ばれる)場合もあれば、部分的にスーパーバイズされている場合もある。「ブラインド」とは、ブラインドソース分離が、必ずしもオリジナルのソースに関する情報を持っているとは限らないことを意味する。例えば、オリジナルの信号がいくつのオーディオソースを含んでいるか、または、入力信号のどの音情報がどのオリジナルのオーディオソースに属しているかを必ずしも知る必要はない。ブラインドソース分離の目的は、以前の分離を知ることなく、オリジナルの信号が分離するようにデコンポーズすることである。ブラインドソース分離部は、当業者に既知の任意のブラインドソース分離技術を使用することができる。(ブラインド)オーディオソース分離では、確率論的または情報理論的な意味で、またはオーディオオーディオソース信号に対する非負行列因数分解構造制約に基づいて、最小限に相関する、すなわち最大限に独立したオーディオソース信号を探索することができる。(ブラインド)ソース分離を実行するための方法は、当業者に知られており、例えば、主成分解析、特異値分解、(独立)成分解析、非負行列因数分解、人工ニューラルネットワークなどに基づく。
いくつかの実施形態は、分離されたオーディオソース信号を生成するためにブラインドソース分離を使用するが、本開示は、オーディオソース信号の分離のためにさらなる情報が使用されない実施形態に限定されず、いくつかの実施形態では、分離されたオーディオソース信号の生成のためにさらなる情報が使用される。このようなさらなる情報は例えば、ミキシング処理に関する情報、入力オーディオコンテンツに含まれるオーディオソースのタイプに関する情報、入力オーディオコンテンツに含まれるオーディオソースの空間的位置に関する情報などである。
回路は、少なくとも1つのフィルタリングされた分離されたソースに基づいて、およびブラインドソース分離によって取得された他の分離されたソースに基づいて、リミックスまたはアップミックスを実行して、リミックスまたはアップミックスされた信号を取得するように構成され得る。リミックスまたはアップミックスは、分離されたソース、ここでは「ボーカル」および「伴奏」のリミックスまたはアップミックスを実行して、リミックスまたはアップミックスされた信号を生成するように構成され得、これはスピーカシステムに送信され得る。リミックスまたはアップミックスは、スピーカシステムの出力チャンネルのうちの1つまたは複数に送信され得るリミックスまたはアップミックスされた信号を生成するために、分離されたソースのうちの1つまたは複数の歌詞置換を実行するようにさらに構成され得る。
いくつかの実施形態によれば、回路は、第1のボーカル信号の第1のピッチ解析結果に基づいて第1のボーカル信号の第1のピッチレンジを判断するようにさらに構成されてもよく、第2のボーカル信号の第2のピッチ解析結果に基づいて第2のボーカル信号の第2のピッチレンジを判断するように構成されてもよい。
いくつかの実施形態によれば、前記第1のボーカル信号は、前記オーディオ入力信号を含む。
いくつかの実施形態によれば、オーディオ出力信号は、伴奏であってもよい。
いくつかの実施形態によれば、オーディオ出力信号は、オーディオ入力信号であってもよい。
いくつかの実施形態によれば、オーディオ出力信号は、伴奏と第1のボーカル信号とのミックスであってもよい。
いくつかの実施形態によれば、伴奏を複数の楽器に分離するようにさらに構成されてもよい。
いくつかの実施形態によれば、第2のオーディオ入力信号は、第2のボーカル信号と残余信号とに分離され得る。
いくつかの実施形態によれば、回路は、第2のボーカル信号に基づいて歌唱労力を判断するようにさらに構成され得、移調値は、歌唱労力とピッチ比とに基づく。
いくつかの実施形態によれば、歌唱労力は、第2のボーカル信号の第2のピッチ解析結果と、第2のボーカル信号の第2のピッチレンジとに基づき得る。
いくつかの実施形態によれば、回路は、ジッタ値および/またはRAP値および/またはシマー値および/またはAPQ値および/またはノイズ対高調波比および/またはソフト発声指数に基づいて歌唱労力を判断するようにさらに構成され得る。
いくつかの実施形態によれば、回路は、移調値が半音の整数倍に対応するように、ピッチ比に基づいてオーディオ出力信号を移調するようにさらに構成され得る。
移調値は、天井に丸められてもよいし、床に丸められてもよいし、これにより、半音の次の整数倍に丸められてもよい。したがって、伴奏は、半音の整数倍によって移調され得る。
いくつかの実施形態によれば、回路は、第2のボーカル信号をキャプチャするように構成されたマイクロフォンを備えてもよい。
いくつかの実施形態によれば、回路は、第1のオーディオ入力信号をリアルオーディオ録音からキャプチャするようにさらに構成され得る。
リアルオーディオ録音は、例えば、コンピュータ生成音と対比して、マイクロフォンで録音される音楽の任意の録音であってもよい。リアルオーディオ録音は、WAV、MP3、AAC、WMA、AIFFなどのような適切なオーディオファイルに記憶され得る。すなわち、オーディオ入力は現実のオーディオであってもよく、これは、例えば、商業的にパフォーマンスされた歌ではない、準備されたものではない生のオーディオを意味する。
本実施形態によれば、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離することと、ピッチ比に基づく移調値によってオーディオ出力信号を移調することとを含む方法を開示し、ピッチ比は、第1のボーカル信号の第1のピッチレンジと第2のボーカル信号の第2のピッチレンジとの比較に基づく。
本実施形態によれば、命令を備えるコンピュータプログラムを開示し、命令は、プロセッサ上で実行されたとき、プロセッサに、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離することと、ピッチ比に基づいて移調値によってオーディオ出力信号を移調することとを備える方法を実行させ、ピッチ比は、第1のボーカル信号の第1のピッチレンジと第2のボーカル信号の第2のピッチレンジとの比較に基づく。
以下、図面を参照して本実施形態について説明する。
図1は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を自動移調するカラオケシステムのプロセスの第1の実施形態を概略的に示す。モノラルまたはステレオオーディオ入力13から受信されるオーディオ入力信号x(n)は、複数ソース(図2の1、2、…、K参照)を含み、音源分離12の処理に入力され、分離され(図2の分離されたソース2および残余信号3参照)、ここでは分離されたソース2、すなわちオリジナルボーカルsoriginal(n)、および残余信号3、すなわち伴奏sAcc(n)に分離される。音源分離2のプロセスの例示的な実施形態は、以下の図2に記載される。
オーディオ出力信号x*(n)は伴奏sAcc(n)に等しく、オーディオ出力信号x*(n)は移調部17に送信され、オリジナルボーカルsoriginal(n)が信号加算器18およびピッチ解析部14(詳述は図3)に送信される。ピッチ解析部14は、オリジナルボーカルsoriginal(n)のピッチ解析結果ωoriginal(n)を推定する。ピッチ解析結果ωf,original(n)は、ピッチレンジ推定部15(図4に詳述)に入力される。ピッチレンジ推定部15は、オリジナルボーカルsoriginal(n)のピッチレンジRω,originalを推定する。ピッチレンジRω,originalは、ピッチ比較部16に入力される。ユーザマイクロフォン11は、音源分離12の処理に入力されて分離されたオーディオ入力信号y(n)を取得し(図2の分離音源2および残余信号3を参照)、ここでは分離音源2、すなわち、ユーザボーカルsuser(n)と、以下では不要な残余信号3とに分離する。ユーザボーカルsoriginal(n)は、ユーザボーカルsoriginal(n)のピッチ解析結果ωf,user(n)を推定するピッチ解析部14(詳述は図3)に送信される。ピッチ解析結果ωf,user(n)は、ユーザボーカルsuser(n)のピッチレンジRω,userを推定するピッチレンジ推定部15(図4で詳述)に入力され、ピッチレンジRω,userは、ピッチ比較部16に入力される。ピッチレンジ推定部15(図5で詳述)は、オリジナルボーカルsoriginal(n)のピッチレンジRω,original、およびユーザボーカルsuser(n)のピッチレンジRω,userを受け取り、オリジナルボーカルsoriginal(n)のピッチレンジRω,originalの平均値と、ユーザボーカルsuser(n)のピッチレンジRω,userの平均値との間のピッチ比Pωを出力する。ピッチ比Pωは、移調部17(図6に詳述)に入力される。移調部17は、ここではピッチ比Pωと等しい移調量transpose_valを入力として受け付け、オーディオ出力信号はx*(n)(=伴奏sAcc(n))であり、オーディオ出力信号x*(n)(=伴奏sAcc(n))をピッチ比Pωで移調する。移調部17は、移調後伴奏s* Acc(n)を出力し、それを信号加算器18に入力する。信号加算器18は、移調後伴奏s* Acc(n)と、オリジナルボーカルsoriginal(n)とを入力して加算し、加算した信号をスピーカシステム19に出力する。ピッチ比Pωは、さらに表示部20に出力され、ユーザに提示される。また、表示部20は、ユーザボーカルsuser(n)の歌詞を受信し、ユーザに提示する。
図1の実施形態では、オーディオ入力信号y(n)に対してオーディオソース分離がリアルタイムで実行される。オーディオ入力信号y(n)は、例えば、ユーザボーカルとバックグラウンドサウンドとを含むカラオケ信号である。バックグラウンドサウンドは、カラオケ歌唱者のマイクロフォンによってキャプチャされ得る任意のノイズ、例えば、群衆のノイズなどであり得る。オーディオ入力信号y(n)は、音声分離アルゴリズムを介してオンラインで処理され、バックグラウンドサウンドからユーザボーカルを抽出し、潜在的に除去する。リアルタイム音声分離の例は、既知の論文(Uhlich, Stefan,et al. “Improving music source separation based on deep neural networks through data augmentation and network blending.” 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE,2017)に記載される。論文において、双方向LSTMレイヤは、一方向LSTMレイヤによって置き換えられる。
オーディオソース分離は、オーディオ入力信号x(n)に対してリアルタイムで実行される。オーディオ入力信号x(n)は、例えば、オリジナルボーカルと伴奏とを含むカラオケ歌唱される曲である。オーディオ入力信号x(n)は、音声分離アルゴリズムを介してオンラインで処理されて、再生音からユーザ音声を抽出し、潜在的に除去することができ、またはオーディオ入力信号x(n)は、例えば、オーディオ入力信号x(n)が音楽ライブラリに記憶されているときに、事前に処理することができる。事前処理の場合、ピッチ解析およびピッチレンジ推定も事前に実行されてもよい。カラオケ楽曲データベース内の各楽曲を事前処理するためには、ピッチレンジについて解析する必要がある。
マニュアル移調が可能なカラオケボックスが存在する。しかしながら、ほとんどのカラオケ歌唱者(カラオケユーザとも呼ばれる)は、ピッチレンジが自身の能力に適しているかどうかを知らず、したがって、伴奏sAcc(n)の自動オンライン移調は、大きな優位性を有する。
一実施形態では、オーディオ入力x(n)は、MIDIファイルである(以下の図7の説明でより詳細に参照されたい)。この例では、MIDIシンセサイザによって、それぞれのMIDIトラックの伴奏sAcc(n)が移調される。
別の実施形態では、オーディオ入力x(n)は、オーディオ録音、例えば、WAVファイル、MP3ファイル、AACファイル、WMAファイル、AIFFファイルなどである。これは、オーディオ入力x(n)が実際のオーディオであることを意味し、例えば、商業的にパフォーマンスされた歌ではない、準備されたものではない生のオーディオを意味する。カラオケ素材は、マニュアルによる準備を必要とせず、完全に自動処理することができ、オンラインであり、良好な品質および高い現実感を提供することができるので、この実施形態では、事前準備されたオーディオ/MIDI素材は必要とされない。
カラオケシステムは、カラオケ歌唱者のピッチレンジと歌唱労力(図8参照)を解析するために、カラオケ歌唱者のマイクまたはオリジナル曲(オリジナルの歌手によって歌われた)からクリーンなボーカル録音を得るために、ボーカル/楽器分離アルゴリズム(図2参照)を使用する。
ピッチ解析部と比較部は、図1では機能的に分離されているが、これらは両方の段階で自動実行され、歌唱者の疲労と労力を最小限に抑えながら、最小の移調係数でオリジナルの録音とは異なるように接続される。システムは、基本的に、カラオケセッションの歌唱者および聴者の両方のためのパフォーマンス体験を最適化する。
さらに、上述のカラオケシステムの利点は、ボーカル/楽器分離の低遅延処理がオンラインピッチ解析および移調を可能にすることである。さらに、ボーカルの分離は、ボーカルのピッチレンジの正確な解析および歌唱労力の判断を可能にする。さらに、リアルオーディオのボーカル/楽器分離処理は、カラオケをMIDIカラオケ曲に限定せず、したがって、音楽がはるかにリアルになる。さらに、ボーカル/楽器分離は、リアルオーディオ録音の移調品質を改善可能である。
オーディオソース分離によるオーディオリミックス/アップミックス
図2は、音源分離(MSS)のようなブラインドソース分離(BSS)によるオーディオアップミックス/リミックスの一般的なアプローチを概略的に示す。第1に、ソースオーディオ信号1(ここでは、複数のチャネルIと、複数のオーディオソースソース1、ソース2、…、ソースK(例えば、楽器、音声など)からのオーディオとを含むオーディオ入力信号x(n))にオーディオソース分離(「デミキシング」とも呼ばれる)が実行され、各チャネルi毎に、分離後のソース2(例えばボーカルS(n))および残余信号3(例えば伴奏s(n))に「分離」する。ここで、Kは整数であり、オーディオソースの個数を示す。ここで、残余信号は、オーディオ入力信号からボーカルを分離した後に得られる信号である。すなわち、残余信号は、入力オーディオ信号のボーカルを除去した後の「休止」オーディオ信号である。ここでの実施形態では、ソースオーディオ信号1は、2つのチャネルi=1およびi=2を有するステレオ信号である。続いて、分離されたソース2および残余信号3は、リミックスされ、新たなスピーカ信号4、ここでは5つのチャネル4a-4eを含む信号、すなわち5.0チャネルシステムにレンダリングされる。オーディオソース分離プロセス(図1の104参照)は、例えば、既知の論文(Uhlich, Stefan、et al。“Improving music source separation based on deep neural networks through data augmentation and network blending”.2017 IEEE International Conference on Acoustics、Speech and Signal IEEE、2017.)に詳細に記載される。
オーディオソース信号の分離が不完全である場合、例えば、オーディオソースのミックスにより、分離されたオーディオソース信号2a-2dに加えて、残余信号3(r(n))が生成される。この残余信号は例えば、入力オーディオコンテンツと、全ての分離されたオーディオソース信号の総和との間の差を表すことができる。各オーディオソースによって発せられるオーディオ信号は、入力オーディオコンテンツ1において、そのそれぞれの録音された音波によって表される。ステレオまたはサラウンドサウンド入力オーディオコンテンツなど、2つ以上のオーディオチャンネルを有する入力オーディオコンテンツの場合、オーディオソースのための空間情報も、典型的には、入力オーディオコンテンツに含まれるまたは表される(例えば、異なるオーディオチャンネルに含まれるオーディオソース信号の割合として)。入力オーディオコンテンツ1から分離されたオーディオソース信号2a-2dおよび残余信号3への分離は、ブラインドソース分離、またはオーディオソースを分離することができる他の技術に基づいて実行される。
第2のステップでは、分離されたオーディオソース信号2a-2dおよび残余が存在する場合は残余信号3がリミックスされ、新たなスピーカ信号4、ここでは5つのチャネル4a-4eを含む信号、すなわち5.0チャネルシステムにレンダリングされる。分離したオーディオソース信号および残余信号に基づいて、空間情報に基づいて分離したオーディオソース信号および残余信号をミックスすることにより、出力オーディオコンテンツが生成される。出力オーディオコンテンツは、図2に例示的に示され、参照番号4で示されている。
第2のステップでは、分離および残余が存在する場合は残余がリミックスされ、新たなスピーカ信号4、ここでは5つのチャネル4a-4eを含む信号、すなわち5.0チャネルシステムにレンダリングされる。分離したオーディオソース信号および残余信号に基づいて、空間情報に基づいて分離したオーディオソース信号および残余信号をミックスすることにより、出力オーディオコンテンツが生成される。出力オーディオコンテンツは、図2に例示的に示され、参照番号4で示されている。
オーディオ入力x(n)とオーディオ入力y(n)は、図2で説明した方式で分離することができ、オーディオ入力y(n)は、ユーザボーカルsuser(n)と不使用のバックグラウンドサウンドとに分離され、オーディオ入力x(n)は、オリジナルボーカルsuser(n)と伴奏sacc(n)とに分離される。伴奏sacc(n)は、ドラム、ピアノ、ストリングスなど、それぞれのトラックにさらに分割される(図11参照)。ボーカルの分離は、伴奏とボーカルの両方が処理される方法の大幅な改善を可能にする。
オーディオ入力y(n)から伴奏を除去するための別の方法は、例えば、クロストークキャンセル方法であり、そこでは、伴奏のリファレンスが、例えば、アダプティブフィルタリングを使用することによって、マイクロフォン信号から同相で減算される。
オーディオ入力y(n)を分離するための別の方法は、オーディオ入力y(n)についてのマスタリング録音が、オーディオ入力y(n)(すなわち、歌)がどのようにマスタリングされたかについての詳細な知識がある場合において利用可能である。この場合、ステムは、ボーカルなしで再びミックスされる必要があり、ボーカルは、全ての伴奏なしで再びミックスされる必要がある。このプロセスでは、マスタリング中に、はるかに多数のステム、例えば、階層化されたボーカル、マルチマイクロフォンテイク、適用されているエフェクトなどが使用される。
ピッチ解析
図3は、図1のピッチ解析部13において実行されるピッチ解析のプロセスの実施形態をより詳細に示す。図1に示すように、オリジナルボーカルsoriginal(n)およびユーザボーカルsoriginal(n)に対してそれぞれピッチ解析を行い、ピッチ解析結果ω(n)を得る。特に、信号フレーム化301の処理は、ボーカル300に対して、すなわちボーカル信号s(n)に対して実行され、フレーム化されたボーカルs(i)を得る。高速フーリエ変換(FFT)スペクトル解析302の処理が、フレーム化されたボーカルS(i)に対して実行され、FFTスペクトルSω(n)が得られる。FFTスペクトルSω(n)に対してピッチ測定解析303が実行され、ピッチ測定値R(ω)が得られる。
信号フレーム化301において、フレーム化されたボーカルs(i)などのウィンドウ化フレームは、数1によって得ることができる。
Figure 2023530262000002
ここで、s(n+i)が、n個のサンプルだけシフトされた離散化オーディオ信号(iは、サンプル番号、したがって時間を表す)を表す。h(i)が、例えば、当業者に周知のハミング関数のように、時間n(それぞれサンプルn)付近のフレーム化関数である。
FFTスペクトル解析302において、各フレーム化されたボーカルは、それぞれの短期パワースペクトルに変換される。パワースペクトル密度としても知られる離散フーリエ変換で得られる短期パワースペクトルS(ω)は、数2によって得ることができる。
Figure 2023530262000003
ここで、S(i)は、上で定義されたようなフレーム化されたボーカルS(i)のようなウィンドウ化フレーム内の信号であり、ωは、周波数ドメイン内の周波数であり、|Sω(n)|は、短期パワースペクトルS(ω)の成分であり、Nは、例えば、フレーム化された各ボーカルにおける、ウィンドウ化フレーム内のサンプルの数である。
ピッチ測定解析303は、例えば、既知論文Der-Jenq Liu and Chin-Teng Lin, "Fundamental frequency estimation based on the joint time frequency analysis of harmonic spectral structure" in IEEE Transactions on Speech and Audio Processing, vol. 9, no. 6, pp. 609-621, Sept. 2001に記載されているように実施することができる。
ピッチ測定値R(ω)は、基本周波数候補ωごとに、フレームウィンドウSのパワースペクトル密度Sω(n)から数3により得られる。
Figure 2023530262000004
ここで、R(ω)は基本周波数候補ωのエネルギー測定値であり、R(ω)は基本周波数候補ωのインパルス測定値である。
基本周波数候補ωのエネルギー測定値R(ω)は、数4で得られる。
Figure 2023530262000005
ここで、K(ω)が基本周波数候補ωの高調波の個数であり、hin(nω)が基本周波数候補ωの高調波lωに関連する内部エネルギーであり、Eが総エネルギーである。ここでEは数5で得られる。
Figure 2023530262000006
内部エネルギーは数6で得られる。
Figure 2023530262000007
内部エネルギーは長さWinのインナーウィンドウによって境界付けられたスペクトルの曲線下面積であり、総エネルギーは、スペクトルの曲線下面積の総計である。
基本周波数候補ωのインパルス測定値R(ω)は数7で得られる。
Figure 2023530262000008
ここで、ωが基本周波数候補であり、K(ω)が基本周波数候補ωの高調波の個数であり、hin(lω)が高調波nωに関連する基本周波数候補の内部エネルギーであり、hout(lω)が高調波lωに関連する外部エネルギーである。
外部エネルギーは数8で得られる。
Figure 2023530262000009
外部エネルギーは、長さwoutのアウターウィンドウで囲まれたスペクトルの曲線の下の領域である。
フレームウィンドウSのピッチ解析結果ω^(n)は、数9で得られる。
Figure 2023530262000010
ここで、ω^(n)は、ウィンドウS(n)の基本周波数であり、R(ω)は、上述したように、ピッチ測定値解析303で得られる基本周波数候補ωのピッチ測定値である。
サンプルnにおける基本周波数ω^(n)は、ボーカル信号s(n)におけるサンプルnにおけるボーカルのピッチを示すピッチ測定結果である。
さらに、ピッチ測定結果ω^(n)に対してローパスフィルタ(LP)304を実行し、ピッチ解析結果ω(n)305を得る。
ローパスフィルタ305は、M次の因果的離散時間ローパス有限インパルス応答(FIR)フィルタとすることができ、数10で得られる。
Figure 2023530262000011
αは、0≦i≦Mにおいてith時点におけるインパルス応答の値であり、M次の因果的離散時間FIRフィルタe(n)では、出力系列のそれぞれの値は、最新の入力値の重み付け総和である。
フィルタパラメータMおよびαは、当業者の設計選択に従って選択することができる。例えば、正規化のためにα=1とする。パラメータMは、例えば、1secまでのタイムスケールで選択することができる。
図3に関して上述したようなピッチ解析処理が、オリジナルボーカルsoriginal(n)に対して実行されて、オリジナルボーカルピッチ解析結果ωf,original(n)が得られる。ピッチ解析処理が、ユーザボーカルsoriginal(n)に対して実行されて、ユーザピッチ解析結果ωf,user(n)が得られる。
図3の実施形態では、FFTスペクトルに基づいて基本周波数ωを推定するために、ピッチ測定値解析303などのピッチ測定値解析を実行することが提案される。代わりに、基本周波数ωは、高速適応表現(FAR)スペクトルアルゴリズムに基づいて推定され得る。
図3に記載される方法の代わりに、またはそれに加えて使用することができる、モノフォニック信号のピッチ解析および推定のための他の方法は、以下の科学論文に記載されている。乗法的自己相関法は、"New methods of pitch extraction," by Sondhi, M. M, published in EEE Trans. Audio Electroacoust. AU-16, 262-266, in 1968. に記載されている。平均振幅差関数法は、"Average magnitude difference function pitch extractor" by Ross, M. J., Shaffer, H. L., Cohen, A., Freudberg, R., and Manley, H. J, published in IEEE Trans. Acoust. Speech Signal Process. ASSP-22, 353-362, in 1974. に記載されている。櫛型フィルタリング法は、"The optimum comb method of pitch period analysis of continuous digitized speech" by Moorer, J.A., published in IEEE Trans. Acoust. Speech Signal Process. ASSP-22, 330-338, in 1974.に記載されている。線形予測解析に基づく方法は、"Linear Prediction of Speech", by Moorer, J. A, published in Springer-Verlag, New York, in 1974.に記載されている。ケプストラムに基づく方法は、"Cepstrum pitch determination", by Noll, A.M., published in J. Acoust. Soc. Am. 41, 293-309, in 1966. に記載されている。期間ヒストグラム法は、"Period histogram and product spectrare: New methods for fundamental frequency measurement," by Schroeder, M. R., published in J. Acoust. Soc. Am. 43, 829-834, in 1968.に記載されている。
さらに、図3に記載された方法の代わりに、またはそれに加えて使用することができる、ピッチ解析および推定のための他のより先進的な方法が、科学論文"Fundamental frequency estimation of musical signals using a two-way mismatch procedure", by R.C. Maher, J. W. Beauchamp, published in the Journal of the Acoustical Society of America 95(4)、 in April 1994. に記載されている。
ロバストなピッチ判断のために、ピッチトラッキング(ピッチダブリングエラーおよび有声/無声検出を回避する)を使用することが必要とされ、これは、上記で与えられた方法のいずれかにおいて説明されたように、ピッチF0候補に対する動的プログラミングを使用することによってしばしば行われる。ピッチトラッキング方法は、"An integrated pitch tracking algorithm for speech systems", B. Secrest and G. Doddington, published in ICASSP '83. IEEE International Conference on Acoustics, Speech, and Signal Processing, Boston, Massachusetts, USA, 1983, pp. 1352-1355, doi: 10.1109/ICASSP.1983.1172016. に記載されている。
さらに、ピッチ解析および(キー)移調は、ボーカルと伴奏が別々である場合に、より良好である。
ピッチレンジ判断
図4は、図1のピッチレンジ判断部15の処理を説明するフローチャートを概略的に示す。ステップ41において、ピッチ解析結果ω(n)が、ピッチレンジ判断部15への入力として受信される。ステップ42において、サンプル番号nがゼロであるかどうかがテストされる。ステップ42のクエリにYesと応答された場合、プロセスはステップ43に進む。ステップ43では、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の下限値min_ω(n)を、min_ω(0)=ω(0)で初期化する。ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の上限値max_ω(n)を、max_ω(0)=ω(0)で初期化する。ステップ43の後、プロセスはステップ51に続く。ステップ51では、ピッチレンジRω=[min_ω(n),max_ω(n)]がピッチレンジ判断部15によって出力され、ストレージ、例えばストレージメモリ1202に記憶される。ステップ42のクエリにNoと応答された場合、プロセスはステップ44に進む。ステップ44では、オールドピッチレンジRω,old=[min_ω(n-1),max_ω(n-1)]がストレージからロードされる。ステップ45では、ピッチ解析結果ω(n)が、オールドピッチレンジRω(n)=[min_ω(n-1),max_ω(n-1)]の下限値min_ω(n-1)よりも小さいか否かをテストする。ステップ45のクエリにYesと応答された場合、プロセスはステップ46に進む。ステップ46では、min_ω(n)=ω(n)が、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の下限値min_ω(n)に設定され、ステップ50に進む。ステップ50では、max_ω(n)=max_ω(n-1)が、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の上限値min_ω(n)に設定され、ステップ51に進む。ステップ51では、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]がピッチレンジ判断部15によって出力され、ストレージ、例えばストレージメモリ1202に記憶される。ステップ45のクエリにNoと応答された場合、プロセスはステップ47に進む。ステップ47では、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の下限値max_ω(n)に、min_ω(n)=min_ω(n-1)が設定され、ステップ48に進む。ステップ48では、ピッチ解析結果ω(n)が、オールドピッチレンジRω=[min_ω(n-1),max_ω(n-1)]の上限値max_ω(n-1)よりも大きいか否かがテストされる。ステップ48のクエリにYesと応答された場合、プロセスはステップ49に進む。ステップ49において、ピッチレンジRω=[min_ω(n),max_ω(n)]の上限値max_Rω(n)は、max_ω(n)=ω(n)に設定され、プロセスはステップ51に進む。ステップ51では、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]がピッチレンジ判断部15によって出力され、ストレージ、例えばストレージメモリ1202に記憶される。ステップ48のクエリにNoと応答された場合、プロセスはステップ50に進む。ステップ50では、ピッチレンジRω=[min_ω(n),max_ω(n)]の上限値max_ω(n)が、max_ω(n)=max_ω(n-1)に設定され、ステップ51に進む。ステップ51では、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]がピッチレンジ判断部15によって出力され、ストレージ、例えばストレージメモリ1202に記憶される。
以上のようなピッチレンジ判断処理は、オリジナルボーカルsoriginal(n)のピッチ解析結果ωf,original(n)と、ユーザボーカルsuser(n)のピッチ解析結果ωf,user(n)とに基づいて行うことができる。
図4において上述したようなピッチ判断部15のピッチ判断処理は、オンラインで実行することができ、これは、オーディオ入力y(n)(例えば、ユーザのカラオケパフォーマンス)の各サンプル(またはフレーム)ごとに、ピッチ解析処理14、およびピッチレンジ判断処理15が実行されることを意味する。
別の実施形態では、上述のようなピッチ判断部15のピッチレンジ判断処理は、予め記憶されたオーディオ入力x(n)(例えば、カラオケシステムで記憶されたピッチレンジを判断すべき曲)に対して実行され得る。ここで、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の上限値max_ω(n)は、max_ω(n)=数11とする設定によって判断される。ここで、maxは最大関数、Nは記憶されたオーディオ入力x(n)の全サンプルの個数である。
Figure 2023530262000012
ピッチレンジRω(n)=[min_ω(n),max_ω(n)]の下限値min_ω(n)は、数12の設定によって判断される。ここで、minは最小関数である。
Figure 2023530262000013
さらに別の実施形態では、上記のようなピッチ判断部15のピッチレンジ判断処理は、予め記憶されたオーディオ入力y(n)(すなわち、例えば、ピッチレンジおよび歌唱労力(以下を参照)プロファイルをコンパイルすることができる、多数の既存の曲に対する、記憶されたユーザのカラオケパフォーマンス)に対して実行され得る。ここで、ピッチレンジRω(n)=[min_ω(n),max_ω(n)]は、前のパラグラフで説明したように判断することができる。
図5にピッチ解析結果のグラフを模式的に示す。グラフ50のx軸上に、オーディオ入力ty(n)またはtx(n)のサンプル数nが示され、サンプルの総数はNである。
グラフ50のy軸上に、ピッチレンジ解析結果ω(n)が示されている。グラフ線53は、標本数nに対するピッチレンジ解析結果ω(n)を示す。全N個のサンプルにわたるピッチレンジRω(n)=[min_ω(n),max_ω(n)]の下限値min_ω(n)は、グラフ線53が到達する全N個のサンプルの最低値min_ω(N)である。全N個のサンプルにわたるピッチレンジRω(n)=[min_ω(n),max_ω(n)]の上限値max_ω(n)は、グラフ線53が到達する全N個の最高値max_ω(N)である。
ピッチレンジ比較
図6は、図1のピッチレンジ比較部16の処理を説明するフローチャートを概略的に示す。ステップ61において、オリジナルボーカルsoriginal(n)(第1のボーカル信号とも呼ばれる)のピッチレンジRω,original(n)=[min_ω(n),max_ω(n)](第1のピッチレンジとも呼ばれる)が受け付けられ、ステップ63に入力される。ステップ62において、ユーザボーカルsuser(n)(第2ボーカル信号とも呼ばれる)のピッチレンジRω,user(n)=[min_ω(n)max_ω(n)](第2ピッチレンジとも呼ばれる)が受け付けられ、ステップ64に入力される。ステップ63において、オリジナルボーカルピッチレンジ平均値avg_ωf,originalは、avgωf,original(n)=[max_ωf,original(n)-min_ωf,original(n)]/2+min_ωf,original(n)として判断される。ステップ64において、ユーザボーカルピッチレンジ平均値avg_ωf,user(n)は、avg_ωf,user(n)=[max_ωf,user(n)-min_ωf,user(n)]/2+min_ωf,user(n)として判断される。ステップ65では、ピッチ比Pω(n)を、Pω(n)=[(avgωf,user(n)-avgωf,original(n))/avg_ωf,original(n)+1]と判断する。ステップ66では、ピッチ比Pω(n)をピッチレンジ比較部16のピッチレンジ比較処理により出力する。
上述したようなピッチレンジ比較部16のピッチレンジ比較処理を、ユーザボーカルsuser(n)のサンプルn毎に行う。つまり、ユーザがカラオケを行う間、サンプルnごとにピッチ比Pω(n)を適応させることができる。ユーザによるカラオケパフォーマンスが終了した後の、全サンプルn=1…Nの最終ピッチ比Pω(N)は、データベース、例えば、ストレージ1202に記憶され、ユーザにリンクされ得る。
ピッチ比Pω(n)は、オリジナルボーカルピッチレンジ平均値avg_ωf,original(n)に対する値であり、1を中心値とするので、そのオリジナルボーカルピッチ周波数ωf,original(n)に適用すべき「移調係数」の一種と見ることができる。
上述したように、ピッチ解析部14からのピッチ解析結果ω(n)およびピッチレンジ判断部15からのピッチレンジRω(n)と同様に、ピッチ比ω(n)は、オーディオ入力y(n)(例えばユーザのライブカラオケパフォーマンス)から、およびオーディオ入力x(n)(例えばカラオケパフォーマンスが行われるべき選択された曲)から、サンプルnごとにオンラインで判断することができる。
ユーザピッチレンジRω,user(N)が予め(すなわち、ある曲に対してカラオケがパフォーマンスされオーディオ入力y(n)が得られる前)既知である場合(例えば、ユーザによってパフォーマンスされ、ストレージ1202に記憶された別の曲から)、ピッチ比Pω(N)は、ユーザの予め既知のレンジRω,userと、ユーザの予め既知のレンジRω,original(N)とに基づいて判断され得る。
音楽および音楽移調の分野では、音楽がどのくらい半音または全音で移調されるかがしばしば記述される。1オクターブは12半音で構成され、1オクターブはピッチ比Pω(n)=2に対応するので、半音上の移調はピッチ比Pω(n)=21/12=1.087に対応する。半音下の移調は、ピッチ比Pω(n)=(1/2)12=0.920に対応する。これにより、ピッチ比Pω(n)と半音移調明細とを容易に変換することができる。したがって、別の実施形態では、ピッチ比Pω(n)は、ピッチ比Pω(n)が必ず半音の整数倍の移調に対応するように、天井または床(すなわち、上または下)に対して次の半音に丸められてもよい。
移調
上述のように、目的は、ユーザのカラオケパフォーマンス中に、ユーザが自身の声を伴奏sAcc(n)により容易にマッチさせることができるように、歌の伴奏sAcc(n)を移調することである。伴奏sAcc(n)が移調されるべき「移調係数」は、上記の図6に記載されるように判断される。オーディオ入力の移調は、例えば、標準的なピッチスケール修正技術によって行うことができ、ここでは、全ての周波数は、移調値transpose_val(n)によって所定の値が乗算される。標準的なピッチスケール修正技術は、タイムスケール修正のステップと、リサンプリングのステップとを含む。
図7は、図1の移調部17のプロセスを説明するフローチャートを概略的に示す。ステップ71において、移調値transpose_valが受信される。この実施形態では、移調値transpose_val(n)は、ピッチ比Pω,user(n)に等しく設定され、すなわち、transposeval(n)=Rω,user(n)である。ステップ72において、伴奏sAcc(n)が入力として受信される。ステップ73において、伴奏sAcc(n)のタイムスケール修正は、移調値と共に、transpose_val(n)を時間係数として用いる。伴奏sAcc(n)のタイムスケール修正は、位相ボコーダを用いて行われる。位相ボコーダは、伴奏sAcc(n)の周波数を変更せずに、移調値transpose_valの係数だけ伴奏sAcc(n)を拡張または短縮する。これにより、ステップ73の出力として、かつステップ74への入力として、タイムスケール修正後伴奏sAcc,mod(n)が得られる。ステップ74において、タイムスケール修正後伴奏sAcc,mod(n)は、新しいサンプリング期間ΔT*transpose_val(n)でリサンプリングされ、ここで、ΔTは、伴奏sAcc(n)をサンプリングするときに使用されたサンプリング期間である。これは、新しいサンプリング周期ΔT*transpose_val(n)でのリサンプリングの間、タイムスケール修正後伴奏sAcc,mod(n)が伴奏sAcc(n)のオリジナルの長さに短縮または拡張され、それによって、すべての周波数が移調値transpose_val(n)の係数で乗算され、移調後伴奏s* Acc(n)が得られることを意味する。ステップ75で、移調後伴奏s* Acc(n)は、移調部17によって出力される。
この実施形態では、オーディオ出力信号x*(n)は、伴奏sAcc(n)に等しい。一般に、他のオーディオ出力信号x*(n)にも、図7で説明した処理と同様の処理を適用することができる。例えば、別の実施形態では、オーディオ出力信号はx*(n)であり、オーディオ入力信号x(n)に等しくてもよい。このとき、図7で説明したのと同じ移調が、オーディオ出力信号x*(n)に適用される。この例では、比較部の出力信号は、移調後信号s*(n)と呼ばれることがある。
タイムスケール修正位相ボコーダおよびリサンプリングは、例えば、科学論文P"New phase-vocoder techniques for pitch-shifting, harmonizing and other exotic effects", z published in Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999 or in the papers mentioned therein. Still further an improved phase-vocoder is explained in more detail for example in the paper, "Improved Phase Vocoder Time-Scale Modification of Audio", by Jean Laroche and Mark Dolson, published in IEEE transactions on speech and audio processing, vol. 7, no. 3, May 1999の中でより詳細に記述されている。
移調値transpose_val(n)が1より小さい場合、図7のステップ73および74は逆順でもよい。
上述したように、ピッチ比Pω(n)は、サンプルnごとにオンラインで判断することができ、移調後伴奏s* Acc(n)は、現在の移調値transpose_val(n)(これは、移調キーと見なすこともできる)に応じて、nごとにオンラインで判断することができ、その後、リアルタイムで曲全体に適用することができる。
なお、選択されたカラオケ曲と特定のユーザとのピッチ比Pω(N)(および移調値transpose_val(n))が予め分かっている場合には、上述したように、移調後伴奏s* Acc(n)も予め決めておいてもよい。
上述したように、音源分離12(図2参照)が出力する伴奏sAcc(n)は、例えば、ドラム、ピアノ、ストリングスなどのような全ての楽器(トラック)を含むことができる。この例では、比較部の移調処理は、図7で説明されているように、「完全な」伴奏sAcc(n)(ポリフォニックピッチ移調とも呼ばれる)に直接的に適用される。ポリフォニックピッチ移調は、シングルトラックピッチ移調(図11参照)よりも品質が低くなることがある。これは、複数の楽器を持つトラックでは、非常に異なるアタック/リリース、メロディック/パーカッシブ、マルチノート・オン・ノート・オフに対処することが難しいためである。そのため、パーカッションパートのプレエコーやメロディパートのコム/フランジ効果などのアーチファクトが発生してしまうことがある。
上述のように、ピッチ比Pω(n)は、半音または全音で記述することもでき、移調値transpose_val(n)について全く同じことが当てはまる。
さらに別の実施形態では、オーディオ入力信号x(n)は、MIDI(Musical Instrument Digital Interface)を利用可能であり得、したがって、伴奏sAcc(n)または伴奏の単一トラックは、MIDIファイルとしても利用可能であり得る。このとき、MIDIファイルの伴奏sAcc(n)の移調は、移調フィルタのような通常のMIDIコマンドで行うことができる。つまり、この場合、楽器合成の前に、MIDIトラックのキーを必要な移調値transpose_val(n)だけ移調するだけで移調が実行される。
したがって、上述の比較部は、高分離品質およびピッチ解析および移調値判断によって移調品質を改善することができる、任意のタイプの録音(合成MIDI、サードパーティのカバー、または商業的にリリースされた録音)を処理することができる。
歌唱労力の判断
図8は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第2の実施形態を概略的に示す。モノラルまたはステレオオーディオ入力13から受信されるオーディオ入力信号x(n)は、複数ソース(図2の1、2、…、K参照)を含み、音源分離12の処理に入力され(図2の分離されたソース2および残余信号3参照)、ここでは分離されたソース2、すなわちオリジナルボーカルsoriginal(n)、および残余信号3、すなわち伴奏sAcc(n)に分離される。音源分離2のプロセスの例示的な実施形態は、以下の図2に記載される。オーディオ出力信号はx*(n)が伴奏sAcc(n)に等しく、オーディオ出力信号はx*(n)が移調部17に送信され、オリジナルボーカルsoriginal(n)は、信号加算器18およびオリジナルボーカルsoriginal(n)のピッチ解析結果ωf,original(n)を推定するピッチ解析部14(詳述は図3)に送信される。ピッチ解析結果ωf,original(n)は、オリジナルボーカルsoriginal(n)のピッチレンジRω,originalを推定するピッチレンジ推定部15(図4で詳述)に入力される。ピッチレンジRω,originalは、ピッチ比較部16に入力される。ユーザマイクロフォン11は、音源分離12の処理に入力されて分離されたオーディオ入力信号y(n)を取得し(図2の分離音源2および残余信号3を参照)、ここでは分離音源2、すなわち、ユーザボーカルsuser(n)と、以下では不要な残余信号3とに分離する。ユーザボーカルsoriginal(n)は、歌唱労力判断部22、信号加算器18、およびユーザボーカルsoriginal(n)のピッチ解析結果ωf,user(n)を推定するピッチ解析部14(詳述は図3)に送信される。ピッチ解析結果ωf,user(n)は、ユーザボーカルsuser(n)のピッチレンジRω,userを推定するピッチレンジ推定部15(図4で詳述)に入力される。ピッチレンジRω,userは、ピッチ比較部16に入力される。ピッチ比較部16(図5で詳述)は、オリジナルボーカルsoriginal(n)のピッチレンジRω,originalおよびユーザボーカルsuser(n)のピッチレンジRω,userを受け取り、オリジナルボーカルsoriginal(n)のピッチレンジRω,originalの平均値とおよびユーザボーカルsuser(n)のピッチレンジRω,userの平均値との間のピッチ比Pωを出力する。ピッチ比Pωは、移調値判断部23に入力される。歌唱労力判断部22は、ユーザボーカルsoriginal(n)、ユーザボーカルsoriginal(n)のピッチ解析結果ωf,user(n)、および、ユーザボーカルsuser(n)のピッチレンジRω,userを受け取り、歌唱労力を判断する(図9参照)。歌唱労力判断部22は、移調値判断部23に入力された歌唱労力フラグEを出力する。移調値判断部23は、ピッチ比Pωと歌唱労力フラグEとに基づいて、移調値transpose_valを判断する。移調値判断部23は、移調値transpose_valを移調部17に出力する。比較部は、移調値transpose_valを受け取り、オーディオ出力信号はx*(n)(=伴奏sAcc(n))であり、オーディオ出力信号x*(n)(=伴奏sAcc(n))を移調値transpose_valによって移調する。移調部17は、移調後伴奏s*Acc(n)を出力し、信号加算器18に入力する。信号加算器18は、移調後伴奏s*Acc(n)とオリジナルボーカルsoriginal(n)とを入力し、これらを加算してスピーカシステム19に出力する。移調値transpose_valはさらに、表示部20に出力され、ユーザに提示される。また、表示部20は、ユーザボーカルsuser(n)の歌詞を受信し、ユーザに提示する。
歌唱労力と声帯の病理
カラオケシステムは、さらに、カラオケ歌唱者の歌唱労力を推定することができる。歌唱労力は、カラオケユーザが、オリジナル曲のピッチレンジに到達するために多大な労力を要するかどうか、すなわち、カラオケユーザが、オリジナル曲の高さまたは低さまで歌うために多大な労力を要しなければならないかどうかを示す。アマチュアカラオケユーザが、より長い時間、自身の固有能力を超えて歌う場合、ユーザは、長い歌唱セッションに耐えることができず、自身の声帯を損傷し、パフォーマンスの質が悪くなる可能性がある。
ユーザボーカルsuser(n)および/またはユーザピッチ解析結果ωf,user(n)の解析から推定することができる様々な特性パラメータがあり、これらは、高い歌唱労力を示す。これらの異なる特性パラメータは、例えば以下の通りである。
ジッタ値(パーセント%単位)。解析された音声サンプル内のユーザピッチ解析結果ωf,user(n)のピリオドツーピリオド(非常に短期間)の変動の相対的評価。ボイスブレイク領域が除外される。
RAP値(パーセント%単位)。3つの期間の平滑化係数を有する、解析された音声サンプル内のピッチのピリオドツーピリオドの変動の相対的評価。ボイスブレイク領域は除外される。
シマー値(パーセント%単位)。解析された音声サンプル内のピークツーピーク振幅の、ピリオドツーピリオド(非常に短期間)の変動の相対的評価。ボイスブレイク領域が除外される。
APQ値(パーセント%単位)。11周期の平滑化において解析された音声サンプル内のピークツーピーク振幅の、ピリオドツーピリオド(非常に短期間)の変動の相対的評価。ボイスブレイク領域が除外される。
ノイズ対高調波比(NHR)値。70-4500Hzの周波数帯域の高調波スペクトルエネルギーに対する1500-4500Hzの周波数帯域の低周波スペクトルエネルギーの平均値比。これは、解析された信号に存在するノイズの一般的な評価である。
軟発音指数(SPI)値。これは、70-1600Hzのレンジの低周波高調波エネルギーと1600-4500Hzのレンジの高周波高調波エネルギーの平均値比である。このパラメータは、ボーカルの近似を反映する。高いSPI値は、不完全な声帯の内転と相関すると言われており、エレクトログロトグラフ(EGG)よりも良好な息苦しさの指標である。NHRおよびSPIは共にピッチ同期周波数領域法を用いて計算される。
ユーザボーカルsuser(n)および/またはユーザピッチ解析結果ωf,user(n)に基づいて、上述のパラメータおよびそれらを測定および検出する方法のより詳細な解析は、科学論文"Vocal Folds Disorder Detection using Pattern Recognition Methods", J. Wang and C. Jo, published in 200729th Annual International Conference of the IEEE Engineering in Medicine and Biology Society, Lyon, 2007, pp. 3253-3256, doi: 10.1109/IEMBS.2007.4353023. に記載される。
上記のパラメータのほとんどは声帯に関連している。これらのうちのいくつかは、ジッタ(ビブラート)のように、歌唱中の表現力に関連するが、カラオケ歌唱セッションを通して連続的なカオス的な声帯行動を呈することは、膨潤などの短期的な声帯トラブルを発症する指標であり得る。NHR値は、失語症を検出するためにも同様に使用することができる。カラオケシステムは、ユーザのカラオケセッションにわたるこれら上述の指標およびそのバリエーションをモニタし、歌唱労力および発症し得る声帯損傷を(例えば、歌唱品質の漸進的な劣化を通して)判断することができる。
図9は、図8の歌唱労力判断部22を模式的に示している。ステップ91では、歌唱労力判断部22にユーザボーカルsuser(n)が入力される。ステップ92では、ユーザピッチ解析結果ωf,user(n)が歌唱労力判断部22に入力される。ステップ93では、歌唱労力判断部22に、ユーザボーカルsuser(n)のピッチレンジRω,user(n)=[min_ωf,user(n)max_ωf,user(n)]が入力される。ステップ94において、ジッタ値jitter_valは、ユーザピッチ解析結果ωf,user(n)およびユーザボーカルsuser(n)に基づいて判断される。これは、J. Wang and C. Joの論文(これは、そこに引用されている論文の上に引用されている)においてより詳細に記載されている。ステップ95において、第1の歌唱労力値pitch_high(n)は、pitch_high(n)=0で初期化され、ここで、第1の歌唱労力値pitch_high(n)=1に設定された場合、カラオケ歌唱者が大きな労力を要する、または、高ピッチに到達できないことを示す。さらにステップ95において、第2の歌唱労力値pitch_low(n)は、pitch_low(n)=0で初期化され、ここで、第2の歌唱労力値pitch_low(n)=1に設定された場合、カラオケ歌唱者が大きな労力を要する、または低ピッチに到達できないことを示す。ステップ96において、ジッタ値jitter_val(n)が5%の閾値よりも大きいかどうかがテストされる。別の実施形態では、ジッタの閾値は別の値を有することができる。ステップ96のクエリにYesと応答された場合、ステップ97に進む。ステップ97では、ユーザピッチ解析結果ωf,user(n)および低値ピッチレンジRω,user(n)の差分の絶対値が、ユーザピッチ解析結果ωf,user(n)及び高値ピッチレンジRω,user(n)の差分の絶対値よりも大きいか、すなわち、│ωf,user(n)-min_ωf,user(n)│>│ωf,user(n)-max_ωf,user(n)│がテストされる。ステップ97のクエリにYesと応答された場合、ステップ98に進む。ステップ98において、第1の歌唱労力値pitch_high(n)が1に設定され、pitch_high(n)=1であり、ステップ100に進む。ステップ97のクエリにNoと応答されると、ステップ99に進む。ステップ99において、第2の歌唱労力値pitch_low(n)が1に設定され、pitch_low(n)=1であり、ステップ100に進む。ステップ96のクエリにNoと応答されると、ステップ100に進む。ステップ100において、歌唱労力判断部22は、歌唱労力値E(n)={pitch_low(n),pitch_high(n)}を出力する。
上記の実施形態では、歌唱労力値E(n)は、ジッタ値jitter_val(n)の「二値化された」値であり、すなわち、閾値を上回ったときにフラグがセットされ、閾値を下回ったときにフラグがセットされなかった。別の実施形態では、歌唱労力値E(n)は、定量値、例えば、ジッタ値jitter_val(n)に直接比例する値であり得る。
さらに別の実施形態では、図9に記載されるように、ジッタの代わりに、または第1および第2の歌唱労力値を判断するために、他の上述の異なる特性パラメータのいずれかを使用することができる。
さらに別の実施形態では、歌唱労力値E(n)は、定量的な値、例えば、上述の異なる特性パラメータの任意の線形または非線形の組み合わせに直接比例する値とすることができる。
別の実施形態では、カラオケシステムは、より深刻な声帯の問題を予防するために、歌唱を停止または一時停止することを提案することができる。高い歌唱労力を検出するために利用することもできる病理発声を認識する方法のさらなる詳細は、例えば、"A system for automatic recognition of pathological speech", by : Dibazar, Alireza & Narayanan, Shrikanth, published in Proceedings of the Asilomar Conference on Signals, Systems and Computers, November 2002.に記載されている。本論文では、スタンダードメル周波数ケプストラム係数(MFCC)およびピッチ特徴を、いくつかの音声生成関連病理の分類のために使用する。
歌唱労力判断部22が、歌唱労力値Eおよびピッチ比Pωを判断した場合、移調値transpose_valを判断することができる。
図10は、図8の移調値判断部23を模式的に示している。ステップ101において、ピッチ比Pωは、移調値判断部23に入力される。ステップ102において、歌唱労力値E={pitch_low(n),pitch_high(n)}が、移調値判断部23への入力として受け付けられる。ステップ103において、ピッチ比Pωは、移調値transpose_val(n)に等しく設定され、transpose_val(n)=Pωである。ステップ104では、第1の歌唱労力値pitch_high=1に設定されているかどうかがテストされる。ステップ104のクエリにYesと応答された場合、ステップ105に進む。ステップ105において、移調transpose_val値は0.05だけ減算され、すなわち、transpose_val(n)=transpose_val-0.05、ステップ108に進む。ステップ104のクエリにNoと応答されると、ステップ106に進む。ステップ106では、第2の歌唱労力値pitch_low=1に設定されているかどうかがテストされる。ステップ106のクエリにYesと応答された場合、ステップ107に進む。nステップ107において、移調値transpose_val(n)は0.05だけ加算され、すなわち、transpose_val(n)=transpose_val(n)+0.05、ステップ108に進む。ステップ108では、移調値判断部23により移調値transpose_valが出力される。
図11は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第3の実施形態を概略的に示す。図11の実施形態は、図1の実施形態とほぼ同様である。しかしながら、図11では、伴奏sAcc(n)は、音源分離12によって、例えば、ドラム、ピアノ、ストリングスなどの、例えば、第1の楽器sA1(n)、第2の楽器sA2(n)および第3の楽器sA3(n)などの様々な楽器(トラック)に分離することができる。3つの楽器sA1(n)、sA2(n)、sA3(n)のそれぞれは、図7で上述したのと同じ移調によって、移調部17によって移調され、x*(n)として設定され得る。移調部17は、第1の楽器sA1(n)の入力に対して移調後の第1の楽器s* A1(n)、または第2の楽器sA2(n)の入力に対して移調後の第2の楽器s* A2(n)、および第3の楽器sA3(n)の入力に対して移調後の第3の楽器s* A3(n)を出力する。移調後の第1の楽器s* A1(n)、移調後の第2の楽器A2 *(n)、移調後の第3の楽器s* A3(n)は加算器1101および1102によって統合され、完全な伴奏s* Acc(n)が受信される。
さらに別の実施形態では、伴奏sAcc(n)は、メロディック/ハーモニックトラックおよびパーカッショントラックに分離することができ、上記と同じシングルトラック(シングル楽器)移調を適用することができる。伴奏sAcc(n)が2つ以上のトラック(楽器)に分離される場合、移調部17の移調処理は、分離されたトラックのそれぞれに個別に適用され、個々の移調後のトラックは、その後、ステレオ録音に統合されて、完全な移調後伴奏s* Acc(n)が受信される。
図12は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムのプロセスの第4の実施形態を概略的に示す。図12の実施形態は、図1の実施形態とほぼ同様である。しかし、図12では、移調値transpose_val(n)によって移調されるオーディオ出力信号x*(n)は、オーディオ入力信号x(n)に等しく、これは、オリジナルボーカルsoriginal(n)(および伴奏sacc(n))も、上述のように値transpose_val(n)によって移調されることを意味する。比較部の出力、すなわち移調後の信号s*(n)は、加算器18に入力され、図1で説明したように進む。
図13は、音源分離およびピッチレンジ推定に基づいてオーディオ信号を移調するカラオケシステムの処理の第5の実施形態を概略的に示す。図13の実施形態は、図1の実施形態と最も似ている。ただし、図13では、移調値transpose_val(n)によって移調されるオーディオ出力信号x*(n)は、伴奏sacc(n)とミックスされたオリジナルボーカルsoriginal(n)から構成されている。例えば、出力信号x*(n)は、オリジナルボーカルsoriginal(n)にゲインG(増幅または減衰されることを意味する)と伴奏sacc(n)を乗算したものである。比較部の出力、すなわち移調後の信号s*(n)は、加算器18に入力され、図1に記載されるように進む。
図14は、上述のピッチレンジ判断および移調のプロセスを実施することができる電子機器の実施形態を概略的に説明する。電子機器1200は、プロセッサとしてのCPU1201を備える。電子機器1200は、マイクロフォンアレイ1210、スピーカアレイ1211、およびプロセッサ1201に接続される畳み込みニューラルネットワーク部1220をさらに備える。プロセッサ1201は、例えば、図1、図8、図3、図4、図5、図6、図7、図9および図10に関して説明したプロセスをより詳細に実現するピッチ解析部、ピッチレンジ判断部、ピッチ比較部、歌唱労力判断部、移調判断部または比較部を実装することができる。CNN1220は例えば、ハードウェア内の人工ニューラルネットワーク、例えば、GPU上のニューラルネットワーク、または人工ニューラルネットワークを実装する目的に特化された任意の他のハードウェアであってもよい。CNN1220は、例えば、ソース分離104を実装し得る。図1、図8に関して説明したスピーカシステム111などのスピーカアレイ1211は、所定の空間にわたって分散され、3Dオーディオなどの任意の種類のオーディオをレンダリングするように構成された1つまたは複数のスピーカからなる。電子機器1200は、プロセッサ1201に接続されたユーザインタフェース1212をさらに備える。このユーザインタフェース1212は、マンマシンインタフェースとして機能し、管理者と電子システムとの間の対話を可能にする。例えば、管理者は、このユーザインタフェース1212を使用してシステムを構成することができる。電子機器1200は、イーサネット(登録商標)インタフェース1221、ブルートゥース(登録商標)インタフェース1204、およびWLANインタフェース1205をさらに備える。これらのユニット1204、1205は、外部機器とのデータ通信のための入出力インタフェースとして機能する。例えば、イーサネット(登録商標)、WLAN、またはブルートゥース接続を有する追加のスピーカ、マイクロフォン、およびビデオカメラが、プロセッサ1201にインタフェース1221、1204、および1205を介して接続され得る。電子機器1200は、データストレージ1202と、データメモリ1203(ここではRAM)とをさらに備える。データメモリ1203は、プロセッサ1201による処理のために、データまたはコンピュータ命令を一時的に保存またはキャッシュするように配置される。データストレージ1202は、例えば、マイクロフォンアレイ1210から取得され、CNN1220に提供されるかまたはそこから取り出されるセンサデータを記録するための長期ストレージとして構成される。また、データストレージ1202は、音声メッセージを表す音声データを記憶することができ、この音声データは、公共アナウンスシステムが、所定の空間内を移動する人に転送することができる。
なお、上記の説明は単なる構成例である。代替の構成は、追加のまたは他のセンサ、ストレージ、インタフェースなどを用いて実装されてもよい。
上述した実施形態は、方法ステップの例示的な順序付けを伴う方法を説明していることを理解されたい。しかしながら、方法ステップの特定の順序付けは、例示の目的のみのために与えられ、拘束力のあるものとして解釈されるべきではない。
また、図1の電子機器をユニットに分割することは、例示の目的のためだけに行われ、本開示は、特定のユニットにおける機能のいかなる特定の分割にも限定されないことにも留意されたい。例えば、回路の少なくとも一部は、それぞれプログラムされたプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、専用回路等によって実現することができる。
本明細書に記載され、添付の特許請求の範囲に記載されたすべてのユニットおよびエンティティは別段の記載がない限り、例えばチップ上の集積回路ロジックとして実装することができ、そのようなユニットおよびエンティティによって提供される機能は、別段の記載がない限り、ソフトウェアによって実装することができる。
上述の開示の実施形態が少なくとも部分的に、ソフトウェア制御されたデータ処理装置を使用して実施される限り、そのようなソフトウェア制御を提供するコンピュータプログラム、およびそのようなコンピュータプログラムが提供される伝送、記憶、または他の媒体が、本開示の態様として想定されることが理解される。
本開示は、以下の各構成を有してもよい。
(1)
オーディオソース分離によって、第1のオーディオ入力信号(x(n))を第1のボーカル信号(soriginal(n))と伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))とに分離し、ピッチ比(Pω(n))に基づく移調値(transpose_val(n))によってオーディオ出力信号(x*(n))を移調するように構成された回路を備え、
前記ピッチ比(Pω(n))は、前記第1のボーカル信号(soriginal(n))の第1のピッチレンジ(Rω,original(n))と第2のボーカル信号(suser(n))の第2のピッチレンジ(Rω,user(n))との比較に基づく
電子機器。
(2)
前記回路は、
前記第1のボーカル信号(soriginal(n))の第1のピッチ解析結果(ωf,original(n))に基づいて前記第1のボーカル信号(soriginal(n))の前記第1のピッチレンジ(Rω,original(n))を判断し、
前記第2のボーカル信号(suser(n))の第2のピッチ解析結果(ωf,user(n))に基づいて前記第2のボーカル信号(suser(n))の前記第2のピッチレンジ(Rω,user(n))を判断するようにさらに構成される
(1)に記載の電子機器。
(3)
前記回路は、
前記第1のボーカル信号(soriginal(n))に基づいて前記第1のピッチ解析結果(ωf,original(n))を判断し、
前記第2のボーカル信号(suser(n))に基づいて前記第2のピッチ解析結果(ωf,user(n))を判断するようにさらに構成される
(1)または(2)に記載の電子機器。
(4)
前記伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))は、前記第1のボーカル信号(soriginal(n))を除く前記第1のオーディオ入力信号(x(n))の全ての部分を含む
(1)乃至(3)の何れかに記載の電子機器。
(5)
前記オーディオ出力信号(x*(n))は、前記伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))である
(1)乃至(4)の何れかに記載の電子機器。
(6)
前記オーディオ出力信号(x*(n))は、前記第1のオーディオ入力信号(x(n))である
(1)乃至(5)の何れかに記載の電子機器。
(7)
前記オーディオ出力信号(x*(n))は、前記伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))と前記第1のボーカル信号(soriginal(n))とのミックスである
(1)乃至(6)の何れかに記載の電子機器。
(8)
前記回路は、前記伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))を複数の楽器(sA1(n)、sA2(n)、sA3(n))に分離するようにさらに構成される
(1)乃至(8)の何れかに記載の電子機器。
(9)
前記回路は、オーディオソース分離によって第2のオーディオ入力信号(y(n))を分離するようにさらに構成される
(1)乃至(8)の何れかに記載の電子機器。
(10)
前記第2のオーディオ入力信号(y(n))は、前記第2のボーカル信号(suser(n))と残余信号とに分離される
(9)に記載の電子機器。
(11)
前記回路は、前記第2のボーカル信号(suser(n))に基づいて歌唱労力(E(n))を判断するようにさらに構成され、
前記移調値(transpose_val(n))は、前記歌唱労力(E(n))および前記ピッチ比(Pω(n))に基づく
(1)乃至(10)の何れかに記載の電子機器。
(12)
前記歌唱労力(E(n))は、前記第2のボーカル信号(suser(n))の前記第2のピッチ解析結果(ωf,user(n))と、前記第2のボーカル信号(suser(n))の前記第2のピッチレンジ(Rω,user(n))とに基づく
(11)に記載の電子機器。
(13)
前記回路は、ジッタ値(jitter_val)および/またはRAP値および/またはシマー値および/またはAPQ値および/またはノイズ対高調波比および/またはソフト発声指数に基づいて、前記歌唱労力(E(n))を判断するようにさらに構成される
(11)または(12)に記載の電子機器。
(14)
前記回路は、移調値(transpose_val(n))が半音の整数倍に対応するように、ピッチ比(Pω(n))に基づいて前記オーディオ出力信号(x*(n))を移調するように構成される
(1)乃至(13)の何れかに記載の電子機器。
(15)
前記回路は、前記第2のボーカル信号(suser(n))をキャプチャするように構成されたマイクロフォンを備える
(1)乃至(14)の何れかに記載の電子機器。
(16)
前記回路は、リアルオーディオ録音から前記第1のオーディオ入力信号(x(n))をキャプチャするように構成される
(1)乃至(15)の何れかに記載の電子機器。
(17)
第1のオーディオ入力信号(x(n))を第1のボーカル信号(soriginal(n))と伴奏(sAcc(n);sA1(n)、sA2(n)、sA3(n))とに分離し、
ピッチ比(Pω(n))に基づく移調値(transpose_val(n))によってオーディオ出力信号(x*(n))を移調し、
前記ピッチ比(Pω(n))は、前記第1のボーカル信号(soriginal(n))の第1のピッチレンジ(Rω,original(n))と前記第2のボーカル信号(suser(n))の第2のピッチレンジ(Rω,user(n))との比較に基づく
方法。
(18)
命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに(17)に記載の方法を実行させる
コンピュータプログラム。

Claims (18)

  1. オーディオソース分離によって、第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、ピッチ比に基づく移調値によってオーディオ出力信号を移調するように構成された回路を備え、
    前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと第2のボーカル信号の第2のピッチレンジとの比較に基づく
    電子機器。
  2. 前記回路は、
    前記第1のボーカル信号の第1のピッチ解析結果に基づいて前記第1のボーカル信号の前記第1のピッチレンジを判断し、
    前記第2のボーカル信号の第2のピッチ解析結果に基づいて前記第2のボーカル信号の前記第2のピッチレンジを判断するようにさらに構成される
    請求項1に記載の電子機器。
  3. 前記回路は、
    前記第1のボーカル信号に基づいて前記第1のピッチ解析結果を判断し、
    前記第2のボーカル信号に基づいて前記第2のピッチ解析結果を判断するようにさらに構成される
    請求項1に記載の電子機器。
  4. 前記伴奏は、前記第1のボーカル信号を除く前記第1のオーディオ入力信号の全ての部分を含む
    請求項1に記載の電子機器。
  5. 前記オーディオ出力信号は、前記伴奏である
    請求項1に記載の電子機器。
  6. 前記オーディオ出力信号は、前記第1のオーディオ入力信号である
    請求項1に記載の電子機器。
  7. 前記オーディオ出力信号は、前記伴奏と前記第1のボーカル信号とのミックスである
    請求項1に記載の電子機器。
  8. 前記回路は、前記伴奏を複数の楽器に分離するようにさらに構成される
    請求項1に記載の電子機器。
  9. 前記回路は、オーディオソース分離によって第2のオーディオ入力信号を分離するようにさらに構成される
    請求項1に記載の電子機器。
  10. 前記第2のオーディオ入力信号は、前記第2のボーカル信号と残余信号とに分離される
    請求項9に記載の電子機器。
  11. 前記回路は、前記第2のボーカル信号に基づいて歌唱労力を判断するようにさらに構成され、
    前記移調値は、前記歌唱労力および前記ピッチ比に基づく
    請求項1に記載の電子機器。
  12. 前記歌唱労力は、前記第2のボーカル信号の前記第2のピッチ解析結果と、前記第2のボーカル信号の前記第2のピッチレンジとに基づく
    請求項11に記載の電子機器。
  13. 前記回路は、ジッタ値および/またはRAP値および/またはシマー値および/またはAPQ値および/またはノイズ対高調波比および/またはソフト発声指数に基づいて、前記歌唱労力を判断するようにさらに構成される
    請求項11に記載の電子機器。
  14. 前記回路は、移調値が半音の整数倍に対応するように、ピッチ比に基づいて前記オーディオ出力信号を移調するように構成される
    請求項1に記載の電子機器。
  15. 前記回路は、前記第2のボーカル信号をキャプチャするように構成されたマイクロフォンを備える
    請求項1に記載の電子機器。
  16. 前記回路は、リアルオーディオ録音から前記第1のオーディオ入力信号をキャプチャするように構成される
    請求項1に記載の電子機器。
  17. 第1のオーディオ入力信号を第1のボーカル信号と伴奏とに分離し、
    ピッチ比に基づく移調値によってオーディオ出力信号を移調し、
    前記ピッチ比は、前記第1のボーカル信号の第1のピッチレンジと前記第2のボーカル信号の第2のピッチレンジとの比較に基づく
    方法。
  18. 命令を含むコンピュータプログラムであって、前記命令は、プロセッサ上で実行されると、前記プロセッサに請求項17に記載の方法を実行させる
    コンピュータプログラム。
JP2022575932A 2020-06-16 2021-06-14 オーディオ移調 Pending JP2023530262A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20180336.8 2020-06-16
EP20180336 2020-06-16
PCT/EP2021/065967 WO2021254961A1 (en) 2020-06-16 2021-06-14 Audio transposition

Publications (1)

Publication Number Publication Date
JP2023530262A true JP2023530262A (ja) 2023-07-14

Family

ID=71105275

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022575932A Pending JP2023530262A (ja) 2020-06-16 2021-06-14 オーディオ移調

Country Status (4)

Country Link
US (1) US20230215454A1 (ja)
JP (1) JP2023530262A (ja)
CN (1) CN115885342A (ja)
WO (1) WO2021254961A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5296643A (en) * 1992-09-24 1994-03-22 Kuo Jen Wei Automatic musical key adjustment system for karaoke equipment
US7974838B1 (en) * 2007-03-01 2011-07-05 iZotope, Inc. System and method for pitch adjusting vocals
CN109300485B (zh) * 2018-11-19 2022-06-10 北京达佳互联信息技术有限公司 音频信号的评分方法、装置、电子设备及计算机存储介质
KR20200065248A (ko) * 2018-11-30 2020-06-09 한국과학기술원 음원의 가수 목소리를 사용자의 음색으로 변환하는 시스템 및 방법

Also Published As

Publication number Publication date
US20230215454A1 (en) 2023-07-06
WO2021254961A1 (en) 2021-12-23
CN115885342A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
AU2011219780B2 (en) Apparatus and method for modifying an audio signal using envelope shaping
Goto A real-time music-scene-description system: Predominant-F0 estimation for detecting melody and bass lines in real-world audio signals
Amatriain et al. Spectral processing
JP2001125562A (ja) 音高推定方法及び装置
US20230186782A1 (en) Electronic device, method and computer program
Jensen The timbre model
Woodruff et al. Resolving overlapping harmonics for monaural musical sound separation using pitch and common amplitude modulation
US20230215454A1 (en) Audio transposition
Stöter et al. Unison Source Separation.
Pardo et al. Applying source separation to music
Jensen Perceptual and physical aspects of musical sounds
Donnelly et al. Transposition of Simple Waveforms from Raw Audio with Deep Learning
Disch et al. Frequency selective pitch transposition of audio signals
Südholt et al. Vocal timbre effects with differentiable digital signal processing
CN115910009A (zh) 电子设备、方法和计算机程序
Siao et al. Pitch Detection/Tracking Strategy for Musical Recordings of Solo Bowed-String and Wind Instruments.
Sankaye et al. Musical Instrument Detection of Sushir Vadya using MFCC
ACZÉL et al. Note-based sound source separation of polyphonic recordings
Bay et al. Methods for separating harmonic instruments from a monaural mix
Nazarudin et al. A Linear Hybrid Sound Generation of Musical Instruments using Temporal and Spectral Shape Features
Budhiono et al. Pitch Transcription of Solo Instrument Tones Using the Autocorrelation Method
Brown Computer identification of musical instruments using pattern
MÉSZÁROS SPEECH ANALYSIS FOR PROCESSING OF MUSICAL SIGNALS

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240507