JP2024512493A - 電子機器、方法及びコンピュータプログラム - Google Patents

電子機器、方法及びコンピュータプログラム Download PDF

Info

Publication number
JP2024512493A
JP2024512493A JP2023557335A JP2023557335A JP2024512493A JP 2024512493 A JP2024512493 A JP 2024512493A JP 2023557335 A JP2023557335 A JP 2023557335A JP 2023557335 A JP2023557335 A JP 2023557335A JP 2024512493 A JP2024512493 A JP 2024512493A
Authority
JP
Japan
Prior art keywords
electronic device
signal
live
acc
accompaniment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023557335A
Other languages
English (en)
Inventor
ステファン ウーリッヒ
ジオージオ ファブロ
ミハエル エネクル
祐基 光藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JP2024512493A publication Critical patent/JP2024512493A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/08Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones
    • G10H1/10Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by combining tones for obtaining chorus, celeste or ensemble effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/005Musical accompaniment, i.e. complete instrumental rhythm synthesis added to a performed melody, e.g. as output by drum machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/251Chorus, i.e. automatic generation of two or more extra voices added to the melody, e.g. by a chorus effect processor or multiple voice harmonizer, to produce a chorus or unison effect, wherein individual sounds from multiple sources with roughly the same timbre converge and are perceived as one
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/245Ensemble, i.e. adding one or more voices, also instrumental voices
    • G10H2210/261Duet, i.e. automatic generation of a second voice, descant or counter melody, e.g. of a second harmonically interdependent voice by a single voice harmonizer or automatic composition algorithm, e.g. for fugue, canon or round composition, which may be substantially independent in contour and rhythm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/305Source positioning in a soundscape, e.g. instrument positioning on a virtual soundstage, stereo panning or related delay or reverberation changes; Changing the stereo width of a musical source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/471General musical sound synthesis principles, i.e. sound category-independent synthesis methods
    • G10H2250/481Formant synthesis, i.e. simulating the human speech production mechanism by exciting formant resonators, e.g. mimicking vocal tract filtering as in LPC synthesis vocoders, wherein musical instruments may be used as excitation signal to the time-varying filter estimated from a singer's speech
    • G10H2250/501Formant frequency shifting, sliding formants

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】カラオケの設定におけるユーザの体験を向上させること。【解決手段】電子機器は、エンハンスされた伴奏信号(sacc*(n))が得られるように、ライブモード処理(17)に応じて伴奏信号(sacc(n))を処理するように構成される回路を具備する。【選択図】図4

Description

本開示は、概して、音声処理に関し、特に、ユーザに歌唱させるカラオケ用の機器、方法、及びコンピュータプログラムに関する。
カラオケ装置では、曲の歌唱部分を除く伴奏が再生され、歌唱者が、再生された伴奏に合わせて歌唱する。歌唱者に歌詞を知らせるために、モニタ等の表示装置に歌詞が表示される。カラオケ装置は典型的には、伴奏を再生するための音楽再生装置と、歌唱者の声を取り込む各マイクを接続するための1又は複数のマイク入力部と、伴奏のピッチ範囲を歌唱者のボーカル範囲に適合させるために再生曲のピッチを変更する手段と、伴奏と取り込まれた声とを出力する音声出力部とから成る。
米国特許出願第2016/0037282号明細書
カラオケ装置用の様々な技術が一般に存在しているが、カラオケの設定におけるユーザの体験を向上させることが望ましい。
第1の態様によれば、本開示は、エンハンスされた伴奏信号が得られるように、ライブモード処理に応じて伴奏信号を処理するように構成される回路を具備する電子機器を提供する。
第2の態様によれば、本開示は、エンハンスされた伴奏信号が得られるように、ライブモード処理に応じて伴奏信号を処理する方法を提供する。
さらなる態様は、従属請求項、以下の説明、及び各図面に記載される。
各実施形態を添付の図面に関して例示によって説明する。
「ライブモード」処理の目標を概略的に示す。 ライブモード処理を用いるカラオケシステムの一例を概略的に示す。 ブラインド音源分離(BSS(Blind Source Separation))による音声アップミクス/リミックスの一般的な手法を概略的に示す。 ライブモード処理(図2の参照符号17)の一実施形態を概略的に示す。 ライブモード処理(図2の参照符号17)の一代替的な実施形態を概略的に示す。 観客合唱エミュレーション(図4及び図5の参照符号41)の処理の第1の実施形態を概略的に示す。 観客合唱エミュレーション(図4及び図5の参照符号41)の処理の第2の実施形態を概略的に示す。 ライブエフェクト処理(図4及び図5の参照符号42)の一実施形態を概略的に示す。 マイクブリードエミュレーション82の一実施形態を概略的に示す。 ジッターエミュレーション83の一実施形態を概略的に示す。 イコライザ83の第1の実施形態を概略的に示す。 イコライザ83の第2の実施形態を概略的に示す。 サンプルデータベース46の第1の実施形態を示す。 サンプルデータベース46の第2の実施形態を示す。 主音・周囲音抽出(PAE:Primary Ambient Extraction)(図4の参照符号43)の一実施形態を概略的に示す。 調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)(図4の参照符号48)の一実施形態を概略的に示す。 ルームシミュレータ44がサラウンドリバーブによって実施される一実施形態を概略的に示す。 バイノーラルレンダリング技術を用いるレンダリング部45の一実施形態を示す。 2chから5chへのアップミクスに基づくレンダリング部の一実施形態を示す。 拡張ライブエフェクト処理(図4及び図5の参照符号42)の一実施形態を概略的に示す。 図18の立体音響レンダリング部89によって実行される処理の一例を概略的に示す。 デジタル化されたMonopole Synthesisアルゴリズムに基づく立体音響レンダリング技術の一実施形態を提供する。 ライブモード処理を用いるカラオケシステムを実施することができる電子機器の一実施形態を概略的に説明する。
図1を参照して各実施形態を詳しく説明する前にいくつか一般的な説明を行う。
各実施形態は、エンハンスされた伴奏信号が得られるように、ライブモード処理に応じて伴奏信号を処理するように構成される回路を具備する電子機器を開示する。
上記ライブモード処理は、上記エンハンスされた伴奏信号の聴取者に対して、当該聴取者があたかもコンサートに参加しているかのような感覚を与えるように構成されてもよい。
上記電子機器は、例えば、カラオケボックス、スマートフォン、PC、TV、シンセサイザ、又はミキシングコンソール等の任意の音楽又は動画再生装置であってもよい。
上記電子機器の回路は、プロセッサを含んでもよく、例えば、CPU、メモリ(RAM、ROM等)、及び/又は、記憶部、インタフェース等であってもよい。上記回路は、電子機器(コンピュータ、スマートフォン等)に関して一般的に知られているような入力手段(マウス、キーボード、カメラ等)、出力手段(ディスプレイ(例えば、液晶、(有機)発光ダイオード等))、スピーカ等、(無線)インタフェース等を含んでもよく、又はこれらと接続されてもよい。また、上記回路は、静止画又は動画データ(画像センサ、カメラセンサ、映像センサ等)を感知するセンサを具備してもよく、又はこれらと接続されてもよい。
上記伴奏は、ボーカル信号を音声入力信号から分離することによって得られる残留信号であってもよい。例えば、音声入力信号は、ボーカル、ギター、キーボード及びドラムを含む楽曲であってもよく、伴奏信号は、ボーカルを音声入力信号から分離した後の残留信号としてギター、キーボード及びドラムを含む信号であってもよい。
上記ライブモード処理は、リバーブ信号が得られるように、伴奏信号をルームシミュレータによって処理するように構成されてもよい。上記ルームシミュレータを用いて、カラオケ出力にも付加されるリアルな残響信号が生成されてもよい。
上記ライブモード処理は、レンダリングされたリバーブ信号が得られるように、上記リバーブ信号をレンダリング部(45)によって処理するように構成されてもよい。上記レンダリング部は、立体音響レンダリング部、バイノーラルレンダリング部、又はアップミキサであってもよい。好適なレンダリング部を用いて、カラオケ出力にも付加されるリアルな残響信号が生成されてもよい。
上記ライブモード処理は、上記伴奏信号(sacc(n))の周囲音成分(ambient part)又は調波音成分(harmonic part)が得られるように、主音・周囲音抽出(PAE:Primary Ambient Extraction)又は調波音・打楽器音分離によって上記伴奏信号を処理するように構成されてもよい。
上記ライブモード処理は、周囲音リバーブ又は調波音リバーブが得られるように、ルームシミュレータによって上記周囲音成分又は上記調波音成分を処理するように構成されてもよい。
上記ライブモード処理は、歌唱者の位置を表すライブモードパラメータ及び/又はステージを表すライブモードパラメータによって制御されてもよい。
上記ライブモード処理は、観客ボーカル信号が得られるように、観客合唱エミュレーションによって上記ボーカル信号を処理するように構成されてもよい。上記観客合唱エミュレーションは、(大勢の)観客が歌唱者と一緒に歌っているように聞こえるような信号を生成してもよい。上記観客合唱エミュレーションは、例えば、複数のピッチ及び/又はフォルマントシフト部を含んでもよい。
上記ライブモード処理は、ライブ伴奏信号が得られるように、ライブエフェクトに基づいて上記伴奏信号を処理するように構成されてもよい。
上記ライブエフェクト処理は、音源分離を含んでもよい。
任意の音源分離技術を適用してもよい。例えば、ブラインド信号分離としても知られるブラインド音源分離(BSS:Blind Source Separation)を音源分離に用いてもよい。BSSは、混合された信号の集合から音源信号の集合を分離することを含んでもよい。BSSの一適用例として、元のコンテンツのアップミクス又はリミックスが可能となるように楽曲が個別のインストゥルメントトラックに分離される。
BSSの代わりに、例えば、OOPS(Out of Phase Stereo)技術等、他の音源分離技術を用いることもできる。
十分に混合された録音物に対して音源分離技術を用いる代わりに、上記各実施形態は、例えば、「ボーカル/伴奏」として又は「伴奏」のみとして(例えば、特別なカラオケ製品の場合)分離した状態の素材を用いてもよい。
上記ライブエフェクト処理は、マイクブリードエミュレーションをさらに含んでもよい。マイクブリードエミュレーションは、各マイクが他の楽器の信号を取り込むことでライブパフォーマンス中に生じるマイク「ブリード」の影響をエミュレートするように、個別のインストゥルメントトラックに適用されてもよい。
上記ライブエフェクト処理は、ジッターエミュレーションをさらに含んでもよい。このジッターエミュレーションは、ライブパフォーマンスにおいてしばしば楽器のタイミングが完璧には揃わないことを模倣してもよい。
上記ライブエフェクト処理は、音声イコライジングをさらに含んでもよい。当該イコライジングは、「マスタリングEQ」を用いるイコライザを「LiveEQ」処理に変更してもよい。
上記ライブモード処理は、サンプルデータベースからサンプルを取得することを含んでもよい。サンプル挿入部は、予め記録されたサンプルデータベースから歓声、拍手、及び観客の雑音のサンプルを取得し、当該サンプルをサンプル音声ストリームにランダムに挿入してもよい。
上記レンダリング部は、屋内のユーザの現在地に関する情報、及び/又は、ユーザが視線を向けている又は傾いている方向に関する情報を用いてもよい。
上記電子機器は、上記エンハンスされた伴奏信号をユーザボーカル信号と混合するように構成されるミキサをさらに具備してもよい。
各実施形態はまた、上述のようなエンハンスされた伴奏信号が得られるように、ライブモード処理に応じて伴奏信号を処理する方法に関する。
各実施形態はまた、プロセッサによって実施されると当該プロセッサに上記各実施形態に記載の方法を実行させる指示を含むコンピュータプログラムに関する。
音源分離では、多数の音源(例えば、楽器、声等)を含む入力信号が、各分離成分に分解される。音源分離は、教師なし(「ブラインド音源分離(BSS)」と呼ばれる)であってもよく、又は部分的に教師ありであってもよい。「ブラインド」は、上記ブラインド音源分離には、元の音源情報が必ずしも存在しないことを意味する。例えば、元の信号がどれくらいの数の音源を含んでいたか、又は、入力信号のいずれの音情報がいずれの元の音源に属するのかといったことが、必ずしも把握されない。ブラインド音源分離の目的は、以前の各分離成分が未知のまま、元の信号を各分離成分に分解することである。ブラインド音源分離部が、当業者に既知のブラインド音源分離技術のうちの任意のものを用いてもよい。(ブラインド)音源分離では、確率理論又は情報理論的に最小限に相関する又は最大限に独立した各音源信号を見つけることができる。或いは、非負値行列因子分解(Non-Negative Matrix Factorization)に基づいて、各音源信号の構造上の制約を見つけることができる。(ブラインド)音源分離を行う方法は、当業者に既知であり、例えば、主成分分析(PCA:Principal Component Analysis)、特異値分解(PCA:Principal Component Analysis)、(非)独立成分分析、非負値行列因子分解(NMF:Nonnegative Matrix Factorization)、人工ニューラルネットワーク(ANN:Artificial Neural Network)等に基づく。
いくつかの実施形態では、ブラインド音源分離によって分離音源信号が生成されるが、本開示は、音源信号の分離にさらなる情報が用いられない実施形態に限定されず、いくつかの実施形態では、さらなる情報を用いて分離音源信号が生成される。このさらなる情報は、例えば、ミックス処理に関する情報、入力音声コンテンツに含まれる音源の種類に関する情報、入力音声コンテンツに含まれる音源の空間位置に関する情報等であり得る。
いくつかの実施形態によれば、上記回路は、転調の値が半音の整数倍となるようにピッチ比に基づいて音声出力信号を転調するようにさらに構成される。
次に、図面を参照しながら実施形態を説明する。
「ライブモード」の目標を図1に示す。図1の左側には、伴奏に合わせて歌唱するカラオケ装置のユーザが示されている。同図に示す例では、歌唱者は、家で当該装置を用いている。このユーザの体験では、ユーザは誰ともカラオケ体験を共有していない。図1の右側には、各実施形態に係る向上したカラオケ装置がユーザに対して有し得る効果が概略的に示されている。図1の右側の例では、ユーザには、他の多くの人々が当該ユーザと体験を共有しながら当該ユーザがあたかもコンサートに参加しているかのような感覚が与えられる。
ライブモード処理を用いるカラオケシステム
図2は、ライブモード処理を用いるカラオケシステムの一例を概略的に示す。モノラル又はステレオ音声入力13から受け取られた音声入力信号x(n)は、複数の音源(図2の1,2,…,K参照)の混合を含む。この音声入力信号x(n)は、例えば、カラオケで歌われる楽曲であり、これは、オリジナルのボーカルと、複数の楽器による伴奏とを含む。この音声入力信号x(n)は、音源分離14の処理に入力され、各分離成分(図3の分離音源2及び残留信号3参照)、ここでは、オリジナルのボーカルsvocals(n)と、残留信号3、すなわち、伴奏sacc(n)とに分解される。音源分離14の各処理の例示的な一実施形態を後述の図3で説明する。
ユーザのマイク11は、音声入力信号y(n)を取得する。この音声入力信号y(n)は、例えば、カラオケ信号であり、ユーザボーカル及びバックグラウンドサウンドを含む。このバックグラウンドサウンドは、カラオケ歌唱者のマイクによって取り込まれた任意の雑音であってもよい。この任意の雑音は、例えば、通りの雑音、観客の雑音、ユーザがヘッドフォンを装着せずにスピーカを用いている場合はハウリングが生じる本カラオケシステムのサウンド等である。音声入力信号y(n)は、音源分離12の処理に入力され、各分離成分(図3の分離音源2及び残留信号3参照)、ここでは、分離音源2、すなわち、ユーザボーカルsuser(n)と、不要となる残留信号(図2には図示せず)とに分解される。音源分離12の各処理の例示的な一実施形態を後述の図3で説明する。
伴奏sacc(n)は、ライブモード処理17(後述の図4でより詳細に説明する)に供給される。ライブモード処理17は、オリジナルのボーカルsvocals(n)及び伴奏sacc(n)を入力として受け取る。ライブモード処理17は、オリジナルのボーカルsvocals(n)及び伴奏sacc(n)を処理し、カラオケ出力信号sacc*(n)を信号加算部18へ出力する。信号加算部18は、カラオケ出力信号sacc*(n)及びユーザボーカルsuser(n)を受け取り、これらを足し合わせて、当該加算信号をスピーカシステム19へ出力する。ライブモード処理はさらに、ライブモードパラメータを、表示部20へ出力し、当該表示部20によって、ライブモードパラメータがユーザに提示される。表示部20はさらに、歌詞21を受け取り、ユーザに提示する。
ユーザボーカルsuser(n)は、例えば、エフェクト(図2には図示せず)によって処理されてもよい。例えば、より「ウェット」な音にするために、要するに、伴奏に対してより良い音となるように、当該ボーカルにリバーブを加えることができる。
図2のシステムでは、音声入力信号y(n)に対してリアルタイムに音源分離が実行される。代替的に、音声入力信号x(n)は、音声入力信号x(n)が、例えば、ミュージックライブラリに保存される際に予め処理されてもよい。
図2のシステムでは、音声入力信号x(n)は、後述の図3でより詳細に説明するように、例えば、BSS処理によって処理されてもよい。代替的な実施形態では、OOPS技術等の他のボーカル分離アルゴリズムを用いて、伴奏からボーカルを分離してもよい。
この音声入力x(n)は、例えば、WAVファイル、MP3ファイル、AACファイル、WMAファイル、AIFFファイル等の録音物であってもよい。これは、音声入力x(n)が実際の音声であること、つまり、例えば、商用の歌唱/演奏パフォーマンスから得られた準備なしの生音声であることを意味する。当該カラオケ素材は、人の手による準備が一切必要なく、オンライン上で完全に自動で処理され、高品質及び高い再現性(realism)が得られるため、本実施形態では、事前準備された音声素材は必要とされない。
他の実施形態では、音声入力x(n)は、MIDIファイルである。この場合、本カラオケシステムは、例えば、伴奏sacc(n)をMIDI領域に変換し、MIDIシンセサイザを用いて伴奏sacc(n)をレンダリングしてもよい。
上記入力信号は、任意の種類の音声信号とすることができる。上記入力信号は、アナログ信号又はデジタル信号の形態とすることができ、例えばCDやDVDとすることができ、WAVEファイルやMP3ファイル等のデータファイルとすることができ、本開示は、特定のフォーマットの入力音声コンテンツに限定されない。入力音声コンテンツは、第1のチャネル入力音声信号及び第2のチャネル入力音声信号を有する、例えば、ステレオ音声信号としてもよい。但し、本開示は、2本の音声チャネルの入力音声コンテンツに限定されない。他の実施形態では、この入力音声コンテンツは、5.1ch音声信号等のリミックス等、任意の数のチャネルを含んでもよい。
この入力信号は、1又は複数の音源信号を含んでもよい。特に、この入力信号は、いくつかの音源を含んでもよい。音源は、音波、例えば、楽器、声、ボーカル、人工音声、例えば、シンセサイザ等で生成した音を生成する任意の実体とすることができる。
ブラインド音源分離
図3は、BSSによる音声アップミクス/リミックスの一般的な手法を概略的に示す。まず、音源音声信号1、ここでは、複数のチャネルI及び複数の音源である音源1、音源2……音源K(例えば、楽器、声等)の音声を含む音声入力信号x(n)を、チャネルi毎に、「分離成分」、ここでは、分離音源2、例えば、ボーカルsvocals(n)及び伴奏sacc(n)等の残留信号3(ここで、Kは整数であり、音源数を示す)に分解する音源分離(「デミックス」とも呼ばれる)が実行される。ここで、残留信号は、音声入力信号からボーカルを分離した後の信号である。すなわち、残留信号は、入力音声信号用のボーカルを除去した後の「残りの」音声信号である。しかし、各実施形態は、この例に限定されない。例えば、一般的に、2つのDNN及び別の残留信号(=これらのDNNによって生じたエラー)を用いて2つの分離成分(「ボーカル」と「伴奏」)をそれぞれ得ることも可能である。
本実施形態では、音源音声信号1は、2本のチャネルi=1及びi=2を有するステレオ信号である。次いで、分離音源2及び残留信号3は、リミックス及びレンダリングされて新たなスピーカ信号4になる。ここで、スピーカ信号4は、5本のチャネル4a~4e、すなわち、5.0チャネルシステムを有する信号である。この音源分離処理は、例えば、公表論文のUhlich、Stefan他著『Improving music source separation based on deep neural networks through data augmentation and network blending.』2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017により詳細に記載されているように実現されてもよい。
例えば、音源の混合に起因して音源信号の分離が不完全である場合、分離音源信号2a~2dに加えて残留信号3(r(n))が生成される。この残留信号は、例えば、入力音声コンテンツと、分離された全ての音源信号の合計との差分を表し得る。各音源から出力される音声信号は、入力音声コンテンツ1においてそれぞれ記録された音波によって表される。ステレオ又はサラウンドサウンド入力音声コンテンツ等、2以上の音声チャネルを有する入力音声コンテンツの場合、典型的には、音源に関する空間情報も、入力音声コンテンツに含まれる、又は、例えば、互いに異なる音声チャネルに含まれる音源信号の割合によって当該入力音声コンテンツによって表される。分離音源信号2a~2d及び残留信号3への入力音声コンテンツ1の分離は、ブラインド音源分離、又は音源分離が可能な他の技術に基づいて実行される。
第2のステップにおいて、分離音源信号2a~2d及びあり得る残留信号3は、新たなスピーカ信号4に対してリミックス及びレンダリングされる。ここで、当該信号は、5本のチャネル4a~4e、すなわち、5.0チャネルシステムを有する。分離音源信号及び残留信号に基づいて、空間情報に基づいて分離音源信号及び残留信号を混合することで出力音声コンテンツが生成される。この出力音声コンテンツは、図3において参照符号4で示される例示的なものである。
この音声入力x(n)及び音声入力y(n)は、図3で説明した方法によって分離することができ、当該方法では、音声入力y(n)がユーザボーカルsuser(n)と不使用のバックグラウンドサウンドとに分離され、音声入力x(n)がオリジナルのボーカルsuser(n)と伴奏sacc(n)とに分離される。この伴奏sacc(n)はさらに、例えば、ドラム、ピアノ、弦楽器等、各トラックに分離することができる(図8及び図18の参照符号81参照)。このボーカル分離によって、伴奏及びボーカルの両方が処理されることで大幅な改善が可能となる。
音声入力y(n)から伴奏を除去する別法としては、例えば、クロストーク除去方法が挙げられる。この方法では、例えば、適応フィルタ処理によってマイクの信号から基準の伴奏が同相で減算される。
ライブモード処理
図4は、ライブモード処理(図2の参照符号17)の一実施形態を概略的に示す。このライブモード処理は、音源分離(図2の参照符号14)によって取得されるオリジナルのボーカルsvocals(n)及び伴奏sacc(n)を入力として受け取る。このライブモード処理は、オリジナルのボーカルsvocals(n)及び伴奏sacc(n)を処理し、カラオケ出力信号sacc*(n)を出力する。当該カラオケ出力信号sacc*(n)は、スピーカシステム(図2の参照符号19)によって出力されてもよい。
音源分離(図2の参照符号14)によって取得されたオリジナルのボーカルsvocals(n)は、観客ボーカルscrowd(n)が得られるように、観客合唱エミュレーション41によって処理される。観客合唱エミュレーション41は、(大勢の)観客が一緒に歌っているかのように聞こえる信号を生成する(図6及び対応の記載参照)。エンハンスされた伴奏信号を生成するために、音源分離(図2の参照符号14)によって取得された伴奏sacc(n)は、ライブ伴奏sacc_live(n)が得られるように、ライブエフェクト42によって処理される。この伴奏sacc(n)はさらに、伴奏sacc(n)の周囲音成分samb(n)が得られるように、主音・周囲音抽出(PAE:Primary Ambient Extraction)43によって処理される。この周囲音成分samb(n)はさらに、周囲音リバーブsamb_rev(n)が得られるように、ルームシミュレータ44によって処理される。この周囲音リバーブsamb_rev(n)はさらに、レンダリングされた周囲音リバーブsamb_rev,3D(n)が得られるように、レンダリング部45(例えば、図16で説明するバイノーラルレンダリング部又は図17で説明するアップミキサ)によって処理される。ルームシミュレータ44及び好適なレンダリング部45によって、カラオケ出力にも加算されるリアルな残響信号が生成される。
観客合唱エミュレーション41によって取得された観客ボーカルscrowd(n)は、GAIN/DELAY1で調整されるゲイン及びディレイである。オリジナルのボーカルsvocals(n)は、GAIN/DELAY2で調整されるゲイン及びディレイである。ライブエフェクト42を伴奏sacc(n)に適用することによって取得されたライブ伴奏sacc_live(n)は、GAIN/DELAY3で調整されるゲイン及びディレイである。上記周囲音リバーブsamb_rev(n)は、GAIN/DELAY4で調整されるゲイン及びディレイである。サンプルデータベース46から取得されたサンプルssamples(n)は、GAIN/DELAY5で調整されるゲイン及びディレイである。なお、カラオケシステムではボーカルは除去すべきであるため、ボーカルsvocals(n)の直接経路用のゲインGAIN/DELAY2は通常、相当小さい。しかし、ユーザが当該ボーカルに合わせて歌えるように、又は、ユーザが観客と一緒にオリジナルの歌唱者と合唱することにしたときのために、出力にボーカルsvocals(n)を少量保持することが可能である。
このゲイン/ディレイが調整された観客ボーカルscrowd(n)、ゲイン/ディレイが調整されたオリジナルのボーカルsvocals(n)、ゲイン/ディレイが調整されたライブ伴奏sacc_live(n)、ゲイン/ディレイが調整された周囲音リバーブsamb_rev(n)及びゲイン/ディレイが調整されたssamples(n)は、ユーザボーカルsuser(n)(図2参照)と共にスピーカシステム(図2の参照符号19)によって出力することができるカラオケ出力信号sacc*(n)が得られるように、ミキサ47によって混合される。
図5は、ライブモード処理(図2の参照符号17)の一代替的な実施形態を概略的に示す。図4の実施形態及び図5の実施形態間のライブモード処理の相違点は、図5の実施形態には、図4の実施形態の主音・周囲音抽出(PAE:Primary Ambient Extraction)の代わりに、調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)が設けられる点である。
この伴奏sacc(n)は、伴奏sacc(n)の調波音成分sharm(n)が得られるように、HPSS48によって処理される。この調波音成分sharm(n)はさらに、調波音リバーブsharm_rev(n)が得られるように、ルームシミュレータ44によって処理される。この調波音リバーブsharm_rev(n)はさらに、レンダリングされた調波音リバーブsharm_rev,3D(n)が得られるように、レンダリング部45(例えば、図16で説明するバイノーラルレンダリング部又は図17で説明するアップミキサ)によって処理される。
ゲイン/ディレイが調整された観客ボーカルscrowd(n)と、ゲイン/ディレイが調整されたオリジナルのボーカルsvocals(n)と、ゲイン/ディレイが調整されたライブ伴奏sacc_live(n)と、ゲイン/ディレイが調整された調波音リバーブsharm_rev(n)と、ゲイン/ディレイが調整されたssamples(n)とは、カラオケ出力信号sacc*(n)が得られるように、ミキサ47によって混合される。当該カラオケ出力信号sacc*(n)は、ユーザボーカルsuser(n)(図2参照)と共にスピーカシステム(図2の参照符号19)によって出力されてもよい。
図4及び図5に関して説明したライブモード処理は、ユーザインタフェースを介して本カラオケシステムのユーザによって予め設定されたライブモードパラメータによって制御されてもよい。
例えば、第1のライブモードパラメータSINGER LOCATIONによって、歌唱者の位置、例えば、SINGER LOCATION=「ステージ上」又は「オーディエンスの中」を選択可能としてもよい。「ステージ上」状態では、ライブモードによって、前方から歓声を受け、左右及び/又は後方から楽器の演奏を聴きながら歌うバンドの歌唱者になった感覚が与えられる。「オーディエンスの中」状態では、ライブモードによって、前方から楽器の演奏が、左右及び/又は後方から歓声が聞こえる観客と一緒に歌っている感覚が与えられる。
第2のライブモードパラメータVENUEは、ステージ位置を画定し、且つ、ステージ/コンサートホールのサイズ(信号の残響時間)と共に観客の知覚サイズ(人数)に影響してもよい。例えば、VENUE=「ウェンブリースタジアム」、「ロイヤルアルバートホール」、「クラブ」、又は「バー」である。状態「ウェンブリースタジアム」は、大規模なスタジアム(収容人数:90000人)の雰囲気をエミュレートしてもよい。状態「ロイヤルアルバートホール」は、広いコンサートホール(収容人数:9500人)の雰囲気をエミュレートしてもよい。状態「クラブ」は、中規模のクラブ(収容人数:200人)の雰囲気をエミュレートしてもよい。状態「バー」は、バー(収容人数:50人)の雰囲気をエミュレートしてもよい。
観客合唱エミュレーション
観客合唱エミュレーションは、抽出したボーカルトラックsvocals(n)から「観客合唱」音声信号scrowd(n)を生成する。これは、強い残響を用いると共に様々なピッチシフトとディレイとの組み合わせを重ねることで多数の異なる音声信号を生成する(「ボーカルダブリング」に類似)ことによって行うことができる。
図6は、観客合唱エミュレーション(図4及び図5の参照符号41)処理の第1の実施形態を概略的に示す。観客合唱エミュレーション41は、観客ボーカルscrowd(n)が得られるように、オリジナルのボーカルsvocals(n)を処理する。オリジナルのボーカルsvocals(n)は、N=Ncrowd個のピッチシフター61-1~61-Nに供給される。各ピッチシフター61-1~61-Nは、各所定の割合p(i=1-N)だけオリジナルのボーカルsvocals(n)のピッチをシフトする。このピッチシフトされたボーカルは、N個のフォルマントシフター62-1~62-Nに供給される。各フォルマントシフター61-1~61-Nは、所定の量f(i=1-N)ピッチシフトされたボーカルに対してフォルマントシフト処理を実行する。このピッチ及びフォルマントシフトされたボーカルは、N個のゲイン/ディレイステージ63-1~63-Nに供給される。各ゲイン/ディレイステージ63-1~63-Nは、所定のゲインg及びディレイδt(i=1-N)によってボーカルのゲイン及びディレイを調整する。この混合されたボーカルは、ミックスされたボーカルに残響を付加するようにリバーブ65によって処理される。このように処理されたボーカルは観客ボーカルscrowd(n)が得られるように、ミキサ64によってミックスされる。
平行ピッチ/フォルマントシフト部の数Ncrowdは、例えば、ステージ位置を画定し、且つ、ステージ/コンサートホールのサイズ(信号の残響時間)と共に観客の知覚サイズ(人数)に影響する所定のライブモードパラメータVENUEに応じて選択されてもよい。例えば、VENUE=「ウェンブリースタジアム」の場合、Ncrowdは、Ncrowd=200に設定してもよい。VENUE=「ロイヤルアルバートホール」の場合、Ncrowdは、Ncrowd=100に設定してもよい。VENUE=「クラブ」の場合、Ncrowdは、Ncrowd=50に設定してもよい。VENUE=「バー」の場合、Ncrowdは、Ncrowd=20に設定してもよい。
ピッチシフトの割合p(i=1-N)は、例えば、100セントの所定の標準偏差を有するp=1(ピッチシフトなし)を中心としたガウス分布に応じてランダムに選択してもよい。同様に、フォルマントシフトのパラメータf(i=1-N)は、例えば、選択されたフォルマントシフトアルゴリズムに応じた所定の標準偏差を有するp=1(フォルマントシフトなし)を中心としたガウス分布に応じてランダムに選択してもよい。
ピッチ/フォルマントシフト部毎のディレイδtは、例えば、間隔[0,0.5s]でランダムに選択してもよい。ここで、0は、ステージ上の歌唱者に非常に近い人々を表し、0.5sは、ステージ上の歌唱者から離れている人々、又は、かなり遅れて歌う人々を表す。ステージ上の歌唱者から距離rに位置する人数が、ほぼrで増加する(会場内の人々の分布が均一であると仮定)ことを模倣するために、乱数生成器は、このrの挙動に従って、小さなディレイよりも大きなディレイを優先させるように構成されてもよい。またさらに、δtが選択される間隔は、会場に依存し得る。例えば、VENUE=「ウェンブリースタジアム」の場合、δtは、間隔[0,0.5s]から選択してもよい。VENUE=「ロイヤルアルバートホール」の場合、δtは、間隔[0,0.3s]から選択してもよい。VENUE=「クラブ」の場合、δtは、間隔[0,0.2s]から選択してもよい。VENUE=「バー」の場合、δtは、間隔[0,0.1s]から選択してもよい。
ゲインg(i=1-N)は、例えば、0.5~1.5の間の数にランダムに設定してもよい。ここで、g>1は、ボーカルの音量の増加を表し、g<1は、ボーカルの音量の減少を表す。ゲインgはまた、例えば、より大きなディレイδtに対してゲインgを減少させることによって、より遠くにいる人々には、音量がより小さく且つより遅れて音が聴こえるという効果を模倣するようにディレイδtと相関関係を有するようにしてもよい。
観客合唱エミュレーションを制御するパラメータはまた、ライブモードパラメータ「SINGER LOCATION」に影響されてもよい。例えば、SINGER LOCATION=「ステージ上」の場合、ピッチ/フォルマントシフト部毎のディレイδtは、例えば、歌唱者がステージ上にいて、観客から或る一定の距離だけずれているという影響を加味して間隔[0.1、0.5s]でランダムに選択してもよい。SINGER LOCATION=「オーディエンスの中」の場合、ピッチ/フォルマントシフト部毎のディレイδtは、例えば、歌唱者が観客に囲まれていて、一部の観客が歌唱者の非常に近い位置にいる影響を加味して間隔[0,0.3s]でランダムに選択してもよい。
このリバーブ65による処理は、ステージ位置を画定し、ステージ/コンサートホールの知覚サイズ(信号の残響時間)に影響を及ぼすライブモードパラメータVENUEに依存してもよい。例えば、VENUE=「ウェンブリースタジアム」の場合、ウェンブリースタジアムの予め記録されたインパルス応答に基づいたコンボリューションリバーブを適用してもよい。VENUE=「ロイヤルアルバートホール」の場合、ロイヤルアルバートホールの予め記録されたインパルス応答に基づいたコンボリューションリバーブを適用してもよい。VENUE=「クラブ」の場合、クラブの予め記録されたインパルス応答に基づいたコンボリューションリバーブを適用してもよい。VENUE=「バー」の場合、バーの予め記録されたインパルス応答に基づいたコンボリューションリバーブを適用してもよい。コンボリューションリバーブの代わりに、適切なサイズのパラメータ設定でアルゴリズミックリバーブを用いてもよい。
図6の実施形態では、リバーブ65が混合された信号を処理する。図7に示す代替的な一実施形態では、サラウンドリバーブ66がピッチ/フォルマントシフト部に対して適用される。このサラウンドリバーブアルゴリズムによって、エミュレートされた会場の或る特定の位置に各個別の音源(各ピッチ/フォルマントシフト部)を配置することができる。サラウンドリバーブ66によって、エミュレートされた観客の個々人は、実際の会場内の人々のリアルな配置に応じて会場に配置されてもよい。これによって、残響エフェクトがよりリアルになる。
ライブエフェクト
図8は、ライブエフェクト処理(図4及び図5の参照符号42)の一実施形態を概略的に示す。このライブエフェクト42は、ライブ伴奏sacc_live(n)が得られるように、伴奏sacc(n)を処理する。
この伴奏sacc(n)は、伴奏sacc(n)内の個別の音源(楽器)用の別個のトラックsinst,1(n)~sinst,N(n)が得られるように、音源分離81によって処理される。マイク「ブリード」エミュレーション82は、各マイクが他の楽器の信号を取り込むことでライブパフォーマンス中に生じるマイク「ブリード」の影響をエミュレートするように、個別のインストゥルメントトラックに適用される。結果として得られるインストゥルメントトラックsinst_bleed,1(n)~sinst_bleed,N(n)は、ライブパフォーマンスにおいてしばしば楽器のタイミングが完璧には揃わないことを模倣するジッターエミュレーション83によってさらに処理される。結果として得られるインストゥルメントトラックsinst_jitter,1(n)~sinst_jitter,N(n)は、ミキサ84によってリミックスされる。このリミックスされた信号sinst_mix(n)は、「マスタリングEQ」を用いるイコライザを「LiveEQ」処理に修正するイコライザ(EQ)85によってさらに処理される。
図9は、マイクブリードエミュレーション82の一実施形態を概略的に示す。このマイクブリードエミュレーション82は、音源分離(図8の参照符号81)からインストゥルメント信号sinst,1(n)~sinst,N(n)を受け取る。インストゥルメント信号sinst,1(n)は、エミュレートされたマイクブリードを含むインストゥルメント信号sinst_bleed,1(n)が得られるように、-12dBのマイクブリードを付加して、ミキサ91-1によってインストゥルメント信号sinst,2(n)~sinst,N(n)とミックスされる。インストゥルメント信号sinst,2(n)は、エミュレートされたマイクブリードを含むインストゥルメント信号sinst_bleed,2(n)が得られるように、-12dBのマイクブリードを付加して、ミキサ91-2によってインストゥルメント信号sinst,1(n),sinst,3(n)~sinst,N(n)とミックスされる。インストゥルメント信号sinst,N(n)は、エミュレートされたマイクブリードを含むインストゥルメント信号sinst_bleed,N(n)が得られるように、-12dBのマイクブリードを付加して、ミキサ91-Nによってインストゥルメント信号sinst,1(n)~sinst,N-1(n)とミックスされる。
図10は、ジッターエミュレーション83の一実施形態を概略的に示す。マイクブリードエミュレーション(図8の参照符号82)によって取得されるインストゥルメント信号sinst_bleed,1(n)は、インストゥルメント信号sinst_jitter,1(n)が得られるように、遅延部101-1によって遅延される。マイクブリードエミュレーションによって取得されるインストゥルメント信号sinst_bleed,2(n)は、インストゥルメント信号sinst_jitter,2(n)が得られるように、遅延部101-2によって遅延される。マイクブリードエミュレーションによって取得されるインストゥルメント信号sinst_bleed,N(n)は、インストゥルメント信号sinst_jitter,N(n)が得られるように、遅延部101-Nによって遅延される。これらの遅延部101-1~101-Nは、ランダムな時間長だけ上記楽器のそれぞれをわずかに遅延させる又は早めるように構成される。この時間長は、例えば、間隔[-100ms,+100ms]からランダムに選択してもよい。なお、この時間長は、歌っている間変更する可能性がある。すなわち、この時間長は、一定ではなく、ライブパフォーマンスの感覚を向上させるように変化する時間であり得る。
図11(a)は、イコライザ85の第1の実施形態を概略的に示す。リミックス(図8の参照符号84)に取得されるインストゥルメントミックスsinst_mix(n)は、ライブ伴奏sacc_live(n)が得られるように、スタティックイコライザ111によって処理される。スタティックイコライザ111は、「マスタリングEQ」から「LiveEQ」へイコライザを変更するように、パラメトリック/グラフィックEQを用いてイコライザを変更する。
図11(b)は、イコライザ85の第2の実施形態を概略的に示す。リミックス(図8の参照符号84)によって取得されるインストゥルメントミックスsinst_mix(n)は、ライブ伴奏sacc_live(n)が得られるように、ダイナミックイコライザ112によって処理される。ダイナミックイコライザ112は、「マスタリングEQ」から「LiveEQ」へ変換するように学習されたDNN113によって制御される。
ライブ伴奏sacc_live(n)が得られるように、伴奏sacc(n)を処理する上述のライブエフェクトは、例示に過ぎない。この個別のライブエフェクト(ブリードエミュレーション82、ジッターエミュレーション83、LiveEQ85)は、別々に又は組み合わせて提供することができる。各実施形態は、図8の実施形態に示すライブエフェクトの選択に限定されない。
同様に、他のライブエフェクト(図8には図示せず)が、ライブ伴奏sacc_live(n)が得られるように、伴奏sacc(n)に適用されてもよい。例えば、スピードアップモジュールは、ライブパフォーマンスが多くの場合、カラオケシステムの基準として用いられる記録よりもわずかに早く再生されるようなエフェクトをエミュレートするために伴奏sacc(n)をスピードアップするように構成されてもよい。しかし、ライブエフェクト(図4及び図5の参照符号42)が、伴奏sacc(n)の速度を上げる場合、同一のスピードアップ処理が、図4及び図5のミキサ47に供給され、ボーカルを伴奏と同期させるように観客合唱エミュレーション41が基づくボーカルトラックsvocals(n)にも適用される。これは、スピードアップされた伴奏sacc(n)も受け取る図4及び図5の残響経路(43,44,45)も同様である。
サンプルデータベース
図12(a)は、サンプルデータベース46の第1の実施形態を示す。サンプル挿入部142は、予め記録されたサンプルデータベース143から歓声、拍手、及び観客の雑音のサンプルを取得し、ランダムにサンプルをサンプル音声ストリームssamples(n)に挿入する。このサンプル挿入部142は、歌の再生中及び歌の合間に、歓声や、拍手、観客の雑音、サンプルをランダムに付加するように構成されてもよい。このサンプル音声ストリームssamples(n)は、カラオケ出力信号(図4及び図5のミキサ47参照)に直接付加することができる。
このサンプル挿入部142は、ライブモードパラメータSINGER LOCATIONを評価するようにさらに構成されてもよい。例えば、SINGER LOCATION=「オーディエンスの中」の場合、サンプル挿入部142は、SINGER LOCATION=「ステージ上」の場合よりも程度の激しいサンプルを選択してもよい。付加的には、サンプル挿入部142は、SINGER LOCATIONパラメータ(例えば、「拍手」が前方から聞こえるか、「拍手」が周囲から聞こえる)に応じたそれぞれ異なる位置にサンプルをレンダリングしてもよい。このサンプル挿入部142は、ステージ位置を画定し、観客の知覚サイズ(人数)及びステージ/コンサートホール(信号の残響時間)のサイズに影響を及ぼし得るライブモードパラメータVENUEを評価するようにさらに構成されてもよい。例えば、VENUE=「ウェンブリースタジアム」の場合、サンプル挿入部142は、第1のサンプル群からサンプルを選択してもよい。VENUE=「ロイヤルアルバートホール」の場合、サンプル挿入部142は、第2のサンプル群からサンプルを選択してもよい。VENUE=「クラブ」の場合、サンプル挿入部142は、第3のサンプル群からサンプルを選択してもよい。VENUE=「バー」の場合、サンプル挿入部142は、第4のサンプル群からサンプルを選択してもよい。
図12(b)は、サンプルデータベース46の第2の実施形態を示す。イベント検出部141は、伴奏sacc(n)におけるイベントを検出する。係るイベントは、例えば、歌の始まり、歌の終わり、コーラスの始まり、歌のサビ等であってもよい。サンプル挿入部142は、検出イベントに基づいて、予め記録されたサンプルデータベース143から歓声、拍手、及び観客の雑音のサンプルを取得し、当該サンプルをサンプル音声ストリームssamples(n)に挿入する。このように、サンプル挿入部は、現状(例えば、歌う前の観客の叫び声、歌い終わった後の拍手喝采)に適したカラオケ出力信号となるようにバックグラウンドサンプルを選択することができる。
主音・周囲音抽出(PAE:Primary Ambient Extraction)
図13は、主音・周囲音抽出(PAE:Primary Ambient Extraction)(図4の参照符号43)の一実施形態を概略的に示す。主音・周囲音抽出(PAE:Primary Ambient Extraction)43は、それらの方向及び分散空間特性に基づいて、伴奏sacc(n)を主音(primary)成分及び周囲音成分、sacc_primary(n)及びsacc_ambient(n)に分解するように構成される。一般的なマルチチャネルPAE手法は、主成分分析法(PCA)である。PAE43は、例えば、CARLOS AVENDANO著『A Frequency-Domain Approach to Multichannel Upmix』 J. Audio Eng. Soc., Vol. 52, No. 7/8, 2004 July/August (参考[1]内)に記載されるように実現されてもよい。
調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)
図14は、調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)(図4の参照符号48)の一実施形態を概略的に示す。HPSS48は、伴奏sacc(n)を、全ての調波音から成る信号と、全ての打楽器音から成る他の信号とに分解するように構成される。HPSS48は、入力信号のスペクトログラムにおいて、調波音は、(時間方向に)平行の構造を形成する傾向がある一方、打楽器音は、(周波数方向に)垂直の構造を形成するという観察を利用する。HPSS48は、例えば、Fitzgerald, Derry著『Harmonic/percussive separation using median filtering.』Proceedings of the International Conference on Digital Audio Effects (DAFx). Vol. 13. 2010に記載されるように実現されてもよい。
ルームシミュレータ
このライブモードは、リアルな残響を付加することによってエンハンスされてもよい。好適なレンダリングアルゴリズムによってルームシミュレータ44を用いることで、ユーザに、部屋/コンサートホールにいるような感覚をもたらしてもよい。
図4及び図5の上記各実施形態に示すように、伴奏の周囲音又は調波音成分だけのためのリバーブ信号を生成することが有益である場合がある。しかし、ルームシミュレータ44は、周囲音又は調波音分離(PAE又はHPSS)を適用せずに、このように伴奏に対して直接動作することも可能である。
ルームシミュレータ44は、PAE又はHPSSが適用されるか否か(或いは、それらのいずれも適用されないか否か)に応じて、伴奏の周囲音成分sacc_amb(n)に対して又は伴奏の調波音成分sacc_harm(n)に対して伴奏sacc(n)の残響を付加するように構成される。コンボリューションリバーブを用いてもよいし、適切なサイズのパラメータ設定のアルゴリズミックリバーブを用いてもよい。
ルームシミュレータ44によるこの処理は、ステージ位置を画定してステージ/コンサートホールの知覚サイズ(信号の残響時間)に影響を及ぼすライブモードパラメータVENUEに依存し得る。例えば、VENUE=「ウェンブリースタジアム」の場合、ウェンブリースタジアムの予め記録されたインパルス応答に基づくコンボリューションリバーブを適用してもよい。VENUE=「ロイヤルアルバートホール」の場合、ロイヤルアルバートホールの予め記録されたインパルス応答に基づくコンボリューションリバーブを適用してもよい。VENUE=「クラブ」の場合、クラブの予め記録されたインパルス応答に基づくコンボリューションリバーブを適用してもよい。VENUE=「バー」の場合、バーの予め記録されたインパルス応答に基づくコンボリューションリバーブを適用してもよい。
図15は、ルームシミュレータ44がサラウンドリバーブによって実施される一実施形態を概略的に示す。サラウンドリバーブアルゴリズム153は、音源分離151及びPAE152によって取得された個別の音源sinst,1(n)~sinst,N(n)のそれぞれを、エミュレートされた会場の特定の位置に配置することができる。サラウンドリバーブ153をルームシミュレータ44として用いる場合、伴奏sacc(n)における各楽器の周囲音成分(又は、調波音成分又はそのようなフル信号)を、ステージ上のそれぞれの楽器のリアルな配置に応じて会場内に配置することができる。これによって、残響エフェクトがよりリアルになる。
バイノーラルレンダリング部
ヘッドフォン再生を利用する場合、バイノーラルレンダリングを用いて、或る一定の方向からの音源をモデリングしてもよい。
図16は、バイノーラルレンダリング技術を用いるレンダリング部45の一実施形態を示す。ルームシミュレータ44によって取得されるリバーブ音源samb_rev(n)(図4の実施形態参照)又はsharm_rev(n)(図5の実施形態参照)が、周囲音リバーブsamb_rev(n)又は調波音リバーブsharm_rev(n)が得られるように、バイノーラルレンダリング部45によって処理される。バイノーラルレンダリング部45は、バイノーラルプロセッサ162を具備する。バイノーラルプロセッサ162は、本カラオケシステムのユーザの、測定又はモデリングされた頭部に基づいて予め算出された頭部インパルス応答(HRIR:Head-Related Impulse Response)161に基づいてバイノーラル処理を実行する。バイノーラル処理162は、測定又はモデリングされた頭部インパルス応答(HRIR:Head-Related Impulse Response)161を用いる音源信号の音源srev,1(n)~srev,N(n)の畳み込みを含む。
頭部インパルス応答(HRIR:Head-Related Impulse Response)の代わりに両耳室内インパルス応答(BRIR:Binaural Room Impulse Response)を用いることもできる。
バイノーラル処理された音声は、典型的には、ステレオヘッドフォンを介して再生される。
2chから5chへのアップミクス
図17は、2chから5chへのアップミクスに基づくレンダリング部45の一実施形態を示す。この伴奏sacc(n)は、左側ステレオチャネルacc,L(n)及び右側ステレオチャネルacc,R(n)から成る。伴奏の左側ステレオチャネルacc,L(n)及び右側ステレオチャネルacc,R(n)は、前方左スピーカSKP1用の出力チャネルsacc,SPK1(n)が得られるように、中央スピーカSKP2用の出力チャネルsacc,SPK2(n)が得られるように、且つ右前方スピーカSKP3用の出力チャネルsacc,SPK3(n)が得られるように、2chから3chへのアップミクス171によって処理される。前方チャネルを導入するのに、第4章の参考[1]の分離(unmix)及び再パンニング技術を用いてもよい。
この伴奏の左側ステレオチャネルacc,L(n)及び右側ステレオチャネルacc,R(n)は、主音・周囲音抽出(PAE:Primary Ambient Extraction)43によってさらに処理される。PAE43は、伴奏の左側ステレオチャネルacc,L(n)及び右側ステレオチャネルacc,R(n)から周囲音成分samb,L(n)及びsamb,R(n)を抽出するように構成される。この周囲音成分samb,L(n)は、オールパスフィルタGL(z)z -Dによって処理され、周囲音成分samb,R(n)は、オールパスフィルタGR(z)z -Dによって処理されることによって、第5章の参考[1]に記載されているように、前方チャネルにおける雰囲気成分からそれらを無相関関係にする。これによって、サイドの仮想画像の生成が最小化される。このフィルタ処理された周囲音成分samb,L(n)及びsamb,R(n)は、後方左側スピーカSPK4及び後方右側スピーカSPK5によって出力される。
位置決め及び向き情報の利用
図18は、拡張ライブエフェクト処理(図4及び図5の参照符号42)の一実施形態を概略的に示す。図8の実施形態に示したように、ライブエフェクト41は、ライブ伴奏sacc_live(n)が得られるように、伴奏sacc(n)を処理する。この伴奏sacc(n)は、伴奏sacc(n)内の個別の音源(楽器)用の別個のトラックsinst,1(n)~sinst,N(n)が得られるように、音源分離81によって処理される。ライブパフォーマンス時にマイクが他の楽器の信号を取り込むことで起こるマイク「ブリード」の影響をエミュレートするように、マイク「ブリード」エミュレーション82が個別のインストゥルメントトラックに適用される。結果として得られるインストゥルメントトラックsinst_bleed,1(n)~sinst_bleed,N(n)は、ライブパフォーマンスにおいてしばしば楽器のタイミングが完璧には揃わないことを模倣するジッターエミュレーション83によってさらに処理される。結果として得られるインストゥルメントトラックsinst_jitter,1(n)~sinst_jitter,N(n)は、インストゥルメントトラックsinst_bleed,1(n)~sinst_bleed,N(n)から立体音響伴奏sacc_3D(n)を生成する立体音響レンダリング部89によって処理される。立体音響レンダリング部89は、部屋におけるユーザの現在地に関する情報、又はいずれの方向にユーザが視線を向けている又は傾いているかに関する情報を用いてユーザを仮想ステージ上に配置する。部屋におけるユーザの現在地に関する情報、又はいずれの方向にユーザが視線を向けている又は傾いているかに関する情報を用いることによって、個別の楽器のレンダリングが影響を受ける場合がある。例えば、歌唱者(=ユーザ)がギターを右側に抱えていると想定すると、当該ユーザが右方向を見ている又は右方向に傾いている場合、現実世界と同じようにギタートラックの振幅は増加する。これにより、当該ユーザが個別の楽器に干渉することもできるため、ユーザの体験は向上する。
立体音響レンダリング部89によって取得される立体音響伴奏sacc_3D(n)は、本カラオケシステムの他の構成要素の適切な立体音響信号とミックスされてもよい。この場合、例えば、図7の観客合唱エミュレーションは、図18のライブエフェクトで取得される立体音響伴奏sacc_3D(n)に匹敵する立体音響伴奏を生成するサラウンドリバーブを用いて適用されてもよい。同様に、好適な立体音響レンダリング部が、リバーブ経路(図4及び図5の参照符号45)において適用されてもよい。この立体音響レンダリングは、例えば、バイノーラル技術(カラオケ出力がヘッドフォンによるものである場合)を用いて実現されてもよく、5.1ch又は7.1chアップミクス(カラオケ出力が5.1ch又は7.1chスピーカシステムによって行われる場合)によって実現されてもよい。
図19は、図18の立体音響レンダリング部89によって実行される処理の一例を概略的に示す。本カラオケシステムのユーザ191は、屋内の或る位置にいて、或る特定の方向を向いている。ユーザ191の位置及び向き(視線又は傾き方向)は、例えば、ユーザに装着される角速度センサ及び加速度センサからの情報、室内環境用のSLAM(Simultaneous Localization and Mapping)等の物体認識及びトラッキング技術又は他の技術によってカメラ画像から得られる情報等のセンサ情報から本カラオケシステムによって取得されてもよい。係るセンサは、例えば、ユーザが手に持つスマートフォン又はMP3プレイヤーに一体化されてもよく、又は、ユーザが装着するスマートウォッチに一体化されてもよく、又は、ユーザが装着するヘッドフォン(視線方向の取得を可能にする)に一体化されてもよい。ユーザ191の向きは、例えば、視線検出技術又はヘッドトラッキング技術(例えば、SLAMベース)によって取得されてもよい。上記各センサによって取得されるユーザ位置及び向きは、仮想ステージを画定する座標システム199におけるユーザ191の位置p及び向きdに変換される。同様に、ユーザの頭部のローカル座標システム198は、座標システム199を参照して画定される。本ユーザ座標システム198では、図19に示されるように、ユーザの頭部の位置によって、座標システムの原点が画定され、頭部の向きによって、座標システムの一軸が画定される。楽器分離(図18の参照符号81)によって得られる各楽器は、仮想ステージ上のそれぞれの位置に属する。第1の楽器192、ここでは、例えば、サイドギターは、位置pに位置する。第2の楽器193、ここでは、例えば、リードギターは、位置pに位置する。第3の楽器194、ここでは、例えば、ドラムは、位置pに位置する。第4の楽器195、ここでは、例えば、ベースは、位置pに位置する。
なお、図面の簡素化のため、図19は、仮想ステージ上のx,y方向における各位置が二次元座標システム199によって表される二次元座標を示す(仮想ステージの俯瞰図)。実践的な実施態様では、立体音響レンダリング技術は、各サウンドオブジェクトの高さを第3の寸法(図19には図示せず)としてカバーすることも可能である。
本例では、レンダリング部89は、図20に関してより詳細に以下で説明する仮想Monopole Synthesis等の立体音響レンダリング技術によって分離された楽器192~195を仮想音源(3Dオブジェクト)としてレンダリングするように構成される。図19の例では、ユーザは、仮想ステージ上の楽器192~195から成るバンドの中心に位置し、観客196(例えば、図6の観客合唱エミュレーション41及び/又は図12(a)、図12(b)のサンプルデータベース46によってエミュレートされる)の方を向いている。楽器192~195の配置p,p,p,pは、例えば、バンド内の楽器の所定の標準的な配置に基づくものであってもよい。例えば、標準的な配置に応じて、サイドギター192の位置pは仮想ステージの前方左側、リードギター193の位置pは仮想ステージの右前方側、ドラム194の位置pは仮想ステージの後方とし、ベース195の位置pも仮想ステージの後方とすることができる。代替的に、係る位置情報(静止又は動的)は、例えば、上記楽器毎の音声信号のパンニング、リバーブ、インターチャネルディレイ又はインターチャネルコヒーレンスを分析することによって、音声から抽出することもできる。
楽器192~195の配置p,p,p,pは、カラオケパフォーマンスの間ずっと静止しているか、バンドメンバーのリアルな動き(ドラムは静止、リードギターは動的である等)を模倣する所定の動きパターン又は動きモデリングに応じて動的であり得る。
音声レンダリングを実行する際、立体音響レンダリング部89は、ユーザ191の位置p及び向きdを考慮する。例えば、音声レンダリングを実行する際、立体音響レンダリング部89は、仮想ステージ上の各楽器192~195の位置p,p,p,pを、ユーザの頭部のローカル座標システム198に変換する。これらの仮想音源は、例えば、ユーザの頭部のローカル座標システム198におけるそれらの位置に応じてユーザが装着しているヘッドフォンに対するバイノーラル技術によって生成される。
立体音響レンダリング
図20は、デジタル化されたMonopole Synthesisアルゴリズムに基づく立体音響レンダリング技術の一実施形態を提供する。このレンダリング技術は、例えば、図18のレンダリング部89又は図4及び図5のレンダリング部45によって適用されてもよい。
このレンダリング技術の元となる理論は、本明細書に参照によって援用される米国特許出願第2016/0037282号明細書においてより詳細に説明されている。
米国特許出願第2016/0037282号明細書の各実施形態で実施される技術は、概念的に波面合成(WFS:Wave Field Synthesis)に類似しており、画定された音場を生成するのに限られた数の防音エンクロージャーを用いる。但し、当該合成は、音場を正確にモデリングしようとするものではなく、最小二乗法に基づくものであるため、これらの実施形態の生成原理の基礎は特定のものである。
対象の音場は、画定された対象位置に配置された少なくとも1つの対象モノポールとしてモデリングされる。一実施形態では、対象の音場は、1つの対象モノポールとしてモデリングされる。他の実施形態では、対象の音場は、それぞれ画定された対象位置に配置される複数の対象モノポールとしてモデリングされる。対象モノポールの位置は、移動している可能性がある。例えば、対象モノポールは、減衰される雑音音源の動きに適合してもよい。複数の対象モノポールを対象の音場を表すのに用いる場合、以下に説明するように、画定された合成モノポールの集合に基づいて対象モノポールの音を合成する方法を対象モノポール毎に独立して適用してもよい。対象モノポール毎に取得される合成モノポールのそれぞれを足し合わせて対象の音場を再構成してもよい。
音源信号x(n)が、z-npとして示す各遅延部と、各増幅部aとに供給される。ここで、p=1,...,Nは、対象モノポール信号を合成するのに用いられる各合成モノポールの添え字である。本実施形態に係る各遅延部及び増幅部は、米国特許出願第2016/0037282号明細書の式(117)を適用して、対象モノポール信号を合成するのに用いる信号y(n)=s(n)を算出してもよい。当該信号s(n)は、増幅されてスピーカSに供給される電力である。
このように、本実施形態では、音源信号が遅延及び増幅成分となった状態で合成が行われる。
本実施形態によれば、添え字p付きの合成モノポールの遅延nは、対象モノポールr及び生成器r。間のユークリッド距離r=Rp0=|r-r|の音の伝播時間に対応している。フォーカスされる音源の合成のためには、これらの遅延は逆になる(nの負の値)。これによって、非因果システムとなるため、実践的には、これは、バッファされた解を用いることによって実現される。ここで、バッファサイズは、スピーカの領域内に音源を配置するのに必要とされる各遅延の想定範囲をカバーするように選択される。例えば、スピーカからフォーカス音源までの最大距離をRmaxとすると、バッファサイズは、整数値Nmax=Rmax/c*fとなる。ここで、cは、音の速度であり、fは、本システムのサンプリングレートである。
また、本実施形態によれば、増幅因子a=ρc/Rp0は、距離r=Rp0に反比例する。
本システムの代替的な実施形態では、米国特許出願第2016/0037282号明細書の式(118)に係る修正された増幅因子を用いることができる。
本システムの別の代替的な実施形態では、米国特許出願第2016/0037282号明細書の図9に関して記載されるようなマッピング因子を用いて増幅を修正することができる。
実施態様
図21は、上述したようにライブモード処理を用いるカラオケシステムを実施することができる電子機器の一実施形態を概略的に説明する。電子機器1200は、プロセッサとしてCPU1201を具備する。電子機器1200は、プロセッサ1201に接続される、マイク群1210、スピーカ群1211及び畳み込みニューラルネットワーク部(CNN)1220をさらに具備する。このプロセッサ1201は、例えば、図4~図17に関してより詳細に説明した上記各処理を実現するピッチシフター、フォルマントシフター、リバーブ、音源分離、ブリードエミュレーション、ジッターエミュレーション、又はイコライザを実施してもよい。DNN1220は、例えば、人工ニューラルネットワークを実現するのに特化したニューラルネットワーク、又は、他の任意のハードウェア等の人工ニューラルネットワークとしてもよい。DNN1220は、例えば、音源分離(図2の参照符号12、図8の参照符号81)又はダイナミックEQ(図11(b)の参照符号112)を実施してもよい。図2に関して説明したスピーカシステム19等のスピーカ群1211は、所定の空間にわたって分散される1又は複数のスピーカから成り、3D音声等の任意の種類の音声をレンダリングするように構成される。電子機器1200は、プロセッサ1201に接続されるユーザインタフェース1212をさらに具備する。ユーザインタフェース1212は、マンマシンインタフェースとして動作し、ユーザ及び電子システム間のダイアログを可能とする。例えば、ユーザは、このユーザインタフェース1212を用いて本システムに対して様々な構成を生成してもよい。電子機器1200は、イーサネットインタフェース1221、Bluetoothインタフェース1204、及びWLANインタフェース1205をさらに具備する。これらの各部1204及び1205は、外部装置とデータ通信するためのI/Oインタフェースとして動作する。例えば、イーサネット、WLAN又はBluetooth接続を用いる付加的なスピーカ、マイク、及びビデオカメラが、これらのインタフェース1221、1204、及び1205を介してプロセッサ1201に接続されてよい。電子機器1200は、データ記憶部1202及びデータメモリ1203(ここでは、RAM)をさらに具備する。データメモリ1203は、プロセッサ1201による処理のためのデータ又はコンピュータの指示を一時的に記憶する又はそれらのキャッシュを保存するように配置される。このデータ記憶部1202は、例えば、マイク群1210から取得され、DNN1220に対して供給又は取得される記録センサデータ用の長期記憶部として配置される。このデータ記憶部1202は、音声サンプル(例えば、図12(a)及び図12(b)のサンプルデータベース143)も記憶してもよい。
なお、上記説明は例示的な構成に過ぎない。付加的な又は他のセンサ、記憶装置、又はインタフェース等を用いて代替的な構成が実施されてもよい。
上記各実施形態は、例示的な順序の方法ステップで各方法を説明していることを理解されたい。なお、これらの方法ステップの特定の順序は、例示の目的でのみ示されており、拘束力と解釈されるべきではない。
なお、図21の電子機器の各部への分割は、単に例示目的でなされたものであり、本開示は、特定の各部における任意の特定の機能分割に限定されない。例えば、当該回路の少なくともいくつかの部分は、それぞれプログラムされたプロセッサ、FPGA(Field Programmable Gate Array)、専用の回路等によって実現することが可能である。
本明細書に記載されると共に特許請求の範囲において請求される全ての各部及び実体は、特に明記されない限り、例えば、チップに搭載された集積回路ロジックとして実施することができ、係る各部及び実体によって得られる機能は、特に明記されない限り、ソフトウェアによって実施することができる。
本開示の上記各実施形態が少なくとも部分的にソフトウェア制御されるデータ処理装置を用いて実施される限り、係るソフトウェア制御及び伝達を行うコンピュータプログラム、係るコンピュータプログラムを提供する記憶部又は他の媒体が本開示の態様として想定されることを理解されたい。
なお、本技術は、以下のように構成することもできる。
(1) エンハンスされた伴奏信号(sacc*(n))が得られるように、ライブモード処理(17)に応じて伴奏信号(sacc(n))を処理するように構成される回路を具備する
電子機器。
(2) (1)に記載の電子機器であって、
前記ライブモード処理(17)は、前記エンハンスされた伴奏信号(sacc*(n))の聴取者に対して、当該聴取者があたかもコンサートに参加しているかのような感覚を与えるように構成される
電子機器。
(3) (1)又は(2)に記載の電子機器であって、
前記ライブモード処理(17)は、リバーブ信号(samb_rev(n),sharm_rev(n))が得られるように、ルームシミュレータ(44)によって前記伴奏信号(sacc(n))を処理するように構成される
電子機器。
(4) (3)に記載の電子機器であって、
前記ライブモード処理(17)は、レンダリングされたリバーブ信号(samb_rev,3D(n),sharm_rev,3D(n))が得られるように、レンダリング部(45)によって前記リバーブ信号(samb_rev(n),sharm_rev(n))を処理するように構成される
電子機器。
(5) (4)に記載の電子機器であって、
前記レンダリング部(45)は、立体音響レンダリング部(45,43,171)、バイノーラルレンダリング部(45)、又はアップミキサ(43,171)である
電子機器。
(6) (1)~(5)のいずれか一項に記載の電子機器であって、
前記ライブモード処理(17)は、前記伴奏信号(sacc(n))の周囲音成分(samb(n))又は調波音成分(sharm(n))が得られるように、主音・周囲音抽出(PAE:Primary Ambient Extraction)(43)又は調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)(48)によって前記伴奏信号(sacc(n))を処理するように構成される
電子機器。
(7) (6)に記載の電子機器であって、
前記ライブモード処理(17)は、周囲音リバーブ(samb_rev(n))又は調波音リバーブ(sharm_rev(n))が得られるように、ルームシミュレータ(44)によって前記周囲音成分(samb(n))又は前記調波音成分(sharm(n))を処理するように構成される
電子機器。
(8) (1)~(7)のいずれか一項に記載の電子機器であって、
前記ライブモード処理(17)は、前記歌唱者の位置を表すライブモードパラメータ(SINGER LOCATION)及び/又はステージを表すライブモードパラメータ(VENUE)によって制御される
電子機器。
(9) (1)~(8)のいずれか一項に記載の電子機器であって、
前記ライブモード処理(17)は、観客ボーカル信号(scrowd(n))が得られるように、観客合唱エミュレーション(41)によってボーカル信号(svocals(n))を処理するように構成される
電子機器。
(10) (10)に記載の電子機器であって、
前記観客合唱エミュレーション(41)は、複数のピッチ及び/又はフォルマントシフト部を含む
電子機器。
(11) (1)に記載の電子機器であって、
前記ライブモード処理(17)は、ライブ伴奏信号(s_(acclive)(n))が得られるように、ライブエフェクト(42)に基づいて前記伴奏信号(sacc(n))を処理するように構成される
電子機器。
(12) (11)に記載の電子機器であって、
前記ライブエフェクト処理(42)は、音源分離(81)を含む
電子機器。
(13) (11)に記載の電子機器であって、
前記ライブエフェクト処理(42)は、マイクブリードエミュレーション(82)を含む
電子機器。
(14) (11)に記載の電子機器であって、
前記ライブエフェクト処理(42)は、ジッターエミュレーション(83)を含む
電子機器。
(15) (11)に記載の電子機器であって、
前記ライブエフェクト処理(42)は、イコライジング(85)を含む
電子機器。
(16) (1)~(15)のいずれか一項に記載の電子機器であって、
前記ライブモード処理(17)は、サンプルデータベース(143)からサンプルを取得することを含む
電子機器。
(17) (4)~(16)のいずれか一項に記載の電子機器であって、
前記エンハンスされた伴奏信号(sacc*(n))をレンダリングする際に、屋内のユーザの現在地(p)、及び/又は、前記ユーザが視線を向けている又は傾いている方向(d)に関する情報を用いるように構成される
電子機器。
(18) (1)~(17)のいずれか一項に記載の電子機器であって、
前記エンハンスされた伴奏信号(sacc*(n))をユーザボーカル信号(suser(n))と混合するように構成されるミキサ(18)
をさらに具備する
電子機器。
(19) (12)~(18)のいずれか一項に記載の電子機器であって、
前記ライブエフェクト処理(42)は、音源分離(81)によって得られる音源(sinst_jitter,1(n),...,sinst_jitter,N(n))をレンダリングするように構成されるレンダリング部(89)を具備する
電子機器。
(20) (19)に記載の電子機器であって、
前記レンダリング部(89)は、センサから情報を受け取り、当該センサ情報に基づいて、ユーザの現在地(p)、及び/又は、前記ユーザが視線を向けている又は傾いている方向(d)に関する情報を算出するように構成される
電子機器。
(21) (20)に記載の電子機器であって、
前記レンダリング部(89)は、前記ユーザの前記現在地に関する前記情報、及び/又は、前記ユーザが視線を向けている又は傾いている前記方向に関する前記情報を用いるように構成される
電子機器。
(22) エンハンスされた伴奏信号(sacc*(n))が得られるように、ライブモード処理(17)に応じて伴奏信号(sacc(n))を処理する
方法。
(23) プロセッサによって実施されると当該プロセッサに請求項19に記載の方法を実行させる指示を含む
コンピュータプログラム。

Claims (23)

  1. エンハンスされた伴奏信号(sacc*(n))が得られるように、ライブモード処理(17)に応じて伴奏信号(sacc(n))を処理するように構成される回路を具備する
    電子機器。
  2. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、前記エンハンスされた伴奏信号(sacc*(n))の聴取者に対して、当該聴取者があたかもコンサートに参加しているかのような感覚を与えるように構成される
    電子機器。
  3. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、リバーブ信号(samb_rev(n),sharm_rev(n))が得られるように、ルームシミュレータ(44)によって前記伴奏信号(sacc(n))を処理するように構成される
    電子機器。
  4. 請求項3に記載の電子機器であって、
    前記ライブモード処理(17)は、レンダリングされたリバーブ信号(samb_rev,3D(n),sharm_rev,3D(n))が得られるように、レンダリング部(45)によって前記リバーブ信号(samb_rev(n),sharm_rev(n))を処理するように構成される
    電子機器。
  5. 請求項4に記載の電子機器であって、
    前記レンダリング部(45)は、立体音響レンダリング部(45,43,171)、バイノーラルレンダリング部(45)、又はアップミキサ(43,171)である
    電子機器。
  6. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、前記伴奏信号(sacc(n))の周囲音成分(samb(n))又は調波音成分(sharm(n))が得られるように、主音・周囲音抽出(PAE:Primary Ambient Extraction)(43)又は調波音・打楽器音分離(HPSS:Harmonic Percussion Source Separation)(48)によって前記伴奏信号(sacc(n))を処理するように構成される
    電子機器。
  7. 請求項6に記載の電子機器であって、
    前記ライブモード処理(17)は、周囲音リバーブ(samb_rev(n))又は調波音リバーブ(sharm_rev(n))が得られるように、ルームシミュレータ(44)によって前記周囲音成分(samb(n))又は前記調波音成分(sharm(n))を処理するように構成される
    電子機器。
  8. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、前記歌唱者の位置を表すライブモードパラメータ(SINGER LOCATION)及び/又はステージを表すライブモードパラメータ(VENUE)によって制御される
    電子機器。
  9. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、観客ボーカル信号(scrowd(n))が得られるように、観客合唱エミュレーション(41)によってボーカル信号(svocals(n))を処理するように構成される
    電子機器。
  10. 請求項10に記載の電子機器であって、
    前記観客合唱エミュレーション(41)は、複数のピッチ及び/又はフォルマントシフト部を含む
    電子機器。
  11. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、ライブ伴奏信号(s_(acclive)(n))が得られるように、ライブエフェクト(42)に基づいて前記伴奏信号(sacc(n))を処理するように構成される
    電子機器。
  12. 請求項11に記載の電子機器であって、
    前記ライブエフェクト処理(42)は、音源分離(81)を含む
    電子機器。
  13. 請求項11に記載の電子機器であって、
    前記ライブエフェクト処理(42)は、マイクブリードエミュレーション(82)を含む
    電子機器。
  14. 請求項11に記載の電子機器であって、
    前記ライブエフェクト処理(42)は、ジッターエミュレーション(83)を含む
    電子機器。
  15. 請求項11に記載の電子機器であって、
    前記ライブエフェクト処理(42)は、イコライジング(85)を含む
    電子機器。
  16. 請求項1に記載の電子機器であって、
    前記ライブモード処理(17)は、サンプルデータベース(143)からサンプルを取得することを含む
    電子機器。
  17. 請求項4に記載の電子機器であって、
    前記エンハンスされた伴奏信号(sacc*(n))をレンダリングする際に、屋内のユーザの現在地(p)、及び/又は、前記ユーザが視線を向けている又は傾いている方向(d)に関する情報を用いるように構成される
    電子機器。
  18. 請求項1に記載の電子機器であって、
    前記エンハンスされた伴奏信号(sacc*(n))をユーザボーカル信号(suser(n))と混合するように構成されるミキサ(18)
    をさらに具備する
    電子機器。
  19. 請求項12に記載の電子機器であって、
    前記ライブエフェクト処理(42)は、音源分離(81)によって得られる音源(sinst_jitter,1(n),...,sinst_jitter,N(n))をレンダリングするように構成されるレンダリング部(89)を具備する
    電子機器。
  20. 請求項19に記載の電子機器であって、
    前記レンダリング部(89)は、センサから情報を受け取り、当該センサ情報に基づいて、ユーザの現在地(p)、及び/又は、前記ユーザが視線を向けている又は傾いている方向(d)に関する情報を算出するように構成される
    電子機器。
  21. 請求項20に記載の電子機器であって、
    前記レンダリング部(89)は、前記ユーザの前記現在地に関する前記情報、及び/又は、前記ユーザが視線を向けている又は傾いている前記方向に関する前記情報を用いるように構成される
    電子機器。
  22. エンハンスされた伴奏信号(sacc*(n))が得られるように、ライブモード処理(17)に応じて伴奏信号(sacc(n))を処理する
    方法。
  23. プロセッサによって実施されると当該プロセッサに請求項19に記載の方法を実行させる指示を含む
    コンピュータプログラム。
JP2023557335A 2021-03-26 2022-03-15 電子機器、方法及びコンピュータプログラム Pending JP2024512493A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21165311 2021-03-26
EP21165311.8 2021-03-26
PCT/EP2022/056764 WO2022200136A1 (en) 2021-03-26 2022-03-15 Electronic device, method and computer program

Publications (1)

Publication Number Publication Date
JP2024512493A true JP2024512493A (ja) 2024-03-19

Family

ID=75252457

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023557335A Pending JP2024512493A (ja) 2021-03-26 2022-03-15 電子機器、方法及びコンピュータプログラム

Country Status (3)

Country Link
JP (1) JP2024512493A (ja)
CN (1) CN117043851A (ja)
WO (1) WO2022200136A1 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012170432A2 (en) * 2011-06-05 2012-12-13 Museami, Inc. Enhanced media recordings and playback
CA2843437A1 (en) * 2011-07-29 2013-02-28 Matt Serletic System and method for producing a more harmonious musical accompaniment and for applying a chain of effects to a musical composition
US9749769B2 (en) 2014-07-30 2017-08-29 Sony Corporation Method, device and system
KR101840015B1 (ko) * 2016-12-21 2018-04-26 서강대학교산학협력단 스테레오 음악신호를 위한 반주신호 추출방법 및 장치

Also Published As

Publication number Publication date
CN117043851A (zh) 2023-11-10
WO2022200136A1 (en) 2022-09-29

Similar Documents

Publication Publication Date Title
Emmerson et al. Electro-acoustic music
US6931134B1 (en) Multi-dimensional processor and multi-dimensional audio processor system
USRE44611E1 (en) System and method for integral transference of acoustical events
WO2019229199A1 (en) Adaptive remixing of audio content
EP1695335A1 (fr) Procede de synthese et de spatialisation sonores
Thery et al. Anechoic audio and 3D-video content database of small ensemble performances for virtual concerts
WO2022248729A1 (en) Stereophonic audio rearrangement based on decomposed tracks
Réveillac Musical sound effects: Analog and digital sound processing
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
Einbond et al. Instrumental Radiation Patterns as Models for Corpus-Based Spatial Sound Synthesis: Cosmologies for Piano and 3D Electronics
Brümmer Composition and perception in spatial audio
JP2024512493A (ja) 電子機器、方法及びコンピュータプログラム
CN114631142A (zh) 电子设备、方法和计算机程序
Gottfried Studies on the compositional use of space
Kim et al. A study on the implementation of immersive sound using multiple speaker systems according to the location of sound sources in live performance
Peters et al. Sound spatialization across disciplines using virtual microphone control (ViMiC)
US20230057082A1 (en) Electronic device, method and computer program
Munoz Space Time Exploration of Musical Instruments
d’Alessandro et al. The ORA project: Audio-visual live electronics and the pipe organ
Kraugerud Spaces of sound: Meanings of spatiality in recorded sound
WO2001063593A1 (en) A mode for band imitation, of a symphonic orchestra in particular, and the equipment for imitation utilising this mode
WO2007096792A1 (en) Device for and a method of processing audio data
Woszczyk et al. Creating mixtures: The application of auditory scene analysis (ASA) to audio recording
Lopes INSTRUMENT POSITION IN IMMERSIVE AUDIO: A STUDY ON GOOD PRACTICES AND COMPARISON WITH STEREO APPROACHES
Lopes Wallace: Composing Music for Variable Reverberation