JP7484118B2 - 音響処理方法、音響処理装置およびプログラム - Google Patents

音響処理方法、音響処理装置およびプログラム Download PDF

Info

Publication number
JP7484118B2
JP7484118B2 JP2019177967A JP2019177967A JP7484118B2 JP 7484118 B2 JP7484118 B2 JP 7484118B2 JP 2019177967 A JP2019177967 A JP 2019177967A JP 2019177967 A JP2019177967 A JP 2019177967A JP 7484118 B2 JP7484118 B2 JP 7484118B2
Authority
JP
Japan
Prior art keywords
sound
envelope
observation
output
envelopes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019177967A
Other languages
English (en)
Other versions
JP2021057711A (ja
Inventor
賀文 水野
多伸 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2019177967A priority Critical patent/JP7484118B2/ja
Priority to CN202080064954.2A priority patent/CN114402387A/zh
Priority to PCT/JP2020/035723 priority patent/WO2021060251A1/ja
Priority to EP20868500.8A priority patent/EP4036915A1/en
Publication of JP2021057711A publication Critical patent/JP2021057711A/ja
Priority to US17/703,697 priority patent/US20220215822A1/en
Application granted granted Critical
Publication of JP7484118B2 publication Critical patent/JP7484118B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、例えば楽器等の音源からの音を収音した音信号を処理する技術に関する。
例えば複数の楽器の演奏音を収録する場面では、楽器毎に別個の収音機器が設置される場合がある。収音機器により収音される音には、当該収音機器が設置された楽器からの音が優勢に含まれるが、当該楽器以外の楽器から到達する音(いわゆる被り音)も含まれる。特許文献1には、複数の音源の相互間で発生する被り音の伝達特性を推定し、収音機器により収音される音から他の音源からの被り音を除去する構成が開示されている。
特開2013-66079号公報
ところで、音信号のレベルに応じて効果付与処理等の各種の音響処理を当該音信号に対して実行する場合がある。例えば、音信号のレベルが閾値を下回る区間を消音するゲート処理、または、音信号のレベルが閾値を上回る区間を抑圧するコンプレッサ処理が想定される。音信号に被り音が含まれる場合、特定の音源からの音に対する音響処理が適切に実行されない可能性がある。以上の事情を考慮して、本開示のひとつの態様は、被り音の影響を低減して適切な音響処理を音信号に対して実行することを目的とする。
本開示のひとつの態様に係る音響処理方法は、音源からの音を収音した音信号の概形を表す観測包絡線を取得し、前記観測包絡線における前記音源からの音の概形を表す出力包絡線を、前記観測包絡線から生成し、前記音信号に対して前記出力包絡線のレベルに応じた音響処理を実行する。
本開示の他の態様に係る音響処理方法は、第1音源からの音を収音した第1音信号の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得し、前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成し、前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する。
本開示のひとつの態様に係る音響処理装置は、音源からの音を収音した音信号の概形を表す観測包絡線を取得する包絡線取得部と、前記観測包絡線における前記音源からの音の概形を表す出力包絡線を、前記観測包絡線から生成する信号処理部と、前記音信号に対して前記出力包絡線のレベルに応じた音響処理を実行する音響処理部とを具備する。
本開示の他の態様に係る音響処理装置は、第1音源からの音を収音した第1音信号の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成する信号処理部と、前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する音響処理部とを具備する。
本開示のひとつの態様に係るプログラムは、音源からの音を収音した音信号の概形を表す観測包絡線を取得する包絡線取得部、前記観測包絡線における前記音源からの音の概形を表す出力包絡線を、前記観測包絡線から生成する信号処理部、および、前記音信号に対して前記出力包絡線のレベルに応じた音響処理を実行する音響処理部としてコンピュータを機能させる。
本開示の他の態様に係るプログラムは、第1音源からの音を収音した第1音信号の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成する信号処理部、および、前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する音響処理部としてコンピュータを機能させる。
音響処理システムの構成を例示するブロック図である。 音響処理装置の構成を例示するブロック図である。 制御装置の機能的な構成を例示するブロック図である。 観測包絡線の説明図である。 推定処理部による推定処理の説明図である。 推定処理の具体的な手順を例示するフローチャートである。 学習処理の具体的な手順を例示するフローチャートである。 音響処理部が実行するゲート処理の説明図である。 音響処理部が実行するコンプレッサ処理の説明図である。 音響処理装置の全体的な動作の手順を例示するフローチャートである。 第2実施形態における推定処理の説明図である。 第3実施形態における推定処理の説明図である。
A:第1実施形態
図1は、本開示の第1実施形態に係る音響処理システム100の構成を例示するブロック図である。音響処理システム100は、N個(Nは2以上の自然数)の音源S[1]~S[N]から発生する音響を収音および処理する音楽制作用の録音システムである。各音源S[n](n=1~N)は、例えば演奏により発音する楽器である。例えばドラムセットを構成する複数の打楽器(例えばシンバル,キックドラム,スネアドラム,ハイハットおよびフロアタム等)の各々が音源S[n]に相当する。N個の音源S[1]~S[N]は、ひとつの音響空間内に相互に近接して設置される。なお、2個以上の楽器の組合せを音源S[n]としてもよい。
音響処理システム100は、N個の収音装置D[1]~D[N]と音響処理装置10と再生装置20とを具備する。各収音装置D[n]は、有線または無線により音響処理装置10に接続される。再生装置20も同様に、有線または無線により音響処理装置10に接続される。なお、音響処理装置10と再生装置20とを一体に構成してもよい。
N個の収音装置D[1]~D[N]の各々は、N個の音源S[1]~S[N]の何れかに対応する。すなわち、N個の収音装置D[1]~D[N]とN個の音源S[1]~S[N]とは1対1に対応する。各収音装置D[n]は、周囲の音を収音するマイクロホンである。例えば、収音装置D[n]は、音源S[n]に指向する指向性のマイクロホンである。収音装置D[n]は、周囲の音の波形を表す音信号A[n]を生成する。Nチャネルの音信号A[1]~A[N]が音響処理装置10に並列に供給される。
各収音装置D[n]は、音源S[n]から発生した音(以下「目的音」という)の収音を目的として音源S[n]の近傍に設置される。したがって、収音装置D[n]には音源S[n]からの目的音が優勢に到達する。ただし、各音源S[n]は相互に近接して設置されるから、各収音装置D[n]には、当該収音装置D[n]に対応する音源S[n]以外の音源S[n'](n'=1~N,n'≠n)から発生した音(以下「被り音」という)も到達する。すなわち、収音装置D[n]が生成する音信号A[n]は、音源S[n]から到達する目的音の成分を優勢に含むほか、当該音源S[n]の周囲に位置する他の音源S[n']から到達する被り音(spill,bleed,leakage)の成分も含む。なお、各音信号A[n]をアナログからデジタルに変換するA/D変換器の図示は便宜的に省略した。
音響処理装置10は、Nチャネルの音信号A[1]~A[N]を処理するためのコンピュータシステムである。具体的には、音響処理装置10は、Nチャネルの音信号A[1]~A[N]に対する音響処理により複数のチャネルの音信号Bを生成する。再生装置20は、音信号Bが表す音を再生する。具体的には、再生装置20は、音信号Bをデジタルからアナログに変換するD/A変換器と、音信号Bを増幅する増幅器と、音信号Bに応じた音響を放音する放音装置とを具備する。
図2は、音響処理装置10の構成を例示するブロック図である。音響処理装置10は、制御装置11と記憶装置12と表示装置13と操作装置14と通信装置15とを具備するコンピュータシステムで実現される。なお、音響処理装置10は、単体の装置で実現されるほか、相互に別体で構成された複数の装置(すなわちシステム)でも実現される。
制御装置11は、音響処理装置10の各要素を制御する単数または複数のプロセッサで構成される。例えば、制御装置11は、CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)、またはASIC(Application Specific Integrated Circuit)等の1種類以上のプロセッサで構成される。通信装置15は、N個の収音装置D[1]~D[N]および再生装置20との間で通信する。例えば、通信装置15は、各収音装置D[n]が接続される入力ポートと、再生装置20が接続される出力ポートとを具備する。
表示装置13は、制御装置11から指示された画像を表示する。表示装置13は、例えば液晶表示パネルまたは有機EL表示パネルである。操作装置14は、利用者による操作を受付ける。操作装置14は、例えば表示装置13の表示面に対する接触を検知するタッチパネル、または、利用者が操作する操作子である。
記憶装置12は、制御装置11が実行するプログラムと制御装置11が使用するデータとを記憶する単数または複数のメモリである。具体的には、記憶装置12は、推定処理プログラムP1と学習処理プログラムP2と音響処理プログラムP3とを記憶する。記憶装置12は、例えば磁気記録媒体または半導体記録媒体等の公知の記録媒体で構成される。なお、複数種の記録媒体の組合せにより記憶装置12を構成してもよい。また、音響処理装置10に着脱可能な可搬型の記録媒体、または、音響処理装置10が通信可能な外部記録媒体(例えばオンラインストレージ)を、記憶装置12として利用してもよい。
図3は、音響処理装置10の機能的な構成を例示するブロック図である。制御装置11は、記憶装置12に記憶されたプログラムを実行することで複数の機能(推定処理部31,学習処理部32,音響処理部34)を実現する。制御装置11が実現する各機能について以下に詳述する。
[1]推定処理部31
制御装置11は、推定処理プログラムP1を実行することで推定処理部31として機能する。推定処理部31は、Nチャネルの音信号A[1]~A[N]を解析する。具体的には、推定処理部31は、包絡線取得部311と信号処理部312とを具備する。
包絡線取得部311は、Nチャネルの音信号A[1]~A[N]の各々について観測包絡線Ex[n](Ex[1]~Ex[N])を生成する。各音信号A[n]の観測包絡線Ex[n]は、時間軸上における当該音信号A[n]の波形の概形(エンベロープ)を表す時間領域の信号である。
図4は、観測包絡線Ex[n]の説明図である。時間軸上の所定長の期間(以下「解析期間」という)Ta毎にNチャネルの観測包絡線Ex[1]~Ex[N]が生成される。各解析期間Taは、時間軸上のM個(Mは2以上の自然数)の単位期間Tu[1]~Tu[M]で構成される。各単位期間Tu[m](m=1~M)は、音信号A[n]を構成する信号値(サンプル)のU個分に相当する時間長の期間である。包絡線取得部311は、単位期間Tu[m]毎に観測包絡線Ex[n]のレベルx[n,m]を音信号A[n]から算定する。1個の解析期間Taにおける第nチャネルの観測包絡線Ex[n]は、当該解析期間Ta内のM個のレベルx[n,1]~x[n,M]の時系列で表現される。観測包絡線Ex[n]における任意の1個のレベルx[n,m]は、例えば以下の数式(1)で表現される。
Figure 0007484118000001
数式(1)の記号a[n,u]は、単位期間Tu[m]内における第nチャネルの音信号A[n]を構成するU個の信号値a[n,1]~a[n,U]のうち第u番目(u=1~U)の1個の信号値を意味する。数式(1)から理解される通り、観測包絡線Ex[n]の各レベルx[n,m]は、音信号A[n]の2乗平均平方根(RMS:Root Mean Square)に相当する非負の実効値である。以上の説明から理解される通り、包絡線取得部311は、Nチャネルの各々について、単位期間Tu[m]毎にレベルx[n,m]を生成し、当該レベルx[n,m]のM個分の時系列(レベルx[n,1]~x[n,M])を観測包絡線Ex[n]とする。すなわち、各チャネルの観測包絡線Ex[n]は、M個のレベルx[n,1]~x[n,M]を要素とするM次元ベクトルで表現される。
図5は、推定処理部31の動作の説明図である。以上に説明した観測包絡線Ex[n]が、Nチャネルの音信号A[1]~A[N]の各々について生成される。したがって、N個の観測包絡線Ex[1]~Ex[N]を縦方向に配列したN行M列の非負行列(以下「観測行列」という)Xが解析期間Ta毎に生成される。観測行列Xにおける第n行第m列の要素は、第nチャネルの観測包絡線Ex[n]における第m番目のレベルx[n,m]である。なお、以下の各図面においては、音信号A[n]のチャネルの総数Nが3である場合が例示されている。
図3の信号処理部312は、Nチャネルの観測包絡線Ex[1]~Ex[N]からNチャネルの出力包絡線Ey[1]~Ey[N]を生成する。図5に例示される通り、観測包絡線Ex[n]に対応する出力包絡線Ey[n]は、当該観測包絡線Ex[n]における音源S[n]からの目的音を強調(理想的には抽出)した時間領域信号である。すなわち、出力包絡線Ey[n]においては、音源S[n]以外の各音源S[n']からの被り音のレベルが低減(理想的には除去)される。以上の説明から理解される通り、出力包絡線Ey[n]は、音源S[n]から発生した目的音のレベルの時間的な変化を表す。したがって、第1実施形態によれば、各音源S[n]からの目的音のレベルの時間的な変化を利用者が正確に把握できるという利点がある。
信号処理部312は、各解析期間TaにおけるNチャネルの観測包絡線Ex[1]~Ex[N]から当該解析期間TaにおけるNチャネルの出力包絡線Ey[1]~Ey[N]を生成する。すなわち、Nチャネルの出力包絡線Ey[1]~Ey[N]は解析期間Ta毎に生成される。1個の解析期間Taにおける第nチャネルの出力包絡線Ey[n]は、当該解析期間Ta内の相異なる単位期間Tu[m]に対応するM個のレベルy[n,1]~y[n,M]の時系列で表現される。すなわち、各出力包絡線Ey[n]は、M個のレベルy[n,1]~y[n,M]を要素とするM次元ベクトルで表現される。信号処理部312が生成するNチャネルの出力包絡線Ey[1]~Ey[N]は、N行M列の非負行列(以下「係数行列」という)Yを構成する。係数行列Y(アクティベーション行列)における第n行第m列の要素は、出力包絡線Ey[n]における第m番目のレベルy[n,m]である。
1個の解析期間Taにおいて、信号処理部312は、既知の混合行列Q(基底行列)を利用した非負値行列因子分解(NMF:Non-negative Matrix Factorization)により、観測行列Xから係数行列Yを生成する。混合行列Qは、複数の混合比q[n1,n2](n1=1~N,n2=1~N)を配列したN行N列の正方行列である。混合行列Qは、機械学習により事前に生成されたうえで記憶装置12に記憶される。混合行列Qの対角要素である各混合比q[n,n](n1=n2=n)は、基準値(具体的には1)に設定される。
各観測包絡線Ex[n]は以下の数式(2)で表現される。

Ex[n]≒q[n,1]Ey[1]+q[n,2]Ey[2]+…+q[n,N]Ey[N] (2)

すなわち、観測包絡線Ex[n]に対応するN個の混合比q[n,1]~q[n,N]は、当該観測包絡線Ex[n]をNチャネルの出力包絡線Ey[1]~Ey[N]の加重和で近似的に表現した場合における各出力包絡線Ey[n]の加重値に相当する。
すなわち、混合行列Qの各混合比q[n1,n2]は、観測包絡線Ex[n1]において音源S[n2]からの被り音が混合された度合を表す指標である。混合比q[n1,n2]は、収音装置D[n1]に対して音源S[n2]から到達する被り音の到達率(ないし減衰率)に関する指標とも換言される。具体的には、混合比q[n1,n2]は、収音装置D[n1]が音源S[n1]から収音した目的音の音量を1(基準値)とした場合に、当該収音装置D[n1]が他の音源S[n2]から収音した被り音の音量の比率である。したがって、混合比q[n1,n2]と出力包絡線Ey[n2]のレベルy[n2,m]との積q[n1,n2]y[n2,m]は、音源S[n2]から収音装置D[n1]に到達する被り音の音量に相当する。
例えば、図5の混合行列Qにおける混合比q[1,2]は0.1であるから、観測包絡線Ex[1]においては、音源S[1]からの目的音に対して音源S[2]からの被り音が0.1の割合で混合されていることを意味する。また、混合比q[1,3]は0.2であるから、観測包絡線Ex[1]においては、音源S[1]からの目的音に対して音源S[3]からの被り音が0.2の割合で混合されていることを意味する。同様に、例えば混合比[3,1]は0.2であるから、観測包絡線Ex[3]においては、音源S[3]からの目的音に対して音源S[1]からの被り音が0.2の割合で混合されていることを意味する。すなわち、混合比q[n1,n2]が大きいほど、音源S[n2]から収音装置D[n1]に到達する被り音が大きいことを意味する。
第1実施形態の信号処理部312は、混合行列Qと係数行列Yとの積QYが観測行列Xに近付くように係数行列Yを反復的に更新する。例えば、信号処理部312は、観測行列Xと積QYとの距離を表す評価関数F(X|QY)が最小となるように係数行列Yを算定する。評価関数F(X|QY)は、例えばユークリッド距離,KL(Kullback-Leibler)ダイバージェンス,板倉齋藤距離,またはβダイバージェンス等の任意の距離規範である。
N個の音源S[1]~S[N]のうち任意の2個の音源S[k1]および音源S[k2]に着目する(k1=1~N,k2=1~N,k1≠k2)。Nチャネルの観測包絡線Ex[1]~Ex[N]は、観測包絡線Ex[k1]と観測包絡線Ex[k2]とを含む。観測包絡線Ex[k1]は、音源S[k1]からの目的音を収音した音信号A[k1]の概形である。観測包絡線Ex[k1]は「第1観測包絡線」の一例であり、音源S[k1]は「第1音源」の一例であり、音信号A[k1]は「第1音信号」の一例である。他方、観測包絡線Ex[k2]は、音源S[k2]からの目的音を収音した音信号A[k2]の概形である。観測包絡線Ex[k2]は「第2観測包絡線」の一例であり、音源S[k2]は「第2音源」の一例であり、音信号A[k2]は「第2音信号」の一例である。
混合行列Qは、混合比q[k1,k2]と混合比q[k2,k1]とを含む。混合比q[k1,k2]は、観測包絡線Ex[k1]における音源S[k2]からの被り音の混合比であり、混合比q[k2,k1]は、観測包絡線Ex[k2]における音源S[k1]からの被り音の混合比である。Nチャネルの出力包絡線Ey[1]~Ey[N]は、出力包絡線Ey[k1]と出力包絡線Ey[k2]とを含む。出力包絡線Ey[k1]は、「第1出力包絡線」の一例であり、観測包絡線Ex[k1]における音源S[k1]からの目的音の概形を表す信号を意味する。他方、出力包絡線Ey[k2]は、「第2出力包絡線」の一例であり、観測包絡線Ex[k2]における音源S[k2]からの目的音の概形を表す信号を意味する。
図6は、制御装置11が係数行列Yを生成する処理(以下「推定処理」という)Saの具体的な手順を例示するフローチャートである。推定処理Saは、操作装置14に対する利用者からの指示を契機として開始され、N個の音源S[1]~S[N]による発音に並行して実行される。例えば、音響処理システム100の利用者は、音源S[n]としての楽器を演奏する。複数の利用者による演奏に並行して推定処理Saが実行される。推定処理Saは、解析期間Ta毎に実行される。
推定処理Saを開始すると、包絡線取得部311は、Nチャネルの音信号A[1]~A[N]からNチャネルの観測包絡線Ex[1]~Ex[N](すなわち観測行列X)を生成する(Sa1)。具体的には、包絡線取得部311は、前掲の数式(1)の演算により各観測包絡線Ex[n]におけるレベルx[n,m]を算定する。
信号処理部312は、係数行列Yを初期化する(Sa2)。例えば、信号処理部312は、直前の解析期間Taにおける観測行列Xを現在の解析期間Taにおける係数行列Yの初期値として設定する。なお、係数行列Yの初期化の方法は以上の例示に限定されない。例えば、信号処理部312は、現在の解析期間Taについて生成した観測行列Xを、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。また、信号処理部312は、直前の解析期間Taにおける観測行列Xまたは係数行列Yの各要素に乱数を加算した行列を、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。
信号処理部312は、既知の混合行列Qと現在の係数行列Yとの積QYと、現在の解析期間Taの観測行列Xとの距離を表す評価関数F(X|QY)を算定する(Sa3)。信号処理部312は、所定の終了条件が成立したか否かを判定する(Sa4)。終了条件は、例えば評価関数F(X|QY)が所定の閾値を下回ること、または、係数行列Yを更新した回数が所定の閾値に到達したことである。
終了条件が成立していない場合(Sa4:NO)、信号処理部312は、評価関数F(X|QY)が減少するように係数行列Yを更新する(Sa5)。終了条件が成立するまで(Sa4:YES)、評価関数F(X|QY)の算定(Sa3)と係数行列Yの更新(Sa5)とが反復される。係数行列Yは、終了条件が成立した段階(Sa4:YES)の数値で確定される。
Nチャネルの観測包絡線Ex[1]~Ex[N]の生成(Sa1)と複数の出力包絡線Ey[1]~Ey[N]の生成(Sa2~Sa5)とは、N個の音源S[1]~S[N]からの収音に並行して解析期間Ta毎に実行される。
以上の説明から理解される通り、第1実施形態においては、各音信号A[n]の概形を表す観測包絡線Ex[n]に対する処理で出力包絡線Ey[n]が生成されるから、各音信号A[n]を解析する構成と比較して、音源S[n]毎の目的音(出力包絡線Ey[n])のレベルを推定する推定処理Saの負荷を軽減することが可能である。
[2]学習処理部32
図3に例示される通り、制御装置11は、学習処理プログラムP2を実行することで学習処理部32として機能する。学習処理部32は、推定処理Saに使用される混合行列Qを生成する。混合行列Qは、推定処理Saの実行前の任意の時点において生成(ないし訓練)される。具体的には、初期的な混合行列Qが新規に生成されるほか、生成済の混合行列Qが訓練(再訓練)される。学習処理部32は、包絡線取得部321と信号処理部322とを具備する。
包絡線取得部321は、訓練用に準備されたNチャネルの音信号A[1]~A[N]の各々について観測包絡線Ex[n](Ex[1]~Ex[N])を生成する。訓練用の音信号A[n]の時間長は、M個の単位期間Tu[1]~Tu[M]の時間長(すなわち解析期間Taの時間長)に相当する。すなわち、Nチャネルの観測包絡線Ex[1]~Ex[N]を含むN行M列の観測行列Xが生成される。包絡線取得部321による動作は包絡線取得部311による動作と同様である。
信号処理部322は、解析期間TaにおけるNチャネルの観測包絡線Ex[1]~Ex[N]から混合行列QとNチャネルの出力包絡線Ey[1]~Ey[N]とを生成する。すなわち、観測行列Xから混合行列Qと係数行列Yとが生成される。Nチャネルの観測包絡線Ex[1]~Ex[N]を利用して混合行列Qを更新する処理を1エポックとして、所定の終了条件が成立するまで当該エポックを複数回にわたり反復することで、推定処理Saに使用される混合行列Qが確定される。終了条件は、前述の推定処理Saの終了条件とは相違してよい。信号処理部322が生成した混合行列Qは記憶装置12に記憶される。
信号処理部322は、非負値行列因子分解により観測行列Xから混合行列Qと係数行列Yとを生成する。すなわち、信号処理部322は、エポック毎に、混合行列Qと係数行列Yとの積QYが観測行列Xに近付くように係数行列Yを更新する。信号処理部322は、係数行列Yの更新を複数のエポックにわたり反復し、観測行列Xと積QYとの距離を表す評価関数F(X|QY)が徐々に減少するように係数行列Yを算定する。
図7は、制御装置11が混合行列Qを生成(すなわち訓練)する処理(以下「学習処理」という)Sbの具体的な手順を例示するフローチャートである。学習処理Sbは、操作装置14に対する利用者からの指示を契機として開始される。例えば、推定処理Saが実行される正式な演奏の開始前(例えばリハーサル)に音源S[n]としての楽器を演奏者が演奏する。音響処理システム100の利用者は、演奏音を収音することで訓練用のNチャネルの音信号A[1]~A[N]を取得する。
なお、音源S[n]の位置、収音装置D[n]の位置、または音源S[n]と収音装置D[n]の相対的な位置関係等の収音条件が変化すると、各収音装置D[n]に他の音源S[n']から到達する被り音の程度も変化する。したがって、収音条件が変更されるたびに、利用者からの指示に応じて学習処理Sbが実行されることで混合行列Qが更新される。
なお、各楽器の演奏に並行した推定処理Saの実行中に収音条件の変化または推定結果の誤差に気付いた場合、利用者は、音響処理システム100に対して混合行列Qの再訓練を指示する。音響処理システム100は、利用者からの指示に応じて、現時点の混合行列Qを利用した推定処理Saを実行しながら、現在の演奏を収録することで訓練用の音信号A[n]を取得する。学習処理部32は、訓練用の音信号A[n]を利用した学習処理Sbにより混合行列Qを再訓練する。推定処理部31は、再訓練後の混合行列Qを、以後の演奏に対する推定処理Saに利用する。すなわち、演奏の途中で混合行列Qが更新される。
学習処理Sbを開始すると、包絡線取得部321は、訓練用のNチャネルの音信号A[1]~A[N]からNチャネルの観測包絡線Ex[1]~Ex[N]を生成する(Sb1)。具体的には、包絡線取得部321は、前掲の数式(1)の演算により各観測包絡線Ex[n]におけるレベルx[n,m]を算定する。
信号処理部322は、混合行列Qおよび係数行列Yを初期化する(Sb2)。例えば、信号処理部322は、対角要素(q[n,n])を1に設定し、対角要素以外の各要素を乱数に設定する。なお、混合行列Qの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Sbで生成された混合行列Qを、今回の学習処理Sbにおける初期的な混合行列Qとして再訓練してもよい。また、信号処理部322は、例えば観測行列Xを係数行列Yの初期値として設定する。なお、係数行列Yの初期化の方法は以上の例示に限定されない。例えば、過去の学習処理Sbにおいて今回と同じ音信号A[n]が利用される場合、信号処理部322は、その学習処理Sbにより生成した係数行列Yを、今回の学習処理Sbにおける係数行列Yの初期値としてもよい。また、信号処理部322は、以上に例示した観測行列Xまたは係数行列Yの各要素に乱数を加算した行列を、現在の解析期間Taにおける係数行列Yの初期値として設定してもよい。
信号処理部322は、混合行列Qと係数行列Yとの積QYと、現在の解析期間Taの観測行列Xとの距離を表す評価関数F(X|QY)を算定する(Sb3)。信号処理部322は、所定の終了条件が成立したか否かを判定する(Sb4)。学習処理Sbの終了条件は、例えば、評価関数F(X|QY)が所定の閾値を下回ること、または、係数行列Yを更新した回数が所定の閾値に到達したことである。
終了条件が成立していない場合(Sb4:NO)、信号処理部322は、評価関数F(X|QY)が減少するように混合行列Qおよび係数行列Yを更新する(Sb5)。混合行列Qおよび係数行列Yの更新(Sb5)と評価関数F(X|QY)の算定(Sb3)とを1エポックとして、終了条件が成立するまで(Sb4:YES)、当該エポックが反復される。混合行列Qは、終了条件が成立した段階(Sb4:YES)の数値で確定される。
以上の説明から理解される通り、第1実施形態においては、各観測包絡線Ex[n]における他の音源S[n']からの被り音の混合比q[n,n']を含む混合行列Qが、訓練用のNチャネルの観測包絡線Ex[1]~Ex[N]から事前に生成される。混合行列Qは、各音源S[n]に対応する音信号A[n]に他の音源S[n']からの被り音が含まれる度合(音被りの度合)を表す。ここでは、音信号A[n]の概形を表す観測包絡線Ex[n]が処理されるから、音信号A[n]を処理する構成と比較して、混合行列Qを生成する学習処理Sbの負荷を軽減することが可能である。
なお、推定処理Saと学習処理Sbとの相違点は、推定処理Saでは混合行列Qが固定されるのに対して学習処理Sbでは混合行列Qが係数行列Yとともに更新される点である。すなわち、混合行列Qの更新の有無以外の点については推定処理Saと学習処理Sbとは共通する。したがって、学習処理部32の機能を推定処理部31として利用してもよい。すなわち、学習処理部32による学習処理Sbにおいて混合行列Qを固定し、かつ、単位期間Tu[m]のM個分にわたる観測包絡線Ex[n]を纏めて処理することで推定処理Saが実現される。前述の例示では、推定処理部31と学習処理部32とを別個の要素として説明したが、推定処理部31と学習処理部32とを1個の要素として音響処理装置10に搭載してもよい。
[3]音響処理部34
図3に例示される通り、制御装置11は、音響処理プログラムP4を実行することで音響処理部34として機能する。音響処理部34は、Nチャネルの音信号A[1]~A[N]の各々に対して音響処理を実行することで音信号B[n](B[1]~B[N])を生成する。具体的には、音響処理部34は、推定処理部31が生成した出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理を、音信号A[n]に対して実行する。出力包絡線Ey[n]は、前述の通り、音信号A[n]における音源S[n]からの目的音の概形を表す包絡線である。具体的には、音響処理部34は、出力包絡線Ey[n]のレベルy[n,m]に応じて音信号A[n]に設定された複数の処理期間Hの各々について音響処理を実行する。
例えば、N個の音源S[1]~S[N]のうち任意の2個の音源S[k1]および音源S[k2]に着目する。音響処理部34は、音信号A[k1]に対して出力包絡線Ey[k1]のレベルy[k1,m]に応じた音響処理を実行し、音信号A[k2]に対して出力包絡線Ey[k2]のレベルy[k2,m]に応じた音響処理を実行する。
音響処理部34は、Nチャネルの音信号B[1]~B[N]から音信号Bを生成する。具体的には、音響処理部34は、Nチャネルの音信号B[1]~B[N]の各々に係数を乗算したうえでNチャネル分を混合することで音信号Bを生成する。各音信号B[n]の係数(すなわち加重値)は、例えば操作装置14に対する利用者からの指示に応じて設定される。
音響処理部34は、音信号A[n]の音量を制御するダイナミクス制御を含む音響処理を実行する。ダイナミクス制御は、例えばゲート処理およびコンプレッサ処理等のエフェクタ処理を含む。利用者は、操作装置14を適宜に操作することで音響処理の種類を選択することが可能である。音響処理の種類は、Nチャネルの音信号A[1]~A[N]の各々について個別に選択されてもよいし、Nチャネルの音信号A[1]~A[N]について一括的に選択されてもよい。
[3A]ゲート処理
図8は、音響処理のうちゲート処理の説明図である。利用者がゲート処理を選択した場合、音響処理部34は、出力包絡線Ey[n]のレベルy[n,m]が所定の閾値yTH1を下回る可変長の期間を処理期間Hとして設定する。閾値yTH1は、例えば操作装置14に対する利用者からの指示に応じた可変値である。ただし、閾値yTH1を所定値に固定してもよい。
音響処理部34は、音信号A[n]における各処理期間Hの音量を低減する。具体的には、音響処理部34は、処理期間H内における音信号A[n]のレベルをゼロに設定(すなわち消音)する。以上に例示したゲート処理によれば、音信号A[n]における他の音源S[n']からの被り音を有効に低減できる。
[3B]コンプレッサ処理
図9は、音響処理のうちコンプレッサ処理の説明図である。利用者がコンプレッサ処理を選択した場合、音響処理部34は、第nチャネルの出力包絡線Ey[n]のレベルy[n,m]が所定の閾値yTH2を上回る処理期間Hにおいて、当該第nチャネルの音信号A[n]のゲインを低下させる。閾値yTH2は、例えば操作装置14に対する利用者からの指示に応じた可変値である。ただし、閾値yTH2を所定値に固定してもよい。
音響処理部34は、音信号A[n]における各処理期間Hの音量を低減する。具体的には、音響処理部34は、音信号A[n]の各処理期間Hについてゲインを低下させることで信号値を低減する。音信号A[n]のゲインを低減する度合(レシオ)は、例えば操作装置14に対する利用者からの指示に応じて設定される。前述の通り、出力包絡線Ey[n]は音源S[n]からの目的音の概形を表す信号である。したがって、出力包絡線Ey[n]のレベルy[n,m]が閾値yTH2を上回る処理期間Hについて音信号A[n]の音量を低減することで、音信号A[n]の目的音における音量の変化を有効に制御できる。
図10は、音響処理装置10の制御装置11が実行する全体的な動作を例示するフローチャートである。例えばN個の音源S[1]~S[N]の発音に並行して、解析期間Ta毎に図10の処理が実行される。
制御装置11(推定処理部31)は、Nチャネルの観測包絡線Ex[1]~Ex[N]と、混合行列Qと、Nチャネルの出力包絡線Ey[1]~Ey[N]とを取得する(S1)。具体的には、制御装置11は、Nチャネルの観測包絡線Ex[1]~Ex[N]とNチャネルの出力包絡線Ey[1]~Ey[N]とを図6の推定処理Saにより生成し、事前の学習処理Sbにより生成された混 制御装置11(推定処理部31)は、前述の推定処理Saにより、Nチャネルの観測包絡線Ex[1]~Ex[N]と、混合行列Qとから、Nチャネルの出力包絡線Ey[1]~Ey[N]を生成する(S1)。具体的には、制御装置11は、第1に、Nチャネルの音信号A[1]~A[N]から観測包絡線Ex[1]~Ex[N]を生成する。第2に、制御装置11は、Nチャネルの出力包絡線Ey[1]~Ey[N]を図6の推定処理Saにより生成する。
制御装置11(音響処理部34)は、Nチャネルの音信号A[1]~A[N]の各々に対して出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理を実行する(S2)。具体的には、制御装置11は、出力包絡線Ey[n]のレベルy[n,m]に応じて音信号A[n]に設定される各処理期間Hについて音響処理を実行する。
以上に説明した通り、第1実施形態においては、観測包絡線Ex[n]における音源S[n]からの目的音の概形を表す出力包絡線Ey[n]のレベルy[n,m]に応じた音響処理が音信号A[n]に対して実行されるから、音信号A[n]に含まれる被り音の影響を低減して適切な音響処理を音信号A[n]に対して実行することが可能である。
B:第2実施形態
第2実施形態について説明する。なお、以下に例示する各形態において機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態においては、複数の単位期間Tu[m](Tu[1]~Tu[M])を含む解析期間Ta毎に推定処理Saが実行される。第2実施形態においては、単位期間Tu[m]毎に推定処理Saが実行される。すなわち、第2実施形態は、第1実施形態における1個の解析期間Taに含まれる単位期間Tu[m]の個数Mを1に限定した形態である。
図11は、第2実施形態における推定処理Saの説明図である。第2実施形態においては、時間軸上の単位期間Tu[i]毎(iは自然数)毎にNチャネルのレベルx[1,i]~x[N,i]が生成される。観測行列Xは、1個の単位期間Tu[i]に対応するNチャネルのレベルx[1,i]~x[N,i]を縦方向に配列したN行1列の非負行列である。したがって、複数の単位期間Tu[i]にわたる観測行列Xの時系列が、Nチャネルの観測包絡線Ex[1]~Ex[N]に相当する。すなわち、第nチャネルの観測包絡線Ex[n]は、複数の単位期間Tu[i]にわたるレベルx[n,i]の時系列で表現される。同様に、係数行列Yは、1個の単位期間Tu[i]に対応するNチャネルのレベルy[1,i]~y[N,i]を縦方向に配列したN行1列の非負行列である。したがって、複数の単位期間Tu[i]にわたる係数行列Yの時系列が、Nチャネルの出力包絡線Ey[1]~Ey[N]に相当する。混合行列Qは、第1実施形態と同様に、複数の混合比q[n1,n2]を配列したN行N列の正方行列である。
第1実施形態においては、M個の単位期間Tu[1]~Tu[M]を含む解析期間Ta毎に図6の推定処理Saが実行される。第2実施形態においては、単位期間Tu[i]毎に推定処理Saが実行される。すなわち、N個の音源S[1]~S[N]による発音に並行して実時間的に推定処理Saが実行される。なお、推定処理Saの内容は第1実施形態と同様である。他方、学習処理Sbは、第1実施形態と同様に、M個の単位期間Tu[1]~Tu[m]を含むう1個の解析期間Taについて実行される。すなわち、第2実施形態においては、推定処理Saが単位期間Tu[i]毎のレベルy[n,i]を算定するリアルタイム処理であるのに対し、学習処理Sbは、複数の単位期間Tu[1]~Tu[M]にわたる出力包絡線Ey[n]を算定するノンリアルタイム処理である。
以上の説明から理解される通り、第2実施形態によれば、N個の音源S[1]~S[N]による発音に対する出力包絡線Ey[n]の遅延が低減される。すなわち、N個の音源S[1]~S[N]による発音に並行して実時間的に各出力包絡線Ey[n]を生成できる。
図10に例示した処理(S1,S2)は、単位期間Tu[i]毎に実行される。具体的には、制御装置11(音響処理部34)は、音信号A[n]に対する音響処理を単位期間Tu[i]毎に実行する(S3)。したがって、N個の音源S[1]~S[N]の発音に対して遅延なく各音信号A[n]を処理できる。
C:第3実施形態
図12は、第3実施形態における推定処理Saの説明図である。第1実施形態の推定処理部31における包絡線取得部311は、相異なる音源S[n]に対応するNチャネルの観測包絡線Ex[1]~Ex[N]を生成する。第3実施形態の包絡線取得部311は、相異なる周波数帯域に対応する3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をチャネル毎に生成する。観測包絡線Ex[n]_Lは低周波数帯域に対応し、観測包絡線Ex[n]_Mは中周波数帯域に対応し、観測包絡線Ex[n]_Hは高周波数帯域に対応する。低周波数帯域は中周波数帯域の低域側に位置し、高周波数帯域は中周波数帯域の高域側に位置する。具体的には、低周波数帯域は中周波数帯域の下端値を下回る周波数帯域であり、高周波数帯域は中周波数帯域の上端値を上回る周波数帯域である。なお、観測包絡線Ex[n]が算定される周波数帯域の総数は3に限定されず任意である。なお、低周波数帯域と中周波数帯域と高周波数帯域とは、部分的に相互に重複してもよい。
包絡線取得部311は、各音信号A[n]を低周波数帯域と中周波数帯域と高周波数帯域の3個の周波数帯域に分割し、第1実施形態と同様の方法により周波数帯域毎に観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)生成する。以上の説明から理解される通り、観測行列Xは、3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルにわたり配列した3N行M列の非負行列である。また、混合行列Qは、相異なる周波数帯域に対応する3個の要素をNチャネルにわたり配列した3N行3N列の正方行列である。
信号処理部312は、相異なる周波数帯域に対応する3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルの各々について生成する。出力包絡線Ey[n]_Lは低周波数帯域に対応し、出力包絡線Ey[n]_Mは中周波数帯域に対応し、出力包絡線Ey[n]_Hは高周波数帯域に対応する。したがって、係数行列Yは、3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルにわたり配列した3N行M列の非負行列である。信号処理部312は、既知の混合行列Qを利用した非負値行列因子分解により、観測行列Xから係数行列Yを生成する。
以上の説明では推定処理Saに着目したが、学習処理Sbについても同様である。具体的には、学習処理部32の包絡線取得部321は、相異なる周波数帯域に対応する3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルの各々の音信号A[n]から生成する。すなわち、包絡線取得部321は、3系統の観測包絡線Ex[n](Ex[n]_L,Ex[n]_M,Ex[n]_H)をNチャネルにわたり配列した3N行N列の観測行列Xを生成する。混合行列Qは、相異なる周波数帯域に対応する3個の要素をNチャネルにわたり配列した9行9列の正方行列である。係数行列Yは、相異なる周波数帯域に対応する3系統の出力包絡線Ey[n](Ey[n]_L,Ey[n]_M,Ey[n]_H)をNチャネルにわたり配列した3N行N列の非負行列である。信号処理部322は、非負値行列因子分解により観測行列Xから混合行列Qと係数行列Yとを生成する。
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態においては、各チャネルの観測包絡線Ex[n]および出力包絡線Ey[n]が複数の周波数帯域に分離されるから、音源S[n]の目的音を高精度に反映した観測包絡線Ex[n]および出力包絡線Ey[n]を生成できるという利点がある。なお、図12においては第1実施形態を基礎とした構成を例示したが、単位期間Tu[i]毎に推定処理Saを実行する第2実施形態にも、第3実施形態の構成は同様に適用される。
D:変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。
(1)前述の各形態では、前掲の数式(1)の演算により各音信号A[n]の観測包絡線Ex[n]を生成したが、包絡線取得部311または包絡線取得部321が観測包絡線Ex[n]を生成する方法は以上の例示に限定されない。例えば、音信号A[n]の正側の各ピークから経時的に減衰する曲線または直線により観測包絡線Ex[n]を構成してもよい。また、音信号A[n]の正側の成分を平滑化することで観測包絡線Ex[N]を生成してもよい。
(2)前述の各形態では、音響処理装置10の包絡線取得部311および包絡線取得部321が各音信号A[n]から観測包絡線Ex[n]を生成したが、外部装置で生成された観測包絡線Ex[n]を包絡線取得部311または包絡線取得部321が受信してもよい。すなわち、包絡線取得部311または包絡線取得部321は、音信号A[n]に対する処理で観測包絡線Ex[n]を生成する要素と、外部装置により生成された観測包絡線Ex[n]を受信する要素との双方を含む。
(3)前述の各形態では非負値行列因子分解を例示したが、Nチャネルの観測包絡線Ex[1]~Ex[N]からNチャネルの出力包絡線Ey[1]~Ey[N]を生成するための方法は以上の例示に限定されない。例えば、非負拘束最小2乗法(NNLS:Non-Negative Least Squares)を利用して各出力包絡線Ey[n]を生成してもよい。すなわち、混合行列Qと係数行列Yとにより観測行列Xを近似する任意の最適化手法が利用される。
(4)前述の各形態では、音響処理部34が音信号A[n]に対してゲート処理またはコンプレッサ処理を実行する構成を例示したが、音響処理部34が実行する音響処理の内容は以上の例示に限定されない。ゲート処理またはコンプレッサ処理のほか、例えばリミッタ処理、エクスパンダ処理またはマキシマイザ処理等のダイナミクス制御を、音響処理部34が実行してもよい。リミッタ処理は、例えば、音信号A[n]において出力包絡線Ey[n]のレベルy[n,m]が閾値を上回る各処理期間Hについて、所定値を上回る音量を当該所定値に設定する処理である。エクスパンダ処理は、音信号A[n]における各処理期間Hの音量を減少させる処理である。また、マキシマイザ処理は、音信号A[n]における各処理期間Hの音量を増加させる処理である。また、音響処理は、音信号A[n]の音量を制御するダイナミクス制御に限定されない。例えば、音信号A[n]の各処理期間Hに波形の歪を発生させるディストーション処理、または、音信号A[n]の各処理期間Hに残響を付与するリバーブ処理、等の各種の音響処理が、音響処理部34により実行される。
(5)携帯電話機またはスマートフォン等の端末装置との間で通信するサーバ装置により音響処理装置10を実現してもよい。例えば、音響処理装置10は、端末装置から受信したNチャネルの音信号A[1]~A[N]に対する推定処理Saまたは学習処理Sbにより、Nチャネルの出力包絡線Ey[1]~Ey[N]を生成する。なお、Nチャネルの観測包絡線Ex[1]~Ex[N]が端末装置から送信される構成では、包絡線取得部311または包絡線取得部321がNチャネルの観測包絡線Ex[1]~Ex[N]を端末装置から受信する。音響処理装置10の音響処理部34は、各音信号A[n]に対する音響処理で生成した音信号Bを端末装置に送信する。
(6)前述の各形態においては、推定処理部31と学習処理部32と音響処理部34とを具備する音響処理装置10を例示したが、音響処理装置10の一部の要素を省略してもよい。例えば、外部装置により生成された混合行列Qが音響処理装置10に供給される構成では学習処理部32が省略される。また、混合行列Qを生成する学習処理部32を具備する装置は、機械学習装置とも換言される。
(7)以上に例示した音響処理装置10の機能は、前述の通り、制御装置11を構成する単数または複数のプロセッサと記憶装置12に記憶されたプログラム(P1~P4)との協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。
E:付記
以上に例示した形態から、例えば以下の構成が把握される。
本開示のひとつの態様(態様1)に係る音響処理方法は、音源からの音を収音した音信号の概形を表す観測包絡線を取得し、前記観測包絡線における前記音源からの音の概形を表す出力包絡線を、前記観測包絡線から生成し、前記音信号に対して前記出力包絡線のレベルに応じた音響処理を実行する。
以上の態様によれば、観測包絡線における音源からの音の概形を表す出力包絡線のレベルに応じた音響処理が音信号に対して実行されるから、音信号に含まれる被り音の影響を低減して適切な音響処理を音信号に対して実行することが可能である。
なお、「観測包絡線の取得」は、音信号に対する信号処理で観測包絡線を生成する動作と、他装置により生成された観測包絡線を受信する動作との双方を含む。また、「観測包絡線における音源からの音の概形を表す出力包絡線」とは、観測包絡線における音源以外の音源からの被り音が抑圧(理想的には除去)された包絡線を意味する。
態様1の具体例(態様2)において、前記音響処理は、前記音信号において前記出力包絡線のレベルに応じた期間の音量を制御するダイナミクス制御を含む。態様2の具体例(態様3)において、前記ダイナミクス制御は、前記音信号において前記出力包絡線のレベルが閾値を下回る期間を消音するゲート処理を含む。以上の態様によれば、音信号において音以外の被り音の音量を有効に低減できる。また、態様2または態様3の具体例(態様4)において、前記ダイナミクス制御は、前記音信号において前記出力包絡線のレベルが閾値を上回る期間について所定値を上回る音量を低減するコンプレッサ処理を含む。以上の態様によれば、音信号における音の音量を有効に低減できる。
態様1から態様4の何れかの具体例(態様5)において、前記観測包絡線の取得においては、当該観測包絡線におけるレベルを単位期間毎に順次に取得し、前記出力包絡線の生成においては、前記単位期間毎に、前記出力包絡線の1個のレベルを生成する。以上の態様によれば、音源による発音に対する出力包絡線の遅延を充分に低減できる。
本開示のひとつの態様(態様6)に係る音響処理方法は、第1音源からの音を収音した第1音信号の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得し、前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成し、前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する。
以上の態様によれば、第1観測包絡線における第1音源からの音の概形を表す第1出力包絡線のレベルに応じた音響処理が第1音信号に対して実行され、第2観測包絡線における第2音源からの音の概形を表す第2出力包絡線のレベルに応じた音響処理が第2音信号に対して実行される。したがって、第1音信号および第2音信号の各々に含まれる被り音の影響を低減して適切な音響処理を実行することが可能である。
本開示のひとつの態様に係る音響処理装置は、以上に例示した各態様の音響処理方法を実行する。また、本開示のひとつの態様に係るプログラムは、以上に例示した各態様の音響処理方法をコンピュータに実行させる。
100…音響処理システム、10…音響処理装置、20…再生装置、D[n](D[1]~D[N])…収音装置、11…制御装置、12…記憶装置、13…表示装置、14…操作装置、15…通信装置、31…推定処理部、311…包絡線取得部、312…信号処理部、32…学習処理部、321…包絡線取得部、322…信号処理部、34…音響処理部。

Claims (10)

  1. 相異なる音源からの音を収音した音信号の時間軸上における波形の概形を表す複数の観測包絡線を取得し、
    前記複数の観測包絡線のうち第1音源からの音を収音した第1音信号に対応する第1観測包絡線について前記第1音源以外の音源からの被り音を低減した第1出力包絡線を、前記複数の観測包絡線から生成し、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行す
    コンピュータにより実現される音響処理方法。
  2. 前記音響処理は、前記第1音信号において前記第1出力包絡線のレベルに応じた期間の音量を制御するダイナミクス制御を含む
    請求項1の音響処理方法。
  3. 前記ダイナミクス制御は、前記第1音信号において前記第1出力包絡線のレベルが閾値を下回る期間を消音するゲート処理を含む
    請求項2の音響処理方法。
  4. 前記ダイナミクス制御は、前記第1音信号において前記第1出力包絡線のレベルが閾値を上回る期間について所定値を上回る音量を低減するコンプレッサ処理を含む
    請求項2または請求項3の音響処理方法。
  5. 前記観測包絡線の取得においては、当該観測包絡線におけるレベルを単位期間毎に順次に取得し、
    前記第1出力包絡線の生成においては、前記単位期間毎に、前記第1出力包絡線の1個のレベルを生成する
    請求項1から請求項4の何れかの音響処理方法。
  6. 第1音源からの音を収音した第1音信号の時間軸上における波形の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の時間軸上における波形の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得し、
    前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の時間軸上における波形の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の時間軸上における波形の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成し、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、
    前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する
    コンピュータにより実現される音響処理方法。
  7. 相異なる音源からの音を収音した音信号の時間軸上における波形の概形を表す複数の観測包絡線を取得する包絡線取得部と、
    前記複数の観測包絡線のうち第1音源からの音を収音した第1音信号に対応する第1観測包絡線について前記第1音源以外の音源からの被り音を低減した第1出力包絡線を、前記複数の観測包絡線から生成する信号処理部と、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行する音響処理部と
    を具備する音響処理装置。
  8. 第1音源からの音を収音した第1音信号の時間軸上における波形の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の時間軸上における波形の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部と、
    前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の時間軸上における波形の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の時間軸上における波形の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成する信号処理部と、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する音響処理部と
    を具備する音響処理装置。
  9. 相異なる音源からの音を収音した音信号の時間軸上における波形の概形を表す複数の観測包絡線を取得する包絡線取得部、
    前記複数の観測包絡線のうち第1音源からの音を収音した第1音信号に対応する第1観測包絡線について前記第1音源以外の音源からの被り音を低減した第1出力包絡線を、前記複数の観測包絡線から生成する信号処理部、および、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行する音響処理部
    としてコンピュータを機能させるプログラム。
  10. 第1音源からの音を収音した第1音信号の時間軸上における波形の概形を表す第1観測包絡線と、第2音源からの音を収音した第2音信号の時間軸上における波形の概形を表す第2観測包絡線と、を含む複数の観測包絡線を取得する包絡線取得部、
    前記第1観測包絡線における前記第2音源からの被り音の混合比と、前記第2観測包絡線における前記第1音源からの被り音の混合比と、を含む混合行列を利用して、前記複数の観測包絡線から、前記第1観測包絡線における前記第1音源からの音の時間軸上における波形の概形を表す第1出力包絡線と、前記第2観測包絡線における前記第2音源からの音の時間軸上における波形の概形を表す第2出力包絡線と、を含む複数の出力包絡線を生成する信号処理部、および、
    前記第1音信号に対して前記第1出力包絡線のレベルに応じた音響処理を実行し、前記第2音信号に対して前記第2出力包絡線のレベルに応じた音響処理を実行する音響処理部
    としてコンピュータを機能させるプログラム。
JP2019177967A 2019-09-27 2019-09-27 音響処理方法、音響処理装置およびプログラム Active JP7484118B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2019177967A JP7484118B2 (ja) 2019-09-27 2019-09-27 音響処理方法、音響処理装置およびプログラム
CN202080064954.2A CN114402387A (zh) 2019-09-27 2020-09-23 音响处理方法及音响处理系统
PCT/JP2020/035723 WO2021060251A1 (ja) 2019-09-27 2020-09-23 音響処理方法および音響処理システム
EP20868500.8A EP4036915A1 (en) 2019-09-27 2020-09-23 Acoustic treatment method and acoustic treatment system
US17/703,697 US20220215822A1 (en) 2019-09-27 2022-03-24 Audio processing method, audio processing system, and computer-readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019177967A JP7484118B2 (ja) 2019-09-27 2019-09-27 音響処理方法、音響処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2021057711A JP2021057711A (ja) 2021-04-08
JP7484118B2 true JP7484118B2 (ja) 2024-05-16

Family

ID=75271335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019177967A Active JP7484118B2 (ja) 2019-09-27 2019-09-27 音響処理方法、音響処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP7484118B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510017A (ja) 2002-12-18 2006-03-23 キネティック リミテッド 信号分離
JP2006337415A (ja) 2005-05-31 2006-12-14 Nec Corp 雑音抑圧の方法及び装置
WO2008133097A1 (ja) 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
JP2013066079A (ja) 2011-09-17 2013-04-11 Yamaha Corp かぶり音除去装置
JP2019159012A (ja) 2018-03-09 2019-09-19 ヤマハ株式会社 音処理方法および音処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3381074B2 (ja) * 1992-09-21 2003-02-24 ソニー株式会社 音響構成装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510017A (ja) 2002-12-18 2006-03-23 キネティック リミテッド 信号分離
JP2006337415A (ja) 2005-05-31 2006-12-14 Nec Corp 雑音抑圧の方法及び装置
WO2008133097A1 (ja) 2007-04-13 2008-11-06 Kyoto University 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム
JP2013066079A (ja) 2011-09-17 2013-04-11 Yamaha Corp かぶり音除去装置
JP2019159012A (ja) 2018-03-09 2019-09-19 ヤマハ株式会社 音処理方法および音処理装置

Also Published As

Publication number Publication date
JP2021057711A (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
CN107533848B (zh) 用于话音恢复的系统和方法
JP5262324B2 (ja) 音声合成装置およびプログラム
JP2003316371A (ja) 残響付与装置、残響付与方法、インパルス応答生成装置、インパルス応答生成方法、残響付与プログラム、インパルス応答生成プログラムおよび記録媒体
WO2017057530A1 (ja) 音響処理装置及び音響処理方法
JP2018106006A (ja) 楽音生成装置および方法、電子楽器
US20220215822A1 (en) Audio processing method, audio processing system, and computer-readable medium
JP7484118B2 (ja) 音響処理方法、音響処理装置およびプログラム
JP6455878B2 (ja) 共鳴音発生装置およびプログラム
JP7439432B2 (ja) 音響処理方法、音響処理装置およびプログラム
JP7439433B2 (ja) 表示制御方法、表示制御装置およびプログラム
JP6925995B2 (ja) 信号処理装置、音声強調装置、信号処理方法およびプログラム
JP2008072600A (ja) 音響信号処理装置、音響信号処理プログラム、音響信号処理方法
US11127387B2 (en) Sound source for electronic percussion instrument and sound production control method thereof
WO2021172181A1 (ja) 音響処理方法、推定モデルの訓練方法、音響処理システムおよびプログラム
WO2017135350A1 (ja) 記録媒体、音響処理装置および音響処理方法
JP2007033804A (ja) 音源分離装置,音源分離プログラム及び音源分離方法
JP7184218B1 (ja) 音響機器および該音響機器のパラメータ出力方法
JP6337698B2 (ja) 音響処理装置
JP6409417B2 (ja) 音響処理装置
JP2008512699A (ja) 入力信号に残響を加える装置及び方法
US20230306944A1 (en) Sound processing device and method of outputting parameter of sound processing device
Nag et al. Automation in Audio Enhancement using Unsupervised Learning for Ubiquitous Computational Environment
US20230260490A1 (en) Selective tone shifting device
JP7088403B2 (ja) 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
JP2024077977A (ja) プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7484118

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150