JP2022059767A

JP2022059767A - 音響処理方法および音響処理システム

Info

Publication number: JP2022059767A
Application number: JP2020167568A
Authority: JP
Inventors: 訓史鵜飼; Norifumi Ukai; 孝光青木; Takamitsu Aoki; 元一田邑; Genichi Tamura; 信也小関; Shinya Koseki; 英昭竹久; Hideaki Takehisa
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2020-10-02
Filing date: 2020-10-02
Publication date: 2022-04-14
Anticipated expiration: 2040-10-02
Also published as: US12328556B2; JP7622391B2; CN116325793A; WO2022071188A1; US20230262388A1; JP2025015826A

Abstract

【課題】遠端装置から受信される遠端音の放音と近端の利用者が発音する近端音の収音とが並列に実行される環境において、収音信号に対する音響処理に適用される処理パラメータを適切に制御する。【解決手段】放音処理システム１００aは、遠端の利用者が発音する遠端音を表す音響信号Ｘを遠端装置から受信し、音響信号Ｘが表す遠端音を放音装置１５により放音する。音響処理部３０は、近端の利用者Ｕaが発音する近端音を含む音響の収音により収音装置１４が生成する収音信号Ｒaに対し、処理パラメータを適用した音響処理を実行することで音響信号Ｙを生成する。通信制御部２０は、音響信号Ｙを遠端装置に送信する。更新処理部４０は、音響信号Ｘまたは収音信号Ｒaに応じて処理パラメータを更新する。動作制御部６０は、近端音および前記遠端音の少なくとも一方が演奏音を含む場合における処理パラメータの更新速度と、演奏音を含まない場合における処理パラメータの更新速度とが相違するように、処理パラメータの更新を制御する。【選択図】図３

Description

本開示は、音響信号を処理する技術に関する。

放音装置と収音装置とを具備する複数の通信装置が通信網を介して相互に通信する環境においては、放音装置から収音装置に伝播する帰還音に起因したエコーが問題となる。例えば特許文献１には、帰還音を近似する疑似エコー信号を適応フィルタにより生成し、収音装置が生成する収音信号から疑似エコー信号を減算するエコー低減装置が開示されている。特許文献１の技術においては、遠端側の利用者が発話している場合に適応フィルタの複数の係数が更新され、遠端側の利用者が発話していない場合には係数の更新が停止される。

特開２０１７－１６３３０５号公報

ところで、通信装置を利用することで複数の利用者が遠隔地で音楽を演奏する場合がある。例えば、楽器の演奏者を遠隔地の指導者が指導する遠隔音楽教習、または、複数の演奏者が遠隔地で共通の楽曲を演奏する遠隔合奏が想定される。しかし、各利用者が演奏している期間内に係数の更新により適応フィルタの周波数応答が変動すると、利用者が意図した演奏表現が減殺される可能性がある。なお、以上の説明では適応フィルタの係数の更新に着目したが、収音装置による収音信号に対する他種の音響処理においても同様の問題が想定される。以上の事情を考慮して、本開示の目的のひとつは、遠端装置から受信される遠端音の放音と近端の利用者が発音する近端音の収音とが並列に実行される環境において、収音信号に対する音響処理に適用される処理パラメータを適切に制御することにある。

以上の課題を解決するために、本開示のひとつの態様に係る音響処理方法は、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音し、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、前記第２音響信号を前記遠端装置に送信し、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する。

本開示の他の態様に係る音響処理方法は、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音し、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、前記第２音響信号を前記遠端装置に送信し、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する。

本開示のひとつの態様に係る音響処理システムは、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、前記第２音響信号を前記遠端装置に送信する通信制御部と、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部とを具備する。

本開示の他の態様に係る音響処理システムは、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、前記第２音響信号を前記遠端装置に送信する通信制御部と、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部とを具備する。

第１実施形態に係る通信システムの構成を例示するブロック図である。音響処理システムの構成を例示するブロック図である。音響処理システムの機能的な構成を例示するブロック図である。エコー抑圧部の具体的な構成を例示するブロック図である。判定処理の具体的な手順を例示するフローチャートである。判定処理部が使用する推定モデルの説明図である。動作制御部の動作の説明図である。制御処理の具体的な手順を例示するフローチャートである。第２実施形態における音響処理システムの機能的な構成を例示するブロック図である。第２実施形態における設定部の具体的な構成を例示するブロック図である。第２実施形態における動作制御部の動作の説明図である。第２実施形態における制御処理の具体的な手順を例示するフローチャートである。第３実施形態における音響処理システムの機能的な構成を例示するブロック図である。

Ａ：第１実施形態
図１は、第１実施形態に係る通信システム１の構成を例示するブロック図である。通信システム１は、例えば音楽の教習に利用されるコンピュータシステムであり、音響処理システム１００aと音響処理システム１００bとを具備する。音響処理システム１００aおよび音響処理システム１００bの各々は、例えば携帯電話機、スマートフォン、タブレット端末、またはパーソナルコンピュータ等の情報端末により実現される。なお、遠隔地間における音響の授受に利用される遠隔会議装置（いわゆるスピーカフォン）も音響処理システム１００aまたは音響処理システム１００bとして利用される。音響処理システム１００aと音響処理システム１００bとは、例えばインターネット等の通信網２００を介して相互に通信する。なお、音響処理システム１００aと音響処理システム１００bとの間の通信の方式は任意である。例えば、音響処理システム１００aと音響処理システム１００bとの間に確立される通信経路の一部は無線区間でもよい。

利用者Ｕaは音響処理システム１００aを利用し、利用者Ｕbは音響処理システム１００bを利用する。利用者Ｕaは楽器３００aを演奏し、利用者Ｕbは楽器３００bを演奏する。利用者Ｕaは、例えば、利用者Ｕbに楽器３００bの演奏を指導する指導者である。利用者Ｕbは、例えば、利用者Ｕaにより指導される被指導者である。音響処理システム１００aおよび楽器３００aは、利用者Ｕaが所在する音響空間（例えば音楽教室）に設置され、音響処理システム１００bおよび楽器３００bは、利用者Ｕbが所在する音響空間（例えば利用者Ｕbの自宅）に設置される。楽器３００aおよび楽器３００bは、演奏により発音する自然楽器である。例えば鍵盤楽器、弦楽器または管楽器等の種々の自然楽器が、楽器３００aまたは楽器３００bとして利用される。なお、利用者Ｕbが指導者であり、利用者Ｕaが被指導者である場合も想定される。

利用者Ｕaは、楽器３００aの演奏と利用者Ｕbに対する発話とを実行する。例えば、利用者Ｕaは、利用者Ｕbが参照する模範として楽器３００aを演奏し、かつ、利用者Ｕbを指導するための音声を発話する。なお、以下の説明においては、利用者Ｕaによる発話と楽器３００aの演奏とが時間軸上の相異なる期間に実行される場合を便宜的に想定する。他方、利用者Ｕbは、楽器３００bの演奏と利用者Ｕaに対する発話とを実行する。例えば、利用者Ｕbは、楽器３００bを練習のために演奏し、かつ、利用者Ｕaに対する質問等のための音声を発話する。以下の説明においては、利用者Ｕbによる発話と楽器３００bの演奏とが時間軸上の相異なる期間に実行される場合を便宜的に想定する。

音響処理システム１００bは、音響処理システム１００aに音響信号Ｘを送信する。音響信号Ｘは、音響処理システム１００bの周囲の音響を表す信号である。具体的には、音響信号Ｘは、利用者Ｕbによる演奏で楽器３００bから発音される演奏音、または、利用者Ｕbにより発音される発話音を表す。また、音響処理システム１００aは、音響処理システム１００bに音響信号Ｙを送信する。音響信号Ｙは、音響処理システム１００aの周囲の音響を表す信号である。具体的には、音響信号Ｙは、利用者Ｕaによる演奏で楽器３００aから発音される演奏音、または、利用者Ｕaにより発音される発話音を表す。

演奏音は、楽器３００aまたは楽器３００bから発音される楽器音のほか、利用者Ｕaまたは利用者Ｕbの歌唱により発音される歌唱音を含む。すなわち、演奏音は、音楽を表現する音響（音楽音）として包括的に表現される。また、「演奏」には、楽器３００aまたは楽器３００bを発音させる操作のほか、利用者Ｕaまたは利用者Ｕbによる歌唱も包含される。他方、発話音は、言語を表現する音声（言語音）である。

音響処理システム１００aは、音響信号Ｘが表す音響を利用者Ｕaに対して放音する。利用者Ｕaは、利用者Ｕbによる楽器３００bの演奏音または利用者Ｕbによる発話音を聴取しながら、楽器３００aの演奏または利用者Ｕbに対する発話を実行する。また、音響処理システム１００bは、音響信号Ｙが表す音響を利用者Ｕbに対して放音する。利用者Ｕbは、利用者Ｕaによる楽器３００aの演奏音または利用者Ｕaによる発話音を聴取しながら、楽器３００bの演奏または利用者Ｕbに対する発話を実行する。

図２は、音響処理システム１００aの具体的な構成を例示するブロック図である。なお、音響処理システム１００bの構成は音響処理システム１００aの構成と同様であるため、音響処理システム１００bについては詳細な説明を省略する。音響処理システム１００aに着目したときの音響処理システム１００bは、「遠端装置」の一例である。

音響処理システム１００aは、制御装置１１と記憶装置１２と通信装置１３と収音装置１４と放音装置１５とを具備する。なお、音響処理システム１００aは、単体の装置で実現されるほか、相互に別体で構成された複数の装置でも実現される。

制御装置１１は、音響処理システム１００aの各要素を制御する単数または複数のプロセッサである。具体的には、例えばＣＰＵ（Central Processing Unit）、ＳＰＵ（Sound Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＦＰＧＡ（Field Programmable Gate Array）、またはＡＳＩＣ（Application Specific Integrated Circuit）等の１種類以上のプロセッサにより、制御装置１１が構成される。

記憶装置１２は、制御装置１１が実行するプログラムと制御装置１１が使用する各種のデータとを記憶する単数または複数のメモリである。記憶装置１２は、例えば磁気記録媒体もしくは半導体記録媒体等の公知の記録媒体、または、複数種の記録媒体の組合せで構成される。また、音響処理システム１００aに対して着脱される可搬型の記録媒体、または制御装置１１が通信網２００を介したアクセス可能な記録媒体（例えばクラウドストレージ）を、記憶装置１２として利用してもよい。

通信装置１３は、音響処理システム１００bとの間で通信網２００を介して通信する。具体的には、通信装置１３は、音響処理システム１００bから送信された音響信号Ｘを受信する。また、通信装置１３は、音響信号Ｙを音響処理システム１００bに送信する。音響信号Ｘは「第１音響信号」の一例であり、音響信号Ｙは「第２音響信号」の一例である。

放音装置１５は、通信装置１３が音響処理システム１００bから受信した音響信号Ｘが表す音響（以下「遠端音」という）を放音するスピーカである。すなわち、楽器３００bの演奏音または利用者Ｕbの発話音が遠端音として放音装置１５から放音される。なお、音響信号Ｘをデジタルからアナログに変換するＤ/Ａ変換器の図示は便宜的に省略されている。また、音響処理システム１００aとは別体で構成された放音装置１５が、音響処理システム１００aに有線または無線で接続されてもよい。

収音装置１４は、周囲の音響を収音することで収音信号Ｒaを生成するマイクロホンである。なお、音響処理システム１００aとは別体で構成された収音装置１４が、音響処理システム１００aに有線または無線で接続されてもよい。

具体的には、収音装置１４は、近端の利用者Ｕaが発音する音響（以下「近端音」という）を収音する。近端音は、楽器３００aの演奏音または利用者Ｕaの発話音である。近端音は、音響処理システム１００aから音響処理システム１００bに伝達される目的となる音響（目的音）とも換言される。第１実施形態においては、放音装置１５による遠端音の放音と収音装置１４による近端音の収音とが並列に実行される。

近端音以外の音響も収音装置１４には到達する。例えば、放音装置１５からの帰還音が収音装置１４に到達する。帰還音は、放音装置１５による放音後に音響空間の壁面で反射された音響、または放音装置１５から収音装置１４に直接的に到来する音響である。また、音響空間内に存在する雑音も収音装置１４に到達する。雑音は、例えば空調設備の動作音等の定常的な環境雑音である。以上の説明から理解される通り、収音信号Ｒaは、近端音の音響成分を優勢に含むが、近端音以外の音響成分も含む場合がある。

図３は、音響処理システム１００aの機能的な構成を例示するブロック図である。音響処理システム１００aの制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、複数の機能（通信制御部２０，再生処理部２５，音響処理部３０，更新処理部４０，判定処理部５０および動作制御部６０）を実現する。

通信制御部２０は、音響処理システム１００bから送信された音響信号Ｘを通信装置１３により受信する。再生処理部２５は、通信制御部２０が受信した音響信号Ｘに対して例えばイコライジング等の信号処理を実行する。再生処理部２５による処理後の音響信号Ｘが放音装置１５に供給される。音響信号Ｘが放音装置１５に供給されることで、利用者Ｕbの発話音または楽器３００bの演奏音が遠端音として放音される。

音響処理部３０は、収音装置１４が生成する収音信号Ｒaに対して音響処理を実行することで音響信号Ｙを生成する。通信制御部２０は、音響処理部３０が生成する音響信号Ｙを通信装置１３から音響処理システム１００b（遠端装置）に送信する。第１実施形態の音響処理部３０は、エコー抑圧部３１と雑音抑圧部３２と音量調整部３３とを具備する。

エコー抑圧部３１は、収音信号Ｒaに対してエコー抑圧処理を実行することで収音信号Ｒbを生成する。エコー抑圧処理は、収音信号Ｒaに含まれる帰還音（すなわちエコー）を抑圧する信号処理（ＡＥＣ：Adaptive Echo Canceller）である。すなわち、収音信号Ｒaに含まれる近端音が強調された収音信号Ｒbが生成される。

図４は、エコー抑圧部３１の具体的な構成を例示するブロック図である。第１実施形態のエコー抑圧部３１は、適応フィルタ３１１と減算処理部３１２とを具備する。適応フィルタ３１１は、音響信号Ｘから疑似エコー信号Ｅを生成する。疑似エコー信号Ｅは、放音装置１５から収音装置１４に到達する帰還音を近似する音響信号である。減算処理部３１２は、収音信号Ｒaから疑似エコー信号Ｅを減算することで収音信号Ｒbを生成する。以上の説明から理解される通り、エコー抑圧部３１が実行するエコー抑圧処理は、音響信号Ｘから疑似エコー信号Ｅを生成する適応フィルタ処理と、収音信号Ｒaから疑似エコー信号Ｅを減算する減算処理とを含む。

第１実施形態の適応フィルタ３１１は、複数（Ｎ個）の調整部３１５_1～３１５_Nと１個の加算部３１６とを具備するＦＩＲ（Finite Impulse Response）フィルタである。第ｎ番目（ｎ＝１～Ｎ）の調整部３１５_nには、(n-1)個の遅延部３１７により遅延された音響信号Ｘが供給される。調整部３１５_nは、音響信号Ｘの音量を係数Ｃnに応じて調整する。具体的には、調整部３１５_nは、音響信号Ｘに係数Ｃnを乗算する乗算器である。加算部３１６は、Ｎ個の調整部３１５_1～３１５_Nによる調整後のＮ系統の音響信号Ｘを加算することで疑似エコー信号Ｅを生成する。Ｎ個の係数Ｃ1～ＣNは、疑似エコー信号Ｅが帰還音に近似するように収音信号Ｒbに応じて制御される。なお、適応フィルタ３１１の具体的な構成は図４の例示に限定されない。Ｎ個の係数Ｃ1～ＣNに応じて応答特性が変化する適応フィルタ処理を実行可能な構成であれば、公知の任意の構成が適応フィルタ３１１に採用される。

図３の雑音抑圧部３２は、収音信号Ｒbに対して雑音抑圧処理を実行することで収音信号Ｒcを生成する。雑音抑圧処理は、収音信号Ｒbに含まれる雑音成分を抑圧する信号処理である。収音信号Ｒbに含まれる雑音成分は、例えば空調設備の動作音等の定常的な環境雑音である。雑音抑圧処理は、例えば、収音信号Ｒbの周波数スペクトルから雑音成分の周波数スペクトル（以下「雑音スペクトル」という）Ｑを周波数領域において減算するスペクトル減算（ＳＳ：Spectral Subtraction）である。具体的には、雑音抑圧処理は、収音信号Ｒbの周波数スペクトルを算定する周波数解析と、当該周波数スペクトルから雑音スペクトルＱを減算する減算処理と、減算後の周波数スペクトルを時間領域の収音信号Ｒcに変換する波形合成とを含む。雑音スペクトルＱは、収音信号Ｒbに含まれる雑音成分を表すパラメータである。

図３の音量調整部３３は、収音信号Ｒcに対して音量調整処理を実行することで音響信号Ｙを生成する。音響調整処理は、収音信号Ｒcの音量に応じたゲインＧにより当該収音信号Ｒcを増幅する信号処理（ＡＧＣ：Auto Gain Control）である。

以上の説明から理解される通り、第１実施形態の音響処理部３０が実行する音響処理は、エコー抑圧処理と雑音抑圧処理と音量調整処理とを含む。音響処理には処理パラメータが適用される。第１実施形態の処理パラメータは、エコー抑圧処理に適用されるＮ個の係数Ｃ1～ＣNと、雑音抑圧処理に適用される雑音スペクトルＱと、音量調整処理に適用されるゲインＧとを含む。なお、音響処理に含まれる各処理の順序は以上の例示に限定されない。例えば、雑音抑圧処理および音量調整処理の順番は逆転されてもよい。

更新処理部４０は、音響処理部３０が音響処理に適用する処理パラメータを音響信号Ｘまたは収音信号Ｒ（Ｒa～Ｒc）に応じて更新する。更新処理部４０による処理パラメータの更新は、所定の周期で反復される。第１実施形態の更新処理部４０は、設定部４１と設定部４２と設定部４３とを具備する。

設定部４１は、エコー抑圧処理に適用されるＮ個の係数Ｃ1～ＣNを更新する。具体的には、設定部４１は、疑似エコー信号Ｅが帰還音に近似するように、音響信号Ｘと収音信号Ｒaと収音信号Ｒbとに応じてＮ個の係数Ｃ1～ＣNの各々を反復的に更新する。

設定部４２は、雑音抑圧処理に適用される雑音スペクトルＱを収音信号Ｒbに応じて反復的に更新する。具体的には、設定部４２は、近端音および遠端音の双方が無音である期間内における収音信号Ｒbの周波数スペクトルを雑音スペクトルＱとして推定する。なお、設定部４２は、収音信号Ｒaに応じて雑音スペクトルＱを更新してもよい。

設定部４３は、音量調整処理に適用されるゲインＧを収音信号Ｒcの音量に応じて反復的に更新する。具体的には、設定部４３は、収音信号Ｒcの音量が大きいほどゲインＧを小さい数値に設定する。なお、設定部４３は、収音信号Ｒaまたは収音信号Ｒbの音量に応じてゲインＧを更新してもよい。

図３の判定処理部５０は、利用者Ｕaおよび利用者Ｕbによる発音の状況を解析する。具体的には、判定処理部５０は、音響信号Ｘが表す遠端音と収音信号Ｒ（Ｒa，ＲbまたはＲc）が表す近端音との各々について、(1)無音である状態と、(2)演奏音を含む状態と、(3)発話音を含む状態と、の何れに該当するかを判定する。近端音が無音である状態とは、近端音の音量が所定の閾値を下回る状態である。近端音が演奏音を含む状態とは、近端音が演奏音のみを含み発話音を含まない状態、または、近端音が演奏音および発話音の双方を含むけれども演奏音の音量が発話音の音量を上回る状態である。同様に、近端音が発話音を含む状態とは、近端音が発話音を含み演奏音を含まない状態、または、近端音が演奏音および発話音の双方を含むけれども発話音の音量が演奏音の音量を上回る状態である。以上の説明では近端音の状態に着目したが、遠端音の状態についても同様に定義される。また、遠端音または近端音において演奏音の音量と発話音の音量とが同等である場合、判定処理部５０は、遠端音または近端音が演奏音を含むと判定する。

判定処理部５０は、音響信号Ｘを解析することで遠端音の種類（無音／演奏音／発話音）を判定する。また、判定処理部５０は、収音信号Ｒを解析することで近端音の種類（無音／演奏音／発話音）を判定する。近端音に関する判定には、収音信号Ｒaと収音信号Ｒbと収音信号Ｒcとの何れかが利用される。

図５は、判定処理部５０の動作（以下「判定処理」という）Ｓaの具体的な手順を例示するフローチャートである。判定処理部５０による判定処理Ｓaは、例えば所定の周期で反復される。なお、以下の説明においては、収音信号Ｒが表す近端音に関する判定処理Ｓaを便宜的に例示するが、音響信号Ｘが表す遠端音についても同様に判定処理Ｓaが実行される。

判定処理Ｓaが開始されると、判定処理部５０は、収音信号Ｒが表す近端音の音量を算定し（Ｓa1）、近端音の音量が所定の閾値を上回るか否かを判定する（Ｓa2）。近端音の音量が閾値を下回る場合（Ｓa2：NO）、判定処理部５０は、近端音の判定データを、無音を表す数値に設定する（Ｓa3）。判定データは、判定処理部５０による判定の結果を表すデータであり、近端音および遠端音の各々について記憶装置１２に記憶される

無音の判定に適用される閾値は、例えば、空調設備の動作音等の定常的な雑音の音量を上回り、かつ、有意な演奏音または発話音の音量を下回るように実験的または統計的に設定される。以上の説明から理解される通り、近端音または遠端音が無音である状態とは、雑音すら存在しない完全に無音の状態のほか、雑音が存在する状態も包含する。

他方、近端音の音量が閾値を上回る場合（Ｓa2：YES）、判定処理部５０は、近端音が演奏音を含むか否かを判定する（Ｓa4）。近端音が演奏音を含むと判定した場合（Ｓa4：YES）、判定処理部５０は、近端音の判定データを、演奏音を表す数値に設定する（Ｓa5）。他方、近端音が演奏音を含まないと判定した場合（Ｓa4：NO）、判定処理部５０は、近端音の判定データを、発話音を表す数値に設定する（Ｓa6）。すなわち、近端音の音量が閾値を上回り、かつ、近端音が演奏音を含まない場合、当該近端音は発話音を含むと判定される。

図５に例示した判定処理Ｓaが、音響信号Ｘが表す遠端音についても同様に実行される。例えば、遠端音の音量が閾値を下回る場合（Ｓa2：NO）、遠端音の判定データは無音を表す数値に設定される（Ｓa3）。遠端音が演奏音を含む場合（Ｓa4：YES）、遠端音の判定データは演奏音を表す数値に設定される（Ｓa5）。また、遠端音が演奏音を含まない場合（Ｓa4：NO）、遠端音の判定データは発話音を表す数値に設定される（Ｓa6）。

近端音が演奏音および発話音の何れを含むかを判定処理部５０が判定する処理には、図６に例示される推定モデル５１が利用される。推定モデル５１は、入力データＤ1から出力データＤ2を生成する統計的推定モデルである。具体的には、推定モデル５１は、入力データＤ1と出力データＤ2との関係を学習した深層ニューラルネットワークである。例えば畳込ニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）または再帰型ニューラルネットワーク（ＲＮＮ：Recurrent Neural Network）等の任意の形式の深層ニューラルネットワークが推定モデル５１として利用される。

入力データＤ1は、音響信号Ｘまたは収音信号Ｒに応じたデータである。具体的には、音響信号Ｘが表す遠端音または収音信号Ｒが表す近端音の音響特性に関する特徴量が、入力データＤ1として推定モデル５１に供給される。遠端音または近端音の特徴量は、例えば音色の特徴を表すＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）である。ただし、音響信号Ｘまたは収音信号Ｒから算定される周波数スペクトルを入力データＤ1として推定モデル５１に供給してもよい。また、音響信号Ｘまたは収音信号Ｒを構成するサンプルの時系列を入力データＤ1として推定モデル５１に供給してもよい。出力データＤ2は、演奏音および発話音の何れかを指定するデータである。なお、近端音が演奏音に該当する確率と発話音に該当する確率とを表す出力データＤ2を推定モデル５１が出力してもよい。

推定モデル５１は、入力データＤ1の入力に対して出力データＤ2を出力する演算を制御装置１１に実行させるプログラムと、当該演算に適用される複数の変数（例えば加重値およびバイアス）との組合せで実現される。推定モデル５１を規定する複数の変数は、複数の訓練データを利用した教師あり機械学習により設定される。複数の訓練データの各々は、既知の入力データＤ1と既知の出力データＤ2との組合せで構成される。推定モデル５１の機械学習においては、各訓練データの入力データＤ1を暫定的な推定モデル５１に入力したときの出力データＤ2と当該訓練データの出力データＤ2との誤差が低減されるように、推定モデル５１の複数の変数が反復的に更新される。したがって、推定モデル５１は、複数の訓練データにおける入力データＤ1と出力データＤ2との間に潜在する傾向のもとで、未知の入力データＤ1に対して統計的に妥当な出力データＤ2を出力する。

判定処理部５０は、音響信号Ｘに応じた入力データＤ1を推定モデル５１に供給することで、音響信号Ｘが表す遠端音が演奏音および発話音の何れに該当するかを表す出力データＤ2を生成する。また、判定処理部５０は、収音信号Ｒに応じた入力データＤ1を推定モデル５１に供給することで、収音信号Ｒが表す近端音が演奏音および発話音の何れに該当するかを表す出力データＤ2を生成する。

なお、近端音および遠端音の各々について演奏音および発話音の何れを含むかを判定するための方法は以上の例示に限定されない。例えば、演奏音の特徴量と発話音の特徴量との各々に対して収音信号Ｒの特徴量を照合し、演奏音および発話音のうち特徴量が近端音に類似するほうが当該近端音に含まれる、と判定処理部５０が判定してもよい。同様に、演奏音の特徴量と発話音の特徴量との各々に対して音響信号Ｘの特徴量を照合し、演奏音および発話音のうち特徴量が遠端音に類似するほうが当該遠端音に含まれる、と判定処理部５０が判定してもよい。また、推定モデル５１を利用する構成において、推定モデル５１は深層ニューラルネットワークに限定されない。例えば、ＨＭＭ（Hidden Markov Model）またはＳＶＭ（Support Vector Machine）等の統計的推定モデルを、推定モデル５１として利用してもよい。

図３の動作制御部６０は、更新処理部４０による処理パラメータの更新を制御する。具体的には、動作制御部６０は、判定処理部５０による判定の結果に応じて更新処理部４０の動作を制御する。第１実施形態の動作制御部６０は、更新処理部４０の各要素（設定部４１，設定部４２および設定部４３）が処理パラメータを反復的に更新する動作の継続／停止を、判定処理部５０による判定の結果に応じて制御する。動作制御部６０は、近端音および遠端音の各々について記憶装置１２に記憶された判定データを参照することで、判定処理部５０による判定の結果を認識する。

図７は、第１実施形態における動作制御部６０の動作の説明図である。具体的には、判定処理部５０による判定の結果と更新処理部４０による更新の実行／停止との関係が図７には例示されている。

近端音および遠端音の双方が無音である状態Ａ1において、動作制御部６０は、雑音スペクトルＱの更新を設定部４２に実行させる。また、状態Ａ1において、動作制御部６０は、設定部４１による各係数Ｃnの更新と、設定部４３によるゲインＧの更新とを停止させる。状態Ａ1における収音信号Ｒaは、例えば空調設備の動作音等の定常的な環境雑音を優勢に含む。したがって、状態Ａ1において雑音スペクトルＱが更新されることで、実際の雑音を高精度に表す雑音スペクトルＱを生成できる。

近端音が無音であり遠端音が発話音を含む状態Ａ2において、動作制御部６０は、各係数Ｃnの更新を設定部４１に実行させる。また、状態Ａ2において、動作制御部６０は、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる。以上の処理により、帰還音に高精度に近似する疑似エコー信号Ｅが生成される。

近端音が発話音を含み遠端音が無音である状態Ａ4において、動作制御部６０は、ゲインＧの更新を設定部４３に実行させる。また、状態Ａ4において、動作制御部６０は、設定部４１による各係数Ｃnの更新と、設定部４２による雑音スペクトルＱの更新とを停止させる。以上の処理により、近端の利用者Ｕaによる発話音の音量が適切に調整される数値にゲインＧが更新される。

近端音および遠端音の一方または双方が演奏音を含む状態（状態Ａ3，Ａ6－Ａ9）、および、近端音および遠端音の双方が発話音を含む状態Ａ5において、動作制御部６０は、設定部４１による各係数Ｃnの更新と、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる。すなわち、全部の処理パラメータの更新が停止される。処理パラメータの更新が停止された状態では、直前（すなわち停止前の最後）の更新後の数値に維持された処理パラメータを適用した音響処理が実行される。

図８は、動作制御部６０が更新処理部４０を制御する動作（以下「制御処理」という）Ｓbの具体的な手順を例示するフローチャートである。例えば所定の周期で発生する割込を契機として制御処理Ｓbが開始される。

制御処理Ｓbが開始されると、動作制御部６０は、近端音および遠端音の双方が無音である状態Ａ1に該当するか否かを判定する（Ｓb11）。状態Ａ1に該当する場合（Ｓb11：YES）、動作制御部６０は、雑音スペクトルＱの更新を設定部４２に実行させ、設定部４１による各係数Ｃnの更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb12）。

状態Ａ1に該当しない場合（Ｓb11：NO）、動作制御部６０は、近端音が無音であり遠端音が発話音を含む状態Ａ2に該当するか否かを判定する（Ｓb13）。状態Ａ2に該当する場合（Ｓb13：YES）、動作制御部６０は、各係数Ｃnの更新を設定部４１に実行させ、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb14）。

状態Ａ2に該当しない場合（Ｓb13：NO）、動作制御部６０は、近端音が発話音を含み遠端音が無音である状態Ａ4に該当するか否かを判定する（Ｓb15）。状態Ａ4に該当する場合（Ｓb15：YES）、動作制御部６０は、ゲインＧの更新を設定部４３に実行させ、設定部４１による各係数Ｃnの更新と、設定部４２による雑音スペクトルＱの更新とを停止させる（Ｓb16）。

状態Ａ4に該当しない場合には、近端音および遠端音の一方または双方が演奏音を含む状態（状態Ａ3，Ａ6－Ａ9）、または、近端音および遠端音の双方が発話音を含む状態Ａ5であることを意味する。状態Ａ4に該当しない場合（Ｓb15：NO）、動作制御部６０は、設定部４１による各係数Ｃnの更新と、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb17）。すなわち、近端音および遠端音の少なくとも一方が演奏音を含む場合には、更新処理部４０による処理パラメータの更新が停止される。

以上の通り、第１実施形態においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、収音信号Ｒ（Ｒa，Ｒb，Ｒc）に対して不適切な音響処理が実行される可能性を低減できる。第１実施形態の効果について以下に詳述する。

近端音が演奏音を含む状態（状態Ａ7－Ａ9）において処理パラメータが変動すると、演奏音の音響特性が変動し、利用者Ｕaが意図的に演奏音に付与した演奏表現（例えば抑揚）が音響処理により減殺される可能性がある。以上の事情を考慮して、第１実施形態においては、近端音が演奏音を含む状態（状態Ａ7－Ａ9）においては処理パラメータの更新を停止させる。以上の構成によれば、利用者Ｕaが意図した演奏表現が音響処理により減殺される可能性を低減できる。すなわち、利用者Ｕaが意図した演奏表現を利用者Ｕbに正確に伝達できる。

他方、遠端音のみが演奏音を含む状態（近端音は演奏音を含まない状態）では、処理パラメータが変動しても、近端音について演奏表現が減殺されるという前述の問題は発生しない。しかし、以下の理由により、第１実施形態においては、遠端音のみが演奏音を含む場合にも、処理パラメータの更新を停止させる。

適応フィルタ３１１の各係数Ｃnは、音響信号Ｘと収音信号Ｒaとが相互に相関しないことを前提として更新される。したがって、音響信号Ｘと収音信号Ｒaとが相関する場合には、疑似エコー信号Ｅが高精度に推定されるように各Ｃnを適切に更新することは困難である。他方、近端音および遠端音の双方が演奏音を含む場合、利用者Ｕaと利用者Ｕbとが共通の楽曲を並列に演奏（すなわち合奏）している可能性が高い。例えば、１個の楽曲を構成する相異なる演奏パートを利用者Ｕaと利用者Ｕbとが演奏する状況、または、１個の楽曲の共通の演奏パートを利用者Ｕaと利用者Ｕbとが演奏する状況が想定される。利用者Ｕaと利用者Ｕbとが共通の楽曲を演奏している場合には、遠端音（利用者Ｕbによる楽器３００bの演奏音）と近端音（利用者Ｕaによる楽器３００aの演奏音）とが音楽的に相互に調和するから、音響信号Ｘと収音信号Ｒaとは相互に相関する。以上の観点から、近端音および遠端音の双方が演奏音を含む状態（状態Ａ9）では、処理パラメータ（特に各係数Ｃn）の更新を停止すべきである。

また、遠端音が演奏音に含まれる状態では、当該演奏音が放音装置１５から収音装置１４に帰還することで、収音信号Ｒaには遠端音の演奏音が含まれる結果となる。したがって、判定処理部５０が音響信号Ｘおよび収音信号Ｒを解析する構成においては、近端音および遠端音の一方または双方に演奏音が含まれることは高精度に判定できるものの、近端音および遠端音の一方が演奏音を含み他方が演奏音を含まない状態（状態Ａ3，Ａ6－Ａ8）を高精度に判定することは困難である。すなわち、近端音および遠端音の何れに演奏音が含まれるのかを高精度に特定すること（状態Ａ3および状態Ａ6－Ａ8を状態Ａ9と区別すること）は、実際には困難である。以上の事情を考慮して、第１実施形態においては、近端音および遠端音の双方が演奏音を含む場合（状態Ａ9）に加えて、近端音および遠端音の一方のみが演奏音を含む場合（状態Ａ3，Ａ6－Ａ8）にも、処理パラメータの更新を停止する。以上の構成によれば、近端音と遠端音との相関に起因して処理パラメータが不適切な数値に更新される可能性が低減される。

Ｂ：第２実施形態
第２実施形態について説明する。なお、以下に例示する各形態において機能が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

図９は、第２実施形態における音響処理システム１００aの機能的な構成を例示するブロック図である。第２実施形態の収音装置１４は、複数（Ｍ個）の収音部１４_1～１４_Mを含むマイクロホンアレイである。Ｍ個の収音部１４_1～１４_Mは、相互に間隔をあけて直線状または行列状に配列される。第ｍ番目（ｍ＝１～Ｍ）の収音部１４_mは、周囲の音響を収音することで収音信号Ｒa_mを生成するマイクロホンである。具体的には、各収音部１４_mは、楽器３００aの演奏音または利用者Ｕaの発話音を近端音として収音する。

第２実施形態の音響処理部３０においては、第１実施形態のエコー抑圧部３１がビーム形成部３４に置換される。音響処理部３０のうち雑音抑圧部３２および音量調整部３３の構成および動作は第１実施形態と同様である。また、第２実施形態の更新処理部４０においては、第１実施形態の設定部４１が設定部４４に置換される。更新処理部４０のうち設定部４２および設定部４３の構成および動作は第１実施形態と同様である。

図９のビーム形成部３４は、相異なる収音部１４_mが生成するＭ系統の収音信号Ｒa_1～Ｑa_Mに対してビーム形成処理を実行することで収音信号Ｒbを生成する。ビーム形成処理は、複数の係数Ｗを適用したフィルタ処理である。

具体的には、ビーム形成処理は、近端音が到来する方向に指向する収音ビームを形成する信号処理を含む。収音ビームは、収音感度が高い局所的な範囲である。すなわち、ビーム形成部３４は、楽器３００aまたは利用者Ｕaの方向に収音ビームを指向させることで、楽器３００aの演奏音または利用者Ｕaによる発話音が強調された収音信号Ｒbを生成する。また、第２実施形態のビーム形成処理は、遠端音が到来する方向に収音死角を形成する信号処理を含む。収音死角は、収音感度が低い局所的な範囲である。具体的には、第２実施形態のビーム形成部３４は、放音装置１５の方向に収音死角を指向させることで、放音装置１５から収音装置１４に到達する帰還音が抑圧された収音信号Ｒbを生成する。

更新処理部４０の設定部４４は、ビーム形成処理に適用される複数の係数Ｗを更新する。具体的には、近端音が到来する方向に収音ビームが指向し、遠端音が到来する方向に収音死角が指向するように、設定部４４は複数の係数Ｗを反復的に更新する。ビーム形成処理に適用される複数の係数Ｗは、音響信号Ｘと収音信号Ｒaとが相互に相関しないことを前提として更新される。

図１０は、設定部４４の具体的な構成を例示するブロック図である。設定部４４は、第１解析部４４１と第２解析部４４２と係数設定部４４３とを具備する。第１解析部４４１は、遠端音を表す音響信号Ｘと近端音を表すＭ系統の収音信号Ｒa_1～Ｑa_Mとを解析することで、当該遠端音が到来する方向θ1（すなわち遠端音の発音源である放音装置１５の方向）を推定する。第２解析部４４２は、近端音を表すＭ系統の収音信号Ｒa_1～Ｑa_Mを解析することで、当該近端音が到来する方向θ2を推定する。方向θ1および方向θ2の推定は反復される。すなわち、第１解析部４４１は方向θ1を反復的に更新し、第２解析部４４２は方向θ2を反復的に更新する。係数設定部４４３は、第１解析部４４１が推定した方向θ1と第２解析部４４２が推定した方向θ2とに応じて複数の係数Ｗを設定する。すなわち、係数設定部４４３は、遠端音の方向θ1に収音死角が形成され、かつ、近端音の方向θ2に収音ビームが形成されるように、複数の係数Ｗを設定する。

図１１は、第２実施形態における動作制御部６０の動作の説明図である。具体的には、判定処理部５０による判定の結果と更新処理部４０による更新の実行／停止との関係が図１１には例示されている。

近端音および遠端音の双方が無音である状態Ｂ1において、動作制御部６０は、第１実施形態と同様に、雑音スペクトルＱの更新を設定部４２に実行させる。また、状態Ｂ1において、動作制御部６０は、設定部４４による各係数Ｗの更新と、設定部４３によるゲインＧの更新とを停止させる。したがって、例えば空調設備の動作音等の定常的な環境雑音を表す雑音スペクトルＱが高精度に推定される。

近端音が無音であり遠端音が発話音を含む状態Ｂ2において、動作制御部６０は、遠端音が到来する方向θ1の更新を第１解析部４４１に実行させる。また、状態Ｂ2において、動作制御部６０は、第２解析部４４２による方向θ2の更新と、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる。以上の動作により、遠端音が到来する方向θ1が高精度に推定される。方向θ1の更新に連動して複数の係数Ｗも更新される。

近端音が発話音を含み遠端音が無音である状態Ｂ4において、動作制御部６０は、第２解析部４４２による方向θ2の更新と、設定部４３によるゲインＧの更新とを実行させる。また、状態Ｂ4において、動作制御部６０は、設定部４２による雑音スペクトルＱの更新を停止させる。以上の動作により、近端音が到来する方向θ2が高精度に推定される。方向θ2の更新に連動して複数の係数Ｗも更新される。また、近端の利用者Ｕaによる発話音の音量を適切に調整可能な数値にゲインＧが更新される。

近端音および遠端音の一方または双方が演奏音を含む状態（状態Ｂ3，Ｂ6－Ｂ9）、および、近端音および遠端音の双方が発話音を含む状態Ｂ5において、動作制御部６０は、第１解析部４４１による方向θ1の更新と、第２解析部４４２による方向θ2の更新とを停止させる。すなわち、設定部４４による複数の係数Ｗの更新が停止される。また、以上の状態（状態Ｂ3，Ｂ5－Ｂ9）において、動作制御部６０は、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる。すなわち、全部の処理パラメータの更新が停止される。処理パラメータの更新が停止された状態では、直前の更新後の数値に維持された処理パラメータを適用した音響処理が実行される。

図１２は、第２実施形態における制御処理Ｓbの具体的な手順を例示するフローチャートである。例えば所定の周期で発生する割込を契機として制御処理Ｓbが開始される。

制御処理Ｓbが開始されると、動作制御部６０は、近端音および遠端音の双方が無音である状態Ｂ1に該当するか否かを判定する（Ｓb21）。状態Ｂ1に該当する場合（Ｓb21：YES）、動作制御部６０は、雑音スペクトルＱの更新を設定部４２に実行させ、第１解析部４４１による方向θ1の更新と、第２解析部４４２による方向θ2の更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb22）。

状態Ｂ1に該当しない場合（Ｓb21：NO）、動作制御部６０は、近端音が無音であり遠端音が発話音を含む状態Ｂ2に該当するか否かを判定する（Ｓb23）。状態Ｂ2に該当する場合（Ｓb23：YES）、動作制御部６０は、遠端音が到来する方向θ1の更新を第１解析部４４１に実行させ、第２解析部４４２による方向θ2の更新と、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb24）。第１解析部４４１による方向θ1の更新に連動して複数の係数Ｗは更新される。

状態Ｂ2に該当しない場合（Ｓb23：NO）、動作制御部６０は、近端音が発話音を含み遠端音が無音である状態Ｂ4に該当するか否かを判定する（Ｓb25）。状態Ｂ4に該当する場合（Ｓb25：YES）、動作制御部６０は、第２解析部４４２による方向θ2の更新と、設定部４３によるゲインＧの更新とを実行させ、第１解析部４４１による方向θ1の更新と、設定部４２による雑音スペクトルＱの更新を停止させる（Ｓb26）。第２解析部４４２による方向θ2の更新に連動して複数の係数Ｗは更新される。また、近端の利用者Ｕaによる発話音の音量を適切に調整可能な数値にゲインＧが更新される。

状態Ｂ4に該当しない場合には、近端音および遠端音の一方または双方が演奏音を含む状態（状態Ｂ3，Ｂ6－Ｂ9）、または、近端音および遠端音の双方が発話音を含む状態Ｂ5であることを意味する。状態Ｂ4に該当しない場合（Ｓb25：NO）、動作制御部６０は、第１解析部４４１による方向θ1の更新と、第２解析部４４２による方向θ2の更新と、設定部４２による雑音スペクトルＱの更新と、設定部４３によるゲインＧの更新とを停止させる（Ｓb27）。したがって、複数の係数Ｗの更新は停止される。すなわち、近端音および遠端音の少なくとも一方が演奏音を含む場合には、更新処理部４０による処理パラメータの更新が停止される。

以上の通り、第２実施形態においても、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、第１実施形態と同様に、収音信号Ｒ（Ｒa，Ｒb，Ｒc）に対して不適切な音響処理が実行される可能性を低減できる。

Ｃ：第３実施形態
図１３は、第３実施形態における音響処理部３０の構成を例示するブロック図である。第３実施形態の音響処理部３０は、第１実施形態と同様の要素（エコー抑圧部３１，雑音抑圧部３２および音量調整部３３）に非線形処理部３５を追加した構成である。

非線形処理部３５は、エコー抑圧部３１による処理後の収音信号Ｒb1（第１実施形態における収音信号Ｒb）に対して非線形処理を実行することで収音信号Ｒb2を生成する。非線形処理は、周波数軸上の相異なる周波数帯域に対応する複数のゲインで構成される周波数マスクを収音信号Ｒb1の周波数スペクトルに乗算する信号処理である。周波数マスクは、収音信号Ｒb1の音響特性に応じて反復的に更新される。具体的には、周波数マスクは、複数の周波数帯域のうち帰還音が残留する各周波数帯域のゲインが第１値（例えば０）に設定され、残余の各周波数帯域のゲインが第１値を上回る第２値（例えば１）に設定されたバイナリマスクである。以上の説明から理解される通り、エコー抑圧処理後に収音信号Ｒb1に残留する帰還音の音響成分が非線形処理により低減される。雑音抑圧部３２およ音量調整部３３の構成および動作は第１実施形態と同様である。なお、非線形処理と雑音抑圧処理と音量調整処理との順番は、図１３の例示に限定されず任意に変更される。

また、第３実施形態の音響処理システム１００aにおける制御装置１１は、記憶装置１２に記憶されたプログラムを実行することで、第１実施形態と同様の要素（通信制御部２０，再生処理部２５，音響処理部３０，更新処理部４０，判定処理部５０および動作制御部６０）に加えて遅延測定部５５を実現する。遅延測定部５５は、音響処理システム１００aと音響処理システム１００bとの間の通信遅延Ｌを測定する。通信遅延Ｌは、例えば、音響処理システム１００aと音響処理システム１００bの一方から送信された信号が他方に受信されるまでの所要時間である。通信遅延Ｌの測定には公知の技術が任意に採用される。

第４実施形態の動作制御部６０は、通信遅延Ｌに応じて音響処理部３０の動作を制御する。具体的には、動作制御部６０は、応答速度Ｚ1および応答速度Ｚ2を通信遅延Ｌに応じて制御する。応答速度Ｚ1は、適応フィルタ３１１に適用されるＮ個の係数Ｃ1～ＣNが音響信号Ｘおよび収音信号Ｒの変化に連動する速度の指標である。具体的には、応答速度Ｚ1が高いほど、音響信号Ｘおよび収音信号Ｒの音響特性の変化に対して敏感に追従するようにＮ個の係数Ｃ1～ＣNが更新される。他方、応答速度Ｚ2は、非線形処理に適用される周波数マスクが収音信号Ｒb1の変化に連動する速度の指標である。具体的には、応答速度Ｚ2が高いほど、収音信号Ｒb1の音響特性の変化に対して敏感に追従するように周波数マスクが更新される。

通信遅延Ｌが充分に小さい状況では、放音装置１５から収音装置１４に到達する帰還音は、利用者Ｕbによる近端音の聴取にとって特段の問題とならない。以上の事情を考慮して、動作制御部６０は、通信遅延Ｌが小さいほど、応答速度Ｚ1および応答速度Ｚ2を低下させる。すなわち、通信遅延Ｌが小さい状況では、Ｎ個の係数Ｃ1～ＣNおよび周波数マスクの経時的な変化が抑制される。具体的には、音響信号Ｘまたは収音信号Ｒb1の音響特性の変化に対する各係数Ｃnおよび周波数マスクの変化が抑制される。

他方、通信遅延Ｌが大きい状況では帰還音が顕在化する傾向がある。以上の事情を考慮して、動作制御部６０は、通信遅延Ｌが大きいほど、応答速度Ｚ1および応答速度Ｚ2を上昇させる。すなわち、通信遅延Ｌが大きい状況では、音響信号Ｘまたは収音信号Ｒb1の音響特性の変化に対して各係数Ｃnおよび周波数マスクが敏感かつ迅速に変化する。

以上に説明した通り、第３実施形態においては、適応フィルタ３１１に適用されるＮ個の係数Ｃ1～ＣNの応答速度Ｚ1が通信遅延Ｌに応じて制御される。したがって、収音装置１４が収音する帰還音の低減のために適度なエコー抑圧処理を、収音信号Ｒaに対して実行できる。また、第３実施形態においては、非線形処理に適用される周波数マスクの応答速度Ｚ2とが通信遅延Ｌに応じて制御される。したがって、収音装置１４が収音する帰還音の低減のために適度な非線形処理を、収音信号Ｒb1に対して実行できる。

なお、図１３においては、エコー抑圧部３１を具備する第１実施形態の構成を基礎とした形態を例示したが、ビーム形成部３４を具備する第２実施形態の構成にも、第３実施形態の構成は適用される。

Ｄ：変形例
以上に例示した各態様に付加される具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２以上の態様を、相互に矛盾しない範囲で適宜に併合してもよい。

（１）音響処理部３０の具体的な構成は、前述の各形態において例示した構成に限定されない。例えば、前述の各形態において音響処理部３０に含まれる各要素（エコー抑圧部３１，雑音抑圧部３２，音量調整部３３，ビーム形成部３４および非線形処理部３５）の一部は省略されてもよい。

（２）前述の各形態においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新を停止したが、処理パラメータの更新を停止することまでは必須ではない。例えば、動作制御部６０は、処理パラメータの更新の速度（以下「更新速度」という）を演奏音の有無に応じて制御してもよい。更新速度は、処理パラメータが更新される速度に関する指標であり、具体的には更新頻度と更新割合とを包含する。更新頻度は、単位時間内における処理パラメータの更新の回数を意味する。更新頻度の一例は、処理パラメータの更新の周期とも換言される。なお、前述の各形態は、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新頻度をゼロに設定する構成とも表現される。

他方、更新割合は、更新処理部４０による更新毎に処理パラメータの数値が変化する度合の指標である。例えば、処理パラメータの最新の数値Ｐnewと過去（例えば直前）の処理パラメータＰoldとを利用した下記の数式(1)の演算（すなわち指数移動平均）により、更新処理部４０が更新後の処理パラメータＰnextを算定する形態を想定する。記号αは、所定の係数であり、１以下の非負値（０≦α≦１）に設定される。
Ｐnext＝（１－α）・Ｐold＋α・Ｐnew (1)
係数αが大きいほど、更新後の処理パラメータＰnextに対する最新の数値Ｐnewの影響が相対的に増加し、係数αが小さいほど、更新後の処理パラメータＰnextに対する過去の処理パラメータＰoldの影響が相対的に増加する。すなわち、係数αが大きいほど、音響信号Ｘまたは収音信号Ｒ（Ｒa～Ｒc）の変化に対して更新後の処理パラメータＰnextが敏感に変化する。以上の説明から理解される通り、係数αは、処理パラメータＰnextの更新割合（すなわち、音響信号Ｘまたは収音信号Ｒの変化に対する処理パラメータの変化の度合）を表す指標である。

動作制御部６０は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新速度と、近端音および遠端音の双方が演奏音を含まない場合における更新速度とを相違させる。具体的には、動作制御部６０は、近端音および遠端音の少なくとも一方が演奏音を含む場合に、演奏音を含まない場合と比較して処理パラメータの更新速度を低下させる。例えば、動作制御部６０は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新頻度を、演奏音を含まない場合における更新頻度よりも小さい数値に設定する。また、動作制御部６０は、近端音および遠端音の少なくとも一方が演奏音を含む場合における更新割合（例えば係数α）を、演奏音を含まない場合における更新割合よりも小さい数値に設定する。以上の構成においても、近端音および遠端音の少なくとも一方が演奏音を含むか否かを区別せずに処理パラメータを更新する構成と比較すれば、音響処理に適用される処理パラメータを適切に制御できるという所期の効果は実現される。なお、以上の説明においては、近端音および遠端音の少なくとも一方が演奏音を含む場合の更新速度が、演奏音を含まない場合の更新速度を下回る形態を例示した。しかし、近端音および遠端音の少なくとも一方が演奏音を含む場合の更新速度が、演奏音を含まない場合の更新速度を上回る形態も想定される。

（３）第１実施形態においてはエコー抑圧部３１を具備する音響処理部３０を例示し、第２実施形態においてはビーム形成部３４を具備する音響処理部３０を例示したが、音響処理部３０がエコー抑圧部３１およびビーム形成部３４の双方を具備する構成も想定される。例えば、Ｍ個の収音部１４_1～１４_Mの各々についてエコー抑圧部３１が設置される。ビーム形成部３４は、相異なるエコー抑圧部３１が生成するＭ系統の収音信号Ｒa_1～Ｒa_Mから収音信号Ｒbを生成する。

（４）前述の各形態においては、利用者Ｕaの音響処理システム１００aが利用者Ｕbの音響処理システム１００bと通信する構成を例示したが、音響処理システム１００aが複数の音響処理システム１００bと通信する状況においても前述の各形態が同様に適用される。例えば、指導者である１人の利用者Ｕaが複数の利用者Ｕbを指導する場面が想定される。以上の場面においては、複数の利用者Ｕbが発音した演奏音または発話音の混合音を表す音響信号Ｘが音響処理システム１００aの通信装置１３により受信される。以上の構成においても、前述の各形態と同様に、音響信号Ｘの遠端音と収音信号Ｒaの近端音との双方が演奏音を含む場合に、音響処理に適用される処理パラメータの更新が停止される。

（５）以上に例示した音響処理システム１００aの機能は、前述の通り、制御装置１１を構成する単数または複数のプロセッサと、記憶装置１２に記憶されたプログラムとの協働により実現される。本開示に係るプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体も包含される。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体も除外されない。また、配信装置が通信網を介してプログラムを配信する構成では、当該配信装置においてプログラムを記憶する記憶装置が、前述の非一過性の記録媒体に相当する。

Ｆ：付記
以上に例示した形態から、例えば以下の構成が把握される。

本開示のひとつの態様（態様１）に係る音響処理方法は、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音し、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、前記第２音響信号を前記遠端装置に送信し、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に処理パラメータの更新が停止される。したがって、収音信号に対して不適切な音響処理が実行される可能性を低減できる。

「近端音」は、遠端装置に伝達される目的となる音響であり、利用者が発音する発話音または演奏音を含む。発話音は、言語を表現する音声である。発話音の典型例は、例えば他の利用者との会話音であるが、会話を構成せずに一方的に発話される音声（例えば音楽教習における指導音声）も発話音には包含される。演奏音は、音楽を表現する音響を意味する。演奏音の典型例は、例えば利用者による演奏で楽器から発音される楽器音であるが、利用者による歌唱で発音される歌唱音も、音楽的な音響という意味で演奏音の概念に包含される。すなわち、本明細における「演奏」は、楽器の演奏（狭義の演奏）のほかに楽曲の歌唱も包含する。

近端音が「演奏音を含む場合」とは、近端音が演奏音のみを含む場合（発話音を含まない場合）、および、近端音が発話音および演奏音の双方を含むが演奏音の音量が発話音の音量を上回る場合、を包含する。遠端音についても同様である。すなわち、遠端音が「演奏音を含む場合」とは、遠端音が演奏音のみを含む場合（発話音を含まない場合）、および、遠端音が発話音および演奏音の双方を含むが演奏音の音量が発話音の音量を上回る場合、を包含する。

本開示の他の態様（態様２）に係る音響処理方法は、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音し、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、前記第２音響信号を前記遠端装置に送信し、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合と演奏音を含まない場合とで処理パラメータの更新速度が相違する。したがって、収音信号に対して不適切な音響処理が実行される可能性を低減できる。

更新速度は、処理パラメータの数値が更新により変化する速度を意味する。例えば更新頻度および更新割合が、更新速度の概念に包含される。更新頻度は、単位時間内における処理パラメータの更新の回数を意味する。他方、更新割合は、処理パラメータが更新毎に変化する度合を意味する。

態様２の具体例（態様３）において、前記更新速度は、単位時間内における更新の回数である更新頻度であり、前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新頻度を、前記演奏音を含まない場合と比較して低下させる。以上の構成によれば、収音信号に対して不適切な音響処理が実行される可能性を低減できる。

態様２の具体例（態様４）において、前記更新速度は、前記処理パラメータが更新毎に変化する度合である更新割合であり、前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新割合を、前記演奏音を含まない場合と比較して低下させる。以上の構成によれば、収音信号に対して不適切な音響処理が実行される可能性を低減できる。

態様１から態様４の何れかの具体例（態様５）において、前記音響処理は、前記放音装置から前記収音装置に到達する帰還音を近似する疑似エコー信号を前記収音信号から抑圧するエコー抑圧処理を含む。以上の態様によれば、放音装置から収音装置に到達する帰還音の影響が低減された第２音響信号を遠端装置に送信できる。

態様５の具体例（態様６）において、前記エコー抑圧処理は、前記疑似エコー信号を前記第１音響信号から生成する適応フィルタ処理と、前記収音信号から前記疑似エコー信号を減算する減算処理とを含み、前記処理パラメータは、前記適応フィルタ処理に適用される複数の係数を含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、適応フィルタ処理に適用される複数の係数の更新が停止される。したがって、収音信号に含まれる帰還音を適切に抑圧できる。

態様１から態様６の何れかの具体例（態様７）において、前記音響処理は、前記近端音が到来する方向に指向する収音ビームを形成するビーム形成処理を含み、前記処理パラメータは、前記収音ビーム形成に適用される複数の係数を含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、適ビーム形成処理に適用される複数の係数の更新が停止される。したがって、収音信号に含まれる帰還音を適切に抑圧できる。

態様１から態様７の何れかの具体例（態様８）において、前記音響処理は、前記収音信号の音量に応じたゲインにより当該収音信号を増幅する音量調整処理を含み、前記処理パラメータは、前記ゲインを含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、音量調整処理に適用されるゲインの更新が停止される。したがって、収音信号の音量を適切に調整できる。

態様１から態様８の何れかの具体例（態様９）において、前記音響処理は、前記収音信号に含まれる雑音成分を抑圧する雑音抑圧処理を含み、前記処理パラメータは、前記雑音成分を表すパラメータを含む。以上の態様においては、近端音および遠端音の少なくとも一方が演奏音を含む場合に、雑音抑圧処理において収音信号から抑圧される雑音成分を表すパラメータの更新が停止される。したがって、収音信号の雑音成分を適切に抑圧できる。

本開示のひとつの態様（態様１０）に係る音響処理システムは、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、前記第２音響信号を前記遠端装置に送信する通信制御部と、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部とを具備する。

本開示の他の態様（態様１１）に係る音響処理システムは、第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、前記第２音響信号を前記遠端装置に送信する通信制御部と、前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部とを具備する。

１…通信システム、１００a，１００b…音響処理システム、２００…通信網、３００a，３００b…楽器、１１…制御装置、１２…記憶装置、１３…通信装置、１４…収音装置、１５…放音装置、２０…通信制御部、２５…再生処理部、３０…音響処理部、３１…エコー抑圧部、３１１…適応フィルタ、３１２…減算処理部、３２…雑音抑圧部、３３…音量調整部、３４…ビーム形成部、３５…非線形処理部、４０…更新処理部、４１～４４…設定部、５０…判定処理部、５５…遅延測定部、６０…動作制御部。

Claims

第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、
前記第１音響信号が表す前記遠端音を放音装置により放音し、
近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、
前記第２音響信号を前記遠端装置に送信し、
前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する
コンピュータにより実現される音響処理方法。
第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、
前記第１音響信号が表す前記遠端音を放音装置により放音し、
近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成し、
前記第２音響信号を前記遠端装置に送信し、
前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新し、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する
コンピュータにより実現される音響処理方法。
前記更新速度は、単位時間内における更新の回数である更新頻度であり、
前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新頻度を、前記演奏音を含まない場合と比較して低下させる
請求項２の音響処理方法。
前記更新速度は、前記処理パラメータが更新毎に変化する度合である更新割合であり、
前記処理パラメータの更新の制御においては、前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に、前記処理パラメータの更新割合を、前記演奏音を含まない場合と比較して低下させる
請求項２の音響処理方法。
前記音響処理は、前記放音装置から前記収音装置に到達する帰還音を近似する疑似エコー信号を前記収音信号から抑圧するエコー抑圧処理を含む
請求項１から請求項４の何れかの音響処理方法。
前記エコー抑圧処理は、
前記疑似エコー信号を前記第１音響信号から生成する適応フィルタ処理と、
前記収音信号から前記疑似エコー信号を減算する減算処理と
を含み、
前記処理パラメータは、前記適応フィルタ処理に適用される複数の係数を含む
請求項５の音響処理方法。
前記音響処理は、前記近端音が到来する方向に指向する収音ビームを形成するビーム形成処理を含み、
前記処理パラメータは、前記収音ビーム形成に適用される複数の係数を含む
請求項１から請求項６の何れかの音響処理方法。
前記音響処理は、前記収音信号の音量に応じたゲインにより当該収音信号を増幅する音量調整処理を含み、
前記処理パラメータは、前記ゲインを含む
請求項１から請求項７の何れかの音響処理方法。
前記音響処理は、前記収音信号に含まれる雑音成分を抑圧する雑音抑圧処理を含み、
前記処理パラメータは、前記雑音成分を表すパラメータを含む
請求項１から請求項８の何れかの音響処理方法。
第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、
近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、
前記第２音響信号を前記遠端装置に送信する通信制御部と、
前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合に前記処理パラメータの更新を停止する動作制御部と
を具備する音響処理システム。
第１利用者が発音する遠端音を表す第１音響信号を遠端装置から受信し、前記第１音響信号が表す前記遠端音を放音装置により放音する音響処理システムであって、
近端の第２利用者が発音する近端音を含む音響の収音により収音装置が生成する収音信号に対し、処理パラメータを適用した音響処理を実行することで第２音響信号を生成する音響処理部と、
前記第２音響信号を前記遠端装置に送信する通信制御部と、
前記第１音響信号または前記収音信号に応じて前記処理パラメータを更新する更新処理部と、
前記近端音および前記遠端音の少なくとも一方が演奏音を含む場合における前記処理パラメータの更新速度と、前記演奏音を含まない場合における前記処理パラメータの更新速度とが相違するように、前記処理パラメータの更新を制御する動作制御部と
を具備する音響処理システム。