JP2023137650A

JP2023137650A - 音信号処理方法及び音信号処理装置

Info

Publication number: JP2023137650A
Application number: JP2022043931A
Authority: JP
Inventors: 訓史鵜飼; Norifumi Ukai; 雅司鈴木; Masashi Suzuki
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2023-09-29
Also published as: EP4246514A1; US20230300553A1; CN116782089A

Abstract

【課題】状況に応じて適切な音処理を行うことが可能な音信号処理方法を提供する。【解決手段】一実施形態に係る映像信号処理方法は、音信号を受け付け、第１画像を取得し、取得した第１画像に基づいて部屋情報を推定し、推定した部屋情報に応じて音響パラメータを設定し、設定された音響パラメータに基づく音処理を音信号に対して行い、音処理が行われた音信号を出力する。【選択図】図３

Description

この発明に係る一実施形態は、音信号の処理に係る音信号処理方法及び音信号処理装置に関する。

特許文献１には、マイクロホンを備えるゲイン自動装置が記載されている。ゲイン自動装置は、マイクロホンで収音した使用者の音声のレベル及び暗騒音のレベルを検出する。ゲイン自動装置は、使用者の音声のレベル及び暗騒音のレベルに基づいてゲインを設定する。

特許文献２には、音声信号を抑圧するノイズゲートが記載されている。ノイズゲートは、入力された音声信号の信号レベルを算出する。ノイズゲートは、信号レベルが閾値未満の音声信号のゲインを低下させる。

特開２０１１－１５１６３４号公報特開２０１０－１２２６１７号公報

特許文献１に記載のゲイン自動装置（以下、装置Ｘと称する）及び特許文献２に記載のノイズゲート（以下、装置Ｙと称する）のそれぞれは、音信号に基づいてゲインの自動調整を実行する。従って、装置Ｘ及び装置Ｙは、使用時の状況に応じた適切な音処理が実行されるとは限らない。例えば、会議室等の閉じた空間において、会議室内にいる全ての人は会議の参加者である可能性が高い。従って、装置Ｘ及びＹは、話者の小さな声でも可能な限り収音出来るように、ＡＧＣ（ＡｕｔｏＧａｉｎＣｏｎｔｒｏｌ）により話者の音声を大きくすることが好ましい。加えて、会議室内にいる全ての人は、物音を立てる可能性が低いと考えられるため、装置Ｘ及びＹが、ＡＧＣによって音量の増加したノイズを収音する可能性も低い。一方、例えば、オープンスペースであれば、異なる目的を持つ複数の人が空間を共有している。このため、装置Ｘ及び装置Ｙの使用者以外の人がノイズを出す可能性が高い。従って、装置Ｘ及び装置Ｙは、ノイズを抑制することが好ましい。しかし、オープンスペースにおいて、装置Ｘ及び装置Ｙが、仮に閉じた空間と同じようにＡＧＣを実行した場合、却ってノイズを増強してしまう。

本発明の一実施形態は、状況に応じて適切な音処理を行うことが可能な音信号処理方法を提供することを目的とする。

本発明の一実施形態に係る音信号処理方法は、
音信号を受け付け、
第１画像を取得し、
取得した前記第１画像に基づいて部屋情報を推定し、
推定した前記部屋情報に応じて音響パラメータを設定し、
前記設定された音響パラメータに基づく音処理を前記音信号に対して行い、
前記音処理が行われた前記音信号を出力する。

この発明の一実施形態に係る音信号処理方法によれば、状況に応じて適切な音処理を行うことが可能となる。

図１は、音信号処理装置１と、音信号処理装置１とは異なる機器と、の接続の一例を示すブロック図である。図２は、プロセッサ１７の機能的構成を示すブロック図である。図３は、音信号処理装置１の処理の一例を示すフローチャートである。図４は、閉じた空間を示す第１画像Ｍ１の一例である。図５は、オープンスペースを示す第１画像Ｍ１の一例である。図６は、部屋情報ＲＩと音響パラメータＳＰとの対応関係を示す図である。図７は、音信号処理装置１ｂのプロセッサ１７ｂの機能的構成を示すブロック図である。図８は、音信号処理装置１ｃにおける音響パラメータＳＰの設定の一例を示すフローチャートである。図９は、音信号処理装置１ｄにおけるゲイン調整を示す図である。図１０は、音信号処理装置１ｅのプロセッサ１７ｅの機能的構成を示すブロック図である。図１１は、音信号処理装置１ｆのプロセッサ１７ｆの機能的構成を示すブロック図である。図１２は、音信号処理装置１ｈのプロセッサ１７ｈの機能的構成を示すブロック図である。図１３は、音信号処理装置１ｈにおける音響パラメータＳＰの設定の一例を示すフローチャートである。図１４は、音信号処理装置１ｈにおける画像処理の一例を示す図である。

（第１実施形態）
以下、第１実施形態に係る音信号処理方法について図を参照して説明する。図１は、音信号処理装置１と、音信号処理装置１とは異なる機器（処理装置２）と、の接続の一例を示すブロック図である。

音信号処理装置１は、遠隔地のＰＣ等の処理装置２と接続して遠隔会話を行うための装置である（図１参照）。音信号処理装置１は、例えば、ＰＣ等の情報処理装置である。音信号処理装置１は、第１実施形態に係る音信号処理方法を実行する。

音信号処理装置１は、図１に示すように、オーディオインタフェース１１と、汎用インタフェース１２と、通信インタフェース１３と、ユーザインタフェース１４と、フラッシュメモリ１５と、ＲＡＭ（ＲａｎｄｏｍＡｃｅｅｓｓＭｅｍｏｒｙ）１６と、プロセッサ１７と、を備えている。プロセッサ１７は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等である。

オーディオインタフェース１１は、信号線を介して、マイク４、又は、スピーカ５等のオーディオ機器と通信を行う（図１参照）。マイク４は、音信号処理装置１の使用者（以下、使用者Ｕと称する）の音声を取得する。マイク４は、取得した音声を音信号としてオーディオインタフェース１１へ出力する。オーディオインタフェース１１は、例えば、処理装置２から受信したデジタルの音信号をアナログの音信号に変換する。スピーカ５は、オーディオインタフェース１１からアナログの音信号を受信し、受信したアナログの音信号に基づいた音を出力する。

汎用インタフェース１２は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等の規格に基づくインタフェースである。汎用インタフェース１２は、図１に示すように、カメラ６に接続する。カメラ６は、カメラ６の周囲（使用者Ｕの周囲）を撮影することによって第１画像Ｍ１を取得する。カメラ６は、取得した第１画像Ｍ１を画像データとして汎用インタフェース１２へ出力する。

通信インタフェース１３は、ネットワークインタフェース等である。通信インタフェース１３は、通信回線３を介して処理装置２と通信を行う。通信回線３は、インターネット、又は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等である。通信インタフェース１３と、処理装置２と、は無線又は有線によって通信を行う。

ユーザインタフェース１４は、使用者Ｕから、音信号処理装置１に対する操作を受け付ける。ユーザインタフェース１４は、例えばキーボード、マウス、又は、タッチパネル等である。

フラッシュメモリ１５は、種々のプログラムを記憶する。種々のプログラムとは、例えば、音信号処理装置１を動作させるプログラム、又は、該音信号処理方法に係る音処理を実行するためのアプリケーションプログラム等である。なお、フラッシュメモリ１５が、必ずしも、種々のプログラムを記憶しなくてよい。種々のプログラムは、例えば、サーバ等の他装置に記憶されていてもよい。この場合、音信号処理装置１は、サーバ等の他装置から種々のプログラムを受信する。

プロセッサ１７は、フラッシュメモリ１５に記憶されたプログラムをＲＡＭ１６に読み出すことによって各種の動作を実行する。プロセッサ１７は、音信号処理方法に係る信号処理（以下、音処理Ｐと称する）、又は、音信号処理装置１と処理装置２との通信に関連する処理等を行う。

プロセッサ１７は、オーディオインタフェース１１を介してマイク４から音信号を受け付ける。プロセッサ１７は、受け付けた音信号に音処理Ｐを行う。プロセッサ１７は、音処理Ｐを行った後の音信号を、通信インタフェース１３を介して処理装置２へ送信する。プロセッサ１７は、通信インタフェース１３を介して処理装置２から音信号を受信する。プロセッサ１７は、音信号を、オーディオインタフェース１１を介してスピーカ５に送信する。また、プロセッサ１７は、汎用インタフェース１２を介してカメラ６から第１画像Ｍ１を受信する。

処理装置２は、スピーカ（図示せず）を備えている。処理装置２のスピーカは、音信号処理装置１から受信した音信号に基づいた音を出力する。処理装置２の使用者（以下、対話者と称する）は、処理装置２のスピーカから出力された音を聞く。処理装置２は、マイク（図示せず）を備えている。処理装置２は、処理装置２のマイクで取得した音信号を、通信インタフェース１３を介して音信号処理装置１に送信する。

以下、プロセッサ１７における音処理Ｐについて図を参照して詳細に説明する。図２は、プロセッサ１７の機能的構成を示すブロック図である。図３は、音信号処理装置１の処理の一例を示すフローチャートである。図４は、閉じた空間を示す第１画像Ｍ１の一例である。図５は、オープンスペースを示す第１画像Ｍ１の一例である。図６は、部屋情報ＲＩと音響パラメータＳＰとの対応関係を示す図である。

プロセッサ１７は、図２に示すように、受付部１７０と、取得部１７１と、推定部１７２と、設定部１７３と、信号処理部１７４と、出力部１７５と、を機能的に含んでいる。受付部１７０と、取得部１７１と、推定部１７２と、設定部１７３と、信号処理部１７４と、出力部１７５とが、音処理Ｐを実行する。

プロセッサ１７は、例えば、音処理Ｐに係るアプリケーションプログラムを実行したときに、音処理Ｐを開始する（図３：ＳＴＡＲＴ）。

開始後、取得部１７１は、画像（以下、第１画像Ｍ１と称する）を取得する（図３：ステップＳ１１）。取得部１７１は、カメラ６から第１画像Ｍ１を取得し、推定部１７２へ出力する。

次に、推定部１７２は、第１画像Ｍ１に基づいて部屋情報ＲＩを推定する（図３：ステップＳ１２）。部屋情報ＲＩとは、例えば、使用者Ｕのいる空間を示す情報である。本実施形態において、使用者Ｕのいる空間を示す情報とは、例えば、閉じた空間（開放されていない空間）か、又は、オープンスペース（開放されている空間）か、を示す情報である。換言すれば、本実施形態において、部屋情報ＲＩは、オープンスペース、又は、閉じた空間であることを示す情報を含んでいる。閉じた空間とは、例えば、会議室等の壁や天井等で仕切られた室内空間である。オープンスペースとは、例えば、多目的スペース、又は、屋外等の壁や天井等で仕切られていない開放された空間である。

推定部１７２は、第１画像Ｍ１を解析処理することによって部屋情報ＲＩを推定する。解析処理とは、例えば、ニューラルネットワーク等（例えば、ＤＮＮ（ＤｅｅｐＮｅｗｒａｌＮｅｔｗｏｒｋ）等）の人工知能による解析処理である。推定部１７２は、入力画像と部屋情報ＲＩとの関係を機械学習により学習した学習済モデルを用いて部屋情報ＲＩを推定する。具体的には、推定部１７２は、第１画像Ｍ１の特徴量を抽出し、学習済モデルへ出力する。学習済モデルは、第１画像Ｍ１に含まれるオブジェクトを、例えば、第１画像Ｍ１に含まれる特徴量等に基づいて判定する。特徴量とは、例えば、第１画像Ｍ１内のエッジ、又は、テクスチャ等である。学習済モデルは、使用者Ｕのいる空間が閉じた空間か、又は、オープンスペースか、を第１画像Ｍ１に含まれるオブジェクトに基づいて判定する。

この場合、学習済モデルは、第１画像Ｍ１に閉じた空間特有のオブジェクトが含まれていると判定したときに、「部屋情報ＲＩ：閉じた空間」と判定する。例えば、カメラ６が閉じた空間を撮影した場合、第１画像Ｍ１には、壁と天井との境界Ｂ１が撮像されている可能性が高い（図４参照）。従って、学習済モデルは、例えば、第１画像Ｍ１に含まれているオブジェクトとして境界Ｂ１を認識した場合、使用者Ｕのいる空間を閉じた空間と判定する。一方、学習済モデルは、第１画像Ｍ１に閉じた空間特有のオブジェクトが含まれていないと判定したときに、「部屋情報ＲＩ：オープンスペース」と判定する。

なお、図４に示す例において、カメラ６が閉じた空間を撮影した場合、第１画像Ｍ１には、ドアＤが撮像されている可能性が高い。従って、学習済モデルは、例えば、第１画像Ｍ１に含まれているオブジェクトとしてドアＤを認識した場合、「部屋情報ＲＩ：閉じた空間」と判定してもよい。

なお、音信号処理装置１が、部屋情報ＲＩを推定する方法は、ニューラルネットワーク等の人工知能を用いる方法のみに限定されない。音信号処理装置１は、例えば、パターンマッチングによって部屋情報ＲＩを推定してもよい。この場合、音信号処理装置１には、テンプレートデータとして、閉じた空間を示す画像、又は、オープンスペースを示す画像が予め記録されている。推定部１７２は、第１画像Ｍ１と、テンプレートデータとの類似度を計算し、類似度に基づいて部屋情報ＲＩを推定する。

ステップＳ１２の後、設定部１７３は、推定した部屋情報ＲＩに応じて音響パラメータＳＰを設定する（図３：ステップＳ１３）。本実施形態における音響パラメータＳＰは、ＡＧＣ、又は、ノイズリダクションに関するパラメータである。本実施形態では、設定部１７３は、閉じた空間に適する音響パラメータＳＰを設定する、又は、オープンスペースに適する音響パラメータＳＰを設定する。例えば、設定部１７３は、推定部１７２で「部屋情報ＲＩ：閉じた空間」と推定した場合、音響パラメータＳＰとしてＡＧＣをオンするパラメータ、及び、ノイズリダクションをオフするパラメータを設定する（図６参照）。すなわち、設定部１７３は、推定部１７２で「部屋情報ＲＩ：閉じた空間」と推定した場合、ＡＧＣをオンにし、且つ、ノイズリダクションをオフにする。一方、設定部１７３は、推定部１７２で「部屋情報ＲＩ：オープンスペース」と推定した場合、ＡＧＣをオフにし、且つ、ノイズリダクションをオンにする（図６参照）。上記に示すように、本実施形態において、設定部１７３は、オープンスペース、又は、閉じた空間であることを示す情報に基づいて音響パラメータＳＰを設定する。

本実施形態におけるノイズリダクションは、例えば、複数のマイクの出力信号から１つの出力信号を出力するマルチチャネル信号処理である。この場合、マイク４は、複数のマイクロホンを有しているマイクロホンアレーである。

なお、ノイズリダクションは、上記に示した例のみに限定されない。ノイズリダクションは、例えば、マイク４の信号レベルを計算して、信号レベルが一定レベル以下の場合であったときのみ、マイク４の信号レベルを減衰させるノイズゲートであってもよい。または、ノイズリダクションは、マイク４の所定期間（長時間）における平均パワーを周波数ごとに計算し、ウィーナーフィルタなどのフィルタ処理によってノイズを取り除く処理であってもよい。

次に、受付部１７０は、音信号を受け付ける（図３：ステップＳ１４）。受付部１７０は、図２に示すように、マイク４から音信号ＳＳ１を取得する。

次に、信号処理部１７４は、音響パラメータＳＰに基づく音処理を音信号ＳＳ１に対して行う（図３：ステップＳ１５）。例えば、設定部１７３は、ＡＧＣがオンであれば話者の音声のレベルが一定になる様に音信号ＳＳ１のゲインを自動で増加乃至減少させる処理（ゲイン調整）を行う。換言すれば、本実施形態において、音処理Ｐは、ゲイン調整を含んでいる。一方、設定部１７３でＡＧＣがオフであれば信号処理部１７４は、音信号ＳＳ１に対してＡＧＣを行わない。また、設定部１７３はノイズリダクションがオンであれば音信号ＳＳ１のノイズを抑圧する。換言すれば、本実施形態において、音処理Ｐは、ノイズリダクションを含んでいる。一方、信号処理部１７４は、設定部１７３でノイズリダクションがオフであれば音信号ＳＳ１に対してノイズリダクションを行わない。以下、音処理が行われた後の音信号を音信号ＳＳ２と称する。

次に、出力部１７５は、音信号ＳＳ２を出力する（図３：ステップＳ１６）。具体的には、出力部１７５は、音信号ＳＳ２を通信インタフェース１３へ出力する。通信インタフェース１３は、音信号ＳＳ２を、通信回線３を介して処理装置２へ送信する。処理装置２のスピーカは、音信号ＳＳ２に基づいた音を放音する。

ステップＳ１６の後、プロセッサ１７は、例えば、音処理Ｐに係るアプリケーションプログラムの終了命令の有無を判定する（図３：ステップＳ１７）。プロセッサ１７は、「終了命令：無し」と判定した場合（図３：ステップＳ１７Ｎｏ）、ステップＳ１４からステップＳ１６の処理を再び行う。これにより、プロセッサ１７は、最初に設定した音響パラメータＳＰに基づいて音処理を繰り返し行うことが出来る。

ステップＳ１７において、プロセッサ１７は、「終了命令：有り」と判定した場合（図３：ステップＳ１７Ｙｅｓ）、一連の音処理Ｐの実行を完了する（図３：ＥＮＤ）。なお、プロセッサ１７は、音処理Ｐに係るアプリケーションプログラムの終了命令の有無の判定以外の方法によって、音処理Ｐの実行を完了するか否かを判定してもよい。

なお、図３に示した処理の順序は一例であって、プロセッサ１７は、必ずしも図３に示した順序で処理を実行しなくてよい。プロセッサ１７は、ステップＳ１５を実行する前に、ステップＳ１３の処理とステップＳ１４の処理とを実行していれば、どの様な順序で処理を実行してもよい。例えば、プロセッサ１７は、ステップＳ１１からステップＳ１３までの処理（音響パラメータＳＰの設定処理）と、ステップＳ１４の処理（音信号ＳＳ１を受け付ける処理）とを並行して行ってもよい。

（第１実施形態の効果）
音信号処理装置１は、状況に応じて適切な音処理を行うことが出来る。具体的には、音信号処理装置１は、使用者Ｕのいる空間の種類（会議室等の閉じた空間か、オープンスペースか）を自動で推定する。そして、音信号処理装置１は、推定した結果に基づいて音響パラメータＳＰを自動で設定する。例えば、音信号処理装置１は、「部屋情報ＲＩ：閉じた空間」と推定した場合、自動でＡＧＣをオンにし、且つ、自動でノイズリダクションをオフにする。音信号処理装置１は、ＡＧＣをオンにすることによって、マイク４から離れた位置にいる話者の音声もマイク４に近い位置にいる話者の音声も一定のレベルにする。また、音信号処理装置１は、ノイズリダクションをオフにすることで、マイク４から離れた位置にいる使用者Ｕの声をノイズとして除去しない。従って、音信号処理装置１は、マイク４から遠い位置に話者が存在する可能性のある閉じた空間に適するように、音響パラメータＳＰを自動で設定する。

音信号処理装置１は、ノイズリダクションをオンにすることでマイク４から遠い音（例えば、定常雑音又はマイク４から遠い人の声）を除去する。また、音信号処理装置１は、ＡＧＣをオフにすることで、マイク４から遠い雑音の音量を増加させない。結果、音信号処理装置１は、マイク４に近い位置にのみ話者が存在するオープンスペースに適するように、音響パラメータＳＰを自動で設定する。上記に示す様に、音信号処理装置１は、状況に応じて（使用者Ｕのいる空間に応じて）適切に音処理を行うことが出来る。

音信号処理装置１は、使用者Ｕのいる空間の種類に基づいて自動で音響パラメータＳＰを設定する。従って、使用者Ｕは、音響パラメータＳＰを手動で設定しなくてよい。結果、使用者Ｕによる音響パラメータＳＰの設定ミス等が、発生しない。結果、使用者Ｕと対話者とは、適切な音処理が行われた音に基づいて会話を行うことが出来る。

（変形例１）
以下、変形例１に係る音信号処理装置１ａ（図示せず）について説明する。音信号処理装置１ａの構成は、図２に示す音信号処理装置１の構成と同じである。音信号処理装置１ａは、マイク４から受信した音信号に対して音処理Ｐを行う代わりに、処理装置２から受信した音信号に対して音処理Ｐを行う。例えば、音信号処理装置１ａは、「部屋情報ＲＩ：閉じた空間」と推定した場合、ノイズの少ない環境に合わせて処理装置２から受信した音信号のゲインを減少させるように音響パラメータＳＰを設定する。これにより、音信号処理装置１ａは、遠方の対話者の声を、聴取環境に合わせた適切な音量で出力する。一方、音信号処理装置１ａは、例えば、「部屋情報ＲＩ：オープンスペース」と推定した場合、ノイズの多い環境に合わせて処理装置２から受信した音信号のゲインを増加させるように音響パラメータＳＰを設定する。この場合も、音信号処理装置１ａは、遠方の対話者の声を、聴取環境に合わせた適切な音量で出力する。音信号処理装置１ａは、スピーカ５に出力する音信号に対して状況に応じて適切な音処理を行うことが出来る。

なお、音信号処理装置１ａは、マイク４から受信した音信号ＳＳ１及び処理装置２から受信した音信号の両方に、音処理Ｐを行ってもよい。

（変形例２）
以下、変形例２に係る音信号処理装置１ｂについて図を参照して説明する。図７は、音信号処理装置１ｂのプロセッサ１７ｂの機能的構成を示すブロック図である。

音信号処理装置１ｂの備えるプロセッサ１７ｂは、設定部１７３の代わりに設定部１７３ｂを機能的に含んでいる（図７参照）。設定部１７３ｂは、設定部１７３の処理に加えて、音処理Ｐが行われた音信号ＳＳ２に基づいて音響パラメータＳＰを設定する処理を行う。例えば、設定部１７３ｂは、音処理が行われた後の音信号ＳＳ２に含まれている雑音（定常ノイズ）の信号レベルを測定する。設定部１７３ｂは、所定の閾値以上の信号レベルの雑音を検知した場合、ＡＧＣをオフにし、且つ、ノイズリダクションをオンにする。このように、設定部１７３ｂは、仮に推定部１７２でオープンスペースを閉じた空間と誤って推定したときであっても、オープンスペースに適した音響制御（ＡＧＣオフ及びノイズリダクションオン）を行う。対話者は、音信号処理装置１ｂによって、音質が改善された状態で使用者Ｕと会話可能である。

（変形例３）
以下、変形例３に係る音信号処理装置１ｃについて図を参照しながら説明する。図８は、音信号処理装置１ｃにおける音響パラメータＳＰの設定の一例を示すフローチャートである。音信号処理装置１ｃの構成は、図２に記載の音信号処理装置１の構成と同じである。

音信号処理装置１が、画像の取得と、部屋情報ＲＩの推定と、音響パラメータＳＰの設定と、をそれぞれ１回ずつ実行するのに対して、音信号処理装置１ｃは、画像の取得と、部屋情報ＲＩの推定と、音響パラメータＳＰの設定と、をそれぞれ２回以上実行する。以下、詳細に説明する。

音信号処理装置１ｃは、ステップＳ１４の後、カメラ６からｎ番目の画像（第ｎ画像Ｍｎと称する。）を取得する（図８：ステップＳ２１）。なお、ｎは１以上の任意の数字であり、第ｎ画像Ｍｎを取得するとは、Ｓ１４以後の処理がｎ回目であること意味する。換言すれば、取得部１７１は、第１画像Ｍ１を取得したタイミングと異なるタイミングで第２画像Ｍ２を取得する。

取得部１７１で第２画像Ｍ２を取得した後、音信号処理装置１ｃの推定部１７２は、取得した第２画像Ｍ２から部屋情報ＲＩを推定する（図８：ステップＳ２２）。音信号処理装置１ｃにおける部屋情報ＲＩの推定方法は、音信号処理装置１における部屋情報ＲＩの推定方法と同じである。

推定部１７２で第２画像Ｍ２に基づいて部屋情報ＲＩを推定した後、音信号処理装置１ｃの設定部１７３は、第２画像Ｍ２から推定した部屋情報ＲＩに基づいて音響パラメータＳＰを変更する（図８：ステップＳ２３）。この場合、音信号処理装置１ｃの信号処理部１７４は、変更した音響パラメータＳＰに基づく音処理を音信号ＳＳ１に対して行い（図８：ステップＳ１５）、且つ、音信号処理装置１ｃの出力部１７５は、変更した音響パラメータＳＰに基づく音処理が行われた音信号ＳＳ２を、処理装置２へ出力する（図８：ステップＳ１６）。

ステップＳ１６の後、音信号処理装置１ｃのプロセッサ１７は、ステップＳ１７を実行する。プロセッサ１７は、ステップＳ１７において「終了命令：無し」と判定した場合（図８：ステップＳ１７Ｎｏ）、ステップＳ１４、Ｓ２１、Ｓ２２、Ｓ２３、Ｓ１５、Ｓ１６の処理を再び実行する。

ステップＳ１７において、プロセッサ１７は、「終了命令：有り」と判定した場合（図８：ステップＳ１７Ｙｅｓ）、一連の音処理Ｐの実行を完了する（図８：ＥＮＤ）。

（変形例３の効果）
音信号処理装置１が、音処理Ｐに係るアプリケーションプログラムの開始後に、音響パラメータＳＰの設定を１回実行するのに対して、音信号処理装置１ｃは、音響パラメータＳＰの設定を２回以上実行する。従って、音信号処理装置１ｃは、使用者Ｕのいる空間の変化に伴って、音響パラメータＳＰを変化させることが出来る。例えば、使用者Ｕによって部屋のパーティション等が外される場合がある。この場合、使用者Ｕのいる空間は、閉じた空間からオープンスペースに変化する。このとき、音信号処理装置１ｃは、音響パラメータＳＰを自動で変更する。従って、音信号処理装置１ｃは、状況の変化に応じて適切に設定された音響パラメータＳＰで音処理を行うことが出来る。

（変形例４）
以下、変形例４に係る音信号処理装置１ｄについて図を参照しながら説明する。図９は、音信号処理装置１ｄにおけるゲイン調整を示す図である。音信号処理装置１ｄの構成は、図２に示す音信号処理装置１の構成と同じである。

音信号処理装置１ｄの信号処理部１７４は、音響パラメータＳＰの変更において、所定時間Ｐｔの間に徐々に音響パラメータＳＰを変更する。本変形例において、音信号処理装置１ｄは、所定時間Ｐｔの間に徐々に、ＡＧＣオフからＡＧＣオンへ変更をする。具体的には、音信号処理装置１ｄは、ＡＧＣをオンにしたときに、音信号ＳＳ１のゲインの目標値ＴＶを決定する。音信号処理装置１ｄは、目標値ＴＶを音響パラメータＳＰとして設定する。このとき、目標値ＴＶが、音信号ＳＳ１の現在値ＣＤと異なる場合がある。この場合、音信号ＳＳ１のゲインの値を、現在値ＣＤから目標値ＴＶへ所定時間Ｐｔをかけて緩やかに変更する。本変形例において、例えば、音信号処理装置１ｄのフラッシュメモリ１５が、所定時間Ｐｔを予め記録している。

図９に示す例では、フラッシュメモリ１５は、所定時間Ｐｔを６秒と記録している。この場合、音信号処理装置１ｄは、６秒の間に音信号ＳＳ１のゲインの値を徐々に変更する。例えば、図９では、音信号ＳＳ１のゲインの現在値は２０ｄＢであり、音信号ＳＳ１のゲインの目標値ＴＶは５ｄＢである。この場合、音信号処理装置１ｄは、音信号ＳＳ１のゲインの値を、２０ｄＢから５ｄＢに、６秒の間に変更する。これにより、対話者は、処理装置２のスピーカから出力された音に違和感を覚えることなく使用者Ｕと会話をすることが出来る。

（変形例５）
以下、変形例５に係る音信号処理装置１ｅについて図を参照して説明する。図１０は、音信号処理装置１ｅのプロセッサ１７ｅの機能的構成を示すブロック図である。

音信号処理装置１ｅに備わるプロセッサ１７ｅは、ＡＧＣ又はノイズリダクションと異なる音処理である残響除去、又は、残響付加を実行する。従って、本変形例における音響パラメータＳＰは、残響除去に関するパラメータ、又は、残響付加に関するパラメータである。プロセッサ１７ｅは、設定部１７３の代わりに設定部１７３ｅを機能的に含んでいる（図１０参照）。設定部１７３ｅは、残響除去をオン／オフ、又は、残響付加をオン／オフする。換言すれば、本変形例において、音処理Ｐは、残響除去、又は、残響付加の少なくとも１つを含んでいる。

より詳細には、設定部１７３ｅは、推定部１７２で「部屋情報ＲＩ：閉じた空間」と推定した場合、残響除去をオンにする。この場合、音信号処理装置１ｅは、マイク４で取得した音に係る音信号ＳＳ１に対して残響除去を行う。音信号処理装置１ｅは、残響除去を行った後の音信号ＳＳ２を処理装置２へ送信する。対話者は、音信号処理装置１ｅによって残響除去された音を用いて、使用者Ｕと会話を行うことが出来る。従って、対話者は、使用者Ｕの直接音のみを聞くことが出来るため、使用者Ｕの声を聞きやすくなる。

一方、設定部１７３ｅは、推定部１７２で「部屋情報ＲＩ：オープンスペース」と推定した場合、残響付加をオンにする。この場合、音信号処理装置１ｅは、処理装置２から受信した音信号に対して残響付加を行う。スピーカ５は、残響付加を行った音信号ＳＳ２に基づいた音を発する。音信号への残響付加によって、使用者Ｕは、臨場感のある（例えば、使用者Ｕが、会議室内で対話者と会話をしている様な）会話を対話者と行うことが可能である。上記に示すように、音信号処理装置１ｅは、残響付加又は残響除去を、状況に応じて適切に実行することが出来る。

（変形例６）
以下、変形例６に係る音信号処理装置１ｆについて図を参照して説明する。図１１は、音信号処理装置１ｆのプロセッサ１７ｆの機能的構成を示すブロック図である。なお、音信号処理装置１ｆにおいて、音信号処理装置１と同じ構成については、同じ符号を付して説明を省略する。

音信号処理装置１ｆに備わるプロセッサ１７ｆは、信号処理部１７４の代わりに信号処理部１７４ｆを機能的に含んでいる（図１１参照）。信号処理部１７４ｆは、雑音除去用の学習済モデルＭＭ１を用いて音信号ＳＳ１の雑音を除去する。学習済モデルＭＭ１は、ある入力の音信号（以下、第１音信号と称する）を、雑音を除去した音信号（以下、第２音信号と称する）に変換する処理を学習済である。換言すれば、学習済モデルＭＭ１は、第１音信号と、第１音信号から雑音を除去した第２音信号との関係を機械学習している。信号処理部１７４ｆは、学習済モデルＭＭ１を用いて音処理を行う。具体的には、信号処理部１７４ｆは、音信号ＳＳ１を、音信号ＳＳ１から雑音を除去した音信号ＳＳ３に変換する音処理を行う。信号処理部１７４ｆは、出力部１７５を介して、音信号ＳＳ３を処理装置２へ送信する。

なお、音信号処理装置１ｆが、必ずしも、学習済モデルＭＭ１を含んでいなくてもよい。サーバ等の他装置が学習済モデルＭＭ１を含んでいてもよい。この場合、音信号処理装置１ｆは、学習済モデルＭＭ１を含んでいる他装置に音信号ＳＳ１を送信することによって、音信号ＳＳ１の雑音を除去する。

（変形例７）
以下、変形例７に係る音信号処理装置１ｇ（図示せず）について図４及び図５を準用して説明する。音信号処理装置１ｇの構成は、図２に示す音信号処理装置１の構成と同じである。音信号処理装置１ｇは、オープンスペース又は閉じた空間であることを示す情報以外の部屋情報ＲＩＩに基づいて音響パラメータＳＰを設定する。

部屋情報ＲＩＩは、具体的には、部屋自体を示す情報、又は、部屋の使用状況を示す情報を含んでいる。部屋自体を示す情報とは、例えば、部屋の大きさ、部屋の形状、又は、部屋の材質、等である。部屋の使用状況を示す情報とは、例えば、部屋内にいる人の数、又は、部屋内の設備（家具等）等である。部屋内の設備とは、例えば、部屋内の椅子の数、又は、机の形等である。換言すれば、本変形例において、部屋情報ＲＩＩは、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも１つを含んでいる。

音信号処理装置１ｇは、例えば、図４に示す第１画像Ｍ１に基づいて、部屋の大きさ、部屋の形状、又は、部屋の材質を推定する。例えば、音信号処理装置１ｇは、既存のオブジェクト認識技術等によって、部屋の大きさ、部屋の形状、又は、部屋の材質を推定する。音信号処理装置１ｇは、部屋の大きさ、部屋の形状、又は、部屋の材質に適するように音響パラメータＳＰを設定する。

例えば、音信号処理装置１ｇは、処理装置２から受信した音信号のゲインの値を増加させる又は減少させるように音響パラメータＳＰを設定する。具体的には、音信号処理装置１ｇは、大きい部屋と推定した場合、処理装置２から受信した音信号のゲインを増加させる。これにより、スピーカ５から出力される音の音量が増加する。従って、使用者Ｕは、スピーカ５から遠い位置にいても該スピーカ５から出力される音を聞くことが出来る。一方、音信号処理装置１ｇは、小さい部屋と推定した場合、処理装置２から受信した音信号のゲインの値を減少させる。これにより、使用者Ｕは、大きい音による不快感を覚えない。

部屋の大きさ、部屋の形状、又は、部屋の材質は、音の残響等に影響を与える要因でもある。従って、音信号処理装置１ｇは、例えば、残響付加のオン／オフを行う。具体的には、音信号処理装置１ｇは、部屋の大きさ、部屋の形状又は部屋の材質に基づいて、残響の発生しやすい部屋か発生しにくい部屋かを推定する。音信号処理装置１ｇは、残響の発生しにくい部屋と推定した場合、残響付加をオンにする。この場合、音信号処理装置１ｇは、処理装置２から受信した音信号に対して残響を付加する処理を行う。これにより、スピーカ５は、残響を付加した音信号に係る音を出力する。従って、スピーカ５から発する音の音質が向上する。一方、音信号処理装置１ｇは、残響の発生しやすい部屋と推定した場合、残響付加をオフにする。この場合、音信号処理装置１ｇは、処理装置２から受信した音信号に対して、残響を付加する処理を行わない。従って、音信号処理装置１ｇは、不要な処理を実行しない。上記に示すように、音信号処理装置１ｇは、部屋に応じて残響付加のオン／オフを適切に切り替えることが出来る。

また、例えば、音信号処理装置１ｇは、残響の発生しやすい部屋か発生しにくい部屋かの推定結果に基づいて残響除去のオン／オフを行う。具体的には、音信号処理装置１ｇは、残響の発生しやすい部屋と推定した場合、残響除去をオンにする。この場合、音信号処理装置１ｇは、マイク４から受信した音信号ＳＳ１に対して、残響を除去する処理を行うことによって音信号ＳＳ２を取得する。音信号処理装置１ｇは、残響を除去した音信号ＳＳ２を処理装置２へ送信する。これにより、処理装置２のスピーカは、残響を除去した音信号ＳＳ２に係る音を出力する。従って、対話者は、使用者Ｕの声を聞きやすい。一方、音信号処理装置１ｇは、残響の発生しにくい部屋と推定した場合、残響除去をオフにする。この場合、音信号処理装置１ｇは、マイク４から受信した音信号ＳＳ１に対して、残響を除去する処理を行わない。従って、音信号処理装置１ｇは、不要な処理を実行しない。上記に示す様に、音信号処理装置１ｇは、部屋に応じて残響除去のオン／オフを適切に切り替えることが出来る。

また、音信号処理装置１ｇは、既存のオブジェクト認識技術等によって、人の数、椅子の数、又は、机の形を推定する。例えば、音信号処理装置１ｇは、図４における第１画像Ｍ１に基づいて、「人の数：３人（人Ｈ１，Ｈ２，Ｈ３）、椅子の数：２つ（椅子Ｃ１，Ｃ２）、机の形状（机Ｅの形状）：長方形状」等と判定する。

部屋内にいる人の数又は部屋内に配置されている椅子の数が多い場合、室内における残響は、弱くなりやすい。また、部屋内に配置されている机の形状が複雑な場合、室内における残響は、弱くなりやすい。従って、音信号処理装置１ｇは、室内にいる人の数、室内に配置されている椅子の数、又は、机の形状に基づいて、残響の発生しやすい部屋か残響の発生しにくい部屋かを推定する。音信号処理装置１ｇは、残響の発生しやすい部屋か残響の発生しにくい部屋かの推定結果に基づいて、残響付加のオン／オフ、又は、残響除去のオン／オフを行う。

例えば、音信号処理装置１ｇは、残響の発生しやすい部屋と推定した場合（人が少ない、椅子が少ない、又は、机の形状が単純であると推定した場合）、残響付加をオフにする。この場合、音信号処理装置１ｇは、処理装置２から受信した音信号に対して、残響を付加する処理を行わない。従って、音信号処理装置１ｇは、不要な処理を実行しない。また、音信号処理装置１ｇは、残響の発生しやすい部屋と推定した場合、残響除去をオンにする。この場合、音信号処理装置１ｇは、マイク４から受信した音信号ＳＳ１に対して、残響を除去する処理を行うことによって音信号ＳＳ２を取得する。音信号処理装置１ｇは、残響を除去した音信号ＳＳ２を処理装置２へ送信する。従って、対話者は、使用者Ｕの声を聞きやすい。

一方、音信号処理装置１ｇは、残響の発生しにくい部屋と推定した場合（人が多い、椅子が多い、又は、机の形状が複雑であると推定した場合）、残響付加をオンにする。この場合、音信号処理装置１ｇは、処理装置２から受信した音信号に対して残響を付加する処理を行う。従って、スピーカ５から発する音の音質が向上する。また、音信号処理装置１ｇは、残響の発生しにくい部屋と推定した場合、残響除去をオフにする。この場合、音信号処理装置１ｇは、マイク４から受信した音信号ＳＳ１に対して、残響を除去する処理を行わない。従って、音信号処理装置１ｇは、不要な処理を実行しない。

上記に示すように、本変形例において、音信号処理装置１ｇの設定部１７３は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて音響パラメータＳＰを設定する。従って、音信号処理装置１ｇは、状況に合わせて適切に設定された音響パラメータＳＰに基づいた音処理を実行する。

なお、部屋情報ＲＩＩは、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、以外の情報を含んでいてもよい。部屋情報ＲＩＩは、例えば、部屋内にいる人の内、カメラ６の方向を向いている人の数及びカメラ６の方向を向いていない人の数を含んでいてもよい。音信号処理装置１ｇは、例えば、人工知能等に基づいて、カメラ６の方向を向いている人の数及びカメラ６の方向を向いていない人の数を判定する。図５に示す例では、音信号処理装置１ｇは、「カメラ６の方向を向いている人の数＝３人（人Ｈ１，Ｈ２，Ｈ３）」と判定し、且つ、「カメラ６の方向を向いていない人の数＝１人（人Ｑ１）」と判定する。音信号処理装置１ｇは、カメラ６の方向を向いている人の数が、カメラ６の方向を向いていない人の数よりも多いと判定した場合、使用者Ｕのいる空間を、閉じた空間と判定する。一方、音信号処理装置１ｇは、カメラ６の方向を向いている人の数が、カメラ６の方向を向いていない人の数よりも少ないと判定した場合、使用者Ｕのいる空間を、オープンスペースと判定する。

なお、部屋情報ＲＩＩは、例えば、空間内に配置されている家具の価格等を含んでいてもよい。音信号処理装置１ｇは、例えば、家具の価格に基づいて音響パラメータＳＰを設定する。この場合、音信号処理装置１ｇは、例えば、人工知能等を用いて第１画像Ｍ１に撮像されている家具の価格を推定する。音信号処理装置１ｇは、家具の価格を高価と推定した場合、スピーカ５から一定以上の音量を発生させないように、音響パラメータＳＰを設定する。上記に示す様に、音信号処理装置１ｇは、例えば、家具の価格に基づいて大きな音を発生させてもよい空間か否かを推定する。すなわち、部屋に適した音響パラメータＳＰを設定することが出来る。

（変形例８）
以下、変形例８に係る音信号処理装置１ｈについて図を参照しながら説明する。図１２は、音信号処理装置１ｈのプロセッサ１７ｈの機能的構成を示すブロック図である。図１３は、音信号処理装置１ｈにおける音響パラメータＳＰの設定の一例を示すフローチャートである。図１４は、音信号処理装置１ｈにおける画像処理の一例を示す図である。

音信号処理装置１ｈは、机Ｅの上面において反射した音を出力するか否かを判定する処理を実行する点で、音信号処理装置１と異なる。

図１２に示すように、音信号処理装置１ｈは、受付部１７０、取得部１７１、推定部１７２、設定部１７３、信号処理部１７４及び出力部１７５に加えて、方向検出部１７６を機能的に備えている。方向検出部１７６は、音声の到来する方向Ｆ１を検出する（図１３：ステップＳ３０）。例えば、本変形例において、音信号処理装置１ｈは、複数のマイク（例えば、図１２における、マイク４及びマイク４ａ）と接続している。方向検出部１７６は、複数のマイクの収音信号（例えば、図１２における、マイク４から取得した音信号ＳＳ１及びマイク４ａから取得した音信号ＳＳ１ａ）の相互相関を算出することによって方向Ｆ１を検出する。

ステップＳ３０の後、推定部１７２は、第１画像Ｍ１を解析処理（例えば、第１実施形態と同様の人工知能による解析処理等）することによって、第１画像Ｍ１に人の頭部が撮像されているか否かを判定する（図１３：ステップＳ３１）。

推定部１７２は、「人の頭部：有」と判定した場合（図１３：ステップＳ３１Ｙｅｓ）、検出した人の頭部の方向Ｆ２を算出する（図１３：ステップＳ３２）。例えば、図１４において、推定部１７２は、第１画像Ｍ１に基づいて人Ｈ３の方向Ｆ２を推定する。

ステップＳ３２の後、推定部１７２は、第１画像Ｍ１に机が撮像されているか否かを判定する（図１３：ステップＳ３３）。具体的には、推定部１７２は、後述する机の有無を判定する処理を実行する。この場合、推定部１７２は、第１画像Ｍ１に基づいて机の位置を算出している。机の位置は、部屋の使用状況を示す情報（部屋内の設備を示す情報）の一例である。従って、本変形例において、部屋情報ＲＩは、机の位置を示す情報を含んでいる。

推定部１７２は、「机：有」と判定した場合（図１３：ステップＳ３３Ｙｅｓ）、机の方向Ｆ３を算出する（図１３：ステップＳ３４）。例えば、図１４において、第１画像Ｍ１に机Ｅが撮像されている。この場合、推定部１７２は、机Ｅの位置する方向Ｆ３を算出する。

ステップＳ３４の後、推定部１７２は、「音声の到来する方向Ｆ１が、人の頭部の位置する方向Ｆ２と一致するか否か」を判定する（図１３：ステップＳ３５）。例えば、図１４において、人Ｈ３の音声ＳＨ２が、音信号処理装置１ｈに接続されているマイクに直接到達する。この場合、推定部１７２は、「方向Ｆ１が、人Ｈ３の頭部の位置する方向Ｆ２と一致する」と判定する。

設定部１７３は、推定部１７２で「方向Ｆ１が、方向Ｆ２と一致する」と判定した場合（図１３：ステップＳ３５Ｙｅｓ）、方向Ｆ３からの音を、出力しない設定を行う（図１３：ステップＳ３６）。これにより、音信号処理装置１ｈは、机Ｅにおいて反射した音声ＳＨ３によって使用者Ｕの音声が遅れて複数回収音され、エコーの様に聞こえることを防止する。

ステップＳ３６の後、設定部１７３は、方向Ｆ１に高い感度を有する収音ビームを形成する（図１３：ステップＳ３７）。具体的には、音信号処理装置１ｈに接続されている複数のマイクそれぞれの収音信号を所定の遅延量で遅延して合成することによって、方向Ｆ１に高い感度を有する収音ビームを形成する。これにより、音信号処理装置１ｈは、人Ｈ３の音声ＳＨ２を明瞭に取得することが出来る。上記に示すように、本変形例において、設定部１７３は、机の位置を示す情報（部屋情報の一例）に応じて音響パラメータＳＰを設定する。

ステップＳ３１において推定部１７２で「人の頭部：無」と判定した場合（図１３：ステップＳ３１Ｎｏ）、方向検出部１７６が、第１画像Ｍ１に撮像されていない領域から到来した音声ＳＨ１（第１画像Ｍ１に撮像されていない人の音声等）、又は人の音声ではない音源の音（例えば、図１４に図示するＰＣの音等）を検出している可能性がある（図１４参照）。このため、設定部１７３は、推定部１７２で「人の頭部：無」と判定した場合（図１３：ステップＳ３１Ｎｏ）、方向Ｆ１に高い感度を有する収音ビームを形成する設定を行う（図１３：ステップＳ４０）。これにより、音信号処理装置１ｈは、第１画像Ｍ１に撮像されていない領域から到来した音声ＳＨ１（第１画像Ｍ１に撮像されていない人の音声）を明瞭に取得することが出来る。

ステップＳ３３において、推定部１７２は、「机：無」と判定した場合（図１３：ステップＳ３３Ｎｏ）、「音声の到来する方向Ｆ１が、人の頭部の位置する方向Ｆ２と一致するか否か」を判定する（図１３：ステップＳ３８）。

ステップＳ３８において推定部１７２で「方向Ｆ１が、方向Ｆ２と一致する」と判定した場合（図１３：ステップＳ３８Ｙｅｓ）、設定部１７３は、方向Ｆ１に高い感度を有する収音ビームを形成する（図１３：ステップＳ４０）。これにより、音信号処理装置１ｈは、机の上面で反射した音声ＳＨ３ではなく、人から直接到達した音声ＳＨ２を明瞭に取得することが出来る。

ステップＳ３８において、設定部１７３は、推定部１７２で「方向Ｆ１が、方向Ｆ２と一致しない」と判定した場合（図１３：ステップＳ３８Ｎｏ）処理を終える（図１３：ＥＮＤ）。つまり、音信号処理装置１ｈは、現在の収音ビームの状態を維持する。方向Ｆ１が方向Ｆ２に一致しないということは、収音ビームは、第１画像Ｍ１に撮像されていない領域の方向に向いている。従って、設定部１７３は、収音ビームの設定を維持し、第１画像Ｍ１に撮像されていない領域から到来した音声ＳＨ１（第１画像Ｍ１に撮像されていない人の音声）を取得する。

ステップＳ３５において、推定部１７２は、「方向Ｆ１が、方向Ｆ２と一致しない」と判定した場合（図１３：ステップＳ３８Ｎｏ）、「方向Ｆ１が、方向Ｆ３と一致するか否か」を判定する（図１３：ステップＳ３９）。

ステップＳ３９において、推定部１７２で「方向Ｆ１が、方向Ｆ３と一致する」と判定した場合、話者の音声が机Ｅで反射してマイクに収音されている可能性がある一方で、部屋を平面視して、机で反射した音声の方向と同じ方向に話者が存在し、当該話者からの直接音がマイクに収音されている可能性もある。このとき、仮に音信号処理装置１ｈが、当該方向の音声を出力しない処理を実行した場合、当該方向に居る話者の音声を出力しなくなる。このため、対話者が、話者の音声を聞きとれなくなる虞がある。従って、設定部１７３は、推定部１７２で「方向Ｆ１が、方向Ｆ３と一致する」と判定した場合（図１３：ステップＳ３９Ｙｅｓ）、方向Ｆ１に高い感度を有する収音ビームを形成する設定を行う（図１３：ステップＳ３７）。これにより、音信号処理装置１ｈは、机Ｅで反射した話者の音声を明瞭に取得することが出来る。

一方、方向検出部１７６は、ステップＳ３９において推定部１７２で「方向Ｆ１が、方向Ｆ３と一致しない」と判定した場合（図１３：ステップＳ３９Ｎｏ）、処理を終える（図１３：ＥＮＤ）。つまり、音信号処理装置１ｈは、現在の収音ビームの状態を維持する。方向Ｆ１が方向Ｆ２に一致せず、且つ、方向Ｆ１が方向Ｆ３に一致しないということは、収音ビームは、第１画像Ｍ１に撮像されていない領域の方向に向いている。従って、設定部１７３は、収音ビームの設定を維持し、第１画像Ｍ１に撮像されていない領域から到来した音声ＳＨ１（第１画像Ｍ１に撮像されていない人の音声）を取得する。

（効果）
音信号処理装置１ｈによれば、対話者は、使用者Ｕの音声を聞き取りやすくなる。音信号処理装置１ｈは、机において反射した音声を収音しないように遅延量（音響パラメータＳＰ）を設定する。例えば、図１４において、音信号処理装置１ｈは、机Ｅにおいて反射した人Ｈ３の音声を出力しにくくなる。この場合、音信号処理装置１ｈは、机Ｅにおいて反射した音声によって使用者Ｕの音声が遅れて複数回収音され、エコーの様に聞こえることを防止する。従って、対話者は、人Ｈ３の音声を明瞭に聞き取りやすくなる。

（机の有無を判定する処理）
以下、音信号処理装置１ｈにおける机の有無を判定する処理（以下、処理Ｚと称す）について説明する。音信号処理装置１ｈは、第１画像Ｍ１の色の分布を解析することによって、机の有無を判定する。具体的には、音信号処理装置１ｈは、図１４の破線で示すように、第１画像Ｍ１を複数の領域（例えば、１００×１００ピクセル等）に分割する。音信号処理装置１ｈは、分割した各領域に対して以下に示す（１）から（９）の処理を順に施す。

（１）：各領域の全ピクセルの平均ＲＧＢ値（以下、第１平均値と称す）を求める。

（２）：複数の行の内の１行目（最も下の行）において、ＲＧＢが同一の色とみなせる範囲に収まっている領域（以下、第１領域と称す）の数を算出する。同一の色とみなせる範囲とは、例えば、その行における第１平均値の中央値±α（αは任意の値）の範囲である。つまり、各領域が、中央値－α＜第１平均値＜中央値＋αの範囲である場合に第１領域とする。

（３）：１行目において全領域の数に対する第１領域の数の割合が、第１閾値以上（例えば、８０％以上等）である場合、１行目に机Ｅが撮像されていると判定する。全領域の数に対する第１領域の数の割合が第１閾値未満である場合、机Ｅが撮像されていないと判定する。

（４）：（３）において机Ｅが撮像されていないと判定した場合、当該判定を行った行の次の行において、（２）から（３）の処理を繰り返す。例えば、１行目において机Ｅが撮像されていないと判定した場合、２行目において（２）から（３）の処理を行う。

（５）：（３）において机Ｅが撮像されていると判定した場合、第１領域全てのＲＧＢの平均値（以下、第２平均値と称す）を算出する。

（６）机Ｅが撮像されていると判定した次の行において、第２平均値と同程度の色の領域（以下、第２領域と称す）の数を求める。同程度の色とは、例えば、第２平均値±Δ（Δは任意の値）の範囲内の色である。つまり、各領域が第２平均値－Δ＜第１平均値＜第２平均値＋Δの範囲である場合に第２領域とする。

（７）：その行の全領域の数に対する第２領域の数の割合が、第２閾値以上（例えば、６０％以上等）である場合、その行に机Ｅが撮像されていると判定する。第２閾値は、第１閾値未満である。

（８）：以下、残りの行についても（５）から（７）の処理を繰り返す。

（９）：（８）において、その行に机Ｅが撮像されていないと判定した場合、机Ｅの有無を判定する処理を終了する。これにより、音信号処理装置１ｈは、第１画像Ｍ１に撮像されている机Ｅの範囲（机Ｅが撮像されている領域）を確定する。

（効果）
処理Ｚを実行する音信号処理装置１ｈは、ピクセル毎ではなく、領域毎に机Ｅの有無を判定する。この場合、音信号処理装置１ｈの負荷は、ピクセル毎に机Ｅの有無を判定する場合と比較して、小さくなる。

机Ｅの色は、同一色である場合が多い。つまり、前の行に撮像されている机Ｅの色が、次の行に撮像されている机Ｅの色と同じである可能性が高い。そこで、処理Ｚを実行する音信号処理装置１ｈは、前の行の計算結果（前の行で机Ｅと判定した第１領域の平均ＲＧＢ値の算出結果）を、次の行の計算（第２領域であるか否か）に反映させる。つまり、前の行で特定した机Ｅの色（前の行で机Ｅと判定した第１領域の平均ＲＧＢ値）に基づいて次の行の各領域に机Ｅが撮像されているか否かを判定する（色が近いか否かによって、机Ｅの有無を判定する）。従って、音信号処理装置１ｈにおける机Ｅの検出精度が向上する。

撮像された物体は、遠い位置ほど小さくなる。このため、長方形状の机Ｅは、台形状に撮像される。第１画像Ｍ１において上の行に撮像されている机Ｅの幅ほど、下の行に撮像されている机Ｅの幅よりも小さくなる。従って、上の行ほど、机Ｅが撮像されている領域の数が少なくなる。そこで、音信号処理装置１ｈは、第１閾値未満である第２閾値を設定（台形状に撮像される机Ｅの特徴に対応させた閾値を設定）し、各行に机が撮像されているか否かを判定する。これにより、音信号処理装置１ｈにおける机Ｅの検出精度が向上する。

なお、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に音声ビームの処理を変えてもよい。例えば、音声は、机Ｅの端よりも机Ｅの中央において反射しやすい。従って、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に「机Ｅの中央が存在するか、又は、机Ｅの端が存在するか」を判定する。音信号処理装置１ｈは、「机の中央が存在する」と判定した各領域に対して図１３に示すフローに基づいた処理（ステップＳ３４，Ｓ３５，Ｓ３６，Ｓ３７，Ｓ３９）を実行する。一方、音信号処理装置１ｈは、「机の端が存在する」と判定した各領域に対して音声ビームの処理を実行しない。このように、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に適切に音声ビームの処理を行うことが出来る。

なお、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に音声の反射角を算出（例えば、第１画像Ｍ１を解析処理することによって算出）し、算出した反射角に基づいて音声ビームの処理を実行してもよい。例えば、立っている話者の音声の反射角は小さくなる。マイクは、反射角の小さい音声（指向性を有していない方向からの音声）を収音しにくい。従って、音信号処理装置１ｈは、反射角の小さい音声（収音されにくい音声）を出力しないようにする。これにより、対話者が、音声を聞き取りにくく感じることを防ぐ。一方、座っている話者の音声の反射角は大きくなる。この場合、反射した音声の方向と、話者から直接到達した音声の方向とは、同一であるとみなすことが出来る（方向Ｆ１≒方向Ｆ３とみなすことが出来る）。このため、音信号処理装置１ｈは、反射角の大きい音声を収音するように収音ビームを形成する。

なお、マイクの収音する音声の周波数特性は、音声の到来する方向によって変化する可能性がある。例えば、机Ｅにおいて反射した音声と、話者から直接到達した音声とが、干渉することによって周波数特性が変化する可能性がある。従って、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に音声の到来する方向に基づいてイコライザーのパラメータを変化させてもよい。これにより、音信号処理装置１ｈは、対話者の聞き取りやすい音声を出力することが出来る。

なお、音信号処理装置１ｈは、マイクと、机Ｅにおける音声の反射位置と、の間の距離（以下、マイク－反射位置間の距離と称す）に基づいて、音声を出力するか否かを判定してもよい。例えば、マイクに近い位置で反射した音声は、話者から直接到来した音声と同一とみなすことが出来る（Ｆ１≒Ｆ３とみなすことが出来る）。従って、音信号処理装置１ｈは、机Ｅが存在すると判定した領域毎に、マイク－反射位置間の距離を算出する。そして、音信号処理装置１ｈは、「マイク－反射位置間の距離が、短い（予め音信号処理装置１ｈに設定している任意の閾値以下）」と判定した場合、当該領域に対して音声ビームの処理を実行しない。これにより、音信号処理装置１ｈの処理の負荷が、机Ｅが存在すると判定した全領域で音声ビームの処理を実行する場合と比較して、軽減される。

なお、音信号処理装置１，１ａ，１ｂ，１ｃ，１ｄ，１ｅ，１ｆ，１ｇ，１ｈの構成を任意に組み合わせてもよい。

１，１ａ，１ｂ，１ｃ，１ｄ，１ｅ，１ｆ，１ｇ，１ｈ：音信号処理装置
１７，１７ｂ，１７ｅ，１７ｆ：プロセッサ
１７０：受付部
１７１：取得部
１７２：推定部
１７３，１７３ｂ，１７３ｅ：設定部
１７４，１７４ｆ：信号処理部
１７５：出力部
Ｍ１：第１画像
Ｐ：音処理
ＲＩ，ＲＩＩ：部屋情報
ＳＰ：音響パラメータ
ＳＳ１，ＳＳ２，ＳＳ３：音信号

Claims

音信号を受け付け、
第１画像を取得し、
取得した前記第１画像に基づいて部屋情報を推定し、
推定した前記部屋情報に応じて音響パラメータを設定し、
前記設定された音響パラメータに基づく音処理を前記音信号に対して行い、
前記音処理が行われた前記音信号を出力する、
音信号処理方法。
前記音処理が行われた前記音信号に基づいて前記音響パラメータを変更する、
請求項１に記載の音信号処理方法。
前記第１画像を取得したタイミングと異なるタイミングで第２画像を取得し、
取得した前記第２画像から前記部屋情報を推定し、
前記第２画像から推定した前記部屋情報に基づいて前記音響パラメータを変更する、
請求項１又は請求項２に記載の音信号処理方法。
前記変更において所定時間の間に音響パラメータを変更する、
請求項２又は請求項３に記載の音信号処理方法。
前記部屋情報は、オープンスペース、又は、閉じた空間であること示す情報を含んでおり、
前記オープンスペース、又は、閉じた空間であること示す情報に基づいて前記音響パラメータを設定する、
請求項１から請求項４のいずれかに記載の音信号処理方法。
前記部屋情報は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも１つを含み、
前記部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて前記音響パラメータを設定する
請求項１から請求項５のいずれかに記載の音信号処理方法。
前記音処理は、ノイズリダクション、ゲイン調整、残響除去、又は、残響付加の少なくとも１つを含んでいる、
請求項１から請求項６のいずれかに記載の音信号処理方法。
前記部屋情報は、机の位置を示す情報を含んでおり、
前記机の位置を示す情報に応じて前記音響パラメータを設定する、
請求項１から請求項７のいずれかに記載の音信号処理方法。
第１音信号と、前記第１音信号から雑音を除去した第２音信号との関係を機械学習した学習済モデルを用いて、前記音処理を行う、
請求項１から請求項８のいずれかに記載の音信号処理方法。
入力画像と部屋情報との関係を機械学習により学習した学習済モデルを用いて前記部屋情報を推定する、
請求項１から請求項９のいずれかに記載の音信号処理方法。
音信号を受け付ける受付部と、
第１画像を取得する取得部と、
取得した前記第１画像に基づいて部屋情報を推定する推定部と、
推定した前記部屋情報に応じて音響パラメータを設定する設定部と、
前記設定された音響パラメータに基づく音処理を前記音信号に対して行う信号処理部と、
前記音処理が行われた前記音信号を出力する出力部と、
を備えている、
音信号処理装置。
前記信号処理部は、前記音処理が行われた前記音信号に基づいて前記音響パラメータを変更する、
請求項１１に記載の音信号処理装置。
前記取得部は、前記第１画像を取得したタイミングと異なるタイミングで第２画像を取得し、
前記推定部は、取得した前記第２画像から前記部屋情報を推定し、
前記設定部は、前記第２画像から推定した前記部屋情報に基づいて前記音響パラメータを変更する、
請求項１１又は請求項１２に記載の音信号処理装置。
前記信号処理部は、前記変更において所定時間の間に音響パラメータを変更する、
請求項１２又は請求項１３に記載の音信号処理装置。
前記部屋情報は、オープンスペース、又は、閉じた空間であること示す情報を含んでおり、
前記設定部は、前記オープンスペース、又は、閉じた空間であること示す情報に基づいて前記音響パラメータを設定する、
請求項１１から請求項１４のいずれかに記載の音信号処理装置。
前記部屋情報は、部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形、の少なくとも１つを含み、
前記設定部は、前記部屋の大きさ、部屋の形状、材質、人の数、椅子の数、又は、机の形に応じて前記音響パラメータを設定する
請求項１１から請求項１５のいずれかに記載の音信号処理装置。
前記音処理は、ノイズリダクション、ゲイン調整、残響除去、又は、残響付加の少なくとも１つを含んでいる、
請求項１１から請求項１６のいずれかに記載の音信号処理装置。
前記部屋情報は、机の位置を示す情報を含んでおり、
前記設定部は、前記机の位置を示す情報に応じて前記音響パラメータを設定する、
請求項１１から請求項１７のいずれかに記載の音信号処理装置。
前記信号処理部は、第１音信号と、前記第１音信号から雑音を除去した第２音信号との関係を機械学習した学習済モデルを用いて、前記音処理を行う、
請求項１１から請求項１８のいずれかに記載の音信号処理装置。
前記推定部は、入力画像と部屋情報との関係を機械学習により学習した学習済モデルを用いて前記部屋情報を推定する、
請求項１１から請求項１９のいずれかに記載の音信号処理装置。