JP2023072187A

JP2023072187A - 音声処理システム、音声処理方法、及び音声処理プログラム

Info

Publication number: JP2023072187A
Application number: JP2021184570A
Authority: JP
Inventors: 典子畑; Noriko Hata
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-05-24

Abstract

【課題】マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供する。
【解決手段】音声処理システムは、音響機器に入力される特定音声の第１音声データと、マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得部と、前記音声取得部が前記第１音声データを取得した時点と前記音声取得部が前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、を備える。
【選択図】図１

Description

本発明は、マイクスピーカー装置の音声の送受信を行う音声処理システム、音声処理方法、及び音声処理プログラムに関する。

従来、複数の拠点（会議室など）をネットワーク接続して、複数のユーザーが参加して会議（オンライン会議）を行うことを可能にするシステムが知られている（例えば特許文献１参照）。例えば、前記システムは、各拠点に配置されたマイクスピーカー装置（通信端末）をネットワークに接続して、一方のマイクスピーカー装置が集音するユーザーの発話音声の音声データを他のマイクスピーカー装置から再生させることによりオンライン会議を実現する。

特開２０２０－８８７６４号公報

ところで、マイク及びスピーカーを備え、ユーザーの首周りに装着可能なウェアラブル型のマイクスピーカー装置が知られている。このマイクスピーカー装置は、装着者の発話音声を取得して他のマイクスピーカー装置に送信したり、他のマイクスピーカー装置から受信した音声を当該装着者に向けて再生したりすることができる。ユーザーは、ウェアラブル型のマイクスピーカー装置を利用することにより、自身の発話音声をマイクに確実に集音（音声認識）させることができ、またスピーカーから再生される音声を容易に聞き取ることができる。

ここで、例えば、同一拠点（会議室など）において、マイクスピーカー装置を装着したユーザーが発話した発話音声が当該ユーザーの近くにいるユーザーが装着するマイクスピーカー装置のマイクに集音される場合がある。この場合、複数のマイクスピーカー装置を管理する機器に同一の音声データが複数回入力されたり、当該機器において同一の音声データを重複して音声認識処理したりすることにより、音声の品質が低下する問題が生じる。

本発明の目的は、マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することにある。

本発明の一の態様に係る音声処理システムは、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理システムであって、前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得部と、前記音声取得部が前記第１音声データを取得した時点と前記音声取得部が前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、を備えるシステムである。

本発明の他の態様に係る音声処理方法は、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理方法であって、一又は複数のプロセッサーが、前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得ステップと、前記音声取得ステップにおいて前記第１音声データを取得した時点と前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、を実行する方法である。

本発明の他の態様に係る音声処理プログラムは、ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得ステップと、前記音声取得ステップにおいて前記第１音声データを取得した時点と前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、を一又は複数のプロセッサーに実行させるためのプログラムである。

本発明によれば、マイクスピーカー装置に入力される音声の品質を向上させることが可能な音声処理システム、音声処理方法、及び音声処理プログラムを提供することできる。

図１は、本発明の実施形態に係る会議システムの構成を示す図である。図２は、本発明の実施形態に係る会議システムの適用例を示す図である。図３は、本発明の実施形態に係るマイクスピーカー装置の構成を示す外観図である。図４は、本発明の実施形態に係る会議システムで利用される会議情報の一例を示す図である。図５は、本発明の実施形態に係る会議システムで利用される設定情報の一例を示す図である。図６Ａは、本発明の実施形態の構成例１及び構成例２に係るマイクスピーカー装置の位置関係を示す図である。図６Ｂは、本発明の実施形態の構成例１及び構成例２に係るマイクスピーカー装置の入力音声を示す図である。図６Ｃは、本発明の実施形態の構成例１及び構成例２に係る会議システムにおいて実行される音声調整処理の手順の一例を説明するためのフローチャートである。図７Ａは、本発明の実施形態の構成例３に係るマイクスピーカー装置の位置関係を示す図である。図７Ｂは、本発明の実施形態の構成例３に係るマイクスピーカー装置の入力音声を示す図である。図７Ｃは、本発明の実施形態の構成例３に係る会議システムにおいて実行される音声調整処理の手順の一例を説明するためのフローチャートである。図８は、本発明の実施形態の構成例４に係る会議システムにおいて実行される音声調整処理の手順の一例を説明するためのフローチャートである。図９Ａは、本発明の実施形態の構成例５に係るマイクスピーカー装置の位置関係を示す図である。図９Ｂは、本発明の実施形態の構成例５に係るマイクスピーカー装置の入力音声を示す図である。図９Ｃは、本発明の実施形態の構成例５に係る会議システムにおいて実行される音声調整処理の手順の一例を説明するためのフローチャートである。図１０は、本発明の実施形態の構成例７に係るマイクスピーカー装置の位置関係を示す図である。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る音声処理システムは、例えば２つの拠点（例えば会議室Ｒ１，Ｒ２）において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議（オンライン会議など）を行うケースに適用することができる。前記マイクスピーカー装置は、ユーザーが携帯する携帯型の音響機器である。また、前記マイクスピーカー装置は、例えばネックバンド型の形状を有し、各ユーザーは、前記マイクスピーカー装置を自身の首に装着して会議に参加する。各ユーザーは、前記マイクスピーカー装置のスピーカーから再生される音声を聞き取ることができ、また自身が発話した音声を前記マイクスピーカー装置のマイクに集音させることができる。なお、本発明に係る音声処理システムは、１つの拠点において複数のユーザーがそれぞれマイクスピーカー装置を使用して会議を行うケースにも適用することができる。

［会議システム１００］
図１は、本発明の実施形態に係る会議システムの構成を示す図である。会議システム１００は、音声処理装置１と複数のマイクスピーカー装置２と会議サーバー３とを含んでいる。マイクスピーカー装置２は、マイク２４及びスピーカー２５を搭載する音響機器である。なお、マイクスピーカー装置２は、例えばＡＩスピーカー、スマートスピーカなどの機能を備えてもよい。会議システム１００は、複数のユーザーのそれぞれが自身に装着するウェアラブル型のマイクスピーカー装置２を複数含み、複数のマイクスピーカー装置２の間でユーザーの発話音声の音声データを送受信するシステムである。会議システム１００は、本発明の音声処理システムの一例である。

会議サーバー３は、前記オンライン会議を実現する会議アプリケーションを実行する。また、会議サーバー３は、会議情報を管理する。音声処理装置１は、各マイクスピーカー装置２を制御して、会議が開始されると各マイクスピーカー装置２との間で音声を送受信する処理を実行する。なお、音声処理装置１単体が、本発明の音声処理システムを構成してもよい。なお、本発明の音声処理システムが音声処理装置１単体で構成される場合、音声処理装置１は、マイクスピーカー装置２から取得する音声を記録用音声として蓄積したり、取得した音声を自装置内で認識する処理（音声認識処理）を実行したりしてもよい。また、本発明の音声処理システムは、会議サーバーに代えて、音声認識による字幕サービス、翻訳サービス、議事録サービスなど各種サービスを提供する各種サーバーを含んでもよい。

本実施形態では、図２に示すオンライン会議を例に挙げて説明する。オンライン会議の参加者であるユーザーＡ～ＨのうちユーザーＡ，Ｂ，Ｃ，Ｄは会議室Ｒ１に位置しており、ユーザーＥ，Ｆ，Ｇ，Ｈは会議室Ｒ２に位置している。ユーザーＡ～Ｈは、それぞれマイクスピーカー装置２Ａ～２Ｈを首に装着して会議に参加する。また、会議室Ｒ１には音声処理装置１ａ及びディスプレイＤＰ１が設置されており、会議室Ｒ２には音声処理装置１ｂ及びディスプレイＤＰ２が設置されている。ディスプレイＤＰ１，ＤＰ２は、それぞれの画面が共有されており、例えば会議資料を表示する。音声処理装置１ａ及びディスプレイＤＰ１と、音声処理装置１ｂ及びディスプレイＤＰ２とは、通信網Ｎ１（例えばインターネット）を介してデータ通信可能に構成されている。音声処理装置１ａ，１ｂは、同一の機能を有する情報処理装置（例えばパーソナルコンピューター）である。以下では、音声処理装置１ａ，１ｂにおいて共通の説明する場合は、「音声処理装置１」と称す。

具体的には、会議サーバー３は、インターネットの通信網Ｎ１を利用して、会議室Ｒ１，Ｒ２の音声データをマイクスピーカー装置２及び音声処理装置１ａ，１ｂを介して送受信する。例えば音声処理装置１ａは、ユーザーＡの発話音声のデータをマイクスピーカー装置２Ａから取得すると、音声データを会議サーバー３に送信する。会議サーバー３は、音声処理装置１ａから取得した前記音声データを音声処理装置１ｂに送信する。音声処理装置１ｂは、会議サーバー３から取得した前記音声データをユーザーＥ～Ｈのマイクスピーカー装置２Ｅ～２Ｈのそれぞれに送信して当該発話音声を再生（放音）させる。なお、音声処理装置１ａは、会議サーバー３から取得した前記音声データをユーザーＢ～Ｄのマイクスピーカー装置２Ｂ～２Ｄのそれぞれに送信して当該発話音声を再生させてもよい。また、会議サーバー３は、ユーザーの操作を受け付けて会議資料などをディスプレイＤＰ１，ＤＰ２に表示させる。このようにして、会議サーバー３は、オンライン会議を実現する。

また、会議サーバー３には、オンライン会議に関する会議情報Ｄ１などのデータが記憶される。図４には、会議情報Ｄ１の一例を示している。図４に示すように、会議情報Ｄ１には、会議ごとに、会議の識別情報（会議ＩＤ）、会議の開催場所、会議の開始日時及び終了日時、会議の参加者、会議に使用する資料の各情報が含まれる。会議ＩＤ「Ｍ００１」には、図２に示すオンライン会議に対応する情報が登録されている。例えば前記オンライン会議の主催者は、自身の端末（パーソナルコンピューター）を使用して会議情報Ｄ１を事前に登録する。会議サーバー３は、クラウドサーバーで構成されてもよい。

［マイクスピーカー装置２］
図３には、マイクスピーカー装置２の外観の一例を示している。図３に示すように、マイクスピーカー装置２は、電源２２、接続ボタン２３、マイク２４、スピーカー２５、通信部（不図示）などを備える。マイクスピーカー装置２は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。マイクスピーカー装置２は、ユーザーの音声をマイク２４を介して取得したり、当該ユーザーに対してスピーカー２５から音声を再生（出力）したりする。マイクスピーカー装置２は、各種情報を表示する表示部を備えてもよい。

図３に示すように、マイクスピーカー装置２の本体２１は、マイクスピーカー装置２を装着したユーザーから見て左右のアームを備え、Ｕ字状に形成されている。

マイク２４は、ユーザーの発話音声を集音し易いように、マイクスピーカー装置２の先端部に配置されている。マイク２４は、マイクスピーカー装置２に内蔵されたマイク用基板（不図示）に接続されている。

スピーカー２５には、マイクスピーカー装置２を装着したユーザーから見て左側のアームに配置されるスピーカー２５Ｌと右側のアームに配置されるスピーカー２５Ｒとが含まれる。スピーカー２５Ｌ，２５Ｒは、ユーザーが再生音を聞き取り易いように、マイクスピーカー装置２のアームの中央付近に配置されている。スピーカー２５Ｌ，２５Ｒは、マイクスピーカー装置２に内蔵されたスピーカー用基板（不図示）に接続されている。

前記マイク用基板は、音声データを音声処理装置１に送信するためのトランスミッター基板であり、前記通信部に含まれる。また、前記スピーカー用基板は、音声処理装置１から音声データを受信するためのレシーバー基板であり、前記通信部に含まれる。

前記通信部は、マイクスピーカー装置２を無線で音声処理装置１との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、前記通信部は、例えばＢｌｕｅｔｏｏｔｈ方式（Ｂｌｕｅｔｏｏｔｈ；登録商標）によりマイクスピーカー装置２と接続して通信を行う。例えば、ユーザーが電源２２をオン状態にした後に接続ボタン２３を押下すると、前記通信部は、ペアリング処理を実行してマイクスピーカー装置２を音声処理装置１に接続する。なお、マイクスピーカー装置２と音声処理装置１との間に送信機が配置され、当該送信機がマイクスピーカー装置２とペアリング（Ｂｌｕｅｔｏｏｔｈ接続）し、当該送信機と音声処理装置１とがインターネットを介して接続されてもよい。

［音声処理装置１］
図１に示すように、音声処理装置１は、制御部１１、記憶部１２、操作表示部１３、通信部１４などを備える情報処理装置（例えばパーソナルコンピュータ）である。なお、音声処理装置１は、１台のコンピュータに限らず、複数台のコンピュータが協働して動作するコンピュータシステムであってもよい。また、音声処理装置１で実行される各種の処理は、一又は複数のプロセッサーによって分散して実行されてもよい。

通信部１４は、音声処理装置１を有線又は無線で通信網Ｎ２に接続し、通信網Ｎ２を介してマイクスピーカー装置２、ディスプレイＤＰ１，ＤＰ２などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。例えば、通信部１４は、Ｂｌｕｅｔｏｏｔｈ方式によるペアリング処理を実行して、マイクスピーカー装置２と接続する。また、通信部１４は、オンライン会議を行う場合に、通信網Ｎ１（例えばインターネット）に接続して複数拠点（会議室Ｒ１，Ｒ２）間のデータ通信を行う。

操作表示部１３は、各種の情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。

記憶部１２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。具体的には、記憶部１２には、マイクスピーカー装置２の設定情報Ｄ２などのデータが記憶される。

図５には、設定情報Ｄ２の一例を示している。図５に示すように、設定情報Ｄ２には、「機器ＩＤ」、「音量」、「マイクゲイン」などの情報が含まれる。前記機器ＩＤは、マイクスピーカー装置２の識別情報であり、例えば機器番号が登録される。ここでは、「ＭＳ００１」～「ＭＳ００８」のそれぞれは、マイクスピーカー装置２Ａ～２Ｈのそれぞれに対応する。前記音量は、各マイクスピーカー装置２のスピーカー２５の再生音量であり、前記マイクゲインは、各マイクスピーカー装置２のマイク２４のゲインである。なお、音声処理装置１ａがマイクスピーカー装置２Ａ～２Ｄの設定情報Ｄ２を記憶及び管理し、音声処理装置１ｂがマイクスピーカー装置２Ｅ～２Ｈの設定情報Ｄ２を記憶及び管理してもよい。

なお、ユーザーは、例えばディスプレイＤＰ１，ＤＰ２に表示される設定画面（不図示）を操作（タッチ操作）して、音量及びマイクゲインの調整などを行うことができる。制御部１１は、ユーザー操作に応じて設定情報Ｄ２を記憶する。また、制御部１１は、ユーザー操作又は初期設定に基づいて、予め音量及びマイクゲインを設定する。また、詳細は後述（構成例１～７参照）するが、制御部１１は、予め設定された音量及びマイクゲインなどの設定情報を、複数のマイクスピーカー装置２の互いの距離に基づいて調整（変更）することが可能である。

また、記憶部１２には、制御部１１に後述の音声調整処理（図６Ｃ、図７Ｃ、図８、及び図９Ｃ参照）を実行させるための音声調整プログラムなどの制御プログラムが記憶されている。例えば、前記音声調整プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の演算処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記ＲＡＭは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

具体的には、制御部１１は、図１に示すように、設定処理部１１１、音声取得部１１２、音声送信部１１３、推定処理部１１４、調整処理部１１５などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、一部又は全部の前記処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記処理部として機能させるためのプログラムであってもよい。

設定処理部１１１は、マイクスピーカー装置２に関する設定を行う。具体的には、設定処理部１１１は、マイクスピーカー装置２が音声処理装置１に接続（ペアリング）されると、マイクスピーカー装置２の識別情報（例えば機器番号）を取得して設定情報Ｄ２の「機器ＩＤ」に登録する。また、設定処理部１１１は、ユーザーの操作に応じて、マイクスピーカー装置２のスピーカー２５の音量及びマイク２４のマイクゲインの情報を取得すると設定情報Ｄ２の「音量」及び「マイクゲイン」に登録する（図５参照）。

音声取得部１１２は、マイクスピーカー装置２のマイク２４が集音した発話者の発話音声の音声データをマイクスピーカー装置２から取得する。例えば、オンライン会議が開始されてユーザーＡが発話すると、マイクスピーカー装置２Ａのマイク２４がユーザーＡの発話音声を集音し、マイクスピーカー装置２Ａが当該発話音声の音声データを音声処理装置１ａに送信する。音声処理装置１ａの音声取得部１１２は、マイクスピーカー装置２ＡからユーザーＡの発話音声の音声データを取得する。音声取得部１１２は、各マイクスピーカー装置２から音声データを取得する。

音声送信部１１３は、音声取得部１１２が取得した音声データを各マイクスピーカー装置２に送信する。例えば、音声処理装置１ａの音声取得部１１２がユーザーＡの発話音声の音声データをマイクスピーカー装置２Ａから取得すると、音声処理装置１ａの音声送信部１１３は、前記音声データは会議サーバー３に送信する。

音声取得部１１２及び音声送信部１１３による音声データの送受信処理により、オンライン会議が実現される。

ここで、制御部１１は、前記オンライン会議における音声品質を向上させるための音声調整処理を実行する。以下、音声調整処理の構成例（構成例１～７）について説明する。

［構成例１］
推定処理部１１４は、複数のマイクスピーカー装置２の互いの距離を推定する。例えば図６Ａに示すように、特定音声（発話音声、テスト音声など）がマイクスピーカー装置２Ａのスピーカー２５から再生された場合に、当該特定音声は、マイクスピーカー装置２Ａのマイク２４と、マイクスピーカー装置２Ｂのマイク２４と、マイクスピーカー装置２Ｃのマイク２４と、マイクスピーカー装置２Ｄのマイク２４とにそれぞれ入力（集音）される。音声取得部１１２は、マイクスピーカー装置２Ａ～２Ｄのそれぞれから前記特定音声の音声データを取得する。

ここで、音声取得部１１２がマイクスピーカー装置２Ａから前記音声データを取得した時刻ｔ１を基準とすると、音声取得部１１２は、マイクスピーカー装置２Ａから距離Ｌ１だけ離れたマイクスピーカー装置２Ｂから時刻ｔ２に前記音声データを取得し、続いてマイクスピーカー装置２Ａから距離Ｌ２（但し、Ｌ１＜Ｌ２）だけ離れたマイクスピーカー装置２Ｃから時刻ｔ３に前記音声データを取得し、続いてマイクスピーカー装置２Ａから距離Ｌ３（但し、Ｌ１＜Ｌ２＜Ｌ３）だけ離れたマイクスピーカー装置２Ｄから時刻ｔ４に前記音声データを取得する（図６Ｂ参照）。このように、音声取得部１１２は、複数のマイクスピーカー装置２のそれぞれに入力される前記特定音声の音声データを距離に応じた順に取得する。

なお、図６Ｂに示すように、音声取得部１１２が取得する各音声データの大きさ（音量）は距離に応じた大きさとなる。但し、図６Ｂに示す信号波形は、各マイクスピーカー装置２のマイクゲインが同一値である場合を示している。各マイクスピーカー装置２のマイクゲインは、前記特定音声を再生する際に同一値に設定されてもよい。また前記各音声データの大きさを、各マイクスピーカー装置２のマイクゲインに応じて正規化してもよい。

推定処理部１１４は、例えば、音声取得部１１２がマイクスピーカー装置２Ａから前記音声データを取得した時点（時刻ｔ１）と、音声取得部１１２がマイクスピーカー装置２Ｂから前記音声データを取得した時点（時刻ｔ２）との時間差（ｔ２－ｔ１）に基づいて、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１を推定する。同様にして、推定処理部１１４は、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｃとの距離Ｌ２、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｄとの距離Ｌ３を推定する。

調整処理部１１５は、推定処理部１１４により推定される前記距離に基づいて、マイクスピーカー装置２のマイク２４及びスピーカー２５の少なくともいずれかに関する設定情報（例えばスピーカー２５の音量）を調整する。なお、本発明の前記設定情報には、スピーカー２５の音量、マイク２４のマイクゲイン、スピーカー２５の指向性、マイク２４及びスピーカー２５の動作状態（ＯＮ状態、ＯＦＦ状態）の少なくともいずれかの情報が含まれる。

例えば、調整処理部１１５は、推定処理部１１４により推定されるマイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が閾値（例えば２ｍ）以下の場合に、マイクスピーカー装置２Ａのスピーカー２５の音量とマイクスピーカー装置２Ｂのスピーカー２５の音量とのうち少なくともいずれかを、予め設定された設定音量（図５参照）から低下させる。例えば、調整処理部１１５は、マイクスピーカー装置２Ａのスピーカー２５の音量を、マイクスピーカー装置２Ａのスピーカー２５から再生される音声がマイクスピーカー装置２Ｂのマイク２４に入力されない程度の大きさに低下させる。同様に、調整処理部１１５は、マイクスピーカー装置２Ｂのスピーカー２５の音量を、マイクスピーカー装置２Ｂのスピーカー２５から再生される音声がマイクスピーカー装置２Ａのマイク２４に入力されない程度の大きさに低下させる。また例えば、調整処理部１１５は、マイクスピーカー装置２Ａのスピーカー２５の音量、又は、マイクスピーカー装置２Ｂのスピーカー２５の音量を、前記設定音量から低下させてもよい。

他の実施形態として、調整処理部１１５は、マイクスピーカー装置２Ａのスピーカー２５の音量とマイクスピーカー装置２Ｂのスピーカー２５の音量とを、予め設定された設定音量から段階的に低下させてもよい。

また他の実施形態として、調整処理部１１５が前記音量を下げた後に、ユーザーが手動により音量を上げた場合には、調整処理部１１５は再度の調整処理を行わず、ユーザーの操作に応じた音量に設定する。

また他の実施形態として、調整処理部１１５は、マイクスピーカー装置２Ａ～２Ｄの全てが所定範囲内に位置する場合（距離Ｌ１，Ｌ２，Ｌ３がいずれも閾値以内の場合）に、マイクスピーカー装置２Ａ～２Ｄのそれぞれのスピーカー２５の音量を大幅に下げてもよい。

［構成例２］
上述の構成例１では、調整処理部１１５は、マイクスピーカー装置２のスピーカー２５の音量を調整しているが、構成例２では、調整処理部１１５は、マイクスピーカー装置２のマイク２４のマイクゲインを調整する。

例えば、調整処理部１１５は、推定処理部１１４により推定されるマイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が閾値（例えば２ｍ）以下の場合に、マイクスピーカー装置２Ａのマイク２４のマイクゲインとマイクスピーカー装置２Ｂのマイク２４のマイクゲインとのうち少なくともいずれかを、予め設定された設定ゲイン（図５参照）から低下させる。例えば、調整処理部１１５は、マイクスピーカー装置２Ｂのマイク２４のマイクゲインを、マイクスピーカー装置２Ａのスピーカー２５から再生される音声がマイクスピーカー装置２Ｂのマイク２４に集音されない程度の大きさに低下させる。同様に、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４のマイクゲインを、マイクスピーカー装置２Ｂのスピーカー２５から再生される音声がマイクスピーカー装置２Ａのマイク２４に集音されない程度の大きさに低下させる。また例えば、調整処理部１１５は、マイクスピーカー装置２Ｂのマイク２４のマイクゲイン、又は、マイクスピーカー装置２Ａのマイク２４のマイクゲインを、前記設定ゲインから低下させてもよい。

他の実施形態として、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４のマイクゲインとマイクスピーカー装置２Ｂのマイク２４のマイクゲインとを、予め設定された設定ゲインから段階的に低下させてもよい。

また他の実施形態として、調整処理部１１５が前記マイクゲインを下げた後に、ユーザーが手動によりマイクゲインを上げた場合には、調整処理部１１５は再度の調整処理を行わず、ユーザーの操作に応じたマイクゲインに設定する。

また他の実施形態として、調整処理部１１５は、マイクスピーカー装置２Ａ～２Ｄの全てが所定範囲内に位置する場合（距離Ｌ１，Ｌ２，Ｌ３がいずれも閾値以内の場合）に、マイクスピーカー装置２Ａ～２Ｄのそれぞれのマイク２４のマイクゲインを大幅に下げてもよい。

［構成例１，２の音声調整処理］
以下、図６Ｃを参照しつつ、音声処理装置１の制御部１１によって実行される音声調整処理の手順の一例について説明する。

なお、本発明は、前記音声調整処理に含まれる一又は複数のステップを実行する音声調整方法（本発明の音声処理方法）の発明として捉えることができる。また、ここで説明する前記音声調整処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声調整処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１が前記音声調整処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、１又は複数のプロセッサーが前記音声調整処理における各ステップを分散して実行してもよい。後述の構成例３～７に対応する音声調整処理においても同様である。

ここでは、図６Ａ及び図６Ｂに示す例に挙げて説明する。先ず、ステップＳ１１において、制御部１１は、マイクスピーカー装置２Ａ～２Ｄから前記特定音声の音声データを取得する（図６Ａ参照）。

次にステップＳ１２において、制御部１１は、マイクスピーカー装置２Ａと他のマイクスピーカー装置２Ｂ～２Ｄのそれぞれとの距離Ｌ１～Ｌ３を推定する。例えば、制御部１１は、マイクスピーカー装置２Ａから前記音声データを取得した時点（時刻ｔ１）と、マイクスピーカー装置２Ｂから前記音声データを取得した時点（時刻ｔ２）との時間差（ｔ２－ｔ１）に基づいて、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１を推定する。

次にステップＳ１３において、制御部１１は、ステップＳ１３において推定した距離が閾値（例えば２ｍ）以下であるか否かを判定する。前記距離が前記閾値以下の場合（Ｓ１３：Ｙｅｓ）、制御部１１は、処理をステップＳ１４に移行させる。

ステップＳ１４において、制御部１１は、ステップＳ１３において推定した距離に基づいて、マイクスピーカー装置２のマイク２４及びスピーカー２５の少なくともいずれかに関する設定情報（音量、マイクゲイン）を調整する。例えば、制御部１１は、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が前記閾値以下の場合に、マイクスピーカー装置２Ａのスピーカー２５の音量とマイクスピーカー装置２Ｂのスピーカー２５の音量とを、予め設定された設定音量から低下させる（構成例１）。

また、例えば、制御部１１は、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が前記閾値以下の場合に、マイクスピーカー装置２Ａのマイク２４のマイクゲインとマイクスピーカー装置２Ｂのマイク２４のマイクゲインとを、予め設定された設定ゲインから低下させる（構成例２）。

制御部１１は、上述の音声調整処理を繰り返し実行してもよい。例えば、制御部１１は、前記距離Ｌ１が変化した場合又は所定の時間が経過した場合に前記音声調整処理を実行する。これにより、例えば、会議中にユーザーがマイクスピーカー装置２を装着して移動した場合であっても、マイクスピーカー装置２の音量及びマイクゲインを適切な設定値に調整することができる。後述の構成例についても同様である。

［構成例３］
構成例３では、音声取得部１１２は、第１マイクスピーカー装置２のユーザーが発話した場合に、第１マイクスピーカー装置２のマイク２４に入力される発話音声の第１音声データを第１マイクスピーカー装置２から取得し、かつ第２マイクスピーカー装置２のマイク２４に入力される前記発話音声の第２音声データを第２マイクスピーカー装置２から取得する。

また、推定処理部１１４は、第１マイクスピーカー装置２から音声データを取得する時刻と第２マイクスピーカー装置２から音声データを取得する時刻との時間差に基づいて第１マイクスピーカー装置２と第２マイクスピーカー装置２との距離を推定し、さらに、当該距離と、第１マイクスピーカー装置２及び第２マイクスピーカー装置２のそれぞれにおける前記音声データの入力時間とに基づいてユーザーの発話状態を推定する。

また、調整処理部１１５は、前記距離と前記ユーザーの発話状態とに基づいて、第１マイクスピーカー装置２のマイク２４及び第２マイクスピーカー装置２のマイク２４の少なくともいずれかのマイクゲインを、予め設定された設定ゲインから変更させる。

例えば図７Ａ及び図７Ｂに示す例において、推定処理部１１４は、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｃとの距離Ｌ２、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｄとの距離Ｌ３を推定し、推定した距離Ｌ１～Ｌ３がいずれも閾値以上であって、ユーザーＡの前記特定音声の入力時間（又は連続発話時間）が所定時間以上である場合に、ユーザーＡを会議の発表者（又は司会者）であると推定する。

調整処理部１１５は、推定処理部１１４によりユーザーＡが会議の発表者であると推定された場合に、マイクスピーカー装置２Ｂ～２Ｄのそれぞれのマイク２４のマイクゲインを設定ゲインから低下させる。また、調整処理部１１５は、さらに、マイクスピーカー装置２Ａのマイク２４のマイクゲインを設定ゲインから上昇させてもよい。これにより、発表者であるユーザーＡの発話音声の品質を向上させることができる。

［構成例３の音声調整処理］
以下、図７Ｃを参照しつつ、音声処理装置１の制御部１１によって実行される音声調整処理の手順の一例について説明する。ここでは、図７Ａ及び図７Ｂに示す例に挙げて説明する。

先ず、ステップＳ２１において、制御部１１は、マイクスピーカー装置２Ａ～２Ｄから前記特定音声の音声データを取得する（図７Ａ参照）。

次にステップＳ２２において、制御部１１は、マイクスピーカー装置２Ａと他のマイクスピーカー装置２Ｂ～２Ｄのそれぞれとの距離Ｌ１～Ｌ３を推定する。例えば、制御部１１は、マイクスピーカー装置２Ａから前記音声データを取得した時点（時刻ｔ１）と、マイクスピーカー装置２Ｂから前記音声データを取得した時点（時刻ｔ２）との時間差（ｔ２－ｔ１）に基づいて、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１を推定する。

次にステップＳ２３において、制御部１１は、前記距離Ｌ１～Ｌ３と、マイクスピーカー装置２Ａにおける前記音声データの入力時間とに基づいてユーザーＡの発話状態を推定する。

次にステップＳ２４において、制御部１１は、ユーザーＡが会議の発表者であるか否かを判定する。ユーザーＡが発表者であると推定された場合（Ｓ２４：Ｙｅｓ）、制御部１１は、処理をステップＳ２５に移行させる。例えば、制御部１１は、推定した距離Ｌ１～Ｌ３がいずれも閾値以上であって、ユーザーＡの前記特定音声の入力時間が所定時間以上である場合に、ユーザーＡを会議の発表者であると推定する。

ステップＳ２５において、制御部１１は、マイクスピーカー装置２Ｂ～２Ｄのそれぞれのマイク２４のマイクゲインを設定ゲインから低下させる。また、制御部１１は、さらに、マイクスピーカー装置２Ａのマイク２４のマイクゲインを設定ゲインから上昇させてもよい。

［構成例４］
構成例４では、音声取得部１１２は、第１マイクスピーカー装置２のマイク２４に入力される特定音声の第１音声データを第１マイクスピーカー装置２から取得し、第２マイクスピーカー装置２のマイク２４に入力される前記特定音声の第２音声データを第２マイクスピーカー装置２から取得し、かつ、第３マイクスピーカー装置２のマイク２４に入力される前記特定音声の第３音声データを第３マイクスピーカー装置２から取得する。

また、推定処理部１１４は、前記第１音声データ及び前記第２音声データの時間差と、前記第１音声データ及び前記第３音声データの時間差とに基づいて、第１マイクスピーカー装置２及び第２マイクスピーカー装置２の第１距離と、第１マイクスピーカー装置２及び第３マイクスピーカー装置２の第２距離とを推定する。

また、調整処理部１１５は、前記第１距離及び前記第２距離のそれぞれが閾値以上の場合に、第１マイクスピーカー装置２のマイク２４及びスピーカー２５をＯＦＦ状態（スリープ状態、ミュート状態など）に変更する。

例えば図７Ａ及び図７Ｂに示す例において、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｃとの距離Ｌ２、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｄとの距離Ｌ３を推定し、推定した距離Ｌ１～Ｌ３がいずれも閾値（例えば８ｍ）以上である場合に、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４及びスピーカー２５をＯＦＦ状態に変更する。

これにより、例えば、会議中にユーザーＡがマイクスピーカー装置２Ａを装着したまま会議室Ｒ１から退室した場合に、ユーザーＡの発話音声の集音と、ユーザーＡに対する音声の再生を停止することができる。なお、調整処理部１１５は、推定した距離Ｌ１～Ｌ３がいずれも閾値以上から閾値未満に変化した場合に、マイクスピーカー装置２Ａのマイク２４及びスピーカー２５をＯＦＦ状態からＯＮ状態に復帰させてもよい。

他の実施形態として、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４をＯＦＦ状態に変更し、スピーカー２５の音量を低下させてもよい。

［構成例４の音声調整処理］
以下、図８を参照しつつ、音声処理装置１の制御部１１によって実行される音声調整処理の手順の一例について説明する。ここでは、図７Ａ及び図７Ｂに示す例に挙げて説明する。

先ず、ステップＳ３１において、制御部１１は、マイクスピーカー装置２Ａ～２Ｄから前記特定音声の音声データを取得する（図７Ａ参照）。

次にステップＳ３２において、制御部１１は、マイクスピーカー装置２Ａと他のマイクスピーカー装置２Ｂ～２Ｄのそれぞれとの距離Ｌ１～Ｌ３を推定する。例えば、制御部１１は、マイクスピーカー装置２Ａから前記音声データを取得した時点（時刻ｔ１）と、マイクスピーカー装置２Ｂから前記音声データを取得した時点（時刻ｔ２）との時間差（ｔ２－ｔ１）に基づいて、マイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１を推定する。

次にステップＳ３３において、制御部１１は、ステップＳ３２において推定した距離が閾値以上であるか否かを判定する。前記距離が前記閾値以上の場合（Ｓ３３：Ｙｅｓ）、制御部１１は、処理をステップＳ３４に移行させる。

ステップＳ３４において、制御部１１は、マイクスピーカー装置２のマイク２４及びスピーカー２５をＯＦＦ状態に変更する。

［構成例５］
構成例５では、同一拠点（例えば会議室Ｒ１）にマイク及びスピーカーを備える卓上型の音響機器４（本発明の卓上型機器の一例）が配置される。例えば会議室Ｒ１において、マイクスピーカー装置２を装着しないユーザーＡが音響機器４に向かって発話し、ユーザーＢ～Ｄはそれぞれマイクスピーカー装置２Ｂ～２Ｄを到着して会議に参加する。

音声取得部１１２は、マイクスピーカー装置２を携帯しないユーザーＡが発話した場合に、音響機器４のマイクに入力される発話音声の第１音声データを音響機器４から取得し、かつマイクスピーカー装置２のマイク２４に入力される前記発話音声の第２音声データをマイクスピーカー装置２から取得する。

推定処理部１１４は、音響機器４から音声データを取得する時刻とマイクスピーカー装置２から音声データを取得する時刻との時間差に基づいて、音響機器４とマイクスピーカー装置２との距離を推定する。

調整処理部１１５は、前記距離が閾値（例えば２ｍ）以下の場合に、マイクスピーカー装置２のマイク２４のマイクゲインを、予め設定された設定ゲインから低下させる。

例えば図９Ａ及び図９Ｂに示す例において、推定処理部１１４は、音響機器４とマイクスピーカー装置２Ａとの距離Ｌ１を推定し、推定した距離Ｌ１が閾値以下である場合に、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４のマイクゲインを設定ゲインから低下させる。調整処理部１１５は、マイクスピーカー装置２Ｂ～２Ｄのそれぞれについても同様の処理を実行する。

［構成例３の音声調整処理］
以下、図９Ｃを参照しつつ、音声処理装置１の制御部１１によって実行される音声調整処理の手順の一例について説明する。ここでは、図９Ａ及び図９Ｂに示す例に挙げて説明する。

先ず、ステップＳ４１において、制御部１１は、音響機器４、マイクスピーカー装置２Ａ～２ＤのそれぞれからユーザーＡの発話音声の音声データを取得する（図９Ａ参照）。

次にステップＳ４２において、制御部１１は、音響機器４とマイクスピーカー装置２Ａ～２Ｄのそれぞれとの距離Ｌ１～Ｌ４を推定する。例えば、制御部１１は、音響機器４から前記音声データを取得した時点（時刻ｔ１）と、マイクスピーカー装置２Ａから前記音声データを取得した時点（時刻ｔ２）との時間差（ｔ２－ｔ１）に基づいて、音響機器４とマイクスピーカー装置２Ａとの距離Ｌ１を推定する。

次にステップＳ４３において、制御部１１は、前記距離Ｌ１～Ｌ４が閾値（例えば２ｍ）以下であるか否かを判定する。前記距離が前記閾値以下の場合（Ｓ４３：Ｙｅｓ）、制御部１１は、処理をステップＳ４４に移行させる。

ステップＳ４４において、制御部１１は、ステップＳ４３において推定した距離に基づいて、マイクスピーカー装置２のマイク２４のマイクゲインを、予め設定された設定ゲインから低下させる。

このように、マイクスピーカー装置２を装着しないユーザーＡが発話し、発話音声を音響機器４が集音する場合、他のユーザーが装着するマイクスピーカー装置２をミュート状態にする。これにより、各マイクスピーカー装置２が前記発話音声を集音しないためユーザーＡの発話音声の品質を向上させることができる。なお、制御部１１は、音響機器４から取得した音声データに対してエコーキャンセル処理を実行してもよい。

［構成例６］
構成例６では、図６Ａに示すように同一拠点（例えば会議室Ｒ１）にマイクスピーカー装置２Ａ～２Ｄが配置される。

音声取得部１１２は、第１マイクスピーカー装置２のスピーカー２５から特定音声が再生された場合に、第１マイクスピーカー装置２のマイク２４に入力される前記特定音声の第１音声データを第１マイクスピーカー装置２から取得し、かつ第２マイクスピーカー装置２のマイク２４に入力される前記特定音声の第２音声データを第２マイクスピーカー装置２から取得する。

推定処理部１１４は、第１音声データ及び第２音声データの時間差に基づいて、第１マイクスピーカー装置２と第２マイクスピーカー装置２との距離を推定する。

調整処理部１１５は、前記距離が閾値以下の場合に、第１マイクスピーカー装置２のスピーカー２５の指向性と第２マイクスピーカー装置２のスピーカー２５の指向性とのうち少なくともいずれかを、予め設定された指向性から狭める。

例えば、調整処理部１１５は、推定処理部１１４により推定されるマイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が閾値（例えば２ｍ）以下の場合に、マイクスピーカー装置２Ａのマイク２４の指向性とマイクスピーカー装置２Ｂのマイク２４の指向性とを、予め設定された指向性から狭める。これにより、例えばマイクスピーカー装置２Ａから再生される音声が、マイクスピーカー装置２Ｂのユーザーの耳に入り難くすることでき、またマイクスピーカー装置２のマイク２４に集音され難くすることができる。また例えば、調整処理部１１５は、マイクスピーカー装置２Ａのマイク２４の指向性、又は、マイクスピーカー装置２Ｂのマイク２４の指向性を、予め設定された指向性から狭めてもよい。

［構成例７］
構成例７では、図６Ａに示すように同一拠点（例えば会議室Ｒ１）にマイクスピーカー装置２Ａ～２Ｄが配置される。また、マイクスピーカー装置２Ａ～２Ｄのそれぞれは、複数のマイク２４を備える。例えば図１０に示すように、マイクスピーカー装置２は、右用マイク２４Ｒと左用マイク２４Ｌとを備える。

調整処理部１１５は、前記距離が閾値以下の場合に、第１マイクスピーカー装置２の複数のスピーカー２５のうち第２マイクスピーカー装置２に隣接するスピーカー２５の音量と、第２マイクスピーカー装置２の複数のスピーカー２５のうち第１マイクスピーカー装置２に隣接するスピーカー２５の音量とを、予め設定された設定音量から低下させる。

例えば図１０に示す例において、調整処理部１１５は、推定処理部１１４により推定されるマイクスピーカー装置２Ａとマイクスピーカー装置２Ｂとの距離Ｌ１が閾値（例えば２ｍ）以下の場合に、マイクスピーカー装置２Ａのスピーカー２５Ｌの音量と、マイクスピーカー装置２Ｂのスピーカー２５Ｒの音量とを、予め設定された設定音量から低下させる。このように、調整処理部１１５は、複数のスピーカー２５のうち互いに近接するスピーカー２５の音量を低下させる。これにより、例えばマイクスピーカー装置２Ａのスピーカー２５Ｌから再生される音声を、マイクスピーカー装置２Ｂの右用マイク２４Ｒに集音され難くすることができる。

以上の各構成例によれば、同一拠点において複数のマイクスピーカー装置２を利用して会議を行う場合に、マイクスピーカー装置２を装着したユーザーが発話した発話音声が当該ユーザーの近くにいるユーザーが装着するマイクスピーカー装置２のマイク２４に入力され難くすることができる。よって、マイクスピーカー装置２に入力される音声の品質を向上させることができる。また、音声処理装置１は、取得する音声データに基づいて議事録を作成する機能を有する場合に、音声品質の高い議事録を作成することができる。

なお、本発明の他の実施形態として、会議サーバー３が音声処理装置１の機能を備えてもよい。すなわち、会議サーバー３は、マイクスピーカー装置２から音声データを取得し、取得した前記音声データを他のマイクスピーカー装置２に送信する。

また、本発明の音声処理システムは、音声処理装置１単体で構成されてもよいし、会議サーバー３単体で構成されてもよいし、音声処理装置１及び会議サーバー３の組み合わせにより構成されてもよい。

１：音声処理装置
２：マイクスピーカー装置
３：会議サーバー
１１：制御部
１２：記憶部
１３：操作表示部
１４：通信部
１００：会議システム
１１１：設定処理部
１１２：音声取得部
１１３：音声送信部
１１４：推定処理部
１１５：調整処理部

Claims

ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理システムであって、
前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得部と、
前記音声取得部が前記第１音声データを取得した時点と前記音声取得部が前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定処理部と、
前記推定処理部により推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整処理部と、
を備える音声処理システム。
前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第１マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、かつ第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第１マイクスピーカー装置と前記第２マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第１マイクスピーカー装置のスピーカーの音量と前記第２マイクスピーカー装置のスピーカーの音量とのうち少なくともいずれかを、予め設定された設定音量から低下させる、
請求項１に記載の音声処理システム。
前記音響機器は前記マイクスピーカー装置であって、
前記音声取得部は、第１マイクスピーカー装置のユーザーが前記特定音声を発話した場合に、前記第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、かつ第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第１マイクスピーカー装置と前記第２マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第１マイクスピーカー装置のマイクのゲインと前記第２マイクスピーカー装置のマイクのゲインとのうち少なくともいずれかを、予め設定された設定ゲインから低下させる、
請求項１又は請求項２に記載の音声処理システム。
前記音響機器は前記マイクスピーカー装置であって、
前記音声取得部は、第１マイクスピーカー装置のユーザーが前記特定音声を発話した場合に、前記第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、かつ第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて前記第１マイクスピーカー装置と前記第２マイクスピーカー装置との距離を推定し、さらに、当該距離と、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれにおける前記特定音声の入力時間とに基づいて前記ユーザーの発話状態を推定し、
前記調整処理部は、前記距離と前記ユーザーの発話状態とに基づいて、前記第１マイクスピーカー装置のマイク及び前記第２マイクスピーカー装置のマイクの少なくともいずれかのゲインを、予め設定された設定ゲインから変更させる、
請求項１に記載の音声処理システム。
前記推定処理部は、前記距離が閾値以上であって、かつ前記ユーザーの前記特定音声の入力時間が所定時間以上である場合に、前記ユーザーを会議の発表者であると推定し、
前記調整処理部は、前記推定処理部により前記ユーザーが会議の発表者であると推定された場合に、前記第２マイクスピーカー装置のマイクのゲインを前記設定ゲインから低下させる、
請求項４に記載の音声処理システム。
前記調整処理部は、さらに、前記第１マイクスピーカー装置のマイクのゲインを前記設定ゲインから上昇させる、
請求項５に記載の音声処理システム。
前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、かつ、第３マイクスピーカー装置のマイクに入力される前記特定音声の第３音声データを前記第３マイクスピーカー装置から取得し、
前記推定処理部は、前記第１音声データ及び前記第２音声データの前記時間差と、前記第１音声データ及び前記第３音声データの前記時間差とに基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の第１距離と、前記第１マイクスピーカー装置及び前記第３マイクスピーカー装置の第２距離とを推定し、
前記調整処理部は、前記第１距離及び前記第２距離のそれぞれが閾値以上の場合に、前記第１マイクスピーカー装置のマイク及びスピーカーをＯＦＦ状態に変更する、
請求項１に記載の音声処理システム。
前記音響機器はマイク及びスピーカーを備える卓上型機器であって、
前記音声取得部は、前記マイクスピーカー装置を携帯しないユーザーが前記特定音声を発話した場合に、前記卓上型機器のマイクに入力される前記特定音声の前記第１音声データを前記卓上型機器から取得し、かつ前記マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記卓上型機器と前記マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記マイクスピーカー装置のマイクのゲインを、予め設定された設定ゲインから低下させる、
請求項１に記載の音声処理システム。
前記音響機器は、前記マイクスピーカー装置であり、
前記音声取得部は、第１マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、かつ第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第１マイクスピーカー装置と前記第２マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第１マイクスピーカー装置のスピーカーの指向性と前記第２マイクスピーカー装置のスピーカーの指向性とのうち少なくともいずれかを、予め設定された指向性から狭める、
請求項１に記載の音声処理システム。
前記音響機器は、前記マイクスピーカー装置であり、
第１マイクスピーカー装置及び第２マイクスピーカー装置のそれぞれは、複数のマイクと複数のスピーカーとを備えており、
前記音声取得部は、前記第１マイクスピーカー装置のスピーカーから前記特定音声が再生された場合に、前記第１マイクスピーカー装置のマイクに入力される前記特定音声の前記第１音声データを前記第１マイクスピーカー装置から取得し、かつ第２マイクスピーカー装置のマイクに入力される前記特定音声の前記第２音声データを前記第２マイクスピーカー装置から取得し、
前記推定処理部は、前記時間差に基づいて、前記第１マイクスピーカー装置と前記第２マイクスピーカー装置との距離を推定し、
前記調整処理部は、前記距離が閾値以下の場合に、前記第１マイクスピーカー装置の複数のスピーカーのうち前記第２マイクスピーカー装置に隣接するスピーカーの音量と、前記第２マイクスピーカー装置の複数のスピーカーのうち前記第１マイクスピーカー装置に隣接するスピーカーの音量とを、予め設定された設定音量から低下させる、
請求項１に記載の音声処理システム。
前記マイクスピーカー装置は、ネックバンド型の形状を有し、ユーザーの首に装着可能である、
請求項１から請求項１０のいずれか１項に記載の音声処理システム。
ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理方法であって、
一又は複数のプロセッサーが、
前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得ステップと、
前記音声取得ステップにおいて前記第１音声データを取得した時点と前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、
前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、
を実行する音声処理方法。
ユーザーが携帯する携帯型のマイクスピーカー装置を含む複数の音響機器によりユーザーの発話音声の音声データを送受信する音声処理プログラムであって、
前記音響機器に入力される特定音声の第１音声データと、前記マイクスピーカー装置に入力される前記特定音声の第２音声データとを取得する音声取得ステップと、
前記音声取得ステップにおいて前記第１音声データを取得した時点と前記第２音声データを取得した時点との時間差に基づいて、前記音響機器と前記マイクスピーカー装置との距離を推定する推定ステップと、
前記推定ステップにおいて推定される前記距離に基づいて、前記マイクスピーカー装置のマイク及びスピーカーの少なくともいずれかに関する設定情報を調整する調整ステップと、
を一又は複数のプロセッサーに実行させるための音声処理プログラム。