JP2023097781A

JP2023097781A - 音声処理システム及び音声処理方法

Info

Publication number: JP2023097781A
Application number: JP2021214079A
Authority: JP
Inventors: 文亮杉森; Fumiaki Sugimori; 達也西尾; Tatsuya Nishio
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2023-07-10

Abstract

【課題】音声データの到達時間が異なる複数のマイクスピーカー装置を併用する場合の音声品質を向上させることが可能な音声処理システム及び音声処理方法を提供する。【解決手段】音声処理システムは、特定音声が出力された場合に、第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する受信処理部と、前記受信処理部が前記第１音声データを受信した時点から前記受信処理部が前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する調整処理部と、を備える。【選択図】図１

Description

本発明は、マイクスピーカー装置の音声の送受信を行う音声処理システム及び音声処理方法に関する。

従来、複数の拠点（会議室など）をネットワーク接続して、複数のユーザーが参加して会議（オンライン会議）を行うことを可能にするシステムが知られている（例えば特許文献１参照）。例えば、前記システムは、各拠点に配置されたマイクスピーカー装置をネットワークに接続して、一方のマイクスピーカー装置が集音するユーザーの発話音声の音声データを他のマイクスピーカー装置から再生させることによりオンライン会議を実現する。

特開２０１２－２１７０６８号公報

ところで、マイク及びスピーカーを備え、ユーザーの首周りに装着可能なウェアラブル型のマイクスピーカー装置が知られている。このマイクスピーカー装置は、装着者の発話音声を取得して他のマイクスピーカー装置に送信したり、他のマイクスピーカー装置から受信した音声を当該装着者に向けて再生したりすることができる。ユーザーは、ウェアラブル型のマイクスピーカー装置を利用することにより、自身の発話音声をマイクに確実に集音（音声認識）させることができ、またスピーカーから再生される音声を容易に聞き取ることができる。

ここで、例えば、会議室において、ネットワークに有線接続される卓上型のマイクスピーカー装置と、ネットワークに無線接続されるウェアラブル型のマイクスピーカー装置とを併用する場合に、各マイクスピーカー装置における音声データの到達時間（例えば伝送速度）の違いに起因して以下の問題が生じることが考えられる。具体的には、一方の会議室において、卓上型のマイクスピーカー装置とウェアラブル型のマイクスピーカー装置とがユーザーの発話音声を集音した場合に、他方の会議室のスピーカー装置（卓上型のマイクスピーカー装置、ウェアラブル型のマイクスピーカー装置など）から異なるタイミングで当該音声が再生され、他方の会議室のユーザーにとって音声が二重に聞こえてしまう問題が生じる。

この問題は、有線接続及び無線接続など接続方式が異なる複数のマイクスピーカー装置を併用する場合だけに生じるものではない。例えば、接続方式が同一の複数のマイクスピーカー装置を併用する場合であっても音声データの到達時間が異なる複数のマイクスピーカー装置を併用する場合には、同様の問題が起こり得る。具体的には、機種（型番）が同一であり、かつ接続方式も同一（例えばＢｌｕｅｔｏｏｔｈ（登録商標）方式）である複数のマイクスピーカー装置を併用する場合に、環境の影響により互いの到達時間が異なると、上述の問題が生じる可能性がある。

本発明の目的は、音声データの到達時間が異なる複数のマイクスピーカー装置を併用する場合の音声品質を向上させることが可能な音声処理システム及び音声処理方法を提供することにある。

本発明の一の態様に係る音声処理システムは、第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理システムであって、特定音声が再生された場合に、前記第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する受信処理部と、前記受信処理部が前記第１音声データを受信した時点から前記受信処理部が前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する調整処理部と、を備えるシステムである。

本発明の一の態様に係る音声処理システムは、第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理システムであって、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれのスピーカーから特定音声を再生させる出力処理部と、前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のいずれか一方のマイクスピーカー装置のマイクが集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記一方のマイクスピーカー装置のマイクが集音した前記特定音声の第２音声データとを受信する受信処理部と、前記受信処理部が前記第１音声データを受信した時点から前記受信処理部が前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する調整処理部と、を備えるシステムである。

本発明の他の態様に係る音声処理方法は、第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理方法であって、一又は複数のプロセッサーが、特定音声が再生された場合に、前記第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する受信ステップと、前記受信ステップにおいて前記第１音声データを受信した時点から前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する調整ステップと、を実行する方法である。

本発明の他の態様に係る音声処理方法は、第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理方法であって、一又は複数のプロセッサーが、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれのスピーカーから特定音声を再生させる出力ステップと、前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のいずれか一方のマイクスピーカー装置のマイクが集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記一方のマイクスピーカー装置のマイクが集音した前記特定音声の第２音声データとを受信する受信ステップと、前記受信ステップにおいて前記第１音声データを受信した時点から前記受信ステップにおいて前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する調整ステップと、を実行する方法である。

本発明によれば、音声データの到達時間が異なる複数のマイクスピーカー装置を併用する場合の音声品質を向上させることが可能な音声処理システム及び音声処理方法を提供することが可能である。

図１は、本発明の実施形態に係る会議システムの構成を示すブロック図である。図２は、本発明の実施形態に係る会議システムの適用例を示す図である。図３は、本発明の実施形態に係るマイクスピーカー装置の構成を示す外観図である。図４は、本発明の実施形態に係る会議システムで利用される会議情報の一例を示す図である。図５は、本発明の実施形態に係る会議システムで利用される設定情報の一例を示す図である。図６Ａは、本発明の実施形態に係る会議システムにおいて実行される第１音声調整処理の具体例を示す模式図である。図６Ｂは、本発明の実施形態に係る会議システムにおいて実行される第１音声調整処理の具体例を示す模式図である。図７Ａは、本発明の実施形態に係る会議システムにおいて実行される第２音声調整処理の具体例を示す模式図である。図７Ｂは、本発明の実施形態に係る会議システムにおいて実行される第２音声調整処理の具体例を示す模式図である。図８は、本発明の実施形態に係る会議システムにおいて実行される音声調整処理の手順の一例を説明するためのフローチャートである。図９は、本発明の実施形態に係る音声処理装置に表示される操作画面の一例を示す図である。図１０は、本発明の実施形態に係る音声処理装置に表示される操作画面の一例を示す図である。図１１は、本発明の実施形態に係る音声処理装置に表示される操作画面の一例を示す図である。図１２は、本発明の実施形態に係る音声処理装置に表示される通知画面の一例を示す図である。図１３は、本発明の実施形態に係る会議システムの適用例を示す図である。

以下、添付図面を参照しながら、本発明の実施形態について説明する。なお、以下の実施形態は、本発明を具体化した一例であって、本発明の技術的範囲を限定する性格を有さない。

本発明に係る音声処理システムは、例えば２つの拠点（例えば会議室Ｒ１，Ｒ２）において、会議室Ｒ１，Ｒ２のそれぞれに設置された卓上型マイクスピーカー装置と、複数のユーザーのそれぞれが所持するウェアラブル型マイクスピーカー装置とを使用して会議（オンライン会議など）を行うケースに適用することができる。前記ウェアラブル型マイクスピーカー装置は、例えばネックバンド型の形状を有し、各ユーザーは、前記ウェアラブル型マイクスピーカー装置を自身の首に装着して前記会議に参加する。

各ユーザーは、前記ウェアラブル型マイクスピーカー装置のスピーカーから再生される音声を聞き取ることができ、また自身が発話した発話音声を前記ウェアラブル型マイクスピーカー装置のマイクに集音させることができる。また、卓上型マイクスピーカー装置は、会議室の机上に載置されており、卓上型マイクスピーカー装置に搭載されたマイクにより当該会議室にいるユーザーの発話音声を集音したり、卓上型マイクスピーカー装置に搭載されたスピーカーから当該会議室にいるユーザーに向けて音声を再生（放音）したりする。

同一拠点において、卓上型マイクスピーカー装置とウェアラブル型マイクスピーカー装置とを併用することにより、当該拠点にいる各ユーザーは、自身の発話音声を各装置のマイクに確実に集音（音声認識）させることができ、また各装置のスピーカーから再生される音声を確実に聞き取ることができる。

なお、本発明に係る音声処理システムは、１つの拠点において複数のユーザーが卓上型マイクスピーカー装置とウェアラブル型マイクスピーカー装置とを併用して会議を行うケースにも適用することができる。

［会議システム１００］
図１は、本発明の実施形態に係る会議システム１００の構成を示す図である。会議システム１００は、本発明の音声処理システムの一例である。会議システム１００は、音声処理装置１とウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３と会議サーバー４とを含んでいる。ウェアラブル型マイクスピーカー装置２は、マイク２４及びスピーカー２５（図３参照）を搭載する音響機器であり、ユーザーが自身（例えば首）に装着可能なネックバンド型の形状を有する。卓上型マイクスピーカー装置３は、マイク３１及びスピーカー３２（図１参照）を搭載する音響機器である。なお、ウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３は、例えばＡＩスピーカー、スマートスピーカなどの機能を備えてもよい。卓上型マイクスピーカー装置３は本発明の第１マイクスピーカー装置の一例であり、ウェアラブル型マイクスピーカー装置２は本発明の第２マイクスピーカー装置の一例である。

会議システム１００は、例えば複数の拠点のそれぞれに、複数台のウェアラブル型マイクスピーカー装置２と、１台の卓上型マイクスピーカー装置３とが配置され、これらウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３の間でユーザーの発話音声の音声データを送受信することによりオンライン会議を実現する。

会議サーバー４は、前記オンライン会議を実現する会議アプリケーションを実行する。また、会議サーバー４は、会議情報を管理する。音声処理装置１は、ウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３を制御し、会議が開始されると各マイクスピーカー装置（ウェアラブル型マイクスピーカー装置２、卓上型マイクスピーカー装置３）の間で音声を送受信する処理を実行する。なお、音声処理装置１単体が、本発明の音声処理システムを構成してもよい。

本実施形態では、図２に示すオンライン会議を例に挙げて説明する。オンライン会議の参加者であるユーザーＡ～ＨのうちユーザーＡ，Ｂ，Ｃ，Ｄは会議室Ｒ１に位置しており、ユーザーＥ，Ｆ，Ｇ，Ｈは会議室Ｒ２に位置している。ユーザーＡ～Ｈは、それぞれウェアラブル型マイクスピーカー装置２Ａ～２Ｈを首に装着して会議に参加する。また、会議室Ｒ１には音声処理装置１ａ、卓上型マイクスピーカー装置３ａ、及びディスプレイＤＰ１が設置されており、会議室Ｒ２には音声処理装置１ｂ、卓上型マイクスピーカー装置３ｂ、及びディスプレイＤＰ２が設置されている。ディスプレイＤＰ１，ＤＰ２は、それぞれの画面が共有されており、例えば会議資料を表示する。

会議サーバー４と、音声処理装置１ａ及び音声処理装置１ａのそれぞれとは、インターネットなどの通信網Ｎ１（図１参照）を介してデータ通信可能に構成されている。

音声処理装置１ａと、卓上型マイクスピーカー装置３ａ及びディスプレイＤＰ１のそれぞれとは、有線ＬＡＮなどの通信網Ｎ３（図１参照）を介してデータ通信可能に構成されている。同様に、音声処理装置１ｂと、卓上型マイクスピーカー装置３ｂ及びディスプレイＤＰ２のそれぞれとは、有線ＬＡＮなどの通信網Ｎ３（図１参照）を介してデータ通信可能に構成されている。

音声処理装置１ａと、ウェアラブル型マイクスピーカー装置２Ａ～２Ｄのそれぞれとは、無線ＬＡＮ（例えばＢｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標））などの通信網Ｎ２（図１参照）を介してデータ通信可能に構成されている。同様に、音声処理装置１ｂと、ウェアラブル型マイクスピーカー装置２Ｅ～２Ｈのそれぞれとは、無線ＬＡＮ（例えばＢｌｕｅｔｏｏｔｈ、Ｗｉ－Ｆｉ）などの通信網Ｎ２（図１参照）を介してデータ通信可能に構成されている。

音声処理装置１ａ，１ｂは、同一の機能（ミキシング機能など）を有する音響機器（例えばミキサー）である。なお、音声処理装置１ａ，１ｂは、情報処理装置（例えばパーソナルコンピュータ）であってもよい。音声処理装置１ａ，１ｂにおいて共通の説明する場合は、「音声処理装置１」と称す。

具体的には、会議サーバー４は、インターネットの通信網Ｎ１を利用して、会議室Ｒ１，Ｒ２の音声データを音声処理装置１ａ，１ｂの間で送受信する。例えば音声処理装置１ａは、ユーザーＡの発話音声の音声データをウェアラブル型マイクスピーカー装置２Ａから取得すると、当該音声データを会議サーバー４に送信する。会議サーバー４は、音声処理装置１ａから取得した前記音声データを音声処理装置１ｂに送信する。音声処理装置１ｂは、会議サーバー４から取得した前記音声データをユーザーＥ～Ｈのウェアラブル型マイクスピーカー装置２Ｅ～２Ｈのそれぞれと、卓上型マイクスピーカー装置３ｂとに送信してそれぞれから当該発話音声を再生させる。なお、音声処理装置１ａは、さらに、ウェアラブル型マイクスピーカー装置２Ａから取得した前記音声データをユーザーＢ～Ｄのウェアラブル型マイクスピーカー装置２Ｂ～２Ｄのそれぞれと、卓上型マイクスピーカー装置３ａとに送信してそれぞれから当該発話音声を再生させてもよい。また、会議サーバー４は、ユーザーの操作を受け付けて会議資料などをディスプレイＤＰ１，ＤＰ２に表示させる。このようにして、会議サーバー４は、オンライン会議を実現する。

また、会議サーバー４には、オンライン会議に関する会議情報Ｄ１などのデータが記憶される。図４には、会議情報Ｄ１の一例を示している。図４に示すように、会議情報Ｄ１には、会議ごとに、会議の識別情報（会議ＩＤ）、会議の開催場所、会議の開始日時及び終了日時、会議の参加者、会議に使用する資料の各情報が含まれる。会議ＩＤ「Ｍ００１」には、図２に示すオンライン会議に対応する情報が登録されている。例えば前記オンライン会議の主催者は、自身の端末（パーソナルコンピューター）を使用して会議情報Ｄ１を事前に登録する。会議サーバー４は、クラウドサーバーで構成されてもよい。

［ウェアラブル型マイクスピーカー装置２］
図３には、ウェアラブル型マイクスピーカー装置２の外観の一例を示している。図３に示すように、ウェアラブル型マイクスピーカー装置２は、電源２２、接続ボタン２３、マイク２４、スピーカー２５、通信部（不図示）などを備える。ウェアラブル型マイクスピーカー装置２は、例えばユーザーの首に装着可能なネックバンド型のウェアラブル機器である。ウェアラブル型マイクスピーカー装置２は、ユーザーの音声をマイク２４を介して取得したり、当該ユーザーに対してスピーカー２５から音声を再生したりする。ウェアラブル型マイクスピーカー装置２は、各種情報を表示する表示部を備えてもよい。

図３に示すように、ウェアラブル型マイクスピーカー装置２の本体２１は、ウェアラブル型マイクスピーカー装置２を装着したユーザーから見て左右のアームを備え、Ｕ字状に形成されている。

マイク２４は、ユーザーの発話音声を集音し易いように、ウェアラブル型マイクスピーカー装置２の先端部に配置されている。マイク２４は、ウェアラブル型マイクスピーカー装置２に内蔵されたマイク用基板（不図示）に接続されている。

スピーカー２５には、ウェアラブル型マイクスピーカー装置２を装着したユーザーから見て左側のアームに配置されるスピーカー２５Ｌと右側のアームに配置されるスピーカー２５Ｒとが含まれる。スピーカー２５Ｌ，２５Ｒは、ユーザーが再生音を聞き取り易いように、ウェアラブル型マイクスピーカー装置２のアームの中央付近に配置されている。スピーカー２５Ｌ，２５Ｒは、ウェアラブル型マイクスピーカー装置２に内蔵されたスピーカー用基板（不図示）に接続されている。

前記マイク用基板は、音声データを音声処理装置１に送信するためのトランスミッター基板であり、前記通信部に含まれる。また、前記スピーカー用基板は、音声処理装置１から音声データを受信するためのレシーバー基板であり、前記通信部に含まれる。なお、前記マイク用基板及び前記スピーカー用基板が一つの基板（例えばＢｌｕｅｔｏｏｔｈ用基板）で構成され、当該基板が音声データを送受信してもよい。

前記通信部は、ウェアラブル型マイクスピーカー装置２を無線で音声処理装置１との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、前記通信部は、例えばＢｌｕｅｔｏｏｔｈ方式により音声処理装置１と接続して通信を行う。例えば、ユーザーが電源２２をオン状態にした後に接続ボタン２３を押下すると、前記通信部は、ペアリング処理を実行してウェアラブル型マイクスピーカー装置２を音声処理装置１に接続する。なお、ウェアラブル型マイクスピーカー装置２と音声処理装置１との間に中継機が配置され、当該中継機がウェアラブル型マイクスピーカー装置２とペアリング（Ｂｌｕｅｔｏｏｔｈ接続）し、当該中継機と音声処理装置１とが有線ＬＡＮなどにより接続されてもよい。

［卓上型マイクスピーカー装置３］
図１に示すように、卓上型マイクスピーカー装置３は、電源（不図示）、マイク３１、スピーカー３２、通信部（不図示）などを備える。卓上型マイクスピーカー装置３は、持ち運び可能な携帯型の機器であってもよいし、会議室内の机上などに据え置かれた据え置き型の機器であってもよい。卓上型マイクスピーカー装置３は、設置される場所が限定されるものではなく、また移動（携帯）可能であってもよい。本発明の第１マイクスピーカー装置には、ユーザーが使用時に自身に装着しない非ウェアラブル型の各種機器が含まれる。また、卓上型マイクスピーカー装置３は、音声処理装置１に内蔵されてもよい。卓上型マイクスピーカー装置３は、所定領域内のユーザーの発話音声をマイク３１を介して取得したり、当該ユーザーに対してスピーカー３２から音声を再生したりする。卓上型マイクスピーカー装置３は、各種情報を表示する表示部を備えてもよい。

前記通信部は、卓上型マイクスピーカー装置３を有線で音声処理装置１との間で所定の通信プロトコルに従ったデータ通信を実行するための通信インターフェースである。具体的には、前記通信部は、例えばＬＡＮケーブルにより音声処理装置１と接続して通信を行う。卓上型マイクスピーカー装置３は、周知の機器を適用することができる。

［音声処理装置１］
図１に示すように、音声処理装置１は、制御部１１、記憶部１２、操作表示部１３、通信部１４などを備える音響機器（ミキサー）である。なお、音声処理装置１は、１台の機器に限らず、複数台の機器が協働して動作するコンピュータシステムであってもよい。また、音声処理装置１で実行される各種の処理は、一又は複数のプロセッサーによって分散して実行されてもよい。

通信部１４は、音声処理装置１を有線又は無線で通信網に接続し、通信網を介して会議サーバー４、ウェアラブル型マイクスピーカー装置２、卓上型マイクスピーカー装置３、ディスプレイＤＰ１，ＤＰ２などの外部機器との間で所定の通信プロトコルに従ったデータ通信を実行するための通信部である。例えば、通信部１４は、Ｂｌｕｅｔｏｏｔｈ方式によるペアリング処理を実行して通信網Ｎ２に接続して、ウェアラブル型マイクスピーカー装置２とデータ通信を行う。また、通信部１４は、有線ＬＡＮにより通信網Ｎ３に接続して、卓上型マイクスピーカー装置３とデータ通信を行う。また、通信部１４は、オンライン会議を行う場合に、インターネットにより通信網Ｎ１に接続して会議サーバー４とデータ通信を行う。

操作表示部１３は、各種の情報を表示する液晶ディスプレイ又は有機ＥＬディスプレイのような表示部と、操作を受け付けるマウス、キーボード、又はタッチパネルのような操作部とを備えるユーザーインターフェースである。

記憶部１２は、各種の情報を記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）又はＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの不揮発性の記憶部である。具体的には、記憶部１２には、ウェアラブル型マイクスピーカー装置２の設定情報Ｄ２などのデータが記憶される。

図５には、音声処理装置１ａの記憶部１２に記憶される設定情報Ｄ２の一例を示している。図５に示すように、設定情報Ｄ２には、「機器ＩＤ」、「第１遅延量」、「第２遅延量」、「音量」、「マイクゲイン」などの情報が含まれる。前記機器ＩＤは、ウェアラブル型マイクスピーカー装置２の識別情報であり、例えば機器番号が登録される。ここでは、「ＭＳ００１」～「ＭＳ００４」のそれぞれは、ウェアラブル型マイクスピーカー装置２Ａ～２Ｄのそれぞれに対応する。前記第１遅延量及び前記第２遅延量は、卓上型マイクスピーカー装置３の音声データの伝送速度と、ウェアラブル型マイクスピーカー装置２の音声データの伝送速度との違いに対応する遅延時間に関する情報である。詳細は後述するが、制御部１１は、前記第１遅延量に基づいて、発話音声の音声データの送信（伝達）処理を実行し、前記第２遅延量に基づいて、発話音声の音声データの再生処理を実行する。

前記音量は、各ウェアラブル型マイクスピーカー装置２の音量であり、前記マイクゲインは、各ウェアラブル型マイクスピーカー装置２のマイクゲインである。各音声処理装置１は、自身に接続されるウェアラブル型マイクスピーカー装置２に対応する設定情報Ｄ２を記憶している。

また、記憶部１２には、制御部１１に後述の音声調整処理（図８参照）を実行させるための音声調整プログラムなどの制御プログラムが記憶されている。例えば、前記音声調整プログラムは、ＣＤ又はＤＶＤなどのコンピュータ読取可能な記録媒体に非一時的に記録され、音声処理装置１が備えるＣＤドライブ又はＤＶＤドライブなどの読取装置（不図示）で読み取られて記憶部１２に記憶されてもよい。

制御部１１は、ＣＰＵ、ＲＯＭ、及びＲＡＭなどの制御機器を有する。前記ＣＰＵは、各種の演算処理を実行するプロセッサーである。前記ＲＯＭは、前記ＣＰＵに各種の演算処理を実行させるためのＢＩＯＳ及びＯＳなどの制御プログラムが予め記憶される不揮発性の記憶部である。前記ＲＡＭは、各種の情報を記憶する揮発性又は不揮発性の記憶部であり、前記ＣＰＵが実行する各種の処理の一時記憶メモリー（作業領域）として使用される。そして、制御部１１は、前記ＲＯＭ又は記憶部１２に予め記憶された各種の制御プログラムを前記ＣＰＵで実行することにより音声処理装置１を制御する。

具体的には、制御部１１は、図１に示すように、会議処理部１１１、出力処理部１１２、受信処理部１１３、調整処理部１１４などの各種の処理部を含む。なお、制御部１１は、前記ＣＰＵで前記制御プログラムに従った各種の処理を実行することによって前記各種の処理部として機能する。また、一部又は全部の前記処理部が電子回路で構成されていてもよい。なお、前記制御プログラムは、複数のプロセッサーを前記処理部として機能させるためのプログラムであってもよい。

会議処理部１１１は、オンライン会議を実行する。具体的には、会議処理部１１１は、会議が開始されると、ウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３のそれぞれが集音した発話者の発話音声の音声データを取得する。

例えば、会議が開始されて会議室Ｒ１のユーザーＡが発話すると、ウェアラブル型マイクスピーカー装置２Ａのマイク２４がユーザーＡの発話音声を集音し、ウェアラブル型マイクスピーカー装置２Ａが当該発話音声の音声データを、会議室Ｒ１の音声処理装置１ａに送信する。また、ユーザーＡが発話すると、会議室Ｒ１の卓上型マイクスピーカー装置３ａのマイク３１がユーザーＡの発話音声を集音し、卓上型マイクスピーカー装置３ａが当該発話音声の音声データを音声処理装置１ａに送信する。

音声処理装置１ａの会議処理部１１１は、ウェアラブル型マイクスピーカー装置２Ａ及び卓上型マイクスピーカー装置３ａのそれぞれから、ユーザーＡの発話音声の音声データを取得する。会議処理部１１１は、前記音声データに対して後述の第１音声調整処理（図６Ａ及び図６Ｂ参照）が実行された音声データを会議サーバー４に送信（伝達）する。会議サーバー４は、音声処理装置１ａから前記音声データを受信すると、当該音声データを会議室Ｒ２の音声処理装置１ｂに送信する。音声処理装置１ｂの会議処理部１１１は、前記音声データを受信すると、前記音声データに対して後述の第２音声調整処理（図７Ａ及び図７Ｂ参照）が実行された音声データを、会議室Ｒ２のウェアラブル型マイクスピーカー装置２Ｅ～２Ｈと、卓上型マイクスピーカー装置３ｂとに送信する。なお、音声処理装置１ａの会議処理部１１１は、前記音声データを会議室Ｒ１のウェアラブル型マイクスピーカー装置２Ｂ～２Ｄと、卓上型マイクスピーカー装置３ａとに送信してもよい。

これにより、各ユーザーは、自身のウェアラブル型マイクスピーカー装置２又は卓上型マイクスピーカー装置３から再生される前記発話音声を聞き取ることができる。会議処理部１１１が前記音声データを送信する送信先の機器である会議サーバー４及び会議サーバー４から前記音声データを受信する音声処理装置１ｂは、本発明の機器の一例である。

このように、会議室Ｒ１の音声処理装置１ａの会議処理部１１１は、会議室Ｒ１内のウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３ａのそれぞれが集音した発話音声の音声データを受信して、後述の第１音声調整処理が施された音声データを会議サーバー４に送信する。会議サーバー４は、音声処理装置１ａから受信した音声データを会議室Ｒ２の音声処理装置１ｂに送信する。また、会議室Ｒ２の音声処理装置１ｂの会議処理部１１１は、会議サーバー４から前記音声データを受信して、後述の第２音声調整処理が施された音声データを会議室Ｒ２のウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３とに送信する。

同様に、会議室Ｒ２の音声処理装置１ｂの会議処理部１１１は、会議室Ｒ２内のウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３ｂのそれぞれが集音した発話音声の音声データを受信して、後述の第１音声調整処理が施された音声データを会議サーバー４に送信する。会議サーバー４は、音声処理装置１ｂから受信した音声データを会議室Ｒ１の音声処理装置１ａに送信する。また、会議室Ｒ１の音声処理装置１ａの会議処理部１１１は、会議サーバー４から前記音声データを受信して、後述の第２音声調整処理が施された音声データを会議室Ｒ１のウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３とに送信する。このようにして、各音声処理装置１の会議処理部１１１は、音声データの送受信を実行してオンライン会議を実現する。会議処理部１１１は、本発明の音声処理部の一例である。

ここで、ウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３とは、音声データの伝送速度が互いに異なる。例えばウェアラブル型マイクスピーカー装置２は無線通信により音声データを音声処理装置１に伝送し、卓上型マイクスピーカー装置３は有線通信により音声データを音声処理装置１に伝送するため、ウェアラブル型マイクスピーカー装置２における音声データの伝送速度は卓上型マイクスピーカー装置３における音声データの伝送速度よりも遅くなる。このため、例えば会議室Ｒ１において、ウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３ａとがユーザーの発話音声を集音した場合に、会議室Ｒ２の卓上型マイクスピーカー装置３ｂから異なるタイミングで当該発話音声が再生され、会議室Ｒ２のユーザーに音声が二重に聞こえてしまう問題が生じる。

そこで、本実施形態に係る音声処理装置１は、以下に示す音声調整処理（第１音声調整処理、第２音声調整処理）を実行する。制御部１１は、第１音声調整処理及び第２音声調整処理を個別に実行する。

具体的には、前記第１音声調整処理では、出力処理部１１２は、音声調整用のテスト音声（本発明の特定音声）を出力する。例えば、出力処理部１１２は、テスト音声の音声データ（テスト音声データＴｓ）を、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２の少なくともいずれかのスピーカーから再生させる。出力処理部１１２は、本発明の出力処理部の一例である。

例えば図６Ａに示すように、音声処理装置１ａの出力処理部１１２は、テスト音声データＴｓを、卓上型マイクスピーカー装置３ａのスピーカー３２から再生させる。卓上型マイクスピーカー装置３ａは、音声処理装置１ａからテスト音声データＴｓを受信すると、スピーカー３２からテスト音声を再生する。

受信処理部１１３は、前記テスト音声が再生された場合に、卓上型マイクスピーカー装置３が集音した前記テスト音声の第１集音データＳｃ１と、ウェアラブル型マイクスピーカー装置２が集音した前記テスト音声の第２集音データＳｃ２とを受信する。

例えば図６Ｂに示すように、卓上型マイクスピーカー装置３ａは、自身のスピーカー３２から前記テスト音声を再生すると、自身のマイク３１により当該テスト音声を集音する。卓上型マイクスピーカー装置３ａは、集音した前記テスト音声の第１集音データＳｃ１を音声処理装置１ａに送信し、音声処理装置１ａの受信処理部１１３は、当該第１集音データＳｃ１を受信する。また、ウェアラブル型マイクスピーカー装置２Ａは、卓上型マイクスピーカー装置３ａから再生される前記テスト音声を、自身のマイク２４により集音する。ウェアラブル型マイクスピーカー装置２Ａは、集音した前記テスト音声の第２集音データＳｃ２を音声処理装置１ａに送信し、音声処理装置１ａの受信処理部１１３は、当該第２集音データＳｃ２を受信する。

なお、受信処理部１１３は、ウェアラブル型マイクスピーカー装置２Ｂ～２Ｄのそれぞれからも同様に第２集音データＳｃ２を受信してもよい。

このように、受信処理部１１３は、卓上型マイクスピーカー装置３ａのスピーカー３２から再生され、卓上型マイクスピーカー装置３ａのマイク３１が集音したテスト音声の第１集音データＳｃ１と、卓上型マイクスピーカー装置３ａのスピーカー３２から再生され、ウェアラブル型マイクスピーカー装置２のマイク２４が集音した前記テスト音声の第２集音データＳｃ２とを受信する。受信処理部１１３は、本発明の受信処理部の一例である。

調整処理部１１４は、受信処理部１１３が第１集音データＳｃ１を受信した時点から受信処理部１１３が第２集音データＳｃ２を受信した時点までの時間差（経過時間）に基づいて、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する処理（第１音声調整処理）を実行する。調整処理部１１４は、本発明の調整処理部の一例である。

具体的には、調整処理部１１４は、前記時間差に応じたバッファリングを実行する。例えば、図６Ｂに示す例において、受信処理部１１３が第１集音データＳｃ１を受信した時点から受信処理部１１３が第２集音データＳｃ２を受信した時点までの時間差がＤｔ１の場合に、調整処理部１１４は、第２集音データＳｃ２の送信元のウェアラブル型マイクスピーカー装置２（ここではウェアラブル型マイクスピーカー装置２Ａ）に第１遅延量Ｄｔ１（遅延時間）を設定する。調整処理部１１４は、設定した第１遅延量Ｄｔ１の情報を設定情報Ｄ２に登録する（図５参照）。

会議処理部１１１は、調整処理部１１４により設定される前記第１遅延量に基づいて、前記発話音声の音声データを機器に送信（伝達）する。例えば、音声処理装置１ａの会議処理部１１１は、ウェアラブル型マイクスピーカー装置２Ａ及び卓上型マイクスピーカー装置３ａのそれぞれから、ユーザーＡの発話音声の音声データを取得すると、卓上型マイクスピーカー装置３ａから取得する前記音声データに対して設定された第１遅延量Ｄｔ１に基づいて前記音声データを会議サーバー４に送信する。例えば、会議処理部１１１は、卓上型マイクスピーカー装置３ａから前記音声データを取得した時点から第１遅延量Ｄｔ１の時間が経過した時点で前記音声データを会議サーバー４に送信する。

これにより、ウェアラブル型マイクスピーカー装置２Ａ及び卓上型マイクスピーカー装置３ａのそれぞれが前記音声データを伝達するタイミングを一致させることができる。すなわち、会議サーバー４が卓上型マイクスピーカー装置３ａから前記音声データを受信するタイミングと、会議サーバー４がウェアラブル型マイクスピーカー装置２Ａから前記音声データを受信するタイミングとを一致させることができる。また、会議サーバー４は、同一のタイミングで受信する音声データを音声処理装置１ｂに送信することができる。

調整処理部１１４は、各ウェアラブル型マイクスピーカー装置２に対して前記第１遅延量を設定する（図５参照）。会議処理部１１１は、例えばユーザーＢの発話音声の音声データをウェアラブル型マイクスピーカー装置２Ｂ及び卓上型マイクスピーカー装置３ａのそれぞれから取得すると、卓上型マイクスピーカー装置３ａから前記音声データを取得した時点から第１遅延量Ｄｔ２の時間が経過した時点で前記音声データを会議サーバー４に送信する。このように、会議処理部１１１は、ウェアラブル型マイクスピーカー装置２に対応する第１遅延量に基づいて、ウェアラブル型マイクスピーカー装置２Ｂ及び卓上型マイクスピーカー装置３ａのそれぞれが集音した音声データの伝達タイミングを一致させる。

また、前記第２音声調整処理では、例えば図７Ａに示すように、音声処理装置１ａの出力処理部１１２は、テスト音声データＴｓ１を卓上型マイクスピーカー装置３ａのスピーカー３２から再生させ、テスト音声データＴｓ２をウェアラブル型マイクスピーカー装置２のスピーカー２５から再生させる。卓上型マイクスピーカー装置３ａは、音声処理装置１ａからテスト音声データＴｓ１を受信すると、スピーカー３２からテスト音声を再生し、ウェアラブル型マイクスピーカー装置２は、音声処理装置１ａからテスト音声データＴｓ２を受信すると、スピーカー２５からテスト音声を再生する。なお、出力処理部１１２は、テスト音声データＴｓ１，Ｔｓ２を同一のタイミングで卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２に出力する。

図７Ｂに示すように、卓上型マイクスピーカー装置３ａは、自身のスピーカー３２から前記テスト音声を再生すると、自身のマイク３１により当該テスト音声を集音する。また、卓上型マイクスピーカー装置３ａは、ウェアラブル型マイクスピーカー装置２がスピーカー２５から前記テスト音声を再生すると、自身のマイク３１により当該テスト音声を集音する。卓上型マイクスピーカー装置３ａは、スピーカー３２から再生されて集音した前記テスト音声の第１集音データＳｃ１を音声処理装置１ａに送信し、音声処理装置１ａの受信処理部１１３は、当該第１集音データＳｃ１を受信する。また、卓上型マイクスピーカー装置３は、ウェアラブル型マイクスピーカー装置２のスピーカー２５から再生されて集音した前記テスト音声の第２集音データＳｃ２を音声処理装置１ａに送信し、音声処理装置１ａの受信処理部１１３は、当該第２集音データＳｃ２を受信する。このように、受信処理部１１３は、卓上型マイクスピーカー装置３ａのスピーカー３２から再生され、卓上型マイクスピーカー装置３ａのマイク３１が集音した前記テスト音声の第１集音データＳｃ１と、ウェアラブル型マイクスピーカー装置２のスピーカー２５から再生され、卓上型マイクスピーカー装置３ａのマイク３１が集音した前記テスト音声の第２集音データＳｃ２とを受信する。

調整処理部１１４は、受信処理部１１３が第１集音データＳｃ１を受信した時点から受信処理部１１３が第２集音データＳｃ２を受信した時点までの時間差（経過時間）に基づいて、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する処理（第２音声調整処理）を実行する。

具体的には、調整処理部１１４は、前記時間差に応じたバッファリングを実行する。例えば、図７Ｂに示す例において、受信処理部１１３が第１集音データＳｃ１を受信した時点から受信処理部１１３が第２集音データＳｃ２を受信した時点までの時間差がＤｓ１の場合に、調整処理部１１４は、第２集音データＳｃ２の送信元のウェアラブル型マイクスピーカー装置２（ここではウェアラブル型マイクスピーカー装置２Ａ）に第２遅延量Ｄｓ１（遅延時間）を設定する。調整処理部１１４は、設定した第２遅延量Ｄｓ１の情報を設定情報Ｄ２に登録する（図５参照）。

会議処理部１１１は、調整処理部１１４により設定される前記第２遅延量に基づいて、前記発話音声の音声データを機器に再生させる。

例えば、音声処理装置１ａの会議処理部１１１は、会議サーバー４から会議室Ｒ２のユーザーＤの発話音声の音声データを取得すると、ウェアラブル型マイクスピーカー装置２Ａに前記音声データを出力して再生させるとともに、第２遅延量Ｄｓ１の時間が経過した時点で前記音声データを卓上型マイクスピーカー装置３ａに出力して再生させる。

これにより、会議室Ｒ１において、卓上型マイクスピーカー装置３ａから前記音声データが再生されるタイミングと、ウェアラブル型マイクスピーカー装置２Ａから前記音声データが再生されるタイミングとを一致させることができる。これにより、会議室Ｒ１のユーザーに音声が二重に聞こえてしまう問題を防ぐことができる。

なお、調整処理部１１４は、各ウェアラブル型マイクスピーカー装置２に対して第２遅延量を設定する（図５参照）。

［音声調整処理］
以下、図８を参照しつつ、音声処理装置１の制御部１１によって実行される音声調整処理の手順の一例について説明する。なお、本発明は、前記音声調整処理に含まれる一又は複数のステップを実行する音声調整方法（本発明の音声処理方法）の発明として捉えることができる。また、ここで説明する前記音声調整処理に含まれる一又は複数のステップが適宜省略されてもよい。また、前記音声調整処理における各ステップは、同様の作用効果を生じる範囲で実行順序が異なってもよい。さらに、ここでは制御部１１が前記音声調整処理における各ステップを実行する場合を例に挙げて説明するが、他の実施形態では、１又は複数のプロセッサーが前記音声調整処理における各ステップを分散して実行してもよい。

ここでは、会議室Ｒ１に配置される卓上型マイクスピーカー装置３ａとウェアラブル型マイクスピーカー装置２Ａとを例に挙げて説明する。

また、制御部１１は、卓上型マイクスピーカー装置３ａが集音する第１集音データＳｃ１と、ウェアラブル型マイクスピーカー装置２Ａが集音する第２集音データＳｃ２とを会議サーバー４に送信（伝達）するタイミングを調整する第１音声調整処理（図６Ａ及び図６Ｂ参照）と、会議サーバー４から送信される音声データを卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれにおいて再生させるタイミングを調整する第２音声調整処理（図７Ａ及び図７Ｂ参照）とを個別に実行することが可能である。図８に示す音声調整処理は、前記第１音声調整処理及び前記第２音声調整処理のそれぞれに、共通に適用可能である。

［第１音声調整処理］
先ず、ステップＳ１１において、制御部１１は、テスト音声データＴｓを卓上型マイクスピーカー装置３ａに出力して、卓上型マイクスピーカー装置３ａのスピーカー３２からテスト音声を再生させる。卓上型マイクスピーカー装置３ａは、音声処理装置１ａからテスト音声データＴｓを受信すると、スピーカー３２からテスト音声を再生する（図６Ａ参照）。

次に、ステップＳ１２において、制御部１１は、卓上型マイクスピーカー装置３ａが集音した第１集音データＳｃ１を受信したか否かを判定する。例えば、卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれは、卓上型マイクスピーカー装置３ａのスピーカー３２から再生されるテスト音声を集音すると、集音した第１集音データＳｃ１及び第２集音データＳｃ２を音声処理装置１に送信する。

ここでは、卓上型マイクスピーカー装置３ａにおける音声データの伝送速度が、ウェアラブル型マイクスピーカー装置２Ａにおける音声データの伝送速度よりも早いため、卓上型マイクスピーカー装置３ａから送信される第１集音データＳｃ１が、ウェアラブル型マイクスピーカー装置２Ａから送信される第２集音データＳｃ２よりも早く音声処理装置１に到達する（図６Ｂ参照）。

制御部１１は、卓上型マイクスピーカー装置３ａから第１集音データＳｃ１を受信すると（Ｓ１２：Ｙｅｓ）、処理をステップＳ１３に移行させる。制御部１１は、卓上型マイクスピーカー装置３ａから第１集音データＳｃ１を受信するまで待機する（Ｓ１２：Ｎｏ）。

ステップＳ１３において、制御部１１は、時間の計測を開始する。

次に、ステップＳ１４において、制御部１１は、ウェアラブル型マイクスピーカー装置２Ａが集音した第２集音データＳｃ２を受信したか否かを判定する。制御部１１は、卓上型マイクスピーカー装置３ａから第１集音データＳｃ１を受信した後、ウェアラブル型マイクスピーカー装置２Ａから第２集音データＳｃ２を受信する。制御部１１は、ウェアラブル型マイクスピーカー装置２Ａから第２集音データＳｃ２を受信すると（Ｓ１４：Ｙｅｓ）、処理をステップＳ１５に移行させる。制御部１１は、ウェアラブル型マイクスピーカー装置２Ａから第２集音データＳｃ２を受信するまで待機する（Ｓ１４：Ｎｏ）。

ステップＳ１５において、制御部１１は、第１集音データＳｃ１を受信してから第２集音データＳｃ２を受信するまでの経過時間（時間差）を算出する。ここでは、前記時間差を「Ｄｔ１」とする。

ステップＳ１６において、制御部１１は、ウェアラブル型マイクスピーカー装置２Ａに前記時間差である第１遅延量Ｄｔ１（遅延時間）を設定する。制御部１１は、設定した第１遅延量Ｄｔ１の情報を設定情報Ｄ２に登録する（図５参照）。

以上の前記第１音声調整処理により、卓上型マイクスピーカー装置３ａが集音する第１集音データＳｃ１と、ウェアラブル型マイクスピーカー装置２Ａが集音する第２集音データＳｃ２とを会議サーバー４に送信（伝達）するタイミングとを一致させることが可能となる。

また、前記第１音声調整処理によれば、例えば会議において、会議サーバー４は、ユーザーＡの発話音声を卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれから同一のタイミングで受信して、他の機器（マイクスピーカー装置）から前記発話音声を再生することにより、当該機器から再生される発話音声が二重に聞こえる問題を防ぐことができる。

［第２音声調整処理］
先ず、ステップＳ１１において、制御部１１は、テスト音声データＴｓを卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａに出力して、卓上型マイクスピーカー装置３ａのスピーカー３２と、ウェアラブル型マイクスピーカー装置２Ａのスピーカー２５とからテスト音声を再生させる。なお、制御部１１は、同一のタイミングでテスト音声データＴｓを卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａに出力する。

卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれは、音声処理装置１ａからテスト音声データＴｓ１，Ｔｓ２を受信すると、それぞれのスピーカー３２，２５からテスト音声を再生する。

ここでは、卓上型マイクスピーカー装置３ａにおける音声データの伝送速度が、ウェアラブル型マイクスピーカー装置２Ａにおける音声データの伝送速度よりも早いため、先に卓上型マイクスピーカー装置３ａから前記テスト音声が再生され、その後にウェアラブル型マイクスピーカー装置２Ａから前記テスト音声が再生される（図７Ａ参照）。

次に、ステップＳ１２において、制御部１１は、卓上型マイクスピーカー装置３ａが集音した第１集音データＳｃ１を受信したか否かを判定する。例えば、卓上型マイクスピーカー装置３ａは、卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれから再生されるテスト音声を順に集音すると、集音した第１集音データＳｃ１及び第２集音データＳｃ２を順に音声処理装置１に送信する（図７Ｂ参照）。

次に、ステップＳ１４において、制御部１１は、卓上型マイクスピーカー装置３ａが集音した第２集音データＳｃ２を受信したか否かを判定する。制御部１１は、卓上型マイクスピーカー装置３ａから第１集音データＳｃ１を受信した後、ウェアラブル型マイクスピーカー装置２Ａから第２集音データＳｃ２を受信する。制御部１１は、卓上型マイクスピーカー装置３ａから第２集音データＳｃ２を受信すると（Ｓ１４：Ｙｅｓ）、処理をステップＳ１５に移行させる。制御部１１は、卓上型マイクスピーカー装置３ａから第２集音データＳｃ２を受信するまで待機する（Ｓ１４：Ｎｏ）。

ステップＳ１５において、制御部１１は、第１集音データＳｃ１を受信してから第２集音データＳｃ２を受信するまでの経過時間（時間差）を算出する。ここでは、前記時間差を「Ｄｓ１」とする。

ステップＳ１６において、制御部１１は、ウェアラブル型マイクスピーカー装置２Ａに前記時間差である第２遅延量Ｄｓ１（遅延時間）を設定する。制御部１１は、設定した第２遅延量Ｄｓ１の情報を設定情報Ｄ２に登録する（図５参照）。

以上の前記第２音声調整処理により、会議サーバー４から送信される音声データを卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれにおいて再生させるタイミングを一致させることが可能となる。

また、前記第２音声調整処理によれば、例えば会議において、会議サーバー４は、他の機器（マイクスピーカー装置）から受信したユーザーＤの発話音声を卓上型マイクスピーカー装置３ａ及びウェアラブル型マイクスピーカー装置２Ａのそれぞれから同一のタイミングで再生することにより、当該機器から再生される発話音声が二重に聞こえる問題を防ぐことができる。

以上説明したように、本実施形態に係る会議システム１００は、第１マイクスピーカー装置（例えば卓上型マイクスピーカー装置３）と、音声データの伝送速度が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置（ウェアラブル型マイクスピーカー装置２）とを含み、ユーザーの発話音声を取得して送受信する音声処理システムである。

また、前記第１音声調整処理において、会議システム１００は、特定音声（テスト音声）が再生された場合に、前記第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する。そして、会議システム１００は、前記第１音声データを受信した時点から前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する。

これにより、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれが集音した音声データを機器（サーバーなど）に送信する送信タイミングを一致させることができる。

また、前記第２音声調整処理において、会議システム１００は、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれのスピーカーから特定音声を再生させる。また、会議システム１００は、前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のいずれか一方のマイクスピーカー装置のマイクが集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記一方のマイクスピーカー装置のマイクが集音した前記特定音声の第２音声データとを受信する。そして、会議システム１００は、前記第１音声データを受信した時点から前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する。

これにより、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれが機器（サーバーなど）から受信して再生する音声データの再生タイミングを一致させることができる。

よって、音声データの伝送速度が異なる複数のマイクスピーカー装置を併用する場合の音声品質を向上させることが可能となる。

本発明は上述の実施形態に限定されない。以下、本発明の他の実施形態について説明する。

会議システム１００は、第１マイクスピーカー装置（例えばウェアラブル型マイクスピーカー装置２）と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置（ウェアラブル型マイクスピーカー装置２）とを含み、ユーザーの発話音声を取得して送受信する音声処理システムであってもよい。例えば、第２マイクスピーカー装置と音声処理装置１との距離が、第１マイクスピーカー装置と音声処理装置１との距離よりも遠い場合に、第２マイクスピーカー装置から音声処理装置１に入力される音声データの到達時間が、音声処理装置１に入力される音声データよりも遅くなる。このような場合でも、上記各構成によれば、複数のマイクスピーカー装置を併用する場合の音声品質を向上させることが可能となる。すなわち、本発明の第１マイクスピーカー装置及び第２マイクスピーカー装置は、伝送速度（例えば有線接続及び無線接続など接続方式）が異なるマイクスピーカー装置であってもよいし、伝送速度の相違に依らず位置関係（音声処理装置１との距離）が異なるマイクスピーカー装置であってもよい。

また、本発明の第１マイクスピーカー装置及び第２マイクスピーカー装置のそれぞれは、通信方式が同一であってもよい。例えば第１マイクスピーカー装置及び第２マイクスピーカー装置のそれぞれは、ネットワークに無線接続されて無線通信により音声データを送受信してもよい。すなわち、本発明の第１マイクスピーカー装置及び第２マイクスピーカー装置のそれぞれは、互いに同一の通信方式を備えてもよいし、異なる通信方式を備えてもよい。また、本発明では、第２マイクスピーカー装置における音声データの伝送速度が第１マイクスピーカー装置における音声データの伝送速度よりも遅ければよい。

また、本発明では、前記第１音声調整処理において、会議システム１００は、１台の卓上型マイクスピーカー装置３と１台のウェアラブル型マイクスピーカー装置２とを備えて構成されてもよい。また、会議システム１００は、１台の卓上型マイクスピーカー装置３と複数台のウェアラブル型マイクスピーカー装置２とを備えて構成されてもよい。会議システム１００が複数台のウェアラブル型マイクスピーカー装置２を備える場合、制御部１１は、例えば発話するユーザーのウェアラブル型マイクスピーカー装置２を特定し、特定したウェアラブル型マイクスピーカー装置２に対応する第１遅延量（図５参照）を取得し、取得した第１遅延量に基づいて、卓上型マイクスピーカー装置３から受信した音声データを会議サーバー４に送信する。

また、本発明では、前記第２音声調整処理において、会議システム１００は、１台の卓上型マイクスピーカー装置３と１台のウェアラブル型マイクスピーカー装置２とを備えて構成されてもよい。また、会議システム１００は、１台の卓上型マイクスピーカー装置３と複数台のウェアラブル型マイクスピーカー装置２とを備えて構成されてもよい。会議システム１００が複数台のウェアラブル型マイクスピーカー装置２を備える場合、制御部１１は、例えば再生させる複数台のウェアラブル型マイクスピーカー装置２を特定し、特定した複数台のウェアラブル型マイクスピーカー装置２のそれぞれに対応する第２遅延量（図５参照）を取得し、取得した第２遅延量に基づいて、各ウェアラブル型マイクスピーカー装置２及び卓上型マイクスピーカー装置３に音声データを出力する。

他の実施形態として、制御部１１（調整処理部１１４）は、前記時間差に応じた時間差情報を操作表示部１３（本発明の表示部の一例）に表示させ、操作表示部１３においてユーザーの操作により入力された入力情報に基づいて前記遅延量（第１遅延量、第２遅延量）を設定してもよい。

例えば図９に示すように、制御部１１は、ウェアラブル型マイクスピーカー装置２Ａ～２Ｄ（図９の「ｄｅｖ１」～「ｄｅｖ４」に相当）のそれぞれに対応する時間差情報を操作表示部１３に表示させる。例えば、制御部１１は、前記テスト音声に対応する集音データの到達時間が最も早いウェアラブル型マイクスピーカー装置２Ａを基準（「－」）として、この基準に対するウェアラブル型マイクスピーカー装置２Ｂ～２Ｄにおける到達時間の遅延時間を表示させる。

また例えば図１０に示すように、制御部１１は、ウェアラブル型マイクスピーカー装置２Ａ～２Ｄ（図１０の「ｄｅｖ１」～「ｄｅｖ４」に相当）のそれぞれに対応する時間差情報をインジケーターとして操作表示部１３に表示させてもよい。

ユーザーは、図９及び図１０に示す操作画面において、調整ボタンを押下することにより各ウェアラブル型マイクスピーカー装置２の前記遅延量を設定してもよい。制御部１１は、ユーザーにより設定された前記遅延量を設定情報Ｄ２（図５参照）に登録する。

他の実施形態として、音声処理装置１は、録音機能を備えてもよい。例えば図１１に示す操作画面において、ユーザーが録音ボタンを押下してテスト音声を発話すると、制御部１１は、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２のそれぞれから送信されるテスト音声（図６Ｂ参照）を録音する。制御部１１は、録音したテスト音声を再生させて、ユーザーから前記遅延量の設定操作（図１１参照）を受け付ける。

また、制御部１１は、図９～図１１の操作画面を音声処理装置１に接続される機器（ディスプレイＤＰ１（図２参照）、パーソナルコンピュータなど）に表示させてもよい。また、音声処理装置１がスピーカーを備える場合には、制御部１１は、当該スピーカーから前記テスト音声を再生させてもよい。

また本発明の他の実施形態として、前記第１音声調整処理における前記テスト音声は、ユーザーの発話音声であってもよい。この場合、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２のそれぞれは、ユーザーの発話音声を集音すると、当該発話音声に対応する第１集音データＳｃ１及び第２集音データＳｃ２を音声処理装置１に送信する。

また本発明の他の実施形態として、前記第１音声調整処理（図６Ａ及び図６Ｂ参照）において、ウェアラブル型マイクスピーカー装置２が前記テスト音声を再生してもよい。この場合、卓上型マイクスピーカー装置３は、ウェアラブル型マイクスピーカー装置２から再生される前記テスト音声を集音した第１集音データＳｃ１を音声処理装置１に送信し、ウェアラブル型マイクスピーカー装置２は、自身から再生される前記テスト音声を集音した第２集音データＳｃ２を音声処理装置１に送信する。

また本発明の他の実施形態として、前記第１音声調整処理（図６Ａ及び図６Ｂ参照）において、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２のそれぞれが前記テスト音声を再生してもよい。この場合、制御部１１は、卓上型マイクスピーカー装置３が前記テスト音声を再生した場合の遅延量と、ウェアラブル型マイクスピーカー装置２が前記テスト音声を再生した場合の遅延量とを算出して、両者を比較してウェアラブル型マイクスピーカー装置２の遅延量を設定する。例えば、両者の遅延量の差が所定値以上の場合には、両者の遅延量の信頼性が低いと判断されるため、前記第１音声調整処理をやり直してもよい。

このように、本発明の調整処理部１１４は、受信処理部１１３が第１音声データを受信した時点から受信処理部１１３が第２音声データを受信した時点までの時間差に基づいて、第１マイクスピーカー装置及び第２マイクスピーカー装置の少なくともいずれかにおける発話音声の音声データの送信タイミングを調整する。

また本発明の他の実施形態として、前記第２音声調整処理（図７Ａ及び図７Ｂ参照）において、ウェアラブル型マイクスピーカー装置２が前記テスト音声を集音してもよい。この場合、ウェアラブル型マイクスピーカー装置２は、自身から再生される前記テスト音声を集音した第２集音データＳｃ２を音声処理装置１に送信し、卓上型マイクスピーカー装置３から再生される前記テスト音声を集音した第１集音データＳｃ１を音声処理装置１に送信する。

また本発明の他の実施形態として、前記第２音声調整処理（図７Ａ及び図７Ｂ参照）において、卓上型マイクスピーカー装置３及びウェアラブル型マイクスピーカー装置２のそれぞれが前記テスト音声を集音してもよい。この場合、制御部１１は、卓上型マイクスピーカー装置３が前記テスト音声を集音した場合の遅延量と、ウェアラブル型マイクスピーカー装置２が前記テスト音声を集音した場合の遅延量とを算出して、両者を比較してウェアラブル型マイクスピーカー装置２の遅延量を設定する。例えば、両者の遅延量の差が所定値以上の場合、両者の遅延量の信頼性が低いと判断されるため、前記第２音声調整処理をやり直してもよい。

このように、本発明の調整処理部１１４は、受信処理部１１３が第１音声データを受信した時点から受信処理部１１３が第２音声データを受信した時点までの時間差に基づいて、第１マイクスピーカー装置及び第２マイクスピーカー装置の少なくともいずれかにおける発話音声の音声データの再生タイミングを調整する。

また本発明の他の実施形態として、前記音声調整処理（前記第１音声調整処理、前記第２音声調整処理）において、出力処理部１１２は、特定の周波数帯域のテスト音声を出力してもよい。例えば、出力処理部１１２は、人間の可聴域（可聴周波数帯域）外の周波数帯域（超低周波数帯域、超音波帯域）のテスト音声を出力する。これにより、前記音声調整処理を実行する際に、ユーザーに前記テスト音声が聞き取られることがないため、ユーザーにストレスを与えることを防ぐことができる。なお、一般的なマイク使用時のＢｌｕｅｔｏｏｔｈのサンプリング周波数は１６ｋＨｚ程度であるため、実際に集音できる周波数はその半分の８ｋＨｚ程度となる。そのため、上記構成において超音波帯域を使用する場合は、超音波そのものはミキサーへ送れないが、例えばＢｌｕｅｔｏｏｔｈ方式のマイクスピーカー装置のマイク部品は、人間の可聴域を超える音を集音することも可能である。その場合、その判定結果のみをミキサーに送ればよいため、サンプリング周波数の問題は回避できる。

また、前記音声調整処理において前記可聴域外のテスト音声を出力する構成において、さらに、調整処理部１１４は、ユーザーがウェアラブル型マイクスピーカー装置２を使用中に、前記音声調整処理を実行してもよい。例えば、調整処理部１１４は、会議開始前に前記音声調整処理を実行し、さらに、会議中に前記音声調整処理を実行する。例えば、出力処理部１１２は、会議中に一定の間隔で前記可聴域外のテスト音声を出力し、調整処理部１１４は、当該一定の間隔で前記音声調整処理を実行して、前記発話音声の音声データの送信タイミング及び再生タイミングを調整する。Ｂｌｕｅｔｏｏｔｈ等の無線を使用する際に、音声データの遅延は厳密には周辺環境によって常に変化している。例えば、Ｂｌｕｅｔｏｏｔｈ方式のマイクスピーカー装置を装着したユーザーが歩き回ると、送受信機（音声処理装置１）との距離が変わるため、音声データの遅延量が変化する。この場合、会議開始前の初回の前記音声調整処理（遅延量調整）だけでは、会議中の遅延量の変化に対応できないケースが起こり得る。これに対して、前記可聴域外のテスト音声を用いて会議中に前記音声調整処理を実行する構成によれば、会議中でもユーザーに影響を与えない範囲で常時遅延量調整を行って、音声の重なりを防止するなど音声品質を向上させることが可能となる。

本発明の他の実施形態として、制御部１１は、各ウェアラブル型マイクスピーカー装置２から受信する発話音声の音声データの到達時間を監視し、当該到達時間に基づいて各ウェアラブル型マイクスピーカー装置２の通信状態をユーザーに通知してもよい。例えば制御部１１は、特定のウェアラブル型マイクスピーカー装置２において発話音声の音声データの到達時間が遅くなり通信速度が不安定な状態になった場合に、音声処理装置１の操作表示部１３、音声処理装置１に接続されるディスプレイＤＰ、ユーザー端末などに通知する。例えば図１２に示すように、制御部１１は、各ウェアラブル型マイクスピーカー装置２の通信状態を表示させる。

本発明の他の実施形態として、制御部１１（調整処理部１１４）は、卓上型マイクスピーカー装置３に入力される、ウェアラブル型マイクスピーカー装置２が集音した発話音声の音声データの音圧が変化した場合に、前記発話音声の音声データの送信タイミング又は再生タイミングを調整してもよい。例えば図１３に示すように、卓上型マイクスピーカー装置３の周辺にウェアラブル型マイクスピーカー装置２を装着しないユーザーが位置し、卓上型マイクスピーカー装置３から離れた場所にウェアラブル型マイクスピーカー装置２を装着したユーザーＡ～Ｄが位置する場合を例に挙げる。ユーザーＡ～Ｄが同じ場所にいて移動しない場合には、卓上型マイクスピーカー装置３に入力される発話音声（会議室Ｒ１内の発話音声）の音圧は変化しない。この場合、制御部１１は、初めに設定した遅延量に基づいて、発話音声の音声データの送信（伝達）処理を実行する。

一方、例えばウェアラブル型マイクスピーカー装置２を装着したユーザーＣが移動（図１３の矢印方向）すると、卓上型マイクスピーカー装置３との距離が変化し、距離に応じて前記発話音声の遅延量が変化する。この場合、音声が二重に聞こえてしまう問題が生じする。そこで、制御部１１は、卓上型マイクスピーカー装置３に入力される音声データの音圧が変化したことをトリガーとして、上述の第１音声調整処理又は第２音声調整処理を実行して遅延量を再調整する。これにより、ウェアラブル型マイクスピーカー装置２を装着したユーザーが会議中に歩き回っても、自動で適切に卓上型マイクスピーカー装置３との遅延量を調整することできる。

なお、本発明の音声処理システムは、音声処理装置１とウェアラブル型マイクスピーカー装置２と卓上型マイクスピーカー装置３と会議サーバー４とにより構成されてもよい。また、本発明の音声処理システムは、音声処理装置１単体で構成されてもよいし、会議サーバー４単体で構成されてもよいし、音声処理装置１及び会議サーバー４の組み合わせにより構成されてもよい。

１：音声処理装置
２：ウェアラブル型マイクスピーカー装置
３：卓上型マイクスピーカー装置
４：会議サーバー
１００：会議システム
１１１：会議処理部
１１２：出力処理部
１１３：受信処理部
１１４：調整処理部

Claims

第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理システムであって、
特定音声が再生された場合に、前記第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する受信処理部と、
前記受信処理部が前記第１音声データを受信した時点から前記受信処理部が前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する調整処理部と、
を備える音声処理システム。
前記特定音声の音声データを出力する出力処理部をさらに備え、
前記出力処理部は、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかのスピーカーから前記特定音声を再生させ、
前記受信処理部は、前記出力処理部が再生した前記特定音声に対応する前記第１音声データ及び前記第２音声データを受信し、
前記調整処理部は、前記受信処理部が受信した前記第１音声データ及び前記第２音声データの前記時間差に基づいて前記発話音声の音声データの送信タイミングを調整する、
請求項１に記載の音声処理システム。
前記出力処理部は、前記第１マイクスピーカー装置のスピーカーから前記特定音声を再生させ、
前記受信処理部は、前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置のマイクが集音した前記特定音声の前記第１音声データと、前記第１マイクスピーカー装置のスピーカーから再生され、前記第２マイクスピーカー装置のマイクが集音した前記特定音声の前記第２音声データとを受信し、
前記調整処理部は、前記受信処理部が受信した前記第１音声データ及び前記第２音声データの前記時間差に基づいて前記発話音声の音声データの送信タイミングを調整する、
請求項２に記載の音声処理システム。
前記発話音声の音声データを前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれから受信し、当該音声データを、前記発話音声を出力する機器に送信する音声処理部をさらに備え、
前記調整処理部は、前記第１マイクスピーカー装置に前記時間差に応じた遅延量を設定し、
前記音声処理部は、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれから受信する前記音声データを、前記調整処理部により設定される前記遅延量に基づいて、前記機器に送信する、
請求項１から請求項３のいずれか１項に記載の音声処理システム。
第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理システムであって、
前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれのスピーカーから特定音声を再生させる出力処理部と、
前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のいずれか一方のマイクスピーカー装置のマイクが集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記一方のマイクスピーカー装置のマイクが集音した前記特定音声の第２音声データとを受信する受信処理部と、
前記受信処理部が前記第１音声データを受信した時点から前記受信処理部が前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する調整処理部と、
を備える音声処理システム。
前記出力処理部は、前記特定音声の音声データを、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれに対して同一タイミングで出力し、
前記受信処理部は、前記出力処理部が再生した前記特定音声に対応する前記第１音声データ及び前記第２音声データを受信し、
前記調整処理部は、前記受信処理部が受信した前記第１音声データ及び前記第２音声データの前記時間差に基づいて前記発話音声の音声データの再生タイミングを調整する、
請求項５に記載の音声処理システム。
前記受信処理部は、前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置のマイクが集音した前記特定音声の前記第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置のマイクが集音した前記特定音声の前記第２音声データとを受信し、
前記調整処理部は、前記受信処理部が受信した前記第１音声データ及び前記第２音声データの前記時間差に基づいて前記発話音声の音声データの再生タイミングを調整する、
請求項６に記載の音声処理システム。
前記発話音声の音声データを機器から受信し、当該音声データを前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれから再生させる音声処理部をさらに備え、
前記調整処理部は、前記第１マイクスピーカー装置に前記時間差に応じた遅延量を設定し、
前記音声処理部は、前記機器から受信する前記音声データを、前記調整処理部により設定される前記遅延量に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれから再生させる、
請求項５から請求項７のいずれか１項に記載の音声処理システム。
前記調整処理部は、前記時間差に応じた時間差情報を表示部に表示させ、前記表示部においてユーザーの操作により入力された入力情報に基づいて前記遅延量を設定する、
請求項４又は請求項８に記載の音声処理システム。
前記第１マイクスピーカー装置は、ネットワークに有線接続される非ウェアラブル型の機器であり、
前記第２マイクスピーカー装置は、ネットワークに無線接続されるウェアラブル型の機器である、
請求項１から請求項９のいずれか１項に記載の音声処理システム。
前記特定音声は、人間の可聴域外の周波数帯域の音声である、
請求項１から請求項１０のいずれか１項に記載の音声処理システム。
前記第２マイクスピーカー装置から受信する前記発話音声の音声データの到達時間を監視し、当該到達時間に基づいて前記第２マイクスピーカー装置の通信状態をユーザーに通知する、
請求項１から請求項１１のいずれか１項に記載の音声処理システム。
前記調整処理部は、前記第１マイクスピーカー装置に入力される、前記第２マイクスピーカー装置が集音した発話音声の音声データの音圧が変化した場合に、前記発話音声の音声データの送信タイミング又は再生タイミングを調整する、
請求項１から請求項１２のいずれか１項に記載の音声処理システム。
前記特定音声の音声データを出力する出力処理部をさらに備え、
前記出力処理部は、一定の間隔で前記特定音声を出力し、
前記調整処理部は、前記一定の間隔で前記発話音声の音声データの送信タイミング又は再生タイミングを調整する、
請求項１から請求項１３のいずれか１項に記載の音声処理システム。
第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理方法であって、
一又は複数のプロセッサーが、
特定音声が再生された場合に、前記第１マイクスピーカー装置が集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置が集音した前記特定音声の第２音声データとを受信する受信ステップと、
前記受信ステップにおいて前記第１音声データを受信した時点から前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの送信タイミングを調整する調整ステップと、
を実行する音声処理方法。
第１マイクスピーカー装置と、音声データの到達時間が前記第１マイクスピーカー装置よりも遅い第２マイクスピーカー装置とを含み、ユーザーの発話音声を取得して送受信する音声処理方法であって、
一又は複数のプロセッサーが、
前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のそれぞれのスピーカーから特定音声を再生させる出力ステップと、
前記第１マイクスピーカー装置のスピーカーから再生され、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置のいずれか一方のマイクスピーカー装置のマイクが集音した前記特定音声の第１音声データと、前記第２マイクスピーカー装置のスピーカーから再生され、前記一方のマイクスピーカー装置のマイクが集音した前記特定音声の第２音声データとを受信する受信ステップと、
前記受信ステップにおいて前記第１音声データを受信した時点から前記受信ステップにおいて前記第２音声データを受信した時点までの時間差に基づいて、前記第１マイクスピーカー装置及び前記第２マイクスピーカー装置の少なくともいずれかにおける前記発話音声の音声データの再生タイミングを調整する調整ステップと、
を実行する音声処理方法。