JP7281788B2

JP7281788B2 - スピーカシステム、音処理装置、音処理方法及びプログラム

Info

Publication number: JP7281788B2
Application number: JP2021530474A
Authority: JP
Inventors: ウデーニサンガッカーラ; 拓斗滝澤; 英二斉藤; 幸治脇口; 実梅迫
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2019-07-08
Filing date: 2019-08-06
Publication date: 2023-05-26
Anticipated expiration: 2039-08-06
Also published as: US20220068251A1; WO2021005806A1; JPWO2021005806A1; CN113228706A; US11682375B2; CN113228706B; EP3998781A1; EP3998781A4

Description

本開示は、ウェアラブルスピーカを備えるスピーカシステム、ウェアラブルスピーカで扱われる音を処理する音処理装置、音処理方法及びプログラムに関する。

オーバーヘッド型のヘッドホンによって音楽等を聞く場合、頭部に圧迫感が生じ、頭部への負担が大きい。また、頭内定位が発生し、ユーザに違和感を与えることがある。そこで、ウェアラブルスピーカ（ネックスピーカ）が提案されている（例えば、特許文献１参照）。これにより、頭部への負担が軽減され、また、ウェアラブルスピーカによる頭外定位によってユーザは臨場感を得ることができる。例えば、オンラインゲーム等では、長時間のゲームプレイが想定されるため、ゲーム音や通信相手のチャット音声を聞くためにウェアラブルスピーカを適用することは効果的である。

国際公開第２０１８／１１０１６１号

例えば、オンラインゲーム等では、ゲーム音や通信相手のチャット音声を聞くためにウェアラブルスピーカが用いられると同時に、ウェアラブルスピーカが取り付けられた話者の音声を通信相手に伝えるために、話者の音声を収音するマイクも用いられることが多い。この場合、ウェアラブルスピーカとマイクとの位置が近く、ウェアラブルスピーカから出力された音もマイクが収音するため、話者の音声とウェアラブルスピーカから出力された音とが混ざって通信相手に伝わり、話者の音声が聞き取りづらい場合がある。例えば、話者が発話している間は、ウェアラブルスピーカからの音を小さくする（例えばミュートする）ことが考えられるが、話者が発話するたびに音が小さくなると話者に不快感や違和感を与えることになる。

また、オンラインゲーム等に限らず、ウェアラブルスピーカを用いて音楽等を聴いている際に、上記マイクとスマートフォン等とを用いて通話をするときには（例えば電話がかかってきたときには）、ウェアラブルスピーカから出力される音楽がマイクに収音されないように、やはり、ウェアラブルスピーカからの音を小さくすることが考えられる。

このため、ウェアラブルスピーカからの音を小さくせずに、話者の音声を抽出することが望まれる。

そこで、本開示は、ウェアラブルスピーカが取り付けられた話者の音声を効果的に抽出できるスピーカシステム等を提供する。

本開示におけるスピーカシステムは、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカと、前記話者の音声を収音するためのマイクと、前記ウェアラブルスピーカから出力される音及び前記マイクで収音される音を処理する音処理装置と、を備え、前記ウェアラブルスピーカは、少なくとも２つのスピーカユニットを備え、前記マイクは、少なくとも１つのマイクユニットを備え、前記音処理装置は、第１インタフェースを介して、前記第１音を示す第１信号を取得し、前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、前記第１信号及び前記第２信号を前記少なくとも２つのスピーカユニットに出力し、前記少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。

本開示における音処理装置は、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理装置であって、前記音処理装置は、第１インタフェースを介して、前記第１音を示す第１信号を取得し、前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、前記第１信号及び前記第２信号を前記ウェアラブルスピーカが備える少なくとも２つのスピーカユニットに出力し、前記マイクが備える少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。

本開示における音処理方法は、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理方法であって、前記音処理方法では、第１インタフェースを介して、前記第１音を示す第１信号を取得し、前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、前記第１信号及び前記第２信号を前記ウェアラブルスピーカが備える少なくとも２つのスピーカユニットに出力し、前記マイクが備える少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。

本開示におけるプログラムは、上記の音処理方法をコンピュータに実行させるためのプログラムである。

本開示におけるスピーカシステム等によれば、ウェアラブルスピーカが取り付けられた話者の音声を効果的に抽出できる。

図１は、実施の形態に係るスピーカシステムの適用例を示す図である。図２は、実施の形態に係るウェアラブルスピーカの構成の一例を示す図である。図３は、実施の形態に係る音処理装置の構成の第一例を示す図である。図４は、実施の形態に係る音処理装置の構成の第二例を示す図である。図５は、実施の形態に係る音処理装置の構成の第三例を示す図である。図６は、実施の形態に係る音処理装置の動作の一例を示す図である。図７は、実施の形態に係るスピーカシステムの他の適用例を示す図である。図８は、実施の形態の変形例に係るウェアラブルスピーカの構成の一例を示す図である。図９は、実施の形態の変形例に係る音処理装置の構成の一例を示す図である。

以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

なお、発明者は、当業者が本開示を十分に理解するために添付図面及び以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

（実施の形態）
以下、図１から図８を用いて実施の形態を説明する。

［スピーカシステムの適用例］
まず、実施の形態に係るスピーカシステムの適用例について図１を用いて説明する。

図１は、実施の形態に係るスピーカシステム１の適用例を示す図である。

例えば、スピーカシステム１は、話者１００と通信相手２００とが音声チャットをしながら、話者１００及び通信相手２００の音声とは異なる音も話者１００及び通信相手２００に対して出力されるようなシステム（サービス）に適用できる。例えば、スピーカシステム１は、オンラインゲーム等に適用できる。以下では、話者１００がスピーカシステム１を用いる例について説明する。なお、話者１００の通信相手２００は、１人に限らず複数人であってもよい。

スピーカシステム１は、音処理装置１０と、ウェアラブルスピーカ２０と、マイク２３（後述する図２参照）と、を備える。なお、本実施の形態では、ウェアラブルスピーカ２０とマイク２３とは一体に設けられる。

音処理装置１０は、ウェアラブルスピーカ２０及びマイク２３で扱われる音を処理するコンピュータである。音処理装置１０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）３０から話者１００の通信相手２００の音声である第１音を取得し、第１音を処理してウェアラブルスピーカ２０に出力する。また、音処理装置１０は、ＰＣ３０から第１音とは異なる第２音（例えばゲーム音等）を取得し、第２音を処理してウェアラブルスピーカ２０に出力する。また、音処理装置１０は、マイク２３で収音された音を取得し、当該音を処理して、例えばＰＣ３０を介して通信相手２００に向けて出力する。

ウェアラブルスピーカ２０は、使用時には話者１００に取り付けられるスピーカ（例えばネックスピーカ）である。ウェアラブルスピーカ２０は、話者１００の通信相手２００の音声である第１音と第１音とは異なる第２音とを出力可能となっている。ウェアラブルスピーカ２０は、音処理装置１０から第１音及び第２音を出力するための信号を取得する。また、ウェアラブルスピーカ２０は、話者１００の音声を収音するためのマイク２３を備える。マイク２３は、収音した話者１００の音声を含む収音信号を音処理装置１０に出力する。

例えば、ウェアラブルスピーカ２０と音処理装置１０とは有線接続される。図示しないが、音処理装置１０は、ＡＣアダプタ又はＵＳＢ規格に対応したインタフェース経由で電力が供給されてもよく、ウェアラブルスピーカ２０は、音処理装置１０から有線によって電力が供給されてもよい。これにより、ウェアラブルスピーカ２０に電池を搭載したり、電源回路等を設けたりしなくてもよいため、ウェアラブルスピーカ２０を小型、軽量化できる。また、有線接続は、無線接続と比べて通信遅延を抑制できる。なお、ウェアラブルスピーカ２０と音処理装置１０とは無線接続されてもよい。

ＰＣ３０は、例えば、汎用的なコンピュータであり、ゲームアプリ及びチャットアプリ等がインストールされている。ＰＣ３０は、様々なインタフェースを備えている。例えば、ＰＣ３０は、ＨＤＭＩ（Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）（登録商標）規格に対応したインタフェースを備える。また、例えば、ＰＣ３０は、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を備える。また、ＰＣ３０は、ＤｉｓｐｌａｙＰｏｒｔ、ＤＶＩ（ＤｉｇｉｔａｌＶｉｓｕａｌＩｎｔｅｒｆａｃｅ）又はＶＧＡ端子等を備えていてもよい。ＰＣ３０は、ＨＤＭＩ規格に対応したインタフェース、及び、ＵＳＢ規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を介して音処理装置１０と接続される。なお、ＰＣ３０にインストールされたチャットアプリには、取得されたチャット音声信号（通信相手２００の音声信号）の出力先を選択できる機能を有していてもよい。つまり、例えば、通信相手２００の音声信号の出力先として、ＨＤＭＩ規格に対応したインタフェース、ＵＳＢ規格に対応したインタフェース、光出力インタフェース又はアナログ音声出力端子から選択できてもよい。なお、ＰＣ３０は、ＤｉｓｐｌａｙＰｏｒｔ、ＤＶＩ又はＶＧＡ端子等を介してモニタ４０と接続されてもよい。

また、ＰＣ３０は、インターネット等のネットワーク３００を介して、他のコンピュータと通信可能となっている。これにより、話者１００は、通信相手２００と音声チャットを行うことができ、また、通信相手２００とオンラインゲームを行うことができる。

モニタ４０は、例えば、話者１００がＰＣ３０を用いてゲームを行う際にゲーム映像が表示されるモニタである。モニタ４０は、例えば、音処理装置１０を介してＰＣ３０からゲーム映像を取得し、表示する。なお、モニタ４０は、直接ＰＣ３０からゲーム映像を取得してもよい。

ヘッドセット５０は、スピーカとマイクが一体となって形成されたものであり、通信相手２００に取り付けられる。ヘッドセット５０は、話者１００の音声及びゲーム音等を出力する。ヘッドセット５０は、話者１００の音声及びゲーム音等を示す信号をＰＣ６０から取得する。また、ヘッドセット５０は、通信相手２００の音声を収音する。ヘッドセット５０は、収音した通信相手２００の音声を示す信号をＰＣ６０に出力する。

ＰＣ６０は、例えば、汎用的なコンピュータであり、ゲームアプリ及びチャットアプリ等がインストールされており、基本的な構成及び機能についてはＰＣ３０と同じであるため説明は省略する。ＰＣ６０は、ＨＤＭＩ規格に対応したインタフェース、ＵＳＢ規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を介してヘッドセット５０と接続される。また、ＰＣ６０は、ＨＤＭＩ規格に対応したインタフェース、ＤｉｓｐｌａｙＰｏｒｔ、ＤＶＩ又はＶＧＡ端子等を介してモニタ７０と接続される。

モニタ７０は、例えば、通信相手２００がＰＣ６０を用いてゲームを行う際にゲーム映像が表示されるモニタである。モニタ７０は、例えば、ＰＣ６０からゲーム映像を取得し、表示する。

［ウェアラブルスピーカの構成］
次に、ウェアラブルスピーカ２０の構成について、図２を用いて説明する。

図２は、実施の形態に係るウェアラブルスピーカ２０の構成の一例を示す図である。

ウェアラブルスピーカ２０は、人に取り付けられて使用されるスピーカである。ウェアラブルスピーカ２０は、連結部２５を備え、連結部２５が人の首に掛けられることで、人の首に取り付けられるネックスピーカである。連結部２５は、例えば、フレキシブルな材料から構成される。また、連結部２５には、後述するスピーカユニット、マイクユニット及びスイッチ等に接続された信号線が通される。本実施の形態では、ウェアラブルスピーカ２０は、話者１００に取り付けられる。

ウェアラブルスピーカ２０は、少なくとも２つのスピーカユニットを備える。当該少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の側方又は後方に位置するスピーカユニットが含まれる。また、当該少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の前方に位置するスピーカユニットが含まれる。例えば、少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の側方又は後方に位置するスピーカユニットが２つ以上含まれ、話者１００の前方に位置するスピーカユニットが２つ以上含まれる。

本実施の形態では、ウェアラブルスピーカ２０は、少なくとも２つのスピーカユニットとして、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の前方に位置するスピーカユニット２１ａ及び２１ｂ、並びに、話者１００の後方に位置するスピーカユニット２２ａ及び２２を備える。このように、本実施の形態では、スピーカシステム１は、４つのスピーカユニットを備えるマルチチャネル（４チャネル）対応のシステムである。スピーカユニット２１ａは、話者１００の前方右側に位置するフロントＲスピーカであり、スピーカユニット２１ｂは、話者１００の前方左側に位置するフロントＬスピーカであり、スピーカユニット２２ａは、話者１００の後方右側に位置するリアＲスピーカ（サラウンドＲスピーカ）であり、スピーカユニット２２ｂは、話者１００の後方左側に位置するリアＬスピーカ（サラウンドＬスピーカ）である。スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂは、連結部２５上に配置される。

なお、スピーカシステム１は、ウェアラブルスピーカ２０とは別体に設けられるスピーカを備えていてもよい。例えば、ウェアラブルスピーカ２０とは別体に設けられるスピーカは、音処理装置１０と一体に設けられたスピーカであってもよい。この場合、ウェアラブルスピーカ２０は、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２１ｂを備えていなくてもよく、スピーカユニット２１ａ及び２１ｂから出力される音が、ウェアラブルスピーカ２０とは別体に設けられるスピーカから出力されてもよい。

また、ウェアラブルスピーカ２０は、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂに加え、ウェアラブルスピーカ２０とは別体に設けられるスピーカを備えていてもよい。例えば、スピーカユニット２１ａ及び２１ｂと、ウェアラブルスピーカ２０とは別体に設けられるスピーカとは、同じ音を同時に出力してもよいし、いずれか一方が選択されて、いずれか一方のみが音を出力してもよい。

また、ウェアラブルスピーカ２０が備えるスピーカユニットの数は、２つ以上であれば特に限定されない。また、ウェアラブルスピーカ２０とは別体に設けられるスピーカの数は、特に限定されない。

また、話者１００の音声を収音するためのマイク２３は、少なくとも１つのマイクユニットを備える。本実施の形態では、マイク２３は、少なくとも１つのマイクユニットとして、２つのマイクユニット２３ａ及び２３ｂを備える。また、本実施の形態では、ウェアラブルスピーカ２０とマイク２３とは一体に設けられ、マイクユニット２３ａ及び２３ｂは、連結部２５上に配置される。マイクユニット２３ａ及び２３ｂは、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の前方（話者１００の口の周辺）に位置する。例えば、マイクユニット２３ａ及び２３ｂは、ＭＥＭＳ（ＭｉｃｒｏＥｌｅｃｔｒｏＭｅｃｈａｎｉｃａｌＳｙｓｔｅｍｓ）マイクによって実現される。

また、ウェアラブルスピーカ２０は、スイッチ２４を備える。話者１００は、スイッチ２４を操作することで、各スピーカユニットから出力される音の音量を調整することができる。

ウェアラブルスピーカ２０は、連結部２５を話者１００の首に掛けて使用されるため、オーバーヘッド型のヘッドホンと異なり、話者１００の耳及び頭へ圧迫感を与えにくい。また、ウェアラブルスピーカ２０は、オーバーヘッド型のヘッドホンと異なり、長時間使用しても耳及び頭に汗をかきにくい。また、ウェアラブルスピーカ２０は、汗によって汚れにくいため、手入れは楽になる。また、ウェアラブルスピーカ２０は、オーバーヘッド型のヘッドホンと異なり、話者１００の髪形を乱しにくい。

また、ウェアラブルスピーカ２０は、話者１００の周囲にスピーカユニットが配置されることになるため、話者１００に臨場感（例えば音に包まれる感覚）を与えることができる。例えば、サラウンドヘッドホンであっても頭内定位が発生するが、ウェアラブルスピーカ２０では、頭外定位を作り出すことができる。ウェアラブルスピーカ２０は、話者１００に取り付けられるため、話者１００が有線接続の範囲内又は無線接続の範囲内で移動しても、いわゆるスイートスポットも話者の移動に合わせて最適な位置に移動することになる。

また、ウェアラブルスピーカ２０を用いても、ヘッドホンのように耳が塞がれないため、話者１００は、周囲環境の音も聞くことができ、話者１００に安心感を与えることができる。

また、ウェアラブルスピーカ２０に、ウェアラブルスピーカ２０から出力される音に合わせて体へ振動を与えるような機能を持たせることで、話者１００の疲れを軽減したり、ウェアラブルスピーカ２０の重さを感じさせないようにしたりすることができる。

［音処理装置の構成］
次に、音処理装置１０の構成について、図３から図５を用いて説明する。

まずは、音処理装置１０の構成の第一例について、図３を用いて説明する。

図３は、実施の形態に係る音処理装置１０の構成の第一例を示す図である。なお、図３には、音処理装置１０の他にウェアラブルスピーカ２０及びＰＣ３０も示している。

音処理装置１０は、第１インタフェース（第１ＩＦ）１１ａ、第２インタフェース（第２ＩＦ）１１ｂ、復号部１２、第１合成部１３、第２合成部１４ａ、位相調整部１５、音声抽出部１６、第１ＡＭＰ（Ａｍｐｌｉｆｉｅｒ）１７ａ及び第２ＡＭＰ１７ｂを備える。

第１ＩＦ１１ａは、話者１００の通信相手２００の音声である第１音を示す第１信号を取得するためのインタフェースである。第１ＩＦ１１ａは、例えば、ＵＳＢ規格に対応したインタフェースであり、ＰＣ３０との間で信号の入出力が可能なインタフェースである。例えば、第１ＩＦ１１ａを介して第１信号が取得され、第１ＩＦ１１ａを介してマイク２３によって収音された話者１００の音声を示す収音信号がＰＣ３０へ出力される。なお、第１ＩＦ１１ａは、ＰＣ３０との間で信号の入出力が可能なインタフェースでなくてもよく、入力だけが可能なインタフェースであってもよい。また、第１ＩＦ１１ａで取り扱われる信号は、デジタル（差動ＰＷＭ（ＰｕｌｓｅＷｉｄｔｈＭｏｄｕｌａｔｉｏｎ））信号であってもよいし、アナログ信号であってもよい。例えば、第１ＩＦ１１ａは、ＰＣ３０が備える光出力インタフェースから第１信号として出力された光信号を取得する光入力インタフェースであってもよい。また、例えば、第１ＩＦ１１ａは、ＰＣ３０が備えるアナログ音声出力端子から第１信号として出力されたアナログ音声信号を取得するＡＵＸ端子であってもよい。第１ＩＦ１１ａが入力だけが可能なインタフェースである場合には、音処理装置１０は、収音信号を出力するための出力インタフェースをさらに備えていてもよい。

第２ＩＦ１１ｂは、第１ＩＦ１１ａとは異なるインタフェースであり、第１音とは異なる第２音を示す第２信号を取得するためのインタフェースである。第２音は、例えば、ゲーム音等である。オンラインゲーム等においては、話者１００が操作するゲーム内の対象に対して、ゲーム内の音（攻撃音、接近音等）がどの位置（方向）からの音であるかを話者１００がわかることは重要である。そこで、第２ＩＦ１１ｂにおいて取得される第２信号は、音の位置情報を含む信号となっており、例えば、音声形式がビットストリームの信号である。第２信号には、左右方向及び高さ方向の音の位置情報（座標情報）がメタデータの形式で含まれる。第２ＩＦ１１ｂは、このような位置情報も音声信号等と共に伝送が可能なインタフェース（言い換えると、このような位置情報が失われないように伝送が可能なインタフェース）であり、例えば、ＨＤＭＩ規格に対応したインタフェースである。ＨＤＭＩ規格に対応したインタフェースは、映像、音声及び制御信号を１つのインタフェースで伝送可能となっている。なお、第２ＩＦ１１ｂは、位置情報も音声信号等と共に伝送が可能なインタフェースであれば、ＨＤＭＩ規格に対応したインタフェースに限らない。

第２ＩＦ１１ｂは、例えば、音声信号だけなく、映像信号も取得してもよく、取得された映像信号は、モニタ４０に出力されてもよい。また、第２ＩＦ１１ｂは、映像信号を取得しなくてもよく、映像信号はＰＣ３０からＤｉｓｐｌａｙＰｏｒｔ、ＤＶＩ又はＶＧＡ端子等を介してモニタ４０に直接出力されてもよい。

復号部１２は、第２信号を復号する処理部である。また、復号部１２は、第２ＩＦ１１ｂで取得された信号が、位置情報を含むか否か（音声形式がビットストリームの信号であるか否か）を判定し、位置情報を含む場合には当該位置情報を解読し、解読した位置情報を用いてウェアラブルスピーカ２０が備える少なくとも２つのスピーカユニット（ここでは、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂ）のそれぞれへ第２信号を振り分けて出力する。このとき、復号部１２は、振り分けられたそれぞれの第２信号に対して疑似サラウンド効果を掛けて、後段へ出力する。図３に示されるフロントＬ／Ｒ信号は、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２１ｂに振り分けられる第２信号を示す。また、図３に示されるリアＬ／Ｒ信号は、リアＬ／Ｒスピーカであるスピーカユニット２２ａ及び２２ｂに振り分けられる第２信号を示す。また、復号部１２は、後述する第１合成部１３において、第１信号と第２信号とを合成するために、第２信号のサンプリング周波数を第１信号のサンプリング周波数に合わせる（例えば４８ｋＨｚとする）。なお、復号部１２は、フロントスピーカ及びリアスピーカからなるチャネル構成を含む様々なチャネル構成に対応可能となっている。例えば、ここでは、復号部１２は、４つのスピーカユニット（４つのチャネル）に信号を振り分けるが、４つに限らず、スピーカシステム１が備えるスピーカユニットの数に応じて、信号の振り分け等が可能となっている。

第１合成部１３は、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２１ｂに出力されるフロントＬ／Ｒ信号（第２信号）と、通信相手２００の音声信号（第１信号）とを合成する。これにより、スピーカユニット２１ａ及び２１ｂから、ゲーム音等である第２音と共に通信相手２００の音声である第１音を出力することができる。本実施の形態のようにマルチチャネルのスピーカシステム１では、話者１００は、話者１００の前方のスピーカユニット２１ａ及び２１ｂから通信相手２００の音声を自然な形で聞き取りやすくなる。

第２合成部１４ａは、第１合成部１３において合成されたフロントＬ／Ｒ信号及び通信相手２００の音声信号と、リアＬ／Ｒスピーカであるスピーカユニット２２ａ及び２２ｂに出力されるリアＬ／Ｒ信号とを合成する。マイク２３によって収音された収音信号には、第２信号であるフロントＬ／Ｒ信号及びリアＬ／Ｒ信号、並びに、第１信号である通信相手２００の音声信号が含まれており、後述する相殺部１６ａにおいて、これらの信号を相殺するために、第２合成部１４ａでは、フロントＬ／Ｒ信号及び通信相手２００の音声信号の合成信号と、リアＬ／Ｒ信号との合成が行われる。

位相調整部１５は、信号の位相を調整する処理部である。例えば、第１合成部１３での処理によって、スピーカユニット２１ａ及び２１ｂから出力される信号と、スピーカユニット２２ａ及び２２ｂから出力される信号とに位相差が生じる。そこで、位相調整部１５は、当該位相差を抑制するように、各信号の位相を調整する。

第１ＡＭＰ１７ａは、合成されたフロントＬ／Ｒ信号及び通信相手２００の音声信号を、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２１ｂから出力可能なレベルまで増幅し、スピーカユニット２１ａ及び２１ｂに出力する。

第２ＡＭＰ１７ｂは、リアＬ／Ｒ信号をリアＬ／Ｒスピーカであるスピーカユニット２２ａ及び２２ｂから出力可能なレベルまで増幅し、スピーカユニット２２ａ及び２２ｂに出力する。

ウェアラブルスピーカ２０において、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂからフロントＬ／Ｒ信号、リアＬ／Ｒ信号及び通信相手２００の音声信号に基づいて、第１音及び第２音が出力される。マイク２３（マイクユニット２３ａ及び２３ｂ）は、人の口周辺に位置するように設けられるため、出力する音が人の耳に聞こえるような位置に設けられたスピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力された音はマイク２３にも収音され得る。このため、マイク２３は、話者１００の音声を収音する際に、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力された第１音及び第２音も収音してしまう場合がある。

音声抽出部１６は、マイク２３によって収音された収音信号を取得し、話者１００の音声の抽出処理を行う。音声抽出部１６は、当該抽出処理を行うための機能構成要素として、相殺部１６ａと雑音処理部１６ｂとを備える。

相殺部１６ａは、収音信号に対してスピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力された音の成分の相殺処理を行う。収音信号には、話者１００の音声の他、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力されたフロントＬ／Ｒ信号、リアＬ／Ｒ信号及び通信相手２００の音声信号が含まれ得るが、フロントＬ／Ｒ信号、リアＬ／Ｒ信号及び通信相手２００の音声信号は、元々音処理装置１０で扱っており、音処理装置１０から各スピーカユニットに対して出力された信号である。このため、相殺部１６ａは、第２合成部１４ａにおいて生成された、フロントＬ／Ｒ信号と、リアＬ／Ｒ信号と、通信相手２００の音声信号とを合成したリファレンス信号を用いて、収音信号に含まれる、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力された音の成分を相殺することができる。例えば、相殺部１６ａは、エコーキャンセリング処理を行い、具体的には、収音信号に対して、リファレンス信号の位相を反転した信号を加えることで、収音信号から話者１００の音声信号を抽出することができる。そして、相殺部１６ａは、抽出した話者１００の音声信号を第１ＩＦ１１ａに出力し、第１ＩＦ１１ａを介して、話者１００の音声信号がＰＣ３０へ出力される。

また、収音信号には、話者１００の音声の他、話者１００（マイク２３）の周辺のノイズが含まれ得る。そこで、雑音処理部１６ｂは、マイク２３の周辺のノイズを検出し、ノイズを消去又は低減する処理を行う。当該処理を実現する方法は特に限定されず、一般的になされているいかなる方法が用いられてもよい。

次に、音処理装置１０の構成の第二例について、図４を用いて説明する。

図４は、実施の形態に係る音処理装置１０の構成の第二例を示す図である。

図４に示されるように、第二例では、音処理装置１０は、第２合成部１４ａの代わりに第２合成部１４ｂを備えている点が第一例と異なる。その他の点は、第一例におけるものと同じであるため説明は省略する。第一例では、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂにおいて信号が増幅される前に、第２合成部１４ａは、フロントＬ／Ｒ信号と、リアＬ／Ｒ信号と、通信相手２００の音声信号とのリファレンス信号を生成する。マイク２３が収音する、スピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂから出力される信号は、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂにおける増幅処理が加えられた信号であるのに対して、第２合成部１４ａで生成されるリファレンス信号は、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂにおける増幅処理が加えられる前の信号である。つまり、第一例では、相殺部１６ａは、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂでの増幅前のリファレンス信号を用いて、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂでの増幅後の信号を相殺することになる。

これに対して、第二例では、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂにおいて信号が増幅された後に、第２合成部１４ｂは、フロントＬ／Ｒ信号と、リアＬ／Ｒ信号と、通信相手２００の音声信号とのリファレンス信号を生成する。したがって、相殺部１６ａは、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂでの増幅後のリファレンス信号を用いて、第１ＡＭＰ１７ａ及び第２ＡＭＰ１７ｂでの増幅後の信号を相殺することになり、より正確に相殺を行うことができる。

次に、音処理装置１０の構成の第三例について、図５を用いて説明する。

図５は、実施の形態に係る音処理装置１０の構成の第三例を示す図である。

図５に示されるように、第三例では、音処理装置１０は、第２合成部１４ｂを備えておらず、第２ＡＭＰ１７ｂからリアＬ／Ｒ信号が相殺部１６ａへ出力されていない点が第二例と異なる。その他の点は、第二例におけるものと同じであるため説明は省略する。

第三例では、第１ＡＭＰ１７ａから出力されたフロントＬ／Ｒ信号と通信相手２００の音声信号とが合成された信号がリファレンス信号として相殺部１６ａへ入力される。図２に示されるように、マイク２３と、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２１ｂとは近くに配置され、マイク２３と、リアＬ／Ｒスピーカであるスピーカユニット２２ａ及び２２ｂとは遠くに配置される場合が多い。この場合、マイク２３は、スピーカユニット２１ａ及び２１ｂから出力された音を収音する可能性が高く、スピーカユニット２２ａ及び２２ｂから出力された音を収音する可能性が低い。

このため、マイク２３に収音される可能性の低いスピーカユニットから出力される信号（例えばリアＬ／Ｒ信号）については、リファレンス信号に含められなくてもよい。つまり、第三例のように、リファレンス信号は、必ずしもスピーカシステム１が備える全てのスピーカユニットから出力される信号を含んでいなくてもよい。これにより、音処理装置１０の回路構成を簡略化することができる。

なお、第一例から第三例における、復号部１２、第１合成部１３、第２合成部１４ａ、１４ｂ、位相調整部１５及び相殺部１６ａは、例えば、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）等のプロセッサ（マイクロプロセッサ）により実現される。

［音処理装置の動作］
次に、音処理装置１０の動作について、図６を用いて説明する。

図６は、実施の形態に係る音処理装置１０の動作の一例を示す図である。

音処理装置１０は、第１ＩＦ１１ａを介して、話者１００の通信相手２００の音声である第１音を示す第１信号を取得する（ステップＳ１１）。

音処理装置１０は、第１ＩＦ１１ａとは異なる第２ＩＦ１１ｂを介して、第１音とは異なる第２音を示す第２信号を取得する（ステップＳ１２）。

音処理装置１０は、第１信号と第２信号とを合成してリファレンス信号を生成する（ステップＳ１３）。

図３に示される音処理装置１０の構成の第一例では、音処理装置１０（第１合成部１３）は、第１信号と、第２信号のうちのフロントＬ／Ｒ信号とを合成し、さらに、音処理装置１０（第２合成部１４ａ）は、当該合成した信号と、第２信号のうちのリアＬ／Ｒ信号とを合成したリファレンス信号を生成する。

図４に示される音処理装置１０の構成の第二例では、音処理装置１０（第１合成部１３）は、第１信号と、第２信号のうちのフロントＬ／Ｒ信号とを合成し、さらに、音処理装置１０（第２合成部１４ｂ）は、当該合成した信号を増幅した信号と、第２信号のうちのリアＬ／Ｒ信号を増幅した信号とを合成したリファレンス信号を生成する。

図５に示される音処理装置１０の構成の第三例では、音処理装置１０（第１合成部１３）は、第１信号と、第２信号のうちのフロントＬ／Ｒ信号とを合成した信号を増幅したリファレンス信号を生成する。

音処理装置１０は、第１信号及び第２信号をウェアラブルスピーカ２０が備える少なくとも２つのスピーカユニットに出力する（ステップＳ１４）。具体的には、音処理装置１０は、第２信号に含まれる位置情報を用いて少なくとも２つのスピーカユニットへ第２信号を振り分けて出力する。より具体的には、音処理装置１０は、第１信号と、フロントＬ／Ｒ信号（第２信号）とを合成した信号を第１ＡＭＰ１７ａを介して、スピーカユニット２１ａ及び２１ｂに出力し、リアＬ／Ｒ信号（第２信号）を第２ＡＭＰ１７ｂを介して、スピーカユニット２２ａ及び２２ｂに出力する。

音処理装置１０は、マイク２３が備える少なくとも１つのマイクユニット（ここではマイクユニット２３ａ及び２３ｂ）から話者１００の音声を含む収音信号を取得する（ステップＳ１５）。収音信号には、第１信号及び第２信号の成分が含まれ得る。

音処理装置１０は、収音信号に対してリファレンス信号を用いて少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行う（ステップＳ１６）。具体的には、音処理装置１０は、収音信号に含まれる、スピーカユニットから出力された第１信号及び第２信号の成分を、第１信号と第２信号とを合成したリファレンス信号を用いて相殺する。収音信号に含まれる、第１信号及び第２信号の成分は、元々は音処理装置１０から出力されたものであるため、音処理装置１０は、当該成分を第１信号と第２信号とのリファレンス信号を用いて容易に相殺することができる。

音処理装置１０は、相殺処理が行われた収音信号を出力する（ステップＳ１７）。つまり、音処理装置１０は、相殺処理が行われた収音信号として、マイク２３に収音された音から話者１００の音声を抽出した音声信号を出力する。音処理装置１０は、例えば、第１ＩＦ１１ａを介してＰＣ３０に、相殺処理が行われた収音信号を出力する。

なお、音処理装置１０は、ステップＳ１６において、収音信号に対して、リファレンス信号を用いた相殺処理に加えて、マイク２３の周辺のノイズを消去又は低減する処理を行ってもよい。そして、音処理装置１０は、ステップＳ１７において、相殺処理に加えて、ノイズを消去又は低減する処理が行われた収音信号を出力してもよい。

［スピーカシステムの他の適用例］
なお、話者１００と通信相手２００との音声チャットが、ＰＣ３０を介して行われる例について説明したが、スマートフォンを介して行われてもよい。これについて、図７を用いて説明する。

図７は、実施の形態に係るスピーカシステム１の他の適用例を示す図である。

図７に示されるように、音処理装置１０は、スマートフォン８０に接続されてもよく、話者１００と通信相手２００とは、音処理装置１０及びスマートフォン８０を介して音声チャットを行ってもよい。この場合、音処理装置１０が備える第１ＩＦ１１ａは、スマートフォン８０から通信相手２００の音声信号（第１信号）を取得し、スマートフォン８０へ話者１００の音声信号（相殺処理が行われた収音信号）を出力する。スマートフォン８０と音処理装置１０とは、４極アナログケーブル等により有線接続されてもよいし、Ｂｌｕｅｔｏｏｔｈ（登録商標）等により無線接続されてもよい。

［変形例に係るウェアラブルスピーカの構成］
上記実施の形態では、ウェアラブルスピーカ２０は、少なくとも２つのスピーカユニットとして、４つのスピーカユニット２１ａ、２１ｂ、２２ａ及び２２ｂを備えている例を説明したが、これに限らない。以下では、２つのスピーカユニットを備える、実施の形態の変形例に係るウェアラブルスピーカ２０を説明する。

図８は、実施の形態の変形例に係るウェアラブルスピーカ２０の構成の一例を示す図である。

図９は、実施の形態の変形例に係る音処理装置１０の構成の一例を示す図である。

実施の形態の変形例に係るウェアラブルスピーカ２０は、スピーカユニット２２ａ及び２２ｂを備えない点が、実施の形態に係るウェアラブルスピーカ２０と異なる。その他の点は、実施の形態におけるものと同じであるため説明は省略する。

図８に示されるように、実施の形態の変形例に係るウェアラブルスピーカ２０は、２つのスピーカユニットのみを備えていてもよい。つまり、ウェアラブルスピーカ２０は、２チャネルであってもよい。例えば、ウェアラブルスピーカ２０は、スピーカユニット２１ａ及び２１ｂ（フロントＬ／Ｒスピーカ）のみを備えていてもよい。この場合、上記第一例では、音処理装置１０は、第２合成部１４ａ、位相調整部１５及び第２ＡＭＰ１７ｂを備えていなくてもよく、第１合成部１３で合成された信号がリファレンス信号となる。また、上記第二例では、音処理装置１０は、第２合成部１４ｂ、位相調整部１５及び第２ＡＭＰ１７ｂを備えていなくてもよく、第２ＡＭＰ１７ｂから出力される信号がリファレンス信号となる。また、上記第三例では、音処理装置１０は、位相調整部１５及び第２ＡＭＰ１７ｂを備えていなくてもよい。上記第三例において、位相調整部１５及び第２ＡＭＰ１７ｂを備えていない場合の音処理装置１０の一例を、図９に示している。

なお、実施の形態の変形例に係るウェアラブルスピーカ２０は、スピーカユニット２１ａ及び２１ｂの代わりに、スピーカユニット２２ａ及び２２ｂ（リアＬ／Ｒスピーカ）のみを備えていてもよい。

［効果等］
以上説明したように、スピーカシステム１は、話者１００に取り付けられるウェアラブルスピーカ２０であって、話者１００の通信相手２００の音声である第１音と第１音とは異なる第２音とを出力可能なウェアラブルスピーカ２０と、話者１００の音声を収音するためのマイク２３と、ウェアラブルスピーカ２０から出力される音及びマイク２３で収音される音を処理する音処理装置１０と、を備える。ウェアラブルスピーカ２０は、少なくとも２つのスピーカユニットを備え、マイク２３は、少なくとも１つのマイクユニットを備える。音処理装置１０は、第１ＩＦ１１ａを介して、第１音を示す第１信号を取得し、第１ＩＦ１１ａとは異なる第２ＩＦ１１ｂを介して、第２音を示す第２信号を取得し、第１信号と第２信号とを合成してリファレンス信号を生成し、第１信号及び第２信号を少なくとも２つのスピーカユニットに出力し、少なくとも１つのマイクユニットから話者１００の音声を含む収音信号を取得し、収音信号に対してリファレンス信号を用いて少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、当該相殺処理が行われた収音信号を出力する。

通信相手２００の音声である第１音を示す第１信号と、第１音とは異なる第２音（例えばゲーム音等）を示す第２信号とに基づいた音がウェアラブルスピーカ２０から出力され、当該音が話者１００の音声とともにマイク２３に収音される。マイク２３に収音された音の成分うち、ウェアラブルスピーカ２０から出力された音の成分は、音処理装置１０において生成された第１信号と第２信号とが合成されたリファレンス信号と同じ成分を有するため、音処理装置１０は、リファレンス信号を用いてマイク２３に収音された話者１００の音声以外のウェアラブルスピーカ２０から出力された音の相殺処理を行うことができる。これにより、ウェアラブルスピーカ２０が取り付けられた話者１００の音声を効果的に抽出できる。ウェアラブルスピーカ２０から出力された音が相殺されるため、話者１００は、ウェアラブルスピーカ２０の音量を落とすことなく、マイク２３を通じて通信相手２００と快適に通話できる（例えば、文字チャットアプリによる会話を行わなくてもよい）。また、第１信号と第２信号とは、それぞれ個別に取得されるため、第２信号に問題が発生しても、第１信号による通話を問題なく行うことができる。

また、第２信号は、位置情報を含む信号であり、音処理装置１０は、位置情報を用いて少なくとも２つのスピーカユニットのそれぞれへ第２信号を振り分けて出力するとしてもよい。例えば、第２信号は、音声形式がビットストリームの信号であるとしてもよい。また、例えば、第２インタフェースは、ＨＤＭＩ規格に対応したインタフェースであるとしてもよい。

第２信号に含まれる位置情報は、サラウンド音声を出力するために必要な情報であるが、例えば、ＰＣ３０等の汎用的なコンピュータで第１信号と第２信号との合成を行うと、第２信号に含まれる位置情報が失われてしまい、ウェアラブルスピーカ２０からサラウンド音声を出力するのが難しくなる。一方で、音処理装置１０において、第１ＩＦ１１ａから第１信号を、第２ＩＦ１１ｂから位置情報を含む第２信号を、それぞれ個別に取得し、第２信号に含まれる位置情報を取得する。これにより、位置情報が失われることなく、第１信号と第２信号との合成を行うことができる。したがって、ウェアラブルスピーカ２０からサラウンド音声を出力しつつ、ウェアラブルスピーカ２０が取り付けられた話者１００の音声を効果的に抽出できる。例えば、第２信号の音声形式がビットストリームの信号であることで、第２信号に位置情報を含めることができる。また、例えば、第２ＩＦ１１ｂがＨＤＭＩ規格に対応したインタフェースであることで、音処理装置１０は、位置情報を含ませたまま第２信号を取得することができる。

また、少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の側方又は後方に位置するスピーカユニットが含まれるとしてもよい。

これによれば、ウェアラブルスピーカ２０が話者１００に取り付けられたときに話者１００の側方又は後方にスピーカユニットが位置することで、話者１００の側方又は後方から音を出力でき、話者はさらに臨場感を得ることができる。ウェアラブルスピーカ２０は、話者１００に取り付けられるため、話者１００が移動しても、いわゆるスイートスポットも話者１００の移動に合わせて常に最適な位置に移動することになる。

また、少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の前方に位置するスピーカユニットが含まれるとしてもよい。

通常、人と会話する際には、前方に相手が居り前方から相手の声が聞こえるため、ウェアラブルスピーカ２０が話者１００に取り付けられたときに話者１００の前方にスピーカユニットが位置することで、通常の会話と同じように、話者１００の前方から通信相手２００の音声が聞こえるようにすることができる。

また、少なくとも２つのスピーカユニットには、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の側方又は後方に位置するスピーカユニットが２つ以上含まれ、話者１００の前方に位置するスピーカユニットが２つ以上含まれるとしてもよい。

これによれば、ウェアラブルスピーカ２０が話者１００に取り付けられたときに、話者１００の前方、及び、話者１００の側方又は後方にそれぞれ２つ以上のスピーカユニットが位置することで、話者１００の周囲から音を出力でき、話者１００はさらに臨場感を得ることができる。また、通信相手２００の音声を話者１００の前方から出力できる。

また、スピーカシステム１は、さらに、ウェアラブルスピーカ２０とは別体に設けられるスピーカを備えるとしてもよい。

このように、ウェアラブルスピーカ２０とは別体にスピーカ（例えば、定置型スピーカ等）が設けられていてもよい。

また、ウェアラブルスピーカ２０とマイク２３とは一体に設けられるとしてもよい。

このように、ウェアラブルスピーカ２０とマイク２３とは一体に設けられていてもよい。例えば、これらが別体に設けられる場合よりもコストを抑制できる。

また、ウェアラブルスピーカ２０と音処理装置１０とは有線接続されるとしてもよい。

例えば、オンラインゲーム等において、ウェアラブルスピーカ２０から出力されるゲーム音及びチャット音声が、ゲームの映像とずれて出力されると、話者１００に不快感や違和感を与えることになる。これに対して、ウェアラブルスピーカ２０と音処理装置１０とが有線接続されることで、ウェアラブルスピーカ２０と音処理装置１０とが無線接続される場合よりも、ウェアラブルスピーカ２０と音処理装置１０との通信遅延を抑制でき、話者１００に不快感や違和感を与えないようにすることができる。

また、音処理装置１０は、話者１００に取り付けられるウェアラブルスピーカ２０であって、話者１００の通信相手２００の音声である第１音と第１音とは異なる第２音とを出力可能なウェアラブルスピーカ２０から出力される音、及び、話者１００の音声を収音するためのマイク２３によって収音される音を処理する装置である。音処理装置１０は、第１ＩＦ１１ａを介して、第１音を示す第１信号を取得し、第１ＩＦ１１ａとは異なる第２ＩＦ１１ｂを介して、第２音を示す第２信号を取得し、第１信号と第２信号とを合成してリファレンス信号を生成し、第１信号及び第２信号をウェアラブルスピーカ２０が備える少なくとも２つのスピーカユニットに出力し、マイク２３が備える少なくとも１つのマイクユニットから話者１００の音声を含む収音信号を取得し、収音信号に対してリファレンス信号を用いて少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、相殺処理が行われた収音信号を出力する。

これによれば、ウェアラブルスピーカ２０が取り付けられた話者１００の音声を効果的に抽出できる音処理装置１０を提供できる。

（その他の実施の形態）
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略等を行った実施の形態にも適応可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

例えば、上記実施の形態では、音声抽出部１６は、雑音処理部１６ｂを備えると説明したが、備えていなくてもよい。すなわち、少なくとも２つのスピーカユニットから出力された音の成分の相殺処理が行わればよく、マイク２３の周辺のノイズを消去又は低減する処理は必ずしも行われなくてもよい。

また、例えば、上記実施の形態では、第２信号は、音の位置情報を含む信号であると説明したが、第２信号には、位置情報が含まれていなくてもよい。例えば、第２信号は、音声形式がビットストリームの信号でなくてもよい。この場合、第２信号には位置情報が含まれておらず、ＰＣ３０において第１信号と第２信号との合成が行われても、第２信号にそもそも位置情報が含まれていないため、問題とならない。このため、この場合には、ＰＣ３０において、第１信号と第２信号との合成が行われてもよい。この場合、音処理装置１０は、ＰＣ３０において合成された第１信号及び第２信号を第２ＩＦ１１ｂを介して取得する。音処理装置１０は、第２ＩＦ１１ｂで取得された信号が、位置情報を含むか否か（音声形式がビットストリームの信号であるか否か）を判定し、位置情報を含まない場合には、第１合成部１３における処理を行わない。

また、例えば、上記実施の形態では、フロントＬ／Ｒスピーカであるスピーカユニット２１ａ及び２２ｂに出力されるフロントＬ／Ｒ信号と、通信相手２００の音声信号とが合成されてリファレンス信号が生成される例について説明したが、リアＬ／Ｒスピーカであるスピーカユニット２２ａ及び２２ｂに出力されるリアＬ／Ｒ信号と、通信相手２００の音声信号とが合成されてリファレンス信号が生成されてもよい。

また、例えば、上記実施の形態では、ＰＣ３０と音処理装置１０とが別体に設けられる例について説明したが、ＰＣ３０が音処理装置１０の機能を実現可能な専用のＤＳＰ等を備えていれば、ＰＣ３０が音処理装置１０の機能を有していてもよい。

また、例えば、上記実施の形態では、ウェアラブルスピーカ２０と音処理装置１０とが別体に設けられる例について説明したが、ウェアラブルスピーカ２０と音処理装置１０とが一体に設けられてもよい。

また、例えば、上記実施の形態では、マイク２３は、ウェアラブルスピーカ２０と一体に設けられる例について説明したが、マイク２３とウェアラブルスピーカ２０とは別体に設けられてもよい。この場合、マイク２３は、話者１００の口付近に位置するように、話者１００に取り付けられる。

また、本開示は、スピーカシステム１又は音処理装置１０として実現できるだけでなく、音処理装置１０を構成する構成要素が行うステップ（処理）を含む音処理方法として実現できる。

具体的には、音処理方法は、話者１００に取り付けられるウェアラブルスピーカ２０であって、話者１００の通信相手の音声である第１音と第１音とは異なる第２音とを出力可能なウェアラブルスピーカ２０から出力される音、及び、話者１００の音声を収音するためのマイク２３によって収音される音を処理する方法である。図６に示されるように、音処理方法では、第１ＩＦ１１ａを介して、第１音を示す第１信号を取得し（ステップＳ１１）、第１ＩＦ１１ａとは異なる第２ＩＦ１１ｂを介して、第２音を示す第２信号を取得し（ステップＳ１２）、第１信号と第２信号とを合成してリファレンス信号を生成し（ステップＳ１３）、第１信号及び第２信号をウェアラブルスピーカ２０が備える少なくとも２つのスピーカユニットに出力し（ステップＳ１４）、マイク２３が備える少なくとも１つのマイクユニットから話者１００の音声を含む収音信号を取得し（ステップＳ１５）、収音信号に対してリファレンス信号を用いて少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い（ステップＳ１６）、相殺処理が行われた収音信号を出力する（ステップＳ１７）。

例えば、それらのステップは、コンピュータ（コンピュータシステム）によって実行されてもよい。そして、本開示は、それらの方法に含まれるステップを、コンピュータに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したＣＤ－ＲＯＭ等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。

例えば、本開示が、プログラム（ソフトウェア）で実現される場合には、コンピュータのＣＰＵ、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、ＣＰＵがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。

また、上記実施の形態の音処理装置１０に含まれる構成要素は、集積回路（ＩＣ：ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）であるＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現されてもよい。

また、集積回路はＬＳＩに限られず、専用回路又は汎用プロセッサで実現されてもよい。プログラム可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又は、ＬＳＩ内部の回路セルの接続及び設定が再構成可能なリコンフィギュラブル・プロセッサが、利用されてもよい。

さらに、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、音処理装置１０に含まれる構成要素の集積回路化が行われてもよい。

以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面及び詳細な説明を提供した。

したがって、添付図面及び詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲又はその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

本開示は、ウェアラブルスピーカを用いて音を出力しつつ、通信相手と通話するためのシステムに適用可能である。

１スピーカシステム
１０音処理装置
１１ａ第１ＩＦ
１１ｂ第２ＩＦ
１２復号部
１３第１合成部
１４ａ、１４ｂ第２合成部
１５位相調整部
１６音声抽出部
１６ａ相殺部
１６ｂ雑音処理部
１７ａ第１ＡＭＰ
１７ｂ第２ＡＭＰ
２０ウェアラブルスピーカ
２１ａ、２１ｂ、２２ａ、２２ｂスピーカユニット
２３マイク
２３ａ、２３ｂマイクユニット
２４スイッチ
２５連結部
３０ＰＣ
４０モニタ
５０ヘッドセット
６０ＰＣ
７０モニタ
８０スマートフォン
１００話者
２００通信相手
３００ネットワーク

Claims

話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカと、
前記話者の音声を収音するためのマイクと、
前記ウェアラブルスピーカから出力される音及び前記マイクで収音される音を処理する音処理装置と、を備え、
前記ウェアラブルスピーカは、少なくとも２つのスピーカユニットを備え、
前記マイクは、少なくとも１つのマイクユニットを備え、
前記音処理装置は、
第１インタフェースを介して、前記第１音を示す第１信号を取得し、
前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、
前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、
前記第１信号及び前記第２信号を前記少なくとも２つのスピーカユニットに出力し、
前記少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、
前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、
前記相殺処理が行われた収音信号を出力し、
前記少なくとも２つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
前記リファレンス信号は、前記少なくとも２つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第１信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第１信号を含まない、
スピーカシステム。
前記第２信号は、音の位置情報を含む信号であり、
前記音処理装置は、前記位置情報を用いて前記少なくとも２つのスピーカユニットのそれぞれへ前記第２信号を振り分けて出力する、
請求項１に記載のスピーカシステム。
前記第２信号は、音声形式がビットストリームの信号である、
請求項２に記載のスピーカシステム。
前記第２インタフェースは、ＨＤＭＩ（Ｈｉｇｈ－ＤｅｆｉｎｉｔｉｏｎＭｕｌｔｉｍｅｄｉａＩｎｔｅｒｆａｃｅ）（登録商標）規格に対応したインタフェースである、
請求項１～３のいずれか１項に記載のスピーカシステム。
前記少なくとも２つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニットが２つ以上含まれ、前記話者の前方に位置するスピーカユニットが２つ以上含まれる、
請求項１～４のいずれか１項に記載のスピーカシステム。
前記スピーカシステムは、さらに、前記ウェアラブルスピーカとは別体に設けられるスピーカを備える、
請求項１～５のいずれか１項に記載のスピーカシステム。
前記ウェアラブルスピーカと前記マイクとは一体に設けられる、
請求項１～６のいずれか１項に記載のスピーカシステム。
前記ウェアラブルスピーカと前記音処理装置とは有線接続される、
請求項１～７のいずれか１項に記載のスピーカシステム。
話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理装置であって、
前記音処理装置は、
第１インタフェースを介して、前記第１音を示す第１信号を取得し、
前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、
前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、
前記第１信号及び前記第２信号を前記ウェアラブルスピーカが備える少なくとも２つのスピーカユニットに出力し、
前記マイクが備える少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、
前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、
前記相殺処理が行われた収音信号を出力し、
前記少なくとも２つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
前記リファレンス信号は、前記少なくとも２つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第１信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第１信号を含まない、
音処理装置。
話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第１音と前記第１音とは異なる第２音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理方法であって、
前記音処理方法では、
第１インタフェースを介して、前記第１音を示す第１信号を取得し、
前記第１インタフェースとは異なる第２インタフェースを介して、前記第２音を示す第２信号を取得し、
前記第１信号と前記第２信号とを合成してリファレンス信号を生成し、
前記第１信号及び前記第２信号を前記ウェアラブルスピーカが備える少なくとも２つのスピーカユニットに出力し、
前記マイクが備える少なくとも１つのマイクユニットから前記話者の音声を含む収音信号を取得し、
前記収音信号に対して前記リファレンス信号を用いて前記少なくとも２つのスピーカユニットから出力された音の成分の相殺処理を行い、
前記相殺処理が行われた収音信号を出力し、
前記少なくとも２つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
前記リファレンス信号は、前記少なくとも２つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第１信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第１信号を含まない、
音処理方法。
請求項１０に記載の音処理方法をコンピュータに実行させるためのプログラム。