JP7281788B2 - スピーカシステム、音処理装置、音処理方法及びプログラム - Google Patents

スピーカシステム、音処理装置、音処理方法及びプログラム Download PDF

Info

Publication number
JP7281788B2
JP7281788B2 JP2021530474A JP2021530474A JP7281788B2 JP 7281788 B2 JP7281788 B2 JP 7281788B2 JP 2021530474 A JP2021530474 A JP 2021530474A JP 2021530474 A JP2021530474 A JP 2021530474A JP 7281788 B2 JP7281788 B2 JP 7281788B2
Authority
JP
Japan
Prior art keywords
speaker
signal
sound
wearable
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021530474A
Other languages
English (en)
Other versions
JPWO2021005806A1 (ja
Inventor
ウデーニ サンガッカーラ
拓斗 滝澤
英二 斉藤
幸治 脇口
実 梅迫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JPWO2021005806A1 publication Critical patent/JPWO2021005806A1/ja
Application granted granted Critical
Publication of JP7281788B2 publication Critical patent/JP7281788B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • H04R5/0335Earpiece support, e.g. headbands or neckrests
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/022Plurality of transducers corresponding to a plurality of sound channels in each earpiece of headphones or in a single enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本開示は、ウェアラブルスピーカを備えるスピーカシステム、ウェアラブルスピーカで扱われる音を処理する音処理装置、音処理方法及びプログラムに関する。
オーバーヘッド型のヘッドホンによって音楽等を聞く場合、頭部に圧迫感が生じ、頭部への負担が大きい。また、頭内定位が発生し、ユーザに違和感を与えることがある。そこで、ウェアラブルスピーカ(ネックスピーカ)が提案されている(例えば、特許文献1参照)。これにより、頭部への負担が軽減され、また、ウェアラブルスピーカによる頭外定位によってユーザは臨場感を得ることができる。例えば、オンラインゲーム等では、長時間のゲームプレイが想定されるため、ゲーム音や通信相手のチャット音声を聞くためにウェアラブルスピーカを適用することは効果的である。
国際公開第2018/110161号
例えば、オンラインゲーム等では、ゲーム音や通信相手のチャット音声を聞くためにウェアラブルスピーカが用いられると同時に、ウェアラブルスピーカが取り付けられた話者の音声を通信相手に伝えるために、話者の音声を収音するマイクも用いられることが多い。この場合、ウェアラブルスピーカとマイクとの位置が近く、ウェアラブルスピーカから出力された音もマイクが収音するため、話者の音声とウェアラブルスピーカから出力された音とが混ざって通信相手に伝わり、話者の音声が聞き取りづらい場合がある。例えば、話者が発話している間は、ウェアラブルスピーカからの音を小さくする(例えばミュートする)ことが考えられるが、話者が発話するたびに音が小さくなると話者に不快感や違和感を与えることになる。
また、オンラインゲーム等に限らず、ウェアラブルスピーカを用いて音楽等を聴いている際に、上記マイクとスマートフォン等とを用いて通話をするときには(例えば電話がかかってきたときには)、ウェアラブルスピーカから出力される音楽がマイクに収音されないように、やはり、ウェアラブルスピーカからの音を小さくすることが考えられる。
このため、ウェアラブルスピーカからの音を小さくせずに、話者の音声を抽出することが望まれる。
そこで、本開示は、ウェアラブルスピーカが取り付けられた話者の音声を効果的に抽出できるスピーカシステム等を提供する。
本開示におけるスピーカシステムは、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカと、前記話者の音声を収音するためのマイクと、前記ウェアラブルスピーカから出力される音及び前記マイクで収音される音を処理する音処理装置と、を備え、前記ウェアラブルスピーカは、少なくとも2つのスピーカユニットを備え、前記マイクは、少なくとも1つのマイクユニットを備え、前記音処理装置は、第1インタフェースを介して、前記第1音を示す第1信号を取得し、前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、前記第1信号及び前記第2信号を前記少なくとも2つのスピーカユニットに出力し、前記少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。
本開示における音処理装置は、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理装置であって、前記音処理装置は、第1インタフェースを介して、前記第1音を示す第1信号を取得し、前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、前記第1信号及び前記第2信号を前記ウェアラブルスピーカが備える少なくとも2つのスピーカユニットに出力し、前記マイクが備える少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。
本開示における音処理方法は、話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理方法であって、前記音処理方法では、第1インタフェースを介して、前記第1音を示す第1信号を取得し、前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、前記第1信号及び前記第2信号を前記ウェアラブルスピーカが備える少なくとも2つのスピーカユニットに出力し、前記マイクが備える少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、前記相殺処理が行われた収音信号を出力する。
本開示におけるプログラムは、上記の音処理方法をコンピュータに実行させるためのプログラムである。
本開示におけるスピーカシステム等によれば、ウェアラブルスピーカが取り付けられた話者の音声を効果的に抽出できる。
図1は、実施の形態に係るスピーカシステムの適用例を示す図である。 図2は、実施の形態に係るウェアラブルスピーカの構成の一例を示す図である。 図3は、実施の形態に係る音処理装置の構成の第一例を示す図である。 図4は、実施の形態に係る音処理装置の構成の第二例を示す図である。 図5は、実施の形態に係る音処理装置の構成の第三例を示す図である。 図6は、実施の形態に係る音処理装置の動作の一例を示す図である。 図7は、実施の形態に係るスピーカシステムの他の適用例を示す図である。 図8は、実施の形態の変形例に係るウェアラブルスピーカの構成の一例を示す図である。 図9は、実施の形態の変形例に係る音処理装置の構成の一例を示す図である。
以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
なお、発明者は、当業者が本開示を十分に理解するために添付図面及び以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。
(実施の形態)
以下、図1から図8を用いて実施の形態を説明する。
[スピーカシステムの適用例]
まず、実施の形態に係るスピーカシステムの適用例について図1を用いて説明する。
図1は、実施の形態に係るスピーカシステム1の適用例を示す図である。
例えば、スピーカシステム1は、話者100と通信相手200とが音声チャットをしながら、話者100及び通信相手200の音声とは異なる音も話者100及び通信相手200に対して出力されるようなシステム(サービス)に適用できる。例えば、スピーカシステム1は、オンラインゲーム等に適用できる。以下では、話者100がスピーカシステム1を用いる例について説明する。なお、話者100の通信相手200は、1人に限らず複数人であってもよい。
スピーカシステム1は、音処理装置10と、ウェアラブルスピーカ20と、マイク23(後述する図2参照)と、を備える。なお、本実施の形態では、ウェアラブルスピーカ20とマイク23とは一体に設けられる。
音処理装置10は、ウェアラブルスピーカ20及びマイク23で扱われる音を処理するコンピュータである。音処理装置10は、例えば、PC(Personal Computer)30から話者100の通信相手200の音声である第1音を取得し、第1音を処理してウェアラブルスピーカ20に出力する。また、音処理装置10は、PC30から第1音とは異なる第2音(例えばゲーム音等)を取得し、第2音を処理してウェアラブルスピーカ20に出力する。また、音処理装置10は、マイク23で収音された音を取得し、当該音を処理して、例えばPC30を介して通信相手200に向けて出力する。
ウェアラブルスピーカ20は、使用時には話者100に取り付けられるスピーカ(例えばネックスピーカ)である。ウェアラブルスピーカ20は、話者100の通信相手200の音声である第1音と第1音とは異なる第2音とを出力可能となっている。ウェアラブルスピーカ20は、音処理装置10から第1音及び第2音を出力するための信号を取得する。また、ウェアラブルスピーカ20は、話者100の音声を収音するためのマイク23を備える。マイク23は、収音した話者100の音声を含む収音信号を音処理装置10に出力する。
例えば、ウェアラブルスピーカ20と音処理装置10とは有線接続される。図示しないが、音処理装置10は、ACアダプタ又はUSB規格に対応したインタフェース経由で電力が供給されてもよく、ウェアラブルスピーカ20は、音処理装置10から有線によって電力が供給されてもよい。これにより、ウェアラブルスピーカ20に電池を搭載したり、電源回路等を設けたりしなくてもよいため、ウェアラブルスピーカ20を小型、軽量化できる。また、有線接続は、無線接続と比べて通信遅延を抑制できる。なお、ウェアラブルスピーカ20と音処理装置10とは無線接続されてもよい。
PC30は、例えば、汎用的なコンピュータであり、ゲームアプリ及びチャットアプリ等がインストールされている。PC30は、様々なインタフェースを備えている。例えば、PC30は、HDMI(High-Definition Multimedia Interface)(登録商標)規格に対応したインタフェースを備える。また、例えば、PC30は、USB(Universal Serial Bus)規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を備える。また、PC30は、DisplayPort、DVI(Digital Visual Interface)又はVGA端子等を備えていてもよい。PC30は、HDMI規格に対応したインタフェース、及び、USB規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を介して音処理装置10と接続される。なお、PC30にインストールされたチャットアプリには、取得されたチャット音声信号(通信相手200の音声信号)の出力先を選択できる機能を有していてもよい。つまり、例えば、通信相手200の音声信号の出力先として、HDMI規格に対応したインタフェース、USB規格に対応したインタフェース、光出力インタフェース又はアナログ音声出力端子から選択できてもよい。なお、PC30は、DisplayPort、DVI又はVGA端子等を介してモニタ40と接続されてもよい。
また、PC30は、インターネット等のネットワーク300を介して、他のコンピュータと通信可能となっている。これにより、話者100は、通信相手200と音声チャットを行うことができ、また、通信相手200とオンラインゲームを行うことができる。
モニタ40は、例えば、話者100がPC30を用いてゲームを行う際にゲーム映像が表示されるモニタである。モニタ40は、例えば、音処理装置10を介してPC30からゲーム映像を取得し、表示する。なお、モニタ40は、直接PC30からゲーム映像を取得してもよい。
ヘッドセット50は、スピーカとマイクが一体となって形成されたものであり、通信相手200に取り付けられる。ヘッドセット50は、話者100の音声及びゲーム音等を出力する。ヘッドセット50は、話者100の音声及びゲーム音等を示す信号をPC60から取得する。また、ヘッドセット50は、通信相手200の音声を収音する。ヘッドセット50は、収音した通信相手200の音声を示す信号をPC60に出力する。
PC60は、例えば、汎用的なコンピュータであり、ゲームアプリ及びチャットアプリ等がインストールされており、基本的な構成及び機能についてはPC30と同じであるため説明は省略する。PC60は、HDMI規格に対応したインタフェース、USB規格に対応したインタフェース、光出力インタフェース、アナログ音声出力端子又はマイク端子等を介してヘッドセット50と接続される。また、PC60は、HDMI規格に対応したインタフェース、DisplayPort、DVI又はVGA端子等を介してモニタ70と接続される。
モニタ70は、例えば、通信相手200がPC60を用いてゲームを行う際にゲーム映像が表示されるモニタである。モニタ70は、例えば、PC60からゲーム映像を取得し、表示する。
[ウェアラブルスピーカの構成]
次に、ウェアラブルスピーカ20の構成について、図2を用いて説明する。
図2は、実施の形態に係るウェアラブルスピーカ20の構成の一例を示す図である。
ウェアラブルスピーカ20は、人に取り付けられて使用されるスピーカである。ウェアラブルスピーカ20は、連結部25を備え、連結部25が人の首に掛けられることで、人の首に取り付けられるネックスピーカである。連結部25は、例えば、フレキシブルな材料から構成される。また、連結部25には、後述するスピーカユニット、マイクユニット及びスイッチ等に接続された信号線が通される。本実施の形態では、ウェアラブルスピーカ20は、話者100に取り付けられる。
ウェアラブルスピーカ20は、少なくとも2つのスピーカユニットを備える。当該少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の側方又は後方に位置するスピーカユニットが含まれる。また、当該少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の前方に位置するスピーカユニットが含まれる。例えば、少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の側方又は後方に位置するスピーカユニットが2つ以上含まれ、話者100の前方に位置するスピーカユニットが2つ以上含まれる。
本実施の形態では、ウェアラブルスピーカ20は、少なくとも2つのスピーカユニットとして、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の前方に位置するスピーカユニット21a及び21b、並びに、話者100の後方に位置するスピーカユニット22a及び22を備える。このように、本実施の形態では、スピーカシステム1は、4つのスピーカユニットを備えるマルチチャネル(4チャネル)対応のシステムである。スピーカユニット21aは、話者100の前方右側に位置するフロントRスピーカであり、スピーカユニット21bは、話者100の前方左側に位置するフロントLスピーカであり、スピーカユニット22aは、話者100の後方右側に位置するリアRスピーカ(サラウンドRスピーカ)であり、スピーカユニット22bは、話者100の後方左側に位置するリアLスピーカ(サラウンドLスピーカ)である。スピーカユニット21a、21b、22a及び22bは、連結部25上に配置される。
なお、スピーカシステム1は、ウェアラブルスピーカ20とは別体に設けられるスピーカを備えていてもよい。例えば、ウェアラブルスピーカ20とは別体に設けられるスピーカは、音処理装置10と一体に設けられたスピーカであってもよい。この場合、ウェアラブルスピーカ20は、フロントL/Rスピーカであるスピーカユニット21a及び21bを備えていなくてもよく、スピーカユニット21a及び21bから出力される音が、ウェアラブルスピーカ20とは別体に設けられるスピーカから出力されてもよい。
また、ウェアラブルスピーカ20は、スピーカユニット21a、21b、22a及び22bに加え、ウェアラブルスピーカ20とは別体に設けられるスピーカを備えていてもよい。例えば、スピーカユニット21a及び21bと、ウェアラブルスピーカ20とは別体に設けられるスピーカとは、同じ音を同時に出力してもよいし、いずれか一方が選択されて、いずれか一方のみが音を出力してもよい。
また、ウェアラブルスピーカ20が備えるスピーカユニットの数は、2つ以上であれば特に限定されない。また、ウェアラブルスピーカ20とは別体に設けられるスピーカの数は、特に限定されない。
また、話者100の音声を収音するためのマイク23は、少なくとも1つのマイクユニットを備える。本実施の形態では、マイク23は、少なくとも1つのマイクユニットとして、2つのマイクユニット23a及び23bを備える。また、本実施の形態では、ウェアラブルスピーカ20とマイク23とは一体に設けられ、マイクユニット23a及び23bは、連結部25上に配置される。マイクユニット23a及び23bは、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の前方(話者100の口の周辺)に位置する。例えば、マイクユニット23a及び23bは、MEMS(Micro Electro Mechanical Systems)マイクによって実現される。
また、ウェアラブルスピーカ20は、スイッチ24を備える。話者100は、スイッチ24を操作することで、各スピーカユニットから出力される音の音量を調整することができる。
ウェアラブルスピーカ20は、連結部25を話者100の首に掛けて使用されるため、オーバーヘッド型のヘッドホンと異なり、話者100の耳及び頭へ圧迫感を与えにくい。また、ウェアラブルスピーカ20は、オーバーヘッド型のヘッドホンと異なり、長時間使用しても耳及び頭に汗をかきにくい。また、ウェアラブルスピーカ20は、汗によって汚れにくいため、手入れは楽になる。また、ウェアラブルスピーカ20は、オーバーヘッド型のヘッドホンと異なり、話者100の髪形を乱しにくい。
また、ウェアラブルスピーカ20は、話者100の周囲にスピーカユニットが配置されることになるため、話者100に臨場感(例えば音に包まれる感覚)を与えることができる。例えば、サラウンドヘッドホンであっても頭内定位が発生するが、ウェアラブルスピーカ20では、頭外定位を作り出すことができる。ウェアラブルスピーカ20は、話者100に取り付けられるため、話者100が有線接続の範囲内又は無線接続の範囲内で移動しても、いわゆるスイートスポットも話者の移動に合わせて最適な位置に移動することになる。
また、ウェアラブルスピーカ20を用いても、ヘッドホンのように耳が塞がれないため、話者100は、周囲環境の音も聞くことができ、話者100に安心感を与えることができる。
また、ウェアラブルスピーカ20に、ウェアラブルスピーカ20から出力される音に合わせて体へ振動を与えるような機能を持たせることで、話者100の疲れを軽減したり、ウェアラブルスピーカ20の重さを感じさせないようにしたりすることができる。
[音処理装置の構成]
次に、音処理装置10の構成について、図3から図5を用いて説明する。
まずは、音処理装置10の構成の第一例について、図3を用いて説明する。
図3は、実施の形態に係る音処理装置10の構成の第一例を示す図である。なお、図3には、音処理装置10の他にウェアラブルスピーカ20及びPC30も示している。
音処理装置10は、第1インタフェース(第1IF)11a、第2インタフェース(第2IF)11b、復号部12、第1合成部13、第2合成部14a、位相調整部15、音声抽出部16、第1AMP(Amplifier)17a及び第2AMP17bを備える。
第1IF11aは、話者100の通信相手200の音声である第1音を示す第1信号を取得するためのインタフェースである。第1IF11aは、例えば、USB規格に対応したインタフェースであり、PC30との間で信号の入出力が可能なインタフェースである。例えば、第1IF11aを介して第1信号が取得され、第1IF11aを介してマイク23によって収音された話者100の音声を示す収音信号がPC30へ出力される。なお、第1IF11aは、PC30との間で信号の入出力が可能なインタフェースでなくてもよく、入力だけが可能なインタフェースであってもよい。また、第1IF11aで取り扱われる信号は、デジタル(差動PWM(Pulse Width Modulation))信号であってもよいし、アナログ信号であってもよい。例えば、第1IF11aは、PC30が備える光出力インタフェースから第1信号として出力された光信号を取得する光入力インタフェースであってもよい。また、例えば、第1IF11aは、PC30が備えるアナログ音声出力端子から第1信号として出力されたアナログ音声信号を取得するAUX端子であってもよい。第1IF11aが入力だけが可能なインタフェースである場合には、音処理装置10は、収音信号を出力するための出力インタフェースをさらに備えていてもよい。
第2IF11bは、第1IF11aとは異なるインタフェースであり、第1音とは異なる第2音を示す第2信号を取得するためのインタフェースである。第2音は、例えば、ゲーム音等である。オンラインゲーム等においては、話者100が操作するゲーム内の対象に対して、ゲーム内の音(攻撃音、接近音等)がどの位置(方向)からの音であるかを話者100がわかることは重要である。そこで、第2IF11bにおいて取得される第2信号は、音の位置情報を含む信号となっており、例えば、音声形式がビットストリームの信号である。第2信号には、左右方向及び高さ方向の音の位置情報(座標情報)がメタデータの形式で含まれる。第2IF11bは、このような位置情報も音声信号等と共に伝送が可能なインタフェース(言い換えると、このような位置情報が失われないように伝送が可能なインタフェース)であり、例えば、HDMI規格に対応したインタフェースである。HDMI規格に対応したインタフェースは、映像、音声及び制御信号を1つのインタフェースで伝送可能となっている。なお、第2IF11bは、位置情報も音声信号等と共に伝送が可能なインタフェースであれば、HDMI規格に対応したインタフェースに限らない。
第2IF11bは、例えば、音声信号だけなく、映像信号も取得してもよく、取得された映像信号は、モニタ40に出力されてもよい。また、第2IF11bは、映像信号を取得しなくてもよく、映像信号はPC30からDisplayPort、DVI又はVGA端子等を介してモニタ40に直接出力されてもよい。
復号部12は、第2信号を復号する処理部である。また、復号部12は、第2IF11bで取得された信号が、位置情報を含むか否か(音声形式がビットストリームの信号であるか否か)を判定し、位置情報を含む場合には当該位置情報を解読し、解読した位置情報を用いてウェアラブルスピーカ20が備える少なくとも2つのスピーカユニット(ここでは、スピーカユニット21a、21b、22a及び22b)のそれぞれへ第2信号を振り分けて出力する。このとき、復号部12は、振り分けられたそれぞれの第2信号に対して疑似サラウンド効果を掛けて、後段へ出力する。図3に示されるフロントL/R信号は、フロントL/Rスピーカであるスピーカユニット21a及び21bに振り分けられる第2信号を示す。また、図3に示されるリアL/R信号は、リアL/Rスピーカであるスピーカユニット22a及び22bに振り分けられる第2信号を示す。また、復号部12は、後述する第1合成部13において、第1信号と第2信号とを合成するために、第2信号のサンプリング周波数を第1信号のサンプリング周波数に合わせる(例えば48kHzとする)。なお、復号部12は、フロントスピーカ及びリアスピーカからなるチャネル構成を含む様々なチャネル構成に対応可能となっている。例えば、ここでは、復号部12は、4つのスピーカユニット(4つのチャネル)に信号を振り分けるが、4つに限らず、スピーカシステム1が備えるスピーカユニットの数に応じて、信号の振り分け等が可能となっている。
第1合成部13は、フロントL/Rスピーカであるスピーカユニット21a及び21bに出力されるフロントL/R信号(第2信号)と、通信相手200の音声信号(第1信号)とを合成する。これにより、スピーカユニット21a及び21bから、ゲーム音等である第2音と共に通信相手200の音声である第1音を出力することができる。本実施の形態のようにマルチチャネルのスピーカシステム1では、話者100は、話者100の前方のスピーカユニット21a及び21bから通信相手200の音声を自然な形で聞き取りやすくなる。
第2合成部14aは、第1合成部13において合成されたフロントL/R信号及び通信相手200の音声信号と、リアL/Rスピーカであるスピーカユニット22a及び22bに出力されるリアL/R信号とを合成する。マイク23によって収音された収音信号には、第2信号であるフロントL/R信号及びリアL/R信号、並びに、第1信号である通信相手200の音声信号が含まれており、後述する相殺部16aにおいて、これらの信号を相殺するために、第2合成部14aでは、フロントL/R信号及び通信相手200の音声信号の合成信号と、リアL/R信号との合成が行われる。
位相調整部15は、信号の位相を調整する処理部である。例えば、第1合成部13での処理によって、スピーカユニット21a及び21bから出力される信号と、スピーカユニット22a及び22bから出力される信号とに位相差が生じる。そこで、位相調整部15は、当該位相差を抑制するように、各信号の位相を調整する。
第1AMP17aは、合成されたフロントL/R信号及び通信相手200の音声信号を、フロントL/Rスピーカであるスピーカユニット21a及び21bから出力可能なレベルまで増幅し、スピーカユニット21a及び21bに出力する。
第2AMP17bは、リアL/R信号をリアL/Rスピーカであるスピーカユニット22a及び22bから出力可能なレベルまで増幅し、スピーカユニット22a及び22bに出力する。
ウェアラブルスピーカ20において、スピーカユニット21a、21b、22a及び22bからフロントL/R信号、リアL/R信号及び通信相手200の音声信号に基づいて、第1音及び第2音が出力される。マイク23(マイクユニット23a及び23b)は、人の口周辺に位置するように設けられるため、出力する音が人の耳に聞こえるような位置に設けられたスピーカユニット21a、21b、22a及び22bから出力された音はマイク23にも収音され得る。このため、マイク23は、話者100の音声を収音する際に、スピーカユニット21a、21b、22a及び22bから出力された第1音及び第2音も収音してしまう場合がある。
音声抽出部16は、マイク23によって収音された収音信号を取得し、話者100の音声の抽出処理を行う。音声抽出部16は、当該抽出処理を行うための機能構成要素として、相殺部16aと雑音処理部16bとを備える。
相殺部16aは、収音信号に対してスピーカユニット21a、21b、22a及び22bから出力された音の成分の相殺処理を行う。収音信号には、話者100の音声の他、スピーカユニット21a、21b、22a及び22bから出力されたフロントL/R信号、リアL/R信号及び通信相手200の音声信号が含まれ得るが、フロントL/R信号、リアL/R信号及び通信相手200の音声信号は、元々音処理装置10で扱っており、音処理装置10から各スピーカユニットに対して出力された信号である。このため、相殺部16aは、第2合成部14aにおいて生成された、フロントL/R信号と、リアL/R信号と、通信相手200の音声信号とを合成したリファレンス信号を用いて、収音信号に含まれる、スピーカユニット21a、21b、22a及び22bから出力された音の成分を相殺することができる。例えば、相殺部16aは、エコーキャンセリング処理を行い、具体的には、収音信号に対して、リファレンス信号の位相を反転した信号を加えることで、収音信号から話者100の音声信号を抽出することができる。そして、相殺部16aは、抽出した話者100の音声信号を第1IF11aに出力し、第1IF11aを介して、話者100の音声信号がPC30へ出力される。
また、収音信号には、話者100の音声の他、話者100(マイク23)の周辺のノイズが含まれ得る。そこで、雑音処理部16bは、マイク23の周辺のノイズを検出し、ノイズを消去又は低減する処理を行う。当該処理を実現する方法は特に限定されず、一般的になされているいかなる方法が用いられてもよい。
次に、音処理装置10の構成の第二例について、図4を用いて説明する。
図4は、実施の形態に係る音処理装置10の構成の第二例を示す図である。
図4に示されるように、第二例では、音処理装置10は、第2合成部14aの代わりに第2合成部14bを備えている点が第一例と異なる。その他の点は、第一例におけるものと同じであるため説明は省略する。第一例では、第1AMP17a及び第2AMP17bにおいて信号が増幅される前に、第2合成部14aは、フロントL/R信号と、リアL/R信号と、通信相手200の音声信号とのリファレンス信号を生成する。マイク23が収音する、スピーカユニット21a、21b、22a及び22bから出力される信号は、第1AMP17a及び第2AMP17bにおける増幅処理が加えられた信号であるのに対して、第2合成部14aで生成されるリファレンス信号は、第1AMP17a及び第2AMP17bにおける増幅処理が加えられる前の信号である。つまり、第一例では、相殺部16aは、第1AMP17a及び第2AMP17bでの増幅前のリファレンス信号を用いて、第1AMP17a及び第2AMP17bでの増幅後の信号を相殺することになる。
これに対して、第二例では、第1AMP17a及び第2AMP17bにおいて信号が増幅された後に、第2合成部14bは、フロントL/R信号と、リアL/R信号と、通信相手200の音声信号とのリファレンス信号を生成する。したがって、相殺部16aは、第1AMP17a及び第2AMP17bでの増幅後のリファレンス信号を用いて、第1AMP17a及び第2AMP17bでの増幅後の信号を相殺することになり、より正確に相殺を行うことができる。
次に、音処理装置10の構成の第三例について、図5を用いて説明する。
図5は、実施の形態に係る音処理装置10の構成の第三例を示す図である。
図5に示されるように、第三例では、音処理装置10は、第2合成部14bを備えておらず、第2AMP17bからリアL/R信号が相殺部16aへ出力されていない点が第二例と異なる。その他の点は、第二例におけるものと同じであるため説明は省略する。
第三例では、第1AMP17aから出力されたフロントL/R信号と通信相手200の音声信号とが合成された信号がリファレンス信号として相殺部16aへ入力される。図2に示されるように、マイク23と、フロントL/Rスピーカであるスピーカユニット21a及び21bとは近くに配置され、マイク23と、リアL/Rスピーカであるスピーカユニット22a及び22bとは遠くに配置される場合が多い。この場合、マイク23は、スピーカユニット21a及び21bから出力された音を収音する可能性が高く、スピーカユニット22a及び22bから出力された音を収音する可能性が低い。
このため、マイク23に収音される可能性の低いスピーカユニットから出力される信号(例えばリアL/R信号)については、リファレンス信号に含められなくてもよい。つまり、第三例のように、リファレンス信号は、必ずしもスピーカシステム1が備える全てのスピーカユニットから出力される信号を含んでいなくてもよい。これにより、音処理装置10の回路構成を簡略化することができる。
なお、第一例から第三例における、復号部12、第1合成部13、第2合成部14a、14b、位相調整部15及び相殺部16aは、例えば、DSP(Digital Signal Processor)等のプロセッサ(マイクロプロセッサ)により実現される。
[音処理装置の動作]
次に、音処理装置10の動作について、図6を用いて説明する。
図6は、実施の形態に係る音処理装置10の動作の一例を示す図である。
音処理装置10は、第1IF11aを介して、話者100の通信相手200の音声である第1音を示す第1信号を取得する(ステップS11)。
音処理装置10は、第1IF11aとは異なる第2IF11bを介して、第1音とは異なる第2音を示す第2信号を取得する(ステップS12)。
音処理装置10は、第1信号と第2信号とを合成してリファレンス信号を生成する(ステップS13)。
図3に示される音処理装置10の構成の第一例では、音処理装置10(第1合成部13)は、第1信号と、第2信号のうちのフロントL/R信号とを合成し、さらに、音処理装置10(第2合成部14a)は、当該合成した信号と、第2信号のうちのリアL/R信号とを合成したリファレンス信号を生成する。
図4に示される音処理装置10の構成の第二例では、音処理装置10(第1合成部13)は、第1信号と、第2信号のうちのフロントL/R信号とを合成し、さらに、音処理装置10(第2合成部14b)は、当該合成した信号を増幅した信号と、第2信号のうちのリアL/R信号を増幅した信号とを合成したリファレンス信号を生成する。
図5に示される音処理装置10の構成の第三例では、音処理装置10(第1合成部13)は、第1信号と、第2信号のうちのフロントL/R信号とを合成した信号を増幅したリファレンス信号を生成する。
音処理装置10は、第1信号及び第2信号をウェアラブルスピーカ20が備える少なくとも2つのスピーカユニットに出力する(ステップS14)。具体的には、音処理装置10は、第2信号に含まれる位置情報を用いて少なくとも2つのスピーカユニットへ第2信号を振り分けて出力する。より具体的には、音処理装置10は、第1信号と、フロントL/R信号(第2信号)とを合成した信号を第1AMP17aを介して、スピーカユニット21a及び21bに出力し、リアL/R信号(第2信号)を第2AMP17bを介して、スピーカユニット22a及び22bに出力する。
音処理装置10は、マイク23が備える少なくとも1つのマイクユニット(ここではマイクユニット23a及び23b)から話者100の音声を含む収音信号を取得する(ステップS15)。収音信号には、第1信号及び第2信号の成分が含まれ得る。
音処理装置10は、収音信号に対してリファレンス信号を用いて少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行う(ステップS16)。具体的には、音処理装置10は、収音信号に含まれる、スピーカユニットから出力された第1信号及び第2信号の成分を、第1信号と第2信号とを合成したリファレンス信号を用いて相殺する。収音信号に含まれる、第1信号及び第2信号の成分は、元々は音処理装置10から出力されたものであるため、音処理装置10は、当該成分を第1信号と第2信号とのリファレンス信号を用いて容易に相殺することができる。
音処理装置10は、相殺処理が行われた収音信号を出力する(ステップS17)。つまり、音処理装置10は、相殺処理が行われた収音信号として、マイク23に収音された音から話者100の音声を抽出した音声信号を出力する。音処理装置10は、例えば、第1IF11aを介してPC30に、相殺処理が行われた収音信号を出力する。
なお、音処理装置10は、ステップS16において、収音信号に対して、リファレンス信号を用いた相殺処理に加えて、マイク23の周辺のノイズを消去又は低減する処理を行ってもよい。そして、音処理装置10は、ステップS17において、相殺処理に加えて、ノイズを消去又は低減する処理が行われた収音信号を出力してもよい。
[スピーカシステムの他の適用例]
なお、話者100と通信相手200との音声チャットが、PC30を介して行われる例について説明したが、スマートフォンを介して行われてもよい。これについて、図7を用いて説明する。
図7は、実施の形態に係るスピーカシステム1の他の適用例を示す図である。
図7に示されるように、音処理装置10は、スマートフォン80に接続されてもよく、話者100と通信相手200とは、音処理装置10及びスマートフォン80を介して音声チャットを行ってもよい。この場合、音処理装置10が備える第1IF11aは、スマートフォン80から通信相手200の音声信号(第1信号)を取得し、スマートフォン80へ話者100の音声信号(相殺処理が行われた収音信号)を出力する。スマートフォン80と音処理装置10とは、4極アナログケーブル等により有線接続されてもよいし、Bluetooth(登録商標)等により無線接続されてもよい。
[変形例に係るウェアラブルスピーカの構成]
上記実施の形態では、ウェアラブルスピーカ20は、少なくとも2つのスピーカユニットとして、4つのスピーカユニット21a、21b、22a及び22bを備えている例を説明したが、これに限らない。以下では、2つのスピーカユニットを備える、実施の形態の変形例に係るウェアラブルスピーカ20を説明する。
図8は、実施の形態の変形例に係るウェアラブルスピーカ20の構成の一例を示す図である。
図9は、実施の形態の変形例に係る音処理装置10の構成の一例を示す図である。
実施の形態の変形例に係るウェアラブルスピーカ20は、スピーカユニット22a及び22bを備えない点が、実施の形態に係るウェアラブルスピーカ20と異なる。その他の点は、実施の形態におけるものと同じであるため説明は省略する。
図8に示されるように、実施の形態の変形例に係るウェアラブルスピーカ20は、2つのスピーカユニットのみを備えていてもよい。つまり、ウェアラブルスピーカ20は、2チャネルであってもよい。例えば、ウェアラブルスピーカ20は、スピーカユニット21a及び21b(フロントL/Rスピーカ)のみを備えていてもよい。この場合、上記第一例では、音処理装置10は、第2合成部14a、位相調整部15及び第2AMP17bを備えていなくてもよく、第1合成部13で合成された信号がリファレンス信号となる。また、上記第二例では、音処理装置10は、第2合成部14b、位相調整部15及び第2AMP17bを備えていなくてもよく、第2AMP17bから出力される信号がリファレンス信号となる。また、上記第三例では、音処理装置10は、位相調整部15及び第2AMP17bを備えていなくてもよい。上記第三例において、位相調整部15及び第2AMP17bを備えていない場合の音処理装置10の一例を、図9に示している。
なお、実施の形態の変形例に係るウェアラブルスピーカ20は、スピーカユニット21a及び21bの代わりに、スピーカユニット22a及び22b(リアL/Rスピーカ)のみを備えていてもよい。
[効果等]
以上説明したように、スピーカシステム1は、話者100に取り付けられるウェアラブルスピーカ20であって、話者100の通信相手200の音声である第1音と第1音とは異なる第2音とを出力可能なウェアラブルスピーカ20と、話者100の音声を収音するためのマイク23と、ウェアラブルスピーカ20から出力される音及びマイク23で収音される音を処理する音処理装置10と、を備える。ウェアラブルスピーカ20は、少なくとも2つのスピーカユニットを備え、マイク23は、少なくとも1つのマイクユニットを備える。音処理装置10は、第1IF11aを介して、第1音を示す第1信号を取得し、第1IF11aとは異なる第2IF11bを介して、第2音を示す第2信号を取得し、第1信号と第2信号とを合成してリファレンス信号を生成し、第1信号及び第2信号を少なくとも2つのスピーカユニットに出力し、少なくとも1つのマイクユニットから話者100の音声を含む収音信号を取得し、収音信号に対してリファレンス信号を用いて少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、当該相殺処理が行われた収音信号を出力する。
通信相手200の音声である第1音を示す第1信号と、第1音とは異なる第2音(例えばゲーム音等)を示す第2信号とに基づいた音がウェアラブルスピーカ20から出力され、当該音が話者100の音声とともにマイク23に収音される。マイク23に収音された音の成分うち、ウェアラブルスピーカ20から出力された音の成分は、音処理装置10において生成された第1信号と第2信号とが合成されたリファレンス信号と同じ成分を有するため、音処理装置10は、リファレンス信号を用いてマイク23に収音された話者100の音声以外のウェアラブルスピーカ20から出力された音の相殺処理を行うことができる。これにより、ウェアラブルスピーカ20が取り付けられた話者100の音声を効果的に抽出できる。ウェアラブルスピーカ20から出力された音が相殺されるため、話者100は、ウェアラブルスピーカ20の音量を落とすことなく、マイク23を通じて通信相手200と快適に通話できる(例えば、文字チャットアプリによる会話を行わなくてもよい)。また、第1信号と第2信号とは、それぞれ個別に取得されるため、第2信号に問題が発生しても、第1信号による通話を問題なく行うことができる。
また、第2信号は、位置情報を含む信号であり、音処理装置10は、位置情報を用いて少なくとも2つのスピーカユニットのそれぞれへ第2信号を振り分けて出力するとしてもよい。例えば、第2信号は、音声形式がビットストリームの信号であるとしてもよい。また、例えば、第2インタフェースは、HDMI規格に対応したインタフェースであるとしてもよい。
第2信号に含まれる位置情報は、サラウンド音声を出力するために必要な情報であるが、例えば、PC30等の汎用的なコンピュータで第1信号と第2信号との合成を行うと、第2信号に含まれる位置情報が失われてしまい、ウェアラブルスピーカ20からサラウンド音声を出力するのが難しくなる。一方で、音処理装置10において、第1IF11aから第1信号を、第2IF11bから位置情報を含む第2信号を、それぞれ個別に取得し、第2信号に含まれる位置情報を取得する。これにより、位置情報が失われることなく、第1信号と第2信号との合成を行うことができる。したがって、ウェアラブルスピーカ20からサラウンド音声を出力しつつ、ウェアラブルスピーカ20が取り付けられた話者100の音声を効果的に抽出できる。例えば、第2信号の音声形式がビットストリームの信号であることで、第2信号に位置情報を含めることができる。また、例えば、第2IF11bがHDMI規格に対応したインタフェースであることで、音処理装置10は、位置情報を含ませたまま第2信号を取得することができる。
また、少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の側方又は後方に位置するスピーカユニットが含まれるとしてもよい。
これによれば、ウェアラブルスピーカ20が話者100に取り付けられたときに話者100の側方又は後方にスピーカユニットが位置することで、話者100の側方又は後方から音を出力でき、話者はさらに臨場感を得ることができる。ウェアラブルスピーカ20は、話者100に取り付けられるため、話者100が移動しても、いわゆるスイートスポットも話者100の移動に合わせて常に最適な位置に移動することになる。
また、少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の前方に位置するスピーカユニットが含まれるとしてもよい。
通常、人と会話する際には、前方に相手が居り前方から相手の声が聞こえるため、ウェアラブルスピーカ20が話者100に取り付けられたときに話者100の前方にスピーカユニットが位置することで、通常の会話と同じように、話者100の前方から通信相手200の音声が聞こえるようにすることができる。
また、少なくとも2つのスピーカユニットには、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の側方又は後方に位置するスピーカユニットが2つ以上含まれ、話者100の前方に位置するスピーカユニットが2つ以上含まれるとしてもよい。
これによれば、ウェアラブルスピーカ20が話者100に取り付けられたときに、話者100の前方、及び、話者100の側方又は後方にそれぞれ2つ以上のスピーカユニットが位置することで、話者100の周囲から音を出力でき、話者100はさらに臨場感を得ることができる。また、通信相手200の音声を話者100の前方から出力できる。
また、スピーカシステム1は、さらに、ウェアラブルスピーカ20とは別体に設けられるスピーカを備えるとしてもよい。
このように、ウェアラブルスピーカ20とは別体にスピーカ(例えば、定置型スピーカ等)が設けられていてもよい。
また、ウェアラブルスピーカ20とマイク23とは一体に設けられるとしてもよい。
このように、ウェアラブルスピーカ20とマイク23とは一体に設けられていてもよい。例えば、これらが別体に設けられる場合よりもコストを抑制できる。
また、ウェアラブルスピーカ20と音処理装置10とは有線接続されるとしてもよい。
例えば、オンラインゲーム等において、ウェアラブルスピーカ20から出力されるゲーム音及びチャット音声が、ゲームの映像とずれて出力されると、話者100に不快感や違和感を与えることになる。これに対して、ウェアラブルスピーカ20と音処理装置10とが有線接続されることで、ウェアラブルスピーカ20と音処理装置10とが無線接続される場合よりも、ウェアラブルスピーカ20と音処理装置10との通信遅延を抑制でき、話者100に不快感や違和感を与えないようにすることができる。
また、音処理装置10は、話者100に取り付けられるウェアラブルスピーカ20であって、話者100の通信相手200の音声である第1音と第1音とは異なる第2音とを出力可能なウェアラブルスピーカ20から出力される音、及び、話者100の音声を収音するためのマイク23によって収音される音を処理する装置である。音処理装置10は、第1IF11aを介して、第1音を示す第1信号を取得し、第1IF11aとは異なる第2IF11bを介して、第2音を示す第2信号を取得し、第1信号と第2信号とを合成してリファレンス信号を生成し、第1信号及び第2信号をウェアラブルスピーカ20が備える少なくとも2つのスピーカユニットに出力し、マイク23が備える少なくとも1つのマイクユニットから話者100の音声を含む収音信号を取得し、収音信号に対してリファレンス信号を用いて少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、相殺処理が行われた収音信号を出力する。
これによれば、ウェアラブルスピーカ20が取り付けられた話者100の音声を効果的に抽出できる音処理装置10を提供できる。
(その他の実施の形態)
以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略等を行った実施の形態にも適応可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
例えば、上記実施の形態では、音声抽出部16は、雑音処理部16bを備えると説明したが、備えていなくてもよい。すなわち、少なくとも2つのスピーカユニットから出力された音の成分の相殺処理が行わればよく、マイク23の周辺のノイズを消去又は低減する処理は必ずしも行われなくてもよい。
また、例えば、上記実施の形態では、第2信号は、音の位置情報を含む信号であると説明したが、第2信号には、位置情報が含まれていなくてもよい。例えば、第2信号は、音声形式がビットストリームの信号でなくてもよい。この場合、第2信号には位置情報が含まれておらず、PC30において第1信号と第2信号との合成が行われても、第2信号にそもそも位置情報が含まれていないため、問題とならない。このため、この場合には、PC30において、第1信号と第2信号との合成が行われてもよい。この場合、音処理装置10は、PC30において合成された第1信号及び第2信号を第2IF11bを介して取得する。音処理装置10は、第2IF11bで取得された信号が、位置情報を含むか否か(音声形式がビットストリームの信号であるか否か)を判定し、位置情報を含まない場合には、第1合成部13における処理を行わない。
また、例えば、上記実施の形態では、フロントL/Rスピーカであるスピーカユニット21a及び22bに出力されるフロントL/R信号と、通信相手200の音声信号とが合成されてリファレンス信号が生成される例について説明したが、リアL/Rスピーカであるスピーカユニット22a及び22bに出力されるリアL/R信号と、通信相手200の音声信号とが合成されてリファレンス信号が生成されてもよい。
また、例えば、上記実施の形態では、PC30と音処理装置10とが別体に設けられる例について説明したが、PC30が音処理装置10の機能を実現可能な専用のDSP等を備えていれば、PC30が音処理装置10の機能を有していてもよい。
また、例えば、上記実施の形態では、ウェアラブルスピーカ20と音処理装置10とが別体に設けられる例について説明したが、ウェアラブルスピーカ20と音処理装置10とが一体に設けられてもよい。
また、例えば、上記実施の形態では、マイク23は、ウェアラブルスピーカ20と一体に設けられる例について説明したが、マイク23とウェアラブルスピーカ20とは別体に設けられてもよい。この場合、マイク23は、話者100の口付近に位置するように、話者100に取り付けられる。
また、本開示は、スピーカシステム1又は音処理装置10として実現できるだけでなく、音処理装置10を構成する構成要素が行うステップ(処理)を含む音処理方法として実現できる。
具体的には、音処理方法は、話者100に取り付けられるウェアラブルスピーカ20であって、話者100の通信相手の音声である第1音と第1音とは異なる第2音とを出力可能なウェアラブルスピーカ20から出力される音、及び、話者100の音声を収音するためのマイク23によって収音される音を処理する方法である。図6に示されるように、音処理方法では、第1IF11aを介して、第1音を示す第1信号を取得し(ステップS11)、第1IF11aとは異なる第2IF11bを介して、第2音を示す第2信号を取得し(ステップS12)、第1信号と第2信号とを合成してリファレンス信号を生成し(ステップS13)、第1信号及び第2信号をウェアラブルスピーカ20が備える少なくとも2つのスピーカユニットに出力し(ステップS14)、マイク23が備える少なくとも1つのマイクユニットから話者100の音声を含む収音信号を取得し(ステップS15)、収音信号に対してリファレンス信号を用いて少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い(ステップS16)、相殺処理が行われた収音信号を出力する(ステップS17)。
例えば、それらのステップは、コンピュータ(コンピュータシステム)によって実行されてもよい。そして、本開示は、それらの方法に含まれるステップを、コンピュータに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
例えば、本開示が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。
また、上記実施の形態の音処理装置10に含まれる構成要素は、集積回路(IC:Integrated Circuit)であるLSI(Large Scale Integration)として実現されてもよい。
また、集積回路はLSIに限られず、専用回路又は汎用プロセッサで実現されてもよい。プログラム可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続及び設定が再構成可能なリコンフィギュラブル・プロセッサが、利用されてもよい。
さらに、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、音処理装置10に含まれる構成要素の集積回路化が行われてもよい。
以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面及び詳細な説明を提供した。
したがって、添付図面及び詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲又はその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。
本開示は、ウェアラブルスピーカを用いて音を出力しつつ、通信相手と通話するためのシステムに適用可能である。
1 スピーカシステム
10 音処理装置
11a 第1IF
11b 第2IF
12 復号部
13 第1合成部
14a、14b 第2合成部
15 位相調整部
16 音声抽出部
16a 相殺部
16b 雑音処理部
17a 第1AMP
17b 第2AMP
20 ウェアラブルスピーカ
21a、21b、22a、22b スピーカユニット
23 マイク
23a、23b マイクユニット
24 スイッチ
25 連結部
30 PC
40 モニタ
50 ヘッドセット
60 PC
70 モニタ
80 スマートフォン
100 話者
200 通信相手
300 ネットワーク

Claims (11)

  1. 話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカと、
    前記話者の音声を収音するためのマイクと、
    前記ウェアラブルスピーカから出力される音及び前記マイクで収音される音を処理する音処理装置と、を備え、
    前記ウェアラブルスピーカは、少なくとも2つのスピーカユニットを備え、
    前記マイクは、少なくとも1つのマイクユニットを備え、
    前記音処理装置は、
    第1インタフェースを介して、前記第1音を示す第1信号を取得し、
    前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、
    前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、
    前記第1信号及び前記第2信号を前記少なくとも2つのスピーカユニットに出力し、
    前記少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、
    前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、
    前記相殺処理が行われた収音信号を出力
    前記少なくとも2つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
    前記リファレンス信号は、前記少なくとも2つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第1信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第1信号を含まない、
    スピーカシステム。
  2. 前記第2信号は、音の位置情報を含む信号であり、
    前記音処理装置は、前記位置情報を用いて前記少なくとも2つのスピーカユニットのそれぞれへ前記第2信号を振り分けて出力する、
    請求項1に記載のスピーカシステム。
  3. 前記第2信号は、音声形式がビットストリームの信号である、
    請求項2に記載のスピーカシステム。
  4. 前記第2インタフェースは、HDMI(High-Definition Multimedia Interface)(登録商標)規格に対応したインタフェースである、
    請求項1~3のいずれか1項に記載のスピーカシステム。
  5. 前記少なくとも2つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニットが2つ以上含まれ、前記話者の前方に位置するスピーカユニットが2つ以上含まれる、
    請求項1~4のいずれか1項に記載のスピーカシステム。
  6. 前記スピーカシステムは、さらに、前記ウェアラブルスピーカとは別体に設けられるスピーカを備える、
    請求項1~のいずれか1項に記載のスピーカシステム。
  7. 前記ウェアラブルスピーカと前記マイクとは一体に設けられる、
    請求項1~のいずれか1項に記載のスピーカシステム。
  8. 前記ウェアラブルスピーカと前記音処理装置とは有線接続される、
    請求項1~のいずれか1項に記載のスピーカシステム。
  9. 話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理装置であって、
    前記音処理装置は、
    第1インタフェースを介して、前記第1音を示す第1信号を取得し、
    前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、
    前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、
    前記第1信号及び前記第2信号を前記ウェアラブルスピーカが備える少なくとも2つのスピーカユニットに出力し、
    前記マイクが備える少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、
    前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、
    前記相殺処理が行われた収音信号を出力
    前記少なくとも2つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
    前記リファレンス信号は、前記少なくとも2つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第1信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第1信号を含まない、
    音処理装置。
  10. 話者に取り付けられるウェアラブルスピーカであって、前記話者の通信相手の音声である第1音と前記第1音とは異なる第2音とを出力可能なウェアラブルスピーカから出力される音、及び、前記話者の音声を収音するためのマイクによって収音される音を処理する音処理方法であって、
    前記音処理方法では、
    第1インタフェースを介して、前記第1音を示す第1信号を取得し、
    前記第1インタフェースとは異なる第2インタフェースを介して、前記第2音を示す第2信号を取得し、
    前記第1信号と前記第2信号とを合成してリファレンス信号を生成し、
    前記第1信号及び前記第2信号を前記ウェアラブルスピーカが備える少なくとも2つのスピーカユニットに出力し、
    前記マイクが備える少なくとも1つのマイクユニットから前記話者の音声を含む収音信号を取得し、
    前記収音信号に対して前記リファレンス信号を用いて前記少なくとも2つのスピーカユニットから出力された音の成分の相殺処理を行い、
    前記相殺処理が行われた収音信号を出力
    前記少なくとも2つのスピーカユニットには、前記ウェアラブルスピーカが前記話者に取り付けられたときに、前記話者の側方又は後方に位置するスピーカユニット、及び、前記話者の前方に位置するスピーカユニットが含まれ、
    前記リファレンス信号は、前記少なくとも2つのスピーカユニットのうち前記話者の前方に位置するスピーカユニットに出力される前記第1信号を含み、前記話者の側方又は後方に位置するスピーカユニットに出力される前記第1信号を含まない、
    音処理方法。
  11. 請求項10に記載の音処理方法をコンピュータに実行させるためのプログラム。
JP2021530474A 2019-07-08 2019-08-06 スピーカシステム、音処理装置、音処理方法及びプログラム Active JP7281788B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962871605P 2019-07-08 2019-07-08
US62/871,605 2019-07-08
PCT/JP2019/030891 WO2021005806A1 (ja) 2019-07-08 2019-08-06 スピーカシステム、音処理装置、音処理方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021005806A1 JPWO2021005806A1 (ja) 2021-01-14
JP7281788B2 true JP7281788B2 (ja) 2023-05-26

Family

ID=74114189

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021530474A Active JP7281788B2 (ja) 2019-07-08 2019-08-06 スピーカシステム、音処理装置、音処理方法及びプログラム

Country Status (5)

Country Link
US (1) US11682375B2 (ja)
EP (1) EP3998781A4 (ja)
JP (1) JP7281788B2 (ja)
CN (1) CN113228706B (ja)
WO (1) WO2021005806A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11765508B2 (en) * 2021-09-15 2023-09-19 Motorola Mobility Llc Wearable audio device with centralized stereo image and corresponding methods
US20240039745A1 (en) * 2022-07-29 2024-02-01 Sony Group Corporation Peer-to-peer bluetooth voice chat

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001345768A (ja) 2000-06-01 2001-12-14 Mitsubishi Electric Corp 音声データ転送装置およびそれを用いる転送方法
JP2003249996A (ja) 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2005303707A (ja) 2004-04-13 2005-10-27 Niro1.Com Inc スピーカー
JP2009201088A (ja) 2008-02-21 2009-09-03 Hidehiko Matsumoto 首掛け式スピーカー
JP2012511869A (ja) 2008-12-12 2012-05-24 クゥアルコム・インコーポレイテッド ワイヤレスヘッドセットにおける同時マルチソースオーディオ出力

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0514475A (ja) * 1991-07-08 1993-01-22 Oki Electric Ind Co Ltd 拡声電話機
US7599483B2 (en) * 2003-12-12 2009-10-06 Temic Automotive Of North America, Inc. Echo canceler circuit and method
EP1936939B1 (en) * 2006-12-18 2011-08-24 Harman Becker Automotive Systems GmbH Low complexity echo compensation
US8081780B2 (en) * 2007-05-04 2011-12-20 Personics Holdings Inc. Method and device for acoustic management control of multiple microphones
JP2009201008A (ja) * 2008-02-25 2009-09-03 Panasonic Corp 複眼式撮像装置
CN101853667B (zh) * 2010-05-25 2012-08-29 无锡中星微电子有限公司 一种语音降噪装置
WO2012160778A1 (ja) * 2011-05-20 2012-11-29 パナソニック株式会社 通話機
US9173028B2 (en) * 2011-07-14 2015-10-27 Sonova Ag Speech enhancement system and method
US9326072B2 (en) * 2011-11-17 2016-04-26 Plastoform Industries Limited Wearable speaker system with satellite speakers and a passive radiator
JP6069829B2 (ja) * 2011-12-08 2017-02-01 ソニー株式会社 耳孔装着型収音装置、信号処理装置、収音方法
JP6064927B2 (ja) * 2014-02-10 2017-01-25 ソニー株式会社 オーディオ機器、音声処理方法、音声処理プログラム、音声出力方法および音声出力プログラム
US9654867B2 (en) * 2014-07-18 2017-05-16 Bose Corporation Acoustic device
EP3188495B1 (en) * 2015-12-30 2020-11-18 GN Audio A/S A headset with hear-through mode
JP6197930B2 (ja) * 2016-09-14 2017-09-20 ソニー株式会社 耳孔装着型収音装置、信号処理装置、収音方法
JP6670224B2 (ja) * 2016-11-14 2020-03-18 株式会社日立製作所 音声信号処理システム
CN109923874B (zh) 2016-12-16 2021-12-31 索尼公司 可穿戴扬声器和再现设备
EP3346726A1 (en) * 2017-01-04 2018-07-11 Harman Becker Automotive Systems GmbH Arrangements and methods for active noise cancelling
CN106887237A (zh) * 2017-02-09 2017-06-23 惠州Tcl移动通信有限公司 移动终端及其处于耳机模式下进行通话的降噪方法、系统
KR101953866B1 (ko) * 2017-10-16 2019-03-04 주식회사 오르페오사운드웍스 인-이어 마이크로폰을 갖는 이어셋의 음향신호 처리 장치 및 방법
KR102062260B1 (ko) 2017-11-23 2020-01-03 구본희 귀 개방형 헤드폰을 이용한 다채널 사운드 구현 장치 및 그 방법
JP2019110447A (ja) * 2017-12-19 2019-07-04 オンキヨー株式会社 電子機器、電子機器の制御方法、及び、電子機器の制御プログラム
JP7408414B2 (ja) * 2020-01-27 2024-01-05 シャープ株式会社 ウェアラブルマイクスピーカ
US11508391B2 (en) * 2020-05-29 2022-11-22 HearMe Technology LLC Device to amplify and clarify voice

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001345768A (ja) 2000-06-01 2001-12-14 Mitsubishi Electric Corp 音声データ転送装置およびそれを用いる転送方法
JP2003249996A (ja) 2002-02-25 2003-09-05 Kobe Steel Ltd 音声信号入出力装置
JP2005303707A (ja) 2004-04-13 2005-10-27 Niro1.Com Inc スピーカー
JP2009201088A (ja) 2008-02-21 2009-09-03 Hidehiko Matsumoto 首掛け式スピーカー
JP2012511869A (ja) 2008-12-12 2012-05-24 クゥアルコム・インコーポレイテッド ワイヤレスヘッドセットにおける同時マルチソースオーディオ出力

Also Published As

Publication number Publication date
US20220068251A1 (en) 2022-03-03
WO2021005806A1 (ja) 2021-01-14
JPWO2021005806A1 (ja) 2021-01-14
CN113228706A (zh) 2021-08-06
US11682375B2 (en) 2023-06-20
CN113228706B (zh) 2024-07-16
EP3998781A1 (en) 2022-05-18
EP3998781A4 (en) 2022-08-24

Similar Documents

Publication Publication Date Title
US11037544B2 (en) Sound output device, sound output method, and sound output system
US10171923B2 (en) Binaural hearing system and method
JP2022132512A (ja) 非遮断型デュアルドライバイヤホン
KR100954562B1 (ko) 다중 채널 헤드셋
EP3211916A1 (en) Audio playback device
US20170295419A1 (en) Microphone system with monitor sound
JP7281788B2 (ja) スピーカシステム、音処理装置、音処理方法及びプログラム
JP2017125937A (ja) 音声信号処理装置
JPH06233388A (ja) 補聴装置
CN115804106A (zh) 声学输出装置和声学输出装置的控制方法
US12081944B1 (en) Audio device apparatus for hearing impaired users
US20230199412A1 (en) Audio Device Apparatus for Hearing Impaired Users
JP2020099094A (ja) 信号処理装置
CN114999439A (zh) 声音信号处理方法及声音信号处理装置
JP2022125635A (ja) 音信号処理方法および音信号処理装置
JP2018074499A (ja) 音響手段内蔵着用物、音響処理システム、音響処理装置、音響処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230502

R151 Written notification of patent or utility model registration

Ref document number: 7281788

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151