JP2011101407A - ロボット、及び収音装置 - Google Patents

ロボット、及び収音装置 Download PDF

Info

Publication number
JP2011101407A
JP2011101407A JP2010292173A JP2010292173A JP2011101407A JP 2011101407 A JP2011101407 A JP 2011101407A JP 2010292173 A JP2010292173 A JP 2010292173A JP 2010292173 A JP2010292173 A JP 2010292173A JP 2011101407 A JP2011101407 A JP 2011101407A
Authority
JP
Japan
Prior art keywords
microphone
channel
straight line
virtual straight
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010292173A
Other languages
English (en)
Inventor
Noriaki Matsui
禮朗 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2010292173A priority Critical patent/JP2011101407A/ja
Publication of JP2011101407A publication Critical patent/JP2011101407A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Manipulator (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】高いS/N比で収音することができるロボット、及び収音装置を提供すること。
【解決手段】本発明の一態様にかかる収音装置は、マイクユニットが、第1の仮想直線L1上に配列されたマイクからなる第1のチャネルCH1と、第2の仮想直線L2上に配列されたマイクからなる第2のチャネルCH2と、第3の仮想直線L3上に配列されたマイクからなる第3のチャネルCH3と、マイクユニットが取得する音の音源の方位に応じて、第1乃至第3のチャネルL1〜L3を使い分ける手段と、を備える。第1の仮想直線L1と第2の仮想直線L2とは、第1のチャネルCH1の1つのマイクの中心点で交差する。第2の仮想直線L2と第3の仮想直線L3とは、第2のチャネルCH2の1つのマイクの中心点で交差する。第3の仮想直線L3と第1の仮想直線L1とは、第3のチャネルCH3の1つのマイクの中心点で交差する。
【選択図】図4

Description

本発明は、ロボット、及び収音装置に関し、特に詳しくは、複数のマイクを用いたロボット、及び収音装置に関する。
利用者が発した音声信号を検出するために複数のマイクロフォン(以下、マイク、又はマイク素子ともいう)を用いた技術が開示されている(特許文献1乃至8)。特許文献1、4、8では、複数のマイクによって、音源方向を特定している。特許文献2では、各空間軸(X,Y,Z)上に、少なくとも3つのマイクを配置している。また、特許文献3では、ロボットの頭部に指向性マイクを取り付け、胴体にアレイマイクを取り付けている。また、特許文献5のマイクロフォンシステムでは、話者の方向を判別するためのセンサを設けている。そして、複数のマイクのうち、音源に最も近いマイクのみをONにして、その他のマイクをOFFしている。特許文献6では、複数チャネルのマイクによって収音して、発話区間を判定している。
特開2006−181651号公報 特開平12−134688号公報 特開2007−221300号公報 特開2002−186084号公報 特開2006−245725号公報 国際公開2004/071130号パンフレット 特開2004−274763号公報 特開2008−79255号公報
マイクロフォンアレイでは、複数のマイクによって収音した音を加算処理することができる。これにより、単一マイクと比較して、より鮮明な音の収録を可能としている。具体的には、マイクで収音した音声データに対して、DSP遅延制御をした後、加算処理を行っている。これにより、S/N比を向上することができるため、より明瞭で聞きやすい収音を実現することができる。
マイクから水平方向の発話者に収音ビームを形成することで、収音能力を高めることができる。それと同時に、余分な周囲ノイズを排除して、エコーの原因ともなる回り込み音を取りにくい設計としている。
しかしながら、音源の方向が定まっていない場合、上記のようなマイクロフォンアレイでは、マイクの数を多数設ける必要がある。マイクロフォンアレイが大型化してしまうという問題点がある。特に、人型ロボットの場合、マイクロフォンアレイの搭載位置が制限されてしまう。例えば、マイクロフォンアレイをロボットの前側に搭載した場合、図15に示すように、マイク指向領域がロボットの前方に制限されてしまう。また、マイク位置が発話者52の口唇部の高さと水平な位置にならない。このため、収音ビームを強くしたい方向のノイズを強くしてしまい、収音したい音声が相対的に弱くなってしまう。すなわち、発話者の口唇高さが水平とならない事象については、性能が低下してしまう。このように、音源の方位とマイクロフォンアレイの位置の関係によって、S/N比(シグナルノイズ比)が低下してしまう。
本発明は、上記のような問題点に鑑みてなされたものであって、高いS/N比で収音することができるロボット、及び収音装置を提供することを目的とする。
本発明の第1の態様にかかる収音装置は、複数のマイクを有するマイクユニットを備える収音装置であって、前記マイクユニットが、第1の仮想直線上に配列された少なくとも3つのマイクからなる第1のチャネルと、前記第1の仮想直線に対して傾いた第2の仮想直線上に配列された少なくとも3つのマイクからなる第2のチャネルと、前記第1及び第2の仮想直線に対して傾いた第3の仮想直線上に配列された少なくとも3つのマイクからなる第3のチャネルと、前記マイクユニットが取得する音の音源の方位に応じて、前記第1乃至第3のチャネルを使い分ける手段と、を備え、前記第1の仮想直線と前記第2の仮想直線とは、前記第1のチャネルの1つのマイクの中心点で交差し、当該第1のチャネルの1つのマイクは、前記第1及び第2のチャネルで用いられ、前記第2の仮想直線と前記第3の仮想直線とは、前記第2のチャネルの1つのマイクの中心点で交差し、当該第2のチャネルの1つのマイクは、前記第2及び第3のチャネルで用いられ、前記第3の仮想直線と前記第1の仮想直線とは、前記第3のチャネルの1つのマイクの中心点で交差し、当該第3のチャネルの1つのマイクは、前記第3及び第1のチャネルで用いられ、前記第1乃至第3の仮想直線が水平方向に伸び、かつ一点で交差しないものである。これにより、高いS/N比で収音することができる。
本発明の第2の態様にかかる収音装置は、上記の収音装置であって、前記第2の仮想直線が、前記第1の仮想直線に対して略60度傾いており、前記第3の仮想直線が、前記第1及び第2の仮想直線に対して略60度傾いているものである。これにより、高いS/N比で収音することができる。
本発明の第3の態様にかかる収音装置は、上記の収音装置であって、前記音源の方位を推定して、前記第1乃至第3のチャネルの中から、前記音源の方位と最も近いチャネルを選択する手段と、選択した前記チャネルを構成する前記マイクで検出した信号を遅延して、加算する手段と、をさらに備えるものである。これにより、高いS/N比で収音することができる。
本発明の第4の態様にかかるロボットは、上記の収音装置を頭部に有するものである。
本発明によれば、高いS/N比で収音することができるロボット、及び収音装置を提供することができる。
本発明の実施形態にかかるロボットを模式的に示す正面図である。 本発明の実施形態にかかるロボットの頭部を示す図である。 ロボットに設けられた収音装置の構成を示す図である。 収音装置に設けられたマイクユニットの構成を示す上面図である。 収音装置に設けられたマイクユニットにおいて、チャンネル1の構成を示す図である。 収音装置に設けられたマイクユニットにおいて、チャンネル2の構成を示す図である。 収音装置に設けられたマイクユニットにおいて、チャンネル3の構成を示す図である。 収音装置に設けられたマイクユニットにおいて、チャンネル1のポーラパターンを示す図である。 収音装置に設けられたマイクユニットにおいて、チャンネル2のポーラパターンを示す図である。 収音装置に設けられたマイクユニットにおいて、チャンネル3のポーラパターンを示す図である。 音源方向別のマイク指向特性を示すグラフである。 音声信号に対してアナログ処理を行う構成を示す回路ブロック図である。 音声信号に対して音声認識処理を行う構成を示すブロック図である。 マイク種別及び搭載位置による性能の比較結果を示すグラフである。 ロボットに搭載されたマイクロフォンアレイのマイク指向領域を示す図である。
以下、本発明に係るロボットの実施形態を、図面に基づいて詳細に説明する。但し、本発明が以下の実施形態に限定される訳ではない。また、説明を明確にするため、以下の記載及び図面は、適宜、簡略化されている。
本発明の実施形態に係るロボット10の全体構成について、図1を用いて説明する。図1は、ロボットの全体構成を模式的に示す正面図であり、発話者が発話した音声をロボット10が収音する様子を示している。図1に示すロボット10は、人型ロボット(ヒューマノイドロボット)であり、胴体部11と胴体部11の上に設けられた頭部12とを備えている。なお、頭部12が胴体部11に対して回転するようにしてもよい。胴体部11には、腕や脚の関節を駆動するためのモータやバッテリなどが内蔵されている。なお、ロボット1は、完全な人型ロボットに限られるものではない。例えば、脚部の代わりに車輪で移動するロボットであってもよい。このように一部のみが人型のロボットであってもよい。また、胴体部11には、近接センサ41が設けられている。近接センサ41は、発話者52が近接したか否かを判定する。すなわち、近接センサ41は、発話者52がロボット10から一定の距離以内に接近したことを知らせるセンサ信号を出力する。
頭部12には、収音装置13が内蔵されている。収音装置13は、図2に示すように、頭部12の上方に設けられている。すなわち、頭頂部に収音装置13が取り付けられている。収音装置13には、後述するように複数のマイク素子が設置されている。それぞれのマイク素子が上方を向いている。これにより、図1に示すような、マイク指向領域51を得ることができる。マイク指向領域51は、頭部12の上に配置される。これにより、発話者52の口唇高さをマイク指向領域51に合わせることができ、発話者52が発生した音声を効率よく収音することができる。
次に、収音装置13の構成に付いて図3を用いて説明する。図3は、収音装置13の全体構成を模式的に示す図である。図3に示すように、収音装置13は、マイク素子20が複数設けられている。そして、複数のマイク素子20がマイク基板23の固定されている。マイク基板23は、水平に配置されている。マイク基板23と複数のマイク素子20がマイクユニット24を構成する。
そして、複数のマイク素子20を覆うように、カバー22が設けられている。カバー22は、マイクユニット24の上方に設けられる。カバー22は、ロボット10の頭頂部に取り付けられる。したがって、カバー22が頭頂部分を構成することにある。マイク素子20及びマイク基板23にカバー22を被せることで、マイク素子20及びマイク基板23が露出しなくなる。これにより、マイクユニット24が頭部12に収納される。また、カバー22とマイク素子20との間には、EMCシールド材21が設けられている。EMCシールド材21は、マイク素子20やマイク基板23などに生じるEMCノイズを低減するために電気的に接地されている。よって、S/N比を向上することができる。なお、マイク素子20は上方を向いているため、カバー22の方向に向いていることになる。
各マイク素子20は、マイク基板23を介して、アンプ基板25に接続されている。すなわち、マイク素子20で収音した音声信号は、アンプ基板25に設けられたアンプによって、増幅される。ここで、アンプ基板25には、マイク素子20と同数のアンプが設けられている。そして、アンプで増幅された音声信号は、A/D変換基板28によって、アナログ信号からデジタル信号に変換される。そして、デジタル信号に変換された音声信号は、PC(Personal Computer)40に入力される。PC40は、入力された音声信号に対して音声認識処理を行う。なお、これらの処理については、後述する。例えば、アンプ基板25やマイクユニット24等は、頭部12に収納されている。PC40は、胴体部11に収納されていてもよい。アンプ基板25、A/D変換基板28、PC40等が、それぞれ、マイクユニットで収音された音声信号に対してよりを行う処理部となる。なお、図3では、後述するビーム幅演算基板などが省略されている。
次に、マイクユニット24におけるマイク素子20の配置について、図4を用いて説明する。図4は、マイクユニット24の構成を示す上面図である。図4では、6個のマイク素子20をマイク素子M1〜M6と識別している。すなわち、マイク素子M1、マイク素子M2、マイク素子M3、マイク素子M4、マイク素子M5、及びマイク素子M6がマイク基板23の上に設置されている。マイク素子M1〜M6は、上を向いてマイク基板23に固定されている。すなわち、マイク素子M1〜M6は、それぞれ頭部の頭頂に向けられている。6つのマイク素子M1〜M6が同一平面上に配置されている。すなわち、6つのマイク素子M1〜M6は、水平に配列されている。
ここでは、6個のマイク素子M1〜M6は、その中心が正三角形の三辺上に配置されるように配列されている。図4では、正三角形の各辺を仮想直線L1、仮想直線L2、及び仮想直線L3と示している。すなわち、仮想直線L1〜L3が三角形を構成する。仮想直線L1、仮想直線L2、及び仮想直線L3のそれぞれは、水平面内にある。マイク素子M1〜M3の中心点は、仮想直線L1上に配置されている。また、マイク素子M1〜M3は、等間隔に配列されている。そして、マイク素子M1とマイク素子M3の間に、マイク素子M2が配置されている。したがって、マイク素子M1の中心点とマイク素子M3の中心点は、それぞれ正三角形の頂点に配置される。このように、マイク素子M1〜M3は仮想直線L1上に一列に配列されている。仮想直線L1上のマイク素子M1〜M3がCH(チャネル)1を構成する。なお、仮想直線L1の方向が、ロボット10の前後方向になる。
仮想直線L2は、仮想直線L1から60°傾いている。そして、仮想直線L1と仮想直線L2とは、マイク素子M1の中心点で交差する。仮想直線L2上には、マイク素子M1、M4、M5が配列されている。すなわち、マイク素子M1、M4、M5の中心点は、仮想直線L2上に配置される。マイク素子M1、M4、M5は、等間隔で配置されている。そして、マイク素子M1とマイク素子M5の間に、マイク素子M4が配置されている。したがって、マイク素子M5の中心点は、正三角形の頂点に配置されている。このように、マイク素子M1、M4、M5は仮想直線L2上に一列に配列されている。仮想直線L2上のマイク素子M1、M4、M5がCH(チャネル)2を構成する。
仮想直線L3は、仮想直線L1、及び仮想直線L2から60°傾いている。仮想直線L1と仮想直線L3とは、マイク素子M3の中心点で交差する。仮想直線L2と仮想直線L3とは、マイク素子M5の中心点で交差する。仮想直線L3上には、マイク素子M3、M6、M5が配列されている。すなわち、マイク素子M3、M6、M5の中心点は、仮想直線L3上に配置される。マイク素子M3、M6、M5は、等間隔で配置されている。そして、マイク素子M3とマイク素子M5の間に、マイク素子M6が配置されている。したがって、マイク素子M1、M5の中心点は、正三角形の頂点に配置されている。このように、マイク素子M3、M6、M5は仮想直線L3上に一列に配列されている。仮想直線L3上のマイク素子M3、M6、M5がCH(チャネル)3を構成する。
各チャネルとも、3つのマイク素子から構成されている。仮想直線L1、仮想直線L2、及び仮想直線L3は、複数のマイク素子M1〜M6の最外周上にある。仮想直線L1、仮想直線L2、及び仮想直線L3は、マイクユニットの外形となる正三角形を構成する。従って、最外周にあるマイク素子M1〜M6を結ぶと正三角形になる。このように、1列目(仮想直線L1に平行でM5の中心を通る列)に1個、2列目(仮想直線L1に平行でM4、M6の中心を通る列)に2個、3列目(仮想直線L1)に3個のマイク素子が配置されている。
仮想直線L1は、ロボット10の前後方向に延びている。ここでは、マイク素子M1がロボットの前側に配置され、マイク素子M3がロボットの後ろ側に配置されている。そして、音声の到来方向に応じて、図5乃至図7に示すように、使用するチャネルを選択する。すなわち、音源の方位に応じて、最適なチャネルが使用される。なお、図5乃至7は、マイクユニット24の配置を示す上面図であり、図中の上側がロボット10の前側、下側が後ろ側になっている。
例えば、前方、又は後方からの音声は、チャネルCH1で検知される。図5の矢印に示すように、後方から音声が到達した場合、CH1のマイク素子M1〜M3が使用される。すなわち、マイク素子M1〜M3を用いて収音した音声データに対して、DSP遅延制御を行った後、加算処理を行う。音源の方位が仮想直線L1と平行な場合、CH1が使用される。
一方、斜め方向からの音声は、CH2又はCH3を用いて検知される。例えば、図6の矢印に示すように左後方からの音声は、CH2で検知される。この場合、CH2のマイク素子M1、M4、M5が使用される。すなわち、マイク素子M1、M4、M5を用いて収音した音声データに対して、DSP遅延制御を行った後、加算処理を行う。音源の方位が仮想直線L2と平行な場合、CH2が使用される。また、図7の矢印に示すように右後方からの音声は、CH3で検知される。この場合、CH3のマイク素子M3、M6、M5が使用される。マイク素子M3、M6、M5を用いて収音した音声データに対して、DSP遅延制御を行った後、加算処理を行う。音源の方位が仮想直線L3と平行な場合、CH3が使用される。
各チャネルのポーラパターンを図8乃至10に示す。図8はCH1のポーラパターン、図9はCH2のポーラパターン、図10はCH3のポーラパターンである。このように、各チャネルは、異なるポーラパターンを有している。すなわち、チャネル毎に指向領域が異なっている。いずれかのチャンネルを用いて音声を収音する。もちろん、音源の方位がチャネル方向と平行でない場合は、最も近い方位のチャネルを使用する。こうすることで、任意の方向からの音声に対しても、高いS/N比で収音することができる。
図11は、各チャネルと音源の方位の関係を示すグラフである。音源方位が0°の場合(CH1)が左側に示され、音源方位が左60°の場合(CH2)が中央に示され、音源方位が右60°の場合(CH3)が右側に示されている。それぞれの場合において、3つの測定結果が示されている。すなわち、それぞれの場合に対して、マイク指向方向を変えたときの測定結果が示されている。図11では、縦軸がS/N比を示している。図11に示すように、音源方位が0°の場合、マイク指向方向を正面とすると、S/N比が高くなる。音源方位が左60°の場合、マイク指向方向を左60°とすると、S/N比が高くなる。音源方位が右60°の場合、マイク指向方向を右60°とすると、S/N比が高くなる。したがって、音源の方位に応じて、チャネルを使い分ければ、いずれの方位においても、高いS/N比での収音が可能になる。すなわち、音源の方位に最も近い方向の仮想直線を推定する。そして、音源の方位に近い仮想直線上のマイク素子20を使用する。ここでは、選択された仮想直線上のマイク素子20からの音声信号に対して音声処理が行われる。すなわち、音源の方位に基づいて、使用するチャネルを推定している。
次に、本実施の形態にかかる音声処理方法について、図12、及び図13を用いて説明する。図12は、音声データに対してアナログ処理を行うための構成を示す回路ブロック図である。図13は、音声認識処理を行うためのPC40の構成を示す図である。
図12に示すようにアンプ基板25には、アンプ31と、バッファ32が設けられている。アンプ31は、各マイク素子20からの音声信号を増幅する。バッファ32は、アンプ31で増幅された音声信号をバッファリングする。
バッファリングされた音声信号は、ビーム幅演算基板26に入力される。ビーム幅演算基板26は、各チャネルのビーム幅を演算して、使用するチャネルを選択する。そして、そのチャンネルに含まれる3つのマイク素子20で検出された音声信号に対して、遅延処理、及び加算処理を行う。そのため、ビーム幅演算基板26には、指向性演算部34、及びフィルタ35が設けられている。なお、ここでは指向性演算部34及びフィルタ35が一つの回路として示されている。
フィルタ35は、電源ノイズ対策として、300Hz以下の入力をカットする。フィルタ35としては、ローパスフィルタを用いることができる。もちろん、ローパスフィルタ以外のフィルタをフィルタ35として用いてもよい。例えば、ハイパスフィルタやバンドパスフィルタをフィルタ35として用いて、所定の周波数帯の入力をカットしてもよい。このフィルタ35は、加算処理前の音声信号に対してフィルタリング処理を行ってもよく、加算処理後の音声信号に対してフィルタリング処理を行ってもよい。
指向性演算部34は、バッファ32に蓄積された音声信号を比較して、音源の方位を推定する。そして、音源の方位に近いチャネルを使用チャネルとして選択する。具体的には、指向性演算部34は、CH1〜CH3の中で位相遅れが大きいチャネルを抽出する。すなわち、各チャネルに含まれている3つのマイク素子20で検出された音声信号の時間遅れが大きくなっている方向を推定する。例えば、バッファ32に記憶されている音声信号に対して、その遅延時間を算出する。ここで遅延時間は、3つのチャネル毎に算出される。遅延時間が大きくなるチャネルに設けられているマイク素子20の配列方向を音源方向として推定する。換言すると、仮想直線L1〜L3のうち、音源の方位に最も近い仮想直線を選択する。このように、音源の方位が正面(CH1)、左60°(CH2)、右60°(CH3)のいずれの方位に近いかを推定する。最も方位が近いチャネルを選択する。
そして、指向性演算部34は、選択されたチャネルの音声信号に対してDSP遅延制御を行う。これにより、使用チャネルに含まれる3つのマイク素子20からの音声信号が時間的に一致して重なる。遅延時間は、隣接するマイク素子20の間隔に応じた値となっている。さらに、指向性演算部34は、DSP遅延制御によって遅延された音声信号に対して加算処理を行う。これにより、選択されたチャネルにおいて、人の音声を強調することができる。各マイク素子20の音声信号では、ノイズがランダムに発生していると考えられるため、時間的にずれている3つの音声信号に対して、遅延した後、加算してとしても、ノイズが強調されない。よって、3つの音声信号を加算することにより、発話に基づく音声信号が強調される。すなわち、発話者52の発話部分が重なるように、音声信号を遅延した後、加算する。ノイズ源で発生するノイズに対して、発話者の音声による音声信号を強調することができる。発話者の方向推定と超指向性マイクを組み合わせたことにより、目的音声と周辺雑音の切り分け性能を向上することができる。
ビーム幅演算基板26には、ゲイン切替部37、及び切替SW38が設けられている。ここで、ゲイン切替部37、及び切替SW38は一つの回路として構成されている。ゲイン切替部37は、加算された音声信号のレベルに応じてゲインを切替える。すなわち、適当なゲインを選択して、加算後の音声信号を所定のレベルまで引き上げる。切替SW38は、指向性演算部34で選択されたチャネル信号が出力されるように、出力信号を切替える。これにより、選択されたチャネルの音声信号がビーム幅演算基板26から出力される。すなわち、切替SW38によって、ビーム幅演算基板26は1つのチャネルにおける加算された音声信号を出力する。
図13に示すように、ビーム幅演算基板26からの音声信号は、A/D変換基板28に入力される。A/D変換基板28は、アナログの音声信号をデジタル信号に変換して、PC40に出力する。これにより、加算処理後の音声信号がデジタルデータとなる。PC40は、データ処理装置であり、デジタルの音声信号に対して音声認識処理を行う。
また、PC40には、近接センサ41からのセンサ信号が入力されている。近接センサ41は、上記の通り、発話者52が接近したか否かを判定している。すなわち、近接センサ41は、ロボット10から一定の範囲内に発話者52が入っている場合に、センサ信号をPC40に出力する。
PC40は、発話者52が近接していることを示すセンサ信号が入力された場合のみ、音声認識処理を行う。すなわち、発話者52がロボット10から一定の距離以上離れている場合は、音声認識処理を行わない。また、発話者52がロボット10から一定の距離以上離れている場合は、マイクユニット24、アンプ基板25、ビーム幅演算基板26、A/D変換基板28などをOFFしてもよい。このように、近接センサ41からの信号に応じて、マイクユニット24などのON/OFFを制御する。これにより、必要時のみ音声に対する処理が行われるようになる。なお、近接センサ41の代わりに、距離センサやカメラなどを用いて、接近しているか否かを判定してもよい。このように、発話者52が遠くにいる場合は、マイク素子20等をOFFするように、収音装置13をON/OFF制御する。近接センサ41からの出力に応じて、マイク素子20からの入力のON/OFFを制御する。これにより、必要時のみ、音声に対する各処理が行われるようになる。
そして、PC40は、A/D制御ドライバを用いてA/D変換基板28を制御する。これにより、選択されたチャネルからの音声信号が入力される。そして、雑音抑圧モジュールによって、雑音(ノイズ)の除去が行われる。ここまでの制御は、ディバイス制御によって行われる。すなわち、ハードウェア的な制御によって処理を行う。
雑音抑制された音声信号に対して、認識エンジンが音声認識処理を行う。認識エンジンはソフトウェア的な制御によって各処理を行う。セグメンタは、例えば、連続音声の音声信号に対してフレーム化処理を行う。また、セグメンタがノイズ処理後の発話区間前後の不要データを棄却している。これにより、発話者52が発話した区間(フレーム)のみが抽出される。すなわち、音声信号の入力レベルが低い箇所では、音声認識処理が行われないようになる。よって、誤認識(誤挿入)の低減を図ることができる。
そして、音響モデルを用いて、音声信号のパターンがどの単語に対応しているかを判定する。これにより、連続音声に対する単語列が得られる。例えば、特徴ベクトルなどを用いて、音声信号に対応するパターンの単語を判定する。そして、ノイズモデルを用いてノイズを除去する。この後、発話辞書を参照して、意味を成す文章になっているかを判定する。例えば、言語モデルを用いて、文法的に正しいか否かを判定する。文法的に正しい文章になっている場合、この認識結果がロボット制御アプリに出力される。これにより、最も文法的に正しい文章が出力されることになる。なお、上記の音声認識処理以外の処理によって、音声を認識してもよい。すなわち、音声認識処理は特に限定されるものではなく、公知の音声認識処理方法を用いることができる。
このように、複数のマイク素子20が上方に向けて配列されている。そして、配列された複数のマイク素子20のうち、最外周にあるマイク素子20が三角形の三辺に沿って配列されている。音源の方位に近い1辺上に配列されているマイク素子を用いて、音声を認識する。すなわち、1辺上のマイク素子20で検出された音声信号に対して、遅延処理、及び加算処理を行う。こうすることで、S/N比を向上することができる。これにより、音声認識率を向上することができる。また、上面視において、マイク素子20を三角形状に配置することで、縦横に配列する場合と比べて、マイク素子20の数を少なくすることができる。さらに、音源の方位がいずれの方向であったとしても、少ない数のマイク素子でS/N比を向上することができる。
ここで、マイクユニット24のタイプと取り付け位置によるS/N比に違いを図14に示す。マイクBが図4に示した三角形配置のマイクユニットである。マイクAが従来配置のマイクユニットである。図14に示すように、三角形配置のマイクユニット24を頭部12に取り付けることによって、S/N比を高くすることができる。また、マイクAよりもマイクBの方が、S/N比が高くなっている。マイクユニット24を胸部(胴体部)よりも頭部に設けたほうが、S/N比が高くなっている。
このように、三角形の各辺を1つのチャネルとして、収音ビームを形成している。さらに、上方を向いたマイク素子20が水平方向に沿って配列されている。したがって、いずれの方位からの音声であっても高いS/N比で収音することができる。また、マイク素子20の高さを発話者の口唇部と同じ高さ、またはそれより低くすることで、マイク指向領域51で音声を収音することができるようになる。これにより、確実に収音することができる。よって、音声を明瞭に収音することができる。さらに、最外周のマイク素子20を三角形の3辺上に配列しているため、マイク素子20の数を少なくすることができる。すなわち、マイク素子20の数を少なくした場合でも高いS/N比を実現することができる。
例えば、胴体部11には、関節を駆動するためのモータやPC40の冷却ファン等が収納されている。これらの各機器が動作すると、ノイズが発生する。すなわち、機械的に動作する機器がノイズ源となってしまう。これらのノイズ源で発生するノイズの入力レベルが目的とする音声の入力信号レベルよりも高い場合、ノイズに音声信号が埋もれてしまう。そこで、本実施の形態では、ノイズ源が存在しない、あるいはその数が少ない頭部12に収音装置13を収納している。頭部12は胴体部11に比べて、ノイズ源となる搭載機器が少ない。このため、ノイズ源からマイクユニット24を遠ざけることができる。これにより、マイク素子20へのノイズ混入を低減することができる。S/N比を高くすることができる。よって、明瞭に音声を収音することができ、音声認識率の低下を低減することができる。さらに、頭部12の頭頂部にマイクユニット24を設置することで、スペースを効率よく利用することができる。
なお、本実施の形態では、マイクユニット24に配列するマイク素子20を6個としたが、マイク素子20の数はこれ以外の数であってもよい。たとえば、マイク素子20の数を10個にすると、1辺上に4つのマイク素子20とすることができる。たとえば、1列目に1個、2列目に2個、3列目に3個、4列目に4個のマイク素子20を配置する。この場合、図4に示した構成に対して、仮想直線L1の隣に、仮想直線L1と平行な方向に4つのマイク素子20を近接配置する。すなわち、図4の構成の左隣に4つのマイク素子20を追加した構成となる。また。この配置では、3列目の2個目のマイク素子(現在のマイク素子M2)が最外周のマイク素子とはならなくなるため、残りの9個のマイク素子20が、三角形の三辺に沿って配列される。マイク素子10の数を多くすることで、加算される音声信号の数が多くなるため、よりS/N比を高くすることができる。アレイ状に配列する構成と比べて、少ない数のマイク素子20で、S/N比を高くすることができる。よって、簡便な構成でS/N比を高くすることができる。また、三辺上のマイク素子20を等間隔に配置することで、よりS/N比を向上することができる。
上記の説明では、最外周のマイク素子20を配置する三角形を、正三角形としたが、これ以外の三角形でもよい。たとえば、二等辺三角形や直角三角形としてもよい。もちろん、これ以外の三角形でもよい。また、三角形の頂点の角度は、鋭角とすることが好ましい。これにより、2辺の成す角度が小さくなるのを防ぐことができるため、音源がいずれの方位にあった場合でも、高いS/N比で音声信号を収音することができる。
10 ロボット
11 胴体部
12 頭部
13 収音装置
15 マイクユニット
16 処理部
21 シールド材
22 カバー
23 マイク基板
24 マイクユニット
25 アンプ基板
26 ビーム幅演算基板
28 A/D変換基板
31 アンプ
32 バッファ
34 指向性演算部
35 フィルタ
37 ゲイン切替部
38 切替SW
40 PC
41 近接センサ
51 マイク指向領域
52 発話者
M1 マイク素子
M2 マイク素子
M3 マイク素子
M4 マイク素子
M5 マイク素子
M6 マイク素子

Claims (4)

  1. 複数のマイクを有するマイクユニットを備える収音装置であって、
    前記マイクユニットが、
    第1の仮想直線上に配列された少なくとも3つのマイクからなる第1のチャネルと、
    前記第1の仮想直線に対して傾いた第2の仮想直線上に配列された少なくとも3つのマイクからなる第2のチャネルと、
    前記第1及び第2の仮想直線に対して傾いた第3の仮想直線上に配列された少なくとも3つのマイクからなる第3のチャネルと、
    前記マイクユニットが取得する音の音源の方位に応じて、前記第1乃至第3のチャネルを使い分ける手段と、を備え、
    前記第1の仮想直線と前記第2の仮想直線とは、前記第1のチャネルの1つのマイクの中心点で交差し、当該第1のチャネルの1つのマイクは、前記第1及び第2のチャネルで用いられ、
    前記第2の仮想直線と前記第3の仮想直線とは、前記第2のチャネルの1つのマイクの中心点で交差し、当該第2のチャネルの1つのマイクは、前記第2及び第3のチャネルで用いられ、
    前記第3の仮想直線と前記第1の仮想直線とは、前記第3のチャネルの1つのマイクの中心点で交差し、当該第3のチャネルの1つのマイクは、前記第3及び第1のチャネルで用いられ、
    前記第1乃至第3の仮想直線が水平方向に伸び、かつ一点で交差しない
    収音装置。
  2. 前記第2の仮想直線が、前記第1の仮想直線に対して略60度傾いており、
    前記第3の仮想直線が、前記第1及び第2の仮想直線に対して略60度傾いている請求項1に記載の収音装置。
  3. 前記音源の方位を推定して、前記第1乃至第3のチャネルの中から、前記音源の方位と最も近いチャネルを選択する手段と、
    選択した前記チャネルを構成する前記マイクで検出した信号を遅延して、加算する手段と、
    をさらに備える請求項1、又は2に記載の収音装置。
  4. 請求項1乃至3のいずれか1項に記載の収音装置を頭部に有するロボット。
JP2010292173A 2010-12-28 2010-12-28 ロボット、及び収音装置 Pending JP2011101407A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010292173A JP2011101407A (ja) 2010-12-28 2010-12-28 ロボット、及び収音装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010292173A JP2011101407A (ja) 2010-12-28 2010-12-28 ロボット、及び収音装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2008300558A Division JP2010130144A (ja) 2008-11-26 2008-11-26 ロボット、収音装置、及び音声処理方法

Publications (1)

Publication Number Publication Date
JP2011101407A true JP2011101407A (ja) 2011-05-19

Family

ID=44192143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010292173A Pending JP2011101407A (ja) 2010-12-28 2010-12-28 ロボット、及び収音装置

Country Status (1)

Country Link
JP (1) JP2011101407A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016192697A (ja) * 2015-03-31 2016-11-10 株式会社熊谷組 音源方向推定装置
WO2019220768A1 (ja) * 2018-05-18 2019-11-21 ソニー株式会社 信号処理装置、信号処理方法、プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021047A (ja) * 1996-07-05 1998-01-23 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧収音装置
JP2006245725A (ja) * 2005-03-01 2006-09-14 Yamaha Corp マイクロフォンシステム
JP2007121045A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 超音波物体検知装置
JP2007225482A (ja) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd 音場測定装置および音場測定方法
JP2008054071A (ja) * 2006-08-25 2008-03-06 Hitachi Communication Technologies Ltd 紙擦れ音除去装置
JP2008126329A (ja) * 2006-11-17 2008-06-05 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1021047A (ja) * 1996-07-05 1998-01-23 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧収音装置
JP2006245725A (ja) * 2005-03-01 2006-09-14 Yamaha Corp マイクロフォンシステム
JP2007121045A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 超音波物体検知装置
JP2007225482A (ja) * 2006-02-24 2007-09-06 Matsushita Electric Ind Co Ltd 音場測定装置および音場測定方法
JP2008054071A (ja) * 2006-08-25 2008-03-06 Hitachi Communication Technologies Ltd 紙擦れ音除去装置
JP2008126329A (ja) * 2006-11-17 2008-06-05 Toyota Motor Corp 音声認識ロボットおよび音声認識ロボットの制御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016192697A (ja) * 2015-03-31 2016-11-10 株式会社熊谷組 音源方向推定装置
WO2019220768A1 (ja) * 2018-05-18 2019-11-21 ソニー株式会社 信号処理装置、信号処理方法、プログラム
US11386904B2 (en) 2018-05-18 2022-07-12 Sony Corporation Signal processing device, signal processing method, and program

Similar Documents

Publication Publication Date Title
JP3780516B2 (ja) ロボット聴覚装置及びロボット聴覚システム
US7613310B2 (en) Audio input system
JP5401760B2 (ja) ヘッドフォン装置、音声再生システム、音声再生方法
KR100499124B1 (ko) 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
EP1856948B1 (en) Position-independent microphone system
JP6065028B2 (ja) 収音装置、プログラム及び方法
JP6065030B2 (ja) 収音装置、プログラム及び方法
CN110379439B (zh) 一种音频处理的方法以及相关装置
JP2007221300A (ja) ロボット及びロボットの制御方法
CN1436436A (zh) 用于话音信号提取的方法和设备
JP2008064892A (ja) 音声認識方法およびそれを用いた音声認識装置
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
JP2018132737A (ja) 収音装置、プログラム及び方法、並びに、判定装置、プログラム及び方法
JP6226885B2 (ja) 音源分離方法、装置、及びプログラム
JP5997007B2 (ja) 音源位置推定装置
JP2011101407A (ja) ロボット、及び収音装置
JP5120504B2 (ja) マイクロホンユニット及び収音装置
JP2010130144A (ja) ロボット、収音装置、及び音声処理方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP2010056762A (ja) マイクロホンアレー
JP2011091851A (ja) ロボット、及び収音装置
JP5270259B2 (ja) 音声認識装置
JP4655572B2 (ja) 信号処理方法および信号処理装置、ならびに、ロボット
JP6065029B2 (ja) 収音装置、プログラム及び方法
JP2965301B2 (ja) 集音装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110809