JP2003066986A - 音声認識ロボット - Google Patents

音声認識ロボット

Info

Publication number
JP2003066986A
JP2003066986A JP2001252915A JP2001252915A JP2003066986A JP 2003066986 A JP2003066986 A JP 2003066986A JP 2001252915 A JP2001252915 A JP 2001252915A JP 2001252915 A JP2001252915 A JP 2001252915A JP 2003066986 A JP2003066986 A JP 2003066986A
Authority
JP
Japan
Prior art keywords
voice recognition
microphones
specific speaker
acoustic
recognition robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001252915A
Other languages
English (en)
Inventor
Koji Yamabuchi
浩二 山渕
Shuji Hashimoto
周司 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Sharp Corp
Original Assignee
Waseda University
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Sharp Corp filed Critical Waseda University
Priority to JP2001252915A priority Critical patent/JP2003066986A/ja
Publication of JP2003066986A publication Critical patent/JP2003066986A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 大型化することなく、周囲ノイズの大きな環
境でも精度の高い音声認識を可能にする。 【解決手段】 マイクロホン2〜6は、音声認識ロボッ
ト1における胴体部,右腕部先端,右腕部中央,左腕部先
端および左腕部中央に夫々1個ずつ、10cm間隔で設け
られている。そして、雑音環境下において音響焦点を合
わす必要がある場合には、両腕を広げて両端の間隔を4
0cmと大きくする。こうして、音声認識に適した500
Hz付近での雑音の±30゜よりも外側での減衰を大きく
して、特定話者へ音響焦点の効果を高め、周囲ノイズの
大きな環境でも精度の高い音声認識を可能にする。ま
た、音声認識を必要としない場合には、両腕を閉じた状
態にして、大型化することなく安定した状態にすること
ができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、特定話者の音声
を認識し、この認識結果に応じて行動する音声認識ロボ
ットに関する。
【0002】
【従来の技術】近年、ペットとしてや介護等を目的とし
て、人間と共存するロボットが注目されている。これら
のロボットは、ボタンスイッチ等による操作の他に、無
線や赤外線を用いて遠隔から操作される場合がある。し
かしながら、家庭内において親しみを感じさせるロボッ
トにするためには、ロボットが音声に反応したり、音声
によって操作できることが不可欠である。このような技
術は、特開2000‐326274号公報等に開示され
ている。
【0003】ところが、現状の音声の認識技術は、人間
の聴覚のようにロバスト性に富んだものではなく、周囲
のノイズやロボット自体から発生するメカニカルノイズ
等の影響で頻繁に誤認識し、殆ど使い物にはならない。
【0004】一方、周囲ノイズの影響をなくすために、
複数マイクによって特定話者に焦点を形成する技術も提
案されている。この技術では、複数マイクからの入力に
焦点からの距離に応じた減衰と遅延とを施し、総和をと
ることによって特定位置からの音源を強調するようにし
ている。この技術によれば、指向性マイクなどとは異な
り、あらゆる方向からの音源に対して音響焦点を合わせ
ることができる。尚、この技術に関しては、例えば、一
例として特開平8‐84392号公報等に開示されてい
る。また、マイクに対する話者の位置を得る方法とし
て、画像処理等によって行われているものもある。例え
ばその一例として、特開2000‐148184号公報
等にその方法が開示されている。
【0005】
【発明が解決しようとする課題】しかしながら、上記従
来の音源に焦点を当てて音声認識を行うロボットの場合
には、マイクロホンアレイの幅が狭ければ低周波域での
集音効果が少なくなってしまうという問題がある。すな
わち、音声認識において、音素の特徴付けに重要な第1
ホルマント領域の音声は約200Hz程度の低い領域に
まで存在し、その波長λは λ=Vc/f=0.17[m] (Vc:空気中での音速,f:
周波数) と非常に大きく、焦点外の雑音を減衰させるためにはマ
イクロホンの間隔をかなり大きく取る必要がある。
【0006】図7に、マイクロホンを5個使用し、正面
に音響焦点を合わせた場合に、音響焦点(正面)の方向か
らθだけずれた個所からの500Hzでの雑音の減衰状
態(θ=0における合成出力レベルを「1」)をシミュレー
ションした結果を示す。図7において、上記マイクロホ
ンの間隔が2.5cmで全幅が10cm(A)の場合と、マイ
クロホンの間隔が5cmで全幅が20cm(B)との場合にお
いては、減衰効果は殆ど見られない。ところが、マイク
ロホンの間隔が10cmで全幅が40cm(C)の場合におい
ては、正面から離れるに連れて大きな減衰効果が見られ
る。
【0007】すなわち、この周波数(500Hz)におい
てはマイクロホンの全幅が大きい方が集音効果は高いと
言える。したがって、±30゜よりも外側での雑音を大
きく減衰させるためには、マイクロホンアレイの全幅を
40cm以上に大きく取ることが望ましい。しかしなが
ら、全幅が常時40cm以上であるマイクロホンアレイを
有するロボットは、非常に大型のものとなり、場所を占
有するだけでなく、大型化に伴って重量も大きくなって
しまうと言う問題がある。さらに、重量の増大に起因し
て、消費電力の増大や転倒時の危険性という問題も生ず
る。
【0008】そこで、この発明の目的は、大型化するこ
となく、周囲ノイズの大きな環境でも精度の高い音声認
識が可能な音声認識ロボットを提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、この発明は、複数のマイクロホンを有して特定話者
が発する音声を認識すると共に,この音声認識結果に従
って行動する音声認識ロボットにおいて、上記複数のマ
イクロホンのうちの少なくとも一つは可動部に設けら
れ,この可動部の動作によって上記複数のマイクロホン
の配置状態が変更可能になっていることを特徴としてい
る。
【0010】上記構成によれば、可動部の動作によっ
て、複数のマイクロホンの配置状態を広げることによっ
て、集音効果が高められる。そのため、上記可動部を動
作させて複数のマイクロホンの配置を広げた状態で特定
話者に音響焦点を合わせれば、精度よく音響焦点を合わ
せることが可能になる。さらに、通常は、可動部の動作
によって、複数のマイクロホンの配置状態を閉じた状態
にして、大型化することが防止される。
【0011】また、1実施例では、この発明の音声認識
ロボットにおいて、上記可動部を動作させて上記複数の
マイクロホンの配置状態を広げた場合における両端に位
置するマイクロホンの最大間隔は、40cm以上である。
【0012】この実施例によれば、可動部の動作によっ
て、複数のマイクロホンの配置状態を広げた場合に、両
端に位置するマイクロホンの最大間隔は40cm以上にな
る。したがって、500Hz付近での雑音における±3
0゜よりも外側での減衰を大きくすることができ、音声
認識に適した波長における集音効果が高められる。
【0013】また、1実施例では、この発明の音声認識
ロボットにおいて、特定話者に音響焦点を合わせて,上
記複数のマイクロホンによって得られた上記特定話者の
音声を強調する音響焦点手段を有すると共に、上記音響
焦点を合わせる際に,上記可動部を動作させることによ
って上記特定話者に面して上記複数のマイクロホンの配
置状態を広げて両端に位置するマイクロホン間の幅を大
きくするようになっている。
【0014】この実施例によれば、可動部の動作によっ
て特定話者に面する複数のマイクロホンの配置状態が広
がり、両端に位置するマイクロホンの最大間隔が40cm
以上になれば音声認識に適した波長における集音効果が
高められる。したがって、音響焦点手段による上記特定
話者と各マイクロホンとの距離による位相差を利用した
上記特定話者の音声の強調効果が高められる。こうし
て、周囲ノイズの大きな環境であっても精度の高い音声
認識が可能になる。
【0015】また、1実施例では、この発明の音声認識
ロボットにおいて、上記特定話者の画像を入力する複数
の画像入力手段を備えて、上記音響焦点手段は、上記特
定話者に音響焦点を合わせる際に、上記複数の画像入力
手段から入力された上記特定話者の複数の画像に基づい
て決定した上記特定話者の方向および距離を用いるよう
になっている。
【0016】この実施例によれば、上記音響焦点手段に
よって、上記特定話者に音響焦点が合わせられる場合
に、複数の画像入力手段から入力された上記特定話者の
複数の画像に基づいて上記特定話者の方向および距離が
決定されて用いられる。したがって、的確に音響焦点が
合わせられる。
【0017】また、1実施例では、この発明の音声認識
ロボットにおいて、上記特定話者の画像を入力する画像
入力手段と、上記特定話者までの距離を計測する測距手
段を備えて、上記音響焦点手段は、上記特定話者に音響
焦点を合わせる際に、上記画像入力手段から入力された
上記特定話者の画像に基づいて特定した上記特定話者の
方向と、上記測距手段によって計測された上記特定話者
までの距離とを用いるようになっている。
【0018】この実施例によれば、上記音響焦点手段に
よって、上記特定話者に音響焦点が合わせられる場合
に、画像入力手段から入力された上記特定話者の画像に
基づいて上記特定話者の方向が特定される。さらに、測
距手段によって上記特定話者までの距離が計測される。
そして、上記音響焦点手段によって、上記特定話者の方
向および距離が用いられる。したがって、話者までの距
離を測距手段によって正確に測定することができ、より
精度よく音響焦点が合わせられる。
【0019】また、1実施例では、この発明の音声認識
ロボットにおいて、上記音響焦点手段は、音源位置想定
空間上に方向と距離とが既知の複数の仮想音響焦点を設
け、各マイクロホンの出力信号に対して夫々の仮想音響
焦点の方向および距離に応じた減衰および遅延を行い、
各仮想音響焦点毎に求めた全マイクロホンの減衰・遅延
信号の合成出力が最も高い仮想音響焦点位置を上記特定
話者の位置として音響焦点を合わせるようになってい
る。
【0020】この実施例によれば、上記音響焦点手段に
よって、方向と距離とが既知の複数の仮想音響焦点が設
けられ、各仮想音響焦点に音響焦点を合わせた際に最大
合成出力を呈する仮想音響焦点が上記特定話者の位置で
あるとして、以後の音響焦点合わせが行われる。したが
って、ステレオカメラ等の画像入力手段や測距センサ等
の測距手段を必要とせず、コストダウンを図ることがで
きる。さらに、音源位置を常時サーチすることができ、
複数の音響焦点に合わせた処理が可能になる。
【0021】また、1実施例では、この発明の音声認識
ロボットにおいて、上記特定話者の画像を入力する画像
入力手段を備えて、上記音響焦点手段は、上記画像入力
手段から入力された上記特定話者の画像に基づいて特定
した方向に距離が既知の複数の仮想音響焦点を設け、各
マイクロホンの出力信号に対して夫々の仮想音響焦点の
方向および距離に応じた減衰および遅延を行い、各仮想
音響焦点毎に求めた全マイクロホンの減衰・遅延信号の
合成出力が最も高い仮想音響焦点位置を上記特定話者の
位置として音響焦点を合わせるようになっている。
【0022】この実施例によれば、画像入力手段から入
力された上記特定話者の画像に基づいて上記特定話者の
方向が特定される。さらに、上記音響焦点手段によっ
て、上記特定された方向に、距離が既知の複数の仮想音
響焦点が設けられ、各仮想音響焦点に音響焦点を合わせ
た際に最大合成出力を呈する仮想音響焦点が上記特定話
者の位置として、以後の音響焦点合わせが行われる。し
たがって、仮想焦点を二次元に配置する場合に比して仮
想焦点の数が少なくなり、演算量が少なくなることによ
って高速化が図られる。
【0023】また、1実施例では、この発明の音声認識
ロボットにおいて、ノイズ音を測定するノイズ測定手段
と、上記ノイズ測定手段によって測定されたノイズ音の
レベルが所定のレベルを超えた場合には,上記複数のマ
イクロホンの配置状態を広げるように上記可動部を動作
させる可動部駆動手段を備えている。
【0024】この実施例によれば、ノイズ測定手段によ
るノイズ音のレベルが所定のレベルを超えた場合には、
可動部駆動手段によって上記可動部が動作されて上記複
数のマイクロホンの配置状態が広げられる。こうして、
ノイズ音によって上記特定話者の音声認識が困難な場合
には、自動的に上記複数のマイクロホンの配置状態が広
げられて集音効果が高められる。
【0025】また、1実施例では、この発明の音声認識
ロボットにおいて、全体が動物若しくは人間の形態を模
倣した形状を有すると共に、上記マイクロホンが設けら
れる可動部は、模倣の対象となった動物若しくは人間に
おける頭または胴体に対して可動な部分に相当してい
る。
【0026】この実施例によれば、動物若しくは人間の
形態を模倣した形状を有する音声認識ロボットにおい
て、耳や腕を広げることによって精度よく音響焦点合わ
せが行われる。
【0027】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。図1は、本実施の形態の音声
認識ロボットにおける構成を示す図である。1は音声認
識ロボット、2〜6はマイクロホンである。上記マイク
ロホンは、音声認識ロボット1の胴体部,右腕部先端,右
腕部中央,左腕部先端および左腕部中央に夫々1個ずつ
10cm間隔で設けられている。以下、上記右腕部先端に
設けられたマイクロホン2から順に、右腕部中央に設け
られたマイクロホンをマイクロホン3、胴体部に設けら
れたマイクロホンをマイクロホン4、左腕部中央に設け
られたマイクロホンをマイクロホン5、左腕部先端に設
けられたマイクロホンをマイクロホン6とする。
【0028】尚、本実施の形態においては合計5個のマ
イクロホンを用いているが、3個以上であれば同様の構
成を得ることは可能である。また、マイクロホン2〜6
の両端幅(マイクロホン2とマクロホン6との間隔)をそ
のままにし、さらに多くのマイクロホンを設けた場合に
は、高周波領域までの集音効果をより高めることができ
る。
【0029】図1は、音声認識ロボット1が、雑音環境
下において人の音声を認識する状態を示す。この状態で
は、音声ロボット1は大きく両腕を広げ、マイクロホン
2〜6の間隔を夫々10cmずつ、全幅を40cmと大きく
している。また、音声認識を必要としない移動時や休止
時の状態、あるいは、音響環境が優れるため雑音が少な
い状態の場合には、音声認識ロボット1は、図2に示す
ように両腕を閉じた状態となり、スペースを占有せずに
安定した状態になることができる。
【0030】上記音声認識ロボット1は、通常は両腕を
閉じた図2に示す状態で動作している。そして、中央の
マイクロホン4によって音声認識を行い、その認識結果
に対応した行動を行うようにしている。しかしながら、
人間の発声を検知はしているが、音声認識が困難であ
り、音響焦点を合わす必要があると判断した場合には、
両腕を広げて図1に示すような姿勢となる。
【0031】尚、この音響焦点を合わす必要があるとの
判断は、人間の発声が停止した際の音響レベル(つま
り、ノイズ音の音響レベル)と予め設定された所定の音
響レベルとの比較をCPU(中央演算処理装置)(図示せ
ず)によって行う。そして、上記所定の音響レベルを超
えたと判断した場合には、上記両腕を動かすモータ等の
駆動手段(図示せず)を制御して、上記両腕を横に広げる
のである。
【0032】図1に示すように、両腕を横に広げた場合
には、マイクロホン2〜6は直線状に配置されるが、屈
んだり深呼吸したような姿勢をとることによって、マイ
ク間隔を狭めたり湾曲させたりすることもできる。尚、
マイクロホン2〜6の取付精度は、例えば画像を得るた
めのステレオカメラ18のように厳密な精度は必要な
く、マイクロホン2〜6の指向性や行程差に影響のない
範囲(例えば、角度で言えば数度以内、間隔で言えば数m
m以内)の誤差であれば、集音効果を得ることはできる。
【0033】次に、図1に示すように、両腕を広げて、
音声を受け付ける状態になった場合に、音響焦点を合わ
せる方法について説明する。図3は、既知の音源11の
位置に音響焦点を合わせた状態を示し、その場合におけ
る音源11から各マイクロホン2〜6までの距離を夫々
2〜l6とする。マイクロホン2〜6からの音声出力
は、夫々の距離l2〜l6に応じたゲイン調整と遅延とを
行うゲイン調整・遅延回路12〜16を通ることによっ
て、夫々の音の大きさと位相とが同じに揃えられて合成
される。
【0034】したがって、音響焦点と一致した位置から
の音源11に対しては、夫々のマイクロホン2〜6の出
力の大きさと位相とは一致しており、合成することによ
って強調される。ところが、音響焦点から外れた個所か
らの音源17に対しては、マイクロホン2〜6までの距
離はl2 '〜l6 'であるため、予め距離をl2〜l6として
設定した遅延量に対して位相が揃わず、合成することに
よって減衰するようになっている。したがって、焦点に
合った位置からの音源11に対しては音が強調され、焦
点以外の位置からの雑音に対しては音が減衰されるので
ある。
【0035】尚、夫々のマイクロホン2〜6の指向特性
については、一般的なコンデンサマイクを用いる場合に
は、ゲインGを G=a+bcosθ (θ:正面からの角度) 但し、a>0,b>0,a≧b として、マイクロホン単体での定数a,bを求めること
によって、距離に応じたゲイン補正の場合と同様に、各
マイクロホン2〜6に対する音源の方向による出力補正
を行えば良い。
【0036】次に、音響焦点を求める方法について説明
する。図4において、先ず、音声認識ロボット1に搭載
したステレオカメラ18の画像情報(例えば肌色認識)に
よって視野内での人の顔を検出する。その顔の中で例え
ば一例として口が動いている人を特定話者と判断し、ス
テレオ視することによってステレオカメラ18に対する
特定話者の位置Pを検出する。そして、ステレオカメラ
18に対する音声認識ロボット1の首部や腕部等の関節
角度からマイクロホン2〜6に対する特定話者の位置
(距離)を算出し、音響焦点を合わせるのである。尚、上
記ステレオ視における奥行情報の精度が悪い場合には、
ステレオカメラ18の近傍に設けた赤外線や超音波等に
よる測距センサ19によって、特定話者までの正確な距
離を求めてもよい。この測距センサ19を用いる場合に
は、カメラは、ステレオカメラ18ではなく1つのカメ
ラがであっても同様に音響焦点を求めることはできる。
尚、20はバッファである。
【0037】次に、音響焦点を求める別の方法について
説明する。図5において、先ず、特定話者が発声してい
る瞬間に各マイクロホン2〜6からの音声出力信号をバ
ッファ20に一時保存し、マイクロホンアレイの前方に
任意の仮想焦点P11〜Pmnがあったと仮定して、図3に
示す方法と同様にして、一時保存した音声出力信号に1
つの仮想焦点Pijから各マイクロホン2〜6までの距離
に対する減衰と遅延とをゲイン調整・遅延回路12〜1
6によって行う。これによって得られた各マイクロホン
2〜6における出力結果を合成しその大きさ仮想焦点P
ijの位置と共に保存する。こうして、矢印に示すごとく
夫々の仮想焦点Pijについて同様に走査を行い、合成出
力が最も大きい仮想焦点Pijの位置を実際の音響焦点と
するのである。
【0038】この方法によれば、上記マイクロホンアレ
イのみで音響焦点を求めることができ、ステレオカメラ
18や測距センサ19のような新たなセンサ等を設ける
必要はない。また、指向性マイクのように各マイクロホ
ン2〜6を予め話者の方向へ向けておく必要もなく、音
響焦点を合わせたい話者の切り換えも瞬時に行うことが
できる。さらに、これらの処理を高速に行うことができ
れば、音源方向を常時サーチすることによって複数個の
音響焦点を監視することができ、夫々の音響焦点に合わ
せた処理を行えば、例えば音声認識ロボット1の前にい
る2人以上の人間の会話も分離して認識させることも可
能になる。
【0039】次に、音響焦点を求めるもう一つの方法に
ついて説明する。図6において、先ず、上記マイクロホ
ンアレイ2〜6との相対位置が既知の単一のカメラ20
によって話者の方向Dθの定位を行い、その方向Dθ
おいて距離が異なる仮想焦点Pθ1〜Pθnを仮定する。
これら仮想焦点Pθ1〜Pθnに対して、図5に示す方法
と同様にして合成出力が最も大きな仮想焦点Pθiの位
置を求める。そして、その仮想焦点Pθiの位置を、実
際の音響焦点とするのである。この方法によれば、仮想
焦点の数が図5に示すカメラ20を用いない場合に比べ
て非常に少なくなり、演算量も少なくなるためより高速
に処理を行うことができるのである。
【0040】上述のごとく、本実施の形態においては、
音声認識ロボット1における胴体部,右腕部先端,右腕部
中央,左腕部先端および左腕部中央に夫々1個ずつ、1
0cm間隔でマイクロホン2〜6を設けている。そして、
雑音環境下において音響焦点を合わす必要がある場合に
は、図1に示すように両腕を広げて両端に位置するマイ
クロホン2,6の間隔を40cmと大きくするようにして
いる。したがって、音声認識に適した500Hz付近で
の雑音における±30゜よりも外側での減衰を大きくす
ることができ、特定話者と各マイクロホン2〜6との距
離による位相差を利用したその特定話者へ音響焦点の効
果を高めることができる。すなわち、周囲ノイズの大き
な環境であっても精度の高い音声認識が可能になるので
ある。
【0041】さらに、音声認識を必要としない場合に
は、音声認識ロボット1を、図2に示すように両腕を閉
じた状態とすることによって、スペースを占有せずに安
定した状態にすることができるのである。
【0042】また、両腕を広げて音響焦点を合わす場合
には、ステレオカメラ18によるステレオ視によって話
者の方向および距離を特定し、それに基づいて各マイク
ロホン2〜6に対する話者の位置(距離)を算出すること
によって音響焦点を合わせるようにしている。したがっ
て、的確に音響焦点を合わせることができる。
【0043】また、カメラによって話者の方向を特定す
ると共に、測距センサ19によって話者までの距離を測
定し、それらに基づいて各マイクロホン2〜6に対する
話者の位置を算出することによって音響焦点を合わせて
いる。したがって、話者までの距離を正確に測定するこ
とができ、より精度よく音響焦点を合わせることができ
るのである。
【0044】また、話者の周囲における音源想定空間上
に複数個の仮想焦点を二次元に配置し、マイクロホン2
〜6の出力信号に対して夫々の仮想焦点Pijに応じた減
衰・遅延をゲイン調整・遅延回路12〜16によって行
い、その合成出力が最も高い位置を音響焦点とするよう
にしている。したがって、ステレオカメラ18や測距セ
ンサ19のような新たなセンサ等を設ける必要がなく、
コストダウンを図ることができる。さらに、音源位置を
常時サーチすることによって複数の音響焦点を監視する
ことができ、夫々の音響焦点に合わせた処理を行うこと
ができる。
【0045】また、カメラ20によって話者の方向を特
定し、その方向に一次元の仮想焦点を設け、マイクロホ
ン2〜6の出力信号に対して夫々の仮想焦点Pθiに応
じた減衰・遅延をゲイン調整・遅延回路12〜16によっ
て行い、その合成出力が最も高い位置を音響焦点とする
ようにしている。したがって、仮想焦点を二次元に配置
する場合に比して仮想焦点の数を少なくし、演算量が少
なくなることによって高速化を図ることができる。
【0046】尚、本実施の形態においては、人間の形態
をした音声認識ロボット1について説明したが、これに
限らず他の動物型を成していても差し支えない。例え
ば、ウサギ型のロボットや長い耳を持った犬型のロボッ
トの形にして、頭部と可動する両耳とにマイクロホンを
配置するのである。また、マイクロホンの位置が可変で
きる機構を持ったロボットであれば、如何なる形態のロ
ボットであっても、如何なる可変機構であっても良いこ
とは言うまでもない。
【0047】
【発明の効果】以上より明らかなように、この発明の音
声認識ロボットは、複数のマイクロホンのうちの少なく
とも一つを可動部に設けて配置状態を変更可能にしたの
で、複数のマイクロホンの配置状態を広げて集音効果を
高めることができる。したがって、上記複数のマイクロ
ホンの配置を広げた状態で特定話者に音響焦点を合わせ
れば、精度よく音響焦点を合わせることができる。さら
に、通常は、可動部を閉じた状態にしておくことによっ
て、大型化することを防止できる。
【0048】また、1実施例の音声認識ロボットは、上
記可動部を動作させて上記複数のマイクロホンの配置状
態を広げた場合における両端に位置するマイクロホンの
最大間隔を、40cm以上としたので、500Hz付近で
の雑音における±30゜よりも外側での減衰を大きくす
ることができる。したがって、音声認識に適した波長に
おける集音効果を高めることができる。
【0049】また、1実施例の音声認識ロボットは、特
定話者の音声を強調する音響焦点手段を有すると共に、
音響焦点を合わせる際に、上記可動部を動作させること
によって上記特定話者に面して上記複数のマイクロホン
の配置状態を広げて両端に位置するマイクロホン間の幅
を大きくするので、上記両端に位置するマイクロホンの
最大間隔を40cm以上にすれば、音声認識に適した波長
における集音効果を高めることが可能になる。したがっ
て、上記音響焦点手段による上記特定話者と各マイクロ
ホンとの距離による位相差を利用した上記特定話者の音
声の強調効果を高めることができる。すなわち、この実
施例によれば、周囲ノイズの大きな環境であっても精度
の高い音声認識を行うことが可能になる。
【0050】また、1実施例の音声認識ロボットは、上
記音響焦点手段を、上記特定話者に音響焦点を合わせる
際に、複数の画像入力手段から入力された上記特定話者
の複数の画像に基づいて決定した上記特定話者の方向お
よび距離を用いるようにしたので、的確に音響焦点を合
わせることができる。
【0051】また、1実施例の音声認識ロボットは、上
記音響焦点手段を、上記特定話者に音響焦点を合わせる
際に、画像入力手段から入力された上記特定話者の画像
に基づいて特定した上記特定話者の方向と、測距手段に
よって計測された上記特定話者までの距離とを用いるよ
うにしたので、話者までの距離を測距手段によって正確
に測定することができ、より精度よく音響焦点を合わせ
ることができる。
【0052】また、1実施例の音声認識ロボットは、上
記音響焦点手段を、各マイクロホンの出力信号に対して
複数の仮想音響焦点の方向および距離に応じた減衰およ
び遅延を行い、全マイクロホンの減衰・遅延信号の合成
出力が最も高い仮想音響焦点位置を特定話者の位置とし
て音響焦点を合わせるようにしたので、上記画像入力手
段や測距手段を必要とはせず、コストダウンを図ること
ができる。さらに、音源位置を常時サーチすることがで
き、複数個の音響焦点に合わせた処理を行うことができ
る。
【0053】また、1実施例の音声認識ロボットは、上
記音響焦点手段を、画像入力手段からの画像に基づいて
特定した特定話者の方向に複数の仮想音響焦点を設け、
各マイクロホンの出力信号に対して夫々の仮想音響焦点
の方向および距離に応じた減衰および遅延を行い、全マ
イクロホンの減衰・遅延信号の合成出力が最も高い仮想
音響焦点位置を特定話者の位置として音響焦点を合わせ
るようにしたので、上記仮想焦点を二次元に配置する場
合に比して仮想焦点の数を少なくでき、演算量を少なく
して高速化を図ることができる。
【0054】また、1実施例の音声認識ロボットは、ノ
イズ測定手段によるノイズ音のレベルが所定のレベルを
超えた場合には、可動部駆動手段によって、上記可動部
を動作させて上記複数のマイクロホンの配置状態を広げ
るので、ノイズ音によって上記特定話者の音声認識が困
難な場合には、自動的に上記複数のマイクロホンの配置
状態を広げて集音効果を高めることができる。
【0055】また、1実施例の音声認識ロボットは、全
体が動物若しくは人間の形態を模倣した形状を有すると
共に、上記マイクロホンが設けられる可動部を頭または
胴体に対して可動な部分としたので、動物若しくは人間
の形態を模倣した形状を有する音声認識ロボットにおい
て、耳や腕を広げることによって精度よく音響焦点合わ
せを行うことができる。
【図面の簡単な説明】
【図1】 この発明の音声認識ロボットにおける両腕を
広げた(音声認識)状態を示す構成図である。
【図2】 図1に示す音声認識ロボットにおける両腕を
閉じた状態を示す図である。
【図3】 音響焦点を合わせる方法の説明図である。
【図4】 音響焦点を求める方法の説明図である。
【図5】 図4とは異なる音響焦点を求める方法の説明
図である。
【図6】 図4及び図5とは異なる音響焦点を求める方
法の説明図である。
【図7】 500Hz雑音の減衰状態を示す図である。
【符号の説明】
1…音声認識ロボット、 2〜6…マイクロホン、 11…音響焦点と一致した音源、 12〜16…ゲイン調整・遅延回路、 17…音響焦点から外れた音源、 18…ステレオカメラ、 19…測距センサ、 20…バッファ。
フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/20 G10L 3/02 301E 15/24 3/00 571Q 15/28 511 21/02 (72)発明者 橋本 周司 東京都新宿区大久保3−4−1 学校法人 早稲田大学理工学部内 Fターム(参考) 2C150 BA11 CA01 CA02 DA04 DA05 DA24 DA26 DA27 DA28 DF03 DF04 DF06 DF33 ED42 ED52 EF16 EF29 EF33 5B050 AA10 BA12 DA07 EA07 FA10 5B057 AA05 CA12 CB13 CD14 DA07 DC08 5D015 AA03 BB01 EE06 KK01 LL10

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 複数のマイクロホンを有して特定話者が
    発する音声を認識すると共に、この音声認識結果に従っ
    て行動する音声認識ロボットにおいて、 上記複数のマイクロホンのうちの少なくとも一つは可動
    部に設けられ、この可動部の動作によって上記複数のマ
    イクロホンの配置状態が変更可能になっていることを特
    徴とする音声認識ロボット。
  2. 【請求項2】 請求項1に記載の音声認識ロボットにお
    いて、 上記可動部を動作させて上記複数のマイクロホンの配置
    状態を広げた場合における両端に位置するマイクロホン
    の最大間隔は、40cm以上であることを特徴とする音声
    認識ロボット。
  3. 【請求項3】 請求項1あるいは請求項2に記載の音声
    認識ロボットにおいて、 特定話者に音響焦点を合わせて、上記複数のマイクロホ
    ンによって得られた上記特定話者の音声を強調する音響
    焦点手段を有すると共に、 上記音響焦点を合わせる際に、上記可動部を動作させる
    ことによって、上記特定話者に面して上記複数のマイク
    ロホンの配置状態を広げて両端に位置するマイクロホン
    間の幅を大きくするようになっていることを特徴とする
    音声認識ロボット。
  4. 【請求項4】 請求項3に記載の音声認識ロボットにお
    いて、 上記特定話者の画像を入力する複数の画像入力手段を備
    えて、 上記音響焦点手段は、上記特定話者に音響焦点を合わせ
    る際に、上記複数の画像入力手段から入力された上記特
    定話者の複数の画像に基づいて決定した上記特定話者の
    方向および距離を用いるようになっていることを特徴と
    する音声認識ロボット。
  5. 【請求項5】 請求項3に記載の音声認識ロボットにお
    いて、 上記特定話者の画像を入力する画像入力手段と、 上記特定話者までの距離を計測する測距手段を備えて、 上記音響焦点手段は、上記特定話者に音響焦点を合わせ
    る際に、上記画像入力手段から入力された上記特定話者
    の画像に基づいて特定した上記特定話者の方向と、上記
    測距手段によって計測された上記特定話者までの距離と
    を用いるようになっていることを特徴とする音声認識ロ
    ボット。
  6. 【請求項6】 請求項3に記載の音声認識ロボットにお
    いて、 上記音響焦点手段は、音源位置想定空間上に方向と距離
    とが既知の複数の仮想音響焦点を設け、各マイクロホン
    の出力信号に対して夫々の仮想音響焦点の方向および距
    離に応じた減衰および遅延を行い、各仮想音響焦点毎に
    求められた全マイクロホンの減衰・遅延信号の合成出力
    が最も高い仮想音響焦点位置を上記特定話者の位置とし
    て音響焦点を合わせるようになっていることを特徴とす
    る音声認識ロボット。
  7. 【請求項7】 請求項3に記載の音声認識ロボットにお
    いて、 上記特定話者の画像を入力する画像入力手段を備えて、 上記音響焦点手段は、上記画像入力手段から入力された
    上記特定話者の画像に基づいて特定した特定話者の方向
    に距離が既知の複数の仮想音響焦点を設け、各マイクロ
    ホンの出力信号に対して夫々の仮想音響焦点の方向およ
    び距離に応じた減衰および遅延を行い、各仮想音響焦点
    毎に求められた全マイクロホンの減衰・遅延信号の合成
    出力が最も高い仮想音響焦点位置を上記特定話者の位置
    として音響焦点を合わせるようになっていることを特徴
    とする音声認識ロボット。
  8. 【請求項8】 請求項3乃至請求項7の何れか一つに記
    載の音声認識ロボットにおいて、 ノイズ音を測定するノイズ測定手段と、 上記ノイズ測定手段によって測定されたノイズ音のレベ
    ルが所定のレベルを超えた場合には、上記複数のマイク
    ロホンの配置状態を広げるように上記可動部を動作させ
    る可動部駆動手段を備えたことを特徴とする音声認識ロ
    ボット。
  9. 【請求項9】 請求項3乃至請求項8の何れか一つに記
    載の音声認識ロボットにおいて、 全体が動物若しくは人間の形態を模倣した形状を有する
    と共に、上記マイクロホンが設けられる可動部は、模倣
    の対象となった動物若しくは人間における頭または胴体
    に対して可動な部分に相当することを特徴とする音声認
    識ロボット。
JP2001252915A 2001-08-23 2001-08-23 音声認識ロボット Pending JP2003066986A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001252915A JP2003066986A (ja) 2001-08-23 2001-08-23 音声認識ロボット

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001252915A JP2003066986A (ja) 2001-08-23 2001-08-23 音声認識ロボット

Publications (1)

Publication Number Publication Date
JP2003066986A true JP2003066986A (ja) 2003-03-05

Family

ID=19081315

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001252915A Pending JP2003066986A (ja) 2001-08-23 2001-08-23 音声認識ロボット

Country Status (1)

Country Link
JP (1) JP2003066986A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP2007248534A (ja) * 2006-03-13 2007-09-27 Nara Institute Of Science & Technology 音声認識装置、周波数スペクトル取得装置および音声認識方法
JP2009188970A (ja) * 2008-01-07 2009-08-20 Sony Corp センサ情報取得装置、センサ装置、情報提示装置、移動型情報提示装置、センサ制御方法、センサ処理方法及び情報提示方法
JP2011502884A (ja) * 2007-11-13 2011-01-27 ティーケー ホールディングス,インコーポレーテッド 車両内で可聴入力を受信するシステムおよび方法
US9302630B2 (en) 2007-11-13 2016-04-05 Tk Holdings Inc. System and method for receiving audible input in a vehicle
US9520061B2 (en) 2008-06-20 2016-12-13 Tk Holdings Inc. Vehicle driver messaging system and method
CN109192214A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人
KR20200093933A (ko) * 2019-01-29 2020-08-06 성창경 코딩 로봇 작동 제어 유닛 및 상기 코딩 로봇 작동 제어 유닛의 제어 방법
JP2020151012A (ja) * 2019-03-18 2020-09-24 トヨタ自動車株式会社 コミュニケーションシステム、及びコミュニケーションシステムの制御方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250397A (ja) * 2004-03-08 2005-09-15 Nec Corp ロボット
JP4655572B2 (ja) * 2004-03-25 2011-03-23 日本電気株式会社 信号処理方法および信号処理装置、ならびに、ロボット
JP2005309366A (ja) * 2004-03-25 2005-11-04 Nec Corp 信号処理方法および信号処理装置
JP2007248534A (ja) * 2006-03-13 2007-09-27 Nara Institute Of Science & Technology 音声認識装置、周波数スペクトル取得装置および音声認識方法
US9302630B2 (en) 2007-11-13 2016-04-05 Tk Holdings Inc. System and method for receiving audible input in a vehicle
JP2011502884A (ja) * 2007-11-13 2011-01-27 ティーケー ホールディングス,インコーポレーテッド 車両内で可聴入力を受信するシステムおよび方法
JP2009188970A (ja) * 2008-01-07 2009-08-20 Sony Corp センサ情報取得装置、センサ装置、情報提示装置、移動型情報提示装置、センサ制御方法、センサ処理方法及び情報提示方法
JP4525792B2 (ja) * 2008-01-07 2010-08-18 ソニー株式会社 センサ情報取得装置及びセンサ制御方法
US9520061B2 (en) 2008-06-20 2016-12-13 Tk Holdings Inc. Vehicle driver messaging system and method
CN109192214A (zh) * 2018-08-21 2019-01-11 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人
CN109192214B (zh) * 2018-08-21 2023-03-03 平安科技(深圳)有限公司 一种语音取号方法、存储介质和机器人
KR20200093933A (ko) * 2019-01-29 2020-08-06 성창경 코딩 로봇 작동 제어 유닛 및 상기 코딩 로봇 작동 제어 유닛의 제어 방법
KR102198439B1 (ko) 2019-01-29 2021-01-05 성창경 코딩 로봇 작동 제어 유닛 및 상기 코딩 로봇 작동 제어 유닛의 제어 방법
JP2020151012A (ja) * 2019-03-18 2020-09-24 トヨタ自動車株式会社 コミュニケーションシステム、及びコミュニケーションシステムの制御方法
JP7180470B2 (ja) 2019-03-18 2022-11-30 トヨタ自動車株式会社 コミュニケーションシステム、及びコミュニケーションシステムの制御方法

Similar Documents

Publication Publication Date Title
JP3771812B2 (ja) ロボットおよびその制御方法
US11601764B2 (en) Audio analysis and processing system
CN109141620B (zh) 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
KR100499124B1 (ko) 직교 원형 마이크 어레이 시스템 및 이를 이용한 음원의3차원 방향을 검출하는 방법
JP5606543B2 (ja) 自動操作型指向性ラウドスピーカおよびその作動方法
JP5456832B2 (ja) 入力された発話の関連性を判定するための装置および方法
JP5751610B2 (ja) 会話ロボット
CN107490127B (zh) 空调器送风控制方法、电子设备和计算机可读存储介质
US20120120218A1 (en) Semi-private communication in open environments
JP3627058B2 (ja) ロボット視聴覚システム
KR101402551B1 (ko) 음성 활동 감지(vad) 장치 및 잡음 억제 시스템을 함께 이용하기 위한 방법
JP2007221300A (ja) ロボット及びロボットの制御方法
JP4024683B2 (ja) コミュニケーションロボット
JP2003066986A (ja) 音声認識ロボット
JP4131392B2 (ja) ロボット装置およびロボット制御方法、記録媒体、並びにプログラム
JP2008126329A (ja) 音声認識ロボットおよび音声認識ロボットの制御方法
JP2008064892A (ja) 音声認識方法およびそれを用いた音声認識装置
JP6977448B2 (ja) 機器制御装置、機器制御プログラム、機器制御方法、対話装置、及びコミュニケーションシステム
CN112513983A (zh) 可穿戴系统语音处理
JP4677593B2 (ja) コミュニケーションロボット
WO2017158586A1 (en) Laser-based system and optical microphone having increased bandwidth
PT1257146E (pt) Método e sistema de processamento de som
WO2018086056A1 (zh) 一种自动识别捕捉人脸定位的组合式音响系统
JP2019054385A (ja) 集音機器、補聴器、及び集音機器セット
JP2023514462A (ja) 眼鏡フレーム内に一体化可能な補聴システム