JP2005529421A - 可動ユニット及び可動ユニットを制御する方法 - Google Patents
可動ユニット及び可動ユニットを制御する方法 Download PDFInfo
- Publication number
- JP2005529421A JP2005529421A JP2004512119A JP2004512119A JP2005529421A JP 2005529421 A JP2005529421 A JP 2005529421A JP 2004512119 A JP2004512119 A JP 2004512119A JP 2004512119 A JP2004512119 A JP 2004512119A JP 2005529421 A JP2005529421 A JP 2005529421A
- Authority
- JP
- Japan
- Prior art keywords
- movable unit
- user
- unit
- quality
- target location
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000005540 biological transmission Effects 0.000 claims abstract description 26
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 230000033001 locomotion Effects 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Manipulator (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
ロボット(12)といった可動ユニット、及び可動ユニットを制御する方法を記載する。可動ユニットは移動運動手段を有し、音声信号を獲得且つ認識可能である。例えば、ユーザ(24)からの可動ユニットの距離又は音響干渉源(20、22)によって、可動ユニットの位置が、ユーザからの音声コマンドが適切な品質標準で伝送される又は認識されない位置である場合、伝送又は認識品質が恐らくより良いであろう少なくとも1つの目標場所(28)が決定される。可動ユニットは、その目標位置に移動する。可動ユニットは、この場合、ユーザからの音声信号のための予想される伝送品質を絶えず決定し得る。同様に、認識品質も音声信号が受信され且つ認識された後でのみ決定されることも可能である。認識品質又は予想される伝送品質が、所定の閾値より下である場合、可動ユニットが移動するための目標位置が決定される。しかし、1つの実施例では、目標場所への移動に対し決定される負担が高すぎる場合には、可動ユニットの移動は中止される場合もある。この場合、メッセージがユーザに伝えられる。
Description
本発明は、可動ユニットと、可動ユニットを制御する方法に係る。
周知の可動ユニットを形成する様々な用途のためのロボットがある。
「可動ユニット」の意味するところは、移動運動のための独自の手段を有するユニットである。このユニットは、例えば、家の中を動き回り、その機能を行うロボットであり得る。しかし、例えば、工業企業における製造環境における可動ユニットでも同様にあり得る。
このような種類のユニットに対し音声制御を使用することは周知である。この場合、ユーザは、音声コマンドでユニットを制御することができる。更に、ユーザが様々な情報項目について問うユーザと可動ユニット間で会話が交わされることも可能である。
更には、音声認識技法も知られている。この技法では、認識される単語列は、音声信号に相関される。話者依存型及び話者独立型音声認識システムがともに周知である。
周知の音声認識システムは、話者の位置が、捕捉システムに対して最適化される用途的状況において用いられる。例えば、口述記録システム又は電話機システムにおける音声認識の使用が知られており、両方の場合において、ユーザは、そのために設けられているマイクロホンに直接話し掛けること。一方、音声認識が、可動ユニットのコンテキストで用いられる場合、可動ユニットであること自体が、音響信号が捕捉される場所への信号経路上に発生し得る幾つかの妨害があるということを意味するという問題を有する。これらには、一方には、例えば、スピーカといったノイズ源及び家庭用電化製品が動く際に発するノイズといった音響干渉源がある。しかし、他方には、可動ユニットからユーザへの距離と、可動ユニットとユーザ間にある任意の音減衰又は音反射障害物も影響を及ぼす。この結果、可動ユニットの音声コマンドを正確に理解する能力は、生存する状況に応じて大幅に異なる。
JP−A09146586から、背景ノイズをモニタリングするユニットが設けられた音声認識ユニットが公知である。背景ノイズを参照することによって、音声信号の品質が最低閾値より上か否かが判断される。音声信号の品質が最低閾値より上でないと判断されると、音声信号の品質が良好でないことがユーザに伝えられる。この解決策の不利点は、ユーザに対する要求がかなり高いということである。
従って、本発明は、可能な限り良好な音声信号の認識を一貫して達成することのできる可動ユニットとその可動ユニットを制御する方法を明記することを目的とする。
この目的は、請求項1及び2のいずれかに記載した可動ユニットと、請求項8及び9に記載した可動ユニットを制御する方法によって達成される。従属項は、本発明の有利な実施例に関連する。
請求項1及び2に記載した可動ユニットと、請求項8及び9に記載した制御方法は、それぞれ、この目的を達成する手段を構成する。これらの目的を達成する手段は、幾つかの共通事項を有する。
両方の場合において、本発明の可動ユニットは、音声信号を獲得且つ認識する手段を有する。音声信号は、複数のマイクロホンによって音響信号の形で捕捉されることが好適であり、通常はデジタル形式で処理される。周知の音声処理技法が、捕捉された音声信号に適用される。音声認識のための周知の技法は、例えば、仮定、即ち、例えば、音素を、捕捉された音響信号から信号処理技法によって抽出された属性ベクトルとの相関に基づいている。以前の訓練から、各音素に対して対応する属性ベクトルの確率分布が既知である。音声認識では、様々な仮説、つまり、様々な音素は、所与の場合に存在する属性ベクトルが当該の仮定の既知の確率分布に適合する確率を表すスコアで格付けされる。この音声認識の暫定的な結果は、最高スコアを有する仮定である。更に当業者には、例えば、語彙集を用いることによって有効と考えられる音素連鎖を制限する、又は、音声モデルを用いることによってよりもっともらしい単語列を優先することによって、認識を向上する更なる可能性も周知であろう。
本発明の第1の面(請求項1)では、音声信号が捕捉されて認識されると、認識の品質が十分に良好か否かが評価される。このために、認識品質を評価する評価手段が、用いられる音声認識手段と並列に適用される。音響音声列が処理されると、周知の音声認識アルゴリズムによって、認識された単語列と共に、認識品質がどれくらい良好かに関する情報を与える信頼インジケータが供給される。
従って、請求項1に記載する可動ユニットは、得られた認識品質が十分に良好か否かを決定する制御ユニットを有する。このことは、供給された信頼インジケータを、固定値に予め設定される又は可変値に設定可能な最小閾値と比較することによって行われる。制御ユニットが、認識品質が十分に良好ではない、即ち、例えば、所定の最小閾値より下であると決定すると、制御ユニットは、認識品質が恐らくより良い可動ユニット用の目標場所を決定する。このために、制御ユニットは、可動ユニットが決定された目標場所に移動するよう可動ユニットの移動運動手段を作動させる。
請求項2に記載するように、本発明の第2の面では、同様に、可動ユニットは、移動運動手段と、音声信号用の捕捉及び評価手段を有する。しかし、認識品質を向上するために、ここでは、音響音声信号の伝送路の品質が継続的に、即ち、音声信号が既に放射された後、及び、必要なとき、即ち、伝送の品質があまり良好でないという予想があるときだけでなく評価され、可動ユニットは適宜移動させられる。
このために、ユーザからの音声信号が可動ユニットに伝送される際の予想の品質が決定される。得られた結果が満足のいくものでない場合、可動ユニット用の認識品質が恐らくより良い位置が決定される。
本発明のこれら2つの面は、請求項1及び2、並びに、請求項8及び9にそれぞれ記載され、一方で、現在受信された音声信号用の認識品質のモニタリングと、他方で伝送の品質の継続的なモニタリングは、それぞれ、意図する目的を達成し、互いとは別々に、各手順において、可動ユニットによる音響音声信号の認識を向上する。しかし、これらの2つの面は、組合わせられても十分である。以下に説明する本発明の実施例は、上述した面の1つ又は両方の面に関連して使用され得る。
複数の目標場所が決定され得、その場合、制御ユニットは、これらの目標場所のうち好適である目標場所を選択し、可動ユニットがこの選択された目標場所に移動するよう移動運動手段を作動させる。制御ユニットは、最初に、可動ユニットの選択された目標場所への移動に関する移動すべき距離、又は、推定移動時間といった好適な基準を参照して測定される負担を決定することが好適である。
本発明の1つの実施例では、可動ユニットは、いつも目標場所に移動するとは限らない。負担が所定の最大閾値より大きい場合には、ユニットを移動させるのではなく、ユーザにメッセージが与えられる。このようにすると、ユーザは、可動ユニットはそのとき音声コマンドを受信することができないこと、又は、受信したとしても認識品質が低いことを理解することができる。この場合、ユーザは、例えば、より適した場所を選択するか、又は、例えば、ラジオを消すことによって干渉源の影響を低減する等反応することができる。
可動ユニットは、幾つかのマイクロホンを有することが好適である。複数のマイクロホンを用いることによって、捕捉される信号の発生点の位置を突き止めることが可能である。例えば、音声コマンドの発生点(即ち、ユーザの位置)の位置を突き止めることが可能である。同様に、音響干渉源の位置も決定することが可能である。複数のマイクロホンがある場合、所望の信号は、ビームを形成することによって感知マイクロホン群によって所与の嗜好性が得られるよう捕捉されることが好適である。このことは、ビーム領域外の干渉源の影響かなり低減することができる。しかし、一方、ビーム領域内にある干渉源は、非常に強い影響を有する。従って、好適な目標場所を決定する際に、位置のみならず方向についても許容差が与えられる。
可動ユニットは、そのワールドのモデルを有することが好適である。これは、可動ユニットの3次元環境についての情報がメモリ内に格納されることを意味する。格納される情報は、一方で、予め格納される場合もある。例えば、部屋のサイズ、部屋の中にある固定の対象物の形状及び位置についての情報は、家庭用ロボットに意図的に伝送され得る。或いは、又は、更に、ワールドモデルの情報は、このような種類のメモリに絶えずロードする及び/又は更新するためにセンサからのデータを用いて獲得することも可能である。このセンサからのデータは、例えば、光学センサ(カメラ、画像認識設備)又は音響センサ(マイクロホンアレイ、シグナルロケーション設備)からもたらされ得る。
可動ユニットのワールドモデルの一部として、メモリは、音響干渉源の位置と、必要な場合には音響干渉源の方向と、少なくとも1人のユーザの位置及び視線方向と、物理的障害物の位置及び形状を有する。可動ユニットの現在位置及び方向もクエリーされることが可能である。各実施において上述した全ての情報が格納される必要はない。ユーザの位置に対する可動ユニットの位置及び方向を決定可能であればよい。
本発明の音声認識手段及び認識品質を評価する手段と、制御ユニットは、単純に機能ユニットとして理解すべきである。事実、実際の実施では、これらのユニットは、別々のサブ組立体の形であり得る。しかし、これらの機能ユニットが、上述した全ての機能性を組合わせるプログラムを実行するマイクロプロセッサ又はシグナルプロセッサを有する電子回路によって実施されることが好適である。
本発明の上述の及び他の面は、以下に説明する実施例を参照しながら明らかにし且つ説明する。
図1は、部屋10を示す平面図である。部屋10の中には、ロボット12の形の可動ユニットがある。図1には、ロボット12は、ある動きを説明することを可能にするための別の位置12aにある様子も示す。
部屋10内には、音声コマンドでロボット12を制御するユーザ24がいる。
部屋10には、ロボットにとって幾つかの物理的障害物、即ち、テーブル14、ソファ16、及び食器棚18がある。
部屋10の中には更に、ここでは、スピーカ20、22の形である音響干渉源がある。スピーカ20、22は、ユーザ24からの音声信号上に重なる音響信号を再生し、ユーザ24からロボット12への伝送路上の妨害因子として明らかとなる。本願の例では、スピーカ20、22は、指向性を有する。エンクロージャ20、22から放射された干渉信号が顕著な干渉を引き起こす振幅を有する領域は、図1に、スピーカ20、22から出る線によって示す。
概略的にのみ示すロボット12は、ここでは、その下面にある駆動され操縦可能な車輪の形である駆動手段を有する。ロボット12は更に、ここでは、カメラの形である光学感知手段も有する。ロボット12によって使用される音響捕捉手段は、幾つかのマイクロホンである(ロボットのこれらの詳細はいずれも図面には示していない)。
駆動手段は、制御のために、ロボット12の中央制御ユニットに接続される。マイクロホン及びカメラによって捕捉された信号も、中央制御ユニットに与えられる。中央処理ユニットは、マイクロコンピュータ、即ち、マイクロプロセッサ又はシグナルプロセッサ、データ又はプログラムメモリ、及び、入力/出力インタフェースを有する電気回路である。本願に記載したロボット12の全ての機能性は、中央制御ユニット上で実行されるプログラムの形で実施される。
ロボット12の中央制御ユニット内には、図1に示すようなロボット12の物理的環境がマッピングされるワールドモデルが実装される。図1に示す対象物は全て、それぞれその形状、方向、座標系における位置と共に中央制御ユニットに属するメモリ内に記録される。例えば、部屋10の大きさ、障害物14、16、及び18の場所及び形状、干渉源20、22の位置及び干渉源20、22によって影響を受ける領域が格納される。ロボット12は更に、部屋10におけるその現在位置と方向を決定することも常に可能である。ユーザ24の位置及び視野方向も絶えず更新され、ロボット12の光学及び音響感知手段を介してワールドモデルに入力される。ワールドモデルも、継続的に更新される。例えば、追加の物理的障害物が、音響感知手段を介して感知される、又は、音響感知手段が、新しい音響干渉源の位置を突き止める場合、この情報は、ワールドモデルを保持するメモリに入力される。
ロボット12の機能のうちの1つは、音響信号を捕捉し且つ処理することである。音響信号は、ロボット12の既知の位置に取付けられた様々なマイクロホンによって絶えず捕捉される。これらの音響信号の発生源、即ち、干渉信号及び所望の信号の発生源は、様々なマイクロホンによって捕捉されたときのトランジット時間における差から位置が突き止められ、ワールドモデルに入力される。カメラによって供給される画像データとも適合が取られ、それにより、例えば、干渉源の場所を突き止める、認識する、及び特徴付けることを可能にする。
所望の信号は、マイクロホンを介して絶えず捕捉される。この場合において指向性を得るためには、「ビーム形成」技法が用いられる。この技法は周知であるので、詳細には説明しない。その結果、信号は、図1に斜線で示す領域26から基本的に捕捉される。
ロボット12の更なる機能は、音声認識である。領域26から捕捉された所望の信号は、音声認識アルゴリズムによって処理され、それにより、所望の信号内に含まれる音響音声信号が、関連付けられる単語又は単語列に相関されることを可能にする。話者依存型及び話者独立型認識を含む音声認識のために様々な技法が用いられ得る。このような種類の技法は当業者には周知であるので、ここではこれ以上詳しく説明はしない。
音声認識において、音響音声信号に対応する単語又は単語列だけが生成されるのではなく、認識された各単語について、解析される音響音声信号と予め格納されたマスタパターンとの一致の度合いを示す信頼インジケータも生成される。従って、この信頼インジケータは、認識が正しいことの確率を評価する基礎を与える。信頼インジケータの例としては、例えば、最高と評価される仮定と、2番目に最高の仮定との間のスコア差、又は、それとN個の次に最高の仮定の平均との間のスコア差が挙げられる。ここでは、Nの数は、好適に選択される。他のインジケータは、単語グラフにおける仮定の「安定性」(ある仮定が他の認識領域に比べて所与の認識領域において発生する頻度)に基づくか、又は、異なる音声モデル評価(音声モデル重み付けスキームが僅かに変更される場合、最良の仮定は変更するか又はそのままかどうか)によって与えられる。信頼インジケータの目的は、認識処理の一種の全体像を見ることにより、処理の的確さ、又は、評価が略同じである多数の仮定の有無について言及することを可能にし、それにより、得られる結果は、ランダムな性質のものであり間違っている場合があるという疑いを喚起する。幾つかの個々の信頼インジケータを組合わせて、全体の決断を行うことは珍しいことではない(この決断は、通常、データを訓練することにより行う)。
本願の場合では、信頼インジケータは、例えば、線形であり、また、その値は0と100%の間である。本願の例では、信頼インジケータが50%以下である場合は、認識は恐らく正しくないと考える。しかし、この値は、この例における説明を明確にすることのみを意図する。実際の適用では、当業者が、適切な信頼インジケータを決定することができ、また、その信頼インジケータに対して閾値を決定することができ、その閾値より上である場合は、認識が正しいことの適切な確率があると当業者は考える。
図1を最初に参照しながら、ユーザ24からの音声信号を認識してロボット12が動作する方法を説明する。本願の場合、ロボット12は、ユーザ24がそのビーム領域にいるよう最初に方向付けられる。ユーザ24が音声コマンドを与えると、この音声コマンドは、ロボット12のマイクロホンによって捕捉され、そして処理される。所定の音声認識を信号に適用することによって、音響音声信号の予想される意味が与えられる。
正しく認識された音声信号は、ロボット12によって、制御コマンドとして理解され、実行される。
しかし、図1に示すように、ビーム領域内に干渉源、即ち、ここでは、スピーカ22がある。従って、ユーザ24からの音声信号は、その上に干渉信号が重なっている。従って、図示する例では、幾何学的配置は好適である(ロボット12とユーザ24間の距離が比較的小さく、ユーザ24とロボット12は互いに面している)が、この場合、音声認識は満足のいくものではなく、このことは、低すぎる信頼インジケータから明らかとなる。
このような場合、ロボット12の中央制御ユニットは、認識品質はあまり良好ではないと判断する。その場合、中央制御ユニットのメモリ(ワールドモデル)にある情報を使用して、認識品質が恐らくより良いユニット12の別の場所を計算する。メモリ内には更に、スピーカ22の位置とスピーカ22によって影響を受ける領域と、更に、音声信号の位置を突き止めることによって決定されるユーザ24の位置も格納される。更に、制御ユニットは、ロボット12のビーム領域26も知っている。
この情報から、ロボット12の中央制御ユニットは、認識品質が恐らくより良い場所のセットを決定する。このような種類の場所は、幾何学的因子に基づいて決定することができる。ここでは、ユーザ24がビーム領域26内にいるがそのビーム領域26内には干渉源20、22がない部屋10の中のロボット12の全ての位置及び関連付けられる方向が決定され得る。例えば、ビームの中心線とユーザ24の視線方向との間の角度が90°以上であってはならないといった他の基準も適用してもよい。ワールドモデルからの他の情報も、適切な目標位置を決定するために用いてもよく、このときに決定し得る追加の要件は、例えば、ロボット12とユーザ24との間には物理的障害物14、16、及び18があってはならないとし得る。更に、ユーザ24とロボット12との間の最小及び/又は最大距離が決定されてもよく、これから外れる場合、経験から、認識品質はひどく低下することが示されている。当業者は、上述の考慮すべき事項に基づいて如何なる特定の適用において選択されるべき基準を決定することができるであろう。
本願の例では、目標位置の領域28は、斜線で示すように形成される。ロボット12が適切な方向に合わされている、即ち、ユーザ24に面していると仮定すると、干渉源22の影響は、この領域ではかなり小さくなる。
目標領域28内で決定される目標位置のうち、ロボット12の中央制御ユニットは、1つの目標位置を選択する。この目標位置を選択することを可能にするために様々な基準が適用され得る。例えば、数値を有する負担インジケータ(burden indicator)が決定され得る。この負担インジケータは、例えば、ロボット12が所与の位置に移動し、そこで回転するために恐らく必要な時間を示し得る。他の負担インジケータも考えることが可能である。
図1に示す例では、中央制御ユニットが領域28内において選択した目標位置は、12aとしてロボット12が2回目に示される位置である。物理的障害物14、16、18のどれもが、ここでは、ロボット12のこの位置への移動を妨害しないので、中央制御ユニットは、図1に矢印によって示すロボット12の移動及び回転が行われるよう移動運動手段を作動させる。
この目標位置では、ロボット12aは、ユーザ24と一列に並ぶ。ビーム領域26a内には干渉源はない。ユーザ24からの音声コマンドは、任意の干渉信号が重なることなくロボット12aによって捕捉されることが可能であり、従って、高い確実性で認識されることが可能である。このことは、高い信頼インジケータによって表される。
図1と同じ構成要素を有する第2の部屋30における光景を図2に示す。ここでも、物理的障害物(ソファ16、テーブル14、食器棚18)と干渉源20、22が部屋30内にある。ロボット12とユーザ24の開始位置は、図1と同じである。干渉源22がビーム領域26内にあるので、ユーザ24によって話される音声コマンドの認識品質は、信頼インジケータの所定の閾値(50%)より下である。
図1に示す光景と同様に、ロボット12の中央制御ユニットは、ビーム領域26内に干渉源20、22が入ることなくビーム領域26内にユーザ24を含むよう位置付けられるロボット12の場所のセットとして領域28を決定する。
しかし、図2に示す光景では、領域28の一部は、物理的障害物(テーブル14)によって遮られている。物理的障害物の位置及び大きさは、ロボット12のワールドモデル内に、特定のデータ入力の結果として、又は、ロボット12自体のセンサ(例えば、カメラや可能であれば接触センサ)によって障害物が感知された結果として格納される。
目標領域28を決定した段階の後、中央制御ユニットは、次に、領域28内の多数の目標点のうちロボット12が目指す目標点を決定する。しかし、既知の物理的障害物14によって、その領域28の直接的な近接には障害がある。ロボット12の中央制御ユニットは、自由に近接できる領域28内の位置に到達するためには障害物14を回る迂回路(点線矢印)を取らなければならないことを認識する。
図1に関連して既に説明したように、この場合、例えば、移動しなければならない距離に関連して、負担インジケータが決定される。この第2の状況では、この距離は、比較的大きい(破線矢印)。負担インジケータが最大閾値(例えば、3mを超える移動距離)を超える場合は、ロボット12の中央制御ユニットは、ロボット12の(厄介な)移動ではなく、ユーザ24にメッセージを送信することを決定する。このことは、例えば、音響又は視覚的信号の形で行われ得る。このようにして、ロボット12は、ユーザ24に、認識品質が恐らくより良い位置に移動すべきであることを伝える。ここでは、ユーザ24が位置24aに動くことを意味する。ロボット12は、12aに示すように同時に回転し、それにより、ユーザ24aがビーム領域26a内にいるようになる。ここでは、ユーザ24aからの音声コマンドは、適切な品質基準で受信され、処理され、且つ、認識されることが可能である。
図1及び2に関連して、ここまでは、ロボット12の行動は、受信した音声コマンドに対する反応として示してきた。しかし、これに加えて、ロボット12は、スタンバイ状態、即ち、音声コマンドを受信するよう準備が整えられている状態においても動き、このような音声コマンドがユーザ24から受信される場合に、可能な限り最良の方法で受信されることを確実にする。
ロボット12の位置及び向き(従って、ビーム領域26の場所)に関する情報を与えるロボット12のワールドモデル、ユーザ24の位置及び方向、及び、干渉源20、22の場所に基づいて、ロボット12の中央制御ユニットは、音声コマンドを受信する前でも、予想される伝送品質を計算することができる。伝送品質に影響を与え得る因子は、特に、ロボット12とユーザ24間の距離、ユーザ24とロボット12間の音声減衰障害物(例えば、ソファ16)の位置、干渉源20、22の影響、及び、ロボット12が向いている方向(ビーム領域26)とユーザ24が向いている方向である。しかし、上述した因子のうちの幾つかしか考慮されないロボット用の比較的粗いワールドモデルからでさえも、伝送の前に予想可能な問題及び音声コマンドの認識を予測することができる。この場合に考慮される点は、伝送品質が十分に良好となり得る場所を決定する際に考慮される上述した点と同じである。従って、ロボット12の中央制御ユニットのオペレーティングプログラム内の同じプログラムモジュールを、可能な目標場所の決定と、予想される伝送品質の予測の両方に用いることが可能である。純粋に幾何学的な配慮すべき事項(ビーム領域内には干渉源がなく、ユーザはビーム領域内である)以外、重要なパラメータは、適切な目標位置を決定するよう計算することが可能である。予想される伝送品質を評価するために用いることのできる重要パラメータは、例えば、SNR(ロボットによって特別に放射される試験信号に支援されて可能)又はノイズの直接測定の推定値である。
このことも、図1を参照しながら説明することができる。ロボットが、ユーザ24に対して図1に示す位置にある場合、ロボット12の中央制御ユニットは、ユーザ24からロボット12への伝送品質は、音声コマンドの適切な認識のためには恐らく十分に適切ではないことを、音声コマンドを受信することなく認識することができる。この場合、ロボット12の中央制御ユニットは、人24は、ビーム領域26内にいるが、干渉源22もビーム領域26内にあることを認識する。図1に関連して既に説明したように、従って、中央制御ユニットは、目標領域28を決定し、目標領域内のより適した位置12aを選択し、ロボット12をその位置に動かす。
ロボット12がスタンバイモードにあるとき、中央制御ユニットは、ユーザ24の位置を絶えずモニタリングし、予想される伝送品質を決定する。このようにすることによって、制御ユニットが、予想伝送品質は最低閾値(当業者によって実際の適用のために容易に決定可能な基準及び適切な最小閾値)より下であると結論付けると、ロボット12は、より適切な位置に動くか、又は、適切な方向に回転する。
本発明において、ロボット12のような可動ユニットと、可動ユニットを制御する方法を記載したとまとめることができる。可動ユニットは、移動運動する手段を有し、音声信号を獲得且つ認識することができる。例えば、可動ユニットのユーザ24からの距離によって、又は、音響干渉源20、22によって、可動ユニット12の位置は、ユーザ24からの音声コマンドが適当な品質標準で伝送される又は認識するのに適切ではない場合、認識又は伝送の品質が恐らくより良い少なくとも1つの目標位置28が決定される。その後、可動ユニット12は、1つの目標位置28に動かされる。
この場合、可動ユニット12は、ユーザからの音声信号の予想される伝送品質を絶えず決定してもよい。同様に、認識品質は、音声信号が受信され認識された後でのみ決定されてもよい。認識品質又は予想される伝送品質が所定の閾値より低い場合、可動ユニット12が移動するための目標場所28が決定される。しかし、1つの実施例では、目標位置28への移動のために決定された負担が大きすぎる場合には、可動ユニット12の移動を中止することも可能である。この場合は、メッセージがユーザ24に伝えられる。
Claims (9)
- 可動ユニットを動かす手段と、
音声信号を獲得且つ認識する手段と、
認識品質が十分に良好であるか否か評価する評価手段と、
を有し、
前記認識品質が十分に良好でない場合、前記認識品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定し、その場合、前記制御ユニットは、前記可動ユニットが、決定された前記目標場所に移動するよう前記移動運動手段を作動させる、可動ユニット。 - 可動ユニットを動かす手段と、
少なくとも一人のユーザからの音声信号を獲得且つ認識する手段と、
前記ユーザから前記可動ユニットへの伝送の品質が、音声認識のために恐らく十分に良好であるか否かを決定し、前記伝送品質が恐らく十分に良好でない場合、前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定する制御ユニットと、
を有し、
前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定する場合、前記制御ユニットは、前記可動ユニットが、決定された前記目標場所に移動するよう前記移動運動手段を作動させる、可動ユニット。 - 請求項1及び2に記載に記載する可動ユニット。
- 前記制御ユニットは、
複数の目標場所を有するセットを決定し、
前記決定された目標場所について、前記可動ユニットの前記当該の目標場所への移動に関連する負担を決定し、
前記目標場所のセットから、前記負担に関して好適である目標場所を選択する、請求項1乃至3のうちいずれか一項記載の可動ユニット。 - 前記制御ユニットは、前記可動ユニットの前記決定された目標場所への移動に関連する前記負担を決定し、前記負担が、最大閾値を超える場合、前記移動運動手段は作動されずにユーザへのメッセージが生成される請求項1乃至4のうちいずれか一項記載の可動ユニット。
- 捕捉される音響信号の発生点の位置を突き止める手段が設けられる請求項1乃至5のうちいずれか一項記載の可動ユニット。
- 音響干渉源の位置、前記ユーザの位置、物理的障害物の位置、前記可動ユニットの位置、及び、方向のうち少なくとも1つのタイプの情報が格納されるメモリが設けられる請求項1乃至6のうちいずれか一項記載の可動ユニット。
- 可動ユニットを制御する方法であって、
音声信号を捕捉する段階と、
前記音声信号に音声認識を行う段階と、
を有し、
前記音声信号に音声認識を行うことによって、認識品質を評価し、
前記認識品質が十分に良好でない場合、前記認識品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所が決定され、前記可動ユニットは、前記目標場所に動かされる、方法。 - 可動ユニットは、ユーザから前記可動ユニットへの音声信号の予想される伝送品質を絶えず決定し、前記伝送品質が恐らく十分に良好でない場合、前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所が決定され、前記可動ユニットは、前記目標場所に動かされる、可動ユニットを制御する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10224816A DE10224816A1 (de) | 2002-06-05 | 2002-06-05 | Eine mobile Einheit und ein Verfahren zur Steuerung einer mobilen Einheit |
PCT/IB2003/002085 WO2003105125A1 (en) | 2002-06-05 | 2003-06-03 | Mobile unit and method of controlling a mobile unit |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005529421A true JP2005529421A (ja) | 2005-09-29 |
Family
ID=29594257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004512119A Pending JP2005529421A (ja) | 2002-06-05 | 2003-06-03 | 可動ユニット及び可動ユニットを制御する方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20050234729A1 (ja) |
EP (1) | EP1514260A1 (ja) |
JP (1) | JP2005529421A (ja) |
AU (1) | AU2003232385A1 (ja) |
DE (1) | DE10224816A1 (ja) |
WO (1) | WO2003105125A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010010857A (ja) * | 2008-06-25 | 2010-01-14 | Oki Electric Ind Co Ltd | 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法 |
JP2017537361A (ja) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | 発語トリガを常時リッスンするための動的閾値 |
CN109141620A (zh) * | 2017-06-23 | 2019-01-04 | 卡西欧计算机株式会社 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
WO2007041295A2 (en) | 2005-09-30 | 2007-04-12 | Irobot Corporation | Companion robot for personal interaction |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
DE102007002905A1 (de) * | 2007-01-19 | 2008-07-24 | Siemens Ag | Verfahren und Vorrichtung zur Aufnahme eines Sprachsignals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8238254B2 (en) * | 2009-05-14 | 2012-08-07 | Avaya Inc. | Detection and display of packet changes in a network |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
DE102014209499A1 (de) * | 2014-05-20 | 2015-11-26 | Continental Automotive Gmbh | Verfahren zum Betreiben eines Sprachdialogsystems für ein Kraftfahrzeug |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
EP3403146A4 (en) | 2016-01-15 | 2019-08-21 | iRobot Corporation | AUTONOMOUS MONITORING ROBOT SYSTEMS |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
CN105810195B (zh) * | 2016-05-13 | 2023-03-10 | 漳州万利达科技有限公司 | 一种智能机器人的多角度定位系统 |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US20170368691A1 (en) * | 2016-06-27 | 2017-12-28 | Dilili Labs, Inc. | Mobile Robot Navigation |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10100968B1 (en) | 2017-06-12 | 2018-10-16 | Irobot Corporation | Mast systems for autonomous mobile robots |
US11110595B2 (en) | 2018-12-11 | 2021-09-07 | Irobot Corporation | Mast systems for autonomous mobile robots |
US11294391B2 (en) * | 2019-05-28 | 2022-04-05 | Pixart Imaging Inc. | Moving robot with improved identification accuracy of step distance |
WO2021108991A1 (zh) * | 2019-12-03 | 2021-06-10 | 深圳市大疆创新科技有限公司 | 控制方法、装置和可移动平台 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NZ255617A (en) * | 1992-09-04 | 1996-11-26 | Ericsson Telefon Ab L M | Tdma digital radio: measuring path loss and setting transmission power accordingly |
US7054635B1 (en) * | 1998-11-09 | 2006-05-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Cellular communications network and method for dynamically changing the size of a cell due to speech quality |
US20030165124A1 (en) * | 1998-12-30 | 2003-09-04 | Vladimir Alperovich | System and method for performing handovers based upon local area network conditions |
US6219645B1 (en) * | 1999-12-02 | 2001-04-17 | Lucent Technologies, Inc. | Enhanced automatic speech recognition using multiple directional microphones |
JP2002140092A (ja) * | 2000-10-31 | 2002-05-17 | Nec Corp | 音声認識ロボット |
DE10251113A1 (de) * | 2002-11-02 | 2004-05-19 | Philips Intellectual Property & Standards Gmbh | Verfahren zum Betrieb eines Spracherkennungssystems |
-
2002
- 2002-06-05 DE DE10224816A patent/DE10224816A1/de not_active Withdrawn
-
2003
- 2003-06-03 WO PCT/IB2003/002085 patent/WO2003105125A1/en active Application Filing
- 2003-06-03 AU AU2003232385A patent/AU2003232385A1/en not_active Abandoned
- 2003-06-03 JP JP2004512119A patent/JP2005529421A/ja active Pending
- 2003-06-03 EP EP03757151A patent/EP1514260A1/en not_active Withdrawn
- 2003-06-03 US US10/516,152 patent/US20050234729A1/en not_active Abandoned
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010010857A (ja) * | 2008-06-25 | 2010-01-14 | Oki Electric Ind Co Ltd | 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法 |
JP2017537361A (ja) * | 2014-09-12 | 2017-12-14 | アップル インコーポレイテッド | 発語トリガを常時リッスンするための動的閾値 |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN109141620A (zh) * | 2017-06-23 | 2019-01-04 | 卡西欧计算机株式会社 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
JP2019008134A (ja) * | 2017-06-23 | 2019-01-17 | カシオ計算機株式会社 | 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム |
US10665249B2 (en) | 2017-06-23 | 2020-05-26 | Casio Computer Co., Ltd. | Sound source separation for robot from target voice direction and noise voice direction |
CN109141620B (zh) * | 2017-06-23 | 2021-01-22 | 卡西欧计算机株式会社 | 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE10224816A1 (de) | 2003-12-24 |
AU2003232385A1 (en) | 2003-12-22 |
EP1514260A1 (en) | 2005-03-16 |
WO2003105125A1 (en) | 2003-12-18 |
US20050234729A1 (en) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005529421A (ja) | 可動ユニット及び可動ユニットを制御する方法 | |
US11348581B2 (en) | Multi-modal user interface | |
JP5529931B2 (ja) | ビデオ会議のための自動カメラ選択 | |
JP4675811B2 (ja) | 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム | |
JP2008158868A (ja) | 移動体、及びその制御方法 | |
WO2015196411A1 (en) | Beamforming audio with wearable device microphones | |
WO2015029296A1 (ja) | 音声認識方法及び音声認識装置 | |
US20050159955A1 (en) | Dialog control for an electric apparatus | |
CN106775572A (zh) | 具有麦克风阵列的电子设备及其控制方法 | |
Vincent et al. | Audio source localization by optimal control of a mobile robot | |
US12112750B2 (en) | Acoustic zoning with distributed microphones | |
JP6890451B2 (ja) | リモコン制御システム、リモコン制御方法及びプログラム | |
CN110716181A (zh) | 声音信号采集方法以及分离式麦克风阵列 | |
KR102333476B1 (ko) | 레이더 기반 음성 인식 서비스 장치 및 방법 | |
US20200162813A1 (en) | Smart Speaker System with Microphone Room Calibration | |
CN111903194A (zh) | 使用连接的照明系统来增强语音命令的系统和方法 | |
KR102407872B1 (ko) | 레이더 기반 음성 인식 서비스 장치 및 방법 | |
KR102613040B1 (ko) | 영상 통화 방법 및 이를 구현하는 로봇 | |
JP2019095523A (ja) | ロボットおよびロボット制御方法 | |
JP2008040075A (ja) | ロボット装置及びロボット装置の制御方法 | |
WO2020194717A1 (ja) | 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体 | |
US11917386B2 (en) | Estimating user location in a system including smart audio devices | |
US11157738B2 (en) | Audio-visual perception system and apparatus and robot system | |
US20240292147A1 (en) | Directional Audio Transmission to Broadcast Devices | |
KR20170096468A (ko) | 자동 음장 제어 방법 및 자동 음장 제어 장치 및 상기 자동 음장 제어 장치가 제어하는 출력 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080415 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080924 |