JP2005529421A - 可動ユニット及び可動ユニットを制御する方法 - Google Patents

可動ユニット及び可動ユニットを制御する方法 Download PDF

Info

Publication number
JP2005529421A
JP2005529421A JP2004512119A JP2004512119A JP2005529421A JP 2005529421 A JP2005529421 A JP 2005529421A JP 2004512119 A JP2004512119 A JP 2004512119A JP 2004512119 A JP2004512119 A JP 2004512119A JP 2005529421 A JP2005529421 A JP 2005529421A
Authority
JP
Japan
Prior art keywords
movable unit
user
unit
quality
target location
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004512119A
Other languages
English (en)
Inventor
ショル,ホルガー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2005529421A publication Critical patent/JP2005529421A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Manipulator (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

ロボット(12)といった可動ユニット、及び可動ユニットを制御する方法を記載する。可動ユニットは移動運動手段を有し、音声信号を獲得且つ認識可能である。例えば、ユーザ(24)からの可動ユニットの距離又は音響干渉源(20、22)によって、可動ユニットの位置が、ユーザからの音声コマンドが適切な品質標準で伝送される又は認識されない位置である場合、伝送又は認識品質が恐らくより良いであろう少なくとも1つの目標場所(28)が決定される。可動ユニットは、その目標位置に移動する。可動ユニットは、この場合、ユーザからの音声信号のための予想される伝送品質を絶えず決定し得る。同様に、認識品質も音声信号が受信され且つ認識された後でのみ決定されることも可能である。認識品質又は予想される伝送品質が、所定の閾値より下である場合、可動ユニットが移動するための目標位置が決定される。しかし、1つの実施例では、目標場所への移動に対し決定される負担が高すぎる場合には、可動ユニットの移動は中止される場合もある。この場合、メッセージがユーザに伝えられる。

Description

本発明は、可動ユニットと、可動ユニットを制御する方法に係る。
周知の可動ユニットを形成する様々な用途のためのロボットがある。
「可動ユニット」の意味するところは、移動運動のための独自の手段を有するユニットである。このユニットは、例えば、家の中を動き回り、その機能を行うロボットであり得る。しかし、例えば、工業企業における製造環境における可動ユニットでも同様にあり得る。
このような種類のユニットに対し音声制御を使用することは周知である。この場合、ユーザは、音声コマンドでユニットを制御することができる。更に、ユーザが様々な情報項目について問うユーザと可動ユニット間で会話が交わされることも可能である。
更には、音声認識技法も知られている。この技法では、認識される単語列は、音声信号に相関される。話者依存型及び話者独立型音声認識システムがともに周知である。
周知の音声認識システムは、話者の位置が、捕捉システムに対して最適化される用途的状況において用いられる。例えば、口述記録システム又は電話機システムにおける音声認識の使用が知られており、両方の場合において、ユーザは、そのために設けられているマイクロホンに直接話し掛けること。一方、音声認識が、可動ユニットのコンテキストで用いられる場合、可動ユニットであること自体が、音響信号が捕捉される場所への信号経路上に発生し得る幾つかの妨害があるということを意味するという問題を有する。これらには、一方には、例えば、スピーカといったノイズ源及び家庭用電化製品が動く際に発するノイズといった音響干渉源がある。しかし、他方には、可動ユニットからユーザへの距離と、可動ユニットとユーザ間にある任意の音減衰又は音反射障害物も影響を及ぼす。この結果、可動ユニットの音声コマンドを正確に理解する能力は、生存する状況に応じて大幅に異なる。
JP−A09146586から、背景ノイズをモニタリングするユニットが設けられた音声認識ユニットが公知である。背景ノイズを参照することによって、音声信号の品質が最低閾値より上か否かが判断される。音声信号の品質が最低閾値より上でないと判断されると、音声信号の品質が良好でないことがユーザに伝えられる。この解決策の不利点は、ユーザに対する要求がかなり高いということである。
従って、本発明は、可能な限り良好な音声信号の認識を一貫して達成することのできる可動ユニットとその可動ユニットを制御する方法を明記することを目的とする。
この目的は、請求項1及び2のいずれかに記載した可動ユニットと、請求項8及び9に記載した可動ユニットを制御する方法によって達成される。従属項は、本発明の有利な実施例に関連する。
請求項1及び2に記載した可動ユニットと、請求項8及び9に記載した制御方法は、それぞれ、この目的を達成する手段を構成する。これらの目的を達成する手段は、幾つかの共通事項を有する。
両方の場合において、本発明の可動ユニットは、音声信号を獲得且つ認識する手段を有する。音声信号は、複数のマイクロホンによって音響信号の形で捕捉されることが好適であり、通常はデジタル形式で処理される。周知の音声処理技法が、捕捉された音声信号に適用される。音声認識のための周知の技法は、例えば、仮定、即ち、例えば、音素を、捕捉された音響信号から信号処理技法によって抽出された属性ベクトルとの相関に基づいている。以前の訓練から、各音素に対して対応する属性ベクトルの確率分布が既知である。音声認識では、様々な仮説、つまり、様々な音素は、所与の場合に存在する属性ベクトルが当該の仮定の既知の確率分布に適合する確率を表すスコアで格付けされる。この音声認識の暫定的な結果は、最高スコアを有する仮定である。更に当業者には、例えば、語彙集を用いることによって有効と考えられる音素連鎖を制限する、又は、音声モデルを用いることによってよりもっともらしい単語列を優先することによって、認識を向上する更なる可能性も周知であろう。
本発明の第1の面(請求項1)では、音声信号が捕捉されて認識されると、認識の品質が十分に良好か否かが評価される。このために、認識品質を評価する評価手段が、用いられる音声認識手段と並列に適用される。音響音声列が処理されると、周知の音声認識アルゴリズムによって、認識された単語列と共に、認識品質がどれくらい良好かに関する情報を与える信頼インジケータが供給される。
従って、請求項1に記載する可動ユニットは、得られた認識品質が十分に良好か否かを決定する制御ユニットを有する。このことは、供給された信頼インジケータを、固定値に予め設定される又は可変値に設定可能な最小閾値と比較することによって行われる。制御ユニットが、認識品質が十分に良好ではない、即ち、例えば、所定の最小閾値より下であると決定すると、制御ユニットは、認識品質が恐らくより良い可動ユニット用の目標場所を決定する。このために、制御ユニットは、可動ユニットが決定された目標場所に移動するよう可動ユニットの移動運動手段を作動させる。
請求項2に記載するように、本発明の第2の面では、同様に、可動ユニットは、移動運動手段と、音声信号用の捕捉及び評価手段を有する。しかし、認識品質を向上するために、ここでは、音響音声信号の伝送路の品質が継続的に、即ち、音声信号が既に放射された後、及び、必要なとき、即ち、伝送の品質があまり良好でないという予想があるときだけでなく評価され、可動ユニットは適宜移動させられる。
このために、ユーザからの音声信号が可動ユニットに伝送される際の予想の品質が決定される。得られた結果が満足のいくものでない場合、可動ユニット用の認識品質が恐らくより良い位置が決定される。
本発明のこれら2つの面は、請求項1及び2、並びに、請求項8及び9にそれぞれ記載され、一方で、現在受信された音声信号用の認識品質のモニタリングと、他方で伝送の品質の継続的なモニタリングは、それぞれ、意図する目的を達成し、互いとは別々に、各手順において、可動ユニットによる音響音声信号の認識を向上する。しかし、これらの2つの面は、組合わせられても十分である。以下に説明する本発明の実施例は、上述した面の1つ又は両方の面に関連して使用され得る。
複数の目標場所が決定され得、その場合、制御ユニットは、これらの目標場所のうち好適である目標場所を選択し、可動ユニットがこの選択された目標場所に移動するよう移動運動手段を作動させる。制御ユニットは、最初に、可動ユニットの選択された目標場所への移動に関する移動すべき距離、又は、推定移動時間といった好適な基準を参照して測定される負担を決定することが好適である。
本発明の1つの実施例では、可動ユニットは、いつも目標場所に移動するとは限らない。負担が所定の最大閾値より大きい場合には、ユニットを移動させるのではなく、ユーザにメッセージが与えられる。このようにすると、ユーザは、可動ユニットはそのとき音声コマンドを受信することができないこと、又は、受信したとしても認識品質が低いことを理解することができる。この場合、ユーザは、例えば、より適した場所を選択するか、又は、例えば、ラジオを消すことによって干渉源の影響を低減する等反応することができる。
可動ユニットは、幾つかのマイクロホンを有することが好適である。複数のマイクロホンを用いることによって、捕捉される信号の発生点の位置を突き止めることが可能である。例えば、音声コマンドの発生点(即ち、ユーザの位置)の位置を突き止めることが可能である。同様に、音響干渉源の位置も決定することが可能である。複数のマイクロホンがある場合、所望の信号は、ビームを形成することによって感知マイクロホン群によって所与の嗜好性が得られるよう捕捉されることが好適である。このことは、ビーム領域外の干渉源の影響かなり低減することができる。しかし、一方、ビーム領域内にある干渉源は、非常に強い影響を有する。従って、好適な目標場所を決定する際に、位置のみならず方向についても許容差が与えられる。
可動ユニットは、そのワールドのモデルを有することが好適である。これは、可動ユニットの3次元環境についての情報がメモリ内に格納されることを意味する。格納される情報は、一方で、予め格納される場合もある。例えば、部屋のサイズ、部屋の中にある固定の対象物の形状及び位置についての情報は、家庭用ロボットに意図的に伝送され得る。或いは、又は、更に、ワールドモデルの情報は、このような種類のメモリに絶えずロードする及び/又は更新するためにセンサからのデータを用いて獲得することも可能である。このセンサからのデータは、例えば、光学センサ(カメラ、画像認識設備)又は音響センサ(マイクロホンアレイ、シグナルロケーション設備)からもたらされ得る。
可動ユニットのワールドモデルの一部として、メモリは、音響干渉源の位置と、必要な場合には音響干渉源の方向と、少なくとも1人のユーザの位置及び視線方向と、物理的障害物の位置及び形状を有する。可動ユニットの現在位置及び方向もクエリーされることが可能である。各実施において上述した全ての情報が格納される必要はない。ユーザの位置に対する可動ユニットの位置及び方向を決定可能であればよい。
本発明の音声認識手段及び認識品質を評価する手段と、制御ユニットは、単純に機能ユニットとして理解すべきである。事実、実際の実施では、これらのユニットは、別々のサブ組立体の形であり得る。しかし、これらの機能ユニットが、上述した全ての機能性を組合わせるプログラムを実行するマイクロプロセッサ又はシグナルプロセッサを有する電子回路によって実施されることが好適である。
本発明の上述の及び他の面は、以下に説明する実施例を参照しながら明らかにし且つ説明する。
図1は、部屋10を示す平面図である。部屋10の中には、ロボット12の形の可動ユニットがある。図1には、ロボット12は、ある動きを説明することを可能にするための別の位置12aにある様子も示す。
部屋10内には、音声コマンドでロボット12を制御するユーザ24がいる。
部屋10には、ロボットにとって幾つかの物理的障害物、即ち、テーブル14、ソファ16、及び食器棚18がある。
部屋10の中には更に、ここでは、スピーカ20、22の形である音響干渉源がある。スピーカ20、22は、ユーザ24からの音声信号上に重なる音響信号を再生し、ユーザ24からロボット12への伝送路上の妨害因子として明らかとなる。本願の例では、スピーカ20、22は、指向性を有する。エンクロージャ20、22から放射された干渉信号が顕著な干渉を引き起こす振幅を有する領域は、図1に、スピーカ20、22から出る線によって示す。
概略的にのみ示すロボット12は、ここでは、その下面にある駆動され操縦可能な車輪の形である駆動手段を有する。ロボット12は更に、ここでは、カメラの形である光学感知手段も有する。ロボット12によって使用される音響捕捉手段は、幾つかのマイクロホンである(ロボットのこれらの詳細はいずれも図面には示していない)。
駆動手段は、制御のために、ロボット12の中央制御ユニットに接続される。マイクロホン及びカメラによって捕捉された信号も、中央制御ユニットに与えられる。中央処理ユニットは、マイクロコンピュータ、即ち、マイクロプロセッサ又はシグナルプロセッサ、データ又はプログラムメモリ、及び、入力/出力インタフェースを有する電気回路である。本願に記載したロボット12の全ての機能性は、中央制御ユニット上で実行されるプログラムの形で実施される。
ロボット12の中央制御ユニット内には、図1に示すようなロボット12の物理的環境がマッピングされるワールドモデルが実装される。図1に示す対象物は全て、それぞれその形状、方向、座標系における位置と共に中央制御ユニットに属するメモリ内に記録される。例えば、部屋10の大きさ、障害物14、16、及び18の場所及び形状、干渉源20、22の位置及び干渉源20、22によって影響を受ける領域が格納される。ロボット12は更に、部屋10におけるその現在位置と方向を決定することも常に可能である。ユーザ24の位置及び視野方向も絶えず更新され、ロボット12の光学及び音響感知手段を介してワールドモデルに入力される。ワールドモデルも、継続的に更新される。例えば、追加の物理的障害物が、音響感知手段を介して感知される、又は、音響感知手段が、新しい音響干渉源の位置を突き止める場合、この情報は、ワールドモデルを保持するメモリに入力される。
ロボット12の機能のうちの1つは、音響信号を捕捉し且つ処理することである。音響信号は、ロボット12の既知の位置に取付けられた様々なマイクロホンによって絶えず捕捉される。これらの音響信号の発生源、即ち、干渉信号及び所望の信号の発生源は、様々なマイクロホンによって捕捉されたときのトランジット時間における差から位置が突き止められ、ワールドモデルに入力される。カメラによって供給される画像データとも適合が取られ、それにより、例えば、干渉源の場所を突き止める、認識する、及び特徴付けることを可能にする。
所望の信号は、マイクロホンを介して絶えず捕捉される。この場合において指向性を得るためには、「ビーム形成」技法が用いられる。この技法は周知であるので、詳細には説明しない。その結果、信号は、図1に斜線で示す領域26から基本的に捕捉される。
ロボット12の更なる機能は、音声認識である。領域26から捕捉された所望の信号は、音声認識アルゴリズムによって処理され、それにより、所望の信号内に含まれる音響音声信号が、関連付けられる単語又は単語列に相関されることを可能にする。話者依存型及び話者独立型認識を含む音声認識のために様々な技法が用いられ得る。このような種類の技法は当業者には周知であるので、ここではこれ以上詳しく説明はしない。
音声認識において、音響音声信号に対応する単語又は単語列だけが生成されるのではなく、認識された各単語について、解析される音響音声信号と予め格納されたマスタパターンとの一致の度合いを示す信頼インジケータも生成される。従って、この信頼インジケータは、認識が正しいことの確率を評価する基礎を与える。信頼インジケータの例としては、例えば、最高と評価される仮定と、2番目に最高の仮定との間のスコア差、又は、それとN個の次に最高の仮定の平均との間のスコア差が挙げられる。ここでは、Nの数は、好適に選択される。他のインジケータは、単語グラフにおける仮定の「安定性」(ある仮定が他の認識領域に比べて所与の認識領域において発生する頻度)に基づくか、又は、異なる音声モデル評価(音声モデル重み付けスキームが僅かに変更される場合、最良の仮定は変更するか又はそのままかどうか)によって与えられる。信頼インジケータの目的は、認識処理の一種の全体像を見ることにより、処理の的確さ、又は、評価が略同じである多数の仮定の有無について言及することを可能にし、それにより、得られる結果は、ランダムな性質のものであり間違っている場合があるという疑いを喚起する。幾つかの個々の信頼インジケータを組合わせて、全体の決断を行うことは珍しいことではない(この決断は、通常、データを訓練することにより行う)。
本願の場合では、信頼インジケータは、例えば、線形であり、また、その値は0と100%の間である。本願の例では、信頼インジケータが50%以下である場合は、認識は恐らく正しくないと考える。しかし、この値は、この例における説明を明確にすることのみを意図する。実際の適用では、当業者が、適切な信頼インジケータを決定することができ、また、その信頼インジケータに対して閾値を決定することができ、その閾値より上である場合は、認識が正しいことの適切な確率があると当業者は考える。
図1を最初に参照しながら、ユーザ24からの音声信号を認識してロボット12が動作する方法を説明する。本願の場合、ロボット12は、ユーザ24がそのビーム領域にいるよう最初に方向付けられる。ユーザ24が音声コマンドを与えると、この音声コマンドは、ロボット12のマイクロホンによって捕捉され、そして処理される。所定の音声認識を信号に適用することによって、音響音声信号の予想される意味が与えられる。
正しく認識された音声信号は、ロボット12によって、制御コマンドとして理解され、実行される。
しかし、図1に示すように、ビーム領域内に干渉源、即ち、ここでは、スピーカ22がある。従って、ユーザ24からの音声信号は、その上に干渉信号が重なっている。従って、図示する例では、幾何学的配置は好適である(ロボット12とユーザ24間の距離が比較的小さく、ユーザ24とロボット12は互いに面している)が、この場合、音声認識は満足のいくものではなく、このことは、低すぎる信頼インジケータから明らかとなる。
このような場合、ロボット12の中央制御ユニットは、認識品質はあまり良好ではないと判断する。その場合、中央制御ユニットのメモリ(ワールドモデル)にある情報を使用して、認識品質が恐らくより良いユニット12の別の場所を計算する。メモリ内には更に、スピーカ22の位置とスピーカ22によって影響を受ける領域と、更に、音声信号の位置を突き止めることによって決定されるユーザ24の位置も格納される。更に、制御ユニットは、ロボット12のビーム領域26も知っている。
この情報から、ロボット12の中央制御ユニットは、認識品質が恐らくより良い場所のセットを決定する。このような種類の場所は、幾何学的因子に基づいて決定することができる。ここでは、ユーザ24がビーム領域26内にいるがそのビーム領域26内には干渉源20、22がない部屋10の中のロボット12の全ての位置及び関連付けられる方向が決定され得る。例えば、ビームの中心線とユーザ24の視線方向との間の角度が90°以上であってはならないといった他の基準も適用してもよい。ワールドモデルからの他の情報も、適切な目標位置を決定するために用いてもよく、このときに決定し得る追加の要件は、例えば、ロボット12とユーザ24との間には物理的障害物14、16、及び18があってはならないとし得る。更に、ユーザ24とロボット12との間の最小及び/又は最大距離が決定されてもよく、これから外れる場合、経験から、認識品質はひどく低下することが示されている。当業者は、上述の考慮すべき事項に基づいて如何なる特定の適用において選択されるべき基準を決定することができるであろう。
本願の例では、目標位置の領域28は、斜線で示すように形成される。ロボット12が適切な方向に合わされている、即ち、ユーザ24に面していると仮定すると、干渉源22の影響は、この領域ではかなり小さくなる。
目標領域28内で決定される目標位置のうち、ロボット12の中央制御ユニットは、1つの目標位置を選択する。この目標位置を選択することを可能にするために様々な基準が適用され得る。例えば、数値を有する負担インジケータ(burden indicator)が決定され得る。この負担インジケータは、例えば、ロボット12が所与の位置に移動し、そこで回転するために恐らく必要な時間を示し得る。他の負担インジケータも考えることが可能である。
図1に示す例では、中央制御ユニットが領域28内において選択した目標位置は、12aとしてロボット12が2回目に示される位置である。物理的障害物14、16、18のどれもが、ここでは、ロボット12のこの位置への移動を妨害しないので、中央制御ユニットは、図1に矢印によって示すロボット12の移動及び回転が行われるよう移動運動手段を作動させる。
この目標位置では、ロボット12aは、ユーザ24と一列に並ぶ。ビーム領域26a内には干渉源はない。ユーザ24からの音声コマンドは、任意の干渉信号が重なることなくロボット12aによって捕捉されることが可能であり、従って、高い確実性で認識されることが可能である。このことは、高い信頼インジケータによって表される。
図1と同じ構成要素を有する第2の部屋30における光景を図2に示す。ここでも、物理的障害物(ソファ16、テーブル14、食器棚18)と干渉源20、22が部屋30内にある。ロボット12とユーザ24の開始位置は、図1と同じである。干渉源22がビーム領域26内にあるので、ユーザ24によって話される音声コマンドの認識品質は、信頼インジケータの所定の閾値(50%)より下である。
図1に示す光景と同様に、ロボット12の中央制御ユニットは、ビーム領域26内に干渉源20、22が入ることなくビーム領域26内にユーザ24を含むよう位置付けられるロボット12の場所のセットとして領域28を決定する。
しかし、図2に示す光景では、領域28の一部は、物理的障害物(テーブル14)によって遮られている。物理的障害物の位置及び大きさは、ロボット12のワールドモデル内に、特定のデータ入力の結果として、又は、ロボット12自体のセンサ(例えば、カメラや可能であれば接触センサ)によって障害物が感知された結果として格納される。
目標領域28を決定した段階の後、中央制御ユニットは、次に、領域28内の多数の目標点のうちロボット12が目指す目標点を決定する。しかし、既知の物理的障害物14によって、その領域28の直接的な近接には障害がある。ロボット12の中央制御ユニットは、自由に近接できる領域28内の位置に到達するためには障害物14を回る迂回路(点線矢印)を取らなければならないことを認識する。
図1に関連して既に説明したように、この場合、例えば、移動しなければならない距離に関連して、負担インジケータが決定される。この第2の状況では、この距離は、比較的大きい(破線矢印)。負担インジケータが最大閾値(例えば、3mを超える移動距離)を超える場合は、ロボット12の中央制御ユニットは、ロボット12の(厄介な)移動ではなく、ユーザ24にメッセージを送信することを決定する。このことは、例えば、音響又は視覚的信号の形で行われ得る。このようにして、ロボット12は、ユーザ24に、認識品質が恐らくより良い位置に移動すべきであることを伝える。ここでは、ユーザ24が位置24aに動くことを意味する。ロボット12は、12aに示すように同時に回転し、それにより、ユーザ24aがビーム領域26a内にいるようになる。ここでは、ユーザ24aからの音声コマンドは、適切な品質基準で受信され、処理され、且つ、認識されることが可能である。
図1及び2に関連して、ここまでは、ロボット12の行動は、受信した音声コマンドに対する反応として示してきた。しかし、これに加えて、ロボット12は、スタンバイ状態、即ち、音声コマンドを受信するよう準備が整えられている状態においても動き、このような音声コマンドがユーザ24から受信される場合に、可能な限り最良の方法で受信されることを確実にする。
ロボット12の位置及び向き(従って、ビーム領域26の場所)に関する情報を与えるロボット12のワールドモデル、ユーザ24の位置及び方向、及び、干渉源20、22の場所に基づいて、ロボット12の中央制御ユニットは、音声コマンドを受信する前でも、予想される伝送品質を計算することができる。伝送品質に影響を与え得る因子は、特に、ロボット12とユーザ24間の距離、ユーザ24とロボット12間の音声減衰障害物(例えば、ソファ16)の位置、干渉源20、22の影響、及び、ロボット12が向いている方向(ビーム領域26)とユーザ24が向いている方向である。しかし、上述した因子のうちの幾つかしか考慮されないロボット用の比較的粗いワールドモデルからでさえも、伝送の前に予想可能な問題及び音声コマンドの認識を予測することができる。この場合に考慮される点は、伝送品質が十分に良好となり得る場所を決定する際に考慮される上述した点と同じである。従って、ロボット12の中央制御ユニットのオペレーティングプログラム内の同じプログラムモジュールを、可能な目標場所の決定と、予想される伝送品質の予測の両方に用いることが可能である。純粋に幾何学的な配慮すべき事項(ビーム領域内には干渉源がなく、ユーザはビーム領域内である)以外、重要なパラメータは、適切な目標位置を決定するよう計算することが可能である。予想される伝送品質を評価するために用いることのできる重要パラメータは、例えば、SNR(ロボットによって特別に放射される試験信号に支援されて可能)又はノイズの直接測定の推定値である。
このことも、図1を参照しながら説明することができる。ロボットが、ユーザ24に対して図1に示す位置にある場合、ロボット12の中央制御ユニットは、ユーザ24からロボット12への伝送品質は、音声コマンドの適切な認識のためには恐らく十分に適切ではないことを、音声コマンドを受信することなく認識することができる。この場合、ロボット12の中央制御ユニットは、人24は、ビーム領域26内にいるが、干渉源22もビーム領域26内にあることを認識する。図1に関連して既に説明したように、従って、中央制御ユニットは、目標領域28を決定し、目標領域内のより適した位置12aを選択し、ロボット12をその位置に動かす。
ロボット12がスタンバイモードにあるとき、中央制御ユニットは、ユーザ24の位置を絶えずモニタリングし、予想される伝送品質を決定する。このようにすることによって、制御ユニットが、予想伝送品質は最低閾値(当業者によって実際の適用のために容易に決定可能な基準及び適切な最小閾値)より下であると結論付けると、ロボット12は、より適切な位置に動くか、又は、適切な方向に回転する。
本発明において、ロボット12のような可動ユニットと、可動ユニットを制御する方法を記載したとまとめることができる。可動ユニットは、移動運動する手段を有し、音声信号を獲得且つ認識することができる。例えば、可動ユニットのユーザ24からの距離によって、又は、音響干渉源20、22によって、可動ユニット12の位置は、ユーザ24からの音声コマンドが適当な品質標準で伝送される又は認識するのに適切ではない場合、認識又は伝送の品質が恐らくより良い少なくとも1つの目標位置28が決定される。その後、可動ユニット12は、1つの目標位置28に動かされる。
この場合、可動ユニット12は、ユーザからの音声信号の予想される伝送品質を絶えず決定してもよい。同様に、認識品質は、音声信号が受信され認識された後でのみ決定されてもよい。認識品質又は予想される伝送品質が所定の閾値より低い場合、可動ユニット12が移動するための目標場所28が決定される。しかし、1つの実施例では、目標位置28への移動のために決定された負担が大きすぎる場合には、可動ユニット12の移動を中止することも可能である。この場合は、メッセージがユーザ24に伝えられる。
ロボットとユーザのいる部屋を示す図である。 ロボットとユーザのいる更なる部屋を示す図である。

Claims (9)

  1. 可動ユニットを動かす手段と、
    音声信号を獲得且つ認識する手段と、
    認識品質が十分に良好であるか否か評価する評価手段と、
    を有し、
    前記認識品質が十分に良好でない場合、前記認識品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定し、その場合、前記制御ユニットは、前記可動ユニットが、決定された前記目標場所に移動するよう前記移動運動手段を作動させる、可動ユニット。
  2. 可動ユニットを動かす手段と、
    少なくとも一人のユーザからの音声信号を獲得且つ認識する手段と、
    前記ユーザから前記可動ユニットへの伝送の品質が、音声認識のために恐らく十分に良好であるか否かを決定し、前記伝送品質が恐らく十分に良好でない場合、前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定する制御ユニットと、
    を有し、
    前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所を決定する場合、前記制御ユニットは、前記可動ユニットが、決定された前記目標場所に移動するよう前記移動運動手段を作動させる、可動ユニット。
  3. 請求項1及び2に記載に記載する可動ユニット。
  4. 前記制御ユニットは、
    複数の目標場所を有するセットを決定し、
    前記決定された目標場所について、前記可動ユニットの前記当該の目標場所への移動に関連する負担を決定し、
    前記目標場所のセットから、前記負担に関して好適である目標場所を選択する、請求項1乃至3のうちいずれか一項記載の可動ユニット。
  5. 前記制御ユニットは、前記可動ユニットの前記決定された目標場所への移動に関連する前記負担を決定し、前記負担が、最大閾値を超える場合、前記移動運動手段は作動されずにユーザへのメッセージが生成される請求項1乃至4のうちいずれか一項記載の可動ユニット。
  6. 捕捉される音響信号の発生点の位置を突き止める手段が設けられる請求項1乃至5のうちいずれか一項記載の可動ユニット。
  7. 音響干渉源の位置、前記ユーザの位置、物理的障害物の位置、前記可動ユニットの位置、及び、方向のうち少なくとも1つのタイプの情報が格納されるメモリが設けられる請求項1乃至6のうちいずれか一項記載の可動ユニット。
  8. 可動ユニットを制御する方法であって、
    音声信号を捕捉する段階と、
    前記音声信号に音声認識を行う段階と、
    を有し、
    前記音声信号に音声認識を行うことによって、認識品質を評価し、
    前記認識品質が十分に良好でない場合、前記認識品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所が決定され、前記可動ユニットは、前記目標場所に動かされる、方法。
  9. 可動ユニットは、ユーザから前記可動ユニットへの音声信号の予想される伝送品質を絶えず決定し、前記伝送品質が恐らく十分に良好でない場合、前記伝送品質が恐らくより良い前記可動ユニットのための少なくとも1つの目標場所が決定され、前記可動ユニットは、前記目標場所に動かされる、可動ユニットを制御する方法。
JP2004512119A 2002-06-05 2003-06-03 可動ユニット及び可動ユニットを制御する方法 Pending JP2005529421A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10224816A DE10224816A1 (de) 2002-06-05 2002-06-05 Eine mobile Einheit und ein Verfahren zur Steuerung einer mobilen Einheit
PCT/IB2003/002085 WO2003105125A1 (en) 2002-06-05 2003-06-03 Mobile unit and method of controlling a mobile unit

Publications (1)

Publication Number Publication Date
JP2005529421A true JP2005529421A (ja) 2005-09-29

Family

ID=29594257

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004512119A Pending JP2005529421A (ja) 2002-06-05 2003-06-03 可動ユニット及び可動ユニットを制御する方法

Country Status (6)

Country Link
US (1) US20050234729A1 (ja)
EP (1) EP1514260A1 (ja)
JP (1) JP2005529421A (ja)
AU (1) AU2003232385A1 (ja)
DE (1) DE10224816A1 (ja)
WO (1) WO2003105125A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010010857A (ja) * 2008-06-25 2010-01-14 Oki Electric Ind Co Ltd 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
JP2017537361A (ja) * 2014-09-12 2017-12-14 アップル インコーポレイテッド 発語トリガを常時リッスンするための動的閾値
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
WO2007041295A2 (en) 2005-09-30 2007-04-12 Irobot Corporation Companion robot for personal interaction
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
DE102007002905A1 (de) * 2007-01-19 2008-07-24 Siemens Ag Verfahren und Vorrichtung zur Aufnahme eines Sprachsignals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8238254B2 (en) * 2009-05-14 2012-08-07 Avaya Inc. Detection and display of packet changes in a network
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
DE102014209499A1 (de) * 2014-05-20 2015-11-26 Continental Automotive Gmbh Verfahren zum Betreiben eines Sprachdialogsystems für ein Kraftfahrzeug
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3403146A4 (en) 2016-01-15 2019-08-21 iRobot Corporation AUTONOMOUS MONITORING ROBOT SYSTEMS
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105810195B (zh) * 2016-05-13 2023-03-10 漳州万利达科技有限公司 一种智能机器人的多角度定位系统
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US20170368691A1 (en) * 2016-06-27 2017-12-28 Dilili Labs, Inc. Mobile Robot Navigation
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10100968B1 (en) 2017-06-12 2018-10-16 Irobot Corporation Mast systems for autonomous mobile robots
US11110595B2 (en) 2018-12-11 2021-09-07 Irobot Corporation Mast systems for autonomous mobile robots
US11294391B2 (en) * 2019-05-28 2022-04-05 Pixart Imaging Inc. Moving robot with improved identification accuracy of step distance
WO2021108991A1 (zh) * 2019-12-03 2021-06-10 深圳市大疆创新科技有限公司 控制方法、装置和可移动平台

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ255617A (en) * 1992-09-04 1996-11-26 Ericsson Telefon Ab L M Tdma digital radio: measuring path loss and setting transmission power accordingly
US7054635B1 (en) * 1998-11-09 2006-05-30 Telefonaktiebolaget Lm Ericsson (Publ) Cellular communications network and method for dynamically changing the size of a cell due to speech quality
US20030165124A1 (en) * 1998-12-30 2003-09-04 Vladimir Alperovich System and method for performing handovers based upon local area network conditions
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones
JP2002140092A (ja) * 2000-10-31 2002-05-17 Nec Corp 音声認識ロボット
DE10251113A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren zum Betrieb eines Spracherkennungssystems

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010010857A (ja) * 2008-06-25 2010-01-14 Oki Electric Ind Co Ltd 音声入力ロボット、遠隔会議支援システム、遠隔会議支援方法
JP2017537361A (ja) * 2014-09-12 2017-12-14 アップル インコーポレイテッド 発語トリガを常時リッスンするための動的閾値
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
CN109141620A (zh) * 2017-06-23 2019-01-04 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质
JP2019008134A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10665249B2 (en) 2017-06-23 2020-05-26 Casio Computer Co., Ltd. Sound source separation for robot from target voice direction and noise voice direction
CN109141620B (zh) * 2017-06-23 2021-01-22 卡西欧计算机株式会社 声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质

Also Published As

Publication number Publication date
DE10224816A1 (de) 2003-12-24
AU2003232385A1 (en) 2003-12-22
EP1514260A1 (en) 2005-03-16
WO2003105125A1 (en) 2003-12-18
US20050234729A1 (en) 2005-10-20

Similar Documents

Publication Publication Date Title
JP2005529421A (ja) 可動ユニット及び可動ユニットを制御する方法
US11348581B2 (en) Multi-modal user interface
JP5529931B2 (ja) ビデオ会議のための自動カメラ選択
JP4675811B2 (ja) 位置検出装置、自律移動装置、位置検出方法および位置検出プログラム
JP2008158868A (ja) 移動体、及びその制御方法
WO2015196411A1 (en) Beamforming audio with wearable device microphones
WO2015029296A1 (ja) 音声認識方法及び音声認識装置
US20050159955A1 (en) Dialog control for an electric apparatus
CN106775572A (zh) 具有麦克风阵列的电子设备及其控制方法
Vincent et al. Audio source localization by optimal control of a mobile robot
US12112750B2 (en) Acoustic zoning with distributed microphones
JP6890451B2 (ja) リモコン制御システム、リモコン制御方法及びプログラム
CN110716181A (zh) 声音信号采集方法以及分离式麦克风阵列
KR102333476B1 (ko) 레이더 기반 음성 인식 서비스 장치 및 방법
US20200162813A1 (en) Smart Speaker System with Microphone Room Calibration
CN111903194A (zh) 使用连接的照明系统来增强语音命令的系统和方法
KR102407872B1 (ko) 레이더 기반 음성 인식 서비스 장치 및 방법
KR102613040B1 (ko) 영상 통화 방법 및 이를 구현하는 로봇
JP2019095523A (ja) ロボットおよびロボット制御方法
JP2008040075A (ja) ロボット装置及びロボット装置の制御方法
WO2020194717A1 (ja) 音響認識装置、音響認識方法、及び、プログラムが格納された非一時的なコンピュータ可読媒体
US11917386B2 (en) Estimating user location in a system including smart audio devices
US11157738B2 (en) Audio-visual perception system and apparatus and robot system
US20240292147A1 (en) Directional Audio Transmission to Broadcast Devices
KR20170096468A (ko) 자동 음장 제어 방법 및 자동 음장 제어 장치 및 상기 자동 음장 제어 장치가 제어하는 출력 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080924