JP2009517225A - System and method for image mapping and visual attention - Google Patents

System and method for image mapping and visual attention Download PDF

Info

Publication number
JP2009517225A
JP2009517225A JP2008535701A JP2008535701A JP2009517225A JP 2009517225 A JP2009517225 A JP 2009517225A JP 2008535701 A JP2008535701 A JP 2008535701A JP 2008535701 A JP2008535701 A JP 2008535701A JP 2009517225 A JP2009517225 A JP 2009517225A
Authority
JP
Japan
Prior art keywords
robot
attention
image
ses
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008535701A
Other languages
Japanese (ja)
Inventor
リチャード アラン ザ セカンド ピーターズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vanderbilt University
Original Assignee
Vanderbilt University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vanderbilt University filed Critical Vanderbilt University
Publication of JP2009517225A publication Critical patent/JP2009517225A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0268Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means
    • G05D1/0274Control of position or course in two dimensions specially adapted to land vehicles using internal positioning means using mapping information stored in a memory device
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/35Nc in input of data, input till input file format
    • G05B2219/35144Egosphere: spherical shell 2-5-D around robot, objects are projected on it

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Electromagnetism (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

【課題】知能機械、特に適応自律ロボットの技術を提供する。
【解決手段】高密度感覚データを感覚自己中心球体(SES)にマップする。SES上に完全な視覚シーンを形成する画像内に関連の区域を見つけてランク付けする。画像データのアテンション処理は、個々のフルサイズ画像に対して行い、各アテンション位置を最も近いノードにマップし、各ノードで全てのアテンション位置を合計することによって最良に行われる。アテンション処理は、シーケンス内の各画像に対して繰返され、多くの情報が入手可能である。いくつかの隣接画像内で持続したアテンションポイントは、高い活性値を有することになり、1つの画像のみに見つかったアテンションポイントよりも顕著であると見なされる。従って、顕著であると見なされた位置が特徴である信頼性は、アテンション処理が上に配置された中心窩窓から復元された画像に対して1回のみ行われる代替処理方法によるものよりも高い。
【選択図】図1
A technology for an intelligent machine, particularly an adaptive autonomous robot is provided.
High density sensory data is mapped to a sensory self-centered sphere (SES). Find and rank relevant areas in images that form a complete visual scene on SES. Image data attention processing is best performed on each full-size image, mapping each attention position to the closest node, and summing all attention positions at each node. The attention process is repeated for each image in the sequence, and much information is available. Attention points that persist in several adjacent images will have a high activity value and are considered more prominent than attention points found in only one image. Thus, the reliability that is characterized by the position considered prominent is higher than with an alternative processing method in which attention processing is performed only once on the image restored from the foveal window located above. .
[Selection] Figure 1

Description

関連出願への相互参照
本出願は、引用によって本明細書に組み込まれている、2005年10月11日出願の米国特許仮出願出願番号第60/726、033号からの恩典を請求するものである。
CROSS-REFERENCE TO RELATED APPLICATIONS This application is incorporated herein by reference, claims the benefit of US Provisional Patent Application Serial No. 60 / 726,033, filed Oct. 11, 2005 is there.

関連特許は、引用によって本明細書に組み込まれている、ロボット知能のためのアーキテクチャに関する米国特許第6、697、707号である。   A related patent is US Pat. No. 6,697,707, which relates to an architecture for robot intelligence, incorporated herein by reference.

米国連邦政府支援研究に関する陳述
本発明は、一部NASA認可NNJ04HI19Gを通じた米国政府からの支援を受けて行われた。米国政府は、本発明においてある一定の権利を有する。
STATEMENT The present invention relates to the United States federal government support research was carried out with the assistance from the through some NASA approval NNJ04HI19G the United States government. The US government has certain rights in this invention.

本発明は、知能マシーンの分野に関する。より具体的には、本発明は、自律適応型ロボットの分野に関する。   The present invention relates to the field of intelligent machines. More specifically, the present invention relates to the field of autonomous adaptive robots.

自律ロボットは、自らの環境における自らの状況を考慮することによって全く独力で作動し、その目標を達成するために人的介入なしにどのアクションを行うべきかを判断することができるロボットである。ロボットは、自らの目標を達成するためにその機能を改善することができる場合には、適応的である。   An autonomous robot is a robot that works entirely independently by considering its own situation in its own environment and can determine what action should be taken without human intervention to achieve its goal. A robot is adaptive if it can improve its capabilities to achieve its goals.

自律適応型ロボットは、環境を感知し、当該環境と相互作用することができなければならない。したがって、ロボットは、センサ及びアクチュエータを含む必要がある。センサは、環境の特性にマッピングすることができる信号を発生させることができるいずれかのデバイスである。センサは、例えば、関節において2つの部材によって形成される角度又はモータシャフトの角速度のような、ロボットの内部の態様を測定する自己受容センサとすることができる。センサは、例えば、ある方向からの光強度又はロボットに印加される力の存在のようなロボットの外部の態様を測定する外受容センサとすることができる。アクチュエータは、ロボットが全体的又は部分的にアクションを行うことを可能にするいずれかのデバイスである。ロボットの物理的状態は、(S+A)次元状態ベクトルR(t)によって説明することができ、ここで、Sは、ロボットセンサデータの次元であり、Aは、ロボットのアクチュエータコントローラの次元である。状態ベクトルR(t)は、ロボットに対してアクセス可能な唯一の情報である。センサ、アクチュエータ、及び機械的支持構造体に加えて、ロボットは、センサから信号を受信し、アクチュエータに指令を伝送し、かつ1つ又はそれよりも多くのプログラムを実行することができる1つ又はそれよりも多くのコンピュータを有するべきである。   Autonomous adaptive robots must be able to sense the environment and interact with it. Therefore, the robot needs to include sensors and actuators. A sensor is any device that can generate a signal that can be mapped to a characteristic of the environment. The sensor may be a self-accepting sensor that measures aspects of the robot, such as, for example, the angle formed by two members at a joint or the angular velocity of a motor shaft. The sensor can be an external receptive sensor that measures aspects external to the robot, such as, for example, light intensity from a certain direction or presence of force applied to the robot. An actuator is any device that allows a robot to perform actions in whole or in part. The physical state of the robot can be described by the (S + A) dimensional state vector R (t), where S is the dimension of the robot sensor data and A is the dimension of the robot's actuator controller. The state vector R (t) is the only information accessible to the robot. In addition to sensors, actuators, and mechanical support structures, the robot can receive one signal from the sensor, transmit commands to the actuator, and execute one or more programs. You should have more computers than that.

自律適応型ロボットを構築するタスクは、研究グループが問題をいくつかのより扱い易いタスクに分割し、各タスクを他のものから独立して解決することに専念するというほどに相当に複雑である。ロボット工学では、学習、計画、及び世界表現という3つのタスク又は挙動(行動:behavior)が、最も困難であると考えられている。   The task of building an autonomous adaptive robot is so complex that the research group concentrates on dividing the problem into several easier-to-handle tasks and solving each task independently of the others . In robotics, the three tasks or behaviors of learning, planning, and world representation are considered the most difficult.

これらの挙動をロボット内に実施する初期の努力は、センサからの環境情報を処理し、人間における学習、計画、及び抽象化(ロボットの世界又は周囲を表現するための)に似た挙動をもたらすアクチュエータへの指令を発生する複雑なプログラムを構築することに向けられた。   Initial efforts to implement these behaviors in the robot process environmental information from sensors, resulting in behavior similar to human learning, planning, and abstraction (to represent the robot world or surroundings). It was aimed at building complex programs that generate commands to actuators.

単一の複雑なコントロールプログラムを構築する努力は続いているが、ロボット工学における新しい驚くべき進歩の多くは、複雑な挙動が複雑な制御プログラムを必要とするという概念の否認に基づいている。代わりに、制御は、多くの相互作用自律エージェントに拡散される。エージェントは、他のエージェントとは独立して機能する一方で、他のエージェントと相互作用する小さなプログラムである。学習又は抽象化される複雑な挙動は、いずれか1つのエージェントによって制御されるのではなく、多くの独立したエージェントの相互作用から発生する。   While efforts to build a single complex control program continue, many new and surprising advances in robotics are based on the denial of the notion that complex behavior requires complex control programs. Instead, control is spread to many interacting autonomous agents. An agent is a small program that functions independently of other agents while interacting with other agents. The complex behavior that is learned or abstracted arises from the interaction of many independent agents rather than being controlled by any one agent.

「カンブリア期の知能:新しいAIの黎明期(Cambrian Intelligence: the early history of the new AI)」、MIT出版、1999年における、Mataric及びBrooks著の「ナビゲーション挙動に基づく拡散マッピング表現の学習(Learning a Distributed Map Representation Based on Navigation Behaviors)」は、目標への誘導ナビゲーションのような複雑な挙動が、「反射」と呼ばれるより単純な挙動の相互作用から出現し得ることが明らかにしている。反射は、アクチュエータ信号をセンサ信号に結合するエージェントである。例えば、回避反射は、近接センサからの信号に基づいて車輪モータへの信号を発生させることができる。近接センサが、ロボットの危険区域内で物体を感知した場合には、反射は、車輪モータを停止する信号を発生させる。Mataric及びBrooksは、僅か4つの反射から始めて、これらの反射の相互作用から目標誘導ナビゲーションが出現し得ることを示している。しかし、反射は、ロボットによって発生したのではなく、プログラマーによる手作業のコード化を必要とした。   “Cambrian Intelligence: The Early History of the New AI”, published by MIT Publishing, 1999, “Learning a Learning of Diffusion Mapping Based on Navigation Behavior (Learning a "Distributed Map Representation Based on Navigation Behaviors") reveals that complex behaviors such as guided navigation to a target can emerge from a simpler interaction of behaviors called "reflections". A reflection is an agent that combines an actuator signal with a sensor signal. For example, avoidance reflection can generate a signal to the wheel motor based on the signal from the proximity sensor. If the proximity sensor detects an object in the robot's danger zone, the reflection generates a signal to stop the wheel motor. Matric and Brooks show that starting with only four reflections, target guided navigation can emerge from the interaction of these reflections. However, the reflection did not occur by the robot, but required manual coding by the programmer.

Pfeifer、R.及びC.Scheier著の「感覚運動協調:メタファー及びそれを超えて(Sensory-motor coordination: the metaphor and beyond)」、ロボット工学と自律システム、「自律エージェントの実際と未来(Practice and Future of Autonomous Agents)」特集号、第20巻、第2〜4号、157〜178頁、1997年では、センサ及びアクチュエータからの信号が反復タスクに対してクラスター化する傾向にあり、そのようなクラスター化を感覚運動協調(SMC)を通じたカテゴリ形成と呼ぶことが示されている。Cohenは、ロボットが、センサから受信する連続データストリームを、他のエピソードと比較することができて、典型エピソードが形成されるようにクラスター化することができるエピソードに分割することができることを示している。典型エピソードは、いくつかのエピソードのクラスターの代表であり、各クラスターを含むエピソードにわたって平均を取ることによって判断することができる。典型エピソードは、自己発生し(ロボットにより)、外部プログラマーに取って代わるものである。ロボットが訓練されると、ロボットは、割り当てられたタスクを完了するために用いることができる1組の典型エピソードを識別することになる。連続センサデータストリームからエピソードを識別し、クラスター化したエピソードから「カテゴリ」(典型エピソード)を作成するロボットの機能は、ロボット学習の基礎形態と考えることができる。   Pfeifer, R.A. And C.I. Scheier's “Sensory-motor coordination: the metaphor and beyond”, robotics and autonomous systems, “Practice and Future of Autonomous Agents” No. 20, Vol. 2-4, pp. 157-178, 1997, the signals from sensors and actuators tend to cluster for repetitive tasks, and such clustering is called sensorimotor coordination ( It is shown to be called category formation through SMC). Cohen shows that the robot can divide the continuous data stream it receives from the sensor into episodes that can be compared to other episodes and clustered so that typical episodes are formed. Yes. A typical episode is representative of a cluster of episodes and can be determined by averaging over episodes that include each cluster. Typical episodes are self-generated (by robots) and replace external programmers. As the robot is trained, it will identify a set of typical episodes that can be used to complete the assigned task. The robot's ability to identify episodes from a continuous sensor data stream and create “categories” (typical episodes) from clustered episodes can be considered a basic form of robot learning.

カテゴリの識別のために十分な数のエピソードを収集するためには、ロボットを訓練すべきである。訓練は、通常は、当業者には公知である強化学習(RL)技術によって達成される。RLの一例では、ロボットは、ランダムにアクションを発生させることが許され、一方で訓練者は、望ましい目標に向ってロボットを移動させるアクションに対して報酬を与える。報酬は、ロボットの最も最近のアクションを強化し、同様のアクションに対して同様に報酬が与えられるので、時間と共に報酬が与えられたアクションに対応するエピソードが、クラスター化し始めることになる。しかし、訓練は、望ましいタスクを含む各アクションに対して多くの繰返しを要する。   The robot should be trained to collect a sufficient number of episodes for category identification. Training is usually accomplished by reinforcement learning (RL) techniques known to those skilled in the art. In one example of an RL, the robot is allowed to generate actions randomly, while the trainer rewards the action that moves the robot toward the desired goal. Since rewards reinforce the robot's most recent actions and are similarly rewarded for similar actions, episodes corresponding to rewarded actions over time will begin to cluster. However, training requires many iterations for each action that includes the desired task.

自律型ロボットは、その望ましい目標に導くか又はそれを達成することになるアクションを選択することができるべきである。ロボット計画法に関する公知になっている方法の一つは、互いにリンクされた時に、ロボットが望ましい目標を達成するために実行することができる指令シーケンスを開始する活性化拡散ネットワーク(SAN)、1組の能力モジュール(CM)を伴っている。能力モジュールは、アクチュエータへの指令の前(条件前状態)と後(条件後状態)の両方のロボットの状態を特徴付ける情報を含む。能力モジュールは、1つのCMの条件前状態を別のCMの条件後状態に適合させることによってリンクされる。   An autonomous robot should be able to select an action that will lead to or achieve its desired goal. One known method for robot planning is an activated diffusion network (SAN), which, when linked together, initiates a command sequence that the robot can execute to achieve a desired goal. With the ability module (CM). The capability module contains information characterizing the state of the robot both before (pre-condition state) and after (post-condition state) commands to the actuator. Capability modules are linked by adapting the pre-condition state of one CM to the post-condition state of another CM.

計画法は、最初に、割り当てられた目標を達成した後のロボットの状態に対応する条件後状態を有するCMとして定義される全ての終端CMを識別することによって始まる。次に、終端CMの各々の条件前状態を用いて、終端CMの条件前状態に適合する条件後状態を有する他のCMを見つける。この処理は、CMの条件前状態がロボットの現在状態の条件に対応するまで繰り返される。   The programming method begins by identifying all terminal CMs that are defined as CMs that have a post-conditional state that corresponds to the state of the robot after achieving the assigned goal. Next, each pre-condition state of the terminal CM is used to find another CM having a post-condition state that matches the pre-condition state of the terminal CM. This process is repeated until the pre-condition state of the CM corresponds to the condition of the current state of the robot.

目標への最短経路を検索する1つの方法では、各CMは、そのCMに接触する(端点が適合する)CMによって判断される活性値が割り当てられる。実行の順序は、各CMの活性値によって判断され、最大活性値を有するCMが次に実行される。   In one method of searching for the shortest path to a target, each CM is assigned an activity value determined by the CM that touches that CM (with matching endpoints). The order of execution is determined by the activity value of each CM, and the CM having the maximum activity value is executed next.

CM数が増加すると、検索を完了するのに要する時間は非常に急激に増加し、ロボットの反応時間は、ロボットが自らの環境内の動的変化に応答することができなくなるまで増加する。そのような検索は、タスクを始める前の計画には許容範囲内であると考えられるが、より多くのCMが追加される時(すなわち、ロボットが学習する時)の検索時間が指数的に増加することによって、そのような検索は、ロボットの変化する環境への実時間応答に対して不適切なものになる。   As the number of CMs increases, the time required to complete a search increases very rapidly, and the robot's reaction time increases until the robot is unable to respond to dynamic changes in its environment. Such a search is considered acceptable in the plan before starting the task, but the search time increases exponentially when more CMs are added (ie when the robot learns) By doing so, such a search becomes inappropriate for the real-time response of the robot to the changing environment.

CMリンクの逆伝播は、ロボットが、ロボットをその現在状態から目標状態へと移すCMの完全なチェーンが見つかるまで、リンクされたCMを実行し始めることができないことから、ロボットの応答性において回避不能な遅延を発生させる。この回避不能の遅延は、ロボットの作動環境を通常は予測可能な状況に制限してしまう。   CM link backpropagation is avoided in robot responsiveness because the robot cannot begin to execute the linked CM until a complete chain of CMs is found that moves the robot from its current state to the target state. Causes impossible delays. This unavoidable delay limits the operating environment of the robot to a normally predictable situation.

したがって、ロボットの環境内の急激又は動的な状況に反応することができる一方、ロボットが学習する時のCMの追加を考慮するロボット計画のための効率的な方法への必要性が残っている。   Thus, there remains a need for an efficient method for robot planning that can react to abrupt or dynamic situations in the robot's environment while considering the addition of CM as the robot learns. .

人物と同様にロボットでは、受信する感覚情報の量は、ロボットの処理機能を大幅に超える。あらゆる環境で機能するためには、ロボットは、自らの作動に重要な情報を保持しながら、多量のセンサデータストリームを自らのプロセッサが処理することができるデータレートに高密度化することができるべきである。センサデータストリームを高密度化する一方法では、ロボットは、ロボットの環境の表現(世界モデル)を構築し、自らが格納したこの表現に対して、受信する感覚情報を比較する。世界モデルは、ロボットがその環境内で自らを配向することを可能にし、世界モデル内の物体に対する感覚データの迅速な特徴付けを可能にする。   As with humans, the amount of sensory information received by a robot greatly exceeds the processing function of the robot. To function in any environment, a robot should be able to densify a large amount of sensor data stream to a data rate that can be processed by its processor while retaining information critical to its operation. It is. In one method of densifying the sensor data stream, the robot builds a representation of the robot's environment (world model) and compares the received sensory information against this representation stored by itself. The world model allows the robot to orient itself within its environment and allows rapid characterization of sensory data for objects in the world model.

世界モデルは、他者中心的とすることができ、又は自己中心的とすることもできる。他者中心的世界モデルは、ロボットの位置と共に変化しない座標格子に物体を配置する。自己中心的モデルは、ロボットの現在位置を常に中心とする。自己中心的モデルの一例は、Albus、J.S.著の「知能理論概説(Outline for a theory of intelligence)」、IEEE Trans.Syst.Man、and Cybern.、第21巻、第3号、1991年に説明されている。Albusは、ロボットの環境が、ロボットの現在位置を中心とする球体表面上に投影される「自己中心球体(an Ego-sphere)」を説明している。「自己中心球体」は、全ての感覚情報が「自己中心球体」上に投影されるという意味において世界の高密度表現である。また、Albusの「自己中心球体」は、投影がアフィン(affine)であることから連続的である。「自己中心球体」の利点は、世界の完全な表現であり、物体の方向に対処するその機能である。しかし、「自己中心球体」は、物体内への感覚データストリームの処理及び重要でない物体から重要な物体を区別するフィルタリング機構を依然として必要とする。更に、Albusは、「自己中心球体」を用いてロボットのためのアクションプランを作り出すためのいかなる方法も開示又は示唆しておらず、又は「自己中心球体」をロボットの学習機構にリンクする示唆もない。   The world model can be others-centric or self-centric. The others-centric world model places objects in a coordinate grid that does not change with the position of the robot. Self-centered models are always centered on the current position of the robot. An example of an autocentric model is Albus, J. et al. S. "Outline for a theory of intelligence", IEEE Trans. Syst. Man, and Cybern. , Vol. 21, No. 3, 1991. Albus describes an “an Ego-sphere” in which the environment of a robot is projected onto a sphere surface centered on the current position of the robot. The “self-centered sphere” is a high-density representation of the world in the sense that all sensory information is projected onto the “self-centered sphere”. Also, Albus's “self-centered sphere” is continuous because the projection is affine. The advantage of a “self-centered sphere” is a complete representation of the world and its ability to deal with the direction of the object. However, “self-centered spheres” still require processing of sensory data streams into objects and filtering mechanisms that distinguish important objects from unimportant objects. Furthermore, Albus does not disclose or suggest any method for creating an action plan for a robot using a “self-centered sphere” or suggesting linking the “self-centered sphere” to the robot's learning mechanism. Absent.

自己中心的モデルの別の例は、引用によって本明細書に組み込まれている米国特許第6、697、707号に説明されている「感覚自己中心球体(SES)」である。ここでもまた、ロボットの環境は、ロボットの現在位置を中心とする球体表面上に投影される。より具体的には、一実施形態では、SESは、球体の多面体への準均一的な三角形モザイクである測地線ドーム(a geodesic dome)として構造化される。測地線ドームは、12枚の五角形と、ドームの頻度(又はモザイク)に依存する可変数の六角形とで構成される。頻度は、1つの五角形の中心を別の五角形の中心と結ぶ頂点の数によって判断され、全ての五角形は、ドーム上に一様に分布される。例示的に、SESは、14のモザイク及び従って1963個のノードを有する。   Another example of a self-centric model is the “sensory self-centered sphere (SES)” described in US Pat. No. 6,697,707, which is incorporated herein by reference. Again, the environment of the robot is projected onto a sphere surface centered on the current position of the robot. More specifically, in one embodiment, the SES is structured as a geodesic dome, which is a quasi-uniform triangular mosaic into a spherical polyhedron. The geodesic dome is composed of 12 pentagons and a variable number of hexagons depending on the frequency (or mosaic) of the dome. The frequency is determined by the number of vertices connecting the center of one pentagon with the center of another pentagon, and all pentagons are uniformly distributed on the dome. Illustratively, the SES has 14 mosaics and thus 1963 nodes.

SESは、複数のセンサを同時に刺激する環境内のイベントの検出を容易にする。ロボットにおける各センサは、これらのセンサに関連付けられたデータストリームから特定の情報を抽出するように設計された1つ又はそれよりも多くの感覚処理モジュール(SPM)に情報を送信する。SPMは、互いに独立しており、好ましくは、異なるプロセッサ上で連続的かつ同時に作動する。各SPMは、入手可能であればSESにおける方向感覚情報を含むデータを格納するSESマネージャエージェントに情報メッセージを送信する。具体的には、センサデータは、球体上でデータの発信元に最も近接する(空間において)ノードに格納される。例えば、環境内に視覚的に定位された物体は、物体が見えた時のカメラヘッドのパン及びチルト角に対応する方位角及び仰角で球体上に投影される。物体及び他の関連情報を識別するラベルは、データベース内に格納される。物体の投影部に最も近接する球体上の頂点は、登録ノード又は情報がデータベース内に格納される位置になる。また、SESマネージャが受信する各メッセージには、メッセージを受信した時間を示すタイムスタンプが与えられる。   SES facilitates the detection of events in the environment that stimulate multiple sensors simultaneously. Each sensor in the robot sends information to one or more sensory processing modules (SPMs) designed to extract specific information from the data stream associated with these sensors. The SPMs are independent of each other and preferably run sequentially and simultaneously on different processors. Each SPM sends an information message to a SES manager agent that stores data including direction sense information in SES, if available. Specifically, the sensor data is stored in a node closest to the data source on the sphere (in space). For example, an object visually localized in the environment is projected onto a sphere with an azimuth and elevation corresponding to the pan and tilt angles of the camera head when the object is seen. Labels identifying objects and other related information are stored in the database. The vertex on the sphere closest to the object projection is the location where the registration node or information is stored in the database. Each message received by the SES manager is given a time stamp indicating the time when the message was received.

SESは、関連アイテムを見つけるために球体投影場全体を処理する必要性を排除する。投影場全体の処理は、非常に多くの時間を消費し、環境内の動的変化に迅速に応答するロボットの機能を低下させる。有意なイベントは、SESの最も活性な区域を識別することでSESによって迅速に識別される。処理リソースは、最も活性な区域における物体を識別するためだけに用いられ、投影場の対象外又は関連のない区域において浪費されない。更に、各SPMは、互いに独立してSESに書込みを行うので、SESは、追加コスト(コンピュータリソースに関して)を殆ど要さずに、同じ頂点に書き込まれた独立感覚情報を融合又は関連付けることができる。   SES eliminates the need to process the entire spherical projection field to find related items. Processing the entire projection field is very time consuming and reduces the ability of the robot to respond quickly to dynamic changes in the environment. Significant events are quickly identified by SES by identifying the most active areas of SES. Processing resources are only used to identify objects in the most active areas and are not wasted in areas outside the projection field or unrelated. Furthermore, because each SPM writes to the SES independently of each other, the SES can fuse or associate independent sense information written at the same vertex with little additional cost (in terms of computer resources). .

一実施形態では、SESの頂点は、各頂点における最隣接距離がほぼ同じになるように球体表面にわたって一様に分布される。連続的球体表面の1組の頂点への離散化は、SESエージェントが、各センサ源の方向に基づいて独立したSPM情報を迅速に関連付けることを可能にする。SESのサイズ(頂点数)の選択は、より多くの頂点によって引き起こされる時間遅延増加をロボットのセンサの最高角分解能に対して均衡を取ることによって当業者が判断することができる。好ましい実施形態では、頂点は、測地線ドーム構造における頂点と適合するように配列される。   In one embodiment, the SES vertices are uniformly distributed across the sphere surface such that the nearest neighbor distance at each vertex is approximately the same. Discretization of a continuous sphere surface into a set of vertices allows the SES agent to quickly associate independent SPM information based on the direction of each sensor source. The choice of SES size (number of vertices) can be determined by one skilled in the art by balancing the time delay increase caused by more vertices against the maximum angular resolution of the robot sensor. In a preferred embodiment, the vertices are arranged to match the vertices in the geodesic dome structure.

図1は、上述の第6、697、707号特許の図3から再現したSESの例図である。図1では、SESは、多面体300として表現されている。多面体300は、頂点310が面の1つの角を定める平坦な三角面305を含む。図1の多面体では、各頂点は、5個又は6個のいずれかの最隣接頂点を有し、最隣接距離は、実質的に同じであるが、様々な最隣接距離を発生させるモザイクも本発明の範囲である。SESは、ロボットの現在位置を中心とし、これは、多面体の中心301にある。軸302は、ロボットの現在の進路を定め、軸304は、ロボットに対して垂直な方向を定め、軸303は、軸302と共にロボットの水平面を定める。   FIG. 1 is an example of SES reproduced from FIG. 3 of the aforementioned 6,697,707 patent. In FIG. 1, the SES is represented as a polyhedron 300. Polyhedron 300 includes a flat triangular surface 305 with vertex 310 defining one corner of the surface. In the polyhedron of FIG. 1, each vertex has either 5 or 6 nearest neighbor vertices, and the nearest neighbor distance is substantially the same, but mosaics that generate various nearest neighbor distances are also present. It is the scope of the invention. The SES is centered on the current position of the robot, which is at the center 301 of the polyhedron. Axis 302 defines the current path of the robot, axis 304 defines a direction perpendicular to the robot, and axis 303 together with axis 302 defines the horizontal plane of the robot.

物体350は、中心301を物体350と結ぶ光線355によってSES上に投影される。光線355は、方位角φsと仰角(又は極角)θsとによって定められるポイント357で面360と交わる。φs及びθsのような物体350に関する情報は、ポイント357に最も近接する頂点370に格納される。 The object 350 is projected onto the SES by a ray 355 connecting the center 301 with the object 350. Ray 355 intersects surface 360 at point 357 defined by azimuth angle φ s and elevation angle (or polar angle) θ s . Information about the object 350 such as φ s and θ s is stored at the vertex 370 closest to the point 357.

一実施形態では、SESは、モザイクにされた球体上の頂点を各々が表すデータ構造へのポインタの複数リンクリストとして実施される。各頂点記録は、最隣接頂点へのポインタ及びタグ付きフォーマットデータ構造(TFDS)への追加ポインタを含む。TFDSは、オブジェクトの終端リストであり、各オブジェクトは、英数字タグ、タイムスタンプ、及びデータオブジェクトへのポインタから構成される。タグは、感覚データタイプを識別し、タイムスタンプは、いつデータがSESに書き込まれたかを示している。データオブジェクトは、センサデータ及びこのデータオブジェクトに関連付けられた他のエージェントへのリンクのようなあらゆる機能仕様を含む。いずれかの頂点に書き込むことができるタグのタイプ及び数は制限されない。   In one embodiment, the SES is implemented as a multiple linked list of pointers to data structures each representing a vertex on the mosaicked sphere. Each vertex record includes a pointer to the nearest vertex and an additional pointer to a tagged format data structure (TFDS). TFDS is a terminal list of objects, and each object consists of an alphanumeric tag, a time stamp, and a pointer to a data object. The tag identifies the sensory data type and the time stamp indicates when the data was written to the SES. A data object includes any functional specification such as sensor data and links to other agents associated with the data object. The type and number of tags that can be written to any vertex is not limited.

SESは、「Microsoft Access」製品版又は「MySQL」製品版のような標準データベース製品を用いたデータベースとして実施することができる。データベースと他のシステム構成要素の間の通信を管理するエージェントは、当業者に公知のBasic又はC++のようなプログラミング言語のあらゆるものによって書くことができる。   The SES can be implemented as a database using standard database products such as the “Microsoft Access” product version or the “MySQL” product version. Agents that manage communications between the database and other system components can be written in any programming language such as Basic or C ++ known to those skilled in the art.

一実施形態では、データベースは、全ての登録情報を保持する単一のテーブルである。マネージャは、制御システム内の他のエージェントと通信し、データベースに対して発生した要求を中継する。マネージャは、いずれかのエージェントからデータ通知、データ名を用いたデータ取り出し、データタイプを用いたデータ取り出し、及び位置を用いたデータ取り出しという4つのタイプの要求のうちの1つを受信することができる。通知機能は、要求を出したエージェントから全ての関連データを取り込み、これらのデータを正しい頂点の位置にあるデータベース内に登録する。関連データは、データ名、データタイプ、及びデータを登録すべきモザイク頻度を含む。頂点角度は、データが見つけられたパン角(又は方位角)及びチルト角(又は仰角)に従ってSESによって判断される。また、タイムスタンプも関連データと共に登録される。データ名を用いたデータ取り出し機能は、指定された名前を用いてデータベースに照会する。この照会は、与えられた名前を含むデータベース内の全ての記録を戻す。全てのデータは、要求を出したエージェントに戻される。データタイプを用いたデータ取り出し機能は、以前の機能と同様であるが、照会は、名前の代わりにデータタイプを用いる。位置を用いたデータ取り出し機能は、指定された位置及び検索する隣接深度を用いて照会する頂点を判断する。全ての頂点を判断すると、照会が行われ、指定された頂点における全ての記録が戻される。   In one embodiment, the database is a single table that holds all registration information. The manager communicates with other agents in the control system and relays requests generated to the database. The manager may receive one of four types of requests from any agent: data notification, data retrieval using a data name, data retrieval using a data type, and data retrieval using a location. it can. The notification function captures all relevant data from the requesting agent and registers these data in the database at the correct vertex position. The related data includes a data name, a data type, and a mosaic frequency at which the data is to be registered. The vertex angle is determined by SES according to the pan angle (or azimuth angle) and tilt angle (or elevation angle) at which the data was found. A time stamp is also registered together with related data. The data retrieval function using the data name queries the database using the specified name. This query returns all records in the database that contain the given name. All data is returned to the requesting agent. The data retrieval function using the data type is similar to the previous function, but the query uses the data type instead of the name. The data retrieval function using the position determines the vertex to be queried using the specified position and the adjacent depth to be searched. Once all vertices are determined, a query is made and all records at the specified vertices are returned.

別の実施形態では、データベースは、頂点テーブルが頂点角度及びそれらの索引を保持し、データテーブルが全ての登録データを保持する2つのテーブルから構成される。SESが作成されると、マネージャは、投影インタフェースのための頂点を作成する。頂点テーブル内の各頂点は、方位角、仰角、及び各頂点を一意的に識別する索引を保持する。マネージャは、制御システムの外側のエージェントと通信し、データベースに対して発生した要求を中継する。マネージャは、いずれかのエージェントから、データ通知、データ名を用いたデータ取り出し、データタイプを用いたデータ取り出し、及び位置を用いたデータ取り出しという4つの要求のうちの1つを受信することができる。通知機能は、要求を出したエージェントから全ての関連データを取り込み、これらのデータを正しい頂点の位置にあるデータベース内に登録する。データ名を用いたデータ取り出し機能は、指定された名前を用いてデータベースに照会する。この照会は、与えられた名前を含むデータベース内の全ての記録を戻す。全てのデータは、要求を出したエージェントに戻される。データタイプを用いたデータ取り出し機能は、データ名を用いたデータ取り出し機能と同様であるが、照会は、名前の代わりにデータタイプを用いる。位置を用いたデータ取り出し機能は、頂点テーブル内に格納された索引及び角度を用いる。要求の中に指定された望ましい位置は、SES上の頂点へと変換される。この頂点に対する索引が定位され、最初の位置の望ましい隣接位置内に収まる全ての索引が収集される。次に、これらの索引に適合する角度が、登録データを保持する主データベースへの照会で用いられる。これらの位置における全ての情報は、要求を出した構成要素に戻される。   In another embodiment, the database consists of two tables where the vertex table holds vertex angles and their indexes and the data table holds all registration data. When the SES is created, the manager creates vertices for the projection interface. Each vertex in the vertex table maintains an azimuth angle, an elevation angle, and an index that uniquely identifies each vertex. The manager communicates with an agent outside the control system and relays the request generated to the database. The manager can receive one of four requests from any agent: data notification, data retrieval using data name, data retrieval using data type, and data retrieval using location. . The notification function captures all relevant data from the requesting agent and registers these data in the database at the correct vertex position. The data retrieval function using the data name queries the database using the specified name. This query returns all records in the database that contain the given name. All data is returned to the requesting agent. The data retrieval function using the data type is similar to the data retrieval function using the data name, but the query uses the data type instead of the name. The data retrieval function using position uses an index and an angle stored in the vertex table. The desired position specified in the request is converted to a vertex on the SES. The index for this vertex is localized and all indexes that fall within the desired adjacent position of the first position are collected. The angles that fit these indexes are then used in a query to the main database that holds the registration data. All information at these locations is returned to the requesting component.

通知及び取り出しエージェントに加えて、他のエージェントは、通知及び取り出しエージェントの使用を通じてSES内に格納された情報に対して、データ解析又はデータ表示のような機能を行うことができる。   In addition to notification and retrieval agents, other agents can perform functions such as data analysis or data display on information stored in the SES through the use of notification and retrieval agents.

各SPMエージェントは、SES上の頂点に書き込むので、アテンションエージェントは、頂点リストの中を検索して照準頂点と呼ぶ最も活性な頂点を見つける。頂点又は頂点群における高い活動度は、最初にSESの全ての頂点にある情報を処理することなく、ロボットに関連する可能性がある環境内のイベントへとロボットの照準を合わせる非常に迅速な方法である。本発明の一実施形態では、アテンションエージェントは、最多のSPMメッセージを有する頂点を見つけることによって照準頂点を識別する。   Since each SPM agent writes to a vertex on the SES, the attention agent searches the vertex list to find the most active vertex called the aiming vertex. High activity at a vertex or group of vertices is a very quick way to aim the robot at events in the environment that may be related to the robot without first processing the information at all vertices of the SES It is. In one embodiment of the invention, the attention agent identifies the aiming vertex by finding the vertex with the most SPM messages.

好ましい実施形態では、アテンションエージェントは、SESに対して書き込まれた情報に重み付けを行い、現在実行中の挙動に部分的に基づいて各メッセージの活性値を判断し、最も高い活性値を有する頂点として照準頂点を識別する。現在実行中の挙動が正常に終了した(条件後状態が満たされた)場合には、アテンションエージェントは、条件後状態を見ることを予測するはずであり、条件後状態の発生に対してSESの一部分を鋭敏化することができ、それによってSESの鋭敏化された部分に書き込まれるSPMデータには、より大きな重み又は活動度が与えられるようになる。また、各SPMも、予測SPM信号により大きな重みが与えるように、データベース結合メモリ(DBAM)からの現在実行中の挙動に基づいて偏重することができる。   In a preferred embodiment, the attention agent weights the information written to the SES, determines the activity value of each message based in part on the currently executing behavior, and as the vertex with the highest activity value. Identify the aiming vertex. If the currently executing behavior ends normally (the post-condition state is satisfied), the attention agent should expect to see the post-condition state, and the SES A portion can be sensitized so that SPM data written to the sensitized portion of the SES is given greater weight or activity. Each SPM can also be biased based on the currently executing behavior from the database combined memory (DBAM) so that more weight is given to the predicted SPM signal.

例えば、現在実行中の挙動は、赤色の物体を現在の進路の左45°に見ることを予測する条件後状態を有する場合がある。アテンションエージェントは、現在の進路の左45°の周囲の領域にある頂点に書き込まれるあらゆるSPMデータに、例えば、他の頂点における活動度よりも50%高い活動度が割り当てられるように、これらの頂点を鋭敏化することになる。同様に、環境内で赤色の物体を検出するSPMは、例えば、他のSPMの活動レベルよりも50%高い活動レベルを有するメッセージを書き込むことになる。   For example, the currently executing behavior may have a post-conditional state that predicts viewing a red object 45 ° to the left of the current path. The attention agent may assign these SPM data written to vertices in the area around 45 ° to the left of the current path, for example, to assign an activity 50% higher than the activity at the other vertices. Will be sensitized. Similarly, an SPM that detects a red object in the environment will, for example, write a message having an activity level that is 50% higher than the activity level of other SPMs.

環境内のイベントは、いくつかのセンサを同時に刺激する場合があると考えられるが、様々なSPMからのメッセージは、各特定のセンサに関連付けられる異なる遅延(待ち時間)によって異なる時間にSESに書き込まれることになる。例えば、画像シーケンス内で動いている縁部を見つけることは、IRセンサアレイによって動きを検出するよりも長い時間を消費することになる。コインシデンス検出エージェントは、SESがある一定の時間間隔内に受信するメッセージが、単一のイベントへの応答として識別されるように、当業者に公知の訓練技術を用いて、異なるセンサ遅延に対処するように訓練することができる。   Events in the environment are thought to stimulate several sensors simultaneously, but messages from various SPMs are written to the SES at different times due to different delays (latency) associated with each particular sensor. Will be. For example, finding moving edges in an image sequence will consume more time than detecting motion with an IR sensor array. The coincidence detection agent addresses different sensor delays using training techniques known to those skilled in the art so that messages received within a certain time interval of SES are identified as responses to a single event. Can be trained.

頂点に書き込まれたSPMデータに加えて、頂点は、DBAM内に格納された挙動へのリンクを含むことができる。同様に、目印マッピングエージェントも、SESに書込みを行うことができ、物体が予測される頂点における物体記述子へのポインタを格納する。物体は、本明細書においてその全内容が引用により組み込まれている、Peters、R.A.II、K.E.Hambuchen、K.Kawamura、及びD.M.Wilkes著「ヒューマノイドのための短期メモリとしての感覚自己中心球体」、「IEEE−RASヒューマノイドロボット国際会議」会報、451〜459頁、早稲田大学、東京、2001年11月22〜24日に説明されているもののような変換を用いてロボット移動中にSES上で追跡することができる。   In addition to the SPM data written to the vertices, the vertices can include links to behaviors stored in the DBAM. Similarly, the landmark mapping agent can also write to the SES and stores a pointer to the object descriptor at the vertex where the object is predicted. Objects are described in Peters, R., et al., The entire contents of which are incorporated herein by reference. A. II, K.K. E. Hambuchen, K.M. Kawamura, and D.K. M.M. Wilkes' "Sensual Self-Centered Sphere as a Short-Term Memory for Humanoids", "IEEE-RAS Humanoid Robot International Conference" Bulletin, pages 451-459, Waseda University, Tokyo, November 22-24, 2001 It can be tracked on the SES during robot movement using transformations such as

予測物体をSES上に配置して物体を追跡する機能は、ロボットが何を予測すべきかを把握し、通過した物体が何処にあるべきかを記憶し、かつ再現することを可能にする。また、通過した物体を再現する機能は、突然のイベントが、ロボットの状態をイベントの前のロボットの活性マップからかけ離れたポイントに変位させる可能性があるという意味で、突然のイベントがロボットを「迷子」にさせた場合に、ロボットが前の状態に逆追跡することを可能にする。   The ability to place a predicted object on the SES and track the object allows the robot to figure out what to predict and to remember and reproduce where the passed object should be. In addition, the function to reproduce the passed object means that a sudden event may cause the robot's state to shift to a point far from the robot's activity map in front of the event. This allows the robot to backtrack to the previous state when it is lost.

物体をSES上に配置する機能は、ロボットに自己中心ナビゲーションの機能を与える。SES上への3つの物体の配置は、ロボットが、自らの現在位置を三角分割することを可能にし、SES上に目標状態を配置する機能は、ロボットがこの現在位置に関する目標を計算することを可能にする。   The function of placing an object on the SES gives the robot the function of self-centered navigation. The placement of the three objects on the SES allows the robot to triangulate its current position, and the ability to place the target state on the SES allows the robot to calculate a target for this current position. enable.

また、SES内に配置された物体は、例えば、別のロボットのようなこのロボットの外部の発生源に起因してもよい。それによってロボットは、自らが直接見ることができない物体の位置を「知る」ことが可能になる。   Also, the object placed in the SES may originate from a source outside this robot, such as another robot, for example. This allows the robot to “know” the position of objects that it cannot directly see.

照準頂点に書き込まれた情報は、現在状態ベクトルへとベクトル符号化され、DBAMに渡される。現在状態ベクトルは、DBAM内で用いられて現在実行中の挙動を終了又は続行させ、更にその後の挙動を活性化する。   Information written to the aiming vertex is vector-encoded into a current state vector and passed to the DBAM. The current state vector is used in the DBAM to terminate or continue the currently executing behavior and further activate subsequent behavior.

アクチュエータ制御は、DBAMから取り出した挙動エージェントを実行することによって活性化される。各挙動は、DBAM内に記録として格納され、独立した挙動エージェントによって実行される。ロボットが自律モードで作動し、タスクを実施している時には、現在実行中の挙動エージェントは、SESから情報を受信する。現在実行中の挙動エージェントは、SES情報が現在の挙動によって予測される状態に対応する場合に実行を続行するか、又はSES情報が現在の挙動の条件後状態に対応する場合に現在の挙動を終了するかのいずれかである。また、現在実行中の挙動は、単純なタイムアウト基準によって終了させることができる。   Actuator control is activated by executing a behavior agent retrieved from the DBAM. Each behavior is stored as a record in the DBAM and executed by an independent behavior agent. When the robot is operating in autonomous mode and performing a task, the currently executing behavior agent receives information from the SES. The currently executing behavior agent continues execution if the SES information corresponds to the state predicted by the current behavior, or the current behavior if the SES information corresponds to the post-conditional state of the current behavior. One of them to end. Also, currently running behavior can be terminated by a simple timeout criterion.

終了条件を識別すると、その後の挙動は、現在実行中の挙動にリンクされた挙動の間の活性化信号の伝播によって選択される。DBAM内の挙動の全てではなく、現在実行中の挙動にリンクされた挙動だけに検索空間を制限することで、その後の挙動の検索時間が著しく低減し、それによってロボットは、実時間応答性を示す。   Once the termination condition is identified, the subsequent behavior is selected by propagation of the activation signal during the behavior linked to the currently executing behavior. Limiting the search space to only those behaviors linked to the currently executing behavior, rather than all of the behaviors in the DBAM, significantly reduces subsequent behavior retrieval times, which allows the robot to reduce real-time responsiveness. Show.

現在の挙動にリンクされた挙動の各々は、現在状態とこれらの挙動自体の条件前状態との間のベクトル空間距離を計算する。各挙動は、他のリンクされた挙動への計算距離に逆比例する禁止信号を伝播させる(活性化項に負の数を加算することにより)。リンクされた挙動間の禁止信号の伝播は、大部分の事例では、最も高い活性化項を有する挙動が、ロボットの現在状態に最も緊密に適合する条件前状態を有する挙動でもあるという効果を有する。   Each of the behaviors linked to the current behavior calculates the vector space distance between the current state and the pre-conditional state of these behaviors themselves. Each behavior propagates a forbidden signal that is inversely proportional to the calculated distance to the other linked behavior (by adding a negative number to the activation term). Propagation of forbidden signals between linked behaviors has the effect that in most cases the behavior with the highest activation term is also the behavior with the pre-condition state that most closely matches the current state of the robot .

挙動間のリンクは、タスク計画中にSANエージェントによって作成されるが、夢想状態中に夢想エージェントによって作成することもできる。これらのリンクは、タスク依存であり、異なる挙動は、割り当てられた目標に依存して互いにリンクすることができる。   Links between behaviors are created by the SAN agent during task planning, but can also be created by the dream agent during the dream state. These links are task dependent and different behaviors can be linked to each other depending on the assigned goals.

目標を達成するようにロボットにタスクが課された時には、活性化拡散ネットワーク(SAN)エージェントは、目標状態から現在状態へと逆伝播させることで、DBAM内でロボットをその現在状態から目標状態に移すことになる挙動シーケンス(活性マップ)を組み立てる。活性マップに追加された各挙動に対して、SANエージェントは、追加された挙動の条件後状態に近接する条件前状態を有する挙動の検索を行い、この近接する挙動を追加された挙動に結ぶリンクを追加する。リンクを特徴付けてリンクされた挙動間の逆ベクトル空間距離に基づく活性化項も、追加された挙動に追加される。SANエージェントは、現在状態を目標状態に結ぶいくつかの経路を作成することができる。   When a task is imposed on the robot to achieve the goal, an activated diffusion network (SAN) agent backpropagates from the target state to the current state, thereby moving the robot from its current state to the target state within the DBAM. Assemble the behavior sequence (activity map) to be transferred. For each behavior added to the activity map, the SAN agent searches for a behavior having a pre-condition state close to the post-condition state of the added behavior, and links this adjacent behavior to the added behavior. Add An activation term that characterizes the link and is based on the inverse vector space distance between the linked behaviors is also added to the added behavior. The SAN agent can create several paths that connect the current state to the target state.

指令コンテクストエージェントは、ロボットが目標定義タスクを受信することを可能にし、ロボットを活性モード、夢想モード、及び訓練モードの間で遷移させることを可能にする。   The command context agent enables the robot to receive the goal definition task and allows the robot to transition between active mode, dream mode, and training mode.

タスクを行わないか又は学習しない時、又は現在のタスクがロボットの最大処理機能を用いない時の機械的非活動期間中に、ロボットは、夢想状態に遷移することができる。夢想状態にある間は、ロボットは、その最も最近の活動に基づいて挙動を修正し、又は新しい挙動を作成し、将来の活動中の見込み実行のための新しいシナリオ(このロボットによって過去に実行されていない挙動シーケンス)を作成する。   The robot can transition to a dream state when not performing or learning a task, or during a mechanical inactivity period when the current task does not use the robot's maximum processing capability. While in the dream state, the robot modifies its behavior based on its most recent activity, or creates a new behavior, and creates a new scenario for prospective execution in future activities (executed in the past by this robot). Create a behavior sequence).

ロボットが夢想する度に、夢想エージェントは、エピソード境界及びエピソードを識別することによって最後の夢想状態からの最近の活動期間に関するR(t)を分析する。各最近のエピソードは、まずDBAM内の既存の挙動と比較され、最近のエピソードが既存の挙動の別のインスタンスであるか否かが確認される。比較は、最近のエピソードと既存の挙動の間の平均距離又は端点距離又はいずれか他の同様の基準に基づくものとすることができる。このエピソードがこの挙動に近接する場合には、この挙動は、新しいエピソードに対処するように修正することができる。   Each time the robot dreams, the dream agent analyzes R (t) for the most recent activity period from the last dream state by identifying episode boundaries and episodes. Each recent episode is first compared to the existing behavior in the DBAM to see if the recent episode is another instance of the existing behavior. The comparison may be based on the average distance or endpoint distance between recent episodes and existing behavior or any other similar criteria. If this episode is close to this behavior, this behavior can be modified to deal with the new episode.

エピソードが既存の挙動とは明瞭に異なる場合には、夢想エージェントは、このエピソードに基づいて新しい挙動を作成し、最も近い挙動へのリンクを見つけて作成する。最も近い既存の挙動へのデフォルトの活性化リンクは、単一のエピソードから発生させる新しい挙動に、多くのエピソードから発生させる挙動よりも小さい活性値を割り当てることができるように、典型挙動で表されたエピソード数に部分的に基づくものとすることができる。新しい挙動は、将来の見込み実行のためのDBAMに追加される。   If the episode is clearly different from the existing behavior, the dream agent creates a new behavior based on this episode and finds and creates a link to the closest behavior. The default activation link to the closest existing behavior is represented by a typical behavior so that a new behavior generated from a single episode can be assigned a lower activity value than a behavior generated from many episodes. It can be based in part on the number of episodes. New behavior is added to the DBAM for future prospective execution.

ロボットが、遠隔操作又は他の公知の訓練技術を通じてのみ学習される挙動シーケンスに限定された場合には、このロボットは、新しい状況に応答することができない場合がある。好ましい実施形態では、夢想エージェントは、機械的非活動期間中に活性化され、ロボットが、その活性状態中に、過去に体験したことがない不慮の出来事に意図的かつ積極的に反応することを可能にすることができる新しい妥当性のある挙動シーケンスを作成する。夢想エージェントは、DBAMから1対の挙動をランダムに選択し、選択した挙動間の端点距離を計算する。端点距離は、一方の挙動の条件前状態と他方の挙動の条件後状態の間の距離である。この距離は、ベクトル距離又は当業者に公知のあらゆる適切な尺度とすることができる。計算した距離がカットオフ距離よりも短い場合には、先行の挙動(その後の挙動の条件前状態に近い条件後状態を有する挙動)を修正して、その後の挙動へのリンクを含める。   If the robot is limited to behavioral sequences that are learned only through remote control or other known training techniques, the robot may not be able to respond to new situations. In a preferred embodiment, the dream agent is activated during a period of mechanical inactivity, and the robot is willing to react intentionally and positively to unforeseen events that it has not experienced in the past. Create a new valid behavior sequence that can be enabled. The dream agent randomly selects a pair of behaviors from the DBAM and calculates the end point distance between the selected behaviors. The end point distance is a distance between the pre-condition state of one behavior and the post-condition state of the other behavior. This distance can be a vector distance or any suitable measure known to those skilled in the art. If the calculated distance is shorter than the cut-off distance, modify the preceding behavior (behavior having a post-conditional state close to the pre-conditional state of the subsequent behavior) and include a link to the subsequent behavior.

Pfeifer及びCohenのロボットは、タスクの達成に導くエピソードを識別するように訓練する必要がある。訓練は、通常は、ロボットをタスクの完了まで進めるロボット挙動を観測し、報酬を与える外部ハンドラを含む。ロボットは、ランダム移動又は最良推定移動のいずれかを行い、この移動がロボットを目標に向けて進めたか否かに依存してハンドラから肯定的又は否定的フィードバックを受信する。この移動フィードバックサイクルは、目標に向う各段階において繰り返さねばならない。そのような訓練プログラムの利点は、ロボットが、目標へ向って導くアクションと目標を達成しないアクションの両方を学習する点である。そのようなシステムの欠点は、如何にしてタスクを達成するかを学習するのに加えて、ロボットは、タスクを達成しない遥かに多くの方法を学習するので、訓練時間が非常に長い点である。   Pfeifer and Cohen robots need to be trained to identify episodes that lead to task accomplishment. Training typically includes an external handler that observes and rewards robot behavior that advances the robot to task completion. The robot performs either a random move or a best estimate move and receives positive or negative feedback from the handler depending on whether this move has advanced the robot towards the target. This moving feedback cycle must be repeated at each stage toward the goal. The advantage of such a training program is that the robot learns both actions that lead towards the goal and actions that do not achieve the goal. The disadvantage of such a system is that in addition to learning how to accomplish the task, the robot learns much more ways to accomplish the task, so the training time is very long .

タスクを学習するより効率的な方法は、目標を達成するために必要とされるタスクのみをロボットに教えることである。ロボットにランダム移動を行うことを許す代わりに、ロボットは、外部ハンドラによって遠隔操作を通じてタスクの完了まで導かれる。遠隔操作中には、ハンドラがロボットの全てのアクションを制御すると同時に、ロボットは、遠隔操作中の自らの状態(センサ及びアクチュエータ情報)を記録する。タスクは、若干異なる条件下で何度か繰り返され、それによって後の解析に向けたエピソードクラスターの形成が可能になる。1つ又はそれよりも多くの訓練試行の後に、ロボットは、夢想状態に入れられ、そこで、エピソード、エピソード境界を識別し、各エピソードクラスターに対して典型エピソードを作成するために、記録された状態情報が分析される。   A more efficient way to learn tasks is to teach the robot only those tasks that are needed to achieve the goal. Instead of allowing the robot to perform random movements, the robot is guided to completion of the task through remote control by an external handler. During remote operation, the handler controls all actions of the robot, and at the same time, the robot records its state (sensor and actuator information) during remote operation. The task is repeated several times under slightly different conditions, which allows the formation of episode clusters for later analysis. After one or more training trials, the robot is put into a dream state, where it is recorded to identify episodes, episode boundaries, and create a typical episode for each episode cluster. Information is analyzed.

米国特許仮出願出願番号第60/726、033号U.S. Provisional Application No. 60 / 726,033 米国特許第6、697、707号US Pat. No. 6,697,707 Mataric及びBrooks著「ナビゲーション挙動に基づく拡散マッピング表現の学習」、「カンブリア期の知能:新しいAIの黎明期」、MIT出版、1999年"Learning diffusion mapping expressions based on navigation behavior" by Matric and Brooks, "Cambrian intelligence: the dawn of a new AI", MIT Publishing, 1999 Pfeifer、R.及びC.Scheier著「感覚運動協調:メタファー及びそれを超えて」、ロボット工学と自律システム、「自律エージェントの実際と未来」特集号、第20巻、第2〜4号、157〜178頁、1997年Pfeifer, R.A. And C.I. Scheier, “Sensory-motor coordination: Metaphor and beyond,” Robotics and Autonomous Systems, Special Issue on “Actual and Future of Autonomous Agents,” Volumes 20, 2-4, 157-178, 1997 Albus、J.S.著「知能理論概説」、「IEEE Trans.Syst.Man、and Cybern.」、第21巻、第3号、1991年Albus, J. et al. S. "Introduction to Intelligent Theory", "IEEE Trans. Syst. Man, and Cyber.", Vol. 21, No. 3, 1991 Peters、R.A.II、K.E.Hambuchen、K.Kawamura、及びD.M.Wilkes著「ヒューマノイドのための短期メモリとしての感覚自己中心球体」、「IEEE−RASヒューマノイドロボット国際会議」会報、451〜459頁、早稲田大学、東京、2001年11月22〜24日Peters, R.A. A. II, K.K. E. Hambuchen, K.M. Kawamura, and D.K. M.M. Wilkes' “Sensitive Self-Centered Sphere as a Short-Term Memory for Humanoids”, “IEEE-RAS Humanoid Robot International Conference” Bulletin, pages 451-459, Waseda University, Tokyo, November 22-24, 2001 Pfeifer、R.、Scheier C.著「知能の理解」、(MIT出版、1999年)Pfeifer, R.A. Scheier C. "Understanding of Intelligence", (MIT Publishing, 1999) Hambuchen、K.A.著「感覚自己中心球体を用いたヒューマノイドロボットにおけるマルチモーダルアテンション及びイベントの結合)」、Vanderbilt大学、博士論文、2004年Hambuchen, K.M. A. "Combination of multimodal attention and events in humanoid robots using sensory self-centered spheres", Vanderbilt University, PhD thesis, 2004 Peters、R.A.II、Hambuchen、K.A.、Bodenheimer、R.E.著「感覚自己中心球体:センサと認識の間の介在インタフェース」、「システム、人間、及び人工頭脳工学に関するIEEEトランザクション)への提出論文、2005年9月Peters, R.A. A. II, Hambuchen, K.M. A. Bodenheimer, R .; E. Papers submitted to the author, “Sensitive self-centered sphere: the interface between sensor and recognition”, “IEEE Transactions on Systems, Humans, and Artificial Brain Engineering”, September 2005 Peters、R.A.II、Hambuchen、K.A.、Kawamura、K.、Wilkes、D.M.著「ヒューマノイドにおける短期メモリとしての感覚自己中心球体」、「IEEE−RASヒューマノイドロボットに関する会議」会報、2001年、451〜60頁Peters, R.A. A. II, Hambuchen, K.M. A. Kawamura, K .; Wilkes, D .; M.M. Author “Sensitive self-centered sphere as short-term memory in humanoid”, “Conference on IEEE-RAS humanoid robot”, 2001, pp. 451-60 K.R.Cave著「視覚的選択の特徴ゲートモデル」、「心理学研究」、第62号、182〜194頁(1999年)K. R. Cave, "Feature selection gate model for visual selection", "Psychological research", No. 62, pages 182-194 (1999) Shapiro、L.、Stockman、G.C.著「コンピュータ視覚」、(Prentice Hall、2001年)Shapiro, L.M. , Stockman, G .; C. "Computer vision", (Prentice Hall, 2001) Pratt、W.K.著「デジタル画像処理」、454頁(Wiley−Interscience、第3版、2001年Pratt, W.H. K. "Digital image processing", 454 pages (Wiley-Interscience, 3rd edition, 2001)

これまでは、SESは、ロボットの近くの既知の物体の位置を追跡することができる集中が疎らなマップであった。それは、それが受信する感覚情報を迅速に処理するのに限られた分解能及び限られた機能によって制約を受けてきた。本発明は、これらの問題を軽減する。   So far, SES has been a poorly concentrated map that can track the position of known objects near the robot. It has been constrained by limited resolution and limited functionality to quickly process the sensory information it receives. The present invention alleviates these problems.

第1に、高密度感覚データをSESにマップする方法を説明する。第2に、SES上に完全な視覚シーンを形成する画像内に関連の区域を見つけてランク付けする方法を説明する。更に、画像データのアテンション処理が、画像シーケンスからの個々のフルサイズ画像に対してアテンション処理を行い、各アテンション位置を最も近いノードにマップし、次に、各ノードで全てのアテンション位置を合計することによって最良に行われることが見出された。アテンション処理は、シーケンス内の各画像に対して繰返して行われるので、本方法を通じてより多くの情報が入手可能である。いくつかの隣接画像内で持続したアテンションポイントは、より高い活性値を有することになり、従って、1つの画像のみに見つかったアテンションポイントよりも顕著であると見なされることになる。従って、本方法によって顕著であると見なされた位置が実際の特徴であることの信頼性は、アテンション処理がSES上に配置された中心窩窓から復元された画像に対して1回のみ行われる代替処理方法によるものよりも高い。   First, a method for mapping high-density sensory data to SES will be described. Second, a method for finding and ranking related areas in an image that forms a complete visual scene on a SES is described. Further, the image data attention process performs an attention process on each full-size image from the image sequence, maps each attention position to the closest node, and then sums all the attention positions at each node. It has been found that this is done best. Since the attention process is repeated for each image in the sequence, more information is available through this method. Attention points that persist in several adjacent images will have a higher activity value and are therefore considered more prominent than attention points found in only one image. Therefore, the confidence that the position considered significant by the method is a real feature is only performed once on the image where the attention process is restored from the fovea placed on the SES. Higher than with alternative processing methods.

本発明の上記及び他の目的、特徴、及び利点は、以下の詳細説明を参照することによってより完全に理解することができる。   The above and other objects, features and advantages of the present invention can be more fully understood with reference to the following detailed description.

図2は、第6、697、707号特許の発明の一実施形態のシステムアーキテクチャを示す概略図である。図2では、感覚処理モジュール(SPM)210は、「感覚自己中心球体(SES)」220にロボットの環境に関する情報を提供する。SES220は、ロボットの短期メモリとして機能し、SPM210によって供給される情報からロボットの現在状態を判断し、更に、SPM210、アテンションエージェント230、及びコインシデンスエージェント240によって供給される情報に基づいて照準領域を判断する。ベクトル符号化エージェント250は、SES220から照準領域に関連付けられたデータを取り出し、このデータをデータベース結合メモリ(DBAM)260内の状態空間領域にマップする。   FIG. 2 is a schematic diagram illustrating the system architecture of one embodiment of the invention of the 6,697,707 patent. In FIG. 2, the sensory processing module (SPM) 210 provides the “sensory self-centered sphere (SES)” 220 with information about the environment of the robot. The SES 220 functions as a short-term memory of the robot, determines the current state of the robot from the information supplied by the SPM 210, and further determines the aiming area based on the information supplied by the SPM 210, the attention agent 230, and the coincidence agent 240. To do. Vector encoding agent 250 retrieves the data associated with the aiming region from SES 220 and maps this data to a state space region in database coupled memory (DBAM) 260.

タスクを実行するなど、ロボットが活性モードにある場合には、DBAM260は、「活性化拡散ネットワーク(SAN)」を活性化し、割り当てられた目標を達成するためにロボットが行う活性マップとも呼ぶ一連のアクションを計画する。各アクションは、DBAM260内に格納された挙動として実行され、DBAMは、殆どロボットにおける長期メモリのように機能する。活性マップによる適切な挙動が、DBAM260から取り出され、この挙動は、アクチュエータ270によって実行される。アクチュエータ270は、ロボットにあるアクチュエータを制御する制御装置を含み、それによってロボットは、このアクチュエータを通じて環境に対して作用する。また、DBAMは、ロボットの現在状態情報をアテンションエージェント230及びコインシデンスエージェント240にも供給する。   When the robot is in active mode, such as performing a task, the DBAM 260 activates an “activation diffusion network (SAN)” and a series of activities, also referred to as an activity map that the robot performs to achieve the assigned goal. Plan actions. Each action is executed as a behavior stored in the DBAM 260, and the DBAM functions almost like a long-term memory in a robot. The appropriate behavior according to the activity map is retrieved from the DBAM 260 and this behavior is performed by the actuator 270. Actuator 270 includes a controller that controls an actuator in the robot so that the robot acts on the environment through this actuator. The DBAM also supplies the current state information of the robot to the attention agent 230 and the coincidence agent 240.

コンテクストエージェント280は、ロボットの外部の発信源から受信するロボットの作動コンテクストに関する情報を提供する。好ましい実施形態では、コンテクストエージェント280は、タスク、訓練、及び夢想という3つの一般的な作動コンテクストを定める。タスク実行コンテクストでは、コンテクストエージェント280は、外部発信源から受信するタスク目標を設定する。訓練コンテクストでは、コンテクストエージェント280は、外部発信源から受信する全ての遠隔操作指令をDBAMを通じてアクチュエータに伝送することができる。夢想コンテクストでは、コンテクストエージェント280は、アクチュエータを停止し、DBAMを活性化することができ、SES220が維持するロボットの最も最近の活動に基づいて挙動を修正し、作成する。   The context agent 280 provides information regarding the robot's operational context received from a source external to the robot. In the preferred embodiment, the context agent 280 defines three general operational contexts: task, training, and dream. In the task execution context, the context agent 280 sets a task goal received from an external source. In the training context, the context agent 280 can transmit all remote control commands received from an external source to the actuator through the DBAM. In a dream context, the context agent 280 can stop the actuator and activate the DBAM, modifying and creating behavior based on the most recent robot activity maintained by the SES 220.

各SPM210は、互いに独立して機能する1つ又はそれよりも多くのエージェントから成り、ここでこれを詳細に説明する。   Each SPM 210 consists of one or more agents that function independently of each other, which will now be described in detail.

各SPM210は、センサに関連付けられ、SES220にセンサ特定の情報を書き込む。ロボットのセンサは、内部又は外部センサとすることができる。内部センサは、ロボットの内部デバイスの状態又は状態変化を測定する。内部センサは、関節位置エンコーダ、力−トルクセンサ、歪みゲージ、温度センサ、摩擦センサ、振動センサ、ジャイロスコープ又は加速度計のような慣性誘導又は前庭器官センサ、電流、電圧、抵抗、キャパシタンス、又はインダクタンスのための電気センサ、速度計、時計、又は他の時間測定器のようなモータ状態センサ、又は当業者に公知の他の変換器を含む。これらのセンサは、例えば、コンピュータモジュールのステータス、コンピュータエージェントの活動、又はこれらの間の通信パターンを測定する情報的なものとすることができる。タスクの成功又は失敗は、情報的に「感知」することができ、内部影響測定値に追加される。   Each SPM 210 is associated with a sensor and writes sensor specific information to the SES 220. The robot sensor may be an internal or external sensor. The internal sensor measures the state or state change of the internal device of the robot. Internal sensors include joint position encoders, force-torque sensors, strain gauges, temperature sensors, friction sensors, vibration sensors, inertial induction or vestibular organ sensors such as gyroscopes or accelerometers, current, voltage, resistance, capacitance, or inductance Motor status sensors such as electrical sensors, speedometers, clocks, or other time measuring devices, or other transducers known to those skilled in the art. These sensors can be informational, for example, measuring the status of computer modules, the activity of computer agents, or the communication patterns between them. The success or failure of the task can be “sensed” in information and added to the internal influence measurement.

外部センサは、エネルギ変換器である。これらの変換器は、ロボットの外側から入射するエネルギによって刺激され、この入射エネルギは、抽象表現のためのロボットがサンプリング及び量子化すること、又は他のセンサに供給するか又はアクチュエータを駆動するのに直接用いることのいずれかを行うことができる内部(ロボットに対して)エネルギ源(電気、機械、重力、又は化学)に変換される。外部センサは、カラー又はモノクロのいずれかのスチール画像、モーション映像(ビデオ)カメラ、様々な波長に感度を有する赤外線、可視光線、紫外線、又はマルチスペクトル非画像生成光センサ、マイクロフォン、SONAR、RADAR、又はLIDARのようなアクティブレンジファインダ、近接センサ、モーション検出器、例えば、人工皮膚内の接触センサのような触覚アレイ、温度計、単一又はアレイでの接触センサ(感触手段)、衝突センサ、嗅覚又は化学センサ、振動センサ、全地球測位システム(GPS)センサ、磁界センサ(方位計を含む)、電界センサ、及び放射線センサを含む。また、外部センサは、直接的なインターネット接続又は他のロボットへの接続を有する通信信号(無線、TV、データ)を受信する情報的なものとすることができる。外部センサは、言葉、身振り、顔の表現、音声の調子、及び抑揚を解釈するコンピュータ態様を有することができる。   The external sensor is an energy converter. These transducers are stimulated by energy incident from outside the robot, which incident energy is sampled and quantized by the robot for abstract representation, or supplied to other sensors or drives actuators. Converted to an internal (relative to the robot) energy source (electrical, mechanical, gravity, or chemical) that can be used either directly. External sensors include either color or monochrome still images, motion video (video) cameras, infrared, visible, ultraviolet, or multispectral non-image generating light sensors sensitive to various wavelengths, microphones, SONAR, RADAR, Or active range finder such as LIDAR, proximity sensor, motion detector, tactile array such as contact sensor in artificial skin, thermometer, single or array contact sensor (feeling means), collision sensor, olfaction Or a chemical sensor, a vibration sensor, a global positioning system (GPS) sensor, a magnetic field sensor (including an azimuth meter), an electric field sensor, and a radiation sensor. Also, the external sensor can be informational to receive communication signals (wireless, TV, data) having a direct internet connection or connection to another robot. The external sensor may have a computer aspect that interprets words, gestures, facial expressions, voice tone, and intonation.

各センサは、1つ又はそれよりも多くのSPMに関連付けることができ、各SPMは、1つ又はそれよりも多くのセンサを処理することができる。例えば、SPMは、音源の方向を判断するために2つのマイクロフォンセンサからの信号を処理することができる。別の例では、カメラは、視野内の強い輪郭のみを識別するSPMに信号を送信することができ、同じ信号を視野内の赤色のみを識別する別のSPMに送信することができる。   Each sensor can be associated with one or more SPMs, and each SPM can handle one or more sensors. For example, the SPM can process signals from two microphone sensors to determine the direction of the sound source. In another example, the camera can send a signal to an SPM that identifies only strong contours in the field of view, and the same signal can be sent to another SPM that identifies only red in the field of view.

各アクチュエータ270は、ロボットにあるアクチュエータを制御するアクチュエータ制御装置を含む。アクチュエータは、ロボットに自らの環境に対して作用させるか、又はロボットの部品のいずれかの相対的方向を変更させるあらゆるデバイスとすることができる。アクチュエータは、タスクを実行し、電気、気圧、液圧、熱、機械、原子、化学、又は重力源のようなあらゆる考え得るエネルギ源によって駆動することができる。アクチュエータは、モータ、ピストン、弁、スクリュー、レバー、人工筋肉、又は当業者に公知の同様のものを含む。一般的に、アクチュエータは、センサの移動、操作、又はアクティブ位置調整又は走査に用いられる。アクチュエータは、腕又は脚の移動など又はアクティブ視覚システムにおいて協調タスクを行うアクチュエータ群を指す場合がある。   Each actuator 270 includes an actuator controller that controls an actuator in the robot. An actuator can be any device that causes a robot to act on its environment or change the relative orientation of any of the parts of the robot. The actuator performs a task and can be driven by any conceivable energy source such as an electrical, atmospheric, hydraulic, thermal, mechanical, atomic, chemical, or gravity source. Actuators include motors, pistons, valves, screws, levers, artificial muscles, or the like known to those skilled in the art. In general, actuators are used for sensor movement, manipulation, or active positioning or scanning. Actuators may refer to a group of actuators that perform coordinated tasks such as arm or leg movements or in an active vision system.

アクチュエータ制御装置は、通常は、タスク中に挙動シーケンスを実行するロボットの挙動エージェントによって活性化される。訓練中には、アクチュエータ制御装置は、ロボット外部のハンドラによって遠隔操作と呼ぶ処理において活性化することができる。   The actuator controller is typically activated by a robot behavior agent that executes a behavior sequence during a task. During training, the actuator controller can be activated in a process called remote control by a handler outside the robot.

ロボット工学における主な未解決問題の1つは、信号が環境内の物体に正しく帰属するように、異なるタイプの感覚情報を如何にして精密に組み合わせるかということである。更に、「感覚−運動協調(SMC)」は、動物及びロボットが目的を有してアクションを行うために必要である。また、この協調は、カテゴリに根本的なものとすることができる。Pfeiferは、単純ではあるが変化している環境において固定されたタスクの集合を実行しているロボットによるアクション及び感知の同時実行中に記録されるSMCデータが、ロボット−環境相互作用をカテゴリ化する記述子へと自己編成することができることを示している。Pfeifer、R.、Scheier C.著「知能の理解」、(MIT出版、1999年)を参照されたい。ロボットが作動する時に、SMCは、多様な感覚情報をモータ活動と関連付けることを必要とし、更に、処理機能における異なる時空分解能及び異なる時間待ち時間にも関わらずセンサの結合を必要とする。リソース(感覚、計算、運動)は、いずれか1つの時点において入手可能な環境特徴の小さい部分集合にしか向けることができないので、学習中のSMCは、アテンションも必要とする。   One of the major open issues in robotics is how to precisely combine different types of sensory information so that the signals are correctly attributed to objects in the environment. Furthermore, “sensory-motor coordination (SMC)” is necessary for animals and robots to perform actions with purpose. This cooperation can also be fundamental to the category. Pfeifer categorizes robot-environment interactions, with SMC data recorded during concurrent actions and sensing by a robot performing a fixed set of tasks in a simple but changing environment It shows that it can self-organize into descriptors. Pfeifer, R.A. Scheier C. See "Understanding Intelligence", (MIT Publishing, 1999). When the robot operates, the SMC requires associating various sensory information with motor activity and further requires sensor coupling despite the different spatio-temporal resolution and different time latency in the processing function. Since resources (sensory, computational, motor) can only be directed to a small subset of environmental features available at any one point in time, the learning SMC also requires attention.

「感覚自己中心球体(SES)」は、SMC及びアテンションの両方をサポートするコンピュータ構造として提案されている。Hambuchen、K.A.著「感覚自己中心球体を用いたヒューマノイドロボットにおけるマルチモーダルアテンション及びイベントの結合)」、Vanderbilt大学、博士論文、2004年を参照されたい。SESのロケールの自己中心球体マッピングは、感知と認識の間のインタフェースとしての役割を達成する。Peters、R.A.II、Hambuchen、K.A.、Bodenheimer、R.E.著「感覚自己中心球体:センサと認識の間の介在インタフェース」、「システム、人間、及び人工頭脳工学に関するIEEEトランザクション)への提出論文、2005年9月を参照されたい。SESは、ロボットの近くの既知の物体の位置を追跡するために用いられている。Peters、R.A.II、Hambuchen、K.A.、Kawamura、K.、Wilkes、D.M.著「ヒューマノイドにおける短期メモリとしての感覚自己中心球体」、「IEEE−RASヒューマノイドロボットに関する会議」会報、2001年、451〜60頁を参照されたい。独立した並列SPMでは、SESは、幾何学構造の結果として符号センサデータを結合する。同上の文献を参照されたい。また、SESは、異なるセンサによって検出されたアテンションイベントをタスク及び環境特定のコンテクストと組み合わせることができ、環境内でランク付けされた関連の区域集合を生成する。Hambuchen、K.A.の博士論文を参照されたい。すなわち、アテンションの照準を導くために、アテンション信号を組み合わせることができる。また、アテンションに関して鋭敏化及び習慣化させることができる。同上の文献を参照されたい。   “Sensory self-centered sphere (SES)” has been proposed as a computer structure that supports both SMC and attention. Hambuchen, K.M. A. See "Multimodal attention and event combination in humanoid robots using sensory self-centered spheres", Vanderbilt University, Doctoral Dissertation, 2004. The self-centered sphere mapping of the SES locale serves as an interface between sensing and recognition. Peters, R.A. A. II, Hambuchen, K.M. A. Bodenheimer, R .; E. See the paper submitted to "Sensory Self-Centered Sphere: Intervention Interface between Sensors and Recognition", "IEEE Transactions on Systems, Humans, and Artificial Brain Engineering", September 2005. SES is close to robots As a short-term memory in humanoids, by Peters, RA II, Hambuchen, KA, Kawamura, K., Wilkes, DM See "Sensitive Self-Centered Sphere", "Conference on IEEE-RAS Humanoid Robot", 2001, 451-60. In an independent parallel SPM, the SES combines the sign sensor data as a result of the geometric structure. See the same literature. SES can also combine attention events detected by different sensors with task and environment specific contexts to produce a set of related areas ranked within the environment. Hambuchen, K.M. A. Please refer to the doctoral dissertation. That is, attention signals can be combined to guide the attention sight. Moreover, it can be made sensitive and customary about attention. See the same literature.

以前に用いたように、SESは、集中が疎らなマップである。本発明は、高分解能感覚情報(一連の視覚画像の形態での)のSES上へのマッピングの方法を提供する。また、本発明は、SES上に完全な視覚シーンを形成する画像内で関連の区域を見つけてランク付けする問題を説明する。   As used before, SES is a poorly concentrated map. The present invention provides a method for mapping high resolution sensory information (in the form of a series of visual images) onto a SES. The present invention also describes the problem of finding and ranking related areas in an image that forms a complete visual scene on a SES.

本発明を実施するのに、ヒューマノイドロボットの回転パン/チルトカメラヘッドによって1組の320×240カラー画像を撮影した。画像は、事前処理せず、特定の物体を識別しなかった。画像を捕捉する間に、カメラヘッドを作業空間で旋回させた。結果は、視覚シーンのSES上への完全なマッピングであった。カメラは、360度を通して回転することができず、従って、SES全体にマップすることができないので、チルトで+20度から−60度、パンで+80度から−80度の区域内で結ばれたSES部分集合をデータで埋めた。カメラがこの範囲を網羅することができること及び±80°のパン範囲が人間の視野と適合することの両方からこの範囲を選択した。   To implement the present invention, a set of 320 × 240 color images was taken with a rotating pan / tilt camera head of a humanoid robot. The image was not pre-processed and did not identify a specific object. While capturing the image, the camera head was swung in the workspace. The result was a complete mapping of the visual scene onto the SES. The camera cannot rotate through 360 degrees, and therefore cannot map to the entire SES, so SES tied in an area of +20 degrees to -60 degrees in tilt and +80 degrees to -80 degrees in pan. The subset was filled with data. This range was chosen because both the camera can cover this range and the ± 80 ° pan range fits the human field of view.

完全な視覚シーンを「感覚自己中心球体」上にマップするタスクは、まず視野内の全SESノードのリストを集約することによって達成した。次に、519枚の画像のシーケンスをこのリスト内のノードに対応するパン/チルトの位置の各々で写真撮影することによって発生させ、より厳密には、画像中心をこれらの各角度の対に対応させた。シーケンス内の各画像の中心における中心窩窓を抽出し、SES上の正しいノードの位置に配置した。図3は、それぞれ−33.563及び−23.466のパン及びチルト角を有するSESノード1422において画像を形成するように実施したこの手順を示している。   The task of mapping a complete visual scene onto a “sensory self-centered sphere” was accomplished by first aggregating a list of all SES nodes in the field of view. Next, a sequence of 519 images is generated by taking a picture at each of the pan / tilt positions corresponding to the nodes in this list, and more precisely, the image center corresponds to each of these angle pairs. I let you. A fovea window at the center of each image in the sequence was extracted and placed at the correct node location on the SES. FIG. 3 illustrates this procedure performed to form an image at SES node 1422 having pan and tilt angles of −33.563 and −23.466, respectively.

中心から取った中心窩窓のサイズは変化したが、おおよそパンで5°及びチルトで5°が、頻度14の測地線ドーム上の大部分のノードを分離する距離であるから、一般的にパンで約5°、チルトで5°とした。しかし、五角形及び六角形の両方がドームを構成するので、測地線ドーム上のノード間の稜線は、全てが同じ長さを有するわけではない。精密な結果では、各ノード間の距離及びこれらのノードの4つの最近接ノード(上下左右)を角度で計算し、ピクセル尺度に変換した。角度毎のピクセルの尺度は、実験的に判断した。次に、適切にサイズを判断した中心窩を画像中心から抽出した。各中心窩記録をこの記録のパン/チルト角の対に対応するSES上のノードに配置した。図4は、ヒューマノイドロボットに関する「感覚自己中心球体」上に配置した全ての中心窩画像の視覚的表現を示している。   The size of the fovea window taken from the center has changed, but in general panning 5 ° and tilting 5 ° is the distance separating most nodes on a geodesic dome with a frequency of 14 in general. Was about 5 °, and the tilt was 5 °. However, since both pentagons and hexagons make up the dome, the edges between the nodes on the geodesic dome do not all have the same length. For precise results, the distance between each node and the four closest nodes (up / down / left / right) of these nodes were calculated in angle and converted to pixel scale. The pixel scale for each angle was determined experimentally. Next, the fovea whose size was appropriately determined was extracted from the image center. Each foveal recording was placed at the node on the SES corresponding to the pan / tilt angle pair of this recording. FIG. 4 shows a visual representation of all foveal images placed on a “sensory self-centered sphere” for a humanoid robot.

視覚シーンの区分的連続画像をSES上に配置した全ての中心窩画像から復元した。復元画像内の各ピクセルをSES上のノードに関連付けるノードマップも同様に発生させた。復元画像を図5に例示する。   A piecewise continuous image of the visual scene was restored from all foveal images placed on the SES. A node map that associates each pixel in the restored image with a node on the SES was similarly generated. The restored image is illustrated in FIG.

アテンションの問題は、SESを高密度情報でクラスター化することで発生する。ロボットが実時間で人間中心の環境と相互作用すべき場合には、限られたコンピュータリソースという理由から、安全性、機会、及びタスクによって判断される重要領域だけにアテンションを向けることができる。問題は、データが埋まったSES及び画像入力ストリームが与えられたとして、如何にしてアテンション処理を行うかである。少なくとも2つの可能性がある。一方は、SES全体に対して視覚的アテンション処理を行うことである。他方は、個々の画像内で重要ポイントを検出し、これらのポイントを一連の既存画像と組み合わせることである。   Attention problems arise when SES is clustered with high density information. If a robot is to interact with a human-centered environment in real time, attention can be directed only to critical areas determined by safety, opportunities, and tasks because of limited computer resources. The problem is how to perform attention processing given a data-filled SES and image input stream. There are at least two possibilities. One is to perform visual attention processing on the entire SES. The other is to detect important points in individual images and combine these points with a series of existing images.

視覚的アテンションの1つのモデルは、「特徴ゲート」モデルである。このモデルは、アテンションが、物体の位置及びそのターゲットへの類似性の両方に基づいてシーン内の物体を抑制するように見えるというCaveの観測に基づいている。引用によって本明細書に組み込まれている、K.R.Cave著「視覚的選択の特徴ゲートモデル」、「心理学研究」、第62号、182〜194頁(1999年)を参照されたい。このモデルでは、視覚シーン内の各位置は、方向又は色のような基本的特徴ベクトル、並びにこれらの各位置から出力への情報フローを調整するアテンションゲートを有する。このゲートは、情報が、現在処理中の目標のためのより有望又はより重要な別の位置からの情報と潜在的に干渉することになる場合に、この情報の位置からの情報フローを制限する。従って、ゲート調整された流れは、位置の特徴及び周囲の位置の特徴に依存する。視覚シーンは、区域に分割される。区域の群内の特徴にはスコアが付けられて比較され、区域の各群内で「優った」位置は、次のレベルへと渡される。これは、モデルの出力であるただ1つの位置が残るまで反復的に続行される。「特徴ゲート」は、ボトムアップ及びトップダウンの機構を処理するために2つのサブシステムを含む。トップダウン処理は、タスク関連である。例えば、タスクは、シーン内で特定の人物を検索するものとすることができる。この場合には、ターゲット人物の既知の特徴を有する位置が、そのような特徴を持たない位置よりも支持される。具体的には、ターゲットに対する位置の類似性にスコアが付けられ、最も類似する位置が全ての他のものよりも支持される。ボトムアップ処理は、タスクに依存しないシーン内の最も顕著な位置を特定する。この場合には、周囲の位置における特徴とは異なる特徴を有する位置が支持される。具体的には、最も目立つ特徴に対して数値的な卓越値が計算され、これらの特徴の位置が他の特徴よりも支持される。   One model of visual attention is a “feature gate” model. This model is based on Cave's observation that attention appears to suppress objects in the scene based on both the position of the object and its similarity to the target. Which is incorporated herein by reference. R. See Cave, “Characteristic Gate Model of Visual Selection”, “Psychological Studies”, 62, 182-194 (1999). In this model, each position in the visual scene has a basic feature vector, such as direction or color, and an attention gate that adjusts the information flow from each of these positions to the output. This gate restricts the information flow from the location of this information if the information will potentially interfere with information from another location that is more promising or more important for the target currently being processed . Thus, the gated flow depends on the location features and the surrounding location features. The visual scene is divided into areas. Features within a group of areas are scored and compared, and the “excellent” position within each group of areas is passed to the next level. This continues iteratively until only one position remains that is the output of the model. A “feature gate” includes two subsystems to handle bottom-up and top-down mechanisms. Top-down processing is task related. For example, a task may search for a specific person in a scene. In this case, a position having a known characteristic of the target person is supported more than a position having no such characteristic. Specifically, the similarity of the position to the target is scored, and the most similar position is supported over all others. The bottom-up process identifies the most prominent position in the scene that is task independent. In this case, a position having a feature different from the features at the surrounding positions is supported. Specifically, numerical excellence values are calculated for the most prominent features, and the location of these features is supported over other features.

本発明では、この研究に対して、「特徴ゲート」が、色、輝度、及び方向に対して各々に3つの別々の特徴マップを用いて実施された。方向処理は、Frei−Chen基準によって実施する。引用によって本明細書に組み込まれている、Shapiro、L.、Stockman、G.C.著「コンピュータ視覚」、(Prentice Hall、2001年)、及びPratt、W.K.著「デジタル画像処理」、454頁(Wiley−Interscience、第3版、2001年)を参照されたい。良好な結果を得るために、入ってくる画像には、まず定数フィルタを用いてブラー処理を施した。画像をブラー処理することによって、「特徴ゲート」処理は、画像毎に連続して発生する非常に小さな重要でない変化による影響を受け難くなる。「特徴ゲート」モデルのボトムアップ処理に従って、各ピクセルの位置の特徴をユークリッド距離で最も近い8箇所の隣接位置の特徴と比較し、その結果を加算して活性化マップ内に保存した。トップダウン処理を用いる場合には、各ピクセルの位置の特徴は、既知のターゲットの特徴と比較されることになり、第1レベルからの最も高い活性化を有する位置がアテンションの照準として選択されることになる。しかし、これまで行った実験では、トップダウン処理を用いておらず、アテンションポイントは、このアテンションポイントの卓越性だけによって選択し、特定の特徴の特性をターゲットにすることによっては選ばなかった。   In the present invention, for this study, a “feature gate” was performed using three separate feature maps for color, brightness, and direction each. Direction processing is performed according to the Frei-Chen standard. Shapiro, L., which is incorporated herein by reference. , Stockman, G .; C. "Computer Vision", (Plentice Hall, 2001), and Pratt, W. et al. K. See “Digital Image Processing”, page 454 (Wiley-Interscience, 3rd edition, 2001). To obtain good results, the incoming image was first blurred using a constant filter. By blurring the image, “feature gate” processing is less susceptible to very small insignificant changes that occur continuously from image to image. According to the bottom-up process of the “feature gate” model, the feature at the position of each pixel was compared with the feature at the eight neighboring positions closest in Euclidean distance, and the results were added and stored in the activation map. When using top-down processing, the location features of each pixel will be compared to the known target features, and the location with the highest activation from the first level is selected as the aim aim. It will be. However, in the experiments conducted so far, no top-down processing was used, and the attention point was selected only by the excellence of this attention point and not by targeting the characteristics of a specific feature.

本発明により、「特徴ゲート」方法を用いて画像シーケンス内の各画像に対してアテンション処理を行い、その結果を、画像の光学中心に対応するノードに記録した。この処理では、卓越性アレイ構造における12箇所の最も顕著な位置(行及び列の位置)及びそれらの活性値(又はスコア)を取り出した。また、このアレイには、処理中の画像のパン及びチルト角も含めた。通常は12という数が、画像にわたって比較的均一なアテンションポイントの分布をもたらすことが判明したので、プログラムが戻す位置の数を任意に12と設定した。   In accordance with the present invention, the “feature gate” method is used to perform an attention process on each image in the image sequence, and the result is recorded at the node corresponding to the optical center of the image. In this process, the 12 most prominent positions (row and column positions) and their activity values (or scores) in the excellence array structure were taken. The array also included the pan and tilt angles of the image being processed. Since the number of 12 was found to provide a relatively uniform distribution of attention points across the image, the number of positions returned by the program was arbitrarily set to 12.

小区域(中心窩領域)のみがグラフィックSES表現上に表示されるが、フルサイズ画像を撮って、各ノードの位置で処理する。この理由のために、シーケンスからの隣接ノード画像の間でかなりの重なりがある。この重なりは、異なる画像からのアテンションポイントが、多くの場合に空間内の同じ位置を指すことになることを意味する。この研究において用いた視覚システムでは、単一の画像は、おおよそパンで55°、チルトで45°に及ぶ。従って、2つの画像が、パンで55°、チルトで45°を下回って離隔する場合には、これらの画像は重なることになる。中心窩窓のみが各ノードに関連付けられるだけであるから、おおよそパンで30°及びチルトで25°以内にある画像は、中心窩内で重なることになる。それによっていずれかの中心窩窓に重なる約30枚の画像が生じる。SESの各ノードに関連付けられた1つの全体的なアテンションの卓越値が存在することが必要であった。ノードに対して単一の卓越値を計算するために、このノードの位置において撮られた画像から又は隣接画像からには関わらず、このノードにマップされる全てのアテンションポイントの卓越性を組み合わせる。多くの画像内で識別されるアテンション位置は、1つの画像のみに見つかったアテンション位置よりも顕著である(従って、より高い値を有するはずである)と仮定した。アテンションポイントを組み合わせて、卓越性の高いシーンの位置を特定するその後の処理を以下に説明する。   Only a small area (foveal area) is displayed on the graphic SES representation, but a full-size image is taken and processed at the location of each node. For this reason, there is considerable overlap between adjacent node images from the sequence. This overlap means that attention points from different images will often point to the same location in space. In the visual system used in this study, a single image roughly spans 55 ° pan and 45 ° tilt. Therefore, if two images are separated by a pan of 55 ° and a tilt of less than 45 °, these images will overlap. Since only the fovea window is associated with each node, images that are approximately within 30 ° pan and 25 ° tilt will overlap in the fovea. This produces about 30 images that overlap any fovea window. It was necessary that there be one overall attentional excellence value associated with each node of the SES. To calculate a single superior value for a node, combine the excellence of all attention points mapped to this node, whether from the image taken at the node's location or from an adjacent image. It was assumed that attention positions identified in many images are more prominent (and therefore should have higher values) than attention positions found in only one image. The subsequent processing for specifying the position of a scene with high excellence by combining attention points will be described below.

画像からアテンションデータが得られた後に、その画像の12箇所の顕著なポイントの各々をそのポイントの位置に対応するSESノードにマップする。対応性は、次のように判断される。まずアテンションポイントからの画像中心の距離をピクセル数で計算し、次に、これを、実験的に判断した角度毎のピクセル値を用いて角度の変位量に変換するが、チルトで5度の範囲は、約28ピクセルであり、パンで5度の範囲は、約30ピクセルの範囲であった。   After the attention data is obtained from the image, each of the 12 salient points in the image is mapped to a SES node corresponding to the position of that point. Correspondence is determined as follows. First, the distance from the attention point to the center of the image is calculated in terms of the number of pixels, and then this is converted into angular displacement using pixel values for each angle determined experimentally. Was about 28 pixels, and a 5 degree range in pan was a range of about 30 pixels.

この情報を把握した状態で、各アテンションポイントを適切なノードにマップすることができるように、この情報を光学中心のパン/チルト角と共に用いて、これらの各アテンションポイントの実際のパン及びチルト角を見つける。位置の誤差は、同じ特徴からのアテンションポイントを隣接ノードにマップさせる場合がある。従って、アテンションポイントクラスター化アルゴリズムを用いて、特定の環境特徴に対応する全てのアテンション位置を見つけた。その手順は、少なくとも15箇所のアテンションポイントを有する各ノードIDを選択し、これらのポイントの中間パン/チルト値を計算する。次に、中間パン/チルト値から2度の半径内に収まる全ての画像内の全てのアテンションポイントを見つけた。全てのこれらのポイントを、この半径内に収まる最も多くのアテンションポイントを有するノードである同じノードにマップした。2度の半径は、平均中心窩の約四分の一を表し、ポイントクラスターを分離するには十分コンパクトであるという理由で選択した。   With this information in mind, this information is used with the optical center pan / tilt angle so that each attention point can be mapped to the appropriate node, and the actual pan and tilt angles for each of these attention points. Find out. Positional errors may cause attention points from the same feature to be mapped to adjacent nodes. Therefore, we used an attention point clustering algorithm to find all attention positions corresponding to a particular environmental feature. The procedure selects each node ID that has at least 15 attention points and calculates the intermediate pan / tilt values for those points. Next, all attention points in all images that fall within a radius of 2 degrees from the intermediate pan / tilt value were found. All these points were mapped to the same node, which is the node with the most attention points that fall within this radius. A radius of 2 degrees represents approximately one quarter of the average fovea and was chosen because it is compact enough to separate point clusters.

この例を表1に例示しており、表1は、SES上のノード1421(ID列)にマップされるアテンションポイントを有する全ての原画像(imgCtrID列)、並びに各アテンションポイントの計算されたパン及びチルト角を示している。   An example of this is illustrated in Table 1, which shows all the original images (at imgCtrID column) that have attention points mapped to node 1421 (ID column) on the SES, as well as the calculated pan for each attention point. And the tilt angle.

(表I)

Figure 2009517225
(Table I)
Figure 2009517225

このノードの卓越性を判断するために、ノードに配置した各アテンションポイントの活性値(すなわち、数値的な卓越値)を合計した。図6は、シーン内の上位12箇所の全体で最も顕著な位置を示している。   In order to judge the excellence of this node, the activity values (that is, numerical excellence values) of the attention points arranged in the node were summed. FIG. 6 shows the most prominent positions in the entire top 12 locations in the scene.

全SES上のアテンション位置を判断する別の方法は、「特徴ゲート」を通じて視覚シーン(上述のように中心窩画像から復元した)の画像(例えば、図5の画像)を処理することであると考えられる。この処理を行うために、復元画像のノードマップを含めるように「特徴ゲート」アルゴリズムを修正した。それによって他のアテンション処理技術との比較のためにアテンションポイントを関連付けたノードIDを記録することが可能になる。結果は、図7に見ることができる。   Another way to determine the attention position on all SES is to process an image (eg, the image of FIG. 5) of the visual scene (reconstructed from the foveal image as described above) through a “feature gate”. Conceivable. To do this, the "feature gate" algorithm was modified to include a restored image node map. This makes it possible to record a node ID associated with an attention point for comparison with other attention processing techniques. The result can be seen in FIG.

図8は、ノード数対活性化閾値のグラフである。このグラフは、この実験で計算したノード毎の最小合計活性値から最大合計活性値までの範囲にわたる閾値に対して、その閾値を超えるノード数を表している。アテンション位置を有する672のノードが存在した。   FIG. 8 is a graph of the number of nodes versus the activation threshold. This graph represents the number of nodes exceeding the threshold for a threshold ranging from the minimum total activity value to the maximum total activity value for each node calculated in this experiment. There were 672 nodes with attention positions.

いくつかの閾値を選択し、閾値レベルを超える活性化を有するノードの百分率を計算した。表IIの最初の3列は、これらの結果をリストで表示している。これらは、ノードが、全体のSES上で重要アテンション位置であるために必要な活性化レベルの尺度を与える。例えば、SES上でアテンション位置の上位10%に入るには、ノードは、少なくとも100000の合計活性値を有する必要があることになる。   Several thresholds were selected and the percentage of nodes with activation above the threshold level was calculated. The first three columns of Table II list these results. These give a measure of the level of activation required for a node to be a key attention position on the overall SES. For example, to enter the top 10% of attention positions on SES, a node will need to have a total activity value of at least 100,000.

SESの卓越性全体に対して単一のアテンション位置が如何に重要であるかを判断する別の方法は、閾値を超える活性化を有するノードにマップされる個々のアテンション位置の百分率を計算することである。このSES上には、合計で6228個のアテンション位置が存在した。いくつかの閾値に対して、これらの計算が行われた。例えば、上位10%に入る活性値を有するノードを選択した場合(閾値100000)では、これらのノードの1つにマップされる個々のアテンション位置の百分率は41%である。言い換えれば、個々のアテンション位置の41%は、SES上のノードの位置の上位10%にマップされる。異なる閾値に関する百分率計算結果は、表IIの最後の列に見ることができる。   Another way to determine how important a single attention position is for the overall SES excellence is to calculate the percentage of individual attention positions that are mapped to nodes with activations that exceed a threshold. It is. There were a total of 6228 attention positions on the SES. These calculations were made for several thresholds. For example, if a node with an activity value in the top 10% is selected (threshold 100000), the percentage of individual attention positions mapped to one of these nodes is 41%. In other words, 41% of the individual attention positions are mapped to the top 10% of the node positions on the SES. The percentage calculation results for the different thresholds can be seen in the last column of Table II.

(表II)

Figure 2009517225
(Table II)
Figure 2009517225

個々のアテンション位置の重要度の別の尺度は、上位N箇所の位置(ノード)に入るアテンション位置の百分率である。これは、比較のために有用とすることができる固定数のノードを選んでいることを除き、上述の百分率比較に類似している。更に、シーン内に如何に多くのアテンション位置が見つけられたとしても、固定数のみをアテンドすることができ、かつアテンドすべきである。例えば、個々のアテンション位置の19%がSES上の上位20箇所のノードの位置にマップされることが判明した。言い換えれば、球体上の20箇所の最も顕著な位置が、全ての個々のアテンション位置の19%を表している。表IIIは、Nのいくつかの値に関するアテンション位置の数を示している。   Another measure of the importance of individual attention positions is the percentage of attention positions that fall within the top N positions (nodes). This is similar to the percentage comparison described above, except that we have chosen a fixed number of nodes that can be useful for comparison. Furthermore, no matter how many attention positions are found in the scene, only a fixed number can be attended and should be attended. For example, it has been found that 19% of the individual attention positions are mapped to the positions of the top 20 nodes on the SES. In other words, the 20 most prominent positions on the sphere represent 19% of all individual attention positions. Table III shows the number of attention positions for several values of N.

(表III)

Figure 2009517225
(Table III)
Figure 2009517225

個々の画像内に見つかったアテンションポイントを全体の復元シーン画像にわたって見つかったアテンションポイントと比較した。これは、「特徴ゲート」を用いて復元画像(図4における単一の画像)を処理して最も高い活性化を有するN個のノードを見つけることによって行った。アテンション処理をフルサイズの個々の画像に対して行う場合には、一部のアテンション位置は、SESに配置した画像片に対応しないノードにマップされる。これは、視覚シーンの縁部の近くにあるノードで撮られた画像内で発生する。これらの位置は、復元視覚シーン画像内では表されず、復元画像内のノードと比較することは、正確ではなくなる。従って、復元シーン画像内のノードに対応する上位N箇所の位置を見つけた。次に、活性値の合計を通じて見つかったアテンション位置を、直接復元シーン画像を処理することによって見つかった位置と比較した(表IV)。   Attention points found in individual images were compared with attention points found over the entire restored scene image. This was done by processing the reconstructed image (single image in FIG. 4) with a “feature gate” to find the N nodes with the highest activation. When attention processing is performed on individual full-size images, some attention positions are mapped to nodes that do not correspond to image pieces arranged in the SES. This occurs in images taken at nodes near the edge of the visual scene. These positions are not represented in the restored visual scene image, and it will not be accurate to compare with the nodes in the restored image. Therefore, the top N positions corresponding to the nodes in the restored scene image were found. Next, the attention position found through the sum of the active values was compared to the position found by processing the reconstructed scene image directly (Table IV).

(表IV)

Figure 2009517225
(Table IV)
Figure 2009517225

合計活性化画像(表Iに続く第1のパラグラフ)及び復元シーン画像(表Iに続く第2のパラグラフ)の両方で、パンダ、バーニー人形、ゴミ箱、左側の棚、及び椅子のような顕著な特徴を検出した。正面の壁にある黒色の枠及び黒色の壁テープのような明確な縁部及び隅部を有する特徴も両方の画像内で検出した。   In both the total activation image (first paragraph following Table I) and the restored scene image (second paragraph following Table I), prominent such as pandas, Bernie dolls, trash can, left shelf, and chair Features were detected. Features with clear edges and corners, such as a black frame on the front wall and black wall tape, were also detected in both images.

合計活性化画像(表Iに続く第1のパラグラフ)は、SES上のアテンション配備に対してより良好に適合するように見える。重なる画像のシーケンスとは反対に、1つの画像のみがシーン内の最も顕著な位置を判断するので、復元シーン画像全体を処理すると、合計活性化画像よりも少ない情報しか入手することができない。更に、合計活性化画像を実施した場合には、新しい情報が利用可能になると同時に、SES上の卓越性分布を更新することは容易である。例えば、この更新は、新しい画像を処理して、見つかる新しいアテンションポイントを既存のアテンションポイントと組み合わせるだけで行うことができる。各ノードにおける活性化は、各アテンションポイントの古さによって重み付けすることができ、より新しいポイントにより大きい重みを与える。   The total activation image (first paragraph following Table I) appears to fit better for attention deployment on SES. Contrary to the sequence of overlapping images, only one image determines the most prominent position in the scene, so processing the entire restored scene image gives less information than the total activated image. Furthermore, when a total activation image is implemented, it is easy to update the superiority distribution on the SES as new information becomes available. For example, this update can be done simply by processing a new image and combining a new attention point found with an existing attention point. Activation at each node can be weighted by the age of each attention point, giving newer points greater weight.

合計活性化画像処理方法のロバスト性を試験する実験が行われた。元の視覚シーンの部分集合を選択し、このシーンの異なる照度レベル下での画像シーケンスを発生させた。異なる照度を有するシーケンス間の適合ノード数を表Vに見ることができる。低光量照明及び低光量スポット照明の照度レベルは、高及び中光量照明レベルとは非常に異なる。これは、適合ノードの低い百分率を説明する。しかし、高光量照明と中光量照明レベルの間の適合ノードの百分率は高く、システムは、異なる光レベルに直面する時に同様の挙動を示すことを示している。   Experiments were conducted to test the robustness of the total activated image processing method. A subset of the original visual scene was selected and an image sequence under different illumination levels of this scene was generated. The number of matching nodes between sequences with different illuminance can be seen in Table V. The illuminance levels of low light illumination and low light spot illumination are very different from the high and medium light illumination levels. This accounts for the low percentage of matching nodes. However, the percentage of matching nodes between high and medium lighting levels is high, indicating that the system behaves similarly when facing different light levels.

(表V)

Figure 2009517225
(Table V)
Figure 2009517225

要約すると、画像データのアテンション処理は、画像シーケンスからの個々のフルサイズ画像に対してアテンション処理を行い、各アテンション位置を最も近いノードにマップし、次に、各ノードで全てのアテンション位置を合計することによって最も適切に行われることが判明した。アテンション処理は、シーケンス内の各画像に対して繰返して行われるので、本方法を通じてより多くの情報が入手可能である。いくつかの隣接画像内で持続したアテンションポイントは、より高い活性値を有することになり、従って、1枚の画像のみに見つかったアテンションポイントよりもより顕著であると見なされることになる。従って、本方法によって顕著であると見なされた位置が実際の特徴であることの信頼性は、アテンション処理が、SES上に配置された中心窩窓から復元された画像に対して1回のみ行われる代替処理方法を用いた場合よりも高い。   In summary, the image data attention process performs an attention process on each full-size image from the image sequence, maps each attention position to the nearest node, and then sums all the attention positions at each node. It turns out that it is done most appropriately. Since the attention process is repeated for each image in the sequence, more information is available through this method. Attention points that persist in several adjacent images will have a higher activity value and will therefore be considered more prominent than attention points found in only one image. Therefore, the reliability that the position considered significant by the present method is an actual feature is that the attention process is performed only once on the image restored from the fovea placed on the SES. It is higher than when using an alternative processing method.

本明細書に開示する好ましい実施形態は、本発明のいくつかの態様の例証を意図したものであるから、本明細書において説明して請求する本発明は、それらによって範囲が限定されないものとする。あらゆる均等な実施形態は、本発明の範囲にあるものとする。実際に、本明細書に示して説明したものに加えて、本発明の様々な修正が上述の説明から当業者には明らかになるであろう。そのような修正も特許請求の範囲に含まれるように意図している。   Since the preferred embodiments disclosed herein are intended to be illustrative of some aspects of the present invention, the invention described and claimed herein is not to be limited in scope thereby . Any equivalent embodiments are intended to be within the scope of this invention. Indeed, various modifications of the invention in addition to those shown and described herein will become apparent to those skilled in the art from the foregoing description. Such modifications are also intended to fall within the scope of the claims.

本明細書では、多くの参考文献が引用されており、その開示全体は、本明細書において全ての目的に対して引用により組み込まれている。更に、これらの参考文献のいずれも、上記で如何に特徴付けしたかに関わらず、本明細書で主張する内容の本発明に対する優先は認められていない。   A number of references are cited herein, the entire disclosure of which is hereby incorporated by reference for all purposes. Furthermore, regardless of how these references are characterized above, no priority is granted to the claimed invention of the subject matter claimed herein.

「感覚自己中心球体」を理解するのに有用な例図である。It is an example figure useful for understanding a "sensory self-centered sphere". 従来技術の適応自律ロボットの例示的な実施形態のシステムアーキテクチャを示す概略図である。1 is a schematic diagram illustrating a system architecture of an exemplary embodiment of a prior art adaptive autonomous robot. FIG. 本発明の実施形態を実施するのに用いる画像形成処理を示す図である。It is a figure which shows the image formation process used in implementing embodiment of this invention. SES上に配置した1組の中心窩画像を示す図である。It is a figure which shows 1 set of foveal images arrange | positioned on SES. 中心窩画像から復元したシーンを示す図である。It is a figure which shows the scene decompress | restored from the foveal image. 本発明の一実施形態に従って個々の画像内のシーンを合計することによって識別した時のシーンにおける12の最も顕著の位置を特定する図である。FIG. 7 identifies the twelve most prominent positions in a scene when identified by summing the scenes in individual images according to one embodiment of the present invention. シーン全体を処理することによって識別した時のシーンにおける12の最も顕著な位置を特定する図である。FIG. 12 identifies the 12 most prominent positions in the scene as identified by processing the entire scene. 特定の活性化閾値を超えるノードの数を示すグラフである。It is a graph which shows the number of nodes exceeding a specific activation threshold value.

符号の説明Explanation of symbols

300 SESの多面体
310 頂点
350 物体
φs 方位角
θs 仰角、極角
300 SES polyhedron 310 vertex 350 object φ s azimuth θ s elevation angle, polar angle

Claims (6)

センサと、
アクチュエータと、
外部発信源から画像データを受信するためのカメラと、
受信した画像データをロボットを中心とする球体領域の一部分上のポイントに関連付けるためのデータベースと、
個々の画像に対してアテンション(attention)処理を実施し、アテンション位置を特定するための手段と、
各アテンション位置を前記球体領域の部分上の最も近いポイントにマップするための手段と、
ポイントにマップされた全ての前記アテンション位置を合計するための加算器と、
を含むことを特徴とする自律適応型ロボット。
A sensor,
An actuator,
A camera for receiving image data from an external source;
A database for associating the received image data with a point on a part of a spherical area centered on the robot;
Means for performing attention processing on individual images and specifying the attention position;
Means for mapping each attention position to a closest point on a portion of the spherical region;
An adder for summing all said attention positions mapped to points;
An autonomous adaptive robot characterized by including
前記センサは、
ロボットの内部状態を感知するための手段と、
ロボットの環境の1つ又はそれよりも多くの特性を感知するための手段と、
を含む、ことを特徴とする請求項1に記載のロボット。
The sensor is
Means for sensing the internal state of the robot;
Means for sensing one or more characteristics of the environment of the robot;
The robot according to claim 1, comprising:
前記データベースは、前記感知した内部状態及び前記感知した環境に基づいて、物体を表すための感覚自己中心球体(a sensory ego sphere)を含むことを特徴とする請求項2に記載のロボット。   The robot of claim 2, wherein the database includes a sensory ego sphere for representing an object based on the sensed internal state and the sensed environment. 自律適応型ロボットにおいて、
センサと、
アクチュエータと、
外部発信源から画像データを受信するためのカメラと、
受信した画像データをロボットを中心とする球体領域の一部分上のポイントに関連付けるためのデータベースと、
前記外部発信源からの画像の関連の区域を見つけてランク付けする方法であって、
個々の画像に対してアテンション(attention)処理を実施し、アテンション位置を特定し、
各アテンション位置を前記球体領域の部分上の最も近いポイントにマップし、
ポイントにマップされた全ての前記アテンション位置を合計する、ことを有する当該方法と、
を含むことを特徴とするロボット。
In autonomous adaptive robots,
A sensor,
An actuator,
A camera for receiving image data from an external source;
A database for associating the received image data with a point on a part of a spherical area centered on the robot;
A method of finding and ranking relevant areas of an image from the external source, comprising:
Attention processing is performed on each image, the attention position is specified,
Map each attention position to the closest point on the part of the sphere region;
Summing all the attention positions mapped to points; and
A robot characterized by including:
高密度感覚データ(dense sensory data)をロボットのデータベースにマップする方法であって、
ロボットを中心とする球体領域の一部分におけるノードのリストを編集する段階と、
各ノードで前記ロボットに対する外部の領域の画像を発生させる段階と、
各画像の中心から中心窩画像(a foveal image)を抽出する段階と、
各中心窩画像をデータベース内の前記ノードに関連付ける段階と、
を含むことを特徴とする方法。
A method for mapping dense sensory data to a robot database,
Editing a list of nodes in a portion of a sphere region centered on the robot;
Generating an image of an area external to the robot at each node;
Extracting a foveal image from the center of each image;
Associating each foveal image with the node in the database;
A method comprising the steps of:
前記球体領域の前記部分は、感覚自己中心球体(a sensory ego sphere)であることを特徴とする請求項5に記載の方法。   6. The method of claim 5, wherein the portion of the sphere region is a sensory ego sphere.
JP2008535701A 2005-10-11 2006-10-11 System and method for image mapping and visual attention Pending JP2009517225A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US72603305P 2005-10-11 2005-10-11
PCT/US2006/040040 WO2007044891A2 (en) 2005-10-11 2006-10-11 System and method for image mapping and visual attention

Publications (1)

Publication Number Publication Date
JP2009517225A true JP2009517225A (en) 2009-04-30

Family

ID=37943550

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008535701A Pending JP2009517225A (en) 2005-10-11 2006-10-11 System and method for image mapping and visual attention

Country Status (4)

Country Link
EP (1) EP1934870A4 (en)
JP (1) JP2009517225A (en)
CA (2) CA2625805C (en)
WO (1) WO2007044891A2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266123A (en) * 2000-03-22 2001-09-28 Honda Motor Co Ltd Picture processor, peculiar part detecting method and recording medium recording peculiar part detection program
JP2002006784A (en) * 2000-06-20 2002-01-11 Mitsubishi Electric Corp Floating type robot
US6697707B2 (en) * 2001-04-06 2004-02-24 Vanderbilt University Architecture for robot intelligence
JP2004086401A (en) * 2002-08-26 2004-03-18 Sony Corp Object recognizing device and method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2648071B1 (en) * 1989-06-07 1995-05-19 Onet SELF-CONTAINED METHOD AND APPARATUS FOR AUTOMATIC FLOOR CLEANING BY EXECUTING PROGRAMMED MISSIONS
US5548511A (en) * 1992-10-29 1996-08-20 White Consolidated Industries, Inc. Method for controlling self-running cleaning apparatus
US5995884A (en) * 1997-03-07 1999-11-30 Allen; Timothy P. Computer peripheral floor cleaning system and navigation method
US7328196B2 (en) * 2003-12-31 2008-02-05 Vanderbilt University Architecture for multiple interacting robot intelligences
US20050223176A1 (en) * 2003-12-30 2005-10-06 Peters Richard A Ii Sensory ego-sphere: a mediating interface between sensors and cognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001266123A (en) * 2000-03-22 2001-09-28 Honda Motor Co Ltd Picture processor, peculiar part detecting method and recording medium recording peculiar part detection program
JP2002006784A (en) * 2000-06-20 2002-01-11 Mitsubishi Electric Corp Floating type robot
US6697707B2 (en) * 2001-04-06 2004-02-24 Vanderbilt University Architecture for robot intelligence
JP2005508761A (en) * 2001-04-06 2005-04-07 ヴァンダービルト ユニバーシティー Robot intelligence architecture
JP2004086401A (en) * 2002-08-26 2004-03-18 Sony Corp Object recognizing device and method

Also Published As

Publication number Publication date
EP1934870A4 (en) 2010-03-24
EP1934870A2 (en) 2008-06-25
WO2007044891A2 (en) 2007-04-19
CA2625805A1 (en) 2007-04-19
CA2868135A1 (en) 2007-04-19
WO2007044891A3 (en) 2007-07-12
CA2625805C (en) 2014-11-25

Similar Documents

Publication Publication Date Title
US7835820B2 (en) System and method for image mapping and visual attention
US7328196B2 (en) Architecture for multiple interacting robot intelligences
US6697707B2 (en) Architecture for robot intelligence
Luo et al. End-to-end active object tracking and its real-world deployment via reinforcement learning
Shabbir et al. A survey of deep learning techniques for mobile robot applications
US20190030713A1 (en) Persistent predictor apparatus and methods for task switching
Zuo et al. Craves: Controlling robotic arm with a vision-based economic system
Kragic et al. Vision for robotic object manipulation in domestic settings
JPWO2003019475A1 (en) Robot device, face recognition method, and face recognition device
CN114080583A (en) Visual teaching and repetitive motion manipulation system
Jirak et al. Solving visual object ambiguities when pointing: an unsupervised learning approach
Zhang et al. An egocentric vision based assistive co-robot
Ogawara et al. Acquiring hand-action models in task and behavior levels by a learning robot through observing human demonstrations
JP2009517225A (en) System and method for image mapping and visual attention
Cazzato et al. Real-time human head imitation for humanoid robots
Peters et al. System and method for image mapping and visual attention
Hamlet et al. A gesture recognition system for mobile robots that learns online
Peters et al. Apparatus for multiprocessor-based control of a multiagent robot
Welsh Real-time pose based human detection and re-identification with a single camera for robot person following
Ishikawa et al. FindView: Precise Target View Localization Task for Look Around Agents
Peters et al. Architecture for robot intelligence
Bianco et al. Biologically-inspired visual landmark learning for mobile robots
Gulde Two-dimensional pose estimation of industrial robotic arms in highly dynamic collaborative environments
Joshi Antipodal Robotic Grasping using Deep Learning
Sandberg Gesture Control of Quadruped Robots A Study of Technological and User Acceptance Barriers in Real World Situations

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091007

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110905

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111205

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111212

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120501