JP6919882B2 - Person estimation system and estimation program - Google Patents

Person estimation system and estimation program Download PDF

Info

Publication number
JP6919882B2
JP6919882B2 JP2017069865A JP2017069865A JP6919882B2 JP 6919882 B2 JP6919882 B2 JP 6919882B2 JP 2017069865 A JP2017069865 A JP 2017069865A JP 2017069865 A JP2017069865 A JP 2017069865A JP 6919882 B2 JP6919882 B2 JP 6919882B2
Authority
JP
Japan
Prior art keywords
dimensional
image data
distance image
moving object
person
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017069865A
Other languages
Japanese (ja)
Other versions
JP2018173707A (en
Inventor
ドラジェン ブルシュチッチ
ドラジェン ブルシュチッチ
神田 崇行
崇行 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2017069865A priority Critical patent/JP6919882B2/en
Publication of JP2018173707A publication Critical patent/JP2018173707A/en
Application granted granted Critical
Publication of JP6919882B2 publication Critical patent/JP6919882B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、人推定システムおよび推定プログラムに関し、特に、たとえば移動ロボットに搭載した3次元レーザ距離計で獲得した3次元スキャンデータを用いて人の位置などを推定する、人推定システムおよび推定プログラム The present invention relates to a human estimation system and an estimation program, and in particular, a human estimation system and an estimation program that estimate a person's position using three-dimensional scan data acquired by, for example, a three-dimensional laser range finder mounted on a mobile robot.

ロボットやその他の移動機械が人との共存環境で活動するためには、自分の位置、そして周りの人の位置とその特徴を知ることが重要である。ロボットのセンサとして一般のカメラを使用する場合、プライバシーが問われることがあるが、距離だけを計っている3次元測域センサ(3次元レーザ距離計)は、そういった心配がないので、人との共存にふさわしいセンサである。 In order for robots and other mobile machines to operate in a coexisting environment with humans, it is important to know their own position and the positions and characteristics of those around them. When using a general camera as a robot sensor, privacy may be asked, but a 3D rangefinder (3D laser rangefinder) that measures only the distance does not have to worry about that, so it is possible to interact with people. It is a sensor suitable for coexistence.

特許文献1には、3次元レーザ距離計を用いて人を検出したり、その位置を推定したりする手法が開示されている。 Patent Document 1 discloses a method of detecting a person using a three-dimensional laser range finder and estimating the position thereof.

特許第5953484号 [G01S 17/88]Patent No. 5935484 [G01S 17/88]

特許文献1の背景技術では、移動している物体はすべて人であるという前提に立つものであり、それに伴う誤検出を避けられない。 The background technique of Patent Document 1 is based on the premise that all moving objects are human beings, and false detections associated therewith are unavoidable.

それゆえに、この発明の主たる目的は、新規な、人推定システムおよび推定プログラムを提供することである。 Therefore, the main object of the present invention is to provide a novel human estimation system and estimation program.

この発明の他の目的は、誤検出を可及的抑制できる、人推定システムおよび推定プログラムを提供することである。 Another object of the present invention is to provide a human estimation system and an estimation program capable of suppressing false positives as much as possible.

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、本発明の理解を助けるために後述する実施の形態との対応関係を示したものであって、本発明を何ら限定するものではない。 The present invention has adopted the following configuration in order to solve the above problems. The reference numerals and supplementary explanations in parentheses indicate the correspondence with the embodiments described later in order to help the understanding of the present invention, and do not limit the present invention in any way.

第1の発明は、移動するロボット、ロボットに搭載された3次元レーザ距離計、3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出部、移動物体の3次元距離画像データをクラスタリングして移動物体の3次元点群を生成するクラスタリング部、3次元点群を投影することによって移動物体の2次元距離画像データを生成する投影部、および2次元距離画像データを入力とするディープニューラルネットワークを備え、投影部は、3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そしてディープニューラルネットワークが人と物とを識別する、人推定システムである。 The first invention is a moving robot, a three-dimensional laser distance meter mounted on the robot, a three-dimensional distance image data from the three-dimensional laser distance meter, and a three-dimensional environment map data, and the three-dimensional distance of a moving object is compared. Extraction unit that extracts image data, 3D distance image data of moving objects Clustering unit that generates 3D point groups of moving objects, 2D distance image data of moving objects by projecting 3D point groups It is equipped with a projection unit that generates a 2D distance image data and a deep neural network that inputs 2D distance image data. A human estimation system that determines the pixel value of each pixel based on the average distance of a point from the plane of projection, and a deep neural network distinguishes between people and objects.

第1の発明では、人推定システムは、移動するロボット(10:実施例において相当する部分を例示する参照符号。以下同じ。)を含み、このロボットには3次元レーザ距離計(26)が搭載される。抽出部(60,94、S1)は、3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する。クラスタリング部(60,94、S3)では、この抽出された移動物体の3次元距離画像データをクラスタリングして、移動物体の3次元点群を生成する。投影部(60,94、S5)は、3次元点群を投影することによって移動物体の2次元距離画像データを生成し、その2次元距離画像データがディープニューラルネットワークに投入される(S7)。具体的には、投影部は、3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の投影面からの平均距離に基づいて各ピクセルのピクセル値を決める。そして、ディープニューラルネットワークでは、2次元距離画像データに基づいて、人と物とを識別する。さらに、ディープニューラルネットワークでは、人の特徴(たとえば、性別、向きなど)を識別することもできる。 In the first invention, the human estimation system includes a moving robot (10: a reference reference numeral exemplifying a corresponding portion in the embodiment; the same applies hereinafter), and the robot is equipped with a three-dimensional laser range finder (26). Will be done. The extraction unit (60, 94, S1) compares the 3D distance image data from the 3D laser range finder with the 3D environment map data and extracts the 3D distance image data of the moving object. The clustering unit (60, 94, S3) clusters the three-dimensional distance image data of the extracted moving object to generate a three-dimensional point cloud of the moving object. The projection unit (60, 94, S5) generates two-dimensional distance image data of a moving object by projecting a three-dimensional point cloud, and the two-dimensional distance image data is input to the deep neural network (S7). Specifically, the projection unit sets a projection plane perpendicular to the line from the 3D laser rangefinder, and calculates the pixel value of each pixel based on the average distance from the projection plane of all the points that enter each pixel. decide. Then, in the deep neural network, a person and an object are discriminated based on the two-dimensional distance image data. In addition, deep neural networks can also identify human characteristics (eg, gender, orientation, etc.).

第1の発明によれば、3次元環境地図にのっていない物体の3次元距離画像を抽出することにより、環境(固定物)の一部を移動物体として誤認識することが可及的抑制される。しかも、ディープラーニング等の手法により、3次元の移動物体の形から人か物か検出する認識プログラムが実現可能となり、物を無視して、人だけの検出を行うことができる。 According to the first invention, by extracting a three-dimensional distance image of an object that is not on the three-dimensional environment map, it is possible to suppress erroneous recognition of a part of the environment (fixed object) as a moving object. Will be done. Moreover, a recognition program that detects whether a person or an object is detected from the shape of a three-dimensional moving object can be realized by a method such as deep learning, and it is possible to detect only a person while ignoring the object.

第2の発明は、第1の発明に従属し、ディープニューラルネットワークは畳み込みニューラルネットワークである、人推定システムである。 The second invention is subordinate to the first invention and is a human estimation system in which the deep neural network is a convolutional neural network.

第2の発明によれば、ディープニューラルネットワーク(DNN)として畳み込みニューラルネットワークを用いたので、人推定が容易に行える。 According to the second invention, since the convolutional neural network is used as the deep neural network (DNN), human estimation can be easily performed.

第3の発明は、3次元レーザ距離計を搭載した移動可能ロボットを含む人推定システムのコンピュータによって実行される推定プログラムであって、推定プログラムは、コンピュータを、3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出部、移動物体の3次元距離画像データをクラスタリングして移動物体の3次元点群を生成するクラスタリング部、3次元点群を投影することによって移動物体の2次元距離画像データを生成する投影部、および2次元距離画像データを入力とするディープニューラルネットワークとして機能させ、投影部は、3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そしてディープニューラルネットワークが人と物とを識別する、推定プログラムである。 The third invention is an estimation program executed by a computer of a human estimation system including a mobile robot equipped with a three-dimensional laser distance meter, in which the estimation program makes the computer three-dimensional from the three-dimensional laser distance meter. An extraction unit that compares the distance image data with the 3D environment map data to extract the 3D distance image data of the moving object, and clusters the 3D distance image data of the moving object to generate a 3D point group of the moving object. The clustering unit functions as a projection unit that generates 2D distance image data of a moving object by projecting a 3D point group, and a deep neural network that inputs 2D distance image data, and the projection unit is a 3D laser. Set a plane of projection perpendicular to the line from the distance meter, determine the pixel value of each pixel based on the average distance from the plane of projection of all points that enter each pixel, and a deep neural network connects people to objects. An estimation program that identifies.

第4の発明は、3次元レーザ距離計を搭載した移動可能ロボットを含む人推定システムのコンピュータによって実行される推定方法であって、3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出ステップ、移動物体の3次元距離画像データをクラスタリングして移動物体の3次元点群を生成するクラスタリングステップ、3次元点群を投影することによって移動物体の2次元距離画像データを生成する投影ステップ、および2次元距離画像データをディープニューラルネットワークに投入するステップを含み、投影ステップでは、3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そしてディープニューラルネットワークが人と物とを識別する、推定方法である。 The fourth invention is an estimation method executed by a computer of a human estimation system including a mobile robot equipped with a 3D laser distance meter, and is a 3D distance image data from a 3D laser distance meter and a 3D environment. Extraction step to extract 3D distance image data of moving object by comparing with map data, clustering step to generate 3D point group of moving object by clustering 3D distance image data of moving object, 3D point group projection step of generating a 2-dimensional range image data of the moving object by projecting, and the 2-dimensional range image data viewed including the step of introducing the deep neural network, in the projection step, the lines of the three-dimensional laser rangefinders An estimation method that sets a vertical plane of projection, determines the pixel value of each pixel based on the average distance from the plane of projection of all points that enter each pixel, and a deep neural network distinguishes between people and objects. be.

この発明によれば、環境の一部を移動物体であるという誤認を防止できるので、誤検出を可及的抑制することができる。 According to the present invention, it is possible to prevent misidentification that a part of the environment is a moving object, so that false detection can be suppressed as much as possible.

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above-mentioned object, other object, feature and advantage of the present invention will become more apparent from the detailed description of the following examples made with reference to the drawings.

図1はこの発明の一実施例である人推定システムに用いられるロボットの一例を示す図解図である。FIG. 1 is an illustrated diagram showing an example of a robot used in a human estimation system according to an embodiment of the present invention. 図2は図1実施例のロボットの電気的構成の一例を示すブロック図である。FIG. 2 is a block diagram showing an example of the electrical configuration of the robot according to the embodiment of FIG. 図3は図1実施例のロボットの移動空間の一例を示す図解図である。FIG. 3 is an illustrated diagram showing an example of the moving space of the robot according to the embodiment of FIG. 図4は図1実施例のロボットの遠隔操作装置の一例を示すブロック図である。FIG. 4 is a block diagram showing an example of a remote control device for a robot according to an embodiment of FIG. 図5は図2実施例におけるロボットのメモリのメモリマップの一例を示す図解図である。FIG. 5 is an illustrated diagram showing an example of a memory map of the memory of the robot in the embodiment of FIG. 図6は図1実施例のロボットの移動空間の一部を示す図解図である。FIG. 6 is an illustrated diagram showing a part of the moving space of the robot according to the embodiment of FIG. 図7はロボットに搭載した全方位レーザ距離計の実際のスキャンデータの一例を示す図解図である。FIG. 7 is an illustrated diagram showing an example of actual scan data of an omnidirectional laser range finder mounted on a robot. 図8は図1実施例のロボットを用いる推定システムの動作の一例を示すフロー図である。FIG. 8 is a flow chart showing an example of the operation of the estimation system using the robot of the embodiment of FIG. 図9は図8実施例において地図にない部分の3次元距離画像データをクラスタリングした結果の移動物体の3次元点群の一例を示す図解図である。FIG. 9 is an illustrated diagram showing an example of a three-dimensional point cloud of a moving object as a result of clustering three-dimensional distance image data of a portion not on the map in the embodiment of FIG. 図10は図8実施例において図9に示す移動物体の3次元点群を投影した2次元距離画像の一例を示す図解図である。FIG. 10 is an illustrated diagram showing an example of a two-dimensional distance image in which a three-dimensional point cloud of the moving object shown in FIG. 9 is projected in the embodiment of FIG. 図11は図9に示す移動物体の3次元点群を投影する手法の一例を示す図解図である。FIG. 11 is an illustrated diagram showing an example of a method of projecting a three-dimensional point cloud of a moving object shown in FIG.

図1はこの発明の一実施例の推定システムに用いるロボット10の一例を示す。推定システムは、この実施例では、ロボット10に搭載した3次元測域センサ(3次元全方位レーザ距離計)を用いて、ロボット10の自己位置や人の位置、向き、または属性の同時推定を可能とするものである。 FIG. 1 shows an example of a robot 10 used in an estimation system according to an embodiment of the present invention. In this embodiment, the estimation system uses a three-dimensional range finder (three-dimensional omnidirectional laser range finder) mounted on the robot 10 to simultaneously estimate the self-position of the robot 10 and the position, orientation, or attribute of a person. It is possible.

ロボット10は台車12を含み、台車12の下面にはロボット10を移動させる2つの車輪14および1つの従輪16が設けられる。2つの車輪14は車輪モータ82(図2参照)によってそれぞれ独立に駆動され、台車12すなわちロボット10を前後左右の任意方向に動かすことができる。 The robot 10 includes a trolley 12, and two wheels 14 for moving the robot 10 and one trailing wheel 16 are provided on the lower surface of the trolley 12. The two wheels 14 are independently driven by a wheel motor 82 (see FIG. 2), and the dolly 12, that is, the robot 10 can be moved in any direction of front, back, left, and right.

台車12の上には、円柱形のセンサ取り付けパネル18が設けられ、このセンサ取り付けパネル18には、多数の距離センサ20が取り付けられる。これらの距離センサ20は、たとえば赤外線や超音波などを用いてロボット10の周囲の物体(人や障害物など)との距離を測定するものである。 A cylindrical sensor mounting panel 18 is provided on the trolley 12, and a large number of distance sensors 20 are mounted on the sensor mounting panel 18. These distance sensors 20 measure the distance to an object (such as a person or an obstacle) around the robot 10 by using, for example, infrared rays or ultrasonic waves.

センサ取り付けパネル18の上には、胴体22が直立して設けられる。また、胴体22の前方中央上部(人の胸に相当する位置)には、上述した距離センサ20がさらに設けられ、ロボット10の前方の、主として人との距離を計測する。また、胴体22には、その側面側上端部のほぼ中央から伸びる支柱24が設けられ、支柱24の上には、全方位レーザ距離計26が設けられる。全方位レーザ距離計26は、たとえば、水平を基準として上下40°(+30°‐−10°)の検知角度(垂直視野角)を有する3次元レーザ距離計である。この3次元全方位レーザ距離計(以下、単に「レーザ距離計」ということがある。)26は、たとえば0.1秒に1回転して、およそ100mまでの距離を計測する。実験では、レーザ距離計26として、Velodine社製のイメージングユニットLiDAR(HDL‐32e)(商品名)を用いた。 A body 22 is provided upright on the sensor mounting panel 18. Further, the above-mentioned distance sensor 20 is further provided in the upper front center of the body 22 (position corresponding to the chest of a person), and measures the distance in front of the robot 10 mainly to a person. Further, the body 22 is provided with a support column 24 extending from substantially the center of the upper end portion on the side surface side thereof, and an omnidirectional laser rangefinder 26 is provided on the support column 24. The omnidirectional laser range finder 26 is, for example, a three-dimensional laser range finder having a detection angle (vertical viewing angle) of 40 ° (+ 30 ° −-10 °) up and down with reference to the horizontal. This three-dimensional omnidirectional laser range finder (hereinafter, may be simply referred to as "laser range finder") 26 rotates once every 0.1 seconds, for example, and measures a distance of up to about 100 m. In the experiment, an imaging unit LiDAR (HDL-32e) (trade name) manufactured by Velodine was used as the laser range finder 26.

なお、図示していないが、支柱24にはさらに全方位カメラが設けられてもよい。全方位カメラは、ロボット10の周囲を撮影するものであり、後述する眼カメラ50とは区別される。この3全方位カメラとしては、たとえばCCDやCMOSのような固体撮像素子を用いるカメラを採用することができる。 Although not shown, the support column 24 may be further provided with an omnidirectional camera. The omnidirectional camera captures the surroundings of the robot 10 and is distinguished from the eye camera 50 described later. As the three omnidirectional cameras, for example, a camera using a solid-state image sensor such as a CCD or CMOS can be adopted.

胴体22の両側面上端部(人の肩に相当する位置)には、それぞれ、肩関節28Rおよび肩関節28Lによって、上腕30Rおよび上腕30Lが設けられる。図示は省略するが、肩関節28Rおよび肩関節28Lは、それぞれ、直交する3軸の自由度を有する。すなわち、肩関節28Rは、直交する3軸のそれぞれの軸廻りにおいて上腕30Rの角度を制御できる。肩関節28Rの或る軸(ヨー軸)は、上腕30Rの長手方向(または軸)に平行な軸であり、他の2軸(ピッチ軸およびロール軸)は、その軸にそれぞれ異なる方向から直交する軸である。同様にして、肩関節28Lは、直交する3軸のそれぞれの軸廻りにおいて上腕30Lの角度を制御できる。肩関節28Lの或る軸(ヨー軸)は、上腕30Lの長手方向(または軸)に平行な軸であり、他の2軸(ピッチ軸およびロール軸)は、その軸にそれぞれ異なる方向から直交する軸である。 The upper arm 30R and the upper arm 30L are provided by the shoulder joint 28R and the shoulder joint 28L, respectively, at the upper ends of both side surfaces of the body 22 (positions corresponding to the shoulders of a person). Although not shown, the shoulder joint 28R and the shoulder joint 28L each have three orthogonal degrees of freedom. That is, the shoulder joint 28R can control the angle of the upper arm 30R around each of the three orthogonal axes. One axis (yaw axis) of the shoulder joint 28R is an axis parallel to the longitudinal direction (or axis) of the upper arm 30R, and the other two axes (pitch axis and roll axis) are orthogonal to the axis from different directions. It is the axis to do. Similarly, the shoulder joint 28L can control the angle of the upper arm 30L around each of the three orthogonal axes. One axis (yaw axis) of the shoulder joint 28L is an axis parallel to the longitudinal direction (or axis) of the upper arm 30L, and the other two axes (pitch axis and roll axis) are orthogonal to the axis from different directions. It is the axis to do.

また、上腕30Rおよび上腕30Lのそれぞれの先端には、肘関節32Rおよび肘関節32Lが設けられる。図示は省略するが、肘関節32Rおよび肘関節32Lは、それぞれ1軸の自由度を有し、この軸(ピッチ軸)の軸回りにおいて前腕34Rおよび前腕34Lの角度を制御できる。 Further, an elbow joint 32R and an elbow joint 32L are provided at the tips of the upper arm 30R and the upper arm 30L, respectively. Although not shown, the elbow joint 32R and the elbow joint 32L each have a degree of freedom of one axis, and the angles of the forearm 34R and the forearm 34L can be controlled around the axis of this axis (pitch axis).

前腕34Rおよび前腕34Lのそれぞれの先端には、人の手に相当するハンド36Rおよびハンド36Lがそれぞれ設けられる。これらのハンド36Rおよび36Lは、詳細な図示は省略するが、開閉可能に構成され、それによってロボット10は、ハンド36Rおよび36Lを用いて物体を把持または挟持することができる。ただし、ハンド36R、36Lの形状は実施例の形状に限らず、人の手に酷似した形状や機能を持たせるようにしてもよい。 A hand 36R and a hand 36L corresponding to a human hand are provided at the tips of the forearm 34R and the forearm 34L, respectively. These hands 36R and 36L are configured to be openable and closable, although detailed illustration is omitted, so that the robot 10 can grasp or hold an object using the hands 36R and 36L. However, the shapes of the hands 36R and 36L are not limited to the shapes of the embodiments, and may have shapes and functions that closely resemble those of human hands.

また、図示は省略するが、台車12の前面、肩関節28Rと肩関節28Lとを含む肩に相当する部位、上腕30R、上腕30L、前腕34R、前腕34L、ハンド36Rおよびハンド36Lには、それぞれ、接触センサ38(図2で包括的に示す)が設けられる。台車12の前面の接触センサ38は、台車12への人間や他の障害物の接触を検知する。したがって、ロボット10は、その自身の移動中に障害物との接触が有ると、それを検知し、直ちに車輪14の駆動を停止してロボット10の移動を急停止させることができる。また、その他の接触センサ38は、当該各部位に触れたかどうかを検知する。 Further, although not shown, the front surface of the carriage 12, the portion corresponding to the shoulder including the shoulder joint 28R and the shoulder joint 28L, the upper arm 30R, the upper arm 30L, the forearm 34R, the forearm 34L, the hand 36R and the hand 36L, respectively. , A contact sensor 38 (shown comprehensively in FIG. 2) is provided. The contact sensor 38 on the front surface of the dolly 12 detects the contact of a person or other obstacle with the dolly 12. Therefore, when the robot 10 comes into contact with an obstacle during its own movement, the robot 10 can detect the contact and immediately stop the driving of the wheels 14 to suddenly stop the movement of the robot 10. In addition, the other contact sensor 38 detects whether or not the respective parts have been touched.

胴体22の中央上部(人の首に相当する位置)には首関節40が設けられ、さらにその上には頭部42が設けられる。図示は省略するが、首関節40は、3軸の自由度を有し、3軸の各軸廻りに角度制御可能である。或る軸(ヨー軸)はロボット10の真上(鉛直上向き)に向かう軸であり、他の2軸(ピッチ軸、ロール軸)は、それぞれ、それと異なる方向で直交する軸である。 A neck joint 40 is provided at the upper center of the body 22 (a position corresponding to a person's neck), and a head 42 is provided above the neck joint 40. Although not shown, the neck joint 40 has three degrees of freedom, and the angle can be controlled around each of the three axes. A certain axis (yaw axis) is an axis that goes directly above the robot 10 (vertically upward), and the other two axes (pitch axis, roll axis) are axes that are orthogonal to each other in different directions.

頭部42には、人の口に相当する位置に、スピーカ44が設けられる。スピーカ44は、ロボット10が、それの周辺の人に対して音声によってコミュニケーションをとるために用いられる。また、人の耳に相当する位置には、マイク46Rおよびマイク46Lが設けられる。以下、右のマイク46Rと左のマイク46Lとをまとめてマイク46ということがある。マイク46は、周囲の音、とりわけコミュニケーションを実行する対象である人間の音声を取り込む。 A speaker 44 is provided on the head 42 at a position corresponding to a person's mouth. The speaker 44 is used by the robot 10 to communicate with people around it by voice. Further, a microphone 46R and a microphone 46L are provided at positions corresponding to human ears. Hereinafter, the right microphone 46R and the left microphone 46L may be collectively referred to as a microphone 46. The microphone 46 captures ambient sounds, especially human voice, which is the object of communication.

さらに、人の目に相当する位置には、右の眼球部48Rおよび左の眼球部48Lが設けられる。右の眼球部48Rおよび左の眼球部48Lは、それぞれ右の眼カメラ50Rおよび左の眼カメラ50Lを含む。以下、右の眼球部48Rと左の眼球部48Lとをまとめて眼球部48ということがある。また、右の眼カメラ50Rと左の眼カメラ50Lとをまとめて眼カメラ50ということがある。 Further, a right eyeball portion 48R and a left eyeball portion 48L are provided at positions corresponding to the human eye. The right eyeball portion 48R and the left eyeball portion 48L include a right eye camera 50R and a left eye camera 50L, respectively. Hereinafter, the right eyeball portion 48R and the left eyeball portion 48L may be collectively referred to as the eyeball portion 48. Further, the right eye camera 50R and the left eye camera 50L may be collectively referred to as an eye camera 50.

眼カメラ50は、ロボット10に接近した人の顔や他の部分ないし物体などを撮影して、それに対応する映像信号を取り込む。この実施例では、ロボット10は、この眼カメラ50からの映像信号によって、人の左右両目のそれぞれの視線方向(ベクトル)を検出する。 The eye camera 50 captures a face of a person approaching the robot 10, other parts or objects, and captures a corresponding video signal. In this embodiment, the robot 10 detects the line-of-sight directions (vectors) of the left and right eyes of a person by the video signal from the eye camera 50.

また、眼カメラ50は、上述した3次元距離画像計26と同様のカメラを用いることができる。たとえば、眼カメラ50は、眼球部48内に固定され、眼球部48は、眼球支持部(図示せず)を介して頭部42内の所定位置に取り付けられる。図示は省略するが、眼球支持部は、2軸の自由度を有し、それらの各軸廻りに角度制御可能である。たとえば、この2軸の一方は、頭部42の上に向かう方向の軸(ヨー軸)であり、他方は、一方の軸に直交しかつ頭部42の正面側(顔)が向く方向に直行する方向の軸(ピッチ軸)である。眼球支持部がこの2軸の各軸廻りに回転されることによって、眼球部48ないし眼カメラ50の先端(正面)側が変位され、カメラ軸すなわち視線方向が移動される。なお、上述のスピーカ44、マイク46および眼カメラ50の設置位置は、当該部位に限定されず、適宜な位置に設けられてよい。 Further, as the eye camera 50, the same camera as the above-mentioned three-dimensional distance image meter 26 can be used. For example, the eye camera 50 is fixed in the eyeball portion 48, and the eyeball portion 48 is attached to a predetermined position in the head 42 via an eyeball support portion (not shown). Although not shown, the eyeball support portion has two degrees of freedom, and the angle can be controlled around each of these axes. For example, one of these two axes is an axis (yaw axis) in the upward direction of the head 42, and the other is orthogonal to one axis and orthogonal to the front side (face) of the head 42. It is the axis (pitch axis) in the direction of By rotating the eyeball support portion around each of these two axes, the tip end (front) side of the eyeball portion 48 or the eye camera 50 is displaced, and the camera axis, that is, the line-of-sight direction is moved. The installation positions of the speaker 44, the microphone 46, and the eye camera 50 are not limited to the relevant parts, and may be provided at appropriate positions.

このように、この実施例のロボット10は、車輪14の独立2軸駆動、肩関節28の3自由度(左右で6自由度)、肘関節32の1自由度(左右で2自由度)、首関節40の3自由度および眼球支持部の2自由度(左右で4自由度)の合計17自由度を有する。 As described above, the robot 10 of this embodiment has independent 2-axis drive of the wheels 14, 3 degrees of freedom of the shoulder joint 28 (6 degrees of freedom on the left and right), 1 degree of freedom of the elbow joint 32 (2 degrees of freedom on the left and right). It has a total of 17 degrees of freedom, including 3 degrees of freedom for the neck joint 40 and 2 degrees of freedom for the eyeball support (4 degrees of freedom on the left and right).

図2はロボット10の電気的な構成を示すブロック図である。この図2を参照して、ロボット10は、1つまたは2以上のコンピュータ60を含む。コンピュータ60は、バス62を介して、メモリ64、モータ制御ボード66、センサ入力/出力ボード68および音声入力/出力ボード70に接続される。 FIG. 2 is a block diagram showing an electrical configuration of the robot 10. With reference to FIG. 2, the robot 10 includes one or more computers 60. The computer 60 is connected to the memory 64, the motor control board 66, the sensor input / output board 68, and the voice input / output board 70 via the bus 62.

メモリ64は、図示は省略をするが、ROM、HDDおよびRAMを含む。ROMおよびHDDには、後述のように、各種プログラムやデータが予め記憶されるとともに、コンピュータ60のためのバッファ領域あるいはワーキング領域としても利用される。 The memory 64 includes a ROM, an HDD, and a RAM, although not shown. As will be described later, various programs and data are stored in the ROM and HDD in advance, and are also used as a buffer area or a working area for the computer 60.

モータ制御ボード66は、たとえばDSPで構成され、各腕や首関節40および眼球部48などの各軸モータの駆動を制御する。すなわち、モータ制御ボード66は、コンピュータ60からの制御データを受け、右眼球部48Rの2軸のそれぞれの角度を制御する2つのモータ(図2では、まとめて「右眼球モータ72」と示す)の回転角度を制御する。同様にして、モータ制御ボード66は、コンピュータ60からの制御データを受け、左眼球部48Lの2軸のそれぞれの角度を制御する2つのモータ(図2では、まとめて「左眼球モータ74」と示す)の回転角度を制御する。 The motor control board 66 is composed of, for example, a DSP, and controls the drive of each axis motor such as each arm, neck joint 40, and eyeball portion 48. That is, the motor control board 66 receives control data from the computer 60 and controls the angles of the two axes of the right eyeball portion 48R (in FIG. 2, collectively referred to as "right eyeball motor 72"). Control the rotation angle of. Similarly, the motor control board 66 receives control data from the computer 60 and controls the respective angles of the two axes of the left eyeball portion 48L (in FIG. 2, collectively referred to as "left eyeball motor 74"). The rotation angle of) is controlled.

また、モータ制御ボード66は、コンピュータ60からの制御データを受け、肩関節28Rの直交する3軸のそれぞれの角度を制御する3つのモータと肘関節32Rの角度を制御する1つのモータとの計4つのモータ(図2では、まとめて「右腕モータ76」と示す)の回転角度を制御する。同様にして、モータ制御ボード66は、コンピュータ60からの制御データを受け、肩関節28Lの直交する3軸のそれぞれの角度を制御する3つのモータと肘関節32Lの角度を制御する1つのモータとの計4つのモータ(図2では、まとめて「左腕モータ78」と示す)の回転角度を制御する。 Further, the motor control board 66 receives control data from the computer 60, and is a total of three motors that control the angles of the three orthogonal axes of the shoulder joint 28R and one motor that controls the angles of the elbow joint 32R. The rotation angles of the four motors (collectively referred to as "right arm motor 76" in FIG. 2) are controlled. Similarly, the motor control board 66 receives control data from the computer 60, and includes three motors that control the angles of the three orthogonal axes of the shoulder joint 28L and one motor that controls the angles of the elbow joint 32L. The rotation angles of a total of four motors (collectively referred to as "left arm motor 78" in FIG. 2) are controlled.

さらに、モータ制御ボード66は、コンピュータ60からの制御データを受け、首関節40の直交する3軸のそれぞれの角度を制御する3つのモータ(図2では、まとめて「頭部モータ80」と示す)の回転角度を制御する。そして、モータ制御ボード66は、コンピュータ60からの制御データを受け、車輪14を駆動する2つのモータ(図2では、まとめて「車輪モータ82」と示す)の回転角度を制御する。 Further, the motor control board 66 receives control data from the computer 60 and controls the angles of the three orthogonal axes of the neck joint 40 (in FIG. 2, collectively referred to as "head motor 80"). ) Rotation angle is controlled. Then, the motor control board 66 receives the control data from the computer 60 and controls the rotation angles of the two motors (collectively referred to as "wheel motor 82" in FIG. 2) for driving the wheels 14.

センサ入力/出力ボード68は、モータ制御ボード66と同様に、DSPで構成され、各センサからの信号を取り込んでコンピュータ60に与える。すなわち、距離センサ20のそれぞれからの反射時間に関するデータがこのセンサ入力/出力ボード68を通じてコンピュータ60に入力される。 Similar to the motor control board 66, the sensor input / output board 68 is composed of a DSP, and takes in signals from each sensor and gives them to the computer 60. That is, data regarding the reflection time from each of the distance sensors 20 is input to the computer 60 through the sensor input / output board 68.

3次元距離画像計26からの距離画像信号が、必要に応じてセンサ入力/出力ボード68で所定の処理を施してから、距離画像データとしてコンピュータ60に入力される。 The distance image signal from the three-dimensional distance image meter 26 is subjected to predetermined processing on the sensor input / output board 68 as needed, and then input to the computer 60 as distance image data.

眼カメラ50からの映像信号も、同様にして、コンピュータ60に入力される。また、上述した複数の接触センサ38(図2では、まとめて「接触センサ38」と示す)からの信号がセンサ入力/出力ボード68を介してコンピュータ60に与えられる。 The video signal from the eye camera 50 is also input to the computer 60 in the same manner. Further, signals from the plurality of contact sensors 38 described above (collectively referred to as “contact sensors 38” in FIG. 2) are given to the computer 60 via the sensor input / output board 68.

音声入力/出力ボード70もまた、同様に、DSPで構成され、コンピュータ60から与えられる音声合成データに従った音声または声がスピーカ44から出力される。また、マイク46からの音声入力が、音声入力/出力ボード70を介してコンピュータ60に与えられる。 Similarly, the voice input / output board 70 is also composed of a DSP, and a voice or a voice according to the voice synthesis data given from the computer 60 is output from the speaker 44. Further, the voice input from the microphone 46 is given to the computer 60 via the voice input / output board 70.

また、コンピュータ60は、バス62を介して通信LANボード84に接続される。通信LANボード84は、たとえばDSPで構成され、コンピュータ60から与えられた送信データを無線通信モジュール86に与え、無線通信モジュール86は送信データを、ネットワークを介して遠隔操作装置(図示せず)等に送信する。また、通信LANボード84は、無線通信モジュール86を介してデータを受信し、受信したデータをコンピュータ60に与える。 Further, the computer 60 is connected to the communication LAN board 84 via the bus 62. The communication LAN board 84 is composed of, for example, a DSP, and supplies transmission data given by the computer 60 to the wireless communication module 86, and the wireless communication module 86 transmits the transmission data via a network to a remote control device (not shown) or the like. Send to. Further, the communication LAN board 84 receives data via the wireless communication module 86, and gives the received data to the computer 60.

このようなロボット10は、たとえば図3に示す移動空間88の出入り口88aの間の移動経路88bに沿って移動し、たとえば商業施設のようなその移動空間88に存在する人に対して、案内サービスなどのサービスを提供する。 Such a robot 10 moves along a movement path 88b between entrances and exits 88a of the movement space 88 shown in FIG. 3, for example, and provides a guidance service to a person existing in the movement space 88 such as a commercial facility. Provide services such as.

なお、移動空間88には、図示しないが、環境側のセンサとして、ロボット10のものと同様の、3次元全方位レーザ距離計が複数配置されている。 Although not shown, a plurality of three-dimensional omnidirectional laser range finders similar to those of the robot 10 are arranged in the moving space 88 as sensors on the environment side.

このような移動空間88中を移動するロボット10は、基本的には自律移動可能であるが、ロボット10が自律移動できなくなるなどの事態に備えて、たとえば図4に示すような遠隔操作装置90によっても制御可能とされている。 The robot 10 that moves in such a moving space 88 can basically move autonomously, but in preparation for a situation where the robot 10 cannot move autonomously, for example, the remote control device 90 as shown in FIG. 4 It is also possible to control by.

図4を参照して、この実施例の遠隔制御装置90は、移動体としてのロボット10の動作や移動を制御するためにネットワーク92を介して、ロボット10と相互に通信できる。 With reference to FIG. 4, the remote control device 90 of this embodiment can communicate with the robot 10 via the network 92 in order to control the operation and movement of the robot 10 as a mobile body.

遠隔操作装置90は、コンピュータ94を含み、このコンピュータ94に接続された操作卓96に設けられる操作キーやジョイスティック(図示せず)をオペレータが操作することによって、その操作入力に応じて、コンピュータ94がロボット10の車輪14すなわちロボット10の移動を制御することができる。 The remote control device 90 includes a computer 94, and the operator operates an operation key or a joystick (not shown) provided on the console 96 connected to the computer 94, and the computer 94 responds to the operation input. Can control the movement of the wheels 14 of the robot 10, that is, the robot 10.

コンピュータ94にはメモリ98が連結されるとともに、表示器10が接続される。メモリ98は、ロボット制御のためのプログラム、移動空間88(図3)の2次元地図データや3次元地図データ等の必要なデータを記憶する。表示器100は、ロボット10の移動を安全に行うために、ロボット10の移動状態や全方位カメラ(図示せず)で撮影した画像を表示して、オペレータに見せる。 A memory 98 is connected to the computer 94, and a display 10 is connected to the computer 94. The memory 98 stores necessary data such as a program for robot control, two-dimensional map data of the moving space 88 (FIG. 3), and three-dimensional map data. In order to safely move the robot 10, the display 100 displays the moving state of the robot 10 and an image taken by an omnidirectional camera (not shown) and shows it to the operator.

コンピュータ94には、無線通信モジュール102が付属され、コンピュータ94はネットワーク92を経由して、ロボット10の無線通信モジュール86(図2)を通して、コンピュータ60と無線通信を行うことができる。 A wireless communication module 102 is attached to the computer 94, and the computer 94 can perform wireless communication with the computer 60 via the wireless communication module 86 (FIG. 2) of the robot 10 via the network 92.

ここで、図1のロボット10のコンピュータ60のメモリ64は、たとえば図5に示すように、プログラム記憶領域104およびデータ記憶領域106を含む。 Here, the memory 64 of the computer 60 of the robot 10 of FIG. 1 includes a program storage area 104 and a data storage area 106, for example, as shown in FIG.

プログラム記憶領域104には、OSなどの必要なプログラムの他、ロボット10の移動を制御するための移動制御プログラム108および後に詳細に説明する推定プログラム110などが予め設定されている。この推定プログラム110は、移動空間88内を移動する人の特徴を推定するもので、そのためにディープニューラルネットワーク(たとえば、畳み込みニューラルネットワーク)を含む。 In the program storage area 104, in addition to necessary programs such as an OS, a movement control program 108 for controlling the movement of the robot 10, an estimation program 110 which will be described in detail later, and the like are set in advance. The estimation program 110 estimates the characteristics of a person moving in the moving space 88, and includes a deep neural network (for example, a convolutional neural network) for that purpose.

データ記憶領域106は、レーザ距離計26(図1、図2)から得られる3次元距離画像データ(データセット)を一時的に記憶するための3次元距離画像データ記憶領域112、および遠隔操作装置90のメモリ98から取得した、移動空間88の3次元地図(3次元環境地図)のデータを記憶する3次元地図データ記憶領域114を含む。 The data storage area 106 includes a three-dimensional distance image data storage area 112 for temporarily storing the three-dimensional distance image data (data set) obtained from the laser distance meter 26 (FIGS. 1 and 2), and a remote control device. The three-dimensional map data storage area 114 for storing the data of the three-dimensional map (three-dimensional environment map) of the moving space 88 acquired from the memory 98 of the 90 is included.

データ記憶領域106にはさらに、推定プログラム110に従った処理過程で得られる後述の移動物体の3次元点群のデータを記憶する3次元点群データ記憶領域116および移動物体の2次元距離画像データを記憶する2次元距離画像データ記憶領域118が形成される。 Further, the data storage area 106 further stores the data of the three-dimensional point cloud of the moving object, which will be described later, obtained in the processing process according to the estimation program 110, the three-dimensional point cloud data storage area 116, and the two-dimensional distance image data of the moving object. A two-dimensional distance image data storage area 118 for storing the data is formed.

このようなロボット10は、たとえば図3に示すような場所において移動されながら、レーザ距離計28によってスキャンデータを取得する。図6に例示する場所は発明者等が推定システムの実験のために利用した商業施設の2階の一部である。実験では、ロボット10は、1回の走行において、商業施設のこの場所を約25分かけて約530m移動し、およそ1億8200万の点群の位置データ(データセット)を出力する。 Such a robot 10 acquires scan data by a laser range finder 28 while being moved at a place as shown in FIG. 3, for example. The place illustrated in FIG. 6 is a part of the second floor of the commercial facility used by the inventors for the experiment of the estimation system. In the experiment, the robot 10 moves about 530 m in this place of the commercial facility in about 25 minutes in one run, and outputs the position data (data set) of about 182 million point clouds.

図7がレーザ距離計28で取得した代表的な3次元スキャンデータ120を示し、この図7の中の円弧状の線が、レーザ距離計28がスキャンしている様子を模式的に示す。図7に示すように、スキャンデータは、壁や床などのような静的オブジェクトだけでなく、人間のような動的オブジェクトからのデータを含む。他方、図7ではわからないが、実際のスキャンデータでは、高さ方向に色付けされていて、低い位置が赤色で、高い位置が青色でそれぞれ表現され、3次元距離画像としてロボット10のメモリ84の3次元距離画像データ記憶領域112(図5)に記憶される。 FIG. 7 shows typical three-dimensional scan data 120 acquired by the laser range finder 28, and the arcuate line in FIG. 7 schematically shows how the laser range finder 28 is scanning. As shown in FIG. 7, scan data includes data from dynamic objects such as humans as well as static objects such as walls and floors. On the other hand, although it is not clear in FIG. 7, in the actual scan data, the low position is colored in red and the high position is represented in blue in the actual scan data. It is stored in the dimension distance image data storage area 112 (FIG. 5).

図8に示すステップS1では、このような3次元距離画像データとメモリ64の3次元地図データ記憶領域114に予め記憶されている3次元環境地図データとを用いて、まず、自己位置を同定する。具体的には、3次元環境地図において固定物(静止物体)として記録されている壁(図7のスキャンデータ122において「124」で示す)などの位置とロボット10の位置との距離を(3角測量の原理で)計算することによって、ロボット10の現在位置(座標位置)が特定できる。 In step S1 shown in FIG. 8, the self-position is first identified using such three-dimensional distance image data and the three-dimensional environment map data stored in advance in the three-dimensional map data storage area 114 of the memory 64. .. Specifically, the distance between the position of the wall (indicated by "124" in the scan data 122 of FIG. 7) recorded as a fixed object (stationary object) on the three-dimensional environment map and the position of the robot 10 is (3). The current position (coordinate position) of the robot 10 can be specified by calculation (based on the principle of angular measurement).

ただし、このステップS1でのロボット10の現在位置の特定のための計算は、移動空間88(図3)に分散配置されている複数の3次元全方位レーザ距離計(図示せず)を利用して計算することもできる。 However, the calculation for specifying the current position of the robot 10 in step S1 uses a plurality of three-dimensional omnidirectional laser range finders (not shown) distributed in the moving space 88 (FIG. 3). Can also be calculated.

そして、ロボット10の現在位置を特定した後、ロボット10の3次元全方位レーザ距離計26から得られた3次元距離画像データと3次元環境地図データと比較することによって、地図に記録されていない次元距離画像データを抽出することができる。これによって抽出される物体は、移動空間内における移動可能な物体(人や移動できるもの)である。なぜなら、3次元環境地図に載っているものは壁などの固定物であるので、その3次元環境地図に入っていないものは一時的な移動物体である。 Then, after specifying the current position of the robot 10, the 3D distance image data obtained from the 3D omnidirectional laser distance meter 26 of the robot 10 is compared with the 3D environment map data, and the data is not recorded on the map. Dimensional distance image data can be extracted. The object extracted by this is a movable object (a person or a movable object) in the moving space. This is because what is on the 3D environment map is a fixed object such as a wall, so what is not on the 3D environment map is a temporary moving object.

このような移動物体を示す3次元距離画像データを、背景技術で挙げた特許第5953484号に示すような方法でクラスタリングする(ステップS3)ことによって、図9に示すような移動物体の3次元点群に分けることができる。 By clustering the three-dimensional distance image data showing such a moving object by the method shown in Japanese Patent No. 5935484 mentioned in the background technology (step S3), the three-dimensional points of the moving object as shown in FIG. 9 Can be divided into groups.

1つの考え方として、このような3次元点群をニューラルネットワーク等の推定アルゴリズムの入力に使い、出力はそれぞれの点群に相当する物体の特徴(人かどうか、性別、その瞬間の体の向き、等)を使うことが考えられる。点群と特徴のデータが十分あればニューラルネットワークの学習ができる。たとえば、性のわかる人のスキャンを多く集めれば、性別の学習データに使える。ただし、学習データはシミュレータでも作ることができる。 One way of thinking is to use such a 3D point cloud as an input for an estimation algorithm such as a neural network, and the output is the characteristics of the object corresponding to each point cloud (whether it is a person, gender, body orientation at that moment, etc.). Etc.) can be used. Neural networks can be learned if there is sufficient point cloud and feature data. For example, if you collect many scans of people who understand gender, you can use it for learning data of gender. However, learning data can also be created with a simulator.

しかしながら、この実施例においては、3次元点群を直接ニューラルネットワークに投入しない。 However, in this embodiment, the three-dimensional point cloud is not directly input to the neural network.

まず、ステップS5において、投影を使って図10に示すような2次元の距離画像を作る。 First, in step S5, a projection is used to create a two-dimensional distance image as shown in FIG.

具体的には、図11に示すように、3次元距離計26から延びる線に対して垂直な四角い面を投影面として使う。ただし、投影面の幅と高さは任意である(たとえば、1m×2m)。そして、投影面のX軸の中心を点群の中心に合わせる(物体の画像が真中になるようにする。)。投影面の3次元距離計26からの距離も点群の平均距離と同じにする。3次元距離計26から見ればおよそ半分の点が面の前、半分が面の後ろになる。ただし、投影面のY軸の位置はあまり厳密に考えなくてもよいが、好ましくは、比較できるようにすべての点群に同じY軸の位置を使う。たとえば、人の頭が入るように投影面の一番高いところが2mにあるようにする。次いで、投影面のピクセルのグリッドに分ける(ピクセルの幅も高さも一定である)。 Specifically, as shown in FIG. 11, a square surface perpendicular to the line extending from the three-dimensional range finder 26 is used as the projection surface. However, the width and height of the projection surface are arbitrary (for example, 1 m × 2 m). Then, the center of the X-axis of the projection plane is aligned with the center of the point group (so that the image of the object is in the center). The distance of the projection surface from the three-dimensional rangefinder 26 is also the same as the average distance of the point cloud. When viewed from the 3D rangefinder 26, about half of the points are in front of the surface and half are behind the surface. However, the Y-axis position of the projection plane does not have to be considered very rigorously, but preferably the same Y-axis position is used for all point clouds for comparison. For example, the highest point of the projection surface should be 2 m so that the human head can enter. It is then divided into a grid of pixels on the projection plane (pixels are constant in width and height).

このようにして、3次元点群のすべての点を投影面に投影する。そして、あるピクセルに入ったすべての点の面からの平均距離を計算することによって、そのピクセルの値を決める。たとえば、平均距離0mは0.5、レーザ距離計26の方向に0.5mは「0」、逆方向に0.5mは「1」とする。ただし、1つの点も入らなかったピクセルの値は0(ゼロ)になる。 In this way, all points in the three-dimensional point cloud are projected onto the projection plane. Then, the value of that pixel is determined by calculating the average distance from the plane of all the points that entered a pixel. For example, the average distance of 0 m is 0.5, 0.5 m in the direction of the laser range finder 26 is "0", and 0.5 m in the opposite direction is "1". However, the value of the pixel that does not contain even one point becomes 0 (zero).

このような手法で3次元点群を投影した2次元距離画像の一例が図10に示される。 An example of a two-dimensional distance image in which a three-dimensional point cloud is projected by such a method is shown in FIG.

その後、ステップS7で、畳み込みニューラルネットワークを使う。このときの畳み込みニューラルネットワークへの入力は、ステップS5で作成した2次元距離画像であり、通常のカメラの入力に使う畳み込みニューラルネットワークでよく、畳み込みニューラルネットワークの構成が複雑になるのを回避できる。 Then, in step S7, the convolutional neural network is used. The input to the convolutional neural network at this time is the two-dimensional distance image created in step S5, and the convolutional neural network used for the input of a normal camera may be used, and the configuration of the convolutional neural network can be avoided.

そして、2次元距離画像を投入した畳み込みニューラルネットワークは、人と物とを識別するとともに、人の特徴、たとえば体の向き、性別などを抽出することができる。 Then, the convolutional neural network into which the two-dimensional distance image is input can identify a person and an object and extract a person's characteristics such as body orientation and gender.

上述のようにこの実施例においてはディープニューラルネットワーク(DNN)など最新の機械学習手法を使用することで、このプロセスの正確性やロバスト性を上げることが可能となる。人と物を区別すると同時に、誤検出を減らし、人の位置だけでなく、その他の様々な特徴が推定できる。さらに、この特徴推定結果をフィードバックとして使えば、人の検出精度を向上させることができる。また、人の追跡結果を使えばロボットの自己位置推定のロバスト性を上げることが可能になる。 As described above, by using the latest machine learning method such as deep neural network (DNN) in this embodiment, it is possible to improve the accuracy and robustness of this process. At the same time as distinguishing between people and things, it reduces false positives and can estimate not only the position of people but also various other features. Furthermore, if this feature estimation result is used as feedback, the human detection accuracy can be improved. In addition, it is possible to improve the robustness of the robot's self-position estimation by using the human tracking results.

また、従来の3次元測域センサ(3次元全方位レーザ距離計)の人検出システムでは一般的に移動している物体はすべて人だという概念を使っていたが、これは必ずしも正しくない。特に移動しているロボットの場合自己位置推定の誤差によって環境の一部が移動物体だと判断を間違える可能性が高い。これに対して実施例のように、ロボット10の現在位置を特定した後に、3次元環境地図にのっていない物体の3次元距離画像を抽出することにより、環境(固定物)の一部を移動物体として誤認識することが可及的抑制される。しかも、ディープラーニング等の手法により、3次元の移動物体の形から人か物か検出する認識プログラムが実現可能となり、物を無視し、人だけの検出および追跡を行うことができる。 In addition, the conventional 3D rangefinder (3D omnidirectional laser rangefinder) human detection system generally uses the concept that all moving objects are humans, but this is not always correct. Especially in the case of a moving robot, there is a high possibility that a part of the environment is misjudged as a moving object due to an error in self-position estimation. On the other hand, as in the embodiment, after specifying the current position of the robot 10, a part of the environment (fixed object) is extracted by extracting a three-dimensional distance image of an object that is not on the three-dimensional environment map. False recognition as a moving object is suppressed as much as possible. Moreover, by a method such as deep learning, a recognition program that detects a person or an object from the shape of a three-dimensional moving object can be realized, and the object can be ignored and only the person can be detected and tracked.

さらに、従来の方法では、3次元測域センサの3次元距離画像データから人の特徴検出は困難であったが、上記と同じように、ディープラーニング等の機械学習手法を用いて、3次元測域センサに写っている人の3次元距離画像データから体の向きを推定できる。また、人とセンサの距離が十分近い場合、顔の向きの推定も可能である。さらに、向きだけでなく、人のその他の特徴を推定することも可能である。たとえば、性別の識別、または身長、荷物の有無、ヘアスタイル、服のタイプ(たとえばスカートかズボン)の同定ができる。ただし、これらの推定精度は3次元測域センサの解像度や人からの距離などに依存する。 Furthermore, with the conventional method, it was difficult to detect the characteristics of a person from the 3D distance image data of the 3D range sensor, but as described above, 3D measurement is performed using a machine learning method such as deep learning. The orientation of the body can be estimated from the 3D distance image data of the person captured by the area sensor. In addition, when the distance between the person and the sensor is sufficiently close, it is possible to estimate the orientation of the face. Furthermore, it is possible to estimate not only the orientation but also other characteristics of the person. For example, gender can be identified, or height, luggage, hairstyle, and clothing type (eg, skirt or trousers). However, these estimation accuracy depends on the resolution of the three-dimensional range sensor and the distance from a person.

人追跡システムにおいては、ある人を追跡している間に周りの人や物が妨げになり、見えなくなることがあるので、再び検出したときに同じ人かどうかを判断する必要がある。従来の3次元のデータを用いた人検出アルゴリズムでは人の特徴は使えなかったのでこの再認識の段階が困難であったが、上記の特徴同定の結果を使うことにより、同一人物なのかの判断がより正確になる。その結果、人の検出や追跡のロバスト性が上がり、その精度が向上する。 In a person tracking system, while tracking a person, people and objects around him may become obstructive and invisible, so it is necessary to determine whether they are the same person when they are detected again. This re-recognition stage was difficult because human features could not be used with the conventional human detection algorithm using three-dimensional data, but by using the above feature identification results, it is possible to determine whether the person is the same person. Becomes more accurate. As a result, the robustness of human detection and tracking is improved, and the accuracy is improved.

従来の方法ではロボットが環境の中の特徴を検出して自己位置推定を行うのが一般的なアプローチである。これは人がいないまたは少ない場所では安定して使えるが、ロボットの周りに人が多い場合、センサの妨げになり、検出できる環境の特徴の数が減るので、自己位置推定も困難で不安定になることがある。これは特にサービスロボットの場合よく見られる現象である。一方、環境の特徴だけでなく、上述の実施例でのような人の検出と再認識結果を自己位置推定に使うようにすれば、ロボット10の自己位置推定の安定性は上がる。 In the conventional method, the general approach is for the robot to detect features in the environment and perform self-position estimation. This can be used stably in places where there are no or few people, but when there are many people around the robot, it interferes with the sensor and reduces the number of environmental features that can be detected, making self-position estimation difficult and unstable. May become. This is a common phenomenon especially in the case of service robots. On the other hand, if not only the characteristics of the environment but also the human detection and re-recognition results as in the above-described embodiment are used for self-position estimation, the stability of self-position estimation of the robot 10 is improved.

なお、上述の実施例では、実施例が解決すべき問題に好適するという考えでディープニューラルネットワーク(DNN)として畳み込みニューラルネットワークを用いたが、それ以外のディープニューラルネットワークを採用してもよい。 In the above-described embodiment, the convolutional neural network is used as the deep neural network (DNN) based on the idea that the embodiment is suitable for the problem to be solved, but other deep neural networks may be adopted.

さらに、上述の実施例では図8の全てのステップをロボット10のコンピュータ60(図2)が実行するものとして説明した。しかしながら、図4に示す遠隔操作装置90のコンピュータ94が全てまたは一部のステップを実行するようにしてもよい。いずれの場合も、人推定システムを構成したものである。 Further, in the above-described embodiment, all the steps of FIG. 8 have been described as being executed by the computer 60 (FIG. 2) of the robot 10. However, the computer 94 of the remote control device 90 shown in FIG. 4 may perform all or part of the steps. In each case, it constitutes a human estimation system.

10 …ロボット
26 …3次元全方位レーザ距離計
60、94 …コンピュータ
64、98 …メモリ
10 ... Robot 26 ... 3D omnidirectional laser rangefinder 60, 94 ... Computer 64, 98 ... Memory

Claims (4)

移動するロボット、
前記ロボットに搭載された3次元レーザ距離計、
前記3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出部、
前記移動物体の3次元距離画像データをクラスタリングして前記移動物体の3次元点群を生成するクラスタリング部、
前記3次元点群を投影することによって前記移動物体の2次元距離画像データを生成する投影部、および
前記2次元距離画像データを入力とするディープニューラルネットワークを備え、
前記投影部は、前記3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の前記投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そして
前記ディープニューラルネットワークが人と物とを識別する、人推定システム。
Moving robot,
A three-dimensional laser rangefinder mounted on the robot,
An extraction unit that compares the 3D distance image data from the 3D laser rangefinder with the 3D environment map data and extracts the 3D distance image data of a moving object.
A clustering unit that clusters the three-dimensional distance image data of the moving object to generate a three-dimensional point cloud of the moving object.
A projection unit that generates two-dimensional distance image data of the moving object by projecting the three-dimensional point group, and a deep neural network that inputs the two-dimensional distance image data are provided.
The projection unit sets a projection plane perpendicular to the line from the three-dimensional laser rangefinder, determines the pixel value of each pixel based on the average distance from the projection plane of all points entering each pixel. A person estimation system in which the deep neural network distinguishes between a person and an object.
前記ディープニューラルネットワークは畳み込みニューラルネットワークである、請求項1記載の人推定システム。 The person estimation system according to claim 1, wherein the deep neural network is a convolutional neural network. 3次元レーザ距離計を搭載した移動可能ロボットを含む人推定システムのコンピュータによって実行される推定プログラムであって、前記推定プログラムは、前記コンピュータを
前記3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出部、
前記移動物体の3次元距離画像データをクラスタリングして前記移動物体の3次元点群を生成するクラスタリング部、
前記3次元点群を投影することによって前記移動物体の2次元距離画像データを生成する投影部、および
前記2次元距離画像データを入力とするディープニューラルネットワーク
として機能させ、
前記投影部は、前記3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の前記投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そして
前記ディープニューラルネットワークが人と物とを識別するとともに、人の特徴を識別する、推定プログラム。
An estimation program executed by a computer of a human estimation system including a mobile robot equipped with a 3D laser distance meter, wherein the estimation program uses the computer as 3D distance image data from the 3D laser distance meter. Extractor that extracts 3D distance image data of moving objects by comparing with 3D environment map data,
A clustering unit that clusters the three-dimensional distance image data of the moving object to generate a three-dimensional point cloud of the moving object.
It functions as a projection unit that generates two-dimensional distance image data of the moving object by projecting the three-dimensional point group, and a deep neural network that inputs the two-dimensional distance image data.
The projection unit sets a projection plane perpendicular to the line from the three-dimensional laser rangefinder, determines the pixel value of each pixel based on the average distance from the projection plane of all points entering each pixel. An estimation program in which the deep neural network discriminates between a person and an object and also identifies the characteristics of the person.
3次元レーザ距離計を搭載した移動可能ロボットを含む人推定システムのコンピュータによって実行される推定方法であって、
前記3次元レーザ距離計からの3次元距離画像データと3次元環境地図データとを比較して移動物体の3次元距離画像データを抽出する抽出ステップ、
前記移動物体の3次元距離画像データをクラスタリングして前記移動物体の3次元点群を生成するクラスタリングステップ、
前記3次元点群を投影することによって前記移動物体の2次元距離画像データを生成する投影ステップ、および
前記2次元距離画像データをディープニューラルネットワークに投入するステップを含み、
前記投影ステップでは、前記3次元レーザ距離計からの線に垂直な投影面を設定し、各ピクセルに入ったすべての点の前記投影面からの平均距離に基づいて各ピクセルのピクセル値を決め、そして
前記ディープニューラルネットワークが人と物とを識別するとともに、人の特徴を識別する、推定方法。
An estimation method performed by a computer in a human estimation system that includes a mobile robot equipped with a three-dimensional laser rangefinder.
An extraction step of comparing the 3D distance image data from the 3D laser rangefinder with the 3D environment map data to extract the 3D distance image data of a moving object.
A clustering step of clustering the three-dimensional distance image data of the moving object to generate a three-dimensional point cloud of the moving object.
Look including the step of introducing a projection step of generating a 2-dimensional range image data of the moving object, and the 2-dimensional range image data in the deep neural network by projecting the three-dimensional point group,
In the projection step, a projection plane perpendicular to the line from the three-dimensional laser rangefinder is set, and the pixel value of each pixel is determined based on the average distance from the projection plane of all points entering each pixel. and
An estimation method in which the deep neural network discriminates between a person and an object and also identifies the characteristics of the person.
JP2017069865A 2017-03-31 2017-03-31 Person estimation system and estimation program Active JP6919882B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017069865A JP6919882B2 (en) 2017-03-31 2017-03-31 Person estimation system and estimation program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017069865A JP6919882B2 (en) 2017-03-31 2017-03-31 Person estimation system and estimation program

Publications (2)

Publication Number Publication Date
JP2018173707A JP2018173707A (en) 2018-11-08
JP6919882B2 true JP6919882B2 (en) 2021-08-18

Family

ID=64108525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017069865A Active JP6919882B2 (en) 2017-03-31 2017-03-31 Person estimation system and estimation program

Country Status (1)

Country Link
JP (1) JP6919882B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7409157B2 (en) 2020-03-03 2024-01-09 株式会社豊田自動織機 object recognition device
US20230162371A1 (en) * 2020-03-13 2023-05-25 Nec Corporation Image processing apparatus, image processing method, and computer-readable medium
JP7444136B2 (en) 2021-06-08 2024-03-06 株式会社デンソー Object recognition system, object recognition method, object recognition program
WO2023053723A1 (en) * 2021-10-01 2023-04-06 ソニーグループ株式会社 Information processing device, information processing method, and moving body device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5472142B2 (en) * 2011-01-28 2014-04-16 株式会社デンソー Map data generation device and driving support device
JP5953484B2 (en) * 2011-03-30 2016-07-20 株式会社国際電気通信基礎技術研究所 Measuring device, measuring method and measuring program
JP6094279B2 (en) * 2013-03-14 2017-03-15 株式会社国際電気通信基礎技術研究所 TRACKING DEVICE, TRACKING PROGRAM, AND TRACKING METHOD

Also Published As

Publication number Publication date
JP2018173707A (en) 2018-11-08

Similar Documents

Publication Publication Date Title
CN108406731B (en) Positioning device, method and robot based on depth vision
JP6919882B2 (en) Person estimation system and estimation program
US10197399B2 (en) Method for localizing a robot in a localization plane
JP4871160B2 (en) Robot and control method thereof
US7684894B2 (en) Autonomously moving robot
JP5380789B2 (en) Information processing apparatus, information processing method, and computer program
US8824775B2 (en) Robot and control method thereof
JP7372708B2 (en) Wide viewing angle stereo camera device and depth image processing method using the same
EP2610783B1 (en) Object recognition method using an object descriptor
JP2017170568A (en) Service providing robot system
Glas et al. SNAPCAT-3D: Calibrating networks of 3D range sensors for pedestrian tracking
JP2014053018A (en) Information processing device, control method for information processing device, and program
JP6713637B2 (en) Service provision robot system
Poomarin et al. Automatic docking with obstacle avoidance of a differential wheel mobile robot
WO2021177471A1 (en) Detection device, tracking device, detection program, and tracking program
Jin et al. A wearable robotic device for assistive navigation and object manipulation
JP2017182564A (en) Positioning device, positioning method, and positioning computer program
KR20230016390A (en) Wide viewing angle stereo camera apparatus and depth image processing method using the same
Browning et al. Visual navigation in a cluttered world
WO2022129457A1 (en) Method and system for determining a three dimensional position
Du et al. Active view planing for human observation through a RGB-D camera
Karungaru et al. A Simple Interface for Mobile Robot Equipped with Single Camera using Motion Stereo Vision

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210330

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210527

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210715

R150 Certificate of patent or registration of utility model

Ref document number: 6919882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150