JP2009106325A - Communication induction system - Google Patents

Communication induction system Download PDF

Info

Publication number
JP2009106325A
JP2009106325A JP2007278479A JP2007278479A JP2009106325A JP 2009106325 A JP2009106325 A JP 2009106325A JP 2007278479 A JP2007278479 A JP 2007278479A JP 2007278479 A JP2007278479 A JP 2007278479A JP 2009106325 A JP2009106325 A JP 2009106325A
Authority
JP
Japan
Prior art keywords
user
utterance
state
communication
determination result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007278479A
Other languages
Japanese (ja)
Inventor
Tomoko Yonezawa
朋子 米澤
Hirotake Yamazoe
大丈 山添
Akira Uchiumi
章 内海
Shinji Abe
伸治 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2007278479A priority Critical patent/JP2009106325A/en
Publication of JP2009106325A publication Critical patent/JP2009106325A/en
Pending legal-status Critical Current

Links

Landscapes

  • Toys (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system for inducing communication with a user using an anthropomorphic medium, e.g. a stuffed toy. <P>SOLUTION: The communication induction system 10 includes a stuffed toy 14 disposed in front of the user 12. A visual line server 18 predicts the direction of a user's visual line from an image of the face of the user 12 shot by a camera 16. A built-in computer in the stuffed toy 14 predicts or identifies a communication state between them according to conditions of speaking and the user's visual line. The motion (speaking and/or movement) of the stuffed toy is controlled so as to promote the communication with the user according to the communication state. <P>COPYRIGHT: (C)2009,JPO&INPIT

Description

この発明はコミュニケーション誘発システムに関し、特に、たとえばロボットなどの擬人的媒体を認知症患者などの軽度脳障害を持つユーザが視認できる位置に配置し、その擬人的媒体によってユーザからのコミュニケーションを誘発する、新規なコミュニケーション誘発システムに関する。   The present invention relates to a communication inducing system, and in particular, for example, an anthropomorphic medium such as a robot is arranged at a position where a user with mild brain disorder such as a dementia patient can visually recognize, and communication from the user is induced by the anthropomorphic medium. It relates to a new communication induction system.

特許文献1などで、認知症患者などに右脳刺激を与えることによって、その機能回復が図れることが知られている。
特開2005−160806号公報[A63B 24/00 23/035]
It is known from Patent Document 1 that the functional recovery can be achieved by giving a right brain stimulus to a dementia patient or the like.
JP 2005-160806 A [A63B 24/00 23/035]

しかしながら、このような機能回復訓練を受けられるのは少なくとも他人とのコミュニケーションが図れることが条件である。そこで、このような患者ではまずコミュニケーション能力を回復させる必要がある。その場合、患者からコミュニケーションを引出す(誘発する)ように作用するシステムがあれば好都合である。   However, such functional recovery training is a condition that at least communication with other people is possible. Therefore, it is necessary to restore communication ability in such patients first. In that case, it would be advantageous to have a system that acts to elicit communication from the patient.

それゆえに、この発明の主たる目的は、新規な、コミュニケーション誘発システムを提供することである。   Therefore, the main object of the present invention is to provide a novel communication induction system.

この発明の他の目的は、ユーザからのコミュニケーションを積極的に引き出すことができる、コミュニケーション誘発システムを提供することである。   Another object of the present invention is to provide a communication inducing system capable of actively drawing out communication from a user.

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために後述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。   The present invention employs the following configuration in order to solve the above problems. Note that reference numerals in parentheses, supplementary explanations, and the like indicate correspondence with embodiments to be described later in order to help understanding of the present invention, and do not limit the present invention.

第1の発明は、ユーザが視認できる位置に配置した擬人的媒体によってユーザからのコミュニケーションを誘発するコミュニケーション誘発システムであって、ユーザの視線の状態を判定する視線判定手段、ユーザからの発話の状態を判定する発話判定手段、視線位置判定手段による視線状態判定結果および発話判定手段による発話状態判定結果を記憶する記憶手段、記憶手段に記憶した視線状態判定結果および発話状態判定結果に応じてユーザと擬人的媒体とのコミュニケーション状態を特定するコミュニケーション状態特定手段、およびコミュニケーション状態特定手段が特定したコミュニケーション状態に応じて擬人的媒体の音声および動作を制御する制御手段を備える、コミュニケーション誘発システムである。   1st invention is a communication induction system which induces communication from a user by an anthropomorphic medium arranged at a position where the user can visually recognize, a line-of-sight determination means for determining the state of the user's line of sight, and a state of speech from the user Utterance determination means for determining the gaze state, the gaze state determination result by the gaze position determination means, the storage means for storing the utterance state determination result by the utterance determination means, and the user according to the gaze state determination result and the utterance state determination result stored in the storage means A communication inducing system comprising: a communication state specifying unit that specifies a communication state with an anthropomorphic medium; and a control unit that controls voice and operation of the anthropomorphic medium according to the communication state specified by the communication state specifying unit.

第1の発明において、擬人的媒体(14:実施例で相当する部分を例示する参照符号。以下同様。)がユーザ(12)の前方の、ユーザの視線が届く位置に配置される。視線判定手段(16,18,32,S1b,S3,S21b)は、たとえば、カメラ(16)によって撮影したユーザの顔画像を視線サーバ(18)で処理することによって、ユーザの視線(12A)の方向または位置をリアルタイムに推定または検出し、そのときのユーザの視線の方向が擬人的媒体の位置に対してどのような位置関係にあるか判定する。たとえば、視線の方向は擬人的媒体の位置か、擬人的媒体の位置に隣接する位置か、擬人的媒体の位置とかなり離れているか、などを判定する。発話判定手段(32,S1a,S21a)はたとえばマイク(50)からの音声入力パワーを計算するなどして、ユーザの発話の有無やその状態などを判定する。コミュニケーション状態特定手段は、記憶手段(36C)に記憶した視線状態判定結果および発話状態判定結果に従って、たとえば、解釈テーブル(36A)を参照して、そのときのユーザと擬人的媒体との間のコミュニケーション状態、たとえばユーザが擬人的媒体を見ながら話しかけているのか、ユーザが擬人的媒体と同じ方向を見ながら発話しているのか、のようなコミュニケーション状態を推定または特定する。そして、制御手段(32,38,46,S11,S27)は、コミュニケーション状態特定手段が特定したコミュニケーション状態に応じて、たとえば反応テーブル
(36B)を参照して、擬人的媒体の動作(発話および/または動き)を制御する。
In the first invention, an anthropomorphic medium (14: reference numerals exemplifying corresponding portions in the embodiment; the same applies hereinafter) is disposed in front of the user (12) at a position where the user's line of sight can reach. The line-of-sight determination means (16, 18, 32, S1b, S3, S21b), for example, processes the user's face image captured by the camera (16) with the line-of-sight server (18), so that the user's line of sight (12A) The direction or position is estimated or detected in real time, and the positional relationship of the direction of the user's line of sight to the position of the anthropomorphic medium is determined. For example, it is determined whether the direction of the line of sight is the position of the anthropomorphic medium, the position adjacent to the position of the anthropomorphic medium, or the distance from the position of the anthropomorphic medium. The utterance determination means (32, S1a, S21a) determines the presence / absence of the user's utterance, its state, etc. by calculating the voice input power from the microphone (50), for example. The communication state specifying means refers to, for example, the interpretation table (36A) according to the gaze state determination result and the speech state determination result stored in the storage means (36C), and the communication between the user and the anthropomorphic medium at that time Estimate or identify the state of communication, such as whether the user is speaking while looking at the anthropomorphic medium or whether the user is speaking while looking at the same direction as the anthropomorphic medium. Then, the control means (32, 38, 46, S11, S27) refers to, for example, the reaction table (36B) according to the communication state specified by the communication state specifying means, and operates the anthropomorphic medium (utterance and / or Or control).

第1の発明によれば、ユーザの視線状態および発話状態の両方の判定結果に応じて擬人的媒体を制御することができるので、そのときのユーザと擬人的媒体との間のコミュニケーション状態に応じて最適のコミュニケーション誘発動作を行なわせることができる。   According to the first aspect, since the anthropomorphic medium can be controlled according to the determination results of both the user's line-of-sight state and speech state, the communication state between the user and the anthropomorphic medium at that time can be controlled. And optimal communication triggering action can be performed.

第2の発明は、発話状態判定手段はユーザの発話があったとの視線状態に応じてユーザの発話対象が何かを推定する発話対象推定手段を含み、コミュニケーション状態特定手段は、発話対象推定手段の判定結果および視線状態判定結果に基づいて複数のコミュニケーション状態の1つを特定する、請求項1記載のコミュニケーション誘発システムである。   According to a second aspect of the present invention, the utterance state determination means includes utterance target estimation means for estimating what the user's utterance target is based on the line of sight state that the user uttered, and the communication state identification means includes the utterance target estimation means The communication induction system according to claim 1, wherein one of a plurality of communication states is specified based on the determination result and the gaze state determination result.

第2の発明では、ユーザが擬人的媒体(ぬいぐるみ)に対して発話したのかあるいは他の対象に向けて発話したのかなどの状況に応じてきめ細かく対応することができる。たとえば、ユーザが擬人的媒体を見ていないで発話したら「擬人的媒体以外への発話の可能性あり」としてその発話に対する反応(リアクション)を保留したり、ユーザが擬人的媒体を見ている状態で発話したら「自分への発話である」としてその発話に対して音声および動作で反応(リアクション)したりすることができる。   In the second aspect of the invention, it is possible to respond finely according to the situation such as whether the user has spoken to an anthropomorphic medium (stuffed animal) or to another subject. For example, if the user utters without looking at the anthropomorphic medium, the reaction to the utterance (reaction) is suspended as “possibility of utterance other than the anthropomorphic medium”, or the user is looking at the anthropomorphic medium If the user speaks, the user can react (react) to the utterance with voice and action as “the utterance is to myself”.

第3の発明は、視線判定手段はユーザの視線の状態を繰り返し判定し、発話判定手段はユーザからの発話の状態を繰り返し判定し、発話対象推定手段は、少なくとも記憶手段に記憶した前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果とに応じてユーザの発話が擬人的媒体に向けられたものかどうか推定する、請求項2記載のコミュニケーション誘発システムである。   In the third invention, the line-of-sight determination means repeatedly determines the state of the user's line of sight, the utterance determination means repeatedly determines the state of the utterance from the user, and the utterance target estimation means has at least the previous line of sight stored in the storage means. The communication induction system according to claim 2, wherein the communication inducing system estimates whether the user's utterance is directed to an anthropomorphic medium according to the state determination result and the utterance state determination result and the current gaze state determination result and the utterance state determination result. is there.

第3の発明では、発話対象推定において、たとえば発話対象テーブル(36D)を参照するなどして、前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果に基づいて、ユーザが擬人的媒体(ぬいぐるみ)に対して発話したのかあるいは他の対象に向けて発話したのかなどの状況を推定する。したがって、発話対象の推定が確実に行なえる。   In the third invention, in the utterance target estimation, for example, referring to the utterance target table (36D), based on the previous gaze state determination result, the utterance state determination result, the current gaze state determination result, and the utterance state determination result. Thus, it is estimated whether the user has spoken to an anthropomorphic medium (stuffed toy) or to another object. Therefore, the utterance target can be reliably estimated.

第4の発明は、発話対象推定手段は、さらに前回と今回との時間間隔の長短を考慮して発話対を推定する、請求項3記載のコミュニケーション誘発システムである。   The fourth invention is the communication induction system according to claim 3, wherein the utterance target estimation means further estimates the utterance pair in consideration of the length of the time interval between the previous time and the current time.

第4の発明では、発話対象推定において、前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果に加えて、前回と今回との時間間隔の長短に基づいて、ユーザが擬人的媒体(ぬいぐるみ)に対して発話したのかあるいは他の対象に向けて発話したのかなどの状況を推定する。したがって、発話対象の推定がさらに正確に行なえる。   In the fourth invention, in the utterance target estimation, in addition to the previous gaze state determination result, the utterance state determination result, the current gaze state determination result, and the utterance state determination result, based on the length of the time interval between the previous time and the current time Then, it is estimated whether the user has spoken to an anthropomorphic medium (stuffed animal) or to another object. Therefore, the utterance target can be estimated more accurately.

第5の発明は、視線判定手段はユーザの視線の状態を繰り返し判定し、発話判定手段はユーザからの発話の状態を繰り返し判定し、コミュニケーション特定手段は、記憶手段に記憶した前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果とに応じてユーザと擬人的媒体とのコミュニケーション状態を特定する、請求項1記載のコミュニケーション誘発システムである。   In the fifth invention, the line-of-sight determination means repeatedly determines the state of the user's line of sight, the utterance determination means repeatedly determines the state of the utterance from the user, and the communication identification means determines the previous line-of-sight state stored in the storage means. The communication induction system according to claim 1, wherein the communication state between the user and the anthropomorphic medium is specified according to the result and the speech state determination result and the current gaze state determination result and the speech state determination result.

第5の発明では、記憶手段に記憶した前回判定結果と今回判定結果とを用いるので、さらにコミュニケーション状態の時間的変化を検出することができ、さらにきめ細かい対応が可能となる。   In the fifth invention, since the previous determination result and the current determination result stored in the storage means are used, a temporal change in the communication state can be further detected, and a finer response can be made.

この発明によれば、ユーザの視線状態および発話状態に応じて最適のコミュニケーション誘発動作を擬人的媒体に行なわせることができるので、ユーザからのコミュニケーションを積極的に引出すことができる。   According to the present invention, since the optimal communication inducing action can be performed on the anthropomorphic medium according to the user's line-of-sight state and speech state, communication from the user can be actively drawn out.

この発明の上述の目的,その他の目的,特徴,および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。   The above object, other objects, features, and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.

図1に示すこの発明の一実施例のコミュニケーション誘発システム10は、たとえば認知症患者のような軽度脳障害を持つ被験者またはユーザ12からのコミュニケーションを積極的に引き出すように、このユーザ12に働きかける少なくとも1つのぬいぐるみ14を含む。このぬいぐるみ14が擬人的媒体である。擬人的媒体とは、人間のように発話できたり、あるいは人間のような動作ができたりする媒体のことであり、典型的にはぬいぐるみや、ヒューマノイドやコミュニケーションロボットなども、この擬人的媒体として十分機能できる。ただし、2体以上のぬいぐるみを用いるようにしてもよい。   The communication inducing system 10 of one embodiment of the present invention shown in FIG. 1 at least works on this user 12 to actively elicit communication from a subject with mild brain damage, such as a patient with dementia, or the user 12. One stuffed toy 14 is included. This stuffed toy 14 is an anthropomorphic medium. An anthropomorphic medium is a medium that can speak like a human or can operate like a human. Typically, stuffed animals, humanoids, communication robots, etc. are also sufficient as this anthropomorphic medium. Can function. However, two or more stuffed animals may be used.

この実施例のシステム10では、ユーザ12の主として顔を撮影するカメラ16を用いて、ユーザ12の視線の方向や位置をリアルタイムで検出するとともに、ユーザ12の発話の有無などを検出することによって、その視線の方向や位置(視線の状態)および発話の有無など(発話の状態)に応じてぬいぐるみ14の発話や動作を制御することによって、ユーザ12からのぬいぐるみ14に対するコミュニケーションを誘発する。   In the system 10 of this embodiment, the camera 16 that mainly captures the face of the user 12 is used to detect the direction and position of the line of sight of the user 12 in real time, and by detecting the presence or absence of the utterance of the user 12, etc. Communication with the stuffed animal 14 from the user 12 is induced by controlling the utterance and operation of the stuffed animal 14 in accordance with the direction and position of the line of sight (the state of the line of sight) and the presence or absence of the utterance (state of utterance).

ユーザ12の視線方向または位置は、後に詳しく説明するように、視線サーバ18がカメラ16からの顔画像データまたは信号を処理することによって、リアルタイムで検出または判定する。   The line-of-sight direction or position of the user 12 is detected or determined in real time as the line-of-sight server 18 processes face image data or signals from the camera 16 as will be described in detail later.

図2は図1実施例を俯瞰した状態を図解する図解図であり、図3はそれを側面から見た図解図である。これらの図からわかるように、患者または被験者ないしユーザ12は部屋のような空間10Aの一方に椅子に腰掛けて存在していて、その前方の、この空間10A内の他方に、ぬいぐるみ14が配置されている。   FIG. 2 is an illustrative view illustrating a state in which the embodiment of FIG. 1 is looked down on, and FIG. 3 is an illustrative view showing the state from the side. As can be seen from these figures, the patient or subject or user 12 sits on a chair in one of the spaces 10A such as a room, and the stuffed toy 14 is disposed in the other of the spaces 10A in front of the patient. ing.

そして、カメラ16は空間10Aの一隅からユーザ12の顔前面を撮影できるように設置されている。   The camera 16 is installed so that the front face of the user 12 can be photographed from one corner of the space 10A.

ユーザ12の視線12Aが、カメラ16の光軸に平行な垂直線vlineに対してずれている角度が旋回角αであり、視線12Aがカメラ16の光軸に平行な水平線hlineに対してずれている角度が俯仰角βとして図1の視線サーバ18によってリアルタイムに計算される。そして、各ぬいぐるみ14が、その検出角度αおよびβからその視線12Aの方向または位置を特定し、その視線12Aの方向または位置、およびユーザ12の発話の状態に応じて、異なる動作および/または発話をすることによって、ユーザ12からコミュニケーションを誘発しようとするのである。   The angle at which the line of sight 12A of the user 12 is deviated from the vertical line vline parallel to the optical axis of the camera 16 is the turning angle α, and the line of sight 12A is deviated from the horizontal line hline parallel to the optical axis of the camera 16. Is calculated in real time by the line-of-sight server 18 of FIG. 1 as the elevation angle β. Each stuffed toy 14 identifies the direction or position of the line of sight 12A from the detected angles α and β, and different operations and / or utterances depending on the direction or position of the line of sight 12A and the state of the utterance of the user 12. By trying, the user 12 tries to induce communication.

図4にはぬいぐるみ14が図示される。このぬいぐるみ14は、頭部20とそれを支える胴体22とを含む。胴体22の上部に左右の左腕24Lおよび右腕24Rが設けられ、頭部20には、前面に口26が配置され、その口26の上方には眼球28が設けられる。頭部20の上部側面は耳30が取り付けられている。   FIG. 4 shows the stuffed animal 14. The stuffed toy 14 includes a head 20 and a body 22 that supports the head 20. Left and right left arms 24 </ b> L and right arms 24 </ b> R are provided on the upper portion of the body 22, a mouth 26 is disposed on the front surface of the head 20, and an eyeball 28 is provided above the mouth 26. An ear 30 is attached to the upper side surface of the head 20.

胴部20は胴体22によって、旋回・俯仰可能に支持され、また、眼球28も可動的に保持されている。口26にはスピーカ48(図5)が内蔵されていて、耳30にはマイク50(図5)が内蔵されている。なお、マイク50を両方の耳30にそれぞれ内蔵すれば、ステレオマイクとして機能し、それによって、そのステレオマイクに入力された音声の位置を必要に応じて特定することができる。   The torso 20 is supported by the torso 22 so as to be able to turn and rise, and the eyeball 28 is also held movably. The mouth 26 has a built-in speaker 48 (FIG. 5), and the ear 30 has a built-in microphone 50 (FIG. 5). If the microphones 50 are incorporated in both ears 30, respectively, the microphones 50 function as stereo microphones, whereby the position of the sound input to the stereo microphones can be specified as necessary.

図5はこのぬいぐるみ14の電気的構成を示すブロック図であり、この図5に示すように、実施例のぬいぐるみ14にはコンピュータ32が内蔵されていて、このコンピュータ32が、通信路の一例であるバス34を通して、図1に示す視線サーバ18に結合される。したがって、コンピュータ32は、視線サーバ18が特定または検出したユーザ12の視線方向や位置を示すデータをこのバス34を通して刻々受け取ることができる。ただし、通信路はバス34であっても、その他の形式の通信路であっても、さらには無線であっても、有線であってもよい。   FIG. 5 is a block diagram showing the electrical configuration of the stuffed toy 14. As shown in FIG. 5, the stuffed toy 14 according to the embodiment includes a computer 32, and the computer 32 is an example of a communication path. It is coupled to the line-of-sight server 18 shown in FIG. Therefore, the computer 32 can receive data indicating the line-of-sight direction and position of the user 12 identified or detected by the line-of-sight server 18 through the bus 34 every moment. However, the communication path may be the bus 34, another type of communication path, wireless, or wired.

コンピュータ32には、バス34を介してメモリ36が結合される。このメモリ36には図示しないROMやRAMが組み込まれていて、ROMには主として、後述のフローチャート(図20,図23)で表現されるプログラムが予め記憶されているとともに、コミュニケーション状態を特定しまたは解釈するための、図21や図24に示すような解釈テーブル36Aや、ユーザの発話の状態や視線の状態に対するぬいぐるみ14の動作と発話(音声)とを対応的に設定している、図23および図25‐26に示すような反応テーブル36Bが予め設定されている。この反応テーブル36Bは、ぬいぐるみ14の動作と発話とを対応させて設定したものである。RAMは、たとえばユーザ12の発話の有無および発話対象などの発話状態の判定結果やおよびユーザ12の視線がぬいぐるみ14に向けられているかどうかなどの視線状態判定結果を、逐次、記憶するための判定結果記憶部36Cや、ユーザ12の発話状態に応じて1または0が設定される発話中フラグ(図示せず)などのための一時記憶メモリとして、さらにはワーキングメモリとして利用され得る。ROMにはさらに、図27および図28に示す発話対象テーブル36Dも予め格納されている。この発話対象推定テーブル36Dは、ユーザ12がした発話が誰を対象としているのか、つまりその発話がぬいぐるみ14に向けられたものであるかどうかを判定または推定するために利用される。   A memory 36 is coupled to the computer 32 via a bus 34. A ROM or RAM (not shown) is incorporated in the memory 36. The ROM mainly stores a program expressed in the flowcharts (FIGS. 20 and 23) described later, and specifies a communication state or The interpretation table 36A as shown in FIG. 21 and FIG. 24 for interpretation, and the operation of the stuffed toy 14 and the speech (speech) corresponding to the state of the user's speech and the state of the line of sight are set correspondingly. A reaction table 36B as shown in FIGS. 25-26 is set in advance. The reaction table 36B is set by associating the operation of the stuffed toy 14 with the speech. The RAM, for example, a determination for sequentially storing the determination result of the utterance state such as the presence / absence of the utterance of the user 12 and the utterance target and the gaze state determination result such as whether or not the sight line of the user 12 is directed toward the stuffed animal 14. It can be used as a temporary storage memory for the result storage unit 36C, an utterance flag (not shown) in which 1 or 0 is set according to the utterance state of the user 12, and a working memory. The ROM further stores an utterance target table 36D shown in FIGS. 27 and 28 in advance. This utterance target estimation table 36 </ b> D is used to determine or estimate who the utterance made by the user 12 is targeted, that is, whether the utterance is directed to the stuffed animal 14.

モータ制御ボード38は、たとえばDSP(Digital Signal Processor)で構成され、図4に示すぬいぐるみ14の各腕や頭部の各軸モータを制御する。すなわち、モータ制御ボード38は、コンピュータ32からの制御データを受け、右腕24R(図4)を前後や左右に動かすことができるように、X,YおよびZ軸のそれぞれの角度を制御する3つのモータ(図5ではまとめて、「右腕モータ」として示す。)40Rの回転角度を調節する。また、モータ制御ボード38は、左腕24Lの3つのモータ(図5ではまとめて、「左腕モータ」として示す。)40Lの回転角度を調節する。モータ制御ボード38は、また、頭部20の旋回角や俯仰角を制御する3のモータ(図5ではまとめて、「頭部モータ」として示す。)42の回転角度を調節する。モータ制御ボード38は、また、眼球28を動かす眼球モータ44も制御する。   The motor control board 38 is composed of, for example, a DSP (Digital Signal Processor), and controls each axis motor of each arm and head of the stuffed toy 14 shown in FIG. That is, the motor control board 38 receives the control data from the computer 32 and controls the three angles for controlling the X, Y and Z axes so that the right arm 24R (FIG. 4) can be moved back and forth and left and right. The rotation angle of the motor 40R (collectively shown as “right arm motor” in FIG. 5) 40R is adjusted. Further, the motor control board 38 adjusts the rotation angle of three motors 40L of the left arm 24L (collectively shown as “left arm motor” in FIG. 5) 40L. The motor control board 38 also adjusts the rotation angle of three motors 42 (collectively shown as “head motors” in FIG. 5) that control the turning angle and the elevation angle of the head 20. The motor control board 38 also controls an eyeball motor 44 that moves the eyeball 28.

なお、上述のモータは、制御を簡単化するためにそれぞれステッピングモータまたはパルスモータであるが、直流モータであってよい。   The motors described above are stepping motors or pulse motors for simplifying the control, but may be direct current motors.

スピーカ48には音声入力/出力ボード46を介して、コンピュータ32から、合成音声データが与えられ、それに応じて、スピーカ48からはそのデータに従った音声または声が出力される。そして、マイク50からの音声入力が、音声入力/出力ボード46を介して、コンピュータ32に取り込まれる。   The speaker 48 is provided with the synthesized voice data from the computer 32 via the voice input / output board 46, and accordingly, the speaker 48 outputs voice or voice according to the data. Then, the voice input from the microphone 50 is taken into the computer 32 via the voice input / output board 46.

センサ入力/出力ボード52も、同様に、DSPで構成され、各センサやカメラからの信号を取り込んでコンピュータ32に与えるが、実施例ではあまり関係がないので、ここでは、そのセンサなどの詳細な説明は省略する。   Similarly, the sensor input / output board 52 is also configured by a DSP, and takes in signals from each sensor and camera and gives them to the computer 32. However, since there is not much relation in the embodiment, the details of the sensors and the like will be described here. Description is omitted.

なお、図1に示す実施例において、ユーザ12の前方すなわちぬいぐるみ14の周囲は図6に示すように区画されている。ユーザ12の視線がぬいぐるみ14に向けられているのか、ぬいぐるみ14とユーザ12とが共同注視できる範囲内ではあるがぬいぐるみ以外の対象、たとえば別の擬人的媒体や人などに向けられているのか、共同注視できる範囲の外つまり範囲外に向けられているのか、などに応じて、ぬいぐるみ14がユーザ12に対して行なう発話や動作を決めるためである。   In the embodiment shown in FIG. 1, the front of the user 12, that is, the periphery of the stuffed toy 14, is partitioned as shown in FIG. Whether the line of sight of the user 12 is directed to the stuffed toy 14 or whether the stuffed toy 14 and the user 12 are within a range where the stuffed toy 14 and the user 12 can jointly watch, but are directed to an object other than the stuffed toy, such as another anthropomorphic medium or person, This is because the stuffed toy 14 determines the utterances and actions that the stuffed toy 14 performs on the user 12 depending on whether it is outside the range where the joint gaze is possible, that is, outside the range.

ただし、このような区画はもっと細かく規定されて、その細かい区画ごとにぬいぐるみ14がユーザ12に対して行なう発話や動作を決めるようにしてもよい。   However, such sections may be defined more finely, and the utterances and actions performed by the stuffed toy 14 with respect to the user 12 may be determined for each fine section.

また、この実施例では、ぬいぐるみ14が自律的に自己の動作や発話を制御する図5のような制御回路を持つものとして説明するが、ぬいぐるみ14を制御するための1台またはそれ以上のコンピュータをぬいぐるみ14とは別に設けるようにしてもよい。   In this embodiment, the stuffed animal 14 is described as having a control circuit as shown in FIG. 5 that autonomously controls its own operation and speech, but one or more computers for controlling the stuffed animal 14 are also described. May be provided separately from the stuffed toy 14.

このような実施例において、まず、ユーザ12の視線を推定する方法について説明する。この実施例では、以下に説明するように、ユーザ12の視線方向を推定または検出するために1つのカメラ(単眼カメラ)を用いるユニークな方法を採用している。しかしながら、ユーザ12の視線12A(図2,図3)を検出する方法としては、2以上のカメラを利用する従来からの一般的な方法が採用されてもよいことは、勿論である。つまり、この発明では、ユーザ12の視線を推定したり検出したりする必要はあるが、その具体的な方法は重要な意味を持たず、どのような公知の方法が用いられてもよい。   In such an embodiment, first, a method for estimating the line of sight of the user 12 will be described. In this embodiment, as will be described below, a unique method using one camera (monocular camera) is used to estimate or detect the direction of the line of sight of the user 12. However, as a method for detecting the line of sight 12A (FIGS. 2 and 3) of the user 12, it is needless to say that a conventional general method using two or more cameras may be employed. That is, in the present invention, it is necessary to estimate and detect the line of sight of the user 12, but the specific method has no significant meaning, and any known method may be used.

図1に示すように、ユーザ12の前方に、たとえばCCD(Charge Coupled Device)
またはCMOS(Complementary Metal-Oxide Semiconductor)センサのような固体撮像
素子を含むカメラ16が設置され、このカメラ16からの顔画像信号が視線サーバ18に取り込まれ、視線サーバ18が画像処理することによって、視線12Aの角度αおよびβを推定する。
As shown in FIG. 1, in front of the user 12, for example, a CCD (Charge Coupled Device)
Alternatively, a camera 16 including a solid-state imaging device such as a CMOS (Complementary Metal-Oxide Semiconductor) sensor is installed, a face image signal from the camera 16 is taken into the line-of-sight server 18, and the line-of-sight server 18 performs image processing. The angles α and β of the line of sight 12A are estimated.

図7に示すように、カメラ16により撮影された画像は、視線サーバ18に附属して設けたディスプレイ54(図1では図示せず)の撮影画像表示領域56にリアルタイムに動画として表示される。特に限定されないが、たとえば、撮影画像表示領域56上に、視線方向を示す指標として、眉間から視線方向に延びる線分を表示してもよい。   As shown in FIG. 7, an image captured by the camera 16 is displayed as a moving image in real time on a captured image display area 56 of a display 54 (not shown in FIG. 1) provided attached to the line-of-sight server 18. Although not particularly limited, for example, a line segment extending in the line of sight from the eyebrows may be displayed on the captured image display area 56 as an index indicating the line of sight.

視線サーバ18は、一般的なコンピュータであり、特に変わったハードウェア構成ではないので、ハードウェア自体は説明しないが、視線方向や視線位置の推定は、以下に説明するソフトウェアにより実現される。   The line-of-sight server 18 is a general computer and does not have a particularly unusual hardware configuration, so the hardware itself will not be described, but estimation of the line-of-sight direction and line-of-sight position is realized by software described below.

視線サーバ18では、特徴点の追跡処理の安定性を確保するため、同一特徴点に関して異なるフレームにおける複数の観測テクスチャを保持している。初期校正過程では、これらの特徴点と虹彩中心の関係から顔特徴点と眼球中心の相対関係を求める。視線推定過程では、校正過程で得られた関係を元に現フレームで得られている特徴点群から眼球中心位置を推定し、その位置と虹彩中心位置から視線方向を決定する。   The line-of-sight server 18 holds a plurality of observed textures in different frames for the same feature point in order to ensure the stability of the feature point tracking process. In the initial calibration process, the relative relationship between the face feature point and the eyeball center is obtained from the relationship between these feature points and the iris center. In the gaze estimation process, the eyeball center position is estimated from the feature point group obtained in the current frame based on the relationship obtained in the calibration process, and the gaze direction is determined from the position and the iris center position.

視線方向の推定処理の動作の前提として、まず、たとえば6分割矩形フィルタを利用して、顔検出処理が実行される。   As a premise of the operation of the gaze direction estimation process, first, for example, a face detection process is executed using a six-divided rectangular filter.

視線サーバ18では、特に限定されないが、たとえば、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルタで画面を走査する。矩形は、たとえば、3×2に6分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。   The line-of-sight server 18 is not particularly limited. For example, when processing a video image obtained by continuously capturing a face, the screen is scanned with a rectangular filter having a horizontal width of the face and a vertical size of about a half thereof. The rectangle is divided into, for example, 3 × 2, and the average brightness of each divided region is calculated, and when the relative brightness relationship is satisfied, the center of the rectangle is set as a candidate for the eyebrows.

連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターンと比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。以下、さらに詳しく説明する。   When consecutive pixels become the eyebrow candidate, only the center candidate of the frame surrounding it is left as the eyebrow candidate. By performing template matching or the like by comparing the remaining eyebrow candidates with the standard pattern, the false eyebrow candidates are discarded from the eyebrow candidates obtained by the above-described procedure, and the true eyebrow space is extracted. This will be described in more detail below.

図8は、眉間候補領域を検出するためのフィルタを説明するための概念図であり、図8(a)は、上述した3×2に6分割された矩形フィルタ(以下、「6分割矩形フィルタ」
と呼ぶ)を示す。
FIG. 8 is a conceptual diagram for explaining a filter for detecting an eyebrow candidate region. FIG. 8A shows the above described 3 × 2 rectangular filter (hereinafter referred to as “6-divided rectangular filter”). "
Called).

6分割矩形フィルタは、(1) 鼻筋は両目領域よりも明るい、(2) 目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。たとえば、1点(x、y)を中心として、横i画素、縦j画素(i,j:自然数)の矩形の枠を設ける。そして、図8(a)のように、この矩形の枠を、横に3等分、縦に2等分して、6個のブロックS1〜S6に分割する。   The six-divided rectangular filter is a filter that extracts facial features such as (1) nose muscles are brighter than both eye regions and (2) eye regions are darker than the cheeks, and obtains the position between the eyebrows. For example, a rectangular frame of horizontal i pixels and vertical j pixels (i, j: natural number) is provided centering on one point (x, y). Then, as shown in FIG. 8A, this rectangular frame is divided into three equal parts horizontally and two equal parts vertically, and is divided into six blocks S1 to S6.

このような6分割矩形フィルタを顔画像の両目領域および頬部に当てはめてみると、図8(b)のようになる。   When such a 6-divided rectangular filter is applied to both eye regions and cheeks of a face image, the result is as shown in FIG.

ただし、図8の6分割フィルタは書く矩形領域が等分されたものであったが、このフィルタは図9に示すように変形されてもよい。   However, although the 6-divided filter in FIG. 8 is an equally divided rectangular area to be written, this filter may be modified as shown in FIG.

鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックS2およびS5の横幅w2は、ブロックS1,S3,S4およびS6の横幅w1よりも狭い方がより望ましい。好ましくは、幅w2は幅w1の半分とすることができる。図9は、このような場合の6分割矩形フィルタの構成を示す。また、ブロックS1、S2およびS3の縦幅h1と、ブロックS4、S5およびS6の縦幅h2とは、必ずしも同一である必要もない。   Considering that the nose muscle portion is usually narrower than the eye region, it is more desirable that the width w2 of the blocks S2 and S5 is narrower than the width w1 of the blocks S1, S3, S4 and S6. Preferably, the width w2 can be half of the width w1. FIG. 9 shows the configuration of a six-divided rectangular filter in such a case. Further, the vertical width h1 of the blocks S1, S2 and S3 and the vertical width h2 of the blocks S4, S5 and S6 are not necessarily the same.

図9に示す6分割矩形フィルタにおいて、それぞれのブロックSi(1≦i≦6)について、画素の輝度の平均値「バーSi」(Siに上付きの“−”をつける)を求める。   In the six-divided rectangular filter shown in FIG. 9, the average value “bar Si” (with a superscript “−”) of the pixel luminance is obtained for each block Si (1 ≦ i ≦ 6).

ブロックS1に1つの目と眉が存在し、ブロックS3に他の目と眉が存在するものとすると、以下の関係式(1)および(2)が成り立つ。   Assuming that one eye and eyebrows exist in the block S1 and another eye and eyebrows exist in the block S3, the following relational expressions (1) and (2) hold.

そこで、これらの関係を満たす点を眉間候補(顔候補)として抽出する。   Therefore, a point satisfying these relationships is extracted as an eyebrow candidate (face candidate).

矩形枠内の画素の総和を求める処理には、公知の文献(P. Viola and M. Jones, “ Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE
Conf. CVPR, 1, pp.511-518, 2001)において開示されている、インテグラルイメージ(Integral Image)を利用した計算の高速化手法を取り入れることができる。インテグラルイメージを利用することでフィルタの大きさに依らず高速に実行することができる。多重解像度画像に本手法を適用することにより、画像上の顔の大きさが変化した場合にも顔候補の抽出が可能となる。
For the process of calculating the sum of pixels in a rectangular frame, a known document (P. Viola and M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE
Conf. CVPR, 1, pp.511-518, 2001), it is possible to incorporate a high-speed calculation method using an integral image. By using an integral image, it can be executed at high speed regardless of the size of the filter. By applying this method to a multi-resolution image, face candidates can be extracted even when the size of the face on the image changes.

このようにして得られた眉間候補(顔候補)に対しては、両目の標準パターンとのテンプレートマッチングにより、真の眉間位置(真の顔領域)を特定することができる。   For the eyebrow candidate (face candidate) obtained in this way, the true eyebrow position (true face region) can be specified by template matching with the standard pattern of both eyes.

なお、得られた顔候補に対して、サポートベクトルマシン(SVM)による顔モデルに
よる検証処理を適用し顔領域を決定することもできる。髪型の違いや髭の有無、表情変化による認識率の低下を避けるため、たとえば、図10に示すように、眉間を中心とした画像領域を利用してSVMによるモデル化を行うことができる。なお、このようなSVMによる真の顔領域の決定については、文献:S. Kawato, N. Tetsutaniand K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE Trans.on Info. and Sys., E88−D, 12, pp.2857−2863(2005)に開示されている。6分割矩形フィルタによる高速候補抽出とSVMによる処理とを組み合わせることで実時間の顔検出が可能である。
Note that a face area can be determined by applying verification processing using a face model by a support vector machine (SVM) to the obtained face candidates. In order to avoid a reduction in recognition rate due to differences in hairstyles, presence or absence of wrinkles, and changes in facial expressions, for example, as shown in FIG. 10, modeling by SVM can be performed using an image region centered between the eyebrows. For the determination of the true face area by SVM, see: S. Kawato, N. Tetsutaniand K. Hosaka: “Scale-adaptive face detection and tracking in real time with ssr fi1ters and support vector machine”, IEICE. Trans. on Info. and Sys., E88-D, 12, pp. 2857-2863 (2005). Real-time face detection is possible by combining high-speed candidate extraction with a six-divided rectangular filter and processing by SVM.

続いて、目、鼻や虹彩中心の位置を、公知の文献、たとえば『川戸、内海、安部:「4つの参照点と3枚のキャリブレーション画像に基づく単眼カメラからの視線推定」画像の認識・理解シンポジウム(MIRU2005),pp.1337−1342(2005)』あるいは、『川戸慎二郎、鉄谷信二:鼻位置の検出とリアルタイム追跡:信学技報IE2002−263、pp.25−29(2003)』などの手法を用いて抽出する。   Subsequently, the position of the eyes, nose, and iris center is recognized by a known document, for example, “Kawado, Utsumi, Abe:“ Gaze estimation from a monocular camera based on four reference points and three calibration images ”. Understanding Symposium (MIRU2005), pp. 1337-1342 (2005) ”or“ Shinjiro Kawato, Shinji Tetsuya: Detection of nose position and real-time tracking: IEICE Technical Report IE2002-263, pp. 25-29 (2003) ”.

両目の位置については、前節の顔領域検出で眉間のパターンを探索しているため、眉間の両側の暗い領域を再探索することにより、大まかな両目の位置を推定することができる。しかし、視線方向の推定のためには、虹彩中心をより正確に抽出する必要がある。ここでは、上で求まった目の周辺領域に対して、ラプラシアンにより虹彩のエッジ候補を抽出し、円のハフ変換を適用することにより、虹彩および虹彩の中心の投影位置を検出する。   As for the positions of both eyes, since the pattern of the eyebrows is searched for by detecting the face area in the previous section, the positions of the eyes can be roughly estimated by searching again for the dark areas on both sides of the eyebrows. However, it is necessary to extract the iris center more accurately in order to estimate the gaze direction. Here, for the peripheral region of the eye obtained above, iris edge candidates are extracted by Laplacian, and the Hough transform of the circle is applied to detect the projection position of the iris and the center of the iris.

鼻の位置は、鼻先が凸曲面であるため周囲に対し明るい点として観測されやすいことと、両目の位置から鼻の存在範囲が限定できることを利用して抽出する。また、両目、鼻の位置を用いて、大体の顔の向きも推定できる。   The nose position is extracted by utilizing the fact that the nose tip is a convex curved surface, so that it can be easily observed as a bright spot with respect to the surroundings, and the nose presence range can be limited from the positions of both eyes. In addition, the orientation of the approximate face can be estimated using the positions of both eyes and nose.

図11は顔検出結果の例を示す図である。検出された顔において、虹彩中心や鼻先や口なども検出されている。たとえば、特徴点としては、鼻先や、左右の目の目尻や目頭、口の両端、鼻腔中心などを用いることができる。   FIG. 11 is a diagram illustrating an example of a face detection result. In the detected face, the iris center, nose tip and mouth are also detected. For example, nose tips, left and right eye corners and eyes, both ends of the mouth, and the center of the nasal cavity can be used as the feature points.

視線の推定においては、視線方向は眼球中心と虹彩中心を結ぶ3次元直線として与えられるものとする。   In the gaze estimation, the gaze direction is given as a three-dimensional straight line connecting the eyeball center and the iris center.

図12は視線方向を決定するためのモデルを説明する概念図である。画像上での眼球半径をr、画像上での眼球中心と虹彩中心との距離をdとすると、視線方向とカメラ光軸と
のなす角θは次式(3)で表される。
FIG. 12 is a conceptual diagram illustrating a model for determining the line-of-sight direction. If the eyeball radius on the image is r and the distance between the center of the eyeball and the iris center on the image is d, the angle θ formed by the line-of-sight direction and the camera optical axis is expressed by the following equation (3).

式(3)により、視線方向を推定するためには、画像上での眼球半径と眼球中心・虹彩中心の投影位置が必要となる。ここで、虹彩中心の投影位置については、上述したとおり、ハフ変換を用いた手法により求めることができる。画像上での眼球直径rは、解剖学的なモデル(標準的な人の眼球直径)を用いてもよいし、別途キャリブレーションにより求めてもよい。   In order to estimate the line-of-sight direction using Equation (3), the eyeball radius on the image and the projection positions of the eyeball center and iris center are required. Here, as described above, the projection position of the iris center can be obtained by the method using the Hough transform. The eyeball diameter r on the image may be an anatomical model (standard human eyeball diameter) or may be obtained by calibration separately.

図13は、図12に示した状態からユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。   FIG. 13 is a conceptual diagram illustrating the relationship between the iris center, the eyeball center, and the projection point after the user transitions from the state illustrated in FIG. 12 to a state in which the user gazes at the camera.

眼球中心の投影位置については、一般には、画像から直接観測することはできない。しかし、ユーザ12がカメラ16を注視した場合について考えると、図13に示すとおり、カメラ、虹彩中心、眼球中心の3点が1直線上に並ぶため、画像では虹彩中心と眼球中心は同一点に投影されることがわかる。   In general, the projection position at the center of the eyeball cannot be observed directly from the image. However, considering the case where the user 12 gazes at the camera 16, as shown in FIG. 13, the three points of the camera, the iris center, and the eyeball center are aligned on a straight line. You can see that it is projected.

そこで、この実施例での視線推定では、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影し、これらの画像列から虹彩位置と顔特徴点を抽出、追跡することにより、眼球中心と顔特徴点間の相対幾何関係を推定する。   Therefore, in the gaze estimation in this embodiment, the user captures an image frame sequence in which the posture of the face is changed while gazing at the camera, and extracts and tracks the iris position and the facial feature point from these image sequences. Thus, the relative geometric relationship between the eyeball center and the face feature point is estimated.

後により詳しく説明するように、この実施例の視線方向の推定では、眼球中心と顔特徴点間の相対関係の推定処理と眼球中心の投影位置推定とを行なう。   As will be described in detail later, in the estimation of the line-of-sight direction in this embodiment, the estimation process of the relative relationship between the eyeball center and the face feature point and the projection position estimation of the eyeball center are performed.

視線方向の推定のための初期設定として、視線サーバ18は、図14に示すフローチャートで表現されるキャリブレーションを実行する。   As an initial setting for estimating the line-of-sight direction, the line-of-sight server 18 executes calibration represented by the flowchart shown in FIG.

まず、キャリブレーション用の画像列として、ユーザがカメラを注視しながら、顔の姿勢を変化させている画像フレーム列を撮影する(ステップS102)。図15は、このようにしてキャリブレーションにおいて撮影された4枚の画像フレームを示す。   First, as an image sequence for calibration, the user captures an image frame sequence in which the posture of the face is changed while gazing at the camera (step S102). FIG. 15 shows four image frames taken in the calibration in this way.

ここでは、より一般に、N(N≧2)枚の画像列が得られたとする。各画像フレームを、フレームI1,…INとする。   Here, more generally, it is assumed that N (N ≧ 2) image rows are obtained. Assume that each image frame is a frame I1,.

次に、得られた各画像フレーム列に対して、上述したような方法によって顔検出処理を行い(ステップS104)、続いて、目や鼻の検出処理を行なう(ステップS106)。   Next, face detection processing is performed on each obtained image frame sequence by the method described above (step S104), and then eye and nose detection processing is performed (step S106).

さらに、視線サーバ18は、特徴点の抽出、追跡を行う(ステップS108)。なお、特徴点の抽出方法としては、上述したような方法の他に、たとえば、文献:J. Shi and C. Tomasi: “Good features to track”,Proc. CVPR94, pp. 593−600(1994)で提案された手法を用いることもできる。   Further, the line-of-sight server 18 extracts and tracks feature points (step S108). In addition to the above-mentioned method, the feature point extraction method is, for example, J: Shi and C. Tomasi: “Good features to track”, Proc. CVPR94, pp. 593-600 (1994). It is also possible to use the method proposed in.

ここで、各画像フレームIi(i=1,…,N)においてM(M≧4)点の特徴点pj(j=1,…,M)が検出・追跡できたとする。画像フレームIiにおける特徴点pjの2次元観測位置をxj(i)(太字)=[xj(i),yj(i)]t(i=1,…,N,j=1,…,M)とし、両目の虹彩中心の2次元観測位置をそれぞれxr(i)(太字)=[xr(i),yr(i)]t,xl(i)(太字)=[xl(i),yl(i)]t(i=1,…,N)とする。ここで、行列Wを以下のように定義する。   Here, it is assumed that feature points pj (j = 1,..., M) of M (M ≧ 4) points can be detected and tracked in each image frame Ii (i = 1,..., N). The two-dimensional observation position of the feature point pj in the image frame Ii is expressed as xj (i) (bold) = [xj (i), yj (i)] t (i = 1,..., N, j = 1,..., M) And the two-dimensional observation positions of the iris centers of both eyes are xr (i) (bold) = [xr (i), yr (i)] t, xl (i) (bold) = [xl (i), yl ( i)] t (i = 1,..., N). Here, the matrix W is defined as follows.

因子分解法により、特徴点の各フレームでの2次元観測位置を縦に並べた行列W(計測行列)は以下のように分解できる。   By the factorization method, a matrix W (measurement matrix) in which two-dimensional observation positions in each frame of feature points are vertically arranged can be decomposed as follows.

ここで、行列M(「撮影姿勢行列)と呼ぶ)にはカメラの姿勢に関する情報のみが、行列S(「相対位置関係行列」と呼ぶ)には観測対象物の形状に関する情報のみが含まれており、顔特徴点と眼球中心との3次元的な位置の相対関係は行列Sとして求まる(ステップS110)。すなわち、正射影を仮定すると、行列Mの各要素が画像フレームでのカメラの姿勢を表す単位ベクトルであって、それぞれの大きさが1であり相互には直交するとの拘束条件のもとで、行列Wは、特異値分解により一義的に行列Mと行列Sの積に分解できることが知られている。なお、このような計測行列Wを、因子分解により、カメラの運動の情報を表す行列と対象物の形状情報を表す行列へ分解する点については、文献:金出,ポールマン,森田:因子分解法による物体形状とカメラ運動の復元”,電子通信学会論文誌D−II,J76‐D−II,8,pp.1497−1505(1993)に開示がある。   Here, the matrix M (referred to as “photographing posture matrix”) includes only information regarding the posture of the camera, and the matrix S (referred to as “relative positional relationship matrix”) includes only information regarding the shape of the observation object. Therefore, the relative relationship between the three-dimensional position between the face feature point and the eyeball center is obtained as a matrix S (step S110). That is, assuming orthographic projection, each element of the matrix M is a unit vector that represents the posture of the camera in the image frame, and each of them is 1 and under the constraint that they are orthogonal to each other, It is known that the matrix W can be uniquely decomposed into a product of the matrix M and the matrix S by singular value decomposition. In addition, about the point which decomposes | disassembles such a measurement matrix W into the matrix showing the information of the motion of a camera and the shape information of a target object by factorization, literature: Kade, Paulman, Morita: factorization Restoration of object shape and camera motion by the method ", disclosed in IEICE Transactions D-II, J76-D-II, 8, pp. 1497-1505 (1993).

図16は、リアルタイムの視線方向の推定処理のフローチャートを示す。   FIG. 16 is a flowchart of real-time gaze direction estimation processing.

次に、以上で得られた結果を用いて、視線方向を推定する手順について説明する。   Next, a procedure for estimating the line-of-sight direction using the results obtained above will be described.

まず、カメラ16から画像フレームを取得すると(ステップS200)、キャリブレーション時と同様にして、顔の検出および目鼻の検出が行なわれ(ステップS202)、取得された画像フレーム中の特徴点が抽出される(ステップS204)。   First, when an image frame is acquired from the camera 16 (step S200), face detection and eye / nose detection are performed in the same manner as in calibration (step S202), and feature points in the acquired image frame are extracted. (Step S204).

画像フレームIkが得られたとする。ここで、眼球中心以外の特徴点のうちm点pj(j=j1,…,jm)が、それぞれ、xj(k)(太字)=[xj(k),yj(k)]tに観測されたとする。このとき、観測された特徴点について、上述したように特徴点近傍のテンプレートを用いたテンプレートマッチングを実施することで、キャリブレーション時に特定された特徴点と現画像フレーム中で観測された特徴点との対応付けが行なわれて、現画像フレーム中の特徴点が特定される(ステップS206)。   Assume that an image frame Ik is obtained. Here, m points pj (j = j1,..., Jm) among feature points other than the center of the eyeball are observed at xj (k) (bold) = [xj (k), yj (k)] t, respectively. Suppose. At this time, for the observed feature points, by performing template matching using a template near the feature points as described above, the feature points identified during calibration and the feature points observed in the current image frame And the feature points in the current image frame are specified (step S206).

なお、上述のとおり、特徴点を特定するためのテンプレートは、キャリブレーションの時のものに限定されず、たとえば、最近の画像フレームの所定枚数について検出された特徴点の近傍の所定の大きさの領域内の画像を所定個数だけ保持しておき、これら所定枚数のテンプレートについてマッチングをした結果、もっとも一致度の高い特徴点に特定することとしてもよい。   As described above, the template for specifying the feature point is not limited to the template at the time of calibration. For example, the template having a predetermined size in the vicinity of the detected feature point for the predetermined number of recent image frames is used. A predetermined number of images in the region may be held, and the feature points having the highest degree of matching may be specified as a result of matching the predetermined number of templates.

顔特徴点pjの2次元観測位置xj(k)(太字)=[xj(k),yj(k)]tとキャリブレーションより求まった3次元位置sj(太字)=[Xj,Yj,Zj]t(j=1,…,M)の間には、M個の特徴点のうち観測されたm個の特徴点について注目すると、次式の関係が得られる。   Two-dimensional observation position xj (k) (bold) = [xj (k), yj (k)] t of face feature point pj and three-dimensional position sj (bold) = [Xj, Yj, Zj] obtained from calibration If the attention is paid to the observed m feature points among the M feature points during t (j = 1,..., M), the following relationship is obtained.

ただし、行列P(k)は2×3の行列である。右辺の第2項の行列S(k)は行列Sのうち、観測された特徴点に対応する要素のみからなる部分行列である。上述の通り、カメラと顔は十分に離れているとし正射影を仮定している。ここで、4点以上の特徴点が観測されれば、行列P(k)は以下のように計算できる(ステップS208)。   However, the matrix P (k) is a 2 × 3 matrix. The matrix S (k) of the second term on the right side is a partial matrix consisting of only elements corresponding to the observed feature points in the matrix S. As described above, it is assumed that the camera and the face are sufficiently separated from each other and an orthogonal projection is assumed. Here, if four or more feature points are observed, the matrix P (k) can be calculated as follows (step S208).

画像フレームIkにおける眼球中心の投影位置xr(i)(太字),xl(i)(太字)は、行列P(k)を用いて以下のように計算できる(ステップS210)。   The projection positions xr (i) (bold) and xl (i) (bold) at the center of the eyeball in the image frame Ik can be calculated as follows using the matrix P (k) (step S210).

したがって、画像フレームIkにおいて特徴点として抽出した虹彩中心の投影位置とこの眼球中心の投影位置を用いると、視線の推定を行なうことができる(ステップS212)。   Therefore, by using the iris center projection position extracted as the feature point in the image frame Ik and the eyeball center projection position, the line of sight can be estimated (step S212).

なお、行列PをQR分解により分解することで、顔の姿勢Rが、以下のように計算できる。   By decomposing the matrix P by QR decomposition, the face posture R can be calculated as follows.

ただしr1、r2はそれぞれ1×3のベクトルである。このような顔の姿勢Rの検出については、文献:L.Quan: “Self-calibration of an affine camera from multiple views”,Int’l Journal of Computer Vision, 19, pp. 93−105(1996)に開示がある。   However, r1 and r2 are 1 × 3 vectors, respectively. Such detection of face posture R is described in literature: L.L. Quan: “Self-calibration of an affine camera from multiple views”, Int’l Journal of Computer Vision, 19, pp. 93-105 (1996).

ユーザ等の指示により追跡が終了していると判断されれば(ステップS214)、処理は終了し、終了が指示されていなければ、処理はステップS202に復帰する。   If it is determined that the tracking has been completed by an instruction from the user or the like (step S214), the process is terminated, and if the termination is not instructed, the process returns to step S202.

以上説明した視線方向の推定装置の有効性を確認するため、実画像を用いた実験を行った結果について以下に説明する。   In order to confirm the effectiveness of the gaze direction estimation apparatus described above, the results of experiments using real images will be described below.

カメラはElmo社製PTC−400Cを用い、被験者から約150[cm]の位置に設置した。   The camera was an Elmo PTC-400C, and was installed at a position of about 150 cm from the subject.

まず、50フレームの画像列を用いて、眼球中心と顔特徴点のキャリブレーションを行った。キャリブレーション用の画像フレーム列と抽出した特徴点の例は、図15に示したとおりである。   First, the center of the eyeball and the facial feature point were calibrated using an image sequence of 50 frames. Examples of calibration image frame sequences and extracted feature points are as shown in FIG.

キャリブレーション用画像フレーム列の撮影に要した時間は約3秒であった。(+印は抽出された虹彩中心(眼球中心))、×印は追跡した顔特徴点)。   The time required for capturing the calibration image frame sequence was about 3 seconds. (+ Mark is the extracted iris center (eyeball center)), x mark is the tracked facial feature point).

次に、キャリブレーションにより求まった顔モデル(行列S)を用いて、視線推定を行った。ここで、被験者はそれぞれ右上、上、左下の方向を注視しながら、顔の位置・向きを変化させた。   Next, gaze estimation was performed using the face model (matrix S) obtained by calibration. Here, the subject changed the position and orientation of the face while gazing at the upper right, upper and lower left directions.

図17〜図19は、視線推定結果を示す。図17は、右上方注視の状態であり、図18は、上方注視の状態であり、図19は、左下方向注視の状態である。ここで、視線方向は両目それぞれで計算された視線方向の平均値としている。結果より、顔の位置や向きの変化とは関係なく、視線方向が推定できた。   17 to 19 show the line-of-sight estimation results. FIG. 17 shows a state of right upper gaze, FIG. 18 shows a state of upper gaze, and FIG. 19 shows a state of lower left gaze. Here, the gaze direction is an average value of the gaze directions calculated for both eyes. From the results, it was possible to estimate the gaze direction regardless of changes in the face position and orientation.

以上説明したとおり、この実施例の視線方向の推定方法では、単眼カメラの観測に基づいて顔特徴点を検出し、追跡することにより視線方向を推定する。つまり、まずキャリブレーションとして視線がカメラ方向を向いたまま顔の向きのみが異なる画像列から得られる虹彩位置と顔特徴点を利用することで、眼球中心と顔特徴点の関係をモデル化し(行列Sを特定し)、その後、その関係に基づいて推定された入力画像中の眼球中心位置と虹彩位置の関係から視線方向の角度α、βを決定する。   As described above, in the gaze direction estimation method of this embodiment, the gaze direction is estimated by detecting and tracking the face feature points based on the observation of the monocular camera. In other words, as a calibration, the relationship between the eyeball center and the face feature point is modeled by using the iris position and the face feature point obtained from the image sequence in which only the face direction is different with the line of sight facing the camera direction (matrix). S is specified), and then the angles α and β in the line-of-sight direction are determined from the relationship between the eyeball center position and the iris position in the input image estimated based on the relationship.

図20に示すフローチャートを実行して、ぬいぐるみ14の発話や動作を制御するのであるが、この図20に示すフローチャートは、後に説明する図23のフローチャートと同様に、一定時間ごと、たとえば1‐2秒の周期で実行されるものとする。   The flowchart shown in FIG. 20 is executed to control the speech and operation of the stuffed toy 14. The flowchart shown in FIG. 20 is the same as the flowchart shown in FIG. It shall be executed with a period of seconds.

図20の最初のステップS1では、ユーザ12の発話を検出するためのステップS1aとユーザ12の視線の状態を判定するためのステップS1bを並行的に処理する。   In the first step S1 in FIG. 20, step S1a for detecting the utterance of the user 12 and step S1b for determining the line of sight of the user 12 are processed in parallel.

ステップS1aでは、ぬいぐるみ14のコンピュータ32(図5)は、マイク50(図5)からの音声入力のパワーを計算するなどして、ユーザ12が発話したかどうか、つまり、ユーザ12の発話の有無を検出し、その結果(発話の有無)を発話の状態を示すデータとしてメモリ36の判定結果記憶部36Cに格納する。   In step S1a, the computer 32 (FIG. 5) of the stuffed toy 14 calculates the power of voice input from the microphone 50 (FIG. 5) to determine whether the user 12 has spoken, that is, whether or not the user 12 has spoken. And the result (presence / absence of utterance) is stored in the determination result storage unit 36C of the memory 36 as data indicating the state of the utterance.

ただし、ユーザ12が発話したかどうかを検出するためには別の方法、たとえば、超指向性マイクを用いる方法、音源とベクトルを計算する方法、音声のパワースペクトルにおける倍音成分を検出する方法などである。この発明では、ユーザの発話の有無を検出する方法としてはいずれの方法を用いてもよい。   However, in order to detect whether the user 12 has spoken, there are other methods such as a method using a super-directional microphone, a method of calculating a sound source and a vector, a method of detecting a harmonic component in the power spectrum of speech, etc. is there. In the present invention, any method may be used as a method for detecting the presence or absence of the user's utterance.

また、ステップS1bでは、上述のようにして視線サーバ18が推定した視線角度αおよびβのデータが、ぬいぐるみ14のバス34(図5)を通してコンピュータ32に与えられる。コンピュータ32では、その角度データから視線12A(図2,3)の空間10Aにおける空間座標(x,y,z)を、絶対位置として計算する。   In step S1b, the data of the line-of-sight angles α and β estimated by the line-of-sight server 18 as described above is provided to the computer 32 through the bus 34 (FIG. 5) of the stuffed animal 14. The computer 32 calculates the spatial coordinates (x, y, z) in the space 10A of the line of sight 12A (FIGS. 2 and 3) from the angle data as an absolute position.

一方、ぬいぐるみ14はそれぞれ、図6に示すように固定的に配置されている。したがって、このぬいぐるみ14の存在する空間10A内の、図6に示す「範囲」の座標およびその範囲内でのぬいぐるみ14が存在する位置の座標はともに既に計算されて、たとえばメモリ36(図5)に記憶されている。   On the other hand, each of the stuffed toys 14 is fixedly arranged as shown in FIG. Accordingly, both the coordinates of the “range” shown in FIG. 6 and the coordinates of the position where the stuffed animal 14 exists in the space 10A where the stuffed animal 14 exists are already calculated, for example, the memory 36 (FIG. 5). Is remembered.

そこで、次のステップS3で、コンピュータ32は、先にステップS1bで計算した視線の空間座標とメモリ36内に予め蓄積されている各座標とを比較し、ユーザ12のそのときの視線の方向、つまり、視線の相対位置がぬいぐるみ14自体に向けられているのか、ぬいぐるみ14ではないが範囲内(図6)に存在する他のもの、たとえば擬人的媒体あるいは人間などに向けられているのか、あるいは図6に示す範囲外に向けられているのかを判定する。そのようにして判定した視線の状態の判定結果は、視線状態データとしてメモリ36の記憶部36Cに記憶される。   In the next step S3, the computer 32 compares the spatial coordinates of the line of sight previously calculated in step S1b with the coordinates stored in advance in the memory 36, and the direction of the line of sight of the user 12 at that time, That is, whether the relative position of the line of sight is directed to the stuffed toy 14 itself, or to something other than the stuffed toy 14 but within the range (FIG. 6), such as anthropomorphic media or humans, or It is determined whether it is directed outside the range shown in FIG. The determination result of the gaze state determined as described above is stored in the storage unit 36C of the memory 36 as gaze state data.

続くステップS5で、コンピュータ32は、ユーザ12が発話したタイミングにおけるユーザ12の上記視線状態に基づいて、そのときのユーザ12の発話が、ぬいぐるみ14自身に向けられたものか、範囲内の違う対象に向けられたものか、あるいは、わからないかを推定する。わからない、というのは、ユーザ12の視線が図6の範囲外に向けられているとき、または視線が安定しない不安定な状態であるときにそのように推定する。この発話対象推定ステップで推定した発話対象も、発話状態データとして上述の記憶部36Cに記録される。   In subsequent step S5, the computer 32 determines whether the utterance of the user 12 at that time is directed to the stuffed toy 14 itself based on the above-described line-of-sight state of the user 12 at the timing when the user 12 uttered, or a different object within the range. Estimate whether it was aimed at or not. Not knowing is presumed as such when the user's line of sight is directed outside the range of FIG. 6 or when the line of sight is unstable and unstable. The utterance target estimated in the utterance target estimation step is also recorded in the storage unit 36C as the utterance state data.

ここで、このステップS5における発話対象推定動作についてより具体的に説明する。発話対象推定においては、図27および図28に示す発話対象テーブル36D(図5)を参照してユーザ12が発話した対象が自分すなわちぬいぐるみ14かどうか推定する。発話対象テーブル36Dでは、前回発話、前回視線、今回発話および今回視線のそれぞれの判定結果(図5に示す判定結果記憶部36Cに蓄積されている。)に加えて、前回発話/視線と今回発話/視線との時間間隔の長短を推定要素として用いる。この時間間隔は、たとえば、1秒以上を「長」と、1秒未満を「短」として登録する。ただし、ケース1−4、9−14では、各判定結果とこの時間間隔とを要素として推定するのであるが、ケース5‐8、15‐16、19−22は単純に発話および視線の判定結果だけで発話対象を推定するようにしている。そして、ケース17‐18、23‐28では、発話が前回も今回もないので、この発話対象ステップでは関係ない状態である。   Here, the utterance target estimation operation in step S5 will be described more specifically. In the utterance target estimation, the utterance target table 36 </ b> D (FIG. 5) shown in FIGS. 27 and 28 is referred to and it is estimated whether the target uttered by the user 12 is himself, that is, the stuffed toy 14. In the utterance target table 36D, in addition to the determination results of the previous utterance, the previous sight line, the current utterance, and the current sight line (accumulated in the determination result storage unit 36C illustrated in FIG. 5), the previous utterance / gaze and the current utterance. / The length of the time interval from the line of sight is used as an estimation factor. For this time interval, for example, 1 second or longer is registered as “long” and less than 1 second is registered as “short”. However, in cases 1-4 and 9-14, each determination result and this time interval are estimated as elements, but in cases 5-8, 15-16, and 19-22, the determination result of speech and line of sight is simply Only the utterance target is estimated. In cases 17-18 and 23-28, since there is no utterance in the previous time and this time, this utterance target step is not relevant.

たとえば、図27のケース1および2に示すように、前回の発話判定結果が「○」で前回の視線状態判定結果が「×」であったが今回の発話判定結果は「×」になり、視線状態判定結果は「○」になった場合には、時間間隔の短長によって、「短」(ケース1)の場合は、(前回の発話は)自分(ぬいぐるみ14)である可能性が高いと判定または推定し、「長」(ケース2)の場合は、(前回の発話は)おそらく自分ではなく、単に前回視線の対象であったと推定する。   For example, as shown in cases 1 and 2 in FIG. 27, the previous utterance determination result was “◯” and the previous gaze state determination result was “x”, but the current utterance determination result is “x”. When the line-of-sight state determination result is “◯”, it is highly possible that the previous utterance is yourself (stuffed toy 14) in the case of “short” (case 1) due to the short time interval. In the case of “long” (case 2), it is presumed that the (previous utterance) was probably not the subject but merely the subject of the previous gaze.

たとえば、図27のケース3および4に示すように、前回の発話判定結果が「×」で前回の視線状態判定結果が「○」であったが今回の発話判定結果は「○」になり、視線状態判定結果は「×」になった場合には、時間間隔の短長によって、「短」(ケース3)の場合は、今回の発話は自分(ぬいぐるみ14)である可能性が高いと推定し、「長」(ケース4)の場合は、おそらく自分ではなく、単に今回視線の対象であったと推定する。   For example, as shown in cases 3 and 4 in FIG. 27, the previous utterance determination result was “X” and the previous gaze state determination result was “O”, but the current utterance determination result is “O”. When the gaze state determination result is “×”, it is estimated that there is a high possibility that the current utterance is self (stuffed toy 14) in the case of “short” (case 3) due to the short time interval. However, in the case of “long” (case 4), it is presumed that it was probably the subject of gaze this time, not himself.

これに対して、ケース5および6では、前回も今回も視線が自分に向けられていない(「×」である。)ので、時間間隔の長短に拘わらず、ともに発話対象が自分ではないと推定している。同じく、前回と今回との判定結果だけを利用するケース7および8、ケース19および20、ケース21および22においても、時間間隔の如何にかかわらず同一の推定結果を生じている。   On the other hand, in cases 5 and 6, the line of sight was not directed at me (“×”) both in the previous time and this time, so it is estimated that the utterance target is not myself regardless of the length of the time interval. is doing. Similarly, the cases 7 and 8, the cases 19 and 20, and the cases 21 and 22 that use only the determination results of the previous time and the current time also produce the same estimation result regardless of the time interval.

このようなテーブル36Dを利用することによって、発話と視線の有無が一致していない状態データも発話対象をおおむね正確に推定することができる。   By using such a table 36D, it is possible to roughly accurately estimate the utterance target of state data in which the utterance and the presence or absence of the line of sight do not match.

続いて、ステップS7で、コンピュータ32は、ステップS3で判定したユーザの視線状態(ユーザ12の視線がぬいぐるみ14自体に向けられているのか、ぬいぐるみ14ではないが範囲内に存在する他のものに向けられているのか、あるいは範囲外に向けられているのか)と、ステップS5で推定した、ユーザの発話が向けられた発話対象(ぬいぐるみ14に向けたものか、範囲内の違う対象に向けたものか、あるいは、わからないか)とに基づいて、そのときのユーザ12とぬいぐるみ14との間のコミュニケーション状態を推定または特定する。   Subsequently, in step S7, the computer 32 determines whether or not the user's line-of-sight state determined in step S3 (whether the line of sight of the user 12 is directed toward the stuffed toy 14 itself or other stuffed toy but not within the range). Whether the user's utterance is directed (directed toward the stuffed toy 14 or to a different object within the range, estimated in step S5) The communication state between the user 12 and the stuffed toy 14 at that time is estimated or specified.

具体的には、図21に示すように、発話対象が「自分」、「自分以外の範囲内」、「範囲外」、または「発話なし」の場合に、視線状態が「自分」、「自分以外の範囲内」、「不明」のいずれかであるとき、両者のコミュニケーション状態がどのような状態なのかを推定する。ただし、視線方向が図6に示す「範囲外」であるとき、または、不安定で定まらない状態のときを「不明」と判定する。たとえば、発話対象も視線状態も「自分」のときには、ユーザ12がぬいぐるみ14に目を合わせて発話している状態であると推定できる。なお、この解釈テーブル36Aによって推定または特定できるコミュニケーション状態は全て図21に詳細に記述しているので、詳細は図21を参照されたい。   Specifically, as shown in FIG. 21, when the utterance target is “self”, “within other range”, “out of range”, or “no utterance”, the line-of-sight state is “self”, “self When it is either “inside of range” or “unknown”, it is estimated what the communication state of the two is. However, it is determined as “unknown” when the line-of-sight direction is “out of range” as shown in FIG. For example, when the utterance target and the line-of-sight state are both “self”, it can be estimated that the user 12 is speaking with the stuffed animal 14 in his / her eyes. Since all communication states that can be estimated or specified by the interpretation table 36A are described in detail in FIG. 21, refer to FIG. 21 for details.

ステップS9では、コンピュータ32は、ステップS7で特定したコミュニケーション状態に応じて、ユーザからぬいぐるみへのコミュニケーションを誘発するのに効果的な、ぬいぐるみの行動(発話および/または動作)を決定する。このぬいぐるみの行動(発話および/または動作)は具体的には、図22に示すが、基本的には、ユーザがぬいぐるみに対して発話しているようなコミュニケーション状態では、コンピュータ32は、ぬいぐるみ14がユーザに対して音声(発話)で返事するような行動を設定する。しかしながら、ユーザが発話していないか、ぬいぐるみに話かけていないか、のときには、ぬいぐるみの行動としては、音声による返事をするようには設定しない。また、ユーザがぬいぐるみに視線を向けているコミュニケーション状態では、コンピュータ32は、ぬいぐるみ14がユーザに対して動作でリアクションを表現するような行動を決定する。そして、ユーザがぬいぐるみは見ていないがユーザの視線が「範囲内」にある、そのようなコミュニケーション状態のときには、コンピュータ32はぬいぐるみ14の行動として、ユーザの視線方向を共同注視するなど、という行動を設定する。ただし、ユーザの視線が「範囲外」のときには、ぬいぐるみには何も反応動作を設定しない。   In step S9, the computer 32 determines a stuffed behavior (speech and / or action) effective for inducing communication from the user to the stuffed animal according to the communication state specified in step S7. The behavior (speech and / or movement) of the stuffed animal is specifically shown in FIG. 22. Basically, in the communication state in which the user is speaking with respect to the stuffed animal, the computer 32 has the stuffed animal 14. Set an action that responds to the user by voice (utterance). However, when the user is not speaking or talking to the stuffed animal, the behavior of the stuffed animal is not set to reply by voice. Further, in a communication state in which the user looks at the stuffed animal, the computer 32 determines an action such that the stuffed animal 14 expresses a reaction to the user. Then, in such a communication state in which the user does not look at the stuffed toy but the user's line of sight is “within range”, the computer 32 acts as the action of the stuffed toy 14 such as jointly gazing at the user's line of sight. Set. However, when the user's line of sight is “out of range”, no reaction operation is set for the stuffed animal.

具体的には図22にコミュニケーション状態とぬいぐるみの行動とのテーブルを示すが、これらは単なる例示であり、適宜変更可能であることはいうまでもない。ただし、図22のコミュニケーション状態の番号と図21のコミュニケーション状態の番号とが対応するものと理解されたい。   Specifically, FIG. 22 shows a table of communication states and stuffed behaviors, but these are merely examples, and it goes without saying that they can be changed as appropriate. However, it should be understood that the communication state number in FIG. 22 corresponds to the communication state number in FIG.

ステップS11では、コンピュータ32はステップS9で決定したぬいぐるみの行動を実際にぬいぐるみ14が生じるように、必要な音声データやモータ制御データを音声入出力ボード46やモータ制御ボード38に出力する。ただし、ぬいぐるみ14が発話するタイミングは、ユーザ12の発話が終わった後であり、そのために、先に説明した「発話中フラグ」が参照される。つまり、発話中フラグはユーザが発話中であるとき「1」であるので、それぞれが「0」になった後にぬいぐるみ14の発話を実行させるようにする。ただし、ぬいぐるみ14の動作は、ユーザの発話中に実行してもよいし、ユーザの発話が終了した後に実行するようにしてもよい。   In step S <b> 11, the computer 32 outputs necessary voice data and motor control data to the voice input / output board 46 and the motor control board 38 so that the stuffed animal 14 actually produces the behavior of the stuffed animal determined in step S <b> 9. However, the timing when the stuffed toy 14 speaks is after the user 12 has finished speaking, and therefore, the “speaking flag” described above is referred to. That is, since the utterance flag is “1” when the user is uttering, the stuffed animal 14 is uttered after each becomes “0”. However, the operation | movement of the stuffed toy 14 may be performed during a user's speech, and may be performed after a user's speech is complete | finished.

このようにして、ぬいぐるみのコンピュータ32は、ユーザの発話状態の判定結果とユーザの視線状態の判定結果とに基づいて、ユーザのぬいぐるみに対するコミュニケーション状態を推定し、そのコミュニケーション状態から、ユーザのぬいぐるみに対するコミュニケーションを一層増進させ、あるいは誘発するように、ぬいぐるみの行動、すなわち発話や動作を制御する。   In this manner, the stuffed toy computer 32 estimates the communication state with respect to the user's stuffed animal based on the determination result of the user's speech state and the determination result of the user's line-of-sight state. Control stuffed behavior, ie speech and movement, to further enhance or induce communication.

図23はこの発明の他の実施例の動作を示すフローチャートである。先の実施例ではコミュニケーション状態を特定するのに、今回の視線状態および今回の発話状態だけを参照したのに対し、前回の視線状態および前回の発話状態も考慮して、コミュニケーション状態を特定しようとするという点で、この実施例は先の実施例と異なる。   FIG. 23 is a flowchart showing the operation of another embodiment of the present invention. In the previous example, only the current gaze state and the current utterance state were referred to identify the communication state, but the previous gaze state and the last utterance state were also considered and the communication state was determined. In this respect, this embodiment differs from the previous embodiment.

図23の最初のステップS21では、ユーザ12の発話を検出するためのステップS21aとユーザ12の視線の状態を判定するためのステップS21bを並行的に処理する。   In the first step S21 in FIG. 23, step S21a for detecting the utterance of the user 12 and step S21b for determining the line of sight of the user 12 are processed in parallel.

ステップS21aでは、図20のステップS1aと同じように、ユーザ12の発話の有無を検出し、その結果(発話の有無)を発話の状態を示すデータとしてメモリ36の判定結果記憶部36Cに格納する。ここでも、ユーザ12が発話したかどうかを検出するための方法は任意の方法であってよい。   In step S21a, as in step S1a of FIG. 20, the presence / absence of the utterance of the user 12 is detected, and the result (presence / absence of utterance) is stored in the determination result storage unit 36C of the memory 36 as data indicating the utterance state. . Again, the method for detecting whether the user 12 has spoken may be any method.

また、ステップS21bでは、上述のようにして視線サーバ18が推定した視線角度αおよびβのデータが、ぬいぐるみ14のバス34(図5)を通してコンピュータ32に与えられる。コンピュータ32では、その角度データから視線12A(図2,3)の空間10Aにおける空間座標(x,y,z)を、絶対位置として計算する。   In step S21b, the data of the line-of-sight angles α and β estimated by the line-of-sight server 18 as described above are provided to the computer 32 through the bus 34 (FIG. 5) of the stuffed toy 14. The computer 32 calculates the spatial coordinates (x, y, z) in the space 10A of the line of sight 12A (FIGS. 2 and 3) from the angle data as an absolute position.

一方、ぬいぐるみ14はそれぞれ、図6に示すように固定的に配置されている。したがって、このぬいぐるみ14の存在する空間10A内の、図6に示す「範囲」の座標およびその範囲内でのぬいぐるみ14が存在する位置の座標はともに既に計算されて、たとえばメモリ36(図5)に記憶されている。   On the other hand, each of the stuffed toys 14 is fixedly arranged as shown in FIG. Accordingly, both the coordinates of the “range” shown in FIG. 6 and the coordinates of the position where the stuffed animal 14 exists in the space 10A where the stuffed animal 14 exists are already calculated, for example, the memory 36 (FIG. 5). Is remembered.

そこで、ステップS1bで、コンピュータ32は、先に計算した視線の空間座標とメモリ36内に予め蓄積されている各座標とを比較し、ユーザ12のそのときの視線の方向、つまり、視線の相対位置がぬいぐるみ14自体に向けられているのか、あるイはぬいぐるみ14以外に向けられているのかを判定する。そのようにして判定した視線の状態の判定結果は、視線状態データとしてメモリ36の記憶部36Cに記憶される。   Therefore, in step S1b, the computer 32 compares the previously calculated spatial coordinates of the line of sight with the coordinates stored in advance in the memory 36, and the direction of the line of sight of the user 12, that is, the relative line of sight. It is determined whether the position is directed toward the stuffed toy 14 itself or whether a certain point is directed toward other than the stuffed toy 14. The determination result of the gaze state determined as described above is stored in the storage unit 36C of the memory 36 as gaze state data.

続くステップS23で、コンピュータ32は、ユーザの前回の発話状態の判定結果および前回の視線状態の判定結果と、今回の発話状態の判定結果および今回の視線状態の判定結果とに基づいて、ユーザ12とぬいぐるみ14との間のコミュニケーション状態を推定または特定する。たとえば、ユーザ12が前回はぬいぐるみ14に話しかけていたけれども、今回は別の対象に話ししているような場合であれば、ぬいぐるみとユーザとはコミュニケーションが完全には途切れてはいないので、「ユーザの話しかけている対象とユーザを注視する必要がある」などと、コミュニケーション状態を解釈する。   In subsequent step S23, the computer 32 determines the user 12 based on the determination result of the previous speech state and the determination result of the previous gaze state, the determination result of the current speech state and the determination result of the current gaze state. Estimate or specify the communication state between the doll and the stuffed toy 14. For example, if the user 12 was talking to the stuffed animal 14 last time, but this time talking to another subject, the communication between the stuffed animal and the user is not completely interrupted. It is necessary to pay close attention to the subject and the user who are talking to ".

前回判定結果と今回判定結果とに基づいて推定または特定するコミュニケーション状態の具体例が図24に示されている。   A specific example of the communication state estimated or specified based on the previous determination result and the current determination result is shown in FIG.

たとえば、図24のケース1に示すように、前回の発話判定結果が「×」で前回の視線状態判定結果が「○」であったが今回の発話判定結果も視線状態判定結果もともに「○」である場合には、コミュニケーション状態は「ユーザはぬいぐるみに目を合わせた状態でぬいぐるみに話しかけた」と解釈する。ただし、ここで発話判定結果が「×」ということは、ユーザはそのとき発話しなかったことを意味している。視線状態判定結果が「○」ということは、そのときユーザの視線はぬいぐるみに向けられていたことを意味している。   For example, as shown in case 1 of FIG. 24, the previous utterance determination result was “×” and the previous gaze state determination result was “◯”, but both the current utterance determination result and the gaze state determination result are “ ", The communication state is interpreted as" the user talked to the stuffed animal while keeping an eye on the stuffed animal ". However, the utterance determination result “x” here means that the user did not utter at that time. If the line-of-sight state determination result is “◯”, it means that the user's line of sight is directed toward the stuffed animal at that time.

ケース2では、前回の発話判定結果が「○」で前回の視線状態判定結果が「×」であったが今回の発話判定結果も視線状態判定結果もともに「○」である。この場合には、コミュニケーション状態は「ユーザは発話しながらぬいぐるみに目を向けた」と解釈する。ただし、ここで発話判定結果が「○」ということは、ユーザはそのとき発話したことを意味していて、視線状態判定結果が「×」ということは、そのときユーザの視線はぬいぐるみには向けられていなかったことを意味している。   In Case 2, the previous utterance determination result was “◯” and the previous gaze state determination result was “x”, but both the current utterance determination result and the gaze state determination result are “O”. In this case, the communication state is interpreted as “the user looks at the stuffed animal while speaking”. However, if the utterance determination result is “○”, it means that the user spoke at that time, and if the sight line determination result is “×”, then the user's line of sight is directed toward the stuffed animal. It means that it was not done.

ケース3のように、前回の発話判定結果が「×」で前回の視線状態判定結果が「×」であったが今回の発話判定結果も視線状態判定結果もともに「○」である場合には、コミュニケーション状態は「ユーザはぬいぐるみを見ると同時に話しかけたに」と解釈する。   As in Case 3, when the previous utterance determination result is “×” and the previous gaze state determination result is “×”, both the current utterance determination result and the gaze state determination result are “O”. The communication state is interpreted as “the user talked to the stuffed animal at the same time.”

ケース4に示す状態は、前回の発話判定結果および視線状態判定結果がともにが「○」今回の発話判定結果も視線状態判定結果もともに「○」である場合であり、このような場合には、コミュニケーション状態は「ユーザはずっとぬいぐるみを見ながらぬいぐるみに話しかけている(状態保存)」と解釈できる。   The state shown in Case 4 is a case where the previous utterance determination result and the gaze state determination result are both “O”, and the current utterance determination result and the gaze state determination result are both “O”. The communication state can be interpreted as “the user is talking to the stuffed toy while watching the stuffed toy (status preservation)”.

以下、各個別のコミュニケーション状態についての詳細な説明は省略するので、必要に応じて図24を参照されたい。   In the following, detailed description of each individual communication state is omitted, so refer to FIG. 24 as necessary.

ステップS25では、コンピュータ32は、ステップS23で特定したコミュニケーション状態に応じて、ユーザからぬいぐるみへのコミュニケーションを誘発するのに効果的な、ぬいぐるみの行動(発話および/または動作)を決定する。このぬいぐるみの行動(発話および/または動作)は具体的には、図25-26に示すが、基本的には、発話状態や視線状態の時間変化に対応してコミュニケーション行動を決定する。たとえば、前回は発話視線ともに×であったものが、今回とも○になったような場合、コミュニケーション状態3は「ユーザはぬいぐるみを見ると同時に話しかけてきた」という状態であると推定するが、そのような状態変化に対応してぬいぐるみが実行する行動は、図25のコミュニケーション状態3に示す行動を実行させる。具体的には、音声としては「少し驚いたような返事」をさせ、動作としてはユーザのコミュニケーションを取りたいという発意に気付いたというように「首をがくがく振る」などの動作を行なわせる。このようなぬいぐるみ14の行動によって、ユーザがぬいぐるみに対してコミュニケーションをとりたいという意欲を継続させることができる。   In step S25, the computer 32 determines a stuffed behavior (speech and / or action) effective for inducing communication from the user to the stuffed animal according to the communication state specified in step S23. The stuffed behavior (speech and / or movement) is specifically shown in FIGS. 25-26. Basically, the communication behavior is determined in response to the temporal change of the utterance state and the gaze state. For example, if the utterance line of sight was X in the previous time, but this time also becomes ◯, it is estimated that the communication state 3 is “the user is talking to the stuffed animal at the same time”. The action performed by the stuffed toy in response to such a state change causes the action shown in the communication state 3 of FIG. 25 to be executed. Specifically, the voice is “a little surprised reply” and the action is “shake the neck” as if he noticed the intention to communicate with the user. By such an action of the stuffed toy 14, the user's willingness to communicate with the stuffed toy can be continued.

なお、図25-26にコミュニケーション状態とぬいぐるみの行動とのテーブルを示すが、これらは単なる例示であり、適宜変更可能であることはいうまでもない。   Note that FIG. 25-26 shows a table of communication states and stuffed behaviors, but these are merely examples, and it goes without saying that they can be changed as appropriate.

ステップS27では、コンピュータ32はステップS25で決定したぬいぐるみの行動を実際にぬいぐるみ14が生じるように、必要な音声データやモータ制御データを音声入出力ボード46やモータ制御ボード38に出力する。ただし、実際に発話するタイミングは先の実施例と同様に、ユーザ12の発話を邪魔しないようなタイミングに設定するなどの配慮が必要であろう。   In step S27, the computer 32 outputs necessary voice data and motor control data to the voice input / output board 46 and the motor control board 38 so that the stuffed animal 14 actually produces the behavior of the stuffed animal determined in step S25. However, as in the previous embodiment, it is necessary to consider that the actual utterance timing is set to a timing that does not disturb the utterance of the user 12.

このようにして、ぬいぐるみのコンピュータ32は、前回と今回とのユーザの発話状態の判定結果とユーザの視線状態の判定結果とに基づいて、ユーザのぬいぐるみに対するコミュニケーション状態を推定し、そのコミュニケーション状態から、ユーザのぬいぐるみに対するコミュニケーションを一層増進させ、あるいは誘発するように、ぬいぐるみの行動、すなわち発話や動作を制御する。   In this way, the stuffed toy computer 32 estimates the communication state for the user's stuffed animal based on the determination result of the user's speech state and the determination result of the user's gaze state for the previous time and this time, and from the communication state The behavior of the stuffed animal, i.e., speech and movement, is controlled so as to further enhance or induce the communication of the user with the stuffed animal.

ただし、今回発話の判定結果および今回視線の判定結果だけを用いても、発話対象や視線状態を特定または推定することができるので、必ずしも、前回の判定結果と今回の判定結果の両方を用いる必要はない。そして、この場合には、各判定手段は発話状態や視線状態を一定時間ごとに繰り返し判定する必要はなく、必要な都度判定するようにすることも考えられる。   However, it is necessary to use both the previous determination result and the current determination result because only the determination result of the current utterance and the determination result of the current gaze can be used to specify or estimate the utterance target and the gaze state. There is no. In this case, each determination means does not need to repeatedly determine the utterance state and the line-of-sight state at regular intervals, and it may be determined as needed.

この発明の一実施例のコミュニケーション誘発システムの概念を示す図解図である。It is an illustration figure which shows the concept of the communication induction system of one Example of this invention. 図1実施例におけるユーザとぬいぐるみとの平面的な位置関係およびユーザの視線角度を示す図解図である。It is an illustration figure which shows the planar positional relationship of a user and a stuffed toy in FIG. 1 Example, and a user's gaze angle. 図1実施例におけるユーザとぬいぐるみとの側面的な位置関係およびユーザの視線角度を示す図解図である。FIG. 3 is an illustrative view showing a side positional relationship between a user and a stuffed toy and a user's line-of-sight angle in the embodiment in FIG. 1; 図1実施例において用いられるぬいぐるみの一例を示す図解図である。It is an illustration figure which shows an example of the stuffed toy used in FIG. 1 Example. 図1実施例におけるぬいぐるみの制御回路の一例を示すブロック図である。It is a block diagram which shows an example of the control circuit of the stuffed toy in FIG. 1 Example. 図1実施例におけるユーザの視線の状態を判定する範囲の一例を示す図解図である。It is an illustration figure which shows an example of the range which determines the state of a user's eyes | visual_axis in FIG. 1 Example. 図1実施例における視線サーバのディスプレイに表示されているユーザの顔画像の一例を示す図解図である。It is an illustration figure which shows an example of the user's face image currently displayed on the display of the gaze server in FIG. 1 Example. 図8は眉間候補領域を検出するためのフィルタを説明するための概念図である。FIG. 8 is a conceptual diagram for explaining a filter for detecting an eyebrow candidate region. 図9は6分割矩形フィルタの他の構成を示す概念図である。FIG. 9 is a conceptual diagram showing another configuration of the 6-divided rectangular filter. 図10は眉間を中心とした画像領域を利用してSVMによるモデル化を説明する図解図である。FIG. 10 is an illustrative view for explaining modeling by SVM using an image area centered on the eyebrows. 図11は顔検出結果の例を示す図解図である。FIG. 11 is an illustrative view showing an example of a face detection result. 図12は視線方向を決定するためのモデルを説明する概念図である。FIG. 12 is a conceptual diagram illustrating a model for determining the line-of-sight direction. 図13はユーザがカメラを注視する状態に移行した後の虹彩中心、眼球中心および投影点の関係を示す概念図である。FIG. 13 is a conceptual diagram showing the relationship between the iris center, the eyeball center, and the projection point after the user has shifted to a state of gazing at the camera. 図14は視線サーバによる初期設定の処理動作を示すフロー図である。FIG. 14 is a flowchart showing an initial setting processing operation by the line-of-sight server. 図15はキャリブレーションにおいて撮影された4枚の画像フレームを示す図解図である。FIG. 15 is an illustrative view showing four image frames taken in the calibration. 図16は視線サーバが実行するリアルタイム視線検出の処理動作を示すフロー図である。FIG. 16 is a flowchart showing the processing operation of the real-time gaze detection executed by the gaze server. 図17は右上方注視の状態での視線推定結果を示す図解図である。FIG. 17 is an illustrative view showing a gaze estimation result in a state of gaze at the upper right. 図18は上方注視の状態での視線推定結果を示す図解図である。FIG. 18 is an illustrative view showing a line-of-sight estimation result in an upward gaze state. 図19は左下方向注視の状態での視線推定結果を示す図である。FIG. 19 is a diagram illustrating a line-of-sight estimation result in a state of lower left direction gaze. 図20は図1実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。FIG. 20 is a flowchart showing the operation of the stuffed computer in the embodiment of FIG. 図21は図1実施例におけるぬいぐるみに対するユーザのコミュニケーション状態の推定または解釈テーブルの一例を示す表である。FIG. 21 is a table showing an example of a user communication state estimation or interpretation table for the stuffed toy in FIG. 1 embodiment. 図22は図1実施例におけるコミュニケーション状態に応じたぬいぐるみの行動を規定する反応テーブルの一例を示す表である。FIG. 22 is a table showing an example of a reaction table that defines the behavior of the stuffed animal according to the communication state in the FIG. 1 embodiment. 図23は別の実施例におけるぬいぐるみのコンピュータの動作を示すフロー図である。FIG. 23 is a flowchart showing the operation of the stuffed toy computer in another embodiment. 図24は図23実施例におけるぬいぐるみに対するユーザのコミュニケーション状態の推定または解釈テーブルの一例を示す表である。FIG. 24 is a table showing an example of a user communication state estimation or interpretation table for the stuffed toy in the embodiment of FIG. 図25は図23実施例におけるコミュニケーション状態に応じたぬいぐるみの行動を規定する反応テーブルの一例を示す表である。FIG. 25 is a table showing an example of a reaction table that defines the behavior of the stuffed animal according to the communication state in the embodiment of FIG. 図26は図25の続きを示す表である。FIG. 26 is a table showing a continuation of FIG. 図27は図20実施例における発話対象テーブルの一例を示す表である。FIG. 27 is a table showing an example of the utterance target table in the embodiment of FIG. 図28は図27の続きを示す表である。FIG. 28 is a table showing a continuation of FIG.

符号の説明Explanation of symbols

10 …コミュニケーション誘発システム
14 …ぬいぐるみ
16 …カメラ
18 …視線サーバ
32 …コンピュータ
36 …メモリ
50 …マイク
DESCRIPTION OF SYMBOLS 10 ... Communication induction system 14 ... Stuffed toy 16 ... Camera 18 ... Line-of-sight server 32 ... Computer 36 ... Memory 50 ... Microphone

Claims (5)

ユーザが視認できる位置に配置した擬人的媒体によって前記ユーザからのコミュニケーションを誘発するコミュニケーション誘発システムであって、
前記ユーザの視線の状態を判定する視線判定手段、
前記ユーザからの発話の状態を判定する発話判定手段、
前記視線位置判定手段による視線状態判定結果および前記発話判定手段による発話状態判定結果を記憶する記憶手段、
前記記憶手段に記憶した視線状態判定結果および発話状態判定結果に応じて前記ユーザと前記擬人的媒体とのコミュニケーション状態を特定するコミュニケーション状態特定手段、および
前記コミュニケーション状態特定手段が特定したコミュニケーション状態に応じて前記擬人的媒体の音声および動作を制御する制御手段を備える、コミュニケーション誘発システム。
A communication inducing system for inducing communication from the user by an anthropomorphic medium arranged at a position visible to the user,
Line-of-sight determining means for determining a state of the line of sight of the user,
Utterance judging means for judging the state of utterance from the user,
A storage unit for storing a gaze state determination result by the gaze position determination unit and a utterance state determination result by the utterance determination unit;
Communication state specifying means for specifying a communication state between the user and the anthropomorphic medium according to a gaze state determination result and an utterance state determination result stored in the storage means; and according to the communication state specified by the communication state specifying means A communication inducing system comprising control means for controlling voice and operation of the anthropomorphic medium.
前記発話状態判定手段は前記ユーザの発話があったとの前記視線状態に応じて前記ユーザの発話対象が何かを推定する発話対象推定手段を含み、前記コミュニケーション状態特定手段は、前記発話対象推定手段の判定結果および前記視線状態判定結果に基づいて複数のコミュニケーション状態の1つを特定する、請求項1記載のコミュニケーション誘発システム。   The utterance state determination means includes utterance target estimation means for estimating what the user's utterance target is based on the line-of-sight state that the user has spoken, and the communication state identification means includes the utterance target estimation means The communication induction system according to claim 1, wherein one of a plurality of communication states is specified based on the determination result and the gaze state determination result. 前記視線判定手段は前記ユーザの視線の状態を繰り返し判定し、前記発話判定手段は前記ユーザからの発話の状態を繰り返し判定し、
前記発話対象推定手段は、少なくとも前記記憶手段に記憶した前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果とに応じて前記ユーザの発話が前記擬人的媒体に向けられたものかどうか推定する、請求項2記載のコミュニケーション誘発システム。
The line-of-sight determination means repeatedly determines the state of the user's line of sight, the utterance determination means repeatedly determines the state of utterance from the user,
The utterance target estimation unit is configured to determine whether the user's utterance is the anthropomorphic medium according to at least the previous gaze state determination result and the utterance state determination result and the current gaze state determination result and the utterance state determination result stored in the storage unit. The communication inducing system according to claim 2, wherein the communication inducing system estimates whether or not the target is directed to.
前記発話対象推定手段は、さらに前回と今回との時間間隔の長短を考慮して発話対を推定する、請求項3記載のコミュニケーション誘発システム。   The communication induction system according to claim 3, wherein the utterance target estimation unit further estimates an utterance pair in consideration of the length of the time interval between the previous time and the current time. 前記視線判定手段は前記ユーザの視線の状態を繰り返し判定し、前記発話判定手段は前記ユーザからの発話の状態を繰り返し判定し、
前記コミュニケーション特定手段は、前記記憶手段に記憶した前回の視線状態判定結果および発話状態判定結果と今回の視線状態判定結果および発話状態判定結果とに応じて前記ユーザと前記擬人的媒体とのコミュニケーション状態を特定する、請求項1記載のコミュニケーション誘発システム。
The line-of-sight determination means repeatedly determines the state of the user's line of sight, the utterance determination means repeatedly determines the state of utterance from the user,
The communication specifying means is a communication state between the user and the anthropomorphic medium according to a previous gaze state determination result and speech state determination result and a current gaze state determination result and speech state determination result stored in the storage unit. The communication inducing system according to claim 1, wherein:
JP2007278479A 2007-10-26 2007-10-26 Communication induction system Pending JP2009106325A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007278479A JP2009106325A (en) 2007-10-26 2007-10-26 Communication induction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007278479A JP2009106325A (en) 2007-10-26 2007-10-26 Communication induction system

Publications (1)

Publication Number Publication Date
JP2009106325A true JP2009106325A (en) 2009-05-21

Family

ID=40775538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007278479A Pending JP2009106325A (en) 2007-10-26 2007-10-26 Communication induction system

Country Status (1)

Country Link
JP (1) JP2009106325A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097531A (en) * 2009-11-02 2011-05-12 Advanced Telecommunication Research Institute International System for continuing listening interaction
CN104587671A (en) * 2014-11-25 2015-05-06 百度在线网络技术(北京)有限公司 Intelligent doll and action control method for intelligent doll
JP2018050161A (en) * 2016-09-21 2018-03-29 公立大学法人首都大学東京 Communication system

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005279896A (en) * 2004-03-30 2005-10-13 Advanced Telecommunication Research Institute International Robot

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005279896A (en) * 2004-03-30 2005-10-13 Advanced Telecommunication Research Institute International Robot

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNJ201010017213; 中野  有紀子: 'ユーザの視線に気づく会話エージェント-アテンションの知覚と制御を利用した会話の円滑化-' 2005年度人工知能学会全国大会(第19回)論文集[CD-ROM] , 20050615, 3B2-08 P.1-4, 社団法人人工知能学会 *
JPN6013016264; 中野  有紀子: 'ユーザの視線に気づく会話エージェント-アテンションの知覚と制御を利用した会話の円滑化-' 2005年度人工知能学会全国大会(第19回)論文集[CD-ROM] , 20050615, 3B2-08 P.1-4, 社団法人人工知能学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011097531A (en) * 2009-11-02 2011-05-12 Advanced Telecommunication Research Institute International System for continuing listening interaction
CN104587671A (en) * 2014-11-25 2015-05-06 百度在线网络技术(北京)有限公司 Intelligent doll and action control method for intelligent doll
CN104587671B (en) * 2014-11-25 2017-01-25 百度在线网络技术(北京)有限公司 Intelligent doll and action control method for intelligent doll
JP2018050161A (en) * 2016-09-21 2018-03-29 公立大学法人首都大学東京 Communication system

Similar Documents

Publication Publication Date Title
Palinko et al. Robot reading human gaze: Why eye tracking is better than head tracking for human-robot collaboration
Cohn et al. Multimodal coordination of facial action, head rotation, and eye motion during spontaneous smiles
JP5001930B2 (en) Motion recognition apparatus and method
KR20180112756A (en) A head-mounted display having facial expression detection capability
JP5103682B2 (en) Interactive signage system
WO2019033569A8 (en) Eyeball movement analysis method, device and storage medium
CN108734083A (en) Control method, device, equipment and the storage medium of smart machine
Palinko et al. Eye gaze tracking for a humanoid robot
JP2015088096A (en) Information processor and information processing method
US10713477B2 (en) Expression determination device, expression determination method, and recording medium
JP2009045692A (en) Communication robot and its operating method
EP3467619A2 (en) Device for influencing virtual objects of augmented-reality
CN113303791A (en) Online self-service physical examination system for motor vehicle driver, mobile terminal and storage medium
Lemley et al. Eye tracking in augmented spaces: A deep learning approach
JP2014064248A (en) Image projection device and image projection method
JP2010112979A (en) Interactive signboard system
JP2009106325A (en) Communication induction system
JP4831750B2 (en) Communication trigger system
JP4682372B2 (en) Gaze direction detection device, gaze direction detection method, and program for causing computer to execute gaze direction detection method
Hu et al. Multi-user identification and efficient user approaching by fusing robot and ambient sensors
WO2015181729A1 (en) Method of determining liveness for eye biometric authentication
US20230077010A1 (en) Wearable facial movement tracking devices
Haritaoglu et al. Attentive Toys.
Voit et al. Tracking head pose and focus of attention with multiple far-field cameras
Bandini et al. Accuracy of a markerless acquisition technique for studying speech articulators. In Interspeech 2015

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100809

A131 Notification of reasons for refusal

Effective date: 20130409

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130530

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131112