JP2006079533A - Information processor, information processing method, and computer program - Google Patents

Information processor, information processing method, and computer program Download PDF

Info

Publication number
JP2006079533A
JP2006079533A JP2004265584A JP2004265584A JP2006079533A JP 2006079533 A JP2006079533 A JP 2006079533A JP 2004265584 A JP2004265584 A JP 2004265584A JP 2004265584 A JP2004265584 A JP 2004265584A JP 2006079533 A JP2006079533 A JP 2006079533A
Authority
JP
Japan
Prior art keywords
face
inclination
information processing
conference
tension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004265584A
Other languages
Japanese (ja)
Inventor
Kazumasa Murai
和昌 村井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004265584A priority Critical patent/JP2006079533A/en
Publication of JP2006079533A publication Critical patent/JP2006079533A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To evaluate internal states such as nervousness of a subject on the basis of information easily obtainable without imposing loads or the like on the subject. <P>SOLUTION: When a person is nervous, his or her face is kept upright, whereas when she/he is relaxed, his or her face tends to have a tilt to the right and left. So, a tilt of the face obtained from a photographed image of the face when the nervousness is known is associated with the nervousness and basic data are created. Afterwards, the nervousness in correspondence to the tilt of the face is estimated by comparison between the tilt of the face detected by the photographed image and the basic data. For example, by a tilt in a vertical direction of a vertical bisector of a line segment connecting right and left edges of the mouth on the face image, a tilt of the face is obtained. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、被験者の内部状態を評価する情報処理装置及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、被験者に負担をかけることなく簡易に得られる情報に基づいて被験者の緊張度などの内部状態を評価する情報処理装置及び情報処理方法、並びにコンピュータ・プログラムに関する。   The present invention relates to an information processing apparatus, an information processing method, and a computer program for evaluating an internal state of a subject, and in particular, an internal such as a degree of tension of a subject based on information easily obtained without imposing a burden on the subject. The present invention relates to an information processing apparatus, an information processing method, and a computer program for evaluating a state.

さらに詳しくは、本発明は、被撮影者を撮影した音声映像情報を被撮影者の緊張度に基づいて管理する情報処理装置及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、映像や音声、さらには使用したプレゼンテーション資料など会議の内容を記録した会議情報を、少なくとも1人の会議参加者の撮影画像に基づいて得られる緊張度に基づいてインデキシングやその他の情報の管理・分類を行なう情報処理装置及び情報処理方法、並びにコンピュータ・プログラムに関する。   More specifically, the present invention relates to an information processing apparatus and information processing method for managing audio-video information obtained by photographing a subject based on the degree of tension of the subject, and a computer program. In addition, information processing that manages and classifies conference information, such as presentation materials used, based on the degree of tension obtained based on the photographed image of at least one conference participant. The present invention relates to an apparatus, an information processing method, and a computer program.

人体の識別・検出技術は、個人認証などセキュリティ・システムとして、あるいはユーザに負担をかけないマンマシン・インターフェースとして開発されてきた。   Human body identification / detection technology has been developed as a security system such as personal authentication or as a man-machine interface that does not place a burden on the user.

人の識別・認証には、顔、声紋、虹彩、網膜毛細血管、指紋、手の指、甲などの生態情報を利用する方法が一般的である。ところが、顔、声紋以外は、人が認証を意識した所作、例えば、目や手の甲などを識別装置にかざしたりする行為が必要となるため、ユーザにとって煩わしい。また、人との共生を目指すロボットの場合、家庭やオフィスなどでそのような認証を意識したユーザの行為は不自然であり、また、複数の人を同時に識別できないという問題点もある。このような理由から、視覚データによる顔識別を行なう方法が有力であると思料される。   For identification / authentication of a person, a method using biological information such as a face, a voiceprint, an iris, a retinal capillary, a fingerprint, a finger of a hand, and a back is generally used. However, other than the face and the voiceprint, it is troublesome for the user because an action in which a person is conscious of authentication, for example, an action of holding an eye or the back of the hand over the identification device is necessary. In addition, in the case of a robot aiming at symbiosis with humans, there is a problem in that a user's action conscious of such authentication at home or office is unnatural, and a plurality of people cannot be identified simultaneously. For this reason, it is considered that a method for performing face identification using visual data is promising.

顔認識処理は、静止画又は動画などの画像フレーム中からユーザの顔の位置を同定したり顔の向きを認識したりする顔領域の抽出(若しくは顔検出)と、抽出された顔領域の画像情報を基に人物の顔を識別若しくは認識する顔識別という2つの工程に大別される。顔識別の手法としては、顔の各要素の相対的位置関係を用いたアルゴリズムや、幾何学的に不変の特徴と統計的な特徴の部分を組み合わせたアルゴリズム、局所的な特徴とその構成に重点を置いたアルゴリズムなどが挙げられる(例えば、非特許文献1を参照のこと)。初期は横顔を使った認識技術も検討されたが、現在は、正面画像の認識技術が中心となっている。   In the face recognition process, face area extraction (or face detection) for identifying the position of a user's face or recognizing the face direction from an image frame such as a still image or a moving image, and image information of the extracted face area are used. The process is roughly divided into two processes: face identification for identifying or recognizing a person's face. Face recognition methods include algorithms that use the relative positional relationship of each face element, algorithms that combine geometrically invariant features and statistical features, and focus on local features and their composition. (For example, see Non-Patent Document 1). Initially, a recognition technique using a profile was also studied, but at present, the recognition technique of the front image is the center.

さらに、顔認識の拡張技術として、撮影画像に含まれる顔の表情を評価して、画像の分類や管理に利用する方法が考えられる。例えば、入力された撮影画像中の被撮影者の表情を評価して採点し、被撮影者がよい表情である撮影画像をプリントして楽しむことができる(例えば、特許文献1を参照のこと)。   Furthermore, as an expanded technique for face recognition, a method of evaluating facial expressions included in a captured image and using it for image classification and management can be considered. For example, the user's facial expression in the input captured image can be evaluated and scored, and the photographed person can print and enjoy a photographed image with a good facial expression (see, for example, Patent Document 1). .

本発明者らは、顔の表情など被験者の表層的な状態だけでなく、緊張度などの心理状態や感情といった内部状態を検出することができれば、さらに充実したサービスを提供することができると思料する。ところが、被撮影者の画像解析により表情を評価することはできるが、内部状態の評価はうまく行なわれていないのが実情である。何故ならば、人間の反応や感情は常に変化するが、その状態が必ずしも言葉や身振りに現れないことが多いからである。   If the present inventors can detect not only the superficial state of the subject such as facial expressions but also the internal state such as the psychological state and emotion such as the degree of tension, it is thought that a more fulfilling service can be provided. To do. However, although the facial expression can be evaluated by image analysis of the subject, the actual situation is that the internal state has not been evaluated well. This is because human reactions and emotions always change, but the state does not always appear in words or gestures.

例えば、人体の生理情報を検知して人体の緊張度を算出し、この算出結果すなわち人体の緊張度に応じて駆動制御することで、人間の感情を読み取り、感情に適切に対応させた機械動作を実現することができる(例えば、特許文献2を参照のこと)。   For example, by detecting physiological information of the human body and calculating the degree of tension of the human body, and by performing drive control according to the calculation result, that is, the degree of tension of the human body, the human motion is read and the machine operation appropriately corresponds to the emotion (For example, refer to Patent Document 2).

また、競技やスポーツにおいて、選手や動物に生体信号を検出する生体信号検出器を取り付け、得られた生体信号を配信することで、観戦者は選手や動物のコンディションや緊張度をリアルタイムで知ることが可能となり、スポーツや競技の娯楽性を高めた競技観覧システムを実現することができる(例えば、特許文献3を参照のこと)。   In competitions and sports, a biological signal detector that detects biological signals is attached to athletes and animals, and the obtained biological signals are distributed so that spectators can know the conditions and tension of athletes and animals in real time. Therefore, it is possible to realize a competition viewing system that enhances the amusement of sports and competitions (see, for example, Patent Document 3).

しかしながら、これらは緊張度を評価する生体信号を取得するために、被験者に検出器を取り付ける必要があるため、被験者に煩わしさを与え、簡便性に欠けるシステムとなる。生体信号として、主に脈拍、心音、呼吸音、発刊量、体内の乳酸量、筋肉弾性度若しくは弛緩度、脳波などを扱っており、被験者にプローブを取り付ける必要がある。(脳波は、通常、頭皮上に付着した電極を通して、微小な電位変化から計測する。簡易的な脳波計測装置として、例えば、頭皮上の、左右前頭部の2チャンネルから、脳の活動電位を計測するシステム(例えば、非特許文献2を参照のこと)がある。)   However, since it is necessary to attach a detector to the subject in order to acquire a biological signal for evaluating the degree of tension, these systems are bothersome to the subject and lack in convenience. As biological signals, mainly the pulse, heart sound, breathing sound, amount of publication, amount of lactic acid in the body, muscle elasticity or relaxation, electroencephalogram, etc., it is necessary to attach a probe to the subject. (A brain wave is usually measured from a minute potential change through an electrode attached to the scalp. As a simple electroencephalogram measuring device, for example, the action potential of the brain is measured from two channels of the left and right frontal regions on the scalp. (For example, see Non-Patent Document 2).

特開2004−46591号公報JP 2004-46591 A 特開2002−23918号公報JP 2002-23918 A 特開2004−192632号公報JP 2004-192632 A 社団法人情報処理学会編「新版 情報処理ハンドブック」(オーム社、平成7年11月25日p.1193)Information Processing Society of Japan “New Edition Information Processing Handbook” (Ohm, November 25, 1995, p. 1193) ひとセンシング株式会社、HSK中枢リズムモニタシステムHito Sensing Co., Ltd., HSK Central Rhythm Monitor System

本発明の目的は、緊張度や感情、心理状態といった被験者の内部状態を好適に評価することができる、優れた情報処理装置及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。   An object of the present invention is to provide an excellent information processing apparatus, information processing method, and computer program capable of suitably evaluating a subject's internal state such as tension, emotion, and psychological state.

本発明のさらなる目的は、被験者に負担をかけることなく簡易に得られる情報に基づいて被験者の緊張度などの内部状態を評価することができる、優れた情報処理装置及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。   A further object of the present invention is to provide an excellent information processing apparatus and information processing method capable of evaluating an internal state such as a degree of tension of a subject based on information obtained easily without imposing a burden on the subject, and a computer To provide a program.

本発明は、上記課題を参酌してなされたものであり、その第1の側面は、被験者の内部状態の評価を行なう情報処理装置であって、被験者を撮影した画像を入力する画像入力手段と、入力画像から被験者の顔を検出する顔検出手段と、検出された顔領域から顔の傾きの指標を検出する指標検出手段と、顔の傾き又は顔の傾きの変化を求める顔の傾き検出手段と、顔の傾き又は顔の傾きの変化パターンに基づいて、被験者の内部状態を評価する評価手段とを具備し、前記評価手段は、被験者の内部状態として例えば緊張度を評価する。   The present invention has been made in consideration of the above problems, and a first aspect of the present invention is an information processing apparatus that evaluates an internal state of a subject, and an image input unit that inputs an image of the subject. A face detecting means for detecting the face of the subject from the input image, an index detecting means for detecting a face inclination index from the detected face area, and a face inclination detecting means for determining a change in the face inclination or the face inclination. And evaluation means for evaluating the internal state of the subject based on the face inclination or the change pattern of the face inclination. The evaluation means evaluates, for example, the degree of tension as the internal state of the subject.

顔認識技術はユーザに負担をかけないマンマシン・インターフェースとして開発されてきた。また、顔画像から被撮影者の表情を評価して撮影画像の分類・整理などに利用することができる。   Face recognition technology has been developed as a man-machine interface that does not burden the user. In addition, the facial expression of the subject can be evaluated from the face image and used for classification and organization of the photographed image.

他方、顔の表情など被験者の表層的な状態だけでなく、緊張度などの心理状態や感情といった内部状態を検出することによって、より被験者に適合させたサービスを実現することができる。   On the other hand, by detecting not only the surface state of the subject such as facial expressions, but also the internal state such as the psychological state and emotion such as the degree of tension, a service more adapted to the subject can be realized.

ところが、従来は、顔画像から被撮影者の緊張度などの内部状態を取得するといったことは行なわれておらず、脈拍、心音、呼吸音、発刊量、体内の乳酸量、筋肉弾性度若しくは弛緩度、脳波などの生体信号を基に緊張度を測定しており、生体信号の検出器を被験者に取り付けるという煩わしさがある。   However, conventionally, the internal state such as the tension level of the subject is not acquired from the face image, and the pulse, heart sound, breathing sound, published amount, lactic acid amount in the body, muscle elasticity or relaxation is not performed. The degree of tension is measured on the basis of a biological signal such as an electroencephalogram and an electroencephalogram, and there is a troublesome task of attaching a biological signal detector to the subject.

例えば、会議の参加者は、それぞれの年齢や社歴、地位などに応じて緊張したりリラックスしたりする。また、会議の進行に応じて緊張の度合いも時間的に変化していくことが想定される。   For example, participants in the conference are nervous or relaxed according to their age, company history, position, and the like. It is also assumed that the degree of tension changes with time as the conference progresses.

ここで、本発明者らは、ヒトは緊張していると想定される場面では顔は正立していることが多い一方、リラックスしていると想定される場面では顔が左右に傾く(左右に振れる)という傾向を先見的に導き出した。   Here, the inventors often face upright in a scene where humans are assumed to be tense, while the face tilts to the left and right in scenes assumed to be relaxed (left and right) ) Was proactively derived.

そこで、本発明では、撮影画像中で顔の傾きを検出し、その傾きから緊張度合いを推定するようにした。この場合、緊張度を取得するために、被験者に検出信号を取り付ける必要がないので、被験者に身体的並びに心理的な負担をかけないで済む。例えば、撮影した動画像のインデキシングなどの画像の分類や整理を行なうための指標として緊張度を利用する場合には、記録された撮影画像そのものを使用して緊張度を推定することができるので、簡易なシステムとなる。   Therefore, in the present invention, the inclination of the face is detected in the photographed image, and the degree of tension is estimated from the inclination. In this case, since it is not necessary to attach a detection signal to the subject in order to acquire the degree of tension, it is not necessary to place a physical and psychological burden on the subject. For example, when using tension as an index for classifying and organizing images, such as indexing of captured moving images, the tension can be estimated using the recorded captured image itself. It becomes a simple system.

本発明における緊張度の推定処理は、例えば、緊張度が既知であるときの顔の画像を撮影し、この撮影画像から得られる顔の傾きと緊張度との関連付けを行なって、基礎データを作成するステップと、撮影画像を基に顔の傾きを検出し、基礎データとの比較によって顔の傾きに対応する緊張度を推定するステップで構成される。   In the tension level estimation process according to the present invention, for example, an image of a face when the tension level is known is captured, and the inclination of the face obtained from the captured image is associated with the tension level to create basic data. And a step of detecting the tilt of the face based on the photographed image and estimating the degree of tension corresponding to the tilt of the face by comparison with the basic data.

ここで、顔の傾きは、正面の顔画像において、左右の口角、又は左右の虹彩の位置を抽出し、左右の口角又は左右の虹彩間を結ぶ線分の垂直2等分線を引き、この垂直2等分線の鉛直方向に対する傾きにより、比較的容易に求めることができる。   Here, the inclination of the face is obtained by extracting the left and right mouth corners or left and right iris positions in the front face image and drawing a vertical bisector connecting the left and right mouth corners or the left and right irises. It can be determined relatively easily by the inclination of the vertical bisector with respect to the vertical direction.

緊張度が既知であるときの顔の画像から顔の傾きを求めて、基礎データを作成する段階では、例えば、生体信号検出器で得られる生体信号を用いてより正確な緊張度を取得し、緊張度と顔の傾きとの正しい関連付けを行なうようにしてもよい。このような場合であっても、一旦基礎データが作成されれば、撮影画像から得られる傾きを基礎データ上で比較照合すればよく、生体信号は不要となり、緊張度を簡易に推定することができる。   In the step of obtaining the inclination of the face from the image of the face when the degree of tension is known and creating the basic data, for example, obtaining a more accurate degree of tension using the biological signal obtained by the biological signal detector, The correct association between the degree of tension and the inclination of the face may be performed. Even in such a case, once the basic data is created, the inclination obtained from the captured image may be compared and checked on the basic data, the biological signal becomes unnecessary, and the tension can be easily estimated. it can.

例えば、撮影したビデオ画像中の被撮影者の顔の傾きを検出し、傾きそのもの、又は傾きから推定される緊張度に基づいて、ビデオ画像のインデキシングなどメタデータを作成することができる。   For example, it is possible to detect the inclination of the face of the subject in the captured video image and create metadata such as indexing of the video image based on the inclination itself or the degree of tension estimated from the inclination.

緊張していると場面では顔は正立し、リラックスしている場面では顔が左右に傾く、という一般的な傾向があるものの、リラックスしている場面で顔がどの程度左右に傾く(あるいは振れる)のかは、年齢や社歴、地位、その他の個体情報などに応じて個体差がある。したがって、本システムは、複数の被撮影者から基礎データを得るよりも、同じ被撮影者において、顔の傾きと緊張度の自己相関をとる方法に適している。   Although there is a general tendency that the face is upright when the scene is tense and the face tilts left and right when the scene is relaxed, how much the face tilts (or shakes) when the scene is relaxed ), There are individual differences depending on age, company history, position, and other individual information. Therefore, this system is more suitable for a method of obtaining the autocorrelation between the inclination of the face and the degree of tension in the same subject rather than obtaining basic data from a plurality of subjects.

また、同じ人物であっても、会議中に聞き手となっているときと、発言しているときとでは、顔の傾きと緊張度との対応関係が著しく変化する。したがって、話中に得られたデータは除外して考えることが好ましい。   Even if the person is the same person, the correspondence between the inclination of the face and the degree of tension varies significantly between being a listener during a meeting and speaking. Therefore, it is preferable to exclude the data obtained during the conversation.

例えば、映像や音声によって会議の内容を記録した会議情報を扱うシステムでは、複数の会議参加者の撮影画像が記録されるが、複数の参加者の緊張度合いをそれぞれの画像から推定することができる。この場合、各自の緊張度の変化を個別に扱ってもよいが、各自の緊張度を人毎に重みを付与して重畳することにより、会議全体での緊張度の変化を表すことができる。   For example, in a system that handles conference information in which the content of a conference is recorded by video or audio, captured images of a plurality of conference participants are recorded, but the tension level of the plurality of participants can be estimated from each image. . In this case, the change in the degree of tension of each person may be handled individually, but the change in the degree of tension in the entire meeting can be represented by superimposing each person's tension degree by giving a weight to each person.

ここで、顔が傾く傾向は人それぞれなので、人毎に重みを正規化してもよいし、発言中か否かにより正規化してもよい。勿論、動的に正規化してもよい。   Here, since the tendency of the face to tilt is different for each person, the weight may be normalized for each person, or may be normalized depending on whether the person is speaking. Of course, you may normalize dynamically.

このようにして会議全体での緊張度の時間的な推移が得られると、映像音声などからなる会議情報を、会議全体の緊張度に基づいてインデキシングを行なうことができる。例えば、会議全体での緊張度が高まった時点から代表フレームを抽出することができる。また、顔の傾き度合いにより、緊張度合いを分類することができる。例えば、参加者間で立場を順序付けたり、グループ分けしたりすることができる。   When the temporal transition of the tension level in the entire conference is obtained in this way, the conference information including video and audio can be indexed based on the tension level of the entire conference. For example, the representative frame can be extracted from the time when the degree of tension in the entire meeting increases. Further, the degree of tension can be classified according to the degree of inclination of the face. For example, positions can be ordered or grouped among participants.

また、本発明の第2の側面は、被験者の内部状態の評価を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、被験者を撮影した画像を入力する画像入力ステップと、入力画像から被験者の顔を検出する顔検出ステップと、検出された顔領域から顔の傾きの指標を検出する指標検出ステップと、顔の傾き又は顔の傾きの変化を求める顔の傾き検出ステップと、顔の傾き又は顔の傾きの変化パターンに基づいて、被験者の内部状態を評価する評価ステップとを具備することを特徴とするコンピュータ・プログラムである。   According to a second aspect of the present invention, there is provided a computer program written in a computer-readable format so that a process for evaluating the internal state of a subject is executed on a computer system. An image input step for inputting an image; a face detection step for detecting the face of the subject from the input image; an index detection step for detecting an index of face inclination from the detected face region; and A computer program comprising: a face inclination detection step for obtaining a change; and an evaluation step for evaluating a subject's internal state based on a face inclination or a face inclination change pattern.

本発明の第2の側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第2の側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第1の側面に係る情報処理装置と同様の作用効果を得ることができる。   The computer program according to the second aspect of the present invention defines a computer program described in a computer-readable format so as to realize predetermined processing on a computer system. In other words, by installing the computer program according to the second aspect of the present invention in the computer system, a cooperative action is exhibited on the computer system, and the information processing according to the first aspect of the present invention is performed. The same effect as the apparatus can be obtained.

本発明によれば、被験者に負担をかけることなく簡易に得られる情報に基づいて被験者の緊張度などの内部状態を評価することができる、優れた情報処理装置及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。   Advantageous Effects of Invention According to the present invention, an excellent information processing apparatus, information processing method, and computer program capable of evaluating an internal state such as a degree of tension of a subject based on information easily obtained without imposing a burden on the subject Can be provided.

また、本発明によれば、被撮影者を撮影した映像音声情報を被撮影者の緊張度に基づいて管理することができる、優れた情報処理装置及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。   Further, according to the present invention, there are provided an excellent information processing apparatus, information processing method, and computer program capable of managing video / audio information of a photographed person based on the degree of tension of the photographed person. be able to.

また、本発明によれば、映像や音声、さらには使用したプレゼンテーション資料など会議の内容を記録した会議情報を、少なくとも1人の会議参加者の撮影画像から得られる緊張度に基づいてインデキシングやその他の情報の管理・分類を行なうことができる、優れた情報処理装置及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。   In addition, according to the present invention, the conference information that records the content of the conference such as video and audio, as well as used presentation materials is indexed based on the degree of tension obtained from the photographed image of at least one conference participant, and the like. It is possible to provide an excellent information processing apparatus, information processing method, and computer program capable of managing and classifying information.

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。   Other objects, features, and advantages of the present invention will become apparent from more detailed description based on embodiments of the present invention described later and the accompanying drawings.

以下、図面を参照しながら本発明の実施形態について詳解する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

本発明は、被験者に負担をかけることなく簡易に得られる情報に基づいて被験者の緊張度などの内部状態を評価するための情報処理装置に関するが、具体的には、撮影情報を基に被撮影者の緊張度を推定することができる。   The present invention relates to an information processing apparatus for evaluating an internal state such as a degree of tension of a subject based on information that is easily obtained without imposing a burden on the subject. The person's tension can be estimated.

本発明では、ヒトは緊張している場面では顔は正立しているが、リラックスしている場面では顔が左右に傾くという傾向を基本原理として利用する。顔画像の左右の口角間を結ぶ線分の垂直2等分線の鉛直方向に対する傾きにより、顔の傾きを求めて緊張度を推定する。   In the present invention, the basic principle is that the face is upright in a scene where a human is nervous, but the face is inclined to the left and right in a relaxed scene. The degree of tension is estimated by obtaining the inclination of the face based on the inclination of the perpendicular bisector of the line segment connecting the left and right mouth corners of the face image with respect to the vertical direction.

そして、本発明によれば、ビデオなどの撮影情報に基づいて推定された被撮影者の緊張度を利用して、長時間にわたるビデオのインデキシングやその他の処理を施すことができる。例えば、緊張度が高くなった時点から代表フレームを抽出することができる。   According to the present invention, it is possible to perform video indexing and other processing over a long period of time using the degree of tension of the subject estimated based on shooting information such as video. For example, the representative frame can be extracted from the time when the degree of tension becomes high.

A.装置構成
図1には、本発明の実施に供される情報処理装置のハードウェア構成を模式的に示している。
A. Device Configuration FIG. 1 schematically shows a hardware configuration of an information processing device used for implementing the present invention.

図示のシステムは、プロセッサ10を中心に構成されている。プロセッサ10は、オペレーティング・システム(OS)が提供するプログラム実行環境下で、メモリに記憶されたプログラムに基づいて各種の処理を実行する。また、プロセッサ10は、外部バス・インターフェース14及びバス30を介して接続されている各種の周辺機器を制御している。バス30に接続された周辺機器は次のようなものである。   The illustrated system is configured around a processor 10. The processor 10 executes various processes based on a program stored in a memory under a program execution environment provided by an operating system (OS). The processor 10 also controls various peripheral devices connected via the external bus interface 14 and the bus 30. The peripheral devices connected to the bus 30 are as follows.

メモリ20は、例えばDRAM(Dynamic RAM)などの半導体メモリで構成され、プロセッサ10において実行されるプログラム・コードをロードしたり、実行プログラムの作業データを一時格納したりするために使用される。メモリ20は、プロセッサ10のメモリ空間を構成する。   The memory 20 is composed of a semiconductor memory such as a DRAM (Dynamic RAM), for example, and is used for loading a program code executed in the processor 10 and temporarily storing work data of the execution program. The memory 20 constitutes a memory space of the processor 10.

ディスプレイ・コントローラ21は、プロセッサ10から送られてくる描画命令に従って表示画像を生成し、表示装置22に送る。ディスプレイ・コントローラに接続された表示装置22は、ディスプレイ・コントローラ21から送られた表示画像情報に従い、その画像を画面に表示出力する。   The display controller 21 generates a display image according to the drawing command sent from the processor 10 and sends it to the display device 22. The display device 22 connected to the display controller displays the image on the screen according to the display image information sent from the display controller 21.

入出力インターフェース23は、キーボード24やマウス25が接続されており、キーボード24やマウス25からの入力信号をプロセッサ10へ転送する。   The input / output interface 23 is connected to a keyboard 24 and a mouse 25, and transfers input signals from the keyboard 24 and mouse 25 to the processor 10.

入出力インターフェース23は、例えばUSB(Universal Serial Bus)などの汎用インターフェースを備えており、さまざまな情報機器を図示の計算機システムに接続することができる。例えば、ユーザ若しくはその他の被撮影者の画像入力を行なう場合には、カメラ29を入出力インターフェース23経由で接続することができる。   The input / output interface 23 includes a general-purpose interface such as USB (Universal Serial Bus), for example, and various information devices can be connected to the computer system shown in the figure. For example, the camera 29 can be connected via the input / output interface 23 when inputting an image of a user or other subject.

ネットワーク・インターフェース26は、LAN(Local Area Network)やインターネットなどの外部ネットワークに接続されており、インターネットを介したデータ通信を制御する。すなわち、プロセッサ10から送られたデータをインターネット上の他の装置へ転送するとともに、インターネットを介して送られてきたデータを受け取りプロセッサ10に渡す。例えば、プログラムやデータなどをネットワーク経由で外部から受信することができる。   The network interface 26 is connected to an external network such as a LAN (Local Area Network) or the Internet, and controls data communication via the Internet. That is, the data sent from the processor 10 is transferred to another device on the Internet, and the data sent via the Internet is received and passed to the processor 10. For example, programs and data can be received from outside via a network.

ハード・ディスク装置(HDD:Hard Disk Drive)コントローラ27には、HDDなどの大容量外部記憶装置28が接続されており、HDD コントローラ27が接続されたHDD28へのデータの入出力を制御する。HDD28には、プロセッサが実行すべきオペレーティング・システム(OS)のプログラム、アプリケーション・プログラム、ドライバ・プログラム、さらにはプログラムによって参照又は再生処理が行なわれるデータやコンテンツなどが格納されている。本実施形態では、各プログラムは、HDD28上に実行可能形式でインストールされる。   A hard disk drive (HDD: Hard Disk Drive) controller 27 is connected to a large-capacity external storage device 28 such as an HDD, and controls input / output of data to / from the HDD 28 to which the HDD controller 27 is connected. The HDD 28 stores an operating system (OS) program to be executed by the processor, an application program, a driver program, and data and contents to be referred to or reproduced by the program. In the present embodiment, each program is installed on the HDD 28 in an executable format.

なお、情報処理装置はパーソナル・コンピュータなどの一般的な計算機システムを用いて構成することができるが、図1に示した以外にも多くの電気回路などが必要である。但し、これらは当業者には周知であり、また、本発明の要旨を構成するものではないので、本明細書中では省略している。また、図面の錯綜を回避するため、図中の各ハードウェア・ブロック間の接続も一部しか図示していない点を了承されたい。   Although the information processing apparatus can be configured using a general computer system such as a personal computer, many electric circuits other than those shown in FIG. 1 are required. However, since these are well known to those skilled in the art and do not constitute the gist of the present invention, they are omitted in the present specification. Also, it should be noted that only a part of the connections between the hardware blocks in the figure is shown in order to avoid the confusion of the drawings.

情報処理装置上では、所望のアプリケーション・プログラムを起動することにより、さまざまな適用業務の処理を実行することができる。とりわけ本実施形態では、以下に示す機能を持つアプリケーション・プログラムがインストールされているものとする。
(1)カメラからの入力画像(動画、静止画、音声映像を含む)の処理
(2)入力画像の蓄積
(3)入力画像の再生
(4)入力画像に含まれる被撮影者の顔画像から緊張度の推定
(5)推定された緊張度に基づくインデキシングやその他の画像管理
On the information processing apparatus, various application processes can be executed by starting a desired application program. In particular, in the present embodiment, it is assumed that an application program having the following functions is installed.
(1) Processing of input image from camera (including moving image, still image, audio video) (2) Accumulation of input image (3) Reproduction of input image (4) From face image of subject to be included in input image Tension estimation (5) Indexing and other image management based on estimated tension

B.緊張度の推定処理
本発明では、撮影情報を基に被撮影者の緊張度を推定するという、被験者に負担をかけない緊張度推定方法を提供する。この処理は、ヒトは緊張している場面では顔は正立しているが、リラックスしている場面では顔が左右に傾くという傾向を基本原理として利用するものである。
B. Tension level estimation process The present invention provides a tension level estimation method that does not place a burden on a subject, in which the level of tension of a subject is estimated based on imaging information. This process uses as a basic principle the tendency that the face is upright when a person is nervous, but the face is tilted to the left and right when the person is relaxed.

撮影した顔画像を基の顔の傾きを測定する具体的な方法として、顔画像の左右の口角間を結ぶ線分の垂直2等分線の鉛直方向に対する傾きにより、顔の傾きを求めて緊張度を推定する。勿論、左右の口角ではなく、左右の虹彩間を結ぶ線分の垂直2等分線の鉛直方向に対する傾きを用いて顔の傾きを求める方法や、その他、顔画像から顔の傾きを求める代替的な手法は幾つかある。   As a specific method of measuring the tilt of the face based on the captured face image, the tension is obtained by determining the tilt of the face by the tilt of the vertical bisector connecting the left and right mouth corners of the face image with respect to the vertical direction. Estimate the degree. Of course, instead of the left and right mouth corners, a method for obtaining the face inclination using the vertical bisector of the line segment connecting the left and right irises with respect to the vertical direction, and other alternatives for obtaining the face inclination from the face image There are several techniques.

本発明における緊張度の推定処理は、例えば、緊張度が既知であるときの顔の画像を撮影し、この撮影画像から得られる顔の傾きと緊張度との関連付けを行なって、基礎データを作成するステップと、撮影画像を基に顔の傾きを検出し、基礎データとの比較によって顔の傾きに対応する緊張度を推定するステップで構成される。   In the tension level estimation process according to the present invention, for example, an image of a face when the tension level is known is captured, and the inclination of the face obtained from the captured image is associated with the tension level to create basic data. And a step of detecting the tilt of the face based on the photographed image and estimating the degree of tension corresponding to the tilt of the face by comparison with the basic data.

図2には、顔画像から緊張度を推定するための処理手順をフローチャートの形式で示している。   FIG. 2 shows a processing procedure for estimating the degree of tension from the face image in the form of a flowchart.

まず、カメラ29より撮影された動画像を入力する(ステップS1)。そして、動画像から被撮影者の顔領域を検出する(ステップS2)。顔領域は、例えば、画像フレームをスキャンして、所定の顔テンプレートとのマッチングを行ない、類似どの高い場所を顔領域として抽出することができる。   First, a moving image taken by the camera 29 is input (step S1). Then, the face area of the subject is detected from the moving image (step S2). The face area can be extracted as a face area by scanning an image frame and performing matching with a predetermined face template, for example.

次いで、正面の顔画像において、左右の口角の位置を抽出する(ステップS3)。そして、左右の口角間を結ぶ線分の垂直2等分線を引き、これと鉛直な直線に対する傾きから、顔の傾きを求める(ステップS4)。   Next, the positions of the left and right mouth corners are extracted from the front face image (step S3). Then, a perpendicular bisector connecting the left and right mouth corners is drawn, and the inclination of the face is obtained from the inclination with respect to the vertical straight line (step S4).

図3には、顔画像から左右の口角の位置を検出し、これらを結ぶ線分の垂直2等分線を引いた様子を示している。また、図4には、この垂直2等分線の傾きから顔の傾きθを求める様子を示している。   FIG. 3 shows a state in which the positions of the left and right mouth corners are detected from the face image, and the perpendicular bisector of the line segment connecting these positions is drawn. FIG. 4 shows how the face inclination θ is obtained from the inclination of the perpendicular bisector.

また、顔の傾きを求める代替的な手法として、左右の虹彩の位置を抽出し、左右の口角又は左右の虹彩間を結ぶ線分の垂直2等分線を引き、これと鉛直な直線に対する傾きから顔の傾きθを求めることができる。図5には、顔画像から左右の虹彩の位置を検出し、これらを結ぶ線分の垂直2等分線を引いた様子を示している。また、図6には、この垂直2等分線の傾きから顔の傾きθを求める様子を示している。   Alternatively, as an alternative method for obtaining the tilt of the face, the left and right iris positions are extracted, the left and right mouth corners or the perpendicular bisector connecting the left and right irises are drawn, and the tilt with respect to the vertical straight line. From the above, the face inclination θ can be obtained. FIG. 5 shows a state in which the positions of the left and right irises are detected from the face image, and a perpendicular bisector is drawn between the connecting lines. FIG. 6 shows how the face inclination θ is obtained from the inclination of the perpendicular bisector.

次いで、顔の傾きの時間的な推移θ(t)のパターン認識を行なう(ステップS5)。   Next, pattern recognition of the temporal transition θ (t) of the face inclination is performed (step S5).

ヒトは緊張していると想定される場面では顔は正立していることが多い一方、リラックスしていると想定される場面では顔が左右に傾く(左右に振れる)という傾向がある。例えば、会議の参加者は、それぞれの年齢や社歴、地位などに応じて緊張したりリラックスしたりする。また、会議の進行に応じて緊張の度合いも時間的に変化していくことが想定される。そこで、撮影画像中で顔の傾きを検出し、その傾きのパターンから緊張度合いを推定することができる。  Humans tend to stand upright in scenes that are assumed to be tense, while faces tend to tilt left and right (sway from side to side) in scenes that are assumed to be relaxed. For example, participants in the conference are nervous or relaxed according to their age, company history, position, and the like. It is also assumed that the degree of tension changes with time as the conference progresses. Therefore, it is possible to detect the inclination of the face in the captured image and estimate the degree of tension from the inclination pattern.

顔の傾きパターンθ(t)を用いた緊張度の推定処理は、緊張度が既知であるときの顔の画像を撮影し、この撮影画像から得られる顔の傾きと緊張度との関連付けを行なって、基礎データを作成するステップと、撮影画像を基に顔の傾きを検出し、基礎データとの比較によって顔の傾きに対応する緊張度を推定するステップで構成される。   In the tension estimation process using the face inclination pattern θ (t), an image of a face when the tension is known is photographed, and the face inclination obtained from the photographed image is associated with the tension. Thus, the method includes a step of creating basic data and a step of detecting the tilt of the face based on the photographed image and estimating the degree of tension corresponding to the tilt of the face by comparison with the basic data.

基礎データを作成する段階では、緊張度が既知であるときの顔の画像から顔の傾きを求めるとともに、脈拍、心音、呼吸音、発刊量、体内の乳酸量、筋肉弾性度若しくは弛緩度、脳波といった、一般的な生体信号検出器で得られる生体信号を用いてより正確な緊張度を取得し、緊張度と顔の傾きとの正しい関連付けを行なうことができる。   At the stage of creating the basic data, the inclination of the face is obtained from the image of the face when the degree of tension is known, and the pulse, heart sound, breathing sound, publication amount, lactic acid amount in the body, muscle elasticity or relaxation, EEG Thus, it is possible to obtain a more accurate degree of tension using a biological signal obtained by a general biological signal detector, and to correctly associate the degree of tension and the inclination of the face.

図7には、顔画像から得られた顔の傾きの時間的推移θ(t)と、脈拍数との対応関係を例示している。自律神経である交感神経が亢進すれば緊張度が高まり、副交感神経が亢進すれば緊張度が低くなる。脈拍数などの生理情報から緊張度を検知する方法自体は周知である。したがって、被撮影者の生理情報から緊張度が高まっているときの顔の傾き、又は顔が左右に振れるパターンを同定して、基礎データを作成することができる。   FIG. 7 exemplifies the correspondence relationship between the temporal transition θ (t) of the face inclination obtained from the face image and the pulse rate. When the sympathetic nerve, which is an autonomic nerve, increases, the degree of tension increases, and when the parasympathetic nerve increases, the degree of tension decreases. The method of detecting the degree of tension from physiological information such as the pulse rate is well known. Therefore, the basic data can be created by identifying the inclination of the face when the degree of tension is increasing or the pattern of the face swinging left and right from the physiological information of the subject.

緊張している場面では顔は正立し、リラックスしている場面では顔が左右に傾く、という一般的な傾向があるものの、リラックスしている場面で顔がどの程度左右に傾く(あるいは振れる)のかは、年齢や社歴、地位、その他の個体情報などに応じて個体差がある。このため、複数の被撮影者から基礎データを得るよりも、同じ被撮影者において、顔の傾きと緊張度の自己相関をとる方法に適している。   Although there is a general tendency that the face is upright in a tense scene and the face is tilted left and right in a relaxed scene, how much the face tilts (or shakes) in a relaxed scene There are individual differences depending on age, company history, position, and other individual information. For this reason, it is suitable for the method of taking the autocorrelation between the inclination of the face and the tension degree in the same subject, rather than obtaining basic data from a plurality of subjects.

また、同じ人物であっても、会議中に聞き手となっているときと発言しているときとでは、顔の傾きと緊張度との対応関係が著しく変化するので、話中に得られたデータは除外して考えることが好ましい。   In addition, even if the person is the same person, the correspondence between the inclination of the face and the degree of tension changes significantly between being a listener and speaking during the meeting. Is preferably excluded.

そして、一旦基礎データが作成された以降は、基礎データとの比較によって顔の傾きに対応する緊張度を推定するステップを実行することができる。撮影画像から得られる傾きを基礎データ上で比較照合すればよく、生体信号は不要となり、被撮影者の緊張度を簡易に推定することができる。例えば、被撮影者の顔の傾きθが所定角度に到達した、あるいは顔が左右に振れる幅Δθ、又は左右に振れる速度dθ/dtが所定値になったなど、θ(t)のパターンを基礎データと比較することによって、被撮影者がリラックスしたかどうかを判別することができる。   Once the basic data is created, a step of estimating the degree of tension corresponding to the inclination of the face can be executed by comparison with the basic data. The inclination obtained from the photographed image may be compared and verified on the basic data, the biological signal becomes unnecessary, and the degree of tension of the subject can be easily estimated. For example, based on the pattern of θ (t), the inclination θ of the face of the subject reaches a predetermined angle, the width Δθ that the face swings left or right, or the speed dθ / dt that swings left or right becomes a predetermined value. By comparing with the data, it can be determined whether or not the subject is relaxed.

C.会議記録システムへの応用
上述したように、撮影情報から得られる被撮影者の顔の傾きを基に、被撮影者の緊張度を推定することができる。
C. Application to Conference Recording System As described above, the degree of tension of the subject can be estimated based on the inclination of the subject's face obtained from the photographing information.

一方、会議の参加者を撮影した映像や参加者の発言内容などの音声などのビデオ情報、さらには会議で使用されるホワイトボードや、スライドその他のプレゼンテーション資料など、会議に関連するさまざまなメディア・データを会議の進行と同期させて保管するという会議記録システムが一般的になりつつある。   On the other hand, there are various media related to the conference such as video information such as images of the participants and audio such as the participants' remarks, as well as whiteboards, slides and other presentation materials used in the conference. Conference recording systems that store data in synchronization with the progress of the conference are becoming common.

会議はほぼ毎日複数の会議において時間毎に開催されるため、蓄積された会議情報は膨大であり、その数は日々増加していく。会議での決定事項を見返すなど、会議データを適切に再利用するためには、見たいシーンをすばやく検索する技術が不可欠であり、会議における音声映像情報を記録した会議情報についてのインデックスを作成して、所望する情報を効率よく検索する必要がある。   Since conferences are held almost every day in a plurality of conferences every hour, the accumulated conference information is enormous, and the number thereof increases day by day. In order to reuse conference data appropriately, such as looking back on decisions made at conferences, it is essential to quickly search for the scenes you want to see, and create an index for conference information that records audio-video information at conferences. Therefore, it is necessary to efficiently search for desired information.

本発明によれば、会議情報としての映像情報を利用して、各会議参加者の緊張度合いをそれぞれの画像から推定することができる。この場合、各自の緊張度の変化を個別に扱ってもよいが、各自の緊張度を人毎に重みを付与して重畳することにより、会議全体での緊張度の変化を表すことができる。   According to the present invention, it is possible to estimate the degree of tension of each conference participant from each image using video information as conference information. In this case, the change in the degree of tension of each person may be handled individually, but the change in the degree of tension in the entire meeting can be represented by superimposing each person's tension degree by giving a weight to each person.

ここで、顔が傾く傾向は人それぞれなので、人毎に重みを正規化してもよいし、発言中か否かにより正規化してもよい。勿論、動的に正規化してもよい。   Here, since the tendency of the face to tilt is different for each person, the weight may be normalized for each person, or may be normalized depending on whether the person is speaking. Of course, you may normalize dynamically.

図8には、本発明の一実施形態に係る会議記録装置の構成を模式的に示している。図示の会議記録装置は、会議状況記録部120と、参加者情報記録部130と、データ処理部140で構成される。   FIG. 8 schematically shows a configuration of a conference recording apparatus according to an embodiment of the present invention. The illustrated conference recording apparatus includes a conference status recording unit 120, a participant information recording unit 130, and a data processing unit 140.

会議状況記録部120は、会議100の様子を音声映像情報として記録する。参加者情報記録部130は、会議参加者の情報の処理及び記録を実行する。データ処理部140は、会議状況記録部120で記録されたデータと参加者情報記録部130で記録されたデータを基に、会議100のインデックスを作成する処理を実行する。   The meeting status recording unit 120 records the state of the meeting 100 as audio video information. The participant information recording unit 130 performs processing and recording of information on conference participants. The data processing unit 140 executes processing for creating an index of the conference 100 based on the data recorded by the conference status recording unit 120 and the data recorded by the participant information recording unit 130.

図9には、会議100において会議状況記録部120による記録対象となる実施態様を図解している。   FIG. 9 illustrates an embodiment to be recorded by the conference status recording unit 120 in the conference 100.

同図に示す例は、会議100は、4人の会議参加者A11、B12、C13、D14で運営され、PC(Personal Computer)150を利用して資料160が提示されている。会議状況記録部120が会議の音声情報を含む映像情報を記録するとともに、参加者情報記録部130が会議参加者毎の顔の傾きパターン情報を記録する。   In the example shown in the figure, the conference 100 is operated by four conference participants A11, B12, C13, and D14, and a document 160 is presented using a PC (Personal Computer) 150. The conference status recording unit 120 records video information including audio information of the conference, and the participant information recording unit 130 records face inclination pattern information for each conference participant.

図10には、会議記録装置のうち、参加者情報記録部130と、データ処理部140の内部構成をより詳細に示している。   FIG. 10 shows in more detail the internal configuration of the participant information recording unit 130 and the data processing unit 140 in the conference recording apparatus.

参加者情報記録部130では、会議参加者の動画像情報を取得し、会議参加者の緊張度を推定してこれらを会議参加者毎の参加者情報として記録する。図示の実施形態では、参加者情報記録部130は、動画像入力部131と、撮影画像から顔を検出する顔検出部132と、顔領域から口角を検出する口角検出部133と、左右の口角を結ぶ線分の垂直2等分線の傾きを基に顔の傾きを検出する顔傾き検出部134と、顔の傾きパターンを参加者情報として記録する記録部135を備えている。   The participant information recording unit 130 acquires video information of conference participants, estimates the tension of the conference participants, and records these as participant information for each conference participant. In the illustrated embodiment, the participant information recording unit 130 includes a moving image input unit 131, a face detection unit 132 that detects a face from a captured image, a mouth angle detection unit 133 that detects a mouth angle from a face area, and left and right mouth angles. Is provided with a face inclination detecting unit 134 that detects the inclination of the face based on the inclination of the perpendicular bisector connecting the line segments, and a recording unit 135 that records the face inclination pattern as participant information.

データ処理部140では、参加者情報記録部130で記録された会議参加者の情報に基づいて各会議参加者の緊張度合いを推定し、さらに推定された緊張度合いに基づいて、会議情報中で会議参加者が興味の高い時点を割り出して、会議情報記録部120により記録された音声映像情報中の該当する場所の情報を用いてインデックス情報を生成し、これを記録する。   In the data processing unit 140, the degree of tension of each conference participant is estimated based on the information of the conference participant recorded by the participant information recording unit 130, and further, the conference in the conference information is estimated based on the estimated degree of tension. A time point at which the participant is highly interested is determined, index information is generated using the information of the corresponding place in the audio-video information recorded by the conference information recording unit 120, and this is recorded.

参加者情報記録部130では、会議参加者i毎の緊張度の指標である顔の傾きパターンθi(t)が測定され、記録されている。各自の緊張度の変化を個別に扱ってもよいが、緊張度判定部141では、各自の緊張度を人毎に重みを付与して重畳することにより、会議全体での緊張度の変化を表す。 In the participant information recording unit 130, a face inclination pattern θ i (t), which is an index of the degree of tension for each conference participant i, is measured and recorded. Although the change in each person's tension may be handled individually, the tension determination unit 141 expresses the change in the tension in the entire meeting by adding each person's tension with a weight for each person. .

ここで、顔が傾く傾向は人それぞれなので、人毎に重みを正規化してもよいし、発言中か否かにより正規化してもよい。勿論、動的に正規化してもよい。会議参加者iの緊張度の指標である顔の傾きパターンθi(t)は、下式により正規化することができる。 Here, since the tendency of the face to tilt is different for each person, the weight may be normalized for each person, or may be normalized depending on whether the person is speaking. Of course, you may normalize dynamically. The face inclination pattern θ i (t), which is an index of the degree of tension of the conference participant i, can be normalized by the following equation.

Figure 2006079533
Figure 2006079533

そして、正規化された会議参加者毎の緊張度を人毎に重みを付与し、下式により重畳して正規化(平均化)することにより、会議全体での緊張度の変化Θ(t)を表す。   Then, the weight of each normalized conference participant is weighted for each person, and the tension is changed (averaged) by superimposing and averaging by the following formula, thereby changing the tension Θ (t) in the entire conference. Represents.

Figure 2006079533
Figure 2006079533

このようにして会議全体での緊張度の時間的な推移が得られると、インデックス情報生成部142は、映像音声などからなる会議情報を緊張度に基づいてインデキシングを行なうことができる。例えば、会議全体での緊張度が高まった時点から代表フレームを抽出することができる。また、顔の傾き度合いにより、緊張度合いを分類することができる。例えば、参加者間で立場を順序付けたり、グループ分けしたりすることができる。   When the temporal transition of the degree of tension in the entire meeting is obtained in this way, the index information generating unit 142 can index the meeting information including video and audio based on the degree of tension. For example, the representative frame can be extracted from the time when the degree of tension in the entire meeting increases. Further, the degree of tension can be classified according to the degree of inclination of the face. For example, positions can be ordered or grouped among participants.

そして、インデックス情報記録部143は、生成されたインデックス情報を記録する。   Then, the index information recording unit 143 records the generated index information.

図11には、会議参加者i毎の緊張度θi(t)を重畳して会議全体での緊張度の変化Θ(t)を求め、会議を記録した映像情報から代表フレームを抽出する様子を示している。 In FIG. 11, the tension θ i (t) for each conference participant i is superimposed to determine the change in tension Θ (t) in the entire conference, and the representative frame is extracted from the video information recording the conference. Is shown.

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。   The present invention has been described in detail above with reference to specific embodiments. However, it is obvious that those skilled in the art can make modifications and substitutions of the embodiment without departing from the gist of the present invention.

本明細書では、被撮影者の緊張度を表す指標である顔の傾きを測定するために、左右の口角間を結ぶ線分の垂直2等分線を求める実施形態を説明したが、顔画像を基に顔の傾きを測定するその他の手法を適宜用いることができる。   In the present specification, an embodiment has been described in which a vertical bisector connecting a line segment between the left and right mouth corners is obtained in order to measure the inclination of the face, which is an index representing the degree of tension of the subject. Other methods for measuring the tilt of the face based on the above can be used as appropriate.

また、本明細書では、映像や音声によって会議の内容を記録した会議情報を扱う会議記録システムにおいて、複数の参加者の緊張度合いに基づいて会議情報のインデキシングを行なう実施形態について説明したが、勿論、本発明を、ユーザの緊張度などの心理学的要素を利用したサービスや、その他の適用業務に応用することも可能である。   Further, in the present specification, an embodiment has been described in which conference information is indexed based on the degree of tension of a plurality of participants in a conference recording system that handles conference information in which the content of a conference is recorded by video or audio. The present invention can also be applied to services using psychological factors such as the user's degree of tension and other applications.

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、特許請求の範囲を参酌すべきである。   In short, the present invention has been disclosed in the form of exemplification, and the description of the present specification should not be interpreted in a limited manner. In order to determine the gist of the present invention, the claims should be taken into consideration.

図1は、本発明の実施に供される情報処理装置のハードウェア構成を模式的に示した図である。FIG. 1 is a diagram schematically showing a hardware configuration of an information processing apparatus provided for implementing the present invention. 図2は、顔画像から緊張度を推定するための処理手順を示したフローチャートである。FIG. 2 is a flowchart showing a processing procedure for estimating the degree of tension from the face image. 図3は、顔画像から左右の口角の位置を検出し、これらを結ぶ線分の垂直2等分線を引いた様子を示した図である。FIG. 3 is a diagram showing a state in which the positions of the left and right mouth corners are detected from the face image, and the perpendicular bisector of the line segment connecting these positions is drawn. 図4は、図3により得られた垂直2等分線の傾きから顔の傾きθを求める様子を示した図である。FIG. 4 is a diagram showing how the face inclination θ is obtained from the inclination of the perpendicular bisector obtained from FIG. 図5は、顔画像から左右の虹彩の位置を検出し、これらを結ぶ線分の垂直2等分線を引いた様子を示した図である。FIG. 5 is a diagram showing a state in which the positions of the left and right irises are detected from the face image, and the perpendicular bisector of the line segment connecting them is drawn. 図6は、図5により得られた垂直2等分線の傾きから顔の傾きθを求める様子を示した図である。FIG. 6 is a diagram showing how the face inclination θ is obtained from the inclination of the perpendicular bisector obtained from FIG. 図7は、顔画像から得られた顔の傾きの時間的推移θ(t)と、脈拍数との対応関係を例示した図である。FIG. 7 is a diagram exemplifying a correspondence relationship between the temporal transition θ (t) of the inclination of the face obtained from the face image and the pulse rate. 図8は、本発明の一実施形態に係る会議記録装置の構成を模式的に示した図である。FIG. 8 is a diagram schematically showing a configuration of a conference recording apparatus according to an embodiment of the present invention. 図9は、会議100において会議状況記録部120による記録対象となる実施態様を示した図である。FIG. 9 is a diagram showing an embodiment to be recorded by the conference status recording unit 120 in the conference 100. 図10は、会議記録装置のうち、参加者情報記録部130と、データ処理部140の内部構成をより詳細に示した図である。FIG. 10 is a diagram showing in more detail the internal configuration of the participant information recording unit 130 and the data processing unit 140 in the conference recording apparatus. 図11は、会議参加者i毎の緊張度θi(t)を重畳して会議全体での緊張度の変化Θ(t)を求め、会議を記録した映像情報から代表フレームを抽出する様子を示した図である。FIG. 11 shows a state in which the tension θ i (t) for each conference participant i is superimposed to obtain the tension change Θ (t) in the entire meeting, and the representative frame is extracted from the video information recording the meeting. FIG.

符号の説明Explanation of symbols

10…プロセッサ
20…メモリ
21…ディスプレイ・コントローラ
22…表示装置
23…入出力インターフェース
24…キーボード
25…マウス
26…ネットワーク・インターフェース
27…HDDコントローラ
28…HDD
29…カメラ
30…バス
100…会議
120…会議状況記録部
130…参加者情報記録部
131…動画像入力部
132…顔検出部
133…口角検出部
134…顔の傾き検出部
135…記録部
140…データ処理部
141…緊張度判定部
142…インデックス情報生成部
143…インデックス情報記録部
DESCRIPTION OF SYMBOLS 10 ... Processor 20 ... Memory 21 ... Display controller 22 ... Display apparatus 23 ... Input / output interface 24 ... Keyboard 25 ... Mouse 26 ... Network interface 27 ... HDD controller 28 ... HDD
DESCRIPTION OF SYMBOLS 29 ... Camera 30 ... Bus 100 ... Meeting 120 ... Meeting status recording part 130 ... Participant information recording part 131 ... Moving image input part 132 ... Face detection part 133 ... Mouth angle detection part 134 ... Face inclination detection part 135 ... Recording part 140 Data processing unit 141 Tension determination unit 142 Index information generation unit 143 Index information recording unit

Claims (25)

被験者の内部状態の評価を行なう情報処理装置であって、
被験者を撮影した画像を入力する画像入力手段と、
入力画像から被験者の顔を検出する顔検出手段と、
検出された顔領域から顔の傾きの指標を検出する指標検出手段と、
顔の傾き又は顔の傾きの変化を求める顔の傾き検出手段と、
顔の傾き又は顔の傾きの変化パターンに基づいて、被験者の内部状態を評価する評価手段と、
を具備することを特徴とする情報処理装置。
An information processing apparatus for evaluating the internal state of a subject,
Image input means for inputting an image of the subject,
Face detection means for detecting the face of the subject from the input image;
Index detecting means for detecting an index of face inclination from the detected face area;
A face inclination detecting means for calculating a change in the face inclination or the face inclination;
Evaluation means for evaluating the internal state of the subject based on the face inclination or the change pattern of the face inclination;
An information processing apparatus comprising:
前記評価手段は、被験者の内部状態として緊張度を評価する、
ことを特徴とする請求項1に記載の情報処理装置。
The evaluation means evaluates the degree of tension as the internal state of the subject.
The information processing apparatus according to claim 1.
前記評価手段は、顔が正立するに従って被験者の緊張度が高まったと評価する、
ことを特徴とする請求項2に記載の情報処理装置。
The evaluation means evaluates that the subject's tension has increased as the face is upright.
The information processing apparatus according to claim 2.
前記評価手段は、緊張度が既知であるときの顔の画像を撮影し、この撮影画像から得られる顔の傾き又は顔の傾きの変化パターンと緊張度との関連付けを行なって基礎データを作成するとともに、撮影画像を基に顔の傾きを検出し、基礎データとの比較に基づいて顔の傾きに対応する緊張度を推定する、
ことを特徴とする請求項2に記載の情報処理装置。
The evaluation means captures an image of a face when the degree of tension is known, and creates basic data by associating the face inclination obtained from the photographed image or a change pattern of the face inclination with the degree of tension. In addition, the inclination of the face is detected based on the photographed image, and the degree of tension corresponding to the inclination of the face is estimated based on the comparison with the basic data.
The information processing apparatus according to claim 2.
前記指標検出手段は、顔画像から左右の口角を顔の傾きの指標として検出し、
前記顔の傾き検出手段は、前記垂直2等分線の傾きを顔の傾きとして検出する、
ことを特徴とする請求項1に記載の情報処理装置。
The index detecting means detects left and right mouth corners from the face image as a face tilt index,
The face inclination detecting means detects the inclination of the perpendicular bisector as a face inclination;
The information processing apparatus according to claim 1.
前記指標検出手段は、顔画像から左右の虹彩を顔の傾きの指標として検出し、
前記顔の傾き検出手段は、前記垂直2等分線の傾きを顔の傾きとして検出する、
ことを特徴とする請求項1に記載の情報処理装置。
The index detecting means detects left and right irises as facial tilt indices from a face image,
The face inclination detecting means detects the inclination of the perpendicular bisector as a face inclination;
The information processing apparatus according to claim 1.
複数の会議参加者からなる会議において、会議参加者毎の撮影画像に基づいて各会議参加者の内部状態を評価し、
各自の内部状態を人毎に重みを付与して重畳することにより、会議全体での内部状態の変化を表す会議状態評価手段をさらに備える、
ことを特徴とする請求項1に記載の情報処理装置。
In a conference consisting of a plurality of conference participants, the internal state of each conference participant is evaluated based on the captured images for each conference participant,
It further includes a meeting state evaluation means that represents a change in the internal state of the entire meeting by adding a weight for each person and superimposing the internal state of each person.
The information processing apparatus according to claim 1.
前記会議状態評価手段は、会議参加者毎に顔の傾きの変化を正規化する、
ことを特徴とする請求項7に記載の情報処理装置。
The meeting state evaluation means normalizes a change in the inclination of the face for each meeting participant.
The information processing apparatus according to claim 7.
前記会議状態評価手段は、発言中か否かにより顔の傾きの変化を正規化する、ことを特徴とする請求項7に記載の情報処理装置。   The information processing apparatus according to claim 7, wherein the conference state evaluation unit normalizes a change in inclination of the face depending on whether or not a speech is being made. 前記会議状態評価手段は、顔の傾きの変化を動的に正規化する、
ことを特徴とする請求項7に記載の情報処理装置。
The meeting state evaluation means dynamically normalizes a change in face inclination;
The information processing apparatus according to claim 7.
会議の状況を映像並びに音声によって記録した会議情報を入力する会議情報入力手段と、
前記会議状態評価手段によって得られた会議全体での内部状態の変化に基づいて会議情報の処理を行なう会議情報処理手段と、
をさらに備えることを特徴とする請求項7に記載の情報処理装置。
Conference information input means for inputting conference information in which the status of the conference is recorded by video and audio;
Meeting information processing means for processing meeting information based on a change in the internal state of the entire meeting obtained by the meeting state evaluation means;
The information processing apparatus according to claim 7, further comprising:
前記会議情報処理手段は、会議全体での内部状態に基づいた会議情報のインデキシング、会議全体での緊張度が高まった時点からの代表フレームの抽出、顔の傾き度合いによる緊張度合いの分類のうち少なくとも1つの処理を行なう、
ことを特徴とする請求項11に記載の情報処理装置。
The meeting information processing means includes at least meeting information indexing based on an internal state of the entire meeting, extraction of a representative frame from a point when the tension of the entire meeting is increased, and classification of the degree of tension according to the degree of inclination of the face. Do one process,
The information processing apparatus according to claim 11.
被験者の内部状態の評価を行なう情報処理方法であって、
被験者を撮影した画像を入力する画像入力ステップと、
入力画像から被験者の顔を検出する顔検出ステップと、
検出された顔領域から顔の傾きの指標を検出する指標検出ステップと、
顔の傾き又は顔の傾きの変化を求める顔の傾き検出ステップと、
顔の傾き又は顔の傾きの変化パターンに基づいて、被験者の内部状態を評価する評価ステップと、
を具備することを特徴とする情報処理方法。
An information processing method for evaluating an internal state of a subject,
An image input step for inputting an image of the subject,
A face detection step for detecting the face of the subject from the input image;
An index detection step of detecting an index of face inclination from the detected face area;
A face inclination detection step for obtaining a face inclination or a change in face inclination;
An evaluation step for evaluating the internal state of the subject based on the face inclination or the change pattern of the face inclination;
An information processing method comprising:
前記評価ステップでは、被験者の内部状態として緊張度を評価する、
ことを特徴とする請求項13に記載の情報処理方法。
In the evaluation step, the degree of tension is evaluated as the internal state of the subject.
The information processing method according to claim 13.
前記評価ステップでは、顔が正立するに従って被験者の緊張度が高まったと評価する、
ことを特徴とする請求項14に記載の情報処理方法。
In the evaluation step, it is evaluated that the tension of the subject has increased as the face is upright.
The information processing method according to claim 14.
前記評価ステップでは、緊張度が既知であるときの顔の画像を撮影し、この撮影画像から得られる顔の傾き又は顔の傾きの変化パターンと緊張度との関連付けを行なって基礎データを作成するとともに、撮影画像を基に顔の傾きを検出し、基礎データとの比較に基づいて顔の傾きに対応する緊張度を推定する、
ことを特徴とする請求項14に記載の情報処理方法。
In the evaluation step, a face image when the degree of tension is known is photographed, and basic data is created by associating the face inclination obtained from the photographed image or a change pattern of the face inclination with the degree of tension. In addition, the inclination of the face is detected based on the photographed image, and the degree of tension corresponding to the inclination of the face is estimated based on the comparison with the basic data.
The information processing method according to claim 14.
前記指標検出ステップでは、顔画像から左右の口角を顔の傾きの指標として検出し、
前記顔の傾き検出ステップでは、前記垂直2等分線の傾きを顔の傾きとして検出する、
ことを特徴とする請求項13に記載の情報処理方法。
In the index detection step, the left and right mouth corners are detected from the face image as an index of the tilt of the face,
In the face inclination detection step, the inclination of the perpendicular bisector is detected as a face inclination;
The information processing method according to claim 13.
前記指標検出ステップでは、顔画像から左右の虹彩を顔の傾きの指標として検出し、
前記顔の傾き検出ステップでは、前記垂直2等分線の傾きを顔の傾きとして検出する、
ことを特徴とする請求項13に記載の情報処理方法。
In the index detection step, the left and right irises are detected from the face image as a tilt index of the face,
In the face inclination detection step, the inclination of the perpendicular bisector is detected as a face inclination;
The information processing method according to claim 13.
複数の会議参加者からなる会議において、会議参加者毎の撮影画像に基づいて各会議参加者の内部状態を評価し、
各自の内部状態を人毎に重みを付与して重畳することにより、会議全体での内部状態の変化を表す会議状態評価ステップをさらに備える、
ことを特徴とする請求項13に記載の情報処理方法。
In a conference consisting of a plurality of conference participants, the internal state of each conference participant is evaluated based on the captured images for each conference participant,
A conference state evaluation step that represents a change in the internal state of the entire conference by superimposing the internal state of each person with a weight for each person is further provided.
The information processing method according to claim 13.
前記会議状態評価ステップでは、会議参加者毎に顔の傾きの変化を正規化する、
ことを特徴とする請求項19に記載の情報処理方法。
In the meeting state evaluation step, the change in face inclination is normalized for each meeting participant.
The information processing method according to claim 19.
前記会議状態評価ステップでは、発言中か否かにより顔の傾きの変化を正規化する、
ことを特徴とする請求項19に記載の情報処理方法。
In the conference state evaluation step, the change in the inclination of the face is normalized depending on whether or not the speech is being made.
The information processing method according to claim 19.
前記会議状態評価ステップでは、顔の傾きの変化を動的に正規化する、
ことを特徴とする請求項19に記載の情報処理方法。
In the meeting state evaluation step, a change in face inclination is dynamically normalized.
The information processing method according to claim 19.
会議の状況を映像並びに音声によって記録した会議情報を入力する会議情報入力ステップと、
前記会議状態評価ステップにおいて得られた会議全体での内部状態の変化に基づいて会議情報の処理を行なう会議情報処理ステップと、
ことを特徴とする請求項19に記載の情報処理方法。
A conference information input step for inputting conference information in which the status of the conference is recorded by video and audio;
A conference information processing step for processing conference information based on a change in the internal status of the entire conference obtained in the conference status evaluation step;
The information processing method according to claim 19.
前記会議情報処理ステップでは、会議全体での内部状態に基づいた会議情報のインデキシング、会議全体での緊張度が高まった時点からの代表フレームの抽出、顔の傾き度合いによる緊張度合いの分類のうち少なくとも1つの処理を行なう、
ことを特徴とする請求項23に記載の情報処理方法。
In the conference information processing step, at least one of indexing of conference information based on the internal state of the entire conference, extraction of a representative frame from the time when the tension of the entire conference has increased, classification of the degree of tension based on the degree of inclination of the face Do one process,
The information processing method according to claim 23.
被験者の内部状態の評価を行なうための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、
被験者を撮影した画像を入力する画像入力ステップと、
入力画像から被験者の顔を検出する顔検出ステップと、
検出された顔領域から顔の傾きの指標を検出する指標検出ステップと、
顔の傾き又は顔の傾きの変化を求める顔の傾き検出ステップと、
顔の傾き又は顔の傾きの変化パターンに基づいて、被験者の内部状態を評価する評価ステップと、
を具備することを特徴とするコンピュータ・プログラム。
A computer program written in a computer-readable format to execute a process for evaluating the internal state of a subject on a computer system,
An image input step for inputting an image of the subject,
A face detection step for detecting the face of the subject from the input image;
An index detection step of detecting an index of face inclination from the detected face area;
A face inclination detection step for determining a face inclination or a change in face inclination;
An evaluation step for evaluating the internal state of the subject based on the face inclination or the change pattern of the face inclination;
A computer program comprising:
JP2004265584A 2004-09-13 2004-09-13 Information processor, information processing method, and computer program Pending JP2006079533A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004265584A JP2006079533A (en) 2004-09-13 2004-09-13 Information processor, information processing method, and computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004265584A JP2006079533A (en) 2004-09-13 2004-09-13 Information processor, information processing method, and computer program

Publications (1)

Publication Number Publication Date
JP2006079533A true JP2006079533A (en) 2006-03-23

Family

ID=36158904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004265584A Pending JP2006079533A (en) 2004-09-13 2004-09-13 Information processor, information processing method, and computer program

Country Status (1)

Country Link
JP (1) JP2006079533A (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142227A1 (en) * 2006-06-07 2007-12-13 Nec Corporation Image direction judging device, image direction judging method and image direction judging program
JPWO2008029467A1 (en) * 2006-09-07 2010-01-21 学校法人 大阪電気通信大学 Gesture input system, method and program
JP2011167323A (en) * 2010-02-18 2011-09-01 Kddi Corp Portable terminal device, stress estimation system, stress estimation method, and stress estimation program
JP2019105729A (en) * 2017-12-12 2019-06-27 株式会社テイクアンドシー Person evaluation device, program, and, method
JP2022075661A (en) * 2020-10-27 2022-05-18 株式会社I’mbesideyou Information extraction apparatus
WO2023188698A1 (en) * 2022-03-31 2023-10-05 株式会社島津製作所 Evaluation method, evaluation device, and program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007142227A1 (en) * 2006-06-07 2007-12-13 Nec Corporation Image direction judging device, image direction judging method and image direction judging program
JP4957922B2 (en) * 2006-06-07 2012-06-20 日本電気株式会社 Image direction determination apparatus, image direction determination method, and image direction determination program
US8548254B2 (en) 2006-06-07 2013-10-01 Nec Corporation Image direction judging device, image direction judging method and image direction judging program
JPWO2008029467A1 (en) * 2006-09-07 2010-01-21 学校法人 大阪電気通信大学 Gesture input system, method and program
JP4489825B2 (en) * 2006-09-07 2010-06-23 学校法人 大阪電気通信大学 Gesture input system, method and program
US9032336B2 (en) 2006-09-07 2015-05-12 Osaka Electro-Communication University Gesture input system, method and program
JP2011167323A (en) * 2010-02-18 2011-09-01 Kddi Corp Portable terminal device, stress estimation system, stress estimation method, and stress estimation program
JP2019105729A (en) * 2017-12-12 2019-06-27 株式会社テイクアンドシー Person evaluation device, program, and, method
JP2022075661A (en) * 2020-10-27 2022-05-18 株式会社I’mbesideyou Information extraction apparatus
JP7130290B2 (en) 2020-10-27 2022-09-05 株式会社I’mbesideyou information extractor
WO2023188698A1 (en) * 2022-03-31 2023-10-05 株式会社島津製作所 Evaluation method, evaluation device, and program

Similar Documents

Publication Publication Date Title
Zaletelj et al. Predicting students’ attention in the classroom from Kinect facial and body features
JP5317415B2 (en) Image output apparatus, image output method, and image output program
US7506979B2 (en) Image recording apparatus, image recording method and image recording program
US10262196B2 (en) System and method for predicting neurological disorders
US9498123B2 (en) Image recording apparatus, image recording method and image recording program stored on a computer readable medium
US8150118B2 (en) Image recording apparatus, image recording method and image recording program stored on a computer readable medium
Deravi et al. Gaze trajectory as a biometric modality
US20110279665A1 (en) Image recording apparatus, image recording method and image recording program
JP2006079533A (en) Information processor, information processing method, and computer program
US20230309882A1 (en) Multispectral reality detector system
JP4937639B2 (en) Authentication method, authentication device, authentication program, and recording medium on which the program is recorded
JP2016139353A (en) Image determination system and image determination method
Gutstein et al. Optical flow, positioning, and eye coordination: automating the annotation of physician-patient interactions
Siegfried et al. A deep learning approach for robust head pose independent eye movements recognition from videos
JP7443044B2 (en) Biometric information acquisition device, terminal device, biometric information acquisition method, biometric information acquisition program, and computer-readable recording medium
KR20210084110A (en) A real time face evaluating method for specific people and improvement evaluating method for ability of cognition
US20220101655A1 (en) System and method of facial analysis
JP2010244090A (en) Person information extraction device, person information extraction method, and person information extraction program
Bhattacharya Unobtrusive analysis of group interactions without cameras
JP7354813B2 (en) Detection method, notification method, detection program and notification program
WO2022201266A1 (en) Video analysis program
Nosu et al. Real time emotion-diagnosis of video game players from their facial expressions and its applications to voice feed-backing to game players
JP7465012B2 (en) Video meeting evaluation terminal, video meeting evaluation system and video meeting evaluation program
JP7465013B2 (en) Video meeting evaluation terminal, video meeting evaluation system and video meeting evaluation program
US20240062586A1 (en) Video analysis program