JP5771127B2 - Attention level estimation device and program thereof - Google Patents
Attention level estimation device and program thereof Download PDFInfo
- Publication number
- JP5771127B2 JP5771127B2 JP2011249799A JP2011249799A JP5771127B2 JP 5771127 B2 JP5771127 B2 JP 5771127B2 JP 2011249799 A JP2011249799 A JP 2011249799A JP 2011249799 A JP2011249799 A JP 2011249799A JP 5771127 B2 JP5771127 B2 JP 5771127B2
- Authority
- JP
- Japan
- Prior art keywords
- amount
- feature
- attention
- video
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を推定する注目度推定装置およびそのプログラムに関する。 The present invention relates to a degree-of-interest estimation apparatus that estimates the degree of attention of a person who views video content with respect to the content, and a program thereof.
近年、人物の脳内活動として、ある対象に集中した状態か、あるいは、ある対象を注目した状態かといった、集中度あるいは注目度を計測する研究が盛んに進められている。これらの研究は、例えば、車の運転や授業での生徒の理解度調査など、様々な分野に応用可能な技術であり、従来から多くの研究がなされてきた。なお、“集中度”は“注目度”よりも人物の内的状態を表すニュアンスがあるもののほぼ同義で用いられている。 2. Description of the Related Art In recent years, research on measuring the degree of concentration or the degree of attention, such as whether a person is focused on a certain object or is focused on a certain object, has been actively promoted. These studies are technologies that can be applied to various fields, such as driving a car and investigating students' understanding in class, and many studies have been made heretofore. Note that “concentration” is used almost synonymously with “nuisance”, although there is a nuance representing the internal state of a person.
この集中度を計測する手法として、脳波、脈拍、瞬目間隔時間、身体の動き等の生体情報を利用して集中度を計測する技術が種々開示されている(特許文献1,2参照)。
例えば、脳波は、特定の対象に対する脳波の反応が明確に現れた場合に、集中度が高い方向に働く指標となる。また、例えば、脈拍は、特定の対象に対して心拍間隔時間が変動した場合に、集中度が高い方向に働く指標となる。また、例えば、瞬目間隔時間は、その間隔が長くなった場合に、集中度が高い方向に働く指標となる。また、例えば、身体の動きは、その動きが大きい場合、集中していない方向に働く指標となる。
このような生体情報を利用して集中度を計測するには、通常、人物に装着した接触型デバイスから生体情報を取得する必要がある。
Various techniques for measuring the degree of concentration using biological information such as brain waves, pulse, blink interval time, and body movement have been disclosed as techniques for measuring the degree of concentration (see
For example, the electroencephalogram is an index that works in the direction of high concentration when the electroencephalogram response to a specific object clearly appears. In addition, for example, the pulse is an index that works in a direction in which the degree of concentration is high when the heartbeat interval time fluctuates with respect to a specific target. In addition, for example, the blink interval time is an index that works in a direction in which the degree of concentration is high when the interval is long. In addition, for example, the movement of the body is an index that works in a non-concentrated direction when the movement is large.
In order to measure the degree of concentration using such biological information, it is usually necessary to acquire biological information from a contact-type device worn on a person.
また、集中度を計測する他の手法として、視線の動きを用いる手法も開示されている(特許文献3参照)。
この手法は、視線の動きを追跡し、予めデータ化した、ある対象に視線が集中する場合の視線の動きと比較することで、人物がその対象に集中している度合いを計測するものである。この手法において、視線の追跡には、非接触型のデバイスが発光する赤外線等が人物の瞳によって反射した光をカメラで撮影することで行っている。
Further, as another method for measuring the degree of concentration, a method using the movement of the line of sight is also disclosed (see Patent Document 3).
This method measures the degree of concentration of a person on the target by tracking the movement of the line of sight and comparing it with the movement of the line of sight when the line of sight concentrates on a certain target. . In this technique, tracking of the line of sight is performed by photographing, with a camera, light reflected by a human pupil such as infrared rays emitted from a non-contact type device.
前記したように、従来の人物の生体情報を利用して集中度(注目度)を計測する手法では、通常、接触型デバイスが必要となる。しかし、接触型デバイスを用いた場合、それを装着した人物の視界や動作の自由度が奪われ、人物の負担が大きいという問題がある。
また、従来のように、視線の動きから集中度(注目度)を計測する手法では、たとえ、赤外線光等を発光する非接触型デバイスを用いる場合であっても、人物に負荷を与えてしまう。
例えば、一般家庭において、視聴者がテレビ等で視聴する映像コンテンツを対象として注目度を計測する場合、接触型デバイスを装着することは現実的ではない。また、健康面等を考慮して、視聴者に赤外線を照射し続けることはできない。
As described above, in the conventional method of measuring the degree of concentration (attention level) using the biological information of a person, a contact type device is usually required. However, when a contact-type device is used, there is a problem that a person wearing it loses the field of view and freedom of movement, and the burden on the person is large.
Further, the conventional method of measuring the degree of concentration (attention level) from the movement of the line of sight places a load on a person even when a non-contact type device that emits infrared light or the like is used. .
For example, in a general home, when measuring the degree of attention for video content that a viewer views on a television or the like, it is not realistic to wear a contact type device. In addition, in view of health and the like, the viewer cannot continue to irradiate infrared rays.
本発明は、以上のような問題に鑑みてなされたものであり、映像コンテンツを視聴する人物の当該コンテンツに対する注目度を、人物に負荷を与えることなく計測することが可能な注目度推定装置およびそのプログラムを提供することを課題とする。 The present invention has been made in view of the above problems, and a degree-of-attention estimation device capable of measuring the degree of attention of a person who views video content with respect to the content without imposing a load on the person, and The problem is to provide the program.
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の注目度推定装置は、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定する注目度推定装置であって、身体動作量計測手段と、視線変動量計測手段と、統計特徴量生成手段と、学習データ記憶手段と、注目度特定手段と、を備える構成とした。
The present invention was created to solve the above-described problem. First, the attention level estimation device according to
かかる構成において、注目度推定装置は、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置、例えば、人物の頭部位置等における単位時間当たりの変化量である身体動作量を身体特徴量の1つとして計測する。なお、人物が映像コンテンツを注目している場合、身体動作が少なくなる傾向にあることから、身体動作量は注目度を推定する指標となる。 In such a configuration, the attention level estimation device inputs the skeleton position information of the person measured by motion capture in time series by the body movement amount measuring means, and determines a predetermined skeleton position of the skeleton position information, for example, the person's skeleton position information. A body movement amount, which is a change amount per unit time in the head position or the like, is measured as one of the body feature amounts. Note that when the person is paying attention to the video content, the body motion tends to decrease, and thus the amount of body motion is an index for estimating the degree of attention.
また、注目度推定装置は、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Haar−like特徴量に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の1つとして計測する。例えば、目領域内の左右領域の画素の輝度値は、角膜(黒目)の位置によって変化する。そこで、視線変動量計測手段は、左右領域の輝度比から、角膜の位置の変化を検出することで、その変化量を視線変動量とする。
なお、人物が映像コンテンツを注目している場合、視線の動きが小さくなる傾向にあることから、視線変動量は注目度を推定する指標となる。
Further, the attention level estimation device detects the eye region of a person based on a predetermined image feature, for example, a Haar-like feature amount, in a camera image input in time series as a camera image by the line-of-sight variation measurement unit. Then, based on the luminances of the left and right regions obtained by dividing the eye region, the line-of-sight fluctuation amount per unit time is measured as one of the body feature amounts. For example, the luminance values of the pixels in the left and right regions in the eye region vary depending on the position of the cornea (black eye). Therefore, the line-of-sight variation measuring means detects the change in the position of the cornea from the luminance ratio of the left and right regions, and sets the amount of change as the line-of-sight variation.
Note that when the person is paying attention to the video content, the movement of the line of sight tends to be small, and thus the line-of-sight variation is an index for estimating the degree of attention.
そして、注目度推定装置は、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。この統計特徴量は、例えば、身体特徴量の平均値や標準偏差、あるいは、度数等の統計量である。 Then, the attention level estimation device uses the statistical feature value generation means to perform statistics on each of the body feature values in a predetermined video section of the video content, and generate the statistical feature values in the video section. This statistical feature quantity is, for example, a statistical quantity such as an average value, standard deviation, or frequency of body feature quantities.
そして、注目度推定装置は、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。この学習データは、例えば、サポートベクタマシン(SVM)で実現することができ、複数の統計特徴量から対応する注目度を出力する識別関数である。なお、この学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。 Then, the attention level estimation device generates the statistical feature value based on the learning data that is stored in the learning data storage unit by the attention level specifying unit and the correspondence between the statistical feature value and the attention level is obtained by learning in advance. The attention level corresponding to the statistical feature value generated by the means is specified as the attention level for the video section. This learning data can be realized by, for example, a support vector machine (SVM), and is an identification function that outputs a corresponding degree of attention from a plurality of statistical feature amounts. This learning data is generated in advance in the learning phase of the support vector machine based on the statistical feature amount and the subjective evaluation of the person when viewing arbitrary video content.
また、請求項2に記載の注目度推定装置は、請求項1に記載の注目度推定装置において、瞬目間隔計測手段を、さらに備える構成とした。
Further, the attention level estimation device according to
かかる構成において、注目度推定装置は、瞬目間隔計測手段によって、時系列に入力されるカメラ画像において、予め定めた画像特徴、例えば、Haar−like特徴量に基づいて人物の瞬きを検出し、その瞬きが発生する間隔である瞬目間隔時間を身体特徴量の1つとして計測する。なお、人物が映像コンテンツを注目している場合、瞬きが少なくなる傾向にあることから、瞬目間隔時間は注目度を推定する指標となる。 In such a configuration, the attention level estimation device detects blinking of a person based on a predetermined image feature, for example, a Haar-like feature amount, in a camera image input in time series by the blink interval measurement unit, The blink interval time, which is the interval at which the blink occurs, is measured as one of the body feature values. Note that when a person is paying attention to video content, blinking tends to decrease, and thus the blink interval time is an index for estimating the degree of attention.
また、請求項3に記載の注目度推定装置は、請求項1または請求項2に記載の注目度推定装置において、傾き補正手段を、さらに備える構成とした。
Further, the attention level estimation device according to
かかる構成において、注目度推定装置は、傾き補正手段によって、骨格位置情報で示される人物の頭部位置および頸部位置に基づいて、頸部位置が頭部位置の直下になるようにカメラ画像を回転させる。これによって、人物の顔が、カメラ画像上で垂直に保たれることになる。 In such a configuration, the attention level estimation device uses a tilt correction unit to display a camera image so that the neck position is directly below the head position based on the head position and neck position of the person indicated by the skeleton position information. Rotate. As a result, the human face is kept vertical on the camera image.
さらに、請求項4に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、字幕情報量計測手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
Furthermore, the attention level estimation apparatus according to
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。この第2学習データは、例えば、サポートベクタマシンで実現することができ、身体動作量および視線変動量の統計特徴量から対応する注目度を出力する識別関数である。なお、この第2学習データは、サポートベクタマシンにおける学習フェーズにおいて、任意の映像コンテンツを視聴した際の身体動作量および視線変動量の統計特徴量と人物の主観評価とに基づいて、事前に生成しておく。 In such a configuration, the attention level estimation device stores in advance in the second learning data storage means the correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention level as second learning data. The second learning data can be realized by, for example, a support vector machine, and is an identification function that outputs a corresponding degree of attention from the statistical feature values of the body movement amount and the line-of-sight variation amount. This second learning data is generated in advance in the learning phase of the support vector machine based on the statistical features of the body movement amount and gaze fluctuation amount when viewing arbitrary video content and the subjective evaluation of the person. Keep it.
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。なお、人物が映像コンテンツ内の字幕を注目している場合、視線の動きが大きくなる傾向にあることから、字幕情報量は、視線変動量とは逆の相関を持った指標となる。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。なお、人物が映像コンテンツを注目している場合、視線の動きが大きくなる傾向にあることから、映像動き量は、視線変動量とは逆の相関を持った指標となる。
In addition, the attention level estimation device measures the amount of caption information included in the video content by the caption information amount measurement unit. Note that when the person is paying attention to the subtitles in the video content, the movement of the line of sight tends to increase, and thus the subtitle information amount is an index having a reverse correlation with the line-of-sight fluctuation amount.
Also, the attention level estimation device measures the amount of video motion based on the difference between frames in the video content by the video motion amount detection means. Note that when the person is paying attention to the video content, the movement of the line of sight tends to increase, and thus the amount of movement of the video is an index having an inverse correlation with the amount of fluctuation of the line of sight.
そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い、または、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。
Then, the attention level estimation device uses the use determination unit to determine the gaze variation amount when the caption information amount is larger than the predetermined information amount or the video motion amount is larger than the predetermined motion amount. Is determined not to be used.
When the use determination unit determines that the line-of-sight variation is not used as the body feature amount, the attention level estimation device uses the line-of-sight estimation unit based on the second learning data instead of the learning data. The attention level corresponding to the statistical feature value excluding the fluctuation amount is specified as the attention level for the video section.
また、請求項5に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、字幕情報量計測手段と、使用判定手段と、をさらに備える構成とした。
Moreover, the attention level estimation apparatus according to
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。
また、注目度推定装置は、字幕情報量計測手段によって、映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する。そして、注目度推定装置は、使用判定手段によって、字幕情報量が予め定めた情報量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
In such a configuration, the attention level estimation device stores in advance in the second learning data storage means the correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention level as second learning data.
In addition, the attention level estimation device measures the amount of caption information included in the video content by the caption information amount measurement unit. Then, the attention level estimation apparatus determines that the gaze fluctuation amount is not used as the body feature amount when the subtitle information amount is larger than the predetermined information amount by the use determination unit.
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。 When the use determination unit determines that the line-of-sight variation is not used as the body feature amount, the attention level estimation device uses the line-of-sight estimation unit based on the second learning data instead of the learning data. The attention level corresponding to the statistical feature value excluding the fluctuation amount is specified as the attention level for the video section.
また、請求項6に記載の注目度推定装置は、請求項1から請求項3のいずれか一項に記載の注目度推定装置において、第2学習データ記憶手段と、映像動き量検出手段と、使用判定手段と、をさらに備える構成とした。
Further, the attention level estimation device according to
かかる構成において、注目度推定装置は、第2学習データ記憶手段に、身体特徴量から視線変動量を除いた統計特徴量と注目度との対応関係を第2学習データとして予め記憶しておく。
また、注目度推定装置は、映像動き量検出手段によって、映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する。そして、注目度推定装置は、使用判定手段によって、映像動き量が予め定めた動き量よりも多い場合に、視線変動量を身体特徴量として使用しない旨を判定する。
In such a configuration, the attention level estimation device stores in advance in the second learning data storage means the correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention level as second learning data.
Also, the attention level estimation device measures the amount of video motion based on the difference between frames in the video content by the video motion amount detection means. Then, the attention level estimation device determines, by the use determination unit, that the line-of-sight variation amount is not used as the body feature amount when the video motion amount is larger than the predetermined motion amount.
そして、使用判定手段において、視線変動量を身体特徴量として使用しない旨が判定された場合、注目度推定装置は、注目度特定手段によって、学習データに代えて第2学習データに基づいて、視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。 When the use determination unit determines that the line-of-sight variation is not used as the body feature amount, the attention level estimation device uses the line-of-sight estimation unit based on the second learning data instead of the learning data. The attention level corresponding to the statistical feature value excluding the fluctuation amount is specified as the attention level for the video section.
また、請求項7に記載の注目度推定装置は、請求項1から請求項6のいずれか一項に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間全体における前記身体特徴量の平均値および標準偏差であるグローバル特徴と、前記身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを前記統計特徴量として生成することを特徴とする。
Further, the attention level estimation apparatus according to
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、統計特徴量をグローバル特徴と局所ヒストグラム特徴とで表すことで、映像区間の長さによらず、固定次元の特徴量を生成することができる。 In this configuration, the attention level estimation device generates a fixed-dimension feature amount regardless of the length of the video section by representing the statistical feature amount as a global feature and a local histogram feature by the statistical feature amount generation unit. be able to.
また、請求項8に記載の注目度推定装置は、請求項7に記載の注目度推定装置において、前記統計特徴量生成手段が、前記映像区間を予め定めた時間区間に分割した区間ごとに、さらに前記局所ヒストグラム特徴を生成することを特徴とする。
Further, the attention level estimation device according to
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、映像区間を細分化して、局所ヒストグラム特徴を生成することで、局所的に発生する特徴を注目度の推定に反映させることができる。 In such a configuration, the attention level estimation device can reflect the locally occurring feature in the attention level estimation by subdividing the video section and generating the local histogram feature by the statistical feature value generation unit. .
さらに、請求項9に記載の注目度推定装置は、請求項7または請求項8に記載の注目度推定装置において、前記統計特徴量生成手段が、前記注目度を推定する対象となる映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加して当該注目度を推定する映像区間の統計特徴量とすることを特徴とする。
Furthermore, the attention level estimation apparatus according to claim 9 is the attention level estimation apparatus according to
かかる構成において、注目度推定装置は、統計特徴量生成手段によって、注目度を推定する映像区間の統計特徴量に、当該映像区間の前後の映像区間の局所ヒストグラム特徴を付加することで、注目度を推定する映像区間の統計特徴量に、映像区間を跨って発生する特徴が付加されることになる。
この映像区間を跨って発生する特徴とは、例えば、映像コンテンツ内で、ある映像区間から人物が注目する映像区間に移った場合や、注目している映像区間が終了し、他の映像区間に移った場合等における特徴である。
In this configuration, the attention level estimation device adds the local histogram feature of the video section before and after the video section to the statistical feature quantity of the video section for which the attention level is estimated by the statistical feature amount generation unit. The feature generated across the video section is added to the statistical feature amount of the video section for estimating the video.
The feature that occurs across the video section is, for example, when the video content moves from one video section to the video section that the person is interested in, or when the video section of interest ends and other video sections This is a feature in the case of moving.
また、請求項10に記載に注目度推定プログラムは、モーションキャプチャで計測された、映像コンテンツを視聴している人物を撮影した画像から当該人物の骨格位置を検出するモーションキャプチャで計測して得られる骨格位置情報と、前記人物をカメラで撮影したカメラ映像とから、前記映像コンテンツの予め定めた映像区間において、前記人物の注目の度合いを示す注目度を推定するために、コンピュータを、身体動作量計測手段、視線変動量計測手段、統計特徴量生成手段、注目度特定手段、として機能させる構成とした。
In addition, the attention degree estimation program according to
かかる構成において、注目度推定プログラムは、身体動作量計測手段によって、モーションキャプチャで計測された人物の骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を身体特徴量の1つとして計測する。
また、注目度推定プログラムは、視線変動量計測手段によって、カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を身体特徴量の1つとして計測する。
In such a configuration, the attention level estimation program inputs the skeleton position information of the person measured by motion capture in time series by the body movement amount measuring unit, and the skeleton position information per unit time at a predetermined skeleton position of the skeleton position information. The amount of body movement that is the amount of change is measured as one of the body feature amounts.
Further, the attention degree estimation program detects a human eye area based on a predetermined image feature in a camera image input in time series as a camera image by the line-of-sight variation measurement unit, and classifies the eye area. Based on the luminance of the left and right regions, the line-of-sight variation amount per unit time is measured as one of the body feature amounts.
そして、注目度推定プログラムは、統計特徴量生成手段によって、身体特徴量のそれぞれについて、映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する。 Then, the attention level estimation program uses the statistical feature value generation means to statistically calculate each of the body feature values in a predetermined video section of the video content, and generate the statistical feature value in the video section.
そして、注目度推定プログラムは、注目度特定手段によって、学習データ記憶手段に記憶している、統計特徴量と注目度との対応関係を予め学習により求めた学習データに基づいて、統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する。 Then, the attention level estimation program generates the statistical feature value based on the learning data obtained by learning the correspondence relationship between the statistical feature value and the attention level stored in the learning data storage unit by the attention level specifying unit in advance. The attention level corresponding to the statistical feature value generated by the means is specified as the attention level for the video section.
本発明は、以下に示す優れた効果を奏するものである。
請求項1,10に記載の発明によれば、人物の注目度を推定するための身体特徴量である身体動作量や視線変動量を、画像処理によって抽出することができるため、接触型デバイスの装着や、赤外線光の照射等、人物に負荷をかけることなく注目度を推定することができる。
The present invention has the following excellent effects.
According to the first and tenth aspects of the present invention, the amount of body movement and the amount of line-of-sight variation, which are body feature amounts for estimating the attention level of a person, can be extracted by image processing. The degree of attention can be estimated without putting a load on the person such as wearing or irradiation with infrared light.
請求項2に記載の発明によれば、人物の注目度を推定するための身体特徴量として、さらに、瞬目間隔時間を加えることで、注目度の推定精度を高めることができる。また、本発明は、カメラで撮影した画像から瞬目間隔時間を求めることができるため、人物に負荷をかけることなく注目度を推定することができる。 According to the second aspect of the present invention, the attention degree estimation accuracy can be increased by adding the blink interval time as the body feature amount for estimating the attention degree of the person. Further, according to the present invention, since the blink interval time can be obtained from an image photographed by a camera, the degree of attention can be estimated without imposing a load on the person.
請求項3に記載の発明によれば、映像コンテンツを視聴する人物の頭部を、カメラ画像上において垂直に補正することができるため、カメラ画像上において、目の領域の検出等、人物の頭部の特徴量を検出する際の精度を高めることができ、より正確に注目度を推定することができる。 According to the third aspect of the present invention, since the head of the person viewing the video content can be corrected vertically on the camera image, the head of the person such as the detection of the eye area on the camera image can be corrected. The accuracy at the time of detecting the feature amount of the part can be increased, and the degree of attention can be estimated more accurately.
請求項4に記載の発明によれば、字幕の情報量が多くなったり、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。 According to the fourth aspect of the present invention, when the information amount of subtitles increases or the motion of the video increases, the meaning as an index for estimating the attention degree of the line-of-sight variation amount acts reversely. The attention level can be estimated with high accuracy by excluding the line-of-sight variation from the feature amount when the attention level is estimated.
請求項5に記載の発明によれば、字幕の情報量が多くなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
請求項6に記載の発明によれば、映像の動きが大きくなった場合、視線変動量の注目度を推定する際の指標としての意味が逆に作用するため、注目度を推定する際の特徴量から視線変動量を除外することで、精度よく注目度を推定することができる。
According to the fifth aspect of the present invention, when the information amount of subtitles increases, the meaning as an index when estimating the attention level of the line-of-sight variation amount acts in reverse. By excluding the line-of-sight variation from the feature amount, it is possible to accurately estimate the attention level.
According to the sixth aspect of the present invention, when the motion of the video becomes large, the meaning as an index when estimating the attention level of the line-of-sight variation amount acts reversely. By excluding the line-of-sight variation from the amount, it is possible to accurately estimate the attention level.
請求項7に記載の発明によれば、身体特徴量の平均値および標準偏差であるグローバル特徴と、身体統計量を予め定めたビン幅でヒストグラム化した局所ヒストグラム特徴とを、統計特徴量とすることで、固定次元で特徴量を表すことができる。これによって、映像区間の時間長が可変であっても、同一のアルゴリズムで注目度を推定することができる。 According to the seventh aspect of the present invention, the global feature that is the average value and the standard deviation of the body feature amount and the local histogram feature that is a histogram of the body statistics with a predetermined bin width are used as the statistical feature amount. Thus, the feature quantity can be expressed in a fixed dimension. As a result, even when the time length of the video section is variable, the degree of attention can be estimated with the same algorithm.
請求項8に記載の発明によれば、映像区間を時間方向に区分した特徴量を統計特徴量に付加することで、統計特徴量は、映像区間において、時間方向に局所的な特徴を残した特徴量となる。これによって、映像区間内のある区間における注目の度合いを特徴として加味することができ、精度よく注目度を推定することができる。
According to the invention described in
請求項9に記載の発明によれば、映像区間の前後の映像区間の局所ヒストグラム特徴を付加して統計特徴量とすることで、統計特徴量は、映像区間を跨った特徴量となる。これによって、映像区間の切り替わりで人物の注目状態に変化が起こる等の特徴を、注目度の推定に反映させることができる。 According to the ninth aspect of the present invention, by adding the local histogram feature of the video section before and after the video section to obtain the statistical feature quantity, the statistical feature quantity becomes a feature quantity across the video section. As a result, it is possible to reflect a feature such as a change in the attention state of the person due to the switching of the video section in the estimation of the attention level.
以下、本発明の実施形態について図面を参照して説明する。
[注目度推定システムの構成]
最初に、図1を参照して、本発明の実施形態に係る注目度推定装置を含んだ注目度測定システムSの構成について説明する。
注目度測定システムSは、映像コンテンツを視聴している人物の当該映像コンテンツに対する注目度を測定するものである。
この注目度測定システムSは、モニタMと、モーションキャプチャMcと、カメラCと、注目度推定装置1と、を備えている。
Embodiments of the present invention will be described below with reference to the drawings.
[Configuration of attention level estimation system]
Initially, with reference to FIG. 1, the structure of the attention level measurement system S including the attention level estimation apparatus which concerns on embodiment of this invention is demonstrated.
The attention level measurement system S measures the degree of attention of a person who is viewing video content with respect to the video content.
This attention level measurement system S includes a monitor M, a motion capture Mc, a camera C, and a attention
モニタMは、テレビ放送として放送される番組(映像コンテンツ)や、記録媒体(例えば、DVD等)に記録された映像コンテンツを表示するものである。このモニタMは、テレビ受像機等の一般的な表示装置であって、人物Hに対して映像コンテンツを提示するものである。 The monitor M displays a program (video content) broadcast as a television broadcast and a video content recorded on a recording medium (for example, a DVD). The monitor M is a general display device such as a television receiver and presents video content to the person H.
モーションキャプチャMcは、映像コンテンツを視聴している人物Hの骨格の位置を計測するものであって、一般的な姿勢検出装置である。このモーションキャプチャMcは、人物Hを撮影する方向を向けて、モニタMの近傍に配置される。
このモーションキャプチャMcは、奥行きカメラ(不図示)で撮影した距離画像によって人物Hまでの距離を計測するとともに、人物Hの3次元空間上の骨格位置(例えば、頭部位置、頸部位置等)を検出し、その骨格位置の3次元座標を2次元座標に投影することで骨格位置情報を生成する。このモーションキャプチャMcで計測された骨格位置情報は、注目度推定装置1に出力される。
The motion capture Mc measures the position of the skeleton of the person H who is viewing the video content, and is a general posture detection device. This motion capture Mc is arranged in the vicinity of the monitor M in the direction in which the person H is photographed.
This motion capture Mc measures the distance to the person H from a distance image taken by a depth camera (not shown), and also the skeleton position (for example, head position, neck position, etc.) of the person H in the three-dimensional space. , And the skeleton position information is generated by projecting the three-dimensional coordinates of the skeleton position onto the two-dimensional coordinates. The skeleton position information measured by the motion capture Mc is output to the attention
カメラCは、映像コンテンツを視聴している人物Hを撮影するもので、一般的な撮像装置である。このカメラCは、人物Hを撮影する方向に向けて、モニタMの近傍に配置される。このカメラCが撮影したカメラ映像は、注目度推定装置1に出力される。
なお、カメラCとモーションキャプチャMcとが人物Hを撮影する画角は、ほぼ等しくしておく。もちろん、モーションキャプチャMcから、人物Hを撮影した映像を取得可能であれば、モーションキャプチャMcから、カメラ映像を出力することとしてもよい。
The camera C captures a person H who is viewing video content and is a general imaging device. The camera C is arranged in the vicinity of the monitor M in the direction in which the person H is photographed. The camera image captured by the camera C is output to the attention
Note that the angle of view at which the camera C and the motion capture Mc capture the person H is set to be approximately equal. Of course, if it is possible to obtain a video of the person H from the motion capture Mc, a camera video may be output from the motion capture Mc.
注目度推定装置1は、モーションキャプチャMcで計測された、映像コンテンツを視聴している人物Hの骨格位置情報と、カメラCで撮影された、人物Hを撮影したカメラ映像とから、映像コンテンツの予め定めた映像区間(トピック)において、人物Hの注目の度合いを示す注目度を推定するものである。
The attention
一般に、人物Hが映像コンテンツを注目(集中)して視聴している場合、身体動作が少なくなり、瞬き間隔(瞬目間隔時間)が長くなり、視線の動き(視線変動)が小さくなる等の傾向がある。
そこで、注目度推定装置1は、これらの変化を、モーションキャプチャMcで計測された骨格位置情報と、カメラCで撮影されたカメラ映像とに基づいて検出することで、人物Hの映像コンテンツに対する注目度を推定する。すなわち、注目度推定装置1は、骨格位置情報から、例えば、人物Hの頭部位置を特定し、その動きによって身体動作の変化を検出し、カメラ映像から、人物Hの瞬き間隔や視線の動きの変化を検出することで、注目度を推定する。
このように、注目度測定システムSを構成することで、接触型デバイスの装着や、赤外線光の照射等、人物Hに負荷を与えることなく、注目度を推定することができる。
以下、注目度推定装置1の構成および動作について説明する。
In general, when a person H is watching (concentrating) watching video content, the body motion is reduced, the blink interval (blink interval time) is increased, and the movement of the line of sight (gaze fluctuation) is reduced. Tend.
Therefore, the attention
In this way, by configuring the attention level measurement system S, it is possible to estimate the attention level without imposing a load on the person H, such as wearing a contact-type device or irradiating infrared light.
Hereinafter, the configuration and operation of the attention
[注目度推定装置の構成]
まず、図2を参照(適宜図1参照)して、本発明の実施形態に係る注目度推定装置1の構成について説明する。ここでは、注目度推定装置1は、映像コンテンツを時間方向に区切った映像区間を示す情報として、映像区間情報を入力する。そして、注目度推定装置1は、この映像区間単位で注目度を推定する。また、映像区間情報は、図示を省略した入力手段を介して入力することとする。
[Configuration of attention level estimation device]
First, referring to FIG. 2 (refer to FIG. 1 as appropriate), the configuration of the attention
なお、この映像区間情報は、注目度を推定したい区間を特定する時間情報(フレーム番号等)であって、映像内のトピック(例えば、ニュース番組における「政治」、「経済」、「スポーツ」、「芸能」等)ごとの切り替わりを示す情報である。また、この映像区間情報は、図示を省略したトピック検出装置を介して出力される、映像コンテンツからトピックを検出した情報としてもよい。
また、ここでは、時間情報以外に、トピックを識別するための識別子(ID番号)を、付加しておくこととする。もちろん、この映像区間は、映像コンテンツ全体を示すものであってもよいし、映像コンテンツの一部を示すものであってもよい。
The video section information is time information (frame number or the like) for specifying a section for which the degree of attention is to be estimated. Topics in the video (for example, “politics”, “economics”, “sports”, “Entertainment”, etc.). Further, the video section information may be information that detects a topic from video content that is output via a topic detection device (not shown).
Here, in addition to the time information, an identifier (ID number) for identifying the topic is added. Of course, this video section may indicate the entire video content, or may indicate a part of the video content.
図2に示すように、注目度推定装置1は、身体特徴量抽出手段10と、視線変動量使用判定手段20と、統計特徴量生成手段30と、学習データ記憶手段40と、注目度特定手段50と、を備えている。
As shown in FIG. 2, the attention
身体特徴量抽出手段10は、モーションキャプチャMcから入力される骨格位置情報と、カメラCから入力されるカメラ映像とから、映像コンテンツを視聴している人物の身体特徴量を抽出するものである。
なお、モーションキャプチャMcから入力される骨格位置情報は、例えば、図3(a)に示すように、モーションキャプチャMcにおいて人物Hが撮影されたとき、図3(b)に示すように、人物Hの骨格の位置である頭部位置PHや頸部位置PNの2次元画像上の座標である。
ここでは、身体特徴量抽出手段10は、身体動作量計測手段11と、傾き補正手段12と、瞬目間隔計測手段13と、視線変動量計測手段14と、を備えている。
The body feature
Note that the skeleton position information input from the motion capture Mc is, for example, as shown in FIG. 3A, when the person H is photographed in the motion capture Mc, as shown in FIG. is a coordinate on the two-dimensional image of the head position P H and the neck position P N is the position of the skeleton.
Here, the body feature
身体動作量計測手段11は、モーションキャプチャMcから入力される骨格位置情報を時系列に入力し、骨格位置情報の予め定めた骨格位置における単位時間(例えば、モーションキャプチャMcのフレーム単位)当たりの変化量である身体動作量を計測するものである。
一般に、映像コンテンツを視聴している人物Hが注目状態に入ったとき、身体の動きは少なくなる。そこで、身体動作量計測手段11は、身体が動く量(身体動作量)を、注目度の推定の指標となる特徴量として抽出(計測)する。
The body movement amount measuring means 11 inputs the skeleton position information input from the motion capture Mc in time series, and changes per unit time (for example, frame unit of the motion capture Mc) of the skeleton position information at a predetermined skeleton position. It measures the amount of body movement that is a quantity.
In general, when the person H who is viewing the video content enters the attention state, the movement of the body decreases. Therefore, the body movement amount measuring means 11 extracts (measures) the amount of movement of the body (body movement amount) as a feature amount that serves as an index for estimating the degree of attention.
ここでは、身体動作量計測手段11は、骨格位置情報として人物Hの頭部位置を利用することとする。もちろん、動きを計測することができる部位であれば、他の骨格位置であっても構わない。
例えば、tpを映像区間(トピック)のID番号、PH x(t)を時刻tフレームにおける2次元座標上での水平方向(x軸方向)の頭部位置(x座標)、PH y(t)を同じく垂直方向(y軸方向)の頭部位置(y座標)としたとき、身体動作量計測手段11は、以下の式(1)により、単位時間あたりの身体動作量Ktp(t)を計測する。
Here, the body movement amount measuring means 11 uses the head position of the person H as the skeleton position information. Of course, any other skeleton position may be used as long as the movement can be measured.
For example, tp is the ID number of the video section (topic), P H x (t) is the head position (x coordinate) in the horizontal direction (x-axis direction) on the two-dimensional coordinates in the time t frame, and P H y ( Similarly, when t) is the head position (y coordinate) in the vertical direction (y-axis direction), the body motion amount measuring means 11 uses the following equation (1) to calculate the body motion amount K tp (t ).
この身体動作量計測手段11で計測された身体動作量は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
The body movement amount measured by the body movement amount measurement unit 11 is output to the statistical feature
傾き補正手段12は、カメラCから入力されるカメラ映像を、カメラCのフレームごとに人物Hの顔がフレーム画像(カメラ画像)上で垂直になるように補正するものである。ここでは、傾き補正手段12は、モーションキャプチャMcから入力される骨格位置情報のうちで、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心として、フレーム画像を回転処理する。
The
ここで、PH x(t),PH y(t)をそれぞれ時刻tフレームにおける頭部位置のx,y座標とし、PN x(t),PN y(t)をそれぞれ時刻tフレームにおける頸部位置のx,y座標としたとき、傾き補正手段12は、首の傾きθtを、以下の式(2)で算出する。 Here, P H x (t) and P H y (t) are the x and y coordinates of the head position in the time t frame, respectively, and P N x (t) and P N y (t) are each in the time t frame. When the x and y coordinates of the cervical position are taken, the inclination correction means 12 calculates the inclination θ t of the neck by the following equation (2).
そして、傾き補正手段12は、フレーム画像の画像中心を(cxt,cyt)としたとき、首の傾きθtを利用して、以下の式(3)により、フレーム画像の任意の点(xt,yt)を、(xt′,yt′)に変換することで、傾きを補正したフレーム画像を生成する。 Then, the inclination correction means 12 uses the neck inclination θ t and the following expression (3), using the neck inclination θ t , where the center of the frame image is (cx t , cy t ). By converting x t , y t ) into (x t ′, y t ′), a frame image with corrected inclination is generated.
例えば、図4(a)の(a−1)に示すように、人物Hが、フレーム画像上で斜め左に傾いている場合、頸部位置PNが頭部位置PHの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を右回転させる(a−2)。また、例えば、図4(b)の(b−1)に示すように、人物Hが、フレーム画像上で斜め右に傾いている場合、頸部位置PNが頭部位置PHの直下になるように、フレーム画像の画像中心を中心として、その傾き分、フレーム画像を左回転させる(b−2)。 For example, as shown in FIG. 4 (a) (a-1) , the person H is, if the inclined obliquely left on the frame image, so that the neck position P N becomes immediately below the head position P H Then, the frame image is rotated to the right by the inclination of the center of the frame image (a-2). Further, for example, as shown in FIG. 4 (b) (b-1) , the person H is, if the inclined obliquely right on the frame image, the neck position P N is immediately below the head position P H Thus, the frame image is rotated counterclockwise by an amount corresponding to the inclination of the image center of the frame image (b-2).
これによって、補正された画像(a−2)(b−2)において、人物Hの顔が直立した状態となり、後記する瞬目間隔計測手段13および視線変動量計測手段14における瞬目や、目の領域の判定を行う精度を高めることができる。
この傾き補正手段12で補正されたフレーム画像(カメラ画像)は、瞬目間隔計測手段13および視線変動量計測手段14に出力される。
Thereby, in the corrected images (a-2) and (b-2), the face of the person H is in an upright state, and blinks and eyes in the blink interval measuring means 13 and the line-of-sight variation measuring means 14 to be described later are displayed. It is possible to improve the accuracy of determining the area.
The frame image (camera image) corrected by the
瞬目間隔計測手段13は、傾き補正手段12で補正された、カメラCから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Hの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測するものである。
The blink
ここでは、瞬目間隔計測手段13は、まず、カメラ画像から顔領域を検出する。この顔領域の検出は、一般的な手法を用いることができる。例えば、瞬目間隔計測手段13は、OpenCVライブラリなどにも用いられているビオラ(Viola)とジョーンズ(Jones)が提案した顔検出手法を用いることができる。この顔検出手法は、白と黒で表された矩形内の輝度値の差で表された特徴量(Haar−like特徴量)を用いて、予め学習した複数のカスケード型の識別器によって顔の識別を行うものである。
そして、瞬目間隔計測手段13は、当該顔領域における予め定めた画像特徴となる特徴点を時系列に追跡した複数の特徴点軌跡と、予め瞬目動作の特徴点軌跡として学習した学習データとに基づいて、瞬目状態を検出し、その間隔時間を計測する。
Here, the blink interval measuring means 13 first detects a face area from the camera image. A general method can be used for the detection of the face area. For example, the blink interval measuring means 13 can use the face detection method proposed by Viola and Jones, which is also used in the OpenCV library and the like. This face detection method uses a feature quantity (Haar-like feature quantity) represented by a difference between luminance values in a rectangle represented by white and black, and uses a plurality of cascade-type classifiers that have been learned in advance. Identification is performed.
Then, the blink interval measuring means 13 includes a plurality of feature point trajectories obtained by tracking feature points that are predetermined image features in the face area in time series, and learning data learned in advance as feature point trajectories for the blink operation. Based on the above, the blink state is detected and the interval time is measured.
具体的には、瞬目間隔計測手段13は、時系列に変化する顔領域ごとに、画像の特徴となる点(特徴点)、例えば、隣接画素に対する画素値あるいは輝度値の変化によって特徴点を検出し、特徴量が類似する特徴点をフレームごとにマッチングすることで、特徴点を時間方向に追跡する。この特徴点の検出、追跡は、例えば、KLT法、Mean Shift法等を用いることができる。
Specifically, the blink
そして、瞬目間隔計測手段13は、この検出、追跡によって得られた特徴点軌跡を1つの単語とみなしたBag−of−words手法を用いて瞬目動作を識別する。
このBag−of−words手法は、単語(ここでは、特徴点軌跡)をその特徴に基づいて分類した辞書であるコードブックに基づいて、多次元の特徴を予め定めたk種類のクラスタで代表させ、クラスタの頻度ヒストグラムで分類処理を行う手法である。
ここでは、瞬目間隔計測手段13は、1つの特徴点軌跡から1つのヒストグラム(軌跡ヒストグラム)を生成し、ある時点において存在する複数の軌跡ヒストグラムを、Bag−of−words手法における複数の単語とする。
Then, the blink
This Bag-of-words method is based on a codebook that is a dictionary in which words (here, feature point trajectories) are classified based on their features, and multidimensional features are represented by k types of predetermined clusters. This is a technique for performing classification processing using a cluster frequency histogram.
Here, the blink
なお、この軌跡ヒストグラムは、単位時間あたりの個々の軌跡(ベクトル)の向きと長さによって定めた固定次元のヒストグラムとする。例えば、ここでは、軌跡の向きを45度単位の8方向に区分し、軌跡の長さを、“0”を含む4つに区分した。なお、この軌跡の長さの区分は、事前の学習フェーズで計測した、軌跡の長さの平均値と標準偏差とする。 The trajectory histogram is a fixed-dimension histogram determined by the direction and length of individual trajectories (vectors) per unit time. For example, here, the direction of the trajectory is divided into 8 directions in units of 45 degrees, and the length of the trajectory is divided into four including “0”. The trajectory length classification is the average and standard deviation of trajectory lengths measured in the prior learning phase.
例えば、事前に計測した映像コンテンツにおいて、すべての特徴点軌跡の個々のベクトルの長さ(mi:i=0〜N〔Nは、映像コンテンツ内でのベクトル総数〕)の平均値μ、その標準偏差σを、以下の式(4)により予め求めておき、軌跡の長さの区分を“0”、(0,μ−σ/2]、(μ−σ/2,μ+σ/2]、(μ+σ/2,∞)の4つとする。なお、(a,b)は、値がaより大きくbより小さい区分を示し、(a,b]は、値がaより大きくb以下の区分を示す。 For example, in the video content measured in advance, the average value μ of the lengths of individual vectors of all feature point trajectories (m i : i = 0 to N [N is the total number of vectors in the video content]), The standard deviation σ is obtained in advance by the following formula (4), and the segmentation of the length of the trajectory is “0”, (0, μ−σ / 2], (μ−σ / 2, μ + σ / 2), (Μ + σ / 2, ∞), where (a, b) indicates a segment having a value greater than a and less than b, and (a, b) represents a segment having a value greater than a and less than or equal to b. Show.
すなわち、瞬目間隔計測手段13は、図5(a)に示すように、1つの特徴点軌跡について、個々の軌跡(ベクトル)の長さLと向きθから、図5(b)に示すように、向きを8分割、長さを4分割した区分で、ビン(bin)数の合計が25(8〔方向〕×3〔長さ〕+1〔長さ“0”〕)のヒストグラム(軌跡ヒストグラム)を生成する。 That is, as shown in FIG. 5A, the blink interval measuring means 13 shows the length of each trajectory (vector) L and the direction θ as shown in FIG. A histogram (trajectory histogram) in which the direction is divided into eight and the length is divided into four, and the total number of bins is 25 (8 [direction] × 3 [length] +1 [length “0”]). ) Is generated.
そして、瞬目間隔計測手段13は、生成した軌跡ヒストグラムから、予め学習によって求めた2値SVM(サポートベクタマシン)識別器により、現時点における特徴点軌跡の集合が瞬目状態を示す軌跡であるか否かを判定する。なお、この2値SVM識別器は、事前(学習フェーズ)に特徴点の軌跡ヒストグラムをk−means法(k平均法)によって、予め定めたk個(例えば、100個)の代表ヒストグラムに量子化することでk個のコードブックを生成し、瞬目状態であるか否か予め学習しておくものとする。この2値SVM識別器は、軌跡ヒストグラムが入力された際に、その軌跡ヒストグラムが瞬目を示しているか否かの結果を返す瞬目検出器(瞬目検出関数)であって、図示を省略した記憶手段に予め記憶しておく。 Then, the blink interval measuring means 13 uses the binary SVM (support vector machine) discriminator previously obtained from learning from the generated locus histogram to determine whether the current set of feature point locus is a locus indicating the blink state. Determine whether or not. The binary SVM discriminator quantizes the trajectory histogram of feature points in advance (learning phase) into k representative histograms (for example, 100) in advance by the k-means method (k average method). By doing so, k codebooks are generated, and it is assumed in advance whether or not it is in the blink state. This binary SVM discriminator is a blink detector (blink detection function) that returns a result of whether or not the locus histogram indicates blinks when the locus histogram is input, and is not shown in the figure. Previously stored in the storage means.
そして、瞬目間隔計測手段13は、瞬目と判定した時刻(瞬目と判定した時点のフレーム)の時間間隔(瞬目間隔時間)を計測する。
すなわち、tpをトピックのID番号、nを当該トピック内での瞬目を識別するID番号、t(n)をn番目の瞬目が検出された時刻(フレーム番号)としたとき、瞬目間隔計測手段13は、以下の式(5)により、瞬目が検出された時間間隔(瞬目間隔時間)Btp(n)を計測する。
Then, the blink interval measuring means 13 measures the time interval (blink interval time) at the time determined to be a blink (the frame at the time when the blink is determined).
That is, when tp is a topic ID number, n is an ID number for identifying a blink in the topic, and t (n) is a time (frame number) at which the nth blink is detected, the blink interval The measuring means 13 measures the time interval (blink interval time) B tp (n) at which blinks are detected by the following equation (5).
この瞬目間隔計測手段13で計測された瞬目間隔時間は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
The blink interval time measured by the blink
視線変動量計測手段14は、傾き補正手段12で補正された、カメラCから時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて、人物Hの目領域を検出し、当該目領域内の左右領域の輝度比から、単位時間当たりの視線変動量を計測するものである。
The line-of-sight
ここでは、視線変動量計測手段14は、まず、カメラ画像から目領域を検出する。この目領域の検出は、瞬目間隔計測手段13と同様に、一般的なViolaとJonesの手法を用いることができる。
すなわち、視線変動量計測手段14は、目の白黒領域を矩形内の輝度値の差で表したHaar−like特徴量を用いて、予め学習した複数のカスケード型の識別器によって目の領域を検出する。なお、視線変動量計測手段14は、瞬目間隔計測手段13と同様に、カメラ画像から、一旦、顔領域を検出し、その顔領域内で目の領域を検出することとしてもよい。
Here, the line-of-sight variation measuring means 14 first detects an eye area from the camera image. The eye area can be detected by using the general Viola and Jones methods as in the blink interval measuring means 13.
That is, the line-of-sight variation measuring means 14 detects the eye region by using a plurality of cascade-type discriminators learned in advance using the Haar-like feature amount that represents the black and white region of the eye by the luminance value difference in the rectangle. To do. Note that, similarly to the blink
そして、視線変動量計測手段14は、検出した目領域を水平方向の中心で左右に区分し、左領域および右領域のそれぞれの輝度計測領域について画素の輝度値を合計する。
すなわち、視線変動量計測手段14は、図6(a)に示すように、目領域を検出後、図6(b)に示すように、目領域の水平方向の中心で左右に区分した右領域ERと左領域ELとにおいて、画素の輝度値を合計する。
Then, the line-of-sight variation measuring means 14 divides the detected eye region into left and right at the center in the horizontal direction, and sums up the luminance values of the pixels in the luminance measurement regions of the left region and the right region.
That is, the line-of-sight variation measuring means 14 detects the eye area as shown in FIG. 6A, and then, as shown in FIG. 6B, the right area divided into left and right at the center in the horizontal direction. in the E R and the left region E L, summing the luminance values of the pixels.
そして、視線変動量計測手段14は、この右領域ERと左領域ELとの輝度値の比で視線方向を特定する。
例えば、図6(b)におけるそれぞれの領域(ER,EL)の画素数をN、右領域ER内の任意の画素iにおける輝度値をIR(i)、左領域EL内の任意の画素iにおける輝度値をIL(i)としたとき、視線変動量計測手段14は、ある時刻tフレームにおける視線方向dtを、以下の式(6)により算出する。
The gaze
For example, each region (E R, E L) in FIG. 6 (b) the number of pixels N, the luminance value at an arbitrary pixel i in the right area E R I R (i), in the left area E L when the luminance value was I L (i) at an arbitrary pixel i, gaze
この式(6)において、輝度値が大きいほど明るい画素であるとすると、人物HがカメラCに向かって右方向を向き、右領域ERにおける角膜(黒目)の割合が多くなるとdtは増加する。また、人物HがカメラCに向かって左方向を向き、左領域ELにおける角膜の割合が多くなるとdtは減少する。
なお、視線変動量計測手段14は、人物Hの目領域として、左右の2つの目領域を検出した場合、左右の目領域において、それぞれ前記式(6)で視線方向を算出し、その平均をとることとする。
In the formula (6), when a bright pixel larger the luminance value, a person H is oriented in the right direction in the camera C, the d t the ratio increases corneal (iris) in the right area E R increases To do. In addition, when the person H turns left toward the camera C and the proportion of the cornea in the left region E L increases, d t decreases.
Note that, when the left and right eye areas are detected as the eye area of the person H, the gaze fluctuation
そして、視線変動量計測手段14は、前記式(6)で算出された視線方向の時間方向の差分を求めることで、時系列に視線変動量を算出する。
すなわち、tpをトピックのID番号、tを視線方向を計測した時刻(フレーム番号)としたとき、視線変動量計測手段14は、以下の式(7)により、視線変動量Etp(t)を計測する。なお、|a|は、aの絶対値を示す。
Then, the line-of-sight variation measurement means 14 calculates the amount of line-of-sight variation in time series by obtaining the time direction difference of the line-of-sight direction calculated by the equation (6).
That is, when tp is the topic ID number and t is the time (frame number) when the line-of-sight direction is measured, the line-of-sight variation measuring means 14 calculates the line-of-sight variation E tp (t) by the following equation (7). measure. | A | indicates the absolute value of a.
前記式(6)における視線方向dtは、視線方向推定としては十分な精度は得られないが、前記式(7)のように、差分値を算出することで、視線の変動量を精度よく求めることができる。
この視線変動量計測手段14で計測された視線変動量は、映像区間(トピック)ごとに、統計特徴量生成手段30に出力される。
The line-of-sight direction dt in equation (6) does not provide sufficient accuracy for line-of-sight direction estimation, but by calculating the difference value as in equation (7), the line-of-sight variation can be accurately determined. Can be sought.
The line-of-sight variation measured by the line-of-sight
視線変動量使用判定手段20は、身体特徴量抽出手段10で抽出された視線変動量を後記する統計特徴量生成手段30で使用するか否かを判定するものである。ここでは、視線変動量使用判定手段20は、字幕情報量計測手段21と、映像動き量計測手段22と、使用判定手段23と、を備えている。
The line-of-sight variation amount
通常、映像内に字幕が多く出現し、人物Hがその字幕を注目した場合、人物Hは字幕を読むために必然的に視線変動量は多くなる。また、映像に動きが多い場合、人物Hはその動きを目で追うために必然的に視線変動量は多くなる。
すなわち、人物Hが字幕を注目した場合、あるいは、人物Hが映像の動きに注目した場合、人物Hが映像に注目すると視線変動量が小さくなるという前提と逆の方向に作用することになる。
そこで、ここでは、字幕情報量や映像動き量を、注目度を推定する際に視線変動量を使用するか否かの判定の指標として検出する。
Usually, when a lot of subtitles appear in the video and the person H pays attention to the subtitles, the person H inevitably increases the amount of line-of-sight variation in order to read the subtitles. In addition, when there is a lot of motion in the video, the person H inevitably increases the amount of line-of-sight fluctuation in order to follow the motion with his eyes.
That is, when the person H pays attention to the subtitle, or when the person H pays attention to the motion of the video, the effect is opposite to the premise that when the person H pays attention to the video, the line-of-sight fluctuation amount becomes small.
Therefore, here, the amount of caption information and the amount of video motion are detected as indicators for determining whether or not to use the line-of-sight variation when estimating the degree of attention.
字幕情報量計測手段21は、入力される映像コンテンツにおいて、指定された映像区間(トピック)ごとに、字幕の情報量(字幕情報量)を計測するものである。ここでは、字幕情報量計測手段21は、トピック内に含まれる字幕を含んだフレーム数の割合を字幕情報量とする。
The subtitle information amount measuring means 21 measures the subtitle information amount (subtitle information amount) for each designated video section (topic) in the input video content. Here, the caption information
具体的には、字幕情報量計測手段21は、入力された映像コンテンツをフレーム画像単位で、2次微分であるラプラシアン画像に変換する。一般に、映像内における字幕領域は、他の領域に比べてコントラストが高く、エッジ特徴が表れやすいためである。
ここで、フレーム画像の画素値をI(x,y)、変換後のラプラシアン画像の画素値をI′(x,y)としたとき、字幕情報量計測手段21は、以下の式(8)の演算により、ラプラシアン画像を生成する。
Specifically, the caption information
Here, when the pixel value of the frame image is I (x, y) and the pixel value of the converted Laplacian image is I ′ (x, y), the caption information amount measuring means 21 uses the following equation (8). A Laplacian image is generated by the above calculation.
このラプラシアン画像I′(x,y)の各画素は、例えば、画素の階調が8階調であれば、“0”〜“255”の値を持つ。ここでは、その画素値ごと(bin数256)に画素数を累計したヒストグラム(エッジヒストグラム)を、当該フレーム画像における字幕特徴量とする。
そして、字幕情報量計測手段21は、エッジヒストグラムを字幕特徴量として予め学習によって求めた識別器(例えば、2値SVM識別器)により、フレーム画像ごとに字幕の有無を検出する。あるいは、簡易に、フレーム画像において、所定輝度値以上の割合が、予め定めた割合よりも多いか否かによって、字幕の有無を検出することとしてもよい。
For example, each pixel of the Laplacian image I ′ (x, y) has a value of “0” to “255” if the gradation of the pixel is 8 gradations. Here, a histogram (edge histogram) obtained by accumulating the number of pixels for each pixel value (bin number 256) is set as a caption feature amount in the frame image.
Then, the caption information amount measuring means 21 detects the presence or absence of captions for each frame image by a discriminator (for example, a binary SVM discriminator) obtained by learning in advance using the edge histogram as a caption feature amount. Or it is good also as detecting the presence or absence of a subtitle simply by whether a ratio more than predetermined brightness value is more than a predetermined ratio in a frame image.
このように、字幕情報量計測手段21は、フレーム画像において字幕を検出し、字幕を検出したフレーム数と、トピックの時間長(フレーム数)との比によって、字幕情報量を算出する。
すなわち、トピックtp(トピックのID番号)において、字幕を検出したフレーム数をN(tp)、トピックの時間長(トピックの総フレーム数)をT(tp)としたき、字幕情報量計測手段21は、以下の式(9)により字幕情報量Jtpを算出する。
As described above, the caption information
That is, in the topic tp (topic ID number), the number of frames in which captions are detected is N (tp), and the topic length (total number of frames in a topic) is T (tp). Calculates the subtitle information amount J tp according to the following equation (9).
この字幕情報量計測手段21で計測された字幕特徴量は、使用判定手段23に出力される。
The caption feature amount measured by the caption information
映像動き量計測手段22は、入力される映像コンテンツにおいて、指定された映像区間(トピック)ごとに、映像内の動き量(映像動き量)を計測するものである。ここでは、映像動き量計測手段22は、トピック内のフレームごとに、差分をとることで映像内の動きを検出し、トピック内に含まれる動きの大きいフレーム数の割合を映像動き量とする。
例えば、映像動き量計測手段22は、入力される映像コンテンツのフレーム画像ごとに、予め定めた大きさのブロック単位で、1フレーム前に入力されたフレーム画像の同一のブロック間で差分をとり、その差が予め定めた量よりも大きい場合に、当該ブロックにおいて動きがあったことを検出し、動きのあったブロックの数が予め定めた数(あるいは割合)よりも大きい場合に当該フレーム画像において動きが大きいと判定する。
The video motion amount measuring means 22 measures the motion amount (video motion amount) in the video for each designated video section (topic) in the input video content. Here, the video motion amount measuring means 22 detects the motion in the video by taking the difference for each frame in the topic, and sets the ratio of the number of frames with a large motion included in the topic as the video motion amount.
For example, the video motion amount measuring means 22 takes a difference between the same blocks of the frame image input one frame before in units of blocks of a predetermined size for each frame image of the input video content, When the difference is larger than a predetermined amount, it is detected that there is motion in the block, and in the frame image when the number of blocks in motion is larger than a predetermined number (or ratio) It is determined that the movement is large.
そして、映像動き量計測手段22は、字幕情報量計測手段21と同様に、動きが大きいと判定したフレーム数と、トピックの時間長(フレーム数)との比によって、映像動き量を算出する。
この映像動き量計測手段22で計測された映像動き量は、使用判定手段23に出力される。
Then, as with the caption information
The video motion amount measured by the video motion
使用判定手段23は、字幕情報量計測手段21で計測された字幕情報量と、映像動き量計測手段22で計測された映像動き量とに基づいて、指定された映像区間(トピック)において、視線変動量を、注目度を推定する際の特徴量とするか否かを判定するものである。
The
ここでは、使用判定手段23は、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合に、視線変動量を、注目度を推定する際の特徴量としない旨の判定を行う。なお、それ以外の場合、使用判定手段23は、視線変動量を、注目度を推定する際の特徴量とする旨の判定を行う。
Here, the use determination means 23 is a feature for estimating the attention level of the line-of-sight variation when the amount of caption information is larger than a predetermined amount or the amount of video motion is larger than a predetermined amount. Judgment that it is not an amount is made. In other cases, the
なお、字幕情報量や映像動き量が多いか否かを判定する予め定めた量は、字幕情報量計測手段21や映像動き量計測手段22において、映像コンテンツの全トピックで字幕情報量と映像動き量とを計測した後、統計量によって定めることとしてもよい。
例えば、使用判定手段23は、全トピックの字幕情報量Jtpの平均μtpと標準偏差σtpとを算出し、μtp+σtpを超える場合に、字幕情報量が多いと判定する。また、映像動き量についても同様である。
It should be noted that the predetermined amount for determining whether the amount of caption information or the amount of video motion is large is determined by the caption information amount measuring means 21 or the video motion amount measuring means 22 for all topics of the video content. After measuring the quantity, it may be determined by a statistic.
For example, the
なお、ここでは、使用判定手段23は、字幕情報量と映像動き量とをそれぞれ個別に判定したが、字幕情報量と映像動き量とを加算(例えば、重み付き加算)した量に対して判定を行うこととしてもよい。
この使用判定手段23におけるトピックごとの視線変動量の使用判定結果は、統計特徴量生成手段30および注目度特定手段50に出力される。
Here, the
The use determination result of the gaze variation amount for each topic in the
統計特徴量生成手段30は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)を統計し、映像区間(トピック)における固定次元の特徴量を生成するものである。なお、統計特徴量生成手段30は、視線変動量使用判定手段20から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量を除いた特徴量で固定次元の特徴量を生成する。
ここでは、統計特徴量生成手段30は、グローバル特徴生成手段31と、局所ヒストグラム特徴生成手段32と、を備えている。
The statistical feature
Here, the statistical feature
グローバル特徴生成手段31は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)から、指定された映像区間(トピック)内におけるグローバル(大局的)な統計特徴量(特徴量記述子)を生成するものである。
すなわち、グローバル特徴生成手段31は、あるトピックにおける人物Hの大まかな特徴をグローバル特徴として生成する。
The global
That is, the global
ここでは、グローバル特徴生成手段31は、入力されたトピックごとに、身体動作量の平均値μKtpおよび標準偏差σKtp、瞬目間隔時間の平均値μBtpおよび標準偏差σBtp、ならびに、視線変動量の平均値μEtpおよび標準偏差σEtpを算出し、固定次元の特徴量記述子とする。
これによって、3種類の特徴量を、トピックの時間長によらず、固定の6次元の特徴量(特徴量記述子)として表すことができる。
Here, the global feature generating means 31, for each input topic, the average value of the body movement amount mu Ktp and standard deviation sigma Ktp, mean mu Btp and standard deviation sigma Btp blink interval time, and line-of-sight change An average value μ Etp and a standard deviation σ Etp of the quantities are calculated and used as fixed dimension feature descriptors.
As a result, the three types of feature quantities can be expressed as fixed six-dimensional feature quantities (feature quantity descriptors) regardless of the topic time length.
なお、グローバル特徴生成手段31は、視線変動量使用判定手段20から、あるトピックtpにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量の平均値および標準偏差を算出せず、2種類の特徴量(身体動作量、瞬目間隔時間)から、それぞれの平均値および標準偏差である4次元の特徴量(特徴量記述子)を生成する。
このように生成されたグローバル特徴(特徴量記述子)は、トピックと対応付けて注目度特定手段50に出力される。
The global
The global feature (feature descriptor) generated in this way is output to the attention level specifying means 50 in association with the topic.
局所ヒストグラム特徴生成手段32は、身体特徴量抽出手段10で抽出された各特徴量(身体動作量、瞬目間隔時間、視線変動量)から、指定された映像区間(トピック)内における局所的な統計特徴量(特徴量記述子)を生成するものである。
すなわち、局所ヒストグラム特徴生成手段32は、あるトピックにおける人物Hのより細かい特徴量を算出し、ヒストグラム(局所ヒストグラム)化するものである。
The local histogram
In other words, the local histogram feature generating means 32 calculates a finer feature amount of the person H in a certain topic and converts it into a histogram (local histogram).
ここでは、局所ヒストグラム特徴生成手段32は、特徴の分布が特定のビン(bin)に集中しないように、ヒストグラムの各ビンのしきい値を、映像コンテンツ全体の特徴量の平均および標準偏差から求めた値とする。
具体的には、局所ヒストグラム特徴生成手段32は、映像コンテンツ全体で検出された身体動作量の平均値をμ、その標準偏差をσとし、8つのビンでヒストグラムを生成する。その際の各ビンのしきい値は、図7(a)に示すように、(−∞,μ−2σ),[μ−2σ,μ−σ),[μ−σ,μ−1/2σ),[μ−1/2σ,μ),[μ,μ+1/2σ),[μ+1/2σ,μ+σ),[μ+σ,μ+2σ),[μ+2σ,∞)とする。なお、(a,b)は、値がaより大きくbより小さい区分を示し、(a,b]は、値がaより大きくb以下の区分を示す。
Here, the local histogram feature generating means 32 obtains the threshold value of each bin of the histogram from the average and standard deviation of the feature amount of the entire video content so that the distribution of features is not concentrated on a specific bin. Value.
Specifically, the local histogram feature generating means 32 generates a histogram with eight bins, where μ is the average value of physical movement detected in the entire video content, and σ is its standard deviation. The threshold values of the bins at that time are (−∞, μ−2σ), [μ−2σ, μ−σ), [μ−σ, μ−1 / 2σ, as shown in FIG. ), [Μ−1 / 2σ, μ), [μ, μ + 1 / 2σ), [μ + 1 / 2σ, μ + σ), [μ + σ, μ + 2σ), [μ + 2σ, ∞). Note that (a, b) indicates a segment having a value greater than a and less than b, and (a, b) represents a segment having a value greater than a and less than b.
そして、局所ヒストグラム特徴生成手段32は、身体特徴量抽出手段10で抽出された、指定された映像区間(トピック)内における身体動作量を、図7(a)で示したビン(区間0〜7)ごとに累計して、図7(b)に示すようなヒストグラム(局所ヒストグラム特徴)を生成する。
なお、瞬目間隔時間および視線変動量についても、身体動作量と同様に、映像コンテンツ全体で検出されたそれぞれの特徴量の平均値と標準偏差でビンのしきい値を求めてヒストグラムを生成する。
Then, the local histogram
As for the blink interval time and the line-of-sight fluctuation amount, similarly to the body movement amount, a bin threshold value is obtained from the average value and standard deviation of each feature amount detected in the entire video content, and a histogram is generated. .
このように、局所ヒストグラム特徴生成手段32は、映像コンテンツ全体で検出された特徴量の平均値と標準偏差でビンのしきい値を定めることで、極度に偏ったヒストグラムの生成を避けることができる。
これによって、3種類の特徴量を、トピックの時間長によらず、固定の24次元の特徴量(特徴量記述子)として表すことができる。
As described above, the local histogram
As a result, the three types of feature quantities can be represented as fixed 24-dimensional feature quantities (feature quantity descriptors) regardless of the topic time length.
なお、局所ヒストグラム特徴生成手段32は、視線変動量使用判定手段20から、あるトピックtpにおいて、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、視線変動量については、局所ヒストグラムを生成せず、2種類の特徴量(身体動作量、瞬目間隔時間)から、それぞれの局所ヒストグラムを生成し、16次元の特徴量(特徴量記述子)を生成する。
このように算出された局所ヒストグラム特徴(特徴量記述子)は、トピックと対応付けて注目度特定手段50に出力される。
Note that the local histogram
The local histogram feature (feature descriptor) calculated in this way is output to the attention level specifying means 50 in association with the topic.
すなわち、統計特徴量生成手段30で生成される統計特徴量は、図8に示すように、グローバル特徴である身体動作量、瞬目間隔時間および視線変動量のそれぞれの平均値および標準偏差の6次元の特徴量記述子と、局所ヒストグラム特徴である身体動作量、瞬目間隔時間および視線変動量の各ビン(区間0〜7)の度数の24次元の特徴量記述子とからなる30次元の固定次元の特徴量記述子である。
That is, the statistical feature amount generated by the statistical feature amount generating means 30 is 6 as the average value and standard deviation of the global body motion amount, blink interval time, and line-of-sight variation amount as shown in FIG. A 30-dimensional feature descriptor including a dimension feature descriptor and a 24-dimensional feature descriptor of the frequency of each bin (
なお、視線変動量使用判定手段20から、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、統計特徴量生成手段30で生成される統計特徴量は、図8に示した特徴量記述子から、視線変動量の特徴量を除いた20次元の特徴量記述子となる。
Note that when a determination result indicating that the gaze variation amount is not used as a feature amount is input from the gaze variation amount
学習データ記憶手段(第2学習データ記憶手段)40は、特徴量(グローバル特徴、局所ヒストグラム特徴)と、注目度との対応関係を予め学習した学習データを記憶するものであって、ハードディスク等の一般的な記憶装置である。
この学習データ記憶手段40は、予め第1学習データD1と第2学習データD2の2つの学習データを記憶しておく。なお、第1学習データD1と第2学習データD2とを異なる記憶手段に記憶することとしてもよい。
The learning data storage means (second learning data storage means) 40 stores learning data in which the correspondence between the feature amount (global feature, local histogram feature) and the degree of attention is learned in advance, such as a hard disk It is a general storage device.
The learning data storage means 40 stores two learning data of the first learning data D1 and the second learning data D2 in advance. Note that the first learning data D1 and the second learning data D2 may be stored in different storage means.
第1学習データD1は、学習フェーズにおいて、予め人物が映像コンテンツ(トピック)を視聴した際の特徴量(グローバル特徴、局所ヒストグラム特徴)を学習特徴量とし、そのときの注目度を、主観評価値(例えば、非注目から注目までを5段階で評価した値)とすることで学習したSVM推定器(識別関数)である。
このSVM推定器は、例えば、出力値(注目度)が連続値をとる分類器(SVM回帰推定器)とする。もちろん、注目度を2クラス(注目、非注目)で出力させたい場合、2クラス分類器であってもよいし、注目度を多クラス(多値)で出力させたい場合、多クラス分類器であっても構わない。
The first learning data D1 uses, as a learning feature amount, a feature amount (a global feature or a local histogram feature) when a person views video content (topic) in advance in the learning phase, and the degree of attention at that time is a subjective evaluation value. It is an SVM estimator (discriminant function) learned by setting (for example, a value evaluated from five points of non-attention to attention).
This SVM estimator is, for example, a classifier (SVM regression estimator) whose output value (degree of interest) takes a continuous value. Of course, if you want to output the attention level in two classes (attention and non-attention), you may use a two-class classifier. If you want to output the attention level in multiple classes (multi-value), use a multi-class classifier. It does not matter.
第2学習データD2は、第1学習データD1と同様に学習したSVM推定器(識別関数)である。ただし、第1学習データD1が特徴量に視線変動量を含んでいるのに対し、第2学習データD2は、特徴量に視線変動量を含まずに学習したSVM推定器(識別関数)である。 The second learning data D2 is an SVM estimator (discriminant function) learned in the same manner as the first learning data D1. However, while the first learning data D1 includes the line-of-sight variation amount in the feature amount, the second learning data D2 is an SVM estimator (discriminant function) learned without including the line-of-sight variation amount in the feature amount. .
このような学習データは、例えば、図12に示すような、注目度学習装置2を用いて生成することができる。
この注目度学習装置2は、注目度推定装置1において、注目度特定手段50を学習手段60に替え、視線変動量使用判定手段20を除いて構成したもので、他の構成は同一である。
Such learning data can be generated using, for example, the attention
This attention
すなわち、注目度学習装置2の学習手段60は、予め人物が映像コンテンツ(トピック)を視聴した際の特徴量(グローバル特徴、局所ヒストグラム特徴)を学習特徴量とし、そのときの注目度を、主観評価値(例えば、非注目から注目までを5段階で評価した値)として、図示を省略した入力手段を介して入力されることで、SVM推定器(識別関数)を生成し、学習データ記憶手段40に記憶する。
That is, the learning means 60 of the attention
このとき、注目度学習装置2は、視線変動量を特徴量として用いた第1学習データD1と、視線変動量を特徴量として用いない第2学習データD2とを生成する。
このように、注目度学習装置2によって、予め学習によって生成された第1学習データD1と第2学習データD2とを、注目度推定装置1の学習データ記憶手段40に記憶しておく。
図2に戻って、注目度推定装置1の構成について説明を続ける。
At this time, the attention
In this way, the first learning data D1 and the second learning data D2 generated in advance by learning by the attention
Returning to FIG. 2, the description of the configuration of the attention
注目度特定手段50は、学習データ記憶手段40に記憶されている学習データに基づいて、統計特徴量生成手段30で生成された特徴量(特徴量記述子)に対応する注目度を、指定された映像区間に対する注目度として特定するものである。
すなわち、注目度特定手段50は、学習データ記憶手段40に記憶されている学習データ(SVM推定器:識別関数)を用い、統計特徴量生成手段30で生成された特徴量記述子を入力値として注目度を演算する。
The attention level specifying means 50 is designated with the attention level corresponding to the feature quantity (feature quantity descriptor) generated by the statistical feature quantity generation means 30 based on the learning data stored in the learning data storage means 40. It is specified as the degree of attention to the video section.
That is, the attention level specifying unit 50 uses the learning data (SVM estimator: identification function) stored in the learning
なお、注目度特定手段50は、視線変動量使用判定手段20から、あるトピックtp(映像区間)において、視線変動量を特徴量として使用する旨の判定結果が入力された場合、学習データ記憶手段40に記憶されている第1学習データD1を用いて注目度を演算する。
Note that the attention level specifying unit 50 receives learning data storage unit when a determination result indicating that the line-of-sight variation amount is used as a feature amount in a certain topic tp (video section) is input from the line-of-sight variation
一方、注目度特定手段50は、視線変動量使用判定手段20から、あるトピックtp(映像区間)において、視線変動量を特徴量として使用しない旨の判定結果が入力された場合、学習データ記憶手段40に記憶されている第2学習データD2を用いて注目度を演算する。
On the other hand, when the determination result indicating that the line-of-sight variation amount is not used as the feature amount in a certain topic tp (video section) is input from the line-of-sight variation amount
このようにトピック(映像区間)ごとに特定された注目度は、注目度推定装置1の推定結果として出力される。なお、注目度特定手段50は、図示を省略した通信制御部を介して、ネットワーク経由で、映像コンテンツ(トピック)の識別情報と対応付けて、映像コンテンツの送信元に注目度を送信することとしてもよい。
Thus, the attention level specified for each topic (video section) is output as an estimation result of the attention
以上説明したように、注目度推定装置1を構成することで、注目度推定装置1は、モーションキャプチャMcから入力される骨格位置情報と、カメラCから入力されるカメラ映像とから、接触型デバイスの装着や、赤外線光の照射等、人物に負荷を与えることなく、映像コンテンツ(トピック)の注目度を推定することができる。
なお、注目度推定装置1は、一般的なコンピュータを前記した各手段として機能させるプログラム(注目度推定プログラム)により動作させることができる。
As described above, by configuring the attention
The attention
[注目度推定装置の動作]
次に、図9を参照(適宜図1,図2参照)して、本発明の実施形態に係る注目度推定装置1の動作について説明する。なお、ここでは、予め学習データ記憶手段40に、学習データ(第1学習データD1、第2学習データD2)が記憶されているものとする。
[Operation of attention level estimation device]
Next, referring to FIG. 9 (refer to FIGS. 1 and 2 as appropriate), the operation of the attention
まず、注目度推定装置1は、身体動作量計測手段11によって、モーションキャプチャMcから入力される骨格位置情報を時系列に入力し、人物Hの予め定めた骨格位置における単位時間(例えば、フレーム)当たりの身体動作量を計測する(ステップS1)。例えば、身体動作量計測手段11は、骨格位置情報として入力される人物Hの頭部位置の単位時間あたりの変化量を身体動作量とする。
First, the attention
また、注目度推定装置1は、傾き補正手段12によって、カメラCから入力されるカメラ映像を、フレームごとに人物Hの顔がフレーム画像(カメラ画像)上で垂直になるように傾きを補正する(ステップS2)。このとき、傾き補正手段12は、モーションキャプチャMcから入力される骨格位置情報において、頸部位置が頭部位置の直下になるように、フレーム画像の画像中心を中心としてカメラ画像を回転させる。
Also, the attention
そして、注目度推定装置1は、瞬目間隔計測手段13によって、ステップS2で傾き補正されて逐次入力されるカメラ画像において、人物Hの瞬きを検出し、当該瞬きの間隔を瞬目間隔時間として計測する(ステップS3)。ここでは、瞬目間隔計測手段13は、カメラ画像内で特徴点を検出、追跡し、その特徴点軌跡を1つの単語とみなしたBag−of−words手法を用いて瞬目動作を識別する。
Then, the attention
さらに、注目度推定装置1は、視線変動量計測手段14によって、ステップS2で傾き補正されて逐次入力されるカメラ画像において、単位時間当たりの視線変動量を計測する(ステップS4)。ここでは、視線変動量計測手段14は、カメラ画像から、人物Hの目領域を検出し、目領域の水平方向の中心で左右に区分した右領域と左領域との輝度比の時間変化によって、視線変動量を計測する。
Further, the attention
また、注目度推定装置1は、字幕情報量計測手段21によって、入力される映像コンテンツにおいて、フレームごとに字幕を検出する(ステップS5)。さらに、注目度推定装置1は、入力される映像コンテンツにおいて、フレームごとの差分から、予め定めた量よりも動き量が大きいフレームを検出する(ステップS6)。
Also, the attention
そして、映像コンテンツの入力で、指定された映像区間(トピック)が終了していない場合(ステップS7でNo)、注目度推定装置1は、ステップS1に戻って、順次ステップS1からステップS6までの操作を繰り返す。
これによって、トピック内における身体動作量、瞬目間隔時間および視線変動量が単位時間(ここでは、フレーム)ごとに計測される。また、トピック内において字幕が存在するフレームおよび動きが大きいフレームが検出される。
If the designated video section (topic) is not completed by the input of the video content (No in step S7), the attention
As a result, the body movement amount, the blink interval time, and the line-of-sight variation amount in the topic are measured for each unit time (here, frame). In addition, a frame in which a caption exists in a topic and a frame with a large motion are detected.
そして、指定された映像区間(トピック)が終了した場合(ステップS7でYes)、注目度推定装置1は、字幕情報量計測手段21によって、トピックの時間長(トピックの総フレーム数)に対する字幕を検出したフレーム数の割合を字幕情報量として計算する(ステップS8)。
また、注目度推定装置1は、トピックの時間長(トピックの総フレーム数)に対する動きが大きいとして検出したフレーム数の割合を映像動き量として計算する(ステップS9)。
そして、注目度推定装置1は、使用判定手段23によって、ステップS8,S9で計算された字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多いか否かを判定する(ステップS10)。
When the designated video section (topic) ends (Yes in step S7), the attention
Also, the attention
Then, the attention
ここで、字幕情報量が予め定めた量よりも多い、または、映像動き量が予め定めた量よりも多い場合(ステップS10でYes)、注目度推定装置1は、統計特徴量生成手段30によって、視線変動量を除いた特徴量(特徴量記述子)を生成する(ステップS11)。
このとき、統計特徴量生成手段30は、グローバル特徴生成手段31によって、身体動作量および瞬目間隔時間のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段30は、局所ヒストグラム特徴生成手段32によって、身体動作量および瞬目間隔時間のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
Here, when the amount of caption information is larger than a predetermined amount or the amount of video motion is larger than a predetermined amount (Yes in step S10), the attention
At this time, the statistical feature
Further, the statistical feature
そして、注目度推定装置1は、注目度特定手段50によって、学習データ記憶手段40に記憶されている、視線変動量を除いて学習した第2学習データD2を用いて、ステップS11で生成された特徴量(特徴量記述子)に対する注目度を特定(推定)する(ステップS12)。
The attention
一方、字幕情報量が予め定めた量よりも少なく、かつ、映像動き量が予め定めた量よりも少ない場合(ステップS10でNo)、注目度推定装置1は、統計特徴量生成手段30によって、視線変動量を含んだ特徴量(特徴量記述子)を生成する(ステップS13)。
すなわち、統計特徴量生成手段30は、グローバル特徴生成手段31によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、トピック内における平均値と標準偏差をグローバル特徴として生成する。
また、統計特徴量生成手段30は、局所ヒストグラム特徴生成手段32によって、身体動作量、瞬目間隔時間および視線変動量のそれぞれについて、ヒストグラムを生成することで、局所ヒストグラム特徴を生成する。
On the other hand, when the subtitle information amount is smaller than the predetermined amount and the video motion amount is smaller than the predetermined amount (No in step S10), the attention
In other words, the statistical feature
Further, the statistical feature
そして、注目度推定装置1は、注目度特定手段50によって、学習データ記憶手段40に記憶されている、視線変動量を含んで学習した第1学習データD1を用いて、ステップS13で生成された特徴量(特徴量記述子)に対する注目度を特定(推定)する(ステップS14)。
The attention
以上の動作によって、注目度推定装置1は、映像コンテンツ(トピック)を視聴する人物Hの当該トピックに対する注目度を推定することができる。このとき、注目度推定装置1は、身体動作量、瞬目間隔時間および視線変動量といった人物Hの身体特徴を、画像処理によって計測するため、人物Hに負荷を与えることなく、注目度を推定することができる。
また、注目度推定装置1は、映像コンテンツに字幕が多い場合、あるいは、映像の動きが多い場合には、視線特徴量を注目度推定に使用しないことで、注目度を精度よく求めることができる。
Through the above operation, the attention
Also, the attention
以上、本発明の実施形態に係る注目度推定装置1の構成および動作について説明したが、本発明はこの実施形態に限定されるものではない。
例えば、ここでは、統計特徴量生成手段30は、図8で説明したように、あるトピックにおいて、6次元のグローバル特徴と、24次元の局所ヒストグラム特徴とからなる30次元の固定次元の特徴量記述子を生成することとしたが、さらにトピックを時間方向に区切って、その区間ごとに、30次元の特徴量記述子を生成することとてもよい。
The configuration and operation of the attention
For example, here, the statistical feature value generation means 30 has a 30-dimensional fixed-dimension feature description composed of 6-dimensional global features and 24-dimensional local histogram features in a certain topic, as described in FIG. Although it is decided to generate children, it is very good to further divide topics in the time direction and generate a 30-dimensional feature descriptor for each section.
例えば、図10に示すように、統計特徴量生成手段30は、あるトピックnについて、全体特徴量として、前記した30次元の特徴量記述子を生成する。さらに、統計特徴量生成手段30は、トピックnを時間方向に2分割し、それぞれの区間において、前記した30次元の特徴量記述子をそれぞれ生成する(2分割特徴量)。
あるいは、さらに、トピックnを時間方向に4分割し、それぞれの区間において、前記した30次元の特徴量記述子をそれぞれ生成することとしてもよい(4分割特徴量)。これによって、トピックnについて、210次元(30次元×7特徴量記述子)の固定次元の特徴量記述子群が生成される。
For example, as illustrated in FIG. 10, the statistical feature
Alternatively, the topic n may be further divided into four in the time direction, and the 30-dimensional feature descriptor described above may be generated in each section (four-divided feature). Thereby, a 210-dimensional (30 dimensions × 7 feature descriptor) fixed dimension feature descriptor group is generated for topic n.
このように、時間方向に区分した特徴量を含ませることで、全体特徴量において、時間方向に局所的な特徴の影響が薄れてしまう場合であっても、局所的な特徴を残した特徴量となる。
この場合、視線変動量を使用しない特徴量記述子群については、140次元(20次元×7特徴量記述子)の固定次元の特徴量記述子群となる。
In this way, by including feature quantities that are segmented in the time direction, even if the influence of local features in the time direction is diminished in the overall feature quantities, the feature quantities that retain the local features It becomes.
In this case, the feature descriptor group that does not use the line-of-sight variation is a fixed dimension feature descriptor group of 140 dimensions (20 dimensions × 7 feature descriptors).
また、統計特徴量生成手段30は、図10に示すように、トピックnに前後するトピック(n−1,n+1)における特徴量記述子を付加して、トピックnにおける特徴量記述子群としてもよい。例えば、図10の例の場合、統計特徴量生成手段30は、トピックnにおける210次元(30次元×7特徴量記述子)の特徴量記述子群に、トピック(n−1)とトピック(n+1)のそれぞれのトピックnの直近の4分割特徴量を付加して、270次元(30次元×9特徴量記述子)の固定次元の特徴量記述子群を生成する。
この場合、視線変動量を使用しない特徴量記述子群については、180次元(20次元×9特徴量記述子)の固定次元の特徴量記述子群となる。
Further, as shown in FIG. 10, the statistical feature
In this case, the feature descriptor group that does not use the line-of-sight variation is a fixed dimension feature descriptor group of 180 dimensions (20 dimensions × 9 feature descriptors).
このように、トピック前後の特徴を付加することで、例えば、瞬目回数が、注目状態から解放された直後に増加するといった、トピックに跨った特徴量の変化を考慮して注目状態を判定することができる。
なお、このような時間方向に分割した特徴量記述子群を付加して用いる場合、学習データ記憶手段40に記憶される第1学習データD1や第2学習データD2は、その付加した特徴量記述子群と同次数の特徴量記述子群によって、予め学習しておくことはいうまでもない。
In this way, by adding features before and after the topic, for example, the attention state is determined in consideration of a change in the feature amount across the topic, for example, the number of blinks increases immediately after being released from the attention state. be able to.
In addition, when such a feature amount descriptor group divided in the time direction is added and used, the first learning data D1 and the second learning data D2 stored in the learning
また、本実施形態では、字幕や映像の動きによって、視線変動量を特徴量として使用するか否かを判定することとしたが、予め字幕が存在しない映像コンテンツや、動きに大きな変化がない映像コンテンツを対象とする場合であれば、字幕情報量計測手段21や映像動き量計測手段22を、構成から省略しても構わない。 In the present embodiment, it is determined whether to use the line-of-sight variation amount as the feature amount based on the motion of the caption or video. However, the video content in which the caption does not exist in advance or the video in which there is no significant change in motion If content is targeted, the subtitle information amount measuring means 21 and the video motion amount measuring means 22 may be omitted from the configuration.
また、字幕情報量計測手段21や映像動き量計測手段22を両者とも構成から省略する場合、図11に示すように、図2の注目度推定装置1から、視線変動量使用判定手段20を省略しても構わない。その場合、学習データ記憶手段40Bには、第1学習データD1のみを予め学習して記憶しておけばよい。
あるいは、さらに、構成を簡略化し、注目度推定装置1,1Bから、身体動作量計測手段11と瞬目間隔計測手段13のいずれか一方を省略して構成してもよい。
Further, when both the caption information
Alternatively, the configuration may be further simplified, and either one of the body motion amount measurement unit 11 and the blink
以上説明したように、本発明は、映像コンテンツを視聴している人物の注目度を、人物に負荷をかけずに推定することができるため、一般家庭においても容易に人物の注目度を推定することができる。
このため、従来は、単に映像コンテンツを表示するだけで計測していた“視聴率”に対して、実際に人物が映像コンテンツを視聴し、その注目度を推定することで、映像コンテンツそのものの評価となる“視聴質”を計測することも可能になる。
As described above, the present invention can estimate the degree of attention of a person who is viewing video content without imposing a load on the person, and therefore easily estimates the degree of attention of a person even in a general household. be able to.
For this reason, in comparison with the “viewing rate” that has been measured simply by displaying video content in the past, a person actually views the video content and estimates its attention level, thereby evaluating the video content itself. It becomes possible to measure “viewing quality”.
1 注目度推定装置
10 身体特徴量抽出手段
11 身体動作量計測手段
12 傾き補正手段
13 瞬目間隔計測手段
14 視線変動量計測手段
20 視線変動量使用判定手段
21 字幕情報量計測手段
22 映像動き量計測手段
23 使用判定手段
30 統計特徴量生成手段
31 グローバル特徴生成手段
32 局所ヒストグラム特徴生成手段
40 学習データ記憶手段(第2学習データ記憶手段)
50 注目度特定手段
S 注目度測定システム
M モニタ
C カメラ
Mc モーションキャプチャ
DESCRIPTION OF
50 Attention level identification means S Attention level measurement system M Monitor C Camera Mc Motion capture
Claims (10)
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の1つとして計測する身体動作量計測手段と、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の1つとして計測する視線変動量計測手段と、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段と、
前記統計特徴量と前記注目度との対応関係を学習データとして予め記憶した学習データ記憶手段と、
この学習データ記憶手段に記憶されている学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段と、
を備えることを特徴とする注目度推定装置。 From the skeleton position information obtained by measuring with the motion capture that detects the skeleton position of the person from the image obtained by photographing the person who is viewing the video content, and the camera image obtained by photographing the person with the camera, the video content An attention level estimation device that estimates a degree of attention indicating a degree of attention of the person in a predetermined video section,
Body motion amount measurement that inputs the skeleton position information in time series and measures a body motion amount that is a change amount per unit time at a predetermined skeleton position of the skeleton position information as one of the body feature amounts of the person. Means,
In a camera image input in time series as the camera video, the eye area of the person is detected based on a predetermined image feature, and the line of sight per unit time is determined based on the luminance of the left and right areas that divide the eye area. A line-of-sight variation measuring means for measuring a variation as one of the body feature amounts;
For each of the body feature amounts, statistical feature amount generating means that performs statistics in a predetermined video section of the video content and generates as a statistical feature amount in the video section;
Learning data storage means for storing in advance the correspondence between the statistical feature quantity and the attention level as learning data;
Attention level specifying means for specifying the attention level corresponding to the statistical feature value generated by the statistical feature value generating means as the attention level for the video section based on the learning data stored in the learning data storage means; ,
An attention level estimation apparatus comprising:
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記字幕情報量が予め定めた情報量よりも多い、または、前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。 Second learning data storage means for preliminarily storing, as second learning data, a correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention degree;
In the video content, subtitle information amount measuring means for measuring the amount of subtitle information included in the video content;
In the video content, video motion amount detection means for measuring a video motion amount by a difference between frames,
Use determination for determining that the line-of-sight variation amount is not used as the body feature amount when the caption information amount is larger than a predetermined information amount or the video motion amount is larger than a predetermined motion amount And further comprising means,
When the use determining unit determines that the line-of-sight variation amount is not used as the body feature amount, the attention level specifying unit is configured to change the line-of-sight variation based on the second learning data instead of the learning data. The degree-of-interest estimation apparatus according to any one of claims 1 to 3, wherein the degree of attention corresponding to the statistical feature amount excluding the amount is specified as the degree of attention with respect to the video section.
前記映像コンテンツにおいて、当該映像コンテンツに含まれる字幕情報量を計測する字幕情報量計測手段と、
前記字幕情報量が予め定めた情報量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。 Second learning data storage means for preliminarily storing, as second learning data, a correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention degree;
In the video content, subtitle information amount measuring means for measuring the amount of subtitle information included in the video content;
Use determination means for determining that the line-of-sight variation amount is not used as the body feature amount when the subtitle information amount is greater than a predetermined information amount;
When the use determining unit determines that the line-of-sight variation amount is not used as the body feature amount, the attention level specifying unit is configured to change the line-of-sight variation based on the second learning data instead of the learning data. The degree-of-interest estimation apparatus according to any one of claims 1 to 3, wherein the degree of attention corresponding to the statistical feature amount excluding the amount is specified as the degree of attention with respect to the video section.
前記映像コンテンツにおいて、フレーム間ごとの差分により映像動き量を計測する映像動き量検出手段と、
前記映像動き量が予め定めた動き量よりも多い場合に、前記視線変動量を前記身体特徴量として使用しない旨を判定する使用判定手段と、をさらに備え、
前記使用判定手段において、前記視線変動量を前記身体特徴量として使用しない旨が判定された場合、前記注目度特定手段は、前記学習データに代えて前記第2学習データに基づいて、前記視線変動量を除いた統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定することを特徴とする請求項1から請求項3のいずれか一項に記載の注目度推定装置。 Second learning data storage means for preliminarily storing, as second learning data, a correspondence relationship between the statistical feature amount obtained by removing the line-of-sight variation from the body feature amount and the attention degree;
In the video content, video motion amount detection means for measuring a video motion amount by a difference between frames,
Use determination means for determining that the line-of-sight variation amount is not used as the body feature amount when the video motion amount is greater than a predetermined motion amount;
When the use determining unit determines that the line-of-sight variation amount is not used as the body feature amount, the attention level specifying unit is configured to change the line-of-sight variation based on the second learning data instead of the learning data. The degree-of-interest estimation apparatus according to any one of claims 1 to 3, wherein the degree of attention corresponding to the statistical feature amount excluding the amount is specified as the degree of attention with respect to the video section.
前記骨格位置情報を時系列に入力し、当該骨格位置情報の予め定めた骨格位置における単位時間当たりの変化量である身体動作量を前記人物の身体特徴量の1つとして計測する身体動作量計測手段、
前記カメラ映像として時系列に入力されるカメラ画像において、予め定めた画像特徴に基づいて前記人物の目領域を検出し、当該目領域を区分した左右領域の輝度に基づいて、単位時間当たりの視線変動量を前記身体特徴量の1つとして計測する視線変動量計測手段、
前記身体特徴量のそれぞれについて、前記映像コンテンツの予め定めた映像区間において統計し、当該映像区間における統計特徴量として生成する統計特徴量生成手段、
前記統計特徴量と前記注目度との対応関係を予め学習した学習データに基づいて、前記統計特徴量生成手段で生成された統計特徴量に対応する注目度を、当該映像区間に対する注目度として特定する注目度特定手段、
として機能させることを特徴とする注目度推定プログラム。 From the skeleton position information obtained by measuring with the motion capture that detects the skeleton position of the person from the image obtained by photographing the person who is viewing the video content, and the camera image obtained by photographing the person with the camera, the video content In order to estimate the degree of attention indicating the degree of attention of the person in a predetermined video section,
Body motion amount measurement that inputs the skeleton position information in time series and measures a body motion amount that is a change amount per unit time at a predetermined skeleton position of the skeleton position information as one of the body feature amounts of the person. means,
In a camera image input in time series as the camera video, the eye area of the person is detected based on a predetermined image feature, and the line of sight per unit time is determined based on the luminance of the left and right areas that divide the eye area. A line-of-sight variation measuring means for measuring a variation as one of the body feature amounts;
Statistical feature value generating means for generating statistics as a statistical feature value in the video section, for each of the body feature values, statistically in a predetermined video section of the video content,
The attention level corresponding to the statistical feature value generated by the statistical feature value generation unit is specified as the attention level for the video section based on learning data in which the correspondence relationship between the statistical feature value and the attention level is previously learned. Attention level identification means,
Attention level estimation program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011249799A JP5771127B2 (en) | 2011-11-15 | 2011-11-15 | Attention level estimation device and program thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011249799A JP5771127B2 (en) | 2011-11-15 | 2011-11-15 | Attention level estimation device and program thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013105384A JP2013105384A (en) | 2013-05-30 |
JP5771127B2 true JP5771127B2 (en) | 2015-08-26 |
Family
ID=48624858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011249799A Expired - Fee Related JP5771127B2 (en) | 2011-11-15 | 2011-11-15 | Attention level estimation device and program thereof |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5771127B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983309B2 (en) | 2018-03-22 | 2024-05-14 | Japan Science And Technology Agency | Device and method to acquire timing of blink motion performed by a dialogue device |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9503687B2 (en) * | 2015-03-24 | 2016-11-22 | Fuji Xerox Co., Ltd. | Personalized meeting event capture using egocentric tracking in smart spaces |
JP6638523B2 (en) * | 2016-03-31 | 2020-01-29 | オムロン株式会社 | Face image processing device and face image processing system |
KR20190020779A (en) * | 2016-06-23 | 2019-03-04 | 가부시키가이샤 가이아 시스템 솔루션 | Ingestion Value Processing System and Ingestion Value Processing Device |
JP6697356B2 (en) * | 2016-09-13 | 2020-05-20 | Kddi株式会社 | Device, program and method for identifying state of specific object among predetermined objects |
JP7152651B2 (en) * | 2018-05-14 | 2022-10-13 | 富士通株式会社 | Program, information processing device, and information processing method |
JP7476487B2 (en) | 2019-06-18 | 2024-05-01 | Toppanホールディングス株式会社 | Detection support device, detection support method, and program |
KR20210109275A (en) | 2020-02-27 | 2021-09-06 | 삼성전자주식회사 | Method and apparatus of predicting user's object of interest |
CN114325520A (en) * | 2020-09-30 | 2022-04-12 | 西门子(深圳)磁共振有限公司 | Magnet field rising method and device |
JP6962439B1 (en) * | 2020-12-24 | 2021-11-05 | 三菱電機株式会社 | Elevator display control device |
WO2023188904A1 (en) * | 2022-03-29 | 2023-10-05 | ソニーグループ株式会社 | Information processing device, information processing method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2937834B2 (en) * | 1995-11-13 | 1999-08-23 | 松下電器産業株式会社 | 3D motion generator |
JP4203279B2 (en) * | 2002-07-26 | 2008-12-24 | 独立行政法人科学技術振興機構 | Attention determination device |
JP2005318372A (en) * | 2004-04-30 | 2005-11-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, and program for degree-of-attention estimation |
JP2008276274A (en) * | 2005-07-04 | 2008-11-13 | Nec Corp | Information processor and information processing method |
JP2008099043A (en) * | 2006-10-13 | 2008-04-24 | Sanyo Electric Co Ltd | Receiver |
-
2011
- 2011-11-15 JP JP2011249799A patent/JP5771127B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983309B2 (en) | 2018-03-22 | 2024-05-14 | Japan Science And Technology Agency | Device and method to acquire timing of blink motion performed by a dialogue device |
Also Published As
Publication number | Publication date |
---|---|
JP2013105384A (en) | 2013-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5771127B2 (en) | Attention level estimation device and program thereof | |
Khodabakhsh et al. | Fake face detection methods: Can they be generalized? | |
Drutarovsky et al. | Eye blink detection using variance of motion vectors | |
US10984252B2 (en) | Apparatus and method for analyzing people flows in image | |
Fathi et al. | Learning to recognize daily actions using gaze | |
Startsev et al. | 360-aware saliency estimation with conventional image saliency predictors | |
US7848548B1 (en) | Method and system for robust demographic classification using pose independent model from sequence of face images | |
CN105631399B (en) | Fast object tracking framework for sports video recognition | |
US8636361B2 (en) | Learning-based visual attention prediction system and method thereof | |
Fang et al. | Visual attention modeling for stereoscopic video: a benchmark and computational model | |
Rudoy et al. | Learning video saliency from human gaze using candidate selection | |
Itti | Quantifying the contribution of low-level saliency to human eye movements in dynamic scenes | |
US8462996B2 (en) | Method and system for measuring human response to visual stimulus based on changes in facial expression | |
US20200302181A1 (en) | System and method for generating visual analytics and player statistics | |
US8706663B2 (en) | Detection of people in real world videos and images | |
US20090290791A1 (en) | Automatic tracking of people and bodies in video | |
WO2012105196A1 (en) | Interest estimation device and interest estimation method | |
Zhang et al. | Segmentation and tracking multiple objects under occlusion from multiview video | |
Liu et al. | A generic virtual content insertion system based on visual attention analysis | |
US20120243751A1 (en) | Baseline face analysis | |
JP5306940B2 (en) | Moving image content evaluation apparatus and computer program | |
Ming et al. | Activity recognition from RGB-D camera with 3D local spatio-temporal features | |
Führ et al. | Combining patch matching and detection for robust pedestrian tracking in monocular calibrated cameras | |
US20180063449A1 (en) | Method for processing an asynchronous signal | |
Arbués-Sangüesa et al. | Always look on the bright side of the field: Merging pose and contextual data to estimate orientation of soccer players |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140326 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5771127 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |