JP7398853B1 - Video viewing analysis system, video viewing analysis method, and video viewing analysis program - Google Patents

Video viewing analysis system, video viewing analysis method, and video viewing analysis program Download PDF

Info

Publication number
JP7398853B1
JP7398853B1 JP2023108600A JP2023108600A JP7398853B1 JP 7398853 B1 JP7398853 B1 JP 7398853B1 JP 2023108600 A JP2023108600 A JP 2023108600A JP 2023108600 A JP2023108600 A JP 2023108600A JP 7398853 B1 JP7398853 B1 JP 7398853B1
Authority
JP
Japan
Prior art keywords
video
facial expression
viewers
information
viewer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023108600A
Other languages
Japanese (ja)
Inventor
篤基 古幡
健太 新冨
寛紀 渡辺
光孝 河相
Original Assignee
ヴィアゲート株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴィアゲート株式会社 filed Critical ヴィアゲート株式会社
Priority to JP2023108600A priority Critical patent/JP7398853B1/en
Application granted granted Critical
Publication of JP7398853B1 publication Critical patent/JP7398853B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】視聴者の生体情報に基づく動画視聴時の態度から動画に関する詳細なインサイトを提供する。【解決手段】動画に対する視聴者のインサイトを解析する動画視聴解析システムは、複数の視聴者それぞれに対応する複数の注視点データを取得し、前記複数の注視点データのうち少なくとも幾つかに基づいて、当該注視点データに対応する視聴者が前記動画を見たときの注視点を可視化した注視点可視化マップを生成し、前記注視点可視化マップを前記動画に重畳して表示する。【選択図】図9[Problem] To provide detailed insights regarding videos from viewers' behavior when viewing videos based on their biological information. [Solution] A video viewing analysis system that analyzes viewer insight regarding a video acquires a plurality of gaze point data corresponding to each of a plurality of viewers, and based on at least some of the plurality of gaze point data. Then, a gaze point visualization map is generated that visualizes the gaze point when the viewer corresponding to the gaze point data views the video, and the gaze point visualization map is displayed superimposed on the video. [Selection diagram] Figure 9

Description

特許法第30条第2項適用 サイト掲載日:令和5年5月10日、掲載サイトのアドレス:https://research.viagate.com/ サイト掲載日:令和5年5月25日、掲載サイトのアドレス:https://prtimes.jp/main/html/rd/p/000000002.000116494.html サイト掲載日:令和5年5月31日、掲載サイトのアドレス:https://prtimes.jp/main/html/rd/p/000000003.000116494.html サイト掲載日:令和5年3月27日、掲載サイトのアドレス:https://www.wantedly.com/companies/company_7088487/about サイト掲載日:令和5年6月5日、掲載サイトのアドレス:https://sogyotecho.jp/news/20230605viagate/Article 30, Paragraph 2 of the Patent Act applies Website publication date: May 10, 2020, Website address: https://research. viagate. com/ Site publication date: May 25, 2020, publication site address: https://prtimes. jp/main/html/rd/p/000000002.000116494. html Site publication date: May 31, 2020, publication site address: https://prtimes. jp/main/html/rd/p/000000003.000116494. html Site publication date: March 27, 2020, publication site address: https://www. wantedly. com/companies/company_7088487/about Site publication date: June 5, 2020, publication site address: https://sogyotecho. jp/news/20230605viagate/

本開示は、動画視聴解析システム、動画視聴解析方法および動画視聴解析プログラムに関する。 The present disclosure relates to a video viewing analysis system, a video viewing analysis method, and a video viewing analysis program.

コロナ禍の影響によって社会生活の大部分においてオンライン化(換言すれば、デジタルトランスフォーメーション(DX)化)が加速度的に現在進んできている。特に、マーケティング分野においては、デジタルマーケティングが紙媒体等を用いた従来のマーケティングよりも主流となっている。デジタルマーケティングの分野においては、YouTube(登録商標)等の動画プラットフォーム上における広告動画が現在主流となりつつある。 Due to the effects of the coronavirus pandemic, most aspects of social life are now moving online (in other words, digital transformation (DX)) at an accelerating pace. In particular, in the field of marketing, digital marketing has become more mainstream than traditional marketing using paper media and the like. In the field of digital marketing, advertising videos on video platforms such as YouTube (registered trademark) are currently becoming mainstream.

特許文献1では、広告動画の効果を評価するための広告評価システムが開示されている。当該広告評価システムは、ユーザ端末と、電子メールサーバと、動画配信サーバと、管理サーバとを備える。これらの要素は通信ネットワークを介して通信可能に接続されている。広告評価システムは、ユーザの取引データに基づいて、広告動画で紹介された商品をユーザが購入したかどうか否かを判定した上で、当該判定結果に応じて広告動画の効果を評価している。 Patent Document 1 discloses an advertisement evaluation system for evaluating the effectiveness of advertisement videos. The advertisement evaluation system includes a user terminal, an e-mail server, a video distribution server, and a management server. These elements are communicatively connected via a communications network. The advertising evaluation system determines whether or not the user has purchased the product introduced in the advertising video based on the user's transaction data, and then evaluates the effectiveness of the advertising video based on the determination result. .

特許第7057606号Patent No. 7057606

特許文献1に開示された広告評価システムでは、広告動画で紹介された商品をユーザが実際に購入したかどうかの販売実績に応じて広告動画の効果が評価されている。このため、当該広告評価システムでは、広告対象の商品の実際の販売実績が未だない段階では広告動画を評価することはできない。その一方で、商品についてのデジタルマーケティングを行う企業側では、広告動画等の動画のローンチの前に当該動画に関する詳細なインサイトを把握しておきたいとのニーズが存在する。ここで、「インサイト」とは、顧客のデータやフィードバックを分析して洗練された形で提示される、顧客の潜在的ニーズ、感情、動機、価値観、行動パターンや傾向に関する深い理解を意味する。特に、企業側では、広告動画のローンチ前に動画を視聴する視聴者の生体情報(例えば、視線や表情等)に基づいた当該動画に関するインサイトを把握しておきたいとのニーズが存在する。このように、上記ニーズを提供可能な広告評価システムについて検討の余地がある。 In the advertisement evaluation system disclosed in Patent Document 1, the effectiveness of an advertisement video is evaluated according to the sales performance of whether a user actually purchased the product introduced in the advertisement video. Therefore, in this advertisement evaluation system, it is not possible to evaluate an advertisement video until there is no actual sales record of the advertised product. On the other hand, companies that conduct digital marketing for products have a need to obtain detailed insights about videos such as advertising videos before launching them. By “insights” we mean a deep understanding of a customer’s underlying needs, emotions, motivations, values, behavior patterns and trends, presented in a sophisticated form by analyzing customer data and feedback. do. In particular, on the corporate side, there is a need to obtain insights regarding advertising videos based on the biometric information (for example, gaze and facial expressions) of viewers who view the videos before launching them. As described above, there is room for consideration of an advertisement evaluation system that can meet the above needs.

本開示は、視聴者の生体情報に基づく動画視聴時の態度から動画に関する詳細なインサイトを提供することが可能な動画視聴解析システム、動画視聴解析方法および動画視聴解析プログラムを提供することを目的とする。 The purpose of the present disclosure is to provide a video viewing analysis system, a video viewing analysis method, and a video viewing analysis program that can provide detailed insights regarding videos from the viewer's behavior when viewing videos based on biological information. shall be.

本開示の一態様に係る動画視聴解析システムは、動画に対する視聴者のインサイトを解析する動画視聴解析システムであって、複数の視聴者それぞれに対応する複数の注視点データを取得し、前記複数の注視点データのうち少なくとも幾つかに基づいて、当該注視点データに対応する視聴者が前記動画を見たときの注視点を可視化した注視点可視化マップを生成し、前記注視点可視化マップを前記動画に重畳して表示する。 A video viewing analysis system according to an aspect of the present disclosure is a video viewing analysis system that analyzes viewer insights regarding videos, and acquires a plurality of gaze point data corresponding to each of a plurality of viewers, A gaze point visualization map that visualizes the gaze point when the viewer corresponding to the gaze point data views the video is generated based on at least some of the gaze point data, and the gaze point visualization map is transformed into the gaze point visualization map. Display superimposed on the video.

上記構成によれば、注視点可視化マップが動画に重畳されて表示されるため、企業側は、注視点可視化マップを確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。例えば、企業側は、再生時間毎の視聴者による動画中の注目領域を詳細に把握することが可能となる。このように、動画解析を所望する企業側に動画に関する詳細なインサイトを提供することが可能となる。 According to the above configuration, the point of interest visualization map is displayed superimposed on the video, so the company can understand the viewer's viewing behavior toward the video in detail by checking the point of interest visualization map. . For example, the company can grasp in detail the areas of interest in the video by viewers for each playback time. In this way, it is possible to provide detailed insights regarding videos to companies that desire video analysis.

本開示の一態様に係る動画視聴解析システムは、動画に対する視聴者のインサイトを解析する動画視聴解析システムであって、複数の視聴者それぞれに対応する複数の注視点データを取得し、前記複数の注視点データのうち少なくとも幾つかに基づいて、当該注視点データに対応する視聴者が前記動画を見たときの注目オブジェクトを特定し、前記注目オブジェクトに関する情報を表示する。 A video viewing analysis system according to an aspect of the present disclosure is a video viewing analysis system that analyzes viewer insights regarding videos, and acquires a plurality of gaze point data corresponding to each of a plurality of viewers, Based on at least some of the point of interest data, the object of interest when the viewer corresponding to the point of interest data views the video is identified, and information regarding the object of interest is displayed.

上記構成によれば、企業側は、動画内の少なくとも一つの注目オブジェクトに関する情報を把握することが可能となる。このように、動画解析を所望する企業側に動画に関する詳細なインサイトを提供することが可能となる。 According to the above configuration, the company can grasp information regarding at least one object of interest in the video. In this way, it is possible to provide detailed insights regarding videos to companies that desire video analysis.

本開示の一態様に係る動画視聴解析システムは、動画に対する視聴者のインサイトを解析する動画視聴解析システムであって、複数の視聴者それぞれに対応する複数の表情データを取得し、前記複数の表情データのうち少なくとも幾つかに基づいて、当該表情データに対応する視聴者が前記動画を見たときの総合的な表情を示す総合表情情報を生成し、前記総合表情情報を表示する。 A video viewing analysis system according to one aspect of the present disclosure is a video viewing analysis system that analyzes viewer insights regarding videos, acquires a plurality of facial expression data corresponding to each of a plurality of viewers, and acquires a plurality of facial expression data corresponding to each of the plurality of viewers. Based on at least some of the facial expression data, comprehensive facial expression information indicating a comprehensive facial expression when a viewer corresponding to the facial expression data views the video is generated, and the comprehensive facial expression information is displayed.

上記構成によれば、総合表情情報が表示されるため、企業側は、総合表情情報を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。例えば、企業側は、再生時間毎の視聴者による動画に対する感情(例えば、嬉しい、悲しい等)を詳細に把握することが可能となる。このように、動画解析を所望する企業側に動画に関する詳細なインサイトを提供することが可能となる。 According to the above configuration, since the comprehensive facial expression information is displayed, the company can understand the viewer's viewing behavior toward the video in detail by checking the comprehensive facial expression information. For example, it becomes possible for companies to grasp in detail viewers' emotions toward videos (for example, happy, sad, etc.) for each playback time. In this way, it is possible to provide detailed insights regarding videos to companies that desire video analysis.

本開示の一態様に係る動画視聴解析システムは、動画に対する視聴者のインサイトを解析する動画視聴解析システムであって、複数の視聴者それぞれに対応する複数の表情データを取得し、前記複数の表情データのうち少なくとも幾つかに基づいて、当該表情データに対応する視聴者が前記動画を見たときの総合的な興味度を示す総合興味度情報を生成し、前記総合興味度情報を表示する。 A video viewing analysis system according to one aspect of the present disclosure is a video viewing analysis system that analyzes viewer insights regarding videos, acquires a plurality of facial expression data corresponding to each of a plurality of viewers, and acquires a plurality of facial expression data corresponding to each of the plurality of viewers. Generate comprehensive interest level information indicating a comprehensive interest level when a viewer corresponding to the facial expression data views the video based on at least some of the facial expression data, and display the comprehensive interest level information. .

上記構成によれば、総合興味度情報が表示されるため、企業側は、総合興味度情報を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。例えば、企業側は、再生時間毎の視聴者による動画に対する興味度を詳細に把握することが可能となる。このように、動画解析を所望する企業側に動画に関する詳細なインサイトを提供することが可能となる。 According to the above configuration, since the comprehensive interest level information is displayed, the company can understand the viewer's viewing behavior toward the video in detail by checking the comprehensive interest level information. For example, it becomes possible for companies to grasp in detail the interest level of viewers in videos for each playback time. In this way, it is possible to provide detailed insights regarding videos to companies that desire video analysis.

また、動画視聴解析システムは、前記複数の視聴者の抽出条件を入力し、前記抽出条件に基づいて、前記複数の注視点データのうち少なくとも幾つかを抽出してもよい。 Further, the video viewing analysis system may input extraction conditions for the plurality of viewers, and extract at least some of the plurality of gaze point data based on the extraction conditions.

上記構成によれば、抽出された注視点データに基づいて、注視点可視化マップが生成される。このように、抽出条件に合致した視聴者の視聴行動を詳細に把握することができるため、動画に関するより詳細なインサイトを企業側に提供することが可能となる。 According to the above configuration, a gaze point visualization map is generated based on the extracted gaze point data. In this way, it is possible to understand in detail the viewing behavior of viewers who meet the extraction conditions, making it possible to provide companies with more detailed insights regarding videos.

また、前記抽出条件は、前記複数の視聴者の年代情報と、前記複数の視聴者の性別情報と、前記複数の視聴者の住所情報と、前記複数の視聴者の職業情報と、前記複数の視聴者の世帯人数情報と、前記複数の視聴者の婚姻情報と、前記複数の視聴者の学歴情報とのうちの少なくとも1つに関連付けられてもよい。 Further, the extraction conditions include age information of the plurality of viewers, gender information of the plurality of viewers, address information of the plurality of viewers, occupation information of the plurality of viewers, and The information may be associated with at least one of household number information of viewers, marital information of the plurality of viewers, and educational background information of the plurality of viewers.

上記構成によれば、複数の視聴者の年代情報、性別情報、住所情報、職業情報、世帯人数情報、婚姻情報、学歴情報のうちの少なくとも1つに関連付けられた抽出条件に合致した視聴者の視聴行動を詳細に把握することができるため、動画に関するより詳細なインサイトを企業側に提供することが可能となる。 According to the above configuration, a viewer who matches the extraction condition associated with at least one of age information, gender information, address information, occupation information, household size information, marital information, and educational background information of multiple viewers Since it is possible to understand viewing behavior in detail, it is possible to provide companies with more detailed insights regarding videos.

また、前記動画は、広告コンテンツを含んでもよい。 Furthermore, the video may include advertising content.

上記によれば、企業側にデジタルマーケティングに関する詳細なインサイトを提供することが可能となる。 According to the above, it is possible to provide companies with detailed insights regarding digital marketing.

また、前記注視点可視化マップは、注視点ヒートマップであってもよい。 Moreover, the gaze point visualization map may be a gaze point heat map.

上記によれば、企業側は、注視点ヒートマップを確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。特に、注視点ヒートマップの強度分布を確認することで、動画上の視聴者の注目領域をより明確に把握することが可能となる。 According to the above, by checking the attention point heat map, the company can understand in detail the viewing behavior of viewers regarding videos. In particular, by checking the intensity distribution of the gaze point heat map, it is possible to more clearly understand the viewer's attention area on the video.

また、前記注視点データは、前記動画の表示領域上における前記視聴者の視線に対応する注視点の時間的変化を示してもよい。 Furthermore, the point of gaze data may indicate a temporal change in a point of gaze corresponding to the viewer's line of sight on the display area of the moving image.

また、動画視聴解析システムは、前記注目オブジェクトをランキング形式で表示されてもよい。 Furthermore, the video viewing analysis system may display the objects of interest in a ranking format.

また、動画視聴解析システムは、前記注目オブジェクトに関連付けて、当該注目オブジェクトの注目度、登場時間、平均注目度のうち少なくとも1つ以上を表示してもよい。 Furthermore, the video viewing analysis system may display at least one of the attention level, appearance time, and average attention level of the attention object in association with the attention object.

また、前記総合表情情報は、複数の表情要素それぞれについて、前記動画の全体を通した確率を示してもよい。 Further, the comprehensive facial expression information may indicate a probability throughout the video for each of a plurality of facial expression elements.

上記によれば、企業側は、複数の表情要素それぞれについて、前記動画の全体を通した確率を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。 According to the above, the company can understand the viewer's viewing behavior toward the video in detail by checking the probability throughout the video for each of the plurality of facial expression elements.

また、前記総合表情情報は、複数の表情要素それぞれについて、前記動画の時系列に対応した確率の推移を示してもよい。 Further, the comprehensive facial expression information may indicate a probability transition corresponding to a time series of the video for each of a plurality of facial expression elements.

上記によれば、企業側は、複数の表情要素それぞれについて、前記動画の時系列に対応した確率の推移を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。 According to the above, the company can understand the viewer's viewing behavior toward the video in detail by checking the transition of the probability corresponding to the time series of the video for each of the plurality of facial expression elements.

また、前記総合興味度情報は、前記興味度について、前記動画の時系列に対応した推移を示してもよい。 Further, the comprehensive interest level information may indicate a change in the interest level corresponding to a time series of the video.

上記によれば、企業側は、興味度について、動画の字啓礼に対応した推移を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。 According to the above, the company can understand the viewer's viewing behavior toward the video in detail by checking the change in interest level corresponding to the character of the video.

また、動画視聴解析システムは、複数の表情要素それぞれの確率に基づいて、前記動画に対する前記視聴者のポジティブ度又はネガティブ度を算出し、前記ポジティブ度又は前記ネガティブ度を表示してもよい。 Furthermore, the video viewing analysis system may calculate the positive degree or negative degree of the viewer with respect to the video based on the probability of each of a plurality of facial expression elements, and display the positive degree or the negative degree.

上記によれば、企業側は、視聴者のポジティブ度又はネガティブ度を確認することで、動画に対する視聴者の視聴行動を詳細に把握することができる。 According to the above, by checking the positive degree or negative degree of the viewer, the company can understand the viewer's viewing behavior toward the video in detail.

本開示の一態様に係る動画視聴解析方法は、動画に対する視聴者のインサイトを解析する動画視聴解析方法であって、複数の視聴者それぞれに対応する複数の注視点データを取得するステップと、前記複数の注視点データのうち少なくとも幾つかに基づいて、当該注視点データに対応する視聴者が前記動画を見たときの注視点を可視化した注視点可視化マップを生成するステップと、前記注視点可視化マップを前記動画に重畳して表示するステップと、を含み、コンピュータによって実行される。 A video viewing analysis method according to one aspect of the present disclosure is a video viewing analysis method for analyzing viewer insight regarding a video, the method comprising: acquiring a plurality of gaze point data corresponding to each of a plurality of viewers; generating a gaze point visualization map that visualizes the gaze point when a viewer corresponding to the gaze point data views the video, based on at least some of the plurality of gaze point data; and the gaze point The method includes a step of superimposing and displaying a visualization map on the moving image, and is executed by a computer.

本開示の一態様に係る動画視聴解析方法は、動画に対する視聴者のインサイトを解析する動画視聴解析方法であって、複数の視聴者それぞれに対応する複数の注視点データを取得するステップと、前記複数の注視点データのうち少なくとも幾つかに基づいて、当該注視点データに対応する視聴者が前記動画を見たときの注目オブジェクトを特定するステップと、前記注目オブジェクトに関する情報を表示するステップと、を含み、コンピュータによって実行される。 A video viewing analysis method according to one aspect of the present disclosure is a video viewing analysis method for analyzing viewer insight regarding a video, the method comprising: acquiring a plurality of gaze point data corresponding to each of a plurality of viewers; a step of identifying, based on at least some of the plurality of points of interest data, an object of interest when a viewer corresponding to the point of interest data views the video; and a step of displaying information regarding the object of interest. , and executed by a computer.

本開示の一態様に係る動画視聴解析方法は、動画に対する視聴者のインサイトを解析する動画視聴解析方法であって、複数の視聴者それぞれに対応する複数の表情データを取得するステップと、前記複数の表情データのうち少なくとも幾つかに基づいて、当該表情データに対応する視聴者が前記動画を見たときの総合的な表情を示す総合表情情報を生成するステップと、前記総合表情情報を表示するステップと、を含み、コンピュータによって実行される。 A video viewing analysis method according to an aspect of the present disclosure is a video viewing analysis method for analyzing viewer insight regarding a video, the method comprising: acquiring a plurality of facial expression data corresponding to each of a plurality of viewers; a step of generating, based on at least some of the plurality of facial expression data, comprehensive facial expression information indicating a comprehensive facial expression when a viewer corresponding to the facial expression data views the video; and displaying the comprehensive facial expression information. and executed by a computer.

本開示の一態様に係る動画視聴解析方法は、動画に対する視聴者のインサイトを解析する動画視聴解析方法であって、複数の視聴者それぞれに対応する複数の表情データを取得するステップと、前記複数の表情データのうち少なくとも幾つかに基づいて、当該表情データに対応する視聴者が前記動画を見たときの総合的な興味度を示す総合興味度情報を生成するステップと、前記総合興味度情報を表示するステップと、を含み、コンピュータによって実行される。 A video viewing analysis method according to an aspect of the present disclosure is a video viewing analysis method for analyzing viewer insight regarding a video, the method comprising: acquiring a plurality of facial expression data corresponding to each of a plurality of viewers; a step of generating, based on at least some of the plurality of facial expression data, comprehensive interest level information indicating a comprehensive interest level when a viewer corresponding to the facial expression data views the video; and displaying the information, the method being executed by the computer.

また、前記動画視聴解析方法をコンピュータに実行させる動画視聴解析プログラムが提供されてもよい。 Further, a video viewing analysis program that causes a computer to execute the video viewing analysis method may be provided.

本開示によれば、視聴者の生体情報に基づく動画視聴時の態度から動画に関する詳細なインサイトを提供することが可能な動画視聴解析システム、動画視聴解析方法および動画視聴解析プログラムを提供することができる。 According to the present disclosure, it is possible to provide a video viewing analysis system, a video viewing analysis method, and a video viewing analysis program that can provide detailed insights regarding videos from the viewer's behavior during video viewing based on biological information. I can do it.

本開示の実施形態(以下、本実施形態)に係る動画視聴解析システムの構成の一例を示す図である。1 is a diagram illustrating an example of a configuration of a video viewing analysis system according to an embodiment of the present disclosure (hereinafter referred to as the present embodiment). 視聴者端末のハードウェア構成の一例を示す図である。It is a diagram showing an example of the hardware configuration of a viewer terminal. サーバのハードウェア構成の一例を示す図である。It is a diagram showing an example of the hardware configuration of a server. 企業側端末のハードウェア構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of the hardware configuration of a company-side terminal. 本実施形態に係る動画視聴解析システムのうち視聴者端末とサーバとの間で実行される一連の処理を説明するためのシーケンス図である。FIG. 2 is a sequence diagram for explaining a series of processes executed between a viewer terminal and a server in the video viewing analysis system according to the present embodiment. 動画の表示領域上における視聴者の注視点を説明するための図である。FIG. 3 is a diagram for explaining a viewer's gaze point on a display area of a moving image. 視聴者の顔特徴点を説明するための図である。FIG. 3 is a diagram for explaining facial feature points of a viewer. 本実施形態に係る動画視聴解析システムのうちサーバと企業側端末との間で実行される一連の処理を説明するためのシーケンス図である。FIG. 2 is a sequence diagram for explaining a series of processes executed between a server and a company terminal in the video viewing analysis system according to the present embodiment. 動画視聴解析画面の一例を示す図である。It is a figure showing an example of a video viewing analysis screen. (a)は、動画の一例を示す図である。(b)は、注視点ヒートマップの一例を示す図である。(c)は、注視点ヒートマップが動画に重畳された合成動画の一例を示す図である。(a) is a diagram showing an example of a moving image. (b) is a diagram showing an example of a gaze point heat map. (c) is a diagram showing an example of a composite video in which a gaze point heat map is superimposed on a video. 動画を構成する各フレームと注視点ヒートマップを構成する各フレームとを概略的に示した図であって、(a)は、動画のフレームレートと注視点ヒートマップのフレームレートが一致した状態を示す図であり、(b)は、動画のフレームレートと注視点ヒートマップのフレームレートが一致していない状態を示す図である。FIG. 3 is a diagram schematically showing each frame making up a video and each frame making up a gaze point heat map, and (a) shows a state where the frame rate of the video and the frame rate of the gaze point heat map match. (b) is a diagram showing a state where the frame rate of the moving image and the frame rate of the gaze point heat map do not match. 抽出条件表示画面の一例を示す図である。It is a figure showing an example of an extraction condition display screen. 抽出条件が指定された後の動画視聴解析画面の一例を示す図である。It is a figure which shows an example of a video viewing analysis screen after extraction conditions are specified.

以下、本実施形態に係る動画視聴解析システム1について図面を参照しながら説明する。図1は、本実施形態に係る動画視聴解析システム1の構成の一例を示す図である。図1に示すように、動画視聴解析システム1は、視聴者端末2a,2bと、サーバ3と、企業側端末4とを備える。これらは通信ネットワーク8に接続されている。視聴者端末2a,2bの各々は、通信ネットワーク8を介してサーバ3に通信可能に接続されている。企業側端末4は、通信ネットワーク8を介してサーバ3に通信可能に接続されている。通信ネットワーク8は、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、無線コアネットワークのうちの少なくとも一つによって構成されている。 Hereinafter, a video viewing analysis system 1 according to the present embodiment will be described with reference to the drawings. FIG. 1 is a diagram showing an example of the configuration of a video viewing analysis system 1 according to the present embodiment. As shown in FIG. 1, the video viewing analysis system 1 includes viewer terminals 2a and 2b, a server 3, and a company terminal 4. These are connected to a communication network 8. Each of the viewer terminals 2a and 2b is communicably connected to the server 3 via a communication network 8. The company terminal 4 is communicably connected to the server 3 via the communication network 8 . The communication network 8 is configured by at least one of a LAN (Local Area Network), a WAN (Wide Area Network), the Internet, and a wireless core network.

視聴者端末2aは、視聴者Vaに関連付けられた端末であって、視聴者Vaによって操作される。視聴者端末2bは、視聴者Vbに関連付けられた端末であって、視聴者Vbによって操作される。尚、本実施形態では、説明の便宜上、視聴者端末2a,2bを視聴者端末2と総称する場合がある。同様に、視聴者Va,Vbを視聴者Vと総称する場合がある。また、本実施形態では、多数の視聴者に関連付けられた多数の視聴者端末2が動画視聴解析システム1に設けられているが、説明の便宜上、多数の視聴者端末のうちの2台の視聴者端末2a,2bのみが図1では図示されている。視聴者端末2の種類は特に限定されるものではなく、視聴者端末2は、例えば、スマートフォン、パーソナルコンピュータ、タブレット又はウェアラブルデバイス(例えば、ヘッドマウントディスプレイやARディスプレイ)等であってもよい。 The viewer terminal 2a is a terminal associated with the viewer Va, and is operated by the viewer Va. The viewer terminal 2b is a terminal associated with the viewer Vb, and is operated by the viewer Vb. Note that in this embodiment, for convenience of explanation, the viewer terminals 2a and 2b may be collectively referred to as the viewer terminal 2. Similarly, viewers Va and Vb may be collectively referred to as viewer V. Further, in this embodiment, a large number of viewer terminals 2 associated with a large number of viewers are provided in the video viewing analysis system 1, but for convenience of explanation, only two of the large number of viewer terminals Only the user terminals 2a and 2b are shown in FIG. The type of viewer terminal 2 is not particularly limited, and the viewer terminal 2 may be, for example, a smartphone, a personal computer, a tablet, or a wearable device (for example, a head-mounted display or an AR display).

次に、図2を参照して、視聴者端末2のハードウェア構成について以下に説明する。図2は、視聴者端末2のハードウェア構成の一例を示す図である。図2に示すように、視聴者端末2は、制御部20と、記憶装置21と、撮像部22と、通信部23と、入力操作部24と、表示部25と、スピーカ26と、RTC(Real Time Clock)28とを備える。視聴者端末2を構成するこれらの要素は通信バス29に接続されている。 Next, with reference to FIG. 2, the hardware configuration of the viewer terminal 2 will be described below. FIG. 2 is a diagram showing an example of the hardware configuration of the viewer terminal 2. As shown in FIG. As shown in FIG. 2, the viewer terminal 2 includes a control section 20, a storage device 21, an imaging section 22, a communication section 23, an input operation section 24, a display section 25, a speaker 26, and an RTC ( Real Time Clock) 28. These elements making up the viewer terminal 2 are connected to a communication bus 29.

制御部20は、メモリとプロセッサを備えている。メモリは、コンピュータ可読命令(プログラム)を記憶するように構成されている。例えば、メモリは、各種プログラム等が格納されたROM(Read Only Memory)やプロセッサにより実行される各種プログラム等が格納される複数ワークエリアを有するRAM(Random Access Memory)等から構成される。プロセッサは、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)及びGPU(Graphics Processing Unit)のうちの少なくとも一つにより構成される。CPUは、複数のCPUコアによって構成されてもよい。GPUは、複数のGPUコアによって構成されてもよい。プロセッサは、記憶装置21又はROMに組み込まれた各種プログラムから指定されたプログラムをRAM上に展開し、RAMとの協働で各種処理を実行するように構成されてもよい。 The control unit 20 includes a memory and a processor. The memory is configured to store computer readable instructions (programs). For example, the memory includes a ROM (Read Only Memory) in which various programs are stored, a RAM (Random Access Memory) having a plurality of work areas in which various programs executed by a processor are stored, and the like. The processor includes, for example, at least one of a CPU (Central Processing Unit), an MPU (Micro Processing Unit), and a GPU (Graphics Processing Unit). The CPU may be composed of multiple CPU cores. A GPU may be configured by multiple GPU cores. The processor may be configured to load a designated program from various programs incorporated in the storage device 21 or the ROM onto the RAM, and execute various processes in cooperation with the RAM.

記憶装置21は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等の記憶装置(ストレージ)であって、プログラムや各種データを格納するように構成されている。撮像部22は、撮影を通じて、視聴者端末2の周辺環境を示す映像データを取得するように構成されている。特に、撮像部22は、撮影を通じて視聴者端末2の周辺環境を示す画像データ若しくは映像データを生成するように構成されたカメラであって、イメージセンサ(例えば、CCDセンサやCMOSセンサ等)と、イメージセンサ駆動処理回路とを備える。本実施形態では、制御部20は、撮像部22によって取得された映像データに基づいて、視聴者Vの視線の変化を検出する視線トラッキング部として機能する。さらに、制御部20は、当該映像データに基づいて視聴者Vの表情の変化を検出する表情トラッキング部として機能する。 The storage device 21 is, for example, a storage device such as an HDD (Hard Disk Drive), an SSD (Solid State Drive), or a flash memory, and is configured to store programs and various data. The imaging unit 22 is configured to acquire video data showing the surrounding environment of the viewer terminal 2 through photography. In particular, the imaging unit 22 is a camera configured to generate image data or video data showing the surrounding environment of the viewer terminal 2 through photography, and includes an image sensor (for example, a CCD sensor or a CMOS sensor), and an image sensor drive processing circuit. In this embodiment, the control unit 20 functions as a line-of-sight tracking unit that detects changes in the line of sight of the viewer V based on the video data acquired by the imaging unit 22. Furthermore, the control unit 20 functions as a facial expression tracking unit that detects changes in the facial expression of the viewer V based on the video data.

通信部23は、通信ネットワーク8に接続された外部装置と通信するための無線通信モジュール及び/又は有線通信モジュールを備えている。無線通信モジュールは、基地局や無線LANルータ等の外部機器と無線通信するように構成され、送受信アンテナと、無線送受信回路とを備える。無線通信モジュールは、Wi-Fi(登録商標)やBluetooth(登録商標)等の近距離無線通信規格に対応した無線通信モジュールであってもよいし、SIM(Subscriber Identity Module)を用いた第X世代移動体通信システム(例えば、LTE等の第4世代移動通信システム)に対応する無線通信モジュールであってもよい。 The communication unit 23 includes a wireless communication module and/or a wired communication module for communicating with an external device connected to the communication network 8. The wireless communication module is configured to wirelessly communicate with an external device such as a base station or a wireless LAN router, and includes a transmitting/receiving antenna and a wireless transmitting/receiving circuit. The wireless communication module may be a wireless communication module compatible with short-range wireless communication standards such as Wi-Fi (registered trademark) or Bluetooth (registered trademark), or may be an X generation wireless communication module that uses a SIM (Subscriber Identity Module). It may be a wireless communication module compatible with a mobile communication system (for example, a fourth generation mobile communication system such as LTE).

入力操作部24は、例えば、表示部25の映像表示ディスプレイに重ねて配置されたタッチパネル、マウス、及び/又はキーボードであって、視聴者Vの入力操作を受け付けると共に、当該入力操作に応じた操作信号を生成するように構成されている。表示部25は、例えば、映像表示ディスプレイと、当該映像表示ディスプレイを駆動制御する映像表示回路とによって構成される。表示部25は、動画が表示される表示画面27を有する(図6参照)。 The input operation unit 24 is, for example, a touch panel, a mouse, and/or a keyboard arranged over the video display of the display unit 25, and receives input operations from the viewer V and performs operations corresponding to the input operations. configured to generate a signal. The display unit 25 includes, for example, a video display and a video display circuit that drives and controls the video display. The display unit 25 has a display screen 27 on which a moving image is displayed (see FIG. 6).

スピーカ26は、動画に含まれる音声データに基づいて動画の音声を外部に向けて出力するように構成されている。RTC28は、現在時刻を示す情報を取得するように構成されている。 The speaker 26 is configured to output the audio of the video to the outside based on the audio data included in the video. The RTC 28 is configured to obtain information indicating the current time.

図1に戻ると、サーバ3は、通信ネットワーク8を介して視聴者端末2及び企業側端末4に通信可能に接続されている。サーバ3は、通信ネットワーク8を介して複数の視聴者端末2の各々に動画データを送信すると共に、企業側端末4に注視点ヒートマップが動画に重畳された合成動画(後述する)を送信する。サーバ3は、複数のサーバによって構成されてもよい。サーバ3は、WEBアプリケーションとして動画視聴解析アプリケーションを提供するように構成されたWEBサーバとして機能する。この点において、サーバ3は、動画視聴解析画面を企業側端末4のWEBブラウザに表示するためのデータ(例えば、HTMLファイル、CSSファイル、画像や映像ファイル、プログラムファイル等)を送信するように構成されている。このように、サーバ3は、SaaS(System as a Service)を提供するためのサーバとして機能している。サーバ3は、オンプレミスで構築されてもよいし、クラウドサーバであってもよい。また、サーバ3は、複数の動画データ、各視聴者Vの注視点データ、及び各視聴者Vの表情データを管理するデータ管理サーバとして機能する。 Returning to FIG. 1, the server 3 is communicably connected to the viewer terminal 2 and the company terminal 4 via the communication network 8. The server 3 transmits video data to each of the plurality of viewer terminals 2 via the communication network 8, and also transmits a composite video (described later) in which a gaze point heat map is superimposed on the video to the company terminal 4. . The server 3 may be configured by a plurality of servers. The server 3 functions as a web server configured to provide a video viewing analysis application as a web application. In this regard, the server 3 is configured to send data (for example, HTML files, CSS files, image and video files, program files, etc.) for displaying the video viewing analysis screen on the web browser of the company terminal 4. has been done. In this way, the server 3 functions as a server for providing SaaS (System as a Service). The server 3 may be constructed on-premises or may be a cloud server. Further, the server 3 functions as a data management server that manages a plurality of video data, gaze point data of each viewer V, and facial expression data of each viewer V.

図3を参照して、サーバ3のハードウェア構成について以下に説明する。図3は、サーバ3のハードウェア構成の一例を示す図である。図3に示すように、サーバ3は、制御部30と、記憶装置31と、入出力インターフェース32と、通信部33と、入力操作部34と、表示部35とを備える。サーバ3を構成するこれらの要素は通信バス36に接続されている。 The hardware configuration of the server 3 will be described below with reference to FIG. 3. FIG. 3 is a diagram showing an example of the hardware configuration of the server 3. As shown in FIG. As shown in FIG. 3, the server 3 includes a control section 30, a storage device 31, an input/output interface 32, a communication section 33, an input operation section 34, and a display section 35. These elements making up the server 3 are connected to a communication bus 36.

制御部30は、メモリとプロセッサを備えている。メモリは、コンピュータ可読命令を記憶するように構成されている。特に、メモリには、図5及び図8においてサーバ3によって実行される一連の処理(動画視聴解析方法)をプロセッサに実行させるための動画視聴解析プログラムが記憶されてもよい。メモリは、ROM及びRAMにより構成されている。プロセッサは、CPU、MPU及びGPUのうちの少なくとも一つにより構成される。 The control unit 30 includes a memory and a processor. The memory is configured to store computer readable instructions. In particular, the memory may store a video viewing analysis program for causing the processor to execute a series of processes (video viewing analysis method) executed by the server 3 in FIGS. 5 and 8. The memory is composed of ROM and RAM. The processor includes at least one of a CPU, an MPU, and a GPU.

記憶装置31は、例えば、HDD、SSD、フラッシュメモリ等の記憶装置(ストレージ)であって、プログラムや各種データを格納するように構成されている。記憶装置31には、複数の動画データ、各視聴者Vの注視点データ、及び各視聴者Vの表情データが保存されている。また、記憶装置31には、各視聴者Vの情報に関連する視聴者情報テーブルおよび動画視聴解析アプリケーションを利用する各ユーザUに関連するユーザ情報テーブルが保存されている。視聴者情報テーブルは、各視聴者Vの属性情報を含む。例えば、視聴者情報テーブルは、各視聴者Vの識別情報、性別情報、年代情報、世帯人数情報、住所情報、職業情報のうちの少なくとも一つを含んでもよい。ユーザ情報テーブルは、各ユーザUの識別情報、属性情報、ログイン情報等を含んでもよい。 The storage device 31 is, for example, a storage device such as an HDD, SSD, or flash memory, and is configured to store programs and various data. The storage device 31 stores a plurality of moving image data, gaze point data of each viewer V, and facial expression data of each viewer V. The storage device 31 also stores a viewer information table related to information of each viewer V and a user information table related to each user U who uses the video viewing analysis application. The viewer information table includes attribute information of each viewer V. For example, the viewer information table may include at least one of identification information, gender information, age information, household number information, address information, and occupation information of each viewer V. The user information table may include identification information, attribute information, login information, etc. of each user U.

入出力インターフェース32は、外部装置とサーバ3との間の接続を可能とするインターフェースであって、USB規格やHDMI(登録商標)規格等の所定の通信規格に応じたインターフェースを含む。通信部33は、通信ネットワーク8上の外部端末と通信するための各種有線通信モジュールを含んでもよい。入力操作部34は、例えば、タッチパネル、マウス、及び/又はキーボード等であって、操作者の入力操作を受け付けると共に、操作者の入力操作に応じた操作信号を生成するように構成されている。表示部35は、例えば、映像表示ディスプレイと映像表示回路とによって構成されている。 The input/output interface 32 is an interface that enables connection between an external device and the server 3, and includes an interface that conforms to a predetermined communication standard such as the USB standard or the HDMI (registered trademark) standard. The communication unit 33 may include various wired communication modules for communicating with external terminals on the communication network 8. The input operation unit 34 is, for example, a touch panel, a mouse, and/or a keyboard, and is configured to receive an input operation from an operator and to generate an operation signal according to the input operation from the operator. The display unit 35 includes, for example, a video display and a video display circuit.

企業側端末4は、サーバ3によって提供される動画視聴解析アプリケーションを利用するユーザUによって操作される端末である。本実施形態では、複数の企業側端末4が動画視聴解析システム1に設けられているが(換言すれば、本実施形態では、複数のユーザUが動画視聴解析アプリケーションを利用しているが)、説明の便宜上、一台の企業側端末4のみが図1では図示されている。 The company terminal 4 is a terminal operated by a user U who uses a video viewing analysis application provided by the server 3. In this embodiment, a plurality of company terminals 4 are provided in the video viewing analysis system 1 (in other words, in this embodiment, a plurality of users U are using the video viewing analysis application). For convenience of explanation, only one company terminal 4 is shown in FIG. 1.

図4を参照して、企業側端末4のハードウェア構成について以下に説明する。図4は、企業側端末4のハードウェア構成の一例を示す図である。図4に示すように、企業側端末4は、例えば、パーソナルコンピュータ、スマートフォン、タブレット又はユーザUに装着されたウェアラブルデバイスであってもよい。企業側端末4は、WEBブラウザを有する。動画視聴解析アプリケーションは、企業側端末4のWEBブラウザ上で動作するものとする。企業側端末4は、制御部40と、記憶装置41と、入出力インターフェース42と、通信部43と、入力操作部44と、表示部45とを備える。これらの要素は通信バス46に接続されている。 Referring to FIG. 4, the hardware configuration of the company terminal 4 will be described below. FIG. 4 is a diagram showing an example of the hardware configuration of the company terminal 4. As shown in FIG. As shown in FIG. 4, the company terminal 4 may be, for example, a personal computer, a smartphone, a tablet, or a wearable device attached to the user U. The company terminal 4 has a WEB browser. It is assumed that the video viewing analysis application operates on the web browser of the company terminal 4. The company terminal 4 includes a control section 40, a storage device 41, an input/output interface 42, a communication section 43, an input operation section 44, and a display section 45. These elements are connected to a communication bus 46.

制御部40は、メモリとプロセッサを備えている。メモリは、コンピュータ可読命令(プログラム)を記憶するように構成されている。例えば、メモリは、ROM及びRAMにより構成されている。プロセッサは、例えば、CPU、MPU及びGPUのうちの少なくとも一つにより構成される。 The control unit 40 includes a memory and a processor. The memory is configured to store computer readable instructions (programs). For example, the memory is composed of ROM and RAM. The processor includes, for example, at least one of a CPU, an MPU, and a GPU.

記憶装置41は、例えば、HDD、SSD、フラッシュメモリ等の記憶装置であって、プログラムや各種データを格納するように構成されている。入出力インターフェース42は、外部装置と企業側端末4との間の接続を可能とするインターフェース(例えば、USBやHDMI等)である。通信部43は、企業側端末4を通信ネットワーク8に接続するように構成されており、無線通信モジュール及び/又は有線通信モジュールを備える。入力操作部44は、例えば、タッチパネル、マウス、及び/又はキーボード等であって、ユーザUの入力操作を受け付けると共に、ユーザUの入力操作に応じた操作信号を生成するように構成されている。表示部45は、例えば、映像表示ディスプレイと映像表示回路とによって構成されている。本実施形態では、動画視聴解析画面70(図9参照)が表示部45に表示される。 The storage device 41 is, for example, a storage device such as an HDD, SSD, or flash memory, and is configured to store programs and various data. The input/output interface 42 is an interface (eg, USB, HDMI, etc.) that enables connection between an external device and the company terminal 4. The communication unit 43 is configured to connect the company terminal 4 to the communication network 8, and includes a wireless communication module and/or a wired communication module. The input operation unit 44 is, for example, a touch panel, a mouse, and/or a keyboard, and is configured to receive input operations from the user U and to generate operation signals in accordance with the input operations performed by the user U. The display section 45 includes, for example, a video display and a video display circuit. In this embodiment, a video viewing analysis screen 70 (see FIG. 9) is displayed on the display unit 45.

次に、図5を参照して本実施形態に係る動画視聴解析システム1のうち複数の視聴者端末2の各々とサーバ3との間で実行される一連の処理について以下に説明する。図5は、動画視聴解析システム1のうち視聴者端末2とサーバ3との間で実行される一連の処理を説明するためのシーケンス図である。尚、説明の便宜上、単一の視聴者端末2とサーバ3との間で実行される一連の処理が図5に図示されているが、本実施形態では複数の視聴者端末2の各々が図5に示す一連の処理を実行するものとする。また、図5に示す一連の処理では、視聴者Vは、サーバ3から提供された所定の動画の視聴を通じて、当該所定の動画に対する視聴者Vの注視点データ及び表情データをサーバ3に提供するものとする。この点において、サーバ3を運営すると共に、動画視聴解析アプリケーションを提供する運営企業は、動画視聴に対するインセンティブを視聴者Vに提供してもよい。例えば、当該企業は、一回の動画視聴につき所定のポイント若しくは電子マネーを視聴者Vに付与してもよい。 Next, a series of processes executed between each of the plurality of viewer terminals 2 and the server 3 in the video viewing analysis system 1 according to the present embodiment will be described with reference to FIG. 5. FIG. 5 is a sequence diagram for explaining a series of processes executed between the viewer terminal 2 and the server 3 in the video viewing analysis system 1. Note that for convenience of explanation, a series of processes executed between a single viewer terminal 2 and the server 3 is illustrated in FIG. 5, but in this embodiment, each of the plurality of viewer terminals 2 is It is assumed that a series of processes shown in 5 are executed. In addition, in the series of processes shown in FIG. 5, the viewer V provides the server 3 with point-of-gaze data and facial expression data of the viewer V regarding the predetermined video by viewing the predetermined video provided by the server 3. shall be taken as a thing. In this regard, an operating company that operates the server 3 and provides a video viewing analysis application may provide the viewer V with an incentive for viewing the video. For example, the company may award viewer V with predetermined points or electronic money for each viewing of a video.

図5に示すように、ステップS1において、視聴者端末2は、視聴者Vの入力操作部24(例えば、タッチパネル)に対する入力操作に応じて、動画を視聴するための動画視聴リクエストをサーバ3に送信する。次に、サーバ3は、動画視聴リクエストを視聴者端末2から受信した上で、記憶装置31に保存された動画を視聴者端末2に送信する(ステップS2)。当該動画は、ストリーミング形式で送信されてもよいし、ダウンロード形式で視聴者端末2に送信されてもよい。視聴者端末2に送信される動画(即ち、視聴解析の対象となる動画)は、広告コンテンツを含んでもよい。例えば、当該動画は、YouTube(登録商標)等の動画プラットフォーム上で再生される広告動画であってもよい。 As shown in FIG. 5, in step S1, the viewer terminal 2 sends a video viewing request to the server 3 to view the video in response to the viewer V's input operation on the input operation unit 24 (for example, a touch panel). Send. Next, after receiving the video viewing request from the viewer terminal 2, the server 3 transmits the video stored in the storage device 31 to the viewer terminal 2 (step S2). The video may be transmitted in a streaming format or may be transmitted to the viewer terminal 2 in a download format. The video transmitted to the viewer terminal 2 (that is, the video subject to viewing analysis) may include advertising content. For example, the video may be an advertising video played on a video platform such as YouTube (registered trademark).

次に、視聴者端末2は、動画の再生を開始する(ステップS3)。図6に示すように、視聴者端末2は、動画を表示部25の表示画面125上に表示する。また、視聴者端末2は、動画の再生を開始したと同時に視聴者Vの注視点データと表情データの取得を開始する(ステップS4)。ステップS5に示すように、視聴者端末2は、動画の再生が終了するまで視聴者Vの注視点データと表情データを取得し続ける。その一方、視聴者端末2は、動画の再生が終了したときに視聴者Vの注視点データと表情データの取得を終了した上で、注視点データと表情データをサーバ3に送信する(ステップS6)。 Next, the viewer terminal 2 starts playing the video (step S3). As shown in FIG. 6, the viewer terminal 2 displays the moving image on the display screen 125 of the display unit 25. Furthermore, the viewer terminal 2 starts acquiring gaze point data and facial expression data of the viewer V at the same time as starting the reproduction of the video (step S4). As shown in step S5, the viewer terminal 2 continues to acquire the gaze point data and facial expression data of the viewer V until the reproduction of the video ends. On the other hand, the viewer terminal 2 finishes acquiring the gaze point data and facial expression data of the viewer V when the playback of the video ends, and then transmits the gaze point data and facial expression data to the server 3 (step S6 ).

<注視点データの取得手法>
視聴者端末2は、撮像部22を用いた撮影を通じて視聴者Vを示す映像データを取得した上で、当該映像データに基づいて視聴者Vの注視点データを取得する。この点において、視聴者端末2の制御部20は、撮像部22によって取得された映像データに基づいて、視聴者Vの視線の変化を検出する視線トラッキング部として機能する。注視点データの取得方法の一例として、制御部20は、映像データの所定のフレーム(静止画像)に基づいて、当該所定のフレームに示された視聴者Vと視聴者Vの目を特定した上で、撮像部22に対する視聴者Vの目の位置を示す位置情報を取得する。次に、制御部20は、当該所定のフレームに基づいて、視聴者Vの眼球の黒目の回転角を特定した上で、視聴者Vの視線L(図6参照)の方向を示す視線情報を取得する。さらに、制御部20は、当該所定のフレームに基づいて、視聴者Vの顔の方向を示す顔向き情報を取得する。尚、制御部20は、三次元眼球モデル(パッシブ方式)に基づいて視線情報を取得してもよいし、角膜反射法(アクティブ方式)に基づいて視線情報を取得してもよい。角膜反射法に基づいて視線情報が取得される場合、視聴者端末2は、赤外線を出射するように構成された赤外線発光素子(例えば、赤外線LED)と赤外線カメラ(赤外線イメージセンサ)をさらに備えてもよい。
<Method for acquiring gaze point data>
The viewer terminal 2 acquires video data indicating the viewer V through photography using the imaging unit 22, and then acquires point-of-gaze data of the viewer V based on the video data. In this respect, the control unit 20 of the viewer terminal 2 functions as a line-of-sight tracking unit that detects changes in the line of sight of the viewer V based on the video data acquired by the imaging unit 22. As an example of a method for acquiring gaze point data, the control unit 20 identifies the viewer V and the eyes of the viewer V shown in the predetermined frame based on a predetermined frame (still image) of the video data, and then Then, position information indicating the position of the viewer V's eyes with respect to the imaging unit 22 is acquired. Next, the control unit 20 specifies the rotation angle of the iris of the eyeball of the viewer V based on the predetermined frame, and then transmits line-of-sight information indicating the direction of the line-of-sight L (see FIG. 6) of the viewer V. get. Further, the control unit 20 acquires face orientation information indicating the direction of the viewer V's face based on the predetermined frame. Note that the control unit 20 may acquire line-of-sight information based on a three-dimensional eyeball model (passive method), or may acquire line-of-sight information based on a corneal reflex method (active method). When line-of-sight information is acquired based on the corneal reflection method, the viewer terminal 2 further includes an infrared light emitting element (for example, an infrared LED) configured to emit infrared rays and an infrared camera (infrared image sensor). Good too.

次に、制御部20は、位置情報と、視線情報と、顔向き情報とに基づいて、視聴者Vの視線Lと視聴者端末2の表示画面125とが交差した点である注視点Pの位置(X,Y)(XY座標)を取得する。ここで、視線Lと表示画面125が交差する注視点Pの位置は、表示画面125に設定されたXY座標空間上の位置として取得されてもよい。このように、制御部20は、映像データの所定のフレームから視線Lと表示画面125が交差する注視点Pの位置を取得することができる。制御部20は、映像データのフレームレートに対応する取得レートで注視点Pの位置を取得してもよいし、当該フレームレートとは異なるレートで注視点Pの位置を取得してもよい。例えば、映像データのフレームレートが30fpsである場合に、注視点Pの取得レートは30Hzであってもよいし、30Hzよりも低い取得レート(例えば、15Hz)であってもよい。 Next, the control unit 20 determines the point of gaze P, which is the point where the line of sight L of the viewer V and the display screen 125 of the viewer terminal 2 intersect, based on the position information, line of sight information, and face orientation information. Get the position (X, Y) (XY coordinates). Here, the position of the gaze point P where the line of sight L and the display screen 125 intersect may be acquired as a position on the XY coordinate space set on the display screen 125. In this way, the control unit 20 can acquire the position of the gaze point P where the line of sight L and the display screen 125 intersect from a predetermined frame of video data. The control unit 20 may acquire the position of the point of interest P at an acquisition rate corresponding to the frame rate of the video data, or may acquire the position of the point of interest P at a rate different from the frame rate. For example, when the frame rate of video data is 30 fps, the acquisition rate of the gaze point P may be 30 Hz, or may be an acquisition rate lower than 30 Hz (for example, 15 Hz).

次に、制御部20は、視聴者Vの注視点Pの位置を表示画面125に設定されたXY座標空間上の位置から動画の表示領域Sに設定されたXY座標空間上の位置に変換する。この点において、動画がフルスクリーンモードで表示画面125上に表示されていない場合、動画の表示領域Sに設定されたXY座標空間は、表示画面125に設定されたXY座標空間とは一致していない。このため、注視点Pの位置が表示画面125に設定されたXY座標空間上の位置から動画の表示領域Sに設定されたXY座標空間上の位置に変換される。尚、動画がフルスクリーンモードで表示画面125上に表示されている場合では、動画の表示領域Sに設定されたXY座標空間は表示画面125に設定されたXY座標空間と一致しているため、当該座標変換処理を実行しなくてもよい。 Next, the control unit 20 converts the position of the gaze point P of the viewer V from the position in the XY coordinate space set on the display screen 125 to the position on the XY coordinate space set in the display area S of the video. . In this regard, if the video is not displayed on the display screen 125 in full screen mode, the XY coordinate space set in the display area S of the video does not match the XY coordinate space set on the display screen 125. do not have. Therefore, the position of the gaze point P is converted from the position on the XY coordinate space set on the display screen 125 to the position on the XY coordinate space set on the display area S of the moving image. Note that when the video is displayed on the display screen 125 in full screen mode, the XY coordinate space set in the display area S of the video matches the XY coordinate space set on the display screen 125. It is not necessary to execute the coordinate transformation process.

さらに、制御部20は、表示領域S上の注視点Pの位置と共に、注視点Pの位置が取得された際の動画の再生時刻を取得する。例えば、注視点P1の位置(X1,Y1)が取得された際の動画の再生時刻がt1である場合には、表示領域S上における注視点P1の位置(X1,Y1)と再生時刻t1が互いに関連付けられた状態で注視点P1の位置(X1,Y1)と再生時刻t1が記憶される。このように、制御部20は、表示領域S上の注視点Pの位置の時間的変化を示す注視点データを取得することができる。例えば、注視点の取得レートが30Hzであって、動画の再生時間が30秒である場合、注視点データに含まれている注視点Pの数は900となる。 Furthermore, the control unit 20 acquires the position of the point of interest P on the display area S as well as the playback time of the video at the time the position of the point of interest P was acquired. For example, if the playback time of the video when the position (X1, Y1) of the gaze point P1 is acquired is t1, the position (X1, Y1) of the gaze point P1 on the display area S and the playback time t1 are The position (X1, Y1) of the point of interest P1 and the playback time t1 are stored in association with each other. In this manner, the control unit 20 can acquire point-of-gaze data indicating temporal changes in the position of the point of interest P on the display area S. For example, if the point of interest acquisition rate is 30 Hz and the playback time of the video is 30 seconds, the number of points of interest P included in the point of interest data is 900.

<表情データの取得手法>
視聴者端末2は、撮像部22を用いた撮影を通じて視聴者Vを示す映像データを取得した上で、当該映像データに基づいて視聴者Vの表情データを取得する。この点において、視聴者端末2の制御部20は、撮像部22によって取得された映像データに基づいて視聴者Vの表情の変化を検出する表情トラッキング部として機能する。ここで、表情データは、視聴者Vの表情情報の時間的変化を示すデータである。より具体的には、表情データは、視聴者Vの表情要素(本例では、嬉しい、悲しい、中立(無表情)、怒り、驚きの5種類の表情要素)の確率情報の時間的変化を示すデータである。
<Facial expression data acquisition method>
The viewer terminal 2 acquires video data showing the viewer V through photography using the imaging unit 22, and then acquires facial expression data of the viewer V based on the video data. In this respect, the control unit 20 of the viewer terminal 2 functions as a facial expression tracking unit that detects changes in the facial expression of the viewer V based on the video data acquired by the imaging unit 22. Here, the facial expression data is data indicating temporal changes in facial expression information of the viewer V. More specifically, the facial expression data indicates temporal changes in probability information of viewer V's facial expression elements (in this example, five types of facial expression elements: happy, sad, neutral (no expression), angry, and surprised). It is data.

表情データの取得方法の一例として、制御部20は、映像データMの所定のフレーム(静止画像)に基づいて、当該所定のフレームに示された視聴者Vの顔を特定した上で、視聴者Vの顔に含まれている複数の顔特徴点Kを取得する(図7参照)。図7に示すように、本例では、眉、目、鼻、口のそれぞれに関連する24個の顔特徴点Kが取得される。次に、制御部20は、取得された複数の顔特徴点Kに基づいて複数の顔特徴量を算出した上で、当該算出された複数の顔特徴量と表情認識モデル(学習モデル)とに基づいて、視聴者Vの各表情要素の確率情報を取得する。当該表情認識モデルでは、入力層の各ユニットの値が複数の顔特徴量のうちの対応する一つを示すと共に、出力層の各ユニットの値が複数の表情要素のうちの対応する一つの確率情報を示す。各表情要素の確率情報は、百分率%として示されてもよい。特に、「嬉しい」の表情要素の確率、「悲しい」の表情要素の確率、「中立」の表情要素の確率、「怒り」の表情要素の確率、および「驚き」の表情要素の確率のそれぞれが百分率%として示される。このように、制御部20は、所定のフレームから視聴者Vの各表情要素の確率情報を取得することができる。 As an example of a method for acquiring facial expression data, the control unit 20 identifies the face of the viewer V shown in the predetermined frame based on the predetermined frame (still image) of the video data M, and then identifies the face of the viewer V shown in the predetermined frame. A plurality of facial feature points K included in V's face are acquired (see FIG. 7). As shown in FIG. 7, in this example, 24 facial feature points K related to each of the eyebrows, eyes, nose, and mouth are acquired. Next, the control unit 20 calculates a plurality of facial feature amounts based on the plurality of acquired facial feature points K, and then combines the calculated facial feature amounts with an expression recognition model (learning model). Based on this, probability information of each facial expression element of the viewer V is obtained. In this facial expression recognition model, the value of each unit in the input layer indicates a corresponding one of multiple facial features, and the value of each unit in the output layer indicates the probability of a corresponding one of multiple facial features. Show information. The probability information for each facial expression element may be expressed as a percentage. In particular, the probability of the expression element ``happy,'' the probability of the expression element ``sad,'' the probability of the expression element ``neutral,'' the probability of the expression element ``angry,'' and the probability of the expression element ``surprised.'' Expressed as percentage %. In this way, the control unit 20 can acquire probability information of each facial expression element of the viewer V from a predetermined frame.

制御部20は、映像データのフレームレートに対応する取得レートで視聴者Vの表情情報を取得してもよいし、当該フレームレートとは異なるレートで視聴者Vの表情情報を取得してもよい。例えば、映像データのフレームレートが30fpsである場合に、表情情報の取得レートは30Hzであってもよいし、30Hzよりも低い取得レート(例えば、15Hz)であってもよい。 The control unit 20 may acquire the facial expression information of the viewer V at an acquisition rate corresponding to the frame rate of the video data, or may acquire the facial expression information of the viewer V at a rate different from the frame rate. . For example, when the frame rate of video data is 30 fps, the acquisition rate of facial expression information may be 30 Hz, or may be an acquisition rate lower than 30 Hz (for example, 15 Hz).

また、制御部20は、表情情報と共に、当該表情情報が取得された際の動画の再生時刻を取得する。例えば、各表情要素の確率情報が取得された際の動画の再生時刻がt1である場合には、各表情要素の確率情報と再生時刻t1が互いに関連付けられた状態で確率情報と再生時刻t1が記憶される。このように、制御部20は、視聴者Vの表情情報の時間的変化を示す表情データを取得することができる。 The control unit 20 also acquires the facial expression information as well as the playback time of the video at the time the facial expression information was acquired. For example, if the playback time of the video when the probability information of each facial expression element is acquired is t1, the probability information and playback time t1 of each facial expression element are associated with each other, and the probability information and the playback time t1 are be remembered. In this way, the control unit 20 can acquire facial expression data indicating temporal changes in facial expression information of the viewer V.

図5に戻ると、ステップS7において、サーバ3は、各視聴者端末2から動画に関する視聴者Vの注視点データと表情データを受信した上で、各視聴者Vの注視点データと表情データが視聴対象となった動画と関連付けられた状態で各視聴者Vの注視点データ及び表情データを記憶装置31に保存する。尚、図5に示す例では、説明の便宜上、一種類の動画が各視聴者端末2に送信されているが、複数種類の動画が各視聴者端末2に送信されてもよい。この場合、注視点データ及び表情データは、視聴者の識別情報及び動画の識別情報に両方に関連付けられてもよい。例えば、視聴者端末2aから送信された視聴者Vaの注視点データと表情データは、視聴者Vaの識別情報と、視聴対象となった動画の識別情報とに関連付けられてもよい。同様に、視聴者端末2bから送信された視聴者Vbの注視点データと表情データは、視聴者Vbの識別情報と、視聴対象となった動画の識別情報とに関連付けられてもよい。このように、図5に示す一連の処理を通じて、各視聴者Vの注視点データと表情データをサーバ3内に蓄積することが可能となる。 Returning to FIG. 5, in step S7, the server 3 receives the gaze point data and facial expression data of the viewer V regarding the video from each viewer terminal 2, and then receives the gaze point data and facial expression data of each viewer V. The gaze point data and facial expression data of each viewer V are stored in the storage device 31 while being associated with the video to be viewed. Note that in the example shown in FIG. 5, one type of video is transmitted to each viewer terminal 2 for convenience of explanation, but multiple types of video may be transmitted to each viewer terminal 2. In this case, the gaze point data and the facial expression data may be associated with both the viewer's identification information and the video's identification information. For example, the gaze point data and facial expression data of the viewer Va transmitted from the viewer terminal 2a may be associated with the identification information of the viewer Va and the identification information of the video to be viewed. Similarly, the gaze point data and facial expression data of the viewer Vb transmitted from the viewer terminal 2b may be associated with the identification information of the viewer Vb and the identification information of the video to be viewed. In this way, through the series of processes shown in FIG. 5, it becomes possible to accumulate the gaze point data and facial expression data of each viewer V in the server 3.

次に、図8を参照して、本実施形態に係る動画視聴解析システム1のうちサーバ3と企業側端末4との間で実行される一連の処理について以下に説明する。図8は、動画視聴解析システム1のうちサーバ3と企業側端末4との間で実行される一連の処理を説明するためのシーケンス図である。本例では、企業側端末4を操作するユーザUは、動画に関するデジタルマーケティング業務に従事しており、動画を視聴した複数の視聴者Vの生体情報(注視点や表情)に基づく動画の詳細なインサイトを把握することを所望している。図5に示す一連の処理において各視聴者Vによって視聴された動画は、ユーザUのデジタルマーケティング業務に関連する動画(例えば、動画プラットフォーム上において表示される広告動画等)である。 Next, with reference to FIG. 8, a series of processes executed between the server 3 and the company terminal 4 in the video viewing analysis system 1 according to the present embodiment will be described below. FIG. 8 is a sequence diagram for explaining a series of processes executed between the server 3 and the company terminal 4 in the video viewing analysis system 1. In this example, the user U who operates the company terminal 4 is engaged in digital marketing work related to videos, and the user U who operates the company terminal 4 is engaged in digital marketing work related to videos, and the user U who operates the company terminal 4 is engaged in digital marketing work related to videos. They want to understand the insights. The video viewed by each viewer V in the series of processes shown in FIG. 5 is a video related to the digital marketing work of the user U (for example, an advertising video displayed on a video platform, etc.).

図8に示すように、ステップS10において、企業側端末4は、ユーザUの入力操作を通じてユーザUのログイン情報(例えば、ログインIDとログインパスワード)をサーバ3に送信する。ステップS11において、サーバ3は、企業側端末4から送信されたログイン情報に基づいてユーザUを認証する。尚、ユーザUの認証方法はログイン認証に限定されるものではない。サーバ3は、ユーザUの認証を実行した後に、記憶装置31に保存されたユーザ情報テーブルを参照することで、ユーザUに関連付けられた動画を特定する。 As shown in FIG. 8, in step S10, the company terminal 4 transmits user U's login information (eg, login ID and login password) to the server 3 through user U's input operation. In step S11, the server 3 authenticates the user U based on the login information sent from the company terminal 4. Note that the authentication method for user U is not limited to login authentication. After authenticating the user U, the server 3 identifies the video associated with the user U by referring to the user information table stored in the storage device 31.

ステップS12において、サーバ3は、通信ネットワーク8を介して、図9に示す動画視聴解析画面70を表示するためのデータ(以下、動画視聴解析画面データ)を企業側端末4に送信する。動画視聴解析画面データは、動画視聴解析画面70を企業側端末4のWEBブラウザ上に表示するためのファイル(例えば、HTMLファイル、CSSファイル、プログラムファイル等)であってもよい。ここで、プログラムファイルはJavaScript等のWEBブラウザ上で実行可能なプログラムファイルであってもよい。 In step S12, the server 3 transmits data for displaying the video viewing analysis screen 70 shown in FIG. 9 (hereinafter referred to as video viewing analysis screen data) to the company terminal 4 via the communication network 8. The video viewing analysis screen data may be a file (for example, an HTML file, a CSS file, a program file, etc.) for displaying the video viewing analysis screen 70 on the web browser of the company terminal 4. Here, the program file may be a program file executable on a web browser such as JavaScript.

図9に示すように、動画視聴解析画面70は、動画表示領域71と、注目オブジェクト表示領域76と、表情情報表示領域72と、表情・興味度情報表示領域73とを有する。さらに、動画視聴解析画面70は、視聴者選択ボタン74と、動画選択ボタン75とを有する。動画表示領域71には、後述する合成動画63が表示される。注目オブジェクト表示領域76には、動画内の注目オブジェクトに関する情報が表示される。表情情報表示領域72には、レーダチャート形式の総合表情情報が表示される。表情・興味度情報表示領域73には、時系列グラフの総合表情情報と時系列グラフの総合興味度情報が表示される。 As shown in FIG. 9, the video viewing analysis screen 70 includes a video display area 71, an object of interest display area 76, a facial expression information display area 72, and a facial expression/interest level information display area 73. Further, the video viewing analysis screen 70 includes a viewer selection button 74 and a video selection button 75. In the video display area 71, a composite video 63, which will be described later, is displayed. Information regarding the object of interest within the video is displayed in the object of interest display area 76. In the facial expression information display area 72, comprehensive facial expression information in a radar chart format is displayed. The facial expression/interest level information display area 73 displays comprehensive facial expression information of the time series graph and comprehensive interest level information of the time series graph.

ステップS13において、企業側端末4は、動画視聴解析画面70に対するユーザUの入力操作に応じて、動画視聴解析画面70に表示される選択動画と視聴者Vの抽出条件を選択する。具体的には、企業側端末4は、動画選択ボタン75に対するユーザUの入力操作に応じて、動画表示領域71に表示される選択動画を選択する。動画選択ボタン75を通じて選択可能となる選択動画は、ユーザUに関連付けられた動画となる。視聴者選択ボタン74に対するユーザの入力操作に応じて、視聴者Vの抽出条件を選択する。より具体的には、図12に示すように、企業側端末4は、視聴者選択ボタン74に対するユーザUの入力操作に応じて、視聴者Vの抽出条件を指定するための抽出条件表示画面80を動画視聴解析画面70上に表示する。 In step S13, the company terminal 4 selects the selected video and the extraction conditions for the viewer V displayed on the video viewing analysis screen 70 in response to the user U's input operation on the video viewing analysis screen 70. Specifically, the company terminal 4 selects the selected video displayed in the video display area 71 in response to the user U's input operation on the video selection button 75. The selected video that can be selected through the video selection button 75 is the video associated with the user U. In response to the user's input operation on the viewer selection button 74, extraction conditions for viewer V are selected. More specifically, as shown in FIG. 12, the company terminal 4 displays an extraction condition display screen 80 for specifying extraction conditions for the viewer V in response to the user U's input operation on the viewer selection button 74. is displayed on the video viewing analysis screen 70.

図12に示す抽出条件表示画面80では、視聴者Vの抽出条件は、視聴者Vの性別情報と、視聴者Vの年代情報と、視聴者Vの世帯人数情報に関連付けられている。例えば、抽出条件として40代の視聴者Vが選択される場合には、ステップS15において、サーバ3は、40代の視聴者Vの注視点データを取得する。また、ユーザUは、抽出条件表示画面80を通じて、性別情報と年代情報と世帯情報とのうちの少なくとも一つに関連付けられた抽出条件を指定することができる。例えば、図12に示すように、ユーザUは、一人世帯の20代女性に関する抽出条件(項目名:ターゲット)を指定した場合、ステップS15において、サーバ3は、一人世帯の20代女性に合致した視聴者Vの注視点データを取得する。 In the extraction condition display screen 80 shown in FIG. 12, the extraction condition for viewer V is associated with viewer V's gender information, viewer V's age information, and viewer V's household number information. For example, if a viewer V in his or her 40s is selected as the extraction condition, the server 3 acquires the gaze point data of the viewer V in his or her 40s in step S15. Further, the user U can specify an extraction condition associated with at least one of gender information, age information, and household information through the extraction condition display screen 80. For example, as shown in FIG. 12, when the user U specifies the extraction condition (item name: target) regarding a woman in her 20s living in a one-person household, in step S15, the server 3 determines that Viewer V's gaze point data is acquired.

尚、図12では、視聴者Vの抽出条件として性別情報、年代情報、世帯人数情報の3つが例示されているが、本実施形態はこれらに限定されるべきではない。この点において、視聴者Vの住所情報、職業情報、婚姻情報、及び学歴情報が視聴者Vの抽出条件にさらに関連付けられてもよい。このように、視聴者Vの抽出条件は、視聴者Vの年代情報、性別情報、住所情報、職業情報、世帯人数情報、婚姻情報、及び学歴情報のうちの少なくとも一つに関連付けられてもよい。 Note that although FIG. 12 shows three examples of extraction conditions for the viewer V: gender information, age information, and household number information, the present embodiment should not be limited to these. In this regard, viewer V's address information, occupation information, marriage information, and educational background information may be further associated with viewer V's extraction conditions. In this way, the extraction condition for viewer V may be associated with at least one of viewer V's age information, gender information, address information, occupation information, household number information, marital information, and educational background information. .

また、視聴者Vの抽出条件は、視聴者Vのアンケート情報、調査情報、過去の行動履歴情報(例えば、映画館に行く頻度等)のうちの少なくとも一つに更に関連付けられてもよい。 Furthermore, the extraction conditions for the viewer V may be further associated with at least one of the viewer V's questionnaire information, survey information, and past behavior history information (for example, frequency of going to the movie theater, etc.).

次に、ステップS14において、企業側端末4は、ユーザUの入力操作に応じて合成動画の送信をサーバ3にリクエストする。この点において、動画視聴解析画面70上に設けられた合成動画の再生ボタンに対するユーザUの入力操作に応じて、企業側端末4は、動画選択ボタン75を通じて選択された選択動画に関連付けられた合成動画の送信リクエストをサーバ3に送信する。さらに、企業側端末4は、合成動画の送信リクエストと共に、視聴者Vの抽出条件に関する情報をサーバ3に送信する。 Next, in step S14, the company terminal 4 requests the server 3 to transmit a composite video in response to the user U's input operation. In this regard, in response to the user U's input operation on the playback button for a composite video provided on the video viewing analysis screen 70, the company terminal 4 selects a composite video associated with the selected video selected through the video selection button 75. A video transmission request is sent to the server 3. Further, the company terminal 4 transmits information regarding the extraction conditions of the viewer V to the server 3 along with a request to transmit the composite video.

ステップS15において、サーバ3は、合成動画の送信リクエストと視聴者Vの抽出条件に関する情報を企業側端末4から受信した上で、当該抽出条件に合致する視聴者Vの注視点データを記憶装置31から抽出する。この点において、サーバ3は、各視聴者Vの情報に関連する視聴者情報テーブルを参照することで、抽出条件に合致する視聴者Vの識別情報を抽出する。その後、サーバ3は、選択動画の識別情報及び当該抽出された視聴者Vの識別情報の両方に関連付けられた注視点データを抽出する。例えば、図13に示すように、視聴者Vの抽出条件が年代:20代、性別:女性、且つ世帯人数:一人世帯である場合には、サーバ3は、年代:20代、性別:女性、且つ世帯人数:一人世帯の全ての条件を満たす視聴者Vの識別情報を特定した上で、当該特定された視聴者Vの識別情報と選択動画の識別情報の両方に関連付けられた視聴者Vの注視点データを抽出する。一方、図9に示すように、視聴者Vの抽出条件が全ての視聴者である場合には、選択動画の識別情報に関連付けられた視聴者Vの注視点データを抽出する。 In step S15, the server 3 receives the synthetic video transmission request and the information regarding the extraction conditions of the viewer V from the company terminal 4, and then stores the gaze point data of the viewer V that matches the extraction conditions in the storage device 31. Extract from. In this respect, the server 3 extracts the identification information of the viewer V that matches the extraction conditions by referring to the viewer information table related to the information of each viewer V. After that, the server 3 extracts the point of gaze data associated with both the identification information of the selected video and the extracted identification information of the viewer V. For example, as shown in FIG. 13, if the extraction conditions for viewer V are age: 20s, gender: female, and number of people in the household: one person, the server 3 selects the following: age: 20s, gender: female, In addition, after identifying the identification information of the viewer V who satisfies all the conditions of household size: one person household, the identification information of the viewer V associated with both the identification information of the specified viewer V and the identification information of the selected video. Extract gaze point data. On the other hand, as shown in FIG. 9, when the extraction condition for viewer V is all viewers, the gaze point data of viewer V associated with the identification information of the selected video is extracted.

ステップS16において、サーバ3は、当該抽出された注視点データに基づいて、抽出条件に合致する複数の視聴者Vの注視点Pの位置の時間的変化を可視化した注視点ヒートマップ(注視点可視化マップの一例)を生成する。注視点ヒートマップでは、複数の視聴者Vの注視点Pの集合体の時間的変化が可視化されている。注視点ヒートマップのフレームレートは、注視点データの取得レートと同一であってもよい。例えば、動画の再生時刻t1における視聴者V1~Vn(nは2以上の整数)の注視点がP1~Pnである場合、再生時刻t1における注視点ヒートマップでは注視点P1~Pnが可視化されている。注視点ヒートマップでは、所定の領域に重なる注視点の数が多い場合(つまり、所定の領域が複数の視聴者Vによって注視されている領域である場合)、当該所定の領域は赤色等の暖色で着色されてもよい。その一方で、所定の領域に重なる注視点の数が少ない場合(つまり、所定の領域が複数の視聴者Vによってあまり注視されていない領域である場合)、当該所定の領域は青色等の寒色で着色されてもよい。このように、所定の領域に重なる注視点の数が増加する程、当該所定の領域の着色が寒色から暖色に徐々に変化してもよい。さらに、所定の領域に含まれる注視点が全く存在しない場合(つまり、所定の領域が複数の視聴者Vによって全く注視されていない領域である場合)当該所定の領域は着色されなくてもよい。この点において、ノイズ(外れ値)として扱われる注視点のみが含まれる領域は全く着色されなくてもよい。 In step S16, the server 3 generates a gaze point heat map (gazing point visualization An example of a map) is generated. In the gaze point heat map, temporal changes in a collection of gaze points P of a plurality of viewers V are visualized. The frame rate of the gaze point heat map may be the same as the acquisition rate of the gaze point data. For example, if the gaze points of viewers V1 to Vn (n is an integer greater than or equal to 2) at the playback time t1 of the video are P1 to Pn, the gaze points P1 to Pn are visualized in the gaze point heat map at the playback time t1. There is. In the gaze point heat map, if there are a large number of gaze points that overlap a predetermined area (that is, if the predetermined area is an area that is being gazed at by multiple viewers V), the predetermined area is colored in a warm color such as red. May be colored with. On the other hand, if the number of gaze points that overlap a predetermined area is small (that is, if the predetermined area is an area that is not often watched by multiple viewers V), the predetermined area is colored in a cool color such as blue. May be colored. In this way, as the number of gaze points overlapping a predetermined region increases, the coloring of the predetermined region may gradually change from a cold color to a warm color. Furthermore, if there are no gaze points included in a predetermined area (that is, if the predetermined area is an area that is not gazed at by a plurality of viewers V at all), the predetermined area does not need to be colored. In this respect, a region containing only a gaze point treated as noise (outlier) may not be colored at all.

本実施形態では、複数の視聴者Vの注視点の時間的変化を可視化した注視点可視化マップの一例として注視点ヒートマップが説明されているが、注視点可視化マップは注視点ヒートマップに限定されるものではない。 In this embodiment, a gaze point heat map is described as an example of a gaze point visualization map that visualizes temporal changes in the gaze points of a plurality of viewers V, but gaze point visualization maps are limited to gaze point heat maps. It's not something you can do.

また、本実施形態において、視聴者Vの抽出条件が全ての視聴者である場合には、全ての視聴者Vの注視点Pの位置の時間的変化を可視化した注視点ヒートマップが生成される。このように、視聴者Vの抽出条件(換言すれば、視聴者Vの属性)に応じて生成される注視点ヒートマップが変化する。 Furthermore, in this embodiment, when the extraction condition for the viewer V is all viewers, a gaze point heat map that visualizes temporal changes in the positions of the gaze points P of all the viewers V is generated. . In this way, the gaze point heat map that is generated changes according to the extraction conditions of the viewer V (in other words, the attributes of the viewer V).

ステップS17において、サーバ3は、注視点ヒートマップ62が動画60に重畳された合成動画63を生成する(図10参照)。特に、サーバ3は、注視点ヒートマップ62と動画60が時間的に同期した状態で注視点ヒートマップ62が動画60に重畳された合成動画63を生成する。この点において、動画60のフレームレートと注視点ヒートマップ62のフレームレートが同一である場合、図11(a)に示すように、注視点ヒートマップ62を構成する各フレームFb1~Fb6が動画60を構成する複数のフレームFa1~Fa6のうちの対応する一つに重畳されている。例えば、動画60の再生時刻t3に対応する注視点ヒートマップ62のフレームFb3は、再生時刻t3に対応する動画60のフレームFa3に重畳されている。一方、注視点ヒートマップ62のフレームレートが動画60のフレームレートの半分である場合、図11(b)に示すように、注視点ヒートマップ62を構成する複数のフレームFb1~Fb3の各々が動画60を構成する複数のフレームFa1~Fa6のうちの対応する少なくとも一つ(本例では、2つのフレーム)に重畳されている。図11(b)に示す例では、注視点ヒートマップ62のフレームFb1は、動画60のフレームFa1及びフレームFa2に重畳されている。このように、本実施形態では、「注視点ヒートマップ62と動画60が時間的に同期した状態」とは、図11(a)に示す状態だけでなく図11(b)に示す状態も含むものとする。 In step S17, the server 3 generates a composite video 63 in which the gaze point heat map 62 is superimposed on the video 60 (see FIG. 10). In particular, the server 3 generates a composite video 63 in which the gaze point heat map 62 and the video 60 are superimposed on the video 60 in a state where the gaze point heat map 62 and the video 60 are temporally synchronized. In this respect, if the frame rate of the video 60 and the frame rate of the gaze point heat map 62 are the same, each frame Fb1 to Fb6 constituting the gaze point heat map 62 is different from the video 60, as shown in FIG. is superimposed on a corresponding one of the plurality of frames Fa1 to Fa6 that make up the frame. For example, frame Fb3 of the gaze point heat map 62 corresponding to playback time t3 of video 60 is superimposed on frame Fa3 of video 60 corresponding to playback time t3. On the other hand, when the frame rate of the gaze point heat map 62 is half the frame rate of the video 60, each of the plurality of frames Fb1 to Fb3 configuring the gaze point heat map 62 is a video image, as shown in FIG. The frame 60 is superimposed on at least one corresponding one (two frames in this example) of the plurality of frames Fa1 to Fa6 constituting the frame 60. In the example shown in FIG. 11(b), frame Fb1 of the gaze point heat map 62 is superimposed on frame Fa1 and frame Fa2 of the video 60. As described above, in this embodiment, "a state in which the gaze point heat map 62 and the moving image 60 are temporally synchronized" includes not only the state shown in FIG. 11(a) but also the state shown in FIG. 11(b). shall be held.

ステップS18において、サーバ3は、合成動画63を企業側端末4に送信する。合成動画63は、ストリーミング形式で送信されてもよいし、ダウンロード形式で送信されてもよい。企業側端末4は、合成動画63をサーバ3から受信した上で、合成動画63を動画視聴解析画面70の動画表示領域71内に表示する。このように、合成動画63が企業側端末4において再生される(ステップS19)。 In step S18, the server 3 transmits the composite video 63 to the company terminal 4. The composite video 63 may be transmitted in a streaming format or in a download format. After receiving the composite video 63 from the server 3, the company terminal 4 displays the composite video 63 in the video display area 71 of the video viewing analysis screen 70. In this way, the composite video 63 is played back on the company terminal 4 (step S19).

ステップS20において、サーバ3は、動画60内の注目オブジェクト(注目領域)に関する情報を取得した上で、注目オブジェクトに関する情報を企業側端末4に送信する。この点において、サーバ3は、ステップS15において抽出された視聴者Vの注視点データに基づいて、抽出条件に合致する複数の視聴者Vの注視点と多く重なる動画60内の注目オブジェクト(注目領域)を特定した上で、当該注目オブジェクトに関する情報を取得する。当該情報の送信タイミングとしては、当該情報は合成動画63の再生後に送信されてもよい。図9に示すように、動画60内の注目オブジェクトに関する情報は、動画視聴解析画面70の注目オブジェクト表示領域76内に表示される(ステップS21)。 In step S20, the server 3 acquires information regarding the object of interest (area of interest) in the video 60, and then transmits the information regarding the object of interest to the company terminal 4. In this regard, based on the gaze point data of the viewer V extracted in step S15, the server 3 selects an object of interest (area of interest) in the video 60 that overlaps a lot with the gaze points of a plurality of viewers V that match the extraction conditions. ), and then obtains information regarding the object of interest. As for the transmission timing of the information, the information may be transmitted after the composite video 63 is played back. As shown in FIG. 9, information regarding the object of interest within the video 60 is displayed in the object of interest display area 76 of the video viewing analysis screen 70 (step S21).

注目オブジェクトに関する情報は、特定された注目オブジェクト(注目領域)を示す情報と、注目オブジェクトの注目度に関する注目度情報と、注目オブジェクトの登場時間に関する登場時間情報と、注目オブジェクトの平均注目度に関する平均注目度情報とを含んでもよい。特定された注目オブジェクトを示す情報は、図9に示すように、動画60の一部領域を示すトリミング画像176として表示されてもよい。例えば、サーバ3は、複数の視聴者Vの注視点と多く重なる動画60内の注目オブジェクトとして、注目度ランキング上位3つの注目オブジェクトを特定した上で、当該3つの注目オブジェクトのトリミング画像176を注目オブジェクト表示領域76内に表示してもよい。この場合、視聴者Vの注視点と最も多く重なる注目オブジェクトが注目度ランキング第一位の注目オブジェクトとなる。 Information regarding the object of interest includes information indicating the specified object of interest (area of interest), attention degree information regarding the degree of attention of the object of interest, time of appearance information regarding the appearance time of the object of interest, and average information regarding the average attention degree of the object of interest. It may also include attention level information. Information indicating the identified object of interest may be displayed as a trimmed image 176 indicating a partial area of the moving image 60, as shown in FIG. For example, the server 3 identifies the top three objects of interest in the video 60 that overlap many of the gaze points of the multiple viewers V, and then displays the trimmed images 176 of the three objects of interest as the objects of interest in the video 60 that overlap many of the gaze points of the multiple viewers V. It may also be displayed within the object display area 76. In this case, the object of interest that overlaps the viewer V's gaze point the most becomes the object of interest that ranks first in the attention ranking.

また、サーバ3は、動画60の各フレームにおいて注目オブジェクト(本例では、注目度ランキング上位3つの注目オブジェクト)に重なる視聴者Vの注視点の数に基づいて、各注目オブジェクトの注目度を決定してもよい。注目オブジェクトの注目度は、百分率%として表示されてもよいし、グレード(A,B,C等)として表示されてもよい。 The server 3 also determines the degree of attention of each object of interest based on the number of points of interest of the viewer V that overlap with the objects of interest (in this example, the top three objects of interest in the attention ranking) in each frame of the video 60. You may. The degree of attention of the object of interest may be displayed as a percentage, or as a grade (A, B, C, etc.).

サーバ3は、動画60の各フレーム内に注目オブジェクト(本例では、注目度ランキング上位3つの注目オブジェクト)が存在するかどうかを判定した上で、注目オブジェクトの登場時間を決定してもよい。例えば、フレームレートが60fpsで再生時間が30秒の動画である場合、動画の合計フレーム数は1800枚となる。ここで、注目度ランキング第一位の注目オブジェクトO1が600フレーム内に存在している場合、注目オブジェクトO1の登場時間は30秒×(600フレーム/1800フレーム)=10秒となる。 The server 3 may determine whether or not an object of interest (in this example, the top three objects of interest in the attention ranking) exists in each frame of the video 60, and then determine the appearance time of the object of interest. For example, if the video has a frame rate of 60 fps and a playback time of 30 seconds, the total number of frames in the video is 1800. Here, if the attention object O1, which ranks first in the attention ranking, exists within 600 frames, the appearance time of the attention object O1 is 30 seconds x (600 frames/1800 frames) = 10 seconds.

サーバ3は、動画60の各フレームにおいて注目オブジェクト(本例では、注目度ランキング上位3つの注目オブジェクト)に重なる視聴者Vの注視点の数を特定した上で、注目オブジェクトに重なる視聴者Vの注視点の平均数を特定する。その後、サーバ3は、注目オブジェクトに重なる視聴者Vの注視点の平均数に基づいて注目オブジェクトの平均注目度を決定してもよい。注目オブジェクトの平均注目度は、百分率%として表示されてもよいし、グレード(A,B,C等)として表示されてもよい。 The server 3 specifies the number of viewer V's gaze points that overlap with the attention object (in this example, the top three attention objects in the attention ranking) in each frame of the video 60, and then determines the number of viewer V's gaze points that overlap with the attention object. Determine the average number of fixation points. Thereafter, the server 3 may determine the average degree of attention of the object of interest based on the average number of gaze points of the viewer V that overlap the object of interest. The average attention level of the attention object may be displayed as a percentage, or as a grade (A, B, C, etc.).

次に、ステップS22において、サーバ3は、当該抽出条件に合致する視聴者Vの表情データを記憶装置31から抽出する。この点において、サーバ3は、各視聴者Vの情報に関連する視聴者情報テーブルを参照することで、抽出条件に合致する視聴者Vの識別情報を抽出する。その後、サーバ3は、選択動画の識別情報及び当該抽出された視聴者Vの識別情報の両方に関連付けられた表情データを抽出する。例えば、図13に示すように、視聴者Vの抽出条件が年代:20代、性別:女性、且つ世帯人数:一人世帯である場合には、サーバ3は、年代:20代、性別:女性、且つ世帯人数:一人世帯の全ての条件を満たす視聴者Vの識別情報を特定した上で、当該特定された視聴者Vの識別情報と選択動画の識別情報の両方に関連付けられた視聴者Vの表情データを抽出する。一方、図9に示すように、視聴者Vの抽出条件が全ての視聴者である場合には、選択動画の識別情報に関連付けられた視聴者Vの表情データを抽出する。 Next, in step S22, the server 3 extracts facial expression data of the viewer V that matches the extraction conditions from the storage device 31. In this respect, the server 3 extracts the identification information of the viewer V that matches the extraction conditions by referring to the viewer information table related to the information of each viewer V. Thereafter, the server 3 extracts facial expression data associated with both the identification information of the selected video and the extracted identification information of the viewer V. For example, as shown in FIG. 13, if the extraction conditions for viewer V are age: 20s, gender: female, and number of people in the household: one person, the server 3 selects the following: age: 20s, gender: female, In addition, after identifying the identification information of the viewer V who satisfies all the conditions of household size: one person household, the identification information of the viewer V associated with both the identification information of the specified viewer V and the identification information of the selected video. Extract facial expression data. On the other hand, as shown in FIG. 9, when the extraction condition for viewer V is all viewers, the facial expression data of viewer V associated with the identification information of the selected video is extracted.

ステップS23において、サーバ3は、ステップS22で抽出された視聴者Vの表情データに基づいて、総合表情情報と総合興味度情報を生成する。その後、サーバ3は、生成された総合表情情報と総合興味度情報を企業側端末4に送信する。これらの情報の送信タイミングとしては、これら情報は合成動画63の再生後に送信されてもよい。図9に示すように、企業側端末4は、レーダチャート形式で表示される総合表情情報を動画視聴解析画面70の表情情報表示領域72内に表示すると共に、時系列グラフ形式で表示される総合表情情報を動画視聴解析画面70の表情・興味度情報表示領域73内に表示する(ステップS24)。さらに、企業側端末4は、時系列グラフで表示される総合興味度情報を表情・興味度情報表示領域73内に表示する。 In step S23, the server 3 generates comprehensive facial expression information and comprehensive interest level information based on the facial expression data of the viewer V extracted in step S22. Thereafter, the server 3 transmits the generated comprehensive facial expression information and comprehensive interest level information to the company terminal 4. As for the transmission timing of these pieces of information, these pieces of information may be sent after the composite video 63 is played back. As shown in FIG. 9, the company terminal 4 displays comprehensive facial expression information displayed in the form of a radar chart in the facial expression information display area 72 of the video viewing analysis screen 70, and also displays comprehensive facial information displayed in the form of a time series graph. The facial expression information is displayed in the facial expression/interest level information display area 73 of the video viewing analysis screen 70 (step S24). Further, the company terminal 4 displays comprehensive interest level information displayed as a time series graph in the facial expression/interest level information display area 73.

総合表情情報は、抽出条件に合致する視聴者Vの総合的な表情情報を示し、レーダチャート形式の総合表情情報と、時系列グラフ形式の総合表情情報とを含む。レーダチャート形式の総合表情情報は、抽出条件に合致する視聴者Vの総合的な各表情要素(嬉しい、悲しい、中立、怒り、驚き)の平均確率情報(百分率%)を示すものである。例えば、レーダチャート形式の総合表情情報は、抽出条件に合致する複数の視聴者Vの表情要素「嬉しい」の平均確率と、当該複数の視聴者Vの表情要素「悲しい」の平均確率と、当該複数の視聴者Vの表情要素「中立」の平均確率と、当該複数の視聴者Vの表情要素「怒り」の平均確率と、当該複数の視聴者Vの表情要素「驚き」の平均確率と、を含んでもよい。 The comprehensive facial expression information indicates comprehensive facial expression information of the viewer V that matches the extraction conditions, and includes comprehensive facial expression information in a radar chart format and comprehensive facial expression information in a time series graph format. The comprehensive facial expression information in the form of a radar chart indicates average probability information (percentage %) of each comprehensive facial expression element (happy, sad, neutral, angry, surprised) of the viewer V that meets the extraction conditions. For example, comprehensive facial expression information in the form of a radar chart includes the average probability of the facial expression element "happy" for multiple viewers V that matches the extraction conditions, the average probability of the facial expression element "sad" for the multiple viewers V, and The average probability of the facial expression element "neutral" of the plurality of viewers V, the average probability of the facial expression element "angry" of the plurality of viewers V, the average probability of the facial expression element "surprise" of the plurality of viewers V, May include.

例えば、抽出された視聴者Vが視聴者Va,Vb,Vcを含む場合、サーバ3は、視聴者Vaの各表情要素の時間的変化を示す表情データに基づいて、視聴者Vaの各表情要素の平均確率を決定する。同様に、サーバ3は、視聴者Vbの各表情要素の時間的変化を示す表情データに基づいて、視聴者Vbの各表情要素の平均確率を決定すると共に、視聴者Vcの各表情要素の時間的変化を示す表情データに基づいて、視聴者Vcの各表情要素の平均確率を決定する。その後、サーバ3は、視聴者Va~Vcの各表情要素の平均確率に基づいて、視聴者Va~Vcの総合的な各表情要素の平均確率を決定する。この点において、視聴者Va,Vb,Vcの表情要素「嬉しい」の平均確率がRa1,Rb1,Rc1である場合には、視聴者Va~Vcの総合的な表情要素「嬉しい」の平均確率Rave1は、Rave1=(Ra1+Rb1+Rc1)/3となる。同様に、視聴者Va,Vb,Vcの表情要素「悲しい」の平均確率がRa2,Rb2,Rc2である場合には、視聴者Va~Vcの総合的な表情要素「悲しい」の平均確率Rave2は、Rave2=(Ra2+Rb2+Rc2)/3となる。 For example, when the extracted viewers V include viewers Va, Vb, and Vc, the server 3 analyzes each facial expression element of the viewer Va based on facial expression data indicating temporal changes in each facial expression element of the viewer Va. Determine the average probability of Similarly, the server 3 determines the average probability of each facial expression element of the viewer Vb based on facial expression data indicating temporal changes in each facial expression element of the viewer Vb, and also determines the average probability of each facial expression element of the viewer Vc. The average probability of each facial expression element of the viewer Vc is determined based on the facial expression data showing the change in the target. Thereafter, the server 3 determines the overall average probability of each facial expression element of the viewers Va to Vc based on the average probability of each facial expression element of the viewers Va to Vc. In this regard, if the average probabilities of the facial expression element "happy" for viewers Va, Vb, and Vc are Ra1, Rb1, and Rc1, then the average probability of the overall facial expression element "happy" for viewers Va to Vc is Rave1. is Rave1=(Ra1+Rb1+Rc1)/3. Similarly, if the average probabilities of the facial expression element "sad" for viewers Va, Vb, and Vc are Ra2, Rb2, and Rc2, the average probability Rave2 of the overall facial expression element "sad" for viewers Va to Vc is , Rave2=(Ra2+Rb2+Rc2)/3.

また、サーバ3は、抽出された視聴者Vの総合的な各表情要素の平均確率に基づいて、抽出された視聴者Vの動画60に対するポジティブ度及びネガティブ度を百分率%として算出してもよい。さらに、サーバ3は、ポジティブ度及びネガティブ度を示す情報を企業側端末4に送信してもよい。図9に示すように、ポジティブ度及びネガティブ度を示す情報は表情情報表示領域72内に表示されてもよい。例えば、表情要素「嬉しい」の平均確率が高い場合に、当該ポジティブ度の値が大きくなってもよい。その一方、表情要素「怒り」の平均確率が高い場合に、当該ネガティブ度の値が大きくなってもよい。サーバ3は、総合的な各表情要素の平均確率が入力値として設定されると共に、ポジティブ度及びネガティブ度の値が出力値として設定された関係式若しくは学習モデルを用いることで、総合的な各表情要素の平均確率からポジティブ度及びネガティブ度を算出してもよい。 Further, the server 3 may calculate the positive degree and negative degree of the extracted viewer V with respect to the video 60 as a percentage based on the average probability of each comprehensive facial expression element of the extracted viewer V. . Furthermore, the server 3 may transmit information indicating the positive degree and the negative degree to the company terminal 4. As shown in FIG. 9, information indicating the degree of positivity and degree of negativity may be displayed within the facial expression information display area 72. For example, when the average probability of the facial expression element "happy" is high, the value of the positivity level may be large. On the other hand, when the average probability of the facial expression element "anger" is high, the value of the degree of negativity may become large. The server 3 uses a relational expression or a learning model in which the overall average probability of each facial expression element is set as an input value, and the positive degree and negative degree values are set as output values. The positive degree and the negative degree may be calculated from the average probability of facial expression elements.

時系列グラフ形式の総合表情情報は、抽出条件に合致する視聴者Vの総合的な各表情要素(嬉しい、悲しい、中立、怒り、驚き)の時間的変化を示すものである。例えば、時系列グラフ形式の総合表情情報は、抽出条件に合致する複数の視聴者Vの表情要素「嬉しい」の平均確率の時間的変化を示す情報と、当該複数の視聴者Vの表情要素「悲しい」の平均確率の時間的変化を示す情報と、当該複数の視聴者Vの表情要素「中立」の平均確率の時間的変化を示す情報と、当該複数の視聴者Vの表情要素「怒り」の平均確率の時間的変化を示す情報と、当該複数の視聴者Vの表情要素「驚き」の平均確率の時間的変化を示す情報と、を含んでもよい。 The comprehensive facial expression information in the form of a time-series graph indicates temporal changes in comprehensive facial expression elements (happy, sad, neutral, angry, surprised) of the viewer V that match the extraction conditions. For example, the comprehensive facial expression information in a time-series graph format includes information indicating the temporal change in the average probability of the facial expression element "happy" of a plurality of viewers V that matches the extraction conditions, and information indicating the temporal change in the average probability of the facial expression element "happy" of the plurality of viewers V who match the extraction conditions. information indicating a temporal change in the average probability of "sad", information indicating a temporal change in the average probability of the facial expression element "neutral" of the plurality of viewers V, and information indicating a temporal change of the average probability of the facial expression element "angry" of the plurality of viewers V. , and information indicating a temporal change in the average probability of the facial expression element "surprise" of the plurality of viewers V.

例えば、抽出された視聴者Vが視聴者Va,Vb,Vcを含む場合、サーバ3は、視聴者Va~Vcの表情要素「嬉しい」の平均確率の時間的変化を示す情報と、視聴者Va~Vcの表情要素「悲しい」の平均確率の時間的変化を示す情報と、視聴者Va~Vcの表情要素「中立」の平均確率の時間的変化を示す情報と、視聴者Va~Vcの表情要素「怒り」の平均確率の時間的変化を示す情報と、視聴者Va~Vcの表情要素「驚き」の平均確率の時間的変化を示す情報とを算出した上で、これらの情報を時系列グラフ形式の総合表情情報として企業側端末4に送信する。 For example, when the extracted viewers V include viewers Va, Vb, and Vc, the server 3 stores information indicating the temporal change in the average probability of the facial expression element "happy" of viewers Va to Vc, and - Information indicating the temporal change in the average probability of the facial expression element "sad" of ~Vc, information indicating the temporal change of the average probability of the facial expression element "neutral" of the viewers Va~Vc, and facial expressions of the viewers Va~Vc After calculating the information indicating the temporal change in the average probability of the element "anger" and the information indicating the temporal change in the average probability of the facial expression element "surprise" of viewers Va to Vc, these pieces of information are combined in chronological order. It is sent to the company terminal 4 as comprehensive facial expression information in graph format.

また、サーバ3は、時系列グラフ形式の総合表情情報に基づいて、時系列グラフ形式の総合興味度情報を算出してもよい。総合興味度情報は、抽出条件に合致する視聴者Vの動画60に対する総合的な興味度(百分率%)の時間的変化を示すものである。例えば、再生時刻t1における総合的な各表情要素の平均確率がR1~R5である場合、再生時刻t1における総合的な興味度Iは、平均確率R1~R5に基づいて算出されてもよい。この点において、サーバ3は、総合的な各表情要素の平均確率R1~R5が入力値として設定されると共に、総合的な興味度Iが出力値として設定された関係式若しくは学習モデルを用いることで、総合的な各表情要素の平均確率R1~R5から総合的な興味度Iを算出してもよい。 Further, the server 3 may calculate comprehensive interest level information in a time series graph format based on the comprehensive facial expression information in a time series graph format. The comprehensive interest level information indicates a temporal change in the overall interest level (percentage %) of the viewer V who meets the extraction conditions in the video 60. For example, if the overall average probability of each facial expression element at playback time t1 is R1 to R5, the overall interest level I at playback time t1 may be calculated based on the average probabilities R1 to R5. In this regard, the server 3 uses a relational expression or a learning model in which the overall average probabilities R1 to R5 of each facial expression element are set as input values, and the overall interest level I is set as an output value. Then, the overall interest level I may be calculated from the overall average probabilities R1 to R5 of each facial expression element.

また、本実施形態において、視聴者Vの抽出条件が全ての視聴者Vである場合には、総合表情情報は全ての視聴者Vの総合的な表情情報を示すと共に、総合興味度情報は全ての視聴者Vの動画60に対する総合的な興味度の時間的変化を示す。このように、視聴者Vの抽出条件(換言すれば、抽出される視聴者Vの属性)に応じて総合表情情報と総合興味度情報は変化する。 In addition, in this embodiment, when the extraction condition for the viewer V is all the viewers V, the comprehensive facial expression information indicates the comprehensive facial expression information of all the viewers V, and the comprehensive interest level information indicates all the viewers V. 3 shows a temporal change in the overall interest level of viewer V in the video 60. In this way, the comprehensive expression information and the comprehensive interest level information change depending on the extraction conditions of the viewer V (in other words, the attributes of the viewer V to be extracted).

また、本実施形態では、総合表情情報(特に、視聴者Vの各表情要素の平均確率の時間的変化)に基づいて複数の視聴者Vの総合興味度情報が算出されているが、総合興味度情報は、各視聴者Vの注視点データに基づいて算出されてもよい。具体的には、総合興味度情報は、各視聴者Vの興味度データに基づいて算出されると共に、視聴者Vの興味度データは、視聴者Vの注視点データと、視聴者Vの瞬きに関する情報と、視聴者Vの眠気情報とに基づいて算出されてもよい。視聴者Vの瞬きに関する情報は、視聴者Vの瞬きの回数を示す情報や瞬きの有無を示す情報であってもよい。視聴者Vの瞬きに関する情報は、視聴者Vの映像データの各フレームに基づいて特定されてもよい。視聴者Vの眠気情報は、視聴者Vの眠気の有無を示す情報であってもよい。視聴者Vの眠気情報は、視聴者Vの映像データの各フレームに基づいて特定されてもよい。例えば、視聴者Vの興味度データは、視聴者Vの注視点Pの位置が動画の表示領域S内に存在するかどうかに関する情報と、視聴者Vの眠気の有無に関する情報と、視聴者Vの瞬きの有無に関する情報に基づいて算出されてもよい。各視聴者Vの興味度データに基づいて、複数の視聴者Vの総合興味度情報を算出することが可能となる。 Furthermore, in the present embodiment, the comprehensive interest level information of a plurality of viewers V is calculated based on the comprehensive facial expression information (particularly, the temporal change in the average probability of each facial expression element of the viewer V). The degree information may be calculated based on the gaze point data of each viewer V. Specifically, the comprehensive interest level information is calculated based on the interest level data of each viewer V, and the interest level data of the viewer V is calculated based on the viewer V's gaze point data and the viewer V's blinking. It may be calculated based on information regarding the viewer V and drowsiness information of the viewer V. The information regarding the viewer V's blinking may be information indicating the number of times the viewer V blinks or information indicating whether or not the viewer V blinks. Information regarding viewer V's blinking may be specified based on each frame of viewer V's video data. The drowsiness information of the viewer V may be information indicating whether the viewer V is drowsy. Viewer V's drowsiness information may be specified based on each frame of viewer V's video data. For example, the interest level data of the viewer V includes information regarding whether the position of the gaze point P of the viewer V exists within the display area S of the video, information regarding the presence or absence of sleepiness of the viewer V, and information regarding the presence or absence of sleepiness of the viewer V. It may be calculated based on information regarding the presence or absence of blinking. Based on the interest level data of each viewer V, it becomes possible to calculate comprehensive interest level information of a plurality of viewers V.

また、本実施形態では、複数の視聴者Vのポジティブ度及びネガティブ度を示す情報は、各視聴者Vの表情データに基づいて算出されているが、これらの情報は各視聴者Vの注視点データに基づいて算出されてもよい。 Furthermore, in this embodiment, the information indicating the positive degree and the negative degree of the plurality of viewers V is calculated based on the facial expression data of each viewer V, but this information is calculated based on the gaze point of each viewer V. It may be calculated based on data.

尚、本実施形態では、図8に示す各処理の順番は特に限定されるものではない。また、図9及び図13に示す例では、注視点ヒートマップ62が動画60に重畳された合成動画63が動画表示領域71に表示されているが、動画表示領域71には、合成動画63に代わり動画60が表示されてもよい。この場合であっても、動画60内の注目オブジェクトに関する情報が注目オブジェクト表示領域76内に表示されてもよい。さらに、レーダチャート形式の総合表情情報が表情情報表示領域72内に表示されると共に、時系列グラフ形式の総合表情情報及び総合興味度情報が表情・興味度情報表示領域73内に表示されてもよい。 Note that in this embodiment, the order of each process shown in FIG. 8 is not particularly limited. In addition, in the examples shown in FIGS. 9 and 13, a composite video 63 in which the gaze point heat map 62 is superimposed on the video 60 is displayed in the video display area 71; An alternative video 60 may be displayed. Even in this case, information regarding the object of interest within the moving image 60 may be displayed within the object of interest display area 76. Further, comprehensive facial expression information in a radar chart format is displayed in the facial expression information display area 72, and comprehensive facial expression information and comprehensive interest level information in a time series graph format are displayed in the facial expression/interest level information display area 73. good.

また、本例では、総合表情情報と総合興味度情報の2つの情報が動画視聴解析画面70に表示されているが、総合表情情報と総合興味度情報の2つの情報のうちのいずれか一方の情報のみが動画視聴解析画面70上に表示されてもよい。また、表情情報として本例では、嬉しい、悲しい、中立、怒り、驚きの5種類の表情要素が採用されているが、表情要素の種類はこれらに限定されるものではない。例えば、これら以外の表情要素として、恐怖、幸福、楽しみ、嫌悪等が更に追加で採用されてもよい。 In addition, in this example, two pieces of information, comprehensive facial expression information and comprehensive interest level information, are displayed on the video viewing analysis screen 70. Only the information may be displayed on the video viewing analysis screen 70. Further, in this example, five types of facial expression elements, happy, sad, neutral, angry, and surprised, are employed as facial expression information, but the types of facial expression elements are not limited to these. For example, fear, happiness, enjoyment, disgust, etc. may be additionally employed as facial expression elements other than these.

本実施形態によれば、注視点ヒートマップ62と動画60が時間的に同期した状態で注視点ヒートマップ62が動画60に重畳された合成動画63が企業側端末4に提示されるため、ユーザUは、動画視聴解析画面70上に表示された合成動画63を確認することで、動画60に対する複数の視聴者Vの視聴行動を詳細に把握することが可能となる。特に、ユーザUは、動画60の再生時間毎の複数の視聴者Vによる動画60内の注目オブジェクト(注目領域)を詳細に把握することが可能となる。このように、動画解析を所望する企業側に動画60に関する詳細なインサイト(より詳細には、動画広告のデジタルマーケティングに関する詳細なインサイト)を提供することが可能となる。 According to the present embodiment, the composite video 63 in which the gaze point heat map 62 and the video 60 are superimposed on the video 60 is presented to the company terminal 4 in a state where the gaze point heat map 62 and the video 60 are temporally synchronized. By checking the composite video 63 displayed on the video viewing analysis screen 70, U can understand in detail the viewing behavior of the multiple viewers V with respect to the video 60. In particular, the user U can grasp in detail objects of interest (areas of interest) in the video 60 by a plurality of viewers V for each playback time of the video 60. In this way, it is possible to provide detailed insights regarding the video 60 (more specifically, detailed insights regarding digital marketing of video advertisements) to companies that desire video analysis.

また、動画60内の注目オブジェクトに関する情報が動画視聴解析画面70上に表示されるため、ユーザUは、当該注目オブジェクトに関する情報(特に、注目オブジェクトのトリミング画像、注目オブジェクトの注目度情報若しくは平均注目度情報、注目オブジェクトの登場時間等)を確認することで、動画60内に存在する注目オブジェクトに関するインサイトをより詳細に把握することが可能となる。 Further, since information regarding the object of interest in the video 60 is displayed on the video viewing analysis screen 70, the user U can view information regarding the object of interest (in particular, a cropped image of the object of interest, information on the degree of attention of the object of interest, or average attention By checking the time information, appearance time of the object of interest, etc.), it is possible to obtain more detailed insight regarding the object of interest that exists in the video 60.

特に、本実施形態では、複数の視聴者Vの年代情報、性別情報、世帯人数情報等に関連付けられた抽出条件に合致した視聴者Vの注視点データに基づいて、これらの属性条件を満たす視聴者Vの注視点の位置の時間的変化を可視化した注視点ヒートマップが生成される。このように、視聴者の属性に応じた動画60に関するより詳細なインサイトを企業側に提供することが可能となる。 In particular, in this embodiment, based on the gaze point data of the viewers V that match the extraction conditions associated with the age information, gender information, household size information, etc. of the plurality of viewers V, viewing that satisfies these attribute conditions is performed. A gaze point heat map that visualizes temporal changes in the position of the gaze point of person V is generated. In this way, it is possible to provide the company with more detailed insight regarding the video 60 according to the viewer's attributes.

また、本実施形態によれば、レーダチャート形式及び時系列グラフ形式の総合表情情報及び総合興味度情報が企業側端末4に提示されるため、ユーザUは、動画視聴解析画面70上に表示されたこれらの情報を確認することで、動画60に対する複数の視聴者Vの視聴行動を詳細に把握することができる。特に、ユーザUは、再生時間毎の視聴者Vによる動画60に対する表情(嬉しい、悲しい、中立、怒り、驚き等)や興味度を詳細に把握することが可能となる。このように、動画解析を所望する企業側に動画に関する詳細なインサイト(より詳細には、動画広告のデジタルマーケティングに関する詳細なインサイト)を提供することが可能となる。 Furthermore, according to the present embodiment, comprehensive facial expression information and comprehensive interest level information in a radar chart format and a time series graph format are presented to the company terminal 4, so that the user U can see the information displayed on the video viewing analysis screen 70. By checking this information, it is possible to understand in detail the viewing behavior of the plurality of viewers V with respect to the video 60. In particular, the user U can grasp in detail the facial expressions (happy, sad, neutral, angry, surprised, etc.) and interest level of the viewer V toward the video 60 for each playback time. In this way, it is possible to provide detailed insights regarding videos (more specifically, detailed insights regarding digital marketing of video advertisements) to companies that desire video analysis.

特に、本実施形態では、複数の視聴者Vの年代情報、性別情報、世帯人数情報等に関連付けられた抽出条件に合致した視聴者Vの表情データに基づいて、これらの属性条件を満たす視聴者Vの総合的な各表情要素の確率情報を示す総合表情情報が生成されると共に、抽出条件に合致した視聴者Vの総合的な動画60に対する興味度を示す総合興味度情報が生成される。このように、これらの情報を通じて、抽出条件に合致した視聴者Vの視聴行動を詳細に把握することができるため、動画60に関するより詳細なインサイトを企業側に提供することが可能となる。 In particular, in this embodiment, based on facial expression data of viewers V who match extraction conditions associated with age information, gender information, household size information, etc. of a plurality of viewers V, viewers who meet these attribute conditions are selected. Comprehensive facial expression information indicating the probability information of each comprehensive facial expression element of V is generated, and comprehensive interest level information indicating the overall interest level of the viewer V who meets the extraction conditions in the video 60 is generated. In this way, it is possible to understand in detail the viewing behavior of the viewer V who meets the extraction conditions through this information, so it is possible to provide the company with more detailed insight regarding the video 60.

以上、本発明の実施形態について説明をしたが、本発明の技術的範囲が本実施形態の説明によって限定的に解釈されるべきではない。本実施形態は一例であって、特許請求の範囲に記載された発明の範囲内において、様々な実施形態の変更が可能であることが当業者によって理解されるところである。本発明の技術的範囲は特許請求の範囲に記載された発明の範囲及びその均等の範囲に基づいて定められるべきである。 Although the embodiments of the present invention have been described above, the technical scope of the present invention should not be interpreted to be limited by the description of the embodiments. This embodiment is an example, and those skilled in the art will understand that various changes can be made within the scope of the invention as set forth in the claims. The technical scope of the present invention should be determined based on the scope of the invention described in the claims and the scope of equivalents thereof.

1:動画視聴解析システム、2,2a,2b:視聴者端末、3:サーバ、4:企業側端末、8:通信ネットワーク、20:制御部、21:記憶装置、22:撮像部、23:通信部、24:入力操作部、25:表示部、26:スピーカ、RTC:28、30:制御部、31:記憶装置、32:入出力インターフェース、33:通信部、34:入力操作部、35:表示部、40:制御部、41:記憶装置、42:入出力インターフェース、43:通信部、44:入力操作部、45:表示部、60:動画、62:注視点ヒートマップ、63:合成動画、70:動画視聴解析画面、71:動画表示領域、72:表情情報表示領域、73:興味度情報表示領域、74:視聴者選択ボタン、75:動画選択ボタン、76:注目オブジェクト表示領域、80:抽出条件表示画面、125:表示画面、176:トリミング画像、K:顔特徴点、L:視線、M:映像データ、P:注視点、S:表示領域、U:ユーザ、V,Va,Vb:視聴者 1: Video viewing analysis system, 2, 2a, 2b: viewer terminal, 3: server, 4: company terminal, 8: communication network, 20: control unit, 21: storage device, 22: imaging unit, 23: communication section, 24: input operation section, 25: display section, 26: speaker, RTC: 28, 30: control section, 31: storage device, 32: input/output interface, 33: communication section, 34: input operation section, 35: Display unit, 40: Control unit, 41: Storage device, 42: Input/output interface, 43: Communication unit, 44: Input operation unit, 45: Display unit, 60: Video, 62: Gaze point heat map, 63: Composite video , 70: Video viewing analysis screen, 71: Video display area, 72: Facial expression information display area, 73: Interest level information display area, 74: Viewer selection button, 75: Video selection button, 76: Attention object display area, 80 : Extraction condition display screen, 125: Display screen, 176: Trimmed image, K: Facial feature point, L: Line of sight, M: Video data, P: Gaze point, S: Display area, U: User, V, Va, Vb :Audience

Claims (11)

動画に対する複数の視聴者のインサイトを解析する動画視聴解析システムであって、
各々が前記複数の視聴者のうちの対応する一人に関連付けられ、表示部を備えた複数の視聴者端末と、
ネットワークを介して前記複数の視聴者端末に通信可能に接続されたサーバと、
前記ネットワークを介して前記サーバに通信可能に接続され、表示部を備えた企業側端末と、を備え、
前記動画視聴解析システムは、
前記動画を前記複数の視聴者端末の各々に提供し、
前記動画を前記複数の視聴者端末の各々の表示部に表示させ、
各々が前記動画に対する前記複数の視聴者のうちの対応する一人の複数の表情要素の確率の時間的変化を示す複数の表情データを取得し、
前記複数の視聴者の抽出条件を前記企業側端末から受信し、
前記抽出条件に基づいて、前記複数の表情データのうち幾つかを抽出し、
前記抽出された幾つかの表情データを統合した後に、前記統合された幾つかの表情データに基づいて前記複数の視聴者が前記動画を見たときの時間軸における総合的な表情を示す総合表情情報を生成し、
前記総合表情情報を前記企業側端末の表示部に表示させる、
動画視聴解析システム。
A video viewing analysis system that analyzes insights of multiple viewers regarding videos,
a plurality of viewer terminals, each of which is associated with a corresponding one of the plurality of viewers and includes a display unit;
a server communicably connected to the plurality of viewer terminals via a network;
a company-side terminal communicably connected to the server via the network and equipped with a display unit;
The video viewing analysis system includes:
providing the video to each of the plurality of viewer terminals;
Displaying the video on the display section of each of the plurality of viewer terminals,
obtaining a plurality of facial expression data each indicating a temporal change in the probability of a plurality of facial expression elements of a corresponding one of the plurality of viewers for the video;
receiving extraction conditions for the plurality of viewers from the company terminal;
Extracting some of the plurality of facial expression data based on the extraction conditions,
After integrating the extracted several facial expression data, a comprehensive facial expression indicating a comprehensive facial expression in the time axis when the plurality of viewers viewed the video based on the combined facial facial expression data. generate information;
displaying the comprehensive facial expression information on a display section of the company terminal;
Video viewing analysis system.
動画に対する複数の視聴者のインサイトを解析する動画視聴解析システムであって、
各々が前記複数の視聴者のうちの対応する一人に関連付けられ、表示部を備えた複数の視聴者端末と、
ネットワークを介して前記複数の視聴者端末に通信可能に接続されたサーバと、
前記ネットワークを介して前記サーバに通信可能に接続され、表示部を備えた企業側端末と、を備え、
前記動画視聴解析システムは、
前記動画を前記複数の視聴者端末の各々に提供し、
前記動画を前記複数の視聴者端末の各々の表示部に表示させ、
各々が前記動画に対する前記複数の視聴者のうちの対応する一人の複数の表情要素の確率の時間的変化を示す複数の表情データを取得し、
前記複数の視聴者の抽出条件を前記企業側端末から受信し、
前記抽出条件に基づいて、前記複数の表情データのうち幾つかを抽出し、
前記抽出された幾つかの表情データを統合した後に、前記統合された幾つかの表情データに基づいて前記複数の視聴者が前記動画を見たときの時間軸における総合的な興味度を示す総合興味度情報を生成し、
前記総合興味度情報を前記企業側端末の表示部に表示させる、
動画視聴解析システム。
A video viewing analysis system that analyzes insights of multiple viewers regarding videos,
a plurality of viewer terminals, each of which is associated with a corresponding one of the plurality of viewers and includes a display unit;
a server communicably connected to the plurality of viewer terminals via a network;
a company-side terminal communicatively connected to the server via the network and equipped with a display unit;
The video viewing analysis system includes:
providing the video to each of the plurality of viewer terminals;
Displaying the video on the display section of each of the plurality of viewer terminals,
obtaining a plurality of facial expression data each indicating a temporal change in the probability of a plurality of facial expression elements of a corresponding one of the plurality of viewers for the video;
receiving extraction conditions for the plurality of viewers from the company terminal;
Extracting some of the plurality of facial expression data based on the extraction conditions,
After integrating the extracted facial expression data, a composite indicating the overall interest level in the time axis when the plurality of viewers watched the video based on the integrated facial expression data. Generate interest level information,
displaying the comprehensive interest level information on a display section of the company terminal;
Video viewing analysis system.
前記抽出条件は、
前記複数の視聴者の年代情報と、
前記複数の視聴者の性別情報と、
前記複数の視聴者の住所情報と、
前記複数の視聴者の職業情報と、
前記複数の視聴者の世帯人数情報と、
前記複数の視聴者の婚姻情報と、
前記複数の視聴者の学歴情報と、
のうち少なくとも一つに関連付けられている、
請求項1又は2に記載の動画視聴解析システム。
The extraction conditions are:
Age information of the plurality of viewers;
Gender information of the plurality of viewers;
Address information of the plurality of viewers;
Occupational information of the plurality of viewers;
Household number information of the plurality of viewers;
Marriage information of the plurality of viewers;
educational background information of the plurality of viewers;
associated with at least one of
The video viewing analysis system according to claim 1 or 2 .
前記動画は、広告コンテンツを含む、
請求項1又は2に記載の動画視聴解析システム。
the video includes advertising content;
The video viewing analysis system according to claim 1 or 2 .
前記総合表情情報は、前記動画の全体を通した前記複数の視聴者の各表情要素の平均確率を示す、請求項に記載の動画視聴解析システム。 2. The video viewing analysis system according to claim 1 , wherein the comprehensive facial expression information indicates an average probability of each facial expression element of the plurality of viewers throughout the video. 前記総合表情情報は、前記動画の時系列に沿った前記複数の視聴者の各表情要素の平均確率の時間的推移を示す、請求項に記載の動画視聴解析システム。 2. The video viewing analysis system according to claim 1 , wherein the comprehensive facial expression information indicates a temporal change in the average probability of each facial expression element of the plurality of viewers along the time series of the video. 前記総合興味度情報は、前記動画の時系列に沿った前記複数の視聴者の総合的な興味度の時間的推移を示す、請求項に記載の動画視聴解析システム。 3. The video viewing analysis system according to claim 2 , wherein the comprehensive interest level information indicates a temporal change in the comprehensive interest level of the plurality of viewers along the time series of the video. 前記複数の視聴者の各表情要素の確率に基づいて、前記動画に対する前記複数の視聴者のポジティブ度又はネガティブ度を算出し、
前記ポジティブ度又は前記ネガティブ度を表示する、
請求項に記載の動画視聴解析システム。
Calculating the positivity or negativity of the plurality of viewers with respect to the video based on the probability of each facial expression element of the plurality of viewers,
displaying the positive degree or the negative degree;
The video viewing analysis system according to claim 1 .
動画に対する複数の視聴者のインサイトを解析し、動画視聴解析システムによって実行される動画視聴解析方法であって、
前記動画視聴解析システムは、
各々が前記複数の視聴者のうちの対応する一人に関連付けられ、表示部を備えた複数の視聴者端末と、
ネットワークを介して前記複数の視聴者端末に通信可能に接続されたサーバと、
前記ネットワークを介して前記サーバに通信可能に接続され、表示部を備えた企業側端末と、を備え、
前記動画視聴解析方法は、
前記動画を前記複数の視聴者端末の各々に提供するステップと、
前記動画を前記複数の視聴者端末の各々の表示部に表示させるステップと、
各々が前記動画に対する前記複数の視聴者のうちの対応する一人の複数の表情要素の確率の時間的変化を示す複数の表情データを取得するステップと、
前記複数の視聴者の抽出条件を前記企業側端末から受信するステップと、
前記抽出条件に基づいて、前記複数の表情データのうち幾つかを抽出するステップと、
前記抽出された幾つかの表情データを統合した後に、前記統合された幾つかの表情データに基づいて前記複数の視聴者が前記動画を見たときの時間軸における総合的な表情を示す総合表情情報を生成するステップと、
前記総合表情情報を前記企業側端末の表示部に表示させるステップと、
を含む、動画視聴解析方法。
A video viewing analysis method executed by a video viewing analysis system by analyzing insights of multiple viewers for a video, the method comprising:
The video viewing analysis system includes:
a plurality of viewer terminals, each of which is associated with a corresponding one of the plurality of viewers and includes a display unit;
a server communicably connected to the plurality of viewer terminals via a network;
a company-side terminal communicably connected to the server via the network and equipped with a display unit;
The video viewing analysis method is
providing the video to each of the plurality of viewer terminals;
Displaying the video on a display unit of each of the plurality of viewer terminals;
obtaining a plurality of facial expression data each indicating a temporal change in the probability of a plurality of facial expression elements of a corresponding one of the plurality of viewers for the video;
receiving extraction conditions for the plurality of viewers from the company terminal;
extracting some of the plurality of facial expression data based on the extraction conditions;
After integrating the extracted several facial expression data, a comprehensive facial expression indicating a comprehensive facial expression in the time axis when the plurality of viewers viewed the video based on the combined facial facial expression data. a step of generating information;
displaying the comprehensive facial expression information on a display section of the company terminal;
Video viewing analysis methods, including:
動画に対する複数の視聴者のインサイトを解析し、動画視聴解析システムによって実行される動画視聴解析方法であって、
前記動画視聴解析システムは、
各々が前記複数の視聴者のうちの対応する一人に関連付けられ、表示部を備えた複数の視聴者端末と、
ネットワークを介して前記複数の視聴者端末に通信可能に接続されたサーバと、
前記ネットワークを介して前記サーバに通信可能に接続され、表示部を備えた企業側端末と、を備え、
前記動画視聴解析方法は、
前記動画を前記複数の視聴者端末の各々に提供するステップと、
前記動画を前記複数の視聴者端末の各々の表示部に表示させるステップと、
各々が前記動画に対する前記複数の視聴者のうちの対応する一人の複数の表情要素の確率の時間的変化を示す複数の表情データを取得するステップと、
前記複数の視聴者の抽出条件を前記企業側端末から受信するステップと、
前記抽出条件に基づいて、前記複数の表情データのうち幾つかを抽出するステップと、
前記抽出された幾つかの表情データを統合した後に、前記統合された幾つかの表情データに基づいて前記複数の視聴者が前記動画を見たときの時間軸における総合的な興味度を示す総合興味度情報を生成するステップと、
前記総合興味度情報を前記企業側端末の表示部に表示させるステップと、
を含む、動画視聴解析方法。
A video viewing analysis method executed by a video viewing analysis system by analyzing insights of multiple viewers for a video, the method comprising:
The video viewing analysis system includes:
a plurality of viewer terminals, each of which is associated with a corresponding one of the plurality of viewers and includes a display unit;
a server communicably connected to the plurality of viewer terminals via a network;
a company-side terminal communicably connected to the server via the network and equipped with a display unit;
The video viewing analysis method is
providing the video to each of the plurality of viewer terminals;
Displaying the video on a display unit of each of the plurality of viewer terminals;
obtaining a plurality of facial expression data each indicating a temporal change in the probability of a plurality of facial expression elements of a corresponding one of the plurality of viewers for the video;
receiving extraction conditions for the plurality of viewers from the company terminal;
extracting some of the plurality of facial expression data based on the extraction conditions;
After integrating the extracted facial expression data, a composite indicating the overall interest level in the time axis when the plurality of viewers watched the video based on the integrated facial expression data. generating interest level information;
displaying the comprehensive interest level information on a display section of the company terminal;
Video viewing analysis methods, including:
請求項9又は10に記載の動画視聴解析方法をコンピュータに実行させる動画視聴解析プログラム。 A video viewing analysis program that causes a computer to execute the video viewing analysis method according to claim 9 or 10 .
JP2023108600A 2023-06-30 2023-06-30 Video viewing analysis system, video viewing analysis method, and video viewing analysis program Active JP7398853B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023108600A JP7398853B1 (en) 2023-06-30 2023-06-30 Video viewing analysis system, video viewing analysis method, and video viewing analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023108600A JP7398853B1 (en) 2023-06-30 2023-06-30 Video viewing analysis system, video viewing analysis method, and video viewing analysis program

Publications (1)

Publication Number Publication Date
JP7398853B1 true JP7398853B1 (en) 2023-12-15

Family

ID=89122204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023108600A Active JP7398853B1 (en) 2023-06-30 2023-06-30 Video viewing analysis system, video viewing analysis method, and video viewing analysis program

Country Status (1)

Country Link
JP (1) JP7398853B1 (en)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132362A (en) 2001-10-22 2003-05-09 Sony Corp Information communication system, information communication method and computer program
JP2009140010A (en) 2007-12-03 2009-06-25 Sony Corp Information processing device, information processing terminal, information processing method, and program
JP2010026871A (en) 2008-07-22 2010-02-04 Nikon Corp Information processor and information processing system
US20120046993A1 (en) 2006-07-21 2012-02-23 Hill Daniel A Method and report assessing consumer reaction to a stimulus by matching eye position with facial coding
JP2016046730A (en) 2014-08-25 2016-04-04 学校法人早稲田大学 Viewer attention information provision system, space-time marker setting device and program for the same, and information provision device and program for the same
CN106682946A (en) 2016-12-30 2017-05-17 北京七鑫易维信息技术有限公司 Advertisement content analysis method and device
WO2017159063A1 (en) 2016-03-14 2017-09-21 ソニー株式会社 Display device and information processing terminal device
JP2017531251A (en) 2014-09-01 2017-10-19 リアルアイズ・オーウー Web-based advertising targeting methods
WO2018079166A1 (en) 2016-10-26 2018-05-03 ソニー株式会社 Information processing device, information processing system, information processing method, and program
JP2019215731A (en) 2018-06-13 2019-12-19 富士通株式会社 Concentration evaluation program, device, and method
JP2020106772A (en) 2018-12-28 2020-07-09 株式会社Jvcケンウッド Display device, display method, and program
JP2020531987A (en) 2017-10-30 2020-11-05 コーロン インダストリーズ インク Devices, systems, and methods that use artificial intelligence technology to provide services related to advertising and product purchasing
JP2020184217A (en) 2019-05-08 2020-11-12 株式会社リコー Communication system, terminal device, communication method, and program
JP2020202575A (en) 2020-08-18 2020-12-17 グリー株式会社 Video distribution system, video distribution method, and video distribution program
JP2021177362A (en) 2020-05-08 2021-11-11 ヤフー株式会社 Information processing apparatus, information processing method, information processing program, and terminal apparatus
JP2022061352A (en) 2020-10-06 2022-04-18 株式会社カプコン Game system and game control method
WO2022239793A1 (en) 2021-05-12 2022-11-17 株式会社夏目綜合研究所 Subject analysis device
WO2023047658A1 (en) 2021-09-22 2023-03-30 ソニーグループ株式会社 Information processing device and information processing method

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003132362A (en) 2001-10-22 2003-05-09 Sony Corp Information communication system, information communication method and computer program
US20120046993A1 (en) 2006-07-21 2012-02-23 Hill Daniel A Method and report assessing consumer reaction to a stimulus by matching eye position with facial coding
JP2009140010A (en) 2007-12-03 2009-06-25 Sony Corp Information processing device, information processing terminal, information processing method, and program
JP2010026871A (en) 2008-07-22 2010-02-04 Nikon Corp Information processor and information processing system
JP2016046730A (en) 2014-08-25 2016-04-04 学校法人早稲田大学 Viewer attention information provision system, space-time marker setting device and program for the same, and information provision device and program for the same
JP2017531251A (en) 2014-09-01 2017-10-19 リアルアイズ・オーウー Web-based advertising targeting methods
WO2017159063A1 (en) 2016-03-14 2017-09-21 ソニー株式会社 Display device and information processing terminal device
WO2018079166A1 (en) 2016-10-26 2018-05-03 ソニー株式会社 Information processing device, information processing system, information processing method, and program
CN106682946A (en) 2016-12-30 2017-05-17 北京七鑫易维信息技术有限公司 Advertisement content analysis method and device
JP2020531987A (en) 2017-10-30 2020-11-05 コーロン インダストリーズ インク Devices, systems, and methods that use artificial intelligence technology to provide services related to advertising and product purchasing
JP2019215731A (en) 2018-06-13 2019-12-19 富士通株式会社 Concentration evaluation program, device, and method
JP2020106772A (en) 2018-12-28 2020-07-09 株式会社Jvcケンウッド Display device, display method, and program
JP2020184217A (en) 2019-05-08 2020-11-12 株式会社リコー Communication system, terminal device, communication method, and program
JP2021177362A (en) 2020-05-08 2021-11-11 ヤフー株式会社 Information processing apparatus, information processing method, information processing program, and terminal apparatus
JP2020202575A (en) 2020-08-18 2020-12-17 グリー株式会社 Video distribution system, video distribution method, and video distribution program
JP2022061352A (en) 2020-10-06 2022-04-18 株式会社カプコン Game system and game control method
WO2022239793A1 (en) 2021-05-12 2022-11-17 株式会社夏目綜合研究所 Subject analysis device
WO2023047658A1 (en) 2021-09-22 2023-03-30 ソニーグループ株式会社 Information processing device and information processing method

Similar Documents

Publication Publication Date Title
US10210666B2 (en) Filtering and parental control methods for restricting visual activity on a head mounted display
CN108701207B (en) Apparatus and method for face recognition and video analysis to identify individuals in contextual video streams
CN105339969B (en) Linked advertisements
US9894415B2 (en) System and method for media experience data
US20180124459A1 (en) Methods and systems for generating media experience data
US20180115802A1 (en) Methods and systems for generating media viewing behavioral data
JP7440020B2 (en) Information processing method, terminal device, information processing device, and information processing system
WO2019234879A1 (en) Information processing system, information processing method and computer program
US20180124458A1 (en) Methods and systems for generating media viewing experiential data
US11483618B2 (en) Methods and systems for improving user experience
CN112352390A (en) Content generation and control using sensor data for detecting neurological state
US20180109828A1 (en) Methods and systems for media experience data exchange
EP2788943A2 (en) Affect based evaluation of advertisement effectiveness
JP7234930B2 (en) Information processing device, information processing method, and information processing system
US20140325540A1 (en) Media synchronized advertising overlay
WO2023045710A1 (en) Multimedia display and matching methods and apparatuses, device and medium
JP2023551476A (en) Graphic interchange format file identification for inclusion in video game content
JPWO2019116658A1 (en) Information processing equipment, information processing methods, and programs
US20230260219A1 (en) Systems and methods for displaying and adjusting virtual objects based on interactive and dynamic content
KR20150034925A (en) Method for searching image and recording-medium recorded program thereof
JP7398853B1 (en) Video viewing analysis system, video viewing analysis method, and video viewing analysis program
WO2018078596A1 (en) Systems methods devices circuits and computer executable code for impression measurement and evaluation
JP7206741B2 (en) HEALTH CONDITION DETERMINATION SYSTEM, HEALTH CONDITION DETERMINATION DEVICE, SERVER, HEALTH CONDITION DETERMINATION METHOD, AND PROGRAM
JP7398854B1 (en) Web page viewing analysis system, web page viewing analysis method, and web page viewing analysis program
JPWO2020032239A1 (en) Information output device, design support system, information output method and information output program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230704

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230704

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20230701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231128

R150 Certificate of patent or registration of utility model

Ref document number: 7398853

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150