JP2020035086A

JP2020035086A - 情報処理システム、情報処理装置およびプログラム

Info

Publication number: JP2020035086A
Application number: JP2018159540A
Authority: JP
Inventors: ビネシュサラス; Vignesh Sharath; スレシュムラリ; Murali Suresh; 晃関根; Akira Sekine; 内橋　真吾; Shingo Uchihashi; 真吾内橋
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-05
Also published as: US20200074218A1; CN110866148A

Abstract

【課題】複数の対象画像の中から好評となり得る画像を抽出することができる情報処理システム、情報処理装置及びプログラムを提供する。【解決手段】情報処理システムは、サーバ装置２０において、複数の対象画像を受け付ける受付手段と、複数の対象画像の内容に関する内容情報を特定する内容特定手段と、インターネットメディアに掲載されている掲載画像の中から内容情報に基づく特定画像を選択する選択手段と、複数の対象画像の中から特定画像と類似する画像を抽出する抽出手段と、を備える。【選択図】図２

Description

本発明は、情報処理システム、情報処理装置およびプログラムに関する。

例えば特許文献１には、連続して撮像された複数の画像データのそれぞれに対して、画像データに含まれる被写体に基づいて評価値を算出し、複数の画像データの中からいずれかの画像データを選択する工程と選択された画像データを記憶手段に記憶する工程を有し、いずれかの画像データを選択する工程において、複数の画像データから、他の画像データよりも評価値が高い画像データを選択するものであって、複数の画像データのうち、先の撮像で得られた画像の評価値よりも、後の撮像で得られた画像の評価値のほうが高くても、それら評価値の差が所定値以下である場合には、先の撮像で得られた画像を選択することが記載されている。

特開２０１５−４３６０３号公報

例えば動画を構成する画像などの複数の対象画像の中から好評となり得る画像を抽出しようとする場合、ユーザは、複数の対象画像を確認する必要があったり、どのような画像が好評となるかを判断したりする必要があった。
本発明は、複数の対象画像の中から好評となり得る画像を抽出することを目的とする。

請求項１に記載の発明は、ユーザから複数の対象画像を受け付ける受付手段と、前記複数の対象画像の内容に関する内容情報を特定する内容特定手段と、インターネットメディアに掲載されている掲載画像の中から前記内容情報に基づく特定画像を選択する選択手段と、前記複数の対象画像の中から前記特定画像と類似する画像を抽出する抽出手段と、を備える情報処理システムである。
請求項２に記載の発明は、前記複数の対象画像は、動画を構成する複数のフレーム画像であり、前記抽出手段は、前記複数のフレーム画像の中から前記特定画像と類似するフレーム画像を抽出する請求項１に記載の情報処理システムである。
請求項３に記載の発明は、前記内容特定手段は、前記動画の画像解析から前記内容情報を得る請求項２に記載の情報処理システムである。
請求項４に記載の発明は、前記内容特定手段は、前記ユーザから前記動画の前記内容情報を取得する請求項２に記載の情報処理システムである。
請求項５に記載の発明は、前記選択手段は、前記掲載画像の中から、前記内容特定手段が特定した前記内容情報を拡張した拡張情報に対応する特定画像を選択する請求項１乃至４のいずれか１項に記載の情報処理システムである。
請求項６に記載の発明は、前記選択手段は、前記掲載画像の中から、前記掲載画像の閲覧者による当該掲載画像に対する評価に基づいて前記特定画像を選択する請求項１に記載の情報処理システムである。
請求項７に記載の発明は、前記選択手段は、前記掲載画像の中から、予め定められた期間に集計された前記評価に基づいて前記特定画像を選択する請求項６に記載の情報処理システムである。
請求項８に記載の発明は、前記抽出手段は、前記特定画像の特徴点を有する画像を前記複数の対象画像の中から抽出する請求項１に記載の情報処理システムである。
請求項９に記載の発明は、前記抽出手段は、前記特徴点として前記特定画像における人のポーズを用いる請求項８に記載の情報処理システムである。
請求項１０に記載の発明は、前記抽出手段は、前記特徴点として前記特定画像における人または物の構図を用いる請求項８に記載の情報処理システムである。
請求項１１に記載の発明は、前記抽出手段は、前記特徴点として前記特定画像の色構成を用いる請求項８に記載の情報処理システムである。
請求項１２に記載の発明は、前記抽出手段は、複数の前記特定画像の共通点を有する画像を前記複数の対象画像の中から抽出する請求項１に記載の情報処理システムである。
請求項１３に記載の発明は、ユーザから複数の対象画像を受け付ける受付手段と、インターネットメディアに掲載されている掲載画像の閲覧者による評価情報に基づいて、前記複数の対象画像の中から少なくとも一の画像を抽出する抽出手段と、前記一の対象画像を前記価情報とともにユーザに提示する提示手段と、を備える情報処理装置である。
請求項１４に記載の発明は、情報処理装置として機能するコンピュータに、ユーザから受け付けた複数の対象画像の内容に関する内容情報を特定する機能と、インターネットメディアに掲載されている掲載画像の中から前記内容情報に基づく特定画像を選択する機能と、前記複数の対象画像の中から前記特定画像と類似する画像を抽出する機能と、を実現させるプログラムである。
請求項１５に記載の発明は、情報処理装置として機能するコンピュータに、ユーザから複数の対象画像を受け付ける機能と、インターネットメディアに掲載されている掲載画像の閲覧者による評価情報に基づいて、前記複数の対象画像の中から少なくとも一の画像を抽出する機能と、前記一の対象画像を前記価情報とともにユーザに提示する機能と、を実現させるプログラムである。

請求項１、１３、１４および１５の発明によれば、複数の対象画像の中から好評となり得る画像を抽出することが可能になる。
請求項２の発明によれば、内容を確認するために再生する必要がある動画から好評となり得る画像を抽出することができる。
請求項３の発明によれば、動画そのものから特定した内容情報に基づいて画像を抽出することができる。
請求項４の発明によれば、ユーザから取得した内容情報に基づいて画像を抽出することができる。
請求項５の発明によれば、特定した内容情報だけではなく、より広い概念に基づいて特定画像を特定することが可能になる。
請求項６の発明によれば、他の閲覧者の評価が反映された特定画像を特定することができる。
請求項７の発明によれば、予め定められた期間に流行している特定画像を特定することが可能になる。
請求項８の発明によれば、特定画像における特徴点を有する対象画像の抽出を行うことができる。
請求項９の発明によれば、好評なポーズを有する対象画像の抽出を行うことが可能になる。
請求項１０の発明によれば、好評な構図を有する対象画像の抽出を行うことが可能になる。
請求項１１の発明によれば、好評な色構成を有する対象画像の抽出を行うことが可能になる。
請求項１２の発明によれば、複数の特定画像での共通点を有する対象画像の抽出を行うことができる。

本実施形態の画像抽出システムの全体図である。本実施形態のサーバ装置の機能構成を示す図である。（Ａ）、（Ｂ）および（Ｃ）は、本実施形態の特定画像における特徴点の説明図である。本実施形態の画像抽出システムの動作フロー図である。複数のフレーム画像から抽出画像を抽出する具体例である。本実施形態において抽出画像を提示する際の画面構成例である。

以下、添付図面を参照して、本発明を実施するための形態について説明する。
［画像抽出システム１］
図１は、本実施形態の画像抽出システム１の全体図である。

図１に示すように、本実施形態の画像抽出システム１（情報処理システムの一例）は、ユーザが操作する端末装置１０と、端末装置１０から取得した複数の対象画像から少なくとも一の対象画像を抽出するサーバ装置２０と、を備える。そして、画像抽出システム１において、端末装置１０およびサーバ装置２０は、ネットワークを介して相互に情報通信が可能になっている。

また、ネットワークは、各装置の間のデータ通信に用いられる通信ネットワークであれば特に限定されず、例えばＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット等として良い。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用しても良い。また、各装置は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されても良い。

さらに、図１に示す例では、一つのサーバ装置２０が示されているが、サーバ装置２０は、単体のサーバマシンに限定されない。サーバ装置２０は、ネットワーク上に設けられた複数のサーバマシンに分散させてサーバ装置２０の機能を実現しても良い（いわゆるクラウド環境等）。

なお、図示を省略しているが、図１に示すネットワークには、ＳＮＳ等の各種のウェブサービスを提供する複数のサーバ装置が接続している。

そして、以下の説明では、例えばユーザが撮影した動画における複数の撮影シーンの中からユーザが少なくとも１つの撮影シーンの画像を抽出しようとする際に、他の人から好評を得られるような撮影シーンの画像の抽出をシステムが支援する例について説明する。

〔端末装置１０〕
端末装置１０は、ネットワークを介して外部と情報通信が可能な装置である。また、端末装置１０は、装置本体に搭載される撮像部によって撮影された画像を記憶したり、他の撮影機器等によって撮影された画像を記憶したりする装置である。
例えば、端末装置１０には、スマートフォンなどの携帯電話やタブレットＰＣなどの携帯型の端末機器や、デスクトップＰＣなどの設置型の端末機器などを用いることができる。また、端末装置１０には、ネットワークを介して外部と情報通信が可能であれば、動画を撮影するビデオカメラや静止画を撮影するスチルカメラ（以下、カメラと呼ぶ）を用いることができる。

〔サーバ装置２０〕
図２は、本実施形態のサーバ装置２０の機能構成を示す図である。
図２に示すように、サーバ装置２０は、端末装置１０から動画（複数の対象画像の一例）を受け付ける画像受付部２１と、動画の内容に関する内容情報を特定する内容情報特定部２２と、インターネットメディアに掲載される掲載画像の中から内容情報に基づいて特定画像を検索する検索部２３と、動画の中から特定画像と類似する画像を抽出する抽出部２４と、を備える。

（画像受付部２１）
画像受付部２１（受付手段の一例）は、端末装置１０を介してユーザから動画を受信する。動画は、予め端末装置１０に保存されていたものでも良いし、端末装置１０に接続されたリムーバブルメディア等の各種記憶媒体や、端末装置１０に接続されたカメラから取得されるものであっても良い。

（内容情報特定部２２）
内容情報特定部２２（内容特定手段の一例）は、画像受付部２１が受け付けた動画の内容に関する内容情報を特定する。そして、本実施形態の内容情報特定部２２は、テキスト化された内容情報を検索部２３に送る。
内容情報特定部２２は、動画を構成する複数のフレーム画像に対して画像解析を行うことで、動画の内容情報を特定する。本実施形態の内容情報特定部２２は、多数の解析用画像を記憶している。また、各々の解析用画像には、それぞれ画像の内容を示す情報がテキストによって関連付けられている。例えば、解析用画像としてのバスケットボールをプレイする選手の画像には、「バスケットボール」というテキストが関連付けられている。そして、内容情報特定部２２は、動画を構成する複数のフレーム画像と多数の解析用画像とのマッチングを行う。そして、内容情報特定部２２は、動画を構成するフレーム画像に合う解析用画像を特定し、特定した解析用画像のテキストを取得する。そして、内容情報特定部２２は、取得したテキストを、画像解析の対象となった動画の内容を示す内容情報とする。

なお、フレーム画像と解析用画像とのマッチングは、抽出部２４が行う後述の複数の対象画像の中から特定画像を抽出する際の方法を用いても良く、その他、既存のマッチング技術を用いることができる。

なお、動画を画像解析することで動画の内容情報をする場合には、機械学習による画像分類を用いることができる。例えば、画像の内容を示すテキストがそれぞれ紐付けられた複数の解析用画像であるデータ群（学習データセット）を用いて機械学習を行うことで、学習済みモデルを構築する。そして、学習済みモデルは、学習した分類ルールに基づいて、ユーザから受け付けた動画を分類する。この場合、内容情報特定部２２は、分類に関連付けられたテキストを、その画像の内容を示す内容情報として特定する。

また、内容情報特定部２２は、ユーザから動画の内容情報を直接的に取得しても良い。内容情報特定部２２は、画像受付部２１に動画が受け付けられる際に、ユーザから動画の内容情報を受け付ける。例えば、海に沈む夕日が撮影された動画の場合、ユーザは「海の夕日」というテキストを画像受付部２１に送る。内容情報特定部２２は、ユーザによって指定されたテキストを、動画の内容を示す内容情報として特定する。

（検索部２３）
検索部２３（選択手段の一例）は、内容情報特定部２２が特定した内容情報をキーワードとして、インターネットメディアの検索を行う。本実施形態において、インターネットメディアは、インターネット上で利用可能な情報媒体のことである。例えば、インターネットメディアとしては、ＳＮＳ（Social Networking Service）、電子掲示板、ブログ等を例示することができる。
そして、検索部２３は、インターネットメディアに掲載された掲載画像の中から、内容情報をテキスト化したキーワードに対応する掲載画像（以下、特定画像と呼ぶ）の検索を行う。

また、本実施形態の検索部２３は、内容情報特定部２２が特定した内容情報のみならず、内容情報を拡張した拡張内容情報を用いて、インターネットメディアの検索を行う。拡張内容情報は、内容情報としての概念を拡張したものである。例えば、拡張内容情報は、内容情報を言い換えた言葉、内容情報を他の言語に翻訳した言葉、内容情報から連想される言葉や、内容情報に類似する言葉などのことである。例えば、内容情報が「バスケットボール」である場合、検索部２３は、「バスケ」、「Ｂａｓｋｅｔｂａｌｌ」、「シュート」、「ダンク」などの言葉や、バスケットの有名な選手名などを拡張内容情報として特定する。

なお、検索部２３は、内容情報に基づいて拡張内容情報を特定する際、予めサーバ装置２０に記憶された辞書などの言語データベースを用いても良いし、インターネット上で利用可能な言語データベースを参照しても良い。

そして、検索部２３は、内容情報および拡張内容情報のキーワードに基づいて検索した特定画像に対する評価の情報の収集も行う。例えばＳＮＳなどにおいて、あるユーザが投稿した画像に対して、他のユーザからの評価を受け付ける機能が設けられている場合がある。このように、インターネットメディアに掲載された掲載画像に対して評価が行われている場合、検索部２３は、掲載画像とともに、その掲載画像の評価に関する評価情報を特定する。

また、例えば、特定画像を閲覧した閲覧者が肯定的な評価をした際に、評価に関するカウントが１つ増える仕組みである場合、評価は、カウント数の合計によって特定することができる。この場合、評価は、合計のカウント数が多いほど高くなる。
さらに、評価は、特定画像あるいは特定画像が表示されるウェブページ等へのアクセス数として特定しても良い。この場合、評価は、特定画像や特定画像が表示されるウェブページに対するアクセス数が多いほど高くなる。

（抽出部２４）
抽出部２４（抽出手段の一例、提示手段の一例）は、画像受付部２１にて受け付けられている複数の対象画像の中から、特定された特定画像と類似する対象画像の抽出を行う。本実施形態の抽出部２４は、複数の対象画像として動画を構成する複数のフレーム画像に対して、特定画像とのマッチングを行い、複数のフレーム画像のうち特定画像との類似度が最も高いフレーム画像を抽出する。そして、抽出部２４は、抽出した対象画像（以下、抽出画像と呼ぶ）を、本実施形態では端末装置１０の画面にてユーザに提示する。

そして、本実施形態の抽出部２４は、検索部２３が特定したインターネットメディアにおいて評価が高い特定画像と類似するフレーム画像の抽出を行う。この場合に、抽出部２４は、最も評価が高い特定画像や、その次に評価が高い特定画像など、複数の特定画像に基づいて動画から複数のフレーム画像を抽出しても良い。すなわち、抽出部２４は、異なる特定画像に基づいて、それぞれ異なるシーンのフレーム画像を動画から抽出する場合がある。

さらに、抽出部２４は、全ての期間ではなく、予め定められた期間に検索部２３によって集計された評価に基づいて特定された特定画像を用いて、抽出画像の抽出を行っても良い。例えば、検索部２３は、検索の時点から数ヶ月以内など、比較的最近に、高評価が得られている特定画像を特定する。そして、抽出部２４は、最近に高評価が得られた特定画像に類似する抽出画像を抽出する。

なお、抽出部２４は、画像を構成する色の分布に関するヒストグラムに基づいて、対象画像と特定画像との類似度を特定しても良い。この場合、抽出部２４は、ヒストグラムの類似度が高いほど、対象画像と特定画像との類似度が高いと判断する。

さらに、抽出部２４は、画像における特徴部分に基づいて、対象画像と特定画像との類似度を特定しても良い。つまり、抽出部２４は、特定画像の全体ではなく、一の部分に着目する。そして、抽出部２４は、特定画像における一の特徴部分に類似する部分を有する対象画像に対して、特定画像との類似度が高いと判断する。

また、抽出部２４は、画像における特徴点の距離に基づいて、対象画像と特定画像との類似度を特定しても良い。抽出部２４は、対象画像と特定画像とにおいて、それぞれ、共通する特徴点を複数検出する。さらに、抽出部２４は、特定画像における特徴点同士の距離を特定する。一方、抽出部２４は、対象画像における特徴点同士の距離を特定する。そして、抽出部２４は、対応する特徴点同士の距離の類似度が高いほど、対象画像と特定画像との類似度が高いと判断する。
なお、抽出部２４は、ヒストグラム、特徴部分および特徴点の距離の観点のうち、複数を組み合わせて、対象画像と特定画像との類似度の特定を行っても良い。

さらに、抽出部２４は、複数の対象画像から抽出する抽出画像の数の指定をユーザから受け付ける。なお、抽出部２４は、ユーザからの抽出画像の数の指定が無い場合には、予め定められた数（例えば、２枚など）の抽出を行う。

なお、例えばある同様なシーンを撮影した動画においては、類似するフレーム画像が複数存在することが想定される。この場合、抽出部２４は、類似する複数のフレーム画像のうち、予め定められた条件に基づいて、一のフレーム画像を選択する。予め定められた条件とは、例えばタイムライン上で最も時間が早いフレーム画像であることや、画像が最も鮮明であるものなど、各種の条件を用いることができる。

図３は、本実施形態の特定画像における特徴点の説明図である。
本実施形態の抽出部２４によって、複数の対象画像から特定画像に類似する対象画像の抽出を行う際に着目する特徴点について説明する。本実施形態において、抽出部２４は、特徴点として、（１）特定画像における人のポーズ、（２）特定画像における人または物の構図、および（３）特定画像の色構成、を条件に設定している。

（１）特定画像における人のポーズ
図３（Ａ）に示すように、特定画像Ｔ１において人が映っている場合には、抽出部２４は、その人のポーズ（姿勢）を特定する。そして、抽出部２４は、複数の対象画像のうち、特定画像における人のポーズに類似または一致するポーズを取る人が映っている対象画像を抽出画像として抽出する。
例えば、特定画像Ｔ１における特徴的な人のポーズとして、陸上競技の有名選手が優勝した際に行う特徴的なポーズｅ１を例示できる。この場合、抽出部２４は、複数の対象画像のうち、有名選手のポーズｅ１と類似または一致するポーズをする人が映っている対象画像を、例えば、他の画像要素の類似度が低い場合であっても、抽出画像として選択される順位を高くする。

（２）特定画像における人または物の構図
図３（Ｂ）に示すように、抽出部２４は、特定画像Ｔ２における人や物の構図を分析する。そして、抽出部２４は、複数の対象画像のうち、人や物の構図が類似または一致する対象画像を抽出する。
構造物と人と、構造物同士、人同士の位置関係によって、同じ被写体を撮った場合であっても、画像から得られる印象が大きく変わる。例えば、特定画像Ｔ２における特徴的な人および物の構図として、建物の手前側にて建物よりも小さく人が配置される構図ｅ２を例示できる。この場合、抽出部２４は、複数の対象画像のうち、人や物の構図ｅ２が類似または一致する対象画像を、例えば、他の箇所の類似度が低い場合であっても、抽出画像として選択する順位を高くする。

（３）特定画像の色構成
図３（Ｃ）に示すように、抽出部２４は、特定画像Ｔ３における色構成を分析する。そして、抽出部２４は、複数の対象画像のうち、色構成が類似または一致する対象画像を抽出する。
例えば、特定画像Ｔ３における特徴的な色構成として、夕焼けによる空の色の色構成ｅ３を例示できる。この場合、抽出部２４は、複数の対象画像のうち、色構成ｅ３が類似または一致する対象画像を、例えば、他の箇所の類似度が低い場合であっても、抽出画像として選択される順位を高くする。

なお、抽出部２４は、上述した（１）特定画像における人のポーズ、（２）特定画像における人または物の構図、および、（３）特定画像の色構成を、複数組み合わせることで、複数の対象画像からの抽出画像の抽出を行っても良い。

また、抽出部２４は、特定画像に対する評価にかかわらず、複数の特定画像に基づいて、複数の対象画像から一の対象画像の抽出を行っても良い。具体的には、あるキーワードに基づいて検索部２３によって複数の特定画像が検索結果として特定される。そして、抽出部２４は、複数の特定画像の画像解析を行い、複数の特定画像で共通する特徴点を分析する。そして、抽出部２４は、複数の対象画像のうち、共通する特徴点を有する対象画像を、抽出画像として抽出しても良い。

続いて、本実施形態の画像抽出システム１の動作について説明する。
図４は、本実施形態の画像抽出システムの動作フロー図である。

図４に示すように、画像受付部２１は、端末装置１０を介してユーザからビデオカメラによって撮影された動画を受け付ける（Ｓ１０１）。
さらに、画像受付部２１は、ユーザから動画の内容情報を取得しているか否かを判断する（Ｓ１０２）。ユーザから動画の内容情報を取得している場合（Ｓ１０２にてＹＥＳ）には、ステップ１０４に進む。
一方、ユーザから動画の内容情報を取得していない場合（Ｓ１０２にてＮＯ）には、内容情報特定部２２は、受け付けた動画の動画解析に基づいて動画の内容情報を特定する（Ｓ１０３）。

そして、検索部２３は、内容情報特定部２２が特定した内容情報、または、ユーザから受け付けた内容情報に基づいて、拡張内容情報を特定する（Ｓ１０４）。
さらに、検索部２３は、内容情報および拡張内容情報のキーワードを用いて、インターネットメディアの検索を行う（Ｓ１０５）。その結果、検索部２３は、インターネットメディアの検索結果から特定画像を特定する（Ｓ１０６）。

その後、抽出部２４は、動画を構成する複数のフレーム画像の中から、特定画像に類似する対象画像を抽出する（Ｓ１０７）。
また、抽出部２４は、ユーザから抽出画像を抽出する枚数の指定があるか否かを判断する（Ｓ１０８）。そして、ユーザから枚数の指定がある場合（Ｓ１０８でＹＥＳ）には、ユーザが指定する枚数の抽出画像を端末装置１０の画面１００にて提示する（Ｓ１０９）。一方、ユーザから抽出枚数の指定がない場合（Ｓ１０８でＮＯ）には、予め定められた枚数の抽出画像を端末装置１０の画面１００にて提示する（Ｓ１１０）。

図５は、複数のフレーム画像から抽出画像を抽出する具体例である。
図６は、本実施形態において抽出画像を提示する際の画面構成例である。
続いて、複数のフレーム画像から抽出画像を抽出する具体例について説明する。
図５に示すように、ユーザから受け付けた動画を構成する複数のフレーム画像がある。図５に示す例では、動画は、ストリートダンスを撮影したものである。さらに、動画を構成する、複数のフレーム画像として、４枚のフレーム画像（Ｆ１、Ｆ２、Ｆ３およびＦ４）を代表例として示している。なお、図５においては、便宜的に４枚のフレーム画像だけを示しているが、他にもフレーム画像が存在する。

そして、この例では、動画の内容情報および拡張内容情報に基づいて、インターネットメディアの検索が行われる。まず、ストリートダンスの動画の動画解析によって、内容情報は、「ストリートダンス」であると特定される。さらに、「ストリートダンス」の拡張内容情報は、「ヒップホップ」、「フロアムーブメントダンス」および「ハンドスタンド」であると特定される。

さらに、特定された内容情報および拡張内容情報をキーワードとするインターネットメディアの検索によって、図５に示すように、特定画像Ａ、特定画像Ｂおよび特定画像Ｃが特定される。なお、インターネットメディアにおいて閲覧者による評価数は、特定画像Ｃ、特定画像Ｂ、特定画像Ａの順に多くなっている。この例では、特定画像Ａは、１０，０００ｇｏｏｄ！という評価のカウント数が得られている。特定画像Ｂは、７，０００ｇｏｏｄ！という評価のカウント数が得られている。さらに、特定画像Ｃは、５，０００ｇｏｏｄ！という評価のカウント数が得られている。

そして、複数のフレーム画像から、特定画像Ａ、特定画像Ｂ、または、特定画像Ｃに類似するフレーム画像の抽出が行われる。なお、この例では、ユーザから２つの画像を抽出することが指定されているとする。
図５に示す例では、特定画像Ａに類似する対象画像として、フレーム画像Ｆ１が抽出画像として抽出される。同様に、図５に示す例では、特定画像Ｃに類似する対象画像として、フレーム画像Ｆ４が抽出画像として抽出される。

そして、図６に示すように、抽出画像は、端末装置１０の画面１００に表示される。本実施形態では、端末装置１０の画面１００には、２つの抽出画像として、フレーム画像Ｆ１およびフレーム画像Ｆ４が表示される。さらに、２つの抽出画像には、抽出の元となった特定画像に対する評価情報１１０がそれぞれ表示される。具体的には、評価情報１１０として、インターネットメディアにおける評価のカウント数が表示される。

また、図６に示す例では、特定画像を検索するための検索キーワード１２０が表示される。例えば、ユーザは、動画の分析によって特定された内容情報および拡張内容情報のキーワードが、ユーザの想定内容と異なる場合には、改めて、ユーザが内容情報の入力を行い、キーワードを変更するようにしても良い。

さらに、画面１００には、抽出された抽出画像の選択（クリック）を行うことで、抽出画像を静止画として端末装置１０にダウンロード可能である指示ボタン１３０も表示される。

以上説明したように、本実施形態の画像抽出システム１では、ユーザの動画から、インターネットメディアにおいて特定された特定画像に基づく抽出画像の抽出が行われる。

なお、上述した例では、複数の対象画像として、動画を構成する複数のフレーム画像を受け付けているが、この例に限定されない。例えば、画像受付部２１は、複数の対象画像として、カメラによって撮影された複数の静止画を受け付けても良い。この場合においても、複数の静止画から、インターネットメディアにおいて特定された特定画像に基づく抽出画像の抽出が行われる。

続いて、本実施形態の端末装置１０およびサーバ装置２０のハードウェア構成について説明する。
本実施形態の端末装置１０およびサーバ装置２０は、それぞれ、演算手段であるＣＰＵ（Central Processing Unit）、主記憶手段であるメモリ、磁気ディスク装置（ＨＤＤ：Hard Disk Drive）、ネットワークインターフェイス、ディスプレイ装置を含む表示機構、音声機構、および、キーボードやマウス等の入力デバイス等を備える。
そして、磁気ディスク装置には、ＯＳのプログラムやアプリケーション・プログラムが格納されている。そして、これらのプログラムがメモリに読み込まれてＣＰＵに実行されることにより、本実施形態のサーバ装置２０の各々における各機能部の機能が実現される。
さらに、本実施形態の画像抽出システム１における一連の動作を端末装置１０やサーバ装置２０にてそれぞれ実現させるプログラムは、例えば通信手段により提供することはもちろん、各種の記録媒体に格納して提供しても良い。

なお、本実施形態の画像抽出システム１において行われる一連の機能を実現するための構成は、上述した例に限定されない。例えば、上述した実施形態においてサーバ装置２０が実現する機能は、全てサーバ装置２０によって実現される必要はなく、例えば端末装置１０が一部または全部の機能を実現しても良い。

１…画像抽出システム、１０…端末装置、２０…サーバ装置、２１…画像受付部、２２…内容情報特定部、２３…検索部、２４…抽出部、１００…画面、１１０…評価情報、１２０…検索キーワード、１３０…指示ボタン

Claims

ユーザから複数の対象画像を受け付ける受付手段と、
前記複数の対象画像の内容に関する内容情報を特定する内容特定手段と、
インターネットメディアに掲載されている掲載画像の中から前記内容情報に基づく特定画像を選択する選択手段と、
前記複数の対象画像の中から前記特定画像と類似する画像を抽出する抽出手段と、
を備える情報処理システム。
前記複数の対象画像は、動画を構成する複数のフレーム画像であり、
前記抽出手段は、前記複数のフレーム画像の中から前記特定画像と類似するフレーム画像を抽出する請求項１に記載の情報処理システム。
前記内容特定手段は、前記動画の画像解析から前記内容情報を得る請求項２に記載の情報処理システム。
前記内容特定手段は、前記ユーザから前記動画の前記内容情報を取得する請求項２に記載の情報処理システム。
前記選択手段は、前記掲載画像の中から、前記内容特定手段が特定した前記内容情報を拡張した拡張情報に対応する特定画像を選択する請求項１乃至４のいずれか１項に記載の情報処理システム。
前記選択手段は、前記掲載画像の中から、前記掲載画像の閲覧者による当該掲載画像に対する評価に基づいて前記特定画像を選択する請求項１に記載の情報処理システム。
前記選択手段は、前記掲載画像の中から、予め定められた期間に集計された前記評価に基づいて前記特定画像を選択する請求項６に記載の情報処理システム。
前記抽出手段は、前記特定画像の特徴点を有する画像を前記複数の対象画像の中から抽出する請求項１に記載の情報処理システム。
前記抽出手段は、前記特徴点として前記特定画像における人のポーズを用いる請求項８に記載の情報処理システム。
前記抽出手段は、前記特徴点として前記特定画像における人または物の構図を用いる請求項８に記載の情報処理システム。
前記抽出手段は、前記特徴点として前記特定画像の色構成を用いる請求項８に記載の情報処理システム。
前記抽出手段は、複数の前記特定画像の共通点を有する画像を前記複数の対象画像の中から抽出する請求項１に記載の情報処理システム。
ユーザから複数の対象画像を受け付ける受付手段と、
インターネットメディアに掲載されている掲載画像の閲覧者による評価情報に基づいて、前記複数の対象画像の中から少なくとも一の画像を抽出する抽出手段と、
前記一の対象画像を前記価情報とともにユーザに提示する提示手段と、
を備える情報処理装置。
情報処理装置として機能するコンピュータに、
ユーザから受け付けた複数の対象画像の内容に関する内容情報を特定する機能と、
インターネットメディアに掲載されている掲載画像の中から前記内容情報に基づく特定画像を選択する機能と、
前記複数の対象画像の中から前記特定画像と類似する画像を抽出する機能と、
を実現させるプログラム。
情報処理装置として機能するコンピュータに、
ユーザから複数の対象画像を受け付ける機能と、
インターネットメディアに掲載されている掲載画像の閲覧者による評価情報に基づいて、前記複数の対象画像の中から少なくとも一の画像を抽出する機能と、
前記一の対象画像を前記価情報とともにユーザに提示する機能と、
を実現させるプログラム。