JP7340992B2 - 画像管理装置およびプログラム - Google Patents

画像管理装置およびプログラム Download PDF

Info

Publication number
JP7340992B2
JP7340992B2 JP2019153510A JP2019153510A JP7340992B2 JP 7340992 B2 JP7340992 B2 JP 7340992B2 JP 2019153510 A JP2019153510 A JP 2019153510A JP 2019153510 A JP2019153510 A JP 2019153510A JP 7340992 B2 JP7340992 B2 JP 7340992B2
Authority
JP
Japan
Prior art keywords
cluster
unit
image
face
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019153510A
Other languages
English (en)
Other versions
JP2021033664A (ja
Inventor
秀樹 吉岡
和代 細谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019153510A priority Critical patent/JP7340992B2/ja
Publication of JP2021033664A publication Critical patent/JP2021033664A/ja
Application granted granted Critical
Publication of JP7340992B2 publication Critical patent/JP7340992B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像管理装置およびプログラムに関する。
動画像に含まれる顔を自動的に認識することにより、低コストで、動画像コンテンツに関するメタデータを蓄積できるようにすることが望まれる。
特許文献1の例えば請求項1には、顔を認識するための顔認識装置に顔のデータを送信する顔検出装置が記載されている。その顔検出装置において、分類部は、動画像を構成するフレームに含まれる顔画像の特徴データを比較することにより、同一人物の特徴データが一つのグループになるように、人物ごとの分類を行っている。
特開2017-182210号公報
しかしながら、幅広い動画コンテンツを対象として大量の人物の情報を蓄積するためには、顔認識処理のためのモデルの精度を向上させる必要がある。通常は、対象とする人物の数が増えれば増えるほど、例えば似た顔を正しく判別することが困難になる。顔認識処理のためのモデルの精度を向上できないと、顔認識処理によるエラー率が高くなってしまうという問題がある。
本発明は、上記の課題認識に基づいて行なわれたものであり、顔認識処理の精度を上げながら、多人数の顔画像の特徴量の情報を蓄積したり、動画コンテンツ内で検出された顔の識別結果の情報を蓄積したりすることのできる画像管理装置およびプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による画像管理装置は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、を備える。
[2]また、本発明の一態様は、上記の画像管理装置において、前記クラスタリング部は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ち、第2段階以後の前記段階クラスタリング部は、1つ前の前記段階クラスタリング部から出力されたクラスターの前記顔画像を対象としてクラスタリング処理を行う、ものである。
[3]また、本発明の一態様は、上記の画像管理装置において、前記人物データベースに登録されている前記画像特徴量に基づいて、複数のクラスターを1つのクラスターに統合する名寄せ処理部、をさらに備えるものである。
[4]また、本発明の一態様は、上記の画像管理装置において、前記人物データベースは、クラスターに付与するタグを前記クラスターと関連付けて記憶するものであり、タグが設定されていない前記クラスターについて、新たなタグを設定する処理を行うタグ設定部をさらに備える、ものである。
[5]また、本発明の一態様は、上記の画像管理装置において、前記顔認識処理部は、前記動画コンテンツのフレーム間における画素値の変化量がピークとなるカット点で区切った時間区間ごとにフレーム間で前記顔画像を追跡し、追跡結果に基づいて前記クラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、前記認識結果としてクラスターの情報を出力する、ものである。
[6]また、本発明の一態様は、上記の画像管理装置において、前記人物データベースは、さらに、前記時間区間と前記クラスターとを関連付けた情報を記憶する、ものである。
[7]また、本発明の一態様は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、を備える画像管理装置としてコンピューターを機能させるためのプログラムである。
本発明によれば、動画内における顔の認識率を高めながら、動画コンテンツに含まれる顔画像に関する大量の情報を蓄積することが可能となる。
本発明の実施形態による画像管理装置の概略機能構成を示すブロック図である。 同実施形態において、仮クラスターの情報を記憶する仮クラスター記憶部のデータ構成例を示す概略図である。 同実施形態によるクラスター選択部の処理の概略を示す概略図である。 同実施形態による人物データベースが保持する人物データ(名寄せ前)の構成例を示す概略図である。 同実施形態による人物データベースが保持する人物データ(名寄せ後)の構成例を示す概略図である。 同実施形態による人物データベースが保持する人物データ(新規タグ付与後)の構成例を示す概略図である。 同実施形態による人物データベースが保持する人物データ(名寄せ前)の構成例(別形態)を示す概略図である。 同実施形態による人物データベースが保持する人物データ(名寄せ後)の構成例(別形態)を示す概略図である。 同実施形態による人物データベースが保持する人物データ(新規タグ付与後)の構成例(別形態)を示す概略図である。 同実施形態における、2段階クラスタリングの処理の概要を示す概略図である。 同実施形態における、2段階のクラスタリング処理によって分類される顔画像の例を示す概略図である。 同実施形態における、カット単位顔認識処理部の処理を説明するための概略図である。 同実施形態における出演情報の構成例を示す概略図である。 同実施形態による画像管理装置の処理手順を示すフローチャートである。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本実施形態による画像管理装置の概略機能構成を示すブロック図である。符号1は、画像管理装置である。図示するように、画像管理装置1は、動画コンテンツ取得部11と、顔検出処理部12と、クラスタリング部13と、仮クラスター管理部16と、仮クラスター記憶部17と、特定コンテンツ用顔画像学習部18と、特定コンテンツ用顔認識モデル19と、カット単位顔認識処理部20と、クラスター選択部21と、人物データ登録部22と、人物データベース23と、出演者データ記憶部24と、タグ設定部25とを含んで構成される。なお、クラスタリング部13は、第1クラスタリング部14と、第2クラスタリング部15とを含む。
これらの各機能部は、例えば、電子回路を用いて実現可能である。また、各機能部を、コンピューターと、プログラムとで実現することも可能である。例えばコンピューターを用いて画像管理装置1を実現する場合、画像管理装置1が持つすべての機能を1台のコンピューターが持つようにしてもよいし、複数のコンピューター等に機能を分散させてもよい。複数のコンピューターは、相互に通信可能とする。また、画像管理装置1が持つ機能の一部をいわゆるクラウドサーバーで実現してもよい。各機能部は、必要に応じて、記憶手段を有する。記憶手段としては、例えば、半導体メモリーや磁気ハードディスク装置などといったものを用いることができる。各部の機能は、以下に説明する通りである。
動画コンテンツ取得部11は、動画コンテンツを取得する。動画コンテンツは、時系列のフレーム画像を含む。動画コンテンツ取得部11は、例えば、放送信号を受信して、放送信号内に含まれる動画コンテンツを取得する。また、動画コンテンツ取得部11が、通信ネットワークを介して外部の配信サーバー装置から動画コンテンツを取得したり、磁気ハードディスク装置や光ディスク等の記録媒体に記録された動画コンテンツを読み取ったりするようにしてもよい。
顔検出処理部12は、動画コンテンツ取得部11が取得した動画コンテンツのフレーム画像内に含まれる顔画像を検出する。顔検出処理部12は、例えば、検出した顔画像の領域の画像を切り出して、クラスタリング部13に渡す。顔検出処理部12は、必要に応じて、切り出す顔画像のサイズ(縦および横の画素数)を正規化してもよい。なお、顔画像検出の技術自体は、既存技術を利用できる。顔検出処理部12は、顔らしさを表すモデルを参照することによって、画像内の顔を検出する。
クラスタリング部13は、顔検出処理部12から渡された顔画像の特徴量に基づくクラスタリングを行う。顔画像の特徴量は、顔画像内の、あるいは顔画像内の一部領域の、画素値の配置のパターンあるいは画素値が属する範囲の配置のパターン等に基づく。顔画像の特徴量は、顔の輪郭や顔に含まれるパーツの形状や、それらの相対的な位置関係や、パーツごとのサイズや、色(画素値)の分布や、その他の要素を反映したものである。特徴量は、例えば、多次元のベクトルで表現され得る。本実施形態では、多段階のクラスタリングを行う。具体的には、クラスタリング部13は、第1クラスタリング部14と、第2クラスタリング部15とを備える。つまり、顔検出処理部12から渡される顔画像群を、まず第1クラスタリング部14がクラスタリングし、第1クラスタリング部14から出力される画像群を、さらに第2クラスタリング部15がクラスタリングする。こういった多段階のクラスタリング処理により、クラスターに含まれるノイズを除去する作用があり、クラスターの精度が上がる。なお、クラスタリング処理の段階数は、2に限らず、1または3以上であってもよい。クラスタリング処理の詳細については後述する。
なお、第1クラスタリング部14と第2クラスタリング部15とは、同一の回路あるいはプログラムモジュールを、異なるパラメーターで動作させることによって実現するようにしてもよい。
仮クラスター管理部16は、クラスタリング部13から出力されるクラスター(ここでは「仮クラスター」と呼ぶ)の情報を管理する。具体的には、仮クラスター管理部16は、仮クラスターを識別する情報と、仮クラスターごとの特徴量に関する情報を、仮クラスター記憶部17に書き込む。特徴量の情報として、特徴量の統計情報(例えば、平均値や分散値)を含んでもよい。
仮クラスター記憶部17は、上記の仮クラスターの情報を記憶するものである。仮クラスター記憶部17は、仮クラスターを識別する情報と、仮クラスターの特徴量の情報とを相互に関連付けて記憶する。仮クラスター記憶部17が記憶するデータの構成については、後で別の図を参照しながら説明する。なお、仮クラスター記憶部17が、仮クラスターの特徴量の情報を持つ代わりに、仮クラスターに属する顔画像群そのものを記憶するようにしてもよい。また、仮クラスター記憶部17が、仮クラスターごとに、仮クラスターの特徴量の情報と、仮クラスターに属する顔画像群との両方を記憶するようにしてもよい。
特定コンテンツ用顔画像学習部18は、仮クラスター記憶部17から仮クラスターの識別情報と特徴量の情報とを読み出し、それらを教師データとして機械学習を行うことによって、仮クラスター識別情報と画像特徴量との関係を表すモデルを構築する。ここで構築されるモデルは、特定コンテンツ(現在、処理対象としている動画コンテンツ)用のモデルである。特定コンテンツ用顔画像学習部18は、例えば、ニューラルネットワークを用いた機械学習を行う。
特定コンテンツ用顔認識モデル19は、特定コンテンツ用顔画像学習部18によって構築されるモデルである。ニューラルネットワークを用いたモデルである場合、特定コンテンツ用顔認識モデル19は、具体的には、ニューラルネットワーク内の各ノードにおける演算用パラメーターの値を記憶している。前述の通り、この特定コンテンツ用顔認識モデル19は、特定コンテンツ(現在、処理対象としている動画コンテンツ)用のモデルである。
カット単位顔認識処理部20は、動画コンテンツ取得部11から渡される動画コンテンツに関して、カット単位で、動画コンテンツに含まれる顔を認識する処理を行う。カットは、動画の撮影用のカメラを切り替えたり、シーンが変わったりする単位である。カット単位顔認識処理部20は、上記の特定コンテンツ用顔認識モデル19を参照することによって、動画コンテンツ内に含まれる顔画像がどのカテゴリーに属するものであるかを判定し、カットを特定する情報と関連付ける形で、そのカテゴリーの情報を出力する。
クラスター選択部21は、仮クラスター記憶部17に登録されたクラスター(仮クラスター)のうち、カット単位顔認識処理部20が認識結果として出力したクラスター(「使用クラスター」と呼ぶ)を選択して出力する。クラスター選択部21は、選択したクラスターの情報を、人物データ登録部22に渡す。クラスター選択部21が渡すクラスターの情報には、少なくとも、クラスターを識別する情報と、クラスターの特徴量の情報とを含む。
人物データ登録部22は、クラスター選択部21から渡されるクラスターの情報を、人物データベース23に登録する。
人物データベース23は、動画コンテンツ内に登場する人物に関する情報を蓄積するためのデータベースである。人物データベース23は、クラスターを識別する情報と、クラスターの画像特徴量の情報と、クラスターに付与されるタグ(例えば、人名等)と、必要に応じてクラスターの他の属性情報とを、相互に関連付けて記憶する。さらに、人物データベース23が、クラスターを識別する情報に関連付けて、当該クラスターに属する顔画像群そのものを持つようにしてもよい。人物データベース23内に、あるいは人物データベース23内の情報と関連付けて、顔画像群を保持するための具体的な方法の一例は、次の通りである。即ち、人物データベース23内に、クラスターを識別する情報と関連付けて、数枚の(例えば、2~3枚の)代表顔画像を保持する。また、当該クラスターに関連付けて、さらに多くの顔画像群を保存する場所の情報を保持する。この「場所の情報」とは、例えば、ファイルシステム内のフォルダーを特定する名前や、それと同等のURL(ユニフォームリソースロケーター)等である。そのフォルダー等では、顔画像群のデータを例えばJPEG形式等の画像ファイル群として保持してもよいし、ZIP形式等の圧縮ファイル内にそれら画像ファイル群を保持するようにしてもよい。なお、上記のように数枚の代表顔画像を人物データベース23が直接持つようにした場合には、ユーザーが人物データベース23を検索した際にそれらの顔画像をすばやく閲覧することもできる。
また、人物データベース23が、さらに、出演情報を蓄積するようにしてもよい。出演情報は、どの動画コンテンツのどのシーン(カット)に、どの人物が出演していたかを表す情報である。つまり、出演情報は、コンテンツを識別する情報と、シーン(カット)を識別する情報と、出演者(クラスター)を識別する情報とを相互に関連付けて記憶するものである。
人物データベース23は、名寄せ処理を行う機能を持つ。名寄せ処理は、人物データベースに登録されている複数のクラスターが、実際には同一のクラスターである(つまり、同一の人物の特徴量を表す)場合に、それら複数のクラスターを統合して、1つのクラスターとする処理である。名寄せ処理は、典型的には、新たに登録されたクラスターと既存のクラスターとがある場合に、それらのクラスターのうちの同一人物を表すデータを一つのクラスターに統合するために行われる。人物データベース23は、例えば、特徴量の類似性に基づいてクラスターの名寄せ処理を行う。
人物データベース23の詳細については、後で別の図を参照しながらさらに説明する。
出演者データ記憶部24は、画像管理装置1が処理対象とする動画コンテンツに出演する人物の情報を記憶するものである。出演者データ記憶部24は、例えば、動画コンテンツごとに、出演者の名前(人名)等を記憶する。この動画コンテンツごとの出演者のデータは、動画コンテンツの映像(画像)から抽出される情報ではなく、別途外部から与えられる情報である。
タグ設定部25は、出演者データ記憶部24が記憶する人名の情報を参照しながら、人物データベース23内の、タグ(人名等)がまだ付与されていないクラスターに、タグを設定する。タグ設定部25は、ユーザーによる操作に基づいて、どのクラスターにどのタグを付与するかを決定するようにしてよい。つまり、タグ設定部25は、ユーザーインターフェースを持つ。タグ設定部25は、そのユーザーインターフェースを通して、出演者データ記憶部24に記憶されている出演者のリストをユーザーに提示する。そして、ユーザーによって選択された特定の出演者の名前、あるいはユーザーによって新たに入力された出演者の名前を、タグとして、人物データベース23内の特定のクラスターに設定する。
図2は、クラスタリング部13による処理の結果として得られる仮クラスターの情報を記憶する仮クラスター記憶部17のデータ構成例を示す概略図である。図示するように、仮クラスター記憶部17は、例えば、表形式のデータを記憶する。仮クラスター記憶部17は、仮クラスター識別情報と、特徴量情報とを、相互に関連付けて記憶する。仮クラスター識別情報は、個々の仮クラスターを識別するための情報である。なお、前述のように仮クラスター記憶部17が顔画像群そのものの情報をも持つ場合には、仮クラスター記憶部17は、仮クラスター識別情報と、それらの顔画像群の情報とを、関連付けて記憶する。図示する例では、仮クラスター識別情報は、例えば、「A」、「B」、「C」等である。特徴量情報は、各クラスターの、画像に関する特徴を表す情報である。特徴量情報は、特徴量を統計的に処理したデータ(例えば、ある量の平均値や分散値等)であってもよい。つまり、仮クラスター記憶部17は、仮クラスターごとの特徴を表す情報を記憶する。
図3は、クラスター選択部21による処理の概略を示す概略図である。図示するように、クラスター選択部21は、ある特定のコンテンツを対象として、抽出された仮クラスターの集合の中から、カット単位顔認識処理部20による顔認識の結果として使用されたクラスターの集合を選択する。クラスター選択部21は、選択結果であるクラスターの集合の情報を、人物データ登録部に渡す。図示する例では、クラスター選択部21は、仮クラスター記憶部17から、仮クラスターA、B、およびCを読み出す。また、クラスター選択部21は、カット単位顔認識処理部20から、動画コンテンツを顔認識処理することよって抽出したクラスターであるクラスターAおよびBの情報を受け取る。そして、クラスター選択部21は、仮クラスター記憶部17から読み出した仮クラスターA、B、およびCのうち、カット単位顔認識処理部20から渡されたクラスターであるクラスターAおよびBの情報のみを選択する。クラスター選択部21は、選択されたクラスターAおよびBの情報を、人物データ登録部22に渡す。つまり、この例では、クラスターCは仮クラスターとして抽出されていたが、顔認識においてクラスターCが認識されてなかったため、クラスター選択部21は、クラスターCを選択せずに捨てる。なお、カット単位顔認識処理部20が出力したクラスターを「使用クラスター」と呼ぶ場合がある。仕様クラスターは、動画内で使用されていたことが検出されたクラスターである。
図4、図5、図6は、人物データベース23が保持する人物データ(クラスターデータ)の構成例を示す概略図である。図示するように、人物データは、表形式のデータであり、クラスター識別情報と、特徴量情報と、タグと、属性情報(人物属性等)との各項目を有する。
図4は、新たなクラスターが登録され、それらの新たなクラスターと既存のクラスターとの名寄せの処理がまだ行われていない状態における人物データを示す。図示するように、この人物データは、クラスター識別情報として、A、B、X、およびYを含んでいる。これらのうち、クラスターXおよびYは、既存のクラスターである。クラスターAおよびBは、新たに登録されたクラスターである。すべてのクラスターは、特徴量の情報を持っている。特徴量の情報は、例えば、特徴量の平均値や分散値といった統計情報を含む。また、前述の通り、人物データベース23が、顔画像の特徴量のデータとともに、顔画像そのもののデータを持つようにしてもよい。既存のクラスターであるクラスターXおよびYには、既にタグが付与されている。ここで、タグは、各クラスターに対応する人名である。クラスターAおよびBには、まだタグが設定されていない。
図5は、図4に示した状態から、名寄せ処理が行われた後の状態における人物データを示す。図4におけるクラスターAが、名寄せ処理によって既存のクラスターXと統合されたために、図5のデータでは、クラスターAの行が存在しない。クラスターBは、名寄せ処理によって既存のクラスターと統合されなかった(名寄せすべき既存のクラスターが存在しなかった)ために、図5のデータにおいてもクラスターBの行は残っている。この状態において、クラスターBの行では、タグは依然未設定である。
図6は、図5に示した状態から、タグ付与の処理が行われた後の状態における人物データを示す。前述の通り、タグ設定部25が、新規クラスターに対するタグの設定を行う。
上記のように、名寄せ処理(図5)およびタグ設定の処理(図6)によって、新規に登録されたクラスターにもタグ情報(人名の情報)が関連付けられる。
図4、図5、図6で示したデータを、別の形態で構成するようにしてもよい。
図7、図8、図9は、人物データベース23が保持する人物データ(クラスターデータ)の別の構成例を示す概略図である。これらの図に示す構成では、タグ(人物に対応)に関するデータと、画像のクラスターに関するデータとを、それぞれ別のテーブルに格納し、それら両者間を関連付けることができるようにしている。
図7は、新たなクラスターが登録され、それらの新たなクラスターと既存のクラスターとの名寄せの処理がまだ行われていない状態における人物データを示す。図示するデータでは、クラスターA、B、X、およびYを含んでいる。これらのうち、クラスターXおよびYは、既存のクラスターである。クラスターAおよびBは、新たに登録されたクラスターである。すべてのクラスターは、特徴量の情報を持っている。この形態のデータにおいても、人物データベース23が、顔画像の特徴量のデータとともに、顔画像そのもののデータを持つようにしてもよい。なお、クラスターXおよびYのそれぞれには、タグの情報が関連付けられている。タグの情報は、タグそのものの情報(例えば、名前)と、属性情報(人物属性等)を持つ。また、タグの情報と、クラスターとの情報との関連付けは、一例として、図示するように、タグの情報がクラスター識別情報を持つことにより実現される。
図8は、図7に示した状態から、名寄せ処理が行われた後の状態における人物データを示す。図7においてクラスターXのみに関連付けられていたタグの情報は、名寄せ処理により、図8ではクラスターAにも関連付けられている。クラスターBは、名寄せすべき既存のクラスターが存在しなかったために、図8のデータにおいてもクラスターBにはタグの情報が関連付けられていない。つまり、この状態において、クラスターBには、タグは依然未設定である。図8に示すデータ表現では、クラスターAおよびXは、テーブル上ではデータとして統合されていない。言い換えれば、クラスターAおよびXのそれぞれの情報は、図8に示すデータにおいても、失われていない。これは、図8のデータの表現が図5のデータの表現と異なる点である。
図9は、図8に示した状態から、タグ付与の処理が行われた後の状態における人物データを示す。図9においては、クラスターBにもタグの情報が関連付けられている。前述の通り、タグ設定部25が、新規クラスター(クラスターB)に対するタグの設定を行う。
上記のように、名寄せ処理(図8)およびタグ設定の処理(図9)によって、新規に登録されたクラスターにもタグ情報(人名の情報)が関連付けられる。
次に、画像管理装置1が持つ特徴的な処理の詳細について、さらに説明する。
図10は、クラスタリング部13による2段階クラスタリングの処理の概要を示す概略図である。図示するように、クラスタリング対象画像群は、第1段階のクラスタリングおよび第2段階のクラスタリング処理により、複数のクラスターに分類される。第1クラスタリング部14が第1段階のクラスタリングを行い、第2クラスタリング部15が第2段階のクラスタリングを行う。同図において、符号301は、クラスタリング前の画像群である。符号302は、第1段階のクラスタリングの結果である。第1段階のクラスタリングの結果として、クラスター1、2、3に分類されている。符号303は、第2段階のクラスタリングの結果である。第2段階のクラスタリングの結果として、元のクラスター1が、クラスター1と4の2つのクラスターに分類されている。元のクラスター2および3のそれぞれは、そのまま、それぞれクラスター2および3として残っている。
第1段階および第2段階のクラスタリング処理では、ともに、例えばDBSCAN(Density-based spatial clustering of applications with noise)を使用する。第1段階と第2段階とでは、異なるパラメーターを使用する。第1段階のクラスタリングでは、探索範囲を広く設けて、荒い粒度での分類を行うようにする。また、第2段階のクラスタリングでは、探索範囲を狭く設けて再分類することにより、精度の改善を図る。このように2段階でクラスタリングを実施することにより、ノイズの混入を削減することができる。ここでのノイズとは、あるクラスターが特定の人物の顔画像だけで構成されず、他の人物の顔画像が混入することである。このように顔画像クラスターの制度を改善することは、顔認識処理用の顔認識モデル(特定コンテンツ用顔認識モデル19)の精度の向上につながる。つまり、カット単位顔認識処理部20による顔認識処理の精度の向上につながる。
図11は、2段階のクラスタリング処理によって分類される顔画像の例を示す概略図である。同図において、(A)は、第1段階のクラスタリングの結果として得られたクラスター1に属する画像群を示す。また、(B)は、第2段階のクラスタリングの結果として得られたクラスター1に属する画像群を示す。また、(C)は、第2段階のクラスタリングの結果として得られたクラスター4に属する画像群を示す。前述の通り(図10)、第1段階におけるクラスター1(A)が、第2段階におけるクラスター1(B)とクラスター4(C)に分類されている。つまり、(A)において、画像311から315までは同一人物の顔画像であり、画像316および317がノイズとしてクラスター1に混入している。そして、第2段階のクラスタリング処理の結果として、(B)のクラスター1が画像311から315までを含み、(C)のクラスター4が画像316および317を含むように分類されている。つまり、第2段階のクラスタリングにより、クラスター1から、ノイズである画像316および317が、クラスター4として分離されている。
図12は、カット単位顔認識処理部20による処理を説明するための概略図である。同図は、カット単位で顔認識処理を行った場合の認識結果と、一定時間間隔ごと(例として、1秒ごと)に顔認識処理を行った場合の認識結果とを、対比して示している。同図において、(A)は、カット単位での顔認識処理(カット単位顔認識処理部20が処理する方式)の結果である。(B)は、比較対象であり、秒単位(1秒ごと)での顔認識処理の結果である。
既に述べたように、カット単位顔認識処理部20は、動画をカット単位に分割して、そのカットの中で人物を追跡しながら顔認識処理を行う。カット検出のために、カット単位顔認識処理部20は、例えば、カラーヒストグラムの変化量を参照する。具体的には、カット単位顔認識処理部20は、例えば、認識対象とする動画の各フレームのカラーヒストグラムを算出する。そのため、カット単位顔認識処理部20は、各フレームのRGBの各原色の値の範囲ごとの画素頻度を求める。一例として、カット単位顔認識処理部20は、1つのフレームにおいて、R(赤)チャンネルの値が0%以上且つ25%未満、25%以上且つ50%未満、50%以上且つ75%未満、75%以上且つ100%以下の、4つの範囲のそれぞれに属する画素数をカウントする。G(緑)チャンネルとB(青)チャンネルについてもこれと同様の処理を行う。カット単位顔認識処理部20は、そのようにして求めたフレームごとのカラーヒストグラムの、時間方向の変化量を隣接するフレーム間で求める。この変化量が特異に一時的に上昇するポイントが動画内で現れるが、カット単位顔認識処理部20は、その箇所をカット点として検出する。
カット単位顔認識処理部20は、カット内では人物の入れ替わりは非常に少ないという傾向を前提として、人物の追跡を行いながら、各フレーム内の顔画像の認識処理を行う。例えば、一定時間間隔(比較対象。例えば、1秒間隔。)で顔認識処理を行うと、動画内の人物の顔の向きや照明の変化などの影響により認識の誤りが生じて、別の人物の顔画像であると認識されてしまう場合が起こり得る。しかしながら、カット内で人物の追跡を行うことにより、そういった認識誤りをノイズとして判定することができるようになる。つまり、カット単位顔認識処理部20は、ノイズ(同一人物であるはずの顔画像を別人物として認識してしまう認識結果)を除外することができる。つまり、カット単位顔認識処理部20は、認識誤りをなくすことができる。
図12では、(A)のカット単位の顔認識に関しては、カット番号と、時間区間(時間の長さはカットごとに可変)と、認識されたクラスターとの情報を示している。また、(B)の秒単位の顔認識に関しては、時間区間(時間の長さは、一例として、1秒)と、認識されたクラスターの情報とを示している。また、便宜的に中央付近((A)と(B)との間)に行番号を付している。なお、時間区間は、コンテンツの開始時点をゼロとする相対時間を用いて表している。
図示する例では、カット単位の顔認識の、カット番号98は、時間区間0:30:01から0:30:11に対応し、秒単位の顔認識における第1行から第10行までに対応する。カット単位の顔認識の、カット番号99は、時間区間0:30:11から0:30:18に対応し、秒単位の顔認識における第11行から第17行までに対応する。カット単位の顔認識の、カット番号100は、時間区間0:30:18から0:30:27に対応し、秒単位の顔認識における第18行から第26行までに対応する。カット単位の顔認識の、カット番号101は、時間区間0:30:27から0:30:31に対応し、秒単位の顔認識における第27行から第30行までに対応する。一方、秒単位の顔認識の、第1行から第30行までのそれぞれの行は、0:30:01に始まる1秒間から0:30:30に始まる1秒間までの、30個の時間区間に対応するものである。
カット単位顔認識処理部20によるカット単位の顔認識処理では、カット番号98については、AおよびBの2つのクラスターが認識結果として出力される。また、カット番号99については、認識されたクラスターはない。また、カット番号100については、クラスターAのみが認識結果として出力される。また、カット番号101については、クラスターEのみが認識結果といて出力される。なお、カット単位顔認識処理部20が、カットの中の特定の時間帯の認識結果としてクラスターの情報を出力するようにしてもよい。例えば、カット単位顔認識処理部20は、カット98の中の、時間区間0:30:01~0:30:07における認識結果としてクラスターAを出力する。また、カット単位顔認識処理部20は、カット98の中の、時間区間0:30:01~0:30:11における認識結果としてクラスターBを出力する(クラスターBは、当該時間区間において継続的に追跡されている)。また、カット単位顔認識処理部20は、カット100の中の、時間区間0:30:18~0:30:21および時間区間0:30:24~0:30:27における認識結果としてクラスターAを出力する。また、カット単位顔認識処理部20は、カット101の中の、時間区間0:30:28~0:30:31における認識結果としてクラスターEを出力する。
同じ動画コンテンツを対象として(B)の秒単位の顔認識の処理を行った場合、各時間区間において認識されるクラスターの集合は、誤認識を考慮しなければ、対応するカット単位の認識処理結果のクラスター集合の、部分集合(空集合である場合を含む)となる。しかしながら、秒単位の顔認識を行う場合に、カット単位の人物追跡を行わなかったことによる誤認識が発生し得る。図示する例では、第5行および第6行で認識結果に含まれているクラスターCは、誤認識されたクラスターである。また、第24行で認識結果に含まれているクラスターDは、誤認識されたクラスターである。
以上のように、本実施形態では、カット単位顔認識処理部20がカット単位での顔認識処理御行う。つまり、カット単位顔認識処理部20は、カット内で人物の入れ替わりが起こらない(あるいは、少ない)ことを前提として、人物を追跡しながら顔認識処理を行う。これにより、カット単位顔認識処理部20は、顔認識結果のノイズを除去する。つまり、カット単位顔認識処理部20は、誤認識を軽減することができる。言い換えれば、カット単位顔認識処理部20は、カット点で区切った時間区間ごとにフレーム間で顔画像を追跡し、追跡結果に基づいてクラスターの判定におけるエラーを検出するとともに検出されたエラーを補正(修正)する。
図13は、人物データベース23が持つ出演情報の表の構成例を示す概略図である。図示するように、出演情報を表す表形式のデータは、コンテンツ識別情報と、時間区間識別情報と、出演者識別情報とを総合に関連付けたデータである。コンテンツ識別情報は、動画コンテンツを識別するための情報である。時間区間識別情報は、コンテンツ内における時間区間を識別する情報である。時間区間識別情報は、具体的には、例えば、時間区間に対して付与された番号(例えば、図9に示したカット番号など)や、時間区間の開始時刻および終了時刻の組などである。出演者識別情報は、出演者を識別するための情報である。出演者識別情報は、例えば、図4等において示したクラスター識別情報や、人名(図4等において示したタグ)等であってよい。図示する例による出演情報は、「コンテンツX」として識別されるコンテンツの、「カット98」として識別される時間区間の動画に、カテゴリーAおよびBに相当する各出演者が出演していたことを表す。このような出演情報を蓄積することにより、大量の動画コンテンツの中の、どの動画コンテンツのどのシーンにどの出演者が出演していたかを管理することができる。このように、画像管理装置1の人物データベース23は、自動的に認識(識別)された顔画像に基づいて、動画コンテンツに出演した出演者の情報を例えばカット(シーン)に関連付ける形で管理することができる。
図14は、画像管理装置1の処理手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。
まず、ステップS11において、顔検出処理部12は、動画コンテンツ内の顔を検出する。ここで、顔を検出する対象とするコンテンツは、特定のコンテンツである。顔検出処理部12は、検出した顔を含む領域の画像を、クラスタリング部13に渡す。
次に、ステップS12において、クラスタリング部13は、顔検出処理部12から渡された顔画像のクラスタリング処理を行う。具体的には、既に説明したように、第1クラスタリング部14が第1段階のクラスタリング処理を行い、第2クラスタリング部15が第2段階のクラスタリング処理を行う。つまり、クラスタリング部13は、2段階のクラスタリングを行う。
次に、ステップS13において、仮クラスター管理部16は、クラスタリング部13から、クラスタリング処理の結果を受け取る。そして、仮クラスター管理部16は、それらのクラスターすべてを「仮クラスター」として、各仮クラスターの情報を、仮クラスター記憶部17に登録する。ここで、仮クラスターの情報は、少なくとも、仮クラスターを識別する情報と、その仮クラスターについての特徴量(画像の特徴量)に関する情報を含む。また、この特徴量の情報は、例えば、画像に関する数値等の統計情報であってもよい。
次に、ステップS14において、特定コンテンツ用顔画像学習部18は、ステップS13で登録された仮クラスターのそれぞれに関する学習処理を行う。具体的には、特定コンテンツ用顔画像学習部18は、仮クラスターごとに絞り込まれた顔画像を用いた学習処理を行い、顔認識処理用のモデルを構築する。構築されるモデルは、顔全体、あるいは顔に含まれる各パーツの、形状や、色や、サイズなどに関する特徴の情報を持つ。本ステップで構築されるモデルは、顔画像を基に、クラスターを判別するためのモデルである。なお、学習処理自体は、既存の機械学習の技術を用いて実現可能である。一例として、学習処理には、ニューラルネットワーク等を用いることができる。本ステップで得られた学習済みモデルは、特定コンテンツ用顔認識モデル19として記憶媒体に書き込まれる。
次に、ステップS15において、カット単位顔認識処理部20は、上記特定動画コンテンツの、カット単位での顔認識処理を行う。カット単位顔認識処理部20は、カットごとの認識結果であるクラスターの集合の情報を、クラスター選択部21に渡す。本ステップで得られたクラスターは、動画内で使用されたクラスターであり、「使用クラスター」と呼ばれる場合がある。
次に、ステップS16において、クラスター選択部21は、仮クラスター記憶部17に記憶されている仮クラスターの情報の中から、ステップS15でカット単位顔認識処理部20が出力した使用クラスターの情報のみを選択する。クラスター選択部21は、選択したクラスターの情報を人物データ登録部22に渡す。
次に、ステップS17において、人物データ登録部22は、クラスター選択部21から渡されたデータを用いて、使用クラスターを人物データベースに登録する。
次に、ステップS18において、人物データベース23は、保持しているデータの名寄せ処理を行う。つまり、人物データベース23は、新たに登録されたクラスターのデータのうち、既存のクラスターと一致するもの(同一人物であると判断できるクラスター)の名寄せを行う。名寄せ処理の具体例については、図4および図5を参照しながら説明した通りである。
以上の一連の処理により、画像管理装置1は、特定コンテンツ用の顔認識モデルを構築し、特定コンテンツ用の顔認識モデルに基づく顔認識処理を行い、認識結果として得られたクラスター(人物)を人物データベースに登録することができる。
なお、上述した実施形態における画像管理装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。例えば、カット単位顔認識処理部20は、カット単位での顔認識処理を行った。しかし、カット以外の単位による時間区間ごとに顔認識処理を行うようにしてもよい。また、例えば、人物データベース23における名寄せ処理を自動的に行わず、人の判断に基づいて行うようにしてもよい。また、例えば、画像管理装置1が、出演者データ記憶部24を持たない構成としてもよい。さらに、画像管理装置1が、タグ設定部25を持たない構成としてもよい。
以上説明した実施形態およびその変形例をまとめると、次の通りである。
画像管理装置1は、クラスタリング部13と、仮クラスター記憶部17と、特定コンテンツ用顔画像学習部18と、顔認識処理部(カット単位顔認識処理部20)と、人物データベース23と、人物データ登録部22とを少なくとも備える。クラスタリング部13は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングする。仮クラスター記憶部17は、クラスタリング部13の処理によって得られたクラスターごとの画像特徴量を記憶する。特定コンテンツ用顔画像学習部18は、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、特定の前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、動画コンテンツ用の顔認識モデルを生成する。顔認識処理部は、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する。人物データベース23は、顔画像の画像特徴量とクラスターとを関連付けて記憶する。人物データ登録部22は、顔認識処理部から出力されたクラスター(使用クラスター)について、仮クラスター記憶部17から読み出したクラスターごとの画像特徴量の情報を、人物データベース23に登録する。
これにより、顔認識処理部は、当該動画コンテンツに専用のモデルに基づいて、顔を認識する処理、即ち、顔画像に対応するクラスターを決定する処理を行うことができる。当該動画コンテンツに特有のモデルを用いるため、対象とするクラスター数(人物数)は相対的に限定され、誤認識の確率は低くなる。つまり、高い精度で正しくクラスターを判定することとなる。
クラスタリング部13は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ってもよい。複数の段階クラスタリング部とは、具体的には、既に説明した第1クラスタリング部14および第2クラスタリング部15である。第2段階以後の段階クラスタリング部(つまり、本実施形態では、第2クラスタリング部15)は、1つ前の段階クラスタリング部(つまり、本実施形態では、第1クラスタリング部14)から出力されたクラスターの顔画像を対象としてクラスタリング処理を行う。なお、クラスタリングの段階数は3以上であってもよい。
これにより、既に説明した通り、クラスタリングの精度を向上させることが可能となる。
画像管理装置1が名寄せ処理部(不図示)をさらに備えるようにしてもよい。名寄せ処理部は、例えば、人物データベース23内に設けられた機能であってもよい。名寄せ処理部は、人物データベース23に登録されている画像特徴量に基づいて、複数のクラスターを1つのクラスターに統合する(名寄せする)ものである。
これにより、新規登録のクラスターと、既存のクラスターとを統合することが容易に行える。
人物データベース23は、既に説明したように、クラスターに付与するタグを、クラスターと関連付けて記憶するものであってもよい。タグは、例えば、人名等を表す。また、タグ設定部25を設けてよい。タグ設定部25は、タグが設定されていないクラスターについて、新たなタグを設定する処理を行う。
これにより、新規登録のクラスターに、人物名等を関連付けて管理することが可能となる。
顔認識処理部は、カット点で区切った時間区間ごとに顔認識処理を行うものであってもよい。カット点は、動画コンテンツのフレーム間における画素値(例えば、フレーム全体における画素値の総合評価値)の変化量がピークとなるポイントである。顔認識処理部は、カット点で区切った時間区間ごとにフレーム間で顔画像を追跡し、追跡結果に基づいてクラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、認識結果としてクラスターの情報を出力するものであってよい。カット単位での顔認識や、カット内での前提事項を利用したエラーの検出および補正については、図12を参照しながら説明した通りである。
人物データベース23は、さらに、前記時間区間とクラスターとを関連付けた情報(出演情報)を記憶するものであってよい。これにより、どの時間区間にどの人物が出演していたかを容易に管理することができる。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、例えば、動画コンテンツ(放送番組を含む)を管理したり配信したりする事業に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1 画像管理装置
11 動画コンテンツ取得部
12 顔検出処理部
13 クラスタリング部
14 第1クラスタリング部
15 第2クラスタリング部
16 仮クラスター管理部
17 仮クラスター記憶部
18 特定コンテンツ用顔画像学習部
19 特定コンテンツ用顔認識モデル
20 カット単位顔認識処理部
21 クラスター選択部
22 人物データ登録部
23 人物データベース
24 出演者データ記憶部
25 タグ設定部

Claims (7)

  1. 動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、
    前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、
    前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、
    生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、
    顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、
    前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、
    を備える画像管理装置。
  2. 前記クラスタリング部は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ち、第2段階以後の前記段階クラスタリング部は、1つ前の前記段階クラスタリング部から出力されたクラスターの前記顔画像を対象としてクラスタリング処理を行う、
    請求項1に記載の画像管理装置。
  3. 前記人物データベースに登録されている前記画像特徴量に基づいて、複数のクラスターを1つのクラスターに統合する名寄せ処理部、
    をさらに備える請求項1または2に記載の画像管理装置。
  4. 前記人物データベースは、クラスターに付与するタグを前記クラスターと関連付けて記憶するものであり、
    タグが設定されていない前記クラスターについて、新たなタグを設定する処理を行うタグ設定部をさらに備える、
    請求項1から3までのいずれか一項に記載の画像管理装置。
  5. 前記顔認識処理部は、前記動画コンテンツのフレーム間における画素値の変化量がピークとなるカット点で区切った時間区間ごとにフレーム間で前記顔画像を追跡し、追跡結果に基づいて前記クラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、前記認識結果としてクラスターの情報を出力する、
    請求項1から4までのいずれか一項に記載の画像管理装置。
  6. 前記人物データベースは、さらに、前記時間区間と前記クラスターとを関連付けた情報を記憶する、
    請求項5に記載の画像管理装置。
  7. 動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、
    前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、
    前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、
    生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、
    顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、
    前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、
    を備える画像管理装置としてコンピューターを機能させるためのプログラム。
JP2019153510A 2019-08-26 2019-08-26 画像管理装置およびプログラム Active JP7340992B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019153510A JP7340992B2 (ja) 2019-08-26 2019-08-26 画像管理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019153510A JP7340992B2 (ja) 2019-08-26 2019-08-26 画像管理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2021033664A JP2021033664A (ja) 2021-03-01
JP7340992B2 true JP7340992B2 (ja) 2023-09-08

Family

ID=74678684

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019153510A Active JP7340992B2 (ja) 2019-08-26 2019-08-26 画像管理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP7340992B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343791A (ja) 2005-06-07 2006-12-21 Hitachi Ltd 顔画像データベース作成方法
JP2008077536A (ja) 2006-09-25 2008-04-03 Sony Corp 画像処理装置および方法、並びにプログラム
JP2014507705A (ja) 2010-12-29 2014-03-27 トムソン ライセンシング 顔登録の方法
WO2014132537A1 (ja) 2013-03-01 2014-09-04 日本電気株式会社 情報処理装置、そのデータ処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343791A (ja) 2005-06-07 2006-12-21 Hitachi Ltd 顔画像データベース作成方法
JP2008077536A (ja) 2006-09-25 2008-04-03 Sony Corp 画像処理装置および方法、並びにプログラム
JP2014507705A (ja) 2010-12-29 2014-03-27 トムソン ライセンシング 顔登録の方法
WO2014132537A1 (ja) 2013-03-01 2014-09-04 日本電気株式会社 情報処理装置、そのデータ処理方法、およびプログラム

Also Published As

Publication number Publication date
JP2021033664A (ja) 2021-03-01

Similar Documents

Publication Publication Date Title
US11281712B2 (en) System, apparatus, method, program and recording medium for processing image
US11113587B2 (en) System and method for appearance search
US8885942B2 (en) Object mapping device, method of mapping object, program and recording medium
US10606887B2 (en) Providing relevant video scenes in response to a video search query
US8107689B2 (en) Apparatus, method and computer program for processing information
US9176987B1 (en) Automatic face annotation method and system
US9323785B2 (en) Method and system for mobile visual search using metadata and segmentation
JP5390506B2 (ja) ビデオ検出システムおよびビデオ検出方法
US20230014519A1 (en) Video search device, data storage method and data storage device
US20070195344A1 (en) System, apparatus, method, program and recording medium for processing image
US10242287B2 (en) Image processing apparatus, image processing method, and recording medium
US20130346412A1 (en) System and method of detecting common patterns within unstructured data elements retrieved from big data sources
WO2009143279A1 (en) Automatic tracking of people and bodies in video
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
US9189545B2 (en) Content summarizing apparatus and content summarizing displaying apparatus
US9549162B2 (en) Image processing apparatus, image processing method, and program
JP2013140475A (ja) 映像検索装置
JP4420085B2 (ja) データ処理装置、データ処理方法、プログラムおよび記録媒体
CN105989063A (zh) 视频检索方法和装置
JP7340992B2 (ja) 画像管理装置およびプログラム
CN112101197A (zh) 一种面部信息的获取方法和装置
JP6789175B2 (ja) 画像認識装置、方法、及びプログラム
US11023733B2 (en) System and method for analyzing a video file in a shortened time frame
US20240096131A1 (en) Video processing system, video processing method, and non-transitory computer-readable medium
KR20210136564A (ko) 스포츠 경기 요약 영상 생성 장치 및 스포츠 경기 요약 영상 생성 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230829

R150 Certificate of patent or registration of utility model

Ref document number: 7340992

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150