JP2021033664A

JP2021033664A - 画像管理装置およびプログラム

Info

Publication number: JP2021033664A
Application number: JP2019153510A
Authority: JP
Inventors: 吉岡　秀樹; Hideki Yoshioka; 秀樹吉岡; 和代細谷; Kazuyo Hosoya
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2021-03-01
Anticipated expiration: 2039-08-26
Also published as: JP7340992B2

Abstract

【課題】顔認識処理の精度を上げながら、多人数の顔画像の特徴量の情報を蓄積したり、顔の識別結果の情報を蓄積したりすることのできる画像管理装置を提供する。【解決手段】クラスタリング部は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングする。仮クラスター記憶部は、クラスタリング部の処理によって得られたクラスターごとの画像特徴量を記憶する。特定コンテンツ用顔画像学習部は、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、特定の前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、動画コンテンツ用の顔認識モデルを生成する。顔認識処理部は、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する。【選択図】図１

Description

本発明は、画像管理装置およびプログラムに関する。

動画像に含まれる顔を自動的に認識することにより、低コストで、動画像コンテンツに関するメタデータを蓄積できるようにすることが望まれる。

特許文献１の例えば請求項１には、顔を認識するための顔認識装置に顔のデータを送信する顔検出装置が記載されている。その顔検出装置において、分類部は、動画像を構成するフレームに含まれる顔画像の特徴データを比較することにより、同一人物の特徴データが一つのグループになるように、人物ごとの分類を行っている。

特開２０１７−１８２２１０号公報

しかしながら、幅広い動画コンテンツを対象として大量の人物の情報を蓄積するためには、顔認識処理のためのモデルの精度を向上させる必要がある。通常は、対象とする人物の数が増えれば増えるほど、例えば似た顔を正しく判別することが困難になる。顔認識処理のためのモデルの精度を向上できないと、顔認識処理によるエラー率が高くなってしまうという問題がある。

本発明は、上記の課題認識に基づいて行なわれたものであり、顔認識処理の精度を上げながら、多人数の顔画像の特徴量の情報を蓄積したり、動画コンテンツ内で検出された顔の識別結果の情報を蓄積したりすることのできる画像管理装置およびプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による画像管理装置は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、を備える。

［２］また、本発明の一態様は、上記の画像管理装置において、前記クラスタリング部は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ち、第２段階以後の前記段階クラスタリング部は、１つ前の前記段階クラスタリング部から出力されたクラスターの前記顔画像を対象としてクラスタリング処理を行う、ものである。

［３］また、本発明の一態様は、上記の画像管理装置において、前記人物データベースに登録されている前記画像特徴量に基づいて、複数のクラスターを１つのクラスターに統合する名寄せ処理部、をさらに備えるものである。

［４］また、本発明の一態様は、上記の画像管理装置において、前記人物データベースは、クラスターに付与するタグを前記クラスターと関連付けて記憶するものであり、タグが設定されていない前記クラスターについて、新たなタグを設定する処理を行うタグ設定部をさらに備える、ものである。

［５］また、本発明の一態様は、上記の画像管理装置において、前記顔認識処理部は、前記動画コンテンツのフレーム間における画素値の変化量がピークとなるカット点で区切った時間区間ごとにフレーム間で前記顔画像を追跡し、追跡結果に基づいて前記クラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、前記認識結果としてクラスターの情報を出力する、ものである。

［６］また、本発明の一態様は、上記の画像管理装置において、前記人物データベースは、さらに、前記時間区間と前記クラスターとを関連付けた情報を記憶する、ものである。

［７］また、本発明の一態様は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、を備える画像管理装置としてコンピューターを機能させるためのプログラムである。

本発明によれば、動画内における顔の認識率を高めながら、動画コンテンツに含まれる顔画像に関する大量の情報を蓄積することが可能となる。

本発明の実施形態による画像管理装置の概略機能構成を示すブロック図である。同実施形態において、仮クラスターの情報を記憶する仮クラスター記憶部のデータ構成例を示す概略図である。同実施形態によるクラスター選択部の処理の概略を示す概略図である。同実施形態による人物データベースが保持する人物データ（名寄せ前）の構成例を示す概略図である。同実施形態による人物データベースが保持する人物データ（名寄せ後）の構成例を示す概略図である。同実施形態による人物データベースが保持する人物データ（新規タグ付与後）の構成例を示す概略図である。同実施形態による人物データベースが保持する人物データ（名寄せ前）の構成例（別形態）を示す概略図である。同実施形態による人物データベースが保持する人物データ（名寄せ後）の構成例（別形態）を示す概略図である。同実施形態による人物データベースが保持する人物データ（新規タグ付与後）の構成例（別形態）を示す概略図である。同実施形態における、２段階クラスタリングの処理の概要を示す概略図である。同実施形態における、２段階のクラスタリング処理によって分類される顔画像の例を示す概略図である。同実施形態における、カット単位顔認識処理部の処理を説明するための概略図である。同実施形態における出演情報の構成例を示す概略図である。同実施形態による画像管理装置の処理手順を示すフローチャートである。

次に、本発明の一実施形態について、図面を参照しながら説明する。

図１は、本実施形態による画像管理装置の概略機能構成を示すブロック図である。符号１は、画像管理装置である。図示するように、画像管理装置１は、動画コンテンツ取得部１１と、顔検出処理部１２と、クラスタリング部１３と、仮クラスター管理部１６と、仮クラスター記憶部１７と、特定コンテンツ用顔画像学習部１８と、特定コンテンツ用顔認識モデル１９と、カット単位顔認識処理部２０と、クラスター選択部２１と、人物データ登録部２２と、人物データベース２３と、出演者データ記憶部２４と、タグ設定部２５とを含んで構成される。なお、クラスタリング部１３は、第１クラスタリング部１４と、第２クラスタリング部１５とを含む。

これらの各機能部は、例えば、電子回路を用いて実現可能である。また、各機能部を、コンピューターと、プログラムとで実現することも可能である。例えばコンピューターを用いて画像管理装置１を実現する場合、画像管理装置１が持つすべての機能を１台のコンピューターが持つようにしてもよいし、複数のコンピューター等に機能を分散させてもよい。複数のコンピューターは、相互に通信可能とする。また、画像管理装置１が持つ機能の一部をいわゆるクラウドサーバーで実現してもよい。各機能部は、必要に応じて、記憶手段を有する。記憶手段としては、例えば、半導体メモリーや磁気ハードディスク装置などといったものを用いることができる。各部の機能は、以下に説明する通りである。

動画コンテンツ取得部１１は、動画コンテンツを取得する。動画コンテンツは、時系列のフレーム画像を含む。動画コンテンツ取得部１１は、例えば、放送信号を受信して、放送信号内に含まれる動画コンテンツを取得する。また、動画コンテンツ取得部１１が、通信ネットワークを介して外部の配信サーバー装置から動画コンテンツを取得したり、磁気ハードディスク装置や光ディスク等の記録媒体に記録された動画コンテンツを読み取ったりするようにしてもよい。

顔検出処理部１２は、動画コンテンツ取得部１１が取得した動画コンテンツのフレーム画像内に含まれる顔画像を検出する。顔検出処理部１２は、例えば、検出した顔画像の領域の画像を切り出して、クラスタリング部１３に渡す。顔検出処理部１２は、必要に応じて、切り出す顔画像のサイズ（縦および横の画素数）を正規化してもよい。なお、顔画像検出の技術自体は、既存技術を利用できる。顔検出処理部１２は、顔らしさを表すモデルを参照することによって、画像内の顔を検出する。

クラスタリング部１３は、顔検出処理部１２から渡された顔画像の特徴量に基づくクラスタリングを行う。顔画像の特徴量は、顔画像内の、あるいは顔画像内の一部領域の、画素値の配置のパターンあるいは画素値が属する範囲の配置のパターン等に基づく。顔画像の特徴量は、顔の輪郭や顔に含まれるパーツの形状や、それらの相対的な位置関係や、パーツごとのサイズや、色（画素値）の分布や、その他の要素を反映したものである。特徴量は、例えば、多次元のベクトルで表現され得る。本実施形態では、多段階のクラスタリングを行う。具体的には、クラスタリング部１３は、第１クラスタリング部１４と、第２クラスタリング部１５とを備える。つまり、顔検出処理部１２から渡される顔画像群を、まず第１クラスタリング部１４がクラスタリングし、第１クラスタリング部１４から出力される画像群を、さらに第２クラスタリング部１５がクラスタリングする。こういった多段階のクラスタリング処理により、クラスターに含まれるノイズを除去する作用があり、クラスターの精度が上がる。なお、クラスタリング処理の段階数は、２に限らず、１または３以上であってもよい。クラスタリング処理の詳細については後述する。

なお、第１クラスタリング部１４と第２クラスタリング部１５とは、同一の回路あるいはプログラムモジュールを、異なるパラメーターで動作させることによって実現するようにしてもよい。

仮クラスター管理部１６は、クラスタリング部１３から出力されるクラスター（ここでは「仮クラスター」と呼ぶ）の情報を管理する。具体的には、仮クラスター管理部１６は、仮クラスターを識別する情報と、仮クラスターごとの特徴量に関する情報を、仮クラスター記憶部１７に書き込む。特徴量の情報として、特徴量の統計情報（例えば、平均値や分散値）を含んでもよい。

仮クラスター記憶部１７は、上記の仮クラスターの情報を記憶するものである。仮クラスター記憶部１７は、仮クラスターを識別する情報と、仮クラスターの特徴量の情報とを相互に関連付けて記憶する。仮クラスター記憶部１７が記憶するデータの構成については、後で別の図を参照しながら説明する。なお、仮クラスター記憶部１７が、仮クラスターの特徴量の情報を持つ代わりに、仮クラスターに属する顔画像群そのものを記憶するようにしてもよい。また、仮クラスター記憶部１７が、仮クラスターごとに、仮クラスターの特徴量の情報と、仮クラスターに属する顔画像群との両方を記憶するようにしてもよい。

特定コンテンツ用顔画像学習部１８は、仮クラスター記憶部１７から仮クラスターの識別情報と特徴量の情報とを読み出し、それらを教師データとして機械学習を行うことによって、仮クラスター識別情報と画像特徴量との関係を表すモデルを構築する。ここで構築されるモデルは、特定コンテンツ（現在、処理対象としている動画コンテンツ）用のモデルである。特定コンテンツ用顔画像学習部１８は、例えば、ニューラルネットワークを用いた機械学習を行う。

特定コンテンツ用顔認識モデル１９は、特定コンテンツ用顔画像学習部１８によって構築されるモデルである。ニューラルネットワークを用いたモデルである場合、特定コンテンツ用顔認識モデル１９は、具体的には、ニューラルネットワーク内の各ノードにおける演算用パラメーターの値を記憶している。前述の通り、この特定コンテンツ用顔認識モデル１９は、特定コンテンツ（現在、処理対象としている動画コンテンツ）用のモデルである。

カット単位顔認識処理部２０は、動画コンテンツ取得部１１から渡される動画コンテンツに関して、カット単位で、動画コンテンツに含まれる顔を認識する処理を行う。カットは、動画の撮影用のカメラを切り替えたり、シーンが変わったりする単位である。カット単位顔認識処理部２０は、上記の特定コンテンツ用顔認識モデル１９を参照することによって、動画コンテンツ内に含まれる顔画像がどのカテゴリーに属するものであるかを判定し、カットを特定する情報と関連付ける形で、そのカテゴリーの情報を出力する。

クラスター選択部２１は、仮クラスター記憶部１７に登録されたクラスター（仮クラスター）のうち、カット単位顔認識処理部２０が認識結果として出力したクラスター（「使用クラスター」と呼ぶ）を選択して出力する。クラスター選択部２１は、選択したクラスターの情報を、人物データ登録部２２に渡す。クラスター選択部２１が渡すクラスターの情報には、少なくとも、クラスターを識別する情報と、クラスターの特徴量の情報とを含む。

人物データ登録部２２は、クラスター選択部２１から渡されるクラスターの情報を、人物データベース２３に登録する。

人物データベース２３は、動画コンテンツ内に登場する人物に関する情報を蓄積するためのデータベースである。人物データベース２３は、クラスターを識別する情報と、クラスターの画像特徴量の情報と、クラスターに付与されるタグ（例えば、人名等）と、必要に応じてクラスターの他の属性情報とを、相互に関連付けて記憶する。さらに、人物データベース２３が、クラスターを識別する情報に関連付けて、当該クラスターに属する顔画像群そのものを持つようにしてもよい。人物データベース２３内に、あるいは人物データベース２３内の情報と関連付けて、顔画像群を保持するための具体的な方法の一例は、次の通りである。即ち、人物データベース２３内に、クラスターを識別する情報と関連付けて、数枚の（例えば、２〜３枚の）代表顔画像を保持する。また、当該クラスターに関連付けて、さらに多くの顔画像群を保存する場所の情報を保持する。この「場所の情報」とは、例えば、ファイルシステム内のフォルダーを特定する名前や、それと同等のＵＲＬ（ユニフォームリソースロケーター）等である。そのフォルダー等では、顔画像群のデータを例えばＪＰＥＧ形式等の画像ファイル群として保持してもよいし、ＺＩＰ形式等の圧縮ファイル内にそれら画像ファイル群を保持するようにしてもよい。なお、上記のように数枚の代表顔画像を人物データベース２３が直接持つようにした場合には、ユーザーが人物データベース２３を検索した際にそれらの顔画像をすばやく閲覧することもできる。

また、人物データベース２３が、さらに、出演情報を蓄積するようにしてもよい。出演情報は、どの動画コンテンツのどのシーン（カット）に、どの人物が出演していたかを表す情報である。つまり、出演情報は、コンテンツを識別する情報と、シーン（カット）を識別する情報と、出演者（クラスター）を識別する情報とを相互に関連付けて記憶するものである。

人物データベース２３は、名寄せ処理を行う機能を持つ。名寄せ処理は、人物データベースに登録されている複数のクラスターが、実際には同一のクラスターである（つまり、同一の人物の特徴量を表す）場合に、それら複数のクラスターを統合して、１つのクラスターとする処理である。名寄せ処理は、典型的には、新たに登録されたクラスターと既存のクラスターとがある場合に、それらのクラスターのうちの同一人物を表すデータを一つのクラスターに統合するために行われる。人物データベース２３は、例えば、特徴量の類似性に基づいてクラスターの名寄せ処理を行う。

人物データベース２３の詳細については、後で別の図を参照しながらさらに説明する。

出演者データ記憶部２４は、画像管理装置１が処理対象とする動画コンテンツに出演する人物の情報を記憶するものである。出演者データ記憶部２４は、例えば、動画コンテンツごとに、出演者の名前（人名）等を記憶する。この動画コンテンツごとの出演者のデータは、動画コンテンツの映像（画像）から抽出される情報ではなく、別途外部から与えられる情報である。

タグ設定部２５は、出演者データ記憶部２４が記憶する人名の情報を参照しながら、人物データベース２３内の、タグ（人名等）がまだ付与されていないクラスターに、タグを設定する。タグ設定部２５は、ユーザーによる操作に基づいて、どのクラスターにどのタグを付与するかを決定するようにしてよい。つまり、タグ設定部２５は、ユーザーインターフェースを持つ。タグ設定部２５は、そのユーザーインターフェースを通して、出演者データ記憶部２４に記憶されている出演者のリストをユーザーに提示する。そして、ユーザーによって選択された特定の出演者の名前、あるいはユーザーによって新たに入力された出演者の名前を、タグとして、人物データベース２３内の特定のクラスターに設定する。

図２は、クラスタリング部１３による処理の結果として得られる仮クラスターの情報を記憶する仮クラスター記憶部１７のデータ構成例を示す概略図である。図示するように、仮クラスター記憶部１７は、例えば、表形式のデータを記憶する。仮クラスター記憶部１７は、仮クラスター識別情報と、特徴量情報とを、相互に関連付けて記憶する。仮クラスター識別情報は、個々の仮クラスターを識別するための情報である。なお、前述のように仮クラスター記憶部１７が顔画像群そのものの情報をも持つ場合には、仮クラスター記憶部１７は、仮クラスター識別情報と、それらの顔画像群の情報とを、関連付けて記憶する。図示する例では、仮クラスター識別情報は、例えば、「Ａ」、「Ｂ」、「Ｃ」等である。特徴量情報は、各クラスターの、画像に関する特徴を表す情報である。特徴量情報は、特徴量を統計的に処理したデータ（例えば、ある量の平均値や分散値等）であってもよい。つまり、仮クラスター記憶部１７は、仮クラスターごとの特徴を表す情報を記憶する。

図３は、クラスター選択部２１による処理の概略を示す概略図である。図示するように、クラスター選択部２１は、ある特定のコンテンツを対象として、抽出された仮クラスターの集合の中から、カット単位顔認識処理部２０による顔認識の結果として使用されたクラスターの集合を選択する。クラスター選択部２１は、選択結果であるクラスターの集合の情報を、人物データ登録部に渡す。図示する例では、クラスター選択部２１は、仮クラスター記憶部１７から、仮クラスターＡ、Ｂ、およびＣを読み出す。また、クラスター選択部２１は、カット単位顔認識処理部２０から、動画コンテンツを顔認識処理することよって抽出したクラスターであるクラスターＡおよびＢの情報を受け取る。そして、クラスター選択部２１は、仮クラスター記憶部１７から読み出した仮クラスターＡ、Ｂ、およびＣのうち、カット単位顔認識処理部２０から渡されたクラスターであるクラスターＡおよびＢの情報のみを選択する。クラスター選択部２１は、選択されたクラスターＡおよびＢの情報を、人物データ登録部２２に渡す。つまり、この例では、クラスターＣは仮クラスターとして抽出されていたが、顔認識においてクラスターＣが認識されてなかったため、クラスター選択部２１は、クラスターＣを選択せずに捨てる。なお、カット単位顔認識処理部２０が出力したクラスターを「使用クラスター」と呼ぶ場合がある。仕様クラスターは、動画内で使用されていたことが検出されたクラスターである。

図４、図５、図６は、人物データベース２３が保持する人物データ（クラスターデータ）の構成例を示す概略図である。図示するように、人物データは、表形式のデータであり、クラスター識別情報と、特徴量情報と、タグと、属性情報（人物属性等）との各項目を有する。

図４は、新たなクラスターが登録され、それらの新たなクラスターと既存のクラスターとの名寄せの処理がまだ行われていない状態における人物データを示す。図示するように、この人物データは、クラスター識別情報として、Ａ、Ｂ、Ｘ、およびＹを含んでいる。これらのうち、クラスターＸおよびＹは、既存のクラスターである。クラスターＡおよびＢは、新たに登録されたクラスターである。すべてのクラスターは、特徴量の情報を持っている。特徴量の情報は、例えば、特徴量の平均値や分散値といった統計情報を含む。また、前述の通り、人物データベース２３が、顔画像の特徴量のデータとともに、顔画像そのもののデータを持つようにしてもよい。既存のクラスターであるクラスターＸおよびＹには、既にタグが付与されている。ここで、タグは、各クラスターに対応する人名である。クラスターＡおよびＢには、まだタグが設定されていない。

図５は、図４に示した状態から、名寄せ処理が行われた後の状態における人物データを示す。図４におけるクラスターＡが、名寄せ処理によって既存のクラスターＸと統合されたために、図５のデータでは、クラスターＡの行が存在しない。クラスターＢは、名寄せ処理によって既存のクラスターと統合されなかった（名寄せすべき既存のクラスターが存在しなかった）ために、図５のデータにおいてもクラスターＢの行は残っている。この状態において、クラスターＢの行では、タグは依然未設定である。

図６は、図５に示した状態から、タグ付与の処理が行われた後の状態における人物データを示す。前述の通り、タグ設定部２５が、新規クラスターに対するタグの設定を行う。

上記のように、名寄せ処理（図５）およびタグ設定の処理（図６）によって、新規に登録されたクラスターにもタグ情報（人名の情報）が関連付けられる。

図４、図５、図６で示したデータを、別の形態で構成するようにしてもよい。
図７、図８、図９は、人物データベース２３が保持する人物データ（クラスターデータ）の別の構成例を示す概略図である。これらの図に示す構成では、タグ（人物に対応）に関するデータと、画像のクラスターに関するデータとを、それぞれ別のテーブルに格納し、それら両者間を関連付けることができるようにしている。

図７は、新たなクラスターが登録され、それらの新たなクラスターと既存のクラスターとの名寄せの処理がまだ行われていない状態における人物データを示す。図示するデータでは、クラスターＡ、Ｂ、Ｘ、およびＹを含んでいる。これらのうち、クラスターＸおよびＹは、既存のクラスターである。クラスターＡおよびＢは、新たに登録されたクラスターである。すべてのクラスターは、特徴量の情報を持っている。この形態のデータにおいても、人物データベース２３が、顔画像の特徴量のデータとともに、顔画像そのもののデータを持つようにしてもよい。なお、クラスターＸおよびＹのそれぞれには、タグの情報が関連付けられている。タグの情報は、タグそのものの情報（例えば、名前）と、属性情報（人物属性等）を持つ。また、タグの情報と、クラスターとの情報との関連付けは、一例として、図示するように、タグの情報がクラスター識別情報を持つことにより実現される。

図８は、図７に示した状態から、名寄せ処理が行われた後の状態における人物データを示す。図７においてクラスターＸのみに関連付けられていたタグの情報は、名寄せ処理により、図８ではクラスターＡにも関連付けられている。クラスターＢは、名寄せすべき既存のクラスターが存在しなかったために、図８のデータにおいてもクラスターＢにはタグの情報が関連付けられていない。つまり、この状態において、クラスターＢには、タグは依然未設定である。図８に示すデータ表現では、クラスターＡおよびＸは、テーブル上ではデータとして統合されていない。言い換えれば、クラスターＡおよびＸのそれぞれの情報は、図８に示すデータにおいても、失われていない。これは、図８のデータの表現が図５のデータの表現と異なる点である。

図９は、図８に示した状態から、タグ付与の処理が行われた後の状態における人物データを示す。図９においては、クラスターＢにもタグの情報が関連付けられている。前述の通り、タグ設定部２５が、新規クラスター（クラスターＢ）に対するタグの設定を行う。

上記のように、名寄せ処理（図８）およびタグ設定の処理（図９）によって、新規に登録されたクラスターにもタグ情報（人名の情報）が関連付けられる。

次に、画像管理装置１が持つ特徴的な処理の詳細について、さらに説明する。

図１０は、クラスタリング部１３による２段階クラスタリングの処理の概要を示す概略図である。図示するように、クラスタリング対象画像群は、第１段階のクラスタリングおよび第２段階のクラスタリング処理により、複数のクラスターに分類される。第１クラスタリング部１４が第１段階のクラスタリングを行い、第２クラスタリング部１５が第２段階のクラスタリングを行う。同図において、符号３０１は、クラスタリング前の画像群である。符号３０２は、第１段階のクラスタリングの結果である。第１段階のクラスタリングの結果として、クラスター１、２、３に分類されている。符号３０３は、第２段階のクラスタリングの結果である。第２段階のクラスタリングの結果として、元のクラスター１が、クラスター１と４の２つのクラスターに分類されている。元のクラスター２および３のそれぞれは、そのまま、それぞれクラスター２および３として残っている。

第１段階および第２段階のクラスタリング処理では、ともに、例えばＤＢＳＣＡＮ（Density-based spatial clustering of applications with noise）を使用する。第１段階と第２段階とでは、異なるパラメーターを使用する。第１段階のクラスタリングでは、探索範囲を広く設けて、荒い粒度での分類を行うようにする。また、第２段階のクラスタリングでは、探索範囲を狭く設けて再分類することにより、精度の改善を図る。このように２段階でクラスタリングを実施することにより、ノイズの混入を削減することができる。ここでのノイズとは、あるクラスターが特定の人物の顔画像だけで構成されず、他の人物の顔画像が混入することである。このように顔画像クラスターの制度を改善することは、顔認識処理用の顔認識モデル（特定コンテンツ用顔認識モデル１９）の精度の向上につながる。つまり、カット単位顔認識処理部２０による顔認識処理の精度の向上につながる。

図１１は、２段階のクラスタリング処理によって分類される顔画像の例を示す概略図である。同図において、（Ａ）は、第１段階のクラスタリングの結果として得られたクラスター１に属する画像群を示す。また、（Ｂ）は、第２段階のクラスタリングの結果として得られたクラスター１に属する画像群を示す。また、（Ｃ）は、第２段階のクラスタリングの結果として得られたクラスター４に属する画像群を示す。前述の通り（図１０）、第１段階におけるクラスター１（Ａ）が、第２段階におけるクラスター１（Ｂ）とクラスター４（Ｃ）に分類されている。つまり、（Ａ）において、画像３１１から３１５までは同一人物の顔画像であり、画像３１６および３１７がノイズとしてクラスター１に混入している。そして、第２段階のクラスタリング処理の結果として、（Ｂ）のクラスター１が画像３１１から３１５までを含み、（Ｃ）のクラスター４が画像３１６および３１７を含むように分類されている。つまり、第２段階のクラスタリングにより、クラスター１から、ノイズである画像３１６および３１７が、クラスター４として分離されている。

図１２は、カット単位顔認識処理部２０による処理を説明するための概略図である。同図は、カット単位で顔認識処理を行った場合の認識結果と、一定時間間隔ごと（例として、１秒ごと）に顔認識処理を行った場合の認識結果とを、対比して示している。同図において、（Ａ）は、カット単位での顔認識処理（カット単位顔認識処理部２０が処理する方式）の結果である。（Ｂ）は、比較対象であり、秒単位（１秒ごと）での顔認識処理の結果である。

既に述べたように、カット単位顔認識処理部２０は、動画をカット単位に分割して、そのカットの中で人物を追跡しながら顔認識処理を行う。カット検出のために、カット単位顔認識処理部２０は、例えば、カラーヒストグラムの変化量を参照する。具体的には、カット単位顔認識処理部２０は、例えば、認識対象とする動画の各フレームのカラーヒストグラムを算出する。そのため、カット単位顔認識処理部２０は、各フレームのＲＧＢの各原色の値の範囲ごとの画素頻度を求める。一例として、カット単位顔認識処理部２０は、１つのフレームにおいて、Ｒ（赤）チャンネルの値が０％以上且つ２５％未満、２５％以上且つ５０％未満、５０％以上且つ７５％未満、７５％以上且つ１００％以下の、４つの範囲のそれぞれに属する画素数をカウントする。Ｇ（緑）チャンネルとＢ（青）チャンネルについてもこれと同様の処理を行う。カット単位顔認識処理部２０は、そのようにして求めたフレームごとのカラーヒストグラムの、時間方向の変化量を隣接するフレーム間で求める。この変化量が特異に一時的に上昇するポイントが動画内で現れるが、カット単位顔認識処理部２０は、その箇所をカット点として検出する。

カット単位顔認識処理部２０は、カット内では人物の入れ替わりは非常に少ないという傾向を前提として、人物の追跡を行いながら、各フレーム内の顔画像の認識処理を行う。例えば、一定時間間隔（比較対象。例えば、１秒間隔。）で顔認識処理を行うと、動画内の人物の顔の向きや照明の変化などの影響により認識の誤りが生じて、別の人物の顔画像であると認識されてしまう場合が起こり得る。しかしながら、カット内で人物の追跡を行うことにより、そういった認識誤りをノイズとして判定することができるようになる。つまり、カット単位顔認識処理部２０は、ノイズ（同一人物であるはずの顔画像を別人物として認識してしまう認識結果）を除外することができる。つまり、カット単位顔認識処理部２０は、認識誤りをなくすことができる。

図１２では、（Ａ）のカット単位の顔認識に関しては、カット番号と、時間区間（時間の長さはカットごとに可変）と、認識されたクラスターとの情報を示している。また、（Ｂ）の秒単位の顔認識に関しては、時間区間（時間の長さは、一例として、１秒）と、認識されたクラスターの情報とを示している。また、便宜的に中央付近（（Ａ）と（Ｂ）との間）に行番号を付している。なお、時間区間は、コンテンツの開始時点をゼロとする相対時間を用いて表している。

図示する例では、カット単位の顔認識の、カット番号９８は、時間区間０：３０：０１から０：３０：１１に対応し、秒単位の顔認識における第１行から第１０行までに対応する。カット単位の顔認識の、カット番号９９は、時間区間０：３０：１１から０：３０：１８に対応し、秒単位の顔認識における第１１行から第１７行までに対応する。カット単位の顔認識の、カット番号１００は、時間区間０：３０：１８から０：３０：２７に対応し、秒単位の顔認識における第１８行から第２６行までに対応する。カット単位の顔認識の、カット番号１０１は、時間区間０：３０：２７から０：３０：３１に対応し、秒単位の顔認識における第２７行から第３０行までに対応する。一方、秒単位の顔認識の、第１行から第３０行までのそれぞれの行は、０：３０：０１に始まる１秒間から０：３０：３０に始まる１秒間までの、３０個の時間区間に対応するものである。

カット単位顔認識処理部２０によるカット単位の顔認識処理では、カット番号９８については、ＡおよびＢの２つのクラスターが認識結果として出力される。また、カット番号９９については、認識されたクラスターはない。また、カット番号１００については、クラスターＡのみが認識結果として出力される。また、カット番号１０１については、クラスターＥのみが認識結果といて出力される。なお、カット単位顔認識処理部２０が、カットの中の特定の時間帯の認識結果としてクラスターの情報を出力するようにしてもよい。例えば、カット単位顔認識処理部２０は、カット９８の中の、時間区間０：３０：０１〜０：３０：０７における認識結果としてクラスターＡを出力する。また、カット単位顔認識処理部２０は、カット９８の中の、時間区間０：３０：０１〜０：３０：１１における認識結果としてクラスターＢを出力する（クラスターＢは、当該時間区間において継続的に追跡されている）。また、カット単位顔認識処理部２０は、カット１００の中の、時間区間０：３０：１８〜０：３０：２１および時間区間０：３０：２４〜０：３０：２７における認識結果としてクラスターＡを出力する。また、カット単位顔認識処理部２０は、カット１０１の中の、時間区間０：３０：２８〜０：３０：３１における認識結果としてクラスターＥを出力する。

同じ動画コンテンツを対象として（Ｂ）の秒単位の顔認識の処理を行った場合、各時間区間において認識されるクラスターの集合は、誤認識を考慮しなければ、対応するカット単位の認識処理結果のクラスター集合の、部分集合（空集合である場合を含む）となる。しかしながら、秒単位の顔認識を行う場合に、カット単位の人物追跡を行わなかったことによる誤認識が発生し得る。図示する例では、第５行および第６行で認識結果に含まれているクラスターＣは、誤認識されたクラスターである。また、第２４行で認識結果に含まれているクラスターＤは、誤認識されたクラスターである。

以上のように、本実施形態では、カット単位顔認識処理部２０がカット単位での顔認識処理御行う。つまり、カット単位顔認識処理部２０は、カット内で人物の入れ替わりが起こらない（あるいは、少ない）ことを前提として、人物を追跡しながら顔認識処理を行う。これにより、カット単位顔認識処理部２０は、顔認識結果のノイズを除去する。つまり、カット単位顔認識処理部２０は、誤認識を軽減することができる。言い換えれば、カット単位顔認識処理部２０は、カット点で区切った時間区間ごとにフレーム間で顔画像を追跡し、追跡結果に基づいてクラスターの判定におけるエラーを検出するとともに検出されたエラーを補正（修正）する。

図１３は、人物データベース２３が持つ出演情報の表の構成例を示す概略図である。図示するように、出演情報を表す表形式のデータは、コンテンツ識別情報と、時間区間識別情報と、出演者識別情報とを総合に関連付けたデータである。コンテンツ識別情報は、動画コンテンツを識別するための情報である。時間区間識別情報は、コンテンツ内における時間区間を識別する情報である。時間区間識別情報は、具体的には、例えば、時間区間に対して付与された番号（例えば、図９に示したカット番号など）や、時間区間の開始時刻および終了時刻の組などである。出演者識別情報は、出演者を識別するための情報である。出演者識別情報は、例えば、図４等において示したクラスター識別情報や、人名（図４等において示したタグ）等であってよい。図示する例による出演情報は、「コンテンツＸ」として識別されるコンテンツの、「カット９８」として識別される時間区間の動画に、カテゴリーＡおよびＢに相当する各出演者が出演していたことを表す。このような出演情報を蓄積することにより、大量の動画コンテンツの中の、どの動画コンテンツのどのシーンにどの出演者が出演していたかを管理することができる。このように、画像管理装置１の人物データベース２３は、自動的に認識（識別）された顔画像に基づいて、動画コンテンツに出演した出演者の情報を例えばカット（シーン）に関連付ける形で管理することができる。

図１４は、画像管理装置１の処理手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。

まず、ステップＳ１１において、顔検出処理部１２は、動画コンテンツ内の顔を検出する。ここで、顔を検出する対象とするコンテンツは、特定のコンテンツである。顔検出処理部１２は、検出した顔を含む領域の画像を、クラスタリング部１３に渡す。
次に、ステップＳ１２において、クラスタリング部１３は、顔検出処理部１２から渡された顔画像のクラスタリング処理を行う。具体的には、既に説明したように、第１クラスタリング部１４が第１段階のクラスタリング処理を行い、第２クラスタリング部１５が第２段階のクラスタリング処理を行う。つまり、クラスタリング部１３は、２段階のクラスタリングを行う。

次に、ステップＳ１３において、仮クラスター管理部１６は、クラスタリング部１３から、クラスタリング処理の結果を受け取る。そして、仮クラスター管理部１６は、それらのクラスターすべてを「仮クラスター」として、各仮クラスターの情報を、仮クラスター記憶部１７に登録する。ここで、仮クラスターの情報は、少なくとも、仮クラスターを識別する情報と、その仮クラスターについての特徴量（画像の特徴量）に関する情報を含む。また、この特徴量の情報は、例えば、画像に関する数値等の統計情報であってもよい。

次に、ステップＳ１４において、特定コンテンツ用顔画像学習部１８は、ステップＳ１３で登録された仮クラスターのそれぞれに関する学習処理を行う。具体的には、特定コンテンツ用顔画像学習部１８は、仮クラスターごとに絞り込まれた顔画像を用いた学習処理を行い、顔認識処理用のモデルを構築する。構築されるモデルは、顔全体、あるいは顔に含まれる各パーツの、形状や、色や、サイズなどに関する特徴の情報を持つ。本ステップで構築されるモデルは、顔画像を基に、クラスターを判別するためのモデルである。なお、学習処理自体は、既存の機械学習の技術を用いて実現可能である。一例として、学習処理には、ニューラルネットワーク等を用いることができる。本ステップで得られた学習済みモデルは、特定コンテンツ用顔認識モデル１９として記憶媒体に書き込まれる。

次に、ステップＳ１５において、カット単位顔認識処理部２０は、上記特定動画コンテンツの、カット単位での顔認識処理を行う。カット単位顔認識処理部２０は、カットごとの認識結果であるクラスターの集合の情報を、クラスター選択部２１に渡す。本ステップで得られたクラスターは、動画内で使用されたクラスターであり、「使用クラスター」と呼ばれる場合がある。

次に、ステップＳ１６において、クラスター選択部２１は、仮クラスター記憶部１７に記憶されている仮クラスターの情報の中から、ステップＳ１５でカット単位顔認識処理部２０が出力した使用クラスターの情報のみを選択する。クラスター選択部２１は、選択したクラスターの情報を人物データ登録部２２に渡す。
次に、ステップＳ１７において、人物データ登録部２２は、クラスター選択部２１から渡されたデータを用いて、使用クラスターを人物データベースに登録する。

次に、ステップＳ１８において、人物データベース２３は、保持しているデータの名寄せ処理を行う。つまり、人物データベース２３は、新たに登録されたクラスターのデータのうち、既存のクラスターと一致するもの（同一人物であると判断できるクラスター）の名寄せを行う。名寄せ処理の具体例については、図４および図５を参照しながら説明した通りである。

以上の一連の処理により、画像管理装置１は、特定コンテンツ用の顔認識モデルを構築し、特定コンテンツ用の顔認識モデルに基づく顔認識処理を行い、認識結果として得られたクラスター（人物）を人物データベースに登録することができる。

なお、上述した実施形態における画像管理装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。例えば、カット単位顔認識処理部２０は、カット単位での顔認識処理を行った。しかし、カット以外の単位による時間区間ごとに顔認識処理を行うようにしてもよい。また、例えば、人物データベース２３における名寄せ処理を自動的に行わず、人の判断に基づいて行うようにしてもよい。また、例えば、画像管理装置１が、出演者データ記憶部２４を持たない構成としてもよい。さらに、画像管理装置１が、タグ設定部２５を持たない構成としてもよい。

以上説明した実施形態およびその変形例をまとめると、次の通りである。

画像管理装置１は、クラスタリング部１３と、仮クラスター記憶部１７と、特定コンテンツ用顔画像学習部１８と、顔認識処理部（カット単位顔認識処理部２０）と、人物データベース２３と、人物データ登録部２２とを少なくとも備える。クラスタリング部１３は、動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングする。仮クラスター記憶部１７は、クラスタリング部１３の処理によって得られたクラスターごとの画像特徴量を記憶する。特定コンテンツ用顔画像学習部１８は、前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、特定の前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、動画コンテンツ用の顔認識モデルを生成する。顔認識処理部は、生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する。人物データベース２３は、顔画像の画像特徴量とクラスターとを関連付けて記憶する。人物データ登録部２２は、顔認識処理部から出力されたクラスター（使用クラスター）について、仮クラスター記憶部１７から読み出したクラスターごとの画像特徴量の情報を、人物データベース２３に登録する。

これにより、顔認識処理部は、当該動画コンテンツに専用のモデルに基づいて、顔を認識する処理、即ち、顔画像に対応するクラスターを決定する処理を行うことができる。当該動画コンテンツに特有のモデルを用いるため、対象とするクラスター数（人物数）は相対的に限定され、誤認識の確率は低くなる。つまり、高い精度で正しくクラスターを判定することとなる。

クラスタリング部１３は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ってもよい。複数の段階クラスタリング部とは、具体的には、既に説明した第１クラスタリング部１４および第２クラスタリング部１５である。第２段階以後の段階クラスタリング部（つまり、本実施形態では、第２クラスタリング部１５）は、１つ前の段階クラスタリング部（つまり、本実施形態では、第１クラスタリング部１４）から出力されたクラスターの顔画像を対象としてクラスタリング処理を行う。なお、クラスタリングの段階数は３以上であってもよい。

これにより、既に説明した通り、クラスタリングの精度を向上させることが可能となる。

画像管理装置１が名寄せ処理部（不図示）をさらに備えるようにしてもよい。名寄せ処理部は、例えば、人物データベース２３内に設けられた機能であってもよい。名寄せ処理部は、人物データベース２３に登録されている画像特徴量に基づいて、複数のクラスターを１つのクラスターに統合する（名寄せする）ものである。

これにより、新規登録のクラスターと、既存のクラスターとを統合することが容易に行える。

人物データベース２３は、既に説明したように、クラスターに付与するタグを、クラスターと関連付けて記憶するものであってもよい。タグは、例えば、人名等を表す。また、タグ設定部２５を設けてよい。タグ設定部２５は、タグが設定されていないクラスターについて、新たなタグを設定する処理を行う。

これにより、新規登録のクラスターに、人物名等を関連付けて管理することが可能となる。

顔認識処理部は、カット点で区切った時間区間ごとに顔認識処理を行うものであってもよい。カット点は、動画コンテンツのフレーム間における画素値（例えば、フレーム全体における画素値の総合評価値）の変化量がピークとなるポイントである。顔認識処理部は、カット点で区切った時間区間ごとにフレーム間で顔画像を追跡し、追跡結果に基づいてクラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、認識結果としてクラスターの情報を出力するものであってよい。カット単位での顔認識や、カット内での前提事項を利用したエラーの検出および補正については、図１２を参照しながら説明した通りである。

人物データベース２３は、さらに、前記時間区間とクラスターとを関連付けた情報（出演情報）を記憶するものであってよい。これにより、どの時間区間にどの人物が出演していたかを容易に管理することができる。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、動画コンテンツ（放送番組を含む）を管理したり配信したりする事業に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１画像管理装置
１１動画コンテンツ取得部
１２顔検出処理部
１３クラスタリング部
１４第１クラスタリング部
１５第２クラスタリング部
１６仮クラスター管理部
１７仮クラスター記憶部
１８特定コンテンツ用顔画像学習部
１９特定コンテンツ用顔認識モデル
２０カット単位顔認識処理部
２１クラスター選択部
２２人物データ登録部
２３人物データベース
２４出演者データ記憶部
２５タグ設定部

Claims

動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、
前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、
前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、
生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、
顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、
前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、
を備える画像管理装置。
前記クラスタリング部は、複数の段階のクラスタリング処理を行うための複数の段階クラスタリング部を持ち、第２段階以後の前記段階クラスタリング部は、１つ前の前記段階クラスタリング部から出力されたクラスターの前記顔画像を対象としてクラスタリング処理を行う、
請求項１に記載の画像管理装置。
前記人物データベースに登録されている前記画像特徴量に基づいて、複数のクラスターを１つのクラスターに統合する名寄せ処理部、
をさらに備える請求項１または２に記載の画像管理装置。
前記人物データベースは、クラスターに付与するタグを前記クラスターと関連付けて記憶するものであり、
タグが設定されていない前記クラスターについて、新たなタグを設定する処理を行うタグ設定部をさらに備える、
請求項１から３までのいずれか一項に記載の画像管理装置。
前記顔認識処理部は、前記動画コンテンツのフレーム間における画素値の変化量がピークとなるカット点で区切った時間区間ごとにフレーム間で前記顔画像を追跡し、追跡結果に基づいて前記クラスターの判定におけるエラーを検出するとともに検出されたエラーを補正して、前記認識結果としてクラスターの情報を出力する、
請求項１から４までのいずれか一項に記載の画像管理装置。
前記人物データベースは、さらに、前記時間区間と前記クラスターとを関連付けた情報を記憶する、
請求項５に記載の画像管理装置。
動画コンテンツから取り出された顔画像を画像特徴量に基づいてクラスタリングするクラスタリング部と、
前記クラスタリング部の処理によって得られたクラスターごとの前記画像特徴量を記憶する仮クラスター記憶部と、
前記顔画像と前記クラスターとの関係を表す情報に基づいて機械学習処理を行うことによって、前記動画コンテンツに含まれる顔画像を基に前記クラスターを判定するための、前記動画コンテンツ用の顔認識モデルを生成する特定コンテンツ用顔画像学習部と、
生成された前記顔認識モデルに基づいて前記動画コンテンツ内に含まれる顔画像の認識処理を行い、認識結果としてクラスターの情報を出力する顔認識処理部と、
顔画像の画像特徴量とクラスターとを関連付けて記憶する人物データベースと、
前記顔認識処理部から出力されたクラスターについて、前記仮クラスター記憶部から読み出したクラスターごとの前記画像特徴量を、前記人物データベースに登録する人物データ登録部と、
を備える画像管理装置としてコンピューターを機能させるためのプログラム。