JP2014139733A

JP2014139733A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2014139733A
Application number: JP2013008367A
Authority: JP
Inventors: Kentaro Fukazawa; 健太郎深沢; Kenji Tanaka; 健司田中; Kyosuke Yoshida; 恭助吉田; Kazumasa Tanaka; 和政田中
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-01-21
Filing date: 2013-01-21
Publication date: 2014-07-31
Also published as: US20150373404A1; WO2014112449A1; US9699501B2

Abstract

【課題】人名と顔画像特徴量とを登録する作業の効率化を図ることができる。
【解決手段】コンテンツ選択部は、コンテンツアーカイブ内から任意のコンテンツを選択し、各コンテンツ内に、人名入力部からの指定人物名が登場するか否かの人物名登場パターンを取得する。顔グループ取得部は、選択された各コンテンツに登場する顔をグループ化し、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの顔グループ登場パターンを取得する。顔グループ決定部は、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループを、人物名に対応付ける顔グループに決定する。本開示は、例えば、人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う情報処理装置に適用することができる。
【選択図】図１

Description

本開示は、情報処理装置および方法、並びにプログラムに関し、特に、人名と顔画像特徴量とを登録する作業の効率化を図ることができるようにした情報処理装置および方法、並びにプログラムに関する。

顔画像を用いた個人識別の従来技術として、例えば、特許文献１に記載の技術があげられる。特許文献１に記載の技術により個人識別を行うには、予め人名と顔画像とを紐付けして辞書に登録しておく必要があった。この登録作業は、人手で行わなければならず、登録する人物数が多くなると、その作業量は膨大なものとなってしまう。

これに対して、特許文献２には、このような人名と顔画像との紐付けを自動で行う方法が提案されている。特許文献２に記載の技術は、ユーザが録画した番組のEPG(Electronic Program Guide)から人名を抽出し、指定人名が登場する複数の番組を集め、それらに共通して登場する顔をその指定人物に対応する顔として紐付けを行っている。

特開２００９−５３９１６号公報特開２０１０−２８３５１７号公報

しかしながら、特許文献２に記載の技術は、抽出した番組にその人物が登場することを前提としているため、仮にその人物の顔が検出できなかった場合、共通顔がなくなってしまい、人名と顔画像とを対応付けることが困難になってしまっていた。

また、番組内の主要登場人物でない人物やニュース番組に登場する人物などは、必ずしもEPGに記載されない。したがって、特許文献２に記載の技術では、人名と顔画像とを対応付けることが難しかった。

本開示は、このような状況に鑑みてなされたものであり、人名と顔画像特徴量とを登録する作業の効率化を図ることができるものである。

本開示の一側面の情報処理装置は、ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部とを備える。

前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定することができる。

前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名登場パターンを取得することができる。

前記類似性が高い複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、ユーザの操作に応じて、前記１つの顔グループを選択する選択部とをさらに備え、前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定することができる。

前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部をさらに備え、前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。

前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。

前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択することができる。

前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得することができる。

前記候補顔グループが多いクラスタに属する複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、ユーザの操作に応じて、前記１つの顔グループを選択する選択部とをさらに備え、前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定することができる。

前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部をさらに備え、前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。

前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部をさらに備えることができる。

前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択することができる。

本開示の一側面の情報処理方法は、情報処理装置が、ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択し、選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、取得された顔グループから、前記人物名に対応付ける顔グループを決定する。

本開示の一側面のプログラムは、コンピュータを、ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部として機能させる。

本開示の一側面においては、ユーザにより指定された人物名を少なくとも１つ含むコンテンツが選択され、選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループが取得される。そして、取得された顔グループから、前記人物名に対応付ける顔グループが決定される。

本開示によれば、人名と顔画像特徴量とを登録する作業の効率化を図ることができる。

本技術を適用した情報処理装置の構成例を示すブロック図である。情報処理装置の顔辞書登録処理を説明するフローチャートである。人物名登場パターンと顔グループ登場パターンの例を示す図である。コンテンツ選択処理を説明するフローチャートである。指定人物登場頻度データの例を示す図である。コンテンツ選択処理の他の例を説明するフローチャートである。人物登場頻度データの例を示す図である。人物名登場パターンのデータ例を示す図である。顔グループ取得処理を説明するフローチャートである。顔グループ化処理を説明するフローチャートである。顔グループ決定処理を説明するフローチャートである。顔グループ決定部の構成例を示すブロック図である。顔グループ決定処理の他の例を説明するフローチャートである。顔グループ決定部の他の構成例を示すブロック図である。顔グループ決定処理のさらに他の例を説明するフローチャートである。本技術を適用した情報処理装置の他の構成例を示すブロック図である。情報処理装置の顔辞書登録処理を説明するフローチャートである。コンテンツ選択処理を説明するフローチャートである。コンテンツ選択処理の他の例を説明するフローチャートである。顔グループ取得部の構成例を示すブロック図である。顔グループ取得処理を説明するフローチャートである。コンテンツ内顔グループ取得処理を説明するフローチャートである。候補顔グループ取得処理を説明するフローチャートである。候補顔グループ取得処理を説明する図である。顔グループ決定部の構成例を示すブロック図である。顔グループ決定処理を説明するフローチャートである。顔グループ決定部の他の構成例を示すブロック図である。顔グループ決定処理の他の例を説明するフローチャートである。コンピュータの構成例を示すブロック図である。

以下、本開示を実施するための形態（以下実施の形態とする）について説明する。なお、説明は以下の順序で行う。
１．実施の形態（情報処理装置）
２．実施の形態（情報処理装置）
３．実施の形態（コンピュータ）

＜１．実施の形態（情報処理装置）＞
[本技術の情報処理装置の構成]
図１は、本技術を適用した情報処理装置の構成例を示す図である。

図１の情報処理装置１１は、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う。情報処理装置１１は、例えば、パーソナルコンピュータなどで構成される。

図１の例において、情報処理装置１１は、人名入力部２１、コンテンツアーカイブ２２、コンテンツ選択部２３、顔グループ取得部２４、顔グループ決定部２５、登録用顔画像選択部２６、および顔辞書２７を含むように構成されている。

人名入力部２１は、ユーザにより指定された人物名（以下、指定人物名とも称する）を入力し、入力された人物名をコンテンツ選択部２３に供給する。コンテンツアーカイブ２２は、コンテンツを登録し、管理している。

コンテンツ選択部２３は、コンテンツアーカイブ２２内から任意のコンテンツを選択する。また、コンテンツ選択部２３は、各コンテンツ内に、人名入力部２１からの指定人物名、すなわち、指定人物名の人物（以下、指定人物とも称する）が登場するか否かの情報である、人物名登場パターンを取得する。なお、ここで、指定人物が登場している可能性があるコンテンツが少なくとも１つは選択されたコンテンツに含まれることが必要となる。コンテンツ選択部２３は、取得した人物名登場パターンを、選択されたコンテンツとともに、顔グループ取得部２４に供給する。また、コンテンツ選択部２３は、取得した人物名登場パターンを、顔グループ決定部２５に供給する。

顔グループ取得部２４は、選択された各コンテンツに登場する顔をグループ化し、同一人物をそれぞれ１つのグループにまとめる処理を行う。また、顔グループ取得部２４は、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの情報である、顔グループ登場パターンを取得する。顔グループ取得部２４は、取得した顔グループ登場パターンを、顔グループ決定部２５に供給する。

顔グループ決定部２５は、顔グループ取得部２４により取得された顔グループから、指定人物名に対応付ける顔グループを決定する。具体的には、顔グループ決定部２５は、コンテンツ選択部２３からの人物名登場パターンと、顔グループ取得部２４からの各顔グループ登場パターンとの比較処理を行う。そして、顔グループ決定部２５は、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループを、指定人物名に対応付ける顔グループに決定する。顔グループ決定部２５は、決定された顔グループの情報を、登録用顔画像選択部２６に供給する。

登録用顔画像選択部２６は、顔グループ決定部２５により決定された全ての顔グループに属する全ての顔画像の中から、指定数の顔画像および顔画像特徴量を選択し、それらを顔辞書２７に登録する。選択の対象となる顔画像は、顔グループ決定部２５で取得された各顔グループの代表顔であってもよいし、各顔グループに属する全ての顔としてもよい。

例えば、各顔グループの代表顔を用いる場合には、各顔グループの代表顔画像は、顔特徴量によって任意数のクラスタに分類される。クラスタリングには、k-means法など、任意の手法が用いられる。登録用顔画像選択部２６は、各クラスタにおける代表顔を取得し、各クラスタの代表画像または顔特徴量を、顔辞書２７に登録する。あるいは、コンテンツが撮影された時期や、コンテンツの種類などで分類することも可能である。

顔辞書２７は、顔画像および顔画像特徴量を、人物名に対応付けて登録し、管理している。

[情報処理装置の動作]
次に、図２のフローチャートを参照して、情報処理装置１１の動作である顔辞書登録処理について説明する。

例えば、ユーザにより指定された人物名が、人名入力部２１を介してコンテンツ選択部２３に入力される。ステップＳ１１において、コンテンツ選択部２３は、コンテンツ選択処理を行う。このコンテンツ選択処理の詳細は、図４を参照して後述される。

ステップＳ１１の処理により、各コンテンツ内に、指定人物名が登場するか否かの情報である人物名登場パターンが取得されて、コンテンツとともに、顔グループ取得部２４に供給される。

ステップＳ１２において、顔グループ取得部２４は、顔グループ取得処理を行う。この顔グループ取得処理の詳細は、図９を参照して後述される。

ステップＳ１２の処理により、選択された各コンテンツに登場する顔がグループ化され、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの情報である顔グループ登場パターンが取得されて、顔グループ決定部２５に供給される。

また、ステップＳ１１により取得された人物名登場パターンは、顔グループ決定部２５にも供給される。

ステップＳ１３において、顔グループ決定部２５は、顔グループ決定処理を行う。この顔グループ決定処理の詳細は、図１２を参照して後述される。

ステップＳ１３の処理により、コンテンツ選択部２３からの人物名登場パターンと、顔グループ取得部２４からの各顔グループ登場パターンとの比較処理が行われる。そして、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループが、人物名に対応付ける顔グループに決定される。

図３の例においては、上から順に、各コンテンツに対する人物名登場パターン、および顔グループ１乃至３の各顔グループ登場パターンの例が示されている。図３の例においては、コンテンツ内に人物名が登場する場合が「１」で示され、人物名が登場しない場合が「０」で示されている。

入力された人物名は、コンテンツＡに登場し、コンテンツＢとＣに登場しないので、人物名登場パターンは、「１００」とされる。顔グループ１は、コンテンツＡとＣに登場せず、コンテンツＢに登場するので、顔グループ１のグループ登場パターンは、「０１０」とされる。顔グループ２は、コンテンツＡとＣに登場し、コンテンツＢには登場しないので、顔グループ２のグループ登場パターンは、「１０１」とされる。顔グループ３は、コンテンツＡに登場し、コンテンツＢとＣには登場しないので、顔グループ３のグループ登場パターンは、「１００」とされる。

したがって、人物名登場パターン「１００」に最も類似するグループ登場パターンを有する顔グループは、顔グループ３であり、この顔グループ３が人物に対応付ける顔グループに決定される。決定された顔グループの情報は、登録用顔画像選択部２６に供給される。

ステップＳ１４において、登録用顔画像選択部２６は、登録用顔画像選択処理を行う。すなわち、登録用顔画像選択部２６は、顔グループ決定部２５により決定された顔グループの中から、指定数の顔画像および顔画像特徴量を選択し、選択された顔画像および顔画像特徴量を、人物名に対応付けて顔辞書２７に登録する。

以上のようにして、情報処理装置１１においては、顔画像および顔画像特徴量が、人物名に対応付けて顔辞書２７に登録されて、検索を行うことができるようになる。したがって、辞書登録作業の効率化を図ることができる。

[コンテンツ選択処理の例]
次に、図４のフローチャートを参照して、図２のステップＳ１１のコンテンツ選択処理について説明する。このコンテンツ選択処理においては、指定人物が登場している可能性があるコンテンツが少なくとも１つ含まれるように、コンテンツアーカイブ２２内から、任意数のコンテンツが取得される。

コンテンツ選択部２３は、ステップＳ３１において、アーカイブ（コンテンツアーカイブ２２）から、コンテンツを１つ取得し、ステップＳ３２において、フレームを選択する。

ステップＳ３３において、コンテンツ選択部２３は、選択したフレームについて、各種識別処理を行う。すなわち、ステップＳ３２およびＳ３３においては、任意の時間間隔で、コンテンツに付加されているメタデータの読み取りや、各種識別処理によって指定人物名や指定人物による発話が登場するか否かが判断される。

ここでいう識別処理とは、画面内の文字情報の識別処理であったり、発話内容の識別処理であったり、さらには、発話者の識別処理など、映像内の文字や音声等情報を用いた処理である。したがって、指定人物が存在するかどうかを識別できれば、識別処理はこれらに限定される必要はない。

ステップＳ３４において、コンテンツ選択部２３は、上述した識別処理が行われる度に、その結果で、指定人物登場頻度データを更新する。指定人物登場頻度データへの記載内容としては、識別を行った時間位置、登場したか否かの情報となる。ここで、登場したか否かの情報は、識別処理結果毎に持たさせてもよいし、１つにまとめてもよいし、それら両方であってもよい。また、識別時の文字の大きさや、音声の音量などの情報を合わせて記載してもよい。

図５は、指定人物登場頻度データの例を示している。図５の例においては、５分毎に識別された、指定人物に対する文字識別結果、発話内容識別結果、全識別結果、並びにメタデータの有無の識別結果が時系列で示されている。

図５の例においては、コンテンツの開始から５分後に、指定人物に対する文字識別の結果があることが示されている。コンテンツの開始から５分後および１０分後に、指定人物に対する発話識別の結果があることが示されている。コンテンツの開始から１５分後および２０分後に、指定人物に対する発話識別の結果があることが示されている。

そして、コンテンツの開始から５分乃至２０分後に、全識別結果があることが示されている。さらに、コンテンツの開始から５分乃至２０分後に、メタデータがあることが示されている。

図４に戻って、ステップＳ３５において、コンテンツ選択部２３は、全フレームに対して行ったか否かを判定する。ステップＳ３５において、全フレームに対して行っていないと判定された場合、処理は、ステップＳ３２に戻り、それ以降の処理が繰り返される。

ステップＳ３５において、全フレームに対して行ったと判定された場合、処理は、ステップＳ３６に進む。ステップＳ３６において、コンテンツ選択部２３は、更新された指定人物登場頻度データに基づいて、人物名登場パターンを更新する。

ステップＳ３７において、コンテンツ選択部２３は、指定コンテンツ数分のコンテンツを取得したか否かを判定する。ステップＳ３７において、指定コンテンツ数分のコンテンツを取得していないと判定された場合、処理は、ステップＳ３１に戻り、それ以降の処理が繰り返される。

ステップＳ３７において、指定コンテンツ数分のコンテンツを取得したと判定された場合、処理は、ステップＳ３８に進む。ステップＳ３８において、コンテンツ選択部２３は、指定人物が登場するコンテンツ数が０であるか否かを判定する。ステップＳ３８において、指定人物が登場するコンテンツ数が０であると判定された場合、処理は、ステップＳ３９に進む。

ステップＳ３９において、コンテンツ選択部２３は、コンテンツを１つ削除し、処理は、ステップＳ３１に戻る。ステップＳ３８において、指定人物が登場するコンテンツ数が０ではないと判定された場合、図４のコンテンツ選択処理は終了される。

なお、以上説明したコンテンツ選択処理における識別処理は、人物名が指定される度に行う例を説明した。しかしながら、この識別処理は、人物名が指定される度に行う必要はない。すなわち、コンテンツ毎にそのコンテンツに登場する人物とその頻度に関する情報を予め取得して、例えば、メモリなどに記憶しておき、その情報に基づいて、人物名登場パターンを更新するようにすることもできる。この場合のコンテンツ選択処理の例について、次の図６に示す。

[コンテンツ選択処理の他の例」
次に、図６のフローチャートを参照して、図２のステップＳ１１におけるコンテンツ選択処理の他の例について説明する。

コンテンツ選択部２３は、ステップＳ５１において、アーカイブ（コンテンツアーカイブ２２）から、コンテンツを１つ取得する。ステップＳ５２において、コンテンツ選択部２３は、取得したコンテンツについての人物登場頻度データを、例えば、図示せぬメモリなどから取得する。

図７は、人物登場頻度データの例を示している。図７の例においては、５分毎に識別された、コンテンツに登場する複数の人物（例えば、JAMESとMARY）に対する文字識別結果、発話内容識別結果、全識別結果、並びにメタデータの有無の識別結果が時系列で示されている。

図７の例においては、コンテンツの開始から５分後に、JAMESに対する文字識別の結果があり、１５分後と２０分後に、MARYに対する文字識別の結果があることが示されている。コンテンツの開始から５分後と１０分後に、JAMESに対する発話識別の結果があり、１５分後と２０分後に、MARYに対する発話識別の結果があることが示されている。コンテンツの開始から１５分後および２０分後に、JAMESに対する発話識別の結果があり、２５分後に、MARYに対する発話識別の結果があることが示されている。

そして、コンテンツの開始から５分乃至２０分後に、JAMESに対する全識別結果があり、１５分乃至２５分後に、MARYに対する全識別結果があることが示されている。さらに、コンテンツの開始から５分乃至２０分後に、JAMESに対するメタデータがあり、２５分後に、MARYに対するメタデータがあることが示されている。

図６に戻って、ステップＳ５３において、コンテンツ選択部２３は、取得した人物登場頻度データに基づいて、人物名登場パターンを更新する。

ステップＳ５４において、コンテンツ選択部２３は、指定コンテンツ数分のコンテンツを取得したか否かを判定する。ステップＳ５４において、指定コンテンツ数分のコンテンツを取得していないと判定された場合、処理は、ステップＳ５１に戻り、それ以降の処理が繰り返される。

ステップＳ５４において、指定コンテンツ数分のコンテンツを取得したと判定された場合、処理は、ステップＳ５５に進む。ステップＳ５５において、コンテンツ選択部２３は、指定人物が登場するコンテンツ数が０であるか否かを判定する。ステップＳ５５において、指定人物が登場するコンテンツ数が０であると判定された場合、処理は、ステップＳ５６に進む。

ステップＳ５６において、コンテンツ選択部２３は、コンテンツを１つ削除し、処理は、ステップＳ５１に戻る。ステップＳ５５において、指定人物が登場するコンテンツ数が０ではないと判定された場合、図６のコンテンツ選択処理は終了される。

[人物名登場パターンのデータ例]
図８は、人物名登場パターンのデータ例を示す図である。人物名登場パターンのデータは、登場頻度が閾値より大きければ、指定人物が登場しているとして設定される。

例えば、図８のＡにおいては、指定人物が、コンテンツ内に登場する場合を「１」で示し、登場しない場合を「０」で示している。人物名は、コンテンツＡに登場し、コンテンツＢとＣに登場しないので、人物登場パターンは、「１００」とされる。

このように、人物名登場パターンのデータを、１と０の２段階の値で表わすようにしてもよい。

図８のＢにおいては、人物名登場パターンのデータとして、コンテンツ全体に対する登場頻度の割合をｎ段階の値で表わす例が示されている。図８のＢの場合、コンテンツＡが「６０」であり、コンテンツＢが「５」であり、コンテンツＣが「１」となっている。これは、例えば、指定人物が、コンテンツＡに、６０の割合で登場しており、コンテンツＢに５の割合で登場しており、コンテンツＣに登場していないことを意味している。

なお、図８のＡおよび図８のＢの例においては、１つのコンテンツに対して１つの値で表わす例が示されている。これに対して、図８のＣに示されるように、コンテンツ内をいくつかの区分に分割し、区間毎に登場に関する値を求め、それらの組み合わせとして、人物名登場パターンのデータを表すようにしてもよい。すなわち、登場頻度に関する情報をｎ段階の値とし、区間数分持つことも可能である。

図８のＣにおいては、コンテンツＡの人物名登場パターンのデータが、「９０−２０−７０」と示されており、コンテンツＢの人物名登場パターンのデータが、「５−０−１０」と示されている。また、コンテンツＣの人物名登場パターンのデータが、「０−０−０」と示されている。

すなわち、図８のＣの場合、指定人物がコンテンツＡに、第１の区間において「９０」の割合で登場しており、第２の区間において「２０」の割合で登場しており、第３の区間において「７０」の割合で登場していることが示されている。指定人物がコンテンツＢに、第１の区間において「５」の割合で登場しており、第２の区間において登場しておらず、第３の区間において「１０」の割合で登場していることが示されている。指定人物がコンテンツＣに、第１の区間乃至第３の区間において登場していないことが示されている。

ここで、登場頻度に関する情報は、上述したように全識別結果をまとめたものを利用してもよいし、ユーザが指定する識別結果のみを利用して求めるようにしてもよい。また、登場頻度のみならず、文字の大きさや音量を用いて重み付けをしてもよい。

[顔グループ取得処理の例]
次に、図９のフローチャートを参照して、図２のステップＳ１２における顔グループ取得処理について説明する。この処理においては、コンテンツ選択部２３で選択された全コンテンツに登場する顔画像が検出され、人物毎にグループ化処理が行われ、指定人物と対応する可能性が高い顔グループのみが取得される。

顔グループ取得部２４は、ステップＳ７１において、顔グループ化処理を行う。なお、顔グループ化処理については、図１０を参照して後述される。

ステップＳ７１の処理により、コンテンツ内に登場する顔画像が検出され、検出された顔画像が人物毎にグループ化されて、顔グループが、顔グループのリストである顔グループリストに登録される。なお、この処理は、コンテンツ選択部２３により選択された全コンテンツに対して行われる。また、グループ化は、コンテンツ毎に行われるのではなく、コンテンツ全てに対して行われる。

ステップＳ７２において、顔グループ取得部２４は、顔グループリストから、顔グループを１つ選択し、顔グループ毎に個人識別を行う。ステップＳ７３において、顔グループ取得部２４は、ステップＳ７２において選択された顔グループに属する顔が、内蔵される辞書に登録済みの人物と一致するか否かを判定する。

ステップＳ７３において、選択した顔グループに属する顔が、登録済みの人物と一致すると判定された場合、処理は、ステップＳ７４に進む。すなわち、この場合、その顔グループは、人名入力部２１に入力された指定人物名と対応付けすべき顔でないことが明確なので、ステップＳ７４において、顔グループ取得部２４は、その顔グループを、顔グループリストから削除する。

ステップＳ７３において、選択した顔グループに属する顔が、登録済みの人物と一致しないと判定された場合、ステップＳ７５に進む。ステップＳ７５において、顔グループ取得部２４は、その顔グループの顔グループ登場パターンを作成する。

このパターンデータは、人物名登場パターンを作成するときの条件、つまり、人物名登場パターンを作成するときの条件、すなわち、登場割合を示す変数の段階数ｎ、コンテンツの区間分割数、区間分割位置を同一にして作成する。登場割合に関する値は、人物名登場パターンと同様の方法で求めることができるほか、顔画像の登場頻度に加えて、顔画像の大きさや、顔の位置（画面中央からの距離）、同時に登場している人物数などを用いて重み付けをして求めるようにしてもよい。

ステップＳ７６において、顔グループ取得部２４は、以上の処理が全顔グループに対して行ったか否かを判定する。ステップＳ７６において、全顔グループに対して行われていないと判定された場合、処理は、ステップＳ７２に戻り、それ以降の処理が繰り返される。

ステップＳ７６において、全顔グループに対して行われたと判定された場合、図９の顔グループ取得処理は終了される。そして、作成された顔グループ毎の顔グループ登場パターンは、顔グループ決定部２５に供給される。

[顔グループ化処理の例]
次に、図１０のフローチャートを参照して、図９のステップＳ１１における顔グループ化処理について説明する。なお、この処理は、動画像の先頭フレームから任意時間間隔で動画像全体に対して行われる。

顔グループ取得部２４は、ステップＳ９１において、顔画像が検出されたか否かを判定する。ステップＳ９１において顔画像が検出されたと判定された場合、処理は、ステップＳ９２に進む。

ステップＳ９２において、顔グループ取得部２４は、現在のグループ数が０より多いか否かを判定する。ステップＳ９２において、現在のグループ数が１以上あると判定された場合、処理は、ステップＳ９３に進む。

ステップＳ９３において、顔グループ取得部２４は、グループ毎に類似度評価を行う。すなわち、顔グループ取得部２４は、既存のグループに登録されている顔画像と、いま検出された顔画像との類似度を評価する。

ステップＳ９４において、顔グループ取得部２４は、各グループの中で求めた最も大きい類似度（最大類似度）が閾値より大きいか否かを判定する。ステップＳ９４において、最大類似度が閾値より大きいと判定された場合、処理は、ステップＳ９５に進む。

ステップＳ９５において、顔グループ取得部２４は、その最大類似度であるグループに、検出された顔画像を追加する。すなわち、顔グループ取得部２４は、検出された顔画像が、最大類似度が求まったグループに登録されている顔と同一人物の顔であるとして、検出された顔画像を、そのグループのメンバーとして追加する。

一方、ステップＳ９２において、現在のグループ数が０であると判定された場合、処理は、ステップＳ９６に進む。また、ステップＳ９４において、最大類似度が閾値以下であると判定された場合も、検出された顔画像が、どのグループの顔とも別人であるとして、ステップＳ９６に進む。ステップＳ９６において、顔グループ取得部２４は、新たな顔グループを生成し、検出された顔画像をメンバーとして追加する。そして、顔グループ取得部２４は、作成した顔グループを顔グループリストに登録する。

ステップＳ９１において、顔画像が検出されていないと判定された場合、処理は、ステップＳ９７に進む。ステップＳ９７において、顔グループ取得部２４は、動画像を構成する全てのフレームについて終了したか否かを判定する。

ステップＳ９７において、全てのフレームについて終了していないと判定された場合、処理は、ステップＳ９１に戻り、任意時間間隔のフレームで、それ以降の処理が繰り返される。ステップＳ９７において、全てのフレームについて終了したと判定された場合、顔グループ化処理は終了され、処理は、図９のステップＳ７１に戻る。

なお、顔グループ化の処理は、図１０を参照して説明した処理に限定されず、グループ化できればどのような方法を用いてもよい。

[顔グループ決定処理の例]
次に、図１１のフローチャートを参照して、図２のステップＳ１３における顔グループ決定処理について説明する。この処理においては、コンテンツ選択部２３により求められた人物名登場パターンと、顔グループ取得部２４により求められた顔グループ登場パターンとの類似性が評価され、その結果に基づいて、指定人物名に対応付けする顔グループが決定される。

ステップＳ１１１において、顔グループ決定部２５は、コンテンツ選択部２３からの人物名登場パターンを読み込む。ステップＳ１１２において、顔グループ決定部２５は、読み込んだ人物名登場パターンと、顔グループ取得部２４により取得された顔グループ登場パターン間の類似性の距離取得を行う。

ステップＳ１１３において、顔グループ決定部２５は、ステップＳ１１２の処理を、全顔グループに対して行ったか否かを判定する。ステップＳ１１３において、全顔グループに対して行っていないと判定された場合、処理は、ステップＳ１１２に戻り、それ以降の処理が繰り返される。

ステップＳ１１３において、全顔グループに対して行ったと判定された場合、処理は、ステップＳ１１４に進む。ステップＳ１１４において、顔グループ決定部２５は、距離最小グループを、指定人物名に対応付けを行う。

なお、以上のような顔グループの決定に際して、距離が最小の顔グループを選択する例を説明したが、次に説明するように、上位いくつかの顔グループを候補として、ユーザに提示し、選択させるようにしてもよい。

[顔グループ決定部の構成例]
図１２は、上位いくつかの顔グループを候補としてユーザに提示し、選択させる場合の顔グループ決定部の構成例を示すブロック図である。

図１２の例においては、顔グループ決定部２５は、人物名登場パターン入力部１３１、顔グループ登場パターン入力部１３２、人物名・顔グループ間距離取得部１３３、選択画面表示制御部１３４、および顔グループ設定部１３５を含むように構成されている。

また、この場合、情報処理装置１１は、図１を参照して上述した構成に加えて、さらに、表示部１４１および操作入力部１４２を含むように構成されている。

人物名登場パターン入力部１３１は、コンテンツ選択部２３からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。顔グループ登場パターン入力部１３２は、顔グループ取得部２４からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。

人物名・顔グループ間距離取得部１３３は、全顔グループに対して、人物名登場パターンと顔グループ登場パターン間の距離取得を行う。そして、人物名・顔グループ間距離取得部１３３は、距離最小顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部１３４および顔グループ設定部１３５に供給する。

選択画面表示制御部１３４は、処理の１つとして、ユーザ選択がある場合、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、１つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部１３４は、生成した選択画面を、表示部１４１に表示させる。また、選択画面表示制御部１３４は、操作入力部１４２を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部１３５に供給する。

顔グループ設定部１３５は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部１３４から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１３５は、処理の１つとして、ユーザ選択がない場合、人物名・顔グループ間距離取得部１３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

表示部１４１は、例えば、LCD(Liquid Crystal Display)などで構成されており、選択画面表示制御部１３４からの選択画面を表示する。

操作入力部１４２は、例えば、マウス、キーボードや、表示部１４１に積層されるタッチパネルなどで構成され、ユーザの操作に対応する信号を、選択画面表示制御部１３４に供給する。例えば、選択画面における顔グループの選択信号などが選択画面表示制御部１３４を介して、顔グループ設定部１３５などに供給される。

[顔グループ決定処理の例]
次に、図１３のフローチャートを参照して、図１２の顔グループ決定部２５により実行される図２のステップＳ１３における顔グループ決定処理について説明する。

ステップＳ１３１において、人物名登場パターン入力部１３１は、コンテンツ選択部２３からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。このとき、顔グループ登場パターン入力部１３２は、顔グループ取得部２４からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。

ステップＳ１３２において、人物名・顔グループ間距離取得部１３３は、人物名登場パターン入力部１３１からの人物名登場パターンと、顔グループ登場パターン入力部１３２からの顔グループ登場パターン間の類似性の距離取得を行う。

ステップＳ１３３において、人物名・顔グループ間距離取得部１３３は、全顔グループに対して行ったか否かを判定する。ステップＳ１３３において、全顔グループに対して行っていないと判定された場合、処理は、ステップＳ１３２に戻り、それ以降の処理が繰り返される。

ステップＳ１３３において、全顔グループに対して行ったと判定された場合、処理は、ステップＳ１３４に進む。人物名・顔グループ間距離取得部１３３は、ステップＳ１３４において、距離最小顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部１３４および顔グループ設定部１３５に供給する。

ステップＳ１３５において、選択画面表示制御部１３４は、処理の１つとして、ユーザ選択があるか否かを判定する。ステップＳ１３５において、ユーザ選択があると判定された場合、処理は、ステップＳ１３６に進む。

ステップＳ１３６において、選択画面表示制御部１３４は、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、１つの顔グループ名を選択可能な選択画面を生成する。そして、選択画面表示制御部１３４は、生成した選択画面を、表示部１４１に表示させる。

ユーザは、操作入力部１４２を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部１４２は、この選択に対応する選択信号を、選択画面表示制御部１３４に供給する。

ステップＳ１３７において、選択画面表示制御部１３４は、操作入力部１４２からの選択結果を取得する。ステップＳ１３８において、選択画面表示制御部１３４は、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部１３５に供給する。

一方、ステップＳ１３５において、ユーザ選択がないと判定された場合、処理は、ステップＳ１３６乃至Ｓ１３８をスキップし、ステップＳ１３９に進む。

ステップＳ１３９において、顔グループ設定部１３５は、顔グループを設定する。すなわち、顔グループ設定部１３５は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部１３４から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１３５は、処理の１つとして、ユーザ選択がない場合、人物名・顔グループ間距離取得部１３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

なお、以上のような顔グループの決定に際して、上位いくつかの顔グループを候補として、ユーザに提示し、選択させる例を説明したが、次に説明するように、外部データとしてネットワークサービスなどを利用して選択を行うようにしてもよい。

[顔グループ決定部の構成例]
図１４は、外部データとしてネットワークサービスなどを利用して選択を行う場合の顔グループ決定部の構成例を示すブロック図である。

図１４の例においては、顔グループ決定部２５は、人物名登場パターン入力部１３１、顔グループ登場パターン入力部１３２、および人物名・顔グループ間距離取得部１３３を含むように構成されている。さらに、顔グループ決定部２５は、外部データ入力部１５１、外部データ比較部１５２、選択画面表示制御部１５３、および顔グループ設定部１５４を含むように構成されている。

図１４の顔グループ決定部２５は、人物名登場パターン入力部１３１、顔グループ登場パターン入力部１３２、および人物名・顔グループ間距離取得部１３３を備える点で、図１２の顔グループ決定部２５と共通している。

図１４の顔グループ決定部２５は、選択画面表示制御部１３４および顔グループ設定部１３５が、選択画面表示制御部１５３および顔グループ設定部１５４に入れ替わった点が、図１２の顔グループ決定部２５と異なる。また、図１４の顔グループ決定部２５は、外部データ入力部１５１および外部データ比較部１５２が追加された点が、図１２の顔グループ決定部２５と異なる。

すなわち、人物名・顔グループ間距離取得部１３３は、距離最小顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部１５２、選択画面表示制御部１５３、および顔グループ設定部１５４に供給する。

外部データ入力部１５１は、図１の人名入力部２１に入力されたものと同じ人物名が、外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量などで構成される外部データを入力し、外部データ比較部１５２に供給する。

外部データ比較部１５２は、外部データ入力部１５１からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部１３３からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。外部データ比較部１５２は、比較の結果、外部データと最も類似度の高い顔グループを、第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部１５３、および顔グループ設定部１５４に供給する。

選択画面表示制御部１５３は、処理の１つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部１５２からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部１５３は、処理の１つとして、外部データを利用せず、かつ、ユーザ選択がある場合、人物名・顔グループ間距離取得部１３３からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部１５３は、生成した選択画面を、表示部１４１に表示させる。

選択画面表示制御部１５３は、操作入力部１４２を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部１３５に供給する。

顔グループ設定部１５４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部１５３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１５４は、処理の１つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部１５２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１５４は、処理の１つとして、外部データを利用せず、ユーザ選択がない場合、人物名・顔グループ間距離取得部１３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

[顔グループ決定処理の他の例]
次に、図１５のフローチャートを参照して、図１４の顔グループ決定部２５により実行される図２のステップＳ１３における顔グループ決定処理について説明する。

ステップＳ１５１において、人物名登場パターン入力部１３１は、コンテンツ選択部２３からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。このとき、顔グループ登場パターン入力部１３２は、顔グループ取得部２４からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部１３３に供給する。

ステップＳ１５２において、人物名・顔グループ間距離取得部１３３は、人物名登場パターン入力部１３１からの人物名登場パターンと、顔グループ登場パターン入力部１３２からの顔グループ登場パターン間の類似性の距離取得を行う。

ステップＳ１５３において、人物名・顔グループ間距離取得部１３３は、全顔グループに対して行ったか否かを判定する。ステップＳ１５３において、全顔グループに対して行っていないと判定された場合、処理は、ステップＳ１５２に戻り、それ以降の処理が繰り返される。

ステップＳ１５３において、全顔グループに対して行ったと判定された場合、処理は、ステップＳ１５４に進む。人物名・顔グループ間距離取得部１３３は、ステップＳ１５４において、距離最小顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部１５２、選択画面表示制御部１５３、および顔グループ設定部１５４に供給する。

ステップＳ１５５において、外部データ比較部１５２は、処理の１つとして、外部データを利用するか否かを判定する。ステップＳ１５５において、外部データを利用すると判定された場合、処理は、ステップＳ１５６に進む。

ステップＳ１５６において、外部データ比較部１５２は、人物名・顔グループ間距離取得部１３３からの距離が小さい上位いくつかの顔グループと、外部データ入力部１５１からの外部データとの比較処理を行う。すなわち、外部データ比較部１５２は、外部データ入力部１５１からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部１３３からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。

ステップＳ１５７において、外部データ比較部１５２は、比較の結果、外部データと最も類似度の高い顔グループを、第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部１５３、および顔グループ設定部１５４に供給する。

また、ステップＳ１５５において、外部データを利用しないと判定された場合、処理は、ステップＳ１５６およびＳ１５７をスキップし、ステップＳ１５８に進む。

ステップＳ１５８において、選択画面表示制御部１５３は、処理の１つとして、ユーザ選択があるか否かを判定する。ステップＳ１５８において、ユーザ選択があると判定された場合、処理は、ステップＳ１５９に進む。

ステップＳ１５９において、選択画面表示制御部１５３は、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、１つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部１５３は、生成した選択画面を、表示部１４１に表示させる。

なお、選択画面表示制御部１５３は、処理の１つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部１５２からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部１５３は、処理の１つとして、外部データを利用せず、かつ、ユーザ選択がある場合、人物名・顔グループ間距離取得部１３３からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。

ユーザは、操作入力部１４２を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部１４２は、この選択に対応する選択信号を、選択画面表示制御部１５３に供給する。

ステップＳ１６０において、選択画面表示制御部１５３は、操作入力部１４２からの選択結果を取得する。ステップＳ１６１において、選択画面表示制御部１５３は、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部１５４に供給する。

ステップＳ１５８において、ユーザ選択がないと判定された場合、処理は、ステップＳ１５９乃至Ｓ１６１をスキップし、ステップＳ１６２に進む。

ステップＳ１６２において、顔グループ設定部１５４は、顔グループを設定する。すなわち、顔グループ設定部１５４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部１５３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１５４は、処理の１つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部１５２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部１５４は、処理の１つとして、外部データを利用せず、ユーザ選択がない場合、人物名・顔グループ間距離取得部１３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

以上のように、図１の情報処理装置１１においては、選択したコンテンツ内に、ユーザにより指定された人物名が登場するか否かを示す人物名登場パターンが取得され、選択された全コンテンツに登場するか否かを示す顔グループ登場パターンが取得される。そして、人物名登場パターンと、顔グループ登場パターンとの類似性に基づいて、ユーザにより指定された人物名に対応付ける顔グループが決定される。これにより、人名登録の作業の効率化を図ることができる。

＜２．実施の形態（情報処理装置）＞
[本技術の情報処理装置の他の構成]
図１６は、本技術を適用した情報処理装置の構成例を示す図である。

図１６の情報処理装置２１１は、図１の情報処理装置１１と同様に、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う。情報処理装置２１１は、情報処理装置１１と同様に、例えば、パーソナルコンピュータなどで構成される。

図１６の例において、情報処理装置２１１は、人名入力部２１、コンテンツアーカイブ２２、コンテンツ選択部２２１、顔グループ取得部２２２、顔グループ決定部２２３、登録用顔画像選択部２６、顔辞書２７を含むように構成されている。

情報処理装置２１１は、人名入力部２１、コンテンツアーカイブ２２、登録用顔画像選択部２６、および顔辞書２７を備える点は、図１の情報処理装置１１と共通している。情報処理装置２１１は、コンテンツ選択部２３、顔グループ取得部２４、顔グループ決定部２５が、それぞれ、コンテンツ選択部２２１、顔グループ取得部２２２、顔グループ決定部２２３に入れ替わった点が、図１の情報処理装置１１と異なっている。

すなわち、コンテンツ選択部２２１は、コンテンツアーカイブ２２内から、人名入力部２１からの指定人物名やその指定人物が登場している可能性のあるコンテンツを選択する。ここで、選択されるコンテンツは、コンテンツアーカイブ２２内の指定された範囲内にあるコンテンツとする。例えば、映像のカテゴリや、撮影時期、撮影場所などで対象を制限することができる。

コンテンツ選択部２２１は、選択したコンテンツの情報を、顔グループ取得部２２２に供給する。

顔グループ取得部２２２は、コンテンツ選択部２２１により選択された各コンテンツ内に登場する顔をグループ化し、同一人物をそれぞれ１つのグループにまとめる処理を行う。そして、顔グループ取得部２２２は、選択された全コンテンツの全顔グループの中から、指定人物である可能性の高い顔グループを、候補顔グループとして取得する処理を行う。具体的には、顔グループ取得部２２２は、選択されたコンテンツの顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する。顔グループ取得部２２２は、取得した候補顔グループの情報を、顔グループ決定部２２３に供給する。

顔グループ決定部２２３は、顔グループ取得部２２２により取得された候補顔グループの中から指定人物に対応する顔グループを決定する処理を行う。具体的には、顔グループ決定部２２３は、候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、人物名に対応付ける顔グループとして決定する。顔グループ決定部２２３は、決定された顔グループの情報を、登録用顔画像選択部２６に供給する。

[情報処理装置の動作]
次に、図１７のフローチャートを参照して、情報処理装置２１１の動作である顔辞書登録処理について説明する。

例えば、ユーザにより指定された人物名が、人名入力部２１を介してコンテンツ選択部２２１に入力される。ステップＳ２１１において、コンテンツ選択部２２１は、コンテンツ選択処理を行う。このコンテンツ選択処理の詳細は、図１８を参照して後述される。

ステップＳ２１１の処理により、コンテンツアーカイブ２２内から指定人物が登場している可能性のあるコンテンツが選択されて、コンテンツとともに、顔グループ取得部２２２に供給される。

ステップＳ２１２において、顔グループ取得部２２２は、顔グループ取得処理を行う。この顔グループ取得処理の詳細は、図２１を参照して後述される。

ステップＳ２１２の処理により、選択された各コンテンツに登場する顔画像が検出され、人物毎にグループ化が行われ、指定人物と対応する可能性のある顔グループのみが、候補顔グループとして取得されて、顔グループ決定部２２３に供給される。

ステップＳ２１３において、顔グループ決定部２２３は、顔グループ決定処理を行う。この顔グループ決定処理の詳細は、図２６を参照して後述される。

ステップＳ２１３の処理により、顔グループ取得部２２２により取得された候補顔グループ群から、指定人物名と対応付けさせる顔グループが決定される。決定された顔グループの情報は、登録用顔画像選択部２６に供給される。

ステップＳ２１４において、登録用顔画像選択部２６は、登録用顔画像選択処理を行う。すなわち、登録用顔画像選択部２６は、顔グループ決定部２５により決定された顔グループの中から、指定数の顔画像および顔画像特徴量を選択し、選択された顔画像および顔画像特徴量を、人物名に対応付けて顔辞書２７に登録する。

以上のようにして、情報処理装置２１１においては、顔画像および顔画像特徴量が、人物名に対応付けて顔辞書２７に登録されて、検索を行うことができるようになる。したがって、辞書登録作業の効率化を図ることができる。

[コンテンツ選択処理の例]
次に、図１８のフローチャートを参照して、図１７のステップＳ２１１のコンテンツ選択処理について説明する。このコンテンツ選択処理においては、コンテンツアーカイブ２２内から、指定人物が登場している可能性のあるコンテンツが取得される。

コンテンツ選択部２２１は、ステップＳ２３１において、コンテンツアーカイブ２２から、コンテンツを選択し、ステップＳ２３２において、フレームを選択する。

ステップＳ２３３において、コンテンツ選択部２２１は、選択したフレームについて、各種識別処理を行う。なお、ステップＳ２３３においては、図４のステップＳ３３で行われる識別処理と基本的に同様の処理が行われる。すなわち、ステップＳ２３２乃至Ｓ２３３においては、任意の時間間隔で、コンテンツに付加されているメタデータの読み取りや、各種識別処理によって指定人物名や指定人物による発話が登場するか否かが判断される。

ここでいう識別処理とは、画面内の文字情報の識別処理であったり、発話内容の識別処理であったり、さらには、発話者の識別処理など、映像内の文字や音声等情報を用いた処理である。したがって、指定人物名に関する文字情報、音声情報が取得でき、指定人物が存在するかどうかを識別できれば、識別処理はこれらに限定される必要はない。

ステップＳ２３４において、コンテンツ選択部２２１は、上述した識別処理が行われる度に、その結果で、指定人物登場頻度データを更新する。例えば、指定人物登場頻度データは、図５を参照して上述したように構成されている。指定人物登場頻度データへの記載内容としては、識別を行った時間位置、登場したか否かの情報となる。ここで、登場したか否かの情報は、識別処理結果毎に持たさせてもよいし、１つにまとめてもよいし、それら両方であってもよい。また、識別時の文字の大きさや、音声の音量などの情報を合わせて記載してもよい。

ステップＳ２３５において、コンテンツ選択部２２１は、全フレームに対して行ったか否かを判定する。ステップＳ２３５において、全フレームに対して行っていないと判定された場合、処理は、ステップＳ２３２に戻り、それ以降の処理が繰り返される。

ステップＳ２３５において、全フレームに対して行ったと判定された場合、処理は、ステップＳ２３６に進む。ステップＳ２３６において、コンテンツ選択部２２１は、更新された指定人物登場頻度データに基づいて、登場頻度が閾値よりも大きいか否かを判定する。

ステップＳ２３６において、登場頻度が閾値よりも大きいと判定された場合、指定人物が登場しているとして、処理は、ステップＳ２３７に進む。ステップＳ２３７において、コンテンツ選択部２２１は、ステップＳ２３１で選択されたコンテンツを、指定人物登場コンテンツリストに追加する。

ステップＳ２３６において、登場頻度が閾値よりも小さいと判定された場合、ステップＳ２３７の処理はスキップされ、処理は、ステップＳ２３８に進む。

なお、上述したステップＳ２３６においては、登場頻度のみならず、識別時の文字の大きさや、音声の音量などを組み合わせて、指定人物が登場しているか否かを判定するようにしてもよい。

ステップＳ２３８において、コンテンツ選択部２２１は、以上の処理を、全コンテンツに対して行ったか否かを判定する。ステップＳ２３８において、全コンテンツに対して行っていないと判定された場合、処理は、ステップＳ２３１に戻り、それ以降の処理が繰り返される。ステップＳ２３８において、全コンテンツに対して行ったと判定された場合、図１８のコンテンツ選択処理は終了される。そして、選択したコンテンツの情報として、指定人物登場コンテンツリストのコンテンツの情報が、顔グループ取得部２２２に供給される。

なお、以上説明したコンテンツ選択処理における識別処理は、人物名が指定される度に行う例を説明した。しかしながら、この識別処理は、人物名が指定される度に行う必要はない。すなわち、コンテンツ毎にそのコンテンツに登場する人物とその頻度に関する情報を予め取得して、例えば、メモリなどに記憶しておき、その情報に基づいて、人物名登場パターンを更新するようにすることもできる。この場合のコンテンツ選択処理の例について、次の図１９に示す。

[コンテンツ選択処理の他の例」
次に、図１９のフローチャートを参照して、図１７のステップＳ２１１におけるコンテンツ選択処理の他の例について説明する。

コンテンツ選択部２２１は、ステップＳ２５１において、コンテンツアーカイブ２２から、コンテンツを１つ選択する。ステップＳ２５２において、コンテンツ選択部２３は、取得したコンテンツについての人物登場頻度データを、例えば、図示せぬメモリなどから読み込む。例えば、人物登場頻度データは、図７を参照して上述したように構成されている。

ステップＳ２５３において、コンテンツ選択部２３は、指定人物が登場するか否かを判定する。例えば、図１８のステップＳ２３６と同様に、登場頻度が閾値より大きいか否かを判定することで、指定人物が登場するか否かが判定される。

ステップＳ２５３において、登場頻度が閾値より大きい、すなわち、指定人物が登場すると判定された場合、処理は、ステップＳ２５４に進む。ステップＳ２５４において、コンテンツ選択部２３は、ステップＳ２５１において選択されたコンテンツを、指定人物登場コンテンツリストに追加する。

ステップＳ２５３において、登場頻度が閾値より小さい、すなわち、指定人物が登場しないと判定された場合、処理は、ステップＳ２５４をスキップし、ステップＳ２５５に進む。

ステップＳ２５５において、コンテンツ選択部２２１は、以上の処理を、全コンテンツに対して行ったか否かを判定する。ステップＳ２５５において、全コンテンツに対して行っていないと判定された場合、処理は、ステップＳ２５１に戻り、それ以降の処理が繰り返される。ステップＳ２５５において、全コンテンツに対して行ったと判定された場合、図１９のコンテンツ選択処理は終了される。そして、選択したコンテンツの情報として、指定人物登場コンテンツリストのコンテンツの情報が、顔グループ取得部２２２に供給される。

[顔グループ取得部の構成例]
図２０は、顔グループ取得部の構成例を示している。

図２０の例において、顔グループ取得部２２２は、コンテンツ内顔グループ取得部２７１および候補顔グループ取得部２７２を含むように構成されている。

コンテンツ内顔グループ取得部２７１は、コンテンツ選択部２２１で選択されたコンテンツ（すなわち、指定人物登場コンテンツリストのコンテンツ）毎に登場する顔画像を検出し、人物毎にグループ化を行う。そして、コンテンツ内顔グループ取得部２７１は、指定人物と対応する可能性のある顔グループのみを取得する。すなわち、指定人物ではない顔グループは除外される。コンテンツ内顔グループ取得部２７１は、取得した顔グループの情報を、候補顔グループ取得部２７２に供給する。

候補顔グループ取得部２７２は、コンテンツ毎に、指定人物と対応させる顔グループの候補（以下、候補顔グループと称する）を取得し、取得した候補顔グループの情報を、顔グループ決定部２２３に供給する。

[顔グループ取得処理の例]
次に、図２１のフローチャートを参照して、図１７のステップＳ２１２における顔グループ取得処理について説明する。

コンテンツ内顔グループ取得部２７１は、ステップＳ２７１において、コンテンツ内顔グループ取得処理を行う。このコンテンツ内顔グループ取得処理は、図２２を参照して後述される。

ステップＳ２７１の処理により、コンテンツ選択部２２１で選択されたコンテンツ毎に登場する顔画像が検出され、人物毎にグループ化が行われ、指定人物と対応する可能性のある顔グループのみが取得される。

コンテンツ内顔グループ取得部２７１は、ステップＳ２７２において、ステップＳ２７１の処理を全コンテンツに対して行ったか否かを判定する。ステップＳ２７２において、全コンテンツに対して行っていないと判定された場合、処理は、ステップＳ２７１に戻り、それ以降の処理が繰り返される。

ステップＳ２７２において、全コンテンツに対して行ったと判定された場合、処理は、ステップＳ２７３に進む。ステップＳ２７３において、候補顔グループ取得部２７２は、候補顔グループ取得処理を行う。この候補顔グループ取得処理は、図２４を参照して後述される。

ステップＳ２７３の処理により、コンテンツ毎に、指定人物と対応させる顔グループの候補が取得され、取得された候補顔グループの情報が、顔グループ決定部２２３に供給される。そして、図２１の顔グループ取得処理は終了され、処理は、図１７のステップＳ２１２に戻る。

[コンテンツ内顔グループ取得処理の例]
次に、図２２のフローチャートを参照して、図２１のステップＳ２７１におけるコンテンツ内顔グループ取得処理について説明する。

ステップＳ２９１において、コンテンツ内顔グループ取得部２７１は、顔グループ化処理を行う。なお、顔グループ化処理については、図１０を参照して上述した顔グループ化処理と基本的に同様の処理を行うため、繰り返しになるので、その説明は省略される。

ステップＳ２９１の処理により、コンテンツ内に登場する顔画像が検出され、検出された顔画像が人物毎にグループ化されて、顔グループが顔グループリストに登録される。なお、この処理は、コンテンツ選択部２２１により選択された全コンテンツに対して行われる。

ステップＳ２９２において、コンテンツ内顔グループ取得部２７１は、シーン分割を行う。すなわち、コンテンツ内顔グループ取得部２７１は、コンテンツをシーンの区切りで分割する。

コンテンツ内顔グループ取得部２７１は、ステップＳ２９３において、分割されたシーン区間のうち、１つのシーン区間を設定し、ステップＳ２９４において、設定したシーン区間に、顔が出現するか否かを判定する。ステップＳ２９４において、顔が出現すると判定された場合、処理は、ステップＳ２９５に進む。

ステップＳ２９５において、コンテンツ内顔グループ取得部２７１は、ステップＳ２９３で設定されたシーン区間の指定人物登場頻度データを読み込む。すなわち、コンテンツ選択部２２１により取得された指定人物登場頻度データ内の該当シーン区間のデータが読み込まれる。

ステップＳ２９６において、該当シーン区間を含む近傍シーンに、指定人物が登場しないか否かを判定する。ステップＳ２９６において、該当シーン区間を含む近傍シーンに、指定人物が登場しないと判定された場合、処理は、ステップＳ２９７に進む。

この場合、該当シーンに登場する顔は指定人物の可能性が極めて低くなるため、ステップＳ２９７において、コンテンツ内顔グループ取得部２７１は、該当シーン区間に登場する顔を、顔グループリストから削除する。これにより、指定人物が登場しないシーンに登場する顔画像を候補から外すことができる。

一方、ステップＳ２９６において、該当シーン区間を含む近傍シーンに、指定人物が登場すると判定された場合、該当シーン区間に登場する顔は指定人物の可能性が高くなるので、処理は、ステップＳ２９７をスキップし、ステップＳ２９８に進む。

また、ステップＳ２９４において、顔が出現しないと判定された場合、処理は、ステップＳ２９５乃至Ｓ２９７をスキップし、ステップＳ２９８に進む。

ステップＳ２９８において、コンテンツ内顔グループ取得部２７１は、全シーンに対して、上述した処理を行ったか否かを判定する。ステップＳ２９８において全シーンに対して、上述した処理を行っていないと判定された場合、処理は、ステップＳ２９３に戻り、それ以降の処理が繰り返される。

ステップＳ２９８において、全シーンに対して、上述した処理を行ったと判定された場合、処理は、ステップＳ２９９に進む。

ステップＳ２９９において、コンテンツ内顔グループ取得部２７１は、顔グループリストから、顔グループを１つ選択し、顔グループ毎に個人識別を行う。そして、ステップＳ３００において、コンテンツ内顔グループ取得部２７１は、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致するか否かを判定する。

ステップＳ３００において、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致すると判定された場合、処理は、ステップＳ３０１に進む。この場合、その顔グループが、人名入力部２１から入力された指定人物と対応付けすべき顔でないことが明確なので、ステップＳ３０１において、コンテンツ内顔グループ取得部２７１は、その顔グループを、顔グループリストから削除する。

また、ステップＳ３００において、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致しないと判定された場合、処理は、ステップＳ３０２に進む。すなわち、この場合、コンテンツ内顔グループ取得部２７１は、顔グループを、顔グループリストに留め、ステップＳ３０２において、顔グループ内の代表顔画像を取得する。この代表顔画像は、顔グループ内の全ての顔の顔特徴量の平均的な顔とする。

その後、コンテンツ内顔グループ取得部２７１は、ステップＳ３０３において、全顔グループに対して、上述した処理を行ったか否かを判定する。ステップＳ３０３において、全顔グループに対して、上述した処理を行っていないと判定された場合、処理は、ステップＳ２９９に戻り、それ以降の処理が繰り返される。

ステップＳ３０３において、全顔グループに対して、上述した処理を行ったと判定された場合、図２２のコンテンツ内顔グループ取得処理は終了され、処理は、図２１のステップＳ２７１に戻る。

以上のように、各コンテンツ内において、顔グループ化が行われて、顔グループリストに登録される。そして、指定人物が登場しないシーンに登場する顔画像のグループや指定人物と対応付けすべき顔でない顔グループがその顔グループリストから削除される。そして、その結果、各コンテンツ内において、指定人物と対応付けすべき顔グループからなる顔グループリストが取得される。

[候補顔グループ取得処理の例]
次に、図２３のフローチャートを参照して、図２１のステップＳ２７３における候補顔グループ取得処理について説明する。なお、図２３の例においては、適宜、図２４を参照して説明する。

例えば、図２４に示されるように、コンテンツＡ乃至Ｃが、指定人物が登場するコンテンツとして取得され、各コンテンツに対する顔グループ化の結果、コンテンツＡにおいては、顔グループＡ１乃至Ａ３が取得されている。コンテンツＢにおいては、顔グループＢ１乃至Ｂ３が取得されている。また、コンテンツＣについては、顔グループＣ１およびＣ２が取得されている。

ステップＳ３３１において、候補顔グループ取得部２７２は、コンテンツ（例えば、コンテンツＡ）を選択する。ステップＳ３３２において、候補顔グループ取得部２７２は、選択されたコンテンツの顔グループリストから、顔グループ（例えば、顔グループＡ１）を選択する。

ステップＳ３３３において、候補顔グループ取得部２７２は、他のコンテンツの顔グループリストから、他のコンテンツに出現する類似顔グループ数を取得する。なお、顔グループ間の類似度の算出には、各顔グループの代表画像を用いてもよい。例えば、コンテンツＡの顔グループＡ１と、コンテンツＡ以外のコンテンツＢおよびＣに属する各顔グループＢ１乃至Ｂ３、Ｃ１、およびＣ２との間で類似を評価し、類似度が閾値以上の数を、類似度グループ数Ｎ_Ａ１として取得する。

ステップＳ３３４において、候補顔グループ取得部２７２は、選択されたコンテンツ内の全顔グループに対して行ったか否かを判定する。ステップＳ３３４において、全顔グループに対して行っていないと判定された場合、処理は、ステップＳ３３２に戻り、それ以降の処理が繰り返される。

すなわち、コンテンツＡ以外の他の顔グループＡ２およびＡ３に対しても同様の処理が行われ、類似顔グループ数Ｎ_Ａ２およびＮ_Ａ３が取得される。

ステップＳ３３４において、全顔グループに対して行ったと判定された場合、処理は、ステップＳ３３５に進む。ステップＳ３３５において、候補顔グループ取得部２７２は、類似度顔グループ数が最多の顔グループを、候補顔グループに追加する。

すなわち、全ての類似顔グループ数Ｎ_Ａ１乃至Ｎ_Ａ３の中で最大値をもつ顔グループが、候補顔グループとして取得される。ここで、類似顔グループの数の最大値が複数の場合、最大値を持つ複数の顔グループを候補顔グループとして取得される。

ステップＳ３３６において、候補顔グループ取得部２７２は、全コンテンツに対して行ったか否かを判定する。ステップＳ３３６において、全コンテンツに対して行っていないと判定された場合、処理は、ステップＳ３３１に戻り、それ以降の処理が繰り返される。

すなわち、上述した処理が、コンテンツＢおよびＣに対しても行われ、全てのコンテンツから、候補顔グループが取得される。

一方、ステップＳ３３６において、全コンテンツに対して上述した処理を行ったと判定された場合、図２３の候補顔グループ取得処理は終了され、処理は、図２１のステップＳ２７３に戻る。

以上のように、各コンテンツの顔グループ毎に、他のコンテンツに出現する類似顔グループ数が取得され、取得した類似度顔グループ数が最多の顔グループが候補顔グループに追加される。

[顔グループ決定部の構成例]
図２５は、顔グループ取得部の構成例を示している。

図２５の例においては、顔グループ決定部２２３は、候補顔グループ入力部４１１、クラスタリング部４１２、選択画面表示制御部４１３、および顔グループ設定部４１４を含むように構成される。

また、この場合、情報処理装置１１は、図１６を参照して上述した構成に加えて、さらに、図１２を参照して上述した表示部１４１および操作入力部１４２を含むように構成されている。

候補顔グループ入力部４１１は、候補顔グループ取得部２７２からの各コンテンツの候補顔グループを入力し、クラスタリング部４１２に供給する。

クラスタリング部４１２は、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を１つのクラスタにまとめる。

クラスタリングには、階層的クラスタリングで全クラスタ間距離が同一顔判定に用いる閾値より大きくなるまでクラスタの統合を繰り返す方法が用いられる。あるいは、クラスタリングには、k-means法などの分割最適化クラスタリングで２クラスタに分割し、クラスタの広がりが閾値より小さくなるまでクラスタの分割を繰り返す方法が用いられる。クラスタリングの方法は、これらの方法に限定されない。

クラスタリング部４１２は、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部４１３および顔グループ設定部４１４に供給する。

選択画面表示制御部４１３は、処理の１つとして、ユーザ選択がある場合、指定人物に対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、１つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部４１３は、生成した選択画面を、表示部１４１に表示させる。また、選択画面表示制御部４１３は、操作入力部１４２を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部４１４に供給する。

顔グループ設定部４１４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部４１３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４１４は、処理の１つとして、ユーザ選択がない場合、クラスタリング部４１２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

[顔グループ決定処理の例]
次に、図２６のフローチャートを参照して、図２５の顔グループ決定部２２３により実行される図１７のステップＳ２１３における顔グループ決定処理について説明する。

ステップＳ４１１において、候補顔グループ入力部４１１は、候補顔グループ取得部２７２からの候補顔グループを入力し、クラスタリング部４１２に供給する。

クラスタリング部４１２は、ステップＳ４１２において、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を１つのクラスタにまとめる。

クラスタリング部４１２は、ステップＳ４１３において、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部４１３および顔グループ設定部４１４に供給する。

ステップＳ４１４において、選択画面表示制御部４１３は、処理の１つとして、ユーザ選択があるか否かを判定する。ステップＳ４１４において、ユーザ選択があると判定された場合、処理は、ステップＳ４１５に進む。

ステップＳ４１５において、選択画面表示制御部４１３は、指定人物に対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、１つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部４１３は、生成した選択画面を、表示部１４１に表示させる。

ユーザは、操作入力部１４２を操作することで、指定人物に対応付ける顔グループ名を選択する。操作入力部１４２は、この選択に対応する選択信号を、選択画面表示制御部４１３に供給する。

ステップＳ４１６において、選択画面表示制御部４１３は、操作入力部１４２からの選択結果を取得する。ステップＳ４１７において、選択画面表示制御部４１３は、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部４１４に供給する。

ステップＳ４１４において、ユーザ選択がないと判定された場合、処理は、ステップＳ４１５乃至Ｓ４１７をスキップし、ステップＳ４１８に進む。

ステップＳ４１８において、顔グループ設定部４１４は、顔グループを設定する。すなわち、顔グループ設定部４１４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部４１３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４１４は、処理の１つとして、ユーザ選択がない場合、クラスタリング部４１２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

[顔グループ決定部の構成例]
図２７は、外部データとしてネットワークサービスなどを利用して選択を行う場合の顔グループ決定部の構成例を示すブロック図である。

図２７の例においては、顔グループ決定部２２３は、候補顔グループ入力部４１１、およびクラスタリング部４１２を含むように構成される。さらに、顔グループ決定部２２３は、外部データ入力部４３１、外部データ比較部４３２、選択画面表示制御部４３３、および顔グループ設定部４３４を含むように構成されている。

図２７の顔グループ決定部２２３は、候補顔グループ入力部４１１、およびクラスタリング部４１２を備える点で、図２５の顔グループ決定部２２３と共通している。

図２７の顔グループ決定部２２３は、選択画面表示制御部４１３、および顔グループ設定部４１４が、選択画面表示制御部４３３、および顔グループ設定部４３４に入れ替わった点が、図２５の顔グループ決定部２２３と異なる。また、図２７の顔グループ決定部２２３は、外部データ入力部４３１および外部データ比較部４３２が追加された点が、図２５の顔グループ決定部２２３と異なる。

すなわち、クラスタリング部４１２は、最多のクラスタに属する顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部４３２、選択画面表示制御部４３３、および顔グループ設定部４３４に供給する。

外部データ入力部４３１は、図１６の人名入力部２１に入力されたものと同じ人物名が、外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量などで構成される外部データを入力し、外部データ比較部４３２に供給する。

外部データ比較部４３２は、外部データ入力部４３１からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部１３３からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。外部データ比較部４３２は、比較の結果、外部データと最も類似度の高い顔グループを、第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部４３３、および顔グループ設定部４３４に供給する。

選択画面表示制御部４３３は、処理の１つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部４３２からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部４３３は、処理の１つとして、外部データを利用せず、ユーザ選択がある場合、クラスタリング部４１２からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部４１３は、生成した選択画面を、表示部１４１に表示させる。

選択画面表示制御部４１３は、操作入力部１４２を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部４３４に供給する。

顔グループ設定部４３４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部４３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４３４は、処理の１つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部４３２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４３４は、処理の１つとして、外部データを利用せず、かつ、ユーザ選択がない場合、クラスタリング部４１２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

[顔グループ決定処理の他の例]
次に、図２８のフローチャートを参照して、図２７の顔グループ決定部２２３により実行される図１７のステップＳ２１３における顔グループ決定処理について説明する。

ステップＳ４３１において、候補顔グループ入力部４１１は、候補顔グループ取得部２７２からの候補顔グループを入力し、クラスタリング部４１２に供給する。

クラスタリング部４１２は、ステップＳ４３２において、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を１つのクラスタにまとめる。

クラスタリング部４１２は、ステップＳ４３３において、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部４３３および顔グループ設定部４３４に供給する。

ステップＳ４３４において、外部データ比較部４３２は、処理の１つとして、外部データを利用するか否かを判定する。ステップＳ４３４において、外部データを利用すると判定された場合、処理は、ステップＳ４３５に進む。

ステップＳ４３５において、外部データ比較部４３２は、クラスタリング部４１２からの最多のクラスタに属する上位いくつかの顔グループと、外部データ入力部４３１からの外部データとの比較処理を行う。すなわち、外部データ比較部４３２は、外部データ入力部４３１からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、クラスタリング部４１２からの最多のクラスタに属する上位いくつかの顔グループの代表顔特徴量とを比較する。

ステップＳ４３６において、外部データ比較部４３２は、比較の結果、外部データと最も類似度の高い顔グループを、第１候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部４３３、および顔グループ設定部４３４に供給する。

ステップＳ４３４において、外部データを利用しないと判定された場合、処理は、ステップＳ４３５およびＳ４３６をスキップし、ステップＳ４３７に進む。

ステップＳ４３７において、選択画面表示制御部４３３は、処理の１つとして、ユーザ選択があるか否かを判定する。ステップＳ４３７において、ユーザ選択があると判定された場合、処理は、ステップＳ４３８に進む。

ステップＳ４３８において、選択画面表示制御部４３３は、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成し、生成した選択画面を、表示部１４１に表示させる。

なお、選択画面表示制御部４３３は、処理の１つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部４３２からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部４３３は、処理の１つとして、外部データを利用せず、ユーザ選択がある場合、クラスタリング部４１２からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。

ユーザは、操作入力部１４２を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部１４２は、この選択に対応する選択信号を、選択画面表示制御部４３３に供給する。

ステップＳ４３９において、選択画面表示制御部４３３は、操作入力部１４２からの選択結果を取得する。ステップＳ４４０において、選択画面表示制御部４３３は、ユーザが選択した顔グループを第１候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部４３４に供給する。

ステップＳ４３７において、ユーザ選択がないと判定された場合、処理は、ステップＳ４３８乃至Ｓ４４０をスキップし、ステップＳ４４１に進む。

ステップＳ４４１において、顔グループ設定部４３４は、顔グループを設定する。すなわち、顔グループ設定部４３４は、処理の１つとして、ユーザ選択がある場合、選択画面表示制御部４３３から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４３４は、処理の１つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部４３２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部４３４は、処理の１つとして、外部データを利用せず、ユーザ選択がない場合、クラスタリング部４１２から供給される第１候補顔グループを、指定人物名に対応付ける顔グループとして設定する。

以上のように、図１６の情報処理装置２１１においては、人物名が登場する可能性のあるコンテンツが選択され、選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループが、候補顔グループとして取得される。そして、候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループが、前記人物名に対応付ける顔グループとして決定される。これにより、人名登録の作業の効率化を図ることができる。

以上により、本技術によれば、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量が辞書に登録されるので、検索を行うことができる。

すなわち、従来の人名による映像や画像検索においては、辞書に登録済みの人物の顔特徴量と比較により指定人物が登場するかどうかが判定され、登場する映像、画像を検索結果として提示される。

本技術によれば、この辞書への人名と顔画像特徴量の登録が自動化されるので、作業の効率化を図ることができる。

特に、人名と顔画像の対応付けにおいては、例えば、EPGのように正確ではあるものの、人手によってつけられた情報だけでなく、動画内から各種識別処理により自動取得された人名に関する情報を基に対応付けを行うこともできる。

また、本技術によれば、全コンテンツ内に共通する顔画像ではなく、相対的に出現頻度の高い顔画像が人名と対応付けされる。これにより、指定人物が登場している動画像の候補内に、仮にその人物が登場していない、あるいは、その人物の顔画像が取得できなかった場合においても、人名と顔画像の対応付けを行うことが可能となる。

さらに、本技術によれば、辞書への登録時に、選択された顔画像群をクラスタリングして得られた各クラスタの代表顔が選択される。これにより、様々な特徴を有する顔画像が登録でき、個人識別の性能を向上させることができる。

上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

＜３．第３の実施の形態（コンピュータ）＞
[コンピュータの構成例]
図２９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。

コンピュータ５００において、CPU（Central Processing Unit）５０１、ROM（Read Only Memory）５０２、RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記憶部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、以上において、１つの装置（または処理部）として説明した構成を分割し、複数の装置（または処理部）として構成するようにしてもよい。逆に、以上において複数の装置（または処理部）として説明した構成をまとめて１つの装置（または処理部）として構成されるようにしてもよい。また、各装置（または各処理部）の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置（または処理部）の構成の一部を他の装置（または他の処理部）の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するのであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

なお、本技術は以下のような構成も取ることができる。
（１）ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
を備える情報処理装置。
（２）前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、
前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定する
前記（１）に記載の画像処理装置。
（３）前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名登場パターンを取得する
前記（２）に記載の画像処理装置。
（４）前記類似性が高い複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記１つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
前記（２）または（３）に記載の画像処理装置。
（５）前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記（２）乃至（４）のいずれかに記載の画像処理装置。
（６）前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、
前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記（１）に記載の画像処理装置。
（７）前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択する
前記（６）に記載の画像処理装置。
（８）前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する
前記（６）または（７）に記載の画像処理装置。
（９）前記候補顔グループが多いクラスタに属する複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記１つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
前記（６）または（７）に記載の画像処理装置。
（１０）前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記（６）または（７）に記載の画像処理装置。
（１１）前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部を
さらに備える
前記（１）乃至（１０）のいずれかに記載の画像処理装置。
（１２）前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択する
前記（１１）に記載の画像処理装置。
（１３）情報処理装置が、
ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択し、
選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、
取得された顔グループから、前記人物名に対応付ける顔グループを決定する
情報処理方法。
（１４）コンピュータを、
ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
して機能させるためのプログラム。

１１情報処理装置，２１人名入力部，２２コンテンツアーカイブ，２３コンテンツ選択部，２４顔グループ取得部，２５顔グループ決定部，２６登録用顔画像選択部，２７顔辞書，１３１人物名登場パターン入力部，１３２顔グループ登場パターン入力部，１３３人名・顔グループ間距離取得部，１３４選択画面表示制御部，１３５顔グループ設定部，１４１表示部，１４２操作入力部，１５１外部データ入力部，１５２外部データ比較部，１５３選択画面表示制御部，１５４顔グループ設定部，２１１情報処理装置，２２１コンテンツ選択部，２２２顔グループ取得部，２２３顔グループ決定部，２７１コンテンツ内顔グループ取得部，２７２候補顔グループ取得部，４１１候補顔グループ入力部，４１２クラスタリング部，４１３選択画面表示制御部，４１４顔グループ設定部，４３１外部データ入力部，４３２外部データ比較部，４３３選択画面表示制御部，４３４顔グループ設定部

Claims

ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
を備える情報処理装置。
前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、
前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定する
請求項１に記載の情報処理装置。
前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる人物の登場頻度を時系列で表わした人物登場頻度データに基づいて、前記人物名登場パターンを取得する
請求項２に記載の情報処理装置。
前記類似性が高い複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記１つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
請求項２に記載の情報処理装置。
前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
請求項２に記載の情報処理装置。
前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、
前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定する
請求項１に記載の情報処理装置。
前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる人物の登場頻度を時系列で表わした人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択する
請求項６に記載の情報処理装置。
前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する
請求項６に記載の情報処理装置。
前記候補顔グループが多いクラスタに属する複数の顔グループから１つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記１つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
請求項６に記載の情報処理装置。
前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
請求項６に記載の情報処理装置。
前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部を
さらに備える請求項１に記載の情報処理装置。
前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択する
請求項１１に記載の情報処理装置。
情報処理装置が、
ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択し、
選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、
取得された顔グループから、前記人物名に対応付ける顔グループを決定する
情報処理方法。
コンピュータを、
ユーザにより指定された人物名を少なくとも１つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
して機能させるためのプログラム。