JP2014139733A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2014139733A
JP2014139733A JP2013008367A JP2013008367A JP2014139733A JP 2014139733 A JP2014139733 A JP 2014139733A JP 2013008367 A JP2013008367 A JP 2013008367A JP 2013008367 A JP2013008367 A JP 2013008367A JP 2014139733 A JP2014139733 A JP 2014139733A
Authority
JP
Japan
Prior art keywords
face
face group
content
group
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013008367A
Other languages
English (en)
Inventor
Kentaro Fukazawa
健太郎 深沢
Kenji Tanaka
健司 田中
Kyosuke Yoshida
恭助 吉田
Kazumasa Tanaka
和政 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2013008367A priority Critical patent/JP2014139733A/ja
Priority to PCT/JP2014/050378 priority patent/WO2014112449A1/ja
Priority to US14/650,677 priority patent/US9699501B2/en
Publication of JP2014139733A publication Critical patent/JP2014139733A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】人名と顔画像特徴量とを登録する作業の効率化を図ることができる。
【解決手段】コンテンツ選択部は、コンテンツアーカイブ内から任意のコンテンツを選択し、各コンテンツ内に、人名入力部からの指定人物名が登場するか否かの人物名登場パターンを取得する。顔グループ取得部は、選択された各コンテンツに登場する顔をグループ化し、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの顔グループ登場パターンを取得する。顔グループ決定部は、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループを、人物名に対応付ける顔グループに決定する。本開示は、例えば、人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う情報処理装置に適用することができる。
【選択図】図1

Description

本開示は、情報処理装置および方法、並びにプログラムに関し、特に、人名と顔画像特徴量とを登録する作業の効率化を図ることができるようにした情報処理装置および方法、並びにプログラムに関する。
顔画像を用いた個人識別の従来技術として、例えば、特許文献1に記載の技術があげられる。特許文献1に記載の技術により個人識別を行うには、予め人名と顔画像とを紐付けして辞書に登録しておく必要があった。この登録作業は、人手で行わなければならず、登録する人物数が多くなると、その作業量は膨大なものとなってしまう。
これに対して、特許文献2には、このような人名と顔画像との紐付けを自動で行う方法が提案されている。特許文献2に記載の技術は、ユーザが録画した番組のEPG(Electronic Program Guide)から人名を抽出し、指定人名が登場する複数の番組を集め、それらに共通して登場する顔をその指定人物に対応する顔として紐付けを行っている。
特開2009−53916号公報 特開2010−283517号公報
しかしながら、特許文献2に記載の技術は、抽出した番組にその人物が登場することを前提としているため、仮にその人物の顔が検出できなかった場合、共通顔がなくなってしまい、人名と顔画像とを対応付けることが困難になってしまっていた。
また、番組内の主要登場人物でない人物やニュース番組に登場する人物などは、必ずしもEPGに記載されない。したがって、特許文献2に記載の技術では、人名と顔画像とを対応付けることが難しかった。
本開示は、このような状況に鑑みてなされたものであり、人名と顔画像特徴量とを登録する作業の効率化を図ることができるものである。
本開示の一側面の情報処理装置は、ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部とを備える。
前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定することができる。
前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名登場パターンを取得することができる。
前記類似性が高い複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、ユーザの操作に応じて、前記1つの顔グループを選択する選択部とをさらに備え、前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定することができる。
前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部をさらに備え、前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。
前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。
前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択することができる。
前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得することができる。
前記候補顔グループが多いクラスタに属する複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、ユーザの操作に応じて、前記1つの顔グループを選択する選択部とをさらに備え、前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定することができる。
前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部をさらに備え、前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定することができる。
前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部をさらに備えることができる。
前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択することができる。
本開示の一側面の情報処理方法は、情報処理装置が、ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択し、選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、取得された顔グループから、前記人物名に対応付ける顔グループを決定する。
本開示の一側面のプログラムは、コンピュータを、ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部として機能させる。
本開示の一側面においては、ユーザにより指定された人物名を少なくとも1つ含むコンテンツが選択され、選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループが取得される。そして、取得された顔グループから、前記人物名に対応付ける顔グループが決定される。
本開示によれば、人名と顔画像特徴量とを登録する作業の効率化を図ることができる。
本技術を適用した情報処理装置の構成例を示すブロック図である。 情報処理装置の顔辞書登録処理を説明するフローチャートである。 人物名登場パターンと顔グループ登場パターンの例を示す図である。 コンテンツ選択処理を説明するフローチャートである。 指定人物登場頻度データの例を示す図である。 コンテンツ選択処理の他の例を説明するフローチャートである。 人物登場頻度データの例を示す図である。 人物名登場パターンのデータ例を示す図である。 顔グループ取得処理を説明するフローチャートである。 顔グループ化処理を説明するフローチャートである。 顔グループ決定処理を説明するフローチャートである。 顔グループ決定部の構成例を示すブロック図である。 顔グループ決定処理の他の例を説明するフローチャートである。 顔グループ決定部の他の構成例を示すブロック図である。 顔グループ決定処理のさらに他の例を説明するフローチャートである。 本技術を適用した情報処理装置の他の構成例を示すブロック図である。 情報処理装置の顔辞書登録処理を説明するフローチャートである。 コンテンツ選択処理を説明するフローチャートである。 コンテンツ選択処理の他の例を説明するフローチャートである。 顔グループ取得部の構成例を示すブロック図である。 顔グループ取得処理を説明するフローチャートである。 コンテンツ内顔グループ取得処理を説明するフローチャートである。 候補顔グループ取得処理を説明するフローチャートである。 候補顔グループ取得処理を説明する図である。 顔グループ決定部の構成例を示すブロック図である。 顔グループ決定処理を説明するフローチャートである。 顔グループ決定部の他の構成例を示すブロック図である。 顔グループ決定処理の他の例を説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.実施の形態(情報処理装置)
2.実施の形態(情報処理装置)
3.実施の形態(コンピュータ)
<1.実施の形態(情報処理装置)>
[本技術の情報処理装置の構成]
図1は、本技術を適用した情報処理装置の構成例を示す図である。
図1の情報処理装置11は、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う。情報処理装置11は、例えば、パーソナルコンピュータなどで構成される。
図1の例において、情報処理装置11は、人名入力部21、コンテンツアーカイブ22、コンテンツ選択部23、顔グループ取得部24、顔グループ決定部25、登録用顔画像選択部26、および顔辞書27を含むように構成されている。
人名入力部21は、ユーザにより指定された人物名(以下、指定人物名とも称する)を入力し、入力された人物名をコンテンツ選択部23に供給する。コンテンツアーカイブ22は、コンテンツを登録し、管理している。
コンテンツ選択部23は、コンテンツアーカイブ22内から任意のコンテンツを選択する。また、コンテンツ選択部23は、各コンテンツ内に、人名入力部21からの指定人物名、すなわち、指定人物名の人物(以下、指定人物とも称する)が登場するか否かの情報である、人物名登場パターンを取得する。なお、ここで、指定人物が登場している可能性があるコンテンツが少なくとも1つは選択されたコンテンツに含まれることが必要となる。コンテンツ選択部23は、取得した人物名登場パターンを、選択されたコンテンツとともに、顔グループ取得部24に供給する。また、コンテンツ選択部23は、取得した人物名登場パターンを、顔グループ決定部25に供給する。
顔グループ取得部24は、選択された各コンテンツに登場する顔をグループ化し、同一人物をそれぞれ1つのグループにまとめる処理を行う。また、顔グループ取得部24は、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの情報である、顔グループ登場パターンを取得する。顔グループ取得部24は、取得した顔グループ登場パターンを、顔グループ決定部25に供給する。
顔グループ決定部25は、顔グループ取得部24により取得された顔グループから、指定人物名に対応付ける顔グループを決定する。具体的には、顔グループ決定部25は、コンテンツ選択部23からの人物名登場パターンと、顔グループ取得部24からの各顔グループ登場パターンとの比較処理を行う。そして、顔グループ決定部25は、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループを、指定人物名に対応付ける顔グループに決定する。顔グループ決定部25は、決定された顔グループの情報を、登録用顔画像選択部26に供給する。
登録用顔画像選択部26は、顔グループ決定部25により決定された全ての顔グループに属する全ての顔画像の中から、指定数の顔画像および顔画像特徴量を選択し、それらを顔辞書27に登録する。選択の対象となる顔画像は、顔グループ決定部25で取得された各顔グループの代表顔であってもよいし、各顔グループに属する全ての顔としてもよい。
例えば、各顔グループの代表顔を用いる場合には、各顔グループの代表顔画像は、顔特徴量によって任意数のクラスタに分類される。クラスタリングには、k-means法など、任意の手法が用いられる。登録用顔画像選択部26は、各クラスタにおける代表顔を取得し、各クラスタの代表画像または顔特徴量を、顔辞書27に登録する。あるいは、コンテンツが撮影された時期や、コンテンツの種類などで分類することも可能である。
顔辞書27は、顔画像および顔画像特徴量を、人物名に対応付けて登録し、管理している。
[情報処理装置の動作]
次に、図2のフローチャートを参照して、情報処理装置11の動作である顔辞書登録処理について説明する。
例えば、ユーザにより指定された人物名が、人名入力部21を介してコンテンツ選択部23に入力される。ステップS11において、コンテンツ選択部23は、コンテンツ選択処理を行う。このコンテンツ選択処理の詳細は、図4を参照して後述される。
ステップS11の処理により、各コンテンツ内に、指定人物名が登場するか否かの情報である人物名登場パターンが取得されて、コンテンツとともに、顔グループ取得部24に供給される。
ステップS12において、顔グループ取得部24は、顔グループ取得処理を行う。この顔グループ取得処理の詳細は、図9を参照して後述される。
ステップS12の処理により、選択された各コンテンツに登場する顔がグループ化され、顔グループ毎に、各コンテンツにその顔グループが登場するか否かの情報である顔グループ登場パターンが取得されて、顔グループ決定部25に供給される。
また、ステップS11により取得された人物名登場パターンは、顔グループ決定部25にも供給される。
ステップS13において、顔グループ決定部25は、顔グループ決定処理を行う。この顔グループ決定処理の詳細は、図12を参照して後述される。
ステップS13の処理により、コンテンツ選択部23からの人物名登場パターンと、顔グループ取得部24からの各顔グループ登場パターンとの比較処理が行われる。そして、人物名登場パターンと最も類似する顔グループ登場パターンを有する顔グループが、人物名に対応付ける顔グループに決定される。
図3の例においては、上から順に、各コンテンツに対する人物名登場パターン、および顔グループ1乃至3の各顔グループ登場パターンの例が示されている。図3の例においては、コンテンツ内に人物名が登場する場合が「1」で示され、人物名が登場しない場合が「0」で示されている。
入力された人物名は、コンテンツAに登場し、コンテンツBとCに登場しないので、人物名登場パターンは、「100」とされる。顔グループ1は、コンテンツAとCに登場せず、コンテンツBに登場するので、顔グループ1のグループ登場パターンは、「010」とされる。顔グループ2は、コンテンツAとCに登場し、コンテンツBには登場しないので、顔グループ2のグループ登場パターンは、「101」とされる。顔グループ3は、コンテンツAに登場し、コンテンツBとCには登場しないので、顔グループ3のグループ登場パターンは、「100」とされる。
したがって、人物名登場パターン「100」に最も類似するグループ登場パターンを有する顔グループは、顔グループ3であり、この顔グループ3が人物に対応付ける顔グループに決定される。決定された顔グループの情報は、登録用顔画像選択部26に供給される。
ステップS14において、登録用顔画像選択部26は、登録用顔画像選択処理を行う。すなわち、登録用顔画像選択部26は、顔グループ決定部25により決定された顔グループの中から、指定数の顔画像および顔画像特徴量を選択し、選択された顔画像および顔画像特徴量を、人物名に対応付けて顔辞書27に登録する。
以上のようにして、情報処理装置11においては、顔画像および顔画像特徴量が、人物名に対応付けて顔辞書27に登録されて、検索を行うことができるようになる。したがって、辞書登録作業の効率化を図ることができる。
[コンテンツ選択処理の例]
次に、図4のフローチャートを参照して、図2のステップS11のコンテンツ選択処理について説明する。このコンテンツ選択処理においては、指定人物が登場している可能性があるコンテンツが少なくとも1つ含まれるように、コンテンツアーカイブ22内から、任意数のコンテンツが取得される。
コンテンツ選択部23は、ステップS31において、アーカイブ(コンテンツアーカイブ22)から、コンテンツを1つ取得し、ステップS32において、フレームを選択する。
ステップS33において、コンテンツ選択部23は、選択したフレームについて、各種識別処理を行う。すなわち、ステップS32およびS33においては、任意の時間間隔で、コンテンツに付加されているメタデータの読み取りや、各種識別処理によって指定人物名や指定人物による発話が登場するか否かが判断される。
ここでいう識別処理とは、画面内の文字情報の識別処理であったり、発話内容の識別処理であったり、さらには、発話者の識別処理など、映像内の文字や音声等情報を用いた処理である。したがって、指定人物が存在するかどうかを識別できれば、識別処理はこれらに限定される必要はない。
ステップS34において、コンテンツ選択部23は、上述した識別処理が行われる度に、その結果で、指定人物登場頻度データを更新する。指定人物登場頻度データへの記載内容としては、識別を行った時間位置、登場したか否かの情報となる。ここで、登場したか否かの情報は、識別処理結果毎に持たさせてもよいし、1つにまとめてもよいし、それら両方であってもよい。また、識別時の文字の大きさや、音声の音量などの情報を合わせて記載してもよい。
図5は、指定人物登場頻度データの例を示している。図5の例においては、5分毎に識別された、指定人物に対する文字識別結果、発話内容識別結果、全識別結果、並びにメタデータの有無の識別結果が時系列で示されている。
図5の例においては、コンテンツの開始から5分後に、指定人物に対する文字識別の結果があることが示されている。コンテンツの開始から5分後および10分後に、指定人物に対する発話識別の結果があることが示されている。コンテンツの開始から15分後および20分後に、指定人物に対する発話識別の結果があることが示されている。
そして、コンテンツの開始から5分乃至20分後に、全識別結果があることが示されている。さらに、コンテンツの開始から5分乃至20分後に、メタデータがあることが示されている。
図4に戻って、ステップS35において、コンテンツ選択部23は、全フレームに対して行ったか否かを判定する。ステップS35において、全フレームに対して行っていないと判定された場合、処理は、ステップS32に戻り、それ以降の処理が繰り返される。
ステップS35において、全フレームに対して行ったと判定された場合、処理は、ステップS36に進む。ステップS36において、コンテンツ選択部23は、更新された指定人物登場頻度データに基づいて、人物名登場パターンを更新する。
ステップS37において、コンテンツ選択部23は、指定コンテンツ数分のコンテンツを取得したか否かを判定する。ステップS37において、指定コンテンツ数分のコンテンツを取得していないと判定された場合、処理は、ステップS31に戻り、それ以降の処理が繰り返される。
ステップS37において、指定コンテンツ数分のコンテンツを取得したと判定された場合、処理は、ステップS38に進む。ステップS38において、コンテンツ選択部23は、指定人物が登場するコンテンツ数が0であるか否かを判定する。ステップS38において、指定人物が登場するコンテンツ数が0であると判定された場合、処理は、ステップS39に進む。
ステップS39において、コンテンツ選択部23は、コンテンツを1つ削除し、処理は、ステップS31に戻る。ステップS38において、指定人物が登場するコンテンツ数が0ではないと判定された場合、図4のコンテンツ選択処理は終了される。
なお、以上説明したコンテンツ選択処理における識別処理は、人物名が指定される度に行う例を説明した。しかしながら、この識別処理は、人物名が指定される度に行う必要はない。すなわち、コンテンツ毎にそのコンテンツに登場する人物とその頻度に関する情報を予め取得して、例えば、メモリなどに記憶しておき、その情報に基づいて、人物名登場パターンを更新するようにすることもできる。この場合のコンテンツ選択処理の例について、次の図6に示す。
[コンテンツ選択処理の他の例」
次に、図6のフローチャートを参照して、図2のステップS11におけるコンテンツ選択処理の他の例について説明する。
コンテンツ選択部23は、ステップS51において、アーカイブ(コンテンツアーカイブ22)から、コンテンツを1つ取得する。ステップS52において、コンテンツ選択部23は、取得したコンテンツについての人物登場頻度データを、例えば、図示せぬメモリなどから取得する。
図7は、人物登場頻度データの例を示している。図7の例においては、5分毎に識別された、コンテンツに登場する複数の人物(例えば、JAMESとMARY)に対する文字識別結果、発話内容識別結果、全識別結果、並びにメタデータの有無の識別結果が時系列で示されている。
図7の例においては、コンテンツの開始から5分後に、JAMESに対する文字識別の結果があり、15分後と20分後に、MARYに対する文字識別の結果があることが示されている。コンテンツの開始から5分後と10分後に、JAMESに対する発話識別の結果があり、15分後と20分後に、MARYに対する発話識別の結果があることが示されている。コンテンツの開始から15分後および20分後に、JAMESに対する発話識別の結果があり、25分後に、MARYに対する発話識別の結果があることが示されている。
そして、コンテンツの開始から5分乃至20分後に、JAMESに対する全識別結果があり、15分乃至25分後に、MARYに対する全識別結果があることが示されている。さらに、コンテンツの開始から5分乃至20分後に、JAMESに対するメタデータがあり、25分後に、MARYに対するメタデータがあることが示されている。
図6に戻って、ステップS53において、コンテンツ選択部23は、取得した人物登場頻度データに基づいて、人物名登場パターンを更新する。
ステップS54において、コンテンツ選択部23は、指定コンテンツ数分のコンテンツを取得したか否かを判定する。ステップS54において、指定コンテンツ数分のコンテンツを取得していないと判定された場合、処理は、ステップS51に戻り、それ以降の処理が繰り返される。
ステップS54において、指定コンテンツ数分のコンテンツを取得したと判定された場合、処理は、ステップS55に進む。ステップS55において、コンテンツ選択部23は、指定人物が登場するコンテンツ数が0であるか否かを判定する。ステップS55において、指定人物が登場するコンテンツ数が0であると判定された場合、処理は、ステップS56に進む。
ステップS56において、コンテンツ選択部23は、コンテンツを1つ削除し、処理は、ステップS51に戻る。ステップS55において、指定人物が登場するコンテンツ数が0ではないと判定された場合、図6のコンテンツ選択処理は終了される。
[人物名登場パターンのデータ例]
図8は、人物名登場パターンのデータ例を示す図である。人物名登場パターンのデータは、登場頻度が閾値より大きければ、指定人物が登場しているとして設定される。
例えば、図8のAにおいては、指定人物が、コンテンツ内に登場する場合を「1」で示し、登場しない場合を「0」で示している。人物名は、コンテンツAに登場し、コンテンツBとCに登場しないので、人物登場パターンは、「100」とされる。
このように、人物名登場パターンのデータを、1と0の2段階の値で表わすようにしてもよい。
図8のBにおいては、人物名登場パターンのデータとして、コンテンツ全体に対する登場頻度の割合をn段階の値で表わす例が示されている。図8のBの場合、コンテンツAが「60」であり、コンテンツBが「5」であり、コンテンツCが「1」となっている。これは、例えば、指定人物が、コンテンツAに、60の割合で登場しており、コンテンツBに5の割合で登場しており、コンテンツCに登場していないことを意味している。
なお、図8のAおよび図8のBの例においては、1つのコンテンツに対して1つの値で表わす例が示されている。これに対して、図8のCに示されるように、コンテンツ内をいくつかの区分に分割し、区間毎に登場に関する値を求め、それらの組み合わせとして、人物名登場パターンのデータを表すようにしてもよい。すなわち、登場頻度に関する情報をn段階の値とし、区間数分持つことも可能である。
図8のCにおいては、コンテンツAの人物名登場パターンのデータが、「90−20−70」と示されており、コンテンツBの人物名登場パターンのデータが、「5−0−10」と示されている。また、コンテンツCの人物名登場パターンのデータが、「0−0−0」と示されている。
すなわち、図8のCの場合、指定人物がコンテンツAに、第1の区間において「90」の割合で登場しており、第2の区間において「20」の割合で登場しており、第3の区間において「70」の割合で登場していることが示されている。指定人物がコンテンツBに、第1の区間において「5」の割合で登場しており、第2の区間において登場しておらず、第3の区間において「10」の割合で登場していることが示されている。指定人物がコンテンツCに、第1の区間乃至第3の区間において登場していないことが示されている。
ここで、登場頻度に関する情報は、上述したように全識別結果をまとめたものを利用してもよいし、ユーザが指定する識別結果のみを利用して求めるようにしてもよい。また、登場頻度のみならず、文字の大きさや音量を用いて重み付けをしてもよい。
[顔グループ取得処理の例]
次に、図9のフローチャートを参照して、図2のステップS12における顔グループ取得処理について説明する。この処理においては、コンテンツ選択部23で選択された全コンテンツに登場する顔画像が検出され、人物毎にグループ化処理が行われ、指定人物と対応する可能性が高い顔グループのみが取得される。
顔グループ取得部24は、ステップS71において、顔グループ化処理を行う。なお、顔グループ化処理については、図10を参照して後述される。
ステップS71の処理により、コンテンツ内に登場する顔画像が検出され、検出された顔画像が人物毎にグループ化されて、顔グループが、顔グループのリストである顔グループリストに登録される。なお、この処理は、コンテンツ選択部23により選択された全コンテンツに対して行われる。また、グループ化は、コンテンツ毎に行われるのではなく、コンテンツ全てに対して行われる。
ステップS72において、顔グループ取得部24は、顔グループリストから、顔グループを1つ選択し、顔グループ毎に個人識別を行う。ステップS73において、顔グループ取得部24は、ステップS72において選択された顔グループに属する顔が、内蔵される辞書に登録済みの人物と一致するか否かを判定する。
ステップS73において、選択した顔グループに属する顔が、登録済みの人物と一致すると判定された場合、処理は、ステップS74に進む。すなわち、この場合、その顔グループは、人名入力部21に入力された指定人物名と対応付けすべき顔でないことが明確なので、ステップS74において、顔グループ取得部24は、その顔グループを、顔グループリストから削除する。
ステップS73において、選択した顔グループに属する顔が、登録済みの人物と一致しないと判定された場合、ステップS75に進む。ステップS75において、顔グループ取得部24は、その顔グループの顔グループ登場パターンを作成する。
このパターンデータは、人物名登場パターンを作成するときの条件、つまり、人物名登場パターンを作成するときの条件、すなわち、登場割合を示す変数の段階数n、コンテンツの区間分割数、区間分割位置を同一にして作成する。登場割合に関する値は、人物名登場パターンと同様の方法で求めることができるほか、顔画像の登場頻度に加えて、顔画像の大きさや、顔の位置(画面中央からの距離)、同時に登場している人物数などを用いて重み付けをして求めるようにしてもよい。
ステップS76において、顔グループ取得部24は、以上の処理が全顔グループに対して行ったか否かを判定する。ステップS76において、全顔グループに対して行われていないと判定された場合、処理は、ステップS72に戻り、それ以降の処理が繰り返される。
ステップS76において、全顔グループに対して行われたと判定された場合、図9の顔グループ取得処理は終了される。そして、作成された顔グループ毎の顔グループ登場パターンは、顔グループ決定部25に供給される。
[顔グループ化処理の例]
次に、図10のフローチャートを参照して、図9のステップS11における顔グループ化処理について説明する。なお、この処理は、動画像の先頭フレームから任意時間間隔で動画像全体に対して行われる。
顔グループ取得部24は、ステップS91において、顔画像が検出されたか否かを判定する。ステップS91において顔画像が検出されたと判定された場合、処理は、ステップS92に進む。
ステップS92において、顔グループ取得部24は、現在のグループ数が0より多いか否かを判定する。ステップS92において、現在のグループ数が1以上あると判定された場合、処理は、ステップS93に進む。
ステップS93において、顔グループ取得部24は、グループ毎に類似度評価を行う。すなわち、顔グループ取得部24は、既存のグループに登録されている顔画像と、いま検出された顔画像との類似度を評価する。
ステップS94において、顔グループ取得部24は、各グループの中で求めた最も大きい類似度(最大類似度)が閾値より大きいか否かを判定する。ステップS94において、最大類似度が閾値より大きいと判定された場合、処理は、ステップS95に進む。
ステップS95において、顔グループ取得部24は、その最大類似度であるグループに、検出された顔画像を追加する。すなわち、顔グループ取得部24は、検出された顔画像が、最大類似度が求まったグループに登録されている顔と同一人物の顔であるとして、検出された顔画像を、そのグループのメンバーとして追加する。
一方、ステップS92において、現在のグループ数が0であると判定された場合、処理は、ステップS96に進む。また、ステップS94において、最大類似度が閾値以下であると判定された場合も、検出された顔画像が、どのグループの顔とも別人であるとして、ステップS96に進む。ステップS96において、顔グループ取得部24は、新たな顔グループを生成し、検出された顔画像をメンバーとして追加する。そして、顔グループ取得部24は、作成した顔グループを顔グループリストに登録する。
ステップS91において、顔画像が検出されていないと判定された場合、処理は、ステップS97に進む。ステップS97において、顔グループ取得部24は、動画像を構成する全てのフレームについて終了したか否かを判定する。
ステップS97において、全てのフレームについて終了していないと判定された場合、処理は、ステップS91に戻り、任意時間間隔のフレームで、それ以降の処理が繰り返される。ステップS97において、全てのフレームについて終了したと判定された場合、顔グループ化処理は終了され、処理は、図9のステップS71に戻る。
なお、顔グループ化の処理は、図10を参照して説明した処理に限定されず、グループ化できればどのような方法を用いてもよい。
[顔グループ決定処理の例]
次に、図11のフローチャートを参照して、図2のステップS13における顔グループ決定処理について説明する。この処理においては、コンテンツ選択部23により求められた人物名登場パターンと、顔グループ取得部24により求められた顔グループ登場パターンとの類似性が評価され、その結果に基づいて、指定人物名に対応付けする顔グループが決定される。
ステップS111において、顔グループ決定部25は、コンテンツ選択部23からの人物名登場パターンを読み込む。ステップS112において、顔グループ決定部25は、読み込んだ人物名登場パターンと、顔グループ取得部24により取得された顔グループ登場パターン間の類似性の距離取得を行う。
ステップS113において、顔グループ決定部25は、ステップS112の処理を、全顔グループに対して行ったか否かを判定する。ステップS113において、全顔グループに対して行っていないと判定された場合、処理は、ステップS112に戻り、それ以降の処理が繰り返される。
ステップS113において、全顔グループに対して行ったと判定された場合、処理は、ステップS114に進む。ステップS114において、顔グループ決定部25は、距離最小グループを、指定人物名に対応付けを行う。
なお、以上のような顔グループの決定に際して、距離が最小の顔グループを選択する例を説明したが、次に説明するように、上位いくつかの顔グループを候補として、ユーザに提示し、選択させるようにしてもよい。
[顔グループ決定部の構成例]
図12は、上位いくつかの顔グループを候補としてユーザに提示し、選択させる場合の顔グループ決定部の構成例を示すブロック図である。
図12の例においては、顔グループ決定部25は、人物名登場パターン入力部131、顔グループ登場パターン入力部132、人物名・顔グループ間距離取得部133、選択画面表示制御部134、および顔グループ設定部135を含むように構成されている。
また、この場合、情報処理装置11は、図1を参照して上述した構成に加えて、さらに、表示部141および操作入力部142を含むように構成されている。
人物名登場パターン入力部131は、コンテンツ選択部23からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。顔グループ登場パターン入力部132は、顔グループ取得部24からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。
人物名・顔グループ間距離取得部133は、全顔グループに対して、人物名登場パターンと顔グループ登場パターン間の距離取得を行う。そして、人物名・顔グループ間距離取得部133は、距離最小顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部134および顔グループ設定部135に供給する。
選択画面表示制御部134は、処理の1つとして、ユーザ選択がある場合、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、1つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部134は、生成した選択画面を、表示部141に表示させる。また、選択画面表示制御部134は、操作入力部142を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部135に供給する。
顔グループ設定部135は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部134から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部135は、処理の1つとして、ユーザ選択がない場合、人物名・顔グループ間距離取得部133から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
表示部141は、例えば、LCD(Liquid Crystal Display)などで構成されており、選択画面表示制御部134からの選択画面を表示する。
操作入力部142は、例えば、マウス、キーボードや、表示部141に積層されるタッチパネルなどで構成され、ユーザの操作に対応する信号を、選択画面表示制御部134に供給する。例えば、選択画面における顔グループの選択信号などが選択画面表示制御部134を介して、顔グループ設定部135などに供給される。
[顔グループ決定処理の例]
次に、図13のフローチャートを参照して、図12の顔グループ決定部25により実行される図2のステップS13における顔グループ決定処理について説明する。
ステップS131において、人物名登場パターン入力部131は、コンテンツ選択部23からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。このとき、顔グループ登場パターン入力部132は、顔グループ取得部24からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。
ステップS132において、人物名・顔グループ間距離取得部133は、人物名登場パターン入力部131からの人物名登場パターンと、顔グループ登場パターン入力部132からの顔グループ登場パターン間の類似性の距離取得を行う。
ステップS133において、人物名・顔グループ間距離取得部133は、全顔グループに対して行ったか否かを判定する。ステップS133において、全顔グループに対して行っていないと判定された場合、処理は、ステップS132に戻り、それ以降の処理が繰り返される。
ステップS133において、全顔グループに対して行ったと判定された場合、処理は、ステップS134に進む。人物名・顔グループ間距離取得部133は、ステップS134において、距離最小顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部134および顔グループ設定部135に供給する。
ステップS135において、選択画面表示制御部134は、処理の1つとして、ユーザ選択があるか否かを判定する。ステップS135において、ユーザ選択があると判定された場合、処理は、ステップS136に進む。
ステップS136において、選択画面表示制御部134は、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、1つの顔グループ名を選択可能な選択画面を生成する。そして、選択画面表示制御部134は、生成した選択画面を、表示部141に表示させる。
ユーザは、操作入力部142を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部142は、この選択に対応する選択信号を、選択画面表示制御部134に供給する。
ステップS137において、選択画面表示制御部134は、操作入力部142からの選択結果を取得する。ステップS138において、選択画面表示制御部134は、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部135に供給する。
一方、ステップS135において、ユーザ選択がないと判定された場合、処理は、ステップS136乃至S138をスキップし、ステップS139に進む。
ステップS139において、顔グループ設定部135は、顔グループを設定する。すなわち、顔グループ設定部135は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部134から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部135は、処理の1つとして、ユーザ選択がない場合、人物名・顔グループ間距離取得部133から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
なお、以上のような顔グループの決定に際して、上位いくつかの顔グループを候補として、ユーザに提示し、選択させる例を説明したが、次に説明するように、外部データとしてネットワークサービスなどを利用して選択を行うようにしてもよい。
[顔グループ決定部の構成例]
図14は、外部データとしてネットワークサービスなどを利用して選択を行う場合の顔グループ決定部の構成例を示すブロック図である。
図14の例においては、顔グループ決定部25は、人物名登場パターン入力部131、顔グループ登場パターン入力部132、および人物名・顔グループ間距離取得部133を含むように構成されている。さらに、顔グループ決定部25は、外部データ入力部151、外部データ比較部152、選択画面表示制御部153、および顔グループ設定部154を含むように構成されている。
図14の顔グループ決定部25は、人物名登場パターン入力部131、顔グループ登場パターン入力部132、および人物名・顔グループ間距離取得部133を備える点で、図12の顔グループ決定部25と共通している。
図14の顔グループ決定部25は、選択画面表示制御部134および顔グループ設定部135が、選択画面表示制御部153および顔グループ設定部154に入れ替わった点が、図12の顔グループ決定部25と異なる。また、図14の顔グループ決定部25は、外部データ入力部151および外部データ比較部152が追加された点が、図12の顔グループ決定部25と異なる。
すなわち、人物名・顔グループ間距離取得部133は、距離最小顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部152、選択画面表示制御部153、および顔グループ設定部154に供給する。
外部データ入力部151は、図1の人名入力部21に入力されたものと同じ人物名が、外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量などで構成される外部データを入力し、外部データ比較部152に供給する。
外部データ比較部152は、外部データ入力部151からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部133からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。外部データ比較部152は、比較の結果、外部データと最も類似度の高い顔グループを、第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部153、および顔グループ設定部154に供給する。
選択画面表示制御部153は、処理の1つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部152からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部153は、処理の1つとして、外部データを利用せず、かつ、ユーザ選択がある場合、人物名・顔グループ間距離取得部133からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部153は、生成した選択画面を、表示部141に表示させる。
選択画面表示制御部153は、操作入力部142を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部135に供給する。
顔グループ設定部154は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部153から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部154は、処理の1つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部152から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部154は、処理の1つとして、外部データを利用せず、ユーザ選択がない場合、人物名・顔グループ間距離取得部133から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
[顔グループ決定処理の他の例]
次に、図15のフローチャートを参照して、図14の顔グループ決定部25により実行される図2のステップS13における顔グループ決定処理について説明する。
ステップS151において、人物名登場パターン入力部131は、コンテンツ選択部23からの人物名登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。このとき、顔グループ登場パターン入力部132は、顔グループ取得部24からの顔グループ登場パターンを読み込み、人物名・顔グループ間距離取得部133に供給する。
ステップS152において、人物名・顔グループ間距離取得部133は、人物名登場パターン入力部131からの人物名登場パターンと、顔グループ登場パターン入力部132からの顔グループ登場パターン間の類似性の距離取得を行う。
ステップS153において、人物名・顔グループ間距離取得部133は、全顔グループに対して行ったか否かを判定する。ステップS153において、全顔グループに対して行っていないと判定された場合、処理は、ステップS152に戻り、それ以降の処理が繰り返される。
ステップS153において、全顔グループに対して行ったと判定された場合、処理は、ステップS154に進む。人物名・顔グループ間距離取得部133は、ステップS154において、距離最小顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部152、選択画面表示制御部153、および顔グループ設定部154に供給する。
ステップS155において、外部データ比較部152は、処理の1つとして、外部データを利用するか否かを判定する。ステップS155において、外部データを利用すると判定された場合、処理は、ステップS156に進む。
ステップS156において、外部データ比較部152は、人物名・顔グループ間距離取得部133からの距離が小さい上位いくつかの顔グループと、外部データ入力部151からの外部データとの比較処理を行う。すなわち、外部データ比較部152は、外部データ入力部151からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部133からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。
ステップS157において、外部データ比較部152は、比較の結果、外部データと最も類似度の高い顔グループを、第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部153、および顔グループ設定部154に供給する。
また、ステップS155において、外部データを利用しないと判定された場合、処理は、ステップS156およびS157をスキップし、ステップS158に進む。
ステップS158において、選択画面表示制御部153は、処理の1つとして、ユーザ選択があるか否かを判定する。ステップS158において、ユーザ選択があると判定された場合、処理は、ステップS159に進む。
ステップS159において、選択画面表示制御部153は、人物名を対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、1つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部153は、生成した選択画面を、表示部141に表示させる。
なお、選択画面表示制御部153は、処理の1つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部152からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部153は、処理の1つとして、外部データを利用せず、かつ、ユーザ選択がある場合、人物名・顔グループ間距離取得部133からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。
ユーザは、操作入力部142を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部142は、この選択に対応する選択信号を、選択画面表示制御部153に供給する。
ステップS160において、選択画面表示制御部153は、操作入力部142からの選択結果を取得する。ステップS161において、選択画面表示制御部153は、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部154に供給する。
ステップS158において、ユーザ選択がないと判定された場合、処理は、ステップS159乃至S161をスキップし、ステップS162に進む。
ステップS162において、顔グループ設定部154は、顔グループを設定する。すなわち、顔グループ設定部154は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部153から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部154は、処理の1つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部152から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部154は、処理の1つとして、外部データを利用せず、ユーザ選択がない場合、人物名・顔グループ間距離取得部133から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
以上のように、図1の情報処理装置11においては、選択したコンテンツ内に、ユーザにより指定された人物名が登場するか否かを示す人物名登場パターンが取得され、選択された全コンテンツに登場するか否かを示す顔グループ登場パターンが取得される。そして、人物名登場パターンと、顔グループ登場パターンとの類似性に基づいて、ユーザにより指定された人物名に対応付ける顔グループが決定される。これにより、人名登録の作業の効率化を図ることができる。
<2.実施の形態(情報処理装置)>
[本技術の情報処理装置の他の構成]
図16は、本技術を適用した情報処理装置の構成例を示す図である。
図16の情報処理装置211は、図1の情報処理装置11と同様に、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量を辞書に登録して、検索を行う。情報処理装置211は、情報処理装置11と同様に、例えば、パーソナルコンピュータなどで構成される。
図16の例において、情報処理装置211は、人名入力部21、コンテンツアーカイブ22、コンテンツ選択部221、顔グループ取得部222、顔グループ決定部223、登録用顔画像選択部26、顔辞書27を含むように構成されている。
情報処理装置211は、人名入力部21、コンテンツアーカイブ22、登録用顔画像選択部26、および顔辞書27を備える点は、図1の情報処理装置11と共通している。情報処理装置211は、コンテンツ選択部23、顔グループ取得部24、顔グループ決定部25が、それぞれ、コンテンツ選択部221、顔グループ取得部222、顔グループ決定部223に入れ替わった点が、図1の情報処理装置11と異なっている。
すなわち、コンテンツ選択部221は、コンテンツアーカイブ22内から、人名入力部21からの指定人物名やその指定人物が登場している可能性のあるコンテンツを選択する。ここで、選択されるコンテンツは、コンテンツアーカイブ22内の指定された範囲内にあるコンテンツとする。例えば、映像のカテゴリや、撮影時期、撮影場所などで対象を制限することができる。
コンテンツ選択部221は、選択したコンテンツの情報を、顔グループ取得部222に供給する。
顔グループ取得部222は、コンテンツ選択部221により選択された各コンテンツ内に登場する顔をグループ化し、同一人物をそれぞれ1つのグループにまとめる処理を行う。そして、顔グループ取得部222は、選択された全コンテンツの全顔グループの中から、指定人物である可能性の高い顔グループを、候補顔グループとして取得する処理を行う。具体的には、顔グループ取得部222は、選択されたコンテンツの顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する。顔グループ取得部222は、取得した候補顔グループの情報を、顔グループ決定部223に供給する。
顔グループ決定部223は、顔グループ取得部222により取得された候補顔グループの中から指定人物に対応する顔グループを決定する処理を行う。具体的には、顔グループ決定部223は、候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、人物名に対応付ける顔グループとして決定する。顔グループ決定部223は、決定された顔グループの情報を、登録用顔画像選択部26に供給する。
[情報処理装置の動作]
次に、図17のフローチャートを参照して、情報処理装置211の動作である顔辞書登録処理について説明する。
例えば、ユーザにより指定された人物名が、人名入力部21を介してコンテンツ選択部221に入力される。ステップS211において、コンテンツ選択部221は、コンテンツ選択処理を行う。このコンテンツ選択処理の詳細は、図18を参照して後述される。
ステップS211の処理により、コンテンツアーカイブ22内から指定人物が登場している可能性のあるコンテンツが選択されて、コンテンツとともに、顔グループ取得部222に供給される。
ステップS212において、顔グループ取得部222は、顔グループ取得処理を行う。この顔グループ取得処理の詳細は、図21を参照して後述される。
ステップS212の処理により、選択された各コンテンツに登場する顔画像が検出され、人物毎にグループ化が行われ、指定人物と対応する可能性のある顔グループのみが、候補顔グループとして取得されて、顔グループ決定部223に供給される。
ステップS213において、顔グループ決定部223は、顔グループ決定処理を行う。この顔グループ決定処理の詳細は、図26を参照して後述される。
ステップS213の処理により、顔グループ取得部222により取得された候補顔グループ群から、指定人物名と対応付けさせる顔グループが決定される。決定された顔グループの情報は、登録用顔画像選択部26に供給される。
ステップS214において、登録用顔画像選択部26は、登録用顔画像選択処理を行う。すなわち、登録用顔画像選択部26は、顔グループ決定部25により決定された顔グループの中から、指定数の顔画像および顔画像特徴量を選択し、選択された顔画像および顔画像特徴量を、人物名に対応付けて顔辞書27に登録する。
以上のようにして、情報処理装置211においては、顔画像および顔画像特徴量が、人物名に対応付けて顔辞書27に登録されて、検索を行うことができるようになる。したがって、辞書登録作業の効率化を図ることができる。
[コンテンツ選択処理の例]
次に、図18のフローチャートを参照して、図17のステップS211のコンテンツ選択処理について説明する。このコンテンツ選択処理においては、コンテンツアーカイブ22内から、指定人物が登場している可能性のあるコンテンツが取得される。
コンテンツ選択部221は、ステップS231において、コンテンツアーカイブ22から、コンテンツを選択し、ステップS232において、フレームを選択する。
ステップS233において、コンテンツ選択部221は、選択したフレームについて、各種識別処理を行う。なお、ステップS233においては、図4のステップS33で行われる識別処理と基本的に同様の処理が行われる。すなわち、ステップS232乃至S233においては、任意の時間間隔で、コンテンツに付加されているメタデータの読み取りや、各種識別処理によって指定人物名や指定人物による発話が登場するか否かが判断される。
ここでいう識別処理とは、画面内の文字情報の識別処理であったり、発話内容の識別処理であったり、さらには、発話者の識別処理など、映像内の文字や音声等情報を用いた処理である。したがって、指定人物名に関する文字情報、音声情報が取得でき、指定人物が存在するかどうかを識別できれば、識別処理はこれらに限定される必要はない。
ステップS234において、コンテンツ選択部221は、上述した識別処理が行われる度に、その結果で、指定人物登場頻度データを更新する。例えば、指定人物登場頻度データは、図5を参照して上述したように構成されている。指定人物登場頻度データへの記載内容としては、識別を行った時間位置、登場したか否かの情報となる。ここで、登場したか否かの情報は、識別処理結果毎に持たさせてもよいし、1つにまとめてもよいし、それら両方であってもよい。また、識別時の文字の大きさや、音声の音量などの情報を合わせて記載してもよい。
ステップS235において、コンテンツ選択部221は、全フレームに対して行ったか否かを判定する。ステップS235において、全フレームに対して行っていないと判定された場合、処理は、ステップS232に戻り、それ以降の処理が繰り返される。
ステップS235において、全フレームに対して行ったと判定された場合、処理は、ステップS236に進む。ステップS236において、コンテンツ選択部221は、更新された指定人物登場頻度データに基づいて、登場頻度が閾値よりも大きいか否かを判定する。
ステップS236において、登場頻度が閾値よりも大きいと判定された場合、指定人物が登場しているとして、処理は、ステップS237に進む。ステップS237において、コンテンツ選択部221は、ステップS231で選択されたコンテンツを、指定人物登場コンテンツリストに追加する。
ステップS236において、登場頻度が閾値よりも小さいと判定された場合、ステップS237の処理はスキップされ、処理は、ステップS238に進む。
なお、上述したステップS236においては、登場頻度のみならず、識別時の文字の大きさや、音声の音量などを組み合わせて、指定人物が登場しているか否かを判定するようにしてもよい。
ステップS238において、コンテンツ選択部221は、以上の処理を、全コンテンツに対して行ったか否かを判定する。ステップS238において、全コンテンツに対して行っていないと判定された場合、処理は、ステップS231に戻り、それ以降の処理が繰り返される。ステップS238において、全コンテンツに対して行ったと判定された場合、図18のコンテンツ選択処理は終了される。そして、選択したコンテンツの情報として、指定人物登場コンテンツリストのコンテンツの情報が、顔グループ取得部222に供給される。
なお、以上説明したコンテンツ選択処理における識別処理は、人物名が指定される度に行う例を説明した。しかしながら、この識別処理は、人物名が指定される度に行う必要はない。すなわち、コンテンツ毎にそのコンテンツに登場する人物とその頻度に関する情報を予め取得して、例えば、メモリなどに記憶しておき、その情報に基づいて、人物名登場パターンを更新するようにすることもできる。この場合のコンテンツ選択処理の例について、次の図19に示す。
[コンテンツ選択処理の他の例」
次に、図19のフローチャートを参照して、図17のステップS211におけるコンテンツ選択処理の他の例について説明する。
コンテンツ選択部221は、ステップS251において、コンテンツアーカイブ22から、コンテンツを1つ選択する。ステップS252において、コンテンツ選択部23は、取得したコンテンツについての人物登場頻度データを、例えば、図示せぬメモリなどから読み込む。例えば、人物登場頻度データは、図7を参照して上述したように構成されている。
ステップS253において、コンテンツ選択部23は、指定人物が登場するか否かを判定する。例えば、図18のステップS236と同様に、登場頻度が閾値より大きいか否かを判定することで、指定人物が登場するか否かが判定される。
ステップS253において、登場頻度が閾値より大きい、すなわち、指定人物が登場すると判定された場合、処理は、ステップS254に進む。ステップS254において、コンテンツ選択部23は、ステップS251において選択されたコンテンツを、指定人物登場コンテンツリストに追加する。
ステップS253において、登場頻度が閾値より小さい、すなわち、指定人物が登場しないと判定された場合、処理は、ステップS254をスキップし、ステップS255に進む。
ステップS255において、コンテンツ選択部221は、以上の処理を、全コンテンツに対して行ったか否かを判定する。ステップS255において、全コンテンツに対して行っていないと判定された場合、処理は、ステップS251に戻り、それ以降の処理が繰り返される。ステップS255において、全コンテンツに対して行ったと判定された場合、図19のコンテンツ選択処理は終了される。そして、選択したコンテンツの情報として、指定人物登場コンテンツリストのコンテンツの情報が、顔グループ取得部222に供給される。
[顔グループ取得部の構成例]
図20は、顔グループ取得部の構成例を示している。
図20の例において、顔グループ取得部222は、コンテンツ内顔グループ取得部271および候補顔グループ取得部272を含むように構成されている。
コンテンツ内顔グループ取得部271は、コンテンツ選択部221で選択されたコンテンツ(すなわち、指定人物登場コンテンツリストのコンテンツ)毎に登場する顔画像を検出し、人物毎にグループ化を行う。そして、コンテンツ内顔グループ取得部271は、指定人物と対応する可能性のある顔グループのみを取得する。すなわち、指定人物ではない顔グループは除外される。コンテンツ内顔グループ取得部271は、取得した顔グループの情報を、候補顔グループ取得部272に供給する。
候補顔グループ取得部272は、コンテンツ毎に、指定人物と対応させる顔グループの候補(以下、候補顔グループと称する)を取得し、取得した候補顔グループの情報を、顔グループ決定部223に供給する。
[顔グループ取得処理の例]
次に、図21のフローチャートを参照して、図17のステップS212における顔グループ取得処理について説明する。
コンテンツ内顔グループ取得部271は、ステップS271において、コンテンツ内顔グループ取得処理を行う。このコンテンツ内顔グループ取得処理は、図22を参照して後述される。
ステップS271の処理により、コンテンツ選択部221で選択されたコンテンツ毎に登場する顔画像が検出され、人物毎にグループ化が行われ、指定人物と対応する可能性のある顔グループのみが取得される。
コンテンツ内顔グループ取得部271は、ステップS272において、ステップS271の処理を全コンテンツに対して行ったか否かを判定する。ステップS272において、全コンテンツに対して行っていないと判定された場合、処理は、ステップS271に戻り、それ以降の処理が繰り返される。
ステップS272において、全コンテンツに対して行ったと判定された場合、処理は、ステップS273に進む。ステップS273において、候補顔グループ取得部272は、候補顔グループ取得処理を行う。この候補顔グループ取得処理は、図24を参照して後述される。
ステップS273の処理により、コンテンツ毎に、指定人物と対応させる顔グループの候補が取得され、取得された候補顔グループの情報が、顔グループ決定部223に供給される。そして、図21の顔グループ取得処理は終了され、処理は、図17のステップS212に戻る。
[コンテンツ内顔グループ取得処理の例]
次に、図22のフローチャートを参照して、図21のステップS271におけるコンテンツ内顔グループ取得処理について説明する。
ステップS291において、コンテンツ内顔グループ取得部271は、顔グループ化処理を行う。なお、顔グループ化処理については、図10を参照して上述した顔グループ化処理と基本的に同様の処理を行うため、繰り返しになるので、その説明は省略される。
ステップS291の処理により、コンテンツ内に登場する顔画像が検出され、検出された顔画像が人物毎にグループ化されて、顔グループが顔グループリストに登録される。なお、この処理は、コンテンツ選択部221により選択された全コンテンツに対して行われる。
ステップS292において、コンテンツ内顔グループ取得部271は、シーン分割を行う。すなわち、コンテンツ内顔グループ取得部271は、コンテンツをシーンの区切りで分割する。
コンテンツ内顔グループ取得部271は、ステップS293において、分割されたシーン区間のうち、1つのシーン区間を設定し、ステップS294において、設定したシーン区間に、顔が出現するか否かを判定する。ステップS294において、顔が出現すると判定された場合、処理は、ステップS295に進む。
ステップS295において、コンテンツ内顔グループ取得部271は、ステップS293で設定されたシーン区間の指定人物登場頻度データを読み込む。すなわち、コンテンツ選択部221により取得された指定人物登場頻度データ内の該当シーン区間のデータが読み込まれる。
ステップS296において、該当シーン区間を含む近傍シーンに、指定人物が登場しないか否かを判定する。ステップS296において、該当シーン区間を含む近傍シーンに、指定人物が登場しないと判定された場合、処理は、ステップS297に進む。
この場合、該当シーンに登場する顔は指定人物の可能性が極めて低くなるため、ステップS297において、コンテンツ内顔グループ取得部271は、該当シーン区間に登場する顔を、顔グループリストから削除する。これにより、指定人物が登場しないシーンに登場する顔画像を候補から外すことができる。
一方、ステップS296において、該当シーン区間を含む近傍シーンに、指定人物が登場すると判定された場合、該当シーン区間に登場する顔は指定人物の可能性が高くなるので、処理は、ステップS297をスキップし、ステップS298に進む。
また、ステップS294において、顔が出現しないと判定された場合、処理は、ステップS295乃至S297をスキップし、ステップS298に進む。
ステップS298において、コンテンツ内顔グループ取得部271は、全シーンに対して、上述した処理を行ったか否かを判定する。ステップS298において全シーンに対して、上述した処理を行っていないと判定された場合、処理は、ステップS293に戻り、それ以降の処理が繰り返される。
ステップS298において、全シーンに対して、上述した処理を行ったと判定された場合、処理は、ステップS299に進む。
ステップS299において、コンテンツ内顔グループ取得部271は、顔グループリストから、顔グループを1つ選択し、顔グループ毎に個人識別を行う。そして、ステップS300において、コンテンツ内顔グループ取得部271は、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致するか否かを判定する。
ステップS300において、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致すると判定された場合、処理は、ステップS301に進む。この場合、その顔グループが、人名入力部21から入力された指定人物と対応付けすべき顔でないことが明確なので、ステップS301において、コンテンツ内顔グループ取得部271は、その顔グループを、顔グループリストから削除する。
また、ステップS300において、その顔グループに属する顔が、辞書に登録済みの人物の顔と一致しないと判定された場合、処理は、ステップS302に進む。すなわち、この場合、コンテンツ内顔グループ取得部271は、顔グループを、顔グループリストに留め、ステップS302において、顔グループ内の代表顔画像を取得する。この代表顔画像は、顔グループ内の全ての顔の顔特徴量の平均的な顔とする。
その後、コンテンツ内顔グループ取得部271は、ステップS303において、全顔グループに対して、上述した処理を行ったか否かを判定する。ステップS303において、全顔グループに対して、上述した処理を行っていないと判定された場合、処理は、ステップS299に戻り、それ以降の処理が繰り返される。
ステップS303において、全顔グループに対して、上述した処理を行ったと判定された場合、図22のコンテンツ内顔グループ取得処理は終了され、処理は、図21のステップS271に戻る。
以上のように、各コンテンツ内において、顔グループ化が行われて、顔グループリストに登録される。そして、指定人物が登場しないシーンに登場する顔画像のグループや指定人物と対応付けすべき顔でない顔グループがその顔グループリストから削除される。そして、その結果、各コンテンツ内において、指定人物と対応付けすべき顔グループからなる顔グループリストが取得される。
[候補顔グループ取得処理の例]
次に、図23のフローチャートを参照して、図21のステップS273における候補顔グループ取得処理について説明する。なお、図23の例においては、適宜、図24を参照して説明する。
例えば、図24に示されるように、コンテンツA乃至Cが、指定人物が登場するコンテンツとして取得され、各コンテンツに対する顔グループ化の結果、コンテンツAにおいては、顔グループA1乃至A3が取得されている。コンテンツBにおいては、顔グループB1乃至B3が取得されている。また、コンテンツCについては、顔グループC1およびC2が取得されている。
ステップS331において、候補顔グループ取得部272は、コンテンツ(例えば、コンテンツA)を選択する。ステップS332において、候補顔グループ取得部272は、選択されたコンテンツの顔グループリストから、顔グループ(例えば、顔グループA1)を選択する。
ステップS333において、候補顔グループ取得部272は、他のコンテンツの顔グループリストから、他のコンテンツに出現する類似顔グループ数を取得する。なお、顔グループ間の類似度の算出には、各顔グループの代表画像を用いてもよい。例えば、コンテンツAの顔グループA1と、コンテンツA以外のコンテンツBおよびCに属する各顔グループB1乃至B3、C1、およびC2との間で類似を評価し、類似度が閾値以上の数を、類似度グループ数NA1として取得する。
ステップS334において、候補顔グループ取得部272は、選択されたコンテンツ内の全顔グループに対して行ったか否かを判定する。ステップS334において、全顔グループに対して行っていないと判定された場合、処理は、ステップS332に戻り、それ以降の処理が繰り返される。
すなわち、コンテンツA以外の他の顔グループA2およびA3に対しても同様の処理が行われ、類似顔グループ数NA2およびNA3が取得される。
ステップS334において、全顔グループに対して行ったと判定された場合、処理は、ステップS335に進む。ステップS335において、候補顔グループ取得部272は、類似度顔グループ数が最多の顔グループを、候補顔グループに追加する。
すなわち、全ての類似顔グループ数NA1乃至NA3の中で最大値をもつ顔グループが、候補顔グループとして取得される。ここで、類似顔グループの数の最大値が複数の場合、最大値を持つ複数の顔グループを候補顔グループとして取得される。
ステップS336において、候補顔グループ取得部272は、全コンテンツに対して行ったか否かを判定する。ステップS336において、全コンテンツに対して行っていないと判定された場合、処理は、ステップS331に戻り、それ以降の処理が繰り返される。
すなわち、上述した処理が、コンテンツBおよびCに対しても行われ、全てのコンテンツから、候補顔グループが取得される。
一方、ステップS336において、全コンテンツに対して上述した処理を行ったと判定された場合、図23の候補顔グループ取得処理は終了され、処理は、図21のステップS273に戻る。
以上のように、各コンテンツの顔グループ毎に、他のコンテンツに出現する類似顔グループ数が取得され、取得した類似度顔グループ数が最多の顔グループが候補顔グループに追加される。
[顔グループ決定部の構成例]
図25は、顔グループ取得部の構成例を示している。
図25の例においては、顔グループ決定部223は、候補顔グループ入力部411、クラスタリング部412、選択画面表示制御部413、および顔グループ設定部414を含むように構成される。
また、この場合、情報処理装置11は、図16を参照して上述した構成に加えて、さらに、図12を参照して上述した表示部141および操作入力部142を含むように構成されている。
候補顔グループ入力部411は、候補顔グループ取得部272からの各コンテンツの候補顔グループを入力し、クラスタリング部412に供給する。
クラスタリング部412は、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を1つのクラスタにまとめる。
クラスタリングには、階層的クラスタリングで全クラスタ間距離が同一顔判定に用いる閾値より大きくなるまでクラスタの統合を繰り返す方法が用いられる。あるいは、クラスタリングには、k-means法などの分割最適化クラスタリングで2クラスタに分割し、クラスタの広がりが閾値より小さくなるまでクラスタの分割を繰り返す方法が用いられる。クラスタリングの方法は、これらの方法に限定されない。
クラスタリング部412は、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部413および顔グループ設定部414に供給する。
選択画面表示制御部413は、処理の1つとして、ユーザ選択がある場合、指定人物に対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、1つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部413は、生成した選択画面を、表示部141に表示させる。また、選択画面表示制御部413は、操作入力部142を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部414に供給する。
顔グループ設定部414は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部413から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部414は、処理の1つとして、ユーザ選択がない場合、クラスタリング部412から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
[顔グループ決定処理の例]
次に、図26のフローチャートを参照して、図25の顔グループ決定部223により実行される図17のステップS213における顔グループ決定処理について説明する。
ステップS411において、候補顔グループ入力部411は、候補顔グループ取得部272からの候補顔グループを入力し、クラスタリング部412に供給する。
クラスタリング部412は、ステップS412において、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を1つのクラスタにまとめる。
クラスタリング部412は、ステップS413において、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部413および顔グループ設定部414に供給する。
ステップS414において、選択画面表示制御部413は、処理の1つとして、ユーザ選択があるか否かを判定する。ステップS414において、ユーザ選択があると判定された場合、処理は、ステップS415に進む。
ステップS415において、選択画面表示制御部413は、指定人物に対応付ける顔グループの候補となる顔グループ名などからなり、候補となる顔グループ名から、1つの顔グループ名を選択可能な選択画面を生成する。選択画面表示制御部413は、生成した選択画面を、表示部141に表示させる。
ユーザは、操作入力部142を操作することで、指定人物に対応付ける顔グループ名を選択する。操作入力部142は、この選択に対応する選択信号を、選択画面表示制御部413に供給する。
ステップS416において、選択画面表示制御部413は、操作入力部142からの選択結果を取得する。ステップS417において、選択画面表示制御部413は、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部414に供給する。
ステップS414において、ユーザ選択がないと判定された場合、処理は、ステップS415乃至S417をスキップし、ステップS418に進む。
ステップS418において、顔グループ設定部414は、顔グループを設定する。すなわち、顔グループ設定部414は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部413から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部414は、処理の1つとして、ユーザ選択がない場合、クラスタリング部412から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
なお、以上のような顔グループの決定に際して、上位いくつかの顔グループを候補として、ユーザに提示し、選択させる例を説明したが、次に説明するように、外部データとしてネットワークサービスなどを利用して選択を行うようにしてもよい。
[顔グループ決定部の構成例]
図27は、外部データとしてネットワークサービスなどを利用して選択を行う場合の顔グループ決定部の構成例を示すブロック図である。
図27の例においては、顔グループ決定部223は、候補顔グループ入力部411、およびクラスタリング部412を含むように構成される。さらに、顔グループ決定部223は、外部データ入力部431、外部データ比較部432、選択画面表示制御部433、および顔グループ設定部434を含むように構成されている。
図27の顔グループ決定部223は、候補顔グループ入力部411、およびクラスタリング部412を備える点で、図25の顔グループ決定部223と共通している。
図27の顔グループ決定部223は、選択画面表示制御部413、および顔グループ設定部414が、選択画面表示制御部433、および顔グループ設定部434に入れ替わった点が、図25の顔グループ決定部223と異なる。また、図27の顔グループ決定部223は、外部データ入力部431および外部データ比較部432が追加された点が、図25の顔グループ決定部223と異なる。
すなわち、クラスタリング部412は、最多のクラスタに属する顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、外部データ比較部432、選択画面表示制御部433、および顔グループ設定部434に供給する。
外部データ入力部431は、図16の人名入力部21に入力されたものと同じ人物名が、外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量などで構成される外部データを入力し、外部データ比較部432に供給する。
外部データ比較部432は、外部データ入力部431からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、人物名・顔グループ間距離取得部133からの距離が小さい上位いくつかの顔グループの代表顔特徴量とを比較する。外部データ比較部432は、比較の結果、外部データと最も類似度の高い顔グループを、第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部433、および顔グループ設定部434に供給する。
選択画面表示制御部433は、処理の1つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部432からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部433は、処理の1つとして、外部データを利用せず、ユーザ選択がある場合、クラスタリング部412からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部413は、生成した選択画面を、表示部141に表示させる。
選択画面表示制御部413は、操作入力部142を介して入力されるユーザによる顔グループの選択信号に基づいて、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部434に供給する。
顔グループ設定部434は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部433から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部434は、処理の1つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部432から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部434は、処理の1つとして、外部データを利用せず、かつ、ユーザ選択がない場合、クラスタリング部412から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
[顔グループ決定処理の他の例]
次に、図28のフローチャートを参照して、図27の顔グループ決定部223により実行される図17のステップS213における顔グループ決定処理について説明する。
ステップS431において、候補顔グループ入力部411は、候補顔グループ取得部272からの候補顔グループを入力し、クラスタリング部412に供給する。
クラスタリング部412は、ステップS432において、各候補顔グループの代表顔画像の顔特徴量を用いてクラスタリングを行い、同一人物の顔を1つのクラスタにまとめる。
クラスタリング部412は、ステップS433において、クラスタリングの結果、クラスタを構成する顔グループ数が最多のクラスタに属する顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部433および顔グループ設定部434に供給する。
ステップS434において、外部データ比較部432は、処理の1つとして、外部データを利用するか否かを判定する。ステップS434において、外部データを利用すると判定された場合、処理は、ステップS435に進む。
ステップS435において、外部データ比較部432は、クラスタリング部412からの最多のクラスタに属する上位いくつかの顔グループと、外部データ入力部431からの外部データとの比較処理を行う。すなわち、外部データ比較部432は、外部データ入力部431からの外部のネットワークサービスなどで画像検索された結果の上位数件の顔特徴量と、クラスタリング部412からの最多のクラスタに属する上位いくつかの顔グループの代表顔特徴量とを比較する。
ステップS436において、外部データ比較部432は、比較の結果、外部データと最も類似度の高い顔グループを、第1候補顔グループとして、上位いくつかの顔グループの情報を、選択画面表示制御部433、および顔グループ設定部434に供給する。
ステップS434において、外部データを利用しないと判定された場合、処理は、ステップS435およびS436をスキップし、ステップS437に進む。
ステップS437において、選択画面表示制御部433は、処理の1つとして、ユーザ選択があるか否かを判定する。ステップS437において、ユーザ選択があると判定された場合、処理は、ステップS438に進む。
ステップS438において、選択画面表示制御部433は、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成し、生成した選択画面を、表示部141に表示させる。
なお、選択画面表示制御部433は、処理の1つとして、外部データを利用し、ユーザ選択がある場合、外部データ比較部432からの顔グループの情報に基づいて、人物名を対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。選択画面表示制御部433は、処理の1つとして、外部データを利用せず、ユーザ選択がある場合、クラスタリング部412からの顔グループの情報に基づいて、指定人物に対応付ける顔グループの候補となる顔グループ名などからなる選択画面を生成する。
ユーザは、操作入力部142を操作することで、人物名に対応付ける顔グループ名を選択する。操作入力部142は、この選択に対応する選択信号を、選択画面表示制御部433に供給する。
ステップS439において、選択画面表示制御部433は、操作入力部142からの選択結果を取得する。ステップS440において、選択画面表示制御部433は、ユーザが選択した顔グループを第1候補顔グループとして、上位いくつかの顔グループの情報を、顔グループ設定部434に供給する。
ステップS437において、ユーザ選択がないと判定された場合、処理は、ステップS438乃至S440をスキップし、ステップS441に進む。
ステップS441において、顔グループ設定部434は、顔グループを設定する。すなわち、顔グループ設定部434は、処理の1つとして、ユーザ選択がある場合、選択画面表示制御部433から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部434は、処理の1つとして、外部データを利用し、ユーザ選択がない場合、外部データ比較部432から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。顔グループ設定部434は、処理の1つとして、外部データを利用せず、ユーザ選択がない場合、クラスタリング部412から供給される第1候補顔グループを、指定人物名に対応付ける顔グループとして設定する。
以上のように、図16の情報処理装置211においては、人物名が登場する可能性のあるコンテンツが選択され、選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループが、候補顔グループとして取得される。そして、候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループが、前記人物名に対応付ける顔グループとして決定される。これにより、人名登録の作業の効率化を図ることができる。
以上により、本技術によれば、例えば、入力された人物名が辞書に登録されていない場合であっても、その人物名に対応する顔画像および顔画像特徴量が辞書に登録されるので、検索を行うことができる。
すなわち、従来の人名による映像や画像検索においては、辞書に登録済みの人物の顔特徴量と比較により指定人物が登場するかどうかが判定され、登場する映像、画像を検索結果として提示される。
本技術によれば、この辞書への人名と顔画像特徴量の登録が自動化されるので、作業の効率化を図ることができる。
特に、人名と顔画像の対応付けにおいては、例えば、EPGのように正確ではあるものの、人手によってつけられた情報だけでなく、動画内から各種識別処理により自動取得された人名に関する情報を基に対応付けを行うこともできる。
また、本技術によれば、全コンテンツ内に共通する顔画像ではなく、相対的に出現頻度の高い顔画像が人名と対応付けされる。これにより、指定人物が登場している動画像の候補内に、仮にその人物が登場していない、あるいは、その人物の顔画像が取得できなかった場合においても、人名と顔画像の対応付けを行うことが可能となる。
さらに、本技術によれば、辞書への登録時に、選択された顔画像群をクラスタリングして得られた各クラスタの代表顔が選択される。これにより、様々な特徴を有する顔画像が登録でき、個人識別の性能を向上させることができる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
<3.第3の実施の形態(コンピュータ)>
[コンピュータの構成例]
図29は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示している。
コンピュータ500において、CPU(Central Processing Unit)501、ROM(Read Only Memory)502、RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インタフェース505が接続されている。入出力インタフェース505には、入力部506、出力部507、記憶部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホンなどよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記憶部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインタフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記憶部508に記憶されているプログラムを、入出力インタフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インタフェース505を介して、記憶部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記憶部508にインストールすることができる。その他、プログラムは、ROM502や記憶部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、以上において、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。つまり、本技術は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するのであれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
なお、本技術は以下のような構成も取ることができる。
(1) ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
を備える情報処理装置。
(2) 前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、
前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定する
前記(1)に記載の画像処理装置。
(3) 前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名登場パターンを取得する
前記(2)に記載の画像処理装置。
(4) 前記類似性が高い複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記1つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
前記(2)または(3)に記載の画像処理装置。
(5) 前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記(2)乃至(4)のいずれかに記載の画像処理装置。
(6) 前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、
前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、
前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記(1)に記載の画像処理装置。
(7) 前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる指定人物の登場頻度を時系列で表わした指定人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択する
前記(6)に記載の画像処理装置。
(8) 前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する
前記(6)または(7)に記載の画像処理装置。
(9) 前記候補顔グループが多いクラスタに属する複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、
ユーザの操作に応じて、前記1つの顔グループを選択する選択部と
をさらに備え、
前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
前記(6)または(7)に記載の画像処理装置。
(10) 前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
さらに備え、
前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
前記(6)または(7)に記載の画像処理装置。
(11) 前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部を
さらに備える
前記(1)乃至(10)のいずれかに記載の画像処理装置。
(12) 前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択する
前記(11)に記載の画像処理装置。
(13) 情報処理装置が、
ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択し、
選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、
取得された顔グループから、前記人物名に対応付ける顔グループを決定する
情報処理方法。
(14) コンピュータを、
ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、
前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
して機能させるためのプログラム。
11 情報処理装置, 21 人名入力部, 22 コンテンツアーカイブ, 23 コンテンツ選択部, 24 顔グループ取得部, 25 顔グループ決定部, 26 登録用顔画像選択部, 27 顔辞書, 131 人物名登場パターン入力部, 132 顔グループ登場パターン入力部, 133 人名・顔グループ間距離取得部, 134 選択画面表示制御部, 135 顔グループ設定部, 141 表示部, 142 操作入力部, 151 外部データ入力部, 152 外部データ比較部, 153 選択画面表示制御部, 154 顔グループ設定部, 211 情報処理装置, 221 コンテンツ選択部, 222 顔グループ取得部, 223 顔グループ決定部, 271 コンテンツ内顔グループ取得部, 272 候補顔グループ取得部, 411 候補顔グループ入力部, 412 クラスタリング部, 413 選択画面表示制御部, 414 顔グループ設定部, 431 外部データ入力部, 432 外部データ比較部, 433 選択画面表示制御部, 434 顔グループ設定部

Claims (14)

  1. ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、
    前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
    前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
    を備える情報処理装置。
  2. 前記コンテンツ選択部は、選択したコンテンツ内に、前記人物名が登場するか否かを示す人物名登場パターンを取得し、
    前記顔グループ取得部は、前記コンテンツ選択部により選択された全コンテンツに登場するか否かを示す顔グループ登場パターンを取得し、
    前記顔グループ決定部は、前記コンテンツ選択部により取得された人物名登場パターンと、前記顔グループ取得部により取得された顔グループ登場パターンとの類似性に基づいて、前記人物名に対応付ける顔グループを決定する
    請求項1に記載の情報処理装置。
  3. 前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる人物の登場頻度を時系列で表わした人物登場頻度データに基づいて、前記人物名登場パターンを取得する
    請求項2に記載の情報処理装置。
  4. 前記類似性が高い複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、
    ユーザの操作に応じて、前記1つの顔グループを選択する選択部と
    をさらに備え、
    前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
    請求項2に記載の情報処理装置。
  5. 前記類似性が高い顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
    さらに備え、
    前記顔グループ決定部は、前記類似性が高い複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
    請求項2に記載の情報処理装置。
  6. 前記コンテンツ選択部は、前記人物名が登場する可能性のあるコンテンツを選択し、
    前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得し、
    前記顔グループ決定部は、前記顔グループ取得部により取得された候補顔グループをクラスタリングして、候補顔グループが最多のクラスタに属する顔グループを、前記人物名に対応付ける顔グループとして決定する
    請求項1に記載の情報処理装置。
  7. 前記コンテンツ選択部は、選択したコンテンツ内のテキスト情報、音声情報、または、コンテンツに付加されているメタデータを識別した結果得られる人物の登場頻度を時系列で表わした人物登場頻度データに基づいて、前記人物名が登場する可能性のあるコンテンツを選択する
    請求項6に記載の情報処理装置。
  8. 前記顔グループ取得部は、前記コンテンツ選択部により選択された各コンテンツにおける顔グループの中で、前記人物名に対応付ける可能性の低いものを除外して、それ以外の顔グループのうち、それ以外のコンテンツに出現する類似顔グループ数が最多の顔グループを、候補顔グループとして取得する
    請求項6に記載の情報処理装置。
  9. 前記候補顔グループが多いクラスタに属する複数の顔グループから1つの顔グループを選択可能な画面の表示を制御する表示制御部と、
    ユーザの操作に応じて、前記1つの顔グループを選択する選択部と
    をさらに備え、
    前記顔グループ決定部は、前記選択部により選択された顔グループを、前記人物名に対応付ける顔グループとして決定する
    請求項6に記載の情報処理装置。
  10. 前記候補顔グループが多いクラスタに属する複数の顔グループと、前記人物名の外部の検索結果のデータとを比較する比較部を
    さらに備え、
    前記顔グループ決定部は、前記候補顔グループが多いクラスタに属する複数の顔グループのうち、前記外部の検索結果のデータと最も類似する顔グループを、前記人物名に対応付ける顔グループとして決定する
    請求項6に記載の情報処理装置。
  11. 前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像を選択する顔画像選択部を
    さらに備える請求項1に記載の情報処理装置。
  12. 前記顔画像選択部は、クラスタリングを行った結果の各クラスタの代表顔を、前記顔グループ決定部により決定された顔グループの顔画像群の中から、辞書登録する顔画像として選択する
    請求項11に記載の情報処理装置。
  13. 情報処理装置が、
    ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択し、
    選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得し、
    取得された顔グループから、前記人物名に対応付ける顔グループを決定する
    情報処理方法。
  14. コンピュータを、
    ユーザにより指定された人物名を少なくとも1つ含むコンテンツを選択するコンテンツ選択部と、
    前記コンテンツ選択部により選択されたコンテンツに登場する顔画像を人物毎にグループ化して、顔グループを取得する顔グループ取得部と、
    前記顔グループ取得部により取得された顔グループから、前記人物名に対応付ける顔グループを決定する顔グループ決定部と
    して機能させるためのプログラム。
JP2013008367A 2013-01-21 2013-01-21 情報処理装置および方法、並びにプログラム Pending JP2014139733A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2013008367A JP2014139733A (ja) 2013-01-21 2013-01-21 情報処理装置および方法、並びにプログラム
PCT/JP2014/050378 WO2014112449A1 (ja) 2013-01-21 2014-01-10 情報処理装置および方法、並びにプログラム
US14/650,677 US9699501B2 (en) 2013-01-21 2014-01-10 Information processing device and method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013008367A JP2014139733A (ja) 2013-01-21 2013-01-21 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2014139733A true JP2014139733A (ja) 2014-07-31

Family

ID=51209539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013008367A Pending JP2014139733A (ja) 2013-01-21 2013-01-21 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US9699501B2 (ja)
JP (1) JP2014139733A (ja)
WO (1) WO2014112449A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6161224B1 (ja) * 2016-12-28 2017-07-12 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
JP2017520809A (ja) * 2015-04-08 2017-07-27 小米科技有限責任公司Xiaomi Inc. アルバム表示方法及び装置
JPWO2020188898A1 (ja) * 2019-03-15 2020-09-24

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467287B2 (en) * 2013-12-12 2019-11-05 Google Llc Systems and methods for automatically suggesting media accompaniments based on identified media content
US9524631B1 (en) * 2015-06-23 2016-12-20 Motorola Mobility Llc Method and apparatus for setting a notification readout mode based on proximity detection

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7606425B2 (en) * 2004-09-09 2009-10-20 Honeywell International Inc. Unsupervised learning of events in a video sequence
JP4946730B2 (ja) 2007-08-27 2012-06-06 ソニー株式会社 顔画像処理装置及び顔画像処理方法、並びにコンピュータ・プログラム
US8213689B2 (en) * 2008-07-14 2012-07-03 Google Inc. Method and system for automated annotation of persons in video content
JP5371083B2 (ja) 2008-09-16 2013-12-18 Kddi株式会社 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP2010283517A (ja) 2009-06-03 2010-12-16 Sony Corp 情報処理装置および方法、並びにプログラム
US9053751B2 (en) 2009-11-19 2015-06-09 Nec Corporation Sound and image segment sorting device and method
US8351661B2 (en) * 2009-12-02 2013-01-08 At&T Intellectual Property I, L.P. System and method to assign a digital image to a face cluster

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017520809A (ja) * 2015-04-08 2017-07-27 小米科技有限責任公司Xiaomi Inc. アルバム表示方法及び装置
US9953212B2 (en) 2015-04-08 2018-04-24 Xiaomi Inc. Method and apparatus for album display, and storage medium
JP6161224B1 (ja) * 2016-12-28 2017-07-12 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
WO2018123440A1 (ja) * 2016-12-28 2018-07-05 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
JP2018106631A (ja) * 2016-12-28 2018-07-05 アンバス株式会社 人物情報表示装置、人物情報表示方法及び人物情報表示プログラム
US10657417B2 (en) 2016-12-28 2020-05-19 Ambass Inc. Person information display apparatus, a person information display method, and a person information display program
JPWO2020188898A1 (ja) * 2019-03-15 2020-09-24
WO2020188898A1 (ja) * 2019-03-15 2020-09-24 日本電気株式会社 処理装置、処理方法及びプログラム
JP7251609B2 (ja) 2019-03-15 2023-04-04 日本電気株式会社 処理装置、処理方法及びプログラム
US11823491B2 (en) 2019-03-15 2023-11-21 Nec Corporation Processing apparatus, processing method, and non-transitory storage medium

Also Published As

Publication number Publication date
US20150373404A1 (en) 2015-12-24
WO2014112449A1 (ja) 2014-07-24
US9699501B2 (en) 2017-07-04

Similar Documents

Publication Publication Date Title
US9646227B2 (en) Computerized machine learning of interesting video sections
US8792685B2 (en) Presenting image subsets based on occurrences of persons satisfying predetermined conditions
US10296534B2 (en) Storing and searching fingerprints derived from media content based on a classification of the media content
WO2014112449A1 (ja) 情報処理装置および方法、並びにプログラム
WO2012073421A1 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
JP2013520725A5 (ja)
US20120155759A1 (en) Establishing clusters of user preferences for image enhancement
US20160196478A1 (en) Image processing method and device
JP2009140042A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008533580A (ja) オーディオ及び/又はビジュアルデータの要約
JP2005510775A (ja) コンテンツをカテゴリ化するためのカメラメタデータ
WO2020259449A1 (zh) 一种短视频的生成方法及装置
JP2011505086A (ja) デジタル・メディアを処理するシステムおよび方法
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
US9799099B2 (en) Systems and methods for automatic image editing
WO2015070682A1 (zh) 一种音频文件的播控处理方法、装置及存储介质
WO2020199384A1 (zh) 音频识别方法、装置、设备及存储介质
CN112000024B (zh) 用于控制家电设备的方法及装置、设备
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
US20140086496A1 (en) Image processing device, image processing method and program
JP2008005167A (ja) 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
JP2014068290A (ja) 画像処理装置、画像処理方法、およびプログラム
JP5553152B2 (ja) 画像処理装置および方法、並びにプログラム
JP2011197892A (ja) 画像検索システム