JP2008160408A - 画像情報処理装置、画像情報処理方法および制御プログラム - Google Patents

画像情報処理装置、画像情報処理方法および制御プログラム Download PDF

Info

Publication number
JP2008160408A
JP2008160408A JP2006346133A JP2006346133A JP2008160408A JP 2008160408 A JP2008160408 A JP 2008160408A JP 2006346133 A JP2006346133 A JP 2006346133A JP 2006346133 A JP2006346133 A JP 2006346133A JP 2008160408 A JP2008160408 A JP 2008160408A
Authority
JP
Japan
Prior art keywords
image
information
processing apparatus
person
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006346133A
Other languages
English (en)
Inventor
Toshinori Nagahashi
敏則 長橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2006346133A priority Critical patent/JP2008160408A/ja
Publication of JP2008160408A publication Critical patent/JP2008160408A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】多数の動画像、静止画像の中から、所望のオブジェクト(例えば、人物、顔、ペットなど)を含む動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加する。
【解決手段】画像情報処理装置10は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、動画像あるいは静止画像に予め関連づけられた関連コンテンツからオブジェクトに関連する情報であるオブジェクト関連情報を抽出し、動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、抽出されたオブジェクト関連情報に対応するオブジェクト関連情報データを記憶する。
【選択図】図5

Description

本発明は、画像情報処理装置、画像情報処理方法および制御プログラムに係り、特に動画像あるいは静止画像の再生などに際し、所望の動画像あるいは静止画像を検索するための情報を収集するための画像情報処理装置、画像情報処理方法および制御プログラムに関する。
一般に撮影された動画像、静止画像を人物で検索する場合に、動画像、静止画像の量が少なければ、被写体を目視により検索することが多い。
ところで、目視により検索するとすると、動画像あるいは静止画像が大量になればこの作業は膨大なものとなり、現実的では無くなってしまう。特に動画像の場合には、静止画像の場合と比較して被写体を探し出すこと自体が非常に困難となってしまう。
特許文献1記載の技術は、顔データベースを有し、顔を撮影時に照合し、顔データベースに記録されていない顔については、撮影者に問い合わせることにより、顔をデータベースに登録して、検索を行うようにしている。
特開2004−62868号公報
しかしながら、オブジェクトである顔に対して人名を対応づける作業は、非常に煩雑であり、撮影時にこれを行うのは次のシャッターチャンスを逃すことともなり、現実的ではない。また、この技術を動画像に適用するのは現実的ではない。
そこで、本発明の目的は、多数の動画像、静止画像の中から、所望のオブジェクト(例えば、人物、顔、ペットなど)を含む動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加することが可能な画像情報処理装置、画像情報処理方法および制御プログラムを提供することにある。
上記課題を解決するため、形態1の画像情報処理装置は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出部と、前記動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、前記関連情報抽出部で抽出された前記オブジェクト関連情報に対応するオブジェクト関連情報データを記憶する関連情報記憶部と、を備えたことを特徴としている。
上記構成によれば、関連情報抽出部は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、動画像あるいは静止画像に予め関連づけられた関連コンテンツからオブジェクトに関連する情報であるオブジェクト関連情報を抽出する。
これにより関連情報記憶部は、動画像に対応する動画像データあるいは静止画像に対応する静止画像データと対応づけて、関連情報抽出部で抽出されたオブジェクト関連情報に対応するオブジェクト関連情報データを記憶する。
したがって、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加することができる。
また、形態2の画像情報処理装置は、形態1の画像情報処理装置において、前記関連情報抽出部は、前記オブジェクトに対応する固有名詞である固有表現を抽出する固有表現抽出部を備えたことを特徴としている。
上記構成によれば、前記関連情報抽出部の固有表現抽出部は、オブジェクトに対応する固有名詞である固有表現を抽出する。
したがって、各オブジェクトを検索するための情報として固有表現が動画像(データ)あるいは静止画像(データ)に自動的に付加され、検索が容易となる。
また、形態3の画像情報処理装置は、形態1または形態2記載の画像情報処理装置において、前記関連情報抽出部は、前記オブジェクトを識別可能な一般名詞であるオブジェクト記述語を抽出するオブジェクト記述語抽出部を備えたことを特徴としている。
上記構成によれば、各オブジェクトを検索するための情報としてオブジェクトを記述するオブジェクト記述語が動画像(データ)あるいは静止画像(データ)に自動的に付加され、検索が容易となる。
また、形態4の画像情報処理装置は、形態1ないし形態3のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、ユーザが送受信した電子メール、作成あるいはアクセスしたブログ、アクセスしたWebページ等のテキストデータを含むデータ群であることを特徴としている。
上記構成によれば、より確実に各オブジェクトを検索するための情報を得ることができる。
また、形態5の画像情報処理装置は、形態1ないし形態3のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、放送番組に付随する電子番組表あるいはARIB STD−B38で規定されるデータ群であることを特徴としている。
上記構成によれば、より確実に各オブジェクトを検索するための情報を得ることができる。
また、形態6の画像情報処理装置は、形態1ないし形態3のいずれかに記載の画像情報処理装置において、前記動画像に含まれる音声あるいは前記静止画像データに付加された音声データに対応する音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、前記関連コンテンツは、前記音声認識部で生成された前記音声に対応するテキストデータであることを特徴としている。
上記構成によれば、音声が含まれる動画像あるいは音声データが付加された静止画像データについて、音声からテキストデータを生成して確実に各オブジェクトを検索するための情報を得ることができる。
また、形態7の画像情報処理装置は、形態1ないし形態3のいずれかに記載の画像情報処理装置において、前記動画像に含まれる主音声あるいは副音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、前記関連コンテンツは、前記音声認識部で生成された前記主音声あるいは前記副音声に対応するテキストデータであることを特徴としている。
上記構成によれば、主音声あるいは前記副音声に対応するテキストデータを生成して確実に各オブジェクトを検索するための情報を得ることができる。
また、形態8の画像情報処理装置は、形態1ないし形態3のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、前記動画像に含まれる字幕あるいはクローズドキャプションに対応するテキストデータであることを特徴としている。
上記構成によれば、字幕あるいはクローズドキャプションに対応するテキストデータから、容易かつ確実に各オブジェクトを検索するための情報を得ることができる。
また、形態9の画像情報処理装置は、形態1ないし形態8のいずれかに記載の画像情報処理装置において、前記オブジェクトは顔であり、前記動画像あるいは前記静止画像から顔画像を検出する顔画像検出部と、前記顔画像検出部で検出された前記顔画像を認識する顔画像認識部と、前記関連コンテンツから前記顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する人物情報抽出部と、を備えたことを特徴としている。
上記構成によれば、顔画像検出部は、動画像あるいは静止画像から顔画像を検出する。
顔画像認識部は、顔画像検出部で検出された顔画像を認識する。
人物情報抽出部は、関連コンテンツから顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する。
したがって、動画像あるいは静止画像を検索するに先立って、各人物を検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加することができる。
また、形態10の画像情報処理装置は、形態9記載の画像情報処理装置において、前記顔画像に対する人物情報を、前記関連コンテンツに含まれる人物情報と、前記顔画像との組合わせの確率を用いて推定する人物情報推定部を備えたことを特徴としている。
上記構成によれば、より正確に人物情報を各人物を検索するための情報として動画像(データ)あるいは静止画像(データ)に自動的に付加することができる。
また、形態11の画像情報処理装置は、形態10記載の画像情報処理装置において、前記顔画像から抽出される画像特徴量から顔属性を抽出する顔属性抽出部を備え、前記関連情報記憶部は、前記人物情報抽出部により前記関連コンテンツから抽出された人物情報と、前記顔属性抽出部で抽出された顔属性に基づいて、前記顔画像に前記人物情報を対応づけて記憶することを特徴としている。
また、形態11の画像情報処理装置は、前記顔画像から抽出される画像特徴量から性別などの顔属性を抽出する顔属性抽出部を備え、前記関連コンテンツから抽出した人物情報との結果が矛盾しない場合に、前記顔画像に前記人物情報を付加するようにしてもよい。
上記構成によれば、関連コンテンツに含まれる人物情報と、顔画像との対応関係をより正確に付加できる。
また、形態12の画像情報処理方法は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出過程と、前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出過程で抽出された前記オブジェクト関連情報を記憶する関連情報記憶過程と、を備えたことを特徴としている。
上記構成によれば、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加することができる。
また、形態13の制御プログラムは、オブジェクト関連情報記憶部を有し、入力された画像情報の処理を行う画像情報処理装置をコンピュータにより制御する制御プログラムであって、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出させる関連情報抽出手段と、前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出手段で抽出された前記オブジェクト関連情報を前記オブジェクト関連情報記憶部に記憶させる関連情報記憶手段と、を備えたことを特徴としている。
上記構成によれば、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像(データ)あるいは静止画像(データ)に自動的に付加することができる。
この場合において、上記制御プログラムを、コンピュータ読取可能な記録媒体に記録するようにしてもよい。
次に本発明の好適な実施の形態について図面を参照して説明する。
次に図面を参照して本発明の好適な実施の形態について図面を参照して説明する。
[1]第1実施形態
図1は、実施形態の画像情報処理装置の概要構成ブロック図である。
画像情報処理装置10は、パーソナルコンピュータとして構成されており、画像処理を行う画像情報処理装置本体11と、各種画像入力を行う画像入力装置12と、各種操作を行うためのキーボード、マウスなどの入力装置13と、各種表示を行う液晶ディスプレイなどの表示装置14と、印刷を行うプリンタなどの出力装置15と、各種データを記憶するハードディスク装置などの外部記憶装置16と、を備えている。
画像情報処理装置本体11は、当該画像情報処理装置本体11全体の制御を行うマイクロプロセッサユニット(MPU)21と、各種制御プログラムを含む各種データを記憶するROM22と、LAN、インターネットなどの外部の通信ネットワーク23との間のインタフェース動作を行う通信インタフェース部24と、を備えている。
図2は、画像情報処理装置の機能ブロック図である。
画像情報処理装置10は、大別すると、映像・画像入力部31と、顔画像検出部32と、顔画像認識部33と、顔属性抽出部34と、音声認識部35と、テキスト抽出部36と、形態素解析部37と、人物情報推定部38と、人物情報記憶部39と、人物情報抽出部40と、通信部41と、表示部42と、を備えている。
映像・画像入力部31は、放送電波、通信ネットワークあるいはICメモリカードなどのデータ記憶媒体を介して動画像データ(動画[あるいは映像]に対応)あるいは静止画像データ(静止画に対応)を入力する。具体的には、様々な画像フォーマットの画像を、様々な圧縮形式、ファイル形式を有するファイルや、スキャナ、ディジタルカメラ、ディジタルビデオカメラなどの入力装置から抽出あるいは受け取ることとなる。この場合において、圧縮形式としては、JPEG、MPEG−4、H.264等が挙げられる。
顔画像検出部32は、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、当該顔画像を含む顔画像データを顔画像認識部33に出力する。
顔画像認識部33は、顔画像データに基づいて、顔画像の画像特徴量を抽出して、画像認識を行って、誰の顔画像であるかを認識する。
顔属性抽出部34は、顔画像認識部33の抽出した画像特徴量に基づいて顔属性としての性別を判定する。本実施形態では、顔属性として、性別のみを扱うが、一般に顔属性とは、性別、年齢といった顔から類推できる属性を意味する。
音声認識部35は、後述する関連コンテンツ(情報源)に含まれる音声データに対応する音声を認識し、テキストデータを生成する。
テキスト抽出部36は、XHTMLやXMLで記述されているハイパーテキストデータからタグ情報以外のテキストデータを抽出する。
形態素解析部37は、ブログなどのテキストデータあるいは音声認識部により音声認識したテキストデータに対応するテキストの形態素解析を行い、単語(語句)を抽出し、必要に応じてステミングを行う。
人物情報推定部38は、関連コンテンツの解析結果から、顔画像に対応する人物情報を確率的に推定する。
人物情報記憶部39は、ハードディスクなどの外部記憶装置、ICメモリカードなどの外部記憶媒体に、顔認識に必要な画像特徴量および人物情報を記憶する。
人物情報抽出部40は、テキストデータから人物(オブジェクト)の固有表現を抽出する固有表現抽出部43および人物(オブジェクト)の属性に関する記述をテキストデータから抽出する人物記述語抽出部44を備え、テキストデータからオブジェクトの固有表現および属性に関する記述を抽出する。
ここで、オブジェクトとは、本実施形態では、顔画像に対応する人物であり、その固有表現とは、顔画像に対応する人物の名前としている。
また、オブジェクトの属性に関する記述とは、本実施形態では顔画像に対応する人物の属性に関する記述であり、例えば、母親、叔父、息子、姪などである。
以上の説明は、具体的なものであるが、本実施形態において、オブジェクトとは、例えば、人物、動植物、物(車、日用品、道具等)、風景(町並み、海、湖、山等)、建造物(ビル、ダムなど)等の被写体となりうるものを含む概念である。
また、固有表現とは、オブジェクトを称呼する固有名詞を意味し、例えばオブジェクトが人物であればその氏名を、オブジェクトが動物であれば、ペットとしての名前を、オブジェクトが車であればその車名を、オブジェクトが風景であればその地名を、オブジェクトが建造物であれば、その建造物の名称を意味する。
さらに、オブジェクト記述語とは、前述の固有表現とは異なるが、そのオブジェクトを識別可能な用語を意味し、例えば、父、母、息子、娘、甥、姪、叔父、叔母、男友達、女友達、ボーイフレンド、ガールフレンド等が挙げられる。
表示部42は、液晶ディスプレイ(LCD)、プラズマディスプレイパネル(PDP)、CRTなどの表示装置を有し、画像認識対象の画像、あるいは、画像認識結果に基づく一または複数の動画像あるいは静止画像を表示する。
これらの画像処理機能については、実際には、画像情報処理装置本体11が所定の制御プログラムにより実現することとなっている。
ここで、具体的な、画像処理装置の動作説明に先立って、オブジェクトである撮影被写体と情報源である関連コンテンツとの関係について説明する。
まず、本実施形態における関連コンテンツの定義について説明する。
本実施形態における関連コンテンツとは、動画像あるいは静止画像に関連付けることができて、人名などの人物情報を抽出できるものならばどのようなものでもよい。
例えば、関連コンテンツとしては、動画像としてビデオや静止画像として写真を用いる場合には、個人の生活に即したもので、人名が含まれる可能性が高いものが望ましい。
より具体的には、個人のホームページ、ブログ、個人が送受信した電子メール、新聞やイベントに関連したホームページなどが挙げられる。
また、動画像あるいは静止画像として、テレビ番組などのパブリックコンテンツを用いる場合には、電子番組表、サーバ型放送(ARIB STD−B38)に規定されているメタデータ(シーン毎にメタデータが付与されている)、音声(特に副音声は詳細な情報が含まれることがある)、番組のホームページ、クローズドキャプション等が挙げられる。
図3は、撮影被写体と関連コンテンツとの関係説明図である。
図3においては、説明の簡略化のため、撮影被写体である人物を2名とし、また同じく関連コンテンツから抽出される人物情報(この例では人名)も2名分であるものとしている。
上記条件の場合、動画像あるいは静止画像にいずれかの撮影被写体が出現するパターン(3パターン)と、関連コンテンツに人物情報が出現する、あるいは、出現しないパターン(4通り)と、の組み合わせは12通りあり得る。
ここで、撮影被写体である人物をそれぞれHP1、HP2で表し、人物HP1の人物情報(=人名)をAで表し、人物HP2の人物情報(=人名)をBで表すものとすると、撮影被写体と人物情報の組み合わせの確率的な信頼度P(人物,人物情報)は、例えば、以下のように定義できる。
P(HP1,A)
=人物HP1の関連コンテンツのうち人名Aが出現するコンテンツ数
/いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…(1)
P(HP2,A)
=人物HP2の関連コンテンツのうち人名Aが出現するコンテンツ数
/いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…(2)
P(HP1,B)
=人物HP1の関連コンテンツのうち人名Bが出現するコンテンツ数
/いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…(3)
P(HP2,B)
=人物HP2の関連コンテンツのうち人名Bが出現するコンテンツ数
/いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…(4)
ところで、12通りの組み合わせケースC1〜C12のうち、関連コンテンツに出現する人名と動画像中あるいは静止画像中の人物は一致する可能性が高いので、上述の例の場合、
P(HP1,A)
P(HP2,B)
が高くなるはずである。
以上は、理論的なものであるが、実際に得られた組み合わせにおいては、組み合わせケースC1〜C4、C5、C8、C9、C12が多い場合には、信頼度Pの差異を見出しにくいこととなる。すなわち、動画像あるいは静止画像に人物HP1および人物HP2の双方が含まれる場合、関連コンテンツに人名A、Bの双方が含まれる場合および関連コンテンツに人名A、Bのいずれも含まれない場合には、信頼度Pの差異を見出しにくいこととなる。
そこで、本実施形態においては、人名を推定する場合は、特定の組合せの信頼度と他の可能な組合せの信頼度を比較して、所定の信頼度しきい値以上の差が算出できれば、人名と対応できたとものとして扱うこととしている。この場合において、所定の信頼度しきい値は、予め実験などによって定めておくものとする。
図4は、信頼度Pの具体例の説明図である。
図4においては、撮影被写体は、人物HP1、HP2、HP3の3名であるとし、各動画像あるいは静止画像に対応する関連コンテンツにおけるそれぞれの人名A、B、Cの出現回数に基づく、信頼度Pの値を示したものである。
式(1)にしたがうと、P(HP1,A)、P(HP2,B)などを図4に示すように計算できる。
より詳細には、図4の場合、
信頼度P(HP1,A)=35/90
であり、
信頼度P(HP2,B)=30/90
となっている。ここで、(1)式あるいは(2)式における所定の信頼度しきい値=0.3とすれば、人物HP1の人名はA、人物HP2の人名はBであることを推定できる。
また、人物HP1と人名Bとの組み合わせ、あるいは、人物HP1と人名Cとの組み合わせ、人物HP2と人名Aとの組み合わせ、あるいは、人物HP2と人名Cとの組み合わせの信頼度は所定の信頼度しきい値=0.3よりも低く、これらの組み合わせとする推定は働かないこととなる。
さらに、人物HP3に対する信頼度は、所定の信頼度しきい値=0.3以上ではないので、いずれと推定することもできないことがわかる。
図5は、第1実施形態の処理フローチャートである。
まず、画像情報処理装置本体11のMPU21は、映像・画像入力部31を介して入力された動画像データ(動画に対応)あるいは静止画像データ(静止画に対応)に対し、顔画像認識部33として機能し、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、抽出する(ステップS11)。
続いて、MPU21は、顔画像認識部33として機能し、抽出した顔画像の領域から顔を照合する画像特徴量を抽出し、抽出した画像特徴量を使い、既に人物情報記憶部39として機能する外部記憶装置16に記憶されている人物か否かを判別する顔画像認識を行う(ステップS12)。
次にMPU21は、顔画像認識を行った人物が既に記憶されている人物であるか否かを判別する(ステップS13)。
ステップS13の判別において、既に記憶されている人物であると判別した場合には(ステップS13;Yes)、処理を終了する。
また、ステップS13の判別において、既に記憶されている人物ではないと判別した場合には(ステップS13;No)、MPU21は、上述したような関連コンテンツに通信インタフェース部24を介してアクセスし、対応する関連コンテンツに応じた処理手順で人物情報を抽出する(ステップS14)。
具体的には、関連コンテンツが、XHTML(個人のホームページなど)やXML(TV番組のメタデータ)で記述されている場合には、MPU21は、まず、テキスト抽出部36として機能し、記述されている内容から、タグ情報以外のテキスト部分を抽出する。
次にMPU21は、人物情報抽出部40の固有表現抽出部43として機能し、テキストデータから人名を抽出する。これと並行してMPU21は、人物記述語抽出部44として機能し、人物の属性に関わる記述をテキストから抽出する。
また、関連コンテンツが音声データである場合には、MPU21は、まず音声認識部35として機能し、音声データからテキストデータを生成する。そして、MPU21は、形態素解析部37および人物情報抽出部40の固有表現抽出部43として機能し、テキストデータから人名を抽出する。これと並行してMPU21は、形態素解析部37および人物記述語抽出部44として機能し、人物の属性に関わる記述をテキストから抽出する。
また、関連コンテンツがブログなどのテキストデータである場合には、MPU21は、形態素解析部37および人物情報抽出部40の固有表現抽出部43として機能し、テキストデータから人名を抽出する。これと並行してMPU21は、形態素解析部37および人物記述語抽出部44として機能し、人物の属性に関わる記述をテキストから抽出する。
続いて、MPU21は、人物情報推定部38として機能し、関連コンテンツから人物情報を推定できるか判別する(ステップS15)。具体的には、上述した人物情報の信頼度Pが所定の信頼度しきい値以上であるか否かを判別する。
ステップS15の判別において、関連コンテンツから人物情報を推定できる場合には(ステップS15;Yes)、MPU21は、顔属性抽出部34として機能し、顔画像から性別を推定するとともに、人物情報推定部38として機能し、人物情報から性別を推定する(ステップS16)。
また、ステップS15の判別において、関連コンテンツから人物情報を推定できない場合には(ステップS;No)、処理を終了する。
続いて、MPU21は、顔属性抽出部34による推定結果および人物情報推定部38による推定結果が一致しているか否かを判別する(ステップS17)。
ステップS17の判別において、推定結果が一致している場合には(ステップS17;Yes)、MPU21は、人物情報記憶部39として機能する外部記憶装置16に、画像特徴量と対応づけて推定した人物情報を記憶し(ステップS18)、処理を終了する。
また、ステップS17の判別において、推定結果が一致していない場合には(ステップS17;No)、処理を終了する。
以上の説明のように、本第1実施形態によれば、関連コンテンツにより自動的に人物情報を動画像データあるいは静止画像データに対して付与できるので、ユーザの手間を削減しつつ、大量の動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる被写体としての人物に対する検索性を大きく向上させることができる。
[2]第2実施形態
以上の第1実施形態においては、顔画像から人物情報を取得する場合について述べたが、図3に示したケースC6、C7、C10、C11の場合のように被写体人物と関連コンテンツ中の人名が一対一に対応する場合には、人物情報として人名を直接推定することが可能となる。
したがって、ケースC6、C7、C10、C11の場合のみを利用して、人名を推定するように構成することが可能である。
図6は、第2実施形態の処理フローチャートである。
まず、画像情報処理装置本体11のMPU21は、映像・画像入力部31を介して入力された動画像データ(動画に対応)あるいは画像データ(静止画に対応)に対し、顔画像認識部33として機能し、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、抽出する(ステップS21)。
続いて、MPU21は、顔画像認識部33として機能し、抽出した顔画像の領域から顔を照合する画像特徴量を抽出し、抽出した画像特徴量を使い、既に人物情報記憶部39として機能する外部記憶装置16に記憶されている人物か否かを判別する顔画像認識を行う(ステップS22)。
次にMPU21は、顔画像認識を行った人物の人名が既に記憶されているか否かを判別する(ステップS23)。
ステップS23の判別において、既に人名が記憶されている人物であると判別した場合には(ステップS23;Yes)、処理を終了する。
また、ステップS23の判別において、既に人名が記憶されている人物ではないと判別した場合には(ステップS23;No)、MPU21は、上述したような関連コンテンツに通信インタフェース部24を介してアクセスし、対応する関連コンテンツに応じた処理手順で人名を抽出する(ステップS24)。具体的な手順は、第1実施形態と同様である。
続いて、MPU21は、人物情報推定部38として機能し、関連コンテンツから人名を推定できるか否かを判別する(ステップS25)。
ステップS25の判別において、関連コンテンツから人名を推定できる場合には(ステップS25;Yes)、MPU21は、人物情報記憶部39として機能する外部記憶装置16に、画像特徴量と対応づけて推定した人名を記憶し(ステップS26)、処理を終了する。
また、ステップS25の判別において、人名が推定できない場合には(ステップS25;No)、処理を終了する。
以上の説明のように、本第2実施形態によれば、関連コンテンツにより自動的に人名を動画像データあるいは静止画像データに対して付与できるので、ユーザの手間を削減しつつ、大量の動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる被写体としての人物に対する検索性を大きく向上させることができる。
[3]実施形態の変形例
以上の第1実施形態においては、顔画像から推定した性別および人物情報から推定した性別が一致する場合に性別を推定していたが、本変形例は、人物情報から性別を強く推定できる場合には、人物情報から性別を推定するものである。
例えば、主として男性、あるいは、主として女性に使われる名前である場合には、性別を人名から推定するようにしてもよい。
また、人物記述語(父、母、息子、娘、甥、姪、叔父、叔母、男友達、女友達、ボーイフレンド、ガールフレンドなど)から性別を推定するようにしてもよい。
具体的には、日本において、例えば、「太郎」「次郎」などは男性以外に使われることは極めて稀であり、また、「洋子」「恵子」なども殆ど女性に使用されるので、これらの場合には、性別を人名から推定すればよい。
さらに、第1実施形態あるいは第2実施形態と組み合わせて、顔画像から推定した性別との一致、不一致の結果から人物推定結果の正当性を判断するように構成することも可能である。
以上の説明においては、オブジェクトとして、人物(顔画像)の場合について説明したが、オブジェクトはこれに限らず、動植物(ペットも含む)、物(車、日用品、道具等)、風景(町並み、海、湖、山等)、建造物(ビル、ダムなど)についても同様に適用が可能である。
これらの場合に、オブジェクト情報として、人物情報に代えて、動植物名(ペットにおいては名前)、物品名(車種名、商品名、道具名など)、地名(町名、海、湖、山などの名称)、建造物名(ビル名、ダム名など)を用いるようにすればよい。
以上の説明においては、上記各機能を実現するための制御プログラムが、予めROMに格納する場合について説明したが、制御プログラムを、コンピュータ読取可能な記録媒体に記録するようにしてもよい。このような構成であれば、コンピュータによってプログラムが記憶媒体から読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、上記実施形態の画像情報処理装置と同等の作用および効果が得られる。
ここで、記憶媒体とは、RAM、ROM等の半導体記憶媒体、FD、HD等の磁気記憶型記憶媒体、CD、CDV、LD、DVD等の光学的読取方式記憶媒体、MO等の磁気記憶型/光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、どのような記憶媒体であってもよい。
実施形態の画像情報処理装置の概要構成ブロック図である。 画像情報処理装置の機能ブロック図である。 撮影被写体と関連コンテンツとの関係説明図である。 信頼度Pの具体例の説明図である。 第1実施形態の処理フローチャートである。 第2実施形態の処理フローチャートである。
符号の説明
10…画像情報処理装置、11…画像情報処理装置本体、12…画像入力装置、13…入力装置、14…表示装置、15…出力装置、16…外部記憶装置、21…MPU、22…ROM、23…RAM、24…通信インタフェース部、31…映像・画像入力部、32…顔画像検出部、33…顔画像認識部、34…顔属性抽出部、35…音声認識部、36…テキスト抽出部、37…形態素解析部、38…人物情報推定部、39…人物情報記憶部、40…人物情報抽出部、41…通信部、42…表示部、43…固有表現抽出部、44…人物記述語抽出部、P…信頼度。

Claims (13)

  1. 動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出部と、
    前記動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、前記関連情報抽出部で抽出された前記オブジェクト関連情報に対応するオブジェクト関連情報データを記憶する関連情報記憶部と、
    を備えたことを特徴とする画像情報処理装置。
  2. 請求項1記載の画像情報処理装置において、
    前記関連情報抽出部は、前記オブジェクトに対応する固有名詞である固有表現を抽出する固有表現抽出部を備えたことを特徴とする画像情報処理装置。
  3. 請求項1または請求項2記載の画像情報処理装置において、
    前記関連情報抽出部は、前記オブジェクトを識別可能な一般名詞であるオブジェクト記述語を抽出するオブジェクト記述語抽出部を備えたことを特徴とする画像情報処理装置。
  4. 請求項1ないし請求項3のいずれかに記載の画像情報処理装置において、
    前記関連コンテンツは、ユーザが送受信した電子メール、作成あるいはアクセスしたブログ、アクセスしたWebページ等のテキストデータを含むデータ群であることを特徴とする画像情報処理装置。
  5. 請求項1ないし請求項3のいずれかに記載の画像情報処理装置において、
    前記関連コンテンツは、放送番組に付随する電子番組表あるいはARIB STD−B38で規定されるデータ群であることを特徴とする画像情報処理装置。
  6. 請求項1ないし請求項3のいずれかに記載の画像情報処理装置において、
    前記動画像に含まれる音声あるいは前記静止画像データに付加された音声データに対応する音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、
    前記関連コンテンツは、前記音声認識部で生成された前記音声に対応するテキストデータであることを特徴とする画像情報処理装置。
  7. 請求項1ないし請求項3のいずれかに記載の画像情報処理装置において、
    前記動画像に含まれる主音声あるいは副音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、
    前記関連コンテンツは、前記音声認識部で生成された前記主音声あるいは前記副音声に対応するテキストデータであることを特徴とする画像情報処理装置。
  8. 請求項1ないし請求項3のいずれかに記載の画像情報処理装置において、
    前記関連コンテンツは、前記動画像に含まれる字幕あるいはクローズドキャプションに対応するテキストデータであることを特徴とする画像情報処理装置。
  9. 請求項1ないし請求項8のいずれかに記載の画像情報処理装置において、
    前記オブジェクトは顔であり、
    前記動画像あるいは前記静止画像から顔画像を検出する顔画像検出部と、
    前記顔画像検出部で検出された前記顔画像を認識する顔画像認識部と、
    前記関連コンテンツから前記顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する人物情報抽出部と、
    を備えたことを特徴とする画像情報処理装置。
  10. 請求項9記載の画像情報処理装置において、
    前記顔画像に対する人物情報を、前記関連コンテンツに含まれる人物情報と、前記顔画像との組み合わせの確率を用いて推定する人物情報推定部を備えたことを特徴とする画像情報処理装置。
  11. 請求項10記載の画像情報処理装置において、
    前記顔画像から抽出される画像特徴量から顔属性を抽出する顔属性抽出部を備え、
    前記関連情報記憶部は、前記人物情報抽出部により前記関連コンテンツから抽出された人物情報と、前記顔属性抽出部で抽出された顔属性に基づいて、前記顔画像に前記人物情報を対応づけて記憶することを特徴とする画像情報処理装置。
  12. 動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出過程と、
    前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出過程で抽出された前記オブジェクト関連情報を記憶する関連情報記憶過程と、
    を備えたことを特徴とする画像情報処理方法。
  13. オブジェクト関連情報記憶部を有し、入力された画像情報の処理を行う画像情報処理装置をコンピュータにより制御する制御プログラムであって、
    動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出させる関連情報抽出手段と、
    前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出手段で抽出された前記オブジェクト関連情報を前記オブジェクト関連情報記憶部に記憶させる関連情報記憶手段と、
    を備えたことを特徴とする制御プログラム。
JP2006346133A 2006-12-22 2006-12-22 画像情報処理装置、画像情報処理方法および制御プログラム Pending JP2008160408A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006346133A JP2008160408A (ja) 2006-12-22 2006-12-22 画像情報処理装置、画像情報処理方法および制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006346133A JP2008160408A (ja) 2006-12-22 2006-12-22 画像情報処理装置、画像情報処理方法および制御プログラム

Publications (1)

Publication Number Publication Date
JP2008160408A true JP2008160408A (ja) 2008-07-10

Family

ID=39660833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006346133A Pending JP2008160408A (ja) 2006-12-22 2006-12-22 画像情報処理装置、画像情報処理方法および制御プログラム

Country Status (1)

Country Link
JP (1) JP2008160408A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174965A (ja) * 2012-02-23 2013-09-05 Toshiba Corp 電子機器、電子機器の制御システム、及びサーバ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013174965A (ja) * 2012-02-23 2013-09-05 Toshiba Corp 電子機器、電子機器の制御システム、及びサーバ

Similar Documents

Publication Publication Date Title
US10303756B2 (en) Creating a narrative description of media content and applications thereof
US9317531B2 (en) Autocaptioning of images
JP4337064B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
US9904723B2 (en) Event based metadata synthesis
US8150098B2 (en) Grouping images by location
JP5790509B2 (ja) 画像再生装置、画像再生プログラム、及び画像再生方法
US20110235858A1 (en) Grouping Digital Media Items Based on Shared Features
WO2008076179A1 (en) User interface for face recognition
WO2013049374A2 (en) Photograph digitization through the use of video photography and computer vision technology
JP2003504952A (ja) ビデオセグメントを別のビデオセグメント又は情報源にリンキングさせる方法及び装置
US20080002864A1 (en) Using background for searching image collections
EP3110162A1 (en) Enhanced augmented reality multimedia system
US8230344B2 (en) Multimedia presentation creation
JP2018169697A (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
Anguera et al. Multimodal photo annotation and retrieval on a mobile phone
CN110471886B (zh) 用于基于检测桌子周围的文件和人来搜索文件和人的系统
JP2006079460A (ja) 電子アルバム表示システム、電子アルバム表示方法、電子アルバム表示プログラム、画像分類装置、画像分類方法、及び画像分類プログラム
US20130328767A1 (en) Information processing apparatus, conference system, and information processing method
JP2008226110A (ja) 情報処理装置、情報処理方法および制御プログラム
JP6919260B2 (ja) 情報変換装置及びプログラム
US20050267749A1 (en) Information processing apparatus and information processing method
JP2008160408A (ja) 画像情報処理装置、画像情報処理方法および制御プログラム
US20180189602A1 (en) Method of and system for determining and selecting media representing event diversity
JP2011100240A (ja) 代表画像抽出方法,代表画像抽出装置および代表画像抽出プログラム