JP2008160408A

JP2008160408A - 画像情報処理装置、画像情報処理方法および制御プログラム

Info

Publication number: JP2008160408A
Application number: JP2006346133A
Authority: JP
Inventors: Toshinori Nagahashi; 敏則長橋
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2006-12-22
Filing date: 2006-12-22
Publication date: 2008-07-10

Abstract

【課題】多数の動画像、静止画像の中から、所望のオブジェクト（例えば、人物、顔、ペットなど）を含む動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加する。
【解決手段】画像情報処理装置１０は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、動画像あるいは静止画像に予め関連づけられた関連コンテンツからオブジェクトに関連する情報であるオブジェクト関連情報を抽出し、動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、抽出されたオブジェクト関連情報に対応するオブジェクト関連情報データを記憶する。
【選択図】図５

Description

本発明は、画像情報処理装置、画像情報処理方法および制御プログラムに係り、特に動画像あるいは静止画像の再生などに際し、所望の動画像あるいは静止画像を検索するための情報を収集するための画像情報処理装置、画像情報処理方法および制御プログラムに関する。

一般に撮影された動画像、静止画像を人物で検索する場合に、動画像、静止画像の量が少なければ、被写体を目視により検索することが多い。
ところで、目視により検索するとすると、動画像あるいは静止画像が大量になればこの作業は膨大なものとなり、現実的では無くなってしまう。特に動画像の場合には、静止画像の場合と比較して被写体を探し出すこと自体が非常に困難となってしまう。
特許文献１記載の技術は、顔データベースを有し、顔を撮影時に照合し、顔データベースに記録されていない顔については、撮影者に問い合わせることにより、顔をデータベースに登録して、検索を行うようにしている。
特開２００４−６２８６８号公報

しかしながら、オブジェクトである顔に対して人名を対応づける作業は、非常に煩雑であり、撮影時にこれを行うのは次のシャッターチャンスを逃すことともなり、現実的ではない。また、この技術を動画像に適用するのは現実的ではない。
そこで、本発明の目的は、多数の動画像、静止画像の中から、所望のオブジェクト（例えば、人物、顔、ペットなど）を含む動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加することが可能な画像情報処理装置、画像情報処理方法および制御プログラムを提供することにある。

上記課題を解決するため、形態１の画像情報処理装置は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出部と、前記動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、前記関連情報抽出部で抽出された前記オブジェクト関連情報に対応するオブジェクト関連情報データを記憶する関連情報記憶部と、を備えたことを特徴としている。
上記構成によれば、関連情報抽出部は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、動画像あるいは静止画像に予め関連づけられた関連コンテンツからオブジェクトに関連する情報であるオブジェクト関連情報を抽出する。
これにより関連情報記憶部は、動画像に対応する動画像データあるいは静止画像に対応する静止画像データと対応づけて、関連情報抽出部で抽出されたオブジェクト関連情報に対応するオブジェクト関連情報データを記憶する。
したがって、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加することができる。

また、形態２の画像情報処理装置は、形態１の画像情報処理装置において、前記関連情報抽出部は、前記オブジェクトに対応する固有名詞である固有表現を抽出する固有表現抽出部を備えたことを特徴としている。
上記構成によれば、前記関連情報抽出部の固有表現抽出部は、オブジェクトに対応する固有名詞である固有表現を抽出する。
したがって、各オブジェクトを検索するための情報として固有表現が動画像（データ）あるいは静止画像（データ）に自動的に付加され、検索が容易となる。

また、形態３の画像情報処理装置は、形態１または形態２記載の画像情報処理装置において、前記関連情報抽出部は、前記オブジェクトを識別可能な一般名詞であるオブジェクト記述語を抽出するオブジェクト記述語抽出部を備えたことを特徴としている。
上記構成によれば、各オブジェクトを検索するための情報としてオブジェクトを記述するオブジェクト記述語が動画像（データ）あるいは静止画像（データ）に自動的に付加され、検索が容易となる。

また、形態４の画像情報処理装置は、形態１ないし形態３のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、ユーザが送受信した電子メール、作成あるいはアクセスしたブログ、アクセスしたＷｅｂページ等のテキストデータを含むデータ群であることを特徴としている。
上記構成によれば、より確実に各オブジェクトを検索するための情報を得ることができる。

また、形態５の画像情報処理装置は、形態１ないし形態３のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、放送番組に付随する電子番組表あるいはＡＲＩＢＳＴＤ−Ｂ３８で規定されるデータ群であることを特徴としている。
上記構成によれば、より確実に各オブジェクトを検索するための情報を得ることができる。

また、形態６の画像情報処理装置は、形態１ないし形態３のいずれかに記載の画像情報処理装置において、前記動画像に含まれる音声あるいは前記静止画像データに付加された音声データに対応する音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、前記関連コンテンツは、前記音声認識部で生成された前記音声に対応するテキストデータであることを特徴としている。
上記構成によれば、音声が含まれる動画像あるいは音声データが付加された静止画像データについて、音声からテキストデータを生成して確実に各オブジェクトを検索するための情報を得ることができる。

また、形態７の画像情報処理装置は、形態１ないし形態３のいずれかに記載の画像情報処理装置において、前記動画像に含まれる主音声あるいは副音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、前記関連コンテンツは、前記音声認識部で生成された前記主音声あるいは前記副音声に対応するテキストデータであることを特徴としている。
上記構成によれば、主音声あるいは前記副音声に対応するテキストデータを生成して確実に各オブジェクトを検索するための情報を得ることができる。

また、形態８の画像情報処理装置は、形態１ないし形態３のいずれかに記載の画像情報処理装置において、前記関連コンテンツは、前記動画像に含まれる字幕あるいはクローズドキャプションに対応するテキストデータであることを特徴としている。
上記構成によれば、字幕あるいはクローズドキャプションに対応するテキストデータから、容易かつ確実に各オブジェクトを検索するための情報を得ることができる。

また、形態９の画像情報処理装置は、形態１ないし形態８のいずれかに記載の画像情報処理装置において、前記オブジェクトは顔であり、前記動画像あるいは前記静止画像から顔画像を検出する顔画像検出部と、前記顔画像検出部で検出された前記顔画像を認識する顔画像認識部と、前記関連コンテンツから前記顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する人物情報抽出部と、を備えたことを特徴としている。
上記構成によれば、顔画像検出部は、動画像あるいは静止画像から顔画像を検出する。
顔画像認識部は、顔画像検出部で検出された顔画像を認識する。
人物情報抽出部は、関連コンテンツから顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する。
したがって、動画像あるいは静止画像を検索するに先立って、各人物を検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加することができる。

また、形態１０の画像情報処理装置は、形態９記載の画像情報処理装置において、前記顔画像に対する人物情報を、前記関連コンテンツに含まれる人物情報と、前記顔画像との組合わせの確率を用いて推定する人物情報推定部を備えたことを特徴としている。
上記構成によれば、より正確に人物情報を各人物を検索するための情報として動画像（データ）あるいは静止画像（データ）に自動的に付加することができる。

また、形態１１の画像情報処理装置は、形態１０記載の画像情報処理装置において、前記顔画像から抽出される画像特徴量から顔属性を抽出する顔属性抽出部を備え、前記関連情報記憶部は、前記人物情報抽出部により前記関連コンテンツから抽出された人物情報と、前記顔属性抽出部で抽出された顔属性に基づいて、前記顔画像に前記人物情報を対応づけて記憶することを特徴としている。

また、形態１１の画像情報処理装置は、前記顔画像から抽出される画像特徴量から性別などの顔属性を抽出する顔属性抽出部を備え、前記関連コンテンツから抽出した人物情報との結果が矛盾しない場合に、前記顔画像に前記人物情報を付加するようにしてもよい。
上記構成によれば、関連コンテンツに含まれる人物情報と、顔画像との対応関係をより正確に付加できる。

また、形態１２の画像情報処理方法は、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出過程と、前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出過程で抽出された前記オブジェクト関連情報を記憶する関連情報記憶過程と、を備えたことを特徴としている。
上記構成によれば、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加することができる。

また、形態１３の制御プログラムは、オブジェクト関連情報記憶部を有し、入力された画像情報の処理を行う画像情報処理装置をコンピュータにより制御する制御プログラムであって、動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出させる関連情報抽出手段と、前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出手段で抽出された前記オブジェクト関連情報を前記オブジェクト関連情報記憶部に記憶させる関連情報記憶手段と、を備えたことを特徴としている。
上記構成によれば、動画像あるいは静止画像を検索するに先立って、各オブジェクトを検索するための情報を動画像（データ）あるいは静止画像（データ）に自動的に付加することができる。
この場合において、上記制御プログラムを、コンピュータ読取可能な記録媒体に記録するようにしてもよい。

次に本発明の好適な実施の形態について図面を参照して説明する。
次に図面を参照して本発明の好適な実施の形態について図面を参照して説明する。
［１］第１実施形態
図１は、実施形態の画像情報処理装置の概要構成ブロック図である。
画像情報処理装置１０は、パーソナルコンピュータとして構成されており、画像処理を行う画像情報処理装置本体１１と、各種画像入力を行う画像入力装置１２と、各種操作を行うためのキーボード、マウスなどの入力装置１３と、各種表示を行う液晶ディスプレイなどの表示装置１４と、印刷を行うプリンタなどの出力装置１５と、各種データを記憶するハードディスク装置などの外部記憶装置１６と、を備えている。
画像情報処理装置本体１１は、当該画像情報処理装置本体１１全体の制御を行うマイクロプロセッサユニット（ＭＰＵ）２１と、各種制御プログラムを含む各種データを記憶するＲＯＭ２２と、ＬＡＮ、インターネットなどの外部の通信ネットワーク２３との間のインタフェース動作を行う通信インタフェース部２４と、を備えている。

図２は、画像情報処理装置の機能ブロック図である。
画像情報処理装置１０は、大別すると、映像・画像入力部３１と、顔画像検出部３２と、顔画像認識部３３と、顔属性抽出部３４と、音声認識部３５と、テキスト抽出部３６と、形態素解析部３７と、人物情報推定部３８と、人物情報記憶部３９と、人物情報抽出部４０と、通信部４１と、表示部４２と、を備えている。
映像・画像入力部３１は、放送電波、通信ネットワークあるいはＩＣメモリカードなどのデータ記憶媒体を介して動画像データ（動画［あるいは映像］に対応）あるいは静止画像データ（静止画に対応）を入力する。具体的には、様々な画像フォーマットの画像を、様々な圧縮形式、ファイル形式を有するファイルや、スキャナ、ディジタルカメラ、ディジタルビデオカメラなどの入力装置から抽出あるいは受け取ることとなる。この場合において、圧縮形式としては、ＪＰＥＧ、ＭＰＥＧ−４、Ｈ．２６４等が挙げられる。
顔画像検出部３２は、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、当該顔画像を含む顔画像データを顔画像認識部３３に出力する。

顔画像認識部３３は、顔画像データに基づいて、顔画像の画像特徴量を抽出して、画像認識を行って、誰の顔画像であるかを認識する。
顔属性抽出部３４は、顔画像認識部３３の抽出した画像特徴量に基づいて顔属性としての性別を判定する。本実施形態では、顔属性として、性別のみを扱うが、一般に顔属性とは、性別、年齢といった顔から類推できる属性を意味する。
音声認識部３５は、後述する関連コンテンツ（情報源）に含まれる音声データに対応する音声を認識し、テキストデータを生成する。
テキスト抽出部３６は、ＸＨＴＭＬやＸＭＬで記述されているハイパーテキストデータからタグ情報以外のテキストデータを抽出する。
形態素解析部３７は、ブログなどのテキストデータあるいは音声認識部により音声認識したテキストデータに対応するテキストの形態素解析を行い、単語（語句）を抽出し、必要に応じてステミングを行う。

人物情報推定部３８は、関連コンテンツの解析結果から、顔画像に対応する人物情報を確率的に推定する。
人物情報記憶部３９は、ハードディスクなどの外部記憶装置、ＩＣメモリカードなどの外部記憶媒体に、顔認識に必要な画像特徴量および人物情報を記憶する。
人物情報抽出部４０は、テキストデータから人物（オブジェクト）の固有表現を抽出する固有表現抽出部４３および人物（オブジェクト）の属性に関する記述をテキストデータから抽出する人物記述語抽出部４４を備え、テキストデータからオブジェクトの固有表現および属性に関する記述を抽出する。

ここで、オブジェクトとは、本実施形態では、顔画像に対応する人物であり、その固有表現とは、顔画像に対応する人物の名前としている。
また、オブジェクトの属性に関する記述とは、本実施形態では顔画像に対応する人物の属性に関する記述であり、例えば、母親、叔父、息子、姪などである。
以上の説明は、具体的なものであるが、本実施形態において、オブジェクトとは、例えば、人物、動植物、物（車、日用品、道具等）、風景（町並み、海、湖、山等）、建造物（ビル、ダムなど）等の被写体となりうるものを含む概念である。
また、固有表現とは、オブジェクトを称呼する固有名詞を意味し、例えばオブジェクトが人物であればその氏名を、オブジェクトが動物であれば、ペットとしての名前を、オブジェクトが車であればその車名を、オブジェクトが風景であればその地名を、オブジェクトが建造物であれば、その建造物の名称を意味する。
さらに、オブジェクト記述語とは、前述の固有表現とは異なるが、そのオブジェクトを識別可能な用語を意味し、例えば、父、母、息子、娘、甥、姪、叔父、叔母、男友達、女友達、ボーイフレンド、ガールフレンド等が挙げられる。

表示部４２は、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイパネル（ＰＤＰ）、ＣＲＴなどの表示装置を有し、画像認識対象の画像、あるいは、画像認識結果に基づく一または複数の動画像あるいは静止画像を表示する。
これらの画像処理機能については、実際には、画像情報処理装置本体１１が所定の制御プログラムにより実現することとなっている。

ここで、具体的な、画像処理装置の動作説明に先立って、オブジェクトである撮影被写体と情報源である関連コンテンツとの関係について説明する。
まず、本実施形態における関連コンテンツの定義について説明する。
本実施形態における関連コンテンツとは、動画像あるいは静止画像に関連付けることができて、人名などの人物情報を抽出できるものならばどのようなものでもよい。
例えば、関連コンテンツとしては、動画像としてビデオや静止画像として写真を用いる場合には、個人の生活に即したもので、人名が含まれる可能性が高いものが望ましい。
より具体的には、個人のホームページ、ブログ、個人が送受信した電子メール、新聞やイベントに関連したホームページなどが挙げられる。
また、動画像あるいは静止画像として、テレビ番組などのパブリックコンテンツを用いる場合には、電子番組表、サーバ型放送（ＡＲＩＢＳＴＤ−Ｂ３８）に規定されているメタデータ（シーン毎にメタデータが付与されている）、音声（特に副音声は詳細な情報が含まれることがある）、番組のホームページ、クローズドキャプション等が挙げられる。

図３は、撮影被写体と関連コンテンツとの関係説明図である。
図３においては、説明の簡略化のため、撮影被写体である人物を２名とし、また同じく関連コンテンツから抽出される人物情報（この例では人名）も２名分であるものとしている。
上記条件の場合、動画像あるいは静止画像にいずれかの撮影被写体が出現するパターン（３パターン）と、関連コンテンツに人物情報が出現する、あるいは、出現しないパターン（４通り）と、の組み合わせは１２通りあり得る。
ここで、撮影被写体である人物をそれぞれＨＰ１、ＨＰ２で表し、人物ＨＰ１の人物情報（＝人名）をＡで表し、人物ＨＰ２の人物情報（＝人名）をＢで表すものとすると、撮影被写体と人物情報の組み合わせの確率的な信頼度Ｐ（人物，人物情報）は、例えば、以下のように定義できる。

Ｐ（ＨＰ１，Ａ）
＝人物ＨＰ１の関連コンテンツのうち人名Ａが出現するコンテンツ数
／いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…（１）
Ｐ（ＨＰ２，Ａ）
＝人物ＨＰ２の関連コンテンツのうち人名Ａが出現するコンテンツ数
／いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…（２）
Ｐ（ＨＰ１，Ｂ）
＝人物ＨＰ１の関連コンテンツのうち人名Ｂが出現するコンテンツ数
／いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…（３）
Ｐ（ＨＰ２，Ｂ）
＝人物ＨＰ２の関連コンテンツのうち人名Ｂが出現するコンテンツ数
／いずれかの動画像・静止画像の関連コンテンツで人名を含むコンテンツ数
…（４）

ところで、１２通りの組み合わせケースＣ１〜Ｃ１２のうち、関連コンテンツに出現する人名と動画像中あるいは静止画像中の人物は一致する可能性が高いので、上述の例の場合、
Ｐ（ＨＰ１，Ａ）
Ｐ（ＨＰ２，Ｂ）
が高くなるはずである。
以上は、理論的なものであるが、実際に得られた組み合わせにおいては、組み合わせケースＣ１〜Ｃ４、Ｃ５、Ｃ８、Ｃ９、Ｃ１２が多い場合には、信頼度Ｐの差異を見出しにくいこととなる。すなわち、動画像あるいは静止画像に人物ＨＰ１および人物ＨＰ２の双方が含まれる場合、関連コンテンツに人名Ａ、Ｂの双方が含まれる場合および関連コンテンツに人名Ａ、Ｂのいずれも含まれない場合には、信頼度Ｐの差異を見出しにくいこととなる。
そこで、本実施形態においては、人名を推定する場合は、特定の組合せの信頼度と他の可能な組合せの信頼度を比較して、所定の信頼度しきい値以上の差が算出できれば、人名と対応できたとものとして扱うこととしている。この場合において、所定の信頼度しきい値は、予め実験などによって定めておくものとする。

図４は、信頼度Ｐの具体例の説明図である。
図４においては、撮影被写体は、人物ＨＰ１、ＨＰ２、ＨＰ３の３名であるとし、各動画像あるいは静止画像に対応する関連コンテンツにおけるそれぞれの人名Ａ、Ｂ、Ｃの出現回数に基づく、信頼度Ｐの値を示したものである。
式（１）にしたがうと、Ｐ（ＨＰ１，Ａ）、Ｐ（ＨＰ２，Ｂ）などを図４に示すように計算できる。
より詳細には、図４の場合、
信頼度Ｐ（ＨＰ１，Ａ）＝３５／９０
であり、
信頼度Ｐ（ＨＰ２，Ｂ）＝３０／９０
となっている。ここで、（１）式あるいは（２）式における所定の信頼度しきい値＝０．３とすれば、人物ＨＰ１の人名はＡ、人物ＨＰ２の人名はＢであることを推定できる。

また、人物ＨＰ１と人名Ｂとの組み合わせ、あるいは、人物ＨＰ１と人名Ｃとの組み合わせ、人物ＨＰ２と人名Ａとの組み合わせ、あるいは、人物ＨＰ２と人名Ｃとの組み合わせの信頼度は所定の信頼度しきい値＝０．３よりも低く、これらの組み合わせとする推定は働かないこととなる。
さらに、人物ＨＰ３に対する信頼度は、所定の信頼度しきい値＝０．３以上ではないので、いずれと推定することもできないことがわかる。

図５は、第１実施形態の処理フローチャートである。
まず、画像情報処理装置本体１１のＭＰＵ２１は、映像・画像入力部３１を介して入力された動画像データ（動画に対応）あるいは静止画像データ（静止画に対応）に対し、顔画像認識部３３として機能し、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、抽出する（ステップＳ１１）。
続いて、ＭＰＵ２１は、顔画像認識部３３として機能し、抽出した顔画像の領域から顔を照合する画像特徴量を抽出し、抽出した画像特徴量を使い、既に人物情報記憶部３９として機能する外部記憶装置１６に記憶されている人物か否かを判別する顔画像認識を行う（ステップＳ１２）。
次にＭＰＵ２１は、顔画像認識を行った人物が既に記憶されている人物であるか否かを判別する（ステップＳ１３）。

ステップＳ１３の判別において、既に記憶されている人物であると判別した場合には（ステップＳ１３；Ｙｅｓ）、処理を終了する。
また、ステップＳ１３の判別において、既に記憶されている人物ではないと判別した場合には（ステップＳ１３；Ｎｏ）、ＭＰＵ２１は、上述したような関連コンテンツに通信インタフェース部２４を介してアクセスし、対応する関連コンテンツに応じた処理手順で人物情報を抽出する（ステップＳ１４）。
具体的には、関連コンテンツが、ＸＨＴＭＬ（個人のホームページなど）やＸＭＬ（ＴＶ番組のメタデータ）で記述されている場合には、ＭＰＵ２１は、まず、テキスト抽出部３６として機能し、記述されている内容から、タグ情報以外のテキスト部分を抽出する。

次にＭＰＵ２１は、人物情報抽出部４０の固有表現抽出部４３として機能し、テキストデータから人名を抽出する。これと並行してＭＰＵ２１は、人物記述語抽出部４４として機能し、人物の属性に関わる記述をテキストから抽出する。
また、関連コンテンツが音声データである場合には、ＭＰＵ２１は、まず音声認識部３５として機能し、音声データからテキストデータを生成する。そして、ＭＰＵ２１は、形態素解析部３７および人物情報抽出部４０の固有表現抽出部４３として機能し、テキストデータから人名を抽出する。これと並行してＭＰＵ２１は、形態素解析部３７および人物記述語抽出部４４として機能し、人物の属性に関わる記述をテキストから抽出する。
また、関連コンテンツがブログなどのテキストデータである場合には、ＭＰＵ２１は、形態素解析部３７および人物情報抽出部４０の固有表現抽出部４３として機能し、テキストデータから人名を抽出する。これと並行してＭＰＵ２１は、形態素解析部３７および人物記述語抽出部４４として機能し、人物の属性に関わる記述をテキストから抽出する。

続いて、ＭＰＵ２１は、人物情報推定部３８として機能し、関連コンテンツから人物情報を推定できるか判別する（ステップＳ１５）。具体的には、上述した人物情報の信頼度Ｐが所定の信頼度しきい値以上であるか否かを判別する。
ステップＳ１５の判別において、関連コンテンツから人物情報を推定できる場合には（ステップＳ１５；Ｙｅｓ）、ＭＰＵ２１は、顔属性抽出部３４として機能し、顔画像から性別を推定するとともに、人物情報推定部３８として機能し、人物情報から性別を推定する（ステップＳ１６）。
また、ステップＳ１５の判別において、関連コンテンツから人物情報を推定できない場合には（ステップＳ；Ｎｏ）、処理を終了する。

続いて、ＭＰＵ２１は、顔属性抽出部３４による推定結果および人物情報推定部３８による推定結果が一致しているか否かを判別する（ステップＳ１７）。
ステップＳ１７の判別において、推定結果が一致している場合には（ステップＳ１７；Ｙｅｓ）、ＭＰＵ２１は、人物情報記憶部３９として機能する外部記憶装置１６に、画像特徴量と対応づけて推定した人物情報を記憶し（ステップＳ１８）、処理を終了する。
また、ステップＳ１７の判別において、推定結果が一致していない場合には（ステップＳ１７；Ｎｏ）、処理を終了する。
以上の説明のように、本第１実施形態によれば、関連コンテンツにより自動的に人物情報を動画像データあるいは静止画像データに対して付与できるので、ユーザの手間を削減しつつ、大量の動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる被写体としての人物に対する検索性を大きく向上させることができる。

［２］第２実施形態
以上の第１実施形態においては、顔画像から人物情報を取得する場合について述べたが、図３に示したケースＣ６、Ｃ７、Ｃ１０、Ｃ１１の場合のように被写体人物と関連コンテンツ中の人名が一対一に対応する場合には、人物情報として人名を直接推定することが可能となる。
したがって、ケースＣ６、Ｃ７、Ｃ１０、Ｃ１１の場合のみを利用して、人名を推定するように構成することが可能である。
図６は、第２実施形態の処理フローチャートである。
まず、画像情報処理装置本体１１のＭＰＵ２１は、映像・画像入力部３１を介して入力された動画像データ（動画に対応）あるいは画像データ（静止画に対応）に対し、顔画像認識部３３として機能し、動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる顔画像を検出し、抽出する（ステップＳ２１）。

続いて、ＭＰＵ２１は、顔画像認識部３３として機能し、抽出した顔画像の領域から顔を照合する画像特徴量を抽出し、抽出した画像特徴量を使い、既に人物情報記憶部３９として機能する外部記憶装置１６に記憶されている人物か否かを判別する顔画像認識を行う（ステップＳ２２）。
次にＭＰＵ２１は、顔画像認識を行った人物の人名が既に記憶されているか否かを判別する（ステップＳ２３）。
ステップＳ２３の判別において、既に人名が記憶されている人物であると判別した場合には（ステップＳ２３；Ｙｅｓ）、処理を終了する。

また、ステップＳ２３の判別において、既に人名が記憶されている人物ではないと判別した場合には（ステップＳ２３；Ｎｏ）、ＭＰＵ２１は、上述したような関連コンテンツに通信インタフェース部２４を介してアクセスし、対応する関連コンテンツに応じた処理手順で人名を抽出する（ステップＳ２４）。具体的な手順は、第１実施形態と同様である。
続いて、ＭＰＵ２１は、人物情報推定部３８として機能し、関連コンテンツから人名を推定できるか否かを判別する（ステップＳ２５）。
ステップＳ２５の判別において、関連コンテンツから人名を推定できる場合には（ステップＳ２５；Ｙｅｓ）、ＭＰＵ２１は、人物情報記憶部３９として機能する外部記憶装置１６に、画像特徴量と対応づけて推定した人名を記憶し（ステップＳ２６）、処理を終了する。
また、ステップＳ２５の判別において、人名が推定できない場合には（ステップＳ２５；Ｎｏ）、処理を終了する。
以上の説明のように、本第２実施形態によれば、関連コンテンツにより自動的に人名を動画像データあるいは静止画像データに対して付与できるので、ユーザの手間を削減しつつ、大量の動画像データに対応する動画像あるいは静止画像データに対応する静止画像に含まれる被写体としての人物に対する検索性を大きく向上させることができる。

［３］実施形態の変形例
以上の第１実施形態においては、顔画像から推定した性別および人物情報から推定した性別が一致する場合に性別を推定していたが、本変形例は、人物情報から性別を強く推定できる場合には、人物情報から性別を推定するものである。
例えば、主として男性、あるいは、主として女性に使われる名前である場合には、性別を人名から推定するようにしてもよい。
また、人物記述語（父、母、息子、娘、甥、姪、叔父、叔母、男友達、女友達、ボーイフレンド、ガールフレンドなど）から性別を推定するようにしてもよい。

具体的には、日本において、例えば、「太郎」「次郎」などは男性以外に使われることは極めて稀であり、また、「洋子」「恵子」なども殆ど女性に使用されるので、これらの場合には、性別を人名から推定すればよい。
さらに、第１実施形態あるいは第２実施形態と組み合わせて、顔画像から推定した性別との一致、不一致の結果から人物推定結果の正当性を判断するように構成することも可能である。

以上の説明においては、オブジェクトとして、人物（顔画像）の場合について説明したが、オブジェクトはこれに限らず、動植物（ペットも含む）、物（車、日用品、道具等）、風景（町並み、海、湖、山等）、建造物（ビル、ダムなど）についても同様に適用が可能である。
これらの場合に、オブジェクト情報として、人物情報に代えて、動植物名（ペットにおいては名前）、物品名（車種名、商品名、道具名など）、地名（町名、海、湖、山などの名称）、建造物名（ビル名、ダム名など）を用いるようにすればよい。
以上の説明においては、上記各機能を実現するための制御プログラムが、予めＲＯＭに格納する場合について説明したが、制御プログラムを、コンピュータ読取可能な記録媒体に記録するようにしてもよい。このような構成であれば、コンピュータによってプログラムが記憶媒体から読み取られ、読み取られたプログラムに従ってコンピュータが処理を実行すると、上記実施形態の画像情報処理装置と同等の作用および効果が得られる。
ここで、記憶媒体とは、ＲＡＭ、ＲＯＭ等の半導体記憶媒体、ＦＤ、ＨＤ等の磁気記憶型記憶媒体、ＣＤ、ＣＤＶ、ＬＤ、ＤＶＤ等の光学的読取方式記憶媒体、ＭＯ等の磁気記憶型／光学的読取方式記憶媒体であって、電子的、磁気的、光学的等の読み取り方法のいかんにかかわらず、コンピュータで読み取り可能な記憶媒体であれば、どのような記憶媒体であってもよい。

実施形態の画像情報処理装置の概要構成ブロック図である。画像情報処理装置の機能ブロック図である。撮影被写体と関連コンテンツとの関係説明図である。信頼度Ｐの具体例の説明図である。第１実施形態の処理フローチャートである。第２実施形態の処理フローチャートである。

符号の説明

１０…画像情報処理装置、１１…画像情報処理装置本体、１２…画像入力装置、１３…入力装置、１４…表示装置、１５…出力装置、１６…外部記憶装置、２１…ＭＰＵ、２２…ＲＯＭ、２３…ＲＡＭ、２４…通信インタフェース部、３１…映像・画像入力部、３２…顔画像検出部、３３…顔画像認識部、３４…顔属性抽出部、３５…音声認識部、３６…テキスト抽出部、３７…形態素解析部、３８…人物情報推定部、３９…人物情報記憶部、４０…人物情報抽出部、４１…通信部、４２…表示部、４３…固有表現抽出部、４４…人物記述語抽出部、Ｐ…信頼度。

Claims

動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出部と、
前記動画像に対応する動画像データあるいは前記静止画像に対応する静止画像データと対応づけて、前記関連情報抽出部で抽出された前記オブジェクト関連情報に対応するオブジェクト関連情報データを記憶する関連情報記憶部と、
を備えたことを特徴とする画像情報処理装置。
請求項１記載の画像情報処理装置において、
前記関連情報抽出部は、前記オブジェクトに対応する固有名詞である固有表現を抽出する固有表現抽出部を備えたことを特徴とする画像情報処理装置。
請求項１または請求項２記載の画像情報処理装置において、
前記関連情報抽出部は、前記オブジェクトを識別可能な一般名詞であるオブジェクト記述語を抽出するオブジェクト記述語抽出部を備えたことを特徴とする画像情報処理装置。
請求項１ないし請求項３のいずれかに記載の画像情報処理装置において、
前記関連コンテンツは、ユーザが送受信した電子メール、作成あるいはアクセスしたブログ、アクセスしたＷｅｂページ等のテキストデータを含むデータ群であることを特徴とする画像情報処理装置。
請求項１ないし請求項３のいずれかに記載の画像情報処理装置において、
前記関連コンテンツは、放送番組に付随する電子番組表あるいはＡＲＩＢＳＴＤ−Ｂ３８で規定されるデータ群であることを特徴とする画像情報処理装置。
請求項１ないし請求項３のいずれかに記載の画像情報処理装置において、
前記動画像に含まれる音声あるいは前記静止画像データに付加された音声データに対応する音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、
前記関連コンテンツは、前記音声認識部で生成された前記音声に対応するテキストデータであることを特徴とする画像情報処理装置。
請求項１ないし請求項３のいずれかに記載の画像情報処理装置において、
前記動画像に含まれる主音声あるいは副音声の音声認識を行って対応するテキストデータを生成する音声認識部を備え、
前記関連コンテンツは、前記音声認識部で生成された前記主音声あるいは前記副音声に対応するテキストデータであることを特徴とする画像情報処理装置。
請求項１ないし請求項３のいずれかに記載の画像情報処理装置において、
前記関連コンテンツは、前記動画像に含まれる字幕あるいはクローズドキャプションに対応するテキストデータであることを特徴とする画像情報処理装置。
請求項１ないし請求項８のいずれかに記載の画像情報処理装置において、
前記オブジェクトは顔であり、
前記動画像あるいは前記静止画像から顔画像を検出する顔画像検出部と、
前記顔画像検出部で検出された前記顔画像を認識する顔画像認識部と、
前記関連コンテンツから前記顔画像認識部で認識された顔画像に対応する人物に関する情報である人物情報を抽出する人物情報抽出部と、
を備えたことを特徴とする画像情報処理装置。
請求項９記載の画像情報処理装置において、
前記顔画像に対する人物情報を、前記関連コンテンツに含まれる人物情報と、前記顔画像との組み合わせの確率を用いて推定する人物情報推定部を備えたことを特徴とする画像情報処理装置。
請求項１０記載の画像情報処理装置において、
前記顔画像から抽出される画像特徴量から顔属性を抽出する顔属性抽出部を備え、
前記関連情報記憶部は、前記人物情報抽出部により前記関連コンテンツから抽出された人物情報と、前記顔属性抽出部で抽出された顔属性に基づいて、前記顔画像に前記人物情報を対応づけて記憶することを特徴とする画像情報処理装置。
動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出する関連情報抽出過程と、
前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出過程で抽出された前記オブジェクト関連情報を記憶する関連情報記憶過程と、
を備えたことを特徴とする画像情報処理方法。
オブジェクト関連情報記憶部を有し、入力された画像情報の処理を行う画像情報処理装置をコンピュータにより制御する制御プログラムであって、
動画像あるいは静止画像に含まれる一のオブジェクトに対し、前記動画像あるいは前記静止画像に予め関連づけられた関連コンテンツから前記オブジェクトに関連する情報であるオブジェクト関連情報を抽出させる関連情報抽出手段と、
前記動画像あるいは前記静止画像と対応づけて、前記関連情報抽出手段で抽出された前記オブジェクト関連情報を前記オブジェクト関連情報記憶部に記憶させる関連情報記憶手段と、
を備えたことを特徴とする制御プログラム。