JP2018084761A

JP2018084761A - 情報処理装置、情報処理システム、方法、及びプログラム

Info

Publication number: JP2018084761A
Application number: JP2016229186A
Authority: JP
Inventors: 晋島崎; Susumu Shimazaki
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2018-05-31

Abstract

【課題】画像中のオブジェクトの名称を自動で特定すること。【解決手段】画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置は、画像データにおいてオブジェクトが写っている時刻に対応する期間における音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、その期間における音声データを用いてオブジェクトの名称を特定する。【選択図】図３

Description

本発明は、画像中に含まれるオブジェクト名称の特定技術に関する。

パーソナルコンピュータ等のローカルコンピュータに記憶された画像や、ネットワーク上のストレージに記憶された画像を用いてアルバムを自動的に作成し、又は、それらの画像のレイアウトを自動的に作成するプログラムを用いたサービスが普及している。このようなサービスは、画像から抽出された人物を登録しておき、作成されたアルバムやレイアウトがユーザの好みに合うように、ユーザが選択した人物が含まれる画像が、アルバムやレイアウトに使用される画像として選択されるようにすることができる。特許文献１には、画像からその画像に含まれる顔の位置を検出し、人物ごとに同じ人物と推定される画像を自動的に検出する技術が記載されている。

特開２０１４−０１６８１９号公報

しかしながら、従来技術では、各人物を特定するための名称については、手動で登録する必要があった。

本発明は上記課題に鑑みてなされたものであり、画像中に含まれる人物等のオブジェクトの名称を自動で特定することを目的とする。

上記目的を達成するため、本発明に係る情報処理装置は、画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置であって、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間における前記音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、当該期間における音声データを用いて前記オブジェクトの名称を特定する特定手段を有する。

本発明によれば、画像中のオブジェクトの名称を自動で特定することができる。

情報処理装置のハードウェア構成例を示すブロック図である。情報処理装置の機能構成例を示すブロック図である。情報処理装置が実行する処理の流れの例を示すフローチャートである。レイアウト作成で用いられるユーザインタフェースの例を示す図である。人物特定用の単語の検出処理の流れの例を示すフローチャートである。音声検出用パターンデータの構造の例を示す図である。人物特定用の動作の検出処理の流れの例を示すフローチャートである。動作検出用パターンデータの構造の例を示す図である。同一人物が写っている画像とその人物の動きとの関係の例を示す図である。人物登録データの構造の例を示す図である。

以下、図面を参照しながら、本発明の実施の形態について説明する。なお、以下に説明する実施形態は、本発明を具現化する一手段に過ぎず、説明される構成及び手順は、当然に適宜修正又は変更可能である。

（装置構成）
図１に、本実施形態に係る情報処理装置のハードウェア構成例を示す。なお、本実施形態に係る情報処理装置は、一例において、ローカル又はネットワーク上のコンピュータであり、例えばパーソナルコンピュータ（ＰＣ）又はワークステーション等である。なお、以下では１つの情報処理装置が後述する処理を一貫して実行するように説明するが、これに限られない。例えば、複数の装置がそれぞれ処理の一部を担当し、それらの複数の装置が協働して全体の処理を実行する情報処理システムが、以下に説明する情報処理装置に代えて用いられてもよい。

情報処理装置１０１は、例えば、ＣＰＵ（中央処理装置）１０２、ＲＯＭ１０３、ＲＡＭ１０４、ディスプレイコントローラ１０９、キーボードコントローラ１１０、ポインティングデバイスコントローラ１１１、及び外部記憶装置１１２を含んで構成される。なお、これらの構成要素は情報処理装置１０１の内部バス１１３を通じて相互に通信可能に接続される。

ＣＰＵ１０２は、情報処理装置１０１の全体を制御する制御装置である。なお、ＣＰＵ１０２に代えて、ＡＳＩＣ（特定用途向け集積回路）、ＤＳＰ（デジタルシグナルプロセッサ）、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）等の任意の１つ以上のプロセッサが用いられてもよい。ＲＯＭ１０３は、例えばＣＰＵ１０２によって実行される制御プログラムを格納する記憶装置である。ＲＯＭ１０３に格納されている制御プログラムは、例えば、オペレーティングシステム（ＯＳ）を読み出してＣＰＵ１０２に実行させるためのプログラムや、ＯＳの管理下で様々なソフトウェア処理を実行させるために用いられうる。ＲＡＭ１０４は、例えば、ＳＲＡＭ（ｓｔａｔｉｃＲＡＭ）で構成される。ＲＡＭ１０４には、ＲＯＭ１０３に格納されたプログラムに基づいてＯＳ１１４が読み出され、また、プログラム制御変数や、ユーザが登録した設定値などの、情報処理装置１０１の管理データが格納され、各種ワーク用バッファ領域が設けられる。ＣＰＵ１０２は、例えば、情報処理装置１０１が起動された際に、ＲＯＭ１０３に記憶されたプログラムによって、外部記憶装置１１２に記憶されているＯＳ１１４をＲＡＭ１０４に読み出す。そして、情報処理装置１０１は、ＣＰＵ１０２がＯＳ１１４を動作させることによって、システムバス１１３を通じてシステムを統括的に制御する。

ディスプレイコントローラ１０９は、ＣＰＵ１０２の制御に従って、エラー警告や処理状況等の各種の表示を実行可能なディスプレイ１０６を制御する。なお、ディスプレイ１０６は、情報処理装置１０１内に含まれていてもよいし、情報処理装置１０１と例えばケーブル等を介して接続可能な外部機器であってもよい。また、情報処理装置１０１がネットワーク上の装置又はシステムによって実現される場合、ディスプレイ１０６は、例えばネットワークに接続可能な任意の表示装置でありうる。この場合、ディスプレイコントローラ１０９は、ディスプレイ１０６に表示すべき情報を、ネットワークを介してディスプレイ１０６へ送信するための形式の信号へと変換して送信することができるように構成されうる。

キーボードコントローラ１１０は、キーボード１０７を制御する。ポインティングデバイスコントローラ１１１は、ポインティングデバイス１０８を制御する。なお、キーボード１０７及びポインティングデバイス１０８は、例えばケーブル等を用いて情報処理装置１０１に接続される外部装置であってもよいし、情報処理装置１０１と一体型の入力デバイスであってもよい。また、キーボード１０７及びポインティングデバイス１０８は、例えば一般的なＰＣの操作に用いるキーボードやマウスでありうるが、例えば、ペン付きタブレットや、タッチパネル等の任意の入力機器であってもよい。なお、例えばキーボード１０７の機能とポインティングデバイス１０８の機能とを一括して提供する機器が用いられる場合、キーボードコントローラ１１０及びポインティングデバイスコントローラ１１１は、統一された１つの機能部として実現されてもよい。なお、情報処理装置１０１がネットワーク上の装置又はシステムによって実現される場合、キーボード１０７及びポインティングデバイス１０８は、例えばネットワークに接続可能な任意の入力機器でありうる。この場合、キーボードコントローラ１１０及びポインティングデバイスコントローラ１１１は、入力機器から受け付けた情報が含まれる信号を受信して、その情報をＣＰＵ１０２へ通知するように構成されうる。

このように、ディスプレイコントローラ１０９、キーボードコントローラ１１０及びポインティングデバイスコントローラ１１１は、例えば制御する機器がどのようなものであるか、及びその機器との接続状態等に基づいた制御を行う。したがって、これらのコントローラは、例えば、専用のハードウェアインタフェース、有線インタフェース、無線インタフェース等の様々なハードウェアで実現される、任意の入出力インタフェースを提供する機能部でありうる。また、ディスプレイコントローラ１０９、キーボードコントローラ１１０及びポインティングデバイスコントローラ１１１は、それぞれ別個の機能部として説明しているが、これらの機能を統括的に提供する１つの機能部が設けられてもよい。また、例えば、音声入出力インタフェース等の別のインタフェースを提供する機能部がさらに設けられてもよく、これについても各コントローラとは別個に設けられてもよいし、他の機能部に対応するコントローラによって実現されてもよい。

外部記憶装置１１２は、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＤＶＤなどの記憶媒体を含んで構成される。外部記憶装置１１２は、ＯＳ１１４及び様々なアプリケーション１１５を記憶する。なお、アプリケーション１１５は、例えば、情報処理装置１０１に対応するプログラムがインストールされることによって、外部記憶装置１１２に記憶される。アプリケーション１１５は、ユーザの操作に従って、特定の作業を情報処理装置１０１上で実現するソフトウェアである。アプリケーション１１５では、例えば動画ファイルの編集及び表示を行い、レイアウトを作成して出力する機能を有するレイアウト作成ソフトウェアでありうる。

続いて、図２を用いて、本実施形態の情報処理装置１０１の機能構成例について説明する。情報処理装置１０１に記憶されているアプリケーション１１５は、上述のようなレイアウト作成ソフトウェアであり、以下ではこのレイアウト作成ソフトウェアに適用される機能として情報処理装置１０１の機能について説明するが、これに限られない。すなわち、以下で説明する情報処理装置１０１の機能は、他の目的を有したソフトウェアに対して適用されてもよい。

動画データ２０１は、音声データと複数フレームの画像データとを含んで構成される動画情報である。動画データ２０１は、ＭｏｔｉｏｎＪＰＥＧ、ＭＰＥＧ、及びＨ．２６４（ＭＰＥＧ４−Ｐａｒｔ１０ＡＶＣ）等の、様々な公知の圧縮符号化方式のうちのいずれかで符号化されたデータでありうる。なお、本実施形態では、どのような圧縮符号化方式が用いられるかについては特に限定しない。

画像解析処理部２０２は、動画データ２０１のフレームごとに、画像解析を実行し、高知の技術を用いて各画像に含まれる人物や顔などのオブジェクトを検出する。動作解析処理部２０３は、画像解析処理部２０２から、人物や顔のオブジェクトが検出された場合に、複数のフレームの間でそのオブジェクトがどのように変化しているかを解析する。例えば、動作解析処理部２０３は、オブジェクトの変化パターンを、予め保持している動作検出用パターンデータと比較し、そのオブジェクトの変化パターンが動作検出用パターンデータに対応するか否かを判定することによって、上述の解析を行う。音声解析処理部２０４は、動画データ２０１に含まれる音声データを、予め用意しておいた音声検出用パターンデータと比較し、その音声データが音声検出用パターンデータに対応するか否かを判定する。人物名称特定処理部２０５は、動作解析処理部２０３と音声解析処理部２０４とにおける解析結果に基づいて、動画データ２０１に含まれる画像中の人物の名称を特定する。

画像管理部２０６は、動画データ２０１を読み込み、画像解析処理部２０２、動作解析処理部２０３、音声解析処理部２０４、及び人物名称特定処理部２０５を統括的に制御して、画像と、その画像中に含まれる人物についての特定された名称とを管理する。また、画像管理部２０６は、入力部２０７が受け付けたユーザ操作の内容を取得し、また、画像表示部２０８に対して表示すべき情報を提供する。入力部２０７は、例えばマウスやキーボード等からのユーザ操作を受け付けて、その受け付けた内容を画像管理部２０６に供給する。画像表示部２０８は、画像管理部２０６から取得した、表示すべき情報をディスプレイ１０６に表示させるための処理を行う。

（処理の流れ）
続いて、情報処理装置１０１が実行する処理の流れの例について、図３を用いて説明する。図３は、情報処理装置１０１が、動画内の人物と、その人物の動作と、音声データとから、その人物の名称を特定するまでの処理の流れの例を示している。

まず、情報処理装置１０１は、ユーザから指定された、レイアウト作成ソフトウェアの解析対象の動画データ２０１を取得する（Ｓ３０１）。そして、画像解析処理部２０２は、Ｓ３０１で指定された動画データ２０１から、その動画データ２０１内の画像に含まれている人物の検出を行う（Ｓ３０２）。なお、人物の検出手法は、例えば特許文献１に紹介されている公知の手法により行われうるが、それらの方法と異なる手法によって行われてもよい。その後、画像管理部２０６は、Ｓ３０２で検出された人物の名称がすでに特定されているか否かを判定する（Ｓ３０３）。例えば、画像管理部２０６は、ソフトウェアにおいて検出された人物と人物の名称が関連付けて保存されている人物登録データに存在するか否かにより、この判定を実行しうる。そして、画像管理部２０６は、検出された人物の名称が特定済みである場合（Ｓ３０２でＹＥＳ）には処理をＳ３０８へ進め、検出された人物の名称が特定されていない場合（Ｓ３０２でＮＯ）には処理をＳ３０４に進める。

Ｓ３０４において、音声解析処理部２０４は、Ｓ３０２で検出した人物が含まれている画像に対応する時刻を特定し、動画データ２０１中の音声データのうち、その時刻に関連する所定の期間に対応するデータを取得する。すなわち、音声解析処理部２０４は、動画データ２０１中の未特定の人物が存在する画像に対応する時刻に対応する期間の、音声データを取得する。音声解析処理部２０４は、取得した音声データから、人物特定用の音声検出用パターンの検出処理を実行して、その音声データ中に人物の名称を特定している可能性のある単語の検出を行う（Ｓ３０５）。この処理の詳細については後述する。続いて、動作解析処理部２０３は、未特定の人物が存在する画像に対応する時刻に関連する所定の期間の複数の画像において、その人物がどのように変化しているかを示す動作データから、人物特定用の動作検出用パターンの検出処理を行う（Ｓ３０６）。本処理の詳細については後述する。

人物名称特定処理部２０５は、Ｓ３０５及びＳ３０６における検出結果から、人物名を特定してソフトウェアに保存する（Ｓ３０７）。人物名称特定処理部２０５は、音声解析処理部２０４の音声検出処理の結果から決定した人物の名称を特定すると共に、動作解析処理部２０３の動作検出処理の結果からその名称に関する人物を特定する。そして、人物名称特定処理部２０５は、動作解析処理部２０３が特定した人物に対して、音声解析処理部２０４が特定した名称を関連付け、画像管理部２０６は、この人物と名称とを関連付けた情報を管理する。

その後、レイアウト作成ソフトウェアは、特定済みの人物が含まれる画像を自動選択して、レイアウトを作成する（Ｓ３０８）。画像を自動選択してレイアウトを作成する際には、公知の技術が用いられる。例えば特許文献１に記載されている技術が用いられてもよく、また、他の方法が用いられてもよい。

ここで、レイアウト作成ソフトウェアが実行する処理の概要について、図４（Ａ）及び図４（Ｂ）を用いて説明する。図４（Ａ）及び図４（Ｂ）は、人物を登録してレイアウトを作成するために用いられるユーザインタフェースを示す。図４（Ａ）は、動画からレイアウトを作成するソフトウェアのユーザインタフェース４０１を示す。ユーザインタフェース４０１には、動画データ２０１とそのデータから特定された人物とが表示される領域４０２と、動画データ２０１のファイル名を表示する領域４０３とが含まれる。

対象の動画データ２０１は、ユーザが、領域４０３を操作することによって、情報処理装置１０１内に記憶されているデータの中から任意に指定可能である。例えば、ユーザは、ポインティングデバイス１０８を用いて領域４０３を選択して情報処理装置１０１内に記憶されている動画の一覧を表示し、その一覧から任意の動画データを指定することによって、対象の動画データ２０１を指定することができる。情報処理装置１０１は、指定された動画データ２０１を読み込む。この処理は図３のＳ３０１に該当する。動画データ２０１が読み込まれたことに応じて、図３のＳ３０２の動画から人物を検出する処理が行われる。そして、指定された動画データ２０１内に人物が検出された場合に、領域４０２に検出されたフレームが表示される。なお、ここでは、情報処理装置１０１内に記憶されている動画データが指定されると説明したが、例えばネットワーク上のストレージに記憶された動画データ等、情報処理装置１０１と異なる装置に記憶された動画データが指定されてもよい。

ユーザインタフェース４０１には、さらに、動画データ２０１から検出した人物の顔を表示する領域４０４と、動画データ２０１から検出した人物の名称を表示する領域４０５と、自動レイアウトを作成するためのボタン４０７とが含まれる。領域４０５には、例えば、領域４０４に表示された人物の顔の特徴量が、画像管理部２０６に記憶されている画像のいずれかに含まれる顔と同一人物に関すると判定される値であった場合に、その画像に関連付けられて記憶されている名称が表示される。また、領域４０５には、領域４０４に表示された人物の顔の特徴量が、画像管理部２０６に記憶されている画像に含まれる顔のいずれとも同一人物に関すると判定されない値であった場合、図３のＳ３０４〜Ｓ３０７において特定された人物名が表示されうる。すなわち、領域４０４と領域４０５は、名称の特定対象の人物の画像と、その名称とが関連付けて表示される領域である。なお、領域４０５に表示される名称は、ユーザ操作によって変更可能である。例えば、ユーザが領域４０５をポインティングデバイス１０８によって選択したことに応じて領域４０５は編集可能な状態となり、ユーザは、キーボード１０７を通じて任意の文字列を入力することにより、人物の名称を任意に更新することができる。ボタン４０７は、例えば、ユーザがポインティングデバイス１０８によって選択したことに応じて、ソフトウェアが、ユーザの保持している画像の中から特定された人物が存在する他の画像、動画を選択し、自動的にレイアウトを作成する。この処理は、図３のＳ３０８に対応する。なお、このボタンによって、アルバムが作成されてもよい。

図４（Ｂ）は、ボタン４０７がユーザ操作によって選択されたことに応じて表示される、レイアウト４１２と、レイアウト４１２を印刷するためのボタン４１５を含んだ画面４１１を示している。レイアウト４１２は、１つ以上（図４（Ｂ）の例では３つ）のコンテンツが当てはめ可能な所定のテンプレートに、ユーザが保持している画像４１３が、そのコンテンツとして当てはめられて生成されたレイアウトである。なお、コンテンツとして使用される画像は、特定された人物４０４が含まれる画像である。なお、その人物４０４の名称４０５が、レイアウト４１２のタイトル４１４において使用されうる。ユーザが、この画面において、ポインティングデバイス１０８を用いてボタン４１５を選択すると、レイアウト４１２を用紙に印刷するための処理が実行される。なお、印刷処理は一般的な技術を用いて実行可能であるため、詳細な説明については省略する。

続いて、図３のＳ３０５における、取得した音声データから、人物の名称を示しうる単語を検出する処理について、図５を用いて説明する。本処理では、音声解析処理部２０４は、まず、動画データにおいて未特定の人物が検出された時間帯を特定する（Ｓ５０１）。ここでは、１つの時間帯が特定されるものとする。例えば、音声解析処理部２０４は、未特定の人物が検出された時間帯のうち、最初の１つの時間帯を特定しうる。なお、音声解析処理部２０４は、例えば、複数の時間帯を特定可能な場合、それらの複数の時間帯のうち、表示されている人物の数が少ない１つの時間帯を特定してもよい。このような表示されている人数が少ない時間帯のデータを用いて人物を特定することにより、その人物の名称の特定精度を高めることができる。なお、複数の時間帯が人物の名称の特定に用いられてもよい。この場合、複数の時間帯のうち、例えば表示されている人数が少ない方から所定数の時間帯、又は、表示されている人数が所定人数以下の時間帯などの一部の時間帯、又は全部の時間帯が特定されうる。

その後、音声解析処理部２０４は、動画データ２０１に含まれる音声データのうち、Ｓ５０１で特定した時間帯（及びその前後の所定長の期間）に対応するデータをテキストデータに変換する（Ｓ５０２）。なお、音声データのテキストデータへの変換は、公知の音声認識技術を用いて実行可能であるため、詳細の説明については省略する。そして、音声解析処理部２０４は、Ｓ５０２で得られたテキストデータにおいて、事前に用意された所定の音声検出用パターンデータを探索する（Ｓ５０３）。その後、音声解析処理部２０４は、Ｓ５０２で取得したテキストデータに音声検出用パターンデータが含まれていたか否かを判定する（Ｓ５０４）。

ここで、音声検出用パターンデータの構造について、図６を用いて説明する。図６は、音声検出用パターンデータの構造の例を示している。図６の例では、音声検出用パターンデータ６０１は、音声検出のための音声データ６０２と、その音声データで用いられている言語６０３と、音声データの種類６０４と、を示す情報を含んで構成される。音声検出用パターンデータは、テキストとして保存される。図６の１つめの例では、「こんにちは」という音声データ６０２が、音声検出用パターンデータであることを示している。音声解析処理部２０４は、例えば、「本日は晴天なり」という音声は音声検出用パターンデータのいずれにも対応しないため、Ｓ５０４において、音声検出用パターンデータが含まれていないと判定する。一方、音声解析処理部２０４は、「こんにちは、山田」という音声は、「こんにちは」の部分が音声検出用パターンデータと一致するため、Ｓ５０４において、音声検出用パターンデータが含まれていると判定する。なお、図６の例は一例に過ぎず、図６に含まれる例と異なる音声データが、音声検出用パターンデータとして含まれてもよい。

なお、言語６０３は、例えば、Ｓ５０３における探索で用いる音声検出量パターンデータのフィルタリングに用いることができる。例えば、Ｓ３０１で取得された動画データ２０１で使用されている言語が、英語である場合、音声解析処理部２０４は、言語が「日本語」の音声検出用パターンデータを、探索の対象から除外しうる。これは、例えば、英語であれば「Ｈｅｌｌｏ」を人物特定用パターンデータとして使用できるが、これを日本語の音声データに適用すると、「波浪」や「貼ろう」等の不適当な音声が人物特定用の音声データとして認識されてしまいうるからである。なお、音声解析処理部２０４は、動画データ２０１で使用されている言語を、動画データから特定してもよいし、プログラムにおけるユーザインタフェースの使用言語から特定してもよい。また、種類６０４は、音声の発信者が動画内の他者に対して音声を向ける「呼びかけ」や、音声の発信者が発信者自身の自己紹介を行う「自己紹介」などの音声検出用パターンデータの種類を指定する。これにより、例えば動画データ２０１内の画像の動きと種類との整合性から、音声データが画像内の人物を指しているか否かの判定等を行うことができる。

図５に戻り、音声解析処理部２０４は、テキストデータに音声検出用パターンデータが含まれていたと判定した場合（Ｓ５０４でＹＥＳ）は処理をＳ５０５に進める。一方、音声解析処理部２０４は、テキストデータに音声検出用パターンデータが含まれていない場合（Ｓ５０４でＮＯ）は処理を終了する。Ｓ５０５では、音声解析処理部２０４は、テキストデータ中の人物の名称に対応しうる単語（文字列）が含まれる位置を取得する。この文字列は、図６の６０２における「ＸＸＸＸ」の部分に対応する。その後、音声解析処理部２０４は、テキストデータから、この取得した位置のデータを抜き出して、人物特定用の単語として出力する（Ｓ５０６）。

このようにして、人物の顔が表示されている画像に対応する期間の音声データから、人物を表現していると推測される文字列を抽出することができる。なお、レイアウト作成ソフトウェアは、抽出された文字列を、この時点で人物の名称として図４の領域４０５に表示してもよいし、図３のＳ３０６及びＳ３０７などの動作に応じた人物特定の後の最終的な特定結果を領域４０５に表示してもよい。なお、領域４０５に表示される人物の名称は、上述のように、後にユーザ操作によって変更可能である。これは、例えば「こんにちは、いい天気ですね」という音声データに関して、Ｓ５０６では「いい天気ですね」を人物の名称として出力しうるが、これを人物の名称として維持し、変更できないようにするのは妥当性を欠くからである。

次に、図７を用いて、図３のＳ３０６における、Ｓ３０２で検出された人物の動作から人物特定用の動作の検出する処理について説明する。

本処理では、動作解析処理部２０３は、まず、Ｓ３０５において検出された音声検出用パターンデータに対応する音声データが動画データ２０１中で出現するタイミングに対応する一定期間分の画像を、その動画データ２０１の中から取得する（Ｓ７０１）。例えば、動作解析処理部２０３は、音声検出用パターンデータが検出されたフレーズのタイミングと、その前後の期間を含む一定期間分の画像を取得する。なお、この一定期間は、例えば、音声検出用パターンデータが検出されたフレーズの長さに応じて定まりうる。例えば、音声検出用パターンデータが検出されたフレーズの全体を含む期間が一定期間として特定される。また、音声検出用パターンデータが検出されたフレーズに応答して人物が動く場合を考慮して、そのフレーズが終了した後の所定期間を含むように、一定期間が定められうる。さらに、人物が動いたことに応答して音声検出用パターンデータが検出されたフレーズが発声される場合を考慮して、そのフレーズが開始する前の所定期間を含むように、一定期間が定められてもよい。

続いて、動作解析処理部２０３は、Ｓ７０１で取得した一定期間分の画像から検出される人物の動作において、動作検出用パターンを探索する（Ｓ７０２）。なお、人物の動作の検出には、例えば、特許文献１に記載されているような、画像に対するオブジェクト認識の技術が使用されうる。すなわち、複数の画像に対して、画像ごとに、顔や手や足の位置情報と角度情報をオブジェクトの情報として保存し、保存されたオブジェクトの情報、例えば顔に着目して、その位置情報と角度情報の変化から、動作が特定される。例えば、顔が正面を向いている際にその角度情報が０度であるとすると、−９０度から９０度へと、顔の向きが１８０度変更した場合には、顔の向きが左（又は右）から右（又は左）に変化したと判断する。なお、人物の動作の検出方法は上述のものに限られず、他の動作の検出方法が用いられてもよい。

動作検出用パターンデータは、このような人物の顔の向きや他の特徴の変化のパターンである。ここで、動作検出用パターンデータの構造について、図８を用いて説明する。図８は、動作検出用パターンデータの構造の例を示している。図８の例では、動作検出用パターンデータ８０１は、「呼びかけ」や「自己紹介」等の音声データの種類８０２と、それに関連付けられている動作を特定する動作パターン８０３とを示す情報を含んで構成される。例えば、音声データの種類８０２が「呼びかけ」の場合、関連する動作パターン８０３は、呼びかけの前後で「顔の向きが変化した」となる。なお、音声データの種類８０２は、Ｓ３０５で検出された音声データが対応する音声検出用パターンの種類によって定まる。例えば、「こんにちは、山田」という音声データについては、図６に示すように、「こんにちは」が音声検出用パターンに対応し、このパターンの種類「呼びかけ」である。このため、「こんにちは、山田」という音声データに関連して取得された一定期間分の画像について検出すべき動作パターンは「呼びかけの前後で顔の向きが変化した」となる。なお、図８の例は一例に過ぎず、図８に含まれる例と異なる動作パターンが、動作検出用パターンデータとして含まれてもよい。

図７に戻り、動作解析処理部２０３は、Ｓ７０１で取得した画像中の人物の動作に動作検出用パターンに該当する動作が含まれていたか否かを判定する（Ｓ７０３）。動作解析処理部２０３は、Ｓ７０１で取得した画像中で動作検出用パターンを検出しなかった場合（Ｓ７０３でＮＯ）、音声解析処理部２０４がＳ５０６で出力した人物特定用の単語は、Ｓ７０１で取得された画像に含まれる人物の誰にも関連しないと判定しうる。この場合、動作解析処理部２０４は、音声解析処理部２０４がＳ５０６で出力した人物特定用の単語を画像に含まれる人物と関連付けることなく、処理を終了する。

一方、動作解析処理部２０３は、Ｓ７０１で取得した画像中で動作検出用パターンを検出した場合（Ｓ７０３でＹＥＳ）、画像中でその動作検出用パターンに対応する動作を行った人物を特定する。そして、人物名称特定部２０５は、その特定された人物を、音声解析処理部２０４がＳ５０６で出力した人物特定用の単語と関連付け、画像管理部２０６に記憶させる（Ｓ７０４）。すなわち、人物名称特定部２０５は、音声解析処理部２０４がＳ５０６で出力した人物特定用の単語に関連して所定の動作を行った人物を、その単語に関連する人物であると判定する。例えば、人物名称特定部２０５は、「こんにちは、山田」という音声データに関連して取得された一定期間分の画像において、「呼びかけの前後で顔の向きが変化した」人物が、「山田」であると判定する。そして、この場合、画像管理部２０６は、動画解析処理部２０３が特定した人物と、「山田」とを関連付けて記憶する。

ここで、図９（Ａ）〜図９（Ｃ）及び図１０を用いて、Ｓ７０４の処理について説明する。図９（Ａ）〜図９（Ｃ）は、Ｓ７０１で同一動画データから一定期間にわたって取得された、同一人物の顔の全体（及び体の一部）を含む画像の例を示している。なお、図９（Ａ）は人物の顔が画面の左方向（その人物からは右方向）を向いており、図９（Ｂ）は顔が正面を向いており、図９（Ｃ）は顔が画面の右方向（その人物からは左方向）を向いている状態を示している。

ここで、音声データ「こんにちは、山田」が検出された時点で人物が図９（Ａ）の状態であり、「こんにちは」の検出時刻後に人物が図９（Ｂ）の状態を経由して図９（Ｃ）の状態のように顔の向きを１８０°変えたものとする。この場合、動作解析処理部２０４は、振り向いたきっかけとなった音声が「こんにちは」であり、音声「こんにちは」に反応して、この人物が顔の向きを変えたと判定し、人物名称特定部２０５は、その後に続く「山田」が人物の名称であると判定する。したがって、この場合、画像管理部２０６は、この人物の顔の情報と、名称「山田」とを関連付けて記憶する。

このとき記憶される人物登録データの構造の例を、図１０を用いて説明する。図１０の人物登録データ１００１は、例えば、ＩＤ１００２、人物名称１００３、動画データ名称１００４、及び顔検出結果ＩＤ１００５を含んで構成される。ＩＤ１００２は、プログラムの内部で本データを取り扱う際に用いる、各データを一意に特定することを可能とする番号である。人物名称１００３は、人物名称特定部２０５によって特定された人物の名称、又は、ユーザが手動で入力した名称を示す。なお、画像から顔は検出されたが名称を特定するにいたらなかった場合は、人物名称１００３には、名称が未登録であることを示す情報が格納される。なお、この場合は、例えば、人物名称がユーザによって手動で入力されたことに応じて、又は、別途同一人物に関して名称が特定されることにより、人物名称１００３の欄が書き換えられる。動画データ名称１００４は、その人物が検出された動画データ２０１のファイル名を示す。顔検出結果ＩＤ１００５は、Ｓ７０４で検出された人物の顔の情報を識別する識別子である。なお、例えば、１つの人物名称１００３及び顔検出結果ＩＤ１００５に対して、複数の動画データ名称が関連付けられてもよい。また、同一の動画データ名称が、複数の人物名称１００３等に関連付けられてもよい。

これにより、従来は手動で行っていた人物の名称の登録が自動的に行われることとなるため、アルバムやレイアウト作成におけるソフトウェアの操作性を向上させることができる。このとき、簡素的には、人物の顔が検出された画像フレームに対応する時間の音声データに基づいて、その音声データに含まれる所定の音声データパターンを検出し、その音声データパターンに基づいて、その人物の名称を特定することができる。また、これに加えて、検出した音声データパターンに応じて画像中で人物が所定の動きを示したか否かに応じて、音声データパターンに基づいて特定した人物の名称の確度を高めることができる。

また、上述の実施形態では、アルバムやレイアウト作成において人物の名称を特定する例について説明したが、別の用途で上述の処理を使用することができる。例えば、ユーザは、人物の名称の登録対象の人物の自己紹介用の動画を作成し、音声検出用パターンデータや動作検出用パターンデータを利用して動画データを解析させることによって、その人物の登録を手動ではなく自動で行うことができる。これにより、例えば、人材管理等の用途に上述の人名特定処理を使用することができる。

（その他の実施形態）
上述の実施形態では、まず動画から人物を検出し、その人物の名称を音声データによって特定する処理の例について示したが、例えば、まず動画データ内の音声データから音声検出用パターンデータに対応する部分を抽出してもよい。この場合、音声検出用パターンデータに対応する音声データの抽出後に、抽出した音声データに対応する期間の画像に写っている人物が抽出される。この場合、名称が先に特定された後に、その名称に対応する人物が特定される点で上述の処理と異なるが、同様の効果を得ることができる。また、上述の実施形態では、Ｓ３０２において動画データから人物を検出する処理について説明したが、特定対象の期間をユーザが指定してもよい。例えば、長時間の動画データの全期間に関して上述の処理を実行する場合、処理に多くの時間と計算量を要しうる。これに対して、ユーザが、特定対象の人物が写っていると共にその人物の名称が音声データとして記録されている動画データの期間を事前に指定可能な場合は、その期間の動画データについてのみ上述の処理を実行すればよいこととなる。これにより、短期間かつ少ない計算量で、さらに精度の高い、特定対象の人物の名称の特定を行うことができるようになる。なお、動画データに複数の人物が写っている場合、どのユーザに関して名称の特定を行うかをユーザに指定させてもよい。これにより、特定対象外の人物についてまで上述の処理を実行する必要がなくなる。

また、上述の実施形態では「人物」の名称の特定について説明したが、例えばペット等の動物や、別のオブジェクトが名称の特定対象であってもよい。例えば、ペットの撮影時に、そのペットの名前を呼ぶことによって、そのペットの名称を自動で特定することができる。なお、この場合、ペットは予想される動きをしない可能性がある。このため、例えば、動作検出用パターンが検出されなかった場合であっても、同じ動画データにおいて、同じオブジェクトが写っている間に、同じ名称が所定回数呼ばれた場合等において、その呼ばれた名称がそのオブジェクトの名称であると判定されてもよい。このように、上述の処理を繰り返し実行し、その繰り返し実行した結果を総合的に評価して、人物（オブジェクト）の名称を特定してもよい。このとき、同じ人物（オブジェクト）が写っている間に、異なる名称が特定される場合がありうる。すなわち、同じ人物（オブジェクト）が写っている２つ以上の期間において、音声検出用パターンに対応する音声データがそれぞれ検出され、かつ、特定される名称が異なる場合がありうる。この場合、例えば、その人物（オブジェクト）が写っている他の期間について、さらに音声検出用パターンの探索を行い、その結果に応じて、例えば多数決によって、その人物（オブジェクト）の名称を特定してもよい。このように、処理を複数回実行することにより、名称の特定精度を高めることができる。

また、上述の実施形態では、音声データをテキストデータ化し、そのテキストデータに所定の文字列が含まれているか否かによって、音声検出用パターンが含まれているか否かを判定する例について示した。しかしながら、必ずしもこれに限られず、例えば、音声データの波形に基づいて判定が行われてもよい。また、テキストデータについて判定を行う際に、音声検出用パターンのテキストとの一致率が所定値以上である場合に一致と判定してもよく、必ずしも一致率が１００％でなくてもよい。また、例えば幼児の発音等に対応するための音声検出用パターンデータが用意されてもよい。さらに、例えば撮影者の声を事前に登録しておき、撮影者が呼びかけている名称が、被写体の人物（オブジェクト）の名称であると判定されてもよい。

本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０１：情報処理装置、１０２：ＣＰＵ、１０３：ＲＯＭ、１０４：ＲＡＭ、１１２：外部記憶装置、２０２：画像解析処理部、２０３：動作解析処理部、２０４：音声解析処理部、２０５：人物名称特定部、２０６：画像管理部

Claims

画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置であって、
前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間における前記音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、当該期間における音声データを用いて前記オブジェクトの名称を特定する特定手段を有する、
ことを特徴とする情報処理装置。
前記画像データにおける前記オブジェクトが、前記所定の検出用パターンに応じた動作を行っているか否かを判定する第１の判定手段をさらに有し、
前記特定手段は、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでおり、かつ、前記オブジェクトが当該期間の音声データに応じて前記所定の検出用パターンに応じた動作をしている場合に、前記期間における音声データを用いて前記オブジェクトの名称を特定する、
ことを特徴とする請求項１に記載の情報処理装置。
前記第１の判定手段は、前記期間における音声データが第１の所定の検出用パターンに対応する音声を含んでいる場合には、前記画像データにおいて前記オブジェクトが第１の動作を行っているか否かを判定し、前記期間における音声データが第２の所定の検出用パターンに対応する音声を含んでいる場合には、前記画像データにおいて前記オブジェクトが第２の動作を行っているか否かを判定する、
ことを特徴とする請求項２に記載の情報処理装置。
前記期間における音声データをテキストデータに変換する変換手段と、
前記テキストデータが前記所定の検出用パターンに対応する文字列を含んでいるかに応じて、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでいるか否かを判定する第２の判定手段と、
をさらに有することを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記第２の判定手段は、前記動画データで用いられる言語に応じて前記所定の検出用パターンをフィルタリングして用いる、
ことを特徴とする請求項４に記載の情報処理装置。
前記第２の判定手段は、前記音声データに基づいて前記言語を判定する、
ことを特徴とする請求項５に記載の情報処理装置。
前記第２の判定手段は、前記テキストデータが、前記所定の検出用パターンに対応する文字列との一致率が所定値以上である文字列を含んでいる場合、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでいると判定する、
ことを特徴とする請求項４から６のいずれか１項に記載の情報処理装置。
前記画像データから、名称を特定すべき前記オブジェクトを検出する検出手段をさらに有する、
ことを特徴とする請求項１から７のいずれか１項に記載の情報処理装置。
前記特定手段が特定した名称と前記オブジェクトの画像とを関連付けて表示手段に表示させる手段をさらに有する、
ことを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記オブジェクトの名称を変更するためのユーザ操作の入力を受け付ける入力手段をさらに有する、
ことを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
前記オブジェクトは人物である、
ことを特徴とする請求項１から１０のいずれか１項に記載の情報処理装置。
前記オブジェクトと、当該オブジェクトの名称とを関連付けて記憶する記憶手段をさらに有する、
ことを特徴とする請求項１から１１のいずれか１項に記載の情報処理装置。
前記記憶手段に記憶された情報を用いて、アルバムとレイアウトとの少なくともいずれかを自動で作成する作成手段をさらに有する、
ことを特徴とする請求項１２に記載の情報処理装置。
画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理システムであって、
前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定する特定手段を有する、
ことを特徴とする情報処理システム。
画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する方法であって、
特定手段が、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定する特定工程を有する、
ことを特徴とする方法。
コンピュータに、画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する方法であって、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定させるための方法を実行させるためのプログラム。