JP2018084761A - 情報処理装置、情報処理システム、方法、及びプログラム - Google Patents

情報処理装置、情報処理システム、方法、及びプログラム Download PDF

Info

Publication number
JP2018084761A
JP2018084761A JP2016229186A JP2016229186A JP2018084761A JP 2018084761 A JP2018084761 A JP 2018084761A JP 2016229186 A JP2016229186 A JP 2016229186A JP 2016229186 A JP2016229186 A JP 2016229186A JP 2018084761 A JP2018084761 A JP 2018084761A
Authority
JP
Japan
Prior art keywords
data
information processing
processing apparatus
name
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016229186A
Other languages
English (en)
Inventor
晋 島崎
Susumu Shimazaki
晋 島崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2016229186A priority Critical patent/JP2018084761A/ja
Publication of JP2018084761A publication Critical patent/JP2018084761A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】画像中のオブジェクトの名称を自動で特定すること。【解決手段】画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置は、画像データにおいてオブジェクトが写っている時刻に対応する期間における音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、その期間における音声データを用いてオブジェクトの名称を特定する。【選択図】 図3

Description

本発明は、画像中に含まれるオブジェクト名称の特定技術に関する。
パーソナルコンピュータ等のローカルコンピュータに記憶された画像や、ネットワーク上のストレージに記憶された画像を用いてアルバムを自動的に作成し、又は、それらの画像のレイアウトを自動的に作成するプログラムを用いたサービスが普及している。このようなサービスは、画像から抽出された人物を登録しておき、作成されたアルバムやレイアウトがユーザの好みに合うように、ユーザが選択した人物が含まれる画像が、アルバムやレイアウトに使用される画像として選択されるようにすることができる。特許文献1には、画像からその画像に含まれる顔の位置を検出し、人物ごとに同じ人物と推定される画像を自動的に検出する技術が記載されている。
特開2014−016819号公報
しかしながら、従来技術では、各人物を特定するための名称については、手動で登録する必要があった。
本発明は上記課題に鑑みてなされたものであり、画像中に含まれる人物等のオブジェクトの名称を自動で特定することを目的とする。
上記目的を達成するため、本発明に係る情報処理装置は、画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置であって、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間における前記音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、当該期間における音声データを用いて前記オブジェクトの名称を特定する特定手段を有する。
本発明によれば、画像中のオブジェクトの名称を自動で特定することができる。
情報処理装置のハードウェア構成例を示すブロック図である。 情報処理装置の機能構成例を示すブロック図である。 情報処理装置が実行する処理の流れの例を示すフローチャートである。 レイアウト作成で用いられるユーザインタフェースの例を示す図である。 人物特定用の単語の検出処理の流れの例を示すフローチャートである。 音声検出用パターンデータの構造の例を示す図である。 人物特定用の動作の検出処理の流れの例を示すフローチャートである。 動作検出用パターンデータの構造の例を示す図である。 同一人物が写っている画像とその人物の動きとの関係の例を示す図である。 人物登録データの構造の例を示す図である。
以下、図面を参照しながら、本発明の実施の形態について説明する。なお、以下に説明する実施形態は、本発明を具現化する一手段に過ぎず、説明される構成及び手順は、当然に適宜修正又は変更可能である。
(装置構成)
図1に、本実施形態に係る情報処理装置のハードウェア構成例を示す。なお、本実施形態に係る情報処理装置は、一例において、ローカル又はネットワーク上のコンピュータであり、例えばパーソナルコンピュータ(PC)又はワークステーション等である。なお、以下では1つの情報処理装置が後述する処理を一貫して実行するように説明するが、これに限られない。例えば、複数の装置がそれぞれ処理の一部を担当し、それらの複数の装置が協働して全体の処理を実行する情報処理システムが、以下に説明する情報処理装置に代えて用いられてもよい。
情報処理装置101は、例えば、CPU(中央処理装置)102、ROM103、RAM104、ディスプレイコントローラ109、キーボードコントローラ110、ポインティングデバイスコントローラ111、及び外部記憶装置112を含んで構成される。なお、これらの構成要素は情報処理装置101の内部バス113を通じて相互に通信可能に接続される。
CPU102は、情報処理装置101の全体を制御する制御装置である。なお、CPU102に代えて、ASIC(特定用途向け集積回路)、DSP(デジタルシグナルプロセッサ)、FPGA(フィールドプログラマブルゲートアレイ)等の任意の1つ以上のプロセッサが用いられてもよい。ROM103は、例えばCPU102によって実行される制御プログラムを格納する記憶装置である。ROM103に格納されている制御プログラムは、例えば、オペレーティングシステム(OS)を読み出してCPU102に実行させるためのプログラムや、OSの管理下で様々なソフトウェア処理を実行させるために用いられうる。RAM104は、例えば、SRAM(static RAM)で構成される。RAM104には、ROM103に格納されたプログラムに基づいてOS114が読み出され、また、プログラム制御変数や、ユーザが登録した設定値などの、情報処理装置101の管理データが格納され、各種ワーク用バッファ領域が設けられる。CPU102は、例えば、情報処理装置101が起動された際に、ROM103に記憶されたプログラムによって、外部記憶装置112に記憶されているOS114をRAM104に読み出す。そして、情報処理装置101は、CPU102がOS114を動作させることによって、システムバス113を通じてシステムを統括的に制御する。
ディスプレイコントローラ109は、CPU102の制御に従って、エラー警告や処理状況等の各種の表示を実行可能なディスプレイ106を制御する。なお、ディスプレイ106は、情報処理装置101内に含まれていてもよいし、情報処理装置101と例えばケーブル等を介して接続可能な外部機器であってもよい。また、情報処理装置101がネットワーク上の装置又はシステムによって実現される場合、ディスプレイ106は、例えばネットワークに接続可能な任意の表示装置でありうる。この場合、ディスプレイコントローラ109は、ディスプレイ106に表示すべき情報を、ネットワークを介してディスプレイ106へ送信するための形式の信号へと変換して送信することができるように構成されうる。
キーボードコントローラ110は、キーボード107を制御する。ポインティングデバイスコントローラ111は、ポインティングデバイス108を制御する。なお、キーボード107及びポインティングデバイス108は、例えばケーブル等を用いて情報処理装置101に接続される外部装置であってもよいし、情報処理装置101と一体型の入力デバイスであってもよい。また、キーボード107及びポインティングデバイス108は、例えば一般的なPCの操作に用いるキーボードやマウスでありうるが、例えば、ペン付きタブレットや、タッチパネル等の任意の入力機器であってもよい。なお、例えばキーボード107の機能とポインティングデバイス108の機能とを一括して提供する機器が用いられる場合、キーボードコントローラ110及びポインティングデバイスコントローラ111は、統一された1つの機能部として実現されてもよい。なお、情報処理装置101がネットワーク上の装置又はシステムによって実現される場合、キーボード107及びポインティングデバイス108は、例えばネットワークに接続可能な任意の入力機器でありうる。この場合、キーボードコントローラ110及びポインティングデバイスコントローラ111は、入力機器から受け付けた情報が含まれる信号を受信して、その情報をCPU102へ通知するように構成されうる。
このように、ディスプレイコントローラ109、キーボードコントローラ110及びポインティングデバイスコントローラ111は、例えば制御する機器がどのようなものであるか、及びその機器との接続状態等に基づいた制御を行う。したがって、これらのコントローラは、例えば、専用のハードウェアインタフェース、有線インタフェース、無線インタフェース等の様々なハードウェアで実現される、任意の入出力インタフェースを提供する機能部でありうる。また、ディスプレイコントローラ109、キーボードコントローラ110及びポインティングデバイスコントローラ111は、それぞれ別個の機能部として説明しているが、これらの機能を統括的に提供する1つの機能部が設けられてもよい。また、例えば、音声入出力インタフェース等の別のインタフェースを提供する機能部がさらに設けられてもよく、これについても各コントローラとは別個に設けられてもよいし、他の機能部に対応するコントローラによって実現されてもよい。
外部記憶装置112は、例えばフレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、DVDなどの記憶媒体を含んで構成される。外部記憶装置112は、OS114及び様々なアプリケーション115を記憶する。なお、アプリケーション115は、例えば、情報処理装置101に対応するプログラムがインストールされることによって、外部記憶装置112に記憶される。アプリケーション115は、ユーザの操作に従って、特定の作業を情報処理装置101上で実現するソフトウェアである。アプリケーション115では、例えば動画ファイルの編集及び表示を行い、レイアウトを作成して出力する機能を有するレイアウト作成ソフトウェアでありうる。
続いて、図2を用いて、本実施形態の情報処理装置101の機能構成例について説明する。情報処理装置101に記憶されているアプリケーション115は、上述のようなレイアウト作成ソフトウェアであり、以下ではこのレイアウト作成ソフトウェアに適用される機能として情報処理装置101の機能について説明するが、これに限られない。すなわち、以下で説明する情報処理装置101の機能は、他の目的を有したソフトウェアに対して適用されてもよい。
動画データ201は、音声データと複数フレームの画像データとを含んで構成される動画情報である。動画データ201は、MotionJPEG、MPEG、及びH.264(MPEG4−Part10 AVC)等の、様々な公知の圧縮符号化方式のうちのいずれかで符号化されたデータでありうる。なお、本実施形態では、どのような圧縮符号化方式が用いられるかについては特に限定しない。
画像解析処理部202は、動画データ201のフレームごとに、画像解析を実行し、高知の技術を用いて各画像に含まれる人物や顔などのオブジェクトを検出する。動作解析処理部203は、画像解析処理部202から、人物や顔のオブジェクトが検出された場合に、複数のフレームの間でそのオブジェクトがどのように変化しているかを解析する。例えば、動作解析処理部203は、オブジェクトの変化パターンを、予め保持している動作検出用パターンデータと比較し、そのオブジェクトの変化パターンが動作検出用パターンデータに対応するか否かを判定することによって、上述の解析を行う。音声解析処理部204は、動画データ201に含まれる音声データを、予め用意しておいた音声検出用パターンデータと比較し、その音声データが音声検出用パターンデータに対応するか否かを判定する。人物名称特定処理部205は、動作解析処理部203と音声解析処理部204とにおける解析結果に基づいて、動画データ201に含まれる画像中の人物の名称を特定する。
画像管理部206は、動画データ201を読み込み、画像解析処理部202、動作解析処理部203、音声解析処理部204、及び人物名称特定処理部205を統括的に制御して、画像と、その画像中に含まれる人物についての特定された名称とを管理する。また、画像管理部206は、入力部207が受け付けたユーザ操作の内容を取得し、また、画像表示部208に対して表示すべき情報を提供する。入力部207は、例えばマウスやキーボード等からのユーザ操作を受け付けて、その受け付けた内容を画像管理部206に供給する。画像表示部208は、画像管理部206から取得した、表示すべき情報をディスプレイ106に表示させるための処理を行う。
(処理の流れ)
続いて、情報処理装置101が実行する処理の流れの例について、図3を用いて説明する。図3は、情報処理装置101が、動画内の人物と、その人物の動作と、音声データとから、その人物の名称を特定するまでの処理の流れの例を示している。
まず、情報処理装置101は、ユーザから指定された、レイアウト作成ソフトウェアの解析対象の動画データ201を取得する(S301)。そして、画像解析処理部202は、S301で指定された動画データ201から、その動画データ201内の画像に含まれている人物の検出を行う(S302)。なお、人物の検出手法は、例えば特許文献1に紹介されている公知の手法により行われうるが、それらの方法と異なる手法によって行われてもよい。その後、画像管理部206は、S302で検出された人物の名称がすでに特定されているか否かを判定する(S303)。例えば、画像管理部206は、ソフトウェアにおいて検出された人物と人物の名称が関連付けて保存されている人物登録データに存在するか否かにより、この判定を実行しうる。そして、画像管理部206は、検出された人物の名称が特定済みである場合(S302でYES)には処理をS308へ進め、検出された人物の名称が特定されていない場合(S302でNO)には処理をS304に進める。
S304において、音声解析処理部204は、S302で検出した人物が含まれている画像に対応する時刻を特定し、動画データ201中の音声データのうち、その時刻に関連する所定の期間に対応するデータを取得する。すなわち、音声解析処理部204は、動画データ201中の未特定の人物が存在する画像に対応する時刻に対応する期間の、音声データを取得する。音声解析処理部204は、取得した音声データから、人物特定用の音声検出用パターンの検出処理を実行して、その音声データ中に人物の名称を特定している可能性のある単語の検出を行う(S305)。この処理の詳細については後述する。続いて、動作解析処理部203は、未特定の人物が存在する画像に対応する時刻に関連する所定の期間の複数の画像において、その人物がどのように変化しているかを示す動作データから、人物特定用の動作検出用パターンの検出処理を行う(S306)。本処理の詳細については後述する。
人物名称特定処理部205は、S305及びS306における検出結果から、人物名を特定してソフトウェアに保存する(S307)。人物名称特定処理部205は、音声解析処理部204の音声検出処理の結果から決定した人物の名称を特定すると共に、動作解析処理部203の動作検出処理の結果からその名称に関する人物を特定する。そして、人物名称特定処理部205は、動作解析処理部203が特定した人物に対して、音声解析処理部204が特定した名称を関連付け、画像管理部206は、この人物と名称とを関連付けた情報を管理する。
その後、レイアウト作成ソフトウェアは、特定済みの人物が含まれる画像を自動選択して、レイアウトを作成する(S308)。画像を自動選択してレイアウトを作成する際には、公知の技術が用いられる。例えば特許文献1に記載されている技術が用いられてもよく、また、他の方法が用いられてもよい。
ここで、レイアウト作成ソフトウェアが実行する処理の概要について、図4(A)及び図4(B)を用いて説明する。図4(A)及び図4(B)は、人物を登録してレイアウトを作成するために用いられるユーザインタフェースを示す。図4(A)は、動画からレイアウトを作成するソフトウェアのユーザインタフェース401を示す。ユーザインタフェース401には、動画データ201とそのデータから特定された人物とが表示される領域402と、動画データ201のファイル名を表示する領域403とが含まれる。
対象の動画データ201は、ユーザが、領域403を操作することによって、情報処理装置101内に記憶されているデータの中から任意に指定可能である。例えば、ユーザは、ポインティングデバイス108を用いて領域403を選択して情報処理装置101内に記憶されている動画の一覧を表示し、その一覧から任意の動画データを指定することによって、対象の動画データ201を指定することができる。情報処理装置101は、指定された動画データ201を読み込む。この処理は図3のS301に該当する。動画データ201が読み込まれたことに応じて、図3のS302の動画から人物を検出する処理が行われる。そして、指定された動画データ201内に人物が検出された場合に、領域402に検出されたフレームが表示される。なお、ここでは、情報処理装置101内に記憶されている動画データが指定されると説明したが、例えばネットワーク上のストレージに記憶された動画データ等、情報処理装置101と異なる装置に記憶された動画データが指定されてもよい。
ユーザインタフェース401には、さらに、動画データ201から検出した人物の顔を表示する領域404と、動画データ201から検出した人物の名称を表示する領域405と、自動レイアウトを作成するためのボタン407とが含まれる。領域405には、例えば、領域404に表示された人物の顔の特徴量が、画像管理部206に記憶されている画像のいずれかに含まれる顔と同一人物に関すると判定される値であった場合に、その画像に関連付けられて記憶されている名称が表示される。また、領域405には、領域404に表示された人物の顔の特徴量が、画像管理部206に記憶されている画像に含まれる顔のいずれとも同一人物に関すると判定されない値であった場合、図3のS304〜S307において特定された人物名が表示されうる。すなわち、領域404と領域405は、名称の特定対象の人物の画像と、その名称とが関連付けて表示される領域である。なお、領域405に表示される名称は、ユーザ操作によって変更可能である。例えば、ユーザが領域405をポインティングデバイス108によって選択したことに応じて領域405は編集可能な状態となり、ユーザは、キーボード107を通じて任意の文字列を入力することにより、人物の名称を任意に更新することができる。ボタン407は、例えば、ユーザがポインティングデバイス108によって選択したことに応じて、ソフトウェアが、ユーザの保持している画像の中から特定された人物が存在する他の画像、動画を選択し、自動的にレイアウトを作成する。この処理は、図3のS308に対応する。なお、このボタンによって、アルバムが作成されてもよい。
図4(B)は、ボタン407がユーザ操作によって選択されたことに応じて表示される、レイアウト412と、レイアウト412を印刷するためのボタン415を含んだ画面411を示している。レイアウト412は、1つ以上(図4(B)の例では3つ)のコンテンツが当てはめ可能な所定のテンプレートに、ユーザが保持している画像413が、そのコンテンツとして当てはめられて生成されたレイアウトである。なお、コンテンツとして使用される画像は、特定された人物404が含まれる画像である。なお、その人物404の名称405が、レイアウト412のタイトル414において使用されうる。ユーザが、この画面において、ポインティングデバイス108を用いてボタン415を選択すると、レイアウト412を用紙に印刷するための処理が実行される。なお、印刷処理は一般的な技術を用いて実行可能であるため、詳細な説明については省略する。
続いて、図3のS305における、取得した音声データから、人物の名称を示しうる単語を検出する処理について、図5を用いて説明する。本処理では、音声解析処理部204は、まず、動画データにおいて未特定の人物が検出された時間帯を特定する(S501)。ここでは、1つの時間帯が特定されるものとする。例えば、音声解析処理部204は、未特定の人物が検出された時間帯のうち、最初の1つの時間帯を特定しうる。なお、音声解析処理部204は、例えば、複数の時間帯を特定可能な場合、それらの複数の時間帯のうち、表示されている人物の数が少ない1つの時間帯を特定してもよい。このような表示されている人数が少ない時間帯のデータを用いて人物を特定することにより、その人物の名称の特定精度を高めることができる。なお、複数の時間帯が人物の名称の特定に用いられてもよい。この場合、複数の時間帯のうち、例えば表示されている人数が少ない方から所定数の時間帯、又は、表示されている人数が所定人数以下の時間帯などの一部の時間帯、又は全部の時間帯が特定されうる。
その後、音声解析処理部204は、動画データ201に含まれる音声データのうち、S501で特定した時間帯(及びその前後の所定長の期間)に対応するデータをテキストデータに変換する(S502)。なお、音声データのテキストデータへの変換は、公知の音声認識技術を用いて実行可能であるため、詳細の説明については省略する。そして、音声解析処理部204は、S502で得られたテキストデータにおいて、事前に用意された所定の音声検出用パターンデータを探索する(S503)。その後、音声解析処理部204は、S502で取得したテキストデータに音声検出用パターンデータが含まれていたか否かを判定する(S504)。
ここで、音声検出用パターンデータの構造について、図6を用いて説明する。図6は、音声検出用パターンデータの構造の例を示している。図6の例では、音声検出用パターンデータ601は、音声検出のための音声データ602と、その音声データで用いられている言語603と、音声データの種類604と、を示す情報を含んで構成される。音声検出用パターンデータは、テキストとして保存される。図6の1つめの例では、「こんにちは」という音声データ602が、音声検出用パターンデータであることを示している。音声解析処理部204は、例えば、「本日は晴天なり」という音声は音声検出用パターンデータのいずれにも対応しないため、S504において、音声検出用パターンデータが含まれていないと判定する。一方、音声解析処理部204は、「こんにちは、山田」という音声は、「こんにちは」の部分が音声検出用パターンデータと一致するため、S504において、音声検出用パターンデータが含まれていると判定する。なお、図6の例は一例に過ぎず、図6に含まれる例と異なる音声データが、音声検出用パターンデータとして含まれてもよい。
なお、言語603は、例えば、S503における探索で用いる音声検出量パターンデータのフィルタリングに用いることができる。例えば、S301で取得された動画データ201で使用されている言語が、英語である場合、音声解析処理部204は、言語が「日本語」の音声検出用パターンデータを、探索の対象から除外しうる。これは、例えば、英語であれば「Hello」を人物特定用パターンデータとして使用できるが、これを日本語の音声データに適用すると、「波浪」や「貼ろう」等の不適当な音声が人物特定用の音声データとして認識されてしまいうるからである。なお、音声解析処理部204は、動画データ201で使用されている言語を、動画データから特定してもよいし、プログラムにおけるユーザインタフェースの使用言語から特定してもよい。また、種類604は、音声の発信者が動画内の他者に対して音声を向ける「呼びかけ」や、音声の発信者が発信者自身の自己紹介を行う「自己紹介」などの音声検出用パターンデータの種類を指定する。これにより、例えば動画データ201内の画像の動きと種類との整合性から、音声データが画像内の人物を指しているか否かの判定等を行うことができる。
図5に戻り、音声解析処理部204は、テキストデータに音声検出用パターンデータが含まれていたと判定した場合(S504でYES)は処理をS505に進める。一方、音声解析処理部204は、テキストデータに音声検出用パターンデータが含まれていない場合(S504でNO)は処理を終了する。S505では、音声解析処理部204は、テキストデータ中の人物の名称に対応しうる単語(文字列)が含まれる位置を取得する。この文字列は、図6の602における「XXXX」の部分に対応する。その後、音声解析処理部204は、テキストデータから、この取得した位置のデータを抜き出して、人物特定用の単語として出力する(S506)。
このようにして、人物の顔が表示されている画像に対応する期間の音声データから、人物を表現していると推測される文字列を抽出することができる。なお、レイアウト作成ソフトウェアは、抽出された文字列を、この時点で人物の名称として図4の領域405に表示してもよいし、図3のS306及びS307などの動作に応じた人物特定の後の最終的な特定結果を領域405に表示してもよい。なお、領域405に表示される人物の名称は、上述のように、後にユーザ操作によって変更可能である。これは、例えば「こんにちは、いい天気ですね」という音声データに関して、S506では「いい天気ですね」を人物の名称として出力しうるが、これを人物の名称として維持し、変更できないようにするのは妥当性を欠くからである。
次に、図7を用いて、図3のS306における、S302で検出された人物の動作から人物特定用の動作の検出する処理について説明する。
本処理では、動作解析処理部203は、まず、S305において検出された音声検出用パターンデータに対応する音声データが動画データ201中で出現するタイミングに対応する一定期間分の画像を、その動画データ201の中から取得する(S701)。例えば、動作解析処理部203は、音声検出用パターンデータが検出されたフレーズのタイミングと、その前後の期間を含む一定期間分の画像を取得する。なお、この一定期間は、例えば、音声検出用パターンデータが検出されたフレーズの長さに応じて定まりうる。例えば、音声検出用パターンデータが検出されたフレーズの全体を含む期間が一定期間として特定される。また、音声検出用パターンデータが検出されたフレーズに応答して人物が動く場合を考慮して、そのフレーズが終了した後の所定期間を含むように、一定期間が定められうる。さらに、人物が動いたことに応答して音声検出用パターンデータが検出されたフレーズが発声される場合を考慮して、そのフレーズが開始する前の所定期間を含むように、一定期間が定められてもよい。
続いて、動作解析処理部203は、S701で取得した一定期間分の画像から検出される人物の動作において、動作検出用パターンを探索する(S702)。なお、人物の動作の検出には、例えば、特許文献1に記載されているような、画像に対するオブジェクト認識の技術が使用されうる。すなわち、複数の画像に対して、画像ごとに、顔や手や足の位置情報と角度情報をオブジェクトの情報として保存し、保存されたオブジェクトの情報、例えば顔に着目して、その位置情報と角度情報の変化から、動作が特定される。例えば、顔が正面を向いている際にその角度情報が0度であるとすると、−90度から90度へと、顔の向きが180度変更した場合には、顔の向きが左(又は右)から右(又は左)に変化したと判断する。なお、人物の動作の検出方法は上述のものに限られず、他の動作の検出方法が用いられてもよい。
動作検出用パターンデータは、このような人物の顔の向きや他の特徴の変化のパターンである。ここで、動作検出用パターンデータの構造について、図8を用いて説明する。図8は、動作検出用パターンデータの構造の例を示している。図8の例では、動作検出用パターンデータ801は、「呼びかけ」や「自己紹介」等の音声データの種類802と、それに関連付けられている動作を特定する動作パターン803とを示す情報を含んで構成される。例えば、音声データの種類802が「呼びかけ」の場合、関連する動作パターン803は、呼びかけの前後で「顔の向きが変化した」となる。なお、音声データの種類802は、S305で検出された音声データが対応する音声検出用パターンの種類によって定まる。例えば、「こんにちは、山田」という音声データについては、図6に示すように、「こんにちは」が音声検出用パターンに対応し、このパターンの種類「呼びかけ」である。このため、「こんにちは、山田」という音声データに関連して取得された一定期間分の画像について検出すべき動作パターンは「呼びかけの前後で顔の向きが変化した」となる。なお、図8の例は一例に過ぎず、図8に含まれる例と異なる動作パターンが、動作検出用パターンデータとして含まれてもよい。
図7に戻り、動作解析処理部203は、S701で取得した画像中の人物の動作に動作検出用パターンに該当する動作が含まれていたか否かを判定する(S703)。動作解析処理部203は、S701で取得した画像中で動作検出用パターンを検出しなかった場合(S703でNO)、音声解析処理部204がS506で出力した人物特定用の単語は、S701で取得された画像に含まれる人物の誰にも関連しないと判定しうる。この場合、動作解析処理部204は、音声解析処理部204がS506で出力した人物特定用の単語を画像に含まれる人物と関連付けることなく、処理を終了する。
一方、動作解析処理部203は、S701で取得した画像中で動作検出用パターンを検出した場合(S703でYES)、画像中でその動作検出用パターンに対応する動作を行った人物を特定する。そして、人物名称特定部205は、その特定された人物を、音声解析処理部204がS506で出力した人物特定用の単語と関連付け、画像管理部206に記憶させる(S704)。すなわち、人物名称特定部205は、音声解析処理部204がS506で出力した人物特定用の単語に関連して所定の動作を行った人物を、その単語に関連する人物であると判定する。例えば、人物名称特定部205は、「こんにちは、山田」という音声データに関連して取得された一定期間分の画像において、「呼びかけの前後で顔の向きが変化した」人物が、「山田」であると判定する。そして、この場合、画像管理部206は、動画解析処理部203が特定した人物と、「山田」とを関連付けて記憶する。
ここで、図9(A)〜図9(C)及び図10を用いて、S704の処理について説明する。図9(A)〜図9(C)は、S701で同一動画データから一定期間にわたって取得された、同一人物の顔の全体(及び体の一部)を含む画像の例を示している。なお、図9(A)は人物の顔が画面の左方向(その人物からは右方向)を向いており、図9(B)は顔が正面を向いており、図9(C)は顔が画面の右方向(その人物からは左方向)を向いている状態を示している。
ここで、音声データ「こんにちは、山田」が検出された時点で人物が図9(A)の状態であり、「こんにちは」の検出時刻後に人物が図9(B)の状態を経由して図9(C)の状態のように顔の向きを180°変えたものとする。この場合、動作解析処理部204は、振り向いたきっかけとなった音声が「こんにちは」であり、音声「こんにちは」に反応して、この人物が顔の向きを変えたと判定し、人物名称特定部205は、その後に続く「山田」が人物の名称であると判定する。したがって、この場合、画像管理部206は、この人物の顔の情報と、名称「山田」とを関連付けて記憶する。
このとき記憶される人物登録データの構造の例を、図10を用いて説明する。図10の人物登録データ1001は、例えば、ID1002、人物名称1003、動画データ名称1004、及び顔検出結果ID1005を含んで構成される。ID1002は、プログラムの内部で本データを取り扱う際に用いる、各データを一意に特定することを可能とする番号である。人物名称1003は、人物名称特定部205によって特定された人物の名称、又は、ユーザが手動で入力した名称を示す。なお、画像から顔は検出されたが名称を特定するにいたらなかった場合は、人物名称1003には、名称が未登録であることを示す情報が格納される。なお、この場合は、例えば、人物名称がユーザによって手動で入力されたことに応じて、又は、別途同一人物に関して名称が特定されることにより、人物名称1003の欄が書き換えられる。動画データ名称1004は、その人物が検出された動画データ201のファイル名を示す。顔検出結果ID1005は、S704で検出された人物の顔の情報を識別する識別子である。なお、例えば、1つの人物名称1003及び顔検出結果ID1005に対して、複数の動画データ名称が関連付けられてもよい。また、同一の動画データ名称が、複数の人物名称1003等に関連付けられてもよい。
これにより、従来は手動で行っていた人物の名称の登録が自動的に行われることとなるため、アルバムやレイアウト作成におけるソフトウェアの操作性を向上させることができる。このとき、簡素的には、人物の顔が検出された画像フレームに対応する時間の音声データに基づいて、その音声データに含まれる所定の音声データパターンを検出し、その音声データパターンに基づいて、その人物の名称を特定することができる。また、これに加えて、検出した音声データパターンに応じて画像中で人物が所定の動きを示したか否かに応じて、音声データパターンに基づいて特定した人物の名称の確度を高めることができる。
また、上述の実施形態では、アルバムやレイアウト作成において人物の名称を特定する例について説明したが、別の用途で上述の処理を使用することができる。例えば、ユーザは、人物の名称の登録対象の人物の自己紹介用の動画を作成し、音声検出用パターンデータや動作検出用パターンデータを利用して動画データを解析させることによって、その人物の登録を手動ではなく自動で行うことができる。これにより、例えば、人材管理等の用途に上述の人名特定処理を使用することができる。
(その他の実施形態)
上述の実施形態では、まず動画から人物を検出し、その人物の名称を音声データによって特定する処理の例について示したが、例えば、まず動画データ内の音声データから音声検出用パターンデータに対応する部分を抽出してもよい。この場合、音声検出用パターンデータに対応する音声データの抽出後に、抽出した音声データに対応する期間の画像に写っている人物が抽出される。この場合、名称が先に特定された後に、その名称に対応する人物が特定される点で上述の処理と異なるが、同様の効果を得ることができる。また、上述の実施形態では、S302において動画データから人物を検出する処理について説明したが、特定対象の期間をユーザが指定してもよい。例えば、長時間の動画データの全期間に関して上述の処理を実行する場合、処理に多くの時間と計算量を要しうる。これに対して、ユーザが、特定対象の人物が写っていると共にその人物の名称が音声データとして記録されている動画データの期間を事前に指定可能な場合は、その期間の動画データについてのみ上述の処理を実行すればよいこととなる。これにより、短期間かつ少ない計算量で、さらに精度の高い、特定対象の人物の名称の特定を行うことができるようになる。なお、動画データに複数の人物が写っている場合、どのユーザに関して名称の特定を行うかをユーザに指定させてもよい。これにより、特定対象外の人物についてまで上述の処理を実行する必要がなくなる。
また、上述の実施形態では「人物」の名称の特定について説明したが、例えばペット等の動物や、別のオブジェクトが名称の特定対象であってもよい。例えば、ペットの撮影時に、そのペットの名前を呼ぶことによって、そのペットの名称を自動で特定することができる。なお、この場合、ペットは予想される動きをしない可能性がある。このため、例えば、動作検出用パターンが検出されなかった場合であっても、同じ動画データにおいて、同じオブジェクトが写っている間に、同じ名称が所定回数呼ばれた場合等において、その呼ばれた名称がそのオブジェクトの名称であると判定されてもよい。このように、上述の処理を繰り返し実行し、その繰り返し実行した結果を総合的に評価して、人物(オブジェクト)の名称を特定してもよい。このとき、同じ人物(オブジェクト)が写っている間に、異なる名称が特定される場合がありうる。すなわち、同じ人物(オブジェクト)が写っている2つ以上の期間において、音声検出用パターンに対応する音声データがそれぞれ検出され、かつ、特定される名称が異なる場合がありうる。この場合、例えば、その人物(オブジェクト)が写っている他の期間について、さらに音声検出用パターンの探索を行い、その結果に応じて、例えば多数決によって、その人物(オブジェクト)の名称を特定してもよい。このように、処理を複数回実行することにより、名称の特定精度を高めることができる。
また、上述の実施形態では、音声データをテキストデータ化し、そのテキストデータに所定の文字列が含まれているか否かによって、音声検出用パターンが含まれているか否かを判定する例について示した。しかしながら、必ずしもこれに限られず、例えば、音声データの波形に基づいて判定が行われてもよい。また、テキストデータについて判定を行う際に、音声検出用パターンのテキストとの一致率が所定値以上である場合に一致と判定してもよく、必ずしも一致率が100%でなくてもよい。また、例えば幼児の発音等に対応するための音声検出用パターンデータが用意されてもよい。さらに、例えば撮影者の声を事前に登録しておき、撮影者が呼びかけている名称が、被写体の人物(オブジェクト)の名称であると判定されてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
101:情報処理装置、102:CPU、103:ROM、104:RAM、112:外部記憶装置、202:画像解析処理部、203:動作解析処理部、204:音声解析処理部、205:人物名称特定部、206:画像管理部

Claims (16)

  1. 画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理装置であって、
    前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間における前記音声データが所定の検出用パターンに対応する音声を含んでいることに基づいて、当該期間における音声データを用いて前記オブジェクトの名称を特定する特定手段を有する、
    ことを特徴とする情報処理装置。
  2. 前記画像データにおける前記オブジェクトが、前記所定の検出用パターンに応じた動作を行っているか否かを判定する第1の判定手段をさらに有し、
    前記特定手段は、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでおり、かつ、前記オブジェクトが当該期間の音声データに応じて前記所定の検出用パターンに応じた動作をしている場合に、前記期間における音声データを用いて前記オブジェクトの名称を特定する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の判定手段は、前記期間における音声データが第1の所定の検出用パターンに対応する音声を含んでいる場合には、前記画像データにおいて前記オブジェクトが第1の動作を行っているか否かを判定し、前記期間における音声データが第2の所定の検出用パターンに対応する音声を含んでいる場合には、前記画像データにおいて前記オブジェクトが第2の動作を行っているか否かを判定する、
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記期間における音声データをテキストデータに変換する変換手段と、
    前記テキストデータが前記所定の検出用パターンに対応する文字列を含んでいるかに応じて、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでいるか否かを判定する第2の判定手段と、
    をさらに有することを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記第2の判定手段は、前記動画データで用いられる言語に応じて前記所定の検出用パターンをフィルタリングして用いる、
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記第2の判定手段は、前記音声データに基づいて前記言語を判定する、
    ことを特徴とする請求項5に記載の情報処理装置。
  7. 前記第2の判定手段は、前記テキストデータが、前記所定の検出用パターンに対応する文字列との一致率が所定値以上である文字列を含んでいる場合、前記期間における音声データが前記所定の検出用パターンに対応する音声を含んでいると判定する、
    ことを特徴とする請求項4から6のいずれか1項に記載の情報処理装置。
  8. 前記画像データから、名称を特定すべき前記オブジェクトを検出する検出手段をさらに有する、
    ことを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
  9. 前記特定手段が特定した名称と前記オブジェクトの画像とを関連付けて表示手段に表示させる手段をさらに有する、
    ことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。
  10. 前記オブジェクトの名称を変更するためのユーザ操作の入力を受け付ける入力手段をさらに有する、
    ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。
  11. 前記オブジェクトは人物である、
    ことを特徴とする請求項1から10のいずれか1項に記載の情報処理装置。
  12. 前記オブジェクトと、当該オブジェクトの名称とを関連付けて記憶する記憶手段をさらに有する、
    ことを特徴とする請求項1から11のいずれか1項に記載の情報処理装置。
  13. 前記記憶手段に記憶された情報を用いて、アルバムとレイアウトとの少なくともいずれかを自動で作成する作成手段をさらに有する、
    ことを特徴とする請求項12に記載の情報処理装置。
  14. 画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する情報処理システムであって、
    前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定する特定手段を有する、
    ことを特徴とする情報処理システム。
  15. 画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する方法であって、
    特定手段が、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定する特定工程を有する、
    ことを特徴とする方法。
  16. コンピュータに、画像データと音声データとを含んだ動画データを用いて、前記画像データに写っているオブジェクトの名称を特定する方法であって、前記画像データにおいて前記オブジェクトが写っている時刻に対応する期間の前記音声データが、所定の検出用パターンに対応する音声を含んでいることに基づいて、当該音声データを用いて前記オブジェクトの名称を特定させるための方法を実行させるためのプログラム。
JP2016229186A 2016-11-25 2016-11-25 情報処理装置、情報処理システム、方法、及びプログラム Pending JP2018084761A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016229186A JP2018084761A (ja) 2016-11-25 2016-11-25 情報処理装置、情報処理システム、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016229186A JP2018084761A (ja) 2016-11-25 2016-11-25 情報処理装置、情報処理システム、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2018084761A true JP2018084761A (ja) 2018-05-31

Family

ID=62236718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016229186A Pending JP2018084761A (ja) 2016-11-25 2016-11-25 情報処理装置、情報処理システム、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2018084761A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195105A1 (ja) * 2022-04-06 2023-10-12 日本電信電話株式会社 付与装置、付与方法および付与プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023195105A1 (ja) * 2022-04-06 2023-10-12 日本電信電話株式会社 付与装置、付与方法および付与プログラム

Similar Documents

Publication Publication Date Title
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
CN110475069B (zh) 图像的拍摄方法及装置
TW201523426A (zh) 顯示於觸控螢幕上的可動作內容
JP2013527947A5 (ja)
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
US11281707B2 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
CN111785279A (zh) 视频说话人的识别方法、装置、计算机设备及存储介质
US10002610B2 (en) Presentation supporting device, presentation supporting method, and computer-readable recording medium
JP6339529B2 (ja) 会議支援システム、及び会議支援方法
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
KR102171657B1 (ko) 인공지능을 이용한 문맥 파악 기반의 동영상 편집 방법 및 시스템
CN112633208A (zh) 一种唇语识别方法、服务设备及存储介质
JP6095381B2 (ja) データ処理装置、データ処理方法及びプログラム
EP3866475A1 (en) Image text broadcasting method and device, electronic circuit, and computer program product
KR20160089184A (ko) 음성 인식 장지 및 방법
WO2016152200A1 (ja) 情報処理システムおよび情報処理方法
KR102440198B1 (ko) 시각 검색 방법, 장치, 컴퓨터 기기 및 저장 매체 (video search method and apparatus, computer device, and storage medium)
US10347299B2 (en) Method to automate media stream curation utilizing speech and non-speech audio cue analysis
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
US10123090B2 (en) Visually representing speech and motion
EP3186953B1 (en) Method and apparatus for determining the capture mode following capture of the content
JP2018084761A (ja) 情報処理装置、情報処理システム、方法、及びプログラム
US11978252B2 (en) Communication system, display apparatus, and display control method
CN114391260A (zh) 文字识别方法、装置、存储介质及电子设备
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム