JP2016189158A

JP2016189158A - 画像処理装置、画像処理方法、プログラムおよび記録媒体

Info

Publication number: JP2016189158A
Application number: JP2015069473A
Authority: JP
Inventors: 一輝大島; Kazuki Oshima
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2016-11-04
Also published as: US20160292898A1; US9704279B2

Abstract

【課題】フレーム画像と、フレーム画像に存在する人物の音声に対応する文字列の文字画像とを簡単に合成して、色々なバリエーションの合成画像を生成することができる画像処理装置等を提供する。【解決手段】画像処理装置では、表示部が、関連情報に基づいて、中心人物を示すアイコンと中心人物の音声に対応する文字列との関連情報を表示する。指示受付部が、ユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示を受け付けると、合成部が、対象人物指定指示に応じて、対象人物が存在する任意の時刻のフレーム画像と、任意の時間帯の対象人物の音声に対応する文字列の文字画像とを合成して合成画像を生成する。【選択図】図２

Description

本発明は、動画像から抽出されたフレーム画像とフレーム画像に存在する人物の音声に対応する文字列の文字画像とを合成して合成画像を生成する画像処理装置、画像処理方法、プログラムおよび記録媒体に関するものである。

昨今、スマートフォンやタブレット端末等の携帯端末の普及が急速に進んでおり、携帯端末で撮影される静止画像（写真）の枚数が増えているが、それと同時に動画像が撮影される機会も多くなっている。現在では、動画像を利用したサービスとして、非特許文献１に示すように、写真等のプリント物を携帯端末で撮影（キャプチャ）すると、プリント物に関連付けられた動画像を、ＡＲ（Augmented Reality, 拡張現実）技術を使って、携帯端末の画面上に再生（ＡＲ再生）するシステムが提供されている。

このシステムでは、以下の（１）〜（６）のステップで、プリントに関連付けられた動画像のＡＲ再生が行われる。

（１）ユーザにより、携帯端末上で動作する専用のアプリケーションを使用して、複数の動画像の中からプリントに使用したい動画像が選択されると、選択された動画像がサーバへアップロードされる。
（２）サーバにおいて、携帯端末からアップロードされた動画像から代表フレーム画像が抽出される。
（３）サーバで抽出された代表フレーム画像が携帯端末へダウンロードされる。
（４）ユーザにより、携帯端末の画面に一覧表示された代表フレーム画像の中からプリントしたいフレーム画像が選択され、プリントの注文が行われる。
（５）サーバにおいて、ユーザにより注文されたフレーム画像のプリント（以下、動画プリントともいう）が生成され、このフレーム画像に関連付けられた動画像がＡＲ再生用に画像処理される。
（６）ユーザにより、配達されたプリントが携帯端末で撮影（キャプチャ）されると、このプリントに関連付けられたＡＲ再生用の動画像がサーバからダウンロードされ、ＡＲ技術により、携帯端末の画面にＡＲ再生される。

上記のシステムのように、動画像から抽出されたフレーム画像をプリントするシステムでは、動画像から抽出されたままの状態のフレーム画像のプリントが生成される。

これに対し、特許文献１〜３には、動画像からフレーム画像および音声を抽出し、フレーム画像から人物を抽出するとともに、音声を文字列に変換し、フレーム画像と、フレーム画像に存在する人物の音声に対応する文字列とを吹き出しの形式によって合成して合成画像を生成することが記載されている。また、特許文献４、５には、音声から、性別および年齢を判別することが記載され、特許文献５には、さらに、映像から、性別および年齢を判別することが記載されている。

特開２００３−８５５７２号公報特許第４２２６２３７号公報特開２０１２−２４９２１１号公報特開２０１４−９５７５３号公報特許第４８８１９８０号公報

"動画フォト！サービス"、[online]、富士フイルム株式会社、[平成２７年２月９日検索]、インターネット＜URL: http://fujifilm.jp/personal/print/photo/dogaphoto/＞

特許文献１〜３では、フレーム画像と、フレーム画像に存在する人物の音声に対応する文字列とを吹き出しの形式によって合成することにより、合成画像の魅力を向上させることができる。しかし、これらの文献では、フレーム画像と、フレーム画像が撮影された時刻の音声に対応する文字列とが合成され、例えば、それ以外の時刻の音声に対応する文字列を合成することができない。そのため、合成画像にバリエーションがないという問題があった。

一方、フレーム画像と、フレーム画像が撮影された時刻以外の時刻の音声に対応する文字列とを合成する場合、動画像から抽出された音声の中から、音声に対応する文字列を合成しようとするフレーム画像に存在する人物の音声を選択する必要がある。しかし、動画像に複数の人物が存在する場合、どの人物の音声なのかを判別したり、その人物の複数の音声の中から所望の音声を選択したりするために、手間がかかるという問題があった。

本発明の目的は、従来技術の問題点を解消し、フレーム画像と、フレーム画像に存在する人物の音声に対応する文字列の文字画像とを簡単に合成して、色々なバリエーションの合成画像を生成することができる画像処理装置、画像処理方法、プログラムおよび記録媒体を提供することにある。

上記目的を達成するために、本発明は、動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
検出された人物領域に対応する人物を特定する人物特定部と、
抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出する人物評価部と、
特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定する中心人物判定部と、
動画像から音声を抽出する音声抽出部と、
音声を音声認識により文字列データに変換する音声認識部と、
中心人物と中心人物の音声との関連情報を生成する関連付け部と、
関連情報に基づいて、中心人物を示すアイコンと中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
フレーム画像と文字列に対応する文字画像とを合成する合成部とを備え、
指示受付部は、さらに、アイコンのうちユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
合成部は、さらに、対象人物指定指示に応じて、対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、合成用フレーム画像と合成用文字列に対応する文字画像とを合成して合成画像を生成するものである、画像処理装置を提供するものである。

指示受付部は、さらに、表示部に表示された関連情報に対して、関連情報を修正する修正指示を受け付けるものであり、
関連付け部は、さらに、修正指示に応じて、関連情報を修正するものであることが好ましい。

さらに、対象人物指定指示に応じて、対象人物が存在するフレーム画像の中から、代表フレーム画像を決定する代表フレーム画像決定部と、
対象人物指定指示に応じて、対象人物の音声の文字列データに対応する文字列の中から、代表文字列を決定する代表文字列決定部とを備え、
合成部は、代表フレーム画像と代表文字列に対応する文字画像とを合成するものであることが好ましい。

また、代表フレーム画像決定部は、対象人物が存在するフレーム画像の中から、色味、明るさ、および、ボケブレのうちの少なくとも１つが一定範囲内であるフレーム画像を、代表フレーム画像に決定するものであることが好ましい。

また、代表フレーム画像決定部は、対象人物が存在するフレーム画像の中から、対象人物の顔の大きさおよび向きのうちの少なくとも１つが一定範囲内であり、かつ、対象人物の表情が笑顔であるフレーム画像を、代表フレーム画像に決定するものであることが好ましい。

また、代表フレーム画像決定部は、対象人物が存在するフレーム画像の中から、対象人物の発話シーン、動きが大きいシーンおよび音声が大きいシーンのうちの少なくとも１つのフレーム画像を、代表フレーム画像に決定するものであることが好ましい。

また、代表文字列決定部は、対象人物の音声の文字列データに対応する文字列の中から、対象人物の声の大きさおよび声の高さの少なくとも１つが一定範囲内である音声の文字列データに対応する文字列を、代表文字列に決定するものであることが好ましい。

また、代表文字列決定部は、対象人物の音声の文字列データに対応する文字列の中から、最も登場頻度の高い言葉の音声の文字列データに対応する文字列を、代表文字列に決定するものであることが好ましい。

表示部は、さらに、対象人物が存在する代表フレーム画像、および、対象人物が存在するフレーム画像であって代表フレーム画像以外のフレーム画像を表示するものであり、
指示受付部は、さらに、表示部に表示されたフレーム画像の中から、ユーザにより入力されたフレーム画像を指定するフレーム画像指定指示を受け付けるものであり、
代表フレーム画像決定部は、さらに、フレーム画像指定指示に応じて、ユーザにより指定されたフレーム画像を、代表フレーム画像に再決定するものであることが好ましい。

表示部は、さらに、代表文字列、および、対象人物の音声の音声データに対応する文字列であって代表文字列以外の文字列を表示するものであり、
指示受付部は、さらに、表示部に表示された文字列の中から、ユーザにより入力された文字列を指定する文字列指定指示を受け付けるものであり、
代表文字列決定部は、さらに、文字列指定指示に応じて、ユーザにより指定された文字列を、代表文字列に再決定するものであることが好ましい。

また、音声認識部は、動画像から抽出された音声のうち、対象人物の音声を優先して文字列データに変換するものであることが好ましい。

音声抽出部は、さらに、動画像から抽出された音声からノイズを除去するノイズキャンセリングを行うものであることが好ましい。

また、関連付け部は、中心人物が存在するフレーム画像の人物領域から、中心人物の性別および年齢を判定するとともに、中心人物の音声の高低から、音声に対応する人物の性別および年齢を判定し、中心人物の性別および年齢と音声に対応する人物の性別および年齢とが合致するように、関連情報を生成するものであることが好ましい。

また、関連付け部は、関連情報を生成する場合に、人間の声の音域以外の音域の音声を使用しないものであることが好ましい。

また、関連付け部は、動画像が、付帯情報として、動画像に存在する人物と動画像に存在する人物の音声との関連付けの指示データを有するか否かを判断し、動画像が関連付けの指示データを有すると判断したときに、関連付けの指示データに基づいて関連情報を生成するものであることが好ましい。

また、合成部は、文字列を、吹き出し、テロップおよび字幕のうちのいずれか１つの形式によって合成するものであることが好ましい。

また、合成部は、文字列の内容に応じて、文字列の書体を変更するものであることが好ましい。

また、合成部は、文字列の文字画像が合成された複数のフレーム画像を含む合成画像を生成するものであることが好ましい。

また、本発明は、動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
検出された人物領域に対応する人物を特定する人物特定部と、
抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出する人物評価部と、
特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定する中心人物判定部と、
動画像から音声を抽出する音声抽出部と、
音声を音声認識により文字列データに変換する音声認識部と、
中心人物と中心人物の音声との関連情報を生成し、さらに、フレーム画像に存在していない人物で、かつ、動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、非被写体人物と非被写体人物の音声との関連情報を生成する関連付け部と、
関連情報に基づいて、中心人物および非被写体人物を示すアイコンと中心人物および非被写体人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
フレーム画像と文字列に対応する文字画像とを合成する合成部とを備え、
指示受付部は、さらに、アイコンのうちユーザにより選択されたアイコンに対応する中心人物または非被写体人物を、合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
合成部は、さらに、対象人物指定指示に応じて、対象人物の音声が存在する任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、中心人物が存在する任意の時刻における合成用フレーム画像を読み出し、合成用文字列に対応する文字画像と合成用フレーム画像とを合成して合成画像を生成するものである、画像処理装置を提供する。

また、本発明は、動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
検出された人物領域に対応する人物を特定する人物特定部と、
抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出する人物評価部と、
特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定する中心人物判定部と、
動画像から音声を抽出する音声抽出部と、
音声を音声認識により文字列データに変換する音声認識部と、
中心人物と中心人物の音声との関連情報を生成し、さらに、フレーム画像に存在していない人物で、かつ、動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、非被写体人物と非被写体人物の音声との関連情報を生成する関連付け部と、
関連情報に基づいて、中心人物を示すアイコンと中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
フレーム画像と文字列に対応する文字画像とを合成する合成部とを備え、
指示受付部は、さらに、アイコンのうちユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
合成部は、さらに、対象人物指定指示に応じて、対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における中心人物と非被写体人物とのうちの任意の一人の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、合成用フレーム画像と合成用文字列に対応する文字画像とを合成して合成画像を生成するものである、画像処理装置を提供する。

合成部は、さらに、合成用文字列を、合成画像の下方向を指し示す吹き出しの形式で合成するものであることが好ましい。

また、本発明は、フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出するステップと、
人物特定部が、検出された人物領域に対応する人物を特定するステップと、
人物評価部が、抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出するステップと、
中心人物判定部が、特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定するステップと、
音声抽出部が、動画像から音声を抽出するステップと、
音声認識部が、音声を音声認識により文字列データに変換するステップと、
関連付け部が、中心人物と中心人物の音声との関連情報を生成するステップと、
表示部が、関連情報に基づいて、中心人物を示すアイコンと中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、表示部に表示された関連情報に対して、ユーザにより入力された関連情報を修正する修正指示を受け付けるステップと、
関連付け部が、さらに、修正指示に応じて、関連情報を修正するステップと、
指示受付部が、さらに、アイコンのうちユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、対象人物指定指示に応じて、対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、合成用フレーム画像と合成用文字列に対応する文字画像とを合成して合成画像を生成するステップとを含む、画像処理方法を提供する。

さらに、指示受付部が、表示部に表示された関連情報に対して、関連情報を修正する修正指示を受け付けるステップと、
関連付け部が、修正指示に応じて、関連情報を修正するステップとを含むことが好ましい。

さらに、代表フレーム画像決定部が、対象人物指定指示に応じて、対象人物が存在するフレーム画像の中から、代表フレーム画像を決定するステップと、
代表文字列決定部が、対象人物指定指示に応じて、対象人物の音声の文字列データに対応する文字列の中から、代表文字列を決定するステップとを含み、
合成部は、代表フレーム画像と代表文字列に対応する文字画像とを合成することが好ましい。

表示部が、さらに、対象人物が存在する代表フレーム画像、および、対象人物が存在するフレーム画像であって代表フレーム画像以外のフレーム画像を表示するステップと、
指示受付部が、さらに、表示部に表示されたフレーム画像の中から、ユーザにより入力されたフレーム画像を指定するフレーム画像指定指示を受け付けるステップと、
代表フレーム画像決定部が、さらに、フレーム画像指定指示に応じて、ユーザにより指定されたフレーム画像を、代表フレーム画像に再決定するステップとを含むことが好ましい。

表示部が、さらに、代表文字列、および、対象人物の音声の音声データに対応する文字列であって代表文字列以外の文字列を表示するステップと、
指示受付部が、さらに、表示部に表示された文字列の中から、ユーザにより入力された文字列を指定する文字列指定指示を受け付けるステップと、
代表文字列決定部が、さらに、文字列指定指示に応じて、ユーザにより指定された文字列を、代表文字列に再決定するステップとを含むことが好ましい。

また、本発明は、フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出するステップと、
人物特定部が、検出された人物領域に対応する人物を特定するステップと、
人物評価部が、抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出するステップと、
中心人物判定部が、特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定するステップと、
音声抽出部が、動画像から音声を抽出するステップと、
音声認識部が、音声を音声認識により文字列データに変換するステップと、
関連付け部が、中心人物と中心人物の音声との関連情報を生成し、さらに、フレーム画像に存在していない人物で、かつ、動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、非被写体人物と非被写体人物の音声との関連情報を生成するステップと、
表示部が、関連情報に基づいて、中心人物および非被写体人物を示すアイコンと中心人物および非被写体人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、アイコンのうちユーザにより選択されたアイコンに対応する中心人物または非被写体人物を、合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、対象人物指定指示に応じて、対象人物の音声が存在する任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、中心人物が存在する任意の時刻における合成用フレーム画像を読み出し、合成用文字列に対応する文字画像と合成用フレーム画像とを合成して合成画像を生成するステップとを含む、画像処理方法を提供する。

また、本発明は、フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、フレーム画像に存在する人物の少なくとも一部の領域を検出するステップと、
人物特定部が、検出された人物領域に対応する人物を特定するステップと、
人物評価部が、抽出された複数のフレーム画像の少なくとも一部における人物領域を特定された人物ごとに評価して、動画像における特定された人物の評価点を算出するステップと、
中心人物判定部が、特定された人物の評価点が一定値を超えた場合に、特定された人物が動画像における中心人物であると判定するステップと、
音声抽出部が、動画像から音声を抽出するステップと、
音声認識部が、音声を音声認識により文字列データに変換するステップと、
関連付け部が、中心人物と中心人物の音声との関連情報を生成し、さらに、フレーム画像に存在していない人物で、かつ、動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、非被写体人物と非被写体人物の音声との関連情報を生成するステップと、
表示部が、関連情報に基づいて、中心人物を示すアイコンと中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、表示部に表示された関連情報に対して、ユーザにより入力された関連情報を修正する修正指示を受け付けるステップと、
関連付け部が、さらに、修正指示に応じて、関連情報を修正するステップと、
指示受付部が、さらに、アイコンのうちユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、対象人物指定指示に応じて、対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における中心人物と非被写体人物とのうちの任意の一人の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、合成用フレーム画像と合成用文字列に対応する文字画像とを合成して合成画像を生成するステップとを含む、画像処理方法を提供する。

また、本発明は、上記に記載の画像処理方法の各々のステップをコンピュータに実行させるためのプログラムを提供する。

また、本発明は、上記に記載の画像処理方法の各々のステップをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供する。

本発明によれば、フレーム画像と、動画像内の人物の音声の文字列データに対応する文字列の文字画像とを合成することにより、合成画像の魅力を向上させることができる。また、関連情報を用いて人物と音声の関連付けが行われているので、人物と音声の対応を視認でき、フレーム画像と音声に対応する文字列データの選択を容易にかつ自由に行うことができる。

また、本発明では、中心人物とその中心人物の音声との関連付けが行われ、対象人物の代表フレーム画像および代表文字列が自動で決定される。ユーザは、自動で決定された対象人物の代表フレーム画像および代表文字列をそのまま選択することもできるし、あるいは、表示部に表示された、それ以外の対象人物のフレーム画像および文字列の中から、任意の時刻におけるフレーム画像および任意の時間帯における文字列を自由に選択することができる。

このように、対象人物が存在する任意の時刻におけるフレーム画像と、任意の時間帯における対象人物の音声の文字列データに対応する文字列の文字画像とを合成することができるため、本発明によれば、様々なバリエーションの合成画像を生成することができる。また、ユーザは、対象人物が存在する任意の時刻におけるフレーム画像と、フレーム画像に存在する人物の任意の時間帯における音声に対応する文字列の文字画像とを簡単に選択して合成することができる。

本発明の画像処理装置の構成を表す一実施形態のブロック図である。図１に示すサーバの構成を表す一実施形態のブロック図である。図１に示す携帯端末の内部構成を表す一実施形態のブロック図である。ＡＲコンテンツを生成し、合成画像の出力画像（動画プリント）を出力する場合の画像処理装置の動作を表す一例のフローチャートである。図４に続く、画像処理装置の動作を表す一例のフローチャートである。図５に続く、画像処理装置の動作を表す一例のフローチャートである。ＡＲ再生用の動画像を生成し、再生表示する場合の画像処理装置の動作を表す一例のフローチャートである。中心人物と、その音声との関連情報を修正する画面を表す一例の概念図である。対象人物の代表フレーム画像を修正する画面を表す一例の概念図である。対象人物の代表文字列を修正する画面を表す一例の概念図である。対象人物の代表フレーム画像と、対象人物の代表文字列とが吹き出しの形式によって合成された合成画像の一例を表す概念図である。非被写体人物と、その音声との関連情報を表す一例の概念図である。

以下に、添付の図面に示す好適実施形態に基づいて、本発明の画像処理装置、画像処理方法、プログラムおよび記録媒体を詳細に説明する。

図１は、本発明の画像処理装置の構成を表す一実施形態のブロック図である。同図に示す画像処理装置１０は、動画像から抽出されたフレーム画像と、フレーム画像に存在する人物の音声に対応する文字列の文字画像とを合成して合成画像を生成し、合成画像の出力画像（動画プリント）が撮影（キャプチャ）された場合に、出力画像に関連付けられた動画像を再生表示するものである。

画像処理装置１０は、サーバ１２と、携帯端末１４と、プリンタ１６とを備えている。サーバ１２、携帯端末１４およびプリンタ１６は、インターネット等のネットワーク１８を介して互いに接続されている。

図２は、図１に示すサーバの構成を表す一実施形態のブロック図である。図２に示すサーバ１２は、フレーム画像抽出部２０と、人物領域検出部２２と、人物特定部２３と、人物評価部２４と、中心人物判定部２６と、音声抽出部２８と、音声認識部３０と、関連付け部３２と、代表フレーム画像決定部３４と、代表文字列決定部３６と、合成部３８と、コンテンツ生成部４０と、記憶部４２と、撮影画像解析部４４と、管理マーカ特定部４６と、動画像処理部４８と、第１転送部５０とを備えている。

フレーム画像抽出部２０は、動画像から複数のフレーム画像を抽出するものである。

ここで、動画像からフレーム画像を抽出する方法は何ら限定されない。例えば、動画像からユーザが手動で所望のフレーム画像を抽出してもよいし、動画像からあらかじめ設定された一定の時間間隔でフレーム画像を抽出してもよい。

あるいは、ＫＦＥ（Key Frame Extraction）技術を利用して、シーンの変わり目などのキーとなるフレーム画像を抽出してもよい。ＫＦＥでは、例えば、動画像の各々のフレーム画像を解析し、フレーム画像の色味、明るさ、ボケやブレ等を検出し、色味や明るさが大きく変わる前後のフレーム画像や、適正露出によりボケやブレがないフレーム画像が抽出される。

また、動画像において人物の顔の大きさや向き、顔の表情（笑顔、泣き顔等）を検出し、それらに基づいてフレーム画像を抽出してもよい。さらに、動画像に音声が含まれる場合には、音声が大きくなった時刻（タイムコード）の前後の動画像からフレーム画像を抽出してもよい。上述の方法で動画像からフレーム画像を抽出することで、動画像の代表的なシーンをフレーム画像として抽出することができる。

人物領域検出部２２は、フレーム画像抽出部２０により動画像から抽出されたフレーム画像に存在する人物の少なくとも一部の領域、例えば、顔領域を人物領域として検出するものである。

なお、フレーム画像に存在する人物の領域を検出する方法は公知であり、その具体的な検出方法は何ら限定されない。また、顔領域は顔そのものでなくてもよい。例えば、顔を含む四角形の領域を切り取ったものでもよい。

人物特定部２３は、人物領域検出部２２により検出された人物領域に対応する人物を特定するものである。
人物特定部２３は、人物領域に対応する人物が具体的に誰なのかを特定する必要はなく、異なる人物が人物領域に存在する場合に、人物領域に存在する人物毎に、異なる人物であるということを特定することができればよい。また、人物の特定について、内部では顔データそのものでなく、特徴量で管理してもよい。

なお、人物領域（静止画像）から、人物領域に対応する人物を特定する具体的な特定方法は何ら限定されない。

人物評価部２４は、人物領域検出部２２により検出された、複数のフレーム画像の少なくとも一部における人物領域を、人物特定部２３により特定された人物ごとに評価して、動画像における特定された人物の評価点を算出するものである。

なお、人物領域を評価して、人物領域に存在する人物の評価点を算出する具体的な方法は何ら限定されないが、例えば、人物領域に含まれる人物の顔、人物領域のボケブレ、色味、明るさ等に基づいて評価を行うことができる。例えば、人物の顔のサイズが閾値以上である、人物の顔が正面を向いている、笑顔である場合、ボケブレの程度があらかじめ設定された閾値未満である場合、色味や明るさ、目の開き具合があらかじめ設定された一定範囲内である場合等に、人物の評価点を高くする。

中心人物判定部２６は、人物特定部２３により特定された人物の評価点が、あらかじめ設定された一定値を超えた場合に、その特定された人物が動画像における中心人物であると判定するものである。中心人物は、一人でも、複数人であっても構わない。

なお、中心人物の具体的な判定方法は、例えば、複数の人物領域に含まれる人物に対して同一人物判定処理が行われ、複数の人物領域が、同一人物の人物領域からなる複数の人物のグループに分類される。同一人物判定処理も公知であり、画像解析により、同一人物か否かの判定が行われる。そして、グループ内の人物領域に含まれる人物の評価点の合計値が算出され、合計値が一定値を超えた人物が中心人物であると判定される。

音声抽出部２８は、動画像から音声を抽出するものである。
また、音声認識部３０は、音声抽出部２８により動画像から抽出された音声を音声認識により文字列データに変換するものである。

なお、特許文献４、５のように、動画像から音声を抽出する方法および音声を音声認識により文字列データに変換する具体的な方法は何ら限定されない。
続いて、音声認識部３０は、得られた文字列データを、短い時間帯毎に区切って保存する。具体的には、文字列データの占める時刻を取得し、文字列データが存在しない時間が一定値（例えば１秒）を超えた場合、その時間の前後はそれぞれ異なる文字列データとして、記憶部４２において保存する。
また、音声抽出部２８は、動画像から抽出された音声からノイズを除去するノイズキャンセリングを行うことが望ましい。これにより、音声認識部３０による音声認識の精度を向上させることができる。

関連付け部３２は、中心人物判定部２６により判定された中心人物と、音声抽出部２８により動画像から抽出された、その中心人物の音声との関連付けを表す関連情報を生成するものである。

関連付け部３２が、中心人物と、その中心人物の音声との関連情報を生成する方法は、例えば、中心人物が存在するフレーム画像の人物領域から、中心人物の性別および年齢を判定するとともに、中心人物の音声の高低から、音声に対応する人物の性別および年齢を判定する。そして、中心人物の性別および年齢と音声に対応する人物の性別および年齢とが合致するように、関連情報を生成することができる。

また、関連付け部３２は、関連情報を生成する場合に、人間の声の音域、例えば、１００Ｈｚ〜４０００Ｈｚの音域以外の音域の音声を使用しないことが望ましい。これにより、関連情報の精度を向上させることができる。

代表フレーム画像決定部３４は、後述する、合成の対象人物を指定する対象人物指定指示に応じて、対象人物が存在するフレーム画像の中から、対象人物の代表的なシーンに対応する代表フレーム画像を決定するものである。

なお、対象人物が存在するフレーム画像の中から、対象人物の代表フレーム画像を決定する方法は、例えば、対象人物が存在するフレーム画像の中から、色味、明るさ、および、ボケブレのうちの少なくとも１つがあらかじめ設定された一定範囲内であるフレーム画像、対象人物の顔の大きさおよび向きのうちの少なくとも１つがあらかじめ設定された一定範囲内であり、かつ、対象人物の表情が笑顔であるフレーム画像、あるいは、代表人物の発話シーン、動きが大きいシーンおよび音声が大きいシーンのうちの少なくとも１つのフレーム画像を、対象人物の代表フレーム画像に決定することができる。

代表文字列決定部３６は、対象人物指定指示に応じて、対象人物の音声の文字列データに対応する文字列の中から、対象人物の代表的な音声に対応する代表文字列を決定するものである。

代表文字列決定部３６が、対象人物の音声の文字列データに対応する文字列の中から、対象人物の代表文字列を決定する方法は、例えば、対象人物の音声の文字列データに対応する文字列の中から、対象人物の声の大きさおよび声の高さのうちの少なくとも１つがあらかじめ設定された一定範囲内である音声の文字列データに対応する文字列、あるいは、最も登場頻度の高い言葉の音声の文字列データに対応する文字列を、代表文字列に決定することができる。

合成部３８は、対象人物指定指示に応じて、対象人物のフレーム画像と、その音声の文字列データに対応する文字列の文字画像とを合成して合成画像を生成するものである。
例えば、合成部３８は、フレーム画像抽出部２０により動画像から抽出された複数のフレーム画像の中から、対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、音声抽出部２８により動画像から抽出された音声の文字列データに対応する文字列の中から、任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、合成用フレーム画像と合成用文字列に対応する文字画像とを合成して合成画像を生成する。
また、合成部３８は、代表フレーム画像決定部３４により決定された対象人物の代表フレーム画像と、代表文字列決定部３６により決定された対象人物の代表文字列に対応する文字画像とを合成する。

ここで、合成用文字列を合成する時の形式は例えば、文字列を、吹き出し、テロップ、字幕のうちのいずれか１つの形式によって合成することができる。また、文字列の内容に応じて、文字列の書体を変更してもよい。さらに、４コマ漫画のように、文字列の文字画像が合成された複数のフレーム画像を含む合成画像を生成してもよい。これにより、様々なバリエーションの合成画像を生成することができる。

コンテンツ生成部４０は、動画像と、合成部３８により合成された合成画像またはその特定情報とが関連付けられたＡＲコンテンツを生成するものである。

記憶部４２は、各種のデータを記憶するものである。
記憶部４２には、例えば、携帯端末１４から送信されてきた動画像等の他、例えば、コンテンツ生成部４０により生成されたＡＲコンテンツ、つまり、合成画像またはその特定情報が、合成画像の管理マーカとして、動画像と関連付けて記憶される。

ここで、管理マーカとは、あらかじめ決定されたアルゴリズムに基づいて静止画像の画像解析を行うことにより、静止画像から読み取られる画像の特徴量であり、例えば、静止画像に撮影された撮影対象のエッジ情報やエッジの位置情報等が含まれる。管理マーカは、静止画像そのものであってもよいし、静止画像を特定するための特定情報でもよい。静止画像の特定情報は、撮影画像から合成画像を特定することができる情報であれば、どのような情報であってもよい。

撮影画像解析部４４は、後述するように、合成画像の出力画像（動画プリント）が撮影（キャプチャ）されて取得された撮影画像の画像解析を行って、撮影画像の管理マーカを得るものである。

管理マーカ特定部４６は、記憶部４２に記憶された合成画像の管理マーカの中から、撮影画像解析部４４により得られた撮影画像の管理マーカに対応する合成画像の管理マーカを特定管理マーカとして特定するものである。管理マーカ特定部４６は、例えば、撮影画像の管理マーカに基づいて、記憶部４２に記憶された合成画像の管理マーカを検索することにより、撮影画像の管理マーカに対応する合成画像の管理マーカを特定する。

動画像処理部４８は、特定管理マーカに関連付けられた関連動画像から、ＡＲ再生用の動画像を生成するものである。つまり、動画像処理部４８は、特定管理マーカ、すなわち、合成画像またはその特定情報に基づいて、関連動画像からＡＲ再生用の動画像を生成する。

動画像処理部４８は、動画像のファイルサイズを小さくするために、例えば、動画像の解像度やビットレートを下げることにより、ファイルサイズが小さいＡＲ再生用の動画像を生成する。

第１転送部５０は、サーバ１２と携帯端末１４との間で、動画像、撮影画像などを含む、各種のデータを転送するものである。

続いて、図３は、図１に示す携帯端末の内部構成を表す一実施形態のブロック図である。携帯端末１４は、ユーザが使用するスマートフォン、タブレット端末などであり、図３に示すように、画像撮影部５２と、入力部５４と、表示部５６と、制御部５８と、第２転送部６０とを備えている。

画像撮影部５２は、合成画像がプリンタ１６により出力された出力画像（動画プリント）などを撮影（キャプチャ）して撮影画像を得るものである。

入力部５４は、ユーザにより入力された各種の指示を受け付けるものであり、本発明の指示受付部に相当する。
表示部５６は、各種の画像や情報等を表示するものである。
本実施形態では、タッチパネル６２が、入力部５４および表示部５６を構成するものとする。

制御部５８は、表示部５６の表示を制御するものである。制御部５８は、例えば、画像撮影部５２により出力画像が撮影（キャプチャ）された場合に、撮影画像に基づいて生成されたＡＲ再生用の動画像が表示部５６に再生して表示されるように制御する。

ここで、制御部５８は、動画像を表示部５６に再生させる場合、ＡＲ技術を使用して再生（ＡＲ再生）させてもよいし、ＡＲ技術を使用せず再生（通常再生）させてもよい。制御部５８は、動画像をＡＲ再生させる場合、撮影された出力画像を表示部５６に表示し、表示部５６に表示された出力画像の表示部分において動画像が再生されるように制御する。また、制御部５８は、動画像を通常再生させる場合、表示部５６の全面ないし任意のサイズのウィンドウ内において動画像が再生されるように制御する。

第２転送部６０は、携帯端末１４とサーバ１２との間で、動画像、撮影画像などを含む、各種のデータを転送するものである。

次に、図４〜図６に示すフローチャートを参照しながら、ＡＲコンテンツを生成し、合成画像の出力画像（動画プリント）を出力する場合の画像処理装置１０の動作を説明する。

まず、ユーザにより、携帯端末１４のタッチパネル６２（入力部５４）を操作して、動画像（動画像データ）が選択され、選択された動画像の送信（アップロード）の指示が入力される。

送信が指示された動画像は、第２転送部６０により、携帯端末１４からネットワーク１８を介してサーバ１２へ送信される。サーバ１２では、第１転送部５０により、携帯端末１４から送信されてきた動画像が受信され、記憶部４２に記憶される。

続いて、フレーム画像抽出部２０により、記憶部４２に記憶された動画像から複数のフレーム画像（画像データ）が抽出される（ステップＳ１）。

続いて、人物領域検出部２２により、フレーム画像抽出部２０により動画像から抽出されたフレーム画像に存在する人物の領域が人物領域として検出され（ステップＳ２）、人物特定部２３により、人物領域検出部２２により検出された人物領域に対応する人物が特定される（ステップＳ３）。

続いて、人物評価部２４により、人物領域検出部２２により検出された、複数のフレーム画像の人物領域が、人物特定部２３により特定された人物ごとに評価されて、動画像における特定された人物の評価点が算出され（ステップＳ４）、中心人物判定部２６により、人物特定部２３により特定された人物の評価点が一定値を超えた場合に、その人物が動画像における中心人物であると判定される（ステップＳ５）。なお、ここでいう評価点が一定値を超えた場合とは、評価点が複数フレームのいずれか一つのフレームについて超えた場合、評価点の全てまたは所定数のフレームの平均値が超えた場合、あるいは動画像開始からのフレームの評価点の積分値が超えた場合のいずれでもよい。

続いて、音声抽出部２８により、動画像から音声が抽出され（ステップＳ６）、音声抽出部２８により動画像から抽出された音声が、音声認識部３０により、音声認識により文字列データに変換される（ステップＳ７）。

続いて、関連付け部３２により、中心人物判定部２６により判定された中心人物と、音声抽出部２８により動画像から抽出された、中心人物の音声との関連情報が生成される（ステップＳ８）。

関連付け部３２により生成された関連情報は、サーバ１２から携帯端末１４へ送信される。
携帯端末１４では、サーバ１２から受信された関連情報に基づいて、中心人物を示すアイコンと中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報が、タッチパネル６２（表示部５６）に一覧表示される。

なお、中心人物のアイコンおよび中心人物の音声の文字列データに対応する文字列のデータ等は、サーバ１２から携帯端末１４へ送信してもよいし、あるいは、携帯端末１４が備えるデータを使用してもよい。

例えば、図８に示す例の場合、図中左側に、それぞれの中心人物の音声の文字列データに対応する文字列６４が吹き出しの形式によって囲まれて時系列に並べられ、その右側に、それぞれの文字列に関連付けられた中心人物の候補として、父親、母親および赤ちゃんのアイコン６６が表示されている。また、それぞれの人物と文字列が関連付けられていることを示す左向きの矢印が関連情報６５として表示されている。この例では、父親の音声の文字列データに対応する文字列として、「お〜い」、「あっ」が、母親の音声の文字列データに対応する文字列として、「どこ？」が、赤ちゃんの音声の文字列データに対応する文字列として、「ば〜」が表示されている。なお、関連情報６５は矢印として表示されている必要はなく、それぞれの人物と文字列がそれぞれ縦または横に配置されて表示されているなど、表示部５６の表示によって関連付けされていることが視認できるものであればいかなる態様であってもよい。

なお、それぞれの中心人物の音声の文字列データに対応する文字列６４は、表示されているもの以外にも時系列に並べられており、例えば、ユーザは、スクロールバー等を操作して閲覧したい文字列を適宜表示させることができる。

続いて、ユーザにより、タッチパネル６２（入力部５４）を操作して、タッチパネル６２（表示部５６）に一覧表示された関連情報に対して、関連情報を修正する修正指示が入力される。

図８に示す例の場合、中心人物と、中心人物の音声との関連情報を修正するための空白のアイコン６８が、中心人物のアイコン６６の右側に設けられている。
ここで、ユーザにより、中心人物と、中心人物の音声との関連情報が正しいか否かの判定が行われる（ステップＳ９）。
ユーザは、中心人物と、中心人物の音声との関連情報が正しいと考える場合（ステップＳ９でＹｅｓ）、決定ボタン７０をタップする（ステップＳ１１）。この場合、関連情報は修正されない。
一方、ユーザは、関連情報が間違っていると考える場合（ステップＳ９でＮｏ）、中心人物のアイコン６６を、ユーザが正しいと考える空白のアイコン６８のところへドラッグアンドドロップして関連情報を修正した後（ステップＳ１０）、決定ボタン７０をタップする（ステップＳ１１）。この場合、関連情報は、ユーザが変更した通りに修正される。

関連情報の修正指示は、携帯端末１４からサーバ１２へ送信される。
サーバ１２では、関連付け部３２により、さらに、関連情報の修正指示に応じて、関連情報が修正される（ステップＳ１２）。

続いて、ユーザにより、タッチパネル６２（入力部５４）を操作して、タッチパネル６２（表示部５６）に一覧表示された中心人物のアイコンのうち、ユーザが合成画像（画像データ）を生成する処理を行いたい中心人物のアイコンが選択される。これにより、ユーザにより選択されたアイコンに対応する中心人物を、合成の対象人物として指定する対象人物指定指示が入力される（ステップＳ１３）。

対象人物指定指示は、携帯端末１４からサーバ１２へ送信される。
サーバ１２では、代表フレーム画像決定部３４により、対象人物指定指示に応じて、対象人物が存在するフレーム画像の中から、代表フレーム画像が決定される（ステップＳ１４）。

代表フレーム画像決定部３４により決定された代表フレーム画像は、対象人物が存在するフレーム画像であって代表フレーム画像以外のフレーム画像とともに、サーバ１２から携帯端末１４へ送信される。

携帯端末１４では、サーバ１２から受信された、対象人物の代表フレーム画像、および、それ以外の対象人物が存在するフレーム画像がタッチパネル６２（表示部５６）に一覧表示される。

続いて、ユーザにより、タッチパネル６２（表示部５６）に表示された、対象人物の代表フレーム画像、および、それ以外の対象人物が存在するフレーム画像の中から、ユーザが対象人物の代表フレーム画像として選択したい任意の時刻におけるフレーム画像が選択される。これにより、ユーザにより選択されたフレーム画像を指定するフレーム画像指定指示が入力される。

例えば、図９に示すように、図中上側に、対象人物の代表フレーム画像７２の候補が表示され、その下側に、それ以外の対象人物が存在するフレーム画像７４が表示される。この例では、赤ちゃんの代表フレーム画像が図中上側に表示され、それ以外の、赤ちゃんが存在するフレーム画像が図中下側に表示されている。

ここで、ユーザにより、代表フレーム画像７２でよいか否かの判定が行われる（ステップＳ１５）。
ユーザは、代表フレーム画像７２でよいと考える場合（ステップＳ１５でＹｅｓ）、決定ボタン７６をタップする（ステップＳ１７）。この場合、代表フレーム画像は修正されない。
一方、ユーザは、代表フレーム画像７２ではよくないと考える場合（ステップＳ１５でＮｏ）、それ以外の、対象人物が存在するフレーム画像７４の中から、ユーザが対象人物の代表フレーム画像として選択したい任意の時刻におけるフレーム画像をタップした後（ステップＳ１６）、決定ボタン７６をタップする（ステップＳ１７）。この場合、代表フレーム画像は、ユーザが変更した通りに修正される。

フレーム画像指定指示は、携帯端末１４からサーバ１２へ送信される。
サーバ１２では、代表フレーム画像決定部３４により、フレーム画像指定指示に応じて、ユーザにより指定された任意の時刻におけるフレーム画像が、対象人物の代表フレーム画像に再決定される（ステップＳ１８）。

続いて、代表文字列決定部３６により、対象人物指定指示に応じて、対象人物の音声の文字列データに対応する文字列の中から、対象人物の代表文字列が決定される（ステップＳ１９）。

代表文字列決定部３６により決定された、対象人物の代表文字列の文字列データは、対象人物の音声の音声データに対応する文字列の文字列データであって代表文字列以外の文字列の文字列データとともに、サーバ１２から携帯端末１４へ送信される。

携帯端末１４では、サーバ１２から受信された、対象人物の代表文字列の文字列データに対応する代表文字列、および、対象人物の音声の音声データに対応する文字列であって代表文字列以外の文字列がタッチパネル６２（表示部５６）に一覧表示される。

続いて、ユーザにより、タッチパネル６２（表示部５６）に表示された、対象人物の代表文字列、および、それ以外の、対象人物の音声の文字列データに対応する文字列の中から、ユーザが対象人物の代表フレーム画像に対して合成したい任意の時間帯における文字列が選択される。これにより、ユーザにより選択された文字列を指定する文字列指定指示が入力される。

例えば、図１０に示すように、図中上側に、対象人物の代表文字列７８の候補が表示され、その下側に、それ以外の対象人物の音声の文字列データに対応する文字列８０が表示される。この例では、赤ちゃんの代表文字列として、「ば〜」が図中上側に表示され、それ以外の、赤ちゃんの音声の文字列データに対応する文字列として、「ばぶ〜」、「あ〜」、…が図中下側に表示されている。

ここで、ユーザにより、対象人物の代表文字列７８でよいか否かの判定が行われる（ステップＳ２０）。
ユーザは、対象人物の代表文字列７８でよいと考える場合（ステップＳ２０でＹｅｓ）、決定ボタン８２をタップする（ステップＳ２２）。この場合、代表文字列は修正されない。
一方、ユーザは、対象人物の代表文字列７８ではよくないと考える場合（ステップＳ２０でＮｏ）、それ以外の、対象人物の音声の文字列データに対応する文字列８０の中から、ユーザが対象人物の代表フレーム画像に対して合成したい任意の時間帯における文字列をタップした後（ステップＳ２１）、決定ボタン８２をタップする（ステップＳ２２）。この場合、代表文字列は、ユーザにより変更された通りに修正される。

文字列指定指示は、携帯端末１４からサーバ１２へ送信される。
サーバ１２では、代表文字列決定部３６により、文字列指定指示に応じて、ユーザにより指定された任意の時間帯における文字列が、対象人物の代表文字列に再決定される（ステップＳ２３）。

続いて、合成部３８により、対象人物指定指示に応じて、関連情報に基づいて、対象人物の代表フレーム画像と、対象人物の代表文字列に対応する文字画像とが合成されて合成画像（画像データ）が生成される（ステップＳ２４）。

例えば、図１１に示すように、対象人物の代表フレーム画像と、対象人物の代表文字列の文字画像とが、対象人物がいる方向を指し示す吹き出しの形式によって合成される。この例では、赤ちゃんの代表フレーム画像と、赤ちゃんの代表文字列である「ば〜」の文字画像とが、赤ちゃんがいる方向を指し示す吹き出しの形式によって合成されている。

なお、吹き出しの形状や吹き出しの方向、色、大きさ、位置等は、ユーザが自由に修正してもよい。

このように、画像処理装置１０では、フレーム画像と、フレーム画像に存在する人物の音声の文字列データに対応する文字列の文字画像とを合成することにより、合成画像の魅力を向上させることができる。また、関連情報を用いて人物と音声の関連付けが行われているので、中心人物とその中心人物の音声とが表示部５６に列挙されるため、人物と音声の対応を視認でき、フレーム画像と音声に対応する文字列データの選択を容易にかつ自由に行うことができる。

また、中心人物とその中心人物の音声との関連付けが行われ、対象人物の代表フレーム画像および代表文字列が自動で決定される。ユーザは、自動で決定された対象人物の代表フレーム画像および代表文字列をそのまま選択することもできるし、あるいは、表示部５６に表示された、それ以外の対象人物のフレーム画像および文字列の中から、任意の時刻におけるフレーム画像および任意の時間帯における文字列を自由に選択することができる。

このように、対象人物が存在する任意の時刻におけるフレーム画像と、任意の時間帯における対象人物の音声の文字列データに対応する文字列の文字画像とを合成することができるため、様々なバリエーションの合成画像を生成することができる。また、ユーザは、対象人物が存在する任意の時刻におけるフレーム画像と、フレーム画像に存在する人物の任意の時間帯における音声に対応する文字列の文字画像とを簡単に選択して合成することができる。

続いて、コンテンツ生成部４０により、動画像と、合成部３８により合成された合成画像またはその特定情報とが関連付けられたＡＲコンテンツが生成される（ステップＳ２５）。コンテンツ生成部４０により生成されたＡＲコンテンツ、つまり、合成画像またはその特定情報は、合成画像の管理マーカとして、対応する動画像と関連付けられて記憶部４２に記憶される。

続いて、ユーザにより、タッチパネル６２（入力部５４）を操作して、プリントサイズやプリント枚数等が設定され、合成画像のプリント出力の指示が入力される。

プリント出力の指示は、携帯端末１４からサーバ１２へ送信される。
受信されたプリント出力の指示に対応する合成画像がサーバ１２からプリンタ１６へ送信され、プリンタ１６により、合成画像の出力画像（動画プリント）が出力される（ステップＳ２６）。
出力画像は、ユーザに配達される。

以上のようにして、動画像と、合成画像またはその特定情報とが関連付けられたＡＲコンテンツが記憶部４２に記憶されるとともに、合成画像の出力画像が出力される。

次に、図７に示すフローチャートを参照しながら、ＡＲ再生用の動画像を生成し、再生表示する場合の画像処理装置１０の動作を説明する。

まず、画像撮影部５２により、合成画像の出力画像が撮影（キャプチャ）され、撮影画像（画像データ）が取得される（ステップＳ２７）。撮影された出力画像は、携帯端末１４のタッチパネル６２（表示部５６）に表示される。

取得された撮影画像は、第２転送部６０により、携帯端末１４からネットワーク１８を介してサーバ１２へ送信される。サーバ１２では、第１転送部５０により、携帯端末１４から送信されてきた撮影画像が受信される。

続いて、撮影画像解析部４４により、撮影画像の画像解析が行われ、撮影画像の管理マーカが取得される（ステップＳ２８）。

続いて、管理マーカ特定部４６により、記憶部４２に記憶された合成画像の管理マーカ中から、撮影画像の管理マーカに対応する合成画像の管理マーカが特定管理マーカとして特定される（ステップＳ２９）。

続いて、動画像処理部４８により、特定管理マーカに関連付けられた関連動画像から、ＡＲ再生用の動画像（動画像データ）が生成される（ステップＳ３０）。

続いて、動画像処理部４８により生成されたＡＲ再生用の動画像は、サーバ１２から携帯端末１４へ送信される。携帯端末１４では、サーバ１２から送信されてきたＡＲ再生用の動画像が受信される。

ＡＲ再生用の動画像が受信されると、制御部５８の制御により、受信されたＡＲ再生用の動画像が、携帯端末１４のタッチパネル６２（表示部５６）に表示された出力画像の表示部分において再生して表示される（ステップＳ３１）。

以上のようにして、合成画像の出力画像が撮影されると、撮影画像の管理マーカに対応する合成画像の管理マーカが特定され、特定管理マーカに関連付けられた関連動画像からＡＲ再生用の動画像が生成され、携帯端末１４で再生表示される。

なお、合成画像の出力画像を出力する場合、例えば、数字やアルファベットを含む文字列からなるアクセスキーを合成画像の出力画像に印刷してもよい。アクセスキーは、ユーザ毎に一意に決定されるものである。ユーザがアクセスキーを入力することにより、記憶部４２に記憶された合成画像の管理マーカの中から特定管理マーカを特定する場合に、各々のユーザがサーバ１２へ送信した動画像に関連付けられた合成画像の管理マーカの範囲に限定することができる。

また、対象人物のフレーム画像に対して、対象人物の音声の文字列データに対応する文字列を吹き出しの形式によって合成する場合、アクセスキーの文字列に応じて、吹き出しの形状や色等を変更することにより、吹き出しをアクセスキーの代わりに使用することもできる。この場合、アクセスキーを合成画像の出力画像に印刷する必要がなくなるため、美観が損なわれるのを防ぐことができるとともに、吹き出しの形状や色等を自動認識することにより、ユーザがアクセスキーを手入力する手間を省くことができる。

また、携帯端末１４を使用することに限定されず、画像撮影部５２、入力部５４、表示部５６、制御部５８、第２転送部６０を備えるパーソナルコンピュータ等の制御装置を使用することもできる。

また、前述のように、例えば、対象人物の代表フレーム画像と、対象人物の代表文字列とが合成される。従って、音声認識部３０は、音声抽出部２８により動画像から抽出された音声を文字列データに変換する場合に、動画像から抽出された音声のうち、対象人物の音声を時期的に優先して文字列データに変換することにより、変換効率を向上させることができる。

また、中心人物および非被写体人物の中から対象人物が指定された場合に、例えば、対象人物の音声の文字列データに対応する文字列の文字画像と、中心人物のフレーム画像とを組み合わせて合成してもよい。

この場合、関連付け部３２は、さらに、フレーム画像に存在していない人物で、かつ、動画像から抽出された音声の登場頻度があらかじめ設定された一定値を超える人物が非被写体人物であると判定し、非被写体人物とその音声との関連情報を生成する。また、表示部５６が、関連情報に基づいて、中心人物および非被写体人物を示すアイコンと中心人物および非被写体人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示し、入力部５４が、アイコンのうちユーザにより選択されたアイコンに対応する中心人物および非被写体人物を、合成の対象人物として指定する対象人物指定指示を受け付ける。そして、合成部３８は、対象人物指定指示に応じて、対象人物の音声が存在する任意の時間帯における対象人物の音声の文字列データに対応する合成用文字列を関連情報に基づいて読み出し、中心人物が存在する任意の時刻における合成用フレーム画像を読み出す。そして、合成用文字列に対応する文字画像と合成用フレーム画像とを合成して合成画像を生成する。これにより、対象人物を指定するだけで、対象人物の声が列挙されるため、対象人物の声のうち合成したい声を容易にかつ自由に選択できる。この際、非被写体人物の声も選択できる。また、全中心人物の顔が列挙されるため、合成すべき顔を容易にかつ自由に選択できる。

また、動画像には、中心人物以外の人物が発する音声も含まれている。中心人物以外の人物は、例えば撮影者あるいは動画像にわずかしか映っていない人物である。一般的に、動画像に撮影者の音声が含まれていても、撮影者は動画像に撮影されていない場合が多い。

この場合、関連付け部３２は、さらに、中心人物以外の人物で、かつ、動画像から抽出された音声の登場頻度があらかじめ設定された一定値を超える人物が非被写体人物であると判定し、非被写体人物とその音声との関連情報を生成する。この場合、非被写体人物は、動画像に存在していないかわずかしか映っていないかのいずれかであるが、合成部３８は、さらに、対象人物が存在する任意の時刻における合成用フレーム画像と、任意の時間帯における中心人物と非被写体人物とのうちの任意の一人の音声の文字列データに対応する合成用文字列とを、例えば、吹き出しの形式で合成して合成画像を生成する。これにより、動画像に存在しない非被写体人物や対象人物ではない他の中心人物の音声に対応する文字列の文字画像を容易にかつ自由に合成し、様々なバリエーションの合成画像を生成することができる。

なお、対象人物として非被写体人物を指定した場合においては、音声抽出部２８が指向性を有する場合、合成用文字列が音声として発声された際の位置を推定し、その方向を指し示す吹き出しの形式で合成して合成画像を生成することができる。また、音声抽出部２８に指向性がなく発声された際の位置が推定できない場合、および音声抽出部２８に指向性があるが発声された際の位置が推定できない場合は、非被写体人物が撮影者であると推定し、文字画像を合成画像の下方向を指し示す吹き出しの形式で合成して合成画像を生成することができる。

なお、図１２のように、表示部５６において、非被写体人物に対応するアイコン（例えば、灰色のアイコン）を表示させ、非被写体人物の音声に対応する文字列との関連情報を表示することができる。

また、スマートフォンで動画像を撮像する場合、動画像に撮像された人物が音声を発したときに、例えば、撮影者がタッチパネル６２（表示部５６）に表示された、音声を発した人物をタップすることにより、音声を発した人物とその人物が発した音声とを関連付けることができる。この場合、動画像には、Ｅｘｉｆ（Exchangeable Image File Format）等による付帯情報として、動画像に存在する人物とその人物の音声との関連付けの指示データが添付される。

これに応じて、関連付け部３２は、動画像が、付帯情報として、動画像に存在する人物とその音声との関連付けの指示データを有するか否かを判断する。そして、動画像が関連付けの指示データを有すると判断したときに、動画像が有する関連付けの指示データに基づいて、中心人物とその音声との関連情報を生成してもよい。これにより、関連情報の精度を向上させることができる。

また、動画像が再生して表示される場合、動画像の音声が再生されるのと同時に、音声認識部３０により変換された文字列データに対応する文字列が携帯端末１４のタッチパネル６２（表示部５６）に表示されるようにしてもよい。

上記実施形態では、動画像と、合成部３８により合成された合成画像またはその特定情報とが関連付けられたＡＲコンテンツが生成されることとしているが、本発明はこれに限定されず、合成画像のみを生成するものであってもよい。

本発明の装置は、装置が備える各々の構成要素を専用のハードウェアで構成してもよいし、各々の構成要素をプログラムされたコンピュータで構成してもよい。
本発明の方法は、例えば、その各々のステップをコンピュータに実行させるためのプログラムにより実施することができる。また、このプログラムが記録されたコンピュータ読み取り可能な記録媒体を提供することもできる。

以上、本発明について詳細に説明したが、本発明は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。

１０画像処理装置
１２サーバ
１４携帯端末
１６プリンタ
１８ネットワーク
２０フレーム画像抽出部
２２人物領域検出部
２３人物特定部
２４人物評価部
２６中心人物判定部
２８音声抽出部
３０音声認識部
３２関連付け部
３４代表フレーム画像決定部
３６代表文字列決定部
３８合成部
４０コンテンツ生成部
４２記憶部
４４撮影画像解析部
４６管理マーカ特定部
４８動画像処理部
５０第１転送部
５２画像撮影部
５４入力部
５６表示部
５８制御部
６０第２転送部
６２タッチパネル
６４、８０文字列
６５関連情報
７８代表文字列
６６、６８アイコン
７０、７６、８２決定ボタン
７２代表フレーム画像
７４フレーム画像

Claims

動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
前記フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
前記検出された人物領域に対応する人物を特定する人物特定部と、
前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出する人物評価部と、
前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定する中心人物判定部と、
前記動画像から音声を抽出する音声抽出部と、
前記音声を音声認識により文字列データに変換する音声認識部と、
前記中心人物と前記中心人物の音声との関連情報を生成する関連付け部と、
前記関連情報に基づいて、前記中心人物を示すアイコンと前記中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
前記フレーム画像と前記文字列に対応する文字画像とを合成する合成部とを備え、
前記指示受付部は、さらに、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
前記合成部は、さらに、前記対象人物指定指示に応じて、前記対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における前記対象人物の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記合成用フレーム画像と前記合成用文字列に対応する文字画像とを合成して合成画像を生成するものである、画像処理装置。
前記指示受付部は、さらに、前記表示部に表示された関連情報に対して、前記関連情報を修正する修正指示を受け付けるものであり、
前記関連付け部は、さらに、前記修正指示に応じて、前記関連情報を修正するものである請求項１に記載の画像処理装置。
さらに、前記対象人物指定指示に応じて、前記対象人物が存在するフレーム画像の中から、代表フレーム画像を決定する代表フレーム画像決定部と、
前記対象人物指定指示に応じて、前記対象人物の音声の文字列データに対応する文字列の中から、代表文字列を決定する代表文字列決定部とを備え、
前記合成部は、前記代表フレーム画像と前記代表文字列に対応する文字画像とを合成するものである請求項１または２に記載の画像処理装置。
前記代表フレーム画像決定部は、前記対象人物が存在するフレーム画像の中から、色味、明るさ、および、ボケブレのうちの少なくとも１つが一定範囲内であるフレーム画像を、前記代表フレーム画像に決定するものである請求項３に記載の画像処理装置。
前記代表フレーム画像決定部は、前記対象人物が存在するフレーム画像の中から、前記対象人物の顔の大きさおよび向きのうちの少なくとも１つが一定範囲内であり、かつ、前記対象人物の表情が笑顔であるフレーム画像を、前記代表フレーム画像に決定するものである請求項３に記載の画像処理装置。
前記代表フレーム画像決定部は、前記対象人物が存在するフレーム画像の中から、前記対象人物の発話シーン、動きが大きいシーンおよび音声が大きいシーンのうちの少なくとも１つのフレーム画像を、前記代表フレーム画像に決定するものである請求項３に記載の画像処理装置。
前記代表文字列決定部は、前記対象人物の音声の文字列データに対応する文字列の中から、前記対象人物の声の大きさおよび声の高さの少なくとも１つが一定範囲内である音声の文字列データに対応する文字列を、前記代表文字列に決定するものである請求項３〜６のいずれか１項に記載の画像処理装置。
前記代表文字列決定部は、前記対象人物の音声の文字列データに対応する文字列の中から、最も登場頻度の高い言葉の音声の文字列データに対応する文字列を、前記代表文字列に決定するものである請求項３〜６のいずれか１項に記載の画像処理装置。
前記表示部は、さらに、前記対象人物が存在する代表フレーム画像、および、前記対象人物が存在するフレーム画像であって前記代表フレーム画像以外のフレーム画像を表示するものであり、
前記指示受付部は、さらに、前記表示部に表示されたフレーム画像の中から、前記ユーザにより入力されたフレーム画像を指定するフレーム画像指定指示を受け付けるものであり、
前記代表フレーム画像決定部は、さらに、前記フレーム画像指定指示に応じて、前記ユーザにより指定されたフレーム画像を、前記代表フレーム画像に再決定するものである請求項３〜８のいずれか１項に記載の画像処理装置。
前記表示部は、さらに、前記代表文字列、および、前記対象人物の音声の音声データに対応する文字列であって前記代表文字列以外の文字列を表示するものであり、
前記指示受付部は、さらに、前記表示部に表示された文字列の中から、前記ユーザにより入力された文字列を指定する文字列指定指示を受け付けるものであり、
前記代表文字列決定部は、さらに、前記文字列指定指示に応じて、前記ユーザにより指定された文字列を、前記代表文字列に再決定するものである請求項３〜９のいずれか１項に記載の画像処理装置。
前記音声認識部は、前記動画像から抽出された音声のうち、前記対象人物の音声を優先して文字列データに変換するものである請求項３〜１０のいずれか１項に記載の画像処理装置。
前記音声抽出部は、さらに、前記動画像から抽出された音声からノイズを除去するノイズキャンセリングを行うものである請求項１〜１１のいずれか１項に記載の画像処理装置。
前記関連付け部は、前記中心人物が存在するフレーム画像の人物領域から、前記中心人物の性別および年齢を判定するとともに、前記中心人物の音声の高低から、前記音声に対応する人物の性別および年齢を判定し、前記中心人物の性別および年齢と前記音声に対応する人物の性別および年齢とが合致するように、前記関連情報を生成するものである請求項１〜１２のいずれか１項に記載の画像処理装置。
前記関連付け部は、前記関連情報を生成する場合に、人間の声の音域以外の音域の音声を使用しないものである請求項１〜１３のいずれか１項に記載の画像処理装置。
前記関連付け部は、前記動画像が、付帯情報として、前記動画像に存在する人物と前記動画像に存在する人物の音声との関連付けの指示データを有するか否かを判断し、前記動画像が関連付けの指示データを有すると判断したときに、前記関連付けの指示データに基づいて前記関連情報を生成するものである請求項１〜１４のいずれか１項に記載の画像処理装置。
前記合成部は、前記文字列を、吹き出し、テロップおよび字幕のうちのいずれか１つの形式によって合成するものである請求項１〜１５のいずれか１項に記載の画像処理装置。
前記合成部は、前記文字列の内容に応じて、前記文字列の書体を変更するものである請求項１〜１６のいずれか１項に記載の画像処理装置。
前記合成部は、前記文字列の文字画像が合成された複数のフレーム画像を含む合成画像を生成するものである請求項１〜１７のいずれか１項に記載の画像処理装置。
動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
前記フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
前記検出された人物領域に対応する人物を特定する人物特定部と、
前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出する人物評価部と、
前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定する中心人物判定部と、
前記動画像から音声を抽出する音声抽出部と、
前記音声を音声認識により文字列データに変換する音声認識部と、
前記中心人物と前記中心人物の音声との関連情報を生成し、さらに、前記フレーム画像に存在していない人物で、かつ、前記動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、前記非被写体人物と前記非被写体人物の音声との関連情報を生成する関連付け部と、
前記関連情報に基づいて、前記中心人物および非被写体人物を示すアイコンと前記中心人物および非被写体人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
前記フレーム画像と前記文字列に対応する文字画像とを合成する合成部とを備え、
前記指示受付部は、さらに、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物または非被写体人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
前記合成部は、さらに、前記対象人物指定指示に応じて、前記対象人物の音声が存在する任意の時間帯における前記対象人物の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記中心人物が存在する任意の時刻における合成用フレーム画像を読み出し、前記合成用文字列に対応する文字画像と前記合成用フレーム画像とを合成して合成画像を生成するものである、画像処理装置。
動画像から複数のフレーム画像を抽出するフレーム画像抽出部と、
前記フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出する人物領域検出部と、
前記検出された人物領域に対応する人物を特定する人物特定部と、
前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出する人物評価部と、
前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定する中心人物判定部と、
前記動画像から音声を抽出する音声抽出部と、
前記音声を音声認識により文字列データに変換する音声認識部と、
前記中心人物と前記中心人物の音声との関連情報を生成し、さらに、前記フレーム画像に存在していない人物で、かつ、前記動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、前記非被写体人物と前記非被写体人物の音声との関連情報を生成する関連付け部と、
前記関連情報に基づいて、前記中心人物を示すアイコンと前記中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示する表示部と、
ユーザにより入力された指示を受け付ける指示受付部と、
前記フレーム画像と前記文字列に対応する文字画像とを合成する合成部とを備え、
前記指示受付部は、さらに、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるものであり、
前記合成部は、さらに、前記対象人物指定指示に応じて、前記対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における前記中心人物と前記非被写体人物とのうちの任意の一人の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記合成用フレーム画像と前記合成用文字列に対応する文字画像とを合成して合成画像を生成するものである、画像処理装置。
前記合成部は、さらに、前記合成用文字列を、前記合成画像の下方向を指し示す吹き出しの形式で合成するものである請求項２０に記載の画像処理装置。
フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、前記フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出するステップと、
人物特定部が、前記検出された人物領域に対応する人物を特定するステップと、
人物評価部が、前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出するステップと、
中心人物判定部が、前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定するステップと、
音声抽出部が、前記動画像から音声を抽出するステップと、
音声認識部が、前記音声を音声認識により文字列データに変換するステップと、
関連付け部が、前記中心人物と前記中心人物の音声との関連情報を生成するステップと、
表示部が、前記関連情報に基づいて、前記中心人物を示すアイコンと前記中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、前記表示部に表示された前記関連情報に対して、ユーザにより入力された前記関連情報を修正する修正指示を受け付けるステップと、
前記関連付け部が、さらに、前記修正指示に応じて、前記関連情報を修正するステップと、
前記指示受付部が、さらに、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、前記対象人物指定指示に応じて、前記対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における前記対象人物の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記合成用フレーム画像と前記合成用文字列に対応する文字画像とを合成して合成画像を生成するステップとを含む、画像処理方法。
さらに、前記指示受付部が、前記表示部に表示された関連情報に対して、前記関連情報を修正する修正指示を受け付けるステップと、
前記関連付け部が、前記修正指示に応じて、前記関連情報を修正するステップとを含む請求項２２に記載の画像処理方法。
さらに、代表フレーム画像決定部が、前記対象人物指定指示に応じて、前記対象人物が存在するフレーム画像の中から、代表フレーム画像を決定するステップと、
代表文字列決定部が、前記対象人物指定指示に応じて、前記対象人物の音声の文字列データに対応する文字列の中から、代表文字列を決定するステップとを含み、
前記合成部は、前記代表フレーム画像と前記代表文字列に対応する文字画像とを合成する請求項２２または２３に記載の画像処理方法。
前記表示部が、さらに、前記対象人物が存在する代表フレーム画像、および、前記対象人物が存在するフレーム画像であって前記代表フレーム画像以外のフレーム画像を表示するステップと、
前記指示受付部が、さらに、前記表示部に表示されたフレーム画像の中から、前記ユーザにより入力されたフレーム画像を指定するフレーム画像指定指示を受け付けるステップと、
前記代表フレーム画像決定部が、さらに、前記フレーム画像指定指示に応じて、前記ユーザにより指定されたフレーム画像を、前記代表フレーム画像に再決定するステップとを含む請求項２４に記載の画像処理方法。
前記表示部が、さらに、前記代表文字列、および、前記対象人物の音声の音声データに対応する文字列であって前記代表文字列以外の文字列を表示するステップと、
前記指示受付部が、さらに、前記表示部に表示された文字列の中から、前記ユーザにより入力された文字列を指定する文字列指定指示を受け付けるステップと、
前記代表文字列決定部が、さらに、前記文字列指定指示に応じて、前記ユーザにより指定された文字列を、前記代表文字列に再決定するステップとを含む請求項２４または２５に記載の画像処理方法。
フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、前記フレーム画像に存在する人物の少なくとも一部の領域を人物領域として検出するステップと、
人物特定部が、前記検出された人物領域に対応する人物を特定するステップと、
人物評価部が、前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出するステップと、
中心人物判定部が、前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定するステップと、
音声抽出部が、前記動画像から音声を抽出するステップと、
音声認識部が、前記音声を音声認識により文字列データに変換するステップと、
関連付け部が、前記中心人物と前記中心人物の音声との関連情報を生成し、さらに、前記フレーム画像に存在していない人物で、かつ、前記動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、前記非被写体人物と前記非被写体人物の音声との関連情報を生成するステップと、
表示部が、前記関連情報に基づいて、前記中心人物および非被写体人物を示すアイコンと前記中心人物および非被写体人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物または非被写体人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、前記対象人物指定指示に応じて、前記対象人物の音声が存在する任意の時間帯における前記対象人物の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記中心人物が存在する任意の時刻における合成用フレーム画像を読み出し、前記合成用文字列に対応する文字画像と前記合成用フレーム画像とを合成して合成画像を生成するステップとを含む、画像処理方法。
フレーム画像抽出部が、動画像から複数のフレーム画像を抽出するステップと、
人物領域検出部が、前記フレーム画像に存在する人物の少なくとも一部の領域を検出するステップと、
人物特定部が、前記検出された人物領域に対応する人物を特定するステップと、
人物評価部が、前記抽出された複数のフレーム画像の少なくとも一部における前記人物領域を前記特定された人物ごとに評価して、前記動画像における前記特定された人物の評価点を算出するステップと、
中心人物判定部が、前記特定された人物の評価点が一定値を超えた場合に、前記特定された人物が前記動画像における中心人物であると判定するステップと、
音声抽出部が、前記動画像から音声を抽出するステップと、
音声認識部が、前記音声を音声認識により文字列データに変換するステップと、
関連付け部が、前記中心人物と前記中心人物の音声との関連情報を生成し、さらに、前記フレーム画像に存在していない人物で、かつ、前記動画像から抽出された音声の登場頻度が一定値を超える人物が非被写体人物であると判定し、前記非被写体人物と前記非被写体人物の音声との関連情報を生成するステップと、
表示部が、前記関連情報に基づいて、前記中心人物を示すアイコンと前記中心人物の音声の文字列データの少なくとも一部に対応する文字列との関連情報を表示するステップと、
指示受付部が、前記表示部に表示された前記関連情報に対して、ユーザにより入力された前記関連情報を修正する修正指示を受け付けるステップと、
前記関連付け部が、さらに、前記修正指示に応じて、前記関連情報を修正するステップと、
前記指示受付部が、さらに、前記アイコンのうち前記ユーザにより選択されたアイコンに対応する中心人物を、前記合成の対象人物として指定する対象人物指定指示を受け付けるステップと、
合成部が、前記対象人物指定指示に応じて、前記対象人物が存在する任意の時刻における合成用フレーム画像を読み出し、任意の時間帯における前記中心人物と前記非被写体人物とのうちの任意の一人の音声の文字列データに対応する合成用文字列を前記関連情報に基づいて読み出し、前記合成用フレーム画像と前記合成用文字列に対応する文字画像とを合成して合成画像を生成するステップとを含む、画像処理方法。
請求項２２〜２８のいずれか１項に記載の画像処理方法の各々のステップをコンピュータに実行させるためのプログラム。
請求項２２〜２８のいずれか１項に記載の画像処理方法の各々のステップをコンピュータに実行させるためのプログラムが記録されたコンピュータ読み取り可能な記録媒体。