JP4660611B2 - 画像処理装置および画像処理方法 - Google Patents

画像処理装置および画像処理方法 Download PDF

Info

Publication number
JP4660611B2
JP4660611B2 JP2009156273A JP2009156273A JP4660611B2 JP 4660611 B2 JP4660611 B2 JP 4660611B2 JP 2009156273 A JP2009156273 A JP 2009156273A JP 2009156273 A JP2009156273 A JP 2009156273A JP 4660611 B2 JP4660611 B2 JP 4660611B2
Authority
JP
Japan
Prior art keywords
data
target
person
level
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009156273A
Other languages
English (en)
Other versions
JP2011013384A (ja
Inventor
公介 伊茂治
祐紀 金子
淳一 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009156273A priority Critical patent/JP4660611B2/ja
Priority to US12/791,779 priority patent/US8391544B2/en
Publication of JP2011013384A publication Critical patent/JP2011013384A/ja
Application granted granted Critical
Publication of JP4660611B2 publication Critical patent/JP4660611B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/175Static expression

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、画像データに音声コメントデータを付して出力することができる画像処理装置および画像処理方法に関する。
一般に、デジタルカメラの普及にともなって、撮影した画像データ等をアルバム編集するためのアルバム編集支援ソフトウェア等が提供されている。例えば、パーソナルコンピュータにインストールされたアルバム編集支援ソフトウェアは、ユーザが、デジタルカメラ本体やメモリカード、その他MOドライブやフォトCD等の記憶媒体からスチル画像データを取り込んで、簡単にアルバム作製を行うことができる機能を提供する。
このようなアルバム編集支援ソフトウェアでは、画像データがリアルなアルバムのようにインデックスを付けて管理されるので、ユーザはマウスを用いて操作することによって簡単にバーチャルなアルバムを開くことができる。また、ユーザは、例えば予め用意されたフォーマットを用いて、あるいはフリーなスタイルで画像データのレイアウトを行うことができる。
さらに画像データに対して音声ファイルや音楽ファイルを関連付けることにより、音声や音楽付きのアルバムとして作製し、このようなアルバムの画像を用いて、BGM付きのスライドショーを実演する機能を有するアルバム編集支援ソフトウェアもある。
例えば特許文献1には、画像データ近傍に表示される吹き出し内に表示されているコメントが音声出力される技術が開示されている。
特開2003−317074号公報 (図2、段落0038)
しかしながら、特許文献1に記載された技術は、吹き出し内に表示されているコメントを単に音声出力するのみであり、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができない。
そこで、本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる画像処理装置および画像処理方法を提供することを目的とする。
上記目的を達成するために、本発明の一態様によれば、複数のコメントデータと前記コメントデータに対応する音声データを再生するテンポを示すテンポ情報及び再生する音量を示す音量情報とを記憶する記憶手段と、画像データに含まれる人物を識別して前記人物の表情を解析し、複数の人物について解析された表情の近似度を判別する解析手段と、前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから対象コメントデータと対象テンポ情報及び対象音量情報とを選択し、前記対象コメントデータと前記対象テンポ情報及び前記対象音量情報とを用いて音声データを作成するものであって、前記近似度に基づいて前記複数の人物に対して同じ前記対象コメントデータを選択し、選択された同じ前記対象コメントデータを用いて前記複数の人物それぞれに対応する声色が異なる音声データを作成する作成手段と、前記作成手段によって作成された音声データと共に、前記画像データを表示するための再生データを出力する出力手段と、を具備することを特徴とする画像処理装置が提供される。
また、本発明の一態様によれば、画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、複数のコメントデータと前記コメントデータに対応する音声データを再生するテンポを示すテンポ情報及び再生する音量を示す音量情報とを記憶し、画像データに含まれる人物を識別して前記人物の表情を解析し、複数の人物について解析された表情の近似度を判別し、前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから対象コメントデータと対象テンポ情報及び対象音量情報とを選択し、前記対象コメントデータと前記対象テンポ情報及び前記対象音量情報とを用いて音声データを作成するものであって、前記近似度に基づいて前記複数の人物に対して同じ前記対象コメントデータを選択し、選択された同じ前記対象コメントデータを用いて前記複数の人物それぞれに対応する声色が異なる音声データを作成し、前記作成された音声データと共に、前記画像データを表示するための再生データを出力することを特徴とする画像処理方法が提供される。
本発明は、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。
本発明の一実施形態に係る画像処理装置の構成を示す図。 同実施形態に係る画像処理装置の構成の概略を示すブロック図。 同実施形態に係る画像処理装置の画像処理アプリケーション他の機能構成を示すブロック図。 同実施形態に係る画像処理装置を適用した画像処理方法を示したフローチャート。 同実施形態に係る画像処理装置の画像処理アプリケーションが読み込む画像データの一例を模式的に示した図。 同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベルの設定方法について模式的に示した図。 同実施形態に係る画像処理装置によって検出された特徴量に基づいて、人物の表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図。 同実施形態に係る画像処理装置で用いられる同じコメントデータを利用するか否かの近似度の閾値を示すテーブルデータを示す図。 同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度他の設定方法について模式的に示した図。 同実施形態に係る画像処理装置のHDDに予め記憶されているデータベースの一例を示す図。 同実施形態に係る画像処理装置によって行われる喜怒レベル及び哀楽レベル、セリフ優先度、近似度、選択されたコメント他の設定方法について模式的に示した図。 同実施形態に係る画像処理装置によって、再生データをLCD及びスピーカを用いて再生処理を行う状態を模式的に示す図。
以下、本発明の一実施形態について図面を参照しながら説明する。
まず、図1を参照して、本発明の一実施形態に係る画像処理装置の構成を説明する。本実施形態の画像処理装置は、例えば、ノートブック型のパーソナルコンピュータ10として実現されている。なお、本実施形態では、ノートブック型のパーソナルコンピュータ10として説明しているが、これに限定されるものではない。例えば、PDA(Personal Digital Assistant)、ホームサーバ等の機器であってもよい。
このコンピュータ10は、撮像装置としてカメラ127を備えている。カメラ127は、CCD(Charge Coupled Device)等の撮像素子を備えており、対象物を撮影して画像データとして記憶する。本実施形態では、カメラ127によって撮影された画像データを用いる例を説明する。なお、画像データは、外部からメモリカード、ケーブル、光ディスク、ネットワーク等を介して取り込んだものでもよく、限定されるものではない。また、カメラ127は、コンピュータ10に内蔵される形態以外にも外部機器としてコンピュータ10と接続する形態とすることもできる。
コンピュータ10は、コンピュータ本体11と、ディスプレイユニット12とから構成されている。ディスプレイユニット12には、タッチパネル機能が内蔵されたLCD(Liquid Crystal Display)121から構成される表示装置が組み込まれており、そのLCD121の表示画面は、ディスプレイユニット12のほぼ中央に位置されている。
ディスプレイユニット12は、コンピュータ本体11に対して開放位置と閉塞位置との間を回動自在に取り付けられている。また、ディスプレイユニット12の上部には、上述したカメラ127が内蔵されている。コンピュータ本体11は薄い箱形の筐体を有しており、その上面にはキーボード125、本コンピュータ10を電源オン/オフするための電源ボタン21、および入力ボタン124a、124bを近傍に備えたタッチパッド124などが配置されている。
次に、図2を参照して、本コンピュータ10のシステム構成について説明する。
本コンピュータ10は、図2に示されているように、CPU111、ノースブリッジ113、グラフィクスコントローラ114、主メモリ112、LCD121、サウスブリッジ116、ハードディスクドライブ(以下、HDDとも称する)117、光ディスクドライブ(以下、ODDとも称する)118、BIOS−ROM119、カメラ127、スピーカ128、エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120、タッチパッド124、キーボード125、電源回路130、バッテリ122およびACアダプタ123等を備えている。
CPU111は本コンピュータ10の動作を制御するプロセッサであり、HDD117から主メモリ112にロードされる、オペレーティングシステム(OS)202、および画像処理アプリケーションプログラム201(以下、画像処理アプリケーションとも称する)のような各種アプリケーションプログラムを実行する。画像処理アプリケーションプログラム201は、画像データに写っている人物を解析し、解析した人物の表情や人数等に基づいて、予め用意されているコメントデータから該当するコメントデータを選択し、選択されたコメントデータから合成音声のデータを作成する処理を実行し、さらにその後、元の画像データを表示すると共に作成した音声データを再生する処理を実行するソフトウェアである。
ノースブリッジ113はCPU111のローカルバスとサウスブリッジ116との間を接続するブリッジデバイスである。ノースブリッジ113には、主メモリ112をアクセス制御するメモリコントローラも内蔵されている。また、ノースブリッジ113は、グラフィックスコントローラ114を内蔵している。
グラフィックスコントローラ114は、本コンピュータ10のディスプレイモニタとして使用されるLCD(ディスプレイ)121を制御する表示コントローラである。このグラフィックスコントローラ114によって生成される表示信号はディスプレイユニット12のLCD121に送られる。
サウスブリッジ116は、LPC(Low Pin Count)バス上の各デバイス等を制御する。また、サウスブリッジ116は、HDD117およびODD118を制御するためのIDE(Integrated Drive Electronics)コントローラを内蔵している。さらに、サウスブリッジ116は、サウンドコントローラとの通信を実行する機能も有している。
エンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、電力管理のためのエンベデッドコントローラと、キーボード(KB)125およびタッチパッド124を制御するためのキーボードコントローラとが集積された1チップマイクロコンピュータである。このエンベデッドコントローラ/キーボードコントローラIC(EC/KBC)120は、ユーザによる電源ボタン21の操作に応じて本コンピュータ10をパワーオン/パワーオフする機能を有している。
LCD121は、画像処理アプリケーション201によって作成された再生データ(画像データに音声データが付加されたデータ)をスピーカ128と共に再生するための表示部である。
次に、図3は、画像処理アプリケーション201の機能構成他を示したブロック図である。
画像処理アプリケーション201は、画像解析部300、音声合成部301、再生データ作成部302を備えている。また、画像解析部300は、顔認識部300a、特徴量検出部300b、近似度演算部300cを備えている。さらに、HDD117は、画像データ記憶領域117a、表情解析用データ記憶領域117b、合成音声データ記憶領域117c、コメントデータ記憶領域117d、再生データ記憶領域117e、閾値記憶領域117fを備えている。
画像データ記憶領域117aは、カメラ127で撮影された画像データを記憶する記憶領域である。
表情解析用データ記憶領域117bは、人物の表情の解析を行うためのデータベースであり、予め例えば、喜怒哀楽の各表情に対応する表情解析用データ(特徴量)の情報を記憶する記憶領域である。
合成音声データ記憶領域117cは、合成音声を作成するための合成音声データを記憶する記憶領域である。
コメントデータ記憶領域117dは、人物の喜怒レベル、哀楽レベルに対応するコメントデータを予め記憶する記憶領域である。
再生データ記憶領域117eは、後述する再生データ作成部302によって作成された再生データを記憶する記憶領域である。
閾値記憶領域117fは、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を記憶する記憶領域である。
顔認識部300aは、カメラ127で撮影された画像データが記憶されている画像データ記憶領域117aから画像データを読み出して、画像データ内に写っている人物の顔領域を検出する顔認識処理を行う。すなわち、顔認識処理とは、画像データ内に写っている人物の顔領域を検出し、人物の顔として認識する処理のことである。また、顔認識部300aは、顔認識処理において、画像データ内に写っている人物の人数の検出も行う。検出された顔領域及び人数の情報は、特徴量検出部300bに送られる。
特徴量検出部300bは、顔認識部300aで検出された人物の顔領域の情報を用いて、顔領域の特徴量(表情等)を検出する。顔領域の特徴量の検出を行う技術としては、例えば、特開2005-31566号公報に開示されているように、画像データ内の顔の特徴点を検出し、検出された特徴点から人物の笑顔度を推定する技術が挙げられる。特徴量検出部300bは、顔領域の特徴量の検出においては、予め表情解析用データを表情解析用データ記憶領域117bに記憶しておき、この表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。特徴量検出部300bによって、検出された人物の喜怒レベル、哀楽レベルの情報は、近似度演算部300c及び合成音声部301に送られる。また、特徴量検出部300bによって、顔認識部300aから送られた人物の人数の情報が近似度演算部300cに送られる。
近似度演算部300cは、特徴量検出部300bを介して送られた人数の情報によって、人物が複数人数である場合に閾値記憶領域117fに記憶された近似度の閾値に基づいて、人物のそれぞれの近似度を演算する。近似度演算部300cは、例えば、顔認識部300aによって検出された複数人物のそれぞれの喜怒レベル、哀楽レベル等の数値の近いもの同士を検出し、数値が近い程に値が大きくなる近似度を付する処理を行う。喜怒レベル、哀楽レベル等の数値の算出方法は後述する。近似度演算部300cによって演算された近似度の情報は、音声合成部301に送られる。
音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに基づいて、優先度(以下、セリフ優先度とも称する)を決定する。セリフ優先度とは、音声データを作成した場合に、再生する順序を示す情報であり、喜怒レベル及び哀楽レベルの数値の大小によって決定される。また、音声合成部301は、特徴量検出部300bによって検出された人物の喜怒レベル、哀楽レベルに対応するコメントデータをコメントデータ記憶領域117dから読み出す。さらに、音声合成部301は、合成音声データ記憶領域117cから合成音声データを読み出して、音声データを作成する。なお、顔認識部300aによって検出された人物が複数人数である場合は、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いた、個別の音声データを作成する。
また、音声合成部301は、近似度演算部300cによって閾値以上の近似度であると判別された場合は、同じコメントデータを用いて音声データを作成する。この場合も同様に、音声合成部301は、人物が複数人数であることがわかるように、それぞれの人物に対して異なる声色を用いて音声データを作成する。作成した音声データ及び優先度の情報は、音声合成部301によって再生データ作成部302に送られる。なお、近似度の算出方法については、後述する。
再生データ作成部302は、音声合成部301から送られた音声データに基づいて、この音声データを音声として再生するための再生データを作成する。再生データは、この作成した音声データの基となった画像データの表示と同期して、音声データに基づいた音声として再生される。なお、再生データ作成部302は、複数人数の音声データを再生する場合は、音声合成部301から送られた優先度の情報に基づいて、順に音声データが再生されるように再生データを作成する。そして、作成された再生データは、再生データ作成部302によって、HDD177に出力され、再生データ記憶領域117eに記憶される。また、画像処理アプリケーション201は、再生データの再生要求に基づいて、再生データ記憶領域117eに記憶された再生データを読み出して、LCD121及びスピーカ128によってこの読み出した再生データの再生を実行する。なお、再生データ作成部302によって作成された再生データをHDD117に記憶せずに、LCD121及びスピーカ128によって再生データの再生を実行することも可能である。
次に図4は、本発明の一実施形態に係る画像処理装置を適用した画像処理方法の手順を示すフローチャートである。
コンピュータ10のCPU111は、HDD117等に記憶された画像処理アプリケーション201を起動して主メモリ112にロードする。CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する(ステップS101)。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う(ステップS102)。CPU111は、画像データの解析処理で人物が検出されたか否かを判別する(ステップS103)。ステップS103で、CPU111によって、画像データの解析処理において人物が検出されたと判別された場合(ステップS103のYES)、CPU111は、各人物ごとに顔領域の特徴量(表情)の検出処理を行う(ステップS104)。顔領域の特徴量の検出は、表情解析用データを読み出して参照することによって、人物の喜怒レベル、哀楽レベル等を検出する。さらに、ステップS104における特徴量の検出処理では、検出された人物の喜怒レベル、哀楽レベルに基づいて上述したセリフ優先度を設定する。一方、ステップS103で、CPU111によって、画像データの解析処理において人物が検出されないと判別された場合(ステップS103のNO)、処理を終了する。
続いて、CPU111は、人物の人数の情報に基づいて検出された人物が複数人数であるかを判別する(ステップS105)。ステップS105で、CPU111によって、検出された人物が複数人数であると判別された場合(ステップS105のYES)、CPU111は、検出された人物の喜怒レベル、哀楽レベルに基づいて、それぞれの人物の他の人物との近似度を検出する(ステップS106)。一方、ステップS105で、CPU111によって、検出された人物が複数人数でないと判別された場合(ステップS105のNO)、ステップS107に遷移する。
そして、CPU111は、音声データの作成処理を行う(ステップS107)。音声データの作成処理は、上述した、検出された人物の喜怒レベル及び哀楽レベルの情報、セリフ優先度、近似度に基づいて、該当するコメントデータが選択され、選択されたコメントデータに基づいて行われる(後述)。
さらに、CPU111は、再生データの作成処理を行う(ステップS108)。再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて、再生を行うことが可能な状態としたデータである。作成された再生データは、CPU101によって、例えばHDD117の再生データ記憶領域117eに記憶される。
次に、以上説明したフローチャートを具体例を用いて説明する。
具体的には、CPU111は、画像処理アプリケーション201と共に、HDD117の画像データ記憶領域117aから画像データの読み込みを実行する場合、例えば、図5に示されるように、画像データの読み込みを行う。続いて、CPU111は、読み込んだ画像データの解析処理(人物及び人数の検出)を行う。この場合、CPU111は、図5に示されるように、画像データ内の人物及び人数の検出を行う。例えば、画像データ内の人物として4人の人物が検出された場合は、人物1、2、M、Nと番号(以下、表情番号とも称する)が付される。CPU111によって、人物が検出されたと判別された場合、CPU111は、各人物1、2、M、N毎に特徴量の検出処理を行う。
図6は、喜怒レベル及び哀楽レベルの設定方法について模式的に示した図である。例えば、同図に示されるように、喜怒レベル及び哀楽レベルを、例えば、−10.0〜10.0の範囲の数値で割り当てる。この場合、最も喜怒レベル及び哀楽レベルが高い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル10.0を割り当てる。同様に、最も喜怒レベル及び哀楽レベルが低い状態として設定する表情に対して、それぞれ喜怒レベル及び哀楽レベル−10.0を割り当てる。そして、最も喜怒レベル及び哀楽レベルが低い状態と最も喜怒レベル及び哀楽レベルが高い状態との間を例えば、100等分することで、各喜怒レベル及び哀楽レベルを100段階である−10.0〜10.0の範囲の数値で割り当てる。なお、同図を数値化したデータは、HDD117の表情解析用データ記憶領域117bに記憶される。
図7は、検出された特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てた場合の一例を模式的に示す図である。例えば、同図に示されるように、検出された人物の特徴量に基づいて、人物1、2、M、Nの表情番号毎に喜怒レベル、哀楽レベルを数値で割り当てる。例えば、表情番号1の喜怒レベルは8.1、哀楽レベルは9.4として割り当てる。
上述したように、各表情番号に対して、喜怒レベル及び哀楽レベルの割り当てが完了した後に、特徴量の検出処理において、セリフ優先度を設定する。このセリフ優先度は、例えば、図7に示されるように、喜怒レベル及び哀楽レベルの数値の大きい表情番号のものから順に1、2、・・・と番号を付する。例えば、喜怒レベル及び哀楽レベルの数値の大きい表情番号1の人物に対してセリフ優先度を1として設定する。
また、CPU111によって、検出された人物が複数人数であると判別された場合、CPU111は、人物の近似度を検出する。この場合、近似度は、「1」に近づくほど表情が似ていることを示す。近似度を検出する場合は、上述した喜怒レベル及び哀楽レベルの数値を参照する。喜怒レベル及び哀楽レベルの数値が最も近い表情番号同士を比較することで、0.0〜1.0までの値を付する。例えば、表情番号2と表情番号Nとを比較する場合、喜怒レベル及び哀楽レベルの小さい数値を大きい数値で除算し、平均値を取る。
喜怒レベル -4.2/-4.3=0.98、哀楽レベル 6.2/6.3=0.98、平均値=0.98
となり、近似度は、0.98と求められる。求められた近似度に基づいて、CPU111は、最も近い表情番号を決定する。
図8は、検出された人物が複数人数である場合の同一のセリフを与える近似度の閾値を示すテーブルデータを示す図である。同図のデータは、HDD117の閾値記憶領域117fに記憶されている。例えば、同図に示されるように、CPU111によって検出された人数が2人であり、そのときの近似度が0.98の場合、閾値は0.98であるので、CPU111は、検出された2人の人物の音声データを作成するために用いるコメントデータに同一のコメントデータを用いる。
図9は、表情番号毎に喜怒レベル、哀楽レベル、セリフ優先度、最も近い表情番号、及び近似度を対応づけたテーブルデータを示す図である。例えば、表情番号2及び表情番号Nは、CPU111によって、喜怒レベル及び哀楽レベルから上述したように近似度が0.98と求められる。同様にして、CPU111によって、すべての表情番号同士の組み合わせについて近似度を求める。このようにすることで、CPU111によって、近似度の一番高い(1に近い)表情番号2及び表情番号Nが互いに最も近い表情番号であると判別することができる。
図10は、コメントデータ等が予め記憶されているデータベースの一例を示す図である。同図のデータは、HDD117のコメントデータ記憶領域117dに記憶されている。CPU111は、上述した喜怒レベル及び哀楽レベルに基づいて、コメントデータを選択するには、例えば、表情番号1は、喜怒レベル8.1及び哀楽レベル9.4であるので(図9参照)、図10中のテーブルデータの上から2番目の範囲に該当する。即ち、該当するコメントデータは、「コメント1:これでどうだー!!」及び「コメント2:最高!」となる。コメントデータがこのように複数ある場合には、例えば、CPU111によってランダムで選択を行う。例えば、CPU111によって「コメント1:これでどうだー!!」が選択される。
図11は、表情番号毎に選択されたコメントデータ、喜怒レベル及び哀楽レベル、セリフ優先度、最も近い表情番号、近似度をテーブルデータとして示す図である。同様に、表情番号2は、喜怒レベル−4.3及び哀楽レベル6.2であるので、図10中のテーブルデータの一番下の範囲に該当する。即ち、該当するコメントデータは、「コメント1:何だかすごい自信だ」及び「コメント2:納得できないな」となる。複数のコメントデータがある場合、例えば、CPU111によってランダムで選択を行い、「コメント1:何だかすごい自信だ」が選択される(図11参照)。また、表情番号Nは、表情番号2との近似度が上述した閾値以上であるので(図8参照)、同一のコメント与えるため、CPU111によって、表情番号2と同じコメントデータが選択される(図11参照)。また、表情番号2及び表情番号Nは、CPU111によって、同じセリフ優先度である例えば2が選択される。
次に、音声データの作成処理は、CPU111によって上述したコメントデータに基づいて行われる。例えば、表情番号2及び表情番号Nは、同じコメントデータが選択されているので、「コメント1:何だかすごい自信だ」に基づいて、CPU111は、異なる声色で音声データを2つ作成する。また、図10に示されるようにテンポ4が該当するので、CPU111は、予め設定されている早さの10段階中の4段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは6が該当するので、CPU111は、予め設定されている大きさの10段階中の6段階目の大きさで再生を行うように音声データを作成する。CPU111は、表情番号1について、例えば「コメント1:これでどうだー!!」を用いて音声データを合成し、音声データを作成する。また、図10に示されるように、表情番号1はテンポ8が該当するので、CPU111は、予め設定されている早さの10段階中の8段階目の早さで音声データの再生を行うように音声データを作成する。また、音の大きさは8が該当するので、CPU111は、予め設定されている大きさの10段階中の8段階目の大きさで再生を行うように音声データを作成する。
再生データは、この作成した音声データの基となった画像データ、この画像データが表示されているときに再生する音声データ、そして音声データが複数ある場合は、音声データを再生する優先順位であるセリフ優先度の情報、テンポ情報、音の大きさの情報を関連付けて再生を行うことが可能なデータである。例えば、表情番号2及び表情番号Nは、元画像データが表示されている間に、セリフ優先度は2であるので、2番目に異なる声色で音声データが出力されるように設定された再生データを作成する
図12は、作成された再生データをLCD121及びスピーカ128を用いて再生処理を行う状態を模式的に示す図である。CPU111は、再生データの再生要求を受信すると、LCD121に元の画像データを表示すると共に、スピーカ128からセリフ優先度に従って音声データを順次出力する。例えば、まず、セリフ優先度1である表情番号1の音声データである「これでどうだー!!」が再生される(テンポ8、音の大きさ8)。続いて、セリフ優先度2である表情番号2及び表情番号Nの音声データである「何だかすごい自信だ」が2つの声色で同時に再生される(テンポ4、音の大きさ6)。例えば、嬉しいときには、大きな音で比較的早いテンポで再生し、悲しいときには小さな音でゆっくりしたテンポで再生する等を行うことができる。
なお、上述したような再生データをCPU111により順次再生することにより、複数の画像に対して音声データを付して再生することができ、ユーザはスライドショーとしても閲覧することができる。さらに、本発明は、デジタルフォトフレーム、オートコラージュとして利用することもできる。デジタルフォトフレームは、画像データを記憶しておき、記憶した画像データを内蔵する表示モニタ上に表示させる機能を備えた写真立て形状の装置である。また、デジタルフォトフレームは、スピーカを備えており、本実施形態の再生データの作成や再生データの再生処理を行うことができる。また、オートコラージュとは、複数の画像を組み合わせて表示した画像であるフォトモンタージュや画像を順次表示するスライドショーといった画像提示手法である。即ち、表示する画像データは1つに限定されることはなく、複数の画像データを同時に表示するようにしてもよい。
さらに、上述した実施形態では、予め用意しておいたコメントデータから音声データを作成しているが、これに限定されることはない。即ち、画像データを撮影した場合に、録音した音声データを用いることも可能である。また、音声データを音声で出力するだけでなく、吹き出しを表示して吹き出しの中にテキストとして表示するようにしてもよい。
以上、上述した実施形態によれば、画像データ内の人物の表情に対応したテンポや音量で音声コメントデータを自動的に出力することができる。このため、閲覧者は、臨場感溢れる画像データを閲覧することができる。
また、本実施形態の画像処理装置はコンピュータ10によって実現するのみならず、例えば、PDA(Personal Digital Assistant)のような様々なコンシューマ画像処理装置によって実現することもできる。さらに、入力制御アプリケーションの機能は、DSP、マイクロコンピュータのようなハードウェアによっても実現可能である。
また、本発明は、前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
10…コンピュータ、11…コンピュータ本体、12…ディスプレイユニット、21…電源ボタン、111…CPU、121…LCD、124…タッチパッド、127…カメラ、128…スピーカ、201…画像処理アプリケーション、202…OS、300…画像解析部、301…音声合成部、302…再生データ作成部

Claims (6)

  1. 複数のコメントデータと前記コメントデータに対応する音声データを再生するテンポを示すテンポ情報及び再生する音量を示す音量情報とを記憶する記憶手段と、
    画像データに含まれる人物を識別して前記人物の表情を解析し、複数の人物について解析された表情の近似度を判別する解析手段と、
    前記解析手段によって解析された前記人物の表情に基づいて、前記記憶手段に記憶されている複数のコメントデータから対象コメントデータと対象テンポ情報及び対象音量情報とを選択し、前記対象コメントデータと前記対象テンポ情報及び前記対象音量情報とを用いて音声データを作成するものであって、前記近似度に基づいて前記複数の人物に対して同じ前記対象コメントデータを選択し、選択された同じ前記対象コメントデータを用いて前記複数の人物それぞれに対応する声色が異なる音声データを作成する作成手段と、
    前記作成手段によって作成された音声データと共に、前記画像データを表示するための再生データを出力する出力手段と、
    を具備することを特徴とする画像処理装置。
  2. 前記解析手段は、前記画像データに前記人物が複数含まれる場合、それぞれの前記人物の表情に基づいて前記人物ごとの優先度を決定し、
    前記作成手段は、前記優先度に応じた順に音声データを作成することを特徴とする請求項1に記載の画像処理装置。
  3. 前記解析手段は、前記人物の表情を喜怒レベルと哀楽レベルとに数値化し、
    前記作成手段は、前記喜怒レベルと前記哀楽レベルとに基づいて、前記対象コメントデータと前記対象テンポ情報及び前記対象音量情報とを選択することを特徴とする請求項1に記載の画像処理装置。
  4. 前記閾値は、前記複数の人物の人数に応じて異なる値とすることを特徴とする請求項1に記載の画像処理装置。
  5. 前記出力手段は、複数の画像データに関する再生データを連続して出力することによりスライドショーを実行することを特徴とする請求項1に記載の画像処理装置。
  6. 画像データに音声データを付して再生を行う情報処理装置で用いられる画像処理方法であって、
    複数のコメントデータと前記コメントデータに対応する音声データを再生するテンポを示すテンポ情報及び再生する音量を示す音量情報とを記憶し、
    画像データに含まれる人物を識別して前記人物の表情を解析し、複数の人物について解析された表情の近似度を判別し、
    前記解析によって解析された前記人物の表情に基づいて、記憶されている複数のコメントデータから対象コメントデータと対象テンポ情報及び対象音量情報とを選択し、前記対象コメントデータと前記対象テンポ情報及び前記対象音量情報とを用いて音声データを作成するものであって、前記近似度に基づいて前記複数の人物に対して同じ前記対象コメントデータを選択し、選択された同じ前記対象コメントデータを用いて前記複数の人物それぞれに対応する声色が異なる音声データを作成し、
    前記作成された音声データと共に、前記画像データを表示するための再生データを出力することを特徴とする画像処理方法。
JP2009156273A 2009-06-30 2009-06-30 画像処理装置および画像処理方法 Expired - Fee Related JP4660611B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009156273A JP4660611B2 (ja) 2009-06-30 2009-06-30 画像処理装置および画像処理方法
US12/791,779 US8391544B2 (en) 2009-06-30 2010-06-01 Image processing apparatus and method for processing image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009156273A JP4660611B2 (ja) 2009-06-30 2009-06-30 画像処理装置および画像処理方法

Publications (2)

Publication Number Publication Date
JP2011013384A JP2011013384A (ja) 2011-01-20
JP4660611B2 true JP4660611B2 (ja) 2011-03-30

Family

ID=43380776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009156273A Expired - Fee Related JP4660611B2 (ja) 2009-06-30 2009-06-30 画像処理装置および画像処理方法

Country Status (2)

Country Link
US (1) US8391544B2 (ja)
JP (1) JP4660611B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201206192A (en) * 2010-07-23 2012-02-01 Hon Hai Prec Ind Co Ltd Detection device and method
JP2012156647A (ja) * 2011-01-24 2012-08-16 Nikon Corp デジタルカメラおよびカメラ付き電子機器
JP5964547B2 (ja) 2011-01-25 2016-08-03 日本特殊陶業株式会社 グロープラグおよびその製造方法
JP5845686B2 (ja) * 2011-07-26 2016-01-20 ソニー株式会社 情報処理装置、フレーズ出力方法及びプログラム
CN105245917B (zh) * 2015-09-28 2018-05-04 徐信 一种多媒体语音字幕生成的系统和方法
KR101864439B1 (ko) * 2017-04-13 2018-06-11 황대훈 가짜 뉴스 판별 가능한 게시글 그래픽 유저 인터페이스 화면창을 구비한 가짜 뉴스 판별 시스템
CN109427341A (zh) * 2017-08-30 2019-03-05 鸿富锦精密电子(郑州)有限公司 语音输入系统及语音输入方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025633A1 (fr) * 2000-09-20 2002-03-28 Kaori Tsuruta Procede/systeme de reproduction d'images, procede/systeme de mise en forme d'images, album electronique, et systeme de creation/d'emission/de distribution pour un tel album
JP2003317074A (ja) * 2002-04-25 2003-11-07 Ricoh Co Ltd 電子アルバムシアタサービス提供システム、電子アルバムシアタサービス提供方法、該システムの機能を実現するプログラム及び記録媒体
JP2009081785A (ja) * 2007-09-27 2009-04-16 Casio Comput Co Ltd 撮像装置、画像生成方法、およびプログラム
JP2009253931A (ja) * 2008-04-11 2009-10-29 Casio Comput Co Ltd 電子データ編集装置、電子データ編集方法及びプログラム
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010176224A (ja) * 2009-01-27 2010-08-12 Nikon Corp 画像処理装置およびデジタルカメラ

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5325462A (en) * 1992-08-03 1994-06-28 International Business Machines Corporation System and method for speech synthesis employing improved formant composition
US7376696B2 (en) * 2002-08-27 2008-05-20 Intel Corporation User interface to facilitate exchanging files among processor-based devices
US20050096909A1 (en) * 2003-10-29 2005-05-05 Raimo Bakis Systems and methods for expressive text-to-speech
CN100533477C (zh) 2005-02-03 2009-08-26 日本先锋公司 图像编辑装置、图像编辑方法
JP4710550B2 (ja) 2005-10-31 2011-06-29 セイコーエプソン株式会社 画像におけるコメントレイアウト

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025633A1 (fr) * 2000-09-20 2002-03-28 Kaori Tsuruta Procede/systeme de reproduction d'images, procede/systeme de mise en forme d'images, album electronique, et systeme de creation/d'emission/de distribution pour un tel album
JP2003317074A (ja) * 2002-04-25 2003-11-07 Ricoh Co Ltd 電子アルバムシアタサービス提供システム、電子アルバムシアタサービス提供方法、該システムの機能を実現するプログラム及び記録媒体
JP2009081785A (ja) * 2007-09-27 2009-04-16 Casio Comput Co Ltd 撮像装置、画像生成方法、およびプログラム
JP2009253931A (ja) * 2008-04-11 2009-10-29 Casio Comput Co Ltd 電子データ編集装置、電子データ編集方法及びプログラム
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010176224A (ja) * 2009-01-27 2010-08-12 Nikon Corp 画像処理装置およびデジタルカメラ

Also Published As

Publication number Publication date
US20100329505A1 (en) 2010-12-30
US8391544B2 (en) 2013-03-05
JP2011013384A (ja) 2011-01-20

Similar Documents

Publication Publication Date Title
JP4660611B2 (ja) 画像処理装置および画像処理方法
WO2021135655A1 (zh) 生成多媒体资源的方法及设备
US11301113B2 (en) Information processing apparatus display control method and program
WO2021068903A1 (zh) 确定音量的调节比例信息的方法、装置、设备及存储介质
WO2021135678A1 (zh) 生成剪辑模板的方法、装置、电子设备及存储介质
JP2016119600A (ja) 編集装置及び編集方法
WO2019127899A1 (zh) 歌词添加方法及装置
CN111625682B (zh) 视频的生成方法、装置、计算机设备及存储介质
JP2011217183A (ja) 電子機器、画像出力方法及びプログラム
CN112883223A (zh) 音频展示方法、装置、电子设备及计算机存储介质
US7809677B2 (en) Data processing method, portable player and computer
JP2014130467A (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN112908288A (zh) 节拍检测方法、装置、电子设备和存储介质
TWI299466B (en) System and method for providing presentation files for an embedded system
JP2007121916A (ja) 二重唱パートナーを推薦するカラオケ関連情報処理システム
JP5550446B2 (ja) 電子機器及び動画像生成方法
JP2011119786A (ja) 情報処理装置およびコンテンツ表示制御方法
JP7263957B2 (ja) 情報装置、自動設定方法及び自動設定プログラム
JP3409999B2 (ja) データ編集装置及びデータ編集方法
JP5479198B2 (ja) 電子機器及び画像処理プログラム
JP2012118286A (ja) 利用者属性対応カラオケシステム
JP2009265714A (ja) 画像表示方法、画像表示プログラム、および楽曲再生装置
CN112738624A (zh) 用于视频的特效渲染的方法和装置
JP2014150435A (ja) 再生装置および再生プログラム
CN107589929A (zh) 一种信息显示方法、装置及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101228

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees