JP2002074384A - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JP2002074384A
JP2002074384A JP2000268858A JP2000268858A JP2002074384A JP 2002074384 A JP2002074384 A JP 2002074384A JP 2000268858 A JP2000268858 A JP 2000268858A JP 2000268858 A JP2000268858 A JP 2000268858A JP 2002074384 A JP2002074384 A JP 2002074384A
Authority
JP
Japan
Prior art keywords
data
sound
sound data
moving image
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000268858A
Other languages
English (en)
Inventor
Ai Ito
愛 伊藤
Minehiro Konya
峰弘 紺矢
Yoshinori Nagai
義典 長井
So Takezawa
創 竹澤
Atsuo Matsuoka
篤郎 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2000268858A priority Critical patent/JP2002074384A/ja
Publication of JP2002074384A publication Critical patent/JP2002074384A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 動画像の微細な差異に応じた音、または音声
を出力することを可能とし、多彩な音の表現を実現す
る。 【解決手段】 特徴量が異なる動画からなる複数の動画
部品データを、特徴量が異なる部品種類ごとに、複数の
画像種別に応じて予め動画部品データ記憶手段103に
記憶している。従って、動画部品データを指定すること
により、テンプレートに対応して規定されている部品配
置に動画像からなる部品を配置し、容易に画像を合成し
て、その変化を動画像として表現する。また、1個の動
画部品データに対して1音の音または音声データを音デ
ータ記憶手段110に記憶しているので、動画部品デー
タを指定することにより、その動画部品に対応して1個
ずつ規定されている音データを音データ抽出手段109
が音データ記憶手段110から抽出し、それぞれの動画
像固有の特徴に合わせた音データを出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えばパーソナル
コンピュータ、ワードプロセッサ、ワークステーショ
ン、携帯型情報ツール、複写機、スキャナ装置、ファク
シミリ装置、テレビジョン受像機、ビデオテープレコー
ダ、ビデオカメラ等に用いられ、入力した画像に関する
特定の特徴量、例えば人物画像における目や口などの位
置や大きさ、形状などを抽出することができ、その抽出
情報に基づいて、入力した画像から操作者の所望する状
態の画像、例えば表情変化などを表現した動画像を、行
為や感情を表現する効果音とともに生成することのでき
る画像処理装置に関する。
【0002】
【従来の技術】従来より、入力した人物画像から、目や
口などの位置や大きさ、形状などの特徴量を抽出し、そ
の抽出情報に基づいて人物画像を生成し、その生成した
人物画像を表示する際に、同時にその人物画像に対応す
る音声を外部に出力するように構成された音声出力装置
が、特開平7−308344号公報に開示されている。
【0003】この音声出力装置は、複数の部分画像を組
み合わせて物体画像を作成し、その作成した物体画像を
表示する際に、その物体画像を構成する各部分画像をそ
れぞれ指定する指定用の数値の合計値と一致する数値、
またはその合計値が含まれる数値群に対応する音声デー
タを読み出し、この読み出した音声データに基づいた音
声を外部に出力することにより、作成された物体画像に
ふさわしい、適切な音声を出力するようになっている。
【0004】より詳細に説明すると、基本パーツ画像メ
モリには、人間、動物、宇宙人等ごとに、その似顔絵を
構成する各部分が、輪郭、髪型、眉、目、鼻、口などの
各部位に分けられて記憶されている。また、各部位は、
それぞれ部位No、パターンNoに対応付けられて記憶され
ている。この基本パーツ画像メモリに記憶されている各
パーツを組み合わせることで、人間や動物等ごとに、予
め定められたモンタージュ画像を得ることができる。ま
た、音声メッセージメモリには、状況に応じて出力され
る予め定められた各種音声メッセージデータが記憶され
ている。
【0005】各パーツは、パターンNoが小さい数値か
ら、大きな数値になるにつれて順に可愛い顔つき、かっ
こ良い顔つき、奇異な顔つき、怖い顔つきになるような
配列関係で、各パターンNoと各パーツ画像とを対応付け
て記憶している。そして、使用者により選択された各パ
ーツ画像の組み合わせにより作成された顔のモンタージ
ュ画像について、その各構成パーツのパターンNoの合計
値を算出し、その合計値の大きさに対応する音声メッセ
ージを出力するようになっている。
【0006】
【発明が解決しようとする課題】しかしながら、上記し
た従来の音声出力装置では、顔の合成結果に変化を出す
ことはできても、同じ性別や、同じ年代、また同じよう
な動物種類などのデータを作成した場合には、選択した
パーツに指定されているパターンNoの合計値が同じよう
な数値になるため、合計値と一致する数値、またはその
合計値が含まれる数値群に対応する音声データが出力さ
れることになる。つまり、合成結果の画像が異なって
も、出力する音声データにバリエーションを持たせるこ
とが難しいといった問題があった。
【0007】本発明はかかる問題点を解決すべく創案さ
れたもので、その目的は、動画データと、音声、効果音
などの音データとを1対1、もしくは1対2以上で対応
して所持することにより、動画像の微細な差異に応じた
音、または音声を出力することが可能となり、多彩な音
の表現を実現した画像処理装置を提供することにある。
【0008】
【課題を解決するための手段】上記課題を解決するた
め、本発明の画像処理装置は、特徴量が異なる複数の部
品種類を有し、各部品種類ごとに複数の動画像からなる
複数の動画部品データを記憶している動画部品データ記
憶手段と、この動画部品データ記憶手段から任意の動画
部品データを抽出する動画部品データ抽出手段と、1個
の動画部品データに対して1音の音または音声データを
記憶している音データ記憶手段と、この音データ記憶手
段から、動画部品データに対応する音または音声データ
を抽出する音データ抽出手段と、前記動画部品データ抽
出手段により抽出された動画部品データを、部品種類ご
とに定められた位置に配置する部品配置手段と、動画像
の表示に同期し、その表示される動画部品データに対応
させて前記音データ抽出手段により抽出された音または
音声データを出力する画像音データ出力手段とを備えて
いることを特徴とする。
【0009】このような特徴を有する本発明によれば、
特徴量が異なる動画からなる複数の動画部品データを、
特徴量が異なる部品種類ごとに、複数の画像種別に応じ
て予め動画部品データ記憶手段に記憶している。従っ
て、動画部品データを指定することにより、テンプレー
トに対応して規定されている部品配置に動画像からなる
部品を配置し、容易に画像を合成して、その変化を動画
像として表現することができる。また、1個の動画部品
データに対して1音の音または音声データを音データ記
憶手段に記憶しているので、動画部品データを指定する
ことにより、その動画部品に対応して1個ずつ規定され
ている音データを音データ記憶手段から抽出すること
で、それぞれの動画像固有の特徴に合わせた音データを
出力することができる。
【0010】また、本発明の画像処理装置は、入力され
た画像からその画像を構成する部品の特徴情報を抽出す
る特徴抽出手段をさらに備え、動画部品データ抽出手段
は、特徴抽出手段により抽出された特徴情報に基づい
て、動画部品データ記憶手段から適切な動画部品データ
を抽出することを特徴とする。
【0011】このような特徴を有する本発明によれば、
入力画像からその画像中の部品の位置や大きさ等の特徴
情報を抽出し、その特徴情報に基づいて、テンプレート
に対応して規定されている部品配置に動画からなる部品
を配置することにより、特徴を反映した音の画像を容易
に合成し、音と動画像とを同期して出力することが可能
となる。また、原画となる入力画像の特徴を抽出するた
め、的確な表現が可能となる。さらに、入力画像には、
全身像や風景画等も利用できるので、原画の特徴を再現
するのに効果的である。
【0012】また、本発明の画像処理装置によれば、音
データ記憶手段には、1個の動画部品データに対し、2
音以上の音または音声データが記憶されており、1個の
動画部品データに対応する複数の音または音声データか
ら1音を選択して出力する音データ選択手段をさらに備
えていることを特徴とする。
【0013】このような特徴を有する本発明によれば、
1個の動画部品データに対して1対複数で対応する音デ
ータを、ランダムに若しくは内蔵した時計の時刻により
選択可能であるため、多様なバリエーションを持つ音デ
ータを出力することが可能となる。
【0014】また、本発明の画像処理装置は、音データ
抽出手段により抽出された音または音声データを、入力
画像の特徴によって加工する音データ加工手段をさらに
備えていることを特徴とする。
【0015】このような特徴を有する本発明によれば、
1個の動画部品データに対して1対1、または1対複数
で対応する音データを、入力画像の特徴によって選択さ
れるテンプレートに対応して加工し、出力することによ
り、画像の特徴を反映した音データを容易に出力するこ
とが可能となる。
【0016】また、本発明の画像処理装置は、音データ
抽出手段により抽出された音または音声データを、原画
となる入力画像のサイズや特徴によって異なる音または
音声データに変更して出力する音データ変更手段をさら
に備えていることを特徴とする。
【0017】このような特徴を有する本発明によれば、
1個の動画部品データに対して1対1、または1対複数
で対応する音データを、入力画像の特徴によって選択さ
れるテンプレートに対応して異なる音データに変更して
出力することにより、画像の特徴を反映した音データを
容易に出力することが可能となる。
【0018】また、本発明の画像処理装置は、2音以上
の音または音声データが同時に出力される場合、音また
は音声データの開始時刻をずらせて出力する音データ出
力時間変更手段をさらに備えていることを特徴とする。
【0019】このような特徴を有する本発明によれば、
複数の動画部品を合成して生成された画像に対し、動画
部品データに対応した音データの開始時刻を部品ごとに
ずらせて出力することにより、聞き取りやすく効果的な
音を出力することができる。
【0020】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。
【0021】図1は、本発明の画像処理装置の一実施形
態を示すブロック図である。
【0022】本実施形態の画像処理装置は、画像入力手
段100、特徴量抽出手段101、動画部品データ抽出
手段102、動画部品データ記憶手段103、合成配置
決定手段104、部品変形配置情報記憶手段105、配
置位置補正手段106、部品変形手段107、部品配置
手段108、音データ抽出手段109、音データ記憶手
段110、音データ加工手段111、音データ変更手段
112、音データ出力時間変更手段113、動画音情報
記憶手段114、音データ選択手段115、および画像
音データ出力手段116によって構成されている。
【0023】画像入力手段100は、顔画像や人物画像
等を作成するための元画像を入力するための手段であ
り、例えばスキャナ等が用いられる。特徴量抽出手段1
01は、入力された画像から各部品の形状、大きさ、画
像種等の特徴量を抽出する手段である。動画部品データ
抽出手段102は、抽出した特徴量に基づいて、対応す
る動画部品データを動画部品データ記憶手段103から
選択する手段であり、動画部品データ記憶手段103
は、動画部品データを蓄積する手段である。
【0024】合成配置決定手段104は、抽出した特徴
量に基づいて、画像を構成する配置テンプレートを決定
し、その配置テンプレートに対応する部品の変形や配置
に関する情報を、部品変形配置情報記憶手段105から
引き出す手段であり、部品変形配置情報記憶手段105
は、部品の変形や配置に関する情報を蓄積する手段であ
る。
【0025】配置位置補正手段106は、部品変形配置
情報記憶手段105から引き出された部品変形配置情報
を、特徴量に基づいて補正を行う手段である。部品変形
手段107は、配置位置補正手段106によって引き出
された変形情報に基づき、合成配置決定手段104によ
って選択した配置テンプレートに適した形に、動画部品
データのサイズ、形状等の変形を行う手段である。部品
配置手段108は、配置位置補正手段106が生成し、
部品変形手段107が配置テンプレートに適した形に変
形を行った動画部品データを、合成配置決定手段104
が選択した配置テンプレート上の適当な位置に配置する
ための手段である。
【0026】音データ抽出手段109は、抽出した動画
部品データに1対1、若しくは1対複数で対応する音デ
ータを音データ記憶手段110から選択する手段であ
り、音データ記憶手段110は、すべての動画部品デー
タに1対1、若しくは1対複数個で対応する音データ
と、音データの変更時に必要となる音データ(変更デー
タ)とを蓄積する手段である。
【0027】音データ加工手段111は、抽出した特徴
情報から、合成配置決定手段104が選択した配置テン
プレートの種類に基づき、音データを加工する手段であ
る。音データ変更手段112は、抽出した特徴情報か
ら、合成配置決定手段104が選択した配置テンプレー
トの種類に基づいてテーブルデータを参照し、動画部品
データに対応する音データを変更用音データに変更し
て、音データ記憶手段105から音データを抽出する手
段である。
【0028】音データ出力時間変更手段113は、音の
出力順を記憶したテーブルデータを参照して、合成され
た動画部品データに対応する音データの出力順を決定す
る手段である。動画音情報記憶手段114は、音データ
変更に使用する変更データや、音データの出力時間を変
更するための音データ出力時間を参照するためのテーブ
ルデータを記憶する手段である。音データ選択手段11
5は、1個の動画部品データに対し、複数個の音データ
がある場合に、ランダムに若しくは時間帯の条件(内蔵
した時計の時刻)により、音データを選択する手段であ
る。画像音データ出力手段116は、CRT等の表示装
置およびスピーカなどの出力装置からなり、動画部品を
合成することにより生成した画像データと、動画部品デ
ータに対応する音データとを出力する手段である。
【0029】次に、上記各手段のうち、本発明の要部で
ある手段について、さらに詳しく説明する。
【0030】まず、音データ加工手段111について、
さらに詳しく説明する。
【0031】1個の動画部品データに対して、音データ
は予め1個用意されている。この音データは、入力画像
の特徴に応じて加工される。
【0032】例えば、人物の顔画像を入力した場合にお
いて、合成配置決定手段104は、顔輪郭の横幅を測定
し、一定基準より太めであれば太めの配置テンプレー
ト、一定基準の範囲内であれば普通の配置テンプレー
ト、一定基準より細めであれば細めの配置テンプレート
を選択する。また、顔部位の配置を測定し、顔輪郭に対
し目の位置が一定基準より下にあれば子供用の配置テン
プレートを選択する。
【0033】音データ加工手段111は、この選択結果
に基づいて、音データの加工を行う。例えば、合成配置
決定手段104が太めの配置テンプレートを選択した場
合においては、抽出した動画部品データに対応する音声
データの周波数を低くするという加工を行うことによ
り、特徴に適した音声データを出力することが可能にな
り、動画像の表現に変化を与えることができる。
【0034】次に、音声データ変更手段112につい
て、さらに詳しく説明する。
【0035】1個の動画部品データに対して、音データ
は予め1個用意されている。この音データは、入力画像
の特徴に応じて加工される。
【0036】例えば、人物の顔画像を入力した場合にお
いて、合成配置決定手段104は、顔輪郭の横幅を測定
し、一定基準より太めであれば太めの配置テンプレー
ト、一定基準の範囲内であれば普通の配置テンプレー
ト、一定基準より細めであれば細めの配置テンプレート
を選択する。また、顔部位の配置を測定し、顔輪郭に対
し目の位置が一定基準より下にあれば子供用の配置テン
プレートを選択する。
【0037】音データ変更手段112は、この選択結果
に基づいて、音データの変更を行う。例えば、合成配置
決定手段104が子供用の配置テンプレートを選択した
場合においては、抽出した動画部品データに対応する音
声データに対する変更用音データを、動画音情報記憶手
段114に記憶されているテーブルデータを参照して、
音データ記憶手段110から抽出し、特徴に適した音デ
ータを出力することが可能になり、動画像の表現に変化
を与えることができる。
【0038】次に、音データ出力時間変更手段113に
ついて、さらに詳しく説明する。
【0039】音データ出力時間変更手段113は、動画
部品データを合成した結果、動画部品データが個別に対
応する音データの出力時間を統制するものである。すな
わち、動画表示と同期して行われる音データ出力の時間
を、テーブルデータを参照することにより、部品ごとに
ずらせて出力するものである。
【0040】例えば、テーブルデータに、動画表示開始
から音データの出力開始までの時間を記憶しておくこと
により、音データ出力時間変更手段113は、動画音情
報記憶手段114に記憶されているテーブルデータを参
照して、音データの出力時間を遅らせるものである。具
体的に説明すると、例えば口のデータの音出力と、目の
データの音出力との時間をずらすために、テーブルデー
タには、目データの音出力を遅らせるための待機時間を
記憶させておく。これにより、音データが同時に出力さ
れることがなく、聞き取りやすい音を出力することが可
能になる。
【0041】次に、音データ選択手段115について、
さらに詳しく説明する。
【0042】音データ選択手段115は、動画部品デー
タに対応する音データを、音データ記憶手段110から
抽出する際に、音データが複数個用意されている場合に
は、どの音データを使用するかを、乱数等を利用してラ
ンダムに選択するものである。例えば、1個の口データ
に対する音データが複数あった場合に、どれか1つの音
データをランダムに選択することにより、出力するたび
に、ユーザの予想がつかない音データを出力することが
可能になる。また、この選択は、ランダムに選択するだ
けでなく、内蔵した時計の時刻により選択するようにし
てもよい。
【0043】なお、特徴量抽出手段101、動画部品デ
ータ抽出手段102、合成配置決定手段104、配置位
置補正手段106、部品変形手段107、部品配置手段
108、音データ抽出手段109、音データ加工手段1
11、音データ変更手段112、音データ出力時間変更
手段113および音データ選択手段115は、演算処理
を行う装置であり、動画部品データ記憶手段103、部
品変形配置情報記憶手段105、音データ記憶手段11
0および動画音情報記憶手段114は、DRAM、EE
PROM、フラッシュメモリ等の記憶装置である。
【0044】図4は、上記構成の画像処理装置における
動画部品データ記憶手段103の構成を説明するための
図である。ここでは、顔部品「目」のデータを例に挙げ
て説明する。
【0045】図4に示すデータ401(eye11a)
は、動画部品データ記憶手段103に記憶されたデータ
のうちの1つであり、図3に示す画像の部品「目(ey
e)」として表示される。このデータ401は、部品の
画像または画像を生成するためのベクタ等のデータ(1
つから複数のベジェ曲線で構成されるデータ)である。
また、図4に示すデータ402(eye11a1)は、
401(eye11a)のまばたきの表情を示す動画表
示結果であり、動画部品データ記憶手段103には、4
01、402を表現する動画部品データが記憶されてい
る。同様に、データ403(eye11a2)は、40
1(eye11a)の驚きの表情を示す動画表示結果で
あり、動画部品データ記憶手段103には、401、4
03を表現する動画部品データが記憶されている。
【0046】また、データ404(eye21a)は、
データ401(eye11a)とは形状が異なる目のデ
ータを表しており、401(eye11a)と同様に、
まばたきの表情を表す動画部品データ405(eye2
1a1)と、驚きの表情を表す動画部品データ406
(eye21a2)とが動画部品データ記憶手段103
に記憶されている。
【0047】なお、動画部品データの表現できる表情
は、まばたきや驚きだけでなく、その他、多様な表情デ
ータを記憶している。また、動画部品データの部位も、
目のみでなく、図3に示すように、眉、鼻、口の他、人
物胴体のように多様な種類のデータが動画部品データ記
憶手段103に蓄積されている。
【0048】図5は、それぞれ合成配置決定手段104
で決定される配置テンプレートを図示したものであり、
この配置テンプレートの配置座標に合わせて、動画部品
データの配置を決定する。合成配置決定手段104は、
特徴量抽出手段101から抽出された特徴量から配置テ
ンプレートの決定を行う。すなわち、人物の顔画像を入
力した場合においては、顔輪郭の横幅を測定し、一定基
準より太めであれば、顔輪郭を模した太めの配置テンプ
レート(T−3)を選択し、一定基準の範囲内であれ
ば、普通の配置テンプレート(T−1)を選択し、一定
基準より細めであれば、細めの配置テンプレート(T−
2)を選択する。また、大人と顔部位の配置バランスが
異なる人物(例えば、子供)の画像を入力した場合に
は、(T−4)のような子供用の配置テンプレートを選
択する。
【0049】これらテンプレートには、動画部品データ
の配置座標が規定されており、この配置座標に合わせ
て、配置位置補正手段106によって特徴量に基づくサ
イズ変更などが施された動画部品データが配置されるも
のである。
【0050】図6は、動画部品データに対応する音デー
タと、音データの出力時間を変更するための音データ出
力時間の指定と、音データを変更する際に、変更後の音
データを指定するためのテーブルデータを説明するため
の図である。
【0051】図6では、eye11a、eye21a、
eye31aはそれぞれ目のデータの種類を表してお
り、mouth11a、mouth21aはそれぞれ口
のデータを表している。また、図6では、動画部品デー
タeye11aの動画部品データ種類に対して、表情を
表現する動画部品データがeye11a1、eye11
a2、eye11a3のように動画部品データ記憶手段
103に蓄積されていることを示しており、動画部品デ
ータeye11a1に対応して、音データe11a1
が、音データ記憶手段105に蓄積されている。また、
音データの出力は、口を基準にして行われるものとし、
動画部品データの出力は、テーブルデータの音出力時間
を参照し、口のデータの出力時刻より参照した時間だけ
遅らせて出力するものとする。
【0052】また、合成配置決定手段104で選択した
配置テンプレートにより、子供用の配置テンプレート
(T−4)であれば、テーブルデータの変更データを参
照して、動画部品データに対応する音データを抽出して
出力するものとする。
【0053】図7は、本実施形態の画像処理装置におけ
る音データ記憶手段110の構成を説明するための図で
ある。
【0054】音データ記憶手段110には、動画部品デ
ータ記憶手段103に記憶されている動画部品データに
対応して、音データが記憶されている。また、合成配置
決定手段104で選択した配置テンプレートが、子供用
の配置テンプレート(T−4)であった場合には、音デ
ータ変更手段112により、テーブルデータを参照して
音データが変更されるため、動画部品データに対応する
音データの変更後のデータが、変更データとして記憶さ
れている。
【0055】図8は、本実施形態の動画部品データと、
音データと、音データの変更を行う際の変更データの組
み合わせの一例を示した図である。この図では、eye
11aの部品種類の中のまばたきを表現する動画部品デ
ータeye11a1に対して、音データ抽出手段109
は、テーブルデータを参照してe11a1の音データを
音データ記憶手段110から抽出する。また、配置テン
プレートが子供用の配置テンプレート(T−4)であっ
た場合には、音データ変更手段112により、e11a
1bの音データを音データ記憶手段110から抽出する
ものである。音データe11a1は、まばたきのデータ
であるため、「パチパチ」といった音が出力され、ま
た、その変更データであるe11a1bでは、異なる
「パチン」といった音が出力される。
【0056】また、音データe11a2は驚きの表情を
表現するデータであり、対応する動画部品データは、
「目」が飛び出たような表現方法をとっている。そのた
め、この表現方法に合わせて、音データe11a2は、
「ビヨヨ−ン」といったバネがのびるような音を出力す
る。また、変更データであるe11a2bは、「ビョー
ン」といった短めのバネがのびるような音を出力するも
のである。
【0057】図9は、本実施形態の動画部品データと、
音データ選択手段115で選択される複数の音データの
組み合わせの一例を示した図である。この図では、mo
uth11aの部品種類の中の会話を表現する動画部品
データmouth11a1に対応する音データを抽出す
るが、このとき、対応するデータが複数あった場合に
は、音データ選択手段115により、複数あるデータの
中からランダムに1つの音データを選択する。この選択
結果により、音データ抽出手段109が、音データ記憶
手段110から音データを抽出するものである。
【0058】例えば、mouth11a1は会話のデー
タであるが、この会話のデータに対し、音データが、m
11a1、m11a1′、m11a1″と3種類あると
し、m11a1の音データが「こんにちは」、m11a
1′の音データが「ハロー」、m11a1″の音データ
が「やっほー」であった場合、音データ選択手段115
は、これらの中から出力する音データをランダムに選択
する。例えば、m11a1″「やっほー」が選択された
とすると、音データ抽出手段109は、このm11a
1″を抽出することになる。
【0059】なお、音データの選択は、ランダムに選択
される他、入力画像の特徴によって選択されるようにし
てもよく、また、時間などの条件によって選択されるよ
うにしてもよい。
【0060】次に、本実施形態の画像処理装置における
画像処理手順について、図2に示すフローチャートを参
照して説明する。
【0061】まず、ステップS1において、画像入力手
段100から、動画像を作成する元となる画像の入力を
行う。ここでは、人物の顔画像を入力したものとして、
以下説明を行うが、人物画像以外にも、動物の画像や風
景画像などでもよい。
【0062】次のステップS2では、入力された画像に
対して、特徴量抽出手段101により、入力画像に含ま
れる各部位の形状や大きさ等の特徴抽出を行う。人物顔
画像を入力した場合には、顔輪郭の幅、目、口等の形状
の特徴が抽出される。
【0063】次のステップS3では、動画部品データ抽
出手段102により、特徴量抽出手段101によって抽
出された特徴量に基づいて、動画部品データを動画部品
データ記憶手段103から選択し、次のステップS4で
は、合成画像を生成するために、合成配置決定手段10
4により、抽出された特徴量に基づいて、部品変形配置
情報記憶手段105に記憶されている部品の配置を規定
する部品配置テンプレートの座標情報を決定する。例え
ば、入力画像の顔輪郭幅が一定基準内であれば、(T−
1)の配置テンプレートの座標情報を選択する。
【0064】次のステップS5では、抽出した配置テン
プレートの座標情報に対応する、部品の変形や配置に関
する情報を、部品変形配置情報記憶手段105から抽出
する。この部品変形配置情報記憶手段105には、各部
品の配置場所や拡大率が部品ごとに設定されたテーブル
データが記憶されている。例えば、抽出した動画部品デ
ータを、選択した配置テンプレートに配置するための変
形を行うための情報を抽出することになる。従って、配
置テンプレートが細めである場合、配置テンプレートが
太めである場合、配置テンプレートが子供用である場合
によって、動画部品データを配置する際の拡大率は異な
る。
【0065】次のステップS6では、配置位置補正手段
106により、部品変形配置情報記憶手段105から引
き出した配置情報を、特徴量抽出手段101によって抽
出された特徴量に基づいて、より入力データに近い画像
を生成するために補正する。例えば、特徴量抽出手段1
01で抽出した特徴より、目等の各部位の動画部品デー
タが一定基準より細いと判定された場合には、動画部品
データの拡大縮小を行い、動画部品データの補正を行
う。
【0066】次のステップS7では、合成配置決定手段
104が部品変形配置情報記憶手段105から引き出し
た変形情報に基づき、部品変形手段107が、配置テン
プレートに適した形状となるように、動画部品データの
変形を行う。
【0067】次のステップS8では、配置位置補正手段
106が生成し、部品変形手段107が配置テンプレー
トに適した形に変形を行った動画部品を、部品配置手段
108により、合成配置決定手段104が選択した配置
テンプレートの上の適正な位置に配置する。
【0068】次のステップS9では、音声データ抽出手
段109により、動画部品データに対応した音データを
音データ記憶手段110から抽出する。
【0069】次のステップS10では、抽出した音デー
タが複数あるか否かを判断する。そして、音データが複
数ある場合(ステップS10でYesと判断された場
合)には、音データ選択手段115にて出力の対象とな
る音データを選択するため、ステップS11へと動作を
進める。一方、音データが複数無い場合(ステップS1
0でNoと判断された場合)には、ステップS12へと
動作を進める。
【0070】ステップS11では、音データ選択手段1
15により、出力の対象となる音データを選択し、選択
結果を音データ抽出手段109に出力する。音データ抽
出手段109は、選択された音データを抽出結果とし
て、音データ加工手段111に出力し、ステップS12
へと動作を進める。
【0071】ステップS12では、音データ加工手段1
11が、音データ抽出手段109から受け取った音デー
タを、特徴量によって選択した配置テンプレートの種類
に合わせて加工する。例えば、音程の高低を変更するよ
うに周波数を上げるなどの処理を施して、音データを加
工する。具体例を挙げると、例えば選択された配置テン
プレートが普通の配置テンプレート(T−1)であれ
ば、抽出した音データをそのまま出力し、太めの配置テ
ンプレート(T−3)であれば、音程が低くなる加工を
行い、細めの配置テンプレート(T−2)であれば、音
程が高くなる加工を行う。また、配置テンプレートが子
供用の配置テンプレート(T−4)であった場合には、
ステップS13へと動作を進める。
【0072】ステップS13では、合成配置決定手段1
04が選択した配置テンプレートが、子供用の配置テン
プレート(T−4)であった場合、動画音声情報記憶手
段114に記憶されているテーブルデータを参照し、抽
出した動画部品データに対応する音データの変更データ
を、音データ記憶手段110から抽出する。
【0073】次のステップS14では、抽出された動画
像データがそれぞれ対応する音データを所持するため、
音データ出力時間変更手段113は、動画部品データの
動画開始と同期して音データの出力が行われることがな
いように、動画部品種類および動画部品の組み合わせに
より、音データ出力時間を変更する。音データ出力時間
の変更にあたっては、動画部品情報記憶手段114に記
憶されたテーブルデータを参照して、各動画部品データ
の出力時間をずらせる。
【0074】次のステップS15では、画像音データ出
力手段116により、動画部品を合成することにより生
成した画像データを例えばCRT画面上に表示し、動画
部品データに対応する音データをスピーカから出力す
る。
【0075】なお、上記実施形態では、顔画像や人物画
像を作成して表情を変化させるとともに、出力する効果
音を変化させるように構成しているが、これに限定され
るものではなく、単一若しくは複数の画像部品によって
構成される画像、および音声やBGM等であれば、動画
像や静止画像のいずれを作成する場合にも、本発明を適
用することが可能である。例えば、BGMが流れる風景
画等を作成することもできる。
【0076】
【発明の効果】本発明の画像処理装置によれば、特徴量
が異なる動画からなる複数の動画部品データを、特徴量
が異なる部品種類ごとに、複数の画像種別に応じて予め
動画部品データ記憶手段に記憶している。従って、動画
部品データを指定することにより、テンプレートに対応
して規定されている部品配置に動画像からなる部品を配
置し、容易に画像を合成して、その変化を動画像として
表現することができる。また、1個の動画部品データに
対して1音の音または音声データを音データ記憶手段に
記憶しているので、動画部品データを指定することによ
り、その動画部品に対応して1個ずつ規定されている音
データを音データ記憶手段から抽出することで、それぞ
れの動画像固有の特徴に合わせた音データを出力するこ
とができる。
【0077】また、本発明の画像処理装置によれば、入
力画像からその画像中の部品の位置や大きさ等の特徴情
報を抽出し、その特徴情報に基づいて、テンプレートに
対応して規定されている部品配置に動画からなる部品を
配置することにより、特徴を反映した音の画像を容易に
合成し、音と動画像とを同期して出力することができ
る。また、原画となる入力画像の特徴を抽出するため、
的確な表現が可能となる。さらに、入力画像には、全身
像や風景画等も利用できるので、原画の特徴を再現する
のに効果的である。
【0078】また、本発明の画像処理装置によれば、1
個の動画部品データに対して1対複数で対応する音デー
タを、ランダムに若しくは内蔵した時計の時刻により選
択可能であるため、多様なバリエーションを持つ音デー
タを出力することができる。
【0079】また、本発明の画像処理装置によれば、1
個の動画部品データに対して1対1、または1対複数で
対応する音データを、入力画像の特徴によって選択され
るテンプレートに対応して加工し、出力することによ
り、画像の特徴を反映した音データを容易に出力するこ
とができる。
【0080】また、本発明の画像処理装置によれば、1
個の動画部品データに対して1対1、または1対複数で
対応する音データを、入力画像の特徴によって選択され
るテンプレートに対応して異なる音データに変更して出
力することにより、画像の特徴を反映した音データを容
易に出力することができる。
【0081】また、本発明の画像処理装置によれば、複
数の動画部品を合成して生成された画像に対し、動画部
品データに対応した音データの開始時刻を部品ごとにず
らせて出力することにより、聞き取りやすく効果的な音
を出力することができる。
【図面の簡単な説明】
【図1】本発明の画像処理装置の一実施形態を示すブロ
ック図である。
【図2】本発明の画像処理装置における画像処理動作を
説明するためのフローチャートである。
【図3】動画部品データの合成結果を示す説明図であ
る。
【図4】動画部品データの「目」の一例を示す説明図で
ある。
【図5】動画部品データの合成時の配置を決定する配置
テンプレートの一例を示す説明図である。
【図6】音データを抽出するための動画部品データ、音
データテーブルの一例を示す説明図である。
【図7】音データの一例を示す説明図である。
【図8】動画部品データ、音データの組み合わせの一例
を示す説明図である。
【図9】動画部品データ1個に対して部品データが複数
あった場合の組み合わせの一例を示す説明図である。
【符号の説明】
100 画像入力手段 101 特徴量抽出手段 102 動画部品データ抽出手段 103 動画部品データ記憶手段 104 合成配置決定手段 105 部品変形配置情報記憶手段 106 配置位置補正手段 107 部品変形手段 108 部品配置手段 109 音データ抽出手段 110 音データ記憶手段 111 音データ加工手段 112 音データ変更手段 113 音データ出力時間変更手段 114 動画音情報記憶手段 115 音データ選択手段 116 画像音データ出力手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 長井 義典 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 (72)発明者 竹澤 創 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 (72)発明者 松岡 篤郎 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 Fターム(参考) 5B050 BA06 BA08 BA12 EA03 EA04 EA19 EA24 FA10 FA19 5D045 AB01 AB02 AB16 AB26

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 特徴量が異なる複数の部品種類を有し、
    各部品種類ごとに複数の動画像からなる複数の動画部品
    データを記憶している動画部品データ記憶手段と、 この動画部品データ記憶手段から任意の動画部品データ
    を抽出する動画部品データ抽出手段と、 1個の動画部品データに対して1音の音または音声デー
    タを記憶している音データ記憶手段と、 この音データ記憶手段から、動画部品データに対応する
    音または音声データを抽出する音データ抽出手段と、 前記動画部品データ抽出手段により抽出された動画部品
    データを、部品種類ごとに定められた位置に配置する部
    品配置手段と、 動画像の表示に同期し、その表示される動画部品データ
    に対応させて前記音データ抽出手段により抽出された音
    または音声データを出力する画像音データ出力手段とを
    備えていることを特徴とする画像処理装置。
  2. 【請求項2】 入力された画像からその画像を構成する
    部品の特徴情報を抽出する特徴抽出手段をさらに備え、
    前記動画部品データ抽出手段は、前記特徴抽出手段によ
    り抽出された特徴情報に基づいて、前記動画部品データ
    記憶手段から適切な動画部品データを抽出する請求項1
    に記載の画像処理装置。
  3. 【請求項3】 前記音データ記憶手段には、1個の動画
    部品データに対し、2音以上の音または音声データが記
    憶されており、1個の動画部品データに対応する複数の
    音または音声データから1音を選択して出力する音デー
    タ選択手段をさらに備えていることを特徴とする請求項
    1または2に記載の画像処理装置。
  4. 【請求項4】 前記音データ抽出手段により抽出された
    音または音声データを、入力画像の特徴によって加工す
    る音データ加工手段をさらに備えていることを特徴とす
    る請求項1、2または3に記載の画像処理装置。
  5. 【請求項5】 前記音データ抽出手段により抽出された
    音または音声データを、原画となる入力画像のサイズや
    特徴によって異なる音または音声データに変更して出力
    する音データ変更手段をさらに備えていることを特徴と
    する請求項1、2、3または4に記載の画像処理装置。
  6. 【請求項6】 2音以上の音または音声データが同時に
    出力される場合、音または音声データの開始時刻をずら
    せて出力する音データ出力時間変更手段をさらに備えて
    いることを特徴とする請求項3、4または5に記載の画
    像処理装置。
JP2000268858A 2000-09-05 2000-09-05 画像処理装置 Pending JP2002074384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000268858A JP2002074384A (ja) 2000-09-05 2000-09-05 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000268858A JP2002074384A (ja) 2000-09-05 2000-09-05 画像処理装置

Publications (1)

Publication Number Publication Date
JP2002074384A true JP2002074384A (ja) 2002-03-15

Family

ID=18755568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000268858A Pending JP2002074384A (ja) 2000-09-05 2000-09-05 画像処理装置

Country Status (1)

Country Link
JP (1) JP2002074384A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012015807A (ja) * 2010-06-30 2012-01-19 Toshiba Corp グラフィクスプロセッシングユニットおよび情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012015807A (ja) * 2010-06-30 2012-01-19 Toshiba Corp グラフィクスプロセッシングユニットおよび情報処理装置
US8174529B2 (en) 2010-06-30 2012-05-08 Kabushiki Kaisha Toshiba Graphics processing unit and information processing apparatus

Similar Documents

Publication Publication Date Title
US11003898B2 (en) Creating videos with facial expressions
JPH11219446A (ja) 映像音響再生システム
US11792504B2 (en) Personalized videos
EP3912136A1 (en) Systems and methods for generating personalized videos with customized text messages
CN113542624A (zh) 生成商品对象讲解视频的方法及装置
US11842433B2 (en) Generating personalized videos with customized text messages
TW201233413A (en) Input support device, input support method, and recording medium
JP2013055628A (ja) 画像提供装置および方法、並びにプログラム
US20090262139A1 (en) Video image display device and video image display method
KR20150119621A (ko) 디스플레이 장치 및 그의 이미지 합성 방법
JP2000322588A (ja) 画像処理装置及びその方法
JP2023181219A (ja) 動画配信システム、動画配信方法および動画配信プログラム
JP2017147621A (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
WO2020125009A1 (zh) 一种视频处理方法及电视
JP2002074384A (ja) 画像処理装置
KR20020067088A (ko) 3차원 동화상 모델 얼굴 대체 방법 및 장치
JPH11149285A (ja) 映像音響システム
JP2013242835A (ja) 画像コミュニケーションシステム、画像生成装置及びプログラム
JP6183721B2 (ja) 写真撮影遊戯機、及び制御プログラム
JP2008287683A (ja) 三次元cgアニメキャラクターのカスタム(個人化)製作システム
TWI329846B (en) Method for displaying images and display apparatus using the same
CN116471427B (zh) 视频生成方法及装置、计算机可读存储介质、计算设备
JP2723070B2 (ja) 人物像表示によるユーザインタフェース装置
JP4284447B2 (ja) モーフィングカメラ及びモーフィング方法
WO2018018076A1 (en) Creating videos with facial expressions