JP2003296743A - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JP2003296743A
JP2003296743A JP2002096664A JP2002096664A JP2003296743A JP 2003296743 A JP2003296743 A JP 2003296743A JP 2002096664 A JP2002096664 A JP 2002096664A JP 2002096664 A JP2002096664 A JP 2002096664A JP 2003296743 A JP2003296743 A JP 2003296743A
Authority
JP
Japan
Prior art keywords
unit
image data
image
data
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002096664A
Other languages
English (en)
Inventor
Ayumi Isomura
歩 磯村
Tatsuhiko Hagiwara
龍彦 萩原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2002096664A priority Critical patent/JP2003296743A/ja
Publication of JP2003296743A publication Critical patent/JP2003296743A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】複数の音源からの音声を複数の画像データに変
換し、他の画像データに合成する画像処理装置を提供す
る。 【解決手段】画像を処理する画像処理装置10であっ
て、画像データを取得する画像データ取得部122と、
複数の音源からの音声を示す音声データを取得する音声
データ取得部102と、音声データ取得部102が取得
した音声データを、複数の画像データに変換する変換部
108と、変換部108が変換した複数の画像データ
を、画像データ取得部122が取得した画像データに合
成する合成部116とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像処理装置に関
する。特に本発明は、音声データを画像データに変換
し、変換した画像データを他の画像データに合成する画
像処理装置に関する。
【0002】
【従来の技術】近年、音声認識技術は、多くの分野で応
用されつつある。例えば特開平11−55614号公報
は、音声データを文字データ等に変換し、変換した文字
データを画像データに合成する音声認識画像処理装置を
開示している。
【0003】
【発明が解決しようとする課題】複数の音源があった場
合に、これらを別個の画像として合成したい場合があ
る。そこで本発明は、上記の課題を解決することのでき
る画像処理装置を提供することを目的とする。この目的
は特許請求の範囲における独立項に記載の特徴の組み合
わせにより達成される。また従属項は本発明の更なる有
利な具体例を規定する。
【0004】
【課題を解決するための手段】即ち、本発明の第1の形
態によると、画像を処理する画像処理装置であって、画
像データを取得する画像データ取得部と、複数の音源か
らの音声を示す音声データを取得する音声データ取得部
と、音声データ取得部が取得した音声データを、複数の
画像データに変換する変換部と、変換部が変換した複数
の画像データを、画像データ取得部が取得した画像デー
タに合成する合成部とを備える。
【0005】変換部は、音声データの音調に基づいて、
複数の画像データ各々の色を決定してもよい。変換部
は、音声データの音調に基づいて、複数の画像データの
画像数を決定してもよい。
【0006】変換部は、音声データを複数に分割し、分
割したそれぞれの部分音声データの各々を画像データに
変換し、複数の部分音声データが示す音声の音量を互い
に比較する音量比較部と、画像データ取得部が取得した
画像データに合成部が合成した複数の画像データが、互
いに重なり合っているか否かを判断する判断部と、複数
の画像データが互いに重なり合っていると判断部が判断
した場合に、音量がより大きいと音量比較部が判断した
部分音声データに対応する画像データを、互いに重なり
合う他方の画像データより前面に配置する配置補正部と
をさらに備える。
【0007】変換部は、音声データを複数に分割し、分
割したそれぞれの部分音声データの各々を画像データに
変換し、複数の部分音声データの発生した順序を取得す
る順序取得部と、画像データ取得部が取得した画像デー
タに合成部が合成した複数の画像データが、互いに重な
り合っているか否かを判断する判断部と、複数の画像デ
ータが互いに重なり合っていると判断部が判断した場合
に、発生した順序が後であると順序取得部が判断した部
分音声データに対応する画像データを、互いに重なり合
う他方の画像データより前面に配置する配置補正部とを
さらに備える。
【0008】画像データ取得部が取得した画像データに
おける位置を示す位置情報を入力する入力部をさらに備
え、合成部は、入力部が入力した位置情報により特定さ
れる位置に、変換部が変換した複数の画像データのう
ち、一の画像データを合成してもよい。
【0009】音声データ取得部は、音声を集音する複数
の集音部を有し、合成部は、複数の集音部のそれぞれの
集音量に基づいて、画像データ取得部が取得した画像デ
ータにおける、複数の画像データのそれぞれを合成すべ
き位置を決定してもよい。
【0010】本発明の第2の形態によると、画像を処理
する画像処理方法であって、画像データを取得して、複
数の音源からの音声を示す音声データを取得し、取得し
た音声データを、複数の画像データに変換して、変換し
た複数の画像データを、取得した画像データに合成す
る。
【0011】本発明の第3の形態によると、画像を処理
するコンピュータ用のプログラムであって、画像データ
を取得する画像データ取得機能と、複数の音源からの音
声を示す音声データを取得する音声データ取得機能と、
音声データ取得部が取得した音声データを、複数の画像
データに変換する変換機能と、変換部が変換した複数の
画像データを、画像データ取得部が取得した画像データ
に合成する合成機能とをコンピュータに実現させる。
【0012】なお上記の発明の概要は、本発明の必要な
特徴の全てを列挙したものではなく、これらの特徴群の
サブコンビネーションも又発明となりうる。
【0013】
【発明の実施の形態】以下、発明の実施の形態を通じて
本発明を説明するが、以下の実施形態はクレームにかか
る発明を限定するものではなく、又実施形態の中で説明
されている特徴の組み合わせの全てが発明の解決手段に
必須であるとは限らない。なお、発明の詳細な説明に記
載の「音声/文字変換部」は、特許請求の範囲に記載の
「変換部」の一例である。発明の詳細な説明に記載の
「配置補正部」は、特許請求の範囲に記載の「音量比較
部」の機能を含む。
【0014】図1は、本実施の形態に係る画像処理装置
の機能構成を示すブロック図である。画像処理装置10
は、画像データと音声データを取得し、取得した音声デ
ータを複数の画像データに変換し、変換した複数の画像
データを、取得した画像データに合成する。画像処理装
置10は、音声データ取得部100と、音声解析部10
6と、音声/文字変換部108と、補助画像決定部11
0と、合成位置決定部112と、文字種決定部114
と、合成部116と、画像解析部118と、判断部12
0と、画像データ取得部122と、配置補正部124
と、印刷部126と、入力部128と、表示部130
と、文字データベース140と、補助画像データベース
142とを備える。
【0015】文字データベース140は、文字列に対応
する絵文字を文字列に対応付けて格納する。補助画像デ
ータベース142は、ふきだしを示すふきだし情報と、
文字のフォントを示すフォント情報とを、音声の周波数
に対応付けて格納する。
【0016】音声データ取得部100は、集音部102
と、集音部104とを有する。集音部102と集音部1
04は、互いに離れた位置に設置される。音声データ取
得部100は、集音部102から得られた音声を示す音
声データを、第1の音声データとして音声解析部106
に送る。また音声データ取得部100は、集音部104
から得られた音声を示す音声データを第2の音声データ
として音声解析部106に送る。ここで音声データと
は、例えば人が話す声である。
【0017】音声解析部106は、第1の音声データと
第2の音声データを解析する。具体的には、音声解析部
106は、まず第1の音声データが示す音声から人の声
を示す音声を抽出する。次に音声解析部106は、抽出
した音声が複数人の声であるか否かを判断する。音声解
析部106は、抽出した音声が複数の人の声であると判
断した場合には、音声を人毎に分類する。音声解析部1
06は、第2の音声データについても第1の音声データ
と同様に音声を抽出し、抽出した音声を人毎に分類す
る。
【0018】次に音声解析部106は、第1の音声デー
タから抽出した複数の音声と、第2の音声データから抽
出した複数の音声とを比較して、同一人物の声であると
判断した音声を、第1の音声データから抽出した複数の
音声と、第2の音声データから抽出した複数の音声のそ
れぞれから選択する。音声解析部106は、第1の音声
データから選択した音声の音量と、第2の音声データか
ら選択した音声の音量とに基づいて、音声を発した人の
位置を決定する。音声解析部106は、決定した人の位
置を示す位置情報を、対応する音声を発した人を識別す
る人識別情報とともに合成位置決定部112に送る。
【0019】また音声解析部106は、人毎に分類した
音声を人識別情報に対応付けて音声/文字変換部108
に送る。また音声解析部106は、人毎に分類した音声
の周波数を示す周波数情報を人識別情報とともに補助画
像決定部110及び文字種決定部114に送る。また音
声解析部106は、人毎に分類した音声の音量を示す音
量情報を人識別情報に対応付けて配置補正部124に送
る。
【0020】音声/文字変換部108は、音声解析部1
06から受け取った音声を文字データに変換する。次に
音声/文字変換部108は、変換した文字データに、文
字データベース140に格納されている文字列と同一の
文字列が含まれているか否かを判断する。音声/文字変
換部108は、変換した文字データに、文字データベー
ス140に格納されている文字列と同一の文字列が含ま
れていると判断した場合に、文字列と対応付けて格納さ
れている絵文字を文字データベース140から抽出し、
抽出した絵文字を文字データとする。音声/文字変換部
108は、文字データを人識別情報に対応付けて補助画
像決定部110に送る。
【0021】補助画像決定部110は、音声解析部10
6から受け取った周波数情報により特定される音声の周
波数に対応付けて格納されているふきだしを示すふきだ
し情報とを、音声/文字変換部108から受け取った文
字データに対応付けて人識別情報とともに文字種決定部
114に送る。
【0022】文字種決定部114は、音声解析部106
から受け取った周波数情報により特定される音声の周波
数に対応付けて格納されているフォントを示すフォント
情報を、補助画像決定部110から受け取ったふきだし
情報と、文字データに対応付けて人識別情報とともに合
成部116に送る。
【0023】画像データ取得部122は、画像データを
取得する。具体的には、画像データ取得部122は、被
写体を撮像することによって画像データを取得する。こ
こで被写体は、例えば複数の人である。画像データ取得
部122は、取得した画像データを画像解析部118及
び合成部116に送る。
【0024】画像解析部118は、画像データ取得部1
22から受け取った画像データを解析する。具体的に
は、画像解析部118は、画像データから顔領域を抽出
する。ここで画像解析部118は、例えば特開平8−1
22944号公報または特開平5−100328号公報
に記載された方法を用いる。
【0025】特開平8−122944号公報に記載され
た方法は、画像を複数領域に分割し、非人物領域を除外
した後に人物の頭部の輪郭を表す形状パターンを検出
し、検出したパターンに応じて顔候補領域を検出し、さ
らに人物の顔の輪郭を表す形状パターン、顔の内部構造
を表す形状パターン及び人物の胴体の輪郭を表す形状パ
ターンをそれぞれ検出し、検出したパターンにより顔候
補領域の整合性を判定し、人物の顔に相当する領域であ
る確度が最も高い領域を判定することにより、顔領域を
抽出するものである。
【0026】特開平5−100328号公報に記載され
た方法は、画像を複数領域に分割して測光し、測光によ
り得られたデータを色相及び彩度に変換し、これらの2
次元ヒストグラムを作成するとともに、このヒストグラ
ムを単峰の山毎に分解し、さらに画像の角画素がいずれ
の山に属するかを判断して画素を分割された山に対応す
る群に分解し、各群毎に画像を分割して顔候補領域を抽
出し、抽出した領域の画像サイズと主要画像サイズ情報
から得られる画像サイズとを比較して最も一致する領域
を顔領域として抽出するものである。
【0027】画像解析部118は、抽出した顔領域から
さらに口領域を抽出し、口領域の位置を示す口情報を合
成位置決定部112に送る。
【0028】合成位置決定部112は、画像解析部11
8から口情報から、音声解析部106から受け取った位
置情報により特定される位置と最も近い位置を示す口情
報を選択し、人識別情報を対応付ける。合成位置決定部
112は、人識別情報と口情報とを対応付けて合成部1
16に送る。
【0029】合成部116は、画像データ取得部122
から画像データを受け取る。また合成部116は、合成
位置決定部112から口情報と人情報とを受け取る。ま
た合成部116は、文字種決定部114からフォント情
報と、ふきだし情報と、文字データと、人識別情報とを
受け取る。合成部116は、ふきだし情報により特定さ
れるふきだしに、フォント情報により特定されるフォン
トで文字データを記載したふきだし画像を作成する。合
成部116は、画像データの口情報に基づいた位置に、
作成したふきだし画像を合成する。合成部116は、合
成した合成画像を人識別情報とふきだし画像とともに判
断部120に送る。
【0030】判断部120は、合成画像の複数のふきだ
し画像が互いに重なり合っているか否かを判断する。判
断部120は、合成画像の複数のふきだし画像が互いに
重なり合っていると判断した場合に、ふきだし画像の配
置を補正すべき旨を示す補正情報を、合成画像と人識別
情報とふきだし画像とともに配置補正部124に送る。
【0031】配置補正部124は、補正情報を受け取る
と、音声解析部106から受け取った音量情報により特
定される音量がより大きいと判断した人識別情報に対応
するふきだし画像を、互いに重なり合う他方のふきだし
画像より前面に配置する。次に配置補正部124は、合
成画像を表示部130及び印刷部126に送る。
【0032】表示部130は、受け取った合成画像を表
示する。次に入力部128は、表示部130が表示した
合成画像の印刷を指示する指示情報をユーザから受け付
ける。入力部128は、指示情報を印刷部126に送
る。印刷部126は、指示情報を受け取ると、配置補正
部124から受け取った合成画像を印刷する。
【0033】なお本実施の形態に係る画像処理装置10
では、合成位置決定部112が、音声解析部106から
受け取った位置情報、即ち音声データに基づいてふきだ
し画像を合成する合成位置、即ち口情報を決定している
が、これに代えて入力部128が、合成位置を示す指示
をユーザから受け付けることにより合成位置を決定して
もよい。
【0034】また本実施の形態に係る画像処理装置10
では、補助画像決定部110が音声データに基づいてふ
きだし情報及びフォント情報を決定しているが、これに
代えて入力部128がふきだし情報及びフォント情報を
示す指示をユーザから受け付けることにより、ふきだし
情報及びフォント情報を決定してもよい。
【0035】図2は、文字データベース140のデータ
フォーマットの一例を示す。文字データベース140
は、音声フィールドと、絵文字フィールドとを有する。
音声フィールドは、文字列を格納する。絵文字フィール
ドは、絵文字を格納する。
【0036】このように文字データベース140が文字
列に対応付けて絵文字を格納することによって、画像処
理装置10は、ユーザが発した言語に対応する絵文字
を、画像データに合成することができる。
【0037】またここで文字データベース140は、文
字に対応付けて絵文字を格納しているが、これに代えて
文字に対応付けて文字を格納してもよいし、画像データ
を対応付けてもよい。これにより画像処理装置10は、
ユーザが発した言語に対応する文字または画像を合成し
た合成画像を出力することができる。
【0038】図3は、補助画像データベース142のデ
ータフォーマットの一例を示す。補助画像データベース
142は、周波数フィールドと、フォントフィールド
と、ふきだしフィールドとを有する。周波数フィールド
は、予め定められた範囲に区切られた周波数を示す情報
を格納する。フォントフィールドは、文字のフォントを
示すフォント情報を格納する。ふきだしフィールドは、
ふきだしの画像であるふきだし情報を格納する。
【0039】このように補助画像データベース142が
フォント情報及びふきだし情報を周波数に対応付けて格
納することにより、画像処理装置10は、ユーザが発す
る音声の高さに基づいて、画像データに合成する文字の
フォント、及び文字を記載するふきだしを決定すること
ができる。
【0040】このように本実施の形態では、画像処理装
置10は、ユーザが発した音声の高さに基づいてフォン
ト情報及びふきだし情報を決定しているが、これに代え
て音声の音量に基づいてフォント情報及びふきだし情報
を決定してもよい。また画像処理装置10は、ユーザが
発した音声の周波数または音量に基づいて、画像データ
に合成する文字の大きさ、色、合成位置、またはカタカ
ナ、ひらがな、漢字、ローマ字等の文字の種類を決定し
てもよい。
【0041】図4は、画像処理装置10の動作を示すフ
ローチャートである。まず音声データ取得部100は、
音声データを取得する(S100)。次に音声解析部1
06は、第1の音声データと第2の音声データを解析す
る(S102)。次に音声/文字変換部108は、音声
解析部106が解析した音声データを文字データに変換
する(S104)。次に補助画像決定部110は、音声
/文字変換部108が変換した文字データを記載するふ
きだしの種類と、記載する文字のフォントを決定する
(S106)。次に画像データ取得部122は、画像デ
ータを取得する(S108)。次に画像解析部118
は、画像データ取得部122が取得した画像データを解
析する(S110)。次に合成位置決定部112は、画
像データ取得部122が取得した画像データにおいて、
文字データを記載したふきだし画像を合成する位置を決
定する(S112)。次に合成部116は、画像データ
の合成位置決定部112が決定した位置に、ふきだし画
像を合成する(S114)。
【0042】判断部120は、合成画像の複数のふきだ
し画像が互いに重なり合っているか否かを判断する(S
116)。合成画像の複数のふきだし画像が互いに重な
り合っていると判断部120が判断した場合に、配置補
正部124は、音量がより大きいと判断した音量情報に
対応するふきだし画像を、互いに重なり合う他方のふき
だし画像より前面に配置する(S118)。
【0043】次に配置補正部124は、合成画像を表示
する(S120)。次に入力部128が、表示部130
が表示した合成画像の印刷を指示する指示情報をユーザ
から受け付けた場合に、印刷部126は、合成画像を印
刷する(S124)。
【0044】図5(1)は、画像データ取得部122が
取得する画像データの一例を示す。画像データ取得部1
22は、図5(1)に示す画像データを取得する。音声
データ取得部100は、図5(1)に写っているユーザ
が、画像を撮影中または撮影前後に発した音声を音声デ
ータとして取得する。例えば音声データ取得部100
は、撮影後に予め定められたタイミングでユーザが発し
た音声を取得する。
【0045】図5(2)は、画像データにふきだし画像
を合成した合成画像の一例を示す。画像処理装置10
は、取得した音声データを画像データに変換し、画像デ
ータ取得部122が取得した画像データに合成すること
で、図5(2)に示す合成画像を生成する。ここで図5
(2)の左側のユーザが「いえーい」と言い、右側のユ
ーザが「らぶらぶ」と言った場合に、画像処理装置10
は、集音部102及び集音部104の各々が拾った音声
の音量に基づいて、どちらのユーザが「いえーい」また
は「らぶらぶ」と言ったのかを判断する。そして画像処
理装置10は、文字データベース140を参照して「ら
ぶらぶ」に対応付けて格納されているハートマークを抽
出し、対応するユーザの口部分からふきだしたふきだし
に「いえーい」とハートマークを記載した画像を合成
し、図5(2)を生成する。
【0046】このように画像処理装置10は、複数のユ
ーザに対応するふきだし画像を取得した画像データに合
成することができる。また図5(2)に示すふきだし画
像のように互いに重なり合った場合には、音量の大きい
音声のふきだし画像が前面に配置される。ここで画像処
理装置10は、音声データの取得順序に基づいて、前面
に配置するふきだし画像を決定してもよい。
【0047】図6は、画像処理装置10のハードウェア
構成を示すブロック図である。画像処理装置10は、C
PU700と、ROM702と、RAM704と、通信
インターフェース706と、データベースインタフェー
ス708と、ハードディスクドライブ710と、フロッ
ピー(登録商標)ディスクドライブ712と、フロッピ
ーディスク714と、表示部116と、印刷部118と
を備える。CPU700は、ROM702及びRAM7
04に格納されたプログラムに基づいて動作する。通信
インターフェース706は、ネットワーク10を介して
認証装置30、購入者端末40、及び決済端末50と通
信する。格納装置の一例としてのハードディスクドライ
ブ710は、設定情報及びCPU700が動作するプロ
グラムを格納する。また通信インターフェース706
は、専用線を介して認証装置30と通信してもよい。ハ
ードディスクドライブ710は、各種データベース72
0に接続し、データを送信または受信することによっ
て、データの書き込み、読み出し、及び内容の更新を行
う。
【0048】フロッピーディスクドライブ712はフロ
ッピーディスク714からデータまたはプログラムを読
み取りCPU700に提供する。CD−ROMドライブ
716はCD−ROM718からデータまたはプログラ
ムを読み取りCPU700に提供する。通信インターフ
ェース706は、ネットワーク10に接続してデータを
送受信する。表示部116は、例えば図3、図4、図
5、及び図6に示す表示画面を表示する。印刷部118
は、例えばテンプレートを印刷する。本実施の形態に係
る画像処理装置10は、表示部116及び印刷部118
を備えるが、これに代えて外部の表示部116と印刷部
118と接続し、データを送信してもよい。
【0049】CPU700が実行するソフトウエアは、
フロッピーディスク714またはCD−ROM718等
の記録媒体に格納されて利用者に提供される。記録媒体
に格納されたソフトウエアは圧縮されていても非圧縮で
あっても良い。ソフトウエアは記録媒体からハードディ
スクドライブ710にインストールされ、RAM704
に読み出されてCPU700により実行される。
【0050】記録媒体に格納されて提供されるソフトウ
エア、即ちハードディスクドライブ710にインストー
ルされるソフトウエアは、機能構成として、音声データ
取得モジュール、音声解析モジュール、音声/文字変換
モジュール、補助画像決定モジュール、文字種決定モジ
ュール、合成位置決定モジュール、合成モジュール、表
示モジュール、画像解析モジュール、判断モジュール、
画像データ取得モジュール、配置補正モジュール、印刷
モジュール、入力モジュール、表示モジュール、文字管
理モジュール、及び補助画像管理モジュールを備える。
これらの各モジュールがコンピュータに働きかけて、C
PU700に行わせる処理は、それぞれ本実施の形態に
おける画像処理装置10における、対応する部材の機能
及び動作と同一であるから説明を省略する。
【0051】図6に示した、記録媒体の一例としてのフ
ロッピーディスク714またはCD−ROM718に
は、本出願で説明する全ての実施形態における画像処理
装置10の動作の一部または全ての機能を格納すること
ができる。
【0052】これらのプログラムは記録媒体から直接R
AMに読み出されて実行されても、一旦ハードディスク
ドライブにインストールされた後にRAMに読み出され
て実行されても良い。更に、上記プログラムは単一の記
録媒体に格納されても複数の記録媒体に格納されても良
い。また記録媒体に格納されるモジュールは、オペレー
ティングシステムとの共同によってそれぞれの機能を提
供してもよい。例えば機能の一部または全部を行うこと
をオペレーティングシステムに依頼し、オペレーティン
グシステムからの応答に基づいて機能を提供するもので
あってもよい。
【0053】以上に示したプログラムまたはモジュール
は、外部の記録媒体に格納されてもよい。記録媒体とし
ては、フロッピーディスク、CD−ROMの他にも、D
VDやPD等の光学記録媒体、MD等の光磁気記録媒
体、テープ媒体、磁気記録媒体、ICカードやミニチュ
アーカードなどの半導体メモリ等を用いることができ
る。又、専用通信ネットワークやインターネットに接続
されたサーバシステムに設けたハードディスクまたはR
AM等の格納装置を記録媒体として使用し、通信網を介
してプログラムを画像処理装置10に提供してもよい。
【0054】以上、本発明を実施の形態を用いて説明し
たが、本発明の技術的範囲は上記実施の形態に記載の範
囲には限定されない。上記実施の形態に、多様な変更又
は改良を加えることができる。その様な変更又は改良を
加えた形態も本発明の技術的範囲に含まれ得ることが、
特許請求の範囲の記載から明らかである。
【0055】
【発明の効果】上記説明から明らかなように、本発明に
よれば複数の音源からの音声を複数の画像データに変換
し、他の画像データに合成する画像処理装置を提供する
ことができる。
【図面の簡単な説明】
【図1】本実施の形態に係る画像処理装置の機能構成を
示すブロック図である。
【図2】文字データベース140のデータフォーマット
の一例を示す図である。
【図3】補助画像データベース142のデータフォーマ
ットの一例を示す図である。
【図4】画像処理装置10の動作を示すフローチャート
である。
【図5】図5(1)は、画像データ取得部122が取得
する画像データの一例を示す図である。図5(2)は、
画像データにふきだし画像を合成した合成画像の一例を
示す図である。
【図6】画像処理装置10のハードウェア構成を示すブ
ロック図である。
【符号の説明】
10 画像処理装置 100 音声データ取得部 102、104 集音部 106 音声解析部 108 音声/文字変換部 110 補助画像決定部 112 合成位置決定部 114 文字種決定部 116 合成部 118 画像解析部 120 判断部 122 画像データ取得部 124 配置補正部 126 印刷部 128 入力部 130 表示部 140 文字データベース 142 補助画像データベース
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/04 G10L 3/00 571S 15/08 513A 15/10 531W 15/24 H04N 1/387 Fターム(参考) 5B050 BA06 BA20 EA12 EA19 FA10 5C076 AA12 AA14 AA16 AA40 BA06 5D015 AA04 AA05 KK02 LL11 5E501 AA02 BA03 BA09 CA03 CB15 EA21 FA14 FA46 FB44

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 画像を処理する画像処理装置であって、 画像データを取得する画像データ取得部と、 複数の音源からの音声を示す音声データを取得する音声
    データ取得部と、 前記音声データ取得部が取得した前記音声データを、複
    数の画像データに変換する変換部と、 前記変換部が変換した前記複数の画像データを、前記画
    像データ取得部が取得した前記画像データに合成する合
    成部とを備えることを特徴とする画像処理装置。
  2. 【請求項2】 前記音声データ取得部は、音声を集音す
    る複数の集音部を有し、 前記合成部は、前記複数の集音部のそれぞれの集音量に
    基づいて、前記画像データ取得部が取得した画像データ
    における、前記複数の画像データのそれぞれを合成すべ
    き位置を決定することを特徴とする請求項1に記載の画
    像処理装置。
  3. 【請求項3】 前記変換部は、音声データを複数に分割
    し、分割したそれぞれの部分音声データの各々を画像デ
    ータに変換し、 複数の前記部分音声データが示す音声の音量を互いに比
    較する音量比較部と、 前記画像データ取得部が取得した前記画像データに前記
    合成部が合成した前記複数の画像データが、互いに重な
    り合っているか否かを判断する判断部と、 前記複数の画像データが互いに重なり合っていると前記
    判断部が判断した場合に、音量がより大きいと前記音量
    比較部が判断した前記部分音声データに対応する画像デ
    ータを、互いに重なり合う他方の画像データより前面に
    配置する配置補正部とをさらに備えることを特徴とする
    請求項1に記載の画像処理装置。
JP2002096664A 2002-03-29 2002-03-29 画像処理装置 Pending JP2003296743A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002096664A JP2003296743A (ja) 2002-03-29 2002-03-29 画像処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002096664A JP2003296743A (ja) 2002-03-29 2002-03-29 画像処理装置

Publications (1)

Publication Number Publication Date
JP2003296743A true JP2003296743A (ja) 2003-10-17

Family

ID=29387500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002096664A Pending JP2003296743A (ja) 2002-03-29 2002-03-29 画像処理装置

Country Status (1)

Country Link
JP (1) JP2003296743A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005145149A (ja) * 2003-11-12 2005-06-09 Honda Motor Co Ltd 音声認識型車載機器制御システム
JP2012147160A (ja) * 2011-01-11 2012-08-02 Nec Personal Computers Ltd 立体画像処理装置
JP2020121165A (ja) * 2020-04-21 2020-08-13 株式会社コロプラ ユーザ入力支援のためのコンピュータ・プログラム
JP2022041095A (ja) * 2020-08-31 2022-03-11 株式会社スクウェア・エニックス 吹き出し生成プログラムおよびビデオゲーム処理システム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005145149A (ja) * 2003-11-12 2005-06-09 Honda Motor Co Ltd 音声認識型車載機器制御システム
JP2012147160A (ja) * 2011-01-11 2012-08-02 Nec Personal Computers Ltd 立体画像処理装置
JP2020121165A (ja) * 2020-04-21 2020-08-13 株式会社コロプラ ユーザ入力支援のためのコンピュータ・プログラム
JP2022041095A (ja) * 2020-08-31 2022-03-11 株式会社スクウェア・エニックス 吹き出し生成プログラムおよびビデオゲーム処理システム
JP7157781B2 (ja) 2020-08-31 2022-10-20 株式会社スクウェア・エニックス 吹き出し生成プログラムおよびビデオゲーム処理システム
JP2023002617A (ja) * 2020-08-31 2023-01-10 株式会社スクウェア・エニックス 吹き出し生成プログラムおよびビデオゲーム処理システム
US11766617B2 (en) 2020-08-31 2023-09-26 Square Enix Co., Ltd. Non-transitory medium and video game processing system
JP7392074B2 (ja) 2020-08-31 2023-12-05 株式会社スクウェア・エニックス 吹き出し生成プログラムおよびビデオゲーム処理システム

Similar Documents

Publication Publication Date Title
US6148105A (en) Character recognizing and translating system and voice recognizing and translating system
EP1246166A2 (en) Speech recognition based captioning system
JPS63223965A (ja) 知的ワ−クステ−シヨン
JP2003216621A (ja) プログラム、画像管理装置、及び画像管理方法
JP2001084274A (ja) 画像検索方法および画像処理方法
CN110321450A (zh) 一种针对目标检测的数据辅助标注方法、装置及系统
US7421394B2 (en) Information processing apparatus, information processing method and recording medium, and program
JP2000259834A (ja) 人物認識装置における登録装置及びその方法
EP0905679A2 (en) Associating text derived from audio with an image
JPH1155614A (ja) 音声認識画像処理装置
JP2003296743A (ja) 画像処理装置
JPH09138802A (ja) 文字認識翻訳システム
JPS6386655A (ja) メデイア変換方式
JP2005101931A (ja) 画像プリント装置
JP2000048044A (ja) マルチメディア情報提供方法及びシステム及びマルチメディア情報提供プログラムを格納した記憶媒体
JP2003018462A (ja) 文字挿入装置および文字挿入方法
Jourlin et al. Integrating acoustic and labial information for speaker identification and verification
JP2002084492A (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
JP2021009608A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2000132639A (ja) 文字抽出認識方法及び装置及びこの方法を記録した記録媒体
KR200294684Y1 (ko) 대화형 디지털 액자
CN112071301B (zh) 语音合成的处理方法、装置、设备及存储介质
JP2002341890A (ja) 音声認識文字表示方法およびその装置
JPS6385968A (ja) スケジユ−ル報知方式
JPS6385931A (ja) 知的ワ−クステ−シヨン