JP2003296743A

JP2003296743A - 画像処理装置

Info

Publication number: JP2003296743A
Application number: JP2002096664A
Authority: JP
Inventors: Ayumi Isomura; 歩磯村; Tatsuhiko Hagiwara; 龍彦萩原
Original assignee: Fuji Photo Film Co Ltd
Current assignee: Fujifilm Holdings Corp
Priority date: 2002-03-29
Filing date: 2002-03-29
Publication date: 2003-10-17

Abstract

(57)【要約】【課題】複数の音源からの音声を複数の画像データに変
換し、他の画像データに合成する画像処理装置を提供す
る。【解決手段】画像を処理する画像処理装置１０であっ
て、画像データを取得する画像データ取得部１２２と、
複数の音源からの音声を示す音声データを取得する音声
データ取得部１０２と、音声データ取得部１０２が取得
した音声データを、複数の画像データに変換する変換部
１０８と、変換部１０８が変換した複数の画像データ
を、画像データ取得部１２２が取得した画像データに合
成する合成部１１６とを備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理装置に関
する。特に本発明は、音声データを画像データに変換
し、変換した画像データを他の画像データに合成する画
像処理装置に関する。

【０００２】

【従来の技術】近年、音声認識技術は、多くの分野で応
用されつつある。例えば特開平１１−５５６１４号公報
は、音声データを文字データ等に変換し、変換した文字
データを画像データに合成する音声認識画像処理装置を
開示している。

【０００３】

【発明が解決しようとする課題】複数の音源があった場
合に、これらを別個の画像として合成したい場合があ
る。そこで本発明は、上記の課題を解決することのでき
る画像処理装置を提供することを目的とする。この目的
は特許請求の範囲における独立項に記載の特徴の組み合
わせにより達成される。また従属項は本発明の更なる有
利な具体例を規定する。

【０００４】

【課題を解決するための手段】即ち、本発明の第１の形
態によると、画像を処理する画像処理装置であって、画
像データを取得する画像データ取得部と、複数の音源か
らの音声を示す音声データを取得する音声データ取得部
と、音声データ取得部が取得した音声データを、複数の
画像データに変換する変換部と、変換部が変換した複数
の画像データを、画像データ取得部が取得した画像デー
タに合成する合成部とを備える。

【０００５】変換部は、音声データの音調に基づいて、
複数の画像データ各々の色を決定してもよい。変換部
は、音声データの音調に基づいて、複数の画像データの
画像数を決定してもよい。

【０００６】変換部は、音声データを複数に分割し、分
割したそれぞれの部分音声データの各々を画像データに
変換し、複数の部分音声データが示す音声の音量を互い
に比較する音量比較部と、画像データ取得部が取得した
画像データに合成部が合成した複数の画像データが、互
いに重なり合っているか否かを判断する判断部と、複数
の画像データが互いに重なり合っていると判断部が判断
した場合に、音量がより大きいと音量比較部が判断した
部分音声データに対応する画像データを、互いに重なり
合う他方の画像データより前面に配置する配置補正部と
をさらに備える。

【０００７】変換部は、音声データを複数に分割し、分
割したそれぞれの部分音声データの各々を画像データに
変換し、複数の部分音声データの発生した順序を取得す
る順序取得部と、画像データ取得部が取得した画像デー
タに合成部が合成した複数の画像データが、互いに重な
り合っているか否かを判断する判断部と、複数の画像デ
ータが互いに重なり合っていると判断部が判断した場合
に、発生した順序が後であると順序取得部が判断した部
分音声データに対応する画像データを、互いに重なり合
う他方の画像データより前面に配置する配置補正部とを
さらに備える。

【０００８】画像データ取得部が取得した画像データに
おける位置を示す位置情報を入力する入力部をさらに備
え、合成部は、入力部が入力した位置情報により特定さ
れる位置に、変換部が変換した複数の画像データのう
ち、一の画像データを合成してもよい。

【０００９】音声データ取得部は、音声を集音する複数
の集音部を有し、合成部は、複数の集音部のそれぞれの
集音量に基づいて、画像データ取得部が取得した画像デ
ータにおける、複数の画像データのそれぞれを合成すべ
き位置を決定してもよい。

【００１０】本発明の第２の形態によると、画像を処理
する画像処理方法であって、画像データを取得して、複
数の音源からの音声を示す音声データを取得し、取得し
た音声データを、複数の画像データに変換して、変換し
た複数の画像データを、取得した画像データに合成す
る。

【００１１】本発明の第３の形態によると、画像を処理
するコンピュータ用のプログラムであって、画像データ
を取得する画像データ取得機能と、複数の音源からの音
声を示す音声データを取得する音声データ取得機能と、
音声データ取得部が取得した音声データを、複数の画像
データに変換する変換機能と、変換部が変換した複数の
画像データを、画像データ取得部が取得した画像データ
に合成する合成機能とをコンピュータに実現させる。

【００１２】なお上記の発明の概要は、本発明の必要な
特徴の全てを列挙したものではなく、これらの特徴群の
サブコンビネーションも又発明となりうる。

【００１３】

【発明の実施の形態】以下、発明の実施の形態を通じて
本発明を説明するが、以下の実施形態はクレームにかか
る発明を限定するものではなく、又実施形態の中で説明
されている特徴の組み合わせの全てが発明の解決手段に
必須であるとは限らない。なお、発明の詳細な説明に記
載の「音声／文字変換部」は、特許請求の範囲に記載の
「変換部」の一例である。発明の詳細な説明に記載の
「配置補正部」は、特許請求の範囲に記載の「音量比較
部」の機能を含む。

【００１４】図１は、本実施の形態に係る画像処理装置
の機能構成を示すブロック図である。画像処理装置１０
は、画像データと音声データを取得し、取得した音声デ
ータを複数の画像データに変換し、変換した複数の画像
データを、取得した画像データに合成する。画像処理装
置１０は、音声データ取得部１００と、音声解析部１０
６と、音声／文字変換部１０８と、補助画像決定部１１
０と、合成位置決定部１１２と、文字種決定部１１４
と、合成部１１６と、画像解析部１１８と、判断部１２
０と、画像データ取得部１２２と、配置補正部１２４
と、印刷部１２６と、入力部１２８と、表示部１３０
と、文字データベース１４０と、補助画像データベース
１４２とを備える。

【００１５】文字データベース１４０は、文字列に対応
する絵文字を文字列に対応付けて格納する。補助画像デ
ータベース１４２は、ふきだしを示すふきだし情報と、
文字のフォントを示すフォント情報とを、音声の周波数
に対応付けて格納する。

【００１６】音声データ取得部１００は、集音部１０２
と、集音部１０４とを有する。集音部１０２と集音部１
０４は、互いに離れた位置に設置される。音声データ取
得部１００は、集音部１０２から得られた音声を示す音
声データを、第１の音声データとして音声解析部１０６
に送る。また音声データ取得部１００は、集音部１０４
から得られた音声を示す音声データを第２の音声データ
として音声解析部１０６に送る。ここで音声データと
は、例えば人が話す声である。

【００１７】音声解析部１０６は、第１の音声データと
第２の音声データを解析する。具体的には、音声解析部
１０６は、まず第１の音声データが示す音声から人の声
を示す音声を抽出する。次に音声解析部１０６は、抽出
した音声が複数人の声であるか否かを判断する。音声解
析部１０６は、抽出した音声が複数の人の声であると判
断した場合には、音声を人毎に分類する。音声解析部１
０６は、第２の音声データについても第１の音声データ
と同様に音声を抽出し、抽出した音声を人毎に分類す
る。

【００１８】次に音声解析部１０６は、第１の音声デー
タから抽出した複数の音声と、第２の音声データから抽
出した複数の音声とを比較して、同一人物の声であると
判断した音声を、第１の音声データから抽出した複数の
音声と、第２の音声データから抽出した複数の音声のそ
れぞれから選択する。音声解析部１０６は、第１の音声
データから選択した音声の音量と、第２の音声データか
ら選択した音声の音量とに基づいて、音声を発した人の
位置を決定する。音声解析部１０６は、決定した人の位
置を示す位置情報を、対応する音声を発した人を識別す
る人識別情報とともに合成位置決定部１１２に送る。

【００１９】また音声解析部１０６は、人毎に分類した
音声を人識別情報に対応付けて音声／文字変換部１０８
に送る。また音声解析部１０６は、人毎に分類した音声
の周波数を示す周波数情報を人識別情報とともに補助画
像決定部１１０及び文字種決定部１１４に送る。また音
声解析部１０６は、人毎に分類した音声の音量を示す音
量情報を人識別情報に対応付けて配置補正部１２４に送
る。

【００２０】音声／文字変換部１０８は、音声解析部１
０６から受け取った音声を文字データに変換する。次に
音声／文字変換部１０８は、変換した文字データに、文
字データベース１４０に格納されている文字列と同一の
文字列が含まれているか否かを判断する。音声／文字変
換部１０８は、変換した文字データに、文字データベー
ス１４０に格納されている文字列と同一の文字列が含ま
れていると判断した場合に、文字列と対応付けて格納さ
れている絵文字を文字データベース１４０から抽出し、
抽出した絵文字を文字データとする。音声／文字変換部
１０８は、文字データを人識別情報に対応付けて補助画
像決定部１１０に送る。

【００２１】補助画像決定部１１０は、音声解析部１０
６から受け取った周波数情報により特定される音声の周
波数に対応付けて格納されているふきだしを示すふきだ
し情報とを、音声／文字変換部１０８から受け取った文
字データに対応付けて人識別情報とともに文字種決定部
１１４に送る。

【００２２】文字種決定部１１４は、音声解析部１０６
から受け取った周波数情報により特定される音声の周波
数に対応付けて格納されているフォントを示すフォント
情報を、補助画像決定部１１０から受け取ったふきだし
情報と、文字データに対応付けて人識別情報とともに合
成部１１６に送る。

【００２３】画像データ取得部１２２は、画像データを
取得する。具体的には、画像データ取得部１２２は、被
写体を撮像することによって画像データを取得する。こ
こで被写体は、例えば複数の人である。画像データ取得
部１２２は、取得した画像データを画像解析部１１８及
び合成部１１６に送る。

【００２４】画像解析部１１８は、画像データ取得部１
２２から受け取った画像データを解析する。具体的に
は、画像解析部１１８は、画像データから顔領域を抽出
する。ここで画像解析部１１８は、例えば特開平８−１
２２９４４号公報または特開平５−１００３２８号公報
に記載された方法を用いる。

【００２５】特開平８−１２２９４４号公報に記載され
た方法は、画像を複数領域に分割し、非人物領域を除外
した後に人物の頭部の輪郭を表す形状パターンを検出
し、検出したパターンに応じて顔候補領域を検出し、さ
らに人物の顔の輪郭を表す形状パターン、顔の内部構造
を表す形状パターン及び人物の胴体の輪郭を表す形状パ
ターンをそれぞれ検出し、検出したパターンにより顔候
補領域の整合性を判定し、人物の顔に相当する領域であ
る確度が最も高い領域を判定することにより、顔領域を
抽出するものである。

【００２６】特開平５−１００３２８号公報に記載され
た方法は、画像を複数領域に分割して測光し、測光によ
り得られたデータを色相及び彩度に変換し、これらの２
次元ヒストグラムを作成するとともに、このヒストグラ
ムを単峰の山毎に分解し、さらに画像の角画素がいずれ
の山に属するかを判断して画素を分割された山に対応す
る群に分解し、各群毎に画像を分割して顔候補領域を抽
出し、抽出した領域の画像サイズと主要画像サイズ情報
から得られる画像サイズとを比較して最も一致する領域
を顔領域として抽出するものである。

【００２７】画像解析部１１８は、抽出した顔領域から
さらに口領域を抽出し、口領域の位置を示す口情報を合
成位置決定部１１２に送る。

【００２８】合成位置決定部１１２は、画像解析部１１
８から口情報から、音声解析部１０６から受け取った位
置情報により特定される位置と最も近い位置を示す口情
報を選択し、人識別情報を対応付ける。合成位置決定部
１１２は、人識別情報と口情報とを対応付けて合成部１
１６に送る。

【００２９】合成部１１６は、画像データ取得部１２２
から画像データを受け取る。また合成部１１６は、合成
位置決定部１１２から口情報と人情報とを受け取る。ま
た合成部１１６は、文字種決定部１１４からフォント情
報と、ふきだし情報と、文字データと、人識別情報とを
受け取る。合成部１１６は、ふきだし情報により特定さ
れるふきだしに、フォント情報により特定されるフォン
トで文字データを記載したふきだし画像を作成する。合
成部１１６は、画像データの口情報に基づいた位置に、
作成したふきだし画像を合成する。合成部１１６は、合
成した合成画像を人識別情報とふきだし画像とともに判
断部１２０に送る。

【００３０】判断部１２０は、合成画像の複数のふきだ
し画像が互いに重なり合っているか否かを判断する。判
断部１２０は、合成画像の複数のふきだし画像が互いに
重なり合っていると判断した場合に、ふきだし画像の配
置を補正すべき旨を示す補正情報を、合成画像と人識別
情報とふきだし画像とともに配置補正部１２４に送る。

【００３１】配置補正部１２４は、補正情報を受け取る
と、音声解析部１０６から受け取った音量情報により特
定される音量がより大きいと判断した人識別情報に対応
するふきだし画像を、互いに重なり合う他方のふきだし
画像より前面に配置する。次に配置補正部１２４は、合
成画像を表示部１３０及び印刷部１２６に送る。

【００３２】表示部１３０は、受け取った合成画像を表
示する。次に入力部１２８は、表示部１３０が表示した
合成画像の印刷を指示する指示情報をユーザから受け付
ける。入力部１２８は、指示情報を印刷部１２６に送
る。印刷部１２６は、指示情報を受け取ると、配置補正
部１２４から受け取った合成画像を印刷する。

【００３３】なお本実施の形態に係る画像処理装置１０
では、合成位置決定部１１２が、音声解析部１０６から
受け取った位置情報、即ち音声データに基づいてふきだ
し画像を合成する合成位置、即ち口情報を決定している
が、これに代えて入力部１２８が、合成位置を示す指示
をユーザから受け付けることにより合成位置を決定して
もよい。

【００３４】また本実施の形態に係る画像処理装置１０
では、補助画像決定部１１０が音声データに基づいてふ
きだし情報及びフォント情報を決定しているが、これに
代えて入力部１２８がふきだし情報及びフォント情報を
示す指示をユーザから受け付けることにより、ふきだし
情報及びフォント情報を決定してもよい。

【００３５】図２は、文字データベース１４０のデータ
フォーマットの一例を示す。文字データベース１４０
は、音声フィールドと、絵文字フィールドとを有する。
音声フィールドは、文字列を格納する。絵文字フィール
ドは、絵文字を格納する。

【００３６】このように文字データベース１４０が文字
列に対応付けて絵文字を格納することによって、画像処
理装置１０は、ユーザが発した言語に対応する絵文字
を、画像データに合成することができる。

【００３７】またここで文字データベース１４０は、文
字に対応付けて絵文字を格納しているが、これに代えて
文字に対応付けて文字を格納してもよいし、画像データ
を対応付けてもよい。これにより画像処理装置１０は、
ユーザが発した言語に対応する文字または画像を合成し
た合成画像を出力することができる。

【００３８】図３は、補助画像データベース１４２のデ
ータフォーマットの一例を示す。補助画像データベース
１４２は、周波数フィールドと、フォントフィールド
と、ふきだしフィールドとを有する。周波数フィールド
は、予め定められた範囲に区切られた周波数を示す情報
を格納する。フォントフィールドは、文字のフォントを
示すフォント情報を格納する。ふきだしフィールドは、
ふきだしの画像であるふきだし情報を格納する。

【００３９】このように補助画像データベース１４２が
フォント情報及びふきだし情報を周波数に対応付けて格
納することにより、画像処理装置１０は、ユーザが発す
る音声の高さに基づいて、画像データに合成する文字の
フォント、及び文字を記載するふきだしを決定すること
ができる。

【００４０】このように本実施の形態では、画像処理装
置１０は、ユーザが発した音声の高さに基づいてフォン
ト情報及びふきだし情報を決定しているが、これに代え
て音声の音量に基づいてフォント情報及びふきだし情報
を決定してもよい。また画像処理装置１０は、ユーザが
発した音声の周波数または音量に基づいて、画像データ
に合成する文字の大きさ、色、合成位置、またはカタカ
ナ、ひらがな、漢字、ローマ字等の文字の種類を決定し
てもよい。

【００４１】図４は、画像処理装置１０の動作を示すフ
ローチャートである。まず音声データ取得部１００は、
音声データを取得する（Ｓ１００）。次に音声解析部１
０６は、第１の音声データと第２の音声データを解析す
る（Ｓ１０２）。次に音声／文字変換部１０８は、音声
解析部１０６が解析した音声データを文字データに変換
する（Ｓ１０４）。次に補助画像決定部１１０は、音声
／文字変換部１０８が変換した文字データを記載するふ
きだしの種類と、記載する文字のフォントを決定する
（Ｓ１０６）。次に画像データ取得部１２２は、画像デ
ータを取得する（Ｓ１０８）。次に画像解析部１１８
は、画像データ取得部１２２が取得した画像データを解
析する（Ｓ１１０）。次に合成位置決定部１１２は、画
像データ取得部１２２が取得した画像データにおいて、
文字データを記載したふきだし画像を合成する位置を決
定する（Ｓ１１２）。次に合成部１１６は、画像データ
の合成位置決定部１１２が決定した位置に、ふきだし画
像を合成する（Ｓ１１４）。

【００４２】判断部１２０は、合成画像の複数のふきだ
し画像が互いに重なり合っているか否かを判断する（Ｓ
１１６）。合成画像の複数のふきだし画像が互いに重な
り合っていると判断部１２０が判断した場合に、配置補
正部１２４は、音量がより大きいと判断した音量情報に
対応するふきだし画像を、互いに重なり合う他方のふき
だし画像より前面に配置する（Ｓ１１８）。

【００４３】次に配置補正部１２４は、合成画像を表示
する（Ｓ１２０）。次に入力部１２８が、表示部１３０
が表示した合成画像の印刷を指示する指示情報をユーザ
から受け付けた場合に、印刷部１２６は、合成画像を印
刷する（Ｓ１２４）。

【００４４】図５（１）は、画像データ取得部１２２が
取得する画像データの一例を示す。画像データ取得部１
２２は、図５（１）に示す画像データを取得する。音声
データ取得部１００は、図５（１）に写っているユーザ
が、画像を撮影中または撮影前後に発した音声を音声デ
ータとして取得する。例えば音声データ取得部１００
は、撮影後に予め定められたタイミングでユーザが発し
た音声を取得する。

【００４５】図５（２）は、画像データにふきだし画像
を合成した合成画像の一例を示す。画像処理装置１０
は、取得した音声データを画像データに変換し、画像デ
ータ取得部１２２が取得した画像データに合成すること
で、図５（２）に示す合成画像を生成する。ここで図５
（２）の左側のユーザが「いえーい」と言い、右側のユ
ーザが「らぶらぶ」と言った場合に、画像処理装置１０
は、集音部１０２及び集音部１０４の各々が拾った音声
の音量に基づいて、どちらのユーザが「いえーい」また
は「らぶらぶ」と言ったのかを判断する。そして画像処
理装置１０は、文字データベース１４０を参照して「ら
ぶらぶ」に対応付けて格納されているハートマークを抽
出し、対応するユーザの口部分からふきだしたふきだし
に「いえーい」とハートマークを記載した画像を合成
し、図５（２）を生成する。

【００４６】このように画像処理装置１０は、複数のユ
ーザに対応するふきだし画像を取得した画像データに合
成することができる。また図５（２）に示すふきだし画
像のように互いに重なり合った場合には、音量の大きい
音声のふきだし画像が前面に配置される。ここで画像処
理装置１０は、音声データの取得順序に基づいて、前面
に配置するふきだし画像を決定してもよい。

【００４７】図６は、画像処理装置１０のハードウェア
構成を示すブロック図である。画像処理装置１０は、Ｃ
ＰＵ７００と、ＲＯＭ７０２と、ＲＡＭ７０４と、通信
インターフェース７０６と、データベースインタフェー
ス７０８と、ハードディスクドライブ７１０と、フロッ
ピー（登録商標）ディスクドライブ７１２と、フロッピ
ーディスク７１４と、表示部１１６と、印刷部１１８と
を備える。ＣＰＵ７００は、ＲＯＭ７０２及びＲＡＭ７
０４に格納されたプログラムに基づいて動作する。通信
インターフェース７０６は、ネットワーク１０を介して
認証装置３０、購入者端末４０、及び決済端末５０と通
信する。格納装置の一例としてのハードディスクドライ
ブ７１０は、設定情報及びＣＰＵ７００が動作するプロ
グラムを格納する。また通信インターフェース７０６
は、専用線を介して認証装置３０と通信してもよい。ハ
ードディスクドライブ７１０は、各種データベース７２
０に接続し、データを送信または受信することによっ
て、データの書き込み、読み出し、及び内容の更新を行
う。

【００４８】フロッピーディスクドライブ７１２はフロ
ッピーディスク７１４からデータまたはプログラムを読
み取りＣＰＵ７００に提供する。ＣＤ−ＲＯＭドライブ
７１６はＣＤ−ＲＯＭ７１８からデータまたはプログラ
ムを読み取りＣＰＵ７００に提供する。通信インターフ
ェース７０６は、ネットワーク１０に接続してデータを
送受信する。表示部１１６は、例えば図３、図４、図
５、及び図６に示す表示画面を表示する。印刷部１１８
は、例えばテンプレートを印刷する。本実施の形態に係
る画像処理装置１０は、表示部１１６及び印刷部１１８
を備えるが、これに代えて外部の表示部１１６と印刷部
１１８と接続し、データを送信してもよい。

【００４９】ＣＰＵ７００が実行するソフトウエアは、
フロッピーディスク７１４またはＣＤ−ＲＯＭ７１８等
の記録媒体に格納されて利用者に提供される。記録媒体
に格納されたソフトウエアは圧縮されていても非圧縮で
あっても良い。ソフトウエアは記録媒体からハードディ
スクドライブ７１０にインストールされ、ＲＡＭ７０４
に読み出されてＣＰＵ７００により実行される。

【００５０】記録媒体に格納されて提供されるソフトウ
エア、即ちハードディスクドライブ７１０にインストー
ルされるソフトウエアは、機能構成として、音声データ
取得モジュール、音声解析モジュール、音声／文字変換
モジュール、補助画像決定モジュール、文字種決定モジ
ュール、合成位置決定モジュール、合成モジュール、表
示モジュール、画像解析モジュール、判断モジュール、
画像データ取得モジュール、配置補正モジュール、印刷
モジュール、入力モジュール、表示モジュール、文字管
理モジュール、及び補助画像管理モジュールを備える。
これらの各モジュールがコンピュータに働きかけて、Ｃ
ＰＵ７００に行わせる処理は、それぞれ本実施の形態に
おける画像処理装置１０における、対応する部材の機能
及び動作と同一であるから説明を省略する。

【００５１】図６に示した、記録媒体の一例としてのフ
ロッピーディスク７１４またはＣＤ−ＲＯＭ７１８に
は、本出願で説明する全ての実施形態における画像処理
装置１０の動作の一部または全ての機能を格納すること
ができる。

【００５２】これらのプログラムは記録媒体から直接Ｒ
ＡＭに読み出されて実行されても、一旦ハードディスク
ドライブにインストールされた後にＲＡＭに読み出され
て実行されても良い。更に、上記プログラムは単一の記
録媒体に格納されても複数の記録媒体に格納されても良
い。また記録媒体に格納されるモジュールは、オペレー
ティングシステムとの共同によってそれぞれの機能を提
供してもよい。例えば機能の一部または全部を行うこと
をオペレーティングシステムに依頼し、オペレーティン
グシステムからの応答に基づいて機能を提供するもので
あってもよい。

【００５３】以上に示したプログラムまたはモジュール
は、外部の記録媒体に格納されてもよい。記録媒体とし
ては、フロッピーディスク、ＣＤ−ＲＯＭの他にも、Ｄ
ＶＤやＰＤ等の光学記録媒体、ＭＤ等の光磁気記録媒
体、テープ媒体、磁気記録媒体、ＩＣカードやミニチュ
アーカードなどの半導体メモリ等を用いることができ
る。又、専用通信ネットワークやインターネットに接続
されたサーバシステムに設けたハードディスクまたはＲ
ＡＭ等の格納装置を記録媒体として使用し、通信網を介
してプログラムを画像処理装置１０に提供してもよい。

【００５４】以上、本発明を実施の形態を用いて説明し
たが、本発明の技術的範囲は上記実施の形態に記載の範
囲には限定されない。上記実施の形態に、多様な変更又
は改良を加えることができる。その様な変更又は改良を
加えた形態も本発明の技術的範囲に含まれ得ることが、
特許請求の範囲の記載から明らかである。

【００５５】

【発明の効果】上記説明から明らかなように、本発明に
よれば複数の音源からの音声を複数の画像データに変換
し、他の画像データに合成する画像処理装置を提供する
ことができる。

【図面の簡単な説明】

【図１】本実施の形態に係る画像処理装置の機能構成を
示すブロック図である。

【図２】文字データベース１４０のデータフォーマット
の一例を示す図である。

【図３】補助画像データベース１４２のデータフォーマ
ットの一例を示す図である。

【図４】画像処理装置１０の動作を示すフローチャート
である。

【図５】図５（１）は、画像データ取得部１２２が取得
する画像データの一例を示す図である。図５（２）は、
画像データにふきだし画像を合成した合成画像の一例を
示す図である。

【図６】画像処理装置１０のハードウェア構成を示すブ
ロック図である。

【符号の説明】

１０画像処理装置１００音声データ取得部１０２、１０４集音部１０６音声解析部１０８音声／文字変換部１１０補助画像決定部１１２合成位置決定部１１４文字種決定部１１６合成部１１８画像解析部１２０判断部１２２画像データ取得部１２４配置補正部１２６印刷部１２８入力部１３０表示部１４０文字データベース１４２補助画像データベース

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/04 Ｇ１０Ｌ 3/00 ５７１Ｓ 15/08 ５１３Ａ 15/10 ５３１Ｗ 15/24 Ｈ０４Ｎ 1/387 Ｆターム(参考） 5B050 BA06 BA20 EA12 EA19 FA10 5C076 AA12 AA14 AA16 AA40 BA06 5D015 AA04 AA05 KK02 LL11 5E501 AA02 BA03 BA09 CA03 CB15 EA21 FA14 FA46 FB44

Claims

【特許請求の範囲】

【請求項１】画像を処理する画像処理装置であって、画像データを取得する画像データ取得部と、複数の音源からの音声を示す音声データを取得する音声
データ取得部と、前記音声データ取得部が取得した前記音声データを、複
数の画像データに変換する変換部と、前記変換部が変換した前記複数の画像データを、前記画
像データ取得部が取得した前記画像データに合成する合
成部とを備えることを特徴とする画像処理装置。
【請求項２】前記音声データ取得部は、音声を集音す
る複数の集音部を有し、前記合成部は、前記複数の集音部のそれぞれの集音量に
基づいて、前記画像データ取得部が取得した画像データ
における、前記複数の画像データのそれぞれを合成すべ
き位置を決定することを特徴とする請求項１に記載の画
像処理装置。
【請求項３】前記変換部は、音声データを複数に分割
し、分割したそれぞれの部分音声データの各々を画像デ
ータに変換し、複数の前記部分音声データが示す音声の音量を互いに比
較する音量比較部と、前記画像データ取得部が取得した前記画像データに前記
合成部が合成した前記複数の画像データが、互いに重な
り合っているか否かを判断する判断部と、前記複数の画像データが互いに重なり合っていると前記
判断部が判断した場合に、音量がより大きいと前記音量
比較部が判断した前記部分音声データに対応する画像デ
ータを、互いに重なり合う他方の画像データより前面に
配置する配置補正部とをさらに備えることを特徴とする
請求項１に記載の画像処理装置。