JP2005101931A - 画像プリント装置 - Google Patents

画像プリント装置 Download PDF

Info

Publication number
JP2005101931A
JP2005101931A JP2003333436A JP2003333436A JP2005101931A JP 2005101931 A JP2005101931 A JP 2005101931A JP 2003333436 A JP2003333436 A JP 2003333436A JP 2003333436 A JP2003333436 A JP 2003333436A JP 2005101931 A JP2005101931 A JP 2005101931A
Authority
JP
Japan
Prior art keywords
image data
still image
character string
layout
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003333436A
Other languages
English (en)
Inventor
Yoshiki Kawaoka
芳樹 河岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2003333436A priority Critical patent/JP2005101931A/ja
Priority to US10/946,103 priority patent/US20050068584A1/en
Publication of JP2005101931A publication Critical patent/JP2005101931A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • H04N1/00442Simultaneous viewing of a plurality of images, e.g. using a mosaic display arrangement of thumbnails
    • H04N1/00453Simultaneous viewing of a plurality of images, e.g. using a mosaic display arrangement of thumbnails arranged in a two dimensional array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/00411Display of information to the user, e.g. menus the display also being used for user input, e.g. touch screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • H04N1/00408Display of information to the user, e.g. menus
    • H04N1/0044Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
    • H04N1/00458Sequential viewing of a plurality of images, e.g. browsing or scrolling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3871Composing, repositioning or otherwise geometrically modifying originals the composed originals being of different kinds, e.g. low- and high-resolution originals

Abstract

【課題】 画像に付随した音声を文字として画像とともに一緒に楽しめるようにする画像プリント装置を提供すること。
【解決手段】 音声データ付の動画画像データを取得する画像データ取得手段2aと、音声データを音声認識して文字列に変換する音声認識手段2cと、動画画像データから静止画画像データを抽出する静止画画像データ抽出手段2dと、抽出された静止画画像データおよび変換された文字列を配置したプリント出力のレイアウトを決定するレイアウト手段2eと、決定されたレイアウトで静止画画像データおよび文字列をプリントするプリント手段2gを備えるように構成した。また、画像データ取得手段2aが、音声データ付の静止画画像データを取得した場合にも、音声認識手段2cが、音声データを文字列に変換し、レイアウト手段2eで決定されたレイアウトで、プリント手段2gが文字列付きの画像プリントを行うようにした。
【選択図】 図1

Description

本発明は画像プリント装置に係り、特に記録媒体やネットワークなどから取得した画像データをプリントする画像プリント装置に関する。
カメラなどで撮影して得られた画像をプリントする際、画像とともに文字もプリントしたいという要求がある。このような要求に対して、画像とともに文字をプリント可能にした画像プリント装置が提供されている。例えば、表示する際には、プリントする画像および文字をそれぞれ画像表示部および文字表示部に別々に表示し、プリントする際には、プリント媒体の限られた範囲に良好にプリント画像が形成されるように、画像に文字をスーパーインポーズしてプリントするようにしたものが提案されている(特許文献1を参照)。
動画から抽出する静止画とフレーム(素材画像)などをユーザに指定させ、指定された静止画を動画から抽出し、抽出した静止画に指定されたフレームを合成してプリントするようにしたものも提案されている(特許文献2を参照)。
特開2001−256011号公報 特開2002−215772号公報
動画画像データの多くは音声データが付随している。静止画画像データにも音声データが付随したものがある。これらの画像データに付随した音声データは、画像データに関連した貴重なデータであるにもかかわらず、画像プリントの際には無視されていた。あるいは、文字列として再入力した後に画像プリントしなければならなかった。このように従来の画像プリント装置では、画像をプリントする際、画像に付随した音声が有効に再利用されないという問題があった。
本発明はこのような事情に鑑みてなされたもので、画像に付随した音声を文字として画像とともに一緒に楽しめるようにすることができる画像プリント装置を提供することを目的とする。
前記目的を達成するために、請求項1に記載の発明は、音声データ付の動画画像データを取得する画像データ取得手段と、前記音声データを音声認識して文字列に変換する音声認識手段と、前記動画画像データから静止画画像データを抽出する静止画画像データ抽出手段と、抽出された静止画画像データおよび変換された文字列を配置したプリント出力のレイアウトを決定するレイアウト手段と、決定されたレイアウトで前記静止画画像データおよび前記文字列をプリントするプリント手段とを備えたことを特徴としている。
この構成によって、動画画像データに付随した音声データが文字列として、動画画像データから抽出された静止画画像データとともにプリントされることになる。
また、請求項2に記載の発明は、請求項1に記載の発明において、前記動画画像データから抽出すべき静止画画像データを示す指示を入力する指示入力手段を備え、前記静止画画像データ抽出手段は、入力された指示に従って前記動画画像データから静止画画像データを抽出する構成となっている。
この構成によって、動画画像データの中から利用者が選択した画像(静止画画像データ)が、音声データに対応する文字列とともにプリントされることになる。
また、請求項3に記載の発明は、請求項1に記載の発明において、前記音声認識手段は、前記音声データ中に含まれる文節の始まりを認識し、前記静止画画像データ抽出手段は、認識された文節の始まりに対応する静止画画像データを抽出することを特徴とする構成となっている。
この構成によって、動画画像データの中から音声認識結果に基づいて自動的に選択された抽出画像(静止画画像データ)が、音声データに対応する文字列とともにプリントされることになる。
また、請求項4に記載の発明は、音声データ付の静止画画像データを取得する画像データ取得手段と、前記音声データを音声認識して文字列に変換する音声認識手段と、前記静止画画像データおよび変換された文字列を配置したプリント出力のレイアウトを決定するレイアウト手段と、決定されたレイアウトで前記静止画画像データ及び文字列をプリントするプリント手段とを備えた構成となっている。
この構成によって、静止画画像データに付随した音声データが文字列として、静止画画像データとともにプリントされることになる。
また、請求項5に記載の発明は、請求項1ないし4の何れかに記載の発明において、前記レイアウト手段は、静止画画像データが配置された余白に文字列を配置する構成となっている。
また、請求項6に記載の発明は、請求項1ないし4の何れかに記載の発明において、前記レイアウト手段は、静止画画像データ内の顔のある領域を避けて文字列を配置する構成となっている。
また、請求項7に記載の発明は、請求項6に記載の発明において、前記レイアウト手段は、吹き出し画像を配置するとともに、吹き出し画像内に文字列を配置する構成となっている。
本発明によれば、画像に付随した音声を文字として画像とともに一緒に楽しむことができる。
以下、添付図面に従って、本発明に係る画像プリント装置の最良の実施形態について詳説する。
図1は、本発明に係る一実施形態の画像プリント装置2の概略構成を概念的に示すブロック図である。
図1に示すように、画像プリント装置2は、画像データ取得手段2a、音声データ分離手段2b、音声認識手段2c、静止画画像データ抽出手段2d、レイアウト手段2e、ユーザインタフェース2f、および、プリント手段2gを含んで構成される。
画像データ取得手段2aは、記録メディアやネットワーク等から、音声データ付きの画像データを取得するものである。ここで、画像データには、動画画像データと静止画画像データがある。なお、音声データ付きの画像データには、音声データが画像データに一体に組み込まれ同じファイルに格納されているものや、画像データと音声データとが別のファイルに格納されてファイル名などで関連付けされているものを含む。また、画像データの取得先は、記録メディアやネットワークに特に限定されるものではない。例えば、デジタルカメラやカメラ付き携帯電話と直接通信して画像データを取得するようにしてもよい。画像データや音声データのフォーマットも特に限定されるものではない。例えば、動画画像データには、モーションJPEG(Joint Photographic Expert Group)形式で記録されたものがある。
音声データ分離手段2bは、画像データ取得手段2aで取得された音声データに音声データが一体にして組み込まれている場合、音声データを画像データと分離するものである。なお、画像データ取得手段2aで取得された画像データと音声データとが別のファイルに格納されているような場合には、分離する必要がない。
音声認識手段2cは、音声データを音声認識して文字列(「音声テキスト」とも称する)に変換するものである。音声認識の基本的なアルゴリズムとしては周知のアルゴリズムを用いる。また、各言語にそれぞれ適応したアルゴリズム、例えば、日本語話者がターゲットであれば日本語用の音声認識アルゴリズム、英語話者がターゲットであれば英語用の音声認識アルゴリズムを用いるようにすればよい。
静止画画像データ抽出手段2dは、動画画像データから静止画画像データを抽出するものである。抽出態様については各種の態様があり、抽出態様の例については後に詳述する。
レイアウト手段2eは、音声認識手段2cで変換された文字列と静止画画像データとを配置したプリント出力のためのレイアウトを決定して、プリント出力用の画像データを生成するものである。
ユーザインタフェース2fは、画像データの取得指示、画像データの選択指示、取得した画像データが動画画像データの場合における動画画像データから抽出する静止画画像データの選択指示、プリント出力のレイアウトに関する指示、プリント指示等、各種の指示を入力可能になっている。また、画像データの一覧表示、画像データの再生表示、音声認識結果の表示、レイアウト結果の表示等、各種の表示が可能になっている。ユーザインタフェース2fの具体的な構成については、特に限定されるものではなく、後述するタッチパネルモニタのほかに、パーソナルコンピュータの周辺機器として一般に用いられるような入出力デバイス、例えばキーボード、マウスおよびLCD(液晶表示装置)で構成してもよく、音声入出力デバイスを用いてもよい。また、指示については、予め指定されたプリント注文情報を記録メディアやネットワークなどから取り込むようにしてもよい。
プリント手段2gは、レイアウト手段2eで決定されたレイアウトで画像および文字列のプリントを実行するものである。プリント媒体は特に限定されるものでなく、ロール紙、シート状の用紙、はがき、シールなど、用途に応じて選択される。
なお、画像プリント装置2は、実際には、所定のプログラム(画像プリントプログラム)に従って画像プリント処理を実行するCPU(中央処理装置)等から構成され、画像データ取得、音声データ分離、音声認識、静止画画像データ抽出、レイアウト、指示入力、プリント等の各処理はCPUの統括制御によって行われる。以下、これについて説明する。
図2は、本発明に係る一実施形態の画像プリント装置としての機能を備えたプリンタの具体的な構成例を示すブロック図である。図2において、プリンタ2は、図1の画像プリント装置2に相当するので、同じ符号を付してある。なお、図2のプリンタ2と図1の画像プリント装置2とを同一としているが、別の態様として、画像データ取得、音声データ分離、音声認識、静止画画像データ抽出、レイアウトおよびプリント用の画像データの出力までを実行する画像処理コントロール装置と、この画像処理コントロール装置から受信したプリント用の画像データをプリントするプリント装置という構成をとってもよい。
図2に示すプリンタ2は、主として、記録メディア挿入口4、メディアインタフェース6、通信インタフェース7、メモリ8、システムメモリ10、タッチパネルモニタ12、入力コントローラ14、表示コントローラ16、CPU18、プリントエンジン20、および、バス22から構成されている。
このプリンタ2は、デジタルカメラや携帯電話において使用されている記録メディアが挿入される記録メディア挿入口4を有し、この記録メディア挿入口4に挿入された記録メディアから動画画像ファイル(動画画像データ)や静止画画像ファイル(静止画画像データ)を取り込むことができるようになっている。
記録メディアが記録メディア挿入口4に挿入された後、記録メディアに記録されている動画画像ファイルや静止画画像ファイルが、メディアインタフェース6およびバス22を介して、CPU18の指示に従い、メモリ8に送られる。
また、プリンタ2は、ネットワークやデジタルカメラ、携帯電話などから、通信インタフェース7を介して動画画像ファイル(動画画像データ)や静止画画像ファイル(静止画画像データ)を取り込むことができるようになっている。通信態様については各種の態様があり、無線でも有線でもよい。インターネットに接続されていてもよい。例えば、動画画像ファイルや静止画画像ファイルが添付された電子メールを受信して、受信した電子メールが、通信インタフェース7およびバス22を介して、CPU18の指示に従い、メモリ8に送られる。
メモリ8はRAM等からなり、メディアインタフェース6や通信インタフェース7を介して取得した画像データや、後述するCPU18で生成された表示用画像データ、プリント用画像データ、プログラムの動作に必要な情報などを一時的に記憶するようになっている。
システムメモリ10はROM等からなり、プログラムやプログラムの実行に必要な情報等を保存しておくところである。
タッチパネルモニタ12は、操作部および表示画面を有しており(詳細は図3を参照)、表示コントローラ16の制御によって表示がされるようになっている。また、タッチパネルモニタ12の操作部を操作すると入力コントローラ14が作動して入力が実行されるようになっている。
CPU18は、プリンタ2の各部を統括制御するほか、音声データと画像データの分離処理、音声データの音声認識処理、動画画像データからの静止画画像データの抽出処理、表示用画像データの生成処理、プリント出力のレイアウトおよびプリント用画像データの生成処理等の各種処理を行うようになっている。なお、モーションJPEG形式で圧縮して記録されていた画像データの伸長なども行うようになっている。
プリントエンジン20はプリントを実行するものである。
図2に示した構成要素と図1の構成要素との対応関係を簡単に説明すると、画像データ取得手段2aは、メディアインタフェース6、通信インタフェース7等で構成され、音声データ分離手段2b、音声認識手段2c、静止画画像データ抽出手段2d、レイアウト手段2eは、CPU18、メモリ8等で構成され、ユーザインタフェース2fは、タッチパネルモニタ12等で構成され、プリント手段2gは、プリントエンジン20で構成される。
また、CPU18で実行される画像プリントプログラムは、この画像プリントプログラムを記録したCD−ROMを、図示を省略したCD−ROMドライブにセットすることによりプリンタ2にインストールすることができる。ネットワークを介して、画像プリントプログラムを提供するサーバからダウンロードするようにしてもよい。
図3は、タッチパネルモニタ12の操作部及び表示画面を示した図である。タッチパネルモニタ12の右側には、画像ファイルの一覧表示がされる一覧表示エリア24が形成されている。タッチパネルモニタ12の左側上部には、確認エリア26が形成されており、選択した画像ファイルの再生表示(画像表示)等を行う。確認エリア26内にはテキスト表示エリア26aが設けられており、音声データから音声認識によって変換された文字列(音声テキスト)を表示する。確認エリア26の底部にはスクロールバー26bが設けられており、再生中に、表示されている場面(コマ)が当該動画画像ファイル全体のどのあたりのものかを示している。確認エリア26の下方には、動画制御ボタン28が形成されている。動画制御ボタン28は、戻し、スタート/ストップ、早送りの各ボタンからなる。早送りボタンは、画面停止中に押すとコマ送りモードになり、画面再生中に押すと早送りモードになる。確認エリア26の右下隅には、回転ボタン30が形成されている。回転ボタン30を操作することによって表示画像の縦・横回転がされる。
動画制御ボタン28の下方には、「決定的瞬間」ボタン31、「ここから」ボタン32、「ここまで」ボタン33、「プレビュー」ボタン34が形成されている。「決定的瞬間」ボタン31は、動画画像ファイルを再生中に確認エリア26に表示されているコマ(静止画画像データ)を対象として指定したいときに、この「決定的瞬間」ボタン31を押すことによってその表示されているコマ(静止画画像データ)がプリント対象として指定される。「ここから」ボタン32、「ここまで」ボタン33は、実際にプリントする開始点、終了点を設定するためのボタンである。開始点、終了点が設定されない場合には、それぞれ動画画像ファイルの先頭、最後が指定されたものとする。「決定的瞬間」ボタン31を押し、かつ「ここから」ボタン32および「ここまで」ボタン33の少なくとも一方を押すこともできる。この場合は、決定的瞬間の特定画像を含み、かつ「ここから」ボタン32、「ここまで」ボタン33で指定された範囲のコマ(静止画画像データ)がプリント対象とされる。「プレビュー」ボタン34は、これを押すことによって実際にプリントする前にレイアウト済みのプリント用画像データを確認できる。
なお、プリント出力のレイアウトフォーマット、コマ数の設定は図示しない操作ボタンで行うことができ、コマ数が示されたレイアウトのフォーマットがシステムメモリ10に予め記憶されているので、上記操作ボタンを操作してプリントしたいフォーマットを選択する。選択の際には確認エリア26でレイアウトフォーマットを表示させて好みのレイアウトを選ぶことができる。
以下、プリント店に設置されたプリンタ2で音声データ付きの動画画像データを取得して音声テキスト付きで画像プリントを行う処理を説明する。この画像プリント処理の流れの概略を図4のフローチャートに示す。図5(a)および(b)は、画像プリント処理の説明に用いる説明図であって、魚釣りの状況を音声付きで録画して得た音声データ付きの動画画像データに基づいてプリンタ2で画像プリントした例を示す。
まず、タッチパネルモニタ12の選択操作ボタン(図示を省略)が操作されて、プリント出力レイアウトのフォーマットが選択される(S2)。フォーマットは数種類がシステムメモリ10に予め記憶されている。例えば図6(a)から(d)までに示すフォーマットが記憶されている。図6(a)および(b)は、1枚の用紙に4コマのプリントを行う4分割プリントのそれぞれ縦フォーマット、横フォーマットであり、図6(c)および(d)は、1枚の用紙に8コマのプリントを行う8分割プリントのそれぞれ縦フォーマット、横フォーマットである。図6(a)から(d)に示される例の他にも、フルサイズプリント(1コマ)、2分割プリント(2コマ)、16分割プリント(16コマ)のフォーマットなどを設けてもよい。また、図5(a)に示すように音声認識で得られた文字列を画像が配置された余白に配置する、図5(b)に示すように音声認識で得られた文字列を画像内の顔のある領域を避けて吹き出し内に配置する、などの文字列の配置を選択可能である。
記録メディアが記録メディア挿入口4に挿入されると、記録メディア内に複数の動画画像ファイル(動画画像データ)が存在する場合には、記録メディアに記録されている動画画像ファイルの一覧がタッチモニタパネル12の一覧表示エリア24に表示される(S4)。ここで、一覧表示エリア24には、各動画画像ファイルの代表コマ(例えば、動画画像ファイルの先頭コマ)が表示されるようになっている。なお、記録メディア内にひとつの動画画像ファイルのみ存在する場合には、この動画画像ファイルの代表コマのみが一覧表示エリア24に表示される。
タッチパネルモニタ12の選択操作ボタン(図示を省略)が操作されて一覧からプリントしたい動画画像ファイルが選択される(S6)。選択された動画画像ファイルの内容は、タッチパネルモニタ12の動画制御ボタン28の操作により、再生して確認することができる。また、一覧からは、複数の動画画像ファイルを選択することも可能である。ある動画画像ファイルを再生中に別の動画画像ファイルを選択すると、新しく選択した動画画像ファイルが再生される。
選択された音声データ付き動画画像ファイルから、CPU18により、音声データが分離され(S8)、この分離された音声データに対して、CPU18により、音声認識が行われて音声データが音声テキスト(文字列)に変換される(S10)。
また、ステップS2で選択されたフォーマットに従って、CPU18により、プリント出力に必要なコマ数の静止画画像データが動画画像データから抽出される(S12)。この静止画画像データの抽出態様には各種の態様、例えば以下に説明する第1および第2の抽出態様がある。
第1の抽出態様では、タッチパネルモニタ12により、抽出すべき静止画画像データの選択を受け付ける。例えば、「ここから」ボタン32および「ここまで」ボタン33が押されて、プリント開始点およびプリント終了点が指定される。指定されたプリント区間内、すなわちプリント開始点からプリント終了点までの区間において、ステップS2で選択されたフォーマットのコマ数分(例えば4分割プリントであれば4コマ分)、静止画画像データを均等間隔で抽出してプリント対象にし、残りは間引く。なお、「ここから」ボタン32によりプリント開始点が指定されない場合には動画画像ファイルの先頭のコマが指定されたものとし、「ここまで」ボタン33によりプリント終了点が指定されない場合には動画画像ファイルの最後のコマが指定されたものとする。「ここから」ボタン32および「ここまで」ボタン33によりプリント開始点およびプリント終了点がともに指定されない場合には、動画画像ファイル内の全区間が指定された状態になり、全区間から指定コマ数分の静止画画像データを均等間隔で抽出してプリント対象にし、残りは間引く。なお、プリント開始点からのシーンを重み付けして所定コマ分抽出し、残りのコマを間引くようにしてもよい。また、タッチパネルモニタ12の「決定的瞬間」ボタン31を押すことにより、抽出すべき静止画画像データを指定してもよい。例えば、「決定的瞬間」ボタン31が押されることによりプリント区間の中心となるコマ(中心点)を指定し、この中心点から予め定められた前後の時間のコマをプリント対象にして静止画画像データを抽出するようにしてもよい。
さらに、音声認識により変換された全音声テキストの中で抽出された静止画画像データに対応する文字列がCPU18により推定される。なお、タッチパネルモニタ12の確認エリア26に画像表示されたコマに対応すると推定される文字列は、この確認エリア26内のテキスト表示エリア26aに表示される。このように各静止画画像データに対応すると推定された文字列が全音声テキストの中から抽出される。例えば、図5(a)の場合であれば、魚釣りをしている状況を音声とともに録画した動画画像データから、タッチパネルモニタ12によって選択された4コマが抽出され、各コマに対応すると推定される文字列(「ひいてる、ひいてる」、「大きいぞ」、「よーし、釣れた」、「大漁だー」)が抽出される。図5(a)の場合には、実際には「!」や「。」が挿入されている。なお、ステップS10の音声認識では、周知の音声認識アルゴリズムに従って各文節の始まりが検出されるようになっており、さらに、各抽出コマの動画画像ファイル先頭コマからの経過時間と、各文節の動画画像ファイル先頭コマからの経過時間とを比較することにより、各抽出コマと各文節との対応付けが行われる。なお、文節同士の関連性を評価することにより複数の文節をひとつのグループにまとめることもできるになっている。
第2の抽出態様では、CPU18での音声認識結果に基づいて、CPU18が抽出すべき静止画画像データを選択する。すなわち自動で静止画画像データが抽出される。なお、ステップS10の音声認識では、第1の態様で説明したように、周知の音声認識アルゴリズムに従って各文節の始まりが検出されるようになっており、さらに、各文節の動画画像ファイル先頭コマからの経過時間と動画画像ファイル内の各コマの動画画像ファイル先頭コマからの経過時間とを比較することにより、各文節と各コマとの対応付けが行われる。なお、文節同士の関連性を評価することにより複数の文節をひとつのグループにまとめることもできるようになっている。そして、各文節に対応したコマの静止画画像データが動画画像ファイルから抽出される。ここで、静止画画像データの選択は全自動でなく半自動であってもよい。例えば、CPU18によって選択された静止画画像データ(ここではプリント候補である)をタッチパネルモニタ12の確認エリア26に表示し、実際にプリントするか否かを利用者に決定させるようにしてもよい。また、タッチパネルモニタ12の動画制御ボタン28により、CPU18が選択したコマから前後にコマ移動させて、実際にプリントするコマの選択を微調整可能にしてもよい。
ところで、動画画像データから分離した原音声データ中には、一般に、利用者が期待しないような音声も含まれている。例えば、被写体を撮影している人、あるいは、被写体となっている人の音声のみがプリントされることを期待しているのに、背後にいた第3者の音声や周囲の雑音が原音声データに含まれている。このような第3者の音声や周囲の雑音は排除したい。そこで、音声認識をする際に、音声データ内の音声のレベルが大きいところのみを文字列に変換し、プリント対象の文字列とするなどの処理を行う。
各静止画データに対応した音声テキストは、CPU18により、各静止画画像の近傍の余白、あるいは静止画画像内に配置するようにレイアウトされ、プリント用の画像データが生成される(S14)。必要に応じてタッチパネルモニタ12のプレビューボタン34を押して、タッチパネルモニタ12の確認エリア26で予めプリント用の画像データを確認することができる。
生成されたプリント用の画像データは、プリントエンジン20に転送されて、所定の用紙にプリントがされる(S16)。
図5(a)に示すプリント例では、4分割プリントのフォーマットで静止画画像が配置され、その静止画画像の近傍の余白に、各静止画画像に対応した音声テキストが配置されている。
図5(b)に示すプリント例では、4分割プリントのフォーマットで静止画画像が配置され、その静止画画像内の顔のある領域を避けて音声テキストが配置されている。この顔画像の認識はCPU18により行われる。そして、吹き出し画像を顔のある領域を避けて配置し、この吹き出し画像内に、各静止画に対応した音声テキストを配置している。
なお、図4を用いた前述の説明では、音声データ付き動画画像データから抽出した静止画画像データを音声テキスト付きでプリントする場合を例に説明したが、本発明はこれに限るものではなく、音声データ付き静止画画像データを取得して、音声データを音声テキストに変換し、静止画画像を音声テキスト付きでプリントする場合に適用してもよい。
また、本発明は、前述の実施形態や図面によって限定されるものではなく、本発明の要旨を逸脱しない範囲において、各種の改良や変更を行ってよいのはもちろんである。
例えば、音声認識に関しては、人物識別を行って特定の人物の音声のみを文字列に変換するなどの改良を行ってもよい。また、音声認識結果と動画画像データ内の各コマ(静止画画像データ)との対応付けについては、音声認識や対応付けの精度に応じて、ユーザインタフェースで各種の調整を可能にしてもよいし、予め各種の条件を設定して、この各種の条件に応じた音声認識や対応付けをするなどの改良を行ってよい。
本発明を適用したプリンタの概念的な概略構成を示すブロック図 本発明を適用したプリンタの具体的な構成の例を示すブロック図 タッチパネルモニタの例を示す図 本発明を適用したプリンタの動作を示すフローチャート プリント例を示す図 出力レイアウトのフォーマット例を示す図
符号の説明
2…プリンタ、2a…画像データ取得手段、2b…音声データ分離手段、2c…音声認識手段、2d…静止画画像データ抽出手段、2e…レイアウト手段、2f…ユーザインタフェース、2g…プリント手段、4…記録メディア挿入口、6…メディアインタフェース、7…通信インタフェース、8…メモリ、10…システムメモリ、12…タッチパネルモニタ、14…入力コントローラ、16…表示コントローラ、18…CPU、20…プリントエンジン、22…バス、24…一覧表示エリア、26…確認エリア、26a…テキスト表示エリア、26b…スクロールバー、28…動画制御ボタン、30…回転ボタン、31…決定的瞬間ボタン、32…ここからボタン、33…ここまでボタン、34…プレビューボタン

Claims (7)

  1. 音声データ付の動画画像データを取得する画像データ取得手段と、
    前記音声データを音声認識して文字列に変換する音声認識手段と、
    前記動画画像データから静止画画像データを抽出する静止画画像データ抽出手段と、
    抽出された静止画画像データおよび変換された文字列を配置したプリント出力のレイアウトを決定するレイアウト手段と、
    決定されたレイアウトで前記静止画画像データおよび前記文字列をプリントするプリント手段と、
    を備えたことを特徴とする画像プリント装置。
  2. 前記動画画像データから抽出すべき静止画画像データを示す指示を入力する指示入力手段を備え、
    前記静止画画像データ抽出手段は、入力された指示に従って前記動画画像データから静止画画像データを抽出することを特徴とする請求項1に記載の画像プリント装置。
  3. 前記音声認識手段は、前記音声データ中に含まれる文節の始まりを認識し、
    前記静止画画像データ抽出手段は、認識された文節の始まりに対応する静止画画像データを抽出することを特徴とする請求項1に記載の画像プリント装置。
  4. 音声データ付の静止画画像データを取得する画像データ取得手段と、
    前記音声データを音声認識して文字列に変換する音声認識手段と、
    前記静止画画像データおよび変換された文字列を配置したプリント出力のレイアウトを決定するレイアウト手段と、
    決定されたレイアウトで前記静止画画像データ及び文字列をプリントするプリント手段と、
    を備えたことを特徴とする画像プリント装置。
  5. 前記レイアウト手段は、静止画画像データが配置された余白に文字列を配置することを特徴とする請求項1ないし請求項4の何れかに記載の画像プリント装置。
  6. 前記レイアウト手段は、静止画画像データ内の顔のある領域を避けて文字列を配置することを特徴とする請求項1ないし請求項4の何れかに記載の画像プリント装置。
  7. 前記レイアウト手段は、吹き出し画像を配置するとともに、吹き出し画像内に文字列を配置することを特徴とする請求項6に記載の画像プリント装置。
JP2003333436A 2003-09-25 2003-09-25 画像プリント装置 Pending JP2005101931A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003333436A JP2005101931A (ja) 2003-09-25 2003-09-25 画像プリント装置
US10/946,103 US20050068584A1 (en) 2003-09-25 2004-09-22 Image printing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003333436A JP2005101931A (ja) 2003-09-25 2003-09-25 画像プリント装置

Publications (1)

Publication Number Publication Date
JP2005101931A true JP2005101931A (ja) 2005-04-14

Family

ID=34373127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003333436A Pending JP2005101931A (ja) 2003-09-25 2003-09-25 画像プリント装置

Country Status (2)

Country Link
US (1) US20050068584A1 (ja)
JP (1) JP2005101931A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071647A (ja) * 2018-10-31 2020-05-07 京セラドキュメントソリューションズ株式会社 情報処理装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060092291A1 (en) * 2004-10-28 2006-05-04 Bodie Jeffrey C Digital imaging system
JP4657744B2 (ja) * 2005-01-28 2011-03-23 株式会社リコー デジタル画像印刷システムおよび印刷装置およびデジタル画像印刷システムの制御方法および印刷装置の制御方法およびプログラムおよび記録媒体
US8170877B2 (en) * 2005-06-20 2012-05-01 Nuance Communications, Inc. Printing to a text-to-speech output device
JP4757183B2 (ja) * 2006-12-20 2011-08-24 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、プログラム
US20080218486A1 (en) * 2007-03-09 2008-09-11 Todd Haseyama Contextual Touch Panel
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing
KR102306538B1 (ko) * 2015-01-20 2021-09-29 삼성전자주식회사 콘텐트 편집 장치 및 방법
JP2016189158A (ja) * 2015-03-30 2016-11-04 富士フイルム株式会社 画像処理装置、画像処理方法、プログラムおよび記録媒体
US10332515B2 (en) * 2017-03-14 2019-06-25 Google Llc Query endpointing based on lip detection

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3611230B2 (ja) * 1997-06-12 2005-01-19 富士ゼロックス株式会社 情報処理方法
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US7298520B2 (en) * 2000-08-17 2007-11-20 Dai Nippon Printing Co., Ltd. Image printing system
JP3840928B2 (ja) * 2001-07-17 2006-11-01 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
US20030086706A1 (en) * 2001-09-28 2003-05-08 Fuji Photo Film Co., Ltd. Image photographing apparatus, order sheet, and order processing apparatus and method
JP4168748B2 (ja) * 2002-12-20 2008-10-22 富士ゼロックス株式会社 画像処理装置、画像処理プログラム、及び画像処理方法
US20050071746A1 (en) * 2003-09-25 2005-03-31 Hart Peter E. Networked printer with hardware and software interfaces for peripheral devices

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020071647A (ja) * 2018-10-31 2020-05-07 京セラドキュメントソリューションズ株式会社 情報処理装置
JP7187986B2 (ja) 2018-10-31 2022-12-13 京セラドキュメントソリューションズ株式会社 情報処理装置

Also Published As

Publication number Publication date
US20050068584A1 (en) 2005-03-31

Similar Documents

Publication Publication Date Title
EP1855459B1 (en) Apparatus and method for photographing a business card in a portable terminal
US9704279B2 (en) Image processing device, image processing method, program, and recording medium
US7512335B2 (en) Image capturing apparatus, an image capturing method, and a machine readable medium storing thereon a computer program for capturing images
JP4375289B2 (ja) コメントレイアウト装置
JP2006293783A (ja) 画像処理装置及び画像処理プログラム
JP6640460B2 (ja) 画像撮影装置、画像撮影方法、プログラムおよび記録媒体
JP2005101931A (ja) 画像プリント装置
US8311393B2 (en) Image editing apparatus and method
JP2004056286A (ja) 画像表示方法
US20050237588A1 (en) Printing order receiving method and apparatus and frame extraction method and apparatus
JP3757565B2 (ja) 音声認識画像処理装置
JP5120716B2 (ja) 撮像装置、撮像制御方法及びプログラム
US20080144126A1 (en) Image processing apparatus, image processing method, program, and storage medium
JPH11175092A (ja) オーディオから派生したテキストのイメージとの関連付け
JP2006166407A (ja) 撮像装置及びその制御方法
JP2010068347A (ja) 画像形成装置、画像形成方法および画像形成プログラム
JP4235635B2 (ja) データ検索装置及びその制御方法
JPH10294896A (ja) 字幕情報付きディジタル情報処理方法及び装置
JP4415591B2 (ja) 画像印刷装置及びプログラム
JP5389594B2 (ja) 画像ファイル生成方法、そのプログラム、その記録媒体および画像ファイル生成装置
JP3721746B2 (ja) ディジタルカメラ
JPH10336576A (ja) 画像記録システム
JP4605345B2 (ja) 画像処理方法及び装置
JP5354145B2 (ja) 映像表示装置および映像表示方法
JP2019160186A (ja) フォトブック作製システム及びサーバ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060418

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20061213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081028

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090303