JPH11175092A - オーディオから派生したテキストのイメージとの関連付け - Google Patents

オーディオから派生したテキストのイメージとの関連付け

Info

Publication number
JPH11175092A
JPH11175092A JP10272969A JP27296998A JPH11175092A JP H11175092 A JPH11175092 A JP H11175092A JP 10272969 A JP10272969 A JP 10272969A JP 27296998 A JP27296998 A JP 27296998A JP H11175092 A JPH11175092 A JP H11175092A
Authority
JP
Japan
Prior art keywords
image
text
audio
data
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10272969A
Other languages
English (en)
Inventor
Peter F Ullmann
エフ. ウルマン ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adobe Inc
Original Assignee
Adobe Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Adobe Systems Inc filed Critical Adobe Systems Inc
Publication of JPH11175092A publication Critical patent/JPH11175092A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00129Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a display device, e.g. CRT or LCD monitor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00392Other manual input means, e.g. digitisers or writing tablets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • H04N2201/3277The additional information being stored in the same storage device as the image data

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Television Signal Processing For Recording (AREA)
  • Studio Circuits (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 オーディオから変換させたテキストをイメー
ジと共に表示させる方法、システム及び装置を提供す
る。 【解決手段】 イメージが感光性フィルムカメラ又はデ
ジタルカメラを使用してキャプチャされ、又はコンピュ
ータグラフィックスソフトウエアを使用して作成され
る。オーディオがイメージのキャプチャと同時又は別の
時間のいずれかにキャプチャされる。これらのキャプチ
ャされたイメージ及びオーディオは格納され且つマルチ
メディアファイルフォーマットを使用して互いに関連付
けされる。オーディオは音声認識ソフトウエアを使用し
てテキストへ変換される。その変換されたテキストを該
イメージ上又はその近くに位置決めすることによって該
イメージと該変換したテキストから複合画像を形成す
る。その複合画像をコンピュータモニタ、プリンタ又は
その他の出力装置へ出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストをイメー
ジと関連付けさせる技術に関するものであって、その場
合に該テキストは該イメージと関連しているオーディオ
から派生させるものである。
【0002】
【従来の技術】カメラはイメージをキャプチャし且つそ
れらをフイルム又はデジタル媒体上に格納する。イメー
ジをキャプチャした時と、それを印刷又はその他の態様
で表示させる時との間において、写真家は例えばそれを
キャプチャした時又はその主題となった位置等のそのイ
メージに関連する情報を忘れたり又はその情報に対する
アクセスを失う場合がある。
【0003】幾つかのフィルムカメラ及びデジタルカメ
ラは、例えばイメージをキャプチャした日付を表わすテ
キスト等のテキスト又はデジタル情報を写真と関連づけ
させることを可能とする。このテキストは、典型的に、
そのカメラによって作成され且つ所定のフォーマットで
所定の位置においてそのイメージ上に重ね合わされる。
【0004】デジタルカメラはイメージをキャプチャし
且つそれをコンピュータによって読取可能なディスク、
フラッシュメモリ、又はその他の持続性のある格納(記
憶)媒体上にデジタル形態で格納する。各イメージはス
タンダードのフォーマットに従って別々のファイル内に
格納することが可能である。次いで、該ファイルをコン
ピュータのメモリへ転送し、そこで、それをコンピュー
タソフトウエア又はハードウエアによって処理すること
が可能である。
【0005】オーディオ及びその他の情報はイメージフ
ァイル即ち画像ファイルと関連づけさせることが可能で
ある。例えば、コダック社のフラッシュピックス(Fl
ashPix)イメージ仕様は、デジタルカメラでキャ
プチャしたイメージ(画像)を格納するためのスタンダ
ードのファイルフォーマットを特定している。このフラ
ッシュピックスの仕様に対する拡張は、1つ又はそれ以
上のオーディオストリームを1つのイメージファイルと
関連づけさせ、従ってそれと共に格納させることを可能
とする。この拡張に従って動作するソフトウエアは、イ
メージファイルを表示させながら、そのイメージファイ
ルと関連するオーディオストリームのうちの1つ又はそ
れ以上をプレイバックすることを可能とする。
【0006】音声認識ソフトウエアは人間の音声を表わ
すオーディオ信号をテキストへ変換する。音声認識ソフ
トウエアは制限させたタスクに特化させることが可能で
あり且つ制限した数の単語を認識することをが可能であ
り、又はより一般的なものとし且つ音声を音声学的に種
類分けすることによってテキストを作成することが可能
である。音声認識ソフトウエアはデジタル的に表わされ
たオーディオからコンピュータによって読取可能なテキ
ストを作成することが可能である。そのようにして作成
されたテキストは、コンピュータソフトウエアによって
解釈し且つ処理を行ない且つコンピュータによって読取
可能な媒体上に格納することが可能である。
【0007】写真を撮影した場合に関連する情報を記録
するためにカメラと共にテープレコーダ又はメモ帳を持
ち歩くことによって写真を撮影した時にオーディオ又は
テキストを写真と関連付けさせることが可能である。幾
つかのデジタルカメラでは撮影をしている間に画像と共
にオーディオを直接的に記録することを可能とする。次
いで、その画像を見る場合にオーディオをプレイバック
することが可能である。
【0008】
【発明が解決しようとする課題】本発明は、以上の点に
鑑みなされたものであって、オーディオから変換させた
テキストを画像と共に表示させることを可能とした技術
を提供することを目的とする。
【0009】
【課題を解決するための手段】1側面においては、本発
明は、変換させたテキストを発生させるためにコンピュ
ータによって読取可能なメモリ内のオーディオデータに
対して計算音声・テキスト変換プロセスを適用する技術
を提供している。コンピュータによって読取可能なメモ
リ内に格納されているイメージデータを該変換させたテ
キストと合成することによって複合イメージが作成され
る。次いで、この複合イメージをプリンタ又はその他の
適宜の出力装置において印刷する。該イメージデータ
は、カメラによって撮影したイメージによって表わされ
るものとするとことが可能であり且つ該オーディオデー
タはそのイメージを撮影したのとほぼ同時に記録した音
声を表わすものとすることが可能である。該カメラは、
マイクロフォンを有しており、且つ音声を記録し且つ記
録した音声を該カメラによって撮影したイメージと関連
付けすべく動作可能なデジタルカメラとすることが可能
である。
【0010】該オーディオデータ及びイメージデータ
は、単一のソースファイルのコンポーネントとすること
が可能であり、該ファイルはフラッシュピックスのフォ
ーマットにおける1つのファイルとすることが可能であ
る。該オーディオデータ及びイメージデータは、別々の
ソースファイルからのものとすることが可能である。該
オーディオデータ及びイメージデータは、該オーディオ
データと共に又は該イメージデータと共に又は該オーデ
ィオデータとイメージデータの両方と共に格納されてい
るタグによってリンクさせることが可能である。該変換
されたテキストは、該オーディオデータに対するエイリ
アスとして大量格納装置に格納することが可能である。
該変換されたテキストは、該イメージデータによって表
わされるイメージの一部をカバーするように、又は該イ
メージデータによって表わされるイメージのいずれの部
分もカバーすることがないように合成させることが可能
である。
【0011】該イメージデータは複数個の単一イメージ
からなるシーケンスを表わすことが可能であり、且つ該
オーディオデータは複数個のオーディオセグメントから
なるシーケンスを表わすことが可能である。複数個のオ
ーディオセグメントからなるシーケンスのうちの1つの
オーディオセグメントは、該1つのオーディオセグメン
トを変換させたテキストセグメントへ変換し且つ該1つ
の単一イメージと該変換させたテキストセグメントとを
合成することによって単一の複合イメージを作成する前
に、複数個の単一イメージからなるシーケンスのうちの
1つの単一イメージとマッチングさせることが可能であ
る。一方、該複数個の単一イメージからなるシーケンス
の各単一イメージに対して、該単一イメージを該変換さ
せたテキストと合成することによって1個の複合イメー
ジを作成することが可能である。本発明の1つの利点
は、それがオーディオデータから派生されたテキストを
イメージデータと関連付けさせることである。テキスト
は、典型的に、オーディオデータよりも一層迅速に且つ
効率的に格納され、転送され且つ処理させることが可能
なものであるから、オーディオデータをテキストへ変換
し且つ該変換させたテキストをイメージと関連付けさせ
ることは、イメージと共にオーディオを格納する場合と
比較して有益的なものである場合がある。
【0012】本発明の別の利点としては、それがオーデ
ィオデータを変換させたテキストへ変換させ且つ該変換
させたテキストを該イメージデータと共に印刷させるこ
とによって、イメージデータが印刷される場合、又は音
声の再生が可能でないか又は実際的なものでない場合
に、オーディオデータとイメージデータとの関連付けが
持続することを可能とするということである。このよう
に、本発明は、ユーザによる付加的な努力を必要とする
ことなしに、イメージデータに関連しているオーディオ
データ内に含まれているような印刷した記述的情報を提
供する。
【0013】本発明の更に別の利点は、変換させたテキ
ストはスタンダードのコンピュータテキストフォーマッ
トで格納することが可能であり、従ってスタンダードの
コンピュータテキスト処理ソフトウエアによって処理及
びフォーマットすることが可能である。
【0014】本発明の更に別の利点は、イメージデータ
及びそれと関連するオーディオデータを同時的に又は異
なる時間にキャプチャすることが可能であるという点で
ある。それらは、例えばマイクロフォン及びオーディオ
キャプチャ能力を有するデジタルカメラ等の単一の装置
を使用して、又は異なる装置によってキャプチャするこ
とが可能である。イメージデータ又はオーディオデータ
のいずれか一方、又は両方を、人間が発生させたもの又
は人工的に作成したものとすることが可能である。従っ
て、本発明は、イメージ、オーディオ、テキストを作成
し、処理し、且つ格納する上での柔軟性を提供してい
る。
【0015】
【発明の実施の形態】図1を参照すると、コンピュータ
100aはI/Oポート200aにおいて接続している
モニタ110上において出力を表示し、I/Oポート2
00bにおいて接続しているキーボード120からの入
力を得、且つI/Oポート200dにおいて接続してい
るプリンタ190上にハードコピーを出力する。コンピ
ュータ100aは、更に、I/Oポート200cにおい
てファイル及びその他のデータを格納し且つ検索するた
めのハードディスク180へ接続しており、他のコンピ
ュータ100b−dと通信するためにLAN210へ接
続しており、且つ情報を格納し、アーカイブし、検索す
るためにLAN210を介してインターネット200へ
接続している。デジタルカメラ170はスチールイメー
ジ即ち静止画像をキャプチャ即ち撮影することが可能で
ある。デジタルカメラ170は、更に、イメージと関連
するオーディオデータをキャプチャ即ち採取するための
マイクロフォンを有している。デジタルカメラ170
は、これらのイメージデータ及びオーディオデータをデ
ジタルフォーマットへ変換し、それらをたとえばフラッ
シュピックスフォーマット等のオーディオコンポーネン
ト及びイメージコンポーネントを有するマルチメディア
ファイルフォーマットで格納する。そのファイルはI/
Oポート200eを介してコンピュータ100aへ転送
される。
【0016】アドビアクロバット(Acrobat)プ
ログラム(カリフォルニア州サンノゼのアドビシステム
ズインコーレイテッドから入手可能)のようなイメージ
処理アプリケーション140がコンピュータ100a上
で稼動される。コンピュータ100a上においては、更
に、音声を表わすオーディオデータを変換させたテキス
トへ変換し且つその変換させたテキストをコンピュータ
によって読取可能なファイル内に格納することが可能な
例えばドラゴンシステムのドラゴンディクテイト(Dr
agon Dictate)のような音声認識アプリケ
ーション150が稼動される。更に、コンピュータ15
0a上においては、変換されたテキストをイメージと関
連付けさせるためのテキスト関連付けアプリケーション
160が稼動される。テキスト関連付けアプリケーショ
ン160は、イメージ処理API145を介してイメー
ジ処理アプリケーションと通信を行ない、それは、イメ
ージ、オーディオ、テキストをイメージ処理アプリケー
ション140のファイル内にインポートする手順を包含
している。テキスト関連付けアプリケーション160
は、音声認識APIを介して音声認識アプリケーション
150と通信を行ない、それはオーディオデータを変換
されたテキストへ変換し且つ変換されたテキストをテキ
ストファイル内に保存するための手順を包含している。
【0017】テキスト関連付けアプリケーション160
はユーザに対して多数の選択可能なオプションを提供す
る。そのようなオプションのうちの1つは、例えばフラ
ッシュピックスファイル等のソースファイルを印刷する
ことである。ソースファイルは、最少で、イメージコン
ポーネントを有するものであるか、又、オーディオコン
ポーネントも包含するか又はそれと関連付けさせること
が可能である。図2を参照すると、ユーザが、ソースフ
ァイルを印刷するためのオプションを選択すると(ステ
ップ300)、テキスト関連付けアプリケーション16
0は、オーディオコンポーネントがソースファイル内に
包含されているイメージコンポーネントと関連付けされ
ているか否かを判別する(ステップ310)。オーディ
オコンポーネントがイメージンコンポーネントと関連付
けされていない場合には、テキスト関連付けアプリケー
ション160は、イメージ処理API145のファイル
を開く機能を呼び出すことによってイメージ処理アプリ
ケーション140におけるソースファイルを開く(ステ
ップ320)。次いで、テキスト関連付けアプリケーシ
ョン160は、イメージ処理API145の印刷機能を
呼び出すことによって該イメージコンポーネントを印刷
する(ステップ370)。
【0018】オーディオコンポーネントがソースファイ
ル内に含まれているか又はソースファイルと関連してい
る場合には、ユーザは、そのオーディオコンポーネント
を変換されたテキストへ変換するためのオプションが与
えられる(ステップ330)。ユーザがそのオプション
を辞退する場合には、イメージコンポーネントが開かれ
且つ印刷される(ステップ320及び370)。ユーザ
がそのオプションを採用する場合には、テキスト関連付
けアプリケーション160はそのオーディオコンポーネ
ントを探し出す(ステップ340)。次いで、テキスト
関連付けアプリケーション160は、音声認識アプリケ
ーションAPI155の音声・テキスト変換機能を呼び
出すことによってそのオーディオコンポーネントを変換
されたテキストへ変換する(ステップ350)。音声認
識アプリケーション150は、変換されたテキストをフ
ァイル内に格納し且つそのファイルの名前をテキスト関
連付けアプリケーション160へ送り、テキスト関連付
けアプリケーション160は、イメージ処理API14
5のテキストをインポートする機能を呼び出すことによ
って変換されたテキストを開いているソースファイル内
にインポートする(ステップ355)。
【0019】次に、テキスト関連付けアプリケーション
は、イメージ処理API145のテキスト位置決め機能
を呼び出すことによってそのイメージコンポーネントに
関連し変換しインポートしたテキストの位置決めを行な
い、複合画像を作成する(ステップ360)。変換させ
たテキストの位置決め操作は、デフォルトのテキスト位
置を包含することが可能であり、そのデフォルトのテキ
スト位置はイメージコンポーネントの下側中央部分とす
ることが可能である。然しながら、変換されたテキスト
は、任意の配向状態でイメージコンポーネントの区域内
の任意の位置に配置させることが可能である。それは、
又、例えば右−左−中央揃え、又は曲線に沿ってのフロ
ー即ち流れ状態等の任意のテキスト配置特徴を使用して
配置させることが可能である。変換されたテキストは、
更に、イメージコンポーネントの区域外部の任意の位置
に配置させることが可能であり、例えば、キャプション
としてイメージの下側に配置させるか、又は例えばマイ
クロソフトパワーポイントノーツ頁としてイメージから
離れた位置に配置させることも可能である。変換された
テキストは、イメージ処理アプリケーション140にお
いて使用可能なテキストフォーマットを使用してフォー
マットすることが可能であり、それは、デフォルトのフ
ォント及びデフォルトのポイント寸法を包含することが
可能である。変換されたテキストは、ベクトルフォーマ
ット又はビットマップフォーマットで、又は別のテキス
トコンポーネントファイルとして、イメージ処理アプリ
ケーションテキストフォーマットで格納することが可能
である。
【0020】変換されインポートしたテキストがイメー
ジコンポーネントに関連して位置決めされた後に、テキ
スト関連付けアプリケーション160は、イメージ処理
アプリケーションAPI145の印刷機能を呼び出すこ
とによってその変換されインポートされ位置決めされた
テキストを包含するイメージコンポーネントを印刷する
(ステップ370)。イメージと関連付けされている変
換されたテキストの1例を図3に示してある。
【0021】上述したような図2の方法はユーザに対し
てステップ330及び360において入力を行なうため
のプロンプトを与えるものであるが、ユーザ入力なしで
自動的に動作するようにすることも可能である。自動的
に動作する場合には、ステップ330及び335が取り
除かれ、且つソースファイル内に含まれているか又はそ
れと関連しているオーディオコンポーネントはステップ
340及び350において自動的に探し出され且つ変換
されたテキストへ変換される。テキストがステップ35
5においてインポートされた後に、その変換されたテキ
ストはデフォルトの位置決め設定を使用してステップ3
60において自動的に位置決めされる。変換されインポ
ートされ位置決めされたテキストを包含するイメージコ
ンポーネントはステップ370において印刷される。こ
のプロセスは、ステップ300においてソースファイル
の仕様においてワイルドカードを使用することにより、
又はスクリプト又はバッチファイルを使用することによ
って複数個のソースファイルに関して自動的に実施させ
ることが可能である。
【0022】一方、テキスト関連付けアプリケーション
160は、イメージ処理アプリケーション140に対す
るプラグインとして実現することが可能である。この形
態においては、テキスト関連付けアプリケーション16
0はイメージ処理アプリケーション140に対して幾つ
かのオプションを付加し、それはイメージをモニタ11
0上に表示する任意の時間においてユーザによって選択
することが可能である。ユーザはソーステキストファイ
ルを選択することによって前にオーディオから変換した
変換されたテキストを表示されたイメージへ付加させる
ことが可能であり、次いで、それに対してステップ36
0の方法が適用される。オーディオコンポーネントが現
在表示されている画像と関連付けされている場合には、
ユーザは、ステップ350及び355の方法を使用し
て、オーディオコンポーネントを変換されたテキストへ
変換し且つその変換されたテキストをイメージ処理アプ
リケーションへインポートすることを選択することが可
能である。ユーザは、更に、別のオーディオファイルを
選択することによって又はイメージ処理アプリケーショ
ンに対してオーディオデータを供給するための別の手段
を使用することによって、オーディオを表示されたイメ
ージと関連付けさせ、次いで、該オーディオをステップ
350及び355の方法を使用して変換されたテキスト
へ変換させることを選択することが可能である。
【0023】イメージは、多数の手段によってそれと関
連するオーディオ及び/又は変換されたテキストコンポ
ーネントと共に保存することが可能である。変換された
テキストコンポーネントは、イメージ処理アプリケーシ
ョン140のスタンダードの態様でイメージに対して直
接的に取付けることが可能である。変換されたテキスト
コンポーネントは、イメージコンポーネントファイル内
において、又は別のテキストファイルにおいて、オーデ
ィオコンポーネントファイルと同一のファイル内に格納
することが可能である。そのファイルは、該変換された
テキストを該アプリケーションプログラムのオーディオ
コンポーネントに対するエイリアスとさせることによっ
て保存することが可能であり、それは保存されたファイ
ルの付加的なコンポーネントである。オーディオコンポ
ーネントが変化した場合には、エイリアスを使用するこ
とは、ステップ350の方法を使用して該変換されたテ
キストコンポーネントの自動的なアップデートを行なう
ことを可能とする。イメージが複数個のイメージを包含
する単一ファイル内に保存されるべき場合には、該複数
個のイメージのうちの特定の1つと該変換されたテキス
トコンポーネントを関連付けさせるタグ又は識別子を形
成することが可能である。
【0024】オーディオコンポーネントは多数の手段に
よってイメージコンポーネントと関連付けさせることが
可能である。オーディオコンポーネントは、イメージ処
理アプリケーション140のスタンダードの手順に従っ
てイメージコンポーネントと同一のファイル内に保存す
ることが可能であり、その場合には、該オーディオコン
ポーネント及び該イメージコンポーネントに対するタグ
を使用してこれら2つのコンポーネントの間の関連を表
わす。このようなタグによる方法は、例えば、フラッシ
ュピックスフォーマットによって使用されている。
【0025】一方、オーディオコンポーネントはイメー
ジコンポーネントが格納されているファイルとは別のフ
ァイル内に格納することが可能である。この場合には、
別のオーディオファイルのファイルの名前のコンポーネ
ントがイメージコンポーネントファイルのファイルの名
前のコンポーネントとマッチングする場合がある。オー
ディオコンポーネントファイル内のデジタルタグは、イ
メージコンポーネントファイル内のデジタルタグとマッ
チングする場合がある。イメージコンポーネントファイ
ルと関連付けされるべき1つを超えたオーディオコンポ
ーネントが存在する場合には、同一のオーディオタグが
オーディオコンポーネントファイル間において共用され
ている。1つ又はそれ以上のオーディオコンポーネント
によって共用されている1つを超えるイメージコンポー
ネントが存在する場合には、同一のオーディオタグが夫
々のイメージコンポーネントファイルの間で共用されて
いる。ユーザは、手作業によってオーディオコンポーネ
ントをイメージコンポーネントと関連付けさせることが
可能である(例えば、オーディオをイメージとは独立的
に採取しオーディオテープをアナログフィルムに関連付
けさせる場合)。オーディオコンポーネントの一部は、
イメージコンポーネントの一部に対するタグとすること
が可能である(例えば、「3」という単語は、イメージ
コンポーネントにおける複数個のイメージの3番目のイ
メージとマッチングするために使用することが可能であ
る)。
【0026】オーディオデータから変換されたテキスト
への変換、及びその後の変換されたテキストとイメージ
データとの関連付けは、多数の手段によって実行するこ
とが可能である。オーディオデータが音声認識アプケー
ション150によって認識されることのないデジタルオ
ーディオフォーマットで格納されている場合には、その
オーディオデータは、スピーカを介して発声させるか、
又はアナログオーディオ信号へ変換させ且つ適宜のプレ
イヤーソフトウエアを使用して出力ライン上で出力さ
せ、次いでマイクロフォン又は入力ラインを介して適宜
のデジタルオーディオフォーマットで音声認識アプリケ
ーション150内へインポートさせることが可能であ
る。
【0027】ドラゴンシステムのドラゴンディクテイト
とすることの可能な音声認識アプリケーション150
は、スタンダードのAPIを使用してデジタルオーディ
オを変換されたテキストへ変換させるために使用するこ
とが可能である。次いで、イメージ処理アプリケーショ
ン140は、スタンダードのテキストをインポートする
技術を使用し、その変換されたテキストをインポートし
且つその変換されたテキストをステップ360に従って
イメージに関連付けて位置決めさせる。その変換され位
置決めされたテキストを包含するイメージは、ステップ
370に従って印刷させるか、又はモニタ上で表示させ
るか、又は上述したようにファイル内に保存することが
可能である。
【0028】イメージが例えばネガフィルム又はプリン
ト等のデジタルイメージ以外のものである場合には、ス
テップ350の方法を使用してオーディオデータを変換
されたテキストへ変換することが可能である。次いで、
スタンダードの印刷技術を使用してその変換されたテキ
ストをイメージ上に物理的に印刷させることが可能であ
る。
【0029】オーディオ、テキスト、イメージコンポー
ネントは、多数の形態をとることが可能であり、且つ以
下のものに制限するわけではないが以下のものを包含す
る多数の手段によって作成することが可能である。
【0030】イメージは、デジタルカメラ又は例えばフ
ィルムカメラ又はVHSレコーダ等のその他の画像形成
装置によってイメージをキャプチャ即ち採取することに
より作成することが可能である。イメージは、写真をデ
ジタル化させるか、オブジェクトをスキャニングする
か、又はベクトルイメージをラスタライズ形態へ変換さ
せることによって作成することが可能である。
【0031】次のものに制限されるべきものではない
が、使用することの可能なデジタルビットマップ及びピ
クセルマップイメージフォーマットとしては、グラフィ
ックスインターチェンジフォーマット(GIF)、ジョ
イントフォトグラフィックエキスパーツグループフォー
マット(JPEG)、タグ付きイメージファイルフォー
マット(TIFF)、マイクロソフトウインドウズビッ
トマップグラフィックスフォーマット(BMP)、アド
ビフォトショップフォーマット、及びフラッシュピック
スフォーマット等がある。次のものに制限されるべきも
のではないが、使用可能なベクトルイメージとしては、
ポストスクリプトファイル、アドビイラストレイターフ
ァイル、変換ビットマップイメージ等がある。次のもの
に制限されるべきものではないが、使用可能なアナログ
イメージとしては、写真フィルムイメージ(単一又はマ
ルチフレーム、ネガ又はポジ)、及び例えばVHS等の
動画ビデオイメージ等がある。使用することの可能なド
キュメント頁又はドキュメント頁コンポーネントを表わ
すイメージとしては、アドビポータブルドキュメントフ
ォーマット(PDF)頁又はサブ頁、文書処理ドキュメ
ントにおけるイメージ、又はスプレットシートの1つ又
はそれ以上のセル等がある。
【0032】イメージは複数個のフレームを包含するこ
とが可能であり、その場合には、ユーザは単に最初のフ
レーム上の又は複数個のマルチフレーム上に関連付けさ
れた変換されたテキストを包含させるためのオプション
を提供させることが可能である。ユーザは、又、例え
ば、変換されたテキストの特別の部分をイメージコンポ
ーネント内のマルチフレームの各々と関連付けさせるこ
とにより、その変換され関連付けされたテキストをマル
チフレームの1つ又はそれ以上を横断して分布させるこ
とを選択することが可能である。
【0033】オーディオデータは、イメージデータを作
成又は採取するために使用される装置とは独立している
デジタル又はアナログオーディオレコーダを使用して作
成することが可能である。例えば、イメージデータは、
デジタルカメラ170によってキャプチャすることが可
能であり且つオーディオデータはマイクロフォン及びD
ATレコーダによってデジタルオーディオテープ(DA
T)上にキャプチャすることが可能である。次いで、そ
のイメージデータ及びオーディオデータは、各々、スタ
ンダードの手段を使用してコンピュータ100a内に別
々にインポートされる。そのオーディオデータは、そう
である必要はないが、記録した人間の音声とすることが
可能である。
【0034】オーディオデータは、デジタル又はアナロ
グ記録とすることが可能である。オーディオデータは圧
縮されたもの又は圧縮されていないものとすることが可
能である。デジタル記録は、例えばリアルオーディオ
(RealAudio)、クイックタイム(Quick
Time)、又はフラッシュピックス(FlashPi
x)等のコンピュータによってサポートされているフォ
ーマットで格納することが可能である。アナログ記録
は、従来のテープ、フィルムストリップ、又はその他の
媒体上に格納し、且つ例えば、スピーカを介してその記
録をプレイさせることによって音声認識アプリケーショ
ン150によりオーディオテキストへ変換させ且つその
オーディオデータをコンピュータ100aのI/Oポー
ト200a−fへ取付けられているマイクロフォンで採
取するか、又はアナログオーディオ信号へ変換させ且つ
適宜のプレイヤーソフトウエアを使用して出力ライン上
に出力させ、次いで入力ラインを介して音声認識アプリ
ケーション150内へインポートさせることが可能であ
る。
【0035】イメージデータ及びそれと関連するオーデ
ィオデータは、必ずしも必要であるというわけではない
が、同時に発生させるか又はキャプチャ即ち採取するこ
とが可能である。例えば、予め記録してあるサンプルか
らなるライブラリからのオーディオデータをイメージを
キャプチャする時又は後の時のいずれかにイメージデー
タと関連付けさせることが可能である。ある場合には、
イメージデータをキャプチャし且つ例えばコンピュータ
モニタ上でそのイメージデータを見る場合等の後の時間
において関連するオーディオデータを記録することが有
用な場合がある。
【0036】本発明は音声から派生させた変換テキスト
を使用するものであるが、オーディオ記録の任意のコン
ポーネントから変換テキストを派生させることも可能で
ある。例えば、ステップ350において、人の歌声の記
録をテキストへ変換させることが可能であり、又は複数
個の音声を包含するオーディオ記録から単一の音声を選
択し、次いで変換テキストへ変換させることが可能であ
る。
【0037】別の実施例においては、サブタイトル即ち
説明字幕を映画の上に重ね合わせるが、その場合にオー
ディオデータはフィルムの元の言語のままであり、且つ
変換されたテキストは別の言語である。図4を参照する
と、フィルムからのオーディオデータをキャプチャ即ち
採取する(ステップ400)。そのオーディオデータ
は、音声認識ソフトウエア150を使用して変換された
テキストへ変換する(ステップ410)。その変換され
たテキストは、例えばカリフォルニア州メンローパーク
のニュアンスコミュニケーションズ(Nuance C
ommunications)及びSRIインターナシ
ョナルによって開発されたニュアンススピーチ認識エン
ジン(Nuance Speech Recognit
ion Engine)のようなソフトウエアを使用し
て所望の説明字幕用の言語へ翻訳される。変換され翻訳
されたテキストは、そのオーディオデータが関連してい
る一連のイメージの上に重ね合わされる(ステップ43
0)。同様に、例えばテレビ等のビデオディスプレイ上
で表示されるビデオからのオーディオデータに関連し
て、そのオーディオデータが変換されたテキストへ変換
され且つそのビデオと共に表示され聴力障害者に対する
サポートを与える。
【0038】図5を参照すると、本発明は、デジタル電
子回路において、又はコンピュータハードウエア、ファ
ームウエア、ソフトウエア又はそれらの組合わせで実現
することが可能である。本発明装置は、コンピュータプ
ロセサによって実行するための機械読取可能な格納装置
において実現したコンピュータプログラム製品の形態で
実現することが可能であり、且つ本発明の方法ステップ
は、入力データに関して操作を行ない且つ出力を発生す
ることにより本発明の機能を実行するためのプログラム
を実行するコンピュータプロセサによって実行すること
が可能である。適切なプロセサ500は、1例として
は、汎用及び特別目的の両方のマイクロプロセサを包含
している。一般的には、プロセサは、リードオンリメモ
リ(ROM)510及び/又はランダムアクセスメモリ
(RAM)505からCPUバス520を介して命令及
びデータを受取る。コンピュータは、通常、更に、大量
格納(記憶)インターフェース540を介して動作する
内部ディスク545又はI/Oインターフェース530
を介して動作する着脱自在のディスク535等の格納媒
体からプログラム及びデータを受取ることが可能であ
る。I/Oバス525を介してI/O装置535及び5
45、プロセサ500、メモリ505,510への及び
それらからのデータの流れはI/O制御器515によっ
て制御される。ユーザ入力は、キーボード、マウス、ス
タイラス、マイクロフォン、トラックボール、タッチス
クリーン又はその他の入力装置によって得られる。これ
らの要素は従来のディスクトップ又はワークステーショ
ンコンピュータ及び任意のデジタルプリントエンジン6
00又はマーキングエンジン、ディスプレイモニタ、又
は用紙、フィルム、ディスプレイスクリーン又はその他
の出力媒体上にカラー又はグレイスケールのピクセルを
発生させることの可能なその他のラスター出力装置と関
連して使用することの可能な本明細書に記載した方法を
実現するコンピュータプログラムを実行するのに適した
その他のコンピュータにおいて使用されるものである。
【0039】1例として、例えばポストスクリプト言語
等の頁記述言語用のインタプリタを実現する印刷装置5
50は、プリンタランダムアクセスメモリ(RAM)5
80及びプリンタリードオンリメモリ(ROM)590
上に格納されており且つプリンタマーキングエンジン6
00を制御するプログラム命令(フォント命令を含む)
を実行するためのマイクロプロセサ570を有してい
る。RAM580は、オプションとして、例えばハード
ディスク(不図示)等の大量格納装置によって補充され
る。
【0040】コンピュータプログラム命令を実施するの
に適した格納装置としては、例えばEPROM、EEP
ROM、フラッシュメモリ装置等の半導体メモリ装置を
包含する全ての形態の非揮発性メモリ、例えば内部ハー
ドディスク545及び着脱自在なディスク535等の磁
気ディスク、MOディスク、及びCD−ROMディスク
等がある。前述したもののいずれの場合にも、特別に設
計されたASIC(応用特定集積回路)によって補充さ
れるものであるか又はその中に組込んだものとすること
が可能である。
【0041】本発明の要素はソフトウエアとして実現さ
れた場合について説明したものであるが、本発明はソフ
トウエア又はハードウエア又はファームウエア又はそれ
ら3つの組合わせで実現することが可能である。
【0042】以上、本発明の具体的実施の態様について
詳細に説明したが、本発明は、これら具体例にのみ制限
されるべきものではなく、本発明の技術的範囲を逸脱す
ることなしに種々の変形が可能であることは勿論であ
る。
【図面の簡単な説明】
【図1】 本発明に基づいて構成したシステムを示した
概略ブロック図。
【図2】 テキスト関連付けアプリケーションを使用し
てイメージファイルを印刷するためにユーザの選択によ
って開始されるイベントのシーケンスを示したフローチ
ャート。
【図3】 イメージに関連付けされている変換されたテ
キストを示した説明図。
【図4】 ある言語におけるオーディオデータを別の言
語で説明字幕へ変換する方法を示したフローチャート。
【図5】 本発明を実現するのに適したコンピュータ及
びコンピュータ要素を示した概略図。
【符号の説明】
100a コンピュータ 105 CPU 110 モニタ 120 キーボード 130 オペレーティングシステム 140 イメージ処理アプリケーション 145 イメージ処理API 150 音声認識アプリケーション 155 音声認識API 160 テキスト関連付けアプリケーション 170 デジタルカメラ 180 ハードディスク 190 プリンタ 200 I/Oポート

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】 テキストと共にイメージを表示するため
    のコンピュータによって実行される方法において、 コンピュータによって読取可能なメモリ内にオーディオ
    データとイメージデータとを与え、 前記オーディオデータに対して計算音声・テキスト変換
    プロセスを適用して変換させたテキストを発生し、 前記イメージデータを前記変換させたテキストと合成さ
    せることにより複合イメージを作成し、 前記複合イメージを表示する、ことを特徴とする方法。
  2. 【請求項2】 請求項1において、前記表示を行なう場
    合に、前記複合イメージを印刷することを特徴とする方
    法。
  3. 【請求項3】 請求項2において、前記オーディオデー
    タ及び前記イメージデータが好適にはフラッシュピック
    ス(FlashPix)ファイルである単一のソースフ
    ァイルのコンポーネントであることを特徴とする方法。
  4. 【請求項4】 請求項2において、前記オーディオデー
    タ及び前記イメージデータが別々のソースファイルから
    発生することを特徴とする方法。
  5. 【請求項5】 請求項2において、 前記コンピュータによって読取可能なメモリがコンピュ
    ータプログラム命令を実行するために動作可能なコンピ
    ュータのランダムアクセスメモリであり、 前記計算音声・テキスト変換プロセスが前記コンピュー
    タ上で実行されるコンピュータプログラム命令を有して
    おり、 前記コンピュータによって読取可能なメモリ内にオーデ
    ィオデータとイメージデータとを与えるステップが、前
    記オーディオデータと前記イメージデータとを互いにリ
    ンクさせる情報を得、大量格納装置に格納されている前
    記イメージデータ及び前記オーディオデータを見つけ出
    し、且つ前記大量格納装置から前記ランダムアクセスメ
    モリ内に前記イメージデータ及び前記オーディオデータ
    を読込むことを包含しており、 前記複合画像を作成するステップが、前記イメージデー
    タと前記変換したテキストとをイメージ処理アプリケー
    ションプログラム内へインポートし、前記イメージ処理
    アプリケーションプログラムを実行して前記変換させた
    テキストをフォーマットし、前記テキストを前記イメー
    ジに関連して配置させ、且つ前記フォーマットし且つ配
    置させたテキストを前記イメージデータと合成させて前
    記複合画像を発生させることを包含している、ことを特
    徴とする方法。
  6. 【請求項6】 請求項5において、前記イメージデータ
    及び前記オーディオデータが前記大量格納装置に格納さ
    れている別々のファイル内に存在しており、且つ前記オ
    ーディオデータと前記イメージデータとを互いにリンク
    させる情報が前記別々のファイルのうちの少なくとも1
    つに格納されているタグであることを特徴とする方法。
  7. 【請求項7】 請求項5において、前記変換させたテキ
    ストが前記イメージデータによって表わされるイメージ
    の一部をカバーするように合成されることを特徴とする
    方法。
  8. 【請求項8】 請求項5において、前記変換されたデキ
    ストが、前記イメージデータによって表わされるイメー
    ジのいずれの部分もカバーすることがないように合成さ
    れることを特徴とする方法。
  9. 【請求項9】 請求項5において、前記イメージデータ
    が単一のイメージを表わすことを特徴とする方法。
  10. 【請求項10】 請求項5において、前記イメージデー
    タが複数個の単一のイメージのシーケンスを表わしてお
    り且つ前記オーディオデータが複数個のオーディオセグ
    メントのシーケンスを表わしており、本方法が、更に、 前記オーディオセグメントのシーケンスのうちの1つの
    オーディオセグメントを前記単一イメージのシーケンス
    のうちの1つの単一イメージとマッチングさせ、 前記1つのオーディオセグメントを変換されたテキスト
    セグメントへ変換し、 前記1つの単一イメージと前記変換させたテキストセグ
    メントとを合成することにより単一の複合イメージを作
    成する、ことを特徴とする方法。
  11. 【請求項11】 請求項2において、前記イメージデー
    タが複数個の単一イメージからなるシーケンスを表わし
    ており、本方法が、更に、 前記単一イメージのシーケンスのうちの各単一イメージ
    に対して、前記単一イメージと前記変換したテキストと
    を合成することによって複合イメージを作成し、且つ前
    記複合イメージの各々を印刷する、ことを特徴とする方
    法。
  12. 【請求項12】 請求項11において、前記カメラは、
    マイクロフォンを有しており且つ音声を記録し且つ記録
    した音声を前記カメラによってとったイメージと関連付
    けるべく動作可能なデジタルカメラであることを特徴と
    する方法。
  13. 【請求項13】 請求項1において、更に、 前記コンピュータプログラム命令を実行すべく動作可能
    なコンピュータのランダムアクセスメモリ内にイメージ
    データとオーディオデータとを読込み、 前記コンピュータ上で実行されるコンピュータプログラ
    ム命令を包含する計算音声・テキスト変換プロセスを前
    記ランダムアクセスメモリ内の前記オーディオデータに
    対して適用して変換させたテキストを発生し、 前記イメージデータと前記変換させたテキストとをイメ
    ージ処理アプリケーションプログラム内にインポート
    し、前記イメージ処理アプリケーションプログラムを実
    行して前記変換させたテキストをフォーマットし、前記
    テキストを前記イメージの底部中央近くに配置させ、且
    つ前記フォーマットし中心位置決めさせたテキストを前
    記イメージデータと合成して複合画像を発生し、 前記複合画像を印刷する、ことを特徴とする方法。
  14. 【請求項14】 コンピュータによって読取可能な媒体
    に格納されているコンピュータプログラム製品におい
    て、 オーディオデータとイメージデータとをコンピュータに
    よって読取可能なメモリ内に読み込ませ、 前記オーディオデータをテキストへ変換させ、 前記イメージデータと前記変換したテキストとを合成さ
    せて、複合画像を作成し、 好適には前記複合画像を印刷することにより前記複合画
    像を表示させる、上記各命令を有することを特徴とする
    コンピュータプログラム製品。
  15. 【請求項15】 テキストと共にイメージを表示させる
    システムにおいて、 オーディオデータとイメージデータとをコンピュータに
    よって読取可能なメモリ内に読込む手段、 前記オーディオデータをテキストへ変換させる手段、 複合イメージを作成するために前記イメージデータと前
    記変換させたテキストとを合成する手段、 好適には前記複合イメージを印刷することにより前記複
    合画像を表示する手段、を有することを特徴とするシス
    テム。
  16. 【請求項16】 請求項15において、更に、 コンピュータプログラム命令を実行すべく動作可能なコ
    ンピュータのランダムアクセスメモリ内にイメージデー
    タとオーディオデータとを読込む手段、 前記コンピュータ上で実行されるコンピュータプログラ
    ム命令を有する計算音声・テキスト変換プロセスを変換
    させたテキストを発生させるために前記ランダムアクセ
    スメモリ内の前記オーディオデータに対して適用させる
    手段、 イメージ処理アプリケーションプログラム内に前記イメ
    ージデータと前記変換させたテキストとをインポート
    し、前記変換させたテキストをフォーマットし、前記テ
    キストを前記イメージの底部中心近くに配置させ、且つ
    前記フォーマットし中心位置決めさせたテキストを前記
    イメージデータと合成させて複合画像を発生させるため
    に前記イメージ処理アプリケーションプログラムを実行
    する手段、を有することを特徴とするシステム。
  17. 【請求項17】 請求項15において、前記コンピュー
    タによって読取可能なメモリがコンピュータプログラム
    命令を実行すべく動作可能なコンピュータのランダムア
    クセスメモリであり、本システムが、更に、 コンピュータプログラム命令を実行すべく動作可能なコ
    ンピュータのランダムアクセスメモリ内にイメージデー
    タとオーディオデータとを読込む手段、 変換させたテキストを発生させるために前記ランダムア
    クセスメモリ内の前記オーディオデータに対して前記コ
    ンピュータ上で実行されるコンピュータプログラム命令
    を有する計算音声・テキスト変換プロセスを適用する手
    段、 前記オーディオデータと前記イメージデータとを互いに
    リンクさせる情報を得、大量格納装置に格納されている
    前記イメージデータと前記オーディオデータとを見つけ
    出し、且つ前記大量格納装置から前記ランダムアクセス
    メモリ内に前記イメージデータと前記オーディオデータ
    とを読込む手段、 前記イメージデータと前記変換されたテキストとをイメ
    ージ処理アプリケーションプログラム内にインポート
    し、前記変換させたテキストをフォーマットし、前記テ
    キストを前記イメージに関して配置させ、前記フォーマ
    ットし配置させたテキストを前記イメージデータと合成
    して前記複合画像を発生させるために前記イメージ処理
    アプリケーションプログラムを実行する手段、を有する
    ことを特徴とするシステム。
  18. 【請求項18】 請求項15において、前記イメージデ
    ータが複数個の単一イメージからなるシーケンスを表わ
    しており且つオーディオデータが複数個のオーディオセ
    グメントからなるシーケンスを表わしており、本システ
    ムが、更に、 前記複数個のオーディオセグメントからなるシーケンス
    のうちの1つのオーディオセグメントを前記複数個の単
    一イメージからなるシーケンスのうちの1つの単一イメ
    ージとマッチングさせる手段、 前記1つのオーディオセグメントを変換させたテキスト
    セグメントへ変換する手段、 前記1つの単一イメージを前記変換させたテキストセグ
    メントと合成することによって単一複合画像を作成する
    手段、を有することを特徴とするシステム。
  19. 【請求項19】 請求項15において、前記イメージデ
    ータが複数個の単一イメージからなるシーケンスを表わ
    しており、本システムが、更に、 前記単一イメージと前記変換させたテキストとを合成す
    ることによって前記複数個の単一イメージからなるシー
    ケンスの各単一イメージに対して複合イメージを作成す
    る手段、 前記複合イメージの各々を印刷する手段、を有すること
    を特徴とするシステム。
JP10272969A 1997-09-26 1998-09-28 オーディオから派生したテキストのイメージとの関連付け Withdrawn JPH11175092A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US93873597A 1997-09-26 1997-09-26
US08/938735 1997-09-26

Publications (1)

Publication Number Publication Date
JPH11175092A true JPH11175092A (ja) 1999-07-02

Family

ID=25471886

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10272969A Withdrawn JPH11175092A (ja) 1997-09-26 1998-09-28 オーディオから派生したテキストのイメージとの関連付け

Country Status (3)

Country Link
EP (1) EP0905679A3 (ja)
JP (1) JPH11175092A (ja)
CA (1) CA2247795A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990073418A (ko) * 1999-07-10 1999-10-05 신광영 즉석사진출력자판,카드제조및그제어방법
US7702996B2 (en) 2003-03-19 2010-04-20 Fujitsu Limited Apparatus and method for converting multimedia contents
WO2015073928A1 (en) * 2013-11-15 2015-05-21 Glumobile, Inc. Systems and methods for providing fused images to remote recipients for descrambling and interpretation

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4124402B2 (ja) * 2000-03-31 2008-07-23 株式会社リコー 画像入力装置
AU2002227215A1 (en) 2000-11-10 2002-05-21 Eric N. Clark Wireless digital camera adapter and systems and methods related thereto and for use with such an adapter
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US7539086B2 (en) 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
US20070236583A1 (en) * 2006-04-07 2007-10-11 Siemens Communications, Inc. Automated creation of filenames for digital image files using speech-to-text conversion
US8375283B2 (en) * 2006-06-20 2013-02-12 Nokia Corporation System, device, method, and computer program product for annotating media files
CN109584864B (zh) * 2017-09-29 2023-11-24 上海寒武纪信息科技有限公司 图像处理装置和方法
CN111399788B (zh) * 2018-12-29 2023-09-08 西安诺瓦星云科技股份有限公司 媒体文件播放方法和媒体文件播放装置
CN112087653A (zh) * 2020-09-18 2020-12-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112581965A (zh) * 2020-12-11 2021-03-30 天津讯飞极智科技有限公司 转写方法、装置、录音笔和存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5032918A (en) * 1989-10-06 1991-07-16 Nikon Corporation Electronic still camera
JP3235903B2 (ja) * 1992-06-11 2001-12-04 株式会社リコー スチルカメラ
US5692225A (en) * 1994-08-30 1997-11-25 Eastman Kodak Company Voice recognition of recorded messages for photographic printers
JPH08298614A (ja) * 1995-02-21 1996-11-12 Ricoh Co Ltd デジタル電子スチル・カメラ

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990073418A (ko) * 1999-07-10 1999-10-05 신광영 즉석사진출력자판,카드제조및그제어방법
US7702996B2 (en) 2003-03-19 2010-04-20 Fujitsu Limited Apparatus and method for converting multimedia contents
WO2015073928A1 (en) * 2013-11-15 2015-05-21 Glumobile, Inc. Systems and methods for providing fused images to remote recipients for descrambling and interpretation
US9336189B2 (en) 2013-11-15 2016-05-10 Glu Mobile Inc. Systems and methods for providing fused images to remote recipients for descrambling and interpretation
US10510169B2 (en) 2013-11-15 2019-12-17 Glu Mobile, Inc. Systems and methods for providing fused images to remote recipients for descrambling and interpretation

Also Published As

Publication number Publication date
EP0905679A2 (en) 1999-03-31
EP0905679A3 (en) 1999-11-03
CA2247795A1 (en) 1999-03-26

Similar Documents

Publication Publication Date Title
JPH11175092A (ja) オーディオから派生したテキストのイメージとの関連付け
JP2005293589A (ja) 複合的な電子表現物を作成する方法、コンピュータプログラム及びデータ処理システム
KR20070046981A (ko) 영상 처리 장치 및 음성 코드화 기록 매체
JP2006101521A (ja) 入力メディアオブジェクトの視覚的表現を決定する方法、コンピュータプログラム及びデータ処理システム
JPH11122401A (ja) 音声コード付き写真作成装置
US20040076342A1 (en) Automatic image placement and linking
JP2006135939A (ja) 入力メディアオブジェクトをエンコードする方法、コンピュータプログラム及びデータ処理システム
JP2006155580A (ja) メディアオブジェクトを生成する方法、コンピュータプログラム及びデータ処理システム
JP2006293783A (ja) 画像処理装置及び画像処理プログラム
JP2002041502A (ja) ドキュメント作成システム及びドキュメント作成方法
JP2003111009A (ja) 電子アルバム編集装置
JP5674451B2 (ja) ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP6996212B2 (ja) 履歴書作成システム
JPH1155614A (ja) 音声認識画像処理装置
US6804652B1 (en) Method and apparatus for adding captions to photographs
JP2005101931A (ja) 画像プリント装置
CN106022332A (zh) 终端设备、将纸质读物转为待听读物播放的装置及方法
JP3122900B2 (ja) 電子画像アルバム装置
JP2001326806A (ja) 画像処理システム
US20050149336A1 (en) Voice to image printing
JP2000358205A (ja) 音声認識による画像分類装置、方法及び記憶媒体
JP2007049245A (ja) 音声入力機能付撮影装置
JP4319334B2 (ja) 音声・画像処理装置
JP7447633B2 (ja) 情報処理装置及び情報処理方法
JP2003085069A (ja) データ送信装置、データ送信方法、データ送信プログラム及びデータ送信プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060110