JP2002325225A - テキスト形式の説明によってディジタル・イメージの質を向上させるための方法及び装置 - Google Patents

テキスト形式の説明によってディジタル・イメージの質を向上させるための方法及び装置

Info

Publication number
JP2002325225A
JP2002325225A JP2002019945A JP2002019945A JP2002325225A JP 2002325225 A JP2002325225 A JP 2002325225A JP 2002019945 A JP2002019945 A JP 2002019945A JP 2002019945 A JP2002019945 A JP 2002019945A JP 2002325225 A JP2002325225 A JP 2002325225A
Authority
JP
Japan
Prior art keywords
voice
image
digital
symbolic
capturing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002019945A
Other languages
English (en)
Other versions
JP4113360B2 (ja
Inventor
Paul Steven Halverson
ポール・スチーブン・ハルバーソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002325225A publication Critical patent/JP2002325225A/ja
Application granted granted Critical
Publication of JP4113360B2 publication Critical patent/JP4113360B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • H04N5/772Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera the recording apparatus and the television camera being placed in the same enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/907Television signal recording using static stores, e.g. storage tubes or semiconductor memories

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 【課題】ディジタル・カメラその他の光学的イメージを
取り込む装置によって、イメージが取り込まれるのと実
質的に同時に撮影者が説明を口述することによりその取
り込まれたイメージに説明文などを加える。 【解決手段】ユーザの音声を認識することによって、口
述された情報がテキストに変換され、ディジタル・イメ
ージと関連付けられる。ディジタル・カメラが有する音
声変換機能によって、ユーザの音声が、一連の基本サウ
ンド、即ち、音素から成る中間的シンボリック・フォー
ムに変換される。音素のシンボリック・フォームは、そ
の後、コンピュータ・システムが複雑な語彙リスト及び
シンタックス分析へのアクセスを行うことによって自然
言語テキストに変換される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ディジタル・デー
タ装置に関し、詳しく云えば、ディジタル・カメラ、モ
ーション・ビデオ、その他の光学的イメージをディジタ
ル的に取り込む装置に関する。
【0002】
【従来の技術】二十世紀の後半は情報革命として知られ
ている現象を証拠立てるものであった。情報革命は如何
なる事象又は機械よりも広い範囲における歴史的な展開
であるけれども、単一の装置でディジタル・エレクトロ
ニック・コンピュータ以上に情報革命を表すものは現れ
なかった。コンピュータ・システムの発展は確かに1つ
の革命であった。毎年、コンピュータ・システムはより
高速化し、データをより多く記憶し、ユーザにより多く
のアプリケーションを提供している。
【0003】現代のディジタル・テクノロジは価格の低
下及び機能の拡張により、絶えず増大する種々のアプリ
ケーションにおいて使用されてきた。これらのアプリケ
ーションの1つが光学的イメージの取り込みであった。
一般に、光学的画像処理テクノロジは、規則的に配列さ
れた多数の感光性素子及びそれらの素子の出力をスキャ
ンしてそこからディジタル・イメージを構成する電荷結
合素子(CCD)のようなディジタル・センサ・アレイ
を使用する。ディジタル・イメージは、適当なディジタ
ル・データ記憶媒体に記憶されたり、ディジタル・ディ
スプレイ装置上に表示されたり、用紙又は他の媒体上に
印刷されたり、編集ツールを使用して操作されたり、或
いはディジタル・データに適した任意の通信媒体を使用
して遠隔地に送信されたりすることが可能である。
【0004】光学的画像処理は、ファクシミリ、スキャ
ナ、バーコード・リーダ等を含む種々の環境において使
用されてきた。とりわけ、ディジタル光学的画像処理
は、高解像度の静止画カメラ及び映画カメラにおける古
いフィルム・ベースの媒体に対する代替物としても使用
されている。実際、ディジタル光学テクノロジは画質の
改善、価格の低下をもたらし、これらの分野における古
いフィルム・ベースの媒体に完全に取って代わる日を多
くの人が予見している。
【0005】ディジタル・カメラは、一般に、静止ビデ
オであろうと或いはモーション・ビデオであろうと、種
々の機能を実現するようにプログラム可能なオンボード
・プロセッサを内蔵している。そのプロセッサはディジ
タル・イメージに補助的情報を組み込むようにプログラ
ム可能である。例えば、イメージが取り込まれた日付及
び時間を組み込むことが知られている。カメラ内にオン
ボード・ディジタル・クロックを保持することによっ
て、日付及び時間が容易に設定される。そのような補助
的情報を組み込むことは、ひとたびそれが得られれば特
に難しいことではない。
【0006】
【発明が解決しようとする課題】従来の通常のディジタ
ル・カメラは、単純な光学的スキャニング及びレコーデ
ィング以外のディジタル・テクノロジの使用を排除し
て、それらの機械的装置に対応する装置の機能を単にま
ねようとしてきた。そのようなアプローチでは、ディジ
タル・テクノロジと未だ考えられてないディジタル・カ
メラの向上した機能との改良された統合という情報化時
代の果てしない可能性を想起することはできない。とり
わけ、後でディジタル・イメージに組み込むことができ
る情報、或いは、ディジタル・イメージと関連付けるこ
とができる情報を得る可能性を想起することができな
い。
【0007】
【課題を解決するための手段】本発明の一実施形態のデ
ィジタル・カメラのユーザ(撮影者)は、イメージがデ
ィジタル・カメラにより取り込まれた時間に近い時間に
説明を口述することによって、その取り込まれたイメー
ジに説明を加える。その口述された情報はユーザの音声
を認識することによってテキストに変換され、そのディ
ジタル・イメージと関連付けられる。
【0008】望ましい実施例では、ディジタル・カメラ
は、ユーザによって口述された補助的情報を認識し、変
換する音声認識機能を有する。この機能は、汎用ディジ
タル・プロセッサにおいて実行される音声認識ソフトウ
エアの形式のものであることが望ましい。なお、そのプ
ロセッサは、カメラを操作するための種々の制御機能を
実現するためにも使用される。音声は、リアルタイムで
記号形式のデータに変換される必要はない。音声はマイ
クロフォンを使用して感知され、ディジタル・サンプル
に変換され、そして記憶装置に一時的に記憶される。し
かる後、プロセッサは、それが他のカメラ・タスクを行
っていない時、その記憶された音声サンプルを記号形式
にバックグラウンドで変換する。一旦音声サンプルが記
号形式に変換されてしまうと、その音声サンプルのため
に使用された記憶領域は再使用可能になる。その少量の
記号形式のデータを記憶するために必要な記憶装置は音
声又は光学的イメージのための記憶装置に比べて相対的
に小さい。
【0009】生成された記号形式データは自然言語テキ
ストであってもよいが、ユーザの音声を一連のベーシッ
ク・サウンド、即ち、音素として表す中間的記号形式で
あることが望ましい。そうすれば、その後、コンピュー
タ・システムが複雑な語彙リスト及びシンタックス分析
を行うことによって自然言語テキストに変換可能とな
る。
【0010】撮影者によって口述された説明はフリー・
フォーマットのキャプションであることが望ましい。即
ち、その口述された説明のフォーマットに関しては、そ
れが1つの認識された人間の言語であること以外に何の
制限もない。また別の方法として、例えば、指定された
情報に対して可聴メッセージ又は可視メッセージでもっ
てユーザにプロンプト指示することによって、ユーザが
或るメッセージを所定の順序で口述することを要求する
ことも可能であろう。例えば、カメラは、タイトル、撮
影者名、場所等をユーザにプロンプト指示してもよい。
それらの情報はフリー・フォーマットの説明を後続させ
てもよいし、後続させなくてもよい。ユーザによって口
述された情報は、日付、時間、カメラ設定情報のような
カメラのプロセッサにとって利用可能な情報によって補
足されることも可能である。
【0011】本願において開示される方法及び装置は、
レコードされたディジタル・イメージを補う拡張レコー
ドであって、ユーザにより容易に生成されるレコードを
提供する。
【0012】本発明の構造及び動作に関する本発明の詳
細は、添付図面を参照することにより最善の理解を可能
にするであろう。なお、添付図面においては同じ参照番
号は同じ部品を表している。
【0013】
【発明の実施の形態】図1は、望ましい実施例によるデ
ィジタル・カメラの高レベル断面図である。カメラ10
0はボディ又はハウジング101、レンズ102、及び
光学的センサ・アレイ103を含む。図1には、撮影さ
れるべき対象物(関心のある対象物)をユーザが見るこ
とを可能にするための透視チャネル106が示される。
それは一端において透明の窓を有し、光がカメラを通過
することを可能にする。しかし、別の方法として、周知
の一眼レフ(SLR)機構を使用することによりレンズ
102を通して対象物を見るようにすることも可能であ
り、液晶ダイオード(LCD)ディスプレイのような小
型のディスプレイを使用して、センサ103により感知
されたディジタル・イメージを投影するようにすること
も可能である。
【0014】カメラのボディ101には小型のマイクロ
フォン105が装着される。マイクロフォン105は、
カメラのボディ101のエッジ、特に、カメラの底部と
カメラにおけるレンズ102と反対側部分との交差位置
に形成されるエッジの近くに装着されることが望まし
い。この位置は、関心のある対象物を撮影者が撮ろうと
している時にマイクロフォン105を撮影者の口付近の
位置に置かせ、従って、撮影者によって口述された言葉
を捉える有利な位置である。マイクロフォン105は、
撮影者の口以外の方向から来る音声を除去する指向性マ
イクロフォンであってもよい。
【0015】図1に表示された図は説明を目的とした高
レベル表示を意図するものであり、カメラの全コンポー
ネントの詳細図を意図するものではないことは勿論であ
る。更に、図示されたコンポーネントは、容易に理解を
得るために単純化された形式で表されている。例えば、
レンズ102は、焦点距離を調節するための可動部品を
持った多素子レンズとして実装されることが多い。
【0016】図2は、望ましい実施例によるディジタル
・カメラの主要な電子コンポーネントを示す高レベルの
図である。そのカメラは、ランダム・アクセス・メモリ
202と通信を行うプログラム可能なプロセッサ201
を含む。メモリ202は、複数のプロセッサ実行可能な
命令から成るコントロール・プログラム203を含む。
それらの命令は、プロセッサ201上で実行される時、
カメラの動作を制御する。更に、メモリ202は、本願
において更に説明される音声認識プログラム204を含
む。更に、カメラは、そのカメラによって捉えられたデ
ィジタル・イメージを、各セグメントがそれぞれのイメ
ージと関連づけられる複数セグメントの記号形式データ
と共に記憶するためのデータ記憶装置207を含む。更
に、カメラは、ディジタル・イメージを取り込むための
光学的センサ・アレイ103及びすべてプロセッサ20
1の制御の下にあるそのカメラの種々のコンポーネント
と通信を行うためのI/O装置ドライバ/コントローラ
208を含む。更に、カメラは、マイクロフォンが受け
取った音声信号をディジタル信号形式、即ち、複数の連
続的なディジタル・サンプルに変換するためにマイクロ
フォン105と通信を行うアナログ・ディジタル・コン
バータ(A−D)209を含む。
【0017】データ記憶装置207は、半導体メモリ、
磁気テープ、磁気ディスク、光学的メモリ等のようなデ
ィジタル・イメージを記憶するために使用される任意の
適当な記憶装置であってよい。記憶媒体は取り外し可能
なものであってもよく、取り外し可能でなくてものでも
よい。I/O装置ドライバ/コントローラ208は他の
カメラ・コンポーネントに対するインターフェースを提
供する。これらのコンポーネントは、シャッタ、レン
ズ、ミラー等のようなプロセッサ201によって制御さ
れるもの及びシャッタ作動ボタン、又は他のユーザ・ア
クセス可能なボタン及びスイッチのようなプロセッサ2
01が入力を受け取るものを含む。或る実施例に対して
は、これらのコンポーネントは、イメージをユーザに表
示するためのディジタル・ディスプレイ装置を含んでも
よい。更に、ユーザにカメラの状態を知らせるために数
字、テキスト、及びアイコンを表示するためのLCDデ
ィスプレイのような小型のディスプレイが存在すること
が望ましい。更に、コンピュータ、テレビジョン、プリ
ンタ等のようなカメラにとっては外部の装置にデータを
送信するための少なくとも1つの外部ポートが存在する
ことが一般には望ましい。電子コンポーネントに対する
電力はバッテリ(図示されてない)によって供給され
る。
【0018】メモリ202は、不揮発性メモリを含むこ
とが望ましい。不揮発性メモリにおけるデータは、バッ
テリの故障、交換、又は別の事故のためにメモリが電力
を受けない場合でも失われることはない。コントロール
・プログラム203及び音声認識プログラム204はメ
モリのこの部分に記憶されることが望ましい。更に、メ
モリ202は、一時的な値、カウンタ等を記憶するため
の又はイメージ・データをバッファするための揮発性メ
モリを含むことも望ましい。音声バッファ205はメモ
リの揮発性メモリの部分に含まれる。音声バッファ20
5は、音声認識プログラム204による記号形式への変
換が保留されているディジタル音声(音声信号のディジ
タル・サンプル)を一時的に記憶する。音声バッファは
一時的なニーズに適応するように可変サイズのものであ
ってよい。更に、記憶装置207の機能によっては、ま
さに分析されつつある非常にわずかな数のサンプルだけ
がメモリ202においてバッファされるように、記憶装
置207にはディジタル化された音声サンプルがバッフ
ァされるようにしてもよい。
【0019】自動音声認識の分野では明らかであるよう
に、口述された言葉から自然言語を作り出すプロセスは
一般に多数のステップを伴う。人間の声として発せられ
た音声信号は、先ず、ディジタル・サンプルに変換さ
れ、周波数パターンを分析される。これらを音素と呼ば
れる人間の音声の基本サウンド・ユニットに対応させる
試みが行われる。人間は或るワード又はサウンドを不明
瞭に発音することがあり、異なる話者間のみならずひと
りの話者によって同じワードが発声された場合でも音声
パターンが変化するために、この分析は話者の意図した
音素を完全な精度で認識することができない。自動音声
認識システムにとって母音は子音よりも認識することが
容易であるという傾向はあるが、いずれも誤りを生じ得
るものである。一般的には、その分析は話者の意図した
音素に関して推測を生じる。そして、それはその推測が
正しいという確率と関連するであろう。代表的な音声認
識システムは、音素の連続を辞書にある既知のワードと
対応させようとするであろう。その場合、必ずしもすべ
ての場合に最高の確率を持つ音素が選択されるわけでは
ないであろう。高い確率の音素が認識可能なワードと対
応しない場合、低い確率を持った音素が選択されること
がある。この場合でも、システムはワードを推測できる
だけであり、従って、多くの別のワード公式化による各
ワードと違った確率を関連づけるであろう。結局、非常
に複雑な音声認識プログラムが、センテンス全体のシン
タックスを更に分析するために1ステップずつ分析を行
い、従って、複数の可能性の中から最も妥当なワードの
組み合わせを選択するだろう。
【0020】音声認識プログラム204はとりうる種々
の形式のうちの任意の形式を取ることができる。それ
は、上述の全てのステップを実行して音声入力を自然言
語テキストのストリームに変換するための全機能を備え
た音声認識プログラムであってもよい。しかし、そのよ
うなプログラムが大量のメモリを消費し、カメラのコス
トを増加させることがあることは明らかであろう。従っ
て、音声認識プログラム204は全機能を備えた音声認
識プログラムの一部分だけであることが更に望ましい。
具体的にいえば、プログラム204は、語彙又はシンタ
ックス分析を行うことなく、音声サンプルを処理して人
間の音声の一部分に対応する一連の基本サウンド、即
ち、音素の記号形式にするフロント・エンドであっても
よい。この記号形式は、どの音素が話者によって意図さ
れたかということをシステムが断定できない場合に別の
音素と関連づけられる確率係数を含み得る。この記号形
式は、大型の辞書へのアクセス及び複雑なシンタックス
分析を有するコンピュータ・システムによって、後で自
然言語テキストに変換されることを意図されている。そ
のようなコンピュータ・システムは音声認識をリアル・
タイムで行う必要がないことは注目される。更に、その
ようなオフライン分析のもう1つの利点は、カメラにお
ける音声認識フロント・エンドが多言語のものであり、
単に音声から音素を生成し、その後、それらの音素がユ
ーザの自然言語に特有のプログラムによってテキストに
書き換えられるということであることも注目される。
【0021】図3は、望ましい実施例によるカメラの音
声認識プログラム204に結びつけられたコントロール
・プログラム203の動作を示すフローチャートであ
る。カメラは、最初、アイドル状態301にある。アイ
ドル状態では、コントロール・プログラムは、ユーザが
所定のボタンにタッチする又はレンズ・カバーを開くと
いうようなパワー・オン指示に対するポーリングを定期
的に行う(ステップ302)。パワー・オン指示が検出
された場合、コントロール・プログラム203はオペレ
ーション・ループに入り、カメラで実現される種々の機
能のいずれかをユーザが指示するのを待つ。プログラム
がリスニングし音声取り込み開始の指示を検出した場合
(ステップ303)、カメラがユーザにより口述された
音声をレコードし始めるべきであること及び最終的にそ
の音声を上述のように記号形式に変換すべきであること
を意味する。カメラのボディに設けられたボタン形式の
電気的スイッチ(図示されてない)をユーザが押し続け
ることによって指示が行われることが望ましい。しか
し、「リスニング開始」の指示は種々の別の方法で行わ
れてもよい。例えば、カメラは、一連の機能ボタンが操
作される時にリスニングを開始することも可能であり、
或いはユーザの口から指向性マイクロフォン105を介
して生じる音声を検出する時に自動的にリスニングを開
始することも可能であり、或いはレンズ・カバーが開か
れる時に自動的にリスニングを開始することも可能であ
る。専用のボタン・スイッチの使用は、カメラに少量の
コスト及び重量を追加するけれども、ユーザの混乱を少
なくし、望まない音声をレコードすることを少なくする
ので望ましい。コントロール・プログラムがリスニング
開始指示を検出する場合、それはサンプリング・タイマ
がリセットされ、サンプリング・タイマ割込みが可能と
なり、音声レコーディング・フラグがセットされる(ス
テップ304)。
【0022】サンプリング・タイマは、アナログ・ディ
ジタル・コンバータ209からの音声サンプルの収集を
トリガするために使用される。そのタイマは人間の音声
に対する適切なサンプリング率にセットされる。例え
ば、一般には、20KHz乃至50KHzのサンプリン
グ率で十分である。タイマがタイム・アウトし、サンプ
リング・タイマ割込みが可能にされる時、プロセッサ
は、どのようなタスクを行っていても割込みを行って音
声サンプルをバッファ205に記憶し、そのタイマをリ
セットし、そして前に実行していたタスクに戻る。この
割込みは、図3における円320内の文字「I」によっ
て表されるように、コントロール・プログラムの実行に
おける任意の種々の時点で生じ得る。
【0023】コントロール・プログラムがリスニング停
止の指示を検出する場合(ステップ305)、それはサ
ンプリング・タイマ割込みを不能にし、音声レコーディ
ング・フラグをクリアする(ステップ306)。望まし
い実施例では、リスニング停止の指示は、ユーザがボタ
ンを放すことで行われる。しかし、この指示は、前述の
ように、他の手段によって行われることも可能である。
【0024】或る他の機能がユーザによって作動された
ことをコントロール・プログラムが検出する場合(ステ
ップ307)、対応する機能が実行される(ステップ3
08)。そのような機能は、イメージを取り込む(スチ
ール写真又はモーション・ビデオを撮る)ことであって
もよいが、更に他の多くの事象であってもよい。或る機
能は、口径、焦点等を設定するというような特定のイメ
ージを取り込むための準備に関するものでもよく、別の
機能は、日付/時間インジケータを設定する、或いは記
憶装置におけるイメージの集合をアンロードするという
ような特定のイメージに無関係の事象に関するものであ
ってもよい。
【0025】ユーザが如何なる機能もリクエストしない
場合、処理はステップ307からNoの矢印方向へ進
む。この場合、ユーザが電源を遮断しないならば、処理
はステップ309からNoの矢印方向へ進み、コントロ
ール・プログラムは、ユーザの音声入力から少しでも音
声サンプルがバッファに記憶されているかどうかを判定
する(ステップ310)。ステップ310の判定が肯定
される場合、コントロール・プログラムは、サンプルの
数が分析を開始するための所定の閾値よりも大きいかど
うかを判定する(ステップ311)。ステップ311の
判定が肯定される場合、処理はステップ311からYe
sの矢印方向へ進み、音声認識プログラム204が呼び
出されてバッファに存在するサンプルのうちの少なくと
もいくつかを記号形式に変換する(ステップ313)。
閾値が満たされず、処理がステップ311からNoの矢
印方向へ進み、音声フラグがオフである場合(ステップ
312)も、音声変換プログラムが呼び出される(ステ
ップ313)。この後者の場合、ユーザは口述を終了し
ており、従って、サンプル入力が如何に少なくてもサン
プルは記号形式に変換されなければならない。記号形式
への変換の後、その記号形式データは適切なディジタル
・イメージと関連付けられて大容量記憶装置207に記
憶される(ステップ316)。
【0026】ステップ309において、ユーザが電源オ
フ動作を行ったことをコントロール・プログラムが判定
した場合、処理はステップ309からYesの矢印方向
へ進む。この時点でバッファに如何なる音声サンプルも
残っていない場合、処理はステップ314からYesの
矢印方向へ進み、サンプルが音声変換プログラム204
によって分析されて記号形式に変換され(ステップ31
5)、その記号形式データが適切なディジタル・イメー
ジと関連付けられて記憶装置207に記憶される(ステ
ップ317)。いずれの場合も、その後、コントロール
・プログラムはアイドル状態301に戻る。
【0027】ステップ316又は317を実行する場
合、コントロール・プログラムは記憶装置207におい
て記号形式データを特定のディジタル・イメージと関連
づける。記号形式データが関連づけられるイメージは、
口述された音声のレコーディングと実質的に同時期に取
り込まれたイメージである。撮影者が口述している間に
イメージが実際に取り込まれることはあり得るが、ディ
ジタル・イメージの取り込み直前に又は直後に音声が取
り込まれることもあり得る。カメラが特定の音声セグメ
ントをディジタル・イメージと関連づけ得る方法はいく
らでも存在する。通常、撮影者は、写真を撮る直前より
も直後にキャプションを口述することが多いものと仮定
される。従って、望ましい実施例では、カメラは次のよ
うな優先順位に従って音声セグメントを関連づける: 1.ディジタル・イメージが音声セグメントのレコーデ
ィング中に取り込まれる場合、音声はそのディジタル・
イメージと関連づけられる; 2.カメラがパワー・オンされた時から音声セグメント
のレコーディングの終了までにディジタル・イメージが
全く取り込まれず、しかも音声セグメントのレコーディ
ング後であるが、カメラが電源オフにされる前に(即
ち、同じパワー・オンのセッション中に)ディジタル・
イメージが取り込まれた場合、音声セグメントはその音
声セグメントのレコーディングの直後に取り込まれたデ
ィジタル・イメージと関連づけられる; 3.他のすべての場合、音声セグメントはその音声セグ
メントのレコーディングの直前に取り込まれたディジタ
ル・イメージと関連づけられる。
【0028】しかし、ディジタル・イメージを音声セグ
メントと関連づけるための別の方法も存在することは明
らかであろう。例えば、ユーザがディジタル・イメージ
のナンバーを1つ又は複数の機能ボタンで指定するよう
に要求されることも可能である。
【0029】「関連づける(associate)」ということ
は、特定の音声セグメントが特定のディジタル・イメー
ジを説明するということを決定することを可能にする或
るレコードされた関係が記憶装置207に存在するとい
うことを意味する。すなわち、「関連づける」というこ
とは、ある特定の音声セグメントが特定のディジタル・
イメージを説明するものであるという関係を表すデータ
が記憶装置207に存在するということである。シンプ
ルな形式としては、関連づけは、1つのフィールドがデ
ィジタル・イメージを含み、別のフィールドが音声セグ
メントの記号形式データを含む共通レコードとすること
ができる。また、ディジタル・イメージを含む記憶ロケ
ーションに対するその記号音声セグメント内のポインタ
とすることもできる。あるいは音声セグメントと共にレ
コードされたイメージ番号とすることもできる。
【0030】記憶装置207におけるディジタル・デー
タがイメージ出力を生成するためにコンピュータ・シス
テム又は他の出力装置に転送される時、音声セグメント
がディジタル写真によって識別され、適正な形でユーザ
にレンダされる。図4は、ディジタル・イメージを音声
セグメントと共にレンダするためのコンピュータ・シス
テムの主要なコンポーネント示す。一方、図5は、望ま
しい実施例に従って説明と共にイメージを取り込み且つ
レンダすることに関するステップの高レベル・フローチ
ャートである。
【0031】図4に示されるように、コンピュータ・シ
ステム400は、CPU401、メイン・メモリ40
2、種々のデバイス・アダプタ及びインターフェース4
03−408、並びに通信バス410を含む。CPU4
01は、メモリ402に記憶された命令を実行する汎用
のプログラム可能プロセッサである。図4には単一のC
PUが示されているけれども、複数のCPUを有するコ
ンピュータ・システムが使用されてもよいことは勿論で
ある。メモリ402は、データ及びプログラムを記憶す
るためのランダム・アクセス半導体メモリである。メモ
リは、単一のモノリシック・エンティティとして概念的
に示されるが、キャッシュ及び他のメモリ装置の階層的
に構成され得ることも勿論である。通信バス410は、
種々の装置間におけるデータ、コマンド、及び他の情報
の転送をサポートする。それは単一のバスとして簡単な
形式で示されているけれども、マルチバスとして構成さ
れ得るし、階層的に構成され得る。ディスプレイ・アダ
プタ403はビデオ・ディスプレイ411をサポートす
る。そのビデオ・ディスプレイは一般的には陰極線管デ
ィスプレイであるが、他のディスプレイ・テクノロジが
使用されてもよい。キーボード/ポインタ・アダプタ4
04はキーボード412及びポインティング装置413
をサポートする。そのポインティング装置はマウスとし
て示されているが、他の形式の入力装置が使用されても
よいことは勿論である。
【0032】ストレージ・アダプタ405は1つ又は複
数のデータ記憶装置414をサポートする。そのデータ
記憶装置は、一般に、回転式磁気ハード・ディスク・ド
ライブであるが、他のデータ記憶装置が使用されてもよ
い。プリンタ・アダプタ406はプリンタ415をサポ
ートする。I/Oアダプタ407はカメラ100と通信
を行う特別のI/Oポート416をサポートする。ネッ
トワーク・インターフェース408はコンピュータ・シ
ステムのネットワークに対する物理的インターフェース
を提供する。例えば、ネットワーク・インターフェース
408は、インターネットをアクセスするために使用さ
れる電話システムに接続するためのモデムであってもよ
いが、他のタイプのインターフェースが可能であること
は勿論である。例えば、そのインターフェースは、サー
バとして作用する単一の大型メインフレーム・コンピュ
ータ又はローカル・エリア・ネットワークに複数のワー
クステーションを接続するために使用され得るメインフ
レーム・ターミナル・チャネル・インターフェースであ
ってもよい。コンピュータ・システム400は、一般に
は、「パーソナル・コンピュータ」として知られた種々
のモデルのシングル・ユーザのコンピュータ・システム
のうちのいずれかであろう。図4の表示は説明のために
単純化された表示を意図しており、ここに示されたもの
に加えて、システム構成における多くの変更が可能であ
ることは勿論である。更に、本発明に従ってディジタル
・カメラ・イメージを受信し且つレンダするための装置
はパーソナル・コンピュータ・システムである必要はな
く、メインフレーム、ノートブック、又はラップトップ
・コンピュータに接続された、いわゆるダム端末、イメ
ージを印刷するための単一目的の特殊目的装置、或いは
種々のハードウエア・バリエーションのうちのいずれか
であってもよい。
【0033】図4に示されるように、メモリ402は、
概念的には、オペレーティング・システム(OS)42
1、ディジタル・イメージ・フォーマット・プログラ
ム、即ち、フォーマッタ422、音声翻訳プログラム4
23、及びバッファ424を含む。オペレーティング・
システム421は、デバイス・インターフェース、メモ
リ・ページの管理、ウインドウ・インターフェースの管
理、複数タスクの管理等のようなその分野において周知
である種々の低レベル・ソフトウエア機能を提供する。
オペレーティング・システム421は、例えば、マイク
ロソフト社のWindows(R)オペレーティング・システ
ムであってもよいが、他のオペレーティング・システム
が使用されてもよいことは勿論である。
【0034】図5は、カメラにおいてテキストともにイ
メージを取り込み、その後、テキストと共にイメージを
変換するプロセス全体を高レベルで図示する。図5に示
されるように、イメージがユーザの口述した説明と共に
取り込まれ(ステップ501)、しかる後、ユーザの音
声が記号形式に変換される(ステップ502)。これら
のステップは、詳しくは、図3に示されている。ユーザ
が更なるイメージを取り込むことを望む場合(ステップ
503)、ユーザがカメラからコンピュータまたは他の
出力装置にデータをアップロードする準備を終わるまで
このプロセスが繰り返される。
【0035】ユーザの準備が終わると、データ(イメー
ジ及び説明の記号形式データ)がカメラ100からコン
ピュータ・システム400にアップロードされる(ステ
ップ504)。ディジタル・イメージ・フォーマット・
プログラム422がカメラ・インターフェース416を
通してディジタル・イメージを受け取り、それを一時的
にバッファ424に記憶する。
【0036】ディジタル・イメージ・フォーマット・プ
ログラム422は、カメラ100からアップロードされ
た音声の中間的な記号形式データを自然言語テキストに
翻訳するために音声翻訳プログラム423を呼び出す
(ステップ505)。カメラ100が音声を自然言語テ
キストに変換する完全な音声認識装置を含む場合、音声
翻訳プログラム423が不要であることは明らかであろ
う。しかし、既に説明したように、多くの実施例では、
カメラ100から分離しているコンピュータ・システム
において複雑な語彙及びシンタックス分析を行うことが
望ましいであろう。その場合、その動作ステップは音声
翻訳プログラム423によって行われる。従って、音声
翻訳プログラム423は大きな語彙リスト及びシンタッ
クス分析のためのルールのセットを含み得る。
【0037】イメージ・フォーマット・プログラム42
2はイメージを目視に適した形式でフォーマットする。
イメージ・フォーマット・プログラム422は、例え
ば、切り抜き、拡大/縮小、レッド・アイ削除、又は他
の編集機能によってユーザがディジタル・イメージを編
集することを可能にする編集能力を任意選択的に含んで
もよい。何らかの任意選択的な編集が行われた後、イメ
ージは翻訳された説明テキストと共に適切な出力様式と
なるようにフォーマットされる。例えば、プリンタ41
5を使用してディジタル写真が用紙上にプリントされる
べき場合、キャプションがその翻訳された音声セグメン
トを使用して写真の縁部にプリントされてもよく、或い
は写真自体の上に重ねられてもよく、或いは写真の裏に
プリントされてもよい。別の方法として、各キャプショ
ンを写真と関連づける識別番号を持ったキャプション・
テキストの個別シートがプリントされてもよい。更に別
の方法として、イメージがコンピュータ・スクリーンで
見られたり、説明テキストがイメージの端部に沿って表
示されたり、或いは適切な機能を選択することによりユ
ーザにとって入手可能になったりするように、そのディ
ジタル・データがオンライン形式で保持されてもよい。
一般に、フォーマットされたイメージ及び翻訳されたテ
キストは記憶装置414に記憶される。
【0038】ディジタル・イメージと関連付けられた説
明テキストが単なる表示以外の目的で使用され得ること
は明らかであろう。例えば、テキストは写真説明のオン
ライン・データベースにインポートされ、キー・ワード
又は任意の種々の既知のサーチ技法を使用してサーチさ
れ得る。
【0039】メモリ402には或る数のアプリケーショ
ン及び他のエンティティが示されているけども、これら
が単に説明を目的として示されること及びそのようなエ
ンティティの実際の数が変わり得ることは明らかであろ
う。更に、図4のソフトウエア・コンポーネントはメモ
リ402に存在するものとして概念的に示されているけ
れども、一般に、コンピュータ・システムのメモリは、
全プログラム及びデータを保持するには小さすぎるこ
と、及び、一般に、情報は、回転磁気ディスク・ドライ
ブのような1つ又は複数の大容量記憶装置から成るデー
タ記憶装置414に記憶されること、及びその情報は、
必要に応じてオペレーティング・システムによってメモ
リにページングされるということも明らかであろう。
【0040】一般に、本発明の説明された実施例をイン
プリメントするために実行されるルーチンは、それがカ
メラ内にインプリメントされようが、或いはオペレーテ
ィング・システム又は特定のアプリケーション・プログ
ラム、オブジェクト・モジュール、又は命令シーケンス
の一部としてインプリメントされようが、本願では、
「プログラム」又は「コンピュータ・プログラム」と呼
ばれる。コンピュータ・プログラムは、一般に、本発明
に適合した装置又はシステムにおける1つ又は複数のプ
ロセッサによって読み取られそして実行される時、本発
明の種々な局面を具体化するステップを実行するに必要
なステップ或いは本発明の種々な局面を具体化する要素
を生成するに必要なステップをそれらの装置又はシステ
ムに実行させる命令から成る。更に、本発明を十分な機
能を有するカメラ装置又はコンピュータ・システムと関
連させて説明したが、本発明の種々な実施例は種々な形
式のプログラム製品として供給可能であり、しかも本発
明はその供給を実際に行うために使用される特定なタイ
プの信号保持媒体に関係なく等しく適用する。信号保持
媒体の例は、揮発性及び不揮発性メモリ装置、フロッピ
・ディスク、ハード・ディスク・ドライブ、CD−RO
M、DVD、磁気テープのようなレコード可能なタイプ
の媒体、及び無線通信リンクを含むディジタル及びアナ
ログ通信リンクのような伝送タイプの媒体を含むが、そ
れらに限定されない。信号保持媒体の例は、図2におい
てメモリ22として示され、図4においてメモリ402
又はデータ記憶装置414として示される。
【0041】上記の説明では、本発明によるカメラが静
止写真を撮ることを意味するように種々の用語及び図が
使用された。本発明は、一般に、静止写真及びモーショ
ン・ビデオに適用可能であり、静止写真に限定されるよ
うに明白に述べられてない場合には静止写真に限定され
るものと解されるべきではない。更に、本発明は、静止
写真及びモーション・ビデオの両方を撮る機能を有する
任意の種々のディジタル・カメラに適用可能である。
【0042】本発明の特定の実施例を幾つかの代替方法
と共に開示したけれども、特許請求の範囲に記載された
本発明の技術的範囲で形式及び細部における付加的変更
が行われ得ることは当業者には明らかであろう。
【0043】まとめとして、本発明の構成に関して以下
の事項を開示する。
【0044】(1)ディジタル・カメラその他の光学的
イメージを取り込む機能を有する装置であって、光学的
イメージをディジタル的に取り込む光学的センサ手段
と、前記光学的センサ手段により取り込まれた光学的イ
メージを記憶する記憶媒体と、音声をディジタル的に取
り込む音声センサ手段と、前記音声センサ手段により取
り込まれた音声を記号形式に変換する音声変換手段と、
前記記号形式データを前記取り込まれた光学的イメージ
と関連付けて前記記憶媒体に記憶させるコントローラ
と、を含む装置。 (2)前記コントローラが前記装置の動作を制御するた
めのコントロール・プログラムを実行するプログラム可
能プロセッサを含む、上記(1)に記載の装置。 (3)前記音声変換手段は、前記プログラム可能プロセ
ッサが実行可能な複数の命令であって、組み込み音声変
換アルゴリズムである命令により実現される、上記
(2)に記載の装置。 (4)前記音声変換手段が前記音声センサ手段により取
り込まれた前記音声を音素の記号形式を含む中間記号形
式に変換し、前記中間記号形式が前記装置とは別の装置
によって自然言語テキストに変換される、上記(1)に
記載の装置。 (5)ディジタル・カメラその他の光学的イメージを取
り込む機能を有する装置で実行される方法であって、前
記装置の光学的センサ手段によって対象物の光学的イメ
ージをディジタル的に取り込むステップと、前記装置の
音声センサ手段によって音声をディジタル的に取り込む
ステップと、 前記装置の前記音声センサ手段によって
取り込まれた音声を記号形式に変換するステップと、前
記記号形式データを前記取り込まれた光学的イメージと
関連付けて記憶するステップを含み、前記音声を取り込
むステップは、前記光学的イメージを取り込むステップ
と実質的に同時に実行される、方法。 (6)前記音声を記号形式に変換するステップは、取り
込まれた前記音声が音素の記号形式を含む中間記号形式
に変換され、前記中間記号形式が前記装置とは別の装置
によって自然言語テキストに変換される、上記(5)に
記載の方法。 (7)前記音声を記号形式に変換するステップはプログ
ラム可能プロセッサが音声変換プログラムを実行するこ
とにより実現される、上記(5)に記載の方法。 (8)前記プログラム可能プロセッサは、前記装置の動
作を制御するためのコントロール・プログラムを実行
し、前記音声を記号形式に変換するステップは、前記コ
ントロール・プログラムが他のタスクに占有されていな
い時に前記プログラム可能プロセッサによってバックグ
ラウンドで実行される、上記(7)に記載の方法。 (9)ディジタル・カメラその他の光学的イメージを取
り込む機能を有する装置を制御するコンピュータ・プロ
グラムであって、前記装置に、前記装置の光学的センサ
手段によって対象物の光学的イメージをディジタル的に
取り込む手順と、前記装置の音声センサ手段によって音
声をディジタル的に取り込む手順と、前記装置の前記音
声センサ手段によって取り込まれた音声を記号形式に変
換する手順と、前記記号形式データを前記取り込まれた
光学的イメージと関連付けて記憶する手順を含み、前記
音声を取り込む手順は、前記光学的イメージを取り込む
手順と実質的に同時に実行される、コンピュータ・プロ
グラム。 (10)前記音声を記号形式に変換する手順では、取り
込まれた前記音声は音素の記号形式を含む中間記号形式
に変換され、前記中間記号形式が前記装置とは別の装置
によって自然言語テキストに変換される、上記(9)に
記載のコンピュータ・プログラム。 (11)ディジタル・カメラその他の光学的イメージを
取り込む機能を有する第1の装置と、ディジタル・イメ
ージをフォーマットする機能を有する第2の装置を使用
して、ディジタル・イメージを持った情報をレコードす
る方法であって、前記第1の装置の光学的センサ手段に
よって対象物の光学的イメージをディジタル的に取り込
むステップと、前記第1の装置の音声センサ手段によっ
て前記光学的イメージに対応する音声セグメントをディ
ジタル的に取り込むステップと、前記第1の装置の音声
変換手段によって前記装置の前記音声センサ手段によっ
て取り込まれた音声セグメントを記号形式セグメントに
変換するステップと、前記光学的イメージと前記記号形
式セグメントを前記第2の装置にアップロードするステ
ップと、前記第2の装置によって前記光学的イメージ及
び対応する前記記号形式セグメントをユーザによる目視
のためにフォーマットするステップを含み、前記記号形
式セグメントは対応する前記光学的イメージと関連付け
られて人間によって読み取り可能な形式で表示するため
にフォーマットされる、方法。 (12)前記音声セグメントを記号形式セグメントに変
換するステップでは、取り込まれた前記音声を音素の記
号形式を含む中間記号形式に変換され、前記フォーマッ
トするステップでは、前記中間記号形式を自然言語テキ
ストに変換される、上記(11)に記載の方法。 (13)前記第2の装置は、ディジタル・イメージ・フ
ォーマット・プログラムを実行する汎用ディジタル・コ
ンピュータである、上記(11)に記載の方法。 (14)前記フォーマットするステップは、フォーマッ
トされたテキストを対応するディジタル・イメージとと
もに用紙上に印刷するステップを含む、上記(11)に
記載の方法。 (15)前記フォーマットするステップは、フォーマッ
トされたテキストを対応するディジタル・イメージとと
もにディジタル装置の出力スクリーンに表示するステッ
プを含む、上記(11)に記載の方法。 (16)ディジタル・イメージをフォーマットする機能
を有する装置にディジタル・イメージを持った情報をレ
コードさせるコンピュータ・プログラムであって、前記
ディジタル・イメージをフォーマットする機能を有する
装置に、(a)ディジタル・カメラその他の光学的イメ
ージを取り込む機能を有する第1の装置からディジタル
・イメージ及び前記第1の装置で取り込まれた音声セグ
メントを変換した記号形式セグメントを受け取る手順
と、(b)前記ディジタル・イメージ及び前記記号形式
セグメントをユーザによる目視のためにフォーマットす
る手順を実行させ、前記記号形式セグメントは対応する
前記ディジタル・イメージと関連付けられて人間によっ
て読み取り可能な形式で表示するためにフォーマットさ
れる、コンピュータ・プログラム。 (17)前記記号形式セグメントは音素の記号形式を含
む中間記号形式で表現された音声を含み、前記フォーマ
ットする手順は、前記中間記号形式を自然言語テキスト
に変換する手順を含む、上記(16)に記載のコンピュ
ータ・プログラム。 (18)前記フォーマットする手順は、フォーマットさ
れたテキストを対応するディジタル・イメージとともに
用紙上に印刷する手順を含む、上記(16)に記載のコ
ンピュータ・プログラム。 (19)前記フォーマットする手順は、フォーマットさ
れたテキストを対応するディジタル・イメージとともに
ディジタル装置の出力スクリーンに表示する手順を含
む、上記(16)に記載のコンピュータ・プログラム。
【図面の簡単な説明】
【図1】本発明の望ましい実施例によるディジタル・カ
メラの主要なコンポーネントを表す高レベルの断面図で
ある。
【図2】本発明の望ましい実施例によるディジタル・カ
メラの主要な電子的コンポーネントを示す。
【図3】本発明の望ましい実施例によるカメラ制御プロ
グラムの動作を示す高レベルのフローチャートである。
【図4】本発明の望ましい実施例に従って音声セグメン
トを持ったディジタル・イメージをレンダするためのコ
ンピュータ・システムの主要なコンポーネントを示す。
【図5】本発明の望ましい実施例に従って説明テキスト
を持ったイメージを取り込み及びレンダすることに関連
したステップの高レベルのフローチャートである。
【符号の説明】
100 カメラ 101 ボディ 102 レンズ 103 光学的センサ・アレイ 105 マイクロフォン 106 透視チャネル
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/76 G10L 3/00 551G // H04N 101:00 571K (72)発明者 ポール・スチーブン・ハルバーソン アメリカ合衆国 ミネソタ州 55901 ロ チェスタ スカーボロー レーン エヌ・ ダブリュ 4438 Fターム(参考) 5C022 AA13 AC72 5C052 AB02 DD02 DD06 EE02 FA01 5C053 FA08 GB11 5D015 KK02

Claims (19)

    【特許請求の範囲】
  1. 【請求項1】ディジタル・カメラその他の光学的イメー
    ジを取り込む機能を有する装置であって、 光学的イメージをディジタル的に取り込む光学的センサ
    手段と、 前記光学的センサ手段により取り込まれた光学的イメー
    ジを記憶する記憶媒体と、 音声をディジタル的に取り込む音声センサ手段と、 前記音声センサ手段により取り込まれた音声を記号形式
    に変換する音声変換手段と、 前記記号形式データを前記取り込まれた光学的イメージ
    と関連付けて前記記憶媒体に記憶させるコントローラ
    と、 を含む装置。
  2. 【請求項2】前記コントローラが前記装置の動作を制御
    するためのコントロール・プログラムを実行するプログ
    ラム可能プロセッサを含む、請求項1記載の装置。
  3. 【請求項3】前記音声変換手段は、前記プログラム可能
    プロセッサが実行可能な複数の命令であって、組み込み
    音声変換アルゴリズムである命令により実現される、請
    求項2記載の装置。
  4. 【請求項4】前記音声変換手段が前記音声センサ手段に
    より取り込まれた前記音声を音素の記号形式を含む中間
    記号形式に変換し、 前記中間記号形式が前記装置とは別の装置によって自然
    言語テキストに変換される、 請求項1記載の装置。
  5. 【請求項5】ディジタル・カメラその他の光学的イメー
    ジを取り込む機能を有する装置で実行される方法であっ
    て、 前記装置の光学的センサ手段によって対象物の光学的イ
    メージをディジタル的に取り込むステップと、 前記装置の音声センサ手段によって音声をディジタル的
    に取り込むステップと、 前記装置の前記音声センサ手
    段によって取り込まれた音声を記号形式に変換するステ
    ップと、 前記記号形式データを前記取り込まれた光学的イメージ
    と関連付けて記憶するステップを含み、 前記音声を取り込むステップは、前記光学的イメージを
    取り込むステップと実質的に同時に実行される、 方法。
  6. 【請求項6】前記音声を記号形式に変換するステップ
    は、取り込まれた前記音声が音素の記号形式を含む中間
    記号形式に変換され、 前記中間記号形式が前記装置とは別の装置によって自然
    言語テキストに変換される、 請求項5記載の方法。
  7. 【請求項7】前記音声を記号形式に変換するステップは
    プログラム可能プロセッサが音声変換プログラムを実行
    することにより実現される、請求項5記載の方法。
  8. 【請求項8】前記プログラム可能プロセッサは、前記装
    置の動作を制御するためのコントロール・プログラムを
    実行し、 前記音声を記号形式に変換するステップは、前記コント
    ロール・プログラムが他のタスクに占有されていない時
    に前記プログラム可能プロセッサによってバックグラウ
    ンドで実行される、 請求項7記載の方法。
  9. 【請求項9】ディジタル・カメラその他の光学的イメー
    ジを取り込む機能を有する装置を制御するコンピュータ
    ・プログラムであって、前記装置に、 前記装置の光学的センサ手段によって対象物の光学的イ
    メージをディジタル的に取り込む手順と、 前記装置の音声センサ手段によって音声をディジタル的
    に取り込む手順と、 前記装置の前記音声センサ手段によって取り込まれた音
    声を記号形式に変換する手順と、 前記記号形式データを前記取り込まれた光学的イメージ
    と関連付けて記憶する手順を含み、 前記音声を取り込む手順は、前記光学的イメージを取り
    込む手順と実質的に同時に実行される、 コンピュータ・プログラム。
  10. 【請求項10】前記音声を記号形式に変換する手順で
    は、取り込まれた前記音声は音素の記号形式を含む中間
    記号形式に変換され、 前記中間記号形式が前記装置とは別の装置によって自然
    言語テキストに変換される、 請求項9記載のコンピュータ・プログラム。
  11. 【請求項11】ディジタル・カメラその他の光学的イメ
    ージを取り込む機能を有する第1の装置と、ディジタル
    ・イメージをフォーマットする機能を有する第2の装置
    を使用して、ディジタル・イメージを持った情報をレコ
    ードする方法であって、 前記第1の装置の光学的センサ手段によって対象物の光
    学的イメージをディジタル的に取り込むステップと、 前記第1の装置の音声センサ手段によって前記光学的イ
    メージに対応する音声セグメントをディジタル的に取り
    込むステップと、 前記第1の装置の音声変換手段によって前記装置の前記
    音声センサ手段によって取り込まれた音声セグメントを
    記号形式セグメントに変換するステップと、 前記光学的イメージと前記記号形式セグメントを前記第
    2の装置にアップロードするステップと、 前記第2の装置によって前記光学的イメージ及び対応す
    る前記記号形式セグメントをユーザによる目視のために
    フォーマットするステップを含み、 前記記号形式セグメントは対応する前記光学的イメージ
    と関連付けられて人間によって読み取り可能な形式で表
    示するためにフォーマットされる、 方法。
  12. 【請求項12】前記音声セグメントを記号形式セグメン
    トに変換するステップでは、取り込まれた前記音声を音
    素の記号形式を含む中間記号形式に変換され、 前記フォーマットするステップでは、前記中間記号形式
    を自然言語テキストに変換される、 請求項11記載の方法。
  13. 【請求項13】前記第2の装置は、ディジタル・イメー
    ジ・フォーマット・プログラムを実行する汎用ディジタ
    ル・コンピュータである、請求項11記載の方法。
  14. 【請求項14】前記フォーマットするステップは、フォ
    ーマットされたテキストを対応するディジタル・イメー
    ジとともに用紙上に印刷するステップを含む、請求項1
    1記載の方法。
  15. 【請求項15】前記フォーマットするステップは、フォ
    ーマットされたテキストを対応するディジタル・イメー
    ジとともにディジタル装置の出力スクリーンに表示する
    ステップを含む、請求項11記載の方法。
  16. 【請求項16】ディジタル・イメージをフォーマットす
    る機能を有する装置にディジタル・イメージを持った情
    報をレコードさせるコンピュータ・プログラムであっ
    て、前記ディジタル・イメージをフォーマットする機能
    を有する装置に、(a)ディジタル・カメラその他の光
    学的イメージを取り込む機能を有する第1の装置からデ
    ィジタル・イメージ及び前記第1の装置で取り込まれた
    音声セグメントを変換した記号形式セグメントを受け取
    る手順と、(b)前記ディジタル・イメージ及び前記記
    号形式セグメントをユーザによる目視のためにフォーマ
    ットする手順を実行させ、 前記記号形式セグメントは対応する前記ディジタル・イ
    メージと関連付けられて人間によって読み取り可能な形
    式で表示するためにフォーマットされる、 コンピュータ・プログラム。
  17. 【請求項17】前記記号形式セグメントは音素の記号形
    式を含む中間記号形式で表現された音声を含み、 前記フォーマットする手順は、前記中間記号形式を自然
    言語テキストに変換する手順を含む、 請求項16記載のコンピュータ・プログラム。
  18. 【請求項18】前記フォーマットする手順は、フォーマ
    ットされたテキストを対応するディジタル・イメージと
    ともに用紙上に印刷する手順を含む、請求項16記載の
    コンピュータ・プログラム。
  19. 【請求項19】前記フォーマットする手順は、フォーマ
    ットされたテキストを対応するディジタル・イメージと
    ともにディジタル装置の出力スクリーンに表示する手順
    を含む、請求項16記載のコンピュータ・プログラム。
JP2002019945A 2001-01-31 2002-01-29 テキスト形式の説明によってディジタル・イメージの質を向上させるための方法、装置及びプログラム Expired - Fee Related JP4113360B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/774731 2001-01-31
US09/774,731 US6970185B2 (en) 2001-01-31 2001-01-31 Method and apparatus for enhancing digital images with textual explanations

Publications (2)

Publication Number Publication Date
JP2002325225A true JP2002325225A (ja) 2002-11-08
JP4113360B2 JP4113360B2 (ja) 2008-07-09

Family

ID=25102099

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002019945A Expired - Fee Related JP4113360B2 (ja) 2001-01-31 2002-01-29 テキスト形式の説明によってディジタル・イメージの質を向上させるための方法、装置及びプログラム

Country Status (4)

Country Link
US (1) US6970185B2 (ja)
JP (1) JP4113360B2 (ja)
CA (1) CA2365463C (ja)
TW (1) TW583569B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3747737B2 (ja) * 2000-05-10 2006-02-22 日本電気株式会社 広域精細画像生成方法及びシステム並びにコンピュータ可読記録媒体
US7253919B2 (en) 2000-11-30 2007-08-07 Ricoh Co., Ltd. Printer with embedded retrieval and publishing interface
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7314994B2 (en) * 2001-11-19 2008-01-01 Ricoh Company, Ltd. Music processing printer
US7747655B2 (en) 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US6850247B1 (en) * 2002-01-06 2005-02-01 Apple Computer, Inc. Method and apparatus for image acquisition, organization, manipulation, and publication
US7289132B1 (en) 2003-12-19 2007-10-30 Apple Inc. Method and apparatus for image acquisition, organization, manipulation, and publication
JP2004032430A (ja) * 2002-06-26 2004-01-29 Fujitsu Ltd 制御装置及び制御プログラム
US20040085454A1 (en) * 2002-11-04 2004-05-06 Ming-Zhen Liao Digital camera capable of transforming the audio input to its picture immediately into a readable illustration and transmitting same
JP3922298B2 (ja) * 2003-02-05 2007-05-30 セイコーエプソン株式会社 画像処理装置
US8077341B2 (en) 2003-09-25 2011-12-13 Ricoh Co., Ltd. Printer with audio or video receiver, recorder, and real-time content-based processing logic
US7505163B2 (en) * 2003-09-25 2009-03-17 Ricoh Co., Ltd. User interface for networked printer
JP2005108230A (ja) 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
US7864352B2 (en) 2003-09-25 2011-01-04 Ricoh Co. Ltd. Printer with multimedia server
US7570380B2 (en) * 2003-09-25 2009-08-04 Ricoh Company, Ltd. Printer user interface
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
US8274666B2 (en) 2004-03-30 2012-09-25 Ricoh Co., Ltd. Projector/printer for displaying or printing of documents
JP2005345616A (ja) * 2004-06-01 2005-12-15 Canon Inc 情報処理装置及び情報処理方法
JP4429081B2 (ja) * 2004-06-01 2010-03-10 キヤノン株式会社 情報処理装置及び情報処理方法
US7352912B2 (en) * 2004-12-10 2008-04-01 Xerox Corporation Method for automatically determining a region of interest for text and data overlay
US8024658B1 (en) 2005-01-09 2011-09-20 Apple Inc. Application for designing photo albums
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US20090046306A1 (en) * 2007-08-13 2009-02-19 Green Darryl A Method and apparatus for ordering and printing annotated photographs
US8155698B2 (en) * 2009-03-25 2012-04-10 Embarq Holdings LLC System and method for storing and displaying data with digital images
KR101138604B1 (ko) 2010-06-23 2012-04-26 옥윤선 음성 자동인식/검색모듈을 구비한 카메라 및 이를 이용한 음성 자동인식/검색 방법
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US9588964B2 (en) 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US9412366B2 (en) * 2012-09-18 2016-08-09 Adobe Systems Incorporated Natural language image spatial and tonal localization
US10656808B2 (en) 2012-09-18 2020-05-19 Adobe Inc. Natural language and user interface controls
US9436382B2 (en) 2012-09-18 2016-09-06 Adobe Systems Incorporated Natural language image editing
US9141335B2 (en) 2012-09-18 2015-09-22 Adobe Systems Incorporated Natural language image tags
USD759668S1 (en) * 2014-01-13 2016-06-21 Samsung Electronics Co., Ltd. Display screen or portion thereof with graphical user interface
US10178291B2 (en) * 2014-07-23 2019-01-08 Orcam Technologies Ltd. Obtaining information from an environment of a user of a wearable camera system
KR102499203B1 (ko) * 2017-11-06 2023-02-13 삼성전자 주식회사 신뢰도에 기반하여 객체를 인식하는 전자 장치 및 방법
JPWO2021039057A1 (ja) * 2019-08-29 2021-03-04

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5969830A (ja) * 1982-10-14 1984-04-20 Toshiba Corp 文書音声処理装置
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
JP3185505B2 (ja) * 1993-12-24 2001-07-11 株式会社日立製作所 会議録作成支援装置
US5477511A (en) * 1994-07-13 1995-12-19 Englehardt; C. Duane Portable documentation system
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US6054990A (en) * 1996-07-05 2000-04-25 Tran; Bao Q. Computer system with handwriting annotation
US5995936A (en) * 1997-02-04 1999-11-30 Brais; Louis Report generation system and method for capturing prose, audio, and video by voice command and automatically linking sound and image to formatted text locations
GB9716690D0 (en) * 1997-08-06 1997-10-15 British Broadcasting Corp Spoken text display method and apparatus for use in generating television signals
US6282154B1 (en) * 1998-11-02 2001-08-28 Howarlene S. Webb Portable hands-free digital voice recording and transcription device
ATE375589T1 (de) * 2000-03-24 2007-10-15 Eliza Corp Web-gestützte spracherkennung durch scripting und semantische objekte
US6308154B1 (en) * 2000-04-13 2001-10-23 Rockwell Electronic Commerce Corp. Method of natural language communication using a mark-up language

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013534741A (ja) * 2010-06-02 2013-09-05 ナクソス ファイナンス エスエー 画像記録再生装置、及び画像記録再生方法

Also Published As

Publication number Publication date
CA2365463A1 (en) 2002-07-31
US20020101513A1 (en) 2002-08-01
JP4113360B2 (ja) 2008-07-09
CA2365463C (en) 2008-05-06
US6970185B2 (en) 2005-11-29
TW583569B (en) 2004-04-11

Similar Documents

Publication Publication Date Title
JP4113360B2 (ja) テキスト形式の説明によってディジタル・イメージの質を向上させるための方法、装置及びプログラム
JP4087400B2 (ja) 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4896838B2 (ja) 撮像装置、画像検出装置及びプログラム
US8527261B2 (en) Portable electronic apparatus capable of multilingual display
JP2009141555A (ja) 音声入力機能付き撮像装置及びその音声記録方法
CN101959011A (zh) 电子装置以及用于操作电子装置的方法
CN102316269A (zh) 成像控制设备、成像控制方法和程序
JP2007148691A (ja) 画像処理装置
JP2010081304A (ja) 撮影装置、撮影案内方法、及びプログラム
JP2010148132A (ja) 撮像装置、画像検出装置及びプログラム
JP5120716B2 (ja) 撮像装置、撮像制御方法及びプログラム
US6470151B1 (en) Camera, image correcting apparatus, image correcting system, image correcting method, and computer program product providing the image correcting method
JP3757565B2 (ja) 音声認識画像処理装置
JP4885792B2 (ja) ガイド装置及びガイド方法
US20090182548A1 (en) Handheld dictionary and translation apparatus
CN113822187A (zh) 手语翻译、客服、通信方法、设备和可读介质
JP2005346259A (ja) 情報処理装置及び情報処理方法
US20110014944A1 (en) Text processing method for a digital camera
JP2004301893A (ja) 音声認識装置の制御方法
JP4235635B2 (ja) データ検索装置及びその制御方法
WO2018235313A1 (ja) 撮像装置及び文字表示方法
US20100123797A1 (en) Imager for composing characters on an image
JP2005111987A (ja) プリンタ及びネットワークプリンタのためのユーザインタフェース
JP5182507B2 (ja) 撮影装置、撮影案内方法、及びプログラム
JP2006267934A (ja) 議事録作成装置および議事録作成処理プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050531

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070209

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080411

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110418

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120418

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130418

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees