JP2000194533A - 音声コマンド注釈方法 - Google Patents

音声コマンド注釈方法

Info

Publication number
JP2000194533A
JP2000194533A JP11352577A JP35257799A JP2000194533A JP 2000194533 A JP2000194533 A JP 2000194533A JP 11352577 A JP11352577 A JP 11352577A JP 35257799 A JP35257799 A JP 35257799A JP 2000194533 A JP2000194533 A JP 2000194533A
Authority
JP
Japan
Prior art keywords
voice
command
file
annotation
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11352577A
Other languages
English (en)
Inventor
Michael L Rudd
マイケル・エル・ラッド
Thomas C Oliver
トーマス・シー・オリバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2000194533A publication Critical patent/JP2000194533A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32128Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title attached to the image data, e.g. file header, transmitted message header, information on the same page or in the same computer file as the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42204Arrangements at the exchange for service or number selection by voice
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32122Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate device, e.g. in a memory or on a display separate from image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3212Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image
    • H04N2201/3222Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to a job, e.g. communication, capture or filing of an image of processing required or performed, e.g. forwarding, urgent or confidential handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3278Transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Facsimiles In General (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

(57)【要約】 【課題】デジタルカメラやポータブル・ドキュメントス
キャナのような装置によって捕捉されたデータを、音声
コマンド注釈を通して自動的にルーティングするシステ
ムを提供する。 【解決手段】本発明の一実施例によれば、装置によりイ
メージまたはドキュメントを捕捉した後、捕捉されたイ
メージまたはドキュメントの処置を制御するためユーザ
が装置内の音声ピックアップコンポーネントに話し掛け
ることによって、音声処置コマンドがなされる。音声入
力は装置内の音声コマンド注釈ファイルに記憶され、イ
メージまたはドキュメントファイルに関連づけられる。
イメージまたはドキュメントデータファイルをホストコ
ンピュータシステムにコピーすると、音声コマンド注釈
ファイルが自動的にそれにコピーされる。ホストコンピ
ュータシステムは音声コマンド注釈ファイルを処理し、
ファイル内に含まれる1つ以上のコマンドに関連づけら
れた1つ以上の命令を実行する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、デジタルカメラ、
携帯情報端末(PDA)、ラップトップコンピュータお
よびハンドヘルド・ドキュメントスキャナ等、データを
記憶すると共にそのデータをパーソナルコンピュータに
アップロードまたはコピーする装置に関する。特に、本
発明は、これら装置のうちの1つが取込んだデータにつ
いて、パーソナルコンピュータにアップロードまたはコ
ピーした時に自動データルーティングを行うための音声
コマンド注釈方法に関する。
【0002】デジタルカメラ、携帯情報端末(PD
A)、ラップトップコンピュータおよびハンドヘルド・
ドキュメントスキャナ等の多くの装置は、あらゆるソー
スから多くの異なるイメージまたはドキュメントを収集
する能力を有している。多くの場合、ユーザは、取込ん
だ各イメージまたはドキュメントを用いて異なるタスク
を行うことを望む。例えば、同僚または友人にファック
スまたは電子メールで送信するものもあれば、ワードプ
ロセッシング・ドキュメントの一部となるものもあり、
更に、特定のロケーションに記憶する必要があるものも
ある。通常、そのような装置は、周期的にパーソナルコ
ンピュータに接続され、その収集されたイメージデータ
ファイルまたはドキュメントデータファイルは、グルー
プとして装置からパーソナルコンピュータにコピーされ
るか、または個々にコピーされる。いずれの場合も、ユ
ーザは、コピーした後に特定のイメージデータファイル
またはドキュメントデータファイルの各々を調べて、そ
のイメージまたはドキュメントを処理するかまたは適切
な場所に送信するよう処置しなければならない。すなわ
ち、イメージAをこのフォーマットでここに保存する、
ドキュメントBをそのフォーマットでそこに保存する、
イメージCを電子メールのメッセージに添付する、ドキ
ュメントDを同僚にファックス送信する、等である。こ
れは、特に膨大な数のイメージデータファイルおよびド
キュメントデータファイルが取込まれている場合に、非
常に時間を浪費する処理となる可能性がある。更に、出
張等長期の期間に亙ってイメージおよびドキュメントを
収集する場合、その人は、それらをパーソナルコンピュ
ータにコピーして処理およびルーティングを行うまで、
各々についてどのような操作を行うつもりであったか正
確に覚えていることは難しい。大抵の場合、ある人が取
り込んだイメージまたはドキュメントの処置を決定する
最適な時は、それを取込んだ時である。このように、本
技術分野では、ユーザが、イメージまたはドキュメント
を処理または処置するための音声処置コマンドを用い
て、取込んだイメージまたはドキュメントにその取込ん
だ時に注釈を付けることができるようにする、改良され
た方法または装置が必要とされていることは明白であ
る。それにより、イメージデータファイルまたはドキュ
メントデータファイルは、パーソナルコンピュータにコ
ピーまたはアップロードされた時に、音声コマンド注釈
ファイルに格納された音声処置コマンドに従って自動的
に処理または処置されることとなる。本発明は、本技術
分野におけるこれらおよび他の必要を満たしている。
【0003】
【発明が解決しようとする課題】本発明の課題は、取込
んだイメージまたはドキュメントに注釈を、その取込み
時に付けることができるようにする方法を提供すること
にある。
【0004】
【課題を解決するための手段】本発明のある態様では、
装置に内蔵された音声ピックアップ・コンポーネントを
用いて、取込まれた各イメージまたはドキュメントにつ
いて、音声により処置コマンドを生成し、それらを音声
コマンド注釈ファイルに格納することができる。
【0005】本発明の他の態様では、イメージデータフ
ァイルまたはドキュメントデータファイルを、その対応
する音声コマンド注釈ファイルと共にホストコンピュー
タにコピーする。
【0006】また、本発明の他の態様では、関連するイ
メージデータファイルまたはドキュメントデータファイ
ルをホストコンピュータにコピーした後に、ホストコン
ピュータ内で上記音声コマンド注釈ファイルを自動的に
処理し、その音声コマンド注釈ファイル内の音声処置コ
マンドに対応する命令のセットを実行する。
【0007】更に、本発明の他の態様では、イメージデ
ータファイルまたはドキュメントデータファイルについ
て、音声処置コマンドおよび音声コマンド注釈ファイル
を、同じイメージデータファイルまたはドキュメントデ
ータファイルの記述的な音声注釈および音声注釈ファイ
ルと区別する。
【0008】本発明の他の態様では、装置内で音声分析
ソフトウェアを用いて音声処置コマンドを処理する。
【0009】本発明の他の実施の形態における更に他の
態様では、ホストコンピュータ内で音声分析ソフトウェ
アを用いて音声処置コマンドを処理する。
【0010】本発明の他の態様では、同じイメージデー
タファイルまたはドキュメントデータファイルに対し多
数の音声処置コマンドを作成し、その多数の音声処置コ
マンドを関連する音声コマンド注釈ファイルに格納す
る。
【0011】本発明の更に他の態様では、コピーされた
イメージデータファイルまたはドキュメントデータファ
イルに関連する音声コマンド注釈ファイルを処理し、そ
の音声コマンド注釈ファイル内の音声処置コマンドに関
連する命令を実行する。その場合、ユーザは、その命令
のセットを実行するために必要な追加のデータ入力を行
うよう要求される場合がある。
【0012】本発明の更に他の態様では、音声処置コマ
ンドと、取込まれて音声コマンド注釈ファイルに格納さ
れる音声データ入力とを区別する。なお、この音声コマ
ンド注釈ファイルに基づいて、音声処置コマンドに関連
する命令により処置が施されるようになっている。
【0013】本発明の上記および他の態様は、イメージ
またはドキュメントを取込み、それらをイメージデータ
ファイルまたはドキュメントデータファイルとして内部
メモリに格納する装置において実行される。これら装置
は、イメージまたはドキュメントが取込まれた時、イメ
ージデータファイルまたはドキュメントデータファイル
をホストコンピュータにコピーまたはアップロードした
後にそれらの処理および処置を制御する音声処置コマン
ドを、ユーザから受取ることができる。音声入力は、他
の種類のユーザインタフェースを設けるには十分なスペ
ースを有していない小さい装置に非常に適している。
【0014】例えば、ユーザは、ポータブル・ハンドヘ
ルド・ドキュメントスキャナによってドキュメントを走
査した後、ポータブルスキャナ内の音声ピックアップ・
コンポーネント(一般にはマイクロフォン)に向かって
音声を入力することにより、「ファックス」、「電子メ
ール」または「印刷および保存」等の音声処置コマンド
を作成することができる。音声ピックアップ・コンポー
ネントは、取込まれたオーディオ入力をアナログ信号に
変換する。そのアナログ信号は、アナログデジタル変換
器によってデジタル信号に変換される。また、そのデジ
タル信号は、コントローラが音声分析ソフトウェアにア
クセスして処理することにより認識パターンに変換され
る。そして、その認識パターンは、内部メモリに格納さ
れている予め決められた認識パターンのセットと比較さ
れる。それらに一致するものが無い場合、装置はユーザ
に、その音声処置コマンドが有効でないというメッセー
ジを出力する。これは、ユーザの音声入力が速すぎる
か、遅すぎるか、弱すぎるか、音声ピックアップ・コン
ポーネントから離れすぎているか、あるいは結果として
得られる認識パターンが音声分析ソフトウェアにおいて
設定されている許容値を超えるようなアクセントを含ん
でいる等の結果として起こる。もしくは、ユーザが、装
置によって認識されるようにセットアップされていない
コマンドに対する語を使用している場合がある。いずれ
の場合も、ユーザは、適切な音声処置コマンドを作成す
るよう再度試みることとなる。
【0015】有効な認識パターンは、コマンド数値また
はコマンドテキストに翻訳され、例えばポータブルスキ
ャナ内のメモリの音声コマンド注釈ファイルに格納され
る。そこでは、音声コマンド注釈ファイルは、ドキュメ
ントデータファイルに関連付けられている。そして、ド
キュメントデータファイルをホストコンピュータにコピ
ーする時、音声コマンド注釈ファイルもそのドキュメン
トデータファイルと共に自動的にコピーされ、ホストコ
ンピュータ内で実行されるファイル転送ソフトウェアに
よって検出される。このファイル転送ソフトウェアは、
音声コマンド注釈ファイルからコマンド数値またはコマ
ンドテキストを読出した後、そのコマンド数値またはコ
マンドテキストに関連する1以上の命令を実行する。本
発明の他の実施の形態では、音声処置コマンドは装置に
よって取込まれ、WAVファイル等の業界標準オーディ
オファイルフォーマットで格納される。そして、このW
AVファイルは、ドキュメントデータファイルと共にホ
ストコンピュータにコピーされる。その後、ホストコン
ピュータにおいてファイル転送ソフトウェアにより認識
パターンに変換され、ホストコンピュータ内のメモリに
保持されている予め決められた認識パターンのセットと
比較される。なお、この実施の形態によれば、装置内に
必要な計算量が低減されるが、音声コマンドが与えられ
た時にその有効性に関してユーザに即時にフィードバッ
クすることはできない。そして、何らかの理由により、
WAVファイルから生成される認識パターンがメモリ内
に保持されている予め決められた認識パターンのうちの
いずれとも一致しない場合、ユーザはWAVファイルの
内容を聞いてそのコマンドが何を意図していたのかを判
断し、そのコマンドをマニュアルで実行することができ
る。
【0016】本発明の異なる実施の形態では、それぞれ
があらゆるレベルの固有の精巧な部分を有している。1
つの実施の形態では、ファイル転送ソフトウェアが「電
子メール」等の音声処置コマンドを処理する時に、ユー
ザがイメージデータファイルまたはドキュメントデータ
ファイルを送信したいと思っている電子メールアドレス
にタイプ入力するよう求めるプロンプトが、ホストコン
ピュータのグラフィクス・ディスプレイに送信され出力
される。そして、ユーザが電子メールアドレスにタイプ
入力してエンターキーを押すと、ファイル転送ソフトウ
ェアはホストコンピュータ内の電子メールユーティリテ
ィにアクセスする。それにより、音声処置コマンドに関
連するドキュメントデータファイルが、ユーザが入力し
たアドレスに電子メールで送信される。音声コマンド注
釈ファイルのすべてのコマンドが実行されると、その音
声コマンド注釈ファイルは正常に削除される。
【0017】本発明の他の実施の形態では、「ビル・ジ
ョーンズにファックス」等の音声処置コマンドが、ホス
トコンピュータにおいてファイル転送ソフトウェアおよ
び音声分析ソフトウェアによって処理され、関連するイ
メージデータファイルまたはドキュメントデータファイ
ルをビル・ジョーンズにファックス送信することを意味
すると解釈される。ファイル転送ソフトウェアは、名前
およびファックス番号を含むホストコンピュータ内の適
当なデータベースからビル・ジョーンズを探索し、ビル・
ジョーンズのファックス番号を検索する。そして、ファ
イル転送ソフトウェアは、ホストコンピュータ内のファ
ックスユーティリティにアクセスする。これによって、
データベースから検索したファックス番号を用いて、音
声コマンド注釈ファイルに関連するイメージデータファ
イルまたはドキュメントデータファイルが、ビル・ジョ
ーンズにファックス送信される。音声コマンド注釈ファ
イルのすべてのコマンドが実行されると、その音声コマ
ンド注釈ファイルは正常に削除される。
【0018】本発明の更に他の実施の形態では、「41
87534にファックス」等の音声処置コマンドが、ホ
ストコンピュータにおいてファイル転送ソフトウェアお
よび音声分析ソフトウェアによって処理され、関連する
ドキュメントデータファイルをファックス電話番号41
8−7534にファックス送信することを意味すると解
釈される。そして、ファイル転送ソフトウェアは、ホス
トコンピュータ内のファックスユーティリティにアクセ
スする。それによって、音声コマンド注釈ファイルに関
連するドキュメントデータファイルが、418−753
4にファックス送信される。音声コマンド注釈ファイル
のすべてのコマンドが実行されると、その音声コマンド
注釈ファイルは正常に削除される。
【0019】本発明の更に他の実施の形態では、音声分
析ソフトウェアにより、ユーザの音声入力したコマンド
を認識するように装置がトレーニングされる。この音声
分析ソフトウェアは、装置内に配置されているか、また
は、ホストコンピュータシステムに配置されて、装置が
ホストコンピュータシステムにつながれている(tether
ed)時にアクセスされるようになっている。本発明の好
ましい実施の形態では、つなぎモード(tethered mod
e)を使用することにより、ホストコンピュータシステ
ムで使用可能なより大きい演算能力を利用し、装置内で
必要な計算量を低減する。
【0020】例えば、ユーザは、トレーニングモードに
おいて音声分析ソフトウェアを使用して、音声処置コマ
ンドによりファイル転送ソフトウェアが実行することの
できる予め決められた機能のリストにアクセスする。例
えば、コマンド1は、イメージデータファイルまたはド
キュメントデータファイルの印刷機能を実行するための
命令のセットを表している。トレーニングおよび分析の
ためにコマンド1を選択した場合、ユーザは、音声分析
ソフトウェアによって、ユーザがコマンド1の印刷機能
用の命令のセットを呼出すために使用したい語を選択す
るよう要求される。そして、ユーザは、その選択した語
を何回か繰返すよう要求される。論理的な選択としては
「印刷」という語が選択されるものであるが、ユーザが
選択し機能についてまだ使用していない任意の語を用い
ることも可能である。そして、「印刷」という語が繰返
されるたびにそれが装置によってピックアップされ、音
声分析ソフトウェアによって分析されることにより、認
識パターンが、印刷コマンドとして「印刷」という語を
音声入力するユーザの音声の変化および抑揚を包含する
ようになる。このようにしてあらゆる機能を起動するた
めにユーザが選択したすべての語の認識パターンは、ホ
ストコンピュータのメモリ内の機能認識テーブルに格納
される。この機能認識テーブル内の認識パターンは、あ
らゆる機能についての予め決められた命令のセットにリ
ンクされているコマンド数値またはコマンドテキストを
有しており、それらもまた、ホストコンピュータ内のメ
モリに格納されている。このように、音声入力された音
声処置コマンド語がファイル転送ソフトウェアによって
認識された時、その認識パターンに関連するコマンド数
値またはコマンドテキストを用いて、そのコマンド数値
またはコマンドテキストによって表される機能に対する
命令のセットにアクセスされる。この実施の形態によれ
ば、音声処置コマンド語として外国語を使用することも
可能である。それは、機能に対する命令のセットが、コ
マンド数値またはコマンドテキスト、ユーザが選択した
語、およびその選択した語に続くトレーニングおよび音
声分析に結び付けられているためである。
【0021】本発明の他の実施の形態では、トレーニン
グおよび音声分析のためにユーザに語の選択が与えられ
ない。機能認識テーブルの認識パターンは予め決められ
ており、ユーザが使用しなければならない特定のコマン
ド語に結び付けられている。例えば印刷の場合、装置
が、ユーザが音声入力したようにコマンド語を認識して
印刷コマンドに関連する命令のセットを呼出すまで、ユ
ーザは「印刷」というコマンド語の発音を修正しなけれ
ばならない。このため、本実施の形態では、装置に対
し、コマンド語がその結果の動作を暗示するかまたは直
感的に示している特定の言語が最初に指定されている。
結果として得られる動作を暗示するかまたは直感的に示
す外国語の語を使用するユーザに対して、装置の外国語
版を用意することができる。
【0022】本装置は、コントローラによって制御され
る音声オーディオ入力/出力システムを有している。コ
ントローラは、音声処置コマンドを受信すると、そのデ
ジタル化した音声入力をダイナミック・メモリに保存す
る。そして、そのコマンドを処理して、その音声処置コ
マンドの認識パターンをスタティック・メモリに保持さ
れた機能認識テーブルに格納されている認識パターンと
比較する。それらに一致が見つかった場合、認識パター
ンのコマンド数値またはコマンドテキストは、スタティ
ック・メモリ内の音声コマンド注釈ファイルに格納され
る。あるいは、装置内で比較ステップが実行されない場
合、コントローラは、WAVファイル等のオーディオフ
ァイルフォーマットで音声処置コマンドの音声入力を格
納する。それにより、そのWAVファイルが、その関連
するイメージデータファイルまたはドキュメントデータ
ファイルと共にホストコンピュータにコピーされる。
【0023】音声注釈は、取込まれたデータの処置を決
定するという問題に対してある程度の解決法ではある。
イメージまたはドキュメントが取込まれた時、音声記述
はオーディオファイルフォーマットで取込まれ、音声注
釈ファイルに格納され、イメージデータファイルまたは
ドキュメントデータファイルと関連付けられる。ユーザ
は、そのドキュメントまたはイメージが何であるかおよ
びその所望の処置を指示する。しかしながら、そのよう
に注釈されたイメージデータファイルまたはドキュメン
トデータファイルの各々は、ホストコンピュータにコピ
ーされ、添付の音声注釈ファイルが有効でない場合に、
ユーザかまたはユーザを補助する他の人によってその内
容が再生して聞かれた後に、処理する必要がある。
【0024】取込んだドキュメントおよびイメージの音
声注釈を可能とする装置として、本発明の装置は、音声
処置コマンドを音声注釈とは区別する。音声制御コマン
ドを受取って装置の動作を制御することができる装置で
は、ある音声制御コマンドを使用して、装置が音声注釈
用の音声入力を受取ることができ、別の音声制御コマン
ドを使用して、装置が音声処置コマンド用の音声入力を
受取ることができる。本発明の他の実施の形態では、テ
ープレコーダの録音ボタンに似た使用のパラダイムが利
用される。すなわち、装置のあるボタンを押下してその
まま押え続けると、続く音声入力が音声処置コマンドを
目的とするものであって音声注釈または音声制御コマン
ドを目的とするものではない、ということを意味するこ
ととなる。また、装置の他のボタンを押下してそのまま
押え続けると、続く音声入力が音声注釈を目的とするも
のであって音声処置コマンドまたは音声制御コマンドを
目的とするものではない、ということを意味することと
なる。いずれかのボタンを使用して音声入力が終了する
とユーザはボタンを解除する。そして、取込まれた音声
入力は、いずれのボタンが押下されたかに従って、装置
によって処理され、音声注釈ファイルまたは音声コマン
ド注釈ファイルとして現イメージデータファイルまたは
ドキュメントデータファイルに関連付けられる。
【0025】本発明の上述したおよび他の態様、特徴お
よび利点について、添付している図面と共に示す本発明
についての以下のより詳細な記述を読むことによって、
より理解されるであろう。
【0026】
【発明の実施の形態】以下の説明は、本発明を実行する
目下考えられる最良態様を説明するものである。この説
明は、限定的な意味で捉えられるべきものではなく、単
に本発明の一般的原理を説明することを目的とするもの
である。本発明の範囲は、添付の特許請求の範囲を参照
することによって判断されるべきである。
【0027】図1は、本発明の装置のブロック図を示し
ている。同図において、装置100は、装置100上の
いくつかの制御ボタン120の1つである電源ボタンを
押下することにより、電源が投入される。装置100
は、内部電池(図1に図示せず)から、もしくは、装置
100に接続されると共に電源(図1に図示せず)にプ
ラグ接続された電力ケーブルを介して、電力が供給され
る。また、装置100は、音声コマンドによって電源が
投入されるようにしてもよい。
【0028】ユーザは、装置100を、イメージピック
アップ・コンポーネント112がイメージまたはドキュ
メントを取込むように動作させる。ポータブル・ハンド
ヘルド・ドキュメントスキャナの場合、ユーザは、イメ
ージピックアップ・コンポーネント112が走査対象の
ドキュメントの表面の一部またはすべてに接触するよう
に、スキャナを移動させる。イメージピックアップ・コ
ンポーネント112は、ドキュメントの表面から光学的
に標本点を読取り、標本化された各点についてグレイス
ケール値を生成する。コントローラ106は、それら標
本点のグレイスケール値を受取り、それらをアセンブル
してイメージアレイにする。その結果は、コントローラ
106に接続されたディスプレイ114に出力され、走
査されたドキュメントの表面の視覚的表現が表示され
る。また、コントローラ106は、表示または格納する
ためにグレイスケール値をバイナリ形式に変換してもよ
い。イメージアレイは、グレイスケールまたはバイナリ
形式のいずれであっても、コントローラ106から渡さ
れてドキュメントデータファイルとしてスタティック・
メモリ116に格納される。当業者には、上述したこと
が、標本点に対しRGB値を利用してカラーイメージを
取込むことができる装置に対しても適用することができ
るということが認められるであろう。
【0029】ポータブル・ハンドヘルド・デジタルカメラ
の場合、ユーザは、デジタルカメラを所望の対象または
シーンに向け、制御ボタン120の1つを押下して、そ
の対象またはシーンから反射してイメージピックアップ
・コンポーネント112に投射される光を取込んで記録
させる。コントローラ106は、ピクチャイメージを固
定数の画素に細分化し、各画素の光の強度をテストし、
その強度を数値に変換する。カラーデジタルカメラの場
合、各画素における赤、緑および青の量を表す3つの数
値が生成される。それら画素はアセンブルされてイメー
ジアレイとなり、スキャナの場合と同様に、その結果を
ディスプレイ114に出力して対象またはシーンの視覚
的表現を表示することができる。このイメージアレイ
は、モノクロまたはカラーのいずれの場合でも、コント
ローラ106から渡されてイメージデータファイルとし
てスタティック・メモリ116に格納される。
【0030】一方、ユーザが音声ピックアップ・コンポ
ーネント102に近づいて音声入力することにより、ド
キュメントデータファイルまたはイメージデータファイ
ルのいずれかについての音声処置コマンドが与えられ
る。音声ピックアップ・コンポーネント102は、ユー
ザの音声入力をアナログ信号に変換する。また、音声ピ
ックアップ・コンポーネント102にはアナログデジタ
ル変換器104が接続されており、このアナログデジタ
ル変換器104は、音声ピックアップ・コンポーネント
102が生成するアナログ信号をデジタル信号に変換す
る。このデジタル信号は、アナログデジタル変換器10
4によってコントローラ106に送信され、そこでダイ
ナミック・メモリ118に格納される。そして、本発明
の好ましい実施の形態では、コントローラ106は、ス
タティック・メモリ116に格納されている音声分析ソ
フトウェア124にアクセスする。音声分析ソフトウェ
ア124は、ダイナミック・メモリ118に格納された
デジタル信号について一連の周波数領域変換を実行し、
スペクトル変換である認識パターンを生成する。当業者
には、本発明において、スペクトル変換の代りに音声パ
ターンを認識する他の任意の適した方法を使用すること
ができるということが認められるであろう。
【0031】上記認識パターンは、スタティック・メモ
リ116内の機能認識テーブル126に格納されている
認識パターン(同様にスペクトル変換)と比較される。
本発明の他の実施の形態では、機能認識テーブル126
は装置100内ではなく、ホストコンピュータシステム
200内に格納されている。
【0032】上記比較においていずれかが一致した場
合、コントローラ106は、機能認識テーブル126内
に見出されダイナミック・メモリ118内の一致した認
識パターンに関連付けられたコマンド数値またはコマン
ドテキストを、音声コマンド注釈ファイルに格納する。
いずれも一致していない場合、コントローラ106は、
ユーザに対し、入力された音声処置コマンドが有効でな
いことを示す。これは、メッセージを送信してディスプ
レイ114に出力することによって行うことができる。
あるいは、警報または言葉からなる可聴メッセージをユ
ーザに出力してもよい。また、デジタルアナログ変換器
108は、コントローラ106からのデジタル出力信号
をアナログ信号に変換し、スピーカ110は、そのアナ
ログ信号をオーディオ出力に変換する。
【0033】本発明の好ましい実施の形態において、ユ
ーザは、装置100によってドキュメントを取込んだ
後、音声ピックアップ・コンポーネント102に音声入
力して、音声処置コマンド、音声注釈を作成し、または
音声制御コマンドを発行することができる。本発明の1
つの実施の形態では、音声入力に対して上記3つの異な
る目的を区別するために、ユーザは、音声入力する前に
制御ボタン120のうちの1つを押下してそのまま押え
続ける。制御ボタン120のうちの1つは、音声処置コ
マンドを作成するためのものであり、制御ボタン120
のうちの他のものは、音声注釈を作成するためのもので
ある。これら制御ボタン120のいずれも押下しない場
合の音声入力は、音声制御コマンド入力として処理され
る。いずれの場合も、制御ボタン120のいずれかを押
下すると、ボタンの押下を示す入力がコントローラ10
6に送信され、続く音声入力のストリームが、いずれの
制御ボタン120が押下されたかにより音声処置コマン
ドまたは音声注釈のいずれかであって、音声制御コマン
ド入力ではない、ということが示される。ユーザは、音
声入力し終わった後、押下していた制御ボタン120の
うちの1つを解除する。これにより、ボタンの解除を示
す入力がコントローラ106に送信され、コントローラ
106は、音声処置コマンドまたは音声注釈のいずれか
に対しその音声入力の終端をマークする。取込まれた音
声入力のストリームは、いずれの制御ボタン120が押
下されたかにより、音声コマンド注釈ファイルとして、
あるいは音声注釈ファイルとして格納され、取込まれた
イメージデータファイルまたはドキュメントデータファ
イルと関連付けられて、装置100内のスタティック・
メモリ116に格納される。上記のようにイメージデー
タファイルまたはドキュメントデータファイルを、関連
する音声コマンド注釈ファイルまたは音声注釈ファイル
に関連付ける方法の1つは、それらファイルに同じファ
イル名を与えると共に異なるファイルの拡張子を与える
という方法である。従って、1つの音声コマンド注釈フ
ァイルに、1つのイメージデータファイルまたは1つの
ドキュメントデータファイルについて多数の音声処置コ
マンドを格納することができる。あるいは、多数の音声
コマンド注釈ファイルを、1つのイメージデータファイ
ルまたは1つのドキュメントデータファイルに関連付け
ることも可能である。また、制御ボタン120の1つと
して、音声制御コマンドを受信するためにユーザが押下
する制御ボタンを設けるようにしてもよい。
【0034】本発明の他の実施の形態では、音声処置コ
マンドを作成するための音声制御コマンド、および音声
注釈を作成するための音声制御コマンドが使用される。
いずれかの音声制御コマンドを発行した後、続く音声入
力のストリームが取込まれて、音声コマンド注釈ファイ
ルまたは音声注釈ファイルのいずれかとして格納され、
イメージデータファイルまたはドキュメントデータファ
イルに関連付けられる。そして、ユーザが所定の時間
(例えば2〜5秒の間)を超えて音声入力を停止してい
る場合、装置は、そのような音声入力の無い所定の時間
を音声入力のストリームの終端をマークするものと解釈
する。
【0035】音声ピックアップ・コンポーネント102
にある種の音声入力が受信されると、その音声入力は、
アナログ信号に変換される。アナログデジタル変換器1
04は、音声ピックアップ・コンポーネント102が生
成したアナログ信号をデジタル信号に変換し、そのデジ
タル信号をコントローラ106に送信する。コントロー
ラ106は、そのデジタル信号を音声制御コマンド入力
として処理するか、または、そのデジタル信号を処理し
て、イメージデータファイルまたはドキュメントデータ
ファイルをいずれかの種類の注釈ファイルに関連付け
て、スタティック・メモリ116内の音声コマンド注釈
ファイルもしくは音声注釈ファイルに格納する。
【0036】ユーザは、装置100が音声コマンド注釈
ファイルまたは音声注釈ファイルの内容を再生するよう
要求することができる。コントローラ106は、要求さ
れたいずれかのファイルをスタティック・メモリ116
から検索し、それをデジタルアナログ変換器108に渡
す。そして、デジタルアナログ変換器108は、ファイ
ルに格納されたデジタル信号をアナログ信号に変換す
る。このアナログ信号はスピーカ110に渡され、そこ
でオーディオ出力が生成される。更に、あるコマンドに
ついての特定の命令のセットにより、ユーザに対し、そ
のコマンドを受取ったことを、可聴出力を送信すること
によりデジタルアナログ変換器108およびスピーカ1
10を使用して知らせるか、または発光ダイオード(L
ED)(図1に図示せず)を点けることによりそのコマ
ンドを知らせることができる。
【0037】イメージデータファイル、ドキュメントデ
ータファイル、音声注釈ファイルおよび音声コマンド注
釈ファイルは、コントローラ106に接続されたホスト
コネクション122を介して、ホストコンピュータシス
テム200(図2)等の他の装置にコピーすることがで
きる。
【0038】図2は、本発明の装置と通信するホストコ
ンピュータシステムのブロック図を示している。同図に
おいて、ホストコンピュータシステム200は、演算処
理装置202を備えている。演算処理装置202は、シ
ステムバス204を介してホストコンピュータシステム
200の他の要素と通信する。キーボード206によ
り、ユーザがホストコンピュータシステム200内に情
報を入力することができ、グラフィクス・ディスプレイ
210により、ホストコンピュータシステム200がユ
ーザに対して情報を出力することができる。また、マウ
ス208を用いて情報を入力することもでき、記憶装置
212を用いて、ホストコンピュータシステム200内
にデータおよびプログラムを格納することができる。通
信インタフェース214は、同様にシステムバス204
に接続されており、装置100(図1)のホストコネク
ション122から情報を受信する。スピーカ/サウンド
カード216は、システムバス204に接続されてお
り、オーディオ情報をユーザに出力する。なお、ホスト
コンピュータシステムによってはサウンドカードを有し
ていない場合があるが、その場合、スピーカはソフトウ
ェアによってのみ駆動される。メモリ218は、同様に
システムバス204に接続されており、オペレーティン
グシステム220、ファイル転送ソフトウェア222、
音声分析ソフトウェア224、ユーザインタフェースプ
ログラム226、オーディオファイル変換ソフトウェア
228および機能認識テーブル230を格納している。
本発明の他の実施の形態では、機能認識テーブル230
はホストコンピュータシステム200ではなく、装置1
00に格納されている。
【0039】ファイル転送ソフトウェア222は、ホス
トコネクション122(図1)によって装置100から
コピーされるイメージデータファイル、ドキュメントデ
ータファイル、音声コマンド注釈ファイルおよび音声注
釈ファイルを、通信インタフェース214およびシステ
ムバス204を介して受信し、それらを記憶装置212
に保存する。そして、ファイル転送ソフトウェア222
は、記憶装置212にコピーされたすべての音声コマン
ド注釈ファイルの処理を開始する。
【0040】本発明の実施の形態では、音声コマンド注
釈ファイルがWAVフォーマットであるため、ファイル
転送ソフトウェア222は、まずその音声コマンド注釈
ファイルを処理して、それに含まれるコマンドの各々に
ついて認識パターンを生成する。ファイル転送ソフトウ
ェア222は、音声コマンド注釈ファイルから生成され
た上記認識パターンを、機能認識テーブル230に格納
された認識パターンと比較する。その結果いずれかが一
致している場合、ファイル転送ソフトウェア222は、
機能認識テーブル230内に見出された認識パターンに
ついて、コマンド数値またはコマンドテキストに関連す
る命令のセットの実行を開始する。本発明の実施の形態
では、装置100が音声処置コマンド入力の音声分析を
実行するため、コピーされた音声コマンド注釈ファイル
からのコマンド数値またはコマンドテキストがファイル
転送ソフトウェア222によってアクセスされ、対応す
る命令のセットが実行される。
【0041】また、ユーザインタフェースプログラム2
26により、ユーザは、音声注釈ファイルを有するイメ
ージデータファイルまたはドキュメントデータファイル
を選択することができる。オーディオファイル変換ソフ
トウェア228は、音声注釈ファイルを、スピーカ/サ
ウンドカード216が認識可能なオーディオファイルフ
ォーマットに変換する。スピーカ/サウンドカード21
6は、オーディオ情報をユーザに出力する。ユーザは、
オーディオ情報を聞いた後、イメージデータファイルま
たはドキュメントデータファイルを表示するよう選択す
ることができる。そのように選択した場合、ユーザイン
タフェースプログラム226は一時停止し、そのイメー
ジデータファイルまたはドキュメントデータファイルに
関連付けられたアプリケーションプログラムが呼出さ
れ、イメージデータファイルがグラフィクス・ディスプ
レイ210に表示される。
【0042】本発明の好ましい実施の形態では、ユーザ
が、音声分析ソフトウェア224を使用することによ
り、あらゆる言語によるユーザの音声処置コマンドおよ
び音声制御コマンドを認識するよう、装置100をトレ
ーニングすることができる。まず、装置100がホスト
コンピュータシステム200に接続される。そして、ユ
ーザは、音声分析ソフトウェア224にアクセスし、ト
レーニングする特定の機能を選択する。この機能は、ユ
ーザがそれを起動するために選択した語によって表され
るべき、特定の機能である。そして、ユーザは、その機
能を起動するために選択した語を何回か繰返す。ユーザ
が選択する可能性の最も高い語は、ユーザが何語で音声
入力するかに関わらず、選択された特定の機能に相当す
るかまたは最も近い語である。ユーザがその機能につい
ての語を繰返すと、その語は、音声ピックアップ・コン
ポーネント102(図1)によって取込まれ、装置10
0によって処理されてデジタル信号となり、ホストコネ
クション122を介して通信インタフェース214に転
送される。通信インタフェース214は、各デジタル信
号をシステムバス204を介してメモリ218に転送
し、そこで音声分析ソフトウェア224が各デジタル信
号を分析する。音声分析ソフトウェア224は、各標本
信号の組合せに基づいて、認識パターンを発展させ、機
能を起動するために選択した語を音声入力するユーザの
音声の変化および抑揚を包含するようになる。この処理
は、装置100によって音声処置コマンドを発行するた
めに使用することができる予め決められた機能の各々に
ついて、繰返される。トレーニングのために選択された
すべての語について確立された認識パターンは、機能認
識テーブル230に格納され、一意のコマンド数値また
はコマンドテキストに関連付けられる。本発明の実施の
形態により、音声処置コマンドについての機能認識テー
ブルは、ホストコンピュータシステム200から装置1
00にダウンロードされてスタティック・メモリ116
に格納されるか、またはホストコンピュータシステム2
00に保持される。
【0043】図3は、装置内で音声処置コマンドに基づ
いて音声分析を実行しない場合の本発明の装置の実施の
形態のフローチャートを示している。同図を参照する
と、ステップ300において、装置100(図1)に電
源が投入される。次いで、ステップ302において、装
置100により最初のイメージまたはドキュメントが取
込まれ、イメージデータファイルまたはドキュメントデ
ータファイルとしてスタティック・メモリ116(図
1)に格納される。次いで、ステップ304において、
ステップ302において格納されたイメージデータファ
イルまたはドキュメントデータファイルについて音声処
置コマンドを作成すべきであるという指示が、コントロ
ーラ106(図1)に受信されているか否かが判断され
る。そのような指示は、コントローラ106が、音声処
置コマンドについて制御ボタン120(図1)のうちの
1つからボタンの押下を示す入力を受信することによっ
て作成することができる。あるいは、音声処置コマンド
を作成するために、コントローラ106が音声制御コマ
ンド入力を受信することも可能である。ステップ304
においてそのような指示が受信されていない場合、制御
はステップ314に移る。
【0044】ステップ304において音声処置コマンド
を作成するという指示が受信されている場合、ステップ
306において、音声ピックアップ・コンポーネント1
02(図1)が、音声処置コマンド入力を取込む。次い
で、ステップ308において、音声ピックアップ・コン
ポーネント102が、音声処置コマンド入力をアナログ
信号としてアナログデジタル変換器104に出力する。
次に、ステップ310において、アナログデジタル変換
器104が、アナログ信号をデジタル信号に変換し、そ
のデジタル信号をコントローラ106に出力する。次い
で、ステップ312において、コントローラ106が、
そのデジタル信号をWAVファイル等のオーディオファ
イルフォーマットでスタティック・メモリ116に格納
する。このWAVファイルと、音声注釈コマンドが作成
されたイメージデータファイルまたはドキュメントデー
タファイルとは、互いに関連付けられている。そのよう
に関連付ける方法の1つは、両ファイルに同じファイル
名を与えると共に異なるファイルの拡張子を与えるとい
う方法である。同じイメージデータファイルまたはドキ
ュメントデータファイルが音声注釈ファイルと音声コマ
ンド注釈ファイルの両方を有することができるため、音
声注釈ファイルは、音声コマンド注釈ファイルと異なる
ファイルの拡張子を有するが、3つすべてが同じファイ
ル名を有する。従って、「???????.WAV.ONE」等のよう
にファイルの拡張子に拡張子を付加するか、または「??
?????.WAV1」等のようにファイルの拡張子にパラメータ
を付加することにより、多数の音声コマンド注釈ファイ
ルを1つのイメージデータファイルまたはドキュメント
データファイルに関連付けることができる。
【0045】次に、ステップ314において、別のイメ
ージまたはドキュメントを取込むという指示がコントロ
ーラ106に受信されているか否かが判断される。その
ような指示が受信されている場合、制御はステップ30
2に戻り、次のイメージまたはドキュメントが取込まれ
格納される。一方、ステップ314において別のイメー
ジまたはドキュメントを取込むという指示がコントロー
ラ106に受信されていない場合、ステップ316にお
いて、取込まれたイメージデータファイル、ドキュメン
トデータファイル、音声注釈ファイルおよび音声コマン
ド注釈ファイルが、ホストコネクション122(図1)
および通信インタフェース214(図2)を利用する確
立されたコネクションを介して、装置100からホスト
コンピュータシステム200にコピーされる。このよう
なコネクションは、ワイヤケーブルまたは赤外線等の任
意の適したコネクションによることができる。また、す
べてのファイルをコピーすることも可能であり、あるい
は、ユーザが個々に選択したファイルのみをコピーする
ことも可能である。イメージデータファイルまたはドキ
ュメントデータファイルがコピーされる時はいつでも、
関連する音声注釈ファイルまたは音声コマンド注釈ファ
イルがそのイメージデータファイルまたはドキュメント
データファイルと共に自動的にコピーされる。なお、当
業者は、ユーザがイメージまたはドキュメントを取込み
ながら旅行して帰宅し、その後データをホストコンピュ
ータシステム200にコピーし始める場合等、ステップ
314とステップ316との間に相当の時間が経過する
場合があることを認めるであろう。以上のようにファイ
ルをホストコンピュータシステム200にコピーした
後、装置100は電源が切られ、その動作が終了する。
【0046】図4Aおよび図4Bは、図3の装置からコ
ピーされた音声コマンド注釈ファイルに含まれる音声処
置コマンドに基づいて音声分析を実行するホストコンピ
ュータのフローチャートを示している。同図を参照する
と、ステップ400において、ファイル転送ソフトウェ
ア222および音声分析ソフトウェア224が、ホスト
コンピュータシステム200(図2)のメモリ218に
ロードされる。次いで、ステップ402において、ホス
トコンピュータシステム200は、図3のステップ31
6における処理により、イメージデータファイル、ドキ
ュメントデータファイル、音声注釈ファイルおよび音声
コマンド注釈ファイルをメモリ218に受信する。そし
て、ファイル転送ソフトウェア222が、ステップ40
2で受信した最初の音声コマンド注釈ファイルの処理を
開始する。次に、ステップ406において、音声分析ソ
フトウェア224が呼出され、最初の音声コマンド注釈
ファイルに格納された最初のデジタル信号に対して一連
の周波数領域変換が実行され、そのデジタル信号に対す
る認識パターンが生成される。次いで、ステップ408
において、ファイル転送ソフトウェア222が、ステッ
プ406で生成された認識パターンを、メモリ218に
格納された機能認識テーブル230(図2)内の機能を
表す複数の認識パターンと比較する。次に、ステップ4
10において、ステップ406で生成された認識パター
ンと機能認識テーブル230に格納されている認識パタ
ーンのいずれかとが一致しているか否かが判断される。
ここで、有効な音声コマンド注釈について一致したもの
が無い理由には、ユーザの音声入力が速すぎるか、遅す
ぎるか、弱すぎるか、音声ピックアップ・コンポーネン
ト102から離れすぎているか、あるいは、結果として
得られる認識パターンが音声分析ソフトウェアにおいて
設定されている許容範囲を超えるようなアクセントを含
んでいるといったことがある。ステップ410において
一致したものが見つからなかった場合、ステップ412
において図4Bの処理が呼出され、ユーザに対し、自動
的に実行されるよう予定されていたステップをマニュア
ルで実行する機会が与えられる。図4Bの処理から戻っ
た後、制御はステップ416に移る。
【0047】一方、ステップ410において一致したも
のが見つかった場合、ステップ414において、機能認
識テーブル230に格納された認識パターンに関連す
る、機能認識テーブル230に格納されたコマンド数値
またはコマンドテキストを使用して、そのコマンド数値
またはコマンドテキストによって表される機能について
1つの命令または命令のセットにアクセスする。この命
令のセットもまた、機能認識テーブル230に格納され
ている。そして、ファイル転送ソフトウェア222が、
その命令のセットを実行する。
【0048】次に、ステップ416において、最初の音
声コマンド注釈ファイル内に、更に比較する必要のある
認識パターンがあるか否かが判断される。その判断結果
が「yes」である場合、制御はステップ408に戻
り、次の認識パターンが機能認識テーブル230の認識
パターンと比較される。一方、ステップ416において
比較する認識パターンが無い場合、ステップ418にお
いて、更に処理すべき音声コマンド注釈ファイルがある
か否かが判断される。処理すべき音声コマンド注釈ファ
イルがある場合、制御はステップ404に戻る。一方、
ステップ418において処理すべき音声コマンド注釈フ
ァイルが無い場合、制御はオペレーティングシステム2
20に戻る。
【0049】図4Bの処理は、図4Aのステップ412
で呼出される。ステップ420において、一致するもの
が無いという指示がユーザに対して出力される。この指
示は、グラフィクス・ディスプレイ210に出力される
テキストメッセージ、もしくはスピーカ/サウンドカー
ド216(図2)に出力されるオーディオメッセージで
もよい。次いで、ステップ422において、一致するも
のが無かったオーディオファイルの内容を聞くようユー
ザが選択することができるプロンプトが、ユーザに出力
される。次いで、ステップ424において、ユーザによ
るオーディオファイルを再生するという要求を示す入力
が受信されたか否かが判断される。受信されていない場
合、制御は図4Aのステップ416に戻る。一方、ユー
ザから再生を選択したという入力を受信した場合、ステ
ップ426において、オーディオファイル変換ソフトウ
ェア228が呼出され、ステップ404で処理された音
声コマンド注釈ファイルの内容が再生される。
【0050】音声コマンド注釈ファイルに格納された音
声コマンド注釈を聞いた後、ステップ428において、
ステップ406で生成された認識パターンが機能認識テ
ーブルに格納されたいずれかの認識パターンに一致した
場合に自動的に実行される操作を、ユーザがマニュアル
で実行するよう選択することができるプロンプトが、ユ
ーザに対して出力される。次いで、ステップ430にお
いて、ユーザによる操作をマニュアルで実行するという
要求を示す入力が受信されたか否かが判断される。受信
されていない場合、制御は図4Aのステップ416に戻
る。一方、ユーザから、操作をマニュアルで実行するこ
とを選択したという入力が受信された場合、ステップ4
32において、ユーザは所望の操作をマニュアルで実行
する。ユーザがそれら操作を実行した後、制御は図4A
のステップ416に戻る。
【0051】例えば、ステップ426での再生時に、ユ
ーザが「ビル・ジョーンズにファックス」というオーデ
ィオ出力を聞いたものとする。そして、ユーザがステッ
プ428のプロンプトに応じてステップ430において
マニュアル操作を実行するよう選択した場合、ステップ
432において、ユーザはマニュアルで、ファックスユ
ーティリティにアクセスし、ビル・ジョーンズのファッ
クス番号を入力し、音声コマンド注釈ファイルに関連す
るイメージデータファイルまたはドキュメントデータフ
ァイルをファックス送信する。
【0052】図5Aおよび図5Bは、装置内で音声処置
コマンドに基づいて音声分析を実行する本発明の装置の
実施の形態のフローチャートを示している。これらの図
を参照すると、ステップ500において、装置100
(図1)に電源が投入される。ステップ502におい
て、装置100により最初のイメージまたはドキュメン
トが取込まれ、イメージデータファイルまたはドキュメ
ントデータファイルとしてスタティック・メモリ116
(図1)に格納される。次いで、ステップ504におい
て、ステップ502において格納されたイメージデータ
ファイルまたはドキュメントデータファイルに対し音声
処置コマンドを作成すべきであるという指示がコントロ
ーラ106に受信されているか否かが判断される。その
ような指示は、コントローラ106が、音声処置コマン
ドについて制御ボタン120(図1)のうちの1つから
ボタンの押下を示す入力を受信することによって作成す
ることができる。あるいは、音声処置コマンドを作成す
るために、コントローラ106が音声制御コマンドを受
信することも可能である。
【0053】ステップ504においてそのような指示が
受信されていない場合、制御はステップ526に移る。
一方、ステップ504において音声処置コマンドを作成
するという指示が受信されている場合、ステップ506
において、音声ピックアップ・コンポーネント102
(図1)が、最初の音声処置コマンド入力を取込む。次
いで、ステップ508において、音声ピックアップ・コ
ンポーネント102が、音声処置コマンド入力をアナロ
グ信号としてアナログデジタル変換器104(図1)に
出力する。次いで、ステップ510において、アナログ
デジタル変換器104が、アナログ信号をデジタル信号
に変換し、そのデジタル信号をコントローラ106に出
力する。
【0054】次に、ステップ512において、コントロ
ーラ106が、スタティック・メモリ116(図1)内
の音声分析ソフトウェア124を呼出して、最初の音声
コマンド注釈ファイルに格納された最初のデジタル信号
に対して一連の周波数領域変換を実行し、そのデジタル
信号について認識パターンを生成する。次いで、ステッ
プ514において、そのようにして生成された認識パタ
ーンが、スタティック・メモリ116に格納された機能
認識テーブル126(図1)内の機能に対する認識パタ
ーンと比較される。次いで、ステップ516において、
ステップ514で生成された認識パターンと機能認識テ
ーブル126に格納された認識パターンのいずれかとが
一致しているか否かが判断される。ステップ516で一
致したものが見つからなかった場合、ステップ518に
おいて、一致したものが見つからなかったことを示す指
示が、ユーザに音声注釈コマンド入力を繰返すかもしく
はキャンセルするかを要求するプロンプトと共に、ユー
ザに対して出力される。その指示は、ディスプレイ11
4に出力されるテキストメッセージ、もしくはスピーカ
110(図1)に出力されるオーディオメッセージでも
よい。次いで、ステップ520において、繰返すかまた
はキャンセルするという指示がコントローラ106に受
信されたか否かが判断される。ステップ520において
繰返すという指示が受信されている場合、制御はステッ
プ506に移り、音声ピックアップ・コンポーネント1
02により、繰返される音声処置コマンド入力が取込ま
れる。一方、ステップ520においてキャンセルすると
いう指示が受信されている場合、制御はステップ526
に移る。
【0055】一方、ステップ516において一致したも
のが見つかった場合、ステップ522において、機能認
識テーブル126内に格納された認識パターンに関連す
る、機能認識テーブル126に格納されたコマンド数値
またはコマンドテキストが、音声コマンド注釈ファイル
に格納される。この音声コマンド注釈ファイルは、イメ
ージデータファイルまたはドキュメントデータファイル
に関連付けられている。次いで、ステップ524におい
て、ステップ502において格納されたイメージデータ
ファイルまたはドキュメントデータファイルについて、
更に音声処置コマンド入力があるか否かが判断される。
その判断結果が「yes」である場合、制御はステップ
506に戻り、音声ピックアップ・コンポーネント10
2により次の音声処置コマンド入力が取込まれる。一
方、ステップ524での判断結果が「no」である場
合、制御はステップ526に移る。
【0056】ステップ526において、装置100によ
り次のイメージまたはドキュメントを取込むべきである
という指示があるか否かが判断される。その判断結果が
「yes」である場合、制御はステップ502に戻り、
装置100により次のイメージまたはドキュメントが取
込まれ、スタティック・メモリ116に格納される。一
方、ステップ526における判断結果が「no」である
場合、ステップ528において、取込まれたイメージデ
ータファイル、ドキュメントデータファイル、音声注釈
ファイルおよび音声コマンド注釈ファイルは、ホストコ
ネクション122および通信インタフェース214を利
用する確立されたコネクションを介して、装置100か
らホストコンピュータシステム200にコピーされる。
なお、当業者は、ユーザがイメージまたはドキュメント
を取込みながら旅行して帰宅し、その後データをホスト
コンピュータシステム200にコピーし始める場合等、
ステップ526とステップ528との間に相当の時間が
経過する場合があることを認めるであろう。以上のよう
にファイルをコピーした後、装置100は電源が切ら
れ、その動作が終了する。
【0057】図6は、図5Aおよび図5Bの装置により
音声分析が既に実行されている場合における、音声コマ
ンド注釈ファイルを受信するホストコンピュータのフロ
ーチャートを示している。同図を参照すると、ステップ
600において、ファイル転送ソフトウェア222がホ
ストコンピュータシステム200(図2)のメモリ21
8にロードされる。次いで、ステップ602において、
ホストコンピュータシステム200は、図5のステップ
528における処理により、イメージデータファイル、
ドキュメントデータファイル、音声注釈ファイルおよび
音声コマンド注釈ファイルをメモリ218に受信する。
そして、ステップ604において、ファイル転送ソフト
ウェア222が、ステップ602で受信した最初の音声
コマンド注釈ファイルの処理を開始する。次いで、ステ
ップ606において、最初の音声コマンド注釈ファイル
内の最初のコマンド数値またはコマンドテキストを使用
して、機能認識テーブル230(図2)に格納されてい
るコマンド数値またはコマンドテキストに関連する1つ
の命令または命令のセットにアクセスする。
【0058】ステップ606において1以上の命令が実
行された後、ステップ608において、ステップ604
において処理された最初の音声コマンド注釈ファイル
に、更にコマンド数値またはコマンドテキストがあるか
否かが判断される。コマンド数値またはコマンドテキス
トがある場合、制御はステップ606に戻り、次のコマ
ンド数値またはコマンドテキストに関連した次の命令の
セットにアクセスし実行する。一方、ステップ608に
おいてコマンド数値またはコマンドテキストが無い場
合、ステップ610において、更に処理すべき音声コマ
ンド注釈ファイルがあるか否かが判断される。その判断
結果が「yes」である場合、制御はステップ604に
戻り、次の音声コマンド注釈ファイルが処理される。一
方、ステップ610における判断結果が「no」である
場合、制御はオペレーティングシステム220に戻る。
【0059】図7は、ユーザの音声処置コマンド入力を
認識するよう本発明の装置をトレーニングするフローチ
ャートを示している。同図を参照すると、ステップ70
0において、ホストコンピュータシステム200(図
2)内で音声分析ソフトウェア224がメモリ218に
ロードされる。次いで、ステップ702において、装置
100(図1)の電源が投入される。次いで、ステップ
704において、装置100が、ホストコンピュータシ
ステム200に接続される。これは、ワイヤケーブルま
たは赤外線等の任意の適したコネクションによって行う
ことができる。次いで、ステップ706において、音声
分析ソフトウェア224に、ユーザからの入力が受信さ
れる。この時、ユーザは、トレーニングおよび音声分析
の対象となる最初の機能を、そのコマンド数値またはコ
マンドテキストによって選択する。そして、ステップ7
08において、音声分析ソフトウェア224が、最初の
機能を装置100の音声ピックアップ・コンポーネント
102(図1)内に呼出すためにユーザが選択したコマ
ンド語を、多数回、聞き取れるように繰返すよう、ユー
ザに対して要求する。次いで、ステップ710におい
て、音声ピックアップ・コンポーネント102によって
取込まれた多数の音声入力が、装置100によって処理
されてデジタル信号となり、ホストコンピュータシステ
ム200の音声分析ソフトウェア224に送信される。
次いで、ステップ712において、音声分析ソフトウェ
ア224は、ステップ710で受信した多数のデジタル
信号を分析して、コマンド語の認識パターンを作成す
る。次いで、ステップ714において、ステップ712
で得られた認識パターンがメモリ218に格納される。
【0060】次に、ステップ716において、ユーザが
トレーニングおよび音声分析のために次の機能を選択し
たか否か、あるいは、ユーザがトレーニングおよび音声
分析のための機能を選択し終わったという指示を受信し
たか否かが判断される。ステップ716において次の機
能が選択されている場合、制御はステップ706に移
る。一方、ユーザが機能を選択し終わったという指示を
受信している場合、ステップ718において、音声分析
ソフトウェア224が、ステップ712で判断されステ
ップ714で格納されたすべての認識パターン、および
各機能に関連するコマンド数値またはコマンドテキスト
を、ステップ704で確立されたコネクションを介して
装置100に転送する。次いで、ステップ720におい
て、ステップ718で転送された認識パターンおよびそ
れらに関連するコマンド数値またはコマンドテキスト
が、機能認識テーブル126(図1)のスタティック・
メモリ116に格納される。ここで、各機能についての
認識パターンおよびコマンド数値またはコマンドテキス
トは、音声制御コマンド入力を受信した時に実行される
命令のセットとリンクされている。この音声制御コマン
ド入力は、処理されて認識パターンとなった時に、ステ
ップ712で決定された認識パターンのうちの1つと一
致するものである。そして、ステップ720の後、装置
100のトレーニングおよび音声分析が終了する。
【0061】本発明の他の実施の形態では、ユーザの音
声処置コマンド入力を認識するための本発明の装置のト
レーニングは、ホストコンピュータにつなげずに行うこ
とができる。これは、スタティック・メモリ116に音
声分析ソフトウェア124を格納し、ホストコンピュー
タに関連するステップを除き、上記のように概略したス
テップを実行することによって行われる。
【0062】このように、本発明の目下好ましい実施の
形態について説明してきたが、当業者にとって、構成お
よび回路上の多くの変更および本発明の大きく異なる実
施の形態および使用態様が、特許請求の範囲で定義され
るような本発明の範囲を逸脱しない、ということが理解
されるであろう。ここでの開示および説明は、例を示す
ためのものであり、特許請求の範囲でその範囲が定義さ
れる本発明をいかなる意味においても限定するものでは
ない。
【0063】以上、本発明の実施例について詳述した
が、以下、本発明の各実施態様の例を示す。
【0064】[実施態様1]装置(100)のための音声
コマンド注釈方法であって、(a) 前記装置(100)に
おいて音声ピックアップ・コンポーネント(102)に
より音声処置コマンドを取込むステップ(306、50
6)と、(b) 前記装置(100)においてコントローラ
(106)により前記音声処置コマンドを処理するステ
ップと、(c) 前記コントローラ(106)によって処理
した前記音声処置コマンドを音声コマンド注釈ファイル
に格納するステップ(312、522)と、(d) 前記音
声コマンド注釈ファイルを前記装置(100)において
データファイルに関連付けるステップ(312、52
2)と、(e) 前記データファイルおよび前記音声コマン
ド注釈ファイルを前記装置(100)からホストコンピ
ュータシステム(200)にコピーするステップ(31
6、528)と、(f) 前記ホストコンピュータシステム
(200)において、前記音声コマンド注釈ファイルを
処理して、前記音声処置コマンドに関連する少なくとも
1つの機能を識別するステップと、(g) 前記少なくとも
1つの機能に関連する少なくとも1つの命令を実行し
(414、606)、該少なくとも1つの命令は前記デ
ータファイルに基づいて実行する、ステップと、を備え
て成る音声コマンド注釈方法。
【0065】[実施態様2]ステップ(a)は更に、(a1) 前
記装置(100)において前記音声ピックアップ・コン
ポーネント(102)により複数の追加の音声処置コマ
ンドを取込むステップ(306、506)を含み、ステ
ップ(b)は更に、(b1) 前記装置(100)において前記
コントローラ(106)により前記複数の追加の音声処
置コマンドを処理するステップを含み、ステップ(c)は
更に、(c1) 前記コントローラ(106)によって処理
した前記複数の追加の音声処置コマンドを前記音声コマ
ンド注釈ファイルに格納するステップ(312、52
2)を含み、ステップ(f)は更に、(f1) 前記ホストコン
ピュータシステム(200)において前記音声コマンド
注釈ファイルを処理して、複数の追加の機能を識別する
ステップであって、該複数の追加の機能各々のうちの1
つは、前記複数の追加の音声処置コマンド各々のうちの
1つと関連付けられている、ステップを含み、ステップ
(g)は更に、(g1) 複数の追加の少なくとも1つの命令を
実行するステップ(414、606)であって、該複数
の追加の少なくとも1つの命令の各々のうちの1つは、
前記複数の追加の機能の各々のうちの1つと関連付けら
れており、更に、該複数の追加の少なくとも1つの命令
の各々は、前記データファイルに基づいて実行する、ス
テップを含む、ことを特徴とする、実施態様1に記載の
音声コマンド注釈方法。
【0066】[実施態様3]ステップ(a)は更に、(a1) 前
記装置(100)において前記音声ピックアップ・コン
ポーネント(102)から前記音声処置コマンドをアナ
ログ信号としてアナログデジタル変換器(104)に出
力するステップ(308)と、(a2) 前記アナログデジ
タル変換器(104)において前記アナログ信号をデジ
タル信号に変換するステップ(310)と、(a3) 前記
アナログデジタル変換器(104)から前記デジタル信
号を前記コントローラ(106)に出力するステップ
と、を含み、ステップ(c)は更に、(c1) 前記装置(10
0)において、前記コントローラ(106)により、前
記デジタル信号をスタティック・メモリ(116)内の
前記音声コマンド注釈ファイルに格納するステップ(3
12)であって、該音声コマンド注釈ファイルはオーデ
ィオファイルフォーマットである、ステップを含み、ス
テップ(d)は更に、(d1) 前記データファイルおよび前記
音声コマンド注釈ファイルに同じファイル名を与えると
共に、該データファイルに第1のファイル拡張名を与
え、前記音声コマンド注釈ファイルに第2のファイル拡
張名を与えることにより、該データファイルおよび該音
声コマンド注釈ファイルを関連付けるステップ(31
2)を含む、ことを特徴とする、実施態様1に記載の音
声コマンド注釈方法。
【0067】[実施態様4]ステップ(e)は更にステップ
(e)の前に実行される、(e0) 前記ホストコンピュータシ
ステム(200)において、メモリ(218)にファイ
ル転送ソフトウェア(222)をロードする(400)
と共に音声分析ソフトウェア(224)をロードするス
テップ(400)、および、ステップ(e)の後に実行さ
れる、(e1) 前記ホストコンピュータシステム(20
0)において、前記ファイル転送ソフトウェア(22
2)により、前記データファイルおよび前記音声コマン
ド注釈ファイルを前記メモリ(218)内に受信するス
テップ(402)、を備え、ステップ(f)は更に、(f1)
前記音声分析ソフトウェア(224)により、前記音声
コマンド注釈ファイル内の前記デジタル信号に対して複
数の周波数領域変換を実行するステップ(406)と、
(f2) 前記音声分析ソフトウェア(224)により、前
記複数の周波数領域変換から第1の認識パターンを生成
するステップ(406)であって、該第1の認識パター
ンは、前記デジタル信号のスペクトル変換である、ステ
ップと、(f3) 前記ホストコンピュータシステム(20
0)において、前記ファイル転送ソフトウェア(22
2)により、前記第1の認識パターンを、前記メモリ
(218)の機能認識テーブル(230)に格納された
前記少なくとも1つの機能についての少なくとも1つの
認識パターンと比較するステップ(408)であって、
(f3a) 前記第1の認識パターンが、前記機能認識テーブ
ル(230)に格納された前記少なくとも1つの機能に
ついての前記少なくとも1つの認識パターンと一致しな
い場合(410)、前記ホストコンピュータシステム
(200)において、一致したものが見つからなかった
ことを示す第1のメッセージを出力し(420)、前記
ホストコンピュータシステム(200)において、前記
音声コマンド注釈ファイルの内容を聞くための入力を要
求する第2のメッセージを出力し(422)、(f3b) ス
テップ(f3a)からの前記聞くための入力が受信された場
合(424)、オーディオファイル変換ソフトウェア
(228)を呼出して、オーディオ出力のために前記音
声コマンド注釈ファイルを処理し(426)、前記ホス
トコンピュータシステム(200)において、マニュア
ル操作のための入力を要求する第3のメッセージを出力
し(428)、(f3c) ステップ(f3b)からの前記マニュ
アル操作のための入力が受信された場合(430)、マ
ニュアル操作が実行されるまで当該音声コマンド注釈方
法を一時停止する、ステップと、(f4) 前記第1の認識
パターンが前記機能認識テーブル(230)に格納され
た前記少なくとも1つの機能についての前記少なくとも
1つの認識パターンと一致する場合(410)、前記フ
ァイル転送ソフトウェア(222)により、前記少なく
とも1つの認識パターンに関連するコマンド数値を取り
出すステップと、(f5) 前記ファイル転送ソフトウェア
(222)によって、前記コマンド数値により前記少な
くとも1つの命令にアクセスするステップであって、該
少なくとも1つの命令は、前記コマンド数値にリンクし
ている、ステップと、を備えて成ることを特徴とする、
実施態様3に記載の音声コマンド注釈方法。
【0068】[実施態様5]ステップ(a)は更に、(a1) 前
記装置(100)において、前記音声ピックアップ・コ
ンポーネント(102)から、前記音声処置コマンドを
アナログ信号としてアナログデジタル変換器(104)
に出力するステップ(508)と、(a2) 前記アナログ
デジタル変換器(104)において、前記アナログ信号
をデジタル信号に変換するステップ(510)と、(a3)
前記アナログデジタル変換器(104)から前記デジ
タル信号を前記コントローラ(106)に出力するステ
ップと、(a4) 前記装置(100)において、前記コン
トローラ(106)により、前記デジタル信号をダイナ
ミック・メモリ(118)に格納するステップと、を備
え、ステップ(b)は更に、(b1) 前記装置(100)にお
いて、前記コントローラ(106)により、スタティッ
ク・メモリ(116)から音声分析ソフトウェア(12
4)を呼出すステップと、(b2) 前記音声分析ソフトウ
ェア(124)により、前記ダイナミック・メモリ(1
18)の前記デジタル信号に基づいて複数の周波数領域
変換を実行するステップ(512)と、(b3) 前記音声
分析ソフトウェア(124)により、前記複数の周波数
領域変換から第1の認識パターンを生成するステップ
(512)であって、該第1の認識パターンは、前記デ
ジタル信号のスペクトル変換である、ステップと、(b4)
前記装置(100)において、前記第1の認識パター
ンを、前記スタティック・メモリ(116)の機能認識
テーブル(126)に格納された前記少なくとも1つの
機能についての少なくとも1つの認識パターンと比較す
るステップ(514)であって、(b4a) 前記第1の認識
パターンが、前記機能認識テーブル(126)に格納さ
れた前記少なくとも1つの機能についての前記少なくと
も1つの認識パターンと一致しない場合(516)、前
記装置(100)において、一致するものが見つからな
かったことを示す第1のメッセージを出力し(51
8)、前記装置(100)において、前記音声処置コマ
ンドを繰返すかまたはキャンセルするための入力を要求
する第2のメッセージを出力する(518)、ステップ
と、(b5) 前記第1の認識パターンが、前記機能認識テ
ーブル(126)に格納された前記少なくとも1つの機
能についての前記少なくとも1つの認識パターンと一致
する場合(516)、前記コントローラ(106)によ
り、前記少なくとも1つの認識パターンに関連する、前
記スタティック・メモリ(116)に格納されたコマン
ド数値を取り出すステップと、を備え、ステップ(c)は
更に、(c1) 前記コントローラ(106)により、前記
装置(100)における前記スタティック・メモリ(1
16)の前記音声コマンド注釈ファイルに前記コマンド
数値を格納するステップ(522)、を備え、ステップ
(d)は更に、(d1) 前記データファイルおよび前記音声コ
マンド注釈ファイルに同じファイル名を与えると共に、
該データファイルに第1のファイル拡張名を与え、前記
音声コマンド注釈ファイルに第2のファイル拡張名を与
えることにより、前記データファイルおよび前記音声コ
マンド注釈ファイルを関連付けるステップ、を備えて成
ることを特徴とする、実施態様1に記載の音声コマンド
注釈方法。
【0069】[実施態様6]前記コマンド数値は、コマン
ドテキストである、実施態様4または5に記載の音声コ
マンド注釈方法。
【0070】[実施態様7]ステップ(e)は更にステップ
(e)の前に実行される、(e0) 前記ホストコンピュータシ
ステム(200)において、ファイル転送ソフトウェア
(222)をメモリ(218)にロードするステップ
(600)、およびステップ(e)の後に実行される、(e
1) 前記ホストコンピュータシステム(200)におい
て、前記ファイル転送ソフトウェア(222)により、
前記データファイルおよび前記音声コマンド注釈ファイ
ルを前記メモリ(218)に受信するステップ(60
2)、を備え、ステップ(f)は更に、(f1) 前記ファイル
転送ソフトウェア(222)により、前記音声コマンド
注釈ファイルから前記コマンド数値を取り出すステップ
(606)と、(f2) 前記コマンド数値により、前記メ
モリ(218)内の前記機能認識テーブル(230)に
格納された前記少なくとも1つの命令にアクセスするス
テップであって、該少なくとも1つの命令は、前記コマ
ンド数値にリンクされている、ステップと、を備えて成
る、実施態様5に記載の音声コマンド注釈方法。
【0071】[実施態様8]ステップ(a)は更にステップ
(a)の前に実行される、(a0a) ホストコンピュータシス
テム(200)において、音声分析ソフトウェア(22
4)をメモリ(218)にロードするステップ(70
0)と、(a0b) 前記装置(100)を前記ホストコンピ
ュータシステム(200)に接続するステップ(70
4)と、(a0c) 前記音声分析ソフトウェア(224)に
より、予め決められた機能を呼出すための少なくとも1
つの語のトレーニングおよび音声分析のために、前記予
め決められた機能を選択するステップ(706)と、(a
0d) 前記装置(100)の前記音声ピックアップ・コン
ポーネント(102)に、前記少なくとも1つの語の複
数の音声入力を取込むステップ(710)と、(a0e) 前
記装置(100)において、前記複数の音声入力を処理
して複数のデジタル信号とするステップ(710)と、
(a0f) 前記複数のデジタル信号を前記装置(100)か
ら前記ホストコンピュータシステム(200)に送信す
るステップ(710)と、(a0g) 前記音声分析ソフトウ
ェア(224)により、前記複数のデジタル信号を分析
するステップ(712)と、(a0h) 前記音声分析ソフト
ウェア(224)により、前記複数のデジタル信号の前
記分析から前記少なくとも1つの認識パターンを作成す
るステップ(712)と、(a0i) 前記ホストコンピュー
タシステム(200)において、前記少なくとも1つの
認識パターンを前記メモリ(218)内の前記機能認識
テーブル(230)に格納するステップ(714)と、
(a0j) 前記ホストコンピュータシステム(200)にお
いて、前記メモリ(218)内の前記機能認識テーブル
(230)の前記少なくとも1つの認識パターンを転送
して(718)、前記装置(100)において前記スタ
ティック・メモリ(116)内の前記機能認識テーブル
(126)に格納するステップであって、前記コマンド
数値は、前記少なくとも1つの認識パターンに関連付け
られている、ステップと、(a0k) 複数の予め決められた
機能について、ステップ(a0c)ないしステップ(a0j)を繰
返すステップ(716)であって、複数の前記少なくと
も1つの語についての複数の前記複数の音声入力から、
複数の認識パターンが作成され、さらに、該複数の認識
パターンは、前記装置(100)において前記スタティ
ック・メモリ(116)内の前記機能認識テーブル(1
26)に格納されており(720)、前記複数の認識パ
ターンの各々は、前記スタティック・メモリ(116)
内の前記機能認識テーブル(126)に格納された複数
のコマンド数値の1つに関連付けられている、ステップ
と、を備えて成ることを特徴とする、実施態様5に記載
の音声コマンド注釈方法。
【0072】[実施態様9]ステップ(a0a)は新たな、(a0
a) 前記装置(100)において、前記スタティック・メ
モリ(116)内の音声分析ソフトウェア(124)に
アクセスするステップ、によって置換えられ、ステップ
(a0b)、ステップ(a0f)、およびステップ(a0i)は削除さ
れ、ステップ(a0j)は新たな、(a0j) 前記装置(10
0)において、前記少なくとも1つの認識パターンを前
記スタティック・メモリ(116)内の前記機能認識テ
ーブル(126)に格納するステップであって、前記少
なくとも1つの認識パターンは、該スタティック・メモ
リ(116)内の前記機能認識テーブル(126)に格
納された前記コマンド数値に関連付けられている、ステ
ップによって置換えられる、ことを特徴とする、実施態
様8に記載の音声コマンド注釈方法。
【0073】[実施態様10]ステップ(a)はステップ(a)
の前に実行される、(a0) 前記装置(100)上の注釈
制御ボタン(120)から前記コントローラ(106)
にボタン押下入力を受信するステップであって、該装置
(100)は、前記音声ピックアップ・コンポーネント
(102)により前記音声処置コマンドを取込むことが
できるステップ、を更に備え、ステップ(b)は、(b1) 前
記装置(100)上の前記注釈制御ボタン(120)か
ら前記コントローラ(106)にボタン解除入力を受信
するステップであって、該装置(100)は、前記音声
ピックアップ・コンポーネント(102)により前記音
声処置コマンドを取込むことができない、ステップを更
に備えて成ることを特徴とする、実施態様1に記載の音
声コマンド注釈方法。
【0074】
【発明の効果】以上説明したように、本発明を用いるこ
とにより、取込んだイメージまたはドキュメントに注釈
を、その取込み時に付けることができる。
【図面の簡単な説明】
【図1】本発明の装置のブロック図である。
【図2】本発明の装置と通信するホストコンピュータシ
ステムのブロック図である。
【図3】装置内で音声処置コマンドに基づいて音声分析
を実行しない、本発明の装置の実施の形態のフローチャ
ートである。
【図4A】図3の装置からコピーされた音声コマンド注
釈ファイルに含まれる音声処置コマンドに基づいて音声
分析を実行するホストコンピュータのフローチャートで
ある。
【図4B】図3の装置からコピーされた音声コマンド注
釈ファイルに含まれる音声処置コマンドに基づいて音声
分析を実行するホストコンピュータのフローチャートで
ある。
【図5A】装置内で音声処置コマンドに基づいて音声分
析を実行する、本発明の装置の実施の形態のフローチャ
ートである。
【図5B】装置内で音声処置コマンドに基づいて音声分
析を実行する、本発明の装置の実施の形態のフローチャ
ートである。
【図6】図5Aおよび図5Bの装置によって音声分析が
既に実行されている場合の、音声コマンド注釈ファイル
を受信するホストコンピュータのフローチャートであ
る。
【図7】ユーザの音声処置コマンド入力を認識するよう
本発明の装置をトレーニングするフローチャートであ
る。
【符号の説明】
100:装置 102:音声ピックアップ・コンポーネント 104:アナログデジタル変換器 106:コントローラ 116:スタティック・メモリ 118:ダイナミック・メモリ 120:制御ボタン 124:音声分析ソフトウェア 126:機能認識テーブル 200:ホストコンピュータシステム 218:メモリ 222:ファイル転送ソフトウェア 224:音声分析ソフトウェア 228:オーディオファイル変換ソフトウェア 230:機能認識テーブル

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】装置のための音声コマンド注釈方法であっ
    て、(a) 前記装置において音声ピックアップ・コンポー
    ネントにより音声処置コマンドを取込むステップと、
    (b) 前記装置においてコントローラにより前記音声処置
    コマンドを処理するステップと、(c) 前記コントローラ
    によって処理した前記音声処置コマンドを音声コマンド
    注釈ファイルに格納するステップと、(d) 前記音声コマ
    ンド注釈ファイルを前記装置においてデータファイルに
    関連付けるステップと、(e) 前記データファイルおよび
    前記音声コマンド注釈ファイルを前記装置からホストコ
    ンピュータシステムにコピーするステップと、(f) 前記
    ホストコンピュータシステムにおいて、前記音声コマン
    ド注釈ファイルを処理して、前記音声処置コマンドに関
    連する少なくとも1つの機能を識別するステップと、
    (g) 前記少なくとも1つの機能に関連する少なくとも1
    つの命令を実行し、該少なくとも1つの命令は前記デー
    タファイルに基づいて実行する、ステップと、を備えて
    成る音声コマンド注釈方法。
JP11352577A 1998-12-23 1999-12-13 音声コマンド注釈方法 Pending JP2000194533A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/219,972 US6295391B1 (en) 1998-02-19 1998-12-23 Automatic data routing via voice command annotation
US219972 1998-12-23

Publications (1)

Publication Number Publication Date
JP2000194533A true JP2000194533A (ja) 2000-07-14

Family

ID=22821503

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11352577A Pending JP2000194533A (ja) 1998-12-23 1999-12-13 音声コマンド注釈方法

Country Status (4)

Country Link
US (2) US6295391B1 (ja)
EP (1) EP1014258A3 (ja)
JP (1) JP2000194533A (ja)
CN (1) CN1184614C (ja)

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6869023B2 (en) * 2002-02-12 2005-03-22 Digimarc Corporation Linking documents through digital watermarking
JP4200607B2 (ja) * 1999-09-03 2008-12-24 ソニー株式会社 情報処理装置および方法、並びにプログラム格納媒体
US7099920B1 (en) * 1999-09-03 2006-08-29 Sony Corporation Method and system for creating an e-mail by automatically constituting a text and an attached file of the e-mail basing on at least one words or sentences and picture stored in a single picture file
US6519607B1 (en) * 1999-10-28 2003-02-11 Hewlett-Packard Company Image driven operating system
US7978219B1 (en) * 2000-08-30 2011-07-12 Kevin Reid Imes Device, network, server, and methods for providing digital images and associated processing information
GB0031596D0 (en) * 2000-12-22 2001-02-07 Barbara Justin S A system and method for improving accuracy of signal interpretation
US6922488B2 (en) * 2001-02-16 2005-07-26 International Business Machines Corporation Method and system for providing application launch by identifying a user via a digital camera, utilizing an edge detection algorithm
US7181400B2 (en) * 2001-04-20 2007-02-20 Intel Corporation Method and apparatus to provision a network appliance
AU2002314933A1 (en) * 2001-05-30 2002-12-09 Cameronsound, Inc. Language independent and voice operated information management system
US20040201681A1 (en) * 2001-06-21 2004-10-14 Jack Chen Multimedia data file producer combining image and sound information together in data file
US6859526B2 (en) * 2001-07-03 2005-02-22 Hewlett-Packard Development Company, L.P. System and program product for managing call information
JP2003076647A (ja) * 2001-08-31 2003-03-14 Hitachi Ltd メール送受信方法およびそれを用いる装置
CA2470094C (en) 2001-12-18 2007-12-04 Digimarc Id Systems, Llc Multiple image security features for identification documents and methods of making same
US7824029B2 (en) 2002-05-10 2010-11-02 L-1 Secure Credentialing, Inc. Identification card printer-assembler for over the counter card issuing
US7231228B2 (en) * 2002-07-30 2007-06-12 Symbol Technologies, Inc. System and method for voice/data messaging application
US7363398B2 (en) * 2002-08-16 2008-04-22 The Board Of Trustees Of The Leland Stanford Junior University Intelligent total access system
JP4304952B2 (ja) * 2002-10-07 2009-07-29 三菱電機株式会社 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム
EP1554706A1 (en) * 2002-10-08 2005-07-20 Johnson Controls Technology Company System and method for wireless control of remote electronic systems including functionality based on location
US7911358B2 (en) * 2002-10-08 2011-03-22 Johnson Controls Technology Company System and method for enrollment of a remotely controlled device in a trainable transmitter
GB0224806D0 (en) * 2002-10-24 2002-12-04 Ibm Method and apparatus for a interactive voice response system
KR100770637B1 (ko) * 2002-12-12 2007-10-29 후지필름 가부시키가이샤 디지털 카메라
CN100349181C (zh) * 2003-02-05 2007-11-14 精工爱普生株式会社 图像处理装置及图像处理方法
DE10313310A1 (de) * 2003-03-25 2004-10-21 Siemens Ag Verfahren zur sprecherabhängigen Spracherkennung und Spracherkennungssystem dafür
US20040243415A1 (en) * 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US20050050150A1 (en) * 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
GB2409365B (en) * 2003-12-19 2009-07-08 Nokia Corp Image handling
TWI235823B (en) * 2004-09-30 2005-07-11 Inventec Corp Speech recognition system and method thereof
US7456872B2 (en) * 2004-11-29 2008-11-25 Rothschild Trust Holdings, Llc Device and method for embedding and retrieving information in digital images
US7450163B2 (en) * 2004-11-29 2008-11-11 Rothschild Trust Holdings, Llc Device and method for embedding and retrieving information in digital images
US7627638B1 (en) * 2004-12-20 2009-12-01 Google Inc. Verbal labels for electronic messages
US20150371629A9 (en) * 2005-01-03 2015-12-24 Luc Julia System and method for enabling search and retrieval operations to be performed for data items and records using data obtained from associated voice files
JP4546347B2 (ja) * 2005-07-14 2010-09-15 キヤノン株式会社 画像保存装置、画像保存方法及び制御プログラム
WO2007027738A2 (en) * 2005-08-29 2007-03-08 Evryx Technologies, Inc. Interactivity via mobile image recognition
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070067707A1 (en) * 2005-09-16 2007-03-22 Microsoft Corporation Synchronous digital annotations of media data stream
US7590541B2 (en) * 2005-09-30 2009-09-15 Rockwell Automation Technologies, Inc. HMI presentation layer configuration system
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8375283B2 (en) * 2006-06-20 2013-02-12 Nokia Corporation System, device, method, and computer program product for annotating media files
US8207936B2 (en) * 2006-06-30 2012-06-26 Sony Ericsson Mobile Communications Ab Voice remote control
US7921017B2 (en) * 2006-07-20 2011-04-05 Abbott Medical Optics Inc Systems and methods for voice control of a medical device
US8760267B2 (en) * 2006-08-28 2014-06-24 Gentex Corporation System and method for enrollment of a remotely controlled device in a trainable transmitter
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US8285697B1 (en) * 2007-01-23 2012-10-09 Google Inc. Feedback enhanced attribute extraction
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
CA2665055C (en) * 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
US20090300068A1 (en) * 2008-05-30 2009-12-03 Tang ding-yuan System and method for processing structured documents
US8710907B2 (en) * 2008-06-24 2014-04-29 Sandisk Technologies Inc. Clock generator circuit for a charge pump
US8798311B2 (en) * 2009-01-23 2014-08-05 Eldon Technology Limited Scrolling display of electronic program guide utilizing images of user lip movements
CN101882065B (zh) * 2009-05-07 2013-10-16 张金滔 一种在计算机软件中实现由用户直接发指令的方法
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
CN102074130B (zh) * 2009-11-20 2013-12-18 元太科技工业股份有限公司 录音笔记电子书装置及其控制方法
CN101799994B (zh) * 2010-02-10 2012-12-19 惠州Tcl移动通信有限公司 一种电子书阅读器的语音笔记记录方法
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20120224764A1 (en) * 2011-03-03 2012-09-06 Chi Pei Weng Method for color recognition
CN102216917B (zh) * 2011-04-20 2014-02-19 华为终端有限公司 数据接口配置方法及终端设备
JP5673330B2 (ja) * 2011-04-25 2015-02-18 株式会社デンソー 音声入力装置
US9342516B2 (en) 2011-05-18 2016-05-17 Microsoft Technology Licensing, Llc Media presentation playback annotation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9536528B2 (en) 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US10381002B2 (en) 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10373615B2 (en) 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
TWI519122B (zh) * 2012-11-12 2016-01-21 輝達公司 行動資訊裝置與利用語音控制行動資訊裝置的方法
US9406089B2 (en) 2013-04-30 2016-08-02 Intuit Inc. Video-voice preparation of electronic tax return
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
AU2014306221B2 (en) * 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
CN103455642B (zh) * 2013-10-10 2017-03-08 三星电子(中国)研发中心 一种多媒体文件检索的方法和装置
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US9466296B2 (en) * 2013-12-16 2016-10-11 Intel Corporation Initiation of action upon recognition of a partial voice command
US9628850B2 (en) * 2014-05-30 2017-04-18 Lg Electronics Inc. Server, home device access server, terminal, and home device remote control system including the same
US9536521B2 (en) * 2014-06-30 2017-01-03 Xerox Corporation Voice recognition
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11024305B2 (en) * 2017-08-07 2021-06-01 Dolbey & Company, Inc. Systems and methods for using image searching with voice recognition commands
JP6704881B2 (ja) * 2017-08-31 2020-06-03 キヤノン株式会社 システム
CN107886947A (zh) * 2017-10-19 2018-04-06 珠海格力电器股份有限公司 一种图像处理的方法以及装置
US10747477B2 (en) * 2017-11-17 2020-08-18 Canon Kabushiki Kaisha Print control system that transmit to a registered printing apparatus, a change instruction for changing a setting of the power of the registered printing apparatus, and related method
US11328724B2 (en) 2018-03-23 2022-05-10 Hewlett-Packard Development Company, L.P. Execution of workflow tasks corresponding to voice commands
JP7215118B2 (ja) * 2018-11-30 2023-01-31 株式会社リコー 情報処理装置、情報処理システム、プログラムおよび方法
JP7334510B2 (ja) * 2019-07-05 2023-08-29 コニカミノルタ株式会社 画像形成装置、画像形成装置の制御方法、および画像形成装置の制御プログラム
US11775210B2 (en) * 2020-10-14 2023-10-03 Western Digital Technologies, Inc. Storage system and method for device-determined, application-specific dynamic command clustering

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4462080A (en) * 1981-11-27 1984-07-24 Kearney & Trecker Corporation Voice actuated machine control
US4556944A (en) * 1983-02-09 1985-12-03 Pitney Bowes Inc. Voice responsive automated mailing system
US4776016A (en) * 1985-11-21 1988-10-04 Position Orientation Systems, Inc. Voice control system
JPH01501514A (ja) * 1986-11-25 1989-05-25 ゾーン・テクノロジー・ピーティーワイ・リミテッド デジタル・イメージ獲得システム
WO1993007562A1 (en) * 1991-09-30 1993-04-15 Riverrun Technology Method and apparatus for managing information
US5737395A (en) * 1991-10-28 1998-04-07 Centigram Communications Corporation System and method for integrating voice, facsimile and electronic mail data through a personal computer
US5430558A (en) 1992-09-29 1995-07-04 Sohaei; Frank Portable optical scanner with integral audio recorder
EP0692120B1 (en) * 1993-03-31 2002-10-09 Luma Corporation Managing information in an endoscopy system
US5794251A (en) * 1994-06-06 1998-08-11 Canon Kabushiki Kaisha Information file processing apparatus and method
US5583933A (en) * 1994-08-05 1996-12-10 Mark; Andrew R. Method and apparatus for the secure communication of data
JPH08340318A (ja) * 1995-06-13 1996-12-24 Kokusai Electric Co Ltd データ伝送方法及び装置
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition
US5732216A (en) * 1996-10-02 1998-03-24 Internet Angles, Inc. Audio message exchange system
US5721827A (en) * 1996-10-02 1998-02-24 James Logan System for electrically distributing personalized information
US6157935A (en) * 1996-12-17 2000-12-05 Tran; Bao Q. Remote data access and management system
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion

Also Published As

Publication number Publication date
CN1258061A (zh) 2000-06-28
CN1184614C (zh) 2005-01-12
EP1014258A3 (en) 2003-11-26
US6580838B2 (en) 2003-06-17
EP1014258A2 (en) 2000-06-28
US20020013701A1 (en) 2002-01-31
US6295391B1 (en) 2001-09-25

Similar Documents

Publication Publication Date Title
US6295391B1 (en) Automatic data routing via voice command annotation
US6289140B1 (en) Voice control input for portable capture devices
US6816837B1 (en) Voice macros for scanner control
US7058208B2 (en) Method and apparatus of managing information about a person
US7831598B2 (en) Data recording and reproducing apparatus and method of generating metadata
JP2005276187A (ja) 画像識別方法および端末装置
EP0887788A2 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
JP2000184258A (ja) 音声認識注釈を有するデジタル・カメラ
US20030189642A1 (en) User-designated image file identification for a digital camera
US6226422B1 (en) Voice annotation of scanned images for portable scanning applications
CN111813301B (zh) 内容播放方法、装置、电子设备及可读存储介质
CN202798910U (zh) 可语音控制的扫描仪
JP2005346259A (ja) 情報処理装置及び情報処理方法
KR102156055B1 (ko) 인공지능스피커와 연동하여 인터랙티브 프로그램을 제어하는 전자펜 시스템
KR102164773B1 (ko) 마이크로폰으로 인공지능스피커와 연동되는 전자펜 시스템
KR20200054154A (ko) 인공지능스피커의 기능을 조작하는 전자펜 시스템
KR20200030228A (ko) 인공지능스피커와 연동되는 전자펜 시스템
CN100367809C (zh) 动作辨识系统及其方法
JPH0883158A (ja) 情報処理方法及び装置
JPH09200668A (ja) 撮像装置
JP2000284794A (ja) 音声認識装置及び方法、及び音声認識システム
JP2019159333A (ja) 文字入力支援システム、文字入力支援プログラム
JPH03162165A (ja) 留守番電話機
KR20050077682A (ko) 명함 관리장치
JP2006018507A (ja) 音声録音装置、文書管理支援装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050412

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050922