JP3698635B2 - 音声認識処理装置 - Google Patents

音声認識処理装置 Download PDF

Info

Publication number
JP3698635B2
JP3698635B2 JP2000332912A JP2000332912A JP3698635B2 JP 3698635 B2 JP3698635 B2 JP 3698635B2 JP 2000332912 A JP2000332912 A JP 2000332912A JP 2000332912 A JP2000332912 A JP 2000332912A JP 3698635 B2 JP3698635 B2 JP 3698635B2
Authority
JP
Japan
Prior art keywords
voice
recognition
display screen
unit
button
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000332912A
Other languages
English (en)
Other versions
JP2002140190A (ja
Inventor
康雄 傍島
泰宏 藤井
成一 天白
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ARCADIA, INC.
Original Assignee
ARCADIA, INC.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARCADIA, INC. filed Critical ARCADIA, INC.
Priority to JP2000332912A priority Critical patent/JP3698635B2/ja
Publication of JP2002140190A publication Critical patent/JP2002140190A/ja
Application granted granted Critical
Publication of JP3698635B2 publication Critical patent/JP3698635B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

【0001】
【発明の技術分野】
この発明は、音声認識とこれに関連した処理に関するものであり、特にそのユーザインターフェイスに関するものである。
【0002】
【従来の技術および課題】
使用者が音声によってコマンドをコンピュータに入力し、コンピュータが音声認識を行ってコマンドを理解し、当該コマンドを実行することが行われている。
【0003】
しかし、処理に必要な全てのコマンドを音声入力によって行うことは、音声認識の認識率が100%でないことと相まって、困難であることが多い。このため、音声に入力によるコマンドと、キーボードやマウスによる入力とを併用した処理も行われている。
【0004】
しかし、従来では、音声入力とキーボードやマウスによる入力が、使用者にとって、全く分離した操作となっていた。このため、一連の操作の流れが、音声入力の場面において途切れてしまい、作業効率がよくないと言う問題があった。
【0005】
音声認識においては、認識対象とする音声を確定することが重要である。このため、音声認識装置が、認識対象音声の入力開始と終了を画面などで指示し、この画面指示に合わせて使用者が音声入力することが行われている。しかし、この方法は、使用者が開始と終了のタイミングを決定できず、プレッシャーが大きくなり、タイミングも取りづらいという問題があった。
【0006】
また、使用者が、音声入力の開始を示す操作をキーボードなどで行うとともに発話を行い、発話が終われば音声入力の終了を示す操作を行うことも行われている。しかし、この方法は、使用者が自発的に発話のタイミングを決定できるという利点があるものの、操作が煩わしいという問題があった。
【0007】
さらに、音声認識を用いて画像を入力しようとする場合には、その入力位置を指定したり、画像の大きさを指定したりすることが容易ではなかった。
【0008】
この発明は上記のような問題点を解決して、マウス等による操作と、音声入力が有機的に結合され、一連の流れの中で音声入力を行うことのできる音声入力処理装置を提供することを目的とする。特に、入力位置の指定や画像の大きさの指定などの入力を含んだ音声認識処理を、ストレス無くスムースに実現できる装置を提供することを目的とする。
【0009】
また、音声認識の対象となる音声を入力するタイミング(音声入力の開始、終了)をあわせやすく操作が簡単な音声入力処理装置を提供することを目的とする。
【0010】
【発明が解決しようとする課題】
(1)この発明の音声認識処理装置は、音声認識部が、位置入力部による表示画面上の位置指定の入力操作に連動して、認識対象とする音声を取得し、処理実行部が、位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することを特徴としている。
【0011】
したがって、使用者は、処理実行結果の表示位置の指定操作と同時に発話して音声入力を行うことで、認識対象である音声を取得させ、認識結果に基づく処理の実行結果を表示位置に表示させることができる。すなわち、位置指定の操作と音声入力が有機的に結合し、操作が簡易でありながら、発話タイミングを操作者が決定できる音声認識処理装置を実現できる。
【0012】
(3)この発明の音声認識処理装置は、位置入力部が、ポインティングデバイスを備えており、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了することを特徴としている。
【0013】
したがって、位置指定のため、ポインティングデバイスのボタンを押して離す操作と同時に、認識させたい音声を入力するだけで、認識対象である音声が正しいタイミングで取得される。
【0014】
(4)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタン押下の際のカーソルの位置により決定されることを特徴としている。したがって、容易に表示位置を決定することができる。
【0015】
(5)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されることを特徴としている。したがって、マウスなどのドラッグ処理を行いつつ、画像表示位置を発話によって指定することができる。
【0016】
(6)この発明の音声認識処理装置は、カーソルの移動軌跡上に、基本画像を表示することを特徴としている。したがって、使用者は、基本画像の表示によって画面上での画像入力位置を確認しつつ発話を行うことができる。
【0017】
(7)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されることを特徴としている。したがって、連続した画像の表示を行う際の位置決定が容易である。
【0018】
(9)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させることを特徴としている。
【0019】
したがって、ボタン押下の時間を調整するだけで、処理内容を変化させることができる
(10)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変えることを特徴としている。
【0020】
したがって、位置指定のためのボタン押下の時間を短くしたり長くしたりするだけで、処理結果として表示される画像の大きさを変えることができる
(11)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止することを特徴としている。
【0021】
したがって、使用者は、ボタン押下の時間長の目安を、ガイド画像の大きさによって知ることができる。
【0022】
(12)この発明の音声認識処理装置は、音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止することを特徴としている。
【0023】
したがって、使用者は、音声認識処理中であることを知ることができ、重複入力などを避けることができる。
【0024】
(14)この発明の音声認識処理装置は、音声入力部が、位置入力部による位置指定の入力に連動して、音声認識の対象とする音声の取り込みを開始し、処理実行部が、位置入力部によって指定された位置に関連づけて、認識結果に対応する処理を実行することを特徴としている。
【0025】
したがって、使用者は、位置指定の操作と同時に発話して音声入力を行うことで、認識対象である音声を取得させ、指定位置に関連づけて認識結果に対応する処理を行わせることができる。すなわち、すなわち、位置指定の操作と音声入力が有機的に結合し、操作が簡易でありながら、発話タイミングを操作者が決定できる音声認識処理装置を実現できる。
【0026】
(17)この発明の音声認識処理装置は、位置入力部による一単位の入力が行われると同時に入力された音声を、認識対象とすることを特徴としている。
【0027】
したがって、使用者は、一単位の位置入力と同時に、音声の入力を行うだけで、別途、認識対象音声の入力開始や終了を指示することなく、指定された位置に関連づけて音声認識を行わせることができる。
【0028】
この発明において、「ポインティングデバイス」とは、少なくとも、画面上のカーソルを移動して、位置の入力を行うことのできる機器をいい、マウス、トラックボール、キーボードの矢印カーソルとエンターキーなどがこれに該当する。
【0029】
「プログラムを記録した記録媒体」とは、プログラムを記録したROM、RAM、フレキシブルディスク、CD−ROM、メモリカード、ハードディスク等の記録媒体をいう。また、電話回線、搬送路等の通信媒体も含む概念である。CPUに接続されて、記録されたプログラムが直接実行されるハードディスクのような記録媒体だけでなく、一旦ハードディスク等にインストールした後に実行されるプログラムを記録したCD−ROM等の記録媒体を含む概念である。さらに、ここでいうプログラムには、直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む。
【0030】
【発明の実施の形態】
1.装置の全体構成と概要
図1に、この発明の一実施形態による音声認識処理装置のブロック図を示す。また、図2に、位置入力部4としてマウスを用いた場合の処理概要を示す。以下、図1、図2を参照して、本装置の概要を示す
図1において、位置入力部4は、使用者の操作により、表示部2の表示画面上の位置を入力するものである。音声入力部6は、使用者の発した音声を入力し、音声認識部8に与えるものである。
【0031】
使用者は、表示部2上において画像を表示したい位置を、位置入力部4を操作して入力する(図2の処理20、26)。この操作に対応して、音声認識部8は、音声入力部6からの音声の取り込みを開始する(図2の処理30)。使用者は、音声入力部6から、表示したい画像を音声にて入力する(処理22)。同時に、処理実行部10は、位置入力部4によって指定された表示部2の位置に、時間経過とともに徐々に大きくなるガイド画像を表示する(処理38)。
【0032】
使用者は、音声入力を終えると、位置入力部4を操作する(処理24)。この操作により、音声認識部8は、音声の取り込みを終了し(処理30)、取り込んだ音声の認識を開始する(処理32)。これとともに、処理実行部10は、音声認識中であることを示すガイド画像を表示する(処理40)。また、処理実行部10は、操作が行われた時点のガイド画像の大きさを取得する(処理28)。
【0033】
さらに、処理実行部10は、音声認識部8の認識結果を受けて、当該認識結果に対応する表示画像を読み出し、ガイド画像の大きさに合致するように、拡大または縮小する(処理34)。その後、位置入力部4によって指定された表示2上の位置に、ガイド画像の大きさに合致させた表示画像を表示する(処理44)。
【0034】
また、処理事項部10は、音声認識部8の認識結果を受けて、当該認識結果に対応する効果音を読み出し、音出力部12から出力する(処理42)。これにより、所望の画像の表示とともに効果音が出力される。
【0035】
このように、使用者は、表示位置の指定、音声入力のタイミング、表示画像の大きさなどの指定を、位置入力部4の操作によって簡易に行うことができる。
【0036】
2.ハードウエア構成
図3に、図1の音声認識処理装置を、CPUを用いて実現した場合のハードウエア構成を示す。CPU50には、ディスプレイ52、メモリ62、ハードディスク64、CD−ROMドライブ66、マウス68が接続されている。また、アナログディジタル(A/D)変換器58を介して、マイク54が接続され、ディジタルアナログ(D/A)変換器60を介して、スピーカ56が接続されている。
【0037】
ハードディスク64には、オペレーティングシステム(OS)(たとえば、マイクロソフト社のWINDOWS)、音声認識処理プログラムなどが記録されている。音声認識プログラムは、OSと共同してその機能を達成している。OS、音声認識プログラムは、CD−ROMドライブ66を介して、CD−ROM70からハードディスク64にインストールしたものである。また、ハードディスク64には、音声認識のための音響モデルファイル、ボキャブラリーファイルや、キャラクタ名とキャラクタ画像を対応付けて記録した画像データベース、キャラクタ名と効果音を対応付けて記録した効果音データベースが記録されている。
【0038】
マイク54は、使用者の発話した音声を取得するものである。取得したアナログ音声は、A/D変換器58によって、ディジタルデータに変換される。マイク54としては、通常のマイクロフォンの他、骨伝導マイクロフォンを用いることができる。
【0039】
スピーカ56は、使用者に向けて、音を出力するためのものである。CPU50の処理によって与えられたディジタルデータが、D/A変換器60によって、アナログ信号に変換され、スピーカ56に与えられる。
【0040】
マウス68は、回転センサ682と押下スイッチ684を備えている。マウス68の筐体を移動させることにより、マウス筐体内の回転体が回転し、これを回転センサ682が検出する。OSは、この回転センサ682の出力に応じて、ディスプレイ52上のカーソルの表示位置を移動させる。使用者は、カーソルの位置を入力する場合には、スイッチ684を押下する。これにより、OSは、カーソルに対応する位置の入力を受け付ける。なお、キャンセル操作用のスイッチが設けられたマウスを用いてもよい。
【0041】
3.音声認識処理プログラム
(1)固定位置モード
図4に、ハードディスク64に記録された音声認識処理プログラムのフローチャートを示す。図6、図7に、ディスプレイ52に表示される内容を示す。まず、使用者は、図6Aの画面において、固定位置モードのためのアイコン100をマウス68によりクリック(スイッチ684を押下)する。これにより、固定位置モードによる処理が開始される。
【0042】
以下では、所望の大きさのキャラクターの絵を、所望の位置に表示させる処理を行う場合を例として説明する。
【0043】
操作者は、マウス68を操作して、キャラクターの絵を表示させたい位置にカーソル11を移動させる。所望の位置に来れば、マウス68のスイッチ684を押下する(図6A参照)。これにより、CPU50は、カーソル11の位置の座標を取得し、これを画像表示位置としてメモリ62に記憶する(ステップS1、S2)。
【0044】
操作者は、このマウス操作とともに、マイク54に、所望のキャラクターの名前を音声で入力する。CPU50は、上記マウス操作を受けて、マイク54からの音声の取り込みを開始し、ハードディスク64への記録を開始する(ステップS3)。さらに、CPU50は、上記マウス操作を受けて、ステップS2で得たディスプレイ52上の画像表示位置に、時間経過とともに徐々に大きくなる円13(ガイド画像)を表示する処理を開始する(ステップS4、図6B参照)。
【0045】
使用者は、キャラクターの名前の音声入力を終えると、押下していたマウス68のスイッチ684を離す(押下を停止する)。CPU50は、このマウス操作を受けて、マイク54からの音声の取り込み・記録を中止し、ハードディスク64に認識対象音声ファイルを生成する。
【0046】
また、CPU50は、このマウス操作を受けて、徐々に大きくなる円13の表示を終了し、このマウス操作がなされたときの円13の大きさに対応する画像表示サイズ値を決定する(ステップS7、図6C参照)。したがって、使用者は、マウス68のスイッチ684を離すタイミングを調節することにより、表示するキャラクターの大きさを決定することができる。また、この際、スイッチ684を離した際の円13の大きさによって、表示されるキャラクターのおおよその大きさを示すようにしているので、直感的に分かりやすいユーザインターフェイスが実現されている。
【0047】
次に,CPU50は、ハードディスク64に記録された認識対象音声ファイルの音声認識を開始する(ステップS8)。また、CPU50は、ディスプレイ52上の画像表示位置に、現在音声認識中であることを示すバブル画像15(ガイド画像)を表示する(ステップS9、図7A参照)。CPU50は、図7Bに示すように、バブル画像15を変化させながら表示する。使用者は、このバブル画像15を見て、現在音声認識中であることを知ることができる。
【0048】
音声認識は、ハードディスク64に記録された音響モデルのファイルとボキャブラリーファイルを用いて行う。ボキャブラリーファイルには、認識対象として予め登録されているボキャブラリーが記録されている。この実施形態では、キャラクターの名前が複数記録されている。CPU50は、音響モデルによって音声データを音素列データに変換し、ボキャブラリーファイルを参照して、最終的な認識を行っている。認識結果はテキストデータとして得られる。
【0049】
認識が終了すると、認識結果に対応する画像を、ハードディスク64の画像データベースから読み出す(ステップS11)。画像データベースには、キャラクターの名前と画像とが対応付けて記録されている。
【0050】
次に、ステップS7において得た画像表示サイズ値に基づいて、画像データベースから読み出した画像の大きさを変更する(ステップS12)。また、バブル画像15の表示を停止して、大きさの調整をしたキャラクタの画像17を表示する(ステップS13、図7C参照)。
【0051】
さらに、CPU50は、認識結果に対応する効果音を、ハードディスク64の効果音データベースから読み出す(ステップS14)。効果音データベースには、キャラクターの名前と効果音データとが対応付けて記録されている。次に、CPU50は、取得した効果音をスピーカ56から出力する。これにより、キャラクターの表示とともに、当該キャラクターに対応した効果音が出力される。
【0052】
上記のようにして、使用者は、マウスによるクリック操作を行いつつ発話するだけで、キャラクター表示位置、大きさなどを容易に指定することができる。
【0053】
(2)ドラッグモード
上記の固定位置モードでは、マウス68をクリックした位置にキャラクターの画像を表示(入力)するようにしている。この実施形態では、マウス68のドラッグ操作により、マウスドラッグの軌跡に沿って基本画像の表示(入力)を行うとともに、マウスドラッグ中に発話した位置に対応する画像を表示(入力)できるドラッグモード選択できるようにしている。
【0054】
図9のドラッグモードアイコン102をクリックすることにより、ドラッグモードの処理が行われる。この実施形態では、ドラッグ操作によって生成される基本画像(草の絵)が、アイコン102の絵として用いられている。これにより、直感的にわかりやすいインターフェイスを実現している。
【0055】
ドラッグモードにおける処理を図8a、図8bに示す。以下では、草の画像(基本画像)をマウス68のドラッグ軌跡に沿って表示させ、所望の位置に花の画像を表示させる場合を例として説明する。
【0056】
マウス68のスイッチ684が押され(ステップS51)、スイッチ684を押下したままマウス68が移動されると(いわゆるドラッグ操作がなされると)、CPU50は、そのドラッグ軌跡の座標上に、基本画像である草の画像21を表示する処理を行う(ステップS52、図9A参照)。なお、この実施形態では、ドラッグモードにおける基本画像は草の画像として予め定められているが、使用者が選択できるようにしてもよい。
【0057】
CPU50は、ドラッグの軌跡に沿って草画像21を表示し、マウス68のスイッチ684が離されると(ドラッグが終了すると)、新たな草画像21の表示を停止する(ステップS55、S56)。
【0058】
マウスドラッグ中(すなわちドラッグ軌跡に沿った草画像表示処理中)に、使用者は、所望の位置において、「はな」という音声入力を行う。音声入力があると、CPU50は、図8aの処理と並行して、図8bに示す処理を実行する(ステップS53、S54)。
【0059】
まず、CPU50は、最初に音声が入力された時のマウスの座標位置を取得する(ステップS61)。この座標位置を画像表示位置としてメモリ62に記憶する。この音声入力の開始を検出すると、マイク54からの音声を取り込んで記録する処理を開始する(ステップS62)。
【0060】
CPU50は、音声入力の終了を検出すると、マイク54からの音声の取り込み・記録を中止し、認識対象音声ファイルをハードディスク64に生成する(ステップS63、S64)。
【0061】
次に、CPU50は、認識対象音声ファイルに記録された音声の認識を開始する(ステップS65)。また、CPU50は、音声認識中であることを示すバブル画像15を、上記画像表示位置に表示する(ステップS64、S65、図9B参照)。この認識処理およびバブル画像の表示中も、図8aの処理は並行して進められる。すなわち、図8aのステップS52の基本画像の描画処理は、マウス68がドラッグされている間中、繰り返して行われる(ステップS55参照)。ドラッグが終了した時点でのディスプレイ52上の表示を、図9Cに示す。
【0062】
認識が終了すれば、認識結果として得られたテキストデータ「はな」に対応する花の画像を読み出す(ステップS67、S68)。さらに、CPU50は、バブル表示を停止し、画像表示位置上に花の画像23を表示する(ステップS69、図10参照)。
【0063】
上記のようにして、使用者は、ドラッグ操作の軌跡に沿って基本画像21を入力し、軌跡中の所望の位置で音声を入力することにより、当該所望の位置に画像23を入力することができる。すなわち、基本画像によって所望の位置を確認して発話タイミングをとることができ、あわせて、基本画像の入力を行うこともできる。
【0064】
なお、上記では、所望の画像入力後も基本画像を残すようにしているが、所望の画像の入力後は、基本画像を消去するようにしてもよい。この場合でも、基本画像は、所望の位置を知る為のガイダンスとしての意味を有する。
【0065】
4.連続位置モード
上記の固定位置モード、ドラッグモードでは、マウス68をクリックした位置や発話開始時の位置に所望の画像を表示(入力)するようにしている。他の実施形態では、マウス68のドラッグ操作により、複数の画像をマウスドラッグの軌跡に沿って表示(入力)できる連続位置モードを設けてもよい。
【0066】
連続位置モードにおける処理を図11に示す。以下では、「花」の画像を、マウス68のドラッグ軌跡に沿って表示させる場合を例として説明する。
【0067】
使用者は、連続入力のためのスタート位置において、マウス68のスイッチ684を押下するとともに(図12A)、マイク54に「はな」という音声を入力する。このマウス操作により、CPU50は、マイク54からの音声の取り込み・記録を開始する(ステップS52)。使用者は、マウス68のスイッチ684を押下したまま、マウス68を移動させてカーソル11を移動させる。いわゆるドラッグ操作を行う。CPU50は、このマウスのドラッグ操作によるカーソル11の軌跡を画像表示位置として取得するとともに、当該軌跡をディスプレイ52上に線31として表示する(ステップS53、図12B、C参照)。
【0068】
マウス68のスイッチ684の押下が停止されると、CPU50は、マイク54からの音声の取り込み・記録を中止し、認識対象音声ファイルをハードディスク64に生成する(ステップS55)。
【0069】
次に、CPU50は、認識対象音声ファイルに記録された音声の認識を開始する(ステップS56)。また、CPU50は、音声認識中であることを示すバブル画像15を、上記軌跡31上に表示する(ステップS57、図13A、B参照)。認識が終了すれば、認識結果として得られたテキストデータ「はな」に対応する花の画像を読み出す(ステップS59)。さらに、CPU50は、バブル表示15を停止し、画像表示位置であるドラッグ軌跡31上に、花の画像を表示する(ステップS60、図13C参照)。この際、CPU50は、ドラッグ軌跡31の長さに応じた数だけ読み出した花の画像33を複製し、軌跡31上に表示するようにしている。また、複製した花の画像33の大きさをランダムに変化させることにより、自然な連続画像を生成している。
【0070】
上記のようにして、ドラッグ操作により、音声により指定した画像を、ドラッグ軌跡上に連続して表示させることができる。
【0071】
5.その他の実施形態
(1)この発明は、図14、図15に示すような、装置として適用することもできる。押圧による位置検出センサの付いたボード300の上に、「く」「ふ」などの文字が表示されている。幼児に対し、ペン310を使って、この文字の上をなぞりながら、「く」と発声させる。音声認識部8は、文字の上をなぞっている間(つまり位置検出センサがペン310の押圧力を検知している間)に、マイク6からの音声の取り込み記録を行って、認識対象音声を取得する。処理実行部10は、位置検出センサにより、いずれの文字がなぞられたのかを判断し(たとえば、予め、各文字の記述されている座標をテーブルとして記録しておくことにより可能)音声認識の結果と文字とが一致すれば、幼児に対して「よくできました」等の音をスピーカ12から出す。
【0072】
上記のようにすれば、音声入力のタイミングを意識することなく、自然にかつ正確なタイミングで音声入力を行うことができる。
【0073】
なお、「ふ」のように、一旦、ペン310を浮かせなければ記述できない文字を一単位の入力として扱うために、、所定時間より短い時間の圧力無検知があっても、連続してペンにより押圧がなされているものとして扱うことが好ましい。
【0074】
(2)上記各実施形態では、認識対象音声を一旦記録した後に音声認識を行っているが、取り込むと同時に音声認識を行うようにしてもよい。
【0075】
(3)上記実施形態では、音声認識を行う対象となる音声は、キャラクター名などを示すものであったが、コマンドを音声として入力する場合にも適用することができる。
【0076】
(4)上記実施形態では、マウスのボタンを押下している時間に対応して、画像の大きさを変化させるようにしているが、表示画像の色、模様、文字などを変化させるようにしてもよい。さらに、処理の結果として表示される画像を変化させるのではなく、上記時間に応じて、処理の内容(処理方法、処理アルゴリズムなど)を変えるようにしてもよい。
【0077】
(5)上記実施形態では、表示画像の大きさを決定するためのガイド画像として、徐々に大きくなる円を用いている。しかし、時間とともに徐々に伸びてゆくバー表示を用いてもよい。また、大きさを変化させず、時間とともに徐々に色が変わっていくようなガイド画像を用いてもよい。
【図面の簡単な説明】
【図1】この発明の一実施形態による音声認識処理装置のブロック構成を示す図である。
【図2】この発明の一実施形態による音声認識処理装置の処理概要を示す図である。
【図3】一実施形態による音声認識処理装置のハードウエア構成を示す図である。
【図4】音声認識処理プログラム(固定位置モード)のフローチャートを示す図である。
【図5】音声認識処理プログラム(固定位置モード)のフローチャートを示す図である。
【図6】固定位置モードにおける画面表示を示す図である。
【図7】固定位置モードにおける画面表示を示す図である。
【図8a】音声認識処理プログラム(ドラッグモード)のフローチャートを示す図である。
【図8b】音声認識処理プログラム(ドラッグモード)のフローチャートを示す図である。
【図9】ドラッグモードにおける画面表示を示す図である。
【図10】ドラッグモードにおける画面表示を示す図である。
【図11】音声認識処理プログラム(連続位置モード)のフローチャートを示す図である。
【図12】連続位置モードにおける画面表示を示す図である。
【図13】連続位置モードにおける画面表示を示す図である。
【図14】他の実施形態を示す図である。
【図15】他の実施形態を示す図である。
【符号の説明】
2・・・表示部
4・・・位置入力部
6・・・音声入力部
8・・・音声認識部
10・・・処理実行部
12・・・音出力部

Claims (19)

  1. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
    を特徴とする音声認識処理装置。
  2. 請求項1の音声認識処理装置において、
    前記カーソルの移動軌跡上に、基本画像を表示することを特徴とするもの。
  3. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
    を特徴とする音声認識処理装置。
  4. 請求項1〜のいずれかの音声認識処理装置において、
    前記認識対象として取得した音声を一旦記録し、当該記録した音声を読み出して認識処理を行うことを特徴とするもの。
  5. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
    を特徴とする音声認識処理装置。
  6. 請求項5の音声認識処理装置において、
    前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変えることを特徴とするもの。
  7. 請求項5または請求項6の音声認識処理装置において、
    前記ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止することを特徴とするもの。
  8. 請求項5〜7のいずれかの音声認識処理装置において、
    音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止することを特徴とするもの。
  9. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    を備えたコンピュータにより、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    実現するためのプログラムを記録した記録媒体であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
    を特徴とする音声認識処理プログラムを記録した記録媒体。
  10. 請求項9の音声認識処理プログラムを記録した記録媒体において、
    前記カーソルの移動軌跡上に、基本画像を表示する処理を行うことを特徴とするもの。
  11. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    を備えたコンピュータにより、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を実現するためのプログラムを記録した記録媒体であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
    を特徴とする音声認識処理プログラムを記録した記録媒体。
  12. 請求項9〜11のいずれかの音声認識処理プログラムを記録した記録媒体において、
    前記認識対象として取得した音声を一旦記録し、当該記録した音声を読み出して認識処理を行うことを特徴とするもの。
  13. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    を備えたコンピュータにより、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    実現するためのプログラムを記録した記録媒体であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
    を特徴とする音声認識処理プログラムを記録した記録媒体。
  14. 請求項13の音声認識処理プログラムを記録した記録媒体において、
    前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変える処理を行うことを特徴とするもの。
  15. 請求項13または請求項14の音声認識処理プログラムを記録した記録媒体において、
    前記ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止する処理を行うことを特徴とするもの。
  16. 請求項13〜15のいずれかの音声認識処理プログラムを記録した記録媒体において、
    音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止する処理を行うことを特徴とするもの。
  17. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
    を特徴とする音声認識処理方法。
  18. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
    を特徴とする音声認識処理方法。
  19. 表示画面を有する表示部と、
    使用者の操作により、表示画面上の位置を入力するための位置入力部と、
    使用者の音声を入力するための音声入力部と、
    位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
    位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
    を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
    前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
    前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
    を特徴とする音声認識処理方法。
JP2000332912A 2000-10-31 2000-10-31 音声認識処理装置 Expired - Lifetime JP3698635B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000332912A JP3698635B2 (ja) 2000-10-31 2000-10-31 音声認識処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000332912A JP3698635B2 (ja) 2000-10-31 2000-10-31 音声認識処理装置

Publications (2)

Publication Number Publication Date
JP2002140190A JP2002140190A (ja) 2002-05-17
JP3698635B2 true JP3698635B2 (ja) 2005-09-21

Family

ID=18809056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000332912A Expired - Lifetime JP3698635B2 (ja) 2000-10-31 2000-10-31 音声認識処理装置

Country Status (1)

Country Link
JP (1) JP3698635B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670295B2 (en) 2019-12-04 2023-06-06 Samsung Electronics Co., Ltd. Device, method, and program for enhancing output content through iterative generation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4679463B2 (ja) * 2006-07-28 2011-04-27 株式会社第一興商 静止画像表示システム
JP4679480B2 (ja) * 2006-09-29 2011-04-27 株式会社第一興商 静止画像対応録音ナレーション自動出力システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11670295B2 (en) 2019-12-04 2023-06-06 Samsung Electronics Co., Ltd. Device, method, and program for enhancing output content through iterative generation

Also Published As

Publication number Publication date
JP2002140190A (ja) 2002-05-17

Similar Documents

Publication Publication Date Title
US10276164B2 (en) Multi-speaker speech recognition correction system
US6728680B1 (en) Method and apparatus for providing visual feedback of speed production
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US6535848B1 (en) Method and apparatus for transcribing multiple files into a single document
US20060075347A1 (en) Computerized notetaking system and method
JPH03163623A (ja) 音声制御コンピュータ・インターフェース
US6499015B2 (en) Voice interaction method for a computer graphical user interface
US6820056B1 (en) Recognizing non-verbal sound commands in an interactive computer controlled speech word recognition display system
KR20080104099A (ko) 입력 장치 및 그 입력 방법
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
US10770077B2 (en) Electronic device and method
JPWO2018100743A1 (ja) 制御装置および機器制御システム
JP3399674B2 (ja) 画面制御装置とその方法
JP2007226388A (ja) コマンド入力装置及びプログラム
JPH06131108A (ja) 情報入力装置
JP3698635B2 (ja) 音声認識処理装置
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
WO2015135300A1 (zh) 语音控制电视机的方法及其电视机
JP3879793B2 (ja) 発言構造検出表示装置
JP4781186B2 (ja) ユーザインタフェース提示装置および方法
JP2002259113A (ja) 音声マクロ処理装置、その方法、そのコンピュータ・プログラムおよびそのプログラムを記録した記録媒体
JP3682922B2 (ja) リアルタイム文字修正装置およびリアルタイム文字修正プログラム
KR20200137403A (ko) 음성 인식 기능을 구비한 전자칠판 및 전자칠판시스템
JP2006189799A (ja) 選択可能な音声パターンの音声入力方法及び装置
JPH09237151A (ja) グラフィカルユーザインタフェース

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050705

R150 Certificate of patent or registration of utility model

Ref document number: 3698635

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080715

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090715

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100715

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110715

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120715

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130715

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term