JP3698635B2

JP3698635B2 - 音声認識処理装置

Info

Publication number: JP3698635B2
Application number: JP2000332912A
Authority: JP
Inventors: 康雄傍島; 泰宏藤井; 成一天白
Original assignee: ARCADIA, INC.
Current assignee: ARCADIA, INC.
Priority date: 2000-10-31
Filing date: 2000-10-31
Publication date: 2005-09-21
Anticipated expiration: 2020-10-31
Also published as: JP2002140190A

Description

【０００１】
【発明の技術分野】
この発明は、音声認識とこれに関連した処理に関するものであり、特にそのユーザインターフェイスに関するものである。
【０００２】
【従来の技術および課題】
使用者が音声によってコマンドをコンピュータに入力し、コンピュータが音声認識を行ってコマンドを理解し、当該コマンドを実行することが行われている。
【０００３】
しかし、処理に必要な全てのコマンドを音声入力によって行うことは、音声認識の認識率が１００％でないことと相まって、困難であることが多い。このため、音声に入力によるコマンドと、キーボードやマウスによる入力とを併用した処理も行われている。
【０００４】
しかし、従来では、音声入力とキーボードやマウスによる入力が、使用者にとって、全く分離した操作となっていた。このため、一連の操作の流れが、音声入力の場面において途切れてしまい、作業効率がよくないと言う問題があった。
【０００５】
音声認識においては、認識対象とする音声を確定することが重要である。このため、音声認識装置が、認識対象音声の入力開始と終了を画面などで指示し、この画面指示に合わせて使用者が音声入力することが行われている。しかし、この方法は、使用者が開始と終了のタイミングを決定できず、プレッシャーが大きくなり、タイミングも取りづらいという問題があった。
【０００６】
また、使用者が、音声入力の開始を示す操作をキーボードなどで行うとともに発話を行い、発話が終われば音声入力の終了を示す操作を行うことも行われている。しかし、この方法は、使用者が自発的に発話のタイミングを決定できるという利点があるものの、操作が煩わしいという問題があった。
【０００７】
さらに、音声認識を用いて画像を入力しようとする場合には、その入力位置を指定したり、画像の大きさを指定したりすることが容易ではなかった。
【０００８】
この発明は上記のような問題点を解決して、マウス等による操作と、音声入力が有機的に結合され、一連の流れの中で音声入力を行うことのできる音声入力処理装置を提供することを目的とする。特に、入力位置の指定や画像の大きさの指定などの入力を含んだ音声認識処理を、ストレス無くスムースに実現できる装置を提供することを目的とする。
【０００９】
また、音声認識の対象となる音声を入力するタイミング（音声入力の開始、終了）をあわせやすく操作が簡単な音声入力処理装置を提供することを目的とする。
【００１０】
【発明が解決しようとする課題】
(1)この発明の音声認識処理装置は、音声認識部が、位置入力部による表示画面上の位置指定の入力操作に連動して、認識対象とする音声を取得し、処理実行部が、位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することを特徴としている。
【００１１】
したがって、使用者は、処理実行結果の表示位置の指定操作と同時に発話して音声入力を行うことで、認識対象である音声を取得させ、認識結果に基づく処理の実行結果を表示位置に表示させることができる。すなわち、位置指定の操作と音声入力が有機的に結合し、操作が簡易でありながら、発話タイミングを操作者が決定できる音声認識処理装置を実現できる。
【００１２】
(3)この発明の音声認識処理装置は、位置入力部が、ポインティングデバイスを備えており、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了することを特徴としている。
【００１３】
したがって、位置指定のため、ポインティングデバイスのボタンを押して離す操作と同時に、認識させたい音声を入力するだけで、認識対象である音声が正しいタイミングで取得される。
【００１４】
(4)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタン押下の際のカーソルの位置により決定されることを特徴としている。したがって、容易に表示位置を決定することができる。
【００１５】
(5)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されることを特徴としている。したがって、マウスなどのドラッグ処理を行いつつ、画像表示位置を発話によって指定することができる。
【００１６】
(6)この発明の音声認識処理装置は、カーソルの移動軌跡上に、基本画像を表示することを特徴としている。したがって、使用者は、基本画像の表示によって画面上での画像入力位置を確認しつつ発話を行うことができる。
【００１７】
(7)この発明の音声認識処理装置は、表示位置が、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されることを特徴としている。したがって、連続した画像の表示を行う際の位置決定が容易である。
【００１８】
(9)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させることを特徴としている。
【００１９】
したがって、ボタン押下の時間を調整するだけで、処理内容を変化させることができる
(10)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変えることを特徴としている。
【００２０】
したがって、位置指定のためのボタン押下の時間を短くしたり長くしたりするだけで、処理結果として表示される画像の大きさを変えることができる
(11)この発明の音声認識処理装置は、ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止することを特徴としている。
【００２１】
したがって、使用者は、ボタン押下の時間長の目安を、ガイド画像の大きさによって知ることができる。
【００２２】
(12)この発明の音声認識処理装置は、音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止することを特徴としている。
【００２３】
したがって、使用者は、音声認識処理中であることを知ることができ、重複入力などを避けることができる。
【００２４】
(14)この発明の音声認識処理装置は、音声入力部が、位置入力部による位置指定の入力に連動して、音声認識の対象とする音声の取り込みを開始し、処理実行部が、位置入力部によって指定された位置に関連づけて、認識結果に対応する処理を実行することを特徴としている。
【００２５】
したがって、使用者は、位置指定の操作と同時に発話して音声入力を行うことで、認識対象である音声を取得させ、指定位置に関連づけて認識結果に対応する処理を行わせることができる。すなわち、すなわち、位置指定の操作と音声入力が有機的に結合し、操作が簡易でありながら、発話タイミングを操作者が決定できる音声認識処理装置を実現できる。
【００２６】
(17)この発明の音声認識処理装置は、位置入力部による一単位の入力が行われると同時に入力された音声を、認識対象とすることを特徴としている。
【００２７】
したがって、使用者は、一単位の位置入力と同時に、音声の入力を行うだけで、別途、認識対象音声の入力開始や終了を指示することなく、指定された位置に関連づけて音声認識を行わせることができる。
【００２８】
この発明において、「ポインティングデバイス」とは、少なくとも、画面上のカーソルを移動して、位置の入力を行うことのできる機器をいい、マウス、トラックボール、キーボードの矢印カーソルとエンターキーなどがこれに該当する。
【００２９】
「プログラムを記録した記録媒体」とは、プログラムを記録したＲＯＭ、ＲＡＭ、フレキシブルディスク、ＣＤ−ＲＯＭ、メモリカード、ハードディスク等の記録媒体をいう。また、電話回線、搬送路等の通信媒体も含む概念である。ＣＰＵに接続されて、記録されたプログラムが直接実行されるハードディスクのような記録媒体だけでなく、一旦ハードディスク等にインストールした後に実行されるプログラムを記録したＣＤ−ＲＯＭ等の記録媒体を含む概念である。さらに、ここでいうプログラムには、直接実行可能なプログラムだけでなく、ソース形式のプログラム、圧縮処理がされたプログラム、暗号化されたプログラム等を含む。
【００３０】
【発明の実施の形態】
１．装置の全体構成と概要
図１に、この発明の一実施形態による音声認識処理装置のブロック図を示す。また、図２に、位置入力部４としてマウスを用いた場合の処理概要を示す。以下、図１、図２を参照して、本装置の概要を示す
図１において、位置入力部４は、使用者の操作により、表示部２の表示画面上の位置を入力するものである。音声入力部６は、使用者の発した音声を入力し、音声認識部８に与えるものである。
【００３１】
使用者は、表示部２上において画像を表示したい位置を、位置入力部４を操作して入力する（図２の処理２０、２６）。この操作に対応して、音声認識部８は、音声入力部６からの音声の取り込みを開始する（図２の処理３０）。使用者は、音声入力部６から、表示したい画像を音声にて入力する（処理２２）。同時に、処理実行部１０は、位置入力部４によって指定された表示部２の位置に、時間経過とともに徐々に大きくなるガイド画像を表示する（処理３８）。
【００３２】
使用者は、音声入力を終えると、位置入力部４を操作する（処理２４）。この操作により、音声認識部８は、音声の取り込みを終了し（処理３０）、取り込んだ音声の認識を開始する（処理３２）。これとともに、処理実行部１０は、音声認識中であることを示すガイド画像を表示する（処理４０）。また、処理実行部１０は、操作が行われた時点のガイド画像の大きさを取得する（処理２８）。
【００３３】
さらに、処理実行部１０は、音声認識部８の認識結果を受けて、当該認識結果に対応する表示画像を読み出し、ガイド画像の大きさに合致するように、拡大または縮小する（処理３４）。その後、位置入力部４によって指定された表示２上の位置に、ガイド画像の大きさに合致させた表示画像を表示する（処理４４）。
【００３４】
また、処理事項部１０は、音声認識部８の認識結果を受けて、当該認識結果に対応する効果音を読み出し、音出力部１２から出力する（処理４２）。これにより、所望の画像の表示とともに効果音が出力される。
【００３５】
このように、使用者は、表示位置の指定、音声入力のタイミング、表示画像の大きさなどの指定を、位置入力部４の操作によって簡易に行うことができる。
【００３６】
２．ハードウエア構成
図３に、図１の音声認識処理装置を、ＣＰＵを用いて実現した場合のハードウエア構成を示す。ＣＰＵ５０には、ディスプレイ５２、メモリ６２、ハードディスク６４、ＣＤ−ＲＯＭドライブ６６、マウス６８が接続されている。また、アナログディジタル（Ａ／Ｄ）変換器５８を介して、マイク５４が接続され、ディジタルアナログ（Ｄ／Ａ）変換器６０を介して、スピーカ５６が接続されている。
【００３７】
ハードディスク６４には、オペレーティングシステム（ＯＳ）（たとえば、マイクロソフト社のWINDOWS）、音声認識処理プログラムなどが記録されている。音声認識プログラムは、ＯＳと共同してその機能を達成している。ＯＳ、音声認識プログラムは、ＣＤ−ＲＯＭドライブ６６を介して、ＣＤ−ＲＯＭ７０からハードディスク６４にインストールしたものである。また、ハードディスク６４には、音声認識のための音響モデルファイル、ボキャブラリーファイルや、キャラクタ名とキャラクタ画像を対応付けて記録した画像データベース、キャラクタ名と効果音を対応付けて記録した効果音データベースが記録されている。
【００３８】
マイク５４は、使用者の発話した音声を取得するものである。取得したアナログ音声は、Ａ／Ｄ変換器５８によって、ディジタルデータに変換される。マイク５４としては、通常のマイクロフォンの他、骨伝導マイクロフォンを用いることができる。
【００３９】
スピーカ５６は、使用者に向けて、音を出力するためのものである。ＣＰＵ５０の処理によって与えられたディジタルデータが、Ｄ／Ａ変換器６０によって、アナログ信号に変換され、スピーカ５６に与えられる。
【００４０】
マウス６８は、回転センサ６８２と押下スイッチ６８４を備えている。マウス６８の筐体を移動させることにより、マウス筐体内の回転体が回転し、これを回転センサ６８２が検出する。ＯＳは、この回転センサ６８２の出力に応じて、ディスプレイ５２上のカーソルの表示位置を移動させる。使用者は、カーソルの位置を入力する場合には、スイッチ６８４を押下する。これにより、ＯＳは、カーソルに対応する位置の入力を受け付ける。なお、キャンセル操作用のスイッチが設けられたマウスを用いてもよい。
【００４１】
３．音声認識処理プログラム
(1)固定位置モード
図４に、ハードディスク６４に記録された音声認識処理プログラムのフローチャートを示す。図６、図７に、ディスプレイ５２に表示される内容を示す。まず、使用者は、図６Ａの画面において、固定位置モードのためのアイコン１００をマウス６８によりクリック（スイッチ６８４を押下）する。これにより、固定位置モードによる処理が開始される。
【００４２】
以下では、所望の大きさのキャラクターの絵を、所望の位置に表示させる処理を行う場合を例として説明する。
【００４３】
操作者は、マウス６８を操作して、キャラクターの絵を表示させたい位置にカーソル１１を移動させる。所望の位置に来れば、マウス６８のスイッチ６８４を押下する（図６Ａ参照）。これにより、ＣＰＵ５０は、カーソル１１の位置の座標を取得し、これを画像表示位置としてメモリ６２に記憶する（ステップＳ１、Ｓ２）。
【００４４】
操作者は、このマウス操作とともに、マイク５４に、所望のキャラクターの名前を音声で入力する。ＣＰＵ５０は、上記マウス操作を受けて、マイク５４からの音声の取り込みを開始し、ハードディスク６４への記録を開始する（ステップＳ３）。さらに、ＣＰＵ５０は、上記マウス操作を受けて、ステップＳ２で得たディスプレイ５２上の画像表示位置に、時間経過とともに徐々に大きくなる円１３（ガイド画像）を表示する処理を開始する（ステップＳ４、図６Ｂ参照）。
【００４５】
使用者は、キャラクターの名前の音声入力を終えると、押下していたマウス６８のスイッチ６８４を離す（押下を停止する）。ＣＰＵ５０は、このマウス操作を受けて、マイク５４からの音声の取り込み・記録を中止し、ハードディスク６４に認識対象音声ファイルを生成する。
【００４６】
また、ＣＰＵ５０は、このマウス操作を受けて、徐々に大きくなる円１３の表示を終了し、このマウス操作がなされたときの円１３の大きさに対応する画像表示サイズ値を決定する（ステップＳ７、図６Ｃ参照）。したがって、使用者は、マウス６８のスイッチ６８４を離すタイミングを調節することにより、表示するキャラクターの大きさを決定することができる。また、この際、スイッチ６８４を離した際の円１３の大きさによって、表示されるキャラクターのおおよその大きさを示すようにしているので、直感的に分かりやすいユーザインターフェイスが実現されている。
【００４７】
次に，ＣＰＵ５０は、ハードディスク６４に記録された認識対象音声ファイルの音声認識を開始する（ステップＳ８）。また、ＣＰＵ５０は、ディスプレイ５２上の画像表示位置に、現在音声認識中であることを示すバブル画像１５（ガイド画像）を表示する（ステップＳ９、図７Ａ参照）。ＣＰＵ５０は、図７Ｂに示すように、バブル画像１５を変化させながら表示する。使用者は、このバブル画像１５を見て、現在音声認識中であることを知ることができる。
【００４８】
音声認識は、ハードディスク６４に記録された音響モデルのファイルとボキャブラリーファイルを用いて行う。ボキャブラリーファイルには、認識対象として予め登録されているボキャブラリーが記録されている。この実施形態では、キャラクターの名前が複数記録されている。ＣＰＵ５０は、音響モデルによって音声データを音素列データに変換し、ボキャブラリーファイルを参照して、最終的な認識を行っている。認識結果はテキストデータとして得られる。
【００４９】
認識が終了すると、認識結果に対応する画像を、ハードディスク６４の画像データベースから読み出す（ステップＳ１１）。画像データベースには、キャラクターの名前と画像とが対応付けて記録されている。
【００５０】
次に、ステップＳ７において得た画像表示サイズ値に基づいて、画像データベースから読み出した画像の大きさを変更する（ステップＳ１２）。また、バブル画像１５の表示を停止して、大きさの調整をしたキャラクタの画像１７を表示する（ステップＳ１３、図７Ｃ参照）。
【００５１】
さらに、ＣＰＵ５０は、認識結果に対応する効果音を、ハードディスク６４の効果音データベースから読み出す（ステップＳ１４）。効果音データベースには、キャラクターの名前と効果音データとが対応付けて記録されている。次に、ＣＰＵ５０は、取得した効果音をスピーカ５６から出力する。これにより、キャラクターの表示とともに、当該キャラクターに対応した効果音が出力される。
【００５２】
上記のようにして、使用者は、マウスによるクリック操作を行いつつ発話するだけで、キャラクター表示位置、大きさなどを容易に指定することができる。
【００５３】
(2)ドラッグモード
上記の固定位置モードでは、マウス６８をクリックした位置にキャラクターの画像を表示（入力）するようにしている。この実施形態では、マウス６８のドラッグ操作により、マウスドラッグの軌跡に沿って基本画像の表示（入力）を行うとともに、マウスドラッグ中に発話した位置に対応する画像を表示（入力）できるドラッグモード選択できるようにしている。
【００５４】
図９のドラッグモードアイコン１０２をクリックすることにより、ドラッグモードの処理が行われる。この実施形態では、ドラッグ操作によって生成される基本画像（草の絵）が、アイコン１０２の絵として用いられている。これにより、直感的にわかりやすいインターフェイスを実現している。
【００５５】
ドラッグモードにおける処理を図８ａ、図８ｂに示す。以下では、草の画像（基本画像）をマウス６８のドラッグ軌跡に沿って表示させ、所望の位置に花の画像を表示させる場合を例として説明する。
【００５６】
マウス６８のスイッチ６８４が押され（ステップＳ５１）、スイッチ６８４を押下したままマウス６８が移動されると（いわゆるドラッグ操作がなされると）、ＣＰＵ５０は、そのドラッグ軌跡の座標上に、基本画像である草の画像２１を表示する処理を行う（ステップＳ５２、図９Ａ参照）。なお、この実施形態では、ドラッグモードにおける基本画像は草の画像として予め定められているが、使用者が選択できるようにしてもよい。
【００５７】
ＣＰＵ５０は、ドラッグの軌跡に沿って草画像２１を表示し、マウス６８のスイッチ６８４が離されると（ドラッグが終了すると）、新たな草画像２１の表示を停止する（ステップＳ５５、Ｓ５６）。
【００５８】
マウスドラッグ中（すなわちドラッグ軌跡に沿った草画像表示処理中）に、使用者は、所望の位置において、「はな」という音声入力を行う。音声入力があると、ＣＰＵ５０は、図８ａの処理と並行して、図８ｂに示す処理を実行する（ステップＳ５３、Ｓ５４）。
【００５９】
まず、ＣＰＵ５０は、最初に音声が入力された時のマウスの座標位置を取得する（ステップＳ６１）。この座標位置を画像表示位置としてメモリ６２に記憶する。この音声入力の開始を検出すると、マイク５４からの音声を取り込んで記録する処理を開始する（ステップＳ６２）。
【００６０】
ＣＰＵ５０は、音声入力の終了を検出すると、マイク５４からの音声の取り込み・記録を中止し、認識対象音声ファイルをハードディスク６４に生成する（ステップＳ６３、Ｓ６４）。
【００６１】
次に、ＣＰＵ５０は、認識対象音声ファイルに記録された音声の認識を開始する（ステップＳ６５）。また、ＣＰＵ５０は、音声認識中であることを示すバブル画像１５を、上記画像表示位置に表示する（ステップＳ６４、Ｓ６５、図９Ｂ参照）。この認識処理およびバブル画像の表示中も、図８ａの処理は並行して進められる。すなわち、図８ａのステップＳ５２の基本画像の描画処理は、マウス６８がドラッグされている間中、繰り返して行われる（ステップＳ５５参照）。ドラッグが終了した時点でのディスプレイ５２上の表示を、図９Ｃに示す。
【００６２】
認識が終了すれば、認識結果として得られたテキストデータ「はな」に対応する花の画像を読み出す（ステップＳ６７、Ｓ６８）。さらに、ＣＰＵ５０は、バブル表示を停止し、画像表示位置上に花の画像２３を表示する（ステップＳ６９、図１０参照）。
【００６３】
上記のようにして、使用者は、ドラッグ操作の軌跡に沿って基本画像２１を入力し、軌跡中の所望の位置で音声を入力することにより、当該所望の位置に画像２３を入力することができる。すなわち、基本画像によって所望の位置を確認して発話タイミングをとることができ、あわせて、基本画像の入力を行うこともできる。
【００６４】
なお、上記では、所望の画像入力後も基本画像を残すようにしているが、所望の画像の入力後は、基本画像を消去するようにしてもよい。この場合でも、基本画像は、所望の位置を知る為のガイダンスとしての意味を有する。
【００６５】
４．連続位置モード
上記の固定位置モード、ドラッグモードでは、マウス６８をクリックした位置や発話開始時の位置に所望の画像を表示（入力）するようにしている。他の実施形態では、マウス６８のドラッグ操作により、複数の画像をマウスドラッグの軌跡に沿って表示（入力）できる連続位置モードを設けてもよい。
【００６６】
連続位置モードにおける処理を図１１に示す。以下では、「花」の画像を、マウス６８のドラッグ軌跡に沿って表示させる場合を例として説明する。
【００６７】
使用者は、連続入力のためのスタート位置において、マウス６８のスイッチ６８４を押下するとともに（図１２Ａ）、マイク５４に「はな」という音声を入力する。このマウス操作により、ＣＰＵ５０は、マイク５４からの音声の取り込み・記録を開始する（ステップＳ５２）。使用者は、マウス６８のスイッチ６８４を押下したまま、マウス６８を移動させてカーソル１１を移動させる。いわゆるドラッグ操作を行う。ＣＰＵ５０は、このマウスのドラッグ操作によるカーソル１１の軌跡を画像表示位置として取得するとともに、当該軌跡をディスプレイ５２上に線３１として表示する（ステップＳ５３、図１２Ｂ、Ｃ参照）。
【００６８】
マウス６８のスイッチ６８４の押下が停止されると、ＣＰＵ５０は、マイク５４からの音声の取り込み・記録を中止し、認識対象音声ファイルをハードディスク６４に生成する（ステップＳ５５）。
【００６９】
次に、ＣＰＵ５０は、認識対象音声ファイルに記録された音声の認識を開始する（ステップＳ５６）。また、ＣＰＵ５０は、音声認識中であることを示すバブル画像１５を、上記軌跡３１上に表示する（ステップＳ５７、図１３Ａ、Ｂ参照）。認識が終了すれば、認識結果として得られたテキストデータ「はな」に対応する花の画像を読み出す（ステップＳ５９）。さらに、ＣＰＵ５０は、バブル表示１５を停止し、画像表示位置であるドラッグ軌跡３１上に、花の画像を表示する（ステップＳ６０、図１３Ｃ参照）。この際、ＣＰＵ５０は、ドラッグ軌跡３１の長さに応じた数だけ読み出した花の画像３３を複製し、軌跡３１上に表示するようにしている。また、複製した花の画像３３の大きさをランダムに変化させることにより、自然な連続画像を生成している。
【００７０】
上記のようにして、ドラッグ操作により、音声により指定した画像を、ドラッグ軌跡上に連続して表示させることができる。
【００７１】
５．その他の実施形態
(1)この発明は、図１４、図１５に示すような、装置として適用することもできる。押圧による位置検出センサの付いたボード３００の上に、「く」「ふ」などの文字が表示されている。幼児に対し、ペン３１０を使って、この文字の上をなぞりながら、「く」と発声させる。音声認識部８は、文字の上をなぞっている間（つまり位置検出センサがペン３１０の押圧力を検知している間）に、マイク６からの音声の取り込み記録を行って、認識対象音声を取得する。処理実行部１０は、位置検出センサにより、いずれの文字がなぞられたのかを判断し（たとえば、予め、各文字の記述されている座標をテーブルとして記録しておくことにより可能）音声認識の結果と文字とが一致すれば、幼児に対して「よくできました」等の音をスピーカ１２から出す。
【００７２】
上記のようにすれば、音声入力のタイミングを意識することなく、自然にかつ正確なタイミングで音声入力を行うことができる。
【００７３】
なお、「ふ」のように、一旦、ペン３１０を浮かせなければ記述できない文字を一単位の入力として扱うために、、所定時間より短い時間の圧力無検知があっても、連続してペンにより押圧がなされているものとして扱うことが好ましい。
【００７４】
(2)上記各実施形態では、認識対象音声を一旦記録した後に音声認識を行っているが、取り込むと同時に音声認識を行うようにしてもよい。
【００７５】
(3)上記実施形態では、音声認識を行う対象となる音声は、キャラクター名などを示すものであったが、コマンドを音声として入力する場合にも適用することができる。
【００７６】
(4)上記実施形態では、マウスのボタンを押下している時間に対応して、画像の大きさを変化させるようにしているが、表示画像の色、模様、文字などを変化させるようにしてもよい。さらに、処理の結果として表示される画像を変化させるのではなく、上記時間に応じて、処理の内容（処理方法、処理アルゴリズムなど）を変えるようにしてもよい。
【００７７】
(5)上記実施形態では、表示画像の大きさを決定するためのガイド画像として、徐々に大きくなる円を用いている。しかし、時間とともに徐々に伸びてゆくバー表示を用いてもよい。また、大きさを変化させず、時間とともに徐々に色が変わっていくようなガイド画像を用いてもよい。
【図面の簡単な説明】
【図１】この発明の一実施形態による音声認識処理装置のブロック構成を示す図である。
【図２】この発明の一実施形態による音声認識処理装置の処理概要を示す図である。
【図３】一実施形態による音声認識処理装置のハードウエア構成を示す図である。
【図４】音声認識処理プログラム（固定位置モード）のフローチャートを示す図である。
【図５】音声認識処理プログラム（固定位置モード）のフローチャートを示す図である。
【図６】固定位置モードにおける画面表示を示す図である。
【図７】固定位置モードにおける画面表示を示す図である。
【図８ａ】音声認識処理プログラム（ドラッグモード）のフローチャートを示す図である。
【図８ｂ】音声認識処理プログラム（ドラッグモード）のフローチャートを示す図である。
【図９】ドラッグモードにおける画面表示を示す図である。
【図１０】ドラッグモードにおける画面表示を示す図である。
【図１１】音声認識処理プログラム（連続位置モード）のフローチャートを示す図である。
【図１２】連続位置モードにおける画面表示を示す図である。
【図１３】連続位置モードにおける画面表示を示す図である。
【図１４】他の実施形態を示す図である。
【図１５】他の実施形態を示す図である。
【符号の説明】
２・・・表示部
４・・・位置入力部
６・・・音声入力部
８・・・音声認識部
１０・・・処理実行部
１２・・・音出力部

Claims

表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
を特徴とする音声認識処理装置。
請求項１の音声認識処理装置において、
前記カーソルの移動軌跡上に、基本画像を表示することを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
を特徴とする音声認識処理装置。
請求項１〜３のいずれかの音声認識処理装置において、
前記認識対象として取得した音声を一旦記録し、当該記録した音声を読み出して認識処理を行うことを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
を特徴とする音声認識処理装置。
請求項５の音声認識処理装置において、
前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変えることを特徴とするもの。
請求項５または請求項６の音声認識処理装置において、
前記ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止することを特徴とするもの。
請求項５〜７のいずれかの音声認識処理装置において、
音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止することを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
を備えたコンピュータにより、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を実現するためのプログラムを記録した記録媒体であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
を特徴とする音声認識処理プログラムを記録した記録媒体。
請求項９の音声認識処理プログラムを記録した記録媒体において、
前記カーソルの移動軌跡上に、基本画像を表示する処理を行うことを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
を備えたコンピュータにより、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を実現するためのプログラムを記録した記録媒体であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
を特徴とする音声認識処理プログラムを記録した記録媒体。
請求項９〜１１のいずれかの音声認識処理プログラムを記録した記録媒体において、
前記認識対象として取得した音声を一旦記録し、当該記録した音声を読み出して認識処理を行うことを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
を備えたコンピュータにより、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を実現するためのプログラムを記録した記録媒体であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
を特徴とする音声認識処理プログラムを記録した記録媒体。
請求項１３の音声認識処理プログラムを記録した記録媒体において、
前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理の実行結果として表示する画像の大きさを変える処理を行うことを特徴とするもの。
請求項１３または請求項１４の音声認識処理プログラムを記録した記録媒体において、
前記ポインティングデバイスのボタン押下とともに、当該ボタン押下によって指定された表示画面上の位置に、音声取得中であることを示すガイド画像の表示を開始し、時間経過とともに当該画像の大きさを変化させ、ボタン押下停止とともに、当該ガイド画像の表示を停止する処理を行うことを特徴とするもの。
請求項１３〜１５のいずれかの音声認識処理プログラムを記録した記録媒体において、
音声認識処理の開始とともに、ボタン押下によって指定された表示画面上の位置に、音声認識中であることを示すガイド画像を表示し、音声認識処理の終了または認識結果に対応する処理の終了とともに、当該ガイド画像の表示を停止する処理を行うことを特徴とするもの。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定されること、
を特徴とする音声認識処理方法。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されたカーソルの軌跡により決定されること、
を特徴とする音声認識処理方法。
表示画面を有する表示部と、
使用者の操作により、表示画面上の位置を入力するための位置入力部と、
使用者の音声を入力するための音声入力部と、
位置入力部による表示画面上の位置指定の入力操作に対応して、認識対象とする音声を取得することにより、音声入力部から入力された音声を認識する音声認識部と、
位置入力部によって指定された表示画面上の位置に、認識結果に対応する処理の実行結果を表示することにより、音声認識部による認識結果に基づいて、認識結果に対応する処理を行う処理実行部と、
を備えた音声認識処理装置を用いて音声認識処理を行う方法であって、
前記位置入力部は、ポインティングデバイスを備えており、前記音声認識部は、表示画面上の位置指定のためのポインティングデバイスのボタン押下により、認識対象とする音声の取り込みを開始し、ポインティングデバイスのボタンの押下停止により、認識対象とする音声の取り込みを終了し、
前記表示位置は、ポインティングデバイスのボタンを押下した状態で移動されるカーソルの位置において、音声入力のなされた時点における位置により決定され、前記ポインティングデバイスのボタン押下からボタン押下停止までの時間長に対応して、認識結果に対応する処理内容を変化させること、
を特徴とする音声認識処理方法。