JPH07140998A

JPH07140998A - 音声認識インターフェース

Info

Publication number: JPH07140998A
Application number: JP5353142A
Authority: JP
Inventors: Hideki Hashimoto; 秀樹橋本; Hitoshi Nagata; 仁史永田; Shigenobu Seto; 重宣瀬戸; Yoichi Takebayashi; 洋一竹林; Koji Yamaguchi; 浩司山口; Hideaki Shinchi; 秀昭新地
Original assignee: Toshiba Corp; Toshiba Software Engineering Corp
Current assignee: Toshiba Corp; Toshiba Software Engineering Corp
Priority date: 1992-12-28
Filing date: 1993-12-28
Publication date: 1995-06-02
Anticipated expiration: 2020-12-14
Also published as: JP3725566B2

Abstract

(57)【要約】【目的】本発明は、音声認識システムより複数の応用プ
ログラムを同時に取扱うことが可能で、使い勝手に優れ
た音声認識インターフェースを提供する。【構成】音声認識システム１に複数の応用プログラム２
を接続したものであって、音声認識システム１は、応用
プログラム管理テーブル１３により複数の応用プログラ
ム２に関する情報を管理していて、この応用プログラム
管理テーブル１３の情報に基づいて音声入力に対する認
識対象語彙の決定、音声を識別する音声識別部１２での
認識結果の送信先の決定、音声入力の対象を複数の応用
プログラムに指定する音声フォーカスの決定をメッセー
ジ処理部１１により実現している。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、パーソナルコンピュー
タおよびワークステーションなどに用いられる音声認識
インターフェースに関するものである。

【０００２】

【従来の技術】近年、計算機はキーボード、マウス、音
声、画像など複数の入力手段を装備し、様々な指示やデ
ータ入力を可能にしたものが考えられている。

【０００３】このうちで、音声入力は、人間にとって自
然であり有力な入力手段といえるが、音声処理にかかる
計算量や認識率などの点で問題があり、入力手段として
広く利用されるに至らなかった。

【０００４】しかして、従来、音声認識インターフェー
スにおける、応用プログラムと音声認識システムの構成
として、次のようなものが考えられている。

【０００５】図１２２は、応用プログラムＡＰに音声認
識システムＳＲＳが組み込まれているものである。この
ようにしたものは、音声認識機能が応用プログラムＡＰ
から分離できないため、他の応用プログラムから音声認
識機能を利用するのが困難であった。

【０００６】また、図１２３は、一つの音声認識システ
ムＳＲＳと一つの応用プログラムＡＰからなり、両者が
接続される構成のものである。このようにしたものは、
音声認識システムＳＲＳは、接続された応用プログラム
ＡＰに占有されるため、同じ音声認識システムＳＲＳを
別の応用プログラムから利用するには、別の応用プログ
ラムに接続を変更する必要があり、接続し直すための手
間がかかる。また、音声認識システムＳＲＳと応用プロ
グラムＡＰの間でやり取りするデータは、音声認識シス
テムＳＲＳから応用プログラムＡＰへ送られる認識結果
のみであるため、音声認識システムＳＲＳは応用プログ
ラムＡＰの内部状態を知ることができない。このため、
応用プログラムＡＰの内部状態に応じた認識対象語彙の
変更などが自動的に行えず、利用者が語彙の変更を行う
必要があるため、使い勝手の悪いシステムになってい
た。

【０００７】また、図１２４は、一つの音声認識システ
ムＳＲＳと一つの応用プログラムＡＰからなり、それら
が相互に接続されて、認識語彙や認識結果などの情報を
送り合う構成のものである。このようにしたものは、音
声認識システムＳＲＳは応用プログラムＡＰの内部状態
や認識語彙などを知ることができるため、認識語彙の変
更を自動的に行うことができるが、音声認識システムＳ
ＲＳは応用プログラムＡＰに占有されるため、同時に他
の応用プログラムが音声認識システムＳＲＳを利用する
ことができない。

【０００８】また、図１２５は、文献［Ｓｃｈｍａｎｄ
ｔｅｔａｌ，“Ａｕｇｍｅｎｔｉｎｇａｗｉｎｄｏ
ｗｓｙｓｔｅｍｗｉｔｈｓｐｅｅｃｈｉｎｐｕ
ｔ”，ＣＯＭＰＵＴＥＲ，Ｖｏｌ．２３，ｐｐ．５０−
５８，１９９０］のシステムの構成であり、一つの音声
認識システムＳＲＳから複数の応用プログラムＡＰに音
声認識結果を一方的に送るものである。このシステムで
は、ウインドウシステムを利用し、音声認識結果をマウ
スやキーボードによる入力に翻訳することによって音声
を入力している。この構成のシステムでは、複数の応用
プログラムＡＰ音声認識機能を同時に利用できるが、音
声認識システムＳＲＳが応用プログラムＡＰの内部状態
を知ることができないため、応用プログラムＡＰの内部
状態に応じた認識処理を行うことができない。

【０００９】また、図１２６は、文献［Ｒｕｄｎｉｃｋ
ｙ他、ｓｐｏｋｅｎｌａｎｇｕａｇｅｒｅｃｏｇｎ
ｉｔｉｏｎｉｎａｎｏｆｆｉｃｅｍａｎａｇｅ
ｍｅｎｔｄｏｍａｉｎ，Ｐｒｏｃ．ＩＣＡＳＳＰ´９
１，Ｓ１２．１２，ｐｐ．８２９−８３２，１９９１］
のシステムの構成であり、一つの音声認識システムＳＲ
Ｓと複数の応用プログラムＡＰからなり、音声認識シス
テムＳＲＳと応用プログラムＡＰが相互に情報を送り合
って音声認識を行う。このシステムには、複数の応用プ
ログラムが連続音声認識を共用できるという特徴があ
り、高価な音声認識装置の利用に関して有用な方法を取
っているといえるが、リアルタイム処理やワークステー
ション上での利用形態についての検討は十分ではない。
この構成では、複数のプログラムが音声認識機能を利用
可能であり、また、応用プログラムＡＰの内部状態に応
じた認識システムＳＲＳ側の処理も可能であるが、同時
に一つの応用プログラムＡＰとしか接続できないため、
複数の応用プログラムＡＰを同時に扱えるという音声の
特徴を生かした処理を行うことができなかった。また、
どの応用プログラムＡＰに音声認識結果を送るかの決定
は、音声認識システムＳＲＳから行われていたため、例
えば応用プログラムＡＰ側で認識結果を必要としている
場面でも、認識結果を得られない場合があった。

【００１０】

【発明が解決しようとする課題】このように従来の音声
認識インターフェースによると、応用プログラムＡＰが
音声認識対象を管理できないため、応用プログラムＡＰ
主導の音声入力制御ができず、利用者に音声認識を促し
たい状態でも、音声認識システムＳＲＳからの音声入力
許可命令を受けとるまで待たなければならなかった。ま
た、１つの音声で複数の応用プログラムＡＰを同時に制
御することができないため、例えば「終了」という１つ
の音声入力で、複数の応用プログラムＡＰを終了させる
ことができなかった。また、認識結果にしたがって、音
声入力を複数の応用プログラムＡＰに振り分けることが
できないため、音声の入力に先立って入力対象を特定す
ることが必要とされていた。また、１つの音声入力に対
して１つの音声認識システムしか動作しないため、例え
ば孤立単語認識と連続音声認識のように異なる種類の認
識方式を共存させ、同時に利用するようなことができな
かった。

【００１１】本発明は、上記事情に鑑みてなされたもの
で、音声認識システムより複数の応用プログラムを同時
に取扱うことが可能で、使い勝手に優れた音声認識イン
ターフェースを提供することを目的とする。

【００１２】

【課題を解決するための手段】本発明は、音声認識シス
テムに複数の応用プログラムを接続した音声認識インタ
ーフェースにおいて、音声認識システムは、音声を識別
する音声識別手段、前記複数の応用プログラムに関する
情報を管理する応用プログラム管理手段、この応用プロ
グラム管理手段の情報に基づいて音声入力に対する認識
対象語彙の決定、前記音声識別手段の認識結果の送信先
の決定を行うメッセージ処理手段により構成されてい
る。

【００１３】

【作用】この結果、本発明によれば各応用プログラムに
より音声認識システムに対する音声認識結果の受信の可
否を決定できるので、応用プログラムが自分や他の応用
プログラムの音声入力に関する制御を自由に行うことが
でき、柔軟で使いやすい音声認識インターフェースが構
築できる。

【００１４】また、音声認識システムがその音声認識結
果を同時に複数の応用プログラムに送信できるので、一
つの音声入力による操作を同時に複数の応用プログラム
に対して行うこともでき、音声入力による計算機の操作
性も向上する。

【００１５】さらに、音声認識システムが複数の応用プ
ログラムに対する音声認識を行えるので、音声入力対象
の明示的な指定をせずに音声認識結果に基づき音声入力
を各応用プログラムに振り分けることができ、利用者の
負担を軽減できる。

【００１６】

【実施例】以下、本発明の実施例を図面に従い説明す
る。

【００１７】（第１実施例）図１は同実施例の概略構成
を示している。図において、１は音声認識システムで、
この音声認識システム１は、メッセージ処理部１１、音
声認識部１２、応用プログラム管理テーブル１３から構
成され、メッセージ処理部１１に複数の応用プログラム
２を接続している。

【００１８】この場合、音声認識システム１は、応用プ
ログラム２からのメッセージに含まれる指示に従って音
声認識を行い、認識結果をメッセージとして応用プログ
ラム２に送る。応用プログラム２は、その音声認識結果
を利用してその応用に依存した固有の処理を行う。ま
た、音声認識システム１は、同時に複数の応用プログラ
ム２とメッセージを交換し音声認識結果を送信できるよ
うにしている。

【００１９】音声認識システム１を構成するメッセージ
処理部１１は、応用プログラム２と音声認識部１２のメ
ッセージを交換し、音声認識システム１の全体制御を行
う。また、音声認識部１２は、メッセージ処理部１１と
メッセージを交換し合うことでメッセージ処理部１１か
ら送られてくる情報に従って入力音声に対して音声認識
を行い、その結果情報をメッセージ処理部１１に通知す
る。

【００２０】応用プログラム管理テーブル１３は、音声
認識システム１と通信を行う全ての応用プログラム２に
関する情報を収納するテーブルである。このテーブル
は、音声が入力された際の認識対象語彙の決定や、認識
結果の送信先の決定に利用され、これにより音声認識シ
ステム１は同時に複数の応用プログラム２とのメッセー
ジ交換を行うことができる。また、応用プログラム管理
テーブル１３は、プログラムＩＤ、入力マスク、認識対
象語彙リスト、音声入力フラグを持っている。プログラ
ムＩＤは、音声認識システム１により応用プログラム２
に対して一意に付けられる識別のための番号である。入
力マスクは、音声認識システム１から応用プログラム２
に送信するメッセージの種類を限定するものである。認
識語彙リストは、応用プログラム２が音声認識システム
１に対して要求した認識語彙が記述されるテーブルであ
る。音声入力時の認識対象語彙の決定に利用される。音
声入力フラグは、当該応用プログラム２に音声フォーカ
スが当たっているか否かを表している。なお、応用プロ
グラム２に音声フォーカスが当たるという言葉は、応用
プログラム２が音声入力対象となるということを意味す
るものとする。すなわち、音声フォーカスは、認識結果
の送信対象を特定するものである。

【００２１】図２は音声認識部１２の概略構成を示して
いる。

【００２２】この場合、音声認識部１２は、音声検出部
１２１、音声分析部１２２、認識辞書照合部１２３およ
び音声認識辞書１２４からなっている。

【００２３】音声検出部１２１は、例えば一定時間間隔
ごとの入力音声のパワーをもとにして検出を行う方法
（永田、他“ワークステーションにおける音声認識機能
の開発”，電子情報通信学会技術報告、ＨＣ９１１９，
ｐｐ．６３−７０，（１９９１））が知られている。音
声分析部１２２は、音声検出部１２１で検出される音声
区間に対して、例えばＦＦＴやバンドパスフィルタなど
を用いて周波数分析を行い、単語音声の特徴パラメータ
を抽出する。認識辞書照合部１２３は、音声分析部１２
２からの出力パラメータを用いて、例えば複合類似度法
（上記の研究資料）やＨＭＭ、ＤＰマッチングなどの手
法により認識辞書１２４との照合を行い、スコアの最も
高い語彙を認識結果として出力する。

【００２４】そして、認識辞書照合部１２３では、音声
特徴パラメータと認識辞書１２４と照合を行う際、照合
前に無駄な処理を行わないため、その時点で認識辞書１
２４のどの語彙と照合を行うべきかをメッセージ処理部
１１に問い合わせ、その照会情報にしたがって認識辞書
１２４との照合処理を行う。そして、認識の成功失敗に
かかわらずその認識結果はメッセージ処理部１１に送ら
れ、応用プログラム管理テーブル１３の内容にしたがっ
て応用プログラム２に認識結果を送るようになる。

【００２５】ここで、図２では、認識部の要素が全て一
体となっており、１つのプロセスとして動作可能である
が、図３に示すように音声検出部１２１を分離した構成
も可能である。音声検出部１２１と後続の音声分析部１
２２、認識辞書照合部１２３を、例えばべつプロセスと
して両者の間のデータのやり取りをプロセス間通信によ
り行えば、音声検出部１２１を独立した形で扱うことが
でき、例えば、図４に示すように複数の音声検出部１２
１からの出力を共通の音声分析部１２２、認識辞書照合
部１２３で扱うことができる。また、図５に示すように
音声検出部１２１と音声分析部１２２を一体にして、認
識辞書照合部１２３と認識辞書１２４を分離した構成も
可能である。

【００２６】図６は応用プログラム２の概略構成を示し
ている。

【００２７】この場合、応用プログラム２は、メッセー
ジ入出力部２１およびプログラム本体２２からなってい
る。メッセージ入出力部２１は、音声認識システム１と
メッセージ交換を一括して行うもので、音声入力の標準
の手段を応用プログラム２の作成者に提供するものであ
る。また、複雑なメッセージ送受信規約を応用プログラ
ム作成者から隠蔽し、全ての応用プログラム作成者に統
一的に通信手続を提供するためでもある。プログラム本
体２２は、応用プログラムに依存した処理の手続を行う
プログラムであり、応用プログラム固有の内部状態に従
った音声認識システム１に対する命令や、音声認識シス
テム１から音声認識結果を受け取った際の手続などを含
んでいる。

【００２８】次に、このように構成した実施例の動作を
説明する。

【００２９】この場合、音声認識システム１と応用プロ
グラム２との間の情報のやり取りは、メッセージ交換に
よって行う。ここで、メッセージとは、ある構成要素か
らほかの構成要素に渡されるコマンドやそのコマンドの
実行結果、音声認識結果などのデータを総称していう。

【００３０】メッセージによる通信は、例えば音声認識
システム１をサーバ化し、また応用プログラム２を音声
認識システムのクライアントとし、その間をＴＰＣ、Ｄ
ＥＣｎｅｔ、Ｓｔｒｅａｍなどのバイトストリーム型の
プロトコルを利用して実装する。音声認識インターフェ
ースの各構成要素間で交換されるメッセージを、次に説
明する図７に示している。これらのメッセージの処理
は、すべて音声認識システムのメッセージ処理部１１が
担当する。なお、上述の実施例では、図１の音声認識シ
ステム、全体が１つのプロセスとして実行するものとし
て説明したが、音声認識システムの構成要素である音声
認識部、メッセージ処理部、応用プログラム管理テーブ
ル、それぞれを別個のプログラムとして実行することも
可能である。

【００３１】［音声認識システム１と応用プログラム２
の間のメッセージ］応用プログラム２から音声認識シス
テム１へのメッセージは、図７（ａ）に示すような種類
がある。これらは、基本的に、応用プログラム２から音
声認識システム１への命令を意味している。

【００３２】ここで、通信路接続／切断要求は、応用プ
ログラム２が音声認識システム１とメッセージを交換す
るにあたって、その通信路を接続／解放する要求であ
る。音声認識辞書のロード／解放要求は、応用プログラ
ム２が利用したい語彙を含む音声認識辞書を音声認識シ
ステム１にロード／解放する要求である。認識語彙設定
要求は、応用プログラム２が、どの認識辞書のどの語彙
を使って認識を行うかを音声認識システム１に要求する
ものである。入力マスク設定要求は、応用プログラム２
が、音声認識システム１から受け取りたいメッセージの
種類を設定する要求である。入力タスク設定要求は、音
声フォーカスを、指定した応用プログラム２に変更する
要求である。認識開始／終了要求は、音声認識システム
１に対する音声認識開始／終了の要求である。

【００３３】一方、音声認識システム１から応用プログ
ラム２へのメッセージは、図７（ｂ）に示すような種類
があり、２つに分類できる。１つは、応用プログラム２
からの命令やデータの問い合わせなどの要求に対する応
答で、これは上記の要求メッセージに対応する。もう１
つのメッセージは、音声認識結果の情報や、音声認識シ
ステムの内部状態の変化にともない、音声認識システム
によって生成されるメッセージである。

【００３４】ここで、音声認識結果は、音声認識システ
ム１が、応用プログラム２の設定要求をした認識語彙を
用いて認識した結果を通知するメッセージである。認識
が成功した場合には、すくなくとも１つの認識語彙を含
み、その語彙が何であるか、その語彙の持つ辞書はどれ
か、認識処理結果としての得点などの情報を含む。失敗
した場合には（音声レベルが高すぎたとか低すぎたな
ど）、失敗した原因に関する情報を持っている。入力タ
スク変更通知は、入力タスク設定要求などで音声フォー
カスが実際に変更された際に応用プログラム２に対して
送信されるメッセージで、変更される前のタスクＩＤお
よび変更後のタスクＩＤを含んでいる。認識辞書ロード
／解放通知は、認識辞書ロード／解放要求などで認識辞
書が新たにロードされたり解放された場合に送信される
メッセージである。通信路接続／切断の通知は、応用プ
ログラム２が音声認識システム１に対して通信路接続／
切断要求を発行した際に発生するメッセージである。応
用プログラム２が要求せずに一方的に通信路を切断した
場合にも発生する。認識語彙変更通知は、認識語彙設定
要求により各応用プログラムの認識語彙が変更された場
合に発生するメッセージである。

【００３５】これらは、音声入力を受け付け音声認識を
行ったときや、音声フォーカスが変更されたときや、応
用プログラム２が音声認識システム１と接続したとき
や、認識語彙が変更されたときなど、音声認識システム
１から全ての応用プログラム２に送信できるものである
が、全てのメッセージを応用プログラム２が常時受け取
る必要はない。応用プログラム２が、どのメッセージを
受け取るかの設定は、各メッセージに対応する入力マス
クを音声認識システム１に通知する事で行う（入力マス
ク設定要求）。これによって応用プログラム２は、自分
の必要とするメッセージのみを音声認識システム１に通
知してもらうことができる。

【００３６】図８は、入力マスクの種類を示している。
これらは応用プログラム２が受け取りたいメッセージの
種類に対応しており、同時に複数のマスクが設定できる
ものとする。

【００３７】この設定を音声認識システム１に通知する
ことで、入力マスクに対応するメッセージが音声認識シ
ステム１の内部で生成される度にそれを受け取ることが
できる。例えば、音声認識結果マスクを設定すれば、音
声入力がなされる度に音声認識結果を得ることができる
ようになるし、入力タスク変更マスクを設定すれば、音
声フォーカスが変更される度に、それが応用プログラム
に通知されるようになる。

【００３８】音声認識システム１と応用プログラム２の
間のメッセージとして、上記の２種類のメッセージ（要
求メッセージと応答メッセージ）以外に、エラーメッセ
ージが考えられる。エラーメッセージは、成功時には応
答を要しない応用プログラム２からの片道メッセージの
失敗や、認識システムにクリティカルな状態が発生した
ときにそれを通知するメッセージである。また、上述し
たメッセージ以外にも、音声認識システム１の内部情報
にアクセスするためのメッセージや、音声入力レベルを
変更するなど、音声認識システム１や音声入出力の設定
をするメッセージなどさまざまなメッセージが考えられ
る。

【００３９】このように、応用プログラム２は、音声認
識システム１の内部状態の変化をメッセージの形で通知
させることができるため、それに基づいて音声認識シス
テム１を制御し、さらには他の応用プログラム２が制御
できるようになるため、自由度の高い、柔軟なインター
フェースを音声によって制御することができる。

【００４０】さて、音声認識システム１は、メッセージ
処理部１１と音声認識部１２を有しているが、これらの
間もメッセージによって情報交換がなされる。なお、音
声認識システム１における応用プログラム２とのメッセ
ージは、その全てをメッセージ処理部１１が取扱ってい
る。

【００４１】［音声認識部１２とメッセージ処理部１１
の間のメッセージ］音声認識部１２からメッセージ処理
部１１へのメッセージは、図７（ｃ）に示す種類があ
る。ここで、認識語彙照会要求は、音声認識システムに
音声が入力された時点で、入力音声とどの認識語彙との
照合を行うべきかを決定するために発行される要求であ
る。音声認識結果は、入力音声とその時点で認識すべき
認識語彙との照合結果をメッセージ処理部１１に通知す
るものである。

【００４２】一方、メッセージ処理部１１から音声認識
部１２へのメッセージは、図７（ｄ）に示すような種類
がある。ここで、認識辞書ロード／解放要求は、応用プ
ログラム２が音声認識システム１に対して発行した認識
辞書ロード／解放要求がそのまま音声認識部１２へ引き
渡された所のメッセージである。認識語彙情報は、音声
認識部１２からメッセージ処理部１１への認識語彙照会
要求に対する応答である。

【００４３】このようにして、音声認識システムを構成
する各部において、メッセージをやりとりすることで、
処理が進められるが、次に、音声認識インターフェース
として、処理がどのように進められていくかを図９に従
い説明する。同図では、応用プログラム２が起動されて
から、最初に音声認識結果を受け取るまでのタイムチャ
ートを示している。

【００４４】この場合、応用プログラム２は、まず音声
認識システム１との接続要求（ａ）を送る。接続が達成
されたならば、音声認識語彙を含む認識辞書ロード要求
（ｂ）と、ロードした辞書中で音声入力に使いたい語彙
を認識語彙とする設定要求（ｃ）を発行する。メッセー
ジ処理部１１では、（ａ）に対しては応用プログラム２
との通信路接続処理を行って、その結果を応用プログラ
ム２に返す。（ｂ）に対しては、メッセージをそのまま
音声認識部１２に送って辞書がロードされるのを待ち、
辞書のロードの結果を応用プログラム２に返す。（ｃ）
に対しては指定された認識語彙を応用プログラム管理テ
ーブル１３に書込み、その処理結果を返す。認識対象語
彙が無事に設定されたならば、応用プログラム２は、入
力マスク設定要求（ｄ）と入力タスク設定要求（ｅ）を
送る。メッセージ処理部１１では、（ｄ）と（ｅ）を受
けて、それぞれ応用プログラム管理テーブル１３に書込
む。

【００４５】以上が、音声認識システム１に対する応用
プログラム２からの初期設定要求となる。初期設定が終
わったならば、音声認識システム１からのメッセージ待
ちに入る。メッセージを待ちながら、応用プログラム２
固有のタスクに依存した処理などを行う。処理に伴う内
部状態の遷移などに従い、認識語彙を変更する要求や入
力タスクを自分自身や他の応用プログラム２に変更する
要求など、任意の要求を自分の処理に応じて音声認識シ
ステム１に送り、音声認識システム１を応用プログラム
２側から制御できるようにしている。

【００４６】ここで、音声入力が応用プログラム２に対
して行われたとする。すると入力音声は、まず音声認識
部１２において、音声区間の検出と分析が行なわれる。
音声認識部１２は、音声分析を済ませたならば、その時
点で認識対象となっている語彙を知るために、メッセー
ジ処理部１１に対して認識語彙照会要求（ｆ）を送る。
メッセージ処理部１１では、これを受信すると、応用プ
ログラム管理テーブル１３を参照してこの場面で音声認
識処理を行うべき語彙を調べ、その結果である認識語彙
情報を音声認識部１２に返す。音声認識部１２では、
（ｇ）により指定された認識対象語彙に対応する認識辞
書データと分析済みの分析データを照合し、その結果を
メッセージ処理部１１に送る。メッセージ処理部１１で
は、（ｇ）のうちの１位の尤度をもつ語彙を応用プログ
ラム管理テーブル１３の認識対象語彙中で探し、それを
持つ応用プログラム２の音声入力フラグが１であり、か
つ入力マスクとして認識結果通知マスクが設定されてい
たならば、その応用プログラムに対して認識結果を送信
する。

【００４７】図９で説明した処理を、さらに具体例を用
いて説明する。

【００４８】音声認識システム１と接続している応用プ
ログラム２がシェルツールとテキストエディタの２つで
あった場合の応用プログラム管理テーブル１３は、図１
０（ａ）に示すようになる。

【００４９】ここで新しくメールツールを起動する際の
処理を説明する。起動されたメールツールが、まず通信
路接続要求（ａ）を送信すると、応用プログラム管理テ
ーブル１３にメールツール用の領域が取られ、メールツ
ールのプログラムＩＤが付けられる。プログラムＩＤ
は、例えば応用プログラム２の起動順に０から付けられ
るとする。次に認識辞書ロード要求（ｂ）を送る。ここ
では認識辞書はすでにロードされており、音声認識シス
テム１は、そのことを応用プログラム２に知らせる。次
に、認識語彙設定要求（ｃ）で認識語彙として「先頭」
「最後」「前」「次」「送信」「終了」を送り、入力マ
スクとして認識結果通知マスクを送る（ｄ）。入力タス
ク設定要求（ｅ）として、現在当たっている全ての音声
フォーカスを無効にし、音声フォーカスをメールツール
に当てる要求をする。

【００５０】なお、本実施例では、１つの認識辞書をす
べての応用プログラム２で共通に使うこととし、従っ
て、図１０においては、複数の辞書を利用する場合に必
要となる各語彙がどの辞書に含まれるかを示す情報を省
略する。

【００５１】以上の処理により、応用プログラム管理テ
ーブル１３は、図１０（ｂ）のようになり、シェルツー
ルに当たっていた音声フォーカスは、新たに起動された
メールツールに変更され、メールツールは音声入力が可
能な状態になる。

【００５２】ここで、例えば「次」という音声が入力さ
れたとする。入力された音声は、音声認識部１２におい
て音声区間検出と分析処理を施され、音声特徴パラメー
タが求められる。音声認識部１２は、この音声特徴パラ
メータと照合する辞書データを知るべく、メッセージ処
理部１１に対して認識語彙照合要求（ｆ）を送る。この
要求を受けたメッセージ処理部１１は、応用プログラム
管理テーブル１３を参照してその時点での認識対象語彙
を知る。ここでは、音声入力フラグが１であり、かつ入
力マスクに認識結果通知マスクが設定されているメール
ツールの認識対象語彙リスト中の全ての語彙「先頭」
「最後」「前」「次」「送信」「終了」がその時点で入
力可能な語彙となる。これら６つの語彙が音声認識部１
２に通知され、音声認識部１２は、これら語彙に関する
辞書データと分析された特徴パラメータに対して照合処
理を行い、その結果をメッセージ処理部１１に送る
（ｇ）。メッセージ処理部１１は、認識結果を受けとる
と、応用プログラム２中の音声入力フラグが１であり、
かつ入力マスクに認識結果通知マスクが設定されている
応用プログラム２の認識対象語彙リスト中に認識結果の
語彙を探し、発見したならばその認識結果をその語彙リ
ストを持つ応用プログラム２に対して送信する。

【００５３】先の音声入力の認識結果が「次」であった
場合には、メールツールに送信されることになる。
「次」という認識結果をメッセージ入出力部２１を介し
て受けとった応用プログラム２は、例えば現在表示して
いる受信メールの次のメールを表示するといった処理を
行う。

【００５４】図１０（ａ）（ｂ）では、シェルツールの
入力マスクとして、認識結果通知マスクが設定されてい
る。このマスクにより音声フォーカスの変更が発生する
度にそれが通知されるようになる。

【００５５】上述の例では、メールツールからの入力タ
スク設定要求（ｅ）を音声認識システム１が受信し、メ
ッセージ処理部１１が音声フォーカスの変更を行ったと
きに入力タスク変更通知のメッセージがシェルツールに
送られる。認識結果通知マスク以外の入力マスクは音声
入力フラグの値に依存していないため、入力タスク変更
マスクが設定されていれば、音声入力フラグの値に関係
なく、音声フォーカスの変更メッセージが、それが起き
る度に応用プログラム２に通知される。応用プログラム
２は、このような音声認識システム１の内部状態の変化
をメッセージを介して知ることで、様々な柔軟な処理を
することができる。例えば、シェルツールは、音声フォ
ーカスを失ったことを利用者に画面表示や合成音声また
ビープ音などを通じて知らせることができる。

【００５６】このようにして、応用プログラム２は、メ
ッセージを通じて音声認識システム１を自由に制御でき
るようになり、応用プログラム主導の柔軟な音声認識イ
ンターフェースが得られることになる。

【００５７】従って、第１実施例によれば、複数の応用
プログラム２が同時に平行して動作するマルチタスク環
境において、各応用プログラム２が音声認識システム１
と通信により直接メッセージ交換を行い、認識語彙や認
識結果などのデータを直接相互に交換できるため、全て
の応用プログラム２にキーボードやマウスなどの様に、
音声入力を標準的な入力手段として装備することができ
るため、ワークステーションなどのマルチタスク環境に
おける音声入力の本格的な利用が可能となり、音声を含
めたマンマシンインタフェースの使い勝手の向上が期待
できることになる。

【００５８】なお、本実施例は、孤立単語認識を応用し
た音声認識インターフェースの実施例であったが、連続
単語音声認識や連続音声認識を応用することも可能であ
る。（第２実施例）同第２実施例では、マルチタスクの計算
機環境において、ウィンドウシステムを同時に利用する
ことで、ユーザの利用環境の向上を可能にしている。

【００５９】ウィンドウシステムを同時に利用する場合
の構成を図１１に示している。この場合、音声入力を扱
う音声認識システム３と、キーボード入力およびマウス
入力を扱うウィンドウシステム４と、これら音声認識シ
ステム３およびウィンドウシステム４と相互にメッセー
ジを通信する１つ以上の応用プログラム５からなってい
る。つまり、同実施例では、上述の第１実施例にウィン
ドウシステムを追加し、応用プログラムにウィンドウシ
ステムとの間の通信手段を持たせるようにしている。

【００６０】ウィンドウシステム４と音声認識システム
と３は、相互に独立している。また、ウィンドウシステ
ム４と応用プログラム５との間のメッセージは、マルチ
ウィンドウ環境におけるウィンドウの生成や、キーボー
ド入力やマウス入力などの処理に関するものである。

【００６１】本実施例を説明する前に、マルチウィンド
ウを実現するウィンドウシステムについて簡単に説明す
る。ワークステーションなどのマルチタスクの計算機環
境でマルチウィンドウを実現するウィンドウシステム
は、その環境下で動作する複数の応用プログラムと通信
し、各々の応用プログラムをビットマップディスプレイ
と呼ばれる表示画面に抽象化して表示される。そこで
は、応用プログラムごとに基本的に１つのウィンドウが
割り当てられる。

【００６２】図１２は、一般的なウィンドウシステムの
画面表示例である。この例では、Ａ，Ｂ，Ｃの３つの応
用プログラムが平行して動作している。ウィンドウシス
テムは、キーボードやマウスなどの入力装置を管理し、
複数の応用プログラムに入力装置を共有させる。マウス
画面中では、矢印型のマウスポインタとして抽象化され
ており、ウィンドウの操作や入力対象の指定などに使わ
れる。

【００６３】なお、本願の実施例では専ら、ポインティ
ングデバイスとしてマウスを利用した説明をしている
が、ペンやタッチパネルなど他のポインティングデバイ
スを用いることも可能であり、全ての実施例における記
述はこれら他のポインティングデバイスについても全く
同様に適用できる。

【００６４】キーボード入力を行う対象は、キーボード
フォーカスによる。キーボードフォーカスは一般的にマ
ウスポインタによって指定される。キーボードフォーカ
スの当たっている応用プログラムは、ウィンドウ枠がそ
れ以外のウィンドウより太くしたり、ウィンドウ上部の
タイトルバーの色を変えることで表現される。図１２で
は、応用プログラムＢにキーボードフォーカスが当たっ
ている様子を示す。キーボードフォーカスは一般に常に
１つのウィンドウにだけ当てられる。

【００６５】ここで、第１実施例で述べた３つのプログ
ラム、つまりシェルツール、テキストディタ、メールツ
ールを再び利用して説明する。この場合、各プログラム
は、ウィンドウシステムによって各々１つのウィンドウ
として抽象化され表現される。また、音声認識システム
とも通信を行い、起動時に音声認識システムに対して第
１実施例で示した手順をもって認識語彙を設定する。各
応用プログラムの認識語彙は同じく図１３に示す通りで
ある。

【００６６】一般に既存のウィンドウシステムにおい
て、応用プログラムは、キーボードフォーカスの変更の
通知が受け取られる。キーボードの入力対象と音声の入
力対象を同じ応用プログラムにするために、応用プログ
ラムはキーボードフォーカスが当たったならば、音声認
識システムに対し、自身に音声フォーカスを当てる要求
をし、外れたならば音声フォーカスをはずす要求をす
る。これは、第１実施例で述べた、入力タスク変更要求
を送信することで可能となる。以下ではキーボードフォ
ーカスと音声フォーカスを一致したものとして扱い、そ
れを入力フォーカスと呼ぶ。入力フォーカスはマウスに
よって操作する。

【００６７】入力フォーカスの移動に伴う音声認識語彙
の変化を図１４に示している。この場合、図１４（ａ）
は状態１、図１４（ｂ）は状態２を示すもので、入力フ
ォーカス（それと同時に音声フォーカスも）がテキスト
エディタに当たっている。従って、この状態で認識可能
な語彙は、テキストエディタの認識語彙である、「カッ
ト」「コピー」「ペースト」「解消」「終了」の５つで
ある。ここではユーザはこの５つの語彙を発声すると、
音声認識結果がテキストエディタに送られるということ
である。マウスポインタによりシェルツールを指定する
と、入力フォーカスはシェルツールに移動し（それと同
時に音声フォーカスもシェルツールに移動し）認識可能
な語彙は、シェルツールの認識語彙である「ヒストリ」
「リスト」「ホーム」「プロセス」「終了」の５つに変
化する。

【００６８】音声認識語彙として何を使うかは自由であ
り、応用プログラム毎の認識語彙をユーザが記憶、判断
することは、ユーザへの大きな負担となる。しかし、個
々の応用プログラムに認識語彙の表示を可能にする手段
をもたせるのは逆に応用プログラムの作成者にとって負
担となる。また、音声入力は、キーボードなどの入力手
段と違って暖味性があるため、入力音声が正しく認識さ
れたかをユーザが確認できることが重要となってくる。

【００６９】この問題を解決する手段として、音声認識
インタフェースに標準的な応用プログラムとして、図１
５に示すような、認識語彙を表示するプログラム（語彙
表示プログラム）を作成することが考えられる。このプ
ログラムは、全ての応用プログラムが、新規の応用プロ
グラムが通信路を接続／切断したり、語彙の変更を要求
したり、音声フォーカスの変更をする度に、自身に、そ
れらの要求により発生するメッセージを送信するように
要求する（すなわちそれを受け取る入力マスクを設定す
る）。語彙表示プログラムは、常に、その時点で認識可
能な語彙をすべて表示できる。また、音声が認識される
度に、それを知り、応用プログラムに送信された認識結
果を、例えば図１５のように色を変えて表示すること
で、音声認識システムが受け付けた音声入力を確認でき
る。認識語彙表示プログラムにより、応用プログラムの
使用者と作成者の双方の負担を軽減し、より使いやすい
音声入力環境をユーザに提供できる。

【００７０】また、語彙表示プログラムのリスト中の色
を変える以外に、認識結果は別の方法によっても、使用
者に通知できる。

【００７１】例えば、ディスプレイのスクリーン、ある
いはアプリケーションのウインドウの特定の位置に認識
結果を表示させる方法もある。この表示部分は、アプリ
ケーションごとに持つことも音声認識システム自身が所
有していてもよい。ウインドウシステム環境下では、認
識結果表示用のウインドウを作成しておき、アプリケー
ションのウインドウの中央部や上下左右などの周囲の部
分あるいはマウスなどのポインタ、キーボード入力のカ
ーソルなどの付近など、特定の位置に表示させるように
位置調節をすればよい。

【００７２】また認識結果は、次の認識結果が得られる
まで表示し続けてもよいし、認識結果が得られた直後だ
け表示し、ある時間が経過した後は、次の認識結果が得
られるまで表示させないようにしておいてもよい。特に
マウスなどのポインタやキーボード入力のカーソルの付
近は、視線の移動がわずかで済む利点がある反面、作業
している領域の近くで常時表示させると作業の妨げにな
る場合もあるので、認識結果が得られた直後だけ表示す
るのは有効である。これとスクリーンやアプリケーショ
ンの特定位置に認識結果を常時表示させる方法と併用し
てもよい。

【００７３】応用プログラム間だけではなく、１つの応
用プログラム内でも、そのマウスの位置によって音声認
識語彙を変更することで、必要以上の認識処理を減ら
し、音声入力をより確実なものにできる。例えば、図１
６（ａ）および同図（ｂ）に示すように、メールツール
をリスト表示部とテキスト表示部の２つに分割し、その
どちらにマウスポインタがあるかによって認識語彙（こ
こでは認識語彙は８つである）を変える。こうすること
で、必要以上の無駄な認識処理をおさえるとともに、入
力音声の認識誤りを起こりにくくすることができるとい
う効果がある。

【００７４】また、第１実施例では、新たなアプリケー
ションが起動されると、そのアプリケーションに音声フ
ォーカスが移ることを説明した。同様にアプリケーショ
ンの起動、終了時あるいは、マウス、ペンなどのポイン
ティングデバイス、キーボードなどの入力操作や音声認
識の結果を受けて実行される処理の結果として、アプリ
ケーションのウインドウ状態変化がある（ウインドウが
生成破壊、ジオメトリ変更された）場合には、音声フォ
ーカスの移動を行う規則を作ることにより使い勝手を向
上させることができる。

【００７５】例えば、「ウインドウの破壊、アイコン
化、ウインドウが他のウインドウに隠れる、等の場合音
声フォーカスを失い、ウインドウの生成、非表示状態か
ら表示状態への変更、ウインドウが他のウインドウの上
に表示される、ウインドウの大きさを大きくする、等の
場合音声フォーカスを獲得する。」、というような規則
に従い、各アプリケーション内部でウインドウ状態変化
に応じて、フォーカスの獲得・消去を行う。勿論、この
ような、ウインドウ状態変化は個々のアプリケーション
が個別に管理しなくても、音声フォーカスの管理を行う
プログラムにより一括管理してもよい。この場合、この
管理プログラムは、ウインドウシステムを管理するプロ
グラム（例えば、システムのウインドウサーバ）に管理
したいアプリケーションのウインドウの状態変化を知ら
せてもらい、その通知を受けた時に上述のような規則を
適用して、音声フォーカスを変更すればよい。

【００７６】また、音声フォーカス管理プログラムがあ
れば、音声フォーカスを獲得していたアプリケーション
がアプリケーションの終了、ウインドウの破壊などにと
もない音声フォーカスを失った場合も、どのアプリケー
ションに音声フォーカスを移すかに関して、同様に規則
を作り、使い勝手を向上させることができる。

【００７７】例えば、「音声フォーカスの履歴を音声フ
ォーカス管理プログラムが保持しておき、音声フォーカ
スを獲得していたアプリケーションが音声フォーカスを
消失した場合、その消失原因が他のアプリケーションの
フォーカス獲得要求によるものでないならば、それ以前
に音声フォーカスを獲得していたアプリケーションにフ
ォーカスを戻す。」、という規則を作り、音声フォーカ
ス管理プログラムがこれに従って、音声フォーカスを変
更させれば、音声フォーカスを獲得しているアプリケー
ションが１つもない状態、すなわち音声認識ステムの出
力をどのアプリケーションも受け取らない状態を回避す
ることができる。

【００７８】なお、本実施例においては、音声認識シス
テムとウインドウシステムを独立した構成としたが、両
システムを統合した形態の音声認識インターフェースの
実現も可能である。

【００７９】（第３実施例）第２実施例では、音声認識
システムとウィンドウシステムを組み合わせ、音声フォ
ーカスとキーボードフォーカスを一致させて、１つの入
力フォーカスとし、入力フォーカスをマウスポインタで
指定することで、音声認識対象語彙を変更した。しか
し、これでは入力フォーカスを変更する度にキーボード
から手を離さなければならない。入力フォーカスの変更
を音声で可能にすることでユーザはキーボードから手を
離さずに入力タスクを変更し、ユーザのマルチウインド
ウ環境における使い勝手の向上を期待できる。

【００８０】入力フォーカスを音声入力で変更可能にす
るため、実施例１を拡張して各認識語彙に対してローカ
ルとグローバルの２つの値を設定できるようにする。ロ
ーカルな認識語彙とは、それによる認識設定をした応用
プログラムに音声フォーカスが当たっている際に認識す
るような語彙であり、グローバルな認識語彙とは、音声
フォーカスがどの応用プログラムに当たっているかにか
かわらず、認識対象となるような語彙である。

【００８１】ここで、再び３つの応用プログラム（シェ
ルツール、テキストエディタ、メールツール）を使って
説明する。

【００８２】各応用プログラムの認識語彙は、図１７に
示す通りである。ローカル／グローバル設定にともない
応用プログラム管理テーブル中の認識対象語彙リスト中
の語彙のそれぞれにローカル／グローバルを示すフラグ
を設ける。応用プログラム管理テーブルは、図１８に示
すようになる。音声入力が与えられたときに、メッセー
ジ処理部は、この応用プログラム管理テーブルを使って
認識語彙を次のように求める。まず、応用管理テーブル
を参照して音声フォーカスの当たっている応用プログラ
ムのローカル認識語彙を拾い出す。次いで全ての応用プ
ログラムのグローバル認識語彙を拾い集める。これらが
その時点での認識システムが認識可能とする語彙であ
る。例えば、テキストエディタに音声フォーカスが当た
っているとすると、その時点での認識語彙は「カット」
「コピー」「ペースト」「取消し」「終了」「シェルツ
ール」「メールツール」「テキストエディタ」の８つで
ある。ここで、「カット」「コピー」「ペースト」「取
消し」「終了」「テキストエディタ」の発声に対する認
識結果は、テキストエディタに送付され、「メールツー
ル」「シェルツール」は、それぞれメールツール、シェ
ルツールに送信される。例えば、この状態でメールツー
ルを発声した時に、メールツールの中で入力フォーカス
（音声フォーカスとキーボードフォーカス）を自分自身
に変更すれば、音声入力とキー入力の対象をキーボード
から手を離すことなく変更できる。

【００８３】これは、換言すれば、ウインドウに名前を
付けると言うことである。このウンドウ名はウインドウ
の上部のタイトル表示部に表示すれば、ユーザは、それ
によってウインドウを何と呼べばよいかわかる。

【００８４】以上のように、本実施例では、認識語彙に
ローカル／グローバルの属性を与えることで、ウィンド
ウに名前を付け、その名前を発声することで手を使わず
にフォーカスの変更が可能となり、応用プログラムを切
り替えることが可能となる。（第４実施例）第２、３実施例では、音声フォーカスと
キーボードフォーカスを一致させ、同時に１つのウイン
ドウだけが両者の入力を排他的に受け付けるようにし
た。

【００８５】この２つの入力フォーカスを一致させるこ
とで１つの応用プログラムが両方の入力から一手に引き
受けることができた反面、２つの入力手段がありながら
それぞれ別々の応用プログラムに対する入力をできなか
った。本実施例では、この２つのフォーカスを分離する
ために音声フォーカスをマウスポインタによって直接操
作しないようにする（キーボードフォーカスは、マウス
ポインタを使う。）。マウスポインタがウインドウに入
り、それが応用プログラムに通知されても、応用プログ
ラムは音声フォーカスを移動させない。この場合は、音
声フォーカスは、第３実施例で述べたようにウインドウ
に名前を付け、それぞれグローバル認識語彙とし、その
名前で発声することで変更できる。

【００８６】入力フォーカスを分離した際、その２つの
フォーカスをユーザに分かりやすく呈示しなければ、ユ
ーザが入力する際に混乱してしまう。本実施例では、キ
ーボードフォーカスをウインドウ枠を太くすることで表
示し、音声フォーカスをウィンドウタイトルの色を変化
させることで示すこととする。

【００８７】図１９は、入力フォーカスを２つに分離
し、それぞれを別々に移動させた場合の例である。同図
（ａ）では、両フォーカスは、どちらもテキストエディ
タに当たっている。メールツールをマウスポインタで指
定すると、キーボードフォーカスはメールツールに移動
するが、音声フォーカスは、テキストエディタに当たっ
たままである同図（ｂ）。同図（ａ）の状態から、「メ
ールツール」音声入力を行うと、音声フォーカスがメー
ルツールに移動するが、キーボードフォーカスはそのま
まである。同図（ｂ）および（ｃ）において、キーボー
ドフォーカスと音声フォーカスは、それぞれ個別の応用
プログラムに当たっているため、まったく同時に別々の
入力チャンネルを通じて２つの応用プログラムを操作で
きる。例えば、同図（ｃ）の状態にすることで、テキス
トエディタに対してキーボードで文章を打ち込みながら
メールツールを音声で操作し、受信した電子メールを読
むことができる。

【００８８】また、音声フォーカスをコントロールする
応用プログラム、音声フォーカスマネージャを作成し、
これにより音声フォーカスを音声以外の手段で移動でき
るようにもしている。図１９の右側が音声フォーカスマ
ネージャを示してており、この音声フォーカスマネージ
ャは、同時に動作している応用プログラムの状態を音声
認識システムと通信することで知り、リストなどの形で
表示する。

【００８９】音声フォーカスは、例えば応用プログラム
名を反転表示することで表現し、これらリスト上をマウ
スポインタで指定することで音声フォーカスが変更でき
るようになる。また、応用プログラムに入力可能な手段
は、キーボードや音声以外にもペンなども考えられる。
応用プログラムに入力可能な手段および何が入力できる
かを表示すればユーザの使い勝手が向上できる。例え
ば、入力可能性を手段別にアイコン化することで表示す
る。

【００９０】このように、音声入力対象と音声以外の手
段による入力対象を別々に分離することで、複数の入力
手段を複数の応用プログラムに割り当て、人間が自然の
形の作業を平行して行うことができるようになる。

【００９１】（第５実施例）図２０は、同実施例の概略
構成を示している。この場合、音声認識システム６に対
して複数の応用プログラム７を接続している。そして、
これら応用プログラム７には、それぞれメッセージ入出
力部７１を有している。

【００９２】しかして、音声認識システム６は、音声入
力があるごとに、その音声に対して認識処理を行い、そ
の認識結果を応用プログラム７に送信する。応用プログ
ラム７は、音声認識システム６に対して認識対象語彙を
通知し、音声認識システム６は、それを用いて認識処理
した結果を応用プログラム７に送信する。

【００９３】応用プログラム７は、メッセージ入出力部
７１を有していて、このメッセージ入出力部７１は、応
用プログラム７が認識結果を受け取るか否かを決定し、
その要求を音声認識システム６に対して行う。メッセー
ジ入出力部７１は、応用プログラム７の指示によって音
声認識システム６に対して応用プログラム７のための音
声認識を行う要求をしたり、音声認識システム６から送
信された認識結果を受けて応用プログラム７に渡した
り、ブロックして渡さなかったりする。また、認識対象
語彙を変更できる。

【００９４】応用プログラム７がメッセージ入出力部７
１を持つことで、応用プログラム７は、外部からの働き
掛けによらず、自分の状態にしたがって音声入力（認識
結果）を受けとったり、受けとらなかったりできる。

【００９５】例えば、音声による制御が可能な電子メー
ルシステム（音声メールと称する。）の例を挙げると、
音声の誤認識による誤動作を防止するため、音声入力が
不能な状態で音声メールを起動、動作させておく。音声
メールがメールをうけとると、例えば「新しいメールを
受信しました。いますぐお読みになりますか。」と合成
音声を出力して知らせ、「はい」「いいえ」などの確認
を取るための認識対象語彙と、それにより音声認識する
ことを音声認識システム６に通知する。ユーザが「は
い」といったならば、新しく受信したメールを表示した
り、合成音声によりメールを読み上げたりする。「いい
え」といったならば、音声メールは音声認識システム６
に対して音声認識結果を受けとらないように要求し、元
の状態に戻る。

【００９６】「新しくメッセージを…」のメッセージ
は、合成音声でなく、図２１のように表示してもよい。
同図での「はい」「いいえ」は、マウスなどでも操作を
可能とするためである。

【００９７】また、図２０において、１つの応用プログ
ラム７のメッセージ入出力部７１に、他の応用プログラ
ム７の音声入力を可能にしたり、ブロックしたりする機
能を与えれば、電子メールの例で言えば、確認のための
音声入力を待つ間、電子メールは、他の音声によって制
御が可能な応用プログラム７の音声入力を一時的にブロ
ックし、確認が終わった時に戻すような操作が可能にな
る。

【００９８】応用プログラム７による、こうした他応用
プログラム７の音声入力をブロックする操作が競合した
場合には、時間的に後にブロックモードになった応用プ
ログラム７は、先にブロックモードになった応用プログ
ラム７のブロック解除を待つ操作ができる。

【００９９】このように音声認識システム６でなく、応
用プログラム７にタスクの管理を可能にする手段を持た
せることにより、応用プログラム７が音声認識システム
６の指示に従うだけでなく、応用プログラム７独自の内
容状態に従って音声入力を利用できる。

【０１００】また、ある特定の応用プログラム７に他の
全ての応用プログラム７のタスクの管理（音声認識結果
を送るか否か、どの認識対象語彙により音声認識を行う
か否かなどの処理）を行わせることもできる。

【０１０１】図２２は、ワークステーションなどのマル
チウィンドウ環境で、音声により操作できるメールツー
ル、シェルツール、テキストエディタおよびタスク管理
プログラムを示している。ここでは、どれか１つの応用
プログラム７が音声入力を可能としている。この場合、
テキストウディタが音声入力対象となっている（タイト
ルの色の変更によりそれが表示されている。）。そし
て、音声入力対象となっていることは、タスク管理プロ
グラムでも同様に表示することができる。この例では、
音声入力対象の変更は、タスク管理プログラムの表示の
上をマウスなどのポインティングデバイスを利用して指
定することができる。

【０１０２】（第６実施例）実施例５では、１つの応用
プログラム７だけを音声入力対象としたが、複数の応用
プログラム７を同時に認識対象することも可能である。

【０１０３】図２０の音声認識システム６に、例えば図
２３に示すような応用プログラム管理テーブルを持たせ
る。この応用プログラム管理テーブルは、音声認識シス
テム６に接続している全ての応用プログラム７に関して
認識の可否および認識対象語彙に関する情報を持つ。

【０１０４】このテーブルの情報の変更は、各応用プロ
グラム７のメッセージ入出力部７１からの要求によって
行う。図２３では、メールツールとシェルツールが音声
入力可能になっている。図２３の状態は、例えば図２４
に示すように表現できる。

【０１０５】ここで音声認識システム６は、「プロセ
ス」「ホーム」といった音声入力は、シェルツールに送
り、「先頭」「次」といった音声入力は、メールツール
に送るといったように、認識した結果を自動的に振り分
けることができる。また、「終了」は、メールツールと
シェルツールに同時に送ることができるため、各応用プ
ログラム７はそれを受け取って応用プログラム７自身を
終了させることができる。

【０１０６】さらに、複数の応用プログラム７を音声入
力対象とすることを前提とすれば、次のような操作が可
能になる。図２５は、タスク管理プログラムの機能を拡
張した例である。「排他制御」は従来あるように音声入
力対象の応用プログラム７を常に一つにする機能であ
る。「全部」は、音声認識システム６に接続されている
全ての応用プログラム７を音声入力対象とする機能であ
る。「反転」は音声入力対象を逆転させる機能であり、
メールツールとシェルツールが音声入力対象となった状
態で「反転」することで音声入力対象がエキストエディ
タとなる。もう一度「反転」すれば元に戻る。これらの
操作は、マウスのようなポインティングデバイスだけで
なく、音声やキーなどの入力装置により可能である。例
えば、何等かのキーボタンやキーを押しながら音声入力
する。

【０１０７】「全部」ボタンを押しながら発声すると、
全部の応用プログラム７が音声入力対象となり、「反
転」ボタンを押しながら発声すると、音声入力対象が反
転し、ボタンを離すとそれらの状態は元に戻る。

【０１０８】特定の１つの対象を指定しないまま入力
し、その入力が適切に処理されることが本実施例では可
能になる。ワークステーションなどのマルチウインドウ
環境を考えると、その上で例え音声による操作が可能な
応用プログラム７が複数動作していたとしても、対計算
機ということを考えれば、人間の相手は１つであり、計
算機も相手の発声をタスク切換えなどの特別な操作をす
ることなく、自動的に適切に処理されることを人間が期
待するのは自然のことであり、音声メディアの特性を活
かすことになるといえる。

【０１０９】（第７実施例）上述の第６実施例におい
て、各応用プログラム７の認識対象語彙が何であるかは
分からない。そのため、タスク管理プログラム（あるい
は別の応用プログラム７にしてもよい）に各応用プログ
ラム７の認識対象語彙を表示させる。応用プログラム７
は音声認識システム６に対して、音声認識システム６の
持つ応用プログラム管理テーブル（図２３）の情報を要
求することで、その表示が可能である（図２６）。

【０１１０】このように音声入力対象となった応用プロ
グラム７の認識対象語彙を自動的に表示することで、ユ
ーザが各応用プログラム７ごとに入力に使用する認識対
象語彙を記憶する必要がなくなり、ユーザの負担が少な
くなる。また、応用プログラム７の作成者の側にも認識
対象語彙を表示させる手段を用意する必要がなくなる
分、負担解消が計れる。これはまた、例えば、入力対象
の応用プログラム７の表示と一緒に表示できる（図２
７）。図２７では、メールツールとシェルツールの色の
変化を持って、それらが入力対象となっていることが表
示されている。

【０１１１】（第８実施例）複数の応用プログラム７の
制御は、画面の表示やマウスなどのポインティングデバ
イスを必ずしも必要としていない。例えば、音声による
ビデオ予約が可能なＶＴＲ制御プログラムを電話でコン
トロールしている際に、第５実施例で述べた音声メール
プログラムがＶＴＲ制御プログラムの処理に一時的に割
り込み、「緊急のメール受信しました。ないようを確認
しますか」と合成音声を出力して知らせることができ
る。この確認を受けた利用者は、受信したメールの内容
を合成音声により知ることができる。

【０１１２】メールによる作業が終わると、ビデオ予約
の作業が再開される。ＶＴＲ制御プログラムは、作業中
断に備えて「予約内容確認」などの語彙とともに、中断
前までに行われた予約内容を確認できれば、より使いや
すいインターフェースとなる。電話の場合、音声だけで
なく、電話のプッシュボタンなどの入力装置が利用でき
る。音声入力の自然な性質を活かしながら、例えば環境
の雑音が一時的に増大し、音声による入力が疎外される
ような場合には、適宜プッシュボタンなどを利用して入
力を確実にすることができる。

【０１１３】（第９実施例）次に、本発明による音声認
識プログラムによる認識語彙の学習に関する実施例につ
いて説明する。

【０１１４】従来、認識語彙の学習の際は、学習語彙の
一覧表の中から利用者が学習させたい語彙を選択する
が、語彙が多い場合、選択したい語彙を探すのに手間が
かかり、使い勝手を悪化させていた。例えばワークステ
ーション用に発売されている音声認識装置における学習
プログラムでは、様々な応用プログラムで使用する認識
語彙がすべて表示されるため学習させたい語彙を数百の
単語リストから選ばなければならなかった。

【０１１５】本実施例では、応用プログラムからの認識
語彙情報を利用することにより、利用者に提示する単語
一覧の語彙数を少なくして容易に目的の語彙を選択する
ようにでき、また、応用プログラム使用中であってもそ
の場で学習を行うことができるようにしている。

【０１１６】同実施例は、図２８に示すように図１で述
べた音声認識システム１と応用プログラム２に学習デー
タ収集部８と辞書作成部９を加えた構成からなってい
る。

【０１１７】ここで、学習データ収集部８は、音声認識
システム１とメッセージ交換を行って応用プログラム２
に関する語彙情報を受け取り、利用者への語彙表示を行
って認識語彙を選択させる。また、学習に必要な設定、
例えば、学習データの出力を行うように音声認識システ
ム１へ要求し、受け取ったデータをファイルに保存す
る。辞書作成部９は上記ファイルを入力として認識辞書
の作成を行う。

【０１１８】以上の動作を行うために、学習データ収集
部８は、図２９に示すように単語音声特徴データ保存部
８１、学習語彙表示選択部８２、学習データ収集制御部
８３、学習語彙ガイド表示部８４から構成している。

【０１１９】ここで、学習語彙表示選択部８２は、語彙
を利用者に表示して学習語彙を選択させるもので、内部
に有する学習語彙テーブル８２１に音声認識システム１
から送られて来る応用プログラム２の認識語彙を記憶す
るようにしている。学習語彙テーブル８２１は、例えば
文書編集に使うコマンド群が認識対象になっている場合
は、音声認識対象語彙：取り消し、カット、コピー、ペース
ト、フォントのようになっていて、この内容が、例えば図３３のよう
に表示され、利用者が応用プログラムを使用しているそ
の場で目的の語彙を選択することができる。表示される
語彙は応用プログラムの内部状態に応じて必要とされる
認識対象の語彙のみであるため、全部をまとめて表示す
るよりも非常に少なくすることができ、容易に目的の語
彙を選択可能である。単語音声特徴データ保存部８１
は、メッセージ処理部を介して音声認識システム１から
送られてくる単語音声特徴データを、例えば磁気ディス
クなどに保存する。学習データ収集制御部８３は、デー
タ収集の全体制御を行い、データ収集の開始／終了を示
すためのデータ収集指示フラグを持つ。音声認識システ
ム１との間のメッセージ交換は、図３０に示すメッセー
ジを用いて行うことができる。

【０１２０】学習データ収集のため、音声認識システム
１では、音声認識を行って認識結果を応用プログラム２
へ送る通常の認識動作の他、音声分析の結果得られる単
語音声特徴データをデータ収集部８へ返すデータ収集動
作の２つの動作モードを行うことが可能であり、以下で
は各々の動作を認識モード、学習モードと呼ぶことにす
る。

【０１２１】次に、図３１、図３２を参照しながらデー
タ収集の手順について説明する。

【０１２２】図３１は、音声認識システム１のデータ収
集時のフローチャートである。

【０１２３】この場合、学習を行う前に音声認識システ
ムでは、応用プログラムとの通信により、すでに認識語
彙が設定されているものとする（ステップ３１０１）。
そして、データ収集部８からの学習モード設定要求メッ
セージを受信すると（ステップ３１０２）、学習に必要
な動作を行う（ステップ３１０３）。

【０１２４】学習に必要な動作は、例えば設定されてい
る語彙のセットをデータ収集中保持するために音声フォ
ーカスを移らないようにしたり、収集中に認識結果を応
用プログラムへ送って認識結果によって応用プログラム
２の状態が変化して設定語彙が変化しないようにデータ
収集中、認識結果を応用プログラム２へ送らないように
することなどがある。

【０１２５】次に、音声認識システム１は、データ収集
部８へ認識対象語彙のリストを送信した後（ステップ３
１０４）、データ収集部８からのメッセージを受信し
（ステップ３１０５）、それが音声特徴データ送信要求
であれば、音声入力がおこなわれる度に特徴データをデ
ータ収集部８へ送信し（ステップ３１０７）、学習モー
ド解除要求であれば、学習モードを解除を行い通常の認
識モードに戻る（ステップ３１０８）。

【０１２６】図３２は、学習データ収集部のフローチャ
ートである。

【０１２７】まず、初期状態としてデータ収集の実行を
指示するフラグにＯＦＦが設定されている（ステップ３
２００）。ユーザによりデータ収集がＯＮにセットされ
ると音声認識システム１へ学習モード設定要求のメッセ
ージを送る（ステップ３２０１）。次に音声認識システ
ム１にその時の認識対象語彙を要求し、語彙を学習語彙
表示選択部８２の学習語彙テーブル８２１に記憶させ
る。

【０１２８】学習語彙ガイド表示部８４は、例えば図３
３のように表示し（ステップ３２０２）、学習語彙をマ
ウスなどを用いて選択させる（ステップ３２０３）。選
択語彙は複数でもよく、例えば選択した語彙の背景色が
白から緑に変化して見易くすることができる。図３３
は、文書編集メニューの語彙の中から「コピー」と「ペ
ースト」を学習語彙として選択した場合を図示してい
る。

【０１２９】次に、単語音声特徴データ送信要求を音声
認識システム１に出した後（ステップ３２０４）、学習
語彙の発声を促すための発声すべき語彙の表示が学習ガ
イド表示部８４によって図３４のようになされる（ステ
ップ３２０５）。この場合、ガイドはなくすことも可能
である。また、補助情報として発声回数などを表示した
り、発声すべき語彙を合成音声によって聞かせることも
できる。こうすることで、ガイドを画面に表示するだけ
に比べて見誤りなどによる間違った発声を少なくするこ
とができる。

【０１３０】ユーザが発声した後、音声認識システム１
から送られてくる単語音声特徴データをファイルへ出力
し、学習データ収集制御部８３により設定されているデ
ータ収集指示フラグによりデータ収集の送信／終了を判
断する（ステップ３２０７）。フラグがＯＮなら単語音
声特徴データ送信要求から、ステップ３２０９を介して
上記データ収集・ファイル出力までを繰り返し、ＯＦＦ
なら音声認識システム１に学習設定解除の要求を出す
（ステップ３２０８）。

【０１３１】次に、データ収集時の音声認識インターフ
ェース全体の処理の流れを図３５を用いて説明する。

【０１３２】まず、初期設定では、ユーザからデータ収
集の指示が出されると（ａ）、データ収集部８より音声
認識システム１に対して学習モード設定要求が出される
（ｂ）。これを受けて音声認識システム１が現在認識に
用いている認識対象語彙をデータ収集部８に送る
（ｃ）。

【０１３３】データ収集部８では、認識対象語彙をユー
ザに表示して学習を行う語彙の選択を促す。学習の語彙
が選択されると（ｄ）、データ収集部８は、音声認識シ
ステム１に対して単語音声特徴データの送信を要求し
（ｆ）、選択された語彙を発声のガイドとして表示し
（ｅ）、ユーザに発声を促す。

【０１３４】音声認識システム１では、発声されたユー
ザの音声を処理した後、データ収集部８に単語音声特徴
データを送信し（ｇ）、データ収集部８は、そのデータ
をファイルに出力する。

【０１３５】学習終了時には、まず、ユーザがデータ収
集終了の指示を入力し（ｈ）、データ収集部８は、学習
モードの解除を音声認識システム１に要求する（ｉ）。
音声認識システム１では、それを受けて学習モードを解
除する。

【０１３６】データ収集終了後は利用者が必要に応じて
認識辞書の作成を行うことができる。辞書作成部９は，
単語音声特徴データ保存部８１からのデータを用いて辞
書作成を行い辞書をファイル出力する。

【０１３７】従って、このようにすれば目的の語彙を簡
単に選択でき、応用プログラム使用中においても認識語
彙の学習を簡単に行うことができるようになる。

【０１３８】（第１０実施例）次に、時間のかかる辞書
作成をバックグランドで行い、データ収集中や他の応用
プログラム実行中に辞書を作成することで辞書作成終了
を待たずに使い勝手の良い音声認識インターフェースを
実現する実施例について説明する。

【０１３９】ところで、従来、音声認識のパターンマッ
チング法としては、ＤＰ法やＨＭＭ、複合類似度法など
が知られており、いずれも標準となる認識辞書を用いて
パターンマッチングを行うが、例えば高精度な認識を行
うため固有値展開などを必要とする複合類似度法（永
田、他“ワークステーションにおける音声認識機能の開
発”電子情報通信学会技術報告、ＨＣ９１１９、ｐｐ．
６３−７０、（１９９１））では、辞書作成のための計
算量が多く、現在高速であるとされるワークステーショ
ン、例えば処理能力２０ＭＩＰＳの計算機を用いた場合
でもかなりの時間、例えば一単語当り数秒から数十秒を
要するため待ち時間による学習インターフェースの使い
勝手の悪化が無視できない。そこで、学習データの収集
中に辞書作成をバックグラウンドで計算することによ
り、待ち時間を減らしてインターフェースの使い勝手を
向上させるようにしている。

【０１４０】そこで、同実施例では、辞書作成をバック
グラウンドで行うことでインターフェースを良くする音
声認識システムについて説明する。

【０１４１】この場合、図２８で述べた辞書作成部９
を、図３６に示すように辞書作成管理部９１、辞書作成
制御部９２、データ入力部９３、辞書作成部本体９４、
ファイル出力部９５から構成している。

【０１４２】ここで、辞書作成管理部９１は、データ収
集部８からのメッセージを受け、要求された語彙の単語
認識辞書の作成を辞書作成制御部９２へ指示し作成終了
をメッセージでデータ収集部８に通知する。

【０１４３】複数の辞書作成要求があった場合に順序よ
く実行するため例えば図３７のような辞書作成管理テー
ブルの要求日時の順番に従って作成を行う。図３７は例
として文書編集用のコマンドである「コピー」「ペース
ト」「カット」という単語について、この順序で辞書作
成を要求されたときの管理テーブルの内容である。語彙
などの条件は要求のあった日付、時刻とともに管理テー
ブルに登録され、辞書作成がこの順で行われ、作成の終
了した要求は管理表から削除される。

【０１４４】辞書作成要求は上記のように語彙を指定す
るだけでなく、単語音声特徴データの属性としてデータ
自身に登録されている他の情報、例えば図３８のように
発声者の名前を指定してその人の特定話者用の辞書を作
ったり、図３９のように日付を指定して新しいデータの
みによって辞書を作ることもできる。

【０１４５】そして、辞書作成管理部９１と辞書作成制
御部９２の間はメッセージ交換でやりとりを行う。

【０１４６】次に、図４０、図４１を用いて辞書作成の
流れについて説明する。

【０１４７】まず、図４０は辞書作成管理テーブルへの
登録の手順である。この場合、辞書作成要求のメッセー
ジがあったかどうかを判断し（ステップ４００１）、な
ければ要求を待ち、あれば語彙やユーザ名などの条件を
辞書作成管理テーブルに登録する（ステップ４００
２）。

【０１４８】一方、図４１は辞書作成の手順である。こ
の場合、辞書作成管理テーブル上に登録されている辞書
作成要求を検索し、要求がなければ登録を待ち、あれば
最も古い日時の要求を選ぶ（ステップ４１０１）。次に
単語音声特徴データを入力し（ステップ４１０２）、上
記要求の条件に適合するデータを選択する（ステップ４
１０３）。選択したデータのみを用いて辞書を作成しフ
ァイル出力する（ステップ４１０４、４１０５）。上記
要求を管理テーブルから削除し、管理テーブルの検索
（ステップ４１０１）へ戻る。以上を繰り返す。また、
すべての辞書作成要求が削除された時点で、辞書作成が
終了したことを学習データ収集部に通知しても良い。

【０１４９】認識辞書の作成は、データ収集時にバック
グラウンドで行うため、辞書作成の進行状況は利用者に
とって分かりにくい。そこで、辞書作成の進行状況を例
えば図４２（ａ）（ｂ）に示すように全処理量に対する
終了した処理量の割合を表示することによって利用者に
分かりやすいインターフェースを提供できるようにして
いる。この場合、辞書作成の開始や終了の際には、ビー
プ音などにより通知することも可能である。また、辞書
作成処理の速度を表示することも可能で、例えば図４３
に示すように速度を４段階に分けたり、図４４（ｂ）に
示す色分けを用いて同図（ａ）のように色で処理速度を
表示したりでき、計算機の負荷が大きくて辞書作成の処
理が進まない場合には、処理が停滞していることを表示
することにより、利用者に計算機の負荷の分散を促すよ
うにもできる。

【０１５０】以上のように、時間がかかる音声データの
収集中にバックグラウンドで辞書作成を行うことによ
り、待ち時間を少なくして使い勝っての良いインターフ
ェースを実現することができる。

【０１５１】また、以上述べた辞書作成は、独立したプ
ロセスとして動作することが可能で、データ収集部８か
らの要求だけでなく、音声認識システムやその他の応用
プログラムからも辞書作成要求を受け付けることが可能
であり、学習データ収集処理時のみに限らず、いつ辞書
作成を行ってもよい。

【０１５２】（第１１実施例）認識対象を単語または文
節などとする音声認識においては、従来より入力音声の
パワーの変化、音声ピッチの変化、あるいは零交差回数
などの特徴パラメータを用いて単語境界を検出し、この
音声特徴ベクトルと認識語彙セットについての認識辞書
とを照合することにより行われていた。しかし、実際の
作業環境では、背景雑音やユーザの不用意な発話（他の
ユーザとの会話や独り言など）の影響により誤った単語
境界が検出されることが少なくない。このため、音声認
識システムのユーザは現在何が認識対象になっているか
を常に意識し、それ以外の言葉を発声しないようにする
必要がある。

【０１５３】一方、音声を計算機への入力手段の一つと
して他の入力手段（例えばキーボードやマウス）と合わ
せて作業を行う場合、ユーザは、入力内容や作業の状況
に応じてそれぞれの入力手段を使い分けることが考えら
れる。

【０１５４】そこで、本実施例では、図４５に示すよう
に図１で述べた音声認識システム１と応用プログラム２
に音声認識自動停止部１０を加えた構成とし、認識処理
に、通常の認識処理（現在の認識対象となっている全て
の語彙に対する認識処理）をおこなうモードと、特定の
キーワードについてのみ認識処理を行うモードの２つの
モードを設け、認識処理を開始して暫くは通常の認識処
理を行い、予め定めておいた時間内に音声入力が行われ
なかった場合には、それまでの認識語彙セットを保存
し、特定のキーワード（例えば「認識開始」など）のみ
を認識語彙セットとするモードに切り替わるようにす
る。その後、このキーワードが入力されれば、保存して
いた認識語彙セットを新たに設定し、通常の認識処理モ
ードに移行する。この認識処理モードの切り替えは、例
えば音声フォーカスの変更や音声以外の入力手段による
指示によっても行われ、認識モードの移行は、メッセー
ジまたはアイコンによる表示やピープ音などを用いてユ
ーザに伝えられる。これにより、ユーザが音声を暫く使
わない状態になると、自動的に音声認識のモードが切り
替わり、特定のキーワード以外の音声を無視することで
検出誤りによる予期しないタスクの切り替えや誤動作を
回避することができる。

【０１５５】また、ユーザはキーワードを発声するか、
音声以外の入力手段により音声認識処理モードの切り替
えを意識的に行うことができる。上記の処理は、例えば
インターバル・タイマ機構を用いることにより実現でき
る。これは、現在時刻から時間切れになる時間を秒数で
指定するもので、時間切れになると、その旨を通知する
シグナルが渡される。このシグナルを受信した時点で音
声認識のモードの切り替えを行う。

【０１５６】以下、図４６に示すフローチャートに従っ
て説明する。

【０１５７】まず、最初にタイマが時間切れになるまで
の秒数を設定し（ステップ４６０１）、時間切れか否か
を示すフラグを０にする。このフラグは、時間切れにな
った旨を通知するシグナルを受信した際に呼び出される
シグナルハンドラ内で１がセットされるようにしてお
き、認識処理の最初にその値が調べられる。なお、タイ
マの機能は、計算機に通常内蔵されている時計の機能に
より容易に実現可能である。また、シグナルハンドラ
は、音声認識自動停止部１０の中にプログラムとして書
くことができる。

【０１５８】次に、認識対象とする語彙セットを設定し
た後（ステップ４６０２）、時間切れか否かを調べて
（ステップ４６０３）、時間切れでなければ、その語彙
セットに対する認識処理を行う。

【０１５９】認識処理は、まず入力音声のパワー変化や
音声ピッチの変化、あるいは零交差回数などの特徴パラ
メータを用いて音声区間の始端と終端を検出し（ステッ
プ４６０４）、終端が検出されれば、その始端と終端で
定まる音声区間から音声特徴ベクトルを抽出し、現在の
認識語彙セットの認識辞書と照合を行い、各確認語彙の
の類似度を求め、そのうち類似度最大で、かつその値が
予め定めておいたしきい値以上のものを認識結果として
出力し、認識処理を終了する。（ステップ４６０５〜４
６０９）なお、図４６では、音声特徴ベクトルの抽出から、認識
辞書との照合およびしきい値による判定までを認識処理
としている。終端が検出されない場合や、認識結果が得
られない場合は（ステップ４６０５、４６０７）、語彙
セットの設定に戻り、必要に応じて（例えばクライアン
トから音声フォーカスの変更や認識語彙の変更要求があ
った場合）認識語彙セットの変更を行い、時間切れか否
かを調べて、時間切れでなければ再び現在の認識語彙セ
ットに対する認識処理を行う。時間切れになった場合
は、それまでの認識語彙セットを保存し、特定のキーワ
ードを認識語彙とするモードに移行する。そのキーワー
ドが検出されるか、クライアントから認識処理モードの
切り替え指示があれば、保存していた認識語彙セットを
復元し、タイマを再設定して通常の認識処理に復帰する
（ステップ４６１０〜４６１７）。

【０１６０】以上述べた認識機能の自動停止機能により
背景雑音やユーザの不用意な発話による誤動作を防ぎ、
使い勝手のよい音声認識インターフェースを実現するこ
とができる。

【０１６１】また、背景雑音やユーザの発話による誤動
作をユーザが意識的に避ける方法として、従来からマウ
スやキーを押し下げている間だけ、音声入力を行う方法
が使われているが、音声入力ごとに毎回マウスを操作す
るのは煩わしいという問題がある。そこで、常時音声入
力中として、マウスを押し下げている間だけ音声入力を
受け付けないことにすれば、発声ごとにマウスを操作し
なければならないといった煩わしさを軽減できる。

【０１６２】（第１２実施例）ところで、音声メールツ
ールは、音声入力可能な電子メールシステムであり、音
声を使って受信したメールのリストを移動して内容を確
認したり、そのメールに対する返事を送信することがで
きる。

【０１６３】この場合、ツールは、リスト表示部、受信
メール表示部、送信メール編集部からなり、リスト中の
反転表示されたメールが受信メール表示部に表示され
る。そして、例えば、音声を使って以下のような操作が
できる。ここでは、上司からの緊急のメールに対して返
事を出すまでを示している。

【０１６４】「メールツール」（音声メールツールを全
てウインドウの前に出す。）「先頭」（受付けリストの先頭にリストポイン
タを移動する。）「次」（リストポインタを次のメールに移動
する。）「最後」（受信リストの最後にリストポインタ
を移動する。）「前」（リストポインタの前のメールに移動
する。）「上司」（上司からのメールだけをリストアッ
プする。）「緊急」（そのうち緊急のメールだけをリスト
アップする。）「返事」（緊急のメールに対して返事を出す。
送信メール表示部に“Ｔｏ：上司名”と“Ｓｕｂｊｅｃ
ｔ：Ｒｅ：上司からのメールのＳｕｂｊｅｃｔ”が入
る。）メールシステムの初期状態を図４７に示す。メールリス
トの表示部には、全てのメールリストを一度に表示でき
ないため、所望のメールを探すのにマウスを使う場合に
は、表示部の右側にあるスライド用のバーを使う必要が
ある。特に大量のメールが来た時などは、メール探しに
多くの労力を必要とし、操作性は十分であるといえな
い。しかし、ここで音声を用いることにより、直接所望
のメールを検索でき、作業の大幅な効率化が図れる。

【０１６５】ここで、例えば上司からの緊急のメールを
選択する場合、「上司」「緊急」と発声するだけで、選
択することができる。図４８に上司からの緊急のメール
の検索結果を示す。この例では２通のメールがきている
ものとすると、次のようになる。

【０１６６】「コピー」（メッセージをコピーす
る。）「ペースト」（コピーしたメッセージを受信メールに
ペーストする。）「引用」（そのメッセージに引用符を付ける。）ここで、そのメッセージに対する返事を書き、「サイン」（必要があれば自分のシグネチャをメー
ルの最後に付ける。）「送信」（返信メールを送信する。）ここで使われている「上司」や「緊急」は、音声マクロ
コマンドとして実装されており、メールのヘッダや内容
を用いて照合した結果を用いてリストを限定するもので
ある。すなわち、電子メールの発信者の名前、所属、標
題、差出日、本文の内容は、テキスト（文字データ）で
書かれており、その内容を理解し、キーワードや内容の
照合を行うことにより、音声での効率的な電子メールの
取り出しが可能になる。これはフルテキストサーチなど
の情報検索技術や文脈解析技術を用いて、ＷＳ上で実現
でき、音声入力インターフェースの利用により音声メー
ルの使い勝手が大幅に向上する。また、テキストの一部
を音声合成で読み上げたり、強調したり、スピードを変
化させることも可能である。また、図４７に示すように
認識語彙の表示や現在音声フォーカスが当たっているク
ライアントの表示、認識が動作中であるか否かの表示な
どを行い、ユーザにシステムの状態をできるだけ伝える
ように考慮し、作業の効率化を可能にしている。

【０１６７】（第１３実施例）音声認識サーバを使っ
て、既存のアプリケーションを音声で制御することがで
きる。これは、既存のアプリケーションのキーボード入
力を音声によって代行するクライアントを作成すれば可
能である。ここでは、既存のアプリケーションに対する
音声制御を可能とする音声マクロプログラムを使って、
既存のＤＴＰ（ＤｅｓｋＴｏｐＰｕｂｌｉｓｈｉｈ
ｇ）システムを音声コントロールする例を示す。

【０１６８】音声マクロプログラムは、既存アプリケー
ションの認識語彙に関する知識をメニュー形式で持ち、
そのメニュー階層を利用して認識語彙を限定する。ここ
で、 “図形”メニュー “取り消し” “グループ化” “グループ解除” “フロント” “バック” “上／下（うえした）反転” “右／左（みぎひだり）反転” “回転” “トップレベル”メニュー “文書” “編集” “図形” メニュー階層のルートを「トップレベル」と呼び、トッ
プレベルから単語を発生し、メニュー階層をたどること
でコマンドを実行していく。メニューの階層を移動する
ごとにウインドウにメニューの各項目とメニュー階層に
おける現在位置をパスの形で表現しユーザに呈示する。

【０１６９】そして、以下のように操作される。ここで
は、文書ウインドウに存在する複数個の図形を取り扱う
例を示している（図４９参照）。

【０１７０】図形を扱うためにトップレベルから図面メ
ニューを開く。「図形」（メニューの項目が音声コマンダにリストアッ
プされる。）ここで、文書ウインドウ上の複数の図形をマウスで選択
する。「グループ化」（複数の図形を１つの図形として取り扱
うべく纏める。）「上下反転」（グループ化した図形の上下を反転させ
る。）「回転」（図形を回転させる。）「グロープ解除」（グルーブ化を解除する。）次に、先にグループ化された図形のうちの１つをマウス
で選択する。「バック」（選択した図形を全ての図形の後ろに送
る。）「取消し」（「バック」により行われた操作を取り消
す。）「フロント」（一番前に送る。）これをマウスを使って操作する場合には、・メニューバーをクリックしてメニューを表示する。

【０１７１】・メニューをプルダウンし、実行したいコ
マンドの項目を選択する。

【０１７２】・マウスボタンから手を離してコマンドを
実行。の少なくとも３アクション必要であり、マウスポインタ
の移動の手間を考えると、それ以上のアクションを行っ
ていると考えられる。

【０１７３】ところが、音声を使用すると、・操作を行う単語を発生する。の１アクションで済むため、音声の有用性が分かる。マ
ウスを使ってメニューを選択することで操作する場合に
は、例え予め何を操作したいかをユーザが分かっていて
も、上記の操作は必ず実行しなければならない。音声
は、他の入力手段と組み合わせることで、より効果的な
インタフェースとなる。

【０１７４】ここで、キーボードマクロを使えば、音声
と同様に１回だけの操作で済むが、キーボードマクロは
基本的に一つの文字で表現するため、キーボードマクロ
が多ければ多いほど対応付けのしにくい文字とコマンド
の組み合わせを記憶することが要求され、ユーザの負担
になる。

【０１７５】そこで、コマンドを、ただ１つの文字でな
く、そのコマンドの意味をも自然に表現し得る音声と結
び付けることで、アプリケーションは、ユーザに対し
て、より自然なインターフェースが提供できる。

【０１７６】また、単語認識の際に上述した図形メニュ
ーのなかで、例えば「グループ化」と「グループ解除」
のように前半部分が同じカテゴリに存在する場合には、
部分抽象化により単語の後半部分のパターンを用いて認
識を行うことにより、認識精度の向上を図ることができ
る。また、「上下反転」「左右反転」のように後半部分
が同じ場合には、単独の前半部分のパターンを用いて認
識を行うことも可能である。要するに、パターンの違い
がより明確になるように様々な視点から認識のための単
語パターンを取り出し、認識を行うことにより認識性能
の向上が可能になる。

【０１７７】（第１４実施例）以上、述べてきた音声認
識インターフェースは、音声の入力にのみ注目してきた
が、音声の出力機能をインターフェース内に取り入れ、
テキストからの音声合成や音声データの再生を行なうよ
うにすれば、音声の入出力を統合して行なうことができ
るため、複数の応用プログラムへの音声入力とそれらか
らの音によるメッセージの出力を簡単に行なうことがで
き、ユーザにとって取扱い易いインターフェースを実現
することができる。

【０１７８】以下に、音声合成機能を備えた音声認識イ
ンターフェースである音声入出力インターフェースの構
成について説明する。

【０１７９】図５０は音声合成部を備えた音声入出力シ
ステムの概略構成を示しており、図１で述べた音声認識
システム１に音声合成部１４を付加した構成になってい
る。この場合、音声合成部１４はメッセージ処理部１１
からの指示に従ってテキスト情報から合成音声生成を行
い、音声出力を行なうようになっている。また、応用プ
ログラム管理テーブル１３は、複数の応用プログラム２
からの音声出力を制御するため、図５５に示すように応
用プログラム２の音声出力に関する情報を収納するフィ
ールドを持っている。これにより、複数の応用プログラ
ム２からの音声出力に対する制御を行なうことができ
る。ここでの音声出力に関する情報としては、特定の音
声出力に対して音声出力を優先的に行なうことを指示す
るための音声出力優先度などがある。

【０１８０】図５１は、音声合成部１４の概略構成を示
しており、全体制御部５６１、波形重畳部５６２、音声
出力管理テーブル５６３、波形合成部５６４からなって
いる。

【０１８１】全体制御部５６１はメッセージ処理部１１
から合成音声の出力要求とともに文字列を受けとり波形
合成部５６４に送って音声合成を行ない音声出力する。
この場合、音声合成部１４によって出力する音響信号は
合成音のみでなく、録音された音声や音声以外であって
もよく、その場合は音声の合成を必要としない。このと
きは波形合成は行なわずにメッセージ処理部から受けと
った波形データをそのまま音声出力するようにしてい
る。

【０１８２】また、波形合成部５６４は全体制御部５６
１から文字列データを受けとって音声合成を行なう。音
声合成の方式としてはさまざまな方法が知られており、
例えば文献（D.Klatt: "Review of text-to-speech con
version for English ", J,Acoust.Soc.Am.,82,3，pp.7
37-793 (Sept.1987)) の方法を用いることが可能であ
る。

【０１８３】音声出力管理テーブル５６３はメッセージ
処理部１１からの音声出力の要求を登録するテーブルで
あり、このテーブルに登録された順番に従って音声出力
を行なうことにより、複数の音声出力要求に対して時間
的な整合性を保ちながら音声出力を行なうことができ
る。

【０１８４】音声合成部１４は独立したプロセスとして
動作させることが可能で、メッセージ処理部１１とは、
音声認識システム１と応用プログラム２の間のメッセー
ジで述べたように、プロセス通信によるメッセージ交換
によりデータのやりとりを行なう。ここでのメッセージ
としては図５３に示すようなものがある。

【０１８５】同図（ａ）の応用プログラム２からメッセ
ージ処理部１１へのメッセージは応用プログラム２から
の命令を意味している。ここでの音声合成要求は、応用
プログラムがテキスト内容を合成音声に変換させる要求
で、合成するテキストデータと共に要求を出し、その結
果合成音声データが通知される。波形再生要求は応用プ
ログラムが録音等により既に波形の形で音声データを持
っている際、それをそのまま再生するための要求で、再
生データと共に送信する。音声合成・再生要求は、音声
の合成とその再生をまとめて行なう要求であり、合成音
声データは通知されない。

【０１８６】優先度設定要求は、特定の応用プログラム
からの出力音を優先させるための要求であり、例えば出
力音のレベルと音声合成処理の優先度、中断出力の有
無、などに関して、設定できるようになっている。

【０１８７】音声出力要求の優先度は、例えば緊急を要
する場合に、高い値に設定することにより、直ちにユー
ザの注意を向けることができるため効果的である。

【０１８８】先に述べたように、音声出力管理テーブル
５６３はメッセージ処理部１１からの音声出力要求を登
録するテーブルであり、このテーブルに登録された順番
に従って音声出力を行なうことにより、複数の音声出力
要求に対して時間的な整合性を保ちながら、音声出力を
行なうことができる。

【０１８９】音声出力管理テーブル５６３の例を図５２
（ａ）（ｂ）に示している。テーブルに記録するデータ
はデータＩＤ、波形かテキストかを表す入力データの種
類、出力要求のテーブルへの登録時刻、テキストデータ
の内容、音声出力の際の音量などがある。図の例では、
データＩＤ＃１、＃２、＃３がテキストデータであり、
＃０〜２のデータに対しては処理が終了しているが、＃
３のデータは現在処理中、＃４のデータはまだ処理が行
なわれていないことを示している。

【０１９０】一方、メッセージ処理部１１から応用プロ
グラム２へのメッセージは図５３の（ｂ）に示すような
種類がある。音声出力状況通知は、要求された音声出力
が終了したことを通知し、優先度設定通知は、優先度設
定要求に従って音声出力の優先度が設定されたことを通
知する。いずれも要求に対する確認のメッセージであ
る。

【０１９１】応用プログラム２がどのメッセージを受け
取るかの設定は、先の音声認識システム１と応用プログ
ラム２の間のメッセージに関する説明で既に述べた通り
で、入力マスクによって設定することができる。この場
合、音声合成部１４が加わったことにより、図５４に示
すような種類からなっている。

【０１９２】また、上述したようなメッセージ以外に
も、エラーメッセージや音声出力レベルの設定メッセー
ジ、音声合成部１４の内部情報にアクセスするメッセー
ジなどさまざまなメッセージが設定可能である。

【０１９３】音声合成部１４とメッセージ処理部１１と
の間もメッセージによって情報交換が行なわれる。この
場合のメッセージは図５３の（ｃ）（ｄ）に示す種類が
ある。このうちの（ｄ）のメッセージ処理部１１から音
声合成部１４へのメッセージは、（ａ）の応用プログラ
ム２からメッセージ処理部１１への要求メッセージとほ
ぼ同じであり、（ｃ）の音声合成部１４からメッセージ
処理部１１へのメッセージは、（ｂ）のメッセージ処理
部１１から応用プログラム２への通知メッセージとほぼ
同じ種類のものを使うようにしている。

【０１９４】以上、述べたように音声合成部１４を有す
る音声認識システム１の各部においてメッセージをやり
とりすることによって、複数の応用プログラム２からの
要求による音声出力処理が進められるが、次に、音声認
識インターフェース全体としての処理の流れを図５６、
５７に従って説明する。

【０１９５】図５６では、既に第１実施例で述べた手続
に従って応用プログラム２と音声認識システム１との接
続処理と音声認識に関する初期設定をステップ６１０１
で既に完了しているものとする。そして、ステップ６１
０１の終了後、応用プログラム２は音声出力処理に関す
る初期設定を後述の図５７の（ａ）に従って行なう（ス
テップ６１０２）。初期設定としては、音声合成部１４
における音声出力管理テーブル５６３の初期化、応用プ
ログラム管理テーブル１３の音声出力優先度情報の初期
化などがある。そして、音声入力および音声出力の処理
を実行する（ステップ６１０３）。

【０１９６】次に、応用プログラム２からの音声出力に
関する要求ごとの音声出力処理について説明する。

【０１９７】まず、図５７の（ｂ−１）の音声合成要求
が応用プログラム２から出された場合、メッセージ処理
部１１は要求をそのまま音声合成部１４へ音声合成要求
として送る。そして、音声合成部１４は音声出力管理テ
ーブル５６３へのメッセージの登録を行なう。音声合成
要求は波形の再生処理を含まないため、例えば図５２の
出力管理テーブルメッセージＩＤ＃１のように、出力あ
りなしの項は出力なし（＝０）となる。この場合、音声
出力優先度情報は使われない。合成処理が終了後は、音
声合成部１４は終了したことを音声出力状況通知によっ
てメッセージ処理部１１へ通知し、メッセージ処理部１
１はそれを応用プログラム２へ通知する。応用プログラ
ム２はこの通知の後音声波形データ要求を出し、合成音
声ごとに受け取る。

【０１９８】次に、図５７の（ｂ−２）の波形再生要求
があった場合、メッセージ処理部は図５５に示す応用プ
ログラム管理テーブルに登録してある優先度情報を検索
し、要求を行なった応用プログラムに関する情報を付加
して音声合成部１４へ波形再生要求を行なう。

【０１９９】音声合成部１４では、音声出力管理テーブ
ルにメッセージの登録を行なうが、この場合は、例えば
図５２のメッセージＩＤ＃０または＃４のような内容が
登録される。波形再生終了後に音声合成部１４は、音声
出力状況通知により、再生が終了したことをメッセージ
処理部１１に送り、メッセージ処理部１１はそれを応用
プログラム２へ送る。

【０２００】次に、図５７の（ｂ−３）の音声合成再生
要求があった場合は、波形再生の場合と同様な処理で音
声の合成および再生の処理を行なう。

【０２０１】また、図５７の（ｂ−４）の優先度設定要
求によって音声出力優先度を変更することができる。音
声出力優先度は先に述べたように、音声出力のレベル、
音声合成処理の優先度、中断処理の有無等がある。出力
音声のレベルを高くすれば、その出力メッセージに対す
る注意を引きつけるのに役立ち、音声合成処理の優先度
を高くすれば、その音声データが音声合成後出力される
までの時間遅れを小さくできる。又、中断処理は、特定
の音声出力データ以外の音声出力を一時中断し、そのデ
ータのみを出力する処理であり、これらを組み合わせて
使用することにより、重要なメッセージを優先的に出力
するなどの処理が可能である。

【０２０２】例えば図５２では、メッセージＩＤ＃０の
波形再生要求に対しては、出力レベル＝３、中断出力な
し、合成処理優先度−（値なし）が設定されている。こ
の場合、優先度の値は０〜１０の範囲で設定するように
なっており、出力レベル３は、比較的小さい値である。
又、中断出力なしのため、この波形データは他の音と重
なって聞こえて来る。これに対し、＃２の音声合成・再
生要求に対しては、出力レベルは最大の１０であり、か
つ音声合成処理の優先度も最大であるため、合成音デー
タが直ちに出力される。又、中断出力ありのため、この
間に他の音は出力中断状態にある。この合成音を出力中
は、他の音に邪魔されずに音を聞くことができる。

【０２０３】次に、以上述べたような音声出力要求を順
次処理する方法について説明する。

【０２０４】複数の音声出力要求は音声合成部１４の音
声出力管理テーブル５６３に従って処理を行なう。音声
出力管理テーブル５６３には要求のあった順番に要求の
ＩＤ、入力データの種類（波形／テキスト）、要求受付
時刻、データ内容、処理状態、音量、出力中断処理のあ
り／なし、音声合成処理の優先度、排他処理の係数、等
が登録される。

【０２０５】図５８に示すように、まず、全体制御部５
６１は、音声出力管理テーブル５６３の処理状態の項を
参照し（ステップ６３０１）、「未処理」となっている
データを探し、あれば処理状態を「処理中」に更新し
（ステップ６３０２）、データの種類を参照する（ステ
ップ６３０３）。そして、データがテキストであればテ
キストデータを波形合成部５６４へ送って音声合成を行
い（ステップ６３０４）、合成音データを波形重畳部５
６２へ渡し、波形データであればそのまま波形データを
波形重畳部へ渡す（ステップ６３０５）。そして処理状
態を「終了」に更新して（ステップ６３０６）、次の未
処理データの処理を行なう。

【０２０６】波形合成部５６４では、処理を行なってい
るデータに関する合成処理優先度情報をもとに、合成演
算を行なう処理の他の処理に対する優先度を設定して演
算を行なう。優先度の設定は、例えばワークステーショ
ンのオペレーティングシステムとして一般的であるＵＮ
ＩＸのシステムコールを用い、合成プロセスに対する演
算装置の割り当て時間を変更させたり、処理量の異なる
複数の音声合成器を用意して優先度に応じて使う合成器
を変えたりすることにより行なえる。

【０２０７】波形重畳部５６２では、波形データと共に
音量、出力中断処理のあり／なし、排他処理の係数など
の情報に基づいて複数の波形を重畳する。重畳の際に
は、時刻と波形データのサンプルの対応を常に監視し、
複数の音声出力要求の間の時間とそれらの要求に対応す
る複数の波形データの出力される間隔が、なるべく等し
くなるようにしている。また、重畳の処理は単位時間、
例えば１０ｍｓｅｃごとのブロック処理によって行なう
ことが可能である。

【０２０８】次に、図５９により、中断処理のある音声
データを重畳する際の例を説明する。この場合、データ
は図５２の音声出力管理テーブル５６３にあるデータＩ
Ｄ＃１〜３であり、簡単のため、登録から波形重畳まで
は時間遅れがないものとしたが、実際には用いる計算機
の処理能力に応じて、音声合成やデータの移動による時
間遅れがある。音声出力管理テーブル５６３に記録され
た時刻どおりで、かつ出力中断処理を行なわずに音声デ
ータを出力する場合には、図５９（ａ）のように、デー
タどうしが時間的に重なっているため、緊急なメッセー
ジであるデータ＃２の音声は、先頭部がデータ＃１の最
後と、後半部がデータ＃３の前半部と重なって出力され
ることになる。これに対し、出力中断処理を行なう場合
の（ｂ）では、データ＃２の「緊急です」が始まる時点
でデータ＃１の重畳を中断し、＃２の処理終了後、＃１
の中断された時点から残りを重畳することになる。又、
データ＃３は、＃２が終了後に重畳される。データ＃１
のように、中断処理によって時間的に分割されるデータ
は、上述のように分割したまま出力しても良いが、中断
処理後にもう一度最初から出力し直したり、又、分割さ
れた後半部は出力しない、あるいは徐々に音量を下げて
重畳するなど様々な処理が考えられる。

【０２０９】（第１５実施例）第１４実施例に記述した
ように、音声認識システムは、音声合成部１４を組み入
れ、マルチタスク環境において、複数のタスクから音声
認識および合成機能の利用を可能にすることで、ユーザ
が応用プログラム２を使用する際の使い勝手が向上す
る。本実施例においては、第１４実施例をふまえ、具体
的なシステムの応用例として、音声メールツールについ
て音声合成機能を追加した際の効果を中心に述べる。

【０２１０】図６０は、第１５実施例の概略構成を示し
ており、音声入出力システム６５１、ウィンドウシステ
ム６５２、音声メールツール６５３から構成している。
また、音声メールツール６５３は、電子メール処理部６
５３１とメッセージ入出力部６５３２からなっている。

【０２１１】この場合、音声入出力システム６５１は、
第１４実施例に述べた、音声合成機能を持つシステムで
ある。ウィンドウシステム６５２は、応用プログラムに
関する情報をＧＵＩ（Graphical User Interface）を通
じてユーザに提供する。そして、これら音声入出力シス
テム６５１及びウィンドウシステム６５２を利用するこ
とで、音声メールツール６５３で、音声入力をマウスや
キーボードと同様に扱え、音声合成をも統一的に扱える
ようにしている。

【０２１２】通常、音声メールシステムで送受信される
データはテキストデータであるが、テキストデータだけ
ではなく、音声データや画像データ等をメールの中に混
在させることができる。音声データを含むメールを送受
信するために、メールツールは生の音声データを録音・
再生する機能が必要となる。

【０２１３】応用プログラム２が生の音声データを扱え
るようにするために、応用プログラム２と音声入出力シ
ステム６５１間で交わされるメッセージとして、図６１
に示すものを追加する。これらのメッセージを利用し
て、メールツールが音声データを録音する手順を図６２
の（ａ）に、再生する手順を図６２の（ｂ）に示してい
る。また、今述べた音声の録音・再生機能を持つ音声メ
ールツールの画面表示例を図６３に示す。この表示例
は、上述した第１２実施例の図４８とほぼ同じ表示画面
を持つ。ここでは、ツールのリスト表示部の行の先頭に
＊印の付いたものがあるが、これは音声データを含むメ
ール文書を識別する印である。受信メール表示部に、音
声データ付メール文書の表示例を示す。メール文書中の
音声データは、例えばボタン様の形式でユーザに提示す
る。

【０２１４】図６３においては、緊急とラベル付けられ
たボタンが、音声データである。音声データをマウス等
で指定し、マウスやキーや音声入力を使って再生する。
音声データ付のボタンは、メールのテキスト中の任意の
位置に任意の個数作成し、配置できる。

【０２１５】メール中の音声データの録音・再生・編集
は、図６４のような、音声データ編集用のサブウィンド
ウを用いて行なう。図の上部の２つのスライダーはそれ
ぞれ音声データの入力・出力時のボリュームを設定する
ものである。その下のボタンは、それぞれ音声データの
録音、再生、録音／再生の停止、音声データの編集、メ
ールへの音声データの追加を行なうボタンである。編集
ボタンには、カット、コピー、ペーストなどを行なう編
集用のサブメニューが存在する。ボタン列の右端の「緊
急」は、ユーザが任意に入れることのできる文字で、音
声データ作成時に、ボタンのラベルとして表示される。
図６４の下部が音声波形データを編集する所である。デ
ータをマウスを用いて選択し、音声入力を用いてカッ
ト、コピー、ペーストを行ったり、エコーをかけたり、
ピッチを変化させたりなどの効果を音声データに加える
ことが可能である。また、音声データの編集やデータに
対する効果の付加は、メールツールでなく、専用の音声
データ編集ツールで行ってもよい。それを用いて音声を
編集する際に、メールツールとの間で音声データの受け
渡しを行う必要があるが、その受け渡しを音声入力を使
ったカット＆ペーストによって行えば音声データに対す
る編集操作が簡単に行えるようになる。

【０２１６】音声入力を使ったカット＆ペーストは、音
声データに対してだけでなく、テキストやグラフィック
など様々な形態のデータに対して適用し、応用プログラ
ム向けのデータの受け渡しに用いることができる。

【０２１７】以上述べた機能を用いてメールの返事を出
す場合には「返事」と発することにより読んだメールの
全て、あるいは文面の一部などを自動的にコピーし、引
用の印をそれぞれ付加し、さらに自分のサインと録音メ
ッセージを自動的に付加して送信してしまうことによ
り、ほとんどのキーボードに手を触れずにメールの返事
を出すことができる。その際、録音メッセージは、前も
って録音してあるものを用いてもよいが、自動的に録音
モードに入って「送信」が発声されたならば、自動的に
その録音データを付加してメール送信を行ったりでき
る。例えば図６５は、送別会のお知らせに対する返信の
文面の例である。この例では、８行目まで、送られてき
たお知らせのメールのコピーに引用マーク（》）を付
け、９〜１１行目に自分のサインと録音メッセージの印
を付加するようにしている。

【０２１８】また、図６４で示す音声データの録再・編
集機能の一部または全部を図６６のように、受信メール
表示部や、送信メール編集部に並べて配置することで、
メール中の音声データに対する操作性が向上するとも考
えられる。

【０２１９】録音データはそのまま全部をメール用のデ
ータとして用いてもよいが、データ中には言い澱みなど
により不要な無音部があり、必要以上にデータ量が多く
なってしまうことがある。

【０２２０】そのような場合、無音部を自動的に検出し
て一定の長さ、例えば１秒以上の無音部をカットするこ
とも可能である。

【０２２１】また、録音の際の利用者の動きにより、口
とマイクロホン間の距離が変化して録音レベルが一定で
なくなり、聞きずらいデータになってしまうことがあ
る。

【０２２２】そのような場合、録音データのパワーを調
べて全体に亘ってレベルを均一にし、聞きやすくするこ
とができる。レベルの均一化の処理は、ある単位ごと、
例えば単語、文ごとのレベルを求め、最大のレベルを持
つものに他を合わせるようにするなどにより実現可能で
ある。

【０２２３】また、データ全体あるいは上述の最大レベ
ルが小さすぎたり、大きすぎたりした場合には、データ
全体のレベルをそれに応じて変えることにより、聞き苦
しくないようにできる。

【０２２４】さて、本実施例のメールツールを使うこと
で、テキストと音声の混在したメール文書を読み上げる
ことができる。

【０２２５】図６３の受信メール部のメールを読み上げ
ることとすると、「田村殿」（音声合成）「先週の出張報告書を至急提出のこと」（〃）（緊急ボタンの音声データを再生）「沢田」（音声合成）と、このように、データの出現順に、データの種類に応
じた処理（テキストデータは音声合成し、音声データは
そのまま再生する）を行なうことで、テキスト以外のデ
ータをも読み上げることができる。また、テキストデー
タだけの読み上げや、音声データだけの読み上げを可能
にすることもユーザにとって有用になる。テキスト以外
のデータ形式としては、音声以外のものでも、そのデー
タ形式に従った処理を行なえば良い（動画なら動画の再
生を行なう）。

【０２２６】メールの読み上げは、本文だけではなく、
題や発信者や送受信の時間を示すメールのヘッダに関し
ても行なって良い。

【０２２７】ここで、全てのメール文書に対して、同一
の読み上げ方をする必要はない。例えば、メールアドレ
スと、合成音声の属性を図６７に示すようにデータベー
ス化することによって、発信者毎にメール文書読み上げ
の際の音声の特徴を変化させることができる。図６７の
設定では、Ｔａｍｕｒａ氏からのメールは、低くゆっく
りと話す男性の声で、Ｎａｋａｙａｍａ氏からのメール
は、高く早口の女性の声で、それ以外のメールは、標準
的な声の高さを持つ男性の声で、標準的スピードにより
読み上げられる。

【０２２８】さらに、発信者情報だけではなく、１つの
文書内の情報を使って合成部を変化させることが考えら
れる。例えば、引用符に囲まれた部分のみに関して、男
女の性別を入れ替えるとか、声の高さや読み上げの速度
を変化させることが可能である。

【０２２９】また、メールの受信者が、合成音声による
メールの読み上げを行なうことを想定し、メール本文中
のテキストに、音声合成用の制御コードを付加して、メ
ールの読み上げ方を指定することが考えられる。制御コ
ード交じりのメールの例を図７６に示す。

【０２３０】この場合、＠＜…＞で囲まれた部分が、制
御コードおよびその指定で読み上げられる部分である。
ｍａｌｅ、５、５、９は、特に性別（男性）、声の高
さ、速度、声の大きさを示し、ここでは、「絶対に遅れ
ないように」の部分だけが、その他の部分よりも大きな
声で読まれる。このように、メール本文中の部分に対
し、音声合成の細かな設定を可能にすることで、メール
中の重要な所を強調したり、文章の抑揚を変えたり、引
用した言葉を本人に近い特徴の合成音声で読ませて変化
をつけるといった事が可能となる。

【０２３１】以上に述べたメールツールはマルチタスク
の環境下で音声によって制御を行うことができるため、
キーボードやマウスなどによって文書の作成やプログラ
ム編集などを行いながら音声によってメールによって読
むことができ便利である。

【０２３２】なお、メールツールだけでなく、情報検索
のためのツール、例えば英和、和英などの電子辞書や対
訳辞書、類似表現、言い換えなどを引くための類似語辞
書などのデータベースを本発明によるインターフェース
により音声で操作すれば、文書やメール作成中に調べた
い単語などを音声による操作で引くことができるため、
文書作成の中断を少なくできて便利である。

【０２３３】メールの内容の確認を、表示によらず、音
声読み上げを使って行なう際に、１つのメール全体を読
み上げの対象とすることは、特に、大量のメールの中か
ら所望のメール文書を検索する場合などには、効率が悪
くなると考えられる。そこで、メールの読み上げの最中
にメールツールに対するコマンドを発行可能にする。特
に、そのコマンドは、音声入力によって行なえれば都合
が良い。

【０２３４】まず、読み上げモードを設け、メールを読
み上げる際の単位を設定可能にしておく。読み上げモー
ドには、全文、段落、文の３つのモードがある。図６３
の右上の「読上」ボタンのとなりの「全文」の表示が読
み上げモードを示す。「読上」ボタンにより、モードに
従った音声合成を行なう。メール読み上げ時に使用する
音声コマンドを、図６８に示す。

【０２３５】ユーザは、モードを設定し、「読上」ボタ
ンあるいは「読み上げ」と発声することにより、メール
の読み上げを開始する。音声コマンド「ストップ」、
「続行」により、読み上げの一時停止と再開を行なえ
る。「もう一度」は最後に読み上げた単位をもう一度読
み上げる。「前の〜」および「次の〜」の「〜」は読み
上げの単位であり、メールツールはコマンドに従ってモ
ードを自動的に変更する。例えばモードが「全文」の時
に「次の文」と入力すれば、モードは自動的に「文」に
変わる。「次」および「前」は、「次の〜」および「前
の〜」の省略表現であり、それらのコマンドで扱われる
単位はモードとして現在設定されている単位である。
「速く」「ゆっくり」は読み上げ速度の設定、「高く」
「低く」は読み上げ合成音の声の高さ設定、「男性」
「女性」は合成音声の性別の設定を行なう音声コマンド
である。

【０２３６】このように、メールの内容の音声による読
み上げを可能にし、読み上げの制御を音声を使って行な
うことで、マウスおよびキーボードのみを使って制御す
る時よりも、使い勝手が向上すると考えられる。特に、
マルチウィンドウ環境において、聴覚と音声入力を音声
メールツールの制御に使い、視覚とキー入力を別のタス
ク（例えばテキストエディタ）に使うことで、１人のユ
ーザによる複数のタスクの同時制御が可能となる。

【０２３７】音声合成機能は、メール文書の読み上げだ
けではなく、メールツールからユーザに対して提供され
るメッセージにも利用可能である。例えば、マルチウィ
ンドウ環境において、動作するメールツールがメッセー
ジの出力に合成音声を利用する場合を考えてみる。ま
ず、メールツールをその起動時にアイコン化しておく。
メールツールが新規メールを受信すると、「××さんか
ら新しいメールが届きました。未読分は全部で５通あり
ます」といったメッセージを合成音声を使ってユーザに
提供する。もちろんこのメッセージは、録音された音声
データでも良いが、メッセージ文の変更し易さや、任意
の数値データの読み上げを考えると、合成音声の方がメ
ールツール等の応用プログラムの作成者にとっては都合
が良い。新規メール受信通知のメッセージをいつも同じ
様に出力するのではなく、例えば、メールに重要度を設
定し、その重要度に従って音声メッセージを出力しなか
ったり、「××さんから緊急のメールが届きました」
と、メッセージ文を変えたり、音声合成のパラメータを
変更して声のトーンを変えることができる。メッセージ
として、「サブジェクトは、会議通知です」と、メール
の題についての情報を提供してもよい。このように、合
成音声をメールツールのメッセージ出力に利用すること
で、ユーザは、メールツールを直接見ることなく、受信
メールを読むか否かの決定ができる。

【０２３８】新規メール受信のメッセージは、ユーザが
計算機上で行なっている作業に割り込むメッセージであ
り、ユーザの作業に割り込んで欲しいか否かは、作業内
容によりけりである。例えば、何らかのプログラムのデ
モンストレーション中には、メールに割り込んで欲しく
ないであろう。そこで作業の重要度を設定し、作業の重
要度とメールの重要度を比較して、メールの重要度が作
業の重要度以上なら音声メッセージを出力し、それに満
たない場合は出力しない、といった事を行なう。作業の
重要度は、作業環境全体に設定したり、個々のプログラ
ムに設定したり、プログラム内のサブタスク毎に設定す
る事が考えられる。

【０２３９】作業の重要度とメールの重要度を比較し、
メールの受信の通知方法を決定するために、音声メール
システムを図６９に示す構成とする。メールシステム６
９１は、メッセージ入出力部６９１１の介在によって、
音声入出力システム６９２やウィンドウシステム６９３
と接続されている。音声入出力システム６９２やウィン
ドウシステム６９３からのメッセージは、メッセージの
内容に従い、メッセージ入出力部６９１１によってふり
わけられ、そのメッセージを処理すべき所において処理
が行なわれる。

【０２４０】電子メール処理部６９１２は、外部の公衆
回線やＬＡＮを通じ、電子メール文書の送受信や、受信
したメールに対する処理を行なう。タスク重要度管理テ
ーブル６９１３は、音声入出力システムに接続したすべ
ての応用プログラムの作業の重要度を音声入出力システ
ムから受け取り、管理する。このタスクの重要度と、受
信したメールの重要度から、受信したメールをユーザに
対してどのように知らせるかの役割も、電子メール処理
部６９１２が担う。

【０２４１】この機能を実現するために第１４実施例で
述べた音声入出力システムの持つ応用プログラム管理テ
ーブルを拡張し、項目として、タスク優先度を新たに設
定する。図７０に拡張した応用プログラム管理テーブル
を示す。ここでは、シェルツールのタスク優先度が
「２」、ＤＴＰシステムのが「５」に設定されている。

【０２４２】さらに、この応用プログラム管理テーブル
に値を設定したり、値を読み取るためのメッセージとし
て、図７１に示すメッセージを新たに設ける。また、タ
スク優先度変更のたびにその通知をメールシステムが受
け取れるようにするために、入力マスクとして、タスク
優先度変更マスクを新たに設ける。

【０２４３】メールシステムは、入力マスクとして、タ
スク優先度変更マスクと、入力タスク変更マスクを設定
することにより、音声入出力システムに接続されている
すべての応用プログラムのタスク優先度と、音声フォー
カスの有無を得、図７２に示すようにその情報をタスク
重要度管理テーブルに動的に反映することが可能であ
る。電子メールの優先度は、例えば、”Ｐｒｅｆｅｒｅ
ｎｃｅ：３”のようなヘッダ情報をメール文書に付加
し、メール自体に重要度を設定することも可能である
し、発行者毎にメールの優先度を設定しても良い。メー
ルシステムの電子メール処理部は、電子メールを受信す
るたびに図７３に示す処理を行なう。

【０２４４】この場合、音声フォーカスが１つのタスク
に当たっているか調べ（ステップ７８０１）、ＹＥＳな
らば音声フォーカスのあるタスクの優先度を選択し、Ｎ
Ｏならば音声フォーカスの当たっているすべてのタスク
の優先度の平均を選択する。例えば、その中で一番高い
優先度を選択しても良い。そして、これらがメールの優
先度より低いか調べ（ステップ７８０４）、ＹＥＳなら
ば音声を使って通知し（ステップ７８０５）、ＮＯなら
ば何も通知しない（ステップ７８０６）。この場合、ア
イコンの表示を変化させたり、動画像を用いたりといっ
た様々な方法をユーザへのメールの受信通知に用いるこ
とができる。

【０２４５】応用プログラムとして、メールシステム以
外に、シェルツールとＤＴＰシステムが、音声入出力シ
ステムに接続している時の画面の表示例を図７４に示
す。図７４（ａ）は、タスク重要度管理テーブルが図７
２の状態の時の画面表示例である。ここで、重要度３を
持つメールを受信したとすると、図７３に示した処理に
よればここで音声フォーカスの当たっているシェルツー
ルの重要度が、メールの重要度より高い（小さい値ほど
重要度が高いと見做す）ため、メールシステムはメール
の受信をユーザに通知しない。これに対して、タスク重
要度管理テーブルが図７５の状態にある（対応する画面
表示例は図７４（ｂ））時に、先ほどと同様に、重要度
３のメールを受信した際には、メールシステムは「新し
いメールを受信しました」という音声出力を行ない、メ
ールの受信をユーザに通知する。また、通知と同時にメ
ールシステムは、自身に対して音声フォーカスを設定す
ることによってユーザの作業に割り込み、ユーザにメー
ルシステムを使わせることが可能である。

【０２４６】このように、新規受信の通知などに関する
メッセージを、メールの重要度や作業の重要度に従って
変化させることで、ユーザの作業を疎外しない柔軟なイ
ンターフェースをユーザに提供できることになる。

【０２４７】（第１６実施例）第１５実施例におけるメ
ール文書の読み上げ機能は、受信したメールの一部ある
いは全部をその文面に対して何の変更も加えず、合成音
声を使ってそのまま読み上げるものであった。この方法
は、メール文書が少なく、おしなべて小さい場合には問
題は少ないが、メールが多く、大きくなるに従い、その
機能だけでは不十分である。

【０２４８】図７７は、音声メールシステムの概略構成
を示すもので、音声入出力システム８２１に接続される
音声メールシステム８２２を電子メール処理部８２２
１、文書要約部８２２２、メッセージ入出力部８２２３
より構成している。この場合、図７８に示すように文書
要約部８２２２を音声メールシステム８２２の外に設け
るようにしてもよい。

【０２４９】ここで、メールシステム８２２は、音声入
出力システム８２１と接続してその音声入出力機能を用
いる。電子メール処理部８２２１は、外部の公衆回線や
ＬＡＮを通じ、電子メール文書の送受信や、受信したメ
ールに対する処理を行なう。文書要約部８２２２は、電
子メールなどの文書を要約するシステムである。テキス
ト文を要約する技術としては、「石橋ほか、英文要約シ
ステム「ＤＩＥＴ」、情報処理学会第４８回全国大会、
６Ｄ−９（１９８９）」や、「喜多、説明文を要約する
システム、情報処理学会自然言語処理研究会、６３−３
（１９８７）」などが知られており、この技術を応用し
て、文書要約部を構成できる。

【０２５０】文書要約部８２２２は、電子メール処理部
８２２１から要約前のメール文書を受け取り、要約して
返す。電子メール処理部８２２１は、受信したメールの
重要度や、文書の長さや文書の内容などに従って、その
メール文書を要約するか否か、また、どのような要約を
行なうかを決定し、要約方法の情報とともにメールを文
書要約部にひきわたす。電子メール処理部８２２１は、
メールを受信するたびに、例えば図７９に示すような処
理を行ない、受信メールに対する要約方法を決定する。

【０２５１】この場合、メールの重要度が「３」以上か
判断し（ステップ８４０１）、「３」以上であれば要約
しない（ステップ８４０２）。「３」以上出なければ、
メール本分中に「至急」を含むか調べ（ステップ８４０
３）、「至急」を含めば、さらに文書が長いか調べ（ス
テップ８４０４）、文書が長くなければ要約せず（ステ
ップ８４０２）、文書が長ければ要約する（ステップ８
４０５）。また、本分中に「至急」を含まなければ、先
頭行だけを要約する（ステップ８４０６）。そして、メ
ールに従った要約処理を行う（ステップ８４０７）。

【０２５２】メールのような文書の場合、その内容が完
結していなかったり、短すぎたりして、要約に適さない
こともあると考えられるが、その場合には、短いメール
に対しては、要約を行なわない（必要がない）こともで
きるし、完結していなくて要約に失敗したメール文書に
対しては、例えば、最初や最後の数行を取り出して読み
上げるようにすれば、すべてのメールに対して何らかの
要約処理をほどこすことができるといえる。要約は、例
えば、音声による「要約」コマンドの形でユーザが指示
することによってもできるし、あるいは、メールシステ
ムが、受信メールの全てを（あるいは長いものだけを）
自動的に要約しておくことによってもできる。

【０２５３】このように、音声メールツールがメール文
書の要約機能を具えることで、メール文書処理の効率化
をはかることができ、時に多忙なユーザや、大量のメー
ルを処理する必要のあるユーザにとっては、便利であ
る。

【０２５４】（第１７実施例）第１５および第１６実施
例においては、音声入出力システムの提供する音声認識
および合成機能の利用に関して、音声メールツールを使
って述べた。

【０２５５】これらは、ＧＵＩおよび音声出力を使って
ユーザに情報を提供していたが、電話インターフェース
などの、ＧＵＩを利用できない環境において第１５およ
び１６実施例で述べた機能はより有用である。本実施例
では、ＧＵＩを利用しない電話を介した音声入出力イン
ターフェースについて、音声メールシステムの例を使っ
て述べる。

【０２５６】図８０は第１７実施例の概略構成を示して
いる。この場合、音声認識システム８５１に接続される
音声メーメシステム８５２にメールアドレステーブル８
５３を接続している。

【０２５７】この場合、音声入出力システム８５１は電
話回線に接続されるが、この電話回線との接続は、既存
技術を使えば可能であり、ここでは述べない。電話から
の音声メールシステム８５２への入力は、音声およびプ
ッシュボタンにより行なえるとする。

【０２５８】メールは個人情報であるため、電話でメー
ルの内容を確認する前にあらかじめ個人情報の認証手続
が必要である。これは電話のプッシュボタン等で行なう
かパスワードの音声認識、あるいは話者照合技術により
行なう。

【０２５９】認証手続において利用者を確認した後、音
声認識を利用して、メールへのアクセスを対話的に進め
る。ここで述べる音声メールシステム８５２は、第１
５、１６実施例で述べた音声認識と音声合成の機能が全
て利用できる。即ち、音声入力によって、音声メールの
全部のあるいは部分のあるいは要約された内容の確認を
行なうことができる。音声メールシステム８５２の操作
は基本的に全て音声を使って行なう。従って、メール送
信も音声により行なう。電話インターフェースでは、プ
ッシュボタンを使ってメールの内容を入力するのは現実
的ではないため、メールの内容自体も音声となる。音声
によるメール文書の作成は、音声認識と音声の録音を同
時に行なうことで可能となる。図８０の構成において、
認識と録音を同時に行なうことは疎外されない。図８１
に、音声を使ったメール文書作成の例を示す。場面設定
は、受信したメールの内容を音声（合声／肉声）により
確認した後、そのメールに対して返事を出す所である。

【０２６０】まず、（１）のユーザの「録音開始」とい
う音声を認識し、メールシステムは続くユーザの音声
（２）の「○○です〜お伝え下さい」をメール文書とし
て録音する。（２）の最後の「ストップ、ストップ」
は、録音を停止する命令である。「ストップ」が繰り返
されているのは、メール本文中の「ストップ」と、命令
としての「ストップ」を区別するためである。「ストッ
プ、ストップ」全体を認識対象語彙としても良い。メー
ルシステムは「ストップ、ストップ」の区間を録音され
たデータからカットする。ユーザは（３）の「内容確
認」によりメール文書の内容（４）を確認し、（５）の
「送信」によりメールを送信する。最後に（６）のメッ
セージにより、メールの送信を認識する。

【０２６１】ここで、（２）でユーザがデータを録音す
る際に、音声認識システムの音声認識部の中の音声検出
部に音声データの先頭を検出させれば、「録音開始」か
ら本文の入力までの間に間があいても、その無音区間を
録音せずに済む。

【０２６２】また、録音終了を指定するための「ストッ
プ、ストップ」などの単語の代わりに「送信」と発声
し、「送信」を認識したならば、録音内容をメールデー
タとして自動的に送信してしまうこともできる。こうす
れば、録音の停止を指定する「ストップ」の発声が不要
になり、簡単にメールを送信できる。この時、送信した
メールの内容は、「内容確認」などの発声により確認し
なくとも、自動的に録音内容を再生することによって確
認できる。

【０２６３】また、「録音開始」後、１つの音声区間を
録音するようにすると、「ストップ、ストップ」のよう
な録音停止命令は不要となる。音声区間の終端は、例え
ば「３秒間無音であれば音声データの入力終了とみな
す」のように、余裕をもたせた設定にすれば、ユーザが
一息でメッセージを入力しなければならないというよう
な制約が緩和される。

【０２６４】このように、データとしての音声区間を検
出するために、応用プログラムと音声認識システムとの
間のメッセージとして、図８２のメッセージを追加す
る。この音声区間検出メッセージは往復メッセージであ
り、図８３に示すような手順でもって、音声区間のデー
タを入力音声から切り出すことができる。音声区間検出
メッセージでは、パラメータとして、音声の終端を検出
するための時間（例えば、３秒間無音区間が続いたら、
その無音区間の前を音声区間とみなす）や、入力音声が
ない場合のタイムアウト指定（要求を発信してから３０
秒たったら、音声区間は検出されなかったとみなす）が
できる。

【０２６５】また、メール文書の題は、ここで述べたよ
うに、受信メールに対して返事を出す際には、ＵＮＩＸ
メールでの表現でいえば、受信したメールの“ Subject
:hello “に対しては“ Subject : re: hello“のよう
に、返事としての題を入れられるといえるが、電話口で
新規にメールを作成する場合には、そのメールに題を付
けられない。それを可能にするために、音声認識を組み
合わせる。例を図８４に示す。

【０２６６】この場合、ユーザの（１）「サブジェク
ト」という音声をメールシステムが認識すると、メール
システムは、サブジェクト入力モードになる。このモー
ドでは、予め決められたサブジェクト（題）用の単語が
認識対象語彙となる。例えば、「こんにちは」「お知ら
せ」「至急連絡下さい」「ごくろうさま」「会議通知」
などが考えられる。図８４の例では、（２）「会議通
知」を入力する。メールシステムは「会議通知」を認識
すると、メール文書にテキスト“ Subject :会議通知
“を挿入し（３）、（４）のような確認のメッセージを
合成音声により行なう。

【０２６７】サブジェクト入力モード時の認識結果をう
けて行なうのは、メールの題の挿入だけではなく、例え
ば、定型的なメール文書の入力が可能である。図８５
は、「ごくろうさま」という入力に対して、メールの本
文として挿入される定型メールの例である。文書中の
｛receiver｝と｛sender｝は、受信者、発信者の代入さ
れる変数を表している。この変数により、誰にでも同一
の文面のメールを音声だけで送信できる。定型メールを
データベース化し、そのデータを音声で呼び出すことが
可能であれば、便利であると考えられる。

【０２６８】また、第１５実施例においては、メール文
書中の任意の場所に音声データを追加・挿入可能とした
が、サブジェクト入力モードにおいて、サブジェクト自
体に音声データを付けることを可能とし、例えば、メー
ルの受信と同時に音声サブジェクトを出力すれば、メー
ルの発信者やメールの内容が受信者に伝わり易いと考え
られる。もちろん、音声認識によるサブジェクトの挿入
と音声サブジェクトの録音を同時に行なっても良い。

【０２６９】受信メールに対する返事を送信するのでは
なく、電話口から送信先を指定するのには、音声認識を
利用する。そのために、あらかじめ、学習機能を応用し
て単語登録を行ない、認識対語語彙とメールアドレスを
結びつけておく。例えば図８６に示すような外観を持つ
アドレスブックをメールシステムに持たせ、図８７に示
すメールアドレスの登録機能によって、メールアドレス
と音声を結びつける。この時の登録の手順は、遙メールアドレスブック（図８６）を開く遙登録用ウィンドウ（図８７）を開きメールアドレスの
新規登録を開始する。遙名前とアドレスをキーボードで入力する。遙学習に必要な回数（数回〜数十回）、新しい単語（こ
の例では鈴木）を発声する。遙ＯＫボタンを押し、登録を完了する。

【０２７０】このようにして、認識対語語彙（鈴木）
と、メールアドレス（Ｓｕｚｕｋｉ＠ａａａ，ｂｂｂ，
ｃｃｃ，ｃｏ．ｊｐ）とを結びつけておき、電話口で利
用する。例えば、図８８の手順で行なう。まず（１）で
ユーザが「送信先」と発声し、認識されると、メールシ
ステムは、（２）のメッセージを音声出力し、ユーザに
確認をとる。（３）では図Ａ、Ｂなどによって登録され
た語彙が認識対象となっており、この例では、「鈴木」
が認識されると、メール文書中にｔｏ：Ｓｕｚｕｋｉ＠
ａａａ，ｂｂｂ，ｃｃｃ，ｃｏ．ｊｐが挿入される。

【０２７１】（４）（５）はメールアドレスの認識の様
子を示している。（４）の「鈴木」の音声のように、例
えば図８７における登録の際に利用した音声の１つを自
動的に録音しておき、認識の確認に使うことができる。

【０２７２】（４）の「Ｓｕｚｕｋｉ＠…」は、合成音
声によるアルファベット読み下しを使って確認を行なう
例である。

【０２７３】この方法では、音声によるメールアドレス
の指定は、予め登録したものにしか適用できないが、次
に述べるように、予め登録しているメールアドレスを音
声を使って指定することができる。そのためにまず、ユ
ーザが過去に受け取ったメールから、自動的にメールア
ドレスのデータベースを作成する機能を付ける。メール
アドレスは、ＵＮＩＸメールにおいては、メールのヘッ
ダとして入っており、そこからデータベースを作成する
のは困難ではない。メールアドレスの構成は、例えば、ユーザ名＠部課名、組織名、組織区分、国の区分のような構成になっており、メールアドレスの逆順（国
→ユーザ名）にツリー状の階層構造を持つデータベース
が作成できる。

【０２７４】メールシステムは、国の区分から順に、図
８９のように合成音声による読み上げを用いて、メール
アドレスを順にたどっていく。図８９の例において、あ
やまったノード（メールアドレスを順にたどった際の
節）を選択した際は「取り消し」などの語彙をもって、
１つ前の（上位の）ノードに戻ったり、「取り止め」な
どの語彙をもって、アドレスの入力を取り止めたりでき
る。また、任意のノードに認識対語語彙を予め結びつけ
ておき、例えば、会社名を発声することで、その会社の
メールアドレスノードまで、一時に移動することもでき
る。

【０２７５】このような方法をとれば、過去にメールを
くれた人に対してならば、音声をつかってそのメールア
ドレスを指定することが可能となる。

【０２７６】また、単語単位の認識辞書が不要な音韻認
識をベースとした音声認識システムが広く研究されてい
るが、これを用いることにより過去に届いたメール中に
該当するアドレスがない場合でも、音声によってアドレ
スを入力し、メールを転送することが可能である。

【０２７７】（第１８実施例）本発明の第１実施例や第
１４実施例で述べた音声認識インターフェースでは、音
声認識システムあるいは音声入出力システム専用に開発
した応用プログラムを対象として、音声認識や音声合成
のサービスを提供するものであった。本実施例では、上
記のような専用プログラムに対する音声による制御に加
えて、前記音声認識システムあるいは音声入出力システ
ムと直接メッセージをやり取りすることのできないよう
な任意の応用プログラムに対する音声による制御を可能
とする拡張を前記音声認識インターフェースに施すもの
である。これによって、音声認識の応用分野とユーザの
拡大を図ることができる。本実施例では、第１４実施例
に上記拡張を施した例を説明するが、同様の拡張を第１
実施例に施すことが可能であることは明らかである。

【０２７８】以下、本実施例について説明する。図９０
は、本実施例の音声入出力インターフェースの全体構成
であり、第１４実施例で述べたものと同一の音声入出力
システム１と、そのメッセージ処理部１１（図示せず）
に応用プログラムとして接続された音声インターフェー
ス管理システム（以下、ＳＩＭと呼ぶ）１０４からな
る。

【０２７９】汎用応用プログラム（以下、ＧＡＰと呼
ぶ）１０３は、音声入出力システム１と直接接続されて
いない応用プログラムであり、音声入出力システム１と
は全く独立して動作可能なプログラムである。これに対
して、専用応用プログラム（以下、ＳＡＰと呼ぶ）１０
２は、音声入出力システム１と直接接続して動作するも
のである。

【０２８０】ＳＩＭ１０４は、ＳＡＰの一つであり、音
声入出力システム１とＧＡＰ１０３との仲立ちをして、
ＧＡＰ１０３に対する音声による操作を可能にする応用
プログラムである。音声フォーカスの表示も、ＳＩＭ１
０４が行なう。なお、ＳＡＰ１０２は、図５０の応用プ
ログラム２に対応するものである。ＳＡＰおよびＧＡＰ
は、１つの音声入出力システムに対してそれぞれ複数個
存在することが可能である。

【０２８１】次に、ＳＩＭ１０４による、ＧＡＰ１０３
に対する操作について説明する。ＧＡＰ１０３は、ＳＡ
Ｐ１０２と異なり音声入出力システムと直接接続されて
はおらず、ＧＡＰ１０３が受け付けられる入力は、音声
以外のキーボードやマウスといった入力装置からのもの
である。従って、ＳＩＭ１０４は、音声によるＧＡＰ１
０３の操作を実現するために、音声入力をＧＡＰ１０３
の受理できる形の入力、例えばキーボード入力やマウス
入力等に変換する。本実施例では、ＳＩＭ１０４は、図
９０に示すように、音声インターフェース管理部１４
１、プログラム操作登録部１４２、メッセージ変換部１
４３から構成される。音声インターフェース管理部１４
１内には、応用プログラムごとの音声認識結果と操作と
の対応表が設けられており、この対応表（以下、音声イ
ンターフェース管理テーブルと言う）の情報は、プログ
ラム操作登録部１４２によって登録される。前記メッセ
ージ処理部１１と直接接続されるメッセージ変換部１４
３は、音声入出力システム１とのメッセージのやり取り
を行なう機能、つまり図６のメッセージ入出力部２１の
機能を包含するものであり、認識結果を受信した際に、
音声インターフェース管理テーブルを参照して、該認識
結果をＧＡＰ１０３に対する操作コマンドに変換し、Ｇ
ＡＰ１０３に送信する。

【０２８２】ＳＩＭ１０４からＧＡＰ１０３に操作コマ
ンドを送るには、ＧＡＰ１０３自身が他のアプリケーシ
ョンからの操作の手段を提供していなければならない。

【０２８３】ウインドウシステムを利用したアプリケー
ションであれば、ＳＩＭ１０４はウインドウシステムを
介して、そのＧＡＰ１０３へキーやマウスなどの入力デ
バイスによる操作コマンドの入力時に発生するのと同じ
メッセージをＧＡＰ１０３に送る。このようなメッセー
ジ送信の方法はＸウインドウシステムなどの各ウインド
ウシステムの提供するライブラリにある機能で容易に実
装できる。実際、ウイドウシステムでは、メッセージの
送付先がＧＡＰ１０３そのものではなく、ＧＡＰ１０３
の中で生成したウインドウなどのオブジェクトの場合も
ある。メッセージ送信時に、そのオブジェクトの識別子
である必要があるケースもあるが、後述するプログラム
操作登録の内容や、ウインドウシステムに問合せて識別
子の情報から、送り先のオブジェクトの識別子を決定す
ることは容易である。

【０２８４】次に、具体例をあげて説明する。図９１に
示すように、１つの音声入出力システム１に対して、音
声インターフェース管理システム１０４とメールツール
１２０が直接接続して動作し、また音声入出力システム
１と直接接続できないＧＡＰであるシェルツール１３０
とエディタ１３１が並行して動作しているとする。この
ときの画面表示は、例えば図９２のように行なえる。

【０２８５】この場合のＳＩＭ１０４の音声インターフ
ェース管理テーブルの一例を図９３に示す。この表にお
ける“プログラム名”は、認識対象語彙であり、ユーザ
がプログラム名を発声することで応用プログラムに対す
る疑似音声フォーカスを切り換えることができる。“応
用プログラム”は、応用プログラム自体の識別子である
と共に、コマンドの送信対象を表す。

【０２８６】上記の疑似音声フォーカスは、応用プログ
ラムに対して疑似的に設けた音声フォーカスである。Ｇ
ＡＰは音声入出力システム１と直接接続しておらず、従
って、音声入出力システム１はＧＡＰの存在を関知しな
いため、ＧＡＰに対して本当の音声フォーカスは設定さ
れない。ＳＩＭ１０４は、「シェルツール」や「エディ
タ」等、ＧＡＰの名前を認識結果として受け取ると、そ
のプログラムについて定義されているコマンド名を認識
対象語彙とする設定要求を、音声入出力システムに対し
て行なう（例えば、「シェルツール」の場合、「エルエ
ス」や「プロセス」）。そして、図１２や図１９等で示
したような音声フォーカスの表示をそのプログラムに対
して行なう。

【０２８７】図９４に示すように、ＧＡＰ１０３に関係
する真の音声フォーカスはＳＩＭ１０４に設定され、実
際に画面に表示されるのは疑似音声フォーカスである。
ＳＩＭ１０４が、プログラム名の認識をきっかけにし
て、認識のコンテキストを切り換えるのである。なお、
メールツールにみるように、ＳＡＰの疑似音声フォーカ
スと真の音声フォーカスは合致する。

【０２８８】ＳＩＭおよびＧＡＰのコマンド名の属性
は、ＳＩＭに対してローカルである。すなわち、ＳＩＭ
に音声フォーカスが設定されているときに認識対象とな
る。ＳＡＰにコマンドを送信する際、ＳＩＭ１０４に音
声フォーカスが設定されない状態であるため、ＳＡＰ１
０２に関するコマンド名は、グローバル属性を持つ。例
えば、図９３のメールツールのコマンド名「終了」の属
性がグローバルである。なお、図９３で、ローカル，グ
ローバルといった認識対象語彙の属性は、プログラム名
および認識対象語彙の欄の括弧内に示されている。属性
値は、“０”がローカル、“１”がグローバルである。

【０２８９】このようなメッセージ変換部１４３の処理
手順の一例を図９５に示す。すなわち、音声入出力シス
テム１のメッセージ処理部１１から受信した認識結果が
プログラム名である場合、直前の疑似フォーカスに関す
るコマンド名を認識対象からはずし（ステップ９００
３）、認識したプログラム名を持つ応用プログラムに疑
似フォーカスを設定し（ステップ９００４）、その応用
プログラムのコマンド名を認識対象として設定（追加）
する（ステップ９００５）。

【０２９０】一方、受信した認識結果がプログラム名で
ない場合（ステップ９００２）、コマンド名に対応する
コマンドを、疑似フォーカスの設定されている応用プロ
グラムに送信する（ステップ９００６）。

【０２９１】以上述べたように、本実施例のような構成
をとることにより、既に存在する音声入力（認識）を用
いない応用プログラム（ＧＡＰ）に対しても、音声認識
の利用が可能となり、ユーザの拡大と使い勝手の向上が
実現できる。

【０２９２】（第１９実施例）ウィンドウベースのＧＵ
Ｉ（グラフィカル・ユーザ・インターフェース）を持つ
システム下では、１つのプログラムを複数のウィンドウ
を使って構成することができる。本実施例では、上記第
１８実施例をもとに、複数のウィンドウを持つ応用プロ
グラムの個々のウィンドウに対する音声入力を可能にす
るべく、システムを拡張した例を説明する。これによ
り、よりきめ細かい音声認識の利用が可能となり、操作
性が向上する。

【０２９３】これまで説明してきた実施例においては、
音声入出力システム１によって音声フォーカスが設定可
能な単位は、“応用プログラム”であったが、本実施例
では、その単位を“音声ウィンドウ”とする。音声ウィ
ンドウは、応用プログラム中に複数個作成可能であり、
個々の音声ウィンドウは、音声ウィンドウ名、入力マス
ク、および認識対象語彙セットを持つ。

【０２９４】図９６が、実施例１４（図５０参照）で説
明した音声入出力システム１を拡張して、音声ウィンド
ウを扱えるようにしたものである。ここで、図９６の応
用プログラム管理テーブル１３は、後述するように拡張
する。また、応用プログラム２に音声ウィンドウ２３が
加わっているが、音声ウィンドウ２３の実体は、音声入
出力システム１の応用プログラム管理テーブル１３中に
存在する。

【０２９５】以下、具体例をあげて説明する。第１８実
施例と同様に、応用プログラムとして、ＳＩＭ（１０
４）、シェルツール、エディタ、およびメールツールの
４つが動作しているとする。このうち、ＳＩＭとメール
ツールはＳＡＰであり、シェルツールとエディタはＧＡ
Ｐである。図９７のように、シェルツールとエディタを
それぞれ２つのウィンドウから構成し、それ以外を１つ
のウィンドウから構成したとする。この場合の音声入出
力インターフェース全体の構成を図９８に示す。専用プ
ログラム（ＳＡＰ）であるメールツール１２０は、自分
用の音声ウィンドウ２２３を持ち、ＳＩＭ１０４は、自
分用の音声ウィンドウ０（１４４₀）に加えて、汎用プ
ログラム用の音声ウィンドウ１〜４（１４４₁〜１４４
₄）を持つ。この音声ウィンドウは、図９７に示すよう
ないわゆるウィンドウシステム（図示せず）やＯＳ（図
示せず）におけるウィンドウとは異なり、ビジュアルな
属性を持たないものである。ウィンドウシステムのウィ
ンドウは、通常、ツリー構造を持ち、その構造やウィン
ドウシステムの内部状態の変化を応用プログラム内部か
ら知ることができる。ＳＩＭ１０４は、そのようなウィ
ンドウシステムの情報と、音声入出力システム１の情報
にアクセスし、ウィンドウと音声ウィンドウとを結びつ
けて協調的に動作させ、統一的なユーザインターフェー
スを提供する。ウィンドウと音声ウィンドウとの結び付
けは、両者にウィンドウ名などの一意かつ同一の属性を
付与したり、プログラム操作登録部１４２で対話的に行
なうことで可能である。

【０２９６】音声ウィンドウはその属性として、ウィン
ドウ名、認識対象語彙、入力マスク等を持ち、音声入出
力システム１はこの音声ウィンドウ単位で音声フォーカ
スの設定を行なう。ウィンドウ名やコマンド名などの認
識対象語彙の属性として、ローカル、グローバルに加
え、ウィンドウを設ける。ローカル属性を持つ語彙は、
それが属する音声ウィンドウに音声フォーカスが設定さ
れている時に認識対象となる。グローバル属性を持つ語
彙は、音声フォーカスがどこに設定されていようと常に
認識対象となる。ウィンドウ属性を持つ語彙は、それが
属する音声ウィンドウに音声フォーカスが設定されてい
なくとも、その音声ウィンドウと同じ応用プログラムに
属する音声ウィンドウに音声フォーカスが設定されてい
る時に認識対象となる。

【０２９７】また、複数の音声ウィンドウをグループ化
して認識語彙を混合し、認識結果に応じて自動的にその
認識語彙の属する音声ウィンドウへ結果を送信すること
もできる。例えば、応用プログラム管理テーブルが図１
０２の状態の場合に、シェルツールとエディタをグルー
プ化してエルエス、プロセス、カット、コピー、ペース
トを１度に認識し、エルエスまたはプロセスが認識され
た場合はシェルツールへ認識結果を送り、カット、コピ
ー、またはペーストが認識された場合にはエディタへ認
識結果を送るようにする。

【０２９８】これにより、シェルツールとエディタの間
の音声フォーカスの移動を省略して効率的に両者の作業
を行うことができる。複数の音声ウィンドウの語彙の中
にも同じものがある場合には、それを語彙として持つ複
数の音声ウィンドウへ同時に認識結果を送信しても良い
し、音声フォーカスの当たっている音声ウィンドウを優
先させることにしても良い。なお、グループ化は、図１
０２の応用プログラム管理テーブルのグループ化ＩＤの
属性により、行うかどうかを決めることができる。

【０２９９】また、音声ウィンドウのグループ化の一方
法として、音声ウィンドウに親子関係を導入し、親ウィ
ンドウと子ウィンドウをグループ化して両者の語彙を同
時に認識することもできる。例えば、応用プログラム管
理テーブルが図１０２の状態の場合に、シェルツールの
設定ウィンドウに関して、その親のシェルツールウィン
ドウと設定ウィンドウをグループ化する。そして、設定
ウィンドウに音声フォーカスが当たったときに両者の混
合した語彙によって認識を行う。

【０３００】これにより、子音声ウィンドウに音声フォ
ーカスが当たっている場合に、音声フォーカスの移動を
省略してその親ウィンドウへの音声入力を行うことがで
き、作業が効率化できる。なお、親ウィンドウと子ウィ
ンドウで同じ語彙を持つ場合には、音声フォーカスの当
たっている子ウィンドウに優先して認識結果を送るよう
にできる。

【０３０１】図９８の状態の時、ＳＩＭ１０４の音声イ
ンターフェース管理部１４１内の音声インターフェース
管理テーブルは、図９９のようになる。図９３のテーブ
ルにウィンドウＩＤを加え、プログラム名の替りにウィ
ンドウ名を追加した形である。ウィンドウＩＤとは、ウ
ィンドウシステムにおけるウィンドウの識別子である
（図９７参照）。図９９に示すように、ウィンドウＩＤ
と音声ウィンドウＩＤとは一対一に対応しており、この
表を用いてＳＩＭ１０４はウィンドウと音声ウィンドウ
とを連動させる。例えば、この例でいうと「シェルツー
ル」を認識したならば、ＳＩＭ１０４はＩＤ＝１の音声
ウィンドウに音声フォーカスを設定し、ＩＤ＝１０１の
ウィンドウの表示を図１９に示したように音声フォーカ
スの設定された状態にする。

【０３０２】ウィンドウシステムやＯＳによっては、他
の応用プログラムウィンドウの表示を変更できない場合
があるが、そのときには図１００の斜線部ｗ１で示すよ
うな形で独立した別のウィンドウを他の応用プログラム
のウィンドウに貼り付け、音声フォーカスの所在を示
す。この外付けウィンドウの表示の例を図１０１に示
す。図のように、応用プログラムの上部に音声フォーカ
スを示す表示（ウィンドウ）が示される。なお、このウ
ィンドウの位置は、音声フォーカスが明示できればどこ
でも良く、また数もいくつでも良い。また、静止画だけ
でなく、動画像を使うことで、音声フォーカスの位置が
より分かり易くなる。

【０３０３】ここで、図１８で示した音声入出力システ
ム１の応用プログラム管理テーブル１３は、図１０２に
示すように拡張される。新たな欄として音声ウィンドウ
ＩＤおよびウィンドウ名が付加されている。音声ウィン
ドウＩＤは、音声フォーカスの設定されている音声ウィ
ンドウの識別子であり、ウィンドウ名はその名前であ
る。ローカル，グローバルといった認識対象語彙の属性
は、ウィンドウ名および認識対象語彙の欄の括弧内に示
されている。属性値は、“０”がローカル、“２”がグ
ローバル、“１”がウィンドウである。音声入出力イン
ターフェース１の構成が図９８である場合の音声入出力
システム１の応用プログラム管理テーブル１３は図１０
２に示す状態にあり、音声インターフェース管理システ
ム１０４の音声インターフェース管理テーブルが図９９
に示す状態にある。この時、疑似音声フォーカスによっ
て、ユーザには、音声フォーカスが“シェルツール”
（ウィンドウＩＤ＝１０１）に設定されているように見
えている。一方、真の音声フォーカスは、ウィンドウ
（ＩＤ＝１０１）と対応付けられた所の音声ウィンドウ
（ＩＤ＝１）に設定されており、その音声ウィンドウ
は、ＳＩＭ１０４に属している。例えば、この状態で認
識可能な語彙は、「エルエス」、「プロセス」、「シェ
ルツール」、「エディタ」、「メールツール」、「シス
テム」、および「設定」である。

【０３０４】上記構成において、音声入出力システム１
が認識処理を行い、その認識結果が、それぞれの語彙が
設定されている音声ウィンドウに送られる。図１０３
に、この認識処理の手順の一例を示す。

【０３０５】まず、ウィンドウ（０）について、音声フ
ォーカスが設定されている場合、当該ウィンドウ（０）
に設定されている語彙を認識語彙リストに追加する（ス
テップ９１０３）。一方、音声フォーカスが設定されて
いない場合、当該ウィンドウ（０）が音声フォーカスの
設定されている音声ウィンドウと同じ応用プログラムに
属すときは、当該ウィンドウ（０）の語彙のうち属性値
が“１”であるものを認識語彙リストに追加し（ステッ
プ９１０５）、属しないときは、当該ウィンドウ（０）
の語彙のうち属性値が“２”であるものを認識語彙リス
トに追加する（ステップ９１０６）。

【０３０６】以上の処理を、ウィンドウ（１）をはじめ
とする他の全ウィンドウについて行う。

【０３０７】そして、認識処理を行い（ステップ９１０
８）、第１位の認識結果がウィンドウ名である場合、第
１位の語彙が設定されていたウィンドウに音声フォーカ
スを設定し（ステップ９１１０）、ウィンドウ名でない
場合、第１位の語彙が設定されていたウィンドウに上記
認識結果を送信する（ステップ９１１１）。

【０３０８】例えば、図１０２において、認識可能な語
彙の１つである「設定」の設定されている音声ウィンド
ウは２つ（ＩＤ＝２とＩＤ＝４）あるが、それぞれの語
彙の属性が“１”（＝ウィンドウ）であることから、こ
こで認識した結果「設定」は、音声ウィンドウＩＤ＝２
に送られる。これに対して、音声フォーカスが音声ウィ
ンドウＩＤ＝３に設定されている場合に認識された「設
定」は、音声ウィンドウＩＤ＝４に送られる。ウィンド
ウ名を認識した際に音声入出力システム１の動作として
は、単に認識結果をウィンドウ名の属する音声ウィンド
ウに送ることもできるし、送らずに音声フォーカスをそ
の音声ウィンドウに設定することもできる。

【０３０９】このように、認識対象語彙にウィンドウ属
性を持たせることで、複数の応用プログラムのウィンド
ウに同一の名前を付け、操作することが可能となる。本
実施例により音声認識インターフェースとしての使い勝
手が大幅に向上する。

【０３１０】（第２０実施例）第１８実施例および第１
９実施例で述べたように、音声認識システムからの音声
メッセージを音声インターフェース管理システム１０４
によって音声メッセージを変換して送信することによ
り、音声入出力インターフェースと直接通信する手段を
持たない既存の応用プログラムに対しても、音声入力を
行なうことが可能になった。

【０３１１】既存の応用プログラムに本発明の音声入出
力インターフェースを適用する場合には、既存のプログ
ラムの操作と、それを行うための語彙との対応を、音声
入出力インターフェース専用の応用プログラムとは別個
にとる必要がある。この実施例では、“語彙”と“プロ
グラムの操作”との対応をとるためのプログラム操作の
登録について説明する。

【０３１２】プログラム操作の登録では、音声フォーカ
スを目的の応用プログラムに移動させるのに用いるプロ
グラム名またはウィンドウ名の登録と、既存の応用プロ
グラムの操作を行なうためのキー入力またはマウス入力
イベントの系列と語彙との対応づけを行なう。例えば、
シェルツールのウィンドウを２つ使う場合には、ウィン
ドウ名として「シェル１」、「シェル２」と付け、シェ
ルツールの中で行なう操作、例えば画面上の文字を全部
消去するクリア（clear ）コマンドを行なうためのキー
入力系列に対し「クリア」という単語を割り当て、登録
する。

【０３１３】通常、一般の応用プログラムは、そのプロ
グラムが表示しているウィンドウのウィンドウ名を持っ
ていないため、名前でウィンドウを指定するためには、
ウィンドウに名前を付け、音声インターフェース管理テ
ーブルからウィンドウ名で対象ウィンドウを識別できる
ようにすることが必要である。このため、第１９実施例
の図９９に示すように、音声インターフェース管理テー
ブルに、ウィンドウシステムにおけるウィンドウ識別子
であるウィンドウＩＤとウィンドウ名とを格納するフィ
ールドを持たせている。このテーブルにより、音声イン
ターフェース管理部１４１は、例えば「エデイタ」が認
識結果として送られて来た場合には、ウィンドウＩＤ１
０３を持つウィンドウに対して疑似音声フォーカスを設
定する。上述のウィンドウＩＤは、ウィンドウシステム
（図示せず）の持つ情報にアクセスすることにより得ら
れる。例えば、ウィンドウシステムのサーバー（図示せ
ず）に、ウィンドウ構造に関する情報を問い合わせるこ
とにより得ることができるが、ウィンドウ名も同時に得
られるとは限らない。ウィンドウＩＤとウィンドウ名を
同時に得るにはウィンドウ名を指定してプログラムを起
動する方法があるが、既に動作中のプログラムが別のウ
ィンドウを新たに生成するポップアップウィンドウのよ
うな場合には、起動前から名前を付けることは困難であ
る。そのような場合には、マウスでウィンドウをクリッ
クすることによって、そのウィンドウのウィンドウＩＤ
を獲得し、そのウィンドウＩＤにウィンドウ名を対応さ
せるという方法でウィンドウ名を付けることができる。
マウスがクリックされたウィンドウのＩＤは、ウィンド
ウシステムのサーバーに問い合わせることで容易に得ら
れる。

【０３１４】次に、ウィンドウへの名前付けとプログラ
ム操作の登録方法について以下に説明する。図１０４
は、前記プログラム操作登録部１４２の構成である。こ
のプログラム操作登録部１４２は、登録内容の画面への
表示とユーザからの入力を行なうプログラム操作表示編
集部１５１と、登録内容をファイル２００に保存する登
録内容保存部１５２と、ウィンドウシステムからウィン
ドウＩＤを取得するウィンドウＩＤ取得部１５３からな
る。

【０３１５】プログラム操作表示編集部１５１は、例え
ば図１０５のような登録画面を表示してウィンドウ名や
プログラム操作、単語名などの入力を行ない、前記音声
インターフェース管理部１４１内の音声インターフェー
ス管理テーブルに登録内容を書き込む。登録内容保存部
１５２は、プロクラム操作の登録内容をファイル２００
に保存する。ウィンドウＩＤの取得は、ウィンドウシス
テムのサーバーに問い合わせることにより容易に行なえ
る。

【０３１６】図１０５の登録画面は、プログラム操作登
録内容を音声インターフェース管理テーブルに書き込む
「登録」ボタン、入力内容を取り消して入力前の状態に
戻すための「取り消し」ボタン、登録を終了するための
「終了」ボタン、対象とする一般応用プログラムのウィ
ンドウＩＤを取得するための「ウィンドウＩＤ取得」ボ
タン、応用プログラムの種類を入力する「応用プログラ
ムクラス」（ＡＰクラス）ウィンドウ、ウィンドウ名を
入力する「ウィンドウ名」ウィンドウ、および語彙とそ
れに対応したプログラム操作を表すキー入力系列または
マウス入力系列を入力するプログラム操作入力ウィンド
ウからなる。

【０３１７】図１０５では、応用プログラムクラスとし
て「シェル」、シェルのウィンドウ名として「シェル
１」が選択され、背景色が反転しており、シェル１に対
する操作として単語「エルエス」と「クリア」に相当す
るキー入力操作と、それらの語彙のスコープとしてロー
カル（０）が、編集用ウィンドウに入力された状態を示
している。

【０３１８】次に、プログラム操作の登録手順について
図１０６を用いて説明する。プログラム操作登録部１４
２は、メッセージ変換部１４３から起動され、まず、プ
ログラム操作登録内容を保存した登録内容ファイル２０
０から登録内容を読み出し（ステップ９２０１）、画面
表示を行ないユーザの入力待ちの状態（ステップ９２０
２）になる。

【０３１９】ここで、ユーザが、ＡＰクラス、ウィンド
ウ名、語彙、プログラム操作などの入力、あるいは、登
録ボタン、取り消しボタン、終了ボタン、ウィンドウＩ
Ｄ取得ボタン等の入力を行なう。

【０３２０】入力が登録ボタンであった場合には（ステ
ップ９２０３）、画面に表示されている編集結果を保存
ファイル２００へ保存し、更に音声インターフェース管
理テーブル１４１へ書き込んで登録内容を音声入出力イ
ンターフェースの動作に反映させる（ステップ９２０
４）。

【０３２１】入力が取り消しボタンであった場合には
（ステップ９２０５）、再度、保存ファイル２００から
登録内容を読み込んで表示し、入力待ちの状態に戻る
（ステップ９２０２）。

【０３２２】入力が既に登録済みの応用プログラムクラ
ス（ＡＰクラス）であった場合（ステップ９２０６）選
択されたＡＰクラスのウィンドウ名の一覧と語彙、プロ
グラム操作を画面表示し（ステップ９２０７）、入力待
ちの状態に戻る（ステップ９２０２）。

【０３２３】入力がウィンドウＩＤ取得ボタンであった
場合（ステップ９２０８）、まず、ウィンドウ名が選択
されているか判別し（ステップ９２０９）、選択されて
いない場合には入力待ちに戻り（ステップ９２０２）、
選択されている場合にはマウスでウィンドウがクリック
されるのを待ち、クリックされたウィンドウのＩＤを取
得して、図９９に示すような音声インターフェース管理
テーブルに選択されているウィンドウ名とウィンドウＩ
Ｄを書き込む（ステップ９２１０）。

【０３２４】入力が終了ボタンである場合（ステップ９
２１１）には、画面表示内容の内容の音声インターフェ
ース管理テーブルへの書き込みとファイル２００への保
存を行なって（ステップ９２１２）、登録を終了する。

【０３２５】以上述べたように、プログラム操作登録の
際、応用プログラムの種類を指定することにより、同一
のプログラム操作を入力せずに、自動的に指定すること
が可能になり、登録が効率的に行なえるようになる。

【０３２６】また、名前を指定して起動することが困難
な応用プログラムのウィンドウに対しても、マウスのク
リックされたウィンドウのＩＤを取得してウィンドウ名
と結び付けるようにすることにより、容易にウィンドウ
名を付けて音声入力を行なえるようになる。

【０３２７】上述の登録の例では、すでに生成されてい
るウインドウのＩＤを利用して、操作コマンドと認識結
果の対応をとっていたが、一般にウインドウ等のオブジ
ェクトＩＤは生成時に決定され、同じ種類のアプリケー
ションであっても異なるＩＤが付与される。したがっ
て、登録時にウインドウ階層やウインドウ名など、同じ
種類のアプリケーションで共通のウインドウ属性値をウ
インドウシステムに問い合わせて登録内容に付加してお
けば、これらの属性値を照合することによって同種のア
プリケーションで共通に登録内容を反映させることがで
きる。

【０３２８】さらに、この登録時に、登録対象のアプリ
ケーションに複数のウインドウ名を登録しておくことに
よって、同じ種類のアプリケーションが起動された時に
（既に使われいる音声ウインドウ名を音声認識システム
に問合わせて）使われていないウインドウ名を起動され
たアプリケーションの音声ウインドウ名として利用すれ
ば音声ウインドウ名の衝突を避けることができる。

【０３２９】（第２１実施例）次に、音声入出力インタ
ーフェースにおいて音声の認識を行なうための認識辞書
の編集機能に関する実施例について説明する。

【０３３０】図１０７は、辞書編集部１４４を持つ音声
インターフェース管理システム１０４の構成である。辞
書編集部１４４は、メッセージ変換部１４３から起動さ
れ、編集を終了すると終了メッセージをメッセージ変換
部１４３へ返す。この終了メッセージを受けて音声イン
ターフェース管理部１４１は、音声入出力システム１
へ、編集した後の新しい辞書のロード命令を出すことが
できる。

【０３３１】ここで、図１０８は、認識辞書の構成の例
である。認識辞書には単語ごとに、パターンマッチング
用のテンプレートの他、単語名や単語ＩＤ、あるいは認
識パラメータ等のデータがヘッダに格納されている。こ
れらのデータの内容を表示し、編集する機能を備えるこ
とにより、使わない単語の辞書を削除して辞書に要する
実行時のメモリ量を減らしたり、単語名やＩＤを付け替
えたりすることが容易に行なえるようになる。

【０３３２】次に、辞書編集部１４４の構成について説
明する。辞書編集部１４４は、図１０９に示すように、
辞書内容を表示してユーザが編集を行なえるようにする
辞書内容表示編集部４４１と、辞書内容のチェックや検
索を行なう辞書内容検索部４４２からなる。

【０３３３】辞書内容は、例えば図１１０のような画面
に表示される。画面中には、辞書名を表示する辞書名ウ
ィンドウ、語彙番号、単語ＩＤ、単語、パラメータ、辞
書番号を表示する辞書内容ウィンドウ、辞書の削除を行
なう「削除」ボタン、パラメータの検索を行なう「検
索」ボタン、内容の全表示を行なう「全表示」ボタン、
辞書編集を終了する「終了」ボタン、辞書内容チェック
結果を表示するステータスウィンドウ、検索の際の値を
入力する検索値ウィンドウなどがある。辞書内容ウィン
ドウのパラメータの項目はメニューになっており、マウ
スでクリックすると図に示すようなパラメータ内容が表
示されて表示する内容を選択するようにできる。

【０３３４】辞書内容のチェックは、辞書名を選択した
ときに自動的に動作するようにでき、例えば、同じＩＤ
の単語がないか、あるいは同じ単語名の辞書がないか等
のチェックや、認識パラメータのくい違いがないか等の
チェックが行なわれ、結果がステータスウィンドウに表
示される。

【０３３５】図１１０の項目では、辞書として、“comm
on”および“usr.１”というファイル名の辞書が選択さ
れ、辞書内容としてその２つの内容がマージして表示さ
れる。例えば、語彙Ｎｏ．“１”はＩＤ＝１のオープン
で辞書作成に使ったデータ数が１００であることを示し
ている。また、語彙Ｎｏ．“２”はＩＤ＝２のクリアで
この単語が選択されて背景色が暗く変わっていることを
示している。

【０３３６】次に、辞書編集の処理の手順を、図１１１
を用いて説明する。辞書編集部が起動されるとまず、辞
書ファイルから辞書内容を読み出し（ステップ９３０
１）、画面に内容を表示して入力待ちする状態になる
（ステップ９３０２）。

【０３３７】入力が削除ボタンであった場合には（ステ
ップ９３０３）、ユーザが指定した辞書Ｎｏの辞書をフ
ァイルから削除し（ステップ９３０４）、入力待ちに戻
る（ステップ９３０２）。

【０３３８】入力が全表示ボタンであった場合には（ス
テップ９３０５）、辞書内容を再度読み出して（ステッ
プ９３０１）、入力待ちに戻る（ステップ９３０２）。

【０３３９】入力が検索ボタンであった場合には、パラ
メータメニューからのパラメータの指定を待ち（ステッ
プ９３０７）、指定されたパラメータと検索値ウィンド
ウに入力された値に合致する辞書のみ辞書内容として表
示して（ステップ９３０８）、入力待ちに戻る（ステッ
プ９３０２）。

【０３４０】入力が終了ボタンであった場合には、画面
に入力した内容から辞書ファイルを更新し（ステップ９
３１０）終了したことをメッセージ変換部へ知らせて
（ステップ９３１１）終了する。

【０３４１】以上に述べた辞書編集部により、不要な単
語辞書の削除や内容の確認、単語名の変更などの編集が
容易に行なえ、また同じＩＤや単語の２重使用や認識パ
ラメータの不統一のチェック等が容易に行なえる。

【０３４２】（第２２実施例）本発明の第１８，１９実
施例で述べた音声入出力インタフェースでは、ユーザの
発声の認識結果の確認および認識結果により引きおこさ
れる応用プログラムの動作の確認は、応用プログラムの
提示する画面情報を通じて行っている。例えば、認識結
果（および認識失敗）を文字情報としてユーザに提示す
る。「シェルツール」などプログラム名を呼んだ時にシ
ェルツールの表示を第１９実施例の図１００，１０１の
ように変更する。「アイコン化」の発声に対して、音声
フォーカスの当たったウィンドウをアイコン化する等、
音声による応用プログラムへの働きかけは、応用プログ
ラムの行う画面表示の変化としてユーザへフィードバッ
クされる。しかし、応用プログラムによっては、操作に
よりその表示が殆んどあるいは全く変化しない事も考え
られる。また、キーボードフォーカスと音声フォーカス
を分離できるという本発明の特長を生かして音声フォー
カスを当てた応用プログラムを表示しない状態で使用す
ることも考えられる。このような場合には、認識結果や
それによる操作の確認を画面出力ではなく、第１４実施
例で述べた、音声合成機能を利用した音声出力によって
行うことで、ユーザの応用プログラム操作上の利便性が
向上する。

【０３４３】動作確認を音声出力によって行うために、
第１９実施例の音声インタフェースマネージャ（図９
８）を図１１２のように拡張する。すなわち、音声イン
タフェース管理システム（ＳＩＭ）に応答音声管理部４
０１と応答音声登録部４０３を追加する。

【０３４４】ユーザの行った発声に対してどのような応
答音声を返すかを定義するのが、応答音声管理部４０１
であり、その登録を行うのが応答音声登録部４０３であ
る。そして、動作（すなわちメッセージ）が発生した際
に応答音声管理部４０１を参照して音声応答を出力する
のが、メッセージ変換部１４３である。

【０３４５】応答音声管理部４０１の例を図１１３に示
す。応答音声管理部４０１は、音声応答を出力するきっ
かけとなる動作と、動作時に行う応答コマンドおよび、
その設定を実際に適用するか否かを決定するフラグから
成る。動作は、音声によらないものでもよい。応答に
は、コマンドが記述される。ｓｙｎｔｈ（）は、その引
数をテキストとして合成音声を出力するコマンド、ｐｌ
ａｙ（）は、引数を波形データと見做し、出力するコマ
ンドである。

【０３４６】メッセージ変換部１４３は応答音声管理部
４０１のデータを参照し、図１１４に示す流れにより処
理を行う。先ず、音声入出力シスムテから受信したメッ
セージが認識結果か否かを判定し（ステップ１０００
１）、認識処理が成功したか否かを判定する（ステップ
１０００２）。ついでその成功・失敗に応じて、音声応
答コマンドを実行する（ステップ１０００３，ステップ
１０００４）。ステップ１０００５は、認識処理の成功
・失敗以外の応答音声を出力する段階であり、図１１３
の３行目以下の設定にあたる。この流れに従えば、認識
はできたが類似度が低い、あるいは音声入力レベルが大
き（小さ）すぎるなどの理由によって、認識失敗した際
には、「えっ？」などという音声データが出力され、応
用プログラム名、例えば「メール」が認識された時に
は、合成音声により「はい、メールです」などと出力さ
れる。ここで、図１１３中の＄＜ｃａｔ＞は、認識結果
の語彙名が置換される）。

【０３４７】応答音声管理部４０１のコマンドを登録す
るのが、図１１５に示す応答音声登録部４０３である。
各動作に対してコマンドを記述し、また適用するか否か
のチェックボックスをチェックし、ＯＫボタンを押すこ
とで登録を確認する。

【０３４８】応答音声管理部４０３の応答コマンドは、
メッセージ変換部１４３が処理するものであり、第１９
実施例の図９９に示した音声インタフェース管理テーブ
ルのコマンドとして記述できる。ここにｐｌａｙ（）お
よびｓｙｎｔｈ（）コマンドを記述することで、音声入
出力システム１と直接情報を交換できないＧＡＰの動作
に対して、その応用プログラムに即した応答音声出力を
定義できる。

【０３４９】このように、音声入力によって行われる
（あるいは行われない）動作に対して、動作毎に意味の
ある音声応答を返す機構をＳＩＭに設け、音声入力に対
しては音声で応答するという自然な方法で、ユーザが画
面の表示の変化を注視しなくとも（あるいは全くみなく
とも）応用プログラムの実行した動作を確認できるた
め、音声入出力インタフェースの操作性が向上する。

【０３５０】（第２３実施例）本発明の第９実施例で
は、認識辞書作成のためのデータ収集について説明した
が、収集データの中には、間違った語彙の発声や音声区
間の検出誤りなどにより、誤りデータが含まれることが
ある。例えば「ひらく」という単語は「く」の音が小さ
く発声されることがあり、「く」が抜けて「ひら」のみ
音声区間として検出されることがある。このような誤っ
たデータによる認識辞書の学習は認識精度を大きく低下
させるため、データの確認を行って誤りデータを取り除
くことが必要である。そこで本実施例では、データの確
認を容易に且つ確実に行なえるように、音を再生して聞
くことによりデータ確認するようにしている。

【０３５１】従来、収集した音声データを再生して確認
する方法では、検出された音声区間のみを再生する場合
が多いが、語彙によっては、音声の始終端が誤って検出
されている場合でもユーザがそれを聞きもらしてしまう
という問題があった。例えば上に述べた「ひらく」の語
尾の「く」が抜けて「ひら」だけになってしまった場合
でも、「ひら」の再生音が「ひらく」と聞こえてしまう
ことがある。本実施例では、このような始終端の確認の
ミスを少なくするため、音声の始終端位置を音により分
り易く提示するようにしている。これにより、音声デー
タの確認が音により容易に且つ確実に行なえるようにな
るため、学習データの収集が簡単でミスなく行なえ、音
声入出力インタフェースの使い勝手の向上と認識精度の
向上が実現できる。

【０３５２】始終端位置を分り易くする方法としては、
（方法１）検出された音声区間の前後に白色雑音や正弦
波など既知の音を付加して再生する方法、（方法２）始
終端位置にクリック音を乗せて再生する方法、（方法
３）始端よりも一定時間前から終端よりも一定時間後ま
での発声全体を再生した後、音声区間のみを再生する方
法、などが考えられる。

【０３５３】上記方法１によれば、先程述べた「ひら
く」の例では、「ひら」の後にすぐ別の音が続くため、
「く」が抜けていることを容易に聞き取ることができ
る。上記方法２によれば、「ひら」の後に続いて、クリ
ック音が来るため「く」が抜けていることが分る。ま
た、上記方法３によれば、発声全体と音声区間とを比較
して聞くことができるため、「く」の有無を容易に識別
することができる。

【０３５４】ここで、本実施例による拡張したデータ収
集部８の構成を図１１６に示す。

【０３５５】データ収集部８は、図１１６に示すよう
に、第９実施例の図２９のデータ収集部８に、音声デー
タ確認部４１１、データ使用可否入力部４１３を加え、
学習データ収集制御部８３を介して音声特徴データを音
声特徴データ保存部に送るような構成になっている。す
なわち、音声データ確認部４１１で提示された再生音を
聞いて、ユーザがその音声データを辞書作成に使うか否
かをデータ使用可否入力部４１３から指定できるような
構成になっている。

【０３５６】このデータ収集部８の処理の流れを図１１
７に従って説明する。

【０３５７】まず、初期設定では、ユーザからのデータ
収集の指示により、データ収集部８から音声認識システ
ム１に対して学習モード設定要求が出され（ステップ１
１００１）、これを受けて音声認識システムは認識対象
語彙をデータ収集部８に送る。データ収集部８では認識
対象語彙がユーザに表示される（ステップ１１００
２）。

【０３５８】ユーザにより学習語彙が選択されると（ス
テップ１１００３）、データ収集部８は音声認識システ
ム１に単語音声特徴データと単語音声波形データの送信
を要求し（ステップ１１００４）、選択された語彙を発
声のガイドとして発声ガイド表示部４１５に表示し（ス
テップ１１００５）、ユーザに発声を促す。音声認識シ
ステム１では発声されたユーザの音声を処理した後、デ
ータ収集部８に単語特徴データと波形データを送信す
る。そして、データ収集部８はそのデータを受信し、内
部メモリに一時格納する（ステップ１１００６）。

【０３５９】音声波形データは音声データ確認部４１１
に送られ、ユーザがそのデータを確認し、辞書作成に使
うか否かを、データ使用可否入力部４１３により入力す
る（ステップ１１００７）。データを使用するとした場
合には単語音声特徴データが磁気ディスク上などにファ
イル出力され（ステップ１１００８でＹＥＳの場合およ
びステップ１１００９）、使用しないとした場合にはフ
ァイル出力しない（ステップ１１００８でＮＯの場
合）。

【０３６０】学習終了時にはユーザがデータ収集終了の
指示を入力し、データ収集指示フラグがＯＦＦならば
（ステップ１１０１０でＹｅｓの場合）、データ収集部
８は学習モードの解除を音声認識システム１に要求する
（ステップ１１０１２）。音声認識システム１では、そ
れを受けて学習モードを解除する。一方、学習を終了し
ないときは、データ収集指示フラグを検査し（ステップ
１１０１１）、上記ステップ１１００４以下の処理を繰
り返す。データ収集指示フラグは、学習データ収集制御
部の中に設定されており、図に示すようなデータ収集ボ
タンにより、ユーザが入力可能とすることができる。

【０３６１】次に、本実施例の音声データ確認部４１１
の構成を図１１８に示す。

【０３６２】音声データ確認部４１１は、音声データを
格納する音声データメモリ４２１、音声データを加工す
る音声データ加工部４２２、加工に用いる付加音を生成
する付加音生成部４２４、加工後の音声データを再生し
て音にする再生部４２３から成り、学習データ収集部制
御８３から音声データと始終端位置に関する情報を受け
取って加工後、音として出力する。加工後の音を音声入
出力システムに送って音データを再生することにすれ
ば、再西部４２３はなくても良い。

【０３６３】次に、図１１９に従って処理の流れについ
て説明する。

【０３６４】まず、学習データ収集制御部８３から音声
データと始終端情報を受け取り、音声データメモリ４２
１に格納する（ステップ１２００１，ステップ１２１０
１，ステップ１２２０１）。この音声データは、音声区
間の前後に一定時間、例えば２４０ｍｓｅｃの余裕を付
けた波形データであり、例えば図１２０に示すようなも
のである。図のデータは「ひらく」の「ひら」が音声区
間として検出されたため、「く」の音は終端の余裕の中
に入っている。

【０３６５】次に、音声区間の前後に付加音をつける上
記方法１の場合では、付加音を付加音生成部４２４で作
り（ステップ１２００２）、音声データ加工部４２２で
始終位置の前と終端位置の後にこの付加音を付加する
（ステップ１２００３，ステップ１２００４）。この結
果、音声データ図１２１の（ａ）に示すようなものにな
る。

【０３６６】付加音データは白色ノイズでも良いし、正
弦波でも良く、これらは乱数発生ルーチンや三角関数の
ルーチンを使って容易に作成できる。又、録音データを
単に読み出すだけでも良い。

【０３６７】始終端位置にクリック音を付加する上記方
法２の場合では、クリック音を付加音生成部４２４で作
り（ステップ１２１０２）、始終端位置に付加する（ス
テップ１２１０３，ステップ１２１０４）。この結果、
音声データは図１２１の（ｂ）に示すようなものにな
る。ここでクリック音は短時間、例えば数１０ｍｓｅｃ
幅のパルスや三角波等で良い。

【０３６８】発声の全体と音声区間の両方を再生する上
記方法３の場合では、まず、音声区間外の平均パワーを
計算し（ステップ１２２０２）、この値が、しきい値、
例えば雑音レベル＋２ｄＢよりも大きければ（ステップ
１２２０３でＹＥＳの場合）、音声区間の前後についた
余裕と音声区間とを合わせた音声全体を再生する（ステ
ップ１２２０４）。一方、計算した平均パワーがしきい
値よりも小さければ（ステップ１２２０３でＮＯの場
合）、音声区間のみ再生する（ステップ１２２０５）。
雑音レベルは音声認識システム１で音声検出のために常
時測定しているため（永田、他“ワークステーションに
おける音声認識機能の開発”，電子情報通信学会技術報
告、ＨＣ９１１９，ｐｐ．６３−７０，（１９９１）、
参照）それを用いれば良い。発声全体の再生と音声区間
の再生の２回の再生を、発声の毎に行なうのは煩しいた
め、上述のように音声区間の外の音声パワーが大きいと
きに、始終端位置を誤った可能性が大きいと見なして、
そのときのみ２回の再生を行なうようにすれば、煩しさ
を軽減できる。

【０３６９】この場合、図１２１の（ｃ）に示すよう
に、発声全体の再生音は「ひらく」の全発声が再生され
るが、音声区間のみの再音声は「ひら」だけしか再生さ
れないため、続けてこの２つの再生音を聞いて比較する
ことによって「く」が抜けていることを容易に識別でき
る。

【０３７０】以上に述べたように、音声データが正しい
か否かをユーザが再生音により容易に判断することがで
き、データを辞書作成に使用するか否かをデータ収集部
で直ちに入力することができるため、音声データ収集を
簡単に、且つ確実に行なうことができる。

【０３７１】これにより、誤ったデータを除いて認識辞
書を作成することができる。

【０３７２】

【発明の効果】本発明によれば、各応用プログラムによ
り音声認識システムに対する音声認識結果の受信の可否
を決定できるので、応用プログラムが自分や他の応用プ
ログラムの音声入力に関する制御を自由に行うことがで
き、柔軟で使いやすい音声認識インターフェースが構築
できる。また、音声認識システムがその音声認識結果を
同時に複数の応用プログラムに送信できるので、一つの
音声入力による操作を同時に複数の応用プログラムに対
して行うこともでき、音声入力による計算機の操作性も
向上する。さらに音声認識システムが複数の応用プログ
ラムに対する音声認識を行えるので、音声入力対象の明
示的な指定をせずに音声認識結果に基づき音声入力を各
応用プログラムに振り分けることができ、利用者の負担
を軽減できる。

【図面の簡単な説明】

【図１】本発明の一実施例の概略構成を示す図。

【図２】音声認識部の概略構成を示す図。

【図３】音声認識部の他例の概略構成を示す図。

【図４】音声認識部の他例の概略構成を示す図。

【図５】音声認識部の他例の概略構成を示す図。

【図６】応用プログラムの概略構成を示す図。

【図７】構成要素間で伝送されるメッセージを説明する
図。

【図８】入力マスクの種類を示す図。

【図９】音声認識インターフェース各部の処理のタイム
チャートを示す図。

【図１０】応用プログラム管理テーブルを説明する図。

【図１１】本発明の第２実施例の概略構成を示す図。

【図１２】一般的なウィンドウシステムの画面表示例を
示す図。

【図１３】応用プログラムの認識語彙を説明する図。

【図１４】入力フォーカスの移動に伴う音声認識語彙の
変化を説明する図。

【図１５】認識語彙の表示例を説明する図。

【図１６】マウスの位置により認識語彙を変更する状態
を説明する図。

【図１７】本発明の第３実施例での応用プログラムの認
識語彙を説明する図。

【図１８】応用プログラム管理テーブルを説明する図。

【図１９】本発明の第４実施例を説明する図。

【図２０】本発明の第５実施例の概略構成を示す図。

【図２１】メッセージ表示例を示す図。

【図２２】ワークステーションなどのマルチウィンドウ
環境を示す図。

【図２３】本発明の第６実施例での応用プログラム管理
テーブルを示す図。

【図２４】図２３の応用プログラム管理テーブルに基づ
く表現を説明する図。

【図２５】タスク管理プログラム機能の拡張例を示す
図。

【図２６】本発明の第７実施例での表示例を説明する
図。

【図２７】同第７実施例での表示例を説明する図。

【図２８】本発明の第９実施例の概略構成を示す図。

【図２９】学習データ収集部の概略構成を示す図。

【図３０】音声認識システムとのメッセージ交換を説明
する図。

【図３１】音声認識システムのデータ収集時のフローチ
ャートを示す図。

【図３２】学習データ収集部のフローチャートを示す
図。

【図３３】学習語彙ガイド表示部での表示例を示す図。

【図３４】学習語彙ガイド表示部での表示例を示す図。

【図３５】データ収集時の音声認識インターフェースの
処理の流れを示す図。

【図３６】本発明の第１０実施例の概略構成を示す図。

【図３７】辞書作成管理テーブルを示す図。

【図３８】辞書作成管理テーブルを示す図。

【図３９】辞書作成管理テーブルを示す図。

【図４０】辞書作成管理テーブルへの登録手順を説明す
る図。

【図４１】辞書作成の手順を説明する図。

【図４２】辞書作成の進行状況の表示例を示す図。

【図４３】辞書作成処理の速度表示の例を示す図。

【図４４】辞書作成処理の速度表示の例を示す図。

【図４５】本発明の第１１実施例の概略構成を示す図。

【図４６】音声認識自動停止処理を説明する図。

【図４７】本発明の第１２実施例を説明する図。

【図４８】同第１２実施例を説明する図。

【図４９】本発明の第１３実施例を説明する図。

【図５０】本発明の第１４実施例の概略構成を示す図。

【図５１】音声合成部の概略構成を示す図。

【図５２】音声出力管理テーブルを説明する図。

【図５３】音声入力に対するメッセージを説明する図。

【図５４】音声出力に対する入力マスクを説明する図。

【図５５】応用プログラム管理テーブルを説明する図。

【図５６】音声出力処理のフローチャートを示す図。

【図５７】音声出力処理のタイムチャートを示す図。

【図５８】音声出力要求処理のフローチャートを示す
図。

【図５９】中断処理のある音声データを重畳する際の一
例を説明する図。

【図６０】本発明の第１５実施例の概略構成を示す図。

【図６１】応用プログラムと音声入出力システム間で交
わされるメッセージを説明する図。

【図６２】音声メールツールが音声データを録音する処
理のタイムチャートを示す図。

【図６３】音声メールツールの画面表示例を示す図。

【図６４】音声データ編集用のサブウィンドウを示す
図。

【図６５】メール送信による返信の文面例を示す図。

【図６６】音声データ編集用のサブウィンドウを示す
図。

【図６７】合成音声の属性のデータベースの一例を示す
図。

【図６８】メール読み上げ時に使用する音声コマンドの
例を示す図。

【図６９】音声メールシステムの概略構成を示す図。

【図７０】応用プログラム管理テーブルを説明する図。

【図７１】メールシステムと音声入出力システム間のメ
ッセージを説明する図。

【図７２】タスク重要度管理テーブルを説明する図。

【図７３】音声メールシステムの電子メール処理のフロ
ーチャートを示す図。

【図７４】受信メールの通知例を示す図。

【図７５】タスク重要度管理テーブルを説明する図。

【図７６】制御コード交じりのメール例を示す図。

【図７７】本発明の第１６実施例の概略構成を示す図。

【図７８】本発明の第１６実施例の概略構成を示す図。

【図７９】要約設定処理のフローチャートを示す図。

【図８０】本発明の第１７実施例の概略構成を示す図。

【図８１】音声を使ったメール文書作成例を示す図。

【図８２】応用プログラムと音声認識システムの間のメ
ッセージ例を示す図。

【図８３】音声区間データを入力音声から切り出す処理
のタイムチャートを示す図。

【図８４】音声によるメール題の入力を説明する図。

【図８５】定型的なメール文書の入力を説明する図。

【図８６】メールアドレスブックの画面表示例を示す
図。

【図８７】音声入力可能なメールアドレスの登録例を示
す図。

【図８８】音声によるメール送付先指定の手順を説明す
る図。

【図８９】メールアドレスのデータベースを用いたメー
ル送付先指定を説明する図。

【図９０】本発明の第１８実施例の概略構成を示す図。

【図９１】同第１８実施例におけるシステム構成を示す
図。

【図９２】同第１８実施例での画面表示例を示す図。

【図９３】音声インターフェース管理テーブルの一例を
示す図。

【図９４】疑似音声フォーカスと音声フォーカスとの対
応関係を示す図。

【図９５】メッセージ変換部のフローチャートを示す
図。

【図９６】本発明の第１９実施例の概略構成を示す図。

【図９７】同第１９実施例での画面表示例を示す図。

【図９８】同第１９実施例のより詳細な構成を示す図。

【図９９】音声インターフェース管理テーブルの一例を
示す図。

【図１００】音声フォーカスの表示方法を説明するため
の図。

【図１０１】外付けウィンドウの表示例を示す図。

【図１０２】応用プログラム管理テーブルの一例を示す
図。

【図１０３】音声入出力システムの認識処理のフローチ
ャートを示す図。

【図１０４】本発明の第２０実施例の概略構成を示す
図。

【図１０５】プログラム操作の登録画面の一例を示す
図。

【図１０６】プログラム操作登録の処理手順を示す図・

【図１０７】本発明の第２０実施例の概略構成を示す
図。

【図１０８】認識辞書の構成の一例を示す図。

【図１０９】辞書編集部の概略構成を示す図。

【図１１０】辞書編集画面の一例を示す図。

【図１１１】辞書編集部の処理のフローチャートを示す
図。

【図１１２】本発明の第２２実施例の概略構成を示す
図。

【図１１３】応答音声管理部の概略構成を示す図。

【図１１４】メッセージ変換部の処理のフローチャート
を示す図。

【図１１５】応答音声登録部の概略構成を示す図。

【図１１６】拡張したデータ収集部の概略構成を示す
図。

【図１１７】図１１６のデータ収集部の処理のフローチ
ャートを示す図。

【図１１８】音声データ確認部の概略構成を示す図。

【図１１９】音声データ確認部の処理のフローチャート
を示す図。

【図１２０】音声データの一例を示す図。

【図１２１】加工後の音声データの様子を示す図。

【図１２２】従来の音声認識インターフェースを示す
図。

【図１２３】従来の音声認識インターフェースを示す
図。

【図１２４】従来の音声認識インターフェースを示す
図。

【図１２５】従来の音声認識インターフェースを示す
図。

【図１２６】従来の音声認識インターフェースを示す
図。

【符号の説明】

１、３、６…音声認識システム、１１…メッセージ処理
部、１２…音声認識部、１２１…音声検出部、１２２…
音声分析部、１２３…認識辞書照合部、１２４…音声認
識辞書、１３…応用プログラム管理テーブル、２、５、
７…応用プロクラム、２１、７１…メッセージ入出力
部、２２…プログラム本体、４…ウインドウシステム、
８…データ収集部、８１…単語音声特徴データ保持部、
８２…学習語彙表示選択部、８３…学習データ収集制御
部、８４…学習語彙ガイド表示部、９…辞書作成部、９
１…辞書作成管理部、９２…辞書作成制御部、９３…デ
ータ入力部、９４…辞書作成部本体、９５…ファイル出
力部、１０…音声認識自動停止部、１４…音声合成部、
５６１…全体制御部、５６２…波形重畳部、５６３…音
声出力管理テーブル、５６４…波形合成部、６５１…音
声入出力システム、６５２…ウィンドウシステム、６５
３…音声メールツール、６５３１…電子メール処理部、
６５３２…メッセージ入出力部、８２１…音声入出力シ
ステム、８２２…音声メールシステム、８２２１…電子
メール処理部、８２２２…文書要約部、８２２３…メッ
セージ入出力部、８５１…音声認識システム、８５２…
音声メーメシステム８５２、８５３…メールアドレステ
ーブル、１０３…汎用応用プログラム（ＧＡＰ）、１０
２…専用応用プログラム（ＳＡＰ）、１０４…音声イン
ターフェース管理システム（ＳＩＭ）、１４１…音声イ
ンターフェース管理部、１４２…プログラム操作登録
部、１４３…メッセージ変換部、２３…音声ウィンド
ウ、１４４０₀〜１４４０₄…音声ウィンドウ、１５１
……プログラム操作表示編集部、１５２…登録内容保存
部、１５３…ウィンドウＩＤ取得部、１４４…辞書編集
部、４４１…辞書内容表示編集部、４４２…辞書内容検
索部、４０１…応答音声管理部４０１、４０３…応答音
声登録部、４１１…音声データ確認部、４１３…データ
使用可否入力部、４１５…発生ガイド表示部、４２１…
音声データメモリ、４２２…音声データ加工部、４２３
…再生部、４２４…付加音データ保存部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者永田仁史神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者瀬戸重宣神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者竹林洋一神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者山口浩司神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内 (72)発明者新地秀昭東京都青梅市新町1385番地東芝ソフトウェアエンジニアリング株式会社内

Claims

【特許請求の範囲】

【請求項１】音声認識システムに複数の応用プログラ
ムを接続した音声認識インターフェースにおいて、前記音声認識システムは、音声を認識する音声認識手
段、前記複数の応用プログラムに関する情報を管理する
応用プログラム管理手段、この応用プログラム管理手段
の情報に基づいて音声入力に対する認識対象語彙の特
定、前記音声認識手段の認識結果の送信先の特定を行う
メッセージ処理手段を具備したことを特徴とする音声認
識インターフェース。
【請求項２】音声入力の対象を単数または複数の応用
プログラムに指定する音声フォーカスの変更を音声入力
より可能にする手段を有する請求項１記載の音声認識イ
ンターフェース。
【請求項３】音声入出力システムに複数の応用プログ
ラムを接続した音声入出力インターフェースにおいて、前記音声入出力システムは、音声を認識する音声認識手
段、音声を合成する音声合成手段、前記複数の応用プロ
グラムに関する情報を管理する応用プログラム管理手
段、この応用プログラム管理手段の情報に基づいて音声
入力に対する音声認識対語語彙の決定、前記音声認識手
段の認識結果の送信先の決定、前記複数の応用プログラ
ムからの音声出力の制御を行なうメッセージ処理手段を
具備することを特徴とする音声入出力インターフェー
ス。
【請求項４】前記音声合成手段は、複数の応用プログ
ラムからの音声データ出力要求に関する情報を管理する
音声出力管理手段、文字データから音声データを合成す
る波形合成手段、前記出力要求に関する情報に従い前記
複数の音声データに含まれる同時刻のデータを重畳する
音声データ重畳手段を具備することを特徴とする請求項
３記載の音声入出力インターフェース。
【請求項５】音声入出力システムに接続され音声によ
り電子メールの送受信を行なう音声入出力インターフェ
ースにおいて、応用プログラムにおいて行なう作業の重要度を管理する
タスク重要度管理手段と、前記作業の重要度と受信した
電子メールとの比較を行ない電子メールの受信の通知方
法を決定する電子メール通知決定手段とを具備すること
を特徴とする電子メールシステム。
【請求項６】請求項１に記載の音声認識システムまた
は請求項３に記載の音声入出力システムに複数の応用プ
ログラムと応用プログラムの操作を行なう音声インター
フェース管理システムとを接続した音声入出力インター
フェースにおいて、前記音声インターフェース管理システムは、前記音声入
出力システムからの音声認識結果から前記応用プログラ
ムにおける操作へのメッセージ変換を行うメッセージ変
換手段と、前記メッセージ変換に関する情報を管理する
音声インターフェース管理手段と、前記音声認識結果に
対応した前記応用プログラムにおける操作を登録するた
めのプログラム操作登録手段とを具備することを特徴と
する音声入出力インターフェース。
【請求項７】前記応用プログラム管理手段は、応用プ
ログラムを構成するウィンドウごとに音声フォーカスお
よび認識対象語彙の管理を行ない、前記メッセージ処理手段は、前記応用プログラム管理手
段の情報、ならびに音声フォーカスの情報および認識語
彙の属性情報に基づいて、認識結果の送信対象を決定す
ることを特徴とする請求項６に記載の音声入出力インタ
ーフェース。
【請求項８】前記音声インターフェース管理システム
は、音声認識に用いる認識辞書の内容を表示してユーザ
が編集を行なう辞書内容表示編集手段と、辞書内容を検
索する辞書内容検索手段とをさらに具備することを特長
とする請求項６または７に記載の音声入出力インターフ
ェース。
【請求項９】前記音声インタフェース管理システム
は、応答音声を管理する応答音声管理手段と、応答音声
を登録する応答音声登録手段とをさらに具備し、前記メ
ッセージ変換手段は、該応答音声管理手段の応答音声に
関する情報を用いて、音声入力に応じた応答音声の出力
を行なうことを特徴とする請求項６または８に記載の音
声入出力インタフェース。
【請求項１０】前記音声認識システムまたは前記音声
入出力システムは、認識辞書作成のための音声データ収
集を行なう学習データ処理手段と、認識辞書を作成する
辞書作成手段とを具備し、前記学習データ収集手段は収
集データの音声区間を音により強調して再生することを
特徴とする請求項６または７に記載の音声入出力インタ
フェース。