JPH07140998A - 音声認識インターフェース - Google Patents

音声認識インターフェース

Info

Publication number
JPH07140998A
JPH07140998A JP5353142A JP35314293A JPH07140998A JP H07140998 A JPH07140998 A JP H07140998A JP 5353142 A JP5353142 A JP 5353142A JP 35314293 A JP35314293 A JP 35314293A JP H07140998 A JPH07140998 A JP H07140998A
Authority
JP
Japan
Prior art keywords
voice
recognition
input
application program
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5353142A
Other languages
English (en)
Other versions
JP3725566B2 (ja
Inventor
Hideki Hashimoto
秀樹 橋本
Hitoshi Nagata
仁史 永田
Shigenobu Seto
重宣 瀬戸
Yoichi Takebayashi
洋一 竹林
Koji Yamaguchi
浩司 山口
Hideaki Shinchi
秀昭 新地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Software Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Software Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Software Engineering Corp filed Critical Toshiba Corp
Priority to JP35314293A priority Critical patent/JP3725566B2/ja
Publication of JPH07140998A publication Critical patent/JPH07140998A/ja
Application granted granted Critical
Publication of JP3725566B2 publication Critical patent/JP3725566B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明は、音声認識システムより複数の応用プ
ログラムを同時に取扱うことが可能で、使い勝手に優れ
た音声認識インターフェースを提供する。 【構成】音声認識システム1に複数の応用プログラム2
を接続したものであって、音声認識システム1は、応用
プログラム管理テーブル13により複数の応用プログラ
ム2に関する情報を管理していて、この応用プログラム
管理テーブル13の情報に基づいて音声入力に対する認
識対象語彙の決定、音声を識別する音声識別部12での
認識結果の送信先の決定、音声入力の対象を複数の応用
プログラムに指定する音声フォーカスの決定をメッセー
ジ処理部11により実現している。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、パーソナルコンピュー
タおよびワークステーションなどに用いられる音声認識
インターフェースに関するものである。
【0002】
【従来の技術】近年、計算機はキーボード、マウス、音
声、画像など複数の入力手段を装備し、様々な指示やデ
ータ入力を可能にしたものが考えられている。
【0003】このうちで、音声入力は、人間にとって自
然であり有力な入力手段といえるが、音声処理にかかる
計算量や認識率などの点で問題があり、入力手段として
広く利用されるに至らなかった。
【0004】しかして、従来、音声認識インターフェー
スにおける、応用プログラムと音声認識システムの構成
として、次のようなものが考えられている。
【0005】図122は、応用プログラムAPに音声認
識システムSRSが組み込まれているものである。この
ようにしたものは、音声認識機能が応用プログラムAP
から分離できないため、他の応用プログラムから音声認
識機能を利用するのが困難であった。
【0006】また、図123は、一つの音声認識システ
ムSRSと一つの応用プログラムAPからなり、両者が
接続される構成のものである。このようにしたものは、
音声認識システムSRSは、接続された応用プログラム
APに占有されるため、同じ音声認識システムSRSを
別の応用プログラムから利用するには、別の応用プログ
ラムに接続を変更する必要があり、接続し直すための手
間がかかる。また、音声認識システムSRSと応用プロ
グラムAPの間でやり取りするデータは、音声認識シス
テムSRSから応用プログラムAPへ送られる認識結果
のみであるため、音声認識システムSRSは応用プログ
ラムAPの内部状態を知ることができない。このため、
応用プログラムAPの内部状態に応じた認識対象語彙の
変更などが自動的に行えず、利用者が語彙の変更を行う
必要があるため、使い勝手の悪いシステムになってい
た。
【0007】また、図124は、一つの音声認識システ
ムSRSと一つの応用プログラムAPからなり、それら
が相互に接続されて、認識語彙や認識結果などの情報を
送り合う構成のものである。このようにしたものは、音
声認識システムSRSは応用プログラムAPの内部状態
や認識語彙などを知ることができるため、認識語彙の変
更を自動的に行うことができるが、音声認識システムS
RSは応用プログラムAPに占有されるため、同時に他
の応用プログラムが音声認識システムSRSを利用する
ことができない。
【0008】また、図125は、文献[Schmand
tetal,“Augmenting a windo
w system with speech inpu
t”,COMPUTER,Vol.23,pp.50−
58,1990]のシステムの構成であり、一つの音声
認識システムSRSから複数の応用プログラムAPに音
声認識結果を一方的に送るものである。このシステムで
は、ウインドウシステムを利用し、音声認識結果をマウ
スやキーボードによる入力に翻訳することによって音声
を入力している。この構成のシステムでは、複数の応用
プログラムAP音声認識機能を同時に利用できるが、音
声認識システムSRSが応用プログラムAPの内部状態
を知ることができないため、応用プログラムAPの内部
状態に応じた認識処理を行うことができない。
【0009】また、図126は、文献[Rudnick
y他、spoken language recogn
ition in an office manage
ment domain,Proc.ICASSP´9
1,S12.12,pp.829−832,1991]
のシステムの構成であり、一つの音声認識システムSR
Sと複数の応用プログラムAPからなり、音声認識シス
テムSRSと応用プログラムAPが相互に情報を送り合
って音声認識を行う。このシステムには、複数の応用プ
ログラムが連続音声認識を共用できるという特徴があ
り、高価な音声認識装置の利用に関して有用な方法を取
っているといえるが、リアルタイム処理やワークステー
ション上での利用形態についての検討は十分ではない。
この構成では、複数のプログラムが音声認識機能を利用
可能であり、また、応用プログラムAPの内部状態に応
じた認識システムSRS側の処理も可能であるが、同時
に一つの応用プログラムAPとしか接続できないため、
複数の応用プログラムAPを同時に扱えるという音声の
特徴を生かした処理を行うことができなかった。また、
どの応用プログラムAPに音声認識結果を送るかの決定
は、音声認識システムSRSから行われていたため、例
えば応用プログラムAP側で認識結果を必要としている
場面でも、認識結果を得られない場合があった。
【0010】
【発明が解決しようとする課題】このように従来の音声
認識インターフェースによると、応用プログラムAPが
音声認識対象を管理できないため、応用プログラムAP
主導の音声入力制御ができず、利用者に音声認識を促し
たい状態でも、音声認識システムSRSからの音声入力
許可命令を受けとるまで待たなければならなかった。ま
た、1つの音声で複数の応用プログラムAPを同時に制
御することができないため、例えば「終了」という1つ
の音声入力で、複数の応用プログラムAPを終了させる
ことができなかった。また、認識結果にしたがって、音
声入力を複数の応用プログラムAPに振り分けることが
できないため、音声の入力に先立って入力対象を特定す
ることが必要とされていた。また、1つの音声入力に対
して1つの音声認識システムしか動作しないため、例え
ば孤立単語認識と連続音声認識のように異なる種類の認
識方式を共存させ、同時に利用するようなことができな
かった。
【0011】本発明は、上記事情に鑑みてなされたもの
で、音声認識システムより複数の応用プログラムを同時
に取扱うことが可能で、使い勝手に優れた音声認識イン
ターフェースを提供することを目的とする。
【0012】
【課題を解決するための手段】本発明は、音声認識シス
テムに複数の応用プログラムを接続した音声認識インタ
ーフェースにおいて、音声認識システムは、音声を識別
する音声識別手段、前記複数の応用プログラムに関する
情報を管理する応用プログラム管理手段、この応用プロ
グラム管理手段の情報に基づいて音声入力に対する認識
対象語彙の決定、前記音声識別手段の認識結果の送信先
の決定を行うメッセージ処理手段により構成されてい
る。
【0013】
【作用】この結果、本発明によれば各応用プログラムに
より音声認識システムに対する音声認識結果の受信の可
否を決定できるので、応用プログラムが自分や他の応用
プログラムの音声入力に関する制御を自由に行うことが
でき、柔軟で使いやすい音声認識インターフェースが構
築できる。
【0014】また、音声認識システムがその音声認識結
果を同時に複数の応用プログラムに送信できるので、一
つの音声入力による操作を同時に複数の応用プログラム
に対して行うこともでき、音声入力による計算機の操作
性も向上する。
【0015】さらに、音声認識システムが複数の応用プ
ログラムに対する音声認識を行えるので、音声入力対象
の明示的な指定をせずに音声認識結果に基づき音声入力
を各応用プログラムに振り分けることができ、利用者の
負担を軽減できる。
【0016】
【実施例】以下、本発明の実施例を図面に従い説明す
る。
【0017】(第1実施例)図1は同実施例の概略構成
を示している。図において、1は音声認識システムで、
この音声認識システム1は、メッセージ処理部11、音
声認識部12、応用プログラム管理テーブル13から構
成され、メッセージ処理部11に複数の応用プログラム
2を接続している。
【0018】この場合、音声認識システム1は、応用プ
ログラム2からのメッセージに含まれる指示に従って音
声認識を行い、認識結果をメッセージとして応用プログ
ラム2に送る。応用プログラム2は、その音声認識結果
を利用してその応用に依存した固有の処理を行う。ま
た、音声認識システム1は、同時に複数の応用プログラ
ム2とメッセージを交換し音声認識結果を送信できるよ
うにしている。
【0019】音声認識システム1を構成するメッセージ
処理部11は、応用プログラム2と音声認識部12のメ
ッセージを交換し、音声認識システム1の全体制御を行
う。また、音声認識部12は、メッセージ処理部11と
メッセージを交換し合うことでメッセージ処理部11か
ら送られてくる情報に従って入力音声に対して音声認識
を行い、その結果情報をメッセージ処理部11に通知す
る。
【0020】応用プログラム管理テーブル13は、音声
認識システム1と通信を行う全ての応用プログラム2に
関する情報を収納するテーブルである。このテーブル
は、音声が入力された際の認識対象語彙の決定や、認識
結果の送信先の決定に利用され、これにより音声認識シ
ステム1は同時に複数の応用プログラム2とのメッセー
ジ交換を行うことができる。また、応用プログラム管理
テーブル13は、プログラムID、入力マスク、認識対
象語彙リスト、音声入力フラグを持っている。プログラ
ムIDは、音声認識システム1により応用プログラム2
に対して一意に付けられる識別のための番号である。入
力マスクは、音声認識システム1から応用プログラム2
に送信するメッセージの種類を限定するものである。認
識語彙リストは、応用プログラム2が音声認識システム
1に対して要求した認識語彙が記述されるテーブルであ
る。音声入力時の認識対象語彙の決定に利用される。音
声入力フラグは、当該応用プログラム2に音声フォーカ
スが当たっているか否かを表している。なお、応用プロ
グラム2に音声フォーカスが当たるという言葉は、応用
プログラム2が音声入力対象となるということを意味す
るものとする。すなわち、音声フォーカスは、認識結果
の送信対象を特定するものである。
【0021】図2は音声認識部12の概略構成を示して
いる。
【0022】この場合、音声認識部12は、音声検出部
121、音声分析部122、認識辞書照合部123およ
び音声認識辞書124からなっている。
【0023】音声検出部121は、例えば一定時間間隔
ごとの入力音声のパワーをもとにして検出を行う方法
(永田、他“ワークステーションにおける音声認識機能
の開発”,電子情報通信学会技術報告、HC9119,
pp.63−70,(1991))が知られている。音
声分析部122は、音声検出部121で検出される音声
区間に対して、例えばFFTやバンドパスフィルタなど
を用いて周波数分析を行い、単語音声の特徴パラメータ
を抽出する。認識辞書照合部123は、音声分析部12
2からの出力パラメータを用いて、例えば複合類似度法
(上記の研究資料)やHMM、DPマッチングなどの手
法により認識辞書124との照合を行い、スコアの最も
高い語彙を認識結果として出力する。
【0024】そして、認識辞書照合部123では、音声
特徴パラメータと認識辞書124と照合を行う際、照合
前に無駄な処理を行わないため、その時点で認識辞書1
24のどの語彙と照合を行うべきかをメッセージ処理部
11に問い合わせ、その照会情報にしたがって認識辞書
124との照合処理を行う。そして、認識の成功失敗に
かかわらずその認識結果はメッセージ処理部11に送ら
れ、応用プログラム管理テーブル13の内容にしたがっ
て応用プログラム2に認識結果を送るようになる。
【0025】ここで、図2では、認識部の要素が全て一
体となっており、1つのプロセスとして動作可能である
が、図3に示すように音声検出部121を分離した構成
も可能である。音声検出部121と後続の音声分析部1
22、認識辞書照合部123を、例えばべつプロセスと
して両者の間のデータのやり取りをプロセス間通信によ
り行えば、音声検出部121を独立した形で扱うことが
でき、例えば、図4に示すように複数の音声検出部12
1からの出力を共通の音声分析部122、認識辞書照合
部123で扱うことができる。また、図5に示すように
音声検出部121と音声分析部122を一体にして、認
識辞書照合部123と認識辞書124を分離した構成も
可能である。
【0026】図6は応用プログラム2の概略構成を示し
ている。
【0027】この場合、応用プログラム2は、メッセー
ジ入出力部21およびプログラム本体22からなってい
る。メッセージ入出力部21は、音声認識システム1と
メッセージ交換を一括して行うもので、音声入力の標準
の手段を応用プログラム2の作成者に提供するものであ
る。また、複雑なメッセージ送受信規約を応用プログラ
ム作成者から隠蔽し、全ての応用プログラム作成者に統
一的に通信手続を提供するためでもある。プログラム本
体22は、応用プログラムに依存した処理の手続を行う
プログラムであり、応用プログラム固有の内部状態に従
った音声認識システム1に対する命令や、音声認識シス
テム1から音声認識結果を受け取った際の手続などを含
んでいる。
【0028】次に、このように構成した実施例の動作を
説明する。
【0029】この場合、音声認識システム1と応用プロ
グラム2との間の情報のやり取りは、メッセージ交換に
よって行う。ここで、メッセージとは、ある構成要素か
らほかの構成要素に渡されるコマンドやそのコマンドの
実行結果、音声認識結果などのデータを総称していう。
【0030】メッセージによる通信は、例えば音声認識
システム1をサーバ化し、また応用プログラム2を音声
認識システムのクライアントとし、その間をTPC、D
ECnet、Streamなどのバイトストリーム型の
プロトコルを利用して実装する。音声認識インターフェ
ースの各構成要素間で交換されるメッセージを、次に説
明する図7に示している。これらのメッセージの処理
は、すべて音声認識システムのメッセージ処理部11が
担当する。なお、上述の実施例では、図1の音声認識シ
ステム、全体が1つのプロセスとして実行するものとし
て説明したが、音声認識システムの構成要素である音声
認識部、メッセージ処理部、応用プログラム管理テーブ
ル、それぞれを別個のプログラムとして実行することも
可能である。
【0031】[音声認識システム1と応用プログラム2
の間のメッセージ]応用プログラム2から音声認識シス
テム1へのメッセージは、図7(a)に示すような種類
がある。これらは、基本的に、応用プログラム2から音
声認識システム1への命令を意味している。
【0032】ここで、通信路接続/切断要求は、応用プ
ログラム2が音声認識システム1とメッセージを交換す
るにあたって、その通信路を接続/解放する要求であ
る。音声認識辞書のロード/解放要求は、応用プログラ
ム2が利用したい語彙を含む音声認識辞書を音声認識シ
ステム1にロード/解放する要求である。認識語彙設定
要求は、応用プログラム2が、どの認識辞書のどの語彙
を使って認識を行うかを音声認識システム1に要求する
ものである。入力マスク設定要求は、応用プログラム2
が、音声認識システム1から受け取りたいメッセージの
種類を設定する要求である。入力タスク設定要求は、音
声フォーカスを、指定した応用プログラム2に変更する
要求である。認識開始/終了要求は、音声認識システム
1に対する音声認識開始/終了の要求である。
【0033】一方、音声認識システム1から応用プログ
ラム2へのメッセージは、図7(b)に示すような種類
があり、2つに分類できる。1つは、応用プログラム2
からの命令やデータの問い合わせなどの要求に対する応
答で、これは上記の要求メッセージに対応する。もう1
つのメッセージは、音声認識結果の情報や、音声認識シ
ステムの内部状態の変化にともない、音声認識システム
によって生成されるメッセージである。
【0034】ここで、音声認識結果は、音声認識システ
ム1が、応用プログラム2の設定要求をした認識語彙を
用いて認識した結果を通知するメッセージである。認識
が成功した場合には、すくなくとも1つの認識語彙を含
み、その語彙が何であるか、その語彙の持つ辞書はどれ
か、認識処理結果としての得点などの情報を含む。失敗
した場合には(音声レベルが高すぎたとか低すぎたな
ど)、失敗した原因に関する情報を持っている。入力タ
スク変更通知は、入力タスク設定要求などで音声フォー
カスが実際に変更された際に応用プログラム2に対して
送信されるメッセージで、変更される前のタスクIDお
よび変更後のタスクIDを含んでいる。認識辞書ロード
/解放通知は、認識辞書ロード/解放要求などで認識辞
書が新たにロードされたり解放された場合に送信される
メッセージである。通信路接続/切断の通知は、応用プ
ログラム2が音声認識システム1に対して通信路接続/
切断要求を発行した際に発生するメッセージである。応
用プログラム2が要求せずに一方的に通信路を切断した
場合にも発生する。認識語彙変更通知は、認識語彙設定
要求により各応用プログラムの認識語彙が変更された場
合に発生するメッセージである。
【0035】これらは、音声入力を受け付け音声認識を
行ったときや、音声フォーカスが変更されたときや、応
用プログラム2が音声認識システム1と接続したとき
や、認識語彙が変更されたときなど、音声認識システム
1から全ての応用プログラム2に送信できるものである
が、全てのメッセージを応用プログラム2が常時受け取
る必要はない。応用プログラム2が、どのメッセージを
受け取るかの設定は、各メッセージに対応する入力マス
クを音声認識システム1に通知する事で行う(入力マス
ク設定要求)。これによって応用プログラム2は、自分
の必要とするメッセージのみを音声認識システム1に通
知してもらうことができる。
【0036】図8は、入力マスクの種類を示している。
これらは応用プログラム2が受け取りたいメッセージの
種類に対応しており、同時に複数のマスクが設定できる
ものとする。
【0037】この設定を音声認識システム1に通知する
ことで、入力マスクに対応するメッセージが音声認識シ
ステム1の内部で生成される度にそれを受け取ることが
できる。例えば、音声認識結果マスクを設定すれば、音
声入力がなされる度に音声認識結果を得ることができる
ようになるし、入力タスク変更マスクを設定すれば、音
声フォーカスが変更される度に、それが応用プログラム
に通知されるようになる。
【0038】音声認識システム1と応用プログラム2の
間のメッセージとして、上記の2種類のメッセージ(要
求メッセージと応答メッセージ)以外に、エラーメッセ
ージが考えられる。エラーメッセージは、成功時には応
答を要しない応用プログラム2からの片道メッセージの
失敗や、認識システムにクリティカルな状態が発生した
ときにそれを通知するメッセージである。また、上述し
たメッセージ以外にも、音声認識システム1の内部情報
にアクセスするためのメッセージや、音声入力レベルを
変更するなど、音声認識システム1や音声入出力の設定
をするメッセージなどさまざまなメッセージが考えられ
る。
【0039】このように、応用プログラム2は、音声認
識システム1の内部状態の変化をメッセージの形で通知
させることができるため、それに基づいて音声認識シス
テム1を制御し、さらには他の応用プログラム2が制御
できるようになるため、自由度の高い、柔軟なインター
フェースを音声によって制御することができる。
【0040】さて、音声認識システム1は、メッセージ
処理部11と音声認識部12を有しているが、これらの
間もメッセージによって情報交換がなされる。なお、音
声認識システム1における応用プログラム2とのメッセ
ージは、その全てをメッセージ処理部11が取扱ってい
る。
【0041】[音声認識部12とメッセージ処理部11
の間のメッセージ]音声認識部12からメッセージ処理
部11へのメッセージは、図7(c)に示す種類があ
る。ここで、認識語彙照会要求は、音声認識システムに
音声が入力された時点で、入力音声とどの認識語彙との
照合を行うべきかを決定するために発行される要求であ
る。音声認識結果は、入力音声とその時点で認識すべき
認識語彙との照合結果をメッセージ処理部11に通知す
るものである。
【0042】一方、メッセージ処理部11から音声認識
部12へのメッセージは、図7(d)に示すような種類
がある。ここで、認識辞書ロード/解放要求は、応用プ
ログラム2が音声認識システム1に対して発行した認識
辞書ロード/解放要求がそのまま音声認識部12へ引き
渡された所のメッセージである。認識語彙情報は、音声
認識部12からメッセージ処理部11への認識語彙照会
要求に対する応答である。
【0043】このようにして、音声認識システムを構成
する各部において、メッセージをやりとりすることで、
処理が進められるが、次に、音声認識インターフェース
として、処理がどのように進められていくかを図9に従
い説明する。同図では、応用プログラム2が起動されて
から、最初に音声認識結果を受け取るまでのタイムチャ
ートを示している。
【0044】この場合、応用プログラム2は、まず音声
認識システム1との接続要求(a)を送る。接続が達成
されたならば、音声認識語彙を含む認識辞書ロード要求
(b)と、ロードした辞書中で音声入力に使いたい語彙
を認識語彙とする設定要求(c)を発行する。メッセー
ジ処理部11では、(a)に対しては応用プログラム2
との通信路接続処理を行って、その結果を応用プログラ
ム2に返す。(b)に対しては、メッセージをそのまま
音声認識部12に送って辞書がロードされるのを待ち、
辞書のロードの結果を応用プログラム2に返す。(c)
に対しては指定された認識語彙を応用プログラム管理テ
ーブル13に書込み、その処理結果を返す。認識対象語
彙が無事に設定されたならば、応用プログラム2は、入
力マスク設定要求(d)と入力タスク設定要求(e)を
送る。メッセージ処理部11では、(d)と(e)を受
けて、それぞれ応用プログラム管理テーブル13に書込
む。
【0045】以上が、音声認識システム1に対する応用
プログラム2からの初期設定要求となる。初期設定が終
わったならば、音声認識システム1からのメッセージ待
ちに入る。メッセージを待ちながら、応用プログラム2
固有のタスクに依存した処理などを行う。処理に伴う内
部状態の遷移などに従い、認識語彙を変更する要求や入
力タスクを自分自身や他の応用プログラム2に変更する
要求など、任意の要求を自分の処理に応じて音声認識シ
ステム1に送り、音声認識システム1を応用プログラム
2側から制御できるようにしている。
【0046】ここで、音声入力が応用プログラム2に対
して行われたとする。すると入力音声は、まず音声認識
部12において、音声区間の検出と分析が行なわれる。
音声認識部12は、音声分析を済ませたならば、その時
点で認識対象となっている語彙を知るために、メッセー
ジ処理部11に対して認識語彙照会要求(f)を送る。
メッセージ処理部11では、これを受信すると、応用プ
ログラム管理テーブル13を参照してこの場面で音声認
識処理を行うべき語彙を調べ、その結果である認識語彙
情報を音声認識部12に返す。音声認識部12では、
(g)により指定された認識対象語彙に対応する認識辞
書データと分析済みの分析データを照合し、その結果を
メッセージ処理部11に送る。メッセージ処理部11で
は、(g)のうちの1位の尤度をもつ語彙を応用プログ
ラム管理テーブル13の認識対象語彙中で探し、それを
持つ応用プログラム2の音声入力フラグが1であり、か
つ入力マスクとして認識結果通知マスクが設定されてい
たならば、その応用プログラムに対して認識結果を送信
する。
【0047】図9で説明した処理を、さらに具体例を用
いて説明する。
【0048】音声認識システム1と接続している応用プ
ログラム2がシェルツールとテキストエディタの2つで
あった場合の応用プログラム管理テーブル13は、図1
0(a)に示すようになる。
【0049】ここで新しくメールツールを起動する際の
処理を説明する。起動されたメールツールが、まず通信
路接続要求(a)を送信すると、応用プログラム管理テ
ーブル13にメールツール用の領域が取られ、メールツ
ールのプログラムIDが付けられる。プログラムID
は、例えば応用プログラム2の起動順に0から付けられ
るとする。次に認識辞書ロード要求(b)を送る。ここ
では認識辞書はすでにロードされており、音声認識シス
テム1は、そのことを応用プログラム2に知らせる。次
に、認識語彙設定要求(c)で認識語彙として「先頭」
「最後」「前」「次」「送信」「終了」を送り、入力マ
スクとして認識結果通知マスクを送る(d)。入力タス
ク設定要求(e)として、現在当たっている全ての音声
フォーカスを無効にし、音声フォーカスをメールツール
に当てる要求をする。
【0050】なお、本実施例では、1つの認識辞書をす
べての応用プログラム2で共通に使うこととし、従っ
て、図10においては、複数の辞書を利用する場合に必
要となる各語彙がどの辞書に含まれるかを示す情報を省
略する。
【0051】以上の処理により、応用プログラム管理テ
ーブル13は、図10(b)のようになり、シェルツー
ルに当たっていた音声フォーカスは、新たに起動された
メールツールに変更され、メールツールは音声入力が可
能な状態になる。
【0052】ここで、例えば「次」という音声が入力さ
れたとする。入力された音声は、音声認識部12におい
て音声区間検出と分析処理を施され、音声特徴パラメー
タが求められる。音声認識部12は、この音声特徴パラ
メータと照合する辞書データを知るべく、メッセージ処
理部11に対して認識語彙照合要求(f)を送る。この
要求を受けたメッセージ処理部11は、応用プログラム
管理テーブル13を参照してその時点での認識対象語彙
を知る。ここでは、音声入力フラグが1であり、かつ入
力マスクに認識結果通知マスクが設定されているメール
ツールの認識対象語彙リスト中の全ての語彙「先頭」
「最後」「前」「次」「送信」「終了」がその時点で入
力可能な語彙となる。これら6つの語彙が音声認識部1
2に通知され、音声認識部12は、これら語彙に関する
辞書データと分析された特徴パラメータに対して照合処
理を行い、その結果をメッセージ処理部11に送る
(g)。メッセージ処理部11は、認識結果を受けとる
と、応用プログラム2中の音声入力フラグが1であり、
かつ入力マスクに認識結果通知マスクが設定されている
応用プログラム2の認識対象語彙リスト中に認識結果の
語彙を探し、発見したならばその認識結果をその語彙リ
ストを持つ応用プログラム2に対して送信する。
【0053】先の音声入力の認識結果が「次」であった
場合には、メールツールに送信されることになる。
「次」という認識結果をメッセージ入出力部21を介し
て受けとった応用プログラム2は、例えば現在表示して
いる受信メールの次のメールを表示するといった処理を
行う。
【0054】図10(a)(b)では、シェルツールの
入力マスクとして、認識結果通知マスクが設定されてい
る。このマスクにより音声フォーカスの変更が発生する
度にそれが通知されるようになる。
【0055】上述の例では、メールツールからの入力タ
スク設定要求(e)を音声認識システム1が受信し、メ
ッセージ処理部11が音声フォーカスの変更を行ったと
きに入力タスク変更通知のメッセージがシェルツールに
送られる。認識結果通知マスク以外の入力マスクは音声
入力フラグの値に依存していないため、入力タスク変更
マスクが設定されていれば、音声入力フラグの値に関係
なく、音声フォーカスの変更メッセージが、それが起き
る度に応用プログラム2に通知される。応用プログラム
2は、このような音声認識システム1の内部状態の変化
をメッセージを介して知ることで、様々な柔軟な処理を
することができる。例えば、シェルツールは、音声フォ
ーカスを失ったことを利用者に画面表示や合成音声また
ビープ音などを通じて知らせることができる。
【0056】このようにして、応用プログラム2は、メ
ッセージを通じて音声認識システム1を自由に制御でき
るようになり、応用プログラム主導の柔軟な音声認識イ
ンターフェースが得られることになる。
【0057】従って、第1実施例によれば、複数の応用
プログラム2が同時に平行して動作するマルチタスク環
境において、各応用プログラム2が音声認識システム1
と通信により直接メッセージ交換を行い、認識語彙や認
識結果などのデータを直接相互に交換できるため、全て
の応用プログラム2にキーボードやマウスなどの様に、
音声入力を標準的な入力手段として装備することができ
るため、ワークステーションなどのマルチタスク環境に
おける音声入力の本格的な利用が可能となり、音声を含
めたマンマシンインタフェースの使い勝手の向上が期待
できることになる。
【0058】なお、本実施例は、孤立単語認識を応用し
た音声認識インターフェースの実施例であったが、連続
単語音声認識や連続音声認識を応用することも可能であ
る。 (第2実施例)同第2実施例では、マルチタスクの計算
機環境において、ウィンドウシステムを同時に利用する
ことで、ユーザの利用環境の向上を可能にしている。
【0059】ウィンドウシステムを同時に利用する場合
の構成を図11に示している。この場合、音声入力を扱
う音声認識システム3と、キーボード入力およびマウス
入力を扱うウィンドウシステム4と、これら音声認識シ
ステム3およびウィンドウシステム4と相互にメッセー
ジを通信する1つ以上の応用プログラム5からなってい
る。つまり、同実施例では、上述の第1実施例にウィン
ドウシステムを追加し、応用プログラムにウィンドウシ
ステムとの間の通信手段を持たせるようにしている。
【0060】ウィンドウシステム4と音声認識システム
と3は、相互に独立している。また、ウィンドウシステ
ム4と応用プログラム5との間のメッセージは、マルチ
ウィンドウ環境におけるウィンドウの生成や、キーボー
ド入力やマウス入力などの処理に関するものである。
【0061】本実施例を説明する前に、マルチウィンド
ウを実現するウィンドウシステムについて簡単に説明す
る。ワークステーションなどのマルチタスクの計算機環
境でマルチウィンドウを実現するウィンドウシステム
は、その環境下で動作する複数の応用プログラムと通信
し、各々の応用プログラムをビットマップディスプレイ
と呼ばれる表示画面に抽象化して表示される。そこで
は、応用プログラムごとに基本的に1つのウィンドウが
割り当てられる。
【0062】図12は、一般的なウィンドウシステムの
画面表示例である。この例では、A,B,Cの3つの応
用プログラムが平行して動作している。ウィンドウシス
テムは、キーボードやマウスなどの入力装置を管理し、
複数の応用プログラムに入力装置を共有させる。マウス
画面中では、矢印型のマウスポインタとして抽象化され
ており、ウィンドウの操作や入力対象の指定などに使わ
れる。
【0063】なお、本願の実施例では専ら、ポインティ
ングデバイスとしてマウスを利用した説明をしている
が、ペンやタッチパネルなど他のポインティングデバイ
スを用いることも可能であり、全ての実施例における記
述はこれら他のポインティングデバイスについても全く
同様に適用できる。
【0064】キーボード入力を行う対象は、キーボード
フォーカスによる。キーボードフォーカスは一般的にマ
ウスポインタによって指定される。キーボードフォーカ
スの当たっている応用プログラムは、ウィンドウ枠がそ
れ以外のウィンドウより太くしたり、ウィンドウ上部の
タイトルバーの色を変えることで表現される。図12で
は、応用プログラムBにキーボードフォーカスが当たっ
ている様子を示す。キーボードフォーカスは一般に常に
1つのウィンドウにだけ当てられる。
【0065】ここで、第1実施例で述べた3つのプログ
ラム、つまりシェルツール、テキストディタ、メールツ
ールを再び利用して説明する。この場合、各プログラム
は、ウィンドウシステムによって各々1つのウィンドウ
として抽象化され表現される。また、音声認識システム
とも通信を行い、起動時に音声認識システムに対して第
1実施例で示した手順をもって認識語彙を設定する。各
応用プログラムの認識語彙は同じく図13に示す通りで
ある。
【0066】一般に既存のウィンドウシステムにおい
て、応用プログラムは、キーボードフォーカスの変更の
通知が受け取られる。キーボードの入力対象と音声の入
力対象を同じ応用プログラムにするために、応用プログ
ラムはキーボードフォーカスが当たったならば、音声認
識システムに対し、自身に音声フォーカスを当てる要求
をし、外れたならば音声フォーカスをはずす要求をす
る。これは、第1実施例で述べた、入力タスク変更要求
を送信することで可能となる。以下ではキーボードフォ
ーカスと音声フォーカスを一致したものとして扱い、そ
れを入力フォーカスと呼ぶ。入力フォーカスはマウスに
よって操作する。
【0067】入力フォーカスの移動に伴う音声認識語彙
の変化を図14に示している。この場合、図14(a)
は状態1、図14(b)は状態2を示すもので、入力フ
ォーカス(それと同時に音声フォーカスも)がテキスト
エディタに当たっている。従って、この状態で認識可能
な語彙は、テキストエディタの認識語彙である、「カッ
ト」「コピー」「ペースト」「解消」「終了」の5つで
ある。ここではユーザはこの5つの語彙を発声すると、
音声認識結果がテキストエディタに送られるということ
である。マウスポインタによりシェルツールを指定する
と、入力フォーカスはシェルツールに移動し(それと同
時に音声フォーカスもシェルツールに移動し)認識可能
な語彙は、シェルツールの認識語彙である「ヒストリ」
「リスト」「ホーム」「プロセス」「終了」の5つに変
化する。
【0068】音声認識語彙として何を使うかは自由であ
り、応用プログラム毎の認識語彙をユーザが記憶、判断
することは、ユーザへの大きな負担となる。しかし、個
々の応用プログラムに認識語彙の表示を可能にする手段
をもたせるのは逆に応用プログラムの作成者にとって負
担となる。また、音声入力は、キーボードなどの入力手
段と違って暖味性があるため、入力音声が正しく認識さ
れたかをユーザが確認できることが重要となってくる。
【0069】この問題を解決する手段として、音声認識
インタフェースに標準的な応用プログラムとして、図1
5に示すような、認識語彙を表示するプログラム(語彙
表示プログラム)を作成することが考えられる。このプ
ログラムは、全ての応用プログラムが、新規の応用プロ
グラムが通信路を接続/切断したり、語彙の変更を要求
したり、音声フォーカスの変更をする度に、自身に、そ
れらの要求により発生するメッセージを送信するように
要求する(すなわちそれを受け取る入力マスクを設定す
る)。語彙表示プログラムは、常に、その時点で認識可
能な語彙をすべて表示できる。また、音声が認識される
度に、それを知り、応用プログラムに送信された認識結
果を、例えば図15のように色を変えて表示すること
で、音声認識システムが受け付けた音声入力を確認でき
る。認識語彙表示プログラムにより、応用プログラムの
使用者と作成者の双方の負担を軽減し、より使いやすい
音声入力環境をユーザに提供できる。
【0070】また、語彙表示プログラムのリスト中の色
を変える以外に、認識結果は別の方法によっても、使用
者に通知できる。
【0071】例えば、ディスプレイのスクリーン、ある
いはアプリケーションのウインドウの特定の位置に認識
結果を表示させる方法もある。この表示部分は、アプリ
ケーションごとに持つことも音声認識システム自身が所
有していてもよい。ウインドウシステム環境下では、認
識結果表示用のウインドウを作成しておき、アプリケー
ションのウインドウの中央部や上下左右などの周囲の部
分あるいはマウスなどのポインタ、キーボード入力のカ
ーソルなどの付近など、特定の位置に表示させるように
位置調節をすればよい。
【0072】また認識結果は、次の認識結果が得られる
まで表示し続けてもよいし、認識結果が得られた直後だ
け表示し、ある時間が経過した後は、次の認識結果が得
られるまで表示させないようにしておいてもよい。特に
マウスなどのポインタやキーボード入力のカーソルの付
近は、視線の移動がわずかで済む利点がある反面、作業
している領域の近くで常時表示させると作業の妨げにな
る場合もあるので、認識結果が得られた直後だけ表示す
るのは有効である。これとスクリーンやアプリケーショ
ンの特定位置に認識結果を常時表示させる方法と併用し
てもよい。
【0073】応用プログラム間だけではなく、1つの応
用プログラム内でも、そのマウスの位置によって音声認
識語彙を変更することで、必要以上の認識処理を減ら
し、音声入力をより確実なものにできる。例えば、図1
6(a)および同図(b)に示すように、メールツール
をリスト表示部とテキスト表示部の2つに分割し、その
どちらにマウスポインタがあるかによって認識語彙(こ
こでは認識語彙は8つである)を変える。こうすること
で、必要以上の無駄な認識処理をおさえるとともに、入
力音声の認識誤りを起こりにくくすることができるとい
う効果がある。
【0074】また、第1実施例では、新たなアプリケー
ションが起動されると、そのアプリケーションに音声フ
ォーカスが移ることを説明した。同様にアプリケーショ
ンの起動、終了時あるいは、マウス、ペンなどのポイン
ティングデバイス、キーボードなどの入力操作や音声認
識の結果を受けて実行される処理の結果として、アプリ
ケーションのウインドウ状態変化がある(ウインドウが
生成破壊、ジオメトリ変更された)場合には、音声フォ
ーカスの移動を行う規則を作ることにより使い勝手を向
上させることができる。
【0075】例えば、「ウインドウの破壊、アイコン
化、ウインドウが他のウインドウに隠れる、等の場合音
声フォーカスを失い、ウインドウの生成、非表示状態か
ら表示状態への変更、ウインドウが他のウインドウの上
に表示される、ウインドウの大きさを大きくする、等の
場合音声フォーカスを獲得する。」、というような規則
に従い、各アプリケーション内部でウインドウ状態変化
に応じて、フォーカスの獲得・消去を行う。勿論、この
ような、ウインドウ状態変化は個々のアプリケーション
が個別に管理しなくても、音声フォーカスの管理を行う
プログラムにより一括管理してもよい。この場合、この
管理プログラムは、ウインドウシステムを管理するプロ
グラム(例えば、システムのウインドウサーバ)に管理
したいアプリケーションのウインドウの状態変化を知ら
せてもらい、その通知を受けた時に上述のような規則を
適用して、音声フォーカスを変更すればよい。
【0076】また、音声フォーカス管理プログラムがあ
れば、音声フォーカスを獲得していたアプリケーション
がアプリケーションの終了、ウインドウの破壊などにと
もない音声フォーカスを失った場合も、どのアプリケー
ションに音声フォーカスを移すかに関して、同様に規則
を作り、使い勝手を向上させることができる。
【0077】例えば、「音声フォーカスの履歴を音声フ
ォーカス管理プログラムが保持しておき、音声フォーカ
スを獲得していたアプリケーションが音声フォーカスを
消失した場合、その消失原因が他のアプリケーションの
フォーカス獲得要求によるものでないならば、それ以前
に音声フォーカスを獲得していたアプリケーションにフ
ォーカスを戻す。」、という規則を作り、音声フォーカ
ス管理プログラムがこれに従って、音声フォーカスを変
更させれば、音声フォーカスを獲得しているアプリケー
ションが1つもない状態、すなわち音声認識ステムの出
力をどのアプリケーションも受け取らない状態を回避す
ることができる。
【0078】なお、本実施例においては、音声認識シス
テムとウインドウシステムを独立した構成としたが、両
システムを統合した形態の音声認識インターフェースの
実現も可能である。
【0079】(第3実施例)第2実施例では、音声認識
システムとウィンドウシステムを組み合わせ、音声フォ
ーカスとキーボードフォーカスを一致させて、1つの入
力フォーカスとし、入力フォーカスをマウスポインタで
指定することで、音声認識対象語彙を変更した。しか
し、これでは入力フォーカスを変更する度にキーボード
から手を離さなければならない。入力フォーカスの変更
を音声で可能にすることでユーザはキーボードから手を
離さずに入力タスクを変更し、ユーザのマルチウインド
ウ環境における使い勝手の向上を期待できる。
【0080】入力フォーカスを音声入力で変更可能にす
るため、実施例1を拡張して各認識語彙に対してローカ
ルとグローバルの2つの値を設定できるようにする。ロ
ーカルな認識語彙とは、それによる認識設定をした応用
プログラムに音声フォーカスが当たっている際に認識す
るような語彙であり、グローバルな認識語彙とは、音声
フォーカスがどの応用プログラムに当たっているかにか
かわらず、認識対象となるような語彙である。
【0081】ここで、再び3つの応用プログラム(シェ
ルツール、テキストエディタ、メールツール)を使って
説明する。
【0082】各応用プログラムの認識語彙は、図17に
示す通りである。ローカル/グローバル設定にともない
応用プログラム管理テーブル中の認識対象語彙リスト中
の語彙のそれぞれにローカル/グローバルを示すフラグ
を設ける。応用プログラム管理テーブルは、図18に示
すようになる。音声入力が与えられたときに、メッセー
ジ処理部は、この応用プログラム管理テーブルを使って
認識語彙を次のように求める。まず、応用管理テーブル
を参照して音声フォーカスの当たっている応用プログラ
ムのローカル認識語彙を拾い出す。次いで全ての応用プ
ログラムのグローバル認識語彙を拾い集める。これらが
その時点での認識システムが認識可能とする語彙であ
る。例えば、テキストエディタに音声フォーカスが当た
っているとすると、その時点での認識語彙は「カット」
「コピー」「ペースト」「取消し」「終了」「シェルツ
ール」「メールツール」「テキストエディタ」の8つで
ある。ここで、「カット」「コピー」「ペースト」「取
消し」「終了」「テキストエディタ」の発声に対する認
識結果は、テキストエディタに送付され、「メールツー
ル」「シェルツール」は、それぞれメールツール、シェ
ルツールに送信される。例えば、この状態でメールツー
ルを発声した時に、メールツールの中で入力フォーカス
(音声フォーカスとキーボードフォーカス)を自分自身
に変更すれば、音声入力とキー入力の対象をキーボード
から手を離すことなく変更できる。
【0083】これは、換言すれば、ウインドウに名前を
付けると言うことである。このウンドウ名はウインドウ
の上部のタイトル表示部に表示すれば、ユーザは、それ
によってウインドウを何と呼べばよいかわかる。
【0084】以上のように、本実施例では、認識語彙に
ローカル/グローバルの属性を与えることで、ウィンド
ウに名前を付け、その名前を発声することで手を使わず
にフォーカスの変更が可能となり、応用プログラムを切
り替えることが可能となる。 (第4実施例)第2、3実施例では、音声フォーカスと
キーボードフォーカスを一致させ、同時に1つのウイン
ドウだけが両者の入力を排他的に受け付けるようにし
た。
【0085】この2つの入力フォーカスを一致させるこ
とで1つの応用プログラムが両方の入力から一手に引き
受けることができた反面、2つの入力手段がありながら
それぞれ別々の応用プログラムに対する入力をできなか
った。本実施例では、この2つのフォーカスを分離する
ために音声フォーカスをマウスポインタによって直接操
作しないようにする(キーボードフォーカスは、マウス
ポインタを使う。)。マウスポインタがウインドウに入
り、それが応用プログラムに通知されても、応用プログ
ラムは音声フォーカスを移動させない。この場合は、音
声フォーカスは、第3実施例で述べたようにウインドウ
に名前を付け、それぞれグローバル認識語彙とし、その
名前で発声することで変更できる。
【0086】入力フォーカスを分離した際、その2つの
フォーカスをユーザに分かりやすく呈示しなければ、ユ
ーザが入力する際に混乱してしまう。本実施例では、キ
ーボードフォーカスをウインドウ枠を太くすることで表
示し、音声フォーカスをウィンドウタイトルの色を変化
させることで示すこととする。
【0087】図19は、入力フォーカスを2つに分離
し、それぞれを別々に移動させた場合の例である。同図
(a)では、両フォーカスは、どちらもテキストエディ
タに当たっている。メールツールをマウスポインタで指
定すると、キーボードフォーカスはメールツールに移動
するが、音声フォーカスは、テキストエディタに当たっ
たままである同図(b)。同図(a)の状態から、「メ
ールツール」音声入力を行うと、音声フォーカスがメー
ルツールに移動するが、キーボードフォーカスはそのま
まである。同図(b)および(c)において、キーボー
ドフォーカスと音声フォーカスは、それぞれ個別の応用
プログラムに当たっているため、まったく同時に別々の
入力チャンネルを通じて2つの応用プログラムを操作で
きる。例えば、同図(c)の状態にすることで、テキス
トエディタに対してキーボードで文章を打ち込みながら
メールツールを音声で操作し、受信した電子メールを読
むことができる。
【0088】また、音声フォーカスをコントロールする
応用プログラム、音声フォーカスマネージャを作成し、
これにより音声フォーカスを音声以外の手段で移動でき
るようにもしている。図19の右側が音声フォーカスマ
ネージャを示してており、この音声フォーカスマネージ
ャは、同時に動作している応用プログラムの状態を音声
認識システムと通信することで知り、リストなどの形で
表示する。
【0089】音声フォーカスは、例えば応用プログラム
名を反転表示することで表現し、これらリスト上をマウ
スポインタで指定することで音声フォーカスが変更でき
るようになる。また、応用プログラムに入力可能な手段
は、キーボードや音声以外にもペンなども考えられる。
応用プログラムに入力可能な手段および何が入力できる
かを表示すればユーザの使い勝手が向上できる。例え
ば、入力可能性を手段別にアイコン化することで表示す
る。
【0090】このように、音声入力対象と音声以外の手
段による入力対象を別々に分離することで、複数の入力
手段を複数の応用プログラムに割り当て、人間が自然の
形の作業を平行して行うことができるようになる。
【0091】(第5実施例)図20は、同実施例の概略
構成を示している。この場合、音声認識システム6に対
して複数の応用プログラム7を接続している。そして、
これら応用プログラム7には、それぞれメッセージ入出
力部71を有している。
【0092】しかして、音声認識システム6は、音声入
力があるごとに、その音声に対して認識処理を行い、そ
の認識結果を応用プログラム7に送信する。応用プログ
ラム7は、音声認識システム6に対して認識対象語彙を
通知し、音声認識システム6は、それを用いて認識処理
した結果を応用プログラム7に送信する。
【0093】応用プログラム7は、メッセージ入出力部
71を有していて、このメッセージ入出力部71は、応
用プログラム7が認識結果を受け取るか否かを決定し、
その要求を音声認識システム6に対して行う。メッセー
ジ入出力部71は、応用プログラム7の指示によって音
声認識システム6に対して応用プログラム7のための音
声認識を行う要求をしたり、音声認識システム6から送
信された認識結果を受けて応用プログラム7に渡した
り、ブロックして渡さなかったりする。また、認識対象
語彙を変更できる。
【0094】応用プログラム7がメッセージ入出力部7
1を持つことで、応用プログラム7は、外部からの働き
掛けによらず、自分の状態にしたがって音声入力(認識
結果)を受けとったり、受けとらなかったりできる。
【0095】例えば、音声による制御が可能な電子メー
ルシステム(音声メールと称する。)の例を挙げると、
音声の誤認識による誤動作を防止するため、音声入力が
不能な状態で音声メールを起動、動作させておく。音声
メールがメールをうけとると、例えば「新しいメールを
受信しました。いますぐお読みになりますか。」と合成
音声を出力して知らせ、「はい」「いいえ」などの確認
を取るための認識対象語彙と、それにより音声認識する
ことを音声認識システム6に通知する。ユーザが「は
い」といったならば、新しく受信したメールを表示した
り、合成音声によりメールを読み上げたりする。「いい
え」といったならば、音声メールは音声認識システム6
に対して音声認識結果を受けとらないように要求し、元
の状態に戻る。
【0096】「新しくメッセージを…」のメッセージ
は、合成音声でなく、図21のように表示してもよい。
同図での「はい」「いいえ」は、マウスなどでも操作を
可能とするためである。
【0097】また、図20において、1つの応用プログ
ラム7のメッセージ入出力部71に、他の応用プログラ
ム7の音声入力を可能にしたり、ブロックしたりする機
能を与えれば、電子メールの例で言えば、確認のための
音声入力を待つ間、電子メールは、他の音声によって制
御が可能な応用プログラム7の音声入力を一時的にブロ
ックし、確認が終わった時に戻すような操作が可能にな
る。
【0098】応用プログラム7による、こうした他応用
プログラム7の音声入力をブロックする操作が競合した
場合には、時間的に後にブロックモードになった応用プ
ログラム7は、先にブロックモードになった応用プログ
ラム7のブロック解除を待つ操作ができる。
【0099】このように音声認識システム6でなく、応
用プログラム7にタスクの管理を可能にする手段を持た
せることにより、応用プログラム7が音声認識システム
6の指示に従うだけでなく、応用プログラム7独自の内
容状態に従って音声入力を利用できる。
【0100】また、ある特定の応用プログラム7に他の
全ての応用プログラム7のタスクの管理(音声認識結果
を送るか否か、どの認識対象語彙により音声認識を行う
か否かなどの処理)を行わせることもできる。
【0101】図22は、ワークステーションなどのマル
チウィンドウ環境で、音声により操作できるメールツー
ル、シェルツール、テキストエディタおよびタスク管理
プログラムを示している。ここでは、どれか1つの応用
プログラム7が音声入力を可能としている。この場合、
テキストウディタが音声入力対象となっている(タイト
ルの色の変更によりそれが表示されている。)。そし
て、音声入力対象となっていることは、タスク管理プロ
グラムでも同様に表示することができる。この例では、
音声入力対象の変更は、タスク管理プログラムの表示の
上をマウスなどのポインティングデバイスを利用して指
定することができる。
【0102】(第6実施例)実施例5では、1つの応用
プログラム7だけを音声入力対象としたが、複数の応用
プログラム7を同時に認識対象することも可能である。
【0103】図20の音声認識システム6に、例えば図
23に示すような応用プログラム管理テーブルを持たせ
る。この応用プログラム管理テーブルは、音声認識シス
テム6に接続している全ての応用プログラム7に関して
認識の可否および認識対象語彙に関する情報を持つ。
【0104】このテーブルの情報の変更は、各応用プロ
グラム7のメッセージ入出力部71からの要求によって
行う。図23では、メールツールとシェルツールが音声
入力可能になっている。図23の状態は、例えば図24
に示すように表現できる。
【0105】ここで音声認識システム6は、「プロセ
ス」「ホーム」といった音声入力は、シェルツールに送
り、「先頭」「次」といった音声入力は、メールツール
に送るといったように、認識した結果を自動的に振り分
けることができる。また、「終了」は、メールツールと
シェルツールに同時に送ることができるため、各応用プ
ログラム7はそれを受け取って応用プログラム7自身を
終了させることができる。
【0106】さらに、複数の応用プログラム7を音声入
力対象とすることを前提とすれば、次のような操作が可
能になる。図25は、タスク管理プログラムの機能を拡
張した例である。「排他制御」は従来あるように音声入
力対象の応用プログラム7を常に一つにする機能であ
る。「全部」は、音声認識システム6に接続されている
全ての応用プログラム7を音声入力対象とする機能であ
る。「反転」は音声入力対象を逆転させる機能であり、
メールツールとシェルツールが音声入力対象となった状
態で「反転」することで音声入力対象がエキストエディ
タとなる。もう一度「反転」すれば元に戻る。これらの
操作は、マウスのようなポインティングデバイスだけで
なく、音声やキーなどの入力装置により可能である。例
えば、何等かのキーボタンやキーを押しながら音声入力
する。
【0107】「全部」ボタンを押しながら発声すると、
全部の応用プログラム7が音声入力対象となり、「反
転」ボタンを押しながら発声すると、音声入力対象が反
転し、ボタンを離すとそれらの状態は元に戻る。
【0108】特定の1つの対象を指定しないまま入力
し、その入力が適切に処理されることが本実施例では可
能になる。ワークステーションなどのマルチウインドウ
環境を考えると、その上で例え音声による操作が可能な
応用プログラム7が複数動作していたとしても、対計算
機ということを考えれば、人間の相手は1つであり、計
算機も相手の発声をタスク切換えなどの特別な操作をす
ることなく、自動的に適切に処理されることを人間が期
待するのは自然のことであり、音声メディアの特性を活
かすことになるといえる。
【0109】(第7実施例)上述の第6実施例におい
て、各応用プログラム7の認識対象語彙が何であるかは
分からない。そのため、タスク管理プログラム(あるい
は別の応用プログラム7にしてもよい)に各応用プログ
ラム7の認識対象語彙を表示させる。応用プログラム7
は音声認識システム6に対して、音声認識システム6の
持つ応用プログラム管理テーブル(図23)の情報を要
求することで、その表示が可能である(図26)。
【0110】このように音声入力対象となった応用プロ
グラム7の認識対象語彙を自動的に表示することで、ユ
ーザが各応用プログラム7ごとに入力に使用する認識対
象語彙を記憶する必要がなくなり、ユーザの負担が少な
くなる。また、応用プログラム7の作成者の側にも認識
対象語彙を表示させる手段を用意する必要がなくなる
分、負担解消が計れる。これはまた、例えば、入力対象
の応用プログラム7の表示と一緒に表示できる(図2
7)。図27では、メールツールとシェルツールの色の
変化を持って、それらが入力対象となっていることが表
示されている。
【0111】(第8実施例)複数の応用プログラム7の
制御は、画面の表示やマウスなどのポインティングデバ
イスを必ずしも必要としていない。例えば、音声による
ビデオ予約が可能なVTR制御プログラムを電話でコン
トロールしている際に、第5実施例で述べた音声メール
プログラムがVTR制御プログラムの処理に一時的に割
り込み、「緊急のメール受信しました。ないようを確認
しますか」と合成音声を出力して知らせることができ
る。この確認を受けた利用者は、受信したメールの内容
を合成音声により知ることができる。
【0112】メールによる作業が終わると、ビデオ予約
の作業が再開される。VTR制御プログラムは、作業中
断に備えて「予約内容確認」などの語彙とともに、中断
前までに行われた予約内容を確認できれば、より使いや
すいインターフェースとなる。電話の場合、音声だけで
なく、電話のプッシュボタンなどの入力装置が利用でき
る。音声入力の自然な性質を活かしながら、例えば環境
の雑音が一時的に増大し、音声による入力が疎外される
ような場合には、適宜プッシュボタンなどを利用して入
力を確実にすることができる。
【0113】(第9実施例)次に、本発明による音声認
識プログラムによる認識語彙の学習に関する実施例につ
いて説明する。
【0114】従来、認識語彙の学習の際は、学習語彙の
一覧表の中から利用者が学習させたい語彙を選択する
が、語彙が多い場合、選択したい語彙を探すのに手間が
かかり、使い勝手を悪化させていた。例えばワークステ
ーション用に発売されている音声認識装置における学習
プログラムでは、様々な応用プログラムで使用する認識
語彙がすべて表示されるため学習させたい語彙を数百の
単語リストから選ばなければならなかった。
【0115】本実施例では、応用プログラムからの認識
語彙情報を利用することにより、利用者に提示する単語
一覧の語彙数を少なくして容易に目的の語彙を選択する
ようにでき、また、応用プログラム使用中であってもそ
の場で学習を行うことができるようにしている。
【0116】同実施例は、図28に示すように図1で述
べた音声認識システム1と応用プログラム2に学習デー
タ収集部8と辞書作成部9を加えた構成からなってい
る。
【0117】ここで、学習データ収集部8は、音声認識
システム1とメッセージ交換を行って応用プログラム2
に関する語彙情報を受け取り、利用者への語彙表示を行
って認識語彙を選択させる。また、学習に必要な設定、
例えば、学習データの出力を行うように音声認識システ
ム1へ要求し、受け取ったデータをファイルに保存す
る。辞書作成部9は上記ファイルを入力として認識辞書
の作成を行う。
【0118】以上の動作を行うために、学習データ収集
部8は、図29に示すように単語音声特徴データ保存部
81、学習語彙表示選択部82、学習データ収集制御部
83、学習語彙ガイド表示部84から構成している。
【0119】ここで、学習語彙表示選択部82は、語彙
を利用者に表示して学習語彙を選択させるもので、内部
に有する学習語彙テーブル821に音声認識システム1
から送られて来る応用プログラム2の認識語彙を記憶す
るようにしている。学習語彙テーブル821は、例えば
文書編集に使うコマンド群が認識対象になっている場合
は、 音声認識対象語彙:取り消し、カット、コピー、ペース
ト、フォント のようになっていて、この内容が、例えば図33のよう
に表示され、利用者が応用プログラムを使用しているそ
の場で目的の語彙を選択することができる。表示される
語彙は応用プログラムの内部状態に応じて必要とされる
認識対象の語彙のみであるため、全部をまとめて表示す
るよりも非常に少なくすることができ、容易に目的の語
彙を選択可能である。単語音声特徴データ保存部81
は、メッセージ処理部を介して音声認識システム1から
送られてくる単語音声特徴データを、例えば磁気ディス
クなどに保存する。学習データ収集制御部83は、デー
タ収集の全体制御を行い、データ収集の開始/終了を示
すためのデータ収集指示フラグを持つ。音声認識システ
ム1との間のメッセージ交換は、図30に示すメッセー
ジを用いて行うことができる。
【0120】学習データ収集のため、音声認識システム
1では、音声認識を行って認識結果を応用プログラム2
へ送る通常の認識動作の他、音声分析の結果得られる単
語音声特徴データをデータ収集部8へ返すデータ収集動
作の2つの動作モードを行うことが可能であり、以下で
は各々の動作を認識モード、学習モードと呼ぶことにす
る。
【0121】次に、図31、図32を参照しながらデー
タ収集の手順について説明する。
【0122】図31は、音声認識システム1のデータ収
集時のフローチャートである。
【0123】この場合、学習を行う前に音声認識システ
ムでは、応用プログラムとの通信により、すでに認識語
彙が設定されているものとする(ステップ3101)。
そして、データ収集部8からの学習モード設定要求メッ
セージを受信すると(ステップ3102)、学習に必要
な動作を行う(ステップ3103)。
【0124】学習に必要な動作は、例えば設定されてい
る語彙のセットをデータ収集中保持するために音声フォ
ーカスを移らないようにしたり、収集中に認識結果を応
用プログラムへ送って認識結果によって応用プログラム
2の状態が変化して設定語彙が変化しないようにデータ
収集中、認識結果を応用プログラム2へ送らないように
することなどがある。
【0125】次に、音声認識システム1は、データ収集
部8へ認識対象語彙のリストを送信した後(ステップ3
104)、データ収集部8からのメッセージを受信し
(ステップ3105)、それが音声特徴データ送信要求
であれば、音声入力がおこなわれる度に特徴データをデ
ータ収集部8へ送信し(ステップ3107)、学習モー
ド解除要求であれば、学習モードを解除を行い通常の認
識モードに戻る(ステップ3108)。
【0126】図32は、学習データ収集部のフローチャ
ートである。
【0127】まず、初期状態としてデータ収集の実行を
指示するフラグにOFFが設定されている(ステップ3
200)。ユーザによりデータ収集がONにセットされ
ると音声認識システム1へ学習モード設定要求のメッセ
ージを送る(ステップ3201)。次に音声認識システ
ム1にその時の認識対象語彙を要求し、語彙を学習語彙
表示選択部82の学習語彙テーブル821に記憶させ
る。
【0128】学習語彙ガイド表示部84は、例えば図3
3のように表示し(ステップ3202)、学習語彙をマ
ウスなどを用いて選択させる(ステップ3203)。選
択語彙は複数でもよく、例えば選択した語彙の背景色が
白から緑に変化して見易くすることができる。図33
は、文書編集メニューの語彙の中から「コピー」と「ペ
ースト」を学習語彙として選択した場合を図示してい
る。
【0129】次に、単語音声特徴データ送信要求を音声
認識システム1に出した後(ステップ3204)、学習
語彙の発声を促すための発声すべき語彙の表示が学習ガ
イド表示部84によって図34のようになされる(ステ
ップ3205)。この場合、ガイドはなくすことも可能
である。また、補助情報として発声回数などを表示した
り、発声すべき語彙を合成音声によって聞かせることも
できる。こうすることで、ガイドを画面に表示するだけ
に比べて見誤りなどによる間違った発声を少なくするこ
とができる。
【0130】ユーザが発声した後、音声認識システム1
から送られてくる単語音声特徴データをファイルへ出力
し、学習データ収集制御部83により設定されているデ
ータ収集指示フラグによりデータ収集の送信/終了を判
断する(ステップ3207)。フラグがONなら単語音
声特徴データ送信要求から、ステップ3209を介して
上記データ収集・ファイル出力までを繰り返し、OFF
なら音声認識システム1に学習設定解除の要求を出す
(ステップ3208)。
【0131】次に、データ収集時の音声認識インターフ
ェース全体の処理の流れを図35を用いて説明する。
【0132】まず、初期設定では、ユーザからデータ収
集の指示が出されると(a)、データ収集部8より音声
認識システム1に対して学習モード設定要求が出される
(b)。これを受けて音声認識システム1が現在認識に
用いている認識対象語彙をデータ収集部8に送る
(c)。
【0133】データ収集部8では、認識対象語彙をユー
ザに表示して学習を行う語彙の選択を促す。学習の語彙
が選択されると(d)、データ収集部8は、音声認識シ
ステム1に対して単語音声特徴データの送信を要求し
(f)、選択された語彙を発声のガイドとして表示し
(e)、ユーザに発声を促す。
【0134】音声認識システム1では、発声されたユー
ザの音声を処理した後、データ収集部8に単語音声特徴
データを送信し(g)、データ収集部8は、そのデータ
をファイルに出力する。
【0135】学習終了時には、まず、ユーザがデータ収
集終了の指示を入力し(h)、データ収集部8は、学習
モードの解除を音声認識システム1に要求する(i)。
音声認識システム1では、それを受けて学習モードを解
除する。
【0136】データ収集終了後は利用者が必要に応じて
認識辞書の作成を行うことができる。辞書作成部9は,
単語音声特徴データ保存部81からのデータを用いて辞
書作成を行い辞書をファイル出力する。
【0137】従って、このようにすれば目的の語彙を簡
単に選択でき、応用プログラム使用中においても認識語
彙の学習を簡単に行うことができるようになる。
【0138】(第10実施例)次に、時間のかかる辞書
作成をバックグランドで行い、データ収集中や他の応用
プログラム実行中に辞書を作成することで辞書作成終了
を待たずに使い勝手の良い音声認識インターフェースを
実現する実施例について説明する。
【0139】ところで、従来、音声認識のパターンマッ
チング法としては、DP法やHMM、複合類似度法など
が知られており、いずれも標準となる認識辞書を用いて
パターンマッチングを行うが、例えば高精度な認識を行
うため固有値展開などを必要とする複合類似度法(永
田、他“ワークステーションにおける音声認識機能の開
発”電子情報通信学会技術報告、HC9119、pp.
63−70、(1991))では、辞書作成のための計
算量が多く、現在高速であるとされるワークステーショ
ン、例えば処理能力20MIPSの計算機を用いた場合
でもかなりの時間、例えば一単語当り数秒から数十秒を
要するため待ち時間による学習インターフェースの使い
勝手の悪化が無視できない。そこで、学習データの収集
中に辞書作成をバックグラウンドで計算することによ
り、待ち時間を減らしてインターフェースの使い勝手を
向上させるようにしている。
【0140】そこで、同実施例では、辞書作成をバック
グラウンドで行うことでインターフェースを良くする音
声認識システムについて説明する。
【0141】この場合、図28で述べた辞書作成部9
を、図36に示すように辞書作成管理部91、辞書作成
制御部92、データ入力部93、辞書作成部本体94、
ファイル出力部95から構成している。
【0142】ここで、辞書作成管理部91は、データ収
集部8からのメッセージを受け、要求された語彙の単語
認識辞書の作成を辞書作成制御部92へ指示し作成終了
をメッセージでデータ収集部8に通知する。
【0143】複数の辞書作成要求があった場合に順序よ
く実行するため例えば図37のような辞書作成管理テー
ブルの要求日時の順番に従って作成を行う。図37は例
として文書編集用のコマンドである「コピー」「ペース
ト」「カット」という単語について、この順序で辞書作
成を要求されたときの管理テーブルの内容である。語彙
などの条件は要求のあった日付、時刻とともに管理テー
ブルに登録され、辞書作成がこの順で行われ、作成の終
了した要求は管理表から削除される。
【0144】辞書作成要求は上記のように語彙を指定す
るだけでなく、単語音声特徴データの属性としてデータ
自身に登録されている他の情報、例えば図38のように
発声者の名前を指定してその人の特定話者用の辞書を作
ったり、図39のように日付を指定して新しいデータの
みによって辞書を作ることもできる。
【0145】そして、辞書作成管理部91と辞書作成制
御部92の間はメッセージ交換でやりとりを行う。
【0146】次に、図40、図41を用いて辞書作成の
流れについて説明する。
【0147】まず、図40は辞書作成管理テーブルへの
登録の手順である。この場合、辞書作成要求のメッセー
ジがあったかどうかを判断し(ステップ4001)、な
ければ要求を待ち、あれば語彙やユーザ名などの条件を
辞書作成管理テーブルに登録する(ステップ400
2)。
【0148】一方、図41は辞書作成の手順である。こ
の場合、辞書作成管理テーブル上に登録されている辞書
作成要求を検索し、要求がなければ登録を待ち、あれば
最も古い日時の要求を選ぶ(ステップ4101)。次に
単語音声特徴データを入力し(ステップ4102)、上
記要求の条件に適合するデータを選択する(ステップ4
103)。選択したデータのみを用いて辞書を作成しフ
ァイル出力する(ステップ4104、4105)。上記
要求を管理テーブルから削除し、管理テーブルの検索
(ステップ4101)へ戻る。以上を繰り返す。また、
すべての辞書作成要求が削除された時点で、辞書作成が
終了したことを学習データ収集部に通知しても良い。
【0149】認識辞書の作成は、データ収集時にバック
グラウンドで行うため、辞書作成の進行状況は利用者に
とって分かりにくい。そこで、辞書作成の進行状況を例
えば図42(a)(b)に示すように全処理量に対する
終了した処理量の割合を表示することによって利用者に
分かりやすいインターフェースを提供できるようにして
いる。この場合、辞書作成の開始や終了の際には、ビー
プ音などにより通知することも可能である。また、辞書
作成処理の速度を表示することも可能で、例えば図43
に示すように速度を4段階に分けたり、図44(b)に
示す色分けを用いて同図(a)のように色で処理速度を
表示したりでき、計算機の負荷が大きくて辞書作成の処
理が進まない場合には、処理が停滞していることを表示
することにより、利用者に計算機の負荷の分散を促すよ
うにもできる。
【0150】以上のように、時間がかかる音声データの
収集中にバックグラウンドで辞書作成を行うことによ
り、待ち時間を少なくして使い勝っての良いインターフ
ェースを実現することができる。
【0151】また、以上述べた辞書作成は、独立したプ
ロセスとして動作することが可能で、データ収集部8か
らの要求だけでなく、音声認識システムやその他の応用
プログラムからも辞書作成要求を受け付けることが可能
であり、学習データ収集処理時のみに限らず、いつ辞書
作成を行ってもよい。
【0152】(第11実施例)認識対象を単語または文
節などとする音声認識においては、従来より入力音声の
パワーの変化、音声ピッチの変化、あるいは零交差回数
などの特徴パラメータを用いて単語境界を検出し、この
音声特徴ベクトルと認識語彙セットについての認識辞書
とを照合することにより行われていた。しかし、実際の
作業環境では、背景雑音やユーザの不用意な発話(他の
ユーザとの会話や独り言など)の影響により誤った単語
境界が検出されることが少なくない。このため、音声認
識システムのユーザは現在何が認識対象になっているか
を常に意識し、それ以外の言葉を発声しないようにする
必要がある。
【0153】一方、音声を計算機への入力手段の一つと
して他の入力手段(例えばキーボードやマウス)と合わ
せて作業を行う場合、ユーザは、入力内容や作業の状況
に応じてそれぞれの入力手段を使い分けることが考えら
れる。
【0154】そこで、本実施例では、図45に示すよう
に図1で述べた音声認識システム1と応用プログラム2
に音声認識自動停止部10を加えた構成とし、認識処理
に、通常の認識処理(現在の認識対象となっている全て
の語彙に対する認識処理)をおこなうモードと、特定の
キーワードについてのみ認識処理を行うモードの2つの
モードを設け、認識処理を開始して暫くは通常の認識処
理を行い、予め定めておいた時間内に音声入力が行われ
なかった場合には、それまでの認識語彙セットを保存
し、特定のキーワード(例えば「認識開始」など)のみ
を認識語彙セットとするモードに切り替わるようにす
る。その後、このキーワードが入力されれば、保存して
いた認識語彙セットを新たに設定し、通常の認識処理モ
ードに移行する。この認識処理モードの切り替えは、例
えば音声フォーカスの変更や音声以外の入力手段による
指示によっても行われ、認識モードの移行は、メッセー
ジまたはアイコンによる表示やピープ音などを用いてユ
ーザに伝えられる。これにより、ユーザが音声を暫く使
わない状態になると、自動的に音声認識のモードが切り
替わり、特定のキーワード以外の音声を無視することで
検出誤りによる予期しないタスクの切り替えや誤動作を
回避することができる。
【0155】また、ユーザはキーワードを発声するか、
音声以外の入力手段により音声認識処理モードの切り替
えを意識的に行うことができる。上記の処理は、例えば
インターバル・タイマ機構を用いることにより実現でき
る。これは、現在時刻から時間切れになる時間を秒数で
指定するもので、時間切れになると、その旨を通知する
シグナルが渡される。このシグナルを受信した時点で音
声認識のモードの切り替えを行う。
【0156】以下、図46に示すフローチャートに従っ
て説明する。
【0157】まず、最初にタイマが時間切れになるまで
の秒数を設定し(ステップ4601)、時間切れか否か
を示すフラグを0にする。このフラグは、時間切れにな
った旨を通知するシグナルを受信した際に呼び出される
シグナルハンドラ内で1がセットされるようにしてお
き、認識処理の最初にその値が調べられる。なお、タイ
マの機能は、計算機に通常内蔵されている時計の機能に
より容易に実現可能である。また、シグナルハンドラ
は、音声認識自動停止部10の中にプログラムとして書
くことができる。
【0158】次に、認識対象とする語彙セットを設定し
た後(ステップ4602)、時間切れか否かを調べて
(ステップ4603)、時間切れでなければ、その語彙
セットに対する認識処理を行う。
【0159】認識処理は、まず入力音声のパワー変化や
音声ピッチの変化、あるいは零交差回数などの特徴パラ
メータを用いて音声区間の始端と終端を検出し(ステッ
プ4604)、終端が検出されれば、その始端と終端で
定まる音声区間から音声特徴ベクトルを抽出し、現在の
認識語彙セットの認識辞書と照合を行い、各確認語彙の
の類似度を求め、そのうち類似度最大で、かつその値が
予め定めておいたしきい値以上のものを認識結果として
出力し、認識処理を終了する。(ステップ4605〜4
609) なお、図46では、音声特徴ベクトルの抽出から、認識
辞書との照合およびしきい値による判定までを認識処理
としている。終端が検出されない場合や、認識結果が得
られない場合は(ステップ4605、4607)、語彙
セットの設定に戻り、必要に応じて(例えばクライアン
トから音声フォーカスの変更や認識語彙の変更要求があ
った場合)認識語彙セットの変更を行い、時間切れか否
かを調べて、時間切れでなければ再び現在の認識語彙セ
ットに対する認識処理を行う。時間切れになった場合
は、それまでの認識語彙セットを保存し、特定のキーワ
ードを認識語彙とするモードに移行する。そのキーワー
ドが検出されるか、クライアントから認識処理モードの
切り替え指示があれば、保存していた認識語彙セットを
復元し、タイマを再設定して通常の認識処理に復帰する
(ステップ4610〜4617)。
【0160】以上述べた認識機能の自動停止機能により
背景雑音やユーザの不用意な発話による誤動作を防ぎ、
使い勝手のよい音声認識インターフェースを実現するこ
とができる。
【0161】また、背景雑音やユーザの発話による誤動
作をユーザが意識的に避ける方法として、従来からマウ
スやキーを押し下げている間だけ、音声入力を行う方法
が使われているが、音声入力ごとに毎回マウスを操作す
るのは煩わしいという問題がある。そこで、常時音声入
力中として、マウスを押し下げている間だけ音声入力を
受け付けないことにすれば、発声ごとにマウスを操作し
なければならないといった煩わしさを軽減できる。
【0162】(第12実施例)ところで、音声メールツ
ールは、音声入力可能な電子メールシステムであり、音
声を使って受信したメールのリストを移動して内容を確
認したり、そのメールに対する返事を送信することがで
きる。
【0163】この場合、ツールは、リスト表示部、受信
メール表示部、送信メール編集部からなり、リスト中の
反転表示されたメールが受信メール表示部に表示され
る。そして、例えば、音声を使って以下のような操作が
できる。ここでは、上司からの緊急のメールに対して返
事を出すまでを示している。
【0164】「メールツール」(音声メールツールを全
てウインドウの前に出す。) 「先頭」 (受付けリストの先頭にリストポイン
タを移動する。) 「次」 (リストポインタを次のメールに移動
する。) 「最後」 (受信リストの最後にリストポインタ
を移動する。) 「前」 (リストポインタの前のメールに移動
する。) 「上司」 (上司からのメールだけをリストアッ
プする。) 「緊急」 (そのうち緊急のメールだけをリスト
アップする。) 「返事」 (緊急のメールに対して返事を出す。
送信メール表示部に“To:上司名”と“Subjec
t:Re:上司からのメールのSubject”が入
る。) メールシステムの初期状態を図47に示す。メールリス
トの表示部には、全てのメールリストを一度に表示でき
ないため、所望のメールを探すのにマウスを使う場合に
は、表示部の右側にあるスライド用のバーを使う必要が
ある。特に大量のメールが来た時などは、メール探しに
多くの労力を必要とし、操作性は十分であるといえな
い。しかし、ここで音声を用いることにより、直接所望
のメールを検索でき、作業の大幅な効率化が図れる。
【0165】ここで、例えば上司からの緊急のメールを
選択する場合、「上司」「緊急」と発声するだけで、選
択することができる。図48に上司からの緊急のメール
の検索結果を示す。この例では2通のメールがきている
ものとすると、次のようになる。
【0166】「コピー」 (メッセージをコピーす
る。) 「ペースト」 (コピーしたメッセージを受信メールに
ペーストする。) 「引用」 (そのメッセージに引用符を付ける。) ここで、そのメッセージに対する返事を書き、 「サイン」 (必要があれば自分のシグネチャをメー
ルの最後に付ける。) 「送信」 (返信メールを送信する。) ここで使われている「上司」や「緊急」は、音声マクロ
コマンドとして実装されており、メールのヘッダや内容
を用いて照合した結果を用いてリストを限定するもので
ある。すなわち、電子メールの発信者の名前、所属、標
題、差出日、本文の内容は、テキスト(文字データ)で
書かれており、その内容を理解し、キーワードや内容の
照合を行うことにより、音声での効率的な電子メールの
取り出しが可能になる。これはフルテキストサーチなど
の情報検索技術や文脈解析技術を用いて、WS上で実現
でき、音声入力インターフェースの利用により音声メー
ルの使い勝手が大幅に向上する。また、テキストの一部
を音声合成で読み上げたり、強調したり、スピードを変
化させることも可能である。また、図47に示すように
認識語彙の表示や現在音声フォーカスが当たっているク
ライアントの表示、認識が動作中であるか否かの表示な
どを行い、ユーザにシステムの状態をできるだけ伝える
ように考慮し、作業の効率化を可能にしている。
【0167】(第13実施例)音声認識サーバを使っ
て、既存のアプリケーションを音声で制御することがで
きる。これは、既存のアプリケーションのキーボード入
力を音声によって代行するクライアントを作成すれば可
能である。ここでは、既存のアプリケーションに対する
音声制御を可能とする音声マクロプログラムを使って、
既存のDTP(Desk Top Publishih
g)システムを音声コントロールする例を示す。
【0168】音声マクロプログラムは、既存アプリケー
ションの認識語彙に関する知識をメニュー形式で持ち、
そのメニュー階層を利用して認識語彙を限定する。ここ
で、 “図形”メニュー “取り消し” “グループ化” “グループ解除” “フロント” “バック” “上/下(うえした)反転” “右/左(みぎひだり)反転” “回転” “トップレベル”メニュー “文書” “編集” “図形” メニュー階層のルートを「トップレベル」と呼び、トッ
プレベルから単語を発生し、メニュー階層をたどること
でコマンドを実行していく。メニューの階層を移動する
ごとにウインドウにメニューの各項目とメニュー階層に
おける現在位置をパスの形で表現しユーザに呈示する。
【0169】そして、以下のように操作される。ここで
は、文書ウインドウに存在する複数個の図形を取り扱う
例を示している(図49参照)。
【0170】図形を扱うためにトップレベルから図面メ
ニューを開く。 「図形」(メニューの項目が音声コマンダにリストアッ
プされる。) ここで、文書ウインドウ上の複数の図形をマウスで選択
する。 「グループ化」(複数の図形を1つの図形として取り扱
うべく纏める。) 「上下反転」(グループ化した図形の上下を反転させ
る。) 「回転」(図形を回転させる。) 「グロープ解除」(グルーブ化を解除する。) 次に、先にグループ化された図形のうちの1つをマウス
で選択する。 「バック」(選択した図形を全ての図形の後ろに送
る。) 「取消し」(「バック」により行われた操作を取り消
す。) 「フロント」(一番前に送る。) これをマウスを使って操作する場合には、 ・メニューバーをクリックしてメニューを表示する。
【0171】・メニューをプルダウンし、実行したいコ
マンドの項目を選択する。
【0172】・マウスボタンから手を離してコマンドを
実行。 の少なくとも3アクション必要であり、マウスポインタ
の移動の手間を考えると、それ以上のアクションを行っ
ていると考えられる。
【0173】ところが、音声を使用すると、 ・操作を行う単語を発生する。 の1アクションで済むため、音声の有用性が分かる。マ
ウスを使ってメニューを選択することで操作する場合に
は、例え予め何を操作したいかをユーザが分かっていて
も、上記の操作は必ず実行しなければならない。音声
は、他の入力手段と組み合わせることで、より効果的な
インタフェースとなる。
【0174】ここで、キーボードマクロを使えば、音声
と同様に1回だけの操作で済むが、キーボードマクロは
基本的に一つの文字で表現するため、キーボードマクロ
が多ければ多いほど対応付けのしにくい文字とコマンド
の組み合わせを記憶することが要求され、ユーザの負担
になる。
【0175】そこで、コマンドを、ただ1つの文字でな
く、そのコマンドの意味をも自然に表現し得る音声と結
び付けることで、アプリケーションは、ユーザに対し
て、より自然なインターフェースが提供できる。
【0176】また、単語認識の際に上述した図形メニュ
ーのなかで、例えば「グループ化」と「グループ解除」
のように前半部分が同じカテゴリに存在する場合には、
部分抽象化により単語の後半部分のパターンを用いて認
識を行うことにより、認識精度の向上を図ることができ
る。また、「上下反転」「左右反転」のように後半部分
が同じ場合には、単独の前半部分のパターンを用いて認
識を行うことも可能である。要するに、パターンの違い
がより明確になるように様々な視点から認識のための単
語パターンを取り出し、認識を行うことにより認識性能
の向上が可能になる。
【0177】(第14実施例)以上、述べてきた音声認
識インターフェースは、音声の入力にのみ注目してきた
が、音声の出力機能をインターフェース内に取り入れ、
テキストからの音声合成や音声データの再生を行なうよ
うにすれば、音声の入出力を統合して行なうことができ
るため、複数の応用プログラムへの音声入力とそれらか
らの音によるメッセージの出力を簡単に行なうことがで
き、ユーザにとって取扱い易いインターフェースを実現
することができる。
【0178】以下に、音声合成機能を備えた音声認識イ
ンターフェースである音声入出力インターフェースの構
成について説明する。
【0179】図50は音声合成部を備えた音声入出力シ
ステムの概略構成を示しており、図1で述べた音声認識
システム1に音声合成部14を付加した構成になってい
る。この場合、音声合成部14はメッセージ処理部11
からの指示に従ってテキスト情報から合成音声生成を行
い、音声出力を行なうようになっている。また、応用プ
ログラム管理テーブル13は、複数の応用プログラム2
からの音声出力を制御するため、図55に示すように応
用プログラム2の音声出力に関する情報を収納するフィ
ールドを持っている。これにより、複数の応用プログラ
ム2からの音声出力に対する制御を行なうことができ
る。ここでの音声出力に関する情報としては、特定の音
声出力に対して音声出力を優先的に行なうことを指示す
るための音声出力優先度などがある。
【0180】図51は、音声合成部14の概略構成を示
しており、全体制御部561、波形重畳部562、音声
出力管理テーブル563、波形合成部564からなって
いる。
【0181】全体制御部561はメッセージ処理部11
から合成音声の出力要求とともに文字列を受けとり波形
合成部564に送って音声合成を行ない音声出力する。
この場合、音声合成部14によって出力する音響信号は
合成音のみでなく、録音された音声や音声以外であって
もよく、その場合は音声の合成を必要としない。このと
きは波形合成は行なわずにメッセージ処理部から受けと
った波形データをそのまま音声出力するようにしてい
る。
【0182】また、波形合成部564は全体制御部56
1から文字列データを受けとって音声合成を行なう。音
声合成の方式としてはさまざまな方法が知られており、
例えば文献(D.Klatt: "Review of text-to-speech con
version for English ", J,Acoust.Soc.Am.,82,3,pp.7
37-793 (Sept.1987)) の方法を用いることが可能であ
る。
【0183】音声出力管理テーブル563はメッセージ
処理部11からの音声出力の要求を登録するテーブルで
あり、このテーブルに登録された順番に従って音声出力
を行なうことにより、複数の音声出力要求に対して時間
的な整合性を保ちながら音声出力を行なうことができ
る。
【0184】音声合成部14は独立したプロセスとして
動作させることが可能で、メッセージ処理部11とは、
音声認識システム1と応用プログラム2の間のメッセー
ジで述べたように、プロセス通信によるメッセージ交換
によりデータのやりとりを行なう。ここでのメッセージ
としては図53に示すようなものがある。
【0185】同図(a)の応用プログラム2からメッセ
ージ処理部11へのメッセージは応用プログラム2から
の命令を意味している。ここでの音声合成要求は、応用
プログラムがテキスト内容を合成音声に変換させる要求
で、合成するテキストデータと共に要求を出し、その結
果合成音声データが通知される。波形再生要求は応用プ
ログラムが録音等により既に波形の形で音声データを持
っている際、それをそのまま再生するための要求で、再
生データと共に送信する。音声合成・再生要求は、音声
の合成とその再生をまとめて行なう要求であり、合成音
声データは通知されない。
【0186】優先度設定要求は、特定の応用プログラム
からの出力音を優先させるための要求であり、例えば出
力音のレベルと音声合成処理の優先度、中断出力の有
無、などに関して、設定できるようになっている。
【0187】音声出力要求の優先度は、例えば緊急を要
する場合に、高い値に設定することにより、直ちにユー
ザの注意を向けることができるため効果的である。
【0188】先に述べたように、音声出力管理テーブル
563はメッセージ処理部11からの音声出力要求を登
録するテーブルであり、このテーブルに登録された順番
に従って音声出力を行なうことにより、複数の音声出力
要求に対して時間的な整合性を保ちながら、音声出力を
行なうことができる。
【0189】音声出力管理テーブル563の例を図52
(a)(b)に示している。テーブルに記録するデータ
はデータID、波形かテキストかを表す入力データの種
類、出力要求のテーブルへの登録時刻、テキストデータ
の内容、音声出力の際の音量などがある。図の例では、
データID#1、#2、#3がテキストデータであり、
#0〜2のデータに対しては処理が終了しているが、#
3のデータは現在処理中、#4のデータはまだ処理が行
なわれていないことを示している。
【0190】一方、メッセージ処理部11から応用プロ
グラム2へのメッセージは図53の(b)に示すような
種類がある。音声出力状況通知は、要求された音声出力
が終了したことを通知し、優先度設定通知は、優先度設
定要求に従って音声出力の優先度が設定されたことを通
知する。いずれも要求に対する確認のメッセージであ
る。
【0191】応用プログラム2がどのメッセージを受け
取るかの設定は、先の音声認識システム1と応用プログ
ラム2の間のメッセージに関する説明で既に述べた通り
で、入力マスクによって設定することができる。この場
合、音声合成部14が加わったことにより、図54に示
すような種類からなっている。
【0192】また、上述したようなメッセージ以外に
も、エラーメッセージや音声出力レベルの設定メッセー
ジ、音声合成部14の内部情報にアクセスするメッセー
ジなどさまざまなメッセージが設定可能である。
【0193】音声合成部14とメッセージ処理部11と
の間もメッセージによって情報交換が行なわれる。この
場合のメッセージは図53の(c)(d)に示す種類が
ある。このうちの(d)のメッセージ処理部11から音
声合成部14へのメッセージは、(a)の応用プログラ
ム2からメッセージ処理部11への要求メッセージとほ
ぼ同じであり、(c)の音声合成部14からメッセージ
処理部11へのメッセージは、(b)のメッセージ処理
部11から応用プログラム2への通知メッセージとほぼ
同じ種類のものを使うようにしている。
【0194】以上、述べたように音声合成部14を有す
る音声認識システム1の各部においてメッセージをやり
とりすることによって、複数の応用プログラム2からの
要求による音声出力処理が進められるが、次に、音声認
識インターフェース全体としての処理の流れを図56、
57に従って説明する。
【0195】図56では、既に第1実施例で述べた手続
に従って応用プログラム2と音声認識システム1との接
続処理と音声認識に関する初期設定をステップ6101
で既に完了しているものとする。そして、ステップ61
01の終了後、応用プログラム2は音声出力処理に関す
る初期設定を後述の図57の(a)に従って行なう(ス
テップ6102)。初期設定としては、音声合成部14
における音声出力管理テーブル563の初期化、応用プ
ログラム管理テーブル13の音声出力優先度情報の初期
化などがある。そして、音声入力および音声出力の処理
を実行する(ステップ6103)。
【0196】次に、応用プログラム2からの音声出力に
関する要求ごとの音声出力処理について説明する。
【0197】まず、図57の(b−1)の音声合成要求
が応用プログラム2から出された場合、メッセージ処理
部11は要求をそのまま音声合成部14へ音声合成要求
として送る。そして、音声合成部14は音声出力管理テ
ーブル563へのメッセージの登録を行なう。音声合成
要求は波形の再生処理を含まないため、例えば図52の
出力管理テーブルメッセージID#1のように、出力あ
りなしの項は出力なし(=0)となる。この場合、音声
出力優先度情報は使われない。合成処理が終了後は、音
声合成部14は終了したことを音声出力状況通知によっ
てメッセージ処理部11へ通知し、メッセージ処理部1
1はそれを応用プログラム2へ通知する。応用プログラ
ム2はこの通知の後音声波形データ要求を出し、合成音
声ごとに受け取る。
【0198】次に、図57の(b−2)の波形再生要求
があった場合、メッセージ処理部は図55に示す応用プ
ログラム管理テーブルに登録してある優先度情報を検索
し、要求を行なった応用プログラムに関する情報を付加
して音声合成部14へ波形再生要求を行なう。
【0199】音声合成部14では、音声出力管理テーブ
ルにメッセージの登録を行なうが、この場合は、例えば
図52のメッセージID#0または#4のような内容が
登録される。波形再生終了後に音声合成部14は、音声
出力状況通知により、再生が終了したことをメッセージ
処理部11に送り、メッセージ処理部11はそれを応用
プログラム2へ送る。
【0200】次に、図57の(b−3)の音声合成再生
要求があった場合は、波形再生の場合と同様な処理で音
声の合成および再生の処理を行なう。
【0201】また、図57の(b−4)の優先度設定要
求によって音声出力優先度を変更することができる。音
声出力優先度は先に述べたように、音声出力のレベル、
音声合成処理の優先度、中断処理の有無等がある。出力
音声のレベルを高くすれば、その出力メッセージに対す
る注意を引きつけるのに役立ち、音声合成処理の優先度
を高くすれば、その音声データが音声合成後出力される
までの時間遅れを小さくできる。又、中断処理は、特定
の音声出力データ以外の音声出力を一時中断し、そのデ
ータのみを出力する処理であり、これらを組み合わせて
使用することにより、重要なメッセージを優先的に出力
するなどの処理が可能である。
【0202】例えば図52では、メッセージID#0の
波形再生要求に対しては、出力レベル=3、中断出力な
し、合成処理優先度−(値なし)が設定されている。こ
の場合、優先度の値は0〜10の範囲で設定するように
なっており、出力レベル3は、比較的小さい値である。
又、中断出力なしのため、この波形データは他の音と重
なって聞こえて来る。これに対し、#2の音声合成・再
生要求に対しては、出力レベルは最大の10であり、か
つ音声合成処理の優先度も最大であるため、合成音デー
タが直ちに出力される。又、中断出力ありのため、この
間に他の音は出力中断状態にある。この合成音を出力中
は、他の音に邪魔されずに音を聞くことができる。
【0203】次に、以上述べたような音声出力要求を順
次処理する方法について説明する。
【0204】複数の音声出力要求は音声合成部14の音
声出力管理テーブル563に従って処理を行なう。音声
出力管理テーブル563には要求のあった順番に要求の
ID、入力データの種類(波形/テキスト)、要求受付
時刻、データ内容、処理状態、音量、出力中断処理のあ
り/なし、音声合成処理の優先度、排他処理の係数、等
が登録される。
【0205】図58に示すように、まず、全体制御部5
61は、音声出力管理テーブル563の処理状態の項を
参照し(ステップ6301)、「未処理」となっている
データを探し、あれば処理状態を「処理中」に更新し
(ステップ6302)、データの種類を参照する(ステ
ップ6303)。そして、データがテキストであればテ
キストデータを波形合成部564へ送って音声合成を行
い(ステップ6304)、合成音データを波形重畳部5
62へ渡し、波形データであればそのまま波形データを
波形重畳部へ渡す(ステップ6305)。そして処理状
態を「終了」に更新して(ステップ6306)、次の未
処理データの処理を行なう。
【0206】波形合成部564では、処理を行なってい
るデータに関する合成処理優先度情報をもとに、合成演
算を行なう処理の他の処理に対する優先度を設定して演
算を行なう。優先度の設定は、例えばワークステーショ
ンのオペレーティングシステムとして一般的であるUN
IXのシステムコールを用い、合成プロセスに対する演
算装置の割り当て時間を変更させたり、処理量の異なる
複数の音声合成器を用意して優先度に応じて使う合成器
を変えたりすることにより行なえる。
【0207】波形重畳部562では、波形データと共に
音量、出力中断処理のあり/なし、排他処理の係数など
の情報に基づいて複数の波形を重畳する。重畳の際に
は、時刻と波形データのサンプルの対応を常に監視し、
複数の音声出力要求の間の時間とそれらの要求に対応す
る複数の波形データの出力される間隔が、なるべく等し
くなるようにしている。また、重畳の処理は単位時間、
例えば10msecごとのブロック処理によって行なう
ことが可能である。
【0208】次に、図59により、中断処理のある音声
データを重畳する際の例を説明する。この場合、データ
は図52の音声出力管理テーブル563にあるデータI
D#1〜3であり、簡単のため、登録から波形重畳まで
は時間遅れがないものとしたが、実際には用いる計算機
の処理能力に応じて、音声合成やデータの移動による時
間遅れがある。音声出力管理テーブル563に記録され
た時刻どおりで、かつ出力中断処理を行なわずに音声デ
ータを出力する場合には、図59(a)のように、デー
タどうしが時間的に重なっているため、緊急なメッセー
ジであるデータ#2の音声は、先頭部がデータ#1の最
後と、後半部がデータ#3の前半部と重なって出力され
ることになる。これに対し、出力中断処理を行なう場合
の(b)では、データ#2の「緊急です」が始まる時点
でデータ#1の重畳を中断し、#2の処理終了後、#1
の中断された時点から残りを重畳することになる。又、
データ#3は、#2が終了後に重畳される。データ#1
のように、中断処理によって時間的に分割されるデータ
は、上述のように分割したまま出力しても良いが、中断
処理後にもう一度最初から出力し直したり、又、分割さ
れた後半部は出力しない、あるいは徐々に音量を下げて
重畳するなど様々な処理が考えられる。
【0209】(第15実施例)第14実施例に記述した
ように、音声認識システムは、音声合成部14を組み入
れ、マルチタスク環境において、複数のタスクから音声
認識および合成機能の利用を可能にすることで、ユーザ
が応用プログラム2を使用する際の使い勝手が向上す
る。本実施例においては、第14実施例をふまえ、具体
的なシステムの応用例として、音声メールツールについ
て音声合成機能を追加した際の効果を中心に述べる。
【0210】図60は、第15実施例の概略構成を示し
ており、音声入出力システム651、ウィンドウシステ
ム652、音声メールツール653から構成している。
また、音声メールツール653は、電子メール処理部6
531とメッセージ入出力部6532からなっている。
【0211】この場合、音声入出力システム651は、
第14実施例に述べた、音声合成機能を持つシステムで
ある。ウィンドウシステム652は、応用プログラムに
関する情報をGUI(Graphical User Interface)を通
じてユーザに提供する。そして、これら音声入出力シス
テム651及びウィンドウシステム652を利用するこ
とで、音声メールツール653で、音声入力をマウスや
キーボードと同様に扱え、音声合成をも統一的に扱える
ようにしている。
【0212】通常、音声メールシステムで送受信される
データはテキストデータであるが、テキストデータだけ
ではなく、音声データや画像データ等をメールの中に混
在させることができる。音声データを含むメールを送受
信するために、メールツールは生の音声データを録音・
再生する機能が必要となる。
【0213】応用プログラム2が生の音声データを扱え
るようにするために、応用プログラム2と音声入出力シ
ステム651間で交わされるメッセージとして、図61
に示すものを追加する。これらのメッセージを利用し
て、メールツールが音声データを録音する手順を図62
の(a)に、再生する手順を図62の(b)に示してい
る。また、今述べた音声の録音・再生機能を持つ音声メ
ールツールの画面表示例を図63に示す。この表示例
は、上述した第12実施例の図48とほぼ同じ表示画面
を持つ。ここでは、ツールのリスト表示部の行の先頭に
*印の付いたものがあるが、これは音声データを含むメ
ール文書を識別する印である。受信メール表示部に、音
声データ付メール文書の表示例を示す。メール文書中の
音声データは、例えばボタン様の形式でユーザに提示す
る。
【0214】図63においては、緊急とラベル付けられ
たボタンが、音声データである。音声データをマウス等
で指定し、マウスやキーや音声入力を使って再生する。
音声データ付のボタンは、メールのテキスト中の任意の
位置に任意の個数作成し、配置できる。
【0215】メール中の音声データの録音・再生・編集
は、図64のような、音声データ編集用のサブウィンド
ウを用いて行なう。図の上部の2つのスライダーはそれ
ぞれ音声データの入力・出力時のボリュームを設定する
ものである。その下のボタンは、それぞれ音声データの
録音、再生、録音/再生の停止、音声データの編集、メ
ールへの音声データの追加を行なうボタンである。編集
ボタンには、カット、コピー、ペーストなどを行なう編
集用のサブメニューが存在する。ボタン列の右端の「緊
急」は、ユーザが任意に入れることのできる文字で、音
声データ作成時に、ボタンのラベルとして表示される。
図64の下部が音声波形データを編集する所である。デ
ータをマウスを用いて選択し、音声入力を用いてカッ
ト、コピー、ペーストを行ったり、エコーをかけたり、
ピッチを変化させたりなどの効果を音声データに加える
ことが可能である。また、音声データの編集やデータに
対する効果の付加は、メールツールでなく、専用の音声
データ編集ツールで行ってもよい。それを用いて音声を
編集する際に、メールツールとの間で音声データの受け
渡しを行う必要があるが、その受け渡しを音声入力を使
ったカット&ペーストによって行えば音声データに対す
る編集操作が簡単に行えるようになる。
【0216】音声入力を使ったカット&ペーストは、音
声データに対してだけでなく、テキストやグラフィック
など様々な形態のデータに対して適用し、応用プログラ
ム向けのデータの受け渡しに用いることができる。
【0217】以上述べた機能を用いてメールの返事を出
す場合には「返事」と発することにより読んだメールの
全て、あるいは文面の一部などを自動的にコピーし、引
用の印をそれぞれ付加し、さらに自分のサインと録音メ
ッセージを自動的に付加して送信してしまうことによ
り、ほとんどのキーボードに手を触れずにメールの返事
を出すことができる。その際、録音メッセージは、前も
って録音してあるものを用いてもよいが、自動的に録音
モードに入って「送信」が発声されたならば、自動的に
その録音データを付加してメール送信を行ったりでき
る。例えば図65は、送別会のお知らせに対する返信の
文面の例である。この例では、8行目まで、送られてき
たお知らせのメールのコピーに引用マーク(》)を付
け、9〜11行目に自分のサインと録音メッセージの印
を付加するようにしている。
【0218】また、図64で示す音声データの録再・編
集機能の一部または全部を図66のように、受信メール
表示部や、送信メール編集部に並べて配置することで、
メール中の音声データに対する操作性が向上するとも考
えられる。
【0219】録音データはそのまま全部をメール用のデ
ータとして用いてもよいが、データ中には言い澱みなど
により不要な無音部があり、必要以上にデータ量が多く
なってしまうことがある。
【0220】そのような場合、無音部を自動的に検出し
て一定の長さ、例えば1秒以上の無音部をカットするこ
とも可能である。
【0221】また、録音の際の利用者の動きにより、口
とマイクロホン間の距離が変化して録音レベルが一定で
なくなり、聞きずらいデータになってしまうことがあ
る。
【0222】そのような場合、録音データのパワーを調
べて全体に亘ってレベルを均一にし、聞きやすくするこ
とができる。レベルの均一化の処理は、ある単位ごと、
例えば単語、文ごとのレベルを求め、最大のレベルを持
つものに他を合わせるようにするなどにより実現可能で
ある。
【0223】また、データ全体あるいは上述の最大レベ
ルが小さすぎたり、大きすぎたりした場合には、データ
全体のレベルをそれに応じて変えることにより、聞き苦
しくないようにできる。
【0224】さて、本実施例のメールツールを使うこと
で、テキストと音声の混在したメール文書を読み上げる
ことができる。
【0225】図63の受信メール部のメールを読み上げ
ることとすると、 「田村殿」 (音声合成) 「先週の出張報告書を至急提出のこと」 ( 〃 ) (緊急ボタンの音声データを再生) 「沢田」 (音声合成) と、このように、データの出現順に、データの種類に応
じた処理(テキストデータは音声合成し、音声データは
そのまま再生する)を行なうことで、テキスト以外のデ
ータをも読み上げることができる。また、テキストデー
タだけの読み上げや、音声データだけの読み上げを可能
にすることもユーザにとって有用になる。テキスト以外
のデータ形式としては、音声以外のものでも、そのデー
タ形式に従った処理を行なえば良い(動画なら動画の再
生を行なう)。
【0226】メールの読み上げは、本文だけではなく、
題や発信者や送受信の時間を示すメールのヘッダに関し
ても行なって良い。
【0227】ここで、全てのメール文書に対して、同一
の読み上げ方をする必要はない。例えば、メールアドレ
スと、合成音声の属性を図67に示すようにデータベー
ス化することによって、発信者毎にメール文書読み上げ
の際の音声の特徴を変化させることができる。図67の
設定では、Tamura氏からのメールは、低くゆっく
りと話す男性の声で、Nakayama氏からのメール
は、高く早口の女性の声で、それ以外のメールは、標準
的な声の高さを持つ男性の声で、標準的スピードにより
読み上げられる。
【0228】さらに、発信者情報だけではなく、1つの
文書内の情報を使って合成部を変化させることが考えら
れる。例えば、引用符に囲まれた部分のみに関して、男
女の性別を入れ替えるとか、声の高さや読み上げの速度
を変化させることが可能である。
【0229】また、メールの受信者が、合成音声による
メールの読み上げを行なうことを想定し、メール本文中
のテキストに、音声合成用の制御コードを付加して、メ
ールの読み上げ方を指定することが考えられる。制御コ
ード交じりのメールの例を図76に示す。
【0230】この場合、@<…>で囲まれた部分が、制
御コードおよびその指定で読み上げられる部分である。
male、5、5、9は、特に性別(男性)、声の高
さ、速度、声の大きさを示し、ここでは、「絶対に遅れ
ないように」の部分だけが、その他の部分よりも大きな
声で読まれる。このように、メール本文中の部分に対
し、音声合成の細かな設定を可能にすることで、メール
中の重要な所を強調したり、文章の抑揚を変えたり、引
用した言葉を本人に近い特徴の合成音声で読ませて変化
をつけるといった事が可能となる。
【0231】以上に述べたメールツールはマルチタスク
の環境下で音声によって制御を行うことができるため、
キーボードやマウスなどによって文書の作成やプログラ
ム編集などを行いながら音声によってメールによって読
むことができ便利である。
【0232】なお、メールツールだけでなく、情報検索
のためのツール、例えば英和、和英などの電子辞書や対
訳辞書、類似表現、言い換えなどを引くための類似語辞
書などのデータベースを本発明によるインターフェース
により音声で操作すれば、文書やメール作成中に調べた
い単語などを音声による操作で引くことができるため、
文書作成の中断を少なくできて便利である。
【0233】メールの内容の確認を、表示によらず、音
声読み上げを使って行なう際に、1つのメール全体を読
み上げの対象とすることは、特に、大量のメールの中か
ら所望のメール文書を検索する場合などには、効率が悪
くなると考えられる。そこで、メールの読み上げの最中
にメールツールに対するコマンドを発行可能にする。特
に、そのコマンドは、音声入力によって行なえれば都合
が良い。
【0234】まず、読み上げモードを設け、メールを読
み上げる際の単位を設定可能にしておく。読み上げモー
ドには、全文、段落、文の3つのモードがある。図63
の右上の「読上」ボタンのとなりの「全文」の表示が読
み上げモードを示す。「読上」ボタンにより、モードに
従った音声合成を行なう。メール読み上げ時に使用する
音声コマンドを、図68に示す。
【0235】ユーザは、モードを設定し、「読上」ボタ
ンあるいは「読み上げ」と発声することにより、メール
の読み上げを開始する。音声コマンド「ストップ」、
「続行」により、読み上げの一時停止と再開を行なえ
る。「もう一度」は最後に読み上げた単位をもう一度読
み上げる。「前の〜」および「次の〜」の「〜」は読み
上げの単位であり、メールツールはコマンドに従ってモ
ードを自動的に変更する。例えばモードが「全文」の時
に「次の文」と入力すれば、モードは自動的に「文」に
変わる。「次」および「前」は、「次の〜」および「前
の〜」の省略表現であり、それらのコマンドで扱われる
単位はモードとして現在設定されている単位である。
「速く」「ゆっくり」は読み上げ速度の設定、「高く」
「低く」は読み上げ合成音の声の高さ設定、「男性」
「女性」は合成音声の性別の設定を行なう音声コマンド
である。
【0236】このように、メールの内容の音声による読
み上げを可能にし、読み上げの制御を音声を使って行な
うことで、マウスおよびキーボードのみを使って制御す
る時よりも、使い勝手が向上すると考えられる。特に、
マルチウィンドウ環境において、聴覚と音声入力を音声
メールツールの制御に使い、視覚とキー入力を別のタス
ク(例えばテキストエディタ)に使うことで、1人のユ
ーザによる複数のタスクの同時制御が可能となる。
【0237】音声合成機能は、メール文書の読み上げだ
けではなく、メールツールからユーザに対して提供され
るメッセージにも利用可能である。例えば、マルチウィ
ンドウ環境において、動作するメールツールがメッセー
ジの出力に合成音声を利用する場合を考えてみる。ま
ず、メールツールをその起動時にアイコン化しておく。
メールツールが新規メールを受信すると、「××さんか
ら新しいメールが届きました。未読分は全部で5通あり
ます」といったメッセージを合成音声を使ってユーザに
提供する。もちろんこのメッセージは、録音された音声
データでも良いが、メッセージ文の変更し易さや、任意
の数値データの読み上げを考えると、合成音声の方がメ
ールツール等の応用プログラムの作成者にとっては都合
が良い。新規メール受信通知のメッセージをいつも同じ
様に出力するのではなく、例えば、メールに重要度を設
定し、その重要度に従って音声メッセージを出力しなか
ったり、「××さんから緊急のメールが届きました」
と、メッセージ文を変えたり、音声合成のパラメータを
変更して声のトーンを変えることができる。メッセージ
として、「サブジェクトは、会議通知です」と、メール
の題についての情報を提供してもよい。このように、合
成音声をメールツールのメッセージ出力に利用すること
で、ユーザは、メールツールを直接見ることなく、受信
メールを読むか否かの決定ができる。
【0238】新規メール受信のメッセージは、ユーザが
計算機上で行なっている作業に割り込むメッセージであ
り、ユーザの作業に割り込んで欲しいか否かは、作業内
容によりけりである。例えば、何らかのプログラムのデ
モンストレーション中には、メールに割り込んで欲しく
ないであろう。そこで作業の重要度を設定し、作業の重
要度とメールの重要度を比較して、メールの重要度が作
業の重要度以上なら音声メッセージを出力し、それに満
たない場合は出力しない、といった事を行なう。作業の
重要度は、作業環境全体に設定したり、個々のプログラ
ムに設定したり、プログラム内のサブタスク毎に設定す
る事が考えられる。
【0239】作業の重要度とメールの重要度を比較し、
メールの受信の通知方法を決定するために、音声メール
システムを図69に示す構成とする。メールシステム6
91は、メッセージ入出力部6911の介在によって、
音声入出力システム692やウィンドウシステム693
と接続されている。音声入出力システム692やウィン
ドウシステム693からのメッセージは、メッセージの
内容に従い、メッセージ入出力部6911によってふり
わけられ、そのメッセージを処理すべき所において処理
が行なわれる。
【0240】電子メール処理部6912は、外部の公衆
回線やLANを通じ、電子メール文書の送受信や、受信
したメールに対する処理を行なう。タスク重要度管理テ
ーブル6913は、音声入出力システムに接続したすべ
ての応用プログラムの作業の重要度を音声入出力システ
ムから受け取り、管理する。このタスクの重要度と、受
信したメールの重要度から、受信したメールをユーザに
対してどのように知らせるかの役割も、電子メール処理
部6912が担う。
【0241】この機能を実現するために第14実施例で
述べた音声入出力システムの持つ応用プログラム管理テ
ーブルを拡張し、項目として、タスク優先度を新たに設
定する。図70に拡張した応用プログラム管理テーブル
を示す。ここでは、シェルツールのタスク優先度が
「2」、DTPシステムのが「5」に設定されている。
【0242】さらに、この応用プログラム管理テーブル
に値を設定したり、値を読み取るためのメッセージとし
て、図71に示すメッセージを新たに設ける。また、タ
スク優先度変更のたびにその通知をメールシステムが受
け取れるようにするために、入力マスクとして、タスク
優先度変更マスクを新たに設ける。
【0243】メールシステムは、入力マスクとして、タ
スク優先度変更マスクと、入力タスク変更マスクを設定
することにより、音声入出力システムに接続されている
すべての応用プログラムのタスク優先度と、音声フォー
カスの有無を得、図72に示すようにその情報をタスク
重要度管理テーブルに動的に反映することが可能であ
る。電子メールの優先度は、例えば、”Prefere
nce:3”のようなヘッダ情報をメール文書に付加
し、メール自体に重要度を設定することも可能である
し、発行者毎にメールの優先度を設定しても良い。メー
ルシステムの電子メール処理部は、電子メールを受信す
るたびに図73に示す処理を行なう。
【0244】この場合、音声フォーカスが1つのタスク
に当たっているか調べ(ステップ7801)、YESな
らば音声フォーカスのあるタスクの優先度を選択し、N
Oならば音声フォーカスの当たっているすべてのタスク
の優先度の平均を選択する。例えば、その中で一番高い
優先度を選択しても良い。そして、これらがメールの優
先度より低いか調べ(ステップ7804)、YESなら
ば音声を使って通知し(ステップ7805)、NOなら
ば何も通知しない(ステップ7806)。この場合、ア
イコンの表示を変化させたり、動画像を用いたりといっ
た様々な方法をユーザへのメールの受信通知に用いるこ
とができる。
【0245】応用プログラムとして、メールシステム以
外に、シェルツールとDTPシステムが、音声入出力シ
ステムに接続している時の画面の表示例を図74に示
す。図74(a)は、タスク重要度管理テーブルが図7
2の状態の時の画面表示例である。ここで、重要度3を
持つメールを受信したとすると、図73に示した処理に
よればここで音声フォーカスの当たっているシェルツー
ルの重要度が、メールの重要度より高い(小さい値ほど
重要度が高いと見做す)ため、メールシステムはメール
の受信をユーザに通知しない。これに対して、タスク重
要度管理テーブルが図75の状態にある(対応する画面
表示例は図74(b))時に、先ほどと同様に、重要度
3のメールを受信した際には、メールシステムは「新し
いメールを受信しました」という音声出力を行ない、メ
ールの受信をユーザに通知する。また、通知と同時にメ
ールシステムは、自身に対して音声フォーカスを設定す
ることによってユーザの作業に割り込み、ユーザにメー
ルシステムを使わせることが可能である。
【0246】このように、新規受信の通知などに関する
メッセージを、メールの重要度や作業の重要度に従って
変化させることで、ユーザの作業を疎外しない柔軟なイ
ンターフェースをユーザに提供できることになる。
【0247】(第16実施例)第15実施例におけるメ
ール文書の読み上げ機能は、受信したメールの一部ある
いは全部をその文面に対して何の変更も加えず、合成音
声を使ってそのまま読み上げるものであった。この方法
は、メール文書が少なく、おしなべて小さい場合には問
題は少ないが、メールが多く、大きくなるに従い、その
機能だけでは不十分である。
【0248】図77は、音声メールシステムの概略構成
を示すもので、音声入出力システム821に接続される
音声メールシステム822を電子メール処理部822
1、文書要約部8222、メッセージ入出力部8223
より構成している。この場合、図78に示すように文書
要約部8222を音声メールシステム822の外に設け
るようにしてもよい。
【0249】ここで、メールシステム822は、音声入
出力システム821と接続してその音声入出力機能を用
いる。電子メール処理部8221は、外部の公衆回線や
LANを通じ、電子メール文書の送受信や、受信したメ
ールに対する処理を行なう。文書要約部8222は、電
子メールなどの文書を要約するシステムである。テキス
ト文を要約する技術としては、「石橋ほか、英文要約シ
ステム「DIET」、情報処理学会第48回全国大会、
6D−9(1989)」や、「喜多、説明文を要約する
システム、情報処理学会自然言語処理研究会、63−3
(1987)」などが知られており、この技術を応用し
て、文書要約部を構成できる。
【0250】文書要約部8222は、電子メール処理部
8221から要約前のメール文書を受け取り、要約して
返す。電子メール処理部8221は、受信したメールの
重要度や、文書の長さや文書の内容などに従って、その
メール文書を要約するか否か、また、どのような要約を
行なうかを決定し、要約方法の情報とともにメールを文
書要約部にひきわたす。電子メール処理部8221は、
メールを受信するたびに、例えば図79に示すような処
理を行ない、受信メールに対する要約方法を決定する。
【0251】この場合、メールの重要度が「3」以上か
判断し(ステップ8401)、「3」以上であれば要約
しない(ステップ8402)。「3」以上出なければ、
メール本分中に「至急」を含むか調べ(ステップ840
3)、「至急」を含めば、さらに文書が長いか調べ(ス
テップ8404)、文書が長くなければ要約せず(ステ
ップ8402)、文書が長ければ要約する(ステップ8
405)。また、本分中に「至急」を含まなければ、先
頭行だけを要約する(ステップ8406)。そして、メ
ールに従った要約処理を行う(ステップ8407)。
【0252】メールのような文書の場合、その内容が完
結していなかったり、短すぎたりして、要約に適さない
こともあると考えられるが、その場合には、短いメール
に対しては、要約を行なわない(必要がない)こともで
きるし、完結していなくて要約に失敗したメール文書に
対しては、例えば、最初や最後の数行を取り出して読み
上げるようにすれば、すべてのメールに対して何らかの
要約処理をほどこすことができるといえる。要約は、例
えば、音声による「要約」コマンドの形でユーザが指示
することによってもできるし、あるいは、メールシステ
ムが、受信メールの全てを(あるいは長いものだけを)
自動的に要約しておくことによってもできる。
【0253】このように、音声メールツールがメール文
書の要約機能を具えることで、メール文書処理の効率化
をはかることができ、時に多忙なユーザや、大量のメー
ルを処理する必要のあるユーザにとっては、便利であ
る。
【0254】(第17実施例)第15および第16実施
例においては、音声入出力システムの提供する音声認識
および合成機能の利用に関して、音声メールツールを使
って述べた。
【0255】これらは、GUIおよび音声出力を使って
ユーザに情報を提供していたが、電話インターフェース
などの、GUIを利用できない環境において第15およ
び16実施例で述べた機能はより有用である。本実施例
では、GUIを利用しない電話を介した音声入出力イン
ターフェースについて、音声メールシステムの例を使っ
て述べる。
【0256】図80は第17実施例の概略構成を示して
いる。この場合、音声認識システム851に接続される
音声メーメシステム852にメールアドレステーブル8
53を接続している。
【0257】この場合、音声入出力システム851は電
話回線に接続されるが、この電話回線との接続は、既存
技術を使えば可能であり、ここでは述べない。電話から
の音声メールシステム852への入力は、音声およびプ
ッシュボタンにより行なえるとする。
【0258】メールは個人情報であるため、電話でメー
ルの内容を確認する前にあらかじめ個人情報の認証手続
が必要である。これは電話のプッシュボタン等で行なう
かパスワードの音声認識、あるいは話者照合技術により
行なう。
【0259】認証手続において利用者を確認した後、音
声認識を利用して、メールへのアクセスを対話的に進め
る。ここで述べる音声メールシステム852は、第1
5、16実施例で述べた音声認識と音声合成の機能が全
て利用できる。即ち、音声入力によって、音声メールの
全部のあるいは部分のあるいは要約された内容の確認を
行なうことができる。音声メールシステム852の操作
は基本的に全て音声を使って行なう。従って、メール送
信も音声により行なう。電話インターフェースでは、プ
ッシュボタンを使ってメールの内容を入力するのは現実
的ではないため、メールの内容自体も音声となる。音声
によるメール文書の作成は、音声認識と音声の録音を同
時に行なうことで可能となる。図80の構成において、
認識と録音を同時に行なうことは疎外されない。図81
に、音声を使ったメール文書作成の例を示す。場面設定
は、受信したメールの内容を音声(合声/肉声)により
確認した後、そのメールに対して返事を出す所である。
【0260】まず、(1)のユーザの「録音開始」とい
う音声を認識し、メールシステムは続くユーザの音声
(2)の「○○です〜お伝え下さい」をメール文書とし
て録音する。(2)の最後の「ストップ、ストップ」
は、録音を停止する命令である。「ストップ」が繰り返
されているのは、メール本文中の「ストップ」と、命令
としての「ストップ」を区別するためである。「ストッ
プ、ストップ」全体を認識対象語彙としても良い。メー
ルシステムは「ストップ、ストップ」の区間を録音され
たデータからカットする。ユーザは(3)の「内容確
認」によりメール文書の内容(4)を確認し、(5)の
「送信」によりメールを送信する。最後に(6)のメッ
セージにより、メールの送信を認識する。
【0261】ここで、(2)でユーザがデータを録音す
る際に、音声認識システムの音声認識部の中の音声検出
部に音声データの先頭を検出させれば、「録音開始」か
ら本文の入力までの間に間があいても、その無音区間を
録音せずに済む。
【0262】また、録音終了を指定するための「ストッ
プ、ストップ」などの単語の代わりに「送信」と発声
し、「送信」を認識したならば、録音内容をメールデー
タとして自動的に送信してしまうこともできる。こうす
れば、録音の停止を指定する「ストップ」の発声が不要
になり、簡単にメールを送信できる。この時、送信した
メールの内容は、「内容確認」などの発声により確認し
なくとも、自動的に録音内容を再生することによって確
認できる。
【0263】また、「録音開始」後、1つの音声区間を
録音するようにすると、「ストップ、ストップ」のよう
な録音停止命令は不要となる。音声区間の終端は、例え
ば「3秒間無音であれば音声データの入力終了とみな
す」のように、余裕をもたせた設定にすれば、ユーザが
一息でメッセージを入力しなければならないというよう
な制約が緩和される。
【0264】このように、データとしての音声区間を検
出するために、応用プログラムと音声認識システムとの
間のメッセージとして、図82のメッセージを追加す
る。この音声区間検出メッセージは往復メッセージであ
り、図83に示すような手順でもって、音声区間のデー
タを入力音声から切り出すことができる。音声区間検出
メッセージでは、パラメータとして、音声の終端を検出
するための時間(例えば、3秒間無音区間が続いたら、
その無音区間の前を音声区間とみなす)や、入力音声が
ない場合のタイムアウト指定(要求を発信してから30
秒たったら、音声区間は検出されなかったとみなす)が
できる。
【0265】また、メール文書の題は、ここで述べたよ
うに、受信メールに対して返事を出す際には、UNIX
メールでの表現でいえば、受信したメールの“ Subject
:hello “に対しては“ Subject : re: hello“のよう
に、返事としての題を入れられるといえるが、電話口で
新規にメールを作成する場合には、そのメールに題を付
けられない。それを可能にするために、音声認識を組み
合わせる。例を図84に示す。
【0266】この場合、ユーザの(1)「サブジェク
ト」という音声をメールシステムが認識すると、メール
システムは、サブジェクト入力モードになる。このモー
ドでは、予め決められたサブジェクト(題)用の単語が
認識対象語彙となる。例えば、「こんにちは」「お知ら
せ」「至急連絡下さい」「ごくろうさま」「会議通知」
などが考えられる。図84の例では、(2)「会議通
知」を入力する。メールシステムは「会議通知」を認識
すると、メール文書にテキスト“ Subject :会議通知
“を挿入し(3)、(4)のような確認のメッセージを
合成音声により行なう。
【0267】サブジェクト入力モード時の認識結果をう
けて行なうのは、メールの題の挿入だけではなく、例え
ば、定型的なメール文書の入力が可能である。図85
は、「ごくろうさま」という入力に対して、メールの本
文として挿入される定型メールの例である。文書中の
{receiver}と{sender}は、受信者、発信者の代入さ
れる変数を表している。この変数により、誰にでも同一
の文面のメールを音声だけで送信できる。定型メールを
データベース化し、そのデータを音声で呼び出すことが
可能であれば、便利であると考えられる。
【0268】また、第15実施例においては、メール文
書中の任意の場所に音声データを追加・挿入可能とした
が、サブジェクト入力モードにおいて、サブジェクト自
体に音声データを付けることを可能とし、例えば、メー
ルの受信と同時に音声サブジェクトを出力すれば、メー
ルの発信者やメールの内容が受信者に伝わり易いと考え
られる。もちろん、音声認識によるサブジェクトの挿入
と音声サブジェクトの録音を同時に行なっても良い。
【0269】受信メールに対する返事を送信するのでは
なく、電話口から送信先を指定するのには、音声認識を
利用する。そのために、あらかじめ、学習機能を応用し
て単語登録を行ない、認識対語語彙とメールアドレスを
結びつけておく。例えば図86に示すような外観を持つ
アドレスブックをメールシステムに持たせ、図87に示
すメールアドレスの登録機能によって、メールアドレス
と音声を結びつける。この時の登録の手順は、 遙メールアドレスブック(図86)を開く 遙登録用ウィンドウ(図87)を開きメールアドレスの
新規登録を開始する。 遙名前とアドレスをキーボードで入力する。 遙学習に必要な回数(数回〜数十回)、新しい単語(こ
の例では鈴木)を発声する。 遙OKボタンを押し、登録を完了する。
【0270】このようにして、認識対語語彙(鈴木)
と、メールアドレス(Suzuki@aaa,bbb,
ccc,co.jp)とを結びつけておき、電話口で利
用する。例えば、図88の手順で行なう。まず(1)で
ユーザが「送信先」と発声し、認識されると、メールシ
ステムは、(2)のメッセージを音声出力し、ユーザに
確認をとる。(3)では図A、Bなどによって登録され
た語彙が認識対象となっており、この例では、「鈴木」
が認識されると、メール文書中にto:Suzuki@
aaa,bbb,ccc,co.jpが挿入される。
【0271】(4)(5)はメールアドレスの認識の様
子を示している。(4)の「鈴木」の音声のように、例
えば図87における登録の際に利用した音声の1つを自
動的に録音しておき、認識の確認に使うことができる。
【0272】(4)の「Suzuki@…」は、合成音
声によるアルファベット読み下しを使って確認を行なう
例である。
【0273】この方法では、音声によるメールアドレス
の指定は、予め登録したものにしか適用できないが、次
に述べるように、予め登録しているメールアドレスを音
声を使って指定することができる。そのためにまず、ユ
ーザが過去に受け取ったメールから、自動的にメールア
ドレスのデータベースを作成する機能を付ける。メール
アドレスは、UNIXメールにおいては、メールのヘッ
ダとして入っており、そこからデータベースを作成する
のは困難ではない。メールアドレスの構成は、例えば、 ユーザ名@部課名、組織名、組織区分、国の区分 のような構成になっており、メールアドレスの逆順(国
→ユーザ名)にツリー状の階層構造を持つデータベース
が作成できる。
【0274】メールシステムは、国の区分から順に、図
89のように合成音声による読み上げを用いて、メール
アドレスを順にたどっていく。図89の例において、あ
やまったノード(メールアドレスを順にたどった際の
節)を選択した際は「取り消し」などの語彙をもって、
1つ前の(上位の)ノードに戻ったり、「取り止め」な
どの語彙をもって、アドレスの入力を取り止めたりでき
る。また、任意のノードに認識対語語彙を予め結びつけ
ておき、例えば、会社名を発声することで、その会社の
メールアドレスノードまで、一時に移動することもでき
る。
【0275】このような方法をとれば、過去にメールを
くれた人に対してならば、音声をつかってそのメールア
ドレスを指定することが可能となる。
【0276】また、単語単位の認識辞書が不要な音韻認
識をベースとした音声認識システムが広く研究されてい
るが、これを用いることにより過去に届いたメール中に
該当するアドレスがない場合でも、音声によってアドレ
スを入力し、メールを転送することが可能である。
【0277】(第18実施例)本発明の第1実施例や第
14実施例で述べた音声認識インターフェースでは、音
声認識システムあるいは音声入出力システム専用に開発
した応用プログラムを対象として、音声認識や音声合成
のサービスを提供するものであった。本実施例では、上
記のような専用プログラムに対する音声による制御に加
えて、前記音声認識システムあるいは音声入出力システ
ムと直接メッセージをやり取りすることのできないよう
な任意の応用プログラムに対する音声による制御を可能
とする拡張を前記音声認識インターフェースに施すもの
である。これによって、音声認識の応用分野とユーザの
拡大を図ることができる。本実施例では、第14実施例
に上記拡張を施した例を説明するが、同様の拡張を第1
実施例に施すことが可能であることは明らかである。
【0278】以下、本実施例について説明する。図90
は、本実施例の音声入出力インターフェースの全体構成
であり、第14実施例で述べたものと同一の音声入出力
システム1と、そのメッセージ処理部11(図示せず)
に応用プログラムとして接続された音声インターフェー
ス管理システム(以下、SIMと呼ぶ)104からな
る。
【0279】汎用応用プログラム(以下、GAPと呼
ぶ)103は、音声入出力システム1と直接接続されて
いない応用プログラムであり、音声入出力システム1と
は全く独立して動作可能なプログラムである。これに対
して、専用応用プログラム(以下、SAPと呼ぶ)10
2は、音声入出力システム1と直接接続して動作するも
のである。
【0280】SIM104は、SAPの一つであり、音
声入出力システム1とGAP103との仲立ちをして、
GAP103に対する音声による操作を可能にする応用
プログラムである。音声フォーカスの表示も、SIM1
04が行なう。なお、SAP102は、図50の応用プ
ログラム2に対応するものである。SAPおよびGAP
は、1つの音声入出力システムに対してそれぞれ複数個
存在することが可能である。
【0281】次に、SIM104による、GAP103
に対する操作について説明する。GAP103は、SA
P102と異なり音声入出力システムと直接接続されて
はおらず、GAP103が受け付けられる入力は、音声
以外のキーボードやマウスといった入力装置からのもの
である。従って、SIM104は、音声によるGAP1
03の操作を実現するために、音声入力をGAP103
の受理できる形の入力、例えばキーボード入力やマウス
入力等に変換する。本実施例では、SIM104は、図
90に示すように、音声インターフェース管理部14
1、プログラム操作登録部142、メッセージ変換部1
43から構成される。音声インターフェース管理部14
1内には、応用プログラムごとの音声認識結果と操作と
の対応表が設けられており、この対応表(以下、音声イ
ンターフェース管理テーブルと言う)の情報は、プログ
ラム操作登録部142によって登録される。前記メッセ
ージ処理部11と直接接続されるメッセージ変換部14
3は、音声入出力システム1とのメッセージのやり取り
を行なう機能、つまり図6のメッセージ入出力部21の
機能を包含するものであり、認識結果を受信した際に、
音声インターフェース管理テーブルを参照して、該認識
結果をGAP103に対する操作コマンドに変換し、G
AP103に送信する。
【0282】SIM104からGAP103に操作コマ
ンドを送るには、GAP103自身が他のアプリケーシ
ョンからの操作の手段を提供していなければならない。
【0283】ウインドウシステムを利用したアプリケー
ションであれば、SIM104はウインドウシステムを
介して、そのGAP103へキーやマウスなどの入力デ
バイスによる操作コマンドの入力時に発生するのと同じ
メッセージをGAP103に送る。このようなメッセー
ジ送信の方法はXウインドウシステムなどの各ウインド
ウシステムの提供するライブラリにある機能で容易に実
装できる。実際、ウイドウシステムでは、メッセージの
送付先がGAP103そのものではなく、GAP103
の中で生成したウインドウなどのオブジェクトの場合も
ある。メッセージ送信時に、そのオブジェクトの識別子
である必要があるケースもあるが、後述するプログラム
操作登録の内容や、ウインドウシステムに問合せて識別
子の情報から、送り先のオブジェクトの識別子を決定す
ることは容易である。
【0284】次に、具体例をあげて説明する。図91に
示すように、1つの音声入出力システム1に対して、音
声インターフェース管理システム104とメールツール
120が直接接続して動作し、また音声入出力システム
1と直接接続できないGAPであるシェルツール130
とエディタ131が並行して動作しているとする。この
ときの画面表示は、例えば図92のように行なえる。
【0285】この場合のSIM104の音声インターフ
ェース管理テーブルの一例を図93に示す。この表にお
ける“プログラム名”は、認識対象語彙であり、ユーザ
がプログラム名を発声することで応用プログラムに対す
る疑似音声フォーカスを切り換えることができる。“応
用プログラム”は、応用プログラム自体の識別子である
と共に、コマンドの送信対象を表す。
【0286】上記の疑似音声フォーカスは、応用プログ
ラムに対して疑似的に設けた音声フォーカスである。G
APは音声入出力システム1と直接接続しておらず、従
って、音声入出力システム1はGAPの存在を関知しな
いため、GAPに対して本当の音声フォーカスは設定さ
れない。SIM104は、「シェルツール」や「エディ
タ」等、GAPの名前を認識結果として受け取ると、そ
のプログラムについて定義されているコマンド名を認識
対象語彙とする設定要求を、音声入出力システムに対し
て行なう(例えば、「シェルツール」の場合、「エルエ
ス」や「プロセス」)。そして、図12や図19等で示
したような音声フォーカスの表示をそのプログラムに対
して行なう。
【0287】図94に示すように、GAP103に関係
する真の音声フォーカスはSIM104に設定され、実
際に画面に表示されるのは疑似音声フォーカスである。
SIM104が、プログラム名の認識をきっかけにし
て、認識のコンテキストを切り換えるのである。なお、
メールツールにみるように、SAPの疑似音声フォーカ
スと真の音声フォーカスは合致する。
【0288】SIMおよびGAPのコマンド名の属性
は、SIMに対してローカルである。すなわち、SIM
に音声フォーカスが設定されているときに認識対象とな
る。SAPにコマンドを送信する際、SIM104に音
声フォーカスが設定されない状態であるため、SAP1
02に関するコマンド名は、グローバル属性を持つ。例
えば、図93のメールツールのコマンド名「終了」の属
性がグローバルである。なお、図93で、ローカル,グ
ローバルといった認識対象語彙の属性は、プログラム名
および認識対象語彙の欄の括弧内に示されている。属性
値は、“0”がローカル、“1”がグローバルである。
【0289】このようなメッセージ変換部143の処理
手順の一例を図95に示す。すなわち、音声入出力シス
テム1のメッセージ処理部11から受信した認識結果が
プログラム名である場合、直前の疑似フォーカスに関す
るコマンド名を認識対象からはずし(ステップ900
3)、認識したプログラム名を持つ応用プログラムに疑
似フォーカスを設定し(ステップ9004)、その応用
プログラムのコマンド名を認識対象として設定(追加)
する(ステップ9005)。
【0290】一方、受信した認識結果がプログラム名で
ない場合(ステップ9002)、コマンド名に対応する
コマンドを、疑似フォーカスの設定されている応用プロ
グラムに送信する(ステップ9006)。
【0291】以上述べたように、本実施例のような構成
をとることにより、既に存在する音声入力(認識)を用
いない応用プログラム(GAP)に対しても、音声認識
の利用が可能となり、ユーザの拡大と使い勝手の向上が
実現できる。
【0292】(第19実施例)ウィンドウベースのGU
I(グラフィカル・ユーザ・インターフェース)を持つ
システム下では、1つのプログラムを複数のウィンドウ
を使って構成することができる。本実施例では、上記第
18実施例をもとに、複数のウィンドウを持つ応用プロ
グラムの個々のウィンドウに対する音声入力を可能にす
るべく、システムを拡張した例を説明する。これによ
り、よりきめ細かい音声認識の利用が可能となり、操作
性が向上する。
【0293】これまで説明してきた実施例においては、
音声入出力システム1によって音声フォーカスが設定可
能な単位は、“応用プログラム”であったが、本実施例
では、その単位を“音声ウィンドウ”とする。音声ウィ
ンドウは、応用プログラム中に複数個作成可能であり、
個々の音声ウィンドウは、音声ウィンドウ名、入力マス
ク、および認識対象語彙セットを持つ。
【0294】図96が、実施例14(図50参照)で説
明した音声入出力システム1を拡張して、音声ウィンド
ウを扱えるようにしたものである。ここで、図96の応
用プログラム管理テーブル13は、後述するように拡張
する。また、応用プログラム2に音声ウィンドウ23が
加わっているが、音声ウィンドウ23の実体は、音声入
出力システム1の応用プログラム管理テーブル13中に
存在する。
【0295】以下、具体例をあげて説明する。第18実
施例と同様に、応用プログラムとして、SIM(10
4)、シェルツール、エディタ、およびメールツールの
4つが動作しているとする。このうち、SIMとメール
ツールはSAPであり、シェルツールとエディタはGA
Pである。図97のように、シェルツールとエディタを
それぞれ2つのウィンドウから構成し、それ以外を1つ
のウィンドウから構成したとする。この場合の音声入出
力インターフェース全体の構成を図98に示す。専用プ
ログラム(SAP)であるメールツール120は、自分
用の音声ウィンドウ223を持ち、SIM104は、自
分用の音声ウィンドウ0(1440 )に加えて、汎用プ
ログラム用の音声ウィンドウ1〜4(1441 〜144
4 )を持つ。この音声ウィンドウは、図97に示すよう
ないわゆるウィンドウシステム(図示せず)やOS(図
示せず)におけるウィンドウとは異なり、ビジュアルな
属性を持たないものである。ウィンドウシステムのウィ
ンドウは、通常、ツリー構造を持ち、その構造やウィン
ドウシステムの内部状態の変化を応用プログラム内部か
ら知ることができる。SIM104は、そのようなウィ
ンドウシステムの情報と、音声入出力システム1の情報
にアクセスし、ウィンドウと音声ウィンドウとを結びつ
けて協調的に動作させ、統一的なユーザインターフェー
スを提供する。ウィンドウと音声ウィンドウとの結び付
けは、両者にウィンドウ名などの一意かつ同一の属性を
付与したり、プログラム操作登録部142で対話的に行
なうことで可能である。
【0296】音声ウィンドウはその属性として、ウィン
ドウ名、認識対象語彙、入力マスク等を持ち、音声入出
力システム1はこの音声ウィンドウ単位で音声フォーカ
スの設定を行なう。ウィンドウ名やコマンド名などの認
識対象語彙の属性として、ローカル、グローバルに加
え、ウィンドウを設ける。ローカル属性を持つ語彙は、
それが属する音声ウィンドウに音声フォーカスが設定さ
れている時に認識対象となる。グローバル属性を持つ語
彙は、音声フォーカスがどこに設定されていようと常に
認識対象となる。ウィンドウ属性を持つ語彙は、それが
属する音声ウィンドウに音声フォーカスが設定されてい
なくとも、その音声ウィンドウと同じ応用プログラムに
属する音声ウィンドウに音声フォーカスが設定されてい
る時に認識対象となる。
【0297】また、複数の音声ウィンドウをグループ化
して認識語彙を混合し、認識結果に応じて自動的にその
認識語彙の属する音声ウィンドウへ結果を送信すること
もできる。例えば、応用プログラム管理テーブルが図1
02の状態の場合に、シェルツールとエディタをグルー
プ化してエルエス、プロセス、カット、コピー、ペース
トを1度に認識し、エルエスまたはプロセスが認識され
た場合はシェルツールへ認識結果を送り、カット、コピ
ー、またはペーストが認識された場合にはエディタへ認
識結果を送るようにする。
【0298】これにより、シェルツールとエディタの間
の音声フォーカスの移動を省略して効率的に両者の作業
を行うことができる。複数の音声ウィンドウの語彙の中
にも同じものがある場合には、それを語彙として持つ複
数の音声ウィンドウへ同時に認識結果を送信しても良い
し、音声フォーカスの当たっている音声ウィンドウを優
先させることにしても良い。なお、グループ化は、図1
02の応用プログラム管理テーブルのグループ化IDの
属性により、行うかどうかを決めることができる。
【0299】また、音声ウィンドウのグループ化の一方
法として、音声ウィンドウに親子関係を導入し、親ウィ
ンドウと子ウィンドウをグループ化して両者の語彙を同
時に認識することもできる。例えば、応用プログラム管
理テーブルが図102の状態の場合に、シェルツールの
設定ウィンドウに関して、その親のシェルツールウィン
ドウと設定ウィンドウをグループ化する。そして、設定
ウィンドウに音声フォーカスが当たったときに両者の混
合した語彙によって認識を行う。
【0300】これにより、子音声ウィンドウに音声フォ
ーカスが当たっている場合に、音声フォーカスの移動を
省略してその親ウィンドウへの音声入力を行うことがで
き、作業が効率化できる。なお、親ウィンドウと子ウィ
ンドウで同じ語彙を持つ場合には、音声フォーカスの当
たっている子ウィンドウに優先して認識結果を送るよう
にできる。
【0301】図98の状態の時、SIM104の音声イ
ンターフェース管理部141内の音声インターフェース
管理テーブルは、図99のようになる。図93のテーブ
ルにウィンドウIDを加え、プログラム名の替りにウィ
ンドウ名を追加した形である。ウィンドウIDとは、ウ
ィンドウシステムにおけるウィンドウの識別子である
(図97参照)。図99に示すように、ウィンドウID
と音声ウィンドウIDとは一対一に対応しており、この
表を用いてSIM104はウィンドウと音声ウィンドウ
とを連動させる。例えば、この例でいうと「シェルツー
ル」を認識したならば、SIM104はID=1の音声
ウィンドウに音声フォーカスを設定し、ID=101の
ウィンドウの表示を図19に示したように音声フォーカ
スの設定された状態にする。
【0302】ウィンドウシステムやOSによっては、他
の応用プログラムウィンドウの表示を変更できない場合
があるが、そのときには図100の斜線部w1で示すよ
うな形で独立した別のウィンドウを他の応用プログラム
のウィンドウに貼り付け、音声フォーカスの所在を示
す。この外付けウィンドウの表示の例を図101に示
す。図のように、応用プログラムの上部に音声フォーカ
スを示す表示(ウィンドウ)が示される。なお、このウ
ィンドウの位置は、音声フォーカスが明示できればどこ
でも良く、また数もいくつでも良い。また、静止画だけ
でなく、動画像を使うことで、音声フォーカスの位置が
より分かり易くなる。
【0303】ここで、図18で示した音声入出力システ
ム1の応用プログラム管理テーブル13は、図102に
示すように拡張される。新たな欄として音声ウィンドウ
IDおよびウィンドウ名が付加されている。音声ウィン
ドウIDは、音声フォーカスの設定されている音声ウィ
ンドウの識別子であり、ウィンドウ名はその名前であ
る。ローカル,グローバルといった認識対象語彙の属性
は、ウィンドウ名および認識対象語彙の欄の括弧内に示
されている。属性値は、“0”がローカル、“2”がグ
ローバル、“1”がウィンドウである。音声入出力イン
ターフェース1の構成が図98である場合の音声入出力
システム1の応用プログラム管理テーブル13は図10
2に示す状態にあり、音声インターフェース管理システ
ム104の音声インターフェース管理テーブルが図99
に示す状態にある。この時、疑似音声フォーカスによっ
て、ユーザには、音声フォーカスが“シェルツール”
(ウィンドウID=101)に設定されているように見
えている。一方、真の音声フォーカスは、ウィンドウ
(ID=101)と対応付けられた所の音声ウィンドウ
(ID=1)に設定されており、その音声ウィンドウ
は、SIM104に属している。例えば、この状態で認
識可能な語彙は、「エルエス」、「プロセス」、「シェ
ルツール」、「エディタ」、「メールツール」、「シス
テム」、および「設定」である。
【0304】上記構成において、音声入出力システム1
が認識処理を行い、その認識結果が、それぞれの語彙が
設定されている音声ウィンドウに送られる。図103
に、この認識処理の手順の一例を示す。
【0305】まず、ウィンドウ(0)について、音声フ
ォーカスが設定されている場合、当該ウィンドウ(0)
に設定されている語彙を認識語彙リストに追加する(ス
テップ9103)。一方、音声フォーカスが設定されて
いない場合、当該ウィンドウ(0)が音声フォーカスの
設定されている音声ウィンドウと同じ応用プログラムに
属すときは、当該ウィンドウ(0)の語彙のうち属性値
が“1”であるものを認識語彙リストに追加し(ステッ
プ9105)、属しないときは、当該ウィンドウ(0)
の語彙のうち属性値が“2”であるものを認識語彙リス
トに追加する(ステップ9106)。
【0306】以上の処理を、ウィンドウ(1)をはじめ
とする他の全ウィンドウについて行う。
【0307】そして、認識処理を行い(ステップ910
8)、第1位の認識結果がウィンドウ名である場合、第
1位の語彙が設定されていたウィンドウに音声フォーカ
スを設定し(ステップ9110)、ウィンドウ名でない
場合、第1位の語彙が設定されていたウィンドウに上記
認識結果を送信する(ステップ9111)。
【0308】例えば、図102において、認識可能な語
彙の1つである「設定」の設定されている音声ウィンド
ウは2つ(ID=2とID=4)あるが、それぞれの語
彙の属性が“1”(=ウィンドウ)であることから、こ
こで認識した結果「設定」は、音声ウィンドウID=2
に送られる。これに対して、音声フォーカスが音声ウィ
ンドウID=3に設定されている場合に認識された「設
定」は、音声ウィンドウID=4に送られる。ウィンド
ウ名を認識した際に音声入出力システム1の動作として
は、単に認識結果をウィンドウ名の属する音声ウィンド
ウに送ることもできるし、送らずに音声フォーカスをそ
の音声ウィンドウに設定することもできる。
【0309】このように、認識対象語彙にウィンドウ属
性を持たせることで、複数の応用プログラムのウィンド
ウに同一の名前を付け、操作することが可能となる。本
実施例により音声認識インターフェースとしての使い勝
手が大幅に向上する。
【0310】(第20実施例)第18実施例および第1
9実施例で述べたように、音声認識システムからの音声
メッセージを音声インターフェース管理システム104
によって音声メッセージを変換して送信することによ
り、音声入出力インターフェースと直接通信する手段を
持たない既存の応用プログラムに対しても、音声入力を
行なうことが可能になった。
【0311】既存の応用プログラムに本発明の音声入出
力インターフェースを適用する場合には、既存のプログ
ラムの操作と、それを行うための語彙との対応を、音声
入出力インターフェース専用の応用プログラムとは別個
にとる必要がある。この実施例では、“語彙”と“プロ
グラムの操作”との対応をとるためのプログラム操作の
登録について説明する。
【0312】プログラム操作の登録では、音声フォーカ
スを目的の応用プログラムに移動させるのに用いるプロ
グラム名またはウィンドウ名の登録と、既存の応用プロ
グラムの操作を行なうためのキー入力またはマウス入力
イベントの系列と語彙との対応づけを行なう。例えば、
シェルツールのウィンドウを2つ使う場合には、ウィン
ドウ名として「シェル1」、「シェル2」と付け、シェ
ルツールの中で行なう操作、例えば画面上の文字を全部
消去するクリア(clear )コマンドを行なうためのキー
入力系列に対し「クリア」という単語を割り当て、登録
する。
【0313】通常、一般の応用プログラムは、そのプロ
グラムが表示しているウィンドウのウィンドウ名を持っ
ていないため、名前でウィンドウを指定するためには、
ウィンドウに名前を付け、音声インターフェース管理テ
ーブルからウィンドウ名で対象ウィンドウを識別できる
ようにすることが必要である。このため、第19実施例
の図99に示すように、音声インターフェース管理テー
ブルに、ウィンドウシステムにおけるウィンドウ識別子
であるウィンドウIDとウィンドウ名とを格納するフィ
ールドを持たせている。このテーブルにより、音声イン
ターフェース管理部141は、例えば「エデイタ」が認
識結果として送られて来た場合には、ウィンドウID1
03を持つウィンドウに対して疑似音声フォーカスを設
定する。上述のウィンドウIDは、ウィンドウシステム
(図示せず)の持つ情報にアクセスすることにより得ら
れる。例えば、ウィンドウシステムのサーバー(図示せ
ず)に、ウィンドウ構造に関する情報を問い合わせるこ
とにより得ることができるが、ウィンドウ名も同時に得
られるとは限らない。ウィンドウIDとウィンドウ名を
同時に得るにはウィンドウ名を指定してプログラムを起
動する方法があるが、既に動作中のプログラムが別のウ
ィンドウを新たに生成するポップアップウィンドウのよ
うな場合には、起動前から名前を付けることは困難であ
る。そのような場合には、マウスでウィンドウをクリッ
クすることによって、そのウィンドウのウィンドウID
を獲得し、そのウィンドウIDにウィンドウ名を対応さ
せるという方法でウィンドウ名を付けることができる。
マウスがクリックされたウィンドウのIDは、ウィンド
ウシステムのサーバーに問い合わせることで容易に得ら
れる。
【0314】次に、ウィンドウへの名前付けとプログラ
ム操作の登録方法について以下に説明する。図104
は、前記プログラム操作登録部142の構成である。こ
のプログラム操作登録部142は、登録内容の画面への
表示とユーザからの入力を行なうプログラム操作表示編
集部151と、登録内容をファイル200に保存する登
録内容保存部152と、ウィンドウシステムからウィン
ドウIDを取得するウィンドウID取得部153からな
る。
【0315】プログラム操作表示編集部151は、例え
ば図105のような登録画面を表示してウィンドウ名や
プログラム操作、単語名などの入力を行ない、前記音声
インターフェース管理部141内の音声インターフェー
ス管理テーブルに登録内容を書き込む。登録内容保存部
152は、プロクラム操作の登録内容をファイル200
に保存する。ウィンドウIDの取得は、ウィンドウシス
テムのサーバーに問い合わせることにより容易に行なえ
る。
【0316】図105の登録画面は、プログラム操作登
録内容を音声インターフェース管理テーブルに書き込む
「登録」ボタン、入力内容を取り消して入力前の状態に
戻すための「取り消し」ボタン、登録を終了するための
「終了」ボタン、対象とする一般応用プログラムのウィ
ンドウIDを取得するための「ウィンドウID取得」ボ
タン、応用プログラムの種類を入力する「応用プログラ
ムクラス」(APクラス)ウィンドウ、ウィンドウ名を
入力する「ウィンドウ名」ウィンドウ、および語彙とそ
れに対応したプログラム操作を表すキー入力系列または
マウス入力系列を入力するプログラム操作入力ウィンド
ウからなる。
【0317】図105では、応用プログラムクラスとし
て「シェル」、シェルのウィンドウ名として「シェル
1」が選択され、背景色が反転しており、シェル1に対
する操作として単語「エルエス」と「クリア」に相当す
るキー入力操作と、それらの語彙のスコープとしてロー
カル(0)が、編集用ウィンドウに入力された状態を示
している。
【0318】次に、プログラム操作の登録手順について
図106を用いて説明する。プログラム操作登録部14
2は、メッセージ変換部143から起動され、まず、プ
ログラム操作登録内容を保存した登録内容ファイル20
0から登録内容を読み出し(ステップ9201)、画面
表示を行ないユーザの入力待ちの状態(ステップ920
2)になる。
【0319】ここで、ユーザが、APクラス、ウィンド
ウ名、語彙、プログラム操作などの入力、あるいは、登
録ボタン、取り消しボタン、終了ボタン、ウィンドウI
D取得ボタン等の入力を行なう。
【0320】入力が登録ボタンであった場合には(ステ
ップ9203)、画面に表示されている編集結果を保存
ファイル200へ保存し、更に音声インターフェース管
理テーブル141へ書き込んで登録内容を音声入出力イ
ンターフェースの動作に反映させる(ステップ920
4)。
【0321】入力が取り消しボタンであった場合には
(ステップ9205)、再度、保存ファイル200から
登録内容を読み込んで表示し、入力待ちの状態に戻る
(ステップ9202)。
【0322】入力が既に登録済みの応用プログラムクラ
ス(APクラス)であった場合(ステップ9206)選
択されたAPクラスのウィンドウ名の一覧と語彙、プロ
グラム操作を画面表示し(ステップ9207)、入力待
ちの状態に戻る(ステップ9202)。
【0323】入力がウィンドウID取得ボタンであった
場合(ステップ9208)、まず、ウィンドウ名が選択
されているか判別し(ステップ9209)、選択されて
いない場合には入力待ちに戻り(ステップ9202)、
選択されている場合にはマウスでウィンドウがクリック
されるのを待ち、クリックされたウィンドウのIDを取
得して、図99に示すような音声インターフェース管理
テーブルに選択されているウィンドウ名とウィンドウI
Dを書き込む(ステップ9210)。
【0324】入力が終了ボタンである場合(ステップ9
211)には、画面表示内容の内容の音声インターフェ
ース管理テーブルへの書き込みとファイル200への保
存を行なって(ステップ9212)、登録を終了する。
【0325】以上述べたように、プログラム操作登録の
際、応用プログラムの種類を指定することにより、同一
のプログラム操作を入力せずに、自動的に指定すること
が可能になり、登録が効率的に行なえるようになる。
【0326】また、名前を指定して起動することが困難
な応用プログラムのウィンドウに対しても、マウスのク
リックされたウィンドウのIDを取得してウィンドウ名
と結び付けるようにすることにより、容易にウィンドウ
名を付けて音声入力を行なえるようになる。
【0327】上述の登録の例では、すでに生成されてい
るウインドウのIDを利用して、操作コマンドと認識結
果の対応をとっていたが、一般にウインドウ等のオブジ
ェクトIDは生成時に決定され、同じ種類のアプリケー
ションであっても異なるIDが付与される。したがっ
て、登録時にウインドウ階層やウインドウ名など、同じ
種類のアプリケーションで共通のウインドウ属性値をウ
インドウシステムに問い合わせて登録内容に付加してお
けば、これらの属性値を照合することによって同種のア
プリケーションで共通に登録内容を反映させることがで
きる。
【0328】さらに、この登録時に、登録対象のアプリ
ケーションに複数のウインドウ名を登録しておくことに
よって、同じ種類のアプリケーションが起動された時に
(既に使われいる音声ウインドウ名を音声認識システム
に問合わせて)使われていないウインドウ名を起動され
たアプリケーションの音声ウインドウ名として利用すれ
ば音声ウインドウ名の衝突を避けることができる。
【0329】(第21実施例)次に、音声入出力インタ
ーフェースにおいて音声の認識を行なうための認識辞書
の編集機能に関する実施例について説明する。
【0330】図107は、辞書編集部144を持つ音声
インターフェース管理システム104の構成である。辞
書編集部144は、メッセージ変換部143から起動さ
れ、編集を終了すると終了メッセージをメッセージ変換
部143へ返す。この終了メッセージを受けて音声イン
ターフェース管理部141は、音声入出力システム1
へ、編集した後の新しい辞書のロード命令を出すことが
できる。
【0331】ここで、図108は、認識辞書の構成の例
である。認識辞書には単語ごとに、パターンマッチング
用のテンプレートの他、単語名や単語ID、あるいは認
識パラメータ等のデータがヘッダに格納されている。こ
れらのデータの内容を表示し、編集する機能を備えるこ
とにより、使わない単語の辞書を削除して辞書に要する
実行時のメモリ量を減らしたり、単語名やIDを付け替
えたりすることが容易に行なえるようになる。
【0332】次に、辞書編集部144の構成について説
明する。辞書編集部144は、図109に示すように、
辞書内容を表示してユーザが編集を行なえるようにする
辞書内容表示編集部441と、辞書内容のチェックや検
索を行なう辞書内容検索部442からなる。
【0333】辞書内容は、例えば図110のような画面
に表示される。画面中には、辞書名を表示する辞書名ウ
ィンドウ、語彙番号、単語ID、単語、パラメータ、辞
書番号を表示する辞書内容ウィンドウ、辞書の削除を行
なう「削除」ボタン、パラメータの検索を行なう「検
索」ボタン、内容の全表示を行なう「全表示」ボタン、
辞書編集を終了する「終了」ボタン、辞書内容チェック
結果を表示するステータスウィンドウ、検索の際の値を
入力する検索値ウィンドウなどがある。辞書内容ウィン
ドウのパラメータの項目はメニューになっており、マウ
スでクリックすると図に示すようなパラメータ内容が表
示されて表示する内容を選択するようにできる。
【0334】辞書内容のチェックは、辞書名を選択した
ときに自動的に動作するようにでき、例えば、同じID
の単語がないか、あるいは同じ単語名の辞書がないか等
のチェックや、認識パラメータのくい違いがないか等の
チェックが行なわれ、結果がステータスウィンドウに表
示される。
【0335】図110の項目では、辞書として、“comm
on”および“usr.1”というファイル名の辞書が選択さ
れ、辞書内容としてその2つの内容がマージして表示さ
れる。例えば、語彙No.“1”はID=1のオープン
で辞書作成に使ったデータ数が100であることを示し
ている。また、語彙No.“2”はID=2のクリアで
この単語が選択されて背景色が暗く変わっていることを
示している。
【0336】次に、辞書編集の処理の手順を、図111
を用いて説明する。辞書編集部が起動されるとまず、辞
書ファイルから辞書内容を読み出し(ステップ930
1)、画面に内容を表示して入力待ちする状態になる
(ステップ9302)。
【0337】入力が削除ボタンであった場合には(ステ
ップ9303)、ユーザが指定した辞書Noの辞書をフ
ァイルから削除し(ステップ9304)、入力待ちに戻
る(ステップ9302)。
【0338】入力が全表示ボタンであった場合には(ス
テップ9305)、辞書内容を再度読み出して(ステッ
プ9301)、入力待ちに戻る(ステップ9302)。
【0339】入力が検索ボタンであった場合には、パラ
メータメニューからのパラメータの指定を待ち(ステッ
プ9307)、指定されたパラメータと検索値ウィンド
ウに入力された値に合致する辞書のみ辞書内容として表
示して(ステップ9308)、入力待ちに戻る(ステッ
プ9302)。
【0340】入力が終了ボタンであった場合には、画面
に入力した内容から辞書ファイルを更新し(ステップ9
310)終了したことをメッセージ変換部へ知らせて
(ステップ9311)終了する。
【0341】以上に述べた辞書編集部により、不要な単
語辞書の削除や内容の確認、単語名の変更などの編集が
容易に行なえ、また同じIDや単語の2重使用や認識パ
ラメータの不統一のチェック等が容易に行なえる。
【0342】(第22実施例)本発明の第18,19実
施例で述べた音声入出力インタフェースでは、ユーザの
発声の認識結果の確認および認識結果により引きおこさ
れる応用プログラムの動作の確認は、応用プログラムの
提示する画面情報を通じて行っている。例えば、認識結
果(および認識失敗)を文字情報としてユーザに提示す
る。「シェルツール」などプログラム名を呼んだ時にシ
ェルツールの表示を第19実施例の図100,101の
ように変更する。「アイコン化」の発声に対して、音声
フォーカスの当たったウィンドウをアイコン化する等、
音声による応用プログラムへの働きかけは、応用プログ
ラムの行う画面表示の変化としてユーザへフィードバッ
クされる。しかし、応用プログラムによっては、操作に
よりその表示が殆んどあるいは全く変化しない事も考え
られる。また、キーボードフォーカスと音声フォーカス
を分離できるという本発明の特長を生かして音声フォー
カスを当てた応用プログラムを表示しない状態で使用す
ることも考えられる。このような場合には、認識結果や
それによる操作の確認を画面出力ではなく、第14実施
例で述べた、音声合成機能を利用した音声出力によって
行うことで、ユーザの応用プログラム操作上の利便性が
向上する。
【0343】動作確認を音声出力によって行うために、
第19実施例の音声インタフェースマネージャ(図9
8)を図112のように拡張する。すなわち、音声イン
タフェース管理システム(SIM)に応答音声管理部4
01と応答音声登録部403を追加する。
【0344】ユーザの行った発声に対してどのような応
答音声を返すかを定義するのが、応答音声管理部401
であり、その登録を行うのが応答音声登録部403であ
る。そして、動作(すなわちメッセージ)が発生した際
に応答音声管理部401を参照して音声応答を出力する
のが、メッセージ変換部143である。
【0345】応答音声管理部401の例を図113に示
す。応答音声管理部401は、音声応答を出力するきっ
かけとなる動作と、動作時に行う応答コマンドおよび、
その設定を実際に適用するか否かを決定するフラグから
成る。動作は、音声によらないものでもよい。応答に
は、コマンドが記述される。synth()は、その引
数をテキストとして合成音声を出力するコマンド、pl
ay()は、引数を波形データと見做し、出力するコマ
ンドである。
【0346】メッセージ変換部143は応答音声管理部
401のデータを参照し、図114に示す流れにより処
理を行う。先ず、音声入出力シスムテから受信したメッ
セージが認識結果か否かを判定し(ステップ1000
1)、認識処理が成功したか否かを判定する(ステップ
10002)。ついでその成功・失敗に応じて、音声応
答コマンドを実行する(ステップ10003,ステップ
10004)。ステップ10005は、認識処理の成功
・失敗以外の応答音声を出力する段階であり、図113
の3行目以下の設定にあたる。この流れに従えば、認識
はできたが類似度が低い、あるいは音声入力レベルが大
き(小さ)すぎるなどの理由によって、認識失敗した際
には、「えっ?」などという音声データが出力され、応
用プログラム名、例えば「メール」が認識された時に
は、合成音声により「はい、メールです」などと出力さ
れる。ここで、図113中の$<cat>は、認識結果
の語彙名が置換される)。
【0347】応答音声管理部401のコマンドを登録す
るのが、図115に示す応答音声登録部403である。
各動作に対してコマンドを記述し、また適用するか否か
のチェックボックスをチェックし、OKボタンを押すこ
とで登録を確認する。
【0348】応答音声管理部403の応答コマンドは、
メッセージ変換部143が処理するものであり、第19
実施例の図99に示した音声インタフェース管理テーブ
ルのコマンドとして記述できる。ここにplay()お
よびsynth()コマンドを記述することで、音声入
出力システム1と直接情報を交換できないGAPの動作
に対して、その応用プログラムに即した応答音声出力を
定義できる。
【0349】このように、音声入力によって行われる
(あるいは行われない)動作に対して、動作毎に意味の
ある音声応答を返す機構をSIMに設け、音声入力に対
しては音声で応答するという自然な方法で、ユーザが画
面の表示の変化を注視しなくとも(あるいは全くみなく
とも)応用プログラムの実行した動作を確認できるた
め、音声入出力インタフェースの操作性が向上する。
【0350】(第23実施例)本発明の第9実施例で
は、認識辞書作成のためのデータ収集について説明した
が、収集データの中には、間違った語彙の発声や音声区
間の検出誤りなどにより、誤りデータが含まれることが
ある。例えば「ひらく」という単語は「く」の音が小さ
く発声されることがあり、「く」が抜けて「ひら」のみ
音声区間として検出されることがある。このような誤っ
たデータによる認識辞書の学習は認識精度を大きく低下
させるため、データの確認を行って誤りデータを取り除
くことが必要である。そこで本実施例では、データの確
認を容易に且つ確実に行なえるように、音を再生して聞
くことによりデータ確認するようにしている。
【0351】従来、収集した音声データを再生して確認
する方法では、検出された音声区間のみを再生する場合
が多いが、語彙によっては、音声の始終端が誤って検出
されている場合でもユーザがそれを聞きもらしてしまう
という問題があった。例えば上に述べた「ひらく」の語
尾の「く」が抜けて「ひら」だけになってしまった場合
でも、「ひら」の再生音が「ひらく」と聞こえてしまう
ことがある。本実施例では、このような始終端の確認の
ミスを少なくするため、音声の始終端位置を音により分
り易く提示するようにしている。これにより、音声デー
タの確認が音により容易に且つ確実に行なえるようにな
るため、学習データの収集が簡単でミスなく行なえ、音
声入出力インタフェースの使い勝手の向上と認識精度の
向上が実現できる。
【0352】始終端位置を分り易くする方法としては、
(方法1)検出された音声区間の前後に白色雑音や正弦
波など既知の音を付加して再生する方法、(方法2)始
終端位置にクリック音を乗せて再生する方法、(方法
3)始端よりも一定時間前から終端よりも一定時間後ま
での発声全体を再生した後、音声区間のみを再生する方
法、などが考えられる。
【0353】上記方法1によれば、先程述べた「ひら
く」の例では、「ひら」の後にすぐ別の音が続くため、
「く」が抜けていることを容易に聞き取ることができ
る。上記方法2によれば、「ひら」の後に続いて、クリ
ック音が来るため「く」が抜けていることが分る。ま
た、上記方法3によれば、発声全体と音声区間とを比較
して聞くことができるため、「く」の有無を容易に識別
することができる。
【0354】ここで、本実施例による拡張したデータ収
集部8の構成を図116に示す。
【0355】データ収集部8は、図116に示すよう
に、第9実施例の図29のデータ収集部8に、音声デー
タ確認部411、データ使用可否入力部413を加え、
学習データ収集制御部83を介して音声特徴データを音
声特徴データ保存部に送るような構成になっている。す
なわち、音声データ確認部411で提示された再生音を
聞いて、ユーザがその音声データを辞書作成に使うか否
かをデータ使用可否入力部413から指定できるような
構成になっている。
【0356】このデータ収集部8の処理の流れを図11
7に従って説明する。
【0357】まず、初期設定では、ユーザからのデータ
収集の指示により、データ収集部8から音声認識システ
ム1に対して学習モード設定要求が出され(ステップ1
1001)、これを受けて音声認識システムは認識対象
語彙をデータ収集部8に送る。データ収集部8では認識
対象語彙がユーザに表示される(ステップ1100
2)。
【0358】ユーザにより学習語彙が選択されると(ス
テップ11003)、データ収集部8は音声認識システ
ム1に単語音声特徴データと単語音声波形データの送信
を要求し(ステップ11004)、選択された語彙を発
声のガイドとして発声ガイド表示部415に表示し(ス
テップ11005)、ユーザに発声を促す。音声認識シ
ステム1では発声されたユーザの音声を処理した後、デ
ータ収集部8に単語特徴データと波形データを送信す
る。そして、データ収集部8はそのデータを受信し、内
部メモリに一時格納する(ステップ11006)。
【0359】音声波形データは音声データ確認部411
に送られ、ユーザがそのデータを確認し、辞書作成に使
うか否かを、データ使用可否入力部413により入力す
る(ステップ11007)。データを使用するとした場
合には単語音声特徴データが磁気ディスク上などにファ
イル出力され(ステップ11008でYESの場合およ
びステップ11009)、使用しないとした場合にはフ
ァイル出力しない(ステップ11008でNOの場
合)。
【0360】学習終了時にはユーザがデータ収集終了の
指示を入力し、データ収集指示フラグがOFFならば
(ステップ11010でYesの場合)、データ収集部
8は学習モードの解除を音声認識システム1に要求する
(ステップ11012)。音声認識システム1では、そ
れを受けて学習モードを解除する。一方、学習を終了し
ないときは、データ収集指示フラグを検査し(ステップ
11011)、上記ステップ11004以下の処理を繰
り返す。データ収集指示フラグは、学習データ収集制御
部の中に設定されており、図に示すようなデータ収集ボ
タンにより、ユーザが入力可能とすることができる。
【0361】次に、本実施例の音声データ確認部411
の構成を図118に示す。
【0362】音声データ確認部411は、音声データを
格納する音声データメモリ421、音声データを加工す
る音声データ加工部422、加工に用いる付加音を生成
する付加音生成部424、加工後の音声データを再生し
て音にする再生部423から成り、学習データ収集部制
御83から音声データと始終端位置に関する情報を受け
取って加工後、音として出力する。加工後の音を音声入
出力システムに送って音データを再生することにすれ
ば、再西部423はなくても良い。
【0363】次に、図119に従って処理の流れについ
て説明する。
【0364】まず、学習データ収集制御部83から音声
データと始終端情報を受け取り、音声データメモリ42
1に格納する(ステップ12001,ステップ1210
1,ステップ12201)。この音声データは、音声区
間の前後に一定時間、例えば240msecの余裕を付
けた波形データであり、例えば図120に示すようなも
のである。図のデータは「ひらく」の「ひら」が音声区
間として検出されたため、「く」の音は終端の余裕の中
に入っている。
【0365】次に、音声区間の前後に付加音をつける上
記方法1の場合では、付加音を付加音生成部424で作
り(ステップ12002)、音声データ加工部422で
始終位置の前と終端位置の後にこの付加音を付加する
(ステップ12003,ステップ12004)。この結
果、音声データ図121の(a)に示すようなものにな
る。
【0366】付加音データは白色ノイズでも良いし、正
弦波でも良く、これらは乱数発生ルーチンや三角関数の
ルーチンを使って容易に作成できる。又、録音データを
単に読み出すだけでも良い。
【0367】始終端位置にクリック音を付加する上記方
法2の場合では、クリック音を付加音生成部424で作
り(ステップ12102)、始終端位置に付加する(ス
テップ12103,ステップ12104)。この結果、
音声データは図121の(b)に示すようなものにな
る。ここでクリック音は短時間、例えば数10msec
幅のパルスや三角波等で良い。
【0368】発声の全体と音声区間の両方を再生する上
記方法3の場合では、まず、音声区間外の平均パワーを
計算し(ステップ12202)、この値が、しきい値、
例えば雑音レベル+2dBよりも大きければ(ステップ
12203でYESの場合)、音声区間の前後についた
余裕と音声区間とを合わせた音声全体を再生する(ステ
ップ12204)。一方、計算した平均パワーがしきい
値よりも小さければ(ステップ12203でNOの場
合)、音声区間のみ再生する(ステップ12205)。
雑音レベルは音声認識システム1で音声検出のために常
時測定しているため(永田、他“ワークステーションに
おける音声認識機能の開発”,電子情報通信学会技術報
告、HC9119,pp.63−70,(1991)、
参照)それを用いれば良い。発声全体の再生と音声区間
の再生の2回の再生を、発声の毎に行なうのは煩しいた
め、上述のように音声区間の外の音声パワーが大きいと
きに、始終端位置を誤った可能性が大きいと見なして、
そのときのみ2回の再生を行なうようにすれば、煩しさ
を軽減できる。
【0369】この場合、図121の(c)に示すよう
に、発声全体の再生音は「ひらく」の全発声が再生され
るが、音声区間のみの再音声は「ひら」だけしか再生さ
れないため、続けてこの2つの再生音を聞いて比較する
ことによって「く」が抜けていることを容易に識別でき
る。
【0370】以上に述べたように、音声データが正しい
か否かをユーザが再生音により容易に判断することがで
き、データを辞書作成に使用するか否かをデータ収集部
で直ちに入力することができるため、音声データ収集を
簡単に、且つ確実に行なうことができる。
【0371】これにより、誤ったデータを除いて認識辞
書を作成することができる。
【0372】
【発明の効果】本発明によれば、各応用プログラムによ
り音声認識システムに対する音声認識結果の受信の可否
を決定できるので、応用プログラムが自分や他の応用プ
ログラムの音声入力に関する制御を自由に行うことがで
き、柔軟で使いやすい音声認識インターフェースが構築
できる。また、音声認識システムがその音声認識結果を
同時に複数の応用プログラムに送信できるので、一つの
音声入力による操作を同時に複数の応用プログラムに対
して行うこともでき、音声入力による計算機の操作性も
向上する。さらに音声認識システムが複数の応用プログ
ラムに対する音声認識を行えるので、音声入力対象の明
示的な指定をせずに音声認識結果に基づき音声入力を各
応用プログラムに振り分けることができ、利用者の負担
を軽減できる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】音声認識部の概略構成を示す図。
【図3】音声認識部の他例の概略構成を示す図。
【図4】音声認識部の他例の概略構成を示す図。
【図5】音声認識部の他例の概略構成を示す図。
【図6】応用プログラムの概略構成を示す図。
【図7】構成要素間で伝送されるメッセージを説明する
図。
【図8】入力マスクの種類を示す図。
【図9】音声認識インターフェース各部の処理のタイム
チャートを示す図。
【図10】応用プログラム管理テーブルを説明する図。
【図11】本発明の第2実施例の概略構成を示す図。
【図12】一般的なウィンドウシステムの画面表示例を
示す図。
【図13】応用プログラムの認識語彙を説明する図。
【図14】入力フォーカスの移動に伴う音声認識語彙の
変化を説明する図。
【図15】認識語彙の表示例を説明する図。
【図16】マウスの位置により認識語彙を変更する状態
を説明する図。
【図17】本発明の第3実施例での応用プログラムの認
識語彙を説明する図。
【図18】応用プログラム管理テーブルを説明する図。
【図19】本発明の第4実施例を説明する図。
【図20】本発明の第5実施例の概略構成を示す図。
【図21】メッセージ表示例を示す図。
【図22】ワークステーションなどのマルチウィンドウ
環境を示す図。
【図23】本発明の第6実施例での応用プログラム管理
テーブルを示す図。
【図24】図23の応用プログラム管理テーブルに基づ
く表現を説明する図。
【図25】タスク管理プログラム機能の拡張例を示す
図。
【図26】本発明の第7実施例での表示例を説明する
図。
【図27】同第7実施例での表示例を説明する図。
【図28】本発明の第9実施例の概略構成を示す図。
【図29】学習データ収集部の概略構成を示す図。
【図30】音声認識システムとのメッセージ交換を説明
する図。
【図31】音声認識システムのデータ収集時のフローチ
ャートを示す図。
【図32】学習データ収集部のフローチャートを示す
図。
【図33】学習語彙ガイド表示部での表示例を示す図。
【図34】学習語彙ガイド表示部での表示例を示す図。
【図35】データ収集時の音声認識インターフェースの
処理の流れを示す図。
【図36】本発明の第10実施例の概略構成を示す図。
【図37】辞書作成管理テーブルを示す図。
【図38】辞書作成管理テーブルを示す図。
【図39】辞書作成管理テーブルを示す図。
【図40】辞書作成管理テーブルへの登録手順を説明す
る図。
【図41】辞書作成の手順を説明する図。
【図42】辞書作成の進行状況の表示例を示す図。
【図43】辞書作成処理の速度表示の例を示す図。
【図44】辞書作成処理の速度表示の例を示す図。
【図45】本発明の第11実施例の概略構成を示す図。
【図46】音声認識自動停止処理を説明する図。
【図47】本発明の第12実施例を説明する図。
【図48】同第12実施例を説明する図。
【図49】本発明の第13実施例を説明する図。
【図50】本発明の第14実施例の概略構成を示す図。
【図51】音声合成部の概略構成を示す図。
【図52】音声出力管理テーブルを説明する図。
【図53】音声入力に対するメッセージを説明する図。
【図54】音声出力に対する入力マスクを説明する図。
【図55】応用プログラム管理テーブルを説明する図。
【図56】音声出力処理のフローチャートを示す図。
【図57】音声出力処理のタイムチャートを示す図。
【図58】音声出力要求処理のフローチャートを示す
図。
【図59】中断処理のある音声データを重畳する際の一
例を説明する図。
【図60】本発明の第15実施例の概略構成を示す図。
【図61】応用プログラムと音声入出力システム間で交
わされるメッセージを説明する図。
【図62】音声メールツールが音声データを録音する処
理のタイムチャートを示す図。
【図63】音声メールツールの画面表示例を示す図。
【図64】音声データ編集用のサブウィンドウを示す
図。
【図65】メール送信による返信の文面例を示す図。
【図66】音声データ編集用のサブウィンドウを示す
図。
【図67】合成音声の属性のデータベースの一例を示す
図。
【図68】メール読み上げ時に使用する音声コマンドの
例を示す図。
【図69】音声メールシステムの概略構成を示す図。
【図70】応用プログラム管理テーブルを説明する図。
【図71】メールシステムと音声入出力システム間のメ
ッセージを説明する図。
【図72】タスク重要度管理テーブルを説明する図。
【図73】音声メールシステムの電子メール処理のフロ
ーチャートを示す図。
【図74】受信メールの通知例を示す図。
【図75】タスク重要度管理テーブルを説明する図。
【図76】制御コード交じりのメール例を示す図。
【図77】本発明の第16実施例の概略構成を示す図。
【図78】本発明の第16実施例の概略構成を示す図。
【図79】要約設定処理のフローチャートを示す図。
【図80】本発明の第17実施例の概略構成を示す図。
【図81】音声を使ったメール文書作成例を示す図。
【図82】応用プログラムと音声認識システムの間のメ
ッセージ例を示す図。
【図83】音声区間データを入力音声から切り出す処理
のタイムチャートを示す図。
【図84】音声によるメール題の入力を説明する図。
【図85】定型的なメール文書の入力を説明する図。
【図86】メールアドレスブックの画面表示例を示す
図。
【図87】音声入力可能なメールアドレスの登録例を示
す図。
【図88】音声によるメール送付先指定の手順を説明す
る図。
【図89】メールアドレスのデータベースを用いたメー
ル送付先指定を説明する図。
【図90】本発明の第18実施例の概略構成を示す図。
【図91】同第18実施例におけるシステム構成を示す
図。
【図92】同第18実施例での画面表示例を示す図。
【図93】音声インターフェース管理テーブルの一例を
示す図。
【図94】疑似音声フォーカスと音声フォーカスとの対
応関係を示す図。
【図95】メッセージ変換部のフローチャートを示す
図。
【図96】本発明の第19実施例の概略構成を示す図。
【図97】同第19実施例での画面表示例を示す図。
【図98】同第19実施例のより詳細な構成を示す図。
【図99】音声インターフェース管理テーブルの一例を
示す図。
【図100】音声フォーカスの表示方法を説明するため
の図。
【図101】外付けウィンドウの表示例を示す図。
【図102】応用プログラム管理テーブルの一例を示す
図。
【図103】音声入出力システムの認識処理のフローチ
ャートを示す図。
【図104】本発明の第20実施例の概略構成を示す
図。
【図105】プログラム操作の登録画面の一例を示す
図。
【図106】プログラム操作登録の処理手順を示す図・
【図107】本発明の第20実施例の概略構成を示す
図。
【図108】認識辞書の構成の一例を示す図。
【図109】辞書編集部の概略構成を示す図。
【図110】辞書編集画面の一例を示す図。
【図111】辞書編集部の処理のフローチャートを示す
図。
【図112】本発明の第22実施例の概略構成を示す
図。
【図113】応答音声管理部の概略構成を示す図。
【図114】メッセージ変換部の処理のフローチャート
を示す図。
【図115】応答音声登録部の概略構成を示す図。
【図116】拡張したデータ収集部の概略構成を示す
図。
【図117】図116のデータ収集部の処理のフローチ
ャートを示す図。
【図118】音声データ確認部の概略構成を示す図。
【図119】音声データ確認部の処理のフローチャート
を示す図。
【図120】音声データの一例を示す図。
【図121】加工後の音声データの様子を示す図。
【図122】従来の音声認識インターフェースを示す
図。
【図123】従来の音声認識インターフェースを示す
図。
【図124】従来の音声認識インターフェースを示す
図。
【図125】従来の音声認識インターフェースを示す
図。
【図126】従来の音声認識インターフェースを示す
図。
【符号の説明】
1、3、6…音声認識システム、11…メッセージ処理
部、12…音声認識部、121…音声検出部、122…
音声分析部、123…認識辞書照合部、124…音声認
識辞書、13…応用プログラム管理テーブル、2、5、
7…応用プロクラム、21、71…メッセージ入出力
部、22…プログラム本体、4…ウインドウシステム、
8…データ収集部、81…単語音声特徴データ保持部、
82…学習語彙表示選択部、83…学習データ収集制御
部、84…学習語彙ガイド表示部、9…辞書作成部、9
1…辞書作成管理部、92…辞書作成制御部、93…デ
ータ入力部、94…辞書作成部本体、95…ファイル出
力部、10…音声認識自動停止部、14…音声合成部、
561…全体制御部、562…波形重畳部、563…音
声出力管理テーブル、564…波形合成部、651…音
声入出力システム、652…ウィンドウシステム、65
3…音声メールツール、6531…電子メール処理部、
6532…メッセージ入出力部、821…音声入出力シ
ステム、822…音声メールシステム、8221…電子
メール処理部、8222…文書要約部、8223…メッ
セージ入出力部、851…音声認識システム、852…
音声メーメシステム852、853…メールアドレステ
ーブル、103…汎用応用プログラム(GAP)、10
2…専用応用プログラム(SAP)、104…音声イン
ターフェース管理システム(SIM)、141…音声イ
ンターフェース管理部、142…プログラム操作登録
部、143…メッセージ変換部、23…音声ウィンド
ウ、14400 〜14404 …音声ウィンドウ、151
……プログラム操作表示編集部、152…登録内容保存
部、153…ウィンドウID取得部、144…辞書編集
部、441…辞書内容表示編集部、442…辞書内容検
索部、401…応答音声管理部401、403…応答音
声登録部、411…音声データ確認部、413…データ
使用可否入力部、415…発生ガイド表示部、421…
音声データメモリ、422…音声データ加工部、423
…再生部、424…付加音データ保存部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 永田 仁史 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 瀬戸 重宣 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 竹林 洋一 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 山口 浩司 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 新地 秀昭 東京都青梅市新町1385番地 東芝ソフトウ ェアエンジニアリング株式会社内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声認識システムに複数の応用プログラ
    ムを接続した音声認識インターフェースにおいて、 前記音声認識システムは、音声を認識する音声認識手
    段、前記複数の応用プログラムに関する情報を管理する
    応用プログラム管理手段、この応用プログラム管理手段
    の情報に基づいて音声入力に対する認識対象語彙の特
    定、前記音声認識手段の認識結果の送信先の特定を行う
    メッセージ処理手段を具備したことを特徴とする音声認
    識インターフェース。
  2. 【請求項2】 音声入力の対象を単数または複数の応用
    プログラムに指定する音声フォーカスの変更を音声入力
    より可能にする手段を有する請求項1記載の音声認識イ
    ンターフェース。
  3. 【請求項3】 音声入出力システムに複数の応用プログ
    ラムを接続した音声入出力インターフェースにおいて、 前記音声入出力システムは、音声を認識する音声認識手
    段、音声を合成する音声合成手段、前記複数の応用プロ
    グラムに関する情報を管理する応用プログラム管理手
    段、この応用プログラム管理手段の情報に基づいて音声
    入力に対する音声認識対語語彙の決定、前記音声認識手
    段の認識結果の送信先の決定、前記複数の応用プログラ
    ムからの音声出力の制御を行なうメッセージ処理手段を
    具備することを特徴とする音声入出力インターフェー
    ス。
  4. 【請求項4】 前記音声合成手段は、複数の応用プログ
    ラムからの音声データ出力要求に関する情報を管理する
    音声出力管理手段、文字データから音声データを合成す
    る波形合成手段、前記出力要求に関する情報に従い前記
    複数の音声データに含まれる同時刻のデータを重畳する
    音声データ重畳手段を具備することを特徴とする請求項
    3記載の音声入出力インターフェース。
  5. 【請求項5】 音声入出力システムに接続され音声によ
    り電子メールの送受信を行なう音声入出力インターフェ
    ースにおいて、 応用プログラムにおいて行なう作業の重要度を管理する
    タスク重要度管理手段と、前記作業の重要度と受信した
    電子メールとの比較を行ない電子メールの受信の通知方
    法を決定する電子メール通知決定手段とを具備すること
    を特徴とする電子メールシステム。
  6. 【請求項6】 請求項1に記載の音声認識システムまた
    は請求項3に記載の音声入出力システムに複数の応用プ
    ログラムと応用プログラムの操作を行なう音声インター
    フェース管理システムとを接続した音声入出力インター
    フェースにおいて、 前記音声インターフェース管理システムは、前記音声入
    出力システムからの音声認識結果から前記応用プログラ
    ムにおける操作へのメッセージ変換を行うメッセージ変
    換手段と、前記メッセージ変換に関する情報を管理する
    音声インターフェース管理手段と、前記音声認識結果に
    対応した前記応用プログラムにおける操作を登録するた
    めのプログラム操作登録手段とを具備することを特徴と
    する音声入出力インターフェース。
  7. 【請求項7】 前記応用プログラム管理手段は、応用プ
    ログラムを構成するウィンドウごとに音声フォーカスお
    よび認識対象語彙の管理を行ない、 前記メッセージ処理手段は、前記応用プログラム管理手
    段の情報、ならびに音声フォーカスの情報および認識語
    彙の属性情報に基づいて、認識結果の送信対象を決定す
    ることを特徴とする請求項6に記載の音声入出力インタ
    ーフェース。
  8. 【請求項8】 前記音声インターフェース管理システム
    は、音声認識に用いる認識辞書の内容を表示してユーザ
    が編集を行なう辞書内容表示編集手段と、辞書内容を検
    索する辞書内容検索手段とをさらに具備することを特長
    とする請求項6または7に記載の音声入出力インターフ
    ェース。
  9. 【請求項9】 前記音声インタフェース管理システム
    は、応答音声を管理する応答音声管理手段と、応答音声
    を登録する応答音声登録手段とをさらに具備し、前記メ
    ッセージ変換手段は、該応答音声管理手段の応答音声に
    関する情報を用いて、音声入力に応じた応答音声の出力
    を行なうことを特徴とする請求項6または8に記載の音
    声入出力インタフェース。
  10. 【請求項10】 前記音声認識システムまたは前記音声
    入出力システムは、認識辞書作成のための音声データ収
    集を行なう学習データ処理手段と、認識辞書を作成する
    辞書作成手段とを具備し、前記学習データ収集手段は収
    集データの音声区間を音により強調して再生することを
    特徴とする請求項6または7に記載の音声入出力インタ
    フェース。
JP35314293A 1992-12-28 1993-12-28 音声認識インターフェース Expired - Lifetime JP3725566B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP35314293A JP3725566B2 (ja) 1992-12-28 1993-12-28 音声認識インターフェース

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP35859792 1992-12-28
JP7892093 1993-03-12
JP4-358597 1993-09-20
JP25640593 1993-09-20
JP5-256405 1993-09-20
JP5-78920 1993-09-20
JP35314293A JP3725566B2 (ja) 1992-12-28 1993-12-28 音声認識インターフェース

Publications (2)

Publication Number Publication Date
JPH07140998A true JPH07140998A (ja) 1995-06-02
JP3725566B2 JP3725566B2 (ja) 2005-12-14

Family

ID=27466232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP35314293A Expired - Lifetime JP3725566B2 (ja) 1992-12-28 1993-12-28 音声認識インターフェース

Country Status (1)

Country Link
JP (1) JP3725566B2 (ja)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JPH1049342A (ja) * 1996-04-25 1998-02-20 Fujitsu Ltd 音声セッションのスケジューリング装置および方法
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2000148179A (ja) * 1998-11-12 2000-05-26 Internatl Business Mach Corp <Ibm> サブ語彙を指定する方法及びプログラム記憶装置
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
JP2001117574A (ja) * 1999-10-21 2001-04-27 Nec Corp 文書読み上げ装置および文書読み上げ方法ならびに文書読み上げプログラムを記録する記録媒体
JP2001515611A (ja) * 1997-12-30 2001-09-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コマンド辞書を使用する音声認識装置
JP2002116854A (ja) * 2000-10-11 2002-04-19 Canon Inc 情報入力装置、情報入力方法及び記憶媒体
JP2002540703A (ja) * 1999-03-31 2002-11-26 クゥアルコム・インコーポレイテッド 通話容易化装置用の口頭ユーザインターフェイス
JP2003029958A (ja) * 2001-07-13 2003-01-31 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
JP2003504675A (ja) * 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 転送手段を有するスピーチ認識装置
US6714223B2 (en) 2000-04-14 2004-03-30 Denso Corporation Interactive-type user interface device having root scenario
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
US7099824B2 (en) 2000-11-27 2006-08-29 Canon Kabushiki Kaisha Speech recognition system, speech recognition server, speech recognition client, their control method, and computer readable memory
JP2006270949A (ja) * 2005-03-19 2006-10-05 Microsoft Corp 同時キャプチャアプリケーションのための自動オーディオゲイン制御
US7505910B2 (en) 2003-01-30 2009-03-17 Hitachi, Ltd. Speech command management dependent upon application software status
JP2009252238A (ja) * 2008-04-08 2009-10-29 Lg Electronics Inc 移動端末機及びそのメニュー制御方法
JP2009294310A (ja) * 2008-06-03 2009-12-17 Mitsubishi Electric Corp 発話権調整システムおよび発話可能機器
JP2010160507A (ja) * 1998-11-13 2010-07-22 Motorola Ltd 分散音声認識プロセスにおけるエラーの軽減方法および装置
JP2011227507A (ja) * 2003-06-06 2011-11-10 Trustees Of Columbia University In The City Of New York ウェブ・ページを音声付勢するためのシステム及び方法
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
US8781837B2 (en) 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
CN104640323A (zh) * 2015-02-12 2015-05-20 上海欧美拉光电股份有限公司 一种led灯语音控制系统
WO2016063621A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JP2018506105A (ja) * 2014-12-19 2018-03-01 アマゾン テクノロジーズ インコーポレイテッド 音声ベースシステムにおけるアプリケーションフォーカス
JP2018511095A (ja) * 2015-01-09 2018-04-19 マイクロソフト テクノロジー ライセンシング,エルエルシー デジタルパーソナルアシスタント内のヘッドレスタスクの完了
CN110168635A (zh) * 2017-01-18 2019-08-23 雅马哈株式会社 声部显示装置、电子音乐装置及声部显示方法
US10434412B2 (en) 2014-10-24 2019-10-08 Sony Interactive Entertainment Inc. Control apparatus, control method, program, and information storage medium
JPWO2019163011A1 (ja) * 2018-02-21 2020-10-01 三菱電機株式会社 表示制御装置および表示制御方法
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
US10901688B2 (en) 2018-09-12 2021-01-26 International Business Machines Corporation Natural language command interface for application management

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040001340A (ko) * 2002-06-27 2004-01-07 주식회사 케이티 음성인식 시스템의 음성명령 중개 방법

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288494A (ja) * 1996-04-23 1997-11-04 Sony Corp 音声認識装置および音声認識方法
JPH1049342A (ja) * 1996-04-25 1998-02-20 Fujitsu Ltd 音声セッションのスケジューリング装置および方法
JP2001515611A (ja) * 1997-12-30 2001-09-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ コマンド辞書を使用する音声認識装置
JP2000099076A (ja) * 1998-09-25 2000-04-07 Fujitsu Ltd 音声認識を活用した実行環境設定装置及び方法
JP2000148179A (ja) * 1998-11-12 2000-05-26 Internatl Business Mach Corp <Ibm> サブ語彙を指定する方法及びプログラム記憶装置
JP2010160507A (ja) * 1998-11-13 2010-07-22 Motorola Ltd 分散音声認識プロセスにおけるエラーの軽減方法および装置
US8050912B1 (en) 1998-11-13 2011-11-01 Motorola Mobility, Inc. Mitigating errors in a distributed speech recognition process
JP2010160506A (ja) * 1998-11-13 2010-07-22 Motorola Ltd 分散音声認識プロセスにおけるエラーの軽減方法および装置
JP2002540703A (ja) * 1999-03-31 2002-11-26 クゥアルコム・インコーポレイテッド 通話容易化装置用の口頭ユーザインターフェイス
JP2001034293A (ja) * 1999-06-30 2001-02-09 Internatl Business Mach Corp <Ibm> 音声を転写するための方法及び装置
JP4659311B2 (ja) * 1999-07-08 2011-03-30 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 転送手段を有するスピーチ認識装置
JP2003504675A (ja) * 1999-07-08 2003-02-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 転送手段を有するスピーチ認識装置
JP2001117574A (ja) * 1999-10-21 2001-04-27 Nec Corp 文書読み上げ装置および文書読み上げ方法ならびに文書読み上げプログラムを記録する記録媒体
US6714223B2 (en) 2000-04-14 2004-03-30 Denso Corporation Interactive-type user interface device having root scenario
JP2002116854A (ja) * 2000-10-11 2002-04-19 Canon Inc 情報入力装置、情報入力方法及び記憶媒体
US7099824B2 (en) 2000-11-27 2006-08-29 Canon Kabushiki Kaisha Speech recognition system, speech recognition server, speech recognition client, their control method, and computer readable memory
JP2003029958A (ja) * 2001-07-13 2003-01-31 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7505910B2 (en) 2003-01-30 2009-03-17 Hitachi, Ltd. Speech command management dependent upon application software status
JP2011227507A (ja) * 2003-06-06 2011-11-10 Trustees Of Columbia University In The City Of New York ウェブ・ページを音声付勢するためのシステム及び方法
JP4706893B2 (ja) * 2004-01-07 2011-06-22 ソニー株式会社 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2005195834A (ja) * 2004-01-07 2005-07-21 Sony Corp 音声認識装置および方法、並びに、プログラムおよび記録媒体
JP2006270949A (ja) * 2005-03-19 2006-10-05 Microsoft Corp 同時キャプチャアプリケーションのための自動オーディオゲイン制御
US8290181B2 (en) 2005-03-19 2012-10-16 Microsoft Corporation Automatic audio gain control for concurrent capture applications
US8781837B2 (en) 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
JP2009252238A (ja) * 2008-04-08 2009-10-29 Lg Electronics Inc 移動端末機及びそのメニュー制御方法
US8560324B2 (en) 2008-04-08 2013-10-15 Lg Electronics Inc. Mobile terminal and menu control method thereof
JP2009294310A (ja) * 2008-06-03 2009-12-17 Mitsubishi Electric Corp 発話権調整システムおよび発話可能機器
JP4703688B2 (ja) * 2008-06-03 2011-06-15 三菱電機株式会社 発話権調整システムおよび発話可能機器
JP2011248140A (ja) * 2010-05-27 2011-12-08 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
WO2016063621A1 (ja) * 2014-10-24 2016-04-28 株式会社ソニー・コンピュータエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
JPWO2016063621A1 (ja) * 2014-10-24 2017-05-25 株式会社ソニー・インタラクティブエンタテインメント 制御装置、制御方法、プログラム及び情報記憶媒体
US10339928B2 (en) 2014-10-24 2019-07-02 Sony Interactive Entertainment Inc. Control device, control method, program and information storage medium
US10434412B2 (en) 2014-10-24 2019-10-08 Sony Interactive Entertainment Inc. Control apparatus, control method, program, and information storage medium
JP2018506105A (ja) * 2014-12-19 2018-03-01 アマゾン テクノロジーズ インコーポレイテッド 音声ベースシステムにおけるアプリケーションフォーカス
JP2018511095A (ja) * 2015-01-09 2018-04-19 マイクロソフト テクノロジー ライセンシング,エルエルシー デジタルパーソナルアシスタント内のヘッドレスタスクの完了
CN104640323A (zh) * 2015-02-12 2015-05-20 上海欧美拉光电股份有限公司 一种led灯语音控制系统
CN110168635A (zh) * 2017-01-18 2019-08-23 雅马哈株式会社 声部显示装置、电子音乐装置及声部显示方法
JPWO2019163011A1 (ja) * 2018-02-21 2020-10-01 三菱電機株式会社 表示制御装置および表示制御方法
US10901688B2 (en) 2018-09-12 2021-01-26 International Business Machines Corporation Natural language command interface for application management
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
CN111862949B (zh) * 2020-07-30 2024-04-02 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP3725566B2 (ja) 2005-12-14

Similar Documents

Publication Publication Date Title
JP3725566B2 (ja) 音声認識インターフェース
US5632002A (en) Speech recognition interface system suitable for window systems and speech mail systems
US5526407A (en) Method and apparatus for managing information
EP1650744A1 (en) Invalid command detection in speech recognition
US10824798B2 (en) Data collection for a new conversational dialogue system
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
US7624018B2 (en) Speech recognition using categories and speech prefixing
US20030046071A1 (en) Voice recognition apparatus and method
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
MXPA04005122A (es) Entendimiento sincronico de objeto semantico implementado con etiquetas de lenguaje de aplicacion del habla.
US6549887B1 (en) Apparatus capable of processing sign language information
JP2001184088A (ja) コンピュータ読取自在の記録媒体、及びバックグランド・オーディオ・リカバリー・システム
JP5368924B2 (ja) 自然言語ユーザインタフェースを漸進的に開発する装置及び方法
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JP6069157B2 (ja) 情報処理装置、制御方法、及びプログラム
JP3279684B2 (ja) 音声インタフェース・ビルダ・システム
JP2002236681A (ja) 日常言語コンピューティングシステムおよびその方法
JP3437617B2 (ja) 時系列データ記録再生装置
JP4881903B2 (ja) 自然言語対話エージェントのためのスクリプト作成支援方法及びプログラム
Wersényi Auditory representations of a graphical user interface for a better human-computer interaction
JP2015052745A (ja) 情報処理装置、制御方法、及びプログラム
JP2000112610A (ja) コンテンツ表示選択システム及びコンテンツ記録媒体
JP2015069099A (ja) 情報処理装置、制御方法、及びプログラム
US20050203748A1 (en) System and method for presenting and browsing information

Legal Events

Date Code Title Description
A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050922

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080930

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090930

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100930

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110930

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120930

Year of fee payment: 7