JP2002116796A

JP2002116796A - 音声処理装置、音声処理方法及び記憶媒体

Info

Publication number: JP2002116796A
Application number: JP2000311097A
Authority: JP
Inventors: Takanari Ueda; 隆也上田; Yuji Ikeda; 裕治池田; Tetsuo Kosaka; 哲夫小坂; Shigeki Shibayama; 茂樹柴山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-10-11
Filing date: 2000-10-11
Publication date: 2002-04-19
Also published as: US20020055845A1

Abstract

(57)【要約】【課題】ネットワークに接続された複数の音声認識装
置を利用して高精度な音声認識を効率的に行う。【解決手段】通信端末装置１０１は、ネットワーク１
０４に接続された高精度な音声認識装置１０２及び１０
３を用いてユーザが発声した音声を音声認識する。その
後、通信端末装置１０１は、音声認識装置１０２及び１
０３のそれぞれから得られた認識結果のスコアを比較
し、１つの認識結果を選択する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットワークに接
続された複数の音声認識装置を利用した音声処理装置、
音声処理方法及び記憶媒体に関する。

【０００２】

【従来の技術】近年、人間が発声した音声を所定の規則
に従って電子計算機上で認識する技術（所謂、音声認識
技術）が実用化されている。更に、近年では、この音声
認識技術を用いて、従来手動で電子計算機に入力してい
たコマンドや文字情報を音声で入力する技術が開発され
ている。

【０００３】

【発明が解決しようとする課題】しかしながら、音声認
識は比較的計算量の多い処理であるので、ユーザが発声
した全ての音声を実時間で認識するためには高価で高性
能な電子計算機が必要となる。そのため、このような音
声認識をモバイルコンピュータや携帯電話等の小型で安
価な携帯端末装置に適用することは困難であるという問
題があった。

【０００４】本発明は前述の問題に鑑みてなされたもの
であり、ネットワークに接続された複数の音声認識装置
を利用して高精度な音声認識を効率的に行うことを目的
とする。

【０００５】

【課題を解決するための手段】本発明の音声処理装置
は、音声を入力する音声入力手段と、ネットワークに接
続された複数の音声認識装置を用いて前記音声入力手段
に入力された音声を音声認識する音声認識手段と、前記
複数の音声認識装置から得られた認識結果の確信度に基
づいて前記複数の音声認識装置の中の一つから得られた
認識結果を選択する選択手段とを有することを特徴とす
る。

【０００６】また、本発明の音声処理方法は、音声を入
力する音声入力工程と、ネットワークに接続された複数
の音声認識装置を用いて前記音声入力工程で入力された
音声を音声認識する音声認識工程と、前記複数の音声認
識装置から得られた認識結果の確信度に基づいて前記複
数の音声認識装置の中の一つから得られた認識結果を選
択する選択工程とを有することを特徴とする。

【０００７】また、本発明の記憶媒体は、上記音声処理
方法を実行するためのプログラムを記憶したことを特徴
とする。

【０００８】

【発明の実施の形態】（第１の実施の形態）以下、図面
を参照して本発明の第１の実施の形態を詳細に説明す
る。図１は、本実施の形態に係る音声認識システムの基
本構成を示す図である。

【０００９】図１において、１０１はモバイルコンピュ
ータや携帯電話等の通信端末装置であり、小語彙辞書を
持つ音声認識プログラムを内蔵する。１０２及び１０３
は大語彙辞書を持つ高性能な音声認識装置であり、それ
ぞれ採用する文法規則が異なる。１０４はインターネッ
ト，移動体通信網等のネットワークである。

【００１０】通信端末装置１０１は、演算量が少なく安
価で簡易な音声認識装置であり、主に「戻る」，「進
む」等の単純で短い単語を簡易に音声認識する機能を有
する。これに対して、音声認識装置１０２及び１０３
は、演算量が多く高価で高精度な音声認識装置であり、
主に住所，氏名等の複雑で長い連続文を高精度に音声認
識する機能を有する。このように、本実施の形態の音声
認識システムでは、音声認識の機能を分散化することに
よって、ユーザに提供する情報端末装置を認識効率を落
とすことなく安価に構成し、利便性や携帯性を高めてい
る。

【００１１】通信端末装置１０１と音声認識装置１０２
及び１０３とは、ネットワーク１０４を介してデータ通
信可能である。通信端末装置１０１に入力されたユーザ
の音声は、音声認識装置１０２及び１０３のそれぞれに
伝送される。音声認識装置１０２及び１０３は、通信端
末装置１０１からの音声を音声認識し、音声認識して得
た文字列及びスコアを通信端末装置１０１に返信する。

【００１２】次に、図２を用いて、第１の実施の形態に
係る通信端末装置１０１の構成を説明する。

【００１３】図２において、２０１は制御部、２０２は
記憶部、２０３は通信部、２０４は音声入力部、２０５
は操作部、２０６は音声出力部、２０７は表示部であ
る。また、２０８はアプリケーションプログラム、２０
９は音声認識プログラム、２１０はユーザインタフェー
ス制御プログラム、２１１は認識結果格納部である。

【００１４】制御部２０１は、ワークメモリやマイクロ
コンピュータ等から構成され、記憶部２０２に記憶され
たアプリケーションプログラム２０８，音声認識プログ
ラム２０９及びユーザインタフェース制御プログラム２
１０を読み出して実行する。

【００１５】記憶部２０２は、磁気ディスク、光ディス
ク、ハードディスク装置等の記憶媒体から構成され、ア
プリケーションプログラム２０８，音声認識プログラム
２０９，ユーザインタフェース制御プログラム２１０及
び認識結果格納部２１１を所定の領域に記憶する。通信
部２０３は、ネットワーク１０４に接続された音声認識
装置１０２及び１０３とデータ通信を行う。

【００１６】音声入力部２０４は、マイクロフォン等か
ら構成され、ユーザが発声した音声を入力する。操作部
２０５は、キーボード，マウス，タッチパネル，ジョイ
スティック，ペン，タブレット等から構成され、アプリ
ケーションプログラム２０８のグラフィカルユーザイン
タフェースを操作する。

【００１７】音声出力部２０６は、スピーカやヘッドフ
ォン等から構成される。表示部２０７は、液晶ディスプ
レイ等の表示器から構成され、アプリケーションプログ
ラム２０８及び２１２のグラフィカルユーザインタフェ
ースを表示する。

【００１８】アプリケーションプログラム２０８は、ネ
ットワーク１０４上の情報（ホームページや各種のデー
タファイル等のウェブコンテンツ）を閲覧するためのウ
ェブブラウザの機能とこの機能を操作するためのグラフ
ィカルユーザインタフェースを有する。音声認識プログ
ラム２０９は、主に「中止」，「戻る」，「進む」等の
単純で短い単語を音声認識する機能を有するプログラム
である。

【００１９】ユーザインタフェース制御プログラム２１
０は、音声認識プログラム２０９を用いて音声認識して
得た文字列を所定のコマンドに変換してアプリケーショ
ンプログラム２０８に入力したり、音声認識装置１０２
及び１０３を用いて音声認識して得た文字列の一つをア
プリケーションプログラム２０８に入力したりする。認
識結果格納部２１１は、音声認識装置１０２及び１０３
のそれぞれで音声認識して得た文字列及びスコアを格納
する。

【００２０】本実施の形態において、スコアとは、音声
認識装置１０２及び１０３が音声認識して得た文字列に
対する確信度（或いは尤度）である。音声認識装置１０
２又は１０３が採用する大語彙辞書と文法規則に従って
ユーザが発声した音声に含まれる語句のほぼ全ての部分
を正しく認識できる場合にはスコアは高くなり、ほとん
どの部分を正しく認識できない場合にはスコアは低くな
る。

【００２１】次に、図３を参照しながら、第１の実施の
形態に係る通信端末装置１０１が、ネットワーク１０４
に接続された音声認識装置１０２及び１０３を用いて、
入力音声を音声認識する手順を説明する。この手順は、
制御部２０１が記憶部２０２に記憶されたユーザインタ
フェース制御プログラム２１０に従って実行する。

【００２２】ステップＳ３０１において、制御部２０１
は、音声入力部２０４に入力されたユーザの音声を音声
認識プログラム２０９に入力する。

【００２３】ステップＳ３０２において、制御部２０１
は、記憶部２０２に記憶された音声認識プログラム２０
９を用いてステップＳ３０１で入力された音声を音声認
識する。

【００２４】ステップＳ３０３において、制御部２０１
は、音声認識プログラム２０９を用いて音声認識して得
た文字列のスコアが所定値以上であるか否かを判断す
る。所定値以上である場合には正しく認識できたと判定
してステップＳ３０４に進み、所定値以上でない場合に
は正しく認識できなかったと判定してステップＳ３０５
に進む。

【００２５】ステップＳ３０４において、制御部２０１
は、音声認識プログラム２０９で得られた文字列を所定
のコマンドに変換し、変換されたコマンドをアプリケー
ションプログラム２０８に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前のページに戻
すという意味のコマンドに変換され、文字列「進む」
は、現在閲覧中のページを一つ前のページに進めるとい
う意味のコマンドに変換される。アプリケーションプロ
グラム２０８は、入力されたコマンドに対応する処理を
実行し、実行された結果を表示部２０７に表示する。

【００２６】一方、ステップＳ３０５において、制御部
２０１は、ステップＳ３０１で入力された音声をネット
ワーク１０４に接続された音声認識装置１０２及び１０
３のそれぞれに送信する。音声認識装置１０２及び１０
３は、通信端末装置１０１からの音声を音声認識し、音
声認識して得た文字列及びスコアを通信端末装置１０１
に返信する。音声認識装置１０２及び１０３から所定期
間内に返信された文字列及びスコアは認識結果格納部２
１１に格納される。このように、通信端末装置１０１内
部の音声認識プログラム２０９で正しく認識できないと
判定された音声を外部の音声認識装置１０２及び１０３
を用いて音声認識することによって、ユーザに提供する
通信端末装置の認識効率を向上させることができる。

【００２７】ステップＳ３０６において、制御部２０１
は、認識結果格納部２１１に格納された各文字列のスコ
アを比較し、最も高いスコアに対応する文字列を選択す
る。例えば、ステップＳ３０１で入力された音声が「川
崎市中原区今井上町」である場合について説明する。こ
の場合において、音声認識装置１０２で得られた文字列
が「川崎」でそのスコアが「０．３」であり、音声認識
装置１０３で得られた文字列が「川崎市中原区今井上
町」でそのスコアが「０．９」である場合には、音声認
識装置１０３で得られた文字列「川崎市中原区今井上
町」を選択する。

【００２８】ステップＳ３０７において、制御部２０１
は、ステップＳ３０６で選択された文字列をアプリケー
ションプログラム２０８に入力する。アプリケーション
プログラム２０８は、入力された文字列を表示部２０７
に表示されたグラフィカルユーザインタフェース上の予
め選択された入力フィールドに出力する。

【００２９】以上説明したように、第１の実施の形態に
よれば、演算量が少なく安価で簡易な音声認識について
はユーザに提供する通信端末装置で実行し、演算量が多
く高価で高精度な音声認識についてはネットワークに接
続された複数の音声認識装置で実行するので、ユーザに
提供する通信端末装置を認識効率を落とすことなく安価
に構成することができる。

【００３０】また、第１の実施の形態によれば、文法規
則や語彙辞書の異なる高精度な音声認識装置を複数個併
用するので、ユーザに提供する情報端末装置の認識効率
をより一層高めることができる。また、これらの音声認
識装置を複数個併用する場合であっても、ユーザに意識
させることなく自動的に最適な認識結果を得ることがで
きるので、高度な音声認識システムを非常に簡便に利用
することができる。

【００３１】また、第１の実施の形態によれば、ネット
ワークに接続された高精度な音声認識装置を複数個併用
する場合であっても、自動的に最適な認識結果を得るこ
とができるので、手による煩雑な操作を削減することが
できる。また、専用の操作ボタン等を設けなくてもよく
なるため、ユーザに提供する通信端末装置を小型に構成
することができる。特に、モバイルコンピュータや携帯
電話等の携帯端末装置に適用する場合には、利便性や携
帯性を高めることができる。

【００３２】第１の実施の形態では、ネットワーク１０
４に接続された２つの音声認識装置１０２及び１０３を
用いて音声認識システムを構成する例について説明した
が、本発明はこのような構成に限るものではない。２つ
以上の音声認識装置を用いて音声認識システムを構成す
ることも可能である。

【００３３】また、第１の実施の形態では、音声認識装
置１０２及び１０３で得られた認識結果のスコアを単純
に比較する例について説明したが、本発明はこのような
構成に限るものではない。各スコアに所定の重み付けを
行ってから比較してもよい。

【００３４】また、第１の実施の形態では、ネットワー
ク１０４に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク１０４
に接続された音声認識装置がＭ（Ｍは２以上の整数）あ
る場合には、通信端末装置１０１の近くに存在するＮ個
（Ｎは１以上の整数）の音声認識装置を用いて入力音声
を音声認識してもよい。また、負荷の小さいＮ個（Ｎは
１以上の整数）の音声認識装置を用いて入力音声を音声
認識してもよい。

【００３５】また、第１の実施の形態では、ネットワー
ク１０４に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク１０４
に接続された音声認識装置がＭ（Ｍは２以上の整数）あ
る場合には、過去に認識結果が採用した音声認識装置の
履歴を記録し、最近利用された上位Ｎ個（Ｎは１以上の
整数）の音声認識装置を用いて入力音声を音声認識して
もよい。また、利用回数の多い上位Ｎ個（Ｎは１以上の
整数）の音声認識装置を用いて入力音声を音声認識して
もよい。

【００３６】（第２の実施の形態）以下、図１，２及び
４を用いて本発明の第２の実施の形態を詳細に説明す
る。

【００３７】図４を参照しながら、第２の実施の形態に
係る通信端末装置１０１が、ネットワーク１０４に接続
された音声認識装置１０２及び１０３を用いて、入力音
声を音声認識する手順を説明する。この手順は、制御部
２０１が記憶部２０２に記憶されたユーザインタフェー
ス制御プログラム２１０に従って実行する。

【００３８】ステップＳ４０１において、制御部２０１
は、音声入力部２０４に入力されたユーザの音声を音声
認識プログラム２０９に入力する。

【００３９】ステップＳ４０２において、制御部２０１
は、記憶部２０２に記憶された音声認識プログラム２０
９を用いてステップＳ４０１で入力された音声を音声認
識する。

【００４０】ステップＳ４０３において、制御部２０１
は、音声認識プログラム２０９を用いて音声認識して得
た文字列のスコアが所定値以上であるか否かを判断す
る。所定値以上である場合には正しく認識できたと判定
してステップＳ４０４に進み、所定値以上でない場合に
は正しく認識できなかったと判定してステップＳ４０５
に進む。

【００４１】ステップＳ４０４において、制御部２０１
は、音声認識プログラム２０９で得られた文字列を所定
のコマンドに変換し、変換されたコマンドをアプリケー
ションプログラム２０８に入力する。例えば、文字列
「戻る」は、現在閲覧中のページを一つ前のページに戻
すという意味のコマンドに変換され、文字列「進む」
は、現在閲覧中のページを一つ前のページに進めるとい
う意味のコマンドに変換される。アプリケーションプロ
グラム２０８は、入力されたコマンドに対応する処理を
実行し、実行された結果を表示部２０７に表示する。

【００４２】一方、ステップＳ４０５において、制御部
２０１は、ステップＳ４０１で入力された音声をネット
ワーク１０４に接続された音声認識装置１０２及び１０
３のそれぞれに送信する。音声認識装置１０２及び１０
３は、通信端末装置１０１からの音声を音声認識し、音
声認識して得た文字列及びスコアを通信端末装置１０１
に返信する。音声認識装置１０２及び１０３から所定期
間内に返信された文字列及びスコアは認識結果格納部２
１１に格納される。このように、通信端末装置１０１内
部の音声認識プログラム２０９で正しく認識できないと
判断された音声を外部の音声認識装置１０２及び１０３
を用いて音声認識することによって、ユーザに提供する
通信端末装置の認識効率を向上させることができる。

【００４３】ステップＳ４０６において、制御部２０１
は、認識結果格納部２１１に格納された文字列の中から
所定値以上のスコアに対応する文字列を検出する。所定
値以上のスコアを有する文字列が複数個ある場合にはス
テップＳ４０７に進み、１つしかない場合にはステップ
Ｓ４０８に進む。例えば、ステップＳ４０１で入力され
た音声が「川崎市中原区今井上町」である場合について
説明する。この場合において、音声認識装置１０２で得
られた文字列が「川崎市中原区今井上町」でそのスコア
が「０．９」であり、音声認識装置１０３で得られた文
字列が「川崎市中原区今井上町」でそのスコアが「０．
９」であり、所定値が「０．９」である場合には、所定
値以上のスコアに対応する文字列が２つあるのでステッ
プＳ４０７に進む。

【００４４】ステップＳ４０７において、制御部２０１
は、ステップＳ４０６で検出された文字列を表示部２０
７を用いてスコア順に並べてユーザに通知する。スコア
順に並べてユーザに通知することによってユーザの操作
性を向上させることができる。ユーザは、スコア順に並
べて表示或いは音声で通知された選択候補の中の一つを
操作部２０５或いは音声入力部２０４を用いて選択す
る。このように構成することによって、所定値以上のス
コアに対応する文字列が複数個ある場合でも、常に正し
い結果を選択することができる。

【００４５】ステップＳ４０８において、制御部２０１
は、ステップＳ４０６で検出された文字列或いはステッ
プＳ４０７で選択された文字列をアプリケーションプロ
グラム２０８に入力する。アプリケーションプログラム
２０８は、入力された文字列を表示部２０７に表示され
たグラフィカルユーザインタフェース上の予め選択され
た入力フィールドに出力する。

【００４６】以上説明したように、第２の実施の形態に
よれば、第１の実施の形態と同様に、演算量が少なく安
価で簡易な音声認識についてはユーザに提供する通信端
末装置で実行し、演算量が多く高価で高精度な音声認識
についてはネットワークに接続された複数の音声認識装
置で実行するので、ユーザに提供する通信端末装置を認
識効率を落とすことなく安価に構成することができる。

【００４７】また、第２の実施の形態によれば、文法規
則や語彙辞書の異なる高精度な音声認識装置を複数個併
用するので、ユーザに提供する情報端末装置の認識効率
をより一層高めることができる。また、これらの音声認
識装置を複数個併用する場合であっても、ユーザに意識
させることなく自動的に最適な認識結果を得ることがで
きるので、高度な音声認識システムを非常に簡便に利用
することができる。また、複数の音声認識装置で得られ
た認識結果のスコアが所定値以上である場合にはこれら
の認識結果をユーザに選択させるので、常に正しい結果
を選択することができる。

【００４８】第２の実施の形態では、ネットワーク１０
４に接続された２つの音声認識装置１０２及び１０３を
用いて音声認識システムを構成する例について説明した
が、本発明はこのような構成に限るものではない。２つ
以上の音声認識装置を用いて音声認識システムを構成す
ることも可能である。

【００４９】また、第２の実施の形態では、音声認識装
置１０２及び１０３で得られた認識結果のスコアを単純
に所定値と比較する例について説明したが、本発明はこ
のような構成に限るものではない。各スコアに所定の重
み付けを行ってから所定値と比較してもよい。

【００５０】また、第２の実施の形態では、音声認識装
置１０２及び１０３で得られた認識結果のスコアがとも
に所定値以上の場合には、ユーザに何れか一方を選択さ
せる例について説明したが、本発明はこのような構成に
限るものではない。例えば、音声認識装置１０２及び１
０３の間に予め優先度を設定しておき、この優先度に基
づいて自動的に１つの認識結果を選択するように構成す
ることもできる。

【００５１】また、第２の実施の形態では、音声認識装
置１０２及び１０３で得られた認識結果のスコアがとも
に所定値以上の場合には、ユーザに何れか一方を選択さ
せる例について説明したが、本発明はこのような構成に
限るものではない。例えば、過去に認識結果が採用した
音声認識装置の履歴を記録しておき、この履歴に基づい
て自動的に１つの認識結果を選択するように構成するこ
ともできる。

【００５２】また、第２の実施の形態では、ネットワー
ク１０４に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク１０４
に接続された音声認識装置がＭ（Ｍは２以上の整数）あ
る場合には、通信端末装置１０１の近くに存在するＮ個
（Ｎは１以上の整数）の音声認識装置を用いて入力音声
を音声認識してもよい。また、負荷の小さいＮ個（Ｎは
１以上の整数）の音声認識装置を用いて入力音声を音声
認識してもよい。

【００５３】また、第２の実施の形態では、ネットワー
ク１０４に接続された全ての音声認識装置を用いて入力
音声を音声認識する例について説明したが、本発明はこ
のような構成に限るものではない。ネットワーク１０４
に接続された音声認識装置がＭ（Ｍは２以上の整数）あ
る場合には、過去に認識結果が採用した音声認識装置の
履歴を記録しておき、最近利用された上位Ｎ個（Ｎは１
以上の整数）の音声認識装置を用いて入力音声を音声認
識してもよい。また、利用回数の多い上位Ｎ個（Ｎは１
以上の整数）の音声認識装置を用いて入力音声を音声認
識してもよい。

【００５４】（他の実施の形態）本発明は、上記実施の
形態に限るものではなく、様々な形態で実施することが
できる。

【００５５】例えば、制御部２０１が読み出したユーザ
インタフェース制御プログラム２１０の指示に基づき、
制御部２０１上で稼働しているＯＳ（オペレーティング
システム）などが上記実施の形態の処理の一部または全
部を行い、その処理によって上記実施の形態が実現され
る場合にも本発明は適用可能である。

【００５６】また、記憶部２０２から読み出されたユー
ザインタフェース制御プログラム２１０が、情報端末装
置１０１に接続された機能拡張ユニットに備わるメモリ
に書き込まれた後、そのプログラム２１０の指示に基づ
いてその機能拡張ユニットに備わる制御部などが実際の
処理の一部または全部を行い、その処理によって上記実
施の形態が実現される場合にも本発明は適用可能であ
る。

【００５７】

【発明の効果】以上説明したように、本発明によれば、
ネットワークに接続された複数の音声認識装置を利用し
て高精度な音声認識を効率的に行うことができる。

【図面の簡単な説明】

【図１】第１の実施の形態に係る音声認識システムの構
成を示す図である。

【図２】第１の実施の形態に係る通信端末装置の構成を
示すブロック図である。

【図３】第１の実施の形態に係る通信端末装置が入力音
声を音声認識する手順を説明するフローチャートであ
る。

【図４】第２の実施の形態に係る通信端末装置が入力音
声を音声認識する手順を説明するフローチャートであ
る。

【符号の説明】

１０１通信端末装置１０２，１０３音声認識装置１０４ネットワーク２０１制御部２０２記憶部２０３通信部２０４音声入力部２０５操作部２０６音声出力部２０７表示部２０８アプリケーションプログラム２０９音声認識プログラム２１０ユーザインタフェース制御プログラム２１１認識結果格納部

───────────────────────────────────────────────────── フロントページの続き (72)発明者小坂哲夫東京都大田区下丸子３丁目30番２号キヤノン株式会社内 (72)発明者柴山茂樹東京都大田区下丸子３丁目30番２号キヤノン株式会社内Ｆターム(参考） 5D015 KK02 LL05

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、ネットワークに接続された複数の音声認識装置を用いて
前記音声入力手段に入力された音声を音声認識する音声
認識手段と、前記複数の音声認識装置から得られた認識結果の確信度
に基づいて前記複数の音声認識装置の中の一つから得ら
れた認識結果を選択する選択手段とを有することを特徴
とする音声処理装置。
【請求項２】前記音声認識手段は更に、前記複数の音
声認識装置を用いることなく前記音声入力手段に入力さ
れた音声を音声認識することを特徴とする請求項１に記
載の音声処理装置。
【請求項３】前記複数の音声認識装置の少なくとも一
つは、他の音声認識装置とは異なる文法規則を有するこ
とを特徴とする請求項１または２に記載の音声処理装
置。
【請求項４】前記音声認識手段は、前記複数の音声認
識装置の中から選択された所定数の音声認識装置を用い
て前記音声入力手段に入力された音声を音声認識するこ
とを特徴とする請求項１〜３の何れか１項に記載の音声
処理装置。
【請求項５】音声を入力する音声入力工程と、ネットワークに接続された複数の音声認識装置を用いて
前記音声入力工程で入力された音声を音声認識する音声
認識工程と、前記複数の音声認識装置から得られた認識結果の確信度
に基づいて前記複数の音声認識装置の中の一つから得ら
れた認識結果を選択する選択工程とを有することを特徴
とする音声処理方法。
【請求項６】前記音声認識工程は更に、前記複数の音
声認識装置とは別の音声処理部を用いて前記音声入力手
段に入力された音声を音声認識することを特徴とする請
求項５に記載の音声処理方法。
【請求項７】前記複数の音声認識装置の少なくとも一
つは、他の音声認識装置とは異なる文法規則を有するこ
とを特徴とする請求項５または６項に記載の音声処理方
法。
【請求項８】前記音声認識工程では、前記複数の音声
認識装置の中から選択された所定数の音声認識装置を用
いて前記音声入力工程で入力された音声を音声認識する
ことを特徴とする請求項５〜７の何れか１項に記載の音
声処理方法。
【請求項９】請求項５〜８のいずれか１項に記載の音
声処理方法を実行するためのプログラムを記憶したこと
を特徴とする記憶媒体。