JP2003140691A

JP2003140691A - 音声認識装置

Info

Publication number: JP2003140691A
Application number: JP2001341363A
Authority: JP
Inventors: Manabu Niie; 学新江; Makoto Shiotani; 真塩谷
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2001-11-07
Filing date: 2001-11-07
Publication date: 2003-05-16

Abstract

(57)【要約】【課題】話者や対話内容や周囲ノイズに応じて音声認識
処理アルゴリズムを変更することができないことや、誤
認識や認識エラーが生じた場合は、訂正処理や正解を入
力するための対話が余分に必要であり、対話の実行効率
の低下を避けることができないという課題があった。【解決手段】複数の音声対話制御部１１０で、各々音声
認識処理アルゴリズムの異なる音声認識エンジン１１０
Ａ、１１０Ｂを具備し、これらを切り替えることで音声
認識処理アルゴリズムを変更する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を入出力手段
とする音声利用システムおよびこれに関する装置もしく
はコンピュータプログラムに関する。この中でも特に、
複数の音声認識エンジンが準備され、これらのうちの少
なくとも１つを用いて音声認識を実行する音声利用シス
テムに関する。また、本発明には、これらの音声認識エ
ンジンを有するコンピュータがネットワークを介して接
続されるシステムなども含まれる。

【０００２】

【従来の技術】音声を情報サービス提供システムのHMI
（Human Machine Interface）として利用することに関
しては、例えば特開平11-249867や特開2000-172483等の
従来技術がある。特開平11-249867はサーバ（センタ）
にて音声認識を行なうシステムであり、特開2000-17248
3はクライアント（端末）にて音声認識を行なうシステ
ムである。

【０００３】ここで音声認識とは、音声から、話者が伝
えようと意図した言語的内容を機械的に抽出することで
ある。音声認識技術については、例えば、古井貞煕著の
「ディジタル音声処理」（東海大学出版）等に詳しく述
べられている。これら文献を考慮すると、音声認識技術
は表1のように分類できる。

【０００４】

【表１】前述の文献「ディジタル音声処理」によれば、音声認識
技術には次のような課題があると言われている。

【０００５】まず、現状の不特定話者対応の音声認識は
認識できる語彙数が限られており、その上極めて認識率
の低い話者が生ずるという問題点があり、誰の声でも認
識できる方式の実現が求められている。

【０００６】これに対して、発話に関する音響的なモデ
ルを適応させることで認識率を改善する方法や、n-best
と呼ぶ方法で複数の認識候補を出力し、それらを基にア
プリケーションで認識語を特定する方法や、特開2001-1
34285のように話者の発話しようとする内容や話者に応
じて言語モデルを選択することで、誤認識を減らし、あ
らかじめ学習されていない表現や言い回しを認識する方
法がある。

【０００７】

【発明が解決しようとする課題】前記従来技術より以下
に述べる課題を導き出した。（１）前記従来技術の特開2001-134285の場合、発話内
容や話者に応じて言語モデルを変更することができて
も、音声認識処理アルゴリズムそのものを変更すること
はできない。

【０００８】例えば従来技術では、状況に応じてbi-gra
mの認識処理とtri-gramの認識処理を切り替えて使用す
るといったことはできない。

【０００９】このため、話者や発話内容や周囲ノイズに
応じて音声認識処理アルゴリズムを変更することができ
ないという問題がある。

【００１０】ここで、bi-gramやtri-gramは確率文法の
ことであり、bi-gramは2単語の連続出現確率を表わし、
tri-gramは3単語の連続出現確率を表わす。このようにN
個の単語の連続出現確率（隣接共起確率）を持つ確率文
法をN-gramのように表わし、連続単語認識処理（ディク
テーション型音声認識）を行なう場合に使用する。

【００１１】（２）また、前述のように話者や発話内容
に応じて言語モデルを変更した場合であっても、誤認識
や認識エラーは避けられない。誤認識や認識エラーが生
じた場合は、訂正処理や正解を入力するための対話が余
分に必要であり、対話の実行効率の低下は避けられない
という問題がある。

【００１２】ここで、対話の実行効率とは、チケットの
予約や天気情報の入手といったタスクを完遂するために
要する対話時間もしくは対話の繰り返し回数を表わすも
のとし、対話時間や繰り返し回数が少ない方が効率が高
いものと定義する。

【００１３】前記従来技術で述べたように、n-bestと呼
ぶ方法で一つの音声認識エンジンから複数の認識候補を
出力する場合は、どの認識候補も同一の音声認識処理ア
ルゴリズムで同一の言語モデルや音響モデルを使って導
いた結果であり、誤ったモデルを使用した場合は、いず
れの認識候補も正しくない場合があるという問題があ
る。

【００１４】本発明の目的は、言語モデルや音響モデル
だけでなく、音声認識処理アルゴリズムも選択して使用
することができる音声利用システムを提供することであ
る。

【００１５】また本発明の目的は、誤認識や認識エラー
が生じても対話の実行効率を落とさず音声対話を実行す
ることができる音声利用システムを提供することであ
る。

【００１６】

【課題を解決するための手段】前記課題を解決するた
め、本発明においては、複数の音声認識エンジンを準備
し、音声認識に関する状況を検知し、検知結果に応じた
音声認識エンジンもしくはその組み合わせを決定し、決
定した音声認識エンジン（組み合わせ）で入力される音
声の認識を実行する。ここで、本発明には、記憶装置に
記憶された、複数の音声認識エンジンを識別する情報と
上記の状況を示す情報を関連付けた情報を用いることも
含まれる。また、上記の状況を示す情報には、話者に関
する情報、使用される単語に関する情報およびノイズの
状況のうち少なくとも１つが含まれる。ここで、話者に
関する情報には、話者を特定する情報および話者の特徴
を示す情報（性別、話し方、話すスピード、方言、な
ど）のうち少なくとも一方が含まれる。

【００１７】より具体的には、本発明の構成は、以下の
とおりである。（１）第１の発明は、ユーザとの間で音声の入出力を行
なう端末装置と、端末装置との間で音声入出力を行ない
装置内で音声の分配を行なう音声通信・分配部と、音声
認識と音声合成と音声対話制御を行なう音声対話制御部
と、複数の音声対話制御部から出力される認識結果を統
合する認識結果統合部と、ユーザとの対話のシナリオを
生成する対話管理部を基本構成とする音声利用装置から
成る音声利用システムである。

【００１８】該音声利用装置は、複数の音声対話制御
部、すなわち音声認識エンジンを具備し、これらを同時
使用することで、誤認識時や認識エラー時の対話実行効
率を落とさずに音声対話を実行することができる。

【００１９】これは、発話音声を複数の音声認識エンジ
ンで同時に認識した時に、例えばAという音声認識エン
ジンでは認識できなかった単語が、別のBという音声認
識エンジンで認識できていれば、再度同じ発話をしなく
て済むことから言える。

【００２０】使用する複数の音声認識エンジンは、異種
の音声認識エンジンを組み合せる場合や、同種であるが
異なる処理アルゴリズムおよび異なる実装方法の音声認
識エンジンを組み合せる場合や、全く同一であるが異な
る音声認識用データを使用する音声認識エンジンを組み
合せる場合や、これらの音声認識エンジンを組み合せる
場合がある。このように特性の異なる音声認識エンジン
を組み合せる。

【００２１】ここで述べている音声認識エンジンの種類
とは、前記表１の認識対象からの分類で表わす単語音声
認識と文章音声認識であり、その内異種の組合せとは単
語音声認識の音声認識エンジンと文章音声認識の音声認
識エンジンの組合せである。同種の組合せとは、例えば
単語音声認識の音声認識エンジンを使用していて、それ
らが異なる処理アルゴリズム、もしくは同じ処理アルゴ
リズムでも異なる実装方法をとっているか、またはそれ
らが同一の処理アルゴリズムで同じ実装方法を取ってお
り、異なる音声認識用データを使用している場合であ
る。

【００２２】音声認識用データとは、音響モデル、語彙
辞書、認識文法のことである。音響モデルとは、音声の
特徴を音素（母音と子音）毎に確率論的に表わしたもの
であり、各母音、子音毎の平均的な波形の特徴と各音の
ばらつき具合で表わされる。語彙辞書とは、認識すべき
言葉を定義したものである。認識文法とは、認識すべき
言葉の繋がりを定義したものである。

【００２３】複数の音声認識エンジンを同時に使用する
場合、それらから出力される複数個の認識結果の取り扱
いが重要である。

【００２４】異種の音声認識エンジンを組み合せて同時
に使用する場合は各々の認識対象が異なるため、複数の
認識結果を統合して認識語を決定する。また、同種の音
声認識エンジンを組み合せて同時に使用する場合は各々
の認識対象も同一であるため、複数の認識結果から選択
的に認識語を決定する。

【００２５】本発明には、認識語の決定に以下の手段を
用いることが含まれる。（１．１）複数の認識結果を統合して認識語を決定する
場合（ａ）文例を用いて統合前記第１の発明である音声利用システムを構成する音声
利用装置は、認識辞書記憶部を使用する文法型連続単語
音声認識の音声認識エンジンから成る音声対話制御部
と、言語モデル記憶部を使用する文章音声認識（ディク
テーション型）の音声認識エンジンから成る音声対話制
御部から成り、前者の文法型音声認識エンジンを備える
音声対話制御部から出力される認識結果と、後者のディ
クテーション型音声認識エンジンを備える音声対話制御
部から出力される認識結果を、統合知識や文例を用いて
統合し、それを認識語とする。

【００２６】（ｂ）文法を用いて統合前記第１の発明である音声利用システムを構成する音声
利用装置は、数字認識を行なう音声認識エンジンから成
る音声対話制御部と、単語認識を行なう音声認識エンジ
ンから成る音声対話制御部から成り、前者の数字認識を
行なう音声認識エンジンを備える音声対話制御部から出
力される認識結果と、後者の単語認識を行なう音声認識
エンジンを備える音声対話制御部から出力される認識結
果を、各々文法に当てはめ、その統合結果を認識語とす
る。

【００２７】また、音声対話制御部が、日本語認識を行
なう音声認識エンジンから成るものと、英語認識を行な
う音声認識エンジンから成るものであっても同様にして
認識語を決定する。

【００２８】また、音声対話制御部を全て文法型連続単
語音声認識の音声認識エンジンで構成し、各々が異なる
語彙辞書の場合も同様にして認識語を決定する。

【００２９】（１．２）複数の認識結果から選択的に認
識語を決定する場合（ａ）多数決により決定前記第１の発明である音声利用システムを構成する音声
利用装置において、複数の音声対話制御部は、同種であ
るが異なる処理アルゴリズムおよび異なる実装方法の音
声認識エンジンで構成するか、全く同一であるが異なる
音声認識用データを使用する音声認識エンジンで構成し
ており、認識結果統合部が奇数個の音声対話制御部から
出力される認識結果から多数決によって認識語を決定す
る。

【００３０】（ｂ）時間により決定前記第１の発明である音声利用システムを構成する音声
利用装置において、複数の音声対話制御部は、同種であ
るが異なる処理アルゴリズムおよび異なる実装方法の音
声認識エンジンで構成するか、全く同一であるが異なる
音声認識用データを使用する音声認識エンジンで構成し
ており、認識結果統合部は音声対話制御部から出力され
る認識結果を受信した時間が最早のものを認識語とす
る。

【００３１】（ｃ）信頼度により決定前記第二の発明である音声利用システムを構成する音声
利用装置において、複数の音声対話制御部は、同種であ
るが異なる処理アルゴリズムおよび異なる実装方法の音
声認識エンジンで構成するか、全く同一であるが異なる
音声認識用データを使用する音声認識エンジンで構成し
ており、認識結果統合部は音声対話制御部から出力され
る認識結果に付与された認識信頼度を比較し、信頼度の
高いものを認識語とする。

【００３２】（２）第２の発明は、話者（ユーザ）との
間で音声の入出力を行なう端末装置と、端末装置との間
で音声入出力を行ない装置内で音声の分配を行なう音声
通信・分配部と、使用する音声認識エンジンの決定を行
なう音声認識エンジン判定部と、音声認識と音声合成と
音声対話制御を行なう音声対話制御部と、ユーザとの対
話のシナリオを生成する対話管理部を基本構成とする音
声利用装置から成る音声利用システムである。

【００３３】該音声利用装置は、複数の音声対話制御
部、すなわち音声認識エンジンを具備しこれらを切り替
えることで、音声認識処理アルゴリズムを変更すること
ができる。具体的には以下の手段により行なう。

【００３４】（２．１）前記第２の発明である音声利用
システムを構成する音声利用装置に、ユーザについて音
声対話制御部毎の認識率を管理する音声認識実績管理部
を加え、前記音声認識エンジン判定部はユーザIDを入力
として適切な音声対話制御部を判定し、音声利用装置の
利用前に入力したユーザID等のユーザを特定する情報と
それに対応する使用音声対話制御部情報を用いること
で、ユーザに適した音声認識エンジンを選択する。

【００３５】さらに電話番号とユーザIDの関係を管理す
るユーザ管理部を加え、着信電話番号からユーザIDを導
出し、そのユーザIDによってユーザに適した音声認識エ
ンジンを選択する場合もある。

【００３６】（２．２）前記第２の発明である音声利用
システムを構成する音声利用装置において、前記音声認
識エンジン判定部は、使用言語とそれに対応する使用音
声対話制御部情報を用いて、ユーザの発声する言語に適
した音声認識エンジンを選択する。

【００３７】（２．３）前記第２の発明である音声利用
システムを構成する音声利用装置において、音声認識エ
ンジン判定部は、各音声対話制御部が出力する信頼度が
最も高い音声対話制御部を選択する。

【００３８】ここで、認識信頼度とは、認識した音声を
構成する各音素の出現確率を基に算出するものである。
例えば、全ての構成音素についての出現確率の平均値と
する。

【００３９】（２．４）前記第２の発明である音声利用
システムを構成する音声利用装置に、ノイズ発生の時間
帯とそのノイズレベルを予測するノイズ発生予測部を加
え、音声認識エンジン判定部は、前記ノイズ発生予測情
報とそれに対応する使用音声対話制御部情報を用いて、
周囲ノイズに適した音声認識エンジンを選択する。

【００４０】また、前記音声利用装置内のノイズ発生予
測部の代わりに、端末装置内にノイズ解析を行なうノイ
ズ解析部を設け、集音した周辺ノイズをこれに入力し、
その解析結果を音声利用装置内の音声認識エンジン判定
部に送り、周囲ノイズに適した音声認識エンジンを選択
する場合もある。

【００４１】（２．５）前記第２の発明である音声利用
システムを構成する音声利用装置において、音声認識エ
ンジン判定部は、応答しようとする対話データから辞書
情報を抽出し、それを基に判断した認識タイプとそれに
対応する使用音声対話制御部情報を用いて、対話シナリ
オに適した音声認識エンジンを選択する。

【００４２】ここで対話シナリオに適した音声認識エン
ジンとは、数字認識や単語認識や連続語認識や、日本語
認識その他の言語の認識を行なう。

【００４３】上記手段により以下の効果を得ることがで
きる。本発明に含まれる上記の手段によれば、複数の音
声対話制御部で、各々音声認識処理アルゴリズムの異な
る音声認識エンジンを具備し、これらを切り替えること
で音声認識処理アルゴリズムを変更することができる。

【００４４】また本発明に含まれる上記の手段によれ
ば、複数の音声対話制御部で、各々特性の異なる音声認
識エンジンを具備し、これらを同時使用することで、誤
認識時や認識エラー時の対話実行効率を落とさず音声対
話を実行することができる。

【００４５】

【発明の実施の形態】以下、本発明の実施の形態を、図
面を用いて説明する。図１は、本発明の音声利用システ
ムの基本構成を示す図であり、音声利用装置１０、ユー
ザとの間で音声の入出力を行なう端末装置３１０と音声
入出力手段であるマイク３２１やスピーカ３２２で構成
する。

【００４６】音声利用装置１０は、端末装置から送られ
た音声入力に対応する要求に変換を行なうものであり、
音声認識と音声合成と音声対話制御を行なう音声対話制
御部群１１０、複数の音声対話制御部から出力される認
識結果の統合を行なう認識結果統合部１２０、ユーザと
の対話シナリオの生成や対話進捗管理を行なう対話管理
部１３０、端末装置３１０との間で音声入出力を行ない
装置内で音声の分配を行なう音声通信・分配部１４０、
音声認識エンジン判定部１５０、音声認識実績管理部１
６０、ノイズ発生予測部１７０、ユーザ管理部１８０、
データ通信部１９０で構成する。

【００４７】図２は、本発明の音声利用システムの全体
構成を示す図である。音声利用システムは、サービス要
求装置３０と音声利用装置１０がネットワーク１を介し
て、サービス仲介装置２０とサービス提供装置４０がネ
ットワーク２を介して接続されている。無論、サービス
要求装置３０は複数台あってよい。

【００４８】ネットワーク１は携帯電話網や狭帯域通信
網等の無線通信網であり、ネットワーク２は広域通信網
等である。

【００４９】ユーザからの音声入力を受け付けるサービ
ス要求装置３０は、端末装置３１０とマイク３２１、ス
ピーカ３２２、ディスプレイ３２３、キーボタン３２
４、センサ３２５、集音マイク３２６で構成する。

【００５０】端末装置３１０は、音声入出力部３１１、
音声通信部３１２、データ入出力部３１３、データ通信
部３１４、ノイズ解析部３１５で構成する。

【００５１】対話シナリオに沿って音声認識と音声合成
を行なう音声対話制御部群１１０は音声対話制御部１１
０A、音声対話制御部１１０Bで構成する。そして、音声
対話制御部１１０Aは、対話シナリオ解析部１１１A、音
声認識エンジン１１２A、音声合成エンジン１１３Aで構
成する。音声対話制御部１１０Bについても同様であ
る。

【００５２】音声利用装置で変換された要求に対応する
サービスの中継を行なうサービス仲介装置２０は、サー
ビス判定部２１０、コンテンツ収集部２２０、データ通
信部２３０で構成する。

【００５３】サービス仲介装置で中継されたサービスの
提供を行なうサービス提供装置４０は、ナビゲーション
サービスを提供するナビサーバ４０A、交通情報サービ
スを提供する交通情報サーバ４０B、タウン情報サービ
スを提供するタウン情報サーバ４０C等のサーバ群から
成る。

【００５４】以下、処理の詳細について、サービス要求
装置３０は自動車に搭載する車載型情報端末装置で、音
声利用装置１０およびサービス仲介装置２０は自動車向
けのテレマティクスサービスの提供を行なうテレマティ
クスセンタが運営・管理し、サービス提供装置４０Aの
ナビサーバとサービス提供装置４０Cのタウン情報サー
バに対して、目的地までのルート検索と目的地のタウン
情報を要求する場面を例として説明する。

【００５５】以下、図３のフローチャートに従って処理
内容を説明する。サービス要求装置３０はマイク３２１
を通して、端末装置３１０の音声入出力部３１１でユー
ザからの音声による要求を受け付ける（ステップ５００
１）。ここでは「熱海までの最短ルートと熱海のタウン
情報を教えて。」という音声入力があったものとする。

【００５６】音声通信部３１２から音声利用装置１０に
対して音声データを送信する（ステップ５００２）。

【００５７】音声利用装置１０は、音声通信・分配部１
４０にて音声データを受信し（ステップ５１０１）、音
声対話制御部１１０Aと音声対話制御部１１０Bに対して
音声データを分配する（ステップ５１０２）。ここで
は、音声対話制御部１１０Aは認識辞書記憶部を使用す
る文法型単語音声認識の音声認識エンジン１１２Aを有
し、音声対話制御部１１０Bは言語モデル記憶部を使用
する文章音声認識（ディクテーション型）の音声認識エ
ンジン１１２Bを有するものとする。

【００５８】音声対話制御部１１０Aに入力された音声
データは、認識辞書記憶部１１４Aに格納されている、
対話シナリオ指定の認識辞書（語彙および認識文法）１
１４１Aを使って、音声認識エンジン１１２Aが音声認識
を行なう（ステップ５１０３）。図４に示す認識辞書１
１４１Aは、認識文法が＜地名＞という語彙のワードス
ポッティングを行なう文法であり、その語彙が箱根、小
田原、熱海、・・・であることを表わす。

【００５９】音声対話制御部１１０Bに入力された音声
データは、言語モデル記憶部１１４Bに格納されている
言語モデル１１５１Aを使って、音声認識エンジン１１
２Bが音声認識を行なう（ステップ５１０４）。図４に
示す言語モデル１１５１Aは、2単語の連続出現数を表わ
すものであり、これを基に2単語の連続出現率を算出す
る。ここでは、全サンプル数に対する該当2単語の連続
出現数の割合を出現率とする。なお、本実施の形態にお
いては、全サンプルとしたが、所定の条件を満たすサン
プルとしてもよい。

【００６０】音声対話制御部１１０Aと音声対話制御部
１１０Bから各々出力された音声認識の結果は、認識結
果統合部１２０にて、統合知識記憶部１２６および文例
記憶部１２７に格納している知識およびデータを用いて
複数の認識結果を統合し、認識語を決定する（ステップ
５１０５）。詳細な処理方法については図５に示す通り
である。これについては後述する。

【００６１】対話管理部１３０では、認識結果統合部１
２０で決定した認識語の内容と、要求受付のための対話
の全体シナリオから、要求受付のシナリオが終了したか
どうかを判断する（ステップ５１０６）。

【００６２】ステップ５１０６において、終了でないと
判断すれば、対話の全体シナリオから次の対話シナリオ
を決定し、対話シナリオを記述する対話ドキュメントデ
ータを生成する（ステップ５１０７）。

【００６３】対話ドキュメントデータは、音声対話制御
部１１０Aもしくは音声対話制御部１１０Bに入力する。
ここでは音声対話制御部１１０Aに入力したとすると、
対話ドキュメントデータは対話シナリオ解析部１１１A
にて解析され、音声合成エンジン１１３Aを使ってテキ
ストを音声合成する（ステップ５１０８）。

【００６４】使用する音声対話制御部を決定する方法
は、あらかじめ常に一方を使用するように決めておく、
または、負荷分散するために処理負荷の小さい方を選択
する、または、対話シナリオで指定した方を選択する、
と言った方法が取り得る。

【００６５】音声合成により生成された音声データは、
音声通信・分配部１４０からサービス要求装置３０に対
して送信する（ステップ５１０９）。

【００６６】サービス要求装置３０の端末装置３１０
は、音声通信部３１２で音声データを受信すると、音声
入出力部３１１からスピーカ３２２を通して音声を出力
する（ステップ５００３）。それと同時に、その音声出
力に対応する音声入力をユーザからマイク３２１を通し
て受け付ける（ステップ５００１）。

【００６７】一方、ステップ５１０６にて終了であると
判断すれば、認識結果統合部１２０で決定した認識語の
内容から要求を抽出し、それをサービス仲介装置２０に
対して送信する（ステップ５１１０）。

【００６８】サービス仲介装置２０はサービス判定部２
１０にて、音声利用装置１０からの要求を受信すると、
要求を認識し仲介すべきサービス内容の判定を行なう
（ステップ５２０１）。

【００６９】コンテンツ収集部２２０は、判定したサー
ビス内容に基づきサービス収集のための処理を行ない、
データ通信部２３０を介してサービス提供装置４０Aや
サービス提供装置４０Cに対してサービス提供要求とサ
ービス応答の受信を行ない、必要なサービス・情報の収
集処理を行なう（ステップ５２０２）。

【００７０】サービス提供装置４０Aは、最短ルートの
検索処理を行ない、その結果をサービス仲介装置２０に
応答し（ステップ５３０１）、サービス提供装置４０C
はタウン情報の検索処理を行い、その結果をサービス仲
介装置２０に応答する（ステップ５４０１）。

【００７１】コンテンツ収集部２２０は、必要なサービ
ス・情報の収集処理が終了すると、それを音声利用装置
１０に対して応答する（ステップ５２０３）。

【００７２】音声利用装置１０の対話管理部１３０は、
サービス仲介装置２０からサービス・情報を受け取る
と、それをユーザに提供するための対話シナリオを決定
し対話ドキュメントデータを生成する（ステップ５１１
１）。

【００７３】サービス・情報の内でテキスト情報や画像
情報等の音声化しないデータについては、データ通信部
１９０からサービス要求装置３０に対してデータ送信す
る（ステップ５１１３）。

【００７４】サービス・情報の内で音声化するデータに
ついては、対話ドキュメントデータに基づき、音声対話
制御部１１０Aもしくは音声対話制御部１１０Bにて対話
シナリオ解析を行ない、テキストの音声合成を行ない
（ステップ５１１２）、生成された音声データは音声通
信・分配部１４０からサービス要求装置３０に対して音
声データ送信する（ステップ５１１４）。

【００７５】サービス要求装置３０は、音声データを音
声通信部３１２で受信し音声入出力部３１１からスピー
カ３２２を通して音声出力し、一方、非音声データをデ
ータ通信部３１４で受信しデータ入出力部３１３からデ
ィスプレイ３２３を通して画面出力を行なう（ステップ
５００４）。

【００７６】以上の処理により、目的地までの最短ルー
トの検索と、目的地付近の情報検索を行なうアプリケー
ションを実現する。

【００７７】図５のフローチャートおよび図６のブロッ
ク構成図を用いて、前述の音声認識結果統合処理（ステ
ップ５１０５）について詳細に説明する。

【００７８】前述の「箱根までの最短ルートと箱根のタ
ウン情報を教えて。」という音声データを、音声認識処
理（ステップ５１０３）を行なうと「熱海＊＊＊＊＊熱
海＊＊＊＊＊＊」という認識結果５１０３１が得られ、
また別の音声認識処理（ステップ５１０４）を行なうと
「あった味までの最短ルートと肩身のタウン情報を教え
て」という認識結果５１０４１が得られたものとする。
ここでステップ５１０３の音声認識処理は文法型単語認
識であり、ステップ５１０４の音声認識処理はディクテ
ーション型の音声認識である。

【００７９】認識結果統合部１２０の認識結果受信部１
２１は、これら２つの認識結果について同期を取って受
信する（ステップ６０１）。同期は、認識結果に付随す
る変数名（例えば、「要求内容」）やシーケンシャルな
識別値を相互に参照することで可能である。

【００８０】認識結果抽出部１２２は認識結果５１０３
１から認識単語を抽出する（ステップ６０２）。ここで
は「熱海、熱海」という抽出結果６０２１を得たものと
する。

【００８１】形態素解析実行部１２３は認識結果５１０
４１について形態素解析を行なう（ステップ６０３）。
ここでは図５の解析結果６０３１に示すような結果を得
たものとする。

【００８２】統合知識照合部１２４にて、前述の抽出結
果６０２１と解析結果６０３１について各々統合知識記
憶部１２６に格納する統合知識を用いて照合を行なう
（ステップ６０４）。ここでは図５の照合結果６０４１
や６０４２に示すような結果を得たものとする。

【００８３】文例照合部１２５にて、前述の照合結果６
０４１と６０４２について、文例記憶部１２７に格納す
る文例を用いて照合を行なう（ステップ６０５）。ここ
では図５の照合結果６０５１を得る。

【００８４】そして、照合結果６０５１より「固有名詞
-地域」や「条件」等のラベル部分を除いて「熱海まで
の最短ルートと熱海のタウン情報を教えて」という認識
語６０６１を決定する（ステップ６０６）。

【００８５】以上の処理により、複数の音声認識エンジ
ンから出力される認識結果を統合することができる。

【００８６】以上のように、異種の音声認識エンジンを
組合せて同時に使用する場合は、各々の認識対象語が異
なるため、それらから出力される複数個の認識結果を統
合して認識語を決定する。

【００８７】上記のように音声利用装置１０は、複数の
音声対話制御部、すなわち音声認識エンジンを具備し、
これらを同時使用することで、誤認識時や認識エラー時
の対話実行効率を落とさずに音声対話を実行することが
できた。

【００８８】これは、発話音声を複数の音声認識エンジ
ンで同時に認識した時に、例えばAという音声認識エン
ジンでは認識できなかった単語が、別のBという音声認
識エンジンで認識できていれば、再度同じ発話をしなく
て済むことから言える。

【００８９】同種の音声認識エンジンを組み合せて同時
に使用する場合は各々の認識対象も同一であるため、複
数の認識結果から選択的に認識語を決定する。具体的に
は以下の手段により行なう。

【００９０】複数の認識結果を統合して認識語を決定す
る場合について説明する。

【００９１】文例を用いて統合する場合については上記
図１から図６を用いて説明した通りである。

【００９２】次に、文法を用いて統合する場合の方法
を、図７を用いて説明する。前記図１および図２の音声
利用システムを構成する音声利用装置は、数字認識を行
なう音声認識エンジンから成る音声対話制御部と、単語
認識を行なう音声認識エンジンから成る音声対話制御部
から成り、前者の数字認識を行なう音声認識エンジンを
備える音声対話制御部から出力される認識結果と、後者
の単語認識を行なう音声認識エンジンを備える音声対話
制御部から出力される認識結果を、各々文法に当ては
め、その統合結果を認識語とする。

【００９３】また、音声対話制御部が、日本語認識を行
なう音声認識エンジンから成るものと、英語認識を行な
う音声認識エンジンから成るものであっても同様にして
認識語を決定する。

【００９４】また、音声対話制御部を全て文法型連続単
語音声認識の音声認識エンジンで構成し、各々が異なる
語彙辞書の場合も同様にして認識語を決定する。

【００９５】続いて、同種の音声認識エンジンを組み合
せて同時に使用する場合は各々の認識対象も同一である
ため、複数の認識結果から選択的に認識語を決定する。

【００９６】複数の認識結果から選択的に認識語を決定
する場合は、多数決による方法と、時間による方法と、
認識信頼度による方法がある。

【００９７】多数決により決定する場合は、前記図１お
よび図２の音声利用システムを構成する音声利用装置に
おいて、複数の音声対話制御部は、同種であるが異なる
処理アルゴリズムおよび異なる実装方法の音声認識エン
ジンで構成するか、全く同一であるが異なる音声認識用
データを使用する音声認識エンジンで構成しており、認
識結果統合部が奇数個の音声対話制御部から出力される
認識結果から多数決によって認識語を決定する。

【００９８】時間により決定する場合は、前記図１およ
び図２の音声利用システムを構成する音声利用装置にお
いて、複数の音声対話制御部は、同種であるが異なる処
理アルゴリズムおよび異なる実装方法の音声認識エンジ
ンで構成するか、全く同一であるが異なる音声認識用デ
ータを使用する音声認識エンジンで構成しており、認識
結果統合部は音声対話制御部から出力される認識結果を
受信した時間が最早のものを認識語とする。

【００９９】認識信頼度により決定する場合は、前記図
１および図２の音声利用システムを構成する音声利用装
置において、複数の音声対話制御部は、同種であるが異
なる処理アルゴリズムおよび異なる実装方法の音声認識
エンジンで構成するか、全く同一であるが異なる音声認
識用データを使用する音声認識エンジンで構成してお
り、認識結果統合部は音声対話制御部から出力される認
識結果に付与された認識信頼度を比較し、信頼度の高い
ものを認識語とする。

【０１００】続いて実施例について図８から図１４を用
いて説明する。話者（ユーザ）との間で音声の入出力を
行なう端末装置３１０と、端末装置との間で音声入出力
を行ない装置内で音声の分配を行なう音声通信・分配部
１４０と、使用する音声認識エンジンの決定を行なう音
声認識エンジン判定部１５０と、音声認識処理と音声合
成処理と音声対話制御処理を行なう音声対話制御部１１
０と、ユーザとの対話のシナリオを生成する対話管理部
１３０を基本構成とする音声利用装置１０から成る音声
利用システムである。

【０１０１】該音声利用装置は、複数の音声対話制御
部、すなわち音声認識エンジンを具備しこれらを切り替
えることで、音声認識処理アルゴリズムを変更すること
ができる。具体的には以下の手段により行なう。

【０１０２】一つ目は、前記音声利用システムを構成す
る音声利用装置に、ユーザについて音声対話制御部毎の
認識率を管理する音声認識実績管理部１６０を加え、音
声認識エンジン判定部１５０は、音声利用装置の利用前
に入力したユーザID等のユーザを特定する情報とそれに
対応する使用音声対話制御部情報を用いることで、ユー
ザに適した音声認識エンジンを選択する（図８）。

【０１０３】さらに電話番号とユーザIDの関係を管理す
るユーザ管理部１８０を加え、着信電話番号からユーザ
IDを導出し、そのユーザIDによってユーザに適した音声
認識エンジンを選択する場合もある（図９）。

【０１０４】二つ目は、前記音声利用システムを構成す
る音声利用装置において、音声認識エンジン判定部１５
０は、使用言語とそれに対応する使用音声対話制御部情
報を用いて、ユーザの発声する言語に適した音声認識エ
ンジンを選択する（図１０）。

【０１０５】三つ目は、前記音声利用システムを構成す
る音声利用装置において、音声認識エンジン判定部１５
０は、各音声対話制御部が出力する信頼度が最も高い音
声対話制御部を選択する（図１１）。

【０１０６】ここで、認識信頼度とは、認識した音声を
構成する各音素の出現確率を基に算出する。例えば、全
ての構成音素についての出現確率の平均値とする。

【０１０７】四つ目は、前記音声利用システムを構成す
る音声利用装置に、ノイズ発生の時間帯とそのノイズレ
ベルを予測するノイズ発生予測部１７０を加え、音声認
識エンジン判定部１５０は、ノイズ発生予測情報とそれ
に対応する使用音声対話制御部情報を用いて、周囲ノイ
ズに適した音声認識エンジンを選択する（図１２）。

【０１０８】また、前記音声利用装置内のノイズ発生予
測部の代わりに、端末装置３１０内にノイズ解析を行な
うノイズ解析部３１５を設け、集音した周辺ノイズをこ
れに入力し、その解析結果を音声利用装置内の音声認識
エンジン判定部１５０に送り、周囲ノイズに適した音声
認識エンジンを選択する場合もある（図１３）。

【０１０９】五つ目は、前記音声利用システムを構成す
る音声利用装置において、音声認識エンジン判定部１５
０は、応答しようとする対話データから辞書情報を抽出
し、それを基に判断した認識タイプとそれに対応する使
用音声対話制御部情報を用いて、対話シナリオに適した
音声認識エンジンを選択する（図１４）。

【０１１０】ここで、対話シナリオに適した音声認識エ
ンジンとは、数字認識や単語認識や連続語認識や、日本
語認識その他の言語の認識を行なうものである。

【０１１１】サービス要求装置３０と音声利用装置２０
間の音声データのやり取り、および音声利用装置内の音
声データのハンドリングに関して、サービス要求装置３
０と音声利用装置２０の間の音声データはVoIP（Voice
over IP）等でパケット化したデータでやり取りを行な
ってよい。また、音声利用装置２０内の音声通信・分配
部１４０と音声対話制御部１１０の間の音声データはVo
IP等でパケット化したデータでやり取りを行なって良
い。

【０１１２】図１５は、本発明の音声利用システムを用
いた音声利用センタシステムの概念図である。音声利用
センタシステムは、音声利用センタ３と、ナビサーバ４
０A、交通情報サーバ４０B、タウン情報サーバ４０Cな
どのアプリケーションサーバと、サービス要求装置３０
A、３０B、３０C等で構成する。

【０１１３】音声利用センタ３は音声利用装置１０とサ
ービス仲介装置２０から成る。サービス要求装置３０A
および３０Bは、自動車に端末装置３１０A、３１０Bや
モニタ等を組込んだものであり、サービス要求装置３０
Cは、携帯情報端末に端末装置３１０Cやマイク等を組込
んだものである。

【０１１４】本システムにより、自動車や携帯情報端末
からサービスアプリケーションから音声で情報を受け取
ることが可能となる。

【０１１５】上記の実施の形態によれば、複数の音声対
話制御部で、各々音声認識処理アルゴリズムの異なる音
声認識エンジンを具備し、これらを切り替えることで音
声認識処理アルゴリズムを変更することができる。ま
た、複数の音声対話制御部で、各々特性の異なる音声認
識エンジンを具備し、これらを同時使用することで、誤
認識時や認識エラー時の対話実行効率を落とさず音声対
話を実行することができる。

【０１１６】

【発明の効果】本発明によれば、音声の認識率を向上さ
せることが可能になる。

【図面の簡単な説明】

【図１】音声利用システムの基本構成を表わす図であ
る。

【図２】音声利用システムの全体構成図である。

【図３】音声利用システムの動作を説明するフローチャ
ートである。

【図４】音声対話制御部と認識辞書、言語モデルを説明
する図である。

【図５】知識と文例を使った認識結果統合処理の動作を
説明するフローチャートである。

【図６】認識結果統合部と統合知識、文例を説明する図
である。

【図７】文法を使った認識結果統合処理について説明す
る図である。

【図８】入力されたユーザIDに応じて音声認識エンジン
を切り替える処理について説明する図である。

【図９】着信した電話番号に応じて音声認識エンジンを
切り替える処理について説明する図である。

【図１０】言語に応じて音声認識エンジンを切り替える
処理について説明する図である。

【図１１】認識信頼度に応じて音声認識エンジンを切り
替える処理について説明する図である。

【図１２】ノイズ発生予測に応じて音声認識エンジンを
切り替える処理について説明する図である。

【図１３】周辺ノイズに応じて音声認識エンジンを切り
替える処理について説明する図である。

【図１４】対話内容に応じて音声認識エンジンを切り替
える処理について説明する図である。

【符号の説明】

１０…音声利用装置、２０…サービス仲介装置、３０…
サービス要求装置、４０…サービス提供装置、１１０…
音声対話制御部群、１２０…認識結果統合部、１３０…
対話管理部、１４０…音声通信・分配部、１５０…音声
認識エンジン判定部、１６０…音声認識実績管理部、１
７０…ノイズ発生予測部、１８０…ユーザ管理部、１９
０…データ通信部、３１０…端末装置、３２１…マイ
ク、３２２…スピーカ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/00 Ｇ１０Ｌ 3/00 ５５１Ａ 15/06 ５３７Ｇ 15/08 ５３１Ｗ 15/10 ５７１Ａ 15/18 ５７１Ｕ 15/22 ５２１ＶＲＦターム(参考） 5D015 KK02 KK04 LL02 LL06 LL09 LL12 5D045 AB01 AB26

Claims

【特許請求の範囲】

【請求項１】利用者から発せられる音声を入力し、入力
された前記音声の認識処理を実行する音声認識装置にお
いて、前記音声を含む音声情報を入力する手段と、前記音声の認識に関する状況を検知する手段と、検知された前記状況を示す状況情報に基づいて、それぞ
れが入力された音声の認識処理を実行する複数の音声認
識手段のうち、少なくとも１つ選択する手段を有し、選択された少なくとも１つの音声認識手段を用いて、入
力された前記音声の認識処理を実行することを特徴とす
る音声認識装置。
【請求項２】請求項１に記載の音声認識装置において、音声の認識に関する状況を示す状況情報と前記複数の音
声認識手段の少なくとも１つを対応付けて記憶する手段
をさらに有し、前記選択する手段は、前記記憶する手段の内容を用い
て、前記選択を実行することを特徴とする音声認識装
置。
【請求項３】請求項１または２のいずれかに記載の音声
認識装置において、前記選択する手段は、前記状況情報に含まれる前記利用
者に関する情報、前記音声に含まれる言葉に関する情報
および前記音声情報に含まれるノイズ情報のうち少なく
ともに基づいて、前記選択を実行することを特徴とする
音声認識装置。
【請求項４】それぞれが所定のサービスを提供するため
の情報処理を実行する複数のサービス提供装置と、前記
サービスの利用者が利用する端末装置とネットワークを
介して接続された音声利用システムにおいて、前記端末装置を介して入力された前記利用者の音声であ
って、前記サービスに関する音声を入力する手段と、前記音声の認識に関する状況を示す検知情報を入力する
手段と、入力された前記状況情報に基づいて、それぞれが入力さ
れた音声の認識処理を実行する複数の音声認識手段のう
ち、少なくとも１つ選択する手段と、選択された少なくとも１つの音声認識手段を用いて、実
行された入力された前記音声の認識処理の結果に基づい
て、前記複数のサービス提供装置のうち少なくとも１つ
を選択する手段と、選択された前記少なくとも１つのサービス提供装置に対
して、前記認識結果に応じたサービス要求を送信する手
段とを有し、前記利用者が前記サービスの提供を受けることを可能と
する音声利用システム。
【請求項５】請求項４に記載の音声利用システムにおい
て、選択された前記少なくとも１つのサービス提供装置か
ら、前記サービス要求に応じた情報を受信する手段と、受信された前記情報に対応した音声情報を合成する手段
と、合成された前記音声情報を、前記端末装置に送信する手
段とをさらに有することを特徴とする音声利用システ
ム。
【請求項６】請求項４または５のいずれかに記載の音声
利用システムにおいて、音声の認識に関する状況を示す状況情報と前記複数の音
声認識手段の少なくとも１つを対応付けて記憶する手段
をさらに有し、前記選択する手段は、前記記憶する手段の内容を用い
て、前記選択を実行することを特徴とする音声利用シス
テム。
【請求項７】請求項４乃至６のいずれかに記載の音声利
用システムにおいて、前記選択する手段は、前記状況情報に含まれる前記利用
者に関する情報、前記音声に含まれる言葉に関する情報
および前記音声情報に含まれるノイズ情報のうち少なく
ともに基づいて、前記選択を実行することを特徴とする
音声利用システム。