JP2003044091A

JP2003044091A - 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム

Info

Publication number: JP2003044091A
Application number: JP2001231739A
Authority: JP
Inventors: Seita Otsuji; 清太大辻; Toshiaki Sugimura; 利明杉村
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2001-07-31
Filing date: 2001-07-31
Publication date: 2003-02-14

Abstract

(57)【要約】【課題】装置上の負担を軽減しつつ、精度のよい認識
処理を迅速に行う。【解決手段】音韻情報の抽出までをクライアント１で
行い、その後の言語レベルの認識をサーバ２側で行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声認識システム、
携帯情報端末、音声情報処理装置、音声情報処理方法お
よび音声情報処理プログラムに関し、特に、音声認識を
用いて情報を入出力する場合に適用して好適なものであ
る。

【０００２】

【従来の技術】従来、音声を用いて情報の入出力を行う
方法には、音声データをセンター側に送って認識処理を
行う方法と、自分のパソコン側で音声認識を行う方法と
があった。音声データをセンター側に送って認識処理を
行う方法では、利用者が音声通話回線を用いてセンター
に電話をかける。そして、電話がつながると、利用者が
音声通話として発話し、音声受話装置を経由して送られ
た音声データが、センター側の音声認識装置で認識され
る。

【０００３】自分のパソコン側で音声認識を行う方法で
は、パソコン上のソフトが音声の認識処理を行い、その
認識結果がアプリケーションに渡される。

【０００４】

【発明が解決しようとする課題】しかしながら、音声デ
ータをセンター側に送って認識処理を行う方法では、以
下のような問題があった。・音声回線を最大同時接続数だけ用意する必要があるた
め、回線維持費や受話専用装置などのコスト上の負担が
大きく、音声認識機能をサーバに気軽に組み込むことが
できない。

【０００５】・音声回線の設備資源は、ＣＰＵパワーと
異なり、他に共通流用できないため、音声認識利用に時
間的偏りがあると、これらの資源が無駄になる。・認識に用いる音声は、符号化の影響およびノイズや欠
落など通信条件の影響を受け易いため、認識精度が劣化
する。・認識に用いる音声帯域は通信帯域に制限され、通信帯
域が音声帯域より狭いと、認識精度が劣化する。

【０００６】・一般的な環境で十分な認識率を得るため
には、声質など話者に依存する項目情報を用いて、認識
処理を行うことが望まれる。この場合、センター側で
は、利用者数分のプロファイル情報を保持し、サービス
開始の際にその利用者を識別し、その利用者に対応する
項目情報を取り出して、認識処理に必要な条件設定を行
う必要がある。

【０００７】・認識性能を向上させるために、話者の発
話環境や騒音状態を考慮して、認識処理を行う場合、話
者の音響環境についての情報をセンター側で得るために
は、予め想定される幅広い背景雑音を収録し、それを元
に汎用の背景雑音除去・適応処理を組み込んでおくか、
サービス中に話者が発話してない時の背景雑音などから
判断するしかなく、適用の効果に限界があった。

【０００８】一方、利用者側で音声認識を行う方法で
は、以下のような問題があった。・利用者側の携帯電話等に搭載可能な音声認識エンジン
は、利用可能な資源が少なく、処理能力が一般的に不十
分である。特に、語義数を増やす場合、言語モデルや辞
書が巨大となるため、利用者側の携帯機器に搭載するこ
とが難しい。一方、少ない語義数で十分な認識率を得る
ため、音声認識を用いるタスクに応じて最適な辞書を携
帯端末にダウンロードする方法が考えられるが、この方
法では、以下のような問題が生じる。

【０００９】・タスクが決まってからダウンロードが終
了するまで、認識処理の開始を待たねばならないため、
余分の待ち時間が発生する。・複数のサービスを利用する場合、切替に応じてダウン
ロードしなければならず、操作が煩雑になる。・ダウンロード可能な辞書は携帯端末側の記憶容量など
性能に依存するため、必ずしも必要な辞書を携帯端末側
に全部用意できるとは限らない。

【００１０】・あらゆる携帯端末で音声認識機能を利用
できるようにするためには、辞書の書式を規格統一しな
ければならない。そこで、本発明の目的は、装置上の負担を軽減しつつ、
精度のよい認識処理を効率よく行うことが可能な音声認
識システム、携帯情報端末、音声情報処理装置、音声情
報処理方法および音声情報処理プログラムを提供するこ
とである。

【００１１】

【課題を解決するための手段】上述した課題を解決する
ために、請求項１記載の音声認識システムによれば、ク
ライアント側で入力された音声の認識処理をサーバ側で
行う音声認識システムにおいて、前記認識処理の一部を
前記クライアント側で行うことを特徴とする。これによ
り、クライアント側およびサーバ側に用意されている資
源や負荷状況などを考慮しつつ、クライアント側とサー
バ側とで処理を分担することができ、装置上の負担を軽
減しつつ、認識処理を効率よく行うことが可能となる。

【００１２】また、請求項２記載の音声認識システムに
よれば、前記クライアント側では、話者環境に依存する
処理を行い、前記サーバ側では、話者環境に依存しない
処理を行うことを特徴とする。これにより、認識処理を
サーバ側で行う場合においても、個々のクライアントご
とに特有の情報をサーバ側に保持することなく、話者環
境を考慮した認識処理を行うことができ、認識精度を向
上させることが可能となる。

【００１３】また、請求項３記載の音声認識システムに
よれば、前記認識処理は音響モデル処理と言語モデル処
理とを含み、前記クライアント側では、前記音響モデル
処理を行い、前記サーバ側では、前記言語モデル処理を
行うことを特徴とする。これにより、語義情報をクライ
アント側に用意することなく、話者環境を考慮した認識
処理を行うことが可能となるとともに、サーバ側にデー
タを送信するための音声回線を用意することなく、既存
のデータ回線を利用してデータ送信することが可能とな
る。このため、クライアント側およびサーバ側の装置上
の負担を軽減しつつ、認識精度を向上させることが可能
となる。

【００１４】また、請求項４記載の音声認識システムに
よれば、前記クライアント側では、話者環境に基づいて
前記音響モデル処理を行い、前記サーバ側では、前記ク
ライアント側が利用した情報サービスの内容に基づい
て、前記言語モデル処理を行うことを特徴とする。これ
により、話者環境に適応した音響モデル処理をその話者
環境中で行うことが可能となるとともに、最適化された
辞書および文法をフルに活用して言語モデル処理を行う
ことが可能となり、認識精度を容易に向上させることが
可能となる。また、言語モデル処理を情報サービスアプ
リケーションの対話処理と密結合して一体化し、より人
間的な対話、例えば、発話が認識できなかった時に、単
純に認識失敗を返すのではなく、「○○ですか」などと
推定した結果を利用者に返答したり、重要でない入力で
あれば、認識失敗のまま適当に話を合わせるなど、さら
に柔軟性のある対話を実現することが可能となる。

【００１５】また、請求項５記載の音声認識システムに
よれば、音響モデルに基づいて音声から音韻情報を抽出
し、前記抽出した音韻情報を送信する利用者処理系と、
前記音韻情報を受信し、前記受信した音韻情報に基づい
て言語レベルの認識処理を行う言語モデル処理系とを備
えることを特徴とする。これにより、送信先で認識処理
を行う場合においても、話者環境の影響を受けない状態
で言語レベルの認識処理を行うことが可能となるととも
に、待ち時間の増大を抑制しつつ、十分な語義数の辞書
を活用して言語モデル処理を行うことが可能となる。ま
た、言語モデル処理系にデータを送信する場合において
も、データ量を削減しつつ、通信条件の影響を軽減する
ことが可能となる。このため、装置上の負担を軽減しつ
つ、精度のよい認識処理を迅速に行うことが可能とな
る。

【００１６】また、請求項６記載の音声認識システムに
よれば、前記利用者処理系は、自己の話者環境を考慮し
て音韻情報を抽出することを特徴とする。これにより、
送信先で認識処理を行う場合においても、話者環境に適
応した音韻情報の抽出を、その話者環境中で行うことが
可能となり、話者環境への適応化をサーバ側で行う必要
がなくなることから、装置上の負担を軽減しつつ、認識
精度を向上させることが可能となる。

【００１７】また、請求項７記載の音声認識システムに
よれば、前記音韻情報は、音韻候補とその尤度値の列で
あることを特徴とする。これにより、データ送信する際
のデータ量を削減しつつ、通信条件の影響を軽減するこ
とが可能となるとともに、話者環境の影響が除去された
状態で言語モデル処理を行うことが可能となり、装置上
の負担を軽減しつつ、精度のよい認識処理を効率よく行
うことが可能となる。

【００１８】また、請求項８記載の音声認識システムに
よれば、前記言語モデル処理系から出力される認識結果
に基づいて、前記利用者処理系に情報サービスを提供す
る情報サービス系をさらに備えることを特徴とする。こ
れにより、利用者が言語モデル処理系に音声入力するだ
けで、必要な情報サービスを受けることが可能となる。

【００１９】また、請求項９記載の音声認識システムに
よれば、前記情報サービス系は、前記利用者処理系に提
供される情報サービスの内容に基づいて、前記言語モデ
ル処理系の辞書または文法を更新することを特徴とす
る。これにより、利用者に提供される情報サービスの内
容に基づいて、言語モデル処理を行うことができ、その
サービスと無関係な語義との照合を省略することが可能
となることから、精度のよい認識処理を効率よく行うこ
とが可能となる。

【００２０】また、請求項１０記載の音声認識システム
によれば、前記情報サービス系から提供されるサービス
内容を前記利用者処理系に音声で伝える音声合成処理系
をさらに備えることを特徴とする。これにより、利用者
側に音声合成機能が備わってない場合においても、情報
サービス系からサービス内容を音声で受け取ることが可
能となり、また感情を込めた個性的な声のような高度な
音声合成も、利用者側の性能を拡張することなく追加で
き、自然な対話を幅広く提供することが可能となるとと
もに、情報のやり取りを円滑に行うことが可能となる。

【００２１】また、請求項１１記載の携帯情報端末によ
れば、音声データから音韻情報を抽出する音響モデル処
理手段と、前記音響モデル処理手段により抽出された音
韻情報を送信する音韻情報送信手段とを備えることを特
徴とする。これにより、サーバ側で認識処理を行わせる
場合においても、発声側の携帯情報端末に語義情報を用
意する必要がなくなるとともに、サーバ側で音声データ
を直接扱う必要がなくなり、携帯情報端末側で膨大な語
義を扱ったり、サーバ側に音声回線を用意したりする必
要がなくなることから、装置上の負担を抑制しつつ、精
度のよい認識処理を効率よく行うことが可能となる。

【００２２】また、請求項１２記載の携帯情報端末によ
れば、前記音韻情報を抽出するための話者適応化を行う
話者適応化手段と、前記音韻情報を抽出するための耐環
境処理を行う耐環境処理手段とを備えることを特徴とす
る。これにより、送信先で認識処理を行う場合において
も、話者環境への適応化を発話側で行うことが可能とな
り、装置上の負担を軽減しつつ、認識精度を向上させる
ことが可能となる。

【００２３】また、請求項１３記載の音声情報処理装置
によれば、音韻情報を受信する音韻情報受信手段と、前
記音韻情報に基づいて言語レベルの認識処理を行う言語
モデル処理手段とを備えることを特徴とする。これによ
り、サーバ側で音声データを直接扱うことなく、サーバ
側で認識処理を行うことが可能となり、装置上の負担を
抑制しつつ、精度のよい認識処理を効率よく行うことが
可能となる。

【００２４】また、請求項１４記載の音声情報処理方法
によれば、発話された音声を発話側の利用者処理系で音
韻候補とその尤度値の列に変換するステップと、前記音
韻候補とその尤度値の列を通信路経由で言語モデル処理
系に送信するステップと、前記音韻候補とその尤度値の
列に基づいて、言語レベルの認識を前記言語モデル処理
系にて行うステップとを備えることを特徴とする。

【００２５】これにより、送信先で認識処理を行う場合
においても、音声データを送信するための音声回線を用
意することなく、データ送信することが可能となるとと
もに、発話側に語義情報を用意することなく、話者環境
の影響が除去された状態で言語モデル処理を行うことが
可能となる。また、発話側に語義情報を用意する必要が
なくなるため、ダウンロードなどの待ち時間の増大を抑
制しつつ、十分な語義数の辞書を活用して言語モデル処
理を行うことが可能となる。このため、装置上の負担を
軽減しつつ、精度のよい認識処理を迅速に行うことが可
能となる。

【００２６】また、請求項１５記載の音声情報処理方法
によれば、利用者の使用する情報サービス系を言語モデ
ル処理系へ通知するステップと、前記情報サービス系と
前記利用者とを関連付けて、前記言語モデル処理系に登
録するステップと、前記言語モデル処理系と前記情報サ
ービス系との間に通信路を設定するステップと、前記言
語モデル処理系と前記利用者を関連付けて、前記情報サ
ービス系に登録するステップと、前記言語モデル処理系
が、認識結果を前記通信路を通して前記情報サービス系
に通知するステップとを備えることを特徴とする。

【００２７】これにより、認識処理をネットワーク上で
分散させて行った場合においても、利用者が情報サービ
ス系を利用する際の入力作業を、言語モデル処理系が代
行することが可能となり、利用者がセンターに直接電話
して音声対話する場合と同様な環境を提供することがで
きる。また、請求項１６記載の音声情報処理方法によれ
ば、前記言語モデル処理系は、前記情報サービス系のサ
ービス内容に基づいて、言語モデル処理を行う際の辞書
または文法を切り換えることを特徴とする。

【００２８】これにより、情報サービス系と利用者との
対話時における利用頻度の高い単語を重視した辞書や、
出現頻度の高い文構造を重視した文法を用いて言語モデ
ル処理を行うことが可能となり、認識精度を向上させる
ことが可能となる。また、請求項１７記載の音声情報処
理方法によれば、前記利用者処理系において、前記利用
者に対応した話者適応化を行うステップと、前記利用者
周辺の音響を継続的に観測するステップと、発話時にそ
の発話場所の環境雑音に応じたノイズ除去を行うステッ
プとを備えることを特徴とする。

【００２９】これにより、通信路経由で発話情報を送る
前に、話者依存性や環境雑音を除去することが可能とな
り、話者環境に影響されることなく、言語モデル処理を
行うことが可能となる。また、請求項１８記載の音声情
報処理方法によれば、前記利用者処理系において、表示
用文字列および画像、ならびに発話用文字列を前記情報
サービス系から受信するステップと、前記表示用文字列
および画像を表示するステップと、前記発話用文字列を
音声合成して出力するステップとを備えることを特徴と
する。

【００３０】これにより、情報サービスの内容がテキス
トデータ形式で送られてきた場合においても、情報サー
ビスの内容を音声や画面表示を利用して受け取ることが
できる。また、請求項１９記載の音声情報処理方法によ
れば、前記情報サービス系が発話用文字列を音声合成処
理系へ送信するステップと、前記発話用文字列に基づい
て、前記音声合成処理系にて音声合成を行うステップ
と、前記音声合成された音声データを前記利用者処理系
に送信するステップと、前記利用者処理系が、前記音声
データを再生するステップとを備えることを特徴とす
る。

【００３１】これにより、利用者側に音声合成機能が備
わってない場合においても、情報サービス系からサービ
ス内容を音声で受け取ることが可能となる。また、請求
項２０記載の音声情報処理方法によれば、言語モデル処
理に基づいて、前記情報サービス系から発行された前記
言語モデル処理系の辞書および文法を更新するステップ
と、前記更新された辞書および文法を前記情報サービス
系に伝えるステップとを備えることを特徴とする。

【００３２】これにより、情報サービス系から発行され
る辞書および文法の精度を向上させることができ、認識
精度を向上させることが可能となる。また、請求項２１
記載の音声情報処理方法によれば、前記言語モデル処理
系の認識結果として得られた文字列を尤度と共に前記利
用者処理系に送信するステップと、前記利用者処理系が
前記認識結果を利用者に提示するステップと、前記利用
者が前記認識結果を間違いと指示した場合、前記言語モ
デル処理系に前記認識結果の取り消し通知を送信するス
テップと、前記認識結果の間違いの指示がなく、かつ前
記尤度が所定値以上の場合、前記利用者処理系は、前記
認識結果に基づいて話者適応化を行うステップとを備え
ることを特徴とする。

【００３３】これにより、言語モデル処理系において認
識処理が行われる場合においても、利用者が認識結果の
間違いを指示するだけで、利用者処理系における話者適
応化を行うことができる。また、請求項２２記載の音声
情報処理方法によれば、前記情報サービス系と利用者と
の対話結果に基づいて、認識誤りまたは訂正結果を取得
するステップと、前記認識誤りまたは訂正結果に基づい
て、前記言語モデル処理系に発行するために前記情報サ
ービス系に保持されている辞書および文法を更新するス
テップと、前記認識誤りまたは訂正結果を前記言語モデ
ル処理系に伝えるステップと、前記認識誤りまたは訂正
結果に基づいて、前記言語モデル処理系に保持されてい
る辞書および文法を更新するステップとを備えることを
特徴とする。

【００３４】これにより、言語モデル処理過程だけでな
く、サービス処理の流れや利用者と情報サービス系との
対話結果に基づいて、情報サービス系および言語モデル
処理系に保持される辞書および文法の精度を向上させる
ことができ、認識精度をより一層向上させることが可能
となる。また、請求項２３記載の音声情報処理方法によ
れば、現在の対話内容に適合した言語モデル処理系があ
るかを問い合わせるステップと、現在の対話内容に適合
した言語モデル処理系がある場合、その言語モデル処理
系へ処理を移行するステップとを備えることを特徴とす
る。

【００３５】これにより、言語モデル処理系が複数ある
場合、利用者処理系と言語モデル処理系との最適な組み
合わせを選択することができ、認識精度を向上させるこ
とが可能となる。また、請求項２４記載の音声情報処理
方法によれば、過去に利用した情報サービス系を、その
時利用した言語モデル処理系と共に登録するステップを
備えることを特徴とする。

【００３６】これにより、ボタンの押下などの簡単な操
作を用いて特定の情報サービスへの対話を指示するだけ
で、その情報サービスとの対話を即座に開始することが
可能となる。また、請求項２５記載の音声情報処理方法
によれば、発話された音声から音韻情報を発話側で抽出
するステップと、前記音韻情報を送信するステップと、
前記送信された音韻情報に基づいて、言語レベルの認識
を行うステップと、前記認識結果に基づいて、情報サー
ビス系にアクセスするステップと、前記情報サービス系
からのサービス内容を前記音韻情報の送信元に返信する
ステップとを備えることを特徴とする。

【００３７】これにより、発話側に語義情報を用意する
ことなく、音声データを送信するための音声回線を用意
することもなく、話者が音声入力するだけで、必要な情
報サービスを受けることが可能となる。また、請求項２
６記載の音声情報処理方法によれば、音声認識をネッ
トワーク上でシーケンシャルに分散処理することを特徴
とする。

【００３８】これにより、ネットワーク上の資源を有効
活用して音声認識を行うことが可能となり、手元にある
資源が限られている場合においても、高度な音声認識シ
ステムを容易に構築することが可能となる。また、請求
項２７記載の音声情報処理プログラムによれば、音声デ
ータから音韻情報を抽出するステップと、前記抽出され
た音韻情報を送信するステップと、前記抽出された音韻
情報に基づく認識処理を前記送信先で行わせるステップ
とをコンピュータに実行させることを特徴とする。

【００３９】これにより、音声情報処理プログラムを携
帯情報端末にインストールするだけで、携帯情報端末に
かかる装置上の負担を抑制しつつ、音声による情報の入
出力を迅速に行うことが可能となる。

【００４０】

【発明の実施の形態】以下、本発明の実施形態に係る音
声認識システムについて、図面を参照しながら説明す
る。図１は、本発明の第１実施形態に係る音声認識シス
テムの概略構成を示すブロック図である。

【００４１】図１において、クライアント１とサーバ２
はネットワークを介して接続され、クライアント１に
は、音声分析部１ａ、音韻抽出部１ｂおよび音響モデル
１ｃが設けられ、サーバ２には、認識処理部２ａおよび
言語モデル２ｂが設けられている。ここで、ネットワー
クとして、例えば、公衆回線やＬＡＮ向けのアナログ電
話回線、ＩＳＤＮ（総合サービス・デジタル網）、ＤＳ
Ｌ、イーサネット（登録商標）、光ファイバ回線、ＰＨ
Ｓ、携帯電話（回線接続、パケット接続）、無線ＬＡＮ
（ローカルエリアネットワーク）、固定マイクロ波回
線、衛星通信回線、さらには、近距離通信用規格のＲＳ
２３２Ｃ、ＵＳＢ、ＳＣＳＩ、ＩＥＥＥ１３９６、Ｉｒ
ＤＡ、Ｂｌｕｅｔｏｏｔｈなども混在して用いることが
できる。

【００４２】クライアント１で発話が行われると、音声
分析部１ａは、音声データを分析し、その音声データか
ら特徴パラメータを抽出し、音韻抽出部１ｂに出力す
る。なお、音声データからの特徴パラメータの抽出は、
例えば、ケプストラム分析などにより行うことができ
る。音韻抽出部１ｂは、音響モデル１ｃを用いることに
より、特徴パラメータから音韻情報（音素情報）を抽出
し、その音韻情報をネットワークを介してサーバ２に送
信する。なお、音響モデル１ｃは、例えば、ＨＭＭ（隠
れマルコフモデル）などを用いることができる。また、
音韻情報としては、例えば、音韻候補とその尤度の列と
することができる。

【００４３】サーバ２側で音韻情報を受信すると、認識
処理部２ａは、言語モデル２ｂを用いることにより、言
語レベルの認識処理を行う。ここで、言語レベルの認識
処理は、サーバ２側で行われるので、十分な語義数の辞
書および文法をサーバ２側に予め用意することができ、
辞書および文法をダウンロードするための待ち時間を削
減することができるので、認識処理を迅速に行うことが
できる。

【００４４】また、言語レベルの認識処理をサーバ２側
で行うことにより、クライアント１側に語義情報を保持
する必要がなくなり、クライアント１側の利用可能な資
源が少なく、処理能力が不十分な場合においても、精度
のよい認識処理を効率よく行うことが可能となる。ま
た、サーバ２側では、言語レベルの認識結果に基づい
て、その認識処理により適した辞書および文法をダウン
ロードすることができるので、認識処理の精度を向上さ
せることができる。

【００４５】また、サーバ２側で全ての認識処理を行う
のではなく、音韻情報の抽出までをクライアント１で行
い、その後の言語レベルの認識をサーバ２側で行うこと
により、音韻情報をデータ回線を介してサーバ２側に送
ることができ、発話された音声波形データそのものをサ
ーバ２側に送る必要がなくなることから、音声回線や音
声受話装置をサーバ２側に設置する必要がなくなる。こ
のため、サーバ２側で認識処理を行う際の設備のコスト
増を抑制することが可能となり、音声認識機能を気軽に
サーバに組み込むことが可能となる。

【００４６】また、音韻情報の抽出までをクライアント
１側で行うことにより、各クライアント１ごとに特有の
個人差や実環境に基づいて、話者適応化や耐環境処理を
行うことができ、クライアント１側の資源を有効に活用
することが可能となるとともに、認識処理の精度を向上
させることができる。図２は、本発明の第２実施形態に
係る音声認識システムの概略構成を示すブロック図であ
る。

【００４７】図２において、利用者処理系１１、言語モ
デル処理系１２、情報サービス系１３および音声合成処
理系１４は通信路１５に接続され、利用者処理系１１、
言語モデル処理系および情報サービス系１３は互いに通
信可能とされる。利用者処理系１１は、例えば、携帯機
器などであり、利用者処理系１１には、音声入力部１１
ａ、音響モデル処理部１１ｂ、通信処理部１１ｃ、文字
画像表示部１１ｄ、対話処理部１１ｅ、音声合成処理部
１１ｆおよび音声出力部１１ｇが設けられている。そし
て、利用者処理系１１は、利用者側に近い位置に存在
し、利用者の直接操作を受付け、音響モデルでの処理を
行う。

【００４８】ここで、音声入力部１１ａは、マイクなど
により、利用者の発話音声や背景雑音を入力する。音響
モデル処理部１１ｂは、音声入力部１１ａから入った利
用者の発話音声を音響モデルのレベルで認識処理する。
また、話者適応、雑音除去・適応も行う。通信処理部１
１ｃは、言語モデル処理系１２および情報サービス系１
３と通信するために通信路１５と接続する。文字画像表
示部１１ｄは、文字や画像などをディスプレイ表示す
る。対話処理部１１ｅは、Ｗｅｂブラウザや音声認識を
使ったサービスを運用する。音声合成処理部１１ｆは、
テキストデータから音声信号を合成する。音声出力部１
１ｇは、音声合成された情報をスピーカなどから送出す
る。

【００４９】言語モデル処理系１２には、言語モデル処
理部１２ａ、辞書文法保管部１２ｂおよび通信処理部１
２ｃが設けられている。そして、言語モデル処理系１２
は、利用者処理系１１からの音響モデルレベルの認識結
果に基づいて、言語モデルでの認識を行い、情報サービ
ス系１３に取り次ぐ。なお、言語モデル処理系１２は、
利用者処理系１２と情報サービス系１３と通信可能であ
れば、どこにあっても良い。

【００５０】ここで、言語モデル処理部１２ａは、音響
モデルの処理結果を元に言語モデルを用いて音声認識を
行う。辞書文法保管部１２ｂは、言語モデルに用いる辞
書および文法を保管する。通信処理部１２ｃは、利用者
処理系１１および情報サービス系１３と通信する。情報
サービス系１３には、情報サービス部１３ａ、辞書文法
保管部１３ｂおよび通信処理部１３ｃが設けられてい
る。そして、情報サービス系１３は、利用者処理系１１
の利用者が得ようとするサービス自体を取り扱う。な
お、情報サービス系１３は、利用者処理系１１および言
語モデル処理系１２と通信可能ならばどこにあっても良
い。

【００５１】ここで、情報サービス部１３ａは、Ｗｅ
ｂサービスなどの情報提供や各種サービスなどを行う。
辞書保管部１３ｂは、利用者とのサービス対話に適した
辞書や文法を保管する。通信処理部１３ｃは、利用者処
理系１１および言語モデル処理系１２と通信する。音声
合成処理系１４には、音声合成部１４ａおよび通信処理
部１４ｂが設けられている。そして、音声合成処理系１
４は、情報サービス系１３から受け取ったテキストデー
タと発話個性情報を元に、個性的な音声を合成し、その
合成結果を利用者処理系１１へ再生可能な書式で送信す
る。

【００５２】ここで、音声合成部１４ａは、情報サービ
ス系１３から受け取ったテキストデータに基づいて音声
を合成する。また、発話個性情報があれば、それに従っ
てより感情的な声を合成するようにしてもよい。通信処
理部１４ｂは、利用者処理系１１および情報サービス系
１３と通信する。なお、利用者処理系１１として、携帯
電話などの情報情報端末を用い、言語モデル処理系１
２、情報サービス系１３および音声合成処理系１４とし
て、サーバを用いることができる。また、音響モデル処
理を行うために、Ｊａｖａ（登録商標）アプレットなど
のプログラムを利用者処理系１１にダウンロードするよ
うにしてもよい。

【００５３】利用者処理系１１の利用者が音声を用い
て、情報サービス系１３に対して入力を行う場合、音声
認識処理を音響レベルと言語レベルに分け、音響レベル
の処理を利用者処理系１１に分担させ、言語レベルの処
理を言語モデル処理系１２に分担させる。ここで、利用
者側に存在する利用者処理系１１は、話者の声質特性
と、現在の利用者周辺の環境雑音情報を予め測定して保
持し、これらを逐次必要に応じて更新することができ
る。そして、その利用者に対し話者適応を行うととも
に、発話時にその発話場所の環境雑音に通したノイズ除
去・適応手法を用いることにより、音響レベルの認識を
行う。そして、話者依存性や環境雑音が除去された音響
モデル処理結果の候補を、各音韻候補とその尤度を組み
にし、通信路１５経由で言語モデル処理系１２に送る。

【００５４】例えば、利用者の発話内容が「切符の予
約」であった場合、音響モデル処理により、各音韻候補
に続く尤度を最低−１０００００００〜最高１００００
０００の数値で表現し、／ｋ／６００／ｔ／−２００，
／ｉ／１０００，／−／７００／ｉ／−３０００，／ｐ
／７５００／ｂ／２０００，／ｕ／７０００／ｏ／−２
００，／ｎ／２００００，／ｏ／７００００／−／−２
００００・・・というデータを得ることができる。そし
て、このようなデータが得られたら、各音素の上位複数
候補を尤度付きで送信する。

【００５５】なお、各音素候補が正解である確からしさ
で表現してもよく、尤度が判るのであれば、符号付き小
数点表記など別の表現を用いるようにしてもよい。ま
た、話者の意図把握を強化するために、上記書式の拡張
として、音素の音程や強さの変動を認識し、上記書式に
付加して送ってもよい。言語モデル処理系１２はそれら
の情報、例えば、文末音程上昇から疑問文の判定、発話
の強弱から重要度の推定を行い、それらの情報も合わせ
て情報サービス系１３に送ることで、より質の高い対話
を実現することができる。

【００５６】言語モデル処理系１２では、利用者が利用
するサービスに特徴的な辞書および文法を保持し、音響
モデル処理結果が利用者処理系１１から送られると、そ
の音響モデル処理結果を元に言語レベルの認識を行う。
これにより、音響レベルの認識までを話者側で行うこと
ができ、通信品質の影響も受けることなく、最良の条件
で音声を収録可能となるとともに、話者適応や環境雑音
適応を精度よく行うことが可能となり、得られた音響レ
ベルの認識結果を家電制御など幅広い対象に利用するこ
とができる。

【００５７】また、音響レベルの処理を携帯機器などの
利用者処理系１１で分担し、言語レベルの処理をサーバ
などの言語モデル処理系１２に分担することにより、装
置コストと性能のバランスを利用者ごとに任意に選択で
き、性能が劣っても簡素な携帯機器を使いたい利用者
も、認識性能を重視して高性能な携帯機器を用いる利用
者も、音声入力が利用可能となる。

【００５８】また、言語モデル処理系１２を通信路１５
に接続するだけで、認識性能、処理速度およびコストな
どの異なる言語モデル処理系１２を通信路１２上に混在
させることができ、利用者処理系１１は、自己に適した
言語モデル処理系１２を任意に選択することが可能とな
ることから、様々のニーズに合った音声認識システムを
容易に構築することが可能となる。

【００５９】また、携帯機器などの利用者処理系１１か
ら通信路５を経由して言語モデル処理系１２へ飛ぶ情報
量は、生の音声データに比べて少ないため、音声回線を
用いて生の音声データをやり取りする音声認識サービス
に比べ、費用面や電波資源の面で気軽に使用することが
できる。また、利用者処理系１１で音韻情報を抽出する
ことにより、言語モデル処理系１２にテキスト形式でデ
ータを送信することができ、生の音声データをやり取り
する場合に比べて、遅延の影響も低減することが可能と
なるとともに、伝送時のノイズや欠落も再送などで容易
に対応でき、パケット通信も使うことが可能となる。

【００６０】このため、音韻情報を送る際に、他のデー
タ回線を共通流用することができ、モデムなどのネット
ワーク接続機構だけを言語モデル処理系１２に設ければ
良く、音声処理専用の特殊なハードウエアを用意した
り、音声回線接続用の装置や回線を用意する必要がなく
なることから、音声認識システムを構築する際のコスト
上の負担を抑制することが可能となるとともに、既存の
設備資源を有効活用することが可能となる。

【００６１】また、言語モデル処理系１２を実現するサ
ーバは、言語レベルの処理をすればよいため、音声認識
全てをサーバ側で処理する場合より負荷を軽くすること
が可能となるとともに、サービスに依存する単語や文法
に言語モデル処理系１２側で適応できるため、携帯機器
など利用者処理系１１で全て処理するよりも高い性能を
実現することができる。

【００６２】また、言語モデル処理系１２で使用する辞
書は、規格統一しなくても、運用することができ、辞書
まで含めて各言語モデル処理系１２内部で閉じて処理す
る場合には、独自形式の辞書を用いることが可能とな
る。また、情報サービス系１３から辞書を受け取る場合
も、交換する可能性がある範囲で解釈可能な書式であれ
ばよい。

【００６３】また、利用者は、使用する情報サービス系
１３を言語モデル処理系１２へ通知し、言語モデル処理
系１２は情報サービス系１３と利用者とを関係付けて登
録し、それを情報サービス系１３に通知して通信路５を
張り、その情報サービス系１３は言語モデル処理系１２
と利用者を関係付けて登録し、その言語モデル処理系１
２はその通信路５を通して認識結果を情報サービス系１
２へ通知することができる。

【００６４】これにより、認識処理をネットワーク上で
分散させて行った場合においても、利用者にとってセン
ターに直接電話して音声対話する場合と同様な処理を実
現することができる。また、言語モデル処理系１２は、
情報サービス系１３がどのジャンルに属するかが予め対
応付けられた表を参照するか、または認識結果が送られ
る情報サービス系１３から辞書および文法を入手するこ
とにより、その情報サービス系１３と利用者の対話にお
いて頻度の高い単語を重視した辞書、あるいは頻度の高
い文構造を重視した文法に切り換えて言語モデル処理を
行うことができる。

【００６５】これにより、利用者の利用状況を考慮した
認識処理を言語モデル処理系１２で行うことができ、認
識処理をさらに効率化することが可能となる。図３は、
本発明の第３実施形態に係る音声認識システムの概略構
成を示すブロック図である。図３において、言語モデル
処理サーバ２３、情報サービスアプリケーションサーバ
２４および音声合成処理サーバ２５はインターネット網
２７に接続され、基地局２２は公衆無線網２６を介して
インターネット網２７に接続され、携帯機器２１は基地
局２２と無線で通信を行う。

【００６６】携帯機器２１は、例えば、無線／有線回線
接続された携帯電話、携帯端末、またはパソコンなどで
あり、音声入力機能および音響モデル処理機能が設けら
れている。言語モデル処理サーバ２３は、例えば、パー
ソナルコンピュータ（以下、ＰＣという）やワークステ
ーション（以下、ＷＳという）などの一般の計算機であ
り、ネットワーク通信機能が設けられている。また、言
語モデルの処理を行い、その処理結果を携帯機器２１お
よび情報アプリケーションサーバ２４へ送る。

【００６７】情報サービスアプリケーションサーバ２４
は、例えば、ＰＣやＷＳなど一般の計算機であり、ネッ
トワーク通信機能が設けられている。そして、ｗｅｂサ
ーバと同様に、利用者１０からの要求に応じた情報サー
ビスを提供することができる。また、音声対話による情
報提供を扱う機能を設けてもよい。なお、言語モデル処
理サーバ２３で行われる言語モデル処理機能を、情報サ
ービスアプリケーションサーバ２４に持たせるようにし
てもよい。

【００６８】音声合成処理サーバ２５は、例えば、ＰＣ
やＷＳなどの一般の計算機であり、ネットワーク通信機
能を持つとともに、音声合成を行う。これにより、利用
者１０の個人差やその使用環境に依存する音響モデル部
分を携帯機器２２で行うことができ、個人適応も、使用
場所の雑音適応も、容易に実現可能となることから、利
用者１０がどのようなサービスを利用する場合において
も、一定の音響モデル処理率を保持することが可能とな
るとともに、音声認識のうち、負荷の重い部分を言語モ
デル処理サーバ２３側で行わせることが可能となる。こ
のため、利用可能な資源の少ない移動機器２２を用いた
場合においても、精度良く待ち時間の少ない音声入出力
を容易に実現することができる。

【００６９】また、音響モデル処理は、言語モデル処理
を考慮することなく、話者が必要とする性能に応じて話
者側で調整可能となり、静かな環境で使うなら、雑音適
応なしの簡易な処理で済ませすことができるし、ある環
境で特に認識率を上げたければ、高性能の音響モデル処
理を用いることができる。また、移動機器２２側で音か
ら音韻への変換が済んでいるので、テキストベースに近
い程度のデータ通信で済ませることができ、リアルタイ
ム処理の必要性も、原則として、エラーや欠落が許され
ない音声ほどシビアではないため、データ再送処理も使
え、エラーにも強く、パケット網を用いることも可能と
なる。

【００７０】また、インターネット網２７上のサーバ２
３で音声認識の全ての処理を行うためには、音声を直接
サーバ２３に送る必要があり、同時利用可能にすべき数
だけ音声回線を用意する必要があるが、音響モデル処理
を移動機器２２側で済ませることにより、音声回線接続
用ハードウエアの増設や、着信回線維持コストが不要と
なり、需要の増加に対しても、一般的な計算機能力増強
で対処することができる。

【００７１】また、言語モデル処理をサーバ２３側で行
うので、利用する情報サービスに適した専門用語やその
タスク特有の言い回し、対話流れなどに対応した高い性
能を持たせることができ、かつ多数の利用者へ提供可能
となる。なお、図３の実施形態では、図２の利用者処理
系１１を携帯機器２１に設け、携帯機器２１を公衆無線
網２６を介してインターネット網２７に接続し、図２の
言語モデル処理系１２および情報サービス系１３をイン
ターネット網２７上で実現する方法について説明した
が、例えば、これら３つの系が１つの建物内に存在し、
近距離無線で接続するようにしてもよい。

【００７２】また、言語モデル処理系１２が家庭内に設
置され、それと通信可能な利用者処理系１１を持ち歩
き、インターネット網２７上の情報サービス系１３から
サービスが受けられるようにしてもよい。以下、本実施
形態に係る音声認識システムの具体的な動作について、
図２の音声認識システムを例にとって説明する。

【００７３】なお、以下の説明では、携帯電話などの携
帯機器（利用者処理系１１に相当）を使って、インター
ネット上の情報サービスを音声対話によって利用するも
のとする。また、利用者処理系１０の音響モデル処理部
１１ｂは、事前に、または継続的に、利用者１０へ話者
適応しているものとする。また、利用者１０の居る音響
環境を継続的に監視し、発話の際の背景雑音に対して雑
音除去・適応をしているものとする。

【００７４】ここで、図２の音声認識システムを利用し
て情報サービスを受ける場合、主として、（１）音声イ
ンターフェイスおよび情報サービスの利用開始時の動
作、（２）情報サービス運用時の動作および（３）音声
インターフェイスおよび情報サービスの利用終了時の動
作が行われる。図４は、図２の音声認識システムにおけ
る音声インターフェイスおよび情報サービスの利用開始
時の動作を示すシーケンス図である。

【００７５】図４において、音声認識によるサービスの
利用を開始する場合、利用者１０は、携帯機器のボタン
を押すなどして、音声認識によるサービス開始を利用者
処理系１１に指示する（Ｋ１）。利用者処理系１１は、
音声認識によるサービス開始の指示を受けると、通信路
１５上の言語モデル処理系１２に接続を行う（Ｋ２）。
そして、言語モデル処理系１２が利用申し込みを受け付
けると、利用者処理系１１に了解を返答する（Ｋ３）。

【００７６】利用者処理系１１は、言語モデル処理系１
２からの了解を受け取ると、最初のメニューを音声合成
して出力するか、または画面に表示し、利用者１０から
の音声入力が行われるまで待機する（ステップＳ１）。
次に、利用者１０は、発話にて、利用するサービスを利
用者処理系１１に指示する（Ｋ４）。

【００７７】利用者処理系１１は、発話による指示があ
ると、音響モデルによる音韻認識を行う（ステップＳ
２）。そして、その時の尤度が所定値以下の場合、利用
者１０に再発話を催促し（Ｋ５）、尤度が所定値を超え
る場合、認識結果として得られた各音韻音候補を尤度と
共に言語モデル処理系１２へ送信する（Ｋ６）。言語モ
デル処理系１２は、各音韻音候補を尤度と共に受け取る
と、その音韻音候補（音素）を言語モデルで処理し、認
識判定を行う（ステップＳ３）。ここで、認識判定を行
った結果、その尤度が所定値以下ならば、利用者処理系
１１に「認識不可」の返答を行う（Ｋ７）。そして、利
用者処理系１１は、言語モデル処理系１２から「認識不
可」の返答を受け取ると、利用者１０に「認識不可」を
提示する（Ｋ８）。

【００７８】一方、認識判定を行った結果、その尤度が
所定値を超えるならば、言語モデル処理系１２は、その
認識判定結果に基づいて利用者１０が要求するサービス
を判定し（ステップＳ４）、そのサービスに該当する情
報サービス系１３に接続するとともに（Ｋ９）、利用者
名の登録を行う（ステップＳ５）。情報サービス系１３
は、言語モデル処理系１２との接続要求があると、接続
要求を受け付け（ステップＳ６）、利用者１０からの接
続要求があったと判断し、利用者１０へのサービスを開
始するとともに、そのサービスに通した辞書と文法を言
語モデル処理系１２へ送信する（Ｋ１０）。

【００７９】なお、言語モデル処理系１２がいくつかの
サービスに対応した複数の辞書および文法を既に保管し
ている場合、処理に用いる辞書および文法を言語モデル
処理系１２へ指示するようにしてもよい。言語モデル処
理系１２は、処理に用いる辞書および文法を情報サービ
ス系１３から指定されると、情報サービス系１３から指
定されたジャンルに応じた辞書および文法が辞書文法保
管部１２ｂに既にある場合、そこから辞書および文法を
取り出して、言語モデルに設定する（ステップＳ７）。
情報サービス系１３から指定されたジャンルに応じた辞
書および文法が辞書文法保管部１２ｂにない場合、情報
サービス系１３から辞書および文法を受信し、言語モデ
ルに設定する。

【００８０】なお、辞書および文法を情報サービス系１
３から受け取った場合、それらを全部入れ替えてもよ
く、専門辞書および文法だけを入手して、基本システム
に追加するようにしてもよい。また、言語モデル処理系
１２が、辞書および文法を情報サービス系１３から発行
してもらった場合、言語モデル処理過程を通じて辞書・
文法の改良に使える情報（例えば、単語の前後関係頻度
の実測データ）が得られていたら、それを辞書および文
法に反映し、その反映結果を情報サービス系１３へ返却
するようにしてもよい。

【００８１】ここで、改良された辞書および文法の返却
時期は、特定の利用者１０についての一連の情報サービ
スが終わった後でもよいし、例えば、１ヶ月程度の単位
で辞書および文法を保持し、所定量の改良データが辞書
および文法に蓄積された後でもよい。また、情報サービ
ス系１３は、利用者１０からの接続要求があると、利用
者１０へ提示すべき情報を利用者処理系１１へ送信する
（Ｋ１１）。そして、利用者処理系１１は、情報サービ
ス系１３からの情報を音声合成して音声で利用者１０に
提示したり、画面表示したりする（Ｋ１２）。

【００８２】利用者１０は、サービス利用開始時の情報
が提示されると、利用者処理系１１を介し、情報サービ
ス系１３とサービスに関する対話を開始する。図５は、
図２の音声認識システムにおける情報サービス運用時の
動作を示すシーケンス図である。図５において、利用者
１０は、発話にて、利用者処理系１１に必要な入力を行
う（Ｋ２１）。

【００８３】利用者処理系１１は、発話入力があると、
音響モデルによる音韻認識を行う（ステップＳ２１）。
そして、その時の尤度が所定値以下の場合、利用者１０
に再発話を催促し（Ｋ２２）、尤度が所定値を超える場
合、認識結果として得られた各音韻音候補を尤度と共に
言語モデル処理系１２へ送信する（Ｋ２３）。言語モデ
ル処理系１２は、各音韻音候補を尤度と共に受け取る
と、その音韻音候補（音素）を言語モデルで処理し、認
識判定を行う（ステップＳ２２）。ここで、認識判定を
行った結果、その尤度が所定値以下ならば、利用者処理
系１１に「認識不可」の返答を行う（Ｋ２４）。そし
て、利用者処理系１１は、言語モデル処理系１２から
「認識不可」の返答を受け取ると、利用者１０に「認識
不可」を提示する（Ｋ２５）。

【００８４】一方、認識判定を行った結果、その尤度が
所定値を超えるならば、言語モデル処理系１２は、その
認識判定結果をテキスト形式などで情報サービス系１３
に送信する（Ｋ２６）。情報サービス系１３は、言語モ
デル処理系１２から認識判定結果が送信されると、その
認識判定結果を受信し（ステップＳ２３）、その認識判
定結果に応じた処理を行う（ステップＳ２４）。そし
て、情報サービス系１３は、利用者１０へ提示すべき情
報を利用者処理系１１へ送信する（Ｋ２７）。

【００８５】利用者処理系１１は、情報サービス系１３
から送られた情報を受信すると、その情報を音声合成し
て音声で利用者１０に提示したり、画面表示したりする
（Ｋ２８）。図６は、図２の音声認識システムにおける
音声インターフェイスおよび情報サービスの利用終了時
の動作を示すシーケンス図である。

【００８６】図６において、利用者１０がサービスの利
用終了を情報サービス系１３に伝えると、情報サービス
系１３はサービス終了を決定し（ステップＳ３１）、言
語モデル処理系１２および利用者処理系１１にサービス
終了を通知した後（Ｋ３１、Ｋ３３）、サービスを終了
する（ステップＳ３３）。言語モデル処理系１２は、サ
ービス終了の通知を受け取ると、情報サービス系１３と
の接続を解除するとともに（Ｋ３２）、その情報サービ
スに適するように設定していた辞書および文法を解除し
（ステップＳ３２）、入力待機状態に移行する。ここ
で、辞書および文法を解除する場合、その辞書および文
法を破棄するか、またはキャッシュ（利用頻度の高いも
のを一時保管する）するか、あるいは辞書文法保管部１
２ｂに保管する。

【００８７】利用者処理系１１は、サービス終了の通知
を受け取ると、サービス終了を利用者１０に提示し（Ｋ
３４）、入力待機状態に移行する。次に、利用者１０が
音声サービス自体の終了を利用者処理系１１に指示する
と（Ｋ３５）、利用者処理系１１は、音声サービスの終
了を言語モデル処理系１２へ伝える（Ｋ３６）。

【００８８】言語モデル処理系１２は、音声サービスの
終了通知を受け取ると、言語モデルの利用を終了し（ス
テップＳ３４）、利用者処理系１１との接続を解除する
（Ｋ３７）。利用者処理系１１は、言語モデル処理系１
２との接続が解除されると、接続終了を利用者１０に提
示する（Ｋ３８）。なお、上述した実施形態では、情報
サービス系１３が利用者１０に情報サービスを提示する
場合、その情報サービスの内容をテキストデータ形式で
利用者処理系１１に送信し、利用者処理系１１系が必要
に応じて音声合成することにより、その情報サービスの
内容を利用者１０に音声で提示する方法について説明し
た。

【００８９】この方法では、利用者処理系１１系で音声
合成する必要があるため、音声合成処理部１１ｆを利用
者処理系１１系に設ける必要があり、利用者処理系１１
系の負荷が増大する。そこで、音声合成処理系１４を通
信路１５上に導入し、情報サービス系１３は利用者１０
に情報サービスを提示する場合、その情報サービスの内
容を音声合成処理系１４へ音韻情報を含みうる発話文字
列にて送信する。そして、音声合成処理系１４が音声合
成を行い、その音声データを利用者処理系１１に送信
し、利用者処理系１１がその音声データを再生する。

【００９０】図７は、図２の音声認識システムの音声合
成処理系利用時の動作を示すシーケンス図である。図７
において、情報サービス系１３は利用者１０に情報サー
ビスを提示する場合、情報サービス系１３は、自己の情
報サービス系１３の情報および利用者情報を音声合成処
理系１４に送信するとともに（Ｋ４１）、音声合成の仕
様を音声合成処理系１４に送信する（Ｋ４２）。

【００９１】音声合成処理系１４は、情報サービス系１
３の情報、利用者情報および音声合成の仕様を受信する
と、情報サービス系１３の情報および利用者情報を登録
するとともに（ステップＳ４１）、仕様に合った音声合
成機能を設定する（ステップＳ４２）。次に、情報サー
ビス系１３は、利用者１０に情報提示すべき発話文字列
を音声合成処理系１４へ送信する（Ｋ４３）。なお、こ
の時、感情表現を可能にする音韻情報や、男性、女性、
年齢など個性を表すパラメータも送信するようにしても
よい。

【００９２】音声合成処理系１４は、発話文字列を受信
すると、その発話文字列の音声合成を行い（ステップＳ
４３）、その音声データを利用者処理系１１に送信する
（Ｋ４４）。利用者処理系１１は、音声データを受信す
ると、その音声データを再生し（ステップＳ４４）、情
報サービス系１３から提供されたサービスを利用者１０
に提示する。

【００９３】次に、図２の音声認識システムにおける話
者適応化処理の一例について説明する。この話者適応化
処理では、言語モデル処理系１２の認識結果として得ら
れた文字列および尤度を利用者処理系１１にも送り、利
用者処理系１１は、その認識結果を利用者１０に提示す
る。そして、利用者１０が、提示された認識結果を間違
いであると判断した場合は、言語モデル処理系１２に取
り消しの指示を送り、間違いの指示がなく、かつ尤度が
高い場合、利用者処理系１１は認識結果を正解と見な
し、話者適応化処理を行う。

【００９４】図８は、図２の音声認識システムの適応的
学習による話者適応化の一例を示すシーケンス図であ
る。図８において、言語モデル処理系１２は、言語モデ
ル処理が終了すると、その時得られた認識結果の文字列
を、尤度と共に利用者処理系１１に送信する（Ｋ５
１）。

【００９５】利用者処理系１１は、言語モデル処理系１
２から認識結果を受け取ると、その認識結果を利用者１
０に提示する（Ｋ５２）。そして、利用者処理系１１
は、利用者１０からの間違いの指示がなく、かつ、その
認識結果の尤度が高い場合には、利用者処理系１１は、
その認識結果を正解と見なし、話者適応化を行う（ステ
ップＳ５１）。

【００９６】一方、利用者１０は、認識結果が間違って
いるため、その認識結果を取り消す場合、利用者処理系
１１に取り消しの指示を入力する（Ｋ５３）。利用者処
理系１１は、取り消し指示が入力されると、その取り消
し指示を言語モデル処理系１２に送信する（Ｋ５４）。
言語モデル処理系１２は取り消し指示を受け取ると、認
識結果を取り消すとともに、必要に応じて認識処理前後
のデータを後の学習用に保管する（ステップＳ５２）。
そして、直前の送信内容の取り消し通知を情報サービス
系１３に送信する（Ｋ５５）。

【００９７】情報サービス系１３は、言語モデル処理系
１２から取り消し通知を受け取ると、直前の送信内容の
取り消し、受信前の状態に戻る（ステップＳ５３）。こ
れにより、利用者１０が認識内容を直接確認しながら、
信頼度の高い対話を進めることができ、利用者１０が特
段の配慮や努力をすることなく、話者適応を継続的に行
うことが可能となる。

【００９８】なお、情報サービス系１３は、サービスの
処理の流れや、利用者１０との対話結果から、認識誤り
の確率が高いものがある場合、情報サービス系１３は、
その認識誤りを言語モデル処理系１２に伝えるようにし
てもよい。また、利用者１０との対話に基づいて、認識
結果が正解に訂正されたものがある場合にも、情報サー
ビス系１３は、その訂正結果を言語モデル処理系１２に
伝えるようにしてもよい。

【００９９】そして、言語モデル処理系１２は、認識誤
りまたは訂正結果を情報サービス系１３から受け取る
と、その認識誤りまたは訂正を辞書および文法に反映さ
せたり、情報サービス系１３が言語モデル処理系１２に
発行するために保持している辞書および文法に反映させ
たりする。これにより、言語モデル処理系１２は、情報
サービス系１３における処理内容に基づいて、辞書およ
び文法の精度を向上させることができ、言語モデル処理
の精度を向上させることができる。

【０１００】また、利用者１０との対話内容が、現住使
用している言語モデル処理系１２の適用ジャンル範囲
外、または性能が劣る場合、より性能の高い言語モデル
処理系１２があるかを問い合わせ、そのような言語モデ
ル処理系１２が他にあれば、その言語モデル処理系１２
へ処理を移行するようにしてもよい。ここで、他の言語
モデル処理系１２へ処理を移行する場合、切替先の言語
モデル処理系１２に利用者１０の登録依頼を行う。そし
て、受諾されたら、利用者処理系１１に切替先の言語モ
デル処理系１２を伝える。

【０１０１】なお、問い合わせは、例えば、使用可能な
言語モデル処理系１２が記述されたカタログを生成する
サーバを通信路１５に導入し、そのサーバに問い合わせ
る方法や、言語モデル処理系１２がＷｅｂサーバも持
ち、対象ジャンルを示すキーワードを記載したホームペ
ージを掲載し、検索エンジンに登録することで、検索エ
ンジンを介して必要な言語モデル処理系１２を検索する
方法などを用いることができる。

【０１０２】さらに、利用者処理系１１は、使用する頻
度の高い情報サービスを予め登録するようにしてもよ
い。例えば、利用者１０が情報サービス系１３から情報
サービスを受けている時に、利用者処理系１１に登録を
指示すると、利用者処理系１１は、その時の情報サービ
ス系１３を言語モデル処理系１２と共に登録する。これ
により、利用者１０がボタン押下等の簡単な操作で特定
の情報サービスへの対話を指示することができ、同一ジ
ャンルの情報サービスを再度利用する場合、情報サービ
ス利用開始までの処理を簡略化することができ、情報サ
ービス系１３との対話を即座に開始することが可能とな
る。

【０１０３】なお、図２の実施形態では、利用者処理系
１１、言語モデル処理系１１および情報サービス系１３
は相互に直接通信可能であるのに対し、利用者処理系１
１は言語モデル処理系１２とのみ接続し、言語モデル処
理系１２は情報サービス系１３とのみ接続して、言語モ
デル処理系１２が処理を全部中継するようにしてもよ
い。これにより、通信路１５が１対１でしか設定できな
い場合でも、利用可能となる。

【０１０４】

【発明の効果】以上説明したように、本発明によれば、
語義情報をクライアント側に用意することなく、話者環
境を考慮した認識処理を行うことが可能となるととも
に、言語モデル処理を行うための十分な辞書を用意する
ことが可能となり、装置上の負担を軽減しつつ、精度の
よい認識処理を迅速に行うことが可能なる。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係る音声認識システム
の概略構成を示すブロック図である。

【図２】本発明の第２実施形態に係る音声認識システム
の概略構成を示すブロック図である。

【図３】本発明の第３実施形態に係る音声認識システム
の概略構成を示すブロック図である。

【図４】図２の音声認識システムの音声インターフェイ
スおよび情報サービスの利用開始時の動作を示すシーケ
ンス図である。

【図５】図２の音声認識システムの情報サービス運用時
の動作を示すシーケンス図である。

【図６】図２の音声認識システムの音声インターフェイ
スおよび情報サービスの利用終了時の動作を示すシーケ
ンス図である。

【図７】図２の音声認識システムの音声合成処理系利用
時の動作を示すシーケンス図である。

【図８】図２の音声認識システムの適応的学習による話
者適応化の一例を示すシーケンス図である。

【符号の説明】

１クライアント１ａ音声分析部１ｂ音韻抽出部１ｃ音響モデル２サーバ２ａ認識処理部２ｂ言語モデル１０利用者１１利用者処理系１１ａ音声入力部１１ｂ音響モデル処理部１１ｃ通信処理部１１ｄ文字画像表示部１１ｅ対話処理部１１ｆ音声合成処理部１１ｇ音声出力部１２言語モデル処理系１２ａ言語モデル処理部１２ｂ、１３ｂ辞書文法保管部１２ｃ、１３ｃ、１４ａ通信処理部１３情報サービス系１３ａ情報サービス部１４音声合成処理系１４ｂ音声合成部１５通信路２１携帯機器２２基地局２３言語モデル処理サーバ２４情報サービスアプリケーションサーバ２５音声合成処理サーバ２６公衆無線網２７インターネット網

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/22 Ｇ１０Ｌ 3/00 ５３７Ｚ５３７Ｊ５６１ＨＦターム(参考） 5D015 GG01 JJ07 KK02 KK04 LL05 LL11 5D045 AB01 AB26

Claims

【特許請求の範囲】

【請求項１】クライアント側で入力された音声の認識
処理をサーバ側で行う音声認識システムにおいて、前記認識処理の一部を前記クライアント側で行うことを
特徴とする音声認識システム。
【請求項２】前記クライアント側では、話者環境に依
存する処理を行い、前記サーバ側では、話者環境に依存しない処理を行うこ
とを特徴とする請求項１記載の音声認識システム。
【請求項３】前記認識処理は音響モデル処理と言語モ
デル処理とを含み、前記クライアント側では、前記音響モデル処理を行い、
前記サーバ側では、前記言語モデル処理を行うことを特
徴とする請求項１または２記載の音声認識システム。
【請求項４】前記クライアント側では、話者環境に基
づいて前記音響モデル処理を行い、前記サーバ側では、前記クライアント側が利用した情報
サービスの内容に基づいて、前記言語モデル処理を行う
ことを特徴とする請求項３記載の音声認識システム。
【請求項５】音響モデルに基づいて音声から音韻情報
を抽出し、前記抽出した音韻情報を送信する利用者処理
系と、前記音韻情報を受信し、前記受信した音韻情報に基づい
て言語レベルの認識処理を行う言語モデル処理系とを備
えることを特徴とする音声認識システム。
【請求項６】前記利用者処理系は、自己の話者環境を
考慮して音韻情報を抽出することを特徴とする請求項５
記載の音声認識システム。
【請求項７】前記音韻情報は、音韻候補とその尤度値
の列であることを特徴とする請求項５または６記載の音
声認識システム。
【請求項８】前記言語モデル処理系から出力される認
識結果に基づいて、前記利用者処理系に情報サービスを提供する情報サービ
ス系をさらに備えることを特徴とする請求項５〜７のい
ずれか１項記載の音声認識システム。
【請求項９】前記情報サービス系は、前記利用者処理
系に提供される情報サービスの内容に基づいて、前記言
語モデル処理系の辞書または文法を更新することを特徴
とする請求項８記載の音声認識システム。
【請求項１０】前記情報サービス系から提供されるサ
ービス内容を前記利用者処理系に音声で伝える音声合成
処理系をさらに備えることを特徴とする請求項８または
９記載の音声認識システム。
【請求項１１】音声データから音韻情報を抽出する音
響モデル処理手段と、前記音響モデル処理手段により抽出された音韻情報を送
信する音韻情報送信手段とを備えることを特徴とする携
帯情報端末。
【請求項１２】前記音韻情報を抽出するための話者適
応化を行う話者適応化手段と、前記音韻情報を抽出するための耐環境処理を行う耐環境
処理手段とをさらに備えることを特徴とする請求項１１
記載の携帯情報端末。
【請求項１３】音韻情報を受信する音韻情報受信手段
と、前記音韻情報に基づいて言語レベルの認識処理を行う言
語モデル処理手段とを備えることを特徴とする音声情報
処理装置。
【請求項１４】発話された音声を発話側の利用者処理
系で音韻候補とその尤度値の列に変換するステップと、前記音韻候補とその尤度値の列を通信路経由で言語モデ
ル処理系に送信するステップと、前記音韻候補とその尤度値の列に基づいて、言語レベル
の認識を前記言語モデル処理系にて行うステップとを備
えることを特徴とする音声情報処理方法。
【請求項１５】利用者の使用する情報サービス系を言
語モデル処理系へ通知するステップと、前記情報サービス系と前記利用者とを関連付けて、前記
言語モデル処理系に登録するステップと、前記言語モデル処理系と前記情報サービス系との間に通
信路を設定するステップと、前記言語モデル処理系と前記利用者を関連付けて、前記
情報サービス系に登録するステップと、前記言語モデル処理系が、認識結果を前記通信路を通し
て前記情報サービス系に通知するステップとを備えるこ
とを特徴とする請求項１４記載の音声情報処理方法。
【請求項１６】前記言語モデル処理系は、前記情報サ
ービス系のサービス内容に基づいて、言語モデル処理を
行う際の辞書または文法を切り換えることを特徴とする
請求項１５記載の音声情報処理方法。
【請求項１７】前記利用者処理系において、前記利用者に対応した話者適応化を行うステップと、前記利用者周辺の音響を継続的に観測するステップと、発話時にその発話場所の環境雑音に応じたノイズ除去を
行うステップとを備えることを特徴とする請求項１５ま
たは１６記載の音声情報処理方法。
【請求項１８】前記利用者処理系において、表示用文字列および画像、ならびに発話用文字列を前記
情報サービス系から受信するステップと、前記表示用文字列および画像を表示するステップと、前記発話用文字列を音声合成して出力するステップとを
備えることを特徴とする請求項１５〜１７のいずれか１
項記載の音声情報処理方法。
【請求項１９】前記情報サービス系が発話用文字列を
音声合成処理系へ送信するステップと、前記発話用文字列に基づいて、前記音声合成処理系にて
音声合成を行うステップと、前記音声合成された音声データを前記利用者処理系に送
信するステップと、前記利用者処理系が、前記音声データを再生するステッ
プとをさらに備えることを特徴とする請求項１５〜１８
のいずれか１項記載の音声情報処理方法。
【請求項２０】言語モデル処理に基づいて、前記情報
サービス系から発行された前記言語モデル処理系の辞書
および文法を更新するステップと、前記更新された辞書および文法を前記情報サービス系に
伝えるステップとをさらに備えることを特徴とする請求
項１５〜１９のいずれか１項記載の音声情報処理方法。
【請求項２１】前記言語モデル処理系の認識結果とし
て得られた文字列を尤度と共に前記利用者処理系に送信
するステップと、前記利用者処理系が前記認識結果を利用者に提示するス
テップと、前記利用者が前記認識結果を間違いと指示した場合、前
記言語モデル処理系に前記認識結果の取り消し通知を送
信するステップと、前記認識結果の間違いの指示がなく、かつ前記尤度が所
定値以上の場合、前記利用者処理系は、前記認識結果に
基づいて話者適応化を行うステップとをさらに備えるこ
とを特徴とする請求項１５〜２０のいずれか１項記載の
音声情報処理方法。
【請求項２２】前記情報サービス系と利用者との対話
結果に基づいて、認識誤りまたは訂正結果を取得するス
テップと、前記認識誤りまたは訂正結果に基づいて、前記言語モデ
ル処理系に発行するために前記情報サービス系に保持さ
れている辞書および文法を更新するステップと、前記認識誤りまたは訂正結果を前記言語モデル処理系に
伝えるステップと、前記認識誤りまたは訂正結果に基づいて、前記言語モデ
ル処理系に保持されている辞書および文法を更新するス
テップとをさらに備えることを特徴とする請求項１５〜
２１のいずれか１項記載の音声情報処理方法。
【請求項２３】現在の対話内容に適合した言語モデル
処理系があるかを問い合わせるステップと、現在の対話内容に適合した言語モデル処理系がある場
合、その言語モデル処理系へ処理を移行するステップと
をさらに備えることを特徴とする請求項１５〜２２のい
ずれか１項記載の音声情報処理方法。
【請求項２４】過去に利用した情報サービス系を、そ
の時利用した言語モデル処理系と共に登録するステップ
をさらに備えることを特徴とする請求項１５〜２２のい
ずれか１項記載の音声情報処理方法。
【請求項２５】発話された音声から音韻情報を発話側
で抽出するステップと、前記音韻情報を送信するステップと、前記送信された音韻情報に基づいて、言語レベルの認識
を行うステップと、前記認識結果に基づいて、情報サービス系にアクセスす
るステップと、前記情報サービス系からのサービス内容を前記音韻情報
の送信元に返信するステップとを備えることを特徴とす
る音声情報処理方法。
【請求項２６】音声認識をネットワーク上でシーケン
シャルに分散処理することを特徴とする音声情報処理方
法。
【請求項２７】音声データから音韻情報を抽出するス
テップと、前記抽出された音韻情報を送信するステップと、前記抽出された音韻情報に基づく認識処理を前記送信先
で行わせるステップとをコンピュータに実行させるため
の音声情報処理プログラム。