JP3477432B2

JP3477432B2 - 音声認識方法およびサーバならびに音声認識システム

Info

Publication number: JP3477432B2
Application number: JP2000237803A
Authority: JP
Inventors: 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2000-08-04
Filing date: 2000-08-04
Publication date: 2003-12-10
Anticipated expiration: 2020-08-04
Also published as: JP2002049390A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本願発明は、音声認識方法お
よびサーバならびに音声認識システムに関し、特に、ク
ライアント／サーバ方式の分散処理環境において、処理
能力の低いクライアントで認識できなかった音声情報を
処理能力の高いサーバで認識することを特徴とする音声
認識方法およびサーバならびに音声認識システムに関す
るものである。

【０００２】

【従来の技術】一般に、音声認識システムは、話者が発
声した音声サンプルをある特徴パラメータの系列に変換
する音響分析部と、音響分析部で得られた特徴パラメー
タの系列を予めメモリーやハードディスクなどの記憶装
置に蓄積した語彙単語の特徴パラメータに関する情報と
照合して、最も類似度の高い音声を認識結果とする音声
照合部の２つの部分から構成される。

【０００３】音声サンプルをある特徴パラメータの系列
に変換する音響分析方法としては、ケプストラム分析や
線形予測分析などが知られており、「音声・音情報のデ
ィジタル信号処理」（鹿野清宏、中村哲、伊勢史郎共
著、（株）昭晃堂）にも詳述されている。音声認識の中
で、不特定話者の音声を認識する技術を一般に不特定話
者音声認識と呼ぶ。不特定話者音声認識においては、語
彙単語の特徴パラメータに関する情報が予め記憶装置に
蓄積されているため、特定話者音声認識のようにユーザ
ーが音声認識させたい単語を登録するという作業は発生
しない。

【０００４】また、語彙単語の特徴パラメータに関する
情報の作成およびその情報と入力された音声から変換さ
れた特徴パラメータの系列との音声照合方法としては、
隠れマルコフモデル(Hidden Markov Model, HMM)による
方法が一般に用いられている。ＨＭＭによる方法におい
ては、音節、半音節、音韻、音響イベントなどの音声単
位がＨＭＭによりモデル化される。音声単位のＨＭＭに
よるモデル化については、上記「音声・音情報のディジ
タル信号処理」に詳しく述べられている。また、上記
「音声・音情報のディジタル信号処理」の第４章に記載
されているＶｉｔｅｒｂｉアルゴリズムにより、当業者
は不特定話者音声認識装置を容易に構成することができ
る。

【０００５】一方、デジタル方式の携帯電話の中には、
音声によるダイアリング機能を実現するために不特定話
者音声認識装置としての機能を内在しているものが既に
商品化されている。

【０００６】例えば、ＮＴＴ移動通信網（株）のｉ−ｍ
ｏｄｅに代表されるように、携帯電話は音声通話の目的
だけではなく、インターネットや電子メールのアクセス
端末としての需要が急速に拡がっている。また、ＩＭＴ
−２０００やｃｄｍａ２０００の規格に対応した次世代
携帯電話の商用化も来年以降に計画されており、携帯電
話におけるインターネットや電子メールのアクセス需要
はますます増大するものと思われる。

【０００７】

【発明が解決しようとする課題】しかしながら、携帯電
話のマンマシンインタフェースとしては、サイズ、形状
などの物理的な制約から依然としてボタン入力が主流で
あり、インターネットや電子メールのアクセス手段とし
ては使い勝手が悪い。この不具合を解消するために、音
声認識技術を適用した音声インタフェース機能の搭載が
待望されている。

【０００８】携帯電話は、バッテリー寿命の観点から、
搭載されているＣＰＵの処理能力が低く、また、ＣＰＵ
の動作クロックも低く押さえられている。従って、携帯
電話内の音声認識でサポートされる機能にも限界があ
る。具体的には、認識対象語彙が十分大きくない場合
に、その語彙に含まれない単語を含む音声をしゃべった
場合には、その単語は原理的に認識されないし、その単
語を語彙に含まれる別の単語に誤認識するということが
しばしば起こる。

【０００９】そこで本発明が解決しようとする課題は、
携帯電話のような処理能力の低いＣＰＵしか持たないク
ライアントで発声された音声がクライアントの音声認識
機能でサポートされない語彙を含む場合に、クライアン
トがその音声の情報を処理能力の高いＣＰＵを持つサー
バに転送し、音声認識のサービスを受けることができる
ようにすることである。

【００１０】さらに、そのサーバの音声認識機能でサポ
ートされない語彙が音声情報の中に含まれていると判断
される場合は、そのサーバは音声情報をさらに大きな語
彙をサポートする上位のサーバに転送し、音声認識のサ
ービスを委ねることができるようにすることも本発明が
解決しようとする課題である。

【００１１】

【課題を解決するための手段】請求項１の発明は、第１
のサーバから段階的により多くの音声認識のための情報
を有する複数のサーバによって通信手段を介して受信し
たクライアントからの音声情報を音声認識する音声認識
方法であって、前記音声情報の音声認識を実行して得ら
れる言葉の類似度を所定のしきい値と比較して所定の認
識結果が音声情報に含まれる全ての言葉で得られるよう
に、第１のサーバから順次、当該第１のサーバより多く
の音声認識のための情報を有する上位のサーバで音声認
識を実行する際に、前記複数のサーバの各々において、
前記音声情報の少なくとも一部の音声認識を実行して音
声情報に含まれる全ての言葉に対して所定の認識結果が
得られている場合は、当該全ての言葉に対する所定の認
識結果を通信手段を介して前記クライアントに送信し、
前記音声情報の少なくとも一部の音声認識を実行して所
定の認識結果が得られなかった言葉が存在する場合であ
って、当該サーバが最上位サーバである場合は前記音声
情報に対するそれまでの全ての音声認識の結果を前記ク
ライアントに通信手段を介して送信し、当該サーバが最
上位サーバでない場合は前記音声情報と、当該音声情報
に対して前記第１のサーバから当該サーバまでが実行し
た音声認識の結果得られた言葉のラベル、当該ラベルの
類似度、および当該言葉の発声の終了点の前記音声情報
の始めからの経過時刻とを含む情報を、当該サーバより
上位のサーバに転送することを特徴とする。

【００１２】請求項２の発明は、請求項１において、前
記各サーバは前記クライアントから得られたクライアン
トアドレスを参照して前記認識結果を前記クライアント
に送信し、且つ最上位サーバを除く各サーバは、当該サ
ーバより上位のサーバのアドレスを参照して前記クライ
アントアドレスを、当該サーバより上位のサーバに転送
することを特徴とする。

【００１３】請求項３の発明は、第１のサーバから段階
的により多くの音声認識のための情報を有する複数のサ
ーバによって通信手段を介して受信したクライアントか
らの音声情報を音声認識する音声認識方法であって、前
記音声情報の音声認識を実行して得られる言葉の類似度
を所定のしきい値と比較して所定の認識結果が音声情報
に含まれる全ての言葉で得られるように、第１のサーバ
から順次、当該第１のサーバより多くの音声認識のため
の情報を有する上位のサーバで音声認識を実行する際
に、前記複数のサーバの各々において、前記音声情報の
少なくとも一部の音声認識を実行して音声情報に含まれ
る全ての言葉に関して所定の認識結果が得られている場
合は、当該全ての言葉に関する所定の認識結果を通信手
段を介して前記クライアントに送信し、前記音声情報の
少なくとも一部の音声認識を実行して所定の認識結果が
得られなかった言葉が存在する場合であって、当該サー
バが最上位サーバである場合は前記音声情報に対するそ
れまでの全ての音声認識の結果を前記クライアントに通
信手段を介して送信し、当該サーバが最上位サーバでな
い場合は前記音声情報と、当該音声情報に対して前記第
１のサーバから当該サーバまでが実行した音声認識の結
果得られた言葉のラベル、当該ラベルの類似度、および
当該言葉の発声の終了点の前記音声情報の始めからの経
過時刻とを含む情報を、当該サーバより上位のサーバに
転送することを特徴とする音声認識方法を適用する音声
認識サーバであって、通信手段を介して伝送されたクラ
イアントからの音声情報または当該サーバよりも少ない
音声認識のための情報を有するサーバからの情報を受信
する受信手段と、前記受信手段によって受信した情報に
基づいて、所定の認識結果が得られていない音声情報を
音声認識処理する音声認識処理手段と、前記音声認識処
理手段によって所定の認識結果が得られたか否かを、当
該音声認識処理手段によって音声認識した結果得られる
言葉の類似度を所定のしきい値と比較することによって
判断する判断手段と、前記判断手段によって全ての言葉
に対して所定の認識結果が得られていると判断された場
合または前記判断手段によって音声情報に含まれる全て
の言葉に対して所定の認識結果が得られていないと判断
された場合であって当該サーバが最上位サーバである場
合は、前記クライアントに通信手段を介して前記全ての
言葉に対する認識結果を送信し、前記判断手段によって
音声情報に含まれる全ての言葉に対して所定の認識結果
が得られていないと判断された場合であって当該サーバ
が最上位サーバでない場合は、当該サーバの次に多くの
音声認識のための情報を有する上位のサーバに対して、
前記音声情報と、当該音声情報に対して前記第１のサー
バから当該サーバまでが実行した音声認識の結果得られ
た言葉のラベル、当該ラベルの類似度、および当該言葉
の発声の終了点の前記音声情報の始めからの経過時刻と
を含む情報を転送する出力手段とを具えたことを特徴と
する。

【００１４】請求項４の発明は、請求項３において、前
記受信手段が受信する情報はクライアントアドレス情報
を含み、前記出力手段は、前記受信手段が受信した情報
から取り出されたクライアントアドレスを保存するクラ
イアントアドレス保存手段と、前記クライアントアドレ
ス保存手段に保存されたクライアントアドレスを参照し
て認識結果を当該クライアントに返信するための認識結
果返信手段と、前記上位のサーバのアドレスを保存する
上位サーバアドレス保存手段と、前記所定の認識結果が
得られなかった音声情報および当該音声情報に関する音
声認識の結果と前記クライアントアドレス保存手段に保
存されたクライアントアドレスとを含む情報を前記上位
サーバアドレス保存手段に保存された上位のサーバのア
ドレスを参照して当該上位のサーバに転送するための音
声情報転送手段とを有し、前記判断手段は、前記音声認
識処理手段から出力された類似度を予め与えられたしき
い値と比較し、類似度がしきい値以上の場合、および類
似度がしきい値未満の場合であって前記上位サーバアド
レス保存手段に上位のサーバのアドレスが格納されてい
ない場合は、前記音声認識処理手段からの認識結果をク
ライアントに返信するように認識結果返信手段を制御
し、類似度がしきい値未満の場合であって前記上位サー
バアドレス保存手段に上位のサーバのアドレスが保存さ
れている場合は、前記所定の認識結果が得られなかった
音声情報および当該音声情報に関する音声認識の結果と
前記クライアントアドレス保存手段に保存されたクライ
アントアドレスとを含む情報を当該上位のサーバに転送
するように前記音声情報転送手段を制御することを特徴
とする。

【００１５】請求項５の発明は、請求項３または４の音
声認識サーバにおいて、受信された音声情報に対して実
行した音声認識処理に要した時間を計測し、前記計測時
間と、当該サーバが有する前記音声情報に関する音声認
識のための情報の量とに基づいて使用料金を計算するこ
とを特徴とする。

【００１６】請求項６の発明は、音声情報を送信するク
ライアントと、前記クライアントからの音声情報を通信
手段を介して受信する請求項３または４の音声認識サー
バとを具えたことを特徴とする。

【００１７】請求項７の発明は、請求項６において、請
求項５の使用料金計算法を適用して、当該音声情報に対
して音声認識処理を実行した前記第１のサーバからクラ
イアントに通信手段を介して認識結果を送信するサーバ
までの料金を加算してクライアントに課金することを特
徴とする。

【００１８】

【００１９】

【００２０】

【００２１】

【００２２】

【００２３】

【発明の実施の形態】一般に、音声認識においては、入
力音声は音響分析により、ケプストラムなどの音響パラ
メータに変換され、その後、公知のＶｉｔｅｒｂｉアル
ゴリズムにより、語彙に含まれる単語との照合が行われ
る。照合においては、音響パラメータと語彙に含まれる
全ての単語のモデルとの類似度が算出され、最も類似度
が大きい単語が認識結果として選択される。

【００２４】音声認識装置でサポートされる語彙の大き
さは、音声認識装置に内蔵されるＣＰＵの処理能力およ
びその動作クロックにより決定される。

【００２５】携帯電話は、バッテリ寿命の観点から、搭
載されているＣＰＵの処理能力が低く、また、ＣＰＵの
動作クロックも低く押さえられているため、サポートで
きる語彙サイズは１００単語程度と小さい。

【００２６】一方、例えば、サーバを構成するようなコ
ンピュータシステムに搭載されるＣＰＵは携帯電話のよ
うな制約がないため、最高の処理能力を持つＣＰＵが採
用され、動作クロックも極めて高く設定される。従っ
て、サポートできる語彙サイズも数万単語程度と極めて
大きくすることが可能である。

【００２７】一般に、入力音声の中に含まれている単語
が、音声認識装置でサポートされていない場合、照合に
おける前述の類似度は小さな値となる。

【００２８】最も大きな類似度を持つ語彙単語の類似度
と予め与えられたしきい値とを比較し、その類似度がし
きい値よりも大きければ、入力音声に含まれている単語
は、音声認識装置がサポートしている語彙に含まれると
判断できる。この場合には、その類似度を与える単語を
認識結果とすれば良い。

【００２９】一方、類似度がしきい値よりも小さけれ
ば、入力音声に含まれている単語は、音声認識装置がサ
ポートしている語彙に含まれていない可能性が高いと判
断される。この入力音声に対して、正確な音声認識を行
うためには、より大きな語彙をサポートする音声認識装
置に処理を委ねる必要がある。

【００３０】そこで、より大きな語彙をサポートする音
声認識装置の所在（アドレス）が既知の場合は、入力音
声から抽出された音声情報と自分のアドレスをその音声
認識装置に転送して、音声認識処理を要求すればよい。

【００３１】以後、音声認識処理を要求する側をクライ
アントと呼び、音声認識処理を要求される側をサーバと
呼ぶ。

【００３２】サーバは、上記と同様に類似度を計算し、
最も大きな類似度を持つ語彙単語の類似度がしきい値よ
りも大きければ、入力音声に含まれている単語は、サー
バがサポートしている語彙に含まれると判断できるの
で、その類似度を与える単語を認識結果として、クライ
アントに返送する。

【００３３】一方、類似度がしきい値よりも小さけれ
ば、より大きな語彙をサポートするサーバの所在（アド
レス）が未知か既知かで処理が２つに分かれる。

【００３４】未知の場合は、クライアントに対して、現
在得られている認識結果をクライアントに対し返送す
る。

【００３５】既知の場合は、より大きな語彙をサポート
するサーバに対して、入力音声から抽出された音声情報
と自分のアドレスをその音声認識装置に転送して、音声
認識処理を要求すればよい。

【００３６】本発明によれば、クライアントで発声され
た入力音声に含まれる単語の数が少ない場合は、小さな
語彙をサポートするサーバで音声認識処理が完結する。
もし、クライアントで発声された入力音声に含まれる単
語の数が多い場合は、より大きな語彙をサポートするサ
ーバに音声認識処理を委ねることができる。従って、入
力音声に含まれる単語の数に応じて、音声認識処理を複
数のサーバに分散させて処理することが可能である。こ
れにより、ある特定のサーバに音声認識処理のリクエス
トのトラフィックが集中することを防ぐことが可能にな
る。

【００３７】（実施例）本発明の実施例を、図１および
図２に基づいて説明する。

【００３８】まず、音声の入力信号００は、クライアン
トに対して入力される。入力された入力信号００は、ク
ライアントに内蔵されるＡＤコンバータによりデジタル
音声信号に変換される。

【００３９】クライアント１は、サーバ２に対し、クラ
イアント送信情報１１を送信する。クライアント送信情
報１１は、デジタル音声信号から得られる音声情報２２
とクライアントアドレス３３から構成される。ここで、
クライアントアドレスは、携帯電話番号などのクライア
ントを特定可能なＩＤ番号などを指す。また、送信は、
携帯電話網の通信プロトコルに従って行われる。

【００４０】携帯電話網を介してクライアント送信情報
１１を受信したサーバ２は、音声情報受信手段ａにおい
て、クライアント送信情報１１を音声情報２２とクライ
アントアドレス３３に分解し、音声情報２２を音声認識
手段ｃ及び音声情報転送手段ｅに出力するとともに、ク
ライアントアドレス３３をクライアントアドレス保存手
段ｂに格納する。

【００４１】音声情報２２を受け取った音声認識手段ｃ
は、公知のＶｉｔｅｒｂｉアルゴリズムなどにより、照
合処理を行い、最も大きな類似度を持つ単語の固有番号
とその類似度から構成される認識結果情報４４を類似度
比較手段ｄと認識結果返信手段ｇに出力する。

【００４２】類似度比較手段ｄは、音声認識手段ｃから
受け取った認識結果情報４４に含まれる類似度と予め設
定されたしきい値を比較する。

【００４３】もし、類似度がしきい値よりも大きけれ
ば、認識結果返信手段ｇに対して、返信指示情報６６を
出力し、認識結果返信手段ｇから携帯電話網を介して、
認識結果をクライアントに対して返信するように指示す
る。

【００４４】もし、類似度がしきい値よりも小さい場合
には、上位サーバアドレス保存手段ｆに上位サーバアド
レス７７が保存されているかによって、処理が二通りに
分かれる。

【００４５】上位サーバアドレス保存手段ｆに上位サー
バアドレス７７が保存されていない（上位サーバアドレ
ス７７が未知である）場合には、認識結果返信手段ｇに
対して、返信指示情報６６を出力し、認識結果返信手段
ｇから携帯電話網を介して、認識結果をクライアントに
対して返信するように指示する。

【００４６】上位サーバアドレス保存手段ｆに上位サー
バアドレス７７が保存されている（上位サーバアドレス
７７が既知である）場合には、音声情報転送手段ｅに対
して、転送指示情報５５を出力し、音声情報転送手段ｅ
から携帯電話網等の通信手段を介して、サーバ転送情報
８８を上位のサーバに対して転送するように指示する。

【００４７】類似度比較手段ｄから転送指示信号５５を
受け取った音声情報転送手段ｅは、上位サーバアドレス
保存手段ｆに格納された上位サーバアドレス７７を持つ
上位サーバに対し、音声情報受信手段ａから送られた音
声情報２２とクライアントアドレス保存手段ｂに格納さ
れたクライアントアドレス３３から構成されるサーバ転
送情報８８を送出し、音声認識処理を要求する。

【００４８】類似度比較手段ｄから返信指示情報６６を
受け取った認識結果返信手段ｇは、クライアントアドレ
ス保存手段ｂに保存されたクライアントアドレス３３を
持つクライアントに対し、音声認識手段ｃから受け取っ
た認識結果情報４４をサーバ返信情報９９として携帯電
話網を介して返信する。

【００４９】上記の音声情報受信手段ａ、音声認識手段
ｂ、類似度比較手段ｄ、音声情報転送手段ｅ、認識結果
返信手段ｇはクライアントのＣＰＵによって実現され
る。クライアントアドレス保存手段ｂと上位サーバアド
レス保存手段ｆは、クライアントのメモリによって実現
される。

【００５０】上記での、サーバと上位サーバは、それぞ
れをクライアントとサーバと見なすことができる。サー
バ転送情報８８は上位サーバの立場から眺めると、クラ
イアント送信情報１１と見なすことができる。

【００５１】音声情報２２は、クライアントに対して入
力された入力信号００から得られる一般情報の系列と見
なすことができる。

【００５２】また音声情報２２は、クライアントに内蔵
されるＡＤコンバータにより変換されたデジタルの音声
信号の系列であると特定することができる。この場合に
は、クライアントは、ＡＤコンバータを具えていればよ
い。

【００５３】さらに音声情報２２は、クライアントに内
蔵されるＡＤコンバータにより変換されたデジタルの音
声信号から抽出された、ケプストラムなどの音響パラメ
ータの系列であると特定することができる。この場合に
は、クライアントには、ＡＤコンバータと音響パラメー
タを計算するためのＣＰＵが具えられていればよい。

【００５４】さらに音声情報２２は、クライアントに内
蔵されるＡＤコンバータにより変換されたデジタルの音
声信号から抽出された、ケプストラムなどの音響パラメ
ータから変換された音声単位モデルの固有番号の系列で
あると特定することができる。この場合には、クライア
ントには、ＡＤコンバータと音響パラメータ及び音声単
位モデルの固有番号の系列を計算するためのＣＰＵが具
えられていればよい。公知のＶｉｔｅｒｂｉアルゴリズ
ムにより、音響パラメータの系列に対して最も類似度の
高い音響パラメータの系列を抽出することは、当業者で
あれば容易である。或いは、フレーム毎の音響パラメー
タに対して、ＨＭＭで表現された音声単位モデル毎の確
率を算出し、最も高い確率を与える音声単位モデルを決
定する方法でもよい。

【００５５】加えて、図１における、クライアントとサ
ーバが同一の構成の装置であってもよい。

【００５６】次に、本発明の他の実施例を、図３、図４
を用いて説明する。

【００５７】図３は、本発明の他の実施例の音声認識態
様を説明する図であって、この図３を用いて、本発明を
適用した音声認識サービスの課金システムを説明する。
図３では、クライアント１の他に、第１サーバ１２、第
２サーバ１３、第３サーバ１４（いずれも、その構成は
図２の通り）の３つのサーバが携帯電話網に設置されて
おり、第１サーバ１２の上位サーバアドレス保存手段ｆ
には、第２サーバ１３のアドレスが保存されており、第
２サーバ１３の上位サーバアドレス保存手段ｆには、第
３サーバ１４のアドレスが保存されており、第３サーバ
１４の上位サーバアドレス保存手段ｆには、さらに上位
のサーバのアドレスは保存されていないと仮定する。

【００５８】第１サーバ１２、第２サーバ１３、第３サ
ーバ１４における音声認識サービスは、一回の利用（音
声認識処理）に際し、それぞれ１円、５円、１０円（い
ずれも単位時間当たり）のサービス料をクライアントの
ユーザに対し、課金するものとする。サーバにより、サ
ービス料が異なるのは、上位のサーバになるほど、大語
彙をサポートしているため、高価なコンピュータを必要
とし、その設備投資を回収するために、料金がより高く
設定されている。

【００５９】以下、第１サーバ１２、第２サーバ１３、
第３サーバ１４でのサービス時間がいずれも１単位時間
である場合を例にとって、課金システムを説明する。

【００６０】クライアント１のユーザが入力信号００に
対し、第１サーバ１２で音声認識サービスを受けた場合
は、１円のサービス料が課金される。

【００６１】もし、第１サーバ１２での音声認識サービ
スの結果、入力信号００に含まれている言葉は全て第１
サーバ１２が扱っている語彙に含まれていると判断され
る場合には、第１サーバ１２は認識結果を第１サーバ返
信情報９９Ａとしてクライアント１に返信する。従っ
て、クライアントのユーザは、第１サーバ１２の提供者
に対して１円の料金を支払わなければならない。

【００６２】一方、第１サーバ１２での音声認識サービ
スの結果、第１サーバ１２が扱っている語彙には含まれ
ていない言葉が入力信号００に含まれていると判断され
る場合には、第１サーバ１２は、クライアント送信情報
１１に基づいて、第１サーバ転送情報８８Ａを第２サー
バ１３に転送する。もし、第２サーバ１３での音声認識
サービスの結果、入力信号００に含まれている言葉は全
て第２サーバ１３が扱っている語彙に含まれていると判
断される場合には、第２サーバ１３は認識結果を第２サ
ーバ返信情報９９Ｂとしてクライアント１に返信する。
従って、クライアントのユーザは、第２サーバ１３の提
供者に対して５円の料金を支払わなければならない。こ
の時点で、クライアント１のユーザは、第１サーバ１２
のサービス料１円と、第２サーバ１３のサービス料５円
を合わせて６円を負担しなければならない。

【００６３】一方、第２サーバ１３での音声認識サービ
スの結果、第２サーバ１３が扱っている語彙には含まれ
ていない言葉が入力信号００に含まれていると判断され
る場合には、第２サーバ１３は、第１サーバ転送情報８
８Ａに基づいて、第２サーバ転送情報８８Ｂを第３サー
バ１４に転送する。

【００６４】第３サーバ１４は、音声認識サービスの結
果を第３サーバ返信情報９９Ｃとしてクライアントに返
信する。従って、クライアント１のユーザは、第３サー
バ１４の提供者に対して１０円の料金を支払わなければ
ならない。この時点で、クライアント１のユーザは、第
１サーバ１２のサービス料１円と、第２サーバ１３のサ
ービス料５円と、第３サーバ１４のサービス料１０円を
合わせて１６円の負担となる。

【００６５】

【００６６】次に、第１サーバ１２での音声認識サービ
スの結果を第２サーバ１３での音声認識サービスに反映
させて、第２サーバ１３での音声認識処理の負荷を軽減
させる方法について述べる。

【００６７】例えば、クライアント１のユーザが、東京
都新宿区界隈の地中海料理のレストランの情報を携帯電
話を用いて調べたい場合に、「新宿の地中海料理の店」
と携帯電話に向かって喋ったとする。この時、「新宿の
地中海料理の店」という音声が、入力信号００として、
クライアント１である携帯電話に入力される。クライア
ント１は、その入力信号００に基づいて、クライアント
送信信号１１を第１サーバ１２に送信する。

【００６８】たまたま第１サーバ１２の音声認識サービ
スが、日本の地名に関しては豊富な語彙をサポートして
いるが、外国の地名は語彙としてサポートしていないと
する。この場合、第１サーバ１２の音声認識手段ｃから
出力される認識結果情報４４は、図４のような形式で出
力されるものとする。

【００６９】ここで、各行はクライアント送信情報１１
から抽出された言葉に関する情報である。左から一列目
は、言葉のラベルを表しており、左から２列目は、言葉
の確からしさを表すスコアを表しており、左から３列目
は、言葉の発声の終わりの時刻を表している。Ｓｉｌｅ
ｎｃｅは、無音を表すラベルである。？？？は、第１サ
ーバ１２でサポートしている語彙に含まれていない言葉
が４５０ｍｓから７００ｍｓの間に発声されていると第
１サーバ１２が判断したことを示しており、言葉の確か
らしさは０％と表示されている。

【００７０】この図４の認識結果情報４４が図２の転送
指示信号５５に添付されて、第１サーバ１２の音声情報
転送手段ｅに送られ、さらに、第１サーバ１２の音声情
報転送手段ｅにより、第１サーバ転送情報８８Ａの一部
として、第２サーバ１３に転送される。

【００７１】第２サーバ１３は、音声情報受信手段ａ
で、第１サーバ転送情報８８Ａを解析し、音声情報２２
に添付する形で図４の認識結果情報４４を音声認識手段
ｃに送る。第２サーバ１３の音声認識手段ｃは、図４の
認識結果情報を参照し、ある値以上の確からしさを持つ
言葉を正解と見なし、ある値未満の確からしさを持つ区
間の音声情報２２に対して、音声認識処理を行う。

【００７２】第２サーバ１３がサポートしている語彙の
中に「地中海」という言葉が含まれていれば、４５０ｍ
ｓから７００ｍｓの区間が、「地中海」という言葉に対
応するという確からしさが例えば９５％という値を示す
ため、「地中海」という言葉が発声されていると認識す
ることができる。

【００７３】この結果、第２サーバ１３は、入力信号０
０に含まれる全ての言葉を高い確からしさで認識するこ
とができたため、認識結果送信手段ｇを介して、第２サ
ーバ返信情報９９Ｂをクライアント１に返信することが
できる。

【００７４】もし、第２サーバ１３がサポートする語彙
に「地中海」という言葉が含まれていない場合は、確か
らしさが低い値になるので、第２サーバ１３は第３サー
バ１４に認識サービスを委ねることになる。この場合に
ついても、上記の方法と同様の方法で実現することが可
能である。

【００７５】上述の説明では、クライアントを携帯電
話、サーバを携帯電話網の中のサーバに設置された音声
認識装置として説明したが、クライアントをパーソナル
コンピュータ等のコンピュータ、サーバをインターネッ
ト網の中のサーバに設置された音声認識装置としてもよ
い。また、クライアントが携帯電話で、サーバが携帯電
話網と接続されたインターネット網の中のサーバに設置
された音声認識装置である組み合わせでもよいし、クラ
イアントがパーソナルコンピュータ等のコンピュータ
で、サーバがインターネット網と接続された携帯電話網
の中のサーバに設置された音声認識装置である組み合わ
せでも良いことは言うまでもない。

【００７６】

【発明の効果】以上説明したように、本発明によれば、
各サーバに、クライアントからの音声情報に対して音声
認識処理能力に応じた処理のみを実行させ、且つ、ある
サーバでの音声認識処理の実行によって、当該サーバよ
り下位のサーバをクライアントからの音声認識処理要求
から開放することができ、上位のサーバはより多くの音
声認識のための情報を有するため、より多くの計算量、
メモリ量を音声認識処理のために必要とするが、上位の
サーバには下位のサーバで所定の結果が得られなかった
言葉に対してのみ音声認識処理を実行させることによ
り、上位のサーバの処理負荷を軽減でき、その結果、特
定のサーバにトラフィックが集中することを防ぎ、効率
的な音声認識処理を行える。

【図面の簡単な説明】

【図１】クライアント／サーバによる音声認識態様を説
明する図である。

【図２】サーバの構成を示す図である。

【図３】３つのサーバによる音声認識態様を説明する図
である。

【図４】認識結果情報の形式を示す図である。

【符号の説明】

００入力信号１クライアント２サーバ１１クライアント送信情報１２第１サーバ１３第２サーバ１４第３サーバ２２音声情報３３クライアントアドレス４４認識結果情報５５転送指示信号６６返信指示情報７７上位サーバアドレス８８サーバ転送情報８８Ａ第１サーバ転送情報８８Ｂ第２サーバ転送情報９９サーバ返信情報９９Ａ第１サーバ返信情報９９Ｂ第２サーバ返信情報９９Ｃ第３サーバ返信情報ａ音声情報受信手段ｂクライアントアドレス保存手段ｃ音声認識手段ｄ類似度比較手段ｅ音声情報転送手段ｆ上位サーバアドレス保存手段ｇ認識結果返信手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 3/00 ５６１Ａ５６１Ｈ５７１Ｃ５７１Ｊ

Claims

(57)【特許請求の範囲】

【請求項１】第１のサーバから段階的により多くの音
声認識のための情報を有する複数のサーバによって通信
手段を介して受信したクライアントからの音声情報を音
声認識する音声認識方法であって、前記音声情報の音声認識を実行して得られる言葉の類似
度を所定のしきい値と比較して所定の認識結果が音声情
報に含まれる全ての言葉で得られるように、第１のサー
バから順次、当該第１のサーバより多くの音声認識のた
めの情報を有する上位のサーバで音声認識を実行する際
に、前記複数のサーバの各々において、前記音声情報の少な
くとも一部の音声認識を実行して音声情報に含まれる全
ての言葉に対して所定の認識結果が得られている場合
は、当該全ての言葉に対する所定の認識結果を通信手段
を介して前記クライアントに送信し、前記音声情報の少
なくとも一部の音声認識を実行して所定の認識結果が得
られなかった言葉が存在する場合であって、当該サーバ
が最上位サーバである場合は前記音声情報に対するそれ
までの全ての音声認識の結果を前記クライアントに通信
手段を介して送信し、当該サーバが最上位サーバでない
場合は前記音声情報と、当該音声情報に対して前記第１
のサーバから当該サーバまでが実行した音声認識の結果
得られた言葉のラベル、当該ラベルの類似度、および当
該言葉の発声の終了点の前記音声情報の始めからの経過
時刻とを含む情報を、当該サーバより上位のサーバに転
送することを特徴とする音声認識方法。
【請求項２】請求項１において、前記各サーバは前記クライアントから得られたクライア
ントアドレスを参照して前記認識結果を前記クライアン
トに送信し、且つ最上位サーバを除く各サーバは、当該
サーバより上位のサーバのアドレスを参照して前記クラ
イアントアドレスを、当該サーバより上位のサーバに転
送することを特徴とする音声認識方法。
【請求項３】第１のサーバから段階的により多くの音
声認識のための情報を有する複数のサーバによって通信
手段を介して受信したクライアントからの音声情報を音
声認識する音声認識方法であって、前記音声情報の音声
認識を実行して得られる言葉の類似度を所定のしきい値
と比較して所定の認識結果が音声情報に含まれる全ての
言葉で得られるように、第１のサーバから順次、当該第
１のサーバより多くの音声認識のための情報を有する上
位のサーバで音声認識を実行する際に、前記複数のサー
バの各々において、前記音声情報の少なくとも一部の音
声認識を実行して音声情報に含まれる全ての言葉に関し
て所定の認識結果が得られている場合は、当該全ての言
葉に関する所定の認識結果を通信手段を介して前記クラ
イアントに送信し、前記音声情報の少なくとも一部の音
声認識を実行して所定の認識結果が得られなかった言葉
が存在する場合であって、当該サーバが最上位サーバで
ある場合は前記音声情報に対するそれまでの全ての音声
認識の結果を前記クライアントに通信手段を介して送信
し、当該サーバが最上位サーバでない場合は前記音声情
報と、当該音声情報に対して前記第１のサーバから当該
サーバまでが実行した音声認識の結果得られた言葉のラ
ベル、当該ラベルの類似度、および当該言葉の発声の終
了点の前記音声情報の始めからの経過時刻とを含む情報
を、当該サーバより上位のサーバに転送することを特徴
とする音声認識方法を適用する音声認識サーバであっ
て、通信手段を介して伝送されたクライアントからの音声情
報または当該サーバよりも少ない音声認識のための情報
を有するサーバからの情報を受信する受信手段と、前記受信手段によって受信した情報に基づいて、所定の
認識結果が得られていない音声情報を音声認識処理する
音声認識処理手段と、前記音声認識処理手段によって所定の認識結果が得られ
たか否かを、当該音声認識処理手段によって音声認識し
た結果得られる言葉の類似度を所定のしきい値と比較す
ることによって判断する判断手段と、前記判断手段によって全ての言葉に対して所定の認識結
果が得られていると判断された場合または前記判断手段
によって音声情報に含まれる全ての言葉に対して所定の
認識結果が得られていないと判断された場合であって当
該サーバが最上位サーバである場合は、前記クライアン
トに通信手段を介して前記全ての言葉に対する認識結果
を送信し、前記判断手段によって音声情報に含まれる全
ての言葉に対して所定の認識結果が得られていないと判
断された場合であって当該サーバが最上位サーバでない
場合は、当該サーバの次に多くの音声認識のための情報
を有する上位のサーバに対して、前記音声情報と、当該
音声情報に対して前記第１のサーバから当該サーバまで
が実行した音声認識の結果得られた言葉のラベル、当該
ラベルの類似度、および当該言葉の発声の終了点の前記
音声情報の始めからの経過時刻とを含む情報を転送する
出力手段とを具えたことを特徴とする音声認識サーバ。
【請求項４】請求項３において、前記受信手段が受信する情報はクライアントアドレス情
報を含み、前記出力手段は、前記受信手段が受信した情報から取り
出されたクライアントアドレスを保存するクライアント
アドレス保存手段と、前記クライアントアドレス保存手
段に保存されたクライアントアドレスを参照して認識結
果を当該クライアントに返信するための認識結果返信手
段と、前記上位のサーバのアドレスを保存する上位サー
バアドレス保存手段と、前記所定の認識結果が得られな
かった音声情報および当該音声情報に関する音声認識の
結果と前記クライアントアドレス保存手段に保存された
クライアントアドレスとを含む情報を前記上位サーバア
ドレス保存手段に保存された上位のサーバのアドレスを
参照して当該上位のサーバに転送するための音声情報転
送手段とを有し、前記判断手段は、前記音声認識処理手段から出力された
類似度を予め与えられたしきい値と比較し、類似度がし
きい値以上の場合、および類似度がしきい値未満の場合
であって前記上位サーバアドレス保存手段に上位のサー
バのアドレスが格納されていない場合は、前記音声認識
処理手段からの認識結果をクライアントに返信するよう
に認識結果返信手段を制御し、類似度がしきい値未満の
場合であって前記上位サーバアドレス保存手段に上位の
サーバのアドレスが保存されている場合は、前記所定の
認識結果が得られなかった音声情報および当該音声情報
に関する音声認識の結果と前記クライアントアドレス保
存手段に保存されたクライアントアドレスとを含む情報
を当該上位のサーバに転送するように前記音声情報転送
手段を制御することを特徴とする音声認識サーバ。
【請求項５】請求項３または４の音声認識サーバにお
いて、受信された音声情報に対して実行した音声認識処理に要
した時間を計測し、前記計測時間と、当該サーバが有する前記音声情報に関
する音声認識のための情報の量とに基づいて使用料金を
計算することを特徴とする音声認識サーバにおける使用
料金計算法。
【請求項６】音声情報を送信するクライアントと、前
記クライアントからの音声情報を通信手段を介して受信
する請求項３または４の音声認識サーバとを具えたこと
を特徴とする音声認識システム。
【請求項７】請求項６において、請求項５の使用料金計算法を適用して、当該音声情報に
対して音声認識処理を実行した前記第１のサーバからク
ライアントに通信手段を介して認識結果を送信するサー
バまでの料金を加算してクライアントに課金することを
特徴とする音声認識システム。