JP2009237439A

JP2009237439A - 携帯端末の音声認識装置、音声認識方法、音声認識プログラム

Info

Publication number: JP2009237439A
Application number: JP2008085926A
Authority: JP
Inventors: Shoken Nasu; 庄健奈須; Eiji Utsunomiya; 栄二宇都宮
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-03-28
Filing date: 2008-03-28
Publication date: 2009-10-15
Anticipated expiration: 2028-03-28
Also published as: JP5283947B2

Abstract

【課題】携帯端末で音声認識を行う際に、使い勝手が向上し、認識精度の向上が図れるようにする。
【解決手段】携帯端末１に、組込型音声認識機能が実装される。組込型音声認識機能の音響モデルデータベース５１や辞書データベース５２では、小語彙の辞書及び数種類の音響モデルに限定される。ネットワーク網４にはネットワーク型音声認識機能が設けられる。ネットワーク型音声認識機能では、音響モデルデータベース６１には、多数の音響モデルが蓄積され、辞書データベース６２には、大語彙の辞書が蓄積される。組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用して、使い勝手が向上し、全体としての性能の向上を図る。
【選択図】図４

Description

本発明は、携帯端末の音声認識装置、音声認識方法、音声認識プログラムに関する。

従来の携帯端末の入力としては、テンキーに文字を割り当て、親指でテンキーを押して文字入力するのが主流である。しかしながら、テンキーの親指入力は、親指入力に不慣れなユーザにとっては、効率が良くない。そこで、テンキーの親指入力に代わる入力インターフェイスとして、例えば特許文献１に示されるように、声により文字入力できる音声認識が注目されている。

携帯端末における音声認識の実現方法としては、携帯端末内に音声認識を行うための機能が実装した組込型音声認識機能と、ネットワーク網に音声認識サーバを設け、ネットワーク網の音声認識サーバに接続して音声認識を行うネットワーク型音声認識機能とがある。

組込型音声認識機能とネットワーク型音声認識機能とを比較すると、ネットワーク型音声認識機能では、処理能力が高く、メモリ容量も大きいという利点がある。しかしながら、ネットワーク型音声認識機能を使うためには、ネットワーク網に接続する必要があるため、ネットワークが使えない環境下では利用できず、また、複数の端末からのアクセスの集中等、ネットワーク環境の影響を受けると、処理時間がかかる場合がある。

これに対して、組込型音声認識機能では、メモリ容量が制限されているため、小語彙の辞書及び数種類の音響モデルに限定されている。しかしながら、組込型音声認識機能では、ネットワーク網に接続する必要がなく、ネットワーク環境の影響を受けないという利点がある。

また、ネットワーク型音声認識は、大語彙の辞書及び多数種類の音響モデルが使えるため、組込型音声認識機能よりも、認識結果が良好な場合が多い。しかしながら、ネットワーク型音声認識では、大語彙の辞書であるため、かえって認識結果を誤る場合がある。

例えば、駅名の認識をする場合、ネットワーク型音声認識機能の大語彙の辞書では、「おおつか」という音声入力に対して、「大塚」であるか「大阪」であるか不明になり、「大阪」と誤って認識される可能性が高い。これに対して、組込型音声認識機能を使った場合、語彙の辞書が関東の駅名に限られていれば、「大阪」と誤って認識されることはなく、「大塚」と正しく認識される可能性が高い。このように、小語彙の組込型音声認識機能の方が、認識結果が上がる場合もある。
特開２００４−２５８４８０号公報

上述のように、音声認識の実現方法としては、組込型音声認識機能と、ネットワーク型音声認識機能とがあるが、組込型音声認識機能では、小語彙の辞書及び数種類の音響モデルに限定されるという問題がある。また、ネットワーク型音声認識機能では、ネットワークの影響を受けると共に、大語彙の辞書が用いられるために、かえって認識結果が悪くなるという問題がある。

そこで、本発明は、上述の課題を鑑み、使い勝手が向上し、認識精度の向上し、全体としての認識精度の向上が図れる音声認識装置、音声認識方法、音声認識プログラムを提供することを目的とする。

上述の課題を解決するために、本発明は、以下の事項を提案している。

（１）本発明は、機器内部に設けられた組込型音声認識機能と、ネットワーク上に設けられた音声認識サーバによるネットワーク型音声認識機能と、前記組込型音声認識機能による認識結果と、前記ネットワーク型音声認識機能による認識結果とを用いて音声認識を行う制御手段と、を備えることを特徴とする携帯端末の音声認識装置を提案している。
本発明によれば、組込型音声認識機能による認識結果と、ネットワーク型音声認識機能による認識結果とを用いて音声認識を行うことで、音声認識の使い勝手を向上させ、認識精度を向上させることができる。

（２）本発明は、（１）の音声認識装置において、制御手段は、組込型音声認識機能による認識結果が良好でない場合に、ネットワーク型音声認識機能を用いることを特徴とする音声認識装置を提案している。

本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、ネットワークの影響を最小限として、認識精度を向上させることができる。

（３）本発明は、（１）の音声認識装置において、制御手段は、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、認識結果が良好な方を用いることを特徴とする音声認識装置を提案している。

本発明によれば、小語彙の辞書及び数種類の音響モデルに限られている組込型音声認識機能と、大語彙の辞書及び多数種類の音響モデルが利用可能なネットワーク型音声認識機能とを並列に認識処理を行い、認識結果が良好な方を用いることで、認識精度を向上させることができる。

（４）本発明は、組込型音声認識機能による音声認識を行い、組込型音声認識機能による音声認識結果が良好かどうかを判定し、組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うことを特徴とする携帯端末の音声認識方法を提案している。

本発明によれば、組込型音声認識機能による認識結果が良好でない場合には、ネットワーク型音声認識機能による認識結果を用いることで、認識精度を向上させることができる。

（５）本発明は、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較し、認識結果が良好な方を認識結果として採用することを特徴とする携帯端末の音声認識方法を提案している。

（６）本発明は、コンピュータに、組込型音声認識機能による音声認識を行うステップと、組込型音声認識機能による音声認識結果が良好かどうかを判定するステップと、組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うステップとを実行させるための携帯端末の音声認識プログラムを提案している。

（７）本発明は、コンピュータに、組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行うステップと、組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較するステップと、認識結果が良好な方を認識結果として採用するステップとを実行させるための携帯端末の音声認識プログラムを提案している。

本発明によれば、組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用することで、音声認識の使い勝手や全体としての性能の向上を図ることができるという効果がある。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

図１は、本発明の実施形態のシステム構成を示すものである。
図１において、１は携帯端末、２は基地局である。携帯端末１は、基地局２を介して、公衆電話回線網（ＰＳＴＮ：Ｐｕｂｌｉｃ
ＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）３及びネットワーク網４に接続可能とされている。ネットワーク網４は、ＩＰ（Ｉｎｔｅｒｎｅｔ
Ｐｒｏｔｏｃｏｌ）ネットワーク網であり、例えばＷＡＰ（Ｗｉｒｅｌｅｓｓ
ＡｐｐｌｉｃａｔｉｏｎＰｒｏｔｏｃｏｌ）によりインターネット閲覧サービスを可能としている。

ネットワーク網４には、各種のコンテンツサーバ５が設けられていると共に、音声認識サーバ６が設けられる。音声認識サーバ６は、ネットワーク型音声認識機能を実現するものである。音声認識サーバ６には、多数の音響モデルを格納した音響モデルデータベース６１と、大語彙の辞書（数万語）を格納した辞書データベース６２が設けられている。

携帯端末１は、基地局２を介して電話回線網３に発呼して、固定電話や携帯電話との音声通話を行うことができる。また、携帯端末１は、基地局２を介してネットワーク網４と接続することで、ウェブコンテンツを表示させたり、メールの送受信をしたり等のサービスを受けることができる。

図２は、携帯端末１の外観構成を示すものである。この携帯端末１は、インターネットの通信機能、カメラ機能、ＧＰＳ(Ｇｌｏｂａｌ
ＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ)機能等を備えた携帯端末となっている。また、この携帯端末１では、組込型音声認識機能やその他の音声認識機能（分散型音声認識のクライアント機能など）が備えられている。また、この例では、携帯端末１は折り畳み自在の構造となっており、図２（Ａ）は、携帯端末１の内側となる部分の各部の配置を示し、図２（Ｂ）は、外側となる各部の配置を示すものである。

図２（Ａ）に示すように、携帯端末１の内側となる部分の下端には、マイクロホン１１が配置される。携帯端末１の内側となる部分の上端には、スピーカ１２が配置される。マイクロホン１１及びスピーカ１２は、電話使用時に送受話を行うものである。

また、携帯端末１の内側となる部分の上方には、液晶ディスプレイ１３が配置される。液晶ディスプレイ１３には、各種の文字や画像が表示される。すなわち、電話利用時には、液晶ディスプレイ１３に、着信や送信の電話番号や住所録が表示される。

また、インターネットを利用時には、液晶ディスプレイ１３に、インターネットのウェブ画面や、送受信メールが表示される。また、カメラ撮影時には、液晶ディスプレイ１３がビューファインダとして用いられる他、撮影したカメラ画像が液晶ディスプレイ１３に表示される。また、ＧＰＳナビゲーション時には、液晶ディスプレイ１３に、地図画面が表示される。

携帯端末１の内側となる部分の下方には、テンキー（＊キーや＃キーを含む）１４、カーソルキー１５、決定キー１６、発着信キー１７ａ、１７ｂ等が配置される。テンキー１４は、電話番号の入力、メールや電話帳作成時の文字入力等に用いられる。カーソルキー１５は、液晶ディスプレイ１３に表示されるカーソルを移動させて、各種の選択入力等を行うのに用いられる。決定キー１６は、選択実行を行うのに用いられる。発着信キー１７ａ、１７は、電話回線での発着信を行うのに用いられる。

携帯端末１の外側には、図２（Ｂ）に示すように、カメラ部１８が配置される。カメラ部１８は、静止画やビデオ撮影に利用される他、二次元バーコードの入力等に利用される。

図３は、本発明の第１の実施形態の携帯端末１の主要部の内部構成を示すものである。図３において、主制御部２１は、ＣＰＵ(Ｃｅｎｔｒａｌ
ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ)等からなり、携帯端末の全体の動作の制御を行っている。

プロラムメモリ２２には、ブートプログラム、基本プログラム、インターネットの携帯ブラウザ、メーラ、カメラ制御、ＧＰＳ制御、電子マネー制御等、各種のアプリケーションプログラムが保存されている。また、本発明の実施形態では、プロラムメモリ２２に、組込型音声認識機能やその他の音声認識機能（分散型音声認識のクライアント機能など）を実現するための音声認識のためのプログラム５０が実装されている。

メモリ２３には、各種のプリセットデータ、電話帳データ、メールのデータ、電話履歴、位置履歴、行動履歴、写真情報等、各種のデータが記憶される。

大容量メモリ２４は、フラッシュメモリ等からなり、ＧＰＳナビゲーションに使う地図情報等や動画情報等が記憶される。また、大容量メモリ２４には、組込型音声認識機能のための音響モデルデータベース５１と音声認識の辞書データベース５２とが設けられている。組込型音声認識機能では、小語彙の辞書（利用頻度の高い単語やローカル単語などの数１０〜１０００語）及び数種類の音響モデルに限定されている。

操作部２７は、ユーザからの入力操作が行われる。操作部２７には、テンキー１４や、カーソルキー１５、決定キー１６、発着信キー１７ａ、１７ｂ等が含まれる。

近距離通信部２８は、他の周辺機器との無線で接続してデータの送受信を行うものである。通信方式としては、例えば、Ｂｌｕｅｔｏｏｔｈが用いられる。

表示部２９は、液晶ディスプレイ１３からなり、表示部２９は、各種の文字や画像の表示に用いられる。表示処理部３０は、表示部２９の表示制御を行っている。

音響処理部３６は、入力音声信号や出力音声信号の処理を行っている。音響処理部３６に対して、マイクロホン１１及びスピーカ１２が設けられる。

無線部３３は、基地局との間で、電波の送受信を行うものである。通信方式としては、どのような通信方式を用いても良い。通信制御部３４は、基地局との間で通信する信号の制御を行っている。

カメラ部１８は、カメラ撮影を行うものである。カメラ部１８には、レンズ等の光学系３７と、ＣＣＤ（Ｃｈａｒｇｅ
ＣｏｕｐｌｅｄＤｅｖｉｃｅ）等のイメージセンサからなる撮像部３８とが含まれる。カメラ部１８に対して、イメージセンサの撮像信号を処理する映像信号処理部３９が設けられる。

ＧＰＳ機能部４１は、複数の衛星からの電波を受信して、現在地を即位するものである。ＲＦＩＤリーダ４２は、電子マネー等を利用する場合に、近距離通信を行うものである。

上述のように、本発明の実施形態では、携帯端末１に、音声認識のためのプログラム５０（組込型音声認識機能）が実装されている。また、ネットワーク網４には音声認識サーバ６（ネットワーク型音声認識機能）が設けられている。

本発明の実施形態では、組込型音声認識機能とネットワーク型音声認識機能とでは性質が異なっていることに着目し、組込型音声認識機能とネットワーク型音声認識機能との双方を効果的に使用して、音声認識の使い勝手や全体としての性能の向上を図るようにしている。

図４は、本発明の第１の実施形態の処理を示すフローチャートである。
本実施形態は、先ず、携帯端末１の組込型音声認識機能により音声認識を行い、認識結果が良好ならその認識結果を採用し、認識結果が良好でなければ、音声認識サーバ６に接続して、ネットワーク型音声認識機能で音声認識を行うようにしたものである。

図４において、アプリケーション側からの呼び出しにより、初期化処理が行われ（ステップＳ１）、マイクロホン１１から取り込まれた音声波形に対して音響分析処理が行われる（ステップＳ２）。

より具体的には、入力された音声は、所定時間の時間窓により抽出された後、フーリエ変換やＬＰＣ分析により、対数パワースペクトル列に変換され、この対数パワースペクトルを更に直交変換をして、ケプストラムが求められて、特徴ベクトルが生成される。

そして、音響分析処理の結果に基づいて、組込型音声認識機能による認識処理が行われる（ステップＳ３）。組込型音声認識機能による認識処理では、携帯端末１に格納された音響モデルデータベース５１及び辞書データベース５２を用いて、特徴ベクトル列との音響的なマッチング処理が行われる。前述したように、組込型音声認識機能の音響モデルデータベース５１や辞書データベース５２では、小語彙の辞書（利用頻度の高い単語やローカル単語などの数１０〜１０００語）及び数種類の音響モデルに限定されている。

なお、音響モデルとは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルとしては、例えば隠れマルコフモデル（ＨＭＭ：Ｈｉｄｄｅｎ
ＭａｒｋｏｖＭｏｄｅｌ）が用いられている。言語モデルとは、音素の並び方に関する制約を表したものである。各単語の組み合わせについて、ある単語の組み合わせが起こる確率（言語尤度）と、その単語の組み合わせのもと観測された特徴ベクトルが得られるであろう確率（音響尤度）とが求められ、これが最大となるような単語の組み合わせが認識結果とされる。

認識処理が終了すると、音声認識結果の精度（認識スコア）が判定される（ステップＳ４）。

ここで、認識結果が良好な場合には、携帯端末１内の組込型音声認識機能での認識結果が採用され、認識結果に対する処理が行われ（ステップＳ５）、アプリケーションにリターンされる。

ステップＳ４で、認識結果が良好でない場合には、通信処理が行われ（ステップＳ６）、組込型音声認識処理で取得した音声認識処理情報（認識結果出力に利用した音響モデルの情報、組込型音声認識での認識結果）が音声データと共に、音声認識サーバ６に送られる。なお、音声データには音響分析処理による特徴ベクトルデータや、ＰＣＭデータ、符号化や圧縮された音声データを含む。

音声認識サーバ６では、携帯端末１から受信した音声認識処理情報を音声認識処理に入力し、ネットワーク型音声認識機能による音声認識処理を実行する（ステップＳ７）。なお、前述したように、ネットワーク型音声認識機能では、音響モデルデータベース６１には、多数の音響モデルが蓄積され、辞書データベース６２には、大語彙の辞書（数万語）が蓄積されている。音声認識サーバ６では、このように、多数の音響モデルと、大語彙の辞書を用いて音声認識が行われる。また、組込型音声認識処理で取得した音声認識処理情報を利用することで、辞書や音響モデルの絞り込みを行うことができ、処理時間を短縮できる。

音声認識サーバ６での音声認識が終了されたら、認識結果が携帯端末１に返される。携帯端末１では、音声認識サーバ６からの音声認識結果を受け取ると、音声認識サーバ６からのネットワーク型音声認識機能での認識結果により、認識結果に対する処理が行われ（ステップＳ８）、アプリケーションにリターンされる。

以上説明したように、この例では、ネットワーク型音声認識機能では、大語彙の辞書及び多数の音響モデルを有しているため、組込型音声認識機能に比べて、認識結果が良好な場合が多いという性質を利用して、先ず、携帯端末１の組込型音声認識機能により音声認識を行い、認識結果が良好ならその認識結果を採用し、認識結果が良好でなければ、音声認識サーバ６に接続して、ネットワーク型音声認識機能で音声認識を行うようにしている。この場合、組込型音声認識機能により音声認識が行えれば、音声認識サーバ６に接続する処理は不要であり、ネットワーク環境の影響を受けない。

図５は、本発明の第２の実施形態の処理を示すフローチャートである。
この例は、携帯端末１の組込型音声認識機能と、音声認識サーバ６によるネットワーク型音声認識機能とを同時並列的に行い、認識結果の良い方を用いるようにしたものである。

図５において、アプリケーション側からの呼び出しにより、初期化処理が行われ（ステップＳ１０１）、マイクロホン１１から取り込まれた音声波形に対して音響分析処理が行われる（ステップＳ１０２）。

そして、音響分析処理の結果に基づいて、組込型音声認識機能による認識処理が行われる（ステップＳ１０３）。組込型音声認識機能による認識処理では、音響モデルデータベース５１の音響モデルと、辞書データベース５２の辞書による言語モデルと用いて、特徴ベクトル列との音響的なマッチング処理が行われる。

組込型音声認識機能の音響モデルデータベース５１や辞書データベース５２では、小語彙の辞書（利用頻度の高い単語やローカル単語などの数１０〜１０００語）及び数種類の音響モデルに限定されている。認識処理が終了すると、携帯端末１の組込型音声認識機能による音声認識結果の精度（認識スコア）が判定される（ステップＳ１０４）。

これと並行して、通信処理が行われ（ステップＳ１０５）、音声データと共に、音声認識サーバ６に送られる。音声認識サーバ６では、携帯端末１から受信した音声認識処理情報を音声認識処理に入力し、ネットワーク型音声認識機能による音声認識処理を実行する（ステップＳ１０６）。

ネットワーク型音声認識機能では、音響モデルデータベース６１には、多数の音響モデルが蓄積され、辞書データベース６２には、大語彙の辞書（数万語）が蓄積されている。音声認識サーバ６での音声認識が終了されたら、認識結果が携帯端末１に返される。そして、音声認識サーバ６によるネットワーク型音声認識機能による音声認識結果の精度（認識スコア）が判定される（ステップＳ１０７）。

主制御部２１により、携帯端末１の組込型音声認識機能により音声認識結果の精度と、音声認識サーバ６によるネットワーク型音声認識機能による音声認識結果の精度とが比較され、認識結果が良好な方が認識結果として採用され（ステップＳ１０８）、アプリケーションにリターンされる。

ネットワーク型音声認識機能では、大語彙の辞書及び多数の音響モデルを有しているため、認識結果が良好な場合が多いが、大語彙の辞書であるため、かえって認識結果を誤る場合がある。この実施形態では、携帯端末１の組込型音声認識機能により音声認識と、音声認識サーバ６によるネットワーク型音声認識機能とを同時に並行して行い、認識結果が良好な方が認識結果として採用される。このため、認識結果を向上させることができる。

本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

なお、ソースとなら音声認識処理を行うプログラムは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の第１の実施形態のシステム構成の説明に用いるブロック図である。本発明の第１の実施形態の携帯端末の外観構成の説明に用いる正面図及び背面図である。本発明の第１の実施形態の携帯端末の内部構成の説明に用いるブロック図である。本発明の第１の実施形態の音声認識処理の説明に用いるフローチャートである。本発明の第２の実施形態の音声認識処理の説明に用いるフローチャートである。

符号の説明

１：携帯端末
２：基地局
３：電話回線網
４：ネットワーク網
５：コンテンツサーバ
６：音声認識サーバ
２１：主制御部
５０：音声認識のプログラム
５１：音響モデルデータベース
５２：辞書データベース
６１：音響モデルデータベース
６２：辞書データベース

Claims

機器内部に設けられた組込型音声認識機能と、
ネットワーク上に設けられた音声認識サーバによるネットワーク型音声認識機能と、
前記組込型音声認識機能による認識結果と、前記ネットワーク型音声認識機能による認識結果とを用いて音声認識を行う制御手段と、
を備えることを特徴とする携帯端末の音声認識装置。
前記制御手段は、前記組込型音声認識機能による認識結果が良好でない場合に、前記ネットワーク型音声認識機能を用いることを特徴とする請求項１に記載の携帯端末の音声認識装置。
前記制御手段は、前記組込型音声認識機能と前記ネットワーク型音声認識機能と並列に認識処理を行い、認識結果が良好な方を用いることを特徴とする請求項１に記載の携帯端末の音声認識装置。
組込型音声認識機能による音声認識を行い、
前記組込型音声認識機能による音声認識結果が良好かどうかを判定し、
前記組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うことを特徴とする携帯端末の音声認識方法。
組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行い、
前記組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較し、認識結果が良好な方を認識結果として採用する
ことを特徴とする携帯端末の音声認識方法。
コンピュータに、
組込型音声認識機能による音声認識を行うステップと、
前記組込型音声認識機能による音声認識結果が良好かどうかを判定するステップと、
前記組込型音声認識機能による認識結果がでない場合に、ネットワーク型音声認識機能を用いて音声認識を行うステップと、
を実行させるための携帯端末の音声認識プログラム。
コンピュータに、
組込型音声認識機能とネットワーク型音声認識機能と並列に認識処理を行うステップと、
前記組込型音声認識機能による認識結果とネットワーク型音声認識機能による認識結果とを比較するステップと、
認識結果が良好な方を認識結果として採用するステップと、
を実行させるための携帯端末の音声認識プログラム。