JP2009244432A

JP2009244432A - 携帯端末の音声認識装置、方法、プログラム

Info

Publication number: JP2009244432A
Application number: JP2008088907A
Authority: JP
Inventors: Toshiaki Uchibe; 利明内部; Yoichi Tada; 洋一多田; Shoken Nasu; 庄健奈須
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-03-29
Filing date: 2008-03-29
Publication date: 2009-10-22

Abstract

【課題】ウェブページ上から音声認識機能を簡単に実現できるようにした携帯端末の音声認識装置、方法、プログラムを提供する。
【解決手段】ウェブブラウザ５１に、音声認識アプレット５２が組み込まれ、あるいは連携して動作する。音声認識アプレット５２は、ウェブブラウザ５１から呼び出され、入力された音声データを音声認識装置６に送信して音声認識を行わせ、認識結果を音声認識装置６から受信し、ウェブブラウザ５１に返す処理を行うモジュールである。音声認識アプレット５２を記述するフォーマットは、１回の音声認識単位を記述することにより、単一のタグで拡張可能である。対話形式のウェブコンテンツの記述と同一のマークアップ言語で定義する。音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能である。
【選択図】図７

Description

本発明は、特に、ウェブページ上から直接音声認識機能を利用できるようにした携帯端末の音声認識装置、方法、プログラムに関する。

近年の飛躍的な技術進歩により、携帯端末から利用可能な音声認識機能が提供されるようになってきている。従来の携帯端末から利用可能な音声認識は、（ａ）音声応答システム（ＩＶＲ：Ｉｎｔｅｒａｃｔｉｖｅ
ＶｏｉｃｅＲｅｓｐｏｎｓｅ）への電話回線によるアクセス、（ｂ）ウェブコンテンツからコンテンツから電話発信で音声応答システム（ＩＶＲ）へのアクセス、（ｃ）携帯端末用アプリケーションによる音声認識装置へのアクセスの３つの種類に大別される。

（ａ）の音声応答システム（ＩＶＲ）への電話回線によるアクセスは、図１０に示すように、携帯端末１０１を電話回線網（ＰＳＴＮ：Ｐｕｂｌｉｃ
ＳｗｉｔｃｈｅｄＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）１０２で音声応答システム１０３に接続して、音声認識を行わせるものである。音声応答システム１０３には、データベースサーバ１０４と音声認識サーバ１０５とが設けられる。携帯端末１０１で電話回線網１０２を使って音声応答システム１０３に接続すると、音声応答システム１０３から携帯端末１０１に、ガイダンスが音声で送られてくる。このガイダンスに応答して、携帯端末１０１に音声を入力すると、この音声が電話回線網１０２を介して音声応答システム１０３に送られ、音声認識が行われる。これに応じて、各種のガイダンス出力が音声応答システムから返される（例えば、特許文献１参照。）。

（ｂ）のウェブコンテンツからコンテンツから電話発信で音声応答システム（ＩＶＲ）へのアクセスは、ウェブコンテンツから、ＰｈｏｎｅＴｏのタグにより、音声応答システムに電話回線でアクセスするものである。つまり、図１１に示すように、携帯端末１０１のウェブブラウザで、ネットワーク網１１０を介して、コンテンツサーバ１１１にアクセスし、ウェブページを表示する。ウェブページに、ＰｈｏｎｅＴｏのタグが含まれている場合、このタグが選択されると、音声応答システム１０３に電話回線網１０２によるアクセスが行われる。携帯端末１０１で電話回線網１０２を使って音声応答システム１０３に接続すると、音声応答システム１０３から携帯端末１０１に、ガイダンスが音声で送られてくる。このガイダンスに応答して、携帯端末１０１に音声を入力すると、この音声が電話回線網１０２を介して音声応答システム１０３に送られ、音声認識が行われる。ここで、音声応答システム１０３とコンテンツサーバ１１１とを、端末ＩＤ情報や認証登録情報を共有する連携データベース１０４により連携させておくことで、ウェブとの連携サービスが行える（例えば、非特許文献１参照。）。

（ｃ）の携帯端末用アプリケーションによる音声認識装置へのアクセスは、ＢＲＥＷ（登録商標）、Ｊａｖａ（登録商標）などの携帯端末用アプリケーションを使って、ネットワーク網の音声認識装置をアクセスして、音声認識を行うものである。
特開２００４−２９７５９５号公報インターネット＜ＵＲＬ：ｈｔｔｐ；ｗｗｗ.ｉｉｎ.ｊｐ/ＰＤＦ/０２０９０４.ｐｄｆ＞

しかしながら、図１０に示した音声応答システム（ＩＶＲ）の電話回線によるアクセスでは、基本的には電話回線網１０２を用いた音声ポータルシステムとして提供されているもので、音声によるインタフェースしか利用しないため、ウェブコンテンツとの親和性がない。また、電波環境等により音質が劣化すると、この音質劣化が音声認識に直接影響を与える。

図１１に示したウェブコンテンツからコンテンツから電話発信で音声応答システムへのアクセスを行うものも、上述と同様に、電話回線網１０２によるアクセスであるから、ウェブコンテンツとの親和性がない。また、ウェブコンテンツからアクセスできるように拡張したものであるが、ウェブコンテンツはネットワーク網１１０を介して接続されるのに対してＩＶＲは電話回線網１０２を介して提供されるため、音声認識中には電話回線に切替が発生し、使用感が良くない。

携帯端末用アプリケーションによる音声認識装置へのアクセスでは、ＢＲＥＷ（登録商標）やＪａｖａ（登録商標）などで携帯端末用アプリケーションを開発して、実装する必要がある。しかしながら、音声認識機能をアプリケーションに実装するためには専門的な知識やノウハウが必要であり、また開発者にとってアプリケーションとして開発することに対する敷居が高く、音声認識サービスの展開の支障となると思われる。

そこで、本発明は、上述の課題を鑑みてなされたものであり、ウェブページ上から音声認識機能を簡単に実現できるようにした携帯端末の音声認識装置、方法、プログラムを提供することを目的とする。

本発明は、上述の課題を鑑みて、以下の事項を提案している。

（１）本発明は、ウェブ上から音声認識機能を動作させるための携帯端末の音声認識装置において、ウェブページを閲覧するためのブラウザ手段と、ブラウザ手段に組み込まれ、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段とを備えることを特徴とする携帯端末の音声認識装置を提案している。

本発明によれば、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、を備えることで、ウェブページ上から音声認識機能を行うウェブアプリケーションを簡単に実現できる。

（２）本発明は、（１）の音声認識装置において、音声認識アプレット手段は、ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果をウェブブラウザ手段に返す処理を行うことを特徴とする音声認識装置を提案している。

本発明によれば、音声認識アプレット手段は、ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果をウェブブラウザ手段に返す処理を行うようにすることで、ハードウェアの依存性をなくし、音声認識機能をアプリケーションに簡単に実装できる。

（３）本発明は、ウェブ上から音声認識機能を動作させるための携帯端末の音声認識方法において、ブラウザ手段に組み込まれる音声認識アプレット手段を用意しておき、ブラウザ手段から音声認識アプレットが呼び出されると、入力された音声の認識を行わせることを特徴とする携帯端末の音声認識方法を提案している。

本発明によれば、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、を備えることで、ハードウェアの依存性をなくし、ウェブページ上から音声認識機能を行うウェブアプリケーションを簡単に実現できる。

（４）本発明は、ブラウザ手段に組み込まれ、ウェブ上から音声認識機能を動作させるためのアプレット形式の携帯端末の音声認識プログラムであって、ブラウザ手段から呼び出されると、入力された音声データの音声認識を行わせるステップと、認識結果をウェブブラウザ手段に返すステップとを有することを特徴とする携帯端末の音声認識プログラムを提案している。

（５）本発明は、（４）の携帯端末の音声認識プログラムについて、音声認識プログラムは、対話形式は主コンテンツの記述により規定し、音声認識実行箇所に拡張されたタグを埋め込むことを特徴とする携帯端末の音声認識プログラムを提案している。

本発明によれば、音声認識実行箇所に拡張されたタグを埋め込むことで、音声認識プログラムを簡単に作成できる。

（６）本発明は、（４）の携帯端末の音声認識プログラムについて、音声認識プログラムは、１発声毎に拡張されたタグを用いて記述する特徴とする携帯端末の音声認識プログラムを提案している。

本発明によれば、１発声毎に音声認識単位を記述することにより、単一のタグで拡張可能である。

（７）本発明は、（４）の携帯端末の音声認識プログラムについて、音声認識プログラムは、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むことを特徴とする携帯端末の音声認識プログラムを提案している。

本発明によれば、パラメータ名とその設定値を記述した設定ファイルを用意することで、デフォルト値と異なるパラメータを設定できる。

（８）本発明は、（４）の携帯端末の音声認識プログラムについて、音声認識プログラムは、更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合、音声認識を実行するタグを記述する際に、タスク名と同様に指定することを特徴とする携帯端末の音声認識プログラムを提案している。

本発明によれば、音声認識を実行するタグを記述する際に、タスク名と同様に指定することで、タスク毎にパラメータの設定値を変更することができる。

本発明によれば、ウェブブラウザに組み込まれる音声認識アプレットが用意されているので、ウェブコンテンツに容易な記述方法により音声認識機能を利用可能で、音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能であり、音声認識コンテンツ開発期間の短縮が期待できる。また、音声情報をＩＰパケット網を介して送信することにより、高性能な音声認識を実現可能である。また、ウェブブラウザとは別に、ＩＶＲのような特別な装置を持つ必要がないため、低コストでシステムを構築可能である。

以下、本発明の実施の形態について図面を参照しながら説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。

図１は、本発明の実施形態のシステム構成を示すものである。
図１において、１は携帯端末、２は基地局である。携帯端末１は、基地局２を介して、公衆電話回線網（ＰＳＴＮ：ＰｕｂｌｉｃＳｗｉｔｃｈｅｄ
ＴｅｌｅｐｈｏｎｅＮｅｔｗｏｒｋ）３及びネットワーク網４に接続可能とされている。ネットワーク網４は、ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワーク網であり、例えばＷＡＰ（Ｗｉｒｅｌｅｓｓ
ＡｐｐｌｉｃａｔｉｏｎＰｒｏｔｏｃｏｌ）によりインターネット閲覧サービスを可能としている。

ネットワーク網４には、各種のコンテンツサーバ５が設けられていると共に、音声認識装置６が設けられる。音声認識装置６は、図７のように、ネットワーク網４を介して、アクセスする音声認識サーバ（サーバ／クライント型）や、携帯端末に組み込まれた音声認識エンジン（スタンドアロン型）等の形態を制限するものではない。携帯端末１は、基地局２を介して電話回線網３に発呼して、固定電話や携帯電話との音声通話を行うことができる。また、携帯端末１は、基地局２を介してネットワーク網４と接続することで、ウェブコンテンツを表示させたり、メールの送受信をしたり等のサービスを受けることができる。

図２は、本発明が適用できる携帯端末１の外観構成を示すものである。
この例では、携帯端末１は折り畳み自在の構造となっており、図２（Ａ）は、携帯端末１の内側となる部分の各部の配置を示し、図２（Ｂ）は、外側となる各部の配置を示すものである。

図２（Ａ）に示すように、携帯端末１の内側となる部分の下端には、マイクロホン１１が配置される。携帯端末１の内側となる部分の上端には、スピーカ１２が配置される。

また、携帯端末１の内側となる部分の上方には、液晶ディスプレイ１３が配置される。液晶ディスプレイ１３には、各種の文字や画像が表示される。すなわち、電話利用時には、液晶ディスプレイ１３に、着信や送信の電話番号や住所録が表示される。

また、インターネットを利用時には、液晶ディスプレイ１３に、インターネットのウェブ画面や、送受信メールが表示される。また、カメラ撮影時には、液晶ディスプレイ１３がビューファインダとして用いられる他、撮影したカメラ画像が液晶ディスプレイ１３に表示される。

携帯端末１の内側となる部分の下方には、テンキー（＊キーや＃キーを含む）１４、カーソルキー１５、決定キー１６、発着信キー１７ａ、１７ｂ等が配置される。テンキー１４は、電話番号の入力、メールや電話帳作成時の文字入力等に用いられる。

カーソルキー１５は、液晶ディスプレイ１３に表示されるカーソルを移動させて、各種の選択入力等を行うのに用いられる。決定キー１６は、選択実行を行うのに用いられる。発着信キー１７ａ、１７ｂは、電話回線での発着信を行うのに用いられる。

携帯端末１の外側には、図２（Ｂ）に示すように、カメラ部１８が配置される。カメラ部１８は、静止画やビデオ撮影に利用される他、二次元バーコードの入力等に利用される。

図３は、本発明の第１の実施形態の携帯端末１の主要部の内部構成を示すものである。図３において、主制御部２１は、ＣＰＵ（Ｃｅｎｔｒａｌ
ＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等からなり、携帯電話端末の全体の動作の制御を行っている。

プロラムメモリ２２には、ブートプログラム、基本プログラム、インターネットのブラウザ、メーラ、カメラ制御、ＧＰＳ制御、電子マネー制御等、各種のアプリケーションプログラムが保存されている。また、本発明に第１の実施形態では、ウェブブラウザのアプリケーションと共に、音声認識のためのアプレットが実装されている。

メモリ２３には、各種のプリセットデータ、電話帳データ、メールのデータ、電話履歴、位置履歴、行動履歴、写真情報等、各種のデータが記憶される。

大容量メモリ２４は、フラッシュメモリ等からなり、ＧＰＳナビゲーションに使う地図情報等や動画情報等が記憶される。

操作部２７は、ユーザからの入力操作が行われる。操作部２７には、テンキー１４や、カーソルキー１５、決定キー１６、発着信キー１７ａ、１７ｂ等が含まれる。

近距離通信部２８は、他の周辺機器との無線で接続してデータの送受信を行うものである。通信方式としては、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）が用いられる。

表示部２９は、液晶ディスプレイ１３からなり、表示部２９は、各種の文字や画像の表示に用いられる。表示処理部３０は、表示部２９の表示制御を行っている。

音響処理部３６は、入力音声信号や出力音声信号の処理を行っている。音響処理部３６に対して、マイクロホン１１及びスピーカ１２が設けられる。

無線部３３は、基地局との間で、電波の送受信を行うものである。通信方式としては、どのような通信方式を用いても良い。通信制御部３４は、基地局との間で通信する信号の制御を行っている。

カメラ部１８は、カメラ撮影を行うものである。カメラ部１８には、レンズ等の光学系３７と、ＣＣＤ(ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ)等のイメージセンサからなる撮像部３８とが含まれる。カメラ部１８に対して、イメージセンサの撮像信号を処理する映像信号処理部３９が設けられる。

ＧＰＳ機能部４１は、複数の衛星からの電波を受信して、現在地を即位するものである。ＲＦＩＤリーダ４２は、電子マネー等を利用する場合に、近距離通信を行うものである。

次に、本発明の実施形態における音声認識処理について説明する。
本発明の実施形態の携帯端末１では、図４に示すように、ウェブページを閲覧するために、ウェブブラウザ５１が実装されている。なお、音声認識アプレット５２は、ウェブブラウザ５１に組み込まれた組込型でもよいし、ウェブブラウザ５１と連携して動作する連携型でもよい。音声認識アプレット５２は、ウェブブラウザ５１から呼び出され、入力された音声データを音声認識サーバ６に送信して音声認識を行わせ、認識結果を音声認識サーバ６から受信し、ウェブブラウザ５１に返す処理を行うモジュールである。

なお、ここでは、音声認識アプレット５２は、入力された音声データを音声認識装置６に送信して音声認識を行わせ、認識結果を音声認識装置６から受信し、ウェブブラウザ５１に返す処理を行うモジュールとしているが、携帯端末１の内部に音声認識機能を備えている場合には、音声データを内部の音声認識機能で音声認識を行わせ、内部の音声認識機能での認識結果をウェブブラウザ５１に返す処理を行うモジュールとしても良い。

要は、音声認識アプレット５２は、ウェブブラウザ５１側に組み込まれ、ウェブブラウザ５１側から呼び出されると、音声を入力して音声認識結果を返すモジュールで、その内部はカプセル化され、システムやハードウェアに依存しないようにしておけば良い。

音声認識アプレット５２を記述するフォーマットは、ＶｏｉｃｅＸＭＬのような対話形式で記述するのではなく、１回の音声認識単位を記述することにより、単一のタグで拡張可能である。対話形式のウェブコンテンツの記述と同一のマークアップ言語で定義する。

図５は、コンテンツを記述するマークアップ言語の中で使用する音声認識アプレット５２を記述するタグが示されている。ここでは、ＸＨＴＭＬやＨＤＭＬのようなマークアップ言語を使用する例が示されている。

拡張タグの使用は、ウェブブラウザ５１から携帯端末用アプリケーションとの連携する際のしくみであり、音声認識起動のための拡張タグを規定する。認識する内容（以降「タスク」と称す）を識別する名称（以降「タスク名」と称す）をパラメータとして指定する。

通常は、音声認識に関するパラメータは、特に指定しない限りデフォルト値を設定するが、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合（認識結果に応じて表示するＵＲＬ等）、図６に示すように、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むようにする。

更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合（例えば音声認識実行中に表示する文言、発声例等）、音声認識を実行するタグを記述する際に、図５に示すように、タスク名と同様に指定するようにする。

図７は、音声認識アプレット５２を使用してウェブブラウザ５１上から音声認識を行う場合を示している。図７に示すように、ウェブブラウザ５１により、コンテンツサーバ５をアクセスし、そして、携帯端末のウェブブラウザ５１により、このウェブページ中の音声認識の入力項目が選択されたとする。

コンテンツサーバ５のウェブページ中の音声認識の入力項目が選択されると、ウェブブラウザ５１から音声認識アプレット５２が起動される。音声認識アプレット５２が起動されると、入力された音声データが音声認識装置６に送信され、音声認識装置６で音声認識が行われ、認識結果が音声認識装置６から受信される。

そして、この認識結果は、音声認識アプレット５２からウェブブラウザ５１に返され、コンテンツサーバ５に送られる。これにより、コンテンツサーバ５では、音声認識結果に応じた処理が行われることになる。

このように、本発明の実施形態では、ウェブブラウザ５１上に音声認識アプレット５２が組み込まれており、この音声認識アプレット５２をウェブブラウザ５１から起動するようにしている。音声認識アプレット５２は、発声単位の音声認識処理を行うために必要最小限の機能より構成される音声認識アプレットとして実装され、カプセル化され、全ての音声認識コンテンツ間で共有するモジュールとされている。音声認識アプレット５２は、音声認識機能に特化した携帯端末用アプリケーションであり、マイクロホンからの音声入力等のウェブコンテンツから直接操作できないローカルデバイスの操作が可能である。これは次のようなメリットが挙げられる。

（１）音声認識アプレット５２を音声認識ベンダより提供することで、コンテンツ作成者は新たに音声認識機能を開発する必要がない。

（２）コンテンツの種類、認識する内容、対話形式が異なる場合でも、音声認識アプレット５２を組み込むことにより、容易に音声認識コンテンツを作成可能である。

（３）認識結果に応じた音声対応のシナリオをＶｏｉｃｅＸＭＬのような異なるマークアップ言語を用いて規定する必要がない。

また、音声認識アプレット５２からＩＰパケット網を介して音声認識サーバ６にアクセスする場合に、ＰＰＰ(Ｐｏｉｎｔ−ｔｏ−ＰｏｉｎｔＰｒｏｔｏｃｏｌ)の切替が発生しないように、スムーズに音声認識サーバとの通信処理に移行することが可能である。

音声認識実行中も、ユーザに違和感を生じさせないよう、コンテンツとの一体感を持たせるために、端末画面上に進捗状況等が表示可能である。例えば、発声するタイミングや発声例、録音中のインジケータがこれに該当する。音声認識終了後、ウェブブラウザ５１に復帰する際も、ＰＰＰの切替なくスムーズに移行し、取得した認識結果もしくは認識結果に応じて作成したページの画面を再描画するためのしくみを有する。画面を再描画するしくみは、以下の方法に該当する。

（１）認識結果をＵＲＬの引数としてＨＴＴＰのＰＯＳＴ機能により、音声認識起動時のコンテンツ画面を全面的に書換え。

（２）ウェブブラウザ５１のプラグイン機能を利用し、音声認識起動時のコンテンツの一部画面の書換え（テキストボックスへの認識結果の挿入等.）。

以上のしくみにより、携帯端末におけるキー入力の代替手段として、音声入力が可能なマルチモーダルな入力手段をもち、ウェブベースの音声認識コンテンツを容易に作成することが可能である。

図８は、本発明の実施形態の処理を示すシーケンス図である。
図８において、コンテンツサーバ５が音声認識のタグを含む音声認識のウェブページを送信し（ステップＳ１）、音声認識の開始画面をユーザが選択すると（ステップＳ２）、このユーザ選択がウェブブラウザ５１に送られ、ウェブブラウザ５１から、音声認識アプレット５２が起動される（ステップＳ３）。

音声認識アプレット５２が起動されると、音声認識装置６がアクセスされ（ステップＳ４）、音声認識装置６に入力音声データが送られて、音声認識処理が行われる（ステップＳ５）。この音声認識中には、録音中の画面が表示される。

音声認識が終了すると、認識結果が音声認識装置６から音声認識アプレット５２に返され（ステップＳ６）、さらに、音声認識アプレット５２からウェブブラウザ５１に返される（ステップＳ７）。音声認識結果がウェブブラウザ５１に返されると、音声認識アプレット５２は終了される。

ウェブブラウザ５１は、音声認識結果を取得すると、この音声認識結果をコンテンツサーバ５に送る（ステップＳ８）。コンテンツサーバ５では、認識結果が解析され、その結果に応じたページが作成される。この結果のページがウェブブラウザ５１に送られ（ステップＳ９）、画面上に表示される。

図９は、音声入力で電車の路線検索のウェブサービスを行う場合の例を示している。音声入力で電車の路線検索のウェブサービスを行うコンテンツサーバ５からは、図９（Ａ）に示すようなウェブ画面が送られてくる。ここで、開始ボタンをクリックすると、音声認識アプレット５２が起動され、音声認識装置６がアクセスされる。その間、図９（Ｂ）に示すような準備画面が表示される。

準備画面が終了すると、図９（Ｃ）に示すような音声入力画面になり、ここでユーザが音声（出発駅名や到着駅名）を入力すると、図９（Ｄ）に示すような録音中の画面になる。そして、音声認識装置６に入力音声データが送られて、音声認識処理が行われる。その間、図９（Ｅ）に示すような分析中の画面になる。ここで、音声認識が誤認識になる場合には、図９（Ｆ）に示すように、誤認識原因検出表示が行われる。

音声認識が終了すると、音声認識装置６から認識結果が送られ、この音声認識結果のパラメータは、音声認識アプレット５２からウェブブラウザ５１に返される。認識結果が正しければ、図９（Ｇ）に示すように、認識結果に基づいて、出発駅名や到着駅名の項目が入力される。正しく認識できない場合には、図９（Ｈ）に示すように、認識できない旨の表示が行われる。また、誤認識の原因が判明している場合には、図９（Ｉ）に示すような認識結果が表示される。

以上説明したように、従来は音声認識するために音声認識サーバへ電話回線を通してアクセスしていたため、携帯端末からの利用の場合電波状況による性能劣化があったが、本発明の実施形態では、音声情報を端末組込型の音声認識エンジンもしくはＩＰパケット網を介して音声認識装置６に送信することにより、高性能な音声認識を実現可能である。

また、本発明の実施形態では、ウェブブラウザとは別に、ＩＶＲのような特別な装置を持つ必要がないため、低コストでシステムを構築可能である。

また、本発明の実施形態では、主コンテンツを記述するマークアップ言語とは別に、ＶｏｉｃｅＸＭＬのような異なる音声対話専用のマークアップ言語を必要としないため、音声認識コンテンツ開発期間の短縮が期待できる。

また、本発明の実施形態では、ウェブブラウザを改修しなくても、ウェブコンテンツから音声認識機能をシームレスに利用可能であるため、ユーザが音声認識機能をストレスなくかつ違和感なく利用可能である。

従来は携帯端末用アプリケーションから音声認識機能を利用可能であるが、音声認識対応のアプリケーションの作成のためには、音声認識に関する専門的な知識やノウハウの必要性とアプリケーションの開発のしきいの高さがネックとなり、音声認識サービスの拡大の支障となっていたが、本発明の実施形態では、ウェブコンテンツに容易な記述方法により音声認識機能を利用可能で、音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能であるため、音声認識コンテンツビジネスの展開、拡大が期待される。

本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

なお、ソースとなるウェブブラウザや音声認識アプレット等のプログラムは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

本発明の実施形態のシステム構成の説明に用いるブロック図である。本発明の実施形態の携帯端末の外観構成の説明に用いる正面図及び背面図である。本発明の実施形態の携帯端末の内部構成の説明に用いるブロック図である。本発明の実施形態の音声認識アプレットの説明に用いるブロック図である。本発明の実施形態の音声認識アプレットの記述の説明図である。本発明の実施形態の音声認識アプレットの記述の説明図である。本発明の実施形態の音声認識アプレットの動作説明に用いるブロック図である。本発明の実施形態の音声認識アプレットの動作説明に用いるシーケンス図である。本発明の実施形態の音声認識アプレットを利用したアプリケーションの説明図である。従来の音声認識システム一例の説明に用いるブロック図である。従来の音声認識システム他の例の説明に用いるブロック図である。

符号の説明

１携帯端末
２基地局
３電話回線網
４ネットワーク網
５コンテンツサーバ
６音声認識装置
５１ウェブブラウザ
５２音声認識アプレット

Claims

ウェブ上から音声認識機能を動作させるための携帯端末の音声認識装置において、
ウェブページを閲覧するためのブラウザ手段と、
前記ブラウザ手段に組み込まれ、前記ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、
を備えることを特徴とする携帯端末の音声認識装置。
前記音声認識アプレット手段は、前記ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果を前記ウェブブラウザ手段に返す処理を行うことを特徴とする請求項１に記載の携帯端末の音声認識装置。
ウェブ上から音声認識機能を動作させるための携帯端末の音声認識方法において、
ブラウザ手段に組み込まれる音声認識アプレット手段を用意しておき、
前記ブラウザ手段から前記音声認識アプレットが呼び出されると、入力された音声の認識を行わせることを特徴とする携帯端末の音声認識方法。
ブラウザ手段に組み込まれ、ウェブ上から音声認識機能を動作させるためのアプレット形式の携帯端末の音声認識プログラムであって、
前記ブラウザ手段から呼び出されると、入力された音声データの音声認識を行わせるステップと、認識結果を前記ウェブブラウザ手段に返すステップとを有することを特徴とする携帯端末の音声認識プログラム。
前記音声認識プログラムは、対話形式は主コンテンツの記述により規定し、音声認識実行箇所に拡張されたタグを埋め込むことを特徴とする請求項４に記載の携帯端末の音声認識プログラム。
前記音声認識プログラムは、１発声毎に拡張されたタグを用いて記述する特徴とする請求項４に記載の携帯端末の音声認識プログラム。
前記音声認識プログラムは、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むことを特徴とする請求項４に記載の音声認識プログラム。
前記音声認識プログラムは、更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合、音声認識を実行するタグを記述する際に、タスク名と同様に指定することを特徴とする請求項４に記載の音声認識プログラム。