JP2009244432A - 携帯端末の音声認識装置、方法、プログラム - Google Patents
携帯端末の音声認識装置、方法、プログラム Download PDFInfo
- Publication number
- JP2009244432A JP2009244432A JP2008088907A JP2008088907A JP2009244432A JP 2009244432 A JP2009244432 A JP 2009244432A JP 2008088907 A JP2008088907 A JP 2008088907A JP 2008088907 A JP2008088907 A JP 2008088907A JP 2009244432 A JP2009244432 A JP 2009244432A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- voice
- applet
- web
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ウェブページ上から音声認識機能を簡単に実現できるようにした携帯端末の音声認識装置、方法、プログラムを提供する。
【解決手段】ウェブブラウザ51に、音声認識アプレット52が組み込まれ、あるいは連携して動作する。音声認識アプレット52は、ウェブブラウザ51から呼び出され、入力された音声データを音声認識装置6に送信して音声認識を行わせ、認識結果を音声認識装置6から受信し、ウェブブラウザ51に返す処理を行うモジュールである。音声認識アプレット52を記述するフォーマットは、1回の音声認識単位を記述することにより、単一のタグで拡張可能である。対話形式のウェブコンテンツの記述と同一のマークアップ言語で定義する。音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能である。
【選択図】図7
【解決手段】ウェブブラウザ51に、音声認識アプレット52が組み込まれ、あるいは連携して動作する。音声認識アプレット52は、ウェブブラウザ51から呼び出され、入力された音声データを音声認識装置6に送信して音声認識を行わせ、認識結果を音声認識装置6から受信し、ウェブブラウザ51に返す処理を行うモジュールである。音声認識アプレット52を記述するフォーマットは、1回の音声認識単位を記述することにより、単一のタグで拡張可能である。対話形式のウェブコンテンツの記述と同一のマークアップ言語で定義する。音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能である。
【選択図】図7
Description
本発明は、特に、ウェブページ上から直接音声認識機能を利用できるようにした携帯端末の音声認識装置、方法、プログラムに関する。
近年の飛躍的な技術進歩により、携帯端末から利用可能な音声認識機能が提供されるようになってきている。従来の携帯端末から利用可能な音声認識は、(a)音声応答システム(IVR:Interactive
Voice Response)への電話回線によるアクセス、(b)ウェブコンテンツからコンテンツから電話発信で音声応答システム(IVR)へのアクセス、(c)携帯端末用アプリケーションによる音声認識装置へのアクセスの3つの種類に大別される。
Voice Response)への電話回線によるアクセス、(b)ウェブコンテンツからコンテンツから電話発信で音声応答システム(IVR)へのアクセス、(c)携帯端末用アプリケーションによる音声認識装置へのアクセスの3つの種類に大別される。
(a)の音声応答システム(IVR)への電話回線によるアクセスは、図10に示すように、携帯端末101を電話回線網(PSTN:Public
Switched Telephone Network)102で音声応答システム103に接続して、音声認識を行わせるものである。音声応答システム103には、データベースサーバ104と音声認識サーバ105とが設けられる。携帯端末101で電話回線網102を使って音声応答システム103に接続すると、音声応答システム103から携帯端末101に、ガイダンスが音声で送られてくる。このガイダンスに応答して、携帯端末101に音声を入力すると、この音声が電話回線網102を介して音声応答システム103に送られ、音声認識が行われる。これに応じて、各種のガイダンス出力が音声応答システムから返される(例えば、特許文献1参照。)。
Switched Telephone Network)102で音声応答システム103に接続して、音声認識を行わせるものである。音声応答システム103には、データベースサーバ104と音声認識サーバ105とが設けられる。携帯端末101で電話回線網102を使って音声応答システム103に接続すると、音声応答システム103から携帯端末101に、ガイダンスが音声で送られてくる。このガイダンスに応答して、携帯端末101に音声を入力すると、この音声が電話回線網102を介して音声応答システム103に送られ、音声認識が行われる。これに応じて、各種のガイダンス出力が音声応答システムから返される(例えば、特許文献1参照。)。
(b)のウェブコンテンツからコンテンツから電話発信で音声応答システム(IVR)へのアクセスは、ウェブコンテンツから、PhoneToのタグにより、音声応答システムに電話回線でアクセスするものである。つまり、図11に示すように、携帯端末101のウェブブラウザで、ネットワーク網110を介して、コンテンツサーバ111にアクセスし、ウェブページを表示する。ウェブページに、PhoneToのタグが含まれている場合、このタグが選択されると、音声応答システム103に電話回線網102によるアクセスが行われる。携帯端末101で電話回線網102を使って音声応答システム103に接続すると、音声応答システム103から携帯端末101に、ガイダンスが音声で送られてくる。このガイダンスに応答して、携帯端末101に音声を入力すると、この音声が電話回線網102を介して音声応答システム103に送られ、音声認識が行われる。ここで、音声応答システム103とコンテンツサーバ111とを、端末ID情報や認証登録情報を共有する連携データベース104により連携させておくことで、ウェブとの連携サービスが行える(例えば、非特許文献1参照。)。
(c)の携帯端末用アプリケーションによる音声認識装置へのアクセスは、BREW(登録商標)、Java(登録商標)などの携帯端末用アプリケーションを使って、ネットワーク網の音声認識装置をアクセスして、音声認識を行うものである。
特開2004−297595号公報
インターネット<URL:http;www.iin.jp/PDF/020904.pdf>
しかしながら、図10に示した音声応答システム(IVR)の電話回線によるアクセスでは、基本的には電話回線網102を用いた音声ポータルシステムとして提供されているもので、音声によるインタフェースしか利用しないため、ウェブコンテンツとの親和性がない。また、電波環境等により音質が劣化すると、この音質劣化が音声認識に直接影響を与える。
図11に示したウェブコンテンツからコンテンツから電話発信で音声応答システムへのアクセスを行うものも、上述と同様に、電話回線網102によるアクセスであるから、ウェブコンテンツとの親和性がない。また、ウェブコンテンツからアクセスできるように拡張したものであるが、ウェブコンテンツはネットワーク網110を介して接続されるのに対してIVRは電話回線網102を介して提供されるため、音声認識中には電話回線に切替が発生し、使用感が良くない。
携帯端末用アプリケーションによる音声認識装置へのアクセスでは、BREW(登録商標)やJava(登録商標)などで携帯端末用アプリケーションを開発して、実装する必要がある。しかしながら、音声認識機能をアプリケーションに実装するためには専門的な知識やノウハウが必要であり、また開発者にとってアプリケーションとして開発することに対する敷居が高く、音声認識サービスの展開の支障となると思われる。
そこで、本発明は、上述の課題を鑑みてなされたものであり、ウェブページ上から音声認識機能を簡単に実現できるようにした携帯端末の音声認識装置、方法、プログラムを提供することを目的とする。
本発明は、上述の課題を鑑みて、以下の事項を提案している。
(1)本発明は、ウェブ上から音声認識機能を動作させるための携帯端末の音声認識装置において、ウェブページを閲覧するためのブラウザ手段と、ブラウザ手段に組み込まれ、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段とを備えることを特徴とする携帯端末の音声認識装置を提案している。
本発明によれば、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、を備えることで、ウェブページ上から音声認識機能を行うウェブアプリケーションを簡単に実現できる。
(2)本発明は、(1)の音声認識装置において、音声認識アプレット手段は、ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果をウェブブラウザ手段に返す処理を行うことを特徴とする音声認識装置を提案している。
本発明によれば、音声認識アプレット手段は、ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果をウェブブラウザ手段に返す処理を行うようにすることで、ハードウェアの依存性をなくし、音声認識機能をアプリケーションに簡単に実装できる。
(3)本発明は、ウェブ上から音声認識機能を動作させるための携帯端末の音声認識方法において、ブラウザ手段に組み込まれる音声認識アプレット手段を用意しておき、ブラウザ手段から音声認識アプレットが呼び出されると、入力された音声の認識を行わせることを特徴とする携帯端末の音声認識方法を提案している。
本発明によれば、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、を備えることで、ハードウェアの依存性をなくし、ウェブページ上から音声認識機能を行うウェブアプリケーションを簡単に実現できる。
(4)本発明は、ブラウザ手段に組み込まれ、ウェブ上から音声認識機能を動作させるためのアプレット形式の携帯端末の音声認識プログラムであって、ブラウザ手段から呼び出されると、入力された音声データの音声認識を行わせるステップと、認識結果をウェブブラウザ手段に返すステップとを有することを特徴とする携帯端末の音声認識プログラムを提案している。
本発明によれば、ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、を備えることで、ハードウェアの依存性をなくし、ウェブページ上から音声認識機能を行うウェブアプリケーションを簡単に実現できる。
(5)本発明は、(4)の携帯端末の音声認識プログラムについて、音声認識プログラムは、対話形式は主コンテンツの記述により規定し、音声認識実行箇所に拡張されたタグを埋め込むことを特徴とする携帯端末の音声認識プログラムを提案している。
本発明によれば、音声認識実行箇所に拡張されたタグを埋め込むことで、音声認識プログラムを簡単に作成できる。
(6)本発明は、(4)の携帯端末の音声認識プログラムについて、音声認識プログラムは、1発声毎に拡張されたタグを用いて記述する特徴とする携帯端末の音声認識プログラムを提案している。
本発明によれば、1発声毎に音声認識単位を記述することにより、単一のタグで拡張可能である。
(7)本発明は、(4)の携帯端末の音声認識プログラムについて、音声認識プログラムは、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むことを特徴とする携帯端末の音声認識プログラムを提案している。
本発明によれば、パラメータ名とその設定値を記述した設定ファイルを用意することで、デフォルト値と異なるパラメータを設定できる。
(8)本発明は、(4)の携帯端末の音声認識プログラムについて、音声認識プログラムは、更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合、音声認識を実行するタグを記述する際に、タスク名と同様に指定することを特徴とする携帯端末の音声認識プログラムを提案している。
本発明によれば、音声認識を実行するタグを記述する際に、タスク名と同様に指定することで、タスク毎にパラメータの設定値を変更することができる。
本発明によれば、ウェブブラウザに組み込まれる音声認識アプレットが用意されているので、ウェブコンテンツに容易な記述方法により音声認識機能を利用可能で、音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能であり、音声認識コンテンツ開発期間の短縮が期待できる。また、音声情報をIPパケット網を介して送信することにより、高性能な音声認識を実現可能である。また、ウェブブラウザとは別に、IVRのような特別な装置を持つ必要がないため、低コストでシステムを構築可能である。
以下、本発明の実施の形態について図面を参照しながら説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組合せを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
図1は、本発明の実施形態のシステム構成を示すものである。
図1において、1は携帯端末、2は基地局である。携帯端末1は、基地局2を介して、公衆電話回線網(PSTN:Public Switched
Telephone Network)3及びネットワーク網4に接続可能とされている。ネットワーク網4は、IP(Internet Protocol)ネットワーク網であり、例えばWAP(Wireless
Application Protocol)によりインターネット閲覧サービスを可能としている。
図1において、1は携帯端末、2は基地局である。携帯端末1は、基地局2を介して、公衆電話回線網(PSTN:Public Switched
Telephone Network)3及びネットワーク網4に接続可能とされている。ネットワーク網4は、IP(Internet Protocol)ネットワーク網であり、例えばWAP(Wireless
Application Protocol)によりインターネット閲覧サービスを可能としている。
ネットワーク網4には、各種のコンテンツサーバ5が設けられていると共に、音声認識装置6が設けられる。音声認識装置6は、図7のように、ネットワーク網4を介して、アクセスする音声認識サーバ(サーバ/クライント型)や、携帯端末に組み込まれた音声認識エンジン(スタンドアロン型)等の形態を制限するものではない。携帯端末1は、基地局2を介して電話回線網3に発呼して、固定電話や携帯電話との音声通話を行うことができる。また、携帯端末1は、基地局2を介してネットワーク網4と接続することで、ウェブコンテンツを表示させたり、メールの送受信をしたり等のサービスを受けることができる。
図2は、本発明が適用できる携帯端末1の外観構成を示すものである。
この例では、携帯端末1は折り畳み自在の構造となっており、図2(A)は、携帯端末1の内側となる部分の各部の配置を示し、図2(B)は、外側となる各部の配置を示すものである。
この例では、携帯端末1は折り畳み自在の構造となっており、図2(A)は、携帯端末1の内側となる部分の各部の配置を示し、図2(B)は、外側となる各部の配置を示すものである。
図2(A)に示すように、携帯端末1の内側となる部分の下端には、マイクロホン11が配置される。携帯端末1の内側となる部分の上端には、スピーカ12が配置される。
また、携帯端末1の内側となる部分の上方には、液晶ディスプレイ13が配置される。液晶ディスプレイ13には、各種の文字や画像が表示される。すなわち、電話利用時には、液晶ディスプレイ13に、着信や送信の電話番号や住所録が表示される。
また、インターネットを利用時には、液晶ディスプレイ13に、インターネットのウェブ画面や、送受信メールが表示される。また、カメラ撮影時には、液晶ディスプレイ13がビューファインダとして用いられる他、撮影したカメラ画像が液晶ディスプレイ13に表示される。
携帯端末1の内側となる部分の下方には、テンキー(*キーや#キーを含む)14、カーソルキー15、決定キー16、発着信キー17a、17b等が配置される。テンキー14は、電話番号の入力、メールや電話帳作成時の文字入力等に用いられる。
カーソルキー15は、液晶ディスプレイ13に表示されるカーソルを移動させて、各種の選択入力等を行うのに用いられる。決定キー16は、選択実行を行うのに用いられる。発着信キー17a、17bは、電話回線での発着信を行うのに用いられる。
携帯端末1の外側には、図2(B)に示すように、カメラ部18が配置される。カメラ部18は、静止画やビデオ撮影に利用される他、二次元バーコードの入力等に利用される。
図3は、本発明の第1の実施形態の携帯端末1の主要部の内部構成を示すものである。図3において、主制御部21は、CPU(Central
Processing Unit)等からなり、携帯電話端末の全体の動作の制御を行っている。
Processing Unit)等からなり、携帯電話端末の全体の動作の制御を行っている。
プロラムメモリ22には、ブートプログラム、基本プログラム、インターネットのブラウザ、メーラ、カメラ制御、GPS制御、電子マネー制御等、各種のアプリケーションプログラムが保存されている。また、本発明に第1の実施形態では、ウェブブラウザのアプリケーションと共に、音声認識のためのアプレットが実装されている。
メモリ23には、各種のプリセットデータ、電話帳データ、メールのデータ、電話履歴、位置履歴、行動履歴、写真情報等、各種のデータが記憶される。
大容量メモリ24は、フラッシュメモリ等からなり、GPSナビゲーションに使う地図情報等や動画情報等が記憶される。
操作部27は、ユーザからの入力操作が行われる。操作部27には、テンキー14や、カーソルキー15、決定キー16、発着信キー17a、17b等が含まれる。
近距離通信部28は、他の周辺機器との無線で接続してデータの送受信を行うものである。通信方式としては、例えば、Bluetooth(登録商標)が用いられる。
表示部29は、液晶ディスプレイ13からなり、表示部29は、各種の文字や画像の表示に用いられる。表示処理部30は、表示部29の表示制御を行っている。
音響処理部36は、入力音声信号や出力音声信号の処理を行っている。音響処理部36に対して、マイクロホン11及びスピーカ12が設けられる。
無線部33は、基地局との間で、電波の送受信を行うものである。通信方式としては、どのような通信方式を用いても良い。通信制御部34は、基地局との間で通信する信号の制御を行っている。
カメラ部18は、カメラ撮影を行うものである。カメラ部18には、レンズ等の光学系37と、CCD(Charge Coupled Device)等のイメージセンサからなる撮像部38とが含まれる。カメラ部18に対して、イメージセンサの撮像信号を処理する映像信号処理部39が設けられる。
GPS機能部41は、複数の衛星からの電波を受信して、現在地を即位するものである。RFIDリーダ42は、電子マネー等を利用する場合に、近距離通信を行うものである。
次に、本発明の実施形態における音声認識処理について説明する。
本発明の実施形態の携帯端末1では、図4に示すように、ウェブページを閲覧するために、ウェブブラウザ51が実装されている。なお、音声認識アプレット52は、ウェブブラウザ51に組み込まれた組込型でもよいし、ウェブブラウザ51と連携して動作する連携型でもよい。音声認識アプレット52は、ウェブブラウザ51から呼び出され、入力された音声データを音声認識サーバ6に送信して音声認識を行わせ、認識結果を音声認識サーバ6から受信し、ウェブブラウザ51に返す処理を行うモジュールである。
本発明の実施形態の携帯端末1では、図4に示すように、ウェブページを閲覧するために、ウェブブラウザ51が実装されている。なお、音声認識アプレット52は、ウェブブラウザ51に組み込まれた組込型でもよいし、ウェブブラウザ51と連携して動作する連携型でもよい。音声認識アプレット52は、ウェブブラウザ51から呼び出され、入力された音声データを音声認識サーバ6に送信して音声認識を行わせ、認識結果を音声認識サーバ6から受信し、ウェブブラウザ51に返す処理を行うモジュールである。
なお、ここでは、音声認識アプレット52は、入力された音声データを音声認識装置6に送信して音声認識を行わせ、認識結果を音声認識装置6から受信し、ウェブブラウザ51に返す処理を行うモジュールとしているが、携帯端末1の内部に音声認識機能を備えている場合には、音声データを内部の音声認識機能で音声認識を行わせ、内部の音声認識機能での認識結果をウェブブラウザ51に返す処理を行うモジュールとしても良い。
要は、音声認識アプレット52は、ウェブブラウザ51側に組み込まれ、ウェブブラウザ51側から呼び出されると、音声を入力して音声認識結果を返すモジュールで、その内部はカプセル化され、システムやハードウェアに依存しないようにしておけば良い。
音声認識アプレット52を記述するフォーマットは、VoiceXMLのような対話形式で記述するのではなく、1回の音声認識単位を記述することにより、単一のタグで拡張可能である。対話形式のウェブコンテンツの記述と同一のマークアップ言語で定義する。
図5は、コンテンツを記述するマークアップ言語の中で使用する音声認識アプレット52を記述するタグが示されている。ここでは、XHTMLやHDMLのようなマークアップ言語を使用する例が示されている。
拡張タグの使用は、ウェブブラウザ51から携帯端末用アプリケーションとの連携する際のしくみであり、音声認識起動のための拡張タグを規定する。認識する内容(以降「タスク」と称す)を識別する名称(以降「タスク名」と称す)をパラメータとして指定する。
通常は、音声認識に関するパラメータは、特に指定しない限りデフォルト値を設定するが、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合(認識結果に応じて表示するURL等)、図6に示すように、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むようにする。
更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合(例えば音声認識実行中に表示する文言、発声例等)、音声認識を実行するタグを記述する際に、図5に示すように、タスク名と同様に指定するようにする。
図7は、音声認識アプレット52を使用してウェブブラウザ51上から音声認識を行う場合を示している。図7に示すように、ウェブブラウザ51により、コンテンツサーバ5をアクセスし、そして、携帯端末のウェブブラウザ51により、このウェブページ中の音声認識の入力項目が選択されたとする。
コンテンツサーバ5のウェブページ中の音声認識の入力項目が選択されると、ウェブブラウザ51から音声認識アプレット52が起動される。音声認識アプレット52が起動されると、入力された音声データが音声認識装置6に送信され、音声認識装置6で音声認識が行われ、認識結果が音声認識装置6から受信される。
そして、この認識結果は、音声認識アプレット52からウェブブラウザ51に返され、コンテンツサーバ5に送られる。これにより、コンテンツサーバ5では、音声認識結果に応じた処理が行われることになる。
このように、本発明の実施形態では、ウェブブラウザ51上に音声認識アプレット52が組み込まれており、この音声認識アプレット52をウェブブラウザ51から起動するようにしている。音声認識アプレット52は、発声単位の音声認識処理を行うために必要最小限の機能より構成される音声認識アプレットとして実装され、カプセル化され、全ての音声認識コンテンツ間で共有するモジュールとされている。音声認識アプレット52は、音声認識機能に特化した携帯端末用アプリケーションであり、マイクロホンからの音声入力等のウェブコンテンツから直接操作できないローカルデバイスの操作が可能である。これは次のようなメリットが挙げられる。
(1)音声認識アプレット52を音声認識ベンダより提供することで、コンテンツ作成者は新たに音声認識機能を開発する必要がない。
(2)コンテンツの種類、認識する内容、対話形式が異なる場合でも、音声認識アプレット52を組み込むことにより、容易に音声認識コンテンツを作成可能である。
(3)認識結果に応じた音声対応のシナリオをVoiceXMLのような異なるマークアップ言語を用いて規定する必要がない。
また、音声認識アプレット52からIPパケット網を介して音声認識サーバ6にアクセスする場合に、PPP(Point−to−Point Protocol)の切替が発生しないように、スムーズに音声認識サーバとの通信処理に移行することが可能である。
音声認識実行中も、ユーザに違和感を生じさせないよう、コンテンツとの一体感を持たせるために、端末画面上に進捗状況等が表示可能である。例えば、発声するタイミングや発声例、録音中のインジケータがこれに該当する。音声認識終了後、ウェブブラウザ51に復帰する際も、PPPの切替なくスムーズに移行し、取得した認識結果もしくは認識結果に応じて作成したページの画面を再描画するためのしくみを有する。画面を再描画するしくみは、以下の方法に該当する。
(1)認識結果をURLの引数としてHTTPのPOST機能により、音声認識起動時のコンテンツ画面を全面的に書換え。
(2)ウェブブラウザ51のプラグイン機能を利用し、音声認識起動時のコンテンツの一部画面の書換え(テキストボックスへの認識結果の挿入等.)。
以上のしくみにより、携帯端末におけるキー入力の代替手段として、音声入力が可能なマルチモーダルな入力手段をもち、ウェブベースの音声認識コンテンツを容易に作成することが可能である。
図8は、本発明の実施形態の処理を示すシーケンス図である。
図8において、コンテンツサーバ5が音声認識のタグを含む音声認識のウェブページを送信し(ステップS1)、音声認識の開始画面をユーザが選択すると(ステップS2)、このユーザ選択がウェブブラウザ51に送られ、ウェブブラウザ51から、音声認識アプレット52が起動される(ステップS3)。
図8において、コンテンツサーバ5が音声認識のタグを含む音声認識のウェブページを送信し(ステップS1)、音声認識の開始画面をユーザが選択すると(ステップS2)、このユーザ選択がウェブブラウザ51に送られ、ウェブブラウザ51から、音声認識アプレット52が起動される(ステップS3)。
音声認識アプレット52が起動されると、音声認識装置6がアクセスされ(ステップS4)、音声認識装置6に入力音声データが送られて、音声認識処理が行われる(ステップS5)。この音声認識中には、録音中の画面が表示される。
音声認識が終了すると、認識結果が音声認識装置6から音声認識アプレット52に返され(ステップS6)、さらに、音声認識アプレット52からウェブブラウザ51に返される(ステップS7)。音声認識結果がウェブブラウザ51に返されると、音声認識アプレット52は終了される。
ウェブブラウザ51は、音声認識結果を取得すると、この音声認識結果をコンテンツサーバ5に送る(ステップS8)。コンテンツサーバ5では、認識結果が解析され、その結果に応じたページが作成される。この結果のページがウェブブラウザ51に送られ(ステップS9)、画面上に表示される。
図9は、音声入力で電車の路線検索のウェブサービスを行う場合の例を示している。音声入力で電車の路線検索のウェブサービスを行うコンテンツサーバ5からは、図9(A)に示すようなウェブ画面が送られてくる。ここで、開始ボタンをクリックすると、音声認識アプレット52が起動され、音声認識装置6がアクセスされる。その間、図9(B)に示すような準備画面が表示される。
準備画面が終了すると、図9(C)に示すような音声入力画面になり、ここでユーザが音声(出発駅名や到着駅名)を入力すると、図9(D)に示すような録音中の画面になる。そして、音声認識装置6に入力音声データが送られて、音声認識処理が行われる。その間、図9(E)に示すような分析中の画面になる。ここで、音声認識が誤認識になる場合には、図9(F)に示すように、誤認識原因検出表示が行われる。
音声認識が終了すると、音声認識装置6から認識結果が送られ、この音声認識結果のパラメータは、音声認識アプレット52からウェブブラウザ51に返される。認識結果が正しければ、図9(G)に示すように、認識結果に基づいて、出発駅名や到着駅名の項目が入力される。正しく認識できない場合には、図9(H)に示すように、認識できない旨の表示が行われる。また、誤認識の原因が判明している場合には、図9(I)に示すような認識結果が表示される。
以上説明したように、従来は音声認識するために音声認識サーバへ電話回線を通してアクセスしていたため、携帯端末からの利用の場合電波状況による性能劣化があったが、本発明の実施形態では、音声情報を端末組込型の音声認識エンジンもしくはIPパケット網を介して音声認識装置6に送信することにより、高性能な音声認識を実現可能である。
また、本発明の実施形態では、ウェブブラウザとは別に、IVRのような特別な装置を持つ必要がないため、低コストでシステムを構築可能である。
また、本発明の実施形態では、主コンテンツを記述するマークアップ言語とは別に、VoiceXMLのような異なる音声対話専用のマークアップ言語を必要としないため、音声認識コンテンツ開発期間の短縮が期待できる。
また、本発明の実施形態では、ウェブブラウザを改修しなくても、ウェブコンテンツから音声認識機能をシームレスに利用可能であるため、ユーザが音声認識機能をストレスなくかつ違和感なく利用可能である。
従来は携帯端末用アプリケーションから音声認識機能を利用可能であるが、音声認識対応のアプリケーションの作成のためには、音声認識に関する専門的な知識やノウハウの必要性とアプリケーションの開発のしきいの高さがネックとなり、音声認識サービスの拡大の支障となっていたが、本発明の実施形態では、ウェブコンテンツに容易な記述方法により音声認識機能を利用可能で、音声認識に関する専門的な知識やノウハウを必要としないで音声認識コンテンツを作成可能であるため、音声認識コンテンツビジネスの展開、拡大が期待される。
本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
なお、ソースとなるウェブブラウザや音声認識アプレット等のプログラムは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体等のコンピュータ読み取り可能な記録媒体で提供される。また、ソースとなるプログラムは、コンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。
ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、ソースとなるプログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1 携帯端末
2 基地局
3 電話回線網
4 ネットワーク網
5 コンテンツサーバ
6 音声認識装置
51 ウェブブラウザ
52 音声認識アプレット
2 基地局
3 電話回線網
4 ネットワーク網
5 コンテンツサーバ
6 音声認識装置
51 ウェブブラウザ
52 音声認識アプレット
Claims (8)
- ウェブ上から音声認識機能を動作させるための携帯端末の音声認識装置において、
ウェブページを閲覧するためのブラウザ手段と、
前記ブラウザ手段に組み込まれ、前記ブラウザ手段から呼び出されて音声認識を行う音声認識アプレット手段と、
を備えることを特徴とする携帯端末の音声認識装置。 - 前記音声認識アプレット手段は、前記ウェブブラウザ手段から呼び出され、入力された音声データの音声認識を行わせ、認識結果を前記ウェブブラウザ手段に返す処理を行うことを特徴とする請求項1に記載の携帯端末の音声認識装置。
- ウェブ上から音声認識機能を動作させるための携帯端末の音声認識方法において、
ブラウザ手段に組み込まれる音声認識アプレット手段を用意しておき、
前記ブラウザ手段から前記音声認識アプレットが呼び出されると、入力された音声の認識を行わせることを特徴とする携帯端末の音声認識方法。 - ブラウザ手段に組み込まれ、ウェブ上から音声認識機能を動作させるためのアプレット形式の携帯端末の音声認識プログラムであって、
前記ブラウザ手段から呼び出されると、入力された音声データの音声認識を行わせるステップと、認識結果を前記ウェブブラウザ手段に返すステップとを有することを特徴とする携帯端末の音声認識プログラム。 - 前記音声認識プログラムは、対話形式は主コンテンツの記述により規定し、音声認識実行箇所に拡張されたタグを埋め込むことを特徴とする請求項4に記載の携帯端末の音声認識プログラム。
- 前記音声認識プログラムは、1発声毎に拡張されたタグを用いて記述する特徴とする請求項4に記載の携帯端末の音声認識プログラム。
- 前記音声認識プログラムは、デフォルト値とは異なるコンテンツ依存のパラメータの設定が必要な場合、パラメータ名とその設定値を記述した設定ファイルを用意し、音声認識実行時に設定ファイルを読み込むことを特徴とする請求項4に記載の音声認識プログラム。
- 前記音声認識プログラムは、更に同一コンテンツ内で複数の音声認識のタスクを実行し、タスク毎にパラメータの設定値を変更する必要がある場合、音声認識を実行するタグを記述する際に、タスク名と同様に指定することを特徴とする請求項4に記載の音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008088907A JP2009244432A (ja) | 2008-03-29 | 2008-03-29 | 携帯端末の音声認識装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008088907A JP2009244432A (ja) | 2008-03-29 | 2008-03-29 | 携帯端末の音声認識装置、方法、プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009244432A true JP2009244432A (ja) | 2009-10-22 |
Family
ID=41306415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008088907A Pending JP2009244432A (ja) | 2008-03-29 | 2008-03-29 | 携帯端末の音声認識装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009244432A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10305993B2 (en) | 2013-03-22 | 2019-05-28 | Casio Computer Co., Ltd. | Terminal control system, method for controlling terminal, and electronic device |
JP2020136993A (ja) * | 2019-02-22 | 2020-08-31 | Necプラットフォームズ株式会社 | 設定装置、設定方法及び設定プログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
JP2001255885A (ja) * | 2000-03-13 | 2001-09-21 | Oki Electric Ind Co Ltd | 音声ブラウザシステム |
JP2002023996A (ja) * | 2000-07-04 | 2002-01-25 | Advanced Media Inc | 音声対応スクリプト動作装置 |
JP2003323190A (ja) * | 2002-05-02 | 2003-11-14 | Advanced Media Inc | ホームページシステム |
WO2007069512A1 (ja) * | 2005-12-15 | 2007-06-21 | Sharp Kabushiki Kaisha | 情報処理装置及びプログラム |
JP2009520224A (ja) * | 2005-12-20 | 2009-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声アプリケーションを処理する方法、サーバー、クライアント装置、コンピュータ読み取り可能な記録媒体(マークアップを介する音声アプリケーションの処理の共有) |
-
2008
- 2008-03-29 JP JP2008088907A patent/JP2009244432A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10222342A (ja) * | 1997-02-06 | 1998-08-21 | Nippon Telegr & Teleph Corp <Ntt> | ハイパーテキスト音声制御方法及び装置 |
JP2001255885A (ja) * | 2000-03-13 | 2001-09-21 | Oki Electric Ind Co Ltd | 音声ブラウザシステム |
JP2002023996A (ja) * | 2000-07-04 | 2002-01-25 | Advanced Media Inc | 音声対応スクリプト動作装置 |
JP2003323190A (ja) * | 2002-05-02 | 2003-11-14 | Advanced Media Inc | ホームページシステム |
WO2007069512A1 (ja) * | 2005-12-15 | 2007-06-21 | Sharp Kabushiki Kaisha | 情報処理装置及びプログラム |
JP2009520224A (ja) * | 2005-12-20 | 2009-05-21 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声アプリケーションを処理する方法、サーバー、クライアント装置、コンピュータ読み取り可能な記録媒体(マークアップを介する音声アプリケーションの処理の共有) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10305993B2 (en) | 2013-03-22 | 2019-05-28 | Casio Computer Co., Ltd. | Terminal control system, method for controlling terminal, and electronic device |
JP2020136993A (ja) * | 2019-02-22 | 2020-08-31 | Necプラットフォームズ株式会社 | 設定装置、設定方法及び設定プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7158779B2 (en) | Sequential multimodal input | |
EP1898616B1 (en) | Mobile communication terminal, information acquisition method, and information acquisition program | |
KR101633824B1 (ko) | 배경 화면 설정 방법 및 이를 이용한 휴대 단말기 | |
JP5283947B2 (ja) | 携帯端末の音声認識装置、音声認識方法、音声認識プログラム | |
WO2005083579A1 (ja) | 所定のアクセス方法でデータ送信を行なうことのできるデータ処理装置 | |
US9386138B2 (en) | Mobile terminal device, operation procedure communication system, and operation communication method | |
JP2009244432A (ja) | 携帯端末の音声認識装置、方法、プログラム | |
JP4722010B2 (ja) | 情報処理装置、情報処理方法、情報処理プログラム、および情報処理プログラムを記録したコンピュータ読取り可能な記録媒体 | |
JP4814753B2 (ja) | データ情報と音声情報とを結びつけるための方法及びシステム | |
JP4810917B2 (ja) | 電子機器における機能表示方法及び電子機器及びプログラム | |
CN112486617A (zh) | 密文数据处理架构、方法、装置及机器可读介质 | |
JP5173392B2 (ja) | コード生成プログラム、ゲーム機及び情報提供システム | |
JP2019135609A (ja) | 文字入力支援システム、文字入力支援制御装置、文字入力支援プログラム | |
JP4149898B2 (ja) | 移動体通信端末 | |
JP2012018148A (ja) | 位置情報提供装置、ナビゲーション装置、ナビゲーションシステム、及び、コンピュータプログラム | |
KR100596001B1 (ko) | 사용자 단말기에 소정의 콘텐츠를 제공하기 위한 방법 및그 시스템 | |
JP2009071579A (ja) | 放送受信装置 | |
JP2006318506A (ja) | データ処理装置、データ処理方法、データ処理プログラム、およびデータ処理プログラムを記録した記録媒体 | |
JP2019159333A (ja) | 文字入力支援システム、文字入力支援プログラム | |
KR20060096654A (ko) | 멀티모달 플랫폼을 이용한 모바일 서비스 시스템 및 그 방법 | |
CN117478653A (zh) | 图像数据传输方法、设备及协同工作系统 | |
JP2001318929A (ja) | 情報発信装置、情報受信装置、システム及び制御方法 | |
JP2015015623A (ja) | テレビ電話機、及び、プログラム | |
JP2021144353A (ja) | 音声処理装置、音声処理システム、音声処理方法およびプログラム | |
CN117499445A (zh) | 协同工作系统、方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111214 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120410 |