JP7319639B1

JP7319639B1 - 音声入力システム及びそのプログラム

Info

Publication number: JP7319639B1
Application number: JP2022133164A
Authority: JP
Inventors: 清阿部
Original assignee: ダイレクトソリューションズ株式会社
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-08-02
Anticipated expiration: 2042-08-24
Also published as: JP2024030340A

Abstract

【課題】Ｗｅｂの入力ページ等での個人情報等の入力に誤りが発生しないようにすることができる、音声入力システムを得ることを目的とする。【解決手段】ユーザの携帯端末１０と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバ５０と、テキスト情報を受信するＷｅｂサイトのサーバ５０とを通信ネットワークで接続した音声入力システムである。そして、携帯端末１０は、テキストを入力する画面をＷｅｂサイトのサーバから受信し表示部に表示する画面生成部２２と、押下することで音声入力を受け付ける音声入力要求部２４と、音声入力要求部２４を押下するタイミングで音声認識サービスサイトのサーバを起動させる音声テキスト化要求部２６と、変換されたテキスト情報を携帯端末で受信する受信部２９とを有する。【選択図】図１

Description

本発明は、音声入力システム及びそのプログラムに関する。

近年は、スマートフォン（高機能携帯端末ともいう）を用いて、様々なサイトにアクセスして、様々な取引ができるようになってきている。一方、お問い合わせフォーム、あるいは、ユーザ情報をＷＥＢ上で入力する際に、年齢等によりキーボード操作が苦手なユーザに対しても、テキストをフォームに手で挿入することが行われている場合がある。

特許文献１（特開２０１４－０８５９５４号公報）は、状況に応じて、ユーザにとって良好な入力操作が可能となる携帯端末装置を提供する。音声入力を受け付けるための音声入力部および音声認識部と、ジェスチャー入力（視線入力）を受け付けるための第１撮影部（第２撮影部）およびジェスチャー検出部（視線検出部）と、音声入力の受け付けが困難であることを示す切替条件が満たされたか否かを判定する判定部と、判定部により切替条件が満たされたと判定されたことに基づいて、音声入力を受け付ける音声入力モードからジェスチャー入力（視線入力）を受け付けるジェスチャー入力モード（視線入力モード）へ入力モードを切り替える切替制御部とを備えることが記載されている。

特許文献２（特開２００２－２４５３５４号公報）は、ホームページ閲覧者とのリアルタイムの問合せ対応が可能で、フォームへの入力をオペレータが代替可能なサポートコールセンターシステムの提供をする。インターネットを介してクライアントから商品等の問合せを受けたり、アフターサービスやクレーム処理を行ったりするために、これら処理を行うオペレータの端末を備えると共に、クライアントの端末にインターネットを介して接続可能とされたサポートコールセンターシステムである。商品案内等の画面を表示されたクライアント端末からの指示に基づき、クライアント端末とオペレータ端末とを双方向通信可能に接続し、クライアントとオペレータとの間で、音声、チャット又は画像等を交えたほぼリアルタイムのコミュニケーションを可能とする手段を備えることが記載されている。

さらに、特許文献３（特許第７１０８８０２号公報）は、商品やサービスの購入など、利用者が毎日行うような決済行動に基づいて適切な保険を提案することを解決するものであり、利用者の決済行動に基づいて適切な保険を提案することが開示されている。そして、電子決済に用いられるアプリケーションプログラム（以下、「電子決済アプリ」という）を利用した電子決済サービスと協働して利用者に保険を提案する装置である。

このアプリは、実現するための保険提案システムは、端末装置、複数の店舗端末、決済サーバ、保険提案サーバ、および保険受付サーバ等を通信ネットワークで接続して構成し、「決済方法１」では、端末装置が店舗に設置されたＱＲコード（登録商標）などのコード画像にエンコードされた店舗ＩＤ（識別情報、以下同様）などの情報を電子決済アプリの機能によって端末装置が読み取り、利用者が端末装置に料金を入力して店舗側の確認を経た上で確定操作することで、店舗ＩＤ、利用者ＩＤ、料金、日時などの情報が決済装置にアップロードされる。

特開２０１４－０８５９５４号公報特開２００２－２４５３５４号公報特許第７１０８８０２号公報

しかしながら、スマートフォンを用いてテキスト、数字等を入力する場合、所定の入力フォームに氏名、年齢等を手で入力しないといけない。

このため、入力誤りが発生しやすいし、かつ入力が手間である。特に保険契約、見積の段階での入力誤りは、保険代理店側では非常に問題である。

特に、お問い合わせフォーム、あるいは、ユーザ情報をＷＥＢ上で入力する際に、年齢的にキーボード操作が苦手なユーザに対して、弊害が大きい。

本願の発明は、以上の課題を解決するためになされたものであり、ＷＥＢの入力ページ等での個人情報等の入力に誤りが発生しないようにすることができる、音声入力システムを得ることを目的とする。

本発明は上述の課題に鑑みてなされたものであり、請求項１に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第１のサーバと、前記第１のサーバから前記テキスト情報を受信するＷｅｂサイトの第２のサーバとを通信ネットワークで接続した音声入力システムであって、前記携帯端末は、音声情報を入力するマイクと、前記第２のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を表示部に表示する画面生成部と、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を前記表示部に表示し、該第１の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第１のサーバを起動させる音声テキスト化要求部と、前記マイクを通して入力された音声情報に対して前記第１のサーバから変換されたテキスト情報を受信する受信部と、を有し、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を生成し、かつ、前記受信部が前記第１のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第２の確認画面を生成し、前記第２の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了すること特徴とする。

請求項２に係る発明は、音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えてもよい。

請求項３に係る発明は、前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるのケアする処理を行ってもよい。

請求項４に係る発明は、前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信してもよい。

請求項５に係る発明は、ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第１のサーバと、前記テキスト情報を受信するＷｅｂサイトの第２のサーバとを通信ネットワークで接続した音声入力システムであって、コンピュータを、音声情報を入力するマイクを備える前記携帯端末、前記第２のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を前記Ｗｅｂサイトのサーバから受信し表示部に表示する画面生成部、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を前記表示部に表示し、該第１の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第１のサーバを起動させる音声テキスト化要求部、前記マイクを通して入力された音声情報に対して前記第１のサーバから変換されたテキスト情報を受信する受信部として機能させ、かつ、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を生成し、かつ、前記受信部が前記第１のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第２の確認画面を生成し、前記第２の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了させることを特徴とする。

携帯端末を用いてテキスト入力する場合、所定の入力フォームに氏名、年齢等を音声を使用した簡単な操作で自動で入力可能である。

このため、入力誤りが発生せず、かつ入力の手間も省ける。例えば、保険契約、見積の段階での入力誤りを解消できる。

図面は、本発明の特定の実施の形態を示し、発明の不可欠な構成ばかりでなく、選択的及び好ましい実施の形態を含む。
本実施の形態の音声入力システムの概略構成図。本実施の形態の仕組みを説明する流れ図。本実施の形態の動作を説明するシーケンス図。本実施の形態の動作を説明するシーケンス図。本実施の形態の動作を説明するシーケンス図。音声入力画面を説明する説明図。音声入力画面を説明する説明図。音声入力画面を説明する説明図。音声入力画面を説明する説明図。音声入力障害発生画面を説明する説明図。

以下、本実施の形態について図面を参照して説明する。

以下に示す実施の形態は、発明の技術的思想を具体化するための装置や方法を例示したものであって、本発明の技術的思想は、下記のものに特定されるものではない。本発明の技術的思想は、特許請求の範囲に記載された事項の範囲内において、種々の変更を加えることができる。特に、図面は模式的なものであり、現実のものとは異なることに留意すべきである。既に公知の技術である部分は説明を省略している。

〔第１実施形態〕
本実施の形態では、例えば保険の契約として説明する。なお、その他の音声入力システムに応用できることは勿論である。

図１は本実施の形態の音声入力システム１の概略構成図である。この音声入力システム１は、ユーザの携帯端末（スマートフォン等）１０と、Ｗｅｂサイト（例えば、保険契約サイト等）のサーバ５０と、音声認識サービスサイトのサーバ７０（例えば、商品名：オラリス等）とを通信ネットワーク（例えば、インターネット）３０で接続して各種契約を音声認識で行うことを可能とする。ユーザの携帯端末（スマートフォン等）１０と、Ｗｅｂサイト（例えば、保険契約サイト等）のサーバ５０と、音声認識サービスサイトのサーバ７０（例えば、商品名：オラリス等）とはコンピュータよりなるもので、何れも不図示のＣＰＵ（Central Processing Unit）と、ＣＰＵ上で動作する制御プログラム等を格納したＲＯＭ（Read only Memory）と、各種データを一時的に格納するためのＲＡＭ（Random Memory）を備えて構成されている。

携帯端末（例えば、スマートフォン）１０は、音声入力サービス部２０である専用のアプリケーションソフトがダウンロードされている。

この専用のアプリケーションソフトは、テキストを入力する画面をＷｅｂサイト（例えば、保険契約サイト）のサーバ５０から受信し、表示部１０ａに表示する画面生成部２２と、押下（画面をタップ）することで音声入力を受け付ける音声入力要求部２４と、音声入力要求部２４を押下するタイミングで音声認識サービスサイトのサーバ７０を起動させる音声テキスト化要求部２６と、変換されたテキスト情報を携帯端末１０で受信する受信部２９とを有する。

前述の携帯端末１０には、音声入力サービス部２０が、専用アプリ提供サイト（不図示）からダウンロードされる。あるいは、販売企業例えばＷｅｂサイトのサーバ５０からダウンロードされてもよい。このダウンロードにはＱＲコード（登録商標）を用いるのが好ましい。

すなわち、ＱＲコード（登録商標）には、専用アプリ提供サイトあるいはＷｅｂサイトのサーバ５０のアドレス情報が含まれていて、ＱＲコード（登録商標）を携帯端末１０に備えられた撮像カメラにより撮像することにより、専用アプリ提供サイトあるいは、Ｗｅｂサイトのサーバ５０に自動でアクセスすることが出来るように構成されている。そして、音声入力サービス部２０としてのアプリをダウンロードする。

音声入力サービス部２０は、画面生成部（例えば、保険見積画面等）２２と、音声入力要求部２４と、音声テキスト化要求部２６と発声ガイド部２８と受信部２９等よりなる。画面生成部２２は、携帯端末１０の表示部１０ａに、例えば、保険見積画面等を表示する処理を行う。音声テキスト化要求部２６は、ユーザの指示を受けて、音声認識サービスサイトのサーバ７０にアクセスし、日本語音声認識処理部を実行可能状態にさせる。音声ガイド部２８は、音声のイントネーション、速さ及び大きさを解析して、ユーザに適正な音声をすることを指示する。受信部２９は、音声が変換されたテキスト情報を受信する。

発声ガイド部２８は詳しくは、音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、ユーザに発声状態にアドバイスする発声ガイド部２８を備えてもよい。

この発声ガイド部２８は、生年月日等の数字入力に特化するような項目である。音声入力の解読レベルを考慮して、例えば、「２０２０年」を入力して、エラーとならないように、二・千・二十を発生させて、エラーとなったかどうかでユーザに発声状態をアドバイスするような処理を行う。すなわち、音声をテキストに変換できない場合に発声のイントネーション等を携帯端末のスピーカから発声し、ユーザは、このイントネーションに従い「２０２０年」を発声することになる。

発声ガイド部２８は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は小さすぎるのケアする処理を行ってもよい。すなわち、音声をテキストに変換できない場合に発声のスピードが速すぎる、あるいは発声の音声の大きさが小さすぎる等を携帯端末のスピーカから発声し、ユーザは、この指示に従い「２０２０年」を発声することになる。

図２に本願のシステムの仕組みの概念を説明する。携帯端末１０を用いて会員登録した後で、介護保険の見積画面を表示する（Ｓ１）。この画面には音声でテキストを入力するためのマイクボタンを要求するコメントが表示されている。

そして、このマイクボタン要求の選択でジャバスクリプト（ＪａＶａＳｃｒｉｐｔ）からＱＲシステムにアクセスして、トークインを取得する（Ｓ２）。

そして、携帯端末１０の音声入力サービス部２０のブラウザと音声認識サービスサイトのサーバ７０（例えば、ソフト商品名：オラリス）間でＡＰＩ（Application Programming Interface）連携を行う。そしてｗｅｂＳｏｃｋｅｔを張る。これは、前述のトークインを用いる（Ｓ３）。

次にＷｅｂＳｏｋｃｅｔを通して音声認識サービスサイトのサーバ７０に音声ストリームを送る（Ｓ４）。

音声認識サービスサイトのサーバ７０から解析結果（テキスト）が携帯端末１０の音声入力サービス部２０に連続してプッシュ方式で返ってくる（Ｓ５）。

そして、フォームに生年月日等のテキストをセットする（Ｓ６）。ここで、画面に複数のフォームがある場合には、音声入力ボタンが各フォームに対応づけられているので、どのフォームにテキストを入力すれば良いのかは特定される。

図３、図４及び図５のシーケンスを用いて詳細に説明する。ここで、ユーザの携帯端末であるユーザ端末１０には、音声入力サービス部２０がアプリとしてインストールされている。

Ｗｅｂサイトのサーバ５０を操作して音声認識サービスサイトのサーバ７０と契約を行う（ｄ１）。ここでの契約は、Ｗｅｂサイト側の音声認識サービスサイト側の日本語音声認識ソフトの使用に関する契約である。この契約が成立すれば、ユーザがいつでも、日本語音声認識ソフトを自動で立ち上げて自己の携帯端末１０の生年月日等の入力欄へ変換されたテキストを入力することが可能となる。

本実施の形態ではユーザの所持する携帯端末１０をユーザ端末１０として説明する。ユーザはユーザ端末１０を操作してＷｅｂサイトのサーバ５０のＱＲコード（登録商標）を用いてＷｅｂサイトのサーバ５０と回線を結び、会員登録（ＩＤ、パスワード、メールアドレス、電話番号、年月日時刻等）を行う（ｄ３）。

ユーザ情報はＷｅｂサイト（例えば、保険契約サイト）のサーバ５０の記憶部に記憶される（ｄ５）。このユーザ情報はユーザ端末１０より自動で収集するように構成されている。

ユーザ端末１０は、ＩＤ、パスワードを取得しユーザ端末の記憶部に記憶する（ｄ７、ｄ９）。

そして、ユーザ端末１０の音声入力サービス部２０の押下（タップ）に伴って、音声入力サービス部２０の画面生成部（例えば、保険見積画面の生成）２２は、保険見積画面生成処理を行う（ｄ１２）。

この見積フォームをブラウザに出力して（ｄ１５）、表示部１０ａに表示（保険画面見積画面生成部２２が行う）させる（ｄ１７）。この画面は図６に示している。マイクで音声入力ができることをメッセージ表示している。

そして、このマイクアイコンがタッチされた場合は、図４に示すように、音声入力受付判定処理が起動する（ｄ２０）。この起動に伴って表示部１０ａには図７に示すように、マイクを使用する許可をするかどうかの判定（許可しない、許可）のメッセージ画面が表示されている。

許可した場合は、音声入力要求部２４が音声入力要求情報（ＩＤコード、パスワード、年月日時刻を含む）を音声認識サービスサイトのサーバ７０に送信する（ｄ２４、ｄ２６）。

そして、音声入力要求部２４は、音声入力発行依頼情報（端末番号、アプリ名、アカウント、年月日時刻を含む）を生成して音声認識サービスサイトのサーバ７０に送信する（ｄ２８、ｄ３０）。

音声認識サービスサイトのサーバ７０は、音声入力発行依頼情報（端末番号、アプリ名、アカウント、年月日時刻）に含まれているアカウントが記憶されている場合は、音声入力許可情報を生成して音声入力サービス部２０へ送信する（ｄ３２）。

次に、音声入力要求部２４は、音声入力発行依頼情報を受信したかどうかを判定する（ｄ３４）。

受信できない場合は画面に不可を表示する（ｄ３８）。また、音声入力を受信した場合は、許可を表示し（ｄ４２）、マイクアイコン（図８参照）を表示する（ｄ４４）。

そして、音声テキスト化要求部２６が図５に示すように、マイクからの音声を読み込み（ｄ５０）、音声認識サービスサイトのサーバ７０に送信（例えば、パケット通信）する（ｄ５２）。
音声認識サービスサイトのサーバは７０、音声データを認識し、これをテキストデータに変換して（ｄ５４）、音声入力サービス部２０に送信する（ｄ５６）。

そして、これを見積フォーム処理にセット（図９参照）する（ｄ５８）。

音声入力サービス部２０は、これをブラウザに出力して（ｄ６０）、表示部１０ａに表示（図９参照）する（ｄ６２）。

そして、同一画面で次のマイクデータの入力があるか否かを判定する（ｄ７２）。

同一画面で次のマイクデータの入力のある場合は、処理をｄ５０に戻す（ｄ７４）。

マイクデータの入力がない場合は、終了かどうかを判定する（ｄ７６）。終了でない場合は新規画面への入力処理を開始し（ｄ７８）、終了の場合は音声入力サービス部２０との接続を切断し（ｄ８２ａ）、保険契約サイトのサーバ５０と、音声認識サービスサイトのサーバ７０との回線を切断する（ｄ８２ｂ、ｄ８２ｃ）。

〔第２実施形態〕
上記実施形態では、ユーザ端末１０による音声入力操作の際、ユーザ端末１０と音声入力サービス部２０との通信環境が安定している場合を想定しているが、通信トラフィックの変動する場合には、安定して音声入力操作が実行できなくなる。そこで、図４に示した（ｄ２０）の音声入力受付判定処理を起動する際、バックグラウンド処理として、以下の処理ＳＴ１～ＳＴ４を組み入れるように制御してもよい。
ＳＴ１：ウェブ申込フォーム第１画面読み込み後、ダミー通信を１回行う。ただし、デバイスの通信環境を確認する処理に代えてもよい。
ＳＴ２：ユーザ利用環境として安定した通信が可能な場合は、ＡＰＩ音声テキスト変換用のウェブ申込フォームを表示する。

ＳＴ３：接続不安定もしくは接続不能（ＮＧ）の場合は、ＡＩテキスト変換ガイドおよびボタンを表示する。
ＳＴ４：通信可能と判断した後に、接続不安定もしくは何らかの通信障害、エラー発生時は、図１０に示す画面をユーザ端末１０に提示して、ウェブ申込フォームのレイアウトから独立して入力し易いキーボード入力画面を項目ごとに表示する。

これにより、ウェブ申込フォームの音声入力処理操作中に通信障害が発生しても、ウェブ接続を切断したり、更新したりする操作でユーザ端末１０のユーザが混乱することを回避しつつ、受付中のウェブ申込フォームに対する入力を継続させることができる。

図１０は、音声入力障害発生画面を説明する説明図である。
図１０に示すように、ウェブ申込フォームの音声入力処理操作中に通信障害が発生した場合は、生年月日入力画面において、ユーザによるキーボード入力を受け付け、該受け付けた生年月日の情報を操作中のウェブ申込フォームに反映させることで、音声入力障害発生時にも柔軟な対応をユーザに提示できる。
上記本発明は、少なくとも下記の実施の形態を含むことができる。

（１）ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するＷｅｂサイトのサーバとを通信ネットワークで接続した音声入力システムであって、前記携帯端末は、テキストを入力する画面を前記Ｗｅｂサイトのサーバから受信し表示部に表示する画面生成部と、前記画面を押下することで音声入力を受け付ける音声入力要求部と、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部と、変換されたテキスト情報を前記携帯端末で受信する受信部とを有することを特徴とする。

（２）音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えたことを特徴とする。

（３）前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるのケアする処理を行うことを特徴とする。

（４）前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信することを特徴とする。

（５）ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトのサーバと、前記テキスト情報を受信するＷｅｂサイトのサーバとを通信ネットワークで接続した音声入力システムであって、コンピュータを、前記携帯端末、テキストを入力する画面を前記Ｗｅｂサイトのサーバから受信し表示部に表示する画面生成部、押下することで音声入力を受け付ける音声入力要求部、前記音声入力要求部を押下するタイミングで前記音声認識サービスサイトのサーバを起動させる音声テキスト化要求部、変換されたテキスト情報を前記携帯端末で受信する受信部、として機能させることを特徴とする。

本発明の音声入力システム１は、Ｗｅｂサイトへの生年月日等の音声入力に利用することが可能である。

１音声入力システム
１０携帯端末（ユーザ端末）
２０音声入力サービス部
２２画面生成部
２４音声入力要求部
２６音声テキスト化要求部
２８発声ガイド部
２９受信部
３０通信ネットワーク
５０Ｗｅｂサイトのサーバ
７０音声認識サービスサイトのサーバ

Claims

ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第１のサーバと、前記第１のサーバから前記テキスト情報を受信するＷｅｂサイトの第２のサーバとを通信ネットワークで接続した音声入力システムであって、
前記携帯端末は、
音声情報を入力するマイクと、
前記第２のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を表示部に表示する画面生成部と、
前記画面を押下することで音声入力を受け付ける音声入力要求部と、
前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を前記表示部に表示し、該第１の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第１のサーバを起動させる音声テキスト化要求部と、
前記マイクを通して入力された音声情報に対して前記第１のサーバから変換されたテキスト情報を受信する受信部と、を有し、
前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を生成し、かつ、前記受信部が前記第１のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第２の確認画面を生成し、前記第２の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了すること特徴とする音声入力システム。
音声入力のテキスト変換解読レベルを考慮して、エラーを回避するために基本発生音を発生させて、前記ユーザに発声状態をアドバイスする発生ガイド部を備えたことを特徴とする請求項１に記載の音声入力システム。
前記発生ガイド部は、さらに音声入力のテキスト変換解読レベルを考慮して、発声するスピードが早すぎる、又は低すぎるをケアする処理を行うことを特徴とする請求項２に記載の音声入力システム。
前記テキスト情報を前記携帯端末に送信する送信部はプッシュ型で送信することを特徴とする請求項１に記載の音声入力システム。
ユーザの携帯端末と、音声入力情報をテキスト情報に変換する音声認識サービスサイトの第１のサーバと、前記テキスト情報を受信するＷｅｂサイトの第２のサーバとを通信ネットワークで接続した音声入力システムであって、
コンピュータを、
音声情報を入力するマイクを備える前記携帯端末、
前記第２のサーバとに接続した際に、複数の行に割り付けられたテキストを入力する画面を前記Ｗｅｂサイトのサーバから受信し表示部に表示する画面生成部、
前記画面を押下することで音声入力を受け付ける音声入力要求部と、
前記音声入力要求部を押下するタイミングで前記画面生成部が前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を前記表示部に表示し、該第１の確認画面に対して前記ユーザから前記マイクの使用を許可する指示を待って、前記第１のサーバを起動させる音声テキスト化要求部、
前記マイクを通して入力された音声情報に対して前記第１のサーバから変換されたテキスト情報を受信する受信部として機能させ、かつ、前記画面生成部は、前記ユーザに対して、前記マイクの使用を許可するか否かを問う第１の確認画面を生成し、かつ、前記受信部が前記第１のサーバから前記テキスト情報を受信した場合、前記テキスト情報を前記画面に入力するテキストとして決定するかを前記ユーザに問う第２の確認画面を生成し、前記第２の確認画面に対する前記ユーザからの指示に基づいて前記画面に対するテキスト入力を完了させることを特徴とする音声入力プログラム。