JP5893588B2

JP5893588B2 - 携帯端末、編集誘導プログラムおよび編集誘導方法

Info

Publication number: JP5893588B2
Application number: JP2013143215A
Authority: JP
Inventors: 吉本　光文; 光文吉本
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2013-07-09
Filing date: 2013-07-09
Publication date: 2016-03-23
Anticipated expiration: 2029-02-25
Also published as: JP2013238880A

Description

この発明は、携帯端末、編集誘導プログラムおよび編集誘導方法に関し、特にたとえば音声認識によって文字列を入力する、携帯端末、編集誘導プログラムおよび編集誘導方法に関する。

従来、特にたとえば音声認識によって文字列を入力する、携帯端末が知られており、この種の装置の一例が、特許文献１に開示されている。この背景技術の発声認識装置では、単音節毎の音声認識を行うと共に、認識結果の信頼度が高いときは単音節の文字画像をそのまま表示し、認識結果の信頼度が低いときは、その母音の文字画像とその画像の横に子音認識不能を表わす「？」の画像とを表示する。そして、さらに認識結果が低いときは、次の音節入力を促すことを表わす「＊」を表示する。

また、特許文献２に開示されている、発音練習支援システムは携帯電話を利用して英会話等の発音練習のコンテンツを供給することが可能である。学習者が携帯電話に対して音声信号を入力すると、音声信号は携帯電話から回線通話制御装置に送信され、回線通話制御装置によって音声データ信号に変換された後に、発音評定サーバに送信される。発声評定サーバでは、学習者の発話単語または文章とデータパターンとのマッチングを行うことで、発話の基本周波数パターンの似ている程度を評定する。そして、評定結果がデータベースサーバに送信されると評定結果に応じてコンテンツが編集され、携帯電話の画面に表示される。これにより、学習者は、携帯電話に音声信号を入力することで、入力した音声信号における発音の正しさが通知される。
特開２００５−１２８１３０［G10L 15/22, G10L 15/28］特開２００５−３１２０７［G09B 19/06, G09B 5/06, G09B 19/04, G10L 15/00］

しかし、特許文献１における音声認識装置では、ユーザは単音節単位で発話するため、長い文章などを入力するには不向きである。また、長い文章を入力したとしても、単音節毎の信頼度が低いと、「＊」や「？」が混じった文字列となり、使用者は文章として読解することが困難になる。

また、特許文献２における発音練習支援システムでは、単語単位で音声を入力することができるが、音声認識によって文章作成を行う機能などについては開示されていない。

それゆえに、この発明の主たる目的は、新規な、携帯端末、編集誘導プログラムおよび編集誘導方法を提供することである。

この発明の他の目的は、音声認識による文章作成の効率をあげることが可能な、携帯端末、編集誘導プログラムおよび編集誘導方法を提供することである。

この発明は、上記の課題を解決するために、以下の構成を採用した。なお、括弧内の参照符号および補足説明等は、この発明の理解を助けるために記述する実施形態との対応関係を示したものであって、この発明を何ら限定するものではない。

第１の発明は、文字入力キー、マイクおよびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段を有し、文字入力キーに対するキー入力が可能な第１モードまたはマイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末であって、第１モードへの切り替え操作を受け付ける第１受付手段、第２モードへの切り替え操作を受け付ける第２受付手段、第２モードに切り替えられた状態で、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記憶する記憶手段、音声認識手段によって生成された文字列を表示する表示手段、データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定手段、特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集手段、および所定の操作がされたとき、特定手段によって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定手段を備え、編集手段は、マイクによって取り込まれた音声のうち、特定された文字列に対応する音声と、その音声から生成された特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、音声認識手段によって新たに生成された文字列に置換する、携帯端末である。

第１の発明では、携帯端末（１０）は、文字入力キー（２２ｅ）、音声認識用のマイク（１６ａ，１６ｂ）およびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段（２０ａ，２０ｂ，３０）を有する。この音声認識手段は、たとえばＣＰＵ（２０ａ）、ＤＳＰ（２０ｂ）および音声辞書データを記憶するＲＯＭ（３２）を含む。また、携帯端末は、文字入力キーに対するキー入力が可能な第１モードまたはマイクに対する音声入力が可能な第２モードによって任意の文字が入力可能である。第１受付手段は、第１モードへの切り替え操作を受け付ける。第２受付手段は、第２モードへの切り替え操作を受け付ける。記憶手段（２０ａ，Ｓ１４７）は、音声認識手段によって文字列が生成される際に算出される尤度を認識の信頼度とし、生成された文字列と、その文字列に対応する信頼度とをデータ（３３６）として記憶する。表示手段は、音声認識手段によって生成された文字列を表示する。また、そのデータにおいて、信頼度が所定値（閾値）以下の文字列は、誤認識された文字列（誤認識文字列）の候補として、特定手段（２０ａ，Ｓ１６１）によって特定される。そして、編集手段は、特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する。確定手段は、所定の操作がされたとき、特定手段によって特定された少なくとも１つ以上の文字列を、全て確定文字列にする。
また、編集手段は、マイクによって取り込まれた音声のうち、特定された文字列に対応する音声と、その音声から生成された特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、音声認識手段によって新たに生成された文字列に置換する。

第１の発明によれば、誤認識文字列の候補が、一目で判断できるように表示されるため、使用者は候補の文字列に対する編集の要否を判断しやすくなる。そのため、使用者は、音声認識を利用した文章を効率よく作成できるようになる。
また、類似する文字列を検索するために、相関関数を利用することができる。そして、使用者は、編集するための文字列を発話するだけで、文字列を編集することができる。したがって、使用者には、音声認識による文章の編集に都合がよい編集操作が提供される。
第２の発明は、第１の発明に従属し、特定手段によって特定された少なくとも１つ以上の文字列のうち、１つの特定された文字列を確定する操作がされたとき、１つの特定された文字列を確定文字列にする個別確定手段をさらに備える。

第３の発明は、第１の発明または第２の発明に従属し、編集手段は、文字入力キーに対するキー入力によって入力された文字列に基づいて、特定された文字列を編集する。

第４の発明は、第１の発明ないし第３の発明のいずれかに従属し、編集手段は、音声認識手段によって生成された文字列の候補を一覧的に表示する一覧表示手段を含み、編集手段は、一覧表示手段によって表示された候補が選択されたとき、選択された候補に基づいて、特定された文字列を編集する。

第４の発明では、一覧表示手段（２０ａ，Ｓ３１５）は、たとえば、音声認識手段が算出する尤度が所定値以上の候補を全て表示する。そして、一覧的に表示された候補のうち、使用者によって選択された候補に基づいて特定された文字列が編集される。

第４の発明によれば、音声認識の候補が一覧的に表示されるため、使用者は、入力した音声の認識精度が高くなくても、編集することができる。

第５の発明は、第１の発明ないし第４の発明のいずれかに従属し、操作手段、および特定された文字列を選択するカーソルを表示するカーソル表示手段をさらに備え、カーソルは、操作手段に対する入力操作に応じて特定された文字列を選択し、編集手段は、カーソルによって選択された文字列を編集する。

第５の発明では、操作手段（２２ｄ）は、たとえば上下方向および左右方向を入力可能な方向キーである。カーソル（ＣＵｂ）は、カーソル表示手段（２０ａ，Ｓ２０１，Ｓ２８９）によって特定された文字列を選択するように表示される。カーソルは、操作手段に対する入力操作に応じて特定された文字列を選択する。そして、編集手段は、カーソルによって選択された文字列を編集する。

第５の発明によれば、カーソルは、特定された文字列を選択することが可能であるため、使用者が行う編集操作の操作性を向上させることができる。また、カーソルは操作手段によって操作することが可能であるため、使用者は信頼性の高いカーソル操作を行うことができる。

第６の発明は、文字入力キー、マイク（１６ａ，１６ｂ）およびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段（２０ａ，２０ｂ，３０）を有し、文字入力キーに対するキー入力が可能な第１モードまたはマイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末（１０）のプロセッサ（２０ａ）を、第１モードへの切り替え操作を受け付ける第１受付手段、第２モードへの切り替え操作を受け付ける第２受付手段、第２モードに切り替えられた状態で、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記憶する記憶手段（Ｓ１４７）、音声認識手段によって生成された文字列を表示する表示手段、データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定手段（Ｓ１６１）、特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集手段、および所定の操作がされたとき、特定手段によって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定手段として機能させ、編集手段は、マイクによって取り込まれた音声のうち、特定された文字列に対応する音声と、その音声から生成された特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、音声認識手段によって新たに生成された文字列に置換する、編集誘導プログラムである。

第６の発明でも、第１の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。

第７の発明は、文字入力キー、マイクおよびマイクによって取り込まれた音声信号から文字列を生成する音声認識手段（２０ａ，２０ｂ，３０）を有し、文字入力キーに対するキー入力が可能な第１モードまたはマイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末における編集誘導方法であって、携帯端末のプロセッサが、第１モードへの切り替え操作を受け付ける第１受付ステップ、第２モードへの切り替え操作を受け付ける第２受付ステップ、第２モードに切り替えられた状態で、音声認識手段によって生成される文字列およびそれらの信頼度を示すデータ（信頼度テーブル）を記憶する記憶ステップ、音声認識手段によって生成された文字列を表示する表示ステップ、データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定ステップ、特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集ステップ、および所定の操作がされたとき、特定ステップによって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定ステップを実行し、編集ステップは、マイクによって取り込まれた音声のうち、特定された文字列に対応する音声と、その音声から生成された特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、音声認識手段によって新たに生成された文字列に置換する、編集誘導方法である。

第７の発明でも、第１の発明と同様に、使用者は、音声認識を利用した文章を効率よく作成できるようになる。

この発明によれば、誤認識文字列の候補が一目で判断できるように表示されるため、使用者は、音声認識を利用して効率よく文章を作成できる。

この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１は本発明の携帯端末を示すブロック図である。図２は図１に示す携帯端末の外観を示す図解図である。図３は図１に示すＬＣＤモニタに表示されるＧＵＩの表示例を示す図解図である。図４は図１に示すＬＣＤモニタに表示されるＧＵＩの他の表示例を示す図解図である。図５は図１に示すＲＡＭに記憶される信頼度テーブルの一例を示す図解図である。図６は図１に示すＬＣＤモニタに表示されるＧＵＩのその他の表示例を示す図解図である。図７は図１に示すＬＣＤモニタに表示されるＧＵＩのさらにその他の表示例を示す図解図である。図８は図１に示すＲＡＭのメモリマップの一例を示す図解図である。図９は図８に示すメモリマップにおけるデータ記憶領域の一例を示す図解図である。図１０は図１に示すＣＰＵの送信メール作成処理を示すフロー図である。図１１は図１に示すＣＰＵのサブメニュー処理を示すフロー図である。図１２は図１に示すＣＰＵの信頼度閾値設定処理を示すフロー図である。図１３は図１に示すＣＰＵの文書編集処理を示すフロー図である。図１４は図１に示すＣＰＵの任意カーソル編集処理を示すフロー図である。図１５は図１に示すＣＰＵの音声認識入力処理を示すフロー図である。図１６は図１に示すＣＰＵの低信頼度部位編集処理を示すフロー図である。図１７は図１に示すＣＰＵのカーソル指定処理を示すフロー図である。図１８は図１に示すＣＰＵの音声指定処理を示すフロー図である。図１９は図１に示すＣＰＵの音声検索処理を示すフロー図である。図２０は図１に示すＣＰＵの変換部位検索処理を示すフロー図である。図２１は図１に示すＣＰＵの音声認識入力処理を示す他の実施例のフロー図である。図２２は図１に示すＣＰＵの変換部位検索処理を示す他の実施例のフロー図である。

図１を参照して、携帯端末１０は、制御部２０およびキー入力装置２２を含み、制御部２０は、ＣＰＵ（プロセサまたはコンピュータと呼ばれることもある。）２０ａおよびＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）２０ｂを含む。ここで、キー入力装置２２によって発呼操作が行われると、制御部２０に含まれるＣＰＵ２０ａは、ＣＤＭＡ方式に対応する無線通信回路１４を制御して発呼信号を出力する。出力された発呼信号は、アンテナ１２から送出され、基地局を含む移動通信網に送信される。通話相手が応答操作を行うと、通話可能状態が確立される。

通話可能状態に移行した後にキー入力装置２２によって通話終了操作が行われると、ＣＰＵ２０ａは、無線通信回路１４を制御して、通話相手に通話終了信号を送信する。そして、通話終了信号の送信後、ＣＰＵ２０ａは、通話処理を終了する。また、先に通話相手から通話終了信号を受信した場合も、ＣＰＵ２０ａは、通話処理を終了する。さらに、通話相手によらず、移動通信網から通話終了信号を受信した場合も、ＣＰＵ２０ａは通話処理を終了する。

携帯端末１０が起動している状態で通話相手からの発呼信号がアンテナ１２によって捉えられると、無線通信回路１４は着信をＣＰＵ２０ａに通知する。また、ＣＰＵ２０ａは、ＬＣＤドライバ２４によって表示手段であるＬＣＤモニタ２６を制御し、着信通知に記述された発信元情報をＬＣＤモニタ２６に表示させる。そして、ＣＰＵ２０ａは、図示しない着信通知用スピーカから着信音を出力させる。

通話可能状態では、次のような処理が実行される。通話相手から送られてきた変調音声信号（高周波信号）は、アンテナ１２によって受信される。受信された変調音声信号は、無線通信回路１４によって復調処理および復号処理を施される。そして、得られた受話音声信号は、スピーカ１８から出力される。一方、取込手段である第１マイク１６ａによって取り込まれた送話音声信号は、無線通信回路１４によって符号化処理および変調処理を施される。そして、生成された変調音声信号は、上述と同様、アンテナ１２を利用して通話相手に送信される。

また、携帯端末１０は、文字列の入力や削除を行う文書編集機能を備えており、音声認識による文字入力を行うことができる。つまり、使用者が文章を読み上げ、音声を第２マイク１６ｂに入力すると、ＬＣＤモニタ２６には音声認識された文章が表示される。具体的には、第２マイク１６ｂによって取り込まれた音声信号はＤＳＰ２０ｂによって音声データに変換され、ＣＰＵ２０ａおよびＤＳＰ２０ｂは音声データから特徴パターン（特徴量）を抽出する。また、ＣＰＵ２０ａおよびＤＳＰ２０ｂは、音声認識用の音声辞書を構成する参照音声データをＲＯＭ３２から読み出し、参照音声データの特徴パターン（以下、参照パターンと言う。）を抽出するか、ＲＯＭ３２から参照パターンを直接読み出す。そして、ＣＰＵ２０ａおよびＤＳＰ２０ｂは、特徴パターンの照合による音声認識の手法または統計的決定理論に基づく音声認識の手法によって、特徴パターンと各参照パターンとを照合することで、音声データと一致する参照音声データを特定する。この音声辞書は参照音声データとその参照音声データが表わす文字列とが対応付けられているため、ＣＰＵ２０ａおよびＤＳＰ２０ｂは特定した参照音声データに対応する文字列を読み出すことで、当該音声データを文字列に変換する。

特徴パターンの照合による音声認識の手法では、ＣＰＵ２０ａおよびＤＳＰ２０ｂは、マルチテンプレート法、ＮＮ（ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒ）識別法またはｋ−ＮＮ識別法などの手法によって、各参照パターンと特徴パターンとの尤度を算出し、最も尤度が高い参照パターンを特定する。

また、統計的決定理論に基づく音声認識の手法では、音声認識の手法として広く利用されているＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）を利用して、各参照音声データと特徴パターンとの尤度を算出し、特徴パターンの照合による音声認識の手法と同様に、ＣＰＵ２０ａおよびＤＳＰ２０ｂは最も尤度の高い参照音声データを特定する。

なお、本実施例では、上述した尤度を音声認識における認識の信頼度とする。また、携帯端末１０は、ＣＰＵ２０ａ、ＤＳＰ２０ｂおよびＲＯＭ３２を音声認識手段として機能させる。

携帯端末１０は、メール機能を備えており、図示しないメールサーバとのデータ通信を行い、メールの送受信を行うことができる。なお、データ通信中における、アンテナ１２および無線通信回路１４は通信手段として機能し、メールサーバなどは有線または無線でネットワークと接続されている。

図２は携帯端末１０の外観を示す図解図である。図２を参照して、携帯端末１０は、板状に形成されたケースＣを有する。アンテナ１２は、伸縮可能に構成された伸縮アンテナであり、ケースＣの上側面に突出して設けられる。なお、アンテナ１２は内蔵アンテナであってもよく、ケースＣに内蔵される場合も考えられる。

図２では図示しない第１マイク１６ａおよびスピーカ１８はケースＣに内蔵される。内蔵された第１マイク１６ａに通じる開口ｏｐ１は、ケースＣの長さ方向一方の主面に設け
られ、内蔵されたスピーカ１８に通じる開口ｏｐ２は、ケースＣの長さ方向他方の主面に設けられる。また、図２では図示しない第２マイク１６ｂもケースＣに内蔵される。内蔵された第２マイク１６ｂに通じる開口ｏｐ３は、開口ｏｐ１と並ぶようにケースＣの長さ方向一方の主面に設けられる。

つまり、通話者は、開口ｏｐ１を通じて第１マイク１６ａに送話音声を入力し、開口ｏｐ２を通じてスピーカ１８から受話音声を聞く。また、使用者は、開口ｏｐ３を通じて第２マイク１６ｂに音声認識用の音声を入力する。なお、第１マイク１６ａは音声認識用として兼用可能である。そして、第１マイク１６ａと第２マイク１６ｂとの音声信号の差分により、遠方音源である周囲雑音をキャンセルする技術を実現でき、音声認識率の向上に寄与する。

キー入力装置２２は第１メニューキー２２ａ、第２メニューキー２２ｂ、決定キー２２ｃ、方向キー２２ｄ（操作手段とも言う）および複数の文字入力キー２２ｅ（文字入力手段とも言う）などを含み、ケースＣの主面に設けられる。また、ＬＣＤモニタ２６は、モニタ画面がケースＣの主面に露出するように取り付けられる。なお、キー入力装置２２には、通話キーおよび終話キーも含まれる。

第１メニューキー２２ａ、第２メニューキー２２ｂおよび決定キー２２ｃはＬＣＤモニタ２６に表示されるソフトキーにそれぞれ対応しており、ＬＣＤモニタ２６内に表示されるソフトキーを操作する際に利用される。また、方向キー２２ｄは、ＬＣＤモニタ２６に表示されるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）に対して上下方向または左右方向の入力操作を行うために用いられる。なお、決定キー２２ｃは方向キー２２ｄによるＧＵＩの操作結果を決定するためにも用いられる。

そして、使用者は、文書編集機能が実行されている状態では、複数の文字入力キー２２ｅを利用することで文字列をキー入力することができる。たとえば、複数の文字入力キー２２ｅは「あ」行〜「わ」行までの文字キーから構成されており、各文字キーを操作する回数によって入力する文字（平仮名）を指定することができる。具体的には、「あ」文字キーは、「あ、い、う、え、お」の文字を入力するためのキーであり、使用者は「あ」行文字キーを押下すれば、「あ」の文字を入力することができ、さらにもう一度押下すれば、「い」の文字を入力することができる。また、使用者は方向キー２２ｄおよび決定キー２２ｃを利用することで平仮名を、漢字や片仮名に変換することができる。

なお、使用者は、文書編集機能のＧＵＩを操作することで、文字入力キーに割り当てられた文字を英数字や記号に切り替え、英数字または記号を入力することができる。また、複数の文字入力キー２２ｅは０〜９の数字キーとしても利用することが可能であり、たとえば、「あ」行文字キーは数字の「１」、「か」行文字キーは数字の「２」となるようにそれぞれ対応する。つまり、使用者は、電話番号を入力して発信する場合に、複数の文字入力キー２２ｅを利用して電話番号を入力し、通話キーによって発信操作を行うことができる。

ここで、音声認識によって文字列を入力することが可能な文書編集機能について、ＬＣＤモニタ２６に表示される各画像やＧＵＩなどを用いて詳細に説明する。

図３（Ａ）を参照して、ＬＣＤモニタ２６には、状態表示領域５０、機能表示領域５２およびキー表示領域５４が設定されている。状態表示領域５０はＬＣＤモニタ２６の上側に設定され、アンテナ１２による電波受信状態、充電池（バッテリィ）の残電池容量および現在日時などを表示する。また、機能表示領域５２は、実行される機能に応じて表示内容が変化し、ここでは送信メールの本文編集画面が表示され、現在の文字入力位置を示す
カーソルＣＵａが表示される。

そして、キー表示領域５４は複数のソフトキーが表示されており、実行される機能に応じて表示状態が変化し、ソフトキーの表示が必要ない機能では、キー表示領域５４は表示されない。たとえば、送信メールの本文を編集するために文書編集機能が実行されている場合には、通常入力キー５６ａ、完了キー５６ｂおよびサブメニューキー５６ｃが表示される。そして、通常入力キー５６ａには第１メニューキー２２ａが対応し、完了キー５６ｂには決定キー２２ｃが対応し、サブメニューキー５６ｃには第２メニューキー２２ｂが対応し、使用者は第１メニューキー２２ａ、決定キー２２ｃおよび第２メニューキー２２ｂを押下することで、それぞれに対応するソフトキーを操作することができる。

なお、他の表示例（図面）であっても、左側に表示されるソフトキーは第１メニューキー２２ａに対応し、中央に表示されるソフトキーは決定キー２２ｃに対応し、右側に表示されるソフトキーは第２メニューキー２２ｂに対応する。

まず、通常入力キー５６ａが操作されると、文字列の入力モードを切り替えることができる。文字列の入力モードの表示は、モード表示５８に表示されており、図３（Ａ）の状態では、「音声入力モード」に設定されている。この状態で、通常入力キー５６ａが操作されると、複数の文字入力キー２２ｅを利用して文字列を入力する「通常入力モード」に切り替わり、図３（Ｂ）のように、通常入力キー５６ａの代わりに音声入力キー５６ｄが表示される。通常入力モードは、複数の文字入力キー２２ｅに対するキー入力によって文字を入力するモードであり、音声入力モードは、音声認識によって文字列を入力するモードである。そして、通常入力キー５６ａおよび音声入力キー５６ｄを操作することで、使用者は入力モードを任意に切り換えることができる。なお、音声入力モードにおいて所定時間（２秒）の未入力状態が検出された場合にも、音声入力モードから通常入力モードに切り替わる。

次に、完了キー５６ｂが操作されると、文書編集機能による送信メールの本文編集を終了し、送信メールの宛先や題名を入力するためのＧＵＩが表示される。さらに、サブメニューキー５６ｃが操作されると、送信メールの作成または文書編集機能の初期設定を変更するためのサブメニューが表示される。

音声入力モードが設定された状態で、第２マイク１６ｂに対して文章を意味する音声が入力されると、図３（Ｂ）に示すように、機能表示領域５２には音声認識された結果の文章が表示される。そして、信頼度の低い文字列（以下、低信頼度文字列または低信頼度部位と言う。）は背景色を青色に彩色される。つまり、低信頼度文字列は、誤認識されている文字列（以下、誤認識文字列と言う。）である可能性が高いため、使用者による編集を誘導するために、他の文字列とは異なる形態で表示される。

さらに、携帯端末１０は、編集するための手段を確認するために、図３（Ｃ）に示すように、ウインドウＷａを機能表示領域５２上に表示する。このウインドウＷａには、「１．カーソル指定モード」、「２．音声指定モード」、「３．音声検索モード」および「４．通常入力モード」の４つモードを選択する編集メニューが含まれる。また、各編集メニューの選択には、対応する数字キーを操作すればよく、複数の文字入力キー２２ｅを利用する。

たとえば、「１」に対応する「あ」行文字キーが押下されると、図３（Ｄ）に示すように、任意の低信頼度文字列が編集カーソルＣＵｂによって指定された状態で表示され、モード表示５８には、カーソル指定モードと表示される。また、図３（Ｄ）では、中央のソフトキーとして編集キー５６ｅが表示されるようになる。そして、編集カーソルＣＵｂは
、低信頼度文字列である「経済」を選択した状態となる。この編集カーソルＣＵｂは、低信頼度文字列のみを選択することが可能であるため、編集する操作の操作性を向上させることができる。

なお、編集キー５６ｅについては後述するため、ここでの詳細な説明は簡単のため省略する。

ここで、４つのモードのそれぞれについて概要を説明する。まず、カーソル指定モードは、低信頼度文字列のそれぞれを、方向キー２２ｄによって操作可能な編集カーソルＣＵｂ（図３（Ｄ）参照）によって指定（選択）して、その指定した文字列を編集するモードである。たとえば、図３（Ｄ）の状態で、右方向の入力が方向キー２２ｄにされると、「経済」に代わって「医術」が選択される。また、さらに右方向の入力が方向キー２２ｄにされると、「医術」に代わって「いたない」が選択される。さらに、「いたない」が選択される状態で、左方向の入力が方向キー２２ｄにされると、「いたない」に代わって「医術」が選択される。なお、左右方向の代わりに、上下方向の操作がされると、下方向は右方向に対応し、上方向は左方向に対応して編集カーソルＣＵｂが移動するようにしてもよい。

このように、編集カーソルＣＵｂは、方向キー２２ｄによって操作することが可能であるため、使用者は信頼性の高いカーソル操作を行うことができる。

次に、音声指定モードでは、低信頼度文字列が誤認識文字列である場合に、文字列を表わす音声が再入力されると、その再入力した音声を表わす文字列と類似する文字列が選択される。また、この類似する文字列を指定するためには、最初に入力された音声データを、形態素毎に分割して記憶しておくことで実現可能である。具体的には、分割された各音声データにおいて、低信頼度文字列に対応する各音声データと、対応する低信頼度文字列とから低信頼度音声辞書を作成する。そして、ＣＰＵ２０ａは、特徴パターンの照合による音声認識の手法を用いて、再入力された音声データと最も尤度が高い参照音声データを特定することで、低信頼度文字列を選択する。そして、選択された文字列は、再入力した音声が音声認識された文字列と置き換えられる。つまり、選択された誤認識文字列は、新たに音声認識された文字列と置き換えられる。このように、使用者は、編集するための文字列を発話するだけで、誤認識した文字列を編集することができる。つまり、使用者は、音声認識よる文章の編集に都合がいい編集操作を行うことができる。

また、音声検索モードでは、音声指定モードと同様に、低信頼度文字列が誤認識文字列である場合に、誤認識文字列を表わす音声を再入力することで、各誤認識文字列から再入力された音声に対応する誤認識文字列を検索する。そして、検索結果は、編集カーソルＣＵｂによって示される。なお、誤認識文字列を検索する際には、音声指定モードと同様に、特徴パターンの照合による音声認識の手法を利用して指定してもよいし、再入力した音声の認識結果と一致する文字列を指定するようにしてもよい。このように、使用者は、誤った文字列を発話するだけで編集カーソルＣＵｂを操作できるようになる。つまり、使用者は、音声認識による文書の作成に都合のいいカーソルの操作を実行することができる。

なお、図３（Ｃ）に示す通常入力モードとは、先述した通常入力モードのことであり、使用者は、音声認識によって入力した文字列（文章）に対して、カーソルＣＵａを方向キー２２ｄによって文章（文字列）を編集する位置を任意に決め、複数の文字入力キー２２ｅによって文字を入力する。

続いて、低信頼度文字列を編集する操作について、説明する。図４（Ａ）を参照して、モード表示５８には、カーソル指定モードと表示されており、編集カーソルＣＵｂによっ
て、低信頼度文字列である「多少」が指定（選択）されている。また、キー表示領域５４では、左側に通常入力キー５６ａ、中央に編集キー５６ｅ、右側に終了キー５６ｆが表示されている。そして、編集キー５６ｅが操作されると、編集カーソルＣＵｂ部に対する音声認識文字入力あるいは文字入力キー２２ｅ等による文字入力を受けつける。

たとえば、複数の文字入力キー２２ｅによって「箇所」の文字列が入力されると、図４（Ｂ）に示すように、指定された低信頼度文字列「多少」が「箇所」の文字列に置き換えられる。つまり、使用者は、電車の中や周囲が騒がしい場所など、音声認識に不適切な環境であれば、複数の文字入力キー２２ｅを利用して、文章の編集をすることができる。また、使用者は、複数の文字入力キー２２ｅを利用して、信頼性の高い編集操作を行うこともできる。

また、文字入力キー２２ｅが押下されなければ、第２マイク１６ｂを利用した音声認識によって文字列を入力することが可能であり、「箇所」を表わす音声が入力されると、文字入力と同様に、指定された低信頼度文字列「多少」が「箇所」の文字列に置き換えられる。つまり、使用者は、音声認識を利用して容易に編集することができる。

そして、編集した後に確定キー５６ｇが操作されると、再入力された文字列は、背景色が他の文字列と同じ色で彩色され、さらに下線が付加されて表示されるようになる。なお、このように下線が付加された文字列を確定文字列と言うことにする。また、確定文字列は、編集カーソルＣＵｂにより選択後、編集キー５６ｅが再び操作されれば、編集可能な状態になる。

また、低信頼度文字列であっても誤入力でなければ、編集カーソルＣＵｂによって選択した後に、編集キー５６ｅと確定キー５６ｇとを続けて操作することで、確定文字列とすることができる。さらに、低信頼度文字列が表示されている状態で終了キー５６ｆが選択されると、現在のモード（ここでは、カーソル指定モード）を終了して、他のモードを選択することが可能になる。たとえば、図３（Ｄ）のいずれかの画面で終了キー５６ｆが操作されると、図３（Ｃ）に示すウインドウＷａが表示される。

そして、全ての低信頼度文字列が確定文字列に置き換えられると、図４（Ｃ）に示すように、ウインドウＷｂが表示される。ウインドウＷｂには、「通常入力を行いますか？」の文字列が表示されると共に、「１．ＹＥＳ」および「２．ＮＯ」が表示される。

たとえば、ウインドウＷｂが表示されている状態で、「１」の数字キーが操作されると、確定文字列に付加された下線が消去され、他の文字列と同じ表示になる。そして、カーソルＣＵａの表示位置に基づいて、複数の文字入力キー２２ｅによる文字入力を行うことができる状態になる。一方、「２」の数字キーが操作されると、送信メールの本文編集を終了して、送信メールの宛先や題名を入力可能なＧＵＩが表示される画面に遷移する。

なお、編集キー５６ｅあるいは確定キー５６ｇに対応する決定キー２２ｃを長押しすることで、低信頼度文字列が全て確定文字列にされてもよい。また、カーソル指定モードについて説明したが、音声検索モードであっても、編集カーソルＣＵｂを移動させる操作が異なるだけであり、低信頼度文字列に対する編集操作は同じである。

続いて、低信頼度文字列を、他の文字列とは異なる形態で表示するための信頼度テーブルについて説明する。図５を参照して、信頼度テーブルには、音声認識された各文字列を記録する文字列の列と、その各文字列に対応する信頼度を記録する信頼度の列とから構成されている。たとえば、文字列の列には、使用者が発話した文章が形態素単位に分割されて格納されており、「経済」、「の」および「医術」などの文字列が格納されている。一
方、信頼度の列には、信頼度を百分率で表した数値が記録されており、音声認識の結果に基づいてそれぞれ記録される。つまり、「経済」の音声認識における信頼度が５０％であれば、「経済」の欄に対応して「５０％」が記録される。また、「の」の信頼度が８０％であれば、「の」の欄に対応して「８０％」が記録され、「医術」の信頼度が４０％であれば、「医術」の欄に対応して「４０％」が記録される。

そして、信頼度テーブルの信頼度の列において６０％以下の文字列が、低信頼度文字列として表示されるようになる。つまり、「経済」および「医術」に対応する信頼度が６０％以下であるため、図３（Ｂ）などに示すように、「経済」および「医術」の背景色が青色に彩色されて表示される。

続いて、低信頼度文字列を音声入力によって編集するときの他の実施例について説明する。図６を参照して、低信頼度文字列「いたない」が編集カーソルＣＵｂで指定され、使用者によって新たに音声が入力されると、音声認識によって生成された文字列の候補がプルダウンＰＤによって一覧的に表示される。このプルダウンＰＤに表示される一覧は、尤度（信頼度）が高い順に上から表示されるため、最も尤度が高い文字列が最上部に表示される。つまり、ここでは、「満たない」および「汚い」の文字列が、認識の候補としてプルダウンＰＤ内に表示される。そして、表示される文字列に対応する数字が選択されると、指定されている低信頼度文字列が選択された文字列と置き換えられる。たとえば、「１」の数字キーが操作されると、「いたない」が「満たない」に置き換えられる。なお、方向キー２２ｄによるカーソル移動と確定キー５６ｇの操作とによる選択であってもよい。

このように、音声認識の候補を一覧的に表示することで、再入力した音声の認識精度が高くなくても、使用者は正しく編集することができる。

なお、プルダウンＰＤを利用して低信頼度文字列を編集するのは、カーソル指定モードだけに限らず、音声検索モードや音声指定モードでも実行可能である。また、一定値（たとえば４０％）以下の文字列はプルダウンＰＤに表示されない。

続いて、図３（Ａ）−図３（Ｃ）に示すサブメニューキー５６ｃが操作された場合について説明する。図７（Ａ）を参照して、機能表示領域５２にはウインドウＷｃが表示され、そのウインドウＷｃ内には、「１．新規保存」、「２．編集内容確認」および「３．信頼度閾値」の３つのサブメニューが表示される。なお、各メニューは、他のメニューを選択する操作と同様に、数字キーなどを操作することで選択することができる。

たとえば、「新規保存」のメニューが選択されると、送信メールのデータをＲＡＭ３０に保存（記憶）する処理が実行される。また、「編集内容確認」のメニューが選択されると、作成した送信メールの宛先、題名および本文などを同時に確認する画面を表示する処理が実行される。

そして、「信頼度閾値」のメニューが選択されると、低信頼度文字列と判断される閾値を変更するＧＵＩが表示される。つまり、「３」の数字キーが操作されると、図７（Ｂ）に示すウインドウＷｄが表示され、さらにウインドウＷｄには、「１．高い」、「２．普通」および「３．低い」の閾値メニューが表示される。そして、使用者は、任意の閾値メニューを選択することで、閾値を変化させることができる。たとえば、「高い」が選択されると閾値は７０％に設定され、「普通」が選択されると閾値は６０％に設定され、「低い」が選択されると閾値は５０％に設定される。そして、図７（Ａ），（Ｂ）における戻るキー５６ｈが操作されると、サブメニューの処理を終了して、図３（Ａ）などに示す画面に戻る。

なお、信頼度の閾値は、３段階だけに限らず、２段階または４段階以上であってもよい。また、信頼度の閾値は任意の数値で指定されるようにしてあってもよい。また、サブメニューの処理は、送信メールの本文を作成するときだけに限らず、宛先や題名を入力するときでも、実行可能である。

図８は、ＲＡＭ３０のメモリマップを示す図解図である。図８を参照して、ＲＡＭ３０のメモリマップ３００には、プログラム記憶領域３０２およびデータ記憶領域３０４が含まれる。プログラムおよびデータの一部は、フラッシュメモリ２８から一度に全部または必要に応じて部分的にかつ順次的に読み出され、ＲＡＭ３０に記憶されてからＣＰＵ２０などで処理される。

プログラム記憶領域３０２は、携帯端末１０を動作させるためのプログラムを記憶する。携帯端末１０を動作させるためのプログラムは、メール機能プログラム３１０および文書編集プログラム３１２などから構成される。メール機能プログラム３１０は、送信メールおよび返信を作成したり、受信メールを表示したりするためのプログラムであり、さらに送信メール作成プログラム３１０ａおよびサブメニュープログラム３１０ｂなどから構成されている。送信メール作成プログラム３１０ａは、送信メールの宛先、題名および本文を作成（入力）するためのプログラムであり、サブメニュープログラム３１０ｂは、送信メールを保存するためのプログラムである。

また、文書編集プログラム３１２は、送信メールの本文などを編集するときに実行されるプログラムであり、さらに信頼度閾値設定プログラム３１２ａ、任意カーソル編集プログラム３１２ｂ、音声認識入力プログラム３１２ｃ、低信頼度部位編集プログラム３１２ｄ、カーソル指定プログラム３１２ｅ、音声指定プログラム３１２ｆ、音声検索プログラム３１２ｇおよび変換部位検索プログラム３１２ｈから構成されている。

信頼度閾値設定プログラム３１２ａは、使用者によって信頼度の閾値を任意に設定させるためのプログラムである。任意カーソル編集プログラム３１２ｂは、カーソルＣＵａによって決められた位置に基づいて、キー入力または音声入力によって文章を編集、つまり文字列を入力するためのプログラムである。音声認識入力プログラム３１２ｃは、音声認識によって文字列を入力するための処理であり、音声入力モードなどで実行されるプログラムである。

低信頼度部位編集プログラム３１２ｄは、低信頼度文字列をキー入力または音声入力などによって編集するためのプログラムである。カーソル指定プログラム３１２ｅは、低信頼度文字列を編集カーソルＣＵｂによって選択して編集するためのプログラムである。音声指定プログラム３１２ｆは、新たに入力した音声と相関の高い部位の文字列を編集するためのプログラムである。音声検索プログラム３１２ｇは、新たに入力した音声によって編集カーソルＣＵｂを操作して、低信頼度文字列を編集するためのプログラムである。そして、変換部位検索プログラム３１２ｈは、音声指定プログラム３１２ｆおよび音声検索プログラム３１２ｇのサブルーチンであり、新たに入力された音声に基づいて低信頼度文字列を検索するためのプログラムである。

なお、図示は省略するが、携帯端末１０を動作させるためのプログラムは、通話を行うためのプログラム、ネットワークを通じてメールデータを取得するプログラムなども含む。

続いて、図９を参照して、データ記憶領域３０４には、音声認識バッファ３３０、入力文字バッファ３３２が設けられ、さらに、設定信頼度データ３３４、信頼度テーブルデータ３３６、低信頼度音声辞書データ３３８、メールデータ３４０が記憶されると共に、カーソル指定フラグ３４２、音声指定フラグ３４４および音声検索フラグ３４６が設けられる。

音声認識バッファ３３０は、音声認識の処理を実行する際に利用されるバッファであり、たとえば、ＤＳＰ２０ｂによって変換された音声認識用の音声データが一時的に格納される。入力文字バッファ３３２は、文書編集プログラム３１２が実行されることで編集（作成）されている文字列を一時的に格納するバッファである。なお、入力文字バッファ３３２に格納されたデータを利用して、文字列がＬＣＤモニタ２６に表示される。設定信頼度データ３３４は、信頼度閾値設定プログラム３１２ａの処理によって決定した閾値のデータであり、たとえば「６０％」や「７０％」などを表わす数字列から構成されている。信頼度テーブルデータ３３６は、図５に示す信頼度テーブルのデータである。

低信頼度音声辞書データ３３８は、使用者によって入力された音声データのうち、低信頼度文字列に対応する音声データと、その低信頼度文字列文字列とから構成されており、音声指定モードや音声検索モードなどで入力された音声が表わす文字列に類似する文字列を検索するために利用される。メールデータ３４０は、送信メールの本文（文字列）のデータや、受信メール、送信済みメールおよび未送信メールなどのデータから構成されるデータである。

カーソル指定フラグ３４２は、カーソル指定モードであるか否かを判断するためのフラグである。たとえば、カーソル指定フラグ３４２は１ビットのレジスタで構成され、カーソル指定フラグ３４２がオン（成立）されると、レジスタにはデータ値「１」が設定される。一方、カーソル指定フラグ３４２がオフ（不成立）されると、レジスタにはデータ値「０」が設定される。また、音声指定フラグ３４４は、音声指定モードであるか否かを判断するためのフラグである。そして、音声検索フラグ３４６は、音声検索モードであるか否かを判断するためのフラグである。なお、音声指定フラグ３４４および音声検索フラグ３４６の構成は、カーソル指定フラグ３４２と同じであるため、構成についての詳細な説明は省略する。

また、図示は省略するが、データ記憶領域３０４には、状態表示領域５０に表示する画像や文字列などを表示するためのデータが記憶されると共に、携帯端末１０の動作に必要な他のカウンタやフラグも設けられる。

ＣＰＵ２０ａは、「Ｌｉｎｕｘ（登録商標）」および「ＲＥＸ」などのＲＴＯＳ（ｒｅａｌ−ｔｉｍｅｏｐｅｒａｔｉｎｇｓｙｓｔｅｍ）の制御下で、図１０に示す送信メール作成処理、図１１に示すサブメニュー処理、図１２に示す信頼度閾値設定処理、図１３に示す文字編集処理、図１４に示す任意カーソル編集処理、図１５に示す音声認識入力処理、図１６に示す低信頼度部位編集処理、図１７に示すカーソル指定処理、図１８に示す音声指定処理、図１９に示す音声検索処理および図２０に示す変換部位検索処理などを含む複数のタスクを並列的に実行する。

図１０は、送信メール作成処理を示すフロー図である。たとえば、使用者が送信メールを作成する操作を行うと、ＣＰＵ２０ａはステップＳ１で、終了操作か否かを判断する。つまり、送信メールの作成を終了するための操作か否かを判断する。ステップＳ１で“ＹＥＳ”であれば、送信メール作成処理を終了し、上位処理であるメール機能処理に戻る。一方、ステップＳ１で“ＮＯ”であれば、ステップＳ３は送信操作か否かを判断する。つまり、送信メールをネットワークに送信するための操作であるか否かを判断する。ステップＳ３で“ＹＥＳ”であれば、ステップＳ５で送信処理を実行し、送信メール作成処理を終了する。つまり、ステップＳ５では、送信メールのデータをネットワークに送信する。

ステップＳ３で“ＮＯ”であれば、つまり送信操作でなければ、ステップＳ７でサブメニューの設定か否かを判断する。つまり、キー表示領域５４に表示されているサブメニューキー５６ｃが操作されたか否かを判断する。ステップＳ７で“ＹＥＳ”であれば、つまりサブメニューキー５６ｃが操作されていれば、ステップＳ９でサブメニュー処理を実行し、ステップＳ１に戻る。また、ステップＳ９で実行されるサブメニュー処理については後述するため、ここでの詳細な説明は省略する。一方、ステップＳ７で“ＮＯ”であれば、つまりサブメニューキー５６ｃが操作されていなければ、ステップＳ１１で題名の編集であるか否かを判断する。つまり、送信メールの題名を編集するための操作であるか否かを判断する。

ステップＳ１１で“ＹＥＳ”であれば、つまり題名を編集する操作であれば、ステップＳ１３で文書編集処理を実行し、さらにステップＳ１５で題名を設定する処理した後にステップＳ１に戻る。一方、ステップＳ１１で“ＮＯ”であれば、つまり題名を編集する操作でなければ、ステップＳ１７で本文の編集であるか否かを判断する。つまり、ステップＳ１７では送信メールの本文を編集する操作であるか否かを判断する。ステップＳ１７で“ＹＥＳ”であれば、ステップＳ１３と同様にステップＳ１９で文書編集処理を実行し、さらにステップＳ２１で本文を設定した後に、ステップＳ１に戻る。一方、ステップＳ１７で“ＮＯ”であれば、つまり本文を編集する操作でなければ、ステップＳ２３で宛先の設定であるか否かを判断する。なお、ステップＳ１３またはステップＳ１９で実行される文書編集処理については、図１３に示す文書編集処理を示すフロー図を用いて詳細に説明する。

ステップＳ２３で“ＹＥＳ”であれば、つまり宛先を設定する処理であれば、ステップＳ２５で宛先の設定処理を実行し、ステップＳ１に戻る。一方、ステップＳ２３で“ＮＯ”であれば、つまり宛先を設定する操作でなければ、ステップＳ２７でデータの添付か否かを判断する。つまり、送信メールにデータを添付するための操作がされたか否かを判断する。ステップＳ２７で“ＹＥＳ”であれば、つまりデータを添付する操作であれば、ステップＳ２９でデータの添付処理を実行し、ステップＳ１に戻る。一方、ステップＳ２７で“ＮＯ”であれば、つまりデータを添付する操作でなければ、ステップＳ１に戻る。

図１１はステップＳ９（図１０参照）で実行されるサブメニュー処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ９の処理が実行されると、ＬＣＤモニタ２６には図７（Ａ）に示すようにウインドウＷｃが表示され、ステップＳ４１で戻る操作であるか否かを判断する。つまり、戻るキー５６ｈが操作されたか否かを判断する。ステップＳ４１で“ＹＥＳ”であれば、つまり戻るキー５６ｈが操作されれば、サブメニュー処理を終了し、送信メール作成処理に戻る。一方、ステップＳ４１で“ＮＯ”であれば、つまり戻るキー５６ｈが操作されなければステップＳ４３で新規保存の操作か否かを判断する。たとえば、「１」の数字キーが操作されたか否かを判断する。ステップＳ４３で“ＹＥＳ”であれば、ステップＳ４５で作成中のメールを保存する処理を実行した後に、ステップＳ４１に戻る。つまり、ステップＳ４５では送信メールを未送信メールとしてＲＡＭ３０に保存（記憶）させる。

ステップＳ４３で“ＮＯ”であれば、つまり新規保存の操作でなければ、ステップＳ４７で編集内容の確認操作であるか否かを判断する。つまり、「２」の数字キーが操作されたか否かを判断する。

ステップＳ４７で“ＹＥＳ”であれば、ステップＳ４９で送信メールの確認表示処理を実行し、ステップＳ４１に戻る。つまり、ステップＳ４９では、送信メールの宛先、題名および本文のそれぞれが同一の画面で確認することが可能な、確認表示の処理を実行する。また、ステップＳ４７で“ＮＯ”であれば、ステップＳ５１で信頼度閾値の設定操作か
否かを判断する。つまり、「３」の数字キーが操作されたか否かを判断する。ステップＳ５１で“ＹＥＳ”であれば、ステップＳ５３で信頼度閾値設定処理を実行し、ステップＳ４１に戻る。このステップＳ５３の処理については後述するため、ここでの詳細な説明は省略する。また、ステップＳ５１で“ＮＯ”であれば、そのままステップＳ４１に戻る。

なお、サブメニュー処理は送信メールの本文を作成する処理と並列的に実行されてもよく、サブメニューキー５６ｃが表示されている状態であれば、実行できるようにしてあってもよい。

図１２は、ステップＳ５３（図１１参照）で実行される信頼度閾値設定処理を示すフロー図である。ＣＰＵ２０ａはステップＳ７１で信頼度設定画面を表示する。たとえば、図７（Ｂ）に示すように、ウインドウＷｄを表示する。続いて、ステップＳ７３では戻る操作か否かを判断する。つまり、戻るキー５６ｈが操作されたか否かを判断する。ステップＳ７３で“ＹＥＳ”であれば、つまり戻るキー５６ｈが操作されれば、信頼度閾値設定処理を終了して、サブメニュー処理に戻る。一方、ステップＳ７３で“ＮＯ”であれば、つまり戻るキー５６ｈが操作されなければ、ステップＳ７５で信頼度の変更操作か否かを判断する。たとえば、「１」〜「３」の数字キーのいずれか１つが操作されたか否かを判断する。ステップＳ７５で“ＮＯ”であれば、つまり信頼度の変更操作がされなければステップＳ７３に戻る。一方、ステップＳ７５で信頼度の変更操作がされれば、ステップＳ７７で変更操作に応じて信頼度を設定し、信頼度閾値設定処理を終了する。たとえば、「１」の数字キーが操作されれば信頼度の閾値は７０％（高い）に設定され、「２」の数字キーが操作されれば信頼度の閾値は６０％（普通）に設定され、「３」の数字キーが操作されれば信頼度の閾値は５０％（低い）に設定される。また、設定された信頼度の閾値を示すデータは、設定信頼度データ３３４としてＲＡＭ３０に記憶される。

図１３はステップＳ１３またはステップＳ１９（図１０参照）で実行される文書編集処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ１３またはステップＳ１９の処理が実行されると、ステップＳ９１で完了操作か否かを判断する。つまり、図３（Ａ）などに示す完了キー５６ｂが操作されたか否かを判断する。ステップＳ９１で“ＹＥＳ”であれば、つまり完了キー５６ｂが操作されれば、文書編集処理を終了して、送信メール作成処理に戻る。一方、ステップＳ９１で“ＮＯ”であれば、つまり完了キー５６ｂが操作されなければ、低信頼度部位があるか否かを判断する。つまり、信頼度テーブルデータ３３６を参照して、設定信頼度データ３３４が示す閾値以下の信頼度が記録されているか否かを判断する。

ステップＳ９３で“ＮＯ”であれば、つまり低信頼度部位がなければ、ステップＳ９５で任意カーソル編集処理を実行し、ステップＳ９１に戻る。また、このステップＳ９５の処理は後述するため、ここでの詳細な説明は省略する。また、ステップＳ９３で“ＹＥＳ”であれば、つまり低信頼度部位があれば、ステップＳ９７で低信頼度部位編集処理を実行する。また、このステップＳ９７の処理は後述するため、ここでの詳細な説明は省略する。

続いて、ステップ９９では、モードの再選択操作か否かを判断する。つまり、低信頼度文字列が表示されている状態で終了キー５６ｆ（図４（Ａ）参照）が操作されたか否かを判断する。ステップＳ９９で“ＹＥＳ”であれば、つまりモードの再選択操作であれば、ステップ９７に戻る。一方、ステップＳ９９で“ＮＯ”であれば、つまりモードの再選択操作でなければ、ステップＳ１０１で任意カーソル編集を行うか否かを判断する。つまり、図４（Ｃ）に示すウインドウＷｂに示される「ＹＥＳ」または「ＮＯ」を選択する操作結果によって判断する。ステップＳ１０１で“ＹＥＳ”であれば、つまり「ＹＥＳ」が選ばれれば、ステップＳ９５に進む。一方、ステップＳ１０１で“ＮＯ”であれば、つまり
「ＮＯ」が選ばれれば文書編集処理を終了して、送信メール作成処理に戻る。

図１４はステップＳ９５（図１３参照）で実行される任意カーソル編集処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ９５の処理が実行されると、ステップＳ１１１で、確定状態か否かを判断する。つまり、変換されていない平仮名が確定されたか否かを判断する。ステップＳ１１１で“ＹＥＳ”であれば、つまり平仮名が変換されて確定されれば、任意カーソル編集処理を終了し、文書編集処理に戻る。一方、ステップＳ１１１で“ＮＯ”であれば、つまり未確定の文字列が確定されていなければ、ステップＳ１１３で、文字列の表示を行う。つまり、入力文字バッファ３３２に格納されている文字列を読み出して、機能表示領域５２に表示する。なお、入力文字バッファ３３２に文字列が格納されていなければ、カーソルＣＵａのみが表示される。

続いて、ステップＳ１１５では、音声認識操作か否かを判断する。つまり、通常入力モードで、音声入力キー５６ｄが操作されたか否かを判断する。ステップＳ１１５で“ＹＥＳ”であれば、つまり音声入力キー５６ｄが操作されれば、ステップＳ１１７で音声認識入力処理を実行し、ステップＳ１１１に戻る。また、このステップＳ１１７の処理は後述するため、ここでの詳細な説明は省略する。

また、ステップＳ１１５で“ＮＯ”であれば、つまり音声入力キー５６ｄが操作されていなければ、ステップＳ１１９で方向キー操作か否かを判断する。つまり、カーソルＣＵａを移動させるために方向キー２２ｄが操作されたか否かを判断する。なお、機能表示領域５２にカーソルＣＵａのみが表示されている状態では、カーソルＣＵａの表示位置は変化しない。ステップＳ１１９で“ＹＥＳ”であれば、つまり方向キー２２ｄが操作されれば、ステップＳ１２１でカーソル移動の処理を実行し、ステップＳ１１１に戻る。一方、ステップＳ１１９で“ＮＯ”であれば、つまり、方向キー２２ｄが操作されていなければ、ステップＳ１２３で文字入力操作か否かを判断する。つまり、複数の文字入力キー２２ｅのいずれか１つが操作されたか否かを判断する。

ステップＳ１２３で“ＹＥＳ”であれば、つまり文字入力操作であればステップＳ１２５で文字の入力処理を実行し、ステップＳ１１１に戻る。つまり、ステップＳ１２５では、押下された文字キー応じて平仮名を表示し、さらにその表示した平仮名のデータを入力文字バッファ３３２に格納する。一方、ステップＳ１２３で“ＮＯ”であれば、つまり文字入力操作でなければステップＳ１２７で変換操作か否かを判断する。つまり、未確定の平仮名を変換する操作がされたか否かを判断する。ステップＳ１２７で“ＹＥＳ”であれば、つまり変換操作であれば、ステップＳ１２９で文字の変換処理を実行する。一方、ステップＳ１２７で“ＮＯ”であれば、つまり変換操作でなければ、ステップＳ１１１に戻る。

図１５はステップＳ１１７（図１４参照）、後述するステップＳ２０７（図１７参照）または後述するステップＳ２６９（図１９参照）で実行される音声認識入力処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ１１７、ステップＳ２０７またはステップＳ２６３のいずれかが実行されると、ステップＳ１４１で音声が入力されたか否かを判断する。つまり、第２マイク１６ｂに対して音声が入力されたか否かを判断する。ステップＳ１４１で“ＮＯ”であれば、つまり第２マイク１６ｂに音声が入力されなければ、ステップＳ１４１の処理を繰り返し実行する。一方、ステップＳ１４１で“ＹＥＳ”であれば、つまり第２マイク１６ｂに対して音声が入力されれば、ステップＳ１４３で入力された音声を音声データに変換する。つまり、第２マイク１６ｂに対して入力された音声は、ＤＳＰ２０ｂによって音声データに変換され、その音声データは音声認識バッファ３３０に格納される。

続いて、ステップＳ１４５では、音声辞書から音声データに対応する文字列を抽出する。つまり、ＲＯＭ３２に記憶されている音声辞書から、音声認識バッファ３３０に格納されている音声データと対応する参照音声データを特定することで、音声データを文字列に変換する。なお、音声データと対応する参照音声データを特定する手法は、先述した特徴パターンの照合による音声認識の手法または統計的決定理論に基づく音声認識の手法を利用する。

続いて、ステップＳ１４７では、抽出した各文字列のそれぞれに対応する信頼度テーブルを作成する。つまり、形態素単位で変換された各文字列と、各文字列のそれぞれに対応する尤度とを、信頼度テーブルデータ３３６としてＲＡＭ３０に記憶させる。なお、ステップＳ１４７の処理を実行するＣＰＵ２０ａは記録手段として機能する。

続いて、ステップＳ１４９では、カーソルＣＵａ（または編集カーソルＣＵｂ）の位置に基づいて、抽出した文字列を表示する。つまり、ステップＳ１４９では、カーソルＣＵａが示す文字列に基づいて、変換された各文字列を入力文字バッファ３３２に格納する。続いて、ステップＳ１５１では、低信頼度音声辞書データ３３８を作成し、音声認識入力処理を終了した後に、メインルーチンの処理に戻る。つまり、ステップＳ１５１の処理を実行するＣＰＵ２０ａは、文字列に変換するときに、形態素単位で分割された文字列と対応する各音声データから信頼度が閾値以下の文字列に対応する音声データのみを選出して、選出された音声データと、その選出された音声データに対応する文字列とを低信頼度音声辞書データ３３８としてＲＡＭ３０に記憶させる。なお、ステップＳ１５１の処理を実行するＣＰＵ２０ａは音声辞書記録手段として機能する。

図１６はステップＳ９７（図１３参照）で実行される低信頼度部位編集処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ９７の処理が実行されると、ステップＳ１６１では、低信頼度の文字列を特定する。つまり、信頼度テーブルデータ３３６内における閾値以下の文字列を特定する。なお、ステップＳ１６１の処理を実行するＣＰＵ２０ａは特定手段として機能する。

続いて、ステップＳ１６３では特定された文字列の背景色を変更して表示する。つまり、入力文字バッファ３３２に格納されている各文字列から、信頼度テーブルにおいて信頼度が閾値以下の文字列を特定し、ＬＣＤモニタ２６に表示されている画像データを変更する。たとえば、信頼度が閾値以下の文字列が「経済」であれば、入力文字バッファ３３２に格納されている「経済」の文字列を特定し、その「経済」を表示するための画像データを変更する。続いて、ステップＳ１６５では、モード選択のＧＵＩを表示する。たとえば、図３（Ｃ）のように、カーソル指定モード、音声指定モード、音声検索モードおよび通常入力モードを数字に対するキーによって選択させるウインドウＷａを表示する。なお、ステップＳ１６３およびステップＳ１６５の処理を実行するＣＰＵ２０ａは編集誘導手段として機能する。

続いて、ステップＳ１６７では、カーソル指定モードか否かを判断する。つまり、カーソル指定モードと対応する数字キーが操作されたか否かを判断する。ステップＳ１６７で“ＹＥＳ”であれば、つまりカーソル指定モードを選択する操作であれば、カーソル指定フラグ３４２をオンにし、ステップＳ１６９でカーソル指定処理を実行する。さらに、ステップＳ１６９の処理が終了すると、カーソル指定フラグ３４２をオフにし、低信頼度部位編集処理を終了して、文書編集処理に戻る。また、ステップＳ１６９の処理は後述するため、ここでの詳細な説明は省略する。

また、ステップＳ１６７で“ＮＯ”であれば、つまりカーソル指定モードを選択する操作でなければ、ステップＳ１７１で音声して音声指定モードか否かを判断する。つまり、
音声指定モードと対応する数字キーが操作されたか否かを判断する。ステップＳ１７１で“ＹＥＳ”であれば、つまり音声指定モードを選択する操作がされれば、音声指定フラグ３４４をオンにし、ステップＳ１７３で音声指定処理を実行する。さらに、ステップＳ１７３の処理が終了すると、音声指定フラグ３４４をオフにし、低信頼度部位編集処理を終了する。また、ステップＳ１７３の処理は後述するため、ここでの詳細な説明は省略する。

また、ステップＳ１７１で“ＮＯ”であれば、つまり音声指定モードを選択する操作がされなければ、ステップＳ１７５で音声検索モードか否かを判断する。つまり、音声検索モードに対応する数字キーが操作されたか否かを判断する。ステップＳ１７５で“ＹＥＳ”であれば、つまり音声検索モードを選択する操作がされれば、音声検索フラグ３４６をオンにし、ステップＳ１７７で音声検索処理を実行する。さらに、ステップＳ１７７の処理が終了すると、音声検索フラグ３４６をオフにし、低信頼度部位編集処理を終了する。また、このステップＳ１７７の処理は後述するため、ここでの詳細な説明は省略する。

また、ステップＳ１７５で“ＮＯ”であれば、つまり音声検索モードを選択する操作がされなければ、ステップＳ１７９で通常入力モードか否かを判断する。つまり、通常入力モードを選択するために数字キーが操作されたか否かを判断する。ステップＳ１７５で“ＹＥＳ”であれば、つまり通常入力モードが選択されれば、ステップＳ１８１で信頼度テーブルを更新し、低信頼度部位編集処理を終了する。つまり、低信頼度テーブルに記録される閾値以下の信頼度を１００％に変更する。これにより、使用者は、複数の低信頼度文字列が誤認識されていないと判断すれば、通常入力モードを選択することで、通常の文字入力を再開することができる。また、ステップＳ１７９で“ＮＯ”であれば、つまり通常入力モードを選択する操作でなければ、ステップＳ１６７に戻る。

図１７はステップＳ１６９（図１６参照）で実行されるカーソル指定処理を示すフロー図である。なお、ステップＳ２０７の処理については、ステップＳ１１７と同様であり、ステップＳ２１１−Ｓ２１５の処理については、ステップＳ１２５−Ｓ１２９と同様であるため、詳細な説明は省略する。ＣＰＵ２０ａは、ステップＳ１６９の処理が実行されると、ステップＳ１９１で確定操作か否かを判断する。たとえば、図４（Ａ）に示す編集キー５６ｅが長押しされた、あるいは確定キー５６ｇが操作されたか否かを判断する。ステップＳ１９１で“ＮＯ”であれば、つまり確定操作がされていなければ、ステップＳ１９７に進む。一方、ステップＳ１９１で“ＹＥＳ”であれば、つまり確定操作がされていれば、ステップＳ１９３で信頼度テーブルを更新する。

たとえば、編集カーソルＣＵｂによって選択された文字列の信頼度を１００％に変更する。また、編集キー５６ｅまたは確定キー５６ｇが長押しされた場合には、編集カーソルＣＵｂが選択する文字列に関係なく、信頼度テーブルにおける信頼度の列の値を全て１００％に変更する。続いて、ステップＳ１９５では、低信頼度部位があるか否かを判断する。つまり、信頼テーブルデータ３３８に、閾値以下の信頼度が記録されているか否かを判断する。ステップＳ１９５で“ＮＯ”であれば、つまり閾値以下の信頼度が記録されていなければ、カーソル指定処理を終了し、低信頼度部位編集処理に戻る。

また、ステップＳ１９５で“ＹＥＳ”であれば、つまり閾値以下の信頼度が記録されていれば、ステップＳ１９７で終了操作か否かを判断する。つまり、図４（Ａ）、図４（Ｂ）に示す終了キー５６ｆが操作されたか否かを判断する。ステップＳ１９７で“ＹＥＳ”であれば、つまり終了キー５６ｆが操作されていれば、カーソル指定処理を終了する。一方、ステップＳ１９７で“ＮＯ”であれば、つまり終了キー５６ｆが操作されていなければ、ステップＳ１９９で方向キー操作か否かを判断する。つまり、方向キー２２ｄが操作されたか否かを判断する。

ステップＳ１９９で“ＹＥＳ”であれば、つまり方向キー２２ｄが操作されればステップＳ２０１で編集カーソルＣＵｂの表示位置を更新し、ステップＳ１９１に戻る。つまり、ステップＳ２０１では、信頼度テーブルデータ３３６を参照し、入力された方向に応じて、他の低信頼度文字列を選択する。たとえば、図３（Ｄ）を参照して、「経済」が現在選択されている低信頼度文字列であり、右方向（または下方向）の操作がされると、「経済」の次に記録されている低信頼度文字列、つまり「医術」が編集カーソルＣＵｂによって選択された状態となる。また、「医術」が現在選択されている低信頼度文字列であり、左方向（または上方向）の操作がされると、「医術」の前に記録されている低信頼度文字列、つまり「経済」が編集カーソルＣＵｂによって選択された状態となる。

なお、信頼度テーブルにおいて、最上位に記録されている低信頼度文字列が選択されている状態で、上方向の操作がされた場合には、編集カーソルＣＵｂの表示位置を更新しなくてもよいし、信頼度テーブルの最下位に記録されている信頼度文字列が選択されるようにしてもよい。また、編集カーソルＣＵｂよって選択される低信頼度文字列が機能表示領域５２に表示されていない場合には、表示される文字列を更新して、編集カーソルＣＵｂおよび選択された低信頼度文字列が表示されるようにする。

また、ステップＳ１９９で“ＮＯ”であれば、つまり方向キー２２ｄが操作されていなければ、ステップＳ２０３で編集操作か否かを判断する。つまり、編集キー５６ｅが操作されたか否かを判断する。ステップＳ２０３で“ＮＯ”であればステップＳ１９１に戻る。一方、ステップＳ２０３で“ＹＥＳ”であれば、ステップＳ２０５で音声認識操作か否かを判断する。たとえば、編集キー５６ｅが操作された後に、音声入力の有無を判断する。ステップＳ２０５で“ＹＥＳ”であれば、つまり音声認識操作であれば、以降、音声認識モードであることを記憶して、ステップＳ２０７で音声認識入力処理を実行した後に、ステップＳ１９１に戻る。たとえば、ＣＰＵ２０ａは、音声認識モードであることを記憶するために、音声認識モードフラグ（図９では図示せず）をオンにする。

また、ステップＳ２０５で“ＮＯ”であれば、つまり音声認識操作でなければ、ステップＳ２０９で文字入力操作か否かを判断する。たとえば、編集キー５６ｅが操作された後に、文字入力キー２２ｅが操作されたか否かを判断する。ステップＳ２０９で“ＹＥＳ”であれば、以降、文字入力モードであることを記憶し、ステップＳ２１１で文字の入力処理を実行した後に、ステップＳ１９１に戻る。たとえば、ＣＰＵ２０ａは文字入力モードであることを記憶するために、文字入力モードフラグ（図９では図示せず）をオンにする。

一方、ステップＳ２０９で“ＮＯ”であれば、つまり文字入力操作でなければ、ステップＳ２１３で変換操作か否かを判断する。ステップＳ２１３で“ＹＥＳ”であれば、ステップＳ２１５で文字の変換処理を実行して、ステップＳ１９１に戻る。一方、ステップＳ２１３で“ＮＯ”であれば、そのままステップＳ１９１に戻る。

なお、ステップＳ２１１およびステップＳ２１５を実行するＣＰＵ２０ａは文字編集手段として機能する。

図１８はステップＳ１７３（図１６参照）で実行される音声指定処理を示すフロー図である。なお、ステップＳ２３１およびステップＳ２３３の処理はステップＳ１９７およびステップＳ１９５の処理と同じであるため、詳細な説明は省略する。ＣＰＵ２０ａは、ステップＳ１７３の処理が実行されると、ステップＳ２３１で、終了操作か否かを判断する。ステップＳ２３１で“ＹＥＳ”であれば、音声指定処理を終了し、低信頼度部位編集処理に戻る。一方、ステップＳ２３１で“ＮＯ”であれば、ステップＳ２３３で低信頼度部
位があるか否かを判断する。ステップＳ２３３で“ＮＯ”であれば、音声指定処理を終了する。

一方、ステップＳ２３３で“ＹＥＳ”であれば、ステップＳ２３５で方向キー操作か否かを判断する。つまり、方向キー２２ｄが操作されたか否かを判断する。ステップＳ２３５で“ＹＥＳ”であれば、つまり方向キー２２ｄが操作されれば、ステップＳ２３７で表示のスクロール処理を実行し、ステップＳ２３１に戻る。つまり、ステップＳ２３７では、入力された方向に応じて、機能表示領域５２内に表示される文字列をスクロール（変化）させる。たとえば、下方向の入力がされれば、まだ表示されていない送信メールの本文を表示するように下方向にスクロールする。また、上方向の入力がされれば、すでに表示された送信メールの本文を表示するように上方向にスクロールする。

このように、使用者は、ＬＣＤモニタ２６に表示される文字列の内容をスクロールさせることで、容易に他の低信頼度文字列を探すことができるようになる。

なお、表示されていない文字列がない場合には、方向キー２２ｄに対する入力がされても、機能表示領５２内の表示は変化しない。また、左右方向キーが入力された場合も同様に、機能表示領５２内の表示は変化しない。

また、ステップＳ２３５で“ＮＯ”であれば、つまり方向キー２２ｄが操作されなければ、ステップＳ２３９で音声が入力されたか否かを判断する。つまり、第２マイク１６ｂに音声が入力されたか否かを判断する。ステップＳ２３９で“ＹＥＳ”であれば、つまり音声が入力されれば、ステップＳ２４１で変換部位検索処理を実行した後に、ステップＳ２３１に戻る。このステップＳ２４１の処理は後述するため、ここでの詳細な説明は省略する。一方、ステップＳ２３９で“ＮＯ”であれば、つまり音声が入力されなければ、ステップＳ２３１に戻る。

図１９はステップＳ１７７（図１６参照）で実行される音声検索処理を示すフロー図である。なお、ステップＳ２５１−Ｓ２５７の処理はステップＳ１９１−Ｓ１９７の処理と同じであり、ステップＳ２５９，Ｓ２６１の処理はステップＳ２３５，Ｓ２３７と同じであり、ステップＳ２６５の処理はステップＳ２４１と同じであり、ステップＳ２６９の処理はステップＳ１１７またはステップＳ２０７と同じであるため、詳細な説明は省略する。

ステップＳ１７７の処理が実行されると、ＣＰＵ２０ａは、ステップＳ２５１で、確定操作か否かを判断する。ステップＳ２５１で“ＮＯ”であれば、ステップＳ２５７に進み、一方、“ＹＥＳ”であれば、ステップＳ２５３で信頼度テーブルを更新する。続いて、ステップＳ２５５では、低信頼度部位があるか否かを判断し、“ＮＯ”であれば音声検索処理を終了して、低信頼度編集処理に戻る。一方、ステップＳ２５５で“ＹＥＳ”であれば、ステップＳ２５７で、終了操作か否かを判断する。ステップＳ２５７で“ＹＥＳ”であれば、音声検索処理を終了し、“ＮＯ”であればステップＳ２５９で方向キー操作か否かを判断する。

ステップＳ２５９で“ＹＥＳ”であれば、ステップＳ２６１で表示のスクロール処理を実行して、ステップＳ２５１に戻る。一方、ステップＳ２５９で“ＮＯ”であれば、ステップＳ２６３で音声が入力されたか否かを判断する。つまり、第２マイク１６ｂによって、音声が入力されたか否かを判断する。ステップＳ２６３で“ＹＥＳ”であれば、つまり音声が入力されれば、ステップＳ２６５で変換部位検索処理を実行して、ステップＳ２５１に戻る。たとえば、任意の低信頼度文字列を表わす音声が入力されれば、ステップＳ２６５の処理が終了すると、任意の低信頼度文字列が編集カーソルＣＵｂによって選択され
た状態となる。

また、ステップＳ２６３で“ＮＯ”であれば、つまり音声が入力されなければ、ステップＳ２６７で入力操作か否かを判断する。たとえば、編集キー５６ｅが操作されたか否かを判断する。ステップＳ２６７で“ＹＥＳ”であれば、つまり入力操作がされれば、ステップＳ２６９で音声認識入力処理を実行して、ステップＳ２５１に戻る。また、ステップＳ２６７で“ＮＯ”であれば、ステップＳ２５１に戻る。たとえば、ステップＳ２６９の処理が終了すると、編集キー５６ｅが操作された後に入力された音声が文字列に変換されて、選択されている低信頼度文字列と置き換えられる。

なお、編集キー５６ｅが操作された後には、音声入力ではなく、通常入力によって低信頼度文字列を編集してもよい。つまり、ステップＳ２６７で“ＹＥＳ”と判断された後に、Ｓ２６９の代わりに、ステップＳ２０５−Ｓ２１５の処理を実行するようにしてもよい。そして、ステップＳ２０７，Ｓ２１１，Ｓ２１５の処理が終了した後には、ステップＳ２５１に戻るようにする。

図２０はステップＳ２４１（図１８参照）またはステップＳ２６５（図１９参照）で実行される変換部位検索処理を示すフロー図である。ＣＰＵ２０ａは、ステップＳ２４１またはステップＳ２６５が実行されると、ステップＳ２８１で、入力された音声を音声データに変換する。つまり、入力された音声はＤＳＰ２０ａによって音声データに変換される。続いて、ステップＳ２８３では、低信頼度音声辞書データ３３８を読み込む。つまり、低信頼度音声辞書データ３３８を構成する各音声データを、参照音声データとして読み込む。

続いて、ステップＳ２８５では、高相関部位の検索を行う。具体的には、参照音声データと入力された音声データとから、一定時間毎に変化する複数の特徴パターンを取得し、さらに、参照音声データと入力された音声データとのそれぞれの特徴パターンから相関値を算出する。そして、最も大きい相関値と対応する参照音声データが表わす文字列を抽出することで、信頼度テーブルデータ３３６から、抽出された文字列と一致する低信頼度文字列を検索する。このようにして、本実施例では、類似する文字列を検索するために、相関関数を利用することができる。なお、ステップＳ２８３およびステップＳ２８５の処理を実行するＣＰＵ２０ａは類似検索手段として機能する。

続いて、ステップＳ２８７では、音声検索モードか否かを判断する。つまり、音声検索フラグ３４６がオンであるか否かを判断する。ステップＳ２８７で“ＹＥＳ”であれば、つまり音声検索モードであれば、ステップＳ２８９で検索結果に応じて、編集カーソルＣＵｂの表示位置を更新し、変換部位検索処理を終了した後に、音声検索処理に戻る。たとえば、類似する文字列が「医術」であれば、編集カーソルＣＵｂによって「医術」が選択される。このように、再入力された音声の音声認識の結果によらず、使用者が意図する低信頼度文字列を選択することができる。そして、先述したとおり、使用者は、音声認識による文書の作成に都合のいいカーソルの操作を実行することができるようになる。

また、ステップＳ２８７で“ＮＯ”であれば、つまり音声検索フラグ３４６がオフであり、かつ音声指定フラグ３４４がオンであれば、ステップＳ２９１で音声辞書から音声データに対応する文字列を抽出する。つまり、ステップＳ１４５と同様に、ＲＯＭ３２に記憶された音声辞書から文字列を抽出する。

続いて、ステップＳ２９３では、高相関部位に基づいて、抽出した文字列を表示する。つまり、入力文字バッファ３３２から、ステップＳ２８５の処理による検索結果が示す文字列を特定し、音声辞書から抽出された文字列に置き換える。たとえば、検索結果の低信
頼度文字列が「経済」であり、音声辞書から抽出された文字列が「現在」であれば、機能表示領域５２では「経済」の文字列が「現在」の文字列に置き換えられる。続いて、ステップＳ２９５では、信頼度テーブルを更新し、変換部位検索処理を終了した後に、音声指定処理に戻る。たとえば、ステップＳ２９５では、信頼度テーブルに記録される「経済」を「現在」に置き換え、「現在」を音声認識した際に算出された尤度を信頼度として記録する。

なお、ステップＳ２０１またはステップＳ２８９の処理を実行するＣＰＵ２０ａはカーソル表示手段として機能する。また、ステップＳ２９３の処理を実行するＣＰＵ２０ａは置換手段として機能する。さらに、ステップＳ２０１、ステップＳ２３９およびステップＳ２６１の処理を実行するＣＰＵ２０ａはスクロール手段として機能する。

ここで、図６に示すプルダウンＰＤを利用した文字列の編集について、図２１に示す音声認識処理のフロー図を用いて詳細に説明する。なお、ステップＳ１４１−Ｓ１５１の処理については、すでに詳細に説明しているため、ここでは詳細な説明を省略し、ステップＳ３１１の処理から説明する。

ステップＳ３１１では、低信頼度文字列の編集か否かを判断する。つまり、カーソル指定フラグ３４２、音声指定フラグ３４４または音声検索フラグ３４６のいずれかがオンであるか否かを判断する。ステップＳ３１１で“ＮＯ”であれば、つまり低信頼度文字列の編集でなければ、ステップＳ１４５以下の処理を実行する。一方、ステップＳ３１１で“ＹＥＳ”であれば、音声辞書から音声データに対応する複数の文字列を抽出する。つまり、尤度が最も高い文字列だけでなく、一定値以上の尤度の文字列を全て抽出する。

続いて、ステップＳ３１５では、プルダウンメニューを表示する。つまり、図６に示すプルダウンＰＤを表示し、そのプルダウンＰＤ内に、抽出した複数の文字列を表示する。なお、ステップＳ３１５の処理を実行するＣＰＵ２０ａは一覧表示手段として機能する。続いて、ステップＳ３１７では、選択された文字列に対応する信頼度を記録する。つまり、信頼度テーブルに選択された文字列の尤度、つまり信頼度を記録する。なお、信頼度を記録する際には、編集カーソルＣＵｂによって選択されている文字列および対応する信頼度を上書きする。

続いて、ステップＳ３１９では、選択された文字列を表示し、音声認識入力処理を終了する。つまり、入力文字バッファ３３２に格納されている低信頼度文字列を、選択された文字列と置き換える。たとえば、図６を参照して、プルダウンＰＤ内の「満たない」が選択されていれば、「いたない」は「満たない」に置き換えられる。

また、音声検索モードにおいて、類似する文字列を検索するのではなく、新たに音声認識された文字列と一致する低信頼度文字列を検索する処理について、図２２を用いて詳細に説明する。なお、ステップＳ１４９およびステップＳ３１９の処理を実行するＣＰＵ２０ａは音声編集手段として機能する。

図２２を参照して、他の実施例では、変換部位検索処理におけるステップＳ２８１−Ｓ２８７，Ｓ２９１−Ｓ２９５における処理内容は同じであるため、詳細な説明は省略する。

ＣＰＵ２０ａは、ステップＳ２８１で入力された音声を音声データに変換し、次にステップＳ２９１で音声辞書から音声データに対応する文字列を抽出する。そして、ステップＳ２９１の処理が終了すると、ステップＳ２８７で音声検索モードか否かを判断する。

ステップＳ２８７で“ＮＯ”であれば、つまり音声検索モードではなく、音声指定モードあれば、ステップＳ２８３，Ｓ２８５，Ｓ２９３およびＳ２９５の順に、処理を実行し、変換部位検索処理を終了する。一方、ステップＳ２８７で“ＹＥＳ”であれば、つまり音声検索モードであれば、ステップＳ３３１で抽出した文字列と一致する低信頼度文字列を検索する。つまり、信頼度テーブルにおける文字列の列から、ステップＳ２９１で抽出された文字列を検索する。なお、ステップＳ３３１の処理を実行するＣＰＵ２０ａは検索手段として機能する。

続いて、ステップＳ２８９では、検索結果に応じて編集カーソルＣＵｂの表示位置を更新する。つまり、ステップＳ３３１の処理における検索結果に応じて、編集カーソルＣＵｂの表示位置を更新する。たとえば、新たに入力された音声の認識結果が「経済」であれば、低認識文字列である「経済」が検索結果となる。そして、「経済」が編集カーソルＣＵｂによって選択される。

以上の説明から分かるように、携帯端末１０は、使用者の音声を取り込む第２マイク１６ｂを含み、第２マイク１６ｂに入力された音声を音声認識して文字列を生成する。また、音声認識によって文字列を生成する際には、算出される尤度を音声認識の信頼度とし、生成する文字列とその文字列に対応する信頼度とを信頼度テーブルに記録する。そして、信頼度テーブルに基づいて、閾値以下の信頼度である文字列が特定され、特定された低信頼度文字列の背景色は、青色に彩色されて、ＬＣＤモニタ２６に表示される。

これによって、誤認識文字列の候補が一目で判断できるように表示されるため、使用者は、編集の要否を判断しやすくなり、音声認識を利用して効率よく文章を作成できる。

なお、音声認識における辞書データ（ＲＯＭ３２に記憶される音声辞書および低信頼度音声辞書データを含む）を構成する参照音声データのそれぞれに、尤度を算出する関数（式）が設定されていれば、類似する文字列を検索するために尤度を算出する各関数を利用してもよい。つまり、各関数にそれぞれを識別するための関数ＩＤを設定し、低信頼度文字列の信頼度を算出するために利用した関数ＩＤをそれぞれ記録する。そして、新たに入力された音声を音声認識する際に利用した関数ＩＤを、記録された各関数ＩＤから検索することで、類似する低信頼度文字列を検索することが可能である。

また、音声認識に利用するマイクは、第２マイク１６ｂだけに限らず、第１マイク１６ａであってもよい。さらに、マイクを備えない携帯端末１０であっても、市販のマイクを後付けし、図１０−図２２に示す各処理を実行可能なプログラムをインストールすることで、本実施例の効果を得られるようにしてもよい。

また、本実施例の文書編集機能は、送信メールの本文を編集するだけに限らす、メモ帳機能などの文字列を入力する機能であれば適用可能である。

また、ウインドウＷａ−Ｗｄで選択可能な各メニューは、数字キーによって選択するのではなく、メニューを選択するための専用カーソルによって選択されてもよい。

また、携帯端末１０の通信方式には、ＣＤＭＡ方式に限らず、Ｗ‐ＣＤＭＡ方式、ＴＤＭＡ方式、ＰＨＳ方式およびＧＳＭ（登録商標）方式などを採用してもよい。また、本実施例における携帯端末１０のＣＰＵ２０ａによって実行される各処理は、携帯端末１０のみに限らず、ＰＤＡ（ＰｅｒｓｏｎａｌＤｅｇｉｔａｌＡｓｓｉｓｔａｎｔ）などの携帯情報端末や、パーソナルコンピュータ（ＰＣ）などであってもよい。

１０ … 携帯端末
１６ａ … 第１マイク
１６ｂ … 第２マイク
２０ａ … ＣＰＵ
２０ｂ … ＤＳＰ
２２ … キー入力装置
２６ … ＬＣＤモニタ
３０ … ＲＡＭ
３２ … ＲＯＭ

Claims

文字入力キー、マイクおよび前記マイクによって取り込まれた音声信号から文字列を生成する音声認識手段を有し、前記文字入力キーに対するキー入力が可能な第１モードまたは前記マイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末であって、
前記第１モードへの切り替え操作を受け付ける第１受付手段、
前記第２モードへの切り替え操作を受け付ける第２受付手段、
前記第２モードに切り替えられた状態で、前記音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記憶する記憶手段、
前記音声認識手段によって生成された文字列を表示する表示手段、
前記データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定手段、
前記特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集手段、および
所定の操作がされたとき、前記特定手段によって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定手段を備え、
前記編集手段は、前記マイクによって取り込まれた音声のうち、前記特定された文字列に対応する音声と、その音声から生成された前記特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、前記音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、前記音声認識手段によって新たに生成された文字列に置換する、携帯端末。
前記特定手段によって特定された少なくとも１つ以上の文字列のうち、１つの特定された文字列を確定する操作がされたとき、前記１つの特定された文字列を確定文字列にする個別確定手段をさらに備える、請求項１記載の携帯端末。
前記編集手段は、前記文字入力キーに対するキー入力によって入力された文字列に基づいて、前記特定された文字列を編集する、請求項１または２記載の携帯端末。
前記編集手段は、前記音声認識手段によって生成された文字列の候補を一覧的に表示する一覧表示手段を含み、
前記編集手段は、前記一覧表示手段によって表示された候補が選択されたとき、選択された候補に基づいて前記特定された文字列を編集する、請求項１ないし３のいずれかに記載の携帯端末。
操作手段、および
前記特定された文字列を選択するカーソルを表示するカーソル表示手段をさらに備え、
前記カーソルは、前記操作手段に対する入力操作に応じて前記特定された文字列を選択し、
前記編集手段は、前記カーソルによって選択された文字列を編集する、請求項１ないし４のいずれかに記載の携帯端末。
文字入力キー、マイクおよび前記マイクによって取り込まれた音声信号から文字列を生成する音声認識手段を有し、前記文字入力キーに対するキー入力が可能な第１モードまたは前記マイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末のプロセッサを、
前記第１モードへの切り替え操作を受け付ける第１受付手段、
前記第２モードへの切り替え操作を受け付ける第２受付手段、
前記第２モードに切り替えられた状態で、前記音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記憶する記憶手段、
前記音声認識手段によって生成された文字列を表示する表示手段、
前記データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定手段、
前記特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集手段、および
所定の操作がされたとき、前記特定手段によって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定手段として機能させ、
前記編集手段は、前記マイクによって取り込まれた音声のうち、前記特定された文字列に対応する音声と、その音声から生成された前記特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、前記音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、前記音声認識手段によって新たに生成された文字列に置換する、編集誘導プログラム。
文字入力キー、マイクおよび前記マイクによって取り込まれた音声信号から文字列を生成する音声認識手段を有し、前記文字入力キーに対するキー入力が可能な第１モードまたは前記マイクに対する音声入力が可能な第２モードによって任意の文字を入力可能な、携帯端末における編集誘導方法であって、前記携帯端末のプロセッサが、
前記第１モードへの切り替え操作を受け付ける第１受付ステップ、
前記第２モードへの切り替え操作を受け付ける第２受付ステップ、
前記第２モードに切り替えられた状態で、前記音声認識手段によって生成される文字列およびそれらの信頼度を示すデータを記憶する記憶ステップ、
前記音声認識手段によって生成された文字列を表示する表示ステップ、
前記データを参照して所定値以下の信頼度の文字列を少なくとも１つ以上特定する特定ステップ、
前記特定された文字列に対する編集操作を受け付けたとき、当該特定された文字列を編集する編集ステップ、および
所定の操作がされたとき、前記特定ステップによって特定された少なくとも１つ以上の文字列を、全て確定文字列にする確定ステップを実行し、
前記編集ステップは、前記マイクによって取り込まれた音声のうち、前記特定された文字列に対応する音声と、その音声から生成された前記特定された文字列とを記録した音声辞書の音声のそれぞれと、新たに取り込まれた音声との相関値を算出することで、前記音声認識手段によって新たに生成された文字列と類似する文字列を検索し、検索された文字列を、前記音声認識手段によって新たに生成された文字列に置換する、編集誘導方法。