JP4012143B2

JP4012143B2 - 情報処理装置およびデータ入力方法

Info

Publication number: JP4012143B2
Application number: JP2003418645A
Authority: JP
Inventors: 寛樹山本; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2007-11-21
Anticipated expiration: 2023-12-16
Also published as: JP2005182208A; US20050131686A1; CN1629789A; EP1544719A2; EP1544719A3

Description

本発明は、キー・ボタン操作と音声認識機能とを併用したデータ入力技術に関する。

データ入力は現在の多くの情報機器を利用する上で必要となる作業である。

我々が日常的に利用している情報機器でおそらく最も多く入力するデータは文字であり、文字の入力は一般に、キーボード操作など煩雑な入力操作を伴う。特にキーやボタンなどの数が限られた携帯電話やＰＤＡなどの小型携帯端末での文字入力は、多数のキーを備えるパーソナル・コンピュータ等に比べ、キーやボタンを押す入力操作回数が多くなる。

このような煩わしい文字列入力を効率化する目的で、文字列を途中まで入力すると、入力した文字列に続く文字列の候補を予測して提示する入力予測機能（オートコンプリート機能、自動入力補完機能などともよばれる）を備えた文字入力方法が実現されている。

入力予測機能を用いた場合、提示された文字列の候補の中に所望の文字列があれば、その文字列を選択することによって文字列の入力を完了することができる。予測性能が高ければ、全ての文字列を入力せずに文字列入力を済ませることができる。さらに候補の文字列としてかな漢字変換後の候補文字列を提示することにより、かな漢字変換の操作も省略することが可能である。

このような文字入力支援のための文字列の入力予測に関する技術は多数提案されている（例えば、特許文献１，２および非特許文献１を参照。）。

一方、上記した入力予測とは異なる文字列入力の支援技術として、音声認識がある。音声認識を用いると、基本的に文字列入力のためのキー操作が不要になるため、キー操作に不馴れな人には効率的な文字列の入力が可能である。また、音声認識はキーの数が限られた機器での文字列の入力で効果を発揮する。

特開平０８―２３５３１８号公報特開平０８―２５５１５８号公報「POBox（Predictive Operation Based On eXample）」, ＵＲＬ：http://www.csl.sony.co.jp/person/masui/OpenPOBox/index.html

入力予測技術は、近年高性能化している携帯電話やＰＤＡなどの小型携帯端末上でも実現されており、非常に便利な機能であるが、提示された文字列の候補が複数ある場合には、所望の文字列を選択するための操作が煩雑になる場合がある。特にカーソル移動操作やスクロール操作のみで文字列を選択する場合には、所望の文字列に到達するまでカーソル位置移動の操作を繰り返す必要があり、候補が多数提示されている場合は操作回数が多くなる。

一方、音声認識の技術は、近年性能の改善が進み、数万語を扱えるディクテーションソフトウエアにより、オフィスなどの比較的静かな環境では、高性能なコンピュータ上での文字列の入力が快適に行うことができるようになってきた。しかしながら、数万語を扱う音声認識では、多くの計算機リソース（ＣＰＵ、メモリ）が必要なため、高性能化の進んだ最近の小型携帯端末でも快適な動作は望めない。また、現在のディクテーションソフトウエアでは背景雑音が大きい場所での認識性能は十分とは言えず、小型携帯端末がよく利用される屋外では、本来の性能を発揮できない。

携帯情報端末の使用環境、リソースを考慮すると、使用者にストレスを与えることのない応答速度を実現するには、認識語数をできるだけ少なくするのが最善の方法であるが、単純に語数を少なくするだけでは認識率が落ち、修正操作なしでは所望の文字列を入力できなくなってしまう。このように現在の技術で、小型携帯端末上で音声認識だけを用いて快適な文字列の入力を行なうのはやや困難と思われる。

また別の課題として、音声のみでは同音異表記語の識別ができないという課題もある。例えば、「きやのん」という音声入力に対して、「キヤノン」と「ＣＡＮＯＮ」のいずれの表記（語義は同じ）を採るかという問題は、その音声入力からだけでは判断することができない。

本発明は、このような課題に鑑みてなされたもので、文字列の予測機能と音声認識とを併用することにより、快適なデータ入力を実現することを目的としている。

本発明の一側面は、文字列を入力する文字列入力デバイスと、音声を入力する音声入力デバイスと、文字列を表示する表示デバイスとを備える情報処理装置に係り、次の構成を有することにより上記した課題を解決する。すなわち、この情報処理装置は、前記文字列入力デバイスにより入力された文字列に続く文字列候補を予測する予測手段と、前記予測手段により予測された文字列候補に同音異表記語が含まれる場合、当該同音異表記語の各々が別のグループに分かれるように前記文字列候補を複数のグループに分類する分類手段と、前記予測手段により予測された文字列候補を、前記分類手段により分類されたグループ毎に、前記表示デバイスに表示させる表示制御手段と、前記表示デバイスに表示されユーザによって選択されたグループにおける文字列候補に認識対象語を絞って、前記音声入力デバイスにより入力された音声に対し音声認識を行う音声認識手段と、前記音声認識手段による認識結果である文字列を使用文字列として確定する確定処理手段とを有することを特徴とする。

本発明の別の側面は、文字列を入力する文字列入力デバイスと、音声を入力する音声入力デバイスと、文字列を表示する表示デバイスとを備える情報処理装置におけるデータ入力方法に係り、前記文字列入力デバイスにより入力された文字列に続く文字列候補を予測する予測ステップと、前記予測ステップで予測された文字列候補に同音異表記語が含まれる場合、当該同音異表記語の各々が別のグループに分かれるように前記文字列候補を複数のグループに分類する分類ステップと、前記予測ステップで予測された文字列候補を、前記分類ステップにより分類されたグループ毎に、前記表示デバイスに表示させる表示制御ステップと、前記表示デバイスに表示されユーザによって選択されたグループにおける文字列候補に認識対象語を絞って、前記音声入力デバイスにより入力された音声に対し音声認識を行う音声認識ステップと、前記音声認識ステップによる認識結果である文字列を使用文字列として確定する確定処理ステップとを有することを特徴とする。

本発明によれば、文字列の予測機能と音声認識とを併用することにより、快適なデータ入力が実現される。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

（実施形態１）
以下では、本発明のデータ入力装置を携帯電話機に適用した例を示す。もっとも、本発明は携帯電話機に限定されるものではなく、ＰＤＡ等の携帯型端末をはじめ、パーソナルコンピュータ等のユーザからの文字入力を要するあらゆる情報処理装置に適用することが可能である。

図１は、本実施形態における携帯電話機の構成を示すブロック図である。

図１において、１０１は制御メモリ（ＲＯＭ）、１０２は中央処理装置（ＣＰＵ）、１０３はメモリ（ＲＡＭ）、１０４は外部記憶装置、１０５はキーやボタンなどの入力装置、１０６は液晶モニタなどの表示装置、１０７は音声入力装置（マイク）、１０８は音声出力装置（スピーカ）、１０９はバスである。図示のように、外部記憶装置１０４には、本実施形態の携帯電話機を実現するための制御プログラム１１０、文字列予測のために用いる文字列予測データ２０９、音響モデルをはじめとする音声認識を実行する際に必要な音声認識用データ２１０などが記憶される。文字列予測データ２０９は、例えば、かな漢字変換辞書や使用者の文字入力履歴などを利用して構成される。これらの制御プログラム１１０やデータ２０９，２１０は、ＣＰＵ１０２の制御の下、バス１０９を介してＲＡＭ１０３に取り込まれ、ＣＰＵ１０２によって実行される。言うまでもないことであるが、これらは外部記憶装置１０４ではなくＲＯＭ１０１に記憶してもよい。

図２は、本実施形態における携帯電話機の文字列入力に係る処理の機能構成を示すブロック図である。

操作入力部２０１は、使用者が入力装置１０５を用いて行なった文字入力をはじめとするボタンなどの操作を検出する。
文字列候補予測部２０２は、使用者が入力した文字列に続く文字列の候補を文字列予測用データ２０９を参照して予測する。
提示方法決定部２０３は、予測された文字列の候補の提示方法を決定する。
候補分類部２０４は決定された提示方法に従い、予測された文字列の候補を複数のグループに分類する。
文字列候補提示部２０５は決定された提示方法に従い文字列の候補を表示装置１０６に表示する。
別候補通知部２０６は候補を複数のグループに分けて提示する場合に、使用者に提示中の文字列候補以外に候補があることを通知する。
候補切り替え部２０７は候補を複数のグループに分けて提示する場合に、使用者が提示する文字列の候補を他のグループと切り替える操作を検出し、提示する候補のグループを切り替える。
音声認識部２０８は、文字列候補提示部２０５によって提示された文字列の候補を認識対象語とする音声認識を行なう。認識対象語の読みについては、文字列予測用データ２０９を参照して決定する。
音声合成部２１１は使用者へのデータの提示や各種通知を音声で行う場合に合成音を生成する。
文字列選択方法提示部２１２は、提示した文字列候補から使用者が所望の文字列を選択する方法を使用者に提示する。
選択方法決定部２１３は使用者が文字列の選択方法を選択する操作を検出し、文字列の選択方法を決定する。
制御部２００は以上の各モジュールを制御し、文字入力に係る全体の処理を統括する。

図３は入力装置１０５におけるボタン配置例を示す図である。

３０１、３０２は同心円上に配置されたボタンで、外輪の３０１は主にカーソル移動の移動方向を上下左右で指示する操作に用いられる。以降の説明では『↑』『↓』『←』『→』と表記する。内輪中央ボタン３０２は主に文字列選択の際に選択した候補を確定する操作に用いられる。以降『●』と表記する。３０３乃至３０６は文字列処理の処理過程の状態の遷移によって役割が変化するボタンであり、以降、それぞれ『♪』『★』『＊』『＃』と表記する。

以下、本実施形態における文字列入力処理を、図４，５を用いて説明する。図４は、本実施形態における文字列入力処理の流れを示すフローチャート、図５は、この文字列入力処理中における表示装置１０６の表示内容の遷移を示す図である。なお、文字列の候補の予測や音声認識については、既存の技術を使用することができるため詳細な説明は省略する。

ここでは、使用者が『今日はどうもありがとう』という文字列を入力する場合について説明するが、既に使用者が『今日はどうも』までを入力し終え、続く『ありがとう』と入力しようとしている状態であると仮定する。

『今日はどうも』まで入力した段階では、表示装置１０６の表示内容は図５の５１０のようになっている。

使用者は、『ありがとう』と入力するため最初の文字『あ』を入力する（ステップＳ４０１）。操作入力部２０１がこの『あ』の入力を検出すると、文字列候補予測部２０２は、文字列予測用データ２０９を参照して、『あ』に続く文字列の候補を予測する（ステップＳ４０２）。文字列予測用データ２０９は、上述したように、例えば、ひらがなと漢字の対応関係を示したかな漢字変換辞書や使用者の過去の文字入力履歴などを利用したものである。また、携帯電話では一般に『あ』以外の『あ』行の文字『い』『う』『え』『お』を入力する場合も『あ』のボタンを複数回押して入力するため、『あ』を１回押した段階で、『あ』行全ての文字で始まる文字列を文字列候補として予測しても良い。

予測した文字列候補は文字列候補提示部２０５によって出力装置１０６に提示される（ステップＳ４０３）。この際、提示方法決定部２０３が文字列の提示順を規定してもよい。例えば、文字列予測用データ２０９に使用者の過去の文字入力履歴を用いる場合、これを参照して文字列の使用頻度順に表示してもよいし、あるいは最も最近に入力された文字列から順に表示してもよい。また、予測した文字列の候補数が多数の場合は、前述したような基準を用いて提示順を決め、所定の数の文字列候補だけを表示するようにしてもよい。また、別の方法として文字列候補を提示する画面領域のサイズから提示可能な文字列候補数を割り出し、その数だけ文字列候補を表示してもよい。また、ステップS４０３では、提示した文字列候補の選択方法と同時に、文字列選択方法提示部２１２により、文字列選択の方法も提示される。

ここでは『あ』の入力に対して、ステップＳ４０２で、文字列候補として『アイディア』『会う』『会えない』『朝ごはん』『ありがとう』『合わない』を予測したものとして説明を続ける。また、本実施形態では、音声認識による文字列選択と、ボタン操作による文字列選択が併用できる場合を説明する。

図５の５２０に、予測した文字列候補を提示した様子を示す。この例では、画面を二分割し、文字入力画面５２１に入力中の文字列を、文字列選択画面５２２に文字列候補を表示する。なお、文字列の候補の表示に伴い、文字列選択方法提示部２１２により文字列の選択方法を指定するための操作ボタンガイド５２３を表示する。また、現在の操作対象が文字入力を行なっている画面である示すため文字入力画面の背景色を変えるなどしてハイライトする。以上のような文字列候補の提示や操作ボタンガイドの追加表示については、提示方法決定部２０３が制御する。

ステップＳ４０４において、提示された文字列候補中に使用者の所望する文字列がない場合は、ステップＳ４０１に戻ってさらに続けて文字列を入力し、所望の文字列がある場合にはステップＳ４０５に進む。

ステップＳ４０５において、使用者は所望の文字列を選択する操作へと移る。使用者が音声認識を利用する場合はステップＳ４０９へ、ボタン操作を利用する場合はステップＳ４０６へと進む。

まず、ボタン操作で選択する場合について説明する。使用者はボタン操作による文字列選択を選択するための操作を行なう（ステップＳ４０６）。この操作は選択方法決定部２１３で検出し、以降の文字列の選択をボタン操作により実行する。本実施形態では、図３の３０４で示した『★』ボタンを押すことでボタン操作が選択される。図５の５３０に、ボタン選択を選んだ場合の表示内容を示す。５３０では操作対象が文字列候補を表示した画面に移ることを示すため、画面のハイライトが文字入力画面から文字列選択画面へと移り、文字選択画面の最初の文字列候補『アイディア』の位置にカーソルを表示している。また、この時点で『★』ボタンの機能を変更し、『戻る（操作対象を文字入力画面に戻す)』にする。

続いて使用者はボタン操作により所望の文字列を選択する（ステップＳ４０８)。図５において、目的の文字列『ありがとう』を選択するためには、使用者は図３の３０１の『↓』『→』ボタンを押してカーソル位置を『ありがとう』に移動する。この間の画面の遷移を５４０、５５０に示す。

次に、ステップＳ４０８で、使用者は使用文字列を確定する操作を行なう。５５０を表示している状態で使用者が３０２の『●』ボタンを押すと選択中の文字列『ありがとう』が使用文字列として確定される。文字列『ありがとう』を確定後の画面を５６０に示す。以上が予測した文字列候補をボタン操作により選択する場合の処理である。

次に、ステップＳ４０５において使用者が音声認識の利用を選択した場合について説明する。使用者は音声認識による文字列選択を選択するための操作を行なう（ステップＳ４０９）。この操作は選択方法決定部２１３で検出し、以降の文字列の選択を音声認識により実行する。

本実施形態では、『♪』ボタン３０３を押すことにより、音声認識が選択される。図５の５２０において、使用者が『♪』を押すと画面のハイライトが文字入力画面から文字選択画面に移る。なお、音声認識を選択した場合は、カーソル移動による文字選択を行なわないため、文字列選択画面にカーソルを表示しない。次に使用者が所望の文字列『ありがとう』を発声する（ステップＳ４１０）。音声認識部２０８はこの使用者の発声を音声認識し（ステップＳ４１１）、得られた認識結果の文字列を使用文字列として確定する（ステップＳ４１２）。ステップＳ４１２における音声認識は、文字列候補提示部２０５によって提示された文字列のみを認識対象語とする。また、これらの認識対象語の読みは、文字列予測用データ２０９を参照して音声認識部２０５が決定する。音声認識により文字列が選択される場合の表示画面の遷移を図５の５７０から５６０への遷移で示す。

このように、本実施形態によれば、入力装置１０５を用いて入力された文字に続く文字列候補が表示され、音声認識によってこの文字列候補の中から使用文字列を選択することができ、煩雑なボタン操作を大幅に減らすことができる。また、ここで行われる音声認識は表示された文字列候補だけを認識対象語とするので、この音声認識処理は少ない演算量で済む。したがって、このような音声認識を例えば小型携帯端末等で実現する場合にも、高い認識率を維持しつつ十分高速に動作させることが可能となる。

（実施形態２）
上述の実施形態１では、ステップＳ４１２において、ステップＳ４１１の音声認識結果の確認をユーザが行なうことなく使用文字列を確定する例を示したが、この場合には誤って所望の文字列とは異なる文字列を音声認識した場合は誤った文字列が使用文字列として確定されてしまう。これを回避するためには、認識結果を確認するステップが必要となる。そこで本実施形態では、認識結果の確認を行ってから使用文字列を確定する例を、図６を用いて説明する。

図６は、認識結果の確認を行なってから使用文字列を確定する場合の処理の流れを示すフローチャートであり、図４のフローチャートにおけるＤ−Ｅ間で行われるステップＳ４１０〜Ｓ４１２に代わる処理ブロックのみを示している。その他の処理ブロックの内容は実施形態１と同様であるので説明を省略し、図４と相違するＤ−Ｅ間における処理部分のみを説明する。

実施形態１における説明と同様に、使用者が所望の文字列『ありがとう』と発声すると（ステップＳ６０１）、音声認識部２０８はこれを音声認識し（ステップＳ６０２）、認識結果を提示する（ステップＳ６０３）。これにより使用者はその結果の正誤を判断できる（ステップＳ６０４）。認識結果が誤っている場合は、ステップＳ６０１に戻って再度所望の文字列『ありがとう』を発声する（ステップＳ６０1）。正しい認識結果が得られないかぎり、ステップＳ６０１〜Ｓ６０４の各ステップを正しい認識結果が得られるまで繰り返し実行することになる。ステップＳ６０４において正しい認識結果が得られた場合は、使用者が文字列を確定する操作を行ない、得られた認識結果で文字列を確定する（ステップＳ６０５）。

本実施形態を用いた場合の画面表示の遷移を図７に示す。

図７は、実施形態１と同様に『今日はどうもありがとう』の『ありがとう』を入力する場合に、文字列選択の際の音声認識が認識誤りを起こした場合を示している。

７１０は『今日はどうも』までが確定された状態で、ここで使用者が『あ』を入力すると実施形態１と同様に『あ』から予測される文字列の候補が提示される（７２０）。ここで、使用者が文字列選択に音声認識を利用するため『♪』ボタンを押し音声認識が開始される（７３０）。使用者の『ありがとう』の発声に対し、誤って『朝ごはん』が認識された場合のステップＳ６０３における表示が７４０である。この表示例では、提示していた文字列候補のうち認識結果に対応する文字列にカーソルを移動する（文字列にアンダーラインが引かれる）ことで認識結果を提示する例である。認識結果の提示方法は、これに限るものではなく、例えば認識結果に該当する文字列を反転表示して認識結果を提示しても良い。提示した認識結果『朝ごはん』は目的の『ありがとう』ではないので使用者は再度『ありがとう』の発声を行なう（Ｓ６０４、ＮＯ→Ｓ６０１）。二回目の発声が正しく認識され認識結果として『ありがとう』を提示した様子を７５０に示す（Ｓ６０２、Ｓ６０３）。認識結果が正しいので使用者は、『●』ボタンを押して文字列を確定する（Ｓ６０４、ＹＥＳ→Ｓ６０５）。文字列が確定すると実施形態１と同様に、表示されていた予測した文字列候補を表示する画面が消滅し、文字を入力する画面に戻る（７６０）。

このように、本実施形態によれば文字列選択の際の音声認識が認識誤りを起こした場合に、正しく認識されるまで使用者が再度発声することができ、認識誤りの修正を容易に行うことができる。

（実施形態３）
上述の実施形態では、予測した文字列候補を全て提示するか、あるいは候補が多数ある場合は所定数の文字列候補を提示するようにしていただけで、予測した文字列候補の中に同じ読みをもつ文字列候補が複数ある場合の提示方法については特に考慮されていない。本実施形態では、これらを考慮した文字列候補の提示について説明する。

本実施形態の特徴は、予測した文字列候補が多数ある場合や、文字列候補の中に同じ読みを持つ文字列候補がある場合に、文字列候補を複数のグループに分類し、複数回に分けて候補を提示する点にある。以下、図８を用いてその処理を詳しく述べる。

図８は、本実施形態における文字列候補を提示する処理の流れを示すフローチャートである。このフローチャートは図４の一部を示したもので、図４のフローチャートにおけるＡ−Ｂ間のステップＳ４０３，Ｓ４０４に代わる処理ブロックのみが示されている。その他の処理ブロックの内容は実施形態１と同様であるので説明を省略し、図４と相違するＡ−Ｂ間の処理部分だけを説明する。なお、本実施形態と、実施形態２で説明した処理を組み合わせられることは言うまでもない。

まず、ステップＳ８０１では、図４のステップＳ４０２で予測した文字列候補の数が所定数Ｎよりも多いか否かを判断する。ここで、文字列候補数がＮよりも多い場合は、文字列候補を複数に分けて提示するべくステップＳ８０３以降の処理を行なう。ここでＮは一度に提示する候補数であるが、この数はあらかじめ決めておいてもいいし、予測された文字列候補の文字数および提示可能な表示領域のサイズから提示可能な候補数を文字列の予測の都度求めてもよい。

候補数がＮ以下の場合はステップＳ８０２に進む。ここでは同音異表記語があるかどうかを判断する。例えば、文字列候補の中に『日本（にほん）』『二本（にほん）』のように読みが同じ文字列候補がある場合には、音声認識では一意に文字列を選択することができなくなるので、ステップＳ８０３以降の処理で文字列候補を複数に分けて提示する処理を行なう。以上の文字列候補の提示方法の決定は提示方法決定部２０３で行う。なお、文字列候補数がＮ以下でかつ文字列候補中に同じ読みを持つ文字列が存在しない場合にはステップＳ８０８、Ｓ８０９に進むが、これらはそれぞれ図４のＳ４０３、Ｓ４０４と同様の処理であるから説明は省略する。上記したステップＳ８０１およびＳ８０２の判断処理は、提示方法決定部２０３の処理による。

ステップＳ８０３では、候補分類部２０４により文字列候補を複数のグループに分類する。分類の際は、例えば、使用頻度の高い文字列候補から順にＮ個ずつを抽出してグループ分けしてもよいし、文字列候補を五十音順に並べ替えて順にＮ個ずつ抽出してグループ分けするようにしてもよい。ただし、同一グループ内に同じ読みの文字列候補が含まれないように分類する。また別の方法として、後段の処理で行なう音声認識の精度を高めるため、各グループ内の候補文字列の音響的な分離度が高くなるような分類基準を用いることが好ましい。

次にステップＳ８０４で、使用者に提示するグループを選択する。この時、使用頻度順に分類した場合には最も使用頻度の高いグループを選択する。五十音順で分類した場合も同様に五十音順の最初のグループを選択する。音響的分離度を基準にした場合には音響的な分離度が最も高いグループを選択する。

続いてステップＳ８０５に進み、文字列候補提示部２０５が選択されたグループの文字列候補を表示装置１０６上に提示するとともに、別候補通知部２０６が提示した文字列候補以外にも文字列候補があることを使用者に対して通知する。また、実施形態１と同様に文字列の選択方法を文字列選択方法提示部２１２により提示する。

ステップＳ８０６において、使用者は提示された文字列候補に所望の文字列があるかどうかを判断する。ここで、提示された文字列候補内に所望の文字列がある場合には図４のＳ４０５へ進み、実施形態１と同様に提示した文字列候補の中から所望の文字列を選択する操作を行なう。一方、提示された文字列候補内に所望の文字列がない場合にはステップＳ８０７において、使用者は他のグループを選択するか、図４のステップＳ４０１に戻って次の文字の入力を行う。ここで使用者が他のグループを選択した場合は、候補切り替え部２０７が使用者のグループ選択の操作を検出し、提示する候補を使用者が選択したグループに切り替え、Ｓ８０５に戻り同様の手順を繰り返す。

以上の実施形態で述べた手順にしたがい、予測した文字列候補内に同じ読みを持つ文字列候補がある場合の文字列候補の提示例および提示する候補を切り替える様子を図９に示す。

図９は、使用者が『明日の日本』と入力しようとして、『明日の』に続いて『日本』を入力するために『に』と入力した場合の文字列候補の提示例を示している。ここで、一度に提示する文字列の候補数Nは、N=８に設定されているものとする。

９１０は『明日の』までが確定した様子を示している。続いて使用者が入力した『に』から５つの文字列候補『日本（にほん）』『二本（にほん）』『にんじん』『日程』『日時』が得られたとする（Ｓ４０１〜Ｓ４０２）。N=８に設定されているため、ステップＳ８０２に移る。予測した文字列候補の中に読みが同じ『にほん』になる『日本』と『二本』の二つの文字列候補があるため（ステップＳ８０２）、『日本』と『二本』が異なるグループになるよう二つのグループを五十音順に『日時、日程、二本、にんじん』と『日本』とに分類する（ステップＳ８０３）。

五十音順で先のグループである『日時、日程、二本、にんじん』を提示するグループとして選択し（ステップＳ８０４）、使用者に選択された文字列候補を提示する（ステップＳ８０５）。同時に別候補通知部２０６により提示した文字列候補以外に候補があることを通知する（ステップＳ８０５）。９２０にその様子を示す。９２１の『＃次の候補』は、別候補通知部２０６による通知の例である。

この時点では、所望の文字列『日本』が提示されていないので、使用者は『＃』を押して、他の候補を見るため別の候補を選択する（ステップＳ８０６）。使用者の候補切り替えの操作を候補切り替え部２０７が検出し、使用者が選択した次の候補すなわち次のグループを提示するグループ（『日本』）として選択する（ステップＳ８０４）。『日本』を使用者に提示した例が９３０である。提示している『日本』以外に最初に提示したグループの文字列候補があるので、９２１で示される『＃次の候補』の他に９２２で示される『＊前の候補』を表示することにより、他の文字列候補があることを提示する（ステップＳ８０５）。以降、実施形態１または実施形態２で示した手順により提示した文字列候補から文字列の選択・確定処理が行われる。

このように、本実施形態によれば、予測した文字列候補の中に同音異表記語が含まれる場合には、同音異表記語がそれぞれ異なるグループに分かれるように文字列候補をグループ分けして、グループ毎に文字列候補を提示するようにしたので、グループ毎に認識結果を一意に定めることができ、ユーザの選択操作を省くことができる。

また、この他に、上述の実施形態において、予測した文字列候補を提示する際に、予測した文字列候補中に『日本（にっぽん）』と『日本（にほん）』のように読みが異なる同一の文字列候補が複数ある場合には、提示方法決定部２０３において、一つだけを選択して提示するようにしてもよい。また、その際、他の文字列候補の読みとの音響的な分離度が高い読みを持つ候補を選択するようにしてもよい。例えば、『日本（にっぽん）』、『日本（にほん）』、『二本（にほん）』が予測された文字列候補であった場合、『日本（にほん）』と『二本（にほん）』が同じ読み（音響的には全く同じであるため、音響的な分離度は０）なので、『日本（にほん）』と『日本（にっぽん）』とのうちから『日本（にっぽん）』を選択し、文字列候補として『日本（にっぽん）』と『二本（にほん）』を提示するようにする。

このような処理を行うことによって、ユーザの選択操作を省くことができる。

（その他の実施形態）
以上の実施形態では、予測した文字列候補を提示する際に、文字列のみを提示したが、これに限るものではなく、文字列候補とともに各文字列候補の読みを併せて提示しても良い。また、文字列候補中にかな文字以外が含まれる場合のみ読みを提示するようにしても良い。また、かなのみの文字列候補であっても表記と読みが異なる場合は読みを提示するようにしてもよい。

図１０に文字列候補と読みを提示する例を示す。１００１は、全ての文字列候補について読みを提示した場合の例である。１００２は、文字列候補中にひらがな・カタカナ文字以外が含まれる場合だけ読みを提示した例である。例えば、文字列『アイディア』は、全てカタカナ文字で構成されるので読みを提示しない。ただし例外もある。１００３は、ひらがな・カタカナのみの文字列候補であっても表記と読みが異なる場合は読みを提示した例である。例えば、文字列『キヤノン』はカタカナ文字のみで構成されるが、読みが『きゃのん』なので読みを提示する。

以上説明した実施形態では、文字列候補の提示および認識結果の提示および別候補があることの通知を表示装置１０６に表示する場合を説明したが、これに限るものではなく、音声合成部２１１により音声合成して音声出力装置１０８から音声を用いて提示してもよい。

また、以上説明した実施形態では、本発明の一実施形態として文字列入力に関して説明を行ったが、これに限るものでなく、例えば画像データの入力を画像に付与された名前で入力する場合など、他の形態のデータを入力する装置においても実施可能である。

以上説明したように、本発明のデータ入力装置は、入力可能なデータの予測と音声認識を組み合わせ、予測されたデータ候補から音声認識により所望のデータを選択することにより、データの予測のみ、あるいは音声認識のみを用いた場合のデータ入力に比べ効率の良いデータ入力が可能となる。

また、予測されたデータ候補内に同じ読みのデータが複数ある場合に、これらのデータを複数のグループに分けて提示し、一度に提示するデータ候補中に同じ読みを持つデータをなくすことにより、音声認識により一意に所望のデータを選択できるようになり、データ入力に音声認識を用いた際の利便性が向上する。

（他の実施形態）
以上、本発明の実施形態を詳述したが、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても実現が可能である。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

従って、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

実施形態における携帯電話機の構成を示すブロック図である。実施形態における携帯電話機の文字列入力に係る処理の機能構成を示すブロック図である。実施形態における入力装置のボタン配置例を示す図である。実施形態における文字列入力処理の流れを示すフローチャートである。文字列入力処理中における表示装置の表示内容の遷移を示す図である。認識結果の確認を行なってから文字列を確定する場合の処理の流れを示すフローチャートである。文字列選択の際の音声認識が認識誤りを起こした場合の処理を説明する図である。実施形態３における文字列候補を提示する処理の流れを示すフローチャートである。実施形態３における文字列候補の提示例を説明する図である。文字列候補と読みを提示する例を示す図である。

Claims

文字列を入力する文字列入力デバイスと、音声を入力する音声入力デバイスと、文字列を表示する表示デバイスとを備える情報処理装置であって、
前記文字列入力デバイスにより入力された文字列に続く文字列候補を予測する予測手段と、
前記予測手段により予測された文字列候補に同音異表記語が含まれる場合、当該同音異表記語の各々が別のグループに分かれるように前記文字列候補を複数のグループに分類する分類手段と、
前記予測手段により予測された文字列候補を、前記分類手段により分類されたグループ毎に、前記表示デバイスに表示させる表示制御手段と、
前記表示デバイスに表示されユーザによって選択されたグループにおける文字列候補に認識対象語を絞って、前記音声入力デバイスにより入力された音声に対し音声認識を行う音声認識手段と、
前記音声認識手段による認識結果である文字列を使用文字列として確定する確定処理手段と、
を有することを特徴とする情報処理装置。
使用者に認識結果の正誤を確認させるために、前記表示デバイスに表示されている文字列候補のうち、前記音声認識手段により認識結果とされた文字列を強調表示させ、この状態で前記音声入力デバイスにより再度入力された発声に対して音声認識を実行するよう、前記表示制御手段および前記音声認識手段を制御する制御手段を更に有し、
前記確定処理手段は、前記制御手段による制御下において、前記文字列入力デバイスにおける所定のボタンが押されたことを検知した時点における認識結果を使用文字列として確定することを特徴とする請求項１に記載の情報処理装置。
前記音声認識手段は、前記予測手段により予測された文字列候補に同音異表記語が含まれる場合で、かつ、少なくともいずれかの同音異表記語に別の読みがある場合には、該別の読みがある同音異表記語については、該別の読みで音声認識を行うことを特徴とする請求項１又は２に記載の情報処理装置。
前記表示制御手段は、前記文字列候補に対応する読みを表示させることができ、前記予測手段により予測された文字列候補に同音異表記語が含まれる場合で、かつ、少なくともいずれかの同音異表記語に別の読みがある場合は、該別の読みがある同音異表記語については、該別の読みを選択して表示させることを特徴とする請求項１から３までのいずれか１項に記載の情報処理装置。
文字列を入力する文字列入力デバイスと、音声を入力する音声入力デバイスと、文字列を表示する表示デバイスとを備える情報処理装置におけるデータ入力方法であって、
前記文字列入力デバイスにより入力された文字列に続く文字列候補を予測する予測ステップと、
前記予測ステップで予測された文字列候補に同音異表記語が含まれる場合、当該同音異表記語の各々が別のグループに分かれるように前記文字列候補を複数のグループに分類する分類ステップと、
前記予測ステップで予測された文字列候補を、前記分類ステップにより分類されたグループ毎に、前記表示デバイスに表示させる表示制御ステップと、
前記表示デバイスに表示されユーザによって選択されたグループにおける文字列候補に認識対象語を絞って、前記音声入力デバイスにより入力された音声に対し音声認識を行う音声認識ステップと、
前記音声認識ステップによる認識結果である文字列を使用文字列として確定する確定処理ステップと、
を有することを特徴とするデータ入力方法。
使用者に認識結果の正誤を確認させるために、前記表示デバイスに表示されている文字列候補のうち、前記音声認識ステップで認識結果とされた文字列を強調表示させ、この状態で前記音声入力デバイスにより再度入力された発声に対して音声認識を実行するよう、前記表示制御ステップおよび前記音声認識ステップにおける各処理を制御する制御ステップを更に有し、
前記確定処理ステップは、前記制御ステップによる制御下において、前記文字列入力デバイスにおける所定のボタンが押されたことを検知した時点における認識結果を使用文字列として確定することを特徴とする請求項５に記載のデータ入力方法。
前記音声認識ステップは、前記予測ステップで予測された文字列候補に同音異表記語が含まれる場合で、かつ、少なくともいずれかの同音異表記語に別の読みがある場合には、該別の読みがある同音異表記語については、該別の読みで音声認識を行うことを特徴とする請求項５又は６に記載のデータ入力方法。
前記表示制御ステップは、前記文字列候補に対応する読みを表示させることができ、前記予測ステップで予測された文字列候補に同音異表記語が含まれる場合で、かつ、少なくともいずれかの同音異表記語に別の読みがある場合は、該別の読みがある同音異表記語については、該別の読みを選択して表示させることを特徴とする請求項５から７までのいずれか１項に記載のデータ入力方法。
文字列を入力する文字列入力デバイスと、音声を入力する音声入力デバイスと、文字列を表示する表示デバイスとを備えるコンピュータが実行可能なプログラムであって、
前記文字列入力デバイスにより入力された文字列に続く文字列候補を予測する予測ステップのコードと、
前記予測ステップで予測された文字列候補に同音異表記語が含まれる場合、当該同音異表記語の各々が別のグループに分かれるように前記文字列候補を複数のグループに分類する分類ステップのコードと、
前記予測ステップで予測された文字列候補を、前記分類ステップにより分類されたグループ毎に、前記表示デバイスに表示させる表示制御ステップのコードと、
前記表示デバイスに表示されユーザによって選択されたグループにおける文字列候補に認識対象語を絞って、前記音声入力デバイスにより入力された音声に対し音声認識を行う音声認識ステップのコードと、
前記音声認識ステップによる認識結果である文字列を使用文字列として確定する確定処理ステップのコードと、
を含むことを特徴とするプログラム。
請求項９に記載のプログラムを格納したコンピュータ読み取り可能な記憶媒体。