JP2010002830A

JP2010002830A - 音声認識装置

Info

Publication number: JP2010002830A
Application number: JP2008163145A
Authority: JP
Inventors: Masaki Takakura; 正樹高倉
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2008-06-23
Filing date: 2008-06-23
Publication date: 2010-01-07

Abstract

【課題】この発明は音声認識装置に関し、入力された音声を認識した結果である認識文字列を複数個入力する場合の入力操作を容易にすることを課題とする。
【解決手段】音声を入力する音声入力部と、入力された音声を認識し、その音声に対応した認識文字列を生成する音声認識部と、前記認識文字列を表示する表示エリアを有する表示部と、前記表示エリアの任意の位置を指定するカーソルを表示エリアに表示させ、かつ移動させるカーソル制御部と、前記表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、新たに入力された音声に対応する第１の認識文字列と、すでに表示エリアに表示された第２の認識文字列とに対する編集処理を実行するキーワード入力制御部とを備えたことを特徴とする。
【選択図】図２

Description

この発明は、音声認識装置に関し、特に、所望の文字情報を音声で入力し、入力した音声を認識してテキスト化された文字情報を得る音声認識装置に関する。

従来から、マイクを介して入力された音声を認識し、認識用辞書を用いてテキスト化し、その音声を文字情報として取得する音声認識機能を有する情報処理装置が提供されている。
たとえば、「いんさつ」というキーワードを、音声で入力したとすると、音声認識機能により、「いんさつ」という文字情報、あるいはかな漢字変更した後に「印刷」という文字情報が取得され、その認識結果が表示画面上に表示されていた。

また、音声認識結果が一つに特定できない場合や音声入力されたキーワードに対する認識結果の候補が多数存在する場合は、複数の認識結果の候補を画面上に表示させ、利用者に意図する結果を選択させることが行われていた。
さらに、特許文献１には、入力された音声を認識し、複数の認識結果候補について、それぞれの属性（スコア，意味，重要度）を考慮して、それらの認識結果候補の表示態様を決定することにより、良好な操作性を実現する音声認識装置が開示されている。
また、一般に、キーボード等を用いてキーワードを入力してデータベース検索を行う場合、スペースで区切って複数のキーワードを入力し、その複数のキーワードをすべて含む情報を検索（ＡＮＤ検索）したり、複数のキーワードのいずれかを含む情報を検索（ＯＲ検索）したりしていた。

また、複合名詞を音声入力し検索する場合、利用者にその複合名詞を途中で区切らずに一連で音声入力してもらい、複合名詞が単名詞ごとに区切られて登録されている複合名詞の検索データベースを検索して、音声入力された複合名詞を単名詞毎に区切り、単名詞ごとの認識結果から合成された検索語候補リストを作成して、利用者に所望の検索語を確定するための応答を求める複合名詞の検索装置が、特許文献２に開示されている。
特開２００３−１６７６００号公報特開２００４−８５８２６号公報

しかし、音声認識によって複数の認識結果候補が表示された場合、その中に意図するものがなければ、利用者は、候補の消去や再入力を意味する特定の入力操作をすることにより音声を再入力する必要があった。
また、特許文献１では、認識結果の表示態様（表示の大きさなど）として適切なものを選択し、操作性の向上を図ったものであるが、誤認識があった場合には、やはり、再入力のための特定の入力操作が必要である。また、複数のキーワードを音声入力することについては言及されていない。

さらに、特許文献２では、登録された１つの複合名詞を区切って音声認識するものであるが、複数のキーワードを１つの複合名詞とみなして連続音声入力し、その結果各キーワードを別々に１つの単語として認識するものではない。すなわち複合名詞として登録されていない複数のキーワードを連続的に音声入力しても各キーワードを別々に認識できない。
したがって、複数のキーワードを連続して音声入力しそれらを認識した後に、すべてのキーワードを使ってＡＮＤ検索などの検索処理をすることはできず、また、誤認識した場合は、利用者に再入力を求める入力操作をしてもらう必要があった。

また、複数のキーワードを音声入力した場合、たとえば３つのキーワードを音声入力した場合、その認識結果を見た利用者が、３つのキーワードのうち２つ目のキーワードのみを訂正しようとする場合、従来の技術では、２つ目のキーワードを選択するキー入力操作や消去するマウス操作などが必要となり、あるいは、そのような入力操作ができず、一括して消去するしかない場合は、訂正する必要のない１つ目と３つ目のキーワードも含めてすべてのキーワードを音声で再入力する必要があった。

さらに、キーボード等を使ってキーワード等の文字情報をスペースで区切って複数個直接入力する場合は、キーやマウスを使ってカーソルを移動させ、所望の文字の削除や追加を行っていたが、従来の音声認識装置では、複数個のキーワードを区切って音声で入力することはできなかった。また、入力された複数個のキーワードのうち任意のキーワードを音声で他のキーワードに置換することも、任意のキーワードを追加することもできなかった。

今日、キーボードを使って入力された複数個のキーワードについて、キーまたはマウスを利用して任意のキーワードの削除，追加および変更などの編集処理が行えることを考えると、音声で複数個のキーワードを入力する場合も、キーワードの変更等の編集処理を容易な操作と音声入力で行えることが望まれる。

そこで、この発明は、以上のような事情を考慮してなされたものであり、音声で複数個の文字情報（キーワード）を入力する場合に、容易な操作でキーワードの追加，削除，変更等の編集処理が可能な音声認識装置を提供することを課題とする。

この発明は、音声を入力する音声入力部と、入力された音声を認識し、その音声に対応した認識文字列を生成する音声認識部と、前記認識文字列を表示する表示エリアを有する表示部と、前記表示エリアの任意の位置を指定するカーソルを表示エリアに表示させ、かつ移動させるカーソル制御部と、前記表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、新たに入力された音声に対応する第１の認識文字列と、すでに表示エリアに表示された第２の認識文字列とに対する編集処理を実行するキーワード入力制御部とを備えたことを特徴とする音声認識装置を提供するものである。
これによれば、入力された音声を認識した結果である認識文字列の編集処理を容易にすることができ、特に、多数の認識文字列を音声で入力する場合の利用者の入力操作の負担を軽減できる。

また、前記カーソルが表示された位置が、前記表示エリアに表示された第２の認識文字列の中、あるいは第２の認識文字列の末尾文字の直後である場合、前記キーワード入力制御部が、前記第２の認識文字列を削除し、前記新たに入力された音声に対応する第１の認識文字列を、前記第２の認識文字列が表示されていた位置に追加して表示させることを特徴とする。
これによれば、カーソルと第２の認識文字列との相対的な位置関係が利用者の所望のものとなるように、カーソルの位置を移動させる容易な入力操作をするだけで、認識文字列の置換ができる。この発明の機能は、後述する実施例の図８の（ａ１１），（ａ１２），および（ａ１５）に関係する。

また、前記表示エリアのカーソルが表示されている位置に区切り文字を入力することが可能な操作入力部をさらに備え、前記表示エリアに表示された第２の認識文字列が、すでに入力された複数個の音声にそれぞれ対応する複数個のキーワードからなる場合、前記複数個のキーワードは、隣接するキーワードの間に前記操作入力部の入力によって挿入された区切り文字によって分離されて前記表示部の表示エリアに表示されることを特徴とする。
これによれば、表示エリアに表示された複数個の第２の認識文字列（キーワード）を、区切り文字で容易に視覚的に区別でき、第１の認識文字列および複数個の第２の認識文字列に対する編集処理が可能となる。
この発明の機能は、後述する実施例の図２の（ａ−５）および（ａ−６），図８の（ａ１３）〜（ａ１７）に関係する。

また、前記カーソルが前記区切り文字の直後に表示されている場合、そのカーソルの後方にキーワードが存在しないときは、前記キーワード入力制御部が、前記第１の認識文字列を、前記区切り文字の直後に追加することを特徴とする。
これによれば、利用者が所望の位置へのカーソル移動と容易な入力操作をするだけで、すでに入力され表示エリアに表示されている第２の認識文字列の表示はそのままで、新たに音声入力された第１の認識文字列の追加ができる。
この発明の機能は、後述する実施例の図８の（ａ１３）に関係する。

また、前記カーソルが前記区切り文字の直後に表示されている場合、そのカーソルの後方に１または複数のキーワードが存在するときは、前記キーワード入力制御部が、カーソルの後方に存在する１または複数のキーワードを、前記第１の認識文字列に変更することを特徴とする。
これによれば、利用者が所望の位置へのカーソル移動と容易な入力操作をするだけで、すでに入力され表示されている第２の認識文字列の一部分を、新たに音声入力された第１の認識文字列に変更（置換）することができる。
この発明の機能は、後述する実施例の図８の（ａ１６）に関係する。

また、前記カーソルが前記表示部の表示エリアの先頭に表示されている場合、前記キーワード入力制御部は、前記表示エリアに表示されているすべての第２の認識文字列を削除し、前記第１の認識文字列のみを前記表示エリアに表示させることを特徴とする。
これによれば、利用者が所望の位置へのカーソル移動と容易な入力操作をするだけで、すでに入力されていたすべての第２の認識文字列を、新たに音声入力された第１の認識文字列に変更することができる。
この発明の機能は、すでに入力されていたすべての第２の認識文字列を全置換すること、言いかえれば認識文字列の再入力を意味し、後述する実施例の図８の（ａ１４）に関係する。

また、前記カーソルが、前記複数個のキーワードのうち特定のキーワードの直後である場合、前記キーワード入力制御部が、前記特定のキーワードのみを前記第１の認識文字列に変更し、特定のキーワード以外のキーワードはそのまま表示させることを特徴とする。
これによれば、利用者が所望の位置へのカーソル移動と容易な入力操作をするだけで、すでに入力されていた複数個のキーワードのうち、所望の１つのキーワードのみを、新たに音声入力された第１の認識文字列に変更することができる。
この発明の機能は、すでに入力されていた複数個の第２の認識文字列の中の任意の位置に表示されている所望の１つのキーワードを置換することを意味し、後述する実施例の図８の（ａ１７）に関係する。

この発明の編集処理とは、第１の認識文字列を表示部の表示エリアへの追加すること、すでに表示されている第２の認識文字列に対する変更（置換），削除，全置換を意味する。
また、この発明は、音声入力部と、音声認識部と、表示部と、カーソル制御部と、キーワード入力制御部とを備えた音声認識装置の編集方法であって、前記音声入力部によって音声を入力し、前記音声認識部によって、入力された音声を認識してその音声に対応した認識文字列を生成し、前記認識文字列と、表示部の表示エリアの中を移動可能なカーソルとを表示部に表示させ、前記カーソル制御部によってカーソルを表示エリアの所望の位置に移動させた後、前記キーワード入力制御部が、表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、新たに入力された音声に対応する第１の認識文字列と、すでに表示エリアに表示された第２の認識文字列とに対する編集処理を実行することを特徴とする音声認識装置の編集方法を提供するものである。

この発明によれば、表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、第１および第２の認識文字列に対する編集処理を行っているので、利用者はカーソルを移動させる操作と音声入力に関する入力操作をするだけで、容易に入力音声に対応するキーワードを表示させることができ、特に、複数個のキーワードを音声入力する場合の利用者の入力操作の負担を軽減できる。

以下、図面を使用して本発明の実施の形態を説明する。なお、以下の実施例の記載によって、この発明が限定されるものではない。
＜この発明の音声認識装置の構成＞
図１に、この発明の音声認識装置の構成ブロック図を示す。
この発明の音声認識装置は、主として、音声入力部１００，記憶部２００，表示部３００，操作入力部４００，音声認識部５０１，キーワード入力制御部５０２，カーソル制御部５０３，処理実行部５０４とから構成される。
このような音声認識装置は１つの専用のハードウェアとして実現してもよいが、この音声認識装置の機能を、パーソナルコンピュータ（ＰＣ）や、電子辞書や携帯電話などの携帯型の情報端末など種々の情報処理装置の一つの機能として実現してもよい。

また、この発明の以下に説明する音声認識装置の機能は、ＣＰＵ，ＲＯＭ，ＲＡＭ，Ｉ／Ｏコントローラ，タイマーなどからなるマイクロコンピュータによって実現できる。すなわち、ＣＰＵが、ＲＯＭ，ＲＡＭまたはハードディスクなどの記憶媒体に記憶されたプログラムに基づいて、各種ハードウェアを有機的に動作させることにより実現される。

図１において、音声入力部１００は、音声を入力する部分であり、マイクを用いることができる。
表示部３００としては、たとえばＣＲＴ，ＬＣＤ，有機ＥＬ，ＰＤＰなどのディスプレイを用いることができる。この発明では、表示部３００に、主として、音声認識した結果の候補となる文字情報を表示したり、認識結果候補のうち確定した複数個の文字情報が表示される。
また、表示部３００には、カーソルが表示され、カーソルが表示された位置に入力音声を認識した後の文字情報を追加したり、カーソル位置の前後にある文字情報の消去や変更が行われる。このように、文字情報やカーソルを表示する領域は、後述する図３のキーワード表示エリア３０１に相当する。

操作入力部４００は、音声以外の方法による文字等の情報の入力、本装置の機能を実行させるための指示入力、表示部に表示されたカーソルを移動させる指示入力、および区切り文字の入力を利用者がするための部分であり、キーボードやマウス，ペンなどのポインティングデバイスが使用できる。
音声認識部５０１は、マイク１００から入力された音声を認識して文字情報に変換する部分であり、記憶部２００に記憶された音響データベース（ＤＢ）２０１や、認識辞書２０２を用いて、入力された音声を文字情報に変換し、１または複数個の認識結果の候補を生成する部分である。

キーワード入力制御部５０２は、音声認識部５０１によって抽出された認識結果の候補の中から選択された文字情報（認識文字列）を表示したり、表示された認識文字列とカーソルとの相対位置関係によって、認識文字列に対する特定の編集処理を実行する部分である。
この発明では、特に、表示部に表示されたカーソルとすでに音声入力された認識文字列との相対位置関係によって、認識文字列の追加，削除，変更（置換），再入力（全置換）等の編集処理をすることを特徴とする。

カーソル制御部５０３は、カーソルを表示部に表示させ、操作入力部４００からの指示に基づいて、表示部３００に表示されたカーソルの位置を移動させる部分である。
処理実行部５０４は、音声入力され認識した結果、確定された認識文字列に対して実行すべき機能を、実際に実行する部分である。たとえば、入力された認識文字列が辞書の検索に用いる文字列であれば、その認識文字列を見出語として、記憶部２００に予め記憶された辞書や文例データベース２０４の検索処理を実行する部分である。
上記した検索処理部は、処理実行部５０４の一つの機能ブロックに相当する。

記憶部２００は、この発明の音声認識装置の各機能を実行させるためのプログラムの他に、各機能を実行させるために必要な設定データや各種データベース，音声認識結果，表示部に表示される情報などを記憶する部分であり、ＲＯＭ，ＲＡＭ，フラッシュメモリなどの半導体記憶素子や、ＩＣメモリやハードディスク等の記録媒体が用いられる。

この発明では、特に、図１に示したような、音響ＤＢ２０１，認識辞書２０２，キーワード処理ルール２０３，文例データベース２０４，処理ルール２０５が、記憶部２００に予め記憶される。これらは、書き換えができないように固定的に記憶してもよく、後から利用者が書き換えられるように記憶してもよく、またネットワークを介して、遠隔地のサーバからダウンロードできるようにしてもよい。

記憶部２００の音響ＤＢ２０１とは、音声認識を行うときに参照されるデータベースであり、具体的には、ＨＭＭ等の音響モデル（Hidden Markov Model）などのデータから構成される。
認識辞書２０２は、音声認識対象となる文字情報の発音情報等を含み、マイクに向かって発音された音声信号を対応する文字に変換するのに用いられるデータベースである。
キーワード処理ルール２０３とは、音声認識後確定されたキーワードに対してどのような処理を行うかを記述したルールであり、図７に示したような情報である。たとえば、後述するように、すでに入力が確定された認識文字列Ｓの直後にカーソルがある場合に、次の音声Ｖ２が入力されたときは、その認識文字列Ｓを、新たに入力された音声Ｖ２に対応する文字情報（認識文字列）に変更（置換）する処理をするというルールＲ１が、予め記憶されている。

文例データベース２０４とは、キーワードを含む文字列情報を多数記憶したものであり、たとえば、国語辞典や英和辞典などの見出語（キーワード）に対応する多数の用例を記憶した電子情報データベースであり、認識文字列によって検索される対象となる情報である。
処理ルール２０５は、確定した１または複数のキーワードに対して実行する処理内容を予め設定したものであり、たとえば、複数のキーワードを用いて文例データベースから用例を検索する処理などがある。

この発明では、音声を入力し、音声認識部５０１でその音声に対応する文字情報を認識した後に行うその文字情報に対する表示処理などに特徴がある。
すなわち、音声認識処理そのものは従来技術と同様の処理を利用することができ、入力された音声に最も近いと判断する１つの候補の文字情報のみを表示してもよいし、あるいは、複数個の候補が抽出されたときは、それらの候補をすべて表示させて利用者に選択してもらうようにしてもよい。
以下の実施例では、特に示さない限り音声認識の後、入力された音声に対応する１つの文字情報が確定したものとして説明する。また、確定した後の文字情報を、認識文字列と呼ぶ。

さらに、入力が確定しすでにキーワード表示エリアに表示されている認識文字列は、上記した第２の認識文字列に相当し、以下の実施例では、確定単語または単に単語とも呼ぶ。
また、新たに入力された音声に対応する認識文字列は、上記した第１の認識文字列に相当する。

＜音声認識装置の概観＞
図３に、この発明の音声認識装置の一実施例の概観図を示す。
図３では、主として、利用者が情報を入力する部分（１００，４０１〜４０６）と、入力された文字情報を表示して確認する部分（３０１，３０２）とを示している。マイク１００は、音声入力部１００に相当し、配置する位置は、図示した位置に限られない。

図３の４０１〜４０６は操作入力部４００に相当する。
図３において、４０１は音声入力ボタンであり、このボタンを押した後にマイク１００に向かって発声された音声が入力される。
４０２〜４０５は表示部３００に表示されたカーソルを移動させるためのキーであり、それぞれ、カーソルを右，左，上，下へ移動させるためのキーである。４０６は、文字や記号の入力、あるいは表示部３００に表示された文字列を直接編集するための文字入力キーである。

図３において、表示部３００は、２つの表示エリア（３０１，３０２）から構成されるものを例示している。キーワード表示エリア３０１は、音声入力され音声認識によって確定された認識文字列（キーワード）を表示する領域である。この表示エリア３０１は、少なくとも１行分の文字列が表示可能であればよく、たとえば２０〜３０文字程度が表示できればよい。ただし、２行分以上の文字列が表示できるエリアとしてもよい。

文例表示エリア３０２は、キーワード表示エリア３０１に表示された認識文字列（キーワード）を用いて検索を行った結果、文例ＤＢ２０４の中に見つけられ、キーワードに対応する文例を表示させるエリアである。
キーワード表示エリア３０１に表示された認識文字列（キーワード）を用いて検索を実行させる場合、その検索の開始を意味する入力操作としては、音声入力ボタン４０１を押し下げることにしてもよい。

＜この発明の音声入力の実施例＞
図２に、この発明の音声認識装置で行う音声入力の概略実施例を示す。
図２では、表示部３００を、１行のみの文字列を表示するものとして説明する。ただし、一般的なＣＲＴやＬＣＤのように、複数行の文字列が表示可能なものを利用してもよい。
図２において、（ａ−１）は、音声入力待ち状態を示している。このとき、表示部３００の左端には、１つのカーソル１１が表示されている。

この音声入力待ち状態で、利用者は、マイクに向かって、検索したいキーワードを発声すると、カーソル１１の位置を先頭として、発声した文字情報が表示される。
たとえば、「ふらいと」という音声がマイク（音声入力部）に入力されたとする。このとき、発声された音声信号は、音声認識部５０１に与えられ、音響ＤＢ２０１と認識辞書２０２とを用いて、音声認識処理が行われる。音声認識処理により、発声された音声信号に対応する１または複数個の文字情報の候補が抽出される。

文字情報の候補が１つに確定されている場合は、その文字情報候補を、表示部３００に表示する。たとえば「フライト」という文字情報が１つだけ抽出された場合は、認識文字列は「フライト」に確定される。
一方、「ふらいと」という音声に対して複数個の文字情報の候補が抽出されたとき、たとえば、仮に「フライト」，「クライト」，「フライス」などの候補が抽出されたとすると、これらの３つの候補を表示部に表示させ、利用者に、どれが意図するものであるかを特定する入力をしてもらう。すなわち、利用者に、認識文字列を確定するための操作入力をしてもらう。
この操作入力は、たとえば、文字列確定用の専用キーを入力することにより行えばよい。

図２の（ａ−２）は、「ふらいと」という音声に対して、「フライト」という認識文字列が確定され、「フライト」という認識文字列が表示部３００に表示された状態を示している。このとき、カーソル１１は「フライト」という認識文字列の末尾文字「ト」の直後、すなわち「ト」のすぐ右隣に表示される。

次に、（ａ−２）の状態で、利用者がカーソル１１を左に移動させたとする。このとき、カーソル制御部５０３により、（ａ−３）のように、カーソル１１は、「イ」と「ト」の間に表示される。
カーソル１１の移動は、たとえば、操作入力部４００に相当するカーソルを左へ移動させるための専用キーやマウスを利用すればよい。
このように、音声入力が確定された認識文字列（第２の認識文字列）の中に重ねてカーソルが表示されている状態で、次の音声入力がされた場合、カーソルが重ねて表示されている認識文字列を、この次に新たに音声入力された認識文字列（第１の認識文字列）に変更する。

音声入力が確定された認識文字列とカーソル１１との相対的な位置関係によってどのような処理をするかは、「キーワード処理ルール」２０３として、予め記憶部２００に記憶されている。上記のような認識文字列の変更処理は、キーワード入力制御部５０２が、キーワード処理ルール２０３を確認することにより実行される。
たとえば、（ａ−３）の状態で、「ひこうき」という音声が入力されたとする。このとき「ひこうき」という音声に対して、「飛行機」という新たな認識文字列（第１の認識文字列）が確定されたとすると、「フライト」というすでに表示されていた認識文字列（第２の認識文字列）が消去され、（ａ−４）のように、「フライト」が表示されていたのと同じ位置に、「飛行機」という新たな認識文字列が表示される。

この状態（ａ−４）では、「飛行機」という認識文字列の直後に、カーソル１１が表示される。以下、認識文字列の直後あるいは後ろとは、認識文字列のすぐ右隣を意味するものとする。
上記のように、表示状態（ａ−２）から（ａ−４）の状態へ変化させようとする場合、利用者は、状態（ａ−３）のように、カーソル１１を左へ移動させる操作をした後、新たに入力したいキーワードに相当する音声を入力すればよい。すなわち、すでに入力された認識文字列を消去させるための特別な操作をする必要がない。

次に、（ａ−４）の状態で、利用者がカーソル移動キーを用いて、カーソルを右へ移動させる操作をしたとする。
このとき、（ａ−５）の状態のように、カーソル制御部５０３によって、末尾文字「機」の直後に、区切り文字１２であるスペースが挿入され、そのスペースの後ろに、カーソル１１が表示される。区切り文字１２としては、スペースの他に、利用者がそれと認識できる他の記号や文字を使用してもよい。
また、区切り文字１２の入力は、図３に示すカーソル右移動キー４０２を用いることができる。ただし、区切り文字１２の入力は、このキーを押し下げること以外に、特定の文字入力キー４０６の押下や、特定の音声入力で行ってもよい。

次に、（ａ−５）の状態で、音声入力により、「よやく」が入力されたとする。このとき、音声認識処理により、「予約」という認識文字列が確定されたとすると、（ａ−６）に示すように、新たに「予約」という認識文字列が、追加して表示される。すなわち、すでに入力された文字列の後ろに区切り文字１２があり、その区切り文字１２の後ろにカーソルがある場合、その後に入力された音声に相当する認識文字列を、カーソルの位置に追加する。

図２の場合は、すでに入力されていた認識文字列の「飛行機」の後ろにある区切り文字１２の直後に、新たに入力された「予約」という認識文字列を表示させる。このとき、カーソル１１は、「予約」の直後に表示される。
表示状態が（ａ−５）の状態のときに、音声入力がされた場合、「区切り文字１２の直後にカーソルがある状態で音声入力がされると、新たに入力された音声に対応する認識文字列を追加して表示部に表示させる」というキーワード処理ルール２０３が適用される。キーワード入力制御部５０２が、このキーワード処理ルール２０３に基づいて処理を実行すると、（ａ−６）の状態のような表示となる。

以上、図２では、この発明の音声入力処理の一実施例の概略として、キーワード（音声）を新たに入力する例と、すでに入力されている認識文字列を新たに入力される音声に相当する認識文字列に変更（置換）する例と、すでに入力されている認識文字列はそのままで、その認識文字列の後ろに、音声入力によって新たな認識文字列を追加する例を示した。
この発明では、この３つの例に限られることなく、後述するように、表示部に表示されたカーソルとすでに確定した認識文字列（確定単語）との相対的な位置関係によって、次に入力される音声に対応する認識文字列について種々の編集処理をすることができる。

図６に、音声入力された認識文字列と、検索処理によって文例表示部３０２に表示される文例の一実施例の説明図を示す。
図６（ａ）では、図２の（ａ−２）の状態で、利用者が音声入力ボタン４０１を押し下げた場合に、文例表示エリア３０２に表示される文例の一実施例を示している。ここでは、処理実行部５０４によって、「フライト」という文字列を含む文例を、文例ＤＢ２０４の中から検索する。図６（ａ）では、検索によって文例ＤＢの中に見つけられた「フライト」という認識文字列を含む３つの文例が表示されている。

図６（ｂ）では、キーワード表示エリア３０１に表示された「フライト」と「予約」という２つの認識文字列を用いて検索を行った結果、文例表示エリア３０２に表示される文例の一実施例を示している。ここでは、処理実行部５０４によって、「フライト」と「予約」の両方を含む文例を文例ＤＢ２０４の中から検索する。図６（ｂ）では、この２つの認識文字列を両方とも含む３つの文例が見つかり、それらを文例表示エリア３０２に表示した状態を示している。

＜この発明のキーワード入力制御処理＞
図４に、この発明のキーワード入力制御処理の一実施例のフローチャートを示す。
まず、ステップＳ１において、音声入力があるか否か、チェックする。すなわち、図３の操作入力部４００である音声入力ボタン４０１が押し下げられ、さらに、音声入力部１００であるマイクから音声が入力されるのを待つ。
ステップＳ１において音声入力があったときは、ステップＳ２へ進む。ここで、入力された音声は、記憶部２００に記憶されるとともに、音声認識部５０１へ与えられる。
ステップＳ２において、入力された音声について音声認識処理を行う。音声認識は、上記したように音響ＤＢ２０１と認識辞書２０２とを用いて行う。音声認識の結果、入力音声が１つの認識文字列に確定されると、その認識文字列（確定単語）Ｓを、記憶部２００に記憶する。

ステップＳ３において、キーワード表示エリア３０１内に表示されているカーソル１１の位置を取得する。たとえば、カーソル１１の現在の表示位置を、リアルタイムで記憶部２００に記憶しているものとすると、その記憶部２００に記憶されているカーソルの表示位置の情報を読み出す。
ここで、カーソルの表示位置の情報とは、キーワード表示エリア３０１の中で先頭（左端）から末尾（右端）までの間のどの位置にカーソルがあるかを示す情報である。

ステップＳ４において、カーソル１１が現在キーワード表示エリア３０１の先頭にあるか否かをチェックする。
カーソル１１が表示エリア３０１の先頭にある場合、ステップＳ１０へ進む。
一方、カーソル１１が先頭にない場合、ステップＳ５へ進み、表示エリア３０１に確定入力されている認識文字列（単語）の個数を示す変数Ｎを、１に初期化する。

ステップＳ６において、現在表示されているカーソルの位置が、Ｎ番目の単語と接触しているか否か、チェックする。ここで、カーソルが単語と接触しているとは、表示エリア３０１に確定入力されている単語の先頭文字のすぐ左側にカーソルが表示されているか、あるいは、その単語の末尾文字のすぐ右側にカーソルが表示されている場合をいう。たとえば、図２の（ａ−２）の状態では、カーソル１１は、末尾文字の「ト」のすぐ右側にあるので、「フライト」という単語に接触していることになる。
また、たとえば、Ｎ＝１のときは、表示エリア３０１の先頭の位置にある単語と、カーソルとが接触しているか否かチェックされる。
ステップＳ６で、接触していると判断されたとき、ステップＳ１１へ進む。接触していないと判断されたときはステップＳ７へ進む。

ステップＳ７において、表示エリア３０１の中に表示されている次の単語のチェックをするために、Ｎに１を加える。
ステップＳ８において、Ｎ番目の単語が、表示エリア３０１の中に、存在するか否かチェックする。確定入力された単語Ｓが複数個ある場合、確定入力された順番に、複数個の単語Ｓを記憶部２００に記憶しておく。そして、この記憶部２００に記憶されている単語群を調べ、その中に先頭からＮ番目の単語が存在するか否か、チェックする。

Ｎ番目の単語が存在する場合、ステップＳ６へ戻る。
たとえば、Ｎ＝２のとき、図２の（ａ−６）の状態であったとすると、２番目の単語（予約）が存在するので、ステップＳ６へ戻る。
Ｎ番目の単語が存在しない場合は、ステップＳ９へ進む。
ステップＳ９において、現在のカーソルの位置に、ステップＳ２で確定された単語Ｓを表示し、カーソルを単語Ｓの後ろ、すなわち単語Ｓの末尾文字のすぐ右側に表示させる。

ステップＳ１０において、カーソルが現在先頭にあるので、表示エリア３０１にすでに確定入力されているすべての単語を削除し、カーソルを表示エリア３０１の先頭に表示させる。
このステップＳ１０は、すでに入力されている確定単語を全部削除して、新たなキーワードを音声で再入力する場合に相当する。
このステップＳ１０の後、ステップＳ９が実行されると、現在のカーソルの位置は表示エリア３０１の先頭であるので、表示エリア３０１の先頭にステップＳ２の確定単語Ｓを表示させ、カーソル１１を、その単語Ｓの後ろ、すなわちすぐ右側に表示させる。

ステップＳ１１において、現在カーソルが、Ｎ番目の単語に接触しているので、Ｎ番目の単語を削除し、削除した単語の位置にカーソル１１を表示させる。この場合、すでに確定入力されていたＮ番目の単語を、新たに入力された音声に対応する確定単語Ｓに変更（置換）する処理に相当する。
このステップＳ１１の後に、ステップＳ９が実行されると、カーソルに接触していた単語を削除した後、その単語が表示されていた位置に、新たに入力された単語Ｓを表示し、さらにカーソルをその単語Ｓの後ろ、すなわちすぐ右側に表示させる。
この図４のフローチャートは、カーソルの表示位置への単語Ｓの新規追加（ステップＳ９）と、単語Ｓへの置換（ステップＳ１１，Ｓ９）と、単語Ｓの再入力（全置換、ステップＳ１０，Ｓ９）の処理を含むものである。
なお、ステップＳ１１でＮ番目以降の単語を全て削除する処理にすることも可能である。

このように、図４のフローチャートでは、ステップＳ１において音声入力のために利用者が音声入力ボタン４０１を押下げる操作をした後、続いて所望のキーワードを発声しただけで、以後の処理（ステップＳ２からステップＳ９まで）が自動的に実行され、入力音声に対応した認識文字列（単語）の入力、変更（置換）、再入力（全置換）のいずれかが行われる。したがって、すでに音声入力が確定された認識文字列（確定単語）がある場合において、カーソルと確定単語の相対的な位置関係を判断しているので、新たなキーワードを入力する場合の利用者の入力操作の負担が軽減できる。

この発明では、上記のような音声入力処理を行うために、すでに表示された確定単語との関係で、カーソルの位置を表示エリア３０１のどこにもってくるかが重要となる。すなわち、カーソルの位置とすでに確定入力された単語との相対的位置関係を、次の音声を入力する前に、利用者が意図的に設定することが必要である。

利用者がキーワード表示エリア３０１に表示されるカーソルの位置を設定するために、図３の４つのカーソル移動キー（４０２〜４０５）を用いるものとする。特に、表示エリア３０１が１行分の表示しかない場合は、２つのカーソル移動キー（４０２，４０３）を利用する。
その他、カーソルの位置の移動は、キー入力の他、カーソル移動の指示を意味する音声入力をすることによっても可能である。たとえば、「カーソル右へ」というような音声入力をしてもよい。

図５に、この発明のカーソル制御部の一実施例のフローチャートを示す。
ステップＳ２０において、操作入力部４００のキーの入力があるか否か、チェックする。ここでは、４つのキー（４０２〜４０５）の入力の有無を監視する。
いずれかのキー入力があった場合、ステップＳ２１へ進む。どのキーの入力があったかの判断は、操作入力部４００から与えられる信号をもとに、カーソル制御部５０３が判断する。

ステップＳ２１において、まず、入力操作されたキーが、「カーソル右移動キー（４０２）」であるか否かチェックし、その場合ステップＳ２２へ進み、そうでない場合、ステップＳ２６へ進む。
ステップＳ２６において、「カーソル左移動キー（４０３）」が入力されたか否かチェックし、その場合ステップＳ２７へ進み、そうでない場合ステップＳ２９へ進む
ステップＳ２９では、入力されたキーが、カーソルを右または左に移動するキー以外のキーなので、その他のキーに割り当てられた処理を実行する。

ステップＳ２７において、現在のカーソルの左側に文字があるか否かチェックする。文字がない場合は、処理を終了する。文字がある場合は、ステップＳ２８へ進み、カーソルの表示位置を左側に一文字分だけ移動させて、処理を終了する。
たとえば、図２の（ａ−１）の状態では、カーソルの左側に文字がないので処理を終了する。また、図２の（ａ−２）の状態では、カーソルの左側に文字があるので、一文字分だけカーソルを左側に移動させると、図２の（ａ−３）の状態となる。

図５のステップＳ２２において、現在のカーソルの表示位置の右側に文字があるか否かチェックする。右側に文字がある場合は、ステップＳ２３へ進み、カーソルを一文字分だけ右へ移動させて、処理を終了する。
たとえば、図２の（ａ−３）の状態で、カーソル右移動キーが押下られると、（ａ−２）の状態となる。
一方、カーソルの右側に文字がない場合、ステップＳ２４へ進み、現在のカーソルの表示位置の左側に区切り文字１２があるか否かチェックする。ここで、たとえば図２の（ａ−５）の状態のように、区切り文字１２がある場合は、処理を終了する。
一方、図２の（ａ−４）の状態のように、区切り文字１２がない場合は、ステップＳ２５へ進む。

ステップＳ２５では、カーソルの表示位置の右側に区切り文字１２を１つ挿入し、カーソルをその区切り文字の後ろ、すなわち区切り文字１２のすぐ右側に表示させる。
たとえば、図２の状態（ａ−４）の場合、ステップＳ２５の処理によって、（ａ−５）のような表示状態となる。
以上が、カーソル制御部５０３によって行われるカーソル表示位置の移動処理の一実施例である。

＜キーワード処理ルールの説明＞
上記したように、キーワード表示エリア３０１に表示されているカーソル１１とすでに確定された認識文字列（確定単語）との相対的な位置関係によって、次に音声入力されるキーワードの編集処理が異なる。
この相対的位置関係と実行される編集処理との関係を示したものが、キーワード処理ルール２０３であり、コンピュータで実行できるプログラム形式で予め記憶部２００に記憶される。

図７に、この発明のキーワード処理ルールの一実施例の説明図を示す。
ここでは、７つのルール（Ｒ１〜Ｒ７）を示している。
新たな音声入力が行われたとき、これらのルールのうち、カーソルと認識文字列との相対的な位置関係に対応したいずれかのルールが選択されて、編集処理が実行される。
たとえば、ルールＲ１は、「認識文字列（単語Ｓ）の直後にカーソルがあるとき、カーソルに接触しているその単語Ｓを、音声入力された新たな単語Ｎに変更（置換）する」というルールである。
このルールＲ１は、図２の（ａ−２）のような表示状態や後述する図８の（ａ１１）の表示状態のときに適用されるルールである。

＜この発明のキーワード入力処理の実施例＞
以下に、音声でキーワードを入力する場合のいくつかの実施例を説明する。ここでは、音声入力の後すでに確定した認識文字列が、表示エリア３０１に存在する場合に、さらに新たなキーワードを音声入力をしたとき、表示エリア３０１の表示内容がどのように変化するかを説明する。
図８に、この発明のキーワードの音声入力時において、キーワード表示エリア３０１の表示内容の変化の説明図を示す。ここでは、新たに、「ひこうき」という音声を入力し、「飛行機」という認識文字列が確定入力されるものとする。

図８の左側の表示状態Ａは、「飛行機」が入力される前の表示状態を示し、右側の表示状態Ｂは、「飛行機」が入力された後の表示状態を示している。
図８の入力例（ａ１１）の表示状態Ａでは、すでに入力確定している認識文字列（単語Ｓ）が「フライト」であり、カーソル１１がその文字列の末尾文字「ト」のすぐ右側にある場合を示している。
このとき、新たな音声入力（ひこうき）があったとすると、認識文字列（単語Ｓ）の「フライト」が、新たな認識文字列（単語Ｎ）である「飛行機」に変更され、表示状態Ｂのようになる。
この入力例（ａ１１）では、上記したように、図７のルールＲ１が適用される。

次に図８の入力例（ａ１２）の場合、表示状態Ａでは、「フライト」という認識文字列（単語Ｓ）に重ねてカーソル１１が表示されている。
この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ２が適用され、カーソル１１に接触している「フライト」を、新たな単語Ｎである「飛行機」に変更する。
このとき、表示状態Ｂのように、カーソル１１は、新たな単語Ｎの末尾文字「機」の直後に表示される。

図８の入力例（ａ１３）の場合、表示状態Ａでは、「フライト」という認識文字列（単語Ｓ）の直後に、区切り文字１２とカーソル１１とが、この順序で表示されている。
この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ３が適用され、区切り文字１２の後ろに、新たな単語Ｎである「飛行機」を追加する。このとき、表示状態Ｂのように、カーソル１１は、新たな単語Ｎの末尾文字「機」の直後に表示される。

図８の入力例（ａ１４）の場合、表示状態Ａでは、キーワード表示エリア３０１の先頭にカーソル１１がある。この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ４が適用され、表示エリア３０１内にすでに存在していたすべての確定単語（図８では、「フライト」と「予約」）を削除し、新たな単語Ｎを、表示エリア３０１の先頭に追加する。この場合、すでに入力されていた複数の確定単語をすべて削除し、新たにキーワードを再入力する場合に相当する。
表示状態Ｂでは、新たな単語Ｎである「飛行機」と、その直後にカーソル１１とが表示される。

図８の入力例（ａ１５）の場合、表示状態Ａでは、「フライト」という認識文字列（単語Ｓ）の直後に、カーソル１１と、区切り文字１２とがこの順に表示されている。
この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ５が適用され、カーソル１１に接触している単語Ｓ（フライト）を、新たな単語Ｎである「飛行機」に変更する。
区切り文字１２の右側にある「予約」という認識文字列は、表示状態Ｂのように変更されずにそのまま表示される。この場合は、すでに入力確定され表示されている複数個の認識文字列のうち、所望の１つの認識文字列のみを、新たな音声入力で変更する場合に相当する。

図８の（ａ１５）では、先頭の「フライト」を変更する例を示しているが、３つ以上認識文字列が表示されている状態でも１つの認識文字列のみが変更される。また、たとえば５つの認識文字列が表示されている状態で、このルールＲ５が適用されると、１番目から５番目のいずれかの位置にある１つの認識文字列のみを容易に変更することができる。

図８の入力例（ａ１６）の場合、表示状態Ａでは、３つの認識文字列「フライト，予約，国内」が表示され、「フライト」の直後に区切り文字１２とカーソル１１とがこの順に表示されているとする。また、カーソル１１は、２番目「予約」の直前に表示されているものとする。ここで、「予約」と「国内」とが、カーソル１１の直後に存在する単語群Ｓに相当する。

この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ６が適用され、カーソルの後ろにある単語群Ｓをすべて削除し、新たな単語Ｎである「飛行機」を、カーソル１１があった表示位置の直後に追加する。このとき、表示状態Ｂのように、１番目の「フライト」はそのままで、２番目と３番目の２つの認識文字列からなる単語群Ｓが、新たな単語Ｎである「飛行機」に変更されることになる。
この場合、多数の認識文字列が表示されている状態で、先頭からいくつかの単語を残し、途中から後方の単語群を一括して変更する場合に有効な入力方法である。

図８の入力例（ａ１７）の場合、表示状態Ａでは、２つの認識文字列（フライト，予約）が表示され、フライトと予約の間に区切り文字１２が存在し、「予約」のすぐ右側にカーソル１１が表示されているものとする。
この状態Ａで、「ひこうき」が音声入力されたとすると、図７のルールＲ７が適用され、カーソル１１の直前に「予約」という単語Ｓが存在するので、カーソル１１に接触しているその単語Ｓ（予約）を、新たな単語Ｎである「飛行機」に変更する。

この場合、カーソルに接触していない「フライト」はそのままの状態で、カーソルに接触している１つの認識文字列（予約）のみを新たな単語Ｎに変更することができる。
以上、図８に示した７つの実施例は、新たに音声入力されたキーワード（認識文字列）を表示エリア内に表示する例を示したものであり、これに限るものではなく、この他にも種々の入力処理が考えられる。

図８の各表示状態Ａはカーソルと認識文字列との相対的な位置関係の表示例を示したものであるが、このような表示状態Ａとするためには、上記したように図３のカーソル移動キー（４０２，４０３）を用いる。
ただし、各表示状態Ａのような状態とした後は、音声入力ボタン４０１を押し、所望の音声を入力するだけで、それぞれの対応するキーワード処理ルールが自動的に適用されて、表示状態Ｂとなる。
したがって、すでに入力確定されたキーワードの変更，再入力（全置換），一部置換などの編集処理を容易な操作ですることが可能となり、利用者の操作負担を軽減できる。

この発明の音声認識装置の一実施例の構成ブロック図である。この発明の音声入力処理の一実施例の概略説明図である。この発明の音声認識装置の一実施例の概観図である。この発明のキーワード入力制御部の一実施例のフローチャートである。この発明のカーソル制御部の一実施例のフローチャートである。この発明の入力確定されたキーワードと検索された文例の説明図である。この発明のキーワード処理ルールの一実施例の表である。この発明の音声入力前後における表示状態の変化を示す一実施例の説明図である。

符号の説明

１００音声入力部
２００記憶部
２０１音響ＤＢ
２０２認識辞書
２０３キーワード処理ルール
２０４文例ＤＢ
２０５処理ルール
３００表示部
３０１キーワード表示エリア
３０２文例表示エリア
４００操作入力部
４０１音声入力ボタン
４０２カーソル右移動キー
４０３カーソル左移動キー
４０４カーソル上移動キー
４０５カーソル下移動キー
４０６文字入力キー
５０１音声認識部
５０２キーワード入力制御部
５０３カーソル制御部
５０４処理実行部

Claims

音声を入力する音声入力部と、
入力された音声を認識し、その音声に対応した認識文字列を生成する音声認識部と、
前記認識文字列を表示する表示エリアを有する表示部と、
前記表示エリアの任意の位置を指定するカーソルを表示エリアに表示させ、かつ移動させるカーソル制御部と、
前記表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、新たに入力された音声に対応する第１の認識文字列と、すでに表示エリアに表示された第２の認識文字列とに対する編集処理を実行するキーワード入力制御部とを備えたことを特徴とする音声認識装置。
前記カーソルが表示された位置が、前記表示エリアに表示された第２の認識文字列の中、あるいは前記表示エリアに表示された第２の認識文字列の末尾文字の直後である場合、前記キーワード入力制御部が、前記第２の認識文字列を削除し、前記新たに入力された音声に対応する第１の認識文字列を、前記第２の認識文字列が表示されていた位置に追加して表示させることを特徴とする請求項１の音声認識装置。
前記表示エリアのカーソルが表示されている位置に区切り文字を入力することが可能な操作入力部をさらに備え、
前記表示エリアに表示された第２の認識文字列が、すでに入力された複数個の音声にそれぞれ対応する複数個のキーワードからなる場合、前記複数個のキーワードは、隣接するキーワードの間に前記操作入力部の入力によって挿入された区切り文字によって分離されて前記表示部の表示エリアに表示されることを特徴とする請求項１の音声認識装置。
前記カーソルが前記区切り文字の直後に表示されている場合、そのカーソルの後方にキーワードが存在しないときは、
前記キーワード入力制御部が、前記第１の認識文字列を、前記区切り文字の直後に追加することを特徴とする請求項３の音声認識装置。
前記カーソルが前記区切り文字の直後に表示されている場合、そのカーソルの後方に１または複数のキーワードが存在するときは、
前記キーワード入力制御部が、カーソルの後方に存在する１または複数のキーワードを、前記第１の認識文字列に変更することを特徴とする請求項３の音声認識装置。
前記カーソルが前記表示部の表示エリアの先頭に表示されている場合、
前記キーワード入力制御部は、前記表示エリアに表示されているすべての第２の認識文字列を削除し、前記第１の認識文字列のみを前記表示エリアに表示させることを特徴とする請求項１の音声認識装置。
前記カーソルが、前記複数個のキーワードのうち特定のキーワードの直後である場合、
前記キーワード入力制御部が、前記特定のキーワードのみを前記第１の認識文字列に変更し、特定のキーワード以外のキーワードはそのまま表示させることを特徴とする請求項３の音声認識装置。
前記キーワードを含む文例を有する電子情報データベースと、前記表示エリアに表示された１または複数個のキーワードを用いて前記電子情報データベースを検索する検索処理部とをさらに備えたことを特徴とする請求項３の音声認識装置。
音声入力部と、音声認識部と、表示部と、カーソル制御部と、キーワード入力制御部とを備えた音声認識装置の編集方法であって、
前記音声入力部によって音声を入力し、
前記音声認識部によって入力された音声を認識してその音声に対応した認識文字列を生成し、
前記認識文字列と、前記表示部の表示エリアの中を移動可能なカーソルとを表示部に表示させ、
前記カーソル制御部によってカーソルを表示エリアの所望の位置に移動させた後、前記キーワード入力制御部が、表示エリアに表示された認識文字列とカーソルとの相対的な位置関係に基づいて、新たに入力された音声に対応する第１の認識文字列と、すでに表示エリアに表示された第２の認識文字列とに対する編集処理を実行することを特徴とする音声認識装置の編集方法。