JP2008090625A - 文字入力装置、文字入力方法、制御プログラム、および、記録媒体 - Google Patents

文字入力装置、文字入力方法、制御プログラム、および、記録媒体 Download PDF

Info

Publication number
JP2008090625A
JP2008090625A JP2006271199A JP2006271199A JP2008090625A JP 2008090625 A JP2008090625 A JP 2008090625A JP 2006271199 A JP2006271199 A JP 2006271199A JP 2006271199 A JP2006271199 A JP 2006271199A JP 2008090625 A JP2008090625 A JP 2008090625A
Authority
JP
Japan
Prior art keywords
character
user
kanji
candidate
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006271199A
Other languages
English (en)
Inventor
Kaoru Tomishige
薫 冨重
Shingo Sakata
新吾 坂田
Masaki Takakura
正樹 高倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006271199A priority Critical patent/JP2008090625A/ja
Publication of JP2008090625A publication Critical patent/JP2008090625A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声データや手書き文字データなどの入力データを認識して文字入力を行うときに、ユーザの意図通りの文字を簡単に得ることができる文字入力装置を実現する。
【解決手段】音声翻訳機100は、文字に変換する前の元情報を文字に変換する過程で生成された文字候補が、上記元情報に対応付けて認識文字候補記憶部に記憶されており、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する表示制御部13と、ユーザの第1操作によって上記表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する認識文字候補出力部26と、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示手段が実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する文字認識結果修正部29とを備えている。
【選択図】図1

Description

本発明は、音声データや手書き文字データなどの認識技術を利用して文字を入力する文字入力装置、文字入力方法、制御プログラム、および、記録媒体に関するものである。
従来、音声入力(または手書き入力)された言語情報を、認識技術を利用してテキストデータに変換することにより、文字を入力する文字入力装置が用いられている。
例えば、音声データをテキスト変換する文字入力システムは、音声認識装置を備えており、音声認識装置が音声データをテキストデータに変換している。
例えば、手書き文字データをテキスト変換する文字入力システムは、手書き文字認識装置を備えており、手書き文字認識装置が、ペン操作などでタブレットを介して入力された手書き文字データをテキストデータに変換している。
上記手書き文字データを認識して文字を入力する文字入力装置においては、手書き文字を入力する手段として、手書き文字を入力するタブレットと、文字を表示する表示部とが一体に設けられたタッチパネルが採用されている。これにより、特に、PDA(personal digital assistant)などのように、ハードウェアサイズにおいて制約が厳しい携帯用の文字入力装置において、操作性を犠牲にせずとも十分な表示領域をユーザに提供することができ、利便性を向上させている(例えば、特許文献1および特許文献2を参照)。
特開平9−114824(1997年5月2日公開) 特開平5−282499(1993年10月29日公開)
上述したような特許文献1および特許文献2などの手書き文字認識技術を利用した文字入力装置において、入力された手書き文字データの変換誤りは避けられない。この変換誤りをいかに簡便に、ユーザが意図するテキストデータへと修正するかが問題となる。
例えば、特許文献2には、文字認識処理の過程で変換可能な認識候補があれば、その候補を用いて変換(かな漢字変換)を行うことにより、変換率の向上を図ることのできる文書作成装置が開示されている。
しかしながら、特許文献2に記載の構成は、かな漢字変換の修正を自動で実行するにとどまり、認識結果をユーザの意図通りに修正することができない。つまり、具体例を挙げれば、認識され、ひらがなに変換された文字を、さらに、漢字に変換した場合、当該ひらがなを変換する漢字を別の漢字に自動修正することはできても、認識・変換されたひらがなそのものを別のひらがなに修正することはできない。したがって、自動で実行されたかな漢字変換の修正結果が、ユーザの意図を反映しているとは限らないという問題がある。結果として、ユーザが意図した文字列を得るために、変換誤りの修正を簡便に行うことができないという問題がある。
また、上記問題点は、手書き文字認識技術を利用した文字入力装置のみにおいて生じるものではなく、該文字入力装置と同様に、音声データ、画像データなどのあらゆる形式のデータから、言語情報を文字として認識する機能を有する文字入力装置であれば、同様に生じるものである。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声データや手書き文字データなどの入力データを認識して文字入力を行うときに、ユーザの意図通りの文字を簡単に得ることができる文字入力装置、文字入力方法、制御プログラム、および、記録媒体を実現することにある。
本発明に係る文字入力装置は、上記課題を解決するために、文字に変換する前の元情報を文字に変換する過程で生成された文字候補が、上記元情報に対応付けて文字候補記憶部に記憶されており、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示手段と、ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示手段と、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示手段が実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する文字処理手段とを備えていることを特徴としている。
本発明に係る文字入力方法は、上記課題を解決するために、文字に変換する前の元情報を文字に変換する過程で生成された文字候補を、上記元情報に対応付けて文字候補記憶部に記憶する記憶ステップと、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示ステップと、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示ステップにて実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する処理実行ステップとを含むことを特徴としている。
上記構成および方法によれば、まず、文字入力装置は、元情報を文字に変換し、上記文字表示手段は、その変換した文字を文字表示領域に表示する。この文字表示領域に表示された文字はユーザの操作によって選択することができるように表示される。このとき、元情報を文字に変換する過程において、当該文字以外にも、上記元情報から変換され得る文字の候補が、文字候補として生成される。この文字候補は、上記元情報に対応付けて文字候補記憶部に記憶される。
そして、文字入力装置に対し、ユーザにより第1操作が行われて、上記文字表示領域に表示された文字が選択された場合には、候補表示手段が動作する。一方、上記第1操作と異なる第2操作が、上記文字表示領域に対して行われた場合には、文字処理手段が動作する。
上記候補表示手段は、上記文字候補記憶部に記憶されている、ユーザにより選択された文字の変換前の元情報に対応付けられた、1または複数の文字候補を、ユーザが選択可能に表示する。すなわち、ユーザは、第1操作を行うことによって、選択した文字と置換することが可能な他の1または複数の文字候補を選択することができる。
上記文字処理手段は、上記候補表示手段が実行する処理(文字候補の表示処理)とは異なる、変換された文字に関する処理を実行する。すなわち、ユーザは、第2操作を行うことによって、上記文字表示領域に表示された変換後の文字に対して処理(例えば、文字の編集処理など)を施すことができる。
上記候補表示手段および文字処理手段が実行する処理により、上記元情報を文字に変換する過程で生じた変換誤りをユーザの意図に沿って修正することができる。
これにより、文字入力装置は、ユーザの操作方法に対応して、候補表示手段が実行する処理と、文字処理手段が実行する処理とを切り換えて実行することが可能となる。すなわち、元情報を変換して文字を入力する過程で、どのような変換誤りが生じたのかに関わらず、上記変換誤りを修正するための複数種類の処理をユーザの操作一つで簡単に切り換えることが可能となる。
以上のことから、音声データや手書き文字データなど認識して文字に変換する処理の過程で生じする変換誤りを修正するための複数の処理のうち、実行すべき処理への切り換えをユーザの簡単な操作の仕方に対応させて行うことができる。したがって、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの文書を簡単に取得することが可能となる。
さらに、上記複数の修正処理のうちの少なくとも一つは、すでに実行済みの変換処理の過程において生成されて一時的に格納されている文字候補を再利用して実行される。つまり、候補表示手段は、置換可能な他の文字候補を特定するために、すでに記憶されている文字候補を文字候補記憶部から取得するだけでよく、別途、対応する文字候補を検索したりする必要がない。
よって、上記文字候補を再利用して実行される処理が選択された場合には、より効率のよい修正処理を実現することが可能となる。
さらに、上記文字入力装置において、上記元情報は、ユーザにより手書き入力された手書き文字データであって、上記文字候補記憶部には、上記手書き文字データを平仮名に変換する過程で生成された該手書き文字データに対応する平仮名候補が記憶されており、上記候補表示手段は、ユーザにより選択された平仮名の変換前の手書き文字データに対応付けられた平仮名候補を、上記文字候補記憶部から取得して表示することが好ましい。
上記構成によれば、ユーザにより手書き入力された手書き文字データを平仮名に変換する文字入力装置において、上記候補表示手段は、ユーザが第1操作により平仮名を選択した場合に、当該平仮名の変換前の手書き文字データについての他の平仮名候補をユーザが選択できるように表示する。
これにより、ユーザは、入力した手書き文字データの変換後の平仮名が、ユーザの意図と異なる場合には、当該平仮名に対して第1操作を行うことにより、他の平仮名候補を呼び出して、選択することができる。
結果として、手書き文字の認識処理にかかる変換誤り(手書き文字の認識の誤り)を簡単に修正することができ、ユーザは、ユーザの意図する文字を簡単に得ることができる。
さらに、上記平仮名候補を表示する処理は、上記変換する過程で生成された平仮名候補を再利用して実行されるため、上記候補表示手段は、より効率のよい候補表示処理を実現することができる。
さらに、上記文字入力装置において、上記元情報から変換されて上記文字表示領域に表示された、1文字以上の平仮名からなる平仮名列が、ユーザの上記第2操作により選択された場合に、上記文字処理手段は、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示することが好ましい。
上記構成によれば、ユーザにより手書き入力された手書き文字データを平仮名に変換する文字入力装置において、上記文字処理手段は、ユーザが第2操作により変換の結果である平仮名列を選択した場合に、当該変換により得た平仮名列を、さらに、漢字文字列に変換するための1または複数の漢字文字列候補を表示する。ユーザは、漢字文字列候補を選択して、文字認識によって得た平仮名をさらに漢字に変換することができる。
これにより、ユーザは、上記第1操作とは異なる第2操作を実行するだけで、簡単に、手書き文字の認識処理にかかる変換処理(認識文字を漢字に変換すること)を実行することが可能となる。以上のことから、ユーザは、第1または第2操作のいずれかを行うことによって、入力文字にかかる2種類の処理を、簡単に切り換えることができる。
結果として、ユーザは、ユーザの意図する文字を簡単に得ることができる。
本発明に係る文字入力装置は、上記課題を解決するために、文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示手段と、上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する文字処理手段とを備えていることを特徴としている。
本発明に係る文字入力装置は、上記課題を解決するために、文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する処理実行ステップとを含むことを特徴としている。
上記構成および方法によれば、平仮名をユーザが選択可能に表示する文字入力装置において、上記文字処理手段は、ユーザが変換の結果である平仮名列を選択した場合に、当該変換により得た平仮名列を、さらに、漢字文字列に変換するための1または複数の漢字文字列候補を表示する。ユーザは、漢字文字列候補を選択して、文字認識によって得た平仮名をさらに漢字に変換することができる。
結果として、ユーザは、ユーザの意図する文字を簡単に得ることができる。
さらに、上記文字入力装置において、漢字の組合せがあらかじめ辞書データ記憶部に登録されており、上記文字処理手段は、上記文字表示領域に表示された文字列のうち、ユーザにより選択された文字列が漢字文字列の漢字を含む場合に、上記ユーザにより選択された文字列に含まれる平仮名列に対応する漢字文字列候補のうち、上記漢字文字列の漢字との組合せが、上記辞書データ記憶部に登録されている漢字文字列候補のみを、上記漢字文字列の漢字と組合せてユーザが選択可能に表示することが好ましい。
上記構成によれば、上記文字処理手段は、ユーザにより選択された平仮名列に対応する上述の1または複数の漢字文字列候補を表示させる際に、該平仮名列の前についている変換済漢字を考慮して選択的に表示する。つまり、上記文字処理手段は、平仮名列に対応する漢字文字列候補を選択した後、上記変換済漢字との組合せが上記辞書データ記憶部に登録されている漢字文字列候補のみに絞り込んで、上記変換済漢字と組合せてユーザが選択可能に表示する。
以上のことから、すでに、平仮名から漢字への変換が済み、入力が確定している漢字との組合せを考慮して、後に続く平仮名列の漢字文字列候補を効率よく表示されることができる。結果として、ユーザは、ユーザの意図する文字をより簡単に得ることができる。
なお、上記文字入力装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記文字入力装置をコンピュータにて実現させる文字入力装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
本発明に係る文字入力装置は、文字に変換する前の元情報を文字に変換する過程で生成された文字候補が、上記元情報に対応付けて文字候補記憶部に記憶されており、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示手段と、ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示手段と、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示手段が実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する文字処理手段とを備えていることを特徴としている。
本発明に係る文字入力方法は、文字に変換する前の元情報を文字に変換する過程で生成された文字候補を、上記元情報に対応付けて文字候補記憶部に記憶する記憶ステップと、上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示ステップと、上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示ステップにて実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する処理実行ステップとを含むことを特徴としている。
本発明に係る文字入力装置は、文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示手段と、上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する文字処理手段とを備えていることを特徴としている。
本発明に係る文字入力装置は、文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する処理実行ステップとを含むことを特徴としている。
したがって、音声データや手書き文字データなどの入力データを認識して文字入力を行うときに、ユーザの意図通りの文字を簡単に得ることができるという効果を奏する。
本発明の一実施形態について図面に基づいて説明すると以下の通りである。なお、以下で説明する各実施形態では、本発明の文字入力装置を、一例として、入力した音声データをテキストに変換し、変換したテキストさらに別の言語に翻訳する音声翻訳機能を有する音声翻訳機に適用した場合について説明する。また、本発明の各実施形態では、音声翻訳機は、音声認識および手書き文字認識を行って(認識機能)文字入力を行い、文書を生成する機能(文書生成機能)を有しているものとする。
図2は、本発明の実施形態にかかる音声翻訳機100のハードウェア構成の一例を示すブロック図である。なお各実施形態では、図2に示す各部は、同一装置内に物理的に一体に設けられているが、これに限定されず、別の筐体に、あるいは、通信可能な別の装置に設けられてもよい。
音声翻訳機100は、CPU(central processing unit)9、操作部2a、表示部2b、RAM(random access memory)3、ROM(read only memory)4、音声CODEC5、アンプ6、マイク7、および、スピーカ8を備えている。
CPU9は、音声翻訳機100における、音声翻訳機能、認識機能、および、文書生成機能を実行するための各部の各種動作を統括制御する制御部1(図1/図5)を実現するものである。具体的には、制御部1は、CPU9が、ROM4などの記憶媒体に記憶されているプログラムをRAM3などに読み出して実行することで実現できる。すなわち、後述する制御部1の各部は、CPU9がROM4に格納されたプログラムを実行し、図示しない入出力回路などの周辺回路を制御することによって実現される機能ブロックである。
操作部2aは、ユーザが音声翻訳機100に対して処理実行を指示するための入力装置であり、表示部2bは、処理結果(音声認識結果としての文字列など)をユーザに提示するための出力装置である。本実施形態では、操作部2aおよび表示部2bが一体に設けられたタッチパネル2として実現される。ユーザは、タッチペン2cなどを用いて、タブレット状の操作部2aの上で、手書き文字を描画したり、表示部2bに表示された操作ボタンをタッチしたりして、音声翻訳機100を操作する。
認識対象となるユーザの音声は、マイク7によって受け付けられる。そして、音声CODEC5のコーダが、アナログ信号である音声をデジタル信号である音声データに変換(A/D変換)する。これにより、音声翻訳機100は、ユーザの音声を処理することができる。また、音声翻訳機100が処理した音声データは、音声CODEC5のデコーダが行うD/A変換により、音声として、アンプ6、そして、スピーカ8を介して出力することが可能である。
上述した図2に示す音声翻訳機100の構成は、一例を示したものに過ぎず、本発明の文字入力装置の構成を限定するものではない。
次に、図3および図4を参照しながら、音声認識および手書き文字認識を利用して文書生成機能を実行する、音声翻訳機100の処理の流れをおおまかに説明する。本実施形態の音声翻訳機100では、まず、音声認識機能を用いて文字入力を行い、手書き文字認識機能を用いて上記入力文字を修正して文書を生成することとしたが、音声翻訳機100の文字入力手順はこれに限定されない。また、以下の説明では、日本語を音声認識し、文書生成する場合を例に説明するが、中国語や英語などあらゆる言語に対応した音声認識および文書生成処理を行うこともできる。
図3(a)〜(c)は、音声翻訳機100の外観を示す図であり、いずれも音声翻訳機100を正面側から見た図である。図3(a)〜(c)のタッチパネル2内には、タッチパネル2に表示される画面例が示されている。図4は、音声翻訳機における音声認識および手書き文字認識を利用した文書生成処理の流れを示すフローチャートである。
マイク7を介してユーザの音声が音声翻訳機100に入力されると、音声翻訳機100は音声を認識し、音声データを、テキストデータ、すなわち音を表す表音記号列(ここでは、ひらがな)に変換する(S1)(例えば、「はしおわたしてください」)。続いて、音声翻訳機100は、S1にて出力された表音記号を、あらかじめROM4に記憶されている辞書データを用いて適切な文字に変換する(S2)。ここでは、日本語の辞書データを参照し、かな漢字変換などを行う(例えば、「箸を渡して下さい」)。そして、この文字変換後の文字列を音声認識結果として、図3(a)に示すとおり、出力文書表示領域101に表示する(S3)。
ユーザは、出力文書表示領域101に表示された音声認識結果を確認する。ここで、ユーザの意図する音声認識結果が出力されていない場合(S4においてNO)、ユーザは、操作部2a(およびタッチペン2c)を用いて、出力文書の修正を行う。
具体的には、出力文書表示領域101に表示されている音声認識結果に、文字変換誤りが生じた(ひらがながユーザの意図と異なる別の文字に変換されている)場合には(S5においてA)、ユーザがタッチペン2cにて所定の操作を行って、文字変換誤りを修正する(S6;文字変換誤り修正処理)。また、音声認識結果が、S1のステップにおける音声変換誤りである(音声がユーザの意図と異なる表音記号に変換されている)場合には(S5においてB)、ユーザがタッチペン2cにて、上記と異なる操作を行って、手書き認識機能を用いて出力文書を修正する(S8;音声変換誤り修正処理)。
S3の音声認識結果にて(あるいは、S6の文字変換誤り修正処理を経て)、ユーザが意図する文字列が得られた場合には(S4においてYES)、当該音声認識結果が出力文書として確定して(S7)文書作成処理が終了する。また、S8の音声変換誤り修正処理を経て、音声認識結果の修正結果からユーザが意図する文字列が得られた場合には、当該修正結果が出力文書として確定して(S9)文書生成処理が終了する。
以上のとおり、音声翻訳機100は、ユーザのタッチパネル2上でのタッチペン2cの操作内容に応じて、S2における文字変換誤りを修正する文字変換誤り修正処理(S6)と、S1における音声変換誤りを修正する音声変換誤り修正処理(S8)とを切り換えて実行することが可能となる。
以下の各実施形態では、認識処理による文字入力にかかる変換誤りを修正するための処理のうち、実行すべき処理の切り換えをユーザの操作に応じて行うことにより、ユーザの意図通りの変換を行った文書を簡単に取得するための音声翻訳機100の構成について、より詳細に説明する。
〔実施形態1−音声認識を利用した文字入力の変換誤りを簡単に修正する〕
(音声翻訳機100の構成i)
図5は、本発明の実施形態にかかる音声翻訳機100の要部構成を示すブロック図である。なお、図5の各構成要素に付された符号は、図2の各構成要素に付された符号に対応しており、同じ符号は、同じ構成要素を示している。したがって、すでに説明した構成要素についての説明は繰り返さない。
音声翻訳機100は、図5に示すとおり、制御部1、音声CODEC5、操作部2a、表示部2b、および、各種記憶部を備えている。本実施形態では、各種記憶部のうち、表音記号記憶部31および文字変換候補記憶部32は、RAM3などの揮発性メモリによって実現される。また、生成文書記憶部41は、ROM4(フラッシュメモリなど)の不揮発性メモリによって実現される。生成文書記憶部41は、図3(a)〜(c)における出力文書表示領域101に表示する最終出力文書としての音声認識結果を記憶するものである。
制御部1は、上述したとおり、音声翻訳機100における、音声翻訳機能、認識機能、および、文書生成機能を実行するための各部の各種動作を統括制御するものである。制御部1は、入出力制御部10および文書生成制御部20を含んでいる。
入出力制御部10は、音声翻訳機100の各部(上述の音声CODEC5、操作部2a、表示部2bなど)と、制御部1の文書生成制御部20との間で行われる情報の入出力を制御するものである。入出力制御部10は、音声データ受信部11、入力制御部12、および、表示制御部13を含んでいる。
音声データ受信部11は、音声からA/D変換された音声データを音声CODEC5から受け付けるものである。入力制御部12は、操作部2aを介してユーザにより入力された指示信号を受け付けるものである。表示制御部13は、各種記憶部に蓄積されているデータを、表示部2bに表示するためのテキストデータ(あるいは、画像データ、動画像データなど)へと変換して表示部2bに供給するものである。
文書生成制御部20は、音声翻訳機100における音声(手書き文字)認識処理および文書生成処理を実行するものである。文書生成制御部20は、音声認識部21、文字変換部22、文書管理部23、文字変換候補出力部24、および、音声認識結果編集部28を含んでいる。
音声認識部21は、音声データ受信部11が受け付けた音声データを解析し、上記音声データを表音記号に変換するものである。音声データの解析は、ROM4に記憶されている、該当する言語の音声認識規則データ(不図示)に基づいて行われる。
表音記号とは、音声データの音を文字で表したテキストデータのことである。表音記号の具体例としては、日本語のひらがな(カタカナ)、中国語のピンイン(アルファベット文字列)、英語の発音記号などが挙げられる。音声データを表音記号に変換することにより、音声翻訳機100は、音声データを文字(列)として処理することが可能となる。
音声認識部21は、音声データを表音記号に変換したものを、表音記号記憶部31に格納する。例えば、音声認識部21が認識した表音記号「はしおわたしてください」を格納する。
文字変換部22は、表音記号記憶部31に格納された表音記号(元情報)を解析し、適切な文字への変換を行うものである。表音記号の解析は、ROM4に記憶されている、該当する言語の形態素解析規則データおよび辞書データ(不図示)に基づいて行われる。日本語の例では、文字変換部22は、ひらがなの文字列(元情報)を形態素解析して単語に区切り、辞書を参照して、単語ごとに、ひらがなを適切な漢字に変換するかな漢字変換を行う。
文字変換部22は、表音記号を適切に変換したものを音声認識結果41aとして、生成文書記憶部41に格納する(例えば、「箸を渡して下さい」)。
ここで、一つの単語に対して、変換可能な文字の候補(文字変換候補)が複数存在することがある。このような場合、文字変換部22は、辞書データから検知したすべての文字変換候補(文字候補)を、当該単語に対応付けて文字変換候補記憶部(文字候補記憶部)32に一時的に格納しておく。
文書管理部23は、生成文書記憶部41に記憶されている、文書生成制御部20の処理結果を管理するものである。具体的には、文書生成制御部20によって、生成文書記憶部41の音声認識結果41aが新しく追加されたり、それが更新されたりすると、その音声認識結果41aを、表示部2bに表示するために表示制御部13に供給する。これにより、上述の「箸を渡して下さい」が、音声認識結果として、図3(a)の出力文書表示領域101に表示される。
なお、入力制御部12を介して受け付けたユーザの指示信号に応じて、音声認識結果41aを削除してもよい。
文字変換候補出力部24は、上述したS6の文字変換誤り修正処理において、出力文書表示領域101に表示された音声認識結果41aの中からユーザにより指定された単語と置換可能な文字変換候補のリストを出力するものである。文字変換候補出力部24が出力した文字変換候補リストは、表示制御部13に供給され、表示部2bに表示される(図3(b)の文字変換候補リスト102)。
より詳細には、例えば、図3(b)に示すように、ユーザがタッチペン2cを用いて修正対象の文字列をドラッグして範囲指定すると、入力制御部12を介して、上記指定された範囲の情報を含む指示信号が文字変換候補出力部24に供給される。
文字変換候補出力部24は、文書生成処理の過程において文字変換部22が文字変換候補記憶部32に格納した文字変換候補のうち、上記指定された範囲内の単語に対応付けて格納されている文字変換候補を再利用して、文字変換候補リスト102を生成する。
ユーザがタッチペン2cを用いて文字変換候補リスト102から文字変換候補を選択した場合には、入力制御部12から伝達される指示信号に応じて、文字変換部22が、範囲指定されている現時点の単語を新しく選択された文字変換候補に置換する。
上記構成によれば、文字変換候補出力部24は、文字変換候補リスト102を生成するために、辞書データを検索して、ユーザが指定する単語に対応する文字変換候補を取り出すという処理を実行する必要がない。
以上のことから、音声データなどの入力データを認識して文字入力を行うときに、該入力データの認識または文字変換処理に係る、ユーザの意図とは異なる文字への変換誤りを簡単に修正することが可能となる。
音声認識結果編集部28は、上述したS8の音声変換誤り修正処理において、ユーザの指示に応じて、出力文書表示領域101に表示される音声認識結果を編集するものである。
例えば、図3(c)に示すように、ユーザがタッチペン2cを用いて出力文書表示領域101に表示された文字列の修正位置をタッチすると、音声認識結果編集部28は、入力制御部12を介して、上記指定された修正位置を取得し、該修正位置にカーソル103を表示させる。さらに、手書き文字入力ボックス104を表示して、ユーザが手書き文字によって簡単に変換誤りの修正を行えるように編集ツールを提供する。そして、音声認識結果編集部28が、手書き文字入力ボックス104を用いて入力された文字を、カーソル103の修正位置に挿入することによって、音声認識結果を編集することが可能となる。
音声認識結果編集部28が行う上記編集手順は一例であって、本発明の音声翻訳機100の構成はこれに限定されない。ユーザがタッチパネル2およびタッチペン2cなどを用いて、生成文書記憶部41に記憶されている音声認識結果41aを編集できるツールを提供することができさえすれば、音声認識結果編集部28は、どのような手順によって編集を行っても構わない。
上記文字変換候補出力部24および音声認識結果編集部28は、入力制御部12から供給されるユーザの指示信号に応じて、各々の処理を実行する。より具体的には、ユーザにより操作部2a(タッチペン2c)を介して入力される指示信号を入力制御部12が受け付ける。入力制御部12は、文字変換候補リスト102を表示する指示であると判断した場合には、ユーザが指定する文字列の範囲を含む当該指示信号を、文字変換候補出力部24に供給する。一方、音声認識結果41aを編集するツールを提示する指示であると判断した場合には、ユーザが指定する修正位置情報を含む当該指示信号を音声認識結果編集部28に供給する。
これにより、音声翻訳機100は、ユーザの操作部2a(タッチペン2c)の操作内容に応じて、S2における文字変換誤りを修正する文字変換誤り修正処理(S6)と、S1における音声変換誤りを修正する音声変換誤り修正処理(S8)とを切り換えて実行することが可能となる。すなわち、音声認識処理におけるどの変換処理の段階(S1かS2か)で、変換誤りが生じたのかに関わらず、いずれの変換誤りの修正のための処理も、操作部2a(タッチペン2c)による操作一つで簡単に切り換えることが可能となる。
以上のことから、音声データや手書き文字データなどの認識処理による文字入力にかかる変換誤りを修正するための複数の処理のうち、実行すべき処理への切り換えをユーザの操作に応じて簡単に行うことができるので、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの文書を簡単に取得することが可能となる。
さらに、上記複数の修正処理のうちの少なくとも一つは、すでに実行済みの変換処理の過程において生成されて一時的に格納されている候補(文字変換候補)を再利用して実行される。よって、上記候補を再利用して実行される処理が選択された場合には、より効率のよい修正処理を実現することが可能となる。
なお、入力制御部12が、音声翻訳機100に入力される指示信号の種類を判断するときの、該指示信号を入力するためのユーザの操作方法については、特に限定されない。しかしながら、上述したとおり、入力制御部12は、ユーザがタッチペン2cを用いて修正対象の文字列をドラッグして範囲指定したか(図3(b))、出力文書表示領域101に表示された文字列の修正位置をタッチしたか(図3(c))を判断し、それに応じて、指示信号の供給先を切り換える(文字変換候補出力部24または音声認識結果編集部28)ことが好ましい。
上記構成によれば、ユーザは、タッチペン2cの操作方法(ドラッグかタッチするか)を切り換えるのみで、簡単に音声認識結果41aの編集方法を選ぶことができる。つまり、音声翻訳機100は、文字変換候補リスト102を呼び出すか、手書き文字入力ボックス104を呼び出すかの選択をユーザに促すためのメニュー画面を別途表示させる必要がなくなる。
これにより、ユーザにとってはメニュー画面を呼び出したり、メニュー画面から所望の処理を選択したりするなどの操作上の手数が減少し、操作が簡便になる。また、音声翻訳機100は、メニュー画面を生成して、表示部2bに表示するという処理を省くことができる。さらに、本実施形態の音声翻訳機100の様に、機器のサイズが小さく表示領域に制約があるような携帯型の機器では、上述のようなメニュー画面の表示が不要となれば、表示領域を有効活用できるので、特に効果が大きい。
(変形例1)中国語を扱う音声翻訳機100
上述の音声翻訳機100では、日本語を音声認識して日本語の文字を入力し、文書を生成する場合について説明したが、本発明の音声翻訳機100はこれに限定されない。中国語の音声を音声認識して、ピンイン(元情報)に変換し、さらに、ピンインを適切な漢字(文字)に変換して、中国語の文書を生成してもよい。
この場合、音声データに含まれるイントネーションの情報(抑揚情報)を用いて、文字変換候補記憶部32に格納する文字変換候補を管理する。文字変換候補出力部24は、出力する文字変換候補リスト102を生成するために、文字変換候補記憶部32の文字変換候補を、抑揚情報を利用して効率よく取得する。
より具体的には、上記抑揚情報として中国語発音の一声から四声までののいずれかの抑揚パターンを示す声調情報を用いる。声調情報(一声から四声までの抑揚のパターン)ごとに文字変換候補を管理し、取得し、文字変換候補リスト102を作成する。
例えば、音声認識結果41aとして最終的に出力されたある漢字を別の漢字に修正したい場合に表示する文字変換候補リスト102を、当該出力された漢字と同じ声調情報を持つ漢字の文字変換候補のみで生成したり、逆に、上記漢字と異なる声調情報を持つ漢字の文字変換候補のみで生成したりすることができる。
図9は、中国語音声認識機能を利用して文字入力を行う、図5の音声翻訳機100における、中国語文字入力処理の流れを示すフローチャートである。
ユーザが、マイク7(図3(a)〜(b))を介して中国語音声を入力すると、その音声データを音声データ受信部11が取得して(S201)、音声認識部21に供給する。音声認識部21は、中国語の音声認識規則データを参照して、入力された音声データを認識してピンインおよび声調情報の組合せに変換し、当該組合せを第1表音記号対として表音記号記憶部31に格納する(S202)。
次に文字変換部22は、中国の辞書データを参照して、認識した上記第1表音記号対に対応する漢字が存在するか否かを検証する(S203)。対応する漢字が辞書データに存在すると判定した場合は(S203においてYES)、文字変換部22は、上記第1表音記号対に対応付けて、漢字を音声認識結果41aとして生成文書記憶部41に記憶する。なお、対応する漢字が複数存在する場合は、第1候補の漢字を生成文書記憶部41に記憶するとともに、残りの漢字候補を、上記第1表音記号対と対応付けて文字変換候補記憶部32に格納する(S204)。一方、対応する漢字が辞書データに存在しないと判定した場合は(S203においてNO)、文字変換部22は、上記第1表音記号対をそのまま、文字変換候補記憶部32に格納し、音声認識結果41aとして生成文書記憶部41にも記憶する(S205)。
次に文字変換部22は、S202にて認識したピンインに、認識した声調情報と異なる声調情報を組み合わせて、第2表音記号対を生成して(S206)、生成した第2表音記号対に対応する漢字が上記辞書データに存在するか否かを検証する(S207)。
対応する漢字が辞書データに存在すると判定した場合は(S207においてYES)、文字変換部22は、上記第2表音記号対に対応付けて、漢字を文字変換候補として文字変換候補記憶部32に格納する(S208)。ここでは、4種類の声調情報があらかじめ定められているので、3つの第2表音記号対につき、対応する漢字の有無を検証する。
3つ全ての第2表音記号対について検証が終了すると(S209においてYES)、文書管理部23は、生成文書記憶部41から音声認識結果41aを取り出して、表示制御部13に供給する。これにより、入力された音声データを漢字に変換した音声認識結果41aは、出力文書として、例えば図3(a)の出力文書表示領域101上に表示される(S210)。
ここで、出力文書表示領域101上で得られた音声認識結果(漢字)が、ユーザの意図に沿ったものであれば、ユーザはこれを確定させて出力文書を得ればよい。一方、上記音声認識結果が、ユーザの意図と異なるものである場合は、これまでの中国語文字入力処理過程において変換誤りが生じたこととなり、これを修正する必要がある。ここでは、以下に示すとおり、2つのうちいずれの段階で変換誤りが生じたかに応じて(ユーザのペン操作(ドラッグ/ペンタッチ)に応じて)、2種類の変換誤り修正処理を切り換えて実行する。
段階1:ピンインの認識は正しく行われたが、声調情報を認識する段階で誤りが生じた。この場合、声調情報のみを修正して、ユーザの意図する漢字を取得する(声調認識誤り修正処理)。
段階2:音声から、ピンインおよび声調情報への変換がともに正しく行われなかった。この場合、音声入力とは別の手段を用いて文字を入力し、ユーザの意図する漢字を取得する(音声変換誤り修正処理)。
これにより、修正すべき変換誤りが生じたのがどの段階であるのかを考慮せずに、一律の修正ツールを提供する場合と比べて、より効率よく、より簡便な操作で、ユーザは、意図した漢字を得ることができる。
(1)声調認識誤り修正処理
ユーザは、出力文書表示領域101に表示された意図と異なる漢字を、別の適切な文字に変換したい場合、その変換したい漢字を、タッチペン2cを用いてドラッグする。
入力制御部12は、漢字がドラッグで選択されたことを検知して、受け付けた修正指示信号を、ドラッグで指定された漢字情報とともに、文字変換候補出力部24に伝達する(S211のA)。
入力制御部12から伝達された指示信号に応じて、文字変換候補出力部24は、上記範囲情報に基づいて、修正対象となる漢字を取得して、当該漢字が対応している第1表音記号対(すなわち、ピンインおよび声調情報)を、生成文書記憶部41から取得する(S212)。ここで、文字変換候補出力部24は、ドラッグされた漢字の上記ピンインおよび声調情報を表示部2bに表示させてもよい(S213)。
続いて、文字変換候補出力部24は、S212で取得したピンインと、S212で取得したのとは異なる声調情報との組合せからなる第2表音記号対を文字変換候補記憶部32から取得する(S214)。そして、文字変換候補出力部24は、取得した第2表音記号対に対応付けられた漢字を取得して(S215)、取得した漢字を文字変換候補とする文字変換候補リスト102を表示部2bに表示する(S216)。なお、第2表音記号対が複数存在する場合は、その各々についてすべての漢字を取得して、所定の順番で文字変換候補リスト102を生成してもよいし、あるいは、声調情報ごとに候補漢字を整理して文字変換候補リスト102を生成してもよい。
文字変換候補リスト102に表示された文字変換候補のうち、ある漢字がタッチペン2cでタッチされると(S217においてYES)、入力制御部12を介して指示信号を受け付けた文字変換部22は、ドラッグ指定された漢字を、選択された文字変換候補の漢字に置換する(S218)。
これにより、簡単な操作で、効率よく、声調情報のみが修正され、ユーザの意図する漢字を取得することができる。
(2)音声変換誤り修正処理
ユーザは、出力文書表示領域101に表示された漢字が意図と異なる場合に、出力文書表示領域101上の修正したい位置を、タッチペン2cを用いてタッチする。
入力制御部12は、漢字の文字間の特定の位置がタッチされたことを検知して、受け付けた修正指示信号を、タッチされた文字間の位置情報とともに、音声認識結果編集部28に伝達する(S211のB)。
入力制御部12から伝達された指示信号に応じて、音声認識結果編集部28は、出力文書表示領域101の修正位置にカーソル103を表示するとともに(S219)、ユーザが音声認識結果を修正して、意図する漢字を取得するための編集ツールを表示する(S220)。
そして、編集ツールを利用したユーザの操作に応じて、音声認識結果編集部28は、音声認識結果を編集し、ユーザの意図を反映した修正結果を返す(S221)。
これにより、ピンイン変換に誤りが生じて、音声認識結果を正しく得られなかった場合でも、音声入力とは別の手段を用いて文字を入力して、変換誤りを修正し、ユーザの意図する漢字を取得することができる。
なお、音声認識結果編集部28が提供する編集ツールとその編集方法は特に限定されないが、例えば、手書き文字入力ボックス104を表示して、ユーザが手書き文字によって簡単に変換誤りの修正を行えるようにしてもよい。そして、手書き文字入力ボックス104を用いて入力された文字を、音声認識結果編集部28がカーソル103の修正位置に挿入することによって、音声認識結果を編集することが可能となる。
以上で述べた声調認識誤り修正処理および/または音声変換誤り修正処理を経て、ユーザの修正意図を反映した音声認識結果が、出力文書表示領域101に表示される。これにより、ユーザが意図する音声認識結果が得られた場合には(S222においてYES)、文書管理部23は、当該修正後の音声認識結果を、出力文書として確定させる(S223)。
上記方法によれば、音声翻訳機100は、ユーザの操作部2a(タッチペン2c)の操作内容に応じて、S202における声調情報の変換誤りを修正する声調認識誤り修正処理(S212〜S218)と、S202におけるピンイン、声調情報両方の音声変換誤りを修正する音声変換誤り修正処理(S219〜S221)とを切り換えて実行することが可能となる。すなわち、音声認識処理におけるどの変換処理の段階で、変換誤りが生じたのかに関わらず、いずれの変換誤りの修正のための処理も、操作部2a(タッチペン2c)による操作一つで簡単に切り換えることが可能となる。
以上のことから、音声データや手書き文字データなどの認識処理による文字入力にかかる変換誤りを修正するための複数の処理のうち、実行すべき処理への切り換えをユーザの操作に応じて簡単に行うことができるので、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの文書を簡単に取得することが可能となる。
さらに、上述のように、抑揚情報を用いて文字変換候補を格納することにより、文字変換候補リスト102を、抑揚情報ごとにグループ化して表示することができるので、文字変換候補リスト102を生成する処理の効率化を図ることができるとともに、ユーザにとって意図した文字変換候補を選択しやすい文字変換候補リスト102を表示することが可能となる。結果として、ユーザの意図とは異なる文字への変換誤りをより簡単に修正することが可能となる。
なお、上述した変換誤り以外にも、さらに、以下の変換誤りが生じることがある。これは、同一の第1表音記号対に対して、複数の漢字が存在する場合に生じ得る。
段階3:ピンインおよび声調情報の認識は正しく行われたが、対応する漢字を変換する段階で誤りが生じた。この場合、認識されたピンインおよび声調情報に対して、ユーザの意図する漢字を取得する(漢字変換誤り修正処理)。
漢字変換誤り修正処理を実行する場合、音声翻訳機100の入力制御部12は、さらに、上記漢字変換誤り修正処理を呼び出すための、上述したS211の2つの操作とは異なる第3の操作を検知して、受け付けた指示信号および指定された漢字を、文字変換部22に伝達する。文字変換部22が第3の操作に応じて実行する漢字変換誤り修正処理は、上述のS214およびS215を除いては、声調認識誤り修正処理と同様である。
すなわち、文字変換部22は、上記指定された漢字が対応している第1表示文字対に対応付けられた、他の文字変換候補を文字変換候補記憶部32より取得して、文字変換候補リスト102を生成する。これにより、同音異義の漢字候補が表示部2bに表示される。結果として、漢字変換誤りを簡単な操作で効率よく修正することができる。
以上のことから、中国語音声データの認識処理による文字入力処理における上記各段階の変換誤りを修正するための各処理のうち、実行すべき処理への切り換えをユーザの操作に応じて簡単に行うことができるので、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの中国語文書を簡単に取得することが可能となる。
なお、英語を音声認識して英語の文書を生成する音声翻訳機100では、単語のアクセントの位置を抑揚情報として利用してもよい。
〔実施形態2−手書き文字認識を利用した文字入力の変換誤りを簡単に修正する〕
まず、図4および図6(a)〜(d)を参照しながら、S8に示す、音声変換誤り修正処理の流れについてより詳細に説明する。図6(a)〜(d)は、音声翻訳機100において、手書き文字認識機能を利用して音声変換誤り修正処理を行う場合の、音声翻訳機100の表示画面例を示す図である。
本実施形態では、S5において、ユーザが、タッチペン2cを用いて、図3(c)に示す出力文書表示領域101をタッチした場合に、音声認識結果編集部28(図5)が、手書き文字入力ボックス104を表示して、ユーザの手書き文字の入力を受け付け、音声変換誤り修正処理がスタートする。
図6(a)に示すとおり、ユーザが、タッチペン2cを用いて、操作部2aの手書き文字入力領域106上に、手書き文字を入力すると、音声翻訳機100は、手書き文字入力領域106に入力された手書き文字データを認識し(S11)、その文字認識結果を、文字認識結果表示領域105に表示する(S12)。例えば、図6(b)に示すとおり、一文字ずつ「わたしにかして」と手書きで入力された結果、文字認識結果として、「わたしにかして」が文字認識結果表示領域105に表示される。ユーザは、文字認識結果表示領域105に表示された、文字認識結果を確認する。ここで、ユーザの意図する文字認識結果が出力されていない場合(S13においてNO)、ユーザの操作部2a(およびタッチペン2c)の操作に応じて、認識文字の修正を行う(S14;認識文字修正処理)。
具体例には、図6(c)に示すとおり、ユーザがタッチペン2cを用いて文字認識結果表示領域105に表示された認識文字(またはその左側)をタッチすると、音声翻訳機100が、修正対象の認識文字の左側にカーソル103を表示するとともに、認識文字候補リスト108を表示して、ユーザが文字認識誤りの修正を行えるように修正ツールを提供する。
一方、S12の文字認識結果にて(あるいは、S14の認識文字修正処理を経て)、ユーザが意図する文字列が得られた場合には(S13においてYES)、次に、ユーザの操作部2a(およびタッチペン2c)の操作に応じて、上記文字認識結果の文字列を辞書データに基づき適切な文字に変換する(S15;認識文字変換処理)。
具体的には、図6(d)に示すとおり、ユーザがタッチペン2cを用いて文字認識結果表示領域105に表示された1以上の認識文字をドラッグすると、音声翻訳機100が、ドラッグにより範囲指定された認識文字に対応する(あるいは、認識文字と置換可能な)文字変換候補を示す文字変換候補リスト109を表示して、ユーザが認識文字を変換できるように文字変換ツールを提供する。
S15の認識文字変換処理を経て、ユーザが意図する文字列を得られた場合には、音声翻訳機100は、その認識文字変換結果を、上記S3にて得られた音声認識結果に反映させて音声変換誤りを修正する(S16)。ここで、音声認識結果を削除するなどの編集処理が実行されてもよい。
以上のことから、S1にて変換された表音記号に誤りがある場合も、手書き文字認識機能を利用してその音声変換誤りを簡単に修正することが可能となり、そこからさらに文字変換処理を簡単に実行することができる。以上のことから、入力データの認識または文字変換処理に係る、ユーザの意図とは異なる文字への変換誤りを簡単に修正することが可能となる。
そして、音声翻訳機100は、S13において、ユーザのタッチパネル2上でのタッチペン2cの操作内容に応じて、S11における文字認識誤りを修正する認識文字修正処理(S14)と、S11により出力された認識文字を適切な文字に変換する認識文字変換処理(S15)とを切り換えて実行することが可能となる。
なお、上述のS13において、ユーザの操作部2a(およびタッチペン2c)によって、いずれの操作が行われたか(どのような指示信号が入力されたか)については、実施形態1で説明した入力制御部12の動作と同様であるため、ここでは説明を省略する。
(音声翻訳機100の構成ii)
図1は、本発明の実施形態にかかる音声翻訳機100の要部構成を示すブロック図である。なお、図1の各構成要素に付された符号は、図2または図5の各構成要素に付された符号に対応しており、同じ符号は、同じ構成要素を示している。したがって、すでに説明した構成要素についての説明は繰り返さない。また、説明の簡略化のために、図1に示す音声翻訳機100において、図5に示す構成要素(音声認識部21、音声認識結果編集部28など)の記載を省略しているが、図1の音声翻訳機100は、これら省略した、すでに説明済みの各構成要素を併せて備えていてもよい。
本発明の音声翻訳機100において、図5に示す構成と異なる点は、認識文字候補記憶部33および文字認識結果記憶部34を備えている点、および、制御部1の文書生成制御部20が、手書き文字認識部25および認識文字候補出力部26を含んでいる点である。
本実施形態では、文字変換部22および文字変換候補出力部24は、手書き文字認識部25が出力する文字認識結果を、別の文字に変換することにより編集する文字認識結果編集部(文字処理手段)29として機能する。
本実施形態では、認識文字候補記憶部33および文字認識結果記憶部34は、RAM3(図2)によって実現される。文字認識結果記憶部34は、図6(a)〜(d)における文字認識結果表示領域105に表示する文字認識結果を記憶するものである。
手書き文字認識部25は、操作部2aを介して入力制御部12に入力された手書き文字データ(元情報)を解析し、テキストデータ(文字)に変換するものである。手書き文字データがテキストデータに変換されることにより、音声翻訳機100は、ユーザが入力した手書き文字を、文字として処理することが可能となる。
手書き文字データは、例えば、操作部2aおよび表示部2bを一体に備えたタッチパネル2上の所定の領域内に、タッチペン2cなどを用いてユーザが手書きで文字を入力することにより生成される。また、手書き文字データの解析は、ROM4に記憶されている、該当する言語の文字認識規則データおよび辞書データ(不図示)に基づいて行われる。
手書き文字認識部25は、手書き文字データをテキストデータに変換したものを、文字認識結果として文字認識結果記憶部34に格納する。例えば、認識文字「わたしにかして」を格納する。
上述の手書き文字認識の過程で、認識対象となる一つの手書き文字データに対して、複数の文字が候補(認識文字候補)として得られる場合がある。このような場合、手書き文字認識部25は、辞書データから検知したすべての認識文字候補(文字候補)を、上記手書き文字データに対応付けて、認識文字候補記憶部(文字候補記憶部)33に一時的に格納しておく。
文書管理部23は、生成文書記憶部41に記憶されている処理結果を管理するとともに、さらに、文字認識結果記憶部34に格納されている、文書生成制御部20の処理結果を管理する。具体的には、文字認識結果記憶部34に、文字認識結果が新しく追加されたり、それが更新されたりすると、その文字認識結果を表示部2bに表示するために表示制御部13に供給する。これにより、上述の認識文字「わたしにかして」が、文字認識結果として、図6(b)の文字認識結果表示領域105に表示される。
さらに、文書管理部23は、タッチペン2cを用いて認識文字挿入ボタン107がタッチされた場合に、文字認識結果表示領域105に表示される認識文字を、出力文書表示領域101のカーソル103の位置に挿入する。
具体的には、認識文字挿入ボタン107がタッチされると、認識文字を出力文書表示領域101に挿入する指示信号が、入力制御部12を介して文書管理部23に伝達される。文書管理部23は、上記指示信号に応じて、文字認識結果記憶部34に格納されている認識文字(文字認識結果表示領域105に表示されている認識文字)を、文字認識結果41bとして、生成文書記憶部41に記憶する。そして、文字認識結果41bを、すでに表示されている音声認識結果41aとともに、最終的に出力する文書として表示制御部13に供給する。
認識文字候補出力部(候補表示手段)26は、上述したS14の認識文字修正処理において、文字認識結果表示領域105(図6(c)参照)に表示された認識文字の中から、ユーザに指定された認識文字と置換可能な他の認識文字候補のリストを出力するものである。認識文字候補出力部26は、上記指定された認識文字が対応している手書き文字データに対応付けて、認識文字候補記憶部33に格納されている認識文字候補を取得して、認識文字候補リストを生成し出力する。認識文字候補出力部26が出力した認識文字候補リストは、表示制御部13に供給され、表示部2bに表示される(図6(c)の認識文字候補リスト108)。
認識文字候補出力部26が出力した認識文字候補リスト108から新たな認識文字が選択されると(タッチペン2cなどによりタッチされると)、手書き文字認識部25は、文字認識結果記憶部34に記憶されている認識文字結果を編集して、現在の認識文字を新たに選択された認識文字へと置換する。
文字変換候補出力部(文字処理手段)24は、さらに、上述したS15の認識文字変換処理において、文字認識結果表示領域105(図6(d)参照)に表示された認識文字の中から、ユーザにより指定された範囲内の文字列に対応する文字変換候補のリスト(文字変換候補リスト109)を出力する。
文字変換部(文字処理手段)22は、上記辞書データから、ユーザにより指定された範囲内の文字列に対応する文字変換候補を取得して、文字変換候補記憶部32に格納する。
文字変換候補出力部24は、文字変換部22が文字変換候補記憶部32に格納した文字変換候補を取得して、文字変換候補リスト109を生成する。
文字変換候補出力部24が出力した文字変換候補リスト109から、ユーザによって一つの文字変換候補が選択されると、文字変換部22は、文字認識結果記憶部34に記憶されている認識文字のうち、ユーザにより指定された範囲内の文字列を、上記選択された文字変換候補に変換する。
上記文字変換候補出力部24および認識文字候補出力部26は、入力制御部12から供給されるユーザの指示信号に応じて、それぞれ生成した候補リストを表示する。より具体的には、ユーザにより操作部2aを介して入力される指示信号を入力制御部12が受け付ける。入力制御部12は、認識文字候補リスト108を表示する指示であると判断した場合には、ユーザが指定する認識文字を含む当該指示信号を、認識文字候補出力部26に供給する。一方、文字変換候補リスト109を表示する指示であると判断した場合に、ユーザが指定する文字列の範囲を含む当該指示信号を、文字変換候補出力部24に供給する。
これにより、音声翻訳機100は、ユーザの操作部2a(タッチペン2c)の操作内容に応じて、認識文字を別の認識文字に修正するための認識文字修正処理(S14)と、認識文字を別の文字(漢字やカタカナなど)に変換するための認識文字変換処理(S15)とを切り換えて実行することが可能となる。すなわち、手書き文字認識処理におけるどの変換処理の段階(手書き文字認識段階または認識文字変換段階)で、修正・編集を行いたいのかに関わらず、いずれの段階の編集・修正処理も、操作部2a(タッチペン2c)による操作一つで簡単に切り換えることが可能となる。
以上のことから、音声データや手書き文字データなどの認識処理による文字入力にかかる変換誤りを修正するための複数の処理のうち、実行すべき処理への切り換えをユーザの操作に応じて簡単に行うことができるので、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの文書を簡単に取得することが可能となる。
さらに、上記複数の修正処理のうちの少なくとも一つは、すでに実行済みの変換処理の過程において生成されて一時的に格納されている候補(認識文字候補)を再利用して実行される。よって、上記候補を再利用して実行される処理が選択された場合には、より効率のよい修正処理を実現することが可能となる。
(音声翻訳機100の処理フロー)
以下、図6〜図8を参照しながら、図1に示す音声翻訳機100における、音声変換誤り修正処理(図4のS8)の流れについて、手書き文字認識を利用した場合を例にとり、より詳細に説明する。具体的には、図3(c)の出力文書表示領域101に表示された音声認識結果41a「箸を渡して下さい」を、手書き文字入力ボックス104を利用して「私に貸して」に修正する場合について説明する。なお、本実施形態では、音声翻訳機100は、手書き文字入力ボックス104において、ひらがなのみを、受け付けて正しく認識するものとし、認識したひらがなを漢字(カタカナ)変換することにより、日本語の文書を作成するものとする。
図7は、図1に示す音声翻訳機100における音声変換誤り修正処理の流れを示すフローチャートである。図8(a)〜(d)は、音声変換誤り修正処理を行う場合の、音声翻訳機100の表示画面遷移の一例を示す図である。
図6(a)に示すとおり、手書き文字入力ボックス104の手書き文字を入力する領域内に、ユーザがタッチペン2cを用いて手書き文字を入力すると(例えば、「わたしにかして」)、その手書き文字データを入力制御部12が取得して(S101)、手書き文字認識部25に供給する。手書き文字認識部25は、供給された手書き文字データごとに認識を行う。すなわち、手書き文字データを「わたしにかして」というテキストデータに変換する(S102)。このとき、手書き文字認識部25は、上記テキストデータに変換された第1候補である「わたしにかして」という認識文字を文字認識結果記憶部34に格納する。さらに、手書き文字認識部25は、上記第1候補以外の認識文字候補も、上記手書き文字データごとに認識文字候補記憶部33に格納しておく(S103)。第1候補の認識文字もともに格納してもよい。具体的には、「文字ID/第1候補/他の候補」の三つのフィールドを手書き文字データごとに以下のように格納する。例えば、「第1文字データ/わ/れ、ぬ、ワ・・・」、「第3文字データ/し/レ、こ、シ・・・」などである。
続いて、文書管理部23は、文字認識結果記憶部34に格納された文字認識結果「わたしにかして」を文字認識結果表示領域105(図6(b))に表示する(S104)。
ここで、ユーザは、文字認識結果表示領域105に表示された文字認識結果に修正を行わずに、そのまま出力文書として挿入したい場合は、認識文字挿入ボタン107をタッチして、出力文書表示領域101のカーソル103の位置に、文字認識結果表示領域105の文字認識結果を挿入すればよい。一方、ユーザは、文字認識結果表示領域105に表示された認識文字の認識誤りを修正したい場合、または、上記認識文字を別の適切な文字(漢字、カタカナなど)に変換したい場合には、タッチペン2cを用いて文字認識結果表示領域105上の認識文字を所定の操作で選択することにより、変換、修正を行うことができる。
(1)認識文字修正処理
ユーザは、文字認識結果表示領域105に表示された認識文字の認識誤りを修正するために、文字認識結果が表示されている文字認識結果表示領域105上のいずれかをタッチペン2cを用いてタッチする。
入力制御部12は、認識文字間の特定の位置がタッチされたことを検知して、受け付けた認識文字修正の指示信号を、タッチされた文字間の位置情報とともに、認識文字候補出力部26に伝達する(S105のB)。ここでは、図6(c)に示す表示画面を例にとり説明する。ここでは、入力制御部12は、文字認識結果の3文字目、カタカナの「レ」を「し」に修正したいので、2文字目「た」と3文字目「レ」との間がタッチされたものと検知する。
入力制御部12から伝達された指示信号に応じて、認識文字候補出力部26は、上記2文字目と3文字目との間を修正位置として取得し(S106)、該修正位置にカーソル103を表示させる。そして、修正位置にある(カーソル103の右にある)認識文字を修正対象として取得する(S107)。
次に、認識文字候補出力部26は、上記取得した認識文字が対応する手書き文字データに対応付けて格納されている認識文字候補を、認識文字候補記憶部33から取得する(S108)。例えば、認識文字候補記憶部33には、3文字目「レ」の認識文字候補は、「文字ID/第1候補/他の候補」=「第3文字データ/レ/し、こ、シ・・・」というように格納されている。したがって、認識文字候補出力部26は、3文字目「レ」の他の認識文字候補「し、こ、シ・・・」を取得する。
そして、認識文字候補出力部26は、取得した上記各認識文字候補を一覧で表示するための認識文字候補リスト108を表示部2bに表示する(S109)(図6(c))。ユーザが、表示された認識文字候補リスト108の中から、所望の認識文字候補(例えば、「し」)をタッチペン2cでタッチすると、入力制御部12は、認識文字候補が選択されたことを検知する(S110のYES)。そして、手書き文字認識部25は、入力制御部12を介してユーザにより選択された認識文字候補「し」を取得して、修正対象の認識文字「レ」と置換する(S111)。正しく修正された文字認識結果は、文字認識結果記憶部34に格納されて、文書管理部23により文字認識結果表示領域105に表示される。
(2)認識文字変換処理
一方、S105において、ユーザは、文字認識結果表示領域105に表示された認識文字を別の適切な文字に変換したい場合、認識文字のうち変換したい文字の範囲(例えば、「わたしに」)を、タッチペン2cを用いてドラッグする(図6(d))。
入力制御部12は、認識文字がドラッグで選択されたことを検知して、受け付けた認識文字変換の指示信号を、ドラッグで指定された範囲情報とともに、文字変換部22および文字変換候補出力部24に伝達する(S105のA)。
入力制御部12から伝達された指示信号に応じて、文字変換候補出力部24は、上記範囲情報に基づいて、変換対象となる認識文字「わたしの」を取得する(S112)。そして、取得した変換対象の認識文字の中に、文字変換部22によって、すでに別の文字に変換されている変換済文字が含まれているか否かを確認する。これは、本実施形態において、ドラッグされた範囲内に変換済文字が含まれているか否かによって、文字変換候補出力部24が、実行する文字変換候補リスト109の生成方法が異なるためである。
本実施形態では、変換前の認識文字をひらがなとし、変換済文字を漢字またはカタカナとする。したがって、文字変換候補出力部24は、S112にて取得した認識文字の中に、漢字(またはカタカナ)が含まれているか否かを判定する(S113)。
(2−1)ドラッグされた文字列が、すべて変換前のひらがなの場合
ここで、取得した認識文字に漢字が含まれていない(ひらがなのみ含まれている)と判定した場合には(S113においてNO)、文字変換候補出力部24は、図示しない日本語の辞書データから対応する漢字があるか否かを検証するひらがなの文字(列)を、上記ドラッグ指定された範囲内の認識文字から取得する(S114)。このとき、取得するひらがなは、上記範囲内のひらがな全部であってもよいし、一部であってもよい。
文字変換候補出力部24は、辞書データを参照し、上記取得したひらがな(列)に対応する文字変換候補を取得する(S115)。そして、文字変換候補出力部24は、上記ひらがなに対応付けて、すべての文字変換候補を文字変換候補記憶部32に格納する(S116)。
なお、S114においてひらがなを取得する手順は特に限定されない。形態素解析によって、ひらがなを単語ごとに切り出して、対応する漢字を辞書データから抽出してもよいし、あるいは、ドラッグ指定された範囲内のひらがなを1文字目から順に文字数を増やして取り出し、取り出したひらがなの組合せごとに抽出されたすべての漢字を文字変換候補として取得してもよい。後者の手順を採用する場合、ドラッグ指定された範囲の全ひらがなに対応する漢字が辞書データに存在するか否かを検証するまで(S117のYES)、上述のS114〜S116の処理を繰り返す(S117のNO)。
全ひらがな文字についての、文字変換候補の検証が終了すると(S117のYES)、文字変換候補記憶部32に、上記ドラッグ指定された範囲のひらがなから変換され得る全文字変換候補が記憶される。そして、文字変換候補出力部24は、文字変換候補記憶部32に記憶された文字変換候補を一覧表示する文字変換候補リスト109を生成し、表示制御部13に出力する(S118)。そして、図6(d)に示すように、ドラッグにより範囲指定された「わたしに」に対応する文字変換候補が、表示部2b上に表示される。
文字変換候補リスト109に表示された文字変換候補のうち、例えば、「私に」がタッチペン2cでタッチされると(S119においてYES)、入力制御部12を介して指示信号を受け付けた文字変換部22は、ドラッグ指定された範囲のひらがな(「わたしに」)を、選択された文字変換候補(「私に」)に置換する(S120)。文書管理部23は、置換された後の文字認識結果を、文字認識結果記憶部34から取り出して表示制御部13に供給する。これにより、図8(a)に示すとおり、タッチパネル2の文字認識結果表示領域105には、「私にかして」が表示される。
(2−2)ドラッグされた文字列に、変換済文字(漢字、カタカナなど)が含まれている場合
一方、S113において、文字変換候補出力部24が、取得した認識文字に変換済文字(以下、漢字で説明する)が含まれていると判定した場合には(S113においてYES)、含まれている当該漢字を考慮して、後に続く変換前のひらがなの文字変換候補があるか否かを検証する。以下では、図8(a)の文字認識結果表示領域105に表示される「私に」が、ユーザによりドラッグ指定された例について説明する。
文字変換候補出力部24は、ドラッグ指定された認識文字に含まれている漢字(以下、取得漢字A)を取得する(ここでは「私」)(S121)。そして、残りのひらがな(ひらがなX)を取得する(ここでは「に」)(S122)。続いて、文字変換候補出力部24は、S122で取得したひらがな「に」に対応する文字変換候補を辞書データから取得する(S123)。ここでは、例えば、「に」、「煮」、「似」が検出されたとする。これら3つの文字を文字変換候補Bとする。
続いて、文字変換候補出力部24は、S121で取得した取得漢字Aと、S123で取得した文字変換候補Bの各々とを組み合わせた文字列A+B(「私に」、「私煮」、「私似」)のそれぞれが、日本語として存在するか否かを判定するために、辞書データを検索する(S124)。文字変換候補出力部24は、文字列A+Bが、辞書データに存在すると判定すると(S124においてYES)、当該文字列A+Bの組合せを、範囲指定された「私に」に対する文字変換候補として、文字変換候補記憶部32に記憶する。これを、文字列A+Bの全組合せについて検証する。ここでは、検証の結果、ドラッグされた範囲「私に」に対応付けて、変換候補「私に」および「私似」が文字変換候補として記憶される。
そして、S122で取得したひらがなが複数ある場合には、上述のS117と同様に、全ひらがなに対応する漢字が辞書データに存在するか否かを検証し、取得漢字Aとの組合せを検証するまで(S126のYES)、上述のS122〜S125の処理を繰り返す(S126のNO)。
取得漢字Aに続く全ひらがな文字についての、文字変換候補の検証が終了すると(S126のYES)、文字変換候補記憶部32に、上記ドラッグ指定された範囲の認識文字(「私に」)と置換可能な全ての文字変換候補が記憶される。そして、文字変換候補出力部24によって、上記文字変換候補を一覧表示する文字変換候補リスト109を生成され、表示制御部13に出力される(S118)。図8(b)に示すように、ドラッグにより範囲指定された「私に」の変換前ひらがな「に」に対応する文字変換候補が、表示部2b上に表示される。
上記方法によれば、変換済文字を考慮して、後に続く変換前ひらがなの文字変換候補を取得することにより、文字変換候補出力部24は、ユーザが選択する可能性の高い文字変換候補が上位にリストアップされるような文字変換候補リスト109を生成することができる。結果として、文字変換効率を上げて、ユーザの意図とは異なる文字への変換誤りをより簡単に修正することが可能となる。
なお、上述の説明では、変換済文字がドラッグ指定された範囲の認識文字に含まれているか否かを判定するために、S113において、漢字(またはカタカナ)が含まれているか否かを判定することとしたが、判定方法はこれに限定されない。
例えば、文字認識結果記憶部34に記憶されている認識文字ごとに、変換履歴情報、あるいは、変換済を示すフラグを記憶し、範囲指定された認識文字の中に変換済文字が含まれているか否かを判定してもよい。
上述の認識文字修正処理(S106〜S111)、および/または、認識文字変換処理(S112〜S126)を経て、文字認識結果表示領域105に表示される(文字認識結果記憶部34に記憶される)認識文字結果から、ユーザが意図する文字列(図8(c)の「私に貸して」)を得られた場合には、ユーザは、タッチペン2cを用いて認識文字挿入ボタン107をタッチする(S127においてYES)。
これに応じて、文書管理部23は、文字認識結果記憶部34に記憶されている修正、変換後の認識文字結果「私に貸して」を生成文書記憶部41に記憶する(文字認識結果41b)。文書管理部23は、生成文書記憶部41に記憶された音声認識結果41a(図4のS3で得られた「箸を渡して下さい」)に対して、上述の文字認識結果41bを図6(b)に示したカーソル103の位置に挿入し、最終の出力文書として、表示制御部13に出力する(S128)。表示制御部13は、出力文書をタッチパネル2の出力文書表示領域101に表示する(図8(d))。なお、ユーザが出力文書として不要な文字列を削除したい場合には、出力文書表示領域101内の文字列を選択して、削除ボタンなどをタッチするようにしてもよい。これに応じて、文書管理部23は、生成文書記憶部41から削除対象の文字列を削除する。
上記方法によれば、音声翻訳機100は、ユーザの操作部2a(タッチペン2c)の操作内容に応じて、認識文字を別の認識文字に修正するための認識文字修正処理(S106〜S111)と、認識文字を別の文字(漢字やカタカナなど)に変換するための認識文字変換処理(S112〜S126)とを切り換えて実行することが可能となる。すなわち、手書き文字認識処理におけるどの変換処理の段階(手書き文字認識段階または認識文字変換段階)で、修正・編集を行いたいのかに関わらず、いずれの段階の編集・修正処理も、操作部2a(タッチペン2c)による操作一つで簡単に切り換えることが可能となる。
以上のことから、手書き文字データ認識処理による文字入力にかかる変換誤りを修正するための複数の処理のうち、実行すべき処理への切り換えをユーザの操作に応じて簡単に行うことができるので、ユーザの意図とは異なる文字への変換誤りを簡単に修正し、ユーザの意図通りの文書を簡単に取得することが可能となる。
上述の実施形態では、本発明の文字入力装置を、音声翻訳機に適用した場合について説明し、音声翻訳機100が備える音声認識機能にかかる変換誤りを修正する構成および方法(実施形態1)と、手書き文字認識機能にかかる変換誤りを修正する構成および方法(実施形態2)について説明した。
しかし、上述の音声翻訳機100におけるの文字入力のための認識部(音声認識部21/手書き文字認識部25)の構成は、本発明の文字入力装置の構成を限定するものではない。本発明の文字入力装置は、必ずしも、音声認識機能/手書き文字認識機能を有している必要はない。すなわち、本発明の文字入力装置は、音声認識/手書き文字認識技術を利用して得られた文字列を修正する以外に、様々な文字入力方法(OCR(optical character reader)によるスキャン画像認識、など)によって得られた文字列を修正する場合にも、広く一般に適用することが可能である。
そして、本発明の文字入力装置は、そのような入力データをテキストデータとして認識する段階と、当該テキストデータとを文字変換する段階とのいずれの段階にかかる修正であっても、各修正に必要な修正ツールを、ユーザの操作内容に応じて提供することが可能である。したがって、ユーザは、文字入力装置の操作一つで、簡単に、所望の段階にかかる修正を実行し、ユーザの意図とは異なる文字への変換誤りを簡単に修正することができる。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
最後に、音声翻訳機100の各ブロック、特に、文字変換部22、文字変換候補出力部24、認識文字候補出力部26、および、音声認識結果編集部28は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、音声翻訳機100は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声翻訳機100の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記音声翻訳機100に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、音声翻訳機100を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
本発明の文字入力装置は、音声データ、手書き文字データ、画像データなどに含まれる言語情報を文字として認識するときの認識誤りや、入力された文字をさらに別の文字に変換するときの変換誤りを修正するための複数の処理を簡単に切り換えることができるので、音声データ、手書き文字データ、画像データなどに含まれる言語情報を認識して文字を入力する文字入力装置に対して好適に用いられる。
本発明の実施形態にかかる音声翻訳機の要部構成を示すブロック図である。 本発明の実施形態にかかる音声翻訳機のハードウェア構成の一例を示すブロック図である。 (a)〜(c)は、音声翻訳機の外観を示す図である。 音声翻訳機における音声認識および手書き文字認識を利用した文書生成処理の流れを示すフローチャートである。 本発明の実施形態にかかる音声翻訳機の要部構成を示すブロック図である。 (a)〜(d)は、音声翻訳機の表示画面例を示す図である。 音声翻訳機における音声変換誤り修正処理の流れを示すフローチャートである。 (a)〜(d)は、音声翻訳機の表示画面遷移の一例を示す図である。 中国語音声認識機能を利用して文字入力を行う音声翻訳機における、中国語文字入力処理の流れを示すフローチャートである。
符号の説明
1 制御部
2 タッチパネル
2a 操作部
2b 表示部
2c タッチペン
3 RAM
4 ROM
5 音声CODEC
6 アンプ
7 マイク
8 スピーカ
9 CPU
10 入出力制御部
11 音声データ受信部
12 入力制御部
13 表示制御部(文字表示手段)
20 文書生成制御部
21 音声認識部
22 文字変換部
23 文書管理部
24 文字変換候補出力部(候補表示手段)
25 手書き文字認識部
26 認識文字候補出力部(候補表示手段)
28 音声認識結果修正部(文字処理手段)
29 文字認識結果修正部(文字処理手段)
31 表音記号記憶部
32 文字変換候補記憶部(文字候補記憶部)
33 認識文字候補記憶部(文字候補記憶部)
34 文字認識結果記憶部
41 生成文書記憶部
100 音声翻訳機(文字入力装置)
101 出力文書表示領域(文字表示領域)
102 文字変換候補リスト
103 カーソル
104 手書き文字入力ボックス
105 文字認識結果表示領域(文字表示領域)
106 手書き文字入力領域
107 認識文字挿入ボタン
108 認識文字候補リスト
109 文字変換候補リスト

Claims (9)

  1. 文字に変換する前の元情報を文字に変換する過程で生成された文字候補が、上記元情報に対応付けて文字候補記憶部に記憶されており、
    上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示手段と、
    ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示手段と、
    上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示手段が実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する文字処理手段とを備えていることを特徴とする文字入力装置。
  2. 上記元情報は、ユーザにより手書き入力された手書き文字データであって、
    上記文字候補記憶部には、上記手書き文字データを平仮名に変換する過程で生成された該手書き文字データに対応する平仮名候補が記憶されており、
    上記候補表示手段は、ユーザにより選択された平仮名の変換前の手書き文字データに対応付けられた平仮名候補を、上記文字候補記憶部から取得して表示することを特徴とする請求項1に記載の文字入力装置。
  3. 上記元情報から変換されて上記文字表示領域に表示された、1文字以上の平仮名からなる平仮名列が、ユーザの上記第2操作により選択された場合に、
    上記文字処理手段は、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示することを特徴とする請求項1または2に記載の文字入力装置。
  4. 文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示手段と、
    上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する文字処理手段とを備えていることを特徴とする文字入力装置。
  5. 漢字の組合せがあらかじめ辞書データ記憶部に登録されており、
    上記文字処理手段は、
    上記文字表示領域に表示された文字列のうち、ユーザにより選択された文字列が漢字文字列の漢字を含む場合に、
    上記ユーザにより選択された文字列に含まれる平仮名列に対応する漢字文字列候補のうち、上記漢字文字列の漢字との組合せが、上記辞書データ記憶部に登録されている漢字文字列候補のみを、上記漢字文字列の漢字と組合せてユーザが選択可能に表示することを特徴とする請求項4に記載の文字入力装置。
  6. 文字に変換する前の元情報を文字に変換する過程で生成された文字候補を、上記元情報に対応付けて文字候補記憶部に記憶する記憶ステップと、
    上記過程によって変換された文字を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、
    ユーザの第1操作によって上記文字表示領域に表示された文字が選択された場合に、選択された文字の変換前の元情報に対応付けて上記文字候補記憶部に記憶されている文字候補をユーザが選択可能に表示する候補表示ステップと、
    上記文字表示領域において上記第1操作と異なるユーザの第2操作が行われた場合に、上記候補表示ステップにて実行する処理とは異なる、該文字表示領域に表示された文字にかかる処理を実行する処理実行ステップとを含むことを特徴とする文字入力方法。
  7. 文字に変換する前の元情報を変換して得た1以上の文字からなる文字列を、文字表示領域にユーザが選択可能に表示する文字表示ステップと、
    上記文字表示領域に表示された文字列のうち、1文字以上の平仮名からなる平仮名列が、ユーザにより選択された場合に、平仮名列を少なくとも漢字を含む漢字文字列に変換するための対応規則にしたがって、上記選択された平仮名列に対応する漢字文字列として特定された漢字文字列候補をユーザが選択可能に表示する処理実行ステップとを含むことを特徴とする文字入力方法。
  8. コンピュータを、請求項1から5のいずれか1項に記載の文字入力装置の各手段として機能させるための制御プログラム。
  9. 請求項8に記載の制御プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006271199A 2006-10-02 2006-10-02 文字入力装置、文字入力方法、制御プログラム、および、記録媒体 Pending JP2008090625A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006271199A JP2008090625A (ja) 2006-10-02 2006-10-02 文字入力装置、文字入力方法、制御プログラム、および、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006271199A JP2008090625A (ja) 2006-10-02 2006-10-02 文字入力装置、文字入力方法、制御プログラム、および、記録媒体

Publications (1)

Publication Number Publication Date
JP2008090625A true JP2008090625A (ja) 2008-04-17

Family

ID=39374695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006271199A Pending JP2008090625A (ja) 2006-10-02 2006-10-02 文字入力装置、文字入力方法、制御プログラム、および、記録媒体

Country Status (1)

Country Link
JP (1) JP2008090625A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525415A (ja) * 2007-04-26 2010-07-22 マイクロソフト コーポレーション アジア文字を生成するための認識アーキテクチャ
JP2010218105A (ja) * 2009-03-16 2010-09-30 Kyocera Corp 電子機器及びメッセージ表示システム
JP2010244223A (ja) * 2009-04-03 2010-10-28 Sony Computer Entertainment Inc 情報入力装置および情報入力方法
JP2010276869A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話機および自動翻訳対応電話システム
WO2011064829A1 (ja) * 2009-11-30 2011-06-03 株式会社 東芝 情報処理装置
WO2014041607A1 (ja) 2012-09-11 2014-03-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
WO2011084998A3 (en) * 2010-01-05 2015-06-18 Google Inc. Word-level correction of speech input
US9513711B2 (en) 2011-01-06 2016-12-06 Samsung Electronics Co., Ltd. Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition
US10354647B2 (en) 2015-04-28 2019-07-16 Google Llc Correcting voice recognition using selective re-speak
JP2020030324A (ja) * 2018-08-22 2020-02-27 Zホールディングス株式会社 結合プログラム、結合装置、及び結合方法
JP2020030323A (ja) * 2018-08-22 2020-02-27 Zホールディングス株式会社 分割プログラム、分割装置、及び分割方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457946B2 (en) 2007-04-26 2013-06-04 Microsoft Corporation Recognition architecture for generating Asian characters
JP2010525415A (ja) * 2007-04-26 2010-07-22 マイクロソフト コーポレーション アジア文字を生成するための認識アーキテクチャ
JP2010218105A (ja) * 2009-03-16 2010-09-30 Kyocera Corp 電子機器及びメッセージ表示システム
JP2010244223A (ja) * 2009-04-03 2010-10-28 Sony Computer Entertainment Inc 情報入力装置および情報入力方法
JP2010276869A (ja) * 2009-05-28 2010-12-09 Funai Electric Co Ltd 自動翻訳対応電話機および自動翻訳対応電話システム
JP5535238B2 (ja) * 2009-11-30 2014-07-02 株式会社東芝 情報処理装置
WO2011064829A1 (ja) * 2009-11-30 2011-06-03 株式会社 東芝 情報処理装置
US9087517B2 (en) 2010-01-05 2015-07-21 Google Inc. Word-level correction of speech input
US9542932B2 (en) 2010-01-05 2017-01-10 Google Inc. Word-level correction of speech input
WO2011084998A3 (en) * 2010-01-05 2015-06-18 Google Inc. Word-level correction of speech input
US11037566B2 (en) 2010-01-05 2021-06-15 Google Llc Word-level correction of speech input
US9263048B2 (en) 2010-01-05 2016-02-16 Google Inc. Word-level correction of speech input
US9466287B2 (en) 2010-01-05 2016-10-11 Google Inc. Word-level correction of speech input
US10672394B2 (en) 2010-01-05 2020-06-02 Google Llc Word-level correction of speech input
US9881608B2 (en) 2010-01-05 2018-01-30 Google Llc Word-level correction of speech input
US9711145B2 (en) 2010-01-05 2017-07-18 Google Inc. Word-level correction of speech input
US9513711B2 (en) 2011-01-06 2016-12-06 Samsung Electronics Co., Ltd. Electronic device controlled by a motion and controlling method thereof using different motions to activate voice versus motion recognition
WO2014041607A1 (ja) 2012-09-11 2014-03-20 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN104715005A (zh) * 2013-12-13 2015-06-17 株式会社东芝 信息处理设备以及方法
CN104715005B (zh) * 2013-12-13 2018-02-16 株式会社东芝 信息处理设备以及方法
US10354647B2 (en) 2015-04-28 2019-07-16 Google Llc Correcting voice recognition using selective re-speak
JP2020030324A (ja) * 2018-08-22 2020-02-27 Zホールディングス株式会社 結合プログラム、結合装置、及び結合方法
JP2020030323A (ja) * 2018-08-22 2020-02-27 Zホールディングス株式会社 分割プログラム、分割装置、及び分割方法

Similar Documents

Publication Publication Date Title
JP2008090625A (ja) 文字入力装置、文字入力方法、制御プログラム、および、記録媒体
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JP5400200B2 (ja) ショートハンド・オン・キーボード・インタフェースにおいてテキスト入力を改善するためのシステム、コンピュータ・プログラムおよび方法(キ
JP3944159B2 (ja) 質問応答システムおよびプログラム
JP5362095B2 (ja) インプットメソッドエディタ
JP4920154B2 (ja) 言語入力ユーザインタフェース
US20050131686A1 (en) Information processing apparatus and data input method
US20070100619A1 (en) Key usage and text marking in the context of a combined predictive text and speech recognition system
TW200538969A (en) Handwriting and voice input with automatic correction
JP2001249920A (ja) 推測入力源からのテキストに対して候補を提供する方法およびシステム
JP4872323B2 (ja) Htmlメール生成システム、通信装置、htmlメール生成方法、及び記録媒体
JP3104661B2 (ja) 日本語文章作成装置
US7212967B2 (en) Chinese phonetic transcription input system and method with comparison function for imperfect and fuzzy phonetic transcriptions
JP2008090624A (ja) 入力文字編集装置、入力文字編集方法、入力文字編集プログラム、および記録媒体
JP5701327B2 (ja) 音声認識装置、音声認識方法、およびプログラム
CN111694443A (zh) 一种以触摸手势作为交互方式的输入法
CN107797676A (zh) 一种单字输入方法及装置
JP5589915B2 (ja) 情報処理装置の制御方法、制御プログラム及び情報処理装置
JP4702081B2 (ja) 文字入力装置
JP2013214187A (ja) 文字入力装置、文字入力装置の制御方法、制御プログラム、および記録媒体
JP2001042996A (ja) 文書作成装置、文書作成方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2004102632A (ja) 音声認識装置および画像処理装置
JP2004265136A (ja) 文字入力装置、文字入力方法、及び文字入力プログラム
Navarro-Cerdan et al. Composition of constraint, hypothesis and error models to improve interaction in human–machine interfaces