JP2003141451A - データ処理装置及び記録媒体 - Google Patents
データ処理装置及び記録媒体Info
- Publication number
- JP2003141451A JP2003141451A JP2001339479A JP2001339479A JP2003141451A JP 2003141451 A JP2003141451 A JP 2003141451A JP 2001339479 A JP2001339479 A JP 2001339479A JP 2001339479 A JP2001339479 A JP 2001339479A JP 2003141451 A JP2003141451 A JP 2003141451A
- Authority
- JP
- Japan
- Prior art keywords
- character
- candidate
- word
- unknown
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 言語処理による文字認識の認識率を下げるこ
となく、言語処理による認識率の向上を図ることができ
るデータ処理装置を提供すること。 【構成】 所定のペン等により文字をストローク情報と
して入力する文字入力ステップと、前記入力画像から文
字を抽出して予め所有している文字データ辞書との比較
を行いながら候補文字列に変換する文字認識ステップ
と、予め所有している単語データ辞書とを具備するデー
タ処理装置において、前記候補文字列の組み合わせと前
記単語データ辞書中の単語データとの比較を行って単語
を抽出する単語抽出ステップと、連続する同文字種の第
1候補文字を未知語とする未知語抽出ステップと、前記
抽出した単語及び未知語から文節候補を作成する文節候
補作成ステップと、前記文節候補中より尤もらしい文節
候補を選択する文節候補選択ステップと、前記選択され
た文節に基づいて第1候補文字を入れ換える文字候補決
定ステップを有する。
となく、言語処理による認識率の向上を図ることができ
るデータ処理装置を提供すること。 【構成】 所定のペン等により文字をストローク情報と
して入力する文字入力ステップと、前記入力画像から文
字を抽出して予め所有している文字データ辞書との比較
を行いながら候補文字列に変換する文字認識ステップ
と、予め所有している単語データ辞書とを具備するデー
タ処理装置において、前記候補文字列の組み合わせと前
記単語データ辞書中の単語データとの比較を行って単語
を抽出する単語抽出ステップと、連続する同文字種の第
1候補文字を未知語とする未知語抽出ステップと、前記
抽出した単語及び未知語から文節候補を作成する文節候
補作成ステップと、前記文節候補中より尤もらしい文節
候補を選択する文節候補選択ステップと、前記選択され
た文節に基づいて第1候補文字を入れ換える文字候補決
定ステップを有する。
Description
【0001】
【発明の属する技術分野】本発明は、文字認識に関する
データ処理装置及びプログラムデータ等を記録した記録
媒体に関する。
データ処理装置及びプログラムデータ等を記録した記録
媒体に関する。
【0002】
【従来の技術】図1は従来の日本文読取装置の構成図で
あり、文字認識装置はプログラムに従って処理を実行す
る中央処理装置1、文字ストローク情報を記憶装置2に
入力する手書文字入力装置5、文字認識結果を表示する
表示装置4、プログラム、認識用の文字データ、辞書の
納まっている記憶装置2、FD(フロッピー(登録商
標)ディスク)・CD−ROM・ROM・磁気テープ等
の記録媒体に記憶されたプログラム、データ等を記憶装
置2に読み取る記憶媒体読取装置6、処理を操作するキ
ーボード、マウス等の入力装置3により構成されてい
る。
あり、文字認識装置はプログラムに従って処理を実行す
る中央処理装置1、文字ストローク情報を記憶装置2に
入力する手書文字入力装置5、文字認識結果を表示する
表示装置4、プログラム、認識用の文字データ、辞書の
納まっている記憶装置2、FD(フロッピー(登録商
標)ディスク)・CD−ROM・ROM・磁気テープ等
の記録媒体に記憶されたプログラム、データ等を記憶装
置2に読み取る記憶媒体読取装置6、処理を操作するキ
ーボード、マウス等の入力装置3により構成されてい
る。
【0003】図2は従来の概略フローチャートであり、
手書文字入力装置5により文字ストローク情報を取得す
るステップ(ステップ21)。次に、ステップ21で取
得した文字ストローク情報より文字を1文字毎にに切り
出して認識し、認識候補文字を出力する文字認識するス
テップ(ステップ22)、単語格納した単語辞書や文法
的接続情報を格納した文法辞書等の言語処理に必要な記
憶装置2に格納された辞書を検索し、ステップで得られ
た認識文字とそれに対する認識候補文字と辞書を照合し
て、尤もらしい文字を出力する言語処理ステップ(ステ
ップ23)とから成る。
手書文字入力装置5により文字ストローク情報を取得す
るステップ(ステップ21)。次に、ステップ21で取
得した文字ストローク情報より文字を1文字毎にに切り
出して認識し、認識候補文字を出力する文字認識するス
テップ(ステップ22)、単語格納した単語辞書や文法
的接続情報を格納した文法辞書等の言語処理に必要な記
憶装置2に格納された辞書を検索し、ステップで得られ
た認識文字とそれに対する認識候補文字と辞書を照合し
て、尤もらしい文字を出力する言語処理ステップ(ステ
ップ23)とから成る。
【0004】図11の例に基づいて説明する。
【0005】手書文字入力装置5に入力される用紙上に
印刷または記入された入力文字列の例(11−1)“六
ブロックが空白で、小選挙区での戦い”及び入力文字列
の文字認識ステップで1文字毎に認識して得られる認識
候補文字の例(11−2)であり、各文字列に対する認
識候補文字列である。記憶装置2に格納されている単語
辞書(図12)の検索により「ブロック」、「空白」
(11−3)等が見つかり、図13のように文節候補が
作成されて「プ」が「ブ」に変更され、「自」が「白」
に変更され、入力文字列と同じ“六ブロックが空白で、
小選挙区での戦い”(11−4)となり、表示装置4又
は記憶装置2に出力される。
印刷または記入された入力文字列の例(11−1)“六
ブロックが空白で、小選挙区での戦い”及び入力文字列
の文字認識ステップで1文字毎に認識して得られる認識
候補文字の例(11−2)であり、各文字列に対する認
識候補文字列である。記憶装置2に格納されている単語
辞書(図12)の検索により「ブロック」、「空白」
(11−3)等が見つかり、図13のように文節候補が
作成されて「プ」が「ブ」に変更され、「自」が「白」
に変更され、入力文字列と同じ“六ブロックが空白で、
小選挙区での戦い”(11−4)となり、表示装置4又
は記憶装置2に出力される。
【0006】
【発明が解決しようとする課題】図14に示すように、
手書文字入力装置5に入力される用紙上に印刷又は記入
された入力文字列の例及び文字認識ステップで1文字毎
に認識して得られる認識候補文字の例であり、図におい
て入力文字列は“アスペクトについて”であり、各文字
列に対する認識候補文字列である。
手書文字入力装置5に入力される用紙上に印刷又は記入
された入力文字列の例及び文字認識ステップで1文字毎
に認識して得られる認識候補文字の例であり、図におい
て入力文字列は“アスペクトについて”であり、各文字
列に対する認識候補文字列である。
【0007】単語辞書の検索により「アスベスト」が見
つかり、「ぺ」が「べ」に変更され、「ク」が「ス」に
変更され、“アスベストについて”となる。
つかり、「ぺ」が「べ」に変更され、「ク」が「ス」に
変更され、“アスベストについて”となる。
【0008】文字認識ステップの結果、入力文字列と等
しく認識が正しかったにも拘らず、認識した単語が辞書
に格納されていない場合、言語処理で誤った文字に置き
換えてしまい、認識率を下げてしまっていた。
しく認識が正しかったにも拘らず、認識した単語が辞書
に格納されていない場合、言語処理で誤った文字に置き
換えてしまい、認識率を下げてしまっていた。
【0009】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、該当単語が辞書に登録されて
いない場合でも、言語処理による文字認識の認識率を下
げることなく、言語処理による認識率の向上を図ること
ができるデータ処理装置及び記録媒体を提供することに
ある。
で、その目的とする処は、該当単語が辞書に登録されて
いない場合でも、言語処理による文字認識の認識率を下
げることなく、言語処理による認識率の向上を図ること
ができるデータ処理装置及び記録媒体を提供することに
ある。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置を、前記候補文字列の組み合わせと前記単
語データ辞書中の単語データとの比較を行って単語を抽
出する単語抽出ステップと、連続する同文字種の第1候
補文字を未知語とする未知語抽出ステップと、前記抽出
した単語及び未知語から文節候補を作成する文節候補作
成ステップと、前記文節候補中より尤もらしい文節候補
を選択する文節候補選択ステップと、前記選択された文
節に基づいて第1候補文字を入れ換える文字候補決定ス
テップを含んで構成したことを特徴とする。
め、本発明は、所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置を、前記候補文字列の組み合わせと前記単
語データ辞書中の単語データとの比較を行って単語を抽
出する単語抽出ステップと、連続する同文字種の第1候
補文字を未知語とする未知語抽出ステップと、前記抽出
した単語及び未知語から文節候補を作成する文節候補作
成ステップと、前記文節候補中より尤もらしい文節候補
を選択する文節候補選択ステップと、前記選択された文
節に基づいて第1候補文字を入れ換える文字候補決定ス
テップを含んで構成したことを特徴とする。
【0011】又、本発明は、所定のペン等により文字を
ストローク情報として入力する文字入力ステップと、前
記入力画像から文字を抽出して予め所有している文字デ
ータ辞書との比較を行いながら候補文字列に変換する文
字認識ステップと、予め所有している単語データ辞書と
を具備するデータ処理装置の記録媒体において、前記候
補文字列の組み合わせと前記単語データ辞書中の単語デ
ータとの比較を行って単語を抽出する単語抽出ステップ
と、連続する同文字種の第1候補文字を未知語とする未
知語抽出ステップ前記抽出した単語及び未知語から文節
候補を作成する文節候補作成ステップと、前記文節候補
中より尤もらしい文節候補を選択する文節候補選択ステ
ップと、前記選択された文節に基づいて第1候補文字を
入れ換える文字候補決定ステップをコンピュータに実行
させる情報処理プログラムを記録したことを特徴とす
る。
ストローク情報として入力する文字入力ステップと、前
記入力画像から文字を抽出して予め所有している文字デ
ータ辞書との比較を行いながら候補文字列に変換する文
字認識ステップと、予め所有している単語データ辞書と
を具備するデータ処理装置の記録媒体において、前記候
補文字列の組み合わせと前記単語データ辞書中の単語デ
ータとの比較を行って単語を抽出する単語抽出ステップ
と、連続する同文字種の第1候補文字を未知語とする未
知語抽出ステップ前記抽出した単語及び未知語から文節
候補を作成する文節候補作成ステップと、前記文節候補
中より尤もらしい文節候補を選択する文節候補選択ステ
ップと、前記選択された文節に基づいて第1候補文字を
入れ換える文字候補決定ステップをコンピュータに実行
させる情報処理プログラムを記録したことを特徴とす
る。
【0012】
【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。
図面に基づいて説明する。
【0013】本発明の文字認識装置のブロック図を図1
に示す。文字認識装置はプログラムに従って処理を実行
する中央処理装置1、文字ストローク情報を記憶装置2
に入力する手書文字入力装置5、文字認識結果を表示す
る表示装置4、プログラム、認識用の文字データ、辞書
の納まっている記憶装置2、FD(フロッピーディス
ク)・CD−ROM・ROM・磁気テープ等の記録媒体
に記憶されたプログラム、データ等を記憶装置2に読み
取る記憶媒体読取装置6、処理を操作するキーボード、
マウス等の入力装置3により、その主要部が構成されて
いて基本的には従来と同じである。
に示す。文字認識装置はプログラムに従って処理を実行
する中央処理装置1、文字ストローク情報を記憶装置2
に入力する手書文字入力装置5、文字認識結果を表示す
る表示装置4、プログラム、認識用の文字データ、辞書
の納まっている記憶装置2、FD(フロッピーディス
ク)・CD−ROM・ROM・磁気テープ等の記録媒体
に記憶されたプログラム、データ等を記憶装置2に読み
取る記憶媒体読取装置6、処理を操作するキーボード、
マウス等の入力装置3により、その主要部が構成されて
いて基本的には従来と同じである。
【0014】図2は概略フローチャートであり、手書文
字入力装置5により文字ストローク情報を取得するステ
ップ(ステップ21)。次に、ステップ21で取得した
文字ストローク情報より文字を1文字毎に切り出して認
識し、認識候補文字を出力する文字認識するステップ
(ステップ22)、単語格納した単語辞書や文法的接続
情報を格納した文法辞書等の言語処理に必要な記憶装置
2に格納された辞書を検索し、ステップで得られた認識
文字とそれに対する認識候補文字と辞書を照合して、尤
もらしい文字を出力する言語処理ステップ(ステップ2
3)とから成り、従来と同じである。
字入力装置5により文字ストローク情報を取得するステ
ップ(ステップ21)。次に、ステップ21で取得した
文字ストローク情報より文字を1文字毎に切り出して認
識し、認識候補文字を出力する文字認識するステップ
(ステップ22)、単語格納した単語辞書や文法的接続
情報を格納した文法辞書等の言語処理に必要な記憶装置
2に格納された辞書を検索し、ステップで得られた認識
文字とそれに対する認識候補文字と辞書を照合して、尤
もらしい文字を出力する言語処理ステップ(ステップ2
3)とから成り、従来と同じである。
【0015】次に、図3は言語処理(ステップ23)の
詳細フローチャートであり、形態素解析(ステップ3
1)は、文字候補列に対して、単語辞書を参照しなが
ら、形態素解析を行う形態素解析処理である。ここで
は、形態素解析の例は、二文節最長一致法による。二文
節最長一致法とは、形態素解析後の隣接する任意の二文
節に対応する読みの長さが最長になる文節の区切りを採
用する方法である。こうして区切られた文節列を出力す
る。その後、解釈可能な文節と文節の構造を明らかに
し、その結果を形態素解析情報に追加する。ステップ3
1の形態素解析は、図11において後述する。
詳細フローチャートであり、形態素解析(ステップ3
1)は、文字候補列に対して、単語辞書を参照しなが
ら、形態素解析を行う形態素解析処理である。ここで
は、形態素解析の例は、二文節最長一致法による。二文
節最長一致法とは、形態素解析後の隣接する任意の二文
節に対応する読みの長さが最長になる文節の区切りを採
用する方法である。こうして区切られた文節列を出力す
る。その後、解釈可能な文節と文節の構造を明らかに
し、その結果を形態素解析情報に追加する。ステップ3
1の形態素解析は、図11において後述する。
【0016】ステップ32は、形態素解析情報を参照し
ながら、構文解析を行う構文解析処理である。形態素解
析情報から、文節の候補を各文節番号に対して1つずつ
選び出し、構文規則に基づいて句を生成していき、構文
解析を行い、最終的に文が生成できれば、構文解析に成
功したものとみなす。このような構文解析の方法は、構
文解析手法として一般的に行われており、公知であるの
で、詳細は記述しない。
ながら、構文解析を行う構文解析処理である。形態素解
析情報から、文節の候補を各文節番号に対して1つずつ
選び出し、構文規則に基づいて句を生成していき、構文
解析を行い、最終的に文が生成できれば、構文解析に成
功したものとみなす。このような構文解析の方法は、構
文解析手法として一般的に行われており、公知であるの
で、詳細は記述しない。
【0017】構文解析に成功した場合は、ステップ23
へ進む。構文解析に失敗した場合は、形態素解析情報中
の文節の候補を変更して構文解析を行う。全ての文節の
候補に対して構文解析に失敗した場合は、ステップ33
に進む。
へ進む。構文解析に失敗した場合は、形態素解析情報中
の文節の候補を変更して構文解析を行う。全ての文節の
候補に対して構文解析に失敗した場合は、ステップ33
に進む。
【0018】ステップ33は、形態素解析及び構文解析
によって解析された結果に基づいて最適な文字候補を決
定する文字候補決定処理である。ステップ32において
構文解析に成功していれば、成功した構文解析で使用し
ている文節の候補の表記を最適な文字候補として決定す
る。構文解析に成功したものがなければ、ステップ31
の形態素解析のみで、最適な文字候補を決定する。文字
候補決定処理を終えた後、ステップ34へ進む。
によって解析された結果に基づいて最適な文字候補を決
定する文字候補決定処理である。ステップ32において
構文解析に成功していれば、成功した構文解析で使用し
ている文節の候補の表記を最適な文字候補として決定す
る。構文解析に成功したものがなければ、ステップ31
の形態素解析のみで、最適な文字候補を決定する。文字
候補決定処理を終えた後、ステップ34へ進む。
【0019】ステップ34は、ステップ33で決定され
た最適な文字候補を表示する補正結果表示処理である。
これは、例えば、言語処理によって画像認識結果の第一
候補が入れ替えられた場合、その文字だけを別の属性で
表示する等の処理である。補正結果表示処理を終えた
後、言語補正処理を終了する。
た最適な文字候補を表示する補正結果表示処理である。
これは、例えば、言語処理によって画像認識結果の第一
候補が入れ替えられた場合、その文字だけを別の属性で
表示する等の処理である。補正結果表示処理を終えた
後、言語補正処理を終了する。
【0020】図4はステップ31の形態素解析を詳細化
したフローチャートである。
したフローチャートである。
【0021】ステップ41は、文字候補列の全ての部分
文字列の組み合わせに対して単語辞書を検索し、表記が
部分文字列にマッチする単語の各情報を単語情報に格納
する単語抽出処理である。単語抽出処理の詳細は図を用
いて後述する。処理を終えた後ステップ42に進む。
文字列の組み合わせに対して単語辞書を検索し、表記が
部分文字列にマッチする単語の各情報を単語情報に格納
する単語抽出処理である。単語抽出処理の詳細は図を用
いて後述する。処理を終えた後ステップ42に進む。
【0022】ステップ42は、ステップ41によって作
成された単語情報に接続規則辞書に記述されている接続
規則を適用し、文節候補情報を作成する処理である。文
節候補を作成するとは、生成された文節の表記が必ず文
字候補列に格納されている文字候補列の部分列とマッチ
するように各単語に接続規則を適用することである。こ
うして全ての文節候補を作成した後、ステップ33に進
む。
成された単語情報に接続規則辞書に記述されている接続
規則を適用し、文節候補情報を作成する処理である。文
節候補を作成するとは、生成された文節の表記が必ず文
字候補列に格納されている文字候補列の部分列とマッチ
するように各単語に接続規則を適用することである。こ
うして全ての文節候補を作成した後、ステップ33に進
む。
【0023】ステップ33は、文節候補情報を参照して
最終的な文節を決定し、形態素情報を作成する文節の決
定処理である。文節を決定する際に用いられる手法は前
述した二文節最長一致法を例とする。処理を終えると、
形態素解析処理を終了する。
最終的な文節を決定し、形態素情報を作成する文節の決
定処理である。文節を決定する際に用いられる手法は前
述した二文節最長一致法を例とする。処理を終えると、
形態素解析処理を終了する。
【0024】図5はステップ41の単語抽出処理を詳細
化したフローチャートである。
化したフローチャートである。
【0025】ステップ51は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
どうかを調べる候補文宇部分列検索処理である。全ての
候補文宇部分列に対して検索を終えた後、ステップ52
へ進む。
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
どうかを調べる候補文宇部分列検索処理である。全ての
候補文宇部分列に対して検索を終えた後、ステップ52
へ進む。
【0026】ステップ52は、ステップ51で辞書検索
を行った結果、或る位置の文字候補に対して単語が抽出
できたか否かをチェックする検索チェック処理である。
或る位置の文字候補に対応する単語が1つでも見つかっ
た場合は、ステップ54に進む。或る位置の文字候補に
対応する単語が全く見つからなかった場合は、ステップ
53の未知語抽出処理に進む。
を行った結果、或る位置の文字候補に対して単語が抽出
できたか否かをチェックする検索チェック処理である。
或る位置の文字候補に対応する単語が1つでも見つかっ
た場合は、ステップ54に進む。或る位置の文字候補に
対応する単語が全く見つからなかった場合は、ステップ
53の未知語抽出処理に進む。
【0027】ステップ53は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
未知語抽出処理は、例えば、ひらがな、カタカナ、英字
等の字種が連続している部分を抽出して名詞等に見なす
処理であり、かな漢字変換のような言語処理では一般に
行われている処理である。本発明における未知語処理で
は、未知語として抽出される文字候補は全て画像認識に
おいて認識された文字候補を抽出する。即ち、一旦未知
語抽出処理が起動されると、文字候補列の第1列におい
て、起動された文字位置から同種の文字種が連続する部
分を抽出して単語と見なし、名詞等の品詞付けする。処
理を終えると、ステップ54へ進む。
載されていない単語を抽出する未知語抽出処理である。
未知語抽出処理は、例えば、ひらがな、カタカナ、英字
等の字種が連続している部分を抽出して名詞等に見なす
処理であり、かな漢字変換のような言語処理では一般に
行われている処理である。本発明における未知語処理で
は、未知語として抽出される文字候補は全て画像認識に
おいて認識された文字候補を抽出する。即ち、一旦未知
語抽出処理が起動されると、文字候補列の第1列におい
て、起動された文字位置から同種の文字種が連続する部
分を抽出して単語と見なし、名詞等の品詞付けする。処
理を終えると、ステップ54へ進む。
【0028】ステップ54は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ55へ進む。
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ55へ進む。
【0029】ステップ55は、文字候補列に格納されて
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合は、ステッ
プ51に処理が進む。文字候補列の末尾まで単語抽出が
終了していれば、単語抽出処理を終える。
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合は、ステッ
プ51に処理が進む。文字候補列の末尾まで単語抽出が
終了していれば、単語抽出処理を終える。
【0030】図6はステップ41の単語抽出処理を詳細
化したフローチャートである。
化したフローチャートである。
【0031】ステップ61は文字候補列のあらゆる組み
合わせにおいて全ての部分文字列を作成し、それら部分
文字列と同じ表記を持つ単語が単語辞書に存在するか否
かを調べる候補文宇部分列検索処理である。この種の辞
書検索方法は、全ての候補文宇部分列に対して検索を終
えた後、ステップ62へ進む。
合わせにおいて全ての部分文字列を作成し、それら部分
文字列と同じ表記を持つ単語が単語辞書に存在するか否
かを調べる候補文宇部分列検索処理である。この種の辞
書検索方法は、全ての候補文宇部分列に対して検索を終
えた後、ステップ62へ進む。
【0032】ステップ62は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
ステップ63へ進む。
載されていない単語を抽出する未知語抽出処理である。
ステップ63へ進む。
【0033】ステップ63は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ64へ進む。
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ64へ進む。
【0034】ステップ64は、文字候補列に格納されで
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合、且つ、長
い単語が存在する場合は、ステップ61に処理が進む。
文字候補列の末尾まで単語抽出が終了いる場合、又はこ
れ以上長い単語が存在しない場合は、単語抽出処理を終
える。
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。未だ、単語抽
出が文字候補列の末尾まで達していない場合、且つ、長
い単語が存在する場合は、ステップ61に処理が進む。
文字候補列の末尾まで単語抽出が終了いる場合、又はこ
れ以上長い単語が存在しない場合は、単語抽出処理を終
える。
【0035】図7は未知語抽出の詳細フローチャートで
ある。
ある。
【0036】ステップ71は未知語の先頭文字を取得す
る。ステップ72は、対象文字の第1候補の文字種とス
テップ71で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ73に進み、異なった文字種の場
合、未知語抽出処理を終了する。ステップ73は前の文
字列に対象文字を結合する。ステップ74は、対象文字
を次の文字にする。次にステップ72に戻る。
る。ステップ72は、対象文字の第1候補の文字種とス
テップ71で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ73に進み、異なった文字種の場
合、未知語抽出処理を終了する。ステップ73は前の文
字列に対象文字を結合する。ステップ74は、対象文字
を次の文字にする。次にステップ72に戻る。
【0037】図8は未知語抽出の詳細フローチャートで
ある。
ある。
【0038】ステップ81は未知語の先頭文字を取得す
る。ステップ82は、対象文字の第1候補の文字種とス
テップ81で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ84に進み、異なった文字種の場
合、ステップ83に進む。ステップ83はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ84に進み、結合不可の場合、未知語抽出処理を
終了する。ステップ84は前の文字列に対象文字を結合
する。ステップ85は、対象文字を次の文字にする。次
にステップ82に戻る。
る。ステップ82は、対象文字の第1候補の文字種とス
テップ81で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ84に進み、異なった文字種の場
合、ステップ83に進む。ステップ83はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ84に進み、結合不可の場合、未知語抽出処理を
終了する。ステップ84は前の文字列に対象文字を結合
する。ステップ85は、対象文字を次の文字にする。次
にステップ82に戻る。
【0039】図9は未知語抽出の詳細フローチャートで
ある。
ある。
【0040】ステップ91は未知語の先頭文字を取得す
る。ステップ92は、対象文字の第1候補の文字種とス
テップ91で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ97に進み、異なった文字種の場
合、ステップ93に進む。ステップ93はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に進
む。
る。ステップ92は、対象文字の第1候補の文字種とス
テップ91で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ97に進み、異なった文字種の場
合、ステップ93に進む。ステップ93はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に進
む。
【0041】ステップ94は、対象文字の次の文字候補
が存在するか否かを判定する。存在する場合、ステップ
95に進み、存在しない場合、未知語抽出処理を終了す
る。ステップ95は、次の文字候補を対象とする。ステ
ップ96は、ステップ95で取得した文字候補が前の文
字列に結合可能か否かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に戻
る。ステップ97は前の文字列に対象文字を結合する。
ステップ98は、対象文字を次の文字にする。次にステ
ップ92に戻る。
が存在するか否かを判定する。存在する場合、ステップ
95に進み、存在しない場合、未知語抽出処理を終了す
る。ステップ95は、次の文字候補を対象とする。ステ
ップ96は、ステップ95で取得した文字候補が前の文
字列に結合可能か否かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に戻
る。ステップ97は前の文字列に対象文字を結合する。
ステップ98は、対象文字を次の文字にする。次にステ
ップ92に戻る。
【0042】図10は未知語抽出の詳細フローチャート
である。
である。
【0043】ステップ101は未知語の先頭の文字種を
取得する。ステップ102は、対象文字の第1候補の文
字種とステップ101で取得した先頭文字種を比較す
る。先頭文字種と同じ文字種の場合、ステップ105へ
進み、異なる場合、ステップ103に進む。ステップ1
03はその文字が前の文字列と結合可能か否かを判定す
る。結合可能な場合、ステップ105に進み、結合不可
の場合、ステップ104に進む。ステップ104は、変
更可能な文字が存在するか否かを判定する。変更可能な
文字が存在する場合、ステップ105に進み、存在しな
い場合、未知語抽出処理を終了する。ステップ105
は、対象文字を前の文字列に結合する。ステップ106
は、対象文字を次の文字にする。次にステップ102に
戻る。
取得する。ステップ102は、対象文字の第1候補の文
字種とステップ101で取得した先頭文字種を比較す
る。先頭文字種と同じ文字種の場合、ステップ105へ
進み、異なる場合、ステップ103に進む。ステップ1
03はその文字が前の文字列と結合可能か否かを判定す
る。結合可能な場合、ステップ105に進み、結合不可
の場合、ステップ104に進む。ステップ104は、変
更可能な文字が存在するか否かを判定する。変更可能な
文字が存在する場合、ステップ105に進み、存在しな
い場合、未知語抽出処理を終了する。ステップ105
は、対象文字を前の文字列に結合する。ステップ106
は、対象文字を次の文字にする。次にステップ102に
戻る。
【0044】次に、本発明文字認識装置の文字認識の方
法の一実施例の表示例(図15)に従って処理の流れに
沿って説明する。
法の一実施例の表示例(図15)に従って処理の流れに
沿って説明する。
【0045】手書文字入力装置5に入力される用紙上に
印刷又は記入された入力文字列“アスペクトについ”
(15−1)である。この用紙を画像取得ステップ(ス
テップ21)で画像ファイルを記憶装置2に格納する。
画像取得ステップで取得した画像ファイルを入力とし、
文字認識ステップ(ステップ22)で1文字毎に認識し
て得られる認識候補文字の例(15−2)であり、各文
字列に対する認識候補文字列である。
印刷又は記入された入力文字列“アスペクトについ”
(15−1)である。この用紙を画像取得ステップ(ス
テップ21)で画像ファイルを記憶装置2に格納する。
画像取得ステップで取得した画像ファイルを入力とし、
文字認識ステップ(ステップ22)で1文字毎に認識し
て得られる認識候補文字の例(15−2)であり、各文
字列に対する認識候補文字列である。
【0046】単語辞書の例(15−3)であり、単語抽
出処理(ステップ41)ではこの辞書検索により「アス
ベスト」(15−4)を単語抽出する(ステップ6
1)。ここでは、「アスペクト」は辞書に格納されてい
ないものとする。未知語抽出処理(ステップ62)で第
1候補文字の同種文字列「アスペクト」(15−5)を
未知語として抽出する。ここでは、先頭文字種「カタカ
ナ」を取得し(ステップ71)、次の第1候補文字の文
字種を判定(ステップ72)し、結合(ステップ73)
していくことを繰り返し「アスペクト」が抽出される。
未知語抽出終了後、それぞれの単語を単語情報に登録す
る(ステップ63)。単語情報に登録された単語から文
節を作成する(ステップ42)。作成された文節から構
文解析する(ステップ32)。文節を決定する(ステッ
プ43)。文字候補列から決定する(ステップ33)。
決定された文字列“アスペクトについて”(15−6)
を表示装置4に表示する(ステップ34)。又は、記憶
装置2に格納する。
出処理(ステップ41)ではこの辞書検索により「アス
ベスト」(15−4)を単語抽出する(ステップ6
1)。ここでは、「アスペクト」は辞書に格納されてい
ないものとする。未知語抽出処理(ステップ62)で第
1候補文字の同種文字列「アスペクト」(15−5)を
未知語として抽出する。ここでは、先頭文字種「カタカ
ナ」を取得し(ステップ71)、次の第1候補文字の文
字種を判定(ステップ72)し、結合(ステップ73)
していくことを繰り返し「アスペクト」が抽出される。
未知語抽出終了後、それぞれの単語を単語情報に登録す
る(ステップ63)。単語情報に登録された単語から文
節を作成する(ステップ42)。作成された文節から構
文解析する(ステップ32)。文節を決定する(ステッ
プ43)。文字候補列から決定する(ステップ33)。
決定された文字列“アスペクトについて”(15−6)
を表示装置4に表示する(ステップ34)。又は、記憶
装置2に格納する。
【0047】更に、本発明文字認識装置の文字認識の方
法の表示例(図16)に従って処理の流れに沿って説明
する。
法の表示例(図16)に従って処理の流れに沿って説明
する。
【0048】手書文字入力装置5に入力される用紙上に
印刷又は記入された入力文字列“アーカイブについて”
(16−1)である。この用紙を画像取得ステップ(ス
テップ21)で画像ファイルを記憶装置2に格納する。
ステップ21で取得した画像ファイルを入力とし、文字
認識ステップ(ステップ22)で1文字毎に認識して得
られる認識候補文字の例(16−2)であり、各文字列
に対する認識候補文字列である。単語抽出処理(ステッ
プ61)では、この辞書検索で、「アーカイブ」は辞書
に格納されていないものとする。
印刷又は記入された入力文字列“アーカイブについて”
(16−1)である。この用紙を画像取得ステップ(ス
テップ21)で画像ファイルを記憶装置2に格納する。
ステップ21で取得した画像ファイルを入力とし、文字
認識ステップ(ステップ22)で1文字毎に認識して得
られる認識候補文字の例(16−2)であり、各文字列
に対する認識候補文字列である。単語抽出処理(ステッ
プ61)では、この辞書検索で、「アーカイブ」は辞書
に格納されていないものとする。
【0049】未知語抽出処理(ステップ62)の詳細フ
ローを示す図8では、未知語の先頭文字種「カタカナ」
を取得する(ステップ81)。次の文字「−(マイナス
記号)」の文字種「記号」と先頭文字種「カタカナ」を
比較する(ステップ82)。図のように「−(マイナス
記号)」は結合可能文字種は「英字、数字」であるため
に結合不可である。ステップ84は前の文字列に対象文
字を結合する。ステップ85は、対象文字を次の文字に
する。次にステップ82に戻る。
ローを示す図8では、未知語の先頭文字種「カタカナ」
を取得する(ステップ81)。次の文字「−(マイナス
記号)」の文字種「記号」と先頭文字種「カタカナ」を
比較する(ステップ82)。図のように「−(マイナス
記号)」は結合可能文字種は「英字、数字」であるため
に結合不可である。ステップ84は前の文字列に対象文
字を結合する。ステップ85は、対象文字を次の文字に
する。次にステップ82に戻る。
【0050】又、未知語抽出処理(ステップ62)の詳
細フローを示す図9では、未知語の先頭文字種「カタカ
ナ」を取得する(ステップ91)。次の文字「−(マイ
ナス記号)」の文字種「記号」と先頭文字種「カタカ
ナ」を比較する(ステップ92)。図のように「−(マ
イナス記号)」の結合可能文字種は「英字、数字」であ
るために結合不可である(ステップ93)。対象文字の
次の文字候補「−(長音記号)」が存在する(ステップ
94)。「ー(長音記号)」を対象とする(ステップ9
5)。次に図のように「ー(長音記号)」の結合可能文
字種は「ひらがな、カタカナ」であるために結合可能で
ある(ステップ96)。前の文字列「ア」に対象文字を
結合し「アー」とする(ステップ97)。対象文字を次
の文字「カ」にする(ステップ98)。文字種チェック
に戻り、繰り返した結果、未知語「アーカイブ」が抽出
される。
細フローを示す図9では、未知語の先頭文字種「カタカ
ナ」を取得する(ステップ91)。次の文字「−(マイ
ナス記号)」の文字種「記号」と先頭文字種「カタカ
ナ」を比較する(ステップ92)。図のように「−(マ
イナス記号)」の結合可能文字種は「英字、数字」であ
るために結合不可である(ステップ93)。対象文字の
次の文字候補「−(長音記号)」が存在する(ステップ
94)。「ー(長音記号)」を対象とする(ステップ9
5)。次に図のように「ー(長音記号)」の結合可能文
字種は「ひらがな、カタカナ」であるために結合可能で
ある(ステップ96)。前の文字列「ア」に対象文字を
結合し「アー」とする(ステップ97)。対象文字を次
の文字「カ」にする(ステップ98)。文字種チェック
に戻り、繰り返した結果、未知語「アーカイブ」が抽出
される。
【0051】又、未知語抽出処理(ステップ62)の詳
細フローを示す図10では、未知語の先頭文字種「カタ
カナ」を取得する(ステップ101)。次の文字「−
(マイナス記号)」の文字種「記号」と先頭文字種「カ
タカナ」を比較する(ステップ102)。図のように
「−(マイナス記号)」の結合可能文字種は「英字、数
字」であるために結合不可である(ステップ103)。
変更可能な文字判定する。図のように「−(マイナス記
号)」は前文字種が「ひらがな、カタカナ」の場合、変
更候補文字として「ー(長音記号)」がある(ステップ
104)。「ー(長音記号)」を前の文字列「ア」に結
合して「アー」とする(ステップ105)。対象文字を
次の文字「カ」にする(ステップ106)。文字種チェ
ックに戻り、繰り返した結果、未知語「アーカイブ」が
抽出される。
細フローを示す図10では、未知語の先頭文字種「カタ
カナ」を取得する(ステップ101)。次の文字「−
(マイナス記号)」の文字種「記号」と先頭文字種「カ
タカナ」を比較する(ステップ102)。図のように
「−(マイナス記号)」の結合可能文字種は「英字、数
字」であるために結合不可である(ステップ103)。
変更可能な文字判定する。図のように「−(マイナス記
号)」は前文字種が「ひらがな、カタカナ」の場合、変
更候補文字として「ー(長音記号)」がある(ステップ
104)。「ー(長音記号)」を前の文字列「ア」に結
合して「アー」とする(ステップ105)。対象文字を
次の文字「カ」にする(ステップ106)。文字種チェ
ックに戻り、繰り返した結果、未知語「アーカイブ」が
抽出される。
【0052】尚、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。又、本発明はシステム或は装置にプログラ
ムを供給することによって実施される場合にも適用され
ることは言うまでもない。この場合、本発明に係るプロ
グラムを格納した記憶媒体が本発明を構成することにな
る。そして、該記憶媒体からそのプログラムをシステム
或は装置に読み込ませることによって、そのシステム或
は装置が予め定められた方法で動作する。プログラムを
格納する記録媒体としては、ROM、フロッピーディス
ク、CD−ROM、ハードディスク、メモリカード、光
磁気ディスク等を用いることができる。
システムに適用しても、1つの機器から成る装置に適用
しても良い。又、本発明はシステム或は装置にプログラ
ムを供給することによって実施される場合にも適用され
ることは言うまでもない。この場合、本発明に係るプロ
グラムを格納した記憶媒体が本発明を構成することにな
る。そして、該記憶媒体からそのプログラムをシステム
或は装置に読み込ませることによって、そのシステム或
は装置が予め定められた方法で動作する。プログラムを
格納する記録媒体としては、ROM、フロッピーディス
ク、CD−ROM、ハードディスク、メモリカード、光
磁気ディスク等を用いることができる。
【0053】
【発明の効果】以上の説明で明らかなように、本発明に
よれば、該当単語が登録されていない場合にも、言語処
理による文字認識の認識率を下げることなく、言語処理
による文字認識装置全体の認識率の向上を図ることがで
きる。従って、この方法を構成要素に用いる文字認識装
置の信頼性を大幅に向上することが可能となった。
よれば、該当単語が登録されていない場合にも、言語処
理による文字認識の認識率を下げることなく、言語処理
による文字認識装置全体の認識率の向上を図ることがで
きる。従って、この方法を構成要素に用いる文字認識装
置の信頼性を大幅に向上することが可能となった。
【図1】情報処理システムの構成を示すブロック図であ
る。
る。
【図2】本発明に係るデータ処理装置の全体の処理手順
を示すフローチャートである。
を示すフローチャートである。
【図3】言語補正処理手順を示すフローチャートであ
る。
る。
【図4】形態素解析の手順を示すフローチャートであ
る。
る。
【図5】単語抽出の手順を示すフローチャートである。
【図6】単語抽出の手順を示すフローチャートである。
【図7】未知語抽出の手順を示すフローチャートであ
る。
る。
【図8】未知語抽出の手順を示すフローチャートであ
る。
る。
【図9】未知語抽出の手順を示すフローチャートであ
る。
る。
【図10】未知語抽出の手順を示すフローチャートであ
る。
る。
【図11】従来例での主要データフローを示す図であ
る。
る。
【図12】従来例での辞書データを示す図である。
【図13】従来例での文節データフローを示す図であ
る。
る。
【図14】従来例での主要データフローを示す図であ
る。
る。
【図15】本発明の実施の形態での主要データフローを
示す図である。
示す図である。
【図16】本発明の実施の形態での主要データフローを
示す図である。
示す図である。
【図17】本発明の実施の形態での結合判定データを示
す図である。
す図である。
【図18】本発明の実施の形態での結合判定データを示
す図である。
す図である。
【図19】本発明の実施の形態での結合判定データを示
す図である。
す図である。
【図20】本発明の実施の形態での結合判定データを示
す図である。
す図である。
1 中央処理装置
2 記憶装置
3 入力装置
4 表示装置
5 手書文字入力装置
6 記憶媒体読取装置
Claims (6)
- 【請求項1】 所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置において、 前記候補文字列の組み合わせと前記単語データ辞書中の
単語データとの比較を行って単語を抽出する単語抽出ス
テップと、連続する同文字種の第1候補文字を未知語と
する未知語抽出ステップと、前記抽出した単語及び未知
語から文節候補を作成する文節候補作成ステップと、前
記文節候補中より尤もらしい文節候補を選択する文節候
補選択ステップと、前記選択された文節に基づいて第1
候補文字を入れ換える文字候補決定ステップを有するこ
とを特徴とするデータ処理装置。 - 【請求項2】 前記未知語抽出ステップが前記候補文字
列の組み合わせから結合判定データに基づいて未知語を
作成する未知語抽出ステップを有することを特徴とする
請求項1記載のデータ処理装置。 - 【請求項3】 前記未知語抽出ステップが結合判定デー
タに基づいて候補文字を変更して未知語を作成する未知
語抽出ステップを有することを特徴とする請求項1記載
のデータ処理装置。 - 【請求項4】 所定のペン等により文字をストローク情
報として入力する文字入力ステップと、前記入力画像か
ら文字を抽出して予め所有している文字データ辞書との
比較を行いながら候補文字列に変換する文字認識ステッ
プと、予め所有している単語データ辞書とを具備するデ
ータ処理装置の記録媒体において、 前記候補文字列の組み合わせと前記単語データ辞書中の
単語データとの比較を行って単語を抽出する単語抽出ス
テップと、連続する同文字種の第1候補文字を未知語と
する未知語抽出ステップ前記抽出した単語及び未知語か
ら文節候補を作成する文節候補作成ステップと、前記文
節候補中より尤もらしい文節候補を選択する文節候補選
択ステップと、前記選択された文節に基づいて第1候補
文字を入れ換える文字候補決定ステップをコンピュータ
に実行させる情報処理プログラムを記録したコンピュー
タ読み取り可能な記録媒体。 - 【請求項5】 前記未知語抽出ステップが前記候補文字
列の組み合わせから結合判定データに基づいて未知語を
作成する未知語抽出ステップをコンピュータに実行させ
ることを特徴とする請求項4記載の記録媒体。 - 【請求項6】 前記未知語抽出ステップが結合判定デー
タに基づいて候補文字を変更して未知語を作成する未知
語抽出ステップをコンピュータに実行させることを特徴
とする請求項4記載の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001339479A JP2003141451A (ja) | 2001-11-05 | 2001-11-05 | データ処理装置及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001339479A JP2003141451A (ja) | 2001-11-05 | 2001-11-05 | データ処理装置及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003141451A true JP2003141451A (ja) | 2003-05-16 |
Family
ID=19153822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001339479A Pending JP2003141451A (ja) | 2001-11-05 | 2001-11-05 | データ処理装置及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003141451A (ja) |
-
2001
- 2001-11-05 JP JP2001339479A patent/JP2003141451A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7802184B1 (en) | Method and apparatus for processing text and character data | |
KR101083540B1 (ko) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 | |
KR970008023B1 (ko) | 사전검색장치 | |
KR100259407B1 (ko) | 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법 | |
TW448381B (en) | Automatic segmentation of a text | |
US8726148B1 (en) | Method and apparatus for processing text and character data | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
JPH10207988A (ja) | 文字認識方法および文字認識装置 | |
CN111159990A (zh) | 一种基于模式拓展的通用特殊词识别方法及系统 | |
Doush et al. | A novel Arabic OCR post-processing using rule-based and word context techniques | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
JPWO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
CN111460809A (zh) | 阿拉伯语地名专名音译方法、装置、翻译设备和存储介质 | |
JPH08263478A (ja) | 中国語簡繁体字文書変換装置 | |
JP7102710B2 (ja) | 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法 | |
JP2003178260A (ja) | データ処理方法 | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP2003141451A (ja) | データ処理装置及び記録媒体 | |
JP3274014B2 (ja) | 文字認識装置および文字認識方法 | |
KR100910275B1 (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치 | |
Minghu et al. | Segmentation of Mandarin Braille word and Braille translation based on multi-knowledge | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
JP2004206659A (ja) | 読み情報決定方法及び装置及びプログラム | |
JP2019159118A (ja) | 出力プログラム、情報処理装置及び出力制御方法 | |
KR20090042201A (ko) | 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치 |