JP2003178260A - データ処理方法 - Google Patents

データ処理方法

Info

Publication number
JP2003178260A
JP2003178260A JP2001375899A JP2001375899A JP2003178260A JP 2003178260 A JP2003178260 A JP 2003178260A JP 2001375899 A JP2001375899 A JP 2001375899A JP 2001375899 A JP2001375899 A JP 2001375899A JP 2003178260 A JP2003178260 A JP 2003178260A
Authority
JP
Japan
Prior art keywords
character
candidate
word
unknown word
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001375899A
Other languages
English (en)
Inventor
Tomonori Kudou
朋紀 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2001375899A priority Critical patent/JP2003178260A/ja
Publication of JP2003178260A publication Critical patent/JP2003178260A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 辞書に登録されていない場合でも、言語処理
による文字認識の認識率を下げることなく、言語処理に
よる文字認識率の向上を図ることができるデータ処理方
法を提供すること。 【構成】 文字画像を入力する光学的画像入力ステップ
と、前記入力画像から文字を抽出し、予め所有している
文字データ辞書との比較を行ないながら候補文字列に変
換する文字認識ステップと、予め所有している単語デー
タ辞書とを具備するデータ処理方法において、前記候補
文字列の組み合わせと前記単語データ辞書中の単語デー
タとを比較して単語を抽出する単語抽出ステップと、連
続する同文字種の第1候補文字を未知語とする未知語抽
出ステップと、前記抽出した単語及び未知語から文節候
補を作成する文節候補作成ステップと、前記文節候補中
より尤もらしい文節候補を選択する文節候補選択ステッ
プと、前記選択された文節をもとに第1候補文字を入れ
換える文字候補決定ステップを有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字認識に関する
データ処理方法に関するものである。
【0002】
【従来の技術】図1は従来の日本文読取装置の構成図で
あり、文字認識装置はプログラムに従って処理を実行す
る中央処理装置1、文字画像を記憶装置2に入力する画
像入力装置5、文字認識結果を表示する表示装置4、プ
ログラム、認識用の文字データ、辞書の納まっている記
憶装置2、FD(フロッピー(登録商標)ディスク)・
CD−ROM・磁気テープ等の記録媒体に記憶されたプ
ログラム、データ等を記憶装置2に読み取る記憶媒体読
取装置6、処理を操作するキーボード、マウス等の入力
装置3により構成されている。
【0003】図2は従来の概略フローチャートであり、
画像入力装置5により文宇画像を取得するステップ(ス
テップ21)。次に、ステップ21で取得した文字画像
より文字を1文字毎に切り出して認識し、認識候補文字
を出力する文字認識するステップ(ステップ22)、単
語格納した単語辞書や文法的接続情報を格納した文法辞
書等の言語処理に必要な記憶装置2に格納された辞書を
検索し、ステップで得られた認識文字とそれに対する認
識候補文字と辞書を照合し、尤もらしい文字を出力する
言語処理ステップ(ステップ23)とがら成る。
【0004】図11に示す例に基づいて説明する。
【0005】画像入力装置5に入力される用紙上に印刷
又は記入された入力文字列の例(11−1)“六ブロッ
クが空白で、小選挙区での戦い”及び入力文字列の文字
認識ステップで1文字毎に認識して得られる認識候補文
字の例(11−2)であり、各文字列に対する認識候補
文字列である。記憶装置2に格納されている単語辞書
(図12)の検索により「ブロック」、「空白」(11
−3)等が見つかり、図13のように文節候補が作成さ
れて「プ」が「ブ」に変更され、「自」が「白」に変更
され、入力文字列と同じ“六ブロックが空自で、小選挙
区での戦い”(11−4)となり、表示装置4又は記憶
装置2に出力される。
【0006】
【発明が解決しようとする課題】図14に示すように、
画像入力装置5に入力される用紙上に印刷又は記入され
た入力文字列の例及び文字認識ステップで1文字毎に認
識して得られる認識候補文字の例であり、図において入
力文字列ぱアスペクトについでであり、各文字列に対す
る認識候補文字列である。単語辞書の検索により「アス
ベスト」が見つかり、「ぺ」が「べ」に変更され、
「ク」が「ス」に変更され、“アスベストについて”と
なる。
【0007】文字認識ステップの結果、入力文字列と等
しく認識が正しかったにも拘らず、認識した単語が辞書
に格納されていない場合、言語処理で誤った文字に置き
換えてしまい、認識率を下げてしまっていた。
【0008】本発明は上記問題に鑑みてなされたもの
で、その目的とする処は、辞書に登録されていない場合
でも、言語処理による文字認識の認識率を下げることな
く、言語処理による文字認識率の向上を図ることができ
るデータ処理方法を提供することにある。
【0009】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、紙面等の反射光を光電変換して文字画像
を入力する光学的画像入力ステップと、前記入力画像か
ら文字を抽出し、予め所有している文字データ辞書との
比較を行ないながら候補文字列に変換する文字認識ステ
ップと、予め所有している単語データ辞書とを具備する
データ処理方法において、前記候補文字列の組み合わせ
と前記単語データ辞書中の単語データとを比較して単語
を抽出する単語抽出ステップと、連続する同文字種の第
1候補文字を未知語とする未知語抽出ステップと、前記
抽出した単語及び未知語から文節候補を作成する文節候
補作成ステップと、前記文節候補中より尤もらしい文節
候補を選択する文節候補選択ステップと、前記選択され
た文節をもとに第1候補文字を入れ換える文字候補決定
ステップを有することを特徴とする。
【0010】
【発明の実施の形態】以下に本発明の実施の形態を添付
図面に基づいて説明する。
【0011】図1はデータ処理装置の構成を示すブロッ
ク図であり、データ処理装置は、プログラムに従って処
理を実行する中央処理装置1、文字画像を記憶装置2に
入力する画像入力装置5、文字認識結果を表示する表示
装置4、プログラム、認識用の文字データ、辞書の納ま
っている記憶装置2、FD(フロッピーディスク)・C
D−ROM・ROM・磁気テープ等の記録媒体に記憶さ
れたプログラム、データ等を記憶装置2に読み取る記憶
媒体読取装置6、処理を操作するキーボード、マウス等
の入力装置3により主要部が構成されており、基本的に
は従来と同じである。
【0012】図2は概略フローチャートであり、画像入
力装置5により文字画像を取得するステップ(ステップ
21)。次に、ステップ21で取得した文字画像より文
字を1文字毎に切り出して認識し、認識候補文字を出力
する文字認識するステップ(ステップ22)、単語格納
した単語辞書や文法的接続情報を格納した文法辞書等の
言語処理に必要な記憶装置2に格納された辞書を検索
し、ステップで得られた認識文字とそれに対する認識候
補文字と辞書を照合して、尤もらしい文字を出力する言
語処理ステップ(ステップ23)とから成り、従来と同
じである。
【0013】図3は言語処理(ステップ23)の詳細フ
ローチャートであり、形態素解析(ステップ31)は、
文字候補列に対して、単語辞書を参照しながら、形態素
解析を行う形態素解析処理である。ここでは、形態素解
析の例は、二文節最長一致法による。ここで、二文節最
長一致法とは、形態素解析後の隣接する任意の二文節に
対応する読みの長さが最長になる文節の区切りを採用す
る方法である。こうして区切られた文節列を出力する。
その後、解釈可能な文節と、文節の構造を明らかにし、
その結果を形態素解析情報に追加する。ステップ31の
形態素解析は、図11において後述する。
【0014】ステップ32は、形態素解析情報を参照し
ながら、構文解析を行う構文解析処理である。形態素解
析情報から、文節の候補を各文節番号に対して1つずつ
選び出し、構文規則に基づいて句を生成していき、構文
解析を行い、最終的に文が生成できれば、構文解析に成
功したものと見なす。このような構文解析の方法は、構
文解析手法として一般的に行われており、公知であるた
め詳細は記述しない。構文解析に成功した場合は、ステ
ップ23へ進む。構文解析に失敗した場合は、形態素解
析情報中の文節の候補を変更して構文解析を行う。全て
の文節の候補に対して構文解析に失敗した場合は、ステ
ップ33に進む。
【0015】ステップ33は、形態素解析及び構文解析
によって解析された結果に基づいて最適な文字候補を決
定する文字候補決定処理である。ステップ32において
構文解析に成功していれば、成功した構文解析で使用し
ている文節の候補の表記を最適な文字候補として決定す
る。構文解析に成功したものがなければ、ステップ31
の形態素解析のみで、最適な文字候補を決定する。文宇
候補決定処理を終えた後、ステップ34へ進む。
【0016】ステップ34は、ステップ38で決定され
た最適な文字候補を表示する補正結果表示処理である。
これは、例えば言語処理によって画像認識結果の第1候
補が入れ替えられた場合、その文字だけを別の属性で表
示する等の処理である。補正結果表示処理を終えた後、
言語補正処理を終了する。
【0017】図4はステップ31の形態素解析を詳細化
したフローチャートである。
【0018】ステップ41は、文字候補列の全ての部分
文字列の組み合わせに対して、単語辞書を検索し、表記
が部分文字列にマッチする単語の各情報を単語情報に格
納する単語抽出処理である。単語抽出処理の詳細は後述
する。処理を終えた後、ステップ42に進む。
【0019】ステップ42は、ステップ41によって作
成された単語情報に、接続規則辞書に記述されている接
続規則を適用し、文節候補情報を作成する処理である。
文節候補を作成するとは、生成された文節の表記が必ず
文字候補列に格納されている文字候補列の部分列とマッ
チするように各単語に接続規則を適用することである。
こうして全ての文節候補を作成した後、ステップ33に
進む。
【0020】ステップ33は、文節候補情報を参照して
最終的な文節を決定し、形態素情報を作成する文節の決
定処理である。文節を決定する際に用いられる手法は前
述した二文節最長一致法を711として処理を終える
と、形態素解析処理を終了する。
【0021】図5はステップ41の単語抽出処理を詳細
化したフローチャートである。
【0022】ステップ51は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
否かを調べる候補文宇部分列検索処理である。全ての候
補文宇部分列に対して検索を終えた後、ステップ52へ
進む。
【0023】ステップ52は、ステップ51で辞書検索
を行った結果、或る位置の文字候補に対して単語が抽出
できたか否かをチェックする検索チェック処理である。
或る位置の文字候補に対応する単語が1つでも見つかっ
た場合は、ステップ54に進む。或る位置の文字候補に
対応する単語が全く見つからなかった場合は、ステップ
53の未知語抽出処理に進む。
【0024】ステップ53は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
未知語抽出処理は、例えばひらがな、カタカナ、英字等
の字種が連続している部分を抽出して名詞と見なす処理
であり、かな漢字変換のような言語処理では一般に行わ
れている処理である。本発明における未知語処理では、
未知語として抽出される文字候補は全て画像認識におい
て第1候補である文字候補のみを抽出する。即ち、未知
語抽出処理が一旦起動されると、文字候補列の第1列に
おいて、起動された文字位置から同種の文字種が連続す
る部分を抽出して単語と見なし、その品調を名詞とす
る。処理を終えると、ステップ54へ進む。
【0025】ステップ54は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ55へ進む。
【0026】ステップ55は、文字候補列に格納されて
いる文字候補の末尾まで単語抽出できたか否かをチェッ
クする候補文字列終了チェックである。単語抽出が文字
候補列の末尾まで達していない場合は、ステップ51に
処理が進む。文字候補列の末尾まで単語抽出が終了して
いれば、単語抽出処理を終える。
【0027】図6はステップ41の単語抽出処理を詳細
化したフローチャートである。
【0028】ステップ61は、文字候補列のあらゆる組
み合わせにおいて全ての部分文字列を作成し、それら部
分文字列と同じ表記を持つ単語が単語辞書に存在するか
否かを調べる候補文宇部分列検索処理である。全ての候
補文宇部分列に対して検索を終えた後、ステップ62へ
進む。
【0029】ステップ62は、未知語、即ち、辞書に記
載されていない単語を抽出する未知語抽出処理である。
ステップ63へ進む。
【0030】ステップ63は、ここまでの過程で辞書か
ら検索された単語、或は未知語として抽出された単語を
単語情報に格納する単語情報格納処理である。処理を終
えると、ステップ64へ進む。
【0031】ステップ64は、文字候補列に格納されて
いる文字候補列の末尾まで単語抽出できたか否かをチェ
ックする候補文字列終了チェックである。単語抽出が未
だ文字候補列の末尾まで達していない場合で、且つ、長
い単語が存在する場合は、ステップ61に処理が進む。
文字候補列の末尾まで単語抽出が終了いる場合、又はこ
れ以上長い単語が存在しない場合は、単語抽出処理を終
える。
【0032】図7は未知語抽出の詳細フローチャートで
ある。
【0033】ステップ71は未知語の先頭文字を取得す
る。ステップ72は、対象文字の第1候補の文字種とス
テップ71で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ73に進み、異なった文字種の場
合、未知語抽出処理を終了する。ステップ73は、前の
文字列に対象文字を結合する。
【0034】ステップ74は、対象文字を次の文字にす
る。次に、ステップ72に戻る。
【0035】図8は未知語抽出の詳細フローチャートで
ある。
【0036】ステップ81は未知語の先頭文字を取得す
る。ステップ82は、対象文字の第1候補の文字種とス
テップ81で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ84に進み、異なった文字種の場
合、ステップ83に進む。
【0037】ステップ83は、その文字が前の文字列と
結合可能かを判定する。結合可能な場合、ステップ84
に進み、結合不可の場合、未知語抽出処理を終了する。
【0038】ステップ84は、前の文字列に対象文字を
結合する。ステップ85は、対象文字を次の文字にす
る。次にステップ82に戻る。
【0039】図9は未知語抽出の詳細フローチャートで
ある。
【0040】ステップ91は未知語の先頭文字を取得す
る。ステップ92は、対象文字の第1候補の文字種とス
テップ91で取得した先頭文字種を比較する。同じ文字
種の場合、ステップ97に進み、異なった文字種の場
合、ステップ98に進む。ステップ98はその文字が前
の文字列と結合可能かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に進
む。
【0041】ステップ94は、対象文字の次の文字候補
が存在するか否かを判定する。存在する場合、ステップ
95に進み、存在しない場合、未知語抽出処理を終了す
る。ステップ95は、次の文字候補を対象とする。ステ
ップ96は、ステップ95で取得した文字候補が前の文
字列に結合可能か否かを判定する。結合可能な場合、ス
テップ97に進み、結合不可の場合、ステップ94に戻
る。ステップ97は前の文字列に対象文字を結合する。
ステップ98は、対象文字を次の文字にする。次に、ス
テップ92に戻る。
【0042】図10は未知語抽出の詳細フローチャート
である。
【0043】ステップ101は未知語の先頭の文字種を
取得する。ステップ102は、対象文字の第1候補の文
字種とステップ101で取得した先頭文字種を比較す
る。先頭文字種と同じ文字種の場合、ステップ105へ
進み、異なる場合、ステップ103に進む。ステップ1
03はその文字が前の文字列と結合可能か否かを判定す
る。結合可能な場合、ステップ105に進み、結合不可
の場合、ステップ104に進む。ステップ104は、変
更可能な文字が存在mするか否かを判定する。変更可能
な文字が存在する場合、ステップ105に進み、存在し
ない場合、未知語抽出処理を終了する。ステップ105
は、対象文字を前の文字列に結合する。ステップ106
は対象文字を次の文字にする。次に、ステップ102に
戻る。
【0044】次に、本発明に係るデータ方法の表示例
(図11)に従って処理の流れに沿って説明する。
【0045】画像入力装置5に入力される用紙上に印刷
又は記入された入力文字列“アスペクトについて”(1
3−1)である。この用紙を画像取得ステップ(ステッ
プ21)で画像ファイルを記憶装置2に格納する。画像
取得ステップで取得した画像ファイルを入力とし、文字
認識ステップ(ステップ22)で1文字毎に認識して得
られる認識候補文字の例(13−2)であり、各文字列
に対する認識候補文字列である。単語辞書の例(13−
3)であり、単語抽出処理(ステップ41)では、この
辞書検索により「アスベスト」(13−4)を単語抽出
する。ここでは、「アスベクト」は辞書に格納されてい
ないものとする。
【0046】未知語抽出処理で第1候補文字の同種文字
列「アスペクト」(13−5)を未知語として抽出す
る。それぞれの単語を単語情報に登録する(ステップ6
3)。単語情報に登録された単語から文節を作成する
(ステップ42)。作成された文節から構文解析する
(ステップ32)。文節を決定する(ステップ43)。
文字候補列から決定する(ステップ33)。決定された
文字列“アスペクトについて”(13−6)を表示装置
4に表示する(ステップ34)。又は、記憶装置2に格
納する。
【0047】画像入力装置5に入力される用紙上に印刷
又はは記入された入力文字列“アーカイブについて”
(14−1)である。この用紙を画像取得ステップ(ス
テップ21)で画像ファイルを記憶装置2に格納する。
ステップ21で取得した画像ファイルを入力とし、文字
認識ステップ(ステップ22)で1文字毎に認識して得
られる認識候補文字の列(6−2)であり、各文字列に
対する認識候補文字列である。単語抽出処理(ステッ
プ)では、この辞書検索で、「アーカイブ」は辞書に格
納されていないものとする。図8に示す未知語抽出処理
(ステップ)の詳細フローでは、未知語の先頭文字種
「カタカナ」を取得する(ステップ81)。次の文字
「−(マイナス記号)」の文字種「記号」と先頭文字種
「カタカナ」を比較する(ステップ82)。図のように
「−(マイナス記号)」は結合可能文字種は「英宇、数
字」であるため結合不可である。ステップ84は前の文
字列に対象文字を結合する。ステップ85は、対象文字
を次の文字にする。次にステップ82に戻る。
【0048】図9に示す未知語抽出処理(ステップ)の
詳細フローでは、未知語の先頭文字種「カタカナ」を取
得する(ステップ91)。次の文字「−(マイナス記
号)」の文字種「記号」と先頭文字種「カタカナ」を比
較する(ステップ92)。図のように「−(マイナス記
号)」の結合可能文字種は「英字、数字」であるため、
結合不可である(ステップ93)。対象文字の次の文字
候補「ー(長音記号)」が存在する(ステップ94)。
「ー(長音記号)」を対象とする(ステップ95)。次
に、図のように「ー(長音記号)」の結合可能文字種は
「ひらがな、カタカナ」であるため結合可能である(ス
テップ96)。前の文字列「ア」に対象文字を結合して
「アー」とする(ステップ97)。対象文字を次の文字
「カ」にする(ステップ98)。文字種チェックに戻
り、繰り返した結果、未知語「アーカイブ」が抽出され
る。
【0049】未知語の先頭文字種「カタカナ」を取得す
る(ステップ101)。次の文字「−(マイナス記
号)」の文字種「記号」と先頭文字種「カタカナ」を比
較する(ステップ102)。図のように「−(マイナス
記号)」の結合可能文字種は「英字、数字」であるため
結合不可である(ステップ103)。変更可能な文字判
定する。図のように「−(マイナス記号)」は前文字種
が「ひらがな、カタカナ」の場合、変更候補文字として
「ー(長音記号)」がある(ステップ104)。「ー
(長音記号)」を前の文字「ア」に結合し「アー」とす
る(ステップ105)。対象文字を次の文字「カ」にす
る(ステップ106)。
【0050】文字種チェックに戻り、繰り返した結果、
未知語「アーカイブ」が抽出される。ステップ101は
未知語の先頭の文字種を取得する。ステップ102は、
対象文字の第1候補の文字種とステップ101で取得し
た先頭文字種を比較する。先頭文字種と同じ文字種の場
合、ステップ105へ進み、異なる場合、ステップ10
3に進む。ステップ103はその文字が前の文字列と結
合可能かを判定する。結合可能な場合、ステップ105
に進み、結合不可の場合、ステップ104に進む。変更
可能な文字が存在する場合、ステップ105に進み、存
在しない場合、未知語抽出処理を終了する。ステップ1
05は、対象文字を前の文字列に結合する。ステップ1
06は、対象文字を次の文字にする。次に、ステップ1
02に戻る。
【0051】対象文字の第1候補の文字種とステップ7
1で取得した先頭文字種を比較する。同じ文字種の場
合、ステップ73に進み、異なった文字種の場合、未知
語抽出処理を終了する。ステップ73は前の文字列に対
象文字を結合する。ステップ74は、対象文字を次の文
字にする。次にステップ72に戻る。
【0052】「アーカイブ」を未知語として抽出する。
それぞれの単語を単語情報に登録する(ステップ)。単
語情報に登録された単語から文節を作成する(ステッ
プ)。作成された文節から構文解析する(ステップ)。
文節を決定する(ステップ)。文字候補列から決定する
(ステップ)。決定された文字列“アスベクトについ
て”(6−3)を表示装置4に表示する。又は、記憶装
置2に格納する。
【0053】又、本発明は、複数の機器から構成される
システムに適用しても、1つの機器から成る装置に適用
しても良い。又、本発明はシステム或は装置にプログラ
ムを供給することによって実施される場合にも適用され
ることは言うまでもない。この場合、本発明に係るプロ
グラムを格納した記憶媒体が本発明を構成することにな
る。そして、該記憶媒体からそのプログラムをシステム
或は装置に読み込ませることによって、そのシステム或
は装置が予め定められた方法で動作する。プログラムを
格納する記録媒体としては、ROM、フロッピーディス
ク、CD−ROM、ハードディスク、メモリカード、光
磁気ディスク等を用いることができる。
【0054】
【発明の効果】以上の説明で明らかなように、本発明に
よれば、紙面等の反射光を光電変換して文字画像を入力
する光学的画像入力ステップと、前記入力画像から文字
を抽出し、予め所有している文字データ辞書との比較を
行ないながら候補文字列に変換する文字認識ステップ
と、予め所有している単語データ辞書とを具備するデー
タ処理方法において、前記候補文字列の組み合わせと前
記単語データ辞書中の単語データとを比較して単語を抽
出する単語抽出ステップと、連続する同文字種の第1候
補文字を未知語とする未知語抽出ステップと、前記抽出
した単語及び未知語から文節候補を作成する文節候補作
成ステップと、前記文節候補中より尤もらしい文節候補
を選択する文節候補選択ステップと、前記選択された文
節をもとに第1候補文字を入れ換える文字候補決定ステ
ップを有するものとしたため、辞書に登録されていない
場合でも、言語処理による文字認識の認識率を下げるこ
となく、言語処理による文字認識率の向上を図ることが
できるという効果が得られる。
【図面の簡単な説明】
【図1】本発明に係る情報処理システムの構成を示すブ
ロック図である。
【図2】本発明に係る情報処理システムの動作を示すフ
ローチャートである。
【図3】本発明の実施の形態における言語補正処理手順
を示すフローチャートである。
【図4】本発明の実施の形態における形態素解析の手順
を示すフローチャートである。
【図5】本発明の実施の形態における単語抽出の手順を
示すフローチャートである。
【図6】本発明の実施の形態における単語抽出の手順を
示すフローチャートである。
【図7】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。
【図8】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。
【図9】本発明の実施の形態における未知語抽出の手順
を示すフローチャートである。
【図10】本発明の実施の形態における未知語抽出の手
順を示すフローチャートである。
【図11】従来の主要データフローを示す図である。
【図12】従来の辞書データを示す図である。
【図13】従来の文節データフローを示す図である。
【図14】従来の主要データフローを示す図である。
【図15】実施の主要データフローを示す図である。
【図16】本発明の実施の形態での主要データフローを
示す図である。
【図17】本発明の実施の形態での結合判定データを示
す図である。
【図18】本発明の実施の形態での結合判定データを示
す図である。
【図19】本発明の実施の形態での結合判定データを示
す図である。
【図20】本発明の実施の形態での結合判定データを示
す図である。
【符号の説明】
1 中央処理装置 2 記憶装置 3 入力装置(キーボード) 4 表示装置 5 画像入力装置 6 記憶媒体読取装置

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 紙面等の反射光を光電変換して文字画像
    を入力する光学的画像入力ステップと、前記入力画像か
    ら文字を抽出し、予め所有している文字データ辞書との
    比較を行ないながら候補文字列に変換する文字認識ステ
    ップと、予め所有している単語データ辞書とを具備する
    データ処理方法において、 前記候補文字列の組み合わせと前記単語データ辞書中の
    単語データとを比較して単語を抽出する単語抽出ステッ
    プと、連続する同文字種の第1候補文字を未知語とする
    未知語抽出ステップと、前記抽出した単語及び未知語か
    ら文節候補を作成する文節候補作成ステップと、前記文
    節候補中より尤もらしい文節候補を選択する文節候補選
    択ステップと、前記選択された文節をもとに第1候補文
    字を入れ換える文字候補決定ステップを有することを特
    徴とするデータ処理方法。
  2. 【請求項2】 前記未知語抽出ステップは、前記候補文
    字列の組み合わせから結合判定データに基づいて未知語
    を作成する未知語抽出ステップを有することを特徴とす
    る請求項1記載のデータ処理方法。
  3. 【請求項3】 前記未知語抽出ステップは、結合判定デ
    ータに基づいて候補文字を変更し未知語を作成する未知
    語抽出ステップを有することを特徴とする請求項1記載
    のデータ処理方法。
JP2001375899A 2001-12-10 2001-12-10 データ処理方法 Pending JP2003178260A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001375899A JP2003178260A (ja) 2001-12-10 2001-12-10 データ処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001375899A JP2003178260A (ja) 2001-12-10 2001-12-10 データ処理方法

Publications (1)

Publication Number Publication Date
JP2003178260A true JP2003178260A (ja) 2003-06-27

Family

ID=19184195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001375899A Pending JP2003178260A (ja) 2001-12-10 2001-12-10 データ処理方法

Country Status (1)

Country Link
JP (1) JP2003178260A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8010344B2 (en) 2007-06-14 2011-08-30 Google Inc. Dictionary word and phrase determination
CN103268316A (zh) * 2013-05-27 2013-08-28 江苏圆坤科技发展有限公司 一种图片识别语音翻译方法及其翻译设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176392A (ja) * 2007-01-16 2008-07-31 Nec Corp 新語収集装置、方法およびプログラム
WO2008151466A1 (en) * 2007-06-14 2008-12-18 Google Inc. Dictionary word and phrase determination
US8010344B2 (en) 2007-06-14 2011-08-30 Google Inc. Dictionary word and phrase determination
CN101779200B (zh) * 2007-06-14 2013-03-20 谷歌股份有限公司 词典词和短语确定方法和设备
US8412517B2 (en) 2007-06-14 2013-04-02 Google Inc. Dictionary word and phrase determination
CN103268316A (zh) * 2013-05-27 2013-08-28 江苏圆坤科技发展有限公司 一种图片识别语音翻译方法及其翻译设备

Similar Documents

Publication Publication Date Title
KR100259407B1 (ko) 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
US8108202B2 (en) Machine translation method for PDF file
Palmer Tokenisation and sentence segmentation
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US6014615A (en) System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US7802184B1 (en) Method and apparatus for processing text and character data
KR970008023B1 (ko) 사전검색장치
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
US20080059146A1 (en) Translation apparatus, translation method and translation program
Doush et al. A novel Arabic OCR post-processing using rule-based and word context techniques
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
Pal et al. OCR error correction of an inflectional indian language using morphological parsing
KR100509917B1 (ko) 어절 엔-그램을 이용한 띄어쓰기와 철자 교정장치 및 방법
JPH08263478A (ja) 中国語簡繁体字文書変換装置
JP2003178260A (ja) データ処理方法
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
Naseem A hybrid approach for Urdu spell checking
Doermann et al. Translation lexicon acquisition from bilingual dictionaries
JP4845921B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
KR100910275B1 (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및장치
Kirov et al. Context-aware Transliteration of Romanized South Asian Languages
JP2003141451A (ja) データ処理装置及び記録媒体
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
KR20090042201A (ko) 이중언어 문서에서의 음차표기 대역쌍 자동 추출 방법 및 장치
Lin et al. A Simple and Practical Approach to Improve Misspellings in OCR Text