JPH04115384A - 単語チェック機能を持つ日本語ocr - Google Patents

単語チェック機能を持つ日本語ocr

Info

Publication number
JPH04115384A
JPH04115384A JP2236520A JP23652090A JPH04115384A JP H04115384 A JPH04115384 A JP H04115384A JP 2236520 A JP2236520 A JP 2236520A JP 23652090 A JP23652090 A JP 23652090A JP H04115384 A JPH04115384 A JP H04115384A
Authority
JP
Japan
Prior art keywords
word
character
dictionary
connection
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2236520A
Other languages
English (en)
Inventor
Masaya Nishimura
真哉 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2236520A priority Critical patent/JPH04115384A/ja
Publication of JPH04115384A publication Critical patent/JPH04115384A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は日本語0CR(Optical  Chara
cter  Reader)に関し、特に単語チェック
機能を持つ日本語OCRに関する。
〔従来の技術〕
従来、この種の日本語OCRには、単語をチェックする
機能が存在せず、文字と文字との接続および単語と単語
との接続を考慮せずに文字を決定していた。
〔発明が解決しようとする課題〕
上述した従来の日本語OCRでは、単語をチェックする
機能が存在せず、文字と文字との接続および単語と単語
との接続を考慮せずに文字を決定していたので、正しい
文字を決定する確率が低いという欠点がある。
本発明の目的は、上述の点に鑑み、読み取9た文字列が
辞書に登録されているかどうか辞書引きを行って文字列
を単語と認定し、品詞間の接続関係を記述した接続テー
ブルを利用して単語同士の妥当性を保鉦することによっ
て前後関係から文字を確定し文字の読取り性能を改善す
るようにした単語チェック機能を持つ日本語OCRを提
供することにある。
〔課題を解決するための手段〕
本発明の単語チェック機能を持つ日本語OCRは、第1
図に示すように、日本語の文字を読み取り曖昧性のある
文字であれば可能性の高いいくつかの候補を抽出する読
取り手段1と、この読取り手段1により読み取られた文
字列中に曖昧性のある文字があれば可能性の高いいくつ
かの候補を組み合わせて可能な組合せの文字列を展開す
る可能性展開手段2と、この可能性展開手段2により展
開された可能な組合せの文字列に対して語切りを行う語
切り手段3と、この語切り手段3により語切られた単語
が辞書6に登録されているかどうかを確認する辞書引き
手段4と、この辞書引き手段4により辞書6に登録され
ていると確認された単語の接続関係を品詞間の接続関係
を記述した接続テーブル7を参照して検定する接続検定
手段5とを有する。
〔作用〕
本発明の単語チェック機能を持つ日本語OCRでは、読
取り手段1が日本語の文字を読み取り曖昧性のある文字
であれば可能性の高いいくつかの候補を抽出し、可能性
展開手段2が読取り手段工により読み取られた文字列中
に曖昧性のある文字があれば可能性の高いいくつかの候
補を組み合わせて可能な組合せの文字列を展開し、語切
り手段3が可能性展開手段2により展開された可能な組
合せの文字列に対して語切りを行い、辞書引き手段4が
語切り手段3により語切られた単語が辞書6に登録され
ているかどうかを確認し、接続検定手段5が辞書引き手
段4により辞書6に登録されていると確認された単語の
接続関係を品詞間の接続関係を記述した接続テーブル7
を参照して検定する。
〔実施例〕
次に、本発明について図面を参照して詳細に説明する。
第2図は、本発明の一実施例に係る単語チェック機能を
持つ日本語OCRの構成を示すブロック図である0本実
施例の単語チェック機能を持つ日本語OCRは、光学的
に日本語の文字を読み取り可能性の高いいくつかの候補
を抽出する読取り手段1と、可能性の高いいくつかの候
補を組み合わせて可能な組合せの文字列を展開する可能
性展開手段2と、文字列を区切って単語を作成する語切
り手段3と、単語が辞書6に登録されているかどうかを
確認する辞書引き手段4と、単語と単語との許される接
続を確認する接続検定手段5と、単語の情報が記述され
ている辞書6と、品詞と品詞との許される接続を記述し
た接続テーブル7と、読取り手段1により読み取られた
文字列が格納される読取りファイル8と、可能性展開手
段2により展開された可能な組合せの文字列を格納する
展開済みファイル9と、接続検定手段5により接続検定
された結果を格納する出力ファイル10とから構成され
ている。
辞書6には、単語の見出し、それに対する品詞などの情
報が格納されている。
接続テーブル7には、例えば第8図に示すように、品詞
と品詞との接続可否1品詞と未定義語(品詞の定まらな
い単語)との接続可否などの情報が記述されている。
次に、このように構成された本実施例の単語チェック機
能を持つ日本語OCRの動作について説明する。
まず、読取り手段1は、日本語の文字を読み取り、曖昧
性のある文字であれば可能性の高いいくつかの候補を抽
出して、読取りファイル8を作成する。
読取りファイル8には、1文ごとの文字列が格納される
が、読み取った文字が曖昧な場合には可能性の高いいく
つかの候補が格納される。ただし、読み取った文字には
全熱曖昧性がなく他の候補が無い場合や、完全に読取り
に失敗してすべての候補の中にも正しい候補が無い場合
もある。
次に、可能性展開手段2は、読取りファイル8内の1文
ごとに、文字列中に曖昧性のある文字があれば可能性の
高いいくつかの候補を組み合わせて可能な組合せの文字
列をすべて作成し、展開済みファイル9に出力する。
続いて、語切り手段3は、まず展開済みファイル9から
読み出した1文ごとの文字列を最長一致法に従って最も
長い文字列から単語とする。
次に、辞書引き手段4は、語切り手段3によって語切り
された単語が辞書6に登録されているかどうかを確認す
る。
単語が辞書6に登録されていることが確認されたならば
、接続検定手段5は、直前の単語との接続を接続テーブ
ル7を引いて検定する。単語が接続検定に合格した場合
、接続検定手段5は、単語として確定させ、出力ファイ
ル10に出力し、語切り手段3に制御を戻す、そして、
単語として確定された末尾の文字の次の文字から同様に
語切り辞書引きおよび接続検定の処理を行う。
語切り手段3によって語切りされた文字列が辞書6に登
録されていない場合および単語は辞書6に登録されてい
たが接続検定に失敗した場合には、辞書引き手段4およ
び接続検定手段5は、語切り手段3に制御を戻す。そし
て、より短い文字列を単語として改めて語切り、辞書引
きおよび接続検定の処理を行う。
語切りの結果、最後の1文字になっても辞書6上に登録
されている語にならない場合、接続検定手段5は、未定
義語として最も可能性の高い候補を仮候補として出力フ
ァイル10に出力し、語切り手段3に制御を戻す。そし
て、未定義語の次の文字から同様に語切り、辞書引きお
よび接続検定の処理を行う。
1文中のすべての文字を検定し終わったならば、語切り
手段3.辞書引き手段4および接続検定手段5は、展開
済みファイル9から次の1文を読み出して語切り、辞書
引きおよび接続検定の処理を行う。
そして、展開済みファイル9中のすべての文の接続検定
の処理が終わったならば、本実施例の単語チェック機能
を持つ日本語OCRは、処理を終了する。
次に、第3図に示す「彼女が東京に行く」という例文の
処理の流れを、第4図〜第11図を参照しながら説明す
る。
読取り手段1は、第3図の文を読み取ると、曖昧性のあ
る文字を検出し、第4図に示すように、4文字目に「東
Jと「車」、5文字目に「京」と「申」という曖昧性の
ある文字の可能性の高い候補が2つずつ含まれている読
取リファイル8を作成する。
次に、可能性展開手段2は、第4図に示した曖昧性のあ
る文字の可能性の高い候補が含まれている文字列を読取
りファイル8から読み取り、可能性の高い候補を組み合
わせて、第5図に示すような可能な組合せの文字列に展
開して展開済みファイル9を作成する。
続いて、語切り手段3は、展開済みファイル9から第5
図のすべての可能な組合せの文字列を読み取り、最長一
致法に従って語切りを順に行って、辞書6に登録されて
いる最も長い単語を決定する。
第6図の例では、辞書6に「彼」、「女」および「彼女
」という単語が登録されているならば、6−1および6
−2という2種類の語切りの可能性が考えられる。ここ
では、最も長い文字列を単語として決定するので、6−
2が単語の語切りとして採用される。
第5図に示すように曖昧性のある文字により可能性のあ
る組合せの文字列が分岐する場合、語切り手段3は、全
ての可能性のある組合せの文字列の中から辞書6に登録
されている最も長い単語を決定する。第5図の例では、
「東京」、「束中」。
「東京」および「車中コの4種類が可能性のある組合せ
の文字列として挙げられるが、この中から辞書6に登録
されている単語を選択すると、第7図に示すように「東
京」という文字列が単語として認定される。
単語が辞書6に登録されていることがa認されたならば
、接続検定手段5は、その単語が直前の単語と接続可能
かどうかを接続テーブル7で確認する。
第8図は、接続テーブル7の一例を示す図である。この
接続テーブル7で「○」の付与されている品詞間の接続
関係は可能であり、「×Jの付与されている品詞間の接
続関係は不可能であることが示されている。例えば、「
名詞」の後に「助詞」を続けることは可能であるが、「
助詞」の後に「助詞Jを続けることは不可能であること
が示されている。
第9閣は、「東京」という単語とその直前の単語「が」
との接続検定の一例を示す図である。「東京」は「名詞
」でありその直前の「が」が「助詞」であるから、「が
」の後に「東京」を続けることは可能である。
したがって、接続検定手段5は、「東京」という単語を
決定し、語切り手段3に制御を戻す、そして、「東京」
という単語の直後の「に〜J以下の文字列について語切
り、辞書引きおよび接続検定の処理を行う。
第10図は、第3図の文が上記に従って処理された出力
ファイル10の内容の一例を示す図である。
もし「東京」という単語も「東」という文字も辞書6に
登録されていない場合、「東」とし)う文字を未定義語
とし、第11図に示すように、後で人間の手で修正する
ことができるように、その文字にマーク(例えば、「*
」)を付与する。そして、この「東」という文字の直後
の「京に〜」から改めて語切り、辞書引きおよび接続検
定の処理を行う。
〔発明の効果〕
以上説明したように本発明は、日本語OCRで読み取っ
た文字に曖昧性のある場合に文字列を単語として把握し
、単語と単語との接続を考慮して文字の前後関係から最
も可能性の高い候補を決定するようにしたことにより、
日本語OCRの文字の読取り性能を向上させることがで
きるという効果がある。
【図面の簡単な説明】
第1図は本発明の単語チェック機能を持つ日本語OCR
の構成を示すプロ、り図、 第2図は本発明の一実施例に係る単語チェック機能を持
つ日本語OCRの構成を示すブロック図、第3図は本実
施例の単語チェック機能を持つ日本語OCRおける実際
の処理の流れを説明するための例文を示す図、 第4図は第3図に示す例文が第1図中に示す読取り手段
によって読み取られた文字と曖昧な文字の候補との例を
示す図、 第5図は第1図中の可能性展開手段により展開された曖
昧な文字がある場合の可能な組合せの文字列の例を示す
図、 第6図は第1図中の語切り手段により最も長い文字列を
単語として決定する語切りの一例を示す図、 第7図は第1図中の辞書引き手段による複数の候補から
辞書引きを行う例を示す図、 第8図は第1図中の接続テーブルの内容の一例を示す図
、 第9図は第1図中の接続検定手段による接続検定の一例
を示す図、 第10図は第3図の例文を語切りした結果の一例を示す
図、 第11図は第3図の例文中の文字が未定義語と判断され
た場合の語切り結果の一例を示す図である。 図において、 l・・・読取り手段、 2・・・可能性展開手段、 3・・・語切り手段、 4・・・辞書引き手段、 5・・・接続検定手段、 6・・・辞書、 7・・・接続テーブル、 8・・・読取りファイル、 9・・・展開済みファイル、 10・・出力ファイルである。

Claims (1)

  1. 【特許請求の範囲】 日本語の文字を読み取り曖昧性のある文字であれば可能
    性の高いいくつかの候補を抽出する読取り手段と、 この読取り手段により読み取られた文字列中に曖昧性の
    ある文字があれば可能性の高いいくつかの候補を組み合
    わせて可能な組合せの文字列を展開する可能性展開手段
    と、 この可能性展開手段により展開された可能な組合せの文
    字列に対して語切りを行う語切り手段と、この語切り手
    段により語切られた単語が辞書に登録されているかどう
    かを確認する辞書引き手段と、 この辞書引き手段により辞書に登録されていると確認さ
    れた単語の接続関係を品詞間の接続関係を記述した接続
    テーブルを参照して検定する接続検定手段と を有することを特徴とする単語チェック機能を持つ日本
    語OCR。
JP2236520A 1990-09-06 1990-09-06 単語チェック機能を持つ日本語ocr Pending JPH04115384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2236520A JPH04115384A (ja) 1990-09-06 1990-09-06 単語チェック機能を持つ日本語ocr

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2236520A JPH04115384A (ja) 1990-09-06 1990-09-06 単語チェック機能を持つ日本語ocr

Publications (1)

Publication Number Publication Date
JPH04115384A true JPH04115384A (ja) 1992-04-16

Family

ID=17001919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2236520A Pending JPH04115384A (ja) 1990-09-06 1990-09-06 単語チェック機能を持つ日本語ocr

Country Status (1)

Country Link
JP (1) JPH04115384A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8755603B2 (en) 2011-09-21 2014-06-17 Fuji Xerox Co., Ltd. Information processing apparatus performing character recognition and correction and information processing method thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009026288A (ja) * 2007-07-23 2009-02-05 Sharp Corp 画像文書処理装置、画像文書処理方法、画像処理プログラムおよび画像処理プログラムを記録した記録媒体
US8755603B2 (en) 2011-09-21 2014-06-17 Fuji Xerox Co., Ltd. Information processing apparatus performing character recognition and correction and information processing method thereof

Similar Documents

Publication Publication Date Title
JP3971373B2 (ja) ルールベース方式と翻訳パターン方式とを混合したハイブリッド自動翻訳装置
US4685060A (en) Method of translation between languages with information of original language incorporated with translated language text
US20030023425A1 (en) Tokenizer for a natural language processing system
JP2007265458A (ja) 複数の圧縮オプションを生成する方法およびコンピュータ
Feng et al. Unsupervised segmentation of Chinese corpus using accessor variety
JPH04115384A (ja) 単語チェック機能を持つ日本語ocr
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
US6219449B1 (en) Character recognition system
JP3744676B2 (ja) 情報抽出装置及びその方法
JP3767180B2 (ja) 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
KR102661819B1 (ko) 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법
JPS5990167A (ja) 文章解析装置
JPS62139076A (ja) 言語解析方式
JPH11344998A (ja) 読み韻律情報設定方法及び装置及び読み韻律情報設定プログラムを格納した記憶媒体
JPS60157659A (ja) 日本語解析方式
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2796140B2 (ja) 自然言語処理用データ編集支援装置
JP2894736B2 (ja) 文章検査方法
Habash et al. Identification of Naturally Occurring Numerical Expressions in Arabic.
JP3476872B2 (ja) 文字認識装置
JPS62203276A (ja) 形態素解析装置
JPH01114976A (ja) 文書処理装置の辞書構造
JP2000076293A (ja) 省略名称抽出装置、方法および記録媒体
JPH0614375B2 (ja) 文字入力装置
JPS6344700A (ja) 単語検出方式