JPH03189890A - 複合語照合方法 - Google Patents

複合語照合方法

Info

Publication number
JPH03189890A
JPH03189890A JP1330616A JP33061689A JPH03189890A JP H03189890 A JPH03189890 A JP H03189890A JP 1330616 A JP1330616 A JP 1330616A JP 33061689 A JP33061689 A JP 33061689A JP H03189890 A JPH03189890 A JP H03189890A
Authority
JP
Japan
Prior art keywords
word
character
character string
string
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1330616A
Other languages
English (en)
Inventor
Masami Oguro
雅己 小黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1330616A priority Critical patent/JPH03189890A/ja
Publication of JPH03189890A publication Critical patent/JPH03189890A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
〔産業上の利用分野] 本発明は、文字認識を高精度に行うため、曖昧性を持っ
た文字列から単語部を選択し、複合語を認識する複合語
認識方法に関する。
【従来の技術】
オンライン手書き文字認識を行う日本語入力装置等では
、伝票に一旦書き込んだデータをキーボードを使ってコ
ンピュータに入力する2度手間の作業をなくし、伝票に
記入すると同時にコンピュータに入力することができる
。一方、印刷文字を認識する装置としては、従来から使
用されている0CR(光学文字読取装置)があり、さら
に高精度に文字認識が行えるように、種々の提案がなさ
れている。 文字認識による誤認識を少しでも減少させるため、従来
より、文字認識の後処理として単語知識や文法知識を導
入する方法が多く提案されている。 例えば、特願昭61−248415号明細書および図面
に記載された文字認識方式では、入力文字列が単語単位
であることを条件として、単語辞書を予め備えておき、
文字認識誤りのある曖昧な文字列と単語辞書の間で高速
な照合を行っている。 さらに、日本語文章を対象とする文字認識の後処理では
、日本語の文法(特に、異品調量の接続に関する規則)
を利用して、単語候補の絞り込みを行うことにより、単
語選択の演算量を削減する方法がある。 〔発明が解決しようとする課題J 日本語文字列では、名詞を自由に接続して構成した複合
語が多く使用されている。複合語構成に関する規則は、
従来から用いられている文法的な規則と興なる規則が必
要となるが、複合語構成規則を作成することは極めて困
難である。 このため、従来の単語照合方式では、予め出現する可能
性のある文字列を辞書に登録しておく必要がある。しか
し自由に接続する複合語を登録することは、考えられる
名詞の組み合わせを全て網羅することになるため、記憶
容量がそれだけで膨大な量となり、認識処理のための応
用面に使用される記憶容量が限定されてしまう。このた
め、複合語文字列を構成される単語単位に辞書に登録し
、複数単語を前提とした照合が必要になる。 また、複数単語で構成される文章を対象とする文法利用
の方法では、前述のように、全ての複合語を網羅できる
文法規則を作成することは困難であり、このような規則
を用いた候補の絞り込みが行えないため、演算量が増大
する。 本発明の目的は、このような従来の課題を解決し、単語
選択のための演算量を削減して、高精度に文字認識を行
うことが可能な複合語照合方法を提供することにある。
【課題を解決するための手段] 上記目的を達成するため、本発明の複合語照合方法は、
先ず入力文字列から1文字に相当する矩形を切り出し、
文字矩形内の図形的な特徴から入力文字列を漢字文字部
分と非漢字文字部分に分けて、各部分の領域境界を設定
し、各部分毎に対応する文字辞書を用いて、文字矩形内
の文字を認識し、文字コードの組み合わせを登録した単
語辞書を用いて、任意の領域の先頭文字位置を開始位置
として、認識結果の文字候補群から単語候補を検索し、
単語候補中から最適な単語の組み合わせである最尤単語
文字列を選択し、最尤単語文字列の終端が領域の境界に
到達しないときには、最尤単語文字列に隣接する位置を
開始位置として単語候補の検索処理に戻り、境界に到達
したときには、上記領域内の処理を終了することに特徴
がある。 【作  用】 本発明においては、先ず入力された文字列から1文字相
当の範囲を切り出して、その範囲の図形的な特徴に応じ
て、文字列を漢字/非漢字部分に分類して、仮の単語境
界を設定する0次に、文字種別毎の文字辞書を使用して
文字を認識し、文字認識結果から単語候補を得る6次に
、単語文字列の文字数に対する文字候補と単語文字列と
の文字の一致数を評価尺度として、ある位置までの最適
な単語候補を選択する。この処理を、仮単語境界に至る
まで繰り返す。さらに、最適文字の選択において、任意
の位置を開始位置として得た単語候補とその位置までに
得られた最尤単語文字列とを接続した時の評価値と、最
尤以外の残りの単語文字列の評価値とを比較して、新た
に評価値が最大になる単語文字列を最尤単語文字列とし
て選択する。これにより、認識精度が向上するとともに
、精度の低下なしに高速な複合語文字列照合が行える。 【実施例J 以下、本発明の実施例を、図面により詳細に説明する。 第1図は、本発明の一実施例を示す複合語照合処理の機
能順序の図である。 第1図において% lは基本文字矩形の形状的な知識を
用いて矩形を統合するための規則を含み、入力文字列か
ら1文字に相当する矩形を検出する文字切り出し部、2
は切り出された文字矩形内の図形的な特徴から、文字矩
形を漢字文字矩形と非漢字文字矩形とに識別し、分類す
る領域識別部、3は矩形毎に、文字種に対応した文字辞
書を用いて認識を実行する文字認識部、4は単語辞書を
用いて、a#l結果である文字候補群から単語候補を出
力する単語照合部、5は単語候補の中から最適な単語の
組み合わせを検出する単語選択部である。 これらの各処理部1〜5は、いずれもプログラムモジュ
ールであって、個別ないし共有するプロセッサにより実
行されることにより各機能を実現する。 第2図は、第1図における各部1〜5の処理例を示す図
であって、各々1図の左上の数字は第1図の各処理部の
数字に対応している。この処理例では、不定ピッチ文字
列ffNTT研究所内」が入力されて、処理される状態
を示している。 先ず、文字切り出し部lでは、第2図のlで示すように
、入力文字列の黒画素の連続をトレースし、連続した黒
画素に外接する矩形を生成する。 ここでは、この矩形を基本矩形と呼ぶ。この基本矩形の
列から、1文字範囲を規定する形状的な統合規則を用い
て、任意の基本矩形組を統合し、1文字矩形を生成する
。 次に、領域識別部2では、第2図の2で示すように1文
字切り出し部1で得られた矩形毎に黒画素数、水平・垂
直ストローク成分の総数を抽出し、矩形の平均黒画素数
、平均水平・垂直ストローク成分総数と比較して、漢字
/非漢字領域を識別し。 漢字と非漢字の境界を決定する。ここでは、fNTTJ
Iと1研究所内jの間に境界があると検出されている例
を示している。 次に、文字認識部3では、第2図の3に示すように、文
字切り出し部1で得られた1文字矩形について、領域識
別で得られた結果に応じて、対応する文字辞書を用いて
文字認識を行う、このため、文字認識の結果は、複数の
文字コードと各々の得点である。すなわち、ここでは、
点数が高いほど確からしいとしている。第2図の3以下
は、非漢字と漢字とに分けて処理を行う、非漢字の認識
では、N、T、Tを凰000.1200,900の高得
点で認識している。また、漢字の認識では、研究所内を
それぞれ1000.1000.1300.1000の得
点で認識している。 次に、単語照合部4では、第2図の4で示すように、文
字認識部3で得られた文字コードと得点を用い、任意の
位置を先頭として出現する単語を登録した辞書の中から
誤認識を想定した曖昧な検索を実施し、単語候補を抽出
する。このとき、単語候補の尤度は、単語候補がどの程
度文字候補と一致しているかを規定する値(文字−政事
)で決定される。ここでは、非漢字では、NTT、MI
T。 NT、 漢字では、研究所、警察所、研究が抽出され、
最尤単語として、NTTと研究所が決定されている。 最後に、単語選択部5では、第2図の5で示すように、
先ず単語照合部4で得られた単語候補に、既に得られて
いる単語組の中で隣接する単語組を接続した時の文字列
において(ここでは、研究所と内、または研究と所内)
、文字候補の文字−政事および一致した文字候補の得点
の積算値を算出する(ここでは、4300と4000)
。そして、その文字列と、単語照合部4で得られた単語
候補と隣接しない残りの単語組とを比較して、文字−政
事が最大となる最尤単語文字列(ここでは、研究所)お
よび上位任意側(ここでは、2個で、研究所と研究)の
単語文字列を選択する。さらに、その最尤単語文字列の
文字数が領域に存在する文字矩形の数と一致しない場合
には、その最尤単語文字列の直後を次の検索開始位置と
して、単語照合部4から繰り返す(ここでは、例えば、
研究所、用のときには用を開始位置とする)。 第3図は、本発明の単語選択部で用いられる探索手法の
説明図である。 この探索手法は、単語組の候補とその文字−政事を複数
記憶しておき、いま得られた単語組の文字−政事とそれ
らを比較して、最適な候補を選択する手法である。この
比較は、単語照合部4で最尤候補が決定される度毎に行
われる。第3図では、矢印付きの実線が単語候補を表わ
し、括弧付きの数字が評価値を表わしている。ここでは
、候補として、評価値90の単語候補と、評価値100
の単語候補と、評価値70の単語候補が配列されている
。 例えば、第3図において、1回目に最尤候補である評価
値100の候補の直後を開始位置として2回目の検索を
行うが、2回目の選択では、検索結果と1回目の最尤候
補を繋げたときの評価値と、1回目の選択の時に使用し
た他の候補の評価値とを比較して、最尤候補を選択して
いる。すなわち、2回目では、評価値100の候補の直
後を開始位置として検索を行った結果、評価値75の単
語候補と、評価値70の単語候補の2通りの連結が行わ
れた。 しかし、これら2通のの評価値は他の単語候補に比べて
低いため、この時点での最尤候補である最上段の評価値
90の単語候補に対して、直後を開始位置として検索を
行うことになる。 このようにして、領域の終端にたどり着くまで。 単語照合部4と単語選択部5が繰り返し実行し、最後に
各領域で得られた単語組を組み合わせて出力結果とする
。 第2図を用いて複合語照合方法の処理、特に単語照合部
4と単語選択部5の処理を説明する。 先ず、文字切り出し部lでは、NTT研究所内の基本矩
形から、1文字範囲を規定する1文字矩形を生成した後
、領域識別部2では、漢字/非漢字領域を識別するとと
もに、それらの境界を決める(NTTと研究所内)、そ
して、文字認識部3では、辞書を用いて文字認識を行い
、その結果として複数の文字コードと各々の得点を得る
。ここでは、非漢字として、N (iooO)またはM
(900)、 T(1200)、 T (900)が得
られる。 次に、単語照合部4では、 ’NTT’の部分に対して
、’NTT’と’M I T’と’NT’とが候補とし
て得られている。単語選択部5により、最尤候補が“N
TT’ となり、同時に領域の終端に到達するために、
処理はこれで終了となり、次領域の″研究所内″の部分
に処理が移る。ここでは、先ず、単語照合部4により、
″研究所′と″警察所′と ゛研究° とが得られてい
る。これらの単語はいずれも領域の終端に到達していな
いために、次に′研究所′については′内′を開始位置
として、また゛研究ゝについては゛所′を開始位置とし
て、単語選択部5により、 “研究所内′が一致率10
0.積算値400と、 “研究所用′が一致率100.
積算値4000とを比較し、その結果として、1研究所
内1が選択されている。この候補は、領域の終端である
ため、これで処理は終了となる。 このように、本実施例においては、複合語文字列の認識
に対して、単語単位の辞書を用いて後処理ができるため
1文字認識結果を出力結果とする場合に比べると、認識
精度が向上する。さらに。 単語単位で辞書を作成できるので、複合語単位で辞書を
作成する場合に比べると、辞書のメモリ容量を削減する
ことができる。そして、単語の組み合わせが未知の場合
でも、各単語が登録されていれば、正確に認識すること
ができる。また、複合語における単語境界情報の欠除に
より、単語検索回数が増大することがあるが、文字種の
相違から仮単語境界を設定することにより、単語の検索
範囲を予め制限でき、またある位置で得られた単語候補
にその位置までで得られた最尤単語文字列を接続して得
られる文字列と、最尤以外の残りの単語文字列について
、新たに文字−政事が最大となる最尤単語文字列と上位
任意側の単語文字列を選択するので、候補の刈り込みが
できる。 (発明の効果J 以上説明したように、本発明によれば、複合語文字列の
認識に対して単語単位辞書を用いて後処理を行うので、
認識精度が従来に比べて向上するとともに、単語単位の
辞書でよいため、辞書のメモリ容量は少なくてすみ、さ
らに候補の刈り込みにより精度を落さずに高速に複合語
文字列照合を行うことが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示す複合語照合方法を行う
文字認識処理の機能ブロック図、第2図は第1図におけ
る各処理部の処理例を示す説明図、第3図は第1図にお
ける単語選択部で用いる探索方法の説明図である。 l:文字切り出し部、2:領域識別部、3:文字認識部
、4:単語照合部、5:単語選択部。 第 1 図 第 図(その2) 非漢字 ↓ 3〔文字認識(文字)文字得点)〕 4〔単語照合(単語1単語得点)〕 5〔単語選択(単語組1評価値1組得点)〕く領領域界
のため終了〉 第 図(その1) 1(文字切りだし〕 ↓ 2〔領域識別〕 第 図(その3) 漢字 ↓ 3〔文字認識(文字1文字得点)〕 ÷ 4〔単語照合(単語1単語得点)) 暑 5〔単語選択(単語組1評価値 組得点)〕 番 4〔単語照合(単語1単語得点)〕 条 5〔単語選択(単語組1評価値1組得点)〕く領領域界
のための終了〉

Claims (1)

    【特許請求の範囲】
  1. (1)複数単語から構成され、不定ピッチで入力される
    文字列を読み取る文字読み取り方法において、先ず上記
    入力文字列から1文字に相当する矩形を切り出し、該文
    字矩形内の図形的な特徴から該入力文字列を漢字文字部
    分と非漢字文字部分に分けて、各部分の領域境界を設定
    し、各部分毎に対応する文字辞書を用いて、上記文字矩
    形内の文字を認識し、文字コードの組み合わせを登録し
    た単語辞書を用いて、任意の領域の先頭文字位置を開始
    位置として、認識結果の文字候補群から単語候補を検索
    し、該単語候補中から最適な単語の組み合わせである最
    尤単語文字列を選択し、該最尤単語文字列の終端が領域
    の境界に到達しないときには、該最尤単語文字列に隣接
    する位置を開始位置として単語候補の検索処理に戻り、
    境界に到達したときには、上記領域内の処理を終了する
    ことを特徴とする複合語照合方法。
JP1330616A 1989-12-20 1989-12-20 複合語照合方法 Pending JPH03189890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1330616A JPH03189890A (ja) 1989-12-20 1989-12-20 複合語照合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1330616A JPH03189890A (ja) 1989-12-20 1989-12-20 複合語照合方法

Publications (1)

Publication Number Publication Date
JPH03189890A true JPH03189890A (ja) 1991-08-19

Family

ID=18234655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1330616A Pending JPH03189890A (ja) 1989-12-20 1989-12-20 複合語照合方法

Country Status (1)

Country Link
JP (1) JPH03189890A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH076212A (ja) * 1993-06-21 1995-01-10 Nec Corp 光学文字読取装置の知識処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH076212A (ja) * 1993-06-21 1995-01-10 Nec Corp 光学文字読取装置の知識処理装置

Similar Documents

Publication Publication Date Title
Yin et al. Scene text recognition with sliding convolutional character models
Amin Off-line Arabic character recognition: the state of the art
US5579408A (en) Character recognition method and apparatus
KR19980018029A (ko) 문자 인식 장치
Safarzadeh et al. Offline Persian handwriting recognition with CNN and RNN-CTC
Yamada et al. Cursive handwritten word recognition using multiple segmentation determined by contour analysis
Clausner et al. Icfhr 2018 competition on recognition of historical arabic scientific manuscripts–rasm2018
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
Giotis et al. Shape-based word spotting in handwritten document images
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Madhavaraj et al. Improved recognition of aged Kannada documents by effective segmentation of merged characters
JPH0610829B2 (ja) 手書き文字認識方法
JPH03189890A (ja) 複合語照合方法
JP3419251B2 (ja) 文字認識装置及び文字認識方法
JP2671985B2 (ja) 情報認識方法
CN112559324B (zh) 一种基于应用内视觉挖掘的软件测试用例生成方法
Lee et al. A Markov language model in Chinese text recognition
JP2671984B2 (ja) 情報認識装置
JPH0766423B2 (ja) 文字認識装置
KR100332752B1 (ko) 문자인식방법
Amin Recognition of printed Arabic text using machine learning
JPH03154985A (ja) 最尤度単語認識方式
KR900005141B1 (ko) 문자인식장치
Tung et al. 2-stage character recognition by detection and correction of erroneously-identified characters
JP2851865B2 (ja) 文字認識装置