JP5375577B2 - 字形要素判定装置及び字形要素判定方法 - Google Patents

字形要素判定装置及び字形要素判定方法 Download PDF

Info

Publication number
JP5375577B2
JP5375577B2 JP2009283959A JP2009283959A JP5375577B2 JP 5375577 B2 JP5375577 B2 JP 5375577B2 JP 2009283959 A JP2009283959 A JP 2009283959A JP 2009283959 A JP2009283959 A JP 2009283959A JP 5375577 B2 JP5375577 B2 JP 5375577B2
Authority
JP
Japan
Prior art keywords
radical
pattern
contour
character
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009283959A
Other languages
English (en)
Other versions
JP2011128687A (ja
Inventor
勇 大石
千織 村松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009283959A priority Critical patent/JP5375577B2/ja
Priority to CN 201010287886 priority patent/CN102096814B/zh
Publication of JP2011128687A publication Critical patent/JP2011128687A/ja
Application granted granted Critical
Publication of JP5375577B2 publication Critical patent/JP5375577B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Description

本発明は、字形要素判定装置及び字形要素判定方法に関する。
例えばJIS規格のように予め定められたフォントが用意される文字(漢字)以外に、例えば利用者がドットパターン(又はビットマップ)を作成した文字、いわゆる外字が存在する。外字は、例えば、人名や地名等に多く用いられる。
例えば、市町村合併においては、各市町村で異なる外字フォントが使用されていることが多い。このため、複数の外字を1つにまとめて、例えば、1つの常用漢字で代用することができるようにする必要がある。
そこで、外字について、文字パターンの形状が類似する文字の検索を行う必要がある。この場合、外字の部首に着目して、同じ部首の文字を調査する方法が一般的方法の一つである。
なお、手書き文字認識機能を持つ文字入力装置及び方法において、文字枠と当該文字枠を構成する所定数の分割領域とを表示し、筆記者が文字枠内に筆記した手書き文字を構成するストロークの座標系列を検出して入力し、入力された手書き文字の各ストロークの座標系列をもとに当該ストロークが文字枠内の分割領域をまたがっているか否かを判定し、またがっている場合には該当する分割領域を統合し、統合された分割領域に基づいて上記手書き文字を部首単位に切り出し、切り出された各部首に対して部首認識辞書を参照して認識処理を行い、部首認識処理の結果と文字構成辞書をもとに文字構成を行って手書き文字の認識結果を取得し出力することが提案されている。
特開平11−184971号公報
例えば外字について文字パターンの形状が類似する文字の検索を行う場合、外字の部首に着目して、コンピュータによる検索を行う。しかし、外字の部首それ自体は、利用者が入力する必要があり、作業に手間がかかる。また、例えば、市町村合併の規模が大きい場合には、外字が数千文字に達する場合がある。この場合、入力に要する利用者の負担が非常に大きい。また、活字OCR(光学的文字読取装置)を用いることにより類似する文字を検索する場合、活字OCRは、文字全体の形状が類似しているか否かを判断するのみであり、部首に基づいて文字(外字)を検索することはできない。
本発明は、文字の部首及び部首以外の構成部分を判定することができる字形要素判定装置を提供することを目的とする。
開示される字形要素判定装置は、輪郭パターン格納部と、定量データ生成部と、定量データ格納部と、部首配置パターン解析部と、変換部と、部首/部分ドットパターン格納部と、部首/部分認識部とを備える。輪郭パターン格納部は、判定対象の文字の輪郭を表す輪郭パターンを格納する。定量データ生成部は、輪郭パターン格納部に格納された輪郭パターンについて、輪郭パターンの座標に基づいて、輪郭パターンを囲む矩形の大きさと矩形の中心座標とを含む定量データを生成する。定量データ格納部は、輪郭パターンについて生成された定量データを格納する。部首配置パターン解析部は、定量データ格納部に格納された定量データに基づいて、判定対象の文字における部首及び部首以外の構成部分の配置パターンを決定し、配置パターンに基づいて、輪郭パターンを部首である輪郭パターンを含む第1のグループと部首以外の構成部分である輪郭パターンを含む第2のグループとに分ける。変換部は、輪郭パターン格納部に格納された第1のグループの輪郭パターンを第1のドットパターンに変換し、輪郭パターン格納部に格納された第2のグループの輪郭パターンを第2のドットパターンに変換する。部首/部分ドットパターン格納部は、第1のドットパターンと第2のドットパターンとを格納する。部首/部分認識部は、ドットパターン格納部に格納された第1のドットパターンについてのOCR認識に基づいて部首を判定し、ドットパターン格納部に格納された第2のドットパターンについてのOCR認識に基づいて部首以外の構成部分を判定する。
開示される字形要素判定装置によれば、判定対象の文字について、文字の字形要素、換言すれば、部首及び部首以外の構成部分を判定することができる。これにより、例えば数千字の外字が存在する場合でも、その字形要素を判定して、字形要素の辞書を効率的に生成することができ、文字の検索、同定作業を効率的に行うことができる。
開示される字形要素判定装置の構成を示す図である。 ドットパターン、輪郭パターン及び定量データの一例を示す図である。 部首/部分ドットパターン及び字形要素情報の一例を示す図である。 字形要素解析の一例を示す図である。 文字コードの一例を示す図である。 字形要素判定の処理フローを示す図である。 字形要素解析の処理フローを示す図である。 字形要素解析の処理フローを示す図である。 部首配置パターン判定の処理フローを示す図である。 部首配置パターン判定の処理フローを示す図である。 字形要素判定結果の一例を示す図である。 字形要素判定結果の一例を示す図である。 字形要素判定結果の一例を示す図である。 字形要素判定結果の一例を示す図である。
図1は、開示される字形要素判定装置1の構成を示す図である。
字形要素判定装置1は、入力された文字データについて、文字の字形要素の形状を判定(以下、字形要素判定と言う)する処理を行い、この判定の結果を字形要素情報として、字形要素DB(データベース)3へ格納する。入力された文字データは、例えば、外字ファイル2から入力された外字データである。文字の字形要素は、部首と、部首以外の構成部分である。字形とは、文字全体の形状、部首の形状、部首以外の構成部分の形状である。部首とは、へん、つくり、かんむり等である。部首以外の構成部分は、部首以外の文字の構成要素であり、文字から当該文字の部首を除いた部分である。字形要素情報は、1文字分の文字データに含まれる字形要素の各々について、当該字形要素を表す情報であり、後述するように、例えば、文字コード、配置コード等を含む情報である。
字形要素判定装置1は、外字ファイル2と字形要素DB3とを備える。外字ファイル2は、複数の外字についての外字データを格納する。外字データは、例えば当該外字をドットパターンで表したデータである。ドットパターンは、文字の表示領域におけるピクセル毎に白(=0)又は黒(=1)の値を与えることにより、黒のパターンにより当該文字を
表現したデータである。字形要素DB3は、1文字分の文字データに含まれる字形要素の各々についての字形要素情報を格納するデータベースである。
字形要素判定装置1は、ドットパターン生成部11、ドットパターン格納部12、字形要素解析部13、輪郭パターン格納部14、定量データ格納部15、部首解析辞書16、部首/部分ドットパターン格納部17、部首認識辞書18、部分認識辞書19を備える。字形要素解析部13は、さらに、輪郭抽出部131、定量データ生成部132、部首配置パターン解析部133、部首/部分ラスタライズ部134、部首/部分認識部135、字形要素格納部136を備える。
ドットパターン生成部11は、図2(A)に示すように、外字ファイル2から1文字分の外字データ21を読み込んで、読み込んだ1文字の外字データ21がドットパターンである場合、外字データ21をドットパターン121としてドットパターン格納部12に格納する。読み込んだ1文字の外字データがドットパターンでない場合、ドットパターン生成部11は、外字データ21をドットパターン121に変換してドットパターン121を生成してドットパターン格納部12に格納する。
ドットパターン格納部12は、1文字分の外字のドットパターン121を格納するメモリである。ドットパターン格納部12に格納されたドットパターン121、換言すれば、ドットパターン生成部11により読み込まれた1文字の外字データ21が判定対象の文字である。
輪郭抽出部131は、ドットパターン格納部12からドットパターン121を読み出して、読み出したドットパターン121についての輪郭パターンを抽出する。これにより、判定対象の文字の輪郭を表す輪郭パターンが抽出される。輪郭抽出部131は、抽出した輪郭パターンを、輪郭パターン141として輪郭パターン格納部14に格納する。
輪郭パターン格納部14は、判定対象の文字の輪郭を表す輪郭パターン141を格納する。図2(B)は、輪郭パターン141の一例を示す。
図2(B)に示すように、輪郭パターン141は、1個の輪郭毎に抽出され、1文字当たり、例えば複数抽出される。輪郭パターン141は、各々、輪郭番号、輪郭数、複数の輪郭の座標データを含む。輪郭番号は、輪郭抽出部131により輪郭パターン141毎に一意に定められる識別番号である。輪郭数は、輪郭抽出部131により抽出された輪郭の数である。輪郭の座標データは、所定の座標内の輪郭の座標データである。
輪郭の座標データは、例えば、ドットパターン121において、値が「1」から「0」に変化する直前の値「1」であるピクセル即ちドット(エッジ)を検出し、当該検出した点であって連続する点の集合を1つの輪郭とすることにより抽出される。換言すれば、輪郭は、エッジの連続しているものである。従って、1つの判定対象の文字(外字)について、2つ以上の輪郭の座標データが抽出される。抽出された複数の輪郭の座標データの数が輪郭数であり、抽出された複数の輪郭の座標データの各々に輪郭番号が付与される。
例えば、図4(A)において、文字「字」の輪郭が2つであるので、輪郭数は「2」である。また、2つの輪郭の各々に輪郭番号が付与される。図4(B)に示すように、例えば、矩形#1に対応する輪郭(「ウカンムリ」の部分)に輪郭番号=1が付与され、矩形#2に対応する輪郭(「子」の部分)に輪郭番号=2が付与される。なお、矩形#1に対応する輪郭(「ウカンムリ」の部分)が部首であり、矩形#2に対応する輪郭(「子」の部分)が部首以外の構成部分である。
輪郭番号=1の輪郭について、輪郭番号、輪郭数、矩形#1に対応する輪郭(「ウカンムリ」の部分)の座標データが、文字「字」についての第1の輪郭パターン141として格納される。輪郭番号=2の輪郭について、輪郭番号、輪郭数、矩形#2に対応する輪郭(「子」の部分)の座標データが、文字「字」についての第2の輪郭パターン141として格納される。
定量データ生成部132は、輪郭パターン格納部14に格納された輪郭パターン141について、輪郭パターン141の輪郭の座標データに基づいて、輪郭パターン141を囲む矩形を求め、更に、矩形の大きさと、矩形の中心座標とを求める。これにより、定量データ生成部132は、矩形の大きさと矩形の中心座標とを含む定量データを生成する。定量データ生成部132は、生成した定量データを、定量データ151として、定量データ格納部15に格納する。
定量データ格納部15は、輪郭パターン141について生成された定量データ151を格納する。換言すれば、1個の輪郭パターン141につき1個の定量データ151が生成される。図2(C)は、定量データ151の一例を示す。
図2(C)に示すように、定量データ151は、輪郭番号、輪郭を囲む矩形座標、矩形の中心座標、矩形の大きさ(面積)、部首フラグ、親輪郭番号を含む。部首フラグは配置コードを含む場合がある。輪郭番号INTは、対応する矩形の輪郭パターン141の輪郭番号である。輪郭を囲む矩形座標RECTは、矩形の対角線上の2点の矩形の座標データである。矩形の中心座標POINTは、矩形の中心を示す座標データである。矩形の大きさ(面積)INT2は、矩形の座標データに基づいて定められる面積である。矩形の大きさは、後述するように、1(面積が最も小さい値)〜9(面積が最も大きい値)のように相対的な値とされる。部首フラグBOOLは、対応する輪郭番号の輪郭パターン141が部首であると判定された場合にON(又は「1」)とされ、部首でない場合にOFF(又は「0」)とされる。配置コードは、部首の配置パターンを一意に定めるコードであり、部首フラグBOOLがONの場合に格納され、OFFの場合に格納されない。親輪郭番号INT3は、詳しくは後述するが、他の輪郭に包含される小さい輪郭について、これを包含する大きな輪郭の輪郭番号が、小さい輪郭の上位の輪郭番号、換言すれば、親輪郭番号として付与されるものである。
矩形座標RECTは、以下のようにして求められる。輪郭パターン141の輪郭の座標データは、図4(B)に示すように、原点OからのX座標及びY座標により定まるとする。この場合、輪郭パターン141の輪郭の座標データから、X座標の最大値X1、X座標の最小値X2、Y座標の最大値Y1、Y座標の最小値Y2が抽出される。これにより、座標(X1,Y1)、座標(X1,Y2)、座標(X2,Y1)、座標(X2,Y2)を頂点とする矩形が求まる。
矩形の中心座標POINTは、例えば、矩形の対角線の交点の座標として求まる。矩形の大きさは、4つの頂点を用いることにより求まる。
部首フラグBOOL、配置コード及び親輪郭番号INT3は、部首配置パターン解析部133により求められる。従って、定量データ生成部132により定量データ格納部15に格納された時点の定量データ151においては、部首フラグBOOL、配置コード及び親輪郭番号INT3は「空」とされる。
部首配置パターン解析部133は、部首の配置パターン、換言すれば、「へん」「つくり」等の部首の種類を判定する。このために、部首配置パターン解析部133は、定量データ格納部15に格納された定量データ151と、部首解析辞書16とを用いる。部首配置パターン解析部133は、判定対象の字形(輪郭パターン141)について、部首であると判定した場合、部首の配置パターンを求め、定量データ151の部首フラグをONとする。一方、部首配置パターン解析部133は、部首でないと判定した場合、定量データ151の部首フラグをOFFとする。
部首の配置パターンは、当該配置パターンを一意に定める配置コードにより表される。従って、配置パターンを求めることは、配置パターンの配置コードを決定することである。決定された配置コードは、定量データ151の配置コードに格納される。部首でないと判定された輪郭パターンについては、定量データ151の配置コードは格納されない。配置コードは、例えば、「部首なし」が「0」、「へん」が「1」、「つくり」が「2」、「かんむり」が「3」、「あし」が「4」、「たれ」が「5」、「にょう」が「6」、「かまえ」が「7」とされる。
具体的には、部首配置パターン解析部133は、定量データ格納部15に格納された定量データ151に基づいて、判定対象の文字における部首及び部首以外の構成部分の配置パターンを決定する。そして、部首配置パターン解析部133は、決定した配置パターンに基づいて、輪郭パターン141を部首である輪郭パターン141を含む部首のグループ(第1のグループ)と、部首以外の構成部分である輪郭パターン141を含む部首以外の構成部分のグループ(第2のグループ)とに分ける。
このために、部首配置パターン解析部133は、部首解析辞書16を備える。部首解析辞書16は、部首毎の定量データ151を格納する。部首配置パターン解析部133は、定量データ格納部15に格納された定量データ151に基づいて部首解析辞書16を参照することにより、判定対象の文字における部首の配置パターンを決定する。そして、部首配置パターン解析部133は、決定した配置パターンに基づいて、判定対象の文字における部首である輪郭パターン141を決定する。
部首配置パターン解析部133は、定量データ151に基づいて部首解析辞書16を参照するために、配列及び配列構造体を用いる。配列としては、図4(B)の右側に示すように、文字表示領域を縦及び横に3等分した2次元配列を、1個以上重ねた3次元配列が用いられる。配列構造体は、配列において、矩形の中心座標に対応する分割領域に、当該矩形の中心座標及び矩形の大きさを格納したものである。2次元配列を重ねるとは、換言すれば、2次元配列において、1つの分割領域に、複数の矩形の中心座標及び矩形の大きさを格納することを許容することである。
1個の文字について、1個の3次元配列構造体が生成される。3次元配列構造体は、2次元配列において矩形の中心座標に対応する分割領域に当該矩形の中心座標及び矩形の大きさを格納した2次元配列構造体を、1個以上重ねたものである。また、1個の文字についての定量データ格納部15は、実際には、輪郭毎に生成された複数の定量データ151と、1個の3次元配列構造体とを含む。
図4(B)に示すように、配列は、9個の分割領域a〜iを含む。文字表示領域を縦及び横に3等分することにより、上段a〜c、中段d〜f、下段g〜i、左段a、d及びg、中段b、e及びh、右段c、f及びiにおいて、各々、中央を定めることができる。これにより、部首の配置パターンを、正確に決定することができる。分割領域bは上段中心にあり、分割領域dは左段中心にあり、分割領域eは全体即ち各段の中心にあり、分割領域fは右段中心にあり、分割領域hは下段中心にある。
部首配置パターン解析部133は、輪郭パターン141の矩形の中心座標を、配列において、当該矩形の中心座標に対応する領域に対応付けて、輪郭パターン141の矩形の中心座標の位置の関係を抽出することにより、部首及び部首以外の構成部分の配置パターンを決定する。また、部首配置パターン解析部133は、輪郭パターン141の矩形を、文字表示領域を複数の分割領域に分割した配列に重ねて、輪郭パターン141の矩形の位置及び大きさの関係を抽出することにより、部首及び部首以外の構成部分の配置パターンを決定する。
例えば、図4(B)に斜線で示すように、文字「字」について、「ウ」の部分(ウカンムリ)の輪郭パターン141の矩形#1が、配列に重ねられる。また、図4(B)に荒い網掛けで示すように、文字「字」について、「子」の部分の輪郭パターン141の矩形#2が、配列に重ねられる。「ウ」の部分の輪郭パターン141の矩形と、「子」の部分の輪郭パターン141の矩形とは、相互に重なる。
「ウ」の部分の輪郭パターン141の矩形#1の中心座標#1は、分割領域bに対応する位置に存在する。従って、配列の分割領域bに、中心座標#1及びその面積(例えば「3」)が格納される。「子」の部分の輪郭パターン141の矩形#2の中心座標#2は、分割領域fに対応する位置に存在する。従って、配列の分割領域fに、中心座標#2及びその面積(例えば「6」)が格納される。
矩形の面積は、例えば、矩形の座標データに基づいて求めた面積を、配列における1個の分割領域の面積で割った値を四捨五入することにより求められる。これにより、矩形の大きさは、1(面積が最も小さい値)〜9(面積が最も大きい値)のように相対的な値とされる。
以上により、判定対象の文字の配置パターンが、配列上に配列構造体として生成される。部首配置パターン解析部133は、判定対象の文字の配列構造体を、部首解析辞書16と照合することにより、判定対象の文字について、「へん」「つくり」等の部首の配置パターンを決定する。従って、部首解析辞書16は、配列構造体について解析するために用いられる辞書であり、当該解析処理を定める。部首解析辞書16及び配置パターンの決定処理については、図9〜図14を参照して後述する。
部首/部分ラスタライズ部134は、輪郭のラスタライズ(再度のドットパターン化)を行う変換部である。部首/部分ラスタライズ部134は、輪郭パターン141と定量データ151とに基づいて、部首又は部首以外の構成部分のドットパターン化(ラスタライズ)を行い、ドットパターン171を生成する。
例えば、部首/部分ラスタライズ部134は、輪郭パターン格納部14に格納された輪郭パターン141について、定量データ格納部15に格納された同一の輪郭番号の定量データ151を参照する。定量データ151において、部首フラグBOOLが「1」である場合、当該輪郭パターン141は、部首の輪郭パターン、換言すれば、部首のグループの輪郭パターン141である。この場合、部首/部分ラスタライズ部134は、輪郭パターン格納部14に格納された(部首のグループの)輪郭パターン141を第1のドットパターンに変換する。第1のドットパターンは、部首のドットパターンである。
一方、定量データ151において、部首フラグBOOLが「0」である場合、当該輪郭パターン141は、部首以外の構成部分の輪郭パターン、換言すれば、部首以外の構成部分のグループの輪郭パターン141である。この場合、部首/部分ラスタライズ部134は、輪郭パターン格納部14に格納された(部首以外の構成部分のグループの)輪郭パターン141を第2のドットパターンに変換する。第2のドットパターンは、部首以外の構成部分のドットパターンである。
第1のドットパターンと第2のドットパターンとは、部首/部分ドットパターン格納部17に格納される。図3(A)は、ドットパターン171の一例を示す。
図3(A)に示すように、複数のドットパターン171は、各々、輪郭番号、部首フラグ、配置コード、ビットパターンを含む。輪郭番号は、輪郭パターン141の輪郭番号である。部首フラグは、部首配置パターン解析部133により決定された、定量データ151における部首フラグBOOLである。配置コードは、部首配置パターン解析部133により決定された、定量データ151における、配置パターンを示す配置コードである。ビットパターンは、部首/部分ラスタライズ部134によりドットパターン化されたデータである。
部首/部分認識部135は、部首/部分ドットパターン格納部17に格納された第1のドットパターン171についてのOCR認識に基づいて、部首を判定する。また、部首/部分認識部135は、部首/部分ドットパターン格納部17に格納された第2のドットパターン171についてのOCR認識に基づいて、部首以外の構成部分を判定する。
このために、部首/部分認識部135は、部首認識辞書18と、部分認識辞書19とを備える。部首認識辞書18は、部首毎のドットパターンを格納する。部分認識辞書19は、部首以外の構成部分毎のドットパターンを格納する。
部首/部分認識部135は、第1のドットパターンについてのOCR認識に基づいて部首認識辞書18を参照することにより、部首を判定する。例えば、第1のドットパターンについてのOCR認識の結果と、部首認識辞書18に格納されたある部首のドットパターンとを比較して、所定の値以上の一致率である場合に、第1のドットパターンは当該部首であると判定する。この判定結果に基づいて、部首/部分認識部135は、当該部首に対応する部首文字コードを、部首認識辞書18から得て、字形要素格納部136に格納する。
部首/部分認識部135は、第2のドットパターンについてのOCR認識に基づいて部分認識辞書19を参照することにより、部首以外の構成部分を判定する。例えば、第2のドットパターンについてのOCR認識の結果と、部分認識辞書19に格納されたある部首以外の構成部分のドットパターンとを比較して、所定の値以上の一致率である場合に、第2のドットパターンは当該部首以外の構成部分であると判定する。この判定結果に基づいて、部首/部分認識部135は、当該部首に対応する部分文字コードを、部分認識辞書19から得て、字形要素格納部136に格納する。
例えば、図5(A)に示すように、文字「字」において、部首「ウカンムリ」の部分に着目すると、部首「ウカンムリ」の部分の輪郭パターン141を含む矩形91(矩形#1)についてラスタライズすることにより、ドットパターン171を含む矩形92が生成される。矩形92についてOCR認識することにより、部首「ウカンムリ」の部首文字コードが得られる。
また、図5(B)に示すように、文字「字」において、部首以外の部分「子」の部分に着目すると、部首以外の部分「子」の部分の輪郭パターン141を含む矩形93(矩形#2)についてラスタライズすることにより、ドットパターン171を含む矩形94が生成される。矩形94についてOCR認識することにより、部首以外の部分「子」の部分文字コードが得られる。
以上により、部首/部分認識部135は、字形要素格納部136に字形要素情報を得る。部首/部分認識部135(又は、字形要素解析部13)は、これを字形要素DB3に出力する。図3(B)は、字形要素情報31の一例を示す。
図3(B)に示すように、字形要素情報31は、文字コードWCHAR、配置コードINT4、部首文字コードWCHAR2、部分文字コードWCHAR3を含む。文字コードWCHARは、文字(外字)毎に一意に定まる識別情報である。配置コードINT4は、「へん」「つくり」等の部首の配置(部首の種類)毎に一意に定まる識別情報であり、ドットパターン171に格納された配置コードである。部首文字コードWCHAR2は、「ニンベン」「サンズイ」等の部首毎に一意に定まる識別情報である。部分文字コードWCHAR3は、部首以外の構成部分毎に一意に定まる識別情報である。
図6は、字形要素判定の処理フローを示す図である。
字形要素判定装置1のドットパターン生成部11が、外字ファイル2から1文字分の外字データを読み込む(ステップS1)。ドットパターン生成部11は、読み込んだ1文字分の外字データがドットパターン121でない場合、読み込んだ1文字分の外字データをドットパターン121に変換する(ステップS2)。この後、ドットパターン生成部11は、読み込んだ1文字分の外字のドットパターン121又は変換したドットパターン121をドットパターン格納部12に格納する。
次に、字形要素解析部13は、ドットパターン格納部12に格納された外字のドットパターン121に基づいて、字形要素解析の処理を行う(ステップS3)。字形要素解析処理については、図7及び図8を参照して後述する。
1文字分の外字データの字形要素解析処理の後、字形要素解析部13は、字形要素判定結果として、当該1文字分の字形要素情報を、字形要素DB3に出力する(ステップS4)。
この後、ドットパターン生成部11は、外字ファイル2に格納された全ての外字データを処理したか否かを判定し、処理されていない文字があると判断した場合(ステップS5 No)、ステップS1を実行する。一方、外字ファイル2から入力されたデータの全ての文字が処理されたと判断した場合(ステップS5 Yes)、ドットパターン生成部11は、処理を終了する。
図7及び図8は、字形要素解析の処理フローを示す図である。
字形要素解析部13の輪郭抽出部131は、ドットパターン格納部12に格納された外字のドットパターン121について、輪郭抽出処理を行う(ステップS11)。換言すれば、輪郭抽出部131は、抽出した輪郭に基づいて輪郭パターン141を生成し、生成した輪郭パターン141を輪郭パターン格納部14に格納する。
この後、輪郭抽出部131は、ドットパターン格納部12に格納された外字のドットパターン121の全ての輪郭を処理したか否かを判定する(ステップS12)。
全ての輪郭を処理していないと判断した場合(ステップS12 No)、定量データ生成部132は、輪郭パターン格納部14に格納された輪郭パターン141に基づいて、輪郭の矩形(矩形を囲う輪郭)を求める(ステップS13)。また、定量データ生成部132は、求めた輪郭の矩形に基づいて、その輪郭の矩形の中心座標を求める(ステップS14)。更に、定量データ生成部132は、矩形の大きさ(面積)も求めて、輪郭の矩形の中心座標、矩形の面積を含む定量データ151を生成する。
この後、定量データ生成部132は、求めた矩形の中心座標、矩形の大きさを、例えば縦3×横3×奥行きを要素とする3次元配列において、求めた矩形の中心座標が存在する位置(の構造体)に、当該矩形の中心座標、矩形の大きさを格納して3次元配列構造体を生成し(ステップS15)、この後、ステップS12を実行する。
一方、ステップS12において全ての輪郭を処理したと判断した場合(ステップS12 Yes)、部首配置パターン解析部133は、定量データ格納部15に格納された定量データ151及び部首解析辞書16に基づいて、部首配置パターンの判定処理を行う(ステップS16)。この後、部首配置パターン解析部133は、部首配置パターンの判定処理の結果を定量データ格納部15に格納する。
例えば、部首配置パターン解析部133は、判定対象の輪郭パターン141が部首であると判定した場合、配置パターンの配置コードを求め、部首フラグをONとする。一方、判定対象の輪郭パターン141が部首でないと判定した場合、部首配置パターン解析部133は、部首フラグをOFFとする。部首フラグは、定量データ格納部15の定量データ151の部首フラグに設定される。求めた配置パターンの配置コードは、定量データ格納部15の定量データ151の配置コードに設定される。部首配置パターンの判定処理については、図9及び図10を参照して後述する。
この後、部首/部分ラスタライズ部134は、定量データ151の部首フラグがONである輪郭パターン141に含まれる輪郭のラスタライズ(ドットパターン化)を行い(ステップS17)、部首のドットパターン171を部首/部分ドットパターン格納部17に格納する。この後、部首/部分認識部135は、部首/部分ドットパターン格納部17に格納された部首フラグがONであるドットパターン171について、部首認識辞書18に基づいて、部首の認識を行う(ステップS18)。部首/部分認識部135は、部首の認識結果をメモリへ格納する(ステップS19)。
次に、部首/部分認識部135は、部首フラグがOFFである(部首以外の構成部分である)輪郭パターン141に含まれる輪郭のラスタライズを行い(ステップS110)、部首以外の構成部分のドットパターン171を部首/部分ドットパターン格納部17に格納する。この後、部首/部分認識部135は、部首/部分ドットパターン格納部17に格納された部首フラグがOFFであるドットパターン171について、部分認識辞書19に基づいて、部首以外の構成部分の認識を行う(ステップS111)。部首/部分認識部135は、部首以外の構成部分の認識結果をメモリへ格納する(ステップS112)。
ここで、認識結果が「へん」と「つくり」である場合には部首と部首以外の構成部分とが逆である可能性がある。そこで、部首/部分認識部135は、メモリにある認識結果を読み出し、認識結果が「へん」と「つくり」である場合に、部首と部首以外の構成部分とが逆であるか否かを判定する。具体的には、部首/部分認識部135は、認識結果の文字コードが部首文字コードである方を部首であるとし、他方を部首以外の構成部分であるとする(ステップS113)。
この後、部首/部分認識部135は、配置パターン、部首及び部首以外の構成部分の認識結果を含む字形要素情報31を字形要素格納部136に格納する(ステップS114)。この後、字形要素解析部13が、字形要素格納部136に格納された字形要素情報31を、字形要素DB3に格納して、処理を終了する。
図9及び図10は、部首配置パターン判定の処理フローを示す図である。
前述したように、部首解析辞書16は、配列構造体について解析するために用いられる辞書であり、当該解析処理を定めるものである。従って、以下のステップS21〜S213が、部首解析の処理であり、部首解析辞書16の内容であると考えてよい。
部首配置パターン解析部133は、輪郭パターン格納部14に格納された輪郭パターン141と、これに対応する(同一の輪郭番号の)定量データ格納部15に格納された定量データ151を読み出して、読み出した輪郭パターン141に基づいて、輪郭パターン141が1つであるか(部首なしか)否かを判定する(ステップS21)。
輪郭パターン141が1つでない(2つ以上である)と判定した場合(ステップS21 No)、部首配置パターン解析部133は、輪郭パターン141の中から所定の面積以下の小さい輪郭の輪郭パターン141が存在し、かつ、その小さい輪郭を包含するより大きな輪郭が存在する場合、これらを1つの輪郭グループとする(ステップS22)。
ここで、所定の面積は、例えば「1」とされる。小さい輪郭を包含する大きな輪郭の輪郭パターン141の面積は、小さい輪郭の面積と大きな輪郭の面積との合計とされる。小さい輪郭を包含する大きな輪郭の輪郭パターン141の位置は、当該大きな輪郭の輪郭パターン141の対応する分割領域とされる。更に、部首配置パターン解析部133は、大きい輪郭の輪郭パターン141の輪郭番号を、これに包含される小さい輪郭の輪郭パターン141に対応する定量データ151において、親輪郭番号として設定する。
次に、部首配置パターン解析部133は、輪郭パターン141の輪郭数が2つか3つ以上か否かを判定する(ステップS23)。
輪郭数が3つ以上である場合、部首配置パターン解析部133は、定量データ151の矩形の大きさに基づいて、矩形の中で一番面積の大きいものが上下左右のいずれかの中心(分割領域b、d、e、f、h)にあるか否かを判定する(ステップS24)。
矩形の中で一番面積の大きいものが分割領域の上下左右のいずれかの中心にあると判定した場合(ステップS24 Yes)、部首配置パターン解析部133は、一番面積の大きい矩形がいずれかの段の中心、例えば上段中心(分割領域b)にあり、かつ、他の全ての矩形が一番面積の大きい矩形より下の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が一番面積の大きい矩形より下の位置にある場合、部首配置パターン解析部133は、一番面積の大きい矩形を部首「かんむり」と判定し(ステップS25)、ステップS210を実行する。
これ以外の場合、換言すれば、一番面積の大きい矩形が上段中心にないか、又は、他の矩形のいずれかが一番面積の大きい矩形より下の位置にないと判定した場合、部首配置パターン解析部133は、一番面積の大きい矩形がいずれかの段の中心、例えば下段中心(分割領域h)にあり、かつ、他の全ての矩形が一番面積の大きい矩形より上の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が一番面積の大きい矩形より上の位置にある場合、部首配置パターン解析部133は、一番面積の大きい矩形を部首「あし」と判定し(ステップS26)、ステップS210を実行する。
これ以外の場合、換言すれば、一番面積の大きい矩形が下段中心にないか、又は、他の矩形のいずれかが一番面積の大きい矩形より上の位置にないと判定した場合、部首配置パターン解析部133は、一番面積の大きい矩形がいずれかの段の中心、例えば左段中心(分割領域d)にあり、かつ、他の全ての矩形が一番面積の大きい矩形より右の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が右の位置にある場合、部首配置パターン解析部133は、一番面積の大きい矩形を部首「へん」と判定し(ステップS27)、ステップS210を実行する。
これ以外の場合、換言すれば、一番面積の大きい矩形が左段中心にないか、又は、他の矩形のいずれかが右の位置にないと判定した場合、部首配置パターン解析部133は、一番面積の大きい矩形がいずれかの段の中心、例えば右段中心(分割領域f)にあり、かつ、他の全ての矩形が一番面積の大きい矩形より左の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が左の位置にある場合、部首配置パターン解析部133は、一番面積の大きい矩形を部首「つくり」と判定し(ステップS28)、ステップS210を実行する。
これ以外の場合、換言すれば、一番面積の大きい矩形が右段中心にないか、又は、他の矩形のいずれかが左の位置にないと判定した場合、部首配置パターン解析部133は、部首の判定が困難なケースであり、「部首なし」と判定する(ステップS29)。
この後、部首配置パターン解析部133は、定量データ151において、配置コードを設定し、3次元配列構造体の各輪郭データの部首フラグのON/(又は)OFFを設定する(ステップS210)。換言すれば、部首配置パターン解析部133は、定量データ151を生成して定量データ格納部15に格納して、処理を終了する。
ステップS23において、輪郭数が2つである場合、部首配置パターン解析部133は、2つの矩形の中心座標の位置関係が左右の位置関係にあるか否かを判定する。2つの矩形の中心座標の位置関係が左右の位置関係にある場合、部首配置パターン解析部133は、矩形の面積の小さい方を部首「へん」又は「つくり」と判定し(ステップS211)、ステップS210を実行する。この時、矩形の面積の小さい方が左に存在する場合には、当該矩形の面積の小さい方は、部首「へん」とされる。矩形の面積の小さい方が右に存在する場合には、当該矩形の面積の小さい方は、部首「つくり」とされる。
2つの矩形の中心座標の位置関係が左右の位置関係にないと判定した場合、部首配置パターン解析部133は、2つの矩形の中心座標の位置関係が上下の位置関係にあるか否かを判定する。2つの矩形の中心座標の位置関係が上下の位置関係にある場合、部首配置パターン解析部133は、矩形の面積の小さい方を部首「かんむり」又は「あし」と判定し(ステップS212)、ステップS210を実行する。この時、矩形の面積の小さい方が上に存在する場合には、当該矩形の面積の小さい方は、部首「かんむり」とされる。矩形の面積の小さい方が下に存在する場合には、当該矩形の面積の小さい方は、部首「あし」とされる。
2つの矩形の中心座標の位置関係が左右の位置関係にないと判定した場合、部首配置パターン解析部133は、2つの矩形の中心座標の位置関係が共に同じ中心にあるか否かを判定する。2つの矩形の中心座標の位置関係が共に同じ中心にある場合、部首配置パターン解析部133は、矩形の面積の大きい方を部首「たれ」又は「かまえ」と判定し(ステップS213)、ステップS210を実行する。この時、部首「たれ」と部首「かまえ」とは、同一の条件であるので、ステップS213によっては判定することはできない。従って、判定結果は、部首「たれ」又は部首「かまえ」とされる。
2つの矩形の中心座標の位置関係が共に同じ中心にないと判定した場合、部首配置パターン解析部133は、ステップS29を実行する。
図11〜図14は、部首解析辞書16を用いた字形要素解析の一例を示す図である。
例えば、図11(A)において、文字「休」について、文字「休」自体をグレー(網掛け)のパターンで表し、2つの輪郭の各々の輪郭パターンを囲む矩形を実線で表し、矩形の中心座標を黒丸で表す。更に、このように文字に矩形と黒丸とを重ねたものに並べて、2つの輪郭を有し「へん」と「つくり」とによって構成される字形要素、例えば文字「休」について生成された3次元配列構造体(以下、配列構造体)を表す。また、太線で示す矩形は、これが字形要素である「部首」を決定する要因となっていることを示す。
なお、配列構造体に現れる「3」「6」等の数字は、当該分割領域に矩形の中心座標が割り当てられていること、及び、当該割り当てられた中心座標を持つ矩形の大きさ(面積)を表す。例えば、数字「3」は、図4(B)に示す分割領域dに大きさが「3」の矩形が割り当てられていることを示す。また、配列構造体において、網掛けで表された分割領域及び当該分割領域の数字は、これらが字形要素である「部首」を決定する要因となっていることを示す。例えば、図11(A)において、分割領域dに大きさが「3」の「部首」である矩形が存在することを示す。
以上のように、図11(A)において、文字「休」について、文字に矩形と黒丸とを重ねたものは、輪郭パターン格納部14に格納された輪郭パターン141と、定量データ格納部15に格納された定量データ151とを合わせて、視覚的に表したものである。また、配列構造体は、文字に矩形と黒丸とを重ねたものに対応する、文字「休」についての配列構造体である。以上は、他の例においても同様である。
図11(A)に示す文字「休」については、輪郭数が2つであり(ステップS23)、2つの輪郭が左右の位置関係にあり、面積が「6」である他方の輪郭よりも小さい、面積が「3」である輪郭が左にあるので、当該左にある輪郭が部首「へん」とされる(ステップS211)。
図11(B)に示す文字「海」については、「シ」の部分(サンズイ)の輪郭に図2(C)に示す同一の親輪郭番号INT3が付与されることにより、実際は複数の輪郭であるが、面積が「5」である1つの輪郭として処理される結果(ステップS22)、輪郭数が3つであり(ステップS23)、面積が「5」で一番大きい輪郭が左段中段にあるので、当該面積が「5」である輪郭が部首「へん」とされる(ステップS27)。
なお、分割領域aにおいて、2つの数字「1」が格納されている。これは、前述したように、配列構造体は3次元であるので、1つの分割領域に、複数の矩形の中心座標及び矩形の大きさを格納することが許容されるためである。
図11(C)に示す文字「歌」については、2つの「可」の部分の輪郭に図2(C)に示す同一の親輪郭番号INT3を付与されることにより、実際は複数の輪郭であるが、1つの輪郭として処理される結果(ステップS22)、輪郭数が3つであり(ステップS23)、面積が「6」で一番大きい輪郭が部首「つくり」とされる(ステップS28)。
図11(D)に示す文字「動」については、輪郭数が2つであり(ステップS23)、2つの輪郭が左右の位置関係にあり、面積が「4」でより小さい方の輪郭が右にあるので、当該面積の小さい方の輪郭が部首「つくり」とされる(ステップS211)。
図12(A)に示す文字「字」については、輪郭数が2つであり(ステップS23)、2つの輪郭が上下の位置関係にあり、面積が「4」でより小さい方の輪郭が上にあるので、面積の小さい方の輪郭が部首「かんむり」とされる(ステップS211)。
図12(B)に示す文字「草」については、輪郭数が2つであり(ステップS23)、2つの輪郭が上下の位置関係にあり、面積が「3」でより小さい方の輪郭が上にあるので、面積の小さい方の輪郭が部首「かんむり」とされる(ステップS211)。
図12(C)に示す文字「恭」については、部首「あし」とされる輪郭に図2(C)に示す同一の親輪郭番号INT3を付与されることにより、実際は複数の輪郭であるが、1つの輪郭として処理される結果(ステップS22)、輪郭数が2つであり(ステップS23)、2つの輪郭が上下の位置関係にあり、面積が「4」でより小さい方の輪郭が下にあるので、面積の小さい方の輪郭が部首「あし」とされる(ステップS212)。
図12(D)に示す文字「点」については、部首「あし」とされる輪郭に図2(C)に示す同一の親輪郭番号INT3を付与されることにより、実際は複数の輪郭であるが、1つの輪郭として処理される結果(ステップS22)、輪郭数が2つであり(ステップS23)、2つの輪郭が上下の位置関係にあり、面積が「4」でより小さい方の輪郭が下にあるので、面積の小さい方の輪郭が部首「あし」とされる(ステップS212)。
図13(A)に示す文字「疾」については、輪郭数が2つであり(ステップS23)、2つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる(ステップS213)。
なお、文字「疾」は、本来「たれ」として判定される必要のある例であるが、この例では、部首「たれ」と部首「かまえ」とを区別することはできない。しかし、これは事前に判っていることであるので、部首「たれ」又は「かまえ」に分類された文字の中で、部首/部分認識部135によるOCR認識処理の結果に基づいて、部首「たれ」であるのか部首「かまえ」であるのか否かを判定すれば良い。以上は、図13(B)についても同様である。
図13(B)に示す文字「広」については、輪郭数が2つであり(ステップS23)、2つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる(ステップS213)。
図13(C)に示す文字「道」については、輪郭数が3つ以上で(ステップS23)、面積の大きい方の輪郭が中心にあり(ステップS24)、他の輪郭の位置関係が全て右、又は、左の位置関係にないので(ステップS25〜S28)、部首の判定が困難なケースとされ、「部首なし」とされる(ステップS29)。
なお、文字「道」は、本来「にょう」として判定される必要のある例であるが、この例では、「部首なし」とされる。従って、「部首なし」は、本来の「部首なし」の他に、「にょう」として判定される必要のある文字を含む場合がある。しかし、これは事前に判っていることであるので、「部首なし」に分類された文字から、部首/部分認識部135によるOCR認識処理の結果に基づいて、「にょう」として判定される必要のある文字を除けば良い。
図13(D)に示す文字「医」については、輪郭数が2つであり(ステップS23)、2つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる(ステップS213)。
なお、文字「医」は、本来「かまえ」として判定される必要のある例であるが、この例では、部首「たれ」と部首「かまえ」とを区別することはできない。しかし、これは事前に判っていることであるので、部首「たれ」又は「かまえ」に分類された文字の中で、部首/部分認識部135によるOCR認識処理の結果に基づいて、部首「かまえ」であるのか部首「たれ」であるのか否かを判定すれば良い。
図14に示す文字「皆」については、輪郭数が3つ以上で(ステップS23)、面積の大きい方の輪郭が上下左右のいずれの中心にもないので(ステップS24)、部首の判定が困難なケースとされ、「部首なし」とされる(ステップS29)。
なお、図11〜図14においては、常用漢字を用いて説明したが、外字についても同様に字形要素情報を得ることができる。
1 字形要素判定装置
2 外字ファイル
3 字形要素DB(データベース)
11 ドットパターン生成部
12 ドットパターン格納部
13 字形要素解析部
14 輪郭パターン格納部
15 定量データ格納部
16 部首解析辞書
17 部首/部分ドットパターン格納部
18 部首認識辞書
19 部分認識辞書
131 輪郭抽出部
132 定量データ生成部
133 部首配置パターン解析部
134 部首/部分ラスタライズ部
135 部首/部分認識部
136 字形要素格納部

Claims (8)

  1. 判定対象の文字の輪郭を表す輪郭パターンを格納する輪郭パターン格納部と、
    前記輪郭パターン格納部に格納された前記輪郭パターンについて、前記輪郭パターンの座標に基づいて、前記輪郭パターンを囲む矩形の大きさと前記矩形の中心座標とを含む定量データを生成する定量データ生成部と、
    前記輪郭パターンについて生成された前記定量データを格納する定量データ格納部と、
    前記定量データ格納部に格納された前記定量データに基づいて、前記判定対象の文字における部首及び前記部首以外の構成部分の配置パターンを決定し、前記配置パターンに基づいて、前記輪郭パターンを前記部首である輪郭パターンを含む第1のグループと前記部首以外の構成部分である輪郭パターンを含む第2のグループとに分ける部首配置パターン解析部と、
    前記輪郭パターン格納部に格納された前記第1のグループの輪郭パターンを第1のドットパターンに変換し、前記輪郭パターン格納部に格納された前記第2のグループの輪郭パターンを第2のドットパターンに変換する変換部と、
    前記第1のドットパターンと前記第2のドットパターンとを格納する部首/部分ドットパターン格納部と、
    前記ドットパターン格納部に格納された前記第1のドットパターンについてのOCR認識に基づいて前記部首を判定し、前記ドットパターン格納部に格納された前記第2のドットパターンについてのOCR認識に基づいて前記部首以外の構成部分を判定する部首/部分認識部とを備える
    ことを特徴とする字形要素判定装置。
  2. 前記字形要素判定装置が、更に、
    前記判定対象の文字のドットパターンに基づいて、判定対象の文字の輪郭を表す輪郭パターンを抽出する輪郭抽出部を備える
    ことを特徴とする請求項1に記載の字形要素判定装置。
  3. 前記部首配置パターン解析部は、部首毎の定量データを格納する部首解析辞書を備え、前記定量データ格納部に格納された前記定量データに基づいて前記部首解析辞書を参照することにより、前記判定対象の文字における部首の配置パターンを決定し、前記配置パターンに基づいて、前記部首である輪郭パターンを決定する
    ことを特徴とする請求項1に記載の字形要素判定装置。
  4. 前記部首配置パターン解析部は、前記輪郭パターンの前記矩形の中心座標を、文字表示領域を複数の分割領域に分割した配列において、当該矩形の中心座標に対応する領域に対応付けて、前記輪郭パターンの前記矩形の中心座標の位置の関係を抽出することにより、前記部首及び前記部首以外の構成部分の前記配置パターンを決定する
    ことを特徴とする請求項1に記載の字形要素判定装置。
  5. 前記部首配置パターン解析部は、前記輪郭パターンの前記矩形を、文字表示領域を複数の分割領域に分割した配列に重ねて、前記輪郭パターンの前記矩形の位置及び大きさの関係を抽出することにより、前記部首及び前記部首以外の構成部分の前記配置パターンを決定する
    ことを特徴とする請求項1に記載の字形要素判定装置。
  6. 前記配列は、前記文字表示領域を縦及び横に3等分した2次元配列を、1個以上重ねた3次元配列である
    ことを特徴とする請求項4又は5に記載の字形要素判定装置。
  7. 前記部首/部分認識部が、部首毎のドットパターンを格納する部首認識辞書と、前記部首以外の構成部分毎のドットパターンを格納する部分認識辞書とを備え、前記第1のドットパターンについてのOCR認識に基づいて前記部分認識辞書を参照することにより、前記部首を判定し、前記第2のドットパターンについてのOCR認識に基づいて前記部分認識辞書を参照することにより、前記部首以外の構成部分を判定する
    ことを特徴とする請求項1に記載の字形要素判定装置。
  8. 輪郭パターン格納部に格納された判定対象の文字の輪郭を表す輪郭パターンについて、前記輪郭パターンの座標に基づいて、前記輪郭パターンを囲む矩形の大きさと前記矩形の中心座標とを含む定量データを生成して、定量データ格納部に格納する処理と、
    前記定量データ格納部に格納された前記定量データに基づいて、前記判定対象の文字における部首と前記部首以外の構成部分との配置パターンを決定し、前記配置パターンに基づいて、前記輪郭パターンを前記部首である輪郭パターンを含む第1のグループと前記部首以外の構成部分である輪郭パターンを含む第2のグループとに分ける処理と、
    前記輪郭パターン格納部に格納された前記第1のグループの輪郭パターンを第1のドットパターンに変換し、前記輪郭パターン格納部に格納された前記第2のグループの輪郭パターンを第2のドットパターンに変換して、部首/部分ドットパターン格納部に格納する処理と、
    前記ドットパターン格納部に格納された前記第1のドットパターンについてのOCR認識に基づいて前記部首を判定し、前記ドットパターン格納部に格納された前記第2のドットパターンについてのOCR認識に基づいて前記部首以外の構成部分を判定する処理とを、コンピュータに、実行させる
    ことを特徴とする字形要素判定方法。
JP2009283959A 2009-12-15 2009-12-15 字形要素判定装置及び字形要素判定方法 Expired - Fee Related JP5375577B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009283959A JP5375577B2 (ja) 2009-12-15 2009-12-15 字形要素判定装置及び字形要素判定方法
CN 201010287886 CN102096814B (zh) 2009-12-15 2010-09-17 字形要素判定装置及字形要素判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009283959A JP5375577B2 (ja) 2009-12-15 2009-12-15 字形要素判定装置及び字形要素判定方法

Publications (2)

Publication Number Publication Date
JP2011128687A JP2011128687A (ja) 2011-06-30
JP5375577B2 true JP5375577B2 (ja) 2013-12-25

Family

ID=44129902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009283959A Expired - Fee Related JP5375577B2 (ja) 2009-12-15 2009-12-15 字形要素判定装置及び字形要素判定方法

Country Status (2)

Country Link
JP (1) JP5375577B2 (ja)
CN (1) CN102096814B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867178B (zh) * 2011-07-05 2015-06-10 富士通株式会社 汉字识别方法和装置
CN106778456B (zh) * 2015-11-19 2021-06-15 北京锐富时间科技有限公司 一种手写输入的优化方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2881866B2 (ja) * 1989-11-30 1999-04-12 ソニー株式会社 手書き文字の認識方法及び装置
US5526476A (en) * 1992-12-07 1996-06-11 Fujitsu Limited Method and apparatus for generating character patterns expressed by coordinates of a coordinate system
US5852448A (en) * 1996-09-20 1998-12-22 Dynalab Inc. Stroke-based font generation independent of resolution
JPH11184971A (ja) * 1997-12-22 1999-07-09 Toshiba Corp 手書き文字認識機能を持つ文字入力装置及び方法
JP2000200323A (ja) * 1998-10-26 2000-07-18 Matsushita Electric Ind Co Ltd オンライン手書き漢字認識装置
JP2000242633A (ja) * 1999-02-18 2000-09-08 Techno Advance:Kk 書体データ作成方法
JP2004145072A (ja) * 2002-10-25 2004-05-20 Riso Kagaku Corp 手書き文字フォント作成装置及び手書き文字フォント作成プログラム

Also Published As

Publication number Publication date
JP2011128687A (ja) 2011-06-30
CN102096814A (zh) 2011-06-15
CN102096814B (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
US9268999B2 (en) Table recognizing method and table recognizing system
NO20161728A1 (en) Written text transformer
US7860313B2 (en) Methods and apparatuses for extending dynamic handwriting recognition to recognize static handwritten and machine generated text
MX2007010180A (es) Importacion inteligente de informacion de la interfaz de usuario de aplicacion del exterior utilizando inteligencia artificial.
US20140184610A1 (en) Shaping device and shaping method
Velázquez et al. Text/graphics separation and recognition in raster-scanned color cartographic maps
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
JP6754120B2 (ja) プログラム、情報記憶媒体及び文字分割装置
Suresh et al. Telugu Optical Character Recognition Using Deep Learning
CN103235945A (zh) 一种基于Android系统的手写数学公式识别及生成MathML的方法
JP5375577B2 (ja) 字形要素判定装置及び字形要素判定方法
JPH1049668A (ja) 濃淡値文書画像からの特徴抽出方法及び特徴抽出装置
JP4543675B2 (ja) 文字・図形の認識方法
Sagar et al. Character segmentation algorithms for Kannada optical character recognition
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP4648084B2 (ja) 記号認識方法及び装置
Bai et al. Object Boundary Encoding—a new vectorisation algorithm for engineering drawings
Dinh et al. Voting based text line segmentation in handwritten document images
JP5003837B2 (ja) 画像処理装置及びプログラム
KR100470346B1 (ko) 이미지의 클러스터링 방법 및 이 방법을 이용하여 문자를고속으로 입력 및 교정하는 방법
Walch et al. Pictographic matching: A graph-based approach towards a language independent document exploitation platform
Wei et al. A text extraction framework of financial report in traditional format with OpenCV
Riegelnegg Automated Extraction of Complexity Measures from Engineering Drawings
Saeed et al. Intelligent feature extract system for cursive-script recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120815

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130909

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees