JP5375577B2

JP5375577B2 - 字形要素判定装置及び字形要素判定方法

Info

Publication number: JP5375577B2
Application number: JP2009283959A
Authority: JP
Inventors: 勇大石; 千織村松
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-12-15
Filing date: 2009-12-15
Publication date: 2013-12-25
Anticipated expiration: 2029-12-15
Also published as: JP2011128687A; CN102096814A; CN102096814B

Description

本発明は、字形要素判定装置及び字形要素判定方法に関する。

例えばＪＩＳ規格のように予め定められたフォントが用意される文字（漢字）以外に、例えば利用者がドットパターン（又はビットマップ）を作成した文字、いわゆる外字が存在する。外字は、例えば、人名や地名等に多く用いられる。

例えば、市町村合併においては、各市町村で異なる外字フォントが使用されていることが多い。このため、複数の外字を１つにまとめて、例えば、１つの常用漢字で代用することができるようにする必要がある。

そこで、外字について、文字パターンの形状が類似する文字の検索を行う必要がある。この場合、外字の部首に着目して、同じ部首の文字を調査する方法が一般的方法の一つである。

なお、手書き文字認識機能を持つ文字入力装置及び方法において、文字枠と当該文字枠を構成する所定数の分割領域とを表示し、筆記者が文字枠内に筆記した手書き文字を構成するストロークの座標系列を検出して入力し、入力された手書き文字の各ストロークの座標系列をもとに当該ストロークが文字枠内の分割領域をまたがっているか否かを判定し、またがっている場合には該当する分割領域を統合し、統合された分割領域に基づいて上記手書き文字を部首単位に切り出し、切り出された各部首に対して部首認識辞書を参照して認識処理を行い、部首認識処理の結果と文字構成辞書をもとに文字構成を行って手書き文字の認識結果を取得し出力することが提案されている。

特開平１１−１８４９７１号公報

例えば外字について文字パターンの形状が類似する文字の検索を行う場合、外字の部首に着目して、コンピュータによる検索を行う。しかし、外字の部首それ自体は、利用者が入力する必要があり、作業に手間がかかる。また、例えば、市町村合併の規模が大きい場合には、外字が数千文字に達する場合がある。この場合、入力に要する利用者の負担が非常に大きい。また、活字ＯＣＲ（光学的文字読取装置）を用いることにより類似する文字を検索する場合、活字ＯＣＲは、文字全体の形状が類似しているか否かを判断するのみであり、部首に基づいて文字（外字）を検索することはできない。

本発明は、文字の部首及び部首以外の構成部分を判定することができる字形要素判定装置を提供することを目的とする。

開示される字形要素判定装置は、輪郭パターン格納部と、定量データ生成部と、定量データ格納部と、部首配置パターン解析部と、変換部と、部首／部分ドットパターン格納部と、部首／部分認識部とを備える。輪郭パターン格納部は、判定対象の文字の輪郭を表す輪郭パターンを格納する。定量データ生成部は、輪郭パターン格納部に格納された輪郭パターンについて、輪郭パターンの座標に基づいて、輪郭パターンを囲む矩形の大きさと矩形の中心座標とを含む定量データを生成する。定量データ格納部は、輪郭パターンについて生成された定量データを格納する。部首配置パターン解析部は、定量データ格納部に格納された定量データに基づいて、判定対象の文字における部首及び部首以外の構成部分の配置パターンを決定し、配置パターンに基づいて、輪郭パターンを部首である輪郭パターンを含む第１のグループと部首以外の構成部分である輪郭パターンを含む第２のグループとに分ける。変換部は、輪郭パターン格納部に格納された第１のグループの輪郭パターンを第１のドットパターンに変換し、輪郭パターン格納部に格納された第２のグループの輪郭パターンを第２のドットパターンに変換する。部首／部分ドットパターン格納部は、第１のドットパターンと第２のドットパターンとを格納する。部首／部分認識部は、ドットパターン格納部に格納された第１のドットパターンについてのＯＣＲ認識に基づいて部首を判定し、ドットパターン格納部に格納された第２のドットパターンについてのＯＣＲ認識に基づいて部首以外の構成部分を判定する。

開示される字形要素判定装置によれば、判定対象の文字について、文字の字形要素、換言すれば、部首及び部首以外の構成部分を判定することができる。これにより、例えば数千字の外字が存在する場合でも、その字形要素を判定して、字形要素の辞書を効率的に生成することができ、文字の検索、同定作業を効率的に行うことができる。

開示される字形要素判定装置の構成を示す図である。ドットパターン、輪郭パターン及び定量データの一例を示す図である。部首／部分ドットパターン及び字形要素情報の一例を示す図である。字形要素解析の一例を示す図である。文字コードの一例を示す図である。字形要素判定の処理フローを示す図である。字形要素解析の処理フローを示す図である。字形要素解析の処理フローを示す図である。部首配置パターン判定の処理フローを示す図である。部首配置パターン判定の処理フローを示す図である。字形要素判定結果の一例を示す図である。字形要素判定結果の一例を示す図である。字形要素判定結果の一例を示す図である。字形要素判定結果の一例を示す図である。

図１は、開示される字形要素判定装置１の構成を示す図である。

字形要素判定装置１は、入力された文字データについて、文字の字形要素の形状を判定（以下、字形要素判定と言う）する処理を行い、この判定の結果を字形要素情報として、字形要素ＤＢ（データベース）３へ格納する。入力された文字データは、例えば、外字ファイル２から入力された外字データである。文字の字形要素は、部首と、部首以外の構成部分である。字形とは、文字全体の形状、部首の形状、部首以外の構成部分の形状である。部首とは、へん、つくり、かんむり等である。部首以外の構成部分は、部首以外の文字の構成要素であり、文字から当該文字の部首を除いた部分である。字形要素情報は、１文字分の文字データに含まれる字形要素の各々について、当該字形要素を表す情報であり、後述するように、例えば、文字コード、配置コード等を含む情報である。

字形要素判定装置１は、外字ファイル２と字形要素ＤＢ３とを備える。外字ファイル２は、複数の外字についての外字データを格納する。外字データは、例えば当該外字をドットパターンで表したデータである。ドットパターンは、文字の表示領域におけるピクセル毎に白（＝０）又は黒（＝１）の値を与えることにより、黒のパターンにより当該文字を
表現したデータである。字形要素ＤＢ３は、１文字分の文字データに含まれる字形要素の各々についての字形要素情報を格納するデータベースである。

字形要素判定装置１は、ドットパターン生成部１１、ドットパターン格納部１２、字形要素解析部１３、輪郭パターン格納部１４、定量データ格納部１５、部首解析辞書１６、部首／部分ドットパターン格納部１７、部首認識辞書１８、部分認識辞書１９を備える。字形要素解析部１３は、さらに、輪郭抽出部１３１、定量データ生成部１３２、部首配置パターン解析部１３３、部首／部分ラスタライズ部１３４、部首／部分認識部１３５、字形要素格納部１３６を備える。

ドットパターン生成部１１は、図２（Ａ）に示すように、外字ファイル２から１文字分の外字データ２１を読み込んで、読み込んだ１文字の外字データ２１がドットパターンである場合、外字データ２１をドットパターン１２１としてドットパターン格納部１２に格納する。読み込んだ１文字の外字データがドットパターンでない場合、ドットパターン生成部１１は、外字データ２１をドットパターン１２１に変換してドットパターン１２１を生成してドットパターン格納部１２に格納する。

ドットパターン格納部１２は、１文字分の外字のドットパターン１２１を格納するメモリである。ドットパターン格納部１２に格納されたドットパターン１２１、換言すれば、ドットパターン生成部１１により読み込まれた１文字の外字データ２１が判定対象の文字である。

輪郭抽出部１３１は、ドットパターン格納部１２からドットパターン１２１を読み出して、読み出したドットパターン１２１についての輪郭パターンを抽出する。これにより、判定対象の文字の輪郭を表す輪郭パターンが抽出される。輪郭抽出部１３１は、抽出した輪郭パターンを、輪郭パターン１４１として輪郭パターン格納部１４に格納する。

輪郭パターン格納部１４は、判定対象の文字の輪郭を表す輪郭パターン１４１を格納する。図２（Ｂ）は、輪郭パターン１４１の一例を示す。

図２（Ｂ）に示すように、輪郭パターン１４１は、１個の輪郭毎に抽出され、１文字当たり、例えば複数抽出される。輪郭パターン１４１は、各々、輪郭番号、輪郭数、複数の輪郭の座標データを含む。輪郭番号は、輪郭抽出部１３１により輪郭パターン１４１毎に一意に定められる識別番号である。輪郭数は、輪郭抽出部１３１により抽出された輪郭の数である。輪郭の座標データは、所定の座標内の輪郭の座標データである。

輪郭の座標データは、例えば、ドットパターン１２１において、値が「１」から「０」に変化する直前の値「１」であるピクセル即ちドット（エッジ）を検出し、当該検出した点であって連続する点の集合を１つの輪郭とすることにより抽出される。換言すれば、輪郭は、エッジの連続しているものである。従って、１つの判定対象の文字（外字）について、２つ以上の輪郭の座標データが抽出される。抽出された複数の輪郭の座標データの数が輪郭数であり、抽出された複数の輪郭の座標データの各々に輪郭番号が付与される。

例えば、図４（Ａ）において、文字「字」の輪郭が２つであるので、輪郭数は「２」である。また、２つの輪郭の各々に輪郭番号が付与される。図４（Ｂ）に示すように、例えば、矩形＃１に対応する輪郭（「ウカンムリ」の部分）に輪郭番号＝１が付与され、矩形＃２に対応する輪郭（「子」の部分）に輪郭番号＝２が付与される。なお、矩形＃１に対応する輪郭（「ウカンムリ」の部分）が部首であり、矩形＃２に対応する輪郭（「子」の部分）が部首以外の構成部分である。

輪郭番号＝１の輪郭について、輪郭番号、輪郭数、矩形＃１に対応する輪郭（「ウカンムリ」の部分）の座標データが、文字「字」についての第１の輪郭パターン１４１として格納される。輪郭番号＝２の輪郭について、輪郭番号、輪郭数、矩形＃２に対応する輪郭（「子」の部分）の座標データが、文字「字」についての第２の輪郭パターン１４１として格納される。

定量データ生成部１３２は、輪郭パターン格納部１４に格納された輪郭パターン１４１について、輪郭パターン１４１の輪郭の座標データに基づいて、輪郭パターン１４１を囲む矩形を求め、更に、矩形の大きさと、矩形の中心座標とを求める。これにより、定量データ生成部１３２は、矩形の大きさと矩形の中心座標とを含む定量データを生成する。定量データ生成部１３２は、生成した定量データを、定量データ１５１として、定量データ格納部１５に格納する。

定量データ格納部１５は、輪郭パターン１４１について生成された定量データ１５１を格納する。換言すれば、１個の輪郭パターン１４１につき１個の定量データ１５１が生成される。図２（Ｃ）は、定量データ１５１の一例を示す。

図２（Ｃ）に示すように、定量データ１５１は、輪郭番号、輪郭を囲む矩形座標、矩形の中心座標、矩形の大きさ（面積）、部首フラグ、親輪郭番号を含む。部首フラグは配置コードを含む場合がある。輪郭番号ＩＮＴは、対応する矩形の輪郭パターン１４１の輪郭番号である。輪郭を囲む矩形座標ＲＥＣＴは、矩形の対角線上の２点の矩形の座標データである。矩形の中心座標ＰＯＩＮＴは、矩形の中心を示す座標データである。矩形の大きさ（面積）ＩＮＴ２は、矩形の座標データに基づいて定められる面積である。矩形の大きさは、後述するように、１（面積が最も小さい値）〜９（面積が最も大きい値）のように相対的な値とされる。部首フラグＢＯＯＬは、対応する輪郭番号の輪郭パターン１４１が部首であると判定された場合にＯＮ（又は「１」）とされ、部首でない場合にＯＦＦ（又は「０」）とされる。配置コードは、部首の配置パターンを一意に定めるコードであり、部首フラグＢＯＯＬがＯＮの場合に格納され、ＯＦＦの場合に格納されない。親輪郭番号ＩＮＴ３は、詳しくは後述するが、他の輪郭に包含される小さい輪郭について、これを包含する大きな輪郭の輪郭番号が、小さい輪郭の上位の輪郭番号、換言すれば、親輪郭番号として付与されるものである。

矩形座標ＲＥＣＴは、以下のようにして求められる。輪郭パターン１４１の輪郭の座標データは、図４（Ｂ）に示すように、原点ＯからのＸ座標及びＹ座標により定まるとする。この場合、輪郭パターン１４１の輪郭の座標データから、Ｘ座標の最大値Ｘ１、Ｘ座標の最小値Ｘ２、Ｙ座標の最大値Ｙ１、Ｙ座標の最小値Ｙ２が抽出される。これにより、座標（Ｘ１，Ｙ１）、座標（Ｘ１，Ｙ２）、座標（Ｘ２，Ｙ１）、座標（Ｘ２，Ｙ２）を頂点とする矩形が求まる。

矩形の中心座標ＰＯＩＮＴは、例えば、矩形の対角線の交点の座標として求まる。矩形の大きさは、４つの頂点を用いることにより求まる。

部首フラグＢＯＯＬ、配置コード及び親輪郭番号ＩＮＴ３は、部首配置パターン解析部１３３により求められる。従って、定量データ生成部１３２により定量データ格納部１５に格納された時点の定量データ１５１においては、部首フラグＢＯＯＬ、配置コード及び親輪郭番号ＩＮＴ３は「空」とされる。

部首配置パターン解析部１３３は、部首の配置パターン、換言すれば、「へん」「つくり」等の部首の種類を判定する。このために、部首配置パターン解析部１３３は、定量データ格納部１５に格納された定量データ１５１と、部首解析辞書１６とを用いる。部首配置パターン解析部１３３は、判定対象の字形（輪郭パターン１４１）について、部首であると判定した場合、部首の配置パターンを求め、定量データ１５１の部首フラグをＯＮとする。一方、部首配置パターン解析部１３３は、部首でないと判定した場合、定量データ１５１の部首フラグをＯＦＦとする。

部首の配置パターンは、当該配置パターンを一意に定める配置コードにより表される。従って、配置パターンを求めることは、配置パターンの配置コードを決定することである。決定された配置コードは、定量データ１５１の配置コードに格納される。部首でないと判定された輪郭パターンについては、定量データ１５１の配置コードは格納されない。配置コードは、例えば、「部首なし」が「０」、「へん」が「１」、「つくり」が「２」、「かんむり」が「３」、「あし」が「４」、「たれ」が「５」、「にょう」が「６」、「かまえ」が「７」とされる。

具体的には、部首配置パターン解析部１３３は、定量データ格納部１５に格納された定量データ１５１に基づいて、判定対象の文字における部首及び部首以外の構成部分の配置パターンを決定する。そして、部首配置パターン解析部１３３は、決定した配置パターンに基づいて、輪郭パターン１４１を部首である輪郭パターン１４１を含む部首のグループ（第１のグループ）と、部首以外の構成部分である輪郭パターン１４１を含む部首以外の構成部分のグループ（第２のグループ）とに分ける。

このために、部首配置パターン解析部１３３は、部首解析辞書１６を備える。部首解析辞書１６は、部首毎の定量データ１５１を格納する。部首配置パターン解析部１３３は、定量データ格納部１５に格納された定量データ１５１に基づいて部首解析辞書１６を参照することにより、判定対象の文字における部首の配置パターンを決定する。そして、部首配置パターン解析部１３３は、決定した配置パターンに基づいて、判定対象の文字における部首である輪郭パターン１４１を決定する。

部首配置パターン解析部１３３は、定量データ１５１に基づいて部首解析辞書１６を参照するために、配列及び配列構造体を用いる。配列としては、図４（Ｂ）の右側に示すように、文字表示領域を縦及び横に３等分した２次元配列を、１個以上重ねた３次元配列が用いられる。配列構造体は、配列において、矩形の中心座標に対応する分割領域に、当該矩形の中心座標及び矩形の大きさを格納したものである。２次元配列を重ねるとは、換言すれば、２次元配列において、１つの分割領域に、複数の矩形の中心座標及び矩形の大きさを格納することを許容することである。

１個の文字について、１個の３次元配列構造体が生成される。３次元配列構造体は、２次元配列において矩形の中心座標に対応する分割領域に当該矩形の中心座標及び矩形の大きさを格納した２次元配列構造体を、１個以上重ねたものである。また、１個の文字についての定量データ格納部１５は、実際には、輪郭毎に生成された複数の定量データ１５１と、１個の３次元配列構造体とを含む。

図４（Ｂ）に示すように、配列は、９個の分割領域ａ〜ｉを含む。文字表示領域を縦及び横に３等分することにより、上段ａ〜ｃ、中段ｄ〜ｆ、下段ｇ〜ｉ、左段ａ、ｄ及びｇ、中段ｂ、ｅ及びｈ、右段ｃ、ｆ及びｉにおいて、各々、中央を定めることができる。これにより、部首の配置パターンを、正確に決定することができる。分割領域ｂは上段中心にあり、分割領域ｄは左段中心にあり、分割領域ｅは全体即ち各段の中心にあり、分割領域ｆは右段中心にあり、分割領域ｈは下段中心にある。

部首配置パターン解析部１３３は、輪郭パターン１４１の矩形の中心座標を、配列において、当該矩形の中心座標に対応する領域に対応付けて、輪郭パターン１４１の矩形の中心座標の位置の関係を抽出することにより、部首及び部首以外の構成部分の配置パターンを決定する。また、部首配置パターン解析部１３３は、輪郭パターン１４１の矩形を、文字表示領域を複数の分割領域に分割した配列に重ねて、輪郭パターン１４１の矩形の位置及び大きさの関係を抽出することにより、部首及び部首以外の構成部分の配置パターンを決定する。

例えば、図４（Ｂ）に斜線で示すように、文字「字」について、「ウ」の部分（ウカンムリ）の輪郭パターン１４１の矩形＃１が、配列に重ねられる。また、図４（Ｂ）に荒い網掛けで示すように、文字「字」について、「子」の部分の輪郭パターン１４１の矩形＃２が、配列に重ねられる。「ウ」の部分の輪郭パターン１４１の矩形と、「子」の部分の輪郭パターン１４１の矩形とは、相互に重なる。

「ウ」の部分の輪郭パターン１４１の矩形＃１の中心座標＃１は、分割領域ｂに対応する位置に存在する。従って、配列の分割領域ｂに、中心座標＃１及びその面積（例えば「３」）が格納される。「子」の部分の輪郭パターン１４１の矩形＃２の中心座標＃２は、分割領域ｆに対応する位置に存在する。従って、配列の分割領域ｆに、中心座標＃２及びその面積（例えば「６」）が格納される。

矩形の面積は、例えば、矩形の座標データに基づいて求めた面積を、配列における１個の分割領域の面積で割った値を四捨五入することにより求められる。これにより、矩形の大きさは、１（面積が最も小さい値）〜９（面積が最も大きい値）のように相対的な値とされる。

以上により、判定対象の文字の配置パターンが、配列上に配列構造体として生成される。部首配置パターン解析部１３３は、判定対象の文字の配列構造体を、部首解析辞書１６と照合することにより、判定対象の文字について、「へん」「つくり」等の部首の配置パターンを決定する。従って、部首解析辞書１６は、配列構造体について解析するために用いられる辞書であり、当該解析処理を定める。部首解析辞書１６及び配置パターンの決定処理については、図９〜図１４を参照して後述する。

部首／部分ラスタライズ部１３４は、輪郭のラスタライズ（再度のドットパターン化）を行う変換部である。部首／部分ラスタライズ部１３４は、輪郭パターン１４１と定量データ１５１とに基づいて、部首又は部首以外の構成部分のドットパターン化（ラスタライズ）を行い、ドットパターン１７１を生成する。

例えば、部首／部分ラスタライズ部１３４は、輪郭パターン格納部１４に格納された輪郭パターン１４１について、定量データ格納部１５に格納された同一の輪郭番号の定量データ１５１を参照する。定量データ１５１において、部首フラグＢＯＯＬが「１」である場合、当該輪郭パターン１４１は、部首の輪郭パターン、換言すれば、部首のグループの輪郭パターン１４１である。この場合、部首／部分ラスタライズ部１３４は、輪郭パターン格納部１４に格納された（部首のグループの）輪郭パターン１４１を第１のドットパターンに変換する。第１のドットパターンは、部首のドットパターンである。

一方、定量データ１５１において、部首フラグＢＯＯＬが「０」である場合、当該輪郭パターン１４１は、部首以外の構成部分の輪郭パターン、換言すれば、部首以外の構成部分のグループの輪郭パターン１４１である。この場合、部首／部分ラスタライズ部１３４は、輪郭パターン格納部１４に格納された（部首以外の構成部分のグループの）輪郭パターン１４１を第２のドットパターンに変換する。第２のドットパターンは、部首以外の構成部分のドットパターンである。

第１のドットパターンと第２のドットパターンとは、部首／部分ドットパターン格納部１７に格納される。図３（Ａ）は、ドットパターン１７１の一例を示す。

図３（Ａ）に示すように、複数のドットパターン１７１は、各々、輪郭番号、部首フラグ、配置コード、ビットパターンを含む。輪郭番号は、輪郭パターン１４１の輪郭番号である。部首フラグは、部首配置パターン解析部１３３により決定された、定量データ１５１における部首フラグＢＯＯＬである。配置コードは、部首配置パターン解析部１３３により決定された、定量データ１５１における、配置パターンを示す配置コードである。ビットパターンは、部首／部分ラスタライズ部１３４によりドットパターン化されたデータである。

部首／部分認識部１３５は、部首／部分ドットパターン格納部１７に格納された第１のドットパターン１７１についてのＯＣＲ認識に基づいて、部首を判定する。また、部首／部分認識部１３５は、部首／部分ドットパターン格納部１７に格納された第２のドットパターン１７１についてのＯＣＲ認識に基づいて、部首以外の構成部分を判定する。

このために、部首／部分認識部１３５は、部首認識辞書１８と、部分認識辞書１９とを備える。部首認識辞書１８は、部首毎のドットパターンを格納する。部分認識辞書１９は、部首以外の構成部分毎のドットパターンを格納する。

部首／部分認識部１３５は、第１のドットパターンについてのＯＣＲ認識に基づいて部首認識辞書１８を参照することにより、部首を判定する。例えば、第１のドットパターンについてのＯＣＲ認識の結果と、部首認識辞書１８に格納されたある部首のドットパターンとを比較して、所定の値以上の一致率である場合に、第１のドットパターンは当該部首であると判定する。この判定結果に基づいて、部首／部分認識部１３５は、当該部首に対応する部首文字コードを、部首認識辞書１８から得て、字形要素格納部１３６に格納する。

部首／部分認識部１３５は、第２のドットパターンについてのＯＣＲ認識に基づいて部分認識辞書１９を参照することにより、部首以外の構成部分を判定する。例えば、第２のドットパターンについてのＯＣＲ認識の結果と、部分認識辞書１９に格納されたある部首以外の構成部分のドットパターンとを比較して、所定の値以上の一致率である場合に、第２のドットパターンは当該部首以外の構成部分であると判定する。この判定結果に基づいて、部首／部分認識部１３５は、当該部首に対応する部分文字コードを、部分認識辞書１９から得て、字形要素格納部１３６に格納する。

例えば、図５（Ａ）に示すように、文字「字」において、部首「ウカンムリ」の部分に着目すると、部首「ウカンムリ」の部分の輪郭パターン１４１を含む矩形９１（矩形＃１）についてラスタライズすることにより、ドットパターン１７１を含む矩形９２が生成される。矩形９２についてＯＣＲ認識することにより、部首「ウカンムリ」の部首文字コードが得られる。

また、図５（Ｂ）に示すように、文字「字」において、部首以外の部分「子」の部分に着目すると、部首以外の部分「子」の部分の輪郭パターン１４１を含む矩形９３（矩形＃２）についてラスタライズすることにより、ドットパターン１７１を含む矩形９４が生成される。矩形９４についてＯＣＲ認識することにより、部首以外の部分「子」の部分文字コードが得られる。

以上により、部首／部分認識部１３５は、字形要素格納部１３６に字形要素情報を得る。部首／部分認識部１３５（又は、字形要素解析部１３）は、これを字形要素ＤＢ３に出力する。図３（Ｂ）は、字形要素情報３１の一例を示す。

図３（Ｂ）に示すように、字形要素情報３１は、文字コードＷＣＨＡＲ、配置コードＩＮＴ４、部首文字コードＷＣＨＡＲ２、部分文字コードＷＣＨＡＲ３を含む。文字コードＷＣＨＡＲは、文字（外字）毎に一意に定まる識別情報である。配置コードＩＮＴ４は、「へん」「つくり」等の部首の配置（部首の種類）毎に一意に定まる識別情報であり、ドットパターン１７１に格納された配置コードである。部首文字コードＷＣＨＡＲ２は、「ニンベン」「サンズイ」等の部首毎に一意に定まる識別情報である。部分文字コードＷＣＨＡＲ３は、部首以外の構成部分毎に一意に定まる識別情報である。

図６は、字形要素判定の処理フローを示す図である。

字形要素判定装置１のドットパターン生成部１１が、外字ファイル２から１文字分の外字データを読み込む（ステップＳ１）。ドットパターン生成部１１は、読み込んだ１文字分の外字データがドットパターン１２１でない場合、読み込んだ１文字分の外字データをドットパターン１２１に変換する（ステップＳ２）。この後、ドットパターン生成部１１は、読み込んだ１文字分の外字のドットパターン１２１又は変換したドットパターン１２１をドットパターン格納部１２に格納する。

次に、字形要素解析部１３は、ドットパターン格納部１２に格納された外字のドットパターン１２１に基づいて、字形要素解析の処理を行う（ステップＳ３）。字形要素解析処理については、図７及び図８を参照して後述する。

１文字分の外字データの字形要素解析処理の後、字形要素解析部１３は、字形要素判定結果として、当該１文字分の字形要素情報を、字形要素ＤＢ３に出力する（ステップＳ４）。

この後、ドットパターン生成部１１は、外字ファイル２に格納された全ての外字データを処理したか否かを判定し、処理されていない文字があると判断した場合（ステップＳ５Ｎｏ）、ステップＳ１を実行する。一方、外字ファイル２から入力されたデータの全ての文字が処理されたと判断した場合（ステップＳ５Ｙｅｓ）、ドットパターン生成部１１は、処理を終了する。

図７及び図８は、字形要素解析の処理フローを示す図である。

字形要素解析部１３の輪郭抽出部１３１は、ドットパターン格納部１２に格納された外字のドットパターン１２１について、輪郭抽出処理を行う（ステップＳ１１）。換言すれば、輪郭抽出部１３１は、抽出した輪郭に基づいて輪郭パターン１４１を生成し、生成した輪郭パターン１４１を輪郭パターン格納部１４に格納する。

この後、輪郭抽出部１３１は、ドットパターン格納部１２に格納された外字のドットパターン１２１の全ての輪郭を処理したか否かを判定する（ステップＳ１２）。

全ての輪郭を処理していないと判断した場合（ステップＳ１２Ｎｏ）、定量データ生成部１３２は、輪郭パターン格納部１４に格納された輪郭パターン１４１に基づいて、輪郭の矩形（矩形を囲う輪郭）を求める（ステップＳ１３）。また、定量データ生成部１３２は、求めた輪郭の矩形に基づいて、その輪郭の矩形の中心座標を求める（ステップＳ１４）。更に、定量データ生成部１３２は、矩形の大きさ（面積）も求めて、輪郭の矩形の中心座標、矩形の面積を含む定量データ１５１を生成する。

この後、定量データ生成部１３２は、求めた矩形の中心座標、矩形の大きさを、例えば縦３×横３×奥行きを要素とする３次元配列において、求めた矩形の中心座標が存在する位置（の構造体）に、当該矩形の中心座標、矩形の大きさを格納して３次元配列構造体を生成し（ステップＳ１５）、この後、ステップＳ１２を実行する。

一方、ステップＳ１２において全ての輪郭を処理したと判断した場合（ステップＳ１２Ｙｅｓ）、部首配置パターン解析部１３３は、定量データ格納部１５に格納された定量データ１５１及び部首解析辞書１６に基づいて、部首配置パターンの判定処理を行う（ステップＳ１６）。この後、部首配置パターン解析部１３３は、部首配置パターンの判定処理の結果を定量データ格納部１５に格納する。

例えば、部首配置パターン解析部１３３は、判定対象の輪郭パターン１４１が部首であると判定した場合、配置パターンの配置コードを求め、部首フラグをＯＮとする。一方、判定対象の輪郭パターン１４１が部首でないと判定した場合、部首配置パターン解析部１３３は、部首フラグをＯＦＦとする。部首フラグは、定量データ格納部１５の定量データ１５１の部首フラグに設定される。求めた配置パターンの配置コードは、定量データ格納部１５の定量データ１５１の配置コードに設定される。部首配置パターンの判定処理については、図９及び図１０を参照して後述する。

この後、部首／部分ラスタライズ部１３４は、定量データ１５１の部首フラグがＯＮである輪郭パターン１４１に含まれる輪郭のラスタライズ（ドットパターン化）を行い（ステップＳ１７）、部首のドットパターン１７１を部首／部分ドットパターン格納部１７に格納する。この後、部首／部分認識部１３５は、部首／部分ドットパターン格納部１７に格納された部首フラグがＯＮであるドットパターン１７１について、部首認識辞書１８に基づいて、部首の認識を行う（ステップＳ１８）。部首／部分認識部１３５は、部首の認識結果をメモリへ格納する（ステップＳ１９）。

次に、部首／部分認識部１３５は、部首フラグがＯＦＦである（部首以外の構成部分である）輪郭パターン１４１に含まれる輪郭のラスタライズを行い（ステップＳ１１０）、部首以外の構成部分のドットパターン１７１を部首／部分ドットパターン格納部１７に格納する。この後、部首／部分認識部１３５は、部首／部分ドットパターン格納部１７に格納された部首フラグがＯＦＦであるドットパターン１７１について、部分認識辞書１９に基づいて、部首以外の構成部分の認識を行う（ステップＳ１１１）。部首／部分認識部１３５は、部首以外の構成部分の認識結果をメモリへ格納する（ステップＳ１１２）。

ここで、認識結果が「へん」と「つくり」である場合には部首と部首以外の構成部分とが逆である可能性がある。そこで、部首／部分認識部１３５は、メモリにある認識結果を読み出し、認識結果が「へん」と「つくり」である場合に、部首と部首以外の構成部分とが逆であるか否かを判定する。具体的には、部首／部分認識部１３５は、認識結果の文字コードが部首文字コードである方を部首であるとし、他方を部首以外の構成部分であるとする（ステップＳ１１３）。

この後、部首／部分認識部１３５は、配置パターン、部首及び部首以外の構成部分の認識結果を含む字形要素情報３1を字形要素格納部１３６に格納する（ステップＳ１１４）。この後、字形要素解析部１３が、字形要素格納部１３６に格納された字形要素情報３１を、字形要素ＤＢ３に格納して、処理を終了する。

図９及び図１０は、部首配置パターン判定の処理フローを示す図である。

前述したように、部首解析辞書１６は、配列構造体について解析するために用いられる辞書であり、当該解析処理を定めるものである。従って、以下のステップＳ２１〜Ｓ２１３が、部首解析の処理であり、部首解析辞書１６の内容であると考えてよい。

部首配置パターン解析部１３３は、輪郭パターン格納部１４に格納された輪郭パターン１４１と、これに対応する（同一の輪郭番号の）定量データ格納部１５に格納された定量データ１５１を読み出して、読み出した輪郭パターン１４１に基づいて、輪郭パターン１４１が１つであるか（部首なしか）否かを判定する（ステップＳ２１）。

輪郭パターン１４１が１つでない（２つ以上である）と判定した場合（ステップＳ２１Ｎｏ）、部首配置パターン解析部１３３は、輪郭パターン１４１の中から所定の面積以下の小さい輪郭の輪郭パターン１４１が存在し、かつ、その小さい輪郭を包含するより大きな輪郭が存在する場合、これらを１つの輪郭グループとする（ステップＳ２２）。

ここで、所定の面積は、例えば「１」とされる。小さい輪郭を包含する大きな輪郭の輪郭パターン１４１の面積は、小さい輪郭の面積と大きな輪郭の面積との合計とされる。小さい輪郭を包含する大きな輪郭の輪郭パターン１４１の位置は、当該大きな輪郭の輪郭パターン１４１の対応する分割領域とされる。更に、部首配置パターン解析部１３３は、大きい輪郭の輪郭パターン１４１の輪郭番号を、これに包含される小さい輪郭の輪郭パターン１４１に対応する定量データ１５１において、親輪郭番号として設定する。

次に、部首配置パターン解析部１３３は、輪郭パターン１４１の輪郭数が２つか３つ以上か否かを判定する（ステップＳ２３）。

輪郭数が３つ以上である場合、部首配置パターン解析部１３３は、定量データ１５１の矩形の大きさに基づいて、矩形の中で一番面積の大きいものが上下左右のいずれかの中心（分割領域ｂ、ｄ、ｅ、ｆ、ｈ）にあるか否かを判定する（ステップＳ２４）。

矩形の中で一番面積の大きいものが分割領域の上下左右のいずれかの中心にあると判定した場合（ステップＳ２４Ｙｅｓ）、部首配置パターン解析部１３３は、一番面積の大きい矩形がいずれかの段の中心、例えば上段中心（分割領域ｂ）にあり、かつ、他の全ての矩形が一番面積の大きい矩形より下の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が一番面積の大きい矩形より下の位置にある場合、部首配置パターン解析部１３３は、一番面積の大きい矩形を部首「かんむり」と判定し（ステップＳ２５）、ステップＳ２１０を実行する。

これ以外の場合、換言すれば、一番面積の大きい矩形が上段中心にないか、又は、他の矩形のいずれかが一番面積の大きい矩形より下の位置にないと判定した場合、部首配置パターン解析部１３３は、一番面積の大きい矩形がいずれかの段の中心、例えば下段中心（分割領域ｈ）にあり、かつ、他の全ての矩形が一番面積の大きい矩形より上の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が一番面積の大きい矩形より上の位置にある場合、部首配置パターン解析部１３３は、一番面積の大きい矩形を部首「あし」と判定し（ステップＳ２６）、ステップＳ２１０を実行する。

これ以外の場合、換言すれば、一番面積の大きい矩形が下段中心にないか、又は、他の矩形のいずれかが一番面積の大きい矩形より上の位置にないと判定した場合、部首配置パターン解析部１３３は、一番面積の大きい矩形がいずれかの段の中心、例えば左段中心（分割領域ｄ）にあり、かつ、他の全ての矩形が一番面積の大きい矩形より右の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が右の位置にある場合、部首配置パターン解析部１３３は、一番面積の大きい矩形を部首「へん」と判定し（ステップＳ２７）、ステップＳ２１０を実行する。

これ以外の場合、換言すれば、一番面積の大きい矩形が左段中心にないか、又は、他の矩形のいずれかが右の位置にないと判定した場合、部首配置パターン解析部１３３は、一番面積の大きい矩形がいずれかの段の中心、例えば右段中心（分割領域ｆ）にあり、かつ、他の全ての矩形が一番面積の大きい矩形より左の位置にあるか否かを判定する。一番面積の大きい矩形がいずれかの段の中心にあり、かつ、他の全ての矩形が左の位置にある場合、部首配置パターン解析部１３３は、一番面積の大きい矩形を部首「つくり」と判定し（ステップＳ２８）、ステップＳ２１０を実行する。

これ以外の場合、換言すれば、一番面積の大きい矩形が右段中心にないか、又は、他の矩形のいずれかが左の位置にないと判定した場合、部首配置パターン解析部１３３は、部首の判定が困難なケースであり、「部首なし」と判定する（ステップＳ２９）。

この後、部首配置パターン解析部１３３は、定量データ１５１において、配置コードを設定し、３次元配列構造体の各輪郭データの部首フラグのＯＮ／（又は）ＯＦＦを設定する（ステップＳ２１０）。換言すれば、部首配置パターン解析部１３３は、定量データ１５１を生成して定量データ格納部１５に格納して、処理を終了する。

ステップＳ２３において、輪郭数が２つである場合、部首配置パターン解析部１３３は、２つの矩形の中心座標の位置関係が左右の位置関係にあるか否かを判定する。２つの矩形の中心座標の位置関係が左右の位置関係にある場合、部首配置パターン解析部１３３は、矩形の面積の小さい方を部首「へん」又は「つくり」と判定し（ステップＳ２１１）、ステップＳ２１０を実行する。この時、矩形の面積の小さい方が左に存在する場合には、当該矩形の面積の小さい方は、部首「へん」とされる。矩形の面積の小さい方が右に存在する場合には、当該矩形の面積の小さい方は、部首「つくり」とされる。

２つの矩形の中心座標の位置関係が左右の位置関係にないと判定した場合、部首配置パターン解析部１３３は、２つの矩形の中心座標の位置関係が上下の位置関係にあるか否かを判定する。２つの矩形の中心座標の位置関係が上下の位置関係にある場合、部首配置パターン解析部１３３は、矩形の面積の小さい方を部首「かんむり」又は「あし」と判定し（ステップＳ２１２）、ステップＳ２１０を実行する。この時、矩形の面積の小さい方が上に存在する場合には、当該矩形の面積の小さい方は、部首「かんむり」とされる。矩形の面積の小さい方が下に存在する場合には、当該矩形の面積の小さい方は、部首「あし」とされる。

２つの矩形の中心座標の位置関係が左右の位置関係にないと判定した場合、部首配置パターン解析部１３３は、２つの矩形の中心座標の位置関係が共に同じ中心にあるか否かを判定する。２つの矩形の中心座標の位置関係が共に同じ中心にある場合、部首配置パターン解析部１３３は、矩形の面積の大きい方を部首「たれ」又は「かまえ」と判定し（ステップＳ２１３）、ステップＳ２１０を実行する。この時、部首「たれ」と部首「かまえ」とは、同一の条件であるので、ステップＳ２１３によっては判定することはできない。従って、判定結果は、部首「たれ」又は部首「かまえ」とされる。

２つの矩形の中心座標の位置関係が共に同じ中心にないと判定した場合、部首配置パターン解析部１３３は、ステップＳ２９を実行する。

図１１〜図１４は、部首解析辞書１６を用いた字形要素解析の一例を示す図である。

例えば、図１１（Ａ）において、文字「休」について、文字「休」自体をグレー（網掛け）のパターンで表し、２つの輪郭の各々の輪郭パターンを囲む矩形を実線で表し、矩形の中心座標を黒丸で表す。更に、このように文字に矩形と黒丸とを重ねたものに並べて、２つの輪郭を有し「へん」と「つくり」とによって構成される字形要素、例えば文字「休」について生成された３次元配列構造体（以下、配列構造体）を表す。また、太線で示す矩形は、これが字形要素である「部首」を決定する要因となっていることを示す。

なお、配列構造体に現れる「３」「６」等の数字は、当該分割領域に矩形の中心座標が割り当てられていること、及び、当該割り当てられた中心座標を持つ矩形の大きさ（面積）を表す。例えば、数字「３」は、図４（Ｂ）に示す分割領域ｄに大きさが「３」の矩形が割り当てられていることを示す。また、配列構造体において、網掛けで表された分割領域及び当該分割領域の数字は、これらが字形要素である「部首」を決定する要因となっていることを示す。例えば、図１１（Ａ）において、分割領域ｄに大きさが「３」の「部首」である矩形が存在することを示す。

以上のように、図１１（Ａ）において、文字「休」について、文字に矩形と黒丸とを重ねたものは、輪郭パターン格納部１４に格納された輪郭パターン１４１と、定量データ格納部１５に格納された定量データ１５１とを合わせて、視覚的に表したものである。また、配列構造体は、文字に矩形と黒丸とを重ねたものに対応する、文字「休」についての配列構造体である。以上は、他の例においても同様である。

図１１（Ａ）に示す文字「休」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が左右の位置関係にあり、面積が「６」である他方の輪郭よりも小さい、面積が「３」である輪郭が左にあるので、当該左にある輪郭が部首「へん」とされる（ステップＳ２１１）。

図１１（Ｂ）に示す文字「海」については、「シ」の部分（サンズイ）の輪郭に図２（Ｃ）に示す同一の親輪郭番号ＩＮＴ３が付与されることにより、実際は複数の輪郭であるが、面積が「５」である１つの輪郭として処理される結果（ステップＳ２２）、輪郭数が３つであり（ステップＳ２３）、面積が「５」で一番大きい輪郭が左段中段にあるので、当該面積が「５」である輪郭が部首「へん」とされる（ステップＳ２７）。

なお、分割領域ａにおいて、２つの数字「１」が格納されている。これは、前述したように、配列構造体は３次元であるので、１つの分割領域に、複数の矩形の中心座標及び矩形の大きさを格納することが許容されるためである。

図１１（Ｃ）に示す文字「歌」については、２つの「可」の部分の輪郭に図２（Ｃ）に示す同一の親輪郭番号ＩＮＴ３を付与されることにより、実際は複数の輪郭であるが、１つの輪郭として処理される結果（ステップＳ２２）、輪郭数が３つであり（ステップＳ２３）、面積が「６」で一番大きい輪郭が部首「つくり」とされる（ステップＳ２８）。

図１１（Ｄ）に示す文字「動」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が左右の位置関係にあり、面積が「４」でより小さい方の輪郭が右にあるので、当該面積の小さい方の輪郭が部首「つくり」とされる（ステップＳ２１１）。

図１２（Ａ）に示す文字「字」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が上下の位置関係にあり、面積が「４」でより小さい方の輪郭が上にあるので、面積の小さい方の輪郭が部首「かんむり」とされる（ステップＳ２１１）。

図１２（Ｂ）に示す文字「草」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が上下の位置関係にあり、面積が「３」でより小さい方の輪郭が上にあるので、面積の小さい方の輪郭が部首「かんむり」とされる（ステップＳ２１１）。

図１２（Ｃ）に示す文字「恭」については、部首「あし」とされる輪郭に図２（Ｃ）に示す同一の親輪郭番号ＩＮＴ３を付与されることにより、実際は複数の輪郭であるが、１つの輪郭として処理される結果（ステップＳ２２）、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が上下の位置関係にあり、面積が「４」でより小さい方の輪郭が下にあるので、面積の小さい方の輪郭が部首「あし」とされる（ステップＳ２１２）。

図１２（Ｄ）に示す文字「点」については、部首「あし」とされる輪郭に図２（Ｃ）に示す同一の親輪郭番号ＩＮＴ３を付与されることにより、実際は複数の輪郭であるが、１つの輪郭として処理される結果（ステップＳ２２）、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が上下の位置関係にあり、面積が「４」でより小さい方の輪郭が下にあるので、面積の小さい方の輪郭が部首「あし」とされる（ステップＳ２１２）。

図１３（Ａ）に示す文字「疾」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる（ステップＳ２１３）。

なお、文字「疾」は、本来「たれ」として判定される必要のある例であるが、この例では、部首「たれ」と部首「かまえ」とを区別することはできない。しかし、これは事前に判っていることであるので、部首「たれ」又は「かまえ」に分類された文字の中で、部首／部分認識部１３５によるＯＣＲ認識処理の結果に基づいて、部首「たれ」であるのか部首「かまえ」であるのか否かを判定すれば良い。以上は、図１３（Ｂ）についても同様である。

図１３（Ｂ）に示す文字「広」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる（ステップＳ２１３）。

図１３（Ｃ）に示す文字「道」については、輪郭数が３つ以上で（ステップＳ２３）、面積の大きい方の輪郭が中心にあり（ステップＳ２４）、他の輪郭の位置関係が全て右、又は、左の位置関係にないので（ステップＳ２５〜Ｓ２８）、部首の判定が困難なケースとされ、「部首なし」とされる（ステップＳ２９）。

なお、文字「道」は、本来「にょう」として判定される必要のある例であるが、この例では、「部首なし」とされる。従って、「部首なし」は、本来の「部首なし」の他に、「にょう」として判定される必要のある文字を含む場合がある。しかし、これは事前に判っていることであるので、「部首なし」に分類された文字から、部首／部分認識部１３５によるＯＣＲ認識処理の結果に基づいて、「にょう」として判定される必要のある文字を除けば良い。

図１３（Ｄ）に示す文字「医」については、輪郭数が２つであり（ステップＳ２３）、２つの輪郭が同じ位置関係にあるので、面積の大きい方の輪郭が部首「たれ」又は「かまえ」とされる（ステップＳ２１３）。

なお、文字「医」は、本来「かまえ」として判定される必要のある例であるが、この例では、部首「たれ」と部首「かまえ」とを区別することはできない。しかし、これは事前に判っていることであるので、部首「たれ」又は「かまえ」に分類された文字の中で、部首／部分認識部１３５によるＯＣＲ認識処理の結果に基づいて、部首「かまえ」であるのか部首「たれ」であるのか否かを判定すれば良い。

図１４に示す文字「皆」については、輪郭数が３つ以上で（ステップＳ２３）、面積の大きい方の輪郭が上下左右のいずれの中心にもないので（ステップＳ２４）、部首の判定が困難なケースとされ、「部首なし」とされる（ステップＳ２９）。

なお、図１１〜図１４においては、常用漢字を用いて説明したが、外字についても同様に字形要素情報を得ることができる。

１字形要素判定装置
２外字ファイル
３字形要素ＤＢ（データベース）
１１ドットパターン生成部
１２ドットパターン格納部
１３字形要素解析部
１４輪郭パターン格納部
１５定量データ格納部
１６部首解析辞書
１７部首／部分ドットパターン格納部
１８部首認識辞書
１９部分認識辞書
１３１輪郭抽出部
１３２定量データ生成部
１３３部首配置パターン解析部
１３４部首／部分ラスタライズ部
１３５部首／部分認識部
１３６字形要素格納部

Claims

判定対象の文字の輪郭を表す輪郭パターンを格納する輪郭パターン格納部と、
前記輪郭パターン格納部に格納された前記輪郭パターンについて、前記輪郭パターンの座標に基づいて、前記輪郭パターンを囲む矩形の大きさと前記矩形の中心座標とを含む定量データを生成する定量データ生成部と、
前記輪郭パターンについて生成された前記定量データを格納する定量データ格納部と、
前記定量データ格納部に格納された前記定量データに基づいて、前記判定対象の文字における部首及び前記部首以外の構成部分の配置パターンを決定し、前記配置パターンに基づいて、前記輪郭パターンを前記部首である輪郭パターンを含む第１のグループと前記部首以外の構成部分である輪郭パターンを含む第２のグループとに分ける部首配置パターン解析部と、
前記輪郭パターン格納部に格納された前記第１のグループの輪郭パターンを第１のドットパターンに変換し、前記輪郭パターン格納部に格納された前記第２のグループの輪郭パターンを第２のドットパターンに変換する変換部と、
前記第１のドットパターンと前記第２のドットパターンとを格納する部首／部分ドットパターン格納部と、
前記ドットパターン格納部に格納された前記第１のドットパターンについてのＯＣＲ認識に基づいて前記部首を判定し、前記ドットパターン格納部に格納された前記第２のドットパターンについてのＯＣＲ認識に基づいて前記部首以外の構成部分を判定する部首／部分認識部とを備える
ことを特徴とする字形要素判定装置。
前記字形要素判定装置が、更に、
前記判定対象の文字のドットパターンに基づいて、判定対象の文字の輪郭を表す輪郭パターンを抽出する輪郭抽出部を備える
ことを特徴とする請求項１に記載の字形要素判定装置。
前記部首配置パターン解析部は、部首毎の定量データを格納する部首解析辞書を備え、前記定量データ格納部に格納された前記定量データに基づいて前記部首解析辞書を参照することにより、前記判定対象の文字における部首の配置パターンを決定し、前記配置パターンに基づいて、前記部首である輪郭パターンを決定する
ことを特徴とする請求項１に記載の字形要素判定装置。
前記部首配置パターン解析部は、前記輪郭パターンの前記矩形の中心座標を、文字表示領域を複数の分割領域に分割した配列において、当該矩形の中心座標に対応する領域に対応付けて、前記輪郭パターンの前記矩形の中心座標の位置の関係を抽出することにより、前記部首及び前記部首以外の構成部分の前記配置パターンを決定する
ことを特徴とする請求項１に記載の字形要素判定装置。
前記部首配置パターン解析部は、前記輪郭パターンの前記矩形を、文字表示領域を複数の分割領域に分割した配列に重ねて、前記輪郭パターンの前記矩形の位置及び大きさの関係を抽出することにより、前記部首及び前記部首以外の構成部分の前記配置パターンを決定する
ことを特徴とする請求項１に記載の字形要素判定装置。
前記配列は、前記文字表示領域を縦及び横に３等分した２次元配列を、１個以上重ねた３次元配列である
ことを特徴とする請求項４又は５に記載の字形要素判定装置。
前記部首／部分認識部が、部首毎のドットパターンを格納する部首認識辞書と、前記部首以外の構成部分毎のドットパターンを格納する部分認識辞書とを備え、前記第１のドットパターンについてのＯＣＲ認識に基づいて前記部分認識辞書を参照することにより、前記部首を判定し、前記第２のドットパターンについてのＯＣＲ認識に基づいて前記部分認識辞書を参照することにより、前記部首以外の構成部分を判定する
ことを特徴とする請求項１に記載の字形要素判定装置。
輪郭パターン格納部に格納された判定対象の文字の輪郭を表す輪郭パターンについて、前記輪郭パターンの座標に基づいて、前記輪郭パターンを囲む矩形の大きさと前記矩形の中心座標とを含む定量データを生成して、定量データ格納部に格納する処理と、
前記定量データ格納部に格納された前記定量データに基づいて、前記判定対象の文字における部首と前記部首以外の構成部分との配置パターンを決定し、前記配置パターンに基づいて、前記輪郭パターンを前記部首である輪郭パターンを含む第１のグループと前記部首以外の構成部分である輪郭パターンを含む第２のグループとに分ける処理と、
前記輪郭パターン格納部に格納された前記第１のグループの輪郭パターンを第１のドットパターンに変換し、前記輪郭パターン格納部に格納された前記第２のグループの輪郭パターンを第２のドットパターンに変換して、部首／部分ドットパターン格納部に格納する処理と、
前記ドットパターン格納部に格納された前記第１のドットパターンについてのＯＣＲ認識に基づいて前記部首を判定し、前記ドットパターン格納部に格納された前記第２のドットパターンについてのＯＣＲ認識に基づいて前記部首以外の構成部分を判定する処理とを、コンピュータに、実行させる
ことを特徴とする字形要素判定方法。