JP2004094292A - 文字認識装置、文字認識方法及び該方法の実行に用いるプログラム - Google Patents

文字認識装置、文字認識方法及び該方法の実行に用いるプログラム Download PDF

Info

Publication number
JP2004094292A
JP2004094292A JP2002250449A JP2002250449A JP2004094292A JP 2004094292 A JP2004094292 A JP 2004094292A JP 2002250449 A JP2002250449 A JP 2002250449A JP 2002250449 A JP2002250449 A JP 2002250449A JP 2004094292 A JP2004094292 A JP 2004094292A
Authority
JP
Japan
Prior art keywords
line
character
recognition
row
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002250449A
Other languages
English (en)
Other versions
JP4162195B2 (ja
Inventor
Hideaki Yamagata
山形 秀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002250449A priority Critical patent/JP4162195B2/ja
Publication of JP2004094292A publication Critical patent/JP2004094292A/ja
Application granted granted Critical
Publication of JP4162195B2 publication Critical patent/JP4162195B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】本文行に対するルビ・脚注行といった、本文行群と別に扱いたい行を検出する場合に、対象ルビ行が原稿上のどこに在っても(前提条件を置かずに)検出可能とし、検出結果を利用し文字列の切出し精度の向上を図る。
【解決手段】文字外接矩形統合法により対象文字列から切出された全行矩形の一つを基準行として選択し、基準行の高さの半分を閾値として各切出し行がルビ行であるか、否(本文行)かを行高さにより判定する。基準行の選択処理は、図6(A)の認識処理の対象となる複数の行S1〜S5に、行幅、行高さに対するメンバシップ関数:同図の(B)(C)を適用し、各評価値の和を算出し、その和が最大値Vmaxとなる行を選択する。ルビ行であるか、否かの判定結果により、ルビ行の行データを削除するか、或いは判定結果を添付した行データを後段の認識処理部に出力する。
【選択図】    図6

Description

【0001】
【発明の属する技術分野】
本発明は、OCR(光学的文字読み取り装置)等に利用される文字認識処理に関し、より特定すると、文書原稿から読み取った文字列画像をもとに文字認識の対象となる文字候補を抽出する処理の前段で用いられる文字行の切り出しにおいて、文字行の中、例えば、本文行に対するルビ行のように一つの認識対象群から除外したい行を検出し、検出結果を用いて利用する文字行を出力することを可能にする手段を有する文字認識装置、文字認識方法及び該方法の実行に用いるプログラムに関する。
【0002】
【従来の技術】
従来のOCR(光学的文字読み取り装置)においては、スキャナーにより文書原稿から読み取った画像に基づいて原稿に記された文字を認識する処理を行っている。この処理を行う際に、読み取った画像に含まれる文字列画像をもとに文字認識の対象となる文字候補を抽出するために文字単位の切り出しを行うが、その手順として、複数行の文字列画像から文字行を切り出す処理を前段で行う。この行切り出しは、認識対象を規定することになるので、認識の精度を保証するために適正な切り出しが必要になる。
文字行の切り出しにおいて、従来から知られている方法は、いわば“外接矩形統合法”と呼ぶべき方法である。この方法は、まず、入力文字列画像から図形としてまとまりのある黒画素の連結パターンを抽出し、抽出された各々のパターンについて、その外接矩形を求め、次に、これらの矩形を一つの行を構成する要素と判断する統合規則(例えば、矩形相互の水平、垂直方向の距離が所定範囲内にあれば統合)に従い統合し、得られる行矩形により行の切り出しを行っている(特許2895122号、参照)。
【0003】
この“外接矩形統合法”による行の切り出しの際、対象とする原稿中に本文を構成する通常の文字行にルビ等の注に相当する行が付加されている場合に、これまではルビ行等も通常の行と同様に切り出されるのが普通であった。
ところで、近年の文字認識装置においては、パターンマッチング法により得られた文字認識結果に対して、何らかの言語処理による修正を施して、文書としてもっともらしい形態を持つ認識結果を最終的に出力する場合が多い。このような言語処理を施すにあたって、ルビ行が通常の行と同じように切り出されてしまうと、ルビ行の前後で文章的なつながりが無くなるため、言語処理による修正の精度が大きく低下する。
例えば、図9に示すようなルビ行が付加された画像が入力された場合に、ルビ行を通常の行と同様に切り出した場合、言語処理には「本日は晴天なりあしたどんてん明日は曇天なり」という文章が対象になるので、正しい言語処理が行えず、文字認識装置の認識性能の低下につながってしまう。
【0004】
【発明が解決しようとする課題】
そこで、本文にルビが混入することがないように、特開平8−101886(文字認識装置)では、ルビ行を取り除く方法を提案している。特開平8−101886に示されている方法では、除去の対象となるルビ文字行が行間に書き加えられたものであり、従って最終行は本文行であるという前提をおいて、最終行を基準として最終行から一つ前の文字行と、先頭行に向けて逆順にルビ行の検出を行っている。しかしながら、この前提条件は常に成り立つものではなく、最終行が必ずしも通常の行であるとは限らない。例えば、脚注などが存在する原稿においては、最終行にルビと同程度の大きさの文字が配置される場合もある。従って、特開平8−101886は、一つの認識対象群(本文行群)から除外したい、或いは別に扱いたいルビや脚注といった行が、最終行にある場合に対応して、これらの行の検出をすることができない。
このように、従来技術は、ルビや脚注の入った原稿の文字列認識(切り出し)精度向上に対する要求に十分に応えるものではない、という問題を抱えている。
本発明は、処理対象として入力された複数行の文字列画像から文字行を切り出し、切り出した文字行に含まれる文字を対象に文字認識を行う際に必要とされる各文字行の切り出し処理における上述の従来技術の問題に鑑みてなされたものであり、その目的は、本文行に対するルビ行や脚注行といった行のように、一つの認識対象群(本文行群)として扱いたくない、或いは一つの認識対象群(本文行群)とは別に扱いたい行を検出する場合に、対象とする行が原稿上のどの文字行に在っても(特開平8−101886のような前提条件を置かずに、無条件で)検出ができるようにし、検出結果を利用することにより、文字列認識(切り出し)精度向上を図ることを可能にする文字認識装置、文字認識方法及び該文字認識方法の実行に用いるプログラムを提供することにある。
【0005】
【課題を解決するための手段】
請求項1の発明は、処理対象として入力された複数行の文字列画像から文字行を切り出す文字行切り出し手段と、切り出された文字行に含まれる文字を認識する手段を有する文字認識装置であって、前記文字行切り出し手段は、文字列画像から文字行単位と見なせる各文字列に外接する行矩形を切り出す行切り出し手段と、切り出された行の中から所定の規則を適用することにより基準行を選択する手段と、選択された基準行の有する形状値に基づいて、切り出された各々の行が一つの認識対象群に属する行であるか、否かを判定する認識対象属性判定手段と、判定結果を用いて切り出された行を出力する手段を備えることを特徴とする文字認識装置である。
【0006】
請求項2の発明は、請求項1に記載された文字認識装置において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された行矩形の幅、高さ、位置の少なくとも一つに適用することを特徴とするものである。
【0007】
請求項3の発明は、請求項1又は2に記載された文字認識装置において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された前記行矩形の中から最も広い幅を持つ行に定めることを特徴とするものである。
【0008】
請求項4の発明は、請求項1乃至3のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、基準行と高さを比較して低い行を一つの認識対象群に属する行ではないと判定する手段を有することを特徴とするものである。
【0009】
請求項5の発明は、請求項1乃至4のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、基準行の高さと比較して上下の行との間隔が広い行を一つの認識対象群に属する行であると判定する手段を有することを特徴とするものである。
【0010】
請求項6の発明は、請求項1乃至5のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、一つの認識対象群に属する行を本文行とし、一つの認識対象群に属さない行をルビ行と判定する条件を備えることを特徴とするものである。
【0011】
請求項7の発明は、請求項1乃至6のいずれかに記載された文字認識装置において、前記文字行切り出し手段は、前記認識対象属性判定手段により一つの認識対象群に属する行ではないと判定された行を判定結果を示す情報を付与して出力することを特徴とするものである。
【0012】
請求項8の発明は、請求項1乃至6のいずれかに記載された文字認識装置において、前記文字行切り出し手段は、前記認識対象属性判定手段により一つの認識対象群に属する行ではないと判定された行の出力を判定結果を示す情報を付与して行うことを特徴とするものである。
【0013】
請求項9の発明は、処理対象として入力された複数行の文字列画像から文字行を切り出す文字行切り出しステップと、切り出された文字行に含まれる文字を認識するステップを含む文字認識方法であって、前記文字行切り出しステップは、文字列画像から文字行単位と見なせる各文字列に外接する行矩形を切り出す行切り出しステップと、切り出された行の中から所定の規則を適用することにより基準行を選択するステップと、選択された基準行の有する形状値に基づいて、切り出された各々の行が一つの認識対象群に属する行であるか、否かを判定する認識対象属性判定ステップと、判定結果を用いて切り出された行を出力するステップを備えたことを特徴とする文字認識方法である。
【0014】
請求項10の発明は、請求項9に記載された文字認識方法において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された行矩形の幅、高さ、位置の少なくとも一つに適用することを特徴とする方法である。
【0015】
請求項11の発明は、請求項9又は10に記載された文字認識方法において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された前記行矩形の中から最も広い幅を持つ行に定めることを特徴とする方法である。
【0016】
請求項12の発明は、請求項9乃至11のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、基準行と高さを比較して低い行を一つの認識対象群に属する行ではないと判定するステップを有することを特徴とするである。
【0017】
請求項13の発明は、請求項9乃至12のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、基準行の高さと比較して上下の行との間隔が広い行を一つの認識対象群に属する行であると判定するステップを有することを特徴とする方法である。
【0018】
請求項14の発明は、請求項9乃至13のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、一つの認識対象群に属する行を本文行とし、一つの認識対象群に属さない行をルビ行と判定する条件を備えることを特徴とする方法である。
【0019】
請求項15の発明は、請求項9乃至14のいずれかに記載された文字認識方法において、前記文字行切り出しステップは、前記認識対象属性判定ステップにより一つの認識対象群に属する行ではないと判定された行の出力を行わないようにすることを特徴とする方法である。
【0020】
請求項16の発明は、請求項9乃至14のいずれかに記載された文字認識方法において、前記文字行切り出しステップは、前記認識対象属性判定ステップにより一つの認識対象群に属する行ではないと判定された行を判定結果を示す情報を付与して出力することを特徴とする方法である。
【0021】
請求項17の発明は、請求項9乃至16のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラムである。
【0022】
【発明の実施の形態】
本発明が構成要件とする、文字列認識(切り出し)精度の向上を図るための文字行データの出力手段は、処理対象として入力された複数行の文字列画像に含まれる文字行の中、本文行に対するルビ行や脚注行といった行のように、一つの認識対象群(本文行群)として扱いたくない、或いは一つの認識対象群(本文行群)とは別に扱いたい行(以下、単に「ルビ行」という)を検出し、本文行、ルビ行それぞれの文字行データとして区別し、出力することを可能にし、そのための手段(手順)を提供するものである。
以下に示す本発明の各実施形態では、複数行の文字列画像に含まれる文字行全部の行切り出しを行い、その中から本文行、ルビ行それぞれを検出可能とする。その検出手順は、切り出された全行の中から所定の規則に従い基準行(標準的な本文行とみなせる行)を抽出し、抽出された基準行の有する形状値に基づいて、切り出された各々の行が本文行に属する行であるか、否(即ち、ルビ行)かを判定し、その判定結果を用いて、切り出された行データの出力を行うという手順による。
図1は、各実施形態の実施に共通に用いる処理装置(システム)の構成を示すブロック図である。
図1を参照すると、1は例えばスキャナ等の原稿画像を読み取り、その画像を入力する画像入力部、3は入力された複数行の文字列画像に含まれる文字行全部の行切り出しを行う文字行切り出し部、5は切り出された各々の行が一つの認識対象群(本文行群)に属する行であるか、否か、その属性を判定する文字行判定部、7は判定結果を用いて、切り出された文字行データを出力する行出力部である。
なお、以下の各実施形態には、本発明を特徴付ける文字行データの出力に関する手順を中心に実施に係わる形態を例示する。従って、図1に示すブロック図にも、文字認識装置のうちの、行切り出しに係わる部分のみを示し、その他の構成部分については省略し、文字認識処理全体、即ち、対象画像の入力から最終的に文字認識の最適解を得るまでの手順(手段)全体の説明をしないが、文字認識処理全体については、文字認識に必要な基本的な手順として従前から知られている手順を適用することにより、その実施が可能である。
【0023】
「実施形態1」
本実施形態は、図1に示した処理システムにより実行される文字行データの出力(検出)処理に係わるものである。ここに示す文字行データの出力処理は、基準行(標準の文字行とみなせる行)を選択する規則として、最大行幅を用い、また、選択・抽出された基準行の有する形状値としての高さに基づいて、切り出された各々の行が本文行に属する行であるか、ルビ行か、その属性を判定し、ルビ行と判定された行については行データを削除して、切り出された行データの出力を行うという手順による処理プロセスの実施形態を示す。
図2は、本実施形態の文字行データの出力処理のフローチャートを示す。
図2を参照すると、本実施形態フローでは、先ず、画像入力部1により認識対象となる複数行の文字列画像を文字行切り出し部3に入力する(S11)。なお、この入力の際、画像と共に、認識対象領域のデータを与えても良い。認識対象領域が与えられた場合には、与えられた領域内のみを行切り出しの対象とすればよい。
次に、文字行切り出し部3は、従来提案されている手法を適用して文字行を切り出す(S12)。文字行の切り出しには、射影を用いる方法などさまざまな手法が提案されているが、ここでは、上記「従来の技術」の項に示した“外接矩形統合法”を用いるものとする。例えば、特許2895122号に示す手法で行切り出しを行った場合、統合により得られる行矩形の座標と、行内の矩形(統合の基になる黒画素連結成分の外接矩形)の座標が文字行切り出し部3から出力され、文字行判定部5に送られる。なお、このステップで切り出した行に関する全ての行データを記憶部2に格納する。
【0024】
次に、行切り出し結果を受け取る文字行判定部5は、切り出された各々の行が本文行に属する行であるか、否か(即ち、ルビ行であるか)を判定する。この手順として、先ず、文字行切り出し部3から送られてきた全ての切り出し行の中から、一つの基準行を選択し、これを判定の基準として定める。基準行の選択にあたっては、行矩形の座標を用いて全ての行矩形のうち、その幅の最も広い行を基準行とする(S13)。この基準行の定め方によると、通常、ルビ行の幅がルビを付与されている本文行の幅より広くなることは無いので、この基準で選択すれば、標準的な本文行とみなせる行が選択され、ルビ行が選択されることは無い。
基準行を定めた後、判定に用いる基準値を設定するための手順として、基準行として定めた最大行幅を持つ行の高さ値:Shを取得し、取得した行高さ値の半分:Sh/2を判定の基準値として設定する(S14)。
次いで、各切り出し行の判定は、各行の高さ:HがSh/2より低い行をルビ行と判定し、それ以外を本文行と判定する。また、本実施形態では、ルビ行と判定した行データを削除するという処理を行う。従って、この処理の手順としては、各行の高さHがSh/2より低い行であるか、否かを判定し(S15)、Sh/2より低い行である場合には(S15−YES)、このルビ行のデータを先に記憶部2に格納した行データから削除する(S16)。なお、このルビ行判定・行データ削除処理は、各切り出し行毎に全部の行について、判定を行うので、ステップS15,S16の処理は、行数分繰り返し実行する。
ルビ行判定・行データ削除処理を各切り出し行に適用した後、ルビ行データが削除され、それ以外の本文行にあたる行の行矩形、行内矩形の情報を含む行データを行出力部7を通じて、文字認識処理を行うための後段の処理部へ出力し(S17)、この処理を終了する。
【0025】
「実施形態2」
本実施形態は、図1に示した処理システムにより実行される文字行データの出力(検出)処理に係わるものである。ここに示す文字行データの出力処理は、基準行(標準の文字行とみなせる行)を選択する規則として、行幅と行高さを変数とするメンバシップ関数を導入し、この関数により基準行としての評価値を算出する。
図5は、メンバシップ関数の一例を示す線図であり、図4は、メンバシップ関数を設定するためのパラメータに用いる切り出し行矩形の形状値を説明する図である。
このメンバシップ関数は、下記(1)、(2)の条件、
(1) 行幅が広いほど評価値が高い。
(2) 行高さが低いほど評価値が高い。
に従った設定とする。
ここでは、上記(1)を満足する関数として、図5(A)の例に示すように、最大行幅:MaxWの評価値を最大値:1とする一次関数を用いる。
また、上記(2)を満足する関数として、図5(B)の例に示すように、最大行高さ:MaxHの評価値を最小値:0とする一次関数を用いる。ただし、行高さについては誤って線分のみの行やノイズのみの微小行を選択しないように、又、ルビ行が基準行として選択されないように、所定のしきい値:Thignoreより小さい場合には評価値が“0”となるようにしている。また、メンバシップ関数の連続性を考慮して、最大行高さMaxHの半分の高さMaxH/2で評価値を最大値:1としている。
このメンバシップ関数を用いて、対象となる行各々の評価値を算出する。評価値の算出方法は、ここでは、行高さのメンバシップ関数から求まる評価値と、行幅のメンバシップ関数から求まる評価値の和を各行の評価値とし、評価値最大の行を基準行として選択する(後述の図3に示す処理フローの説明、参照)。
また、選択・抽出された基準行の有する形状値としての高さに基づいて、切り出された各々の行が本文行に属する行であるか、ルビ行か、その属性を判定し、ルビ行と判定された行については行データを削除して、切り出された行データの出力を行うという手順により、文字行データの出力処理プロセスを実行する。
【0026】
図3は、本実施形態の文字行データの出力処理のフローチャートを示す。
図3を参照すると、本実施形態フローでは、先ず、画像入力部1により認識対象となる複数行の文字列画像を文字行切り出し部3に入力する(S21)。なお、この入力の際、画像と共に、認識対象領域のデータを与えても良い。認識対象領域が与えられた場合には、与えられた領域内のみを行切り出しの対象とすればよい。
次に、文字行切り出し部3は、文字行を切り出しを行う(S22)。文字行の切り出しの手法は、上記した「実施形態1」に示したと同様に、“外接矩形統合法”を適用することにより実施する。文字行の切り出し結果として得られる行矩形の座標と、行内の矩形(統合の基になる黒画素連結成分の外接矩形)の座標は、文字行切り出し部3から出力され、文字行判定部5に送られる。なお、このステップで切り出した行に関する全ての行データを記憶部2に格納する。
次に、行切り出し結果を受け取る文字行判定部5は、切り出された各々の行が本文行に属する行であるか、否か(即ち、ルビ行であるか)を判定する。この手順として、先ず、文字行切り出し部3から送られてきた全ての切り出し行の中から、一つの基準行を選択し、これを判定の基準として定める。
基準行の選択にあたっては、上記したメンバシップ関数を適用して評価値を求め、評価値最大の行を基準行として選択する。
【0027】
図6は、この基準行の選択処理を説明するための図である。同図の(A)は認識処理の対象となる複数の行S1〜S5を示し、同図の(B)、(C)は上記で説明した方法(図4,5参照)により設定されたメンバシップ関数、及び(A)に示した対象行へのメンバシップ関数の適用時の操作状態を示す。
基準行の選択処理の手順としては、まず、メンバシップ関数を設定する(S23)。このために、認識処理の対象となる複数の行S1〜S5の中から最大行幅MaxW及び最大行高さMaxHを抽出する(図6(A)参照)。抽出した最大行幅MaxWをパラメータとして行幅に対するメンバシップ関数(図6(B)参照)を設定し、抽出した最大行高さMaxHをパラメータとして行高さに対するメンバシップ関数(図6(C)参照)を設定する。
この後、設定されたメンバシップ関数を用いて、対象となる行各々の評価値:メンバシップ値Vを算出し、その最大値Vmaxをとる行を基準行として選択する。従って、まず、Vmax=0として、この処理における初期条件を設定する(S24)。
次いで、対象となる複数の行S1〜S5の各行にメンバシップ関数を適用してメンバシップ値Vを算出する(S25)。対象となる複数の行S1〜S5の各行の行幅値、行高さ値それぞれに対し、図6の(B)、(C)の例に示すように、関数に従ったメンバシップ値を得るが、ここでは行幅値、行高さ値それぞれに対するメンバシップ値の和を算出し、最終的に求めるメンバシップ値Vとする。
さらに、最大値Vmaxとなる行を選択するので、各行毎に順次求められるメンバシップ値Vを、これまでに求めた行の最大値Vmaxと比較し(S26)、その結果により、即ち最大値Vmaxが変更される場合(S26−YES)、変更後の最大値Vmaxの行データ(後段で利用する最大行幅を持つ行の高さ値:Sh)を更新する(S27)。この基準行の選択処理は、各切り出し行毎にS1〜S5全部の行について、判定を行うので、ステップS25〜S27の処理は、行数分繰り返し実行する。
【0028】
基準行の選択処理により基準行を定めた後、切り出された各々の行が本文行に属する行であるか、否か(即ち、ルビ行であるか)を判定する。判定に用いる基準値は、前段のステップS27で取得しておいた基準行が持つ行データとしての行高さ値Shを用い、この行高さ値の半分:Sh/2を判定の基準値として設定する。
各切り出し行の判定は、各行の高さ:HがSh/2より低い行をルビ行と判定し、それ以外を本文行と判定する。また、本実施形態では、ルビ行と判定した行データを削除するという処理を行う。従って、この処理の手順としては、各行の高さHがSh/2より低い行であるか、否かを判定し(S28)、Sh/2より低い行である場合には(S28−YES)、このルビ行のデータを先に記憶部2に格納した行データから削除する(S29)。なお、このルビ行判定・行データ削除処理は、各切り出し行毎に全部の行について、判定を行うので、ステップS28,S29の処理は、行数分繰り返し実行する。
ルビ行判定・行データ削除処理を各切り出し行に適用した後、ルビ行データが削除され、それ以外の本文行にあたる行の行矩形、行内矩形の情報を含む行データを行出力部7を通じて、文字認識処理を行うための後段の処理部へ出力し(S30)、この処理を終了する。
【0029】
「実施形態3」
本実施形態は、図1に示した処理システムにより実行される文字行データの出力(検出)処理に係わるものである。ここに示す文字行データの出力処理は、上記した「実施形態2」の改良に係わるものである。改良点は、ルビ行の過検出を抑制することを可能とするものであり、ルビ行と同様の行矩形の高さ(上記の各実施形態に即していうと、H<Sh/2となる高さ)を有する行に属するものの中に、ルビ行ではなく、本文行と見なした方が適当である、即ちルビ行として削除すると悪影響が生じる場合があり、このような行高さによるチェックで過検出となる行を、本文行として扱うことができるようにする処理を付加する。このための手段として、行高さのチェックでルビ行と判定されても、基準行の高さと比較して前後の行との間隔が広い場合、つまりルビ行と明らかに判定ができない場合(なお、本来のルビ行やノイズ行などでは、前後の行との間隔が非常に狭くなる場合が殆どなので、この条件を追加してもルビ行の検出には影響がない)には、本文行と見なし、ルビ行としての扱いをするものから除外する処理手段を用いる。
なお、基準行(標準の文字行とみなせる行)を選択する規則として、行幅と行高さを変数とするメンバシップ関数を導入し、この関数により基準行としての評価値を算出するという点では、「実施形態2」と変わりがない。
【0030】
図7は、本実施形態の文字行データの出力処理のフローチャートを示す。
図7を参照すると、本実施形態フローでは、メンバシップ関数による評価により基準行を選択し、基準行が持つ行高さ値Shを、ルビ行判定の基準値として設定するまでのステップS31〜S37の処理手順は、上記した「実施形態2」の手順(図3のステップS21〜S27)と同様に実施する。従って、上記した「実施形態2」のステップS21〜S27の処理手順の説明を参照することとし、ここでは、この処理手順の記述を省略する。
メンバシップ関数による評価値が最大となる行を基準行とする基準行選択処理(S35〜37)により基準行を定めた後、切り出された各々の行が本文行に属する行であるか、否か、その属性を判定する。本実施形態では、行高さによるルビ行の判定と、ルビ行の過検出を補正するために行う前後(或いは上下)の行との間隔による判定の2段階でこの判定を行う。
ここでは、行高さによるルビ行の判定に用いる基準値は、前段のステップS37で取得しておいた基準行が持つ行データとしての行高さ値Shを用い、この行高さ値の半分:Sh/2を判定の基準値として設定し、各行の高さ:HがSh/2より低い行をルビ行と判定する。また、前後の行との間隔による判定は、基準行の高さShと比較して前後の行との間隔(前行との間隔+次行との間隔):Bの方が広い場合に、本文行と見なすようにする。
2段階の各切り出し行の判定の結果により、本文行或いは本文行と見なされた行の行データを出力し、それ以外のルビ行と判定した行データを削除するという処理を行う。
【0031】
従って、この処理フローにおける手順としては、まず、各行の前後の行との間隔(前行との間隔+次行との間隔)Bを算出する(S38)。
次いで、各行の高さHが基準行の高さの半分Sh/2より低い行であるか、否かを判定し(S39)、Sh/2より低い行である場合には(S28−YES)、さらにステップS38で算出した前後の行との間隔Bが基準行の高さShより広いか、否かを判定する(S40)。
ここで、前後の行との間隔Bが基準行の高さShより狭い場合(S40−YES)、過検出のないルビ行と判定されるので、この行のデータを先に記憶部2に格納した行データから削除する(S41)。なお、このルビ行判定・行データ削除処理は、各切り出し行毎に全部の行について、判定を行うので、ステップS38〜S41の処理は、行数分繰り返し実行する。
ルビ行判定・行データ削除処理を各切り出し行に適用した後、過検出のないルビ行と判定されたルビ行データが削除され、それ以外の本文行或いは本文行と見なされた行の行矩形、行内矩形の情報を含む行データを行出力部7を通じて、文字認識処理を行うための後段の処理部へ出力し(S42)、この処理を終了する。
【0032】
「実施形態4」
本実施形態は、図1に示した処理システムにより実行される文字行データの出力(検出)処理に係わるものである。ここに示す文字行データの出力処理は、上記した「実施形態3」を改変するものである。改変する点は、「実施形態3」では、過検出を抑制して、明らかなルビ行の判定を行い、判定されたルビ行について行データを削除する処理を行っているが、このルビ行についてのデータ削除を行わずに、本文行とは別系統のデータとして、後段の文字認識処理に用いることを可能にするための出力処理を行うようにした点にある。
このルビ行の出力処理は、ルビ行であることを示す情報を追加して、行出力部7を通じて後段の処理へ行データを出力する。後段の処理では、追加されたルビ行であることを示す情報により、ルビ行を無視して言語処理等の後処理を行うことが可能になる。その上、その処理とは別に、各ルビ行を独立に処理して認識結果を得、最終的に本文行の認識結果と合成して文字認識装置の処理結果として出力することも可能になる。出力は、RTFなどルビに対応したフォーマットで、ルビの部分も含めた認識結果を出力する等、利用に適した形態による方法を採用すればよい。
【0033】
図8は、本実施形態の文字行データの出力処理のフローチャートを示す。
図8を参照すると、本実施形態フローでは、メンバシップ関数による評価により基準行を選択し、基準行が持つ行高さ値Shを、ルビ行判定の基準値として設定し、前後の行との間隔Bを求めて過検出を抑制して、明らかなルビ行の判定を行うまでのステップS51〜S60の処理手順は、上記した「実施形態3」の手順(図7のステップS31〜S40)と同様に実施する。従って、上記した「実施形態3」のステップS31〜S40の処理手順の説明を参照することとし、ここでは、この処理手順の記述を省略する。
ステップS59に至るまでの処理を経てルビ行と判定された行に対し、前後の行との間隔Bが基準行の高さShより狭いか、否かの判定を行い(S60)、前後の行との間隔Bが基準行の高さShより狭ければ、明らかな(過検出のない)ルビ行と判定される(S60−YES)。ここで、明らかなルビ行であると判定された切り出し行に対して、上記「実施形態3」におけるように行データの削除をしないで、明らかなルビ行であるとした判定結果を行データ(行の行矩形、行内矩形の情報を含む)に追加する(S61)。
ルビ行判定・行データ追加処理を各切り出し行に適用した後、明らかなルビ行と判定されたルビ行について、判定結果の情報が追加され、又、明らかなルビ行以外の本文行或いは本文行と見なされた行については、本来の行矩形、行内矩形の情報を含む行データを行出力部7を通じて、文字認識処理を行うための後段の処理部へ出力し(S62)、この処理を終了する。
【0034】
「実施形態5」
本実施形態は、本発明に係わる文字認識装置の他の実施形態を示すものである。
上記した「実施形態1」〜「実施形態4」に示した文字行データの出力処理手順を含む処理を実行する手段として、汎用のコンピュータを利用して構成される装置を例示するものである。
汎用のコンピュータにより実施するものであるから、構成要素として、スキャナ、キーボード、マウス等の入力装置に対する入力部I/F、CPU、記憶装置、ハードディスクドライブ等の補助記憶装置、ディスプレイ等への出力装置への出力I/F、リムーバブルな記憶媒体のドライブ、リムーバブルな記憶媒体、ネットワークを介して他機と通信するためのコントローラなど通常のコンピュータが備える構成要素を備え、これらをバス接続して装置(システム)を構成する。
また、記憶装置、ハードディスクドライブ等の補助記憶装置、ドライブが用いる記憶媒体の一部には、本発明に係わる文字列認識(切り出し)機能を実現するための、上記「実施形態1」〜「実施形態4」に示した文字行データの出力処理手順を含む文字認識方法に示した各処理手順を実行するためのプログラム(ソフトウェア)が記録されている。
処理対象の文字列画像は、スキャナー等の入力装置による原稿読み取りで入力され、例えばハードディスクなどに格納されているものである。CPUは、記憶手段が有する記録媒体から上記した処理手順を実現するプログラムを読み出し、プログラムに従う処理を対象文字列画像に実行し、その処理結果等をディスプレイに出力する。
なお、本発明に係わる文字認識装置を、ネットワークコントローラによりネットワークを介して、外部の装置と接続して、機能の一部をネットワーク上に持つような形態で実施してもよい。
【0035】
【発明の効果】
(1) 請求項1〜3,9〜11の発明に対応する効果
切り出された行の中から所定の規則を適用することにより基準行を選択し、選択された基準行の有する形状値に基づいて、切り出された各々の行が一つの認識対象群に属する行であるか、否かを判定し、判定結果を用いて切り出された行を出力するようにしたことにより、一つの認識対象群として扱いたくない、或いは区別して扱いたい行を検出する場合に、対象行が原稿上のどこに在っても(従来例として示した特開平8−101886のような前提条件を置かずに、無条件で)検出でき、検出結果を利用して、削除処理をするか、或いはそれぞれを別系統で処理するかにより認識対象となる文字列の切り出し精度の向上、延いては文字認識精度の向上を図ることを可能にする。
また、切り出された行矩形の幅、高さ、位置の少なくとも一つに対し、所定の規則を適用して基準行を選択するようにし、特に行矩形の中から最も広い幅を持つ行を基準行に選択するようにしたので、どのような文字行よりなる原稿に対しても目的に適合する基準行を容易に選択することが可能になる。
(2) 請求項4〜6,12〜14の発明に対応する効果
上記(1)の効果に加えて、基準行と高さを比較して低い行を一つの認識対象群に属する行ではないと判定する閾値を設定するようにし、特にその閾値を本文行とルビ行を判定する値に設定するようにしたので、目的とする行の峻別(本文行とルビ行)を容易に実現することが可能になる。また、判定の際に、基準行の高さと比較して上下の行との間隔が広い行に対するチェックをかけるようにしたので、ルビ行の過検出を補正することが可能になる。
【0036】
(3) 請求項7,15の発明に対応する効果
上記(1)、(2)の効果に加えて、一つの認識対象群に属する行ではないと判定された行データの出力を行わないようにしたことにより、この行データが一つの認識対象群に雑音として混入することか無く、文字列の切り出し精度の向上、延いては文字認識精度の向上を図ることが可能になる。
(4) 請求項8,16の発明に対応する効果
上記(1)、(2)の効果に加えて、一つの認識対象群に属する行ではないと判定された行データを判定結果を示す情報を付与して出力するようにしたので、追加された判定結果を示す情報により、一方の行データを無視して言語処理等の後処理を行うことが可能で、文字列の切り出し精度の向上、延いては文字認識精度の向上を図ることが可能になり、さらに、それぞれグループごとに独立に処理して認識結果を得、最終的に本文行の認識結果と合成して文字認識装置の処理結果として出力することも可能になる。
(5) 請求項17の発明に対応する効果
請求項9乃至16に記載された文字認識方法の各処理ステップを実行するためのプログラムを汎用のコンピュータに搭載することにより、上記(1)〜(4)の効果を容易に具現化することが可能になる。
【図面の簡単な説明】
【図1】本発明に係わる文字列認識(切り出し)処理システムの構成を示すブロック図である。
【図2】「実施形態1」に係わる文字行データの出力処理のフローチャートを示す。
【図3】「実施形態2」に係わる文字行データの出力処理のフローチャートを示す。
【図4】基準行を求めるためのメンバシップ関数を設定するためのパラメータを説明する図である。
【図5】図4のパラメータを用いて設定されたメンバシップ関数の一例を示す線図である。
【図6】メンバシップ値による基準行の選択処理を説明するための図である。
【図7】「実施形態3」に係わる文字行データの出力処理のフローチャートを示す。
【図8】「実施形態4」に係わる文字行データの出力処理のフローチャートを示す。
【図9】ルビ行が付加された画像の一例を示す。
【符号の説明】
1…画像入力部、        2…記憶部、
3…文字行切り出し部、     5…文字行判定部、
7…行出力部。

Claims (17)

  1. 処理対象として入力された複数行の文字列画像から文字行を切り出す文字行切り出し手段と、切り出された文字行に含まれる文字を認識する手段を有する文字認識装置であって、前記文字行切り出し手段は、文字列画像から文字行単位と見なせる各文字列に外接する行矩形を切り出す行切り出し手段と、切り出された行の中から所定の規則を適用することにより基準行を選択する手段と、選択された基準行の有する形状値に基づいて、切り出された各々の行が一つの認識対象群に属する行であるか、否かを判定する認識対象属性判定手段と、判定結果を用いて切り出された行を出力する手段を備えることを特徴とする文字認識装置。
  2. 請求項1に記載された文字認識装置において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された行矩形の幅、高さ、位置の少なくとも一つに適用することを特徴とする文字認識装置。
  3. 請求項1又は2に記載された文字認識装置において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された前記行矩形の中から最も広い幅を持つ行に定めることを特徴とする文字認識装置。
  4. 請求項1乃至3のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、基準行と高さを比較して低い行を一つの認識対象群に属する行ではないと判定する手段を有することを特徴とする文字認識装置。
  5. 請求項1乃至4のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、基準行の高さと比較して上下の行との間隔が広い行を一つの認識対象群に属する行であると判定する手段を有することを特徴とする文字認識装置。
  6. 請求項1乃至5のいずれかに記載された文字認識装置において、前記認識対象属性判定手段が、一つの認識対象群に属する行を本文行とし、一つの認識対象群に属さない行をルビ行と判定する条件を備えることを特徴とする文字認識装置。
  7. 請求項1乃至6のいずれかに記載された文字認識装置において、前記文字行切り出し手段は、前記認識対象属性判定手段により一つの認識対象群に属する行ではないと判定された行の出力を行わないようにすることを特徴とする文字認識装置。
  8. 請求項1乃至6のいずれかに記載された文字認識装置において、前記文字行切り出し手段は、前記認識対象属性判定手段により一つの認識対象群に属する行ではないと判定された行を判定結果を示す情報を付与して出力することを特徴とする文字認識装置。
  9. 処理対象として入力された複数行の文字列画像から文字行を切り出す文字行切り出しステップと、切り出された文字行に含まれる文字を認識するステップを含む文字認識方法であって、前記文字行切り出しステップは、文字列画像から文字行単位と見なせる各文字列に外接する行矩形を切り出す行切り出しステップと、切り出された行の中から所定の規則を適用することにより基準行を選択するステップと、選択された基準行の有する形状値に基づいて、切り出された各々の行が一つの認識対象群に属する行であるか、否かを判定する認識対象属性判定ステップと、判定結果を用いて切り出された行を出力するステップを備えたことを特徴とする文字認識方法。
  10. 請求項9に記載された文字認識方法において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された行矩形の幅、高さ、位置の少なくとも一つに適用することを特徴とする文字認識方法。
  11. 請求項9又は10に記載された文字認識方法において、前記基準行を選択するための所定の規則を、行切り出し手段により切り出された前記行矩形の中から最も広い幅を持つ行に定めることを特徴とする文字認識方法。
  12. 請求項9乃至11のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、基準行と高さを比較して低い行を一つの認識対象群に属する行ではないと判定するステップを有することを特徴とする文字認識方法。
  13. 請求項9乃至12のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、基準行の高さと比較して上下の行との間隔が広い行を一つの認識対象群に属する行であると判定するステップを有することを特徴とする文字認識方法。
  14. 請求項9乃至13のいずれかに記載された文字認識方法において、前記認識対象属性判定ステップが、一つの認識対象群に属する行を本文行とし、一つの認識対象群に属さない行をルビ行と判定する条件を備えることを特徴とする文字認識方法。
  15. 請求項9乃至14のいずれかに記載された文字認識方法において、前記文字行切り出しステップは、前記認識対象属性判定ステップにより一つの認識対象群に属する行ではないと判定された行の出力を行わないようにすることを特徴とする文字認識方法。
  16. 請求項9乃至14のいずれかに記載された文字認識方法において、前記文字行切り出しステップは、前記認識対象属性判定ステップにより一つの認識対象群に属する行ではないと判定された行を判定結果を示す情報を付与して出力することを特徴とする文字認識方法。
  17. 請求項9乃至16のいずれかに記載された文字認識方法の各処理ステップをコンピュータに実行させるためのプログラム。
JP2002250449A 2002-08-29 2002-08-29 画像処理装置、及び画像処理プログラム Expired - Fee Related JP4162195B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002250449A JP4162195B2 (ja) 2002-08-29 2002-08-29 画像処理装置、及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002250449A JP4162195B2 (ja) 2002-08-29 2002-08-29 画像処理装置、及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2004094292A true JP2004094292A (ja) 2004-03-25
JP4162195B2 JP4162195B2 (ja) 2008-10-08

Family

ID=32057281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002250449A Expired - Fee Related JP4162195B2 (ja) 2002-08-29 2002-08-29 画像処理装置、及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP4162195B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN109919037A (zh) * 2019-02-01 2019-06-21 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN109977762A (zh) * 2019-02-01 2019-07-05 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN117079282A (zh) * 2023-08-16 2023-11-17 读书郎教育科技有限公司 一种基于图像处理的智能词典笔

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0231286A (ja) * 1988-07-21 1990-02-01 Fuji Electric Co Ltd 特殊文字行の判別方法
JPH096906A (ja) * 1995-06-20 1997-01-10 Canon Inc 画像処理方法及び装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0231286A (ja) * 1988-07-21 1990-02-01 Fuji Electric Co Ltd 特殊文字行の判別方法
JPH096906A (ja) * 1995-06-20 1997-01-10 Canon Inc 画像処理方法及び装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111720A (ja) * 2015-12-18 2017-06-22 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN109919037A (zh) * 2019-02-01 2019-06-21 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN109977762A (zh) * 2019-02-01 2019-07-05 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN109919037B (zh) * 2019-02-01 2021-09-07 汉王科技股份有限公司 一种文本定位方法及装置、文本识别方法及装置
CN117079282A (zh) * 2023-08-16 2023-11-17 读书郎教育科技有限公司 一种基于图像处理的智能词典笔

Also Published As

Publication number Publication date
JP4162195B2 (ja) 2008-10-08

Similar Documents

Publication Publication Date Title
US7813554B2 (en) Method and apparatus of extracting text from document image with complex background, computer program and storage medium thereof
US7627176B2 (en) Apparatus, method, and computer program for analyzing document layout
US9613299B2 (en) Method of identifying pattern training need during verification of recognized text
JP2007086954A (ja) 文字認識処理装置、および文字認識処理方法、並びにコンピュータ・プログラム
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
US20040066969A1 (en) Image processing method
US9129383B2 (en) Character string detection device, image processing device, character string detection method, control program and storage medium
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
JP3215163B2 (ja) 罫線識別方法及び領域識別方法
JP4420440B2 (ja) 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体
JP2001222683A (ja) 画像処理方法、画像処理装置、文字認識方法、文字認識装置及び記憶媒体
JPH10232926A (ja) 画像処理装置及びその方法
JP2006072839A (ja) 画像処理方法、画像処理装置、画像処理プログラム及び記録媒体
JP2001022883A (ja) 文字認識方式及び該文字認識方式の機能を実現させるための記録媒体
JP2002056356A (ja) 文字認識装置、文字認識方法および記録媒体
JP4616522B2 (ja) 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JP2002279344A (ja) 文字認識装置、文字認識方法および記録媒体
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JP2002074264A (ja) 画像処理装置、画像処理方法および記録媒体
JP2003259129A (ja) 画像処理方法、画像処理装置、画像処理プログラムおよび画像処理プログラムが格納されたコンピュータ読み取り可能な記憶媒体
JP2004110128A (ja) 画像処理装置、画像処理方法、および画像処理プログラム並びに記録媒体
JP2000082113A (ja) 文字認識装置および辞書作成方法および記録媒体
JP2000331118A (ja) 画像処理装置及び記録媒体
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP4766451B2 (ja) 符号化装置、画像処理装置、符号化方法及び符号化プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080718

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110801

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120801

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130801

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees