JP2001092921A - 文字行領域抽出方法と文字行領域検出に用いられる学習方法 - Google Patents

文字行領域抽出方法と文字行領域検出に用いられる学習方法

Info

Publication number
JP2001092921A
JP2001092921A JP26366799A JP26366799A JP2001092921A JP 2001092921 A JP2001092921 A JP 2001092921A JP 26366799 A JP26366799 A JP 26366799A JP 26366799 A JP26366799 A JP 26366799A JP 2001092921 A JP2001092921 A JP 2001092921A
Authority
JP
Japan
Prior art keywords
character
extracted
character line
lines
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP26366799A
Other languages
English (en)
Inventor
Yasuhiro Aoki
泰浩 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP26366799A priority Critical patent/JP2001092921A/ja
Publication of JP2001092921A publication Critical patent/JP2001092921A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 この発明は、文字行領域の抽出対象となる画
像に対し、各文字行の構成要素の類似性を見ることがで
き、類似性を考慮した文字行領域抽出候補を立てること
ができる。 【解決手段】 この発明は、画像における複数の文字行
の全ての組合わせに対し、類似していることを示す種々
の要素に着目したエネルギー関数に重み付けとなる係数
をかけ、それらの和が所定の閾値以上である場合に、文
字行を結合し、閾値以下である場合に、文字行を結合し
ないようにして文字行領域を抽出するようにしたもので
ある。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、例えば、画像読
取装置などにより読取った文書画像から文字行領域を検
出する文字行領域抽出方法と文字行領域抽出に用いられ
る学習方法に関する。
【0002】
【従来の技術】従来、文字行領域抽出方法では、例え
ば、紙面上にワープロ等を用いて印字されている文書の
画像から文字行領域を抽出している。このような紙面上
にワープロ等を用いて印字されている文書の画像では、
文字行のみが書かれている場合、文字行領域を比較的簡
単に抽出できる。
【0003】しかしながら、一般的な文書画像では、文
書画像中の文字が手書きである場合や、周囲に自由な形
状の図等があったり,例えばバーコードのような文字に
あたらない模様が混在している場合がある。
【0004】このような複雑な文書画像をどのように統
括的に扱って、文字行列領域を抽出するかという技術は
重要である。従来の技術では,上記のように複雑な文書
画像に対する文字行領域を抽出する場合、拡張性、およ
び汎用性に難点があると考えられる。
【0005】例えば、ある固有のフォーマットに従って
書かれた文書画像から文字行領域を抽出する従来の技術
では、所定のフォーマットに合致しない自由なフォーマ
ットで書かれている文書画像に直面すると、文字行領域
を正確に抽出することが難しくなる。さらに、従来の技
術では、文字行領域を抽出する性能を上げるには、チュ
ーニングに多大な時間と労力を必要とする難点を持って
いたり、設計上の大幅な変更を余儀なくされる場合も存
在するという問題点がある。
【0006】
【発明が解決しようとする課題】上記したように、特定
のフォーマットに合致しない自由なフォーマットの文書
画像に対して文字行領域を正確に抽出できなかったり、
文字行領域を抽出する性能を上げることが簡単に行うこ
とができないという欠点を除去したもので、特定のフォ
ーマットに合致しない自由なフォーマットの文書画像に
対して文字行領域を正確に抽出でき、文字行領域を抽出
する性能を上げることを簡単に行うことができる文字行
領域抽出方法と文字行領域抽出に用いられる学習方法を
提供することを目的とする。
【0007】
【課題を解決するための手段】この発明の文字行領域抽
出方法は、文字行領域を抽出する対象となる画像を入力
し、この入力した画像から複数の文字行を抽出し、これ
らの抽出した複数の文字行の組合わせに対して、種々の
要素に着目した複数の特徴量を判断し、これらの判断し
た各特徴量に対してそれぞれに重み付けをし、これらの
重み付けをした各特徴量の和の値に基いて文字行領域候
補を抽出することを特徴とする。
【0008】この発明の文字行領域抽出方法は、文字行
領域を抽出する対象となる画像を入力し、この入力した
画像から複数の文字行を抽出し、これらの抽出した複数
の文字行から得られる文字行の組合わせに対して、種々
の要素に着目した複数の特徴量を判断し、これらの判断
した各特徴量に種々の要素に応じた係数を乗算し、これ
らの係数を乗算した各特徴量の和を算出し、この算出し
た値が所定の閾値以上の場合に組合わせた文字行を結合
し、所定の閾値以下の場合に組合わせた文字行を結合し
ないことにより文字行領域候補を抽出することを特徴と
する。
【0009】この発明の文字行領域抽出に用いられる学
習方法は、文字行領域を抽出する対象となる画像を入力
し、この入力した画像から複数の文字行を抽出し、これ
らの抽出した複数の文字行の組合わせに対して、種々の
要素に着目した複数の特徴量を判断し、これらの判断し
た各特徴量に対してそれぞれに重み付けをし、これらの
重み付けをした各特徴量の和の値に基いて文字行領域候
補を抽出し、この抽出した文字行領域候補の結果に基い
て、上記種々の要素に着目した特徴量に対する重み付け
の値を決定することを特徴とする。
【0010】この発明の文字行領域抽出に用いられる学
習方法は、文字行領域を抽出する対象となる画像を入力
し、この入力した画像から複数の文字行を抽出し、これ
らの抽出した複数の文字行から得られる文字行の組合わ
せに対して、種々の要素に着目した複数の特徴量を算出
し、これらの算出した各特徴量に種々の要素に応じた係
数を乗算し、これらの係数を乗算した各特徴量の和を算
出し、この算出した値が所定の閾値以上の場合に組合わ
せた文字行を結合し、所定の閾値以下の場合に組合わせ
た文字行を結合しないことにより文字行領域候補を抽出
し、この抽出した文字行領域候補の結果に基いて、上記
各特徴量に乗算する係数を決定することを特徴とする。
【0011】この発明の文字行領域抽出方法は、文字行
領域を抽出する対象となる画像を入力し、この入力した
画像から複数の文字行を抽出し、これらの抽出した複数
の文字行の組合わせに対して、種々の要素に着目した文
字行間に対する複数の特徴量を判断し、これらの判断し
た文字行間の各特徴量に対してそれぞれに重み付けを
し、これらの重み付けをした各特徴量の和の値に基いて
文字行領域候補を抽出し、この抽出した文字行領域候補
の組合わせに対して、種々の要素に着目した領域間に対
する複数の特徴量を判断し、これらの判断した領域間の
各特徴量に対してそれぞれに重み付けをし、これらの重
み付けをした領域間の各特徴量の和の値に基いて文字行
領域候補を判定することを特徴とする。
【0012】この発明の文字行領域抽出方法は、文字行
領域を抽出する対象となる画像を入力し、この入力した
画像から複数の文字行を抽出し、これらの抽出した複数
の文字行から得られる文字行の組合わせに対して、種々
の要素に着目した文字行間に対する複数の特徴量を算出
し、これらの算出した文字行間の各特徴量に種々の要素
に応じた係数を乗算し、これらの係数を乗算した文字行
間の各特徴量の和を算出し、この算出した値が所定の閾
値以上の場合に組合わせた文字行を結合し、所定の閾値
以下の場合に組合わせた文字行を結合しないことにより
文字行領域候補を抽出し、これらの抽出した文字領域か
ら得られる文字領域の組合わせに対して、種々の要素に
着目した領域間に対する複数の特徴量を算出し、これら
の算出した領域間の各特徴量に種々の要素に応じた係数
を乗算し、これらの係数を乗算した領域間の各特徴量の
和を算出し、この算出した値が所定の閾値以上の場合に
組合わせた文字領域を結合し、所定の閾値以下の場合に
組合わせた文字領域を結合しないことにより文字行領域
候補を抽出することを特徴とする。
【0013】この発明の文字行領域抽出方法は、文字行
領域を抽出する対象となる画像を入力し、この入力した
画像から複数の文字行を抽出し、これらの抽出した複数
の文字行から文字行領域候補を抽出し、これらの抽出し
た文字行領域候補に対して、所望の文字行領域の種々の
特徴に着目した各特徴量を判断し、これらの判断した各
特徴量に、特徴に応じた重み付けをし、これらの重み付
けをした各特徴量の和の値に基いて文字行領域候補に順
位付けを行うことを特徴とする。
【0014】この発明の文字行領域抽出に用いられる学
習方法は、文字行領域を抽出する対象となる画像を入力
し、この入力した画像から複数の文字行を抽出し、これ
らの抽出した複数の文字行から文字行領域候補を抽出
し、これらの抽出した文字行領域候補に対して、所望の
文字行領域の種々の特徴に着目した各特徴量を判断し、
これらの判断した各特徴量に、特徴に応じた係数を乗算
し、これらの係数を乗算した各特徴量の和の値に基いて
文字行領域候補に順位付けを行い、この順序付けの結果
に基いて、上記各特徴量に乗算する係数を決定すること
を特徴とする。
【0015】この発明の文字行領域抽出方法は、文字行
領域を抽出する対象となる画像を入力し、この入力した
画像から複数の文字行を抽出し、これらの抽出した複数
の文字行から文字行領域候補を抽出し、これらの抽出し
た文字行領域候補に対して、特定の記載ォーマットの文
字行領域における種々の特徴に着目した各特徴量を判断
し、これらの判断した各特徴量に、特徴に応じた重み付
けをし、これらの重み付けをした各特徴量の和の値に基
いて特定の記載ォーマットの文字行領域を判断すること
を特徴とする。
【0016】この発明の文字行領域抽出に用いられる学
習方法は、文字行領域を抽出する対象となる画像を入力
し、この入力した画像から複数の文字行を抽出し、これ
らの抽出した複数の文字行から文字行領域候補を抽出
し、これらの抽出した文字行領域候補に対して、特定の
記載ォーマットの文字行領域における種々の特徴に着目
した各特徴量を判断し、これらの判断した各特徴量に、
特徴に応じた係数を乗算し、これらの係数を乗算した各
特徴量の和の値に基いて特定の記載ォーマットの文字行
領域を判断し、この判断による特定の記載ォーマットの
文字行領域結果に基いて、上記各特徴量に乗算する係数
を決定することを特徴とする。
【0017】
【発明の実施の形態】以下、この発明の実施の形態につ
いて図面を参照して説明する。
【0018】この発明の文字領域検出方法では、文書画
像が与えられた場合、その構成要素は文字、単語、文字
行、文字行領域の4つの階層構造に分類される。文字行
領域を以後、領域と呼ぶなら、領域はその最も上位レベ
ルの概念に位置している。このような領域抽出におい
て、影響力の大きいのは、隣り合う階層に位置する文字
行の情報となる。
【0019】この発明の文字領域検出方法では、文字行
のもつ情報をもとに線形和で表される各領域のエネルギ
ー関数を求めるために、種々の特徴毎に各領域の複数の
エネルギー関数を用意し、それらのエネルギー関数に重
み付けをして、線形和を算出して段階的に領域を決定し
ている。最終的に複数の領域候補について目的とする領
域順に順序づけするが、このような部分についても、同
じようにエネルギー関数を介在させて順位づけを実現さ
せている。
【0020】この文字領域検出方法では、特徴に基く種
々のエネルギー関数に重み付けを行う係数は学習によっ
て獲得されるなど高精度化に向けて非常に汎用的に設計
されている。
【0021】また、文字領域抽出対象とする文書中で、
例えば、記載フォーマットが既知な会員番号のみを検出
したい場合などの特定の領域を抽出する局面での領域の
探索方法についても説明する。
【0022】図1は、文書画像から文字行の情報をもと
に、文字行領域を抽出する文字行領域抽出装置による文
字領域抽出方法を説明するためのフローチャートであ
る。
【0023】図1に示すように、文字領域抽出方法は、
画像を入力する画像入力工程(ステップ1)、文字候
補、単語、文字行を抽出する抽出工程(ステップ2)、
初期領域候補抽出工程(ステップ3)、初期領域候補間
クラスタリング工程(ステップ4)、複数領域候補間の
順序づけ工程(ステップ5)、特定フォーマットの文字
行抽出工程(ステップ6)、認識工程(ステップ6)部
17からなっている。
【0024】上記画像入力工程では、認識対象となる画
像を入力する(ステップ1)。この画像入力工程により
入力される画像は、例えば、文字認識の対象となる書状
から画像を読み取る画像読取装置などの外部機器から入
力される。上記画像入力工程により認識対象となる画像
が入力されると、上記抽出工程により文字候補、単語、
文字行が抽出される(ステップ2)。続いて、上記初期
領域候補抽出工程(ステップ3)、初期領域候補間クラ
スタリング工程(ステップ4)、複数領域候補間の順序
づけ工程(ステップ5)、特定フォーマットの文字行抽
出工程により文字行領域が決定される(ステップ6)。
そして、文字行領域が決定されると、上記認識工程で
は、文字行領域に応じた図示しない辞書等を用いて認識
処理を実行する(ステップ7)。
【0025】以下に、文字行領域の決定における上記初
期領域候補抽出工程(ステップ3)、初期領域候補間ク
ラスタリング工程(ステップ4)、複数領域候補間の順
序づけ工程(ステップ5)、および特定フォーマットの
文字行抽出工程(ステップ6)の個々の工程について順
を追って具体的に説明する。以下の説明では、認識対象
となる文書画像全体のサイズ(W,H)の情報は判って
いるものとする。また、上記抽出工程で行抽出アルゴリ
ズムによって文字行候補が得られ、それらの画像との相
対的位置関係に関する情報,例えば始点(SXi,SY
i)から終点(EXi,EYi)(0≦i≦N)が判っ
ているものとする。
【0026】まず、上記初期領域抽出工程について説明
する(ステップ3)。
【0027】上記抽出工程(ステップ2)で得られた文
字行候補は、それぞれ独立しており,それぞれの位置情
報(SXi,SYi)−(EXi,EYi)(0≦i≦
N)および、文字行内のイメージfi(X,Y)が与え
られている。これらの要素がどのような重要性をもつ
か、あるいはどのような関連を帯びるかについては、多
重尺度空間法などを用いた検証を行う。
【0028】すなわち、各要素の線形結合によって作ら
れる相互エネルギー関数を用い、その相互エネルギー値
が閾値よりも高いものについては行間の結合と考える。
このエネルギー関数を構成する各々の係数については、
事後確率推定を用いた学習などによって得ることが可能
である。この事後確率推定を用いた学習の方法について
は、例えば、「Akagi, Mizutani., "Document Understa
nding Based on Maximum a Posteriori Probability Es
timation", in Proc. 6th.IWFHR, pp.279-293,Aug.199
8」に記載されている。
【0029】このようなエネルギー関数を構成する各々
の係数についてが事後確率推定を用いた学習などによっ
て得るようにすると,実際の場面で必要とされる抽出結
果に基く係数の再設定(チューニング)が不要となる。
【0030】上記初期領域抽出工程における初期領域抽
出ルーチンでは、文字行候補間の類似性を図ることを目
的としている。ここで類似性を図るために使用する代表
的な要素としては.例えば、 ・文字行内の複雑度 ・座標の位置 ・推定文字サイズ ・行の大きさ ・重心 ・文字行間の距離 などが挙げられる。
【0031】例えば、上記のような要素のうち重心につ
いてエネルギー関数(特徴量)を求める。この場合、各
文字行をLi,Ljとし、各文字行Li,Ljの重心の
座標をそれぞれXLi=(XLi,YLi)、XLj=
(XLj,YLj)とする。すると、重心間の距離‖D
Li,DLj‖は、‖DLi,DLj‖=‖XLi−X
Lj‖と定義できる。
【0032】従って、より文字行間の距離が近い程エネ
ルギーが大きいとすれば、重心に着目した場合のエネル
ギー関数Ek(Li,Lj)は、 Ek(Li,Lj)=exp{−‖DLi,DLj‖} となる。
【0033】また、例えば、文字行候補内の複雑度につ
いて着目したエネルギー関数Ek(Li,Lj)を求め
る場合、2つの文字行内における文字行方向の白黒反転
回数によりエネルギー関数Ek(Li,Lj)を算出す
る。この文字行方向の白黒反転回数は、2つの文字行を
連続した画像とし、この画像内における文字行方向(文
字の並んでいる方向)への各画素の白黒反転回数を計数
することにより算出される。
【0034】すなわち、複雑度に着目した場合のエネル
ギー関数Ek(Li,Lj)は、Ek(Li,Lj)=
exp{−|文字行方向への白黒反転回数/定数−1
|}となる。このように、文字行内の複雑度について着
目すると、文字行間の文様の差が小さいほど大きい値と
なるエネルギー関数を定義でき、極端な文字行間の文様
の差を排除できる。
【0035】つまり、初期領域抽出工程において、文字
画像を横方向に操作した時に白画素から黒画素へと変化
する度合を表すものを複雑度として、この要素をはかる
ことにより、バーコードなどの特殊な図形要素は排除す
ることが可能となり、図や広告といった要素について、
そのサイズが周囲の推定文字サイズ等を比較検証するこ
とによって排除しやすくなる。
【0036】上記のように、種々の各要素に着目した各
エネルギー関数Ek(Li,Lj)を定量化し、各エネ
ルギー関数(特徴量)を用いた線形和の形で下記のよう
な相互エネルギー関数V1(Li、Lj)が得られる。
【0037】V1(Li、Lj)=α1E1(Li、L
j)+α2E2(Li、Lj)+…+αNEN(Li、
Lj)
【0038】
【数1】
【0039】V1(Li、Lj):相互エネルギー関数 Li:i番目の文字行 αk:係数 Ek:文字行Li、Ljに対する各エネルギー関数 ここで、Ekは、各要素に着目した場合の各エネルギー
関数であり、αkは、各要素のエネルギー関数に対して
重み付けを行う係数である。この係数αkは、上記した
事後確率推定などにより学習して決定されるものであ
る。例えば、上記エネルギー関数V1による領域の抽出
結果が正しくなかった場合に、係数αkを最も合致する
ものに変更することにより学習する。
【0040】そして、上記の式に基いて文字行間の相互
エネルギー関数V1について全て計算を行う。この計算
の結果、マトリックス形式でまとめることとすると、
【0041】
【数2】
【0042】となる。このように、文字行間の相互エネ
ルギー関数V1は得点形式でN×Nのマトリックスによ
り表されることになる。このマトリックスには、相互の
文字行間の結合の度合を表しており、この数値に基いて
文字行の結合を判定して文字行領域を抽出する。このよ
うにして得られる領域が初期領域と呼ばれるものであ
る。
【0043】図2は、初期領域抽出工程における動作に
ついて説明するためのフローチャートである。すなわ
ち、画像における各文字行ei、ej(1≦i、j≦
n)に対して、種々の要素に着目した複数のエネルギー
関数Ekの値をそれぞれ算出する(ステップ11)。さ
らに、これらのEkに係数αkをかけたものの線形和で
表される相互エネルギーVの値を算出する(ステップ1
2)。
【0044】この際、Ekの引数となっている要素Ek
(ei、ej)(1≦i、j≦n)についてi、jのす
べての組合わせを計算する(ステップ13)。このe
i、ejのすべての組合わせについて相互エネルギーの
値Vijを算出すると、各組み合わせをまとめた形のマ
トリックスが生成される(ステップ14)。
【0045】また、相互エネルギーの値Vijに対する
閾値thが、予め設定されている値等に基いて決定され
る(ステップ15)。閾値thが決定されると、マトリ
ックスにまとめられた相互エネルギーの値Vijに対し
て、それぞれ閾値thと比較する。この比較によりVi
jが閾値thを超える値のものは、eiとejが結合し
ているとみなし、マージ(結合)する。また、Vijが
閾値thを下回るものは、マージしない(ステップ1
6)。
【0046】全ての各組合わせに対するマージするか否
かの判断が完了すると、それらの総合情報をもとに、文
書画像全体における文字行のクループ化を行う(ステッ
プ17)。この結果を初期領域抽出の結果とし、初期領
域抽出工程を終了する。
【0047】例えば、図3に示すように、画像上のL
1、L2、L3に対して、V1(L1、L2)、V1
(L2、L3)の結合エネルギー関数の値がある閾値を
越えるようなら、L1、L2、L3は結合して、初期領
域を形成しているものと見なす。
【0048】上記のように、画像における複数の文字行
の全ての組合わせに対し、類似していることを示す種々
の要素に着目したエネルギー関数に重み付けとなる係数
をかけ、それらの和が所定の閾値以上である場合に、文
字行を結合し、閾値以下である場合に、文字行を結合し
ないようにして文字行領域を抽出する。
【0049】これにより、文字行領域の抽出対象となる
画像に対し、ミクロな視点での各行の構成要素の類似性
を見ることができる。従って、初期領域抽出工程により
ミクロな視点で類似性を考慮した文字行領域抽出候補を
立てることができる。
【0050】また、文書画像処理における文字行領域候
補の抽出において、文字行のサイズおよび位置情報から
構成される諸要素および行内の画像から算出しうる諸要
素の線形和で表されるエネルギー関数を使用する手段を
特徴とするものである。
【0051】また、文書画像処理における文字行領域候
補の抽出において,線形和で表されるエネルギー関数の
係数の決定における相互エネルギー関数の学習による係
数獲得の手段を有することを特徴とする。
【0052】次に、初期領域候補間クラスタリング工程
について説明する(ステップ4)。
【0053】すなわち、初期領域候補間クラスタリング
工程は、上記初期領域抽出工程(ステップ3)で抽出し
た初期領域候補に対し、これらの初期領域間の相互エネ
ルギーを求める。この際に用いる要素は、初期領域を抽
出した際の物理的な要素である。
【0054】例えば、 ・初期領域の書状における相対的座標 ・座標の位置. ・推定文字サイズ ・重なり度 ・行の整頓 などがある。
【0055】上記のような各要素のうち、例えば、初期
領域間の重なり度合いを測る要素として、初期領域候補
A1、A2に対して、A1∩A2となる面積S(A1∩
A2)の縦方向のサイズL(S(A1∩A2))が推定
文字サイズlと比較して極端にオーバラップしているか
どうかを判定する。ここで、推定文字サイズlは、文字
行のサイズなどから推定される。すなわち、初期領域A
i、Aj間の重なり度に着目したエネルギー関数Ek
(Ai、Aj)は、 Ek(Ai、Aj)=exp{L(S(Ai∩Aj))
/l} として算出される。
【0056】また、推定文字サイズおよび座標の位置に
着目して、2つの初期領域を結合(マージ)した場合の
推定文字サイズl、行数N、領域の大きさLとの間に、
l×N=Lという関係性があれば、エネルギー関数Ek
(Ai、Aj)は、 Ek(Ai、Aj) =exp{−|((li×Ni)+(lj×Nj))/
L−1|} となる。このようなエネルギー関数Ek(Ai、Aj)
によれば、2つの領域をマージした場合の領域としての
妥当性を測ることができる。
【0057】これらのエネルギー関数(特徴量)に着目
する要素に応じた係数をかけたものの線形和として相互
エネルギー関数V2を定義すれば、
【0058】
【数3】
【0059】V2(Ai、Aj):相互エネルギー関数 Ai:i番目の初期領域 βk:係数 Ek(Ai、Aj):領域Ai、Ajに対する各エネル
ギー関数 となる。
【0060】ここで、Ekは、各要素に着目した場合の
各エネルギー関数であり、βkは、各要素のエネルギー
関数に対して重み付けを行う係数である。この係数βk
は、上記した事後確率推定などにより学習して決定され
るものである。例えば、上記相互エネルギー関数V2に
よる領域の抽出結果が正しくなかった場合に、係数βk
を最も最適な値に変更することにより学習する。
【0061】そして、上記の式に基いて初期領域候補間
の相互エネルギー関数V2を全ての組合わせについて計
算を行う。この計算の結果をマトリックス形式でまとめ
ることとすると、
【0062】
【数4】
【0063】となる。
【0064】このように、初期領域間の相互エネルギー
関数V2は得点形式でN×Nのマトリックスにより表さ
れることになる。このマトリックスの各成分は、相互の
初期領域間の結合の度合を表している。つまり、V2
(Ai、Aj)の結合エネルギーの値が閾値を越えた場
合に、初期領域Ai、Ajを結合し、新たな領域候補を
生成する 例えば、図4に示すように、これらのマトリックスの各
成分の数値に対して、ある閾値を設定した場合に、初期
領域A1とA2の結合エネルギーの値V2(A1、A
2)が閾値を越えた場合に、初期領域A1、A2を結合
し、新たな領域候補を生成する(クラスタリング)。
【0065】上記のように領域候補に対して、さらに、
各領域間の類似性を相互エネルギーとして算出して、所
定の閾値以上の組合わせについて結合させるようにした
ものである。
【0066】これにより,例えば、初期領域が同じよう
な位置にあっても,その領域内の内部情報が異なるもの
は別領域として取り扱うことが可能となり、高精度な初
期領域の抽出ができる。
【0067】また、上記初期領域抽出部により文字行の
ミクロな部分に着目して類似性を図って、初期領域候補
を抽出し、この抽出した初期領域候補に対してそれぞれ
の領域候補の特徴により類似性を判定して領域候補を抽
出する。
【0068】これにより、多段階の初期領域候補の抽出
処理により、より高精度な領域候補を選出することがで
きる。
【0069】また、文書画像処理における文字行領域候
補の抽出において、文字行のクラスタリングの際に着目
する要素からなる目的関数を複数個準備し,その目的関
数を順次差し替えながら、段階的に複数回クラスタリン
グする手段を特徴とする。
【0070】次に、複数領域候補間の順位づけ工程につ
いて説明する(ステップ5)。
【0071】ここで,例えば、論文中のタイトルと著者
(複数を含む)との区別を目的とした順位づけを考え
る。この場合、タイトルらしき領域を判定する評価基準
としての目的関数に必要とされる種々の要素に着目した
エネルギー関数を設定し、この評価基準をもとにタイト
ルらしき領域候補の順に、得られた領域候補を並びかえ
る。
【0072】例えば、各領域候補に対する順位づけに必
要とされる要素は、 ・相対位置 ・領域内の行の数 ・推定文字サイズ ・領域の大きさ などがある。
【0073】上記のような各要素のうち、領域内の文字
行の数、推定文字サイズ、および領域の大きさに着目す
ると、推定文字サイズl、領域内の文字行数N、領域の
サイズLとの間に、l×N=Lのような関係が理想的に
存在するなら、実際に得られる候補領域のパラメータに
ついて、エネルギー関数Ek(Ai、Aj)は、 Ek(Ai、Aj) =exp{−|((li×Ni)+(lj×Nj))/
L−1|} となる。
【0074】このようなエネルギー関数Ekを用いるこ
とによって抽出する目的の領域としての妥当性を測るこ
とを可能とする。
【0075】そして、上記のような種々のエネルギー関
数(特徴量)の線形和として、エネルギー関数V3(A
i)は、
【0076】
【数5】
【0077】V3:エネルギー関数 Ai:i番目の領域 εi:重み係数 Ei:Aiを変数とした各エネルギー関数 となる。
【0078】この場合の重み係数εiは、上記同様に事
後確率推定を用いた学習などによって得るようにしても
良い。
【0079】このエネルギー関数V3(Ai)に基い
て、各領域に対するV3の値をそれぞれ求める。この値
に基いて領域候補に対する順位づけを行う。例えば、図
5に示すように、領域候補A1、A2、A3に対して、
エネルギー関数の値がV3(A2)≧V3(A3)≧V
3(A2)である場合に、大きい順に領域候補が順位づ
けられる。
【0080】また、一般に論文中ではタイトルの文字サ
イズは大きく、著者よりも上方向に書かれる場合が多
く、したがって著者は相対的に右下隅となる。これらの
要素に着目したエネルギー関数Ekを用いて、最もタイ
トルらしい領域の順に順位付けを行う。
【0081】また、複数の著者が所属別に併記されてい
る場合、領域中の構造情報だけでは判断できないため、
慣習を加味して設計したエネルギー関数の値を用いて評
価値を求めるようにする。
【0082】上記のように、特定の文字情報が記載され
ている領域を文字認識する場合、最終的に認識部に送る
部分は最も確からしい領域を1つ送れば良いので、最も
確からしい領域の特徴となる要素を加味して設計したエ
ネルギー関数を用いて評価値を求め、各領域に対して順
位づけを行うようにしたものである。
【0083】これにより、慣習などを加味して最も確か
らしい領域を1つ決定することができ、高度な文字行領
域の抽出を実現できる。
【0084】また、文書画像処理における複数の文字行
列領域候補の順位付けを目的とする、例えば題目と著者
などの区別を目的とした、相対座標および知識を含む関
数の線形和で表されるエネルギー関数を使用する手段を
特徴とする。
【0085】次に、特定フォーマットの文字行抽出工程
について説明する(ステップ6)。
【0086】この特定フォーマットの文字行抽出工程で
は、記載フォーマットが特定されている文字行を抽出す
る。例えば、正確に所属会員の識別を目的とした場合、
会員証に記載されている会員番号を正確に抽出すること
が要求される。
【0087】会員証の中には、フォーマットの関係上、
会員のプロフィールと少し離れた位置に会員番号が記載
されている場合がある。このような場合、初期領域候補
抽出工程では、文字行のもつ情報のみを用いて、会員番
号を会員メモの一部としてマージするような、特定の領
域を抽出することは困難である。
【0088】しかしながら、英数字を用いた会員番号の
フォーマットは、記載の規則に従い文字サイズや桁数な
どのフォーマットが特定されているという性質がある。
このため、文字行の大きさから推定される推定文字サイ
ズを手がかりとして、その形状、位置関係より抽出が可
能である。
【0089】このような特定フォーマットの画像から特
定の領域を抽出する場合、例えば、 ・桁数(+ハイフン) ・推定文字サイズ ・位置関係(メモ行の上端に書かれる場合が多いなど) ・会員番号のフォーマット(アルファベット、数字の桁
数や並びなど) などの要素に着目する。
【0090】ここで、Sという文字サイズが与えられた
場合に、着目する文字列Liの縦横比から導出される推
定文字サイズS(Li)を用いてエネルギー関数Ek
を、 Ek(Li)=exp{−|S(Li)/S−1|} のように定義すれば、推定文字サイズの類似性を測るこ
とが出来る。
【0091】あるいは、桁数が定まっているフォーマッ
トの推定について、例えば、Nという所望桁数と、着目
文字列Liの縦横比などから求められる推定桁数N(L
i)とを用いて、エネルギー関数Ek(Li)を Ek(Li)=exp{−|N(Li)/N−1|} のように定義すれば、桁数の類似性を測ることができ
る。
【0092】上記のような種々のエネルギー関数(特徴
量)を用いて、同様に各エネルギー関数に重み付けを行
う係数εkをかけて線形和のエネルギー関数V4(L
i)を求める。
【0093】
【数6】
【0094】この場合の係数εkは、上記同様に事後確
率推定を用いた学習などによって得るようにしても良
い。
【0095】このようなエネルギー関数V4の値が閾値
を超えるものを会員番号として判断する。例えば、図6
に示すように、領域Aに対して、領域Aの位置関係など
を元に行a〜dから関連があると思われるものを判定し
て対応づけを行う。
【0096】上記のように、特定フォーマットの文字行
抽出工程では、記載フォーマットが特定されている文字
行を抽出する場合に、記載フォーマットの文字サイズや
桁数などの記載フォーマットの情報と、文字行候補ある
いは文字領域候補から推定される文字サイズや桁数など
の情報に着目した種々のエネルギー関数を用いて、それ
らのエネルギー関数の線形和を算出して、特定の領域を
抽出する。
【0097】これにより、初期領域候補抽出工程で抽出
できないような、特定の領域を正確に抽出することがで
きる。
【0098】また、文書画像処理において,例えば記載
フォーマットが既知な会員番号のみを検出することを目
的とした,推定文字サイズ,および相対位置などを含む
関数の線形和で表されるエネルギー関数を使用すること
を特徴とする。
【0099】上記のように、文書画像中の文字行領域を
検出することを目的とすれば,認識結果を伴わない文字
行の諸情報の線形和で表されるエネルギー関数を使用
し,目的に応じて段階的にクラスタリングすることによ
りレイアウトが自在な場合の文章に対しての追随が可能
となる.また、学習可能なエネルギー関数の使用は目的
関数への特化および保守も容易な方式であり、高度な領
域検出を可能とする。
【0100】
【発明の効果】以上詳述したように、この発明によれ
ば、特定のフォーマットに合致しない自由なフォーマッ
トの文書画像に対して文字行領域を正確に抽出でき、文
字行領域を抽出する性能を上げることを簡単に行うこと
ができる文字行領域抽出方法と文字行領域抽出に用いら
れる学習方法を提供できる。
【図面の簡単な説明】
【図1】この発明の実施の形態に係わる文字行抽出方法
を説明するためのフローチャート。
【図2】初期領域候補抽出工程における動作を説明する
ためのフローチャート。
【図3】初期領域候補の抽出例を示す図。
【図4】領域候補の抽出例を示す図。
【図5】領域候補に対する順位付けの例を示す図。
【図6】特定フォーマットの領域抽出の例を示す図。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行の組合わせに対して、種
    々の要素に着目した複数の特徴量を判断し、 これらの判断した各特徴量に対してそれぞれに重み付け
    をし、これらの重み付けをした各特徴量の和の値に基い
    て文字行領域候補を抽出する、 ことを特徴とする文字行領域抽出方法。
  2. 【請求項2】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から得られる文字行の組
    合わせに対して、種々の要素に着目した複数の特徴量を
    判断し、 これらの判断した各特徴量に種々の要素に応じた係数を
    乗算し、これらの係数を乗算した各特徴量の和を算出
    し、 この算出した値が所定の閾値以上の場合に組合わせた文
    字行を結合し、所定の閾値以下の場合に組合わせた文字
    行を結合しないことにより文字行領域候補を抽出する、 ことを特徴とする文字行領域抽出方法。
  3. 【請求項3】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行の組合わせに対して、種
    々の要素に着目した複数の特徴量を判断し、 これらの判断した各特徴量に対してそれぞれに重み付け
    をし、これらの重み付けをした各特徴量の和の値に基い
    て文字行領域候補を抽出し、 この抽出した文字行領域候補の結果に基いて、上記種々
    の要素に着目した特徴量に対する重み付けの値を決定す
    る、 ことを特徴とする文字行領域抽出に用いられる学習方
    法。
  4. 【請求項4】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から得られる文字行の組
    合わせに対して、種々の要素に着目した複数の特徴量を
    算出し、 これらの算出した各特徴量に種々の要素に応じた係数を
    乗算し、これらの係数を乗算した各特徴量の和を算出
    し、 この算出した値が所定の閾値以上の場合に組合わせた文
    字行を結合し、所定の閾値以下の場合に組合わせた文字
    行を結合しないことにより文字行領域候補を抽出し、 この抽出した文字行領域候補の結果に基いて、上記各特
    徴量に乗算する係数を決定する、 ことを特徴とする文字行領域抽出に用いられる学習方
    法。
  5. 【請求項5】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行の組合わせに対して、種
    々の要素に着目した文字行間に対する複数の特徴量を判
    断し、 これらの判断した文字行間の各特徴量に対してそれぞれ
    に重み付けをし、これらの重み付けをした各特徴量の和
    の値に基いて文字行領域候補を抽出し、 この抽出した文字行領域候補の組合わせに対して、種々
    の要素に着目した領域間に対する複数の特徴量を判断
    し、 これらの判断した領域間の各特徴量に対してそれぞれに
    重み付けをし、これらの重み付けをした領域間の各特徴
    量の和の値に基いて文字行領域候補を判定する、 ことを特徴とする文字行領域抽出方法。
  6. 【請求項6】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から得られる文字行の組
    合わせに対して、種々の要素に着目した文字行間に対す
    る複数の特徴量を算出し、 これらの算出した文字行間の各特徴量に種々の要素に応
    じた係数を乗算し、これらの係数を乗算した文字行間の
    各特徴量の和を算出し、 この算出した値が所定の閾値以上の場合に組合わせた文
    字行を結合し、所定の閾値以下の場合に組合わせた文字
    行を結合しないことにより文字行領域候補を抽出し、 これらの抽出した文字領域から得られる文字領域の組合
    わせに対して、種々の要素に着目した領域間に対する複
    数の特徴量を算出し、 これらの算出した領域間の各特徴量に種々の要素に応じ
    た係数を乗算し、これらの係数を乗算した領域間の各特
    徴量の和を算出し、 この算出した値が所定の閾値以上の場合に組合わせた文
    字領域を結合し、所定の閾値以下の場合に組合わせた文
    字領域を結合しないことにより文字行領域候補を抽出す
    る、 ことを特徴とする文字行領域抽出方法。
  7. 【請求項7】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から文字行領域候補を抽
    出し、 これらの抽出した文字行領域候補に対して、所望の文字
    行領域の種々の特徴に着目した各特徴量を判断し、 これらの判断した各特徴量に、特徴に応じた重み付けを
    し、これらの重み付けをした各特徴量の和の値に基いて
    文字行領域候補に順位付けを行う、 ことを特徴とする文字行領域抽出方法。
  8. 【請求項8】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から文字行領域候補を抽
    出し、 これらの抽出した文字行領域候補に対して、所望の文字
    行領域の種々の特徴に着目した各特徴量を判断し、 これらの判断した各特徴量に、特徴に応じた係数を乗算
    し、これらの係数を乗算した各特徴量の和の値に基いて
    文字行領域候補に順位付けを行い、 この順序付けの結果に基いて、上記各特徴量に乗算する
    係数を決定する、 ことを特徴とする文字行領域抽出に用いられる学習方
    法。
  9. 【請求項9】 文字行領域を抽出する対象となる画像を
    入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から文字行領域候補を抽
    出し、 これらの抽出した文字行領域候補に対して、特定の記載
    ォーマットの文字行領域における種々の特徴に着目した
    各特徴量を判断し、 これらの判断した各特徴量に、特徴に応じた重み付けを
    し、これらの重み付けをした各特徴量の和の値に基いて
    特定の記載ォーマットの文字行領域を判断する、 ことを特徴とする文字行領域抽出方法。
  10. 【請求項10】 文字行領域を抽出する対象となる画像
    を入力し、 この入力した画像から複数の文字行を抽出し、 これらの抽出した複数の文字行から文字行領域候補を抽
    出し、 これらの抽出した文字行領域候補に対して、特定の記載
    ォーマットの文字行領域における種々の特徴に着目した
    各特徴量を判断し、 これらの判断した各特徴量に、特徴に応じた係数を乗算
    し、これらの係数を乗算した各特徴量の和の値に基いて
    特定の記載ォーマットの文字行領域を判断し、 この判断による特定の記載ォーマットの文字行領域結果
    に基いて、上記各特徴量に乗算する係数を決定する、 ことを特徴とする文字行領域抽出に用いられる学習方
    法。
JP26366799A 1999-09-17 1999-09-17 文字行領域抽出方法と文字行領域検出に用いられる学習方法 Pending JP2001092921A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26366799A JP2001092921A (ja) 1999-09-17 1999-09-17 文字行領域抽出方法と文字行領域検出に用いられる学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26366799A JP2001092921A (ja) 1999-09-17 1999-09-17 文字行領域抽出方法と文字行領域検出に用いられる学習方法

Publications (1)

Publication Number Publication Date
JP2001092921A true JP2001092921A (ja) 2001-04-06

Family

ID=17392676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26366799A Pending JP2001092921A (ja) 1999-09-17 1999-09-17 文字行領域抽出方法と文字行領域検出に用いられる学習方法

Country Status (1)

Country Link
JP (1) JP2001092921A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164320A (ja) * 2013-02-21 2014-09-08 Mitsubishi Electric Corp 文字認識装置および文字認識方法
JP2017138989A (ja) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
WO2018003153A1 (ja) * 2016-06-30 2018-01-04 株式会社日立ソリューションズ 認識装置及び認識方法
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014164320A (ja) * 2013-02-21 2014-09-08 Mitsubishi Electric Corp 文字認識装置および文字認識方法
JP2017138989A (ja) * 2016-02-03 2017-08-10 株式会社ストラッドビジョン 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
WO2018003153A1 (ja) * 2016-06-30 2018-01-04 株式会社日立ソリューションズ 認識装置及び認識方法
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
JP2020191057A (ja) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. レイアウト解析方法、読書補助装置、回路及び媒体

Similar Documents

Publication Publication Date Title
US20090041361A1 (en) Character recognition apparatus, character recognition method, and computer product
US8422793B2 (en) Pattern recognition apparatus
EP1345162A2 (en) Character recognition system and method
CN109740606B (zh) 一种图像识别方法及装置
CN109343920B (zh) 一种图像处理方法及其装置、设备和存储介质
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
JPH0830732A (ja) 文字認識方法
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
CN109389115A (zh) 文本识别方法、装置、存储介质和计算机设备
Ramirez et al. Automatic recognition of square notation symbols in western plainchant manuscripts
JP5365065B2 (ja) 辞書作成装置
JP4140221B2 (ja) 画像照合装置および画像照合プログラム
JP2001092921A (ja) 文字行領域抽出方法と文字行領域検出に用いられる学習方法
US7386172B2 (en) Image recognition method
CN112287763A (zh) 图像处理方法、装置、设备及介质
JP2000306045A (ja) 単語認識装置
JP5880472B2 (ja) 画像処理装置及びプログラム
Kumar et al. A comparative Analysis of Feature Extraction Algorithms and Deep Learning Techniques for Detection from Natural Images
Suters et al. Connected handwritten digit separation using external boundary curvature
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
JP2003115028A (ja) 帳票識別辞書自動生成方法及び帳票処理システム
JP3442223B2 (ja) 文字認識方法
JP2004005761A (ja) キーワード抽出・検索装置
CA2421673C (en) Character recognition system and method