JP2003256769A - 数式認識装置および数式認識方法 - Google Patents

数式認識装置および数式認識方法

Info

Publication number
JP2003256769A
JP2003256769A JP2002060754A JP2002060754A JP2003256769A JP 2003256769 A JP2003256769 A JP 2003256769A JP 2002060754 A JP2002060754 A JP 2002060754A JP 2002060754 A JP2002060754 A JP 2002060754A JP 2003256769 A JP2003256769 A JP 2003256769A
Authority
JP
Japan
Prior art keywords
character
coordinates
line
characters
mathematical expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002060754A
Other languages
English (en)
Other versions
JP4181327B2 (ja
Inventor
Masakazu Suzuki
昌和 鈴木
Hiroko Eto
裕子 江藤
Haruo Murakami
玄生 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002060754A priority Critical patent/JP4181327B2/ja
Publication of JP2003256769A publication Critical patent/JP2003256769A/ja
Application granted granted Critical
Publication of JP4181327B2 publication Critical patent/JP4181327B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】文字認識結果の誤りや特殊フォント文字による
影響を受けにくい数式構造解析を実現する。 【解決手段】数式検出部114は、添え字構造の判定を
行うために行中心帯検出部201および添字判定部20
2を有している。行中心帯検出部201では、数式を含
む各行毎に、その行内に属する複数の文字それぞれの中
心部座標のヒストグラムが作成され、その最大ピーク値
が当該行の中心帯を為す中心帯座標として決定される。
添え字判定部202では、個々の文字の文字認識結果は
一切使用されず、行内の各文字の外接矩形とその行の中
心帯座標との上下関係に基づいて各文字毎に添え字構造
の判定が行われる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書イメージ中に含
まれる数式を認識するための数式認識装置および数式認
識方法に関する。
【0002】
【従来の技術】従来より、印刷文書の数式構文を認識す
るための数式認識手法がいくつか提案されている。数式
を構成する文字は1次元的に並んでいるわけではなく、
添え字やべき乗、分数線の上下など、2次元的な並びと
なっている。よって、数式認識においては、添え字、水
平の関係を判定する技術が重要となる。
【0003】ここで、数式「a+b」において「a」と
「+」、「+」と「b」のように隣り合った文字間の関係
を水平の関係、また、数式「A」の「A」と「2」の
ように一方の文字の右(左)上にもう一方の文字がある場
合を上付き添え字の関係、数式「A」の「A」と
「2」のように一方の文字の右(左)下にもう一方の文字
がある場合を下付き添え字の関係と呼ぶことにする。
【0004】印刷文書の数式構文を認識する手法として
は、文字認識の結果を使って数式の先頭から順に添え
字、水平の関係を決めていく方法が知られている。この
手法は例えば以下に示す文献[1][2][3]に報告されてい
る。
【0005】文献[1] 岡本正行、トワキョンド ムサ
フィリ ハシム、“周辺分布特徴を用いた数式構造認
識”、信学論、J78-D-II、No.2、pp366-370(1995-2) 文献[2] 岡本正行、東 裕之「記号レイアウトに注目
した数式構造認識」、信学論、J-78D-II、No.3、pp474-
482(1995-3) 文献[3] 中山優幸、福田亮治、鈴木昌和、玉利文和:
「数学記号の特徴を用いた数式の水平分割による数式構
造解析」、信学技報 PRMU2002-202(2001-03)pp.15-22 しかし、これら文献の手法では「文字の誤認識がない」
または「すべて訂正されている」ことを前提としてい
る。このため、文字の誤認識が発生すると、数式構文解
析に誤りが生じる。また、最近では、誤認識の影響を考
慮した方法として、仮想リンクネットワークを用いた方
法(文献[4])も本発明者らによって提案されている。
【0006】文献[4] 江藤裕子、笹井真樹、鈴木昌
和、“仮想リンクネットワークを用いた数式構文認
識”、信学技報、PRMU2002-202(2001-03) pp.7-14 しかし、添え字、水平の判定にはやはり、文字認識の結
果を使っているため特殊なフォントの文字が含まれた数
式の構文解析をする際には、誤ることが多い。
【0007】具体的に述べると、文献[4]の手法では文
字認識結果とその候補文字を使って数式認識を行う。前
後の文字間の候補文字の組み合わせをも考慮し、文書イ
メージ上における前後の文字の相対的な大きさと位置関
係を見ながら、水平の関係、添え字関係の中で最も妥当
性の高い関係を決定していく仕組みになっている。この
場合、前後の文字それぞれの文字認識結果を用いて、そ
れら文字間の本来の文字サイズの関係が調べられる。そ
して前後の文字間の本来の文字サイズの関係を基準に、
文書イメージ上における実際の文字間の相対的な大きさ
と位置関係が判定される。
【0008】このため、例えば図10に示すように、通
常フォントであれば同じ文字サイズ同士の文字である
「I」と、「6」、「5」が連続する文字列において、
文字「I」として、文字サイズが小さな特殊フォント文
字が使用されているような場合には、水平の関係である
「I」と「65」が例えば上付添え字の関係にあると誤
認識され、「I65」という認識結果が得られてしまう
場合がある。もし先頭の文字「I」の文字認識結果の候
補文字に例えば「a」(または「c」,「e」)のよう
に小さいサイズの文字があれば、その文字は後続する
「6」、「5」よりも本来文字サイズが小さい文字であ
ることから、上付添え字の関係にあるとの誤認識の発生
は防ぐことが可能となるものの、「a65」という誤認
識が生じることになる。
【0009】
【発明が解決しようとする課題】上述のように、従来で
は、数式認識手法が文字認識結果に依存していたので、
文字認識結果の誤りや特殊フォントに起因する数式構文
解析の誤りを防ぐことができなかった。数式構造解析に
おいては、文字の誤認識や特殊フォントによる影響を最
も受けるのは添え字構造の判定であり、その添え字構造
の判定のミスが全体の数式構造解析を大きく崩してしま
うことになる。
【0010】本発明は上述の事情を考慮してなされたも
のであり、文字認識結果の誤りや特殊フォント文字によ
る影響を受けにくい数式構造解析を実現することが可能
な数式認識装置および数式認識方法を提供することを目
的とする。
【0011】
【課題を解決するための手段】上述の課題を解決するた
め、本発明の数式認識装置は、数式を含む文書イメージ
の文字認識を行う文字認識手段と、数式を含む行内に属
する複数の文字それぞれの中心部座標を各文字の文字認
識結果とその位置情報とを用いて算出し、その算出した
複数の文字それぞれの中心部座標のヒストグラムに基づ
き前記行の中心帯を為す中心帯座標を決定する中心帯座
標決定手段と、前記行内の各文字の外接矩形と前記中心
帯座標決定手段によって決定された中心帯座標との上下
関係に基づき、前記各文字毎に添え字構造の判定を行う
添え字判定手段とを具備することを特徴とする。
【0012】この数式認識装置においては、まず、文書
イメージ上における数式を含む各行を対象に、その行内
に属する複数の文字それぞれの中心部座標が算出され
る。この場合、各文字の中心部座標は、その文字の文字
認識結果と位置情報とを用いて算出される。これによ
り、文字類の違いによらずに正しい中心部座標を求める
ことが出来る。そして、その算出された複数の文字それ
ぞれの中心部座標のヒストグラムに基づいて、当該行の
中心帯を為す中心帯座標が決定される。これにより、複
数の文字それぞれの中心部座標の統計的な値を基にその
行の中心帯座標が定められることになるので、個々の文
字の中心部座標の値が文字認識結果の誤りや特殊フォン
トによって影響されても、各行毎にその中心帯座標を正
しく得ることが出来る。
【0013】そして、添え字判定では、個々の文字の文
字認識結果は一切使用されず、行内の各文字の外接矩形
と行の中心帯座標との上下関係に基づいて各文字毎に添
え字構造の判定が行われ、それが水平文字、上付添え
字、下付添え字のいずれであるかが決定されて行く。よ
って、文字認識結果の誤りや特殊なフォントが混ざった
数式でも、それらの影響を受けずに安定した数式認識を
行うことが可能となる。
【0014】各文字の中心部座標としては、当該各文字
をアセンダーおよびディセンダーの双方を持たない文字
類であると想定した場合におけるその外接矩形の上端位
置および下端位置を用いることが好ましい。これによ
り、例えば「a」,「c」,「e」のようにアセンダー
とディセンダーの双方を持たない小文字類の外接矩形
(アセンダーとディセンダーとの間に存在する中間部)
の上端位置と下端位置の座標を行の中心帯として定める
ことが出来る。この場合、水平位置文字については、そ
の外接矩形はアセンダーとディセンダーとの間の中間部
に対応する行の中心帯を完全に含むか、あるいはその中
心帯に完全に含まれるのに対し、上付添え字文字の外接
矩形は行の中心帯に対し上側に位置し、また下付添え字
文字の外接矩形は行の中心帯に対して下側に位置するこ
とになる。よって、最終的な添え字判定では、個別の文
字毎にその文字認識結果を用いてその大きさや中心位置
などを求めることなく、各文字の外接矩形と行の中心帯
座標との位置関係を考慮するのみで添え字構造を判定す
ることが可能となる。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。図1は本発明の一実施形態に
係る文字認識システムの構成が示されている。この文字
認識(OCR)システム11は、例えば数学書などに代
表されるような数式を含む印刷文書の認識を行うための
ものであり、印刷文書をスキャナ装置10を用いて読み
取り、その文書内のテキストおよび数式それぞれについ
ての認識処理を行って、数式データとテキストデータと
を含む電子化文書データを認識結果として出力する。読
み取り対象の文書は印刷文書のみならず、既にイメージ
データ化された数式混じりの文書イメージについても読
み取り対象となる。
【0016】このOCRシステム11はコンピュータ上
で実行されるソフトウェアとして実現されており、その
機能モジュールとして、図示のように、レイアウト解析
部111、文字認識部112、数式/テキスト領域分割
部113、数式認識部114、および出力部115を有
している。
【0017】認識処理は、1)文書イメージのスキャ
ン、2)レイアウト解析処理、3)文字認識処理、4)
数式/テキスト領域分割処理、5)数式認識処理、6)
出力処理、の順で行われる。本実施形態では、特に数式
認識処理の実現方法に特徴を有している。
【0018】数式認識部114による数式認識処理で
は、分数(−)、根号(√)、上下限式(Σ,lim )の
処理や、アクセント記号(~,^,)の処理、添え字かどうか
の判定などが行われる。分数、根号、上下限式、アクセ
ント等の処理は文字認識結果の影響を受けることが少な
いので、上記各文献[1]〜[4]の手法で十分に精度良く行
うことが出来る。したがって、以下では、数式認識部1
14による添え字構造の判定方法について説明すること
とする。
【0019】数式認識部114は、文字認識結果の誤り
や特殊フォント文字による影響を受けずに添え字構造の
判定を行うために、行中心帯検出部201、および添え
字判定部202を有している。行中心帯検出部201
は、数式を含む各行毎に、その行の中心帯を為す中心帯
座標を検出するための行中心帯検出処理を実行する。各
行の中心帯は、その行内に属する複数の英数文字それぞ
れの中心部座標の統計的な値を基に定められる。数式認
識部114による行中心帯検出処理では、まず、数式を
含む行内に属する複数の文字それぞれの中心部座標が算
出される。この場合、文字類の違いによらずに正しい中
心部座標を求めるために、各文字の中心部座標は、その
文字の文字認識結果と位置情報とを用いて算出される。
そして、その算出された複数の文字それぞれの中心部座
標のヒストグラムに基づいて、当該行の中心帯を為す中
心帯座標が決定される。
【0020】添え字判定部202は、各文字毎にそれが
水平文字、上付添え字、下付添え字のいずれに該当する
ものであるかを判定するための添え字判定処理を行う。
この添え字判定処理では、個々の文字の文字認識結果は
一切使用されず、行内の各文字の外接矩形と行の中心帯
座標との上下関係に基づいて各文字毎に添え字構造の判
定が行われる。
【0021】このように、同一行内に属する複数の文字
それぞれの文字認識結果はそれら文字の中心部座標を求
めるためにのみ使用し、文字毎の個別の添え字判定で
は、文字認識結果を使わずに、複数の文字それぞれの中
心部座標の統計的な値を基に定めた行中心帯座標と各文
字の外接矩形との位置関係のみが考慮される。
【0022】次に、図2のフローチャートを参照して、
具体的な処理の流れについて説明する。先ず、数式を含
む印刷文書をスキャナ装置10で読み取ることにより、
数式を含む文書のページイメージが得られる。このペー
ジイメージを対象に以下の処理が行われる。まず、ステ
ップS101にてレイアウト解析・文字認識処理が実行
される。ここでは、最初にレイアウト解析部111によ
るレイアウト解析が行われ、入力されたページイメージ
(原画像)が、例えば、タイトル領域、本文領域、ヘッ
ダ/フッタ領域、図領域、表領域などに分割される。通
常、数学書などのページイメージにおいては、図3に示
すように、その本文領域内にはテキストと数式が混在し
た文章が多数含まれている。そして、タイトル領域、本
文領域、ヘッダ/フッタ領域などの文章領域に対して文
字認識部112による文字認識処理が行われる。この文
字認識処理では、ヒストグラムなどに基づく行の切り分
けおよび文字の切り出し、そして1文字単位での文字認
識が行われる。この後、ステップS102にて数式/テ
キスト領域分割部113による数式/テキスト領域分割
処理が実行される。
【0023】数式/テキスト領域分割処理では、文字認
識結果を用いることにより本文領域に含まれる各単語毎
にそれがテキスト(Text)であるか、数式(Mat
h)であるかが判別される。これにより、図3に示され
ているように、原画像上の本文領域に含まれる単語それ
ぞれがテキスト領域(Text)と数式領域(Mat
h)とに分けられる。例えば、特定の記号や英数字を含
む単語であるか否かによって数式/テキスト領域の判定
を行ったり、あるいは、全ての単語種別毎にそれがテキ
ストである可能性と数式である可能性をそれぞれ示す評
価値を予め用意しておき、その評価値と各単語の文字認
識結果とを用いて数式/テキスト領域の判定を行っても
良い。
【0024】次に、数式認識部114により数式構造認
識処理(ステップS103〜S105)が行われる。こ
の数式構造認識処理では、上述したように、分数、根
号、上下限式の処理や、アクセント記号の処理、添え字
かどうかの判定などが行われる。本実施形態にいては、
添え字構造の判定は以下の3段階で行う。
【0025】1. 本文文字サイズ検出処理(図4の
x, y, z, NSize の取得) 2. 行の中心部の検出 3. 添字の決定 <ステップS103: 本文文字サイズ検出>この処理
では、本文領域内に含まれるテキスト文字の文字サイズ
が検出される。具体的には、本文領域内のテキスト領域
中の各英数字を対象に文字サイズ検出処理を行うことに
より、テキスト領域に含まれるテキスト文字に関する文
字サイズとして、アセンダーサイズ(図4の x )、デ
ィセンダーサイズ(図4の z )、アセンダーとディセ
ンダーを除外した中心部(アセンダーとディセンダーの
間に存在する部分)のサイズ(図4の y )、アセンダ
ーおよびディセンダーの双方を持つ文字類であると想定
した場合におけるその文字高さを示す正規化サイズ(図
4の NSize )が求められる。
【0026】図4の x,y,z はアルファベット4線上に
おける英数文字の位置に基づいて定められるものであ
る。すなわち、アルファベット4線上において、上側の
2線間に挟まれたアセンダー部のサイズ(高さ)が図4
の x となり、中央の2線間に挟まれた中心部のサイズ
(高さ)が図4の y となり、そして下側の2線間に挟
まれたディセンダー部のサイズ(高さ)が図4の z と
なる。
【0027】本文文字サイズ検出処理では、まず、ペー
ジイメージ(原画像)上の本文領域内におけるテキスト
領域中に存在する全ての英数字(ギリシャ文字はのぞく)
を対象に、その文字認識結果と原画像上の文字サイズ
(外接矩形(図5)の高さ)とを基に、アセンダーを持つ
文字類(数字や大文字、b, d, h など)と、ディセンダ
ーを持つ文字類( g, p, q, y など)と、アセンダーお
よびディセンダーのどちらも持たない小文字類( a, c,
e など)と、アセンダーおよびディセンダーの双方を
持つ文字類(イタリック体のfなど)とに分けて、外接
矩形の高さのヒストグラムをとる。
【0028】アセンダーおよびディセンダーのどちらも
持たない文字に関する外接矩形の高さのヒストグラムの
最大ピーク値を本文テキスト文字の y とする。次に、
アセンダーをもつ文字の外接矩形の高さのヒストグラム
およびディセンダーをもつ文字の外接矩形の高さのヒス
トグラムそれぞれから最大ピークを求め、先に求めたy
の値を引いたものをそれぞれ本文テキスト文字の x, z
とする。
【0029】以上の処理で、本文領域で用いられている
テキスト文字、つまり本文文字の x,y,z を求めること
ができる。x,y,zの合計値がNSize となる。ギリシャ文
字にもx,y,z の区別はあるが、印刷によっては同じペー
ジに印刷された英数字の x,y,z と大きくサイズが異な
る場合があるのでこの処理の対象としない。
【0030】<ステップS104: 行の中心部の検出
>上述した行中心帯座標の検出処理は、本文領域中にお
ける数式を含む各行毎に行われる。まず、数式を含む行
内に属する各文字毎に、その文字認識の結果と文字外接
矩形の位置情報を基に、その文字の中心部座標(図5の
y1,y2)を求める。各文字の y1,y2 は、当該各文字をア
センダーおよびディセンダーの双方を持たない文字類で
あると想定した場合におけるその外接矩形の上端および
下端それぞれの y 座標を示す。つまり、アルファベッ
ト4線上における中央の2線で挟まれた中央部の上端の
y座標が y1 であり、下端のy座標が y2 である。y2 は
当該文字のベースライン位置を示している。
【0031】これら y1,y2 は、ページイメージ(原画
像)上における各文字の外接矩形の上端、下端のy座標
をそれぞれ ys,ye とすると、ステップS103で求め
た x,y,z を用いて、以下の式で求めることができる。
また、あとで使用する文字の正規化サイズ( x,y,z部を
含んだサイズ。図3のNSize)を求めるための式もあわせ
て示す。
【0032】・アセンダーおよびディセンダーのどちら
も持たない文字類の場合 y1 = ys y2 = ye NSize = (ye-ys)*(x+y+z)/y NSize は、アセンダーおよびディセンダーの双方を持つ
文字類であると想定した場合におけるその文字高さを示
す正規化サイズであるので、実際のイメージ上における
外接矩形の文字高さ(ye-ys)に、(x+y+z)/yを乗じること
によって求められる。
【0033】・アセンダーを持つ文字類の場合 y1 = ys + (ye-ys)*x/(x+y) y2 = ye NSize = (ye-ys)*(x+y+z)/(x+y) y1 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関するアセンダー部(x)と中央部
(y)との合計サイズ(x+y)に対するアセンダー部(x)の占
める比率(x/(x+y))を乗じ、それを外接矩形の上端の
y 座標(ys)に加算することにより求められる。NSize
は、実際のイメージ上における外接矩形の文字高さ(ye-
ys)に、(x+y+z)/(x+y)を乗じることによって求められ
る。
【0034】・ディセンダーを持つ文字類 y1 = ys y2 = ys + (ye-ys)*y/(y+z) NSize = (ye-ys)*(x+y+z)/(y+z) y2 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関する中央部(y)とディセンダー
部(z)の合計サイズ(y+z)に対する中央部(y)の占める比
率(y/(y+z))を乗じ、それを外接矩形の上端の y 座標
(ys)に加算することにより求められる。NSize は、実
際のイメージ上における外接矩形の文字高さ(ye-ys)
に、(x+y+z)/(y+z)を乗じることによって求められる。
【0035】・アセンダーおよびディセンダーの双方を
持つ文字類の場合 y1 = ys + (ye-ys)*x/(x+y+z) y2 = ys + (ye-ys)*(x+y)/(x+y+z) NSize = ye-ys y1 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関するアセンダー部(x)と中央
部(y)とディセンダー部(z)の合計サイズ(x+y+z)に対す
るアセンダー部(x)の占める比率(x/(x+y+z))を乗
じ、それを外接矩形の上端の y 座標(ys)に加算する
ことにより求められる。また y2 は、実際のイメージ上
における外接矩形の文字高さ(ye-ys)に、本文文字に関
するアセンダー部(x)と中央部(y)とディセンダー部
(z)の合計サイズ(x+y+z)に対する、アセンダー部(x)
と中央部(y)の合計サイズ(x+y)の占める比率((x+y)/(x
+y+z))を乗じ、それを外接矩形の上端の y 座標(ys)
に加算することにより、求められる。
【0036】各文字毎に求めた y1,y2 の値から y1,y2
それぞれに関するヒストグラムを作成する。そして、y
1,y2 それぞれに関するヒストグラムに基づき、最も出
現頻度の高い y1,y2 の値がその行の中心帯座標 y1,y2
として定められる。図6には、数式を含む行1内に含ま
れる文字それぞれの y1 のヒストグラムの例が示されて
いる。ヒストグラムの最大ピークは y=103 であるの
で、行1の y1 はy=103であると定められる。
【0037】ここで重要な点は、複数文字分の y1,y2
のヒストグラムを用いることにより1行の中に誤認識文
字が含まれていたとしても、その行の中心帯座標 y1,y2
としては正しい値が得られるということである。中心
帯座標y1とy2の間の領域が、その行の中心帯となる。こ
の中心帯はその行内の複数の文字それぞれの中心部が実
際に存在している領域である。また、中心帯に傾きがあ
る場合には、各行の左の部分と右の部分でそれぞれ中心
帯座標 y1,y2 を求めて平均を取り、傾き補正を掛ける
ことで中心帯座標の傾きによるずれを補正することが出
来る。
【0038】なお、実際には、 y1,y2 それぞれに関す
るヒストグラムの作成に際しては、NSize が本文文字の
NSize に比し所定量以上異なる文字(たとえば1割以
上小さい文字、1割以上大きい文字)は、ヒストグラム
の作成対象から除外される。通常、添え字文字はベース
ライン上の文字よりも小さいので、添え字文字の y1,y2
の値をヒストグラムの作成対象から除外することで、各
行の y1,y2 を正しく求めることが可能となる。さら
に、数式を含む行内に分数線が存在する場合には、その
分数線の上下の文字(分母分子領域内の文字)も、ヒス
トグラムの作成対象から除外される。
【0039】このような除外処理も含めた行中心帯座標
検出処理の具体的な手順の一例を図7に示す。ここで
は、本文領域中における数式を含む各行毎に以下の処理
が実行される。まず、対象となる行内の各文字(英数
字)の NSize が上記した式に基づいて求められ(ステ
ップS201)、その NSize が本文文字の NSize に比
べ極端に大きい文字または小さい文字(具体的には、上
述したように本文文字の NSize よりも1割以上小さい
文字または1割以上大きい文字)は行中心帯座標の検出
処理対象から除外される(ステップS202)。次い
で、当該行内に分数線が存在するかどうかが文字認識結
果に基づいて判定され、その分数線の上下の文字(分母
分子領域内の文字)が行中心帯座標の検出処理対象から
除外される(ステップS203)。この後、残りの各文
字それぞれの中心部座標 y1,y2 が上記した式に基づい
て求められ(ステップS204)、各文字毎に算出され
た中心部座標 y1,y2 それぞれのヒストグラムが作成さ
れる(ステップS205)。そして、y1,y2 それぞれの
ヒストグラムのピーク値がその行の y1,y2 として定め
られる(ステップS206)。以上の処理を数式領域を
含む行毎に再帰的に繰り返し実行することにより、数式
領域を含む行それぞれについての y1,y2 が求められ
る。
【0040】<ステップS105: 添え字の決定>図
2のステップS105では、添え字構造を判定するため
の添字判定処理が実行される。この添字判定処理では、
判定対象となっている行内の各文字毎に、その文字の外
接矩形とその行の中心帯座標 y1,y2 との上下関係に基
づき、各文字毎に添え字構造の判定が行われる。具体的
な手順を図8のフローチャートを参照して説明する。
【0041】まず、各文字についてその外接矩形がその
行の中心帯(y1 と y2 の間の部分)をほぼ完全に含む
ものであるかどうかが判別される(ステップS30
1)。例えば、図9において、判定対象となっている行
内の先頭から4番目の文字#4(「y」)と7番目の文
字#7(「f」)はその外接矩形が行の中心帯を完全に
含んでいるので、4番目の文字#4「y」と7番目の文
字#7「f」はそれぞれベースライン上に存在する水平
文字であると判定される(ステップS303)。この場
合、各文字の文字認識結果については一切考慮されず、
文書イメージ上における文字(黒連結成分)の外接矩形
の上端および下端それぞれy座標の値と、行の中心帯座
標 y1,y2 の値のみで判定が行われる。
【0042】次に、各文字についてその外接矩形がその
行の中心帯の間にほぼ完全に含まれるか否かが判別され
る(ステップS302)。例えば、図9において、先頭
の文字#1「c」、2番目の文字#2「x」、6番目の
文字#6「+」はその外接矩形が中心帯の間に完全に含
まれているので、ベースライン上に存在する水平文字で
あると判定される(ステップS303)。
【0043】外接矩形がその行の中心帯をほぼ完全に含
むものである文字、または行の中心帯内にほぼ完全に含
まれる文字のどちらにも該当しない文字については、そ
の外接矩形が、行の中心帯に対して上側に位置するか、
下側に位置するかが判別され(ステップS304)、そ
の判別結果に基づいて上付き添え字と下付き添え字のい
ずれであるかが判定される(ステップS305,S30
6)。例えば図9において、先頭から3番目の文字#3
「2」、5番目の文字#5「3」は外接矩形が中心帯の
上側に位置しているので上付き添え字であると判定され
(ステップS305)、8番目の文字#8「x」は外接
矩形が中心帯の下側に位置しているので下付き添え字で
あると判定される(ステップS306)。
【0044】このように、文字認識結果は使用されず、
各文字の外接矩形と行の中心帯座標y1,y2 との上下関係
のみに基づいて添え字構造の判定が行われる。このこと
によって、従来法では誤って添え字であると判断されて
いた図10に示すような特殊フォントの文字を含む場合
も正しく判定することができる。すなわち、従来法では
「I」、「6」、「5」がそれぞれ正しく文字認識され
ても「I65」という誤った数式構造の認識結果となっ
たが、本実施形態の方法では、「I」、「6」、「5」
がそれぞれ水平文字であると判定されるので、「I」、
「6」、「5」がそれぞれ正しく文字認識されたなら
ば、「I65」という水平位置関係の数式構造として正
しく認識される。もし文字認識に誤りがあったとして
も、水平位置関係の数式構造であると認識される。
【0045】特殊フォント文字を含む文字列から成る数
式は様々考えられるが、どの場合においてもその特殊フ
ォント文字による数式構造の誤認識を防止することが出
来る。
【0046】次に、分母分子領域に対する数式構造の認
識について説明する。行中心帯を求め、その行中心帯と
各文字の外接矩形との上下関係に基づいて添え字判定を
行うという本実施形態の方法は、分母分子領域の文字列
に対しても同様にして適用することが出来る。すなわ
ち、本文領域内に分数式が存在する場合には、図11に
示すように、その分母領域の文字列から成る行と、分子
領域の文字列から成る行の各々について、行中心帯座標
y1,y2 が求められる。そして、分母分子の各行毎に添
え字判定が行われる。手順を図8のフローチャートに示
す。
【0047】分数式が存在する場合(ステップS401
のYES)、まず、その分数線の下側の分母領域の英数
文字それぞれの中央部座標 y1,y2 のヒストグラムが作
成され、それらy1,y2 のヒストグラムに基づいて分母領
域の行の中心帯座標 y1,y2が決定される(ステップS4
02)。そして、分母領域の各文字の外接矩形と分母領
域の行の中心帯座標 y1,y2 との位置関係によって、分
母領域の各文字毎に添え字判定が行われる(ステップS
403)。次いで、分数線の上側の分子領域の英数文字
それぞれの中央部座標 y1,y2 のヒストグラムが作成さ
れ、それら y1,y2 のヒストグラムに基づいて分子領域
の行の中心帯座標 y1,y2 が決定される(ステップS4
04)。そして、分子領域の各文字の外接矩形と分子領
域の行の中心帯座標 y1,y2 との位置関係によって、分
子領域の各文字毎に添え字判定が行われる(ステップS
405)。
【0048】以上の処理を本文領域中の全ての分数線を
対象に再帰的に繰り返し行うことにより、全ての分数式
の分母分子領域の添え字構造を判定することが出来る。
【0049】以上説明したように、本実施形態によれ
ば、同一行内に属する複数の文字それぞれの文字認識結
果はそれら文字の中心部座標を求めるためにのみ使用
し、文字毎の個別の添え字判定では、文字認識結果を使
わずに、同一行内に属する複数の文字それぞれの中心部
座標の統計的な値を基に定めた行中心帯座標と各文字の
外接矩形との位置関係のみを考慮することにより、文字
認識結果の誤りや特殊なフォントが混ざった数式でも、
それらの影響を受けずに安定した数式認識を行うことが
可能となる。
【0050】なお、数式認識部114を含む本実施形態
のOCRシステム11の機能はすべてソフトウェアによ
って実現できるので、上述の各処理手順をコンピュータ
に実行させるプログラムを用意し、それをコンピュータ
読み取り可能な記憶媒体に記憶すると共に、その記憶媒
体を通じてコンピュータに導入して実行するだけで、本
実施形態と同様の効果を容易に得ることができる。
【0051】また、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。更に、上記実施
形態には種々の段階の発明が含まれており、開示される
複数の構成要件における適宜な組み合わせにより種々の
発明が抽出され得る。例えば、実施形態に示される全構
成要件から幾つかの構成要件が削除されても、発明が解
決しようとする課題の欄で述べた課題が解決でき、発明
の効果の欄で述べられている効果が得られる場合には、
この構成要件が削除された構成が発明として抽出され得
る。
【0052】
【発明の効果】以上詳述した如く本発明によれば、文字
認識結果の誤りや特殊フォント文字による影響を受けに
くい数式構造解析を実現することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るOCRシステムの機
能構成を示すブロック図。
【図2】同実施形態における数式検出方法の手順を示す
フローチャート。
【図3】同実施形態における数式/テキスト分割処理で
文書イメージを単語毎に数式/テキスト領域に分割する
様子を示す図。
【図4】同実施形態における本文文字サイズを説明する
ための図。
【図5】同実施形態における各文字の外接矩形の中心部
座標を説明するための図。
【図6】同実施形態において同一行内の複数文字それぞ
れの中心部座標から作成されるヒストグラムの一例を示
す。
【図7】同実施形態で用いられる行中心帯検出処理の手
順を説明するためのフローチャート。
【図8】同実施形態で用いられる添え字判定処理の手順
を説明するためのフローチャート。
【図9】同実施形態における添え字判定処理の原理を示
す図。
【図10】同実施形態の数式認識による数式構造認識結
果の一例を示す図。
【図11】同実施形態の数式認識を分数式に適用した場
合の様子を示す図。
【図12】同実施形態の数式認識を分数式に適用した場
合の処理手順の一例を示すフローチャート。
【符号の説明】
11…OCRシステム 111…レイアウト解析部 112…文字認識部 113…数式/テキスト領域分割部 114…数式認識部 201…行中心帯検出部 202…添字判定部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 江藤 裕子 東京都青梅市末広町2丁目9番地 株式会 社東芝青梅工場内 (72)発明者 村上 玄生 福岡県福岡市東区箱崎6丁目10番1号 九 州大学内 Fターム(参考) 5B064 AA01 AB02 AB13 AB17 AB18

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 数式を含む文書イメージの文字認識を行
    う文字認識手段と、 数式を含む行内に属する複数の文字それぞれの中心部座
    標を各文字の文字認識結果とその位置情報とを用いて算
    出し、その算出した複数の文字それぞれの中心部座標の
    ヒストグラムに基づき前記行の中心帯を為す中心帯座標
    を決定する中心帯座標決定手段と、 前記行内の各文字の外接矩形と前記中心帯座標決定手段
    によって決定された中心帯座標との上下関係に基づき、
    前記各文字毎に添え字構造の判定を行う添え字判定手段
    とを具備することを特徴とする数式認識装置。
  2. 【請求項2】 前記各文字の中心部座標は、当該各文字
    をアセンダーおよびディセンダーの双方を持たない文字
    類であると想定した場合におけるその外接矩形の上端位
    置および下端位置を示すものであることを特徴とする請
    求項1記載の数式認識装置。
  3. 【請求項3】 前記数式を含む文書イメージ内のテキス
    ト領域に含まれる各文字の文字サイズとその文字認識結
    果とに基づいて、前記文書イメージ内におけるテキスト
    文字に関する、アセンダーサイズ、ディセンダーサイ
    ズ、アセンダーとディセンダーを除外した中心部のサイ
    ズ、アセンダーおよびディセンダーの双方を持つ文字類
    であると想定した場合におけるその文字高さを示す正規
    化サイズ、を含む文字サイズ情報を検出する文字サイズ
    検出手段をさらに具備し、 前記中心帯座標決定手段は、 数式を含む行内に属する各文字毎に、その文字認識結果
    に基づいて判定される当該文字の該当する文字類と、そ
    の外接矩形の上端位置および下端位置と、前記文字サイ
    ズ検出手段によって検出された前記文書イメージ内にお
    けるテキスト文字の文字サイズ情報とに基づいて、当該
    各文字をアセンダーおよびディセンダーの双方を持たな
    い小文字類であると想定した場合におけるその外接矩形
    の上端位置および下端位置を前記中心部座標として算出
    する手段と、 前記各文字毎に算出された中心部座標のヒストグラムを
    作成する手段と、 前記作成されたヒストグラムに基づいて、最も出現頻度
    の高い上端位置および下端位置それぞれの座標を前記行
    の中心帯を為す中心帯座標として決定する手段とを含む
    ことを特徴とする請求項1記載の数式認識装置。
  4. 【請求項4】 前記中心帯座標決定手段は、 前記数式を含む行内に属する各文字毎に、当該文字がア
    センダーおよびディセンダーの双方を持つ文字類である
    と想定した場合におけるその文字高さを示す正規化サイ
    ズを算出する手段と、 前記数式を含む行内に属する文字の内、その正規化サイ
    ズが前記文字サイズ検出手段によって算出されたテキス
    ト文字の正規化サイズに比し所定量以上異なる文字を、
    前記中心部座標のヒストグラムの作成対象から除外する
    手段とをさらに含むことを特徴とする請求項3記載の数
    式認識装置。
  5. 【請求項5】 前記中心帯座標決定手段は、 前記数式を含む行内に分数線が存在する場合、その分数
    線の上下の文字を、前記中心部座標のヒストグラムの作
    成対象から除外する手段をさらに含むことを特徴とする
    請求項1または4記載の数式認識装置。
  6. 【請求項6】 前記文書イメージ内に分数式が存在する
    場合、前記中心帯決定手段は各分数式の分子分母領域毎
    にその中心帯座標を決定し、前記添え字判定手段は前記
    分子分母領域の各文字毎に添え字構造の判定を行うこと
    を特徴とする請求項1記載の数式認識装置。
  7. 【請求項7】 数式を含む文書イメージの文字認識を行
    う文字認識ステップと、 数式を含む行内に属する複数の文字それぞれの中心部座
    標を各文字の文字認識結果とその位置情報とを用いて算
    出し、その算出した複数の文字それぞれの中心部座標の
    ヒストグラムに基づき前記行の中心帯を為す中心帯座標
    を決定する中心帯座標決定ステップと、 前記行内の各文字の外接矩形と前記中心帯座標決定ステ
    ップによって決定された中心帯座標との上下関係に基づ
    き、前記各文字毎に添え字構造の判定を行う添え字判定
    ステップとを具備することを特徴とする数式認識方法。
  8. 【請求項8】 前記各文字の中心部座標は、当該各文字
    をアセンダーおよびディセンダーの双方を持たない文字
    類であると想定した場合におけるその外接矩形の上端位
    置および下端位置を示すものであることを特徴とする請
    求項7記載の数式認識方法。
  9. 【請求項9】 前記数式を含む文書イメージ内のテキス
    ト領域に含まれる各文字の文字サイズとその文字認識結
    果とに基づいて、前記文書イメージ内におけるテキスト
    文字に関する、アセンダーサイズ、ディセンダーサイ
    ズ、アセンダーとディセンダーを除外した中心部のサイ
    ズ、アセンダーおよびディセンダーの双方を持つ文字類
    であると想定した場合におけるその文字高さを示す正規
    化サイズ、を含む文字サイズ情報を検出する文字サイズ
    検出ステップをさらに具備し、 前記中心帯座標決定ステップは、 数式を含む行内に属する各文字毎に、その文字認識結果
    に基づいて判定される当該文字の該当する文字類と、そ
    の外接矩形の上端位置および下端位置と、前記文字サイ
    ズ検出手段によって検出された前記文書イメージ内にお
    けるテキスト文字の文字サイズ情報とに基づいて、当該
    各文字をアセンダーおよびディセンダーの双方を持たな
    い文字類であると想定した場合におけるその外接矩形の
    上端位置および下端位置を前記中心部座標として算出す
    るステップと、 前記各文字毎に算出された中心部座標のヒストグラムを
    作成するステップと、 前記各文字毎に算出された中心部座標のヒストグラムを
    作成するステップと、 前記作成されたヒストグラムに基づいて、最も出現頻度
    の高い上端位置および下端位置それぞれの座標を前記行
    の中心帯を為す中心帯座標として決定するステップとを
    含むことを特徴とする請求項7記載の数式認識方法。
  10. 【請求項10】 前記中心帯座標決定ステップは、 前記数式を含む行内に属する各文字毎に、当該文字がア
    センダーおよびディセンダーの双方を持つ文字類である
    と想定した場合におけるその文字高さを示す正規化サイ
    ズを算出するステップと、 前記数式を含む行内に属する文字の内、その正規化サイ
    ズが前記文字サイズ検出ステップによって算出されたテ
    キスト文字の正規化サイズに比し所定量以上異なる文字
    を、前記中心部座標のヒストグラムの作成対象から除外
    するステップとをさらに含むことを特徴とする請求項9
    記載の数式認識方法。
  11. 【請求項11】 前記中心帯座標決定ステップは、 前記数式を含む行内に分数線が存在する場合、その分数
    線の上下の文字を、前記中心部座標のヒストグラムの作
    成対象から除外するステップをさらに含むことを特徴と
    する請求項7または10記載の数式認識方法。
  12. 【請求項12】 前記文書イメージ内に分数式が存在す
    る場合、前記中心帯決定ステップは各分数式の分子分母
    領域毎にその中心帯座標を決定し、前記添え字判定ステ
    ップは前記分子分母領域の各文字毎に添え字構造の判定
    を行うことを特徴とする請求項7記載の数式認識方法。
  13. 【請求項13】 数式認識をコンピュータに実行させる
    プログラムであって、 数式を含む文書イメージの文字認識を行う文字認識手順
    と、 数式を含む行内に属する複数の文字それぞれの中心部座
    標を各文字の文字認識結果とその位置情報とを用いて算
    出し、その算出した複数の文字それぞれの中心部座標の
    ヒストグラムに基づき前記行の中心帯を為す中心帯座標
    を決定する中心帯座標決定手順と、 前記行内の各文字の外接矩形と前記中心帯座標決定ステ
    ップによって決定された中心帯座標との上下関係に基づ
    き、前記各文字毎に添え字構造の判定を行う添え字判定
    手順とをコンピュータに実行させることを特徴とするプ
    ログラム。
  14. 【請求項14】 前記各文字の中心部座標は、当該各文
    字をアセンダーおよびディセンダーの双方を持たない文
    字類であると想定した場合におけるその外接矩形の上端
    位置および下端位置を示すものであることを特徴とする
    請求項13記載のプログラム。
JP2002060754A 2002-03-06 2002-03-06 数式認識装置および数式認識方法 Expired - Lifetime JP4181327B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002060754A JP4181327B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060754A JP4181327B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Publications (2)

Publication Number Publication Date
JP2003256769A true JP2003256769A (ja) 2003-09-12
JP4181327B2 JP4181327B2 (ja) 2008-11-12

Family

ID=28670005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060754A Expired - Lifetime JP4181327B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Country Status (1)

Country Link
JP (1) JP4181327B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015505113A (ja) * 2012-01-23 2015-02-16 マイクロソフト コーポレーション 式検出エンジン
US9858506B2 (en) 2014-09-02 2018-01-02 Abbyy Development Llc Methods and systems for processing of images of mathematical expressions
CN112541363A (zh) * 2020-11-24 2021-03-23 支付宝(杭州)信息技术有限公司 目标语言的文本数据的识别方法、装置和服务器
CN115862016A (zh) * 2023-02-16 2023-03-28 金现代信息产业股份有限公司 一种小尺寸光学字符识别方法及系统
CN118230348A (zh) * 2024-03-26 2024-06-21 北京智谱华章科技有限公司 一种含数学公式的输入文本的智能提取方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015505113A (ja) * 2012-01-23 2015-02-16 マイクロソフト コーポレーション 式検出エンジン
KR101812380B1 (ko) 2012-01-23 2017-12-26 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 공식 검출 엔진
US9928225B2 (en) 2012-01-23 2018-03-27 Microsoft Technology Licensing, Llc Formula detection engine
US9858506B2 (en) 2014-09-02 2018-01-02 Abbyy Development Llc Methods and systems for processing of images of mathematical expressions
CN112541363A (zh) * 2020-11-24 2021-03-23 支付宝(杭州)信息技术有限公司 目标语言的文本数据的识别方法、装置和服务器
CN115862016A (zh) * 2023-02-16 2023-03-28 金现代信息产业股份有限公司 一种小尺寸光学字符识别方法及系统
CN118230348A (zh) * 2024-03-26 2024-06-21 北京智谱华章科技有限公司 一种含数学公式的输入文本的智能提取方法及系统

Also Published As

Publication number Publication date
JP4181327B2 (ja) 2008-11-12

Similar Documents

Publication Publication Date Title
CN108470021B (zh) Pdf文档中表格的定位方法及装置
US6970601B1 (en) Form search apparatus and method
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP4181310B2 (ja) 数式認識装置および数式認識方法
US7705848B2 (en) Method of identifying semantic units in an electronic document
JP2006031546A (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
US7680329B2 (en) Character recognition apparatus and character recognition method
US8989485B2 (en) Detecting a junction in a text line of CJK characters
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
KR100718139B1 (ko) 영상에 포함된 문자 인식장치 및 방법
JP4181328B2 (ja) 数式認識装置および数式認識方法
JP2003256769A (ja) 数式認識装置および数式認識方法
JPH08320914A (ja) 表認識方法および装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JPH0410087A (ja) 基本ライン抽出方法
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JPH04352295A (ja) 文字列方向判別装置
JP2918666B2 (ja) 文字画像切出し方法
JP3091278B2 (ja) 文書認識方式
JPH10134141A (ja) 文書照合装置および方法
JP2995818B2 (ja) 文字切り出し方法
JP2002056357A (ja) 文字認識装置、その方法および記録媒体
JP4141217B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080829

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4181327

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130905

Year of fee payment: 5

EXPY Cancellation because of completion of term