JP2003256769A

JP2003256769A - 数式認識装置および数式認識方法

Info

Publication number: JP2003256769A
Application number: JP2002060754A
Authority: JP
Inventors: Masakazu Suzuki; 昌和鈴木; Hiroko Eto; 裕子江藤; Haruo Murakami; 玄生村上
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-03-06
Filing date: 2002-03-06
Publication date: 2003-09-12
Anticipated expiration: 2022-03-06
Also published as: JP4181327B2

Abstract

(57)【要約】【課題】文字認識結果の誤りや特殊フォント文字による
影響を受けにくい数式構造解析を実現する。【解決手段】数式検出部１１４は、添え字構造の判定を
行うために行中心帯検出部２０１および添字判定部２０
２を有している。行中心帯検出部２０１では、数式を含
む各行毎に、その行内に属する複数の文字それぞれの中
心部座標のヒストグラムが作成され、その最大ピーク値
が当該行の中心帯を為す中心帯座標として決定される。
添え字判定部２０２では、個々の文字の文字認識結果は
一切使用されず、行内の各文字の外接矩形とその行の中
心帯座標との上下関係に基づいて各文字毎に添え字構造
の判定が行われる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文書イメージ中に含
まれる数式を認識するための数式認識装置および数式認
識方法に関する。

【０００２】

【従来の技術】従来より、印刷文書の数式構文を認識す
るための数式認識手法がいくつか提案されている。数式
を構成する文字は１次元的に並んでいるわけではなく、
添え字やべき乗、分数線の上下など、２次元的な並びと
なっている。よって、数式認識においては、添え字、水
平の関係を判定する技術が重要となる。

【０００３】ここで、数式「a+b」において「a」と
「+」、「+」と「b」のように隣り合った文字間の関係
を水平の関係、また、数式「Ａ^２」の「Ａ」と「２」の
ように一方の文字の右(左)上にもう一方の文字がある場
合を上付き添え字の関係、数式「Ａ_２」の「Ａ」と
「２」のように一方の文字の右(左)下にもう一方の文字
がある場合を下付き添え字の関係と呼ぶことにする。

【０００４】印刷文書の数式構文を認識する手法として
は、文字認識の結果を使って数式の先頭から順に添え
字、水平の関係を決めていく方法が知られている。この
手法は例えば以下に示す文献[1][2][3]に報告されてい
る。

【０００５】文献[1] 岡本正行、トワキョンドムサ
フィリハシム、“周辺分布特徴を用いた数式構造認
識”、信学論、J78-D-II、No.2、pp366-370(1995-2) 文献[2] 岡本正行、東裕之「記号レイアウトに注目
した数式構造認識」、信学論、J-78D-II、No.3、pp474-
482(1995-3) 文献[3] 中山優幸、福田亮治、鈴木昌和、玉利文和：
「数学記号の特徴を用いた数式の水平分割による数式構
造解析」、信学技報 PRMU2002-202(2001-03)pp.15-22 しかし、これら文献の手法では「文字の誤認識がない」
または「すべて訂正されている」ことを前提としてい
る。このため、文字の誤認識が発生すると、数式構文解
析に誤りが生じる。また、最近では、誤認識の影響を考
慮した方法として、仮想リンクネットワークを用いた方
法(文献[4])も本発明者らによって提案されている。

【０００６】文献[4] 江藤裕子、笹井真樹、鈴木昌
和、“仮想リンクネットワークを用いた数式構文認
識”、信学技報、PRMU2002-202(2001-03) pp.7-14 しかし、添え字、水平の判定にはやはり、文字認識の結
果を使っているため特殊なフォントの文字が含まれた数
式の構文解析をする際には、誤ることが多い。

【０００７】具体的に述べると、文献[4]の手法では文
字認識結果とその候補文字を使って数式認識を行う。前
後の文字間の候補文字の組み合わせをも考慮し、文書イ
メージ上における前後の文字の相対的な大きさと位置関
係を見ながら、水平の関係、添え字関係の中で最も妥当
性の高い関係を決定していく仕組みになっている。この
場合、前後の文字それぞれの文字認識結果を用いて、そ
れら文字間の本来の文字サイズの関係が調べられる。そ
して前後の文字間の本来の文字サイズの関係を基準に、
文書イメージ上における実際の文字間の相対的な大きさ
と位置関係が判定される。

【０００８】このため、例えば図１０に示すように、通
常フォントであれば同じ文字サイズ同士の文字である
「Ｉ」と、「６」、「５」が連続する文字列において、
文字「Ｉ」として、文字サイズが小さな特殊フォント文
字が使用されているような場合には、水平の関係である
「Ｉ」と「６５」が例えば上付添え字の関係にあると誤
認識され、「Ｉ^６５」という認識結果が得られてしまう
場合がある。もし先頭の文字「Ｉ」の文字認識結果の候
補文字に例えば「ａ」（または「ｃ」,「ｅ」）のよう
に小さいサイズの文字があれば、その文字は後続する
「６」、「５」よりも本来文字サイズが小さい文字であ
ることから、上付添え字の関係にあるとの誤認識の発生
は防ぐことが可能となるものの、「ａ６５」という誤認
識が生じることになる。

【０００９】

【発明が解決しようとする課題】上述のように、従来で
は、数式認識手法が文字認識結果に依存していたので、
文字認識結果の誤りや特殊フォントに起因する数式構文
解析の誤りを防ぐことができなかった。数式構造解析に
おいては、文字の誤認識や特殊フォントによる影響を最
も受けるのは添え字構造の判定であり、その添え字構造
の判定のミスが全体の数式構造解析を大きく崩してしま
うことになる。

【００１０】本発明は上述の事情を考慮してなされたも
のであり、文字認識結果の誤りや特殊フォント文字によ
る影響を受けにくい数式構造解析を実現することが可能
な数式認識装置および数式認識方法を提供することを目
的とする。

【００１１】

【課題を解決するための手段】上述の課題を解決するた
め、本発明の数式認識装置は、数式を含む文書イメージ
の文字認識を行う文字認識手段と、数式を含む行内に属
する複数の文字それぞれの中心部座標を各文字の文字認
識結果とその位置情報とを用いて算出し、その算出した
複数の文字それぞれの中心部座標のヒストグラムに基づ
き前記行の中心帯を為す中心帯座標を決定する中心帯座
標決定手段と、前記行内の各文字の外接矩形と前記中心
帯座標決定手段によって決定された中心帯座標との上下
関係に基づき、前記各文字毎に添え字構造の判定を行う
添え字判定手段とを具備することを特徴とする。

【００１２】この数式認識装置においては、まず、文書
イメージ上における数式を含む各行を対象に、その行内
に属する複数の文字それぞれの中心部座標が算出され
る。この場合、各文字の中心部座標は、その文字の文字
認識結果と位置情報とを用いて算出される。これによ
り、文字類の違いによらずに正しい中心部座標を求める
ことが出来る。そして、その算出された複数の文字それ
ぞれの中心部座標のヒストグラムに基づいて、当該行の
中心帯を為す中心帯座標が決定される。これにより、複
数の文字それぞれの中心部座標の統計的な値を基にその
行の中心帯座標が定められることになるので、個々の文
字の中心部座標の値が文字認識結果の誤りや特殊フォン
トによって影響されても、各行毎にその中心帯座標を正
しく得ることが出来る。

【００１３】そして、添え字判定では、個々の文字の文
字認識結果は一切使用されず、行内の各文字の外接矩形
と行の中心帯座標との上下関係に基づいて各文字毎に添
え字構造の判定が行われ、それが水平文字、上付添え
字、下付添え字のいずれであるかが決定されて行く。よ
って、文字認識結果の誤りや特殊なフォントが混ざった
数式でも、それらの影響を受けずに安定した数式認識を
行うことが可能となる。

【００１４】各文字の中心部座標としては、当該各文字
をアセンダーおよびディセンダーの双方を持たない文字
類であると想定した場合におけるその外接矩形の上端位
置および下端位置を用いることが好ましい。これによ
り、例えば「ａ」，「ｃ」,「ｅ」のようにアセンダー
とディセンダーの双方を持たない小文字類の外接矩形
（アセンダーとディセンダーとの間に存在する中間部）
の上端位置と下端位置の座標を行の中心帯として定める
ことが出来る。この場合、水平位置文字については、そ
の外接矩形はアセンダーとディセンダーとの間の中間部
に対応する行の中心帯を完全に含むか、あるいはその中
心帯に完全に含まれるのに対し、上付添え字文字の外接
矩形は行の中心帯に対し上側に位置し、また下付添え字
文字の外接矩形は行の中心帯に対して下側に位置するこ
とになる。よって、最終的な添え字判定では、個別の文
字毎にその文字認識結果を用いてその大きさや中心位置
などを求めることなく、各文字の外接矩形と行の中心帯
座標との位置関係を考慮するのみで添え字構造を判定す
ることが可能となる。

【００１５】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態について説明する。図１は本発明の一実施形態に
係る文字認識システムの構成が示されている。この文字
認識（ＯＣＲ）システム１１は、例えば数学書などに代
表されるような数式を含む印刷文書の認識を行うための
ものであり、印刷文書をスキャナ装置１０を用いて読み
取り、その文書内のテキストおよび数式それぞれについ
ての認識処理を行って、数式データとテキストデータと
を含む電子化文書データを認識結果として出力する。読
み取り対象の文書は印刷文書のみならず、既にイメージ
データ化された数式混じりの文書イメージについても読
み取り対象となる。

【００１６】このＯＣＲシステム１１はコンピュータ上
で実行されるソフトウェアとして実現されており、その
機能モジュールとして、図示のように、レイアウト解析
部１１１、文字認識部１１２、数式／テキスト領域分割
部１１３、数式認識部１１４、および出力部１１５を有
している。

【００１７】認識処理は、１）文書イメージのスキャ
ン、２）レイアウト解析処理、３）文字認識処理、４）
数式／テキスト領域分割処理、５）数式認識処理、６）
出力処理、の順で行われる。本実施形態では、特に数式
認識処理の実現方法に特徴を有している。

【００１８】数式認識部１１４による数式認識処理で
は、分数（−）、根号（√）、上下限式（Σ，lim ）の
処理や、アクセント記号(~,^,)の処理、添え字かどうか
の判定などが行われる。分数、根号、上下限式、アクセ
ント等の処理は文字認識結果の影響を受けることが少な
いので、上記各文献[1]〜[4]の手法で十分に精度良く行
うことが出来る。したがって、以下では、数式認識部１
１４による添え字構造の判定方法について説明すること
とする。

【００１９】数式認識部１１４は、文字認識結果の誤り
や特殊フォント文字による影響を受けずに添え字構造の
判定を行うために、行中心帯検出部２０１、および添え
字判定部２０２を有している。行中心帯検出部２０１
は、数式を含む各行毎に、その行の中心帯を為す中心帯
座標を検出するための行中心帯検出処理を実行する。各
行の中心帯は、その行内に属する複数の英数文字それぞ
れの中心部座標の統計的な値を基に定められる。数式認
識部１１４による行中心帯検出処理では、まず、数式を
含む行内に属する複数の文字それぞれの中心部座標が算
出される。この場合、文字類の違いによらずに正しい中
心部座標を求めるために、各文字の中心部座標は、その
文字の文字認識結果と位置情報とを用いて算出される。
そして、その算出された複数の文字それぞれの中心部座
標のヒストグラムに基づいて、当該行の中心帯を為す中
心帯座標が決定される。

【００２０】添え字判定部２０２は、各文字毎にそれが
水平文字、上付添え字、下付添え字のいずれに該当する
ものであるかを判定するための添え字判定処理を行う。
この添え字判定処理では、個々の文字の文字認識結果は
一切使用されず、行内の各文字の外接矩形と行の中心帯
座標との上下関係に基づいて各文字毎に添え字構造の判
定が行われる。

【００２１】このように、同一行内に属する複数の文字
それぞれの文字認識結果はそれら文字の中心部座標を求
めるためにのみ使用し、文字毎の個別の添え字判定で
は、文字認識結果を使わずに、複数の文字それぞれの中
心部座標の統計的な値を基に定めた行中心帯座標と各文
字の外接矩形との位置関係のみが考慮される。

【００２２】次に、図２のフローチャートを参照して、
具体的な処理の流れについて説明する。先ず、数式を含
む印刷文書をスキャナ装置１０で読み取ることにより、
数式を含む文書のページイメージが得られる。このペー
ジイメージを対象に以下の処理が行われる。まず、ステ
ップＳ１０１にてレイアウト解析・文字認識処理が実行
される。ここでは、最初にレイアウト解析部１１１によ
るレイアウト解析が行われ、入力されたページイメージ
（原画像）が、例えば、タイトル領域、本文領域、ヘッ
ダ／フッタ領域、図領域、表領域などに分割される。通
常、数学書などのページイメージにおいては、図３に示
すように、その本文領域内にはテキストと数式が混在し
た文章が多数含まれている。そして、タイトル領域、本
文領域、ヘッダ／フッタ領域などの文章領域に対して文
字認識部１１２による文字認識処理が行われる。この文
字認識処理では、ヒストグラムなどに基づく行の切り分
けおよび文字の切り出し、そして１文字単位での文字認
識が行われる。この後、ステップＳ１０２にて数式／テ
キスト領域分割部１１３による数式／テキスト領域分割
処理が実行される。

【００２３】数式／テキスト領域分割処理では、文字認
識結果を用いることにより本文領域に含まれる各単語毎
にそれがテキスト（Ｔｅｘｔ）であるか、数式（Ｍａｔ
ｈ）であるかが判別される。これにより、図３に示され
ているように、原画像上の本文領域に含まれる単語それ
ぞれがテキスト領域（Ｔｅｘｔ）と数式領域（Ｍａｔ
ｈ）とに分けられる。例えば、特定の記号や英数字を含
む単語であるか否かによって数式／テキスト領域の判定
を行ったり、あるいは、全ての単語種別毎にそれがテキ
ストである可能性と数式である可能性をそれぞれ示す評
価値を予め用意しておき、その評価値と各単語の文字認
識結果とを用いて数式／テキスト領域の判定を行っても
良い。

【００２４】次に、数式認識部１１４により数式構造認
識処理（ステップＳ１０３〜Ｓ１０５）が行われる。こ
の数式構造認識処理では、上述したように、分数、根
号、上下限式の処理や、アクセント記号の処理、添え字
かどうかの判定などが行われる。本実施形態にいては、
添え字構造の判定は以下の３段階で行う。

【００２５】１．本文文字サイズ検出処理（図４の
x, y, z, NSize の取得）２．行の中心部の検出３．添字の決定＜ステップＳ１０３：本文文字サイズ検出＞この処理
では、本文領域内に含まれるテキスト文字の文字サイズ
が検出される。具体的には、本文領域内のテキスト領域
中の各英数字を対象に文字サイズ検出処理を行うことに
より、テキスト領域に含まれるテキスト文字に関する文
字サイズとして、アセンダーサイズ（図４の x ）、デ
ィセンダーサイズ（図４の z ）、アセンダーとディセ
ンダーを除外した中心部（アセンダーとディセンダーの
間に存在する部分）のサイズ（図４の y ）、アセンダ
ーおよびディセンダーの双方を持つ文字類であると想定
した場合におけるその文字高さを示す正規化サイズ（図
４の NSize ）が求められる。

【００２６】図４の x,y,z はアルファベット４線上に
おける英数文字の位置に基づいて定められるものであ
る。すなわち、アルファベット４線上において、上側の
２線間に挟まれたアセンダー部のサイズ（高さ）が図４
の x となり、中央の２線間に挟まれた中心部のサイズ
（高さ）が図４の y となり、そして下側の２線間に挟
まれたディセンダー部のサイズ（高さ）が図４の z と
なる。

【００２７】本文文字サイズ検出処理では、まず、ペー
ジイメージ（原画像）上の本文領域内におけるテキスト
領域中に存在する全ての英数字(ギリシャ文字はのぞく)
を対象に、その文字認識結果と原画像上の文字サイズ
（外接矩形(図５)の高さ）とを基に、アセンダーを持つ
文字類（数字や大文字、b, d, h など）と、ディセンダ
ーを持つ文字類（ g, p, q, y など）と、アセンダーお
よびディセンダーのどちらも持たない小文字類（ a, c,
e など）と、アセンダーおよびディセンダーの双方を
持つ文字類（イタリック体のｆなど）とに分けて、外接
矩形の高さのヒストグラムをとる。

【００２８】アセンダーおよびディセンダーのどちらも
持たない文字に関する外接矩形の高さのヒストグラムの
最大ピーク値を本文テキスト文字の y とする。次に、
アセンダーをもつ文字の外接矩形の高さのヒストグラム
およびディセンダーをもつ文字の外接矩形の高さのヒス
トグラムそれぞれから最大ピークを求め、先に求めたy
の値を引いたものをそれぞれ本文テキスト文字の x, ｚ
とする。

【００２９】以上の処理で、本文領域で用いられている
テキスト文字、つまり本文文字の x,y,z を求めること
ができる。x,y,zの合計値がNSize となる。ギリシャ文
字にもx,y,z の区別はあるが、印刷によっては同じペー
ジに印刷された英数字の x,y,z と大きくサイズが異な
る場合があるのでこの処理の対象としない。

【００３０】＜ステップＳ１０４：行の中心部の検出
＞上述した行中心帯座標の検出処理は、本文領域中にお
ける数式を含む各行毎に行われる。まず、数式を含む行
内に属する各文字毎に、その文字認識の結果と文字外接
矩形の位置情報を基に、その文字の中心部座標(図５の
y1,y2)を求める。各文字の y1,y2 は、当該各文字をア
センダーおよびディセンダーの双方を持たない文字類で
あると想定した場合におけるその外接矩形の上端および
下端それぞれの y 座標を示す。つまり、アルファベッ
ト４線上における中央の２線で挟まれた中央部の上端の
y座標が y1 であり、下端のy座標が y2 である。y2 は
当該文字のベースライン位置を示している。

【００３１】これら y1,y2 は、ページイメージ（原画
像）上における各文字の外接矩形の上端、下端のy座標
をそれぞれ ys,ye とすると、ステップＳ１０３で求め
た x,y,z を用いて、以下の式で求めることができる。
また、あとで使用する文字の正規化サイズ( x,y,z部を
含んだサイズ。図３のNSize)を求めるための式もあわせ
て示す。

【００３２】・アセンダーおよびディセンダーのどちら
も持たない文字類の場合 y1 = ys y2 = ye NSize = (ye-ys)*(x+y+z)/y NSize は、アセンダーおよびディセンダーの双方を持つ
文字類であると想定した場合におけるその文字高さを示
す正規化サイズであるので、実際のイメージ上における
外接矩形の文字高さ(ye-ys)に、(x+y+z)/yを乗じること
によって求められる。

【００３３】・アセンダーを持つ文字類の場合 y1 = ys + (ye-ys)*x/(x+y) y2 = ye NSize = (ye-ys)*(x+y+z)/(x+y) y1 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関するアセンダー部(x)と中央部
(y)との合計サイズ(x+y)に対するアセンダー部(x)の占
める比率（x/(x+y)）を乗じ、それを外接矩形の上端の
y 座標（ys）に加算することにより求められる。NSize
は、実際のイメージ上における外接矩形の文字高さ(ye-
ys)に、(x+y+z)/(x+y)を乗じることによって求められ
る。

【００３４】・ディセンダーを持つ文字類 y1 = ys y2 = ys + (ye-ys)*y/(y+z) NSize = (ye-ys)*(x+y+z)/(y+z) y2 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関する中央部(y)とディセンダー
部(z)の合計サイズ(y+z)に対する中央部(y)の占める比
率（y/(y+z)）を乗じ、それを外接矩形の上端の y 座標
（ys）に加算することにより求められる。NSize は、実
際のイメージ上における外接矩形の文字高さ(ye-ys)
に、(x+y+z)/(y+z)を乗じることによって求められる。

【００３５】・アセンダーおよびディセンダーの双方を
持つ文字類の場合 y1 = ys + (ye-ys)*x/(x+y+z) y2 = ys + (ye-ys)*(x+y)/(x+y+z) NSize = ye-ys y1 は、実際のイメージ上における外接矩形の文字高さ
(ye-ys)に、本文文字に関するアセンダー部（x）と中央
部(y)とディセンダー部(z)の合計サイズ(x+y+z)に対す
るアセンダー部（x）の占める比率（x/(x+y+z)）を乗
じ、それを外接矩形の上端の y 座標（ys）に加算する
ことにより求められる。また y2 は、実際のイメージ上
における外接矩形の文字高さ(ye-ys)に、本文文字に関
するアセンダー部（x）と中央部(y)とディセンダー部
(z)の合計サイズ(x+y+z)に対する、アセンダー部（x）
と中央部(y)の合計サイズ(x+y)の占める比率（(x+y)/(x
+y+z)）を乗じ、それを外接矩形の上端の y 座標（ys）
に加算することにより、求められる。

【００３６】各文字毎に求めた y1,y2 の値から y1,y2
それぞれに関するヒストグラムを作成する。そして、y
1,y2 それぞれに関するヒストグラムに基づき、最も出
現頻度の高い y1,y2 の値がその行の中心帯座標 y1,y2
として定められる。図６には、数式を含む行１内に含ま
れる文字それぞれの y1 のヒストグラムの例が示されて
いる。ヒストグラムの最大ピークは y＝103 であるの
で、行１の y1 はy＝103であると定められる。

【００３７】ここで重要な点は、複数文字分の y1,y2
のヒストグラムを用いることにより１行の中に誤認識文
字が含まれていたとしても、その行の中心帯座標 y1,y2
としては正しい値が得られるということである。中心
帯座標y1とy2の間の領域が、その行の中心帯となる。こ
の中心帯はその行内の複数の文字それぞれの中心部が実
際に存在している領域である。また、中心帯に傾きがあ
る場合には、各行の左の部分と右の部分でそれぞれ中心
帯座標 y1,y2 を求めて平均を取り、傾き補正を掛ける
ことで中心帯座標の傾きによるずれを補正することが出
来る。

【００３８】なお、実際には、 y1,y2 それぞれに関す
るヒストグラムの作成に際しては、NSize が本文文字の
NSize に比し所定量以上異なる文字（たとえば１割以
上小さい文字、１割以上大きい文字）は、ヒストグラム
の作成対象から除外される。通常、添え字文字はベース
ライン上の文字よりも小さいので、添え字文字の y1,y2
の値をヒストグラムの作成対象から除外することで、各
行の y1,y2 を正しく求めることが可能となる。さら
に、数式を含む行内に分数線が存在する場合には、その
分数線の上下の文字（分母分子領域内の文字）も、ヒス
トグラムの作成対象から除外される。

【００３９】このような除外処理も含めた行中心帯座標
検出処理の具体的な手順の一例を図７に示す。ここで
は、本文領域中における数式を含む各行毎に以下の処理
が実行される。まず、対象となる行内の各文字（英数
字）の NSize が上記した式に基づいて求められ（ステ
ップＳ２０１）、その NSize が本文文字の NSize に比
べ極端に大きい文字または小さい文字（具体的には、上
述したように本文文字の NSize よりも１割以上小さい
文字または１割以上大きい文字）は行中心帯座標の検出
処理対象から除外される（ステップＳ２０２）。次い
で、当該行内に分数線が存在するかどうかが文字認識結
果に基づいて判定され、その分数線の上下の文字（分母
分子領域内の文字）が行中心帯座標の検出処理対象から
除外される（ステップＳ２０３）。この後、残りの各文
字それぞれの中心部座標 y1,y2 が上記した式に基づい
て求められ（ステップＳ２０４）、各文字毎に算出され
た中心部座標 y1,y2 それぞれのヒストグラムが作成さ
れる（ステップＳ２０５）。そして、y1,y2 それぞれの
ヒストグラムのピーク値がその行の y1,y2 として定め
られる（ステップＳ２０６）。以上の処理を数式領域を
含む行毎に再帰的に繰り返し実行することにより、数式
領域を含む行それぞれについての y1,y2 が求められ
る。

【００４０】＜ステップＳ１０５：添え字の決定＞図
２のステップＳ１０５では、添え字構造を判定するため
の添字判定処理が実行される。この添字判定処理では、
判定対象となっている行内の各文字毎に、その文字の外
接矩形とその行の中心帯座標 y1,y2 との上下関係に基
づき、各文字毎に添え字構造の判定が行われる。具体的
な手順を図８のフローチャートを参照して説明する。

【００４１】まず、各文字についてその外接矩形がその
行の中心帯（y1 と y2 の間の部分）をほぼ完全に含む
ものであるかどうかが判別される（ステップＳ３０
１）。例えば、図９において、判定対象となっている行
内の先頭から４番目の文字＃４（「ｙ」）と７番目の文
字＃７（「ｆ」）はその外接矩形が行の中心帯を完全に
含んでいるので、４番目の文字＃４「ｙ」と７番目の文
字＃７「ｆ」はそれぞれベースライン上に存在する水平
文字であると判定される（ステップＳ３０３）。この場
合、各文字の文字認識結果については一切考慮されず、
文書イメージ上における文字（黒連結成分）の外接矩形
の上端および下端それぞれｙ座標の値と、行の中心帯座
標 y1,y2 の値のみで判定が行われる。

【００４２】次に、各文字についてその外接矩形がその
行の中心帯の間にほぼ完全に含まれるか否かが判別され
る（ステップＳ３０２）。例えば、図９において、先頭
の文字＃１「ｃ」、２番目の文字＃２「ｘ」、６番目の
文字＃６「＋」はその外接矩形が中心帯の間に完全に含
まれているので、ベースライン上に存在する水平文字で
あると判定される（ステップＳ３０３）。

【００４３】外接矩形がその行の中心帯をほぼ完全に含
むものである文字、または行の中心帯内にほぼ完全に含
まれる文字のどちらにも該当しない文字については、そ
の外接矩形が、行の中心帯に対して上側に位置するか、
下側に位置するかが判別され（ステップＳ３０４）、そ
の判別結果に基づいて上付き添え字と下付き添え字のい
ずれであるかが判定される（ステップＳ３０５，Ｓ３０
６）。例えば図９において、先頭から３番目の文字＃３
「２」、５番目の文字＃５「３」は外接矩形が中心帯の
上側に位置しているので上付き添え字であると判定され
（ステップＳ３０５）、８番目の文字＃８「ｘ」は外接
矩形が中心帯の下側に位置しているので下付き添え字で
あると判定される（ステップＳ３０６）。

【００４４】このように、文字認識結果は使用されず、
各文字の外接矩形と行の中心帯座標y1,y2 との上下関係
のみに基づいて添え字構造の判定が行われる。このこと
によって、従来法では誤って添え字であると判断されて
いた図１０に示すような特殊フォントの文字を含む場合
も正しく判定することができる。すなわち、従来法では
「Ｉ」、「６」、「５」がそれぞれ正しく文字認識され
ても「Ｉ^６５」という誤った数式構造の認識結果となっ
たが、本実施形態の方法では、「Ｉ」、「６」、「５」
がそれぞれ水平文字であると判定されるので、「Ｉ」、
「６」、「５」がそれぞれ正しく文字認識されたなら
ば、「Ｉ６５」という水平位置関係の数式構造として正
しく認識される。もし文字認識に誤りがあったとして
も、水平位置関係の数式構造であると認識される。

【００４５】特殊フォント文字を含む文字列から成る数
式は様々考えられるが、どの場合においてもその特殊フ
ォント文字による数式構造の誤認識を防止することが出
来る。

【００４６】次に、分母分子領域に対する数式構造の認
識について説明する。行中心帯を求め、その行中心帯と
各文字の外接矩形との上下関係に基づいて添え字判定を
行うという本実施形態の方法は、分母分子領域の文字列
に対しても同様にして適用することが出来る。すなわ
ち、本文領域内に分数式が存在する場合には、図１１に
示すように、その分母領域の文字列から成る行と、分子
領域の文字列から成る行の各々について、行中心帯座標
y1,y2 が求められる。そして、分母分子の各行毎に添
え字判定が行われる。手順を図８のフローチャートに示
す。

【００４７】分数式が存在する場合（ステップＳ４０１
のＹＥＳ）、まず、その分数線の下側の分母領域の英数
文字それぞれの中央部座標 y1,y2 のヒストグラムが作
成され、それらy1,y2 のヒストグラムに基づいて分母領
域の行の中心帯座標 y1,y2が決定される（ステップＳ４
０２）。そして、分母領域の各文字の外接矩形と分母領
域の行の中心帯座標 y1,y2 との位置関係によって、分
母領域の各文字毎に添え字判定が行われる（ステップＳ
４０３）。次いで、分数線の上側の分子領域の英数文字
それぞれの中央部座標 y1,y2 のヒストグラムが作成さ
れ、それら y1,y2 のヒストグラムに基づいて分子領域
の行の中心帯座標 y1,y2 が決定される（ステップＳ４
０４）。そして、分子領域の各文字の外接矩形と分子領
域の行の中心帯座標 y1,y2 との位置関係によって、分
子領域の各文字毎に添え字判定が行われる（ステップＳ
４０５）。

【００４８】以上の処理を本文領域中の全ての分数線を
対象に再帰的に繰り返し行うことにより、全ての分数式
の分母分子領域の添え字構造を判定することが出来る。

【００４９】以上説明したように、本実施形態によれ
ば、同一行内に属する複数の文字それぞれの文字認識結
果はそれら文字の中心部座標を求めるためにのみ使用
し、文字毎の個別の添え字判定では、文字認識結果を使
わずに、同一行内に属する複数の文字それぞれの中心部
座標の統計的な値を基に定めた行中心帯座標と各文字の
外接矩形との位置関係のみを考慮することにより、文字
認識結果の誤りや特殊なフォントが混ざった数式でも、
それらの影響を受けずに安定した数式認識を行うことが
可能となる。

【００５０】なお、数式認識部１１４を含む本実施形態
のＯＣＲシステム１１の機能はすべてソフトウェアによ
って実現できるので、上述の各処理手順をコンピュータ
に実行させるプログラムを用意し、それをコンピュータ
読み取り可能な記憶媒体に記憶すると共に、その記憶媒
体を通じてコンピュータに導入して実行するだけで、本
実施形態と同様の効果を容易に得ることができる。

【００５１】また、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。更に、上記実施
形態には種々の段階の発明が含まれており、開示される
複数の構成要件における適宜な組み合わせにより種々の
発明が抽出され得る。例えば、実施形態に示される全構
成要件から幾つかの構成要件が削除されても、発明が解
決しようとする課題の欄で述べた課題が解決でき、発明
の効果の欄で述べられている効果が得られる場合には、
この構成要件が削除された構成が発明として抽出され得
る。

【００５２】

【発明の効果】以上詳述した如く本発明によれば、文字
認識結果の誤りや特殊フォント文字による影響を受けに
くい数式構造解析を実現することが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係るＯＣＲシステムの機
能構成を示すブロック図。

【図２】同実施形態における数式検出方法の手順を示す
フローチャート。

【図３】同実施形態における数式／テキスト分割処理で
文書イメージを単語毎に数式／テキスト領域に分割する
様子を示す図。

【図４】同実施形態における本文文字サイズを説明する
ための図。

【図５】同実施形態における各文字の外接矩形の中心部
座標を説明するための図。

【図６】同実施形態において同一行内の複数文字それぞ
れの中心部座標から作成されるヒストグラムの一例を示
す。

【図７】同実施形態で用いられる行中心帯検出処理の手
順を説明するためのフローチャート。

【図８】同実施形態で用いられる添え字判定処理の手順
を説明するためのフローチャート。

【図９】同実施形態における添え字判定処理の原理を示
す図。

【図１０】同実施形態の数式認識による数式構造認識結
果の一例を示す図。

【図１１】同実施形態の数式認識を分数式に適用した場
合の様子を示す図。

【図１２】同実施形態の数式認識を分数式に適用した場
合の処理手順の一例を示すフローチャート。

【符号の説明】

１１…ＯＣＲシステム１１１…レイアウト解析部１１２…文字認識部１１３…数式／テキスト領域分割部１１４…数式認識部２０１…行中心帯検出部２０２…添字判定部

───────────────────────────────────────────────────── フロントページの続き (72)発明者江藤裕子東京都青梅市末広町２丁目９番地株式会社東芝青梅工場内 (72)発明者村上玄生福岡県福岡市東区箱崎６丁目10番１号九州大学内Ｆターム(参考） 5B064 AA01 AB02 AB13 AB17 AB18

Claims

【特許請求の範囲】

【請求項１】数式を含む文書イメージの文字認識を行
う文字認識手段と、数式を含む行内に属する複数の文字それぞれの中心部座
標を各文字の文字認識結果とその位置情報とを用いて算
出し、その算出した複数の文字それぞれの中心部座標の
ヒストグラムに基づき前記行の中心帯を為す中心帯座標
を決定する中心帯座標決定手段と、前記行内の各文字の外接矩形と前記中心帯座標決定手段
によって決定された中心帯座標との上下関係に基づき、
前記各文字毎に添え字構造の判定を行う添え字判定手段
とを具備することを特徴とする数式認識装置。
【請求項２】前記各文字の中心部座標は、当該各文字
をアセンダーおよびディセンダーの双方を持たない文字
類であると想定した場合におけるその外接矩形の上端位
置および下端位置を示すものであることを特徴とする請
求項１記載の数式認識装置。
【請求項３】前記数式を含む文書イメージ内のテキス
ト領域に含まれる各文字の文字サイズとその文字認識結
果とに基づいて、前記文書イメージ内におけるテキスト
文字に関する、アセンダーサイズ、ディセンダーサイ
ズ、アセンダーとディセンダーを除外した中心部のサイ
ズ、アセンダーおよびディセンダーの双方を持つ文字類
であると想定した場合におけるその文字高さを示す正規
化サイズ、を含む文字サイズ情報を検出する文字サイズ
検出手段をさらに具備し、前記中心帯座標決定手段は、数式を含む行内に属する各文字毎に、その文字認識結果
に基づいて判定される当該文字の該当する文字類と、そ
の外接矩形の上端位置および下端位置と、前記文字サイ
ズ検出手段によって検出された前記文書イメージ内にお
けるテキスト文字の文字サイズ情報とに基づいて、当該
各文字をアセンダーおよびディセンダーの双方を持たな
い小文字類であると想定した場合におけるその外接矩形
の上端位置および下端位置を前記中心部座標として算出
する手段と、前記各文字毎に算出された中心部座標のヒストグラムを
作成する手段と、前記作成されたヒストグラムに基づいて、最も出現頻度
の高い上端位置および下端位置それぞれの座標を前記行
の中心帯を為す中心帯座標として決定する手段とを含む
ことを特徴とする請求項１記載の数式認識装置。
【請求項４】前記中心帯座標決定手段は、前記数式を含む行内に属する各文字毎に、当該文字がア
センダーおよびディセンダーの双方を持つ文字類である
と想定した場合におけるその文字高さを示す正規化サイ
ズを算出する手段と、前記数式を含む行内に属する文字の内、その正規化サイ
ズが前記文字サイズ検出手段によって算出されたテキス
ト文字の正規化サイズに比し所定量以上異なる文字を、
前記中心部座標のヒストグラムの作成対象から除外する
手段とをさらに含むことを特徴とする請求項３記載の数
式認識装置。
【請求項５】前記中心帯座標決定手段は、前記数式を含む行内に分数線が存在する場合、その分数
線の上下の文字を、前記中心部座標のヒストグラムの作
成対象から除外する手段をさらに含むことを特徴とする
請求項１または４記載の数式認識装置。
【請求項６】前記文書イメージ内に分数式が存在する
場合、前記中心帯決定手段は各分数式の分子分母領域毎
にその中心帯座標を決定し、前記添え字判定手段は前記
分子分母領域の各文字毎に添え字構造の判定を行うこと
を特徴とする請求項１記載の数式認識装置。
【請求項７】数式を含む文書イメージの文字認識を行
う文字認識ステップと、数式を含む行内に属する複数の文字それぞれの中心部座
標を各文字の文字認識結果とその位置情報とを用いて算
出し、その算出した複数の文字それぞれの中心部座標の
ヒストグラムに基づき前記行の中心帯を為す中心帯座標
を決定する中心帯座標決定ステップと、前記行内の各文字の外接矩形と前記中心帯座標決定ステ
ップによって決定された中心帯座標との上下関係に基づ
き、前記各文字毎に添え字構造の判定を行う添え字判定
ステップとを具備することを特徴とする数式認識方法。
【請求項８】前記各文字の中心部座標は、当該各文字
をアセンダーおよびディセンダーの双方を持たない文字
類であると想定した場合におけるその外接矩形の上端位
置および下端位置を示すものであることを特徴とする請
求項７記載の数式認識方法。
【請求項９】前記数式を含む文書イメージ内のテキス
ト領域に含まれる各文字の文字サイズとその文字認識結
果とに基づいて、前記文書イメージ内におけるテキスト
文字に関する、アセンダーサイズ、ディセンダーサイ
ズ、アセンダーとディセンダーを除外した中心部のサイ
ズ、アセンダーおよびディセンダーの双方を持つ文字類
であると想定した場合におけるその文字高さを示す正規
化サイズ、を含む文字サイズ情報を検出する文字サイズ
検出ステップをさらに具備し、前記中心帯座標決定ステップは、数式を含む行内に属する各文字毎に、その文字認識結果
に基づいて判定される当該文字の該当する文字類と、そ
の外接矩形の上端位置および下端位置と、前記文字サイ
ズ検出手段によって検出された前記文書イメージ内にお
けるテキスト文字の文字サイズ情報とに基づいて、当該
各文字をアセンダーおよびディセンダーの双方を持たな
い文字類であると想定した場合におけるその外接矩形の
上端位置および下端位置を前記中心部座標として算出す
るステップと、前記各文字毎に算出された中心部座標のヒストグラムを
作成するステップと、前記各文字毎に算出された中心部座標のヒストグラムを
作成するステップと、前記作成されたヒストグラムに基づいて、最も出現頻度
の高い上端位置および下端位置それぞれの座標を前記行
の中心帯を為す中心帯座標として決定するステップとを
含むことを特徴とする請求項７記載の数式認識方法。
【請求項１０】前記中心帯座標決定ステップは、前記数式を含む行内に属する各文字毎に、当該文字がア
センダーおよびディセンダーの双方を持つ文字類である
と想定した場合におけるその文字高さを示す正規化サイ
ズを算出するステップと、前記数式を含む行内に属する文字の内、その正規化サイ
ズが前記文字サイズ検出ステップによって算出されたテ
キスト文字の正規化サイズに比し所定量以上異なる文字
を、前記中心部座標のヒストグラムの作成対象から除外
するステップとをさらに含むことを特徴とする請求項９
記載の数式認識方法。
【請求項１１】前記中心帯座標決定ステップは、前記数式を含む行内に分数線が存在する場合、その分数
線の上下の文字を、前記中心部座標のヒストグラムの作
成対象から除外するステップをさらに含むことを特徴と
する請求項７または１０記載の数式認識方法。
【請求項１２】前記文書イメージ内に分数式が存在す
る場合、前記中心帯決定ステップは各分数式の分子分母
領域毎にその中心帯座標を決定し、前記添え字判定ステ
ップは前記分子分母領域の各文字毎に添え字構造の判定
を行うことを特徴とする請求項７記載の数式認識方法。
【請求項１３】数式認識をコンピュータに実行させる
プログラムであって、数式を含む文書イメージの文字認識を行う文字認識手順
と、数式を含む行内に属する複数の文字それぞれの中心部座
標を各文字の文字認識結果とその位置情報とを用いて算
出し、その算出した複数の文字それぞれの中心部座標の
ヒストグラムに基づき前記行の中心帯を為す中心帯座標
を決定する中心帯座標決定手順と、前記行内の各文字の外接矩形と前記中心帯座標決定ステ
ップによって決定された中心帯座標との上下関係に基づ
き、前記各文字毎に添え字構造の判定を行う添え字判定
手順とをコンピュータに実行させることを特徴とするプ
ログラム。
【請求項１４】前記各文字の中心部座標は、当該各文
字をアセンダーおよびディセンダーの双方を持たない文
字類であると想定した場合におけるその外接矩形の上端
位置および下端位置を示すものであることを特徴とする
請求項１３記載のプログラム。