JP4181328B2 - 数式認識装置および数式認識方法 - Google Patents

数式認識装置および数式認識方法 Download PDF

Info

Publication number
JP4181328B2
JP4181328B2 JP2002060755A JP2002060755A JP4181328B2 JP 4181328 B2 JP4181328 B2 JP 4181328B2 JP 2002060755 A JP2002060755 A JP 2002060755A JP 2002060755 A JP2002060755 A JP 2002060755A JP 4181328 B2 JP4181328 B2 JP 4181328B2
Authority
JP
Japan
Prior art keywords
character
formula
screen
recognition result
mathematical expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002060755A
Other languages
English (en)
Other versions
JP2003256770A (ja
Inventor
昌和 鈴木
裕子 江藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002060755A priority Critical patent/JP4181328B2/ja
Publication of JP2003256770A publication Critical patent/JP2003256770A/ja
Application granted granted Critical
Publication of JP4181328B2 publication Critical patent/JP4181328B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は文書イメージ中に含まれる数式を認識するための数式認識装置および数式認識方法に関する。
【0002】
【従来の技術】
従来より、印刷文書の数式構文を認識するための数式認識手法がいくつか提案されている。数式を構成する文字は1次元的に並んでいるわけではなく、添え字やべき乗、分数線の上下など、2次元的な並びとなっている。よって、数式認識においては、添え字、分数などの判定などによって、その数式構造を認識することが必要となる。
【0003】
印刷文書の数式構造を認識する手法としては、数式領域内の各文字の文字認識結果とそれら各文字の位置情報を使って数式の先頭から順に文字間の構造を決めていく方法が知られている。この手法は例えば以下に示す文献[1][2][3][4]に報告されている。
【0004】
文献[1] 岡本正行、トワキョンド ムサフィリ ハシム、“周辺分布特徴を用いた数式構造認識”、信学論、J78-D-II、No.2、pp366-370(1995-2)
文献[2] 岡本正行、東 裕之「記号レイアウトに注目した数式構造認識」、信学論、J-78D-II、No.3、pp474-482(1995-3)
文献[3] 中山優幸、福田亮治、鈴木昌和、玉利文和:「数学記号の特徴を用いた数式の水平分割による数式構造解析」、信学技報 PRMU2002-202(2001-03) pp.15-22
文献[4] 江藤裕子、笹井真樹、鈴木昌和、“仮想リンクネットワークを用いた数式構文認識”、信学技報、PRMU2002-202(2001-03) pp.7-14
【0005】
【発明が解決しようとする課題】
しかし、現在の文字認識技術でも文字認識率は1ページ平均で99%程度であり、文字認識の誤りを避けて通ることはできない。数式構造の誤認識は、数式部内に含まれる文字の文字認識結果の誤りに起因して発生することが多い。
【0006】
通常、文字認識システムには、テキスト文字の認識結果を表示・修正するインタフェースが用意されている。修正画面上でユーザが新たな文字を入力することにより、テキスト文字の認識結果を修正することが出来る。ところが、数式の場合には上述のように添え字、分数などの構造を持つため、ユーザが数式部の認識結果を修正する場合にはその数式そのものを特別なコマンドなどを用いて手作業で作成しなければならず、テキスト部分の修正に比し膨大な時間と手間を要することになる。
【0007】
本発明は上述の事情を考慮してなされたものであり、数式の認識結果を容易に修正することが可能な数式認識装置および数式認識方法を提供することを目的とする。
【0008】
【課題を解決するための手段】
上述の課題を解決するため、本発明の数式認識装置は、数式を含む文書イメージの文字認識を行う文字認識手段と、前記文書イメージ上の数式領域内の各文字の位置情報とその文字認識結果とに基づいて当該数式領域の数式構造を認識する数式認識手段と、前記数式構造認識手段によって得られた数式認識結果と文書イメージを含む修正画面を表示する手段と、前記修正画面上で前記数式認識結果内の文字の文字認識結果の修正が指示された場合、前記数式領域内の各文字の位置情報を保持した状態で前記数式領域内の文字の文字認識結果を前記修正指示で指定された修正候補文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識する再認識手段とを具備することを特徴とする。
【0009】
この数式認識装置においては、数式構造認識手段によって得られた数式認識結果と文書イメージが修正画面に表示される。修正画面上でユーザが数式認識結果内の文字の文字認識結果の修正を指示すると、数式領域内の各文字の位置情報を保持した状態でその数式領域内の文字の文字認識結果のみが修正指示で指定された修正候補文字に修正され、そして保持されている数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて数式領域の数式構造が再認識される。このように数式領域内の各文字の位置情報を保持した状態で文字認識結果のみを修正することで、修正後の文字認識結果を基に数式領域の数式構造を再認識することが可能となる。この数式構造の再認識機能により、ユーザが自ら数式構造を新たに入力することなく、数式構造の誤認識を容易に修正することが可能となる。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態について説明する。
図1は本発明の一実施形態に係る文字認識システムの構成が示されている。この文字認識(OCR)システム11は、例えば数学書などに代表されるような数式を含む印刷文書の認識を行うためのものであり、印刷文書をスキャナ装置10を用いて読み取り、その文書内のテキストおよび数式それぞれについての認識処理を行って、数式データとテキストデータとを含む電子化文書データを認識結果として出力する。読み取り対象の文書は印刷文書のみならず、既にイメージデータ化された数式混じりの文書イメージについても読み取り対象となる。
【0011】
このOCRシステム11はコンピュータ上で実行されるソフトウェアとして実現されており、その機能モジュールとして、図示のように、数学書認識部12、認識結果表示部13、修正入力インタフェース部14を備えている。数学書認識部12は認識処理を行うためのエンジン部であり、テキストおよび数式の認識を行う。認識結果表示部13は、数学書認識部12による認識結果を修正するための修正画面を表示する。この修正画面上には、数式部の数式認識結果とその数式部に対応する文書イメージ(原画像)などが表示される。ユーザはこの修正画面上で数式認識結果の確認、修正を行うことができる。修正入力インタフェース部14は、認識結果表示部13と共同して数式認識結果を修正するためのインタフェースを実現するためのものであり、修正画面上に表示された数式部の文字の置換、分割/統合、さらには数式修正パレットによる数式構造の修正、などの機能を提供する。
【0012】
数学書認識部12は、レイアウト解析部111、文字認識部112、数式/テキスト領域分割部113、および数式認識部114を有している。認識処理は、1)文書イメージのスキャン、2)レイアウト解析処理、3)文字認識処理、4)数式/テキスト領域分割処理、5)数式認識処理、の順で行われる。数式認識部114による数式認識処理では、数式領域毎に、その数式領域内の各文字の位置情報とその文字認識結果とに基づいて数式構造が調べられ、分数(−)、根号(√)、上下限式(Σ,lim )の処理や、アクセント記号(~,^,)の処理、添え字かどうかの判定などが行われる。
【0013】
また数式認識部114には数式構造を再認識するための再認識処理部115が設けられている。この再認識処理部115は数式構造の認識結果を容易に修正できるようにするために設けられたものである。修正画面上で数式部(数式認識結果)内の文字の文字認識結果の修正が指示された場合、再認識処理部115により当該数式の再認識処理を行うことにより、数式構造を自動的に修正することができる。
【0014】
数式認識は、上述したように数式領域内の各文字の文字認識結果と文書イメージ上におけるその文字の位置情報(座標)を基に数式構造を認識することによって行われる。そのため、数式認識結果内の文字の文字認識結果の修正の際にその文字の位置情報が保持される必要がある。本実施形態では、数式領域内の各文字の文字認識結果とその位置情報は、文字認識結果&位置情報記憶部15に保持されており、数式部分の文字の位置情報を保持したまま文字認識結果のみが修正(置換)され、そして保持されている数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて数式領域の数式構造が再認識される。再認識処理部115によって得られた数式構造の再認識結果は、認識結果表示部13を通じて修正画面に表示される。このような数式構造の再認識機能により、ユーザは自ら数式構造を新たに入力することなく、数式構造の誤認識を容易に修正することが可能となる。
【0015】
次に、図2のフローチャートを参照して、具体的な処理の流れについて説明する。
先ず、数式を含む印刷文書をスキャナ装置10で読み取ることにより、数式を含む文書のページイメージが得られる。このページイメージを対象に以下の処理が行われる。まず、ステップS101にてレイアウト解析・文字認識処理が実行される。ここでは、最初にレイアウト解析部111によるレイアウト解析が行われ、入力されたページイメージ(原画像)が、例えば、タイトル領域、本文領域、ヘッダ/フッタ領域、図領域、表領域などに分割される。通常、数学書などのページイメージにおいては、図3に示すように、その本文領域内にはテキストと数式が混在した文章が多数含まれている。そして、タイトル領域、本文領域、ヘッダ/フッタ領域などの文章領域に対して文字認識部112による文字認識処理が行われる。この文字認識処理では、ヒストグラムなどに基づく行の切り分けおよび文字の切り出し、そして1文字単位での文字認識が行われる。各文字の文字認識結果とその位置情報(座標)は文字認識結果&位置情報記憶部15に記憶される。各文字の位置情報(座標)は、例えば、文書イメージ上におけるその文字の外接矩形の左上端座標と外接矩形の水平/垂直方向のサイズとによって表現される。また、外接矩形の左上端座標と右下端座標によって表現してもよい。この後、ステップS102にて数式/テキスト領域分割部113による数式/テキスト領域分割処理が実行される。
【0016】
数式/テキスト領域分割処理では、文字認識結果を用いることにより本文領域に含まれる各単語毎にそれがテキスト(Text)であるか、数式(Math)であるかが判別される。これにより、図3に示されているように、原画像上の本文領域に含まれる単語それぞれがテキスト領域(Text)と数式領域(Math)とに分けられる。例えば、特定の記号や英数字を含む単語であるか否かによって数式/テキスト領域の判定を行ったり、あるいは、全ての単語種別毎にそれがテキストである可能性と数式である可能性をそれぞれ示す評価値を予め用意しておき、その評価値と各単語の文字認識結果とを用いて数式/テキスト領域の判定を行っても良い。このようにして得られた単語毎の数式/テキスト領域の判定結果は、文字認識結果&位置情報記憶部15に記憶される。
【0017】
次に、ステップS103で数式認識部114により数式認識処理が行われる。この数式認識処理では、上述したように、文字認識結果&位置情報記憶部15に記憶されている数式領域内の各文字の文字認識結果とその位置情報(座標)とに基づいて分数、添え字かどうかの判定などが行われ、数式構造が認識される。例えば、添え字構造の判定においては、図4に示すように、前後の文字間毎にその文字の正規化高さ(h1,h2)と正規化中心(c1,c2)を求め、それら文字間の正規化高さと正規化中心の関係に基づいて、それら文字間が水平関係、上付き添え字関係、下付添え字関係、のいずれであるかを調べることができる。正規化高さは、当該文字がアセンダーおよびディセンダーの双方を持つ文字であると想定した場合における文字高さを示しており、当該文字の文字認識結果と位置情報とから求められる。文字認識結果は、当該文字が、
・アセンダーおよびディセンダーのどちらも持たない小文字類(a,c,e など)
・アセンダーを持つ文字類(数字や大文字、b,d,h など)
・ディセンダーを持つ文字類(g,p,q,y など)
・アセンダーおよびディセンダーの双方を持つ文字類(イタリック体のfなど)
のいずれに該当するかを判断するためなどに用いられる。
【0018】
次に、ステップS104にて修正画面の表示処理が行われる。すなわち、文字認識部112および数式認識部114によるページイメージのテキスト/数式の認識結果はページイメージの原画像とともに認識結果表示部13に送られ、認識結果表示部13によりページイメージの認識結果と原画像とを含む修正画面が表示される。そして、ユーザ操作に基づいて、数式認識結果内の文字の文字認識結果の修正が修正画面上で行われる。修正画面の一例を図5に示す。
【0019】
修正画面には、テキスト/数式の認識結果を表示するための認識結果表示領域201と、認識結果表示領域201上で選択されたテキスト/数式に対応する原画像を表示するためのイメージ表示領域202と、認識結果表示領域201上で選択されたテキスト/数式内の文字に関する修正候補文字の一覧を表示するための候補文字表示領域203が設けられている。さらに、修正画面には、認識結果表示領域201上で選択した数式の再認識を実行させるための「再認識」ボタン204が設けられている。この修正画面上で行われるユーザ操作に基づき数式認識結果内の文字の文字認識結果の修正、および再認識対象の数式領域の選択が行われ、「再認識」ボタン204の押下により再認識処理が開始される(ステップS105〜S107)。
【0020】
すなわち、ユーザは認識結果表示領域201に表示される認識結果とイメージ表示領域202に表示される原画像とを参照して数式認識結果内の文字の文字認識結果を修正する。文字認識結果の修正操作は、認識結果表示部201に表示されている数式中の1文字(記号)を選択し、候補文字表示部203にある文字をクリックしたり、図6に示すような文字記号一覧パレット205を表示させ原画像と一致する文字を選ぶことにより行われる。文字記号一覧パレット205には数式で使用される様々な文字/記号の種類毎に文字・記号の一覧が表示されるので、ユーザは該当する修正候補文字を容易に選択および指示することができる。
【0021】
ステップS107の再認識処理では、修正前の文字の位置情報は変更されずにそのまま保持され、その文字の文字認識結果だけがユーザによって指定された文字に置き換えられる。例えば、図6に示すように、「h(tz)=tph(z)」という数式認識結果内の文字「p」を別の文字「ρ」に修正する場合には、文字「p」の位置情報が修正後の文字「ρ」の位置情報として引き継がれることになる。そして、h, ( , t , z , ) , = , t , ρ , h , ( , z , )という文字列についてその前後の文字毎にそれらの文字認識結果と位置情報とを用いて数式構造が再認識される。再認識結果は再び認識結果表示領域201に表示される(ステップS108)。
【0022】
このように、本実施形態では、数式領域内の各文字の位置情報を保持した状態で文字認識結果のみを修正する仕組みを用いることにより、修正後の文字認識結果を基に数式領域の数式構造を再認識することが可能となる。
【0023】
<接触文字の分離>
次に、図7および図8を参照して、1文字として認識された数式認識結果内の文字を2以上の文字に分離する処理について説明する。
【0024】
数学書の印刷文書によっては、数式内の前後の2つの英数字が接触していることに起因してそれら2つの英数字が一つの文字として文字認識される場合がある。本システムには、このような接触文字を本来の2つの文字に分離して数式構造を再認識するためのインタフェースが用意されている。接触文字を分離するための操作画面の一例を図7に示す。
【0025】
認識結果表示部13は、修正画面上に図7の接触文字修正ウインドウ206を表示する。接触文字修正ウインドウ206には、認識結果表示領域201上で選択された修正対象の接触文字に対応する原画像を表示するための原画像表示部207と、分離後の2以上の文字(本例では2文字)をそれぞれ指定するための文字指定領域208,209とが設けられている。原画像表示部207には接触文字の原画像とそれを取り囲む外接矩形207aとが表示されており、その外接矩形207a上で接触文字の分離位置を指定することが出来る。分離位置の指定は、例えば図示のように、ユーザ操作によって該当する各文字領域を矩形枠1,2で取り囲むことによって行われる。
【0026】
以下、「c」,「l」の2文字が一つの文字「d」として誤認識された場合を想定して、接触文字の分離・修正処理の手順を図8のフローチャートを用いて説明する。
【0027】
まず、認識結果表示部13により、修正画面上に図7のような接触文字修正ウインドウ206が表示される(ステップS201)。ユーザによって認識結果表示領域201上の数式「h+da」の中の接触文字「d」が選択されると、その接触文字「d」の原画像が原画像表示部207上に表示されると共に、その原画像を取り囲む外接矩形207aが原画像表示部207上に表示される。外接矩形207aは接触文字「d」の位置情報に基づいて生成されるものである。
【0028】
この後、ユーザ操作に基づいて、接触文字の分離、修正処理が行われる(ステップS202)。ここでは、原画像表示部207上で2つの矩形枠1,2によって該当する文字領域「c」,「l」をそれぞれ取り囲むことにより、接触文字の分離位置を指定する事が出来る。そして、ユーザによって文字指定領域208,209にそれぞれ「c」,「l」を入力することにより、分離後の2つの文字それぞれの修正候補文字が「c」,「l」に特定される。接触文字修正ウインドウ206上の[OK]ボタンが押されると、数式の再認識処理が自動的に起動される(ステップS203)。
【0029】
この再認識処理では、まず、接触文字「d」に対応する位置情報と、指定された分離位置(2つの矩形枠1,2それぞれの座標)とに基づいて、接触文字「d」に対応する位置情報から分離後の2つの文字それぞれに対応する位置情報が決定される。そして、分離指定された接触文字の文字認識結果「d」がユーザによって指定された分離後の2つの文字「c」,「l」に置換され、h, + , c , l , a という文字列についてその前後の文字毎にそれらの文字認識結果と位置情報とを用いて数式構造が再認識される。
【0030】
<分離文字の統合>
次に、図9および図10を参照して、連続する2以上の文字として認識された数式領域内の分離文字同士を1文字に統合する処理について説明する。
【0031】
数学書の印刷文書によっては、数式内のある1文字がその黒連結成分が分離していることなどに起因して、2つの文字として文字認識される場合がある。本システムには、このような分離文字を本来の1つの文字に統合して数式構造を再認識するためのインタフェースが用意されている。分離文字を統合するための操作画面の一例を図9に示す。
【0032】
認識結果表示部13は、修正画面上に図9の分離文字修正ウインドウ210を表示する。分離文字修正ウインドウ210は、認識結果表示領域201上で選択された修正対象の分離文字を1文字に統合するための文字入力ウインドウであり、ここに任意の文字を入力することにより分離文字を1つの文字に統合することが出来る。
【0033】
以下、数式内の文字「m」が2つの文字「a」,「n」として誤認識された場合を想定して、分離文字の統合・修正処理の手順を図10のフローチャートを用いて説明する。
【0034】
まず、認識結果表示部13により、修正画面上に図9のような分離文字修正ウインドウ210が表示される(ステップS211)。この後、ユーザ操作に基づいて、分離文字の統合、修正処理が行われる(ステップS212)。ここでは、ユーザによって認識結果表示領域201上の数式「e(z1,...,zn)and ……」の中の分離文字「a,n」が選択され、そして分離文字修正ウインドウ210上に統合後の文字「m」が入力される。そして分離文字修正ウインドウ210上の[OK]ボタンが押されると、数式の再認識処理が自動的に起動される(ステップS213)。
【0035】
この再認識処理では、まず、2つの分離文字「a」,「n」それぞれの位置情報から統合後の文字「m」の位置情報が決定される。これは、2つの分離文字「a」,「n」それぞれの位置情報を一文字分の位置情報に統合することによって行われる。そして、統合指定された分離文字それぞれの文字認識結果「a」,「n」がユーザによって指定された統合後の1つの文字「m」に置換され、該当する数式領域に属する置換後の文字列についてその前後の文字毎にそれらの文字認識結果と位置情報とを用いて数式構造が再認識される。
【0036】
<パレットを用いた数式修正機能>
次に、図11乃至図12を参照して、複数種の数式構造それぞれの作成に対応した数式編集画面を用いて数式認識結果を修正する処理について説明する。数式編集画面の一例を図11に示す。
【0037】
認識結果表示部13は、修正画面上に図11の数式修正パレット211を表示する。数式修正パレット211には、例えば分数式、Σ式、積分式、lim 式等の数学記号に対応した複数種の数式構造のテンプレートが用意されており、ユーザは修正したい構造を持つ数学記号を認識結果表示領域201から選択し、数式修正パレット211上の数式構造をクリックする。これにより、図12に示すように、数式修正パレット211上でクリックされた数式構造の数式を作成するための数式修正ウインドウ212が修正画面上に表示される。数式修正ウインドウ212には、数式修正パレット211上でクリックされた数式構造に対応する数式作成テンプレートが表示される。ドラッグ操作で認識結果表示部13上の文字を数式修正ウインドウ212に移動することにより、文字認識結果を用いて所望の数式を作成することが出来る。
【0038】
以下、数式内の数学記号「lim ̄」を「limz→z」に修正する場合を想定して、パレットを用いた数式修正処理の手順を図13のフローチャートを用いて説明する。
【0039】
まず、認識結果表示部13により、修正画面上に図11のような数式修正パレット211が表示される(ステップS221)。この後、ユーザ操作に基づいて、認識結果表示領域201および数式修正パレット211それぞれから修正対象の数式構造「lim ̄」および修正後の数式構造「lim」の選択が行われると(ステップS222)、修正画面上に図12のように修正後の数式構造「lim」に対応した数式作成テンプレートを含む数式修正ウインドウ212が表示される(ステップS223)。そして、ユーザ操作に応じて、認識結果表示部13上の文字列を利用した数式編集処理が数式修正ウインドウ212上で行われる(ステップS224)。例えば、認識結果表示部13上の文字列「z→z」を数式修正ウインドウ212に移動するドラッグ操作が行われると、数式修正ウインドウ212上で「limz→z」という数式構造が作成される。数式修正ウインドウ212上の[OK]ボタンが押されると、修正対象の数式構造の文字認識結果である「lim ̄」が「limz→z」に修正される(ステップS225)。また、必要に応じて、修正後の文字認識結果とそれらの位置情報とを用いて数式の再認識処理を行うことも出来る(ステップS226)。
【0040】
なお、数学書認識部12、認識結果表示部13、および修正入力インタフェース部14を含む本実施形態のOCRシステム11の機能はすべてソフトウェアによって実現できるので、上述の各処理手順をコンピュータに実行させるプログラムを用意し、それをコンピュータ読み取り可能な記憶媒体に記憶すると共に、その記憶媒体を通じてコンピュータに導入して実行するだけで、本実施形態と同様の効果を容易に得ることができる。
【0041】
また、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、上記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0042】
【発明の効果】
以上詳述した如く本発明によれば、ユーザが自ら数式構造を新たに入力することなく、数式構造の誤認識を容易に修正することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るOCRシステムの機能構成を示すブロック図。
【図2】同実施形態における数式認識・修正処理の手順を示すフローチャート。
【図3】同実施形態における数式/テキスト分割処理で文書イメージを単語毎に数式/テキスト領域に分割する様子を示す図。
【図4】同実施形態における数式認識処理で用いられる数式構造判別処理の一例を説明するための図。
【図5】同実施形態で用いられる数式認識結果の修正画面の一例を示す図。
【図6】同実施形態で用いられる文字記号一覧パレットの一例を示す図。
【図7】同実施形態で用いられる接触文字修正ウインドウの一例を示す図。
【図8】同実施形態における接触文字の修正処理の手順を示すフローチャート。
【図9】同実施形態で用いられる分離文字修正ウインドウの一例を示す図。
【図10】同実施形態における分離文字の修正処理の手順を示すフローチャート。
【図11】同実施形態で用いられる数式修正パレットの一例を示す図。
【図12】同実施形態で用いられる数式修正ウインドウの一例を示す図。
【図13】同実施形態における数式修正パレットによる数式修正処理の手順を示すフローチャート。
【符号の説明】
11…OCRシステム
12…数学書認識部
13…認識結果表示部
14…修正入力インタフェース部
15…文字認識結果&位置情報記憶部
111…レイアウト解析部
112…文字認識部
113…数式/テキスト領域分割部
114…数式認識部
115…再認識処理部

Claims (9)

  1. 数式を含む文書イメージの文字認識を行う文字認識手段と、
    前記文書イメージ上の数式領域内の各文字の位置情報とその文字認識結果とに基づいて当該数式領域の数式構造を認識する数式認識手段と、
    前記数式構造認識手段によって得られた数式認識結果と文書イメージを含む修正画面を表示する手段と、
    前記修正画面上で前記数式認識結果内の文字の文字認識結果の修正が指示された場合、前記数式領域内の各文字の位置情報を保持した状態で前記数式領域内の文字の文字認識結果を前記修正指示で指定された修正候補文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識する再認識手段と、
    前記修正画面上に、複数種の数式構造それぞれの作成に対応した数式編集画面を表示する手段と、
    前記数式編集画面上で選択された数式構造を用いて、前記数式認識結果の数式構造を修正する数式構造修正手段と、
    前記数式編集画面上の所定の数式構造が選択された場合、当該選択された数式構造の数式を作成するための数式作成画面を表示する手段と、
    前記修正画面上の数式認識結果内の各文字を前記数式作成画面上に移動する操作に応答して前記数式作成画面上の数式構造に前記移動操作された文字を適用することにより、前記数式作成画面上で新たな数式構造を作成する手段とを具備し、前記数式構造修正手段は、前記数式作成画面上で作成された数式構造に基づいて前記数式認識結果の数式構造を修正することを特徴とする数式認識装置。
  2. 前記修正画面上に文字・記号の一覧を示す文字パレットを表示する手段をさらに具備し、
    前記再認識手段は、修正指示された文字の文字認識結果を前記文字パレット上で指定された文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識することを特徴とする請求項1記載の数式認識装置。
  3. 前記修正画面上に、1文字として認識された数式領域内の文字の分離位置と分離後の2以上の文字それぞれを指定するための操作画面を表示する手段をさらに具備し、
    前記再認識手段は、
    前記操作画面上で指定された分離位置と前記数式領域内の分離指定された文字の位置情報とに基づいて、前記分離後の2以上の文字それぞれに対応する位置情報を決定する手段と、
    前記操作画面上で分離指定された文字の文字認識結果を前記操作画面上で指定された分離後の2以上の文字に修正し、前記数式領域内の修正後の各文字の文字認識結果とその位置情報とに基づいて前記数式領域の数式構造を再認識する手段とを含むことを特徴とする請求項1記載の数式認識装置。
  4. 前記修正画面上に、連続する2以上の文字として認識された数式領域内の文字同士を1文字に統合するための操作画面を表示する手段をさらに具備し、
    前記再認識手段は、
    前記操作画面上で統合指定された文字それぞれの位置情報から前記統合後の1文字に対応する位置情報を決定する手段と、
    前記操作画面上で統合指定された文字それぞれの文字認識結果を前記操作画面上で指定された統合後の文字に修正し、前記数式領域内の修正後の各文字の文字認識結果とその位置情報とに基づいて前記数式領域の数式構造を再認識する手段とを含むことを特徴とする請求項1記載の数式認識装置。
  5. 数式を含む文書イメージの文字認識を行う文字認識ステップと、
    前記文書イメージ上の数式領域内の各文字の位置情報とその文字認識結果とに基づいて当該数式領域の数式構造を認識する数式認識ステップと、
    前記数式構造認識ステップによって得られた数式認識結果と文書イメージを含む修正画面を表示するステップと、
    前記修正画面上で前記数式認識結果内の文字の文字認識結果の修正が指示された場合、前記数式領域内の各文字の位置情報を保持した状態で前記数式領域内の文字の文字認識結果を前記修正指示で指定された修正候補文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識する再認識ステップと、
    前記修正画面上に、複数種の数式構造それぞれの作成に対応した数式編集画面を表示するステップと、
    前記数式編集画面上で選択された数式構造を用いて、前記数式認識結果の数式構造を修正する数式構造修正ステップと、
    前記数式編集画面上の所定の数式構造が選択された場合、当該選択された数式構造の数式を作成するための数式作成画面を表示するステップと、
    前記修正画面上の数式認識結果内の各文字を前記数式作成画面上に移動する操作に応答して前記数式作成画面上の数式構造に前記移動操作された文字を適用することにより、前記数式作成画面上で新たな数式構造を作成するステップとを具備し、前記数式構造修正ステップは、前記数式作成画面上で作成された数式構造に基づいて前記数式認識結果の数式構造を修正することを特徴とする数式認識方法。
  6. 前記修正画面上に文字・記号の一覧を示す文字パレットを表示するステップをさらに具備し、
    前記再認識ステップは、修正指示された文字の文字認識結果を前記文字パレット上で指定された文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識することを特徴とする請求項記載の数式認識方法。
  7. 前記修正画面上に、1文字として認識された数式領域内の文字の分離位置と分離後の2以上の文字それぞれを指定するための操作画面を表示するステップをさらに具備し、
    前記再認識ステップは、
    前記操作画面上で指定された分離位置と前記数式領域内の分離指定された文字の位置情報とに基づいて、前記分離後の2以上の文字それぞれに対応する位置情報を決定するステップと、
    前記操作画面上で分離指定された文字の文字認識結果を前記操作画面上で指定された分離後の2以上の文字に修正し、前記数式領域内の修正後の各文字の文字認識結果とその位置情報とに基づいて前記数式領域の数式構造を再認識するステップとを含むことを特徴とする請求項記載の数式認識方法。
  8. 前記修正画面上に、連続する2以上の文字として認識された数式領域内の文字同士を1文字に統合するための操作画面を表示するステップをさらに具備し、
    前記再認識ステップは、
    前記操作画面上で統合指定された文字それぞれの位置情報から前記統合後の1文字に対応する位置情報を決定するステップと、
    前記操作画面上で統合指定された文字それぞれの文字認識結果を前記操作画面上で指定された統合後の文字に修正し、前記数式領域内の修正後の各文字の文字認識結果とその位置情報とに基づいて前記数式領域の数式構造を再認識するステップとを含むことを特徴とする請求項記載の数式認識方法。
  9. 数式認識をコンピュータに実行させるプログラムであって、
    数式を含む文書イメージの文字認識を行う文字認識手順と、
    前記文書イメージ上の数式領域内の各文字の位置情報とその文字認識結果とに基づいて当該数式領域の数式構造を認識する数式認識手順と、
    前記数式構造認識手順によって得られた数式認識結果と文書イメージを含む修正画面を表示する手順と、
    前記修正画面上で前記数式認識結果内の文字の文字認識結果の修正が指示された場合、前記数式領域内の各文字の位置情報を保持した状態で前記数式領域内の文字の文字認識結果を前記修正指示で指定された修正候補文字に修正し、前記保持されている前記数式領域内の各文字の位置情報と修正後の文字認識結果とに基づいて前記数式領域の数式構造を再認識する再認識手順と、
    前記修正画面上に、複数種の数式構造それぞれの作成に対応した数式編集画面を表示する手順と、
    前記数式編集画面上で選択された数式構造を用いて、前記数式認識結果の数式構造を修正する数式構造修正手順と、
    前記数式編集画面上の所定の数式構造が選択された場合、当該選択された数式構造の数式を作成するための数式作成画面を表示する手順と、
    前記修正画面上の数式認識結果内の各文字を前記数式作成画面上に移動する操作に応答して前記数式作成画面上の数式構造に前記移動操作された文字を適用することにより、前記数式作成画面上で新たな数式構造を作成する手順とをコンピュータに実行させ、前記数式構造修正手順は、前記数式作成画面上で作成された数式構造に基づいて前記数式認識結果の数式構造を修正する手順を含むことを特徴とするプログラム。
JP2002060755A 2002-03-06 2002-03-06 数式認識装置および数式認識方法 Expired - Lifetime JP4181328B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002060755A JP4181328B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002060755A JP4181328B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Publications (2)

Publication Number Publication Date
JP2003256770A JP2003256770A (ja) 2003-09-12
JP4181328B2 true JP4181328B2 (ja) 2008-11-12

Family

ID=28670006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002060755A Expired - Lifetime JP4181328B2 (ja) 2002-03-06 2002-03-06 数式認識装置および数式認識方法

Country Status (1)

Country Link
JP (1) JP4181328B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5471126B2 (ja) * 2009-07-31 2014-04-16 カシオ計算機株式会社 電子機器及びプログラム
JP5482000B2 (ja) * 2009-07-31 2014-04-23 カシオ計算機株式会社 数式入力装置およびプログラム
JP2011141592A (ja) * 2010-01-05 2011-07-21 Nec Informatec Systems Ltd 数式レイアウト変更装置、数式レイアウト変更方法および数式レイアウト変更プログラム
KR101130511B1 (ko) 2010-07-22 2012-03-28 두산동아 주식회사 터치 스크린 장치 및 이의 문자 입력 방법
US9471878B2 (en) 2014-07-11 2016-10-18 International Business Machines Corporation Dynamic mathematical validation using data mining
RU2596600C2 (ru) * 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
JPWO2017069001A1 (ja) * 2015-10-19 2018-08-02 国立大学法人東京農工大学 プログラム、情報記憶媒体及び情報処理装置
JP7247472B2 (ja) * 2018-04-19 2023-03-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
CN111340020B (zh) * 2019-12-12 2024-04-19 科大讯飞股份有限公司 一种公式识别方法、装置、设备及存储介质
CN111652145B (zh) * 2020-06-03 2023-09-26 广东小天才科技有限公司 一种公式检测的方法、装置、电子设备和存储介质
CN113869312B (zh) * 2021-09-29 2024-10-15 北京搜狗科技发展有限公司 一种公式识别方法及装置

Also Published As

Publication number Publication date
JP2003256770A (ja) 2003-09-12

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
US6466694B2 (en) Document image processing device and method thereof
JP4181310B2 (ja) 数式認識装置および数式認識方法
JP5439455B2 (ja) 電子コミック編集装置、方法及びプログラム
US8965125B2 (en) Image processing device, method and storage medium for storing and displaying an electronic document
JP4181328B2 (ja) 数式認識装置および数式認識方法
US20130326341A1 (en) Digital comic editor, method and non-transitorycomputer-readable medium
JP2004258706A (ja) 帳票定義データ作成方法および帳票処理装置
JP3814320B2 (ja) 画像処理方法及び装置
US20220189186A1 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2006185435A (ja) ネーム編集方法、ネーム編集装置及びネーム編集プログラム
CN116682118A (zh) 一种古文字识别方法、系统、终端及介质
JP2001126010A (ja) 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体
JP4181327B2 (ja) 数式認識装置および数式認識方法
JPH0991371A (ja) 文字表示装置
JP3091278B2 (ja) 文書認識方式
JP4633773B2 (ja) 文書画像処理装置および方法
JPH11312231A (ja) データ処理プログラムを記録した記録媒体、データ処理装置およびデータ処理方法
JP2995818B2 (ja) 文字切り出し方法
JP2874815B2 (ja) 日本語文字読取装置
JP2893781B2 (ja) 文字認識装置
JPH08137987A (ja) 光学式文字読取装置
JP2682873B2 (ja) 表形式文書の認識装置
JP2003256772A (ja) 文字認識装置及び記録媒体
JPS61198376A (ja) 光学的文字読取装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050301

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080829

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4181328

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120905

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130905

Year of fee payment: 5

EXPY Cancellation because of completion of term