JP5508359B2 - 文字認識装置、文字認識方法及びプログラム - Google Patents

文字認識装置、文字認識方法及びプログラム Download PDF

Info

Publication number
JP5508359B2
JP5508359B2 JP2011169895A JP2011169895A JP5508359B2 JP 5508359 B2 JP5508359 B2 JP 5508359B2 JP 2011169895 A JP2011169895 A JP 2011169895A JP 2011169895 A JP2011169895 A JP 2011169895A JP 5508359 B2 JP5508359 B2 JP 5508359B2
Authority
JP
Japan
Prior art keywords
character
font
character string
white space
equal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011169895A
Other languages
English (en)
Other versions
JP2013033416A (ja
Inventor
いち子 佐田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2011169895A priority Critical patent/JP5508359B2/ja
Priority to US13/478,585 priority patent/US8861862B2/en
Priority to CN2012102763075A priority patent/CN102982328A/zh
Publication of JP2013033416A publication Critical patent/JP2013033416A/ja
Application granted granted Critical
Publication of JP5508359B2 publication Critical patent/JP5508359B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置及び文字認識方法、並びに、該文字認識装置をコンピュータで実現するためのプログラムに関する。
ワープロ等で作成された文字が印刷された文書原稿を、コンピュータ等の情報処理装置で扱えるようにデジタル化する文字認識の技術が提案されている。文字認識技術では、文書原稿をイメージスキャナ等で読み込んで文字を認識し、文字を英数字、ひらがな又は漢字などの文字コードに変換して保存する。
そして、認識後の文字列に言語処理的な解析処理を行い、文字の認識誤りを補正する処理が一般的に行われている。この補正処理としては、基本的に単語辞書との先頭一致による照合を行い、一致した辞書上の候補、または形態素解析等の言語解析の結果、適正と評価された候補を正解候補として、文字認識結果の文字列を修正するといった手法が一般的である。
しかし、日本語帳票の文書原稿等といった、文字が所定の枠内に一定間隔で配置された文書原稿の場合、すなわち、文字が均等割り付けされた文書原稿の場合、実際は単語区切りでない文字と文字との間の空白を単語区切りと見なしてしまい、単語辞書との照合がうまくいかず、補正処理の効果を十分に得ることができない。
特許文献1には、この問題を解決するものとして、以下の技術が開示されている。すなわち、一行の文字列を表す文字列画像から切り出された1文字の画像と、それに隣接する1文字の画像との間の空白を検出し、該検出した空白が所定の大きさより大きい場合、上記1文字の画像とそれに隣接する1文字の画像とは、それぞれ、異なる単語に属する文字であると識別するもので、取り込まれた文書の画像中の所定の領域内の文字列画像については、上述の識別結果を無効とする技術が開示されている。
特開平8−263587号公報
上述の日本語帳票の文書原稿の場合だけでなく、本来は和文等の表示や印刷に適したMSゴシック等の等倍フォントの文字を含む文書原稿でも上述と同様の問題がある。具体的には、等倍フォントでは文字幅が相対的に狭い文字(「i」)等の前後の空白が、単語区切りの空白文字すなわちでないにも関わらず、単語区切りの空白文字と認識され、補正処理の効果を十分に得ることができない、という問題である。
特許文献1には、この問題に関し、何ら開示も示唆もされていない。
本発明は、斯かる事情に鑑みてなされたものであって、その目的は、MSゴシック等の等倍フォントで構成された欧文文字を含む画像データの文字認識の際、原稿に存在し認識された本来の空白文字と、原稿には存在しない文字幅が相対的に狭い文字(「i」等)の前後であるが故に誤って認識された空白文字とを判別し、後者の誤った空白文字のみを削除する文字認識装置及び文字認識方法並びに該文字認識装置をコンピュータで実現するためのプログラムを提供することにある。
上記課題を解決するために、本発明の第1の技術手段は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置において、認識されたアルファベット文字列それぞれに外接矩形を形成する外接矩形形成部と、隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定する等倍フォント判定部と、等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する余剰空白文字判定部と、前記余剰空白文字と判定された空白文字を前記文字列から削除する余剰空白文字削除部とを備え、前記等倍フォント判定部は、前記文字列の一部に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴とすることを特徴としたものである。
本発明の第2の技術手段は、第1の技術手段において、前記等倍フォント判定部が、1番目と2番目の前記外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する前記外接矩形の幅方向中央線間の距離が前記基準値に基づいて定められる所定の範囲内である場合には、前記文字列のフォントが等倍フォントであると判定することを特徴としたものである。
本発明の第3の技術手段は、第1の技術手段において、前記等倍フォント判定部が、前記隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、前記文字列のフォントが等倍フォントであると判定することを特徴としたものである。
本発明の第の技術手段は、第の技術手段において、前記等倍フォント判定部が、前記文字列のうち文字サイズが等しいと判定される部分に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴としたものである。
本発明の第の技術手段は、第1〜第のいずれか1の技術手段において、前記所定の幅が、前記外接矩形の幅方向中央線間の距離に基づいて決定されることを特徴としたものである。
本発明の第の技術手段は、第1〜第のいずれか1の技術手段において、前記所定の幅、前記文字列の空白文字の幅のヒストグラムに基づいて決定されることを特徴としたものである。
本発明の第の技術手段は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識方法において、認識されたアルファベット文字列それぞれに外接矩形を形成し、前記文字列の一部に関わる、隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定し、等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定し、前記余剰空白文字と判定された余剰空白文字を前記文字列から削除する文字認識方法ことを特徴としたものである。
本発明の第の技術手段は、コンピュータを、第1〜第のいずれか1の技術手段の文字認識装置として機能させることを特徴とするコンピュータプログラムである。
本発明に文字認識装置によれば、MSゴシック等の等倍フォントで構成された欧文文字を含む画像データの文字認識の際、原稿に存在し認識された本来の空白文字と、原稿には存在しない文字幅が相対的に狭い文字の前後であるが故に誤って認識された空白文字とを判別し、後者の誤った空白文字のみを削除することができる。そのため、空白文字を区切りとして単語単位に文字認識結果の文字列を適正に補正できる。
本発明の文字認識装置の一例の内部構成を示すブロック図である。 図1の文字認識装置が実行する処理の一例を示すフローチャートである。 図1の文字認識装置の文字認識対象となる原文書の一例を示す模式図である。 認識文字列データの一例を説明する図である。 外接矩形形成部が実行する外接矩形形成のイメージを示す模式図である。 認識文字列データと認識文字付属情報データの一例を示す表である。 外接矩形中央線導出部が実行する文字外接矩形中央線形成のイメージを示す模式図である。 認識された文字列から余剰空白文字を除去した文字列の一例を示す図である。 図2のステップS105のフォント情報取得処理を説明するフローチャートである。 図2のステップS107の余剰空白文字判定・削除処理を説明するフローチャートである。
以下に、本発明に係る文字認識装置、文字認識方法及びプログラムについて、その実施形態を示す図面に基づいて詳述する。なお、以下の実施形態では、本発明に関わるプログラムを公知のパーソナルコンピュータ、サーバコンピュータ等に読み取らせ、パーソナルコンピュータ又はサーバコンピュータのCPU(Central Processing Unit)等に実行させることによって本発明に係る文字認識装置を実現する構成について説明する。しかし、等価な働きをするハードウェアによって本発明に係る文字認識装置を実現してもよい。
図1は、本発明の文字認識装置の一例の内部構成を示すブロック図である。
本発明の文字認識装置は、画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとする単語単位で文字認識結果を補正するもので、図1の参照符号10で例示するように、制御部11、ネットワークI/F部12、記憶部13、画像取得部14、レイアウト解析部15、文字認識部16、外接矩形形成部17、外接矩形中央線導出部18、等倍フォント判定部19、余剰空白文字判定部20、余剰空白文字削除部21、文字認識補正部22を備える。
制御部11は、CPU、MPU(Micro Processing Unit)等であり、上述したような各部を制御すると共に、記憶部13に格納されている制御プログラムを適宜実行する。
ネットワークI/F部12は、LAN(Local Area Network)又はWAN(Wide Area Network)等のIP(Internet Protocol)ネットワークに接続するためのインタフェースである。ネットワークI/F部12は、IPネットワークを介して外部装置との間で情報の送受信を行なう。
記憶部13は、フラッシュROM(Read Only Memory)、EEPROM(Electrically Erasable and Programmable ROM)、HD(Hard Disk)などの記憶装置である。この記憶部13は、文字認識装置10を動作させるために必要な種々の制御プログラム、制御部11による制御プログラムの実行時に発生する種々のデータ等を記憶する。
記憶部13は、制御プログラムとして、例えば、空白文字を区切りとする単語単位で文字認識結果を補正する文字認識補正プログラム13a、不要な空白文字のデータを削除する空白削除プログラム13hを記憶している。
また、記憶部13は、制御部11による制御プログラムの実行時に発生する種々のデータとして、原文書画像データ13b、レイアウト解析データ13c、認識文字列データ13d、認識文字付属情報データ13e、空白文字削除後文字列データ13f、文字認識補正後文字列データ13g等を記憶している。
画像取得部14は、例えばスキャナであり、文字が記載された原文書画像の画像データを取得し、記憶部13に原文書画像データ13bとして記憶させる。
レイアウト解析部15は、画像取得部14によって取得された原文書画像のレイアウトを解析し、原文書画像に含まれる文字領域、画像領域、余白等の割付を解析するとともに、各領域の位置やサイズ等を特定し、記憶部13にレイアウト解析データ13cとして記憶させる。
文字認識部16は、レイアウト解析部15によって抽出された個々の文字領域に含まれる文字を認識して文字列を取得するとともに、原文書画像中における文字の位置やサイズ等の特定を行い、記憶部13に認識文字列データ13d及び認識文字付属情報データ13eとして記憶させる。
外接矩形形成部17は、文字認識結果である認識文字列データ13d及び認識文字付属情報データ13eを利用し、認識された文字列を構成する各アルファベット文字に対して文字外接矩形を形成する。
外接矩形中央線導出部18は、形成した文字外接矩形それぞれの幅方向の中央線の位置を算出する。
等倍フォント判定部19は、文字外接矩形の幅方向の中央線の位置情報を用いて、隣接する文字外接矩形の幅方向中央線間の距離に基づいて、文字列に用いられているフォントが等倍フォントであるか否か判定する。例えば、1番目と2番目の外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する外接矩形の幅方向の中央線間の距離が上記基準値に基づいて定められる所定の範囲内である場合には、等倍フォントであると判定する。なお、上述の所定の範囲とは、上記基準値をXとした場合、例えば、X/1.1〜1.1X、もしくは、真の空白文字が挿入されているケースを想定した2X/1.1〜2.2Xである。また、隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、文字列のフォントが等倍フォントであると判定するようにしてもよい。この場合、ある一定区間の文字列の個々の幅を鳥瞰的に見た偏りのない判定処理が期待できる。
また、等倍フォントであるか否かの判定は、認識した文字列の一部に基づいて行ってもよい。これにより判定処理の速度を向上させることができる。
さらに、上記判定は、認識した文字列のうち文字サイズが等しいと判定される部分に基づいて行ってもよい。これにより、1文書中に様々な文字サイズが混在している場合でも判定処理の精度を向上させることができる。なお、読取元の原稿において文字サイズが同じであっても、読み取った文字サイズは僅かに異なる場合がある。したがって、認識した文字サイズが僅かに異なっていても、文字認識装置10では、認識した文字サイズが等しいと判定する。
なお、行頭または行末の文字を含む外接矩形中央線間では、それ以外の部分に比べ、正確な距離を得ることができない可能性があるので、行頭及び行末の文字は、等倍フォント判定の際の基準値を求める際や、等倍フォント判定対象から除くようにしておいてもよい。
余剰空白文字判定部20は、文字列に用いられているフォントが等倍フォントである場合に、文字認識部16の結果である認識文字列データ13dに存在する空白文字各々について、当該空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する。上記所定の幅は、例えば、隣接する外接矩形の幅方向の中央線間の距離に基づいて定めてもよいし、また、文字列の空白文字の幅のヒストグラムに基づいて定めてもよい。後者の場合、ある一定区間の空白文字の個々の幅を鳥瞰的に見た偏りのない判定処理が期待できる。
余剰空白文字削除部21は、余剰空白文字判定部20で、空白文字のうち余剰空白文字と判定された空白文字のみを認識文字列データ13dから削除し、記憶部13に空白文字削除後文字列データ13fとして記憶させる。
以上のような構成により、文字認識装置10は、文字認識された文字列のフォントがMSゴシック等の等倍フォントの場合に、「i」等の幅が狭い文字の前後に文字認識の際に誤って挿入された空白文字を削除できる。
なお、文字認識補正部22は、単語辞書を用い、空白文字削除後文字列データに基づいて、空白文字を区切りとする単語単位で文字認識結果を補正し、記憶部13に文字認識補正後文字列データ13gとして記憶させる。この補正の際、余剰空白文字を削除する前の文字列と余剰空白文字を削除した後の文字列とのそれぞれに単語辞書を用いた補正を行い、より適切は補正結果が得られた方の補正結果を出力するようにしてもよい。
図2〜図8を用いて、図1の文字認識装置10が実行する処理の一例を説明する。図2は、上記処理の一例を示すフローチャートである。図3は、図1の文字認識装置10の文字認識対象となる原文書の一例を示す模式図である。図4は、認識文字列データ13dの一例を説明する図である。図5は、外接矩形形成部17が実行する外接矩形形成のイメージを示す模式図である。図6は、認識文字列データ13dと認識文字付属情報データ13eの一例を示す表である。図7は、外接矩形中央線導出部18が実行する文字外接矩形中央線形成のイメージを示す模式図である。図8は、認識された文字列から余剰空白文字を除去した文字列の一例を示す図である。
制御部11は、画像取得部14によって、文字が記載された原文書の画像データを取得し、記憶部13に原文書画像データ13bとして記憶させる(ステップS100)。ここでは、図3の等倍フォントであるMSゴシックが用いられた「The presentation data」という文字列Iからなる原文書が文字認識対象であるものとする。
制御部11は、ステップS100で原文書画像データを取得すると、レイアウト解析部15によって、原文書画像のレイアウトを解析させ、原文書画像に含まれる文字領域、画像領域、余白等の割付を解析させるとともに、各領域の位置やサイズ等を特定し、記憶部13にレイアウト解析データ13cとして記憶させる(ステップS101)。
そして、制御部11は、文字認識部16によって、レイアウト解析で抽出された個々の文字領域に含まれる文字を認識させ文字列として取得させるとともに、原文書画像中における文字の位置やサイズ等の特定を行わせ、記憶部13に認識文字列データ13d及び認識文字付属情報データ13eとして記憶させる(S102)。文字認識部16は、図3のMSゴシックの「The presentation data」という文字列Iからなる原文書からは、図4の「The presentati on data」という文字列Lを取得する。図4の文字列Lでは、文字「i」と文字「o」の間に原文書にはない空白文字が挿入されている。以下では、文字認識結果として図4の文字列Lを取得したものとして説明する。
制御部11は、外接矩形形成部17によって、文字認識結果である認識文字列データ13d及び認識文字付属情報データ13eを利用し、図5に示すように各アルファベット文字に対して文字外接矩形Sを形成させる(S103)。例えば、図6の表T中の文字番号「0」である文字「T」の外接矩形は、当該文字「T」の座標値として、左X座標=97、上Y座標=592、右X座標=110、下Y座標=568が取得されることで形成される。
また、制御部11は、外接矩形中央線導出部18によって、文字外接矩形それぞれについて、文字外接矩形中央線C(図7参照)の位置情報すなわち該矩形中央の幅方向の座標値を求める(S104)。例えば、文字番号「0」である文字「T」の外接矩形中央の幅方向の座標値は、左X座標=97と右X座標=110の平均値である「X座標=103.5」となる。
そして、制御部11は、等倍フォント判定部19によって、各文字の外接矩形中央の幅方向の座標値(中央線C)に基づいて、該当文字列が等倍フォントであるか否かを示すフォント情報を取得し(ステップS105)、該フォント情報に基づいて等倍フォントか否かの判定を行う(ステップS106)。等倍フォントでない場合(NOの場合)にはそのまま処理を終了し、等倍フォントの場合(YES)の場合には、余剰空白文字判定部20によって、各空白文字が余剰空白文字か否かの判定を該空白文字の幅に基づいて行い、余剰空白と判定された場合は、余剰空白文字削除部21によって当該余剰空白文字を削除する(ステップS107)。これにより、図4のMSゴシックの「The presentati on data」という文字列Lから余剰空白文字を除いた図8の「The presentation data」という文字列Mを取得できる。
図9は、図2のステップS105のフォント情報取得処理を説明するフローチャートである。
制御部11は、等倍フォント判定部19によって、外接矩形中央線の着目ポインタを1番目の外接矩形中央線に設定し(ステップS200)、2番目の外接矩形中央線が存在するか否か判定する(ステップS201)。存在しない場合(NOの場合)は、フォント情報取得処理を終了し、図2のメインの処理もステップS105〜S107の処理を行わずに終了し、一方、存在する場合(YESの場合)は、外接矩形中央線の着目ポインタを1つ進める(ステップS202)。
そして、ステップS104で求めた各文字の外接矩形中央線の位置情報を利用し、1番目の外接矩形中央線と2番目の外接矩形中央線間の距離を求め、基準値に設定する(ステップS203)。例えば、1番目の外接矩形中央線すなわち図6の1番目の文字である文字番号「0」の文字「T」の外接矩形の中央線は「X座標=103.5」であり、1番目の外接矩形中央線すなわち図6の2番目の文字である文字番号「1」の「h」の外接矩形の中央線は「X座標=120」であり、これらから上記外接矩形中央線間の距離120 − 103.5 =16.5を求め、基準値に設定する。
次に、次の外接矩形中央線が存在するか否かの判定を行う(ステップS204)。存在する場合(YESの場合)、外接矩形中央線の着目ポインタを1つ進め(ステップS205)、テップS104で求めた各文字の外接矩形中央線の位置情報を利用し、上記ポインタで示される現在着目する外接矩形中央線と、1つ前の外接矩形中央線との距離を求める(ステップS206)。
例えば、上記ポインタが3つ目に設定されている場合は、2番目の外接矩形中央線すなわち図6の2番目の文字である文字番号「1」の文字「h」の外接矩形の中央線の「X座標=120」と、3番目の外接矩形中央線すなわち図6の3番目の文字である文字番号「2」の「e」の外接矩形の中央線の「X座標=136」とから、3番目の文字外接矩形中央線と2番目の文字外接矩形中央線との距離136−120=16を求める。
また、例えば、上記ポインタが4つ目に設定されている場合は、4番目の外接矩形中央線すなわち図6の5番目の文字である文字番号「4」の文字「p」の外接矩形の中央線の「X座標=167.5」と、3番目の外接矩形中央線すなわち図6の3番目の文字である文字番号「2」の「e」の外接矩形の中央線の「X座標=136」とから4番目の文字外接矩形中央線と3番目の文字外接矩形中央線との距離167.5−136=31.5を求める。
そして、S206で求めた外接矩形中央線の着目ポインタで示される現在着目する外接矩形中央線と1つ前の外接矩形中央線との距離が、ステップS203で求めた基準値に基づいて定められる所定の範囲内か否かに基づいて判定する(ステップS207)。なお、所定の範囲とは、前述したように、基準値をXとした場合、例えば、X/1.1〜1.1X、もしくは、真の空白文字が挿入されているケースを想定した2X/1.1〜2.2Xである。
ステップS207において、現在着目する外接矩形中央線と1つ前の外接矩形中央線との距離が所定の範囲内である場合、すなわち、上記距離がステップS203で求めた基準値の整数倍になっている場合(YESの場合)、「等倍フォントである」という判定結果を等倍フォント総合評価用バッファに格納し、ステップS204に戻る(ステップS208)。
また、ステップS207において、現在着目する外接矩形中央線と1つ前の外接矩形中央線との距離が所定の範囲内でない場合、すなわち、上記距離がステップS203で求めた基準値の整数倍になっていない場合(NOの場合)、「等倍フォントではない」という判定結果を等倍フォント総合評価用バッファに格納し、ステップS204に戻る(ステップS209)。
例えば、上記ポインタが3つ目に設定されている場合、ステップS206で求めた3番目の文字外接矩形中央線と2番目の文字外接矩形中央線との距離16は、ステップS203で求めた基準値16.5に基づく所定の範囲15〜18.15の範囲内であるので、ステップS208において、「等倍フォント」という判定結果を等倍フォント総合評価用バッファに格納し、ステップS204に戻る。
また、例えば、上記ポインタが4つ目に設定されている場合、ステップS206で求めた4番目の文字外接矩形中央線と3番目の文字外接矩形中央線との距離31.5は、ステップS203で求めた基準値16.5に基づく所定の範囲30〜36.3の範囲内であるので、ステップS208において、「等倍フォント」という判定結果を等倍フォント総合評価用バッファに格納し、ステップS204に戻る。
ステップS204において、次の外接矩形中央線が存在しないと判定された場合(NOの場合)、等倍総合評価用バッファに格納されている「等倍フォントである」という判定結果や、「等倍フォントではない」という判定結果に基づいて、該当文字列が等倍フォントであるか否かを示すフォント情報を出力して(ステップS210)、図2のステップS106進む。ステップS210では、例えば、「等倍フォントである」という判定結果が90%以上を占めるならば、該当文字列が等倍フォントであるというフォント情報を出力する。
図10は、図2のステップS107の余剰空白文字判定・削除処理を説明するフローチャートである。
まず、制御部11は、余剰空白文字判定部20によって、現在着目する空白文字の幅は所定の幅以下か否か判定し(ステップS300)、所定の幅以下でなく該空白文字が真の空白文字である場合(NOの場合)、ステップS302に進み、所定の幅以下であり該空白文字が余剰空白文字である場合(YESの場合)、ステップS301に進む。所定の幅とは、例えば、ステップS203で求めた基準値をXとした場合、例えば、X/1.2である。
例えば、現在着目する空白文字が図6の文字番号「3」の空白文字の場合、該空白文字の幅は、文字番号「4」の文字の左X座標(=161)から文字番号「2」の文字の右X座標(=142)を減じた値「19」であり、ステップS203で求めた基準値(=16.5)に基づく所定の幅(=13.75)以下ではないので、ステップS302に進む。
例えば、現在着目する空白文字が図6の文字番号「14」の空白文字の場合、該空白文字の幅は、文字番号「15」の文字の左X座標(=321)から文字番号「13」の文字の右X座標(=312)を減じた値「9」であり、上記所定の幅(=13.75)以下であるので、ステップS301に進む。
ステップS301では、余剰空白文字と判定された空白文字を削除し、ステップS302に進む。例えば、図6の文字番号「14」である空白文字は削除されることになる。
ステップS402では、現在着目する空白文字の次の空白文字が存在するかを判定し、次の空白文字が存在する場合(YESの場合)は、着目空白文字ポインタを1つ進め(ステップS303)、ステップS304に戻り、存在しない場合(NOの場合)は処理を終了する。
10…文字認識装置、11…制御部、12…ネットワークI/F部、13…記憶部、13a…文字認識補正プログラム、13b…原文書画像データ、13c…レイアウト解析データ、13d…認識文字列データ、13e…認識文字付属情報データ、13f…空白文字削除後文字列データ、13g…文字認識補正後文字列データ、13h…空白削除プログラム、14…画像取得部、15…レイアウト解析部、16…文字認識部、17…外接矩形形成部、18…外接矩形中央線導出部、19…等倍フォント判定部、20…余剰空白文字判定部、21…余剰空白文字削除部、22…文字認識補正部。

Claims (8)

  1. 画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識装置において、
    認識されたアルファベット文字列それぞれに外接矩形を形成する外接矩形形成部と、
    隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定する等倍フォント判定部と、
    等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定する余剰空白文字判定部と、
    前記余剰空白文字と判定された空白文字を前記文字列から削除する余剰空白文字削除部とを備え
    前記等倍フォント判定部は、前記文字列の一部に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴とする文字認識装置。
  2. 前記等倍フォント判定部は、1番目と2番目の前記外接矩形の幅方向中央線間の距離を基準値とし、他の隣接する前記外接矩形の幅方向中央線間の距離が前記基準値に基づいて定められる所定の範囲内である場合には、前記文字列のフォントが等倍フォントであると判定することを特徴とする請求項1に記載の文字認識装置。
  3. 前記等倍フォント判定部は、前記隣接する外接矩形の幅方向中央線間の距離のヒストグラムをとり、該ヒストグラムに中央化傾向がある場合には、前記文字列のフォントが等倍フォントであると判定することを特徴とする請求項1に記載の文字認識装置。
  4. 前記等倍フォント判定部は、前記文字列のうち文字サイズが等しいと判定される部分に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定することを特徴とする請求項に記載の文字認識装置。
  5. 前記所定の幅は、前記外接矩形の幅方向中央線間の距離に基づいて決定されることを特徴とする請求項1〜のいずれか1項に記載の文字認識装置。
  6. 前記所定の幅は、前記文字列の空白文字の幅のヒストグラムに基づいて決定されることを特徴とする請求項1〜のいずれか1項に記載の文字認識装置。
  7. 画像として読み取られた文書原稿から文字を認識し、空白文字を区切りとして単語単位に文字認識結果の文字列を補正する文字認識方法において、
    認識されたアルファベット文字列それぞれに外接矩形を形成し、
    前記文字列の一部に関わる、隣接する前記外接矩形の幅方向中央線間の距離に基づいて、前記文字列のフォントが等倍フォントであるか否かを判定し、
    等倍フォントと判定された場合に、前記文字列中の空白文字の文字幅が所定の幅よりも狭いことに基づいて当該空白文字が余剰空白文字であることを判定し、
    前記余剰空白文字と判定された余剰空白文字を前記文字列から削除することを特徴とする文字認識方法。
  8. コンピュータを、請求項1乃至のいずれか1項に記載の文字認識装置として機能させることを特徴とするコンピュータプログラム。
JP2011169895A 2011-08-03 2011-08-03 文字認識装置、文字認識方法及びプログラム Active JP5508359B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2011169895A JP5508359B2 (ja) 2011-08-03 2011-08-03 文字認識装置、文字認識方法及びプログラム
US13/478,585 US8861862B2 (en) 2011-08-03 2012-05-23 Character recognition apparatus, character recognition method and program
CN2012102763075A CN102982328A (zh) 2011-08-03 2012-08-03 字符识别装置和字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011169895A JP5508359B2 (ja) 2011-08-03 2011-08-03 文字認識装置、文字認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2013033416A JP2013033416A (ja) 2013-02-14
JP5508359B2 true JP5508359B2 (ja) 2014-05-28

Family

ID=47626990

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011169895A Active JP5508359B2 (ja) 2011-08-03 2011-08-03 文字認識装置、文字認識方法及びプログラム

Country Status (3)

Country Link
US (1) US8861862B2 (ja)
JP (1) JP5508359B2 (ja)
CN (1) CN102982328A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850350B2 (en) 2012-10-16 2014-09-30 Google Inc. Partial gesture text entry
US8843845B2 (en) 2012-10-16 2014-09-23 Google Inc. Multi-gesture text input prediction
US8819574B2 (en) * 2012-10-22 2014-08-26 Google Inc. Space prediction for text input
US8832589B2 (en) 2013-01-15 2014-09-09 Google Inc. Touch keyboard using language and spatial models
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN104516859B (zh) * 2013-09-27 2018-02-13 北大方正集团有限公司 一种文字修正方法及系统
CN106104516B (zh) * 2014-03-25 2019-06-28 富士通株式会社 终端装置、显示控制方法以及程序
JP6472218B2 (ja) * 2014-11-17 2019-02-20 株式会社日立情報通信エンジニアリング 文字認識システム及び文字認識方法
CN106156772B (zh) * 2015-03-25 2019-08-02 佳能株式会社 用于确定词间距的方法和设备以及用于分词的方法和系统
GB2572386B (en) * 2018-03-28 2021-05-19 Canon Europa Nv An image processing system and an image processing method
CN108564078B (zh) * 2018-04-24 2020-11-13 大连民族大学 提取满文单词图像中轴线的方法
CN109766885B (zh) * 2018-12-29 2022-01-18 北京旷视科技有限公司 一种文字检测方法、装置、电子设备及存储介质
JP7283755B2 (ja) * 2020-04-16 2023-05-30 株式会社ミラボ 情報処理装置、及びプログラム

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58112176A (ja) * 1981-12-26 1983-07-04 Toshiba Corp 光学的文字読取装置
US4635290A (en) * 1983-12-20 1987-01-06 Nec Corporation Sectioning apparatus and method for optical character reader systems
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
US5131053A (en) * 1988-08-10 1992-07-14 Caere Corporation Optical character recognition method and apparatus
JP2963465B2 (ja) * 1989-06-23 1999-10-18 株式会社リコー スペース検出方法
JP2753094B2 (ja) * 1990-01-31 1998-05-18 沖電気工業株式会社 単語切り出し装置
JP2915175B2 (ja) * 1990-10-01 1999-07-05 株式会社エフ・エフ・シー 単語間スペース検出方法
JPH0567237A (ja) 1991-05-13 1993-03-19 Hitachi Eng Co Ltd 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JPH04353989A (ja) * 1991-05-30 1992-12-08 Sharp Corp 単語切り出し方式
JPH06348911A (ja) 1993-06-07 1994-12-22 Matsushita Electric Ind Co Ltd 英文字認識装置
JPH08221576A (ja) * 1994-12-12 1996-08-30 Toshiba Corp 文字列における直線検出方式、直線除去方式および宛名領域判別装置
JPH08263587A (ja) 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd 文書入力方法および文書入力装置
US5689585A (en) * 1995-04-28 1997-11-18 Xerox Corporation Method for aligning a text image to a transcription of the image
CA2176691C (en) * 1995-05-15 2004-04-13 Junji Tanaka Hand-written character recognition apparatus and facsimile apparatus
JP3537570B2 (ja) * 1995-12-18 2004-06-14 株式会社リコー 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
US5803629A (en) * 1997-03-14 1998-09-08 Paul H. Neville Method and apparatus for automatic, shape-based character spacing
GB9711022D0 (en) * 1997-05-28 1997-07-23 Rank Xerox Ltd Text/image selection from document images
JP3880044B2 (ja) * 2002-02-22 2007-02-14 富士通株式会社 手書き文字入力支援装置及び方法
IL162878A0 (en) * 2004-07-06 2005-11-20 Hi Tech Solutions Ltd Multi-level neural network based characters identification method and system
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
US8094973B2 (en) * 2008-10-06 2012-01-10 Xerox Corporation Content aware image resizing for text and contone images
US8515176B1 (en) * 2011-12-20 2013-08-20 Amazon Technologies, Inc. Identification of text-block frames

Also Published As

Publication number Publication date
JP2013033416A (ja) 2013-02-14
US20130034302A1 (en) 2013-02-07
CN102982328A (zh) 2013-03-20
US8861862B2 (en) 2014-10-14

Similar Documents

Publication Publication Date Title
JP5508359B2 (ja) 文字認識装置、文字認識方法及びプログラム
CN110569830A (zh) 多语言文本识别方法、装置、计算机设备及存储介质
JP3919617B2 (ja) 文字認識装置および文字認識方法、プログラムおよび記憶媒体
CN102592299B (zh) 文件生成装置和文件生成方法
US7796817B2 (en) Character recognition method, character recognition device, and computer product
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
US20070041643A1 (en) Character recognition apparatus and character recognition method
CN110245570B (zh) 扫描文本分段方法、装置、计算机设备和存储介质
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
JP5538812B2 (ja) 画像処理装置、画像処理方法及びプログラム
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2002063548A (ja) 手書き文字認識方法
JP2000148788A (ja) 文書画像からのタイトル領域抽出装置およびタイトル領域抽出方法,並びに文書検索方法
JP5039659B2 (ja) 文字認識方法及び文字認識装置
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP5830996B2 (ja) 画像処理装置及びプログラム
JP6575116B2 (ja) 文字認識装置、文字認識処理システム、およびプログラム
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP6528927B2 (ja) 文書処理装置及びプログラム
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP2022051198A (ja) Ocr処理装置、ocr処理方法、及びプログラム
JP3595081B2 (ja) 文字認識方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130611

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140320

R150 Certificate of patent or registration of utility model

Ref document number: 5508359

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150