JP6187307B2 - 画像処理装置及び画像処理プログラム - Google Patents
画像処理装置及び画像処理プログラム Download PDFInfo
- Publication number
- JP6187307B2 JP6187307B2 JP2014029113A JP2014029113A JP6187307B2 JP 6187307 B2 JP6187307 B2 JP 6187307B2 JP 2014029113 A JP2014029113 A JP 2014029113A JP 2014029113 A JP2014029113 A JP 2014029113A JP 6187307 B2 JP6187307 B2 JP 6187307B2
- Authority
- JP
- Japan
- Prior art keywords
- cell
- bias
- character
- image
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
請求項1の発明は、表画像内のセル毎の画像を文字認識する認識手段と、前記表画像の部分領域を抽出する抽出手段と、前記部分領域のセル内の文字認識結果である文字の種別に基づいて、該部分領域内の文字の種別の偏りを判別し、該偏りがある部分領域における種別の特異点であるセルを抽出する第2の抽出手段と、前記第2の抽出手段によって抽出されたセル内の画像を、該セルを含む部分領域の偏りの種別の認識辞書を用いて文字認識する第2の認識手段を具備することを特徴とする画像処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
画像処理装置100の処理の概要を説明する。なお、この説明は、具体的な例を用いているが、本実施の形態の理解を容易にすることを目的とするものであり、画像処理装置100を限定するために用いてはならない。表の行又は列では同タイプの文字種別のデータが並びやすいことを利用して、行又は列毎の文字種別の偏りを検出して、特異点となるセルを誤認識候補として、再度文字認識する。
一般文字認識モジュール130は、表構造解析モジュール120、パス設定モジュール140と接続されている。一般文字認識モジュール130は、表画像内のセル毎の画像を文字認識する。例えば、一般的な認識辞書による文字認識機能を有している。一般的な認識辞書とは、文字種別に限定されない網羅的な辞書をいう。例えば、一般文字認識モジュール130による文字認識では、数字「7」をカタカナ「ワ」等に誤認識する場合がある。
具体的には、部分領域を行又は列とした場合、表構造解析モジュール120による解析結果である表構造データ(セルの座標位置等)を参考にして、行方向又は列方向に隣接セルを辿るパスの一覧を作成する。このパスデータには、各セルの文字認識結果(文字種別の分布)を含んでいてもよい。
また、偏り/特異点検出モジュール150は、部分領域の文字数による重みを付与して、偏りを判別するようにしてもよい。
具体的には、偏り/特異点検出モジュール150は、各パス毎に同種の文字種別が続くか否かの判定を行う。続くと判定された領域は偏りのある領域とみなされ、その範囲内に含まれる文字種別がその種別以外ならば特異点としてそのセルをラベル付けする。
具体的には、特殊文字認識モジュール160は、ラベル付けされた特異点のセルを偏った文字種別の文字認識辞書で再認識する。
表示モジュール170は、偏り/特異点検出モジュール150、特殊文字認識モジュール160と接続されている。表示モジュール170は、偏り/特異点検出モジュール150によって検出された部分領域の文字種別の偏り、特異点のセル、特殊文字認識モジュール160による認識結果を、液晶ディスプレイ等の表示装置に表示する。
ステップS202では、画像読込モジュール110が、画像を読み込む。この画像内には、表画像が含まれている。また、画像から表画像の領域だけを抽出してもよい。例えば、図3に示す表画像300が含まれている画像を読み込む。
ステップS204では、表構造解析モジュール120が、画像内の表を対象として、構造を解析する。具体的には、各セルの位置を認識する。
ステップS210では、偏り/特異点検出モジュール150が、各パスについて、文字種別の偏り/特異点を検出する。文字種別の偏りがあるか否かを判断し、そして、偏りがある場合は、特異点のセルを抽出する。例えば、図6に示す表500のパス510では文字種別として「日(日本語)」「日」「日」「日」、パス520では文字種別として「英(英字)」「数(数字)」「数」「数」、パス530では文字種別として「数」「数」「数」「日」、パス540では文字種別として「数」「数」「数」「数」、である。ここで、パス内での文字種別の割合を算出し、偏りの閾値として70%とすると、パス510では、全て「日」であるので「日」の割合は100%であり、偏りがあると判定される。パス520では、3/4が「数」であるので「数」の割合は75%であり、「数」の偏りがあり、「英」は特異点であると判定される。パス530では、3/4が「数」であるので「数」の割合は75%であり、「数」の偏りがあり、「日」は特異点であると判定される。パス540では、全て「数」であるので「数」の割合は100%であり、偏りがあると判定される。
ステップS214では、表示モジュール170が、特異点のセルを他のセルとは異なる態様で表示する。図7の例に示す表認識結果700の第2行第1列、第3行第4列のセル内の背景を、赤色(他のセル内の背景は白)としたり、他の文字よりも大きくしたり、点滅させたりすればよい。
ステップS802では、パス設定モジュール140が、横方向と縦方向のパスを設定する。図9(a)の例に示す表500のパス510〜540は、図5の例に示すパスと同様に横方向にパスを設定したものである。図9(b)に示す例は、同じ表500に対して縦方向にパス(パス910、パス920、パス930、パス940)を設置したものである。
ステップS808では、偏り/特異点検出モジュール150が、そのセルは特異点のセルではないとする。
各部分領域(入れ子構造1110、入れ子構造1120、入れ子構造1130)をパスして、図2の例に示すフローチャートにおけるステップS210以降の処理を行えばよい。つまり、各パスにおいて文字種別の偏りがあれば、その中の特異点であるセルを補正の対象にする。
前述の実施の形態において、偏りを判別する際に、部分領域の文字数による重みを付与してもよい。例えば、セル内に文字種別A、文字種別Bの文字があり、それぞれ文字数X、Yである場合、文字種別AはX/(X+Y)、文字種別BはY/(X+Y)とする。
また、隣合った部分領域における偏りを参考にして、偏りを決定するようにしてもよい。例えば、対象としている部分領域での偏りを決定する際に、隣合った部分領域でも同じ文字種別の偏りであることを条件としてもよい。隣合った部分領域は、既に偏りが決定されたものとし、2つ目以降の部分領域の判定の際に、その条件を課すようにしてもよい。また、表の予め定められた部分領域(例えば、第1行、第1列等)以外の部分領域を対象としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…画像読込モジュール
120…表構造解析モジュール
130…一般文字認識モジュール
140…パス設定モジュール
150…偏り/特異点検出モジュール
160…特殊文字認識モジュール
170…表示モジュール
Claims (6)
- 表画像内のセル毎の画像を文字認識する認識手段と、
前記表画像の部分領域を抽出する抽出手段と、
前記部分領域のセル内の文字認識結果である文字の種別に基づいて、該部分領域内の文字の種別の偏りを判別し、該偏りがある部分領域における種別の特異点であるセルを抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出されたセル内の画像を、該セルを含む部分領域の偏りの種別の認識辞書を用いて文字認識する第2の認識手段
を具備することを特徴とする画像処理装置。 - 前記第2の抽出手段は、前記部分領域内における文字の種別の割合に基づいて種別の偏りを判別し、該偏りのある種別以外の種別である文字が記入されているセルを特異点のセルとして抽出する
ことを特徴とする請求項1に記載の画像処理装置。 - 前記抽出手段は、前記部分領域として行又は列を抽出し、
前記第2の抽出手段は、特異点のセルがある第1の行又は列に対して直交する、該セルを含む第2の列又は行において、該セルが特異点ではない場合は、該セルを第1の行又は列において特異点ではないとする
ことを特徴とする請求項1又は2に記載の画像処理装置。 - 前記抽出手段は、複数のセルによって構成されるL字型の部分領域、又は複数のセルによって構成される構造が同じであるセル群を、部分領域として抽出する
ことを特徴とする請求項1又は2に記載の画像処理装置。 - 前記第2の抽出手段は、前記部分領域の文字数による重みを付与して、偏りを判別する
ことを特徴とする請求項1から4のいずれか一項に記載の画像処理装置。 - コンピュータを、
表画像内のセル毎の画像を文字認識する認識手段と、
前記表画像の部分領域を抽出する抽出手段と、
前記部分領域のセル内の文字認識結果である文字の種別に基づいて、該部分領域内の文字の種別の偏りを判別し、該偏りがある部分領域における種別の特異点であるセルを抽出する第2の抽出手段と、
前記第2の抽出手段によって抽出されたセル内の画像を、該セルを含む部分領域の偏りの種別の認識辞書を用いて文字認識する第2の認識手段
として機能させるための画像処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029113A JP6187307B2 (ja) | 2014-02-19 | 2014-02-19 | 画像処理装置及び画像処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014029113A JP6187307B2 (ja) | 2014-02-19 | 2014-02-19 | 画像処理装置及び画像処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015153340A JP2015153340A (ja) | 2015-08-24 |
JP6187307B2 true JP6187307B2 (ja) | 2017-08-30 |
Family
ID=53895462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014029113A Active JP6187307B2 (ja) | 2014-02-19 | 2014-02-19 | 画像処理装置及び画像処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6187307B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111612087B (zh) * | 2020-05-28 | 2023-07-14 | 北京益嘉阳光科技发展有限公司 | 动车组teds系统图像特征字典生成方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2682873B2 (ja) * | 1989-08-23 | 1997-11-26 | 富士ファコム制御株式会社 | 表形式文書の認識装置 |
JPH0660222A (ja) * | 1992-08-12 | 1994-03-04 | Toshiba Corp | 文字認識装置 |
JPH06111058A (ja) * | 1992-09-25 | 1994-04-22 | Toshiba Corp | 文字列検出装置 |
JPH11259596A (ja) * | 1998-03-09 | 1999-09-24 | Fujitsu Ltd | 文字認識装置 |
JP2008108114A (ja) * | 2006-10-26 | 2008-05-08 | Just Syst Corp | 文書処理装置および文書処理方法 |
-
2014
- 2014-02-19 JP JP2014029113A patent/JP6187307B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015153340A (ja) | 2015-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10740899B2 (en) | Image processing apparatus for identifying region within image, information processing method, and storage medium | |
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
US8391607B2 (en) | Image processor and computer readable medium | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
US9171218B2 (en) | Image processing apparatus, image processing method, and computer readable medium that recognize overlapping elements in handwritten input | |
US10643097B2 (en) | Image processing apparatuses and non-transitory computer readable medium | |
JP2013122634A (ja) | 情報処理装置及び情報処理プログラム | |
US8744171B1 (en) | Text script and orientation recognition | |
JP5601027B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6187307B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6310155B2 (ja) | 文字認識装置、文字認識方法及び文字認識プログラム | |
JP6201838B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2017010187A (ja) | 画像処理装置及び画像処理プログラム | |
US20150043832A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
US20140169676A1 (en) | Information processing apparatus, information processing method, and computer-readable medium | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6241311B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5928714B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2010039810A (ja) | 画像処理装置及び画像処理プログラム | |
JP5949248B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6409423B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR20220168787A (ko) | 만주어의 글자 추출 방법 및 이를 수행하는 시스템 | |
JP2014146091A (ja) | 画像処理装置及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160722 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170717 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6187307 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |