JP2019036146A

JP2019036146A - 画像解析装置及び画像解析プログラム

Info

Publication number: JP2019036146A
Application number: JP2017157278A
Authority: JP
Inventors: 大祐辰巳; Daisuke Tatsumi
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2019-03-07
Anticipated expiration: 2037-08-16
Also published as: CN109409180A; US10984277B2; US20190057276A1; JP7039882B2; CN109409180B

Abstract

【課題】画像内に含まれる文章に関わりがない対象物について考慮せずに、画像内の文字認識を行う場合と比較して、画像内において文字からなる文章領域と判断された領域内に当該対象物が存在している場合であっても、精度良く文字認識を行うことができる画像解析装置及び画像解析プログラムを提供する。【解決手段】対象画像から文字を含む領域である文章領域を抽出し、予め定めた対象物の条件を取得し、文章領域内について、予め定めた対象物の条件を満たす対象物を探索して、文字認識の対象から除外し、対象物を除いた文章領域内の文字を認識する。【選択図】図７

Description

本発明は、画像解析装置及び画像解析プログラムに関する。

特許文献１には、画像として入力された図面全体を文字、記号及び線分として認識した後、該認識された文字、記号及び線分の相対的位置をもとに前記文字及び記号を局所的に再認識処理を行うことを特徴とする図面認識方法が開示されている。

特許文献２には、文字、記号、線分等の図形データを有する画像を入力する入力手段と、この入力手段で入力された画像から図形データを抽出する抽出手段と、文字、記号、線分等の図形データに関する複数の描画規則を登録する登録手段と、この登録手段に登録されている複数の描画規則と前記抽出手段によって抽出された図形データとを照合し、複数の描画規則の中からこの図形データと類似する描画規則を識別する識別手段と、この識別手段にて識別された描画規則の図形データにおける文字、記号、線分等を前記抽出手段にて抽出された図形データに対して位置合せを行った上で配置する配置手段と、を具備することを特徴とする図面認識装置が開示されている。

特許文献３には、図形枠と文字列と引き出し線によって構成される図面を認識するにおいて、図面画像から文字より大きい枠の図形を抽出し、この図形を構成するポリラインのうち両側に端点があるものを引き出し線として分離し、前記分離した引き出し線の２つの端点位置の周辺について文字列を探索し、前記探索で検索された文字列を図面から切り出し、前記分離した引き出し線が指し示す図形枠と前記検索された文字列の対応付けを行い、前記検索された文字列を図形及び他の文字列から独立した文字列として分離し、前記分離した文字列について引き出し線が付いていない文字列を該文字列が位置する図形枠に関連する文字列とすることを特徴とする図面の認識方法が開示されている。

特許第３９０９６９７号公報特開２００１−０９２９６７号公報特開平１０−１３４１４４号公報

本発明は、画像内に含まれる文章に関わりがない対象物について考慮せずに、画像内の文字認識を行う場合と比較して、画像内において文字からなる文章領域と判断された領域内に当該対象物が存在している場合であっても、精度良く文字認識を行うことができる画像解析装置及び画像解析プログラムを提供することを目的とする。

上記目的を達成するために、請求項１に記載の画像解析装置は、対象画像から文字を含む領域である文章領域を抽出する抽出手段と、予め定めた対象物の条件を取得する取得手段と、前記抽出手段により抽出された前記文章領域内について、前記予め定めた対象物の条件を満たす前記対象物を探索して、文字認識の対象から除外する除外手段と、前記対象物を除いた前記文章領域内の文字を認識する認識手段と、を備える。

また、請求項２に記載の発明は、請求項１に記載の発明において、前記除外手段は、前記文章領域から探索した前記対象物を消去し、前記認識手段は、前記除外手段により前記対象物が消去された前記文章領域内の文字を認識する。

また、請求項３に記載の発明は、請求項２に記載の発明において、前記取得手段は、前記対象物を構成する線の配置を取得し、前記除外手段は、前記対象物を構成する線の配置により前記対象物を探索して、探索した前記対象物を構成する線を消去する。

また、請求項４に記載の発明は、請求項１記載の発明において、前記文章領域内における前記対象物に対応する領域を非文章領域とし、前記文章領域から分離する分離手段を更に備え、前記認識手段は、前記非文章領域が分離された前記文章領域内の文字を認識する。

また、請求項５に記載の発明は、請求項４記載の発明において、前記取得手段は、前記対象物を構成する線の配置を取得し、前記分離手段は、前記対象物を構成する線の配置を用いて前記対象物を探索して、前記文章領域内における前記対象物に対応する領域を非文章領域とし、前記文章領域から分離する。

また、請求項６に記載の発明は、請求項１〜４の何れか１項記載の発明において、前記取得手段は、前記対象物を示す参照画像を取得し、前記除外手段は、前記参照画像を用いて前記対象物を探索して、文字認識の対象から除外する。

また、請求項７に記載の発明は、請求項１〜６の何れか１項記載の発明において、前記取得手段は、前記対象物の高さ、大きさ、及び位置の何れかに関する条件を取得し、前記除外手段は、前記対象物の高さ、大きさ、及び位置の何れかが前記対象物の高さ、大きさ、及び位置の何れかに関する条件を満たした前記対象物を文字認識の対象から除外する。

また、請求項８に記載の発明は、請求項１〜６の何れか１項記載の発明において、前記取得手段は、前記対象物の高さ、大きさ、及び位置の何れかに関する条件を取得し、前記除外手段は、前記除外手段により探索された前記対象物のうち、前記対象物の高さ、大きさ、及び位置の何れかが前記対象物の高さ、大きさ、及び位置の何れかに関する条件を満たした前記対象物を文字認識の対象から除外する。

また、請求項９に記載の発明は、請求項７又は８記載の発明において、前記対象物の高さ、大きさ、及び位置の何れかに関する条件は、前記対象物の高さが、前記認識手段による文字認識の対象とする文字の高さよりも高いこと、又は、前記対象物の大きさが、前記認識手段による文字認識の対象とする文字の大きさよりも大きいこと、及び、前記対象物の高さ方向における位置が前記文章領域内の文章の各行の行間であることの何れかである。

また、請求項１０に記載の発明は、請求項１〜９の何れか１項記載の発明において、前記取得手段は、前記予め定めた対象物の条件として、前記対象物の前記文章領域内での配置領域に関する条件を取得し、前記除外手段は、前記対象物の前記文章領域内での配置領域が、前記対象物の前記文章領域内での配置領域に関する条件を満たす前記対象物を文字認識の対象から除外する。

また、請求項１１に記載の発明は、請求項１〜１０の何れか１項記載の発明において、前記取得手段は、前記文章領域の一部の領域である探索領域を取得し、前記除外手段は、前記探索領域内について、前記対象物を探索して、文字認識の対象から除外する。

また、請求項１２に記載の発明は、請求項１１記載の発明において、前記対象物が含まれる範囲は、前記文章領域の端部を含む前記文章領域の一部の領域である。

一方、上記目的を達成するために、請求項１３に記載の画像解析プログラムは、コンピュータを、請求項１〜１２の何れか１項記載の画像解析装置を構成する各手段として機能させるためのプログラムである。

請求項１、１３に記載の発明によれば、画像内に含まれる文章に関わりがない対象物について考慮せずに、画像内の文字認識を行う場合と比較して、画像内において文字からなる文章領域と判断された領域内に当該対象物が存在している場合であっても、精度良く文字認識を行うことができる。

請求項２に記載の発明によれば、画像内に含まれる文章に関わりがない対象物に対応する領域を非文章領域として文章領域から分離して、画像内の文字認識を行う場合と比較して、文字認識の対象とする領域を再設定することなく文字認識を行うことができる。

請求項３に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を消去して、画像内の文字認識を行う場合と比較して、当該対象物に含まれる文字についても文字認識を行うことができる。

請求項４に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を消去して、画像内の文字認識を行う場合と比較して、文章領域を再生成することなく文字認識を行うことができる。

請求項５に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、当該対象物を示す参照画像を用いて探索する場合と比較して、画像に含まれる各要素のみを用いて対象物を探索することができる。

請求項６に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、当該対象物を構成する線の配置を用いて探索する場合と比較して、当該対象物を構成する線の配置を抽出することなく対象物を探索することができる。

請求項７に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、当該対象物を示す参照画像、又は当該対象物を構成する線の配置を用いて探索する場合と比較して、参照画像を用意することなく対象物を探索することができる。

請求項８に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、当該対象物の高さ、大きさ、及び位置の何れかを考慮せずに探索する場合と比較して、精度良く対象物を探索することができる。

請求項９に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、認識対象の文字の高さ、大きさ、及び位置の何れかを考慮せずに探索する場合と比較して、不要な対象物が探索されることを抑制することができる。

請求項１０に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、当該対象物の文章領域内での配置領域を考慮せずに探索する場合と比較して、精度良く対象物を探索することができる。

請求項１１に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、文章領域の全領域について探索する場合と比較して、短時間で対象物を探索することができる。

請求項１２に記載の発明によれば、画像内に含まれる文章に関わりがない対象物を、文章領域の中央部について探索する場合と比較して、効率良く対象物を探索することができる。

実施形態に係る画像解析装置により識別される画像が形成された用紙の一例を示す正面図である。実施形態に係る文章領域の一例を示す正面図である。実施形態に係る文章領域に対する文字認識の結果の一例を示す正面図である。実施形態に係る文章領域の別例を示す正面図である。実施形態に係る文章領域における一纏まりの文章の一例を示す正面図である。実施形態に係る画像解析システムの構成を示すブロック図である。第１実施形態及び第２実施形態に係る画像解析装置の機能を示すブロック図である。実施形態に係る対象物を示す参照画像の一例を示す模式図である。実施形態に係る対象物を構成する線の配置の一例を示す模式図である。実施形態に係る対象物を示す参照画像の別例を示す模式図である。実施形態に係る対象物を構成する線の配置の別例を示す模式図である。実施形態に係る対象物を消去した文章領域の一例を示す正面図である。実施形態に係る対象物を探索する領域の一例を示す模式図である。実施形態に係る対象物を探索する領域の別例を示す模式図である。実施形態に係る対象物を探索する領域の別例を示す模式図である。第１実施形態に係る画像解析処理のプログラムの流れを示すフローチャートである。第２実施形態に係る画像解析処理のプログラムの流れを示すフローチャートである。実施形態に係る対象物の高さの一例を示す模式図である。実施形態に係る対象物の高さの別例を示す模式図である。実施形態に係る対象物を消去した文章領域の一例を示す正面図である。実施形態に係る対象物を構成する線を消去した文章領域の別例を示す正面図である。実施形態に係る文章領域及び非文章領域の一例を示す正面図である。実施形態に係る非文章領域を分離した文章領域の一例を示す正面図である。第３実施形態に係る画像解析処理のプログラムの流れを示すフローチャートである。

以下、添付図面を参照して、本発明の実施形態について詳細に説明する。

〔第１実施形態〕

まず、本実施形態に係る画像解析装置により識別される画像について説明する。図１は、本実施形態に係る画像形成装置により識別される画像が形成された記録媒体である用紙の一例を示す正面図である。

一例として図１に示すように、画像解析装置により識別される画像（例えば、設計図面）が描画された用紙Ｐには、画像全体を区分する線３０が描画されている。本実施形態では、画像全体を区分する線３０が矩形状の図枠である場合について説明する。

本実施形態では、一例として図１に示すように、画像全体を区分する線３０の内部に、対象画像から文字を含む領域である文章領域３２Ａ、３２Ｂ、表を含む領域である表領域３４、画像を含む領域である画像領域３６等が配置されている場合について説明する。

一例として図２に示すように、文章領域３２Ａには、１行目に「文章」が配置され、２行目に「２行目を訂正」が配置された文章４０が記述されている。また、文章領域３２Ａには、文章４０の左側に、すなわち文章４０に対してＸ方向に隣接し、１行目と２行目とを跨ぐように、画像内に含まれる文章に関わりがない文字、記号、図形等（以下、「対象物」という。）４２が記述されている場合がある。

なお、本実施形態では、対象物４２は三角形の枠を有している場合について説明するが、これに限らず、対象物４２は、円形、楕円形、四角形、多角形等の枠を有していても良い。また、対象物４２は、枠を有さず、数字、アルファベット、マーク等の記号そのものであっても良い。

また、対象物４２の種別としては、改訂事項に関する記号、形状等の幾何公差を表す記号、表面粗さを表す記号、要注意箇所を表す記号等が例示される。

ここで、文章領域３２Ａ、３２Ｂに記述されている文章は、公知の文字認識の処理を行うことにより認識される。一例として図２に示すように、文章領域３２Ａに文章４０に加えて対象物４２が記述されていた場合、文章領域３２Ａに対して文字認識を行った際に、対象物４２が文章４０の一部であると誤認識されてしまう場合がある。その場合には、上述した「文章」及び「２行目を訂正」との２行の記述が１行の記述と誤認識されることにより、一例として図３に示すように、文章領域３２Ａに対する文字認識の結果である文章領域４４において「△藷目を訂正」と誤認識されてしまう可能性がある。

また、一例として図４に示すように、文章領域４６に、１行目に「レーザー印刷面」が配置され、２行目に「アートワークＮｏ．Ｘ参照のこと。」が配置され、３行目に「書体及び位置はアートワークに従うこと。」が配置された文章４８が記述されていたとする。また、文章４８の右側に、文章４８の１行目と２行目とを跨ぐように、文章４８の２行分の高さ（Ｙ方向の長さ）の対象物５０が記述されていたとする。

このような場合には、一例として図５に示すように、文章領域４６の文章４８の１行目及び２行目と対象物５０とが一纏まりの文章（１行の文章）４８Ａであり、文章４８の３行目が一纏まりの文章（１行の文章）４８Ｂであると認識されてしまう可能性がある。

そこで、本実施形態に係る画像解析装置は、対象画像から文字を含む領域である文章領域を抽出し、予め定めた対象物の条件を取得する。また、抽出した文章領域内について、予め定めた対象物の条件を満たす対象物を探索して、文字認識の対象から除外し、対象物を除いた文章領域内の文字を認識する。なお、予め定めた対象物の条件については、後述する。

次に、本実施形態に係る画像識別システムの構成、及び画像解析装置の機能について説明する。図６は、本実施形態に係る画像識別システム１０の構成を示すブロック図である。また、図７は、本実施形態に係る画像解析装置１２の機能を示すブロック図である。

図６に示すように、画像識別システム１０は、画像解析装置１２、及び、画像読取装置１４を有している。なお、画像読取装置１４は、所謂スキャナであり、用紙Ｐに描画された図面を読み取って、カラー画像データ又は白黒画像データを生成し、生成した画像データを画像解析装置１２に出力する。また、図７に示すように、画像解析装置１２は、機能的には、抽出部２０、取得部２２、除外部２４、及び、認識部２６を有している。

なお、本実施形態に係る画像解析装置１２は、ハードウェア構成としては、装置全体の動作を司るＣＰＵ（Central Processing Unit）により制御されることにより実現される。すなわち、画像解析装置１２は、上記ＣＰＵ、各種プログラムや各種パラメータ等が予め記憶されたＲＯＭ（Read Only Memory）、ＣＰＵによる各種プログラムの実行時のワークエリア等として用いられるＲＡＭ（Random Access Memory）、及びフラッシュメモリ等の不揮発性メモリを含む記憶部を備える。

また、画像解析装置１２は、外部装置と通信情報の送受信を行う通信回線Ｉ／Ｆ（Interface）部を備える。また、画像解析装置１２は、画像解析装置１２に対するユーザからの指示を受け付けると共に、ユーザに対して画像解析装置１２の動作状況等に関する各種情報を通知する操作表示部を備える。なお、操作表示部は、例えば、データを表示するディスプレイ、データを入力するキーボード、マウス等を含む。また、表示操作部はこれに限らず、例えば、プログラムの実行により操作指示の受け付けを実現する表示ボタンや各種情報が表示されるタッチパネル式のディスプレイ、及びテンキーやスタートボタン等のハードウェアキーを含んでいても良い。

抽出部２０は、画像読取装置１４から画像データを入力し、入力した画像データによって示される読取画像を、文字認識の対象とする画像（以下、「対象画像」という。）として取得する。なお、本実施形態では、抽出部２０は、画像読取装置１４から画像データを入力する場合について説明するが、これに限らず、画像データを外部装置から通信回線Ｉ／Ｆを介して受信しても良い。また、画像データが記憶部に記憶されている場合には、記憶部から画像データを読み出しても良い。

また、抽出部２０は、取得した対象画像から、レイアウト解析を行うことにより、対象画像に含まれている文章領域を抽出する。なお、本実施形態では、錯綜を回避するために、対象画像が、白色の背景に黒色で図面が描画された用紙Ｐが白黒画像データとして読み取られた画像である場合について説明する。また、抽出部２０は、抽出手段の一例である。

はじめに、抽出部２０は、レイアウト解析を行うことにより対象画像を複数の領域に分割する。ここでは、レイアウト解析を行うことにより対象画像を複数の領域に分割する方法の一例として、投影法を用いた場合について説明する。

すなわち、対象画像を予め定めた第１方向（例えばＸ軸の沿った方向）に投影することにより、対象画像における黒画素のヒストグラム（投影分布）において、黒画素が多い部分に対応する山と、黒画素が少ない部分に対応する谷とが表れる。この山谷のうちの谷の部分が、領域の区切りであるか否かを判定するための判定条件を満たす場合に、投影方向に沿って領域を分割する。同様に、対象画像を上記第１方向とは交差する方向（例えばＹ軸に沿った方向）に投影し、対象画像における黒画素のヒストグラムの山谷から、谷が上記判定条件を満たす場合に、投影方向に沿って領域を分割する。このような２方向の分割を再帰的に繰り返すことにより、対象画像を複数の分割領域に分割する。

次に、抽出部２０は、各々の分割領域に含まれる各要素（オブジェクト）に基づいて、各々の分割領域に記述されている内容の種別を判別する。ここでいう種別は、文章、表、画像等である。図１に示す例では、判別された種別に基づき、文章に対応する文章領域３２Ａ、３２Ｂ、表に対応する表領域３４、及び画像に対応する画像領域３６の４つの領域が判別される。

そして、抽出部２０は、判別された領域から、文章領域を抽出する。図１に示す例では、上記４つの領域から、文章領域３２Ａ、及び文章領域３２Ｂの２つの領域が抽出される。

取得部２２は、例えば記憶部に記憶されている予め定めた対象物の条件を示すデータを読み出すことにより、予め定めた対象物の条件を取得する。予め定めた対象物の条件は、文章領域に含まれる文字、記号、図形等が対象物であると判定するための基準とする条件である。予め定めた対象物の条件としては、後述する対象物を示す参照画像に基づく条件、対象物を構成する線の配置に基づく条件、対象物の高さ等の条件等が例示される。なお、取得部２２は、取得手段の一例である。

除外部２４は、抽出部２０により抽出された文章領域内について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索して、探索により得られた対象物を、認識部２６による文字認識の対象から除外する。なお、除外部２４は、除外手段の一例である。

本実施形態では、対象物を探索する方法の一例として、下記（１）又は（２）の何れかの方法を用いる場合について説明する。

（１）予め定めた対象物の条件として、除外対象とする対象物を示す参照画像を取得し、取得した参照画像と類似する文字、記号、図形等を探索する方法。
（２）予め定めた対象物の条件として、除外対象とする対象物を構成する線の配置を示すデータを取得し、取得したデータによって示される線の配置と類似する文字、記号、図形等を探索する方法。

まず、上記（１）の方法を用いて対象物を探索する場合について説明する。

取得部２２は、予め定めた対象物の条件として、除外対象とする対象物を示す参照画像５２を取得する。取得部２２は、例えば、図２に示す対象物４２のような、三角形の記号を除外したい場合には、一例として図８に示すように、三角形の記号を示す参照画像５２を取得する。

除外部２４は、例えば二値化、ラベリング等により、文章領域から文字、記号、図形等に対応する文字候補領域を抽出する。また、除外部２４は、抽出した文字候補領域と参照画像５２との類似度を算出する。類似度を算出する方法としては、例えば、パターンマッチング手法で一般的に用いられる類似度指標であるＳＡＤ（ＳｕｍｏｆＡｂｕｓｏｌｕｔｅＤｉｆｆｅｒｅｎｃｅ），ＺＮＣＣ（Ｚｅｒｏ−ｍｅａｎｓＮｏｒｍａｌｉｚｅｄＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ）が挙げられる。また、類似度を算出する他の方法としては、算出対象とする各々の領域を複数の領域（例えば、５×５の格子状の複数の領域）に区分けし、区分けした各々の領域における線の有無、線の長さ、線の向き等に基づく類似度を算出し、算出した類似度を加算する等の方法が挙げられる。

ここでいう線の向きは、例えば水平方向の線（Ｘ方向に並行な線）、垂直方向の線（Ｙ方向に並行な線）、左下から右上へと延びる斜めの線（Ｘ方向の値が大きくなるに従ってＹ方向の値が大きくなる線）、左上から右下へと延びる斜めの線（Ｘ方向の値が大きくなるに従ってＹ方向の値が小さくなる線）等である。しかし、類似度を算出する方法としては、一般的に用いられている如何なる既知の方法を用いて良い。

この際、抽出した文字候補領域及び参照画像５２の少なくとも一方を拡大又は縮小させることにより、抽出した領域と参照画像５２とが等しい大きさ、又は比較し易い大きさとなるようにすると良い。

また、除外部２４は、算出した類似度が閾値以上であった場合に、抽出した領域に示される文字、記号、図形等を対象物とみなし、認識部２６による文字認識の対象から除外する。

次に、上記（２）の方法を用いて対象物を探索する場合について説明する。

取得部２２は、予め定めた対象物の条件として、除外対象とする対象物を構成する線の配置を示すデータを取得する。取得部２２は、例えば、図１に示す対象物４２のような、三角形の記号を除外したい場合には、一例として図９に示すような三角形を構成する３本の線の配置を示すデータを取得する。図９に示す例では、下記（ａ）乃至（ｃ）の３本の線が配置されることを示すデータが取得される。これにより、対象画像に含まれる各要素のみを用いて対象物が探索される。

（ａ）類似度を算出する領域内における左側の領域に、左下から右上へと延びる斜めの線５４Ａが配置される。
（ｂ）類似度を算出する領域内における右側の領域に、左上から右下へと延びる斜めの線５４Ｂが配置される。
（ｃ）類似度を算出する領域内における下側の領域に、水平方向の線５４Ｃが配置される。

除外部２４は、例えば二値化、ラベリング出等により、文章領域から文字、記号、図形等に対応する文字候補領域を抽出する。また、除外部２４は、抽出した文字候補領域に含まれる線の配置と、除外対象とする対象物を構成する線の配置との類似度を算出する。類似度を算出する方法としては、一般的に用いられている既知の方法を用いて良い。また、除外部２４は、算出した類似度が閾値以上であった場合に、抽出した領域に示される記号又は文字を対象物とみなし、認識部２６による文字認識の対象から除外する。

なお、本実施形態では、対象物が三角形である場合について説明したが、対象物の形状はこれに限らない。例えば、五角形の記号を除外したい場合であって、上記（１）の方法を用いる場合には、一例として図１０Ａに示すように、五角形の記号を示す参照画像５６を取得する。また、例えば、五角形の記号を除外したい場合であって、上記（２）の方法を用いる場合には、一例として図１０Ｂに示すように、下記（ｄ）乃至（ｈ）の５本の線が配置されることを示すデータが取得される。

（ｄ）類似度を算出する領域内における左側の領域に、垂直方向の線５８Ａが配置される。
（ｅ）類似度を算出する領域内における上側の領域に、水平方向の線５８Ｂが配置される。
（ｆ）類似度を算出する領域内における下側の領域に、水平方向の線５８Ｃが配置される。
（ｇ）類似度を算出する領域内における右上側の領域に、左上から右下へと延びる斜めの線５８Ｄが配置される。
（ｈ）類似度を算出する領域内における右下側の領域に、左下から右上へと延びる斜めの線５８Ｅが配置される。

除外部２４は、文章領域３２Ａから、一例として図１１に示すように、対象物４２を消去することにより、対象物４２を認識部２６による文字認識の対象から除外する。これにより、文章領域３２Ａに対して文字認証を行う際に、文章領域３２Ａの文章４０に対して文字認識が行われる。

なお、本実施形態では、文章領域の全体について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索して、探索により得られた対象物を、認識部２６による文字認識の対象から除外する場合について説明した。しかし、これに限らず、文章領域内の一部の領域である探索領域について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索して、探索により得られた対象物を、認識部２６による文字認識の対象から除外しても良い。

本実施形態では、探索領域は、文章領域内において対象物が含まれることが予測される領域である。例えば、改訂事項に関する記号等の対象物は、一例として図２及び図４に示すように、文章領域内の右側の端部を含む端部領域、又は左側の端部を含む端部領域に配置されることが多い。

そこで、一例として図１２Ａに示すように、文章領域３２Ａの左側の端部６０Ａを含む、文章領域の一部の領域である端部領域６０（図１２Ａでドットで示す領域）内について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索しても良い。なお、端部領域６０は、探索領域の一例である。

又は、一例として図１２Ｂに示すように、文章領域４６の右側の端部６２Ａを含む、文章領域の一部の領域である端部領域６２（図１２Ｂでドットで示す領域）内について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索しても良い。なお、端部領域６２は、探索領域の一例である。なお、探索領域は、図１２Ｂに示す端部領域６２内に限らず、文章領域４６に記述されている１行単位の文章の右側端部を探索しても良い。

あるいは、一例として図１２Ｃに示すように、文章領域６４の外周部６６Ａを含む、文章領域の一部の領域である外周領域６６（図１２Ｃでドットで示す領域）内について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索しても良い。なお、外周領域６６は、探索領域の一例である。

さらには、文章領域の最も右側に位置する文字、記号、図形等、及び、文章領域の最も左側に位置する文字、記号、図形等の少なくとも一方について、予め定めた対象物の条件を満たすか否かを判定することにより、対象物を探索しても良い。この場合には、文章領域の最も端部に位置し、かつ予め定めた対象物の条件を満たすと判定された文字、記号、図形等が、対象物であると判定される。これにより、文章領域における端部領域又は外周領域等の領域にかかわらず、文章領域内の文字、記号、図形等の配列によって、対象物が探索される。

認識部２６は、除外部２４により対象物が除外された場合は、除外部２４により対象物が除外された文章領域内の文字を認識する。また、認識部２６は、文章領域において対象物が見つからず、除外部２４により対象物が除外されなかった場合は、抽出部２０により抽出された文章領域内の文字を認識する。なお、認識部２６は、認識手段の一例である。

次に、本実施形態に係る画像解析装置１２が、予め定めた実行指示が入力された場合に実行する画像解析処理の流れを、図１３のフローチャートを参照して説明する。なお、本実施形態では、画像解析処理のプログラムは予め記憶部に記憶されているが、これに限らない。例えば、画像解析処理のプログラムが通信回線Ｉ／Ｆ部を介して外部装置から受信されて記憶部に記憶されても良い。また、ＣＤ−ＲＯＭ等の記録媒体に記録された画像解析処理のプログラムがＣＤ−ＲＯＭドライブ等で読み込まれることにより、画像解析処理が実行されるようにしてもよい。

ステップＳ１０１では、抽出部２０が、画像読取装置１４から画像データを入力することにより、対象画像を取得する。

ステップＳ１０３では、抽出部２０が、入力した対象画像に対してレイアウト解析を行うことにより、対象画像内における文章領域を抽出する。

ステップＳ１０５では、取得部２２が、予め定めた対象物の条件を取得する。

ステップＳ１０７では、除外部２４が、抽出された文章領域内について、取得した予め定めた対象物の条件を満たす対象物を探索する。

ステップＳ１０９では、除外部２４が、抽出された文章領域内に、探索によって対象物が見つかったか否かを判定する。ステップＳ１０９で対象物が見つかったと判定した場合（Ｓ１０９、Ｙ）はステップＳ１１１に移行する。また、ステップＳ１０９で対象物が見つからなかったと判定した場合（Ｓ１０９，Ｎ）はステップＳ１１３に移行する。

ステップＳ１１１では、除外部２４が、探索により見つかった対象物を、文字認識の対象から除外する。

ステップＳ１１３では、認識部２６が、対象物を除いた文章領域内の文字を認識する。

ステップＳ１１５では、認識部２６が、認識した対象物に関する情報を認識情報として記憶部に記憶させる。

ステップＳ１１７では、抽出部２０が、次の対象画像が存在するか否かを判定する。ステップＳ１１３で次の対象画像が存在すると判定した場合（Ｓ１１７，Ｙ）はステップＳ１０１に移行し、次の対象画像について、ステップＳ１０１乃至Ｓ１１７の処理を行う。また、次の対象画像が存在しないと判定した場合（Ｓ１１７，Ｎ）は本画像解析処理のプログラムの実行を終了する。

このように、本実施形態では、対象画像から文字を含む領域である文章領域を抽出し、予め定めた対象物の条件を取得する。また、抽出された文章領域内について、予め定めた対象物の条件を満たす対象物を探索して、文字認識の対象から除外し、対象物を除いた文章領域内の文字を認識する。対象物を文字認識の対象から除外する際には、文章領域から探索した対象物を消去し、対象物が消去された文章領域内の文字を認識する。

なお、本実施形態では、予め定めた対象物の条件を満たす対象物を探索する場合について説明した。しかし、これに限らず、対象物の文章領域内での配置領域に関する条件を取得し、対象物の文章領域内での配置領域が、対象物の前記文章領域内での配置領域に関する条件を満たす対象物を文字認識の対象から除外しても良い。対象物の文章領域内での配置領域に関する条件としては、例えば、上述した文章領域における外周部を含む外周領域６６に配置されていること、文章領域の端部を含む端部領域６０、６２に配置されていること等が挙げられる。

〔第２実施形態〕

次に、第２実施形態に係る画像解析装置について説明する。

上記第１実施形態では、文章領域内の全ての対象物を消去することにより、当該対象物を認識部２６による文字認識の対象から除外する場合について説明した。一方、本第２実施形態では、文章領域内の対象物のうち、高さ、大きさ、及び位置の何れかに関する条件（以下、「高さ等の条件」という。）を満たす対象物のみを消去することにより、当該対象物を認識部２６による文字認識の対象から除外する場合について説明する。

第２実施形態に係る画像解析装置の構成は、上記第１実施形態に係る画像解析装置１２と同じであるため、各構成の説明を省略する。

次に、本実施形態に係る画像解析装置１２が、予め定めた実行指示が入力された場合に実行する画像解析処理の流れを、図１４のフローチャートを参照して説明する。なお、本実施形態では、画像解析処理のプログラムは予め記憶部に記憶されているが、これに限らない。例えば、画像解析処理のプログラムが通信回線Ｉ／Ｆ部を介して外部装置から受信されて記憶部に記憶されても良い。また、ＣＤ−ＲＯＭ等の記録媒体に記録された画像解析処理のプログラムがＣＤ−ＲＯＭドライブ等で読み込まれることにより、画像解析処理が実行されるようにしてもよい。

ステップＳ１０１乃至Ｓ１０３では、第１実施形態のステップＳ１０１乃至Ｓ１０３と同様の処理を行う。

ステップＳ１０５では、取得部２２が、予め定めた対象物の条件を取得する。この際、取得部２２は、除外対象とする対象物を示す参照画像５２、又は除外対象とする対象物を構成する線の配置を取得すると共に、高さ等の条件を取得する。ここでいう対象物の高さは、対象物のＹ方向の長さであり、ここでいう対象物の大きさは、対象物のＸ方向の長さ及びＹ方向の長さの少なくとも一方に基づく対象物の大きさである。ここでいう対象物の位置は、対象物のＸＹ座標上における位置である。

また、ここでいう高さ等の条件は、文章領域内の文章を文字認識することを妨げない対象物の高さ、大きさ、及び位置として予め規定された条件である。本実施形態では、高さ等の条件のうちの高さに関する条件を、対象物の高さが文字認識の対象とする文字の高さよりも高いこととする。また、高さ等の条件のうちの大きさに関する条件を、対象物の大きさが、文字認識の対象とする文字の大きさよりも大きいこととする。また、高さ等の条件のうちの位置に関する条件を、対象物のＹ方向における位置が文章領域内の文章の各行の行間であること等とする。ここでいう「行間である」とは、対象物の高さ方向（Ｙ方向）における位置の範囲が複数の行を跨いでいることとする。また、文字認識の対象とする文字の高さ又は大きさは、予め記憶部に記憶されていても良く、抽出された文字、記号、図形等の各々の高さ又は大きさに基づいて算出しても良い。

なお、上記高さに関する条件は、文字認識における誤差を踏まえて、対象物４２の高さが、誤差分を含んだ認識対象の文字の高さの最高値よりも高いこととしても良い。又は、対象物４２の高さが、文字認識における誤認識が発生しないことが予め確認された値よりも高いこととしても良い。

同様に、上記大きさに関する条件は、文字認識における誤差を踏まえて、対象物４２の大きさが、誤差分を含んだ認識対象の文字の大きさの最高値よりも大きいこととしても良い。又は、対象物４２の大きさが、文字認識における誤認識が発生しないことが予め確認された値よりも高いこととしても良い。

また、同様に、上記位置に関する条件は、文字認識における誤差を踏まえて、対象物４２の高さ方向における位置の範囲が、高さ方向（Ｙ方向）の長さを、認識対象の文字行の行間の長さの平均値、中央値、最頻値、もしくは最小値とした、認識対象の文字行の行間を跨いでいることとしても良い。又は、上記位置に関する条件に、対象物４２の高さ方向における位置の範囲が、認識対象の文字行の行間の平均値、中央値、最頻値、もしくは最小値よりも大きいこと、との追加条件を付加しても良い。あるいは、対象物４２の高さ方向における位置の範囲が、文字認識における誤認識が発生しないことが予め確認された位置の範囲であることとしても良い。

ステップＳ１０７乃至Ｓ１１１では、第１実施形態のステップＳ１０７乃至Ｓ１１１と同様の処理を行う。

一例として図１５Ａに示すように、文章領域３２Ａにおける対象物４２の高さａが、認識対象の対象となる文章４０の文字の高さの最高値ｂより高い場合には、対象物４２は高さ等の条件を満たしている。そのため、抽出された文章領域３２Ａ内に、探索によって対象物４２が見つかったと判定される。

また、一例として図１５Ｂに示すように、文章領域７０における対象物７２の高さｃが、認識対象の対象となる文章７１の文字の高さの最高値ｄより高くない場合には、対象物７２は、高さ等の条件を満たしていない。そのため、抽出された他の対象物も同様に、高さ等の条件を満たしていない場合には、抽出された文章領域７０内に、探索によって対象物が見つからなかったと判定される。

なお、文章領域７０から、対象物７２を消去する場合には、一例として図１６に示すように、対象物７２を消去することにより、対象物７２を認識部２６による文字認識の対象から除外する。

ただし、対象物７２を構成する線の配置に基づいて対象物７２を探索した場合（上記（２）の方法を用いた場合）には、一例として図１７に示すように、対象物７２を構成する線のみを消去しても良い。この場合には、対象物７２を構成する線の内部に記述されている「３」との文字は消去されず、「３」との文字は、認識部２６による文字認識の対象となる。

ステップＳ１１３乃至Ｓ１１７では、第１実施形態のステップＳ１１３乃至Ｓ１１７と同様の処理を行う。

このように、本実施形態では、対象画像から文字を含む領域である文章領域を抽出し、予め定めた対象物の条件を取得する。また、抽出された文章領域内について、予め定めた対象物の条件を満たす対象物を探索する。また、探索された対象物のうち、対象物の高さ、大きさ、及び位置のうちの少なくとも１つが高さ等の条件を満たした対象物を文字認識の対象から除外する。

なお、本実施形態では、予め定めた対象物の条件を満たしている対象物に対して、高さ等の条件を満たしているか否かを判定する場合について説明した。しかし、これに限らず、文章領域に記述された文字、記号、図形等に対して、高さ等の条件を満たしているか否かを判定しても良い。この場合には、予め定めた対象物の条件に関わらず、高さ等の条件を満たしている文字、記号、図形等を対象物として文字認識の対象から除外すると良い。

あるいは、高さ等の条件を満たしている文字、記号、図形等に対して、予め定めた対象物の条件を満たしているか否かを判定し、予め定めた対象物の条件を満たしている文字、記号、図形等を対象物として文字認識の対象から除外しても良い。

〔第３実施形態〕

次に、第３実施形態に係る画像解析装置について説明する。

上記第１実施形態及び第２実施形態では、文章領域内の対象物を消去することにより、当該対象物を認識部２６による文字認識の対象から除外する場合について説明した。一方、本第３実施形態では、文章領域内における対象物に対応する領域を非文章領域として文章領域から分離することにより、当該対象物を認識部２６による文字認識の対象から除外する場合について説明する。

第２実施形態に係る画像解析装置１２の構成は、上記第１実施形態及び第２実施形態に係る画像解析装置１２と同じであるため、各構成の説明を省略する。

本実施形態では、除外部２４は、抽出部２０により抽出された文章領域内について、取得部２２により取得された予め定めた対象物の条件を満たす対象物を探索して、探索により得られた対象物に対応する領域を非文章領域として、文章領域から分離する。これにより、探索により得られた対象物は、認識部２６による文字認識の対象から除外される。なお、除外手段２４は、分離手段の一例でもある。

一例として図１８に示すように、文章領域３２Ａに文章４０と対象物４２とが記述されていた場合に、除外部２４は、文章４０に対応する領域８０と、対象物４２に対応する非文章領域８２とを認識し、文章領域３２Ａから、非文章領域８２を分離する。そして、一例として図１９に示すように、除外部２４は、文章４０に対応する領域８０のみを文章領域８４とする。

なお、除外部２４により対象物を探索する方法は、上記第１実施形態の（１）又は（２）の方法と同様である。

次に、本実施形態に係る画像解析装置１２が、予め定めた実行指示が入力された場合に実行する画像解析処理の流れを、図２０のフローチャートを参照して説明する。なお、本実施形態では、画像解析処理のプログラムは予め記憶部に記憶されているが、これに限らない。例えば、画像解析処理のプログラムが通信回線Ｉ／Ｆ部を介して外部装置から受信されて記憶部に記憶されても良い。また、ＣＤ−ＲＯＭ等の記録媒体に記録された画像解析処理のプログラムがＣＤ−ＲＯＭドライブ等で読み込まれることにより、画像解析処理が実行されるようにしてもよい。

ステップＳ２０１乃至Ｓ２０９では、第１実施形態（図１３）又は第２実施形態（図１４）のＳ１０１乃至Ｓ１０９と同様の処理を行う。

ステップＳ２１１では、除外部２４が、探索により見つかった対象物に対応する領域を非文章領域として、文章領域から非文章領域を分離することにより、対象物を文字認識の対象から除外する。

ステップＳ２１３乃至Ｓ２１７では、第１実施形態（図１３）又は第２実施形態（図１４）のＳ１１３乃至Ｓ１１７と同様の処理を行う。

このように、文章領域内における対象物に対応する領域を非文章領域とし、文章領域から分離し、非文章領域が分離された文章領域内の文字を認識する。

また、上記各実施形態で説明した画像解析装置１２、１２の構成（図６、図７参照。）は一例である。すなわち、本発明の主旨を逸脱しない範囲内において不要な部分を削除したり、新たな部分を追加したりしてもよいことは言うまでもない。

また、上記各実施形態で説明した各種プログラムの処理の流れ（図１３、図１４、図２０参照。）も一例である。すなわち、本発明の主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよいことは言うまでもない。

１０画像解析システム
１２画像解析装置
１４画像読取装置
２０抽出部
２２取得部
２４除外部
２６認識部

Claims

対象画像から文字を含む領域である文章領域を抽出する抽出手段と、
予め定めた対象物の条件を取得する取得手段と、
前記抽出手段により抽出された前記文章領域内について、前記予め定めた対象物の条件を満たす前記対象物を探索して、文字認識の対象から除外する除外手段と、
前記対象物を除いた前記文章領域内の文字を認識する認識手段と、
を備えた画像解析装置。
前記除外手段は、前記文章領域から探索した前記対象物を消去し、
前記認識手段は、前記除外手段により前記対象物が消去された前記文章領域内の文字を認識する
請求項１記載の画像解析装置。
前記取得手段は、前記対象物を構成する線の配置を取得し、
前記除外手段は、前記対象物を構成する線の配置により前記対象物を探索して、探索した前記対象物を構成する線を消去する
請求項２記載の画像解析装置。
前記除外手段は、前記文章領域内における前記対象物に対応する領域を非文章領域とし、前記文章領域から分離する分離手段を備え、
前記認識手段は、前記非文章領域が分離された前記文章領域内の文字を認識する
請求項１記載の画像解析装置。
前記取得手段は、前記対象物を構成する線の配置を取得し、
前記分離手段は、前記対象物を構成する線の配置を用いて前記対象物を探索して、前記文章領域内における前記対象物に対応する領域を非文章領域とし、前記文章領域から分離する
請求項４記載の画像解析装置。
前記取得手段は、前記対象物を示す参照画像を取得し、
前記除外手段は、前記参照画像を用いて前記対象物を探索して、文字認識の対象から除外する
請求項１〜４の何れか1項記載の画像解析装置。
前記取得手段は、前記対象物の高さ、大きさ、及び位置の何れかに関する条件を取得し、
前記除外手段は、前記対象物の高さ、大きさ、及び位置の何れかが前記対象物の高さ、大きさ、及び位置の何れかに関する条件を満たした前記対象物を文字認識の対象から除外する
請求項１〜６の何れか１項記載の画像解析装置。
前記取得手段は、前記対象物の高さ、大きさ、及び位置の何れかに関する条件を取得し、
前記除外手段は、前記除外手段により探索された前記対象物のうち、前記対象物の高さ、大きさ、及び位置の何れかが前記対象物の高さ、大きさ、及び位置の何れかに関する条件を満たした前記対象物を文字認識の対象から除外する
請求項１〜６の何れか１項記載の画像解析装置。
前記対象物の高さ、大きさ、及び位置の何れかに関する条件は、前記対象物の高さが、前記認識手段による文字認識の対象とする文字の高さよりも高いこと、前記対象物の大きさが、前記認識手段による文字認識の対象とする文字の大きさよりも大きいこと、及び、前記対象物の高さ方向における位置が前記文章領域内の文章の各行の行間であることの何れかである
請求項７又は８記載の画像解析装置。
前記取得手段は、前記予め定めた対象物の条件として、前記対象物の前記文章領域内での配置領域に関する条件を取得し、
前記除外手段は、前記対象物の前記文章領域内での配置領域が、前記対象物の前記文章領域内での配置領域に関する条件を満たす前記対象物を文字認識の対象から除外する
請求項１〜９の何れか１項記載の画像解析装置。
前記取得手段は、前記文章領域の一部の領域である探索領域を取得し、
前記除外手段は、前記探索領域内について、前記対象物を探索して、文字認識の対象から除外する
請求項１〜１０の何れか１項記載の画像解析装置。
前記対象物が含まれる範囲は、前記文章領域の端部を含む前記文章領域の一部の領域である
請求項１１記載の画像解析装置。
コンピュータを、請求項１〜１２の何れか１項記載の画像解析装置の各手段として機能させるためのプログラム。