JP2014081714A - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP2014081714A
JP2014081714A JP2012227964A JP2012227964A JP2014081714A JP 2014081714 A JP2014081714 A JP 2014081714A JP 2012227964 A JP2012227964 A JP 2012227964A JP 2012227964 A JP2012227964 A JP 2012227964A JP 2014081714 A JP2014081714 A JP 2014081714A
Authority
JP
Japan
Prior art keywords
character
image
module
character recognition
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012227964A
Other languages
English (en)
Other versions
JP5962419B2 (ja
Inventor
Kumi Fujiwara
久美 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2012227964A priority Critical patent/JP5962419B2/ja
Priority to PCT/JP2013/067071 priority patent/WO2014061309A1/ja
Publication of JP2014081714A publication Critical patent/JP2014081714A/ja
Priority to US14/683,237 priority patent/US20150213332A1/en
Application granted granted Critical
Publication of JP5962419B2 publication Critical patent/JP5962419B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】文字コードを持たない画像を比較する場合にあって、文字コードを持つファイルを比較する時と同等の比較が行える画像処理装置を提供する。
【解決手段】画像処理装置の文字認識手段は、第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識し、比較手段は、前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較し、出力手段は、前記比較手段による比較結果を出力する。
【選択図】図1

Description

本発明は、画像処理装置及び画像処理プログラムに関する。
特許文献1には、多様な種類の画像に対して適切な画像検索方法を提供することを課題とし、写真画像検索部は、入力文書画像をブロックに分割し、各ブロック毎にエッジ量などの画像特徴量を求め、そして、その画像特徴量の分布と各登録画像の画像特徴量の分布とを比較することで各登録画像の入力文書画像に対する類似度スコア(第1スコア)を計算し、テキスト検索部は、画像を文字認識した結果としてのテキストの類似性に基づき、各登録画像の入力文書画像に対する類似度スコア(第2スコア)を計算し、候補抽出部は、各登録画像の第1スコアと第2スコアとを統合し、得られた統合スコアが上位となる登録画像を候補として抽出し、文書画像検索部は、それら候補と入力文書画像とを、投影波形同士で比較することで、最終的な類似度を計算することが開示されている。
特許文献2には、文書や帳票の読み取りにおいて、手書き文字でも正確に認識するとともに、認識結果の誤認識や判読困難な文字を精度よく棄却する文字認識装置を提供することを課題とし、文字画像抽出部は、文書画像入力受付部で受け付けられた文書画像から文字画像を切り出し、特徴量抽出部は文字画像から特徴量を抽出し、候補文字選択部は分類辞書の基準特徴量と抽出された特徴量との類似度を算出し候補文字を選択し、候補文字判定部は選択された候補文字同士が類似候補文字識別辞書に記載されているとき、いずれの文字が適切か判定し、個別文字検証部は、候補文字を個別検証辞書の肯定条件又は否定条件に示されるルールに従い「有効」又は「棄却」とし、認識検証部は、同一文字行に複数の同一候補文字があるとき、文字画像同士の類似度を用いて、候補文字の変更処理を行うことが開示されている。
特許文献3には、切り出し誤りによって文字を認識した結果の文字数が、結果として出力すべき単語の文字数と異なる場合でも正確に該当する単語を認識結果として抽出することを目的とし、文字再切り出し段階では、文字のかすれにより、単語を構成する文字の数より実際に記入された文字の数が増加している場合、候補文字との対応がとれていない文字の位置に存在する2つ以上の図形をまとめて1つの図形として抽出し、文字再認識段階では抽出された図形に対して認識辞書を用いて文字認識し、単語再照合段階では、文字再認識段階で得られた認識結果の候補文字の中に単語照合段階で未照合となっている文字があるかどうか判定し、あればその文字を含む候補文字を認識結果として出力することが開示されている。
特開2007−172077号公報 特許第4861730号公報 特開平08−315077号公報
本発明は、文字コードを持たない画像を比較する場合にあって、文字コードを持つファイルを比較する時と同等の比較が行える画像処理装置及び画像処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較する比較手段と、前記比較手段による判定結果を出力する出力手段を具備することを特徴とする画像処理装置である。
請求項2の発明は、前記第1の画像と前記第2の画像内の対応する文字画像を比較することによって、前記比較手段による比較結果を補正する補正手段をさらに具備し、前記出力手段は、前記補正手段によって補正された結果を出力することを特徴とする請求項1に記載の画像処理装置である。
請求項3の発明は、前記補正手段は、前記第1の画像内の文字画像と前記第2の画像内の文字画像との相関係数を算出し、該相関係数に基づいて前記比較手段による比較結果を補正することを特徴とする請求項2に記載の画像処理装置である。
請求項4の発明は、前記補正手段は、前記第1の画像内の文字画像と前記第2の画像内の文字画像との間の特徴空間における距離を算出し、該距離に基づいて前記比較手段による比較結果を補正することを特徴とする請求項2に記載の画像処理装置である。
請求項5の発明は、前記補正手段は、前記文字認識手段による認識結果に対する確信度と予め定められた値とを比較して、確信度が低い場合は第1の文字認識結果と第2の文字認識結果が一致する場合も補正対象として補正を行うことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置である。
請求項6の発明は、前記補正手段は、前記文字認識手段による認識結果に対する確信度と予め定められた値とを比較して、確信度が高い場合は第1の文字認識結果と第2の文字認識結果が一致する場合は補正対象としないことを特徴とする請求項2から5のいずれか一項に記載の画像処理装置である。
請求項7の発明は、前記補正手段は、前記一致する文字の文字画像に対しては比較処理を行わないことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置である。
請求項8の発明は、前記補正手段は、前記置換された文字の文字画像のみに対して比較処理を行うことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置である。
請求項9の発明は、コンピュータを、第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較する比較手段と、前記比較手段による比較結果を出力する出力手段として機能させるための画像処理プログラムである。
請求項10の発明は、コンピュータを、第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較し、2つの文字認識結果間で一致する文字を抽出し、該一致する文字の間にある該第1の文字認識結果又は該第2の文字認識結果である文字を、該第1の画像から削除された文字、該第1の画像には無いが該第2の画像にはある挿入された文字、該第1の画像内の文字を置換した文字のいずれであるかを判定する判定手段と、前記判定手段による判定結果を出力する出力手段として機能させるための画像処理プログラムである。
請求項1の画像処理装置によれば、文字コードを持たない画像を比較する場合にあって、文字コードを持つファイルを比較する時と同等の比較を行うことができる。
請求項2の画像処理装置によれば、文字画像の比較結果に基づいて、文字の比較結果を補正することができる。
請求項3の画像処理装置によれば、文字画像間の相関係数に基づいて文字の比較結果を補正することができる。
請求項4の画像処理装置によれば、文字画像の特徴空間における距離に基づいて文字の比較結果を補正することができる。
請求項5の画像処理装置によれば、本構成を有していない場合に比較して、文字の比較結果の精度を向上させることができる。
請求項6の画像処理装置によれば、本構成を有していない場合に比較して、速度を向上させることができる。
請求項7の画像処理装置によれば、本構成を有していない場合に比較して、速度を向上させることができる。
請求項8の画像処理装置によれば、本構成を有していない場合に比較して、速度を向上させることができる。
請求項9の画像処理プログラムによれば、文字コードを持たない画像を比較する場合にあって、文字コードを持つファイルを比較する時と同等の比較を行うことができる。
請求項10の画像処理プログラムによれば、文字コードを持たない画像を比較する場合にあって、その画像の文字認識結果を、一致する文字、削除された文字、置換した文字に分けることができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 第1の実施の形態による処理例を示すフローチャートである。 文字列の比較処理の例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第2−1の実施の形態の構成例についての概念的なモジュール構成図である。 第2−1の実施の形態による処理例を示すフローチャートである。 第2−1の実施の形態による処理例を示す説明図である。 第2−1の実施の形態による処理例を示す説明図である。 第2−2の実施の形態の構成例についての概念的なモジュール構成図である。 第2−2の実施の形態による処理例を示すフローチャートである。 第2−2の実施の形態による処理例を示す説明図である。 第2−2の実施の形態による処理例を示す説明図である。 第2−2の実施の形態による処理例を示す説明図である。 第2−2の実施の形態による処理例を示す説明図である。 第2−3の実施の形態の構成例についての概念的なモジュール構成図である。 第2−3の実施の形態による処理例を示す説明図である。 第2−3の実施の形態による処理例を示すフローチャートである。 第2−3の実施の形態による処理例を示す説明図である。 第2−3の実施の形態による処理例を示す説明図である。 第2−4の実施の形態の構成例についての概念的なモジュール構成図である。 第2−4の実施の形態が対象とする文字画像の例を示す説明図である。 第2−4の実施の形態による処理例を示すフローチャートである。 第2−4の実施の形態による処理例を示す説明図である。 第2−4の実施の形態による処理例を示す説明図である。 第2−5の実施の形態の構成例についての概念的なモジュール構成図である。 第2−5の実施の形態による処理例を示すフローチャートである。 第2−6の実施の形態の構成例についての概念的なモジュール構成図である。 第2−6の実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判定し、Aであると判定した場合はBをする」の意味で用いる。ただし、Aであるか否かの判定が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
第1の実施の形態である画像処理装置は、複数の画像を比較するものであって、図1の例に示すように、文字認識モジュール110、文字列比較モジュール120、結果出力モジュール190を有している。
文字認識モジュール110は、文字列比較モジュール120と接続されている。文字認識モジュール110は、画像(旧)100Aを文字認識し、その画像(旧)100Aと関連する画像(新)100Bを文字認識する。例えば、画像(旧)100Aとしては、修正前の文書画像が該当する。画像(新)100Bとしては、その修正後の文書画像が該当する。なお、画像(旧)100Aと画像(新)100Bの関係は、比較対象であればよく、修正前後という関係を必ずしも必要としない。受け付ける画像としては、例えば、スキャナ、カメラ等で画像を読み込むこと、ファックス等で通信回線を介して外部機器から画像を受信すること、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている画像を読み出すこと等が含まれる。画像は、2値画像、多値画像(カラー画像を含む)であってもよい。また、受け付ける画像(比較対象とする画像)は、2以上の複数であってもよい。それぞれの比較対象とする画像は、複数ページであってもよい。また、画像の内容として、文字認識の対象となる文字が含まれていれば、ビジネスに用いられる文書、広告宣伝用のパンフレット等であってもよい。
文字列比較モジュール120は、文字認識モジュール110、結果出力モジュール190と接続されている。文字列比較モジュール120は、画像(旧)100Aに対する文字認識モジュール110による第1の文字認識結果と画像(新)100Bに対する文字認識モジュール110による第2の文字認識結果を比較する。そして、その比較処理によって、2つの文字認識結果間で一致する文字を抽出し、文字認識結果は、“一致文字”と“一致文字でない文字”に分類する。そして、“一致文字でない文字”を、削除文字、挿入文字、置換文字に分類する。つまり、第1の文字認識結果又は第2の文字認識結果である文字を、画像(旧)100Aから削除された文字、100Bに挿入された文字、画像(旧)100A内の文字を画像(新)100B内では別の文字に置き換えた文字のいずれであるかを判定する。具体的には、文字列比較モジュール120は、テキストコードにより比較を行う。一致する文字(一致文字ともいう)は文字単位で対応関係が求められる。一致文字に挟まれている文字は、削除された文字(削除文字ともいう)、挿入された文字(挿入文字ともいう)、置換された文字(置換文字ともいう)のいずれかである。そして、置換文字についても文字単位で対応関係が求められる。また、編集モードとして、一致文字と判定した場合を「一致」、削除文字と判定した場合を「削除」、挿入文字と判定した場合を「挿入」、置換文字と判定した場合を「置換」という。また、一致文字、削除文字、挿入文字、置換文字に限定する必要はない。例えば、一致文字と不一致文字だけでもよい。置換文字とは、削除文字と挿入文字の組み合わせであるので、一致文字、削除文字、挿入文字だけでもよい。
結果出力モジュール190は、文字列比較モジュール120と接続されている。結果出力モジュール190は、文字列比較モジュール120による比較結果を出力する。比較結果を画像で出力してもよいし、テキストで出力してもよい。不一致文字を一致文字と比べて目立つように強調(例えば、色を変える等)してもよいし、不一致文字だけ出力してもよい。例えば、画像(旧)100Aに、一致文字、削除文字、置換文字のそれぞれが分かるように色を異ならせた文字画像を重ねて表示するようにしてもよい。また、画像(新)100Bに、一致文字、挿入文字、置換文字のそれぞれが分かるように色を異ならせた文字画像を重ねて表示するようにしてもよい。
図2は、第1の実施の形態による処理例を示すフローチャートである。
ステップS202では、文字認識モジュール110が、画像(旧)100Aに対して文字認識を行う。
ステップS204では、文字認識モジュール110が、画像(新)100Bに対して文字認識を行う。
ステップS206では、文字列比較モジュール120が、新旧の文字認識結果を文字列比較する。
ステップS208では、結果出力モジュール190が、文字列比較結果を出力する。
図3は、文字列の比較処理の例を示す説明図である。
画像(旧)100Aの文字認識結果の一部である「ABCDEG」と画像(新)100Bの文字認識結果の一部である「BcDEFG」を比較する例を示す。「B」と「D」の対応関係から「C」と「c」が対応することが分かる。つまり、一致文字である認識文字B:302と認識文字B:351の組、認識文字D:304と認識文字D:353の組に挟まれている文字である認識文字C:303(認識文字B:302と認識文字D:304に挟まれている)、認識文字c:352(認識文字B:351と認識文字D:353に挟まれている)は対応しており、この認識文字C:303と認識文字c:352は置換文字である。なお、置換文字の関係には、1文字対1文字の関係の他に、N文字対M文字の関係(N、Mは1以上の整数)であってもよい。例えば、1文字が2文字に置換される場合も、同様に置換文字の関係になる。
また、認識文字A:301は、画像(旧)100Aの文字認識結果にはあって、画像(新)100Bの文字認識結果には無いので、削除文字である。認識文字F:355は、画像(旧)100Aの文字認識結果には無くて、画像(新)100Bの文字認識結果にはあるので、挿入文字である。
図4は、第1の実施の形態による処理例を示す説明図である。
文字認識モジュール110は、画像(旧)400Aに対して文字認識処理410Aを行い、文字認識結果420Aを文字列比較モジュール120に渡す。文字認識モジュール110は、画像(新)400Bに対して文字認識処理410Bを行い、文字認識結果420Bを文字列比較モジュール120に渡す。文字認識処理410A、410Bの処理は、いずれが先に行ってもよいし、平行して行われてもよい。
そして、文字列比較モジュール120は、文字認識結果420Aと文字認識結果420Bに対して文字列比較処理430を行い、比較結果テーブル490を結果出力モジュール190に渡す。
比較結果テーブル490は、文字列比較結果欄492、文書(旧)欄494A、文書(新)欄494Bを有している。文書(旧)欄494Aは、No.欄496A、文字欄498Aを有している。文書(新)欄494Bは、No.欄496B、文字欄498Bを有している。「A」(文書(旧)欄494A内のNo.3の文字)は、削除文字である。「2」(文書(旧)欄494A内のNo.7の文字)と「0」(文書(新)欄494B内のNo.6の文字)は置換文字である。「と」(文書(新)欄494B内のNo.16の文字)は挿入文字である。「、」(文書(新)欄494B内のNo.18の文字)は挿入文字である。
<第2−1の実施の形態>
図5は、第2−1の実施の形態の構成例についての概念的なモジュール構成図である。なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下、同様)。第2の実施の形態は、第1の実施の形態の処理と比べると、文字列比較モジュール120による処理結果を画像(旧)100A、画像(新)100Bを用いて補正する処理を加えたものであり、図2の例に示すように、文字認識モジュール110、文字列比較モジュール120、補正モジュール530、結果出力モジュール190を有している。
文字認識モジュール110は、文字列比較モジュール120と接続されている。文字認識モジュール110は、画像(旧)100A、画像(新)100Bのそれぞれの文字認識結果を含む文字列情報512を文字列比較モジュール120に渡す。
文字列比較モジュール120は、文字認識モジュール110、補正モジュール530と接続されている。
補正モジュール530は、文字列比較モジュール120、結果出力モジュール190と接続されている。補正モジュール530は、画像(旧)100Aと画像(新)100B内の対応する文字画像を比較することによって、文字列比較モジュール120による比較結果522を補正する。
結果出力モジュール190は、補正モジュール530と接続されている。結果出力モジュール190は、補正モジュール530によって補正された補正後の比較結果532を出力する。
図6は、第2−1の実施の形態による処理例を示すフローチャートである。
ステップS602では、文字認識モジュール110が、画像(旧)100Aに対して文字認識を行う。
ステップS604では、文字認識モジュール110が、画像(新)100Bに対して文字認識を行う。
ステップS606では、文字列比較モジュール120が、新旧の文字認識結果を文字列比較する。
ステップS608では、補正モジュール530が、文字列比較結果を補正する。
ステップS610では、結果出力モジュール190が、文字列比較結果を出力する。
図7は、第2−1の実施の形態による処理例を示す説明図である。
文字認識モジュール110は、対象文字画像(旧)700Aと対象文字画像(新)700Bを文字認識処理710する。その結果、対象文字画像(旧)700Aは「Software」という文字認識結果(旧)712Aとなり、対象文字画像(新)700Bは「S0ftware」という文字認識結果(新)712Bとなる。
文字列比較モジュール120は、文字認識結果(旧)712Aと文字認識結果(新)712Bを文字列比較処理720する。その結果、文字認識結果(旧)712Aと文字認識結果(新)712Bの第2文字目の「o」と「0」が差分という文字列比較結果722となる。ここで、差分文字については、編集モードを「置換」とする。
補正モジュール530は、文字列比較結果722として異なるとされた対象文字画像(旧)700Aと対象文字画像(新)700Bの第2文字目の文字画像(文字画像(旧)734A、文字画像(新)734B)を比較し、一致するという文字画像比較結果732を出力する。
ここで、編集モードを「置換」から「一致」に修正する。そして、結果出力モジュール190は、「対象文字画像(旧)700Aと対象文字画像(新)700Bは差分なし」という結果792を出力する。各文字認識結果の編集モードは「一致」となる。
図8は、第2−1の実施の形態による処理例を示す説明図である。
文字認識モジュール110は、対象文字画像(旧)800Aと対象文字画像(新)800Bを文字認識処理810する。その結果、対象文字画像(旧)800Aは「software」という文字認識結果(旧)812Aとなり、対象文字画像(新)800Bは「software」という文字認識結果(新)812Bとなる。
文字列比較モジュール120は、文字認識結果(旧)812Aと文字認識結果(新)812Bを文字列比較処理820する。その結果、差分なしという文字列比較結果822となる。ここで、比較対象の文字列(各文字)については、編集モードを「一致」とする。
補正モジュール530は、文字列比較結果822として差分なしとされた対象文字画像(旧)800Aと対象文字画像(新)800Bの第1文字目の文字画像(文字画像(旧)834A、文字画像(新)834B)を比較し、異なるという文字画像比較結果832を出力する。
ここで、編集モードを「一致」から「置換」に修正する。そして、結果出力モジュール190は、「対象文字画像(旧)800Aと対象文字画像(新)800Bはそれぞれ第1文字目の文字画像が差分」という結果892を出力する。文字認識結果である「S」と「s」の編集モードは「置換」となる。なお、正しい文字コードは不明なままである。具体的には、対象文字画像(旧)800Aの第1文字目が「S」でないのか、対象文字画像(新)800Bの第1文字目が「S」でないのか、は不明のままである。
<第2−2の実施の形態>
図9は、第2−2の実施の形態の構成例についての概念的なモジュール構成図である。第2−2の実施の形態は、第2−1の実施の形態の補正モジュール530内のモジュール構成を詳細にしたものであり、補正モジュール530は、文字画像切出モジュール932、文字画像比較モジュール934、文字列比較結果修正モジュール936を有している。
文字画像切出モジュール932は、文字画像比較モジュール934と接続されている。文字画像切出モジュール932は、画像100(画像(旧)100A又は画像(新)100Bのいずれか一方)から文字座標リスト900を用いて文字画像933を切り出す。文字座標リスト900は、文字認識モジュール110が文字認識結果とともに出力する。
文字画像比較モジュール934は、文字画像切出モジュール932、文字列比較結果修正モジュール936と接続されている。文字画像比較モジュール934は、画像(旧)100Aと画像(新)100B内の対応する文字画像933を比較する。比較結果である一致か不一致かのフラグ935を文字列比較結果修正モジュール936に渡す。対応するとは、文字列比較モジュール120によって対応するとされた文字の文字画像の組み合わせ(一致文字の組み合わせ、置換文字の組み合わせ)であってもよいし、画像(旧)100A内の文字画像と画像(新)100B内の文字画像の全ての組み合わせであってもよいし(図14を用いて詳述する組み合わせ)、その他の組み合わせ(後に詳述する組み合わせ)であってもよい。比較処理については、第2−3の実施の形態と第2−4の実施の形態を用いて詳述する。
文字列比較結果修正モジュール936は、文字画像比較モジュール934と接続されている。文字列比較結果修正モジュール936は、文字画像比較モジュール934で“一致”と判定したら、対応する文字の編集モードを“一致”に書き換える。“不一致”と判定したら、対応する文字の編集モードを“置換”に書き換える。
図10は、第2−2の実施の形態(特に補正モジュール530内のモジュール)による処理例を示すフローチャートである。
ステップS1002では、文字画像切出モジュール932が、両者の画像100から文字座標リスト900を用いて文字画像を切り出す。
ステップS1004では、文字画像比較モジュール934が、切り出した両者の文字画像933を比較する。
ステップS1006では、文字列比較結果修正モジュール936が、一致か不一致かのフラグ935を用いて、文字列比較モジュール120の比較結果522を修正する。
図11は、第2−2の実施の形態による処理例を示す説明図である。
文字認識モジュール110は、画像(旧)1100Aに対して文字認識処理1110Aを行い、文字認識結果1120Aを文字列比較モジュール120に渡す。文字認識モジュール110は、画像(新)1100Bに対して文字認識処理1110Bを行い、文字認識結果1120Bを文字列比較モジュール120に渡す。文字認識処理1110A、1110Bの処理は、いずれが先に行ってもよいし、平行して行われてもよい。
そして、文字列比較モジュール120は、文字認識結果1120Aと文字認識結果1120Bに対して文字列比較処理1130を行い、比較結果テーブル1190を結果出力モジュール190に渡す。
比較結果テーブル1190は、文字列比較結果欄1192、文書(旧)欄1194A、文書(新)欄1194Bを有している。文書(旧)欄1194Aは、No.欄1196A、文字欄1198Aを有している。文書(新)欄1194Bは、No.欄1196B、文字欄1198Bを有している。図4の例に示した比較結果テーブル490と同等のものである。ただし、比較結果テーブル1190は、文字列比較結果修正モジュール936による補正処理の結果である。
文字列比較結果修正モジュール936が行う処理について説明する。文字認識結果に誤りのあった文字「Z」(文書(新)欄1194BのNo.3の文字)と文字「2」(文書(旧)欄1194AのNo.4の文字)の組み合わせに対する編集モードの補正について説明する。
文字画像比較モジュール934による文字画像の比較により、文書(旧)1100Aの4番目の文字と文書(新)1100Bの3番目の文字が一致していると判定される。さらに、文書(旧)1100Aの7番目の文字と文書(新)1100Bの3番目の文字が一致しているとも判定される。
このとき、文字列比較結果修正モジュール936による処理によって、文書(旧)1100Aの4番目の文字との一致関係が採用される。なぜなら、文字列比較処理によって、文書(新)1100Bの3番目の文字と文書(旧)1100Aの4番目の文字とが対応付いていると仮定すると、その後の2文字も一致しており、文書(新)1100Bの3番目の文字と文書(旧)1100Aの7番目の文字とが対応付いていると仮定すると、その後の文字は一致しないことになるためである。つまり、文字画像比較モジュール934の比較処理結果によって一致している文字が複数ある場合は、それぞれの文字が一致していると仮定して、その後に続く文字であって一致している文字が多い方を対応付いていると判定する。また、その後に続く文字ではなく、その前にある文字としてもよいし、前後両方の文字を対象としてもよい。
文書(旧)1100Aの4番目の文字と文書(新)1100Bの3番目の文字が一致していると判定されたので、次に、文字列比較結果修正モジュール936は、文書(旧)1100Aの4番目の文字の文字列比較結果と、文書(新)1100Bの3番目の文字の文字列比較結果欄1192の内容を「置換」から「一致」に置き換える。
このとき、文字列比較結果修正モジュール936は、テキストコードも「Z」から「2」へ、又は「2」から「Z」へ置き換えてもよい。ただし、新旧どちらのテキストコードが正しいのであるかについては判定しない。本実施の形態は、文字認識結果を補正するものではない。
比較結果テーブル1190は、文字列比較結果を示す表である。同じ行に並んでいる文字は、文字列比較処理の結果、対応付いたことを意味している。置換文字であっても、前述のように前後の一致文字の対応関係から対応する文字を求めることができる。
図12は、第2−2の実施の形態(主に文字認識モジュール110、文字画像切出モジュール932)による処理例を示す説明図である。
文字認識モジュール110は、文字認識結果とともに、その文字の座標を出力する。文字画像切出モジュール932は、その座標に基づいて、文字画像を切り出す。図12(a)の例に示す画像(旧)1200の文字認識結果と文字の座標は、図12(c)の例に示す文字認識結果等テーブル1220のようになる。文字認識結果等テーブル1220は、No.欄1222、文字欄1224、左X欄1226、上Y欄1228、右X欄1230、下Y欄1232、確信度欄1234を有している。文字欄1224は、文字認識結果であるテキストコードを記憶する。左X欄1226、上Y欄1228、右X欄1230、下Y欄1232は、文字の座標を記憶する。つまり、図12(b)の例に示す文字矩形1210の左上座標1212と右下座標1214を示している。もちろんのことながら、右上、左下の座標の組み合わせであってもよいし、文字矩形1210の4角のいずれかの座標と幅と高さによって文字矩形1210の座標を表すようにしてもよい。確信度欄1234は、文字認識モジュール110による文字認識処理によって、その文字認識結果の確からしさを示す情報を記憶する。例えば、数値が高いほど、そのテキストコードらしいことを示している。確信度欄1234が記憶する情報を用いる処理については、後述する。
文字画像切出モジュール932は、この文字認識結果等テーブル1220を用いて、画像(旧)100A、画像(新)100Bから文字画像を切り出す。
図13は、第2−2の実施の形態による処理例を示す説明図である。文字画像切出モジュール932は、画像(旧)1300Aに対して文字認識結果等テーブル1220を用いて文字画像切り出し処理1332Aを行い、文字画像群(旧)1333Aを文字画像比較モジュール934に渡す。文字画像切出モジュール932は、画像(新)1300Bに対して文字認識結果等テーブル1220を用いて文字画像切り出し処理1332Bを行い、文字画像群(新)1333Bを文字画像比較モジュール934に渡す。文字画像比較モジュール934は、文字画像群(旧)1333Aと文字画像群(新)1333Bに対して文字画像比較処理1334を行い、一致か不一致かのフラグ1335を文字列比較結果修正モジュール936に渡す。
なお、文字画像比較処理1334で行う比較対象の組み合わせは、全ての組み合わせであってもよい。図14(a)の例に示すように、文字画像群(旧)1333A内の認識文字1400Aと文字画像群(新)1333B内の各文字画像(認識文字1400B、1401B、1402B、1403B等)の組み合わせに対して処理を行い、次に、図14(b)の例に示すように、文字画像群(旧)1333A内の認識文字1401Aと文字画像群(新)1333B内の各文字画像(認識文字1400B、1401B、1402B、1403B等)の組み合わせに対して処理を行う。
<第2−3の実施の形態>
図15は、第2−3の実施の形態の構成例についての概念的なモジュール構成図である。第2−3の実施の形態は、第2−2の実施の形態の文字画像比較モジュール934内のモジュール構成を詳細にしたものであり、文字画像比較モジュール934は、相関係数算出モジュール1510、相関係数決定モジュール1520、一致判定モジュール1530を有している。
相関係数算出モジュール1510は、相関係数決定モジュール1520と接続されている。相関係数算出モジュール1510は、画像(旧)100A内の文字画像(旧)933Aと画像(新)100B内の文字画像(新)933Bとの相関係数を算出する。例えば、文字画像(旧)933Aに対して文字画像(新)933Bを少しずつずらしながら相関を計算する。具体的には、図16の例に示すように、2つの文字画像を少しずつずらしながら重ね合わせて輝度の相関を計算する。より具体的には、2つの文字画像のEOR(排他的論理和)処理を行い、残った画素値を計数し、その計数値の逆数を相関値とする。
相関係数決定モジュール1520は、相関係数算出モジュール1510、一致判定モジュール1530と接続されている。相関係数決定モジュール1520は、一番相関が高かったところの差分量を、この候補文字の相関係数とする。図16の例では、(e)が、それに該当する。
一致判定モジュール1530は、相関係数決定モジュール1520と接続されている。一致判定モジュール1530は、相関係数決定モジュール1520から渡された相関係数と予め定められた閾値を比較して、「相関係数が閾値より大きい又は以上」ならば、文字画像(旧)933Aと文字画像(新)933Bは一致していると判定する。そして、「相関係数が閾値以下又は未満」ならば、異なる文字だと判定する。
その後、文字列比較結果修正モジュール936は、一致判定モジュール1530からの一致か不一致かのフラグ935を用いて、文字列比較モジュール120による比較結果を補正する。
図17は、第2−3の実施の形態による処理例を示すフローチャートである。
ステップS1702では、相関係数算出モジュール1510が、文字画像(旧)933Aと文字画像(新)933Bの各ずらし量における相関係数を算出する。
ステップS1704では、相関係数決定モジュール1520が、各ずらし量における相関係数から、この文字画像対の相関係数を決定する。
ステップS1706では、一致判定モジュール1530が、予め定めた閾値と相関係数を比較して、一致するか否かの判定を行う。
ステップS1708では、一致判定モジュール1530が、判定結果を出力する。
図18は、第2−3の実施の形態による処理例を示す説明図である。
図15の例に示したように、文字画像同士の相関係数を算出する(図18(a)、(b))。そして、例えば、閾値を0.83として、閾値処理1810では、相関係数が閾値以上の文字画像があるかどうかを判定する(図18(c))。閾値以上の文字画像があれば、その文字と一致していると判定する。閾値以上の文字画像がなければ、一致していない文字と判定する。図18の例では、「文書(旧)の0番目の認識文字1400A(契)と文書(新)の0番目の認識文字1400B(契)が一致していると判定する」という閾値処理結果1835を出力する(図18(d))。
図19は、第2−3の実施の形態による処理例を示す説明図である。
図15の例に示したように、文字画像同士の相関係数を求める。(図19(a)、(b))。そして、例えば、閾値を0.83として、閾値処理1810では、相関係数が閾値以上の文字画像があるかどうかを判定する(図19(c))。閾値以上の文字画像があれば、その文字と一致していると判定する。閾値以上の文字画像がなければ、一致していない文字と判定する。図19の例では、「文書(旧)の3番目の認識文字1403A(A)と一致する文字はないと判定する」という閾値処理結果1935を出力する(図19(d))。
<第2−4の実施の形態>
図20は、第2−4の実施の形態の構成例についての概念的なモジュール構成図である。第2−4の実施の形態は、第2−2の実施の形態の文字画像比較モジュール934内のモジュール構成を詳細にしたものであり、文字画像比較モジュール934は、特徴量算出モジュール2010、特徴量距離算出モジュール2020、一致判定モジュール2030を有している。
特徴量算出モジュール2010は、特徴量距離算出モジュール2020と接続されている。特徴量算出モジュール2010は、画像(旧)100A内の文字画像(旧)933Aと画像(新)100B内の文字画像(新)933Bの特徴量を算出する。例えば、それぞれの文字画像の幅、高さ、黒画素密度、投影ヒストグラム等の特徴量を算出する。図21の例では、文字画像2100の特徴量として、高さ2110、幅2120がある。
特徴量距離算出モジュール2020は、特徴量算出モジュール2010、一致判定モジュール2030と接続されている。特徴量距離算出モジュール2020は、画像(旧)100A内の文字画像(旧)933Aと画像(新)100B内の文字画像(新)933Bとの間の特徴空間における距離を算出する。
特徴量距離算出モジュール2020は、例えば、文字画像(旧)933Aの特徴量ベクトル=(p,p,…,p)、文字画像(新)933Bの特徴量ベクトル=(q,q,…,q)、ただし、p,qは各特徴量(0<i≦n)、n個の特徴量である。そして、特徴量の距離Dを次のように算出する。
特徴量の距離D=|p−q+|p−q+…+|p−q
一致判定モジュール2030は、特徴量距離算出モジュール2020と接続されている。一致判定モジュール2030は、特徴量距離算出モジュール2020から渡された特徴量の距離と予め定められた閾値を比較して、「特徴量の距離が閾値より小さい」ならば、文字画像(旧)933Aと文字画像(新)933Bは一致していると判定する。そして、「特徴量の距離が閾値以上又はより大きい」ならば、異なる文字だと判定する。
その後、文字列比較結果修正モジュール936は、一致判定モジュール2030からの一致か不一致かのフラグ935を用いて、文字列比較モジュール120による判定結果を補正する。
図22は、第2−4の実施の形態による処理例を示すフローチャートである。
ステップS2202では、特徴量算出モジュール2010が、文字画像(旧)933Aと文字画像(新)933Bのそれぞれの特徴量を算出する。
ステップS2204では、特徴量距離算出モジュール2020が、文字画像(旧)933Aと文字画像(新)933Bの特徴量距離を算出する。
ステップS2206では、一致判定モジュール2030が、予め定めた閾値と特徴量距離を比較して、一致するか否かの判定を行う。
ステップS2208では、一致判定モジュール2030が、判定結果を出力する。
図23は、第2−4の実施の形態による処理例を示す説明図である。
図20の例に示したように、文字画像同士の特徴間の距離を算出する(図23(a)、(b))。各文字画像特徴量を算出する。例えば、認識文字1400Aの特徴量ベクトルを、(p01,p02,…,p0n)とする。認識文字1400B等の特徴量ベクトルを、(q01,q02,…,q0n)とする。文字画像同士の特徴量の距離Dを前述の式で算出する。そして、例えば、閾値を0.15として、閾値処理2310では、距離Dが閾値以下の文字画像があるかどうかを判定する(図23(c))。閾値以下の文字画像があれば、その文字と一致していると判定する。閾値以下の文字画像がなければ、一致していない文字と判定する。図23の例では、「文書(旧)の0番目の認識文字1400A(契)と文書(新)の0番目の認識文字1400B(契)が一致していると判定する」という閾値処理結果2335を出力する(図23(d))。
図24は、第2−4の実施の形態による処理例を示す説明図である。
図20の例に示したように、文字画像同士の特徴間の距離を算出する(図24(a)、(b))。各文字画像特徴量を算出する。例えば、認識文字1403Aの特徴量ベクトルを、(p31,p32,…,p3n)とする。認識文字1400B等の特徴量ベクトルを、(q01,q02,…,q0n)とする。文字画像同士の特徴量の距離Dを前述の式で算出する。そして、例えば、閾値を0.15として、閾値処理2410では、距離Dが閾値以下の文字画像があるかどうかを判定する(図24(c))。閾値以下の文字画像があれば、その文字と一致していると判定する。閾値以下の文字画像がなければ、一致していない文字と判定する。図24の例では、「文書(旧)の3番目の認識文字1403A(A)と一致する文字はないと判定する」という閾値処理結果2435を出力する(図24(d))。
<第2−5の実施の形態>
図25は、第2−5の実施の形態の構成例についての概念的なモジュール構成図である。第2−5の実施の形態は、補正候補文字選別モジュール2520が、文字認識結果の確信度を用いて、補正処理の対象となる文字画像を選択するものである。なお、補正処理モジュール2530は、前述の実施の形態(第2−1の実施の形態から第2−4の実施の形態)における補正モジュール530に相当する。つまり、図5の例を用いて説明すれば、文字列比較モジュール120と補正モジュール530の間に補正候補文字選別モジュール2520があり、補正モジュール530の代わりに補正処理モジュール2530がある。
図25の例では、補正候補文字選別モジュール2520、補正処理モジュール2530を有している。補正処理モジュール2530は、補正候補文字画像切出モジュール2532、文字画像比較モジュール934、文字列比較結果修正モジュール936を有している。
補正候補文字選別モジュール2520は、補正候補文字画像切出モジュール2532と接続されている。補正候補文字選別モジュール2520は、文字認識モジュール110による認識結果に対する確信度と予め定められた値とを比較して、確信度が低い場合は第1の文字認識結果と第2の文字認識結果が一致する場合も補正対象とする。そして、補正候補となった文字の文字座標リスト2522を補正処理モジュール2530内の補正候補文字画像切出モジュール2532に渡す。具体的には、補正候補文字選別モジュール2520は、各文字の確信度2500(図12(c)の例で示した文字認識結果等テーブル1220の確信度欄1234)と文字座標リスト900を文字認識モジュール110から受け取り、各文字の確信度2500が予め定められた値以下又はより低い場合は、文字列比較モジュール120による処理結果として、第1の文字認識結果と第2の文字認識結果が一致する場合も補正対象とするように文字座標リスト2522を生成する。
さらに、各文字の確信度2500が予め定められた値以下又はより低い場合は、削除された文字、挿入された文字を補正対象として選択を行うようにしてもよい。したがって、補正対象は、文字認識結果の全ての文字となるように文字座標リスト2522を生成してもよい。
また、補正候補文字選別モジュール2520は、文字認識モジュール110による認識結果に対する確信度と予め定められた値とを比較して、確信度が高い場合は第1の文字認識結果と第2の文字認識結果が一致する場合は補正対象としないようにしてもよい。具体的には、補正候補文字選別モジュール2520は、各文字の確信度2500が予め定められた値より高い場合又は以上である場合であって、第1の文字認識結果と第2の文字認識結果が一致するときは、文字座標リスト2522に入れない。
さらに、各文字の確信度2500が予め定められた値より高い場合又は以上である場合の補正対象は、削除された文字、挿入された文字、置換された文字となり、一致した文字は対象としないように文字座標リスト2522を生成するようにしてもよい。
補正候補文字画像切出モジュール2532は、補正候補文字選別モジュール2520、文字画像比較モジュール934と接続されている。補正候補文字画像切出モジュール2532は、前述の実施の形態における文字画像切出モジュール932に該当するが、対象とする文字画像は、補正候補文字選別モジュール2520によって選別されたものとなる。具体的には、補正候補文字選別モジュール2520から渡された文字の文字座標リスト2522を用いて画像100から文字画像を切り出す。そして、候補文字の文字画像2533を文字画像比較モジュール934に渡す。
文字画像比較モジュール934は、補正候補文字画像切出モジュール2532、文字列比較結果修正モジュール936と接続されている。
文字列比較結果修正モジュール936は、文字画像比較モジュール934と接続されている。
図26は、第2−5の実施の形態による処理例を示すフローチャートである。
ステップS2602では、補正候補文字選別モジュール2520が、各文字の確信度2500と文字座標リスト900から補正候補となる文字画像を選択する。
ステップS2604では、補正候補文字画像切出モジュール2532が、画像100から候補文字の文字座標リスト2522を用いて文字画像を切り出す。
ステップS2606では、文字画像比較モジュール934が、切り出した文字画像933を比較する。
ステップS2608では、文字列比較結果修正モジュール936が、一致か不一致かのフラグ935を用いて、文字列比較モジュール120の比較結果522を修正する。
<第2−6の実施の形態>
図27は、第2−6の実施の形態の構成例についての概念的なモジュール構成図である。第2−6の実施の形態は、補正候補文字選別モジュール2720が、各文字の編集モードを用いて、補正処理の対象となる文字画像を選択するものである。図5の例を用いて説明すれば、文字列比較モジュール120と補正モジュール530の間に補正候補文字選別モジュール2720があり、補正モジュール530の代わりに補正処理モジュール2530がある。
図27の例では、補正候補文字選別モジュール2720、補正処理モジュール2530を有している。補正処理モジュール2530は、補正候補文字画像切出モジュール2532、文字画像比較モジュール934、文字列比較結果修正モジュール936を有している。
補正候補文字選別モジュール2720は、補正候補文字画像切出モジュール2532と接続されている。補正候補文字選別モジュール2720は、一致する文字の文字画像の組に対しては比較処理(文字画像比較モジュール934による処理)を行わないように選択する。そして、選別された文字の文字座標リスト2722を補正処理モジュール2530内の補正候補文字画像切出モジュール2532に渡す。具体的には、補正候補文字選別モジュール2720は、各文字の編集モード2700(図11の例で示した比較結果テーブル1190の文字列比較結果欄1192)を文字列比較モジュール120から受け取り、文字座標リスト900を文字認識モジュール110から受け取り、編集モードが「一致」である文字を文字座標リスト900から除外した文字の文字座標リスト2722を生成する。したがって、編集モードが「削除」、「挿入」、「置換」である文字を文字座標リスト900から選択した文字の文字座標リスト2722を生成する。
また、補正候補文字選別モジュール2720は、置換された文字の文字画像の組のみに対して比較処理を行うようにしてもよい。具体的には、補正候補文字選別モジュール2720は、各文字の編集モード2700を文字列比較モジュール120から受け取り、文字座標リスト900を文字認識モジュール110から受け取り、文字座標リスト900から編集モードが「置換」である文字のみを選択した文字座標リスト2722を生成する。
補正候補文字画像切出モジュール2532は、補正候補文字選別モジュール2720、文字画像比較モジュール934と接続されている。
文字画像比較モジュール934は、補正候補文字画像切出モジュール2532、文字列比較結果修正モジュール936と接続されている。
文字列比較結果修正モジュール936は、文字画像比較モジュール934と接続されている。
図28は、第2−6の実施の形態による処理例を示すフローチャートである。
ステップS2802では、補正候補文字選別モジュール2720が、各文字の編集モード2700と文字座標リスト900から補正候補となる文字画像を選択する。
ステップS2804では、補正候補文字画像切出モジュール2532が、画像100から候補文字の文字座標リスト2722を用いて文字画像を切り出す。
ステップS2806では、文字画像比較モジュール934が、切り出した文字画像933を比較する。
ステップS2808では、文字列比較結果修正モジュール936が、一致か不一致かのフラグ935を用いて、文字列比較モジュール120の比較結果522を修正する。
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に追加する、入れ替えをする等も含む)、また、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
例えば、第2−5の実施の形態と第2−6の実施の形態を組み合わせた場合、以下のようにしてもよい。
(1)確信度と予め定められた閾値とを比較して確信度が低く、かつ、編集モードが「置換」である場合を、少なくとも含むように比較対象として選択する。その他の場合は、以下のいずれか1つ又はその組み合わせを採用する。
(2)確信度と予め定められた閾値とを比較して確信度が高く、かつ、編集モードが「一致」である場合は、比較対象として選択しないようにしてもよい。
(3)精度向上を図るために、確信度が低く、かつ、編集モードが「一致」、「削除」、「挿入」である場合は、比較対象として選択するようにしてもよい。
(4)精度を落とさずに、高速化を図る場合は、確信度が高く、かつ、編集モードが「削除」、「挿入」、「置換」である場合は、比較対象として選択しないようにしてもよい。
前述の実施の形態は、以下のような発明として把握してもよい。
第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、
前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較し、2つの文字認識結果間で一致する文字を抽出し、該一致する文字の間にある該第1の文字認識結果又は該第2の文字認識結果である文字を、該第1の画像から削除された文字、該第1の画像には無いが該第2の画像にはある挿入された文字、該第1の画像内の文字を置換した文字のいずれであるかを判定する判定手段と、
前記判定手段による判定結果を出力する出力手段
を具備することを特徴とする画像処理装置。
この画像処理装置によれば、複数の画像を比較する場合にあって、その画像の文字認識結果を、一致する文字、削除された文字、挿入された文字、置換した文字に分けることができる。
図29を参照して、本実施の形態の画像処理装置のハードウェア構成例について説明する。図29に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部2917と、プリンタなどのデータ出力部2918を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)2901は、前述の実施の形態において説明した各種のモジュール、すなわち、文字認識モジュール110、文字列比較モジュール120、結果出力モジュール190、補正モジュール530、文字画像切出モジュール932、文字画像比較モジュール934、文字列比較結果修正モジュール936、相関係数算出モジュール1510、相関係数決定モジュール1520、一致判定モジュール1530、特徴量算出モジュール2010、特徴量距離算出モジュール2020、一致判定モジュール2030、補正候補文字選別モジュール2520、補正処理モジュール2530、補正候補文字画像切出モジュール2532、補正候補文字選別モジュール2720等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)2902は、CPU2901が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)2903は、CPU2901の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス2904により相互に接続されている。
ホストバス2904は、ブリッジ2905を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス2906に接続されている。
キーボード2908、マウス等のポインティングデバイス2909は、操作者により操作される入力デバイスである。ディスプレイ2910は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)2911は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU2901によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、比較対象とする画像、文字画像、文字認識結果、補正結果などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ2912は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体2913に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース2907、外部バス2906、ブリッジ2905、及びホストバス2904を介して接続されているRAM2903に供給する。リムーバブル記録媒体2913も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート2914は、外部接続機器2915を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート2914は、インタフェース2907、及び外部バス2906、ブリッジ2905、ホストバス2904等を介してCPU2901等に接続されている。通信部2916は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部2917は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部2918は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図29に示す画像処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図29に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図29に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…文字認識モジュール
120…文字列比較モジュール
190…結果出力モジュール
530…補正モジュール
932…文字画像切出モジュール
934…文字画像比較モジュール
936…文字列比較結果修正モジュール
1510…相関係数算出モジュール
1520…相関係数決定モジュール
1530…一致判定モジュール
2010…特徴量算出モジュール
2020…特徴量距離算出モジュール
2030…一致判定モジュール
2520…補正候補文字選別モジュール
2530…補正処理モジュール
2532…補正候補文字画像切出モジュール
2720…補正候補文字選別モジュール

Claims (10)

  1. 第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、
    前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較する比較手段と、
    前記比較手段による比較結果を出力する出力手段
    を具備することを特徴とする画像処理装置。
  2. 前記第1の画像と前記第2の画像内の対応する文字画像を比較することによって、前記比較手段による比較結果を補正する補正手段
    をさらに具備し、
    前記出力手段は、前記補正手段によって補正された結果を出力する
    ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記補正手段は、前記第1の画像内の文字画像と前記第2の画像内の文字画像との相関係数を算出し、該相関係数に基づいて前記比較手段による比較結果を補正する
    ことを特徴とする請求項2に記載の画像処理装置。
  4. 前記補正手段は、前記第1の画像内の文字画像と前記第2の画像内の文字画像との間の特徴空間における距離を算出し、該距離に基づいて前記比較手段による比較結果を補正する
    ことを特徴とする請求項2に記載の画像処理装置。
  5. 前記補正手段は、前記文字認識手段による認識結果に対する確信度と予め定められた値とを比較して、確信度が低い場合は第1の文字認識結果と第2の文字認識結果が一致する場合も補正対象として補正を行う
    ことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置。
  6. 前記補正手段は、前記文字認識手段による認識結果に対する確信度と予め定められた値とを比較して、確信度が高い場合は第1の文字認識結果と第2の文字認識結果が一致する場合は補正対象としない
    ことを特徴とする請求項2から5のいずれか一項に記載の画像処理装置。
  7. 前記補正手段は、前記一致する文字の文字画像に対しては比較処理を行わない
    ことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置。
  8. 前記補正手段は、前記置換された文字の文字画像のみに対して比較処理を行う
    ことを特徴とする請求項2から4のいずれか一項に記載の画像処理装置。
  9. コンピュータを、
    第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、
    前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較する比較手段と、
    前記比較手段による比較結果を出力する出力手段
    として機能させるための画像処理プログラム。
  10. コンピュータを、
    第1の画像を文字認識し、該第1の画像と関連する第2の画像を文字認識する文字認識手段と、
    前記第1の画像に対する前記文字認識手段による第1の文字認識結果と前記第2の画像に対する前記文字認識手段による第2の文字認識結果を比較し、2つの文字認識結果間で一致する文字を抽出し、該一致する文字の間にある該第1の文字認識結果又は該第2の文字認識結果である文字を、該第1の画像から削除された文字、該第1の画像には無いが該第2の画像にはある挿入された文字、該第1の画像内の文字を置換した文字のいずれであるかを判定する判定手段と、
    前記判定手段による判定結果を出力する出力手段
    として機能させるための画像処理プログラム。
JP2012227964A 2012-10-15 2012-10-15 画像処理装置及び画像処理プログラム Active JP5962419B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012227964A JP5962419B2 (ja) 2012-10-15 2012-10-15 画像処理装置及び画像処理プログラム
PCT/JP2013/067071 WO2014061309A1 (ja) 2012-10-15 2013-06-21 画像処理装置及び画像処理プログラム
US14/683,237 US20150213332A1 (en) 2012-10-15 2015-04-10 Image processing apparatus, non-transitory computer readable medium, and image processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012227964A JP5962419B2 (ja) 2012-10-15 2012-10-15 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2014081714A true JP2014081714A (ja) 2014-05-08
JP5962419B2 JP5962419B2 (ja) 2016-08-03

Family

ID=50487887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012227964A Active JP5962419B2 (ja) 2012-10-15 2012-10-15 画像処理装置及び画像処理プログラム

Country Status (3)

Country Link
US (1) US20150213332A1 (ja)
JP (1) JP5962419B2 (ja)
WO (1) WO2014061309A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195248A (ja) * 2017-05-22 2018-12-06 パナソニックIpマネジメント株式会社 翻訳表示装置、コンピュータ端末及び翻訳表示方法
JP2020046819A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2020187777A (ja) * 2020-07-14 2020-11-19 パナソニックIpマネジメント株式会社 翻訳表示装置、コンピュータ端末、翻訳表示方法及びプログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5920293B2 (ja) * 2013-08-23 2016-05-18 富士ゼロックス株式会社 画像処理装置及びプログラム
WO2016005485A1 (en) * 2014-07-10 2016-01-14 Sanofi-Aventis Deutschland Gmbh Apparatus for capturing and processing images
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
CN111340029A (zh) * 2018-12-19 2020-06-26 富士通株式会社 用于识别收件人地址中的至少部分地址的装置和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164791A (ja) * 1992-11-17 1994-06-10 Ricoh Co Ltd 画像比較装置
JP2001134617A (ja) * 1999-08-25 2001-05-18 Matsushita Electric Ind Co Ltd 文書検索装置および記録媒体
JP2010231440A (ja) * 2009-03-26 2010-10-14 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748807A (en) * 1992-10-09 1998-05-05 Panasonic Technologies, Inc. Method and means for enhancing optical character recognition of printed documents
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US8073256B2 (en) * 2007-11-15 2011-12-06 Canon Kabushiki Kaisha Image processing apparatus and method therefor
US9275368B1 (en) * 2012-09-25 2016-03-01 Amazon Technologies, Inc. Annotation mapping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164791A (ja) * 1992-11-17 1994-06-10 Ricoh Co Ltd 画像比較装置
JP2001134617A (ja) * 1999-08-25 2001-05-18 Matsushita Electric Ind Co Ltd 文書検索装置および記録媒体
JP2010231440A (ja) * 2009-03-26 2010-10-14 Fuji Xerox Co Ltd 情報処理装置およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018195248A (ja) * 2017-05-22 2018-12-06 パナソニックIpマネジメント株式会社 翻訳表示装置、コンピュータ端末及び翻訳表示方法
JP2020046819A (ja) * 2018-09-18 2020-03-26 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7206729B2 (ja) 2018-09-18 2023-01-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2020187777A (ja) * 2020-07-14 2020-11-19 パナソニックIpマネジメント株式会社 翻訳表示装置、コンピュータ端末、翻訳表示方法及びプログラム

Also Published As

Publication number Publication date
JP5962419B2 (ja) 2016-08-03
WO2014061309A1 (ja) 2014-04-24
US20150213332A1 (en) 2015-07-30

Similar Documents

Publication Publication Date Title
JP5962419B2 (ja) 画像処理装置及び画像処理プログラム
US8059896B2 (en) Character recognition processing system and computer readable medium storing program for character recognition processing
US7925082B2 (en) Information processing apparatus, information processing method, computer readable medium, and computer data signal
JP6119952B2 (ja) 画像処理装置及び画像処理プログラム
US20110135209A1 (en) Business document processor
WO2018021163A1 (ja) シグネチャ作成装置、シグネチャ作成方法、シグネチャ作成プログラムが記録された記録媒体、及び、ソフトウェア判定システム
JP6221220B2 (ja) 画像処理装置及び画像処理プログラム
JP2011028370A (ja) 画像処理装置及び画像処理プログラム
JP4780184B2 (ja) 画像処理装置及び画像処理プログラム
US9009026B2 (en) Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP5481965B2 (ja) 情報処理装置及び情報処理プログラム
JP5440043B2 (ja) 画像処理装置及び画像処理プログラム
US20150043832A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP6201779B2 (ja) 情報処理装置及び情報処理プログラム
JP6260181B2 (ja) 情報処理装置及び情報処理プログラム
JP6421568B2 (ja) 情報処理装置及び情報処理プログラム
JP6323009B2 (ja) 画像処理装置及び画像処理プログラム
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP5821648B2 (ja) 情報処理装置及び情報処理プログラム
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP7075011B2 (ja) 情報処理装置、パッチ適用確認システム、パッチ適用確認方法、およびパッチ適用確認プログラム
US20140169676A1 (en) Information processing apparatus, information processing method, and computer-readable medium
JP2008108153A (ja) 情報処理システムおよび情報処理プログラム
JP2010039810A (ja) 画像処理装置及び画像処理プログラム
JP6409423B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160613

R150 Certificate of patent or registration of utility model

Ref document number: 5962419

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350