JP2012022601A - 文書処理装置及びプログラム - Google Patents

文書処理装置及びプログラム Download PDF

Info

Publication number
JP2012022601A
JP2012022601A JP2010161525A JP2010161525A JP2012022601A JP 2012022601 A JP2012022601 A JP 2012022601A JP 2010161525 A JP2010161525 A JP 2010161525A JP 2010161525 A JP2010161525 A JP 2010161525A JP 2012022601 A JP2012022601 A JP 2012022601A
Authority
JP
Japan
Prior art keywords
comparison
descriptions
comparison source
destination
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010161525A
Other languages
English (en)
Other versions
JP5499970B2 (ja
Inventor
Kumi Fujiwara
久美 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2010161525A priority Critical patent/JP5499970B2/ja
Priority to US13/036,056 priority patent/US8526744B2/en
Publication of JP2012022601A publication Critical patent/JP2012022601A/ja
Application granted granted Critical
Publication of JP5499970B2 publication Critical patent/JP5499970B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Abstract

【課題】文書に含まれ順序が明らかでない複数の記述と、他の文書とから、記述の最適な順序を予測する場合よりその文書と他の文書との相違を精度良く検出すること。
【解決手段】文書処理装置は、比較元となる文書から取得される複数の比較元記述からなる比較元データであって、それぞれ前記複数の比較元記述が順序付けられてなる複数の比較元データを取得する比較元データ取得手段と、それぞれ比較先となる文書から取得される1または複数の比較先データを取得する比較先データ取得手段と、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せについての当該相違に基づいて比較結果を出力する比較結果出力手段と、を含む。
【選択図】図13

Description

本発明は文書処理装置及びプログラムに関する。
特許文献1には、文書の画像の更新履歴を管理する文書管理装置が開示されている。この画像文書管理装置では、スキャナで読み取った2つの文書の画像のそれぞれを複数の領域に分割し、2つの文書で対応する2つの領域間で画像もしくはOCR処理された文字が一致するか判断し、一致しない領域があればそれについて更新履歴を作成する。
特開2008−146104号公報
本発明の目的は、文書に含まれ順序が明らかでない複数の記述と、他の文書とから、記述の最適な順序を予測する場合よりその文書と他の文書との相違を精度良く検出することのできる文書処理装置およびプログラムを提供することである。
請求項1に記載の発明は文書処理装置であって、比較元となる文書から取得される複数の比較元記述からなる比較元データであって、それぞれ前記複数の比較元記述が順序付けられてなる複数の比較元データを取得する比較元データ取得手段と、それぞれ比較先となる文書から取得される1または複数の比較先データを取得する比較先データ取得手段と、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せについての当該相違に基づいて比較結果を出力する比較結果出力手段と、を含むことを特徴とする。
請求項2に記載の発明は請求項1に記載の発明において、前記複数の比較元記述のそれぞれは、前記文書の画像上の互いに異なる領域から取得される、ことを特徴とする。
請求項3に記載の発明は請求項2に記載の発明において、前記比較元データ取得手段は、前記複数の比較元記述が取得される領域の配置に基づいて、それぞれ当該複数の比較元記述が順序づけられてなる複数の比較元データを生成する、ことを特徴とする。
請求項4に記載の発明は請求項1から3のいずれかに記載の発明において、前記比較先データ取得手段は、比較先となる文書から取得される複数の比較先記述からなる比較先データであって、それぞれ前記複数の比較先記述が順序づけられてなる1または複数の比較先データを生成し取得する、ことを特徴とする。
請求項5に記載の発明は請求項4に記載の発明において、前記複数の比較元記述と前記複数の比較先記述とに基づいて、前記複数の比較元記述と前記複数の比較先記述とを共通の区分で分類する記述分類手段をさらに含み、前記比較元データ取得手段は前記比較元記述を順序づけてなる複数の比較元データを前記区分ごとに生成し、前記比較先データ取得手段は前記比較先記述を順序づけてなる1または複数の比較先データを前記区分ごとに生成し、前記比較結果出力手段は、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち当該比較元データと当該比較先データとの相違の量が最も小さい組合せを前記区分ごとに選択し、前記各区分において前記選択された組合せについての前記相違に基づいて比較結果を出力する、ことを特徴とする。
請求項6に記載の発明は請求項5に記載の発明において、前記記述分類手段は、前記複数の比較元記述のうち対応する比較先記述を有する2つの比較元記述の間にある複数の比較元記述と、当該2つの比較元記述に対応する2つの比較先記述の間にある複数の比較先記述とを共通の区分に分類する、ことを特徴とする。
請求項7に記載の発明は請求項4に記載の発明において、前記比較元データ生成手段は、複数の比較元記述のうち対応する比較先記述を有する1または複数の比較元記述以外の比較元記述を順序づけてなる比較元データを生成し、前記比較先データ生成手段は、対応する比較先記述を有する前記1または複数の比較元記述に対応する比較先記述以外の比較先記述を順序づけてなる比較先データを生成する、ことを特徴とする。
請求項8に記載の発明は、比較元となる文書から取得される複数の比較元記述からなる比較元データであって、それぞれ前記複数の比較元記述が順序付けられてなる複数の比較元データを取得する比較元データ取得手段、それぞれ比較先となる文書から取得される1または複数の比較先データを取得する比較先データ取得手段、および、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せについての当該相違に基づいて比較結果を出力する比較結果出力手段、としてコンピュータを機能させるためのプログラムである。
請求項1,8に記載の発明によれば、一の文書に含まれ順序が明らかでない複数の記述と、他の文書とから、記述の最適な順序を予測する場合より一の文書と他の文書との相違を精度良く検出することができる。
請求項2に記載の発明によれば、一の文書の画像上の複数の領域に含まれ順序が明らかでない複数の記述と、他の文書とから一の文書と他の文書との相違を検出することができる。
請求項3に記載の発明によれば、一の文書の画像上の複数の領域に含まれ順序が明らかでない複数の記述と他の文書とから本構成を有しない場合より少ない計算量で一の文書と他の文書との相違を精度良く検出することができる。
請求項4に記載の発明によれば、一の文書に含まれ順序が明らかでない複数の記述と、他の文書に含まれ順序が明らかでない記述とから、記述の最適な順序を予測する場合より一の文書と他の文書との相違を精度良く検出することができる。
請求項5に記載の発明によれば、含まれる記述が互いに共通の区分で分類される2つの文書に含まれる複数の記述から、本構成を有しない場合より少ない計算量で一の文書と他の文書との相違を精度良く検出することができる。
請求項6に記載の発明によれば、互いに対応する記述を含む2つの文書であってそれらの間にある記述が共通の区分に分類される2つの文書に含まれる複数の記述から、本構成を有しない場合より少ない計算量で2つの文書の相違を精度良く検出することができる。
請求項7に記載の発明によれば、互いに対応する記述を含む2つの文書に含まれる複数の記述から、本構成を有しない場合より少ない計算量で一の文書と他の文書との相違を検出することができる。
本発明の実施形態にかかる文書作成システムの概要の一例を示す図である。 本発明の実施形態にかかる文書処理装置の構成の一例を示す図である。 本発明の実施形態にかかる文書処理装置が実現する機能を示す機能ブロック図である。 比較先となる文書の画像の一例を示す図である。 比較元となる文書の画像の一例を示す図である。 図4に示す画像上の各領域から取得された記述の情報の一例を示す図である。 図5に示す画像上の各領域から取得された記述の情報の一例を示す図である。 記述分類部の処理フローを示す図である。 比較先記述のグループの一例を示す図である。 文字の属性により分類された比較元記述と比較先記述のグループの例を示す図である。 比較元データの順序付けの例を示す図である。 比較元記述または比較先記述を順序づける方法の一例を説明する図である。 組合せ生成部、相違量計算部および組合せ選択部の処理フローを示す図である。 2番目のグループの1番目の組合せにおける比較元データと比較先データとの相違を示す図である。 2番目のグループの2番目の組合せにおける比較元データと比較先データとの相違を示す図である。 比較結果が出力された画像の一例を示す図である。 比較先となる文書の画像の他の例を示す図である。 比較元となる文書の画像の他の例を示す図である。
以下、本発明の実施形態について図面に基づき詳細に説明する。図1は、本発明の実施形態にかかる文書作成システムの概要の一例を示す図である。本図に示す文書管理システムは、文書処理装置1と、印刷装置2と、読取装置3と、を含む。
文書処理装置1は、機能的に印刷用画像データ生成部60と比較部50とを含む。印刷用画像データ生成部60は、テキストファイルのように文字コードを含む文書ファイル6から印刷用の画像の情報を生成し、その情報を印刷用の画像データファイル7として出力する。印刷装置2は印刷用の画像データファイル7を取得し、紙などの記録媒体8上にその画像を印刷する。読取装置3は記録媒体8に掲載された画像を読取り、その画像の情報である画像データファイル9を生成する。上述の一連の処理は1つ1つの文書ファイルに対して行われる。互いに異なる2つの文書ファイルに上述の一連の処理を行うと2つの読取り後の画像データファイル9ができる。比較部50はその2つの画像データファイル9を取得し、比較結果を出力する。ここで、比較部50が取得する文書の情報は必ずしも記録媒体8から読み取られた画像の情報(画像データファイル9)でなくてもよい。例えば2つの印刷用の画像の情報(画像データファイル7)であってもよいし、一方が印刷用の画像の情報(画像データファイル7)で他方が読取り後の画像の情報(画像データファイル9)であってもよい。
図2は、本発明の実施形態にかかる文書処理装置1の構成の一例を示す図である。本図に示すように、文書処理装置1は、CPU11と、記憶部12と、通信部13と、入出力部14とを含んでいる。文書処理装置1は例えばパーソナルコンピュータによって構成されている。
CPU11は、記憶部12に格納されているプログラムに従って動作する。なお、上記プログラムは、CD−ROMやDVD−ROM等の情報記録媒体に格納されて提供されるものであってもよいし、インターネット等のネットワークを介して提供されるものであってもよい。
記憶部12は、RAMやROM等のメモリ素子およびハードディスクドライブ等によって構成されている。記憶部12は、上記プログラムを格納する。また、記憶部12は、各部から入力される情報や演算結果を格納する。
通信部13は、他の装置と通信接続するための通信手段等で構成されている。通信部13は、CPU11の制御に基づいて、印刷装置2などの装置に情報を送信し、読取装置3などから受信した情報をCPU11や記憶部12に入力する。
入出力部14は、モニタ等の表示出力手段や、キーボード、マウス等の入力手段などを制御する手段によって構成されている。入出力部14は、CPU11の制御に基づいて、画像データ等をモニタ等に対して出力し、キーボードやマウスより操作者からの情報を取得する。なお、印刷装置2や読取装置3はプリンタケーブル等を介して入出力部14に接続されてもよい。
図3は、本発明の実施形態にかかる文書処理装置1が実現する機能を示す機能ブロック図である。本図は特に文書処理装置1の比較部50に含まれる機能を示している。文書処理装置1は、記述取得部51と、記述分類部52と、比較元データ取得部53と、比較先データ取得部54と、組合せ生成部55と、相違量計算部56と、組合せ選択部57と、比較結果出力部58と、を含む。これらの機能はCPU11が記憶部12に格納されたプログラムを実行し、通信部13および入出力部14を制御することによって実現される。
記述取得部51は、CPU11、記憶部12、通信部13を中心として実現される。記述取得部51は、比較先となる文書から複数の記述(以下では比較先記述と記す)を取得し、比較元となる文書から複数の記述(以下では比較元記述と記す)を取得する。より具体的には記述取得部51は読取装置3から比較先となる文書および比較元となる文書の画像を取得し、比較先となる文書の画像から複数の記述(以下では比較先記述と記す)を取得し、また比較元となる文書の画像から複数の記述(以下では比較元記述と記す)を取得する。記述取得部51は取得した比較先記述と比較元記述とを記憶部12に記憶する。
以下では具体的な例を用いて記述取得部51の動作を説明する。図4は比較先となる文書の画像の一例を示す図である。図5は比較元となる文書の画像の一例を示す図である。記述取得部51は、比較先となる文書の画像や比較元となる文書の画像を互いに分離された複数の領域に区分する。画像上の領域を区分する方法としては、OCR処理等に含まれる公知のレイアウト解析技術を用いればよい。図4に示す例では比較先となる画像はa1からa7までの7つの矩形の領域に区分され、図5に示す例では比較元となる画像はb1からb9までの9つの矩形の領域に区分される。なお、文字列の違いや印刷もしくは読取誤差などに伴い比較先と比較元のうち一方の文書の画像では1つの領域として認識される文字列が、他方の画像では複数の領域にまたがる文字列として認識される場合がある。図4および図5の例では例えば比較先の画像のa4の領域と比較元の画像のb5およびb7の領域との関係がこれにあたる。本実施形態では複数行にわたる文字列であっても行が異なれば異なる領域に区分する。
また記述取得部51は、それぞれの記述が取得された領域の位置、大きさ、記述の文字列および文字の属性(例えばフォントサイズや装飾)などといった記述の情報を取得する。図6は図4に示す画像上の各領域から取得された記述の情報の一例を示す図であり、図7は図5に示す画像から認識された各領域の記述の情報の一例を示す図である。図6および図7に示す例では、記述取得部51は各記述の情報として、領域の識別子、矩形の領域の左上の座標を取得し、各領域の縦横のサイズの情報を取得する。また各記述の情報として太字、斜体、下線といった文字の装飾の情報やフォントサイズも取得する。
記述分類部52は、CPU11、記憶部12を中心として実現される。記述分類部52は、複数の比較元記述と複数の比較先記述とに基づいて、その複数の比較元記述と複数の比較先記述とを共通の区分で分類する。図8は、記述分類部52の処理フローを示す図である。はじめに記述分類部52は、互いに対応する比較元記述と比較先記述との組を探す(ステップS101)。より具体的には、例えば比較元記述と比較先記述との間で文字列や文字の属性などの記述の要素が一致するもの同士を互いに対応する比較元記述と比較先記述として検出する。以下では文字列が一致するものどうしを検出する場合について説明する。図6および図7の例では、記述分類部52は領域a1の記述と領域b1の記述の組、領域a3の記述と領域b3の記述の組、および領域a7の記述と領域b9の記述の組を検出する。なお比較元記述もしくは比較先記述の文字列が予め定められた文字数以上である比較元記述と比較先記述の組のみを検出するようにしてもよい。その場合、ユーザがみると対応する記述でないが文字列が偶然一致するとわかるような比較元記述と比較先記述の組を誤検出する可能性が低くなる。
次に記述分類部52は検出された組に含まれる比較元記述と比較先記述とを以降の処理の対象から除外する(ステップS102)。検出された組に含まれる比較元記述と比較先記述とは、分類の対象から除外され、さらに比較元データ取得部53や比較先データ取得部54の処理対象からも除外される。記述分類部52は、除外されなかった比較元記述と、比較先記述とのそれぞれをグループに分類する(ステップS103)。記述分類部52は例えばステップS101で検出された複数の比較元記述のうちの2つの間にある比較元記述を1つのグループとし、同様にステップS101で検出された複数の比較先記述のうち2つの間にある比較先記述を1つのグループとする。図9は比較先記述のグループの一例を示す図である。ステップS101で検出された比較先記述の領域である領域a1、a3、a7について、対応する比較元記述を有する領域のなかで隣り合う領域である領域a1と領域a3との間にある領域a2の記述が比較先記述の1つ目のグループga1として分類され、同様に領域a3と領域a7との間にある領域a4,a5,a6の記述が比較先記述の2つ目のグループga2として分類される。対応する比較先記述を有する比較元記述の間にある比較元記述であるか否かは、横書きの文書の場合はその記述を取得した領域の左上の位置のy座標の大小によって定める。図9に示す場合は領域a3のy座標の値ya3より大きく領域a7のy座標の値ya7より小さいy座標の値をもつ領域a4,a5,a6の記述をグループとして認識する。また縦書きの文書や2段組の文書などの場合には、領域のx座標の値も用いて比較先記述のグループを分類してよい。また同様の方法で比較元記述のグループも分類される。
そして記述分類部52は比較元記述のグループと比較先記述のグループとを対応付けし同じ区分とする(ステップS104)。より具体的にはステップS101で検出された隣り合う2つの比較元記述の間にある比較元記述のグループと、その2つの比較元記述に対応する2つの比較先記述の間にある複数の比較先記述のグループとが対応させて、同じ区分とする。本実施形態の例では対応する比較元記述のグループと比較先記述のグループとに同じ順序をつけることで同じ区分に分類している。図4および図5の例では、領域a2の比較先記述からなるグループga1と領域b2の比較元記述からなるグループgb1とが対応づけられ、どちらも1番目のグループとして分類される。領域a4からa6の比較先記述からなるグループga2と領域b4からb8の比較元記述からなるグループgb2とが対応づけられ、どちらも2番目のグループとして分類される。
なお記述分類部52は、ステップS101において文字の属性が同じ比較元記述と比較先記述の組を検出してもよい。文書そのものの題名や章の見出しなどで用いるフォントサイズや下線などの装飾を他の記載と異ならせており、さらに比較元の文書と比較先の文書とで共通の装飾を行っている場合、装飾から互いに対応する比較元記述と比較先記述の組が取得される。図10は文字の属性により分類された比較元記述と比較先記述のグループの例を示す図である。図10の左側が比較先の文書の画像であり、右側が比較元の文書の画像である。本図では領域c1の比較先記述の文字列「AAA」と、領域d1の比較元記述の文字列「AABC」とは異なるものの、フォントサイズが等しく同じ下線の文字装飾がされているので、対応する比較先記述と比較元記述として検出される。また領域c1の比較先記述と領域d4の比較元記述とも同様にして対応する比較先記述と比較元記述として検出される。結果として、領域c1と領域c3の間にある領域c2の比較先記述と、領域d1と領域d4の間にある領域d2,d3の比較元記述とが同じ区分のグループに分類される。なお、この場合は互いに対応する比較先記述と比較元記述とをステップS103以降の処理の対象としてもよい。
比較元データ取得部53は、CPU11、記憶部12を中心として実現される。比較元データ取得部53は、複数の比較元記述を順序づけてなる複数の比較元データを前記区分ごとに生成して取得する。なお、あるグループに着目すると比較元データ取得部53はそれぞれ複数の比較元記述の少なくとも一部が順序付けられてなる複数の比較元データを生成し取得している。また比較先データ取得部54は、CPU11、記憶部12を中心として実現される。比較先データ取得部54は、複数の比較先記述を順序づけてなる複数の比較先データを前記区分ごとに生成して取得する。なお、あるグループにおける処理内容に着目すると比較先データ取得部54はそれぞれ複数の比較先記述の少なくとも一部が順序付けられてなる複数の比較先データを生成し取得している。比較元データ取得部53と比較先データ取得部54の処理内容との違いは、比較元データ取得部53の入力が比較元記述のグループで出力が比較元データであり、比較先データ取得部54の入力が比較先記述のグループで出力が比較先データである点である。
比較元データ取得部53は、その比較元記述が取得される領域の配置に基づいて比較元記述を順序付けし、複数の比較元データを生成する。同様に比較先データ取得部54は、その比較先記述が取得される領域の配置に基づいて比較先記述を順序付けし、1または複数の比較先データを生成する。領域の配置を用いて順序付けするには、各比較元記述または比較先記述が取得された領域の左上の座標などを用いる。例えば比較元データ取得部53は、1つの比較元データを生成する際には各記述が取得された領域のx座標が小さいものから順序づけ、さらにx座標が同じものの間ではy座標が小さいものから順序づける。もう1つの比較元データを生成する際には各記述が取得された領域のy座標が小さいものから順序付け、さらにy座標が同じものの間ではx座標が小さいものから順序づける。比較先データ取得部54も同様である。以下ではこの処理を図4から7に示す例で行った場合について説明する。図11は比較元データの順序付けの例を示す図である。領域b4,b5,b6のx座標が等しく、領域b7,b8のx座標が等しいとした場合、2番目の比較元記述のグループgb2での比較元記述の順序は、前者の方法で順序付けを行うと、b4,b5,b6,b7,b8の順(図中実線矢印)となり、後者の方法の場合で順序付けを行うと、b4,b5,b7,b6,b8の順(図中破線矢印)となる。得られる2番目のグループの比較元データの数は2である。ここで領域の識別子を記述の識別子として記している。一方、比較先記述の2番目のグループga1では前者の方法で順序付けを行っても後者の方法で割付を行ってもa4,a5,a6の順となる。よって得られる2番目のグループの比較先データの数は1である。
ここで、比較元データや比較先データを生成する際の順序付けする際に、各領域のサイズを考慮するようにしてもよい。この方法では、1つの比較元データを生成する際には各領域のy座標が小さい記述からいくつかの行候補集合を順に生成し、若い行候補集合に属する記述から順序づけるが、さらに同じ行候補集合に属するものの中ではx座標が小さいものから順序づける。もう1つの比較元データを生成する際には各記述の領域のx座標が小さいものからいくつかの列候補集合を順に生成し、若い列候補集合に属する記述から順序づけるが、同じ列候補集合に属するものの中ではy座標が小さいものから順序づける。図12は、比較元記述または比較先記述を順序付ける方法の一例を示す図である。例えば、以下の条件を満たす領域akとahとを行候補集合にする。
xak+wak ≦ xah
|yak−yah| ≦ max(hak,hah)
こうすると、複数の記述の領域の間でy座標の位置がずれていてもy方向に投影してみると領域が重なっている2つの記述は同じ行候補として扱われる。本実施形態のように、記述の配置の情報を用いると、生成する比較元データの数が少なくなり、以降の計算量も少なくなる。また配置を用いる場合は位置が近いものが連続するといった法則に反する比較元データまたは比較先データが排除される。比較元データ取得部53および比較先データ取得部54は、配置の情報を用いずに記述の全ての順列を用いて比較元データあるいは比較先データを生成してもよい。
また、比較元データと比較先データの両方を順序付けにより生成しなくてもよい。例えば、2つの文書の画像のうち、認識された領域の数が多い方のデータ(これを比較元データと決めてもよい)だけを順序付けにより生成してもよい。このとき、領域の数の少ない方のデータ(これを比較先データと決めてもよい)を、記述取得部51が記述の情報を取得する順番をそのまま利用して生成してよい。なお、記述分類部52で記載したように、複数の比較元記述のうち対応する比較先記述を有する1または複数の比較元記述を順序付けの対象から除外している。
本実施形態では上述のように複数行にわたる文字列であっても行が異なれば異なる領域に区分している。そうすると例えば図5に示す領域b5とb6とが1つの領域と認識されることが防がれ、順序付けにより比較元データのうち少なくとも1つにおける複数の記述の文字列の並びが比較先データの記述の文字列の並びと同じになる。
図13は、組合せ生成部55、相違量計算部56および組合せ選択部57の処理フローを示す図である。組合せ生成部55はCPU11、記憶部12を中心として実現される。組合せ生成部55は、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せをグループの区分ごとに生成する。より具体的には、はじめに組合せ生成部55は、変数iに1を代入する(ステップS201)。次に組合せ生成部55は、i番目のグループについて比較元データと比較先データとの全ての組合せを生成する(S202)。組合せの数は、(比較元データの数)×(比較先データの数)となる。図4から7に示す例の2番目のグループの場合、比較元データの数が2、比較先データの数が1なので、組合せの数は2となる。
相違量計算部56はCPU11、記憶部12を中心として実現される。相違量計算部56は前記各組合せについて比較元データと比較先データとの相違の量を計算する。はじめに相違量計算部56は変数jに1を代入する(ステップS203)。次に相違量計算部56は、j番目の組合せについて比較元データと比較先データとを比較する(ステップS204)。比較は、組合せを構成する比較元データや比較先データにおける文字列やフォントサイズ、太字の装飾があるか否か、斜体の装飾があるか否か、下線の装飾があるか否かなどの点について行われる。なお比較元データや比較先データにおける文字列は順序付けられた各記述の文字列がその順序付けされた順番で並べられたものである。図14は、2番目のグループの1番目の組合せにおける比較元データと比較先データとの相違を示す図である。本図では文字列の比較結果が不一致であることが検出されている。次に相違量計算部56は各組合せにおける相違の量を計算する(ステップS205)。例えば相違量計算部56は文字列、フォントサイズ、太字の装飾などの各要素についての相違の大きさを要素値として求め、さらに各要素値を重み付けして対合わせた値をその組合せの相違の量とする。文字列の要素については、一方の文字列から他方の文字列に変えるよう編集するのに必要な編集コストを相違量の要素値とする。具体的には挿入、削除、移動を行う場合のコストは1文字あたり1とし、置換を行う場合のコストは1文字あたり2として集計して編集コストを求める。図14の例では、挿入3文字、削除3文字、移動2文字であるので変数コストは8である。また、装飾については、一致する場合に予め定められた要素値を設定するようにしてもよいし、一致する文字数を要素値としてもよい。各要素の重みが1であるとすると、図14に示す組合せの相違の量は8である。図15は2番目のグループの2番目の組合せにおける比較元データと比較先データとの相違を示す図である。図15に示す組合せの相違の量は6となる。
次に相違量計算部56は相違の量を計算した組合せがこのグループにおいて最後の組合せでなければ(ステップS206のN)jを1増やして(ステップS207)ステップS204以降の処理を繰り返す。その組合せが最後の組合せであれば(ステップS206のY)、次のステップS208の処理に進む。
組合せ選択部57はCPU11、記憶部12を中心として実現される。組合せ選択部57は複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せを選択し、記憶部12に記憶する(ステップS208)。図14および図15に示す例では、2番目のグループでは2番目の組合せにおける比較元データと比較先データとの相違の量が小さいので、この組合せが選択され、比較結果が記憶部12に記憶される。そして処理しているグループが最後のグループでなければ(ステップS209のN)、iを1増やして(ステップS210)ステップS202以降の処理を繰り返す。処理しているグループが最後のグループであれば、組合せ生成部55、相違量計算部56、および組合せ選択部57で行う処理は終了する。
比較結果出力部58はCPU11、記憶部12、入出力部14を中心として実現される。比較結果出力部58は、組合せ選択部57で選択されたグループの各区分における組合せについての比較元データと比較先データの相違に基づいて、比較結果を出力する。図16は比較結果が出力された画像の一例を示す図である。左側が比較先の文書であり、右側が比較元の文書である。図16の例では不一致となった文字の背景を変化させて出力している。文字そのものの色を変化させて出力してもよい。なお、不一致のあった比較元データのグループに含まれる記述の背景の色を変化させるようにしてもよい。また、一方の文書のみを表示し、相違のある箇所のみ、その相違の文字がわかるように表示してもよい。また比較元の文書も比較先の文書も表示せず、相違のある部分の文字列とその位置とを出力してもよい。
なお、本実施形態にかかる文書処理装置1では、比較する2つの文書のレイアウトが2段組の文書と1段組の文書とで異なる場合でも比較結果が出力される。図17は比較先となる文書の画像の他の例を示す図であり、図18は比較元となる文書の画像の他の例を示す図である。記述取得部51はこの例において複数行にわたる文字列であっても行が異なれば異なる領域に区分する。すると1段組の比較先の文書からa1、a2、a3の比較先記述が取得され、2段組の比較元の文書からb1、b2、b3、b4、b5、b6の比較元記述が取得される。これらから比較先データ取得部54はa1、a2、a3の順で順序づけられた記述からなる比較先データを生成し、比較元データ取得部53は少なくともb1、b2、b3、b4、b5、b6の順で順序づけられた記述からなる比較元データを生成する。すると、相違量計算部56は上述の比較元データと比較先データとの組合せについて比較を行い、それは他の組合せより相違の量が小さいことが明らかなので、比較結果出力部58はその組合せについての相違を比較結果として出力する。
1 文書処理装置、2 印刷装置、3 読取装置、6 文書ファイル、7,9 画像データファイル、8 記録媒体、11 CPU、12 記憶部、13 通信部、14 入出力部、50 比較部、51 記述取得部、52 記述分類部、53 比較元データ取得部、54 比較先データ取得部、55 組合せ生成部、56 相違量計算部、57 組合せ選択部、58 比較結果出力部、60 印刷用画像データ生成部。

Claims (8)

  1. 比較元となる文書から取得される複数の比較元記述からなる比較元データであって、それぞれ前記複数の比較元記述が順序付けられてなる複数の比較元データを取得する比較元データ取得手段と、
    それぞれ比較先となる文書から取得される1または複数の比較先データを取得する比較先データ取得手段と、
    前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せについての当該相違に基づいて比較結果を出力する比較結果出力手段と、
    を含むことを特徴とする文書処理装置。
  2. 前記複数の比較元記述のそれぞれは、前記文書の画像上の互いに異なる領域から取得される、
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 前記比較元データ取得手段は、前記複数の比較元記述が取得される領域の配置に基づいて、それぞれ当該複数の比較元記述が順序づけられてなる複数の比較元データを生成する、
    ことを特徴とする請求項2に記載の文書処理装置。
  4. 前記比較先データ取得手段は、比較先となる文書から取得される複数の比較先記述からなる比較先データであって、それぞれ前記複数の比較先記述が順序づけられてなる1または複数の比較先データを生成し取得する、
    ことを特徴とする請求項1から3のいずれか一項に記載の文書処理装置。
  5. 前記複数の比較元記述と前記複数の比較先記述とに基づいて、前記複数の比較元記述と前記複数の比較先記述とを共通の区分で分類する記述分類手段をさらに含み、
    前記比較元データ取得手段は前記比較元記述を順序づけてなる複数の比較元データを前記区分ごとに生成し、
    前記比較先データ取得手段は前記比較先記述を順序づけてなる1または複数の比較先データを前記区分ごとに生成し、
    前記比較結果出力手段は、前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち当該比較元データと当該比較先データとの相違の量が最も小さい組合せを前記区分ごとに選択し、前記各区分において前記選択された組合せについての前記相違に基づいて比較結果を出力する、
    ことを特徴とする請求項4に記載の文書処理装置。
  6. 前記記述分類手段は、前記複数の比較元記述のうち対応する比較先記述を有する2つの比較元記述の間にある複数の比較元記述と、当該2つの比較元記述に対応する2つの比較先記述の間にある複数の比較先記述とを共通の区分に分類する、
    ことを特徴とする請求項5に記載の文書処理装置。
  7. 前記比較元データ生成手段は、複数の比較元記述のうち対応する比較先記述を有する1または複数の比較元記述以外の比較元記述を順序づけてなる比較元データを生成し、
    前記比較先データ生成手段は、対応する比較先記述を有する前記1または複数の比較元記述に対応する比較先記述以外の比較先記述を順序づけてなる比較先データを生成する、
    ことを特徴とする請求項4に記載の文書処理装置。
  8. 比較元となる文書から取得される複数の比較元記述からなる比較元データであって、それぞれ前記複数の比較元記述が順序付けられてなる複数の比較元データを取得する比較元データ取得手段、
    それぞれ比較先となる文書から取得される1または複数の比較先データを取得する比較先データ取得手段、および、
    前記比較元データのうち1つと前記比較先データのうち1つとからなる複数の組合せのうち前記比較元データと前記比較先データとの相違の量が最も小さい組合せについての当該相違に基づいて比較結果を出力する比較結果出力手段、
    としてコンピュータを機能させるプログラム。
JP2010161525A 2010-07-16 2010-07-16 文書処理装置及びプログラム Active JP5499970B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010161525A JP5499970B2 (ja) 2010-07-16 2010-07-16 文書処理装置及びプログラム
US13/036,056 US8526744B2 (en) 2010-07-16 2011-02-28 Document processing apparatus and computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010161525A JP5499970B2 (ja) 2010-07-16 2010-07-16 文書処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2012022601A true JP2012022601A (ja) 2012-02-02
JP5499970B2 JP5499970B2 (ja) 2014-05-21

Family

ID=45467051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010161525A Active JP5499970B2 (ja) 2010-07-16 2010-07-16 文書処理装置及びプログラム

Country Status (2)

Country Link
US (1) US8526744B2 (ja)
JP (1) JP5499970B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239320A (zh) * 2013-06-14 2014-12-24 深圳中兴网信科技有限公司 一种数据合并方法及系统
JP2016024528A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及びデジタル検版方法
JP7484198B2 (ja) 2020-02-03 2024-05-16 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10296788B1 (en) * 2016-12-19 2019-05-21 Matrox Electronic Systems Ltd. Method and system for processing candidate strings detected in an image to identify a match of a model string in the image
CN108664957B (zh) * 2017-03-31 2021-08-24 杭州海康威视数字技术股份有限公司 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN112395852A (zh) * 2020-12-22 2021-02-23 江西金格科技股份有限公司 多文件格式版式文档的对比方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282969A (ja) * 2008-04-25 2009-12-03 Dainippon Hourei Printing Co Ltd 書籍掲載文書の電子的な編集・内容変更システム、書籍掲載文書の電子的な編集・内容変更プログラムおよび書籍作成システム
JP2010146373A (ja) * 2008-12-19 2010-07-01 Fuji Xerox Co Ltd 画像処理プログラム、画像処理装置及び画像処理システム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7055095B1 (en) * 2000-04-14 2006-05-30 Picsel Research Limited Systems and methods for digital document processing
AU2001290827A1 (en) * 2000-09-15 2002-03-26 Vincero, Llc System and method for creating a cost-effective and efficient retail electric power exchange/energy service provider load optimization exchange and network therefor
US6980698B2 (en) * 2002-07-22 2005-12-27 Xerox Corporation Image finder method and apparatus for pixography and other photo-related reproduction applications
JP4196824B2 (ja) * 2003-12-25 2008-12-17 沖電気工業株式会社 情報区分装置、情報区分方法及び情報区分プログラム
JP2006107142A (ja) * 2004-10-05 2006-04-20 Canon Inc 文書処理装置及び方法
EP1901179A1 (en) * 2005-06-24 2008-03-19 JustSystems Corporation Document processing device, and document processing method
WO2007034858A1 (ja) * 2005-09-22 2007-03-29 Justsystems Corporation データ管理装置、データ編集装置、データ閲覧装置、データ管理方法、データ編集方法およびデータ閲覧方法
JP2008146104A (ja) 2006-12-05 2008-06-26 Canon Inc 画像文書管理装置及び画像文書管理方法
JP4436454B2 (ja) * 2007-07-03 2010-03-24 キヤノン株式会社 画像処理装置、画像処理方法、そのプログラム及び記憶媒体
JP5031472B2 (ja) * 2007-07-23 2012-09-19 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
JP5040543B2 (ja) 2007-09-12 2012-10-03 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置、画像形成システム、画像処理方法及び画像処理プログラム
JP5031641B2 (ja) * 2008-03-31 2012-09-19 富士通株式会社 パターンの位置合わせ方法、照合方法及び照合装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282969A (ja) * 2008-04-25 2009-12-03 Dainippon Hourei Printing Co Ltd 書籍掲載文書の電子的な編集・内容変更システム、書籍掲載文書の電子的な編集・内容変更プログラムおよび書籍作成システム
JP2010146373A (ja) * 2008-12-19 2010-07-01 Fuji Xerox Co Ltd 画像処理プログラム、画像処理装置及び画像処理システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239320A (zh) * 2013-06-14 2014-12-24 深圳中兴网信科技有限公司 一种数据合并方法及系统
CN104239320B (zh) * 2013-06-14 2017-09-19 深圳中兴网信科技有限公司 一种数据合并方法及系统
JP2016024528A (ja) * 2014-07-17 2016-02-08 富士フイルム株式会社 情報処理装置、プログラム、及びデジタル検版方法
JP7484198B2 (ja) 2020-02-03 2024-05-16 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム

Also Published As

Publication number Publication date
JP5499970B2 (ja) 2014-05-21
US20120014612A1 (en) 2012-01-19
US8526744B2 (en) 2013-09-03

Similar Documents

Publication Publication Date Title
US10846524B2 (en) Table layout determination using a machine learning system
US9886669B2 (en) Interactive visualization of machine-learning performance
JP6277818B2 (ja) 機械学習装置、機械学習方法、及びプログラム
JP2019091434A (ja) 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
JP6838209B1 (ja) 文書画像解析装置、文書画像解析方法およびプログラム
CN102782702B (zh) 在光学字符识别(ocr)过程中的段落识别
JP5499970B2 (ja) 文書処理装置及びプログラム
GB2569418A (en) Using deep learning techniques to determine the contextual reading order in a document
JP6955434B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
CN102870399A (zh) 在ocr过程中将词语位图分割为单个字符或字形
US20170132484A1 (en) Two Step Mathematical Expression Search
CN112329548A (zh) 一种文档章节分割方法、装置及存储介质
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP5623574B2 (ja) 帳票識別装置および帳票識別方法
JP2008108114A (ja) 文書処理装置および文書処理方法
JP5387378B2 (ja) 文字同定装置及び文字同定方法
US20210019554A1 (en) Information processing device and information processing method
JP2010102734A (ja) 画像処理装置及びプログラム
JP6931168B2 (ja) 情報処理装置、制御方法、プログラム
JP4517822B2 (ja) 画像処理装置及びプログラム
JP2011141664A (ja) 文書比較装置、文書比較方法、及びプログラム
JP2009288994A (ja) 帳票出力管理装置及び帳票出力管理方法
KR20220142901A (ko) 반정형 문서로부터 정보를 추출하는 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140225

R150 Certificate of patent or registration of utility model

Ref document number: 5499970

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350