JP2017102587A

JP2017102587A - 情報処理装置、画像読み取り装置、画像形成装置、および、プログラム

Info

Publication number: JP2017102587A
Application number: JP2015233805A
Authority: JP
Inventors: 照花斎藤; Teruka Saito; 乂凡張; Yifan Zhang
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2017-06-08

Abstract

【課題】表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できるようにする。【解決手段】（Ａ）、（Ｂ）に示すように、行（列）情報取得部が、各表の行情報および列情報を取得する。次いで、（Ｂ）、（Ｃ）に示すように、セル内文字取得部が、各セルに含まれる文字を取得する。その後、（Ｄ）、（Ｅ）に示すように、見出しセル比較部が、旧表の各列の見出しと新表の各列の見出しとの比較を行い、旧表の各列と新表の各列との対応関係を把握する。【選択図】図４

Description

本発明は、情報処理装置、画像読み取り装置、画像形成装置、および、プログラムに関する。

特許文献１には、元文書の単語テーブルおよび新文書の単語テーブルを比較し、削除および挿入を抽出して差分テーブルに登録する差分検出部を備えた文書処理装置が開示されている。
特許文献２には、比較結果ファイルと元ファイルとは、同じ行番号に同じ情報が設定され、比較結果ファイルを見れば、元ファイルの変更箇所を一見して把握できる技術が開示されている。

特開平８−１９０５５７号公報特開２０１１−１１８７０３号公報

２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する場合、例えば、表を構成する各セルの内容に基づいてこの対応関係を把握できる。しかしながら、各セルの内容は変更されることも多く、セルの内容に基づく対応関係の把握は、把握精度が低下しやすい。
本発明の目的は、表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できるようにすることにある。

請求項１に記載の発明は、行および列を有する表の列見出しおよび／または行見出しの内容を取得する内容取得手段と、第１の表に含まれる各列および／または各行と、当該第１の表とは異なる第２の表に含まれる各列および／または各行との対応関係を、前記内容取得手段により取得された内容に基づき把握する対応関係把握手段と、を備える情報処理装置である。
請求項２に記載の発明は、前記対応関係把握手段により把握された対応関係に基づき、前記第１の表と前記第２の表との差異を検出する差異検出手段を更に備える請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記第１の表に含まれる各列の内容および／または各行の内容と、前記第２の表に含まれる各列の内容および／または各行の内容とに基づき、当該第１の表に含まれる各列および／または各行と、当該第２の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段を更に備える請求項１又は２に記載の情報処理装置である。
請求項４に記載の発明は、前記第１の表および前記第２の表の各々における前記列見出しの範囲および／または前記行見出しの範囲を特定する見出し範囲特定手段を更に備える請求項１乃至３の何れかに記載の情報処理装置である。
請求項５に記載の発明は、前記見出し範囲特定手段は、複数の特定手法を用いて、見出し範囲の特定を行うことを特徴とする請求項４に記載の情報処理装置である。
請求項６に記載の発明は、前記第１の表および前記第２の表の各々に、前記列見出しおよび／または前記行見出しが有るか否かを判定する見出し有無判定手段を更に備え、前記対応関係把握手段は、前記見出し有無判定手段によって見出しが無いと判定された場合、前記第１の表に含まれる各列の内容および／または各行の内容と、前記第２の表に含まれる各列の内容および／または各行の内容とに基づき、当該第１の表に含まれる各列および／または各行と、当該第２の表に含まれる各列および／または各行との対応関係を把握することを特徴とする請求項１に記載の情報処理装置である。
請求項７に記載の発明は、前記見出し有無判定手段は、前記第１の表および前記第２の表の各々に含まれるセルに格納された情報の類似性に基づき、当該第１の表および当該第２の表の各々に、前記列見出しおよび／または前記行見出しが有るか否かを判定することを特徴とする請求項６に記載の情報処理装置である。
請求項８に記載の発明は、行および列を有する表が記載された原稿を読み取ることが可能な画像読み取り手段と、前記画像読み取り手段により得られた読み取り画像から、第１の表および第２の表の２つの表の画像を取得するとともに、取得した当該画像を解析して、当該２つの表の各々の列見出しおよび／または行見出しの内容を取得する内容取得手段と、前記内容取得手段により取得された内容に基づき、前記２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段と、を備える画像読み取り装置である。
請求項９に記載の発明は、行および列を有する表が記載された原稿を読み取ることが可能な画像読み取り手段と、前記画像読み取り手段により得られた読み取り画像から、第１の表および第２の表の２つの表の画像を取得するとともに、取得した当該画像を解析して、当該２つの表の各々の列見出しおよび／または行見出しの内容を取得する内容取得手段と、前記内容取得手段により取得された内容に基づき、前記２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段と、前記対応関係把握手段により把握された対応関係に基づき、前記第１の表と前記第２の表との差異を検出する差異検出手段と、前記差異検出手段による検出結果を示す画像を記録材に形成する画像形成手段と、を備える画像形成装置である。
請求項1０に記載の発明は、行および列を有する表の列見出しおよび／または行見出しの内容を取得する内容取得機能と、第１の表に含まれる各列および／または各行と、当該第１の表とは異なる第２の表に含まれる各列および／または各行との対応関係を、前記内容取得機能により取得された内容に基づき把握する対応関係把握機能と、をコンピュータに実現させるためのプログラムである。

本発明の請求項１によれば、表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できる。
本発明の請求項２によれば、２つの表の差異を検出できるようになる。
本発明の請求項３によれば、列見出しや行見出しが無い場合でも、一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握できるようになる。
本発明の請求項４によれば、見出し範囲の特定を行わずに、内容取得手段による見出しの内容の取得が行われる場合に比べ、見出しの内容の取得をより精度良く行えるようになる。
本発明の請求項５によれば、１つの特定手法を用いて見出し範囲の特定を行う場合に比べ、見出し範囲の特定精度を上げることができる。
本発明の請求項６によれば、列見出しや行見出しが無い場合でも、一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握できるようになる。
本発明の請求項７によれば、２つの表の各々に含まれるセルに格納された情報の類似性を利用して、２つの表の各々に、列見出しおよび／または行見出しが有るか否かを判定できる。
本発明の請求項８によれば、表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できる。
本発明の請求項９によれば、表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できる。
本発明の請求項１０によれば、表を構成する各セルの内容に基づいて対応関係を把握する場合に比べ、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係をより精度よく把握できる。

画像形成装置を示した図である。（Ａ）、（Ｂ）は、差異検出装置の機能ブロックを示した図である。差異検出装置にて行われる処理の流れを示したフローチャートである。（Ａ）〜（Ｅ）は、差異検出装置による具体的な処理を示した図である。（Ａ）〜（Ｄ）は、見出しセルの比較についての他の処理例を示した図である。見出し範囲を特定する場合の処理を示したフローチャートである。（Ａ）、（Ｂ）は、見出し範囲の特定処理を説明する図である。（Ａ）、（Ｂ）は、見出し範囲の特定処理を説明する図である。見出し範囲を多数決により決定する処理の流れを示したフローチャートである。４つの特定手法の各々を順に用いて特定処理を行う場合の処理の流れを示したフローチャートである。多数決による見出し範囲の特定、および、特定手法の各々を順に用いての見出し範囲の特定の両者を用いて、見出し範囲を決定する処理の流れを示したフローチャートである。４つの特定手法による特定処理の具体例を示した図である。（Ａ）、（Ｂ）は、４つの特定手法による特定処理の具体例を示した図である。見出し範囲の特定処理の他の具体例を示した図である。（Ａ）、（Ｂ）は、見出し範囲の特定処理の他の具体例を示した図である。処理の他の具体例を示した図である。文字を比較した場合の一致率を示した図である。（Ａ）、（Ｂ）は、差異検出装置の他の構成例を示した図である。分野辞書を説明する図である。差異検出装置により実行される処理の一例を示した図である。差異検出装置にて行われる他の処理例を示した図である。（Ａ）、（Ｂ）は、見出しの有無の判定の具体例を示した図である。（Ａ）、（Ｂ）は、見出しの有無の判定の他の具体例を示した図である。旧表および新表の一列目を示した図である。見出しの比較順序を示した図である。

以下、添付図面を参照して、本発明の実施の形態について詳細に説明する。
図１は、本実施形態に係る画像形成装置１０を示した図である。
図１に示すように、画像形成装置１０を構成する各機能部は、バス１０１に接続され、このバス１０１を介してデータの授受を行う。
操作部１０６は、ユーザの操作を受け付ける。操作部１０６は、例えば、ハードウェアキーにより構成される。また、例えば、押圧された位置に応じた制御信号を出力するタッチパネルにより構成される。

表示部１０７は、例えば液晶ディスプレイにより構成され、制御部６０の制御の下、画像形成装置１０に関するデータを表示する。また、表示部１０７は、ユーザが画像形成装置１０を操作する際にユーザが参照するメニュー画面を表示する。
画像読み取り手段の一例としての画像読み取り部１０８は、いわゆるスキャナ装置により構成され、セットされた原稿上の画像を読み取り、読み取り画像（画像データ）を生成する。

画像形成手段の一例としての画像形成部１０９は、例えば電子写真方式を用い、画像データに応じたトナー像を、記録材の一例である用紙に形成する。なお、画像形成部１０９では、インクジェットヘッド方式などの他の方式を用いて画像形成を行ってもよい。
通信部１１０は、通信回線（不図示）に接続され、通信回線に接続されている他の装置との通信を行う通信インターフェースとして機能する。

画像処理部１１１は、画像データが表す画像に色補正や階調補正等の画像処理を施す。
制御部６０は、画像形成装置１０の各部を制御する。制御部６０は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）により構成される。

情報処理装置の一例としての差異検出装置２００は、２つの表（後述）の差異を検出する。
差異検出装置２００は、ＣＰＵ（Central Processing Unit）１０２、ＲＯＭ（Read Only Memory）１０３、ＲＡＭ（Random Access Memory）１０４により構成される。さらに差異検出装置２００は、ハードディスク装置などにより構成される記憶部１０５を備える。
ＲＯＭ１０３は、ＣＰＵ１０２により実行されるプログラムを記憶する。ＣＰＵ１０２は、ＲＯＭ１０３に記憶されているプログラムを読み出し、ＲＡＭ１０４を作業エリアにして、プログラムを実行する。

ここで、ＣＰＵ１０２によって実行されるプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリなどのコンピュータが読取可能な記録媒体に記憶した状態で、差異検出装置２００へ提供し得る。また、ＣＰＵ１０２によって実行されるプログラムは、インターネットなどの通信手段を用いて差異検出装置２００にダウンロードしてもよい。

図２（Ａ）、（Ｂ）は、差異検出装置２００の機能ブロックを示した図である。
図２（Ａ）に示す差異検出装置２００は、行（列）情報取得部２０１、セル内文字取得部２０２、見出しセル比較部２０４、結果出力部２０６、差異検出部２０７を備える。
図２（Ｂ）に示す差異検出装置２００は、さらに、見出し範囲特定部２０３、全セル比較部２０５を備える。

行（列）情報取得部２０１は、差異検出装置２００に入力された表を取得する。より具体的には、行（列）情報取得部２０１は、列および行により構成された表を取得する。
より具体的には、行（列）情報取得部２０１は、内容が変更される前の表（第１の表の一例）（以下、「旧表」と称する）と、内容が変更された後の表（第２の表の一例）（内容が変更された可能性がある表）（以下、「新表」と称する）とを取得する。
また、行（列）情報取得部２０１は、表構造解析を行い、旧表および新表のそれぞれについて、行（列）の数などの情報などを取得する。ここで、表構造解析は、公知の技術を用いる。なお、旧表や新表が電子データであり、この電子データ内に表構造情報が含まれている場合は、電子データからこの表構造情報を取得して、行（列）の数などの情報を取得するようにしてもよい。

内容取得手段の一部として機能するセル内文字取得部２０２は、各表に含まれるセル内の文字（文字列）の情報を取得する。言い換えると、セル内文字取得部２０２は、各表に含まれるセルの内容を取得する。

なお、画像読み取り部１０８（図１参照）によるスキャンによって、旧表の画像および新表の画像が取得される場合、セル内文字取得部２０２は、この２つの画像を解析して、文字についての情報を取得する。より具体的には、例えば、この２つの画像のそれぞれについて、文字認識（ＯＣＲ処理）を行い、文字についての情報を取得する。なお、文字認識は公知の手法を用いる。
一方、新表および旧表が、電子データとして画像形成装置１０（図１参照）に入力された場合には、差異検出装置２００は、この電子データを取得する。そして、この電子データを解析して、各表に含まれるセル内の文字の情報を取得する。

内容取得手段の一部として機能する見出しセル比較部２０４は、旧表の見出しのセルの内容と、新表の見出しのセルの内容とを取得する。さらに、見出しセル比較部２０４は、旧表の見出しのセルの内容と、新表の見出しのセルの内容とを比較する。
より具体的には、見出しセル比較部２０４は、旧表および新表の各々に含まれるセルのうちの、行（列）の見出しのセル（以下、「見出しセル」と称することがある）に注目し、この見出しセル内の文字を取得し、この文字を比較する。

見出しセル比較部２０４は、見出しセルの比較に際し、一致率を計算し、最大の一致率が閾値以上ならば、一致率が最大となった２つの見出しセルが一致すると判定する（対応付いたと判定する）。一方、見出しセル比較部２０４は、最大の一致率が閾値よりも小さい場合には、「行（列）の削除や追加」があったと判定する。

図２（Ｂ）にて示す見出し範囲特定部２０３は、表の外見上の特徴や、表を構成するセルの数などに基づき、旧表および新表のそれぞれについて、見出し範囲（見出しのセル）を特定する。
全セル比較部２０５は、各行（列）に含まれる全セルを用いて、旧表に含まれる行（列）と、新表に含まれる行（列）との比較を行い、旧表に含まれる行（列）と新表に含まれる行（列）との対応付けを行う。

言い換えると、対応関係把握手段として機能する全セル比較部２０５は、旧表に含まれる各列の内容および／または各行の内容と、新表に含まれる各列の内容および／または各行の内容とに基づき、新表に含まれる各列および／または各行と、旧表に含まれる各列および／または各行との対応関係を把握する。

より具体的には、全セル比較部２０５は、見出しセルによる対応付けがうまくいかなかった行（列）について、この行(列)に含まれる全てのセルを使って、旧表の行（列）と新表の行（列）との比較を行い、旧表の行（列）と新表の行（列）との対応付けを行う。
なお、本実施形態では、各行（列）に含まれる全セルを用いて比較を行う場合を一例に説明するが、全セルよりも少ない数のセルを用いて比較を行ってもよい。

そして、全セル比較部２０５は、一致率を計算し、最大の一致率が閾値以上ならば、この最大の一致率となった行（列）同士を、一致する行（列）であると判定する。最大の一致率が閾値よりも小さい場合には、「行(列)の削除／追加」があったと判定する。
結果出力部２０６は、旧表の行（列）と新表の行（列）との対応関係を出力する。

差異検出手段の一例としての差異検出部２０７は、旧表と新表との差異を検出する。
より具体的には、本実施形態では、後述するように、旧表の行（列）と新表の行（列）との対応関係が把握される。これにより、旧表の各セルと新表の各セルとの対応関係の把握も行えるようになる。
差異検出部２０７は、旧表の各セルと新表の各セルとの対応関係に基づき、セルの内容の比較を行い、旧表と新表との差異を検出する。加えて、旧表の行（列）と新表の行（列）との対応関係に基づき、行／列自体の差異（移動、追加、削除）を検出する。

なお、図２（Ａ）、（Ｂ）にて示した各機能部は、ソフトウエアとハードウェア資源とが協働することにより実現される。
具体的には、ＣＰＵ１０２（図１参照）が、プログラムをＲＯＭ１０３等から主記憶装置であるＲＡＭ１０４に読み込み、実行することで、図２（Ａ）、（Ｂ）にて示した各機能部が実現される。

図３は、図２（Ａ）にて示した差異検出装置２００にて行われる処理の流れを示したフローチャートである。
図２（Ａ）にて示した差異検出装置２００では、まず、行（列）情報取得部２０１が、旧表の行（列）情報を取得する（ステップ１０１）。次いで、行（列）情報取得部２０１が、新表の行（列）情報を取得する（ステップ１０２）。

その後、セル内文字取得部２０２が、旧表に含まれる各セルの文字（文字情報）を取得する（ステップ１０３）。さらに、セル内文字取得部２０２が、新表に含まれる各セルの文字を取得する（ステップ１０４）。
次いで、内容取得手段の一部としての見出しセル比較部２０４が、旧表の見出しの部分の文字（内容）と、新表の見出し部分の文字（内容）とを取得する。
そして、見出しセル比較部２０４が、旧表の見出しの部分の文字と、新表の見出し部分の文字とを比較する（ステップ１０５）。具体的には、例えば、見出しセル比較部２０４は、旧表の１行目などの予め定められた行と、新表の１行目などの予め定められた行との間において、文字の比較を行う。

図４は、図２（Ａ）にて示した差異検出装置２００による具体的な処理を示した図である。なお、図４に示す例では、旧表および新表が、４行、５列により構成されている。また、図４にて示す例では、対応する列を検出する場合を一例に説明する。
本実施形態では、まず、図４（Ａ）、（Ｂ）に示すように、行（列）情報取得部２０１が、公知の表構造解析を用い、各表の行情報および列情報を取得する。なお、旧表や新表が電子データであり、この電子データ内に表構造情報が含まれている場合は、電子データからこの表構造情報を取得して、各表の行情報および列情報を得る。次いで、図４（Ｂ）、（Ｃ）に示すように、セル内文字取得部２０２が、各セルに含まれる文字（文字情報）を取得する。

次いで、見出しセル比較部２０４が、旧表の見出しと新表の見出しとの比較を行う。
具体的には、本実施形態では、まず、見出しセル比較部２０４が、旧表の１列目の見出し（列見出し）（の内容）、新表の５列分の見出し（の内容）を取得する。次いで、見出しセル比較部２０４が、旧表の１列目の見出しと、新表の５列分の見出しの各々との比較を行い、一致率を把握（算出）する。

また、旧表の２列目の見出しと、新表の５列分の見出しの各々との比較を行い、一致率を把握（算出）する。同様に、旧表の３列目の見出し、旧表の４列目の見出し、旧表の５列目の見出しの各々と、新表の５列分の見出しの各々との比較を行い、一致率を把握（算出）する。

図４（Ｄ）では、旧表の２列目の見出しと、新表の５列分の見出しの各々との比較結果を示している。
この例では、旧表の２列目の見出しと、新表の２列目の見出しとが一致し、一致率は１００％となる。また、旧表の２列目の見出しと新表の１列目の見出しとの間では、一致率は０％となり、旧表の２列目の見出しと新表の３〜５列目の見出しの各々との間では、一致率は５０％となる。

本実施形態では、算出される複数の一致率のうちの最大の一致率を把握し、この最大の一致率（上記の例では１００％）と、予め定められた閾値（例えば、８０％）とを比較する。そして、最大の一致率が閾値よりも大きい場合には、この最大の一致率の元となった２つの列（旧表の列、新表の列）が対応付いたと判断する。

上記の例では、旧表の２列目と新表の２列目とが対応付いたと判断する。
見出しセル比較部２０４は、同様の処理を行い、旧表の２列目以外の他の列の各々と、新表の２列目以外の他の列の各々との対応関係を把握する。即ち、見出しセル比較部２０４は、対応関係把握手段として機能し、旧表に含まれる各列と、新表に含まれる各列との対応関係を把握する。

ここで、本実施形態では、このように、各行（列）の見出し（各行を比較するときは行見出し、各列を比較するときは列見出し）を用いて、２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する。
これにより、各セルの内容に基づいて、対応関係を把握する場合に比べ、対応関係の把握精度が高まる。見出しについては、見出し以外のセルよりも変更される可能性が低く、見出しで対応関係を把握することで、対応関係の把握精度が高まる。

次いで、本実施形態では、図４（Ｅ）に示すように、結果出力部２０６が結果出力を行う。具体的には、旧表の２列目と新表の２列目とが対応付いた旨の出力を行う。
なお、結果出力部２０６は、旧表に含まれる行（列）のうちの、対応する行（列）が新表に見つからなかった行（列）については、削除されたと出力する。
また、結果出力部２０６は、新表に含まれる行（列）のうちの、対応する行（列）が旧表に見つからなかった行（列）については、追加されたと出力する。
なお、見出しのセルが複数の場合（例えば、各行（列）に複数の見出しセルが存在する場合）、複数の見出しセルの各々に含まれる各文字を連結した文字列同士を比較して、一致率を得てもよい。

また、見出しセルが一致するか否かは、一致する見出しセルの割合に基づき判断してもよい。
図５（Ａ）〜（Ｄ）は、見出しセルの比較についての他の処理例を示した図である。なお、図５（Ａ）は旧表を示し、図５（Ｂ）は新表を示している。また、図５（Ｃ）、（Ｄ）は、見出しセルの一致、不一致の判断手法を示している。

図５（Ａ）、（Ｃ）に示すように、旧表の３列目の見出しは、「２０１５年１月〜１２月」という文字が記載された１つ目の見出しセル、「上半期」という文字が記載された２つ目の見出しセル、「１Ｑ」という文字が記載された３つ目の見出しセルにより構成されている。

見出しセルの比較では、旧表の各列と新表の各列との間で、見出しセルの比較を行っていくが、この例では、比較に際し、旧表の上記３つの見出しセルの各々と、新表の３つの見出しセルの各々とに基づき、一致率を算出する。

具体的には、この例では、図５（Ｃ）、（Ｄ）に示すように、旧表の３列目と新表の１列目とを比較すると、一致する見出しセルは存在せず、一致率は０％となる。また、旧表の３列目と新表の２列目とを比較すると、一致する見出しセルは存在せず、一致率は０％となる。
一方、旧表の３列目と新表の３列目とを比較すると、２つの見出しセルが一致し、一致率は、６７％となる。

旧表の３列目と新表の４列目とを比較すると、一致する見出しセルは１つとなり、一致率は、３３％となる。旧表の３列目と新表の５列目とを比較すると、一致する見出しセルは存在せず、一致率は、０％となる。旧表の３列目と新表の６列目とを比較すると、一致する見出しセルは存在せず、一致率は、０％となる。

この例では、最大の一致率である６７％を、予め定められた閾値（例えば、５０％）と比較する。そして、この場合、一致率が閾値を超えることとなり、結果出力部２０６（図２（Ａ）参照）によって、旧表の３列目と新表の３列目とが対応付いた旨が出力される。

図５にて示した処理を行う場合、行（列）の見出し部分の全体が注目され、見出しが一致しているか否かの判定精度が高まる。付言すると、見出しが単一のセルにより構成され且つこのセル内の文字数が多い場合に比べて、見出しが一致しているか否かの判定精度が高まる。
その一方で、図５にて示した処理を行う場合、見出しの行（列）が少ないと、文字が変更された場合の影響が大きくなる。

ところで、上記では、旧表および新表に含まれる行（列）のうち、冒頭の１行目など、予め定められた行（列）の部分を見出しであると仮定して、見出しの比較を行った。
ところで、これに限らず、次に説明するように、見出し範囲を特定し、特定した見出し範囲に基づき、行（列）の対応関係を把握してもよい。

図６は、見出し範囲を特定する場合の処理を示したフローチャートである。言い換えると、図６は、図２（Ｂ）にて示した差異検出装置２００（見出し範囲特定部２０３を備えた差異検出装置２００）による処理を示したフローチャートである。
なお、図６のステップ２０１〜２０４の処理は、図３のステップ１０１〜１０４の処理と同様であり、以下では、ステップ２０５以降の処理を説明する。

ステップ２０５では、見出し範囲特定手段の一例としての見出し範囲特定部２０３が、旧表における見出し範囲を特定する（ステップ２０５）。次いで、見出し範囲特定部２０３が、新表における見出し範囲を特定する（ステップ２０６）。
その後、上記ステップ１０５と同様に、見出しセル比較部２０４が、旧表の見出し範囲の文字と、新表の見出し範囲の文字との比較を行う（ステップ２０７）。
具体的には、ステップ２０５にて特定された見出し範囲の文字と、ステップ２０６にて特定された見出し範囲の文字とを比較する。

その後、見出しセル比較部２０４が、比較が成功したか否かを判断する（ステップ２０８）。そして、比較が成功した場合は、結果出力部２０６が結果出力を行う（ステップ２１０）。具体的には、旧表と新表との間における、行（列）の対応関係を出力する。
一方、比較が失敗した場合は、全セル比較部２０５が、各行（列）に含まれる全てのセルに含まれる文字同士の比較を行って（ステップ２０９）、旧表と新表との間における、行（列）の対応関係を把握する。そして、結果出力部２０６が、この対応関係を出力する（ステップ２１０）。

ここで、ステップ２０８では、例えば、次の条件（１）、（２）の何れかの条件を満たした場合に、比較が成功したと判断する。

条件（１）：以下のａ、ｂの両方が存在しない、若しくは、ａ、ｂの何れか一方が存在する。
ａ：対応付いていない行（列）が旧表に存在
ｂ：対応付いていない行（列）が新表に存在

ここで、ａ、ｂの両方が存在しない場合とは、行（列）の全てが対応付いた場合を意味する。また、ａ、ｂの何れか一方が存在する場合とは、行（列）の削除や追加があった場合を意味する。さらに、ａ、ｂの両方が存在する場合は、編集、削除、追加の何れであるかが分からず、比較に失敗したことを意味する。

条件（２）：対応付いていない行（列）の数が、予め定められた閾値よりも小さい。

図７（Ａ）、（Ｂ）、図８（Ａ）、（Ｂ）は、ステップ２０５、ステップ２０６にて行われる見出し範囲の特定処理を説明する図である。
見出し範囲の特定は、例えば、表の外見上の違いを利用する。
具体的には、見出し範囲特定部２０３は、例えば、セルの背景の違い（色つき/色なし、ハッチングの有無等）、文字の違い（フォント、サイズの大小、色、太字/細字等）、罫線の違い（二重線/一重線、太線/細線、実線/点線、線の濃淡等）に基づき、見出し範囲を特定する。
外見上の違いを利用する場合、表の代表的な特徴が用いられ、複数行（列）にわたる見出し範囲も正しく特定されやすい。

図７（Ａ）に示す例では、上から１行目、２行目の部分の色と、３行目以降の部分の色とが異なっている。見出し範囲の特定は、例えば、この色の違いを利用する。この例では、１行目と２行目とが見出し範囲であると特定される。

また、見出し範囲の特定は、例えば、表に含まれる斜め線を利用する。この場合も、表に代表的な特徴が判断に用いられ（表に特有な特徴が判断に用いられ）、複数行にわたる見出し範囲も、正しく特定されやすい。
図７（Ｂ）に示す例では、表の左上の角部のセルに、斜め線が設けられている。
見出し範囲特定部２０３は、この斜め線が位置する行を、各列の見出し範囲とする。具体的には、１行目と２行目とを、見出し範囲であると特定する。

さらに、見出し範囲の特定は、例えば、表の罫線の長さの違いを利用する。
具体的には、表の外枠を構成する罫線以外の罫線の長さの違いを利用して、見出し範囲を特定する。
図８（Ａ）に示す例では、６列目且つ１行目に位置するセルと、６列目且つ２行目に位置するセルとが結合しており、１行目と２行目との間の罫線が短くなっている。

見出し範囲特定部２０３は、表の上方から下方に向かって順に罫線の長さを把握していく。そして、見出し範囲特定部２０３は、長さが最初に最大となる罫線の直前の行までが見出しであると特定する。
図８（Ａ）に示す例では、２本目の罫線にて、その長さが最大（３００ｐｉｘｅｌ）となり、この２本目の罫線の直前の行である２行目までが見出し範囲とされる。
この特定手法では、セルの結合がある場合も、見出し範囲の特定を行える。

さらに、見出し範囲特定部２０３は、例えば、行（列）に含まれるセルの数を利用して、見出し範囲を特定する。
図８（Ｂ）に示す例では、１行目においてセルの結合がなされており、１行目のセルの数が少なくなっている。
見出し範囲特定部２０３は、行（列）に含まれるセルの数を利用して見出し範囲を特定する場合、１行目から、セル数が最大となる最初の行までを見出し範囲とする。

図８（Ｂ）に示す例では、２行目にてセルの数が最大となるため、見出し範囲特定部２０３は、１行目から２行目が見出し範囲であると特定する。
この特定手法は、水平方向における見出しセルの結合を想定しており、この特定手法では、水平方向における見出しセルの結合があっても、見出し範囲の特定を行える。
なお、図８（Ｂ）に示す例では、各列の見出し範囲を特定する場合を一例に説明したが、各行の見出し範囲の特定にあたっては、垂直方向における見出しセルの結合を想定する。そして、この場合は、１列目から、セル数が最大となる最初の列までを見出し範囲とする。

ここで、見出し範囲の特定は、図７、図８にて示した４つの特定手法のうちの何れか１つの特定手法で行ってもよい。
また、４つの特定手法の各々を用いて見出し範囲を特定した後、多数決により、最終的な見出し範囲を決定してもよい。
また、４つの特定手法の各々を順に用いて特定処理を行い、何れかの特定手法で見出し範囲が特定され次第、この見出し範囲を最終的な見出し範囲としてもよい。
以下、見出し範囲を多数決により決定する処理、および、特定手法の各々を順に用いて見出し範囲を決定する処理のそれぞれについて説明する。

図９は、見出し範囲を多数決により決定する処理の流れを示したフローチャートである。
この処理では、まず、上記４つの特定手法の各々を用いて見出し範囲を特定する（ステップ３０１〜３０４）。次いで、多数決で、最終的な見出し範囲を決定する（ステップ３０５）。

ステップ３０５の処理について詳細に説明する。
例えば、上記４つの特定手法のうちの３つの特定手法で、１行目〜２行目が見出し範囲であると特定され、他の１つの特定手法で、１行目が見出し範囲であると特定された場合、ステップ３０５では、１行目〜２行目が見出し範囲であると決定される。
より具体的には、１行目〜２行目を見出し範囲とした特定結果が３票であり、１行目を見出し範囲とした特定結果が１票である場合、１行目〜２行目が見出し範囲であると決定される。

なお、同票であり多数決で決まらない場合は、例えば、最小の見出し範囲を、最終的な見出し範囲とする。
具体的には、例えば、２つの特定手法で、１行目〜２行目が見出し範囲であると特定され、残り２つの特定手法で、１行目〜３行目が見出し範囲であると特定された場合、１行目〜２行目を最終的な見出し範囲とする。
また、４つの特定手法の全てにおいて、見出し範囲の特定を行えなかった場合には、１行目を見出し範囲とする。

図１０は、４つの特定手法の各々を順に用いて特定処理を行う場合の処理の流れを示したフローチャートである。
この処理では、まず、外見上の違いを利用して見出し範囲の特定を行う（ステップ４０１）。そして、この特定が失敗したか否かを判断し（ステップ４０２）、失敗した場合には、ステップ４０３の処理に進む。一方、成功した場合には、特定した見出し範囲を出力する（ステップ４０９）。

ここで、例えば、セルの背景の色や、文字フォントが全て同じである場合、外見上の違いが現れない。この場合は、ステップ４０２にて、見出し範囲の特定に失敗したと判断され、ステップ４０３の処理が実行される。

ステップ４０３では、斜め線を利用して見出し範囲の特定を行う。
そして、この特定が失敗したか否かを判断し（ステップ４０４）、失敗した場合には、ステップ４０５の処理に進む。一方、成功した場合には、特定した見出し範囲を出力する（ステップ４０９）。

ステップ４０５では、罫線の長さに基づき見出し範囲を特定する。
そして、この特定が失敗したか否かを判断し（ステップ４０６）、失敗した場合には、ステップ４０７の処理に進む。一方、成功した場合には、特定した見出し範囲を出力する（ステップ４０９）。

ここで、例えば、ステップ４０５では、多数の行（列）が見出し範囲であると特定されることも懸念される。例えば、６行の表において、１〜５行目が見出し範囲として特定されることが起こりうる。この場合、見出しの行の割合は、全体の８３％にもなってしまう。
本実施形態では、見出しの範囲の割合についての閾値（例えば５０％）を設定しており、見出しの行数の割合が大きい場合、見出し範囲の特定に失敗したと判断する。

ステップ４０７では、セルの数に基づき見出し範囲の特定を行う。そして、この特定が失敗したか否かを判断し（ステップ４０８）、失敗した場合には、ステップ４１０の処理に進む。これに対し、成功した場合には、特定した見出し範囲を出力する（ステップ４０９）。
ここで、ステップ４０７における特定では、上記と同様、多数の行（列）が見出し範囲であると特定されることが起こり得る。この場合、上記と同様、見出し範囲の特定に失敗したと判断される。

ステップ４１０では、１行（列）目を見出し範囲として出力する。
付言すると、ステップ４０８にて失敗である判断された場合、言い換えると、上記４つの特定手法の何れの特定手法を用いても、見出し範囲を特定できなかった場合、１行（列）目が見出し範囲として出力される。
なお、上記４つの特定手法の実行順は上記に限らず、他の順序で、各特定手法を実行してもよい。

図１１は、多数決による見出し範囲の特定、および、特定手法の各々を順に用いての見出し範囲の特定の両者を用いて、見出し範囲を決定する処理の流れを示したフローチャートである。
この処理では、図９におけるステップ３０１〜３０４と同様、まず、４つの特定手法のそれぞれを用いて、見出し範囲を特定する（ステップ５０１〜ステップ５０４）。
次いで、見出し範囲の特定を行えなかった特定手法の数が、２以上であるかを判断する（ステップ５０５）。

そして、２以上でない場合（成功した特定手法が３以上である場合）は、多数決で、最終的な見出し範囲を決定する（ステップ５０６）。
一方、見出し範囲の特定を行えなかった特定手法が２以上である場合は、上記ステップ４０１〜ステップ４１０の処理と同様に、４つの特定手法を順番に用いて、最終的な見出し範囲を決定する（ステップ５０７）。

図１２、図１３（Ａ）、（Ｂ）は、上記４つの特定手法による特定処理の具体例を示した図である。
図１２に示す表では、上から１行目、２行目の部分の色と、３行目以降の部分の色とが異なっている。上記１つ目の特定手法（外見上の違いを利用した特定手法）では、１〜２行目が見出し範囲であると特定される。
また、図１２に示す表では、１行目から２行目にかけて斜め線が引かれている。上記２つ目の特定手法（斜め線を利用した特定手法）では、１〜２行目が見出し範囲であると特定される。

また、図１２に示す表では、上から２本目の罫線の長さが３５０ピクセル分の長さとなっており、この２本目の罫線の長さが最大となっている。このため、上記３つ目の特定手法（罫線の長さを利用した特定手法）では、１〜２行目が見出し部分であると特定される。
また、図１２に示す表では、セルの数が最大となる最初の行は、１行目となっている。このため、上記４つ目の特定手法（セルの数を利用した特定手法）では、１行目が見出し範囲であると特定される。

図１３（Ａ）、（Ｂ）は、多数決による見出し範囲の決定手順を示した図である。
図１３（Ａ）では、４つの特定手法の各々にて特定された見出し範囲を示している。１〜３つ目の特定手法では見出し範囲が２行となっており、４つ目の特定手法では、見出し範囲は１行となっている。
多数決で見出し範囲を決定する場合、図１３（Ｂ）に示すように、見出し範囲は２行となる。

図１４、図１５（Ａ）、（Ｂ）は、見出し範囲の特定処理の他の具体例を示した図である。
図１４に示す表では、セルの色が異なるなどの外見上の違いが存在しない。このため、上記１つ目の特定手法では、見出し範囲の特定が行われない。
また、図１４に示す表では、斜め線が存在しない。このため、上記２つ目の特定手法でも、見出し範囲の特定が行われない。

また、図１４に示す表では、上から２本目の罫線の長さが３５０ピクセル分の長さとなっており、この長さが最大となっている。このため、３つ目の特定手法では、１〜２行目が見出し範囲であると特定される。
また、図１４に示す表では、セル数が最大となる最初の行は、３行目となっており、４つ目の特定手法では、１〜３行目が見出し範囲であると特定される。

図１５（Ａ）では、４つの特定手法を順番に用いて見出し範囲を決定する処理の具体例を示している。
図１５（Ａ）に示すように、１〜２つ目の特定手法では見出し範囲が特定されず、３つ目の特定手法では見出し範囲は２行となり、また、４つ目の特定手法では見出し範囲は３行となっている。この場合、４つの特定手法を順番に用いて見出し範囲を決定すると、見出し範囲は、３つ目の特定手法により特定された見出し範囲である、１〜２行となる。

次に、多数決による特定、および、特定手法を順に用いての特定の両者で見出し範囲を決定する場合（図１１にて示した処理により見出し範囲を決定する場合）を説明する。
この例では、図１５（Ｂ）の（Ｂ１）に示すように、失敗数が２以上となる。このため、多数決による見出し範囲の決定は行われない。
これに換わり、本実施形態では、特定手法を順に用いた決定が行われ、この場合、図１５（Ｂ）の（Ｂ２）に示すように、３つ目の特定手法により特定された見出し範囲（１〜２行）が、最終的な見出し範囲とされる。

図１６は、本実施形態にて行われる処理の他の具体例を示した図である。なお、図１６では、列の対応関係を把握する場合を一例に説明する。
この処理では、図１６の符号１６Ａに示すように、また、上記と同様、まず、旧表および新表のそれぞれについて、行情報および列情報を取得する。
次いで、符号１６Ｂに示すように、セル内の文字を取得する。
次いで、符号１６Ｃに示すように、上記にて説明した特定手法を用いて、各表の列の見出し範囲を特定する。次いで、符号１６Ｄに示すように、見出し範囲の部分で、文字列の比較を行う。

ここで、図１６に示す例では、旧表の１列目と新表の１列目、旧表の２列目と新表の２列目、旧表の７列目と新表の７列目において、見出しが一致する。
これにより、この例では、旧表の１列目と新表の１列目とが対応し、旧表の２列目と新表の２列目とが対応し、旧表の７列目と新表の７列目とが対応していると把握される。

これに対し、旧表の３〜６列目の各々と、新表の３〜６列目の各々との間では、見出しが一致していないと判定される。
この場合、本実施形態では、全セル比較部２０５（図２（Ｂ）参照）が、各列に含まれる全セルを対象として文字（文字列）の比較を行う。
具体的には、旧表の各列に含まれる全セルの文字列と、新表の各列に含まれる全セルの文字列とを、列毎に比較して、旧表の各列と新表の各列との対応付けを行う。

図１６の符号１６Ｅでは、全セルを対象として、旧表の３列目と、新表に含まれる各列とを比較する場合を例示している。
この例では、旧表の３列目の文字列は、「１Ｑ下半期ＯＫＮＧＯＫＮＧ」となっている。
一方、新表の３〜６列目の各列の文字列は、次のようになっている。
「１Ｑ上半期ＯＫＮＧＯＫＮＧ」、「２Ｑ上半期ＮＧＯＫＯＫＯＫ」、「３Ｑ下半期ＯＫＮＧＮＧＮＧ」、「４Ｑ下半期ＯＫＮＧＯＫＯＫ」。

この例では、旧表の３列目の文字列「１Ｑ下半期ＯＫＮＧＯＫＮＧ」と、新表の上記４列分の文字列の各々とを比較し、一致率を計算する。なお、本実施形態では、この比較に際し、文字の順番は考慮しない。
次いで、最大の一致率を把握し、さらに、この最大の一致率が閾値よりも大きいか否かを判断する。本実施形態では、最大の一致率は、旧表の３列目と新表の３列目とを比較した場合の一致率であり、９２％となっている。そして、この一致率は、閾値（例えば８０％）を超える。
このため、この例では、旧表の３列目と新表の３列目とが一致すると判断する（旧表の３列目と新表の３列目とが対応付いた旨が出力される）。

なお、ここでは、文字列を比較して一致率を算出したが、図５にて説明したように、一致するセルの割合に基づき、列の一致、不一致を判断してもよい。
また、図１６では、文字の順番を考慮せずに、文字列同士の比較を行ったが、文字の順番を考慮に入れて、文字列同士の比較を行ってもよい。

なお、文字の順番を考慮しない場合は、セル内の文字の変更や、行（列）の順番の入れ替わりや、行（列）の追加／削除があっても、行（列）の対応関係が正しく把握される可能性が高まる。
具体的には、図１７（文字を比較した場合の一致率を示した図）の破線１７Ａ、１７Ｂで示すように、例えば、行の入れ替わりが、旧表と新表との間にあっても、旧表の３列目と新表の各列とを比較した場合、符号１７Ｃで示すように、新表の３列目との一致率が８６％となり、列の対応関係を正しく把握しうる。
これに対し、文字の順番を考慮する場合は、符号１７Ｄで示すように、一致率が低くなり、列の対応関係の把握が困難になる。

その一方で、文字の順番を考慮する場合は、似たような文字が複数回出てくる態様のときに、行（列）の対応関係が正しく把握されやすい。
具体的には、「ＯＫ」や「ＮＧ」などの似たような文字が複数回出てくるときに、行（列）の対応関係が正しく把握されやすい。
似たような文字が複数回出てくる場合、文字の順番を考慮しないと、全て高い一致率になるおそれがある。このため、似たような文字が複数回存在する場合には、文字の順番を考慮した方が好ましい。

図１８（Ａ）、（Ｂ）は、差異検出装置２００の他の構成例を示した図である。
図１８に示す構成例では、（Ａ）、（Ｂ）に示すように、見出し有無判定手段の一例としての見出し有無判定部２０８がさらに設けられている。さらに、（Ｂ）に示す構成例では、見出し有無判定部２０８により参照される分野辞書２０９が設けられている。

図１８（Ａ）、（Ｂ）に示す構成例では、見出し有無判定部２０８により見出しがあると判定されると、見出しセル比較部２０４により、見出し（行見出し、列見出し）の内容の比較が行われて、上記と同様に、行（列）の対応関係が把握される。
また、見出し有無判定部２０８により見出しがないと判定されると、全セル比較部２０５により、全てのセルの文字が比較されて、行（列）の対応関係が把握される。

ここで、見出し有無判定部２０８は、画像の特徴や、セル内の文字の特徴により、見出しがあるかどうかを判定する。
分野辞書２０９は、例えば、公知のシソーラス辞書が用いられる。分野辞書２０９には、例えば、図１９（分野辞書２０９を説明する図）に示すように、単語と、単語が属する分野とが互いに対応付いた状態で格納されている。

図２０は、図１８（Ａ）、（Ｂ）にて示した差異検出装置２００により実行される処理の一例を示した図である。
この処理では、上記と同様、行（列）情報取得部２０１が、旧表の行（列）情報、および、新表の行（列）情報を取得する（ステップ６０１）。次いで、セル内文字取得部２０２が、旧表に含まれる各セルの文字を取得し、さらに、新表に含まれる各セルの文字を取得する（ステップ６０２）。

次いで、見出し有無判定部２０８が、旧表および新表のそれぞれについて、見出しがあるか否かを判定する（ステップ６０３）。
そして、見出しがある場合（ステップ６０４にてＮＯの場合）、見出し範囲特定部２０３が、上記にて説明した特定手法を用いて見出し範囲を特定する（ステップ６０５）。次いで、見出しセル比較部２０４が、旧表の見出し範囲の文字列と新表の見出し範囲の文字列との比較を行う（ステップ６０６）。

そして、見出しセル比較部２０４は、比較が成功したか否かを判断し（ステップ６０７）、成功した場合には、旧表の行（列）と新表の行（列）との対応関係を出力する（ステップ６０９）。
一方、ステップ６０４にて、見出しが無いと判定された場合、あるいは、ステップ６０７にて、比較に失敗したと判定された場合は、全セル比較部２０５が、各行（列）に含まれる全セルを対象として文字の比較を行う（ステップ６０８）。そして、結果出力部２０６によって、全セル比較部２０５による処理の結果が出力される（ステップ６０９）。

ここで、見出し有無判定部２０８による見出しの有無の判定は、例えば、上記と同様、外見上の違いを利用して行う。
見出し有無判定部２０８は、例えば、１行（列）目を含むセル群の外見と、それ以外のセル群の外見との間に違いが無い場合、見出しがないと判定する。
ここで、外見の違いがあるか否かは、上記と同様、セルの背景の違い（色つき/色なし、ハッチングの有無等）、文字の違い（フォント、サイズの大小、色、太字/細字等）、罫線の違い（二重線/一重線、太線/細線、実線/点線、線の濃淡等）などに基づき判断される。

また、見出しの有無の判定は、類似性に基づき行ってもよい。
具体的には、例えば、１行目のセルと、それ以外の行のセルとを比較して、類似性が高い場合は、行の冒頭や列の冒頭に見出しがないと判定する。
類似性としては、文字数の類似性や、文字種の類似性が挙げられる。

ここで、例えば、１行目のセルの文字数と、それ以外の行のセルの文字数との間の類似性が高い場合（文字数の差が予め定められた閾値よりも小さい場合）、１行目には見出しが無いと判定する。
また、例えば、１行目のセルと最後の行のセルとの間で、文字数の平均値、中央値、標準偏差などを比較する。そして、例えば両者の差が予め定められた閾値よりも小さい場合には、文字数の類似性が高いと判定し、各列の１行目には見出しが無いと判定する。

また、文字種に基づき類似性を判断してもよく、具体的には、例えば、数字、英字などの文字種に基づき、類似性を判断する。
ここで、例えば、１行目と、最後の行などの他の行との間において、文字種の類似性が高い場合、１行目に見出しがないと判定する。
その他、例えば、１行目の内容と他の行の内容とが、同じ属性のグループに属する場合に、見出しがないと判定してもよい。より具体的には、一行目の内容と他の行の内容とが、同じ「商品コード」という属性であったり同じ「日付」という属性であったりする場合に、見出しがないと判定してもよい。

なお、図２０では、見出しの有無の判定を先に行い、次いで、見出し範囲の特定を行ったが、図２１（差異検出装置２００にて行われる他の処理例を示した図）に示すように、見出し範囲の特定を先に行い、次いで、見出しの有無の判定を行ってもよい。

図２１に示す処理では、上記と同様、まず、行（列）情報取得部２０１が、旧表の行（列）情報、および、新表の行（列）情報を取得する（ステップ７０１）。
次いで、セル内文字取得部２０２が、旧表に含まれる各セルの文字を取得し、さらに、新表に含まれる各セルの文字を取得する（ステップ７０２）。

次いで、ステップ７０３に示すように、見出し範囲特定部２０３が、見出し範囲の特定を行う（ステップ７０３）。その後、見出し範囲特定部２０３が、見出し範囲が１行（列）であるか否かを判断する（ステップ７０４）。
そして、見出し範囲が１行（列）である場合には、見出し有無判定部２０８が、旧表および新表のそれぞれについて、見出しの有無の判定を行う（ステップ７０５）。

本実施形態の処理では、見出し範囲が１行である場合、見出し範囲特定部２０３による見出し範囲の特定が実質的になされておらず、見出し範囲が誤っている可能性がある。
具体的には、図１０のステップ４１０にて示したように、本実施形態では、見出し範囲が特定できない場合、見出し範囲は１行であるとされる。かかる場合、本来の見出し範囲とは異なる範囲が見出し範囲とされている可能性がある。
このため、本実施形態では、見出し範囲が１行である場合には、見出し有無判定部２０８が、旧表および新表のそれぞれについて、見出しの有無の判定を行う（ステップ７０５）。

ステップ７０５の処理の後、ステップ７０６にて、見出しが無いかどうかの判断がなされる。そして、ステップ７０６にて、見出しが無いと判定された場合は、全セル比較部２０５が、上記と同様、全セルを対象として文字の比較を行う（ステップ７０７）。具体的には、旧表に含まれる各行（列）の内容と、新表に含まれる各行（列）の内容とに基づき、旧表に含まれる各行（列）と、旧表に含まれる各行（列）との対応関係を把握する。

これに対し、ステップ７０６にて見出しが有ると判定された場合（ステップ７０６にてＮＯと判定された場合）は、旧表の見出しと新表の見出しとの比較を行う（ステップ７０８）。そして、見出しの比較に成功した場合（ステップ７０９にてＹＥＳの場合）は、結果出力を行う（ステップ７１０）。また、見出しの比較に失敗したときは、全セル比較部２０５が全セルを対象として文字の比較を行ったうえで（ステップ７０７）、結果出力を行う（ステップ７１０）。

図２２は、見出しの有無の判定の具体例を示した図である。
見出し有無判定部２０８は、例えば、各セルの文字数をカウントする。具体的には、図２２（Ａ）にて示す表に含まれる各セル内の文字数をカウントし、図２２（Ｂ）に示すように、各セルの文字数を把握する。
また、見出し有無判定部２０８は、各行および各列の各々について、文字数の平均値を得る（ｍ１〜ｍ１４参照）。さらに、見出し有無判定部２０８は、全セルの文字数の平均値ＭＡを得る（本実施形態ではＭＡ＝２．１０）。

図２２に示す例では、ｍ１とｍ２〜ｍ７とは類似性が低いので（文字数の差が予め定められた閾値よりも大きいので）、１行目に見出しがあると判定される。
一方、ｍ８とｍ９〜ｍ１４との間では、類似性が高いので（文字数の差が予め定められた閾値よりも小さいので）、１列目に見出しは無いと判定される。

その他、類似性の判定には、例えばｍ１とＭＡとを用いてもよい。この場合、ｍ１とＭＡとの差の絶対値が、予め定められた閾値以上ならば類似性が低いと判断され、１行目に見出しがあると判定される。一方、ｍ１とＭＡとの差の絶対値が、予め定められた閾値よりも小さい場合には、類似性が高いと判断され、１行目に見出しは無いと判定される。
同様に、ｍ８とＭＡとの差の絶対値が、予め定められた閾値以上ならば、１列目に見出しがあると判定され、ｍ８とＭＡとの差の絶対値が、予め定められた閾値よりも小さい場合には、１列目に見出しは無いと判定される。

また、標準偏差を用いて類似性を判定してもよい。
具体的には、例えば、全セルの標準偏差σを求め、例えば、ｍ１＞ｃ＊σ（ｃは２などの定数）などの条件を満たす場合、類似性が低いと判定し、１行目や１列目に見出しが有ると判定する。
その一方で、この条件を満たさない場合には、類似性が高いと判定し、１行目や１列目に見出しは無いと判定する。

図２３（Ａ）、（Ｂ）は、見出しの有無の判定の他の具体例を示した図である。
図２３にて示す例では、見出し有無判定部２０８は、各セルの文字種を把握する。また、見出し有無判定部２０８は、１行目および１列目の文字種の数を把握する。
ここで、１行目では、図２３（Ａ）、（Ｂ）に示すように、全て英字であるため、文字種の数は、図２３（Ｂ）に示すように「１」となる。また、１列目では、英字と数字があるため、文字種の数は２となる。

この例では、文字種の数が１の場合、類似性が高いと判定する。一方、文字種の数が２以上の場合は、類似性が低いと判定する。
そして、この例では、類似性が高い１行目には見出しが無いと判定する。付言すると、１行目の冒頭のセル（図中、左端のセル）は、見出しではないと判定する。
その一方、類似性が低い１列目には見出しが有ると判定する。具体的には、１列目の冒頭のセル（図中、上端のセル）は、見出しであると判定する。

なお、類似性の判定にあたり、数字／記号／漢字（例えば、ＡＢ−プリンタ）、英字／数字／記号／数字（例えば、ＡＢ４−５５７０）などのような文字種の並びも、類似性の判断に用いることができる。文字種の並びの種類が少ない場合、類似性が高いと判断し、文字種の並びの種類が多い場合、類似性が低いと判定する。

次に、図２４を参照して、分野辞書２０９を使う場合を説明する。
図２４は、旧表および新表の１列目を示した図である。図２４では、上下方向に並ぶ５つのセルを示している。
図１８（Ｂ）にて示した見出し有無判定部２０８は、分野辞書２０９を参照し、各セルの分野を判定する。ここで、図２４で示す例では、何れのセルも「Ｓｔａｔｉｏｎｅｒｙ」であると判定される。

そして、見出し有無判定部２０８は、各セルの類似性を判定する。ここで、この例では、分野が全て同じであり、類似性が高いと判定する。
そして、この場合、見出し有無判定部２０８は、１列目には、見出しがないと判定する。より具体的には、１列目の最上位のセルは、見出しではないと判定する。

図２５は、見出しの比較順序を示した図である。
表には、行の見出し（各行の冒頭などに位置する行見出し）と、列の見出し（各列の冒頭などに位置する列見出し）が存在する。
本実施形態では、図２５の符号２５Ａに示すように、見出しの比較を行うにあたり、まず、列の見出しについての比較を、旧表と新表との間で行う。なお、列の見出しの比較に失敗した場合には、上記にて説明したように、また、符号２５Ｂに示すように、全セルについて、文字を比較する。そして、列同士の対応関係を把握する。

次いで、本実施形態では、図２５の符号２５Ｃに示すように、行の見出しについての比較を、旧表と新表との間で行う。なお、行の見出しの比較に失敗した場合には、上記にて説明したように、また、符号２５Ｄに示すように、全セルについて、文字を比較する。そして、行同士の対応関係を把握する。
なお、これは一例であり、行の見出しについての比較を先に行い、次いで、列の見出しについての比較を行ってもよい。

本実施形態では、このように、旧表と新表との間において、行および列の対応関係が把握される。これにより、本実施形態では、旧表の各セルの各々と、新表の各セルの各々との対応関係も把握できるようになる。
本実施形態では、旧表と新表との間にて各セルの対応関係が把握された後、図２等にて示した差異検出部２０７が、互いに対応付いたセル同士（セルの内容）を比較する。これにより、差異検出部２０７にて、２つの表の差異が検出される。

そして、検出された差異（差異検出部２０７による検出結果）は、ユーザに通知される。
具体的には、例えば、表示部１０７（図１参照）を通じてユーザに通知される。
また、例えば、検出された差異は、ユーザのＰＣ（Personal Computer、不図示）へ出力され、このＰＣ上に表示される。

また、例えば、検出された差異は、画像形成手段の一例としての画像形成部１０９（図１参照）に出力され、差異を表す画像（差異検出部２０７による検出結果を示す画像）が、用紙などの記録材に形成される。
なお、記録材への画像の形成に際しては、テキストを形成してもよい。また、例えば、記録材への画像の形成に際しては、旧表の画像、新表の画像の２つの表の画像を形成するとともに、差異がある箇所に色などを付すようにしてもよい。

（その他）
上記では、列の対応関係および行の対応関係の２つの対応関係を把握したうえで、各セルの対応関係を把握する場合を一例に説明したが、列の対応関係および行の対応関係のうちの一方の対応関係のみを把握し、この一方の対応関係に基づいて、各セルの対応関係を把握するようにしてもよい。

また、本実施形態では、上記にて説明した処理が、画像形成装置１０にて行われる場合を一例に説明したが、上記にて説明した処理は、例えばサーバなどの外部装置で行い、処理結果を、この外部装置から、画像形成装置１０やユーザが操作するＰＣへ出力する形態としてもよい。
また、上記にて説明した処理を実現するためのプログラムを、ＰＣ（Personal Computer）や画像形成装置１０にインストールすることにより、既存のＰＣや画像形成装置１０に、上記にて説明した各機能を新たに組み込むこともできる。

また、上記では、画像形成装置１０にて、旧表と新表の差異を検出する場合を一例に説明したが、スキャナなどの画像読み取り装置に、差異検出装置２００を設けてもよい。
この場合、例えば、画像読み取り手段の一例としての画像読み取り部にて、旧表が記載された原稿、新表が記載された原稿が読み取られる。そして、この読み取りにより得られた読み取り画像から、２つの表の画像が取得される。

その後、この２つの表の画像が解析されて、２つの表の各々の列見出しおよび／または行見出しの内容が取得される。その後、見出しの内容に基づき、旧表に含まれる各行（列）と新表に含まれる各行（列）との対応関係が把握される。次いで、画像読み取り装置では、把握されたこの対応関係に基づき、各セルの比較が行われ、差異が検出される。差異の検出結果は、画像読み取り装置の表示パネルに表示されたり、ＰＣやサーバなどの他の装置へ送信されたりする。

１０…画像形成装置、１０８…画像読み取り部、１０９…画像形成部、２００…差異検出装置、２０２…セル内文字取得部、２０３…見出し範囲特定部、２０４…見出しセル比較部、２０５…全セル比較部、２０７…差異検出部、２０８…見出し有無判定部

Claims

行および列を有する表の列見出しおよび／または行見出しの内容を取得する内容取得手段と、
第１の表に含まれる各列および／または各行と、当該第１の表とは異なる第２の表に含まれる各列および／または各行との対応関係を、前記内容取得手段により取得された内容に基づき把握する対応関係把握手段と、
を備える情報処理装置。
前記対応関係把握手段により把握された対応関係に基づき、前記第１の表と前記第２の表との差異を検出する差異検出手段を更に備える請求項１に記載の情報処理装置。
前記第１の表に含まれる各列の内容および／または各行の内容と、前記第２の表に含まれる各列の内容および／または各行の内容とに基づき、当該第１の表に含まれる各列および／または各行と、当該第２の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段を更に備える請求項１又は２に記載の情報処理装置。
前記第１の表および前記第２の表の各々における前記列見出しの範囲および／または前記行見出しの範囲を特定する見出し範囲特定手段を更に備える請求項１乃至３の何れかに記載の情報処理装置。
前記見出し範囲特定手段は、複数の特定手法を用いて、見出し範囲の特定を行うことを特徴とする請求項４に記載の情報処理装置。
前記第１の表および前記第２の表の各々に、前記列見出しおよび／または前記行見出しが有るか否かを判定する見出し有無判定手段を更に備え、
前記対応関係把握手段は、前記見出し有無判定手段によって見出しが無いと判定された場合、前記第１の表に含まれる各列の内容および／または各行の内容と、前記第２の表に含まれる各列の内容および／または各行の内容とに基づき、当該第１の表に含まれる各列および／または各行と、当該第２の表に含まれる各列および／または各行との対応関係を把握することを特徴とする請求項１に記載の情報処理装置。
前記見出し有無判定手段は、前記第１の表および前記第２の表の各々に含まれるセルに格納された情報の類似性に基づき、当該第１の表および当該第２の表の各々に、前記列見出しおよび／または前記行見出しが有るか否かを判定することを特徴とする請求項６に記載の情報処理装置。
行および列を有する表が記載された原稿を読み取ることが可能な画像読み取り手段と、
前記画像読み取り手段により得られた読み取り画像から、第１の表および第２の表の２つの表の画像を取得するとともに、取得した当該画像を解析して、当該２つの表の各々の列見出しおよび／または行見出しの内容を取得する内容取得手段と、
前記内容取得手段により取得された内容に基づき、前記２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段と、
を備える画像読み取り装置。
行および列を有する表が記載された原稿を読み取ることが可能な画像読み取り手段と、
前記画像読み取り手段により得られた読み取り画像から、第１の表および第２の表の２つの表の画像を取得するとともに、取得した当該画像を解析して、当該２つの表の各々の列見出しおよび／または行見出しの内容を取得する内容取得手段と、
前記内容取得手段により取得された内容に基づき、前記２つの表のうちの一方の表に含まれる各列および／または各行と、他方の表に含まれる各列および／または各行との対応関係を把握する対応関係把握手段と、
前記対応関係把握手段により把握された対応関係に基づき、前記第１の表と前記第２の表との差異を検出する差異検出手段と、
前記差異検出手段による検出結果を示す画像を記録材に形成する画像形成手段と、
を備える画像形成装置。
行および列を有する表の列見出しおよび／または行見出しの内容を取得する内容取得機能と、
第１の表に含まれる各列および／または各行と、当該第１の表とは異なる第２の表に含まれる各列および／または各行との対応関係を、前記内容取得機能により取得された内容に基づき把握する対応関係把握機能と、
をコンピュータに実現させるためのプログラム。