JP2007115193A - 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 - Google Patents

電子文書比較プログラム、電子文書比較装置および電子文書比較方法 Download PDF

Info

Publication number
JP2007115193A
JP2007115193A JP2005308721A JP2005308721A JP2007115193A JP 2007115193 A JP2007115193 A JP 2007115193A JP 2005308721 A JP2005308721 A JP 2005308721A JP 2005308721 A JP2005308721 A JP 2005308721A JP 2007115193 A JP2007115193 A JP 2007115193A
Authority
JP
Japan
Prior art keywords
document
comparison
page
key
comparison target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005308721A
Other languages
English (en)
Other versions
JP4918776B2 (ja
Inventor
Susumu Endo
進 遠藤
Takayuki Baba
孝之 馬場
Shuichi Shiitani
秀一 椎谷
Yusuke Uehara
祐介 上原
Shigemi Osada
茂美 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005308721A priority Critical patent/JP4918776B2/ja
Priority to US11/340,742 priority patent/US7783976B2/en
Publication of JP2007115193A publication Critical patent/JP2007115193A/ja
Application granted granted Critical
Publication of JP4918776B2 publication Critical patent/JP4918776B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

【課題】類似する文書が多数混在する場合であっても必要とする文書を容易に見つけ出すことを可能にする電子文書比較プログラム、電子文書比較装置および電子文書比較方法を提供すること。
【解決手段】キー文書の各ページのサムネイル画像をページ順に一列に配置し、比較対象文書の各ページのサムネイル画像をこれと並列に配置する。さらに、キー文書のキーページを比較対象文書の各ページと比較し、最も類似するページがキーページに近接するように比較対象文書の列を列方向にシフトして配置する。このように、キーページと、これと類似するページとが近接するように配置することにより、各文書の類似部分が近い位置に配置されることとなり、容易に対比できるようになる。
【選択図】 図1

Description

この発明は、キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較プログラム、電子文書比較装置および電子文書比較方法に関し、特に、類似する文書が多数混在する場合であっても必要とする文書を容易に見つけ出すことを可能にする電子文書比較プログラム、電子文書比較装置および電子文書比較方法に関する。
電子文書の利点の一つは、既存の電子文書を再利用して新たな電子文書を作成できることである。既存の電子文書を基礎として新たな文書を作成することは、文書の作成効率を高めるだけでなく、質の良い文書を基礎とすることにより、作成される文書の質を高めることができる。
したがって、電子文書を再利用するにあたっては、まず、新たな文書の基礎となる最適な文書を選択することが重要である。今日では、大量の文書が電子文書として作成されており、再利用可能な文書が豊富にそろっているが、その中から自分の目的に合った文書を選択することは容易ではない。
大量の電子文書の中から所望する文書を選択する場合、特定のキーワードを指定してこれを含む文書を検索するシステムが利用されることが多い。また、文書に含まれる画像等のマルチメディア要素の類似度に基づいて文書を検索する技術(たとえば、特許文献1)や、文書のレイアウトの類似度に基づいて文書を検索する技術(たとえば、特願2005−140135)も知られている。
特開2000−148793号公報
しかしながら、上記のような文書検索システムを利用したとしても、新たな文書の基礎となる最適な文書を選択するには、検索された文書を一つずつ開いて内容を確認する必要があり、非常に手間がかかる。特に、同じ文書を基にして既に多数の文書が作成されている場合には、類似する文書が多数検索され、それらの違いを判別するのが難しい。
この発明は、上述した従来技術による問題点を解消するためになされたものであり、類似する文書が多数混在する場合であっても必要とする文書を容易に見つけ出すことを可能にする電子文書比較プログラム、電子文書比較装置および電子文書比較方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較プログラムであって、キー文書と比較対象文書の類似度合いをページ単位で比較する比較手順と、キー文書のページのサムネイル画像をページ順に配置するキー文書配置手順と、前記比較手順をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手順と、前記キー文書配置手順と比較文書配置手順の配置結果を出力する出力手順とをコンピュータに実行させることを特徴とする。
また、本発明は、キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較装置であって、キー文書と比較対象文書の類似度合いをページ単位で比較する比較手段と、キー文書のページのサムネイル画像をページ順に配置するキー文書配置手段と、前記比較手段をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手段と、前記キー文書配置手段と比較文書配置手段の配置結果を出力する出力手段と
を含んだことを特徴とする。
また、本発明は、キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較方法であって、キー文書と比較対象文書の類似度合いをページ単位で比較する比較工程と、キー文書のページのサムネイル画像をページ順に配置するキー文書配置工程と、前記比較工程の結果をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置工程と、前記キー文書配置工程と比較文書配置工程の配置結果を出力する出力工程とを含んだことを特徴とする。
この発明によれば、キー文書を構成するページのサムネイル画像を一列に配置し、さらに、比較対象文書を構成するページのサムネイル画像をキー文書を構成するページとの類似度合いに応じた位置に配置することとしたので、文書を一つずつ開いて内容を確認することなく、キー文書と比較対象文書の類似度合いを確認することができる。
また、本発明は、上記の発明において、前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、前記比較文書配置手順は、キー文書から選択されたキーページと比較対象文書のページを前記比較手順をもちいて比較し、キーページと最も類似するページのサムネイル画像が最もキーページのサムネイル画像と近接するように比較対象文書をページ順に、かつ、キー文書と並列に一列に配置することを特徴とする。
この発明によれば、キーページを基準としてキー文書と比較対象文書の類似部分が近い位置に配置されるように構成したので、キー文書と類似部分を有する比較対象文書に注目し、キー文書との差異を容易に比較することができる。
また、本発明は、上記の発明において、前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像間を結ぶ線を配置することを特徴とする。
この発明によれば、キー文書のページと、これと類似する比較対象文書のページとを線で結ぶように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができる。
また、本発明は、上記の発明において、前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像に他の組合せと異なる色の枠を配置することを特徴とする。
この発明によれば、キー文書のページと、これと類似する比較対象文書のページとを他の類似するページの組合せと異なる色の枠で囲むように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができる。
また、本発明は、上記の発明において、前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、同一の比較対象文書のサムネイル画像がキー文書と並列に並び、かつ、比較対象文書の各ページのサムネイル画像が該ページと最も類似するキー文書のサムネイル画像と近接するように配置することを特徴とする。
この発明によれば、ページ順に関係なくキー文書と比較対象文書の類似部分が近い位置に配置されるように構成したので、文書全体としてキー文書と類似する比較対象文書に注目し、キー文書との差異を容易に比較することができる。
また、本発明は、上記の発明において、前記比較文書配置手順は、キー文書と比較対象文書の類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする。
この発明によれば、キー文書と類似する比較対象文書の列ほどキー文書の列との距離が近くなるように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができる。
また、本発明は、上記の発明において、前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、キー文書の各ページとの類似度合いが所定の閾値よりも低い場合は、比較対象文書のそのページのサムネイル画像を配置しないことを特徴とする。
この発明によれば、キー文書との類似度が低い比較対象文書のページを配置しないように構成したので、キー文書と類似する比較対象文書のページのみに注目してキー文書と比較対象文書の類似度合いを容易に判別することができる。
本発明によれば、キー文書を構成するページのサムネイル画像を一列に配置し、さらに、比較対象文書を構成するページのサムネイル画像をキー文書を構成するページとの類似度合いに応じた位置に配置することとしたので、文書を一つずつ開いて内容を確認することなく、キー文書と比較対象文書の類似度合いを確認することができるという効果を奏する。
また、本発明によれば、キーページを基準としてキー文書と比較対象文書の類似部分が近い位置に配置されるように構成したので、キー文書と類似部分を有する比較対象文書に注目し、キー文書との差異を容易に比較することができるという効果を奏する。
また、本発明によれば、キー文書のページと、これと類似する比較対象文書のページとを線で結ぶように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができるという効果を奏する。
また、本発明によれば、キー文書のページと、これと類似する比較対象文書のページとを他の類似するページの組合せと異なる色の枠で囲むように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができるという効果を奏する。
また、本発明によれば、ページ順に関係なくキー文書と比較対象文書の類似部分が近い位置に配置されるように構成したので、文書全体としてキー文書と類似する比較対象文書に注目し、キー文書との差異を容易に比較することができるという効果を奏する。
また、本発明によれば、キー文書と類似する比較対象文書の列ほどキー文書の列との距離が近くなるように構成したので、キー文書と比較対象文書の類似度合いを容易に判別することができるという効果を奏する。
また、本発明によれば、キー文書との類似度が低い比較対象文書のページを配置しないように構成したので、キー文書と類似する比較対象文書のページのみに注目してキー文書と比較対象文書の類似度合いを容易に判別することができるという効果を奏する。
以下に添付図面を参照して、本発明に係る電子文書比較プログラム、電子文書比較装置および電子文書比較方法の好適な実施の形態を詳細に説明する。
まず、本実施例に係る電子文書比較方式の概要について説明する。本実施例に係る電子文書比較方式では、文書の比較の基準となる文書をキー文書として指定し、さらに、比較の基準となるページをキーページとして指定する。
たとえば、以下のような場面を想定する。ユーザがある文書を作成するに際して、基礎とすることができそうな文書を検索し、複数の候補を得たとする。そして、ユーザがその候補の一つを開いて内容を確認し、その文書が基礎として使えそうだと判断したとする。この場合、検索された他の文書の中に新たな文書の基礎としてより適切な文書が存在する可能性があるが、それらの文書を開いて内容を確認するのは手間がかかる。
かかる場面において、ユーザは、本実施例に係る電子文書比較方式を利用し、新たな文書の基礎として使えそうだと判断した文書をキー文書として指定し、その文書中の再利用可能なページの一つをキーページとして指定し、検索された他の文書を比較対象として指定することにより、キー文書と類似する文書を選別し、それらを比較して最適な文書を容易に選択することができる。
図1は、本実施例に係る電子文書比較方式の出力結果の一例を示すサンプル図である。同図に示すように、本実施例に係る電子文書比較方式では、比較する文書の各ページのサムネイル画像を文書ごとに一列に配置して表示する。このように、各ページのサムネイル画像を表示することにより、ユーザは、文書を一つずつ開くことなく文書の内容を比較することができる。
図1の例では、最上段に、キー文書の各ページのサムネイル画像がページ順に一列に配置されている。キー文書の下には、比較対象文書Aの各ページのサムネイル画像がページ順にキー文書と並列に配置されている。また、比較対象文書Aの下には、比較対象文書Bの各ページのサムネイル画像がページ順にキー文書と並列に配置されている。
さらに、本実施例に係る電子文書比較方式では、キー文書のキーページを比較対象文書の各ページと比較し、最も類似するページがキーページに近接するように比較対象文書の列を列方向にシフトして配置する。このように、キーページと、これと類似するページとが近接するように配置することにより、各文書の類似部分が近い位置に配置されることとなり、容易に対比できるようになる。
たとえば、ある文書の内容を他の文書の末尾に追加して新たな文書が作成されていた場合、文書の比較をおこなう際にその追加部分の存在に気がつかない可能性がある。このような場合でも、上記のように比較対象文書の列をシフト配置することにより、類似部分がほぼ隣り合った状態で表示されることになる。
図1の例では、キー文書の2ページ目がキーページとなっている。比較対象文書Aにおいてキーページと最も類似するページは2ページであり、比較対象文書Aは、2ページがキーページと近接するように配置されている。また、比較対象文書Bにおいてキーページと最も類似するページは7ページであり、比較対象文書Bは、7ページがキーページと近接するように配置されている。
類似するページを近接させて配置した結果、図1の例では、キー文書の2〜8ページと比較対象文書Aの2〜7ページが類似しており、キー文書と比較対象文書Bは類似していないことを容易に判別することができる。そして、新たな文書の基礎とする文書の候補であるキー文書と、これと類似する比較対象文書Aとを比較することにより、新たに作成する文書の基礎としてより適した文書を容易に選択することができる。
なお、上記の説明では、比較対象文書の列を並べる順序については特定していないが、キーページと最も類似するページの類似度が高い文書の列ほどキー文書の列に近く配置されるように構成してもよい。このように配置することにより、キー文書と類似する可能性が高い文書がキー文書の近くに配置されることとなり、文書の比較をおこないやすくなる。
また、比較対象文書の列を文書の更新日付の順に並べることもできる。また、奥行き方向に別の基準で並べることもできる。
また、キーページと最も類似するページの類似度が所定の閾値に満たない文書は、非表示としてもよい。このようにすることにより、多数の文書を比較対象とした場合に比較結果を確認しやすくなる。
また、キー文書のキーページのみを比較対象文書の各ページと類似比較するのではなく、キー文書の各ページを比較対象文書の各ページと類似比較し、その結果を表示するようにしてもよい。表示は、たとえば、図2のように、類似度が所定の閾値よりも高いページ同士を線で結ぶことによりおこなう。あるいは、類似度が所定の閾値よりも高いページ同士を同じ色の枠で囲み、他のページと区別できるようにしてもよい。このようにすることにより、文書間の類似度合いを確認しやすくなる。
また、キーページの指定をおこなわないこととしてもよい。キーページの指定をおこなわない場合は、比較対象文書の各ページをキー文書の各ページと類似比較する。比較対象文書の各ページのサムネイル画像を最も類似するキー文書のページと近接するように列内で配置する。
図3は、キーページの指定をおこなわない場合の出力結果の一例を示すサンプル図である。同図に示すように、この場合も、図1の場合と同様に、キー文書の各ページのサムネイル画像は、ページ順に一列に配置される。
比較対象文書のサムネイル画像は、キー文書の列と並列に文書ごとに一列に配置されるが、これらは、ページ順には配置されず、最も類似するキー文書のページと近接する位置に配置される。このため、比較対象文書の列内では、サムネイル画像が配置されない空間が生じたり、複数のサムネイル画像が重なって配置されたりするようになっている。
このような配置をおこなうことにより、ページ順序に関係なく、文書全体の類似比較を容易におこなうことができる。たとえば、図3の例では、比較対象文書Bは、キー文書のページと類似するページがほとんど揃っており、文書全体として類似していることがわかる。また、比較対象文書Cは、キー文書のページと類似するページを一部含んでいるが、文書全体としては類似していないことがわかる。
そして、ユーザは、新たな文書の基礎とする文書の候補であるキー文書と、これと類似する比較対象文書Bとを比較することにより、新たに作成する文書の基礎としてより適した文書を容易に選択することができる。
なお、上記の説明では、比較対象文書の列を並べる順序については特定していないが、たとえば、近接配置したページ間の類似度の平均値を算出し、この平均値が高い文書の列がキー文書の列に近く配置されるように構成してもよい。このように配置することにより、キー文書と類似度の高い文書がキー文書の近くに配置される可能性が高くなり、文書の比較をおこないやすくなる。
また、比較対象文書の列を文書の更新日付の順に並べることもできる。また、奥行き方向に別の基準で並べることもできる。
また、近接配置したページ間の類似度の平均値が所定の閾値に満たない文書は、その比較対象文書の列を非表示としてもよい。こうすることにより、多数の文書を比較対象とした場合に比較結果を確認しやすくなる。
また、最も類似するキー文書のページとの類似度が所定の閾値に満たない比較対象文書ページは、非表示としてもよい。こうすることにより、近接配置されたページに一定以上の類似度があることが保障され、文書間の類似を比較しやすくなる。
次に、本実施例に係る電子文書比較装置の構成について説明する。図4は、本実施例に係る電子文書比較装置の構成を示す機能ブロック図である。同図に示すように、電子文書比較装置100は、操作部110と、表示部120と、制御部130と、文書格納部140と、媒体読取部150と、ネットワークインターフェース部160と、解析結果DB170とを有する。
操作部110は、ユーザの操作を受付ける装置であり、たとえば、キーボードやマウスからなる。表示部120は、処理結果等を表示する装置であり、たとえば、液晶表示装置からなる。制御部130は、電子文書比較装置100を全体制御する制御部であり、ページ解析部131と、特徴抽出部132と、キー文書配置部133と、比較対象文書配置部134と、ページ比較部135と、比較結果出力部136とを有する。
ページ解析部131は、キー文書および比較対象文書をページ単位で解析して特長を抽出し、特徴情報として解析結果DB170へ格納する処理部である。また、ページ解析部131は、これらの文書の各ページのサムネイル画像を作成し、これらを対応するページの特徴情報と関連付けて解析結果DB170へ格納する。
キー文書および比較対象文書は、文書格納部140、媒体読取部150もしくはネットワークインターフェース部160から取得される。文書格納部140は、各種の文書を格納することが可能な記憶装置であり、磁気ディスク装置などからなる。媒体読取部150は、各種の文書を格納したCD−ROM等の記録媒体を読み取る装置である。ネットワークインターフェース部160は、他のサーバ装置上に格納された各種文書をネットワークを介して取得するための通信装置である。
なお、キー文書および比較対象文書は、ユーザが操作部110を介して指定したものであってもよいし、文書検索システムのような他の装置もしくはプログラムから出力されたものであってもよい。
特徴抽出部132、文書中の特定のページの特徴を数値化して評価する処理部であり、ページの解析をおこなう際にページ解析部131によって呼び出される。ページの特徴を数値化する手法には様々なものがあるが、特徴抽出部132は、複数の手法をもちいてページの特徴を数値化し、ページ解析部131は、それらの数値を手法の種別と対応付けて解析結果DB170へ格納する。
ページの特徴を数値化する手法は、どのようなものをもちいてもよいが、たとえば、色の特徴を数値化する手法であるHSI色ヒストグラムをもちいることができる。色ヒストグラムは、画像の各画素のRGB値をHSI色座標系に投影し、その座標系における空間分布をベクトルとして表したものである。画素のRGB値は、以下のようにしてHSI値に変換される。
R、G、B値は0〜1のレンジを持つとものとし、入力されたR、G、B値の中で最大のものをmax、最小のものをminとする。
ここで、I=(max+min)/2として、
1)max=minなら、S = 0 (Hは不定になる)
2)I <= 0.5 なら、S=(max−min)/ (max+min)
3)それ以外ならば、S=(max−min)/ (2−max−min)
とする。
また、delta = max−min として、
1)max = Rだった場合は、H=(G−B)/delta*60
2)max = Gだった場合は、H=(2+(B−R)/delta)*60
3)max = Bだった場合は、H=(2+(R−G)/delta)*60
とし、H<0の場合は、H=H+360とする。
そして、算出されたH(0〜360)、S(0〜1)、I(0〜1)を出力とする。Hを0〜1のレンジにするには、360で割ればよい。
また,形状の特徴を数値化する手法であるWavelet変換という手法をもちいることもできる。Wavelet変換では、画像を解析し、画面上の位置とその位置における周波数(細かい変化があるか、大きな変化があるかといった情報)を求める。
関数fに対するWavelet関数Wfは、周波数aと位置bを引数にもち、数式1で表される。
Figure 2007115193
ここで、Ψはマザーウェーブレットと呼ばれる関数である。入力を離散化し、二重に適用することで、2次元画像の解析に利用できる。
また、前述した特願2005−140135に記載されている手法をもちいてレイアウトの特徴を数値化することもできる。
また、単語出現頻度をページの特徴とすることもできる。単語出現頻度は、テキストに対し形態素解析処理を行い、各文法要素(名詞、動詞、助詞など)に分解して、名詞などの要素についてその出現頻度を算出したものである。文書のジャンル等が決まっている場合は、あらかじめ指定した単語の出現頻度を計算するようにするだけもよい。
なお、これらの数値の算出は、可能であれば、文書の比較をおこなう前におこなっておいてもよい。予め比較の対象となりうる文書のページの解析をおこなっておき、結果を解析結果DB170へ格納しておくことにより、文書の比較時に特徴抽出部132の計算処理を省略化することができ、処理時間が短縮される。
キー文書配置部133は、キー文書として指定された文書の各ページのサムネイル画像を配置する処理部である。キー文書のサムネイル画像は、ページ順に一列に配置される。
比較対象文書配置部134は、比較対象文書として指定された文書の各ページのサムネイル画像を配置する処理部である。比較対象文書のサムネイル画像の配置は、キーページが指定されているか否かによって異なる。
キーページが指定されている場合、比較対象文書配置部134は、解析結果DB170からキーページの特徴情報を取得する。そして、配置対象の比較対象文書の各ページの特徴情報を解析結果DB170から取得し、キーページの特徴情報と比較して最も類似しているページを選択する。
こうしてキーページと最も類似しているページを選択したならば、このページとキーページとの類似度を距離に換算して、この距離分だけ間隔を空けて配置対象の比較対象文書の各ページのサムネイル画像をページ順に一列にキーページの列と平行に配置する。最後に、キーページと最も類似しているページのサムネイル画像がキーページに近接するように比較対象文書の列を列方向にシフトして配置が完了する。
キーページが指定されていない場合、比較対象文書配置部134は、解析結果DB170からキー文書の各ページの特徴情報を取得する。そして、配置対象の比較対象文書の各ページの特徴情報を解析結果DB170から順次取得し、そのページがキー文書のどのページに最も類似しているかを判定し、最も類似していると判定したキー文書のページ上にそのページのサムネイル画像を配置する。この際、2つのページの類似度を距離に換算しておく。
こうして全てのページを配置したならば、類似度を換算した距離の平均値をもとめ、この平均値分だけ比較対象文書の列を列と垂直方向にシフトして配置が完了する。
ページ比較部135は、特徴情報に基づいて2つのページの類似度を評価する処理部であり、ページの類似比較をおこなう際に比較対象文書配置部134によって呼び出される。ページの類似比較は、全ての数字化した情報に基づいておこなってもよいし、文書の種別にあわせて、もしくは、ユーザの指定に従って一部の数値に基づいておこなってもよい。また、数値の種別ごとに重み付けを変えるようにしてもよい。
具体的な類似度は、たとえば、特徴量をベクトルとみなし、その距離を算出するユークリッド距離値などを利用して求めることができる。キーページの特徴量と各文書内のページの特徴量との距離値を算出し、距離値が小さいほど類似度が大きいとみなす。ユークリッド距離は、以下のようにして算出できる。
二つのベクトルをv=(v1,v3,v2…vn)、u=(u1,u3,u2…un)とした場合、ユークリッド距離dist(v,u)は以下の数式2により計算される。
Figure 2007115193
式の最後にルート処理を行わずに自乗のままで計算することも可能である。閾値を指定して閾値以下の類似度(閾値以上の距離値)を持つ場合は、類似ページが存在しないとみなすこともできる。
比較結果出力部136は、キー文書配置部133と比較対象文書配置部134の配置結果を表示部120もしくは図示していない印刷装置へ出力する処理部である。サムネイル画像を表示させるにあたっては、同一の位置に重なっているサムネイルが隠れて全く見えなくならないように、図3のようにサムネイル画像の重なりを擬似的に3次元的に表現してもよい。
また、比較対象文書のサムネイル画像が重なっている場合には、類似度が最も高いページが最上位に表示されるようにしてもよい。また、ユーザの指定により表示の一部もしくは全体を拡大縮小表示できるようにしてもよい。
次に、電子文書比較装置100の処理手順について説明する。図5は、図4に示した電子文書比較装置100の処理手順を示すフローチャートである。ここでは、ユーザによってキー文書と比較対象文書が指定され、これらの文書の各ページが解析され、特徴情報が解析結果DB170に既に格納されているものとする。
同図に示すように、まず、キー文書配置部133が、キー文書のサムネイル画像をページ順に一列に配置する(ステップS101)。続いて、キーページの指定がある場合は(ステップS102肯定)、比較対象文書配置部134が後述する比較対象文書整列配置処理をおこない(ステップS103)、キーページの指定がない場合は(ステップS102否定)、後述する比較対象文書自由配置処理をおこなう(ステップS104)。そして、比較結果出力部136が、配置結果を出力して処理が完了する(ステップS105)。
図6は、図5に示した比較対象文書整列配置処理の処理手順を示すフローチャートである。同図に示すように、まず、配置が完了していない比較対象文書を一つ選択する(ステップS201)。ここで、全ての比較対象文書を配置済であれば(ステップS202肯定)、処理を完了する。
配置が完了していない比較対象文書を取得した場合は(ステップS202否定)、比較対象文書の各ページとキーページの類似度を求め(ステップS203)、キーページと最も類似する比較対象文書のページを選択する(ステップS204)。そして、選択したページとキーページの類似度を距離に換算し(ステップS205)、この距離分キー文書の列から離して、比較対象文書のサムネイル画像をページ順に、かつ、キー文書の列と並列に配置する(ステップS206)。
そして、選択したページがキーページに近接するように比較対象文書の列を列方向にシフトする(ステップS207)。これで、この比較対象文書の配置は完了し、ステップS201へ復帰して次の比較対象文書の処理へ移行する。
図7は、図5に示した比較対象文書自由配置処理の処理手順を示すフローチャートである。同図に示すように、まず、配置が完了していない比較対象文書を一つ選択する(ステップS301)。ここで、全ての比較対象文書を配置済であれば(ステップS302肯定)、処理を完了する。
配置が完了していない比較対象文書を取得した場合は(ステップS302否定)、比較対象文書の各ページを順次選択して(ステップS303)、以下の処理をおこなう。
まず、キー文書の各ページと選択したページの類似度を求める(ステップS305)。続いて、選択したページと最も類似するキー文書のページを判定し(ステップS306)、このページとの類似度を距離に換算する(ステップS307)。そして、選択したページのサムネイル画像を、これと最も類似するキー文書のページのサムネイル画像と同位置に配置する(ステップS308)。
比較対象文書の全てのページについて上記の処理をおこなったならば(ステップS304肯定)、ステップS307で換算した距離の平均値を算出し(ステップS309)、この距離の平均値の分だけ比較対象文書のサムネイル画像の列を列方向と垂直方向にシフトする(ステップS310)。これで、この比較対象文書の配置は完了し、ステップS301へ復帰して次の比較対象文書の処理へ移行する。
上記実施例で説明した電子文書比較装置100の各種の処理は、あらかじめ用意された電子文書比較プログラムをコンピュータで実行することによって実現することができる。そこで、以下では、図8をもちいて、電子文書比較プログラムを実行するコンピュータの一例を説明する。
図8は、電子文書比較プログラムを実行するコンピュータを示す機能ブロック図である。このコンピュータ1000は、ユーザからのデータの入力を受け付ける入力装置1010、モニタ1020、各種プログラムを記録した記録媒体からプログラムを読み取る媒体読取り装置1030、各種情報を一時記憶するRAM(Random Access Memory)1040、ネットワークを介して他のコンピュータとの間でデータの授受をおこなうネットワークインターフェース装置1050、HDD(Hard Disk Drive)1060およびCPU(Central Processing Unit)1070をバス1080で接続して構成される。
そして、HDD1060には、電子文書比較装置100の機能と同様の機能を発揮するプログラムである電子文書比較プログラム1060cが記憶されている。HDD1060には、図4の文書格納部140に対応する文書格納領域1060aと、解析結果DB170に対応する解析結果DB1060bも存在する。
そして、CPU1070が、電子文書比較プログラム1060cをHDD1060から読み出して実行することにより、同プログラムは、電子文書比較プロセス1070aとして機能するようになる。この電子文書比較プロセス1070aは、図4に示した制御部130に対応する。
また、CPU1070は、HDD1060の文書格納領域1060aから適宜必要な情報を読み出してRAM1040に文書データ1040aとして格納し、解析結果DB1060bから適宜必要な情報を読み出してRAM1040に解析データ1040bとして格納する。そして、このRAM1040に格納された文書データ1040aおよび解析データ1040bに基づいて各種データ処理を実行する。
なお、上記の電子文書比較プログラム1060cについては、必ずしもHDD1060に格納されている必要はなく、CD−ROM等の記憶媒体に記憶された電子文書比較プログラム1060cを、コンピュータ1000が読み出して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WAN等を介してコンピュータ1000に接続される他のコンピュータ(またはサーバ)などに電子文書比較プログラム1060cを記憶させておき、コンピュータ1000がこれらからプログラムを読み出して実行するようにしてもよい。
上述してきたように、本実施例では、キー文書を構成するページのサムネイル画像を一列に配置し、さらに、比較対象文書を構成するページのサムネイル画像をキー文書を構成するページとの類似度合いに応じた位置に配置することとしたので、文書を一つずつ開いて内容を確認することなく、キー文書と比較対象文書の類似度合いを確認することができる。
そして、キー文書と、これと類似する比較対象文書に注目することにより、ユーザは自分の必要とする文書を容易に選択することができる。
なお、上記の実施例では、本発明を再利用する文書を選択する目的で利用する目的で利用する場合について説明したが、本発明は他の用途においても有用である。
(付記1)キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較プログラムであって、
キー文書と比較対象文書の類似度合いをページ単位で比較する比較手順と、
キー文書のページのサムネイル画像をページ順に配置するキー文書配置手順と、
前記比較手順をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手順と、
前記キー文書配置手順と比較文書配置手順の配置結果を出力する出力手順と
をコンピュータに実行させることを特徴とする電子文書比較プログラム。
(付記2)前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置手順は、キー文書から選択されたキーページと比較対象文書のページを前記比較手順をもちいて比較し、キーページと最も類似するページのサムネイル画像が最もキーページのサムネイル画像と近接するように比較対象文書をページ順に、かつ、キー文書と並列に一列に配置することを特徴とする付記1に記載の電子文書比較プログラム。
(付記3)前記比較文書配置手順は、前記キーページと、これと最も類似する比較対象文書のページとの類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記2に記載の電子文書比較プログラム。
(付記4)前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像間を結ぶ線を配置することを特徴とする付記2または3に記載の電子文書比較プログラム。
(付記5)前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像に他の組合せと異なる色の枠を配置することを特徴とする付記2または3に記載の電子文書比較プログラム。
(付記6)前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、同一の比較対象文書のサムネイル画像がキー文書と並列に並び、かつ、比較対象文書の各ページのサムネイル画像が該ページと最も類似するキー文書のサムネイル画像と近接するように配置することを特徴とする付記1に記載の電子文書比較プログラム。
(付記7)前記比較文書配置手順は、キー文書と比較対象文書の類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記6に記載の電子文書比較プログラム。
(付記8)前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、キー文書の各ページとの類似度合いが所定の閾値よりも低い場合は、比較対象文書のそのページのサムネイル画像を配置しないことを特徴とする付記6または7に記載の電子文書比較プログラム。
(付記9)キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較装置であって、
キー文書と比較対象文書の類似度合いをページ単位で比較する比較手段と、
キー文書のページのサムネイル画像をページ順に配置するキー文書配置手段と、
前記比較手段をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手段と、
前記キー文書配置手段と比較文書配置手段の配置結果を出力する出力手段と
を含んだことを特徴とする電子文書比較装置。
(付記10)前記キー文書配置手段は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置手段は、キー文書から選択されたキーページと比較対象文書のページを前記比較手段をもちいて比較し、キーページと最も類似するページのサムネイル画像が最もキーページのサムネイル画像と近接するように比較対象文書をページ順に、かつ、キー文書と並列に一列に配置することを特徴とする付記9に記載の電子文書比較装置。
(付記11)前記比較文書配置手段は、前記キーページと、これと最も類似する比較対象文書のページとの類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記10に記載の電子文書比較装置。
(付記12)前記比較文書配置手段は、キー文書の各ページと比較対象文書の各ページを前記比較手段をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像間を結ぶ線を配置することを特徴とする付記10または11に記載の電子文書比較装置。
(付記13)前記比較文書配置手段は、キー文書の各ページと比較対象文書の各ページを前記比較手段をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像に他の組合せと異なる色の枠を配置することを特徴とする付記10または11に記載の電子文書比較装置。
(付記14)前記キー文書配置手段は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置手段は、比較対象文書のページを前記比較手段をもちいてキー文書の各ページと比較し、同一の比較対象文書のサムネイル画像がキー文書と並列に並び、かつ、比較対象文書の各ページのサムネイル画像が該ページと最も類似するキー文書のサムネイル画像と近接するように配置することを特徴とする付記9に記載の電子文書比較装置。
(付記15)前記比較文書配置手段は、キー文書と比較対象文書の類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記14に記載の電子文書比較装置。
(付記16)前記比較文書配置手段は、比較対象文書のページを前記比較手段をもちいてキー文書の各ページと比較し、キー文書の各ページとの類似度合いが所定の閾値よりも低い場合は、比較対象文書のそのページのサムネイル画像を配置しないことを特徴とする付記14または15に記載の電子文書比較装置。
(付記17)キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較方法であって、
キー文書と比較対象文書の類似度合いをページ単位で比較する比較工程と、
キー文書のページのサムネイル画像をページ順に配置するキー文書配置工程と、
前記比較工程の結果をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置工程と、
前記キー文書配置工程と比較文書配置工程の配置結果を出力する出力工程と
を含んだことを特徴とする電子文書比較方法。
(付記18)前記キー文書配置工程は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置工程は、キー文書から選択されたキーページと比較対象文書のページを前記比較工程の結果をもちいて比較し、キーページと最も類似するページのサムネイル画像が最もキーページのサムネイル画像と近接するように比較対象文書をページ順に、かつ、キー文書と並列に一列に配置することを特徴とする付記17に記載の電子文書比較方法。
(付記19)前記比較文書配置工程は、前記キーページと、これと最も類似する比較対象文書のページとの類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記18に記載の電子文書比較方法。
(付記20)前記比較文書配置工程は、キー文書の各ページと比較対象文書の各ページを前記比較工程の結果をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像間を結ぶ線を配置することを特徴とする付記18または19に記載の電子文書比較方法。
(付記21)前記比較文書配置工程は、キー文書の各ページと比較対象文書の各ページを前記比較工程の結果をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像に他の組合せと異なる色の枠を配置することを特徴とする付記18または19に記載の電子文書比較方法。
(付記22)前記キー文書配置工程は、キー文書のページのサムネイル画像をページ順に一列に配置し、
前記比較文書配置工程は、比較対象文書のページを前記比較工程の結果をもちいてキー文書の各ページと比較し、同一の比較対象文書のサムネイル画像がキー文書と並列に並び、かつ、比較対象文書の各ページのサムネイル画像が該ページと最も類似するキー文書のサムネイル画像と近接するように配置することを特徴とする付記17に記載の電子文書比較方法。
(付記23)前記比較文書配置工程は、キー文書と比較対象文書の類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする付記22に記載の電子文書比較方法。
(付記24)前記比較文書配置工程は、比較対象文書のページを前記比較工程の結果をもちいてキー文書の各ページと比較し、キー文書の各ページとの類似度合いが所定の閾値よりも低い場合は、比較対象文書のそのページのサムネイル画像を配置しないことを特徴とする付記22または23に記載の電子文書比較方法。
以上のように、本発明に係る電子文書比較プログラム、電子文書比較装置および電子文書比較方法は、電子文書の比較に有用であり、特に、類似する文書が多数混在する場合であっても必要とする文書を容易に見つけ出すことが必要な場合に適している。
本実施例に係る電子文書比較方式の出力結果の一例を示すサンプル図である。 本実施例に係る電子文書比較方式の出力結果の一例を示すサンプル図である。 本実施例に係る電子文書比較方式の出力結果の一例を示すサンプル図である。 本実施例に係る電子文書比較装置の構成を示す機能ブロック図である。 図4に示した電子文書比較装置の処理手順を示すフローチャートである。 図5に示した比較対象文書整列配置処理の処理手順を示すフローチャートである。 図5に示した比較対象文書自由配置処理の処理手順を示すフローチャートである。 電子文書比較プログラムを実行するコンピュータを示す機能ブロック図である。
符号の説明
100 電子文書比較装置
110 操作部
120 表示部
130 制御部
131 ページ解析部
132 特徴抽出部
133 キー文書配置部
134 比較対象文書配置部
135 ページ比較部
136 比較結果出力部
140 文書格納部
150 媒体読取部
160 ネットワークインターフェース部
170 解析結果DB
1000 コンピュータ
1010 入力装置
1020 モニタ
1030 媒体読取り装置
1040 RAM
1040a 文書データ
1040b 解析データ
1050 ネットワークインターフェース装置
1060 HDD
1060a 文書格納領域
1060b 解析結果DB
1060c 電子文書比較プログラム
1070 CPU
1070a 電子文書比較プロセス
1080 バス

Claims (10)

  1. キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較プログラムであって、
    キー文書と比較対象文書の類似度合いをページ単位で比較する比較手順と、
    キー文書のページのサムネイル画像をページ順に配置するキー文書配置手順と、
    前記比較手順をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手順と、
    前記キー文書配置手順と比較文書配置手順の配置結果を出力する出力手順と
    をコンピュータに実行させることを特徴とする電子文書比較プログラム。
  2. 前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、
    前記比較文書配置手順は、キー文書から選択されたキーページと比較対象文書のページを前記比較手順をもちいて比較し、キーページと最も類似するページのサムネイル画像が最もキーページのサムネイル画像と近接するように比較対象文書をページ順に、かつ、キー文書と並列に一列に配置することを特徴とする請求項1に記載の電子文書比較プログラム。
  3. 前記比較文書配置手順は、前記キーページと、これと最も類似する比較対象文書のページとの類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする請求項2に記載の電子文書比較プログラム。
  4. 前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像間を結ぶ線を配置することを特徴とする請求項2または3に記載の電子文書比較プログラム。
  5. 前記比較文書配置手順は、キー文書の各ページと比較対象文書の各ページを前記比較手順をもちいて比較し、類似度が所定の値よりも高いページの組合せに対応するサムネイル画像に他の組合せと異なる色の枠を配置することを特徴とする請求項2または3に記載の電子文書比較プログラム。
  6. 前記キー文書配置手順は、キー文書のページのサムネイル画像をページ順に一列に配置し、
    前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、同一の比較対象文書のサムネイル画像がキー文書と並列に並び、かつ、比較対象文書の各ページのサムネイル画像が該ページと最も類似するキー文書のサムネイル画像と近接するように配置することを特徴とする請求項1に記載の電子文書比較プログラム。
  7. 前記比較文書配置手順は、キー文書と比較対象文書の類似度合いが高いほど、キー文書の列と比較対象文書の列の距離が近くなるように列を配置することを特徴とする請求項6に記載の電子文書比較プログラム。
  8. 前記比較文書配置手順は、比較対象文書のページを前記比較手順をもちいてキー文書の各ページと比較し、キー文書の各ページとの類似度合いが所定の閾値よりも低い場合は、比較対象文書のそのページのサムネイル画像を配置しないことを特徴とする請求項6または7に記載の電子文書比較プログラム。
  9. キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較装置であって、
    キー文書と比較対象文書の類似度合いをページ単位で比較する比較手段と、
    キー文書のページのサムネイル画像をページ順に配置するキー文書配置手段と、
    前記比較手段をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置手段と、
    前記キー文書配置手段と比較文書配置手段の配置結果を出力する出力手段と
    を含んだことを特徴とする電子文書比較装置。
  10. キー文書と比較対象文書とを比較し、比較結果を出力する電子文書比較方法であって、
    キー文書と比較対象文書の類似度合いをページ単位で比較する比較工程と、
    キー文書のページのサムネイル画像をページ順に配置するキー文書配置工程と、
    前記比較工程の結果をもちいて比較対象文書のページとキー文書のページとの類似度合いを求め、その類似度合いに応じた位置に比較対象文書のページのサムネイル画像を配置する比較文書配置工程と、
    前記キー文書配置工程と比較文書配置工程の配置結果を出力する出力工程と
    を含んだことを特徴とする電子文書比較方法。
JP2005308721A 2005-10-24 2005-10-24 電子文書比較プログラム、電子文書比較装置および電子文書比較方法 Expired - Fee Related JP4918776B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005308721A JP4918776B2 (ja) 2005-10-24 2005-10-24 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
US11/340,742 US7783976B2 (en) 2005-10-24 2006-01-27 Method and apparatus for comparing documents, and computer product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005308721A JP4918776B2 (ja) 2005-10-24 2005-10-24 電子文書比較プログラム、電子文書比較装置および電子文書比較方法

Publications (2)

Publication Number Publication Date
JP2007115193A true JP2007115193A (ja) 2007-05-10
JP4918776B2 JP4918776B2 (ja) 2012-04-18

Family

ID=37986699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005308721A Expired - Fee Related JP4918776B2 (ja) 2005-10-24 2005-10-24 電子文書比較プログラム、電子文書比較装置および電子文書比較方法

Country Status (2)

Country Link
US (1) US7783976B2 (ja)
JP (1) JP4918776B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164292A (ja) * 2011-02-09 2012-08-30 Seiko Epson Corp 表示制御方法、表示装置および電子機器
JP2014067414A (ja) * 2012-09-25 2014-04-17 Boeing Co パノラマ的な視覚化文書差分
JP2014211788A (ja) * 2013-04-19 2014-11-13 コニカミノルタ株式会社 電子文書閲覧システムおよびプログラム
JP2016045564A (ja) * 2014-08-20 2016-04-04 富士ゼロックス株式会社 画像処理装置およびプログラム

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257308A (ja) * 2006-03-23 2007-10-04 Canon Inc 文書管理装置、文書管理システム、及びその制御方法、プログラム、記憶媒体
US7680858B2 (en) * 2006-07-05 2010-03-16 Yahoo! Inc. Techniques for clustering structurally similar web pages
US7676465B2 (en) * 2006-07-05 2010-03-09 Yahoo! Inc. Techniques for clustering structurally similar web pages based on page features
US7941420B2 (en) 2007-08-14 2011-05-10 Yahoo! Inc. Method for organizing structurally similar web pages from a web site
US9892111B2 (en) * 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
JP2008146602A (ja) 2006-12-13 2008-06-26 Canon Inc 文書検索装置、文書検索方法、プログラム及び記憶媒体
CN101669119B (zh) * 2007-04-27 2012-08-08 日本电气株式会社 内容处理装置和内容处理方法
CA2601154C (en) 2007-07-07 2016-09-13 Mathieu Audet Method and system for distinguising elements of information along a plurality of axes on a basis of a commonality
US8601392B2 (en) 2007-08-22 2013-12-03 9224-5489 Quebec Inc. Timeline for presenting information
US20090063538A1 (en) * 2007-08-30 2009-03-05 Krishna Prasad Chitrapura Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site
US20090125529A1 (en) * 2007-11-12 2009-05-14 Vydiswaran V G Vinod Extracting information based on document structure and characteristics of attributes
CA2657835C (en) 2008-03-07 2017-09-19 Mathieu Audet Documents discrimination system and method thereof
KR20100053186A (ko) * 2008-11-12 2010-05-20 삼성전자주식회사 썸네일 생성 방법 및 화상형성장치
US20100169311A1 (en) * 2008-12-30 2010-07-01 Ashwin Tengli Approaches for the unsupervised creation of structural templates for electronic documents
US20100223214A1 (en) * 2009-02-27 2010-09-02 Kirpal Alok S Automatic extraction using machine learning based robust structural extractors
US20100228738A1 (en) * 2009-03-04 2010-09-09 Mehta Rupesh R Adaptive document sampling for information extraction
US9046991B2 (en) * 2009-11-30 2015-06-02 Hewlett-Packard Development Company, L.P. System and method for dynamically displaying structurally dissimilar thumbnail images of an electronic document
US8650195B2 (en) 2010-03-26 2014-02-11 Palle M Pedersen Region based information retrieval system
WO2011137386A1 (en) * 2010-04-30 2011-11-03 Orbis Technologies, Inc. Systems and methods for semantic search, content correlation and visualization
US9189129B2 (en) 2011-02-01 2015-11-17 9224-5489 Quebec Inc. Non-homogeneous objects magnification and reduction
CA2790799C (en) 2011-09-25 2023-03-21 Mathieu Audet Method and apparatus of navigating information element axes
US9104760B2 (en) 2011-12-21 2015-08-11 The Boeing Company Panoptic visualization document database management
US10268761B2 (en) 2011-12-21 2019-04-23 The Boeing Company Panoptic visualization document collection
US9524342B2 (en) 2011-12-21 2016-12-20 The Boeing Company Panoptic visualization document navigation
US9495476B2 (en) 2012-03-23 2016-11-15 The Boeing Company Panoptic visualization of an illustrated parts catalog
US9146988B2 (en) 2012-06-05 2015-09-29 King Fahd University Of Petroleum And Minerals Hierarchal clustering method for large XML data
US9519693B2 (en) 2012-06-11 2016-12-13 9224-5489 Quebec Inc. Method and apparatus for displaying data element axes
US9646080B2 (en) 2012-06-12 2017-05-09 9224-5489 Quebec Inc. Multi-functions axis-based interface
KR101636902B1 (ko) * 2012-08-23 2016-07-06 에스케이텔레콤 주식회사 문법의 오류 검출 방법 및 이를 위한 장치
US10268662B2 (en) 2012-09-10 2019-04-23 The Boeing Company Panoptic visualization of a document according to the structure thereof
US10824680B2 (en) 2012-10-02 2020-11-03 The Boeing Company Panoptic visualization document access control
US9875220B2 (en) 2012-11-09 2018-01-23 The Boeing Company Panoptic visualization document printing
US9734625B2 (en) 2013-01-28 2017-08-15 The Boeing Company Panoptic visualization of a three-dimensional representation of a complex system
US9665557B2 (en) 2013-01-28 2017-05-30 The Boeing Company Panoptic visualization of elements of a complex system using localization of a point on a physical instance of the complex system
US9858245B2 (en) 2013-01-28 2018-01-02 The Boeing Company Panoptic visualization of elements of a complex system using a model viewer
US9098593B2 (en) 2013-04-23 2015-08-04 The Boeing Company Barcode access to electronic resources for lifecycle tracking of complex system parts
US8887993B2 (en) 2013-04-23 2014-11-18 The Boeing Company Barcode access to electronic resources for complex system parts
US9529932B2 (en) * 2014-01-24 2016-12-27 King Fahd University Of Petroleum And Minerals XML node labeling and querying using logical operators
US9841870B2 (en) 2014-08-21 2017-12-12 The Boeing Company Integrated visualization and analysis of a complex system
US9489597B2 (en) 2014-08-21 2016-11-08 The Boeing Company Visualization and analysis of a topical element of a complex system
US10191997B2 (en) 2014-08-21 2019-01-29 The Boeing Company Visualization and diagnostic analysis of interested elements of a complex system
US20160283678A1 (en) * 2015-03-25 2016-09-29 Palo Alto Research Center Incorporated System and method for providing individualized health and wellness coaching
CA3007166C (en) 2017-06-05 2024-04-30 9224-5489 Quebec Inc. Method and apparatus of aligning information element axes
US11144337B2 (en) * 2018-11-06 2021-10-12 International Business Machines Corporation Implementing interface for rapid ground truth binning
CN112580308A (zh) * 2020-12-15 2021-03-30 北京百度网讯科技有限公司 文档比对方法、装置、电子设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243172A (ja) * 1993-02-18 1994-09-02 Ricoh Co Ltd 電子ファイル装置
JPH09237282A (ja) * 1996-03-01 1997-09-09 Ricoh Co Ltd 文書画像データベース検索方法、画像特徴ベクトル抽出方法、文書画像閲覧システム、機械読み取り可能な媒体及び画像表示方法
JP2001134578A (ja) * 1999-11-02 2001-05-18 Hitachi Ltd データ検索方法および装置並びにその処理プログラムを記録した記録媒体
JP2001142880A (ja) * 1999-11-15 2001-05-25 Canon Inc 文書管理装置、文書管理方法および記憶媒体
JP2001297114A (ja) * 2000-04-11 2001-10-26 Fuji Xerox Co Ltd 文書処理装置
JP2002063215A (ja) * 2000-05-31 2002-02-28 Ricoh Co Ltd 文書表示方法及びシステム、コンピュータプログラム、記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
JP2000148793A (ja) 1998-09-11 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
US6542635B1 (en) * 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US7805446B2 (en) * 2004-10-12 2010-09-28 Ut-Battelle Llc Agent-based method for distributed clustering of textual information
JP2005140135A (ja) 2005-03-02 2005-06-02 Sanyo Electric Co Ltd スクロール圧縮機

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243172A (ja) * 1993-02-18 1994-09-02 Ricoh Co Ltd 電子ファイル装置
JPH09237282A (ja) * 1996-03-01 1997-09-09 Ricoh Co Ltd 文書画像データベース検索方法、画像特徴ベクトル抽出方法、文書画像閲覧システム、機械読み取り可能な媒体及び画像表示方法
JP2001134578A (ja) * 1999-11-02 2001-05-18 Hitachi Ltd データ検索方法および装置並びにその処理プログラムを記録した記録媒体
JP2001142880A (ja) * 1999-11-15 2001-05-25 Canon Inc 文書管理装置、文書管理方法および記憶媒体
JP2001297114A (ja) * 2000-04-11 2001-10-26 Fuji Xerox Co Ltd 文書処理装置
JP2002063215A (ja) * 2000-05-31 2002-02-28 Ricoh Co Ltd 文書表示方法及びシステム、コンピュータプログラム、記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164292A (ja) * 2011-02-09 2012-08-30 Seiko Epson Corp 表示制御方法、表示装置および電子機器
JP2014067414A (ja) * 2012-09-25 2014-04-17 Boeing Co パノラマ的な視覚化文書差分
JP2014211788A (ja) * 2013-04-19 2014-11-13 コニカミノルタ株式会社 電子文書閲覧システムおよびプログラム
JP2016045564A (ja) * 2014-08-20 2016-04-04 富士ゼロックス株式会社 画像処理装置およびプログラム

Also Published As

Publication number Publication date
JP4918776B2 (ja) 2012-04-18
US7783976B2 (en) 2010-08-24
US20070094615A1 (en) 2007-04-26

Similar Documents

Publication Publication Date Title
JP4918776B2 (ja) 電子文書比較プログラム、電子文書比較装置および電子文書比較方法
RU2429540C2 (ru) Устройство для обработки изображений, способ обработки изображений и считываемый компьютером носитель информации
JP5659563B2 (ja) 識別方法、識別装置およびコンピュータプログラム
WO2018028583A1 (zh) 字幕提取方法及装置、存储介质
JP4781924B2 (ja) 文書画像のコンテント適応スケーリング用ホワイトスペースグラフ及びツリー
US20200065601A1 (en) Method and system for transforming handwritten text to digital ink
US8144995B2 (en) System and method for searching digital images
US8762873B2 (en) Graphical user interface component identification
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
CA2676487C (en) Method for emphasizing differences in graphical appearance between an original document and a modified document with annotations
US7616813B2 (en) Background area extraction in document layout analysis
JP2007164648A (ja) 類似画像検索装置、類似画像検索方法、プログラム及び情報記録媒体
JP2004240750A (ja) 画像検索装置
JP2009105594A (ja) 画像処理装置及び画像処理方法
JP4730775B2 (ja) 画像処理装置
US11055526B2 (en) Method, system and apparatus for processing a page of a document
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP2009031937A (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP2013008142A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP4040905B2 (ja) 縮小画像表示装置、方法、プログラムおよびプログラムを記録した記録媒体
JP2004240751A (ja) 画像検索装置
JP7026386B2 (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2008257537A (ja) 情報登録装置、情報検索装置、情報検索システム、情報登録プログラム、および情報検索プログラム
JP4548062B2 (ja) 画像処理装置
Pack et al. Perceptual cue-guided adaptive image downscaling for enhanced semantic segmentation on large document images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120117

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150210

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees