JP6662132B2 - 情報処理装置、情報処理システム及びプログラム - Google Patents

情報処理装置、情報処理システム及びプログラム Download PDF

Info

Publication number
JP6662132B2
JP6662132B2 JP2016053997A JP2016053997A JP6662132B2 JP 6662132 B2 JP6662132 B2 JP 6662132B2 JP 2016053997 A JP2016053997 A JP 2016053997A JP 2016053997 A JP2016053997 A JP 2016053997A JP 6662132 B2 JP6662132 B2 JP 6662132B2
Authority
JP
Japan
Prior art keywords
document
thumbnail image
page
image
thumbnail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016053997A
Other languages
English (en)
Other versions
JP2016173822A (ja
Inventor
圭輔 中沢
圭輔 中沢
有登 柴田
有登 柴田
大介 岡田
大介 岡田
ゼン 顧
ゼン 顧
暁子 北山
暁子 北山
潤田 浩也
浩也 潤田
優香 斎藤
優香 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2016173822A publication Critical patent/JP2016173822A/ja
Application granted granted Critical
Publication of JP6662132B2 publication Critical patent/JP6662132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、情報処理装置、情報処理システム及びプログラムに関する。
従来から、情報処理装置や画像形成装置の分野において、多数の文書を記憶手段に蓄積しておき、ユーザがその中から任意に文書を選択して表示や印刷等の処理を行えるようにすることが行われている。また、文書の選択を受け付ける場合に、文書名、蓄積日時、印刷設定といった文書の属性の情報を表示する他、文書を表示や印刷した場合に表れる画像を縮小したサムネイル画像を表示し、ユーザが文書の内容を把握しやすくすることも行われている。
ここで、サムネイル画像を作成する場合、単純に各文書の1ページ目の画像に基づき作成することも考えられる。しかし、このような単純な作成法では、似たサムネイル画像が多くなってしまい、文書を識別しづらくなってしまう場合があるという問題があった。例えば、表紙のフォーマットが共通する文書が多数ある場合である。
このような問題に対処するための技術として、例えば特許文献1及び2に記載のものが知られている。
特許文献1には、文書に含まれる各ページの画像データについて特徴量を算出し、その各特徴量を基準の特徴量と比較して、最も類似度が高いページの画像に基づきサムネイル画像を生成することが記載されている。
特許文献2には、複数の文書のサムネイル画像に対してクラスタリング処理を行い、その結果互いに類似するサムネイル画像のグループがあった場合に、そのグループ内の各文書のサムネイル画像を、現在使用しているページの次のページの画像に基づいて再生成することが記載されている。
しかし、特許文献1に記載の技術では、複数の文書においてサムネイル画像が似たものになってしまう点について直接の考慮はされておらず、似たサムネイル画像ができることを防止したいという要求に十分応えられていなかった。
また、特許文献2に記載の技術では、サムネイル画像の生成に用いるページは、ページ順に従って決定されるため、必ずしも各文書の内容を代表するものとならないという問題があった。
この発明は、このような問題を解決し、複数の文書について、ユーザがそれらの文書を区別しやすくかつ各文書の内容も把握しやすいようなサムネイル画像を生成できるようにすることを目的とする。
この発明は、上記の目的を達成するため、情報処理装置において、文書を蓄積する蓄積手段と、上記蓄積手段により蓄積された各文書と対応するサムネイル画像を保存する保存手段と、対応するサムネイル画像を作成しようとする一の文書の各ページの画像と、上記保存手段により保存されている、上記一の文書以外の文書と対応するサムネイル画像とについて、それぞれ特徴量を算出する特徴量算出手段と、上記特徴量算出手段が算出した特徴量に基づき、上記一の文書の各ページの画像及び上記一の文書以外の文書と対応するサムネイル画像の中での、各画像間の類似度を算出する類似度算出手段と、上記類似度算出手段が算出した類似度に基づき、上記一の文書の各ページの画像のうち、上記一の文書内の他のページとの類似度が高く、かつ、上記一の文書以外の文書と対応するサムネイル画像との類似度が低い画像を、所定の基準に従って選択する選択手段と、上記選択手段が選択した画像に基づき、上記一の文書と対応するサムネイル画像を作成するサムネイル作成手段とを設けたものである。
上記構成によれば、複数の文書について、ユーザがそれらの文書を区別しやすくかつ各文書の内容も把握しやすいようなサムネイル画像を生成できるようにすることができる。
この発明の第1実施形態である情報処理装置のハードウェア構成を示す図である。 図1に示した情報処理装置の機能構成を示す図である。 図1に示した情報処理装置のCPUが、文書の蓄積指示を検出した場合に実行する処理のフローチャートである。 クラスタリング処理の実行結果の例を模式的に示す図である。 その別の例を示す図である。 図1に示した情報処理装置のCPUが、サムネイル画像の作成指示を検出した場合に実行する処理のフローチャートである。 第2実施形態における図3と対応する処理のフローチャートである。 蓄積済み文書の管理データの例を示す図である。 第3実施形態における図3と対応する処理のフローチャートである。
以下、この発明の実施形態について、図面を参照しつつ説明する。
〔第1実施形態:図1乃至図5〕
まず、この発明の第1実施形態について説明する。
図1は、この発明の第1の実施形態である情報処理装置のハードウェア構成を示す図である。
図1に示すように、情報処理装置10は、CPU11、ROM12、RAM13、HDD(ハードディスクドライブ)14、通信I/F(インタフェース)15、操作部16、表示部17を備え、これらをシステムバス20により接続した構成としている。
そして、CPU11が、RAM13をワークエリアとしてROM12あるいはHDD14に記憶されたプログラムを実行することにより、情報処理装置10全体を制御し、図2を用いて後述するものをはじめとする種々の機能を実現する。
ROM12及びHDD14は、不揮発性記憶媒体(記憶手段)であり、CPU11が実行する各種プログラムや後述する各種データを格納している。また、HDD14は、文書の蓄積先の記憶手段として用いることができる。
通信I/F15は、LAN(ローカルエリアネットワーク)、インターネット、ピアツーピア通信等の任意の通信経路を介して外部装置と通信するためのインタフェースである。文書の蓄積先とする記憶手段は、この通信I/F15を介して通信可能な外部装置に設けてもよい。
操作部16は、ユーザからの操作を受け付けるための操作手段であり、キーボード及びマウス等のポインティングデバイスにより構成することができる。
表示部17は、情報処理装置10の動作状態や設定内容、メッセージ等をユーザに提示するための提示手段であり、液晶ディスプレイ等を備える。表示部17は、サムネイル画像を用いて処理対象の文書の選択を受け付けるための画面も表示する。その画面に対する操作は、操作部16により受け付けることができる。
なお、操作部16及び表示部17は外付けであってもよい。また、情報処理装置10がユーザからの操作を直接受ける必要がない(通信I/F15を介して接続された外部装置により操作を受け付けたり情報の提示を行ったりすればよい)場合には、操作部16や表示部17を設けなくてよい。
以上の情報処理装置10は、ハードウェアとしては汎用のコンピュータにより構成することができる。しかし、図1に破線で示すように、原稿の画像を読み取って画像データを取得する画像読取手段であるスキャナエンジン18や、用紙に画像を形成する画像形成手段であるプリンタエンジン19を設け、MFP(デジタル複合機)等の画像処理装置として構成することもできる。
また、以上の情報処理装置10において特徴的な点の一つは、文書を蓄積する場合における、その各文書と対応するサムネイル画像の作成に係る機能である。以下、この点について説明する。
次に、図2に、情報処理装置10の機能の構成を示す。なお、図2には主に、上述の文書の蓄積及びサムネイル画像の作成に関連する機能を示している。これらの各部の機能は、CPU11が所要のプログラムを実行して所要のハードウェアを制御することにより実現されるものである。
図2に示すように、情報処理装置10は、文書管理部110、文書記憶部120及び文書処理部130を備える。
これらのうち文書記憶部120は、それぞれ1以上のページを含む複数の文書のデータを記憶する記憶手段の機能を備える。文書記憶部120の機能は例えばHDD14により実現できるが、情報処理装置10の外部にある装置のストレージにより実現してもよい。
文書処理部130は、文書記憶部120に記憶しているものの中からユーザが選択した文書に対し、ユーザが指示した処理を実行する機能を備える。この処理には、例えば、表示、印刷、外部への送信、編集、削除等が考えられる。
文書管理部110は、文書記憶部120に対する文書の蓄積及び蓄積された文書を管理する機能をそなえる。より具体的には、文書蓄積部111、文書取得部112、特徴量算出部113、クラスタリング処理部114、ページ選択部115、サムネイル画像作成部116、サムネイル画像保存部117、および文書選択受付部118を備える。
これらのうち文書蓄積部111は、ユーザ、他のプロセスあるいは外部装置等から蓄積を指示された文書を文書記憶部120に記憶させて蓄積する蓄積手段の機能を備える。
文書取得部112は、文書記憶部120に記憶されている文書のうち、文書処理部130における処理に供する文書を取得する機能を備える。
特徴量算出部113は、文書の各ページの画像あるいはサムネイル画像について、サムネイル画像を作成する際の分析に用いる画像の特徴量を算出する特徴量算出手段の機能を備える。この特徴量とは、例えば、配色、質感、エッジ分布、構図等、画像の特徴を数値列で表したものである。より具体的には、shape context、signature、skeleton、SIFT(Scale-Invariant Feature Transform)、CSS(Color Self-Similarity)等を任意に組み合わせて用いることが考えられるが、これらには限られない。
クラスタリング処理部114は、特徴量算出部113が算出した特徴量に基づき、画像間の類似度を算出する類似度算出手段の機能を備える。より具体的には、クラスタリング処理部114は、上記特徴量に対してクラスタリング処理を行い、サムネイルを作成しようとする文書の各ページの画像と、比較対象とする蓄積済み文書のサムネイル画像との中に、相互に類似した一群の画像があればそれらをクラスタとして抽出する。もちろん、相互に類似した画像の群が複数あれば、クラスタは複数抽出される。1画像が1クラスタを構成することもある。
このクラスタリング処理のアルゴリズムとしては、教師無しクラスタリングや、蓄積済みの文書を学習サンプルとして識別器を構築する教師ありクラスタリングを用いることができる。より具体的には、例えばrandom forest(L.Breiman, “Random Forests”,
Machine Learning, vol. 45, no. 1, pp. 5-32, Oct. 2001 参照)、k-means法、自己組織化マップ(Self-Organizing Map)等を採用可能であるが、これらには限られない。
なお、クラスタリング処理部114による、サムネイルを作成しようとする文書の各ページの画像に関する類似度の算出は、各ページの画像そのものについて求めた特徴量ではなく、各ページの画像に基づいて作成したサムネイル画像について求めた特徴量を用いて行ってもよい。比較対象が他の文書のサムネイル画像であるので、サムネイルを作成しようとする文書についても、サムネイル画像を用いて比較を行った方が、同じ基準での比較を行えるためである。以下に説明する具体的な処理例でも、サムネイル画像について求めた特徴量を用いるものとする。
ページ選択部115は、クラスタリング処理部114による類似度の算出結果に従い、サムネイルを作成しようとする文書のどのページの画像に基づきサムネイル画像を作成するかを選択する選択手段の機能を備える。
サムネイル画像作成部116は、文書中の任意のページの画像に基づきサムネイル画像を作成するサムネイル作成手段の機能を備える。
サムネイル画像保存部117は、ページ選択部115が選択したページについてサムネイル画像作成部116が作成したサムネイル画像を、元にした文書のデータと対応付けて、その文書のサムネイル画像として保存する機能を備える。その保存先は、文書記憶部120であっても、それ以外の記憶手段であってもよい。
文書選択受付部118は、サムネイル画像保存部117が保存した各文書と対応するサムネイル画像をディスプレイに表示しつつ、ユーザから処理対象とする文書の選択を受け付ける機能を備える。
次に、以上の情報処理装置10のCPU11が実行する、サムネイル画像の作成処理について説明する。図3はその処理のフローチャートである。
CPU11は、ユーザ、他のプロセスあるいは外部装置等から文書の蓄積を指示されたことを検出すると、図3のフローチャートに示す処理を開始する。
図3の処理において、CPU11はまず、蓄積対象文書のデータを文書記憶部120に記憶させる(S11)。この処理は、文書蓄積部111の機能と対応するものである。
次に、CPU11は、蓄積対象文書の各ページの画像に基づきサムネイル画像を作成する(S12)。この処理は、サムネイル画像作成部116の機能と対応する。ここで作成するサムネイル画像は、どのページの画像を採用するかの検討に用いるためのものである。
次に、CPU11は、ステップS12で作成した各サムネイル画像の特徴量を算出して、特徴空間にマッピングする(S13)。この処理は、特徴量算出部113の機能と対応する。
次に、CPU11は、文書記憶部120に記憶されている蓄積対象文書以外の文書から、所定の条件に当てはまる文書を対比文書として選択する(S14)。サムネイル画像の作成に当たり、文書記憶部120に記憶されている蓄積対象文書以外を全て検討の対象としてもよいが、数が多すぎる場合には、処理の負荷が大きくなるため、対象文書の数を絞るものである。
所定の条件としては、例えば、登録されてからの期間が一定以下、アクセス数が一定以上あるいは上位一定割合以内、蓄積対象文書と同じ分類の文書、などが考えられるがこれらには限られない。比較的頻繁にサムネイル画像が表示されたり、蓄積対象文書と並べてサムネイル画像が表示されたりする文書を抽出できるような条件を設定するとよい。また、「全て」という条件を設定すれば、条件を設定しない場合と実質的に同じ処理を行うことができる。これらの条件は、ユーザあるいは管理者が任意に設定することができる。
次に、CPU11は、ステップS14で選択した各対比文書と対応するサムネイル画像の特徴量を算出して、ステップS13の場合と同じ特徴空間にマッピングする(S15)。この処理は、特徴量算出部113の機能と対応する。また、サムネイル画像は、サムネイル画像保存部117が保存しているものを用いればよい。図3の処理により過去に作成されたものであっても、他の処理で作成されたものでも、特に文書の画像を反映していないものでもよい。
次に、CPU11は、ステップS13及びS15でマッピングした特徴量についてクラスタリング処理を実行する(S16)。この処理は、クラスタリング処理部114の、画像間の類似度を算出する類似度算出手段の機能と対応する。
その後、CPU11は、クラスタリングの結果のうち、蓄積対象文書の各ページがどのクラスタに属するかに注目し、蓄積対象文書のページが最も多く属するクラスタを注目クラスタとして選択する(S17)。最も多いクラスタが複数あった場合には、クラスタの中心からの距離がより小さいページを含むクラスタを注目クラスタとする。このときの「距離」としては、特徴空間におけるユークリッド距離を用いることができる。以降の説明における「距離」や、「近い」、「遠い」の基準についても同様である。以上の注目クラスタは、蓄積対象文書内の他のページとの類似度が高いページが集まったクラスタであると考えることができる。
そして、この注目クラスタに対比文書(のサムネイル画像)が属しない場合(S18のNo)、CPU11は、注目クラスタの中で最もクラスタの中心に近い位置にマッピングされたページを、サムネイル画像の作成に用いるページとして選択する(S19)。これは、クラスタ内の各ページには、対比文書のサムネイル画像と類似度の高いページがないため、それ以上対比文書について考慮せずに、クラスタ内で最も典型的な画像をサムネイル画像にして、蓄積対象文書の内容を把握しやすいサムネイル画像を作成しようとする選択である。
一方、注目クラスタに対比文書(のサムネイル画像)が属する場合(S18のYes)、CPU11は、注目クラスタの中で対比文書から最も遠い位置にマッピングされたページを、サムネイル画像の作成に用いるページとして選択する(S20)。これは、クラスタ内でも、対比文書のサムネイル画像と類似度の高いページがあるため、クラスタ内で対比文書のサムネイル画像と類似度が低いページを選択し、なるべく他の文書と区別しやすいサムネイル画像を作成しようとするものである。
以上のステップS17乃至S20の処理は、蓄積対象文書内の他のページとの類似度が高く、かつ、蓄積対象文書以外の文書と対応するサムネイル画像との類似度が低い画像を、所定の基準に従って選択する処理であり、ページ選択部115の機能と対応する。
いずれの場合も、CPU11は次に、ステップS19又はS20で選択したページの画像に基づき作成したサムネイル画像を、蓄積対象文書のサムネイル画像として保存して(S21)、処理を終了する。この処理は、サムネイル画像保存部117の機能と対応する。
以上の処理により、情報処理装置10は、蓄積しようとする文書に対し、当該文書の特徴をよく表し、さらに蓄積済みの他の文書のサムネイル画像とも区別しやすいサムネイル画像を、自動的に作成して保存することができる。以上の処理において、CPU11が第1制御手段として機能する。
ここで、図4A及び図4Bを用いて、ステップS17乃至S20の処理についてさらに説明する。
図4A及び図4Bは、ステップS16でのクラスタリング処理の実行結果を模式的に示したものである。これらの図において、黒塗りの図形は蓄積対象文書の各ページのサムネイル画像の特徴量をマッピングした位置を示し、白抜きの図形は対比文書のサムネイル画像をマッピングした位置を示す。いずれの例でも、蓄積対象文書は4ページであり、対比文書は2つである。また、特徴空間の表記は模式的なものであり、実際の構成は2次元には限らない。
また、図4A及び図4Bにおいて、楕円及び角丸長方形はそれぞれクラスタリング処理により抽出されたクラスタを示し、そのうち楕円が、ステップS17で選択される注目クラスタを示す。
図4Aと図4Bのいずれの例でも、蓄積対象文書のページのうち、3つのページが同じクラスタに属し、もう1つのページが別のクラスタに属している。従って、最大数である3つのページが属するクラスタが、注目クラスタである。
そして、図4Aの例では、注目クラスタに対比文書のサムネイル画像が属していないため、クラスタの中心から最も近い位置にマッピングされたページを、サムネイル画像の生成に用いるページとする。
一方、図4Bの例では、注目クラスタに対比文書のサムネイル画像が属しているため、注目クラスタの中で対比文書から最も遠い位置にマッピングされたページを、サムネイル画像の作成に用いるページとして選択する。
ところで、情報処理装置10がサムネイル画像を作成するタイミングは、文書を新規に蓄積するタイミングには限らない。任意のタイミングにおける、既に蓄積された文書のいずれかを指定した作成指示に応じて、図3と同様な処理によりサムネイル画像を作成することもできる。
図5に、この場合にCPU11が実行する処理のフローチャートを示す。なお、図5の処理は、多くの部分で図3の処理と共通し、共通する部分には同じステップ番号を用いた。
CPU11は、ユーザ、他のプロセスあるいは外部装置等からサムネイル画像の作成を指示されたことを検出すると、図5のフローチャートに示す処理を開始する。
図5の処理において、サムネイル画像の作成対象として指定された作成対象文書の各ページの画像に基づき、サムネイル画像を作成する(S12′)。この処理は、対象の文書が異なる点以外は図3のステップS12と同じ処理である。
その後、CPU11は、ステップS13乃至S21′の処理により、図3同趣旨のサムネイル画像を生成して保存することができる。なお、「′」を付したステップについては、処理の対象が作成対象文書である点が、図3の対応するステップと異なる。また、ステップS21′での保存は、過去に作成したサムネイル画像を上書きする形で行うとよい。以上の処理において、CPU11が第2制御手段として機能する。
図3の処理によってサムネイル画像を作成しても、その後他の文書のサムネイル画像が増えるにつれ、他の文書のサムネイル画像と区別しづらくなってしまうことも考えられる。この場合、再度サムネイル画像を作成し直すと、別のページの画像に基づきより区別が容易なサムネイル画像を作成できることも考えられる。なお、文書の中でどの程度典型的なページであるかという点と、他の文書のサムネイル画像とどの程度見分けやすいかという点とのバランスは、クラスタリング処理及びその処理結果に基づくページの選択の際に、自動的に考慮される。
〔第2実施形態:図6及び図7〕
次に、この発明の第2実施形態について説明する。
この第2実施形態は、サムネイル画像の作成対象とする文書と同じ内容の別の文書が既に蓄積されている場合に、その別の文書のサムネイル画像を、作成対象の文書のサムネイル画像としても用いるようにした点が第1実施形態と異なる。これ以外の点では上述した第1実施形態と共通であるので、この相違点に関連する事項についてのみ説明する。また、第1実施形態と共通の又は対応する構成については、第1実施形態で用いたものと同じ符号を用いる。
図6に、第2実施形態における図3と対応する処理のフローチャートを示す。
この処理は、図3のステップS11とS12の間に、ステップSAの、蓄積対象文書と同内容の別文書が蓄積されているか否かの判断を追加し、これがYesの場合にステップSBに進むようにしたものである。ステップSBでは、CPU11は、ステップSAで発見した別文書と対応するサムネイル画像を蓄積対象文書のサムネイル画像として採用して保存し、処理を終了する。ステップSAでNoの場合には、図3のステップS12以下の処理に進む。
ここで、ステップSAの判断は、例えば、文書管理部110が管理する、文書記憶部120に蓄積されている文書を管理するための管理データを参照して行うことができる。
図7に、この管理データの例を示す。
この管理データは、文書記憶部120に蓄積されている文書に関する書誌事項をまとめたものである。そして例えば、ファイル名、文書の登録(蓄積)日時、文書の最終更新日時、ファイルのサイズ、文書のページ数、等の情報が含まれる。
これらのうち、例えば最終更新日時とサイズが共通する文書は、同じ内容の文書であると考えられる。あるいは、文書の性質上これだけでは断定できない場合には、さらに各ページの画像に対してマッチング処理を行って同一性を確認してもよい。もちろん、他の基準で判定してもよい。
このように、内容の同じ文書がある場合には、ユーザがそのことを認識できるよう、同じサムネイル画像を用いるようにするとよい。このことは、同じ内容の文書が複数蓄積される場合における、サムネイル画像の作成処理負荷の低減にもつながる。
なお、図5に示した処理についても図6と同様な変更が可能であることはもちろんである。図5の処理にはステップS11がないため、処理開始直後にステップSAを実行すればよい。
〔第3実施形態:図8〕
次に、この発明の第3実施形態について説明する。
この第3実施形態は、文書の先頭ページの画像を優先的にサムネイル画像作成に用いるようにした点が第1実施形態と異なる。これ以外の点では上述した第1実施形態と共通であるので、この相違点に関連する事項についてのみ説明する。また、第1実施形態と共通の又は対応する構成については、第1実施形態で用いたものと同じ符号を用いる。
図8に、第3実施形態における図3と対応する処理のフローチャートを示す。
CPU11は、ユーザ、他のプロセスあるいは外部装置等から文書の蓄積を指示されたことを検出すると、図8のフローチャートに示す処理を開始する。
図8の処理において、CPU11はまず、図3のステップS11の場合と同様、蓄積対象文書のデータを文書記憶部120に記憶させる(S31)。
次に、CPU11は、蓄積対象文書の先頭ページの画像に基づきサムネイル画像を作成する(S32)。この処理は、使用するのが先頭ページの画像のみであることを除けば、図3のステップS12と同様である。
次に、CPU11は、ステップS32で作成したサムネイル画像の特徴量を算出して、特徴空間にマッピングする(S33)。この処理は、図3のステップS13と同様である。
次に、CPU11は、文書記憶部120に記憶されている蓄積対象文書以外の文書から、所定の条件に当てはまる文書を対比文書として選択する(S34)。さらに、ステップS34で選択した各対比文書と対応するサムネイル画像の特徴量を算出して、ステップ33の場合と同じ特徴空間にマッピングする(S35)。これらの処理は、図3のステップS14及びS15と同じである。
その後、CPU11は、ステップS32で作成したサムネイル画像と、それに最も近い対比文書のサムネイル画像との間の、特徴空間における距離(ユークリッド距離)が所定値以下であるか否か判断する(S36)。この判断は、ステップS32で作成したサムネイル画像と類似度が所定基準以上のサムネイル画像が対比文書のサムネイル画像として既に使用されているか否かを判断するものである。
ステップS36でNoであれば、ステップS32で蓄積対象文書の先頭ページの画像に基づき生成したサムネイル画像と類似度が高いサムネイル画像は使用されていないことがわかる。従って、ステップS32で作成したサムネイル画像により、蓄積対象文書を他の文書と容易に見分けられると考えられるため、CPU11は、ステップS32で作成したサムネイル画像を蓄積対象文書のサムネイル画像として保存して(S37)、処理を終了する。この処理は図3のステップS21と対応するものである。
一方、ステップS36でYesであれば、蓄積対象文書の先頭ページの画像に基づき生成したサムネイル画像と類似度が高いサムネイル画像が他に文書に使用されていることがわかる。そこで、CPU11は、図3のステップS12以下の処理を実行し、第1実施形態の場合と同様な基準で、先頭ページ以外のページも候補として、どのページの画像に基づき蓄積対象文書のサムネイル画像を生成するかを決める(S38)。その結果、先頭ページが選択されることもあり得る。
以上の処理において、CPU11は第3制御手段として機能する。
以上の処理によれば、文書の先頭ページの画像を優先的にサムネイル画像作成に用いるようにしつつ、ユーザが文書を区別しやすいサムネイル画像を生成できる。先頭ページは、しばしばタイトルが記載されるなど、文書の内容を分かりやすく表すページであることが多いので、他のサムネイル画像との類似度が低ければ、先頭ページを優先的に用いることにより、ユーザが各文書の内容を把握しやすいサムネイル画像を生成できる。
なお、ステップS36における判断を、ステップS33及びS35でマッピングした特徴量についてクラスタリング処理を行い、蓄積対象文書の先頭ページの画像と同じクラスタに、対比文書のサムネイル画像が属しているか否かを基準に行うことも考えられる。この場合、属していれば、類似度が高いサムネイル画像ありでステップS38へ、属していなければ、類似度が高いサムネイル画像なしでステップS37へ進むとよい。
以上で実施形態の説明を終了するが、この発明において、装置の具体的な構成、具体的な処理の手順、データの構成、処理に用いるアルゴリズム、判定基準等は、実施形態で説明したものに限るものではない。
例えば、類似度を算出する処理は、クラスタリング処理に限らず、別の手法で算出してもよい。
また、情報処理装置10の機能を、複数の装置に分散して設け、それらの装置を協働させて情報処理装置10と同様な機能を備える情報処理システムとして機能させることも妨げられない。また、情報処理装置10は、図3に示したもの以外の任意の機能をさらに備えていてよい。
また、この発明のプログラムの実施形態は、コンピュータに所要のハードウェアを制御させて上述した実施形態における情報処理装置10の機能を実現させるためのプログラムである。
このようなプログラムは、はじめからコンピュータに備えるROMや他の不揮発性記憶媒体(フラッシュメモリ,EEPROM等)などに格納しておいてもよい。しかし、メモリカード、CD、DVD、ブルーレイディスク等の任意の不揮発性記録媒体に記録して提供することもできる。それらの記録媒体に記録されたプログラムをコンピュータにインストールして実行させることにより、上述した各手順を実行させることができる。
さらに、ネットワークに接続され、プログラムを記録した記録媒体を備える外部装置あるいはプログラムを記憶手段に記憶した外部装置からダウンロードし、コンピュータにインストールして実行させることも可能である。
また、以上説明してきた各実施形態及び変形例の構成は、相互に矛盾しない限り任意に組み合わせて実施可能であることは勿論である。
10:情報処理装置、11:CPU、12:ROM、13:RAM、14:HDD、15:通信I/F、16:操作部、17:表示部、18:スキャナエンジン、19:プリンタエンジン、20:システムバス、110:文書管理部、111:文書蓄積部、112:文書取得部、113:特徴量算出部、114:クラスタリング処理部、115:ページ選択部、116:サムネイル画像作成部、117:サムネイル画像保存部、118:文書選択受付部、120:文書記憶部、130:文書処理部
特開2009−251587号公報 特開2012−8644号公報

Claims (12)

  1. 文書を蓄積する蓄積手段と、
    前記蓄積手段により蓄積された各文書と対応するサムネイル画像を保存する保存手段と、
    対応するサムネイル画像を作成しようとする一の文書の各ページの画像と、前記保存手段により保存されている、前記一の文書以外の文書と対応するサムネイル画像とについて、それぞれ特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段が算出した特徴量に基づき、前記一の文書の各ページの画像及び前記一の文書以外の文書と対応するサムネイル画像の中での、各画像間の類似度を算出する類似度算出手段と、
    前記類似度算出手段が算出した類似度に基づき、前記一の文書の各ページの画像のうち、前記一の文書内の他のページとの類似度が高く、かつ、前記一の文書以外の文書と対応するサムネイル画像との類似度が低い画像を、所定の基準に従って選択する選択手段と、
    前記選択手段が選択した画像に基づき、前記一の文書と対応するサムネイル画像を作成するサムネイル作成手段とを備えることを特徴とする情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記類似度算出手段は、前記一の文書の各ページの画像及び前記一の文書以外の文書と対応するサムネイル画像の特徴量に対するクラスタリング処理を行う手段であり、
    前記選択手段は、前記所定の基準として、前記一の文書の各ページの画像のうち最大数の画像が分類されたクラスタに属する画像のいずれかを選択する、という基準を備えることを特徴とする情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記選択手段は、前記所定の基準として、さらに、前記最大数の画像が分類されたクラスタに、前記一の文書以外の文書と対応するサムネイル画像が属さない場合、該クラスタ内の中心から最も近い特徴量を有する画像を選択する、という基準を備えることを特徴とする情報処理装置。
  4. 請求項2又は3に記載の情報処理装置であって、
    前記選択手段は、前記所定の基準として、さらに、前記最大数の画像が分類されたクラスタに、前記一の文書以外の文書と対応するサムネイル画像が属する場合、該クラスタ内で、前記一の文書以外の文書と対応するサムネイル画像から最も遠い特徴量を有する画像を選択する、という基準を備えることを特徴とする情報処理装置。
  5. 請求項1乃至4のいずれか一項に記載の情報処理装置であって、
    前記特徴量算出手段は、前記一の文書の各ページの画像の特徴量として、該各ページの画像に基づいて作成したサムネイル画像の特徴量を用いることを特徴とする情報処理装置。
  6. 請求項1乃至5のいずれか一項に記載の情報処理装置であって、
    前記特徴量算出手段が、前記保存手段に保存されている文書のうちどの範囲の文書と対応するサムネイル画像について特徴量を算出するかを設定する手段を備えることを特徴とする情報処理装置。
  7. 請求項1乃至6のいずれか一項に記載の情報処理装置であって、
    前記蓄積手段に新しく文書を蓄積しようとする場合に、前記特徴量算出手段、前記類似度算出手段、前記選択手段及び前記サムネイル作成手段により該文書と対応するサムネイル画像を作成する第1制御手段を備えることを特徴とする情報処理装置。
  8. 請求項1乃至7のいずれか一項に記載の情報処理装置であって、
    任意のタイミングで、前記蓄積手段に既に蓄積されている文書のいずれかについて、前記特徴量算出手段、前記類似度算出手段、前記選択手段及び前記サムネイル作成手段により該文書と対応するサムネイル画像を作成する第2制御手段を備えることを特徴とする情報処理装置。
  9. 請求項1乃至8のいずれか一項に記載の情報処理装置であって、
    前記サムネイル作成手段は、前記蓄積手段に、対応するサムネイル画像を作成しようとする一の文書と同じ内容の別の文書が蓄積されている場合には、該別の文書と対応するサムネイル画像を、前記一の文書と対応するサムネイル画像として採用することを特徴とする情報処理装置。
  10. 請求項1乃至9のいずれか一項に記載の情報処理装置であって、
    前記特徴量算出手段により、前記一の文書の先頭ページの画像と、前記保存手段により保存されている、前記一の文書以外の文書と対応するサムネイル画像とについて、それぞれ特徴量を算出し、
    前記特徴量算出手段が算出した特徴量に基づき、前記一の文書の先頭ページの画像と、前記一の文書以外の各文書と対応するサムネイル画像との間の類似度を求め、前記一の文書の先頭ページの画像との類似度が所定基準以上のサムネイル画像がない場合に、前記一の文書の先頭ページの画像に基づき前記一の文書と対応するサムネイル画像を生成し、
    前記一の文書の先頭ページの画像との類似度が前記所定基準以上のサムネイル画像がある場合に、前記一の文書の他のページも候補として前記選択手段に画像を選択させる第3制御手段を備えることを特徴とする情報処理装置。
  11. 文書を蓄積する蓄積手段と、
    前記蓄積手段により蓄積された各文書と対応するサムネイル画像を保存する保存手段と、
    対応するサムネイル画像を作成しようとする一の文書の各ページの画像と、前記保存手段により保存されている、前記一の文書以外の文書と対応するサムネイル画像とについて、それぞれ特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段が算出した特徴量に基づき、前記一の文書の各ページの画像及び前記一の文書以外の文書と対応するサムネイル画像の中での、各画像間の類似度を算出する類似度算出手段と、
    前記類似度算出手段が算出した類似度に基づき、前記一の文書の各ページの画像のうち、前記一の文書内の他のページとの類似度が高く、かつ、前記一の文書以外の文書と対応するサムネイル画像との類似度が低い画像を、所定の基準に従って選択する選択手段と、
    前記選択手段が選択した画像に基づき、前記一の文書と対応するサムネイル画像を作成するサムネイル作成手段とを備えることを特徴とする情報処理システム。
  12. コンピュータを、
    文書を蓄積する蓄積手段と、
    前記蓄積手段により蓄積された各文書と対応するサムネイル画像を保存する保存手段と、
    対応するサムネイル画像を作成しようとする一の文書の各ページの画像と、前記保存手段により保存されている、前記一の文書以外の文書と対応するサムネイル画像とについて、それぞれ特徴量を算出する特徴量算出手段と、
    前記特徴量算出手段が算出した特徴量に基づき、前記一の文書の各ページの画像及び前記一の文書以外の文書と対応するサムネイル画像の中での、各画像間の類似度を算出する類似度算出手段と、
    前記類似度算出手段が算出した類似度に基づき、前記一の文書の各ページの画像のうち、前記一の文書内の他のページとの類似度が高く、かつ、前記一の文書以外の文書と対応するサムネイル画像との類似度が低い画像を、所定の基準に従って選択する選択手段と、
    前記選択手段が選択した画像に基づき、前記一の文書と対応するサムネイル画像を作成するサムネイル作成手段として機能させるためのプログラム。
JP2016053997A 2015-03-17 2016-03-17 情報処理装置、情報処理システム及びプログラム Active JP6662132B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015053595 2015-03-17
JP2015053595 2015-03-17

Publications (2)

Publication Number Publication Date
JP2016173822A JP2016173822A (ja) 2016-09-29
JP6662132B2 true JP6662132B2 (ja) 2020-03-11

Family

ID=57009022

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016053997A Active JP6662132B2 (ja) 2015-03-17 2016-03-17 情報処理装置、情報処理システム及びプログラム

Country Status (1)

Country Link
JP (1) JP6662132B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6504514B1 (ja) * 2017-07-08 2019-04-24 ファーストアカウンティング株式会社 書類分類システム及び方法並びに会計処理システム及び方法。

Also Published As

Publication number Publication date
JP2016173822A (ja) 2016-09-29

Similar Documents

Publication Publication Date Title
US8549421B2 (en) Apparatus and method for managing content
CN103631543B (zh) 信息处理装置及其控制方法
JP2007286767A (ja) 画像検索システム、及び、画像検索サーバ及びその制御方法、並びに、コンピュータプログラム及びコンピュータ可読記憶媒体
US9846809B2 (en) Information processing apparatus, method, and storage medium storing program
US11122169B2 (en) Photo album creation system, photo album creation method, and non-transitory computer-readable storage medium
US9250845B2 (en) Bookbinding printing system, information processing apparatus, method for controlling the same, and storage medium
US20170237936A1 (en) Information processing apparatus, method for controlling the information processing apparatus, and recording medium
JP4504254B2 (ja) 情報処理装置、印刷装置、及び印刷用プログラム
JP5565130B2 (ja) 縮小画像生成装置及びプログラム
JP6662132B2 (ja) 情報処理装置、情報処理システム及びプログラム
EP2180430B1 (en) Image forming apparatus and method
US20130246957A1 (en) Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
JP4200384B2 (ja) 印刷制御装置、印刷制御方法、印刷制御プログラム、印刷制御プログラムを記録した媒体、画像処理装置、画像処理コンピュータ
JP7439435B2 (ja) 情報処理装置及びプログラム
CN108345577A (zh) 信息处理设备和方法
JP2015058592A (ja) 画像処理装置、表示制御方法およびプログラム
JP2012008643A (ja) 文書処理装置、縮小画像生成装置、縮小画像表示装置及びプログラム
JP7102284B2 (ja) ファイル管理装置、ファイル管理方法、及びプログラム
CN103365535A (zh) 信息处理装置及信息处理方法
JP2009265886A (ja) 画像管理装置及びその制御方法、並びにプログラム
JP2014228954A (ja) 機能記述作成プログラム、機能記述作成方法及び機能記述作成システム
JP6353261B2 (ja) 情報処理装置、制御方法およびプログラム
US9588942B2 (en) Information processing apparatus and information processing method
US20150085307A1 (en) Management system, image forming device, and terminal device
JP7095259B2 (ja) 文書処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200127

R151 Written notification of patent or utility model registration

Ref document number: 6662132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151