JP2020160494A - 情報処理装置、文書管理システム及びプログラム - Google Patents

情報処理装置、文書管理システム及びプログラム Download PDF

Info

Publication number
JP2020160494A
JP2020160494A JP2019055950A JP2019055950A JP2020160494A JP 2020160494 A JP2020160494 A JP 2020160494A JP 2019055950 A JP2019055950 A JP 2019055950A JP 2019055950 A JP2019055950 A JP 2019055950A JP 2020160494 A JP2020160494 A JP 2020160494A
Authority
JP
Japan
Prior art keywords
document
information
document type
state
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019055950A
Other languages
English (en)
Other versions
JP7293780B2 (ja
Inventor
直紀 足立
Naoki Adachi
直紀 足立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2019055950A priority Critical patent/JP7293780B2/ja
Priority to US16/509,479 priority patent/US11244000B2/en
Priority to CN201910814137.3A priority patent/CN111737397A/zh
Publication of JP2020160494A publication Critical patent/JP2020160494A/ja
Application granted granted Critical
Publication of JP7293780B2 publication Critical patent/JP7293780B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • H04N1/2166Intermediate information storage for mass storage, e.g. in document filing systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文書の予め定めた部分を参照し、かつ文書種別を考慮せずに索引データを作成する場合に比して検索精度を向上させる。【解決手段】文書管理装置10は、インデックスの作成対象となる文書及び当該文書の文書種別を含む文書情報を記憶する文書情報記憶部17と、文書の種別毎に、インデキシングの際に文書の参照範囲が設定されている文書種別情報記憶部16と、インデックスの作成対象となる文書の文書種別に対応する文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書のインデックスを作成するインデックス作成処理部13と、を有する。【選択図】図1

Description

本発明は、情報処理装置、文書管理システム及びプログラムに関する。
データベース検索のために、インデキシングにより文書から当該文書の特徴を表すキーワードを抽出することでインデックスを事前に作成しておく場合がある。クローラーは、文書をクロールする際にインデックスを検索することで検索時間を短縮することが可能となる。
文書全体を参照範囲としてインデックスを作成すると膨大な時間を要する場合があるので、文書全体ではなく予め定めた部分を参照範囲としてインデックスを作成する場合がある。
特開平10−214268号公報 特開2000−235579号公報 特開2015−032281号公報
本発明は、文書の予め定めた部分を参照し、かつ文書種別を考慮せずに索引データを作成する場合に比して検索精度を向上させることを目的とする。
本発明に係る情報処理装置は、文書の文書種別が対応付けされている文書情報を取得する文書情報取得手段と、文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を取得する文書種別情報取得手段と、前記文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段と、を有することを特徴とする。
また、文書の状態が遷移する場合、前記文書情報に含まれる文書には、更に当該文書の状態が対応付けられており、前記文書種別情報は、文書の文書種別毎文書の状態毎に設定されており、前記作成手段は、前記文書の文書種別及び状態に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成することを特徴とする。
また、前記作成手段は、前記文書の状態の変化を検知すると、当該文書の文書種別及び変化後の状態に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成し直すことを特徴とする。
また、前記参照範囲は、文書を構成する1又は複数の項目が選択されて設定されていることを特徴とする。
また、前記参照範囲に設定されている各項目には、索引データの作成時に参照する際の優先度が設定されており、前記作成手段は、前記参照範囲に含まれる各項目に設定されている優先度に応じて前記索引データの作成時に参照する項目の順番を決定することを特徴とする。
また、前記作成手段は、前記文書の状態が遷移する場合、当該文書の状態に応じて当該文書の索引データの最大容量を設定することを特徴とする。
また、前記文書種別情報は、文書の文書種別毎文書の状態毎に生成され、前記各文書種別情報には、前記索引データの容量の重み係数が設定されており、前記作成手段は、予め決められている索引データの基準容量に、前記文書の文書種別及び状態に対応する前記文書種別情報に設定されている重み係数を乗算することで得られる最大容量に収まるよう当該文書の索引データを作成することを特徴とする。
本発明に係る文書管理システムは、索引データを利用する文書に当該文書の文書種別が対応付けされている文書情報を記憶する文書情報記憶手段と、文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を記憶する文書種別情報記憶手段と、前記文書情報記憶手段に文書が登録されると、当該文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段と、を有することを特徴とする。
本発明に係るプログラムは、コンピュータを、文書の文書種別が対応付けされている文書情報を取得する文書情報取得手段、文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を取得する文書種別情報取得手段、前記文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段、として機能させる。
請求項1に記載の発明によれば、文書の予め定めた部分を参照し、かつ文書種別を考慮せずに索引データを作成する場合に比して検索精度を向上させることができる。
請求項2に記載の発明によれば、文書の状態によって索引データを作成する際に参照する文書の範囲を異ならせることができる。
請求項3に記載の発明によれば、文書の状態に応じた索引データを作成することができる。
請求項4に記載の発明によれば、文書を構成する項目のうち当該文書の全文検索に適切な単語が含まれている可能性の高い項目を参照範囲として索引データを作成することができる。
請求項5に記載の発明によれば、優先度の高い項目に含まれている単語を優先的に索引データに含めることができる。
請求項6に記載の発明によれば、文書の状態毎に索引データの最大容量を異ならせることができる。
請求項7に記載の発明によれば、文書の状態に応じた容量の索引データを作成することができる。
請求項8に記載の発明によれば、文書の予め定めた部分を参照し、かつ文書種別を考慮せずに索引データを作成する場合に比して検索精度を向上させることができる。
請求項9に記載の発明によれば、文書の予め定めた部分を参照し、かつ文書種別を考慮せずに索引データを作成する場合に比して検索精度を向上させることができる。
本実施の形態における文書管理装置のブロック構成図である。 本実施の形態における文書種別情報記憶部に設定される文書種別情報のデータ構成の一例を示す図である。 本実施の形態における文書種別選択画面の一例を示す図である。 本実施の形態における文書種別情報設定画面の一例を示す図である。 本実施の形態における状態毎文書種別情報設定画面の一例を示す図である。 本実施の形態における文書登録処理を示すフローチャートである。 本実施の形態における文書登録画面の一例を示す図である。 本実施の形態における文書情報記憶部に登録される文書情報のデータ構成の一例を示す図である。 本実施の形態におけるインデキシング処理を示すフローチャートである。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。
図1は、本実施の形態における文書管理装置10のブロック構成図である。本実施の形態における文書管理装置10は、汎用的なサーバコンピュータ等の情報処理装置で実現できる。つまり、文書管理装置10は、CPU、ROM、RAM、ハードディスクドライブ(HDD)等の記憶手段、また処理対象とする文書をネットワーク経由で取得する場合、ネットワークインタフェースを有する。コンテンツをCD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体から読み取る場合には、そのための外部インターフェースを備える必要がある。また、文書管理装置10は、ユーザーと情報を授受する必要があるので、そのためのユーザーインタフェースとして、例えばマウスやキーボード等の入力手段やディスプレイ等の表示手段を有する。あるいは、ネットワークを介してユーザーと情報の授受を行う場合にはネットワークインタフェースを設ける。
図1に示すように、本実施の形態における文書管理装置10は、設定処理部11、文書登録処理部12、インデックス作成処理部13、状態更新部14、検索処理部15、文書種別情報記憶部16、文書情報記憶部17及びインデックス記憶部18を有している。なお、本実施の形態の説明に用いない構成要素については、図から省略している。
設定処理部11は、文書管理装置10が管理対象とする文書の文書種別に関する情報(以下、「文書種別情報」)を文書の管理者等(以下、「管理者」)による入力に応じて設定し、文書種別情報記憶部16に登録する。文書登録処理部12は、ユーザーにより指定されたインデックスの作成対象となる文書に当該文書の文書種別を対応付けして文書情報を生成し、文書情報記憶部17に登録する。なお、本実施の形態でいう「文書」というのは、電子化されて文書情報記憶部17に記録可能なテキスト文字を含むデータのことをいう。
インデックス作成処理部13は、文書登録処理部12が受け付けたインデックス作成対象の文書の文書種別に対応する文書種別情報に設定されている参照範囲を参照して当該文書のインデックスを作成し、インデックス記憶部18に保存する。また、文書の状態の変化が検知されたときには、当該文書のインデックスを作成し直して既存のインデックスを更新する。ここで、「インデックス」というのは、検索を高速にするために利用される索引データのことをいう。インデックスは、各文書に対応させて作成される。文書を検索する方法として全文検索がある。全文検索では、目的とする文書を検索する際、文書の内容全体に含まれる用語等の文字列を検索する。ただ、検索先となるデータベースに膨大な数の文書が格納されている場合において文書の内容全体を検索すると検索時間が膨大になってしまう可能性がある。そこで、インデキシングにより文書から当該文書の特徴を表す用語を抽出し別途格納しておく。この抽出した用語を格納するのがインデックスである。そして、全文検索では、インデックスを検索することで検索対象となる文書を探し出すことになる。
詳細は後述するが、文書情報記憶部17に登録される文書には、当該文書の現在の状態が対応付けして記憶されるが、状態更新部14は、文書の状態の変化を検知すると、変化後の文書の状態で文書情報記憶部17に設定されている当該文書の状態を更新する。
ところで、文書は、文書が作成されてから利用されなくなるまでの間にライフサイクルを有する。そして、文書の種類に応じて特有のライフサイクルを有する。例えば、文書が契約書の場合、その契約書は、商談に利用され、商談に成功すると契約期間に入り、その後に一定期間保管され、最後には廃棄される。つまり、契約書は、ライフサイクル上、商談中、契約期間、保管、廃棄という状態に遷移する。文書が通達書の場合、発生、伝達、活用、保管、廃棄という状態に遷移する。また、文書が承認文書の場合、編集中、起案、承認待ち、承認済み、保管、廃棄という状態に遷移する。
このように、本実施の形態において「文書の状態」というのは、ライフサイクル上における文書の状態のことをいい、時間の経過に伴い一方向に変化しうる。
検索処理部15は、ユーザーからの検索語句を含む検索依頼に応じてインデックスを検索し、検索依頼に該当する1又は複数の文書を見つけると、その1又は複数の文書に関する情報をユーザーに提示する。また、提示した情報(すなわち、検索結果)に含まれる文書の中からユーザーが文書を指定した場合、その文書の実体データを文書情報記憶部17から読み出し、ユーザーに提供する。
文書管理装置10における各構成要素11〜15は、文書管理装置10を形成するコンピュータと、コンピュータに搭載されたCPUで動作するプログラムとの協調動作により実現される。また、各記憶部16〜18は、文書管理装置10に搭載されたHDDにて実現される。あるいは、RAM又は外部にある記憶手段をネットワーク経由で利用してもよい。本実施の形態では、必要な構成要素を1台の文書管理装置10に搭載して形成したが、複数のコンピュータに分散配置して、複数のコンピュータを含む文書管理システムとして構築してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
本実施の形態では、インデックスを作成する際に、文書全体ではなく部分的に参照するようにしている。そのインデックスを作成する際に参照する文書の部分(以下、「インデキシングの参照範囲」ともいう)を、インデックスの作成対象とする文書の文書種別に応じて設定するようにしたことを特徴としている。つまり、文書の種類によって文書の異なる部分をインデキシングの参照範囲とすることができる。
また、前述したように、ライフサイクル上、文書の状態は変化しうるが、本実施の形態においては、更に同じ文書種別でも文書の状態に応じて複数のインデキシングの参照範囲のうちどれを優先的にインデキシングの参照範囲とするか、その優先度を設定できるようにしたことを特徴としている。
次に、本実施の形態の動作について説明するが、本実施の形態では、インデックスを作成する前に、文書種別情報を事前に設定しておく必要がある。以下、文書種別情報の事前設定について説明する。
図2は、本実施の形態における文書種別情報記憶部16に設定される文書種別情報のデータ構成の一例を示す図である。文書種別情報は、文書種別毎に設定される。図2に示す文書種別情報は、文書構造情報、インデキシング対象範囲情報及びライフサイクル情報を含む。文書は、文書の種類によって記述される内容及び順番、いわゆる章立てがある程度特定できる。特に、事業所では、定型文が用意されるなどして章立てが定まっている場合が少なくない。文書構造情報には、この章立てが文書構造データとして設定される。図2には、文書種別が契約書の文書構造データ21が例示されている。インデキシング対象範囲情報には、管理者が文書構造データの中からインデキシングの参照範囲として選出した文書構造(図2における「選択インデキシング対象」)が設定される。ライフサイクル情報には、当該文書種別のライフサイクル上の文書の状態に対応させて、インデックス容量重み係数及びインデキシング優先度を含む状態遷移定義データが含まれる。図2には、文書種別が契約書のライフサイクル情報23が例示されている。例えば、契約書は、前述したようにライフサイクル上、商談中、契約期間、保管、廃棄という状態に遷移する。従って、ライフサイクル情報における文書状態には、当該文書種別において遷移する各状態が設定される。インデックス容量重み係数及びインデキシング優先度についての詳細は後述する。ライフサイクル情報を参照すると、文書種別情報は、文書種別毎文書の状態毎に設定されるということもできる。
文書種別情報は、後述する設定処理により設定されるが、各文書種別における文書構造データ及びライフサイクル情報に含まれる文書状態に関しては、設定処理を実施する前に文書種別情報記憶部16に設定登録されている必要がある。文書構造データは、管理者が事前に設定することを想定しているが、契約書等の文書の構造を解析することによって自動的に生成するようにしてもよい。
図3は、本実施の形態における文書種別選択画面の一例を示す図である。管理者は、所定の操作を行うことで文書種別選択画面を表示させる。なお、管理者は、文書管理装置10のユーザーインタフェースを用いてもよいし、端末装置からネットワーク経由で文書管理装置10にアクセスして端末装置に文書種別選択画面を表示させてもよい。
設定処理部11は、このユーザー操作に応じて文書種別情報記憶部16に設定されている文書種別を読み出して、文書種別選択画面を表示させる。設定処理部11は、表示させる各文書種別に設定ボタンを対応付ける。管理者は、この画面から設定対象とする文書種別に対応する設定ボタンを選択する。なお、文書種別情報の設定済みの文書種別に対応する設定ボタンを選択することも可能であり、この場合、設定ボタンは、設定の変更ボタンという位置付けになる。
図4は、文書種別選択画面から設定ボタンが選択された後に表示される文書種別情報設定画面の一例を示す図である。図4は、文書種別として契約書が選択された場合の表示例である。設定処理部11は、文書種別情報記憶部16から、契約書の状態遷移定義データ23の中のライフサイクル24、すなわち文書状態を読み出し、各文書状態を選択可能に文書種別情報設定画面に表示させる。また、設定処理部11は、契約書の文書構造データ21を読み出し、表形式にて表示させる。また、契約書を構成する各項目に、インデキシング対象として選択させるためのチェックボックス25が対応付けして表示させる。なお、本実施の形態において「項目」というのは、文章を構成する章、節、項等文書が分割して記述される単位のことをいう。
管理者は、以上のようにして表示された文書種別情報設定画面において、契約書のインデックスを作成する際に参照させたい項目、すなわちインデキシングの参照範囲に含めたい項目に対応するチェックボックス25にチェックを付ける。図4には、ユーザーが契約書を構成する項目のうちインデキシングの参照範囲として「前文」を選択し、「契約期間」を選択しなかった場合の設定例が示されている。
ところで、文書を構成する項目の中で、当該文書の特徴となる語句が多く含まれている項目は、文書種別によってある程度定まってくると考えられる。例えば、過去の実績からして、契約書ならば、前文、目的、本文等には特徴的な語句が相対的に多く含まれており、通知方法、後文等には特徴的な語句が相対的に多く含まれていないことがわかっている。書籍ならば 目次、索引等には特徴的な語句が相対的に多く含まれており、献辞、前書き、あとがき等には特徴的な語句が相対的に多く含まれていないことがわかっている。更に、論文ならば、概要、目次等には特徴的な語句が相対的に多く含まれており、謝辞、参考文献、付録等には特徴的な語句が相対的に多く含まれていないことがわかっている。
このように、文書の特徴となる語句が多く含まれている項目を、管理者はインデキシングの参照範囲、すなわちインデキシング対象として選択するのが好ましい。ここでいう、「インデキシングの参照範囲」と「インデキシング対象」とは同義として考えてよい。なお、設定処理部11が過去の実績に基づきインデキシング対象を自動的に選出するようにしてもよい。
以上のように、契約書を構成する全項目の中からインデキシングの参照範囲として1又は複数の項目が管理者によって選択されると、設定処理部11は、選択された項目を契約書における選択インデキシング対象22として文書種別情報記憶部16に登録する。本実施の形態では、このように文書全体、この例では契約書という文書においては、上記のようにして選択された項目をインデキシングの参照範囲としてインデックスが作成されることになる。
そして、本実施の形態では、更にインデキシングの参照範囲として選択された各項目に対してインデキシングの参照範囲とするための優先度を文書の状態毎に設定できるようにした。
図5は、本実施の形態における状態毎文書種別情報設定画面の一例を示す図である。図5には、文書種別情報設定画面においてライフサイクル24に選択可能に表示されている文書の状態の中から管理者が「契約期間」を選択した場合に表示される状態毎文書種別情報設定画面の表示例である。
設定処理部11は、文書種別情報記憶部16から、契約書の文書構造データ21を読み出し、表形式にて表示させる。そして、表示させた文書構造の各項目のうち上記処理にてインデキシングの参照範囲として選択された項目に対しては、インデキシング対象の欄にチェックを付ける。そして、契約書の文書構造に対応させてインデキシング優先度の設定欄26を設ける。更に、設定処理部11は、文書の状態(この例では「契約期間」)に対してインデキシング容量の重み係数の設定欄27を設ける。
管理者は、状態毎文書種別情報設定画面から、インデキシング対象の各項目に対してインデキシングの優先度を設定する。本実施の形態では、小さい数ほど優先度を高くしているので、1から順に優先度を設定する。なお、インデキシング対象外の各項目に優先度を設定しても意味がないので、インデキシング対象外の各項目には優先度が設定できないようにするのが好ましい。また、ユーザーは、更に、設定欄27に文書の状態(この例では「契約期間」)に対するインデキシング容量の重み係数を入力する。なお、状態毎文書種別情報設定画面から設定されるインデキシングの優先度及びインデキシング容量の重み係数に関しては、それぞれ使うときに詳細を説明する。
以上のようにして、ユーザーが各欄26,27に入力すると、設定処理部11は、入力されたインデキシング容量の重み係数を、図2に示す契約書の、選択された文書状態「契約期間」に対応したインデキシング容量重み係数に設定登録する。また、入力されたインデキシングの優先度を、優先度リストとして、選択された文書状態「契約期間」に対応したインデキシング優先度に設定登録する。
なお、ここでは、契約書の「契約期間」を例にして説明したが、他の文書状態「商談中」、「保管」及び「廃棄」に対しても同様にしてインデキシング容量重み係数及びインデキシング優先度を設定登録する。
以上説明したように、本実施の形態では、インデックスの作成を開始する前に文書種別情報を設定登録しておく。
次に、インデックスの作成対象とする文書を文書管理装置10に登録する文書登録処理について図6に示すフローチャートを用いて説明する。この文書登録処理は、文書登録処理部12によって実施される。
ユーザーが所定の操作を行うと、文書登録処理部12は、このユーザー操作に応じて文書登録画面を表示させる。なお、ユーザーは、文書管理装置10のユーザーインタフェースを用いてもよいし、端末装置からネットワーク経由で文書管理装置10にアクセスして端末装置に文書登録画面を表示させてもよい。
図7は、本実施の形態における文書登録画面の一例を示す図である。ユーザーは、文書登録画面から登録対象とするファイルのファイル名と文書種別を入力指定した後、登録ボタンを選択する。登録ボタンの選択に応じて、文書登録処理部12は、ファイル名に指定された格納場所から当該文書を取得すると共に(ステップ101)、選択された当該文書の文書種別を取得する(ステップ102)。そして、文書登録処理部12は、登録対象の文書のファイル名、当該文書の実体データ及び当該文書の属性情報を組にして文書情報を生成し、文書情報記憶部17に登録する(ステップ103)。
図8は、本実施の形態における文書情報記憶部17に登録される文書情報のデータ構成の一例を示す図である。文書情報は、前述したデータ構成を有するが、管理者が指定した文書種別は、属性情報の1つとして文書情報に登録される。また、属性情報に含まれる文書状態は、当該文書の文書種別における文書の状態を示しているが、文書登録処理部12は、文書種別情報記憶部16に設定されている当該文書種別のライフサイクルのうち最初の文書の状態を初期値として読み出し設定する。なお、文書情報記憶部17に登録される文書の状態が次の状態に遷移している場合にも対応できるように、例えば、文書登録画面では、文書種別が選択されると、当該文書種別のライフサイクルを表示して、登録時点での文書の状態をユーザーに指定させるようにしてもよい。あるいは、文書登録処理部12は、状態更新部14に当該文書の文書状態を取得させて文書情報記憶部17に設定登録させてもよい。なお、文書の属性情報には、文書の作成者やアクセス権限等の情報が設定されているかもしれないが、本実施の形態では、用いないので省略している。
以上のようにして文書が登録されると、登録された文書に対してインデックスを作成することになる、以下、インデックス作成処理部13が実施するインデキシング処理について、図9に示すフローチャートを用いて説明する。
インデックス作成処理部13は、文書情報記憶部17から処理対象の文書及び当該文書の属性情報に含まれている文書種別及び文書状態を取得する(ステップ111)。続いて、インデックス作成処理部13は、取得した文書種別に対応する文書種別情報のうち、取得した文書状態に該当する文書種別情報を取得する(ステップ112)。例えば、文書が契約書の場合、図2に示す文書構造データ21及び選択インデキシング対象22に加え、現在の文書の状態が商談中であれば、状態遷移定義データ23の中から商談中に対応するインデックス容量重み係数及び優先度リストを取得する。
ところで、インデックス記憶部18に登録するインデックスには、基準となる容量が定められている。インデックス作成処理部13は、この基準となる容量に、取得したインデックス容量重み係数を乗算することで、作成するインデックスの最大容量を算出する(ステップ113)。つまり、インデックス作成処理部13は、文書種別に応じてインデックスの最大容量を設定することになる。そして、インデックス作成処理部13は、算出した最大容量に達するまで、以下の処理を繰り返し実行することでインデックスに作成していく。
すなわち、インデックス作成処理部13は、取得した優先度リストを参照して、インデキシングの際に参照するインデキシングの参照範囲の順番を決定する。従って、インデックス作成処理部13は、インデキシングの参照範囲としていない項目のうち優先度の最も高い項目を参照範囲としてインデキシングを行ってインデックスを作成する(ステップ114)。ここで、インデックス作成処理部13は、新たに作成したインデックスを、ステップ114を繰り返し実行して作成したインデックスに追加した場合のインデックスの容量とステップ113で算出した最大容量とを比較する。そして、作成中のインデックスの容量が最大容量に達していない場合(ステップ115でY)、新たに作成したインデックスを、作成済みのインデックスに追加してステップ114に戻る。
以上の処理を繰り返すことで、作成中のインデックスの容量は増加していくが、ここで作成中のインデックスの容量が最大容量に達した場合(ステップ115でN)、インデックス作成処理部13は、新たに作成したインデックスを作成済みのインデックスに追加すると最大容量を超えてしまうため、新たに作成したインデックスを追加することなくインデキシングを終了する。そして、終了した時点でのインデックスを当該文書のインデックスとしてインデックス記憶部18に保存する(ステップ116)。
本実施の形態においては、以上のようにして優先度の高いインデキシングの参照範囲から順に参照しながら最大容量に収まるようにインデックスを作成していく。このように、本実施の形態によれば、インデックスに最大容量が設定されている場合でも文書の特徴を表す語句をインデックスに優先的に含めることができるので、検索精度を向上させることができる。
ところで、本実施の形態では、同じ文書種別でも文書の状態の変化に応じてインデックスの内容を変えることができる。状態更新部14は、例えば、外部のプロセス管理システム(図示せず)において、文書の状態を管理している場合、プロセス管理システムから通知を受けたり、あるいは問い合わせたりして文書の状態が遷移したことを検出する。状態更新部14は、文書の状態が遷移したことで状態の変更を検出すると、文書情報記憶部17の属性情報に設定されている文書状態を遷移後の状態に変更するよう更新する。
文書情報記憶部17に設定されている文書状態が更新されると、インデックス作成処理部13は、当該文書のインデックスを作成し直すためにインデキシング処理の実行を開始する。このときに実行されるインデキシング処理は、図4に示すフローチャートを用いて説明した内容と同じであるが、インデックス作成処理部13は、ステップ112において遷移後の文書状態に対応するインデックス容量重み係数及び優先度リストを文書種別情報記憶部16から読み出して処理することになる。このようにして、インデックスは、文書の状態に応じて作成され更新される。
ところで、文書管理システムが全文検索機能を提供する場合、検索対象とされる当該文書管理システムに格納されている文書の記述全体をインデキシングの参照範囲とする、いわゆる全文インデキシングが行われる場合がある。全文インデキシングでは、文書全体を参照範囲としていることから作成されるインデックスの容量は、相対的に大きくなる傾向にある。文書管理システムが従量課金を採用しているクラウドにより実現されている場合、インデックスの容量の増加に伴いコストが増加する。
そこで、インデキシングの参照範囲を文書全体ではなく部分的とする、いわゆる部分インデキシングを行ってインデックスの容量を削減することが一般的に行われている。本実施の形態においても同様に部分インデキシングを行っている。
ただ、部分インデキシングの場合、文書のどの部分をインデキシングの参照範囲とするかによって検索精度が異なってくると考えられる。そこで、本実施の形態においては、文書種別に応じてインデキシングの参照範囲を設定できるようにした。文書は、前述したように文書の種類によって記述される内容及び順番、いわゆる章立てがある程度特定できる。章立てが特定できると、つまり、文書を構成する項目が特定できると、どの項目に重要な記述がされているかどうか、換言すると文書の特徴を表す語句がどの項目により多く含まれているか、ある程度特定できる。従って、本実施の形態では、文書種別に着目して、インデキシングの参照範囲を文書種別毎に設定できるようにした。そして、本実施の形態では、インデキシングの参照範囲を、文書を構成する項目単位に抽出できるようにした。
このように、本実施の形態においては、インデキシングの参照範囲として選択する文書の部分を、文書種別に応じて動的に設定することができるようにした。これにより、予め定めた文書の部分を一律的にインデキシングの参照範囲とする場合に比して、文書の特徴を表す部分を効果的に抽出することができる。換言すると、文書の特徴を表す語句をインデックスにより多く含めることができるので当該文書は検索されやすくなり、よって検索精度の向上を図ることができる。また、文書の特徴を表さない語句をインデックスに含めないようにすることができるので、検索ノイズを軽減することも可能となる。
本実施の形態では、前述したようにインデキシングの参照範囲を文書種別毎に設定できるようにした。ただ、同じ文書の種類でもライフサイクル上の文書の状態によって検索対象とされたい語句は変化すると考えられる。例えば、文書が契約書の場合、商談中であれば、契約条件や作業内容の記載範囲が頻繁に参照されることが想定されるため、これに関連する検索語句によって検索されるようにインデックスを作成するのが好ましい。また、契約期間中は、商談中とは異なり、債務不履行の対応や瑕疵担保の記載範囲が頻繁に参照されることが想定されるため、これに関連する検索語句によって検索されるようにインデックスを作成するのが好ましい。更に、保管中は、監査用に契約期間や金額に関する記載が頻繁に参照されることが想定されるため、これに関連する検索語句によって検索されるようにインデックスを作成するのが好ましい。
従って、同じ文書種別でも文書の状態に応じてインデキシングの参照範囲を個別に設定できるようにするのが望ましいが、本実施の形態では、前述したようにインデキシングの参照範囲を文書種別毎文書の状態毎に設定できる用にした。
一方、前述したように、従量課金の場合、作成されるインデックスの容量に、ある程度の制限を設けたくなる。この場合、選出したインデキシング対象となる項目の中から参照頻度の高くなる項目に記述されている語句を優先的にインデックスに含めるのが好適である。そこで、本実施の形態においては、インデックスの作成を許容する容量(前述した「インデックスの最大容量」)を設定すると共に、インデキシング対象として抽出された各項目に対して、文書の状態に応じて優先度(つまり、図5に示す状態毎文書種別情報設定画面から設定する「インデキシング優先度」)を設定できるようにした。例えば、当該文書の状態において参照頻度の高くなる項目の優先度を高く設定できるようにしてインデキシングを行うと、優先度を高い項目から優先的にインデキシングの参照範囲となり、当該文書の状態において特徴を表す語句がインデックスに含まれることになる。これにより、従量課金に伴うコストの増加を抑えつつ検索精度の向上を図ることができる。
また、インデックスの容量に依存するコストを考慮すると、インデックスの容量を極力抑えたいことは前述した通りである。但し、検索精度を考慮すると、無用に容量を削減することはできない。そこで、本実施の形態においては、文書の状態毎にインデックス容量重み係数を設定し、文書の状態に応じてインデックスの最大容量を設定できるようにした。例えば、契約書の文書の状態が廃棄の場合、当該文書は、廃棄後なので相対的に検索される可能性は低いと考えられる。従って、この場合は、コスト面を優先してインデックスの最大容量を相対的に小さくする。これにより、作成されるインデックスの容量を相対的に小さくできる。一方、契約書に文書の状態が契約期間や保管の場合は頻繁に利用される可能性が高いので、検索されやすいようにインデックスの最大容量を相対的に大きくする。これにより、作成されるインデックスの容量は、相対的に大きくなるものの検索精度を向上させることができる。
なお、本実施の形態では、1文書当たりのインデックスの最大容量を制限するために、基準となる容量に乗算するインデックス容量重み係数として1以上の数値を設定する場合を例示した。仮に、インデックス記憶部18に登録するインデックスの容量に上限が設定されているのであれば、インデックスの上限容量に乗算するためには、インデックス容量重み係数を1以下の正数とする必要がある。なお、全てのインデックスを上限容量で一律的に作成するようにしてもよいが、従量課金を考慮すると、頻繁に利用されない文書の状態のときには、前述したようにインデックスの容量が小さくなるように作成するのが望ましい。
10 文書管理装置、11 設定処理部、12 文書登録処理部、13 インデックス作成処理部、14 状態更新部、15 検索処理部、16 文書種別情報記憶部、17 文書情報記憶部、18 インデックス記憶部。

Claims (9)

  1. 文書の文書種別が対応付けされている文書情報を取得する文書情報取得手段と、
    文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を取得する文書種別情報取得手段と、
    前記文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段と、
    を有することを特徴とする情報処理装置。
  2. 文書の状態が遷移する場合、
    前記文書情報に含まれる文書には、更に当該文書の状態が対応付けられており、
    前記文書種別情報は、文書の文書種別毎文書の状態毎に設定されており、
    前記作成手段は、前記文書の文書種別及び状態に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成することを特徴とする請求項1に記載の情報処理装置。
  3. 前記作成手段は、前記文書の状態の変化を検知すると、当該文書の文書種別及び変化後の状態に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成し直すことを特徴とする請求項2に記載の情報処理装置。
  4. 前記参照範囲は、文書を構成する1又は複数の項目が選択されて設定されていることを特徴とする請求項1又は2に記載の情報処理装置。
  5. 前記参照範囲に設定されている各項目には、索引データの作成時に参照する際の優先度が設定されており、
    前記作成手段は、前記参照範囲に含まれる各項目に設定されている優先度に応じて前記索引データの作成時に参照する項目の順番を決定することを特徴とする請求項4に記載の情報処理装置。
  6. 前記作成手段は、前記文書の状態が遷移する場合、当該文書の状態に応じて当該文書の索引データの最大容量を設定することを特徴とする請求項1に記載の情報処理装置。
  7. 前記文書種別情報は、文書の文書種別毎文書の状態毎に生成され、
    前記各文書種別情報には、前記索引データの容量の重み係数が設定されており、
    前記作成手段は、予め決められている索引データの基準容量に、前記文書の文書種別及び状態に対応する前記文書種別情報に設定されている重み係数を乗算することで得られる最大容量に収まるよう当該文書の索引データを作成することを特徴とする請求項6に記載の情報処理装置。
  8. 索引データを利用する文書に当該文書の文書種別が対応付けされている文書情報を記憶する文書情報記憶手段と、
    文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を記憶する文書種別情報記憶手段と、
    前記文書情報記憶手段に文書が登録されると、当該文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段と、
    を有することを特徴とする文書管理システム。
  9. コンピュータを、
    文書の文書種別が対応付けされている文書情報を取得する文書情報取得手段、
    文書の文書種別毎に、索引データを作成する際に参照する文書の参照範囲が設定されている文書種別情報を取得する文書種別情報取得手段、
    前記文書の文書種別に対応する前記文書種別情報に設定されている参照範囲に該当する当該文書の範囲を参照して当該文書の索引データを作成する作成手段、
    として機能させるためのプログラム。
JP2019055950A 2019-03-25 2019-03-25 情報処理装置、文書管理システム及びプログラム Active JP7293780B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019055950A JP7293780B2 (ja) 2019-03-25 2019-03-25 情報処理装置、文書管理システム及びプログラム
US16/509,479 US11244000B2 (en) 2019-03-25 2019-07-11 Information processing apparatus and non-transitory computer readable medium storing program for creating index for document retrieval
CN201910814137.3A CN111737397A (zh) 2019-03-25 2019-08-30 信息处理装置、文档管理系统、记录媒体及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019055950A JP7293780B2 (ja) 2019-03-25 2019-03-25 情報処理装置、文書管理システム及びプログラム

Publications (2)

Publication Number Publication Date
JP2020160494A true JP2020160494A (ja) 2020-10-01
JP7293780B2 JP7293780B2 (ja) 2023-06-20

Family

ID=72606090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019055950A Active JP7293780B2 (ja) 2019-03-25 2019-03-25 情報処理装置、文書管理システム及びプログラム

Country Status (3)

Country Link
US (1) US11244000B2 (ja)
JP (1) JP7293780B2 (ja)
CN (1) CN111737397A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6905724B1 (ja) * 2021-01-27 2021-07-21 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325087A (ja) * 1993-05-17 1994-11-25 Hitachi Ltd 構造化文書のブラウズ装置
JP2013046146A (ja) * 2011-08-23 2013-03-04 Konica Minolta Business Technologies Inc 文書管理システムおよびサーバ

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214268A (ja) 1997-01-29 1998-08-11 Omron Corp 文書検索方法および装置
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JP2000235579A (ja) 1999-02-15 2000-08-29 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及び情報検索プログラムを格納した記憶媒体
US8255408B1 (en) * 2005-08-26 2012-08-28 At&T Intellectual Property Ii, L.P. System and method for categorizing long documents
US20070208761A1 (en) * 2005-11-14 2007-09-06 Lunt Tracy T Mapping electronic files contained in an electronic mail file to a file class
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP6107524B2 (ja) 2013-08-07 2017-04-05 富士ゼロックス株式会社 文書管理装置及び文書管理プログラム
EP2978231A1 (en) * 2014-07-25 2016-01-27 Telefonica Digital España, S.L.U. Method, system and device for proactive content customization
RU2014134291A (ru) * 2014-08-21 2016-03-20 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы классификации и структурирования документов
EP3281101A4 (en) * 2015-03-16 2018-11-07 Titus Inc. Automated classification and detection of sensitive content using virtual keyboard on mobile devices
US10726074B2 (en) * 2017-01-04 2020-07-28 Microsoft Technology Licensing, Llc Identifying among recent revisions to documents those that are relevant to a search query

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06325087A (ja) * 1993-05-17 1994-11-25 Hitachi Ltd 構造化文書のブラウズ装置
JP2013046146A (ja) * 2011-08-23 2013-03-04 Konica Minolta Business Technologies Inc 文書管理システムおよびサーバ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6905724B1 (ja) * 2021-01-27 2021-07-21 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP2022114721A (ja) * 2021-01-27 2022-08-08 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
JP2023008685A (ja) * 2021-07-06 2023-01-19 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造
JP7272540B2 (ja) 2021-07-06 2023-05-12 株式会社 情報システムエンジニアリング 情報提供システム、情報提供方法、及びデータ構造

Also Published As

Publication number Publication date
CN111737397A (zh) 2020-10-02
US20200311125A1 (en) 2020-10-01
US11244000B2 (en) 2022-02-08
JP7293780B2 (ja) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109074383B (zh) 文档背景内可视化的文档搜索
CN109992603B (zh) 一种数据搜索方法、装置、电子设备和计算机可读介质
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
CN111159431A (zh) 基于知识图谱的信息可视化方法、装置、设备及存储介质
CN107145538B (zh) 表格数据查询方法、装置与系统
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
CN110674387B (zh) 用于数据搜索的方法、装置和计算机存储介质
CN108897819B (zh) 一种数据搜索方法和装置
CN114328983A (zh) 文档碎化方法、数据检索方法、装置及电子设备
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN110008407B (zh) 一种信息检索方法及装置
US20130226619A1 (en) Input support device and input support method
KR102463120B1 (ko) 문서 다운로드시 사용자 맞춤형 파일명 생성 기능을 제공하는 특허 문서 검색 서버 및 이를 이용한 특허 문서 검색 방법
US20130262451A1 (en) Analysis support apparatus, analysis support method and analysis support program
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP2012027841A (ja) 検索プログラム、検索装置、検索システム、検索方法及び記録媒体
JP2009199164A (ja) 文書管理装置、文書管理方法及び記録媒体
US9990420B2 (en) Method of searching and generating a relevant search string
JP6256079B2 (ja) 検索プログラム、検索方法及び検索装置
JP2019125025A (ja) システム、文書データの管理方法、及びプログラム
US11275799B2 (en) Information processing device and non-transitory computer readable medium
JP2018181121A (ja) 分析装置、分析プログラム及び分析方法
WO2020225925A1 (ja) 情報処理装置、情報処理システムおよび情報処理プログラム
JP5696280B1 (ja) 用語統一システム及び用語統一プログラム、並びに用語統一方法
CN115982100A (zh) 一种项目工程文件数据管理方法、系统及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230522

R150 Certificate of patent or registration of utility model

Ref document number: 7293780

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150