JP7409061B2 - 文書管理装置及び文書管理プログラム - Google Patents

文書管理装置及び文書管理プログラム Download PDF

Info

Publication number
JP7409061B2
JP7409061B2 JP2019225580A JP2019225580A JP7409061B2 JP 7409061 B2 JP7409061 B2 JP 7409061B2 JP 2019225580 A JP2019225580 A JP 2019225580A JP 2019225580 A JP2019225580 A JP 2019225580A JP 7409061 B2 JP7409061 B2 JP 7409061B2
Authority
JP
Japan
Prior art keywords
electronic document
folder
document
document management
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019225580A
Other languages
English (en)
Other versions
JP2021096515A (ja
Inventor
賢 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019225580A priority Critical patent/JP7409061B2/ja
Priority to US16/847,610 priority patent/US11429556B2/en
Publication of JP2021096515A publication Critical patent/JP2021096515A/ja
Application granted granted Critical
Publication of JP7409061B2 publication Critical patent/JP7409061B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/188Virtual file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書管理装置及び文書管理プログラムに関する。
電子文書をフォルダに格納することで電子文書を管理する文書管理システムが知られている。文書管理システムにおいて複数のフォルダが定義されている場合、電子文書を格納するフォルダは利用者によって指定されるのが一般的ではあるが、従来、文書管理システムにおいて、電子文書を格納するフォルダを特定する技術が提案されている。
例えば、非特許文献1には、各フォルダに電子文書を登録する文書共有システムであって、予め設定された電子文書の振り分け条件に基づいて特定されたフォルダに、電子文書のリンクを登録する文書共有システムが開示されている。また、特許文献2には、電子文書(画像)を各フォルダに登録して管理する文書管理システムであって、各フォルダに予め画像のフォームを関連付けておき、処理対象の画像のフォームを検出し、検出したフォームと一致するフォームと関連付けられたフォルダに当該処理対象の画像を登録する文書管理システムが開示されている。
特開2008-176715号公報 特開2006-163544号公報
上述のように、文書管理システムにおいて電子文書を格納するフォルダを特定する場合、従来のやり方では、どのような電子文書をどのフォルダに格納するのかを示す電子文書の格納条件を予め定めておく必要があった。しかしながら、電子文書の格納条件の設定の手間を省くべく、既にフォルダに格納された電子文書の特徴を学習器に学習させ、新規電子文書の特徴を学習済の学習器に入力することで新規電子文書の格納先フォルダを特定することが考えられる。
本発明の目的は、複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスにおいて、学習器を用いて電子文書の格納先フォルダを特定するに当たり、電子文書管理サービスが電子文書に対して付与した属性を考慮せずに学習器を学習させた場合に比して、より適切な電子文書の格納フォルダを学習器が特定可能とすることにある。
請求項1に係る発明は、複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスを提供する文書管理装置であって、プロセッサを備え、前記プロセッサは、前記複数のフォルダのうちの第1フォルダに格納されている第1電子文書の内容、前記第1電子文書に対して前記電子文書管理サービスが付与したサービス属性、及び、前記第1電子文書の前記第1フォルダへの登録時から所定時間前までの間に、前記複数のフォルダのうちの第2フォルダに格納された、前記第1電子文書に関連する第2電子文書に基づいて、前記第1フォルダを特定するように学習器を学習させ、新規電子文書の内容、前記新規電子文書の前記サービス属性、前記新規電子文書の受付時から前記所定時間前までの間に前記第2フォルダに格納された、前記新規電子文書に関連する関連電子文書、及び、学習済みの前記学習器に基づいて、前記新規電子文書を格納すべき格納先フォルダを特定する、ことを特徴とする文書管理装置である。
請求項2に係る発明は、前記サービス属性は、前記電子文書管理サービスに電子文書を登録する操作に関する属性である、ことを特徴とする請求項1に記載の文書管理装置である。
請求項3に係る発明は、前記サービス属性は、前記電子文書管理サービスへ電子文書を登録する登録者、及び、前記電子文書管理サービスが電子文書を受け付けた日時の少なくとも一方を含む、ことを特徴とする請求項2に記載の文書管理装置である。
請求項4に係る発明は、前記プロセッサは、特定した前記格納先フォルダに前記新規電子文書を格納する、ことを特徴とする請求項1に記載の文書管理装置である。
請求項5に係る発明は、前記プロセッサは、特定した1又は複数の前記格納先フォルダを利用者に通知する、ことを特徴とする請求項1に記載の文書管理装置である。
請求項6に係る発明は、前記プロセッサは、複数の前記格納先フォルダの前記新規電子文書に適している順序を前記利用者に通知する、ことを特徴とする請求項5に記載の文書管理装置である
求項に係る発明は、コンピュータに、複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスの前記複数のフォルダのうちの第1フォルダに格納されている第1電子文書の内容、前記第1電子文書に対して前記電子文書管理サービスが付与したサービス属性、及び、前記第1電子文書の前記第1フォルダへの登録時から所定時間前までの間に、前記複数のフォルダのうちの第2フォルダに格納された、前記第1電子文書に関連する第2電子文書に基づいて、前記第1フォルダを特定するように学習器を学習させ、新規電子文書の内容、前記新規電子文書の前記サービス属性、前記新規電子文書の受付時から前記所定時間前までの間に前記第2フォルダに格納された、前記新規電子文書に関連する関連電子文書、及び、学習済みの前記学習器に基づいて、前記新規電子文書を格納すべき格納先フォルダを特定させる、ことを特徴とする文書管理プログラムである。
請求項1又はに係る発明によれば、複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスにおいて、学習器を用いて電子文書の格納先フォルダを特定するに当たり、電子文書管理サービスが電子文書に対して付与した属性を考慮せずに学習器を学習させた場合に比して、より適切な電子文書の格納フォルダを学習器が特定することができる。
請求項2に係る発明によれば、電子文書を登録する操作に関する属性に基づいて学習器を学習することができると共に、新規電子文書の同属性と学習済みの学習器に基づいて、当該新規電子文書の格納先フォルダを特定することができる。
請求項3に係る発明によれば、利用者情報及び日時情報の少なくとも一方に基づいて学習器を学習することができると共に、新規電子文書の利用者情報及び日時情報の少なくとも一方と、学習済みの学習器とに基づいて、当該新規電子文書の格納先フォルダを特定することができる。
請求項4に係る発明によれば、利用者がフォルダを指定することなく、新規電子文書を格納先フォルダに格納することができる。
請求項5に係る発明によれば、新規電子文書を格納すべきフォルダの候補を利用者に通知することができる。
請求項6に係る発明によれば、新規電子文書を格納すべきフォルダの複数の候補の、当該新規電子文書に適した順序を利用者に通知することができる
本実施形態に係る文書管理システムの構成概略図である。 本実施形態に係る文書管理装置の構成概略図である。 文書DBのフォルダ構造の例を示す概念図である。 サービス属性の例を示す図である。 学習器の構成概略図である。
図1は、本実施形態に係る文書管理システム10の構成概略図である。文書管理システム10は、1又は複数のユーザ端末12と、文書管理装置14とを含んで構成される。ユーザ端末12と文書管理装置14は、LANあるいはインターネットなどの通信回線16を介して通信可能に接続される。
文書管理システム10は、利用者(ユーザ)から送信された電子文書を記憶して管理するシステムである。具体的には、ユーザはユーザ端末12を用いて文書管理装置14にアクセスし、文書管理装置14から認証を受けて文書管理装置14が提供する電子文書管理サービスにアクセスする。その後、ユーザは、ユーザ端末12から電子文書を文書管理装置14に送信し、文書管理装置14は、その内部又は外部に備える文書DB(後述)に定義された複数のフォルダのいずれかに当該電子文書を格納して管理する。また、文書管理装置14は、ユーザ端末12からの依頼に応じて、文書DBに格納された電子文書をユーザ端末12に送信する。これにより、ユーザは文書管理システム10で管理されている電子文書を利用することができる。
電子文書管理サービスで管理される電子文書は、例えばWordやPDF、プログラムデータなどの文書データであってもよく、画像データ(写真データ含む)であってもよい。
ユーザ端末12は、例えばパーソナルコンピュータ、スマートフォン、あるいはタブレット端末などの端末である。ユーザ端末12は、ネットワークアダプタなどから構成される通信部、ハードディスク、RAMあるいはROMなどから構成される記憶部、液晶ディスプレイなどから構成される表示部、マウス、キーボード、あるいはタッチパネルなどから構成される入力部、及び、CPUあるいはマイクロコンピュータなどから構成される制御部を含む。
図2は、文書管理装置14の構成概略図である。文書管理装置14は、例えばサーバコンピュータにより構成される。また、以下に説明する文書管理装置14としての機能は、複数の装置(例えば複数のサーバコンピュータ)により実現されるものであってもよい。文書管理装置14は、ユーザ端末12を用いてアクセスしてきたユーザを認証し、認証されたユーザに対して、複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスを提供する。なお、本明細書においては、文書管理装置14に電子文書を格納することを、電子文書管理サービスに電子文書を登録する、と表現する場合がある。
通信インターフェース20は、例えばネットワークアダプタなどを含んで構成される。通信インターフェース20は、通信回線16を介して、1又は複数のユーザ端末12と通信する機能を発揮する。
メモリ22は、例えばハードディスク、SSD(Solid State Drive)、ROM、あるいはRAMなどを含んで構成されている。メモリ22は、後述のプロセッサ28とは別に設けられてもよいし、少なくとも一部がプロセッサ28の内部に設けられていてもよい。メモリ22には、文書管理装置14の各部を動作させるための文書管理プログラムが記憶される。また、図2に示す通り、メモリ22には、文書DB24及び学習器26が記憶される。
文書DB24は、文書管理装置14が管理する複数の電子文書が格納されるデータベースである。本実施形態では、文書DB24は文書管理装置14のメモリ22に記憶されているが、文書DB24は、文書管理装置14の外部装置に記憶されるデータベースであってもよい。
文書管理システム10のユーザは、文書DB24において複数のフォルダを定義することが可能となっている。具体的には、ユーザは、フォルダの数、フォルダの階層構造、各フォルダの名前などのフォルダ構造を設定することができる。もちろん、文書DB24には、多数のユーザがアクセスするため、ユーザは、定義したフォルダにアクセス可能なユーザを設定することができる。例えば、企業の代表者が文書DB24においてフォルダ構造を定義し、当該フォルダ構造に含まれる複数のフォルダには当該企業の従業員がアクセスすることができるように設定しておく。
ユーザは、複数のフォルダを設定しておくことで、複数のフォルダに分けて複数の電子文書を格納することができる。各フォルダには、決められたルールに従って電子文書が格納される。例えば、企業の代表者が、年度、部署、電子文書の種別、あるいはプロジェクトなどに対応するように複数のフォルダを設定し、各電子文書を対応するフォルダに格納するという企業内ルールを決めておく。例えば、営業部の注文書は、営業部フォルダの下位にある注文書フォルダに格納する、との如くである。このようにしておくことで、ユーザは、後に目的の電子文書を文書DB24から容易に見つけることができる。換言すれば、電子文書は適切なフォルダに格納されるべきである。
図3は、文書DB24において定義されたフォルダ構造の例を示す図である。図3の例では、「2019年度」のフォルダの下位に「購買」及び「開発」のフォルダが定義され、「購買」及び「開発」の各フォルダの下位にもそれぞれ複数のフォルダが定義されている。
「購買」フォルダは、購買関係の電子文書を格納するフォルダとされており、「購買」フォルダの下位に取引先毎のフォルダ(例えば「取引先A」フォルダ)が定義され、さらに取引先のフォルダの下位に、書類の種類毎のフォルダ(例えば「個別契約書類」フォルダ、「基本契約書」フォルダ、「検収書」フォルダ、及び「注文書」フォルダ)が定義されている。購買関係の電子文書は、その取引先及び書類の種類に応じて、適切なフォルダに格納されるようにルールが定められている。
また、文書DB24においては、業務プロセスに応じたフォルダ構造が定義されてもよい。ここで、業務プロセスとは、1つのプロジェクトを完遂するために必要なステップと、各ステップにおいて作成することが必要な文書とが定義されたものである。ステップとしては、例えば、計画、開発、評価、あるいはリリースなどが挙げられる。計画ステップにおいて必要な文書としては、例えば開発計画書及び課題管理表などが挙げられ、開発ステップにおいて必要な文書としては、例えば基本設計書及び詳細設計書などが挙げられ、評価ステップにおいて必要な文書としては、例えばテスト計画書及びテスト結果報告書などが挙げられ、リリースステップにおいて必要な文書としては、例えばリリース準備完了報告書及びリリース承認書類が挙げられる。もちろん、上記したステップの内容や各ステップに必要な文書は一例である。
図3の例では、「開発」フォルダの下位の複数のフォルダが業務プロセスに応じたフォルダ構造を成している。具体的には、「開発」フォルダの下位に「プロジェクト」フォルダが定義され、「プロジェクト」フォルダの下位に、各プロジェクトに対応するフォルダ(例えば「文書管理システム開発」フォルダ)が定義されている。さらに、各プロジェクトに対応するフォルダの下位に、各ステップに対応するフォルダ(「計画」フォルダ、「開発」フォルダ、「評価」フォルダ、及び「リリース」フォルダ)が定義されている。各プロジェクト関係の電子文書は、それが関係するプロジェクト名及びステップに応じて、適切なフォルダに格納されるようにルールが定められている。
文書DB24においては多数のフォルダが定義され得る。文書DB24に多数のフォルダが定義されている場合、ユーザは、文書DB24に登録しようとしている電子文書をどのフォルダに格納すべきであるのか分からない場合がある。特に、新人やプロジェクトに参加したばかりの者などにとっては、電子文書を格納すべきフォルダがどこであるのかを把握するのは難しい場合がある。あるいは、電子文書を格納すべきフォルダが明確であったとしても、例えば目的のフォルダが階層が深いところにある場合などは、目的のフォルダを選択するための操作に手間が掛かる場合もある。
図2に戻り、学習器26は、例えばディープニューラルネットワークあるいはロジスティック回帰などのモデルによって構成される。学習器26の詳細については、後述の学習処理部32の処理と共に後述する。なお、学習器26の実体は、学習器26の構造を定義するプログラム、学習器26に関する各種パラメータ、及び、入力データに対して処理を行うための処理実行プログラムなどである。したがって、メモリ22に学習器26が記憶されるとは、上記プログラムや各種パラメータがメモリ22に記憶されることを意味する。
プロセッサ28は、広義的な処理装置を指し、汎用的な処理装置(例えばCPU(Central Processing Unit)など)、及び、専用の処理装置(例えばGPU(Graphics Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、あるいは、プログラマブル論理デバイスなど)の少なくとも1つを含んで構成される。プロセッサ28としては、1つの処理装置によるものではなく、物理的に離れた位置に存在する複数の処理装置の協働により構成されるものであってもよい。図2に示す通り、プロセッサ28は、メモリ22に記憶された文書管理プログラムにより、文書格納処理部30、学習処理部32、フォルダ特定部34、及び通知処理部36としての機能を発揮する。
文書格納処理部30は、ユーザ端末12から送信されてきた新規電子文書を文書DB24のいずれかのフォルダに格納する。新規電子文書の格納先フォルダは、ユーザにより指定されてもよく、学習器26により特定されてもよい。学習器26による格納先フォルダの特定方法は後述することとし、ここでは、ユーザにより格納先フォルダが指定された場合における文書格納処理部30の処理について説明する。
ユーザは、新規電子文書の格納先フォルダを選択し、選択した格納先フォルダを示す情報を新規電子文書と共に文書管理装置14に送信する。文書格納処理部30は、当該情報が示す格納先フォルダに新規電子文書を格納する。
文書格納処理部30は、格納先フォルダに新規電子文書を格納すると共に、新規電子文書に対して属性を付与する。文書格納処理部30が新規電子文書に対して付与する属性は、電子文書管理サービスが新規電子文書に対して付与するサービス属性である。サービス属性は、当該電子文書に関する属性であり、電子文書管理サービスに電子文書を登録する操作に関する属性、あるいは、電子文書自体の特性(文書型や文書種別など)を表す属性が含まれる。
図4に、サービス属性の例が示されている。サービス属性としては、電子文書の格納先フォルダを示す「格納先」、電子文書の型あるいは拡張子を示す「文書型」、電子文書管理サービスに当該電子文書を登録した者を示す「登録者」、電子文書管理サービスが当該電子文書を受け付けた日時を示す「受付日時」、当該電子文書の改訂番号(すなわちバージョン)を示す「改訂番号」、電子文書管理サービスにおける当該電子文書の識別番号である「案件番号」、電子文書管理サービスにおける当該電子文書の名前を示す「案件名」、当該電子文書に係る処理の状態を示す「案件状態」、当該電子文書の種別を示す「文書種別」、及び、当該電子文書の取引先を示す「取引先」が含まれる。
上述のうち、「登録者」及び「受付日時」が、電子文書管理サービスに電子文書を登録する操作に関する属性に相当する。
上述の通り、サービス属性は文書格納処理部30によって付与される。具体的には、「格納先」は、新規電子文書が格納されたフォルダあるいはユーザによって指定された格納先フォルダを検出することで特定できる。「文書型」は、電子文書の拡張子を検出することで特定できる。「登録者」は、電子文書を送信してきたユーザの認証情報に基づいて特定できる。「受付日時」は、電子文書を受け付けた日時に基づいて特定できる。「改訂番号」は、電子文書のメタデータとして付されている情報、あるいは、電子文書の内容をOSR処理などにより解析して電子文書のバージョンを取得することで特定できる。「案件番号」は、受け付けた電子文書を一意に識別する番号を文書格納処理部30が採番することができる。
また、サービス属性の少なくとも一部は、ユーザが指定できるようになっていてもよい。例えば、「案件名」、「案件状態」、「文書種別」、及び「取引先」は、ユーザが指定することができる。これらの属性は、ユーザ端末12から送られる情報に基づいて、文書格納処理部30が新規電子文書に付与する。
なお、上述のサービス属性は一例であり、サービス属性には電子文書管理サービスが付与する限りにおいてその他の属性が含まれていてもよい。
文書格納処理部30により付与されたサービス属性は、電子文書と関連付けられて(例えば電子文書のメタデータとして)文書DB24に登録される。
学習処理部32は、学習器26を学習させる処理を行う。具体的には、学習処理部32は、文書DB24のフォルダに格納されている電子文書の内容、当該電子文書のサービス属性、及び、当該電子文書が格納されているフォルダを学習データとして、当該電子文書が格納されているフォルダを特定するように学習器26を学習させる。学習器26の学習においては、電子文書の内容及びサービス属性が説明変数として利用され、当該電子文書が格納されているフォルダが目的変数として利用される。
学習処理部32は、文書DB24のフォルダに格納されている電子文書を解析することによって当該電子文書の内容を取得する。例えば、学習処理部32は、まず、電子文書に含まれる文字列を抽出する。文字列の抽出は、電子文書がWordやPDFなどの文書データであれば、既存のツールを用いることで文字列の抽出が可能である。また、電子文書が画像データである場合には、OCR処理を施すことによって文字列の抽出が可能である。
次いで、学習処理部32は、抽出した文字列に形態素解析などの自然言語処理を施すことで、当該文字列を単語に分類する。そして、学習処理部32は、そのようにして得られた単語のうち、出現頻度が多い複数の単語(例えば上位10個の単語)を当該電子文書の内容として取得する。例えば、電子文書が契約書であれば、「契約」、「見積り」、「会社」、「発注」、「部品」、「納品」、「納期」、あるいは「期限」などの単語が当該電子文書の内容として取得される。なお、電子文書の内容の取得方法は別途の方法であってもよい。
図5に、学習処理部32による学習器26の学習処理の様子が示されている。なお、図5では、学習器26として、各層が複数のニューロン26aからなる複数の層(入力層、中間層、及び出力層)、並びに、活性化関数としてのソフトマックス関数26bを備えるディープニューラルネットワークの構造が示されているが、上述のように学習器26はこれに限るものではない。
学習処理部32は、上述のように取得した電子文書の内容と、当該電子文書のサービス属性を説明変数として学習器26に入力する。学習器26は、当該入力に基づいて、当該電子文書を格納すべきフォルダを特定して出力する。詳しくは、ソフトマックス関数26bにより、文書DB24に定義されている全フォルダそれぞれについて、当該電子文書が格納されるべきフォルダである確率が出力される。
学習処理部32は、ソフトマックス関数26bの出力のうち、最も確率が高いフォルダを学習器26の出力値(フォルダ)として特定する。その上で、学習処理部32は、目的変数である、当該電子文書が実際に格納されているフォルダ(教師データ)と、学習器26の出力値との誤差を算出する。そして、学習処理部32は、誤差逆伝番法(バックプロパゲーション)などの手法により、当該誤差が小さくなるように学習器26を学習させる。具体的には、学習器26に含まれる各ニューロン26aの重み及びバイアス値を補正する。
学習処理部32が、文書DB24の各フォルダに格納されている複数の電子文書の内容及びサービス情報、並びに、各電子文書が格納されているフォルダに基づいて学習器26の学習を繰り返すことで、学習器26は、電子文書の内容及びサービス情報に基づいて、当該電子文書を格納すべき格納先フォルダを特定できるようになる。
ここで、学習器26の学習処理において、電子文書のサービス属性を説明変数に加えることで、学習器26の出力精度、あるいは、学習効率を向上させることができる。それは、電子文書のサービス属性が、当該電子文書の格納先フォルダと相関しているためである。例えば、サービス属性が類似している複数の電子文書は、同じフォルダに格納される可能性が高い傾向にあることが指摘できる。例えば、電子文書の登録者が同じであれば同じフォルダに格納する場合が多い(換言すれば同じユーザは同じフォルダに電子文書を格納する場合が多い)。
電子文書管理サービスにおいて、第1電子文書が第1フォルダに格納されるに先立って、第1電子文書に関連する第2電子文書が第2フォルダに格納される、という傾向がある場合がある。換言すれば、第2電子文書が第2フォルダに格納された後、すぐに、第2電子文書に関連する第1電子文書が第1フォルダに格納されるという傾向がある場合がある。ここで、第1フォルダと第2フォルダとは同じフォルダであってもよく、別のフォルダであってもよい。
例えば、上述のように、文書DB24において業務プロセスに応じたフォルダ構造が定義されている場合、第2電子文書としての、あるプロジェクトの開発計画書が当該プロジェクトのフォルダの「計画」フォルダに格納された後、すぐに同「計画」フォルダに第1電子文書としての、当該プロジェクトの課題管理表が格納される、という傾向がある場合がある。このような傾向がある場合、あるプロジェクトの課題管理表を新規電子文書として受け付けてから所定時間前までの間に、同プロジェクトの開発計画書が「計画」フォルダに格納されているのであれば、当該課題管理表は同「計画」フォルダに格納すべき確率が高いといえる。
したがって、学習処理部32は、第1フォルダに格納されている第1電子文書の内容及び第1電子文書のサービス属性のみならず、第1文書の第1フォルダへの登録時から所定時間前までの間に第2フォルダに格納された、第1文書に関連する第2電子文書を説明変数に加えて学習器26を学習するようにしてもよい。これにより、学習器26は、第2電子文書が第2フォルダに格納された後に、第1電子文書が第1フォルダに格納される、という傾向を学習することができる。
フォルダ特定部34は、ユーザ端末12から送信された新規電子文書の内容、新規電子文書のサービス属性を学習済みの学習器26に入力することで、新規電子文書を格納すべき文書DB24内の格納先フォルダを特定する。フォルダ特定部34は、学習処理部32と同等の手法により新規電子文書の内容を取得し、文書格納処理部30と同等の手法により新規電子文書のサービス属性を取得する。なお、図4に示されたサービス属性のうち、新規電子文書の「格納先」は未定であるため、フォルダ特定部34は、新規電子文書のサービス属性として「格納先」以外の属性を特定する。
上述のように、電子文書管理サービスにおいて、第2電子文書が第2フォルダに格納された後、すぐに、第2電子文書に関連する第1電子文書が第1フォルダに格納されるという傾向があり、その傾向を学習器26が十分に学習している場合、フォルダ特定部34は、新規電子文書の内容及びサービス属性のみならず、新規電子文書の受付時から所定時間前までの間に第2フォルダに格納された、新規電子文書と関連する関連電子文書をさらに学習器26に入力し、学習器26に関連電子文書を考慮して新規電子文書の格納先フォルダを特定させるようにしてもよい。
例えば、あるプロジェクトの開発計画書が当該プロジェクトのフォルダの「計画」フォルダに格納された後、すぐに、同「計画」フォルダに当該プロジェクトの課題管理表が格納されるという傾向を学習器26が十分に学習している場合を考える。この場合、あるプロジェクトの課題管理表を新規電子文書として受け付けた場合、その直前に当該プロジェクトの開発計画書があるプロジェクトの「計画」フォルダに格納されているならば、当該開発計画書をさらに学習器26に入力することで、同「計画」フォルダが課題管理表の格納先フォルダとして特定される可能性が高くなる。
文書格納処理部30は、フォルダ特定部34が特定した格納先フォルダに新規電子文書を格納する。これにより、ユーザは、新規電子文書の格納先を指定することなく、適切なフォルダに新規電子文書を格納させることができる。
通知処理部36は、フォルダ特定部34が特定した新規電子文書の格納先フォルダを示す情報をユーザ端末12に送信し、これによりユーザに当該格納先フォルダを通知する。通知処理部36は、文書格納処理部30が新規電子文書を文書DB24に格納するに先立って、ユーザに通知を行う。通知処理部36が格納先フォルダの通知をユーザに行うか、通知を行わずに文書格納処理部30が特定された格納先フォルダに新規電子文書を格納するかは、ユーザ設定によって選択可能であってもよい。
上述のように(図5も参照)、学習器26からは、ソフトマックス関数26bにより、文書DB24に定義されている全フォルダそれぞれについて、新規電子文書が格納されるべきフォルダである確率、換言すれば新規電子文書の格納先フォルダとして適している確率が出力される。したがって、通知処理部36は、学習器26の出力に基づいて、新規電子文書に適している複数の格納先フォルダをユーザに通知するようにしてもよい。例えば、通知処理部36は、新規電子文書の格納先フォルダとして適している確率が高い上位数個の格納先フォルダをユーザに通知する。また、通知処理部36は、複数の格納先フォルダをユーザに通知する場合、新規電子文書の格納先として適している順序をユーザに通知するのが好適である。
以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。
10 文書管理システム、12 ユーザ端末、14 文書管理装置、16 通信回線、20 通信インターフェース、22 メモリ、24 文書DB、26 学習器、28 プロセッサ、30 文書格納処理部、32 学習処理部、34 フォルダ特定部、36 通知処理部。

Claims (7)

  1. 複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスを提供する文書管理装置であって、
    プロセッサを備え、
    前記プロセッサは、
    前記複数のフォルダのうちの第1フォルダに格納されている第1電子文書の内容、前記第1電子文書に対して前記電子文書管理サービスが付与したサービス属性、及び、前記第1電子文書の前記第1フォルダへの登録時から所定時間前までの間に、前記複数のフォルダのうちの第2フォルダに格納された、前記第1電子文書に関連する第2電子文書に基づいて、前記第1フォルダを特定するように学習器を学習させ、
    新規電子文書の内容、前記新規電子文書の前記サービス属性、前記新規電子文書の受付時から前記所定時間前までの間に前記第2フォルダに格納された、前記新規電子文書に関連する関連電子文書、及び、学習済みの前記学習器に基づいて、前記新規電子文書を格納すべき格納先フォルダを特定する、
    ことを特徴とする文書管理装置。
  2. 前記サービス属性は、前記電子文書管理サービスに電子文書を登録する操作に関する属性である、
    ことを特徴とする請求項1に記載の文書管理装置。
  3. 前記サービス属性は、前記電子文書管理サービスへ電子文書を登録する登録者、及び、前記電子文書管理サービスが電子文書を受け付けた日時の少なくとも一方を含む、
    ことを特徴とする請求項2に記載の文書管理装置。
  4. 前記プロセッサは、特定した前記格納先フォルダに前記新規電子文書を格納する、
    ことを特徴とする請求項1に記載の文書管理装置。
  5. 前記プロセッサは、特定した1又は複数の前記格納先フォルダを利用者に通知する、
    ことを特徴とする請求項1に記載の文書管理装置。
  6. 前記プロセッサは、複数の前記格納先フォルダの前記新規電子文書に適している順序を前記利用者に通知する、
    ことを特徴とする請求項5に記載の文書管理装置。
  7. コンピュータに、
    複数のフォルダに電子文書を格納することで電子文書を管理する電子文書管理サービスの前記複数のフォルダのうちの第1フォルダに格納されている第1電子文書の内容、前記第1電子文書に対して前記電子文書管理サービスが付与したサービス属性、及び、前記第1電子文書の前記第1フォルダへの登録時から所定時間前までの間に、前記複数のフォルダのうちの第2フォルダに格納された、前記第1電子文書に関連する第2電子文書に基づいて、前記第1フォルダを特定するように学習器を学習させ、
    新規電子文書の内容、前記新規電子文書の前記サービス属性、前記新規電子文書の受付時から前記所定時間前までの間に前記第2フォルダに格納された、前記新規電子文書に関連する関連電子文書、及び、学習済みの前記学習器に基づいて、前記新規電子文書を格納すべき格納先フォルダを特定させる、
    ことを特徴とする文書管理プログラム。
JP2019225580A 2019-12-13 2019-12-13 文書管理装置及び文書管理プログラム Active JP7409061B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019225580A JP7409061B2 (ja) 2019-12-13 2019-12-13 文書管理装置及び文書管理プログラム
US16/847,610 US11429556B2 (en) 2019-12-13 2020-04-13 Document management apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019225580A JP7409061B2 (ja) 2019-12-13 2019-12-13 文書管理装置及び文書管理プログラム

Publications (2)

Publication Number Publication Date
JP2021096515A JP2021096515A (ja) 2021-06-24
JP7409061B2 true JP7409061B2 (ja) 2024-01-09

Family

ID=76317960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019225580A Active JP7409061B2 (ja) 2019-12-13 2019-12-13 文書管理装置及び文書管理プログラム

Country Status (2)

Country Link
US (1) US11429556B2 (ja)
JP (1) JP7409061B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240008334A (ko) 2021-06-09 2024-01-18 캐논 가부시끼가이샤 통신 장치, 통신 방법 및 프로그램
WO2023042239A1 (ja) * 2021-09-14 2023-03-23 日本電気株式会社 転送先決定装置、学習装置、転送システム、転送先決定方法、転送方法、及び、記録媒体
JP7366168B2 (ja) * 2022-01-21 2023-10-20 弁護士ドットコム株式会社 プログラム、情報処理装置、情報処理システム、情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047156A1 (en) 2009-08-24 2011-02-24 Knight William C System And Method For Generating A Reference Set For Use During Document Review
US20110149332A1 (en) 2009-12-21 2011-06-23 Samsung Electronics Co., Ltd Method of setting display mode in image forming apparatus and image forming system to set the display mode
US20160210347A1 (en) 2015-01-19 2016-07-21 Google Inc. Classification and storage of documents

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6820094B1 (en) * 1997-10-08 2004-11-16 Scansoft, Inc. Computer-based document management system
JP2006163544A (ja) 2004-12-03 2006-06-22 Canon Inc 文書管理方式
JP2008176715A (ja) 2007-01-22 2008-07-31 Canon Inc 情報管理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047156A1 (en) 2009-08-24 2011-02-24 Knight William C System And Method For Generating A Reference Set For Use During Document Review
US20110149332A1 (en) 2009-12-21 2011-06-23 Samsung Electronics Co., Ltd Method of setting display mode in image forming apparatus and image forming system to set the display mode
US20160210347A1 (en) 2015-01-19 2016-07-21 Google Inc. Classification and storage of documents

Also Published As

Publication number Publication date
US20210182238A1 (en) 2021-06-17
JP2021096515A (ja) 2021-06-24
US11429556B2 (en) 2022-08-30

Similar Documents

Publication Publication Date Title
US20210224306A1 (en) System, Apparatus and Methods for Providing an Intent Suggestion to a User in a Text-Based Conversational Experience with User Feedback
AU2019261735B2 (en) System and method for recommending automation solutions for technology infrastructure issues
TWI598755B (zh) 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體
US9646077B2 (en) Time-series analysis based on world event derived from unstructured content
JP7409061B2 (ja) 文書管理装置及び文書管理プログラム
US20150032645A1 (en) Computer-implemented systems and methods of performing contract review
CN106796595A (zh) 用于推荐的数据变换和修复的声明性语言和可视化系统
CN110163647A (zh) 一种数据处理方法及装置
US11921737B2 (en) ETL workflow recommendation device, ETL workflow recommendation method and ETL workflow recommendation system
US20220100963A1 (en) Event extraction from documents with co-reference
US11481553B1 (en) Intelligent knowledge management-driven decision making model
JP6719399B2 (ja) 解析装置、解析方法、およびプログラム
US20220100772A1 (en) Context-sensitive linking of entities to private databases
JP7040535B2 (ja) セキュリティ情報処理装置、情報処理方法及びプログラム
US11900320B2 (en) Utilizing machine learning models for identifying a subject of a query, a context for the subject, and a workflow
Pham et al. Text mining to support abstract screening for knowledge syntheses: a semi-automated workflow
Gupta et al. Reducing user input requests to improve IT support ticket resolution process
KR20200021843A (ko) 인쇄물 제작 서비스 제공 방법 및 시스템
WO2022072237A1 (en) Lifecycle management for customized natural language processing
US20220100967A1 (en) Lifecycle management for customized natural language processing
US11544600B2 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
KR102532216B1 (ko) Esg 보조 툴을 이용하여 정형화된 esg 데이터로 이루어진 esg 데이터베이스를 구축하는 방법 및 이를 수행하는 esg 서비스 제공 시스템
TW201539217A (zh) 文件分析系統、文件分析方法、以及文件分析程式
US20220374401A1 (en) Determining domain and matching algorithms for data systems
AU2018214042A1 (en) Information displaying method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231204

R150 Certificate of patent or registration of utility model

Ref document number: 7409061

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150