JP2022032777A

JP2022032777A - 情報処理装置、文書管理システムおよびプログラム

Info

Publication number: JP2022032777A
Application number: JP2020136952A
Authority: JP
Inventors: 雄三片山; Yuzo Katayama
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2022-02-25
Also published as: US20220051007A1; CN114077585A

Abstract

【課題】サムネイルの作成する際にユーザが設定を行う場合に比較して、それぞれのユーザに合わせた特徴的なサムネイルを、容易に生成することができる情報処理装置等を提供する。【解決手段】プロセッサを備え、プロセッサは、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出し、注目領域を基に、ユーザが閲覧する電子文書について、注目領域に対応した画像を抽出して、サムネイルを作成することを特徴とする情報処理装置。【選択図】図１３

Description

本発明は、情報処理装置、文書管理システム、プログラムに関する。

従来より、電子文書の内容を確認するため、サムネイルを表示し、ユーザは、このサムネイルを基に目的とする電子文書を探索することが行われている。このサムネイルは、電子文書の内容を、例えば、縮小表示した画像として表示される。

特許文献１には、サーバ装置が検索キーを受信すると、キーワード検索処理部は画像情報内のテキスト情報に対してキーワード検索処理を行う画像処理装置が開示されている。表示画面制御処理部は、ヒットしたページのサムネイル、テキスト情報、代表部分画像を表示する。
特許文献２には、文書の編集または閲覧が終了した際に、編集情報をもとに文書テーブルとページテーブルを更新する情報処理装置が開示されている。更新後は、ユーザが決定したサムネイルの優先条件をもとに、ページテーブルの各ページの重要度を算出し、重要度の最も高いページのサムネイルを当該文書のサムネイル画像として変更する。例えば、優先条件を編集時間だけに設定した場合、編集時間が長いページから順に最も大きな数値をページテーブルの重要度にセットする。

特開２００８－４０７５３号公報特開２０１３－５０９７９号公報

しかしながら、サムネイルの内容が、ユーザが探索する対象となる電子文書と他の電子文書との間で、差異を表す特徴的な情報になるとは限らない。そしてサムネイルに、この特徴が表れない場合、ユーザが探索している対象となる電子文書と他の電子文書とを判別するのが困難になる。また、サムネイルとして表示される画像は、それぞれのユーザの目的に合致したものであることが望ましい。
本発明は、サムネイルの作成する際にユーザが設定を行う場合に比較して、それぞれのユーザに合わせた特徴的なサムネイルを、容易に生成することができる情報処理装置等を提供することを目的とする。

請求項１に記載の発明は、プロセッサを備え、前記プロセッサは、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出し、前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成することを特徴とする情報処理装置である。
請求項２に記載の発明は、前記プロセッサは、ユーザが前記電子文書を処理する工程に応じ、前記注目領域を抽出することを特徴とする請求項１に記載の情報処理装置である。
請求項３に記載の発明は、前記プロセッサは、ユーザが前記電子文書を処理する工程に対し、ユーザが検索した対象を関連付けて前記注目領域を抽出することを特徴とする請求項２に記載の情報処理装置である。
請求項４に記載の発明は、前記プロセッサは、ユーザが前記電子文書を処理する工程に対し、ユーザが当該電子文書の画像中で文字認識させた領域を、前記注目領域として抽出することを特徴とする請求項２に記載の情報処理装置である。
請求項５に記載の発明は、前記プロセッサは、ユーザが当該電子文書の画像中で文字認識させた領域に隣接する領域を前記注目領域として抽出することを特徴とする請求項４に記載の情報処理装置である。
請求項６に記載の発明は、前記プロセッサは、文字認識の結果、キー・バリューの関係となる領域を前記注目領域として抽出することを特徴とする請求項４に記載の情報処理装置である。
請求項７に記載の発明は、前記プロセッサは、前記電子文書に応じて求められる関連度に応じ、前記サムネイルを決定することを特徴とする請求項１に記載の情報処理装置である。
請求項８に記載の発明は、前記関連度は、ユーザの属性の関連度であることを特徴とする請求項７に記載の情報処理装置である。
請求項９に記載の発明は、前記関連度は、ユーザが前記電子文書を処理する工程の関連度であることを特徴とする請求項７に記載の情報処理装置である。
請求項１０に記載の発明は、ユーザの指示により、前記関連度に応じ、前記サムネイルを変更することを特徴とする請求項７に記載の情報処理装置である。
請求項１１に記載の発明は、電子文書の処理を行う端末装置と、前記電子文書を管理する文書管理装置と、を備え、前記文書管理装置は、プロセッサを備え、前記プロセッサは、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出し、前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成することを特徴とする文書管理システムである。
請求項１２に記載の発明は、コンピュータに、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出する抽出機能と、前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成する作成機能と、を実現させるためのプログラムである。

請求項１の発明によれば、サムネイルの作成する際にユーザが設定を行う場合に比較して、それぞれのユーザに合わせた特徴的なサムネイルを、容易に生成することができる情報処理装置を提供することができる。
請求項２の発明によれば、電子文書が処理される工程に合わせたサムネイルを作成することができる。
請求項３、４の発明によれば、注目領域を容易に抽出することができる。
請求項５の発明によれば、ユーザが文字認識を行わなかった領域でも、注目領域とするのに適した領域を、注目領域として設定できる。
請求項６の発明によれば、ユーザにとって、さらに電子文書を識別しやすいサムネイルを作成することができる。
請求項７の発明によれば、学習モデルが構築されていないユーザに対しても、そのユーザに合わせた特徴的なサムネイルを生成することができる。
請求項８、９の発明によれば、ユーザの行う電子文書の処理に合わせたサムネイルを作成できる。
請求項１０の発明によれば、ユーザにとって適していない作成されたサムネイルが作成されたときに、サムネイルの変更ができる。
請求項１１の発明によれば、サムネイルの作成する際にユーザが設定を行う場合に比較して、それぞれのユーザに合わせた特徴的なサムネイルを、容易に生成することができる文書管理ステムを提供することができる。
請求項１２の発明によれば、サムネイルの作成する際にユーザが設定を行う場合に比較して、それぞれのユーザに合わせた特徴的なサムネイルを、容易に生成することができる機能をコンピュータにより実現できる。

本実施の形態における文書管理システムの構成例を示す図である。文書管理サーバの機能構成例について説明したブロック図である。実施例１における注目領域の第１の例について示した図である。（ａ）は、図３で示した方法で注目領域を抽出した場合に作成される学習モデルについて示した図である。（ｂ）は、図４（ａ）に示した学習モデルに対し、ユーザの属性の関連度を適用させた場合を示している。実施例１における注目領域の第２の例について示した図である。（ａ）は、図５で示した方法で注目領域を抽出した場合に作成される学習モデルについて示した図である。（ｂ）は、図６（ａ）に示した学習モデルに対し、ユーザの属性の関連度およびプロセスの関連度を適用させた場合を示している。実施例２における注目領域の第１の例について示した図である。図７で示した方法で注目領域を抽出した場合に作成される学習モデルについて示した図である。実施例２における注目領域の第２の例について示した図である。実施例２における注目領域の第３の例について示した図である。図１０で示した方法で注目領域を抽出した場合に作成される学習モデルについて示した図である。（ａ）～（ｃ）は、学習モデルを基に、サムネイル作成部が作成するサムネイルの例を示した図である。文書管理サーバの動作について説明したフローチャートである。

＜文書管理システム１の全体の説明＞
図１は、本実施の形態における文書管理システム１の構成例を示す図である。
図示する文書管理システム１は、端末装置１０として、端末装置１０ａ～１０ｄと、文書管理サーバ２０とが、ネットワーク３０を介して接続されることにより構成されている。
なお、図１では、端末装置１０は、４つ示しているが、その数は複数であれば、いくつであってもよい。

図１で、文書管理システム１は、例えば、電子文書を処理するシステムである。電子文書の処理としては、例えば、電子文書の作成、チェック、修正、認可、承認などである。
なお、本実施の形態で、「電子文書」とは、文字情報や画像情報を電子化したものである。この電子文書は、端末装置１０および文書管理サーバ２０のそれぞれで扱うことができるものであれば、形式およびデータ構造等について特に限られるものではない。本実施の形態の電子文書としては、例えば、帳票が挙げられる。帳票の具体例としては、見積書、請求書、顛末書、稟議書、申込書などである。

図示する文書管理システム１では、電子文書は、例えば、端末装置１０ａ、端末装置１０ｂ、端末装置１０ｃおよび端末装置１０ｄの順で回覧される。そして、それぞれの端末装置１０ａ～１０ｄを操作するユーザにより、この電子文書が処理される。これらのユーザは、電子文書に対し行う処理が予め定められている。この処理は、電子文書の作成、チェック、修正、認可等であり、それぞれのユーザが行う、予め定められたプロセスであると言うこともできる。また、このプロセスは、ユーザが電子文書を処理する工程であると言うこともできる。そして、文書管理サーバ２０は、処理された電子文書の送信、受信、保存等の管理を行う。

端末装置１０は、ユーザの操作に従い、電子文書の処理を行う。端末装置１０は、例えば、汎用のパーソナルコンピュータ（ＰＣ）、モバイルコンピュータ、携帯電話、スマートフォン、タブレット等のコンピュータ装置である。そして、端末装置１０は、ＯＳ（Operating System）による管理下において、各種アプリケーションソフトウェアを動作させることで、文書管理サーバ２０で管理される電子文書の処理を行う。

文書管理サーバ２０は、電子文書を管理する情報処理装置の一例であり、文書管理システム１の全体の管理をするサーバコンピュータである。文書管理サーバ２０は、例えば、端末装置１０を操作するユーザの認証を行い、各プロセスにおいて電子文書を処理するために、電子文書を端末装置１０に対し送信する。また、文書管理サーバ２０は、端末装置１０から、ユーザにより処理された電子文書を受信し、受信した電子文書を保存する。さらに、文書管理サーバ２０は、処理された電子文書を、次のプロセスを実行するユーザの端末装置１０に送信する。以後、これを繰り返し、電子文書に対する一連の処理を行っていく。
また、詳しくは後述するが、文書管理サーバ２０は、ユーザが、処理する電子文書を選択する際に使用するサムネイルを作成する。この「サムネイル」は、画面上で電子文書を識別するための画像である。ユーザは、このサムネイルや電子文書の名称などを参照し、処理する電子文書を選択する。

端末装置１０および文書管理サーバ２０は、演算手段であるＣＰＵ（Central Processing Unit）と、記憶手段であるメインメモリ、およびＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等のストレージを備える。ここで、ＣＰＵは、プロセッサの一例であり、ＯＳ（基本ソフトウェア）やアプリケーションソフトウェア（応用ソフトウェア）等の各種ソフトウェアを実行する。また、メインメモリは、各種ソフトウェアやその実行に用いるデータ等を記憶する記憶領域であり、ストレージは、各種ソフトウェアに対する入力データや各種ソフトウェアからの出力データ等を記憶する記憶領域である。
さらに、端末装置１０および文書管理サーバ２０は、外部との通信を行うための通信インタフェース（以下、「通信Ｉ／Ｆ」と表記する）と、ビデオメモリやディスプレイ等からなる表示機構と、キーボード、マウス、タッチパネル等の入力デバイスとを備える。

ネットワーク３０は、端末装置１０および文書管理サーバ２０の間の情報通信に用いられる通信手段であり、例えば、インターネット、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）である。データ通信に用いられる通信回線は、有線か無線かを問わず、これらを併用してもよい。また、端末装置１０や文書管理サーバ２０は、ゲートウェイ装置やルータ等の中継装置を用い、複数のネットワークや通信回線を介して接続されてもよい。

＜文書管理サーバ２０の機能構成の説明＞
図２は、文書管理サーバ２０の機能構成例について説明したブロック図である。
なおここでは、文書管理システム１が有する種々の機能のうち本実施の形態に関係するものを選択して図示している。

図示する文書管理サーバ２０は、電子文書の送受信を行う送受信部２１と、ユーザの認証を行う認証部２２と、電子文書の中でユーザが注目する領域である注目領域を抽出する注目領域抽出部２３と、抽出した注目領域について学習し、学習モデルを作成する学習モデル作成部２４と、電子文書の関する関連度を算出する関連度算出部２５と、学習モデルや関連度に基づき電子文書のサムネイルを作成するサムネイル作成部２６と、ユーザにサムネイルの確認を行う確認部２７と、電子文書や学習モデルを記憶する記憶部２８と、を備える。

送受信部２１は、ネットワーク３０を介し、文書管理サーバ２０との間で電子文書の送受信を行う。送受信部２１は、例えば、通信Ｉ／Ｆに対応する。
認証部２２は、予め定められた方法で、ユーザの認証を行う。認証部２２は、例えば、ユーザから送られたユーザＩＤおよびパスワードと、記憶部２８に記憶されているユーザＩＤおよびパスワードとを比較する。その結果、両者が合致すれば、ユーザを認証する。

注目領域抽出部２３は、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出する。
本実施の形態で、「注目領域」は、電子文書が処理される各プロセスにおいて、ユーザが処理を行うために必要な領域であり、ユーザが確認したい対象となる領域である。即ち、ユーザは、電子文書の中で、自らが行うプロセスに関する領域を電子文書の中から見つけ出し、この領域に対し処理を行う。つまりこの領域は、ユーザが注目する領域であると言える。

この注目領域は、ユーザが行うプロセスにより、同じ電子文書であっても異なる領域となる。例えば、プロセスが請求書の振分けである場合、ユーザが注目する注目領域は、請求先の企業ロゴや企業名となる。また、プロセスが請求書の請求日のチェックである場合、ユーザが注目する注目領域は、請求日となる。即ち、注目領域抽出部２３は、ユーザが電子文書を処理するプロセスに応じ、注目領域を抽出する、と言うこともできる。

学習モデル作成部２４は、注目領域抽出部２３が抽出した注目領域を基に、ユーザの属性、プロセスおよび注目領域のそれぞれの関係を学習し、学習モデルを作成する。この場合、「ユーザの属性」は、ユーザが電子文書に対し行う処理に対する属性である。ユーザの属性は、例えば、ユーザが各プロセスで何の業務を担当するかを表す属性とすることができる。例えば、プロセスが、請求書の振分けである場合は、ユーザの属性は、例えば、請求振分け担当者である。また、プロセスが、請求書の請求日のチェックである場合は、ユーザの属性は、例えば、請求書監査担当者である。なお、学習モデルは、ユーザの属性、プロセスおよび注目領域を基に、既存の機械学習の手法を用いることで作成することができる。

関連度算出部２５は、ユーザの属性の関連度およびプロセスの関連度を算出する。
ここで、「関連度」は、複数の文言の類似の度合いを表すパラメータである。具体的には、関連度算出部２５は、ユーザの属性名の類似度からユーザの属性の関連度を算出する。例えば、ユーザの属性名が、「請求振分け担当者」と「請求書担当者」とでは、類似度が高く、ユーザの属性の関連度は、高くなる。対して、ユーザの属性名が、「請求振分け担当者」と「文書管理担当者」とでは、類似度が低く、ユーザの属性の関連度は、低くなる。また、処理の履歴により、類似の電子文書で、類似の項目を処理するような場合は、ユーザの属性の関連度を、高くすることもできる。

また、関連度算出部２５は、プロセス名の類似度からプロセスの関連度を算出する。例えば、プロセス名が、「請求日のチェック」と「請求日確認」とでは、類似度が高く、プロセスの関連度は、高くなる。対して、プロセス名が、「請求日のチェック」と「検査結果の入力」とでは、類似度が低く、ユーザの属性の関連度は、低くなる。
関連度算出部２５が、ユーザの属性の関連度やプロセスの関連度を算出するには、既存の手法を用いることができる。例えば、Ｗｏｒｄ２ｖｅｃを用いることで、これらの関連度を算出できる。関連度は、例えば、０１～１０の１０段階で定めることができる。この場合、０１は、関連度が最も低く、１０は、関連度が最も高いことを意味する。

サムネイル作成部２６は、電子文書を選択する際に、ユーザに対し表示するサムネイルを作成する。サムネイル作成部２６は、学習モデル作成部２４が作成した学習モデルを基にサムネイルを作成する。具体的には、サムネイル作成部２６は、注目領域を基に、ユーザが閲覧する電子文書について、注目領域に対応した画像を抽出して、サムネイルを作成する。つまり、注目領域が異なれば、作成されるサムネイルは、異なる。注目領域は、学習モデルにおいて、ユーザの属性やプロセスと関連付けられている。よって、ユーザの属性やプロセス毎にサムネイルが作成される、と言うこともできる。これにより、ユーザの属性およびプロセスの何れか一方が異なれば、電子文書が同じであっても、異なるサムネイルが作成される。

また、サムネイル作成部２６は、電子文書に応じて求められる関連度に応じ、ユーザに提示するサムネイルを決定する。この場合、サムネイル作成部２６は、ユーザの属性の関連度およびプロセスの関連度の何れか一方が高ければ、ユーザに提示するサムネイルを同じものとする。実際には、サムネイル作成部２６は、ユーザの属性の関連度やプロセスの関連度が最も高いサムネイルを提示する。

これは、ユーザの属性やプロセスが、従来はなく、新たに作成された場合や、学習モデルで学習する対象の数が少ない場合に、サムネイルを作成する際に有効である。例えば、新たに加わったユーザが従来とは異なるユーザの属性を有し、従来にないプロセスを担当するとする。この場合、このユーザの属性と従来から存在する複数のユーザの属性との関連度を求め、最も高い関連度が、０５だったとする。また、このユーザのプロセスと従来から存在する複数のユーザの属性との関連度を求め、最も高い関連度が、０８だったとする。このとき、サムネイル作成部２６は、関連度が０８のプロセスについて作成されたサムネイルを、この新たに加わったユーザに提示する。

確認部２７は、サムネイルを提示したユーザに対し、このサムネイルの可否の確認を行う。即ち、確認部２７は、提示したサムネイルが、それぞれのユーザにとって適しているか否かの確認を行う。そして、ユーザが、提示されたサムネイルにより、それぞれの電子文書を容易に識別でき、必要な電子文書を容易に選択することができれば、変更の指示をしない。この場合は、提示したサムネイルが、そのまま使用される。
対して、それぞれの電子文書が容易に識別できず、必要な電子文書を容易に識別することができなければ、変更の指示をする。この場合は、学習モデルに基づき、サムネイル作成部２６は、他のサムネイルを作成する。

また、サムネイル作成部２６は、電子文書に応じて求められる関連度に応じてサムネイルを作成した場合は、このような齟齬が生じやすいと考えられる。この場合は、上述したように、サムネイル作成部２６は、まず、ユーザの属性の関連度やプロセスの関連度が最も高いサムネイルを提示する。しかしこのサムネイルを、ユーザに指示により変更する場合は、次に関連度が高いサムネイルを提示する。
認証部２２、注目領域抽出部２３、学習モデル作成部２４、関連度算出部２５、サムネイル作成部２６、確認部２７は、例えば、ＣＰＵに対応する。

記憶部２８は、電子文書、学習モデル、サムネイル、関連度などを記憶する。記憶部２８は、例えば、ストレージに対応する。

＜サムネイルを作成する方法の詳細説明＞
次に、文書管理サーバ２０が、サムネイルを作成する手順について、さらに詳細に説明する。ここでは、以下の実施例１および実施例２により、文書管理サーバ２０が、サムネイルを作成する手順について具体的に説明する。

（実施例１）
図３～図６は、実施例１で、サムネイルを作成する手順について示した図である。
実施例１では、文書管理サーバ２０の注目領域抽出部２３は、プロセスに対し、ユーザが検索した対象を関連付けて注目領域を抽出する。

図３は、実施例１における注目領域の第１の例について示した図である。
ここでは、電子文書Ｄ１や電子文書Ｄ２が、画像として端末装置１０に表示され、これを見たユーザが電子文書の処理を行う場合を示している。さらにここでは、ユーザの属性が、請求振分け担当者であり、プロセスが、請求書の振分けであった場合の注目領域Ｃ１について示している。
この場合、注目領域Ｃ１は、請求書の振分けに必要な領域となり、例えば、企業ロゴや企業名となる。即ち、この場合の注目領域Ｃ１は、電子文書Ｄ１では、企業ロゴＫ１となり、電子文書Ｄ２では、「〇◇△株式会社」となる。

このとき、注目領域抽出部２３は、ユーザが電子文書Ｄ１や電子文書Ｄ２に対し、検索した画像を注目領域Ｃ１とする。この場合、例えば、ユーザは、検索時の設定語として、「ロゴ」を入力し、検索すると、電子文書Ｄ１では、企業ロゴＫ１がヒットし、電子文書Ｄ２では、「〇◇△株式会社」の画像がヒットする。そして、注目領域抽出部２３は、これらの画像を注目領域Ｃ１とする。

このように注目領域Ｃ１を抽出した場合、学習モデル作成部２４は、ユーザの属性である「請求振分け担当者」、プロセスである「請求書の振分け」、およびユーザが検索した画像である注目領域Ｃ１を学習対象とする。そして、これらを関連付けて学習し、学習モデルを作成する。

図４（ａ）は、図３で示した方法で注目領域Ｃ１を抽出した場合に作成される学習モデルＭ１について示した図である。
図示する学習モデルでＭ１では、文書名、ユーザの属性、プロセス、関連情報が関連付けられて学習される。このうち「文書名」は、上述した電子文書Ｄ１や電子文書Ｄ２に付与される名称である。また、「関連情報」は、注目領域抽出部２３で抽出された注目領域Ｃ１が格納される。さらに、「ユーザの属性」および「プロセス」は、それぞれ上述したユーザの属性およびプロセスである。

また、図４（ｂ）は、図４（ａ）に示した学習モデルＭ１に対し、ユーザの属性の関連度を適用させた場合を示している。
上述したように、サムネイル作成部２６は、電子文書に応じて求められる関連度に応じ、ユーザに提示するサムネイルを決定する。ここで、図４（ａ）に示した学習モデルＭ１のユーザの属性は、「請求振分け担当者」である。
これに対し、他のユーザの属性が、「請求書担当者」であった場合は、ユーザの属性の名称が類似であり、関連度は高い。ここでは、関連度算出部２５で、ユーザの関連度として、「０９」が算出されたことを図示している。この場合、他のユーザである「請求書担当者」に提示するサムネイルは、「請求振分け担当者」のサムネイルと同じものとすることが好ましい。
一方、他のユーザの属性が、「文書管理担当者」であった場合は、ユーザの属性の名称が類似でなく、関連度は低い。ここでは、関連度算出部２５で、ユーザの関連度として、「０３」が算出されたことを図示している。この場合、他のユーザである「文書管理担当者」に提示するサムネイルは、「請求振分け担当者」のサムネイルと同じものとしないことが好ましい。

図５は、実施例１における注目領域の第２の例について示した図である。
ここでは、電子文書Ｄ１や電子文書Ｄ２が、画像として端末装置１０に表示され、これを見たユーザが電子文書の処理を行う場合を示している。さらにここでは、ユーザの属性が、請求書監査担当者であり、プロセスが、請求日のチェックであった場合の注目領域Ｃ２について示している。
この場合、注目領域Ｃ２は、請求日のチェックに必要な領域となり、例えば、請求日になる。即ち、この場合の注目領域Ｃ２は、電子文書Ｄ１では、「２０２０／１／３１」となり、電子文書Ｄ２では、「２０１９／１２／３１」となる。

このとき、注目領域抽出部２３は、ユーザが電子文書Ｄ１や電子文書Ｄ２に対し、検索した文言に対する値を注目領域Ｃ２とする。この場合、例えば、ユーザは、検索時の設定語として、「請求日」を入力し、検索すると、電子文書Ｄ１および電子文書Ｄ２では、「請求日」がヒットする。そして、注目領域抽出部２３は、これらの値である、「２０２０／１／３１」や「２０１９／１２／３１」を注目領域Ｃ２とする。

そして、このように注目領域Ｃ２を抽出した場合、学習モデル作成部２４は、ユーザの属性である「請求書監査担当者」、プロセスである「請求日のチェック」、およびユーザが検索した文言に対する値である注目領域Ｃ２を学習対象とし、これらを関連付けて学習して、学習モデルを作成する。

図６（ａ）は、図５で示した方法で注目領域Ｃ２を抽出した場合に作成される学習モデルＭ２について示した図である。
図示する学習モデルＭ２では、図４（ａ）の場合と同様に、文書名、ユーザの属性、プロセス、関連情報が関連付けられて学習される。ここでは、「関連情報」として、注目領域抽出部２３で抽出された注目領域Ｃ２が格納される。

また、図６（ｂ）は、図６（ａ）に示した学習モデルＭ２に対し、ユーザの属性の関連度およびプロセスの関連度を適用させた場合を示している。
ここで、図６（ａ）に示した学習モデルＭ２のユーザの属性は、「請求書監査担当者」である。
これに対し、他のユーザの属性が、「文書編集者」であった場合は、ユーザの属性の名称が類似でなく、関連度は低い。ここでは、関連度算出部２５で、ユーザの関連度として、「０３」が算出されたことを図示している。一方、このユーザのプロセスが、「請求日確認」であった場合は、プロセスの名称が類似であり、関連度は高い。ここでは、関連度算出部２５で、プロセスの関連度として、「０９」が算出されたことを図示している。この場合、このユーザに対するユーザの属性は、低いものの、このユーザに対するプロセスの関連度は高い。よって、このユーザに提示するサムネイルは、「請求書監査担当者」のサムネイルと同じものとすることが好ましい。

図３および図５で説明したように、同じ電子文書Ｄ１や電子文書Ｄ２であっても、電子文書が処理されるプロセスにより、注目領域は、異なる領域となる。上述した例では、注目領域は、プロセスが、請求書の振分けの場合は、注目領域Ｃ１となり、プロセスが、請求日のチェックの場合は、注目領域Ｃ２となり、これらは異なる領域である。

（実施例２）
図７～図１１は、実施例２で、サムネイルを作成する手順について示した図である。
実施例２では、文書管理サーバ２０の注目領域抽出部２３は、ユーザが電子文書を処理するプロセスに対し、ユーザが電子文書の画像中で文字認識させた領域を、注目領域として抽出する。

図７は、実施例２における注目領域の第１の例について示した図である。
ここでは、電子文書Ｄ１や電子文書Ｄ２が、画像として端末装置１０に表示され、これを見たユーザが電子文書の処理を行う場合を示している。さらにここでは、ユーザの属性が、請求振分け担当者であり、プロセスが、請求書のＯＣＲ（Optical character recognition：光学文字認識）であった場合の注目領域Ｃ１について示している。なお、ＯＣＲを行うアプリケーションソフトウェアは、上述したプロセスを実行するアプリケーションソフトウェアに内蔵されていてもよく、他のアプリケーションソフトウェアであってもよい。
この場合、注目領域Ｃ１は、請求書のＯＣＲに必要な領域となり、例えば、企業ロゴや企業名となる。即ち、この場合の注目領域Ｃ１は、電子文書Ｄ１では、企業ロゴＫ１となり、電子文書Ｄ２では、「〇◇△株式会社」となる。

このとき、注目領域抽出部２３は、ユーザが電子文書Ｄ１や電子文書Ｄ２に対しＯＣＲを行ったときに、企業ロゴや企業名として抽出された画像を注目領域Ｃ１とする。

そして、このように注目領域Ｃ１を抽出した場合、学習モデル作成部２４は、ユーザの属性である「請求振分け担当者」、プロセスである「請求書のＯＣＲ」、および企業ロゴや企業名として抽出された画像である注目領域Ｃ１を学習対象とし、これらを関連付けて学習して、学習モデルを作成する。

図８は、図７で示した方法で注目領域Ｃ１を抽出した場合に作成される学習モデルＭ３について示した図である。
図示する学習モデルＭ３では、図４（ａ）の場合と同様に、文書名、ユーザの属性、プロセス、関連情報が関連付けられて学習される。ただし、図４（ａ）と異なり、ここでは、「プロセス」として、「請求書のＯＣＲ」が格納される。

図９は、実施例２における注目領域の第２の例について示した図である。
ここでは、電子文書Ｄ１や電子文書Ｄ２が、画像として端末装置１０に表示され、これを見たユーザが電子文書の処理を行う場合を示している。さらにここでは、ユーザの属性が、請求書監査担当者であり、プロセスが、請求日のチェックであった場合の注目領域Ｃ２について示している。
この場合、注目領域Ｃ２は、請求日のチェックに必要な領域となり、例えば、ＫＥＹ値の対するＶａｌｕｅ値になる。ここで、「ＫＥＹ値」は、電子文書の中で、予め定められた書式の値を要求する項目であり、「Ｖａｌｕｅ値」は、ＫＥＹ値に対する値である。即ち、この場合の注目領域Ｃ２は、電子文書Ｄ１では、ＫＥＹ値である「請求日」に対する、Ｖａｌｕｅ値である「２０２０／１／３１」となり、電子文書Ｄ２では、「２０１９／１２／３１」となる。

このとき、注目領域抽出部２３は、ユーザが電子文書Ｄ１や電子文書Ｄ２に対しＯＣＲを行った箇所に隣接する文字列を注目領域Ｃ２とする。この場合、例えば、ユーザは、自身の業務に対象となる箇所に対しＯＣＲを行う。このＯＣＲは、例えば、マウスＯＣＲであり、マウス等で表示された画像中でＯＣＲを行いたい箇所を選択すると、その箇所がＯＣＲされる。
この場合、例えば、ユーザは、電子文書Ｄ１や電子文書Ｄ２に対し、請求日の箇所にＯＣＲを行う。そして、注目領域抽出部２３は、ＯＣＲを行った「請求日」のＶａｌｕｅ値の文字列を注目領域Ｃ２とする。即ち、注目領域抽出部２３は、ユーザが電子文書の画像中で文字認識させた領域に隣接する領域を注目領域Ｃ２として抽出する。ここでは、Ｖａｌｕｅ値として、「２０２０／１／３１」や「２０１９／１２／３１」を注目領域Ｃ２とする。なお、図９では、この隣接する箇所の文字列について、マウスＯＣＲ周辺語として図示している。

そして、学習モデル作成部２４は、ユーザの属性である「請求書監査担当者」、プロセスである「請求日のチェック」、および請求日のＶａｌｕｅ値の文字列である注目領域Ｃ２を学習対象とし、これらを関連付けて学習して、学習モデルを作成する。

注目領域Ｃ２を抽出した場合に作成される学習モデルは、例えば、図６（ａ）の学習モデルＭ２と同様になる。

図７および図９で説明したように、図３および図５で説明した場合と同様に、同じ電子文書Ｄ１や電子文書Ｄ２であっても、電子文書が処理されるプロセスにより、注目領域は、異なる領域となる。

図１０は、実施例２における注目領域の第３の例について示した図である。
ここでは、電子文書Ｄ１や電子文書Ｄ２が、画像として端末装置１０に表示され、これを見たユーザが電子文書の処理を行う場合を示している。さらにここでは、ユーザの属性が、請求書監査担当者であり、プロセスが、請求日のチェックであった場合の注目領域Ｃ３について示している。
この場合、注目領域Ｃ３は、請求日のチェックに必要な領域となり、例えば、請求日のＫＥＹ値およびそのＶａｌｕｅ値になる。即ち、この場合の注目領域Ｃ３は、電子文書Ｄ１では、「請求日２０２０／１／３１」となり、電子文書Ｄ２では、「請求日２０１９／１２／３１」となる。この場合、「請求日」が、ＫＥＹ値であり、「２０２０／１／３１」および「２０１９／１２／３１」が、ＫＥＹ値に対するそのＶａｌｕｅ値になる。即ち、注目領域抽出部２３は、文字認識の結果、キー（ＫＥＹ値）・バリュー（Ｖａｌｕｅ値）の関係となる領域を注目領域Ｃ３として抽出する。

このとき、注目領域抽出部２３は、ユーザが電子文書Ｄ１や電子文書Ｄ２に対しＯＣＲを行った箇所を注目領域Ｃ３とする。この場合、例えば、ユーザは、電子文書Ｄ１や電子文書Ｄ２に対し、請求日のＫＥＹ値およびＶａｌｕｅ値が記載された箇所に対しＯＣＲを行う。そして、注目領域抽出部２３は、ＯＣＲ後の請求日のＫＥＹ値およびＶａｌｕｅ値の文字列を注目領域Ｃ３とする。

そして、学習モデル作成部２４は、ユーザの属性である「請求書監査担当者」、プロセスである「請求日のチェック」、および請求日のＫＥＹ値およびＶａｌｕｅ値の文字列である注目領域Ｃ３を学習対象とし、これらを関連付けて学習して、学習モデルを作成する。

図１１は、図１０で示した方法で注目領域Ｃ３を抽出した場合に作成される学習モデルＭ４について示した図である。
図示する学習モデルＭ４では、図５（ａ）の場合と同様に、文書名、ユーザの属性、プロセス、関連情報が関連付けられて学習される。ただしここでは、「関連情報」として、注目領域抽出部２３で抽出された注目領域Ｃ３が格納される。

図１２（ａ）～（ｃ）は、学習モデルを基に、サムネイル作成部２６が作成するサムネイルの例を示した図である。
ここでは、フォルダＸＹＺを開いたときに、フォルダＸＹＺに格納される電子文書について、サムネイルを表示して場合を示している。
このうち、図１２（ａ）は、図４（ａ）の学習モデルＭ１や図８の学習モデルＭ３を基に作成されるサムネイルを示している。図示するサムネイルＳ１は、学習モデルＭ１の関連情報をサムネイルとしたものである。
また、図１２（ｂ）は、図６（ａ）の学習モデルＭ２を基に作成されるサムネイルを示している。図示するサムネイルＳ２は、学習モデルＭ２の関連情報をサムネイルとしたものである。
さらに、図１２（ｃ）は、図１１の学習モデルＭ４を基に作成されるサムネイルを示している。図示するサムネイルＳ３は、学習モデルＭ４の関連情報をサムネイルとしたものである。

なお、ここでは、学習モデルＭ１～Ｍ４の関連情報をそのままサムネイルＳ１～Ｓ３としたが、これに限られるものではなく、例えば、他の画像情報と合成したものをサムネイルとしたり、関連情報を拡大、縮小、強調などの加工を施した上でサムネイルとしてもよい。また、このフィルダに、詳しくは後述する、サムネイルの再作成の指示を行うメニューを設けることもできる。

＜文書管理サーバ２０の動作の説明＞
図１３は、文書管理サーバ２０の動作について説明したフローチャートである。
まず、端末装置１０から文書管理サーバ２０に対し、ユーザが認証を行う（ステップ１０１）。認証は、認証部２２により行われる。
次に、送受信部２１は、認証したユーザが、過去に電子文書の処理を行ったユーザであり、学習モデルが存在するか否かを判断する（ステップ１０２）。
その結果、学習モデルが存在する場合（ステップ１０２でＹｅｓ）、サムネイル作成部２６が、学習モデルに基づきサムネイルを作成し、ユーザに対し提示する（ステップ１０３）。

対して、学習モデルが存在しなかった場合（ステップ１０２でＮｏ）、関連度算出部２５は、このユーザの属性に類似し、関連度が高いユーザの属性が存在するか否かを判断する（ステップ１０４）。実際には、関連度算出部２５は、このユーザの属性に対して、予め定められた閾値以上の関連度を有するユーザの属性が存在するか否かを判断する。
その結果、類似し、関連度が高いユーザの属性が存在した場合（ステップ１０４でＹｅｓ）、サムネイル作成部２６は、この類似するユーザの属性に対応する学習モデルに基づきサムネイルを作成し、ユーザに対し提示する（ステップ１０３）。

対して、類似するユーザの属性が存在しない場合（ステップ１０４でＮｏ）、関連度算出部２５は、このユーザが行うプロセスに類似し、関連度が高いプロセスが存在するか否かを判断する（ステップ１０５）、実際には、関連度算出部２５は、このユーザが行うプロセスに対して、予め定められた閾値以上の関連度を有するプロセスが存在するか否かを判断する。
その結果、類似し、関連度が高いプロセスが存在した場合（ステップ１０５でＹｅｓ）、サムネイル作成部２６は、この類似するプロセスに対応する学習モデルに基づきサムネイルを作成し、ユーザに対し提示する（ステップ１０３）。

対して、類似するユーザの属性が存在しない場合（ステップ１０５でＮｏ）、関連度算出部２５は、このユーザの属性やこのユーザが行うプロセスと、他のユーザの属性や他のユーザが行うプロセスとで、最も類似度が高く、関連度が高い場合を探索し、見つけ出す（ステップ１０６）。
そして、最も関連度が高い場合に対応する学習モデルに基づきサムネイルを作成し、ユーザに対し提示する（ステップ１０３）。

また、ステップ１０３の後は、ユーザは、提示されたサムネイルを見て、適しているか否かを判断する（ステップ１０７）。
その結果、適していない場合（ステップ１０７でＮｏ）、ユーザは、サムネイルの再作成の指示を出す（ステップ１０８）。
このとき、サムネイル作成部２６では、再び学習モデルに基づきサムネイルを作成し、ユーザに対し提示する（ステップ１０９）。
この場合、サムネイル作成部２６は、他のユーザの関連度や他のユーザのプロセスの関連度に基づき、サムネイルを再作成する。即ち、サムネイル作成部２６は、ユーザの指示により、関連度に応じ、サムネイルを変更する。具体的には、サムネイル作成部２６は、これらの類似度が高く、関連度が高い場合の学習モデルに基づき、サムネイルを作成し、ユーザに対し提示する。また、再作成の指示が複数回なされたときは、これらの類似度が高く、関連度が高い方から順にサムネイルを作成し、ユーザに対し提示する。

対して、適している場合（ステップ１０７でＹｅｓ）、ユーザは、自身が担当するプロセスに応じて必要な電子文書を選択する（ステップ１１０）。
選択された電子文書は、文書管理サーバ２０の記憶部２８から取得され、ユーザは、電子文書の処理を行う（ステップ１１１）。このとき行う処理は、例えば、電子文書の画像に対し、抽出、参照、検索等を行う処理である。

この処理の内容は、文書管理サーバ２０の送受信部２１が取得し、注目領域抽出部２３が注目領域を抽出する（ステップ１１２）。
そして、学習モデル作成部２４が、注目領域抽出部２３が抽出した注目領域を基に、学習モデル作成部２４が学習モデルを作成する（ステップ１１３）。作成された学習モデルは、記憶部２８に保存される。
ユーザは、電子文書の処理が終了すると、処理後の電子文書を保存する。処理後の電子文書は、文書管理サーバ２０の記憶部２８に保存される（ステップ１１４）。

以上詳述したように、本実施の形態では、それぞれのユーザに合わせた特徴的なサムネイルを生成することができる。即ち、本実施の形態で作成されるサムネイルは、ユーザが探索する対象となる電子文書と他の電子文書との間で、差異を表す特徴的な情報になる。これにより、複数の電子文書の中から目的の電子文書を選択する際に、ユーザが選択しやすくなる。また、本実施の形態では、ユーザの属性の関連度やプロセスの関連度を利用し、サムネイルを作成する。これにより、学習モデルが存在しないユーザに対してもそれぞれのユーザに合わせた特徴的なサムネイルを生成することができる。
また、サムネイルの作成は、いわば自動的になされ、ユーザが手動でサムネイルを作成するための項目を設定する必要がない。

＜プログラムの説明＞
ここで、以上説明を行った本実施の形態の文書管理サーバ２０で行う処理は、例えば、ソフトウェア等のプログラムとして用意される。そして、ソフトウェアとハードウェア資源とが協働することにより実現される。

よって、文書管理サーバ２０が行う処理を実行するプログラムは、コンピュータに、ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出する抽出機能と、注目領域を基に、ユーザが閲覧する電子文書について、注目領域に対応した画像を抽出して、サムネイルを作成する作成機能と、を実現させるためのプログラムとして捉えることもできる。

なお、本実施の形態を実現するプログラムは、通信手段により提供することはもちろん、ＣＤ－ＲＯＭ等の記録媒体に格納して提供することも可能である。

１…文書管理システム、１０…端末装置、２０…文書管理サーバ、２１…送受信部、２２…認証部、２３…注目領域抽出部、２４…学習モデル作成部、２５…関連度算出部、２６…サムネイル作成部、２７…確認部、２８…記憶部

Claims

プロセッサを備え、
前記プロセッサは、
ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出し、
前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成する
ことを特徴とする情報処理装置。
前記プロセッサは、ユーザが前記電子文書を処理する工程に応じ、前記注目領域を抽出することを特徴とする請求項１に記載の情報処理装置。
前記プロセッサは、ユーザが前記電子文書を処理する工程に対し、ユーザが検索した対象を関連付けて前記注目領域を抽出することを特徴とする請求項２に記載の情報処理装置。
前記プロセッサは、ユーザが前記電子文書を処理する工程に対し、ユーザが当該電子文書の画像中で文字認識させた領域を、前記注目領域として抽出することを特徴とする請求項２に記載の情報処理装置。
前記プロセッサは、ユーザが当該電子文書の画像中で文字認識させた領域に隣接する領域を前記注目領域として抽出することを特徴とする請求項４に記載の情報処理装置。
前記プロセッサは、文字認識の結果、キー・バリューの関係となる領域を前記注目領域として抽出することを特徴とする請求項４に記載の情報処理装置。
前記プロセッサは、前記電子文書に応じて求められる関連度に応じ、前記サムネイルを決定することを特徴とする請求項１に記載の情報処理装置。
前記関連度は、ユーザの属性の関連度であることを特徴とする請求項７に記載の情報処理装置。
前記関連度は、ユーザが前記電子文書を処理する工程の関連度であることを特徴とする請求項７に記載の情報処理装置。
ユーザの指示により、前記関連度に応じ、前記サムネイルを変更することを特徴とする請求項７に記載の情報処理装置。
電子文書の処理を行う端末装置と、
前記電子文書を管理する文書管理装置と、
を備え、
前記文書管理装置は、プロセッサを備え、
前記プロセッサは、
ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出し、
前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成する
ことを特徴とする文書管理システム。
コンピュータに、
ユーザが過去に閲覧した電子文書の中から、ユーザが注目する領域である注目領域を抽出する抽出機能と、
前記注目領域を基に、ユーザが閲覧する電子文書について、前記注目領域に対応した画像を抽出して、サムネイルを作成する作成機能と、
を実現させるためのプログラム。