JP2021114225A - ファイル検索システム、ファイル検索方法及びプログラム - Google Patents
ファイル検索システム、ファイル検索方法及びプログラム Download PDFInfo
- Publication number
- JP2021114225A JP2021114225A JP2020007402A JP2020007402A JP2021114225A JP 2021114225 A JP2021114225 A JP 2021114225A JP 2020007402 A JP2020007402 A JP 2020007402A JP 2020007402 A JP2020007402 A JP 2020007402A JP 2021114225 A JP2021114225 A JP 2021114225A
- Authority
- JP
- Japan
- Prior art keywords
- search
- file
- document
- candidates
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 239000000284 extract Substances 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 abstract description 20
- 238000012545 processing Methods 0.000 description 37
- 230000010365 information processing Effects 0.000 description 26
- 238000012015 optical character recognition Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 14
- 238000012937 correction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】検索元の証憑文書と同一取引で使用された証憑文書を収集する際に、ユーザが複数の種別について対応文書を確定していく確定作業の効率化を図るファイル検索システム、ファイル検索方法及びプログラムを提供する。【解決手段】ファイル検索方法は、クラウドサービスサーバから受信した検索結果画面を表示させS901、ユーザの選択に基づいて、候補文書の中から任意の種別について文書を確定Sし902、検索元の信憑文書と、確定した信憑文書とに基づいて未確定の種別の信憑文書についての整合性判定を行いS903、整合性判定で不適格と判断した文書を除外しS904、選択された文書に対して、再度関連度スコアを算出しS905、関連度スコアに基づいて候補文書のソートを行い、検索結果画面を更新するS906。【選択図】図9
Description
本発明は、ファイル検索システム、ファイル検索方法及びプログラムに関するものである。特に、スキャンされた証憑文書と同一取引で使用された対応文書をデータベースから検索する、ファイル検索システムに関するものである。
従来から、請求書などの証憑文書については、記載された金額などについて誤りが発生していないかを確認する業務が存在する。多くの場合、例えば請求書が発行されるまでは、同一取引に関連して、見積書、注文書、納品書などの一連の証憑文書が順次発行される。
そこで、請求書と同一取引で使用された見積書、注文書、納品書などの証憑文書を収集して、金額などについて、これらの証憑文書に記載されている内容と合致しているかを確認することにより、請求書に誤りがないことを確認する作業が行われている。
そこで、請求書と同一取引で使用された見積書、注文書、納品書などの証憑文書を収集して、金額などについて、これらの証憑文書に記載されている内容と合致しているかを確認することにより、請求書に誤りがないことを確認する作業が行われている。
このような作業を支援するために、証憑文書についてメタデータを付与してストレージに格納し、同一取引で使用された一連の対応文書を自動検索するファイル検索システムが提案されている。このような支援システムを利用することにより、ユーザは請求書などを確認する作業を行うために必要な一連の対応文書を収集することが容易となる。
また、このようなファイル検索システムにおいては、OCR(Optical Character Recognition)処理などの画像処理を行うことにより、アナログ文書であってもスキャンして得られた画像データからメタデータを自動付与することができるものがある。また、文書に記載された内容から、検索条件を自動的に設定したりすることができるものもある。
また、このようなファイル検索システムにおいては、OCR(Optical Character Recognition)処理などの画像処理を行うことにより、アナログ文書であってもスキャンして得られた画像データからメタデータを自動付与することができるものがある。また、文書に記載された内容から、検索条件を自動的に設定したりすることができるものもある。
しかし、同一取引で使用された証憑文書を検索する際に、検索元文書に記載された情報のみを用いた場合、制約条件が少ないため、検索の精度が低く、同一取引で使用された対応文書以外の過検出が発生してしまうという問題がある。このため、検索結果の中から、同一取引で使用された対応文書を確定する作業をユーザが行う必要がある。
このような観点から、例えば、特許文献1には、元文書中の所定の領域から抽出したキーワードを用いて類似文書を検索し、検索結果が不満足である場合、元文書の他の領域から抽出したキーワードを用いて新たな検索を行う文書検索装置が開示されている。
しかし、前述のとおり、ある証憑文書(例えば、請求書)と同一取引で使用された対応文書としては、多くの場合、例えば、見積書、注文書、納品書のように、一連の複数の種別が存在する。そのため、ユーザは確定作業において、複数の種別の証憑文書について対応文書を確定していく必要がある。
しかし、確定作業においてユーザが一部の種別(例えば、注文書)について対応文書を確定したとしても、その確定は他の種別(例えば、注文書以外の見積書、納品書)の確定には反映されないため、確定作業の効率化が図られないという課題がある。
しかし、確定作業においてユーザが一部の種別(例えば、注文書)について対応文書を確定したとしても、その確定は他の種別(例えば、注文書以外の見積書、納品書)の確定には反映されないため、確定作業の効率化が図られないという課題がある。
本発明は、上記のような事情に鑑みてなされたものであり、検索元文書に関連する一連の対応文書を確定する作業におけるユーザの負担を軽減し、確定作業を効率化することを目的とする。
本発明は、第1の種別に属する複数のファイルの中から検索元に関連する第1のファイルの候補を抽出し、第2の種別に属する複数のファイルの中から前記検索元に関連する第2のファイルの候補を抽出する検索手段を有するファイル検索システムであって、前記検索手段は、第1の検索において、前記検索元に関する情報を利用して前記第1の種別に属する複数のファイルの中から複数の前記第1のファイルの候補を抽出し、前記検索元に関する情報を利用して前記第2の種別に属する複数のファイルの中から複数の前記第2のファイルの候補を抽出し、前記複数の第1のファイルの候補の中から前記検索元に関連する第1のファイルが確定した場合、前記検索手段は、第2の検索おいて、前記第1の検索において抽出された複数の前記第2のファイルの候補の数を絞り込むことを特徴とする。
本発明によれば、検索元文書に関連する対応文書を確定するユーザによる確定作業を効率化することが可能となる。
以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。
以下、本発明を実施例について図面を用いて説明する。
<実施例1>
<システムの全体構成>
図1は、本実施例において用いられるファイル検索システム10の全体構成を示す図である。
図1に示すように、ファイル検索システム10は、画像形成装置100、PCなどの情報処理端末101、クラウドサービスサーバ102、クラウドサービスサーバ103などの装置を備える。
<実施例1>
<システムの全体構成>
図1は、本実施例において用いられるファイル検索システム10の全体構成を示す図である。
図1に示すように、ファイル検索システム10は、画像形成装置100、PCなどの情報処理端末101、クラウドサービスサーバ102、クラウドサービスサーバ103などの装置を備える。
画像形成装置100は、イーサネット(登録商標)や無線LANなどからなるLAN104に接続され、さらに、インターネット105に接続されている。また、クラウドサービスサーバ102及びクラウドサービスサーバ103も、イーサネット(登録商標)や無線LANなどからなるLAN104に接続され、さらに、インターネット105に接続されている。すなわち、画像形成装置100、情報処理端末101、クラウドサービスサーバ102、クラウドサービスサーバ103は、ぞれぞれ、LAN104からインターネット105に接続され、相互に通信可能となっている。
画像形成装置100は、操作部、スキャナ部、プリンタ部を有する複合機(Multifunction Peripheral:MFP)である。本実施例のファイル検索システム10では、画像形成装置100は紙文書をスキャンするための端末として利用される。
PC(Personal Computer)などの情報処理端末101は、操作部、表示部を有するパーソナルコンピュータである。本実施例のファイル検索システム10では、情報処理端末101は、文書ファイルの検索の結果や、ユーザからの操作指示を受ける表示・操作端末として利用される。
PC(Personal Computer)などの情報処理端末101は、操作部、表示部を有するパーソナルコンピュータである。本実施例のファイル検索システム10では、情報処理端末101は、文書ファイルの検索の結果や、ユーザからの操作指示を受ける表示・操作端末として利用される。
クラウドサービスサーバ102は、演算部を有する処理サーバである。本実施例のファイル検索システム10では、クラウドサービスサーバ102は文書ファイルの検索処理を実行する処理端末として利用される。ただし、文書ファイルの検索処理を実行する情報処理端末は、演算実行機能を有すればよく、クラウド上のサーバでなくてもよい。
クラウドサービスサーバ103は、記憶部を有するストレージサーバである。本実施例のファイル検索システム10では、クラウドサービスサーバ103は、文書ファイルを保持するストレージ端末として利用される。ただし、文書ファイルを保持する情報処理端末は、記憶機能を有すればよく、クラウド上のサーバでなくてもよい。
クラウドサービスサーバ103は、記憶部を有するストレージサーバである。本実施例のファイル検索システム10では、クラウドサービスサーバ103は、文書ファイルを保持するストレージ端末として利用される。ただし、文書ファイルを保持する情報処理端末は、記憶機能を有すればよく、クラウド上のサーバでなくてもよい。
なお、本実施例の実現にあたっては、PCなどの端末101、クラウドサービスサーバ102、クラウドサービスサーバ103に関しては、必ずしも必要ない。例えば、クラウドサービスサーバ103の機能をクラウドサービスサーバ102に持たせる構成でもよいし、クラウドサービスサーバ102とクラウドサービスサーバ103機能をPCなどの端末101に持たせる構成でもよい。また、画像形成装置100でスキャンされた画像を入力画像として用いるが、PCなどの端末101に事前に保持されている画像を入力画像として扱ってもよい。また、クラウドサービスサーバ103は、汎用的なストレージのクラウドサービスであってもよいし、ファイルストレージオンプレミスサーバであってもよい。
なお、本発明を実施するにあたって、PCなどの情報処理端末101、クラウドサービスサーバ102、クラウドサービスサーバ103などの装置は、必ずしも必要ではない。例えば、クラウドサービスサーバ103の機能を、クラウドサービスサーバ102が備えるようにしてもよい。また、クラウドサービスサーバ102とクラウドサービスサーバ103機能を、PCなどの情報処理端末101が備えるようにしてもよい。
また、入力画像としては、画像形成装置100でスキャンされた画像を用いことに限られず、PCなどの情報処理端末101が事前に保持している画像を用いてもよい。また、クラウドサービスサーバ103は、汎用的なストレージのクラウドサービスであってもよいし、ファイルストレージオンプレミスサーバであってもよい。
また、入力画像としては、画像形成装置100でスキャンされた画像を用いことに限られず、PCなどの情報処理端末101が事前に保持している画像を用いてもよい。また、クラウドサービスサーバ103は、汎用的なストレージのクラウドサービスであってもよいし、ファイルストレージオンプレミスサーバであってもよい。
<画像形成装置のハードウェア構成>
図2は、画像形成装置100のハードウェア構成例を示すブロック図である。
画像形成装置100は、制御部200、表示・操作部206、プリンタ部208、スキャナ部210を備える。
制御部200は、CPU201、ROM202、RAM203、HDD204、表示・操作I/F部205、プリンタI/F部207、スキャナI/F部209、ネットワークI/F部211の各ハードウェアを備える。制御部200内の各ハードウェアは、システムバス212を介して、互いに通信可能に接続されている。制御部200は、画像形成装置100全体の動作を制御する。
図2は、画像形成装置100のハードウェア構成例を示すブロック図である。
画像形成装置100は、制御部200、表示・操作部206、プリンタ部208、スキャナ部210を備える。
制御部200は、CPU201、ROM202、RAM203、HDD204、表示・操作I/F部205、プリンタI/F部207、スキャナI/F部209、ネットワークI/F部211の各ハードウェアを備える。制御部200内の各ハードウェアは、システムバス212を介して、互いに通信可能に接続されている。制御部200は、画像形成装置100全体の動作を制御する。
CPU201は、記憶装置(ROM202、RAM203、HDD204)に記憶された制御プログラムを読み出し実行することにより、画像形成装置100の各処理(読取制御や画像処理など)を実行する手段として機能する。
記憶装置は、制御プログラム、画像データなどを格納し保持する。
記憶装置は、不揮発性メモリであるROM202、揮発性メモリであるRAM203、大容量記憶領域であるHDD204などを備える。
ROM202は、制御プログラムなどを保持する不揮発性メモリである。制御プログラムは、CPU201により読み出され実行される。
RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる揮発性メモリである。
HDD204は、CPU201が処理を行う画像データなどを保存する大容量記憶領域として用いられる不揮発性メモリである。
記憶装置は、不揮発性メモリであるROM202、揮発性メモリであるRAM203、大容量記憶領域であるHDD204などを備える。
ROM202は、制御プログラムなどを保持する不揮発性メモリである。制御プログラムは、CPU201により読み出され実行される。
RAM203は、CPU201の主メモリ、ワークエリア等の一時記憶領域として用いられる揮発性メモリである。
HDD204は、CPU201が処理を行う画像データなどを保存する大容量記憶領域として用いられる不揮発性メモリである。
表示・操作部I/F部205は、表示・操作部206と制御部200とを、システムバス212を介して接続する。表示・操作部206は、タッチパネル機能を有する液晶表示部やハードボタンなどを備える。
プリンタI/F部207は、プリンタ部208と制御部200とを、システムバス212を介して接続する。プリンタ部208は、CPU201で生成された画像データをプリンタI/F部207を介して受信し、受信した画像データを用いて記録紙へのプリント処理を行う。
スキャナI/F部209は、スキャナ部210と制御部200とを、システムバス212を介して接続する。スキャナ部210は、証憑文書などの文書を読み取って画像データを生成し、スキャナI/F部209を介して画像データを制御部200に入力する。
プリンタI/F部207は、プリンタ部208と制御部200とを、システムバス212を介して接続する。プリンタ部208は、CPU201で生成された画像データをプリンタI/F部207を介して受信し、受信した画像データを用いて記録紙へのプリント処理を行う。
スキャナI/F部209は、スキャナ部210と制御部200とを、システムバス212を介して接続する。スキャナ部210は、証憑文書などの文書を読み取って画像データを生成し、スキャナI/F部209を介して画像データを制御部200に入力する。
ネットワークI/F部211は、制御部200(画像形成装置100)を、LAN104に接続し、LAN104上の外部装置に画像データを送信したり、LAN104上の外部装置から各種情報を受信したりする。
以上のように、本実施例の画像形成装置100は、上記のハードウェア構成によって、各種の画像処理機能を提供することが可能である。
以上のように、本実施例の画像形成装置100は、上記のハードウェア構成によって、各種の画像処理機能を提供することが可能である。
<情報処理端末のハードウェア構成>
図3は、PCなどの情報処理端末101のハードウェア構成例を示すブロック図である。
情報処理端末101は、制御部300、操作部307、表示部309を備える。
制御部300は、PCなどの情報処理端末101全体の動作を制御する。
制御部300は、CPU301、ROM302、RAM303、HDD304、ネットワークI/F305、操作部I/F306、表示部I/F308を備える。
図3は、PCなどの情報処理端末101のハードウェア構成例を示すブロック図である。
情報処理端末101は、制御部300、操作部307、表示部309を備える。
制御部300は、PCなどの情報処理端末101全体の動作を制御する。
制御部300は、CPU301、ROM302、RAM303、HDD304、ネットワークI/F305、操作部I/F306、表示部I/F308を備える。
CPU301は、ROM302に記憶された制御プログラムを読み出して各種制御処理を実行する。
RAM303は、CPU301の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD304は、画像データや各種プログラムを記憶する。
ネットワークI/F305は、制御部300(PCなどの端末101)をLAN104に接続する。そして、ネットワークI/F305は、LAN104上の他の装置と制御部300との間で各種情報を送受信する。
RAM303は、CPU301の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD304は、画像データや各種プログラムを記憶する。
ネットワークI/F305は、制御部300(PCなどの端末101)をLAN104に接続する。そして、ネットワークI/F305は、LAN104上の他の装置と制御部300との間で各種情報を送受信する。
操作部I/F部306は、操作部307と制御部300とを、システムバス310を介して接続する。操作部307は、入力および操作の機能を有するマウスやキーボードなどを備える。
表示部I/F部308は、表示部309と制御部300とを、システムバス310を介して接続する。表示部309は、表示機能を有するディスプレイなどを備える。
表示部I/F部308は、表示部309と制御部300とを、システムバス310を介して接続する。表示部309は、表示機能を有するディスプレイなどを備える。
<クラウドサービスサーバ及びクラウドストレージサーバのハードウェア構成>
図4は、クラウドサービスサーバ102及びクラウドストレージサーバ103のハードウェア構成例を示すブロック図である。クラウドサービスサーバ102とクラウドストレージサーバ103は、HDD404の記憶可能容量等が異なる以外は、基本的に同じ構成であるため、クラウドサービスサーバについて説明する。
図4は、クラウドサービスサーバ102及びクラウドストレージサーバ103のハードウェア構成例を示すブロック図である。クラウドサービスサーバ102とクラウドストレージサーバ103は、HDD404の記憶可能容量等が異なる以外は、基本的に同じ構成であるため、クラウドサービスサーバについて説明する。
クラウドサービスサーバ102は、制御部400を有する。
制御部400は、クラウドサービスサーバ102全体の動作を制御する。
制御部400は、CPU401、ROM402、RAM403、HDD404、ネットワークI/F部405を備える。
制御部400は、クラウドサービスサーバ102全体の動作を制御する。
制御部400は、CPU401、ROM402、RAM403、HDD404、ネットワークI/F部405を備える。
CPU401は、ROM402に記憶された制御プログラムを読み出して各種制御処理を実行する。
RAM403は、CPU401の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD404は、文書ファイル、画像データや各種プログラムを記憶する。
ネットワークI/F405は、制御部400(クラウドサービスサーバ102)をLAN104に接続する。そして、ネットワークI/F405は、LAN104上の他の装置と制御部400との間で各種情報を送受信する。
なお、同一取引で使用した文書ファイルを検索する検索エンジンについては、クラウドサービスサーバ103内のCPU401によって実行される。
RAM403は、CPU401の主メモリ、ワークエリア等の一時記憶領域として用いられる。
HDD404は、文書ファイル、画像データや各種プログラムを記憶する。
ネットワークI/F405は、制御部400(クラウドサービスサーバ102)をLAN104に接続する。そして、ネットワークI/F405は、LAN104上の他の装置と制御部400との間で各種情報を送受信する。
なお、同一取引で使用した文書ファイルを検索する検索エンジンについては、クラウドサービスサーバ103内のCPU401によって実行される。
なお、前述のとおり、クラウドサービスサーバ103も、クラウドサービスサーバ102の同様のハードウェア構成を備える。すなわち、クラウドサービスサーバ103は、制御部410(CPU411、ROM412、RAM413、HDD414、ネットワークI/F部415)を備える。これらのハードウェアの機能は、クラウドサービスサーバ102のハードウェアと同様である。
<ファイル検索システムにおける処理全体のシーケンス>
次に、図5を用いて、本実施例のファイル検索システム10において実行される全体的な処理例の概略について説明する。図5は、ファイル検索システム10を構成する各装置において実行される処理のシーケンスを示す図である。
次に、図5を用いて、本実施例のファイル検索システム10において実行される全体的な処理例の概略について説明する。図5は、ファイル検索システム10を構成する各装置において実行される処理のシーケンスを示す図である。
まず、画像形成装置100が実行するスキャン画像の取得処理について説明する。
ここで、図6A(1)に、検索元であるスキャン対象の文書(検索元文書)の例を示す。ここでは、検索元文書は、証憑文書の一種である「請求書」であるものとして説明する。
ここで、図6A(1)に、検索元であるスキャン対象の文書(検索元文書)の例を示す。ここでは、検索元文書は、証憑文書の一種である「請求書」であるものとして説明する。
まず、ステップS500において、ユーザは、画像形成装置100の操作部206を操作して、請求書をスキャンさせる。
ステップS501において、画像形成装置100のCPU201は、スキャナ部210を駆動し、検索元文書の画像データ(スキャン画像)を生成し、RAM203に保存する。
ステップS502において、CPU201は、S501で生成したスキャン画像に対し、フィルタリング処理や色補正処理などの画像処理を実行する。
次に、ステップS503において、画像処理を実行したスキャン画像をクラウドサービスサーバ102に送信する。
ステップS501において、画像形成装置100のCPU201は、スキャナ部210を駆動し、検索元文書の画像データ(スキャン画像)を生成し、RAM203に保存する。
ステップS502において、CPU201は、S501で生成したスキャン画像に対し、フィルタリング処理や色補正処理などの画像処理を実行する。
次に、ステップS503において、画像処理を実行したスキャン画像をクラウドサービスサーバ102に送信する。
次に、クラウドサービスサーバ102が実行する検索の前処理について説明する。
まず、ステップS504において、クラウドサービスサーバ102のCPU401は、画像形成装置100から送信されたスキャン画像を受信し、HDD404へ保存する。
ステップS505において、CPU401は、受信したスキャン画像に対してOCR処理を実行して、文字列を取得する。
まず、ステップS504において、クラウドサービスサーバ102のCPU401は、画像形成装置100から送信されたスキャン画像を受信し、HDD404へ保存する。
ステップS505において、CPU401は、受信したスキャン画像に対してOCR処理を実行して、文字列を取得する。
ステップS506において、CPU401は、S505で取得した文字列から、検索を行うためのキーワード(検索クエリ)を生成する。
ステップS507において、CPU401は、S506で生成した検索クエリを用いて、クラウドストレージサーバ103の検索API(Application Programming Interface)等を使用し、クラウドストレージサーバ103に対して検索の指示をする。
ステップS507において、CPU401は、S506で生成した検索クエリを用いて、クラウドストレージサーバ103の検索API(Application Programming Interface)等を使用し、クラウドストレージサーバ103に対して検索の指示をする。
次に、クラウドストレージサーバ103が実行する検索処理について説明する。
まず、ステップS508において、クラウドストレージサーバ103のCPU411は、クラウドサービスサーバ102から検索クエリを受信し、クラウドストレージサーバ103内の検索エンジンで解釈するための変換処理を行う。
まず、ステップS508において、クラウドストレージサーバ103のCPU411は、クラウドサービスサーバ102から検索クエリを受信し、クラウドストレージサーバ103内の検索エンジンで解釈するための変換処理を行う。
ステップS509において、CPU411は、検索エンジンで解釈された検索クエリに基づいて、クラウドストレージサーバ103内のHDD414から同一取引で使用した証憑文書を検索し、検索結果を生成する。その際、図6A(1)のように、S500においてスキャンされた文書が「請求書」である場合、同一取引で使用された証憑文書の候補として、「納品書」、「発注書」、「見積書」、などの種別類の文書がそれぞれ0枚から複数枚抽出される。ここで、図6B(1)、(2)、(3)に、それぞれ、図6Aの「請求書」と同一取引で使用された「納品書」、「発注書」、「見積書」の例を示す。
ステップS510において、CPU411は、S509で生成した検索結果をクラウドサービスサーバ102に通知する。通知する形式としては、検索処理により抽出された証憑文書のデータ自体でもよいし、格納されている証憑文書のファイルパスでもよいし、文書ファイル名や作成者などの証憑文書の特徴が記載されたインデックス情報(プロパティ情報)だけであってもよい。
次に、クラウドサービスサーバ102が実行する検索の後処理について説明する。
まず、ステップS511において、クラウドサービスサーバ101のCPU401は、クラウドストレージサーバ103から検索結果を受信し、クラウドサービスサーバ102内のHDD404へ保存する。
まず、ステップS511において、クラウドサービスサーバ101のCPU401は、クラウドストレージサーバ103から検索結果を受信し、クラウドサービスサーバ102内のHDD404へ保存する。
ステップS512において、CPU401は、S509で抽出された抽出文書に対してOCR処理を行い、文書内の文字列を取得する。検索結果として画像データを受信した場合は、画像データに対しOCR処理を行う。PDFファイル等のファイルを受信した場合は、ファイル内の画像データを抜き出してOCR処理を行う。また、文書内の文字列がテキストデータとして格納されている場合は、テキストデータを抽出するだけであってもよい。
ステップS513において、CPU401は、S512で取得した抽出文書内の文字列と、S505でスキャン画像から取得した検索元文書内の文字列と、の比較を行い、文書間の関連度スコアを算出する。関連度スコアを算出する手法については、公知の手法を採用することができる。例えば、各文書内の各文字列同士の距離を、レーベンシュタインによる算出手法で算出し、累積距離が少ない文書ほど関連度スコアが高いとすることができる。なお、関連度スコアは、検索処理により抽出された証憑文書の種別(納品書、発注書、見積書など)ごとに算出される。
ステップS514において、CPU401は、S513で算出された関連度スコアに基づいて、S511で受信した検索結果のランキングを更新する。
ステップS515において、CPU401は、更新した検索結果をPC等の情報処理端末101でユーザが表示確認できるように、表示用の画面を生成する。例えば、クラウドサービスサーバ102内のWEBサーバ上にHTML形式のデータを用意し、PC等の情報処理端末101のブラウザアプリケーション等で閲覧が可能な形式の画面を生成する。
ステップS515において、CPU401は、更新した検索結果をPC等の情報処理端末101でユーザが表示確認できるように、表示用の画面を生成する。例えば、クラウドサービスサーバ102内のWEBサーバ上にHTML形式のデータを用意し、PC等の情報処理端末101のブラウザアプリケーション等で閲覧が可能な形式の画面を生成する。
次に、ステップS516において、CPU401は、更新した検索結果をPC等の情報処理端末101に対して通知し、情報処理端末101の表示部309に表示するように指示する。
次に、検索結果の確定処理について説明する。
ステップS517において、PC等の情報処理端末101のCPU301は、クラウドサービスサーバ102からの指示に基づいて、ディスプレイ等の表示部309に検索結果を表示する。その際、CPU301は、検索処理により抽出された証憑文書の種別(納品書、発注書、見積書など)ごとに分けてランキング付けをして、表示を行う。
ステップS517において、PC等の情報処理端末101のCPU301は、クラウドサービスサーバ102からの指示に基づいて、ディスプレイ等の表示部309に検索結果を表示する。その際、CPU301は、検索処理により抽出された証憑文書の種別(納品書、発注書、見積書など)ごとに分けてランキング付けをして、表示を行う。
ステップS518において、CPU301は、検索処理により抽出された文書の中から、ステップS500でスキャンした文書と同一取引の証憑文書の確定を行う。
この確定は、表示部309に表示された証憑文書の中から、任意の種別について、1つ以上の文書が操作部307においてユーザにより選択されることにより行われる。これにより、CPU301は、その種別について、ユーザにより選択された証憑文書を確定する。
ステップS519において、CPU301は、ステップS518において確定された証憑文書に関する情報をクラウドサービスサーバ102に送信する。
この確定は、表示部309に表示された証憑文書の中から、任意の種別について、1つ以上の文書が操作部307においてユーザにより選択されることにより行われる。これにより、CPU301は、その種別について、ユーザにより選択された証憑文書を確定する。
ステップS519において、CPU301は、ステップS518において確定された証憑文書に関する情報をクラウドサービスサーバ102に送信する。
ステップS520において、クラウドサービスサーバ102のCPU401は、S519で受信した確定された証憑文書に関する情報に基づいて、検索結果の中から、未確定の種別の文書について、適格な文書のみを選択し、不適格な文書を除外する。
ステップS521において、CPU401は、ステップS518で確定した文書と、ステップS520で選択した文書の情報に基づいて、検索結果に対して再度スコアリングを行い、未確定の種別の文書について、ランキングが更新された検索結果を生成する。
ステップS522において、未確定の種別の文書について、更新された検索結果をPC等の情報処理端末101に対して通知する。
ステップS521において、CPU401は、ステップS518で確定した文書と、ステップS520で選択した文書の情報に基づいて、検索結果に対して再度スコアリングを行い、未確定の種別の文書について、ランキングが更新された検索結果を生成する。
ステップS522において、未確定の種別の文書について、更新された検索結果をPC等の情報処理端末101に対して通知する。
ステップS523において、PC等の情報処理端末101のCPU301は、S522での更新された検索結果の通知にしたがい、ディスプレイ等の表示部309に更新された検索結果を表示する。これにより、表示部309には未確定の種別の文書についての検索結果が更新して表示される。
ステップS524において、CPU301は、表示部309に表示された未確定の種別の文書の中から、ステップS500でスキャンした文書と同一取引で使用された証憑文書の確定を行う。
この確定は、表示部309に表示された証憑文書の中から、未確定の種別について、1つ以上の文書が操作部307においてユーザにより選択されることにより行われる。この際、表示部309には、未確定の種別の文書について、S518でユーザが確定した文書の情報に基づいて適格な文書のみ選択されて表示されるため、確認作業におけるユーザの負担を軽減することができる。
この確定は、表示部309に表示された証憑文書の中から、未確定の種別について、1つ以上の文書が操作部307においてユーザにより選択されることにより行われる。この際、表示部309には、未確定の種別の文書について、S518でユーザが確定した文書の情報に基づいて適格な文書のみ選択されて表示されるため、確認作業におけるユーザの負担を軽減することができる。
なお、ステップS518からステップS524までの処理は、検索元文書と同一取引で使用された文書の種別の数に応じて、繰り返し行われる。
以上の各処理を実行することによって、検索元文書と同一取引で使用された証憑文書の確定を行うことができる。
以上の各処理を実行することによって、検索元文書と同一取引で使用された証憑文書の確定を行うことができる。
<フローチャートを用いた本実施例の詳細説明(検索処理)>
次に、図7を用いて、スキャン画像から項目名と項目値を抽出して、検索クエリを生成するまでの検索クエリ生成処理について説明する。
図7は、クラウドサービスサーバ102が実行する検索クエリ生成処理を説明するフローチャートである。なお、図7のフローチャートにおける処理は、クラウドサービスサーバ102のCPU401がROM402に格納されている処理プログラムをRAM403にロードして実行することにより実行される。
次に、図7を用いて、スキャン画像から項目名と項目値を抽出して、検索クエリを生成するまでの検索クエリ生成処理について説明する。
図7は、クラウドサービスサーバ102が実行する検索クエリ生成処理を説明するフローチャートである。なお、図7のフローチャートにおける処理は、クラウドサービスサーバ102のCPU401がROM402に格納されている処理プログラムをRAM403にロードして実行することにより実行される。
まず、ステップS701において、クラウドサービスサーバ102のCPU401は、画像形成装置100から画像データ(スキャン画像)を受信すると、スキャン画像をHDD404へ保存する。
ステップS702において、CPU401は、ステップS701で受信したスキャン画像に対して、OCR関連処理を実行してOCR結果を取得する。なお、OCR関連処理の詳細については、後述する。
ステップS702において、CPU401は、ステップS701で受信したスキャン画像に対して、OCR関連処理を実行してOCR結果を取得する。なお、OCR関連処理の詳細については、後述する。
ステップS703において、CPU401は、ステップS702で取得したOCR結果から、項目名と項目値を抽出する。項目名と項目値を抽出する処理の詳細については、後述する。
ステップS704において、CPU401は、ステップS703で抽出した項目値と項目値にから、検索に用いるための検索クエリを決定する。検索クエリを決定する処理の詳細については、後述する。
<OCR関連処理>
次に、図8を用いて、S702において実行されるOCR関連処理の詳細について説明する。図8は、1枚の画像データ(スキャン画像)に対して、OCR処理とその前処理とを含めたOCR関連処理を実行する処理手順を示すフローチャートである。
次に、図8を用いて、S702において実行されるOCR関連処理の詳細について説明する。図8は、1枚の画像データ(スキャン画像)に対して、OCR処理とその前処理とを含めたOCR関連処理を実行する処理手順を示すフローチャートである。
まず、ステップS801において、クラウドサービスサーバ102のCPU401は、傾き補正処理を行う。傾き補正処理では、画像データから傾き角度を検出し、検出した傾き角度だけ逆方向に画像データを回転することにより、傾き補正をした画像データを生成する。傾き補正の対象となる傾きとは、画像形成装置100のスキャナ部210による読み取り時に、原稿フィーダ内のローラの摩耗などが原因でまっすぐに原稿が読み取られなかったり、原稿の印刷時にまっすぐに印字できなかったりすることにより発生する。
傾き検出では、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクトの中心位置を結んだ角度が、水平方向あるいは鉛直方向からどれだけ傾いているかを取得することで傾き角度を求める。
傾き検出では、画像データ内に含まれるオブジェクトを検出し、水平方向あるいは鉛直方向に隣り合うオブジェクト群を連結する。そして、連結されたオブジェクトの中心位置を結んだ角度が、水平方向あるいは鉛直方向からどれだけ傾いているかを取得することで傾き角度を求める。
なお、傾き検出は、上記の方法に限られるものではない。例えば、画像データ内に含まれるオブジェクトの中心座標を取得し、0.1度単位で中心座標群を回転させながら、中心座標群が水平方向あるいは垂直方向に並ぶ割合がもっとも高い角度を傾きとして求めてもよい。S801の傾き補正により画像データの傾きを補正することで、後述する回転補正(S802)、ブロックセレクション処理(S803)、OCR処理(S804)のそれぞれの精度を上げることが可能となる。
ステップS802において、CPU401は、ステップS801で生成した傾き補正処理後の画像データに対して、回転補正処理を行う。回転補正処理では、原稿内の文字が正立する向きになるように、90度単位で回転補正した画像データを生成する。
この際、ステップS801で取得した傾き補正後の画像を基準画像として、基準画像、90回転した画像、180度回転した画像、270度回転した画像の4枚の画像データを用意する。そして、4枚の画像にデータ対して、高速処理可能な簡易的なOCR処理を実行して、一定値以上の確信度を持って認識された文字の数が最も多い画像データを回転補正後の画像データとして取得する。なお、回転補正の方法は上記に限られるものではない。
この際、ステップS801で取得した傾き補正後の画像を基準画像として、基準画像、90回転した画像、180度回転した画像、270度回転した画像の4枚の画像データを用意する。そして、4枚の画像にデータ対して、高速処理可能な簡易的なOCR処理を実行して、一定値以上の確信度を持って認識された文字の数が最も多い画像データを回転補正後の画像データとして取得する。なお、回転補正の方法は上記に限られるものではない。
ステップS803において、CPU401は、ステップS802で取得した回転補正後の画像データに対し、ブロックセレクション処理を行う。ブロックセレクション処理とは、画像を前景領域と背景領域に分類した上で、前景領域をテキストブロックとそれ以外のブロックに分割する処理である。そして、テキストブロック毎に、白黒に二値化された画像データに基づいて、TEXT(文字領域)、LINE(線領域)、TABLE(表領域)、PHOTO(写真領域)、PICTURE(図面領域)などのブロック情報を取得する。ブロックセレクション処理で取得されたテキストブロック毎のブロック情報は、次のOCR処理で用いられる。
ステップS804において、CPU401は、ステップS803で取得した各テキストブロックに対してOCR処理を実行する。OCR処理により、OCR結果として、各テキストブロックに対応する文字列が抽出される。
<項目名及び項目値の抽出処理>
次に、S703で実行される項目名と項目値の抽出処理の詳細について説明する。
項目名と項目値の抽出処理において、クラウドサービスサーバ102のCPU401は、S702のOCR関連処理で取得したOCR結果を用いて、スキャン画像内に記載されている項目名と項目値を取得する。ここで、項目名は、データの意味を指す「キー項目」を指す。また、項目値は、項目名に対応する具体的な内容を示す「バリュー値」を指す。なお、項目名と、その項目名に対応した項目値が対になったデータを、メタデータと呼ぶこともある。
次に、S703で実行される項目名と項目値の抽出処理の詳細について説明する。
項目名と項目値の抽出処理において、クラウドサービスサーバ102のCPU401は、S702のOCR関連処理で取得したOCR結果を用いて、スキャン画像内に記載されている項目名と項目値を取得する。ここで、項目名は、データの意味を指す「キー項目」を指す。また、項目値は、項目名に対応する具体的な内容を示す「バリュー値」を指す。なお、項目名と、その項目名に対応した項目値が対になったデータを、メタデータと呼ぶこともある。
ここで、図6Aを用いて、項目名及び項目値について具体的に説明する。
図6A(1)は、証憑文書の一種である請求書の例である。また、図6A(2)は、図6A(1)に示した請求書において、各テキストブロックから項目名や項目値を構成する文字列が抽出される例を説明したものである。
図6A(2)の例では、例えば、テキストブロック602に示される「請求先会社名」という項目名について、その項目名の内容として会社名である「ABC(株)」という項目値が抽出される。その他、図6A(2)の例では、テキストブロック603に示される「請求元会社名」という項目名について「株式会社あいう」という項目値、テキストブロック605に示される「案件番号」という項目名について「1234」という項目値、などが抽出される。
図6A(1)は、証憑文書の一種である請求書の例である。また、図6A(2)は、図6A(1)に示した請求書において、各テキストブロックから項目名や項目値を構成する文字列が抽出される例を説明したものである。
図6A(2)の例では、例えば、テキストブロック602に示される「請求先会社名」という項目名について、その項目名の内容として会社名である「ABC(株)」という項目値が抽出される。その他、図6A(2)の例では、テキストブロック603に示される「請求元会社名」という項目名について「株式会社あいう」という項目値、テキストブロック605に示される「案件番号」という項目名について「1234」という項目値、などが抽出される。
項目名及び項目値を抽出する方法は様々ある。例えば、抽出したい項目値を保持しておき、その項目値と一致している文字列がOCR結果において抽出された場合、その文字列が記載されたテキストブロックの座標値をブロックセレクション処理の結果から取得することも可能である。また、文字列を取得したテキストブロックに最も近い右側、下側、右下側などのテキストブロックのOCR結果から項目名や項目値を抽出することも可能である。
また、スキャン画像に項目名が記載されていない場合には、文字列のパターンから項目値を判定することもできる。例えば、図6A(2)の例では、テキストブロック604に示すように、日付を示す「2019年4月25日」の文字列が「YYYY年M月DD日」の並びパターンになっていることを正規表現などの手法で推定する。その結果、テキストブロック604は、「(請求)日付」という項目名について、「2019年4月25日」という項目値であると判定することもできる。
その他、文字列の位置やフォントサイズの情報に基づいて、項目名と項目値を判定できるものもある。例えば、位置情報でスキャン画像の上部にあり、フォントサイズ情報で周囲の文字よりも大きい文字列は、「書類名」と推定することができる。図6A(2)の例では、テキストブロック601に示される、「請求書」という文字列は「書類名」という項目値であると判定することができる。
具体的に抽出する情報としては、書類名に関する情報、会社の名称・電話番号・住所などの会社に関する情報、担当者や作成者などの個人に関する情報、請求日や納品日などの日付に関する情報、請求書番号などの情報、などがある。他にも、案件名に関する情報、合計金額などの金額に関する情報、その他内訳などの詳細情報、などもある。項目名及び項目値を抽出する手法は他にも様々あるが、OCR結果から項目名及び項目値を抽出できるものであればよい。
<検索クエリ決定処理>
次に、S704において実行される検索クエリを決定する処理の詳細について説明する。
検索クエリを決定する処理は、S703で抽出した項目名と項目値を用いて、クラウドサービスサーバ102のCPU401により行われる。検索クエリとしては、例えば、同一取引で使用した証憑文書を検索するための一つ以上のキーワードを用いることができる。
次に、S704において実行される検索クエリを決定する処理の詳細について説明する。
検索クエリを決定する処理は、S703で抽出した項目名と項目値を用いて、クラウドサービスサーバ102のCPU401により行われる。検索クエリとしては、例えば、同一取引で使用した証憑文書を検索するための一つ以上のキーワードを用いることができる。
図6Aの例では、「ABC(株)」、「株式会社あいう」、「Product1」などの請求書に記載されている文字列がキーワードとして挙げられる。また、項目名と項目値とを対にしたメタデータとして検索することもできる。この場合、項目名及び項目値として、例えば、「請求番号:1234」、「日付:2019年4月25日」、「社名:ABC(株)」などを検索クエリとすることができる。
<確定処理>
次に、図9を用いて、検索元であるスキャン対象の証憑文書と同一取引で使用された証憑文書を確定する確定処理について説明する。
図9は、クラウドサービスサーバ102およびPCなどの情報処理端末101が実行する確定処理の手順を説明するフローチャートである。なお、ステップS901とステップS902の処理は、PCなどの情報処理端末101のCPU301により、ROM302に格納されている処理プログラムをRAM303にロードすることにより実行される。また、ステップS903からステップS907までの処理は、クラウドサービスサーバ102のCPU401により、ROM402に格納されている処理プログラムをRAM403にロードすることにより実行される。
なお、以下では、検索元であるスキャン対象の証憑文書が請求書であり、請求書と同一取引で使用された証憑文書が納品書・発注書・見積書である例について説明する。
次に、図9を用いて、検索元であるスキャン対象の証憑文書と同一取引で使用された証憑文書を確定する確定処理について説明する。
図9は、クラウドサービスサーバ102およびPCなどの情報処理端末101が実行する確定処理の手順を説明するフローチャートである。なお、ステップS901とステップS902の処理は、PCなどの情報処理端末101のCPU301により、ROM302に格納されている処理プログラムをRAM303にロードすることにより実行される。また、ステップS903からステップS907までの処理は、クラウドサービスサーバ102のCPU401により、ROM402に格納されている処理プログラムをRAM403にロードすることにより実行される。
なお、以下では、検索元であるスキャン対象の証憑文書が請求書であり、請求書と同一取引で使用された証憑文書が納品書・発注書・見積書である例について説明する。
まず、ステップS901において、PCなどの情報処理端末101のCPU301は、クラウドサービスサーバ102から受信した検索結果を示した検索結果画面を表示部309に表示させる。ここで、図10を用いて、表示部309にユーザインターフェースとして提示される検索結果画面について説明する。
図10Aは、検索元の証憑文書である請求書と同一取引で使用された証憑文書の候補を、納品書・発注書・見積書のそれぞれについて示した、検索結果画面1000aの一例である。
表示欄1001には、検索元の文書(請求書)であるスキャン画像のサムネイルが表示されている。
表示欄1001には、検索元の文書(請求書)であるスキャン画像のサムネイルが表示されている。
表示欄1002には、検索結果が表示され、証憑文書の種別ごとに候補文書がリストとして表示されている。表示欄1003には、表示欄1001に表示されている請求書と同一取引で使用された納品書についての候補文書1007〜1010がリストとして表示されている。表示欄1004には、表示欄1001に表示されている請求書と同一取引で使用された発注書についての候補文書1011〜1013がリストとして表示されている。表示欄1005には、表示欄1001に表示されている請求書と同一取引で使用された見積書についての候補文書1014〜1016がリストとして表示されている。
また、各表示欄1003から1005には、それぞれ、複数の候補文書ごとに、ユーザが文書の確定をするためのチェックボックスが設けられている。
表示欄1006には、表示欄1002に示された候補文書のうち、PCなどの情報処理端末101の操作部307においてユーザにより選択された文書がサムネイル形式により表示されている。
表示欄1006には、表示欄1002に示された候補文書のうち、PCなどの情報処理端末101の操作部307においてユーザにより選択された文書がサムネイル形式により表示されている。
図9のフローチャートの説明に戻り、ステップS902において、CPU301は、操作部307に表示された検索結果画面1000aにおけるユーザの選択に基づいて、候補文書の中から任意の種別について文書を確定する。
この際、ユーザは、検索結果画面1000aにおいて、表示欄1002に示された複数の種別の中から1つの種別を選択し、その種別についての対応文書を選択する。例えば、表示欄1003に示された納品書について、候補文書1007〜1010の中から、チェックボックスを選択することにより1つの候補文書を選択する。図10Aの例では、候補文書1009のチェックボックスが選択されることにより、納品書として候補文書1009(「(株)あいう_20190420_納品書」)が選択された例が示されている。
この際、ユーザは、検索結果画面1000aにおいて、表示欄1002に示された複数の種別の中から1つの種別を選択し、その種別についての対応文書を選択する。例えば、表示欄1003に示された納品書について、候補文書1007〜1010の中から、チェックボックスを選択することにより1つの候補文書を選択する。図10Aの例では、候補文書1009のチェックボックスが選択されることにより、納品書として候補文書1009(「(株)あいう_20190420_納品書」)が選択された例が示されている。
ステップS903において、CPU301は、検索元の証憑文書と、S902で確定した証憑文書とに基づいて、未確定の種別の証憑文書についての整合性判定を行う。図10Aの例では、検索元文書である請求書と、納品書として確定した候補文書1009とに基づいて、未確定の種別である発注書と見積書についての整合性判定を行う。整合性判定とは、検索元の証憑文書と確定された種別の証憑文書の情報とを利用して、未確定の種別についての証憑文書の数に絞り込む処理である。
ここで、整合性判定について詳細に説明する。例えば、商品の取引が行われる際、見積、発注、納品、請求の順に処理が行われ、これに応じて、日時が古い順に、見積書、発注書、納品書、請求書の順で、証憑文書が発行されることが多い。ただし、納品日と請求日の発行日は同じになることもある。
このような取引ルールに従うと、例えば、検索元文書が請求書であり、確定した証憑文書が納品書である場合、請求書や納品書の発行日以降に発行された見積書や発注書は候補文書として不適格である。また、その他の例としては、検索元文書が請求書であり、確定した証憑文書が見積書である場合、発注書や納品書の発行日は請求書の発行日と見積書の発行日の間の範囲の期間でなければ候補文書として不適格である。
以上のように、取引ルールにしたがって、文書の発行日などを照合し、未確定の種別の証憑文書について整合性判定を行う。
このような取引ルールに従うと、例えば、検索元文書が請求書であり、確定した証憑文書が納品書である場合、請求書や納品書の発行日以降に発行された見積書や発注書は候補文書として不適格である。また、その他の例としては、検索元文書が請求書であり、確定した証憑文書が見積書である場合、発注書や納品書の発行日は請求書の発行日と見積書の発行日の間の範囲の期間でなければ候補文書として不適格である。
以上のように、取引ルールにしたがって、文書の発行日などを照合し、未確定の種別の証憑文書について整合性判定を行う。
ステップS904において、CPU301は、未確定の種別についての候補文書の内、S903の整合性判定で不適格と判断した文書を候補文書から除外し、適格と判断した文書のみを選択する。
なお、整合性判定に用いられる情報は、文書の発行日に限られるものではない。例えば、文書内に記載されている発行日以外の情報や、文書ファイル自体の属性データによって判定することも可能である。文書内に記載されている発行日以外の情報としては、例えば、金額などを用いることも可能である。文書ファイル自体の属性データとしては、例えば、文書がスキャンされた日時を用いることも可能である。
なお、整合性判定に用いられる情報は、文書の発行日に限られるものではない。例えば、文書内に記載されている発行日以外の情報や、文書ファイル自体の属性データによって判定することも可能である。文書内に記載されている発行日以外の情報としては、例えば、金額などを用いることも可能である。文書ファイル自体の属性データとしては、例えば、文書がスキャンされた日時を用いることも可能である。
ステップS905において、CPU301は、S904で選択された文書に対して、再度関連度スコアを算出する。なお、その際、既に確定された証憑文書に記載されている項目名と項目値の情報を利用することも可能である。
ステップS906において、CPU301は、S905で算出された関連度スコアに基づいて候補文書のソートを行い、検索結果画面を更新する。
なお、S902において、ユーザが選択することができる文書の種別は、1つに限られず、2以上の種別であってもよい。例えば、納品書について表示欄1003に示された候補文書1007〜1010の中から1つの候補文書を選択し、発注書について表示欄1004に示された候補文書1001〜1013の中から1つの候補文書を選択してもよい。
この場合、S903の整合性判定において、検索元文書である請求書と、納品書として確定した候補文書と、発注書として確定した候補文書の情報を利用して、未確定の種別である見積書についての整合性判定が行われる。
この場合、S903の整合性判定において、検索元文書である請求書と、納品書として確定した候補文書と、発注書として確定した候補文書の情報を利用して、未確定の種別である見積書についての整合性判定が行われる。
図10Bは、整合性判定の結果に基づいて更新された検索結果画面1000bの一例である。図10Bの検索結果画面1000bでは、表示欄1004において、発注書についての候補文書として、図10Aの検索結果画面1000aにおいて示されていた候補文書1011と1012が除外されたことが示されている。また、表示欄1005において、見積書についての候補文書1014〜1016の表示順序が変更されていることが示されている。
ステップS907において、CPU301は、すべての種別の文書について確定が行われたか否かの判定を行う。すべての種別の文書について確定が終わるまでS901からS906の処理を繰り返し行う。そして、すべての種別の文書について確定したら、本フローチャートの確定処理を終了する。
なお、S902においてユーザによって確定文書の決定が解除された場合においては、解除した状態で再度S903からS907の処理を実行し、検索結果画面の表示を動的に切り替えていくことも可能である。
以上のとおり、実施例1によれば、検索元文書と同一取引で使用された証憑文書を収集していく際に、確定された種別の証憑文書の情報を利用して整合性判定を行い、未確定の種別の証憑文書について不適格な候補文書を除外して検索結果画面を更新していく。これにより、検索元文書と同一取引で使用された証憑文書を収集していく際における、ユーザによる確定作業を効率化することが可能となる。
<実施例2>
実施例1では、確定された種別の証憑文書に基づいて、未確定の種別の文書についての検索条件を更新し、動的に検索結果画面の表示を切り替える例について説明した。
しかし、取引の形態によっては、掛売方式のように、複数回行われた取引に対して、まとめて1枚の請求書が発行される場合もある。この場合、1枚の請求書に対応して、複数枚の納品書・発注書・見積書などが存在することになる。
そこで、実施例2では、1枚の証憑文書に対して、種別ごとに複数枚の証憑文書が存在する場合について説明する。
実施例1では、確定された種別の証憑文書に基づいて、未確定の種別の文書についての検索条件を更新し、動的に検索結果画面の表示を切り替える例について説明した。
しかし、取引の形態によっては、掛売方式のように、複数回行われた取引に対して、まとめて1枚の請求書が発行される場合もある。この場合、1枚の請求書に対応して、複数枚の納品書・発注書・見積書などが存在することになる。
そこで、実施例2では、1枚の証憑文書に対して、種別ごとに複数枚の証憑文書が存在する場合について説明する。
実施例2のファイル検索システム10において実行される全体的な処理例については、基本的に実施例1と同様である。ここでは、実施例2における確定処理について、主として実施例1と相違する点を説明する。図11は、実施例2における確定処理のフローチャートである。
なお、以下でも、検索元であるスキャン対象の証憑文書が請求書であり、請求書と同一取引で使用された証憑文書が納品書・発注書・見積書である例について説明する。
なお、以下でも、検索元であるスキャン対象の証憑文書が請求書であり、請求書と同一取引で使用された証憑文書が納品書・発注書・見積書である例について説明する。
まず、ステップS901において、PCなどの情報処理端末101のCPU301は、クラウドサービスサーバ102から受信した検索結果を示した検索結果画面を表示部309に表示させる。なお、ステップS901の処理は、実施例1と同様である。
ステップS902において、CPU301は、操作部307に表示された検索結果画面1000aにおけるユーザの選択に基づいて、候補文書の中から任意の種別について2つ以上の文書を確定する。
ステップS903において、CPU301は、S902で確定した任意の種別についての複数の文書のうちの1つの文書に関して、未確定の異なる種別の証憑文書について整合性判定を行う。
ステップS904において、CPU301は、未確定の種別についての候補文書の内、S903の整合性判定で適格と判断した文書のみを選択し、不適格と判断した文書を候補文書から除外する。
ステップS905において、CPU301は、S904で選択した文書について、検索結果の候補文書に対して再度関連度スコアを算出する。
ステップS906において、CPU301は、S905で算出された関連度スコアに基づいて候補文書のソートを行い、検索結果画面を更新する。
ステップS906において、CPU301は、S905で算出された関連度スコアに基づいて候補文書のソートを行い、検索結果画面を更新する。
そして、ステップS1101において、CPU301は、S902でユーザが任意の種別について選択したすべての文書について、同一取引で使用された文書が確定したかを判断する。
S902でユーザが選択した文書について、同一取引で使用された文書がまだ確定していなものがあったら、ステップS903に戻る。S902でユーザが選択したすべての文書について確定したら、ステップS907に進む。
S902でユーザが選択した文書について、同一取引で使用された文書がまだ確定していなものがあったら、ステップS903に戻る。S902でユーザが選択したすべての文書について確定したら、ステップS907に進む。
以上の確定処理について、具体例を用いて説明する。
例えば、図10Aに示した検索結果画面1000aにおいて、表示欄1001に表示された検索元の請求書と同一取引で使用された納品書として、表示欄1003において候補文書1009と1010をユーザが選択した場合について考える。
この場合、納品書の候補文書1009に対応して、発注書の候補文書1013と見積書の候補文書1016は、整合性判定によっても除外されることなく、検索結果画面1000bに表示される。また、納品書の1010に対応して、発注書の候補文書1011と見積書の候補文書1014も、整合性判定によっても除外されることなく、検索結果画面1000bに表示される。
例えば、図10Aに示した検索結果画面1000aにおいて、表示欄1001に表示された検索元の請求書と同一取引で使用された納品書として、表示欄1003において候補文書1009と1010をユーザが選択した場合について考える。
この場合、納品書の候補文書1009に対応して、発注書の候補文書1013と見積書の候補文書1016は、整合性判定によっても除外されることなく、検索結果画面1000bに表示される。また、納品書の1010に対応して、発注書の候補文書1011と見積書の候補文書1014も、整合性判定によっても除外されることなく、検索結果画面1000bに表示される。
結果として、検索結果画面1000bには、表示欄1001に表示された検索元の請求書と同一取引で使用された証憑文書として、発注書については、表示欄1004に候補文書1011と1013が表示される。また、見積書については、表示欄1005に候補文書1014と1016が表示されることになる。
以上のように、ステップS902において、任意の種別について、複数の文書が選択され確定した場合、未確定の種別について、選択されたそれぞれ文書に整合した証憑文書のみが選択され候補文書として表示される。
なお、上記の説明では、同一の種別(例えば、納品書)について複数の文書が確定した場合に、確定した各文書に基づいて、未確定の種別の文書(例えば、発注書と見積書)について整合性判定をする例について説明した。その他にも、異なる種別についてそれぞれ文書が確定した場合(例えば、1つの納品書と1つの発注書が確定した場合)に、確定した各文書に基づいて未確定の種別の文書(例えば、見積書)について整合性判定をすることも可能である。
なお、上記の説明では、同一の種別(例えば、納品書)について複数の文書が確定した場合に、確定した各文書に基づいて、未確定の種別の文書(例えば、発注書と見積書)について整合性判定をする例について説明した。その他にも、異なる種別についてそれぞれ文書が確定した場合(例えば、1つの納品書と1つの発注書が確定した場合)に、確定した各文書に基づいて未確定の種別の文書(例えば、見積書)について整合性判定をすることも可能である。
以上のとおり、実施例2によれば、検索元文書と同一取引で使用された証憑文書が文書の種別ごとに複数存在する場合においても、ユーザによる確定作業を効率化することが可能となる。
<実施例3>
実施例1では、確定した種別の証憑文書に基づいて未確定の種別の文書について整合性判定を行い、検索結果画面に表示される候補文書を動的に絞り込む例について説明した。しかし、さらに確定作業の効率化を図るためには、検索結果画面に表示される種別の表示順序を最適化する必要がある。
そこで、実施例3では、検索結果画面に表示される種別の表示順序を最適化するについて説明する。
実施例1では、確定した種別の証憑文書に基づいて未確定の種別の文書について整合性判定を行い、検索結果画面に表示される候補文書を動的に絞り込む例について説明した。しかし、さらに確定作業の効率化を図るためには、検索結果画面に表示される種別の表示順序を最適化する必要がある。
そこで、実施例3では、検索結果画面に表示される種別の表示順序を最適化するについて説明する。
実施例3のファイル検索システム10において実行される全体的な処理例については、基本的に実施例1や実施例2と同様である。ここでは、実施例3における確定処理について、主として実施例1と相違する点を説明する。図12は、実施例3における確定処理のフローチャートである。
ステップS901からステップ907については実施例1と同様である。実施例3では、実施例1の各処理に加えて、ステップS1201において表示順序判定処理が行われる。
ステップS1201において、クラウドサービスサーバ102のCPU401は、検索元文書と同一取引で使用された証憑文書の確定作業をユーザが行うために最適となるように、検索結果画面に表示される種別の順序の決定を行う。
そして、ステップS1201によって決定された表示順序に従い、ステップS901において、CPU401は、検索結果画面1000aの表示欄1003〜1005に表示する証憑文書の種別を切り替える。
そして、ステップS1201によって決定された表示順序に従い、ステップS901において、CPU401は、検索結果画面1000aの表示欄1003〜1005に表示する証憑文書の種別を切り替える。
具体的には、検索結果として受信した、納品書、発注書、見積書の各種別について、候補文書数が少ない方から優先的に検索結果画面に表示していく。例えば、納品書、発注書、見積書の各種別について、候補文書が4つ、3つ、3つ、存在する場合、検索結果画面の表示欄1002において、上から順に、発注書、見積書、納品書を表示していく。これにより、表示欄1002の上部に表示された種別から候補文書を選択するようにユーザを促すことができるため、ユーザが候補文書の中から文書を選択する確定作業の効率化を図ることが可能となる。
なお、候補文書数が少ない方の種別から優先的に検索結果画面に表示していく手法としては、候補文書数が少ない方の種別から候補文書を選択するようにユーザを促すことができるものであれば、上記の手法には限られない。例えば、候補文書数が少ない方の種別の候補文書を強調表示したり、候補文書数が少ない方の種別の候補文書のみを第1面に表示し、候補文書数が多い方の種別の候補文書を第2面以降に表示するようにしたりしてもよい。
また、表示順序を切り替える手法としては、その他にも、S513で算出された関連度スコアを用いて、関連度が高い候補文書を有する種別の順に表示していくことも可能である。
これらの表示ルールについては、事前に複数のパターンを登録しておき、ユーザの選択によって設定を切替可能とするようにしてもよい。
また、表示順序を切り替える手法としては、その他にも、S513で算出された関連度スコアを用いて、関連度が高い候補文書を有する種別の順に表示していくことも可能である。
これらの表示ルールについては、事前に複数のパターンを登録しておき、ユーザの選択によって設定を切替可能とするようにしてもよい。
以上、実施例3によれば、検索結果画面に表示される証憑文書の種別ごとの表示順序を最適化することにより、ユーザによる確定作業をさらに効率化することが可能となる。
<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
10 ファイル検索システム
100 画像形成装置
102 クラウドサービスサーバ
100 画像形成装置
102 クラウドサービスサーバ
Claims (13)
- 第1の種別に属する複数のファイルの中から検索元に関連する第1のファイルの候補を抽出し、第2の種別に属する複数のファイルの中から前記検索元に関連する第2のファイルの候補を抽出する検索手段を有するファイル検索システムであって、
前記検索手段は、第1の検索において、前記検索元に関する情報を利用して前記第1の種別に属する複数のファイルの中から複数の前記第1のファイルの候補を抽出し、前記検索元に関する情報を利用して前記第2の種別に属する複数のファイルの中から複数の前記第2のファイルの候補を抽出し、
前記複数の第1のファイルの候補の中から前記検索元に関連する第1のファイルが確定した場合、前記検索手段は、第2の検索おいて、前記第1の検索において抽出された複数の前記第2のファイルの候補の数を絞り込む
ことを特徴とするファイル検索システム。 - 前記検索手段は、前記第2の検索おいて、確定した前記第1のファイルに関する情報を利用して前記第1の検索において抽出された複数の前記第2のファイルの候補を絞り込む
ことを特徴とする請求項1に記載のファイル検索システム。 - 前記第2の検索において絞り込まれた前記第2のファイルの候補の数は、1又は複数である
ことを特徴とする請求項1又は2に記載のファイル検索システム。 - 前記複数の第1のファイルの候補の中から前記検索元に関連する複数の第1のファイルが確定した場合、前記検索手段は、前記第2の検索において確定した前記複数の第1のファイルに関する情報のそれぞれを利用して前記第2のファイルの候補を絞り込む
ことを特徴とする請求項1乃至3のいずれか1項に記載のファイル検索システム。 - 前記検索手段は、前記第1の検索において、さらに、前記検索元に関する情報を利用して第3の種別に属する複数のファイルの中から複数の第3のファイルの候補を抽出し、
前記複数の第1のファイルの候補の中から前記検索元に関連する前記第1のファイルが確定し、前記複数の第3のファイルの候補の中から前記検索元に関連する前記第3のファイルが確定した場合、前記検索手段は、前記第2の検索において、確定した前記第1のファイルに関する情報及び第3のファイルに関する情報を利用して前記第2のファイルの候補を絞り込む
ことを特徴とする請求項1乃至4のいずれか1項に記載のファイル検索システム。 - ユーザインターフェースを有し、前記第1の検索において抽出された前記複数の第1のファイルの候補及び前記複数の第2のファイルの候補は前記ユーザインターフェースにおいて提示される
ことを特徴とする請求項1乃至5のいずれか1項に記載のファイル検索システム。 - 前記第1のファイルの確定は、前記ユーザインターフェースにおいて行われる
ことを特徴とする請求項6に記載のファイル検索システム。 - 前記第2の検索において絞り込まれた前記第2のファイルの候補は、前記ユーザインターフェースにおいて提示される
ことを特徴とする請求項6又は7に記載のファイル検索システム。 - 前記ユーザインターフェースにおいて、前記複数の第1のファイルの候補と前記複数の第2のファイルの候補のうち、ファイルの数が少ない方が優先的に提示される
ことを特徴とする請求項6乃至8のいずれか1項に記載のファイル検索システム。 - 前記検索元は、スキャンされた文書である
ことを特徴とする請求項1乃至9のいずれか1項に記載のファイル検索システム。 - 前記検索元に関する情報は、前記文書に記載された文字列である
ことを特徴とする請求項10に記載のファイル検索システム。 - 第1の種別に属する複数のファイルの中から検索元に関連する第1のファイルの候補を抽出し、第2の種別に属する複数のファイルの中から前記検索元に関連する第2のファイルの候補を抽出するファイル検索システムにおけるファイル検索方法であって、
前記検索元に関する情報を利用して、前記第1の種別に属する複数のファイルの中から複数の前記第1のファイルの候補と、前記第2の種別に属する複数のファイルの中から複数の前記第2のファイルの候補と、を抽出する第1の検索ステップと、
前記複数の第1のファイルの候補の中から前記検索元に関連する第1のファイルが確定した場合、前記第1の検索において抽出された複数の前記第2のファイルの候補の数を絞り込む第2の検索ステップと、を有する
ことを特徴とするファイル検索方法。 - 請求項12に記載されたファイル検索方法をコンピュータにより実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020007402A JP2021114225A (ja) | 2020-01-21 | 2020-01-21 | ファイル検索システム、ファイル検索方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020007402A JP2021114225A (ja) | 2020-01-21 | 2020-01-21 | ファイル検索システム、ファイル検索方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021114225A true JP2021114225A (ja) | 2021-08-05 |
Family
ID=77077037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020007402A Pending JP2021114225A (ja) | 2020-01-21 | 2020-01-21 | ファイル検索システム、ファイル検索方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021114225A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295033A1 (en) * | 2020-03-18 | 2021-09-23 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
-
2020
- 2020-01-21 JP JP2020007402A patent/JP2021114225A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295033A1 (en) * | 2020-03-18 | 2021-09-23 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8429154B2 (en) | Document search device, imaging forming apparatus, and document search system | |
US9710524B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
US8612429B2 (en) | Apparatus, system, and method for information search | |
JP2018205910A (ja) | 計算機、文書識別方法、及びシステム | |
JP2008234658A (ja) | テキスト検索エンジンにより検索されたページ番号付き文書全体を通してのコースツーファイン・ナビゲーション | |
CN101178725A (zh) | 用于信息检索的设备、方法和计算机程序产品 | |
US20150161102A1 (en) | Non-Standard and Standard Clause Detection | |
CN101611406A (zh) | 文档存档系统 | |
JP2007317034A (ja) | 画像処理装置、画像処理方法、プログラムおよび記録媒体 | |
EP2884425B1 (en) | Method and system of extracting structured data from a document | |
JP2022128202A (ja) | 情報処理装置、情報処理システム、及び情報処理プログラム | |
JP2008040753A (ja) | 画像処理装置、方法、プログラムおよび記録媒体 | |
US9864750B2 (en) | Objectification with deep searchability | |
JP2021114225A (ja) | ファイル検索システム、ファイル検索方法及びプログラム | |
US11657367B2 (en) | Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program | |
JP2024012448A (ja) | 画像処理装置、画像処理装置の制御方法及びそのプログラム | |
JP2022162908A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2021114224A (ja) | ファイル検索システム、ファイル検索方法及びプログラム | |
JP7331551B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP7384603B2 (ja) | 文書フォームの識別 | |
JP2021114226A (ja) | 文書提示システム、文書提示方法及びプログラム | |
JP2007334670A (ja) | 画像処理装置、方法及びプログラム | |
JP2017204054A (ja) | 相性算出装置、相性算出方法、およびコンピュータプログラム | |
JPH1021043A (ja) | アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー | |
US20220019835A1 (en) | Image processing system, apparatus, method, and storage medium |