JP2024045829A - 情報処理装置、ファイル管理方法及びプログラム - Google Patents

情報処理装置、ファイル管理方法及びプログラム Download PDF

Info

Publication number
JP2024045829A
JP2024045829A JP2022150846A JP2022150846A JP2024045829A JP 2024045829 A JP2024045829 A JP 2024045829A JP 2022150846 A JP2022150846 A JP 2022150846A JP 2022150846 A JP2022150846 A JP 2022150846A JP 2024045829 A JP2024045829 A JP 2024045829A
Authority
JP
Japan
Prior art keywords
character string
file
unit
target file
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022150846A
Other languages
English (en)
Inventor
崇寛 市塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2022150846A priority Critical patent/JP2024045829A/ja
Publication of JP2024045829A publication Critical patent/JP2024045829A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ファイルに対する文字認識結果の適否を報知できる情報処理装置を提供する。【解決手段】情報処理装置は、対象ファイルから文字認識を経て第1文字列を抽出する第1抽出部と、対象ファイルの格納先を示す第2文字列に第1文字列が含まれるか否かを判定する判定部と、第2文字列に第1文字列が含まれないと判定された場合、報知を行う報知部と、を備える。【選択図】図3

Description

本開示は、情報処理装置、ファイル管理方法及びプログラムに関する。
特許文献1は、紙の証憑の画像データを文字認識し、機械入力にて文字認識結果に基づき作成された機械入力データと、同じ画像データに対して手入力した手入力データとを比較し、不一致の場合に、警告を出力する技術を開示する。特許文献2は、原稿を表す画像データから抽出された付加情報を解析して入力された画像データに対応する電子ファイルを保持するサーバを特定する技術を開示する。さらに、特許文献2は、入力された画像データの特徴を認識し、当該特徴に基づき特定されたサーバで入力された画像データに一致又は類似している電子ファイルを検索する技術を開示する。特許文献3は、OCR処理により認識された文字列に基づいて原稿画像データのファイル名を生成する技術を開示する。
特開2018-194971号公報 特開2005-151127号公報 特開2016-165059号公報
特許文献1~特許文献3に開示された技術では、原稿を表す画像データを文字認識し、当該画像データから情報を抽出し、抽出された情報に基づいて当該画像データを管理する。しかし、画像データに対して文字認識が行われた場合において、画像データに対する文字認識結果が誤っている場合、誤った文字認識結果に基づいて処理が実行されるおそれがある。そこで、本開示の一態様は、ファイルに対する文字認識結果の適否を報知できる情報処理装置、ファイル管理方法及びプログラムを提供することを目的とする。
本開示の一形態に係る情報処理装置は、対象ファイルから文字認識を経て第1文字列を抽出する第1抽出部と、前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する判定部と、前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う報知部と、を備える。
本開示の一形態に係るファイル管理方法は、対象ファイルから文字認識を経て第1文字列を抽出する工程と、前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する工程と、前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う工程と、を含む。
本開示の一形態に係るプログラムは、コンピュータに、対象ファイルから文字認識を経て第1文字列を抽出する機能と、前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する機能と、前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う機能と、を実行させる。
情報処理システムの全体構成の一例を示す図である。 ユーザ端末の構成の一例を示すブロック図である。 情報処理装置の構成の一例を示すブロック図である。 抽出条件リストの一例を示す図である。 情報処理システムの動作の一例を示すシーケンス図である。 図5に続く情報処理システムの動作の一例を示すシーケンス図である。 第2文字列から第3文字列を抽出する処理の一例を示すフローチャートである。 第2文字列から代替文字列を抽出する処理の一例を示すフローチャートである。 対象ファイルから第1文字列を抽出する処理の一例を示すフローチャートである。 図7に例示するステップS701からステップS707、及び図9に例示するステップS901からS906の処理の一例を説明するための図である。 ファイル構成の一例を示す図である。 対象ファイルのファイルパスと、検索インデックスとが関連付けられていない状態における対象ファイルの保存結果を示す画面の一例を示す図である。 第1文字列が入力された項目欄を含む画面の一例を示す図である。
(第一実施形態)
図1~図13を参照して、第一実施形態について説明する。なお、図面については、同一又は同様の要素には同一の符号を付し、重複する説明は省略する。
図1は、本実施形態に係る情報処理システム100の全体構成の一例を示す図である。情報処理システム100は、ユーザ端末101と、情報処理装置102とを含む。ユーザ端末101と、情報処理装置102とは、ネットワーク103を介して接続する。ネットワーク103は、インターネット、LAN(Local Area Network)等である。
ユーザ端末101は、ユーザ104が操作する端末装置である。例えば、ユーザ端末101は、PC(Personal Computer)、スマートフォン、タブレット端末等である。ユーザ端末101は、ネットワーク103を介して、対象ファイル111を情報処理装置102に送信する。例えば、対象ファイル111は、取引に関する書面を示す電子ファイルデータである。ここで、取引に関する書面とは、見積書、請求書、納品書、又は契約書である。
情報処理装置102は、NAS(Network Attached Storage)を備え、取引書類管理サービス処理を実行する。さらに、情報処理装置102は、ユーザ端末101から送信された対象ファイル111に含まれる文字情報を読み取る。例えば、情報処理装置102は、OCR(Optical Character Recognition)によって文字認識処理を実行することで、対象ファイル111によって示される書類に含まれる文字列を読み取る。そして、情報処理装置102は、対象ファイル111によって示される書類に含まれる文字列に、対象ファイル111のファイルパスに、所定の文字列が含まれるか否かを判定する。
さらに、情報処理装置102は、対象ファイル111のファイルパスと、対象ファイル111から文字認識により抽出された検索インデックスとを関連付けて保存する処理を実行する。検索インデックスは、対象ファイルを検索するためのキーワードとして使用される。そして、情報処理装置102は、検索インデックスを示す画面を生成し、生成された画面をユーザ端末101に送信する。ユーザ端末101は、送信された画面を表示部202(図2参照)に表示させることで、表示部202に表示される画面によって、対象ファイル111に関連付けられる検索インデックスを容易にユーザに確認させることができる。
図2は、ユーザ端末101の構成の一例を示すブロック図である。ユーザ端末101は、通信部201と、表示部202と、操作入力部203と、記憶部204と、制御部205とを備える。
通信部201は、ネットワーク103に接続するインターフェイスである。
表示部202は、ユーザに提示する情報を表示する。例えば、表示部202は、取引書類管理サービスに関連する画面を表示する。例えば、表示部202は、液晶パネル、有機EL(Electro-Luminescence)パネル等により構成される。
操作入力部203は、ユーザ104の操作を受け付ける。例えば、操作入力部203は、取引書類管理サービスに関する操作を受け付ける。例えば、操作入力部203は、タッチパネル、キーボード等により構成される。取引書類管理サービスに関する操作は、取引書類管理サービスの起動要求を示す操作、対象ファイル111を指定する操作等である。
記憶部204は、各種データ、プログラム等を記録可能な記録媒体である。例えば、記憶部204には、対象ファイル111が保存される。例えば、記憶部204は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、半導体メモリ等によって構成される。
制御部205は、記憶部204に記憶されるプログラム及びデータに従って、各種処理を実行する。例えば、制御部205は、CPU(Central Processing Unit)等のプロセッサにより構成される。
制御部205は、操作入力部203によって取引書類管理サービスの起動要求を示す操作が受け付けられた場合、通信部201を介して、情報処理装置102に取引書類管理サービスの起動要求を送信する。また、制御部205は、操作入力部203によって、対象ファイル111を指定する操作が受け付けられた場合、通信部201を介して、情報処理装置102に指定された対象ファイル111を送信する。
図3は、情報処理装置102の構成の一例を示すブロック図である。情報処理装置102は、通信部301、記憶部302、制御部303等を備える。
通信部301は、ネットワーク103に接続するインターフェイスである。
記憶部302は、各種データ、プログラム等を記録可能な記録媒体である。例えば、記憶部302は、HDD、SSD、半導体メモリ等により構成される。記憶部302は、複数の項目の各項目に第1抽出条件を関連付けて記憶する。さらに、記憶部302は、各項目に第2抽出条件を関連付けて記憶する。具体的には、記憶部302には、抽出条件リスト321が記憶され、抽出条件リスト321には、各項目に第1抽出条件と第2抽出条件とが関連付けて登録される。第1抽出条件は、対象ファイル111から文字認識を経て抽出された第1文字列324が各項目の値を示すことである。第2抽出条件は、対象ファイル111の格納先を示す第2文字列325から抽出された第3文字列が各項目の値を示すことである。例えば、第2文字列325は、対象ファイル111のファイルパスを示す。
さらに、記憶部302には、管理データベース322、ファイルデータベース323、取引書類管理サービスを制御するプログラム、情報処理装置102を制御するプログラム等が記憶される。管理データベース322には、対象ファイル111のファイルパスと、検索インデックスとが関連付けられる。例えば、対象ファイル111が、取引に関する書面を示す電子ファイルデータである場合、検索インデックスは、取引年月日、取引先、又は区分を示す。また、ファイルデータベース323には、対象ファイル111を含む複数の電子ファイルデータが格納される。
制御部303は、記憶部302に記憶されるプログラム及びデータに従って、各種処理を実行する。例えば、制御部303は、CPU(Central Processing Unit)等のプロセッサにより構成される。制御部303は、ファイル管理部304、文字認識部305、第1抽出部306、第2抽出部307、判定部308、表示制御部309、報知部310等を備える。
ファイル管理部304は、取引書類管理サービスに関する処理を実行する。例えば、ファイル管理部304は、取引書類管理サービスに関する処理において、指定された対象ファイル111を保存することを、ファイルデータベース323に要求する。
文字認識部305は、対象ファイル111に文字認識を実行する。例えば、文字認識部305は、ОCR(Optical Character Reading)により、対象ファイル111によって示される書類内の文字を認識する。
第1抽出部306は、対象ファイル111から文字認識を経て第1文字列324を抽出する。具体的には、第1抽出部306は、各項目について、第1文字列324が第1抽出条件を満たすように第1文字列324を抽出する。
第2抽出部307は、対象ファイル111の格納先を示す第2文字列325から第3文字列326を抽出する。具体的には、第2抽出部307は、各項目について、第3文字列326が第2抽出条件を満たすように第3文字列326を抽出する。
また、第2抽出部307は、第2文字列325から第3文字列326を抽出できない場合、対象ファイル111と同階層に格納されるファイルのファイル名から第3文字列326の代替文字列327を抽出する。
判定部308は、第2文字列325に第1文字列324が含まれるか否かを判定する。具体的には、判定部308は、第3文字列326に第1文字列324が含まれるか否かを判定する。また、判定部308は、代替文字列327を抽出した場合、代替文字列327に第1文字列324が含まれるか否かを判定する。
表示制御部309は、各項目についての項目欄を含む画面328を生成する。
報知部310は、画面328に含まれる項目欄に第1文字列324を入力する。さらに、報知部310は、第2文字列325に第1文字列324が含まれないと判定された場合、報知を行う。具体的には、報知部310は、第3文字列326に第1文字列324が含まれないと判定された場合、報知を行う。さらに、報知部310は、代替文字列327に第1文字列324が含まれないと判定された場合、報知を行う。ここで、報知を行うことは、画面328に警告を含めることである。
図4は、抽出条件リスト321の一例を示す図である。抽出条件リスト321には、複数の項目の各項目に、第1抽出条件と、第2抽出条件とが関連付けられる。複数の項目は、取引年月日、区分及び取引先からなる群より選択される少なくとも一項目を含む。
例えば、取引年月日である項目に関連付けられる第1抽出条件は、判定対象の文字列が、年月日の形式を満たすことである。また、例えば、取引先である項目に関連付けられる第1抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことである。また、例えば、区分である項目に関連付けられる第1抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことである。
例えば、取引年月日である項目に関連付けられる第2抽出条件は、判定対象の文字列が、年月日の形式を満たすことである。また、例えば、取引先である項目に関連付けられる第2抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことである。また、例えば、区分である項目に関連付けられる第2抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことである。なお、図4に例示する項目、第1抽出条件及び第2抽出条件は一例であり、項目、第1抽出条件及び第2抽出条件を図4に例示する項目及び条件に限定する趣旨ではない。
図5は、情報処理システム100の動作の一例を示すシーケンス図である。
ステップS501において操作入力部203は、取引書類管理サービスの起動要求を示す操作を受け付ける。ステップS501において取引書類管理サービスの起動要求を示す操作が受け付けられた場合、ステップS502において制御部205は、取引書類管理サービスを起動し、表示制御部309は、取引書類サービスに関する画面を生成する。そして、ステップS503において制御部205は、取引書類管理サービスに関する画面328を生成し、生成された取引書類管理サービスに関する画面を表示部202に表示させる。
ステップS504において操作入力部203は、対象ファイル111をストレージに保存することを要求する操作を受け付ける。つまり、操作入力部203は、ファイルデータベース323に保存することを要求する操作を受け付ける。対象ファイル111を保存することを要求する操作が受け付けられた場合、ステップS505において制御部205は、通信部201を介して、対象ファイル111の保存要求を情報処理装置102に送信する。通信部301が対象ファイル111の保存要求を受信した場合、ステップS506においてファイル管理部304は、保存要求によって指定された対象ファイル111を保存することを、ファイルデータベース323に要求する。
ステップS507においてファイルデータベース323は、指定された対象ファイル111を保存する。そして、ステップS508においてファイルデータベース323は、対象ファイル111の保存結果をファイル管理部304に通知する。例えば、対象ファイル111の保存結果は、対象ファイル111が保存完了したことを示す。
ステップS509においてファイル管理部304は、通信部301を介して、通知された対象ファイル111の保存結果をユーザ端末101に送信する。例えば、表示制御部309は、対象ファイル111の保存結果を含む取引書類管理サービスに関する画面を生成する。そして、ファイル管理部304は、通信部301を介して、対象ファイル111の保存結果を含む取引書類管理サービスに関する画面を、通知された対象ファイル111の保存結果として、ユーザ端末101に送信する。
通信部201が対象ファイル111の保存結果を受信した場合、ステップS510において制御部205は、対象ファイル111の保存結果を表示部202に表示させる。例えば、制御部205は、ステップS509で生成された画面を表示部202に表示させる。
ステップS511においてファイル管理部304は、取引書類管理サービス処理において対象ファイル111のファイルパスを取得することをファイルデータベース323に要求する。ステップS512においてファイルデータベース323は、指定された対象ファイル111のファイルパスをファイル管理部304に応答する。ステップS513においてファイル管理部304は、対象ファイル111のファイルパスを保存することを管理データベース322に要求する。
ステップS514において管理データベース322は、第2文字列である対象ファイル111のファイルパスを保存し、第2抽出部307は、当該ファイルパスから、各項目について第2抽出条件を満たすように第3文字列326を抽出する。ファイルパスに第3文字列326が含まれない場合、対象ファイル111と同じ階層に格納されるファイルのファイル名から、第3文字列326の代替文字列327を抽出する。
そして、ステップS515においてファイルデータベース323は、ファイルパスの保存結果をファイル管理部304に通知する。例えば、ファイルパスの保存結果は、対象ファイル111のファイルパスが保存完了したことを示す。
ステップS516において第1抽出部306は、対象ファイル111に対して文字認識を実行し、各項目に関連付けられた第1抽出条件を満たす第1文字列324を抽出する。ステップS517において第1抽出部306は、各項目について抽出された第1文字列324を検索インデックスとしてファイル管理部304に通知する。ステップS518においてファイル管理部304は、通知された検索インデックスを保存することを管理データベース322に要求する。
ステップS519において管理データベース322は、対象ファイル111と、ステップS518で保存することを要求された検索インデックスとを関連付けて保存する。つまり、記憶部302は、第2文字列325に第1文字列324が含まれると判定された場合、対象ファイル111と、第1文字列324とを関連付けて記憶する。具体的には、ファイル管理部304は、対象ファイル111と、第1文字列324とを関連付けて管理データベース322に登録する。そして、ステップS520において管理データベース322は、対象ファイル111と、第1文字列324とが関連付けられて保存された保存結果をファイル管理部304に通知する。
図6は、図5に続く情報処理システム100の動作の一例を示すシーケンス図である。
ステップS601において操作入力部203は、検索対象のファイル名を指定する操作を受け付ける。例えば、ファイルデータベース323に格納されるフォルダ構成と、フォルダ内に格納されるファイルのアイコンとが、取引書類管理サービスに関する画面に含まれるとする。その場合、操作入力部203は、取引書類管理サービスに関する画面に含まれるファイルデータベース323に格納されるフォルダ構成からファイルのアイコンを指定する操作を受け付けることで、検索対象のファイル名を指定する操作を受け付ける。
または、取引書類管理サービスに関する画面に、ファイル検索のための入力欄が含まれるとする。その場合、操作入力部203は、取引書類管理サービスに関する画面に含まれるファイル検索のための入力欄に、ファイル名を入力する操作を受け付けることで、検索対象のファイルを指定する操作を受け付ける。
検索対象のファイル名を指定する操作が受け付けられた場合、ステップS602において制御部205は、情報処理装置102に、指定されたファイル名を有する対象ファイル111の検索を要求する。ステップS603においてファイル管理部304は、指定されたファイル名を有する対象ファイル111を検索することを、管理データベース322に要求する。具体的には、ファイル管理部304は、指定されたファイル名を含むファイルパスを特定することを管理データベース322に要求する。そして、ステップS604において管理データベース322は、特定されたファイルパスに格納される対象ファイル111を特定する。ステップS605において管理データベース322は、特定された対象ファイル111を、検索結果としてファイル管理部304に応答する。
ステップS606においてファイル管理部304は、通信部301を介して、ステップS605において指定された対象ファイル111を、検索結果としてユーザ端末101に送信する。そして、ステップS607において制御部205は、受信された対象ファイル111を検索結果として表示部202に表示させる。
ステップS608において操作入力部203は、ステップS607で表示された対象ファイル111に関連付けられた検索インデックスを要求する操作を受け付ける。対象ファイル111に関連付けられた検索インデックスを要求する操作が受け付けられた場合、ステップS609において制御部205は、当該検索インデックスを、情報処理装置102に要求する。
ステップS610においてファイル管理部304は、取引書類管理サービス処理において、指定された対象ファイル111についての検索インデックスを、管理データベース322に要求する。具体的には、ファイル管理部304は、指定された対象ファイル111に関連付けられた第1文字列である検索インデックスを、管理データベース322に要求する。
ステップS611において管理データベース322は、指定された対象ファイル111に関連付けられた検索インデックスを特定する。そして、ステップS612において管理データベース322は、特定された検索インデックスを検索結果として応答する。
ステップS613において表示制御部309は、各項目についての項目欄を含む画面328を生成し、報知部310は、特定された検索インデックスを、画面328に含まれる項目欄に入力する。そして、ファイル管理部304は、生成された画面328を検索結果としてユーザ端末101に送信する。ここで、特定された検索インデックスがファイルパス及び代替文字列327に含まれない場合、表示制御部309は、取引書類管理サービスに関する画面328に、検索インデックスに誤りがあることを示す警告を含める。これにより、情報処理装置102は、対象ファイル111に、第2文字列325に所定の文字列が含まれないことを、ユーザに容易に通知できる。つまり、情報処理装置102は、対象ファイル111に対する文字認識結果の適否を報知できる。
ステップS614において制御部205は、画面328を表示部202に表示させる。特定された検索インデックスがファイルパス及び代替文字列327に含まれない場合に、画面328に、検索インデックスに誤りがあることを示す警告が含まれることで、ユーザ104は、対象ファイル111に、第2文字列325に含まれる所定の文字列が含まれないことを、一目で確認できる。これにより、情報処理装置102は、検索インデックスが適切ではない対象ファイル111を保存することを防止できる。
次に、図7~図9を参照して、第1文字列324である検索インデックスが第2文字列325であるファイルパス又は代替文字列327に含まれるか否かを判定する処理について詳細に説明する。
図7は、図5に例示するステップS514において第2文字列325から第3文字列326を抽出する処理の一例を示すフローチャートである。
ステップS701において第2抽出部307は、図5に例示するステップS504で指定された対象ファイル111の格納先を示す第2文字列325を取得する。例えば、第2抽出部307は、ファイルデータベース323における対象ファイル111のファイルパスを、第2文字列325として取得する。
ステップS702において第2抽出部307は、抽出条件リスト321から項目を選択する。ステップS703において第2抽出部307は、ステップS701で取得された第2文字列325に、ステップS702で選択された項目に関連付けられた第2抽出条件を満たす第3文字列326が含まれるか否かを判定する。
ステップS703において第2文字列325に、選択された項目に関連付けられた第2抽出条件を満たす第3文字列326が含まれない場合、制御部303は、処理を図8に例示されるステップS801に移行する。一方、ステップS703において第2文字列325に、選択された項目に関連付けられた第2抽出条件を満たす第3文字列326が含まれる場合、ステップS704において第2抽出部307は、選択された項目と、選択された項目に関連付けられた第2抽出条件を満たす第3文字列326とを関連付けて、管理データベース322に記憶させる。つまり、記憶部302は、複数の項目の各項目に第3文字列326を関連付けて記憶する。そして、制御部303は処理を図8に例示されるステップS805に移行する。
次に図8を参照しながら、代替文字列327を抽出する処理ついて説明する。図8は、図5に例示するステップS514において第2文字列325から代替文字列327を抽出する処理の一例を示すフローチャートである。
図7に例示するステップS703において第2文字列325に、選択された項目に関連付けられた第2抽出条件を満たす第3文字列326が含まれない場合、ステップS801において第2抽出部307は、対象ファイル111と同じ階層に格納されるファイルのファイル名に、第2抽出条件を満たす代替文字列327が含まれるか否かを判定する。
ステップS801において対象ファイル111と同じ階層に格納されるファイルのファイル名に、第2抽出条件を満たす代替文字列327が含まれる場合、ステップS802において第2抽出部307は、図7に例示するステップS702で選択された項目と、対象ファイル111と同じ階層に格納されるファイルのファイル名から、第2抽出条件を満たす代替文字列327とを関連付けて管理データベース322に記憶させる。つまり、記憶部302は、選択された項目に代替文字列327を関連付けて記憶する。そして、制御部303は、処理をステップS805に移行する。
一方、ステップS801において対象ファイル111と同じ階層に格納されるファイルのファイル名に、第2抽出条件を満たす代替文字列327が含まれない場合、ステップS803において第2抽出部307は、代替文字列327を空に設定する。つまり、第2抽出部307は、第2文字列325から第3文字列326を抽出できず、対象ファイル111と同階層に格納されるファイルのファイル名から代替文字列327を抽出できない場合、代替文字列327を空に設定する。そして、ステップS804において報知部310は、対象ファイル111のファイル名が不適切であること、及び対象ファイル111の格納先が不適切であることの少なくとも一方を報知する。そして、制御部303は、処理をステップS805に移行する。
ステップS805において第2抽出部307は、抽出条件リスト321に登録された全ての項目を選択したか否かを判定する。ステップS805において抽出条件リスト321に登録された全ての項目が選択されていない場合、制御部303は、処理を図7に例示するステップS702に戻す。一方、ステップS805において抽出条件リスト321に登録された全ての項目が選択されている場合、制御部303は、処理を図9に例示するステップS901に移行する。
なお、上記の説明では、情報処理装置102が、図5に例示するステップS514において対象ファイル111がファイルデータベース322に保存されたときに、図7に例示するステップS701~ステップS704、及び図8に例示するステップS801~ステップS805の処理を実行して、第3文字列325又は代替文字列326を抽出する形態について説明した。しかし、情報処理装置102が、第3文字列325又は代替文字列326を抽出するタイミングは、対象ファイル111がファイルデータベース322に保存されたときに限定されない。例えば、情報処理装置102は、ファイルデータベース323に格納されるファイルの格納先又はファイル名が更新されたときに、図7に例示するステップS701~ステップS704、及び図8に例示するステップS801~ステップS805の処理を実行して、第3文字列325又は代替文字列326を抽出してもよい。
次に図9を参照しながら、第1文字列324である検索インデックスが適切であるか否かを判定する処理について説明する。図9は、図5に例示するステップS516において対象ファイル111から第1文字列324を抽出する処理、及び図6に例示するステップS613において第文字列の適否を報知する処理の一例を示すフローチャートである。
ステップS901において文字認識部305は、対象ファイル111に文字認識を実行する。例えば、文字認識部305は、ОCRにより、対象ファイル111によって示される書類内の文字を認識する。
ステップS902において第1抽出部306は、抽出条件リスト321から項目を選択する。ステップS903において第1抽出部306は、文字認識結果によって示される文字列から、抽出条件リスト321においてステップS902で選択された項目に関連付けられた第1抽出条件を満たす第1文字列324を抽出する。なお、文字認識結果によって示される文字列に、選択された項目に関連付けられた第1抽出条件を満たす文字列が含まれない場合、第1抽出部306は、第1文字列324を空に設定する。
ステップS904において報知部310は、選択された項目について、ステップS903で抽出された第1文字列324を取引書類管理サービスに関する画面328に含まれる項目欄に入力する。なお、報知部310は、選択された項目について第1文字列324が空に設定されている場合、項目欄を空欄にする。
ステップS905において報知部310は、選択された項目について、第1文字列324が第3文字列326又は代替文字列327に含まれるか否かを判定する。ステップS905において選択された項目について、第1文字列324が第3文字列326又は代替文字列327に含まれる場合、制御部303は、処理をステップS907に移行する。一方、ステップS905において選択された項目について、第1文字列324が第3文字列326又は代替文字列327に含まれない場合、ステップS906において報知部310は、画面328に警告を表示する。つまり、対象ファイル111に対する文字認識結果が、対象ファイル111のファイルパス、又は対象ファイル111と同じ階層に含まれるファイル名に含まれない場合、画面328に警告を表示する。そして、制御部303は、処理をステップS907に移行する。
ステップS907において第1抽出部306は、全ての項目が選択されたか否かを判定する。ステップS907において全ての項目が選択されていない場合、制御部303は、処理をステップS902に移行する。一方、ステップS907において全ての項目が選択された場合、制御部303は、第1文字列324である検索インデックスが第2文字列325であるファイルパス又は代替文字列327に含まれるか否かを判定する処理を終了する。
図10は、図7に例示するステップS701からステップS707、及び図9に例示するステップS901からS906の処理の一例を説明するための図である。
図10に例示する処理においては、対象の項目が、取引先であるとする。そして、例えば、抽出条件リスト321において、取引先である項目に関連付けられる第1抽出条件は、対象ファイル111から文字認識を経て抽出された判定対象の文字列が、図4に例示するキーワードを含むことである。さらに、例えば、抽出条件リスト321において、取引先である項目に関連付けられる第2抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことである。
図7に例示するステップS703において第2抽出部307は、第2文字列325から図4に例示するキーワードを含む第3文字列326を抽出する。具体的には、第2文字列325が、「/home/file/productX03/20220301/請求書/A株式会社_請求書.file」である場合、第2抽出部307は、「A株式会社」と「株式会社_請求書」とを第3文字列326として抽出する。
そして、図7に例示するステップS704において第2抽出部307は、取引先である項目に、第3文字列である「A株式会社」と「株式会社_請求書」とを関連付けて、記憶部302に記憶させる。
ここで、画像1001は、対象ファイル111に含まれる書面を示す画像であるとする。その場合、図9に例示するステップS901において文字認識部305は、画像1001に対して文字認識を実行する。そして、図9に例示するステップS903において第1抽出部306は、画像1001から図4に例示するキーワードを含む第1文字列324を抽出する。具体的には、第1抽出部306は、「AB株式会社」を第1文字列324として抽出する。
図9に例示するステップS905において判定部308は、第3文字列326である「A株式会社」及び「株式会社_請求書」に、第1文字列324である「AB株式会社」が含まれるか否かを判定する。「A株式会社」及び「株式会社_請求書」に、「AB株式会社」が含まれない場合、図9に例示するステップS906において報知部310は、報知を行う。
図11を参照しながら、図8に例示されるステップS801からステップS804の処理の一例を説明する。図11は、ファイル構成の一例を示す図である。ここで、対象の項目が、区分であるとする。そして、図4に例示する通り、抽出条件リスト321において、区分である項目に関連付けられる第2抽出条件は、判定対象の文字列が、図4に例示するキーワードを含むことであるとする。さらに、第2文字列325が、対象ファイル111のファイルパスを示し、対象ファイル111のファイルパスが、「/home/file/productX03/A株式会社/20200916_取引書類.file」であるとする。
その場合、図7に例示するステップS703において第2抽出部307は、第2文字列325から、第2抽出条件を満たす第3文字列326を抽出できない。そのため、図8に例示するステップS801において第2抽出部307は、対象ファイル111と同じ階層に格納されるファイルのファイル名に、第2抽出条件を満たす代替文字列327が含まれるか否かを判定する。具体的には、第2抽出部307は、対象ファイル111と同じ階層に格納されるファイルのファイル名である「20201012_納品書.file」、「20210301_請求書.file」に、図4に例示するキーワードを含むか否かを判定する。
ここで、対象ファイル111と同じ階層に格納されるファイルのファイル名は、納品書又は請求書を含む。そのため、例えば、図8に例示するステップS801において第2抽出部307は、「20201012_納品書」及び「20210301_請求書」を、代替文字列327として抽出する。
図9に例示するステップS905において判定部308は、代替文字列327である「20201012_納品書」及び「20210301_請求書」に、第1文字列324が含まれるか否かを判定する。代替文字列327である「20201012_納品書」及び「20210301_請求書」に、第1文字列324が含まれない場合、図9に例示するステップS906において報知部310は、報知を行う。
図12は、対象ファイル111のファイルパスと、検索インデックスとが関連付けられていない状態における対象ファイル111の保存結果を示す画面1201の一例を示す図である。
画面1201は、対象ファイル111のファイル名である「A株式会社_秘密保持契約書.file」と、登録日とを示す。図5に例示するステップS511の処理が実行される段階においては、対象ファイル111のファイルパスと、検索インデックスとが関連付けられていない状態であり、取引年月日、取引先及び取引金額を示す文字列は空に設定される。そのため、画面1201には、取引年月日、取引先及び取引金額について「‐‐‐」との文字列が示される。
さらに、「!」を示す記号1202は、判定部308が第2文字列325に第1文字列324が含まれるか否かを判定していない状態であることを示す。つまり、表示部202が、画面1101に記号1202が含まれる画面1201を表示することにより、ユーザ端末101は、ファイル名が「A株式会社_秘密保持契約書.file」である対象ファイル111に対する文字認識結果の適否を判定していない状態であることを、ユーザ104に認識させることができる。
図13は、第1文字列324が入力された項目欄を含む画面1301の一例を示す図である。画面1301には、対象ファイル111に含まれる書面を示す画像1302、及び項目欄1303~項目欄1305が含まれる。
項目欄1303には、取引年月日である項目に関連付けられた第1抽出条件を満たすように、画像1302から抽出された第1文字列324が入力される。なお、項目欄1303には、取引年月日である項目に関連付けられた第1抽出条件を満たす第1文字列324である「2022年5月1日」が、「2022/05/01」との形式に変更されて入力されてもよい。
第2文字列325に、取引年月日である項目に関連付けられた第1抽出条件を満たす第1文字列324が含まれない場合、報知部310は、画面1301に警告1311を含めて報知を行う。なお、報知部310は、第2文字列325に、取引年月日である項目に関連付けられた第1抽出条件を満たす第1文字列324が含まれず、且つ第1文字列324によって示される年月日の形式を変更した「2022/05/01」、「20220501」等の文字列が含まれない場合に、報知部310は、画面1301に警告1311を含めて報知を行ってもよい。
項目欄1304には、取引先である項目に関連付けられた第1抽出条件を満たすように、画像1302から抽出された第1文字列324が入力される。具体的には、項目欄1304には、取引先である項目に関連付けられた第1抽出条件を満たす第1文字列324である「AB株式会社」が入力される。第2文字列325に「AB株式会社」が含まれない場合、報知部310は、画面1201に警告1312を含めて報知を行う。
項目欄に1305には、区分である項目に関連付けられた第1抽出条件を満たすように、画像1302から抽出された第1文字列324が入力される。なお、項目欄1305には、区分である項目に関連付けられた第1抽出条件を満たすキーワードである「契約書」が入力されてもよい。
以上より、情報処理装置102は、対象ファイル111に対する文字認識結果の適否を報知できる。さらに、表示部202が、警告1311及び警告1312を表示することにより、ユーザ端末101は、対象ファイル111の格納先又はファイル名が、対象ファイル111の内容に適合しているか否かを容易にユーザに判断させることができる。
また、表示部202が、項目欄1303~項目欄1305に、対象ファイル111に含まれる、各項目に関連する文字列を表示することで、ユーザ端末101は、対象ファイル111を検索するための検索インデックスを容易にユーザ104に確認させることができる。
また、情報処理装置100は、文字認識の誤認識により誤って登録された検索インデックスを一目でユーザ104に確認させることができ、ユーザ104が検索インデックスを誤ったまま登録してしまうことを防ぐことができる。
さらに、情報処理装置100は、検索インデックスが適切であるか否かをユーザ104に確認させる必要がないため、ユーザ104の負担を低減できるとともに、ユーザ104によるチェック漏れ等のヒューマンエラーを防止できる。
上記実施形態で実行される各処理は、各実施形態で例示した処理態様に限定されない。上述した機能ブロックは、集積回路等に形成された論理回路(ハードウェア)、又はCPUを用いたソフトウェアの何れを用いて実現してもよい。上記実施形態で実行される各処理は、複数のコンピュータで実行されてもよい。例えば、情報処理装置102の制御部303の各機能ブロックで実行される処理は、他のコンピュータで一部の処理が実行されてもよいし、複数のコンピュータで全ての処理が分担して実行されてもよい。
本開示は、上記実施の形態に限定されるものではなく、上記実施の形態で示した構成と実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えてもよい。本開示は、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本開示の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
100 情報処理システム、101 ユーザ端末、102 情報処理装置、103 ネットワーク、104 ユーザ、111 対象ファイル、201 通信部、202 表示部、203 操作入力部、204 記憶部、205 制御部、301 通信部、302 記憶部、303 制御部、304 ファイル管理部、305 文字認識部、306 第1抽出部、307 第2抽出部、308 判定部、309 表示制御部、310 報知部、321 抽出条件リスト、322 管理データベース、323 ファイルデータベース、324 第1文字列、325 第2文字列、326 第3文字列、327 代替文字列、328 画面、1001 画像、1101 画面、1201 画面、1202 記号、1301 画面、1302 画像、1303 項目欄、1304 項目欄、1305 項目欄、1311 警告、1312 警告

Claims (10)

  1. 対象ファイルから文字認識を経て第1文字列を抽出する第1抽出部と、
    前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する判定部と、
    前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う報知部と、
    を備える
    情報処理装置。
  2. 前記第2文字列に前記第1文字列が含まれると判定された場合、前記対象ファイルと、前記第1文字列とを関連付けて記憶する記憶部
    をさらに備える
    請求項1に記載の情報処理装置。
  3. 前記記憶部は、複数の項目の各項目に第1抽出条件を関連付けて記憶し、
    前記第1抽出部は、前記各項目について、前記第1文字列が前記第1抽出条件を満たすように前記第1文字列を抽出する
    請求項2に記載の情報処理装置。
  4. 前記第1抽出条件は、前記第1文字列が前記各項目の値を示すことである
    請求項3に記載の情報処理装置。
  5. 前記第2文字列から第3文字列を抽出する第2抽出部
    をさらに備え、
    前記判定部は、前記第3文字列に前記第1文字列が含まれるか否かを判定し、
    前記報知部は、前記第3文字列に前記第1文字列が含まれないと判定された場合、前記報知を行う
    請求項3に記載の情報処理装置。
  6. 前記記憶部は、前記各項目に第2抽出条件を関連付けて記憶し、
    前記第2抽出部は、前記各項目について、前記第3文字列が前記第2抽出条件を満たすように前記第3文字列を抽出する
    請求項5に記載の情報処理装置。
  7. 前記第2抽出条件は、前記第3文字列が前記各項目の値を示すことである
    請求項5に記載の情報処理装置。
  8. 前記第2抽出部は、前記第2文字列から前記第3文字列を抽出できない場合、前記対象ファイルと同階層に格納されるファイルのファイル名から前記第3文字列の代替文字列を抽出し、
    前記判定部は、前記代替文字列に前記第1文字列が含まれるか否かを判定し、
    前記報知部は、前記代替文字列に前記第1文字列が含まれないと判定された場合、前記報知を行う
    請求項5に記載の情報処理装置。
  9. 対象ファイルから文字認識を経て第1文字列を抽出する工程と、
    前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する工程と、
    前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う工程と、
    を含む
    ファイル管理方法。
  10. コンピュータに、
    対象ファイルから文字認識を経て第1文字列を抽出する機能と、
    前記対象ファイルの格納先を示す第2文字列に前記第1文字列が含まれるか否かを判定する機能と、
    前記第2文字列に前記第1文字列が含まれないと判定された場合、報知を行う機能と、
    を実行させる
    プログラム。
JP2022150846A 2022-09-22 2022-09-22 情報処理装置、ファイル管理方法及びプログラム Pending JP2024045829A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022150846A JP2024045829A (ja) 2022-09-22 2022-09-22 情報処理装置、ファイル管理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022150846A JP2024045829A (ja) 2022-09-22 2022-09-22 情報処理装置、ファイル管理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2024045829A true JP2024045829A (ja) 2024-04-03

Family

ID=90481442

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022150846A Pending JP2024045829A (ja) 2022-09-22 2022-09-22 情報処理装置、ファイル管理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2024045829A (ja)

Similar Documents

Publication Publication Date Title
US11372935B2 (en) Automatically generating a website specific to an industry
US20220036311A1 (en) Reusable components for collaborative content items
US9251130B1 (en) Tagging annotations of electronic books
US20100114991A1 (en) Managing the content of shared slide presentations
US10552525B1 (en) Systems, methods and apparatuses for automated form templating
US8584009B2 (en) Automatically propagating changes in document access rights for subordinate document components to superordinate document components
TW201322024A (zh) 資料集和資料服務的上下文趨向
JP2010529569A (ja) 辞書の単語及び熟語の判定
US20160171106A1 (en) Webpage content storage and review
US20170109442A1 (en) Customizing a website string content specific to an industry
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US7971135B2 (en) Method and system for automatic data aggregation
JP2010102510A (ja) クライアント装置、サーバ装置、及び、それらを用いた文書管理システム、文書管理方法、文書管理プログラム
Steele Bibliographic citation management software as a tool for building knowledge
JP4959501B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2021144565A (ja) 情報処理装置及び情報処理プログラム
JP2024045829A (ja) 情報処理装置、ファイル管理方法及びプログラム
WO2021059848A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US9946698B2 (en) Inserting text and graphics using hand markup
JP2019197381A (ja) 判決文データベースの作成方法、判決文データベースの検索方法、文作成方法、判決文データベースの作成装置、判決文データベースの検索装置、文作成装置、判決文データベースの作成プログラム、判決文データベースの検索プログラム、および文作成プログラム
CN113515921A (zh) 专利文本的辅助生成方法及电子终端
JP6796337B2 (ja) 評釈データベース作成装置、評釈データベース作成方法、評釈データベース作成プログラム
JP6307933B2 (ja) 情報処理装置およびプログラム
CN114580008B (en) Document access control based on document component layout
US20240169142A1 (en) Meeting information management system, meeting information management method, recording medium storing meeting information management program