JP7270037B2 - ファイル管理装置、ファイル管理方法、及びプログラム - Google Patents
ファイル管理装置、ファイル管理方法、及びプログラム Download PDFInfo
- Publication number
- JP7270037B2 JP7270037B2 JP2021522573A JP2021522573A JP7270037B2 JP 7270037 B2 JP7270037 B2 JP 7270037B2 JP 2021522573 A JP2021522573 A JP 2021522573A JP 2021522573 A JP2021522573 A JP 2021522573A JP 7270037 B2 JP7270037 B2 JP 7270037B2
- Authority
- JP
- Japan
- Prior art keywords
- rule
- data file
- tagging
- tag
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00405—Output means
- H04N1/00408—Display of information to the user, e.g. menus
- H04N1/0044—Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet
- H04N1/00461—Display of information to the user, e.g. menus for image preview or review, e.g. to help the user position a sheet marking or otherwise tagging one or more displayed image, e.g. for selective reproduction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Library & Information Science (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
好適には、前記ルール表示部は、前記付与ルールを編集可能な状態で表示する。
図1は、ファイル管理システム1の全体構成を例示する図である。
図1に例示するように、ファイル管理システム1は、複数のスキャナ3a、スキャナ3b、スキャナ3c、ファイル管理装置5、及びユーザ端末7を含み、ネットワーク9を介して互いに接続している。スキャナ3a、スキャナ3b、スキャナ3cをスキャナ3と総称し、ユーザ端末7aとユーザ端末7bとをユーザ端末7と総称する。
スキャナ3は、光学式の読取装置であり、取得した画像データをファイル管理装置5へ送信する。
ファイル管理装置5は、コンピュータ端末であり、スキャナ3から受信した画像データを分類するタグを、画像データに付与する。具体的には、ファイル管理装置5は、タグ付けの規則であるタグ付けルールを保持し、タグ付けルールと、画像データをOCR処理したデータファイルの特徴とに基づいて、適したタグをデータファイルに付与する。さらに、ファイル管理装置5は、ユーザの操作に応じて、タグ付けルールの生成、及び更新を行う。なお、タグ付けルールは、本発明に係る付与ルールの一例である。
ユーザ端末7は、ユーザが操作するコンピュータ端末であり、ファイル管理装置5により提供されるユーザインタフェースを表示する。
図2に例示するように、ファイル管理装置5は、CPU200、メモリ202、HDD204、ネットワークインタフェース206(ネットワークIF206)、表示装置208、及び、入力装置210を有し、これらの構成はバス212を介して互いに接続している。
CPU200は、例えば、中央演算装置である。
メモリ202は、例えば、揮発性メモリであり、主記憶装置として機能する。
HDD204は、例えば、ハードディスクドライブ装置であり、不揮発性の記録装置としてコンピュータプログラム(例えば、図3のファイル管理プログラム50)やその他のデータファイル(例えば、図3のタグ付けルールデータベース600)を格納する。
ネットワークIF206は、有線又は無線で通信するためのインタフェースであり、例えば、内部ネットワーク9における通信を実現する。
表示装置208は、例えば、液晶ディスプレイである。
入力装置210は、例えば、キーボード及びマウスである。
図3に例示するように、本例のファイル管理装置5には、ファイル管理プログラム50がインストールされると共に、タグ付けルールデータベース600(タグ付けルールDB600)が構成される。
ファイル管理プログラム50は、取得部500、共通特徴抽出部502、照合部504、スコア算出部506、タグ付与部508、ルール更新部510、固定条件設定部512、及びルール表示部514を有する。
なお、ファイル管理プログラム50の一部又は全部は、ASICなどのハードウェアにより実現されてもよく、また、OS(Operating System)の機能を一部借用して実現されてもよい。
ファイル管理プログラム50において、取得部500は、スキャナ3により読み取られた画像データを取得する。
共通特徴抽出部502は、同一のタグが付与された複数のデータファイルから、これらのデータファイルに共通する特徴を抽出する。例えば、データファイルとは、画像データに対してOCR(Optical Character Recognition)処理を実施したものをいう。具体的には、共通特徴抽出部502は、取得部500より取得した画像データに対してOCR処理を実施し、OCR処理結果に基づいて、データファイルの特徴を抽出する。より具体的には、共通特徴抽出部502は、データファイルに記載される文字列、日付、データファイルの画像サイズ、及び、データファイルの画像に使用される色数の少なくとも一つを特徴として抽出する。
タグ付けルールDB600は、共通特徴抽出部502により抽出された特徴と、これらのデータファイルに付与されていたタグとを互いに関連付けてタグ付けルールとして格納する。具体的には、タグ付けルールDB600は、タグ名と、タグ名に関連付けられる「条件候補」と「条件」とを格納する。「条件」とは、データファイルに関連付けられる「タグ名」を付与するための制約であり、同じタグが付与された複数のデータファイルから抽出された共通する特徴である。同様に、「条件候補」は、複数のデータファイルから抽出された共通する特徴であり、「条件」は、「条件候補」の中から選出される。タグ付けルールDB600は、本発明に係るルール格納部の一例である。
スコア算出部506は、各「条件候補」の判定要素となるスコアを算出し、閾値以上のスコアを有する「条件候補」の中から「条件」を選出する。具体的には、スコア算出部506は、各「条件候補」の出現頻度、直近性、出現位置、及び特有性のスコアを算出し、各スコアに重みを付けて合算し、「条件候補」の優位性を算出する。
具体的には、タグ付与部508は、新たに入力されたデータファイルから、タグ付けルールとして登録されている特徴を探索し、いずれかの特徴が発見された場合に、この特徴に関連付けられたタグを、新たに入力されたデータファイルに付与する。
より具体的には、タグ付与部508は、タグ付けルールとして登録されている特徴の一部が、新たに入力されたデータファイルから発見された場合に、この特徴に関連付けられたタグをユーザに提案し、ユーザの操作に応じて、タグを付与する。特徴の一部が新たに入力されたデータファイルから発見された場合とは、共通特徴抽出部502により抽出された特徴と、タグ付けルールの特徴との一致率が50%~99%である場合をいう。
また、具体的には、ルール更新部510は、照合部504により、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴の一部が一致したと判定された場合であって、ユーザが提案されたタグを採用した場合に、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴とが一致するように、タグ付けルールを更新する。
さらに、ルール更新部510は、照合部504により、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴の一部が一致したと判定された場合であって、ユーザが提案されたタグを拒否した場合に、新たに入力されたデータファイルと、タグ付けルールとして登録されている特徴とが一致しないように、タグ付けルールを更新する。
図4(a)は、タグ付けルールを説明する表であり、(b)は、タグ「見積書」のタグ付けルールを説明する表であり、(c)は、共通特徴抽出部502により抽出された特徴を例示する図である。
図4(a)に例示するように、タグ付けルールは、「タグ名」と、「タグ名」に関連付けられた「条件」とを有する。「タグ名」は、データファイルを分類する名称である。「条件」は、「タグ名」を付与するための制約であり、同じタグが付与されたデータファイルから抽出された共通する特徴である。次回取り込まれたデータファイルがその「条件」に該当すれば、ファイル管理装置5は、「条件」に関連付けられた「タグ名」を、取り込まれたデータファイルに自動で付与する。
より具体的には、共通特徴抽出部502は、図4(c)に例示されるデータファイルから図4(b)に例示するように、項目毎の「条件候補」を抽出する。スコア算出部506は、各条件候補の優位性を表すスコアを算出し、ルール更新部510は、各「条件候補」の合算スコアに基づいて、閾値以上のスコアを有する「条件候補」の中から「条件」を選出する。
図5に例示するように、「条件候補」は、共通特徴抽出部502によりデータファイルから抽出された特徴であり、文字列、及び画像の縦、及び横の長さである。具体的には、「条件候補」とは、データファイルの文中の単語(キーワード)、文書日付の値、及び画像の縦横の長さの値等である。
キーワードについて、図5(a)に例示するように、共通特徴抽出部502は、データファイル中のキーワードの文字列と、文字列が記載された位置情報とを特徴として記録する。具体的には、共通特徴抽出部502は、OCR処理の結果に基づいて、データファイルの形態素解析を行い、分割された単語をキーワード条件候補とする。共通特徴抽出部502は、キーワード条件候補のうち、スコアが特定の条件を満たす最大5件をキーワード条件とする。
画像サイズについて、図5(c)に例示するように、共通特徴抽出部502は、データファイルの縦・横の長さを画像サイズ条件候補とし、画像サイズ条件候補のうち、スコアが特定の条件を満たす各要素で最大1件を画像サイズ条件とする。
その他に、キーワード、文書日付の値、及び画像の縦横の長さ以外にも、ルール更新部510は、「フォーマット」、「名刺またはレシートの属性値(会社名または住所)」、及び「画像の色」を条件候補とし、これらの一致または類似を条件としてタグ付けルールを作成してもよい。
例えば、キーワードの条件は、特定の文字列がデータファイル内に記載されていることにより満たされる。文書日付の類似の条件は、データファイル内に記載された年月日がある特徴を有することにより満たされる。画像の縦横の長さの類似の条件は、画像の縦横サイズがある特徴を有することにより満たされる。
各条件候補は、出現頻度、直近性、出現位置、及び特有性に対するスコアを有する。各スコアは、0~10の間で増減する。
出現頻度のスコアは、すべてのタグ付きデータファイル中、ある特徴が何件のデータファイルで出現するかに基づいて算出される。出現頻度のスコアは、出現回数が多いほど高くなる。また、タグ付けしたすべてのデータファイルに共通した特徴であればスコアは、10である。
直近性スコアは、ある特徴が最近入力されたデータファイルに該当するか否かに基づいて算出される。直近性のスコアの初期値は、最大値(10)である。また、追加されたデータファイルに特徴が当てはまらない場合に、直近性のスコアは減少する。
出現位置のスコアは、データファイル上の近い位置に記載されているか否かに基づいて算出される。出現位置のスコアは、同一箇所であれば最大値(10)であり、位置が離れるにつれて、出現位置のスコアは減少する。
スコア算出部506は、出現頻度、直近性、出現位置、及び特有性のスコアを算出し、各スコアに重みを付けて合算し、「条件候補」の優位性を計算する。スコア算出部506は、「合算スコア=α×出現頻度のスコア+β×直近性スコア+γ×出現位置のスコア+δ×特有性のスコア」の式を用いて合算スコアを計算する。ルール更新部510は、スコア算出部506により算出された合算スコアが閾値より高い条件候補から「条件」を選出する。
図6に例示するように、ステップ100(S100)において、ルール更新部510は、ユーザのタグ付け操作により、データファイルにタグが付与されたことを検知する。具体的には、ユーザは、図7に例示するように、タグ付け操作画面において、タグの選択、または新規タグ名を入力し、データファイルに対してタグ付け操作(タグ「A」の付与)を行い、ルール更新部510は、ユーザによるタグ付け操作を検知する。
ステップ105(S105)において、照合部504は、タグ「A」のタグ付けルールが存在するか否かをタグ付けルールDB600から検索する。タグ付けルールが存在する場合に、照合部504は、S135へ移行し、タグ付けルールが存在しない場合に、照合部504は、S110へ移行する。
ステップ115(S115)において、共通特徴抽出部502は、タグ「A」が付与されているデータファイルの特徴を抽出する。具体的には、共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを抽出する。
ステップ120(S120)において、共通特徴抽出部502が、タグ「A」の付与されているデータファイルすべての特徴を抽出した場合に、タグ付けルールの登録及び更新処理(S10)は、S125へ移行し、すべてのデータファイルの特徴を抽出していない場合に、タグ付けルールの登録及び更新処理(S10)は、S115へ移行する。
ステップ130(S130)において、スコア算出部506は、各「条件候補」の出現頻度、直近性、出現位置、及び特有性のスコアと、合算スコアとを算出する。ルール更新部510は、合算スコアが高く、且つ、各スコアが閾値以上の「条件候補」を「条件」として選出し、タグ「A」のタグ付けルールを生成し、タグ付けルールDB600に登録する。
ステップ140(S140)において、共通特徴抽出部502は、ユーザによりタグ「A」が付与されたデータファイルの特徴を抽出する。具体的には、共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを取得する。
ステップ150(S150)において、ルール更新部510は、タグ「A」のタグ付けルールの「条件」を、選出された新たな「条件」に入れ替えてタグ付けルールを更新する。新たな「条件」に入れ替えることにより、より一致率の高いタグ付けルールを生成することができる。
ユーザは、任意のタイミングでタグ付けルールのカスタマイズ画面を呼び出し、タグ付けルールの確認、及びカスタマイズを行うことができる。具体的には、図8(a)に例示するように、ルール表示部514が、タグ「納品書」から「タグ付けルールの確認」メニューを表示し、ユーザの選択により、タグ付けルールのカスタマイズ画面を表示する。さらに、図8(b)に例示するように、ルール表示部514は、ユーザの操作に応じて、タグに関連付けられるキーワードの追加、削除、及び日付の変更等のカスタマイズを受け付ける。さらに、固定条件設定部512は、ユーザの操作に応じて、タグに関連付けられる「条件」を固定する固定条件に設定する。固定条件に設定された「条件」は、ユーザのタグ付け操作によるルール更新時に、除去されることなく、必ず「条件」として保持される。
また、図9(a)及び(b)に例示するように、ルール表示部514は、ユーザへのタグの提案時、及びタグの検索結果であるタグリストから、タグ付けルールのカスタマイズ画面を呼び出して表示する。このように、ユーザがタグ付けルールを確認し、必要に応じて修正できるため、ファイル管理装置5によるタグ付けルールの更新では対応できないようなタグ付けルールの生成も可能である。
図10に例示するように、ステップ200(S200)において、取得部500は、スキャナ3によりスキャンされた書類の画像データを取得する。共通特徴抽出部502は、取得部500により取得された画像データに対してOCR処理を実施したデータファイルを取得する。共通特徴抽出部502は、データファイルの文字列、日付、画像サイズ、及び画像に使用される色数の少なくとも一つを特徴として抽出する。
ステップ205(S205)において、照合部504は、データファイルの特徴とタグ付けルールDB600に格納されるタグ付けルールとを照合する。
ステップ210(S210)において、照合部504は、データファイルの特徴と、すべてのタグ付けルールとを照合した場合に、S215へ移行し、すべてのタグ付けルールと照合していない場合に、S205へ移行する。
ステップ215(S215)において、照合部504は、照合した結果、データファイルの特徴と一致率が最も高いタグ付けルールを選出する。
ステップ220(S220)において、S215において選出したタグ付けルールの一致率が100%である場合に、S225へ移行し、一致率が100%でない場合に、S235へ移行する。
ステップ230(S230)において、ルール更新部510は、タグ付けルールを更新し、登録する。具体的には、S215において選出したタグ付けルールのうち、共通特徴抽出部502が抽出した特徴に該当しない条件を削除する。さらに、各条件候補のスコア、固定条件、及びその他の条件候補に基づいて「条件」を選出し、タグ付けルールの「条件」を、選出された新たな「条件」に入れ替え、タグ付けルールDB600に登録する。
ステップ235(S235)において、タグ付与部508は、S215において選出されたタグ付けルールとデータファイルとの特徴が一致率50%以上99%未満(類似)である場合に、S240へ移行し、一致率が49%以下である場合に、タグ付けをせず、処理を終了する。
ステップ240(S240)において、タグ付与部508は、類似であると判断されたタグ付けルールのタグをデータファイルに付与することを提案し、付与するか否かの判断をユーザに求める。
図11に例示するように、ステップ300(S300)において、タグ付与部508は、図12に例示するように、ユーザにタグ「AAA」の付与を提案する。具体的には、タグ付与部508は、タグ「AAA」の付与、タグを付与しない、及び、別タグの付与をユーザの応答操作として提示する。
ステップ305(S305)において、タグ付与部508によるタグの提案に対してユーザがタグ「AAA」を妥当であると判断した場合に、S310へ移行し、タグ「AAA」を妥当であると判断しない場合に、S320へ移行する。
ステップ310(S310)において、タグ付与部508は、データファイルにタグ「AAA」を付与する。
ステップ315(S315)において、ルール更新部510は、タグ「AAA」のタグ付けルールを更新登録する。具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が100%となるよう、「条件」を選定し、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。ルール更新部510は、「条件」の入れ替えではなく、「条件」の一部削除(例えば、文字列が3文字一致から2文字一致により条件を満たすような、条件の緩和)により一致率が上がるようにしてもよい。
ステップ325(S325)において、タグ付与部508は、データファイルにタグ「BBB」を付与する。
ステップ330(S330)において、ユーザが「タグ「BBB」を付与する」を選択した場合に、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるよう、タグ「AAA」のタグ付けルールを更新する。具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとが一致率が49%以下となるよう「条件」を選定する。さらに、ルール更新部510は、選定した「条件」と、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。これにより、データファイルの特徴とタグ「AAA」のタグ付けルールとが類似と判定されないようになる。また、ルール更新部510は、「条件」の入れ替えではなく、「条件」の追加(条件の強化)により一致率が下がるようにしてもよい。
ステップ340(S340)において、ユーザが「タグ「AAA」を付与しない」を選択した場合に、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるようタグ「AAA」のタグ付けルールを更新する。より具体的には、ルール更新部510は、データファイルの特徴と、タグ「AAA」のタグ付けルールとの一致率が49%以下となるよう、「条件」を選定する。そして、ルール更新部510は、選定した「条件」と、既存の「AAA」のタグ付けルールの「条件」とを入れ替える。これにより、データファイルの特徴とタグ「AAA」のタグ付けルールとが類似と判定されないようになる。また、ルール更新部510は、「条件」の入れ替えではなく、「条件」の追加(条件の強化)により一致率が下がるようにしてもよい。
ステップ345(S345)において、ルール更新部510は、入れ替えた「条件」をタグ付けルールの条件としてタグ付けルールDB600に登録する。
図13(a)は、「請求書(2018)」のタグ付けルールと文書Cの特徴とを表す図であり、文書A、文書B、及び文書Cのキーワード、文書日付、及びサイズを表す。図13(a)に例示するように、文書Cには、文書A及び文書Bのように、「下記」及び「東京」の文字列が含まれない。
図13(b)は、条件候補のキーワードのスコアを表す表である。
図13(c)は、タグ付けルールデータの更新例である。
ルール更新部510は、文書Cに含まれる「条件候補」のスコアに基づいて、「条件」として採用されるキーワードを選出する。具体的には、図13(b)に例示するように、スコア算出部506により算出された、「下記」及び「東京」の出現頻度は、「10」から「7」に下がり、「請求書」及び「税額」の出現位置は加算される。その結果、「下記」及び「東京」の合算スコアが下がり、「請求書」及び「税額」の合算スコアは上がる。したがって、図13(c)に例示するように、ルール更新部510は、文書A及び文書Bに基づいて生成されたタグ付けルールを、キーワードとして「請求書」、「金額」、「振込」、「税額」、及び「納期」を有し、文書日付として「2018」を有し、サイズが「A4」であるデータファイルにタグ「請求書(2018)」を付与するタグ付けルールに更新する。
図14(a)は、「請求書」のタグ付けルールと文書Dとの特徴を表す図であり、文書A、文書B、文書C、及び文書Dのキーワード、及び文書日付を表す。図14(a)に例示するように、文書Dには、文書A~文書Cのように、「請求書」の文字列が含まれず、文書A~文書Cと新規タグ付け文書Dとでは、共通するデータファイルの特徴がない。つまり、図14(c)のNo.1の既存のタグ「請求書」のタグ付けルールだけでは、文書Dに対してタグ「請求書」を付与することができない。
図14(b)は、条件候補のキーワードのスコアを表す表である。
図14(c)は、タグ付けルールデータの更新例である。
図14(b)、及び図14(c)に例示するように、スコア算出部506は、「条件候補」のキーワードのスコアを再計算し、ルール更新部510は、更新前のタグ付けルール(No.1)に加え、文書Dがタグ「請求書」に該当するように、合算スコアの高い「振込先」及び「支払期限」を「条件」として選出し、タグ「請求書」のタグ付けルールとして追加する。したがって、ルール更新部510は、タグ「請求書」のタグ付けルールとして条件「No.1」と「No.2」とを登録する。これにより、タグ付けルールの条件が「No.1」または「No.2」に該当すればタグ「請求書」が付与されるようになる。
図15(a)は、「AA社_請求書」のタグ付けルールと、BB社の請求書である新規タグ付け文書Gの特徴とを表す図であり、(b)は、「○○社_請求書」のタグ付けルールを例示する図であり、(c)は、条件候補のキーワードのスコアを表す表であり、(d)は、タグ付けルールデータの更新例である。
図15(b)に例示する「○○社_請求書」のタグ付けルールでは、BB社の請求書にも「AA社_請求書」タグの付与を提案してしまう。
そこで、図15(a)に例示するように、スコア算出部506は、タグ付けを拒否した文書Gの特徴と、タグ「AA社_請求書」のタグ付けルールの「条件候補」とを比較する。スコア算出部506は、タグ「AA社_請求書」のタグ付けルールの「条件候補」の中に、文書Gの特徴に含まれない「条件候補」があれば、その「条件候補」の特有性のスコアを加算する。具体的には、図15(c)に例示するように、スコア算出部506は、文書E、文書Fに含まれ、文書Gに含まれないキーワードの条件候補である“AA社”に特有性スコアを付与する。スコア算出部506によるスコアの再計算の結果、図15(d)に例示するように、ルール更新部510は、タグ付けルールを、タグ名「AA社_請求書」、キーワード「“AA会社”、“請求書”、“振込先”、“支払期限”、及び“請求金額”」を有するタグ付けルールに更新する。これにより、タグ付与部508は、BB社の請求書である文書Gに対して、タグ「AA社_請求書」を提案することがなくなる。
3…スキャナ
5…ファイル管理装置
50…ファイル管理プログラム
500…取得部
502…共通特徴抽出部
504…照合部
506…スコア算出部
508…タグ付与部
510…ルール更新部
512…固定条件設定部
514…ルール表示部
600…タグ付けルールデータベース
Claims (7)
- データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するルール格納部と、
前記ルール格納部に格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与部と、
前記タグ付与部により付与されたタグの付与ルールを編集可能な状態で表示するルール表示部と、
新たに入力されたデータファイルに基づいて、前記ルール格納部に格納されている付与ルールを更新するルール更新部と、
ユーザの入力に応じて、前記ルール格納部に格納されている付与ルールのうち、前記ルール更新部による自動更新が禁止される固定条件を設定する固定条件設定部と、
を有するファイル管理装置。 - データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するルール格納部と、
前記ルール格納部に格納されている付与ルールに基づいて、新たに入力されたデータファイルにタグを付与するタグ付与部と、
前記タグ付与部により付与されたタグの付与ルールを編集可能な状態で表示するルール表示部と、
を有し、
前記ルール表示部は、ユーザがいずれかのデータファイルを指定した場合に、指定されたデータファイルに対して前記タグ付与部が付与したタグの付与ルールを表示する、
ファイル管理装置。 - 前記ルール格納部に格納される付与ルールは、文字列で表現可能な複数の判定要素を含んでおり、
前記ルール更新部は、複数のデータファイルで共通する特徴の中から、出現頻度、直近性及び出現位置の少なくとも一つと、特有性とに基づいて、付与ルールの判定要素として登録される特徴を選択する、
請求項1に記載のファイル管理装置。 - データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するデータベースを参照して、新たに入力されたデータファイルにタグを付与するタグ付与ステップと、
前記タグ付与ステップにより付与されたタグの付与ルールを編集可能な状態で表示するルール表示ステップと、
新たに入力されたデータファイルに基づいて、格納されている付与ルールを更新するルール更新ステップと、
ユーザの入力に応じて、格納されている付与ルールのうち、前記ルール更新ステップにおける自動更新が禁止される固定条件を設定する固定条件設定ステップと、
を有するファイル管理方法。 - データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するデータベースを参照して、新たに入力されたデータファイルにタグを付与するタグ付与ステップと、
前記タグ付与ステップにより付与されたタグの付与ルールを編集可能な状態で表示するルール表示ステップと、
を有し、
前記ルール表示ステップにおいて、ユーザがいずれかのデータファイルを指定した場合に、指定されたデータファイルに対して前記タグ付与ステップにおいて付与されたタグの付与ルールを表示する、
ファイル管理方法。 - データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するデータベースを参照して、新たに入力されたデータファイルにタグを付与するタグ付与ステップと、
前記タグ付与ステップにより付与されたタグの付与ルールを編集可能な状態で表示するルール表示ステップと、
新たに入力されたデータファイルに基づいて、格納されている付与ルールを更新するルール更新ステップと、
ユーザの入力に応じて、格納されている付与ルールのうち、前記ルール更新ステップにおける自動更新が禁止される固定条件を設定する固定条件設定ステップと、
をコンピュータに実行させるプログラム。 - データファイルに含まれる特徴と、データファイルに付与されるタグとを互いに関連付けて付与ルールとして格納するデータベースを参照して、新たに入力されたデータファイルにタグを付与するタグ付与ステップと、
前記タグ付与ステップにより付与されたタグの付与ルールを編集可能な状態で表示し、ユーザがいずれかのデータファイルを指定した場合に、指定されたデータファイルに対して前記タグ付与ステップにおいて付与されたタグの付与ルールを表示するルール表示ステップと、
をコンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/021754 WO2020240831A1 (ja) | 2019-05-31 | 2019-05-31 | ファイル管理装置、ファイル管理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2020240831A1 JPWO2020240831A1 (ja) | 2021-12-16 |
JP7270037B2 true JP7270037B2 (ja) | 2023-05-09 |
Family
ID=73553665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021522573A Active JP7270037B2 (ja) | 2019-05-31 | 2019-05-31 | ファイル管理装置、ファイル管理方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11960530B2 (ja) |
JP (1) | JP7270037B2 (ja) |
WO (1) | WO2020240831A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056020A (ja) | 2013-09-11 | 2015-03-23 | 株式会社東芝 | 文書分類装置 |
WO2018180023A1 (ja) | 2017-03-31 | 2018-10-04 | 株式会社ミロク情報サービス | ファイル管理装置、ファイル管理方法、及びファイル管理プログラム |
JP2019040260A (ja) | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4682747B2 (ja) | 2005-08-17 | 2011-05-11 | 富士ゼロックス株式会社 | 文書処理装置、ルールデータ生成方法およびプログラム |
JP4429236B2 (ja) | 2005-08-19 | 2010-03-10 | 富士通株式会社 | 分類ルール作成支援方法 |
JP5747982B2 (ja) * | 2010-04-14 | 2015-07-15 | 横河電機株式会社 | プロセスグラフィックビューの優先ライブサムネイルを表示する方法およびシステム |
JP5936051B2 (ja) | 2012-05-30 | 2016-06-15 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
KR102100952B1 (ko) * | 2012-07-25 | 2020-04-16 | 삼성전자주식회사 | 데이터 관리를 위한 방법 및 그 전자 장치 |
US9880997B2 (en) * | 2014-07-23 | 2018-01-30 | Accenture Global Services Limited | Inferring type classifications from natural language text |
US9853913B2 (en) * | 2015-08-25 | 2017-12-26 | Accenture Global Services Limited | Multi-cloud network proxy for control and normalization of tagging data |
US11854681B2 (en) * | 2016-12-23 | 2023-12-26 | Sanofi-Aventis Deutschland Gmbh | Data management unit for supporting health control |
US11250364B2 (en) * | 2017-12-06 | 2022-02-15 | Hartford Fire Insurance Company | System and method for evaluating images to support multiple risk applications |
JP6955434B2 (ja) * | 2017-12-22 | 2021-10-27 | 株式会社Pfu | ファイル管理装置、ファイル管理方法、及びプログラム |
US11100057B2 (en) * | 2019-06-07 | 2021-08-24 | Citrix Systems, Inc. | Virtual file organizer |
-
2019
- 2019-05-31 JP JP2021522573A patent/JP7270037B2/ja active Active
- 2019-05-31 US US17/614,862 patent/US11960530B2/en active Active
- 2019-05-31 WO PCT/JP2019/021754 patent/WO2020240831A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056020A (ja) | 2013-09-11 | 2015-03-23 | 株式会社東芝 | 文書分類装置 |
WO2018180023A1 (ja) | 2017-03-31 | 2018-10-04 | 株式会社ミロク情報サービス | ファイル管理装置、ファイル管理方法、及びファイル管理プログラム |
JP2019040260A (ja) | 2017-08-22 | 2019-03-14 | 大日本印刷株式会社 | 情報処理装置及びプログラム |
Non-Patent Citations (2)
Title |
---|
iPhone写真をMacで管理しよう! 「iPhone写真の管理・編集・共有」の基本・実践・応用,Mac Fan,日本,株式会社マイナビ出版,2018年05月01日,第26巻 第5号,pp. 101-103 |
岩月 憲一 外,レイアウト認識に基づく論文構成要素の抽出,インタラクティブ情報アクセスと可視化マイニング 第12回研究会研究発表予稿集 [online] ,日本,人工知能学会,2016年03月18日,pp. 61-68 |
Also Published As
Publication number | Publication date |
---|---|
US11960530B2 (en) | 2024-04-16 |
US20220222291A1 (en) | 2022-07-14 |
JPWO2020240831A1 (ja) | 2021-12-16 |
WO2020240831A1 (ja) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3425408B2 (ja) | 文書読取装置 | |
JP4444867B2 (ja) | 業務プロセスモデル作成支援システムおよびプログラム,ならびに業務プロセスモデル作成処理方法 | |
US10019535B1 (en) | Template-free extraction of data from documents | |
US20070061296A1 (en) | Annotating documents in a collaborative application with data in disparate information systems | |
US11361572B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP7000052B2 (ja) | 会計装置及びプログラム | |
JP2019109808A (ja) | 会計処理装置、会計処理システム、会計処理方法及びプログラム | |
JP5424798B2 (ja) | メタデータ設定方法及びメタデータ設定システム、並びにプログラム | |
JP7157245B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
JP4959501B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN115292473A (zh) | 低代码方案中的扩展的选择性推荐和部署 | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2000231505A (ja) | データオブジェクト群の自動命名方法およびその記憶媒体 | |
JP7270037B2 (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
CN112445911A (zh) | 工作流程辅助装置、系统、方法及存储介质 | |
JP5550959B2 (ja) | 文書処理システム、及びプログラム | |
JP7312646B2 (ja) | 情報処理装置、文書識別方法、及び情報処理システム | |
JP7408340B2 (ja) | 画像処理装置の制御方法、プログラム及び画像処理装置 | |
JP7060369B2 (ja) | 名寄せ支援装置、名寄せ支援方法及びプログラム | |
JP2016212626A (ja) | Webを介した外字・異体字含有文字群入力利用システム | |
JP6763967B2 (ja) | データ変換装置とデータ変換方法 | |
JP3764971B2 (ja) | 履歴情報管理装置 | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
US20210200953A1 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium | |
JP6322291B2 (ja) | 文書処理装置および項目抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210531 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220930 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20221118 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230424 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7270037 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |