JP7400543B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7400543B2
JP7400543B2 JP2020033759A JP2020033759A JP7400543B2 JP 7400543 B2 JP7400543 B2 JP 7400543B2 JP 2020033759 A JP2020033759 A JP 2020033759A JP 2020033759 A JP2020033759 A JP 2020033759A JP 7400543 B2 JP7400543 B2 JP 7400543B2
Authority
JP
Japan
Prior art keywords
document
data
area
document data
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020033759A
Other languages
English (en)
Other versions
JP2021135929A (ja
Inventor
晋太郎 西岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2020033759A priority Critical patent/JP7400543B2/ja
Priority to US16/919,055 priority patent/US11354496B2/en
Priority to CN202010771263.8A priority patent/CN113326370A/zh
Publication of JP2021135929A publication Critical patent/JP2021135929A/ja
Application granted granted Critical
Publication of JP7400543B2 publication Critical patent/JP7400543B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、情報処理装置及びプログラムに関する。
文書の種類毎に定められた定義データを用いて、文書を分類することがある。文書の種類毎に文書を分類する技術として、例えば予め定められた特徴に基づいて文書を分類する技術が知られている。
特許文献1には、識別に有効な帳票上の部分領域を学習によって自動的に選択し、当該部分領域に対して部分画像フィルタを適用することで、入力帳票画像を複数の特徴量の組み合わせである特徴ベクトルに変換し、当該特徴ベクトルと辞書に登録されたベクトルとの間の距離を2段階の処理によって計算することで、帳票を識別する装置が記載されている。
特許文献2には、識別対象の帳票の画像から複数の特徴量を抽出し、当該複数の特徴量の1つと登録帳票の特徴量とを比較して当該識別対象の帳票の種別が識別できなかった場合、当該複数の特徴量のうちの他の特徴量と当該登録帳票の特徴量とを比較して当該識別対象の帳票の種別を識別する装置が記載されている。
特許文献3には、入力された画像データから特徴データを生成し、当該生成された特徴データとメモリに格納されている特徴データとに基づいて、入力された画像データと類似している特徴画像データを抽出し、当該生成された特徴データと当該抽出された特徴画像データに記述されている特徴データとに基づいて特徴量差を特定し、特定された領域毎に特徴量差を表示する装置が記載されている。
特開2007-179307号公報 特開2000-285190号公報 特開2008-250817号公報
ところで、予め定められた特徴に基づいて、必ずしも文書を正確に分類することができるとは限らず、特徴の設定によっては、文書を正確に分類することができない場合がある。例えば、類似した特徴の設定が複数ある場合、文書の分類を誤ってしまうときがある。
本発明の目的は、文書を種類毎に分類するためのデータである定義データを登録する場合において、定義データを作成するためのデータである、文書を表す文書データが、既に登録されている他の定義データの他の文書データと類似している場合、当該文書データと当該他の文書データとが類似している旨をユーザに知らせない場合と比べて、ユーザが文書分類の精度が高い定義データを登録することができる仕組みを提供することにある。
請求項1に係る発明は、プロセッサを有し、前記プロセッサは、文書の分類を定義する定義データを登録する場合に、前記定義データを作成するためのデータである、文書を表す文書データを受け付け、前記文書データと、既に登録されている他の定義データの他の文書データとが類似している場合、警告を出力する、情報処理装置である。
請求項2に係る発明は、前記プロセッサは、前記文書データの特徴量と前記他の文書データの特徴量とに基づく類似度が閾値以上である場合、警告を出力する、ことを特徴とする請求項1に記載の情報処理装置である。
請求項3に係る発明は、前記プロセッサは、更に、特徴量に基づいて前記文書データと前記他の文書データとが類似すると判断された場合、前記文書データに表されている文書中の領域であって、前記他の文書データに表されている他の文書中の領域と区別が可能な領域を、ユーザに案内する、ことを特徴とする請求項1又は請求項2に記載の情報処理装置である。
請求項4に係る発明は、前記プロセッサは、複数の領域の組み合わせをユーザに案内する、ことを特徴とする請求項3に記載の情報処理装置である。
請求項5に係る発明は、ユーザに案内される領域は、文字が記入されることが想定されない領域である、ことを特徴とする請求項3又は請求項4に記載の情報処理装置である。
請求項6に係る発明は、前記プロセッサは、更に、前記文書データに表されている文書と前記他の文書データに表されている他の文書とを並べて表示装置に表示させ、ユーザに案内される領域を前記文書上に重ねて前記表示装置に表示させ、ユーザに案内される領域に対応する領域を前記他の文書上に重ねて前記表示装置に表示させる、ことを特徴とする請求項3から請求項5のいずれか一項に記載の情報処理装置である。
請求項7に係る発明は、前記プロセッサは、更に、前記他の文書データに表されている他の文書中の領域と区別が可能な領域が、前記文書データに表されている文書から抽出されない場合、文字認識処理によって前記文書データと前記他の文書データとを区別することをユーザに案内する、ことを特徴とする請求項3から請求項6のいずれか一項に記載の情報処理装置である。
請求項8に係る発明は、前記プロセッサは、更に、前記文書データの部分的な領域に基づいて、前記文書データと前記他の文書データとを区別する処理である部分領域判定処理の複数をユーザに案内する、ことを特徴とする請求項1又は請求項2に記載の情報処理装置である。
請求項9に係る発明は、前記プロセッサは、更に、前記部分領域判定処理の各々を定義する指示部を、同一画面に表示する、ことを特徴とする請求項8に記載の情報処理装置である。
請求項10に係る発明は、前記プロセッサは、更に、複数の前記部分領域判定処理の設定状況を表示する、ことを特徴とする請求項8に記載の情報処理装置である。
請求項11に係る発明は、コンピュータに、文書の分類を定義する定義データを登録する場合に、前記定義データを作成するためのデータである、文書を表す文書データを受け付けさせ、前記文書データと、既に登録されている他の定義データの他の文書データとが類似する場合、警告を出力させる、プログラムである。
請求項1,11に係る発明によれば、文書を種類毎に分類するためのデータである定義データを登録する場合において、定義データを作成するためのデータである、文書を表す文書データが、既に登録されている他の定義データの他の文書データと類似している場合、当該文書データと当該他の文書データとが類似している旨をユーザに知らせない場合と比べて、文書分類の精度が高い定義データを登録することができる。
請求項2に係る発明によれば、類似度が閾値以上となる他の文書データが既に登録されていることをユーザに知らせない場合と比べて、文書分類の精度が高い定義データを登録することができる。
請求項3に係る発明によれば、他の文書中の領域と区別が可能な領域をユーザに案内することができる。
請求項4に係る発明によれば、複数の、他の文書データ中の領域と区別が可能な領域の組み合わせをユーザに案内することができる。
請求項5に係る発明によれば、文字が記入されることが想定されない領域を、他の文書データ中の領域と区別が可能な領域として案内することができる。
請求項6に係る発明によれば、文書データに表されている文書と前記他の文書データに表されている他の文書とを並べて、ユーザに案内される領域を当該文書と当該他の文書上に重ねて表示しない場合と比べて、ユーザが領域を確認し易くすることができる。
請求項7に係る発明によれば、他の文書データに表されている他の文書中の領域と区別が可能な領域が、文書データに表されている文書から抽出されない場合、文字認識処理によって当該文書データと当該他の文書データとを区別することをユーザに案内することができる。
請求項8に係る発明によれば、文書データの部分的な領域に基づいて、当該文書データと当該他の文書データとを区別する処理である部分領域判定処理の複数をユーザに案内することができる。
請求項9に係る発明によれば、部分領域判定処理の各々を定義する指示部を、同一画面に表示しない場合と比べて、ユーザが複数の部分領域判定処理から、所望の部分領域判定処理を定義し易くすることができる。
請求項10に係る発明によれば、部分領域判定処理の設定状況を表示しない場合と比べて、ユーザが部分領域判定処理の設定状況を把握し易くすることができる。
本実施形態に係る情報処理装置のハードウェアの構成を示すブロック図である。 本実施形態に係る情報処理装置による処理を示すフローチャートである。 本実施形態に係る情報処理装置による処理を示すフローチャートである。 登録画面を示す図である。 登録画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 パッチ定義画面を示す図である。 文字認識結果定義画面を示す図である。 コード認識結果定義画面を示す図である。
図1を参照して、本実施形態に係る情報処理装置のハードウェアの構成について説明する。図1には、本実施形態に係る情報処理装置10のハードウェアの構成の一例が示されている。
情報処理装置10は、定義データの登録や作成のために用いられる装置であり、例えば、デスクトップ型又はノート型のパーソナルコンピュータ、ワークステーション、タブレット端末、スマートフォン、スキャナ、複合機(例えばスキャナとプリンタとを含む装置)、又は、デジタルカメラ等である。
定義データは、文書を種類毎に分類するためのデータであって、文書の分類を定義するデータである。文書の種類毎に定義された定義データが作成されて登録される。例えば、定義データは、文書を表すデータである文書データと文書を分類する処理に関する情報とが紐付けられたデータである。文書を分類する処理は、例えば、分類対象の文書を表す文書データから当該文書を分類するために用いられる情報(例えば当該文書の特徴を示す情報)を抽出し、その抽出された情報と、定義データに含まれる文書データから同じく抽出される情報とを比較し、その比較結果に基づいて、分類対象の文書を分類する処理である。文書を分類する処理として、例えば、閾値判定処理、パッチ処理、文字認識処理、又は、コード処理等を用いる処理が挙げられる。これらの処理については後で詳しく説明する。文書の特徴は、例えば、文書中の各項目の内容や、各項目のレイアウト(例えば文書中の各項目の位置)や、文書に記載されている文字や記号や画像や図形等である。
例えば、分類対象の文書の特徴と、ある文書(例えば文書A)の定義データから抽出された特徴との間の類似度が閾値以上である場合、分類対象の文書は文書Aに分類される。もちろん、類似度以外の値が用いられてもよい。
定義データの登録とは、当該定義データを文書の分類に用いられるデータとして記憶することである。定義データは、情報処理装置10に登録されてもよいし、情報処理装置10以外の装置に登録されてもよい。
例えば、情報処理装置10は、定義データを作成するためのデータである文書データを受け付け、当該文書データと、既に登録されている他の定義データの他の文書データとが類似している場合に、警告を出力する。他の文書データは、他の定義データの作成に用いられた文書データである。
文書データの種類や形式は特に限定されない。文書データの概念には、例えば、文書を表す画像データ、テキストデータ、ワードプロセッサソフトウェアによって作成されたドキュメントデータ、表計算ソフトウェアによって作成されたスプレッドシートデータ、及び、ウェブブラウザによって表示されるデータ等が含まれる。
図1に示すように、情報処理装置10は、例えば、通信装置12と、UI14と、メモリ16と、プロセッサ18とを含む。情報処理装置10は、これら以外の構成を含んでもよい。
通信装置12は、通信チップ等を有する通信インターフェース(例えばネットワークインターフェース等)であり、他の装置にデータを送信する機能、及び、他の装置から送信されてきたデータを受信する機能を有する。
UI14はユーザインターフェースであり、表示装置及び操作装置の中の少なくとも1つを含む。表示装置は、液晶ディスプレイやELディスプレイ等である。操作装置は、キーボードや入力キーや操作パネル等である。UI14は、表示装置と操作装置とを兼ね備えたタッチパネル等のUIであってもよい。
メモリ16は、データを記憶する1又は複数の記憶領域を構成する装置である。メモリ16は、例えば、ハードディスクドライブ、各種のメモリ(例えばRAMやDRAMやROM等)、その他の記憶装置(例えば光ディスク等)、又は、それらの組み合わせである。メモリ16には、各文書の定義データが記憶されてもよい。もちろん、情報処理装置10以外の装置に、各文書の定義データが記憶されてもよい。
プロセッサ18は、情報処理装置10の各部の動作を制御するように構成されている。プロセッサ18は、メモリを含んでもよい。例えば、プロセッサ18は、定義データの登録の対象となる文書データを受け付け、当該文書データと、既に登録されている他の定義データの他の文書データとが類似している場合に、警告を出力するように構成されている。例えば、プロセッサ18は、警告を示す情報(例えばメッセージ等)をUI14の表示装置に表示させる。
以下、図2を参照して、情報処理装置10による処理の一例について説明する。図2には、当該処理を示すフローチャートが示されている。
まず、プロセッサ18は、定義データの登録の対象となる文書データ(以下、「登録対象の文書データ」と称する)を受け付け、登録対象の文書データの特徴量を算出する(S01)。例えば、公知技術を用いることで特徴量が算出される。プロセッサ18は、例えば、登録対象の文書データに表されている文書中の各項目の内容や、各項目のレイアウトや、文書に記載されている文字や記号や画像や図形等に基づいて、当該文書データの特徴量を算出してもよい。
次に、プロセッサ18は、登録対象の文書データの特徴量と、既に登録されている他の定義データの他の文書データの特徴量とを比較し、登録対象の文書データと他の文書データとの間の類似度を算出する(S02)。他の文書データの特徴量は予め算出されてもよいし、この段階で算出されてもよい。プロセッサ18は、他の文書データ毎に、登録対象の文書データと他の文書データとの間の類似度を算出する。例えば、公知技術を用いることで類似度が算出される。
次に、プロセッサ18は、閾値判定処理を実行する(S03)。閾値判定処理は、類似度と予め定められた閾値とに基づいて、登録対象の文書データと他の文書データとが類似するか否かを判定する処理である。
登録対象の文書データと他の文書データとの間の類似度が閾値未満である場合、プロセッサ18は、登録対象の文書データと当該他の文書データとは類似していないと判定する。全ての他の文書データについて、登録対象の文書データと他の文書データとの間の類似度が閾値未満である場合(S04,Yes)、処理はステップS09に移行する。
ステップS09では、ユーザが、登録対象の文書データを定義データとして登録するか否かを判定する。ユーザが、登録対象の文書データを定義データとして登録すると判定した場合(S09,Yes)、プロセッサ18は、閾値判定処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データと閾値判定処理に関する情報とが紐付けられたデータを定義データとして登録する。文書を分類する場合、閾値判定処理によって文書が分類される。例えば、分類対象の文書を表す文書データの特徴量が算出され、その特徴量と、当該定義データに含まれる文書データの特徴量とが比較され、その比較結果に基づいて、分類対象の文書が分類される。例えば、両特徴量に基づいて類似度が算出され、類似度が閾値以上となる場合、登録対象の文書は、当該定義データが表す文書に分類される。つまり、分類対象の文書データとの間で類似度が閾値以上となる特徴量が得られる定義データが特定され、分類対象の文書は、その特定された定義データが表す文書に分類される。
ユーザが、登録対象の文書データを定義データとして登録しないと判定した場合(S09,No)、処理はステップS05に移行する。
ステップS04において、登録対象の文書データとの間の類似度が閾値以上となる他の文書データが存在する場合(S04,No)、プロセッサ18は、当該他の文書データが表す文書をUI14の表示装置に表示させる(S05)。このとき、プロセッサ18は、警告を出力する。例えば、プロセッサ18は、警告を示す情報をUI14の表示装置に表示させる。また、ステップS09にて、ユーザが、登録対象の文書データを定義データとして登録しないと判定した場合(S09,No)、プロセッサ18は、他の文書データが表す文書をUI14の表示装置に表示させる。
次に、プロセッサ18は、閾値判定処理に用いられる閾値を更新することで、閾値判定処理によって登録対象の文書データと他の文書データとを区別することができるか否かを判定する(S06)。更新後の閾値は、例えば、経験則に基づいて決定される。具体的には、プロセッサ18は、登録済みの他の文書データと登録対象の文書データとを特徴量の比較のみによって区別することが可能な値を閾値として用いる。閾値が小さ過ぎると、定義データを登録する段階では、登録対象の文書データが、登録済みの他の文書データに類似していないと判定されて定義データとして登録されるが、実際に文書を分類する段階では、定義データを用いて文書を正確に分類できない可能性がある。また、閾値が大きすぎると、文書を分類する段階では、定義データを用いて文書を分類することができるが、定義データを登録する段階では、他の文書データと類似していないと推定される文書データも、他の文書データと類似していると判定されて、定義データとして登録されない可能性がある。したがって、小さ過ぎず大き過ぎない値が閾値として設定される。例えば、文書の分類の段階で調整された値が閾値として用いられてもよい。
プロセッサ18が、閾値を更新することで閾値判定処理によって登録対象の文書データと他の文書データとを区別することができると判定した場合(S06,Yes)、処理はステップS09に移行する。この場合、上述したように、ユーザの判定によって、定義データが登録され、又は、登録されない。
プロセッサ18が、閾値を更新することで閾値判定処理によって登録対象の文書データと他の文書データとを区別することができないと判定した場合(S06,No)、処理はステップS07に移行する。
ステップS07においては、プロセッサ18は、閾値判定処理以外の処理によって登録対象の文書データと他の文書データとを区別する処理をユーザに提示する画面(以下、「改善操作画面」と称する)を、UI14の表示装置に表示させる。閾値判定処理以外の処理は、特徴量の比較以外の処理によって文書を分類する処理であるといえる。閾値判定処理以外の処理は、例えば、パッチ処理、文字認識処理、又は、コード処理である。改善操作画面では、ユーザは、閾値判定処理以外の処理(例えば、パッチ処理、文字認識処理、又は、コード処理)を設定するための操作(以下、「改善操作」と称する)を行うことができる。なお、パッチ処理、文字認識処理、及び、コード処理は、文書データの部分的な領域に基づいて文書データを区別する処理である部分領域判定処理の一例に相当する。このように、部分領域判定処理の複数がユーザに案内される。
パッチ処理は、文書中の特定の領域から抽出される情報(例えば文字や記号や画像や図形や線等)を比較することで文書データを区別する処理である。以下、パッチ処理が適用される特定の領域を「パッチ」と称することとする。文字認識処理は、OCR(Optical Character Recognition)等によって文書から文字を認識し、その認識された文字に基づいて文書データを区別する処理である。コード処理は、文書に記載されたバーコードや二次元コード等のコードを用いて文書データを区別する処理である。例えば、文書の種類を示す情報がコード化されて文書に記載される。したがって、コードは、文書の種類を示す情報を有しており、そのコードを読み取ることで、文書の種類を特定することができる。
例えば、パッチ処理、文書認識処理又はコード処理のいずれかが、文書データを区別する処理として選択され(S08)、プロセッサ18は、その選択された処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データと選択された処理に関する情報とが紐付けられたデータを定義データとして登録する(S09)。その選択は、ユーザによって行われてもよいし、プロセッサ18によって行われてもよい。なお、パッチ処理、文書認識処理及びコード処理の中の少なくとも1つの処理が、文書データを区別する処理として選択されてもよい。
例えば、文書を分類する場合において、パッチ処理に関する情報が紐付けられた定義データが用いられる場合、分類対象の文書において当該定義データに定義されているパッチから情報が抽出され、その抽出された情報と、当該定義データが表す文書中の当該パッチから抽出された情報とが比較され、その比較結果に基づいて、分類対象の文書が分類される。例えば、両情報に基づいて類似度が算出され、類似度が閾値以上となる場合、分類対象の文書は、当該定義データが表す文書に分類される。
文書を分類する場合において、文字認識処理に関する情報が紐付けられた定義データが用いられる場合、分類対象の文書に対する文字認識処理の結果と、当該定義データが表す文書に対する文字認識処理の結果とが比較され、その比較結果に基づいて、分類対象の文書が分類される。例えば、両結果に基づいて類似度が算出され、類似度が閾値以上となる場合、分類対象の文書は、当該定義データが表す文書に分類される。
文書を分類する場合において、コード処理に関する情報が紐付けられた定義データが用いられる場合、分類対象の文書に記載されているコードが読み取られ、その読み取りの結果に従って、分類対象の文書が分類される。
以下、図3を参照して、ステップS07の処理について詳しく説明する。図3には、当該処理を示すフローチャートが示されている。
まず、プロセッサ18は、登録対象の文書データが表す文書中に、バーコードや二次元コード等のコードが記載されているか否かを判定する(S10)。プロセッサ18は、当該文書の全体を対象としてコードを検索してもよいし、当該文書においてユーザによって指定された領域を対象としてコードを検索してもよい。
登録対象の文書中にコードが記載されている場合(S10,Yes)、プロセッサ18は、コード認識結果定義画面をUI14の表示装置に表示させる(S11)。コード認識結果定義画面は、改善操作画面の一例の画面であり、文書を分類するためのコードを設定するための画面である。ユーザは、コード認識結果定義画面にてコードを設定することができる。その設定の操作が、改善操作の一例である。プロセッサ18は、その設定の内容を示す情報を含む定義データ(つまり、登録対象の文書データとコード処理に関する情報とが紐付けられた定義データ)を作成する。
登録対象の文書中にコードが記載されていない場合(S10,No)、プロセッサ18は、登録対象の文書データが表す文書から、パッチ処理に適した領域を推奨領域として抽出する(S12)。推奨領域は、登録済みの他の文書データに表されている他の文書中の領域と区別が可能な領域である。例えば、プロセッサ18は、登録対象の文書中の領域であって、他の文書中の領域から抽出される情報(例えば文字や記号や画像や図形や線等)との差異が閾値以上となる情報が抽出される領域を、推奨領域として抽出する。
推奨領域が抽出された場合(S13,Yes)、プロセッサ18は、パッチ定義画面をUI14の表示装置に表示させる(S14)。パッチ定義画面は、改善操作画面の一例の画面であり、文書を分類する段階でパッチ処理が実行されるパッチを設定するための画面である。ユーザは、パッチ定義画面にて、パッチ処理が実行されるパッチを設定することができる。その設定の操作が、改善操作の一例である。プロセッサ18は、その設定の内容を示す情報を含む定義データ(つまり、登録対象の文書データとパッチ処理に関する情報とが紐付けられた定義データ)を作成する。
推奨領域が抽出されない場合(S13,No)、プロセッサ18は、文字認識結果定義画面をUI14の表示装置に表示させる(S15)。文字認識結果定義画面は、改善操作画面の一例の画面であり、文書を分類する段階で文字認識処理が実行される領域を設定するための画面である。ユーザは、文字認識結果定義画面にて、文字認識処理が実行される領域を設定することができる。その設定の操作が、改善操作の一例である。プロセッサ18は、その設定の内容を示す情報を含む定義データ(つまり、登録対象の文書データと文字認識処理に関する情報とが紐付けられた定義データ)を作成する。
このように、プロセッサ18は、他の文書中の領域と区別が可能な領域(つまり推奨領域)が、登録対象の文書から抽出されない場合、文字認識処理によって登録対象の文書データと他の文書データとを区別することをユーザに案内する。つまり、パッチ処理によって文書を分類することができる場合、パッチ処理がユーザに推奨され、パッチ処理によって文書を分類することができない場合、文字認識処理がユーザに推奨される。例えば、画像の差分がほとんどなく、パッチ処理では文書の分類が困難な場合(例えば、文書に印字されている年度のみが他の文書と異なる場合)、文字認識処理がユーザに推奨される。
文書が複数のページで構成されている場合、プロセッサ18は、ページ毎に、上述したステップS01からステップS15の処理を実行し、ページ毎に定義データを作成する。
以下、具体例を挙げて、情報処理装置10による処理について詳しく説明する。
図4には、登録画面の一例が示されている。登録画面20は、定義データを登録するための画面であり、例えば、上述したステップS05にて表示される画面である。
登録画面20は、登録の対象となる文書が表示される領域である表示領域22と、定義データが登録済みの文書が表示される領域である表示領域24とを含む。表示領域22には、登録の対象となる文書26が表示されている。表示領域24には、登録済みの文書28が表示されている。文書28は、登録対象の文書26との間の類似度が閾値以上となる他の文書である。文書26,28は、例えば帳票である。プロセッサ18は、登録対象の文書26との間の類似度が閾値以上となる他の文書28が存在することを示す情報(例えば警告メッセージ)を登録画面20に表示してもよい。他の文書28を登録画面20に表示すること自体が、警告を出力することであってもよい。
なお、文書26に類似している他の文書(例えば、文書26との間の類似度が閾値以上となる文書)が登録されていない場合、プロセッサ18は、登録済みの文書を表示しなくてもよいし、文書26に最も類似している他の文書(例えば、文書26との間の類似度が閾値未満であるが、類似度が最も高い文書)を表示してもよい。
また、登録画面20には、閾値判定処理に用いられる閾値の自動更新を指示するためのボタン30と、符号32が指し示すように、その閾値に関する情報とが表示されている。例えば、文書26を表す文書データから算出された特徴量(例えば0.7)と、文書26と文書28との間の類似度(例えば0.1)とが、閾値に関する情報として表示されている。ボタン30が押されると、上述したステップS06の処理が実行される。
また、登録画面20には、ボタン34,36,38が表示されている。ボタン34が押されると、パッチ定義画面が表示される。ボタン36が押されると、文字認識結果定義画面が表示される。ボタン38が押されると、コード認識結果定義画面が表示される。なお、ボタン34,36,38が、部分領域判定処理の各々を定義する指示部の一例に相当する。このように、ボタン34,36,38は、同一画面に表示される。
また、登録画面20には、符号40が指し示すように、パッチ処理の設定の状況、文字認識処理の設定の状況、及び、コード処理の設定の状況が示されている。このように、部分領域判定処理の設定の状況が表示される。
また、登録画面20には、符号42が指し示すように、リスク情報が表示されてもよい。リスク情報は、文書26の定義データを用いて文書を分類する際に発生し得るリスクを示す情報である。リスク情報は、例えば、文書の分類の精度に関する情報である。登録画面20にはボタン44が表示されており、ボタン44が押されると、プロセッサ18は、リスクが算出し、リスク情報を登録画面20に表示する。
また、登録画面20には、ボタン46,48が表示されている。ボタン46は、定義データの登録を指示するためのボタンである。ボタン46が押されると、設定された内容を含む定義データが登録される。ボタン48は、定義データの登録のキャンセルを指示するためのボタンである。ボタン48が押されると、定義データは作成されず処理が終了する。
また、文書が複数のページで構成されている場合、プロセッサ18は、ページ毎に、ページ間の類似度が閾値以上か否かを判定し、類似度が閾値以上となるページを登録画面20に表示する。その表示例が図5に示されている。登録済みの文書28の1ページ28aと登録対象の文書26との間の類似度が閾値以上となっており、文書28の3ページ28bと文書26との間の類似度が閾値以上となっているため、1ページ28aと3ページ28bが、セパレータ等によって区別されて表示領域24に並べて表示されている。ユーザが、登録画面20上で、登録済みのページを選択すると、その選択されたページと文書26との間の類似度が、閾値に関する情報として表示される。図5に示す例では、1ページ28aがユーザによって選択されており、1ページ28aと文書26との間の類似度が、閾値に関する情報として表示される。
閾値を更新して閾値判定処理によって登録対象の文書データと他の文書データとを区別することができる場合、プロセッサ18は、閾値判定処理に用いられる閾値の自動更新を指示するためのボタン30を活性化させる。閾値を更新して閾値判定処理によって登録対象の文書データと他の文書データとを区別することができない場合、プロセッサ18は、ボタン30を活性化させない。ボタンを活性化させることは、ユーザがボタンを押して指示を与えることができる状態にすることであり、ボタンを活性化させないことは、ユーザがボタンを押して指示を与えることができる状態にしないことである。ボタン30が活性化されると、ユーザはボタン30を押して、閾値の自動更新を指示することができる。例えば、活性化されていないボタンは、グレーアウトで表示される。図4に示す例では、閾値判定処理によって文書26と文書28とを区別することができると判定されているため、ボタン30が活性化されている。
なお、ボタンが活性化されていない場合であっても、活性化されていないボタンをユーザが押すことができる状態にし、プロセッサ18は、そのボタンが押されたことによって与えられる指示を受け付けない、又は、その指示を無効にしてもよい。
また、閾値を更新して閾値判定処理によって登録対象の文書データと他の文書データとを区別することができない場合、プロセッサ18は、改善操作画面を表示するためのボタンを活性化させる。具体的には、プロセッサ18は、パッチ定義画面を表示するためのボタン34、文字認識結果定義画面を表示するためのボタン36、及び、コード認識結果定義画面を表示するためのボタン38を活性化させる。プロセッサ18は、改善操作の内容をポップアップ等の表示形態によって登録画面20に表示してもよい。
プロセッサ18は、推奨される改善操作の設定を行うための改善操作画面を表示するためのボタンのみを活性化させてもよい。例えば、プロセッサ18は、登録対象の文書中にコードが記載されている場合、ボタン38のみを活性化させ、登録対象の文書中にコードが記載されておらず、パッチ処理に適した推奨領域が抽出された場合、ボタン34のみを活性化させ、登録対象の文書中にコードが記載されておらず、推奨領域が抽出されない場合、ボタン36のみを活性化させる。
改善操作画面上にて改善操作が行われて改善操作が完了した場合、プロセッサ18は、リスクを算出するためのボタン44を活性化させてもよい。ボタン44が押されると、プロセッサ18は、改善操作画面上にて設定された内容を含む定義データを用いて文書を分類する際のリスクを算出し、そのリスクを示すリスク情報を登録画面20に表示する。プロセッサ18は、算出されたリスクが許容範囲内のリスクに該当する場合、定義データを登録するためのボタン46を活性化させ、算出されたリスクが許容範囲内のリスクに該当しない場合、ボタン46を活性化させなくてもよい。ボタン46が押されると、文書26の定義データが登録される。
閾値を更新して閾値判定処理によって登録対象の文書データと他の文書データとを区別することができる場合についても同様である。つまり、その場合、プロセッサ18は、リスクを算出するためのボタン44を活性化させ、閾値判定処理によって文書を分類する際のリスクを算出し、そのリスクを示すリスク情報を登録画面20に表示する。算出されたリスクが許容範囲内のリスクに該当する場合、プロセッサ18は、定義データを登録するためのボタン46を活性化させる。
閾値判定処理によって登録対象の文書データと他の文書データとを区別することができる場合において、登録のためのボタン46が押された場合、プロセッサ18は、閾値判定処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データと閾値判定処理に関する情報とが紐付けられたデータを定義データとして登録する。
パッチ処理が設定された場合において、登録のためのボタン46が押された場合、プロセッサ18は、パッチ処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データとパッチ処理に関する情報とが紐付けられたデータを定義データとして登録する。
文字認識処理が設定された場合において、登録のためのボタン46が押された場合、プロセッサ18は、文字認識処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データと文字認識処理に関する情報とが紐付けられたデータを定義データとして登録する。
コード処理が設定された場合において、登録のためのボタン46が押された場合、プロセッサ18は、コード処理に関する情報を、文書を分類する処理に関する情報として、登録対象の文書データに紐付けて、登録対象の文書データとコード処理に関する情報とが紐付けられたデータを定義データとして登録する。
以下、パッチ処理について説明する。図6には、パッチ定義画面の一例が示されている。
パッチ定義画面50は、登録の対象となる文書が表示される領域である表示領域52と、定義データが登録済みの文書が表示される領域である表示領域54とを含む。表示領域52には、登録の対象となる文書26が表示されている。表示領域54には、登録済みの文書28が表示されている。文書28は、登録対象の文書26との間の類似度が閾値以上となる他の文書である。
パッチ定義画面50には、パッチ処理に適した推奨領域の一覧56が表示されている。例えば、一覧56には、文書26中における各推奨領域の座標が示されている。例えば、プロセッサ18は、文書26を表す文書データと文書28を表す文書データとを対象として、予め定められた大きさ及び形状を有するスキャン領域をスキャンし、文書26中のスキャン領域から抽出される情報と文書28中のスキャン領域から抽出される情報とが類似しないスキャン領域を探索する。より詳しく説明すると、プロセッサ18は、文書26を表す文書データと文書28を表す文書データとにおいて、スキャン領域の位置を予め定められた位置間隔毎に変えながら、各位置におけるスキャン領域から情報(例えば文字や記号や画像や図形や線等)を抽出する。そして、プロセッサ18は、位置毎に、文書26中のスキャン領域から抽出された情報と文書28中のスキャン領域から抽出された情報とを比較し、これらの情報が互いに類似しないスキャン領域(例えば、文書26と文書28のそれぞれから抽出された情報の差異が閾値以上となるスキャン領域)を探索する。プロセッサ18は、そのスキャン領域を推奨領域として特定する。分類対象の文書を分類する場合に、そのような推奨領域を用いてパッチ処理を行うことで、推奨領域以外の領域を用いてパッチ処理を行う場合と比べて、分類対象の文書を正確に分類することができる。
また、パッチ定義画面50には、パッチ処理が実行される領域をユーザが手動で設定するためのボタン58が表示されている。パッチ処理が実行される領域がユーザによって設定されると、符号60が指し示すように、その領域に関する情報が表示される。
また、登録画面20と同様に、リスク情報及びボタン44,46,48が、パッチ定義画面50に表示されている。
パッチ定義画面50上にて文書がユーザによって選択されると、その選択された文書に関する推奨領域の一覧56が、パッチ定義画面50に表示される。例えば、図7に示すように、パッチ定義画面50上にて文書26がユーザによって選択されると、文書26に関する推奨領域の一覧56が、パッチ定義画面50に表示される。また、プロセッサ18は、各推奨領域を表すマークを文書26に重ねて表示する。例えば、マーク62,64,66が、文書26に重ねて表示されている。マーク62は、推奨領域の第1候補を表すマークであり、マーク64は、推奨領域の第2候補を表すマークであり、マーク66は、推奨領域の第3候補を表すマークである。マーク62は、文書26上において推奨領域の第1候補の位置に表示される。マーク64,66についても同様である。
プロセッサ18は、ユーザの指示に従って、マーク62,64,66を文書28に重ねて表示してもよい。例えば、プロセッサ18は、ユーザが表示を指示した場合、マーク62,64,66を表示し、ユーザが非表示を指示した場合、マーク62,64,66を表示しなくてもよい。
プロセッサ18は、各推奨領域に対応する領域を表すマークを文書28に重ねて表示してもよい。例えば、プロセッサ18は、推奨領域の第1候補に対応する領域を表すマーク63を、文書28上において、当該第1候補の位置と相対的に同じ位置に表示する。同様に、第2候補に対応する領域を表すマーク65が、文書28上において、当該第2候補の位置と相対的に同じ位置に表示され、第3候補に対応する領域を表すマーク67が、文書28上において、当該第3候補の位置と相対的に同じ位置に表示される。
プロセッサ18は、ユーザの指示に従って、マーク63,65,67を文書28に重ねて表示してもよい。例えば、プロセッサ18は、ユーザが表示を指示した場合、マーク63,65,67を表示し、ユーザが非表示を指示した場合、マーク63,65,67を表示しなくてもよい。
以上のように、プロセッサ18は、閾値判定処理によって登録対象の文書26と他の文書28とが類似すると判定された場合、他の文書28中のスキャン領域と区別が可能なスキャン領域を推奨領域として特定し、その推奨領域をパッチ定義画面50に表示することで、その推奨領域をユーザに案内する。
また、表示領域52,54の大きさが変更されてもよい。例えば、表示領域52と表示領域54との間に、表示領域を拡大又は縮小するためのボタン68,70が表示されている。ボタン68が押されると、プロセッサ18は、パッチ定義画面50に表示領域54を形成せずに表示領域52を拡大し、文書28を表示せずに文書26を表示する。ボタン70が押されると、プロセッサ18は、パッチ定義画面50に表示領域52を形成せずに表示領域54を拡大し、文書26を表示せずに文書28を表示する。図8には、拡大された表示領域52が示されている。この状態でボタン70が押されると、図7に示すように、表示領域52,54がパッチ定義画面50に形成される。
また、推奨領域の一覧56の中から推奨領域の候補がユーザによって選択されると、プロセッサ18は、その選択された候補を表すマークを文書26上にて活性化させる。マークを活性化させることは、選択されていないマークと区別が可能な程度に表示することであり、例えば、マーク内を塗り潰すことや、マークを形成する線を太くすることや、マークを形成する線を、選択されていないマークの線と異なる線に設定すること等である。
図9に示す例では、推奨領域の第1候補がユーザによって選択されており、その第1候補を表すマーク62が活性化されている。
第1候補が選択された状態で、登録のためのボタン46が押されると、プロセッサ18は、第1候補をパッチとして定義データに定義する。例えば、プロセッサ18は、文書26における第1候補の座標を示す情報を、パッチの座標を示す情報として、文書26の定義データに含める。このように、パッチである第1候補が定義された定義データが作成されて登録される。分類対象の文書が分類される場合において当該定義データが用いられる場合、パッチである第1候補が分類対象の文書に設定され、分類対象の文書中の第1候補から情報が抽出され、その抽出された情報と、当該定義データが表す文書26の当該第1候補から抽出された情報とが比較され、その比較結果に基づいて、分類対象の文書が分類される。
選択された推奨領域を用いて文書を分類するときに発生し得るリスクが算出され、そのリスクを示すリスク情報が表示されてもよい。例えば、登録対象の文書26中の第1候補から抽出された情報と、他の文書28中の第1候補から抽出された情報との間の類似度等が、リスク情報として表示されてもよい。
また、プロセッサ18は、複数の推奨領域の組み合わせをユーザに案内してもよい。上述の例では、プロセッサ18は、例えば、第1候補と第2候補との組み合わせを定義データに設定することをユーザに案内してもよい。また、1つの推奨領域のみでは文書26と文書28とを区別することができない場合(例えば、文書26と文書28のそれぞれの当該推奨領域から抽出される情報の差分が閾値未満となる場合)、プロセッサ18は、複数の推奨領域の組み合わせをユーザに案内してもよい。例えば、複数の推奨領域の組み合わせを用いることで文書26と文書28とを区別することができる場合、プロセッサ18は、当該複数の推奨領域の組み合わせをユーザに案内してもよい。例えば、プロセッサ18は、当該複数の推奨領域の組み合わせを示す情報をパッチ定義画面50に表示してもよいし、当該複数の推奨領域を強調して表示してもよい。
また、ユーザに案内される推奨領域は、文字や記号や線等が記入されることが想定されない領域であってもよい。例えば、予め文字や記号や図形や線等が既に記入されている領域(例えば印字済みの領域等)は、文字等が記入される可能性が低いため、そのような領域が、推奨領域として案内されてもよい。文字等が記入されることが想定される領域が推奨領域として定義データに定義されると、分類対象の文書中の当該推奨領域に文字等が記入された場合、当該推奨領域を用いて分類対象の文書を正確に分類できないことがある。文字等が記入されることが想定されない領域を推奨領域として定義データに定義することで、そのような誤判定が防止される。
推奨領域の抽出件数がユーザによって指定されてもよい。例えば、図10に示すように、パッチ定義画面50には、抽出件数を指定する設定欄72が表示されている。プロセッサ18は、設定欄72にて設定された数の推奨領域を探索し、探索された推奨領域を一覧56に含める。図10に示す例では、プルダウン方式によって抽出件数が表示されて抽出件数が指定されるが、ユーザが任意の数を抽出件数として指定してもよい。
また、パッチを手動で設定するためのボタン58が押されると、図11に示すように、プロセッサ18は、予め定められた大きさ及び形状を有する領域を表すマーク74を、文書26に重ねて表示する。ユーザは、パッチ定義画面50上にてマーク74を移動させたり、マーク74の形状を変えたりすることができる。マーク74が表す領域の座標が、符号60が指し示すように表示される。
ユーザによって指定された領域を定義データに定義する領域として選択された場合、ユーザによって指定された領域の座標を示す情報を含む定義データが作成されて登録される。
パッチ定義画面50にてパッチが設定されて、登録のボタン46が押されると、画面は、パッチ定義画面50から登録画面20に戻る。図12には、その登録画面20が示されている。パッチが設定されたため、符号40が指し示すように、パッチ処理の設定の状況が、「未設定」から「設定済み」に変更されている。また、設定されたパッチの座標や、パッチから抽出される情報(例えば、文字や記号や線等)の特徴が、リスク情報として表示されてもよい。
例えば、上述した第1候補がパッチとして設定されている。この場合、プロセッサ18は、当該第1候補を表すマーク62を文書26に重ねて表示する。また、プロセッサ18は、当該第1候補に対応する領域を表すマーク63を他の文書28に重ねて表示してもよい。マーク63は、文書28において文書26中の第1候補の位置と相対的に同じ位置に表示される。
なお、プロセッサ18は、文書28の定義データに定義されているパッチを表すマークを、文書28に重ねて表示してもよい。
以下、文字認識処理について説明する。図13には、文字認識結果定義画面の一例が示されている。
文字認識結果定義画面76には、登録対象の文書26が表示されている。また、文字認識結果定義画面76には、文字認識処理が実行される領域(以下、「文字認識定義領域」と称する)の設定を指示するためのボタン78が表示されている。ボタン78が押されると、プロセッサ18は、文字認識定義領域を表すマーク80を文書26に重ねて表示する。ユーザは、マーク80の位置、大きさ及び形状を変えることで、文字認識定義領域の位置、大きさ及び形状を変えることができる。符号82が指し示すように、文書26における文字認識定義領域の相対的な位置(例えば、文書26中の文字認識定義領域の座標)が表示される。また、その文字認識定義領域に対する文字認識処理によって文字が認識された場合、文字が認識されたことを示す情報(例えば「OK」)と、その認識の結果(例えば、「平成27年度」)が表示される。
また、文書を分類するときに文字認識処理を実行することによって発生し得るリスクを示すリスク情報が表示されてもよい。一般的に、文字認識処理の対象となる文字の数が多いほど、文書をより正確に分類することができるため、その旨を示すリスク情報が表示されてもよい。例えば、「文字認識の判定の閾値を5文字以上に設定」や、「認識結果の文字列が10文字以上になる箇所を文字認識定義領域として定義すると、文書の分類の精度が向上します」等といった情報が、リスク情報として表示されてもよい。なお、符号82が指し示すように判定の結果が表示されるため、リスク情報は表示されなくてもよいし、判定の結果が表示されず、リスク情報が表示されてもよい。
文字認識定義領域が設定された状態で、登録のためのボタン46が押されると、プロセッサ18は、当該文字認識定義領域を定義データに定義する。例えば、プロセッサ18は、文書26における当該文字認識定義領域の座標を示す情報を、文書26の定義データに含める。このように、文字認識定義領域が定義された定義データが作成されて登録される。また、登録画面20において、文字認識処理の設定の状況が、「未設定」から「設定済み」に変更される。分類対象の文書が分類される場合において当該定義データが用いられる場合、文字認識定義領域が分類対象の文書に設定され、分類対象の文書中の文字認識定義領域から文字が認識され、その認識された文字と、当該定義データが表す文書26の当該文字認識定義領域から認識された文字とが比較され、その比較結果に基づいて、分類対象の文書が分類される。
以下、コード処理について説明する。図14には、コード認識結果定義画面の一例が示されている。
コード認識結果定義画面84には、登録対象の文書26が表示されている。また、コード認識結果定義画面84には、バーコードや二次元コードが読み取られる領域(以下、「コード定義領域」と称する)の設定を指示するためのボタン86が表示されている。ボタン86が押されると、プロセッサ18は、コード定義領域を表すマーク88を文書26に重ねて表示する。ユーザは、マーク88の位置、大きさ及び形状を変えることで、コード定義領域の位置、大きさ及び形状を変えることができる。符号90が指し示すように、文書26におけるコード定義領域の相対的な位置(例えば、文書26中のコード定義領域の座標)が表示される。また、そのコード定義領域に対する読取処理によってコードが読み取られた場合、コードが読み取られたことを示す情報(例えば「OK」)と、読み取られたコードのタイプ(例えば、「二次元コード」等)と、その読み取りの結果が表示される。
また、文書を分類するときにコード処理を実行することによって発生し得るリスクを示すリスク情報が表示されてもよい。例えば、誤り訂正レベルや推奨のレベル等が、リスク情報として表示されてもよい。
コード定義領域が設定された状態で、登録のためのボタン46が押されると、プロセッサ18は、当該コード定義領域を定義データに定義する。例えば、プロセッサ18は、文書26における当該コード定義領域の座標を示す情報を、文書26の定義データに含める。このように、コード定義領域が定義された定義データが作成されて登録される。分類対象の文書が分類される場合において当該定義データが用いられる場合、コード定義領域が分類対象の文書に設定され、分類対象の文書中のコード定義領域からコードが読み取られ、その読み取りの結果に基づいて、分類対象の文書が分類される。コードは、文書の種類を示す情報を有しており、そのコードを読み取ることで、文書の種類を特定して、文書を分類することができる。
以上のようにして分類された文書に対して、その分類に応じた文字認識処理を実行することで当該文書から文字を認識したり、その認識の結果を訂正する処理を実行したりしてもよい。もちろん、これらの処理は実行されなくてもよい。
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU: Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
10 情報処理装置、16 メモリ、18 プロセッサ。

Claims (11)

  1. プロセッサを有し、
    前記プロセッサは、
    文書の分類を定義する定義データを登録する場合に、前記定義データを作成するためのデータである、文書を表す文書データを受け付け、
    前記文書データと、既に登録されている他の定義データの他の文書データとが類似している場合、警告を出力する、
    情報処理装置。
  2. 前記プロセッサは、
    前記文書データの特徴量と前記他の文書データの特徴量とに基づく類似度が閾値以上である場合、警告を出力する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記プロセッサは、更に、
    特徴量に基づいて前記文書データと前記他の文書データとが類似すると判断された場合、前記文書データに表されている文書中の領域であって、前記他の文書データに表されている他の文書中の領域と区別が可能な領域を、ユーザに案内する、
    ことを特徴とする請求項1又は請求項2に記載の情報処理装置。
  4. 前記プロセッサは、
    複数の領域の組み合わせをユーザに案内する、
    ことを特徴とする請求項3に記載の情報処理装置。
  5. ユーザに案内される領域は、文字が記入されることが想定されない領域である、
    ことを特徴とする請求項3又は請求項4に記載の情報処理装置。
  6. 前記プロセッサは、更に、
    前記文書データに表されている文書と前記他の文書データに表されている他の文書とを並べて表示装置に表示させ、
    ユーザに案内される領域を前記文書上に重ねて前記表示装置に表示させ、
    ユーザに案内される領域に対応する領域を前記他の文書上に重ねて前記表示装置に表示させる、
    ことを特徴とする請求項3から請求項5のいずれか一項に記載の情報処理装置。
  7. 前記プロセッサは、更に、
    前記他の文書データに表されている他の文書中の領域と区別が可能な領域が、前記文書データに表されている文書から抽出されない場合、文字認識処理によって前記文書データと前記他の文書データとを区別することをユーザに案内する、
    ことを特徴とする請求項3から請求項6のいずれか一項に記載の情報処理装置。
  8. 前記プロセッサは、更に、
    前記文書データの部分的な領域に基づいて、前記文書データと前記他の文書データとを区別する処理である部分領域判定処理の複数をユーザに案内する、
    ことを特徴とする請求項1又は請求項2に記載の情報処理装置。
  9. 前記プロセッサは、更に、
    前記部分領域判定処理の各々を定義する指示部を、同一画面に表示する、
    ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記プロセッサは、更に、
    複数の前記部分領域判定処理の設定状況を表示する、
    ことを特徴とする請求項8に記載の情報処理装置。
  11. コンピュータに、
    文書の分類を定義する定義データを登録する場合に、前記定義データを作成するためのデータである、文書を表す文書データを受け付けさせ、
    前記文書データと、既に登録されている他の定義データの他の文書データとが類似する場合、警告を出力させる、
    プログラム。
JP2020033759A 2020-02-28 2020-02-28 情報処理装置及びプログラム Active JP7400543B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020033759A JP7400543B2 (ja) 2020-02-28 2020-02-28 情報処理装置及びプログラム
US16/919,055 US11354496B2 (en) 2020-02-28 2020-07-01 Information processing apparatus and non-transitory computer readable medium storing program
CN202010771263.8A CN113326370A (zh) 2020-02-28 2020-08-04 信息处理装置、存储介质及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020033759A JP7400543B2 (ja) 2020-02-28 2020-02-28 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021135929A JP2021135929A (ja) 2021-09-13
JP7400543B2 true JP7400543B2 (ja) 2023-12-19

Family

ID=77413051

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033759A Active JP7400543B2 (ja) 2020-02-28 2020-02-28 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11354496B2 (ja)
JP (1) JP7400543B2 (ja)
CN (1) CN113326370A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP2010218010A (ja) 2009-03-13 2010-09-30 Toshiba Corp 文書分類装置およびプログラム
JP2013182459A (ja) 2012-03-02 2013-09-12 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
JP2014063507A (ja) 2013-11-14 2014-04-10 Oki Electric Ind Co Ltd 帳票処理システム、サーバ、プログラムおよび帳票処理方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6237011B1 (en) * 1997-10-08 2001-05-22 Caere Corporation Computer-based document management system
AU1365699A (en) * 1997-10-27 1999-05-17 Imagen Incorporated Image search and retrieval system
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US6324555B1 (en) * 1998-08-31 2001-11-27 Adobe Systems Incorporated Comparing contents of electronic documents
JP3851742B2 (ja) 1999-03-31 2006-11-29 株式会社東芝 帳票処理方法及び装置
US6658151B2 (en) * 1999-04-08 2003-12-02 Ricoh Co., Ltd. Extracting information from symbolically compressed document images
US6981225B1 (en) * 2000-01-31 2005-12-27 Intel Corporation Indicating the differences between Internet web pages
US20020103834A1 (en) * 2000-06-27 2002-08-01 Thompson James C. Method and apparatus for analyzing documents in electronic form
US6976170B1 (en) * 2001-10-15 2005-12-13 Kelly Adam V Method for detecting plagiarism
US7707157B1 (en) * 2004-03-25 2010-04-27 Google Inc. Document near-duplicate detection
JP5110793B2 (ja) 2005-12-28 2012-12-26 日立コンピュータ機器株式会社 帳票識別装置
US20070294610A1 (en) * 2006-06-02 2007-12-20 Ching Phillip W System and method for identifying similar portions in documents
US8015162B2 (en) * 2006-08-04 2011-09-06 Google Inc. Detecting duplicate and near-duplicate files
JP2008250817A (ja) 2007-03-30 2008-10-16 Oki Electric Ind Co Ltd 帳票自動識別装置
US7908279B1 (en) * 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US8750624B2 (en) * 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
GB2529774A (en) * 2013-04-15 2016-03-02 Contextual Systems Pty Ltd Methods and systems for improved document comparison

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010146222A (ja) 2008-12-18 2010-07-01 Hitachi Ltd 文書分類装置、文書分類方法およびプログラム
JP2010218010A (ja) 2009-03-13 2010-09-30 Toshiba Corp 文書分類装置およびプログラム
JP2013182459A (ja) 2012-03-02 2013-09-12 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
JP2014063507A (ja) 2013-11-14 2014-04-10 Oki Electric Ind Co Ltd 帳票処理システム、サーバ、プログラムおよび帳票処理方法

Also Published As

Publication number Publication date
CN113326370A (zh) 2021-08-31
US20210271808A1 (en) 2021-09-02
JP2021135929A (ja) 2021-09-13
US11354496B2 (en) 2022-06-07

Similar Documents

Publication Publication Date Title
US10360473B2 (en) User interface creation from screenshots
US20160171627A1 (en) Processing electronic documents for invoice recognition
US20220245958A1 (en) Document structure identification using post-processing error correction
US20170323170A1 (en) Method and system for data extraction from images of semi-structured documents
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP2021043775A (ja) 情報処理装置及びプログラム
JP2018025885A (ja) 画像処理装置
JP7400543B2 (ja) 情報処理装置及びプログラム
US11100318B2 (en) Information processing apparatus and non-transitory computer readable medium
JP5623574B2 (ja) 帳票識別装置および帳票識別方法
US20230244358A1 (en) Information processing apparatus and non-transitory computer readable storage medium storing information processing program
US10706337B2 (en) Character recognition device, character recognition method, and recording medium
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
US10706581B2 (en) Image processing apparatus for clipping and sorting images from read image according to cards and control method therefor
US11508139B2 (en) Information processing apparatus and non-transitory computer readable medium
US20200192610A1 (en) Computer-readable storage medium storing a program and input format setting method
JP2021018520A (ja) 情報処理装置、情報処理方法及びプログラム
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
US20220198190A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7380319B2 (ja) 情報処理装置及びプログラム
CN110909723B (zh) 信息处理装置及计算机可读存储介质
US20210264099A1 (en) Information processing device and computer readable medium
US11782990B2 (en) Document processing apparatus and non-transitory computer readable medium
US11158058B2 (en) Information processing apparatus and non-transitory computer readable medium for processing images of punched holes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231025

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231120

R150 Certificate of patent or registration of utility model

Ref document number: 7400543

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150