JP2022139564A - Information processing device, information processing device control method, and program - Google Patents
Information processing device, information processing device control method, and program Download PDFInfo
- Publication number
- JP2022139564A JP2022139564A JP2021040008A JP2021040008A JP2022139564A JP 2022139564 A JP2022139564 A JP 2022139564A JP 2021040008 A JP2021040008 A JP 2021040008A JP 2021040008 A JP2021040008 A JP 2021040008A JP 2022139564 A JP2022139564 A JP 2022139564A
- Authority
- JP
- Japan
- Prior art keywords
- scanned document
- information processing
- character string
- information
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理装置の制御方法およびプログラムに関する。 The present invention relates to an information processing device, a control method for an information processing device, and a program.
従来、スキャンや撮影された画像から、光学文字認識(OCR)を用いて、文字列を抽出する技術が知られている。このような技術を用いた例としては、スキャン文書を注文書や、請求書などの帳票種別に区別して、帳票種別ごとに必要な業務データをOCR処理の認識結果文字列から入力するアプリケーション等がある。その際に、スキャン文書から抽出した認識結果文字列をメタデータとして保存、管理して、業務データとして使用するユースケースがある。
OCRエンジンでの画像認識では、スキャン文書の画質、帳票の種類が様々であるため、帳票種別判定の精度、OCR文字認識精度ともに100%とすることは困難である。そこで、スキャン文書ごとに認識の確からしさを示す確信度という値を代わりに算出し、この確信度を効果的に活用して、スキャンジョブの処理操作をユーザーに代わって、一部あるいは全部を自動化することができれば、業務効率の向上が望める。
特許文献1には、文書ごとの特徴量を用いて、データをフォルダーに振り分けする処理の精度を向上させる技術が開示されている。
2. Description of the Related Art Conventionally, a technique for extracting character strings from scanned or photographed images using optical character recognition (OCR) is known. As an example of using such a technology, there is an application that distinguishes scanned documents by form type such as an order form or an invoice, and inputs the necessary business data for each form type from the recognition result character string of OCR processing. be. At that time, there is a use case in which the recognition result character string extracted from the scanned document is stored and managed as metadata and used as business data.
In image recognition by an OCR engine, since the image quality of scanned documents and the types of forms vary, it is difficult to achieve 100% accuracy in both form type determination and OCR character recognition. Therefore, instead of calculating a certainty value that indicates the certainty of recognition for each scanned document, this certainty can be effectively used to automate some or all of the scan job processing operations on behalf of the user. If it is possible to do so, it is hoped that work efficiency will be improved.
Japanese Patent Application Laid-Open No. 2002-200003 discloses a technique for improving the accuracy of processing for sorting data into folders by using feature amounts for each document.
しかしながら、特許文献1に開示されている技術では、ユーザーによる突合確認の手間を軽減することができず、業務効率の向上は十分に望めない。
However, with the technology disclosed in
本発明は前述の問題点に鑑み、文書処理フローを簡便、容易にするとともに、ユーザーの作業労力を低減できるようにすることを目的としている。 SUMMARY OF THE INVENTION An object of the present invention is to simplify and facilitate the flow of document processing and to reduce user's labor.
本発明に係る情報処理装置は、文字列を含むスキャン文書について文字認識を実行することにより文字列を抽出する抽出手段と、前記スキャン文書が予め記憶されている学習済み帳票と一致するか否かを判定する判定手段と、前記スキャン文書の確信度を算出する算出手段と、前記判定手段によって、前記スキャン文書が学習済み帳票と一致すると判定された場合であって、前記算出手段によって算出した確信度が第1の閾値以上である場合、前記抽出手段により抽出された文字列をメタデータとして登録する制御手段と、を有することを特徴とする。 An information processing apparatus according to the present invention includes an extracting unit for extracting a character string by executing character recognition on a scanned document containing the character string, and a device for determining whether or not the scanned document matches a pre-stored learned form. a calculating means for calculating the certainty factor of the scanned document; and a case where it is judged by the judging means that the scanned document matches the learned form, and the certainty calculated by the calculating means and control means for registering the character string extracted by the extraction means as metadata when the degree is equal to or greater than a first threshold.
本発明によれば、文書処理フローを簡便、容易にするとともに、ユーザーの作業労力を低減できる。 According to the present invention, the document processing flow can be simplified and facilitated, and the work effort of the user can be reduced.
以下、本発明を実施するための最良の形態について、図面を用いて説明する。
まず、図1を用いて、本実施形態に係る情報処理システム1のシステム構成およびネットワーク構成について説明する。
本実施形態に係る情報処理システム1は、スキャン文書処理サーバー111と、クライアント端末121と、業務サーバー131とを有している。スキャン文書処理サーバー111と、クライアント端末121と、業務サーバー131とは、インターネットやイントラネットなどのネットワーク101を介して通信可能に接続される。
スキャン文書処理サーバー111は、スキャン文書を処理するためのサーバーである。
クライアント端末121は、例えば、パーソナルコンピューター、ラップトップコンピューター、タブレットコンピューター、スマートフォンなどで構成される。
業務サーバー131は、スキャン文書処理サーバー111からデータを受け取り、各種処理を行うためのサーバーである。
BEST MODE FOR CARRYING OUT THE INVENTION The best mode for carrying out the present invention will be described below with reference to the drawings.
First, the system configuration and network configuration of an
The
The scanned
The
The
次に、図2を用いて、スキャン文書処理サーバー111、クライアント端末121、および業務サーバー131のハードウェア構成例について説明する。
スキャン文書処理サーバー111、クライアント端末121、および業務サーバー131は、ユーザーI/F201と、ネットワークI/F202と、CPU203と、ROM204と、RAM205と、二次記憶装置206と、内部バス207とを有している。各部は、内部バス207を介して接続されている。
ネットワークI/F202は、ネットワーク101を介して、他のコンピューターやネットワーク機器との通信を行う。通信の方式としては、有線・無線のいずれでもよい。
Next, a hardware configuration example of the scanned
Scan
A network I/
ROM204は、組込済みプログラムおよびデータが記録されている。RAM205は、一時メモリ領域である。二次記憶装置206は、HDDやフラッシュメモリなどの記憶装置である。
CPU203は、ROM204、RAM205、二次記憶装置206などから読み込んだプログラムを実行する。ユーザーI/F201は、ディスプレイ、キーボード、マウス、ボタン、タッチパネルなどによる、情報や信号などの入出力を行う。
なお、これらのハードウェアを備えないコンピューターは、リモートデスクトップやリモートシェルなどにより、他のコンピューターから接続・操作するようにしてもよい。
The
The
Computers without such hardware may be connected and operated from other computers by means of remote desktop, remote shell, or the like.
次に、図3を用いて、本実施形態に係る情報処理システム1のソフトウェア構成例について説明する。各ハードウェアにインストールされたソフトウェアは、それぞれCPU203で実行され、ネットワーク接続の矢印で図示するように、相互に通信可能な構成となっている。
Next, a software configuration example of the
まず、スキャン文書処理サーバー111は、スキャン文書処理アプリケーション311と、データストア321と、バックエンドアプリケーション331と、を有している。
スキャン文書処理アプリケーション311は、スキャン文書処理サーバー111にインストールされたアプリケーションである。本実施形態では、Webアプリケーションサーバーとして動作するものとして説明するが、他のアプリケーション実装形態として動作してもよい。
スキャン文書処理アプリケーション311は、API(Application Programming Interface)312と、Web UI(User Interface)313とを有している。
First, the scanned
A scanned
The scanned
データストア321は、スキャン文書処理アプリケーション311または後述するバックエンドアプリケーション331が使用するデータを保存、格納するデータストアである。データストア321は、文書格納部322と、ジョブキュー323と、管理部324と、結果格納部325と、を有している。
文書格納部322は、スキャン文書自体のファイルを、JPEG等の画像ファイルあるいはPDF(Portable Document Format)等の文書ファイルとして保持する。
ジョブキュー323は、後述するメタデータ入力処理待ちのジョブを管理するキューを保持する。
The
The
The
管理部324は、スキャン文書ごとに付加が必要なメタデータの一覧、メタデータごとの名前、値のフォーマット(文字列・数字など)、後述で説明する色情報などを保持する。
結果格納部325は、OCR処理結果、および帳票判別結果を格納する。また、結果格納部325は、スキャン文書ごとにメタデータに関連付けられたOCR領域情報や、入力されたメタデータの値などを保持する。
The
The
バックエンドアプリケーション331は、次に示すようなバックグラウンドで順次実行すればよい処理を担当する。バックエンドアプリケーション331は、OCR処理部332と、帳票処理部333と、通信部334と、算出部335と、を有している。
OCR処理部332は、文書格納部322からスキャン文書を取得し、OCRを実行する。OCR処理部332は、OCR処理において、文字列と認識された領域の始点座標・幅・高さ、および認識できたOCR処理の認識結果文字列を抽出する。
帳票処理部333は、OCR処理を行ったスキャン文書、OCR処理結果の領域パターン、OCR処理の認識結果文字列などの情報を用いて、帳票の種別を判別する。判別処理は、パターン認識、機械学習などいずれの手法を用いてもよい。
The
The
The
算出部335は、帳票処理部333による帳票の判別処理の確信度、およびOCR処理部332によるOCR処理の認識結果文字列の確信度をもとに、スキャン文書に対する認識確信度を算出する。ここで、帳票の判別処理の確信度とは、例えば、帳票種別判別処理に使用する学習済み帳票テンプレートとスキャン文書との類似度のスコア(0%~100%)である。OCR処理の認識結果文字列の確信度とは、例えば、OCR領域から認識した文字列が正答文字列に一致する確度(0%~100%)である。
認識確信度は、100%を上限とするパーセント単位でのスコアでもよいし、高・中・低などのスコアから区分したレベルでもよいし、任意の付け方をしてよい。また、認識確信度の算出方法は、帳票判別処理および全てのOCR領域の認識結果文字列の確信度の平均を取ってもよいし、また別の方法でもよい。例えば、確信度の平均で計算すれば高いスコアになるが、一部のOCR領域が著しく確信度が低ければ、全体としてスコアを下げるような算出方法をとってもよい。いずれにしても認識確信度を用いた処理が本実施形態の趣旨であるため、その算出方法については任意の方法をとってよいものとする。
通信部334は、外部の業務サーバー131にスキャン文書およびその処理結果を送信する。なお、スキャン文書およびその処理結果を外部に送信する必要がない場合は、通信部334は省略してもよい。
The calculating
Recognition certainty may be a score in percentage units with an upper limit of 100%, a level divided from the score such as high, medium, or low, or may be assigned in any manner. Further, the method of calculating the recognition certainty factor may be to take the average of the certainty factors of the recognition result character strings of the form discrimination processing and all the OCR areas, or another method may be used. For example, a high score can be obtained by calculating the average confidence factor, but if some OCR regions have a significantly low confidence factor, a calculation method that lowers the score as a whole may be adopted. In any case, since the purpose of the present embodiment is to process using the recognition certainty, any calculation method may be used.
The
次に、クライアント端末121は、クライアントアプリケーション351を有している。本実施形態では、スキャン文書処理アプリケーション311のWebアプリケーションを実行する。クライアントアプリケーション351の提供形態の1つとして、ブラウザーでWeb UI313を表示して、必要なデータをAPI312と送受信してWebアプリケーションを実行する方法がある。または、必要なデータをAPI312と送受信するよう作成されたコンピューターまたはスマートフォンのアプリケーションなどでもよい。
Next, the
次に、業務サーバー131は、業務アプリケーション361と、ストレージ362と、を有している。
業務アプリケーション361は、業務サーバー131が実行するアプリケーションである。ストレージ362は、業務アプリケーション361が使用するデータを記憶する。業務アプリケーション361としては、ファイル管理、文書管理、受注、会計などいずれの業務アプリケーションであってもよい。スキャン文書処理サーバー111で処理した結果を、受信、業務処理、および保管する場合に、業務アプリケーション361が必要である。それ以外の場合は、省略してもよい。
Next, the
The
次に、図4~図6を用いて、帳票種別判定処理に用いる帳票テンプレートを学習する処理について説明する。具体的には、後述する帳票種別判定処理において、帳票処理部333は、スキャン文書に対して、学習済み帳票テンプレートと一致するか否か、を判定する。以下の処理は、スキャン文書が学習済み帳票テンプレートと一致しない、つまり、未学習帳票である場合に、新たに学習済み帳票テンプレートとして登録するための処理である。
まず、図4を用いて、クライアントアプリケーション351のUIについて説明する。
プレビューペイン401は、プレビューページ画像402を有している。プレビューペイン401では、プレビューページ画像402をスクロールまたはズームして、任意の位置の表示をすることができる。メタデータペイン411は、スキャン文書が判別された帳票種別ごとに付与すべきメタデータ一覧を表示、編集するためのペインである。図4の例では、スキャン文書は未学習帳票であるとして判定され、入力が必要なメタデータが3つある、という状態を示している。
Next, the process of learning a form template used in the form type determination process will be described with reference to FIGS. 4 to 6. FIG. Specifically, in the form type determination process to be described later, the
First, the UI of the
A
領域421は、プレビューページ画像402と、OCR領域との関係を示す直交座標系を説明するための領域である。図4に示す例では、OCR処理による認識結果であるOCR領域が、領域422、423、424の3つ存在する。プレビューページ画像402には、3つ以上のOCR領域があるが、ここでは省略して説明する。OCR領域は、それぞれの網掛けの矩形のように、始点座標、幅および高さでそれぞれ識別される。例えば、領域424であれば、単位をピクセルとして始点座標(1200,700)、幅720、高さ120などと表現される。
An
図5は、メタデータにプレビューページ画像のOCR領域を関連付けるUIを説明するための図である。領域502は、メタデータに関連付けられたOCR領域である。領域502では、ユーザーがOCR領域であることを識別しやすいように、色付けをした矩形が透過表示されている。なお、色付けの手段は、色付き枠線表示など、他の任意の手段でもよい。
エリア512は、メタデータ名511である「Customer Name」に割り当てられた色を表示するエリアである。エリア513は、領域502の切り取り画像を表示するエリアである。なお、OCR領域との関連付けが未指定の場合、図4のようにエリア513には「+」ボタンが表示される。コントロール514は、領域502の抽出文字列を表示、編集するためのコントロールである。
必須のメタデータが全て入力されると、登録ボタン515が有効化される。ユーザーが登録ボタン515を選択すると、次の図6に示す最終確認ダイアログに遷移する。
FIG. 5 is a diagram for explaining a UI for associating an OCR area of a preview page image with metadata.
An area 512 is an area for displaying the color assigned to the
Once all the required metadata has been entered, the
図6は、帳票種別判定に用いる帳票テンプレートに名前をつけて保存するUIを説明するための図である。ダイアログ601は、最終確認ダイアログである。コントロール602は、帳票テンプレート名を入力するためのテキストコントロールである。コントロール603は、スキャン文書の送信宛先を指定するための選択コントロールである。保存・送信ボタン604は、帳票テンプレート名を保存し、スキャンジョブを宛先に送信するためのボタンである。
FIG. 6 is a diagram for explaining a UI for naming and saving a form template used for form type determination.
上記説明したように帳票テンプレートの学習がされると、次回以降同じ帳票種別のスキャン文書が来たときに、帳票処理部333による帳票種別判定処理でスキャン文書は、学習済み帳票テンプレートと一致すると判定される。その後、各メタデータに、学習済み帳票テンプレートにて定義済みのOCR領域から文字列が入力され、同じ送信宛先が選択されることで、簡便、容易にスキャンジョブの送信を行うことができる。
After the form template is learned as described above, next time a scanned document of the same form type arrives, the
次に、図11のフローチャートを用いて、スキャン文書処理サーバー111において、文書の認識確信度を用いたスキャン文書処理の処理フローについて説明する。
本処理は、ユーザーがクライアント端末121等からスキャン文書のファイルを文書格納部322にアップロードすることによって開始する。なお、アップロード方法は、クライアントアプリケーション351からAPI312を経由してアップロードしてもよいし、スキャナーなどの機器から直接アップロードしてもよい。
ここで、1つのファイルが1つのページ画像しか含んでいない単純な場合と、複数ページ画像を含む場合とがある。後者の場合、1ページ毎に分割し、複数のスキャン文書に分割することとしてもよい。また、バーコードや仕切り紙などを検出して、任意のページ数ごとの複数のスキャン文書に分割することとしてもよい。これら単数、複数いずれのケースでも、N個のスキャン文書処理を実施する前提で以下処理フローを説明する。
Next, a processing flow of scanned document processing using document recognition certainty in the scanned
This processing starts when the user uploads a scanned document file from the
Here, there are simple cases where a file contains only one page image, and cases where it contains multiple page images. In the latter case, each page may be divided into a plurality of scanned documents. It is also possible to detect a bar code, partition paper, or the like, and divide the document into a plurality of scanned documents each having an arbitrary number of pages. In both the single and plural cases, the processing flow will be described below on the premise that N scanned documents are processed.
まず、前述したように、ステップS1101において、バックエンドアプリケーション331は、文書格納部322にアップロードされた1つのファイルを、N個のスキャン文書に分割する。以降、ステップS1102~ステップS1114は、n=1からNまでのループ処理を実行する。
次に、ステップS1102において、バックエンドアプリケーション331は、文書[n]のスキャンジョブをジョブキュー323に格納し、OCR処理部332、帳票処理部333および算出部335で処理する。
具体的には、OCR処理部332は、まず、文書[n]についてOCR処理を実行し、OCR処理の認識結果文字列を結果格納部325に格納する。次に、帳票処理部333は、OCR処理の結果に基づいて、文書[n]の帳票種別を判断し、文書[n]の帳票種別と一致する学習済み帳票テンプレートを探索する。帳票処理部333は、同一帳票である学習済み帳票テンプレートが存在する場合は、その学習済み帳票テンプレートを結果格納部325に格納する。一方、同一帳票である学習済み帳票テンプレートが存在しない場合には、一致しなかったという帳票認識結果を結果格納部325に格納する。
次に、学習済み帳票テンプレートと一致した場合、算出部335は、文書[n]の認識確信度を算出し、算出部335は、算出した認識確信度も同様に結果格納部325に格納する。
ステップS1103において、バックエンドアプリケーション331は、ステップS1102の帳票認識結果として、学習済み帳票テンプレートと一致したか否かを判定する。バックエンドアプリケーション331は、学習済み帳票テンプレートと一致したと判定した場合は、処理をステップS1104に進める。一方、バックエンドアプリケーション331は、学習済み帳票テンプレートと一致しなかったと判定した場合は、処理をステップS1111に進める。
First, as described above, in step S1101, the
Next, in step S1102, the
Specifically, the
Next, when it matches the learned form template, the
In step S1103, the back-
次に、ステップS1104において、バックエンドアプリケーション331は、結果格納部325から文書[n]の認識確信度を取得する。
次に、ステップS1105において、バックエンドアプリケーション331は、文書[n]の認識確信度を判定する。本実施形態では、例えば、認識確信度を3つのレベル「かなり高」、「高」、「中低」に分類することとする。すなわち、認識確信度が第1の閾値以上であれば「かなり高」、認識確信度が第1の閾値より小さく、第2の閾値以上であれば「高」、認識確信度が第2の閾値より小さければ「中低」と分類する。
バックエンドアプリケーション331は、認識確信度が「かなり高」と判定した場合、ユーザーによる、帳票認識結果およびOCR処理の認識結果文字列のレビューを不要とし、処理をステップS1106に進める。
また、バックエンドアプリケーション331は、認識確信度が「高」または「中低」と判定した場合、ユーザーによる、帳票認識結果およびOCR処理の認識結果文字列のレビューを必要とし、処理をステップS1110に進める。なお、認識確信度が「高」と判定された場合は、認識確信度が「中低」と判定された場合と比べて、ユーザーの操作が極力簡便、容易となるような処理を行う。
Next, in step S<b>1104 , the
Next, in step S1105, the
When the back-
Further, when the back-
次に、ステップS1106において、バックエンドアプリケーション331は、文書[n]と一致した学習済み帳票テンプレートにおける定義済みのOCR領域座標およびサイズを用いて、OCR処理の認識結果文字列をメタデータとして抽出し、登録する。
ステップS1107において、バックエンドアプリケーション331は、学習済み帳票テンプレートで定義済みの宛先に、文書[n]とメタデータとを、通信部334を介して送信する。
Next, in step S1106, the
In step S1107, the back-
次に、ステップS1108において、バックエンドアプリケーション331は、文書[n]をジョブキュー323からデキューする。そして、ステップS1109において、バックエンドアプリケーション331は、文書[n]が送信完了した旨を通知するためのメール通知コンテンツを生成する。
Next, in step S 1108 , the
一方で、ステップS1110において、バックエンドアプリケーション331は、ステップS1106と同様に、OCR処理の認識結果文字列をメタデータとして抽出する。但し、OCR処理の認識結果文字列は正しい認識結果とは限らないため、仮のメタデータとして抽出する。次に、ステップS1111において、バックエンドアプリケーション331は、ジョブキュー323のジョブのステータスを認識完了に更新する。ここで、認識確信度が「高」と判定された場合は、処理をステップS1112に進め、認識確信度が「中低」と判定された場合、またはステップS1103で学習済み帳票テンプレートと一致しないと判定された場合は、処理をステップS1113に進める。
On the other hand, in step S1110, the
次に、ステップS1112において、バックエンドアプリケーション331は、ジョブがレビュー可能であることを通知するメール通知コンテンツを生成する。ここで、図8を用いて、ステップS1112で生成させるメール通知コンテンツについて説明する。
Next, in step S1112, the
図8は、新規スキャンジョブが到着したことを通知する電子メールのメッセージコンテンツ801の一例である。1つのスキャンジョブに対して1つの通知メッセージが作成され、後述のステップS1114でのメール通知がなされると、ユーザーは図8に示すコンテンツの内容を確認することができる。サムネイル810は、スキャン画像のサムネイルである。テンプレート名811は、スキャン文書と一致した学習済み帳票テンプレート名である。
確信度812は、スキャン文書の認識確信度である。宛先813は、スキャン文書の送信宛先である。ファイル名814は、スキャン文書のファイル名である。項目名815は、メタデータの項目名である。画像816は、OCR領域の画像である。文字列817は、OCR処理の認識結果文字列である。すなわち、クライアント端末121において、メッセージコンテンツ801内にサムネイル810~文字列817のコンテンツを表示させることにより、ユーザーはその場でOCR認識結果の突合確認をすることができる。
FIG. 8 is an example of
Confidence 812 is the recognition confidence of the scanned document. A destination 813 is a transmission destination of the scanned document. File name 814 is the file name of the scanned document. The item name 815 is the item name of metadata.
登録ボタン821は、前述の保存・送信ボタン604の送信処理と同様の処理を行うURLリンクである。ユーザーは、突合確認の結果、結果が正しいと判断した場合は、登録ボタン821を選択する。登録ボタン821が選択されると、ブラウザーが起動されてURLで示されたスキャン文書処理アプリケーション311へリクエストが送信される。スキャン文書処理アプリケーション311は、ジョブキュー323内のスキャンジョブを処理し、通信部334を介して、業務アプリケーション361にスキャン文書およびメタデータを登録する。ここで登録されるメタデータは、確認した文字列817である。
校正ボタン822は、校正画面へのリンクボタンである。ユーザーが画像816と文字列817の突合確認で誤字を発見した場合は、校正ボタン822を選択すると、クライアントアプリケーション351が起動してブラウザーでスキャンジョブ一覧UIが表示される。ユーザーはスキャンジョブ一覧UI上で、必要に応じてメタデータの文字列を修正する。
A
A calibration button 822 is a link button to a calibration screen. If the user finds a typo in matching between the
ここで、図7を用いて、クライアントアプリケーション351のスキャンジョブ一覧UIを説明する。スキャンジョブ一覧UI701は、リスト形式で、ユーザーに割り当てられているスキャンジョブを1つ以上の列として表示可能である。
カラム711は、スキャンジョブのサムネイルを表示するカラムである。カラム712は、スキャンジョブのファイル名を表示するカラムである。カラム713は、スキャンジョブの作成日時を表示するカラムである。カラム714は、スキャン文書が帳票種別判定された結果、一致した学習済み帳票テンプレート名を表示するカラムである。カラム715は、スキャンジョブの送信宛先を表示するカラムである。更新ボタン716は、スキャンジョブ一覧を更新するためのボタンである。
Here, the scan job list UI of the
A
メタデータペイン721は、帳票種別ごとに必要なメタデータ一覧が表示される。フィールド722は、メタデータの項目名を表示するテキストフィールドである。画像723は、メタデータに関連付けられたOCR領域の画像である。
コントロール724は、メタデータの値を入力、修正するためのテキストエディットコントロールである。エリア725は、図5のエリア512と同様に、メタデータごとにユーザーが識別しやすいように色付け矩形を表示するエリアである。
A
登録ボタン726は、スキャン文書を送信宛先に登録するためのボタンである。
図8の画面から校正ボタン822を選択すると、スキャンジョブ一覧UI701において、まずスキャンジョブ一覧から処理対象のスキャンジョブの行が選択される。そして、右側のメタデータペイン721に、当該スキャン文書と一致した学習済み帳票テンプレートに基づき、メタデータごとに定義済みOCR領域の画像723および、OCR処理の認識結果文字列が記載されたコントロール724が表示される。ユーザーは、コントロール724内のメタデータの値を修正することができる。修正が完了し、ユーザーが登録ボタン726を選択すると、スキャン文書がカラム715に表示されている宛先に登録される。
A
When the calibration button 822 is selected from the screen of FIG. 8, the line of the scan job to be processed is first selected from the scan job list on the scan
一方、ステップS1113において、バックエンドアプリケーション331は、認識が完了し、ユーザーが文書[n]の処理を開始可能であることを通知するメール通知コンテンツを生成する。このコンテンツには、図8の校正ボタン822のみが含まれ、後述のステップS1114でのメール通知がなされると、ユーザーはコンテンツの内容を確認することができる。ここで、ステップS1105で認識確信度が「中低」と判定された場合は、校正ボタン822の選択により、図7に示すクライアントアプリケーション351のスキャンジョブ一覧UIに遷移するようにする。一方、ステップS1103で学習済み帳票テンプレートと一致しないと判定された場合は、図8の校正ボタン822の選択により、図4の画面に遷移するようにする。
そして、ステップS1114において、バックエンドアプリケーション331は、ステップS1112およびステップS1113で生成したメール通知を送信する。
Meanwhile, in step S1113, back-
Then, in step S1114, the
ステップS1102~ステップS1114の処理をN個のスキャン文書に対して行った後、以降のステップでN個のスキャン文書に対するクライアント端末121への通知を送信する。
まず、ステップS1115において、バックエンドアプリケーション331は、ステップS1105で認識確信度が「高」、「中低」またはステップS1103でNoに判定されたスキャン文書を、スキャンジョブ一覧UIに新規ジョブとして通知する。
また、ステップS1116において、バックエンドアプリケーション331は、ステップS1105で認識確信度「かなり高」に判定されたスキャン文書を、スキャンジョブ一覧UI901に自動送信ジョブとして通知する。
After the processing of steps S1102 to S1114 has been performed on the N scanned documents, a notification of the N scanned documents is sent to the
First, in step S1115, the back-
Also, in step S1116, the back-
ここで、図9を用いて、スキャンジョブ一覧UIに、新規ジョブ通知および自動送信ジョブ通知を表示する方法を説明する。なお、図9に示すスキャンジョブ一覧UI901の画面は、クライアント端末121において、ユーザーの操作によってクライアントアプリケーション351が起動することによって表示される画面である。
まず、ステップS1115において通知された新規ジョブの件数は更新ボタン911内に表示される。ユーザーが更新ボタン911を選択すると、クライアントアプリケーション351からスキャン文書処理アプリケーション311に最新のスキャンジョブ一覧を取得するリクエストが送信される。その応答を受けて、クライアントアプリケーション351は、スキャンジョブ一覧UI901を最新の状態に更新する。図9の例では、ジョブキュー323に新規ジョブ2件が到着しており、更新ボタン911内に追加のメッセージ(新規ジョブ2件)があることを示している。クライアントアプリケーション351は、スキャン文書処理アプリケーション311にバックグラウンドで新規ジョブの到着数を確認する。新規ジョブの到着数に変化があった場合、更新ボタン911のメッセージを更新する。
Here, a method of displaying a new job notification and an automatic transmission job notification on the scan job list UI will be described with reference to FIG. Note that the screen of the scan
First, the number of new jobs notified in step S1115 is displayed in the
メッセージ912は、ステップS1116で通知された自動送信ジョブの件数を表示するためのメッセージである。クライアントアプリケーション351は、スキャン文書処理アプリケーション311にバックグラウンドで自動送信ジョブの件数を確認する。自動送信ジョブの件数に変化があった場合、メッセージ912の内容を更新する。
リンク913は、自動送信ジョブの履歴へのリンクである。スキャン文書の認識確信度が十分に高い場合、ユーザーの突合確認を経なくても送信宛先に送信する。その場合、ユーザーは自身が投入したスキャンジョブがスキャンジョブ一覧UI901の一覧に表示されないので、代わりにメッセージ912で確認することができる。そして必要に応じて、履歴へのリンク913から、スキャンジョブの処理完了状況を確認することができる。
ボタン914は、メッセージを消去するためのボタンである。ユーザーは、メッセージ912、あるいはリンク913から、自動送信ジョブの数や完了状態について確認した後、自動送信ジョブ通知メッセージを消去するときにボタン914を選択する。
A
A
A button 914 is a button for deleting a message. After confirming the number and completion status of automatic transmission jobs from
次に、ステップS1117において、バックエンドアプリケーション331は、ステップS1105で認識確信度が「高」、「中低」またはステップS1103でNoに判定されたスキャン文書は、クライアント端末121のOS(オペレーティングシステム)などが備える通知センターに新規ジョブとして通知する。
次に、ステップS1118において、バックエンドアプリケーション331は、ステップS1105で認識確信度が「かなり高」に判定されたスキャン文書は、通知センターに自動送信ジョブとして通知する。
Next, in step S1117, the back-
Next, in step S1118, the back-
ここで、図10を用いて、クライアント端末121のOSなどが備える通知センターに新規ジョブ通知および自動送信ジョブ通知を表示する方法を説明する。
図10において、通知センターUI1000は、新規ジョブ通知1001と、自動送信ジョブ通知1002とを有している。ステップS1117およびステップS1118において、バックエンドアプリケーション331が通知センターに新規ジョブおよび自動送信ジョブを通知すると、新規ジョブ通知1001および自動送信ジョブ通知1002が表示される。
図9で前述した通知メッセージは、クライアントアプリケーション351内でしか確認できないが、OSなどが備える通知センターに通知メッセージを表示することによって、いわゆるトースト通知などをユーザーに表示し、注意喚起することができる。具体的には例えば、ユーザーが5つのスキャンジョブを投入後、新規ジョブが3件到着したこと、および自動送信されたジョブが2件あることを明確に閲覧することができ、自動送信ジョブの可視性が向上する。
新規ジョブ通知1001および自動送信ジョブ通知1002は、ユーザーが確認後に閉じるボタンを選択することにより、閉じることができる。また、ユーザーが自動送信ジョブ通知1002を選択すると、図9のリンク913と同様に自動送信ジョブの履歴へのリンクとして動作する。
Here, a method for displaying a new job notification and an automatic transmission job notification on the notification center provided by the OS of the
In FIG. 10, the
The notification message described above with reference to FIG. 9 can only be confirmed within the
The
次に、図12のフローチャートを用いて、スキャンジョブの保持期間が過ぎた場合の処理について説明する。なお、この処理はバックエンドアプリケーション331によって所定の周期で行われる。
まず、ステップS1201において、バックエンドアプリケーション331は、ジョブキュー323に格納されている未処理の文書[n]のスキャンジョブの生成日付を取得する。
次に、ステップS1202において、バックエンドアプリケーション331は、ステップS1201で取得した生成日付と現在日時とを比較し、ジョブの保持期間(例:7日)を経過したか否かを判定する。バックエンドアプリケーション331は、ジョブの保持期間を経過したと判定した場合は、処理をステップS1203に進める。一方、バックエンドアプリケーション331は、ジョブの保持期間を経過していないと判定した場合は、本処理を終了する。
Next, the processing when the retention period of the scan job has passed will be described with reference to the flowchart of FIG. 12 . Note that this process is performed by the
First, in step S<b>1201 , the
Next, in step S1202, the back-
次に、ステップS1203において、バックエンドアプリケーション331は、結果格納部325から文書[n]の認識確信度を取得する。
次に、ステップS1204において、バックエンドアプリケーション331は、認識確信度を判定する。バックエンドアプリケーション331は、認識確信度が「高」と判定した場合、処理をステップS1205に進める。一方、バックエンドアプリケーション331は、認識確信度が「中低」と判定した場合は、処理をステップS1206に進める。
ステップS1205において、バックエンドアプリケーション331は、通信部334を介して、学習済み帳票テンプレートで定義済みの宛先に文書[n]とメタデータとを送信する。この処理では、すでにステップS1110で仮のメタデータは抽出済みなので、仮のメタデータを正規のメタデータとして登録し、宛先に文書[n]とメタデータとを送信する。
ステップS1206において、バックエンドアプリケーション331は、文書[n]を文書格納部322から削除する。
ステップS1207において、バックエンドアプリケーション331は、文書[n]をジョブキュー323からデキューし、本処理を終了する。
Next, in step S<b>1203 , the
Next, in step S1204, the
In step S<b>1205 , the
In step S<b>1206 , the
In step S1207, the
なお、本実施形態では、メッセージの通知手段の一例として、電子メールによるメッセージ通知を説明したが、ビジネスチャットや社内SNSなど他のアプリケーションに通知を送信することとしてもよい。ビジネスチャットや社内SNSなどがサポートする、HTMLやMarkdownなどのマークアップ言語で、OCR結果のレビューや突合確認UIを提供することが可能である。そのため、メッセージの通知手段としてのアプリケーション、プロトコル、およびマークアップ言語等はいずれでもよい。 In this embodiment, as an example of message notification means, message notification by e-mail has been described, but notification may be sent to other applications such as business chat and in-house SNS. With markup languages such as HTML and Markdown, which are supported by business chats and in-house SNS, it is possible to provide an OCR result review and match confirmation UI. Therefore, any application, protocol, markup language, or the like may be used as a message notification means.
以上のように、本実施形態の情報処理システムによれば、OCRおよび帳票認識における認識確信度を用いて、文書処理フローを分岐することにより、ユーザーによる操作を簡便、容易とすることができ、業務効率を向上することができる。 As described above, according to the information processing system of the present embodiment, by branching the document processing flow using the recognition confidence in OCR and form recognition, user operations can be simplified and facilitated. Work efficiency can be improved.
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピューターにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other embodiments)
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in a computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
331 バックエンドアプリケーション、332 OCR処理部、333 帳票処理部、335 算出部 331 backend application, 332 OCR processing unit, 333 form processing unit, 335 calculation unit
Claims (18)
前記スキャン文書が予め記憶されている学習済み帳票と一致するか否かを判定する判定手段と、
前記スキャン文書の確信度を算出する算出手段と、
前記判定手段によって、前記スキャン文書が学習済み帳票と一致すると判定された場合であって、前記算出手段によって算出した確信度が第1の閾値以上である場合、前記抽出手段により抽出された文字列をメタデータとして登録する制御手段と、
を有することを特徴とする情報処理装置。 an extracting means for extracting a character string by performing character recognition on a scanned document containing the character string;
determining means for determining whether or not the scanned document matches a pre-stored learned form;
a calculating means for calculating a certainty factor of the scanned document;
a character string extracted by the extraction means when the determination means determines that the scanned document matches the learned form and the certainty calculated by the calculation means is equal to or greater than a first threshold; a control means for registering as metadata;
An information processing device comprising:
を特徴とする請求項1に記載の情報処理装置。 When the determination means determines that the scanned document matches the learned form, the control means determines that the degree of certainty calculated by the calculation means is smaller than the first threshold and a second threshold. If the above, notify the client terminal of information about the result of character recognition;
The information processing apparatus according to claim 1, characterized by:
を特徴とする請求項2に記載の情報処理装置。 When the determination means determines that the scanned document matches the learned form, and the certainty factor calculated by the calculation means is smaller than the first threshold value and equal to or greater than the second threshold value. the information on the result of character recognition notified by the control means is notified by e-mail;
3. The information processing apparatus according to claim 2, characterized by:
を特徴とする請求項2に記載の情報処理装置。 When the determination means determines that the scanned document matches the learned form, and the certainty factor calculated by the calculation means is smaller than the first threshold value and equal to or greater than the second threshold value. the information on the result of character recognition notified by the control means is notified by a business chat or an in-house SNS;
3. The information processing apparatus according to claim 2, characterized by:
を特徴とする請求項2~4のいずれか1項に記載の情報処理装置。 The notified information about the result of character recognition includes information on the character string extracted by the extracting means, a link for registering the character string extracted by the extracting means as metadata, and the extracting means. contains a link for proofreading the string extracted by
The information processing apparatus according to any one of claims 2 to 4, characterized by:
を特徴とする請求項2~5のいずれか1項に記載の情報処理装置。 notifying the client terminal of a link for proofreading the character string extracted by the extraction means when the confidence calculated by the calculation means is smaller than the second threshold;
6. The information processing apparatus according to any one of claims 2 to 5, characterized by:
を特徴とする請求項2~6のいずれか1項に記載の情報処理装置。 When the certainty calculated by the calculating means is smaller than the first threshold and equal to or larger than the second threshold, and when a predetermined period of time has passed while the scanned document is held, the control is performed. means for registering the character string extracted by the extraction means as metadata;
7. The information processing apparatus according to any one of claims 2 to 6, characterized by:
を特徴とする請求項1~7のいずれか1項に記載の情報処理装置。 The calculating means calculates the certainty factor of the scanned document based on the certainty factor of the result of the character recognition by the extracting means;
The information processing apparatus according to any one of claims 1 to 7, characterized by:
を特徴とする請求項1~7のいずれか1項に記載の情報処理装置。 The calculating means calculates the certainty of the scanned document based on the certainty of the result of the character recognition by the extracting means and the similarity between the learned form determined by the determining means;
The information processing apparatus according to any one of claims 1 to 7, characterized by:
を特徴とする請求項1~9のいずれか1項に記載の情報処理装置。 notifying a client terminal of information for learning the scanned document as a form when the determination means determines that the scanned document does not match a pre-stored learned form;
The information processing apparatus according to any one of claims 1 to 9, characterized by:
を特徴とする請求項1~10のいずれか1項に記載の情報処理装置。 the control means notifying the client terminal of information about the scanned document whose certainty is equal to or greater than the first threshold;
The information processing apparatus according to any one of claims 1 to 10, characterized by:
を特徴とする請求項1~10のいずれか1項に記載の情報処理装置。 the control means notifying the client terminal of information for displaying a link to information on the scanned document whose certainty is equal to or greater than the first threshold;
The information processing apparatus according to any one of claims 1 to 10, characterized by:
を特徴とする請求項1~10のいずれか1項に記載の情報処理装置。 the control means notifying a notification center of the client terminal of information for displaying, on the client terminal, information relating to the scanned document whose certainty is equal to or greater than the first threshold;
The information processing apparatus according to any one of claims 1 to 10, characterized by:
を特徴とする請求項13に記載の情報処理装置。 the information about the scanned document includes a link to the information about the scanned document;
14. The information processing apparatus according to claim 13, characterized by:
を特徴とする請求項1~14のいずれか1項に記載の情報処理装置。 When it is determined that the scanned document matches the learned form and the certainty calculated by the calculation means is equal to or greater than the first threshold, the control means controls the Registering a character string as metadata and transmitting the scanned document and the metadata to a destination registered in the learned form;
The information processing apparatus according to any one of claims 1 to 14, characterized by:
前記抽出手段により抽出された文字列の情報と、前記抽出手段により抽出された文字列をメタデータとして登録させるためのリンクと、前記抽出手段により抽出された文字列の校正を行うためのリンクとが含まれる通知を、電子メール、ビジネスチャット、社内SNSの少なくともいずれかで行う通知手段と、
を有することを特徴とする請求項1に記載の情報処理装置。 an extracting means for extracting a character string by performing character recognition on a scanned document containing the character string;
Information on the character string extracted by the extraction means, a link for registering the character string extracted by the extraction means as metadata, and a link for proofreading the character string extracted by the extraction means. Notification means for performing notification including by at least one of e-mail, business chat, and in-house SNS;
2. The information processing apparatus according to claim 1, further comprising:
前記スキャン文書が予め記憶されている学習済み帳票と一致するか否かを判定する判定工程と、
前記スキャン文書の確信度を算出する算出工程と、
前記判定工程によって、前記スキャン文書が学習済み帳票と一致すると判定された場合であって、前記算出工程によって算出した確信度が第1の閾値以上である場合、前記抽出工程により抽出された文字列をメタデータとして登録する制御工程と、
を有することを特徴とする情報処理装置の制御方法。 an extraction step of extracting the character string by performing character recognition on the scanned document containing the character string;
a determination step of determining whether or not the scanned document matches a pre-stored learned form;
a calculation step of calculating a certainty factor of the scanned document;
When the determination step determines that the scanned document matches the learned form and the certainty calculated in the calculation step is equal to or greater than a first threshold, the character string extracted in the extraction step a control step of registering as metadata;
A control method for an information processing device, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021040008A JP2022139564A (en) | 2021-03-12 | 2021-03-12 | Information processing device, information processing device control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021040008A JP2022139564A (en) | 2021-03-12 | 2021-03-12 | Information processing device, information processing device control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022139564A true JP2022139564A (en) | 2022-09-26 |
Family
ID=83400281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021040008A Pending JP2022139564A (en) | 2021-03-12 | 2021-03-12 | Information processing device, information processing device control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022139564A (en) |
-
2021
- 2021-03-12 JP JP2021040008A patent/JP2022139564A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6953230B2 (en) | A device for setting a file name, etc. on a scanned image, its control method, and a program. | |
JP7034730B2 (en) | Devices, methods, and programs for setting information related to scanned images | |
JP2019128715A (en) | Device, method and program for setting information associated with scanned image | |
JP2012018576A (en) | Image processor, image processing method, and computer program | |
JP2010072842A (en) | Image processing apparatus and image processing method | |
JP7271149B2 (en) | Apparatus, method and program | |
US10069981B2 (en) | File transmission apparatus and image reading apparatus | |
JP7434001B2 (en) | Information processing device, program, information processing method | |
JP2017129926A (en) | Information processor, control method, and program | |
US11265431B2 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
JP6253354B2 (en) | Form reading device, program, and form reading system | |
JP2008052496A (en) | Image display device, method, program and recording medium | |
CN112615970B (en) | Method for controlling display of picture for setting metadata, storage medium and apparatus | |
US10832081B2 (en) | Image processing apparatus and non-transitory computer-readable computer medium storing an image processing program | |
JP2021184190A (en) | Image processing device, image processing method, and program | |
JP2022139564A (en) | Information processing device, information processing device control method, and program | |
JP2020024582A (en) | Image processing apparatus and method for controlling the same, and program | |
JP2022137608A (en) | Information processing apparatus, information processing method, and program | |
US11074392B2 (en) | Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode | |
JP2021164132A (en) | Image processing system and program | |
JP7150967B2 (en) | Apparatus, method, and program for setting information related to scanned images | |
JP5599041B2 (en) | Information processing apparatus, control method therefor, and program | |
JP2019159420A (en) | Image processing device, control method, and program therefor | |
US11475687B2 (en) | Information processing system | |
US20230315985A1 (en) | Non-transitory computer readable medium, information processing apparatus, method for processing information |