JP2021056732A - Data processing system, data processing method, and program - Google Patents
Data processing system, data processing method, and program Download PDFInfo
- Publication number
- JP2021056732A JP2021056732A JP2019178690A JP2019178690A JP2021056732A JP 2021056732 A JP2021056732 A JP 2021056732A JP 2019178690 A JP2019178690 A JP 2019178690A JP 2019178690 A JP2019178690 A JP 2019178690A JP 2021056732 A JP2021056732 A JP 2021056732A
- Authority
- JP
- Japan
- Prior art keywords
- user
- data processing
- workflow
- processing system
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims description 89
- 238000003672 processing method Methods 0.000 title claims description 4
- 238000000034 method Methods 0.000 claims description 47
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012015 optical character recognition Methods 0.000 description 41
- 239000007858 starting material Substances 0.000 description 15
- 230000006870 function Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、文字認識処理により抽出された文字列についてチェック作業を行うことができるデータ処理システム、データ処理方法、及びプログラムに関するものである。 The present invention relates to a data processing system, a data processing method, and a program capable of performing a check operation on a character string extracted by a character recognition process.
従来から、プリンタ機能、複写機能、ファクシミリ機能などの多機能を備えた画像処理装置である複合機では、帳票などの文書に対してOCR(Optical Character Recognition)処理することが広く知られている。OCR処理とは、スキャナなどを用いて、文書を読み取り、画像データに変換し、文字を取得する処理である。
OCR処理を用いることにより、一般的なオフィスで実施されている経費精算作業に代表される紙媒体の帳票からデジタルデータへの変換を伴う作業を自動化することが可能になり、データ入力作業における生産性の向上が期待できる。
Conventionally, it is widely known that a multifunction device, which is an image processing device having multiple functions such as a printer function, a copying function, and a facsimile function, performs OCR (Optical Character Recognition) processing on a document such as a form. The OCR process is a process of reading a document using a scanner or the like, converting it into image data, and acquiring characters.
By using OCR processing, it becomes possible to automate work that involves conversion of paper media forms to digital data, such as expense settlement work that is carried out in general offices, and production in data entry work. It can be expected to improve sex.
しかし、スキャナにより読み込まれた画像の品質や文字の状態にはばらつきが存在する。そのため、OCR処理の正解率は100%には到達せず、文字の誤認識が発生することがある。
そこで、OCR処理により取得された文字列に対しては、誤認識がないかをユーザが直接に確認し、必要があれば、修正をするチェック作業を行う必要がある。このようなチェック作業は、一般的に、PC(Personal Computer)や画像処理装置の表示部において行われる。
However, there are variations in the quality of images read by the scanner and the state of characters. Therefore, the correct answer rate of the OCR process does not reach 100%, and erroneous recognition of characters may occur.
Therefore, it is necessary for the user to directly check whether or not there is any erroneous recognition in the character string acquired by the OCR process, and if necessary, perform a check work to correct the character string. Such a check operation is generally performed on a display unit of a PC (Personal Computer) or an image processing device.
実際の業務では、チェック作業の正確性を向上させるため、複数のチェック者を配置し、複数のチェック者によるダブルチェックが行われる場合がある。その際、各チェック者が別のチェックツールを使ってチェックをしたり、後段のチェックには熟練したチェック者を配置したりするなどして、正確性をより向上させる工夫がなされている。
しかし、OCR処理により取得された文字列に対する、誤認識された文字の発見、指定、修正など作業は煩雑であるため、特に、多くの文書を対象に処理する場合には、チェック者の作業負担は重くなるという問題がある。
In actual work, in order to improve the accuracy of the check work, a plurality of checkers may be assigned and a double check may be performed by the plurality of checkers. At that time, each checker uses a different check tool to check, and a skilled checker is assigned to the subsequent check to further improve the accuracy.
However, since the work of finding, specifying, and correcting misrecognized characters for the character string acquired by OCR processing is complicated, the work burden of the checker is particularly high when processing many documents. Has the problem of being heavy.
そこで、個々の文字に対するOCR処理の精度を上げるために、企業名や住所等のデータベースが存在する場合、そうしたデータベースを辞書として用いる「突合(とつごう)」と呼ばれる手法がある。この手法によれば、文字列に誤認識された文字が含まれる場合であっても、例えば企業名を表す一定の長さの文字列全体について、辞書内の単語とのマッチングの程度や整合性に基づいて、OCR結果を補正することができる。
しかし、突合処理の際に、複数の選択候補文字列がユーザに提示されることがあるが、類似する多数の選択候補が提示される場合、その中から適切な文字列を選択することはチェック者にとっては負担が重い。
Therefore, in order to improve the accuracy of OCR processing for individual characters, if there is a database of company names, addresses, etc., there is a method called "totsugo" that uses such a database as a dictionary. According to this method, even if the character string contains misrecognized characters, for example, the degree and consistency of matching with the words in the dictionary for the entire character string of a certain length representing the company name. The OCR result can be corrected based on.
However, during the matching process, a plurality of selection candidate character strings may be presented to the user, but when a large number of similar selection candidates are presented, it is checked to select an appropriate character string from among them. It is a heavy burden for the person.
そこで、特許文献1では、文字列を修正する辞書をユーザに紐づけて備え、ユーザが頻繁に選択する文字列は正確である可能性が高いとみなして、選択された頻度の高い順に順位付けした選択候補をユーザに提示する手法が提案されている。
Therefore, in
しかし、特許文献1の手法では、帳票の種類を考慮することなく、ユーザごとの選択の頻度にしたがって、一律に順位を決めているため、様々な種類の帳票を処理するユーザにとっては適切な順位とならない可能性がある。すなわち、あるジャンルの帳票の処理で選択される頻度が高い文字列が、必ずしも、他のジャンルの帳票では適切であるとは限らない。
また、特許文献1の手法では、ユーザが選択した頻度を用いる際に、チェック作業を行うチェック者の熟練度も考慮されていない。したがって、提示される順位の信頼性も担保されていない。
However, in the method of
Further, in the method of
本発明は、文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより前記画像上の1又は2以上の文字列を抽出する抽出手段と、前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供手段と、有するデータ処理システムであって、前記チェック作業のワークフローの種別を判別する判別手段をさらに有し、前記提供手段は、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示することを特徴とする。 In the present invention, an extraction means for extracting one or more character strings on the image by performing character recognition processing on an image generated by reading a document, and checking the character strings are performed. A providing means for providing a user interface for being used, and a data processing system having the means for determining the type of the workflow of the check work, the providing means for modifying the character string. It is characterized in that a plurality of selection candidates are presented according to a priority determined for each of the determined workflow types.
本発明によれば、文字認識結果を修正するための選択候補がワークフローの種別ごとに決定された優先順位にしたがって提示されるため、チェック作業を行う負担を軽減することができる。 According to the present invention, since the selection candidates for modifying the character recognition result are presented according to the priority determined for each type of workflow, the burden of performing the check work can be reduced.
以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。 Hereinafter, examples for carrying out the present invention will be described with reference to the drawings. However, the examples described below are merely examples, and are not intended to limit the scope of the present invention to them. Moreover, not all combinations of features described in the following examples are essential for the means of solving the present invention.
<実施例1>
図1は、本実施例に係るデータ処理システムの全体構成を示す図である。
図1に示すように、画像処理装置100及びPC/サーバー端末101は、イーサネット(登録商標)や無線LANなどからなるLAN104に接続され、さらに、インターネット105に接続されている。また、モバイル端末103は、公衆無線通信網102などを介してインターネット105に接続されている。画像処理装置100、PC/サーバー端末101、及びモバイル端末103は、LAN104又は公衆無線通信網102を介してインターネット105に接続され、相互に通信可能となっている。なお、PC/サーバー端末101とモバイル端末103に関しては、いずれか一方がある構成でもよいし、PC/サーバー端末101やモバイル端末103などが実施する処理を画像処理装置100が行うように構成してもよい。
<Example 1>
FIG. 1 is a diagram showing an overall configuration of a data processing system according to this embodiment.
As shown in FIG. 1, the
画像処理装置100は、スキャナやプリンタを有する複合機である。本実施例に係るデータ処理システムにおいて、画像処理装置100は、帳票などの原稿を読み取るスキャン端末として利用され、原稿を読み取ったスキャン画像を生成する。また、画像処理装置100は、エラー通知や指示通知などの表示が行われる表示部や、スキャン操作や設定操作などの操作が行われるタッチパネルやハードボタンなどの操作部を有する。
The
PC/サーバー端末101は、画像処理装置100で生成されたスキャン画像を表示する。また、PC/サーバー端末101は、画像処理装置100が生成したスキャン画像の保存やOCR処理などを実施し、再利用可能なコンテンツデータを生成する。なお、PC/サーバー端末101は、クラウドやサーバーなどの不図示の外部ストレージとの通信も可能であり、保存した画像データやメタデータを外部ストレージへ送信することができる。
なお、本実施例では、画像処理装置100においてスキャン画像の保存、メタデータの生成、外部ストレージへの送信を行うものとするが、PC/サーバー端末101において同様の処理をしてもよい。
The PC /
In this embodiment, the
モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末である。本実施例に係るシステムにおいて、モバイル端末103は、PC/サーバー端末101と同様に、表示端末、操作端末、コンテンツデータ生成・保存端末などとして利用される。なお、表示、操作、メタデータ生成・コンテンツデータ生成・保存の機能などは、PC/サーバー端末101とモバイル端末103のいずれか一方のみが実施するようにしてもよい。
なお、以上の構成要素は、あくまで例示であり、すべての構成要素が本発明に必須というものではない。
The
The above components are merely examples, and not all components are essential to the present invention.
図2は、画像処理装置100のハードウェア構成を示すブロック図である。
制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115を備え、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
FIG. 2 is a block diagram showing a hardware configuration of the
The
CPU111は、記憶装置112に記憶された制御プログラムを読み出して、読取制御や送信制御などの各種制御を行う。
記憶装置112は、制御プログラム、画像データ、メタデータ、設定データ、処理結果データなどを格納し保存する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118、大容量記憶領域であるHDD119などを有する。
ROM117は、制御プログラムなどを保存する。
RAM118は、CPU111の主メモリであり、ワークエリア等の一時記憶領域として用いられる。
HDD119は、大容量記憶領域であるHDDであり、画像データ、メタデータなどを保存する記憶領域として用いられる。
The
The
The
The
The
ネットワークI/F部113は、制御部110(画像処理装置100)をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101やモバイル端末103等のLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。
The network I /
スキャナI/F部114は、スキャナ部120と制御部110とを接続するインタフェースである。スキャナ部120は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部114を介して制御部110に入力する。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピーやスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、または中止するためのボタンである。
その他、画像処理装置100には、図示しないプリンタ部等も備えられている。
以上のように、本実施例に係る画像処理装置100は、上述したハードウェア構成により、画像処理機能を提供する。
The scanner I /
The display / operation unit I /
In addition, the
As described above, the
次に、図7を用いて、本実施例における各種のワークフローについて説明する。なお、本実施例において、ワークフローとは、文書に対してデータ入力作業を行うための1又は2以上の処理(ロール)により定義された一連の作業手順である。なお、本実施例では、ワークフローの種別ごとに各ロールを実行する担当のユーザが予め定められている。
例えば、処理開始者がユーザAである請求書ワークフロー701を例にとると、まず、処理開始者であるユーザAが、請求書など文書についてOCR処理を行い、「企業名」、「合計金額」などの項目値を抽出した後、OCR結果をチェックする。次に、ユーザAがチェックしたOCR結果について、チェック者1として、ユーザBがチェックする。最後に、ユーザBがチェックしたOCR結果について、チェック者2として、ユーザCがさらにチェックした後、文書を請求書登録システム711に入力する。
Next, various workflows in this embodiment will be described with reference to FIG. 7. In this embodiment, the workflow is a series of work procedures defined by one or more processes (roles) for performing data input work on a document. In this embodiment, the user in charge of executing each role is predetermined for each type of workflow.
For example, taking the
また、旅費精算ワークフロー702を例にとると、まず、処理開始者であるユーザAが、旅費精算書などの文書についてOCR処理を行い、旅費の精算に必要な項目値を抽出した後、OCR結果をチェックする。次に、ユーザAがチェックしたOCR結果について、チェック者1として、ユーザDがチェックする。最後に、ユーザDがチェックしたOCR結果について、チェック者2として、ユーザEがさらにチェックした後、文書を旅費精算システム712に入力する。
Taking the travel
また、処理開始者がユーザBである請求書ワークフロー704を例にとると、まず、処理開始者であるユーザBが、領収書などの文書についてOCR処理を行い、「企業名」、「合計金額」などの項目値を抽出した後、OCR結果をチェックする。次に、ユーザBがチェックしたOCR結果について、チェック者1として、ユーザHがチェックする。最後に、ユーザHがチェックしたOCR結果について、チェック者2として、ユーザIがさらにチェックした後、文書を請求書登録システム711に入力する。
Taking the
このように、ワークフローは、処理開始者が同じユーザであっても、請求書、旅費精算、契約書などのデータ入力作業の対象となる文書が異なると、種別は異なると判別される。また、同じ請求書ワークフローであっても、処理開始者や、チェック者1、チェック者2が異なると、ワークフローの種別は異なると判断される。すなわち、ワークフローの種別の異同は、データ入力作業の対象となる文書の異同と、処理開始者やチェック者などの処理に携わるユーザの異同に基づいて判別される。
本実施例におけるデータ入力作業は、上述のようなワークフローに対して実行される。
In this way, even if the process startr is the same user, the workflow is determined to be of a different type if the documents to be the target of the data input work such as the invoice, the travel expense settlement, and the contract are different. Further, even in the same invoice workflow, if the processing starter, the
The data input work in this embodiment is executed for the workflow as described above.
図3は、画像処理装置100において実行される、文書が読み取られてから、文字認識処理が行われ、文書内の各項目値が登録されるまでの、データ入力作業の全体を示すフローチャートである。なお、図3のフローチャートにおける各処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
FIG. 3 is a flowchart showing the entire data input work executed by the
まず、ステップS301において、CPU111は、スキャナ部120によって原稿を読み取り、スキャン画像を生成する。
次に、ステップS302において、CPU111は、スキャン画像に対して、画像変換、傾き補正、二値化等のOCR処理の前処理を行い、続いて、スキャン画像上の文字領域の特定処理及びOCR処理を行う。このように、文書内の文字領域ごとにOCR処理により文字コードが得られた後、ユーザが必要とする項目値が抽出される。なお、本実施例において、文字とは、(狭義の)文字に限られず、数字や記号などを含む、OCR処理によりコード化されるものをいう。
First, in step S301, the
Next, in step S302, the
ここで、図4Aに、データ入力作業の対象となる文書401の一例を示す。ここでは、図4Aに示すとおり、文書401は請求書であるとする。
請求書には、例えば、「企業名」、「電話番号」、「合計金額」などの項目と、それらの項目に対応した項目値(例えば、「キヤノン」、「03−123−4567」、「¥11,286」)が含まれる。
Here, FIG. 4A shows an example of the
In the invoice, for example, items such as "company name", "telephone number", and "total amount" and item values corresponding to those items (for example, "Canon", "03-123-4567", " ¥ 11,286 ") is included.
項目値の抽出処理は、例えば、文書401を読み取ることにより取得されたスキャン画像において、ユーザが抽出対象の項目値が記載されている位置を指示することによって行われる。
The item value extraction process is performed, for example, by the user instructing the position where the item value to be extracted is described in the scanned image acquired by reading the
または、項目値の抽出処理は、抽出が必要な項目に対応する文字列をスキャン画像から検索し、予め定義された項目と項目値との位置関係に基づいて、ユーザの指示なしに自動的に行うことも可能である。
例えば、項目名「合計金額」の項目値を抽出する場合、処理対象の文書種別(この場合は、「請求書」)で「合計金額」の意を示す「請求金額」などの文字列を検索する。その結果、スキャン画像ら見つかった「御請求金額」の位置と、予め定義され、画像処理装置100に記憶されている「御請求金額」と金額の項目値の位置関係に基づいて、「合計金額」の項目値を検索する。この場合は、「「御請求金額」文字列の右側に金額の項目値が存在する」というルールに基づいて、項目値「¥11,286」が抽出される。
なお、以上に示した項目値抽出の手段はあくまで一例であり、ユーザが所望する情報が抽出されることについて手段は問わない。
Alternatively, the item value extraction process searches the scanned image for the character string corresponding to the item that needs to be extracted, and automatically based on the positional relationship between the predefined item and the item value, without any user instruction. It is also possible to do it.
For example, when extracting the item value of the item name "total amount", search for a character string such as "billing amount" indicating "total amount" in the document type to be processed (in this case, "invoice"). To do. As a result, based on the position of the "billed amount" found from the scanned image and the positional relationship between the "billed amount" defined in advance and stored in the
The item value extraction means shown above is merely an example, and the means for extracting the information desired by the user does not matter.
次に、ステップS303において、CPU111は、データ入力作業のワークフローの種別を判別する。
ワークフローの判別は、ステップS302で得られた項目値の中から、ワークフローの種別を判別するために必要な項目を抽出することにより行われる。ワークフローの種別を判別するために必要な項目とは、本実施例では、例えば、請求書であれば、「請求書」や「納品書」などの帳票のタイトル、発行元の企業名、品目や請求金額、日付のような項目である。これらの項目と各ワークフローとの結びつきの強さに基づいて、ワークフローを判別する。
ただし、ワークフローを判別する手法は、これには限られない。例えば、文書をスキャンする前に、表示・操作部121においてユーザがあらかじめ各ロールの内容を指示することによって、ワークフローを判別させるようにしてもよい。
Next, in step S303, the
The workflow is determined by extracting the items necessary for determining the workflow type from the item values obtained in step S302. In this embodiment, the items required to determine the type of workflow are, for example, in the case of an invoice, the title of a form such as "invoice" or "delivery note", the company name of the issuer, the item, and the like. Items such as billing amount and date. The workflow is determined based on the strength of the connection between these items and each workflow.
However, the method for determining the workflow is not limited to this. For example, before scanning the document, the user may instruct the contents of each role in advance on the display /
次に、ステップS304において、CPU111は、S304で判別した種別のワークフローにおいて各ロールを実行するユーザを特定する。
図5は、図7で図示したようなワークフローに携わるユーザをテーブルにした、ワークフローの種別ごとのユーザテーブル501の一例である。ユーザテーブル501には、図7で示したワークフロー701〜704について、帳票種類と、処理開始者、チェック者1、チェック者2である各ユーザ名が記載されている。ワークフローの種別ごとのユーザテーブル501は、あらかじめ作成され、記憶装置112に格納されている。
Next, in step S304, the
FIG. 5 is an example of a user table 501 for each type of workflow, in which users engaged in the workflow as shown in FIG. 7 are used as a table. In the user table 501, for the
ユーザテーブル501から、例えば、請求書ワークフロー701については、処理開始者がユーザA、次のチェックを行うチェック者1がユーザB、最後のチェックを行うチェック者2がユーザCであることが分かる。
From the user table 501, for example, for the
ワークフローの各ロールを実行するユーザが特定されると、次に、ステップS305において、順次、各ロールにおいて、項目値のチェック処理が行われる。チェック処理の詳細な説明については、図10で後述する。 When the user who executes each role of the workflow is specified, next, in step S305, the item value check process is sequentially performed in each role. A detailed description of the check process will be described later with reference to FIG.
次に、ステップS306において、CPU111は、ワークフローにおけるすべてのロールについて項目値のチェック処理が終了したか否かを判定する。
チェック処理が終了していなければ、次のロールについてチェック処理をするために、ステップS304に戻る。すべてのロールについてチェック処理が終了したら、ステップS307へ進む。
そして、ステップS307において、抽出した各項目値がシステムに入力されて、データ入力作業が終了する。
Next, in step S306, the
If the check process is not completed, the process returns to step S304 in order to perform the check process for the next role. When the check process for all the roles is completed, the process proceeds to step S307.
Then, in step S307, each extracted item value is input to the system, and the data input work is completed.
次に、図10のフローチャートを用いて、前述のステップS305において行われる項目値のチェック処理について説明する。
ここでは、処理開始者がユーザAである請求書ワークフロー701を例にして説明する。前述したように、請求書ワークフロー701は、処理開始者がユーザAであり、チェック者1がユーザBであり、チェック者2がユーザCである。なお、図10のフローチャートにおける処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
Next, the item value check process performed in step S305 described above will be described with reference to the flowchart of FIG.
Here, the
まず、ステップS1001において、CPU111は、ユーザがチェック処理をする項目値を選択する。そして、スキャン画像から項目値を抽出する元となる文字列画像と、その文字列画像をOCR処理することにより得られたOCR結果を取得する。
次に、ステップS1002において、CPU111は、S1001で取得したOCR結果を修正するための選択候補を、優先順位にしたがい、画像処理装置100に備えられた表示・操作部121にチェック用画面1101として表示する。なお、選択候補の優先順位は、図8で後述するスコア付きの選択候補リストに基づいて生成される。
First, in step S1001, the
Next, in step S1002, the
図11は、ユーザがチェック作業を行うためのユーザインターフェースであるチェック用画面1101の一例を示している。
チェック用画面1101には、図11(a)に示されるように、文書401のスキャン画像から抽出された文字列画像1102と、文字列画像1102をOCR処理して得られたOCR結果1103(ここでは、「キャノン」)が表示される。また、OCR結果1103の下には、ドロップダウンリストとして、OCR結果1103(「キャノン」)についての選択候補1104(「キヤノン」、「キュノン」など)が優先順位にしたがい表示される。
なお、選択候補1104の表示方法としては、これに限られず、OCR結果1103や文字列画像1102と対比しやすい位置に表示させればよい。
また、チェック用画面1101は、画像処理装置100に備えられた表示・操作部121に表示させることには限られず、PC101に備えられたモニタ(不図示)などに表示させてもよい。
FIG. 11 shows an example of the
As shown in FIG. 11A, the
The display method of the
Further, the
次に、ステップS1003において、チェック用画面1101に表示された選択候補1104の中から、ユーザによって1つが選択される。
選択候補からの選択は、チェック用画面1101において、ユーザが、選択候補1104の中から1つの選択候補をタッチしてから確定ボタン1105を押下したり、不図示のマウスを用いてクリックしたりすることによって実行される。
Next, in step S1003, one is selected by the user from the
To select from the selection candidates, the user touches one of the
次に、ステップS1004において、CPU111は、該当する種別のワークフローについてS1003で選択された選択候補のスコアを加算する。
例えば、チェック用画面1101においてユーザが選択候補1104の中から「キヤノン」を選択した場合、ワークフロー711について、後述するスコア付きの選択候補リスト内の「キヤノン」のスコアが加算される。なお、スコアを加算するスコア加算処理の詳細な説明については、図8などを用いて後述する。
Next, in step S1004, the
For example, when the user selects "Canon" from the
次に、ステップS1005において、CPU111は、文書401から抽出したすべての項目値についてチェック処理が終了したかを確認する。
すべての項目値についてチェック処理が終了した場合は、本フローチャートの処理を終了する。まだ修正していない項目値がある場合は、ステップS1001に戻って、次の未処理の項目値について、同様の処理を行う。
Next, in step S1005, the
When the check processing for all item values is completed, the processing of this flowchart is completed. If there is an item value that has not been corrected yet, the process returns to step S1001 and the same processing is performed for the next unprocessed item value.
次に、図4Bを用いて、前述のステップS1002で行われる、チェック用画面1101においてOCR結果を修正するための選択候補を表示する優先順位を決定する処理について説明する。なお、優先順位を決定する処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
Next, with reference to FIG. 4B, a process of determining the priority order for displaying the selection candidates for correcting the OCR result on the
ここでは、図4Aに示したような請求書である文書401から、OCR結果402として、文書401の発行元の企業名である「キャノン」という文字列が抽出されたものとして説明する。
このOCR結果402に対して、ROM117、HDD119等に記憶されている企業名辞書403の中から、突合処理によって選択候補リスト404が抽出される。この例では、選択候補リスト404には、企業名としてOCR結果402である「キャノン」と近いと判断された、「キヤノン」、「キヤソン」、「キヤノー」、「キャノン」、「キュノン」などの文字列が含まれている。
Here, it is assumed that the character string "Cannon", which is the company name of the issuer of the
With respect to the
次に、辞書マネージャ405が、該当する種別のワークフローにおける優先順位にしたがい、選択候補404の並べ替えを行う。この際、辞書マネージャ405は、スコア付き選択候補リスト格納テーブル408から、請求書ワークフロー701における「キャノン」についてのスコア付きの選択候補リストを抽出する。そして、スコア付きの選択候補リストに基づいて、優先順位付きの選択候補リスト410を出力する。
スコア付きの選択候補リストには、ワークフローの種別ごと、かつ、修正対象の文字列ごとに、それぞれ、選択候補のリストが、各選択候補が正解である可能性を示すスコアとともに、スコアが高い順に記載されている。なお、各選択候補のスコアは、該当する種別のワークフローを処理した各ユーザによって選択された累積頻度である。
Next, the
In the selection candidate list with scores, for each workflow type and for each character string to be modified, the selection candidate list is displayed in descending order of score, along with a score indicating that each selection candidate is likely to be the correct answer. Are listed. The score of each selection candidate is the cumulative frequency selected by each user who processed the workflow of the corresponding type.
図8に、スコア付き選択候補リスト格納テーブル408に格納されている、ワークフローの種別ごとのスコア付きの選択候補リストの例を示す。
(a)のスコア付きの選択候補リスト801には、ワークフロー701における文字列「キャノン」についての選択候補が、スコアが高い順に並べられている。優先順位付きの選択候補リスト410は、スコア付きの選択候補リスト801に基づいて生成される。
FIG. 8 shows an example of a selection candidate list with a score for each type of workflow stored in the selection candidate list storage table 408 with a score.
In the
次に、図6などを用いて、前述のステップS1004で行われる選択候補のスコア加算処理について説明する。
前述のステップS1003において、図4のチェック結果409、411、412に示されるとおり、各ユーザが請求書ワークフロー701における担当のロールについてチェック処理を行ったものとする。
すなわち、ワークフロー711において、ユーザAは、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。ユーザBも、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。また、ユーザCは、修正対象の文字列「キャノン」について、選択候補の中から「キュノン」を選択したとする。
Next, the score addition process of the selection candidate performed in the above-mentioned step S1004 will be described with reference to FIG.
In step S1003 described above, it is assumed that each user has performed a check process for the role in charge in the
That is, in the
そして、各ユーザが行ったチェック処理に基づいて、該当する種別のワークフローにおける各選択候補のスコアを加算していく。ここで、本実施例では、スコアを加算していく際に、ユーザごとの重みを考慮する。このように各ユーザのチェック処理に重みを付けてスコアを加算していくことにより、各ユーザのチェック処理の熟練度や信頼度を考慮することができるため、ワークフローの種別ごとに信頼性を増した選択候補の優先順位を得ることができる。 Then, based on the check process performed by each user, the scores of each selection candidate in the corresponding type of workflow are added. Here, in this embodiment, the weight for each user is taken into consideration when adding the scores. By weighting each user's check process and adding scores in this way, the skill level and reliability of each user's check process can be taken into consideration, so reliability is increased for each workflow type. The priority of the selected selection candidates can be obtained.
図6は、各ワークフローについて、ユーザごとの重みを記載したユーザ重みテーブル601の一例である。
例えば、請求書ワークフロー701、704では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1について「+2」、チェック者2について「+3」とされている。
また、旅費精算ワークフロー702では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1については「+3」、チェック者2については「+4」とされている。
この例のように、各ワークフローについて、ユーザごとに、修正に対する重みを変えることができる。特に、チェック者が複数存在する場合には、後にチェックを行うチェック者2の重みを高くすることが考えられる。
FIG. 6 is an example of a user weight table 601 in which weights for each user are described for each workflow.
For example, in the
Further, in the travel
As in this example, for each workflow, the weight for modification can be changed for each user. In particular, when there are a plurality of checkers, it is conceivable to increase the weight of the
この例では、図5のワークフローごとのユーザテーブル501から、ワークフロー701における処理開始者はユーザAであることが分かる。また、図6のユーザ重みテーブル601から、処理開始者の重みは「+1」であることが分かる。したがって、ワークフロー701において、ユーザAの重みは「+1」となる。
ユーザAは、チェック結果409に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアに1を加える。
In this example, from the user table 501 for each workflow in FIG. 5, it can be seen that the process starter in the
Since the user A has selected "Canon" as shown in the
同様に、ワークフロー701において、ユーザBはチェック者1であり、チェック者1の修正の重みは「+2」であることから、ユーザBの重みは「+2」となる。
ユーザBも、チェック結果411に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアにさらに2を加える。
Similarly, in the
Since the user B also selected "Canon" as shown in the
同様に、ワークフロー701において、ユーザCはチェック者2であり、チェック者2の重みは「+5」であることから、ユーザCの重みは「+5」となる。
ユーザCは、チェック結果412に示されるとおり、「キュノン」を選択したことから、選択候補優先順位リスト801において、「キュノン」のスコアに5を加える。
すなわち、この例では、S1004において、スコア加算処理により、選択候補優先順位リスト801(図8(a))に、図9にテーブル901として示したような加算スコアが加算される。
Similarly, in the
Since the user C has selected "Kyunon" as shown in the
That is, in this example, in S1004, the score addition process adds the addition score as shown in Table 901 in FIG. 9 to the selection candidate priority list 801 (FIG. 8A).
この結果、ワークフロー711における「キャノン」についての優先順位リスト801は、優先順位リスト802(図8(b))のとおり更新される。ここでは、優先順位1位が「キュノン」、2位が「キヤノン」となり、選択候補について優先順位が更新前から変更されている。
As a result, the
以上のとおり、実施例1によれば、OCR結果を修正するための選択候補がワークフローの種別ごとに優先順位にしたがって表示される。これにより、チェック処理におけるユーザの作業負担を軽減させることができる。 As described above, according to the first embodiment, the selection candidates for modifying the OCR result are displayed according to the priority order for each workflow type. As a result, the workload of the user in the check process can be reduced.
<実施例2>
実施例1では、ユーザに対してOCR結果を修正するための選択候補を提示し、その中から正しいものを選択させるようにした。ただし、提示された選択候補の中に選択すべき選択肢が存在しない場合も考えられる。例えば、企業名辞書403には現存する企業の名前のみが記憶されているものであるが、文書内に新規な企業名が記載されている場合も想定される。
そこで、実施例2では、提示された選択候補の中に適切な選択肢が存在しない場合に、選択候補を簡便に追加できるようにする。
<Example 2>
In the first embodiment, the user is presented with selection candidates for modifying the OCR result, and the correct one is selected from the selection candidates. However, it is possible that there is no option to be selected among the presented selection candidates. For example, although only the name of an existing company is stored in the
Therefore, in the second embodiment, when an appropriate option does not exist among the presented selection candidates, the selection candidate can be easily added.
実施例2では、実施例1で説明した図10のフローチャートのS1002で表示されるチェック用画面1101において、選択候補1104に加えて、新規追加欄1106を設ける。これにより、提示された選択候補以外の企業名を入力することができる。
そして、S1003においてユーザが新規追加欄1106に新たな企業名を入力すると、入力された企業名は企業名辞書403に追加される。チェック用画面1101において入力された新たな企業名は、次回以降、同じOCR結果がチェック処理の対象となった場合に、選択候補1104に追加されて表示される。
In the second embodiment, in the
Then, when the user inputs a new company name in the
<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
<Other Examples>
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device.
The present invention is not limited to the above-described examples, and various modifications can be made based on the gist of the present invention, and these are not excluded from the scope of the present invention. That is, all the configurations in which each of the above-described examples and modifications thereof are combined are also included in the present invention.
100 画像処理装置
401 文書
410 優先順位付きの選択候補リスト
1101 チェック用画面
100
Claims (14)
前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供手段と、有するデータ処理システムであって、
前記チェック作業のワークフローの種別を判別する判別手段をさらに有し、
前記提供手段は、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示する
ことを特徴とするデータ処理システム。 An extraction means for extracting one or more character strings on the image by performing character recognition processing on the image generated by reading the document.
A data processing system having a providing means for providing a user interface for checking the character string.
Further having a discriminating means for discriminating the type of workflow of the check work,
The providing means is a data processing system characterized in that a plurality of selection candidates for modifying the character string are presented according to a priority determined for each of the determined workflow types.
ことを特徴とする請求項1に記載のデータ処理システム。 The data processing system according to claim 1, wherein the determination means determines the type of the workflow based on the extracted character string.
ことを特徴とする請求項1に記載のデータ処理システム。 The data processing system according to claim 1, wherein the determination means determines the type of the workflow based on a user's instruction.
ことを特徴とする請求項1乃至3のいずれか1項に記載のデータ処理システム。 The data processing system according to any one of claims 1 to 3, wherein the workflow is composed of one or more roles.
ことを特徴とする請求項4に記載のデータ処理システム。 The data processing system according to claim 4, wherein a user who executes each of the roles is defined.
ことを特徴とする請求項1乃至5のいずれか1項に記載のデータ処理システム。 The data processing system according to any one of claims 1 to 5, wherein in the user interface, a user can select one selection candidate from the plurality of selection candidates.
ことを特徴とする請求項1乃至6のいずれか1項に記載のデータ処理システム。 The data according to any one of claims 1 to 6, wherein in the user interface, the user can select a selection candidate other than the plurality of selection candidates by inputting a character string. Processing system.
ことを特徴とする請求項6又は7に記載のデータ処理システム。 The data processing system according to claim 6 or 7, wherein each priority of the plurality of selection candidates is determined based on a score added by the selection for each type of workflow.
ことを特徴とする請求項8に記載のデータ処理システム。 The data processing system according to claim 8, wherein the score added by the selection is weighted for each user.
ことを特徴とする請求項1乃至9のいずれか1項に記載のデータ処理システム。 The data processing system according to any one of claims 1 to 9, further comprising a storage means for storing the selection candidates.
ことを特徴とする請求項10に記載のデータ処理システム。 The data processing system according to claim 10, wherein when a character string other than the plurality of selection candidates is input in the user interface, the storage means stores the input character string.
ことを特徴とする請求項1乃至11のいずれか1項に記載のデータ処理システム。 The data processing system according to any one of claims 1 to 11, further comprising a storage means for storing the document for which the check operation has been performed.
前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供工程と、有するデータ処理システムであって、
前記チェック作業のワークフローの種別を判別する判別工程をさらに有し、
前記提供工程において、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示する
ことを特徴とするデータ処理方法。 An extraction step of extracting one or more character strings on the image by performing character recognition processing on the image generated by reading the document.
A providing process for providing a user interface for checking the character string, and a data processing system having the same.
It further has a discriminating step for discriminating the type of workflow of the check work.
A data processing method, characterized in that, in the providing process, a plurality of selection candidates for modifying the character string are presented according to a priority determined for each of the determined workflow types.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178690A JP7414449B2 (en) | 2019-09-30 | 2019-09-30 | Data processing system, data processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019178690A JP7414449B2 (en) | 2019-09-30 | 2019-09-30 | Data processing system, data processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021056732A true JP2021056732A (en) | 2021-04-08 |
JP7414449B2 JP7414449B2 (en) | 2024-01-16 |
Family
ID=75270981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019178690A Active JP7414449B2 (en) | 2019-09-30 | 2019-09-30 | Data processing system, data processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7414449B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023028965A (en) * | 2021-08-20 | 2023-03-03 | 株式会社マネーフォワード | Voucher structure analysis system, voucher structure analysis method, and voucher structure analysis program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03214281A (en) * | 1990-01-19 | 1991-09-19 | Sony Corp | Character recognizing device |
JP2007233913A (en) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | Image processor and program |
JP2010073174A (en) * | 2008-09-22 | 2010-04-02 | Fuji Xerox Co Ltd | Document processing apparatus and program |
-
2019
- 2019-09-30 JP JP2019178690A patent/JP7414449B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03214281A (en) * | 1990-01-19 | 1991-09-19 | Sony Corp | Character recognizing device |
JP2007233913A (en) * | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | Image processor and program |
JP2010073174A (en) * | 2008-09-22 | 2010-04-02 | Fuji Xerox Co Ltd | Document processing apparatus and program |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023028965A (en) * | 2021-08-20 | 2023-03-03 | 株式会社マネーフォワード | Voucher structure analysis system, voucher structure analysis method, and voucher structure analysis program |
JP7241822B2 (en) | 2021-08-20 | 2023-03-17 | 株式会社マネーフォワード | Evidence Structure Analysis System, Evidence Structure Analysis Method, and Evidence Structure Analysis Program |
Also Published As
Publication number | Publication date |
---|---|
JP7414449B2 (en) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11151367B2 (en) | Image processing apparatus and image processing program | |
KR20200067238A (en) | Image processing apparatus, control method therefor, and storage medium | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
JP2017174309A (en) | Portable information device, server device, data input supporting system, and program | |
JP2022096218A (en) | Information processing apparatus, information processing system, control method for the same, and program | |
JP6734452B1 (en) | Information processing apparatus, information processing method, and computer program | |
US12020462B2 (en) | Information processing apparatus, information processing method, and computer program product | |
JP7040000B2 (en) | Image processing equipment and image processing program | |
JP7414449B2 (en) | Data processing system, data processing method, and program | |
JP2008197229A (en) | Speech recognition dictionary construction device and program | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
US20230306193A1 (en) | Information processing apparatus, non-transitory computer readable medium, and method for processing information | |
US20230306767A1 (en) | Information processing apparatus, non-transitory computer readable medium, and method for processing information | |
JP5243054B2 (en) | Data management system, method and program | |
JP6162860B1 (en) | User information input support system | |
US11363162B2 (en) | System and method for automated organization of scanned text documents | |
US11804055B2 (en) | Information processing apparatus, information processing method, and information processing system | |
JP6870159B1 (en) | Data processing equipment, data processing methods and programs | |
JP6707112B2 (en) | User information input support system | |
JP2014174754A (en) | Program and business form processing device | |
JP6397084B2 (en) | User information input support system | |
JP7298999B2 (en) | Material creation device, material creation system, material creation method and program | |
JP5708372B2 (en) | Document file difference extraction system, image processing apparatus, document file difference extraction method, and program | |
JP2021018520A (en) | Information processor, information processing method, and program | |
JP2005038205A (en) | Credit guarantee acceptance/refusal examination system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230718 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230915 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231228 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7414449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |