JP2021056732A - Data processing system, data processing method, and program - Google Patents

Data processing system, data processing method, and program Download PDF

Info

Publication number
JP2021056732A
JP2021056732A JP2019178690A JP2019178690A JP2021056732A JP 2021056732 A JP2021056732 A JP 2021056732A JP 2019178690 A JP2019178690 A JP 2019178690A JP 2019178690 A JP2019178690 A JP 2019178690A JP 2021056732 A JP2021056732 A JP 2021056732A
Authority
JP
Japan
Prior art keywords
user
data processing
workflow
processing system
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019178690A
Other languages
Japanese (ja)
Other versions
JP7414449B2 (en
Inventor
陽子 井戸
Yoko Ido
陽子 井戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2019178690A priority Critical patent/JP7414449B2/en
Publication of JP2021056732A publication Critical patent/JP2021056732A/en
Application granted granted Critical
Publication of JP7414449B2 publication Critical patent/JP7414449B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

To reduce burden on a user who performs check work when a plurality of selection candidates are presented in the check work by collating an OCR result of documents such as a form, and guarantee reliability of ranking by presenting the selection candidates in descending order of selected frequency for each user in consideration of genre of forms and checker's skill level.SOLUTION: In the present invention, prioritized selection candidates are presented to a user for each workflow. And the priority is updated by weighting of the user who performs check work. This allows decrease in burden of the check work because the selection candidates can be presented for each workflow and according to the priority in consideration of skill level of the user who performs the check work.SELECTED DRAWING: Figure 3

Description

本発明は、文字認識処理により抽出された文字列についてチェック作業を行うことができるデータ処理システム、データ処理方法、及びプログラムに関するものである。 The present invention relates to a data processing system, a data processing method, and a program capable of performing a check operation on a character string extracted by a character recognition process.

従来から、プリンタ機能、複写機能、ファクシミリ機能などの多機能を備えた画像処理装置である複合機では、帳票などの文書に対してOCR(Optical Character Recognition)処理することが広く知られている。OCR処理とは、スキャナなどを用いて、文書を読み取り、画像データに変換し、文字を取得する処理である。
OCR処理を用いることにより、一般的なオフィスで実施されている経費精算作業に代表される紙媒体の帳票からデジタルデータへの変換を伴う作業を自動化することが可能になり、データ入力作業における生産性の向上が期待できる。
Conventionally, it is widely known that a multifunction device, which is an image processing device having multiple functions such as a printer function, a copying function, and a facsimile function, performs OCR (Optical Character Recognition) processing on a document such as a form. The OCR process is a process of reading a document using a scanner or the like, converting it into image data, and acquiring characters.
By using OCR processing, it becomes possible to automate work that involves conversion of paper media forms to digital data, such as expense settlement work that is carried out in general offices, and production in data entry work. It can be expected to improve sex.

しかし、スキャナにより読み込まれた画像の品質や文字の状態にはばらつきが存在する。そのため、OCR処理の正解率は100%には到達せず、文字の誤認識が発生することがある。
そこで、OCR処理により取得された文字列に対しては、誤認識がないかをユーザが直接に確認し、必要があれば、修正をするチェック作業を行う必要がある。このようなチェック作業は、一般的に、PC(Personal Computer)や画像処理装置の表示部において行われる。
However, there are variations in the quality of images read by the scanner and the state of characters. Therefore, the correct answer rate of the OCR process does not reach 100%, and erroneous recognition of characters may occur.
Therefore, it is necessary for the user to directly check whether or not there is any erroneous recognition in the character string acquired by the OCR process, and if necessary, perform a check work to correct the character string. Such a check operation is generally performed on a display unit of a PC (Personal Computer) or an image processing device.

実際の業務では、チェック作業の正確性を向上させるため、複数のチェック者を配置し、複数のチェック者によるダブルチェックが行われる場合がある。その際、各チェック者が別のチェックツールを使ってチェックをしたり、後段のチェックには熟練したチェック者を配置したりするなどして、正確性をより向上させる工夫がなされている。
しかし、OCR処理により取得された文字列に対する、誤認識された文字の発見、指定、修正など作業は煩雑であるため、特に、多くの文書を対象に処理する場合には、チェック者の作業負担は重くなるという問題がある。
In actual work, in order to improve the accuracy of the check work, a plurality of checkers may be assigned and a double check may be performed by the plurality of checkers. At that time, each checker uses a different check tool to check, and a skilled checker is assigned to the subsequent check to further improve the accuracy.
However, since the work of finding, specifying, and correcting misrecognized characters for the character string acquired by OCR processing is complicated, the work burden of the checker is particularly high when processing many documents. Has the problem of being heavy.

そこで、個々の文字に対するOCR処理の精度を上げるために、企業名や住所等のデータベースが存在する場合、そうしたデータベースを辞書として用いる「突合(とつごう)」と呼ばれる手法がある。この手法によれば、文字列に誤認識された文字が含まれる場合であっても、例えば企業名を表す一定の長さの文字列全体について、辞書内の単語とのマッチングの程度や整合性に基づいて、OCR結果を補正することができる。
しかし、突合処理の際に、複数の選択候補文字列がユーザに提示されることがあるが、類似する多数の選択候補が提示される場合、その中から適切な文字列を選択することはチェック者にとっては負担が重い。
Therefore, in order to improve the accuracy of OCR processing for individual characters, if there is a database of company names, addresses, etc., there is a method called "totsugo" that uses such a database as a dictionary. According to this method, even if the character string contains misrecognized characters, for example, the degree and consistency of matching with the words in the dictionary for the entire character string of a certain length representing the company name. The OCR result can be corrected based on.
However, during the matching process, a plurality of selection candidate character strings may be presented to the user, but when a large number of similar selection candidates are presented, it is checked to select an appropriate character string from among them. It is a heavy burden for the person.

そこで、特許文献1では、文字列を修正する辞書をユーザに紐づけて備え、ユーザが頻繁に選択する文字列は正確である可能性が高いとみなして、選択された頻度の高い順に順位付けした選択候補をユーザに提示する手法が提案されている。 Therefore, in Patent Document 1, a dictionary for modifying a character string is provided in association with the user, and it is considered that the character string frequently selected by the user is likely to be accurate, and the character strings are ranked in descending order of frequency of selection. A method of presenting the selected selection candidates to the user has been proposed.

特開2000―194697号公報Japanese Unexamined Patent Publication No. 2000-194697

しかし、特許文献1の手法では、帳票の種類を考慮することなく、ユーザごとの選択の頻度にしたがって、一律に順位を決めているため、様々な種類の帳票を処理するユーザにとっては適切な順位とならない可能性がある。すなわち、あるジャンルの帳票の処理で選択される頻度が高い文字列が、必ずしも、他のジャンルの帳票では適切であるとは限らない。
また、特許文献1の手法では、ユーザが選択した頻度を用いる際に、チェック作業を行うチェック者の熟練度も考慮されていない。したがって、提示される順位の信頼性も担保されていない。
However, in the method of Patent Document 1, since the ranking is uniformly determined according to the frequency of selection for each user without considering the type of form, the ranking is appropriate for the user who processes various types of forms. May not be. That is, a character string that is frequently selected in the processing of a form of a certain genre is not always appropriate for a form of another genre.
Further, in the method of Patent Document 1, when the frequency selected by the user is used, the skill level of the checker who performs the check work is not taken into consideration. Therefore, the reliability of the order presented is not guaranteed.

本発明は、文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより前記画像上の1又は2以上の文字列を抽出する抽出手段と、前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供手段と、有するデータ処理システムであって、前記チェック作業のワークフローの種別を判別する判別手段をさらに有し、前記提供手段は、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示することを特徴とする。 In the present invention, an extraction means for extracting one or more character strings on the image by performing character recognition processing on an image generated by reading a document, and checking the character strings are performed. A providing means for providing a user interface for being used, and a data processing system having the means for determining the type of the workflow of the check work, the providing means for modifying the character string. It is characterized in that a plurality of selection candidates are presented according to a priority determined for each of the determined workflow types.

本発明によれば、文字認識結果を修正するための選択候補がワークフローの種別ごとに決定された優先順位にしたがって提示されるため、チェック作業を行う負担を軽減することができる。 According to the present invention, since the selection candidates for modifying the character recognition result are presented according to the priority determined for each type of workflow, the burden of performing the check work can be reduced.

データ処理システムの全体構成を示す図である。It is a figure which shows the whole structure of a data processing system. 画像読取装置のハードウェア構成例を示す図である。It is a figure which shows the hardware configuration example of an image reader. データ入力作業の全体を示すフローチャートである。It is a flowchart which shows the whole data input work. データ入力作業の対象となる文書の一例である。This is an example of a document that is the target of data entry work. 選択候補の優先順位を決定する処理を説明するための図である。It is a figure for demonstrating the process of determining the priority of selection candidates. ワークフローの種別ごとのユーザテーブルの一例である。This is an example of a user table for each workflow type. ユーザ重みテーブルの一例である。This is an example of a user weight table. ワークフローに携わるユーザを説明するための図である。It is a figure for demonstrating the user who is involved in a workflow. スコア付きの選択候補リストの一例である。This is an example of a selection candidate list with a score. スコア加算処理に用いられるテーブルの一例である。This is an example of a table used for score addition processing. チェック処理を示すフローチャートである。It is a flowchart which shows the check process. チェック用画面の一例である。This is an example of a check screen.

以下に、図面を参照して、本発明を実施するための実施例について説明する。ただし、以下に説明する実施例はあくまで例示であり、本発明の範囲をそれらに限定する趣旨のものではない。また、以下の実施例で説明されている特徴の組み合わせのすべてが本発明の解決手段に必須のものとは限らない。 Hereinafter, examples for carrying out the present invention will be described with reference to the drawings. However, the examples described below are merely examples, and are not intended to limit the scope of the present invention to them. Moreover, not all combinations of features described in the following examples are essential for the means of solving the present invention.

<実施例1>
図1は、本実施例に係るデータ処理システムの全体構成を示す図である。
図1に示すように、画像処理装置100及びPC/サーバー端末101は、イーサネット(登録商標)や無線LANなどからなるLAN104に接続され、さらに、インターネット105に接続されている。また、モバイル端末103は、公衆無線通信網102などを介してインターネット105に接続されている。画像処理装置100、PC/サーバー端末101、及びモバイル端末103は、LAN104又は公衆無線通信網102を介してインターネット105に接続され、相互に通信可能となっている。なお、PC/サーバー端末101とモバイル端末103に関しては、いずれか一方がある構成でもよいし、PC/サーバー端末101やモバイル端末103などが実施する処理を画像処理装置100が行うように構成してもよい。
<Example 1>
FIG. 1 is a diagram showing an overall configuration of a data processing system according to this embodiment.
As shown in FIG. 1, the image processing device 100 and the PC / server terminal 101 are connected to a LAN 104 made of Ethernet (registered trademark), a wireless LAN, or the like, and further connected to the Internet 105. Further, the mobile terminal 103 is connected to the Internet 105 via a public wireless communication network 102 or the like. The image processing device 100, the PC / server terminal 101, and the mobile terminal 103 are connected to the Internet 105 via the LAN 104 or the public wireless communication network 102, and can communicate with each other. The PC / server terminal 101 and the mobile terminal 103 may be configured to have either one, or the image processing device 100 may be configured to perform the processing performed by the PC / server terminal 101, the mobile terminal 103, or the like. May be good.

画像処理装置100は、スキャナやプリンタを有する複合機である。本実施例に係るデータ処理システムにおいて、画像処理装置100は、帳票などの原稿を読み取るスキャン端末として利用され、原稿を読み取ったスキャン画像を生成する。また、画像処理装置100は、エラー通知や指示通知などの表示が行われる表示部や、スキャン操作や設定操作などの操作が行われるタッチパネルやハードボタンなどの操作部を有する。 The image processing device 100 is a multifunction device having a scanner and a printer. In the data processing system according to the present embodiment, the image processing device 100 is used as a scanning terminal for reading a document such as a form, and generates a scanned image obtained by reading the document. Further, the image processing device 100 has a display unit for displaying error notifications and instruction notifications, and an operation unit such as a touch panel and hard buttons for performing operations such as scanning operations and setting operations.

PC/サーバー端末101は、画像処理装置100で生成されたスキャン画像を表示する。また、PC/サーバー端末101は、画像処理装置100が生成したスキャン画像の保存やOCR処理などを実施し、再利用可能なコンテンツデータを生成する。なお、PC/サーバー端末101は、クラウドやサーバーなどの不図示の外部ストレージとの通信も可能であり、保存した画像データやメタデータを外部ストレージへ送信することができる。
なお、本実施例では、画像処理装置100においてスキャン画像の保存、メタデータの生成、外部ストレージへの送信を行うものとするが、PC/サーバー端末101において同様の処理をしてもよい。
The PC / server terminal 101 displays the scanned image generated by the image processing device 100. In addition, the PC / server terminal 101 saves the scanned image generated by the image processing device 100, performs OCR processing, and the like to generate reusable content data. The PC / server terminal 101 can also communicate with an external storage (not shown) such as a cloud or a server, and can transmit the saved image data and metadata to the external storage.
In this embodiment, the image processing device 100 stores the scanned image, generates the metadata, and transmits the metadata to the external storage, but the PC / server terminal 101 may perform the same processing.

モバイル端末103は、操作部、無線通信部、ウェブブラウザを動作させるアプリ部を有するスマートフォンやタブレット端末である。本実施例に係るシステムにおいて、モバイル端末103は、PC/サーバー端末101と同様に、表示端末、操作端末、コンテンツデータ生成・保存端末などとして利用される。なお、表示、操作、メタデータ生成・コンテンツデータ生成・保存の機能などは、PC/サーバー端末101とモバイル端末103のいずれか一方のみが実施するようにしてもよい。
なお、以上の構成要素は、あくまで例示であり、すべての構成要素が本発明に必須というものではない。
The mobile terminal 103 is a smartphone or tablet terminal having an operation unit, a wireless communication unit, and an application unit for operating a web browser. In the system according to this embodiment, the mobile terminal 103 is used as a display terminal, an operation terminal, a content data generation / storage terminal, and the like, similarly to the PC / server terminal 101. It should be noted that the display, operation, metadata generation / content data generation / storage functions, etc. may be performed by only one of the PC / server terminal 101 and the mobile terminal 103.
The above components are merely examples, and not all components are essential to the present invention.

図2は、画像処理装置100のハードウェア構成を示すブロック図である。
制御部110は、CPU111、記憶装置112、ネットワークI/F部113、スキャナI/F部114、表示・操作部I/F部115を備え、これらはシステムバス116を介して互いに通信可能に接続されている。制御部110は、画像処理装置100全体の動作を制御する。
FIG. 2 is a block diagram showing a hardware configuration of the image processing device 100.
The control unit 110 includes a CPU 111, a storage device 112, a network I / F unit 113, a scanner I / F unit 114, and a display / operation unit I / F unit 115, which are communicably connected to each other via the system bus 116. Has been done. The control unit 110 controls the operation of the entire image processing device 100.

CPU111は、記憶装置112に記憶された制御プログラムを読み出して、読取制御や送信制御などの各種制御を行う。
記憶装置112は、制御プログラム、画像データ、メタデータ、設定データ、処理結果データなどを格納し保存する。記憶装置112は、不揮発性メモリであるROM117、揮発性メモリであるRAM118、大容量記憶領域であるHDD119などを有する。
ROM117は、制御プログラムなどを保存する。
RAM118は、CPU111の主メモリであり、ワークエリア等の一時記憶領域として用いられる。
HDD119は、大容量記憶領域であるHDDであり、画像データ、メタデータなどを保存する記憶領域として用いられる。
The CPU 111 reads the control program stored in the storage device 112 and performs various controls such as read control and transmission control.
The storage device 112 stores and stores the control program, image data, metadata, setting data, processing result data, and the like. The storage device 112 includes a ROM 117 which is a non-volatile memory, a RAM 118 which is a volatile memory, an HDD 119 which is a large-capacity storage area, and the like.
The ROM 117 stores a control program and the like.
The RAM 118 is the main memory of the CPU 111 and is used as a temporary storage area such as a work area.
The HDD 119 is an HDD that is a large-capacity storage area, and is used as a storage area for storing image data, metadata, and the like.

ネットワークI/F部113は、制御部110(画像処理装置100)をLAN104に接続するインタフェースである。ネットワークI/F部113は、PC/サーバー端末101やモバイル端末103等のLAN104上の外部装置に画像を送信したり、LAN104上の外部装置から各種情報を受信したりする。 The network I / F unit 113 is an interface for connecting the control unit 110 (image processing device 100) to the LAN 104. The network I / F unit 113 transmits an image to an external device on the LAN 104 such as a PC / server terminal 101 or a mobile terminal 103, and receives various information from the external device on the LAN 104.

スキャナI/F部114は、スキャナ部120と制御部110とを接続するインタフェースである。スキャナ部120は、原稿上の画像を読み取って画像データを生成し、スキャナI/F部114を介して制御部110に入力する。
表示・操作部I/F部115は、表示・操作部121と制御部110とを接続するインタフェースである。表示・操作部121には、タッチパネル機能を有する液晶表示部やテンキー、スタートボタン、キャンセルボタン等のハードキーが備えられている。スタートボタンは、コピーやスキャンの処理を開始させるためのボタンである。キャンセルボタンは画像処理装置100が実行中の処理を一時停止、または中止するためのボタンである。
その他、画像処理装置100には、図示しないプリンタ部等も備えられている。
以上のように、本実施例に係る画像処理装置100は、上述したハードウェア構成により、画像処理機能を提供する。
The scanner I / F unit 114 is an interface that connects the scanner unit 120 and the control unit 110. The scanner unit 120 reads an image on a document to generate image data, and inputs the image data to the control unit 110 via the scanner I / F unit 114.
The display / operation unit I / F unit 115 is an interface for connecting the display / operation unit 121 and the control unit 110. The display / operation unit 121 is provided with a liquid crystal display unit having a touch panel function and hard keys such as a numeric keypad, a start button, and a cancel button. The start button is a button for starting the copy or scan process. The cancel button is a button for suspending or canceling the processing being executed by the image processing device 100.
In addition, the image processing device 100 is also provided with a printer unit and the like (not shown).
As described above, the image processing apparatus 100 according to the present embodiment provides the image processing function by the hardware configuration described above.

次に、図7を用いて、本実施例における各種のワークフローについて説明する。なお、本実施例において、ワークフローとは、文書に対してデータ入力作業を行うための1又は2以上の処理(ロール)により定義された一連の作業手順である。なお、本実施例では、ワークフローの種別ごとに各ロールを実行する担当のユーザが予め定められている。
例えば、処理開始者がユーザAである請求書ワークフロー701を例にとると、まず、処理開始者であるユーザAが、請求書など文書についてOCR処理を行い、「企業名」、「合計金額」などの項目値を抽出した後、OCR結果をチェックする。次に、ユーザAがチェックしたOCR結果について、チェック者1として、ユーザBがチェックする。最後に、ユーザBがチェックしたOCR結果について、チェック者2として、ユーザCがさらにチェックした後、文書を請求書登録システム711に入力する。
Next, various workflows in this embodiment will be described with reference to FIG. 7. In this embodiment, the workflow is a series of work procedures defined by one or more processes (roles) for performing data input work on a document. In this embodiment, the user in charge of executing each role is predetermined for each type of workflow.
For example, taking the invoice workflow 701 in which the processing starter is user A as an example, first, the processing starter user A performs OCR processing on a document such as an invoice, and "company name" and "total amount". After extracting the item values such as, check the OCR result. Next, the user B checks the OCR result checked by the user A as the checker 1. Finally, as the checker 2, the user C further checks the OCR result checked by the user B, and then inputs the document into the invoice registration system 711.

また、旅費精算ワークフロー702を例にとると、まず、処理開始者であるユーザAが、旅費精算書などの文書についてOCR処理を行い、旅費の精算に必要な項目値を抽出した後、OCR結果をチェックする。次に、ユーザAがチェックしたOCR結果について、チェック者1として、ユーザDがチェックする。最後に、ユーザDがチェックしたOCR結果について、チェック者2として、ユーザEがさらにチェックした後、文書を旅費精算システム712に入力する。 Taking the travel expense settlement workflow 702 as an example, first, the user A who is the processing starter performs OCR processing on a document such as the travel expense settlement report, extracts the item values necessary for the travel expense settlement, and then obtains the OCR result. Check. Next, the user D checks the OCR result checked by the user A as the checker 1. Finally, as the checker 2, the user E further checks the OCR result checked by the user D, and then inputs the document into the travel expense settlement system 712.

また、処理開始者がユーザBである請求書ワークフロー704を例にとると、まず、処理開始者であるユーザBが、領収書などの文書についてOCR処理を行い、「企業名」、「合計金額」などの項目値を抽出した後、OCR結果をチェックする。次に、ユーザBがチェックしたOCR結果について、チェック者1として、ユーザHがチェックする。最後に、ユーザHがチェックしたOCR結果について、チェック者2として、ユーザIがさらにチェックした後、文書を請求書登録システム711に入力する。 Taking the invoice workflow 704 in which the processing starter is the user B as an example, first, the processing starter user B performs OCR processing on a document such as a receipt, and then performs the "company name" and "total amount". After extracting the item values such as ", the OCR result is checked. Next, the user H checks the OCR result checked by the user B as the checker 1. Finally, as the checker 2, the user I further checks the OCR result checked by the user H, and then inputs the document into the invoice registration system 711.

このように、ワークフローは、処理開始者が同じユーザであっても、請求書、旅費精算、契約書などのデータ入力作業の対象となる文書が異なると、種別は異なると判別される。また、同じ請求書ワークフローであっても、処理開始者や、チェック者1、チェック者2が異なると、ワークフローの種別は異なると判断される。すなわち、ワークフローの種別の異同は、データ入力作業の対象となる文書の異同と、処理開始者やチェック者などの処理に携わるユーザの異同に基づいて判別される。
本実施例におけるデータ入力作業は、上述のようなワークフローに対して実行される。
In this way, even if the process startr is the same user, the workflow is determined to be of a different type if the documents to be the target of the data input work such as the invoice, the travel expense settlement, and the contract are different. Further, even in the same invoice workflow, if the processing starter, the checker 1 and the checker 2 are different, it is determined that the workflow type is different. That is, the difference in the type of workflow is determined based on the difference in the document to be the target of the data input work and the difference in the users involved in the processing such as the processing starter and the checker.
The data input work in this embodiment is executed for the workflow as described above.

図3は、画像処理装置100において実行される、文書が読み取られてから、文字認識処理が行われ、文書内の各項目値が登録されるまでの、データ入力作業の全体を示すフローチャートである。なお、図3のフローチャートにおける各処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。 FIG. 3 is a flowchart showing the entire data input work executed by the image processing device 100 from the reading of the document to the character recognition processing and the registration of each item value in the document. .. Each process in the flowchart of FIG. 3 is realized by the CPU 111 executing a control program stored in the ROM 117, HDD 119, or the like.

まず、ステップS301において、CPU111は、スキャナ部120によって原稿を読み取り、スキャン画像を生成する。
次に、ステップS302において、CPU111は、スキャン画像に対して、画像変換、傾き補正、二値化等のOCR処理の前処理を行い、続いて、スキャン画像上の文字領域の特定処理及びOCR処理を行う。このように、文書内の文字領域ごとにOCR処理により文字コードが得られた後、ユーザが必要とする項目値が抽出される。なお、本実施例において、文字とは、(狭義の)文字に限られず、数字や記号などを含む、OCR処理によりコード化されるものをいう。
First, in step S301, the CPU 111 reads the original by the scanner unit 120 and generates a scanned image.
Next, in step S302, the CPU 111 performs preprocessing for OCR processing such as image conversion, tilt correction, and binarization on the scanned image, and subsequently, identification processing and OCR processing for a character area on the scanned image. I do. In this way, after the character code is obtained by OCR processing for each character area in the document, the item values required by the user are extracted. In this embodiment, the characters are not limited to (narrowly defined) characters, but include numbers, symbols, and the like, which are coded by OCR processing.

ここで、図4Aに、データ入力作業の対象となる文書401の一例を示す。ここでは、図4Aに示すとおり、文書401は請求書であるとする。
請求書には、例えば、「企業名」、「電話番号」、「合計金額」などの項目と、それらの項目に対応した項目値(例えば、「キヤノン」、「03−123−4567」、「¥11,286」)が含まれる。
Here, FIG. 4A shows an example of the document 401 that is the target of the data input work. Here, document 401 is assumed to be an invoice, as shown in FIG. 4A.
In the invoice, for example, items such as "company name", "telephone number", and "total amount" and item values corresponding to those items (for example, "Canon", "03-123-4567", " ¥ 11,286 ") is included.

項目値の抽出処理は、例えば、文書401を読み取ることにより取得されたスキャン画像において、ユーザが抽出対象の項目値が記載されている位置を指示することによって行われる。 The item value extraction process is performed, for example, by the user instructing the position where the item value to be extracted is described in the scanned image acquired by reading the document 401.

または、項目値の抽出処理は、抽出が必要な項目に対応する文字列をスキャン画像から検索し、予め定義された項目と項目値との位置関係に基づいて、ユーザの指示なしに自動的に行うことも可能である。
例えば、項目名「合計金額」の項目値を抽出する場合、処理対象の文書種別(この場合は、「請求書」)で「合計金額」の意を示す「請求金額」などの文字列を検索する。その結果、スキャン画像ら見つかった「御請求金額」の位置と、予め定義され、画像処理装置100に記憶されている「御請求金額」と金額の項目値の位置関係に基づいて、「合計金額」の項目値を検索する。この場合は、「「御請求金額」文字列の右側に金額の項目値が存在する」というルールに基づいて、項目値「¥11,286」が抽出される。
なお、以上に示した項目値抽出の手段はあくまで一例であり、ユーザが所望する情報が抽出されることについて手段は問わない。
Alternatively, the item value extraction process searches the scanned image for the character string corresponding to the item that needs to be extracted, and automatically based on the positional relationship between the predefined item and the item value, without any user instruction. It is also possible to do it.
For example, when extracting the item value of the item name "total amount", search for a character string such as "billing amount" indicating "total amount" in the document type to be processed (in this case, "invoice"). To do. As a result, based on the position of the "billed amount" found from the scanned image and the positional relationship between the "billed amount" defined in advance and stored in the image processing device 100 and the item value of the amount, the "total amount" Search for the item value. In this case, the item value "¥ 11,286" is extracted based on the rule that "the item value of the amount exists on the right side of the" billed amount "character string".
The item value extraction means shown above is merely an example, and the means for extracting the information desired by the user does not matter.

次に、ステップS303において、CPU111は、データ入力作業のワークフローの種別を判別する。
ワークフローの判別は、ステップS302で得られた項目値の中から、ワークフローの種別を判別するために必要な項目を抽出することにより行われる。ワークフローの種別を判別するために必要な項目とは、本実施例では、例えば、請求書であれば、「請求書」や「納品書」などの帳票のタイトル、発行元の企業名、品目や請求金額、日付のような項目である。これらの項目と各ワークフローとの結びつきの強さに基づいて、ワークフローを判別する。
ただし、ワークフローを判別する手法は、これには限られない。例えば、文書をスキャンする前に、表示・操作部121においてユーザがあらかじめ各ロールの内容を指示することによって、ワークフローを判別させるようにしてもよい。
Next, in step S303, the CPU 111 determines the type of workflow for the data input work.
The workflow is determined by extracting the items necessary for determining the workflow type from the item values obtained in step S302. In this embodiment, the items required to determine the type of workflow are, for example, in the case of an invoice, the title of a form such as "invoice" or "delivery note", the company name of the issuer, the item, and the like. Items such as billing amount and date. The workflow is determined based on the strength of the connection between these items and each workflow.
However, the method for determining the workflow is not limited to this. For example, before scanning the document, the user may instruct the contents of each role in advance on the display / operation unit 121 to determine the workflow.

次に、ステップS304において、CPU111は、S304で判別した種別のワークフローにおいて各ロールを実行するユーザを特定する。
図5は、図7で図示したようなワークフローに携わるユーザをテーブルにした、ワークフローの種別ごとのユーザテーブル501の一例である。ユーザテーブル501には、図7で示したワークフロー701〜704について、帳票種類と、処理開始者、チェック者1、チェック者2である各ユーザ名が記載されている。ワークフローの種別ごとのユーザテーブル501は、あらかじめ作成され、記憶装置112に格納されている。
Next, in step S304, the CPU 111 identifies a user who executes each role in the workflow of the type determined in S304.
FIG. 5 is an example of a user table 501 for each type of workflow, in which users engaged in the workflow as shown in FIG. 7 are used as a table. In the user table 501, for the workflows 701 to 704 shown in FIG. 7, the form type and each user name of the processing starter, the checker 1, and the checker 2 are described. The user table 501 for each type of workflow is created in advance and stored in the storage device 112.

ユーザテーブル501から、例えば、請求書ワークフロー701については、処理開始者がユーザA、次のチェックを行うチェック者1がユーザB、最後のチェックを行うチェック者2がユーザCであることが分かる。 From the user table 501, for example, for the invoice workflow 701, it can be seen that the processing starter is user A, the checker 1 who performs the next check is user B, and the checker 2 who performs the final check is user C.

ワークフローの各ロールを実行するユーザが特定されると、次に、ステップS305において、順次、各ロールにおいて、項目値のチェック処理が行われる。チェック処理の詳細な説明については、図10で後述する。 When the user who executes each role of the workflow is specified, next, in step S305, the item value check process is sequentially performed in each role. A detailed description of the check process will be described later with reference to FIG.

次に、ステップS306において、CPU111は、ワークフローにおけるすべてのロールについて項目値のチェック処理が終了したか否かを判定する。
チェック処理が終了していなければ、次のロールについてチェック処理をするために、ステップS304に戻る。すべてのロールについてチェック処理が終了したら、ステップS307へ進む。
そして、ステップS307において、抽出した各項目値がシステムに入力されて、データ入力作業が終了する。
Next, in step S306, the CPU 111 determines whether or not the item value check process has been completed for all the roles in the workflow.
If the check process is not completed, the process returns to step S304 in order to perform the check process for the next role. When the check process for all the roles is completed, the process proceeds to step S307.
Then, in step S307, each extracted item value is input to the system, and the data input work is completed.

次に、図10のフローチャートを用いて、前述のステップS305において行われる項目値のチェック処理について説明する。
ここでは、処理開始者がユーザAである請求書ワークフロー701を例にして説明する。前述したように、請求書ワークフロー701は、処理開始者がユーザAであり、チェック者1がユーザBであり、チェック者2がユーザCである。なお、図10のフローチャートにおける処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。
Next, the item value check process performed in step S305 described above will be described with reference to the flowchart of FIG.
Here, the invoice workflow 701 in which the processing starter is the user A will be described as an example. As described above, in the invoice workflow 701, the processing starter is the user A, the checker 1 is the user B, and the checker 2 is the user C. The processing in the flowchart of FIG. 10 is realized by the CPU 111 executing a control program stored in the ROM 117, HDD 119, or the like.

まず、ステップS1001において、CPU111は、ユーザがチェック処理をする項目値を選択する。そして、スキャン画像から項目値を抽出する元となる文字列画像と、その文字列画像をOCR処理することにより得られたOCR結果を取得する。
次に、ステップS1002において、CPU111は、S1001で取得したOCR結果を修正するための選択候補を、優先順位にしたがい、画像処理装置100に備えられた表示・操作部121にチェック用画面1101として表示する。なお、選択候補の優先順位は、図8で後述するスコア付きの選択候補リストに基づいて生成される。
First, in step S1001, the CPU 111 selects an item value to be checked by the user. Then, the character string image that is the source for extracting the item value from the scanned image and the OCR result obtained by performing the OCR processing on the character string image are acquired.
Next, in step S1002, the CPU 111 displays the selection candidates for correcting the OCR result acquired in S1001 as a check screen 1101 on the display / operation unit 121 provided in the image processing device 100 according to the priority order. To do. The priority of the selection candidates is generated based on the selection candidate list with a score described later in FIG.

図11は、ユーザがチェック作業を行うためのユーザインターフェースであるチェック用画面1101の一例を示している。
チェック用画面1101には、図11(a)に示されるように、文書401のスキャン画像から抽出された文字列画像1102と、文字列画像1102をOCR処理して得られたOCR結果1103(ここでは、「キャノン」)が表示される。また、OCR結果1103の下には、ドロップダウンリストとして、OCR結果1103(「キャノン」)についての選択候補1104(「キヤノン」、「キュノン」など)が優先順位にしたがい表示される。
なお、選択候補1104の表示方法としては、これに限られず、OCR結果1103や文字列画像1102と対比しやすい位置に表示させればよい。
また、チェック用画面1101は、画像処理装置100に備えられた表示・操作部121に表示させることには限られず、PC101に備えられたモニタ(不図示)などに表示させてもよい。
FIG. 11 shows an example of the check screen 1101 which is a user interface for the user to perform the check work.
As shown in FIG. 11A, the check screen 1101 shows the character string image 1102 extracted from the scanned image of the document 401 and the OCR result 1103 obtained by performing OCR processing on the character string image 1102 (here). Then, "Cannon") is displayed. Further, below the OCR result 1103, selection candidates 1104 (“Canon”, “Kyunon”, etc.) for the OCR result 1103 (“Canon”) are displayed as a drop-down list according to the priority order.
The display method of the selection candidate 1104 is not limited to this, and may be displayed at a position that can be easily compared with the OCR result 1103 or the character string image 1102.
Further, the check screen 1101 is not limited to being displayed on the display / operation unit 121 provided in the image processing device 100, and may be displayed on a monitor (not shown) provided in the PC 101 or the like.

次に、ステップS1003において、チェック用画面1101に表示された選択候補1104の中から、ユーザによって1つが選択される。
選択候補からの選択は、チェック用画面1101において、ユーザが、選択候補1104の中から1つの選択候補をタッチしてから確定ボタン1105を押下したり、不図示のマウスを用いてクリックしたりすることによって実行される。
Next, in step S1003, one is selected by the user from the selection candidates 1104 displayed on the check screen 1101.
To select from the selection candidates, the user touches one of the selection candidates 1104 on the check screen 1101 and then presses the confirmation button 1105 or clicks with a mouse (not shown). Is carried out by.

次に、ステップS1004において、CPU111は、該当する種別のワークフローについてS1003で選択された選択候補のスコアを加算する。
例えば、チェック用画面1101においてユーザが選択候補1104の中から「キヤノン」を選択した場合、ワークフロー711について、後述するスコア付きの選択候補リスト内の「キヤノン」のスコアが加算される。なお、スコアを加算するスコア加算処理の詳細な説明については、図8などを用いて後述する。
Next, in step S1004, the CPU 111 adds the scores of the selection candidates selected in S1003 for the workflow of the corresponding type.
For example, when the user selects "Canon" from the selection candidates 1104 on the check screen 1101, the score of "Canon" in the selection candidate list with a score described later is added to the workflow 711. A detailed description of the score addition process for adding scores will be described later with reference to FIG. 8 and the like.

次に、ステップS1005において、CPU111は、文書401から抽出したすべての項目値についてチェック処理が終了したかを確認する。
すべての項目値についてチェック処理が終了した場合は、本フローチャートの処理を終了する。まだ修正していない項目値がある場合は、ステップS1001に戻って、次の未処理の項目値について、同様の処理を行う。
Next, in step S1005, the CPU 111 confirms whether the check process has been completed for all the item values extracted from the document 401.
When the check processing for all item values is completed, the processing of this flowchart is completed. If there is an item value that has not been corrected yet, the process returns to step S1001 and the same processing is performed for the next unprocessed item value.

次に、図4Bを用いて、前述のステップS1002で行われる、チェック用画面1101においてOCR結果を修正するための選択候補を表示する優先順位を決定する処理について説明する。なお、優先順位を決定する処理は、CPU111がROM117、HDD119等に記憶された制御プログラムを実行することにより実現される。 Next, with reference to FIG. 4B, a process of determining the priority order for displaying the selection candidates for correcting the OCR result on the check screen 1101 performed in the above-mentioned step S1002 will be described. The process of determining the priority order is realized by the CPU 111 executing the control program stored in the ROM 117, the HDD 119, or the like.

ここでは、図4Aに示したような請求書である文書401から、OCR結果402として、文書401の発行元の企業名である「キャノン」という文字列が抽出されたものとして説明する。
このOCR結果402に対して、ROM117、HDD119等に記憶されている企業名辞書403の中から、突合処理によって選択候補リスト404が抽出される。この例では、選択候補リスト404には、企業名としてOCR結果402である「キャノン」と近いと判断された、「キヤノン」、「キヤソン」、「キヤノー」、「キャノン」、「キュノン」などの文字列が含まれている。
Here, it is assumed that the character string "Cannon", which is the company name of the issuer of the document 401, is extracted as the OCR result 402 from the document 401 which is the invoice as shown in FIG. 4A.
With respect to the OCR result 402, the selection candidate list 404 is extracted from the company name dictionary 403 stored in the ROM 117, HDD 119, etc. by the matching process. In this example, in the selection candidate list 404, "Canon", "Canon", "Canon", "Canon", "Kyunon", etc., which are judged to be close to "Canon" having an OCR result 402 as a company name, etc. Contains a string.

次に、辞書マネージャ405が、該当する種別のワークフローにおける優先順位にしたがい、選択候補404の並べ替えを行う。この際、辞書マネージャ405は、スコア付き選択候補リスト格納テーブル408から、請求書ワークフロー701における「キャノン」についてのスコア付きの選択候補リストを抽出する。そして、スコア付きの選択候補リストに基づいて、優先順位付きの選択候補リスト410を出力する。
スコア付きの選択候補リストには、ワークフローの種別ごと、かつ、修正対象の文字列ごとに、それぞれ、選択候補のリストが、各選択候補が正解である可能性を示すスコアとともに、スコアが高い順に記載されている。なお、各選択候補のスコアは、該当する種別のワークフローを処理した各ユーザによって選択された累積頻度である。
Next, the dictionary manager 405 sorts the selection candidates 404 according to the priority in the workflow of the corresponding type. At this time, the dictionary manager 405 extracts a scored selection candidate list for "Cannon" in the invoice workflow 701 from the scored selection candidate list storage table 408. Then, the selection candidate list 410 with a priority is output based on the selection candidate list with a score.
In the selection candidate list with scores, for each workflow type and for each character string to be modified, the selection candidate list is displayed in descending order of score, along with a score indicating that each selection candidate is likely to be the correct answer. Are listed. The score of each selection candidate is the cumulative frequency selected by each user who processed the workflow of the corresponding type.

図8に、スコア付き選択候補リスト格納テーブル408に格納されている、ワークフローの種別ごとのスコア付きの選択候補リストの例を示す。
(a)のスコア付きの選択候補リスト801には、ワークフロー701における文字列「キャノン」についての選択候補が、スコアが高い順に並べられている。優先順位付きの選択候補リスト410は、スコア付きの選択候補リスト801に基づいて生成される。
FIG. 8 shows an example of a selection candidate list with a score for each type of workflow stored in the selection candidate list storage table 408 with a score.
In the selection candidate list 801 with the score of (a), the selection candidates for the character string "Cannon" in the workflow 701 are arranged in descending order of the score. The prioritized selection candidate list 410 is generated based on the scored selection candidate list 801.

次に、図6などを用いて、前述のステップS1004で行われる選択候補のスコア加算処理について説明する。
前述のステップS1003において、図4のチェック結果409、411、412に示されるとおり、各ユーザが請求書ワークフロー701における担当のロールについてチェック処理を行ったものとする。
すなわち、ワークフロー711において、ユーザAは、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。ユーザBも、修正対象の文字列「キャノン」について、選択候補の中から「キヤノン」を選択したとする。また、ユーザCは、修正対象の文字列「キャノン」について、選択候補の中から「キュノン」を選択したとする。
Next, the score addition process of the selection candidate performed in the above-mentioned step S1004 will be described with reference to FIG.
In step S1003 described above, it is assumed that each user has performed a check process for the role in charge in the invoice workflow 701 as shown in the check results 409, 411, 412 of FIG.
That is, in the workflow 711, it is assumed that the user A selects "Canon" from the selection candidates for the character string "Canon" to be corrected. It is assumed that the user B also selects "Canon" from the selection candidates for the character string "Canon" to be corrected. Further, it is assumed that the user C selects "Kyunon" from the selection candidates for the character string "Cannon" to be corrected.

そして、各ユーザが行ったチェック処理に基づいて、該当する種別のワークフローにおける各選択候補のスコアを加算していく。ここで、本実施例では、スコアを加算していく際に、ユーザごとの重みを考慮する。このように各ユーザのチェック処理に重みを付けてスコアを加算していくことにより、各ユーザのチェック処理の熟練度や信頼度を考慮することができるため、ワークフローの種別ごとに信頼性を増した選択候補の優先順位を得ることができる。 Then, based on the check process performed by each user, the scores of each selection candidate in the corresponding type of workflow are added. Here, in this embodiment, the weight for each user is taken into consideration when adding the scores. By weighting each user's check process and adding scores in this way, the skill level and reliability of each user's check process can be taken into consideration, so reliability is increased for each workflow type. The priority of the selected selection candidates can be obtained.

図6は、各ワークフローについて、ユーザごとの重みを記載したユーザ重みテーブル601の一例である。
例えば、請求書ワークフロー701、704では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1について「+2」、チェック者2について「+3」とされている。
また、旅費精算ワークフロー702では、各ユーザの修正に対する重みが、処理開始者については「+1」、チェック者1については「+3」、チェック者2については「+4」とされている。
この例のように、各ワークフローについて、ユーザごとに、修正に対する重みを変えることができる。特に、チェック者が複数存在する場合には、後にチェックを行うチェック者2の重みを高くすることが考えられる。
FIG. 6 is an example of a user weight table 601 in which weights for each user are described for each workflow.
For example, in the invoice workflows 701 and 704, the weight for each user's modification is "+1" for the processing starter, "+2" for the checker 1, and "+3" for the checker 2.
Further, in the travel expense settlement workflow 702, the weight for each user's modification is "+1" for the processing starter, "+3" for the checker 1, and "+4" for the checker 2.
As in this example, for each workflow, the weight for modification can be changed for each user. In particular, when there are a plurality of checkers, it is conceivable to increase the weight of the checker 2 who checks later.

この例では、図5のワークフローごとのユーザテーブル501から、ワークフロー701における処理開始者はユーザAであることが分かる。また、図6のユーザ重みテーブル601から、処理開始者の重みは「+1」であることが分かる。したがって、ワークフロー701において、ユーザAの重みは「+1」となる。
ユーザAは、チェック結果409に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアに1を加える。
In this example, from the user table 501 for each workflow in FIG. 5, it can be seen that the process starter in the workflow 701 is the user A. Further, from the user weight table 601 of FIG. 6, it can be seen that the weight of the processing starter is "+1". Therefore, in workflow 701, the weight of user A is "+1".
Since the user A has selected "Canon" as shown in the check result 409, 1 is added to the score of "Canon" in the selection candidate priority list 801.

同様に、ワークフロー701において、ユーザBはチェック者1であり、チェック者1の修正の重みは「+2」であることから、ユーザBの重みは「+2」となる。
ユーザBも、チェック結果411に示されるとおり、「キヤノン」を選択したことから、選択候補優先順位リスト801において、「キヤノン」のスコアにさらに2を加える。
Similarly, in the workflow 701, since the user B is the checker 1 and the correction weight of the checker 1 is "+2", the weight of the user B is "+2".
Since the user B also selected "Canon" as shown in the check result 411, 2 is further added to the score of "Canon" in the selection candidate priority list 801.

同様に、ワークフロー701において、ユーザCはチェック者2であり、チェック者2の重みは「+5」であることから、ユーザCの重みは「+5」となる。
ユーザCは、チェック結果412に示されるとおり、「キュノン」を選択したことから、選択候補優先順位リスト801において、「キュノン」のスコアに5を加える。
すなわち、この例では、S1004において、スコア加算処理により、選択候補優先順位リスト801(図8(a))に、図9にテーブル901として示したような加算スコアが加算される。
Similarly, in the workflow 701, since the user C is the checker 2 and the weight of the checker 2 is “+5”, the weight of the user C is “+5”.
Since the user C has selected "Kyunon" as shown in the check result 412, 5 is added to the score of "Kyunon" in the selection candidate priority list 801.
That is, in this example, in S1004, the score addition process adds the addition score as shown in Table 901 in FIG. 9 to the selection candidate priority list 801 (FIG. 8A).

この結果、ワークフロー711における「キャノン」についての優先順位リスト801は、優先順位リスト802(図8(b))のとおり更新される。ここでは、優先順位1位が「キュノン」、2位が「キヤノン」となり、選択候補について優先順位が更新前から変更されている。 As a result, the priority list 801 for "Cannon" in the workflow 711 is updated as shown in the priority list 802 (FIG. 8B). Here, the first priority is "Kyunon" and the second priority is "Canon", and the priority of the selection candidates has been changed from before the update.

以上のとおり、実施例1によれば、OCR結果を修正するための選択候補がワークフローの種別ごとに優先順位にしたがって表示される。これにより、チェック処理におけるユーザの作業負担を軽減させることができる。 As described above, according to the first embodiment, the selection candidates for modifying the OCR result are displayed according to the priority order for each workflow type. As a result, the workload of the user in the check process can be reduced.

<実施例2>
実施例1では、ユーザに対してOCR結果を修正するための選択候補を提示し、その中から正しいものを選択させるようにした。ただし、提示された選択候補の中に選択すべき選択肢が存在しない場合も考えられる。例えば、企業名辞書403には現存する企業の名前のみが記憶されているものであるが、文書内に新規な企業名が記載されている場合も想定される。
そこで、実施例2では、提示された選択候補の中に適切な選択肢が存在しない場合に、選択候補を簡便に追加できるようにする。
<Example 2>
In the first embodiment, the user is presented with selection candidates for modifying the OCR result, and the correct one is selected from the selection candidates. However, it is possible that there is no option to be selected among the presented selection candidates. For example, although only the name of an existing company is stored in the company name dictionary 403, it is assumed that a new company name is described in the document.
Therefore, in the second embodiment, when an appropriate option does not exist among the presented selection candidates, the selection candidate can be easily added.

実施例2では、実施例1で説明した図10のフローチャートのS1002で表示されるチェック用画面1101において、選択候補1104に加えて、新規追加欄1106を設ける。これにより、提示された選択候補以外の企業名を入力することができる。
そして、S1003においてユーザが新規追加欄1106に新たな企業名を入力すると、入力された企業名は企業名辞書403に追加される。チェック用画面1101において入力された新たな企業名は、次回以降、同じOCR結果がチェック処理の対象となった場合に、選択候補1104に追加されて表示される。
In the second embodiment, in the check screen 1101 displayed in S1002 of the flowchart of FIG. 10 described in the first embodiment, a new addition column 1106 is provided in addition to the selection candidate 1104. As a result, it is possible to input a company name other than the presented selection candidates.
Then, when the user inputs a new company name in the new addition field 1106 in S1003, the entered company name is added to the company name dictionary 403. The new company name entered on the check screen 1101 is added to the selection candidate 1104 and displayed when the same OCR result is the target of the check process from the next time onward.

<その他の実施例>
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれるものである。
<Other Examples>
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
Further, the present invention may be applied to a system composed of a plurality of devices or a device composed of one device.
The present invention is not limited to the above-described examples, and various modifications can be made based on the gist of the present invention, and these are not excluded from the scope of the present invention. That is, all the configurations in which each of the above-described examples and modifications thereof are combined are also included in the present invention.

100 画像処理装置
401 文書
410 優先順位付きの選択候補リスト
1101 チェック用画面
100 Image processing device 401 Document 410 Prioritized selection candidate list 1101 Check screen

Claims (14)

文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより、前記画像上の1又は2以上の文字列を抽出する抽出手段と、
前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供手段と、有するデータ処理システムであって、
前記チェック作業のワークフローの種別を判別する判別手段をさらに有し、
前記提供手段は、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示する
ことを特徴とするデータ処理システム。
An extraction means for extracting one or more character strings on the image by performing character recognition processing on the image generated by reading the document.
A data processing system having a providing means for providing a user interface for checking the character string.
Further having a discriminating means for discriminating the type of workflow of the check work,
The providing means is a data processing system characterized in that a plurality of selection candidates for modifying the character string are presented according to a priority determined for each of the determined workflow types.
前記判別手段は、前記抽出された文字列に基づいて前記ワークフローの種別を判別する
ことを特徴とする請求項1に記載のデータ処理システム。
The data processing system according to claim 1, wherein the determination means determines the type of the workflow based on the extracted character string.
前記判別手段は、ユーザの指示に基づいて前記ワークフローの種別を判別する
ことを特徴とする請求項1に記載のデータ処理システム。
The data processing system according to claim 1, wherein the determination means determines the type of the workflow based on a user's instruction.
前記ワークフローは、1又は2以上のロールから構成される
ことを特徴とする請求項1乃至3のいずれか1項に記載のデータ処理システム。
The data processing system according to any one of claims 1 to 3, wherein the workflow is composed of one or more roles.
前記各ロールについて、実行をするユーザが定められている
ことを特徴とする請求項4に記載のデータ処理システム。
The data processing system according to claim 4, wherein a user who executes each of the roles is defined.
前記ユーザインターフェースにおいて、ユーザは前記複数の選択候補の中から1の選択候補の選択をすることができる
ことを特徴とする請求項1乃至5のいずれか1項に記載のデータ処理システム。
The data processing system according to any one of claims 1 to 5, wherein in the user interface, a user can select one selection candidate from the plurality of selection candidates.
ユーザインターフェースにおいて、ユーザは、文字列を入力することにより、前記複数の選択候補以外の選択候補の選択をすることができる
ことを特徴とする請求項1乃至6のいずれか1項に記載のデータ処理システム。
The data according to any one of claims 1 to 6, wherein in the user interface, the user can select a selection candidate other than the plurality of selection candidates by inputting a character string. Processing system.
前記複数の選択候補の各優先順位は、前記ワークフローの種別ごとに、前記選択により加算されるスコアに基づいて決定される
ことを特徴とする請求項6又は7に記載のデータ処理システム。
The data processing system according to claim 6 or 7, wherein each priority of the plurality of selection candidates is determined based on a score added by the selection for each type of workflow.
前記選択により加算されるスコアは、ユーザごとに重みがつけられている
ことを特徴とする請求項8に記載のデータ処理システム。
The data processing system according to claim 8, wherein the score added by the selection is weighted for each user.
前記選択候補を記憶した記憶手段を備える
ことを特徴とする請求項1乃至9のいずれか1項に記載のデータ処理システム。
The data processing system according to any one of claims 1 to 9, further comprising a storage means for storing the selection candidates.
前記ユーザインターフェースにおいて、前記複数の選択候補以外の文字列が入力された場合、前記記憶手段は、前記入力された文字列を記憶する
ことを特徴とする請求項10に記載のデータ処理システム。
The data processing system according to claim 10, wherein when a character string other than the plurality of selection candidates is input in the user interface, the storage means stores the input character string.
前記チェック作業が行われた文書を保存する保存手段を有する
ことを特徴とする請求項1乃至11のいずれか1項に記載のデータ処理システム。
The data processing system according to any one of claims 1 to 11, further comprising a storage means for storing the document for which the check operation has been performed.
文書を読み取ることにより生成された画像に対して、文字認識処理を行うことにより、前記画像上の1又は2以上の文字列を抽出する抽出工程と、
前記文字列のチェック作業が行われるためのユーザインターフェースを提供する提供工程と、有するデータ処理システムであって、
前記チェック作業のワークフローの種別を判別する判別工程をさらに有し、
前記提供工程において、前記文字列を修正するための複数の選択候補を、判別された前記ワークフローの種別ごとに決定された優先順位にしたがって提示する
ことを特徴とするデータ処理方法。
An extraction step of extracting one or more character strings on the image by performing character recognition processing on the image generated by reading the document.
A providing process for providing a user interface for checking the character string, and a data processing system having the same.
It further has a discriminating step for discriminating the type of workflow of the check work.
A data processing method, characterized in that, in the providing process, a plurality of selection candidates for modifying the character string are presented according to a priority determined for each of the determined workflow types.
請求項13に記載されたデータ処理方法をコンピュータにより実行させるためのプログラム。 A program for causing a computer to execute the data processing method according to claim 13.
JP2019178690A 2019-09-30 2019-09-30 Data processing system, data processing method, and program Active JP7414449B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019178690A JP7414449B2 (en) 2019-09-30 2019-09-30 Data processing system, data processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019178690A JP7414449B2 (en) 2019-09-30 2019-09-30 Data processing system, data processing method, and program

Publications (2)

Publication Number Publication Date
JP2021056732A true JP2021056732A (en) 2021-04-08
JP7414449B2 JP7414449B2 (en) 2024-01-16

Family

ID=75270981

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019178690A Active JP7414449B2 (en) 2019-09-30 2019-09-30 Data processing system, data processing method, and program

Country Status (1)

Country Link
JP (1) JP7414449B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023028965A (en) * 2021-08-20 2023-03-03 株式会社マネーフォワード Voucher structure analysis system, voucher structure analysis method, and voucher structure analysis program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214281A (en) * 1990-01-19 1991-09-19 Sony Corp Character recognizing device
JP2007233913A (en) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd Image processor and program
JP2010073174A (en) * 2008-09-22 2010-04-02 Fuji Xerox Co Ltd Document processing apparatus and program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03214281A (en) * 1990-01-19 1991-09-19 Sony Corp Character recognizing device
JP2007233913A (en) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd Image processor and program
JP2010073174A (en) * 2008-09-22 2010-04-02 Fuji Xerox Co Ltd Document processing apparatus and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023028965A (en) * 2021-08-20 2023-03-03 株式会社マネーフォワード Voucher structure analysis system, voucher structure analysis method, and voucher structure analysis program
JP7241822B2 (en) 2021-08-20 2023-03-17 株式会社マネーフォワード Evidence Structure Analysis System, Evidence Structure Analysis Method, and Evidence Structure Analysis Program

Also Published As

Publication number Publication date
JP7414449B2 (en) 2024-01-16

Similar Documents

Publication Publication Date Title
US11151367B2 (en) Image processing apparatus and image processing program
KR20200067238A (en) Image processing apparatus, control method therefor, and storage medium
US11836442B2 (en) Information processing apparatus, method, and storage medium for associating metadata with image data
JP2017174309A (en) Portable information device, server device, data input supporting system, and program
JP2022096218A (en) Information processing apparatus, information processing system, control method for the same, and program
JP6734452B1 (en) Information processing apparatus, information processing method, and computer program
US12020462B2 (en) Information processing apparatus, information processing method, and computer program product
JP7040000B2 (en) Image processing equipment and image processing program
JP7414449B2 (en) Data processing system, data processing method, and program
JP2008197229A (en) Speech recognition dictionary construction device and program
US20220207900A1 (en) Information processing apparatus, information processing method, and storage medium
US20230306193A1 (en) Information processing apparatus, non-transitory computer readable medium, and method for processing information
US20230306767A1 (en) Information processing apparatus, non-transitory computer readable medium, and method for processing information
JP5243054B2 (en) Data management system, method and program
JP6162860B1 (en) User information input support system
US11363162B2 (en) System and method for automated organization of scanned text documents
US11804055B2 (en) Information processing apparatus, information processing method, and information processing system
JP6870159B1 (en) Data processing equipment, data processing methods and programs
JP6707112B2 (en) User information input support system
JP2014174754A (en) Program and business form processing device
JP6397084B2 (en) User information input support system
JP7298999B2 (en) Material creation device, material creation system, material creation method and program
JP5708372B2 (en) Document file difference extraction system, image processing apparatus, document file difference extraction method, and program
JP2021018520A (en) Information processor, information processing method, and program
JP2005038205A (en) Credit guarantee acceptance/refusal examination system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230915

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231228

R151 Written notification of patent or utility model registration

Ref document number: 7414449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151