JP2023031036A - Information processing apparatus, information processing system, control method of information processing apparatus, and program - Google Patents
Information processing apparatus, information processing system, control method of information processing apparatus, and program Download PDFInfo
- Publication number
- JP2023031036A JP2023031036A JP2021136503A JP2021136503A JP2023031036A JP 2023031036 A JP2023031036 A JP 2023031036A JP 2021136503 A JP2021136503 A JP 2021136503A JP 2021136503 A JP2021136503 A JP 2021136503A JP 2023031036 A JP2023031036 A JP 2023031036A
- Authority
- JP
- Japan
- Prior art keywords
- character
- handwritten
- area
- information processing
- printed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、情報処理装置、情報処理システム、情報処理装置の制御方法及びプログラムに関する。 The present invention relates to an information processing device, an information processing system, a control method for an information processing device, and a program.
企業の会計業務に関する処理を提供するクラウドベースの会計サービスがある。会計サービスを利用して、請求書の管理、支払いを行うためには、紙の請求書から必要な情報を抽出して会計サービスに入力する必要がある。これらの入力作業を支援するための入力支援システムが存在する。入力支援システムでは、請求書をスキャナで読み取り、読み取った請求書の画像に対して文字認識を行う。そして、認識結果をユーザが確認・修正した後、修正された結果のデータが会計サービスに登録される。
会計サービスに登録する情報を認識結果から抽出するために、機械学習によってトレーニングされた学習モデルを使用する入力支援システムが存在する。文字認識結果の特徴と、会計サービスで必要とされる所定の項目(キー)に対応する文字認識結果(バリュー)に付与したラベルを機械学習することによって、請求書の書式を予め定義することなく、情報を抽出することができる。この学習に用いる文字認識結果の特徴には、文字領域の矩形情報が含まれる。
また、請求書に記載された手書き文字の認識を行い、会計サービスへの登録を支援する入力支援システムも存在する。手書き文字の場合、活字に比べて、文字の大きさや位置にばらつきが発生する。そのため、文字認識結果の特徴である文字領域の矩形情報にもばらつきが発生する。手書き文字の文字認識結果の特徴を用いてトレーニングを行った学習モデルは、文字領域の矩形情報のばらつきが原因で、情報抽出の精度に課題がある。
特許文献1には、文字画像を正規化する技術が開示されている。
There are cloud-based accounting services that provide processing related to corporate accounting operations. In order to use an accounting service to manage and pay bills, it is necessary to extract necessary information from paper invoices and enter it into the accounting service. There are input support systems for assisting these input operations. The input support system scans the bill with a scanner and performs character recognition on the scanned bill image. After the user confirms and corrects the recognition result, the data of the corrected result is registered in the accounting service.
Input assistance systems exist that use learning models trained by machine learning to extract information from recognition results for registration with accounting services. By machine learning the characteristics of character recognition results and the labels assigned to the character recognition results (values) corresponding to the predetermined items (keys) required for accounting services, billing formats are not defined in advance. , information can be extracted. The features of the character recognition result used for this learning include rectangle information of the character area.
There is also an input support system that recognizes handwritten characters written on bills and supports registration in accounting services. In the case of handwritten characters, variations occur in the size and position of characters compared to printed characters. Therefore, the rectangular information of the character area, which is a feature of the character recognition result, also varies. A learning model trained using the features of character recognition results of handwritten characters has a problem in the accuracy of information extraction due to variations in the rectangle information of character regions.
Patent Literature 1 discloses a technique for normalizing character images.
特許文献1の文字画像を正規化する技術を用いることによって、手書き文字の文字領域の矩形情報のばらつきを軽減することができる。しかしながら、特許文献1の技術では、認識の対象と特定された単語領域を基準に正規化を行うため、同一書式の請求書であっても、請求書ごとに正規化の結果が異なる。請求書ごとのばらつきによって、手書き文字の文字認識結果の特徴を用いてトレーニングを行った学習モデルには、依然、情報抽出の精度に課題が残る。
本発明は、手書き文字を含む画像であっても、予め文書の書式を定義しておくことなく、精度よく情報抽出が可能な画像処理システムを提供することを目的とする。
By using the technique of normalizing the character image disclosed in Japanese Patent Application Laid-Open No. 2002-200315, it is possible to reduce variations in the rectangle information of the character areas of the handwritten characters. However, in the technique of Patent Document 1, since normalization is performed based on the word region specified as the target of recognition, the result of normalization differs for each bill even if the bills have the same format. Due to invoice-to-invoice variability, learning models trained using features from handwritten character recognition results still struggle with information extraction accuracy.
SUMMARY OF THE INVENTION It is an object of the present invention to provide an image processing system capable of accurately extracting information from an image including handwritten characters without defining the format of the document in advance.
上記の目的を達成するため本発明の情報処理装置は、活字と手書き文字を含む原稿の画像データから前記活字と手書き文字の文字領域を特定し文字認識を行う認識手段と、前記画像データに含まれる罫線の位置を特定する特定手段と、前記活字の領域と罫線の位置の少なくともいずれかに基づいて、前記手書き文字の文字領域を正規化する正規化手段と、前記活字の領域及び前記正規化された領域に対応する前記手書き文字から認識された文字列に基づき、所定の項目の値に対応する文字列を、ルールを用いて抽出する抽出手段と、を有し、前記ルールは、前記抽出手段による抽出結果をユーザが修正した修正結果を用いて学習されたルールである、ことを特徴とする。 In order to achieve the above object, the information processing apparatus of the present invention comprises recognition means for specifying character regions of the printed characters and handwritten characters from image data of a document containing the printed characters and handwritten characters, and recognizing the characters included in the image data. a normalizing means for normalizing the character area of the handwritten character based on at least one of the area of the printed character and the position of the ruled line; and the area of the printed character and the normalization. extracting means for extracting a character string corresponding to a value of a predetermined item using a rule, based on the character string recognized from the handwritten character corresponding to the identified area, wherein the rule is the extraction It is characterized in that it is a rule learned using a correction result obtained by correcting the extraction result by the means by the user.
本発明の情報処理装置によれば、手書き文字を含む画像であっても、予め文書の書式を定義しておくことなく、精度よく情報を抽出することができる。 According to the information processing apparatus of the present invention, it is possible to accurately extract information even from an image including handwritten characters without defining the format of the document in advance.
以下、本発明を実施するための形態について図面などを参照して説明する。なお、実施形態は、本発明を限定するものではなく、また、実施形態で説明されている全ての構成が本発明の課題を解決するための手段に必須であるとは限らない。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. The embodiments do not limit the present invention, and not all configurations described in the embodiments are essential for solving the problems of the present invention.
(実施形態1)
[システム構成]
以下、本発明を実施するための形態について図面を用いて説明する。
まず、本発明の前提となる情報処理システムについて説明する。
図1は、本発明の実施の形態に係る情報処理システムの全体構成を示す図である。図1において、MFP(Multifunction Peripheral)101は、ネットワークに接続され、紙文書のスキャン機能を備える画像入力装置である。
情報処理装置であるキーバリュー抽出サーバ102は、紙文書のスキャン画像から、会計サービスで必要とされる所定の項目(キー)に対応する情報(バリュー)を抽出するサービスを提供する。キーバリュー抽出サーバ102は、例えば、請求書の画像から「日付」といったキーに対応するバリューに相当する文字列「2019/06/12」を抽出する。
情報処理装置である会計サーバ103は、企業の会計業務を処理するサービスを提供する。MFP101、キーバリュー抽出サーバ102、会計サーバ103は、インターネット100を介して互いに接続されている。
(Embodiment 1)
[System configuration]
EMBODIMENT OF THE INVENTION Hereinafter, the form for implementing this invention is demonstrated using drawing.
First, an information processing system that is a premise of the present invention will be described.
FIG. 1 is a diagram showing the overall configuration of an information processing system according to an embodiment of the present invention. In FIG. 1, an MFP (Multifunction Peripheral) 101 is an image input device connected to a network and equipped with a paper document scanning function.
A key-
[ハードウェア構成]
図2(a)は、情報処理装置であるキーバリュー抽出サーバ102、会計サーバ103の基本的なハードウェア構成を示すブロック図である。
図2(a)において、CPU(Central Processing Unit)201は、各種のプログラムを実行し、様々な機能を実現するユニットである。RAM(Random Access Memory)202は、各種の情報を記憶するユニットである。また、RAM202は、CPU201の一時的な作業記憶領域としても利用されるユニットである。ROM(Read Only Memory)203は、各種のプログラム等を記憶するユニットである。例えば、CPU201は、ROM203に記憶されているプログラムをRAM202にロードしてプログラムを実行する。
加えて、CPU201がフラッシュメモリ、HDD(Hard Disk Drive)又はSSD(Solid State Disk)といった外部記憶装置に記憶されているプログラムに基づき処理を実行する。これにより、後述の図3に示されるようなキーバリュー抽出サーバ102を構成するソフトウェア構成及び後述するシーケンスの各ステップの処理が実現される。
なお、キーバリュー抽出サーバ102の機能及び後述するシーケンスに係る処理の全部又は一部についてはASIC等の専用のハードウェアを用いて実現してもよい。
Input/Outputインターフェース204は、ディスプレイ装置のような出力装置、キーボードやマウスといった入力装置とのインターフェースを提供するユニットである。
NIC(Network Interface Card)205は、キーバリュー抽出サーバ102、会計サーバ103をネットワーク(不図示)に接続するためのユニットである。
上述したユニットは、バス206を介して互いにデータの送受信を行うことが可能に構成されている。
なお、キーバリュー抽出サーバ102や会計サーバ103は、1台のコンピュータにより実現されるものであっても、複数のコンピュータにより実現されるものであってもよい。例えば、キーバリュー抽出サーバ102や会計サーバ103は、クラウドコンピューティングの技術を利用して実現される構成であってもよい。すなわち、キーバリュー抽出サーバ102や会計サーバ103は、クラウドサービスとして実現される構成でもよい。
[Hardware configuration]
FIG. 2(a) is a block diagram showing the basic hardware configuration of the key-
In FIG. 2A, a CPU (Central Processing Unit) 201 is a unit that executes various programs and implements various functions. A RAM (Random Access Memory) 202 is a unit that stores various information. Also, the
In addition, the
All or part of the functions of the key-
An input/
A NIC (Network Interface Card) 205 is a unit for connecting the key-
The units described above are configured to be able to transmit and receive data to and from each other via the
Note that the key-
図2(b)は、画像入力装置であるMFP101の基本的なハードウェア構成を示すブロック図である。図2(b)において、CPU211、RAM212、ROM213、NIC214は、それぞれ、図2(a)のCPU201、RAM202、ROM203、NIC205と同様である。
スキャナ215は、紙文書を画像データに変換する入力ユニットである。プリンタエンジン216は、画像データの印刷を行う出力ユニットである。操作パネル217は、ユーザからのタッチ操作を受け付ける入力ユニットであり、MFP101の情報をディスプレイに表示する出力ユニットである。
上述したユニットは、バス218を介してデータの送受信を行うことが可能に構成されている。
FIG. 2(b) is a block diagram showing the basic hardware configuration of the
The units described above are configured to be able to transmit and receive data via
[ソフトウェア構成]
次に、MFP101、および、キーバリュー抽出サーバ102におけるソフトウェアの構成について説明する。なお、会計サーバ103についての説明は省略する。
図3(a)は、MFP101のソフトウェア構成図を示した図である。なお、以下のソフトウェア各部は、CPU101がROM203に格納されたプログラムをRAM202に展開し、実行することにより実現される。
UI部301は、操作パネル217を介して、ユーザからの入力を受け付ける。スキャン実行部302は、スキャナ215から入力されたデータを画像データに変換する。画像データ送信部303は、NIC214を介して、画像データをキーバリュー抽出サーバ102に送信する。キーバリュー抽出結果受信部304は、NIC214を介して、キーバリュー抽出結果をキーバリュー抽出サーバ102から受け取る。修正結果送信部305は、UI部301を介してユーザが行った修正結果を、NIC214を介してキーバリュー抽出サーバ102に送信する。
[Software configuration]
Next, the configuration of software in the
FIG. 3(a) is a diagram showing a software configuration diagram of the
A
図3(b)は、情報処理装置であるキーバリュー抽出サーバ102のソフトウェア構成図を示した図である。なお、以下のソフトウェア各部は、CPU211がROM203に格納されたプログラムをRAM212に展開し、実行することにより実現される。
画像データ受信部311は、キーバリュー抽出サーバ102は、NIC205を介して、MFP101から画像データを受け取る。罫線抽出部312は、画像データから罫線を抽出し、罫線で囲まれた領域(セル領域)を特定する。活字OCR部313は、画像データから活字の文字領域を特定し、文字認識を行う。手書き文字OCR部314は、画像データから手書き文字の文字領域を特定し、文字認識を行う。手書き文字領域正規化部315は、手書き文字領域を正規化する。キーバリュー抽出部316は、文字認識結果と正規化された文字領域から、あらかじめ定義されたキーに対応するバリューを抽出する。キーバリュー抽出結果送信部317は、NIC205を介して、キーバリュー抽出結果をMFP101に送信する。修正結果受信部318は、NIC205を介して、MFP101からユーザが行った修正結果を取得する。学習部319は、受け取った修正結果に基づき学習する。キーバリューデータ送信部320は、NIC205を介して、キーバリューデータを会計サーバ103に送信する。また、抽出ルール330は、文字認識結果と正規化された文字領域から、あらかじめ定義されたキーに対応するバリューを抽出するために使用する。抽出ルール330は、修正結果を学習することによって更新される。
本実施例における抽出ルール330は、文字認識結果の特徴と、キーに対応する文字認識結果に付与したラベルを機械学習することによってトレーニングされた学習モデル(学習済みモデル)である。文字認識結果の特徴は以下を含む。
・文字認識結果の文字列から得る特徴
・文字領域の矩形情報
・周囲にある文字認識結果の文字列から得る特徴
FIG. 3(b) is a diagram showing a software configuration diagram of the key-
The image
The
・Features obtained from the character string resulting from character recognition ・Rectangle information of the character area ・Features obtained from the surrounding character strings resulting from character recognition
[処理制御フロー]
本発明の情報処理システムにおける処理制御フローについて図11を用いて説明する。図4~図9A,B(以下まとめて「図9」という。)は、図11のフローのステップで生成される画像データ、罫線情報、文字認識結果、キーバリュー抽出結果の例を示している。図10は、図11のフローのステップで、MFP101の操作パネル217に表示されるキーバリュー抽出結果を確認・修正する画面を示している。図12は、図11の手書き文字の文字領域を正規化するステップの詳細なフローを示している。図13は、図11の処理制御フローのステップで、MFP101の操作パネル217に表示される画面の遷移を示している。
[Processing control flow]
A processing control flow in the information processing system of the present invention will be described with reference to FIG. 4 to 9A and 9B (hereinafter collectively referred to as "FIG. 9") show examples of image data, ruled line information, character recognition results, and key/value extraction results generated in the steps of the flow of FIG. . FIG. 10 shows a screen for confirming/correcting the key-value extraction result displayed on the
まず、S1101で、ユーザによりMFP101のスキャナ215に原稿(紙文書)がセットされ、スキャン開始が指示されたことをトリガーに本処理制御フローは開始する。
S1102で、MFP101のスキャン実行部302が紙文書のスキャンを実行し、画像データを生成する。画像データ送信部303が、キーバリュー抽出サーバ102に送信する。図4は、MFP101のスキャン実行部302により生成されキーバリュー抽出サーバ102に送信される画像データの一例を示している。
S1103で、キーバリュー抽出サーバ102の画像データ受信部311が、MFP101から送信された画像データを受信し、罫線抽出部312が罫線を抽出し、罫線に囲まれた領域(セル領域)を特定する。図5は、図4の画像データに対して罫線を抽出し、セル領域を特定した結果を表形式で示している。表501は、抽出した罫線の(外接)矩形情報で、行503に対応する罫線の領域が図4の431である。具体的には、矩形の左上頂点のx座標:229、y座標:428、矩形の幅:162、高さ:2となっている。罫線なので、高さが小さくなっているが、読取りの際罫線が傾いると、外接する矩形の高さは大きくなることがある。表502は、抽出したセル領域の矩形情報で、行504に対応する領域が図4の441である。矩形形状の左上頂点のx座標:107、y座標:488、矩形の幅:194、高さ:20となっている。
S1104で、活字OCR部313が活字の文字認識を実行する。
S1105で、手書き文字OCR部314が手書き文字の文字認識を実行する。図6A,B(以下まとめて「図6」という。)は、図4の画像に対して活字文字認識と手書き文字認識を行った結果を表形式で示している。表601は活字の文字認識結果を示している。表611は、手書き文字の文字認識結果を示している。列602、612は、文字認識結果の文字領域の矩形情報である。列603、613は、文字認識結果の文字列を示している。図4の401~408の点線がそれぞれ、行621~628に対応する活字の文字領域を示している。図4の411~420の点線がそれぞれ、行631~640に対応する手書き文字の文字領域を示している。
S1106で、手書き文字領域正規化部315が手書き文字領域の正規化を実行する。図7の表701は、図6の表602の手書き文字認識結果に対して、手書き文字領域の正規化を行った結果を表形式で示している。列702は、文字認識結果の文字領域を正規化した領域の矩形情報である。図8の801~810の点線がそれぞれ、行711~720に対応する手書き文字の正規化された文字領域を示している。手書き文字の文字領域を正規化する処理制御の詳細については図12を用いて後述する。
First, in S1101, the user sets a document (paper document) on the
In S1102, the
In S1103, the image
At S1104, the printed
In S1105, the handwritten
In S1106, the handwritten character
S1107で、キーバリュー抽出部316は、抽出ルール330を用いて、あらかじめ定義されたキーに対応する文字認識結果をバリューとして抽出する。キーは、会計サーバ103で必要とされる所定の項目であり、本実施例では、タイトル、電話番号、番号、日付、金額の五項目である。キーバリュー抽出結果送信部317が、MFP101に文字認識結果とキーバリュー抽出結果を送信する。図9は、図6の表601の活字の文字領域と文字認識結果、および、図7の手書き文字領域の正規化領域と文字認識結果からキーバリュー抽出(S1107)を行った結果を表形式で示している。表901の列902は、活字の文字認識結果に対して付与されたラベルを示している。表911の列912は、手書き文字の文字認識結果に対して付与されたラベルを示している。キーに対応するバリューとして抽出された文字認識結果に対して、対応するキーをラベルとして付与する。
S1108で、MFP101のUI部301が、キーバリュー抽出結果を操作パネル217に表示する。図10の1001は、S1105で表示される画面を示す図である。1002~1006は、キーに対応するバリューを表示するバリュー表示欄である。バリュー表示欄には、それぞれ、図9のラベルが付与された文字認識結果が表示されている。また、バリュー表示欄は、タッチすることによって、編集モードとなり、編集が可能になる。1007は登録ボタンである。
S1109で、ユーザは、MFP101の操作パネル217に表示される画面1001(図13では1301)で、キーに対応するバリューの抽出結果を確認し、誤りがあれば修正する(図13の1306)。修正を検知するとMFP101のUI部301は、修正に対応するラベルが付いた矩形領域が間違っている可能性があるため、正しい矩形領域を設定するためS1102で生成した画像データのプレビュー画面を操作パネル217に表示する(図13の1303)。ユーザはMFP101の操作パネル217に表示される画像データのプレビュー画面上で、上記修正した文字列の文字領域をタッチして選択する(図13の1307)。ユーザによるプレビュー画面上のタッチを検知したMFP101のUI部301が、操作パネル217に画面1001を表示する。ユーザは一連の修正操作が終わると、登録ボタン1007を押下する(図13の1308)。
S1110で、修正結果送信部305が、キーバリュー抽出結果の文字列を、修正後の文字列で更新する。また、文字領域が変更された場合はラベルを付与しなおす。このように、修正結果送信部305は、抽出結果を修正する。さらに修正結果送信部305が、上記のように修正した抽出結果(修正結果)を、キーバリュー抽出サーバ102に送信する。
S1111で、キーバリュー抽出サーバ102の修正結果受信部318が、MFP101から送信された修正結果を受信し取得する。そして、S1106で作られた(正規化された)文字認識結果と、S1107で付与されたラベルと、取得した修正結果(すなわち、正規化領域、文字認識結果(文字列)、ラベル)に基づき学習部319が学習することによって、抽出ルール330を更新する。なお、キーバリュー抽出サーバ102は、上記の学習を外部装置(クラウドサービスでもよい)に依頼し、学習結果を受け取ることによって、抽出ルール330を更新する構成でもよい。すなわち、学習部319はキーバリュー抽出サーバ102の外部にあってもよい。
S1112で、キーバリューデータ送信部320が、キーとバリュー(キーに対応する文字列)のデータを会計サーバ103に送信する。
In S1107, the key-
In S1108, the
In S1109, the user checks the extraction result of the value corresponding to the key on the screen 1001 (1301 in FIG. 13) displayed on the
In S1110, the correction
In S1111, the correction
In S 1112 , the key-value
手書き文字領域正規化部315が実行する手書き文字の文字領域を正規化する処理(S1106)の詳細な制御フローについて図12を用いて説明する。
S1201で、手書き文字領域正規化部315は、手書き文字の文字領域が罫線で囲まれた領域(セル領域)に重なっているかどうかを判断する。重なっていると判断された場合(S1201でYes)、S1202に進む。
S1202で、手書き文字領域正規化部315は、手書き文字の文字領域に重なるセル領域に、活字の文字領域があるかどうかを判断する。活字の文字領域が無いと判断された場合(S1202でYes)、S1203に進む。
S1203で、手書き文字領域正規化部315は、手書き文字の文字領域をセル領域で正規化する。具体的には、セル領域を手書き文字の正規化文字領域に設定する。図7の行717(図4の417)は、手書き文字の文字領域に重なるセル領域(図4の441)で正規化された例(図8の807)である。行717の文字領域に重なるセル領域(図5の行504)が、正規化文字領域に設定されている。
S1202で、手書き文字領域正規化部315により活字の文字領域があると判断された場合(S1202でYes)、S1204に進む。
S1204で、手書き文字領域正規化部315は、手書き文字の文字領域を、近傍の活字、更にいうと距離が最も近い活字の文字領域に基づいてサイズと位置を正規化する。具体的には、文字領域のサイズの高さを近傍の活字の文字領域の高さに設定し、文字領域のサイズの幅を高さ×文字数に設定する。この文字数は、S1105でOCR処理を行って認識された文字数である。文字領域の位置を、近傍の活字の文字領域に接する位置に設定する。具体的には、手書き文字の左横に活字がある場合は、その活字の右側に続く領域に高さ×文字数の領域に正規化し、手書き文字の上に活字がある場合は、活字と左端をそろえて、下に続く領域に正規化する。図7の行718(図4の418)は、活字の文字領域(図4の406)に基づいて正規化された例(図8の808)である。行718の文字領域に最も近い活字の文字領域(図6の行626)の高さが、正規化文字領域の高さに設定され、幅が高さ×文字数に設定されている。正規化文字領域の位置が、活字の文字領域に接する位置に設定されている。
S1201で、手書き文字の文字領域がセル領域に重なっていないと判断された場合、S1205で、手書き文字領域正規化部315は、手書き文字の文字領域の上下左右のいずれかの既定の距離の範囲内に、活字の文字領域があるかどうかを判断する。手書き文字領域正規化部315により活字の文字領域があると判断された場合、S1204へ進む。上述の図7の行718(図4の418)の場合と同様に、図7の行711~715(411~415)の手書き文字領域が、それぞれ、図6の行621~625(401~405)の活字の文字領域に基づいて正規化されている(図8の801~805)。また、図7の行719(419)、720(420)の手書き文字領域が、それぞれ、図6の行627(407)、628(408)の活字の文字領域に基づいて正規化されている(図8の809、810)。
また、S1205で、手書き文字領域正規化部315により活字の文字領域が無いと判断された場合、S1206で、手書き文字の文字領域の近傍に罫線がある(文字領域に重なる、又は、上下左右のいずれかの既定の距離の範囲内にある)かどうかを判断する。罫線があると判断された場合、S1207で、手書き文字の文字領域を、活字の文字領域の高さの最頻値と罫線に基づいて正規化する。具体的には、文字領域の高さを、画像の中のすべての活字の文字領域の高さの最頻値に設定し、文字領域の幅を高さ×文字数に設定する。文字領域の位置の先頭を罫線に合わせ、罫線に接する位置に設定する。図7の行716(図4の416)は、活字の文字領域の最頻の高さと罫線(図4の431)に基づいて正規化された例(図8の806)である。すべての活字の文字領域の高さの最頻値(図6の表601の列602の高さの最頻値)が、正規化文字領域の高さに設定され、幅が高さ×文字数に設定されている。正規化文字領域の位置が、先頭が罫線の先頭に一致し、かつ、罫線に接する位置に設定されている。なお、活字の文字領域の高さの代表値として、最頻値を例として示したが、平均値、中央値などを用いてもよい。
A detailed control flow of the handwritten character area normalization process (S1106) executed by the handwritten character
In S1201, the handwritten character
In S1202, the handwritten character
In S1203, the handwritten character
In S1202, if the handwritten character
In S1204, the handwritten character
If it is determined in S1201 that the character area of the handwritten character does not overlap the cell area, in S1205 the handwritten character
If the handwritten character
S1206で、手書き文字領域正規化部315により手書き文字の文字領域の近傍に罫線が無いと判断された場合、手書き文字領域正規化部315は、文字領域を正規化せずに終了する。
なお、本フローは、横書きの文字領域を正規化することを前提に、活字領域の高さ、高さ×文字数を、それぞれ正規化された領域の高さと幅に設定している。縦書きの文字領域を正規化する場合は、活字領域の幅と幅×文字数を、それぞれ正規化された領域の幅と高さに設定する。
In S1206, when the handwritten character
In this flow, on the premise that the horizontally written character area is normalized, the height of the type area and the height×the number of characters are set to the height and width of the normalized area, respectively. When normalizing a vertically written character area, set the width and width of the type area×the number of characters to the width and height of the normalized area, respectively.
以上述べたように、情報処理システムは、活字の文字領域と罫線に基づいて正規化することにより、同一書式の帳票(請求書等)では正規化の結果のばらつきを少なくなる。このように正規化した手書きの文字領域、それに付されたラベルを学習データとして学習するため、手書き文字を含む画像であっても、予め書式を定義しておくことなく、精度よく情報を抽出することができる。 As described above, the information processing system reduces variations in normalization results for forms (invoices, etc.) of the same format by normalizing based on the character areas and ruled lines of printed characters. Since the normalized handwritten character regions and the labels attached to them are learned as learning data, even images containing handwritten characters can be accurately extracted without defining a format in advance. be able to.
(その他の実施例)
以上の画像処理システムでは、MFPとキーバリュー抽出サーバが別体として説明したが、全ての機能を備えた1つの画像処理装置で行ってもよい。すなわち、MFP101が、罫線抽出部312、活字OCR部313、手書き文字OCR部314、手書き文字領域正規化部315、バリュー抽出部316、学習部319、キーバリューデータ送信部320等を備える構成でもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について説明したが、本発明は、これらの実施形態に限定されず、その要旨の範囲内で種々の変形および変更が可能である。
(Other examples)
In the image processing system described above, the MFP and the key/value extraction server are separate units, but a single image processing apparatus having all the functions may be used. That is, the
The present invention supplies a program that implements one or more functions of the above-described embodiments to a system or device via a network or a storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by processing to It can also be implemented by a circuit (for example, ASIC) that implements one or more functions.
Although preferred embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various modifications and changes are possible within the scope of the gist thereof.
101 MFP
102 キーバリュー抽出サーバ
313 活字OCR部
314 手書き文字OCR部
319 学習部
330 抽出ルール
101 MFPs
102 Key-value extraction server
313 Type OCR Department
314 Handwritten Character OCR Section
319 Learning Department
330 extraction rules
Claims (9)
前記画像データに含まれる罫線の位置を特定する特定手段と、
前記活字の領域と罫線の位置の少なくともいずれかに基づいて、前記手書き文字の文字領域を正規化する正規化手段と、
前記活字の領域及び前記正規化された領域に対応する前記手書き文字から認識された文字列に基づき、所定の項目の値に対応する文字列を、ルールを用いて抽出する抽出手段と、を有し、
前記ルールは、前記抽出手段による抽出結果をユーザが修正した修正結果を用いて学習されたルールである、ことを特徴とする情報処理装置。 recognition means for identifying character regions of the printed characters and handwritten characters from image data of a document containing the printed characters and handwritten characters and performing character recognition;
an identifying means for identifying positions of ruled lines included in the image data;
normalization means for normalizing the character area of the handwritten character based on at least one of the area of the printed character and the position of the ruled line;
extracting means for extracting a character string corresponding to a value of a predetermined item using a rule, based on the character string recognized from the handwritten characters corresponding to the printed character area and the normalized area. death,
The information processing apparatus, wherein the rule is a rule learned using a correction result obtained by correcting a result of extraction by the extraction means by a user.
前記修正結果を用いた学習により前記ルールを更新する学習手段と、を有し、
前記抽出手段は、前記学習手段により更新されたルールを用いて前記抽出を行う、ことを特徴とする請求項1に記載の情報処理装置。 Acquisition means for acquiring a correction result obtained by correcting the extraction result by the extraction means by a user;
learning means for updating the rule by learning using the correction result;
2. The information processing apparatus according to claim 1, wherein said extraction means performs said extraction using a rule updated by said learning means.
前記画像データに含まれる罫線の位置を特定する特定工程と、
前記活字の領域と罫線の位置の少なくともいずれかに基づいて、前記手書き文字の文字領域を正規化する正規化工程と、
前記活字の領域及び前記正規化された領域に対応する前記手書き文字から認識された文字列に基づき、所定の項目の値に対応する文字列を、ルールを用いて抽出する抽出工程と、を有し、
前記ルールは、前記抽出工程における抽出結果をユーザが修正した修正結果を用いて学習されたルールである、ことを特徴とする情報処理装置の制御方法。 a recognition step of identifying character regions of the printed characters and handwritten characters from image data of a document containing printed characters and handwritten characters and performing character recognition;
an identifying step of identifying positions of ruled lines included in the image data;
a normalization step of normalizing the character area of the handwritten character based on at least one of the area of the printed character and the position of the ruled line;
an extraction step of extracting a character string corresponding to a value of a predetermined item using a rule, based on the character string recognized from the handwritten characters corresponding to the printed character area and the normalized area. death,
A control method for an information processing apparatus, wherein the rule is a rule learned using a correction result obtained by correcting an extraction result in the extraction step by a user.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021136503A JP2023031036A (en) | 2021-08-24 | 2021-08-24 | Information processing apparatus, information processing system, control method of information processing apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021136503A JP2023031036A (en) | 2021-08-24 | 2021-08-24 | Information processing apparatus, information processing system, control method of information processing apparatus, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023031036A true JP2023031036A (en) | 2023-03-08 |
Family
ID=85414427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021136503A Pending JP2023031036A (en) | 2021-08-24 | 2021-08-24 | Information processing apparatus, information processing system, control method of information processing apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023031036A (en) |
-
2021
- 2021-08-24 JP JP2021136503A patent/JP2023031036A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9641715B2 (en) | Information processing device, method, and medium | |
US10091396B2 (en) | Information analysis system and information analysis method | |
US20200104586A1 (en) | Method and system for manual editing of character recognition results | |
JP2011076581A (en) | Image processing apparatus, system and method, and program | |
JP2012059248A (en) | System, method, and program for detecting and creating form field | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
US9305245B2 (en) | Methods and systems for evaluating handwritten documents | |
US11836442B2 (en) | Information processing apparatus, method, and storage medium for associating metadata with image data | |
US20200336613A1 (en) | Image processing apparatus for inputting characters using touch panel, control method thereof and storage medium | |
US11252287B2 (en) | Image processing apparatus that displays guidance for user operation, control method thereof and storage medium | |
JP2022066321A (en) | Information processing device and program | |
US11941903B2 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
JP2019191665A (en) | Financial statements reading device, financial statements reading method and program | |
JP2023031036A (en) | Information processing apparatus, information processing system, control method of information processing apparatus, and program | |
US11588945B2 (en) | Data input support apparatus that displays a window with an item value display area, an overview image display area, and an enlarged image display area | |
JP2020087112A (en) | Document processing apparatus and document processing method | |
JP2004504650A (en) | Methods and systems for form recognition and digitized image processing | |
US11170211B2 (en) | Information processing apparatus for extracting portions filled with characters from completed document without user intervention and non-transitory computer readable medium | |
JP2022101136A (en) | Information processing apparatus, information processing method, and program | |
JP2021144469A (en) | Data input support system, data input support method, and program | |
JP7434981B2 (en) | Information processing device and program | |
CN110909723B (en) | Information processing apparatus and computer-readable storage medium | |
US11620840B2 (en) | Image processing apparatus for extracting a desired character string from a scanned image | |
JP7247725B2 (en) | Form processing device and mobile terminal device |