JP7149721B2 - Information processing device, character recognition engine optimization method and program - Google Patents

Information processing device, character recognition engine optimization method and program Download PDF

Info

Publication number
JP7149721B2
JP7149721B2 JP2018057445A JP2018057445A JP7149721B2 JP 7149721 B2 JP7149721 B2 JP 7149721B2 JP 2018057445 A JP2018057445 A JP 2018057445A JP 2018057445 A JP2018057445 A JP 2018057445A JP 7149721 B2 JP7149721 B2 JP 7149721B2
Authority
JP
Japan
Prior art keywords
data
character recognition
correct
character
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018057445A
Other languages
Japanese (ja)
Other versions
JP2019169026A (en
Inventor
秀雄 茂崎
眞也 石原
敬 澤田
誠弘 藤塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2018057445A priority Critical patent/JP7149721B2/en
Publication of JP2019169026A publication Critical patent/JP2019169026A/en
Application granted granted Critical
Publication of JP7149721B2 publication Critical patent/JP7149721B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本開示は、帳票読み取り技術に関する。 The present disclosure relates to form reading technology.

帳票の外観上の特徴に係る特徴データを、帳票種別毎に蓄積する特徴データベースに接続される情報処理装置に、処理対象帳票の画像データを取得する画像データ取得部と、画像データから、処理対象帳票に係る特徴データを取得する特徴データ取得部と、特徴データベースに蓄積されている特徴データから、処理対象帳票に係る特徴データに一致または類似する特徴データを特定することで、処理対象帳票の帳票種別を推定する推定部と、推定部によって処理対象帳票の帳票種別が推定されなかった場合に、処理対象帳票に係る特徴データを特徴データベースに追加する特徴データ追加部と、を備えることで、予め書式定義を作成することなく帳票種別を推定することを可能とする技術が提案されている(特許文献1を参照)。 An information processing apparatus connected to a feature database that accumulates feature data relating to the appearance features of a form for each form type includes an image data acquisition unit that acquires image data of a form to be processed, A feature data acquisition unit that acquires feature data related to a form, and a feature data that matches or is similar to the feature data related to the process target form is specified from the feature data accumulated in the feature database. and a feature data addition unit that adds feature data related to the target form to the feature database when the form type of the target form is not estimated by the estimation unit. A technique has been proposed that makes it possible to estimate the form type without creating a format definition (see Patent Document 1).

特開2012-198684号公報JP 2012-198684 A

従来、スキャナーやカメラ等を用いて、紙媒体として発生した帳票の画像データを生成して帳票の種別を識別し、OCR(Optical Character Recognition)処理を行う技術がある。 2. Description of the Related Art Conventionally, there is a technique of generating image data of a form generated as a paper medium using a scanner, a camera, or the like, identifying the type of the form, and performing OCR (Optical Character Recognition) processing.

しかし、このような技術を実際に業務に導入する場合には、実際に業務で用いられている帳票を用いて複数種類の文字認識エンジンを評価し、最適な文字認識エンジンを選定する手間がかかっていた。又、導入後も、良好な帳票読取の結果を得るためには時間をかけて調整を行う必要があり、即座に技術導入の効果が得られるものではなかった。更に、一旦業務に導入された文字認識エンジンを変更することは困難であり、帳票認識精度の上限は、導入された文字認識エンジンの性能や特徴に依存していた。 However, when such technology is actually introduced into business, it takes time and effort to evaluate multiple types of character recognition engines using forms that are actually used in business and select the most suitable character recognition engine. was In addition, even after introduction, it is necessary to make adjustments over time in order to obtain good results of document reading, and the effect of technical introduction cannot be obtained immediately. Furthermore, it is difficult to change a character recognition engine once it has been introduced into business, and the upper limit of form recognition accuracy depends on the performance and features of the character recognition engine that has been introduced.

本開示は、上記した問題に鑑み、帳票毎又は帳票内の項目毎に適用される文字認識エンジンを最適化することを課題とする。 In view of the above problems, the present disclosure aims to optimize a character recognition engine applied to each form or each item in a form.

本開示の一例は、帳票又は該帳票内の項目に係る帳票データを、複数の文字認識エンジンのうち該帳票又は該項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積手段と、処理対象帳票の画像データを取得する画像データ取得手段と、前記複数の文字認識エンジンのうち、前記画像データに対応する帳票種別又は帳票項目に関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識手段と、前記第一の文字認識手段による文字認識結果のうち、正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積手段と、前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識手段と、前記第二の文字認識手段による文字認識の成績に基づいて、前記正解データに係る帳票種別又は帳票項目に関連付けられた文字認識エンジンを変更するエンジン変更手段と、を備える情報処理装置である。 An example of the present disclosure is a form data accumulation means for accumulating form data related to a form or an item in the form in association with a character recognition engine suitable for recognizing the form or the item among a plurality of character recognition engines. image data acquisition means for acquiring image data of a form to be processed; a first character recognition means for reading a character string contained in a character string, and among character recognition results obtained by the first character recognition means, a correct character string and a character image including at least the correct character string are associated with each other as correct data. correct data accumulation means for accumulating; second character recognition means for reading a character string included in the character image accumulated by the correct data accumulation means using each of the plurality of character recognition engines; engine changing means for changing the character recognition engine associated with the form type or the form item related to the correct data based on the result of character recognition by the character recognition means.

本開示は、情報処理装置、システム、コンピューターによって実行される方法又はコンピューターに実行させるプログラムとして把握することが可能である。又、本開示は、そのようなプログラムをコンピューターその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。 The present disclosure can be understood as an information processing device, a system, a method executed by a computer, or a program to be executed by a computer. The present disclosure can also be understood as recording such a program in a recording medium readable by a computer, other device, machine, or the like. Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical or chemical action and can be read by a computer. Say.

本開示によれば、帳票毎又は帳票内の項目毎に適用される文字認識エンジンを最適化することが可能となる。 According to the present disclosure, it is possible to optimize the character recognition engine applied to each form or each item in the form.

実施形態に係るシステムのハードウェア構成を示す概略図である。1 is a schematic diagram showing the hardware configuration of a system according to an embodiment; FIG. 実施形態に係る情報処理装置の機能構成の概略を示す図である。It is a figure which shows the outline of the functional structure of the information processing apparatus which concerns on embodiment. 実施形態において帳票データバンクに蓄積される帳票データと、帳票画像との関係を示す図である。4 is a diagram showing the relationship between form data accumulated in a form data bank and form images in the embodiment; FIG. 実施形態において用いられる、帳票データバンク中の帳票種別データテーブルの構成を示す図である。3 is a diagram showing the configuration of a form type data table in a form data bank used in the embodiment; FIG. 実施形態において用いられる、帳票データバンク中の帳票項目データテーブルの構成を示す図である。4 is a diagram showing the configuration of a form item data table in the form data bank used in the embodiment; FIG. 実施形態において用いられる、帳票データバンク中の正解データテーブルの構成を示す図である。FIG. 4 is a diagram showing the configuration of a correct data table in a form data bank used in the embodiment; 実施形態において用いられる、帳票データバンク中のOCRエンジン評価データ(帳票種別)テーブルの構成を示す図である。4 is a diagram showing the configuration of an OCR engine evaluation data (form type) table in the form data bank used in the embodiment; FIG. 実施形態において用いられる、帳票データバンク中のOCRエンジン評価データ(帳票項目)テーブルの構成を示す図である。4 is a diagram showing the configuration of an OCR engine evaluation data (form item) table in the form data bank used in the embodiment; FIG. 実施形態に係るエンジン選択処理の流れの概要を示すフローチャートAである。4 is a flowchart A showing an overview of the flow of engine selection processing according to the embodiment; 実施形態に係るエンジン選択処理の流れの概要を示すフローチャートBである。4 is a flowchart B showing an overview of the flow of engine selection processing according to the embodiment; 実施形態に係る帳票読取処理の流れの概要を示すフローチャートAである。4 is a flowchart A showing an overview of the flow of form reading processing according to the embodiment; 実施形態に係る帳票読取処理の流れの概要を示すフローチャートBである。10 is a flowchart B showing an overview of the flow of form reading processing according to the embodiment; 実施形態に係るデータ分析処理の流れの概要を示すフローチャートである。4 is a flowchart showing an overview of the flow of data analysis processing according to the embodiment; 実施形態に係る新規エンジン評価処理の流れの概要を示すフローチャートである。4 is a flowchart showing an overview of the flow of new engine evaluation processing according to the embodiment; 実施形態に係るエンジン最適化処理の流れの概要を示すフローチャートである。4 is a flowchart showing an overview of the flow of engine optimization processing according to the embodiment;

以下、本開示に係る情報処理装置、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、又、種々の改良や変形が行われてよい。 Hereinafter, embodiments of an information processing device, method, and program according to the present disclosure will be described based on the drawings. However, the embodiments described below are examples of embodiments, and do not limit the information processing apparatus, method, and program according to the present disclosure to the specific configurations described below. For implementation, a specific configuration may be appropriately adopted according to the mode of implementation, and various improvements and modifications may be made.

実施形態の説明では、本開示に係る情報処理装置、方法及びプログラムを、ユーザー端末から送信された画像データに係る帳票の帳票種別を推定し、推定結果に基づいて決定された最適なOCRエンジンを用いて文字読取を行う帳票処理システムにおいて実施した場合の実施の形態について説明する。なお、本開示に係る情報処理装置、方法及びプログラムは、帳票を読み取るための技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。 In the description of the embodiments, the information processing apparatus, method, and program according to the present disclosure estimate the form type of the form related to the image data transmitted from the user terminal, and select the optimum OCR engine determined based on the estimation result. An embodiment in the case of being implemented in a form processing system that performs character reading using the method will be described. Note that the information processing apparatus, method, and program according to the present disclosure can be widely used for techniques for reading forms, and the application target of the present disclosure is not limited to the examples shown in the embodiments.

<システムの構成>
図1は、本実施形態に係る帳票処理システム1のハードウェア構成を示す概略図である。本実施形態に係る帳票処理システム1は、複数の異なる拠点に設置されて互いに異なる種類の帳票を用いた業務に使用されている複数のユーザー端末90(以下、「ノード90」と称する)と、ネットワークを介してノード90と通信可能に接続されたサーバー50と、を備える。
<System configuration>
FIG. 1 is a schematic diagram showing the hardware configuration of a form processing system 1 according to this embodiment. The form processing system 1 according to the present embodiment includes a plurality of user terminals 90 (hereinafter referred to as "nodes 90") installed at a plurality of different bases and used for operations using different types of forms, and a server 50 communicably connected to the node 90 via a network.

本実施形態に係る帳票処理システム1では、ノード90から接続されるサーバー50は、インターネットや広域ネットワークを介して遠隔地において接続されたものであり、例えばASP(Application Service Provider)によって提供されるが、サーバー50は、必ずしも遠隔地に接続されたものである必要はない。例えば、サーバー50は、ノード90が存在するローカルネットワーク上に接続されていてもよい。 In the form processing system 1 according to this embodiment, the server 50 connected from the node 90 is remotely connected via the Internet or a wide area network, and is provided by, for example, an ASP (Application Service Provider). , server 50 need not necessarily be remotely connected. For example, server 50 may be connected to the local network on which node 90 resides.

サーバー50は、CPU(Central Processing Unit)11、RAM(Random Access Memory)13、ROM(Read Only Memory)12、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)15等の通信ユニット、等を備えるコンピューターである。 The server 50 includes a CPU (Central Processing Unit) 11, a RAM (Random Access Memory) 13, a ROM (Read Only Memory) 12, an EEPROM (Electrically Erasable and Programmable Read Only Memory), HDD (Hard Disk 1), etc. , a communication unit such as a NIC (Network Interface Card) 15, and the like.

本実施形態に係るサーバー50は、ノード90から送信された画像データを受信し、後述する処理を実行する。サーバー50によって後述する処理が実行されることで、ノード90から送信された画像データに係る帳票の帳票種別が推定される。そして、サーバー50は、推定結果(画像データに係る帳票の帳票種別)に基づいて、当該帳票種別に最適なOCRエンジンを選択し、当該エンジンを用いて文字読取を行う。具体的には、サーバー50は、画像データに係る帳票の帳票種別が「AAA社の見積書」であると推定した場合、この推定結果に基づいて、「AAA社の見積書」を読み取った場合に最も成績の良いOCRエンジンを選択し、当該エンジンを用いて文字読取を行う。 The server 50 according to the present embodiment receives image data transmitted from the node 90 and executes processing described later. The form type of the form related to the image data transmitted from the node 90 is estimated by the server 50 executing a process described later. Then, the server 50 selects the OCR engine most suitable for the form type based on the estimation result (the form type of the form related to the image data), and uses the engine to perform character reading. Specifically, when the server 50 presumes that the form type of the form related to the image data is the "quotation sheet of the AAA company", based on this estimation result, when the server 50 reads the "quotation sheet of the AAA company" Then, the OCR engine with the best performance is selected, and character reading is performed using the engine.

図2は、本実施形態に係るサーバー50の機能構成の概略を示す図である。サーバー50は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、サーバー50に備えられた各ハードウェアが制御されることで、帳票データ蓄積部21、正解データ蓄積部22、画像データ取得部23、特徴データ取得部24、帳票データ検索部25、第一の文字認識部26、第二の文字認識部27、補正部28、修正受付部29、形式/ルール更新部30、及びエンジン変更部31を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、サーバー50の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。 FIG. 2 is a diagram showing an outline of the functional configuration of the server 50 according to this embodiment. In server 50, a program recorded in storage device 14 is read out to RAM 13 and executed by CPU 11 to control each hardware provided in server 50, so that form data storage unit 21, correct data storage unit 22, image data acquisition unit 23, feature data acquisition unit 24, form data search unit 25, first character recognition unit 26, second character recognition unit 27, correction unit 28, correction reception unit 29, format/ It functions as an information processing device including a rule updating unit 30 and an engine changing unit 31 . In this embodiment and other embodiments described later, each function of the server 50 is executed by the CPU 11, which is a general-purpose processor. may be performed.

帳票データ蓄積部21は、帳票又は当該帳票内の項目に係る帳票データを、複数のOCRエンジン(文字認識エンジン)のうち当該帳票又は当該項目の認識に適したOCRエンジンに関連付けて蓄積する。又、帳票データ蓄積部21は、OCRエンジンと帳票種別又は帳票項目との組み合わせ毎に、当該OCRエンジンを用いて当該帳票種別又は帳票項目の画像データから文字列を読み取った場合の成績(本実施形態では、平均認識率)を蓄積し、又、第二の文字認識部27による文字認識結果に基づいて、蓄積されている成績を更新する。 The form data accumulation unit 21 accumulates form data related to a form or an item in the form in association with an OCR engine suitable for recognizing the form or the item among a plurality of OCR engines (character recognition engines). For each combination of the OCR engine and the form type or the form item, the form data storage unit 21 calculates the results (this implementation In the form, the average recognition rate) is accumulated, and the accumulated results are updated based on the character recognition result by the second character recognition unit 27 .

正解データ蓄積部22は、第一の文字認識部26による文字認識結果のうち、正解文字列(例えば、ユーザーによる修正が受け付けられた際に得られた文字列)と、少なくとも当該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する。 The correct data storage unit 22 stores a correct character string (for example, a character string obtained when a correction by the user is accepted) and at least the correct character string among the character recognition results obtained by the first character recognition unit 26. The included character images are associated with each other and stored as correct answer data.

本実施形態では、帳票データ蓄積部21及び正解データ蓄積部22によって蓄積されるデータは、サーバー50からアクセス可能なデータベースである、帳票データバンクに蓄積される。 In this embodiment, the data accumulated by the form data accumulation unit 21 and the correct data accumulation unit 22 are accumulated in a form data bank, which is a database accessible from the server 50 .

図3は、本実施形態において帳票データバンクに蓄積される帳票データと、帳票画像との関係を示す図である。ここで、帳票データには、帳票全体に係るデータのみならず、帳票中の各項目についてのデータが含まれるものとする。帳票画像は、記入済みの帳票を撮像等の手段を用いて電子化することによって得られた画像であり、帳票中の情報が、画像として含まれている。なお、帳票画像は、スキャナーやカメラを用いて紙媒体が撮像されることによって得られた画像に限定されない。帳票画像は、例えば、所謂タブレットのタッチパネルディスプレイ等を用いて記入された帳票の画像であってもよい。 FIG. 3 is a diagram showing the relationship between the form data accumulated in the form data bank and the form image in this embodiment. Here, it is assumed that the form data includes not only data related to the entire form but also data for each item in the form. A form image is an image obtained by digitizing a filled-in form using means such as imaging, and includes information in the form as an image. Note that the form image is not limited to an image obtained by capturing an image of a paper medium using a scanner or camera. The form image may be, for example, an image of a form filled in using a so-called tablet touch panel display or the like.

本実施形態では、この帳票画像に対して、画像処理による一部画像の抽出、OCRエンジンによる文字読取、及びメタデータの読み取り等を行うことで、書式画像、項目画像、標章画像、全体OCR結果、項目OCR結果、帳票サイズ、等を得ることとしている。ここで、書式画像とは、帳票画像から余白及び記入情報を除いた書式に関する画像(罫線のみの画像、又は罫線の他、地紋、ロゴ、マーク等を含む画像)であり、項目画像とは、OCRの対象となる項目毎の読取領域を切り出した(クロップした)画像であり、標章画像とは、ロゴや印章、地紋等の、帳票作成元が使用する、帳票の識別に有用な画像である。又、全体OCR結果とは、帳票画像全体をOCRを用いて読み取った文字列であり、項目OCR結果とは、項目画像をOCRを用いて読み取った文字列である。又、帳票サイズとは、帳票画像から余白を除いた画像のサイズであり、書式画像のサイズと同じである。 In this embodiment, by extracting a partial image by image processing, reading characters by an OCR engine, reading metadata, etc., from this form image, a format image, an item image, a mark image, and an entire OCR A result, an item OCR result, a form size, and the like are obtained. Here, the format image is an image related to the format excluding margins and entry information from the form image (an image containing only ruled lines, or an image including ruled lines, background patterns, logos, marks, etc.). It is an image that has been cut out (cropped) from the reading area for each item to be OCRed, and the mark image is an image that is useful for identifying a form, such as a logo, a seal, and a tint block, which is used by the form creator. be. The overall OCR result is a character string obtained by reading the entire form image using OCR, and the item OCR result is a character string obtained by reading the item image using OCR. Also, the form size is the size of an image obtained by excluding margins from the form image, and is the same as the size of the form image.

帳票データバンクは、帳票種別データテーブル、帳票項目データテーブル、正解データテーブル、OCRエンジン評価データテーブル、類義語辞書を含む。ここで、帳票種別データテーブルは、帳票種別を特定するための情報、及び当該帳票種別に用いられるOCRエンジンを蓄積するテーブルであり、帳票項目データテーブルは、帳票種別単位で読取項目と各読取項目に用いられるOCRエンジンを蓄積するテーブルである。又、正解データテーブルは、読取元の画像データと当該画像データに含まれる正しい文字列との組み合わせを蓄積するテーブルであり、OCRエンジン評価データテーブルは、帳票種別又は帳票項目毎に、各OCRエンジンによる平均認識率を蓄積するテーブルである。又、類義語辞書は、帳票名や項目名、帳票識別キーワードの類義語を互いに関連づけて保持する辞書である。 The form data bank includes a form type data table, a form item data table, a correct answer data table, an OCR engine evaluation data table, and a synonym dictionary. Here, the form type data table is a table that stores information for specifying the form type and the OCR engine used for the relevant form type. 1 is a table that stores OCR engines used for . The correct data table is a table for accumulating combinations of original image data and correct character strings included in the image data. It is a table for accumulating average recognition rates. The synonym dictionary is a dictionary that holds synonyms of form names, item names, and form identification keywords in association with each other.

図4は、本実施形態において用いられる、帳票データバンク中の帳票種別データテーブルの構成を示す図である。帳票種別データには、帳票種別ID、帳票名(文字列データ)、帳票識別キーワード(文字列データ)、書式画像(画像データ)、標章画像(画像データ)、帳票サイズ、OCRエンジン、及びその他の情報が含まれる。 FIG. 4 is a diagram showing the configuration of the form type data table in the form data bank used in this embodiment. Form type data includes form type ID, form name (character string data), form identification keyword (character string data), format image (image data), emblem image (image data), form size, OCR engine, and others. information is included.

ここで、帳票種別IDは、後述する処理において、帳票種別を識別するために用いられる。又、帳票識別キーワードとは、帳票に印刷された、帳票種別を判定する上で帳票名と組み合わせて重要なキーとなる情報であり、例えば、帳票の発行元会社名等である。なお、帳票識別キーワードについては、1の帳票種別に対して複数指定されてもよい。又、帳票種別データに設定されているOCRエンジンは、当該帳票種別に係る新規帳票(処理対象帳票)の読取に用いられるOCRエンジンを指定するものである。本実施形態に係る帳票処理システム1では、後述する処理が繰り返し実行されて、対象帳票について指定されるOCRエンジンがより適切なものに逐次更新されることにより、対象帳票の読み取り精度が向上していく。 Here, the form type ID is used to identify the form type in the process described later. A form identification keyword is information that is printed on a form and serves as an important key in combination with the form name in determining the type of form, such as the name of the issuing company of the form. A plurality of form identification keywords may be specified for one form type. The OCR engine set in the form type data designates the OCR engine used for reading a new form (process target form) related to the relevant form type. In the form processing system 1 according to the present embodiment, the processing described later is repeatedly executed, and the OCR engine specified for the target form is updated to a more appropriate one, thereby improving the reading accuracy of the target form. go.

図5は、本実施形態において用いられる、帳票データバンク中の帳票項目データテーブルの構成を示す図である。帳票項目データには、帳票種別ID、帳票名、帳票項目ID、項目名(文字列データ)、読取領域、項目形式、項目ルール、OCRエンジン、及びその他の情報が含まれる。 FIG. 5 is a diagram showing the configuration of the form item data table in the form data bank used in this embodiment. The form item data includes form type ID, form name, form item ID, item name (character string data), reading area, item format, item rule, OCR engine, and other information.

ここで、帳票項目IDは、後述する処理において、帳票項目を識別するために用いられる。又、読取領域は、帳票内において当該項目が記載される領域を指定する情報であり、例えば、帳票内の矩形領域であれば、座標及び距離を用いて指定することが出来る。又、項目形式は、対象項目の記載内容が守るべきフォーマット(日付の形式、使用可能な文字種、記入される情報の属性、桁数、等)を指定するものであり、正規表現等を用いて定義することが出来る。項目ルールは、対象項目の記載内容が守るべき記載ルール(値の範囲、その他の項目との関係性、等)を指定するものであり、条件式等を用いて定義することが出来る。なお、読取領域、項目形式、及び項目ルールについては、1の帳票項目に対して複数指定されてもよい。複数指定されている場合、読取領域及び項目形式は、複数のうち何れかが適用され、項目ルールは全てが適用される。 Here, the form item ID is used to identify the form item in the process described later. The reading area is information specifying an area in the form in which the item is written. For example, if it is a rectangular area in the form, it can be specified using coordinates and distance. In addition, the item format specifies the format (date format, usable character types, attributes of information to be entered, number of digits, etc.) that the description content of the target item should follow. can be defined. The item rule specifies the description rule (value range, relationship with other items, etc.) to be followed by the description content of the target item, and can be defined using a conditional expression or the like. Multiple reading areas, item formats, and item rules may be specified for one form item. If multiple items are specified, one of the multiple reading areas and item formats is applied, and all item rules are applied.

そして、帳票項目データに設定されているOCRエンジンは、当該帳票種別に係る新規帳票(処理対象帳票)中の対象項目の読取に用いられるOCRエンジンを指定するものである。即ち、本実施形態では、帳票内の項目単位で、帳票種別データに指定されたOCRエンジン以外のOCRエンジンを用いて読み取りを実行させることが可能である。例えば、ユーザーによって手書き記入される項目については手書き文字の読み取りが得意なOCRエンジンを選択し、特定の言語で記入される項目については、当該言語が得意なOCRエンジンを選択する、といった対応が可能である。 The OCR engine set in the form item data designates the OCR engine used for reading the target item in the new form (processing target form) related to the relevant form type. That is, in the present embodiment, it is possible to execute reading using an OCR engine other than the OCR engine specified in the form type data for each item in the form. For example, it is possible to select an OCR engine that is good at reading handwritten characters for items written by the user, and select an OCR engine that is good at that language for items written in a specific language. is.

図6は、本実施形態において用いられる、帳票データバンク中の正解データテーブルの構成を示す図である。正解データには、OCRエンジン、帳票種別ID、帳票名、帳票項目ID、項目名、読取領域、帳票画像(画像データ)、OCR結果(文字列データ)、正解文字列(文字列データ)、及びその他の情報が含まれる。 FIG. 6 is a diagram showing the configuration of the correct data table in the form data bank used in this embodiment. Correct data includes OCR engine, form type ID, form name, form item ID, item name, reading area, form image (image data), OCR result (character string data), correct character string (character string data), and Contains other information.

ここで、OCR結果は、当該レコードの帳票項目IDに係る項目を、当該レコードに指定されたOCRエンジンを用いて読み取った場合のOCR結果(正解か誤りかを問わない)である(このため、読取領域の誤りであった場合には、OCR結果は空欄であってもよい)。又、正解文字列は、ユーザーによって入力された、当該項目に記載された正しい文字列である(このため、OCR結果が正解である場合には、正解文字列は空欄であってもよい)。 Here, the OCR result is the OCR result (regardless of whether it is correct or not) when the item related to the form item ID of the record is read using the OCR engine specified for the record (for this reason, If there is an error in the reading area, the OCR result may be blank). Also, the correct character string is the correct character string entered by the user and described in the item (for this reason, if the OCR result is correct, the correct character string may be blank).

図7及び図8は、本実施形態において用いられる、帳票データバンク中のOCRエンジン評価データテーブルの構成を示す図である。本実施形態において、OCRエンジン評価データは、帳票種別毎にOCRエンジンの評価を示すOCRエンジン評価データ(帳票種別)と、帳票項目毎にOCRエンジンの評価を示すOCRエンジン評価データ(帳票項目)の2種類用意される。OCRエンジン評価データ(帳票種別)には、帳票種別ID、帳票名、書式画像、OCRエンジン、読取項目数、評価帳票数、平均認識率、及びその他の情報が含まれる。又、OCRエンジン評価データ(帳票項目)には、帳票種別ID、帳票名、帳票項目ID、項目名、項目画像、OCRエンジン、評価項目数、平均認識率、及びその他の情報が含まれる。 7 and 8 are diagrams showing the configuration of the OCR engine evaluation data table in the form data bank used in this embodiment. In this embodiment, the OCR engine evaluation data includes OCR engine evaluation data (form type) that indicates the evaluation of the OCR engine for each form type, and OCR engine evaluation data (form item) that indicates the evaluation of the OCR engine for each form item. Two types are prepared. The OCR engine evaluation data (form type) includes a form type ID, form name, format image, OCR engine, number of read items, number of evaluated forms, average recognition rate, and other information. The OCR engine evaluation data (document item) includes a document type ID, a document name, a document item ID, an item name, an item image, an OCR engine, the number of evaluation items, an average recognition rate, and other information.

ここで、読取項目数とは、対象帳票に含まれる、OCRエンジンを用いた読取の対象となる項目の数である。又、平均認識率とは、OCRエンジン評価データに係る帳票種別又は帳票項目についての、対象OCRエンジンによるOCR結果の正解率(認識率)の平均値である。平均認識率は、例えば、以下に示す式を用いて算出・更新される。
総読取項目数=評価項目数×評価帳票数+今回の読取項目数
総正解数=評価項目数×評価帳票数×平均認識率+今回の正解数
平均認識率=総正解数÷総読取項目数×100
Here, the number of read items is the number of items to be read using the OCR engine, included in the target form. Also, the average recognition rate is the average value of the accuracy rate (recognition rate) of the OCR result by the target OCR engine for the form type or form item related to the OCR engine evaluation data. The average recognition rate is calculated and updated using, for example, the formula shown below.
Total number of read items = Number of evaluation items x Number of evaluation sheets + Number of items read this time Total number of correct answers = Number of evaluation items x Number of evaluation sheets x Average recognition rate + Number of correct answers this time ×100

画像データ取得部23は、モバイルカメラやスキャナー等のノード90によって撮像され、サーバー50宛に送信された処理対象帳票の画像データを取得する。 The image data acquisition unit 23 acquires image data of a form to be processed that is captured by a node 90 such as a mobile camera or a scanner and transmitted to the server 50 .

特徴データ取得部24は、処理対象帳票の画像データから、処理対象帳票に係る複数種類の特徴データを取得する。具体的には、特徴データ取得部24は、処理対象帳票の特徴データとして、処理対象帳票の画像データに含まれる文字列、処理対象帳票の画像データから文字画像を除いた書式画像、ロゴ画像及び帳票サイズ等を、所定のOCRエンジンや画像処理機能を用いて取得する。 The characteristic data acquisition unit 24 acquires a plurality of types of characteristic data related to the processing target form from the image data of the processing target form. Specifically, the characteristic data acquiring unit 24 obtains, as characteristic data of the processing target form, a character string included in the image data of the processing target form, a format image obtained by excluding character images from the image data of the processing target form, a logo image, and The form size and the like are acquired using a predetermined OCR engine and image processing function.

帳票データ検索部25は、帳票データ蓄積部21によって蓄積された帳票データを、特徴データを用いて検索することで、処理対象帳票に類似する帳票データを索出する。例えば、帳票データ検索部25は、帳票データ蓄積部21によって蓄積された帳票データを、特徴データ取得部24によって取得された文字列、書式画像、ロゴ画像又は帳票サイズ等を用いて検索することで、処理対象帳票に類似する帳票データを索出する。この際、帳票データ検索部25は、複数種類の特徴データ又は特徴データの組み合わせを用いて帳票データを検索することで、特徴データ又は特徴データの組み合わせ毎に検索結果を得、得られた検索結果を所定の順序で評価し、所定の条件を最初に満たした検索結果を、処理対象帳票に類似する帳票データとする。 The form data search unit 25 searches the form data accumulated by the form data accumulation unit 21 using the feature data, thereby retrieving form data similar to the form to be processed. For example, the form data search unit 25 searches the form data accumulated by the form data accumulation unit 21 using the character string, the format image, the logo image, the form size, or the like acquired by the characteristic data acquisition unit 24. , to retrieve form data similar to the form to be processed. At this time, the form data search unit 25 searches form data using a plurality of types of feature data or combinations of feature data to obtain search results for each feature data or combination of feature data. are evaluated in a predetermined order, and the retrieval result that satisfies the predetermined conditions first is taken as form data similar to the form to be processed.

第一の文字認識部26は、複数のOCRエンジンのうち、帳票データ検索部25によって索出された、処理対象帳票の画像データに対応する帳票種別又は帳票項目に係る帳票データに関連付けられたOCRエンジンを用いて、処理対象帳票の画像データに含まれる文字列を読み取る。 The first character recognition unit 26 performs OCR associated with the form data related to the form type or form item corresponding to the image data of the form to be processed, which is retrieved by the form data search unit 25 among the plurality of OCR engines. Using the engine, the character string included in the image data of the form to be processed is read.

第二の文字認識部27は、複数のOCRエンジンの夫々を用いて、正解データ蓄積部22によって蓄積された文字画像に含まれる文字列を読み取る。又、第二の文字認識部27は、当該情報処理装置において利用可能な新たなOCRエンジンが追加された場合に、追加されたOCRエンジンを用いて、正解データ蓄積部22によって蓄積された文字画像に含まれる文字列を読み取る。 The second character recognition section 27 uses each of the plurality of OCR engines to read character strings included in the character images accumulated by the correct data accumulation section 22 . Further, when a new OCR engine that can be used in the information processing apparatus is added, the second character recognition unit 27 uses the added OCR engine to recognize the character images accumulated by the correct data accumulation unit 22. Read the string contained in .

補正部28は、第一の文字認識部26による文字認識結果を、形式又は記載ルールに適合するように補正する。 The correction unit 28 corrects the character recognition result by the first character recognition unit 26 so as to conform to the format or description rule.

修正受付部29は、第一の文字認識部26による文字認識結果の、ユーザーによる修正を受け付ける。 A correction accepting unit 29 accepts a user's correction of the character recognition result by the first character recognizing unit 26 .

形式/ルール更新部30は、正解データ蓄積部22によって蓄積された、ユーザーによる修正によって得られた正解文字列から、同一項目についての正解文字列を抽出し、当該正解文字列が形式又は記載ルールに適合していない場合に、修正によって得られた正解文字列が当該当項目の形式/ルールに適合するように当該当項目の形式又は記載ルールを更新する。 The format/rule updating unit 30 extracts the correct character string for the same item from the correct character strings obtained by correction by the user and accumulated by the correct data accumulation unit 22, and extracts the correct character string for the same item from the correct character string. , the format or description rule of the item is updated so that the correct character string obtained by modification conforms to the format/rule of the item.

エンジン変更部31は、帳票データ蓄積部21によって蓄積されている成績に基づいて、帳票種別又は帳票項目に関連付けられるOCRエンジンを、当該帳票種別又は当該帳票項目について最も成績の高いOCRエンジンに変更する。 The engine change unit 31 changes the OCR engine associated with the form type or form item to the OCR engine with the highest result for the form type or form item based on the results accumulated by the form data accumulation unit 21. .

<処理の流れ>
次に、本実施形態に係るサーバー50によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容および処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
<Process flow>
Next, the flow of processing executed by the server 50 according to this embodiment will be described. It should be noted that the specific content and processing order of the processing described below are examples for carrying out the present disclosure. Specific processing contents and processing order may be appropriately selected according to the embodiment of the present disclosure.

図9及び図10は、本実施形態に係るエンジン選択処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、サーバー50が新たな帳票(以下、「処理対象帳票」)を受信したことを契機として実行される。 9 and 10 are flowcharts showing an overview of the flow of engine selection processing according to this embodiment. The processing shown in this flowchart is executed when the server 50 receives a new form (hereinafter referred to as a "process target form").

ステップS101では、帳票画像が取得される。画像データ取得部23は、モバイルカメラやスキャナー等のノード90によって撮像され、サーバー50宛に送信された処理対象帳票の画像データ(帳票画像)を取得する。その後、処理はステップS102へ進む。 In step S101, a form image is obtained. The image data acquisition unit 23 acquires image data (form image) of a form to be processed which is captured by the node 90 such as a mobile camera or a scanner and transmitted to the server 50 . After that, the process proceeds to step S102.

ステップS102からステップS106では、帳票画像から特徴データが取得される。特徴データ取得部24は、画像データ(帳票画像)から、処理対象帳票に係る特徴データを取得する。具体的には、特徴データ取得部24は、所定のOCRエンジン(例えば、帳票処理システム1から利用可能な複数のOCRエンジンの何れか)を用いて、帳票画像に含まれる、OCR読み取り可能な全ての文字を特徴データ(全体OCR結果)として取得する(ステップS102)。ここで取得された全体OCR結果には、帳票名及び帳票識別キーワード(帳票に係る会社名等)が含まれる。 In steps S102 to S106, feature data is acquired from the form image. The feature data acquisition unit 24 acquires feature data related to the form to be processed from the image data (form image). Specifically, the feature data acquisition unit 24 uses a predetermined OCR engine (for example, one of a plurality of OCR engines available from the form processing system 1) to extract all OCR-readable data contained in the form image. character as feature data (overall OCR result) (step S102). The overall OCR result obtained here includes the form name and form identification keyword (company name related to the form, etc.).

更に、特徴データ取得部24は、特徴データとして、帳票画像から文字画像を除いた書式画像を取得する(ステップS103)。本実施形態において、特徴データ取得部24は、ステップS102での文字認識の結果、OCRエンジンによって文字であると認識された1又は複数の領域を特定し、帳票画像から当該領域の画像を削除することで、書式画像を取得する。その他、罫線抽出のための具体的な方法には、様々な方法を採用可能である。例えば、帳票に係る画像データから、罫線に係る部分と罫線以外の部分(文字や記号、写真等)とを、画像解析によって峻別し、罫線のみの画像データを生成することとしてもよい。 Furthermore, the feature data acquisition unit 24 acquires the form image obtained by removing the character image from the form image as feature data (step S103). In this embodiment, the feature data acquisition unit 24 identifies one or more areas recognized as characters by the OCR engine as a result of character recognition in step S102, and deletes the image of the area from the form image. to get the format image. In addition, various methods can be adopted as specific methods for extracting ruled lines. For example, from the image data of the form, the part related to the ruled line and the part other than the ruled line (characters, symbols, photographs, etc.) may be distinguished by image analysis, and image data of only the ruled line may be generated.

又、特徴データ取得部24は、特徴データとして、書式画像からロゴや印章、地紋等の標章(マーク)画像を取得する(ステップS104)。具体的には、標章画像は、書式画像から、枠線及び文字の画像を除き、残った画像から、画像解析によってロゴや印章、地紋等の画像を特定し、切り出すことで、標章画像を取得する。この際、標章画像の抽出には、ロゴや印章、地紋等の学習データを用いて構築された機械学習モデルが用いられてもよい。 Further, the feature data acquisition unit 24 acquires mark images such as logos, seals, and background patterns from the format image as feature data (step S104). Specifically, the mark image is obtained by removing the frame line and text images from the form image, and then using image analysis to identify and cut out images such as logos, seals, and background patterns from the remaining image. to get At this time, a machine learning model constructed using learning data such as logos, seals, and background patterns may be used to extract the mark image.

更に、特徴データ取得部24は、特徴データとして、書式画像から帳票サイズその他のパラメータを取得する(ステップS105及びステップS106)。その他のパラメータとは、例えば、帳票において用いられている言語や、帳票のページ数等である。これらのパラメータは、全体OCR結果や、書式画像に含まれるメタデータから取得することができる。その後、処理はステップS107へ進む。 Furthermore, the feature data acquisition unit 24 acquires the form size and other parameters from the format image as feature data (steps S105 and S106). Other parameters are, for example, the language used in the form, the number of pages in the form, and the like. These parameters can be obtained from the overall OCR results or metadata contained in the form image. After that, the process proceeds to step S107.

ステップS107では、特徴データを用いて帳票データバンクが検索される。帳票データ検索部25は、帳票データバンク中の帳票種別データを、ステップS102からステップS106の処理で取得された特徴データの種類毎に検索する。ここで、帳票データ検索部25は、複数種類の特徴データのうち、高い優先度が設定された特徴データから順に特徴データを用いて帳票データを検索する。そして、特徴データ毎に検索結果を得、所定の条件を最初に満たした検索結果を、処理対象帳票に類似する帳票データとする。本実施形態における特徴データの優先度及び検索処理の一例は、優先度が高い順に以下の通りである。なお、(検索3)と(検索4)の優先度は逆でもよい。 In step S107, the form data bank is searched using the feature data. The form data search unit 25 searches the form type data in the form data bank for each type of characteristic data acquired in the processing from step S102 to step S106. Here, the form data search unit 25 searches for form data using the feature data in descending order of priority among the plurality of types of feature data. A search result is obtained for each feature data, and the search result that first satisfies a predetermined condition is taken as form data similar to the form to be processed. An example of priority of feature data and search processing in the present embodiment is as follows in descending order of priority. Note that the priority of (search 3) and (search 4) may be reversed.

(検索1)帳票名及び帳票識別キーワード:帳票データ検索部25は、帳票種別データに含まれる帳票名及び帳票識別キーワードを用いて、ステップS102で得られた全体OCR結果を検索することで、帳票名及び帳票識別キーワードが処理対象帳票の全体OCR結果に含まれる帳票種別データを索出する。検索に際しては、類義語辞書が併用されてもよい。 (Search 1) Form name and form identification keyword: The form data search unit 25 uses the form name and form identification keyword included in the form type data to search the entire OCR result obtained in step S102, thereby Form type data whose name and form identification keyword are included in the overall OCR result of the process target form are retrieved. A synonym dictionary may also be used for searching.

(検索2)書式画像:帳票データ検索部25は、ステップS103で取得された書式画像と、帳票種別データに含まれる書式画像との画像の類似度を算出し、類似度が閾値を超える書式画像に係る帳票種別データを索出する。 (Search 2) Form image: The form data search unit 25 calculates the degree of similarity between the form image acquired in step S103 and the form image included in the form type data. Search for the form type data related to.

(検索3)標章画像:帳票データ検索部25は、ステップS104で取得された標章画像と、帳票種別データに含まれる標章画像との画像の類似度を算出し、類似度が閾値を超える標章画像に係る帳票種別データを索出する。 (Search 3) Mark image: The form data search unit 25 calculates the similarity between the mark image acquired in step S104 and the mark image included in the form type data. form type data related to the mark image exceeding the

(検索4)帳票サイズ:帳票データ検索部25は、ステップS105で取得された帳票サイズと、帳票種別データに含まれる帳票サイズとを比較し、差分が閾値の範囲内の帳票サイズに係る帳票種別データを索出する。 (Search 4) Form size: The form data search unit 25 compares the form size acquired in step S105 with the form size included in the form type data, and determines the form type associated with the form size whose difference is within the range of the threshold value. Search for data.

(検索5)言語、ページ数等のその他パラメータ:帳票データ検索部25は、ステップS106で取得されたその他パラメータと、帳票種別データに含まれるその他パラメータとを比較し、一致するか、類似度が閾値を超えるか、又は差分が閾値の範囲内のその他パラメータに係る帳票種別データを索出する。 (Search 5) Other parameters such as language and number of pages: The form data search unit 25 compares the other parameters acquired in step S106 with the other parameters included in the form type data to determine whether they match or have similarity. Document type data related to other parameters exceeding the threshold or whose difference is within the range of the threshold are retrieved.

ステップS108からステップS111では、索出された帳票種別データから、最も類似するデータが絞り込まれる。帳票データ検索部25は、ステップS107における検索結果の件数を、各検索条件又は検索条件の組合せ毎に判定する。 In steps S108 to S111, the most similar data is narrowed down from the retrieved form type data. The form data search unit 25 determines the number of search results in step S107 for each search condition or combination of search conditions.

具体的には、まず、帳票データ検索部25は、「検索1」の結果得られた帳票種別データの件数を参照し(ステップS108)、1件である場合には、処理をステップS114に進める。「検索1」の結果得られた帳票種別データの件数が1件ではなかった(0件又は複数件)場合、帳票データ検索部25は、「検索2」の結果得られた帳票種別データの件数を参照し(ステップS109)、1件である場合には、処理をステップS114に進める。「検索2」の結果得られた帳票種別データの件数が0件であった場合、処理はステップS112へ進む。「検索2」の結果得られた帳票種別データの件数が複数件であった場合、帳票データ検索部25は、「検索1」の結果と「検索2」の結果の双方に含まれる(即ち、「検索1」且つ「検索2」)帳票種別データの件数を参照し(ステップS110)、1件である場合には、処理をステップS114に進める。一方、「検索1」の結果と「検索2」の結果の双方に含まれる(即ち、「検索1」且つ「検索2」)帳票種別データの件数が0件又は複数件であった場合、帳票データ検索部25は、更に「検索3」から「検索5」の条件を優先度の高い順に加えて検索結果を絞り込み(ステップS111)、1件に絞り込まれた場合には、処理をステップS114に進める。 Specifically, first, the form data search unit 25 refers to the number of forms type data obtained as a result of "search 1" (step S108), and if the number is one, the process proceeds to step S114. . If the number of form type data obtained as a result of "search 1" is not 1 (zero or more), the form data search unit 25 determines the number of form type data obtained as a result of "search 2" (step S109), and if there is one case, the process proceeds to step S114. If the number of document type data obtained as a result of "search 2" is 0, the process proceeds to step S112. If the number of items of form type data obtained as a result of "search 2" is plural, the form data search unit 25 is included in both the result of "search 1" and the result of "search 2" (i.e., "Search 1" and "Search 2") The number of document type data is referred to (step S110), and if the number is one, the process proceeds to step S114. On the other hand, if the number of form type data included in both the results of "search 1" and the result of "search 2" (i.e., "search 1" and "search 2") is 0 or more, the form The data search unit 25 further narrows down the search results by adding the conditions of "search 3" to "search 5" in descending order of priority (step S111). proceed.

このようにして、検索に用いられる特徴データの優先度に従って、処理対象帳票に類似する帳票種別データを絞り込むことで、より確度の高い条件を用いて、処理対象帳票の帳票種別を判定することが出来る。 In this way, by narrowing down the form type data similar to the form to be processed according to the priority of the feature data used for retrieval, the form type of the form to be processed can be determined using more accurate conditions. I can.

一方、ステップS111において、「検索3」から「検索5」の条件を全て加えて検索結果を絞り込んでも1件に絞り込めなかった場合、これまでの絞り込み結果は破棄され、処理はステップS112へ進む。但し、ステップS111における絞り込み結果は、次のステップS112の処理における検索結果に加味されてもよい。 On the other hand, in step S111, if the search result cannot be narrowed down to one even if all the conditions of "search 3" to "search 5" are added, the narrowed down result so far is discarded, and the process proceeds to step S112. . However, the result of narrowing down in step S111 may be added to the search result in the process of next step S112.

ステップS112では、帳票名、項目名、項目画像及び書式画像に基づいて、適切なOCRエンジンが選択される。第一の文字認識部26は、帳票データバンク内のOCRエンジン評価データ(帳票種別)テーブルを、帳票名及び書式画像を用いて検索し、類似度が高いOCRエンジン評価データ(帳票種別)について平均認識率が蓄積されているOCRエンジンのうち、最も平均認識率が高いOCRエンジンを、処理対象帳票の処理用OCRエンジンとして決定する。 In step S112, an appropriate OCR engine is selected based on the form name, item name, item image and form image. The first character recognition unit 26 searches the OCR engine evaluation data (form type) table in the form data bank using the form name and the format image, and averages the OCR engine evaluation data (form type) with a high degree of similarity. Of the OCR engines with accumulated recognition rates, the OCR engine with the highest average recognition rate is determined as the OCR engine for processing the form to be processed.

又、第一の文字認識部26は、帳票データバンク内のOCRエンジン評価データ(帳票項目)テーブルを、帳票名、項目名及び項目画像を用いて検索し、類似度が高いOCRエンジン評価データ(帳票項目)について平均認識率が蓄積されているOCRエンジンのうち、最も平均認識率が高いOCRエンジンを、処理対象帳票の当該項目の処理用OCRエンジンとして決定する。なお、OCRエンジン評価データの検索を行っても、処理用のOCRエンジンを決定できなかった場合、第一の文字認識部26は、検索結果をユーザーに提示し、処理対象帳票の処理用OCRエンジンを、ユーザーに選択させてもよい。その後、処理はステップS113へ進む。 Also, the first character recognition unit 26 searches the OCR engine evaluation data (form item) table in the form data bank using the form name, item name, and item image, and recognizes the OCR engine evaluation data ( Out of the OCR engines for which the average recognition rate is accumulated for the form item), the OCR engine with the highest average recognition rate is determined as the OCR engine for processing the item of the target form. If the OCR engine for processing cannot be determined even after searching the OCR engine evaluation data, the first character recognition unit 26 presents the search result to the user, and the OCR engine for processing the form to be processed. may be selected by the user. After that, the process proceeds to step S113.

ステップS113では、帳票種別データ及び帳票項目データが追加される。帳票データ蓄積部21は、処理対象帳票に対応する帳票種別データ及び帳票項目データを生成し、ステップS112で決定されたOCRエンジンを関連づけて帳票データバンクへ追加する。追加される帳票種別データ及び帳票項目データの帳票名は、選択されたOCRエンジン評価データ(帳票種別)に従って決定され、帳票識別キーワードは、全体OCR結果から選択される。帳票種別データ及び帳票項目データに含まれるその他の項目については、ステップS102からステップS106の処理で取得されたデータが使用される。なお、帳票データ蓄積部21は、全体OCR結果のうち、フォントが大きい文字列や、キーワードが記載される頻度が高い所定の位置又は領域にあった文字列を、帳票識別キーワードと推定することが出来る。又、帳票種別データ及び帳票項目データのうち自動的に設定された項目については、後述する処理において更新・修正することが可能である。その後、処理はステップS114へ進む。 In step S113, the form type data and the form item data are added. The form data accumulating unit 21 generates form type data and form item data corresponding to the form to be processed, associates them with the OCR engine determined in step S112, and adds them to the form data bank. The form name of the form type data and form item data to be added is determined according to the selected OCR engine evaluation data (form type), and the form identification keyword is selected from the overall OCR result. For other items included in the form type data and the form item data, the data acquired in the processes from step S102 to step S106 are used. Note that the form data storage unit 21 may estimate, among the overall OCR results, character strings with large fonts and character strings that are in predetermined positions or areas where keywords are frequently described as form identification keywords. I can. Items that are automatically set in the form type data and the form item data can be updated/corrected in a process described later. After that, the process proceeds to step S114.

ステップS114では、処理対象帳票の処理用OCRエンジンが決定される。第一の文字認識部26は、ステップS107からステップS111の処理で索出された帳票種別データに関連づけられているOCRエンジン、又はステップS112で決定又は選択されたOCRエンジンを、処理対象帳票の処理用OCRエンジンに決定する。その後、本フローチャートに示された処理は終了する。 In step S114, the OCR engine for processing the form to be processed is determined. The first character recognition unit 26 recognizes the OCR engine associated with the form type data retrieved in the processes from step S107 to step S111 or the OCR engine determined or selected in step S112 to process the form to be processed. Select the OCR engine for After that, the processing shown in this flowchart ends.

図11及び図12は、本実施形態に係る帳票読取処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、上述したエンジン選択処理に続けて実行される。 11 and 12 are flowcharts showing an outline of the flow of the form reading process according to this embodiment. The processing shown in this flowchart is executed following the engine selection processing described above.

ステップS201では、帳票項目データに定義された各項目の読み取りが行われる。第一の文字認識部26は、上述したエンジン選択処理のステップS114で処理対象帳票の処理用OCRエンジンに決定されたOCRエンジンを用いて、帳票項目データに定義された各項目の文字を、当該帳票項目データに設定された読取領域から読み取る。この際、帳票項目データに、対象項目のOCRエンジンとして、ステップS114で決定された処理対象帳票の処理用OCRエンジンとは異なるエンジンが指定されている場合、指定されたOCRエンジンを用いて、対象項目の文字が読み取られる。その後、処理はステップS202へ進む。 In step S201, each item defined in the form item data is read. The first character recognition unit 26 recognizes the characters of each item defined in the form item data using the OCR engine determined as the processing OCR engine for the form to be processed in step S114 of the engine selection process described above. Read from the reading area set in the form item data. At this time, if an engine different from the processing OCR engine for the processing target form determined in step S114 is specified in the form item data as the OCR engine for the target item, the specified OCR engine is used to The characters in the item are read. After that, the process proceeds to step S202.

ステップS202及びステップS203では、OCR結果が補正される。補正部28は、ステップS201で読み取られた文字を、帳票項目データに定義された項目形式に従って補正する(ステップS202)。例えば、補正部28は、当該項目の帳票項目データに設定された項目形式が「日付」である場合、読み取られた文字列が日付の形式に沿ったものであるか否かを確認し、日付の形式に沿っていない場合、これを自動的に修正する。又、補正部28は、ステップS201で読み取られた文字を、帳票項目データに定義された項目ルールに従って補正する(ステップS203)例えば、補正部28は、当該項目の帳票項目データに設定された項目ルールが「発行日より未来」である場合、読み取られた文字列が、同帳票内の項目「発行日」から読み取られた日付より未来の日付を示すものであるか否かを確認し、項目ルールに沿っていない場合、これを自動的に修正する。その後、処理はステップS204へ進む。 In steps S202 and S203, the OCR results are corrected. The correction unit 28 corrects the characters read in step S201 according to the item format defined in the form item data (step S202). For example, when the item format set in the form item data of the item is "date", the correction unit 28 checks whether the read character string conforms to the format of the date. automatically corrects it if it does not follow the format of Further, the correction unit 28 corrects the characters read in step S201 according to the item rule defined in the form item data (step S203). If the rule is "Future than issue date", check whether the read character string indicates a future date than the date read from the item "Issuance date" in the same form. Automatically correct this if it doesn't follow the rules. After that, the process proceeds to step S204.

ステップS204では、処理対象帳票内の全ての項目について読み取りが完了したか否かが判定される。第一の文字認識部26は、ステップS201からステップS203の処理を、帳票項目データに定義された、当該帳票種別に係る全ての項目について完了したか否かを確認する。全ての項目についての処理が完了していない場合、処理はステップS201へ戻る。一方、全ての項目についての処理が完了した場合、処理はステップS205へ進む。 In step S204, it is determined whether or not all the items in the form to be processed have been read. The first character recognition unit 26 confirms whether or not the processing from step S201 to step S203 has been completed for all items related to the relevant form type defined in the form item data. If processing for all items has not been completed, the process returns to step S201. On the other hand, if the processing for all items has been completed, the processing proceeds to step S205.

ステップS205からステップS208では、OCR結果がユーザーによって確認され、必要に応じて修正される。修正受付部29は、ステップS101で取得された帳票画像、ステップS201で項目読み取りの際に指定された読取領域の項目画像、及びステップS201からステップS204の処理で取得された項目OCR結果を、ノード90の画面に表示させる等の方法で、ユーザーから確認可能なように出力する(ステップS205)。そして、修正受付部29は、出力されたOCR結果を確認したユーザーによって入力された確認結果を受け付ける(ステップS206)。ここで、ユーザーは、ノード90等を用いて、OCR結果に対して、項目毎に、OCR結果が正しいか否かを示す入力を行うことが出来る。OCR結果が正しい場合、処理はステップS212へ進む。一方、OCR結果が正しくない(OCRが誤認識した)項目がある場合、修正受付部29は、ノード90から、正しい文字列、及び/又は正しい読取領域の入力を受け付ける(ステップS208)。その後、処理はステップS209へ進む。 In steps S205 to S208, the OCR results are checked by the user and corrected if necessary. The correction accepting unit 29 stores the form image acquired in step S101, the item image of the reading area specified when the item is read in step S201, and the item OCR result acquired in the processing from step S201 to step S204 to the node. It is output so that the user can check it by a method such as displaying it on the screen of 90 (step S205). Then, the correction accepting unit 29 accepts the confirmation result input by the user who confirmed the output OCR result (step S206). Here, the user can use the node 90 or the like to input whether or not the OCR result is correct for each item of the OCR result. If the OCR result is correct, the process proceeds to step S212. On the other hand, if there is an item with an incorrect OCR result (an erroneous OCR recognition), the correction accepting unit 29 accepts input of a correct character string and/or correct reading area from the node 90 (step S208). After that, the process proceeds to step S209.

ステップS209からステップS211では、ユーザーによる修正内容に基づいて、帳票データバンクが更新される。ステップS208で修正された項目が帳票識別キーワードであった場合、帳票データ蓄積部21は、誤認識によって得られた文字列を、帳票種別データの帳票識別キーワードに追加する(ステップS209)。このようにすることで、OCRエンジンが同様の誤認識をした場合でも、帳票種別を正しく認識することが可能となる。 In steps S209 to S211, the form data bank is updated based on the content of the correction made by the user. If the item corrected in step S208 is the form identification keyword, the form data accumulation unit 21 adds the character string obtained by misrecognition to the form identification keyword of the form type data (step S209). By doing so, even if the OCR engine makes similar erroneous recognition, it is possible to correctly recognize the form type.

又、正解データ蓄積部22は、ユーザーによって入力された正解文字列を、正解データとして追加する(ステップS210)。具体的には、正解データ蓄積部22は、ステップS208で読取領域が修正された場合、ユーザーが入力した正しい読取領域(再指定された読取領域)及び帳票画像を含む正解データを生成し、帳票データバンクに追加する。又、正解データ蓄積部22は、ステップS208で項目OCR結果の文字列が修正された場合、帳票画像、修正前の誤認識された文字列であるOCR結果、及びユーザーが入力した正解文字列を含む正解データを生成し、帳票データバンクに追加する。なお、本実施形態において、正解データテーブルには、ユーザーによる修正の際に入力された正解文字列が登録されることとしているが、OCRエンジンによって正しく読み取られたOCR結果についても、正解文字列として正解データテーブルに蓄積されてもよい。 In addition, the correct data storage unit 22 adds the correct character string input by the user as correct data (step S210). Specifically, when the reading area is corrected in step S208, the correct data storage unit 22 generates correct reading area input by the user (re-designated reading area) and correct data including the form image, and Add to databank. Further, when the character string of the item OCR result is corrected in step S208, the correct data storage unit 22 stores the form image, the OCR result of the incorrectly recognized character string before correction, and the correct character string input by the user. Generates correct data containing In this embodiment, the correct character string input by the user at the time of correction by the user is registered in the correct answer data table. It may be accumulated in the correct answer data table.

更に、ステップS208で修正された項目が帳票名や項目であった場合、帳票データ蓄積部21は、修正前の誤認識された文字列(例えば、「口口名」)を、ユーザーが入力した正しい文字列(例えば、「品名」)の類義語として、類義語辞書へ登録する(ステップS211)。その後、処理はステップS212へ進む。 Furthermore, if the item corrected in step S208 is a form name or an item, the form data storage unit 21 stores the incorrectly recognized character string (for example, "word name") before correction as entered by the user. The correct character string (for example, "product name") is registered as a synonym in the synonym dictionary (step S211). After that, the process proceeds to step S212.

ステップS212では、OCRエンジン評価データが更新される。帳票データ蓄積部21は、ステップS201で読み取られた項目の数と、ステップS206で得られたOCR結果の評価とに基づいて、OCRエンジン評価データ(帳票項目)及びOCRエンジン評価データ(帳票種別)を更新する。 At step S212, the OCR engine evaluation data is updated. The form data accumulation unit 21 stores OCR engine evaluation data (form items) and OCR engine evaluation data (form type) based on the number of items read in step S201 and the evaluation of the OCR results obtained in step S206. to update.

具体的には、帳票データ蓄積部21は、S201で新たに読み取られた項目の数(10項目含まれる1帳票が読み取られた場合、10)を、対応する帳票種別、帳票項目及びOCRエンジンの組み合わせに係るOCRエンジン評価データ(帳票項目)中の評価項目数に加算し、新たに読み取られた項目のOCR結果の正解/誤りに基づいて、当該OCRエンジン評価データ(帳票項目)の平均認識率を更新する。例えば、20000項目読み取った時点での正解項目数が18000であった場合、平均認識率は90%となる。 Specifically, the form data storage unit 21 stores the number of items newly read in S201 (10 if one form containing 10 items is read) as the corresponding form type, form item, and OCR engine. Add to the number of evaluation items in the OCR engine evaluation data (form item) related to the combination, and the average recognition rate of the OCR engine evaluation data (form item) based on the correct/wrong OCR result of the newly read item to update. For example, if the number of correct items is 18,000 when 20,000 items are read, the average recognition rate is 90%.

又、帳票データ蓄積部21は、S201で新たに読み取られた帳票の数(例えば、1)を、対応する帳票種別及びOCRエンジンの組み合わせに係るOCRエンジン評価データ(帳票種別)中の評価帳票数に加算し、新たに読み取られた帳票のOCR結果の正解率(例えば、10項目中9項目が正解であった場合、90%)に基づいて、当該OCRエンジン評価データ(帳票種別)の平均認識率を更新する。例えば、読取項目数が10である帳票を20000帳票(即ち、200000項目)読み取った時点での正解項目数が180000であった場合、平均認識率は90%となる。 In addition, the form data accumulation unit 21 calculates the number of newly read forms (for example, 1) in S201 as the number of evaluated forms in the OCR engine evaluation data (form type) associated with the combination of the corresponding form type and OCR engine. and the average recognition of the OCR engine evaluation data (form type) based on the accuracy rate of the OCR result of the newly read form (for example, 90% when 9 out of 10 items are correct) Update rate. For example, if the number of correct items is 180,000 when 20,000 forms (that is, 200,000 items) of 10 read items are read, the average recognition rate is 90%.

ステップS212の処理で更新されたOCRエンジン評価データ(帳票項目)及びOCRエンジン評価データ(帳票種別)の平均認識率は、後述するエンジン最適化処理において参照されることで、帳票種別又は帳票項目について用いられるOCRエンジンの最適化に貢献する。その後、本フローチャートに示された処理は終了する。 The OCR engine evaluation data (form item) and the average recognition rate of the OCR engine evaluation data (form type) updated in the process of step S212 are referred to in the engine optimization process, which will be described later. Contributes to optimization of the OCR engine used. After that, the processing shown in this flowchart ends.

図13は、本実施形態に係るデータ分析処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、ステップS208からステップS211で説明したOCR結果の修正が行われたことが検知されると、自動的に実行される。但し、本フローチャートに示された処理が実行されるタイミングは、OCR結果の修正が行われた直後でなくてもよい。例えば、本フローチャートに示された処理は、管理者が指定したタイミングで実行されてもよいし、定期的に実行されてもよい。 FIG. 13 is a flowchart showing an overview of the flow of data analysis processing according to this embodiment. The processing shown in this flowchart is automatically executed when it is detected that the OCR result has been corrected as described in steps S208 to S211. However, the timing at which the processing shown in this flowchart is executed does not have to be immediately after the correction of the OCR result. For example, the processing shown in this flowchart may be executed at a timing specified by an administrator, or may be executed periodically.

ステップS301では、項目名が共通する正解データが抽出される。形式/ルール更新部30は、帳票データバンクから、同一帳票種別且つ同一項目に係る正解データを抽出する。その後、処理はステップS302へ進む。 In step S301, correct data having a common item name are extracted. The format/rule update unit 30 extracts correct data for the same form type and the same item from the form data bank. After that, the process proceeds to step S302.

ステップS302からステップS305では、正解データが分析され、帳票項目データ中の項目形式及び項目ルールが更新される。形式/ルール更新部30は、ステップS301で抽出された正解データ内の正解文字列群を分析し、分析結果に従って帳票項目データの項目形式及び項目ルールを追加して、OCRによる読取精度を改善する。具体的には、形式/ルール更新部30は、ステップS301で抽出された正解データ内の正解文字列群が、帳票項目データの項目形式を満たすか否かを判定し(ステップS302)、満たさないと判定された場合、帳票項目データに、新たな項目形式を登録する(ステップS303)。例えば、形式/ルール更新部30は、正解データから抽出された正解文字列が和暦日付であるが、帳票項目データに設定されている項目形式が西暦日付のみであった場合、和暦日付を項目形式に追加する。又、形式/ルール更新部30は、正解データから抽出された正解文字列に英字が含まれるが、帳票項目データに設定されている項目形式が数字のみであった場合、英字を項目形式に追加する。又、形式/ルール更新部30は、正解データから抽出された正解文字列群の内容に応じて、新しい番号体系を追加したり、正規表現パターンを追加したりすることが出来る。 In steps S302 to S305, the correct answer data is analyzed, and the item format and item rules in the form item data are updated. The format/rule updating unit 30 analyzes the correct character string group in the correct data extracted in step S301, adds the item format and item rule of the form item data according to the analysis result, and improves the reading accuracy by OCR. . Specifically, the format/rule updating unit 30 determines whether or not the correct character string group in the correct answer data extracted in step S301 satisfies the item format of the form item data (step S302). If so, a new item format is registered in the form item data (step S303). For example, if the correct character string extracted from the correct answer data is a Japanese calendar date, but the item format set in the form item data is only a Christian calendar date, the format/rule updating unit 30 updates the Japanese calendar date. Add to item format. Also, if the correct character string extracted from the correct data includes alphabetic characters, but the item format set in the form item data is only numbers, the format/rule updating unit 30 adds the alphabetic characters to the item format. do. Also, the format/rule updating unit 30 can add a new number system or add a regular expression pattern according to the content of the correct character string group extracted from the correct answer data.

又、形式/ルール更新部30は、ステップS301で抽出された正解データ内の正解文字列群が、帳票項目データの項目ルールを満たすか否かを判定し(ステップS304)、満たさないと判定された場合、帳票項目データに、新たな項目ルールを登録する(ステップS305)。例えば、形式/ルール更新部30は、正解データから抽出された正解文字列が項目ルールに設定された数値の上限、下限、桁数の範囲内でない場合、正解文字列が含まれるように、項目ルールを変更する。又、形式/ルール更新部30は、正解データから抽出された正解文字列に「¥」「,」等の文字が含まれないが、これらの文字が項目ルールに設定されている場合、これらの文字を項目ルールから除く。又、形式/ルール更新部30は、正解データから抽出された正解文字列が社名であるが、項目ルール(社名辞書)に登録のない新たな社名であった場合、項目ルール(社名辞書)に当該社名を登録する。その後、本フローチャートに示された処理は終了する。 The format/rule updating unit 30 also determines whether the correct character strings in the correct answer data extracted in step S301 satisfy the item rule of the form item data (step S304). If so, a new item rule is registered in the form item data (step S305). For example, if the correct character string extracted from the correct answer data does not fall within the numerical upper limit, lower limit, and number of digits set in the item rule, the format/rule updating unit 30 updates the item so that the correct character string is included. change the rules. Further, the format/rule update unit 30 does not include characters such as "\" and "," in the correct character string extracted from the correct answer data, but if these characters are set in the item rule, these characters are not included. Exclude characters from item rules. Also, if the correct character string extracted from the correct answer data is a company name but is a new company name not registered in the item rule (company name dictionary), the format/rule updating unit 30 updates the item rule (company name dictionary) with Register the company name. After that, the processing shown in this flowchart ends.

図14は、本実施形態に係る新規エンジン評価処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、サーバー50から利用可能なOCRエンジンが帳票処理システム1に追加されたことを契機として実行される。 FIG. 14 is a flowchart showing an overview of the flow of new engine evaluation processing according to this embodiment. The processing shown in this flowchart is executed when an OCR engine available from the server 50 is added to the form processing system 1 .

ステップS401からステップS404では、新たなOCRエンジンについて、正解データを用いた評価が行われる。第二の文字認識部27は、帳票データバンクに蓄積された正解データ中の項目画像を、新たなOCRエンジンを用いて読み取る(ステップS401)。そして、帳票データ蓄積部21は、新たなOCRエンジンによるOCR結果と、正解データ中の正解文字列とを比較し(ステップS402)、一致すると判定された(新たなOCRエンジンによるOCR結果が正解であった)場合、新たなOCRエンジンについてのOCRエンジン評価データ(帳票項目)を追加する(ステップS403)。具体的には、帳票データ蓄積部21は、OCRエンジン評価データ(帳票項目)中のOCRエンジンに、当該新たなOCRエンジンの識別情報(名称等)を設定し、帳票種別及び帳票項目に、評価に用いられた正解データから取得された帳票種別及び帳票項目を設定し、評価項目数に、S401で新たに読み取られた項目の数を設定し、平均認識率に、新たに読み取られた項目のOCR結果の正解/誤りに基づいて算出された値を設定する。 In steps S401 to S404, a new OCR engine is evaluated using correct data. The second character recognition unit 27 uses a new OCR engine to read item images in the correct data stored in the form data bank (step S401). Then, the form data storage unit 21 compares the OCR result by the new OCR engine with the correct character string in the correct data (step S402), and it is determined that they match (the OCR result by the new OCR engine is correct). If there is, the OCR engine evaluation data (form item) for the new OCR engine is added (step S403). Specifically, the form data accumulation unit 21 sets the identification information (name, etc.) of the new OCR engine to the OCR engine in the OCR engine evaluation data (form item), and sets the form type and form item to the evaluation Set the form type and the form item acquired from the correct data used in , set the number of items newly read in S401 to the number of evaluation items, and set the number of newly read items to the average recognition rate. A value calculated based on the correct/wrong OCR result is set.

一方、比較の結果、新たなOCRエンジンによるOCR結果と、正解データ中の正解文字列とが一致しないと判定された(新たなOCRエンジンによるOCR結果が誤りであった)場合、正解データ蓄積部22は、当該OCR結果(誤り)と正解文字列とに基づいて、新たな正解データを登録する(ステップS404)。具体的には、正解データ蓄積部22は、新たなOCRエンジンによって誤認識された文字列であるOCR結果、及び正解文字列を含む正解データを生成し、帳票データバンクに追加する。ここで、正解文字列は、比較対象となった正解データから取得可能である。その後、処理はステップS405へ進む。 On the other hand, as a result of the comparison, if it is determined that the OCR result by the new OCR engine and the correct character string in the correct data do not match (the OCR result by the new OCR engine is erroneous), the correct data storage unit 22 registers new correct data based on the OCR result (error) and the correct character string (step S404). Specifically, the correct data storage unit 22 generates OCR results, which are character strings erroneously recognized by the new OCR engine, and correct data including correct character strings, and adds them to the form data bank. Here, the correct character string can be obtained from the correct data that is the object of comparison. After that, the process proceeds to step S405.

ステップS405では、所定量の正解データについて評価が完了したか否かが判定される。第二の文字認識部27は、ステップS401からステップS404の処理を、帳票データバンクに蓄積された所定量(例えば、全て)の正解データについて完了したか否かを確認する。所定量の正解データについての処理が完了していない場合、処理はステップS401へ戻る。一方、所定量の正解データについての処理が完了した場合、処理はステップS406へ進む。 In step S405, it is determined whether or not the evaluation of a predetermined amount of correct data has been completed. The second character recognition unit 27 confirms whether or not the processing from step S401 to step S404 has been completed for a predetermined amount (for example, all) of correct data accumulated in the form data bank. If the predetermined amount of correct data has not been processed, the process returns to step S401. On the other hand, if the processing for the predetermined amount of correct data has been completed, the process proceeds to step S406.

ステップS406では、OCRエンジン評価データ(帳票種別)が追加される。具体的には、帳票データ蓄積部21は、OCRエンジン評価データ(帳票種別)中のOCRエンジンに、当該新たなOCRエンジンの識別情報(名称等)を設定し、帳票種別に、評価に用いられた正解データから取得された帳票種別を設定し、評価項目数に、S401で新たに読み取られた帳票の数を設定し、平均認識率に、新たに読み取られた帳票のOCR結果の正解/誤りに基づいて算出された値を設定する。その後、本フローチャートに示された処理は終了する。 In step S406, OCR engine evaluation data (form type) is added. Specifically, the form data accumulation unit 21 sets the identification information (name, etc.) of the new OCR engine to the OCR engine in the OCR engine evaluation data (type of form), and sets the type of form to be used for evaluation. The form type acquired from the correct data obtained from the correct data is set, the number of evaluation items is set to the number of forms newly read in S401, and the average recognition rate is set to indicate the correct/wrong OCR result of the newly read form. Set a value calculated based on After that, the processing shown in this flowchart ends.

本フローチャートに示された新規エンジン評価処理において、ステップS403及びステップS406の処理で更新されたOCRエンジン評価データ(帳票項目)及びOCRエンジン評価データ(帳票種別)の平均認識率は、後述するエンジン最適化処理において参照されることで、帳票種別又は帳票項目について用いられるOCRエンジンの最適化に貢献する。 In the new engine evaluation process shown in this flowchart, the average recognition rate of the OCR engine evaluation data (form item) and the OCR engine evaluation data (form type) updated in the processes of steps S403 and S406 is the engine optimum By being referenced in the conversion process, it contributes to the optimization of the OCR engine used for the form type or form item.

図15は、本実施形態に係るエンジン最適化処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、定期的に(例えば、1日に1回)、又は管理者によって指定されたタイミングで、実行される。 FIG. 15 is a flowchart showing an overview of the flow of engine optimization processing according to this embodiment. The processing shown in this flowchart is executed periodically (for example, once a day) or at timing designated by the administrator.

ステップS501及びステップS502では、既存の各OCRエンジンについて、正解データを用いた評価が行われる。第二の文字認識部27は、帳票データバンクに蓄積された正解データ中の項目画像を、サーバー50から利用可能な全てのOCRエンジンの夫々を用いて読み取る(ステップS501)。但し、帳票処理システム1の処理負荷等を考慮して、使用される頻度の低いOCRエンジンを対象から除いてもよい。そして、帳票データ蓄積部21は、OCRエンジン毎のOCR結果と、正解データ中の正解文字列とを比較し、一致する(各OCRエンジンによるOCR結果が正解である)か、又は一致しない(各OCRエンジンによるOCR結果が誤りである)かを、OCR結果毎に記録する(ステップS502)。その後、処理はステップS503へ進む。 In steps S501 and S502, each existing OCR engine is evaluated using correct data. The second character recognition unit 27 reads the item images in the correct answer data accumulated in the form data bank using all OCR engines available from the server 50 (step S501). However, in consideration of the processing load of the form processing system 1, etc., an OCR engine that is used infrequently may be excluded from the target. Then, the form data storage unit 21 compares the OCR result of each OCR engine with the correct character string in the correct answer data, and the results match (the OCR result by each OCR engine is correct) or do not match (each The OCR result by the OCR engine is erroneous) is recorded for each OCR result (step S502). After that, the process proceeds to step S503.

ステップS503では、所定量の正解データについて評価が完了したか否かが判定される。第二の文字認識部27は、ステップS501及びステップS502の処理を、帳票データバンクに蓄積された所定量(例えば、全て)の正解データについて完了したか否かを確認する。所定量の正解データについての処理が完了していない場合、処理はステップS501へ戻る。一方、所定量の正解データについての処理が完了した場合、処理はステップS504へ進む。 In step S503, it is determined whether or not the evaluation of a predetermined amount of correct data has been completed. The second character recognition unit 27 confirms whether or not the processing of steps S501 and S502 has been completed for a predetermined amount (for example, all) of correct data accumulated in the form data bank. If the predetermined amount of correct data has not been processed, the process returns to step S501. On the other hand, if the processing for the predetermined amount of correct data has been completed, the process proceeds to step S504.

ステップS504及びステップS505では、OCRエンジン評価データ(帳票項目)の平均認識率及びOCRエンジン評価データ(帳票種別)の平均認識率が再計算され、更新される。具体的な更新方法は、ステップS212で説明した内容と概略同様であるため、説明を省略する。その後、処理はステップS506へ進む。 In steps S504 and S505, the average recognition rate of the OCR engine evaluation data (form item) and the average recognition rate of the OCR engine evaluation data (form type) are recalculated and updated. Since the specific update method is substantially the same as the content described in step S212, the description is omitted. After that, the process proceeds to step S506.

ステップS506では、帳票種別について最適なOCRエンジンが更新される。エンジン変更部31は、帳票データバンクに蓄積されたOCRエンジン評価データ(帳票種別)から、同一の帳票種別についてのOCRエンジン毎の平均認識率を取得して比較することで、当該帳票種別を読み取る際に最も平均認識率の高いOCRエンジン(最適OCRエンジン)を決定し、決定された最適OCRエンジンが、当該帳票種別について帳票種別データに現在設定されているOCRエンジンと異なる場合に、当該帳票種別データに設定されるOCRエンジンを、最適OCRエンジンに更新する。但し、ステップS501からステップS503の処理において評価の対象とした正解データに偏りがある場合、偶然に高い平均認識率が得られる可能性がある。このため、最適OCRエンジンの候補となるOCRエンジンを、統計上信頼できる評価帳票数又は評価項目数に達しているOCRエンジンに限定することとしてもよい。その後、処理はステップS507へ進む。 In step S506, the optimum OCR engine for the form type is updated. The engine change unit 31 acquires the average recognition rate for each OCR engine for the same form type from the OCR engine evaluation data (form type) accumulated in the form data bank, and compares them to read the form type. determines the OCR engine with the highest average recognition rate (optimal OCR engine), and if the determined optimal OCR engine is different from the OCR engine currently set in the document type data for the document type, Update the OCR engine set for the data to the optimal OCR engine. However, if the correct data evaluated in the processing from step S501 to step S503 is biased, there is a possibility that a high average recognition rate can be obtained by chance. Therefore, OCR engines that are candidates for the optimum OCR engine may be limited to OCR engines that have reached the number of statistically reliable evaluation forms or evaluation items. After that, the process proceeds to step S507.

ステップS507では、帳票項目について最適なOCRエンジンが更新される。エンジン変更部31は、帳票データバンクに蓄積されたOCRエンジン評価データ(帳票項目)から、同一の帳票項目についてのOCRエンジン毎の平均認識率を取得して比較することで、当該帳票項目を読み取る際に最も平均認識率の高いOCRエンジン(最適OCRエンジン)を決定し、決定された最適OCRエンジンが、当該帳票項目について帳票項目データに現在設定されているOCRエンジンと異なる場合に、当該帳票項目データに設定されるOCRエンジンを、最適OCRエンジンに更新する。なお、ステップS506と同様、最適OCRエンジンの候補となるOCRエンジンは、統計上信頼できる評価帳票数又は評価項目数に達しているOCRエンジンに限定されてもよい。その後、本フローチャートに示された処理は終了する。 In step S507, the optimal OCR engine for the form item is updated. The engine change unit 31 acquires and compares the average recognition rate of each OCR engine for the same form item from the OCR engine evaluation data (form item) accumulated in the form data bank, and reads the form item. determines the OCR engine with the highest average recognition rate (optimal OCR engine), and if the determined optimal OCR engine is different from the OCR engine currently set in the form item data for the relevant form item, Update the OCR engine set for the data to the optimal OCR engine. As in step S506, OCR engines that are candidates for the optimum OCR engine may be limited to OCR engines that have reached the number of statistically reliable evaluation forms or evaluation items. After that, the processing shown in this flowchart ends.

<効果>
上記説明した実施形態によれば、処理対象帳票の特徴を用いて、類似する帳票データを索出し、複数の文字認識エンジンのうち、索出された帳票データに関連付けられた文字認識エンジンを用いて処理対象帳票を処理することで、処理対象の帳票又は項目毎に最適な文字認識エンジンを選択することが可能となる。又、複数の文字認識エンジンの夫々を用いて同一帳票/項目についての文字認識を行い、文字認識の結果に基づいて、当該帳票/項目に適用される文字認識エンジンを変更することで、帳票毎又は帳票内の項目毎に適用される文字認識エンジンを最適化することが可能となる。
<effect>
According to the above-described embodiment, similar form data is retrieved using the characteristics of the form to be processed, and the character recognition engine associated with the retrieved form data among a plurality of character recognition engines is used. By processing the form to be processed, it is possible to select the optimum character recognition engine for each form or item to be processed. In addition, by performing character recognition for the same form/item using each of a plurality of character recognition engines, and changing the character recognition engine applied to the form/item based on the result of character recognition, Alternatively, it is possible to optimize the character recognition engine applied to each item in the form.

1 帳票処理システム
50 サーバー
90 ノード
1 form processing system 50 servers 90 nodes

Claims (6)

帳票の帳票種別又は該帳票内の帳票項目に係る帳票データを、複数の文字認識エンジンのうち該帳票種別又は該帳票項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積手段と、
処理対象帳票の画像データを取得する画像データ取得手段と、
前記画像データから、前記処理対象帳票に係る特徴データを取得する特徴データ取得手段と、
前記特徴データを用いて前記帳票データ蓄積手段によって蓄積された帳票データを検索することで、前記帳票データ蓄積手段によって蓄積された帳票データから、前記画像データに対応する帳票種別又は帳票項目に係る帳票データを索出する帳票データ検索手段と、
前記複数の文字認識エンジンのうち、前記帳票データ検索手段によって索出された帳票データに関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識手段と、
前記第一の文字認識手段による文字認識結果の、ユーザーによる修正を受け付ける修正受付手段と、
前記第一の文字認識手段による文字認識結果のうち、ユーザーによる修正によって得られた正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積手段と、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識手段と、
前記ユーザーによる修正がなかった場合に前記文字認識結果が正解であると判定し、文字認識エンジンと帳票種別又は帳票項目との組み合わせ毎に、該文字認識エンジンを用いて該帳票種別又は帳票項目の画像データから文字列を読み取った場合の総読取項目数に対する総正解数の割合である平均認識率を蓄積し、また、前記第二の文字認識手段による文字認識結果に基づいて前記総読取項目数及び総正解数を更新することで、蓄積されている平均認識率を更新する認識率管理手段と、
前記認識率管理手段によって蓄積されている平均認識率に基づいて、前記帳票データ蓄積手段に蓄積された前記帳票データに関連付けられた文字認識エンジンを、該帳票データに係る前記帳票種別又は前記帳票項目について最も平均認識率の高い文字認識エンジンに変更するエンジン変更手段と、
を備える情報処理装置。
a form data accumulation means for accumulating form data related to the form type of the form or the form item in the form in association with a character recognition engine suitable for recognizing the form type or the form item among a plurality of character recognition engines; ,
image data acquisition means for acquiring image data of a form to be processed;
feature data acquisition means for acquiring feature data relating to the form to be processed from the image data;
By searching the form data accumulated by the form data accumulation means using the characteristic data, a form related to the form type or the form item corresponding to the image data is retrieved from the form data accumulated by the form data accumulation means. form data search means for searching data;
first character recognition means for reading a character string included in the image data using a character recognition engine associated with the form data retrieved by the form data search means , among the plurality of character recognition engines;
correction receiving means for receiving a user's correction of the result of character recognition by the first character recognition means;
correct data storage means for associating a correct character string obtained by modification by the user among character recognition results by the first character recognition means with a character image including at least the correct character string, and accumulating the result as correct answer data;
second character recognition means for reading a character string included in the character image accumulated by the correct data accumulation means using each of the plurality of character recognition engines;
determining that the character recognition result is correct when there is no correction by the user, and using the character recognition engine for each combination of the character recognition engine and the form type or the form item accumulating an average recognition rate which is a ratio of the total number of correct answers to the total number of read items when character strings are read from image data; and a recognition rate management means for updating the accumulated average recognition rate by updating the total number of correct answers;
Based on the average recognition rate accumulated by the recognition rate managing means, the character recognition engine associated with the form data accumulated in the form data accumulating means is operated as the form type or the form item related to the form data. an engine changing means for changing to a character recognition engine with the highest average recognition rate for
Information processing device.
前記帳票データには、帳票内の項目の記載内容が守るべき形式又は該項目の記載内容が守るべき記載ルールが含まれ、
前記第一の文字認識手段による文字認識結果を、前記形式又は記載ルールに適合するように補正する補正手段を更に備える、
請求項1に記載の情報処理装置。
The form data includes a format to be followed by the description contents of the items in the form or a description rule to be followed by the description contents of the items,
Further comprising correction means for correcting the character recognition result by the first character recognition means so as to conform to the format or description rule,
The information processing device according to claim 1 .
前記正解データ蓄積手段によって蓄積された、ユーザーによる修正によって得られた正解文字列から、同一項目についての正解文字列を抽出し、該正解文字列が前記形式又は記載ルールに適合していない場合に、修正によって得られた正解文字列が該当項目の形式/ルールに適合するように該当項目の形式又は記載ルールを更新する、形式/ルール更新手段を更に備える、
請求項2に記載の情報処理装置。
A correct character string for the same item is extracted from the correct character strings corrected by the user and accumulated by the correct data storage means, and if the correct character string does not conform to the format or description rule, , further comprising format/rule update means for updating the format or description rule of the corresponding item so that the correct character string obtained by the correction conforms to the format/rule of the corresponding item;
The information processing apparatus according to claim 2 .
前記第二の文字認識手段は、該情報処理装置において利用可能な新たな文字認識エンジンが追加された場合に、追加された文字認識エンジンを用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取り、
前記帳票データ蓄積手段は、前記新たな文字認識エンジンによる前記文字画像の文字認識結果と前記正解データ中の前記正解文字列とを比較することで、該新たな文字認識エンジンによる前記文字認識結果が正解であるか否かを判定し、該新たな文字認識エンジンと帳票種別又は帳票項目との組み合わせについて、該新たな文字認識エンジンを用いて該帳票種別又は帳票項目の画像データから文字列を読み取った場合の総読取項目数に対する総正解数の割合である平均認識率を蓄積し、
前記エンジン変更手段は、前記認識率管理手段によって蓄積されている平均認識率に基づいて、前記帳票データ蓄積手段に蓄積された前記帳票データに関連付けられた文字認識エンジンを、該帳票データに係る前記帳票種別又は前記帳票項目について最も平均認識率の高い文字認識エンジンに変更する、
請求項1から3の何れか一項に記載の情報処理装置。
When a new character recognition engine that can be used in the information processing apparatus is added, the second character recognition means uses the added character recognition engine to recognize the characters accumulated by the correct data accumulation means. read the string contained in the image,
The form data storage means compares the character recognition result of the character image by the new character recognition engine with the correct character string in the correct data, so that the character recognition result by the new character recognition engine is: Determine whether or not the answer is correct, and read a character string from the image data of the form type or form item using the new character recognition engine for the combination of the new character recognition engine and the form type or form item. accumulating the average recognition rate, which is the ratio of the total number of correct answers to the total number of read items,
The engine changing means changes the character recognition engine associated with the form data accumulated in the form data accumulation means based on the average recognition rate accumulated by the recognition rate management means. change to a character recognition engine with the highest average recognition rate for the form type or the form item ;
The information processing apparatus according to any one of claims 1 to 3 .
コンピューターが、
帳票の帳票種別又は該帳票内の帳票項目に係る帳票データを、複数の文字認識エンジンのうち該帳票種別又は該帳票項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積ステップと、
処理対象帳票の画像データを取得する画像データ取得ステップと、
前記画像データから、前記処理対象帳票に係る特徴データを取得する特徴データ取得ステップと、
前記特徴データを用いて前記帳票データ蓄積ステップで蓄積された帳票データを検索することで、前記帳票データ蓄積ステップで蓄積された帳票データから、前記画像データに対応する帳票種別又は帳票項目に係る帳票データを索出する帳票データ検索ステップと、
前記複数の文字認識エンジンのうち、前記帳票データ検索ステップで索出された帳票データに関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識ステップと、
前記第一の文字認識ステップにおける文字認識結果の、ユーザーによる修正を受け付ける修正受付ステップと、
前記第一の文字認識ステップでの文字認識結果のうち、ユーザーによる修正によって得られた正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積ステップと、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積ステップで蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識ステップと、
前記ユーザーによる修正がなかった場合に前記文字認識結果が正解であると判定し、文字認識エンジンと帳票種別又は帳票項目との組み合わせ毎に、該文字認識エンジンを用いて該帳票種別又は帳票項目の画像データから文字列を読み取った場合の総読取項目数に対する総正解数の割合である平均認識率を蓄積し、また、前記第二の文字認識ステップにおける文字認識結果に基づいて前記総読取項目数及び総正解数を更新することで、蓄積されている平均認識率を更新する認識率管理ステップと、
前記認識率管理ステップで蓄積された平均認識率に基づいて、前記帳票データ蓄積ステップで蓄積された前記帳票データに関連付けられた文字認識エンジンを、該帳票データに係る前記帳票種別又は前記帳票項目について最も平均認識率の高い文字認識エンジンに変更するエンジン変更ステップと、
を実行する文字認識エンジン最適化方法。
the computer
a form data accumulation step of accumulating form data related to the form type of the form or the form item in the form in association with a character recognition engine suitable for recognizing the form type or the form item among a plurality of character recognition engines; ,
an image data acquisition step for acquiring image data of a form to be processed;
a feature data acquiring step of acquiring feature data relating to the form to be processed from the image data;
By searching the form data accumulated in the form data accumulation step using the characteristic data, a form related to the form type or the form item corresponding to the image data is retrieved from the form data accumulated in the form data accumulation step. a form data search step for retrieving data;
a first character recognition step of reading a character string included in the image data using a character recognition engine associated with the form data retrieved in the form data search step, among the plurality of character recognition engines;
a correction receiving step for receiving a user's correction of the character recognition result in the first character recognition step;
a correct data storage step of associating a correct character string obtained by modification by a user among the character recognition results in the first character recognition step with a character image including at least the correct character string, and accumulating the result as correct data; ,
a second character recognition step of reading a character string included in the character image accumulated in the correct data accumulation step using each of the plurality of character recognition engines;
determining that the character recognition result is correct when there is no correction by the user, and using the character recognition engine for each combination of the character recognition engine and the form type or the form item accumulating an average recognition rate that is a ratio of the total number of correct answers to the total number of read items when character strings are read from image data; and a recognition rate management step of updating the accumulated average recognition rate by updating the total number of correct answers;
Based on the average recognition rate accumulated in the recognition rate management step, the character recognition engine associated with the form data accumulated in the form data accumulation step is operated for the form type or the form item related to the form data. an engine change step of changing to a character recognition engine with the highest average recognition rate ;
Character recognition engine optimization method to perform.
コンピューターを、
帳票の帳票種別又は該帳票内の帳票項目に係る帳票データを、複数の文字認識エンジンのうち該帳票種別又は該帳票項目の認識に適した文字認識エンジンに関連付けて蓄積する、帳票データ蓄積手段と、
処理対象帳票の画像データを取得する画像データ取得手段と、
前記画像データから、前記処理対象帳票に係る特徴データを取得する特徴データ取得手段と、
前記特徴データを用いて前記帳票データ蓄積手段によって蓄積された帳票データを検索することで、前記帳票データ蓄積手段によって蓄積された帳票データから、前記画像データに対応する帳票種別又は帳票項目に係る帳票データを索出する帳票データ検索手段と、
前記複数の文字認識エンジンのうち、前記帳票データ検索手段によって索出された帳票データに関連付けられた文字認識エンジンを用いて、前記画像データに含まれる文字列を読み取る第一の文字認識手段と、
前記第一の文字認識手段による文字認識結果の、ユーザーによる修正を受け付ける修正受付手段と、
前記第一の文字認識手段による文字認識結果のうち、ユーザーによる修正によって得られた正解文字列と、少なくとも該正解文字列を含む文字画像とを関連付けて正解データとして蓄積する正解データ蓄積手段と、
前記複数の文字認識エンジンの夫々を用いて、前記正解データ蓄積手段によって蓄積された前記文字画像に含まれる文字列を読み取る第二の文字認識手段と、
前記ユーザーによる修正がなかった場合に前記文字認識結果が正解であると判定し、文字認識エンジンと帳票種別又は帳票項目との組み合わせ毎に、該文字認識エンジンを用いて該帳票種別又は帳票項目の画像データから文字列を読み取った場合の総読取項目数に対する総正解数の割合である平均認識率を蓄積し、また、前記第二の文字認識手段による文字認識結果に基づいて前記総読取項目数及び総正解数を更新することで、蓄積されている平均認識率を更新する認識率管理手段と、
前記認識率管理手段によって蓄積されている平均認識率に基づいて、前記帳票データ蓄積手段に蓄積された前記帳票データに関連付けられた文字認識エンジンを、該帳票データに係る前記帳票種別又は前記帳票項目について最も平均認識率の高い文字認識エンジンに変更するエンジン変更手段と、
として機能させるためのプログラム。
the computer,
a form data accumulation means for accumulating form data related to the form type of the form or the form item in the form in association with a character recognition engine suitable for recognizing the form type or the form item among a plurality of character recognition engines; ,
image data acquisition means for acquiring image data of a form to be processed;
feature data acquisition means for acquiring feature data relating to the form to be processed from the image data;
By searching the form data accumulated by the form data accumulation means using the characteristic data, a form related to the form type or the form item corresponding to the image data is retrieved from the form data accumulated by the form data accumulation means. form data search means for searching data;
first character recognition means for reading a character string included in the image data using a character recognition engine associated with the form data retrieved by the form data search means , among the plurality of character recognition engines;
correction receiving means for receiving a user's correction of the result of character recognition by the first character recognition means;
correct data storage means for associating a correct character string obtained by modification by the user among character recognition results by the first character recognition means with a character image including at least the correct character string, and accumulating the result as correct answer data;
second character recognition means for reading a character string included in the character image accumulated by the correct data accumulation means using each of the plurality of character recognition engines;
determining that the character recognition result is correct when there is no correction by the user, and using the character recognition engine for each combination of the character recognition engine and the form type or the form item accumulating an average recognition rate which is a ratio of the total number of correct answers to the total number of read items when character strings are read from image data; and a recognition rate management means for updating the accumulated average recognition rate by updating the total number of correct answers;
Based on the average recognition rate accumulated by the recognition rate managing means, the character recognition engine associated with the form data accumulated in the form data accumulating means is operated as the form type or the form item related to the form data. an engine changing means for changing to a character recognition engine with the highest average recognition rate for
A program to function as
JP2018057445A 2018-03-26 2018-03-26 Information processing device, character recognition engine optimization method and program Active JP7149721B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018057445A JP7149721B2 (en) 2018-03-26 2018-03-26 Information processing device, character recognition engine optimization method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018057445A JP7149721B2 (en) 2018-03-26 2018-03-26 Information processing device, character recognition engine optimization method and program

Publications (2)

Publication Number Publication Date
JP2019169026A JP2019169026A (en) 2019-10-03
JP7149721B2 true JP7149721B2 (en) 2022-10-07

Family

ID=68108324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018057445A Active JP7149721B2 (en) 2018-03-26 2018-03-26 Information processing device, character recognition engine optimization method and program

Country Status (1)

Country Link
JP (1) JP7149721B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7408340B2 (en) * 2019-10-11 2024-01-05 キヤノン株式会社 Image processing device control method, program, and image processing device
JP2021064209A (en) * 2019-10-15 2021-04-22 富士ゼロックス株式会社 Information processor and information processing program
JP7393960B2 (en) * 2020-01-24 2023-12-07 株式会社日本総合研究所 Information processing device, information processing method, and program
JP7283755B2 (en) 2020-04-16 2023-05-30 株式会社ミラボ Information processing device and program
JP6928401B1 (en) * 2020-08-04 2021-09-01 株式会社ダブルスタンダード Information processing equipment, information processing methods and information processing programs
JP2022101136A (en) * 2020-12-24 2022-07-06 キヤノン株式会社 Information processing apparatus, information processing method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6348900B2 (en) 2012-05-10 2018-06-27 バイエル ファーマ アクチエンゲゼルシャフト Antibody capable of binding to coagulation factor XI and / or its activated form factor XIA and use thereof

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5455872A (en) * 1993-04-26 1995-10-03 International Business Machines Corporation System and method for enhanced character recogngition accuracy by adaptive probability weighting
JP3353999B2 (en) * 1994-04-22 2002-12-09 富士通株式会社 Image data recognition device
JP2017010069A (en) * 2015-06-16 2017-01-12 シャープ株式会社 Information processor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6348900B2 (en) 2012-05-10 2018-06-27 バイエル ファーマ アクチエンゲゼルシャフト Antibody capable of binding to coagulation factor XI and / or its activated form factor XIA and use thereof

Also Published As

Publication number Publication date
JP2019169026A (en) 2019-10-03

Similar Documents

Publication Publication Date Title
JP7149721B2 (en) Information processing device, character recognition engine optimization method and program
JP2019169025A (en) Information processing device, character recognition engine selection method, and program
JP5405586B2 (en) Handwritten character recognition method and handwritten character recognition apparatus
KR100412317B1 (en) Character recognizing/correcting system
JPH0916619A (en) Method and device for processing information
CN109299233B (en) Text data processing method, device, computer equipment and storage medium
CN111340020B (en) Formula identification method, device, equipment and storage medium
CN112560849B (en) Neural network algorithm-based grammar segmentation method and system
JP2014182477A (en) Program and document processing device
US12086189B2 (en) Document search device, document search program, and document search method
CN111630521A (en) Image processing method and image processing system
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
JP2022095391A (en) Information processing apparatus and information processing program
US10984285B2 (en) Information processing apparatus and non-transitory computer readable medium
CN111314109A (en) Weak key-based large-scale Internet of things equipment firmware identification method
US20150199582A1 (en) Character recognition apparatus and method
JP2004171316A (en) Ocr device, document retrieval system and document retrieval program
US11699296B2 (en) Information processing apparatus and non-transitory computer readable medium
CN115294593A (en) Image information extraction method and device, computer equipment and storage medium
JP3979288B2 (en) Document search apparatus and document search program
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
WO2023062799A1 (en) Information processing system, manuscript type identification method, model generation method and program
JPH06223121A (en) Information retrieving device
JP7377565B2 (en) Drawing search device, drawing database construction device, drawing search system, drawing search method, and program
JP2009110204A (en) Document processing apparatus, document processing system, document processing method, and document processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220927

R150 Certificate of patent or registration of utility model

Ref document number: 7149721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150