JP2023165062A - Information reading device, information reading method, and program - Google Patents

Information reading device, information reading method, and program Download PDF

Info

Publication number
JP2023165062A
JP2023165062A JP2022075652A JP2022075652A JP2023165062A JP 2023165062 A JP2023165062 A JP 2023165062A JP 2022075652 A JP2022075652 A JP 2022075652A JP 2022075652 A JP2022075652 A JP 2022075652A JP 2023165062 A JP2023165062 A JP 2023165062A
Authority
JP
Japan
Prior art keywords
frame
information reading
information
recognition
annotations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022075652A
Other languages
Japanese (ja)
Inventor
諒馬 阿部
Ryoma ABE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vanddd
Vanddd Inc
Original Assignee
Vanddd
Vanddd Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vanddd, Vanddd Inc filed Critical Vanddd
Priority to JP2022075652A priority Critical patent/JP2023165062A/en
Publication of JP2023165062A publication Critical patent/JP2023165062A/en
Pending legal-status Critical Current

Links

Images

Abstract

To provide an information reading device, an information reading method, and a program for reading information such as various tables having various formats.SOLUTION: In an information reading system in which one or a plurality of user terminals can be connected to one or a plurality of management servers via a network, a management server 101 of the information reading system as an information reading device includes: an image management module 212 for acquiring image data on information to be read; a frame recognition module 213 for recognizing a plurality of frame units constituting a table in the image data; and output means for outputting information on the plurality of recognized frame units.SELECTED DRAWING: Figure 2

Description

本発明は、情報読取装置、情報読取方法、およびプログラムに関する。 The present invention relates to an information reading device, an information reading method, and a program.

本技術分野の背景技術として、特開2006-252575号公報(特許文献1)がある。この公報には、「諸表を、スキャナーによりイメージ入力した入力結果を、科目欄・金額欄別の認識処理し、イメージ情報の文字をデジタル化処理手段と、デジタル化認識の文字を文字列と数値を分割し、文字列を勘定科目辞書と突合わせチェックする突合わせ処理手段を備え、前記誤読文字と判定の文字列を正しい文字列に置換する処理手段と、デジタル化処理手段に、認識処理に際し、画面に表示された読み取り枠パターンから最も類似したパターンの選択により自動的に勘定科目、金額範囲を枠でくくる処理を含む」と記載されている(要約参照)。 As background technology in this technical field, there is Japanese Patent Application Publication No. 2006-252575 (Patent Document 1). This bulletin states, ``The results of inputting the statements as an image using a scanner are processed for recognition by subject column and amount column, and the characters in the image information are digitized by a processing means, and the digitized recognized characters are converted into strings and numerical values. and a matching processing means for checking the character string against an account dictionary; a processing means for replacing the misread characters and the determined character string with the correct character string; , including processing to automatically frame account items and amount ranges by selecting the most similar reading frame pattern from the reading frame patterns displayed on the screen (see summary).

特開2006-252575号公報Japanese Patent Application Publication No. 2006-252575

前記特許文献1には、スキャンが完了した後、画面に表示されたイメージと見比べながら諸表パターンを選択すると、自動的にイメージ上に読み取り範囲を示す枠が表示されること、が記載されている。しかしながら、特許文献1では、様々な形式を有する諸表等の情報を読み取る仕組みについては検討がなされていない。
そこで、本発明は、様々な形式を有する諸表等の情報を読み取る仕組みを提供する。
Patent Document 1 describes that after scanning is completed, when a tabulation pattern is selected while comparing it with the image displayed on the screen, a frame indicating the reading range is automatically displayed on the image. . However, Patent Document 1 does not consider a mechanism for reading information such as tables having various formats.
Therefore, the present invention provides a mechanism for reading information such as tables having various formats.

上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、画像認識することで生成された画像データを取得する画像管理手段と、前記画像データにおいて、表を構成する複数の枠部を認識する枠認識手段と、認識された前記複数の枠部に関する情報を出力する出力手段と、を備える情報読取システムを提供することを特徴とする。
In order to solve the above problems, for example, the configurations described in the claims are adopted.
The present application includes a plurality of means for solving the above-mentioned problems, and one example thereof is an image management means for acquiring image data generated by image recognition, and a plurality of means for configuring a table in the image data. The present invention is characterized in that it provides an information reading system comprising: frame recognition means for recognizing the frame portions; and output means for outputting information regarding the plurality of recognized frame portions.

本発明によれば、様々な形式を有する諸表等の情報を読み取る仕組みを提供することができる。
上記した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
According to the present invention, it is possible to provide a mechanism for reading information such as tables having various formats.
Problems, configurations, and effects other than those described above will be made clear by the following description of the embodiments.

図1は、全体の情報読取システム100の構成の例である。FIG. 1 is an example of the configuration of the entire information reading system 100. 図2は、管理サーバ101のハードウェア構成の例である。FIG. 2 is an example of the hardware configuration of the management server 101. 図3は、ユーザ端末102のハードウェア構成の例である。FIG. 3 is an example of the hardware configuration of the user terminal 102. 図4は、ユーザ情報400の例である。FIG. 4 is an example of user information 400. 図5は、辞書情報500の例である。FIG. 5 is an example of dictionary information 500. 図6は、貸借対照表辞書情報600の例である。FIG. 6 is an example of balance sheet dictionary information 600. 図7は、情報読取フロー700の例である。FIG. 7 is an example of an information reading flow 700. 図8は、枠部認識フロー800の例である。FIG. 8 is an example of a frame recognition flow 800. 図9は、枠補正フロー900の例である。FIG. 9 is an example of a frame correction flow 900. 図10は、紐づけフロー1000の例である。FIG. 10 is an example of a linking flow 1000. 図11は、階層取得フロー1100の例である。FIG. 11 is an example of a hierarchy acquisition flow 1100. 図12は、枠部認識フロー1200の他の例である。FIG. 12 is another example of the frame recognition flow 1200. 図13は、枠補正フロー900の他の例である。FIG. 13 is another example of the frame correction flow 900. 図14は、貸借対照表1400の例である。FIG. 14 is an example of a balance sheet 1400. 図15は、罫線の認識結果1500の例である。FIG. 15 is an example of a ruled line recognition result 1500. 図16(A)(B)は、枠部の分類1600の例である。FIGS. 16A and 16B are examples of classification 1600 of frames. 図17は、枠部の分類1700の例である。FIG. 17 is an example of classification 1700 of frames. 図18は、読取情報1800の例である。FIG. 18 is an example of read information 1800. 図19は、読取結果表示画面1900の例である。FIG. 19 is an example of a reading result display screen 1900. 図20(A)~(C)は、枠部の認識結果2000の例である。FIGS. 20A to 20C are examples of frame recognition results 2000. 図21は、枠補正画面2100の例である。FIG. 21 is an example of a frame correction screen 2100. 図22は、アノテーション確認画面2200の例である。FIG. 22 is an example of an annotation confirmation screen 2200. 図23は、アノテーション確認画面2300の他の例である。FIG. 23 is another example of the annotation confirmation screen 2300. 図24は、アノテーション確認画面2400の他の例である。FIG. 24 is another example of the annotation confirmation screen 2400. 図25は、アノテーション確認画面2500の他の例である。FIG. 25 is another example of the annotation confirmation screen 2500. 図26は、読取結果表示画面2600の他の例である。FIG. 26 is another example of the reading result display screen 2600. 図27は、不動産情報資料2700の例である。FIG. 27 is an example of real estate information material 2700. 図28は、罫線の認識結果2800の他の例である。FIG. 28 is another example of the ruled line recognition result 2800. 図29は、アノテーション認識結果2900の例である。FIG. 29 is an example of an annotation recognition result 2900.

以下、実施例を図面を用いて説明する。なお各図面において、同一の機能を有する構成については、符号の付与と重ねての説明を省略する場合がある。 Examples will be described below with reference to the drawings. Note that in each drawing, reference numerals and redundant explanations may be omitted for structures having the same functions.

図1は、一実施形態に係る情報読取システム100の構成図の例である。
情報読取システム100は、1又は複数の管理サーバ101と、1又は複数のユーザ端末102と、を備えている。管理サーバ101は、本技術における情報読取装置の一例である。1又は複数のユーザ端末102は、ネットワークを介して1又は複数の管理サーバ101に接続可能に構成されている。なお、ネットワークは、有線、無線を問わず、それぞれの端末はネットワークを介して情報を送受信することができる。
FIG. 1 is an example of a configuration diagram of an information reading system 100 according to an embodiment.
The information reading system 100 includes one or more management servers 101 and one or more user terminals 102. The management server 101 is an example of an information reading device in the present technology. One or more user terminals 102 are configured to be connectable to one or more management servers 101 via a network. Note that each terminal can send and receive information via the network, regardless of whether the network is wired or wireless.

ユーザ端末102は、管理サーバ101から出力される情報確認コンテンツを利用して、認識した情報の確認や補正を実施するためにユーザが使用する端末である。また、本情報読取システム100において、ユーザ端末102は、管理サーバ101と別個に設けてもよいし、管理サーバ101と同一のサーバに設けてもよい。また、管理サーバ101を単独で本情報読取システム100とすることができる。 The user terminal 102 is a terminal used by a user to confirm or correct recognized information using information confirmation content output from the management server 101. Furthermore, in the information reading system 100, the user terminal 102 may be provided separately from the management server 101, or may be provided in the same server as the management server 101. Further, the management server 101 can be used alone as the information reading system 100.

情報読取システム100のそれぞれの端末102や管理サーバ101は、例えば、スマートフォン、タブレット、携帯電話機、携帯情報端末(PDA)などの携帯端末(モバイル端末)でもよいし、メガネ型や腕時計型、着衣型などのウェアラブル端末でもよい。また、これらは、据置型または携帯型のコンピュータや、クラウドやネットワーク上に配置されるサーバでもよい。また、機能としてはVR(仮想現実:Virtual Reality)端末、AR(拡張現実:Augmented Reality)端末、MR(複合現実:Mixed Reality)端末でもよい。あるいは、これらの複数の端末の組合せであってもよい。例えば、1台のスマートフォンと1台のウェアラブル端末との組合せが論理的に一つの端末として機能し得る。またこれら以外の情報処理端末であってもよい。 Each terminal 102 and management server 101 of the information reading system 100 may be a mobile terminal such as a smartphone, a tablet, a mobile phone, or a personal digital assistant (PDA), or may be a glasses-type, wristwatch-type, or clothing-type terminal. It may also be a wearable terminal such as. Furthermore, these may be stationary or portable computers, or servers located on a cloud or network. In addition, the function may be a VR (Virtual Reality) terminal, an AR (Augmented Reality) terminal, or an MR (Mixed Reality) terminal. Alternatively, it may be a combination of these multiple terminals. For example, a combination of one smartphone and one wearable terminal can logically function as one terminal. Further, information processing terminals other than these may also be used.

情報読取システム100のそれぞれの端末や管理サーバ101は、それぞれオペレーティングシステムやアプリケーション、プログラムなどを実行するプロセッサと、RAM(Random Access Memory)等の主記憶装置と、ICカードやハードディスクドライブ、SSD(Solid State Drive)、フラッシュメモリ等の補助記憶装置と、ネットワークカードや無線通信モジュール、モバイル通信モジュール等の通信制御部と、タッチパネルやキーボード、マウス、音声入力装置、カメラ部の撮像による動き検知による入力装置などの入力装置と、モニタやディスプレイ、プリンタ、音声出力装置、発振器等の出力装置と、を備える。なお、出力装置、外部のモニタやディスプレイ、プリンタ、機器などに、出力するための情報を送信する装置や端子であってもよい。 Each terminal of the information reading system 100 and the management server 101 each include a processor that executes an operating system, an application, a program, etc., a main storage device such as a RAM (Random Access Memory), an IC card, a hard disk drive, and an SSD (Solid State Drive). (state drive), auxiliary storage devices such as flash memory, communication control units such as network cards, wireless communication modules, and mobile communication modules, and input devices that detect movement by capturing images of touch panels, keyboards, mice, voice input devices, and cameras. It is equipped with an input device such as, and an output device such as a monitor, display, printer, audio output device, oscillator, etc. Note that it may be a device or terminal that transmits information to be output to an output device, an external monitor, display, printer, device, or the like.

主記憶装置には、各種プログラムやアプリケーションなど(ソフトウェア・モジュール)が記憶されており、これらのプログラムやアプリケーションをプロセッサが実行することで全体システムの各機能要素が実現される。なお、各モジュールはそれぞれ独立したプログラムやアプリケーションであってもよいが、1つの統合プログラムやアプリケーションの中の一部のサブプログラムや関数などの形で実装されていてもよい。また、これらの各モジュールは回路を集積化したりマクロコンピュータを採用することなどにより、ハードウェアとして実装してもよい(ハードウェア・モジュール)。 The main storage device stores various programs and applications (software modules), and when a processor executes these programs and applications, each functional element of the overall system is realized. Note that each module may be an independent program or application, or may be implemented as a part of a subprogram or function within one integrated program or application. Furthermore, each of these modules may be implemented as hardware (hardware module) by integrating circuits or employing a macrocomputer.

本明細書では、各モジュールが、処理を行う主体(主語)として記載されているが、実際には各種プログラムやアプリケーションなど(モジュール)を処理するプロセッサが処理を実行する。 In this specification, each module is described as an entity (subject) that performs processing, but in reality, a processor that processes various programs, applications, etc. (modules) executes processing.

補助記憶装置には、各種データベース(DB)が記憶されている。「データベース」とは、プロセッサまたは外部のコンピュータからの任意のデータ操作(例えば、抽出、追加、削除、上書きなど)に対応できるように整理して収集されたデータ集合である。補助記憶装置は、1又は複数のデータ集合を記憶する機能要素(記憶部)である。データベースの実装方法は限定されず、例えばデータベース管理システムでもよいし、表計算ソフトウェアでもよいし、XML、JSONなどのテキストファイルでもよい。 Various databases (DB) are stored in the auxiliary storage device. A "database" is a collection of data that is organized and collected in a manner that allows for arbitrary data manipulation (eg, extraction, addition, deletion, overwriting, etc.) from a processor or an external computer. The auxiliary storage device is a functional element (storage unit) that stores one or more data sets. The implementation method of the database is not limited, and may be, for example, a database management system, spreadsheet software, or a text file such as XML or JSON.

情報読取システム100が読取の対象とする情報は特に限定されない。本技術に係る情報読取システム100は、読取対象の情報を、例えば、紙媒体に各種情報が記載された資料をイメージデータ化(画像データ化)したものであってよい。読取対象の情報は、これに限定されるものではないが、典型的には、例えば、貸借対照表、損益計算書、利益処分案、キャッシュフロー計算書、株主資本等変動計算書、有価証券報告書、計算書類、会計帳簿、請求書等の財務諸表であってよい。また、読取の対象とする情報は、不動産鑑定評価書、不動産情報資料(例えば、不動産の概要,間取り図,契約情報などが取りまとめられている資料であって、一例として「マイソク」等と呼ばれるもの)等の不動産情報や、各種契約書、医療用カルテ、フローチャート等の各種資料であってよい。 The information read by the information reading system 100 is not particularly limited. The information reading system 100 according to the present technology may convert the information to be read into image data, for example, from a document in which various information is written on a paper medium. The information to be read is typically, but not limited to, a balance sheet, a profit and loss statement, a profit appropriation plan, a cash flow statement, a statement of changes in shareholders' equity, and a securities report. Financial statements such as books, financial statements, accounting books, and invoices may be used. In addition, the information to be read includes real estate appraisal reports, real estate information materials (for example, materials that compile real estate summaries, floor plans, contract information, etc., and one example is a document called "Maisoku") ) and other real estate information, various contracts, medical records, flow charts, and other various materials.

これらの資料は多くの情報を含み、それらの情報は、典型的には表形式で、項目ごとに内容が記載されている。表は、一の欄内(項目)に1又は複数の項目(下位項目)を含む場合がある。そして、このような情報は、紙媒体の資料からイメージデータ化する際に、読取角度がずれることがある。OCR技術は高精度になってきており、一定のフォーマットで記載された資料であれば、テンプレートや教師データを用意することで読取困難性はさほど高くない場合がある。しかしながら、テンプレートや教師データのない不特定多数のフォーマットで記載された資料を読み取る場合や、多数枚の資料を自動的に読取する場合、さらにその読取角度がズレた場合などには、文字列の読み取りが困難となり得る。本技術は、テンプレートを選択することなく情報を読み取るようにしている。また、この仕組みによって、資料中の文字列に何らかの関連性があれば、そのような関連性を対応付けて文字列を認識するようにしている。したがって、本技術は、上述したような資料の読み取りに特に有用となり得る。 These materials contain a lot of information, and the information is typically in tabular form, with the contents described for each item. A table may include one or more items (subitems) in one column (item). When such information is converted from paper material into image data, the reading angle may shift. OCR technology has become highly accurate, and if the document is written in a certain format, it may not be very difficult to read if a template or training data is prepared. However, when reading materials written in an unspecified number of formats without templates or training data, when reading many sheets of materials automatically, or when the reading angle is shifted, etc. Can be difficult to read. This technology allows information to be read without selecting a template. Additionally, with this mechanism, if there is some kind of relationship between character strings in the document, such a relationship is associated with the character strings to be recognized. Therefore, the present technology may be particularly useful for reading materials such as those described above.

以下では、情報読取システム100による主たる読取対象を貸借対照表とし、貸借対照表について情報の読み取りを行う場合を例にして、本技術について説明する。 In the following, the present technology will be described using as an example a case where a balance sheet is the main object to be read by the information reading system 100, and information is read about the balance sheet.

図2は、管理サーバ101のハードウェア構成を例示している。
管理サーバ101は、本実施例の情報読取システム100を管理する要素である。管理サーバ101は、例えばクラウド上に配置されたサーバによって構成される。管理サーバ101は、主記憶装置201と、補助記憶装置202と、を備える。管理サーバ101はまた、上述のとおりのプロセッサ203と、入力装置204と、出力装置205(出力手段の一例)と、通信制御部206と、を備える。
FIG. 2 illustrates the hardware configuration of the management server 101.
The management server 101 is an element that manages the information reading system 100 of this embodiment. The management server 101 is configured by a server placed on a cloud, for example. The management server 101 includes a main storage device 201 and an auxiliary storage device 202. The management server 101 also includes a processor 203 as described above, an input device 204, an output device 205 (an example of an output means), and a communication control unit 206.

主記憶装置201には、ユーザ端末管理モジュール211、イメージ管理モジュール212(画像管理手段の一例)、枠認識モジュール213、枠補正モジュール214、枠選択モジュール215、文字列認識モジュール216、分類モジュール217等のプログラムやアプリケーションが記憶されている。管理サーバ101の各機能要素は、主記憶装置201に記憶されたこれらのプログラムやアプリケーションをプロセッサ203が実行することによって実現される。 The main storage device 201 includes a user terminal management module 211, an image management module 212 (an example of image management means), a frame recognition module 213, a frame correction module 214, a frame selection module 215, a character string recognition module 216, a classification module 217, etc. programs and applications are stored. Each functional element of the management server 101 is realized by the processor 203 executing these programs and applications stored in the main storage device 201.

補助記憶装置202には、情報読取システム100の動作に必要な情報が記憶される。補助記憶装置202には、例えば、ユーザ情報400、辞書情報500、貸借対照表辞書情報600等が記憶されている。補助記憶装置202にはまた、例えば、オリジナルイメージデータ221、処理後イメージデータ222等が記憶されている。これらの情報の詳細については、後述する。 The auxiliary storage device 202 stores information necessary for the operation of the information reading system 100. The auxiliary storage device 202 stores, for example, user information 400, dictionary information 500, balance sheet dictionary information 600, and the like. The auxiliary storage device 202 also stores, for example, original image data 221, processed image data 222, and the like. Details of this information will be described later.

まず、管理サーバ101の各機能要素について説明する。
ユーザ端末管理モジュール211は、ユーザ端末102の動作を管理する。ユーザ端末管理モジュール211は、ユーザ端末102のユーザ実行モジュール311と連携して、ユーザ端末102において情報読取システム100を用いて実行される、情報の読み取りのための基本的な動作を制御する。
First, each functional element of the management server 101 will be explained.
The user terminal management module 211 manages the operation of the user terminal 102. The user terminal management module 211 cooperates with the user execution module 311 of the user terminal 102 to control basic operations for reading information, which are executed in the user terminal 102 using the information reading system 100.

例えば、ユーザ端末管理モジュール211は、ユーザ実行モジュール311と連携して、ユーザ端末102のディスプレイ等の出力装置305に、管理サーバ101が実行する情報読取に使用するログインページ、ユーザ情報管理ページ等を出力(表示)する。また、ユーザ端末管理モジュール211は、ユーザ端末102のユーザ実行モジュール311と連携して、これらのページを経てユーザ端末102から入力された入力情報を取得する。ユーザ端末管理モジュール211は、例えば、取得した情報(各種情報、指示等)に基づいて動作したり、取得した情報をユーザ情報400等として補助記憶装置202に出力(記憶)したりする。 For example, the user terminal management module 211 cooperates with the user execution module 311 to display a login page, user information management page, etc. used for information reading executed by the management server 101 on the output device 305 such as the display of the user terminal 102. Output (display). Further, the user terminal management module 211 cooperates with the user execution module 311 of the user terminal 102 to obtain input information input from the user terminal 102 via these pages. For example, the user terminal management module 211 operates based on the acquired information (various information, instructions, etc.), or outputs (stores) the acquired information to the auxiliary storage device 202 as user information 400 or the like.

イメージ管理モジュール212は、読取対象である情報についてのイメージデータ(画像データ)(以下、単に「オリジナルイメージデータ」という場合がある。)を取得するする。イメージ管理モジュール212は、例えば、入力装置204を介してオリジナルイメージデータを取得してもよいし、通信制御部206を介して外部機器等からオリジナルイメージデータを取得してもよい。一例として、イメージ管理モジュール212は、例えば、ユーザ端末102のユーザ実行モジュール311と連携し、ユーザ端末102を介して、オリジナルイメージデータを取得する。オリジナルイメージデータは、例えば、ユーザ端末102に保存されていてもよいし、ユーザ端末102の操作によってユーザ端末102のカメラ306やイメージスキャナ(入力装置304の一例)等によって生成されるものであってもよい。イメージ管理モジュール212はまた、例えば、ユーザ端末102とは異なる保存場所にアクセスすることにより、当該保存場所に保存されているオリジナルイメージデータを取得してもよい。 The image management module 212 acquires image data (hereinafter sometimes simply referred to as "original image data") regarding information to be read. The image management module 212 may obtain original image data via the input device 204, or may obtain original image data from an external device or the like via the communication control unit 206, for example. As an example, the image management module 212 cooperates with the user execution module 311 of the user terminal 102 to obtain original image data via the user terminal 102 . The original image data may be stored in the user terminal 102, for example, or may be generated by the camera 306 or image scanner (an example of the input device 304) of the user terminal 102 by operating the user terminal 102. Good too. Image management module 212 may also obtain original image data stored at a storage location that is different from user terminal 102, for example, by accessing the storage location.

イメージ管理モジュール212は、取得したオリジナルイメージデータ221を、例えば補助記憶装置202に出力(記録)する。 The image management module 212 outputs (records) the acquired original image data 221 to, for example, the auxiliary storage device 202.

枠認識モジュール213は、オリジナルイメージデータ221において、表構造を構成する複数の枠部を認識する。資料に記載される情報は、例えば整理されて、表構造的に配されていることが多い。情報読取システム100では、文字列について文字認識するよりも前に、枠認識モジュール213によって枠部を認識するようにしている。 The frame recognition module 213 recognizes a plurality of frames forming a table structure in the original image data 221. Information described in materials is often organized and arranged in a tabular structure, for example. In the information reading system 100, a frame recognition module 213 recognizes a frame portion before character recognition is performed for a character string.

表構造は、各欄(セル)を区画する枠部の集合とみなすことができる。ここで枠部とは、オリジナルイメージデータ221が表を含む場合は、当該表の各欄を区画する罫線の集合であり得る。また、オリジナルイメージデータ221が表を含まない場合は、オリジナルイメージデータ221に含まれる文字列の配置の秩序性に対応して各文字列を区画するために設けることができる、仮想的な表について各欄を区画する罫線の集合であり得る。枠部は、一般的には四角形状をなしており、典型的には矩形であり得る。枠認識モジュール213の具体的な動作については、後述する。 The table structure can be regarded as a set of frames that partition each column (cell). Here, when the original image data 221 includes a table, the frame portion may be a set of ruled lines that partition each column of the table. In addition, if the original image data 221 does not include a table, a virtual table that can be provided to partition each character string in accordance with the orderliness of the arrangement of character strings included in the original image data 221. It can be a set of ruled lines that partition each column. The frame generally has a quadrangular shape, and may typically be rectangular. The specific operation of the frame recognition module 213 will be described later.

枠認識モジュール213は、例えば、光学文字認識(Optical Character Reader:OCR)機能やAI搭載OCR(Intelligent Character Recognition:ICR)に代表される文字認識機能を備えている。文字認識機能は、イメージデータから、文字列を識別する機能である。ここで、本技術における「文字列」とは、1つ以上の文字または記号であり、文字(かな、漢字、アルファベット、数字等)および記号の少なくとも一つが単独で配されているか、または複数が連なって配されているものである。文字認識機能は、例えば、イメージデータから文字列をテキストデータとして認識することができる。 The frame recognition module 213 includes a character recognition function represented by, for example, an optical character reader (OCR) function and an AI-equipped OCR (Intelligent Character Recognition: ICR). The character recognition function is a function that identifies character strings from image data. Here, the "character string" in this technology is one or more characters or symbols, and at least one of the characters (kana, kanji, alphabets, numbers, etc.) and symbols is arranged singly, or multiple characters are arranged. They are arranged in series. The character recognition function can, for example, recognize a character string from image data as text data.

文字認識機能はまた、オリジナルイメージデータ221から、文字列とは区別される直線性を有する罫線を認識する罫線認識機能を備えている。罫線は、例えば、線と点の特徴(一例として、任意の点座標、始点、終点、方向ベクトル、曲率(直線性を含む)、傾き等のいずれか1つ又は2以上の組み合わせ)に基づいて識別することができる。文字認識機能は、罫線の始点や終点の情報に加え、異なる二つの罫線が交わる交点の情報を取得することができる。 The character recognition function also includes a ruled line recognition function that recognizes, from the original image data 221, ruled lines that have linearity and are distinguished from character strings. For example, the ruled line is based on the characteristics of lines and points (for example, any one or a combination of two or more of arbitrary point coordinates, starting point, ending point, direction vector, curvature (including linearity), slope, etc.) can be identified. The character recognition function can acquire information on the starting point and end point of a ruled line, as well as information on the intersection point where two different ruled lines intersect.

文字認識機能はさらに、文字列が属する領域を示す「アノテーション」を作成するアノテーション作成機能を備えている。アノテーション作成機能は、例えば、画像のなかから文字列であることを検出した領域に対して、当該領域を示す注釈情報(典型的には、輪郭線または矩形のバウンディングボックス)を付与する機能である。アノテーションは、文字列を構成する個々の文字をテキスト認識する前に、文字列であることを認識した状態で付与される。文字認識機能はさらに、オリジナルイメージデータ221における画素、およびこれに基づいて認識した文字列、罫線、交点、アノテーション等の位置情報を、例えば2次元XY座標に基づいて把握することができるようになっている。 The character recognition function further includes an annotation creation function that creates an "annotation" that indicates the area to which the character string belongs. The annotation creation function is, for example, a function that adds annotation information (typically an outline or a rectangular bounding box) indicating the area to an area detected as a character string in an image. . The annotation is added while recognizing that the string is a string before the individual characters that make up the string are recognized as text. The character recognition function can also grasp the positional information of pixels in the original image data 221, character strings recognized based on this, ruled lines, intersections, annotations, etc., based on, for example, two-dimensional XY coordinates. ing.

枠補正モジュール214は、管理サーバ101の付加的な要素であって、枠認識モジュール213によって認識された枠部の補正指示を受け付ける。枠補正モジュール214は、例えば、ユーザ端末102のユーザ枠補正モジュール312と連携し、ユーザ端末102から送られる枠部またはアノテーションの補正指示に基づいて、枠部またはアノテーションに関する情報を補正する。枠補正モジュール214の具体的な動作については、後述する。補正された枠部に関する情報は、例えば、処理後イメージデータ222として、オリジナルイメージデータ221に紐づけて補助記憶装置202に出力(記憶)される。補正された枠部に関する情報は、元の枠部に関する情報に変えて記録(上書き保存)されてもよいし、元の枠部に関する情報に紐づけられて記録されてもよい。 The frame correction module 214 is an additional element of the management server 101, and receives an instruction to correct the frame portion recognized by the frame recognition module 213. The frame correction module 214 cooperates with the user frame correction module 312 of the user terminal 102, for example, and corrects information regarding the frame or annotation based on a frame or annotation correction instruction sent from the user terminal 102. The specific operation of the frame correction module 214 will be described later. Information regarding the corrected frame portion is output (stored) to the auxiliary storage device 202 in association with the original image data 221, for example, as processed image data 222. The information regarding the corrected frame may be recorded (overwritten and saved) instead of the information regarding the original frame, or may be recorded in association with the information regarding the original frame.

枠選択モジュール215は、管理サーバ101の付加的な要素であって、枠認識モジュール213によって認識された複数の枠部のうち、所定の枠設定条件を満たすものを選択する。枠設定条件については、後述する。選択された枠部に関する情報は、例えば、処理後イメージデータ222として、オリジナルイメージデータ221に紐づけて補助記憶装置202に出力(記憶)される。枠選択モジュール215は、例えば、
選択された枠部に関する情報のみを補助記憶装置202に記憶するようにしてもよいし、選択された枠部に関する情報を枠設定条件を満たすことを示す情報(フラグ等)とともに補助記憶装置202に記憶するようにしてもよい。
The frame selection module 215 is an additional element of the management server 101, and selects one of the plurality of frames recognized by the frame recognition module 213 that satisfies predetermined frame setting conditions. The frame setting conditions will be described later. Information regarding the selected frame portion is outputted (stored) as processed image data 222 to the auxiliary storage device 202 in association with the original image data 221, for example. For example, the frame selection module 215
Only information regarding the selected frame may be stored in the auxiliary storage device 202, or information regarding the selected frame may be stored in the auxiliary storage device 202 together with information (such as a flag) indicating that the frame setting conditions are met. It may also be stored.

文字列認識モジュール216は、管理サーバ101の付加的な要素であって、枠認識モジュール213によって認識された複数の枠部ごとに、その枠部の内部に配された文字列を認識する。文字列認識モジュール216は、例えば、文字認識機能を備えている。この文字認識機能は、枠認識モジュール213が備える文字認識機能と共通の構成によって実現されるものであってよい。また、枠認識モジュール213が、文字列認識モジュール216の文字認識機能を使用する構成でもよい。 The character string recognition module 216 is an additional element of the management server 101, and recognizes, for each of the plurality of frames recognized by the frame recognition module 213, the character string arranged inside the frame. The character string recognition module 216 includes, for example, a character recognition function. This character recognition function may be realized by a common configuration with the character recognition function included in the frame recognition module 213. Alternatively, the frame recognition module 213 may use the character recognition function of the character string recognition module 216.

分類モジュール217は、管理サーバ101の付加的な要素であって、文字列の認識結果を、例えば項目と値(内容)とに分類する。 The classification module 217 is an additional element of the management server 101, and classifies the character string recognition results into, for example, items and values (contents).

図3は、ユーザ端末102のハードウェア構成の例である。ユーザ端末102は、本情報読取システムを利用するユーザが操作する端末であり、例えばスマートフォン、タブレット、ノートPC、デスクトップPC等の端末で構成される。ユーザ端末102は、主記憶装置301と、補助記憶装置302と、を備える。ユーザ端末102はまた、上述のとおりのプロセッサ303と、入力装置304と、出力装置305と、カメラ306と、通信制御部307と、を備える。 FIG. 3 is an example of the hardware configuration of the user terminal 102. The user terminal 102 is a terminal operated by a user who uses this information reading system, and is configured of a terminal such as a smartphone, a tablet, a notebook PC, or a desktop PC. The user terminal 102 includes a main storage device 301 and an auxiliary storage device 302. The user terminal 102 also includes a processor 303 as described above, an input device 304, an output device 305, a camera 306, and a communication control unit 307.

主記憶装置301には、ユーザ実行モジュール311、ユーザ枠補正モジュール312等のプログラムやアプリケーションが記憶されており、これらのプログラムやアプリケーションをプロセッサ303が実行することで、ユーザ端末102の各機能要素が実現される。 The main storage device 301 stores programs and applications such as a user execution module 311 and a user frame correction module 312, and when the processor 303 executes these programs and applications, each functional element of the user terminal 102 is Realized.

ユーザ実行モジュール311は、ユーザ端末102の基本的な動作を制御する。ユーザ実行モジュール311は、例えば、管理サーバ101のユーザ端末管理モジュール211と連携して、情報読取システム100を用いて実行される、情報の読み取りのための基本的な動作を制御する。 The user execution module 311 controls the basic operations of the user terminal 102. The user execution module 311 controls basic operations for reading information executed using the information reading system 100, for example, in cooperation with the user terminal management module 211 of the management server 101.

ユーザ枠補正モジュール312は、管理サーバ101によって読み取られた枠部に関する情報を補正するための動作を制御する。ユーザ枠補正モジュール312は、例えば、管理サーバ101の枠補正モジュール214と連携して、ユーザ端末102にオリジナルイメージデータ221と、管理サーバ101によって読み取られた枠部を含む処理後イメージデータと、を出力(表示)する。ユーザ枠補正モジュール312はまた、例えば、処理後イメージデータにおける枠部を補正するための画面およびユーザーインターフェイス(UI)をユーザ端末102に出力(表示)する。ユーザ枠補正モジュール312はさらに、例えば、ユーザによってユーザ端末102に入力された、処理後イメージデータにおける枠部への補正指示を、管理サーバ101に送信する。 The user frame correction module 312 controls operations for correcting information regarding frames read by the management server 101. For example, the user frame correction module 312 cooperates with the frame correction module 214 of the management server 101 to send the original image data 221 and the processed image data including the frame read by the management server 101 to the user terminal 102. Output (display). The user frame correction module 312 also outputs (displays) a screen and user interface (UI) to the user terminal 102, for example, for correcting a frame in the processed image data. The user frame correction module 312 further transmits to the management server 101, for example, an instruction to correct a frame in the processed image data, which is input by the user into the user terminal 102.

補助記憶装置302には、ユーザ端末102の動作に必要な情報が記憶される。補助記憶装置302には、例えば、ユーザ情報400、オリジナルイメージデータ221、処理後イメージデータ222等が記憶されている。これらの情報は、管理サーバ101に記憶されたユーザ情報400、オリジナルイメージデータ221、処理後イメージデータ222等のうち、当該ユーザ端末102に関連する情報の一部又は全部であってよい。 The auxiliary storage device 302 stores information necessary for the operation of the user terminal 102. The auxiliary storage device 302 stores, for example, user information 400, original image data 221, processed image data 222, and the like. These pieces of information may be part or all of the information related to the user terminal 102 among the user information 400, original image data 221, processed image data 222, etc. stored in the management server 101.

図4~図6は、管理サーバ101に記憶されている各種情報である。これに限定されるものではないが、これらの情報の一部又は全部は、JSON形式のファイルに記憶することを想定している。これらの情報の一部又は全部は、リレーショナルデータベースや、非リレーショナルデータベースに記憶される構成であってよい。 4 to 6 show various types of information stored in the management server 101. Although not limited thereto, it is assumed that some or all of this information is stored in a JSON format file. Part or all of this information may be stored in a relational database or a non-relational database.

図4は、ユーザ情報400の例である。
ユーザ情報400は、情報読取システム100を利用するユーザに関する情報である。ユーザ情報400は、例えば、ユーザID、ユーザ表示ID、ユーザ名、業種ID、業種、資本金、責任者、住所等の情報を含み、それぞれフィールド名(項目名)410に対してサンプル値420で例示するような値が入力されている。
FIG. 4 is an example of user information 400.
User information 400 is information regarding a user who uses information reading system 100. The user information 400 includes information such as a user ID, user display ID, user name, industry ID, industry type, capital, person in charge, address, etc., and a sample value 420 for each field name (item name) 410. The values shown in the example are entered.

ユーザIDは、ユーザを識別するために各ユーザに付される記号であり、ハッシュ値等として自動的に生成される。各ユーザに関する情報は、基本的にはこのユーザIDによって紐づけられる。ユーザIDは、他の情報から参照される主キーである。ユーザ表示IDは、管理サーバ101やユーザ端末102等の画面に表示されるユーザの表示用のIDであり、任意に設定することができる。ユーザ表示IDは、例えばユーザが、所定の記号または文字を用い、所定の条件(例えば、10字以内)の範囲内で任意に設定することができる。ユーザ名、資本金、責任者、住所はそれぞれ、ユーザ(自然人および法人を含む。以下同じ。)についての、氏名または名称、資本金、情報読取システム100の利用責任者、住所または所在地、に関する情報である。業種ID、業種は、ユーザについての業種と、当該業種を識別するための記号に関する情報である。業種および業種IDは、例えば、日本標準産業分類にしたがう分類と分類コードを採用することができる。ユーザ情報400は、その他各種の手続情報,ユーザ登録情報等を含んでもよい。 The user ID is a symbol attached to each user to identify the user, and is automatically generated as a hash value or the like. Information regarding each user is basically linked by this user ID. The user ID is a primary key that is referenced from other information. The user display ID is a user display ID displayed on the screen of the management server 101, user terminal 102, etc., and can be set arbitrarily. The user display ID can be arbitrarily set by the user, for example, using predetermined symbols or characters within a predetermined condition (for example, 10 characters or less). The user name, capital, person in charge, and address are information regarding the user (including natural persons and corporations; the same shall apply hereinafter), including the name, capital, person in charge of using the information reading system 100, and address or location. It is. The industry ID and industry are information regarding the industry for the user and a symbol for identifying the industry. For the industry type and industry ID, for example, a classification and a classification code according to the Japanese Standard Industrial Classification can be adopted. The user information 400 may also include various other procedural information, user registration information, and the like.

図5は、辞書情報500の例である。
辞書情報500は、情報読取システム100が読み取りの対象とする文字列(例えば、用語)等に関する辞書情報である。辞書情報500は、用途に応じて、例えば、(A)貸借対照表の読み取りに利用する貸借対照表用情報、(B)不動産情報資料の読み取りに利用する不動産資料用情報、等を含むことができる。辞書情報500は、例えば、辞書ID、辞書名、単語格納先URL等の情報を含み、それぞれフィールド名510に対してサンプル値520で例示するような値が入力されている。
FIG. 5 is an example of dictionary information 500.
The dictionary information 500 is dictionary information regarding character strings (for example, terms) that the information reading system 100 reads. Depending on the purpose, the dictionary information 500 may include, for example, (A) balance sheet information used to read a balance sheet, (B) real estate information used to read real estate information materials, etc. can. The dictionary information 500 includes, for example, information such as a dictionary ID, a dictionary name, a word storage URL, and the like, and values such as those exemplified by sample values 520 are input for each field name 510.

辞書IDは、読取の対象となる資料に関連する用語情報(辞書)を識別するためのIDである。辞書名は、読取の対象となる資料に関連する辞書を示す情報である。単語格納先URLは、辞書情報の格納先を示す。例えば、辞書情報500が複数の資料または技術分野に関する用語辞書情報を備える場合、それぞれの用語辞書情報ごとに異なる格納先を用意することができる。 The dictionary ID is an ID for identifying terminology information (dictionary) related to the material to be read. The dictionary name is information indicating a dictionary related to the material to be read. The word storage location URL indicates the storage location of dictionary information. For example, when the dictionary information 500 includes term dictionary information regarding a plurality of materials or technical fields, different storage locations can be prepared for each piece of term dictionary information.

図6は、貸借対照表辞書情報600の例である。
貸借対照表辞書情報600は、情報読取システム100が貸借対照表を読み取る場合に利用する辞書情報である。貸借対照表辞書情報600は、例えば、項目610、階層620、内容の属性630等の情報を含み、項目610で例示するような項目の情報が格納されている。
FIG. 6 is an example of balance sheet dictionary information 600.
Balance sheet dictionary information 600 is dictionary information used when the information reading system 100 reads a balance sheet. The balance sheet dictionary information 600 includes, for example, information such as an item 610, a hierarchy 620, a content attribute 630, and the like, and information on items as exemplified by the item 610 is stored.

項目610は、貸借対照表の項目名として用いられる用語に関する情報である。項目610は、典型的には、認識対象のイメージデータの中の表の行または列の項目名または内容が勘定科目であることを示す「科目」と、表の行または列の項目名または内容が金額であることを示す「金額」と、具体的な勘定科目名(例えば、資産の部、流動資産…等)と、に関する情報を含む。 Item 610 is information regarding terms used as item names on the balance sheet. The item 610 typically includes a "subject" indicating that the item name or content of a row or column of a table in the image data to be recognized is an account, and an item name or content of the row or column of the table. It includes information about "amount" indicating that is an amount, and specific account item names (for example, asset section, current assets, etc.).

図6の例では、項目610は、一つの欄に一つの単語に関する情報が格納されているが、同じ内容(勘定科目)を示す異なる複数の単語に関する情報が格納されていてもよい。例えば、単語「資産の部」と、同じ意味で用いられる単語「資産」と、が同じ項目欄に格納されていてもよい。 In the example of FIG. 6, the item 610 stores information about one word in one column, but information about a plurality of different words indicating the same content (account item) may be stored. For example, the word "asset department" and the word "assets" used with the same meaning may be stored in the same item field.

階層620は、項目610に示された単語の階層を示す。例えば、貸借対照表の勘定科目は、例えば大きく(換言すれば、第1の階層としての)、資産と、負債と、純資産と、から構成される。また、勘定科目における資産は、例えばさらに(換言すれば、第2の階層としての)、流動資産と、固定資産と、繰延資産と、から構成される。勘定科目における流動資産は、例えばさらに(換言すれば、第3の階層として)、現金及び預金と、売掛金と、仕掛金と、を含み得る。階層620には、このような勘定項目(用語)の階層を示す情報(ここでは、例えば1~8の数情報)が格納される。なお、項目610に示される単語のうち「科目」と「金額」は、表の行または列の項目名または内容を示し、勘定科目の階層を示すものではないため、階層620には、所定の情報(ここでは、9の数情報)を付して識別している。 Hierarchy 620 shows the hierarchy of the words shown in item 610. For example, the account items of a balance sheet are broadly comprised (in other words, as a first layer) of assets, liabilities, and net assets. Further, the assets in the account items further include current assets, fixed assets, and deferred assets, for example (in other words, as a second layer). Current assets in the account may further include, for example (in other words, as a third tier) cash and deposits, accounts receivable, and work in progress. The hierarchy 620 stores information (here, number information from 1 to 8, for example) indicating the hierarchy of such account items (terms). Note that among the words shown in item 610, "subject" and "amount" indicate the item name or content of the row or column of the table, and do not indicate the hierarchy of account items. Information (here, number information of 9) is attached for identification.

内容の属性630は、貸借対照表の項目610に示された項目に対応する内容の属性を示す。例えば、貸借対照表の項目「資産の部」に対応する内容は、より下位の階層の科目と金額とを含むため、その属性は、「文字列」および「数値」である。項目「科目」に対応する内容は、各種の勘定科目であるため、その属性は「文字列」である。各勘定科目の項目に対応する内容は、当該勘定科目ごとの金額であるため、その属性は「数値」である。 The content attribute 630 indicates the content attribute corresponding to the item shown in the balance sheet item 610. For example, the content corresponding to the item "Assets" on a balance sheet includes items and amounts at lower levels, so its attributes are "character string" and "numeric value." Since the contents corresponding to the item "subject" are various account subjects, its attribute is "character string". Since the content corresponding to each account item is the amount of money for each account item, its attribute is "numeric value."

図14は、貸借対照表1400の例である。オリジナルイメージデータ221は、貸借対照表1400に対応した画像情報を備えている。
以下、情報読取システム100を用いて、この貸借対照表1400のオリジナルイメージデータ221から、貸借対照表1400の記載情報を読み取る方法について説明する。
FIG. 14 is an example of a balance sheet 1400. The original image data 221 includes image information corresponding to the balance sheet 1400.
Hereinafter, a method of reading information written in the balance sheet 1400 from the original image data 221 of the balance sheet 1400 using the information reading system 100 will be described.

まず、ユーザの操作によって、ユーザ端末102のユーザ実行モジュール311が実行され、ユーザ端末102と管理サーバ101が接続される。管理サーバ101のユーザ端末管理モジュール211は、ユーザ端末102のユーザ実行モジュール311等と連携して、ユーザのログイン等の処理を実行する。 First, the user execution module 311 of the user terminal 102 is executed by a user operation, and the user terminal 102 and the management server 101 are connected. The user terminal management module 211 of the management server 101 cooperates with the user execution module 311 of the user terminal 102 and the like to execute processes such as user login.

図7は、情報読取フロー700の例である。情報読取システム100は、典型的には、情報読取フロー700の各ステップ(S710~S770)にしたがって、貸借対照表1400の記載情報を読み取る。
まず、イメージ管理モジュール212は、情報の読取対象であるオリジナルイメージデータ221を取得する(S710)。例えば、イメージ管理モジュール212は、管理サーバ101の入力装置204であるスキャナにより資料をスキャンすることでイメージデータを取得する。また、イメージ管理モジュール212は、ユーザ端末102から送信されたイメージデータを取得する。
FIG. 7 is an example of an information reading flow 700. The information reading system 100 typically reads the information described in the balance sheet 1400 according to each step (S710 to S770) of the information reading flow 700.
First, the image management module 212 acquires the original image data 221 from which information is to be read (S710). For example, the image management module 212 acquires image data by scanning materials with a scanner, which is the input device 204 of the management server 101. The image management module 212 also acquires image data transmitted from the user terminal 102.

イメージ管理モジュール212は、ユーザ端末102のユーザ実行モジュール311と連携して、ユーザ端末102のディスプレイに、情報読み取り対象であるイメージデータを指定するための画面を出力(表示)することもできる。これにより、ユーザは情報読取対象のイメージデータを指定することができる。このとき、ユーザは、ユーザ端末102を介して、読取対象資料がどのような種類の資料であるかを、指定したり、選択できるように構成されていてもよい。 The image management module 212 can also output (display) on the display of the user terminal 102 a screen for specifying image data from which information is to be read, in cooperation with the user execution module 311 of the user terminal 102 . This allows the user to specify the image data from which information is to be read. At this time, the user may be configured to be able to specify or select the type of material to be read via the user terminal 102.

イメージデータの指定方法は、例えば、ユーザ端末102の補助記憶装置302に既に格納されているイメージデータの中から、読取対象とするオリジナルイメージデータ221を選択するものであってよい。あるいは、イメージデータの指定方法は、例えば、ユーザ端末102のスキャナ(入力装置304の一例)またはカメラ306を用いて、紙媒体からなる貸借対照表1400をスキャンまたは撮像することにより生成されたイメージデータを、読取対象のオリジナルイメージデータ221とするものであってよい。 The image data designation method may be, for example, to select the original image data 221 to be read from among the image data already stored in the auxiliary storage device 302 of the user terminal 102. Alternatively, the method of specifying the image data may be, for example, image data generated by scanning or imaging the balance sheet 1400 made of a paper medium using the scanner (an example of the input device 304) or the camera 306 of the user terminal 102. may be the original image data 221 to be read.

指定されたオリジナルイメージデータ221は、ユーザ端末102から管理サーバ101に送られる。イメージ管理モジュール212は、オリジナルイメージデータ221を受信し、例えば補助記憶装置202に格納する。 The specified original image data 221 is sent from the user terminal 102 to the management server 101. Image management module 212 receives original image data 221 and stores it, for example, in auxiliary storage device 202.

次いで、枠認識モジュール213は、オリジナルイメージデータ221における枠部を認識する(S720)。
図8は、枠部認識フロー800の例である。
枠認識モジュール213は、罫線認識機能によって、オリジナルイメージデータ221に含まれる罫線及びそれらの交点の情報を取得する(S810)。交点の位置情報は、これに限定されるものではないが、例えば、文字列の上下方向の下方をY軸方向とし、文字列の左右方向の右方をX軸方向とした、XY座標情報などによって表すことができる。
Next, the frame recognition module 213 recognizes the frame in the original image data 221 (S720).
FIG. 8 is an example of a frame recognition flow 800.
The frame recognition module 213 uses the ruled line recognition function to acquire information about ruled lines included in the original image data 221 and their intersections (S810). Although the positional information of the intersection point is not limited to this, for example, XY coordinate information where the lower side of the character string in the vertical direction is the Y-axis direction, and the right side of the character string in the left-right direction is the X-axis direction. It can be expressed by

図15は、罫線の認識結果1500の例である。
罫線の認識結果1500は、オリジナルイメージデータ221に含まれる、罫線及び交点を抽出したイメージに対応する。枠認識モジュール213は、情報を取得した罫線および交点のうち、最も左上に配されている交点を第1交点P1に設定する(S820)。換言すると、イメージの左上角(原点)からの距離が最小となる交点を第1交点P1に設定する。
FIG. 15 is an example of a ruled line recognition result 1500.
The ruled line recognition result 1500 corresponds to an image from which ruled lines and intersection points are extracted, which are included in the original image data 221. The frame recognition module 213 sets the upper leftmost intersection among the ruled lines and intersections for which information has been acquired as the first intersection P1 (S820). In other words, the intersection point with the minimum distance from the upper left corner (origin) of the image is set as the first intersection point P1.

枠認識モジュール213は、第1交点P1から罫線(緯線)上をX軸方向(右方)に進んだ場合に存在する交点を順に、交点X1,X2…,Xn(nは自然数)と設定する。枠認識モジュール213は、第1交点P1から罫線(経線)上をY軸方向(下方)に進んだ場合に存在する交点を順に、交点Y1,Y2…,Ym(mは自然数)と設定する(S830)。ここで、枠認識モジュール213は、第1交点P1からX軸方向(右方)について隣り合う交点が、交点X1である。枠認識モジュール213は、第1交点P1からY軸方向(下方)について隣り合う交点が、交点Y1である。 The frame recognition module 213 sequentially sets the intersections that exist when proceeding in the X-axis direction (rightward) on the ruled line (latitude line) from the first intersection P1 as intersections X1, X2..., Xn (n is a natural number). . The frame recognition module 213 sequentially sets the intersections that exist when proceeding in the Y-axis direction (downward) on the ruled line (meridian) from the first intersection P1 as intersections Y1, Y2..., Ym (m is a natural number) ( S830). Here, in the frame recognition module 213, the intersection point adjacent to the first intersection point P1 in the X-axis direction (to the right) is the intersection point X1. In the frame recognition module 213, an intersection point adjacent to the first intersection point P1 in the Y-axis direction (downward) is an intersection point Y1.

そして、枠認識モジュール213は、第1交点P1と交点X1,Y1とをそれぞれ繋ぐ線分、およびこれら線分に直交する線分、が存在し、直交線分が第2交点P2で交わる場合に、矩形P1-X1-P2-Y1を枠部と認識する(S840)。枠認識モジュール213は、交点X1,Y1,P2が存在しても、線分P1-X1,X1-P2,P2-Y1,Y1-P1のいずれか1つでも存在しない場合は、第1交点P1について枠部を認識しない。また、枠認識モジュール213は、交点X1,Y1、線分P1-X1,Y1-P1,これら線分に直交する線分が存在しても、直交線分が第2交点P2で交わらない場合は、第1交点P1について枠部を認識しない。 Then, the frame recognition module 213 detects when there are line segments connecting the first intersection point P1 and the intersection points X1 and Y1, and line segments orthogonal to these line segments, and the orthogonal line segments intersect at the second intersection point P2. , the rectangle P1-X1-P2-Y1 is recognized as a frame (S840). The frame recognition module 213 detects the first intersection point P1 even if the intersection points X1, Y1, and P2 exist, and when any one of the line segments P1-X1, X1-P2, P2-Y1, and Y1-P1 does not exist. The frame is not recognized. Furthermore, even if there are intersection points X1, Y1, line segments P1-X1, Y1-P1, and line segments orthogonal to these line segments, if the orthogonal line segments do not intersect at the second intersection point P2, , the frame portion is not recognized for the first intersection point P1.

以上のことから、枠認識モジュール213は、X軸方向(第1の方向の一例)に沿うとともに隣り合う二つの罫線と、Y軸方向(第1の方向に交わる第2の方向の一例)に沿うとともに隣り合う2つの罫線と、が4つの交点によって交わっている場合に、これら4つの交点の間に配される線分を枠部として認識するように構成されている。 From the above, the frame recognition module 213 recognizes two adjacent ruled lines along the X-axis direction (an example of the first direction) and the Y-axis direction (an example of the second direction intersecting the first direction). When two adjacent ruled lines intersect at four intersections, the line segment arranged between these four intersections is recognized as a frame.

第1交点P1と交点X1,Y1との間で枠部を認識しない場合、枠認識モジュール213は、例えば、交点X1を交点X2に置き換えて、上記のとおり枠部を認識するか否かを判断する。枠認識モジュール213は、第1交点P1と交点Xn,Y1とについて枠部を認識するまで交点Xnを一つずつ変更する。なお枠部を認識しない場合は、枠認識モジュール213は、交点Y1を交点Y2に置き換えて、第1交点P1と交点X1,Y2との間で枠部を認識するか否かを判断する。このことを、第1交点P1と交点Xn,Ymとの間で枠部を認識するまで繰り返す。第1交点P1と交点Xn,Ymとの間で枠部を認識しなかった場合、枠認識モジュール213は、第1交点P1について枠部を認識しないと判断する。 If the frame is not recognized between the first intersection P1 and the intersections X1 and Y1, the frame recognition module 213, for example, replaces the intersection X1 with the intersection X2 and determines whether or not to recognize the frame as described above. do. The frame recognition module 213 changes the intersection point Xn one by one until it recognizes the frame portion between the first intersection point P1 and the intersection points Xn and Y1. Note that if the frame is not recognized, the frame recognition module 213 replaces the intersection Y1 with the intersection Y2, and determines whether or not the frame is recognized between the first intersection P1 and the intersections X1 and Y2. This process is repeated until the frame is recognized between the first intersection P1 and the intersections Xn and Ym. If no frame is recognized between the first intersection P1 and the intersections Xn and Ym, the frame recognition module 213 determines that no frame is recognized for the first intersection P1.

枠認識モジュール213は、上記のとおり、第1交点P1について枠部を認識するか否かを判断したのち、上記第1交点P1を同一緯線上の次の交点X1に置き換えて、引き続き、上記と同様に置き換えた第1交点P1について枠部を認識するか否かを判断する。このことを、第1交点P1を交点Xn-1に置き換えるまで繰り返す。これにより、第1の緯線に沿って左右方向に存在する枠部をすべて認識することができる。 As described above, the frame recognition module 213 determines whether or not to recognize a frame with respect to the first intersection point P1, and then replaces the first intersection point P1 with the next intersection point X1 on the same latitude line, and continues with the above. Similarly, it is determined whether or not the frame portion is recognized for the replaced first intersection point P1. This process is repeated until the first intersection point P1 is replaced with the intersection point Xn-1. This makes it possible to recognize all the frame parts that exist in the left-right direction along the first latitude line.

枠認識モジュール213は、引き続き、既に第1交点P1とされた交点を除いて、最も左上に配されている交点を、第1交点P1に設定する。そして上記S830,S840と同様に、第1交点P1について枠部を認識するか否かを判断する。このことを、第1交点P1を同一緯線上の交点Xn-1に置き換えるまで繰り返す。これにより、第2の緯線に沿って左右方向に存在する枠部をすべて認識することができる。 The frame recognition module 213 subsequently sets the upper leftmost intersection as the first intersection point P1, excluding the intersection that has already been set as the first intersection point P1. Then, similarly to S830 and S840 above, it is determined whether or not a frame portion is recognized for the first intersection P1. This process is repeated until the first intersection P1 is replaced with the intersection Xn-1 on the same latitude. Thereby, all the frame parts that exist in the left-right direction along the second latitude line can be recognized.

枠認識モジュール213は、以上のことを、全ての緯線について網羅的に繰り返す。これにより、オリジナルイメージデータ221に含まれる全ての枠部を認識することができる。なお、当業者であれば、緯線に代えて、経線に沿って上下方向に走査して枠部を認識してよいことは理解できる。 The frame recognition module 213 repeats the above process exhaustively for all latitude lines. Thereby, all the frames included in the original image data 221 can be recognized. Note that those skilled in the art will understand that the frame portion may be recognized by scanning vertically along meridians instead of latitude lines.

枠認識モジュール213が認識した枠部に関する情報は、例えば、処理後イメージデータ222として、オリジナルイメージデータ221に紐づけて補助記憶装置202に出力(記憶)する。 The information regarding the frame recognized by the frame recognition module 213 is output (stored) to the auxiliary storage device 202 in association with the original image data 221, for example, as processed image data 222.

また、貸借対照表1400は、図14に示されるように、一つの枠部内に、複数の文字列が配置されている場合があり得る。そこで、枠認識モジュール213は、一の文字列に対して一つの枠部を認識する構成を備えていてもよい。例えば、枠認識モジュール213は、オリジナルイメージデータ221から文字列を認識するとともに、当該文字列の存在する部分に対応するアノテーションを作成し、作成されたアノテーションを枠部として認識する構成を備えていてもよい。なお、アノテーションは、文字列の占める領域を取り囲む枠状をなしている場合、枠認識モジュール213は、例えばアノテーションをそのまま枠部として利用することができる。一方、アノテーションが文字列の占める領域に対応した面状をなしている場合は、枠認識モジュール213は、当該アノテーションの輪郭を枠部として認識することができる。 Furthermore, as shown in FIG. 14, the balance sheet 1400 may include a plurality of character strings arranged within one frame. Therefore, the frame recognition module 213 may be configured to recognize one frame for one character string. For example, the frame recognition module 213 is configured to recognize a character string from the original image data 221, create an annotation corresponding to the part where the character string exists, and recognize the created annotation as a frame. Good too. Note that if the annotation has a frame shape surrounding the area occupied by the character string, the frame recognition module 213 can use the annotation as it is as a frame, for example. On the other hand, if the annotation has a planar shape corresponding to the area occupied by the character string, the frame recognition module 213 can recognize the outline of the annotation as a frame.

枠認識モジュール213は、例えば、罫線及び交点の情報に基づいて枠部を認識することの他に、アノテーションに関する情報に基づいて枠部を認識することもできる。
図12は、枠部認識フロー1200の他の例である。なお、枠認識モジュール213は、アノテーションに関する情報と罫線及び交点の情報との少なくとも一方(枠部認識フロー800、1200の少なくとも一方)に基づいて枠部を認識することができる。以下では、先に枠部認識フロー800を実行した後で、枠部認識フロー1200を追加して行う実施形態を例示して説明する。すなわち、枠認識モジュール213は、画像データの認識対象領域に罫線からなる枠部が含まれる場合に、この枠部の内部を新たな認識対象領域としてアノテーションを生成し、複数のアノテーションに基づいて新たに枠部を認識することができる。なお、枠部認識フロー1200において、S1220およびS1230は必須の工程ではなく、付加的に実行することができる工程である。
For example, the frame recognition module 213 can recognize a frame based on information regarding annotations in addition to recognizing a frame based on information on ruled lines and intersections.
FIG. 12 is another example of the frame recognition flow 1200. Note that the frame recognition module 213 can recognize a frame based on at least one of information regarding the annotation and information on ruled lines and intersections (at least one of the frame recognition flows 800 and 1200). In the following, an embodiment in which the frame recognition flow 800 is executed first and then the frame recognition flow 1200 is added will be described as an example. That is, when the recognition target area of the image data includes a frame made of ruled lines, the frame recognition module 213 generates an annotation for the inside of this frame as a new recognition target area, and generates a new annotation based on the multiple annotations. The frame can be recognized. Note that in the frame recognition flow 1200, S1220 and S1230 are not essential steps, but are steps that can be executed additionally.

枠認識モジュール213は、具体的には罫線及び交点の情報に基づいて認識した枠部ごとに、その内部に配される文字列についてアノテーションを作成する(S1210)。枠認識モジュール213は、これに限定されるものではないが、アノテーションを、文字列に沿う第1の方向に沿う線と、第1の方向に交わる第2の方向に沿う線と、によって枠状に形成するとよい。アノテーションは、これに限定されるものではないが、認識された文字列の最小外接矩形ないしはその相似形状となるように形成してもよい。これにより、アノテーションの形状に関する情報を簡略化することができる。 Specifically, the frame recognition module 213 creates an annotation for the character string arranged inside each frame portion recognized based on the information of ruled lines and intersections (S1210). Although the frame recognition module 213 is not limited to this, the annotation is shaped into a frame by a line along a first direction along the character string and a line along a second direction that intersects the first direction. It is recommended to form the Although the annotation is not limited to this, it may be formed to have the minimum circumscribed rectangle of the recognized character string or a similar shape thereof. Thereby, information regarding the shape of the annotation can be simplified.

枠認識モジュール213は、作成したアノテーションを所定の大きさだけ拡大する(S1220)。このとき、「所定の大きさ」とは、例えば、文字列における1文字の大きさや文字間ピッチ(行間ピッチ)に対する相対値として定めることができる。「所定の大きさ」は、これに限定されるものではないが、例えば、文字列における1文字の大きさを基準として、0.1文字以上2文字以下(換言すれば、1文字の大きさに対して1.1倍以上3倍以下)程度とすることができる。これによって、アノテーションを文字単位のブロックから、単語単位や、文単位につなげ、更には複数文よりなる文節単位のブロックとして認識することができる。上記「所定の大きさ」は、例えば、読取対象の情報ごとに定められていてもよいし、機械学習等により適宜設定可能とされていてもよい。 The frame recognition module 213 enlarges the created annotation by a predetermined size (S1220). At this time, the "predetermined size" can be defined as, for example, a relative value to the size of one character in a character string or the pitch between characters (interline pitch). The "predetermined size" is not limited to this, but for example, based on the size of one character in a character string, 0.1 character or more and 2 characters or less (in other words, the size of one character 1.1 times or more and 3 times or less). As a result, annotations can be recognized from character-based blocks to word-based or sentence-based blocks, or even as phrase-based blocks consisting of multiple sentences. The above-mentioned "predetermined size" may be determined for each piece of information to be read, for example, or may be set as appropriate by machine learning or the like.

ここで、拡大された複数のアノテーションが重畳しない場合、枠認識モジュール213は、それぞれの文字列は互いに独立していると判断して、各文字列のアノテーションを枠部として認識する(S1250)。一方で、このようにアノテーションを拡大すると、拡大された複数のアノテーションが重畳する場合があり得る。重畳した複数のアノテーションは、本来、一の文字列に付与すべき一つのアノテーションであったと考えることができる。そこで、拡大されたアノテーションが重畳した場合は、枠認識モジュール213は、重畳したアノテーションを連結して一つの新たなアノテーションを生成する(S1230)。これにより、本来一つの文字列について、その文字間ピッチ等に起因して複数の文字列と誤認識する事態の発生を低減することができる。 Here, if the enlarged plurality of annotations do not overlap, the frame recognition module 213 determines that each character string is independent of each other, and recognizes the annotation of each character string as a frame (S1250). On the other hand, when annotations are enlarged in this way, a plurality of enlarged annotations may overlap. It can be considered that the multiple superimposed annotations were originally one annotation that should be added to one character string. Therefore, when the enlarged annotations are superimposed, the frame recognition module 213 connects the superimposed annotations to generate one new annotation (S1230). Thereby, it is possible to reduce the occurrence of a situation in which a single character string is mistakenly recognized as multiple character strings due to the pitch between characters or the like.

例えば、アノテーションの幅を0.1文字分左右に拡大した場合には、隣に連続する文字との間隔が0.1文字より小さければ、隣の文字部分のアノテーションと連結されることになる。一方、例えば1文字以上離れた間隔があいている2つの文字列は結合されないことになる。
また、例えば、アノテーションの幅を2文字分左右に拡大した場合には、隣の文字列部分との間が2文字以下の間隔の場合にはアノテーションと連結されることになる。一方、例えば3文字以上離れた間隔があいている2つの文字列は結合されないことになる。
For example, when the width of an annotation is expanded horizontally by 0.1 character, if the interval between consecutive adjacent characters is smaller than 0.1 character, the annotation will be connected to the annotation of the adjacent character part. On the other hand, two character strings that are separated by, for example, one character or more will not be combined.
Further, for example, when the width of an annotation is expanded horizontally by two characters, if the distance between the adjacent character string part is two characters or less, it will be connected to the annotation. On the other hand, two character strings that are separated by, for example, three characters or more will not be combined.

枠認識モジュール213は、アノテーションのそれぞれについてアノテーションの占める領域を2次元XY座標で表した場合に、各アノテーションについて、左上座標および右下座標に関する情報を取得する(S1240)。より具体的には、枠認識モジュール213は、アノテーションの占めるXY座標のうち、当該アノテーションを包含し、かつ、最も小さいX座標と最も小さいY座標とで表される第1座標A1と、最も大きいX座標と最も大きいY座標とで表される第2座標A2と、に関する情報を取得する。そして枠認識モジュール213は、これら第1座標A1および第2座標A2を対角点とする矩形(枠状)を枠部として認識する(S1250)。枠認識モジュール213は、認識された枠部に関する情報を、例えば、処理後イメージデータ222等として補助記憶装置202に出力(記憶)する(S1260)。本実施例では、枠部認識フロー800で1つの枠として認識された枠を複数の枠に細分して認識している。 The frame recognition module 213 acquires information regarding the upper left coordinate and the lower right coordinate for each annotation, when the area occupied by each annotation is expressed in two-dimensional XY coordinates (S1240). More specifically, the frame recognition module 213 selects a first coordinate A1 that includes the annotation and is represented by the smallest X coordinate and the smallest Y coordinate, and the largest one among the XY coordinates occupied by the annotation. Information regarding the second coordinate A2 represented by the X coordinate and the largest Y coordinate is acquired. Then, the frame recognition module 213 recognizes a rectangle (frame shape) whose diagonal points are the first coordinate A1 and the second coordinate A2 as a frame (S1250). The frame recognition module 213 outputs (stores) information regarding the recognized frame to the auxiliary storage device 202 as, for example, processed image data 222 (S1260). In this embodiment, a frame recognized as one frame in the frame part recognition flow 800 is subdivided into a plurality of frames for recognition.

図29は、枠部認識フロー1200の各工程におけるアノテーション認識結果2900の例である。
図29に示すように、各種情報資料等においては、項目と値との組み合わせにおいて、項目の文字列は文字数が少ないのに対し、値の文字列については、項目に比して文字数が大幅に多くなることがあり得る。例えば、値の文字列は、複数行にわたる複数の文を含み得る。
FIG. 29 is an example of an annotation recognition result 2900 in each step of the frame recognition flow 1200.
As shown in Figure 29, in various information materials, etc., when it comes to combinations of items and values, the character strings for items have a small number of characters, while the character strings for values have a large number of characters compared to the items. It could be more. For example, a string of values may include multiple sentences spanning multiple lines.

一つの枠部に配されている文字列に対してアノテーションを作成する場合(S1210)、文字列の文字数が多く、特に句読点を含む場合は、認識結果(B)に示すように、文字列の全体が一つの塊(値)とは認識されず、複数の文字列(値)に分割して認識されやすい。これに対し、枠認識モジュール213は、すでに説明したとおり、枠部認識フロー1200にしたがって、認識された複数のアノテーションを拡大し(S1220)、重畳するアノテーションについては、認識結果(C)に示すように互いに連結することができる(S1230)。また、枠認識モジュール213は、連結したアノテーションについて、第1交点P1(左上座標)および第2交点P2(右下座標取得)に関する情報を取得し、これら第1交点P1および第2交点P2に基づいて枠部を認識する(S1240)。その結果、認識結果(D)に示すように、文字数が極めて多い文字列であっても、一つの文字列(すなわち、一つの値)として認識することができる。 When creating an annotation for a character string arranged in one frame (S1210), if the character string has a large number of characters and especially includes punctuation marks, the character string is The whole string is not recognized as a single block (value), but is easily recognized as being divided into multiple character strings (values). On the other hand, as already explained, the frame recognition module 213 enlarges the plurality of recognized annotations according to the frame recognition flow 1200 (S1220), and as for the annotations to be superimposed, as shown in the recognition result (C). can be connected to each other (S1230). Furthermore, the frame recognition module 213 acquires information regarding the first intersection point P1 (top left coordinates) and second intersection point P2 (bottom right coordinate acquisition) for the connected annotations, and based on these first intersection point P1 and second intersection point P2. The frame portion is recognized (S1240). As a result, as shown in the recognition result (D), even a character string with an extremely large number of characters can be recognized as one character string (that is, one value).

文字列認識モジュール216は、枠認識モジュール213によって認識された枠部ごとに、文字認識機能によって、その内部に配される文字列を構成する各文字を認識する(S730)。文字列認識モジュール216は、例えば、認識された文字列に関する情報を、処理後イメージデータ222等として補助記憶装置202に出力(記憶)する。文字列認識モジュール216は、例えば、認識された文字列に関する情報を、分類モジュール217に受け渡す(出力する)ように構成されていてもよい。 For each frame recognized by the frame recognition module 213, the character string recognition module 216 uses a character recognition function to recognize each character constituting the character string arranged inside the frame (S730). For example, the character string recognition module 216 outputs (stores) information regarding the recognized character string to the auxiliary storage device 202 as processed image data 222 or the like. The character string recognition module 216 may be configured, for example, to pass (output) information regarding the recognized character string to the classification module 217.

例えば人の作成する資料の特徴として、文字列は、項目および値の組み合わせを含むように構成され、これらは一般に、1つの項目に対して1又は複数の値を紐づけたものであり得る。そこで分類モジュール217は、文字列認識モジュール216によって認識された文字列を、例えば項目と、値と、に分類する(S740)。分類モジュール217は、これに限定されるものではないが、例えば、項目に関する情報を含む辞書に基づいて、文字列を項目と値とに分類することができる。 For example, as a characteristic of materials created by people, character strings are configured to include combinations of items and values, and these may generally be strings in which one item is associated with one or more values. Therefore, the classification module 217 classifies the character string recognized by the character string recognition module 216 into, for example, items and values (S740). The classification module 217 can classify a character string into items and values based on, for example, but not limited to, a dictionary that includes information about items.

(分類方法1)
分類モジュール217は、例えば、文字列が数字のみからなる場合は値と判断し、文字列が文字を含む場合は項目と判断していてもよい。なお、年、年度、円、¥、ドル、$等の所定の文字列が数値と連続して用いられている場合は、当該文字列を数値の単位として認識し、当該単位が付属した数値を一つの値と判断することができる。これらの所定の文字列は、例えば、値に関する情報の一つとして辞書に記憶されていてもよく、分類モジュール217は、かかる辞書に基づいて、当該単位が付属した数値を値と判断してもよい。
(Classification method 1)
For example, the classification module 217 may determine that a character string is a value if it consists only of numbers, and may determine that it is an item if the character string includes characters. In addition, if a predetermined character string such as year, fiscal year, yen, ¥, dollar, $, etc. is used consecutively with a numerical value, the character string will be recognized as a numerical unit, and the numerical value with the relevant unit attached will be changed. It can be determined as one value. These predetermined character strings may be stored in a dictionary as one piece of information regarding values, for example, and the classification module 217 may determine that a numerical value to which the unit is attached is a value based on such a dictionary. good.

(分類方法2)
人の作成する資料の特徴として、項目の先頭に特定の文字や記号(以下、単に「特定文字」という。)を用いて見出しを付すことがあり得る。この場合、特定文字としては、一般的に、同一の階層の項目について付される文字を考慮することができ、例えば、序数(例えば、1.、(1)、1)、i、I、丸付き数字等)、アルファベット(例えば、A,B,C)、括弧(例えば、丸括弧、角括弧、隅付括弧等)、中点、箇条書きマーク(例えば、中丸、二重丸、三角記号、四角記号、バツ印等)、セクションマーク等のいずれか1つ、または2つ以上の組み合わせ等が挙げられる。これらの特定文字は、資料中に、同一の階層において、2つ以上(例えば、3つ以上)繰り返し配されるという特徴(規則性)がある。
(Classification method 2)
A characteristic of materials created by people is that headings may be added at the beginning of items using specific characters or symbols (hereinafter simply referred to as "specific characters"). In this case, as specific characters, characters generally attached to items in the same hierarchy can be considered, such as ordinal numbers (for example, 1., (1), 1), i, I, round (numbers, etc.), alphabets (e.g., A, B, C), parentheses (e.g., round brackets, square brackets, corner brackets, etc.), middle dots, bullet points (e.g., center circle, double circle, triangle symbol, (square symbol, cross mark, etc.), section mark, etc., or a combination of two or more. These specific characters have the characteristic (regularity) that two or more (for example, three or more) of these specific characters are repeatedly arranged in the same layer in the material.

そこで、分類モジュールは217は、一の方向(例えば、左右方向)に延びる文字列については左端に特定文字が2回以上配置されている場合、および、一の方向に対して交わる他の方向(例えば、上下方向)に延びる文字列については上端に特定文字が2回以上配置されている場合に、これらの文字列が項目であると判断することができる。また、分類モジュールは217は、これらの特定文字を含む文字列が一の方向(例えば、左右方向または上下方向)について2回以上配されている場合、分類モジュールは217は、当該文字列に対して他の方向(例えば、下側または右側)に配される文字列を全て、当該項目に対応する値として分類するとともに、互いに対応づけることができる。 Therefore, in the classification module 217, for a character string extending in one direction (for example, the left-right direction), if a specific character is placed at the left end more than once, and in another direction (for example, For example, for character strings extending in the vertical direction, if a specific character is placed at the top twice or more, it can be determined that these character strings are items. In addition, if a character string containing these specific characters is arranged more than once in one direction (for example, left/right or up/down direction), the classification module 217 will All character strings arranged in other directions (for example, on the bottom or right side) can be classified as values corresponding to the item, and can be correlated with each other.

また、分類モジュール217は、例えば、他の文字列に対して、相対的に太字(特定の文字情報の一例)で記載された文字列は、項目とみなすこともできる。また、他の文字と比較して、異なる特定のフォントや色(特定の文字情報の一例)が使われている文字列を、項目とみなすこともできる。
以上の特定文字や、特定の文字情報は、例えば、項目に関する情報の一つとして辞書に記憶されていてもよく、分類モジュール217は、かかる辞書に基づいて、当該文字列を項目と判断してもよい。
また、特定文字の配置に基づく項目と値との対応づけのルールについては、項目と値との対応に関する情報の一つとして辞書に記憶されていてもよく、分類モジュール217は、かかる辞書に基づいて、当該項目と値とを対応づけてもよい。
Further, the classification module 217 can also consider, for example, a character string written in bold (an example of specific character information) relative to other character strings as an item. Further, a character string that uses a specific font or color (an example of specific character information) that is different from other characters can also be regarded as an item.
The above-mentioned specific characters and specific character information may be stored in a dictionary as one of the information regarding items, for example, and the classification module 217 determines that the character string is an item based on the dictionary. Good too.
Further, rules for associating items and values based on the arrangement of specific characters may be stored in a dictionary as one piece of information regarding the correspondence between items and values, and the classification module 217 may The item and the value may be associated with each other.

なお、分類方法2により文字列を項目と値とに分類する場合、分類モジュール217は、これらの文字列の分類と同時に、紐づけ(S750)および構造化(S760)を行うことができる。 Note that when classifying character strings into items and values using classification method 2, the classification module 217 can perform linking (S750) and structuring (S760) at the same time as classifying these character strings.

(分類方法3)
あるいは、分類モジュール217は、予め用意された辞書情報に基づいて、文字列認識モジュール216によって認識された文字列を、項目と、値と、に分類してもよい。例えば、分類モジュール217は、辞書情報500のうち、貸借対照表辞書情報600に基づいて、認識された文字列のうち貸借対照表辞書情報600の項目610に該当する文字列については項目と判断し、項目610に該当しない文字列については値であると判断する構成を備えていてもよい。
(Classification method 3)
Alternatively, the classification module 217 may classify the character strings recognized by the character string recognition module 216 into items and values based on dictionary information prepared in advance. For example, based on the balance sheet dictionary information 600 of the dictionary information 500, the classification module 217 determines that among the recognized character strings, a character string that corresponds to item 610 of the balance sheet dictionary information 600 is an item. , a configuration may be provided in which a character string that does not correspond to item 610 is determined to be a value.

なお、分類方法3により文字列を項目と値とに分類する場合、分類モジュール217は、項目610に該当する文字列については、貸借対照表辞書情報600の階層620および内容の属性630に関する情報に基づいて、当該文字列の階層情報や、紐づけられる文字列の属性情報を、併せて取得してもよい。これにより、管理サーバ101による分類と、後述する紐づけおよび階層化(構造化)の精度を高めることができる。 Note that when classifying character strings into items and values using classification method 3, the classification module 217 uses information regarding the hierarchy 620 and content attributes 630 of the balance sheet dictionary information 600 for the character strings that correspond to the items 610. Based on this, hierarchical information of the character string and attribute information of the string to be linked may also be acquired. This makes it possible to improve the accuracy of the classification by the management server 101, as well as the linking and hierarchization (structuring) described below.

分類モジュール217は、項目と値とに分類された文字列を紐づける(S750)。また、分類モジュール217は、項目と値とに分類された文字列の階層情報を取得する(S760)。文字列の紐づけ(S750)と階層情報の取得(S760)とは、いずれを先に実施してもよいし、両方を同時に(並行して)実施してもよい。 The classification module 217 associates the classified character strings with items and values (S750). Furthermore, the classification module 217 obtains hierarchical information of character strings classified into items and values (S760). Either of the character string linking (S750) and the hierarchical information acquisition (S760) may be performed first, or both may be performed simultaneously (in parallel).

図10は、紐づけフロー1000の例である。
図11は、階層取得フロー1100の例である。
分類モジュール217は、文字列の認識結果を取得し(S1010)、文字列の項目と値を紐づけ(S1020)、その結果を補助記憶装置202に出力する。分類モジュール217はまた、文字列の認識結果を取得し(S1110)、それぞれの文字列について階層に関する情報を取得し(S1120)、その結果を補助記憶装置202に出力する。
FIG. 10 is an example of a linking flow 1000.
FIG. 11 is an example of a hierarchy acquisition flow 1100.
The classification module 217 acquires the recognition result of the character string (S1010), associates the item and value of the character string (S1020), and outputs the result to the auxiliary storage device 202. The classification module 217 also obtains the recognition results of the character strings (S1110), obtains information regarding the hierarchy for each character string (S1120), and outputs the results to the auxiliary storage device 202.

(紐づけ方法1)
分類モジュール217は、これに限定されるものではないが、例えば、罫線の認識結果1500における枠部の配置の特徴に基づいて、文字列を紐づけたり、階層構造化するように構成されていてもよい。例えば、罫線の認識結果1500には、最も上方に配される枠部W1,W2が複数(ここでは二つ)存在する。また、これらの枠部W1,W2の間に配される罫線L1は、表の最上部から最下部にまで至っている。また例えば、枠部W1の下方には、枠部W1と幅が等しくなるように、1又は複数の枠部が配列されている。枠部W2の下方には、枠部W2と幅が等しくなるように、1又は複数の枠部が配列されている。
(Linking method 1)
The classification module 217 is configured to, for example, link character strings or create a hierarchical structure based on the characteristics of the arrangement of frames in the ruled line recognition result 1500, although the classification module 217 is not limited thereto. Good too. For example, in the ruled line recognition result 1500, there are a plurality of (two in this case) frame portions W1 and W2 arranged at the uppermost position. Furthermore, a ruled line L1 arranged between these frame portions W1 and W2 extends from the top of the table to the bottom. Further, for example, one or more frame portions are arranged below the frame portion W1 so as to have the same width as the frame portion W1. One or more frame portions are arranged below the frame portion W2 so that the width thereof is equal to that of the frame portion W2.

図16(A)(B)は、枠部の分類1600の仕方を示した例である。
罫線L1が最上部から最下部にまで至っているということは、すなわち、罫線L1は当該罫線と平行な外枠と同じ長さを有すると言える。このような場合、分類モジュール217は、例えば図16(A)に示すように、外枠と同じ長さを有する罫線L1によって、表を二つに分割できると判断する。分類モジュール217は、罫線の認識結果1500からなる表を、枠部W1を含む表部分と、枠部W2を含む表部分と、の左右二つに分割する。
FIGS. 16A and 16B are examples showing how to classify frames 1600.
The fact that the ruled line L1 extends from the top to the bottom means that the ruled line L1 has the same length as the outer frame parallel to the ruled line. In such a case, the classification module 217 determines that the table can be divided into two by a ruled line L1 having the same length as the outer frame, as shown in FIG. 16A, for example. The classification module 217 divides the table consisting of the ruled line recognition results 1500 into left and right parts, a table part including the frame part W1 and a table part including the frame part W2.

なお、枠部W1およびW2の下辺をなす罫線、ならびにこれと並行かつ同じ長さの2本の罫線も、罫線L1と同等の条件を満たし得る。しかしながら、例えば枠部W1およびW2の下辺をなす罫線で表を上下に二分割すると、分割された上側の表は、含まれる枠部(セル:区画される枠部の最小単位;ともいう)がW1とW2だけとなり、分割された下側の表が包含するセルの数と比べて著しく少なくなり、表の分割線として適切ではないと判断することができる。したがって、例えば、分類モジュール217は、罫線に基づいて分割された後の各表が包含するセル数の差に基づいて、表を分割する分割線として採用する罫線の優先度を判断することができる。分類モジュール217は、例えば、分割後の表のセル数の差が小さくなる罫線ほど、分割線としての優先度を上げることができる。したがって、図15の表の場合、分類モジュール217は、枠部W1およびW2の下辺等については、分割線としての優先度を下げ、分割後の表に内包される枠部(セル)の数の差が小さくなる罫線L1を分割線として採用する。 Note that the ruled line forming the lower sides of the frame portions W1 and W2 and two ruled lines that are parallel to the ruled line and have the same length can also satisfy the same conditions as the ruled line L1. However, for example, if the table is divided into two vertically by the ruled line forming the lower sides of the frames W1 and W2, the upper divided table will have a frame (cell: the smallest unit of a partitioned frame; also referred to as a cell). There are only W1 and W2, which is significantly smaller than the number of cells included in the divided lower table, and can be determined to be inappropriate as a table dividing line. Therefore, for example, the classification module 217 can determine the priority of a ruled line to be adopted as a dividing line for dividing a table based on the difference in the number of cells included in each table after being divided based on the ruled line. . For example, the classification module 217 can give higher priority as a dividing line to a ruled line with a smaller difference in the number of cells in the table after division. Therefore, in the case of the table in FIG. 15, the classification module 217 lowers the priority of the lower sides of the frames W1 and W2 as dividing lines, and reduces the number of frames (cells) included in the divided table. A ruled line L1 with a smaller difference is adopted as a dividing line.

また、図16(A)の右側に示す、分割された枠部W2を含む表右部分は、枠部W2と同じ寸法の枠部W3を含む。枠部W2とW3は、枠部としての長さが外枠(この場合、分割後の表右部分の外枠)と同じ長さである。このような場合、分類モジュール217は、例えば図16(B)に示すように、枠部W2を含む表部分を、枠部W3よりも上の部分(枠部W2を含む表部分)と、枠部W3から下の部分(枠部W3を含む表部分)と、に上下二つに分割できると判断する。 Further, the right portion of the table including the divided frame portion W2 shown on the right side of FIG. 16(A) includes a frame portion W3 having the same dimensions as the frame portion W2. The frame portions W2 and W3 have the same length as the outer frame (in this case, the outer frame of the right portion of the table after division). In such a case, the classification module 217 classifies the table portion including the frame portion W2 into the portion above the frame portion W3 (the table portion including the frame portion W2) and the frame portion W2, as shown in FIG. 16(B), for example. It is determined that the image can be divided into an upper and a lower portion, a portion below the portion W3 (a front portion including the frame portion W3).

分類モジュール217は、分割後の3つの表について、さらに分割可能かを検討する。3つの各表において、枠部W1、W2、W3の下辺をなす罫線は、他の罫線に横断されることなく外枠の左端から右端まで延びている。なお、枠部W1、W2、W3の下辺をなす罫線と並行かつ同じ長さの2本の罫線も、同等の条件を満たし得る。ここで、枠部W1、W2、W3の下辺をなす罫線で各表部分を分割した場合、分割後に枠部W1、W2、W3はそれぞれ単独セルとなる。このような枠部W1、W2、W3は、分割された他のセルと比較して、相対的に高い階層の文字列が記載された項目セルであることが多い。そこで、分類モジュール217は、罫線に基づいて分割された後の各表が包含するセル数に基づいて、項目セルを区画する分割線として採用する罫線の優先度を判断することができる。分類モジュール217は、例えば、分割後の表のセル数が1となる罫線について、分割線としての優先度を上げ、分割後の単独セルを項目セルとして認識することができる。なお、項目セルを区画する分割線は、他の罫線と交わるものの、他の罫線に横断されないという特徴も有し得る。そこで、分類モジュール217は、他の罫線に横断されることなく外枠の一の辺と同じ長さの罫線について、項目セルを区画する分割線であると判断してもよい。 The classification module 217 examines whether the three tables after division can be further divided. In each of the three tables, the ruled lines forming the lower sides of the frames W1, W2, and W3 extend from the left end to the right end of the outer frame without being crossed by other ruled lines. Note that two ruled lines parallel to and of the same length as the ruled lines forming the lower sides of the frame portions W1, W2, and W3 may also satisfy the same conditions. Here, when each table portion is divided by the ruled line forming the lower side of the frame portions W1, W2, and W3, each of the frame portions W1, W2, and W3 becomes a single cell after division. Such frame portions W1, W2, and W3 are often item cells in which character strings at a relatively higher level than other divided cells are written. Therefore, the classification module 217 can determine the priority of the ruled line to be adopted as the dividing line for partitioning the item cells, based on the number of cells included in each table after being divided based on the ruled line. For example, the classification module 217 can raise the priority as a dividing line for a ruled line where the number of cells in the table after division is 1, and can recognize the single cell after division as an item cell. Note that the dividing line that partitions the item cell may also have the characteristic that although it intersects with other ruled lines, it does not intersect with other ruled lines. Therefore, the classification module 217 may determine that a ruled line that is not crossed by other ruled lines and has the same length as one side of the outer frame is a dividing line that partitions item cells.

分類モジュール217は、分割の結果、他の枠部が含まれない単独セルとなった枠部W1,W2,W3をそれぞれ、分割後の3つの表の最上位の階層と判断し、枠部W1,W2,W3よりも下方に配される枠部をそれぞれ、枠部W1,W2,W3に対して相対的に下位の階層の枠部であると判断する。そして、分類モジュール217は、分割の結果、単独セル(単一の枠部)が現れた段階で、表の分割処理を終了する。分類モジュール217は、枠部W1,W2,W3と、枠部W1,W2,W3よりも下方に配される枠部と、をそれぞれ階層化しつつ、対応付けることができる(第1の階層化および紐づけ)。 As a result of the division, the classification module 217 determines that the frame parts W1, W2, and W3, which are independent cells that do not include other frame parts, are the highest hierarchy of the three tables after the division, and divides them into the frame part W1. , W2, and W3 are determined to be frames in a lower hierarchy relative to the frames W1, W2, and W3. Then, the classification module 217 ends the table division process when a single cell (single frame) appears as a result of the division. The classification module 217 can hierarchize and associate the frame portions W1, W2, and W3 with the frame portions arranged below the frame portions W1, W2, and W3 (first hierarchization and ).

図17は、枠部の分類1700の例である。
図16(B)に示すように、枠部W1,W2,W3よりも階層が下位の枠部からなる表部分において、罫線L2,L3,L4はそれぞれ最上部から最下部にまで至っている。このような場合、分類モジュール217は、例えば図17に示すように、枠部W1,W2,W3よりも下位の表部分について、それぞれ罫線L2,L3,L4によって左右二つに区画できると判断する。すなわち、枠部W1の下位の表部分については、枠部W11およびその下方に配される枠部W13,W15と、枠部W12およびその下方に配される枠部W14,W16と、に区画(分類)することができる。枠部W2の下位の表部分については、枠部W21およびその下方に配される枠部W23,W25と、枠部W22およびその下方に配される枠部W24,W26と、に区画することができる。枠部W3の下位の表部分については、枠部W31およびその下方に配される枠部W33,W35,W37と、枠部W32およびその下方に配される枠部W34,W36,W38と、に区画することができる。分類モジュール217は、枠部W11~W32と、枠部W11~W32よりも下方に配される枠部と、をそれぞれ階層化しつつ、対応付けることができる(第2の階層化および紐づけ)。
FIG. 17 is an example of classification 1700 of frames.
As shown in FIG. 16(B), in the table portion made up of frame sections lower in hierarchy than frame sections W1, W2, and W3, ruled lines L2, L3, and L4 extend from the top to the bottom, respectively. In such a case, the classification module 217 determines that the table portions lower than the frame portions W1, W2, and W3 can be partitioned into left and right by ruled lines L2, L3, and L4, respectively, as shown in FIG. 17, for example. . That is, the lower front part of the frame W1 is divided into the frame W11 and the frame parts W13 and W15 arranged below it, and the frame part W12 and the frame parts W14 and W16 arranged below it ( classification). The lower front part of the frame part W2 can be divided into a frame part W21 and frame parts W23 and W25 arranged below it, and a frame part W22 and frame parts W24 and W26 arranged below it. can. Regarding the lower front part of the frame part W3, the frame part W31 and the frame parts W33, W35, W37 arranged below it, and the frame part W32 and the frame parts W34, W36, W38 arranged below it. It can be partitioned. The classification module 217 can hierarchize and associate the frame parts W11 to W32 and the frame parts arranged below the frame parts W11 to W32 (second hierarchization and linking).

ただし、枠部W11およびその下方に配される枠部W13,W15と、枠部W12およびその下方に配される枠部W14,W16とは、枠部W1によって不可分なものとして対応づけられている。したがって、枠部W11およびその下方に配される枠部W13,W15の中の文字列と、枠部W12およびその下方に配される枠部W14,W16の中の文字列とは、左右方向に沿って、互いに対応づけることができる(第3の階層化および紐づけ)。枠部W13,W14については、その内部に、アノテーションに基づいて認識された複数の枠部がそれぞれ存在する。分類モジュール217は、枠部W13内の複数の枠部と、枠部W14内の複数の枠部と、についても左右方向に沿って互いに対応づけることができる。 However, the frame portion W11 and the frame portions W13 and W15 disposed below the frame portion W12 and the frame portions W14 and W16 disposed below the frame portion W12 are inseparably associated with each other by the frame portion W1. . Therefore, the character strings in the frame W11 and the frames W13 and W15 arranged below it, and the character strings in the frame W12 and the frames W14 and W16 arranged below it, are They can be associated with each other along the same lines (third layering and linking). As for the frame portions W13 and W14, a plurality of frame portions recognized based on the annotation exist inside each of the frame portions W13 and W14. The classification module 217 can also associate the plurality of frames in the frame part W13 and the plurality of frames in the frame part W14 with each other along the left-right direction.

分類モジュール217は、枠部W21と枠部W22、枠部W23と枠部W24、枠部W25と枠部W26、枠部W31と枠部W32、枠部W33と枠部W34、枠部W35と枠部W36、枠部W37と枠部W38についても同様に対応づけることができる(第3の階層化および紐づけ)。 The classification module 217 classifies the frames W21 and W22, the frames W23 and W24, the frames W25 and W26, the frames W31 and W32, the frames W33 and W34, and the frames W35 and W35. The portion W36, the frame portion W37, and the frame portion W38 can be similarly associated (third hierarchization and linkage).

また、分類モジュール217は、上記の罫線の認識結果1500における枠部の配置の特徴が90度異なる場合(行列構成が逆の表構造の場合)についても、同様に、文字列の階層化と紐づけとを行うことができる。 In addition, the classification module 217 similarly performs the hierarchization and linking of character strings when the characteristics of the arrangement of the frames in the ruled line recognition result 1500 differ by 90 degrees (when the matrix structure is an inverted table structure). You can do the following.

(紐づけ方法2)
あるいは、分類モジュール217は、予め定められたテーブルルールに基づいて、それぞれの枠部に配される文字列を対応付けるようにしてもよい。
(Linking method 2)
Alternatively, the classification module 217 may associate the character strings placed in each frame based on a predetermined table rule.

分類モジュール217は、まず上述した方法によって、各枠部に配される文字列を項目と値とに分類する(S740)。そしてこのとき、X軸方向およびY軸方向の少なくとも一方に沿って順に、項目と値の出方について所定の規則性(ルール)が見られるかどうかを確認する。分類モジュール217は、例えば上記の「紐づけ方法1」において同じ階層と判断された文字列について、所定のルールが見られるかどうかを確認してもよい。分類モジュール217は、所定のルールが見られた場合にルールごとのフラグを付け、1つの資料の読み取りにおいて同じルールが複数回(例えば、3回以上)現れた場合は、そのルールを当該表の共通ルールとし、このルールに従って項目と内容とを紐づける(S760)。項目および値の出方と、その場合の各文字列の紐づけ方法(ルール)としては、以下のものが挙げられる。
なお、分類モジュール217は、同じルールが1つのテーブルの中に複数回現れた場合を共通ルールとしてもよく、また同じルールが複数の表を持つ資料全体について複数回現れた場合に共通ルールとしてもよく、その両方であってもよい。
The classification module 217 first classifies the character strings placed in each frame into items and values using the method described above (S740). At this time, it is confirmed whether or not a predetermined regularity (rule) is observed in the appearance of items and values in order along at least one of the X-axis direction and the Y-axis direction. For example, the classification module 217 may check whether a predetermined rule is observed for character strings that are determined to be in the same hierarchy in the above-mentioned "linking method 1". The classification module 217 attaches a flag to each rule when a predetermined rule is seen, and when the same rule appears multiple times (for example, three or more times) in reading one material, the classification module 217 adds that rule to the table. A common rule is set, and items and contents are linked according to this rule (S760). Examples of how items and values appear and how each character string is linked (rules) include the following.
Note that the classification module 217 may use the same rule as a common rule when the same rule appears multiple times in one table, or may use the same rule as a common rule when the same rule appears multiple times for all materials having multiple tables. Often, it can be both.

(1)例えば、ある配列における文字列の属性が、順に「文字」、「数字」、「文字」、「数字」となった場合、最初の「文字」、「数字」を1つの組み合わせとして紐づけし、続く「文字」,「数字」を1つの組み合わせとして紐づける。
(2)例えば、ある配列における文字列の属性が、順に「文字」、「数字」、「数字」、「文字」、「数字」となった場合、最初の「文字」、「数字」、「数字」を1つの組み合わせとして紐づけし、続く「文字」,「数字」を1つの組み合わせとして紐づける。
(3)例えば、ある配列における文字列の属性が、順に「文字」、「数字」、「数字」、「数字」となった場合、「文字」を項目とし、続く3つの「数字」を値として当該項目に紐づける。
(1) For example, if the attributes of character strings in a certain array are "letter", "number", "letter", and "number" in order, the first "letter" and "number" are stringed as one combination. and link the following "letters" and "numbers" as a single combination.
(2) For example, if the attributes of character strings in a certain array are "letter", "number", "number", "letter", and "number" in order, then the first "letter", "number", ""Numbers" are linked as one combination, and the following "letters" and "numbers" are linked as one combination.
(3) For example, if the attributes of character strings in a certain array are "letter", "number", "number", and "number" in order, "letter" is the item, and the following three "numbers" are the values. Assigned to the item in question.

分類モジュール217は、このような処理によって、枠部の内部の文字列を項目と値に簡便に分類し、紐づけることができる。文字列は、これに限定されるものではないが、例えば、キー・バリュー形式で紐づけることができる。これにより、例えば大量の資料から情報を読み取る場合でも、予めスキーマを定義する必要なく、情報を記憶することができる。
また例えば、分類モジュール217は、項目や項目の階層構造を特定した後、その項目の近傍に存在する値を特定し、紐付けることができる。例えば、項目の階層構造と同じ階層構造を持つ値を、それぞれの項目と対応付けることができる。また、項目のすぐ右に存在する文字列を値として対応付けることができる。また、項目と値の構造が上下の位置関係に存在する場合には、項目のすぐ下に存在する文字列を値として対応付けることができる。
Through such processing, the classification module 217 can easily classify the character strings inside the frame into items and values and link them. Although the character strings are not limited to this, for example, they can be linked in a key-value format. As a result, even when reading information from a large amount of materials, for example, the information can be stored without having to define a schema in advance.
For example, after identifying an item or a hierarchical structure of items, the classification module 217 can identify and link values that exist near the item. For example, values having the same hierarchical structure as the item's hierarchical structure can be associated with each item. Additionally, a character string that exists immediately to the right of an item can be associated as a value. Furthermore, when the structure of items and values exists in a vertical positional relationship, the character string that exists immediately below the item can be associated as a value.

図18は、読取情報1800の例である。
分類モジュール217は、読取情報1800を、例えばJSON形式のファイルに出力(記億)する(S770)。分類モジュール217は、読取情報1800を、キー・バリュー型の構造化された項目と値として出力(記億)する。しかしながら、読取情報1800のデータ構造はこの例に限定されない。読取情報1800は、例えば、キー・バリュー型以外であってよく、例えば、ソート済みカラム指向型、ドキュメント指向型、グラフ志向型等に代表される非リレーショナル型、階層型、ネットワーク型などであってよい。
FIG. 18 is an example of read information 1800.
The classification module 217 outputs (records) the read information 1800 to, for example, a JSON format file (S770). The classification module 217 outputs (stores) the read information 1800 as key-value structured items and values. However, the data structure of read information 1800 is not limited to this example. The read information 1800 may be of a type other than the key-value type, for example, a non-relational type represented by a sorted column-oriented type, a document-oriented type, a graph-oriented type, etc., a hierarchical type, a network type, etc. good.

図19は、読取結果表示画面1900の例である。
ユーザ端末管理モジュール211は、例えば、ユーザ端末102のユーザ実行モジュール311と連携し、ユーザ端末102のディスプレイ(出力装置305の一例)に、読取結果表示画面1900を出力(表示)する。
FIG. 19 is an example of a reading result display screen 1900.
The user terminal management module 211 cooperates with the user execution module 311 of the user terminal 102, for example, and outputs (displays) the reading result display screen 1900 on the display of the user terminal 102 (an example of the output device 305).

ユーザ端末管理モジュール211は、読取結果表示画面1900において、オリジナルイメージデータ221に基づくイメージ1901と、処理後イメージデータ222に基づくイメージ1902(枠部の認識結果)と、を上下または左右に並べて表示する。これにより、管理サーバ101による資料の読み取りが適切に行われたかどうかを容易に比較して確認することができる。なお、イメージ1902では、枠部の認識結果を表示していることを明確にするために、文字列の表示を省略している。 The user terminal management module 211 displays an image 1901 based on the original image data 221 and an image 1902 (frame recognition result) based on the processed image data 222 side by side vertically or horizontally on the reading result display screen 1900. . This makes it possible to easily compare and confirm whether the management server 101 has properly read the material. Note that in the image 1902, the display of character strings is omitted to make it clear that the recognition result of the frame is displayed.

ユーザ端末管理モジュール211は、読取結果表示画面1900において、例えば、スライドバーアイコン1903、前頁ボタン1904、次頁ボタン1905、およびモード切替ボタン1906を表示する。前頁ボタン1904および次頁ボタン1905はそれぞれ、複数の資料について情報を読み取っている場合に、一つ前の資料についての読取結果を表示させたり、次の資料についての読取結果を表示させたりする、ページ送り用のボタンである。 The user terminal management module 211 displays, for example, a slide bar icon 1903, a previous page button 1904, a next page button 1905, and a mode switching button 1906 on the reading result display screen 1900. Previous page button 1904 and next page button 1905 are used to display the reading results for the previous material and the next material, respectively, when information is being read for multiple materials. , is a button for turning the page.

ユーザ端末管理モジュール211は、読取結果表示画面1900に、目的の資料読取結果を表示するページに飛ぶ移動ボタン等を表示してもよい。モード切替ボタン1906は、例えば、認識結果のイメージ1902に補正が必要な場合に、補正モードに移行するためのボタンであり、また、補正モードにおいて補正を終えた場合に、補正内容を確定して通常モード(確認モード)に復帰するためのボタンである。スライドバーアイコン1903は、例えば、補正モードにおいて、認識結果等に様々な補正を加えるために使用するUIである。 The user terminal management module 211 may display, on the reading result display screen 1900, a move button or the like that jumps to a page displaying the target material reading result. The mode switching button 1906 is a button for switching to the correction mode, for example, when the recognition result image 1902 requires correction, and is also a button for confirming the correction contents when the correction is completed in the correction mode. This button is used to return to normal mode (confirmation mode). The slide bar icon 1903 is, for example, a UI used in correction mode to make various corrections to recognition results and the like.

図20(A)~(C)は、枠部の認識結果2000の他の例である。
認識結果(A)は、文字認識機能によって文字列を高精度に読み取っていることから、罫線と交点とに基づいて枠部を認識するとき、文字(ここでは漢字「部」「固」「合」)の一部を枠部として誤認識している。認識結果(B)は、認識結果(A)ほどではないものの、なお文字(ここでは漢字「合」)の一部を枠部として誤認識している。認識結果(C)は、文字の一部を枠部として認識してはいないものの、代わりに、複数の枠部として認識すべきところを一つの枠部として過度に大きく認識している個所がある。
FIGS. 20A to 20C are other examples of frame recognition results 2000.
Recognition result (A) shows that character strings are read with high precision using the character recognition function, so when recognizing frames based on ruled lines and intersections, the characters (in this case, the kanji ``bu'', ``koku'', and ``go'') are recognized. ”) is mistakenly recognized as a frame. Although the recognition result (B) is not as good as the recognition result (A), it still erroneously recognizes a part of the character (in this case, the kanji "go") as a frame. Recognition result (C) shows that part of the character is not recognized as a frame, but instead there are parts that should be recognized as multiple frames but are recognized as one frame in an excessively large size. .

このような枠部の認識不良を低減するために、枠選択モジュール215は、枠認識モジュール213によって認識された複数の枠部のうち、所定の枠設定条件を満たすものを選択する。そしてユーザ端末管理モジュール211は、選択された前記複数の枠部に関する情報を出力するように構成されている。 In order to reduce such poor frame recognition, the frame selection module 215 selects one of the plurality of frames recognized by the frame recognition module 213 that satisfies predetermined frame setting conditions. The user terminal management module 211 is configured to output information regarding the plurality of selected frames.

(補正方法1)
図9は、枠補正フロー900の例である。
枠補正フロー900において、枠選択モジュール215は、まず、認識されたそれぞれの枠部について、枠部の情報を取得する(S910)。枠部の情報としては、例えば、座標、および寸法に関する情報等が挙げられる。座標は、例えば、枠部の左上の頂点(第1交点P1に相当)の座標を代表座標としてもよい。
(Correction method 1)
FIG. 9 is an example of a frame correction flow 900.
In the frame correction flow 900, the frame selection module 215 first obtains frame information for each recognized frame (S910). Examples of the information on the frame include information regarding coordinates and dimensions. The coordinates may be, for example, the coordinates of the upper left vertex of the frame (corresponding to the first intersection P1) as the representative coordinates.

次いで、枠選択モジュール215は、枠設定条件を取得する(S920)。枠設定条件としては、例えば、枠部の大きさを示す指標(例えば、面積、辺の寸法)に下限の閾値を設けること等が挙げられる。閾値は、例えば、枠部の大きさが、文字列における「一文字」よりも大きくなるように適宜設定することができる。閾値は、その他に、例えば、イメージの全体寸法(すなわち用紙の大きさに相当)に対する枠部の大きさの割合等として設定してもよい。 Next, the frame selection module 215 acquires frame setting conditions (S920). Examples of frame setting conditions include setting a lower threshold for an index (eg, area, side dimension) indicating the size of the frame. The threshold value can be appropriately set, for example, so that the size of the frame is larger than "one character" in the character string. In addition, the threshold value may be set, for example, as a ratio of the size of the frame to the overall size of the image (that is, equivalent to the size of the paper).

そして、枠選択モジュール215は、認識された複数の枠部のうち、枠設定条件を満たす枠部を選択し、例えば、選択された枠部に関する情報を、補助記憶装置202出力(記憶)する。これにより、後工程で、枠選択モジュール215によって選択された枠部に基づいて、文字列の認識を行うことができる。その結果、資料の情報を、適切かつ高精度に読み取ることができる。また、ユーザ端末管理モジュール211は、例えば、読取結果表示画面1900において、枠選択モジュール215によって選択された枠設定条件を満たす枠部のみを表示することができる。 Then, the frame selection module 215 selects a frame that satisfies the frame setting conditions from among the plurality of recognized frames, and outputs (stores) information regarding the selected frame to the auxiliary storage device 202, for example. Thereby, character strings can be recognized in a subsequent process based on the frame selected by the frame selection module 215. As a result, information on the material can be read appropriately and with high precision. Further, the user terminal management module 211 can display, for example, only the frames that satisfy the frame setting conditions selected by the frame selection module 215 on the reading result display screen 1900.

(補正方法2)
図13は、枠補正フロー1300の他の例である。
枠選択モジュール215は、枠補正フロー1300にしたがって適切な枠部を選択するようにしてもよい。具体的には、枠選択モジュール215は、枠認識モジュール213によって認識された枠部についての情報と、枠設定条件と、を取得する(S1310,S1320)。ここで、枠設定条件は、枠部の大きさを示す指標(例えば、面積)の下限の閾値であると仮定する。枠選択モジュール215は、認識されたそれぞれの枠部の情報に基づいて、認識された枠部の面積が、枠設定条件における面積の下限の閾値以上であるかどうか(つまり、枠設定条件を満たすかどうか)を判断する(S1330)。
(Correction method 2)
FIG. 13 is another example of the frame correction flow 1300.
The frame selection module 215 may select an appropriate frame according to the frame correction flow 1300. Specifically, the frame selection module 215 acquires information about the frame recognized by the frame recognition module 213 and frame setting conditions (S1310, S1320). Here, it is assumed that the frame setting condition is a lower limit threshold of an index (for example, area) indicating the size of the frame portion. The frame selection module 215 determines whether the area of the recognized frame is equal to or greater than the lower limit threshold of the area in the frame setting conditions (that is, whether the frame setting conditions are satisfied) based on the information of each recognized frame. (S1330).

そして、認識された枠部の面積が、枠設定条件における面積の下限閾値よりも小さい場合に(S1330でNo)、枠選択モジュール215は、当該認識された枠部についての情報を削除する(S1340)。一方で、認識された枠部の面積が、枠設定条件における面積の下限閾値以上の場合(S1330でYes)、枠選択モジュール215は、当該認識された枠部についての情報をそのまま出力(記憶)する(S1350)。 Then, if the area of the recognized frame is smaller than the lower limit threshold of area in the frame setting conditions (No in S1330), the frame selection module 215 deletes information about the recognized frame (S1340). ). On the other hand, if the area of the recognized frame is equal to or greater than the lower limit threshold of the area in the frame setting conditions (Yes in S1330), the frame selection module 215 outputs (memorizes) information about the recognized frame as is. (S1350).

枠選択モジュール215は、枠部についての情報を削除したとき(S1340)、枠認識モジュール213に対して、当該枠部に対応する罫線および交点(例えば、第1交点P1)に基づいて、枠部を認識しなおすように、指示する構成を備えていてもよい。
枠選択モジュール215は、枠補正フロー1300による枠部の選択を、例えば、枠認識モジュール213がすべての枠部を認識し終わってから実行してもよいし、枠認識モジュール213が枠部を認識するのに合わせて逐次実行してもよい。
このような構成によっても、資料の情報を、適切かつ高精度に読み取ることができる。
When the frame selection module 215 deletes the information about the frame (S1340), the frame selection module 215 asks the frame recognition module 213 to select the frame based on the ruled line and the intersection (for example, the first intersection P1) corresponding to the frame. The computer may also include a configuration that instructs the user to re-recognize the information.
The frame selection module 215 may select a frame according to the frame correction flow 1300, for example, after the frame recognition module 213 has recognized all frames, or after the frame recognition module 213 has recognized a frame. It may be executed sequentially as needed.
With such a configuration as well, the information on the material can be read appropriately and with high precision.

(補正方法3)
枠補正モジュール214は、枠設定条件の変更を受け付ける構成を備えている。枠設定条件の変更指示は、管理サーバ101に直接入力されてもよいし、ユーザ端末102を介して管理サーバ101に入力されてもよい。
(Correction method 3)
The frame correction module 214 is configured to accept changes in frame setting conditions. The instruction to change the frame setting conditions may be input directly to the management server 101 or may be input to the management server 101 via the user terminal 102.

(補正方法3-1)
図21は、枠補正画面2100の例である。
枠補正モジュール214は、例えば、ユーザ枠補正モジュール312と連携し、ユーザがユーザ端末102に入力した枠設定条件の変更指示を受け付ける構成を備えている。例えば、読取結果表示画面1900において表示された読取結果において誤認識された枠部が表示されている場合などに、枠補正モジュール214は、例えば、ユーザ端末102からの補正モード移行指示(例えば、モード切替ボタン1906の選択)を受け付け、ユーザ端末102のディスプレイ(出力装置305の一例)に枠補正画面2100を出力(表示)する。
(Correction method 3-1)
FIG. 21 is an example of a frame correction screen 2100.
The frame correction module 214 is configured to cooperate with the user frame correction module 312, for example, and receive an instruction to change the frame setting conditions input by the user into the user terminal 102. For example, when a frame portion that has been misrecognized is displayed in the reading result displayed on the reading result display screen 1900, the frame correction module 214 receives a correction mode transition instruction from the user terminal 102 (for example, a mode The frame correction screen 2100 is output (displayed) on the display of the user terminal 102 (an example of the output device 305).

そして枠補正モジュール214は、枠補正画面2100において、ユーザ操作に基づいて枠補正画面2100がクリック(選択)された場合に、現在の枠設定条件における閾値の大きさに対応する図形2101(ここでは、中心点を有した円)を枠補正画面2100上に表示する。枠補正モジュール214は、ユーザ操作に基づいて枠補正画面2100がクリック&ドラッグされた場合に、ドラッグ幅に応じて図形の大きさを(ここでは、円の半径)変更する。 Then, when the frame correction screen 2100 is clicked (selected) on the frame correction screen 2100 based on a user operation, the frame correction module 214 creates a graphic 2101 (here, , a circle with a center point) is displayed on the frame correction screen 2100. When the frame correction screen 2100 is clicked and dragged based on a user operation, the frame correction module 214 changes the size of the figure (here, the radius of the circle) according to the drag width.

枠補正モジュール214はさらに、ドラッグ幅に応じて枠設定条件における閾値の大きさを変更する。枠選択モジュール215は、変更された枠設定条件に基づいて、枠設定条件を満たす枠部を選択し、ユーザ端末管理モジュール211は、選択された枠部のみをユーザ端末102のディスプレイに表示する。変更された枠設定条件に基づく選択された枠部の表示は、枠設定条件の変更とともに、リアルタイムで反映されるようになっている。ドラッグ操作はカーソルを連続的に移動させるため、閾値を連続的に変化させることができる。ユーザは、カーソルを連続的に移動させながら、最適な閾値に変更させたところでクリックを開放して、閾値の値(ひいては枠部の認識結果)を確定することができる。 The frame correction module 214 further changes the size of the threshold value in the frame setting condition according to the drag width. The frame selection module 215 selects a frame portion that satisfies the frame setting condition based on the changed frame setting condition, and the user terminal management module 211 displays only the selected frame portion on the display of the user terminal 102. The display of the selected frame based on the changed frame setting conditions is reflected in real time together with the change in the frame setting conditions. Since the drag operation continuously moves the cursor, the threshold value can be changed continuously. The user can confirm the threshold value (and thus the recognition result of the frame) by continuously moving the cursor and releasing the click when the threshold value is changed to the optimum value.

枠補正モジュール214は、認識されているすべての枠部について枠設定条件を変更するように構成されていてもよいし、予め選択した1または複数の枠部について、枠設定条件を変更するように構成されていてもよい。1または複数の枠部についてのみ枠設定条件を変更する場合、枠補正モジュール214は、ユーザ端末102を介して、枠補正画面2100に表示された複数の枠部の中から枠設定条件を変更する枠部の選択指示を予め受け付ける。その後、枠補正モジュール214は、上記の手順にしたがい、ドラッグ幅に応じて、図形の大きさと枠設定条件とを変更する。 The frame correction module 214 may be configured to change frame setting conditions for all recognized frame sections, or may be configured to change frame setting conditions for one or more preselected frame sections. may be configured. When changing frame setting conditions only for one or more frames, the frame correction module 214 changes the frame setting conditions from among the plurality of frames displayed on the frame correction screen 2100 via the user terminal 102. A frame selection instruction is received in advance. Thereafter, the frame correction module 214 changes the size of the figure and the frame setting conditions according to the drag width according to the above procedure.

(補正方法3-2)
なお、閾値の大きさに対応する図形2101は円に限定されず、例えば、他の幾何学図形や、目盛り、スライドバー(スライドバーアイコン2103であり得る)、およびこれらの組み合わせなどであってよい。枠補正モジュール214は、例えば、スライドバーアイコン210の操作によって枠設定条件の変更の割合を、例えば0.1倍から10倍程度の範囲で変更する指示を受け付けるように構成されていてもよい。
(Correction method 3-2)
Note that the figure 2101 corresponding to the size of the threshold value is not limited to a circle, and may be, for example, another geometric figure, a scale, a slide bar (which may be the slide bar icon 2103), or a combination thereof. . The frame correction module 214 may be configured to accept, for example, an instruction to change the rate of change of the frame setting conditions in a range of about 0.1 to 10 times by operating the slide bar icon 210, for example.

また、(補正方法3-1)で示した円の半径による補正と、スライドバーアイコン2103による補正と、を組み合わせてもよい。例えば、枠補正モジュール214は、ドラッグ幅に応じて枠設定条件における閾値の大きさを変更することに代えて、スライドバーアイコン2103のスライド操作によって閾値の大きさを変更するように構成されていてもよい。この場合、ユーザはカーソルをクリックしたのちに連続して(ホールド状態で)ドラッグさせる必要がない。 Furthermore, the correction using the radius of the circle shown in (correction method 3-1) and the correction using the slide bar icon 2103 may be combined. For example, instead of changing the size of the threshold in the frame setting condition according to the drag width, the frame correction module 214 is configured to change the size of the threshold by sliding the slide bar icon 2103. Good too. In this case, the user does not need to click and drag the cursor continuously (while holding the cursor).

(補正方法3-3)
また、枠補正モジュール214は、例えば、枠補正画面2100に、1又は複数のスライドバーアイコン2103を表示し、このスライドバーアイコン2103の操作による補正指示を受け付ける構成を備えていてもよい。枠補正モジュール214は、例えば、枠補正画面2100に、機能の異なる4つのスライドバーアイコン2103を表示している。
(Correction method 3-3)
Further, the frame correction module 214 may be configured to display one or more slide bar icons 2103 on the frame correction screen 2100 and to receive correction instructions by operating the slide bar icons 2103, for example. For example, the frame correction module 214 displays four slide bar icons 2103 with different functions on the frame correction screen 2100.

補正指示の内容はこれに限定されるものではないが、上から1つ目のスライドバーアイコン2103は、例えば、除去するノイズの上限の大きさの変更を受け付けることができる構成となっている。上から2つ目のスライドバーアイコン2103は、例えば、後述する傾き補正における補正角度(回転角度)の変更を受け付けることができる構成となっている。上から3つ目のスライドバーアイコン2103は、例えば、資料の読取時のゆがみ(紙面の法線方向のズレに起因するゆがみ)を補正する台形補正における補正角度の変更を受け付けることができる構成となっている。上から4つ目のスライドバーアイコン2103は、例えば、二値化における閾値の変更を受け付けることができる構成となっている。 Although the content of the correction instruction is not limited to this, the first slide bar icon 2103 from the top is configured to accept, for example, a change in the upper limit size of the noise to be removed. The second slide bar icon 2103 from the top is configured to accept, for example, a change in the correction angle (rotation angle) in tilt correction, which will be described later. The third slide bar icon 2103 from the top has a configuration that can accept, for example, a change in the correction angle in keystone correction that corrects distortion when reading materials (distortion caused by deviation in the normal direction of the paper surface). It has become. The fourth slide bar icon 2103 from the top is configured to be able to accept changes in the threshold value in binarization, for example.

(補正方法3-4)
また、枠補正モジュール214は、罫線編集機能を備えていてもよい。罫線編集機能は、例えば、罫線追加、罫線削除、罫線変形等の機能を備えている。枠補正モジュール214は、罫線編集機能によって、枠補正画面2100の任意の位置に罫線を追加したり、任意の罫線を削除したり、任意の枠部を変形したり、することができる構成を備えている。
(Correction method 3-4)
Furthermore, the frame correction module 214 may include a ruled line editing function. The ruled line editing function includes, for example, functions such as adding ruled lines, deleting ruled lines, and transforming ruled lines. The frame correction module 214 has a configuration that allows a ruled line to be added to an arbitrary position on the frame correction screen 2100, an arbitrary ruled line to be deleted, and an arbitrary frame to be transformed using a ruled line editing function. ing.

枠補正モジュール214は、例えば、罫線追加モードが選択された状態で、枠補正画面2100上でクリック操作がなされた場合、枠補正画面2100に罫線を追加する。枠補正モジュール214は、例えば、罫線変形モードが選択された状態で、ポインティングデバイス等による操作を受け付けることによって、罫線の位置や、罫線の一端または他端の位置を、それぞれ独立して変更できるように構成されている。 For example, when a click operation is performed on the frame correction screen 2100 with the ruled line addition mode selected, the frame correction module 214 adds a ruled line to the frame correction screen 2100. For example, the frame correction module 214 can change the position of a ruled line and the position of one end or the other end of the ruled line independently by accepting an operation using a pointing device or the like while the ruled line deformation mode is selected. It is composed of

枠補正モジュール214は、例えば、罫線削除モードが選択された状態で、ポインティングデバイス等による操作で罫線が選択された場合、当該罫線を削除できるように構成されている。これにより、例えば、図20の認識結果(C)における、過度に大きく認識されている枠部について、罫線を追加することで二つに分割することができる。枠補正モジュール214は、罫線編集機能による罫線の補正処理にしたがって、枠部に関する情報を変更する。 The frame correction module 214 is configured to be able to delete a ruled line, for example, when the ruled line is selected by an operation using a pointing device or the like while the ruled line deletion mode is selected. Thereby, for example, in the recognition result (C) of FIG. 20, the frame portion that is recognized as being excessively large can be divided into two by adding a ruled line. The frame correction module 214 changes information regarding the frame according to the ruled line correction processing performed by the ruled line editing function.

(補正方法3-5)
また、枠補正モジュール214は、例えば、枠補正画面2100に、認識結果(A)~(C)のような、枠設定条件の閾値の異なる複数通り(典型的には、2~6通りであり、例えば3通り)の認識結果を同時に並べて表示するように構成されていてもよい。この場合、枠補正モジュール214は、枠設定条件の閾値として、適正よりもやや小さめの閾値と、適正よりもやや大きめの閾値と、が含まれるように閾値を決定することができる。そして、表示された複数の認識結果に適切なものが含まれていれば、当該適切な認識結果を選択することで、枠補正モジュール214は、枠設定条件の閾値を選択された認識結果に対応する閾値に変更するようにしてもよい。
(Correction method 3-5)
In addition, the frame correction module 214 displays, for example, a plurality of different thresholds (typically 2 to 6 types) of frame setting conditions, such as recognition results (A) to (C), on the frame correction screen 2100. , for example, three types of recognition results may be displayed side by side at the same time. In this case, the frame correction module 214 can determine the threshold values for the frame setting condition so that the threshold values include a threshold value that is slightly smaller than the appropriate value and a threshold value that is slightly larger than the appropriate value. Then, if an appropriate recognition result is included in the displayed plurality of recognition results, by selecting the appropriate recognition result, the frame correction module 214 adjusts the threshold value of the frame setting condition to the selected recognition result. The threshold value may be changed to

表示された複数の認識結果に適切なものが含まれていない場合は、いずれか二つの認識結果(例えば、認識結果(A)と(B)と仮定する。)に対応する閾値の間に、適切な認識結果を生成する閾値が含まれることになる。このような場合、ユーザは、認識結果(A)および(B)のいずれか一方を選択し、他方に向けてドラッグする。すると、枠補正モジュール214は、ドラッグされている一方の認識結果の閾値を、他方の認識結果の閾値に近づくように、ドラッグ幅に応じて閾値を変化させるとともに、一方の認識結果における枠部の形状を当該閾値に合わせて変更する。これにより、ユーザは、一方の認識結果をドラッグするという簡単な操作によって、枠設定条件を直感的に適切に内容に補正することができる。 If the displayed recognition results do not include a suitable one, between the thresholds corresponding to any two recognition results (for example, recognition results (A) and (B)), A threshold will be included that will produce an appropriate recognition result. In such a case, the user selects one of the recognition results (A) and (B) and drags it toward the other. Then, the frame correction module 214 changes the threshold value of the one recognition result being dragged in accordance with the drag width so that it approaches the threshold value of the other recognition result, and also changes the threshold value of the frame part in one recognition result. The shape is changed according to the threshold value. Thereby, the user can intuitively and appropriately correct the frame setting conditions by a simple operation of dragging one of the recognition results.

なお、枠補正モジュール214は、枠補正画面2100に、スライドバーアイコン2103と確定用アイコン2106とを表示している。そして、枠補正モジュール214は、一方の認識結果が選択されたときに、当該一方の認識結果をドラッグすることで閾値を変更することに代えて、スライドバーを移動させることによって移動幅に応じて閾値を変更する構成としてもよい。また、枠補正モジュール214は、閾値を変更せずに、または変更した後に、確定用アイコン2106が選択されることにより、当該閾値を確定させる構成としてもよい。 Note that the frame correction module 214 displays a slide bar icon 2103 and a confirmation icon 2106 on the frame correction screen 2100. Then, when one recognition result is selected, the frame correction module 214 changes the threshold value by moving the slide bar according to the movement width, instead of changing the threshold by dragging the one recognition result. A configuration may be adopted in which the threshold value is changed. Furthermore, the frame correction module 214 may be configured to finalize the threshold value by selecting the confirmation icon 2106 without changing the threshold value or after changing the threshold value.

すなわち、枠補正モジュール214は、現在の前記枠設定条件における閾値の大きさに対応する図形を前記画面に表示するとともに、操作入力に応じて前記閾値の大きさを変更し、変更された前記閾値の大きさに対応して前記図形の位置、大きさ、形状の少なくとも1つを変更することができる。
以上のような構成によると、ユーザは、枠設定条件の閾値の大きさを簡便に変更することができるとともに、変更の度合いを直感的に把握することができる。また、枠設定条件の変更の度合いをリアルタイムで視認しながら調整することができる。
That is, the frame correction module 214 displays, on the screen, a figure corresponding to the size of the threshold value under the current frame setting conditions, and also changes the size of the threshold value according to the operation input, and adjusts the size of the threshold value to the changed threshold value. At least one of the position, size, and shape of the figure can be changed in accordance with the size of the figure.
According to the above configuration, the user can easily change the size of the threshold value of the frame setting condition, and can intuitively understand the degree of change. Furthermore, the degree of change in frame setting conditions can be adjusted while visually checking in real time.

なお、枠補正モジュール214は、枠補正画面2100の下方において、確定用アイコン2106の他に、左向きの三角アイコン2104と、右向きの三角アイコン2105と、を表示している。枠補正モジュール214は、枠補正画面2100におけるこれらのアイコンを、ページ移動用のボタンではなく、例えば、補正操作の取り消し用のアイコン2104、および、補正操作の繰り返し用のアイコン2105、として機能させることができる。 Note that the frame correction module 214 displays, in addition to the confirmation icon 2106, a leftward triangular icon 2104 and a rightward triangular icon 2105 at the bottom of the frame correction screen 2100. The frame correction module 214 allows these icons on the frame correction screen 2100 to function as, for example, an icon 2104 for canceling a correction operation and an icon 2105 for repeating a correction operation, rather than buttons for moving pages. I can do it.

ユーザ端末102において左向きの三角アイコン2104が選択されることで、枠補正モジュール214は、ユーザによる枠設定条件の変更操作を1工程分だけ元に戻すように構成されている。ユーザ端末102において右左向きの三角アイコン2105が選択されることで、例えば、枠補正モジュール214は、ユーザによって戻された枠設定条件の変更操作を1工程分だけ進めるように構成されている。ユーザ端末102において確定用アイコン2106が選択されることで、枠補正モジュール214は、ユーザによって変更された枠設定条件の変更操作を確定するように構成されている。 When the left-pointing triangular icon 2104 is selected on the user terminal 102, the frame correction module 214 is configured to undo the user's frame setting condition changing operation by one step. By selecting the right-left triangular icon 2105 on the user terminal 102, for example, the frame correction module 214 is configured to advance the frame setting condition changing operation returned by the user by one step. When the confirmation icon 2106 is selected on the user terminal 102, the frame correction module 214 is configured to confirm the frame setting condition changing operation changed by the user.

図22は、アノテーション確認画面2200の例である。
ユーザ端末管理モジュール211は、例えば、文字列にアノテーションの付与を行った場合に、ユーザ端末102のユーザ実行モジュール311と連携し、ユーザ端末102のディスプレイ(出力装置305の一例)に、アノテーション確認画面2200を出力(表示)する。
ユーザ端末管理モジュール211は、アノテーション確認画面2200において、オリジナルイメージデータ221に基づくイメージ2201と、アノテーション認識結果を反映した処理後イメージデータ222に基づくイメージ2202と、を上下または左右に並べて表示する。これにより、管理サーバ101による資料の読み取りが適切に行われたかどうかを容易に比較して確認することができる。
FIG. 22 is an example of an annotation confirmation screen 2200.
For example, when an annotation is added to a character string, the user terminal management module 211 cooperates with the user execution module 311 of the user terminal 102 to display an annotation confirmation screen on the display of the user terminal 102 (an example of the output device 305). Output (display) 2200.
On the annotation confirmation screen 2200, the user terminal management module 211 displays an image 2201 based on the original image data 221 and an image 2202 based on the processed image data 222 reflecting the annotation recognition results side by side vertically or horizontally. This makes it possible to easily compare and confirm whether the management server 101 has properly read the material.

図23は、アノテーション確認画面2300の他の例である。紙ベースの資料を読取装置で読み取る際に、紙の姿勢が傾いたまま読み取りが行われると、オリジナルイメージデータ221における文字列自体が傾き、処理後イメージデータ222に基づくイメージ2302の領域に対してアノテーションの認識結果も傾くこととなる。このとき、文字列に対して作成するアノテーションの角度にも、ばらつきが生じやすい。このような場合、例えばAIでは、いずれのアノテーションが水平または垂直となるように回転補正を行えばよいのか、判断を誤る事態が生じやすい。 FIG. 23 is another example of the annotation confirmation screen 2300. When reading paper-based materials with a reading device, if the reading is performed while the paper is tilted, the character string itself in the original image data 221 will be tilted, and the character string itself will be tilted relative to the area of the image 2302 based on the processed image data 222. The recognition result of the annotation will also be tilted. At this time, variations tend to occur in the angles of annotations created for character strings. In such a case, for example, with AI, it is easy to misjudge which annotation should be rotated to be horizontal or vertical.

枠補正モジュール214は、寸法の大きい(すなわち長い)複数(例えば2~3個)のアノテーションについて、水平線または垂直線と、アノテーションの傾斜角度に沿う線と、からなる角度アイコン2303をアノテーション確認画面2300上に表示する。また、枠補正モジュール214は、アノテーション確認画面2300においてカーソルが角度アイコン2303に近接または重畳すると、傾斜したアノテーションを水平または垂直に「修正」(回転補正)するか、「無視」するか、を選択可能な選択アイコン2304をアノテーション確認画面2300上に表示する。枠補正モジュール214は、「無視」が選択されると補正を行わない。枠補正モジュール214は、「修正」が選択されると、処理後イメージデータ222に対して角度アイコン2303がなす角度だけ(すなわち、アノテーションが水平または垂直となるように)回転補正を施す。 The frame correction module 214 displays an angle icon 2303 consisting of a horizontal line or a vertical line and a line along the inclination angle of the annotation on the annotation confirmation screen 2300 for a plurality of large (that is, long) annotations (for example, 2 to 3 annotations). Display above. Furthermore, when the cursor approaches or overlaps the angle icon 2303 on the annotation confirmation screen 2300, the frame correction module 214 selects whether to "correct" the tilted annotation horizontally or vertically (rotation correction) or to "ignore" it. Possible selection icons 2304 are displayed on the annotation confirmation screen 2300. The frame correction module 214 does not perform correction when "ignore" is selected. When “correct” is selected, the frame correction module 214 performs rotation correction on the processed image data 222 by the angle formed by the angle icon 2303 (that is, so that the annotation is horizontal or vertical).

なお、回転補正後の処理後イメージデータ222に基づくイメージにおいて、所定の角度以上傾いているアノテーションについては、それぞれ、水平線または垂直線と、アノテーションの傾斜角度に沿う線と、からなる角度アイコン2303および選択アイコン2304が表示されるようになっている。枠補正モジュール214は、選択アイコン2304を表示させたアノテーションのそれぞれについて、「無視」が選択されると補正を行わず、「修正」が選択されると回転補正を施す。これにより、枠部ごとに文字列認識を行う前に文字列の傾斜を補正するすることができ、文字列の認識精度を高めることができる。なお、回転補正の角度は、角度アイコン2303によって定められたものに限定されず、枠補正モジュール214は、上記のように、スライドバーアイコンなどによって調整された角度で回転補正する構成とされていてもよい。 In addition, for an annotation that is tilted by a predetermined angle or more in an image based on the processed image data 222 after rotation correction, an angle icon 2303 consisting of a horizontal line or a vertical line and a line along the tilt angle of the annotation is displayed. A selection icon 2304 is now displayed. The frame correction module 214 performs no correction for each annotation for which the selection icon 2304 is displayed when "ignore" is selected, and performs rotation correction when "correct" is selected. As a result, the inclination of the character string can be corrected before character string recognition is performed for each frame, and the accuracy of character string recognition can be improved. Note that the rotation correction angle is not limited to that determined by the angle icon 2303, and the frame correction module 214 is configured to perform rotation correction at an angle adjusted by the slide bar icon, etc., as described above. Good too.

図24は、アノテーション確認画面2400の他の例である。
枠認識モジュール213は、アノテーションの作成に際し、図24に示すように、予め定められた特定文字2403については、アノテーションを付与しないように構成されていてもよい。例えば、枠認識モジュール213は、アノテーションを作成する際の文字列の認識において、事前に登録された特定文字を検出した場合に、特定文字をアイコンとして認識し、文字列の残りの部分にアノテーションを作成する。特定文字は、(分類方法2)で説明したものと同じとすることができる。これにより、文字列認識モジュール216は、例えば特定文字に対して文字認識を行わない。その結果、当該文字列において、特定文字と項目とが一体となって一つの意味のある単語を形成していると誤まって認識されることを抑制することができる。
FIG. 24 is another example of the annotation confirmation screen 2400.
When creating an annotation, the frame recognition module 213 may be configured not to annotate a predetermined specific character 2403, as shown in FIG. 24. For example, when recognizing a character string when creating an annotation, if the frame recognition module 213 detects a specific character registered in advance, the frame recognition module 213 recognizes the specific character as an icon and annotates the remaining part of the character string. create. The specific characters can be the same as those described in (Classification method 2). As a result, the character string recognition module 216 does not perform character recognition on, for example, a specific character. As a result, in the character string, it is possible to prevent the specific characters and the item from being erroneously recognized as forming one meaningful word together.

図25は、アノテーション確認画面2500の他の例である。
文字列のうち、特定文字の部分を高精度に抽出する処理は比較的困難となり得る。例えば図25のアノテーション2503に示すように、特定文字を検出できずに、特定文字を含む文字列の全体にアノテーションを作成することがあり得る。また、特定文字のうちでも、面積の小さい中点2504等はノイズとして認識されない可能性があり得る。
FIG. 25 is another example of the annotation confirmation screen 2500.
The process of extracting specific characters from a character string with high precision can be relatively difficult. For example, as shown in annotation 2503 in FIG. 25, there is a possibility that a specific character cannot be detected and an annotation is created for the entire character string including the specific character. Furthermore, among the specific characters, there is a possibility that midpoints 2504 and the like having a small area may not be recognized as noise.

ユーザは、このような誤認識を見つけた場合、例えば、アノテーション確認画面2500における当該誤認識の箇所をダブルクリックすることで、当該箇所の再認識の指示をすることができる。枠認識モジュール213は、ユーザ端末102からの指示(ここでは、例えば、ダブルクリック)を受けて、当該箇所(文字列であってよい)について特定文字の有無を再認識するとともにアノテーションを作成しなおす。このとき、枠認識モジュール213は、例えば、アノテーション確認画面2500に特定文字選択ボタン(不図示)を表示するなどして、強制的に特定文字を認識させることができるようにしてもよい。また、枠認識モジュール213は、アノテーション確認画面2500に1又は複数のスライドバーアイコン2505を表示し、1又は複数のスライドバーによる各種の閾値の変更によって、枠認識モジュール213が特定文字を認識しやすくなるように認識結果を変更可能にしてもよい。 When the user finds such a misrecognition, for example, by double-clicking the misrecognition location on the annotation confirmation screen 2500, the user can instruct re-recognition of the location. The frame recognition module 213 receives an instruction from the user terminal 102 (here, for example, a double click), and re-recognizes the presence or absence of a specific character in the relevant location (which may be a character string) and re-creates the annotation. . At this time, the frame recognition module 213 may display a specific character selection button (not shown) on the annotation confirmation screen 2500, for example, so that the specific character can be forcibly recognized. In addition, the frame recognition module 213 displays one or more slide bar icons 2505 on the annotation confirmation screen 2500, and changes various thresholds using the one or more slide bars to make it easier for the frame recognition module 213 to recognize specific characters. The recognition result may be changed so that the recognition result is changed.

図26は、読取結果表示画面2600の他の例である。
枠認識モジュール213は、読取結果を表示する際に、例えば図26に示すように、所定の枠部について、着色,網掛け等の加飾を施して表示するようにしてもよい。例えば、枠認識モジュール213は、上位の階層(例えば、階層1および2)の項目について、文字列の認識結果の確認を妨げないように、例えば、背景に鮮やかな色(例えば、蛍光色)で色彩を施すようにしてもよい。これにより、ユーザが読取結果表示画面2600において読取結果を確認する際に、情報の視認性を高めることができる。
FIG. 26 is another example of the reading result display screen 2600.
When displaying the reading results, the frame recognition module 213 may decorate a predetermined frame portion with coloring, shading, etc., as shown in FIG. 26, for example. For example, the frame recognition module 213 may set the background of items in a bright color (e.g., fluorescent color) so as not to interfere with confirmation of the character string recognition results for items in higher levels (e.g., hierarchies 1 and 2). It may also be colored. Thereby, when the user checks the reading result on the reading result display screen 2600, the visibility of the information can be improved.

(紐づけ方法3)
図27は、不動産情報資料2700の例である。
図28は、不動産情報資料2700についての、罫線の認識結果2800の例である。
不動産情報資料2700等において、例えば、項目欄に対して着色,網掛け等の加飾を施し、値欄については加飾を施さないフォーマットが採用されることがある。この場合、罫線の認識結果2800においても、加飾内容が反映され得る。ここで、加飾が施された枠部と、加飾が施されていない枠部と、の組み合わせが、加飾枠部および非加飾枠部が連続するように一の方向(例えば、X軸方向またはY軸方向)に2組以上並ぶ場合、分類モジュール217は、加飾枠部および非加飾枠部の組み合わせの一方が項目であり、他方が値であり、これらが互いに紐づけられていると判断することができる。
(Linking method 3)
FIG. 27 is an example of real estate information material 2700.
FIG. 28 is an example of a ruled line recognition result 2800 for the real estate information material 2700.
In real estate information materials 2700 and the like, for example, a format may be adopted in which item columns are decorated with coloring, shading, etc., and value columns are not decorated. In this case, the decoration content may also be reflected in the ruled line recognition result 2800. Here, the combination of the decorated frame part and the undecorated frame part is arranged in one direction (for example, When two or more sets are arranged in the axial direction or the Y-axis direction, the classification module 217 determines that one of the combinations of decorative frame portions and non-decorative frame portions is an item, the other is a value, and these are linked to each other. It can be determined that

具体的には、例えば、認識結果2800の左上方に示すように、加飾枠部および非加飾枠部が上下に隣接して配置された組み合わせが、左右方向に2つ以上(ここでは3つ)並んでいるとき、分類モジュール217は、それぞれの加飾枠部が項目であり、それぞれの非加飾枠部が値であり、上下に並ぶ加飾枠部および非加飾枠部が互いに紐づけられていると判断することができる。すなわち、「間取り」と「1LDK」、「賃料」と「215,000円」、「管理料等」と「15,000円」がそれぞれ紐づけられる。また、認識結果2800の右方に示すように、加飾枠部および非加飾枠部が左右に隣接して配置された組み合わせが、上下方向に2つ以上(ここでは、2つ、3つ、16個)並んでいるとき、分類モジュール217は、それぞれの加飾枠部が項目であり、それぞれの非加飾枠部が値であり、左右に並ぶ加飾枠部および非加飾枠部が互いに紐づけられていると判断することができる。すなわち、「敷金」と「215,000円」、「礼金」と「215,000円」、「物件種別」と「マンション」等のようにそれぞれ紐づけられる。なお、分類モジュール217は、加飾枠部が値であり、非加飾枠部が項目である、と判断するように構成されていてもよい。 Specifically, for example, as shown in the upper left of the recognition result 2800, there are two or more combinations (in this case, three (1) When they are lined up, the classification module 217 uses the classification module 217 to determine that each decorated frame is an item, each non-decorated frame is a value, and that the decorated and non-decorated frames that are lined up above and below each other are It can be determined that they are linked. That is, "floor plan" and "1LDK", "rent" and "215,000 yen", and "management fee, etc." and "15,000 yen" are respectively linked. Furthermore, as shown on the right side of the recognition result 2800, there are two or more combinations in the vertical direction (here, two or three , 16), the classification module 217 determines that each decorated frame is an item, each non-decorated frame is a value, and the decorated and non-decorated frames are arranged on the left and right. It can be determined that the two are linked to each other. That is, "security deposit" and "215,000 yen", "key money" and "215,000 yen", "property type" and "apartment", etc. are linked, respectively. Note that the classification module 217 may be configured to determine that the decorated frame portion is a value and the non-decorated frame portion is an item.

また、枠認識モジュール213は、読取結果を表示する際に、例えば図28に示すように、加飾が施されていた加飾枠部について、加飾を施して表示するようにしてもよい。これにより、例えば読取結果表示画面において、オリジナルイメージデータ221と、処理後イメージデータ222と、比較する際に、両者の比較が容易となる。 Furthermore, when displaying the reading results, the frame recognition module 213 may decorate and display a decorated frame portion that has been decorated, as shown in FIG. 28, for example. This makes it easy to compare the original image data 221 and the processed image data 222 on the reading result display screen, for example.

加えて、枠認識モジュール213は、読取結果を表示する際に、例えば図28に示すように、加飾が施されていた加飾枠部の他に、実施例1に記載のいずれかの方法によって項目と判断された枠部(例えば、外観、間取り図、その他、取引態様等の欄に対応する枠部)について、加飾を施して表示するようにしてもよい。これにより、例えば読取結果表示画面において、オリジナルイメージデータ221と、処理後イメージデータ222と、比較する際に、両者の比較がより一層容易となる。また、人手により、読取結果、紐づけ結果等を確認する場合には、注目すべき枠部や目印となる枠部が加飾されて表示されるため、作業者の負担が軽減される点においても好ましい。 In addition, when displaying the reading result, the frame recognition module 213 uses any of the methods described in Example 1 in addition to the decorated frame portion that has been decorated, as shown in FIG. 28, for example. A frame portion determined to be an item (for example, a frame portion corresponding to a column such as exterior appearance, floor plan, other transaction mode, etc.) may be displayed in a decorated manner. This makes it even easier to compare the original image data 221 and the processed image data 222 on the reading result display screen, for example. In addition, when checking the reading results, linking results, etc. manually, the frame parts that should be noted and the frame parts that serve as landmarks are decorated and displayed, which reduces the burden on the operator. is also preferable.

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 Note that the present invention is not limited to the above-described embodiments, and includes various modifications. For example, the embodiments described above are described in detail to explain the present invention in an easy-to-understand manner, and the present invention is not necessarily limited to having all the configurations described. Furthermore, it is possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. Further, it is possible to add, delete, or replace a part of the configuration of each embodiment with other configurations.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記録装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the above-mentioned configurations, functions, processing units, processing means, etc. may be partially or entirely realized in hardware by designing, for example, an integrated circuit. Furthermore, each of the above configurations, functions, etc. may be realized by software by a processor interpreting and executing a program for realizing each function. Information such as programs, tables, files, etc. that implement each function can be stored in a memory, a recording device such as a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, SD card, or DVD.

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には殆ど全ての構成が相互に接続されていると考えてもよい。
なお、上記の実施例は少なくとも特許請求の範囲に記載の構成を開示している。
Further, the control lines and information lines are shown to be necessary for explanation purposes, and not all control lines and information lines are necessarily shown in the product. In reality, almost all components may be considered to be interconnected.
Note that the above embodiments disclose at least the configuration described in the claims.

100…情報読取システム、101…管理サーバ、102…ユーザ端末、211…ユーザ端末管理モジュール、212…イメージ管理モジュール、213…枠認識モジュール、214…枠補正モジュール、215…枠選択モジュール、216…文字列認識モジュール、217…分類モジュール、311…ユーザ実行モジュール、312…ユーザ枠補正モジュール、400…ユーザ情報、500…辞書情報、600…貸借対照表辞書情報 DESCRIPTION OF SYMBOLS 100... Information reading system, 101... Management server, 102... User terminal, 211... User terminal management module, 212... Image management module, 213... Frame recognition module, 214... Frame correction module, 215... Frame selection module, 216... Character Column recognition module, 217...Classification module, 311...User execution module, 312...User frame correction module, 400...User information, 500...Dictionary information, 600...Balance sheet dictionary information

Claims (33)

読取対象である情報についての画像データを取得する画像管理手段と、
前記画像データにおいて、表を構成する複数の枠部を認識する枠認識手段と、
認識された前記複数の枠部に関する情報を出力する出力手段と、
を備える、情報読取システム。
an image management means for acquiring image data regarding information to be read;
frame recognition means for recognizing a plurality of frames constituting a table in the image data;
output means for outputting information regarding the plurality of recognized frames;
Information reading system equipped with.
前記枠認識手段は、第1の方向に沿うとともに隣り合う二つの罫線と、前記第1の方向に交わる第2の方向に沿うとともに隣り合う2つの罫線と、が4つの交点によって交わっている場合に、前記4つの交点の間に配される線分を前記枠部と認識する、
請求項1に記載の情報読取システム。
The frame recognition means may be arranged such that two ruled lines that are adjacent to each other along a first direction intersect with two ruled lines that are adjacent to each other along a second direction that intersects the first direction at four intersection points. Recognizing a line segment placed between the four intersection points as the frame portion,
The information reading system according to claim 1.
前記枠認識手段は、
文字列の存在する部分に対応する複数のアノテーションを生成し、
前記複数のアノテーションのそれぞれについて2次元座標表示した場合に、前記複数のアノテーションを包含し、かつ、最小X座標および最小Y座標で表される第1座標と、最大X座標および最大Y座標で表される第2座標と、を対角点とする矩形を前記枠部と認識する、
請求項1または2に記載の情報読取システム。
The frame recognition means includes:
Generate multiple annotations corresponding to existing parts of the string,
When two-dimensional coordinates are displayed for each of the plurality of annotations, a first coordinate that includes the plurality of annotations and is represented by a minimum X coordinate and a minimum Y coordinate, and a first coordinate represented by a maximum X coordinate and a maximum Y coordinate. Recognizing a rectangle whose diagonal points are the second coordinates and as the frame portion,
The information reading system according to claim 1 or 2.
前記枠認識手段は、
文字列の存在する部分に対応する複数のアノテーションを生成し、
前記複数のアノテーションを所定の大きさだけ拡大し、拡大された前記複数のアノテーションが重畳した場合は重畳したアノテーションを連結して、新たなアノテーションを生成し、連結された前記新たなアノテーションに基づいて前記枠部を認識する、
請求項1または2に記載の情報読取システム。
The frame recognition means includes:
Generate multiple annotations corresponding to existing parts of the string,
The plurality of annotations are enlarged by a predetermined size, and if the enlarged plurality of annotations overlap, the superimposed annotations are concatenated to generate a new annotation, and based on the concatenated new annotations, recognizing the frame;
The information reading system according to claim 1 or 2.
前記所定の大きさは、前記文字列における1文字の大きさに対する相対値として定められる、
請求項4に記載の情報読取システム。
The predetermined size is determined as a relative value to the size of one character in the character string,
The information reading system according to claim 4.
前記枠認識手段は、前記複数のアノテーションを、文字列が延びる第1の方向に沿う線と、前記第1の方向に交わる第2の方向に沿う線と、によって形成する、
請求項3~5のいずれか1項に記載の情報読取システム。
The frame recognition means forms the plurality of annotations by a line along a first direction in which the character string extends and a line along a second direction intersecting the first direction.
The information reading system according to any one of claims 3 to 5.
前記枠認識手段は、
前記画像データの認識対象領域に罫線が含まれる場合に、前記枠部の内部を新たな認識対象領域として前記複数のアノテーションを生成し、
前記複数のアノテーションに基づいて前記枠部を認識する、
請求項3~6のいずれか1項に記載の情報読取システム。
The frame recognition means includes:
when the recognition target area of the image data includes a ruled line, generating the plurality of annotations with the inside of the frame part as a new recognition target area;
recognizing the frame based on the plurality of annotations;
The information reading system according to any one of claims 3 to 6.
前記複数の枠部のうち、所定の枠設定条件を満たすものを選択する枠選択手段を備え、
前記出力手段は、選択された前記複数の枠部に関する情報を出力する、
請求項1~7のいずれか1項に記載の情報読取システム。
comprising frame selection means for selecting one of the plurality of frame parts that satisfies a predetermined frame setting condition;
the output means outputs information regarding the plurality of selected frames;
The information reading system according to any one of claims 1 to 7.
前記枠選択手段は、前記枠部の面積および辺の長さの少なくとも一方が所定の閾値以上である場合に、前記枠部が所定の枠設定条件を満たすと判断する、
請求項8に記載の情報読取システム。
The frame selection means determines that the frame satisfies a predetermined frame setting condition when at least one of the area and side length of the frame is equal to or greater than a predetermined threshold.
The information reading system according to claim 8.
前記枠設定条件の変更を受け付ける枠補正手段を備える、
請求項8または9に記載の情報読取システム。
comprising frame correction means for accepting changes in the frame setting conditions;
The information reading system according to claim 8 or 9.
前記枠補正手段は、現在の前記枠設定条件における閾値の大きさに対応する図形を画面に表示する、
請求項10に記載の情報読取システム。
The frame correction means displays on the screen a figure corresponding to the size of the threshold value under the current frame setting conditions.
The information reading system according to claim 10.
前記図形は、円、目盛り、およびスライドバーの少なくとも一つである、
請求項11に記載の情報読取システム。
The figure is at least one of a circle, a scale, and a slide bar.
The information reading system according to claim 11.
前記枠補正手段は、現在の前記枠設定条件における閾値の大きさに対応する図形を前記画面に表示するとともに、操作入力に応じて前記閾値の大きさを変更し、変更された前記閾値の大きさに対応して前記図形の位置、大きさ、形状の少なくとも1つを変更する、
請求項11または12に記載の情報読取システム。
The frame correction means displays, on the screen, a figure corresponding to the size of the threshold value under the current frame setting conditions, and also changes the size of the threshold value in accordance with an operation input, and adjusts the size of the changed threshold value. changing at least one of the position, size, and shape of the figure in response to the
The information reading system according to claim 11 or 12.
前記図形は円であり、前記枠補正手段は、前記操作入力に応じて前記円の半径を変更する、
請求項13に記載の情報読取システム。
The figure is a circle, and the frame correction means changes the radius of the circle according to the operation input.
The information reading system according to claim 13.
認識された前記複数の枠部ごとに、その枠部の内部に配された文字列を認識する文字列認識手段をさらに備え、
前記出力手段は、認識された前記文字列を出力する、
請求項1~14のいずれか1項に記載の情報読取システム。
Further comprising a character string recognition means for recognizing a character string arranged inside the frame for each of the plurality of recognized frames,
The output means outputs the recognized character string.
The information reading system according to any one of claims 1 to 14.
認識された前記文字列を項目と値とに分類するとともに、互いに対応づける分類手段をさらに備え、
前記出力手段は、対応付けられた前記文字列を出力する、
請求項15に記載の情報読取システム。
Further comprising a classification means for classifying the recognized character string into items and values and making them correspond to each other,
the output means outputs the associated character string;
The information reading system according to claim 15.
読取対象である情報についての画像データを取得する画像取得ステップと、
前記画像データにおいて、表を構成する複数の枠部を認識する枠認識ステップと、
認識された前記複数の枠部に関する情報を出力する出力ステップと、
を備える、情報読取方法。
an image acquisition step of acquiring image data about the information to be read;
a frame recognition step of recognizing a plurality of frames constituting a table in the image data;
an output step of outputting information regarding the plurality of recognized frames;
An information reading method comprising:
前記枠認識ステップは、第1の方向に沿うとともに隣り合う二つの罫線と、前記第1の方向に交わる第2の方向に沿うとともに隣り合う2つの罫線と、が4つの交点によって交わっている場合に、前記4つの交点の間に配される線分を前記枠部と認識する、
請求項17に記載の情報読取方法。
In the frame recognition step, two ruled lines adjacent to each other along a first direction and two ruled lines adjacent to each other along a second direction intersecting the first direction intersect at four intersection points. Recognizing a line segment placed between the four intersection points as the frame portion,
The information reading method according to claim 17.
前記枠認識ステップは、
文字列の存在する部分に対応する複数のアノテーションを生成し、
前記複数のアノテーションのそれぞれについて2次元座標表示した場合に、前記複数のアノテーションを包含し、かつ、最小X座標および最小Y座標で表される第1座標と、最大X座標および最大Y座標で表される第2座標と、を対角点とする矩形を前記枠部と認識する、
請求項17または18に記載の情報読取方法。
The frame recognition step includes:
Generate multiple annotations corresponding to existing parts of the string,
When two-dimensional coordinates are displayed for each of the plurality of annotations, a first coordinate that includes the plurality of annotations and is represented by a minimum X coordinate and a minimum Y coordinate, and a first coordinate represented by a maximum X coordinate and a maximum Y coordinate. Recognizing a rectangle whose diagonal points are the second coordinates and as the frame portion,
The information reading method according to claim 17 or 18.
前記枠認識ステップは、
文字列の存在する部分に対応する複数のアノテーションを生成し、
前記複数のアノテーションを所定の大きさだけ拡大し、拡大された前記複数のアノテーションが重畳した場合は重畳したアノテーションを連結して、新たなアノテーションを生成し、連結された前記新たなアノテーションに基づいて前記枠部を認識する、
請求項19に記載の情報読取方法。
The frame recognition step includes:
Generate multiple annotations corresponding to existing parts of the string,
The plurality of annotations are enlarged by a predetermined size, and if the enlarged plurality of annotations overlap, the superimposed annotations are concatenated to generate a new annotation, and based on the concatenated new annotations, recognizing the frame;
The information reading method according to claim 19.
前記所定の大きさは、前記文字列における1文字の大きさに対する相対値として定められる、
請求項20に記載の情報読取方法。
The predetermined size is determined as a relative value to the size of one character in the character string,
The information reading method according to claim 20.
前記枠認識ステップは、前記複数のアノテーションを、文字列が延びる第1の方向に沿う線と、前記第1の方向に交わる第2の方向に沿う線と、によって形成する、
請求項19~21のいずれか1項に記載の情報読取方法。
In the frame recognition step, the plurality of annotations are formed by a line along a first direction in which the character string extends and a line along a second direction that intersects the first direction.
The information reading method according to any one of claims 19 to 21.
前記枠認識ステップは、
前記画像データの認識対象領域に罫線が含まれる場合に、前記枠部の内部を新たな認識対象領域として前記複数のアノテーションを生成し、
前記複数のアノテーションに基づいて前記枠部を認識する、
請求項19~22のいずれか1項に記載の情報読取方法。
The frame recognition step includes:
when the recognition target area of the image data includes a ruled line, generating the plurality of annotations with the inside of the frame part as a new recognition target area;
recognizing the frame based on the plurality of annotations;
The information reading method according to any one of claims 19 to 22.
前記複数の枠部のうち、所定の枠設定条件を満たすものを選択する枠選択ステップを備え、
前記出力ステップは、選択された前記複数の枠部に関する情報を出力する、
請求項17~23のいずれか1項に記載の情報読取方法。
a frame selection step of selecting one of the plurality of frames that satisfies a predetermined frame setting condition;
The output step outputs information regarding the selected plurality of frames.
The information reading method according to any one of claims 17 to 23.
前記枠選択ステップは、前記枠部の面積および辺の長さの少なくとも一方が所定の閾値以上である場合に、前記枠部が所定の枠設定条件を満たすと判断する、
請求項24に記載の情報読取方法。
The frame selection step determines that the frame satisfies a predetermined frame setting condition when at least one of the area and side length of the frame is equal to or greater than a predetermined threshold.
The information reading method according to claim 24.
前記枠設定条件の変更を受け付ける枠補正ステップを備える、
請求項24または25に記載の情報読取方法。
comprising a frame correction step that accepts a change in the frame setting conditions;
The information reading method according to claim 24 or 25.
前記枠補正ステップは、現在の前記枠設定条件における閾値の大きさに対応する図形を画面に表示する、
請求項26に記載の情報読取方法。
The frame correction step displays on the screen a figure corresponding to the size of the threshold value under the current frame setting conditions.
The information reading method according to claim 26.
前記図形は、円、目盛り、およびスライドバーの少なくとも一つである、
請求項27に記載の情報読取方法。
The figure is at least one of a circle, a scale, and a slide bar.
The information reading method according to claim 27.
前記枠補正ステップは、現在の前記枠設定条件における閾値の大きさに対応する図形を前記画面に表示するとともに、操作入力に応じて前記閾値の大きさを変更し、変更された前記閾値の大きさに対応して前記図形の位置、大きさ、形状の少なくとも1つを変更する、
請求項27または28に記載の情報読取方法。
In the frame correction step, a figure corresponding to the size of the threshold value under the current frame setting conditions is displayed on the screen, and the size of the threshold value is changed in accordance with an operation input, and the size of the changed threshold value is changed. changing at least one of the position, size, and shape of the figure in response to the
The information reading method according to claim 27 or 28.
前記図形は円であり、前記操作入力に応じて前記円の半径を変更する、
請求項29に記載の情報読取方法。
The figure is a circle, and the radius of the circle is changed according to the operation input.
The information reading method according to claim 29.
認識された前記複数の枠部ごとに、その枠部の内部に配された文字列を認識する文字列認識ステップをさらに備え、
前記出力ステップは、認識された前記文字列を出力する、
請求項17~30のいずれか1項に記載の情報読取方法。
Further comprising a character string recognition step of recognizing a character string arranged inside the frame for each of the plurality of recognized frames,
The output step outputs the recognized character string.
The information reading method according to any one of claims 17 to 30.
認識された前記文字列を項目と値とに分類するとともに、互いに対応づける分類ステップをさらに備え、
前記出力ステップは、対応付けられた前記文字列を出力する、
請求項31に記載の情報読取方法。
further comprising a classification step of classifying the recognized character string into items and values, and making them correspond to each other;
The output step outputs the associated character string.
The information reading method according to claim 31.
コンピュータに請求項17~32のいずれか1項に記載の情報読取方法の各ステップを実行させるためのプログラム。 A program for causing a computer to execute each step of the information reading method according to any one of claims 17 to 32.
JP2022075652A 2022-05-02 2022-05-02 Information reading device, information reading method, and program Pending JP2023165062A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022075652A JP2023165062A (en) 2022-05-02 2022-05-02 Information reading device, information reading method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022075652A JP2023165062A (en) 2022-05-02 2022-05-02 Information reading device, information reading method, and program

Publications (1)

Publication Number Publication Date
JP2023165062A true JP2023165062A (en) 2023-11-15

Family

ID=88742693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022075652A Pending JP2023165062A (en) 2022-05-02 2022-05-02 Information reading device, information reading method, and program

Country Status (1)

Country Link
JP (1) JP2023165062A (en)

Similar Documents

Publication Publication Date Title
US11775744B2 (en) Systems and methods for on-image navigation and direct image-to-data storage table data capture
CN1607524B (en) Method for checking multiple variable data document and computer device
US7409089B2 (en) Writing guide for a free-form document editor
US5555101A (en) Forms creation and interpretation system
JP3425408B2 (en) Document reading device
US20090049375A1 (en) Selective processing of information from a digital copy of a document for data entry
US20160253303A1 (en) Digital processing and completion of form documents
JP6702629B2 (en) Type OCR system
JP6986848B2 (en) Input display device and input display method
US20220012406A1 (en) Electronic form generation from electronic documents
TW200416583A (en) Definition data generation method of account book voucher and processing device of account book voucher
US9152617B2 (en) System and method for processing objects
US10614125B1 (en) Modeling and extracting elements in semi-structured documents
US10803233B2 (en) Method and system of extracting structured data from a document
JP2022066321A (en) Information processing device and program
US20220357844A1 (en) Integrated document editor
JP2023165062A (en) Information reading device, information reading method, and program
JP6190549B1 (en) Document processing system
Jelen Microsoft Excel Inside Out (Office 2021 and Microsoft 365)
CA3075627A1 (en) Integrated document editor
CN111492338B (en) Integrated document editor
JP6459470B2 (en) Document management program, method, and document management apparatus
WO2023047570A1 (en) Information processing device, information processing method, and information processing program
JP7430219B2 (en) Document information structuring device, document information structuring method and program
JP7456131B2 (en) Information processing system, information processing method and program