JP7201545B2 - FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS - Google Patents

FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS Download PDF

Info

Publication number
JP7201545B2
JP7201545B2 JP2019125555A JP2019125555A JP7201545B2 JP 7201545 B2 JP7201545 B2 JP 7201545B2 JP 2019125555 A JP2019125555 A JP 2019125555A JP 2019125555 A JP2019125555 A JP 2019125555A JP 7201545 B2 JP7201545 B2 JP 7201545B2
Authority
JP
Japan
Prior art keywords
character string
definition
heading
feature information
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019125555A
Other languages
Japanese (ja)
Other versions
JP2021012486A (en
Inventor
武志 馬路
将平 長谷川
敏彦 岩崎
和人 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP2019125555A priority Critical patent/JP7201545B2/en
Publication of JP2021012486A publication Critical patent/JP2021012486A/en
Application granted granted Critical
Publication of JP7201545B2 publication Critical patent/JP7201545B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、帳票処理プログラム、帳票処理方法、及び帳票処理装置に関する。 The present invention relates to a form processing program, a form processing method, and a form processing apparatus.

従来、帳票を扱うシステムの1つとして、帳票処理装置を含むシステムが知られている。帳票処理装置は、例えば、光学的に読み取られた帳票の画像に対し、文字認識を行って、予め定義体に登録されている定義情報に基づいて、帳票の画像から必要な情報の取得(抽出)を行う装置である。 2. Description of the Related Art Conventionally, a system including a form processing apparatus is known as one of systems for handling forms. For example, the form processing apparatus performs character recognition on an optically read form image, and obtains (extracts) necessary information from the form image based on definition information registered in advance in a definition format. ).

また、帳票を扱うシステムの他の1つとして、帳票登録支援装置を含むシステムも知られている(例えば特許文献1参照)。 As another system for handling forms, a system including a form registration support device is also known (see, for example, Japanese Unexamined Patent Application Publication No. 2002-100001).

特開2003-208565号公報JP 2003-208565 A

帳票処理装置を含むシステムでは、予め、扱う帳票の定義情報を定義体に登録しておく必要があるため、扱う帳票が多種になると、その登録作業に多大な労力を要する。例えば、口座振替依頼書は、収納機関(委託先)により個別に作成されるものであるので、多種の口座振替依頼書が存在し、その全ての種類の定義情報を定義体に登録しておくことは容易ではない。 In a system including a form processing apparatus, it is necessary to register the definition information of the forms to be handled in advance in the definition body. For example, bank transfer request forms are created individually by receiving institutions (consignees), so there are many types of bank transfer request forms, and all types of definition information are registered in the definition body. It is not easy.

本発明は、上記実情に鑑み、帳票の定義情報の登録作業を軽減することが可能な技術を提供することを目的とする。 SUMMARY OF THE INVENTION It is an object of the present invention to provide a technique capable of reducing the work of registering form definition information.

プログラムの一観点は、帳票処理プログラムであって、対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成し、生成した前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定し、前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定した場合に、前記見出し無し文字列の入力を受け付け、前記帳票の画像における、受け付けた前記見出し無し文字列の領域を示す座標を取得し、生成した前記特徴情報と、受け付けた前記見出し無し文字列と、取得した前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録し、前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得する処理をコンピュータに実行させることを特徴とし、前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得するOne aspect of the program is a form processing program that generates characteristic information of an image of a form that includes a character string without a corresponding It is determined whether or not definition information including feature information is registered in the definition body, and if it is determined that the definition information including the same or similar feature information is not registered in the definition body, the non-heading character Receiving input of a column, acquiring coordinates indicating an area of the accepted non-heading character string in the image of the form, generating the characteristic information, the accepted non-heading character string, and the acquired non-heading character When it is determined that the definition information including the coordinates indicating the column area is registered in the definition body as the definition information of the form, and the definition information including the same or similar feature information is registered in the definition body. (b) causing a computer to execute a process of obtaining a headline-less character string included in the definition information including the same or similar feature information, and the process of obtaining the headline-less character string is the same or similar When multiple definition information including feature information are registered in the definition body, for each definition information including the same or similar feature information, a character string without a heading included in the definition information and Determining whether or not the result of character recognition for the area of the image of the form corresponding to the coordinates indicating the area of the contained character string without heading matches, and acquiring the character string without heading when both match. do .

方法の一観点は、帳票処理方法であって、対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成し、生成した前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定し、前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定した場合に、前記見出し無し文字列の入力を受け付け、前記帳票の画像における、受け付けた前記見出し無し文字列の領域を示す座標を取得し、生成した前記特徴情報と、受け付けた前記見出し無し文字列と、取得した前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録し、前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得することを特徴とし、前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得するOne aspect of the method is a form processing method in which feature information of an image of a form including a headline-less character string, which is a character string without a corresponding headline character string, is generated, and a character string identical or similar to the generated feature information is generated. It is determined whether or not definition information including feature information is registered in the definition body, and if it is determined that the definition information including the same or similar feature information is not registered in the definition body, the non-heading character Receiving input of a column, acquiring coordinates indicating an area of the accepted non-heading character string in the image of the form, generating the characteristic information, the accepted non-heading character string, and the acquired non-heading character When it is determined that the definition information including the coordinates indicating the column area is registered in the definition body as the definition information of the form, and the definition information including the same or similar feature information is registered in the definition body. (b) a headline-less character string included in the definition information containing the same or similar feature information; When a plurality of pieces of information are registered in the definition body, for each definition information containing the same or similar feature information, a non-heading character string included in the definition information and the non-heading character included in the definition information It is determined whether or not the result of character recognition for the area of the image of the form corresponding to the coordinates indicating the column area matches, and the headline-less character string is obtained when both match .

装置の一観点は、帳票処理装置であって、対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成する生成部と、前記生成部により生成された前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定する判定部と、前記判定部により前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定され、前記見出し無し文字列の入力が受け付けられた場合に、前記帳票の画像における、受け付けられた前記見出し無し文字列の領域を示す座標を取得する座標取得部と、前記生成部により生成された特徴情報と、受け付けられた前記見出し無し文字列と、前記座標取得部により取得された前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録する登録部と、前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得する見出し無し文字列取得部とを備えることを特徴とし、前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得するOne aspect of the apparatus is a form processing apparatus, comprising: a generating unit for generating feature information of an image of a form including a character string without a corresponding heading character string; a determination unit for determining whether or not definition information including the same or similar feature information as the feature information is registered in the definition body, and the determination unit determines whether the definition information including the same or similar feature information is registered in the definition body. a coordinate acquisition unit that acquires coordinates indicating an area of the accepted non-heading character string in the image of the form when it is determined that the non-heading character string is not registered in the definition information including the feature information generated by the generation unit, the accepted character string without headings, and the coordinates indicating the area of the character string without headings obtained by the coordinate obtaining unit; a registration unit for registering information in the definition body; a headline-less character string acquisition unit that acquires a headline-less character string included in the headline-less character string , wherein the processing for acquiring the headline-less character string includes the definition information including the same or similar characteristic information that is obtained from the definition body. indicates, for each definition information containing the same or similar feature information, a non-heading character string included in the definition information and an area of the non-heading character string included in the definition information, when multiple registrations are made in It is determined whether or not the result of character recognition for the area of the image of the form corresponding to the coordinates matches, and the headline-less character string is acquired when both match .

本発明によれば、帳票の定義情報の登録作業を軽減することが可能となる。 According to the present invention, it is possible to reduce the work of registering the definition information of a form.

帳票処理システムの構成を例示する図である。1 is a diagram illustrating the configuration of a form processing system; FIG. 一実施の形態に係る帳票処理装置の機能的構成を例示する図である。1 is a diagram illustrating a functional configuration of a form processing apparatus according to an embodiment; FIG. 一実施の形態に係る帳票処理を例示するフローチャートである。6 is a flowchart illustrating form processing according to an embodiment; S1の処理で取得された帳票の画像の一例を模式的に示す図である。FIG. 10 is a diagram schematically showing an example of an image of a form acquired in the process of S1; FIG. S2の処理の詳細を例示するフローチャートである。9 is a flowchart illustrating details of processing in S2. S21及びS22の処理の具体例を模式的に示す図である。FIG. 10 is a diagram schematically showing a specific example of processing of S21 and S22; S25の処理の詳細を例示するフローチャートである。FIG. 10 is a flowchart illustrating details of the process of S25; FIG. S25の処理の具体例を模式的に示す図である。It is a figure which shows typically the specific example of the process of S25. S5の処理の詳細を例示するフローチャートである。9 is a flowchart illustrating details of processing in S5. S52の処理の具体例を模式的に示す図である。FIG. 10 is a diagram schematically showing a specific example of processing in S52; コンピュータのハードウェア構成を例示する図である。It is a figure which illustrates the hardware constitutions of a computer.

以下、図面を参照しながら本発明の実施の形態について説明する。
図1は、帳票処理システムの構成を例示する図である。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram illustrating the configuration of a form processing system.

図1に例示する帳票処理システム1は、見出し無し文字列(対応する見出し文字列が無い文字列)を含む帳票を扱うシステムである。帳票処理システム1は、帳票処理装置2と、スキャナ装置3と、入力装置4と、表示装置5と、サーバ装置6とを含む。 A form processing system 1 illustrated in FIG. 1 is a system that handles a form including no-header character strings (character strings without corresponding headline character strings). The form processing system 1 includes a form processing device 2 , a scanner device 3 , an input device 4 , a display device 5 and a server device 6 .

帳票処理装置2は、帳票の画像に対し、文字認識を行い、サーバ装置6が保持する定義体に帳票の定義情報を登録したり、登録されている帳票の定義情報に基づいて帳票の画像から必要な情報を取得(抽出)したりする装置である。帳票処理装置2は、例えば、スキャナ装置3から帳票の画像を取得する。スキャナ装置3は、帳票等の紙媒体をデジタルデータ(画像)に変換する装置である。 The form processing device 2 performs character recognition on the form image, registers the definition information of the form in the definition body held by the server device 6, and extracts from the form image based on the registered definition information of the form. It is a device that acquires (extracts) necessary information. The form processing device 2 acquires the image of the form from the scanner device 3, for example. The scanner device 3 is a device that converts a paper medium such as a form into digital data (image).

入力装置4は、帳票処理装置2に各種情報を入力する装置である。入力装置4は、例えば、キーボード装置である。表示装置5は、帳票処理装置2が行う処理の内容や処理の結果、入力装置4により入力された情報、帳票の画像等の、各種情報を表示する装置である。表示装置5は、例えば、液晶ディスプレイである。 The input device 4 is a device for inputting various information to the form processing device 2 . The input device 4 is, for example, a keyboard device. The display device 5 is a device for displaying various types of information such as the contents of the processing performed by the form processing device 2, the results of the processing, the information input by the input device 4, the image of the form, and the like. The display device 5 is, for example, a liquid crystal display.

サーバ装置6は、帳票処理装置2が参照する文字認識辞書や帳票処理装置2が参照又は定義情報の登録を行う定義体を保持する装置である。サーバ装置6は、ネットワーク7を介して帳票処理装置2と通信可能に接続される。 The server device 6 is a device that holds a character recognition dictionary that the form processing device 2 refers to and a definition body that the form processing device 2 refers to or registers definition information. The server device 6 is communicably connected to the form processing device 2 via the network 7 .

図2は、一実施の形態に係る帳票処理装置の機能的構成を例示する図である。
図2に例示するように、帳票処理装置2は、スキャナ制御部210と、文字認識部220と、特徴情報生成部230と、判定部240と、見出し無し文字列取得部250と、座標取得部260と、登録部270と、表示制御部280と、主制御部290とを含む。また、帳票処理装置2は、図示していない記憶部を含む。
FIG. 2 is a diagram illustrating the functional configuration of the form processing apparatus according to one embodiment.
As illustrated in FIG. 2, the form processing apparatus 2 includes a scanner control unit 210, a character recognition unit 220, a characteristic information generation unit 230, a determination unit 240, a no-index character string acquisition unit 250, and a coordinate acquisition unit. 260 , a registration unit 270 , a display control unit 280 and a main control unit 290 . The form processing device 2 also includes a storage unit (not shown).

スキャナ制御部210は、スキャナ装置3から帳票の画像を取得する処理を制御する。
文字認識部220は、サーバ装置6が保持する文字認識辞書610を参照して、帳票の画像に含まれる文字を認識する。また、文字認識部220は、サーバ装置6が保持する定義体620に登録されている定義情報に基づいて、帳票の画像に含まれる文字を認識する。
The scanner control unit 210 controls processing for obtaining an image of a form from the scanner device 3 .
The character recognition unit 220 refers to the character recognition dictionary 610 held by the server device 6 to recognize characters included in the image of the form. The character recognition unit 220 also recognizes characters included in the form image based on definition information registered in the definition body 620 held by the server device 6 .

特徴情報生成部230は、帳票の画像の特徴情報を生成する。例えば、その特徴情報として、帳票の画像における線分の分布の特徴を示す情報を生成する。このような線分の分布の特徴を示す情報の生成は、例えば、本願の出願人による特願2018‐138117号の特許出願に記載の技術を利用して行われる。 The feature information generation unit 230 generates feature information of the image of the form. For example, as the feature information, information indicating the feature of distribution of line segments in the image of the form is generated. The generation of information indicating the distribution characteristics of such line segments is performed, for example, using the technique described in the patent application of Japanese Patent Application No. 2018-138117 filed by the applicant of the present application.

判定部240は、サーバ装置6が保持する定義体620に、特徴情報生成部230により生成された特徴情報と同一又は類似の特徴情報を含む定義情報が登録されているか否かを判定する。 The determination unit 240 determines whether definition information including feature information identical or similar to the feature information generated by the feature information generation unit 230 is registered in the definition body 620 held by the server device 6 .

見出し無し文字列取得部250は、特徴情報生成部230により生成された特徴情報と同一又は類似の特徴情報を含む定義情報が定義体620に登録されていると判定部240により判定された場合に、その定義情報に含まれる見出し無し文字列を取得する。但し、特徴情報生成部230により生成された特徴情報と同一又は類似の特徴情報を含む定義情報が定義体620に複数登録されている場合は、その定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる見出し無し文字列の領域を示す座標に対応する帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの見出し無し文字列を取得する。なお、このときの文字認識は、文字認識部220が行う。 When the determination unit 240 determines that definition information including feature information identical or similar to the feature information generated by the feature information generation unit 230 is registered in the definition body 620, the headline-less character string acquisition unit 250 , to get the heading-less character string included in the definition information. However, if a plurality of definition information including feature information identical or similar to the feature information generated by the feature information generation unit 230 are registered in the definition body 620, each definition information has a headline included in the definition information. Determines whether or not the non-heading character string matches the result of character recognition for the area of the image of the form corresponding to the coordinates indicating the area of the non-heading character string included in the definition information, and if both match. Get the no-header string. Note that character recognition at this time is performed by the character recognition unit 220 .

座標取得部260は、帳票の画像における文字列の領域を示す座標を取得する。例えば、座標取得部260は、特徴情報生成部230により生成された特徴情報と同一又は類似の特徴情報を含む定義情報が定義体620に登録されていないと判定部240により判定され、入力装置4により見出し無し文字列が入力された場合に、帳票の画像における、その見出し無し文字列の領域を示す座標を取得する。 The coordinate acquisition unit 260 acquires the coordinates indicating the character string area in the form image. For example, the coordinate acquisition unit 260 determines by the determination unit 240 that definition information including feature information identical or similar to the feature information generated by the feature information generation unit 230 is not registered in the definition body 620, and the input device 4 When a character string without heading is input by , the coordinates indicating the area of the character string without heading in the image of the form are obtained.

登録部270は、サーバ装置6が保持する定義体620に帳票の定義情報を登録する。例えば、登録部270は、特徴情報生成部230により生成された特徴情報と同一又は類似の特徴情報を含む定義情報が定義体620に登録されていないと判定部240により判定された場合に、特徴情報生成部230により生成された特徴情報と、入力装置4により入力された見出し無し文字列と、座標取得部260により取得された見出し無し文字列の領域を示す座標とを含む定義情報を登録する。 The registration unit 270 registers the definition information of the form in the definition body 620 held by the server device 6 . For example, if the determination unit 240 determines that definition information including feature information that is the same as or similar to the feature information generated by the feature information generation unit 230 is not registered in the definition body 620, the registration unit 270 registers the feature information. Register definition information including the feature information generated by the information generation unit 230, the character string without index input by the input device 4, and the coordinates indicating the area of the character string without index obtained by the coordinate acquisition unit 260. .

表示制御部280は、表示装置5の表示を制御する。例えば、表示制御部280は、帳票の画像に対する処理の結果を含む画面データを生成し、該画面データを表示装置5に表示させる。 The display control section 280 controls the display of the display device 5 . For example, the display control unit 280 generates screen data including the result of processing the image of the form, and causes the display device 5 to display the screen data.

主制御部290は、スキャナ制御部210、文字認識部220、特徴情報生成部230、判定部240、見出し無し文字列取得部250、座標取得部260、登録部270、及び表示制御部280が協働して行う一連の処理を制御する。 The main control unit 290 includes the scanner control unit 210, the character recognition unit 220, the characteristic information generation unit 230, the determination unit 240, the no-index character string acquisition unit 250, the coordinate acquisition unit 260, the registration unit 270, and the display control unit 280. It controls a series of processes that work together.

図3は、一実施の形態に係る帳票処理を例示するフローチャートである。
帳票処理装置2は、帳票処理を開始すると、図3に例示するように、まず、帳票の画像を取得する(S1)。S1の処理は、スキャナ制御部210が行う。なお、S1の処理で取得される帳票の画像は、必要事項が記入又は印字済みの帳票の画像である。
FIG. 3 is a flowchart illustrating form processing according to one embodiment.
When starting the form processing, the form processing apparatus 2 first acquires an image of the form as illustrated in FIG. 3 (S1). The processing of S1 is performed by the scanner control unit 210 . Note that the image of the form acquired in the process of S1 is the image of the form in which necessary items have been entered or printed.

次に、帳票処理装置2は、帳票の画像から必要な情報を認識(取得)するための認識処理を行い、その処理結果を表示装置5に表示させる(S2)。S2の処理は、文字認識部220、特徴情報生成部230、判定部240、見出し無し文字列取得部250、及び表示制御部280が協働して行う。S2の処理の詳細は、図5を用いて後述する。 Next, the form processing device 2 performs recognition processing for recognizing (obtaining) necessary information from the image of the form, and causes the display device 5 to display the processing result (S2). The process of S2 is performed by the character recognition unit 220, the feature information generation unit 230, the determination unit 240, the headline-less character string acquisition unit 250, and the display control unit 280 in cooperation. Details of the processing of S2 will be described later with reference to FIG.

次に、帳票処理装置2は、表示装置5に表示させた処理結果に対するオペレータの補正入力を受け付ける(S3)。S3の処理は、主制御部290が入力装置4を介して行う。オペレータの補正入力は、見出し無し文字列のみの入力、又は、見出し無し文字列と見出し無し文字列の領域を示す座標の入力である。なお、このようなオペレータの補正入力は、S2の処理により表示装置5に表示された処理結果において、見出し無し文字列と見出し無し文字列の領域を示す座標が認識(取得)されなかった場合に行われる。 Next, the form processing device 2 receives the operator's correction input for the processing result displayed on the display device 5 (S3). The processing of S<b>3 is performed by the main control unit 290 via the input device 4 . The correction input by the operator is the input of only the headline-less character string, or the input of the coordinates indicating the area of the headline-less character string and the headline-less character string. Such correction input by the operator is performed when the coordinates indicating the area of the non-heading character string and the non-heading character string are not recognized (acquired) in the processing result displayed on the display device 5 by the processing of S2. done.

次に、帳票処理装置2は、オペレータの補正入力が行われたか否かを判定する(S4)。S4の処理は、主制御部290が行う。 Next, the form processing apparatus 2 determines whether or not the operator has made a correction input (S4). The processing of S4 is performed by the main control unit 290 .

S4の判定結果がYESの場合、帳票処理装置2は、入力された見出し無し文字列を含む定義情報を、サーバ装置6が保持する定義体620に登録し(S5)、帳票処理を終了する。S5の処理は、登録部270が行う。S5の処理の詳細は、図9を用いて後述する。 If the determination result in S4 is YES, the form processing device 2 registers the definition information including the input non-heading character string in the definition body 620 held by the server device 6 (S5), and ends the form processing. The processing of S5 is performed by the registration unit 270 . Details of the processing of S5 will be described later with reference to FIG.

一方、S4の判定結果がNOの場合、帳票処理装置2は、帳票処理を終了する。
図4は、S1の処理で取得された帳票の画像の一例を模式的に示す図である。
On the other hand, if the determination result in S4 is NO, the form processing device 2 ends the form processing.
FIG. 4 is a diagram schematically showing an example of the image of the form acquired in the process of S1.

図4に模式的に示す帳票の画像8は、口座振替依頼書の画像であって、委託先名を示す文字列として「富士通ガス」が含まれているが、その「富士通ガス」に対応する見出し文字列が含まれていない帳票の画像(即ち、見出し無し文字列(「富士通ガス」)を含む帳票の画像)である。なお、見出し文字列は、項目名を示す文字列でもある。 An image 8 of a form schematically shown in FIG. 4 is an image of an account transfer request form, and includes "Fujitsu Gas" as a character string indicating the name of the consignee. This is an image of a form that does not contain a headline character string (that is, an image of a form that contains a headline-less character string (“Fujitsu Gas”)). Note that the headline character string is also a character string indicating the item name.

図5は、S2の処理の詳細を例示するフローチャートである。
図5に例示するように、S2の処理が開始されると、まず、特徴情報生成部230は、帳票の画像の特徴情報として、本願の出願人による特願2018‐138117号の特許出願に記載の技術を利用して、帳票の画像における線分の分布の特徴を示す情報(横方向のハッシュ値と縦方向のハッシュ値)を生成する(S21)。
FIG. 5 is a flowchart illustrating details of the processing of S2.
As exemplified in FIG. 5, when the process of S2 is started, first, the feature information generation unit 230 generates feature information of the image of the form described in Japanese Patent Application No. 2018-138117 filed by the applicant of the present application. information (hash value in the horizontal direction and hash value in the vertical direction) indicating the characteristics of the distribution of line segments in the form image is generated (S21).

次に、判定部240は、サーバ装置6が保持する定義体620を参照して、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報を探索し(S22)、その同一又は類似のハッシュ値を含む定義情報が定義体620に登録されているか否かを判定する(S23)。ここで、類似のハッシュ値とは、例えば、生成されたハッシュ値との桁毎の差分の絶対値が全て閾値以下となるハッシュ値である。 Next, the determination unit 240 refers to the definition body 620 held by the server device 6, searches for definition information including a hash value that is the same as or similar to the generated hash value (S22). It is determined whether definition information including a hash value is registered in the definition body 620 (S23). Here, the similar hash value is, for example, a hash value in which the absolute values of digit-by-digit differences from the generated hash value are all equal to or less than a threshold.

S23の判定結果がYESの場合、判定部240は、その同一又は類似のハッシュ値を含む定義情報が定義体620に複数登録されているか否かを判定する(S24)。なお、種類が異なる帳票の定義情報同士であっても、帳票に含まれる線分の分布の特徴が同一又は類似であれば、同一又は類似のハッシュ値を含む定義情報となる。 If the determination result of S23 is YES, the determination unit 240 determines whether or not multiple pieces of definition information including the same or similar hash value are registered in the definition body 620 (S24). Note that even if the definition information of different types of forms has the same or similar characteristics of the distribution of line segments included in the forms, the definition information includes the same or similar hash values.

S24の判定結果がYESの場合、見出し無し文字列取得部250は、その同一又は類似のハッシュ値を含む定義情報の絞り込みを行う(S25)。S25の処理の詳細は、図7を用いて後述する。 If the determination result in S24 is YES, the headline-less character string acquisition unit 250 narrows down the definition information including the same or similar hash value (S25). Details of the processing of S25 will be described later with reference to FIG.

S25の後は、見出し無し文字列取得部250が、絞り込まれた定義情報に含まれる、見出し無し文字列と見出し無し文字列の領域を示す座標とを取得すると共に、文字認識部220が、絞り込まれた定義情報に含まれる、帳票の各項目の内容の領域を示す座標を取得して、その座標に対応する帳票の画像の領域に含まれる文字を認識して、各項目の内容を示す文字列を取得し、表示制御部280が、それらの取得結果を表示装置5に表示させる(S26)。これにより、表示装置5には、見出し無し文字列、見出し無し文字列の領域を示す座標、各項目の内容を示す文字列、及び各項目の内容を示す文字列の領域を示す座標(各項目の内容の領域を示す座標)等が表示される。 After S25, the non-heading character string acquisition unit 250 acquires the non-heading character string and the coordinates indicating the area of the non-heading character string, which are included in the narrowed down definition information, and the character recognition unit 220 acquires the Acquire the coordinates indicating the area of the content of each item in the form, and recognize the characters included in the area of the image of the form corresponding to the coordinates, and the character indicating the content of each item. The columns are acquired, and the display control unit 280 causes the display device 5 to display the acquired results (S26). As a result, the display device 5 displays a character string without heading, the coordinates indicating the area of the character string without heading, the character string indicating the content of each item, and the coordinates indicating the area of the character string indicating the content of each item (each item (coordinates indicating the area of the contents of the

一方、S24の判定結果がNOの場合は、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報に基づいて、上述のS26と同様の処理を行う。 On the other hand, if the determination result in S24 is NO, the same processing as in S26 described above is performed based on the definition information including the hash value that is the same as or similar to the generated hash value.

S23の判定結果がNOの場合は、文字認識部220が、帳票の画像に対するキーワード認識を行って、項目名を示すキーワード(文字列)の取得、及び、そのキーワードに対する内容を示す文字列の取得を行うと共に、座標取得部260が、そのキーワードに対する内容を示す文字列の領域を示す座標を取得し、表示制御部280が、それらの取得結果を表示装置5に表示させる(S27)。これにより、表示装置5には、項目名を示すキーワードに対する内容を示す文字列と、その文字列の領域を示す座標等が表示される。 If the determination result in S23 is NO, the character recognition unit 220 performs keyword recognition on the image of the form, acquires a keyword (character string) indicating the item name, and obtains a character string indicating the content of the keyword. , the coordinate acquisition unit 260 acquires the coordinates indicating the area of the character string indicating the content of the keyword, and the display control unit 280 causes the display device 5 to display the acquisition results (S27). As a result, the display device 5 displays the character string indicating the contents of the keyword indicating the item name, the coordinates indicating the area of the character string, and the like.

なお、S27の処理では、キーワード認識により見出し無し文字列の取得ができないので、見出し無し文字列の領域を示す座標の取得もできない。そのため、見出し無し文字列と見出し無し文字列の領域を示す座標の表示は行われない。そこで、後続するS3の処理では、オペレータの補正入力により、見出し無し文字列の入力、又は、見出し無し文字列と見出し無し文字列の領域を示す座標の入力が必要になる。 In the process of S27, it is not possible to obtain a character string without a headline by keyword recognition, so it is not possible to obtain the coordinates indicating the area of the character string without a headline. Therefore, the display of the coordinates indicating the area of the non-heading character string and the non-heading character string is not performed. Therefore, in the subsequent processing of S3, it is necessary for the operator to input a headline-less character string or to input a coordinate indicating an area of the headline-less character string and the headline-less character string by corrective input by the operator.

また、S27の処理において、文字認識部220は、キーワード認識を、例えば、サーバ装置6が保持する文字認識辞書610を参照して行う。この場合、文字認識辞書610は、例えば、項目名を示すキーワードとなり得る文字列が登録されたキーワード辞書を含む。キーワード認識は、例えば、既存の技術を利用して行われる。 In the process of S27, the character recognition unit 220 performs keyword recognition by referring to the character recognition dictionary 610 held by the server device 6, for example. In this case, the character recognition dictionary 610 includes, for example, a keyword dictionary in which character strings that can be keywords indicating item names are registered. Keyword recognition is performed, for example, using existing technology.

図6は、S21及びS22の処理の具体例を模式的に示す図である。
図6に模式的に示す具体例では、帳票の画像として、図4に模式的に示した帳票の画像8が取得されていたとする。
FIG. 6 is a diagram schematically showing a specific example of the processing of S21 and S22.
In the specific example schematically shown in FIG. 6, it is assumed that the form image 8 schematically shown in FIG. 4 has been acquired as the form image.

この場合、S21の処理では、例えば、図6の(a)に模式的に示すように、帳票の画像8の特徴情報として、帳票の画像8の横方向のハッシュ値(「EF7123」)と縦方向のハッシュ値(「1235」)とが生成される。なお、この例では、ハッシュ値の各桁が、16進数により表されている。また、S22の処理では、例えば、図6の(b)に模式的に示すように、サーバ装置6が保持する定義体620において、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報の探索が行われる。 In this case, in the processing of S21, for example, as schematically shown in FIG. A hash value of the direction ("1235") is generated. Note that in this example, each digit of the hash value is represented by a hexadecimal number. Further, in the process of S22, for example, as schematically shown in FIG. is searched for.

図6の(b)において、定義体620に登録される各定義情報は、インデックス(「Index」)、横方向のハッシュ値(「Hash(横)」)、縦方向のハッシュ値(「Hash(縦)」)、「委託者名」、及び「委託者名座標」と、図示していない項目名、及び項目名に対する内容を示す文字列の領域を示す座標に関する情報を含む。なお、この例において、「委託者名座標」は、「委託者名」を示す文字列を含む矩形領域の対角の2点の座標により表示される。 In (b) of FIG. 6, each definition information registered in the definition body 620 includes an index (“Index”), a horizontal hash value (“Hash”), a vertical hash value (“Hash (vertical)”), “consignor name”, “consignor name coordinates”, item names (not shown), and information on the coordinates indicating the area of the character string indicating the contents of the item names. In this example, the "consignor name coordinates" are displayed by the coordinates of the two diagonal points of the rectangular area containing the character string indicating the "consignor name".

この具体例において、類似のハッシュ値を、生成されたハッシュ値との桁毎の差分の絶対値が全て1以下となるハッシュ値とすると、インデックスが「1」と「2」の定義情報が、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報とされる。 In this specific example, if the similar hash value is a hash value in which the absolute value of the difference in each digit from the generated hash value is all 1 or less, the definition information with the indexes "1" and "2" is The definition information includes a hash value that is the same as or similar to the generated hash value.

なお、生成されたハッシュ値と同一のハッシュ値を含む定義情報だけでなく、類似のハッシュ値を含む定義情報も探索する理由は、帳票上のノイズ(汚れや埃等)や記入文字等によって、同種の帳票であってもハッシュ値が同一にならない場合があるからである。そこで、ある程度の誤差を許容して探索を行うことによって、そのような場合のハッシュ値を含む定義情報であっても漏れなく探索できるようにしている。 The reason why not only the definition information containing the same hash value as the generated hash value, but also the definition information containing a similar hash value is searched is that noise (dirt, dust, etc.) on the form, written characters, etc. This is because the same type of forms may not have the same hash value. Therefore, even definition information including a hash value in such a case can be searched without omission by allowing a certain amount of error in the search.

図7は、S25の処理の詳細を例示するフローチャートである。
図7に例示するように、S25の処理が開始されると、サーバ装置6が保持する定義体620に登録されている、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報毎に、S251~S253の処理を繰り返す。
FIG. 7 is a flowchart illustrating details of the processing of S25.
As exemplified in FIG. 7, when the process of S25 is started, each definition information containing a hash value that is the same as or similar to the generated hash value registered in the definition body 620 held by the server device 6 , S251 to S253 are repeated.

詳しくは、まず、見出し無し文字列取得部250が、処理対象とされていない定義情報(生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報)の1つを処理対象とし、処理対象とした定義情報から、見出し無し文字列と見出し無し文字列の領域を示す座標とを取得する(S251)。 Specifically, first, the headline-less character string acquisition unit 250 selects one of the non-processing definition information (definition information including a hash value that is the same as or similar to the generated hash value) as a processing target, The headline-less character string and the coordinates indicating the region of the headline-less character string are obtained from the definition information (S251).

次に、文字認識部220は、取得された見出し無し文字列の領域を示す座標に対応する帳票の画像の領域に含まれる文字を認識する(S252)。 Next, the character recognition unit 220 recognizes characters included in the area of the form image corresponding to the acquired coordinates indicating the area of the character string without heading (S252).

次に、見出し無し文字列取得部250は、取得した見出し無し文字列と文字認識部220による認識結果とが一致するか否かを判定する(S253)。 Next, the headline-less character string acquisition unit 250 determines whether or not the acquired headline-less character string matches the recognition result of the character recognition unit 220 (S253).

S253の判定結果がYESの場合、図示は省略するが、見出し無し文字列取得部250は、処理対象とした定義情報を、絞り込まれた定義情報として決定する。なお、S253の判定結果がYESの場合は、処理対象とされていない定義情報が残っている場合であってもS25の処理が終了する。 If the determination result in S253 is YES, although illustration is omitted, the headline-less character string acquisition unit 250 determines the definition information to be processed as the narrowed down definition information. Note that if the determination result of S253 is YES, the processing of S25 ends even if definition information that is not to be processed remains.

一方、S253の判定結果がNOの場合は、処理対象とされていない定義情報が残っている場合に限り、再び、S251以降の処理が開始される。 On the other hand, if the determination result of S253 is NO, the processing from S251 onwards is started again only when definition information that is not subject to processing remains.

図8は、S25の処理の具体例を模式的に示す図である。
図8に模式的に示す具体例では、生成されたハッシュ値と同一又は類似のハッシュ値を含む定義情報が、図6の(b)に模式的に示した定義体620における、インデックスが「1」と「2」の定義情報であるとする。
FIG. 8 is a diagram schematically showing a specific example of the process of S25.
In the specific example schematically shown in FIG. 8, the definition information including the hash value identical or similar to the generated hash value has the index "1 ” and “2”.

この場合は、まず、図8の(a)に模式的に示すように、インデックスが「1」の定義情報が処理対象とされてS251~S253の処理が行われ、その結果、見出し無し文字列である委託者名を示す文字列(「富士通電気」)と、その見出し無し文字列の領域を示す座標である委託者名座標(「(x1,y1,x2,y2)」)に基づく文字の認識結果(この場合は文字が認識されなかったので「-」)とが、不一致となる。 In this case, first, as schematically shown in FIG. 8A, the definition information with the index "1" is processed, and the processing of S251 to S253 is performed. character string (“Fujitsu Electric”) indicating the name of the consignor, and the coordinates of the consignor name (“(x1, y1, x2, y2)”), which are the coordinates indicating the area of the character string without headings. The recognition result ("-" in this case because the character was not recognized) does not match.

次に、図8の(b)に模式的に示すように、インデックスが「2」の定義情報が処理対象とされてS251~S253の処理が行われ、その結果、見出し無し文字列である委託者名を示す文字列(「富士通ガス」)と、その見出し無し文字列の領域を示す座標である委託者名座標(「(x3,y3,x4,y4)」)に基づく文字の認識結果(「富士通ガス」)とが、一致となる。 Next, as schematically shown in (b) of FIG. 8, the definition information with the index "2" is processed, and the processing of S251 to S253 is performed. Character recognition result ( "Fujitsu Gas") is a match.

従って、この具体例の場合は、インデックスが「2」の定義情報が、絞り込まれた定義情報として決定される。 Therefore, in the case of this specific example, the definition information with the index "2" is determined as the narrowed down definition information.

図9は、S5の処理の詳細を例示するフローチャートである。
図9に例示するように、S5の処理が開始されると、まず、主制御部290は、オペレータの補正入力が、見出し無し文字列のみの入力であったか否かを判定する(S51)。
FIG. 9 is a flowchart illustrating details of the processing of S5.
As exemplified in FIG. 9, when the process of S5 is started, the main control unit 290 first determines whether or not the operator's correction input was input of only a character string without headings (S51).

S51の判定結果がYESの場合は、文字認識部220が帳票の画像に含まれる文字を認識し、その認識結果において、座標取得部260が、入力された見出し無し文字列を探索して、帳票の画像における見出し無し文字列の領域を示す座標を取得する(S52)。 If the determination result in S51 is YES, the character recognition unit 220 recognizes characters included in the image of the form, and the coordinate acquisition unit 260 searches for the input non-heading character string in the recognition result to obtains the coordinates indicating the region of the indexless character string in the image of (S52).

S52の後は、登録部270が、生成された横方向及び縦方向のハッシュ値と、入力された見出し無し文字列と、取得された見出し無し文字列の領域を示す座標と、S27の処理での取得結果とを含む定義情報を、サーバ装置6が保持する定義体620に登録する(S53)。 After S52, the registration unit 270 registers the generated horizontal and vertical hash values, the input non-heading character string, the acquired coordinates indicating the region of the non-heading character string, and the is registered in the definition body 620 held by the server device 6 (S53).

一方、S51の判定結果がNOの場合、登録部270は、生成された横方向及び縦方向のハッシュ値と、オペレータの補正入力により入力された見出し無し文字列及びその見出し無し文字列の領域を示す座標と、S27の処理での取得結果とを含む定義情報を、サーバ装置6が保持する定義体620に登録する(S53)。 On the other hand, if the determination result in S51 is NO, the registration unit 270 stores the generated horizontal and vertical hash values, the non-heading character string input by the operator's correction input, and the region of the non-heading character string. The definition information including the indicated coordinates and the result obtained in the process of S27 is registered in the definition body 620 held by the server device 6 (S53).

図10は、S52の処理の具体例を模式的に示す図である。
図10に模式的に示す具体例では、帳票の画像として、図4に模式的に示した帳票の画像8が取得されていたとする。また、オペレータの補正入力は、見出し無し文字列である委託先名を示す文字列(「富士通ガス」)のみの入力であったとする。
FIG. 10 is a diagram schematically showing a specific example of the process of S52.
In the specific example schematically shown in FIG. 10, it is assumed that the form image 8 schematically shown in FIG. 4 has been acquired as the form image. It is also assumed that the correction input by the operator is only a character string ("Fujitsu gas") indicating the consignee's name, which is a character string without headings.

この場合、S52の処理では、図10に模式的に示すように、帳票の画像8に含まれる文字が認識され、その認識結果において、入力された「富士通ガス」の探索が行われて、帳票の画像8における「富士通ガス」の領域を示す座標(「(x3,y3,x4,y4)」)が取得される。 In this case, in the process of S52, as schematically shown in FIG. 10, the characters included in the image 8 of the form are recognized, and in the recognition result, the input "Fujitsu Gas" is searched, and the form The coordinates (“(x3, y3, x4, y4)”) indicating the region of “Fujitsu Gas” in the image 8 of are acquired.

以上のように、帳票処理装置2が行う帳票処理によれば、見出し無し文字列を含む帳票の画像の特徴情報と同一又は類似の特徴情報を含む定義情報が定義体620に登録されていない場合は、オペレータの補正入力が行われて、その帳票の定義情報が定義体620に登録される。オペレータの補正入力は、見出し無し文字列と見出し無し文字列の領域を示す座標の入力に限らず、見出し無し文字列のみの入力でもよいので、オペレータの補正入力を見出し無し文字列のみの入力により行うことで、定義体620への定義情報の登録に伴うオペレータの作業を軽減することができる。 As described above, according to the form processing performed by the form processing apparatus 2, when the definition information including the same or similar feature information as the feature information of the image of the form including the character string without heading is not registered in the definition body 620 is corrected by the operator and the definition information of the form is registered in the definition body 620 . The operator's correction input is not limited to the input of the non-heading character string and the coordinates indicating the area of the non-heading character string. By doing so, it is possible to reduce the operator's work involved in registering the definition information in the definition body 620 .

なお、帳票処理装置2の機能的構成は、図2に例示した構成に限らず、適宜変更可能である。例えば、サーバ装置6が保持する文字認識辞書610と定義体620の一方又は両方を、帳票処理装置2が備える記憶部(図示しない)に記憶させておいてもよい。また、帳票処理装置2は、例えば、メモリカードや光ディスク等の可搬型記録媒体、或いはネットワークを介して提供される帳票の画像を取得して上記の帳票処理を行えるようにしてもよい。 Note that the functional configuration of the form processing device 2 is not limited to the configuration illustrated in FIG. 2, and can be changed as appropriate. For example, one or both of the character recognition dictionary 610 and the definition body 620 held by the server device 6 may be stored in a storage unit (not shown) provided in the form processing device 2 . Further, the form processing apparatus 2 may acquire an image of a form provided via a portable recording medium such as a memory card or an optical disc, or a network, and perform the above-described form processing.

加えて、帳票処理装置2は、コンピュータと、該コンピュータに実行させるプログラムとにより実現可能である。以下、コンピュータとプログラムとにより実現される帳票処理装置2について、図11を参照して説明する。 In addition, the form processing device 2 can be realized by a computer and a program executed by the computer. The form processing apparatus 2 implemented by a computer and a program will be described below with reference to FIG.

図11は、コンピュータのハードウェア構成を例示する図である。
図11に例示するように、コンピュータ9は、CPU(Central Processing Unit)901と、メモリ902と、補助記憶装置903と、入力装置904と、表示装置905とを備える。また、コンピュータ9は、入出力インタフェース906と、通信制御装置907と、媒体駆動装置908とを備える。コンピュータ9におけるこれらの要素901~908は、バス909により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
FIG. 11 is a diagram illustrating the hardware configuration of a computer;
As illustrated in FIG. 11 , the computer 9 includes a CPU (Central Processing Unit) 901 , a memory 902 , an auxiliary storage device 903 , an input device 904 and a display device 905 . The computer 9 also includes an input/output interface 906 , a communication control device 907 and a media drive device 908 . These elements 901 to 908 in the computer 9 are interconnected by a bus 909 so that data can be exchanged between the elements.

CPU901は、オペレーティングシステムを含む各種のプログラムを実行することによりコンピュータ9の全体の動作を制御する。例えば、CPU901は、図3及び図5~図10を用いて説明した各処理を含む帳票処理プログラムを実行する。 A CPU 901 controls the overall operation of the computer 9 by executing various programs including an operating system. For example, the CPU 901 executes a form processing program including each process described with reference to FIGS. 3 and 5 to 10. FIG.

メモリ902は、図示しないROM(Read Only Memory)及びRAM(Random Access Memory)を含む。メモリ902のROMには、例えば、コンピュータ9の起動時にCPU901が読み出す所定の基本制御プログラム等が予め記録されている。また、メモリ902のRAMは、CPU901が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。メモリ902のRAMは、例えば、帳票の画像、帳票の画像の特徴情報、見出し無し文字列、見出し無し文字列の領域を示す座標等の一時的な記憶に利用可能である。 The memory 902 includes ROM (Read Only Memory) and RAM (Random Access Memory), which are not shown. The ROM of the memory 902 prerecords, for example, a predetermined basic control program that is read by the CPU 901 when the computer 9 is started. The RAM of the memory 902 is used by the CPU 901 as a work storage area as necessary when executing various programs. The RAM of the memory 902 can be used for temporary storage of, for example, a form image, feature information of the form image, a character string without a heading, coordinates indicating an area of the character string without a heading, and the like.

補助記憶装置903は、例えば、HDD(Hard Disk Drive)等の磁気ディスク、及びフラッシュメモリ等の不揮発性メモリである。補助記憶装置903には、CPU901によって実行される各種のプログラムや各種のデータ等を記憶させることができる。補助記憶装置903は、例えば、上述の帳票処理プログラム等の記憶に利用可能である。また、補助記憶装置903は、例えば、帳票の画像、帳票処理の処理結果等の記憶に利用可能である。 The auxiliary storage device 903 is, for example, a magnetic disk such as an HDD (Hard Disk Drive) and a non-volatile memory such as a flash memory. Various programs executed by the CPU 901 and various data can be stored in the auxiliary storage device 903 . The auxiliary storage device 903 can be used to store, for example, the form processing program described above. Further, the auxiliary storage device 903 can be used to store, for example, images of forms, processing results of form processing, and the like.

入力装置904は、例えば、キーボード装置、マウス装置、及びタッチパネル装置等である。コンピュータ9のオペレータが入力装置904に対し所定の操作を行うと、入力装置904は、その操作内容に対応付けられている入力情報をCPU901に送信する。入力装置904は、図1の帳票処理システム1における入力装置4に相当する。 The input device 904 is, for example, a keyboard device, a mouse device, a touch panel device, or the like. When the operator of the computer 9 performs a predetermined operation on the input device 904 , the input device 904 transmits input information associated with the content of the operation to the CPU 901 . The input device 904 corresponds to the input device 4 in the form processing system 1 of FIG.

表示装置905は、例えば、液晶表示装置である。表示装置905は、例えば、コンピュータ9の動作状態や、帳票の画像、帳票処理の処理結果等の表示に利用可能である。表示装置905は、図1の帳票処理システム1における表示装置5に相当する。 The display device 905 is, for example, a liquid crystal display device. The display device 905 can be used to display, for example, the operating state of the computer 9, images of forms, processing results of form processing, and the like. A display device 905 corresponds to the display device 5 in the form processing system 1 in FIG.

入出力インタフェース906は、コンピュータ9と、電子部品や他の電子装置(例えばスキャナ装置3)等とを接続する。入出力インタフェース906は、例えば、USB(Universal Serial Bus)規格のコネクタを備えたフラッシュメモリの接続にも利用可能である。 The input/output interface 906 connects the computer 9 with electronic components and other electronic devices (for example, the scanner device 3). The input/output interface 906 can also be used, for example, to connect a flash memory having a USB (Universal Serial Bus) standard connector.

通信制御装置907は、コンピュータ9をネットワークに接続し、ネットワークを介したコンピュータ9と他の電子機器との各種通信を制御する装置である。通信制御装置907は、例えば、図1の帳票処理システム1におけるサーバ装置6が保持する文字認識辞書や定義体を参照することや定義体に定義情報を登録することに利用可能である。 The communication control device 907 is a device that connects the computer 9 to a network and controls various communications between the computer 9 and other electronic devices via the network. The communication control device 907 can be used, for example, to refer to the character recognition dictionary and the definition form held by the server device 6 in the form processing system 1 of FIG. 1 and to register definition information in the definition form.

媒体駆動装置908は、可搬型記録媒体10に記録されているプログラムやデータの読み出し、補助記憶装置903に記憶されたデータ等の可搬型記録媒体10への書き込みを行う。可搬型記録媒体10としては、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)がある。可搬型記録媒体10は、上記の帳票処理プログラム、帳票の画像、帳票処理の処理結果等の記憶に利用可能である。また、コンピュータ9が媒体駆動装置908として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体10として利用可能である。可搬型記録媒体10として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。 The medium drive device 908 reads programs and data recorded in the portable recording medium 10 and writes data stored in the auxiliary storage device 903 to the portable recording medium 10 . As the portable recording medium 10, for example, there is a Secure Digital (SD) standard memory card (flash memory). The portable recording medium 10 can be used to store the form processing program, the image of the form, the processing result of the form processing, and the like. Also, when the computer 9 is equipped with an optical disk drive that can be used as the medium drive device 908 , various optical disks that can be recognized by the optical disk drive can be used as the portable recording medium 10 . Optical discs that can be used as the portable recording medium 10 include, for example, Compact Discs (CDs), Digital Versatile Discs (DVDs), Blu-ray Discs (Blu-ray is a registered trademark), and the like.

コンピュータ9は、オペレータが入力装置904を操作して帳票処理プログラムの開始命令を入力すると、CPU901が補助記憶装置903等から上述の帳票処理プログラムを読み出して実行する。帳票処理プログラムを実行している間、CPU901は、図2に例示した帳票処理装置2における文字認識部220、特徴情報生成部230、判定部240、見出し無し文字列取得部250、座標取得部260、登録部270、及び表示制御部280として機能(動作)する。また、帳票の画像をスキャナ装置3から取得する場合、CPU901及び入出力インタフェース906は、図2に例示した帳票処理装置2におけるスキャナ制御部210として機能する。また、コンピュータ9とは別のサーバ装置6等が保持している文字認識辞書610の参照が行われる場合、通信制御装置907が文字認識部220の持つ機能の一部を担う。また、コンピュータ9とは別のサーバ装置6等が保持している定義体620の参照が行われる場合、通信制御装置907が、文字認識部220の持つ機能の一部や、判定部240の持つ機能の一部や、見出し無し文字列取得部250の持つ機能の一部を担う。更に、コンピュータ9とは別のサーバ装置6等が保持している定義体620への登録が行われる場合、通信制御装置907が、登録部270の持つ機能の一部を担う。 When the operator operates the input device 904 to input a command to start the form processing program, the computer 9 causes the CPU 901 to read out the above-described form processing program from the auxiliary storage device 903 or the like and execute it. While executing the form processing program, the CPU 901 controls the character recognition unit 220, the feature information generation unit 230, the determination unit 240, the indexless character string acquisition unit 250, the coordinate acquisition unit 260 in the form processing apparatus 2 illustrated in FIG. , the registration unit 270 , and the display control unit 280 . When acquiring a form image from the scanner device 3, the CPU 901 and the input/output interface 906 function as the scanner control unit 210 in the form processing device 2 illustrated in FIG. Also, when the character recognition dictionary 610 held by the server device 6 or the like different from the computer 9 is referred to, the communication control device 907 takes part of the functions of the character recognition section 220 . Further, when the definition body 620 held by the server device 6 or the like different from the computer 9 is referred to, the communication control device 907 uses part of the functions of the character recognition unit 220 or the functions of the determination unit 240. Part of the functions and part of the functions of the headline-less character string acquisition unit 250 are provided. Furthermore, when registration is performed in the definition body 620 held by the server device 6 or the like different from the computer 9 , the communication control device 907 takes part of the functions of the registration unit 270 .

なお、帳票処理装置2として動作させるコンピュータ9は、図11に例示した要素901~908の全てを含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ9は、媒体駆動装置908や通信制御装置907が省略されたものであってもよい。 Note that the computer 9 operated as the form processing apparatus 2 does not need to include all of the elements 901 to 908 illustrated in FIG. 11, and it is possible to omit some of the elements depending on the application and conditions. For example, the computer 9 may omit the media drive device 908 and the communication control device 907 .

以上、本発明の実施の形態を説明したが、本発明は、上述した実施の形態に限定されることなく、本発明の要旨を逸脱しない範囲内で種々の改良・変更が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the above-described embodiments, and various improvements and modifications are possible without departing from the gist of the present invention.

1 帳票処理システム
2 帳票処理装置
3 スキャナ装置
4 入力装置
5 表示装置
6 サーバ装置
7 ネットワーク
8 画像
9 コンピュータ
10 可搬型記録媒体
210 スキャナ制御部
220 文字認識部
230 特徴情報生成部
240 判定部
250 見出し無し文字列取得部
260 座標取得部
270 登録部
280 表示制御部
290 主制御部
610 文字認識辞書
620 定義体
901 CPU
902 メモリ
903 補助記憶装置
904 入力装置
905 表示装置
906 入出力インタフェース
907 通信制御装置
908 媒体駆動装置
909 バス
1 form processing system 2 form processing device 3 scanner device 4 input device 5 display device 6 server device 7 network 8 image 9 computer 10 portable recording medium 210 scanner control section 220 character recognition section 230 feature information generation section 240 determination section 250 no heading Character string acquisition unit 260 Coordinate acquisition unit 270 Registration unit 280 Display control unit 290 Main control unit 610 Character recognition dictionary 620 Definition body 901 CPU
902 Memory 903 Auxiliary Storage Device 904 Input Device 905 Display Device 906 Input/Output Interface 907 Communication Control Device 908 Media Drive Device 909 Bus

Claims (5)

対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成し、
生成した前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定し、
前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定した場合に、前記見出し無し文字列の入力を受け付け、
前記帳票の画像における、受け付けた前記見出し無し文字列の領域を示す座標を取得し、
生成した前記特徴情報と、受け付けた前記見出し無し文字列と、取得した前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録し、
前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得する、
処理をコンピュータに実行させることを特徴とする帳票処理プログラムであって、
前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得する、
ことを特徴とする帳票処理プログラム
Generating feature information of an image of a form including a character string without a heading, which is a character string without a corresponding heading character string,
Determining whether definition information including feature information identical or similar to the generated feature information is registered in the definition body,
when it is determined that the definition information including the same or similar feature information is not registered in the definition body, accepting the input of the headline-less character string;
obtaining coordinates indicating the area of the accepted non-heading character string in the image of the form;
registering definition information including the generated feature information, the accepted non-heading character string, and the coordinates indicating the area of the acquired non-heading character string in the definition body as definition information of the form ;
when it is determined that the definition information including the same or similar feature information is registered in the definition body, obtaining a non-heading character string included in the definition information including the same or similar feature information;
A form processing program characterized by causing a computer to execute processing ,
In the process of acquiring the non-heading character string, when a plurality of definition information containing the same or similar feature information are registered in the definition body, for each definition information containing the same or similar feature information, the Determining whether or not a character string without a heading included in the definition information matches a character recognition result for an area of the image of the form corresponding to the coordinates indicating the area of the character string without a heading included in the definition information and obtain the headline-less string when both match,
A form processing program characterized by:
前記見出し無し文字列は、委託先名を示す文字列である
ことを特徴とする請求項に記載の帳票処理プログラム。
2. The form processing program according to claim 1 , wherein the non-heading character string is a character string indicating a consignee name.
前記特徴情報は、線分の分布の特徴を示す情報である、
ことを特徴とする請求項1又は2に記載の帳票処理プログラム。
The feature information is information indicating features of distribution of line segments,
The form processing program according to claim 1 or 2 , characterized by:
対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成し、
生成した前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定し、
前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定した場合に、前記見出し無し文字列の入力を受け付け、
前記帳票の画像における、受け付けた前記見出し無し文字列の領域を示す座標を取得し、
生成した前記特徴情報と、受け付けた前記見出し無し文字列と、取得した前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録し、
前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得する、
ことを特徴とする帳票処理方法であって、
前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得する、
ことを特徴とする帳票処理方法
Generating feature information of an image of a form including a character string without a heading, which is a character string without a corresponding heading character string,
Determining whether definition information including feature information identical or similar to the generated feature information is registered in the definition body,
when it is determined that the definition information including the same or similar feature information is not registered in the definition body, accepting the input of the headline-less character string;
obtaining coordinates indicating the area of the accepted non-heading character string in the image of the form;
registering definition information including the generated feature information, the accepted non-heading character string, and the coordinates indicating the area of the acquired non-heading character string in the definition body as definition information of the form ;
when it is determined that the definition information including the same or similar feature information is registered in the definition body, obtaining a non-heading character string included in the definition information including the same or similar feature information;
A form processing method characterized by
In the process of acquiring the non-heading character string, when a plurality of definition information containing the same or similar feature information are registered in the definition body, for each definition information containing the same or similar feature information, the Determining whether or not a character string without a heading included in the definition information matches a character recognition result for an area of the image of the form corresponding to the coordinates indicating the area of the character string without a heading included in the definition information and obtain the headline-less string when both match,
A form processing method characterized by:
対応する見出し文字列が無い文字列である見出し無し文字列を含む帳票の画像の特徴情報を生成する生成部と、
前記生成部により生成された前記特徴情報と同一又は類似の特徴情報を含む定義情報が定義体に登録されているか否かを判定する判定部と、
前記判定部により前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていないと判定され、前記見出し無し文字列の入力が受け付けられた場合に、前記帳票の画像における、受け付けられた前記見出し無し文字列の領域を示す座標を取得する座標取得部と、
前記生成部により生成された特徴情報と、受け付けられた前記見出し無し文字列と、前記座標取得部により取得された前記見出し無し文字列の領域を示す座標とを含む定義情報を、前記帳票の定義情報として前記定義体に登録する登録部と
前記同一又は類似の特徴情報を含む定義情報が前記定義体に登録されていると判定した場合に、前記同一又は類似の特徴情報を含む定義情報に含まれる見出し無し文字列を取得する見出し無し文字列取得部と、
を備えることを特徴とする帳票処理装置であって、
前記見出し無し文字列を取得する処理は、前記同一又は類似の特徴情報を含む定義情報が前記定義体に複数登録されている場合に、前記同一又は類似の特徴情報を含む定義情報毎に、当該定義情報に含まれる見出し無し文字列と、当該定義情報に含まれる前記見出し無し文字列の領域を示す座標に対応する前記帳票の画像の領域に対する文字認識の結果とが一致するか否かを判定し、両者が一致したときの前記見出し無し文字列を取得する、
ことを特徴とする帳票処理装置
a generation unit that generates feature information of an image of a form including a character string without a heading, which is a character string without a corresponding heading character string;
a determination unit that determines whether or not definition information including feature information identical or similar to the feature information generated by the generation unit is registered in a definition body;
When the determination unit determines that the definition information including the same or similar characteristic information is not registered in the definition body and the input of the headline-less character string is accepted, a coordinate acquisition unit for acquiring coordinates indicating the area of the headline-less character string;
definition information including the feature information generated by the generation unit, the accepted character string without headings, and the coordinates indicating the area of the character string without headings obtained by the coordinate obtaining unit; a registration unit that registers information in the definition body ;
Heading-less character for acquiring a heading-less character string included in the definition information including the same or similar feature information when it is determined that the definition information including the same or similar feature information is registered in the definition body. a column acquisition unit;
A form processing device comprising :
In the process of acquiring the non-heading character string, when a plurality of definition information containing the same or similar feature information are registered in the definition body, for each definition information containing the same or similar feature information, the Determining whether or not a character string without a heading included in the definition information matches a character recognition result for an area of the image of the form corresponding to the coordinates indicating the area of the character string without a heading included in the definition information and obtain the headline-less string when both match,
A form processing device characterized by:
JP2019125555A 2019-07-04 2019-07-04 FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS Active JP7201545B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019125555A JP7201545B2 (en) 2019-07-04 2019-07-04 FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019125555A JP7201545B2 (en) 2019-07-04 2019-07-04 FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS

Publications (2)

Publication Number Publication Date
JP2021012486A JP2021012486A (en) 2021-02-04
JP7201545B2 true JP7201545B2 (en) 2023-01-10

Family

ID=74227470

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125555A Active JP7201545B2 (en) 2019-07-04 2019-07-04 FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS

Country Status (1)

Country Link
JP (1) JP7201545B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208565A (en) 2002-01-11 2003-07-25 Glory Ltd Document registration support method and device, and program
JP2011118513A (en) 2009-12-01 2011-06-16 Toshiba Corp Character recognition device and form identification method
JP2016081380A (en) 2014-10-20 2016-05-16 富士通フロンテック株式会社 Business form processing program and business form processing device
JP2020016969A (en) 2018-07-24 2020-01-30 富士通フロンテック株式会社 Program and document classification device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003208565A (en) 2002-01-11 2003-07-25 Glory Ltd Document registration support method and device, and program
JP2011118513A (en) 2009-12-01 2011-06-16 Toshiba Corp Character recognition device and form identification method
JP2016081380A (en) 2014-10-20 2016-05-16 富士通フロンテック株式会社 Business form processing program and business form processing device
JP2020016969A (en) 2018-07-24 2020-01-30 富士通フロンテック株式会社 Program and document classification device

Also Published As

Publication number Publication date
JP2021012486A (en) 2021-02-04

Similar Documents

Publication Publication Date Title
US20140239070A1 (en) Commodity information display apparatus and method for displaying commodity information in different forms
US11670067B2 (en) Information processing apparatus and non-transitory computer readable medium
CN103703436A (en) Data processing device, data processing method, data processing program, and computer-readable recording medium which records program
US20130136360A1 (en) Image processing apparatus, image processing method, and computer readable medium
JP2020042320A (en) Image recognition apparatus, image recognition method and image recognition program
JP7201545B2 (en) FORM PROCESSING PROGRAM, FORM PROCESSING METHOD, AND FORM PROCESSING APPARATUS
JP5171211B2 (en) Data format converter
JP5440043B2 (en) Image processing apparatus and image processing program
JP2008052439A (en) Image processing system and image processing program
US11206336B2 (en) Information processing apparatus, method, and non-transitory computer readable medium
JP2021140831A (en) Document image processing system, document image processing method, and document image processing program
JP2011008584A (en) Apparatus and program for processing information
JP2004199529A (en) Business form recognition device and business form recognition method
JP6682827B2 (en) Information processing apparatus and information processing program
JP4693167B2 (en) Form search device, form search method, program, and computer-readable storage medium
JP6512000B2 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP2010152464A (en) Character recognition device, and confirmation screen generation method for character recognition device
JP5928714B2 (en) Information processing apparatus and information processing program
JP7445364B2 (en) Image processing program, image processing method, and image processing device
JP2006134079A (en) Image processing device and program
WO2021117128A1 (en) Form image processing system
JP2012063822A (en) Information processor and information processing program
JP2008152502A (en) Document image retrieval device and program
JP7370733B2 (en) Information processing device, control method, and program
JP3005380B2 (en) Slip transaction data input device and input method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221222

R150 Certificate of patent or registration of utility model

Ref document number: 7201545

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150