JP5318742B2 - Character recognition method, character recognition device, and character recognition program - Google Patents

Character recognition method, character recognition device, and character recognition program Download PDF

Info

Publication number
JP5318742B2
JP5318742B2 JP2009283087A JP2009283087A JP5318742B2 JP 5318742 B2 JP5318742 B2 JP 5318742B2 JP 2009283087 A JP2009283087 A JP 2009283087A JP 2009283087 A JP2009283087 A JP 2009283087A JP 5318742 B2 JP5318742 B2 JP 5318742B2
Authority
JP
Japan
Prior art keywords
character string
data
character
heading
headline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009283087A
Other languages
Japanese (ja)
Other versions
JP2011123825A (en
Inventor
昌昭 小澤
博貴 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Frontech Ltd
Original Assignee
Fujitsu Frontech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Frontech Ltd filed Critical Fujitsu Frontech Ltd
Priority to JP2009283087A priority Critical patent/JP5318742B2/en
Publication of JP2011123825A publication Critical patent/JP2011123825A/en
Application granted granted Critical
Publication of JP5318742B2 publication Critical patent/JP5318742B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は文字認識方法、文字認識装置および文字認識プログラムに関し、特に無罫線の帳票におけるデータ部分が規則的に整列していない連記帳票の文字を認識する文字認識方法、文字認識装置および文字認識プログラムに関する。   The present invention relates to a character recognition method, a character recognition device, and a character recognition program, and in particular, a character recognition method, a character recognition device, and a character recognition program for recognizing characters in a continuous form in which data portions in a ruled line form are not regularly arranged. About.

金融機関等では、帳票に印字された文字の入力を自動化するために、帳票上の文字を認識する文字認識装置が用いられている。この文字認識装置では、文字認識の精度を高めるために、帳票に印刷される見出し部分およびデータ部分がどの位置にどのような順序で印刷されているかを定義し、その定義情報に基づいて文字列を認識している。   In a financial institution or the like, a character recognition device that recognizes characters on a form is used to automate the input of characters printed on the form. In this character recognition device, in order to increase the accuracy of character recognition, the heading part and the data part printed on the form are defined in what position and in what order, and the character string is based on the definition information. Recognize.

図24は連記式の帳票の一例を示す図である。
連記式の帳票の例として、ここでは、振込依頼書を示している。この帳票100によれば、その上部に、これが「振込依頼書」であり、振込人が「(株)あいうシステム」であり、振込指定日が何時であるかが記載されている。
FIG. 24 is a diagram showing an example of a continuous writing form.
Here, a transfer request form is shown as an example of the continuous entry form. According to this form 100, at the top thereof, this is a “transfer request form”, the transfer person is “A system called“ Co., Ltd. ”, and the designated transfer date is described.

帳票100の主要部には、明細101が表形式で記載されている。明細101は、見出し部分102、データ部分103および見出しフッタ104から構成され、見出し部分102は、1行の見出しヘッダを構成し、データ部分103は、複数の明細行からなっている。見出し部分102には、「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」および「金額」の項目が設定されている。データ部分103は、見出し部分102の各項目に対応した文字列のデータが振込先の数だけ連記されている。見出しフッタ104には、見出しの「振込合計」とその数値データとが記載されている。   In the main part of the form 100, details 101 are described in a table format. The description 101 is composed of a heading portion 102, a data portion 103, and a heading footer 104. The heading portion 102 constitutes a heading header of one line, and the data portion 103 is composed of a plurality of detail lines. In the header portion 102, items of “bank name”, “branch name”, “subject”, “account number”, “recipient name”, and “amount” are set. In the data portion 103, character string data corresponding to each item of the heading portion 102 is continuously written for the number of transfer destinations. The heading footer 104 describes the “transfer total” of the heading and its numerical data.

この帳票100では、見出し部分102のそれぞれの項目とそれに対応するデータ部分103の文字列とは、予め定められた定義情報に従って整列して印字されている。その定義情報には、見出し部分102の項目およびこれに対応するデータ部分103のデータについての位置情報および文字情報が定義されていて、帳票100における文字列のレイアウトおよび文字列の属性等が分るようになっている。   In the form 100, each item of the heading portion 102 and the character string of the data portion 103 corresponding to the item are aligned and printed in accordance with predetermined definition information. In the definition information, position information and character information about the item of the heading portion 102 and the data portion 103 corresponding thereto are defined, and the character string layout and character string attributes in the form 100 are known. It is like that.

このように、帳票100のデータ部分103を認識するには、見出し項目に対応するデータの位置情報を定義しておく必要があるため、あらかじめ定義情報を登録した帳票しか文字認識をすることができない。また、その帳票のフォーマットが変更になった場合には、登録した帳票の定義情報をその都度変更する必要がある。   As described above, in order to recognize the data portion 103 of the form 100, it is necessary to define the position information of the data corresponding to the heading item. Therefore, only the form in which the definition information is registered can recognize characters. . When the format of the form is changed, the definition information of the registered form needs to be changed each time.

これに対し、定義情報の登録を不要にしてフォーマットの変更があっても柔軟に対応することができる文字認識装置が知られている(たとえば、特許文献1参照)。この特許文献1に記載の文字認識装置によれば、帳票の文字の定義情報をあらかじめ作成することがなく、帳票の文字列の並びの規則性を利用して帳票の文字のレイアウトを検出し、そのレイアウトと、見出しの順序と、見出しに対応する文字列の定義情報とから、データ部分の文字列を認識している。   On the other hand, there is known a character recognition device that can flexibly cope with a format change without requiring registration of definition information (see, for example, Patent Document 1). According to the character recognition device described in Patent Document 1, the character information of the form is not created in advance, and the character layout of the form is detected using the regularity of the arrangement of the character strings of the form. The character string of the data part is recognized from the layout, the order of the headings, and the definition information of the character strings corresponding to the headings.

また、文字列を罫線枠の中に印字する帳票では、見出し部分およびそれに対応するデータ部分がそれぞれの罫線枠内に複数行記載されることがある。そのような場合、それぞれの罫線枠内では、途中で複数行に折り返された文字列が記載されているので、文字認識のときには、複数ある見出しの項目と複数行に記載された各行の文字列との対応付けを行うようにしている(たとえば、特許文献2参照)。   In addition, in a form in which a character string is printed in a ruled line frame, a heading part and a data part corresponding to the headline part may be described in a plurality of lines in each ruled line frame. In such a case, a character string that is folded back into multiple lines in the middle of each ruled line frame is described, so when recognizing characters, multiple headline items and character strings in each line listed in multiple lines (See, for example, Patent Document 2).

特開平11−161736号公報Japanese Patent Laid-Open No. 11-161736 特開2000−29983号公報JP 2000-29983 A

従来の文字認識装置は、帳票の文字列の並びの規則性を利用して帳票の文字列を認識しているため、帳票の文字列は、見出しの項目とそれに対応するデータ部分の文字列とは、一列に整列されていて、見出しに対するデータの対応付けが見出しの順番で行われている。しかしながら、近年では、見出しとデータ部分の文字列とが整列した上記のような定型的な帳票以外に、金融機関等の顧客(以下、エンドユーザという)から持ち込まれる帳票(以下、私製帳票という)についても同じように文字認識処理を行ないたいというニーズが出てきている。   Since the conventional character recognition device recognizes the character string of the form by utilizing the regularity of the arrangement of the character string of the form, the character string of the form includes the heading item and the character string of the corresponding data portion. Are arranged in a line, and data is associated with the headings in the order of the headings. However, in recent years, in addition to the above-mentioned regular forms in which the headline and the character string of the data part are aligned, forms brought in from customers (hereinafter referred to as end users) such as financial institutions (hereinafter referred to as private forms) There is also a need to perform character recognition processing in the same way.

私製帳票は、エンドユーザが自由な構想で作成した帳票であるため、必ずしも見出しとデータ部分の文字列とが規則的に整列されているとは限らない。たとえば、見出し行および明細行において、見出しの項目とそれに対応する文字列とが一列に並んで配置されずに文字列が最小の間隔で隔てて印刷されることがある。また、見出しに対応するデータが、たとえば、氏名の姓名を空白文字で結合した文字列とした場合、当該明細行では、見出しの項目数と文字列の数とが一致しなくなる。   Since the private form is a form created by the end user with a free concept, the heading and the character string of the data part are not necessarily regularly arranged. For example, in a heading line and a detail line, a heading item and a character string corresponding to the heading item may not be arranged in a line, and the character string may be printed with a minimum interval. Further, when the data corresponding to the headline is, for example, a character string in which the full name is combined with a blank character, the number of items in the headline and the number of character strings do not match in the detail line.

さらに、見出しとデータ部分の文字列とが規則的に整列されていても、1つのデータが同じ列内で折り返した文字列で印刷されて、その明細行のみ2行表示となることがあり、その結果、明細行が1行のものと複数行のものとが混在することがある。   Furthermore, even if the heading and the character string of the data portion are regularly arranged, one data may be printed as a character string folded in the same column, and only the detail line may be displayed in two lines. As a result, there may be a mixture of one detail line and multiple detail lines.

定型的ではない私製帳票は、帳票の文字列のレイアウトを検出する際に、上下に隣り合う2つの行の文字列の構造が同じであるかどうかで明細の範囲を判断する原理であるため、見出しに対するデータの文字列が整列していない場合、または見出しに対するデータが折り返しのために連続して存在していない場合は、帳票の文字列のレイアウトが正確に検出できず、文字列の文字認識処理ができないという問題点があった。   Non-standard private forms are the principle of determining the range of a statement based on whether or not the structure of the character strings in two adjacent rows is the same when detecting the character string layout of the form. If the data string for the heading is not aligned, or if the data for the heading does not exist continuously due to wrapping, the layout of the text in the form cannot be accurately detected, and the character recognition of the character string There was a problem that it could not be processed.

本発明はこのような点に鑑みてなされたものであり、見出し部分に対するデータ部分の文字列の並びが規則的に整列していない帳票においても、帳票の文字のレイアウトを解析し、帳票のデータ部分の文字列を認識する文字認識方法、文字認識装置および文字認識プログラムを提供することを目的とする。   The present invention has been made in view of such a point, and even in a form in which the arrangement of the character string of the data part with respect to the heading part is not regularly arranged, the layout of the character of the form is analyzed, and the form data An object of the present invention is to provide a character recognition method, a character recognition device, and a character recognition program for recognizing a partial character string.

本発明では上記の課題を解決するために、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する文字認識方法において、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、ことを特徴とする文字認識方法が提供される。   In the present invention, in order to solve the above problem, in a character recognition method for recognizing a character string of a form having a character string of a heading part and a character string of a data part, the character string extracted from the image data of the form Extract the logical lines in which the character strings are arranged in the horizontal direction from the positional relationship on the form, recognize the character strings in the logical lines, extract the heading lines in which the headline character strings of the details are arranged, and the total number of the headline character strings Detail lines with the same ratio of the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis, and the character string in the data part corresponding to the heading is fixed. Identifies long data and associates it with the heading item. The character string of the data portion corresponding to the heading has a variable length and the first variable length data that does not wrap the character string is identified and associated with the heading item. The headline The heading item is specified by specifying the second variable length data in which the character string of the data portion has a variable length and the character string may be folded, and the heading and the number of character strings of the data portion correspond one-to-one. The character string of the data portion corresponding to the heading has a variable length, and the character string may be folded, and the third variable length in which the number of character strings of the heading and the data portion corresponds 1 to N Identify the data and make it correspond to the item of the headline, combine the character string that spans multiple lines by wrapping as one data, and use the dictionary of the category corresponding to the content of the heading to character string of the data part A character recognition method characterized by recognition is provided.

また、本発明では、帳票のイメージデータから文字列を抽出し、文字列の位置関係から論理行を抽出し、文字列を認識して見出し行を抽出するレイアウト解析処理部と、見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、データ部分の文字列を認識する文字認識処理部と、文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、を備え、前記対応付け処理部は、見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、を有していることを特徴とする文字認識装置が提供される。   In the present invention, a layout analysis processing unit that extracts a character string from image data of a form, extracts a logical line from the positional relationship of the character string, recognizes the character string, and extracts a heading line; An association processing unit for associating a column with a character string of the data part, a character recognition processing unit for recognizing the character string of the data part, a data storage unit storing a dictionary necessary for character string recognition and identification, The association processing unit extracts a line having the same ratio between the total number of headings and the number of character strings of the data in the line, and unconditionally associates the heading part and the data part, and A fixed-length data identification unit that identifies data whose character string in the data part corresponding to the heading has a fixed length, and data that has a variable-length character string in the data part corresponding to the heading and that does not wrap the character string 1st variable to A data specifying unit and a character string of a data part corresponding to a headline have a variable length, and the character string may be folded. The variable-length data specifying unit and the character string of the data part corresponding to the headline have variable length, and the character string may be folded, and the data corresponding to the number of headings and character strings is specified as 1 to N. There is provided a character recognition device including a third variable length data specifying unit and a folded data integrating unit that integrates character strings straddling a plurality of lines by folding as one data.

さらに、本発明では、見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する処理をコンピュータに実行させる文字認識プログラムであって、前記コンピュータに、前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、折り返しにより複数行に跨っている文字列を1つのデータとして統合し、データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、処理を実行させることを特徴とする文字認識プログラムが提供される。   Furthermore, in the present invention, there is provided a character recognition program for causing a computer to execute processing for recognizing a character string of a form having a character string of a heading part and a character string of a data part. Extracting logical lines in which the character strings are arranged in a horizontal direction from the positional relationship of the extracted character strings on the form, extracting the heading lines in which the character strings of the details are recognized by recognizing the character strings of the logical lines, Data corresponding to the headline is extracted by extracting details lines having the same ratio between the total number of character strings in the headline and the number of character strings in the data part, and matching the headline item in the headline part with the character string in the data part on a one-to-one basis The character string of the part specifies fixed-length data and corresponds to the heading item, and the character string of the data part corresponding to the heading is variable-length and specifies the first variable-length data that does not wrap the character string. The The character string of the data part corresponding to the heading has a variable length, and the character string may be folded, and the heading and the number of character strings of the data part have a one-to-one correspondence. 2 Specify variable-length data and make it correspond to the heading item. The character string of the data part corresponding to the heading has a variable length and the character string may be folded. Identifies the third variable-length data corresponding to 1 to N and associates it with the item of the headline. By folding, the character strings straddling multiple lines are integrated as one data, and the character string of the data portion There is provided a character recognition program characterized in that a character recognition process is executed using a category dictionary corresponding to the content.

このような文字認識方法、文字認識装置および文字認識プログラムによれば、データ部分の文字列に対し、容易に特定できる文字列から順に解析し、残った解析しにくい文字列を最後に消去法で特定することで、見出しに対するデータ部分の文字列を順次特定するようにした。これにより、無罫線の帳票に自由なレイアウトで印字された文字列を認識することが可能となる。   According to such a character recognition method, character recognition device, and character recognition program, the character string of the data part is analyzed in order from the easily identifiable character string, and the remaining difficult-to-analyze character string is finally deleted by the erasing method. By specifying, the character string of the data part for the heading was specified sequentially. As a result, it is possible to recognize a character string printed in a free layout on a ruled line form.

上記構成の文字認識方法、文字認識装置および文字認識プログラムは、容易に特定できる文字列から順に解析していく方法であるため、現状の定型的な帳票の作成仕様の範囲を超えた文字認識処理が可能となり、対応できる帳票の種類を増大させることができるという利点がある。   The character recognition method, character recognition device, and character recognition program configured as described above are methods of analyzing in order starting from a character string that can be easily specified, so that the character recognition process exceeds the scope of the current standard form creation specifications. There is an advantage that the types of forms that can be handled can be increased.

また、見出しとデータ部分の文字列とが一列に整列していないような非定型の帳票は、オペレータがレイアウトを解析して文字列を入力していたが、このようなレイアウト解析が困難で文字認識結果に誤りが多い帳票も文字認識処理が可能であるので、オペレータの入力負荷を軽減することができる。   In addition, an atypical form in which the heading and the character string of the data part are not aligned in a single line was input by the operator by analyzing the layout. Since a form having many errors in the recognition result can be subjected to character recognition processing, the input load on the operator can be reduced.

第1の実施の形態に係る文字認識装置を示すブロック図である。It is a block diagram which shows the character recognition apparatus which concerns on 1st Embodiment. 見出しに対するデータが一列に整列していない帳票例を示す図である。It is a figure which shows the example of a form in which the data with respect to a heading are not arranged in a line. 複数行の明細行が混在する帳票例を示す図である。It is a figure which shows the example of a form in which the detail line of several lines is mixed. レイアウト解析処理部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of a layout analysis process part. 対応付け処理部の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of a matching process part. 見出し文言辞書から取得した文字列の属性および特徴の情報を示す図である。It is a figure which shows the attribute and characteristic information of the character string acquired from the headline wording dictionary. 見出し部分とデータ部分とが1対1で対応している状態を説明する図である。It is a figure explaining the state with which a header part and a data part respond | correspond one-to-one. 1対1で対応している見出し部分とデータ部分とが対応付けされた結果の帳票を示す図である。It is a figure which shows the form of the result as which the headline part and data part which respond | correspond one-to-one were matched. 見出しに対応するデータが固定長の文字列の文字列幅を計測する説明図である。It is explanatory drawing which measures the character string width | variety of the character string whose data corresponding to a headline are fixed length. 見出し部分とデータ部分とが1対1で対応していない行における固定長データを示す説明図である。It is explanatory drawing which shows the fixed length data in the line where the heading part and the data part do not respond | correspond 1: 1. 一致率を表す得点の例を示す図である。It is a figure which shows the example of the score showing a coincidence rate. 固定長データが対応付けされた結果の帳票を示す図である。It is a figure which shows the form of the result as which fixed length data was matched. 見出し部分とデータ部分とが1対1で対応していない行における第1可変長データを示す説明図である。It is explanatory drawing which shows the 1st variable length data in the row | line | column where the header part and the data part do not respond | correspond 1: 1. 一致率を表す得点の例を示す図である。It is a figure which shows the example of the score showing a coincidence rate. 第1可変長データが対応付けされた結果の帳票を示す図である。It is a figure which shows the form of the result as which 1st variable length data was matched. 見出し部分とデータ部分とが1対1で対応していない行における第2可変長データを示す説明図である。It is explanatory drawing which shows the 2nd variable length data in the line where the heading part and the data part do not respond | correspond 1: 1. 一致率を表す得点の例を示す図である。It is a figure which shows the example of the score showing a coincidence rate. 第2可変長データが対応付けされた結果の帳票を示す図である。It is a figure which shows the form of a result with which 2nd variable length data was matched. 見出し部分とデータ部分とが1対1で対応していない行における第3可変長データを示す説明図である。It is explanatory drawing which shows the 3rd variable length data in the line | wire where the heading part and the data part do not respond | correspond 1: 1. 一致率を表す得点の例を示す図である。It is a figure which shows the example of the score showing a coincidence rate. 第3可変長データが対応付けされた結果の帳票を示す図である。It is a figure which shows the form of a result associating 3rd variable length data. 1明細が複数行であるかの判定を説明する図である。It is a figure explaining determination whether one specification is a plurality of lines. 文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。It is a figure which shows the hardware structural example of the computer used for a character recognition apparatus. 連記式の帳票の一例を示す図である。It is a figure which shows an example of a continuous writing form.

以下、本発明の実施の形態について、連記式の帳票として金融機関等で使用している振込依頼書を使用し、この振込依頼書に印刷されている文字列の認識を行う装置に適用した場合を例に図面を参照して詳細に説明する。   Hereinafter, the embodiment of the present invention is applied to a device that uses a transfer request form used in a financial institution or the like as a continuous form form and recognizes a character string printed on the transfer request form. Will be described in detail with reference to the drawings.

図1は第1の実施の形態に係る文字認識装置を示すブロック図である。
文字認識装置10は、スキャナ1の出力が接続されたレイアウト解析処理部11と、文字列の対応付けの処理を行う対応付け処理部12と、文字列の認識を行う文字認識処理部13と、処理に必要なデータ等を格納するデータ記憶部14とを備えている。
FIG. 1 is a block diagram showing a character recognition apparatus according to the first embodiment.
The character recognition device 10 includes a layout analysis processing unit 11 to which the output of the scanner 1 is connected, an association processing unit 12 that performs character string association processing, a character recognition processing unit 13 that performs character string recognition, And a data storage unit 14 for storing data necessary for processing.

レイアウト解析処理部11は、スキャナ1によって取得された帳票のイメージデータを処理して帳票上の文字列の並びを解析する。対応付け処理部12は、標準データ特定部15と、固定長データ特定部16と、第1可変長データ特定部17と、第2可変長データ特定部18と、第3可変長データ特定部19と、折り返しデータ統合部20とを備え、レイアウト解析処理部11によって解析された文字列から見出し部分の項目と、それに対応するデータ部分のデータとを対応付ける処理を行う。   The layout analysis processing unit 11 processes the image data of the form acquired by the scanner 1 and analyzes the arrangement of character strings on the form. The association processing unit 12 includes a standard data specifying unit 15, a fixed length data specifying unit 16, a first variable length data specifying unit 17, a second variable length data specifying unit 18, and a third variable length data specifying unit 19. And the folded data integration unit 20, and performs processing for associating the item of the heading part with the data of the corresponding data part from the character string analyzed by the layout analysis processing unit 11.

文字認識処理部13は、対応付け処理部12によって対応付けられたデータに対し、見出しの内容に対応した最適の文字認識方式を用いて文字認識を行う。
データ記憶部14は、見出し文言辞書21およびカテゴリ/フォント別辞書22を格納しており、レイアウト解析処理部11、対応付け処理部12および文字認識処理部13の処理に使用される。見出し文言辞書21は、あらかじめ定められた見出し文言とそのイメージデータおよび見出しに対応した文字列の属性および文字列の特徴を格納している。カテゴリ/フォント別辞書22は、データ部分の文字認識のための辞書として、文字認識カテゴリ/文字フォント別に用意している。
The character recognition processing unit 13 performs character recognition on the data associated by the association processing unit 12 using an optimum character recognition method corresponding to the content of the headline.
The data storage unit 14 stores the headline wording dictionary 21 and the category / font dictionary 22, and is used for the processing of the layout analysis processing unit 11, the association processing unit 12, and the character recognition processing unit 13. The headline wording dictionary 21 stores a predetermined headline wording, its image data, character string attributes corresponding to the headline, and character string characteristics. The category / font-specific dictionary 22 is prepared for each character recognition category / character font as a dictionary for character recognition of the data portion.

ここで、文字認識装置10が処理対象とする連記式の帳票について説明する。
図2は見出しに対するデータが一列に整列していない帳票例を示す図、図3は複数行の明細行が混在する帳票例を示す図である。
Here, the continuous form form which is processed by the character recognition device 10 will be described.
FIG. 2 is a diagram showing an example of a form in which data for headings is not arranged in a line, and FIG. 3 is a diagram showing an example of a form in which a plurality of detail lines are mixed.

図2に示す帳票2は、その明細3が見出し部分4、データ部分5および見出しフッタ6から構成されているが、見出し部分4の見出しの項目に対するデータ部分5の文字列が一列に整列していない例、および1つの見出しの項目に対するデータ部分5の文字列が空白文字によって2つ以上(以下、Nという)の文字列を含む例を示している。このような帳票2は、見出しの項目とこれに対応する文字列が一列に整列していることを前提とした処理では、見出し部分4の見出しの項目に対するデータ部分5の文字列を正しく対応付けすることができない。   The form 2 shown in FIG. 2 is composed of a heading part 4, a data part 5 and a heading footer 6, and the character string of the data part 5 corresponding to the heading item of the heading part 4 is aligned in a line. There are no examples, and an example in which the character string of the data part 5 for one heading item includes two or more (hereinafter referred to as N) character strings by blank characters. Such a form 2 correctly associates the character string of the data part 5 with the heading item of the heading part 4 in the process on the premise that the heading item and the corresponding character string are aligned in a line. Can not do it.

また、図3に示す帳票7は、そのデータ部分において、1明細行が複数行となる場合を示している。これは、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているものの、データ部分の文字列の一部が途中で折り返されてしまっていることによる。このため、データ部分は、1明細行が1行のものと複数行のものとが混在した形になっている。このような帳票7は、1明細行が1行であることを前提とした処理では、見出し部分の見出しの項目に対するデータ部分の文字列を正しく対応付けすることができない。   Further, the form 7 shown in FIG. 3 shows a case where one detailed line becomes a plurality of lines in the data portion. This is because although the character string of the data portion corresponding to the heading item of the header portion is aligned in a line, a part of the character string of the data portion is folded halfway. For this reason, the data portion has a form in which one detail line is mixed with a plurality of lines. Such a form 7 cannot correctly associate the character string of the data part with the heading item of the heading part in the process assuming that one detailed line is one line.

次に、文字認識装置10の動作について説明する。
図4はレイアウト解析処理部の処理の流れを示すフローチャートである。
レイアウト解析処理部11は、まず、スキャナ1で走査して得られたデータを受けて帳票をイメージ化する(ステップS1)。次に、レイアウト解析処理部11は、帳票のイメージデータを基に文字列を抽出する(ステップS2)。この文字列の抽出は、既存の技術を用いて行われる。たとえば、帳票のイメージデータを走査し、黒画素が連続する部分に接した外接矩形をラベルとして抽出する。抽出したラベルのうち、しきい値以内の距離にあるラベルは、1つの文字列を構成するラベルとして抽出する。
Next, the operation of the character recognition device 10 will be described.
FIG. 4 is a flowchart showing a processing flow of the layout analysis processing unit.
The layout analysis processing unit 11 first receives data obtained by scanning with the scanner 1 and converts the form into an image (step S1). Next, the layout analysis processing unit 11 extracts a character string based on the form image data (step S2). The extraction of the character string is performed using an existing technique. For example, the image data of a form is scanned, and a circumscribed rectangle that touches a portion where black pixels are continuous is extracted as a label. Among the extracted labels, labels that are within a threshold distance are extracted as labels constituting one character string.

次に、レイアウト解析処理部11は、抽出されたラベルの座標から文字列の位置関係を解析し、横方向に並ぶ文字列については、論理行を構成する文字列として抽出する(ステップS3)。この論理行の抽出のとき、帳票用紙の外周の輪郭を解析し、イメージが斜行していれば、イメージを回転させて同一論理行の文字列については、これらが水平に並ぶように補正される。   Next, the layout analysis processing unit 11 analyzes the positional relationship of the character strings from the extracted label coordinates, and extracts the character strings arranged in the horizontal direction as character strings constituting a logical line (step S3). When this logical line is extracted, the outline of the outer periphery of the form sheet is analyzed. If the image is skewed, the image is rotated so that the character strings in the same logical line are corrected so that they are aligned horizontally. The

次に、レイアウト解析処理部11は、帳票全体の文字列について、全カテゴリで文字認識を行う(ステップS4)。ここでは、抽出された文字列がどのカテゴリに属するものであるのか分らないので、レイアウト解析処理部11は、特定のカテゴリに限定することなく、データ記憶部14のすべてのカテゴリ/フォント別辞書22を使用して文字列を認識する。この文字認識は、抽出されたすべての文字列について行われる。   Next, the layout analysis processing unit 11 performs character recognition in all categories for the character string of the entire form (step S4). Here, since it is not known to which category the extracted character string belongs, the layout analysis processing unit 11 is not limited to a specific category, and all category / font-specific dictionaries 22 of the data storage unit 14 are used. Use to recognize the string. This character recognition is performed for all the extracted character strings.

そして、レイアウト解析処理部11は、文字認識の結果をデータ記憶部14の見出し文言辞書21とマッチングを行い、明細の見出しが並ぶ行、すなわち、見出しヘッダ行および見出しフッタ行を抽出する(ステップS5)。見出し文言辞書21には、振込依頼書で使用される見出しの項目である「銀行名」、「支店名」、「科目」、「口座番号」、「受取人氏名」、「金額」および「振込合計」が登録されている。もちろん、この見出し文言辞書21は、金融機関等の業務で使用される他の見出しとなるすべての項目名も登録されている。   Then, the layout analysis processing unit 11 matches the result of character recognition with the headline wording dictionary 21 of the data storage unit 14, and extracts the line in which the headings of the details are arranged, that is, the heading header line and the heading footer line (step S5). ). The headline wording dictionary 21 includes “bank name”, “branch name”, “subject”, “account number”, “recipient name”, “amount”, and “transfer” which are heading items used in the transfer request form. "Total" is registered. Of course, in this headline wording dictionary 21, all item names that become other headlines used in business such as financial institutions are also registered.

図5は対応付け処理部の処理の流れを示すフローチャート、図6は見出し文言辞書から取得した文字列の属性および特徴の情報を示す図である。
まず、対応付け処理部12は、見出し文言辞書21を参照して、見出しに対応するデータ部分の文字列の属性および文字列の特徴の情報を取得する(ステップS11)。図6に示したように、文字列の属性としては、文字数、文字種、データ形式、文字列折り返しおよび見出しの総数と1明細行のデータの文字列の数との比を定義している。文字列の特徴としては、見出し部分の行に出現する見出しの項目の順番と、見出しに対応するデータが固定長であるときの文字列幅を定義している。
FIG. 5 is a flowchart showing the processing flow of the association processing unit, and FIG. 6 is a diagram showing the attribute and feature information of the character string acquired from the headline wording dictionary.
First, the association processing unit 12 refers to the headline wording dictionary 21 and acquires the character string attribute and the character string characteristic information of the data portion corresponding to the headline (step S11). As shown in FIG. 6, the character string attributes define the number of characters, the character type, the data format, the character string wrapping, and the ratio of the total number of headings and the number of character strings in the data for one detail line. As the character string characteristics, the order of heading items appearing in the heading part line and the character string width when the data corresponding to the heading has a fixed length are defined.

図7は見出し部分とデータ部分とが1対1で対応している状態を説明する図、図8は1対1で対応している見出し部分とデータ部分とが対応付けされた結果の帳票を示す図、図9は見出しに対応するデータが固定長の文字列の文字列幅を計測する説明図である。   FIG. 7 is a diagram for explaining a state in which the heading part and the data part are in one-to-one correspondence, and FIG. 8 is a result form in which the heading part and the data part are in one-to-one correspondence. FIG. 9 is an explanatory diagram for measuring the character string width of a character string whose data corresponding to the heading has a fixed length.

対応付け処理部12の標準データ特定部15では、明細行を順に解析し、見出しの総数とデータ部分の文字列の数とが同じである標準的な明細行を抽出し、見出しの項目に対するデータを無条件に対応させて特定する(ステップS12)。すなわち、図7に示したように、見出し部分には、その項目H1〜H6が6個あり、データ部分のデータD1〜D6も6個あって等しい場合には、見出しとデータとを1対1で対応できるため、無条件に対応させる。これにより、銀行名は「いろは銀行」、支店名は「本店」、科目は「普通」、口座番号は「1234567」、受取人氏名は「あいうえお(株)」、金額は「1,000,000」に対応付けられることになる。この結果、図8に示したように、帳票のデータ部分では、四角で囲った1行目、5行目および6行目の明細行が対応付け処理を終えたことになる。   The standard data specifying unit 15 of the association processing unit 12 sequentially analyzes the detail lines, extracts standard detail lines in which the total number of headings and the number of character strings in the data portion are the same, and data for the headline items Are identified unconditionally (step S12). That is, as shown in FIG. 7, when there are 6 items H1 to H6 in the heading part and 6 pieces of data D1 to D6 in the data part are equal, the heading and the data are in a one-to-one relationship. Because it can respond with, it is made to respond unconditionally. As a result, the bank name is “Iroha Bank”, the branch name is “Head Office”, the subject is “Normal”, the account number is “1234567”, the recipient name is “Aiueo Co., Ltd.”, and the amount is “1,000,000”. ". As a result, as shown in FIG. 8, in the data portion of the form, the first line, the fifth line, and the sixth detailed line enclosed by the square have finished the association process.

ここで、見出しとデータとが1対1で対応付けられた明細行の文字桁固定項目の幅を算出する(ステップS13)。データの中で文字桁が固定の項目については、他の明細行についても同じ文字列幅を有しているので、ここで、文字桁固定項目の幅を算出しておく。文字桁が固定の項目は、図6の文字列の属性から、データ形式が固定長のデータ、すなわち、見出しの項目が「科目」および「口座番号」に対応するデータD3,D4が選択され、図9に示したように、データD3,D4の文字列幅が算出される。なお、ステップS12において、明細行が抽出されない場合は、抽出した1文字文のラベルおよび図6の文字列の属性から、1文字の幅に桁数を掛けた長さを、文字列の横幅として算出する。   Here, the width of the fixed character column item in the detail line in which the heading and the data are associated one-to-one is calculated (step S13). Since items having fixed character digits in the data have the same character string widths in other detail lines, the widths of the character digit fixed items are calculated here. For the item with fixed character digits, data D3 and D4 corresponding to “subject” and “account number” are selected from the attribute of the character string in FIG. As shown in FIG. 9, the character string widths of the data D3 and D4 are calculated. In step S12, if a detail line is not extracted, the length obtained by multiplying the width of one character by the number of digits from the extracted label of one character sentence and the character string attribute of FIG. 6 is used as the width of the character string. calculate.

ここまでは、見出しの総数と行のデータの文字列の数との比が同じである場合の処理について説明したが、以下では、見出しの総数と行のデータの文字列の数との比が異なる行の処理について説明する。   So far, the processing when the ratio between the total number of headings and the number of character strings in the line data is the same has been described, but in the following, the ratio between the total number of headings and the number of character strings in the line data is The processing of different lines will be described.

図10は見出し部分とデータ部分とが1対1で対応していない行における固定長データを示す説明図、図11は一致率を表す得点の例を示す図、図12は固定長データが対応付けされた結果の帳票を示す図である。   FIG. 10 is an explanatory diagram showing fixed-length data in a line where the heading portion and the data portion do not correspond one-to-one, FIG. 11 is a diagram showing an example of a score representing the matching rate, and FIG. It is a figure which shows the form of the attached result.

対応付け処理部12の固定長データ特定部16は、標準データ特定部15で抽出されなかった明細行を順に解析し、文字列の横幅、文字列の桁数、文字列の属性、文字列の位置から見出しに対する固定長データを特定する(ステップS14)。データ部分において、文字列が固定長のデータとして、科目および口座番号のデータがある。たとえば口座番号のデータを特定する場合は、まず、図10に示したように、行内の文字列を順次文字列の属性と比較し、口座番号のデータの文字列の属性から、明細行の文字列の幅が、半角7桁の幅のデータを抽出する。図10の例では、データD4,D7が該当する。この文字列と文字列の属性との比較は、1行に含まれる文字列(データD1〜D7)のすべてに対し、順次、判断要素による評価(得点制)で行う。   The fixed length data specifying unit 16 of the association processing unit 12 sequentially analyzes the detail lines that are not extracted by the standard data specifying unit 15, and the width of the character string, the number of digits of the character string, the attribute of the character string, the character string attribute, The fixed length data for the headline is specified from the position (step S14). In the data part, there are data of subject and account number as data having a fixed character string. For example, when specifying the account number data, first, as shown in FIG. 10, the character string in the line is sequentially compared with the attribute of the character string, and the character of the detail line is determined from the attribute of the character string of the account number data. Data whose column width is 7 digits wide is extracted. In the example of FIG. 10, data D4 and D7 correspond. The comparison between the character string and the attribute of the character string is sequentially performed by evaluation (scoring system) based on the determination element for all the character strings (data D1 to D7) included in one line.

図10および図11から、行を構成する文字列が7つあり、7つすべてについて文字列の属性や特徴を比較している。図11の表には、判断要素による比較の一致率を得点換算した値が入っており、一致率が高いほど得点が高くなっている。図10の例の行で順番が4番目と7番目の文字列(データD4,D7)に得点が入っているが、文字列の幅、文字列の文字数、文字列の文字種、文字列の位置(順番)から総合的に4番目の文字列(データD4)の合計得点が高いため、4番目の文字列(データD4)が口座番号のデータと推定する。   From FIG. 10 and FIG. 11, there are seven character strings constituting the line, and the attributes and features of the character strings are compared for all seven. The table of FIG. 11 contains the value obtained by converting the comparison coincidence rate according to the determination element into a score, and the higher the coincidence rate, the higher the score. In the example row of FIG. 10, the fourth and seventh character strings (data D4, D7) are scored, but the character string width, the number of characters in the character string, the character type of the character string, and the position of the character string Since the total score of the fourth character string (data D4) is generally high from (order), the fourth character string (data D4) is estimated to be account number data.

また、固定長データである科目のデータの解析も口座番号のデータの解析と同様に行われ、さらに、これら固定長データの特定は、標準データ特定部15で抽出されなかったすべての明細行について解析する。この結果、図12に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。なお、斜線が入った四角は、解析済みの文字列を示している。   The analysis of the subject data that is fixed length data is performed in the same manner as the analysis of the account number data. Further, the specification of the fixed length data is performed for all the details lines that are not extracted by the standard data specifying unit 15. To analyze. As a result, as shown in FIG. 12, in the data portion of the form, the association processing between the item of the heading portion enclosed by the square and the data of the corresponding data portion is completed. The squares with diagonal lines indicate analyzed character strings.

図13は見出し部分とデータ部分とが1対1で対応していない行における第1可変長データを示す説明図、図14は一致率を表す得点の例を示す図、図15は第1可変長データが対応付けされた結果の帳票を示す図である。   FIG. 13 is an explanatory diagram showing the first variable length data in a row where the heading portion and the data portion do not correspond one-to-one, FIG. 14 is a diagram showing an example of the score indicating the matching rate, and FIG. 15 is the first variable It is a figure which shows the form of a result with which long data was matched.

対応付け処理部12の第1可変長データ特定部17は、標準データ特定部15で抽出されなかった明細行の残りのデータを順に解析し、文字列が可変長で、文字列の折り返しがなく、文字種が半角英数文字とする第1可変長データを特定する(ステップS15)。この第1可変長データに該当する文字列は、図13の明細行の最後に位置し、見出しの項目H6の「金額」に対応するデータD7である。図14の表には、既に対応付けが確定した3番目および4番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図14の表によれば、その合計得点より、7番目の文字列(データD7)の得点が最も高いため、7番目の文字列(データD7)が金額のデータと推定する。   The first variable length data specifying unit 17 of the association processing unit 12 sequentially analyzes the remaining data of the detail lines that were not extracted by the standard data specifying unit 15, and the character string has a variable length and there is no character string wrapping. First variable-length data whose character type is a single-byte alphanumeric character is specified (step S15). The character string corresponding to the first variable length data is data D7 that is located at the end of the detail line in FIG. 13 and corresponds to the “money amount” in the heading item H6. The table of FIG. 14 includes values obtained by converting the matching rate of the comparison by the determination element into points, excluding the third and fourth data whose association has already been determined. According to the table of FIG. 14, since the score of the seventh character string (data D7) is the highest from the total score, the seventh character string (data D7) is estimated as money data.

この第1可変長データである「科目」のデータの解析は、残りのすべての明細行について行われる。この結果、図15に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。   The analysis of the “subject” data, which is the first variable length data, is performed for all the remaining detail lines. As a result, as shown in FIG. 15, in the data portion of the form, the association processing between the item of the heading portion enclosed by the square and the data of the corresponding data portion is completed.

図16は見出し部分とデータ部分とが1対1で対応していない行における第2可変長データを示す説明図、図17は一致率を表す得点の例を示す図、図18は第2可変長データが対応付けされた結果の帳票を示す図である。   FIG. 16 is an explanatory diagram showing second variable length data in a line in which the header portion and the data portion do not correspond one-to-one, FIG. 17 is a diagram showing an example of a score representing the matching rate, and FIG. 18 is a second variable It is a figure which shows the form of a result with which long data was matched.

対応付け処理部12の第2可変長データ特定部18は、文字列比が1対1、文字列が6桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第2可変長データを特定する(ステップS16)。この第2可変長データに該当する文字列は、図16では、見出しの「銀行名」および「支店名」に対応するデータD1,D2である。図17の表には、既に対応付けが確定した3番目、4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図17の表によれば、その合計得点より、1番目の文字列(データD1)の得点が最も高いため、1番目の文字列(データD1)が銀行名のデータと推定する。次に、2番目の文字列(データD2)の得点も高いため、2番目の文字列(データD2)が支店名のデータと推定する。   The second variable length data specifying unit 18 of the association processing unit 12 converts the second variable length data having a character string ratio of 1: 1, a character string having a variable length of 6-digit wrapping, and a character type of characters of a full-width full category. Specify (step S16). In FIG. 16, the character string corresponding to the second variable length data is data D1 and D2 corresponding to the headings “bank name” and “branch name”. The table of FIG. 17 includes values obtained by converting the coincidence rate of the comparison by the determination element into points, excluding the third, fourth, and seventh data that have already been determined to be associated. According to the table of FIG. 17, since the score of the first character string (data D1) is the highest from the total score, the first character string (data D1) is estimated to be bank name data. Next, since the score of the second character string (data D2) is also high, it is estimated that the second character string (data D2) is branch name data.

この第2可変長データである「銀行名」および「支店名」のデータの解析は、残りのすべての明細行について行われる。この結果、図18に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終えたことになる。   The analysis of the data of “bank name” and “branch name” as the second variable length data is performed for all the remaining detail lines. As a result, as shown in FIG. 18, in the data portion of the form, the association processing between the item of the heading portion enclosed by the square and the data of the corresponding data portion is completed.

図19は見出し部分とデータ部分とが1対1で対応していない行における第3可変長データを示す説明図、図20は一致率を表す得点の例を示す図、図21は第3可変長データが対応付けされた結果の帳票を示す図である。   FIG. 19 is an explanatory diagram showing third variable length data in a line in which the header portion and the data portion do not correspond one-to-one, FIG. 20 shows an example of a score indicating the matching rate, and FIG. 21 shows the third variable It is a figure which shows the form of a result with which long data was matched.

対応付け処理部12の第3可変長データ特定部19は、文字列比が1対N、文字列が14桁折り返しの可変長で、文字種が全角全カテゴリの文字とする第3可変長データを特定する(ステップS17)。この第3可変長データに該当する文字列は、図19では、残りの見出しの「受取人氏名」に対応するデータD5,D6である。図20の表には、既に対応付けが確定した1〜4番目および7番目のデータを除いて、判断要素による比較の一致率を得点換算した値が入っている。図20の表によれば、その合計得点より、5番目の文字列(データD5)の得点が最も高いため、5番目の文字列(データD5)が受取人氏名のデータと推定する。また、6番目の文字列(データD6)については、対応する見出しがなく、しかも、5番目の文字列と同じ文字列の属性であるため、6番目の文字列(データD6)は、5番目の文字列とともに受取人氏名のデータと判断する。   The third variable length data specifying unit 19 of the association processing unit 12 generates third variable length data having a character string ratio of 1 to N, a character string having a variable length of 14-digit wrapping, and a character type of characters of all-byte full-category. Specify (step S17). In FIG. 19, the character string corresponding to the third variable length data is data D5 and D6 corresponding to the “header name” of the remaining heading. The table of FIG. 20 includes values obtained by converting the matching rate of the comparison by the determination element into points, excluding the first to fourth and seventh data that have already been determined to be associated. According to the table of FIG. 20, since the score of the fifth character string (data D5) is the highest from the total score, the fifth character string (data D5) is estimated to be the recipient name data. Also, the sixth character string (data D6) has no corresponding heading and has the same character string attribute as the fifth character string, so the sixth character string (data D6) is the fifth character string. It is determined that the data is the recipient name data.

この第3可変長データである「受取人氏名」のデータの解析は、残りのすべての明細行について行われる。この結果、図21に示したように、帳票のデータ部分では、四角で囲った見出し部分の項目とそれに対応するデータ部分のデータとの対応付け処理が終え、1明細が1行のときのすべてのデータが対応付けられたことになる。   The third variable length data “recipient name” data is analyzed for all remaining detail lines. As a result, as shown in FIG. 21, in the data portion of the form, the correspondence processing between the item of the heading portion enclosed by the square and the data of the data portion corresponding thereto is completed, and all of the items when one specification is one line Are associated with each other.

次に、図3に示した帳票7のように、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているが、データ部分における1明細行が1行の場合と複数行の場合とが混在しているときの処理について説明する。ただ、見出し部分の見出しの項目に対するデータ部分の文字列が一列に整列しているかどうかは、上記の対応付け処理では関係ないので、ここでは、1明細行が複数行からなる明細行を含むデータ部分がある場合の処理について説明する。   Next, as in the form 7 shown in FIG. 3, the character strings of the data part for the heading item in the heading part are aligned in a line, but there are a case where one detail line in the data part is one line and a plurality of lines. A process when the case is mixed will be described. However, whether or not the character string of the data part with respect to the heading item of the heading part is aligned in one line is not related in the above-described association processing, and here, the data including one detail line including a plurality of detail lines Processing when there is a part will be described.

図22は1明細が複数行であるかの判定を説明する図である。
まず、対応付け処理部12の折り返しデータ統合部20は、固定長データ特定部16が抽出した文字列が固定長のデータ(科目または口座番号のデータ)に着目し、文字列が存在する隣接行の間隔から、文字列の折り返しがある明細行であるか判断し、それぞれの明細行の行数を特定する(ステップS18)。図22を見ると、たとえば、口座番号のデータのある行がデータ部分の1行目と2行目とに連続して存在するため、1行目は、1明細が1行であると判断する。口座番号のデータのある行で2行目の次は、5行目となって2行分の空きがあるので、2行目は、1明細が3行であると判断する。口座番号のデータのある行で5行目の次は、7行目となって1行分の空きがあるので、5行目は、1明細が2行であると判断する。
FIG. 22 is a diagram for explaining whether one specification is a plurality of lines.
First, the loopback data integration unit 20 of the association processing unit 12 pays attention to the fixed-length data (subject or account number data) in which the character string extracted by the fixed-length data specifying unit 16 is adjacent to the line in which the character string exists. From the interval, it is determined whether there is a detail line with character string wrapping, and the number of each detail line is specified (step S18). Referring to FIG. 22, for example, since a certain row of account number data exists continuously in the first and second rows of the data portion, the first row is determined to be one row of details. . In the row with the account number data, the second row is followed by the fifth row, so that there is a vacant space for two rows. Therefore, it is determined that one specification is three rows in the second row. Next to the fifth row in the row with the account number data, the seventh row is the first row, and there is a vacant space for one row. Therefore, it is determined that one specification is two rows in the fifth row.

次に、折り返しデータ統合部20は、ステップS18で文字列の折り返しのある明細行であると判断した場合、口座番号のデータの位置を確定した後、複数行に跨って折り返したデータの文字列を、1項目に統合する(ステップS19)。すなわち、2行目の明細行では、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、3行に跨って折り返されている受取人氏名のデータの文字列が1項目に統合される。5行目の明細行においても同様に、2行に跨って折り返されている銀行名のデータの文字列が1項目に統合され、2行に跨って折り返されている支店名のデータの文字列が1項目に統合される。   Next, when the return data integration unit 20 determines in step S18 that the line is a detail line with character string wrapping, after confirming the position of the account number data, the character string of the data wrapping across multiple lines Are integrated into one item (step S19). That is, in the detail line of the second line, the character string of the bank name data folded over two lines is integrated into one item, and the character string of the recipient name data folded back over three lines Are integrated into one item. Similarly, in the fifth detail line, the character string of the bank name data folded back over two lines is integrated into one item, and the character string of the branch name data folded back over two lines Are integrated into one item.

以上のように、対応付け処理部12では、見出しとデータ部分の文字列との対応付けは、見出し文言辞書21から取得した見出しに対するデータ部分の文字列の属性および文字列の特徴と、上記のステップS4で実際に文字認識した文字列の属性および文字列の特徴とを比較して、一致率が高いものを対応させている。しかも、見出しとデータ部分の文字列との対応付けは、文字列の属性および特徴の情報から容易に特定できるデータから順に解析していき、残った解析しにくい項目を最後に消去法で特定することにしている。   As described above, in the association processing unit 12, the association between the headline and the character string of the data part is performed by combining the attribute of the data part of the data part with respect to the headline acquired from the headline wording dictionary 21 and the characteristics of the character string, The attribute of the character string actually recognized in step S4 and the characteristics of the character string are compared, and the character string having a high matching rate is associated. Moreover, the association between the heading and the character string of the data part is analyzed in order from the data that can be easily identified from the attribute and feature information of the character string, and the remaining difficult-to-analyze items are finally identified by the elimination method. I have decided.

このようにして対応付けられた文字列は、その属性および特徴が判明している。したがって、最後に、文字認識処理部13が文字認識処理を行うときには、その文字列の文字種に適合したカテゴリの辞書を用いて文字認識をすることになる。これにより、たとえば見出しが口座番号のデータは、カテゴリが半角数字に絞り込まれた特定の辞書を使って文字認識されるので、1回目の文字認識(ステップS4)よりも高い精度で認識させることができる。   The attributes and characteristics of the character strings associated in this way are known. Therefore, finally, when the character recognition processing unit 13 performs the character recognition process, the character recognition is performed using the dictionary of the category suitable for the character type of the character string. As a result, for example, data whose headline is an account number is recognized using a specific dictionary whose category is narrowed to single-byte numbers, so that it can be recognized with higher accuracy than the first character recognition (step S4). it can.

この文字認識装置10は、最後に、文字認識処理部13にて文字認識された結果を文字認識の呼び出し側へ通知する。
図23は文字認識装置に用いられるコンピュータのハードウェア構成例を示す図である。
Finally, the character recognition device 10 notifies the character recognition caller of the result of character recognition by the character recognition processing unit 13.
FIG. 23 is a diagram illustrating a hardware configuration example of a computer used in the character recognition device.

コンピュータ50は、CPU(Central Processing Unit)51によって装置全体が制御されている。CPU51には、バス57を介してRAM(Random Access Memory)52、ハードディスクドライブ(HDD:Hard Disk Drive)53、グラフィック処理装置54、入力インタフェース55、および通信インタフェース56が接続されている。   The entire computer 50 is controlled by a CPU (Central Processing Unit) 51. A random access memory (RAM) 52, a hard disk drive (HDD) 53, a graphic processing device 54, an input interface 55, and a communication interface 56 are connected to the CPU 51 via a bus 57.

RAM52には、CPU51に実行させるOS(Operating System)のプログラムや文字認識処理に必要なアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM52には、CPU51による処理に必要な各種データが格納される。HDD53には、OS、文字認識用のアプリケーションプログラム、文字認識に使われる辞書等が格納されている。   The RAM 52 temporarily stores at least part of an OS (Operating System) program to be executed by the CPU 51 and application programs necessary for character recognition processing. The RAM 52 stores various data necessary for processing by the CPU 51. The HDD 53 stores an OS, an application program for character recognition, a dictionary used for character recognition, and the like.

グラフィック処理装置54には、モニタ58が接続されている。グラフィック処理装置54は、CPU51からの命令に従って、画像をモニタ58の画面に表示させる。入力インタフェース55には、スキャナ1、キーボード59およびマウス60が接続されている。入力インタフェース55は、スキャナ1、キーボード59およびマウス60から送られてくる信号を、バス57を介してCPU51に送信する。   A monitor 58 is connected to the graphic processor 54. The graphic processing device 54 displays an image on the screen of the monitor 58 in accordance with a command from the CPU 51. The input interface 55 is connected to the scanner 1, the keyboard 59, and the mouse 60. The input interface 55 transmits signals sent from the scanner 1, the keyboard 59 and the mouse 60 to the CPU 51 via the bus 57.

通信インタフェース56は、金融機関内のネットワークに接続されている。通信インタフェース56は、ネットワークを介して、他のコンピュータとの間でデータの送受信を行う。   The communication interface 56 is connected to a network in the financial institution. The communication interface 56 transmits / receives data to / from other computers via a network.

以上のようなハードウェア構成によって、本実施の形態の文字認識装置10に係る処理機能を実現することができる。   With the hardware configuration as described above, the processing function according to the character recognition device 10 of the present embodiment can be realized.

1 スキャナ
2,7,100 帳票
3,101 明細
4,102 見出し部分
5 データ部分
6 見出しフッタ
10 文字認識装置
11 レイアウト解析処理部
12 対応付け処理部
13 文字認識処理部
14 データ記憶部
15 標準データ特定部
16 固定長データ特定部
17 第1可変長データ特定部
18 第2可変長データ特定部
19 第3可変長データ特定部
20 折り返しデータ統合部
21 見出し文言辞書
22 カテゴリ/フォント別辞書
50 コンピュータ
51 CPU
52 RAM
53 HDD
54 グラフィック処理装置
55 入力インタフェース
56 通信インタフェース
57 バス
58 モニタ
59 キーボード
60 マウス
DESCRIPTION OF SYMBOLS 1 Scanner 2,7,100 Form 3,101 Description 4,102 Heading part 5 Data part 6 Heading footer 10 Character recognition apparatus 11 Layout analysis processing part 12 Association processing part 13 Character recognition processing part 14 Data storage part 15 Standard data specification Unit 16 Fixed-length data specifying unit 17 First variable-length data specifying unit 18 Second variable-length data specifying unit 19 Third variable-length data specifying unit 20 Return data integration unit 21 Headline word dictionary 22 Category / font-specific dictionary 50 Computer 51 CPU
52 RAM
53 HDD
54 Graphic Processing Device 55 Input Interface 56 Communication Interface 57 Bus 58 Monitor 59 Keyboard 60 Mouse

Claims (10)

見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する文字認識方法において、
前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
ことを特徴とする文字認識方法。
In a character recognition method for recognizing a character string of a form having a character string of a heading part and a character string of a data part,
From the positional relationship of the character string extracted from the image data of the form on the form, a logical line in which the character string is arranged in the horizontal direction is extracted, the character string in the logical line is recognized, and the character string of the headline of the description is arranged. Extract the heading line,
Detail lines having the same ratio between the total number of character strings in the heading and the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis.
Specify data with a fixed-length character string in the data part corresponding to the headline, and make it correspond to the headline item.
The character string of the data portion corresponding to the heading is variable length, and the first variable length data without the character string wrapping is identified and associated with the heading item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the second variable length data in which the headline and the number of character strings of the data portion correspond one-to-one is specified. Corresponding to the headline item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the third variable length data in which the number of the character string of the heading and the data portion corresponds 1 to N is specified. Corresponding to the headline item,
By concatenating character strings that span multiple lines as a single piece of data,
Recognize the character string of the data part using the dictionary of the category corresponding to the content of the heading,
A character recognition method characterized by the above.
前記見出し行を抽出した後に、データ部分の文字列の属性と文字列の特徴とを取得し、見出しに対応する前記明細行の文字列を解析する際に、取得した文字列の属性と文字列の特徴とを基にして見出しに対応する文字列を特定することを特徴とする請求項1記載の文字認識方法。   After extracting the heading line, the character string attribute and the character string characteristic of the data part are acquired, and the character string attribute and the character string acquired when analyzing the character string of the detail line corresponding to the heading The character recognition method according to claim 1, wherein a character string corresponding to the headline is specified based on the characteristics of the character string. 文字列の属性は、文字数、全角漢字か半角数字か半角英数か全角全カテゴリかを示す文字種、固定長か可変長かを示すデータ形式、文字列の折り返しの有無を示す文字列折り返し、および見出しの総数とデータの文字列の数との比を示す文字列数比を含み、文字列の特徴は、見出しの順番および固定長データの幅を示す文字列幅を含んでいることを特徴とする請求項2記載の文字認識方法。   Character string attributes include the number of characters, full-width kanji, half-width numbers, half-width alphanumeric characters, full-width full-width categories, data format that indicates whether fixed length or variable length, string wrapping that indicates whether or not the character string is wrapped, and Including a character string ratio indicating the ratio between the total number of headings and the number of data character strings, and the character string features include a character string width indicating the order of headings and the width of fixed-length data, The character recognition method according to claim 2. 見出しの項目をデータ部分の文字列と1対1で対応させた後に、取得した文字列の属性と文字列の特徴とから特定した見出しに対するデータ部分の固定長の文字列に対して文字列の幅を算出し、固定長のデータを特定する際に使用することを特徴とする請求項2記載の文字認識方法。   After associating the headline item with the character string of the data part on a one-to-one basis, the character string of the character string is compared with the fixed-length character string of the data part for the headline identified from the acquired character string attributes and character string characteristics. The character recognition method according to claim 2, wherein the character recognition method is used for calculating a width and specifying fixed-length data. 固定長のデータの特定は、データ部分の文字列を、算出された文字列の幅と、取得した文字列の属性および文字列の特徴を基にした文字列の文字数、文字列の文字種および文字列の位置との判断要素で比較し、それぞれの比較の一致率を得点換算し、合計得点で判断されることを特徴とする請求項4記載の文字認識方法。   The fixed-length data is identified by identifying the character string of the data part, the number of characters in the character string based on the calculated character string width, the obtained character string attribute and character string characteristics, the character type and character of the character string. 5. The character recognition method according to claim 4, wherein comparison is made by a determination factor with respect to the position of the column, a matching rate of each comparison is converted into a score, and the determination is made by a total score. 前記第1ないし第3可変長データの特定は、データ部分の文字列を、取得した文字列の属性および文字列の特徴を基にした文字列の文字数、文字列の文字種および文字列の位置との判断要素で比較し、それぞれの比較の一致率を得点換算し、合計得点で判断されることを特徴とする請求項2記載の文字認識方法。   The identification of the first to third variable length data is performed by identifying the character string of the data portion, the number of characters of the character string, the character type of the character string, and the position of the character string based on the acquired character string attribute and character string characteristics. The character recognition method according to claim 2, wherein comparison is performed using the determination elements, the matching rate of each comparison is converted into a score, and the total score is determined. 文字列の統合は、データ部分の固定長のデータの文字列が存在する隣接行の間隔から1明細行の行数を算出し、複数行の明細行にて折り返しによる前記第2および第3可変長データの文字列を統合することを特徴とする請求項1記載の文字認識方法。   For the integration of character strings, the second and third variable values are calculated by calculating the number of one detail line from the interval between adjacent lines where a character string of fixed-length data in the data portion is present, and by folding the detail lines of a plurality of lines. The character recognition method according to claim 1, wherein character strings of long data are integrated. 帳票のイメージデータから文字列を抽出し、文字列の位置関係から論理行を抽出し、文字列を認識して見出し行を抽出するレイアウト解析処理部と、
見出し部分の文字列とデータ部分の文字列とを対応付ける対応付け処理部と、
データ部分の文字列を認識する文字認識処理部と、
文字列の認識および特定に必要な辞書を格納しているデータ記憶部と、
を備え、
前記対応付け処理部は、
見出しの総数と行のデータの文字列の数との比が同じ行を抽出して見出し部とデータ部とを無条件に対応させる標準データ特定部と、
見出しに対応するデータ部分の文字列が固定長であるデータを特定する固定長データ特定部と、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのないデータを特定する第1可変長データ特定部と、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対1に対応するデータを特定する第2可変長データ特定部と、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しと文字列の数とが1対Nに対応するデータを特定する第3可変長データ特定部と、
折り返しにより複数行に跨っている文字列を1つのデータとして統合する折り返しデータ統合部と、
を有していることを特徴とする文字認識装置。
A layout analysis processing unit that extracts a character string from the image data of the form, extracts a logical line from the positional relationship of the character string, recognizes the character string, and extracts a heading line;
An association processing unit for associating the character string of the heading part with the character string of the data part;
A character recognition processing unit for recognizing the character string of the data portion;
A data storage unit storing a dictionary necessary for character recognition and identification;
With
The association processing unit
A standard data specifying unit that extracts lines having the same ratio between the total number of headings and the number of character strings in the line data and unconditionally associates the heading part and the data part;
A fixed-length data specifying unit for specifying data whose character string of the data part corresponding to the heading has a fixed length;
A first variable length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string is not folded;
A second variable-length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string may be folded and the heading and the number of character strings correspond one-to-one When,
A third variable length data specifying unit for specifying data in which the character string of the data portion corresponding to the heading has a variable length and the character string may be folded and the heading and the number of character strings correspond to 1 to N When,
A folded data integration unit that integrates a character string that spans multiple lines as a single data by folding,
A character recognition device characterized by comprising:
見出し部分の文字列とデータ部分の文字列とを有する帳票の文字列を認識する処理をコンピュータに実行させる文字認識プログラムであって、
前記コンピュータに、
前記帳票のイメージデータから抽出した文字列の前記帳票上の位置関係から文字列が横方向に並んだ論理行を抽出し、前記論理行の文字列を認識して明細の見出しの文字列が並ぶ見出し行を抽出し、
見出しの文字列の総数とデータ部分の文字列の数との比が同じ明細行を抽出して見出し部分の見出しの項目をデータ部分の文字列と1対1で対応させ、
見出しに対応するデータ部分の文字列が固定長のデータを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長であって、文字列の折り返しのない第1可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対1で対応する第2可変長データを特定して見出しの項目と対応させ、
見出しに対応するデータ部分の文字列が可変長、かつ文字列の折り返しの可能性があって、見出しとデータ部分の文字列の数とが1対Nで対応する第3可変長データを特定して見出しの項目と対応させ、
折り返しにより複数行に跨っている文字列を1つのデータとして統合し、
データ部分の文字列をその見出しの内容に対応したカテゴリの辞書を用いて文字認識する、
処理を実行させることを特徴とする文字認識プログラム。
A character recognition program for causing a computer to execute processing for recognizing a character string of a form having a character string of a heading part and a character string of a data part,
In the computer,
From the positional relationship of the character string extracted from the image data of the form on the form, a logical line in which the character string is arranged in the horizontal direction is extracted, the character string in the logical line is recognized, and the character string of the headline of the description is arranged. Extract the heading line,
Detail lines having the same ratio between the total number of character strings in the heading and the number of character strings in the data part are extracted, and the heading item in the heading part is associated with the character string in the data part on a one-to-one basis.
Specify data with a fixed-length character string in the data part corresponding to the headline, and make it correspond to the headline item.
The character string of the data portion corresponding to the heading is variable length, and the first variable length data without the character string wrapping is identified and associated with the heading item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the second variable length data in which the headline and the number of character strings of the data portion correspond one-to-one is specified. Corresponding to the headline item,
The character string of the data portion corresponding to the headline has a variable length and the character string may be folded, and the third variable length data in which the number of the character string of the heading and the data portion corresponds 1 to N is specified. Corresponding to the headline item,
By concatenating character strings that span multiple lines as a single piece of data,
Recognize the character string of the data part using the dictionary of the category corresponding to the content of the heading,
A character recognition program for executing a process.
文字列を統合する処理は、データ部分の固定長のデータの文字列が存在する隣接行の間隔から1明細行の行数を算出し、複数行の明細行にて折り返しによる前記第2および第3可変長データの文字列を統合することを特徴とする請求項9記載の文字認識プログラム。   In the process of integrating the character strings, the number of lines of one detailed line is calculated from the interval between adjacent lines in which the character string of the fixed-length data in the data portion exists, and the second and second lines obtained by wrapping in the multiple detailed lines are returned. The character recognition program according to claim 9, wherein character strings of three variable length data are integrated.
JP2009283087A 2009-12-14 2009-12-14 Character recognition method, character recognition device, and character recognition program Active JP5318742B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009283087A JP5318742B2 (en) 2009-12-14 2009-12-14 Character recognition method, character recognition device, and character recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009283087A JP5318742B2 (en) 2009-12-14 2009-12-14 Character recognition method, character recognition device, and character recognition program

Publications (2)

Publication Number Publication Date
JP2011123825A JP2011123825A (en) 2011-06-23
JP5318742B2 true JP5318742B2 (en) 2013-10-16

Family

ID=44287627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009283087A Active JP5318742B2 (en) 2009-12-14 2009-12-14 Character recognition method, character recognition device, and character recognition program

Country Status (1)

Country Link
JP (1) JP5318742B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6028905B2 (en) * 2012-07-03 2016-11-24 富士通株式会社 Form management device, form management method, and form management program
JP7026386B2 (en) * 2018-08-24 2022-02-28 ネットスマイル株式会社 Form image processing system, form image processing method, and form image processing program
JP7383882B2 (en) * 2019-01-22 2023-11-21 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7456131B2 (en) 2019-11-29 2024-03-27 株式会社リコー Information processing system, information processing method and program
CN111695553B (en) * 2020-06-05 2023-09-08 北京百度网讯科技有限公司 Form identification method, device, equipment and medium

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2926066B2 (en) * 1992-05-29 1999-07-28 富士ゼロックス株式会社 Table recognition device
GB9305554D0 (en) * 1993-03-18 1993-05-05 Ncr Int Inc Method and apparatus for processing decuments
JP3525997B2 (en) * 1997-12-01 2004-05-10 富士通株式会社 Character recognition method

Also Published As

Publication number Publication date
JP2011123825A (en) 2011-06-23

Similar Documents

Publication Publication Date Title
JP4347677B2 (en) Form OCR program, method and apparatus
JP4996940B2 (en) Form recognition device and program thereof
JP4461769B2 (en) Document retrieval / browsing technique and document retrieval / browsing device
JP2004139484A (en) Form processing device, program for implementing it, and program for creating form format
JP5318742B2 (en) Character recognition method, character recognition device, and character recognition program
US20040202352A1 (en) Enhanced readability with flowed bitmaps
US20090024667A1 (en) Information processing device, file data merging method, file naming method, and file data output method
JP5385349B2 (en) Receipt definition data creation device and program thereof
US20190294912A1 (en) Image processing device, image processing method, and image processing program
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JPH11120293A (en) Character recognition/correction system
JPH08147446A (en) Electronic filing device
JP2005216203A (en) Table format data processing method and table format data processing apparatus
JP2012212293A (en) Document recognition device, document recognition method, program and storage medium
JP4983464B2 (en) Form image processing apparatus and form image processing program
CN102685347B (en) Image processing apparatus and image processing method
CN116311300A (en) Table generation method, apparatus, electronic device and storage medium
CN115983202A (en) Data processing method, device, equipment and storage medium
EP3470993A1 (en) A method and system for click thru capability of electronic media
JPH11219394A (en) Automatic various financial chart input device
CN113111881A (en) Information processing apparatus and recording medium
JP6379676B2 (en) Output program, output device, and output method
JP2005165978A (en) Business form ocr program, method and device thereof
JP2007280413A (en) Automatic input device of financial statement
WO2023021636A1 (en) Data processing device, data processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130710

R150 Certificate of patent or registration of utility model

Ref document number: 5318742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150