JP2021170276A - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP2021170276A
JP2021170276A JP2020073658A JP2020073658A JP2021170276A JP 2021170276 A JP2021170276 A JP 2021170276A JP 2020073658 A JP2020073658 A JP 2020073658A JP 2020073658 A JP2020073658 A JP 2020073658A JP 2021170276 A JP2021170276 A JP 2021170276A
Authority
JP
Japan
Prior art keywords
character string
information
input
candidate
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020073658A
Other languages
Japanese (ja)
Other versions
JP7283755B2 (en
Inventor
一也 谷川
Kazuya Tanigawa
淳一 坂井
Junichi Sakai
慎一 増田
Shinichi Masuda
凌希 大山
Ryoki Oyama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Milabo Co Ltd
Original Assignee
Milabo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Milabo Co Ltd filed Critical Milabo Co Ltd
Priority to JP2020073658A priority Critical patent/JP7283755B2/en
Publication of JP2021170276A publication Critical patent/JP2021170276A/en
Priority to JP2022207648A priority patent/JP2023036834A/en
Application granted granted Critical
Publication of JP7283755B2 publication Critical patent/JP7283755B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

To provide an information processing device and a program capable of supporting information input based on documents with various types of formats different from each other.SOLUTION: An information processing device 1 acquires document information scanned and extracts character string information from the acquired document information by character recognition processing, divides or integrates the extracted character string information based on a predetermined rule, and presents the character string information acquired by dividing or integrating as a candidate for input information when a user inputs a character string in an input field.SELECTED DRAWING: Figure 1

Description

本発明は、情報入力を支援する情報処理装置、及びプログラムに関する。 The present invention relates to an information processing device and a program that support information input.

光学的に読み取った文書を参照して、フォームに入力する作業を支援する技術が望まれている。一例として、読み取った文書に対して文字認識の処理(OCR)を実行し、文字認識により得られた文字列の情報を、フォームのどの入力欄に関連付けるかを、ドラッグアンドドロップにより設定する技術が存在する(特許文献1)。 There is a need for a technique that assists in the task of filling out a form by referring to an optically read document. As an example, there is a technology that executes character recognition processing (OCR) on a read document and sets by drag and drop which input field of the form the information of the character string obtained by character recognition is associated with. It exists (Patent Document 1).

特開2014−137605号公報Japanese Unexamined Patent Publication No. 2014-137605

上記従来の技術は、定型のフォームの帳票を処理する場合には効果的であるが、現実には共通の目的の帳票であってもフォームが異なっている場合がある。例えば各地の行政機関で用いられる保育所の利用申し込み書は、記載するべき内容の相違はあまりないものの、一般にそのフォームが互いに異なっているため、各情報の記入欄の位置は、地方行政機関ごとに区々となっている。 The above-mentioned conventional technique is effective when processing a form of a standard form, but in reality, the form may be different even if the form has a common purpose. For example, although there is not much difference in the contents to be described in the application form for the use of nursery schools used by local government agencies, the forms are generally different from each other, so the position of the entry field for each information is different for each local government agency. It is divided into districts.

このような、フォームが互いに異なる多種類の帳票からの入力を支援するためには、上記従来例の技術では対応できない。 In order to support input from various types of forms in which the forms are different from each other, the above-mentioned conventional techniques cannot be used.

本発明は上記実情に鑑みて為されたもので、互いに異なる多種類のフォームの帳票に基づく情報入力を支援できる情報処理装置、及びプログラムを提供することを、その目的の一つとする。 The present invention has been made in view of the above circumstances, and one of its objects is to provide an information processing device and a program capable of supporting information input based on forms of various types different from each other.

上記従来例の問題点を解決する本発明の一態様は、情報処理装置であって、スキャンされて得られた文書情報を取得する取得手段と、前記取得した文書情報から、文字認識処理により文字列情報を抽出する抽出手段と、前記抽出した文字列情報を所定の規則に基づいて分割または統合する分割統合手段と、前記分割または統合して得られた文字列情報を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する提示手段と、を含むこととしたものである。 One aspect of the present invention that solves the problems of the above-mentioned conventional example is an information processing device, which is an acquisition means for acquiring document information obtained by scanning, and characters from the acquired document information by character recognition processing. The extraction means for extracting the column information, the division / integration means for dividing or integrating the extracted character string information based on a predetermined rule, and the character string information obtained by the division or integration are used as candidates for input information. It is intended to include a presentation means to be presented when the user inputs a character string in the input field.

本発明によると、互いに異なる多種類のフォームの帳票に基づく情報入力を支援できる。 According to the present invention, it is possible to support information input based on forms of various types different from each other.

本発明の実施の形態に係る情報処理装置の例を表す構成ブロック図である。It is a block diagram which shows the example of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置の例を表す機能ブロック図である。It is a functional block diagram which shows the example of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置の処理の対象となる文書情報の例を表す説明図である。It is explanatory drawing which shows the example of the document information which is the object of processing of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置の処理の例を表すフローチャート図である。It is a flowchart which shows the example of the processing of the information processing apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る情報処理装置が表示するユーザインタフェースの例を表す説明図である。It is explanatory drawing which shows the example of the user interface displayed by the information processing apparatus which concerns on embodiment of this invention.

本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理装置1は、図1に例示するように、制御部11、記憶部12、操作部13、表示部14、及び入出力部15を含んで構成される。またこの情報処理装置1は、スキャナ装置2に接続される。 Embodiments of the present invention will be described with reference to the drawings. As illustrated in FIG. 1, the information processing device 1 according to the embodiment of the present invention includes a control unit 11, a storage unit 12, an operation unit 13, a display unit 14, and an input / output unit 15. Further, the information processing device 1 is connected to the scanner device 2.

制御部11は、CPU等のプログラム制御デバイスであり、記憶部12に格納されたプログラムに従って動作する。本実施の形態ではこの制御部11は、スキャナ装置2にてスキャンされて得られた文書情報を取得する。この文書情報は、画像データであるものとする。また制御部11は、当該取得した文書情報から、文字認識処理により文字列情報を抽出する。制御部11は、ここで抽出した文字列情報を所定の規則に基づいて分割し、分割または統合して得られた文字列情報(分割文字列情報と呼ぶ)を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する処理に供する。この制御部11の詳しい動作の内容については後に述べる。 The control unit 11 is a program control device such as a CPU, and operates according to a program stored in the storage unit 12. In the present embodiment, the control unit 11 acquires the document information obtained by scanning with the scanner device 2. This document information shall be image data. Further, the control unit 11 extracts character string information from the acquired document information by character recognition processing. The control unit 11 divides the character string information extracted here based on a predetermined rule, and the user uses the character string information (referred to as divided character string information) obtained by dividing or integrating the character string information as a candidate for input information. It is used for the process to be presented when inputting a character string in the input field. The details of the operation of the control unit 11 will be described later.

記憶部12は、ディスクデバイスやメモリデバイスを含んで構成される。この記憶部12には、制御部11によって実行されるプログラムが保持される。このプログラムは、コンピュータ可読、かつ非一時的な記録媒体に格納されて提供され、この記憶部12にインストールされたものであってもよい。またこの記憶部12は、制御部11のワークメモリとしても動作する。 The storage unit 12 includes a disk device and a memory device. The storage unit 12 holds a program executed by the control unit 11. This program may be provided stored in a computer-readable and non-temporary recording medium and installed in the storage unit 12. The storage unit 12 also operates as a work memory for the control unit 11.

本実施の形態の一例では、この記憶部12には予め、帳票の種類ごとに帳票から抽出するべき情報の項目を表す帳票関係情報が関連付けて記録されているものとする。具体的に、レシートを対象の帳票とする場合、レシートを特定する情報に関連付けて、店舗の名称、店舗の住所、店舗の電話番号、購入品目、購入数、単価、金額などの項目を特定する情報が帳票関係情報として記憶される。 In an example of the present embodiment, it is assumed that the storage unit 12 records in advance the form-related information representing the item of information to be extracted from the form for each type of form. Specifically, when the receipt is the target form, items such as the store name, store address, store phone number, purchased items, number of purchases, unit price, and amount are specified in association with the information that identifies the receipt. The information is stored as form-related information.

操作部13は、キーボードやマウス等を含む。この操作部13は、ユーザの操作を受け入れて、当該操作の内容を表す情報を、制御部11に出力する。表示部14は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示出力する。 The operation unit 13 includes a keyboard, a mouse, and the like. The operation unit 13 accepts the user's operation and outputs information representing the content of the operation to the control unit 11. The display unit 14 is a display or the like, and displays and outputs information according to an instruction input from the control unit 11.

入出力部15は、例えばUSBのインタフェース等であり、本実施の形態の例では、スキャナ装置2に接続される。この入出力部15は、スキャナ装置2が光学的に読み取って得た文書情報を、制御部11に出力する。 The input / output unit 15 is, for example, a USB interface or the like, and is connected to the scanner device 2 in the example of the present embodiment. The input / output unit 15 outputs the document information obtained by being optically read by the scanner device 2 to the control unit 11.

次に制御部11の動作例について説明する。図2に例示するように、本実施の形態の一例では、制御部11は、機能的には、文書取得部21と、文字列抽出部22と、分割統合処理部23と、候補設定部24と、情報入力部25とを含んで構成される。 Next, an operation example of the control unit 11 will be described. As illustrated in FIG. 2, in an example of the present embodiment, the control unit 11 functionally has a document acquisition unit 21, a character string extraction unit 22, a division / integration processing unit 23, and a candidate setting unit 24. And the information input unit 25.

ここで文書取得部21は、スキャナ装置2にてスキャンされて得られた文書情報の入力を受け入れる。既に述べたように、ここで文書取得部21が取得する文書情報は、レシート等の帳票を光学的に読み取って得た画像データであるものとする。 Here, the document acquisition unit 21 accepts the input of the document information obtained by scanning with the scanner device 2. As described above, the document information acquired by the document acquisition unit 21 here is assumed to be image data obtained by optically reading a form such as a receipt.

文字列抽出部22は、文書取得部21が取得した文書情報から、文字認識処理により文字列情報を抽出する。この文字認識処理は、いわゆるOCR(光学的文字認識)でよい。文字列抽出部22は、文書情報上で認識した文字列の画像部分に外接する外接矩形領域を特定する情報と、当該外接矩形領域内の文字列情報とを出力する。 The character string extraction unit 22 extracts character string information from the document information acquired by the document acquisition unit 21 by character recognition processing. This character recognition process may be so-called OCR (optical character recognition). The character string extraction unit 22 outputs information for specifying the circumscribed rectangular area circumscribing the image portion of the character string recognized on the document information and character string information in the circumscribed rectangular area.

分割統合処理部23は、文字列抽出部22が抽出した文字列情報を、所定の規則に基づいて複数の分割文字列情報に分割または統合する。具体的な例として、文書情報が図3に例示するような、レシートを光学的に読み取って得た画像データであり、文字列抽出部22が認識した外接矩形領域ごとの文字列情報が、それぞれ、
(1)XXストア
(2)X県Y市Z−A
(3)M月D日H時m分
(4)雑
(5)貨
(6)1点 @240
(7)240
(8)α錠剤
(9)1点…@500
(10)500
(11)小計
(12)740
(13)税
(14)10%
(15)74
(16)合計
(17)814
となっているものとする。
The division / integration processing unit 23 divides or integrates the character string information extracted by the character string extraction unit 22 into a plurality of division character string information based on a predetermined rule. As a specific example, the document information is image data obtained by optically reading the receipt as illustrated in FIG. 3, and the character string information for each extrinsic rectangular area recognized by the character string extraction unit 22 is each. ,
(1) XX store (2) ZA, Y city, X prefecture
(3) M month D day H hour m minute (4) miscellaneous (5) currency (6) 1 point @ 240
(7) 240
(8) α tablet (9) 1 point ... @ 500
(10) 500
(11) Subtotal (12) 740
(13) Tax (14) 10%
(15) 74
(16) Total (17) 814
It is assumed that

分割統合処理部23は、文書情報において主走査方向(文字列の配列される方向)をX軸、副走査方向をY軸として、文字列情報を含む外接矩形領域について、Y軸方向の位置でクラスタリングする(第1のクラスタリング)。なお、ここで外接矩形領域の位置は、外接矩形の中心(2つの対角線の交点)の座標でよい。またクラスタリングの方法は問われないが、例えば属するクラスタを決定していない外接矩形領域Pを一つ選択して、当該外接矩形領域をX軸方向左右に延長した延長領域に重なり合う他の外接矩形領域Q,Rがある場合に、この外接矩形領域P,Q,Rを一つのクラスタとする(P,Q,Rが一つのクラスタに属する)ことと設定するなどの処理を、クラスタに属していない外接矩形領域がなくなるまで繰り返して行えばよい。 In the document information, the division / integration processing unit 23 has the main scanning direction (the direction in which the character strings are arranged) as the X-axis and the sub-scanning direction as the Y-axis, and the extrinsic rectangular area containing the character string information is positioned in the Y-axis direction. Clustering (first clustering). Here, the position of the circumscribed rectangle region may be the coordinates of the center of the circumscribed rectangle (the intersection of the two diagonal lines). The clustering method is not limited, but for example, one circumscribed rectangular area P whose cluster to which the member belongs is selected, and another circumscribed rectangular area that overlaps with the extension area extending left and right in the X-axis direction. If there are Q and R, the processing such as setting the circumscribed rectangular areas P, Q and R to be one cluster (P, Q and R belong to one cluster) does not belong to the cluster. It may be repeated until the circumscribed rectangular area disappears.

また分割統合処理部23は、上記第1のクラスタリングにより、互いに同じクラスタに属する外接矩形領域が複数ある場合には、位置のX座標の小さい順(あるいは大きい順)に外接矩形領域を並べ替える。分割統合処理部23は当該並べ替えた外接矩形領域Ri(i=1,2…)ごとに、隣接する外接矩形領域Ri+1までのX軸方向の距離が所定の分割しきい値を上回るか否かを判断する。そして分割統合処理部23は、隣接する外接矩形領域RiとRi+1とのX軸方向の距離が分割しきい値を上回る場合には、外接矩形領域RiとRi+1との間でクラスタを分割する(第2のクラスタリング)。これにより一対の外接矩形領域間に比較的大きい空白部分がある場合は、当該一対の外接矩形領域が互いに異なるクラスタに属するものと判断される。 ここで互いに隣接する外接矩形領域間の距離は、位置のX座標の小さい順に並べ替えた場合、外接矩形領域Riの右辺のX座標(傾いている場合はその最大値)と、隣接する外接矩形領域Ri+1の左辺のX座標(傾いている場合はその最小値)との差で表すものとする。 Further, the division / integration processing unit 23 rearranges the circumscribed rectangular regions in ascending (or larger) order of the X coordinates of the positions when there are a plurality of circumscribed rectangular regions belonging to the same cluster by the first clustering. Does the division integration processing unit 23 exceed a predetermined division threshold value for each of the rearranged circumscribed rectangular regions Ri (i = 1, 2, ...) In the X-axis direction to the adjacent circumscribed rectangular regions Ri + 1. Judge whether or not. Then, when the distance between the adjacent circumscribed rectangular regions Ri and Ri + 1 in the X-axis direction exceeds the division threshold value, the division integration processing unit 23 forms a cluster between the circumscribed rectangular regions Ri and Ri + 1. Divide (second clustering). As a result, if there is a relatively large blank area between the pair of circumscribed rectangular regions, it is determined that the pair of circumscribed rectangular regions belong to different clusters. Here, the distances between the circumscribed rectangular regions adjacent to each other are the X coordinate of the right side of the circumscribed rectangular region Ri (the maximum value if it is tilted) and the adjacent circumscribed rectangle when rearranged in ascending order of the X coordinate of the position. It shall be represented by the difference from the X coordinate (the minimum value if it is tilted) on the left side of the region Ri + 1.

また、分割統合処理部23は、第2のクラスタリングの処理により、互いに隣接する外接矩形領域RiとRi+1とのX軸方向の距離が所定の分割しきい値を上回らない場合は、外接矩形領域RiとRi+1とのそれぞれに含まれる文字列を統合(主走査方向の順に文字列を連結)する。つまり、分割統合処理部23は、第1のクラスタリングによって得られたクラスタごとに、当該クラスタに含まれる外接矩形領域のうち、互いに分割しきい値未満の距離にある外接矩形領域内文字列を所定の順序で(外接矩形領域の位置がY軸上方にあるほど先、同じY座標であればX軸方向に左にあるほど先に)連接して、連接後の文字列の情報を、分割文字列情報として記憶部12に記憶する(統合処理)。 Further, when the distance in the X-axis direction between the extrinsic rectangular regions Ri and Ri + 1 adjacent to each other does not exceed the predetermined division threshold value, the division integration processing unit 23 performs the extrinsic rectangle by the second clustering process. The character strings included in each of the areas Ri and Ri + 1 are integrated (the character strings are concatenated in the order of the main scanning direction). That is, the division / integration processing unit 23 determines, for each cluster obtained by the first clustering, a character string in the extrinsic rectangular region within the extrinsic rectangular region included in the cluster at a distance less than the division threshold. (The position of the circumscribing rectangular area is above the Y-axis, the earlier it is, and if it is the same Y coordinate, the more it is to the left in the X-axis direction), and the information of the character string after the connection is divided into characters. It is stored in the storage unit 12 as column information (integrated processing).

図3の例の文書情報に対しては、外接矩形領域「(4)雑」と、外接矩形領域「(5)貨」との間には約1文字分の空白があり、外接矩形領域「(5)貨」と、外接矩形領域「(6)1点…@240」との間には約3文字分の空白がある。そこで、しきい値である上記所定の値を2文字分以上と設定しておくと、分割統合処理部23の処理により、外接矩形領域「(4)雑」と、外接矩形領域「(5)貨」とが統合され、また、外接矩形領域「(5)貨」と、外接矩形領域「(6)1点…@240」とは、別のクラスタとして分割されて、
クラスタ1.「XXストア」
クラスタ2.「X県Y市Z−A」
クラスタ3.「M月D日H時m分」
クラスタ4.「雑 貨」
クラスタ5.「1点…@240」
クラスタ6.「240」
クラスタ7.「α錠剤」
クラスタ8.「1点…@500」
クラスタ9.「500」
クラスタ10.「小計」
クラスタ11.「740」

といったように、OCR等により得られた文字列情報が、複数のクラスタに分割され、クラスタごとの分割文字列情報が得られる。
For the document information in the example of FIG. 3, there is a space of about one character between the circumscribed rectangular area "(4) miscellaneous" and the circumscribed rectangular area "(5) currency", and the circumscribed rectangular area "(5) currency" There is a space of about 3 characters between "(5) coin" and the circumscribed rectangular area "(6) 1 point ... @ 240". Therefore, if the above-mentioned predetermined value, which is the threshold value, is set to two characters or more, the circumscribed rectangular area "(4) miscellaneous" and the circumscribed rectangular area "(5)" are processed by the division / integration processing unit 23. The "currency" is integrated, and the circumscribed rectangular area "(5) currency" and the circumscribed rectangular area "(6) 1 point ... @ 240" are divided into separate clusters.
Cluster 1. "XX store"
Cluster 2. "ZA, Y City, X Prefecture"
Cluster 3. "M month D day H hour m minute"
Cluster 4. "general merchandise"
Cluster 5. "1 point ... @ 240"
Cluster 6. "240"
Cluster 7. "Α tablet"
Cluster 8. "1 point ... @ 500"
Cluster 9. "500"
Cluster 10. "subtotal"
Cluster 11. "740"
...
As such, the character string information obtained by OCR or the like is divided into a plurality of clusters, and the divided character string information for each cluster is obtained.

候補設定部24は、分割または統合して得られた分割文字列情報を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する。具体的にこの候補設定部24は、分割統合処理部23が記憶部12に記憶したクラスタごとの分割文字列情報のうち、予め定めた条件を満足する分割文字列情報を、入力文字列候補として設定する。 The candidate setting unit 24 presents the divided character string information obtained by dividing or integrating the divided character string information as a candidate for the input information when the user inputs the character string to the input field. Specifically, the candidate setting unit 24 uses, among the divided character string information for each cluster stored in the storage unit 12 by the divided integrated processing unit 23, the divided character string information satisfying a predetermined condition as an input character string candidate. Set.

ここで予め定めた条件は、例えば、分割文字列情報の長さ(分割文字列情報に含まれる文字数)としてもよい。例えば候補設定部24は、クラスタごとの分割文字列情報のうち、含まれる文字数が「2」以上、かつ「10」以下のとき、当該分割文字列情報を、入力文字列候補として設定する。 The predetermined condition here may be, for example, the length of the divided character string information (the number of characters included in the divided character string information). For example, when the number of characters included in the divided character string information for each cluster is "2" or more and "10" or less, the candidate setting unit 24 sets the divided character string information as an input character string candidate.

情報入力部25は、文書取得部21が文書情報を取得するごとに、当該文書情報から転記するべき情報の入力欄を表示して、ユーザに対して情報の入力を促す。ここで表示される入力欄は、複数あってよく、表示される各入力欄の種類(どのような情報を入力するかを示す表題や、入力されるべき情報の条件を規定する情報等)は、予め定めておくものとする。またこの情報入力部25は、情報入力の完了を指示するためのボタン(例えば「登録」ボタン)などを表示する。 Each time the document acquisition unit 21 acquires the document information, the information input unit 25 displays an input field for information to be transcribed from the document information and prompts the user to input the information. There may be multiple input fields displayed here, and the type of each input field displayed (title indicating what kind of information to be input, information defining the conditions of information to be input, etc.) , It shall be decided in advance. Further, the information input unit 25 displays a button (for example, a “registration” button) for instructing the completion of the information input.

一例として、ここでは「購入店舗」、「購入日」、「購入項目」、「金額」の各種類の情報の入力欄が表示されるものとする。なお、「購入項目」、「金額」は、複数回、繰り返して表示される。ユーザは入力欄を指定して(例えば入力欄をクリックするなどして情報を入力する入力欄をフォーカスして)、キーボードを操作する等して情報を入力する。 As an example, here, it is assumed that input fields for each type of information of "purchase store", "purchase date", "purchase item", and "amount" are displayed. The "purchase item" and "amount" are displayed repeatedly a plurality of times. The user specifies an input field (for example, clicks on the input field to focus on the input field for inputting information), and operates the keyboard to input the information.

情報入力部25は、ユーザが入力欄を指定したときに、候補設定部24が入力文字列候補として設定した文字列を、入力する文字列の候補として選択可能な状態で表示する。ユーザが表示された入力文字列候補の一つを選択すると、情報入力部25は、指定された入力欄に選択された入力文字列候補を入力した状態とする。 The information input unit 25 displays a character string set as an input character string candidate by the candidate setting unit 24 in a state in which it can be selected as a candidate for an input character string when the user specifies an input field. When the user selects one of the displayed input character string candidates, the information input unit 25 is in a state of inputting the selected input character string candidate in the designated input field.

また、ユーザが表示された入力文字列候補の一つを選択することなく、指定した入力欄に文字列を入力したときには、情報入力部25は、入力文字列候補の表示を取りやめてもよい。 Further, when the user inputs a character string in the designated input field without selecting one of the displayed input character string candidates, the information input unit 25 may cancel the display of the input character string candidate.

また、この情報入力部25は、ユーザが指定した入力欄に文字列を入力したときに、当該入力した文字列に前方一致(あるいは部分一致)する入力文字列候補がある場合には、当該入力文字列候補を、入力する文字列の候補として選択可能な状態で表示してもよい。 Further, when a character string is input in the input field designated by the user, the information input unit 25 inputs the input character string candidate if there is an input character string candidate that matches (or partially matches) the input character string. The character string candidate may be displayed in a state in which it can be selected as a character string candidate to be input.

情報入力部25は、ユーザから情報入力の完了が指示されると、各入力欄に入力された情報をデータベースに登録する等の所定の処理を実行して、処理を終了する。このとき、情報入力部25は、記憶部12に格納された入力文字列候補を削除してもよい。 When the user instructs the completion of the information input, the information input unit 25 executes a predetermined process such as registering the information input in each input field in the database, and ends the process. At this time, the information input unit 25 may delete the input character string candidates stored in the storage unit 12.

[動作]
本実施の形態の例に係る情報処理装置1は、以上の構成を備えており、次のように動作する。情報処理装置1のユーザは、スキャナ装置2を操作して紙面等の媒体(レシート等)に形成された画像を光学的に読み取らせる。スキャナ装置2は、レシート等を光学的に読み取って得た画像データを、文書情報として情報処理装置1に出力する。
[motion]
The information processing device 1 according to the example of the present embodiment has the above configuration and operates as follows. The user of the information processing device 1 operates the scanner device 2 to optically read an image formed on a medium (receipt or the like) such as a paper surface. The scanner device 2 outputs the image data obtained by optically reading the receipt or the like to the information processing device 1 as document information.

情報処理装置1は、当該スキャナ装置2が出力する文書情報を受け入れると、図4に例示した処理を開始し、当該受け入れた文書情報から、光学的文字認識処理により、文書情報上で認識した文字列の画像部分に外接する外接矩形領域を特定する情報と、当該外接矩形領域内の文字列情報とを得る(S1)。 When the information processing device 1 receives the document information output by the scanner device 2, the processing illustrated in FIG. 4 is started, and the characters recognized on the document information by the optical character recognition processing from the received document information. Information for specifying the extrinsic rectangular area circumscribing the image portion of the column and character string information in the extrinsic rectangular area are obtained (S1).

情報処理装置1は、ステップS1で得た文字列情報を、所定の規則に基づいて複数の分割文字列情報に分割する(S2)。ここで所定の規則は、既に述べた例のように、文字列が配列される方向に比較的近い外接矩形領域内の文字列を連結し(統合処理)、比較的遠い外接矩形領域内の文字列同士は分割するとの規則とすればよい。また、この規則では、文字列が配列される方向と直交する方向にある外接矩形領域内の文字列は分割することとする。 The information processing device 1 divides the character string information obtained in step S1 into a plurality of divided character string information based on a predetermined rule (S2). Here, as in the example described above, the predetermined rule is to concatenate the character strings in the extrinsic rectangular area relatively close to the direction in which the character strings are arranged (integration processing), and to concatenate the characters in the extrinsic rectangular area relatively far away. The rule may be to divide the columns. Further, in this rule, the character strings in the circumscribing rectangular area in the direction orthogonal to the direction in which the character strings are arranged are divided.

この規則により、情報処理装置1は、例えば図3に例示した文書情報から、既に示したように、
クラスタ1.「XXストア」
クラスタ2.「X県Y市Z−A」
クラスタ3.「M月D日H時m分」
クラスタ4.「雑 貨」
クラスタ5.「1点…@240」
クラスタ6.「240」
クラスタ7.「α錠剤」
クラスタ8.「1点…@500」
クラスタ9.「500」
クラスタ10.「小計」
クラスタ11.「740」

といったように分割文字列情報を得る。
According to this rule, the information processing apparatus 1 has, for example, from the document information illustrated in FIG. 3, as already shown.
Cluster 1. "XX store"
Cluster 2. "ZA, Y City, X Prefecture"
Cluster 3. "M month D day H hour m minute"
Cluster 4. "general merchandise"
Cluster 5. "1 point ... @ 240"
Cluster 6. "240"
Cluster 7. "Α tablet"
Cluster 8. "1 point ... @ 500"
Cluster 9. "500"
Cluster 10. "subtotal"
Cluster 11. "740"
...
Get the split character string information like this.

情報処理装置1は、分割して得られたクラスタごとの分割文字列情報のうち、予め定めた条件を満足する分割文字列情報を、入力文字列候補として記憶する(S3)。ここで条件は、分割文字列情報の長さとし、文字数が「2」以上、かつ「10」以下のとき、当該分割文字列情報を、入力文字列候補として設定することとする。 The information processing device 1 stores the divided character string information satisfying a predetermined condition among the divided character string information for each cluster obtained by the division as an input character string candidate (S3). Here, the condition is the length of the divided character string information, and when the number of characters is "2" or more and "10" or less, the divided character string information is set as an input character string candidate.

情報処理装置1は、図5に例示するように受け入れた文書情報から転記するべき情報の入力欄(X)を表示する(S4)。ここでは情報処理装置1は、「購入店舗」、「購入日」、「購入項目」、「金額」の入力欄を表示し、また入力の完了を指示するためのボタン(例えば「登録」ボタン)などを表示するものとする。さらに情報処理装置1は、この入力欄とともに、受け入れた文書情報(画像データ)を表示する(図5(Y))。そして情報処理装置1は、ユーザからの情報の入力を待機する(S5)。 The information processing device 1 displays an input field (X) of information to be transcribed from the received document information as illustrated in FIG. 5 (S4). Here, the information processing device 1 displays input fields for "purchase store", "purchase date", "purchase item", and "amount", and also a button for instructing the completion of input (for example, a "registration" button). Etc. shall be displayed. Further, the information processing device 1 displays the received document information (image data) together with this input field (FIG. 5 (Y)). Then, the information processing device 1 waits for the input of information from the user (S5).

ユーザは、この後、入力欄を指定して、指定した入力欄に対応する情報を、文書情報を参照しつつ入力する。情報処理装置1は、ユーザにより入力欄が指定されると(S5:Yes)、ステップS3で記憶した入力文字列候補の一覧を表示し(S6)、ユーザの選択または文字列入力を待機する(S7)。 After that, the user specifies an input field and inputs the information corresponding to the designated input field while referring to the document information. When the input field is specified by the user (S5: Yes), the information processing device 1 displays a list of input character string candidates stored in step S3 (S6), and waits for the user's selection or character string input (S6). S7).

ここでユーザがステップS6で表示した一覧から入力文字列候補の一つを選択すると(S7:選択)、情報処理装置1は、ステップS5で指定された入力欄に、選択された入力文字列候補を入力した状態とし(S8)、ステップS5に戻って処理を続ける。 Here, when the user selects one of the input character string candidates from the list displayed in step S6 (S7: selection), the information processing apparatus 1 selects the input character string candidate in the input field specified in step S5. (S8), the process returns to step S5 and the process is continued.

一方、ステップS7において、ユーザがキーボードを操作するなどして直接、文字列の入力を行う場合(S7:直接入力)、情報処理装置1は、ステップS3で記憶した入力文字列候補の一覧のうちから入力された文字列に前方一致する入力文字列候補を選択し(S9)、当該選択した入力文字列候補を表示する(S10)。 On the other hand, in step S7, when the user directly inputs a character string by operating a keyboard or the like (S7: direct input), the information processing apparatus 1 is included in the list of input character string candidates stored in step S3. Selects an input character string candidate whose prefix matches the character string input from (S9), and displays the selected input character string candidate (S10).

ここでユーザがステップS10で表示した一覧から入力文字列候補の一つを選択すると(S11:選択)、情報処理装置1は、ステップS5で指定された入力欄に、選択された入力文字列候補を入力した状態とし(S12)、ステップS5に戻って処理を続ける。 Here, when the user selects one of the input character string candidates from the list displayed in step S10 (S11: selection), the information processing apparatus 1 selects the input character string candidate in the input field specified in step S5. (S12), the process returns to step S5 and the process is continued.

一方、ステップS11において、ユーザがキーボードを操作するなどして直接的な文字列の入力を継続する場合(S11:直接入力)、情報処理装置1は、ステップS9に戻って処理を続ける。 On the other hand, in step S11, when the user continues to directly input the character string by operating the keyboard or the like (S11: direct input), the information processing apparatus 1 returns to step S9 and continues the process.

なお、このステップS7からS12の処理の間に、ユーザが別の入力欄を指定すると、情報処理装置1は、処理S6に戻って処理を続ける(A)。 If the user specifies another input field during the processes of steps S7 to S12, the information processing apparatus 1 returns to the process S6 and continues the process (A).

またステップS6からS12の処理の間に、ユーザが入力の完了を指示したときには、情報処理装置1は、各入力欄に入力された情報をデータベースに登録する等の所定の処理を実行し(B,S21)、記憶している入力文字列候補を削除する(S22)。 Further, when the user instructs the completion of the input during the processes of steps S6 to S12, the information processing apparatus 1 executes a predetermined process such as registering the information input in each input field in the database (B). , S21), the stored input character string candidate is deleted (S22).

またここでの処理において、情報処理装置1は、一度選択された入力文字列候補が再度候補として表示されないよう制御してもよい。具体的にこの例では、入力文字列候補ごとに既に選択された(入力欄に入力された)か否かを表すフラグを関連付けて記憶しておく。このとき、初期値は未選択である旨の値(例えばFalse)としておく。 Further, in the processing here, the information processing apparatus 1 may control the input character string candidate once selected so as not to be displayed as a candidate again. Specifically, in this example, a flag indicating whether or not the input character string candidate has already been selected (input in the input field) is associated and stored. At this time, the initial value is set to a value indicating that it has not been selected (for example, False).

この例では、情報処理装置1は、ステップS7またはステップS11にて入力文字列候補が選択されると、当該選択された入力文字列候補に関連付けたフラグを、既に選択されたことを表す値(例えばTrue)に設定する。そして情報処理装置1は、ステップS6における一覧表示、あるいはステップS9における選択の際に、未選択を表すフラグに関連付けられた入力文字列候補を一覧表示し、あるいは、未選択を表すフラグに関連付けられた入力文字列候補のうち入力された文字列に前方一致する入力文字列候補を選択する。 In this example, when the input character string candidate is selected in step S7 or step S11, the information processing device 1 indicates that the flag associated with the selected input character string candidate has already been selected (a value indicating that the flag associated with the selected input character string candidate has already been selected. For example, set to True). Then, the information processing apparatus 1 displays a list of input character string candidates associated with the flag indicating unselected at the time of list display in step S6 or selection in step S9, or is associated with the flag indicating unselected. Among the input character string candidates that have been input, the input character string candidate that prefixes the input character string is selected.

[入力文字列候補とする条件]
またここまでの説明では、情報処理装置1の制御部11は、候補設定部24としての動作を行う際に、分割または統合して得られた分割文字列情報のうち、入力文字列候補として設定する分割文字列情報を、分割文字列情報の長さ(分割文字列情報に含まれる文字数)に基づいて設定することとしていた。しかしながら入力文字列候補の条件は、これに限られない。
[Conditions for input character string candidates]
Further, in the description so far, the control unit 11 of the information processing device 1 is set as an input character string candidate among the divided character string information obtained by dividing or integrating when operating as the candidate setting unit 24. The split character string information to be processed is set based on the length of the split character string information (the number of characters included in the split character string information). However, the conditions for input character string candidates are not limited to this.

本実施の形態の一例では、候補設定部24は、分割文字列情報の長さに代えて、またそれとともに、所定のパターンに合致するか否かを入力文字列候補の条件としてもよい。この例では、候補設定部24は、所定のパターンに合致する(あるいは所定のパターンに合致しない)分割文字列情報を、入力文字列候補として設定することとしてもよい。このパターンは、例えばいわゆる正規表現とすることができる。候補設定部24は、例えば、
「*県*市*」
等予め列挙した候補パターンに合致する分割文字列情報を入力文字列候補として設定する。また候補設定部24は、別に列挙した、
「*点…@*」
等の非候補パターンに合致する分割文字列情報を入力文字列候補として設定しないよう制御してもよい。ここで「*」は、任意の1文字に合致することを表す正規表現であるとする。また、列挙された候補パターンや非候補パターンに合致しない分割文字列情報については、予め、入力文字列候補として設定するか否かを定めておき、候補設定部24は、当該定めに従って入力文字列候補として設定する(あるいは設定しない)こととすればよい。
In an example of the present embodiment, the candidate setting unit 24 may use the length of the divided character string information as a condition for the input character string candidate, as well as whether or not it matches a predetermined pattern. In this example, the candidate setting unit 24 may set the divided character string information that matches the predetermined pattern (or does not match the predetermined pattern) as the input character string candidate. This pattern can be, for example, a so-called regular expression. The candidate setting unit 24 is, for example,
"* County * City *"
Etc. Set the divided character string information that matches the candidate patterns listed in advance as input character string candidates. The candidate setting unit 24 is listed separately.
"*point…@*"
It may be controlled not to set the divided character string information matching the non-candidate pattern such as as the input character string candidate. Here, "*" is assumed to be a regular expression indicating that it matches any one character. Further, regarding the divided character string information that does not match the listed candidate patterns and non-candidate patterns, it is determined in advance whether or not to set as an input character string candidate, and the candidate setting unit 24 determines the input character string according to the determination. It may be set (or not set) as a candidate.

また、ここで候補パターンや非候補パターンは、情報入力部25としての処理において表示する入力欄ごとに設定されてもよい。 Further, here, the candidate pattern and the non-candidate pattern may be set for each input field to be displayed in the processing as the information input unit 25.

例えば、「住所」の入力欄については、候補パターンとして、
「*[都道府県]*[市区町村]*[町]*」
などと設定し、また、「購入項目」については、非候補パターンとして
「[0-9]+」
などと設定しておく。ここで[ABC]または[A−C]は、A,B,Cのいずれかに合致するものとし、「+」は直前の種類の文字を1以上配列したパターンであることを示す。つまり、「[0-9]+」は数値のみからなることを意味する。
For example, for the "address" input field, as a candidate pattern,
"* [Prefecture] * [City] * [Town] *"
And for "Purchase item", "[0-9] +" as a non-candidate pattern
And so on. Here, [ABC] or [AC] is assumed to match any of A, B, and C, and "+" indicates that the pattern is an array of one or more characters of the immediately preceding type. In other words, "[0-9] +" means that it consists only of numerical values.

この例の場合、候補設定部24は、分割または統合して得られた分割文字列情報のそれぞれについて、入力欄ごとに予め定められた候補パターンあるいは非候補パターンに合致するかを調べる。そして候補設定部24は、候補パターンに合致する(あるいは非候補パターンに合致しない)場合に、当該分割文字列情報に、当該候補パターンまたは非候補パターンに対応する入力欄を特定する情報(入力欄の名称等)を関連付けて、入力文字列候補として記憶する。 In the case of this example, the candidate setting unit 24 checks whether each of the divided character string information obtained by dividing or integrating matches the candidate pattern or the non-candidate pattern predetermined for each input field. Then, when the candidate setting unit 24 matches the candidate pattern (or does not match the non-candidate pattern), the candidate setting unit 24 provides information (input field) for specifying the input field corresponding to the candidate pattern or the non-candidate pattern in the divided character string information. (Name, etc.) is associated and stored as an input character string candidate.

この例では、例えば、
クラスタ1.「XXストア」 購入店舗,購入項目
クラスタ2.「X県Y市Z−A」 住所
クラスタ3.「M月D日H時m分」 購入日
クラスタ4.「雑 貨」 購入店舗,購入項目
クラスタ5.「1点…@240」 (なし)
クラスタ6.「240」 購入金額

というように、入力欄ごとに入力文字列候補が設定される。
In this example, for example
Cluster 1. "XX store" Purchase store, purchase item cluster 2. "ZA, Y city, X prefecture" Address cluster 3. "M month D day H hour m" Purchase date cluster 4. "Miscellaneous goods" Purchase store, purchase item cluster 5. "1 point ... @ 240" (none)
Cluster 6. "240" Purchase price ...
As such, input character string candidates are set for each input field.

この場合、情報入力部25は、ユーザが入力欄を指定したときに、入力文字列候補として設定された文字列のうち、指定された入力欄を特定する情報に関連付けられている入力文字列候補を、入力する文字列の候補として選択可能な状態で表示する。 In this case, the information input unit 25 is an input character string candidate associated with the information that identifies the specified input field among the character strings set as the input character string candidates when the user specifies the input field. Is displayed in a selectable state as a candidate for the character string to be input.

ユーザが表示された入力文字列候補の一つを選択すると、情報入力部25は、指定された入力欄に選択された入力文字列候補を入力した状態とする。 When the user selects one of the displayed input character string candidates, the information input unit 25 is in a state of inputting the selected input character string candidate in the designated input field.

また情報入力部25は、ユーザが入力文字列候補を選択せずに、指定した入力欄に文字列を入力したときに、当該入力した文字列に前方一致(あるいは部分一致)する入力文字列候補であって、指定された入力欄を特定する情報に関連付けられている入力文字列候補がある場合には、当該入力文字列候補を、入力する文字列の候補として選択可能な状態で表示してもよい。この場合も、ユーザが表示された入力文字列候補の一つを選択すると、情報入力部25は、指定された入力欄に選択された入力文字列候補が入力された状態とする(ユーザが途中まで入力していた情報は置き換えられる)。 Further, when the user inputs a character string in the designated input field without selecting the input character string candidate, the information input unit 25 starts with (or partially matches) the input character string candidate. If there is an input character string candidate associated with the information that identifies the specified input field, the input character string candidate is displayed in a selectable state as a character string candidate to be input. May be good. Also in this case, when the user selects one of the displayed input character string candidates, the information input unit 25 sets the selected input character string candidate in the designated input field (the user is in the middle). The information you have entered up to will be replaced).

なお、ここでは入力文字列候補を設定する際に、入力先の候補となる入力欄を特定することとしていたが、本実施の形態はこの例に限られない。例えば、入力文字列候補については入力欄を特定することなく設定しておき、ある入力欄に対して入力する文字列の候補を表示する際に、設定された入力文字列候補のうち、当該入力欄に関連付けて予め定められているパターン(上述のように正規表現で表されているものでよい)に合致する入力文字列候補を選択して表示してもよい。 Here, when setting the input character string candidate, the input field that is the candidate for the input destination is specified, but the present embodiment is not limited to this example. For example, an input character string candidate is set without specifying an input field, and when displaying a character string candidate to be input for a certain input field, among the set input character string candidates, the input is concerned. An input character string candidate that matches a predetermined pattern (which may be represented by a regular expression as described above) associated with the field may be selected and displayed.

[入力文字列候補の他の例]
また入力文字列候補は、OCRにより得られた文字列情報に基づいて候補設定部24が設定したものに限らなくてもよい。情報処理装置1は、予めユーザや管理者等から設定された文字列情報を、入力文字列候補(以下、候補設定部24が設定したものと区別するため、事前候補と呼ぶ)として記憶しておき、ユーザが入力欄を指定したときに、候補設定部24が設定した入力文字列候補とともに、当該予め記憶している事前候補を含めて、入力する文字列の候補として選択可能な状態で表示してもよい。
[Other examples of input string candidates]
Further, the input character string candidate is not limited to the one set by the candidate setting unit 24 based on the character string information obtained by OCR. The information processing device 1 stores character string information set in advance by a user, an administrator, or the like as an input character string candidate (hereinafter, referred to as a preliminary candidate in order to distinguish it from the one set by the candidate setting unit 24). When the user specifies an input field, the input character string candidates set by the candidate setting unit 24 and the pre-candidates stored in advance are displayed in a state where they can be selected as candidates for the character string to be input. You may.

この場合も、事前候補に対しては入力先の候補となる入力欄を特定する情報が関連付けられていてもよい。情報入力部25は、ユーザが入力欄を指定したときに、入力文字列候補として設定された文字列、及び事前候補の文字列のうち、指定された入力欄を特定する情報に関連付けられている入力文字列候補及び事前候補を、入力する文字列の候補として選択可能な状態で表示する。 In this case as well, information that specifies an input field that is a candidate for the input destination may be associated with the prior candidate. The information input unit 25 is associated with information that identifies a designated input field among the character string set as the input character string candidate and the character string of the pre-candidate when the user specifies the input field. Input character string candidates and advance candidates are displayed in a state in which they can be selected as candidates for the character string to be input.

[他の入力方法]
また本実施の形態では情報入力部25は、図5に例示したように文書情報を表示する際、分割統合処理部23が得たクラスタごとに、当該クラスタに属する分割文字列情報に係る外接矩形領域を重ね合わせて表示してもよい。この外接矩形領域はクラスタに含めた文字列情報(分割前の文字列情報)の各外接矩形領域にさらに外接する矩形領域とする。
[Other input methods]
Further, in the present embodiment, when the information input unit 25 displays the document information as illustrated in FIG. 5, for each cluster obtained by the division integration processing unit 23, the circumscribed rectangle related to the division character string information belonging to the cluster is obtained. The areas may be overlapped and displayed. This circumscribed rectangular area is a rectangular area further circumscribed to each circumscribed rectangular area of the character string information (character string information before division) included in the cluster.

そして情報入力部25は、このクラスタごとの外接矩形領域と、入力欄とを関連付ける操作をユーザが行ったときに、当該外接矩形領域のクラスタに対応する分割文字列情報を、入力欄に入力した状態とする。 Then, when the user performs an operation of associating the circumscribed rectangular area for each cluster with the input field, the information input unit 25 inputs the divided character string information corresponding to the cluster of the circumscribed rectangular area in the input field. Make it a state.

一例としてこの外接矩形領域と、入力欄とを関連付ける操作は、マウス等のポインティングデバイスによるドラッグアンドドロップ操作でよい。このとき情報入力部25は、関連付けた入力欄に既に入力された文字列があるときには、当該文字列に外接矩形領域のクラスタに対応する分割文字列情報を連接して、入力欄に入力することとしてもよい。さらにこのときには、ユーザが修飾キー(例えばシフトキー)を押下しながらドラッグアンドドロップした場合、関連付けた入力欄に既に入力された文字列を、外接矩形領域のクラスタに対応する分割文字列情報で置き換えて、入力欄に入力してもよい。 As an example, the operation of associating the circumscribed rectangular area with the input field may be a drag-and-drop operation using a pointing device such as a mouse. At this time, when there is a character string already input in the associated input field, the information input unit 25 connects the divided character string information corresponding to the cluster of the extrinsic rectangular area to the character string and inputs it in the input field. May be. Furthermore, at this time, when the user drags and drops while pressing the modifier key (for example, the shift key), the character string already entered in the associated input field is replaced with the divided character string information corresponding to the cluster in the extrinsic rectangular area. , You may enter in the input field.

[辞書の利用]
また本実施の形態の例では、候補設定部24が候補パターン(または非候補パターン)として、予め設定された候補辞書(あるいは非候補辞書)に登録された文字列を用いてもよい。この例では、候補設定部24は、分割文字列情報のうち、予め設定された候補辞書に登録された文字列と類似すると判断される文字列情報を、入力文字列候補とする。また候補設定部24は、分割文字列情報のうち、予め設定された非候補辞書に登録された文字列と類似すると判断される文字列情報を、入力文字列候補としないよう制御してもよい。
[Use of dictionary]
Further, in the example of the present embodiment, the candidate setting unit 24 may use a character string registered in a preset candidate dictionary (or non-candidate dictionary) as the candidate pattern (or non-candidate pattern). In this example, the candidate setting unit 24 uses the character string information determined to be similar to the character string registered in the preset candidate dictionary among the divided character string information as the input character string candidate. Further, the candidate setting unit 24 may control the divided character string information so that the character string information determined to be similar to the character string registered in the preset non-candidate dictionary is not used as the input character string candidate. ..

ここで文字列が類似するか否かは、例えばレーベンシュタイン距離(編集距離)など、広く知られた方法を採用して判断してよい。また、この例において候補設定部24は、分割文字列情報のうち、予め設定された候補辞書に登録された文字列と類似すると判断したときに、当該分割文字列情報を入力文字列候補とする代わりに、類似すると判断された、候補辞書に登録された文字列を入力文字列候補としてもよい。 Here, whether or not the character strings are similar may be determined by adopting a widely known method such as the Levenshtein distance (editing distance). Further, in this example, when the candidate setting unit 24 determines that the divided character string information is similar to the character string registered in the preset candidate dictionary, the candidate setting unit 24 uses the divided character string information as an input character string candidate. Alternatively, a character string registered in the candidate dictionary, which is determined to be similar, may be used as an input character string candidate.

また候補辞書(または非候補辞書)に登録される各文字列には、それぞれ対応する入力欄を特定する情報がさらに関連付けられていてもよい。この例では、候補設定部24は、候補辞書に登録された文字列(候補文字列)に類似する分割文字列情報を見出したときに、類似する候補文字列に関連付けられている、入力欄を特定する情報と、分割文字列情報(あるいは候補文字列)とを関連付けて、入力文字列候補として記憶する。 Further, each character string registered in the candidate dictionary (or non-candidate dictionary) may be further associated with information specifying the corresponding input field. In this example, when the candidate setting unit 24 finds the divided character string information similar to the character string (candidate character string) registered in the candidate dictionary, the candidate setting unit 24 inputs the input field associated with the similar candidate character string. The specified information is associated with the divided character string information (or candidate character string) and stored as an input character string candidate.

このような場合は、既に述べたように、情報入力部25は、ユーザが入力欄を指定したときに、入力文字列候補として設定された文字列のうち、指定された入力欄を特定する情報に関連付けられている入力文字列候補を、入力する文字列の候補として選択可能な状態で表示する。 In such a case, as described above, when the user specifies an input field, the information input unit 25 identifies the specified input field among the character strings set as the input character string candidates. The input character string candidates associated with are displayed in a selectable state as input character string candidates.

さらに候補辞書への登録は、実際の入力が行われたときに為されてもよい。具体的に情報入力部25は、ユーザが指定した入力欄に文字列を入力したとき、あるいは情報入力の完了が指示されたときに、各入力欄に入力された文字列を候補辞書に登録する。あるいは、各入力欄について、入力欄を特定する情報と、対応する入力欄に入力された文字列を関連付けて候補辞書に登録することとすればよい。 Further, registration in the candidate dictionary may be performed when the actual input is made. Specifically, the information input unit 25 registers the character string input in each input field in the candidate dictionary when the character string is input in the input field specified by the user or when the completion of the information input is instructed. .. Alternatively, for each input field, the information for specifying the input field and the character string input in the corresponding input field may be associated and registered in the candidate dictionary.

[実施形態の効果]
このように本実施の形態によると、スキャナ装置2により読み取られた画像データ(文書情報)からOCR等の文字認識処理で抽出され、さらに所定の単位に分割または統合して得られた文字列情報(分割文字列情報)を、入力欄への情報入力の際のオートコンプリートの候補として設定する。これにより読み取られた文書情報のフォームが複数種類あったとしても、当該互いに異なるフォームの帳票に基づく情報入力を支援できる。
[Effect of Embodiment]
As described above, according to the present embodiment, the character string information obtained by extracting from the image data (document information) read by the scanner device 2 by character recognition processing such as OCR and further dividing or integrating into predetermined units. (Split character string information) is set as a candidate for auto-complete when inputting information in the input field. As a result, even if there are a plurality of types of document information forms read, it is possible to support information input based on the forms of the different forms.

1 情報処理装置、2 スキャナ装置、11 制御部、12 記憶部、13 操作部、14 表示部、15 入出力部、21 文書取得部、22 文字列抽出部、23 分割統合処理部、24 候補設定部、25 情報入力部。

1 Information processing device, 2 Scanner device, 11 Control unit, 12 Storage unit, 13 Operation unit, 14 Display unit, 15 Input / output unit, 21 Document acquisition unit, 22 Character string extraction unit, 23 Division integration processing unit, 24 Candidate setting Department, 25 Information input unit.

Claims (7)

スキャンされて得られた文書情報を取得する取得手段と、
前記取得した文書情報から、文字認識処理により文字列情報を抽出する抽出手段と、
前記抽出した文字列情報を所定の規則に基づいて分割または統合する分割統合手段と、
前記分割または統合して得られた文字列情報を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する提示手段と、
を含む情報処理装置。
An acquisition method for acquiring document information obtained by scanning,
An extraction means for extracting character string information from the acquired document information by character recognition processing,
A division / integration means that divides or integrates the extracted character string information based on a predetermined rule, and
The presentation means presented when the user inputs a character string in the input field using the character string information obtained by the division or integration as a candidate for input information.
Information processing equipment including.
請求項1に記載の情報処理装置であって、
前記提示手段は、前記分割または統合して得られた文字列情報が予め定めた文字列情報の長さに係る条件を満足するときに、当該分割または統合して得られた文字列情報を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する情報処理装置。
The information processing device according to claim 1.
The presenting means inputs the character string information obtained by the division or integration when the character string information obtained by the division or integration satisfies the condition relating to the length of the predetermined character string information. An information processing device presented when a user inputs a character string in an input field as a candidate for information.
請求項1または2に記載の情報処理装置であって、
前記提示手段は、前記分割または統合して得られた文字列情報が入力欄ごとに予め定めた条件を満足するときに、当該分割または統合して得られた文字列情報を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する情報処理装置。
The information processing device according to claim 1 or 2.
When the character string information obtained by the division or integration satisfies the conditions predetermined for each input field, the presentation means uses the character string information obtained by the division or integration as a candidate for the input information. , An information processing device presented when a user inputs a character string in an input field.
請求項1から3のいずれか一項に記載の情報処理装置であって、
前記提示手段は、予め文字列を登録した候補辞書を参照し、前記分割または統合して得られた文字列情報に類似すると判断される文字列が、前記候補辞書に登録されているときに、当該文字列情報または前記候補辞書に登録された、当該文字列情報に類似する文字列を入力情報の候補として、ユーザが入力欄へ文字列を入力する際に提示する情報処理装置。
The information processing device according to any one of claims 1 to 3.
The presenting means refers to a candidate dictionary in which a character string is registered in advance, and when a character string determined to be similar to the character string information obtained by dividing or integrating is registered in the candidate dictionary, An information processing device that presents when a user inputs a character string in an input field, using the character string information or a character string similar to the character string information registered in the candidate dictionary as a candidate for input information.
請求項4に記載の情報処理装置であって、
前記候補辞書に登録される文字列には、当該文字列が入力され得る入力欄を特定する情報が関連付けられており、
前記提示手段は、ユーザが入力欄へ文字列を入力する際に、当該入力欄を特定する情報に関連付けて登録された文字列であって、前記分割または統合して得られた文字列情報に類似すると判断される文字列が、前記候補辞書に登録されているときに、当該文字列情報または前記候補辞書に登録された、当該文字列情報に類似する文字列を入力情報の候補として提示する情報処理装置。
The information processing device according to claim 4.
The character string registered in the candidate dictionary is associated with information that identifies an input field in which the character string can be input.
The presenting means is a character string registered in association with information that identifies the input field when the user inputs a character string in the input field, and is the character string information obtained by dividing or integrating the information. When a character string judged to be similar is registered in the candidate dictionary, the character string information or a character string registered in the candidate dictionary and similar to the character string information is presented as a candidate for input information. Information processing device.
請求項1から5のいずれか一項に記載の情報処理装置であって、
前記抽出手段は、光学的文字認識により文字列情報を抽出し、
前記分割手段は、前記抽出手段が抽出した文字列情報が含まれていた前記文書情報内の位置の情報に関連した規則に基づいて前記抽出した文字列情報を分割または統合する情報処理装置。
The information processing device according to any one of claims 1 to 5.
The extraction means extracts character string information by optical character recognition and obtains character string information.
The dividing means is an information processing device that divides or integrates the extracted character string information based on a rule related to position information in the document information including the character string information extracted by the extracting means.
予め定められた入力欄に対してユーザが情報を入力する操作を支援する情報処理装置を、
スキャンされて得られた文書情報を取得する取得手段と、
前記取得した文書情報から、文字認識処理により文字列情報を抽出する抽出手段と、
前記抽出した文字列情報を所定の規則に基づいて分割または統合する分割統合手段と、
前記入力欄のそれぞれを特定する情報を、前記分割または統合して得られた文字列情報の部分ごとに入力先候補として提示する手段と、
として機能させるプログラム。
An information processing device that assists the user in inputting information into a predetermined input field.
An acquisition method for acquiring document information obtained by scanning,
An extraction means for extracting character string information from the acquired document information by character recognition processing,
A division / integration means that divides or integrates the extracted character string information based on a predetermined rule, and
A means for presenting information specifying each of the input fields as an input destination candidate for each part of the character string information obtained by dividing or integrating the information.
A program that functions as.
JP2020073658A 2020-04-16 2020-04-16 Information processing device and program Active JP7283755B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020073658A JP7283755B2 (en) 2020-04-16 2020-04-16 Information processing device and program
JP2022207648A JP2023036834A (en) 2020-04-16 2022-12-23 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020073658A JP7283755B2 (en) 2020-04-16 2020-04-16 Information processing device and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022207648A Division JP2023036834A (en) 2020-04-16 2022-12-23 Information processing device and program

Publications (2)

Publication Number Publication Date
JP2021170276A true JP2021170276A (en) 2021-10-28
JP7283755B2 JP7283755B2 (en) 2023-05-30

Family

ID=78119561

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020073658A Active JP7283755B2 (en) 2020-04-16 2020-04-16 Information processing device and program
JP2022207648A Pending JP2023036834A (en) 2020-04-16 2022-12-23 Information processing device and program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022207648A Pending JP2023036834A (en) 2020-04-16 2022-12-23 Information processing device and program

Country Status (1)

Country Link
JP (2) JP7283755B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05258099A (en) * 1992-03-16 1993-10-08 Fujitsu Ltd Character recognition processor
JPH08263587A (en) * 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd Method and device for document input
JP2010170461A (en) * 2009-01-26 2010-08-05 Fujitsu Ltd Fair copy support program and fair copy support method
JP2013033416A (en) * 2011-08-03 2013-02-14 Sharp Corp Character recognition device, character recognition method, and program
JP2019169026A (en) * 2018-03-26 2019-10-03 株式会社Pfu Information processing device, character recognition engine optimization method, and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05258099A (en) * 1992-03-16 1993-10-08 Fujitsu Ltd Character recognition processor
JPH08263587A (en) * 1995-03-20 1996-10-11 Matsushita Electric Ind Co Ltd Method and device for document input
JP2010170461A (en) * 2009-01-26 2010-08-05 Fujitsu Ltd Fair copy support program and fair copy support method
JP2013033416A (en) * 2011-08-03 2013-02-14 Sharp Corp Character recognition device, character recognition method, and program
JP2019169026A (en) * 2018-03-26 2019-10-03 株式会社Pfu Information processing device, character recognition engine optimization method, and program

Also Published As

Publication number Publication date
JP2023036834A (en) 2023-03-14
JP7283755B2 (en) 2023-05-30

Similar Documents

Publication Publication Date Title
JPH04343190A (en) Character data input system
JPH08255236A (en) Device and method for filing image
CN101430758A (en) Document recognizing apparatus and method
JP2019040467A (en) Information processing apparatus and control method therefor
JP2021043478A (en) Information processing device, control method thereof and program
JP2019185137A (en) Image processing device, image processing method, and program
JP2005216203A (en) Table format data processing method and table format data processing apparatus
JPWO2016170691A1 (en) Input processing program, input processing apparatus, input processing method, character specifying program, character specifying apparatus, and character specifying method
CN113449732A (en) Information processing apparatus, image reading apparatus, recording medium, and information processing method
JP2003242441A (en) Document processing method, apparatus and program
JP2021170276A (en) Information processing device and program
EP0519713B1 (en) Character input method and apparatus
JP3422157B2 (en) Handwritten character input device and handwritten character input method
EP3287952A1 (en) Input control program, input control device, input control method, character correction program, character correction device, and character correction method
JP4517822B2 (en) Image processing apparatus and program
JPH0660222A (en) Character recognizing device
WO2021117128A1 (en) Form image processing system
JP2020030722A (en) Document image processing system, document image processing method, and document image processing program
US20210157969A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium storing program
JPH11110119A (en) Schedule input device, and medium recording schedule input device control program
JP7380653B2 (en) Information processing device, information processing method, information processing program, information processing system
JP5003837B2 (en) Image processing apparatus and program
JP7456131B2 (en) Information processing system, information processing method and program
JP4967934B2 (en) Image processing apparatus and program
JP4130429B2 (en) Character reader

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230511

R150 Certificate of patent or registration of utility model

Ref document number: 7283755

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150