JP7421384B2 - Information processing device, correction candidate display method, and program - Google Patents

Information processing device, correction candidate display method, and program Download PDF

Info

Publication number
JP7421384B2
JP7421384B2 JP2020048975A JP2020048975A JP7421384B2 JP 7421384 B2 JP7421384 B2 JP 7421384B2 JP 2020048975 A JP2020048975 A JP 2020048975A JP 2020048975 A JP2020048975 A JP 2020048975A JP 7421384 B2 JP7421384 B2 JP 7421384B2
Authority
JP
Japan
Prior art keywords
character
character string
recognition result
candidate
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020048975A
Other languages
Japanese (ja)
Other versions
JP2021149531A (en
Inventor
直樹 岸川
俊介 ▲鬘▼谷
勇太 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2020048975A priority Critical patent/JP7421384B2/en
Publication of JP2021149531A publication Critical patent/JP2021149531A/en
Application granted granted Critical
Publication of JP7421384B2 publication Critical patent/JP7421384B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

本開示は、文字列の認識結果を修正するための技術に関する。 The present disclosure relates to a technique for correcting character string recognition results.

従来、確認修正のために必要となる入力パターン情報、パターンの特徴、認識結果および認識結果の候補情報等の認識情報を保存しておく認識情報格納部と、前記認識情報に対し、オペレータが修正した修正情報をも付加して履歴情報として保存しておく履歴情報格納部と、前記履歴情報の中から確認修正の作業に有効な補完情報をオペレータに提示するための履歴情報処理部を備え、前記認識情報と補完情報とを同時に表示して確認修正に供することを特徴とするパターン認識装置が提案されている(特許文献1を参照)。 Conventionally, there has been a recognition information storage unit that stores recognition information such as input pattern information, pattern characteristics, recognition results, and recognition result candidate information necessary for confirmation and correction, and an operator can modify the recognition information. a history information storage section that adds correction information that has been added and stores it as history information; and a history information processing section that presents supplementary information effective for confirmation and correction work from among the history information to an operator; A pattern recognition device has been proposed in which the recognition information and complementary information are displayed simultaneously for confirmation and correction (see Patent Document 1).

また、従来、所定カテゴリーを有する記入フィールドに記入された入力文字列を構成する文字を認識する文字認識方法であって、入力文字列と特定文字標準パターン辞書との間で第1のマッチング処理が実行されることにより、入力文字列中から特定文字又は特定文字列が抽出され、次に、所定カテゴリーに属し、かつ入力文字列中から抽出された各特定文字又は特定文字列の前後の入力文字列中の領域に位置する可能性のある候補単語群が特定文字辞書及びそれにリンクする知識辞書から抽出され、そして、候補単語群に属する各候補単語毎に、その各候補単語に関する情報に基づいてそれが位置する入力文字列中の各領域に対して標準パターン辞書を用いて第2のマッチング処理が実行されることにより、入力文字列を構成する文字が認識される方法が提案されている(特許文献2を参照)。 Furthermore, conventional character recognition methods recognize characters constituting an input character string entered in an entry field having a predetermined category, in which a first matching process is performed between the input character string and a specific character standard pattern dictionary. By being executed, a specific character or a specific character string is extracted from the input character string, and then input characters before and after each specific character or specific character string that belongs to a predetermined category and are extracted from the input character string are extracted. A group of candidate words that may be located in the region in the column is extracted from a specific character dictionary and a knowledge dictionary linked to it, and then, for each candidate word belonging to the candidate word group, a A method has been proposed in which characters constituting an input string are recognized by performing a second matching process using a standard pattern dictionary for each region in the input string in which they are located ( (See Patent Document 2).

また、従来、帳票を光学的に読み取って得られた帳票の画像から文字を読み取る帳票読取装置であって、画面制御部、文字認識部、認識履歴記憶部、認識制御部を備え、画面制御部は帳票の画像と画像から文字認識した結果の文字とが表示される表示欄を有する画面を表示し、文字認識部は帳票の画像の指定されたエリアを文字認識し、認識履歴記憶部には文字認識の結果が認識履歴として記憶され、認識制御部は文字認識部により文字認識された文字と一致する文字および類似度が一定値以上の認識結果の文字データ候補を認識履歴記憶部より検索し、表示欄および表示欄近傍に表示する帳票読取装置が提案されている(特許文献3を参照)。 Further, conventionally, there is a form reading device that reads characters from an image of a form obtained by optically reading a form, and includes a screen control section, a character recognition section, a recognition history storage section, a recognition control section, and a screen control section. displays a screen that has a display field where the image of the form and the characters resulting from character recognition from the image are displayed, the character recognition section recognizes the characters in the designated area of the image of the form, and the recognition history storage section displays the characters. The result of character recognition is stored as a recognition history, and the recognition control unit searches the recognition history storage unit for characters that match the characters recognized by the character recognition unit and character data candidates whose recognition results have a degree of similarity greater than a certain value. , a form reading device that displays information in a display field and in the vicinity of the display field has been proposed (see Patent Document 3).

また、従来、住所認識処理が、文字分離処理と、キー文字抽出処理と、一括地名認識処理と、住所決定処理とを含み、キー文字抽出処理は、複数の単一文字領域からキー文字を抽出し、単一文字領域の各々に対するキー文字抽出処理は、単一文字領域に対応する画像から特徴ベクトルを抽出する特徴ベクトル抽出処理と、特徴ベクトル抽出処理により抽出された特徴ベクトルと、すべてのあり得るキー文字を記憶したキー文字辞書におけるキー文字の特徴ベクトルとを照合し、すべてのあり得るキー文字候補を検索する照合処理と、照合処理により検索された1つ以上のキー文字候補をそれぞれ有する複数の単一文字領域を認識する場合に、正当なキー文字パスを決定するキー文字パス決定処理と、を含む、住所認識方法が提案されている(特許文献4を参照)。 Conventionally, address recognition processing includes character separation processing, key character extraction processing, batch place name recognition processing, and address determination processing, and key character extraction processing involves extracting key characters from multiple single character regions. , the key character extraction process for each single character area includes a feature vector extraction process that extracts a feature vector from the image corresponding to the single character area, a feature vector extracted by the feature vector extraction process, and all possible key characters. A matching process that searches for all possible key character candidates by matching the key character feature vector in a stored key character dictionary; and a matching process that searches for all possible key character candidates. An address recognition method has been proposed that includes key character path determination processing for determining a valid key character path when recognizing a single character area (see Patent Document 4).

さらに、従来、文字列を撮影した画像上の文字区間を検出して文字区間に対応するパスの集合である候補文字ラティスを求め、パスごとに候補文字を少なくとも一つ求め、互いに排他的なパスが排他的でなくなるように修正した候補文字ラティスにおいて連続するパスに含まれる候補文字の組み合わせと少なくとも一部が一致する単語を検出してその単語の位置を表す単語パスを候補文字ラティスに追加し、検出された単語の評価値を求め、文字列全体に対応する一列に連続した単語パス及びパスの配列のうちで評価値の合計値が最も高い配列に含まれる単語と候補文字の組み合わせを画像上の文字列として推定することをコンピュータに実行させる文字認識用コンピュータプログラムが提案されている(特許文献5を参照)。 Furthermore, in the past, character sections on images of character strings were detected, a candidate character lattice, which is a set of paths corresponding to the character sections, was found, and at least one candidate character was found for each path. Detects a word that at least partially matches a combination of candidate characters included in consecutive paths in the candidate character lattice that has been modified so that it is no longer exclusive, and adds a word path representing the position of that word to the candidate character lattice. , calculate the evaluation value of the detected word, and image the combination of the word and candidate character included in the sequence with the highest total evaluation value among the consecutive word paths and path arrays corresponding to the entire character string. A character recognition computer program has been proposed that causes a computer to estimate the above character string (see Patent Document 5).

特開平5-108867号公報Japanese Patent Application Publication No. 5-108867 特開平11-120293号公報Japanese Patent Application Publication No. 11-120293 特開2015-90625号公報Japanese Patent Application Publication No. 2015-90625 特開2007-42097号公報Japanese Patent Application Publication No. 2007-42097 特開2013-97590号公報JP2013-97590A

従来、帳票等の文書に記載されている内容をシステム等に入力するデータエントリー業務(以下、データエントリー業務を「エントリー業務」と称する)を行う際、文書をOCR(Optical Character Recognition、光学文字認識)により読み取ることで、効率良くエントリー業務が行われている。 Conventionally, when performing data entry work (hereinafter referred to as "entry work") in which the contents written in documents such as forms are input into a system, the document is subjected to OCR (Optical Character Recognition). ) allows entry operations to be carried out efficiently.

しかし、このようなOCRによる文字認識では、実際の文字と一致しない場合(誤読)や文字を判別できない場合(未読)があるため、エントリー業務を行うユーザは、認識対象である文字列についての認識結果の確認及び修正作業を行う必要があった。例えば、ユーザは、目視で認識結果内の誤読文字を確認し、誤読文字までカーソルを移動した上で、文字の修正を行う(誤読文字を削除し、正しい文字を入力する)といった作業を、誤読文字が出現する度に行う必要があり、エントリー業務に多くの時間が費やされていた。 However, in character recognition using OCR, there are cases where the character does not match the actual character (misreading) or the character cannot be distinguished (unread), so the user who performs the entry work needs to understand the recognition of the character string to be recognized. It was necessary to confirm the results and make corrections. For example, the user visually confirms the misread characters in the recognition results, moves the cursor to the misread characters, and then corrects the characters (deletes the misread characters and inputs the correct characters). This had to be done every time a character appeared, and a lot of time was wasted on entry work.

本開示は、上記した問題に鑑み、文字列の認識結果を修正する手間を軽減することを課題とする。 In view of the above-mentioned problems, the present disclosure aims to reduce the effort required to correct the recognition results of character strings.

本開示の一例は、文書に記載された1以上の文字から構成される文字列についての認識結果を取得する認識結果取得手段と、前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、前記文字列認識結果に対する各修正候補について、該文字列認識結果との類似度を算出する類似度算出手段と、該類似度に基づき前記修正候補の表示順を決定する表示制御手段と、前記修正候補を前記表示順に従い表示する表示手段と、を備え、前記認識結果取得手段は、前記文書に記載された各文字について、文字認識時の認識候補である文字候補を更に取得し、前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記類似度を算出する、情報処理装置である。 An example of the present disclosure includes a recognition result acquisition unit that acquires a recognition result for a character string composed of one or more characters written in a document, and stores one or more character strings that can be correction candidates for the character string recognition result. a correction candidate storage means for calculating the similarity of each correction candidate for the character string recognition result with the character string recognition result; and a similarity calculation means for calculating the similarity with the character string recognition result, and determining the display order of the correction candidates based on the similarity. The recognition result acquisition means includes a display control means and a display means for displaying the correction candidates according to the display order, and the recognition result acquisition means selects character candidates that are recognition candidates during character recognition for each character written in the document. Further, the similarity calculation means is an information processing device that calculates the similarity by comparing the character candidates and the correction candidates for each character in the character string to be recognized.

本開示は、情報処理装置、コンピューターによって実行される方法またはコンピューターに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピューター、その他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。 The present disclosure can be understood as an information processing device, a method executed by a computer, or a program executed by a computer. Further, the present disclosure can also be understood as such a program recorded on a recording medium readable by a computer, other device, machine, or the like. Here, a recording medium that can be read by a computer, etc. refers to a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read by a computer, etc. say.

本開示によれば、文字列の認識結果を修正する手間を軽減することが可能となる。 According to the present disclosure, it is possible to reduce the effort required to correct a character string recognition result.

実施形態に係るシステムの構成の概略を示す図である。1 is a diagram schematically showing the configuration of a system according to an embodiment. 実施形態に係る情報処理装置の機能構成の概略を示す図である。FIG. 1 is a diagram schematically showing a functional configuration of an information processing device according to an embodiment. 実施形態に係る文字候補に対する重み付け値決定例を示す図である。FIG. 6 is a diagram illustrating an example of determining weighting values for character candidates according to the embodiment. 実施形態に係る文字列認識結果と正しい修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。FIG. 3 is a diagram showing an outline of a DP matrix used to calculate an edit distance between a character string recognition result and a correct correction candidate according to the embodiment. 実施形態に係る文字列認識結果と間違った修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。FIG. 6 is a diagram showing an outline of a DP matrix used to calculate an edit distance between a character string recognition result and an incorrect correction candidate according to the embodiment. 実施形態に係る修正候補表示処理の流れの概要を示すフローチャートである。3 is a flowchart showing an overview of the flow of modification candidate display processing according to the embodiment. 実施形態に係る確認画面の概略を示す図である。It is a figure showing an outline of a confirmation screen concerning an embodiment. 実施形態に係る類似度算出処理の流れの概要を示すフローチャートである。3 is a flowchart showing an overview of the flow of similarity calculation processing according to the embodiment. 第一のバリエーションに係るシステムの構成の概略を示す図である。FIG. 2 is a diagram schematically showing the configuration of a system according to a first variation. 第一のバリエーション係る情報処理装置の機能構成の概略を示す図である。FIG. 2 is a diagram schematically showing a functional configuration of an information processing device according to a first variation.

以下、本開示に係る情報処理装置、修正候補表示方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、修正候補表示方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。 Hereinafter, embodiments of an information processing device, a modification candidate display method, and a program according to the present disclosure will be described based on the drawings. However, the embodiment described below is an example of the embodiment, and the information processing apparatus, modification candidate display method, and program according to the present disclosure are not limited to the specific configuration described below. In implementation, specific configurations may be adopted as appropriate depending on the mode of implementation, and various improvements and modifications may be made.

本実施形態では、本開示に係る情報処理装置、修正候補表示方法及びプログラムを、OCRにより文字認識された帳票に係る文字列認識結果を修正する情報処理装置において実施した場合の実施の形態について説明する。但し、本開示に係る情報処理装置、修正候補表示方法及びプログラムは、文字の認識結果を修正するための技術について広く用いることが可能であり、本開示の適用対象は、本実施形態において示した例に限定されない。 In this embodiment, an embodiment will be described in which an information processing apparatus, a correction candidate display method, and a program according to the present disclosure are implemented in an information processing apparatus that corrects a character string recognition result related to a document whose characters have been recognized by OCR. do. However, the information processing device, modification candidate display method, and program according to the present disclosure can be widely used for technologies for modifying character recognition results, and the present disclosure is applicable to the Not limited to examples.

<システムの構成>
図1は、本実施形態に係るシステムの構成の概略を示す図である。本実施形態に係るシステムは、情報処理装置1、文書読取装置8及び文字認識装置9を備える。
<System configuration>
FIG. 1 is a diagram schematically showing the configuration of a system according to this embodiment. The system according to this embodiment includes an information processing device 1, a document reading device 8, and a character recognition device 9.

情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、NIC(Network Interface Card)等の通信ユニット15、キーボードやタッチパネル等の入力デバイス16及びディスプレイやスピーカー等の出力デバイス17、等を備えるコンピューターである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。 The information processing device 1 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, an EEPROM (Electrically Erasable and Memory such as rogrammable Read Only Memory) or HDD (Hard Disk Drive) The computer includes a device 14, a communication unit 15 such as a NIC (Network Interface Card), an input device 16 such as a keyboard or touch panel, and an output device 17 such as a display or speaker. However, the specific hardware configuration of the information processing device 1 can be omitted, replaced, or added as appropriate depending on the implementation mode. Further, the information processing device 1 is not limited to a device consisting of a single casing. The information processing device 1 may be realized by a plurality of devices using so-called cloud or distributed computing technology.

情報処理装置1は、後述する文書読取装置8に接続された文字認識装置9と接続され、文字認識装置9から、文書を読み取ることで得られた文書画像を文字認識した結果である文書データ(帳票データ)を取得する。本実施形態では、文書読取装置8で読み取られる文書を帳票とするが、これに限定されるものではなく、帳票以外の文書を読み取り対象としてもよい。また、情報処理装置1は、文字認識時の文字候補に係るデータについても文字認識装置9から取得する。 The information processing device 1 is connected to a character recognition device 9 connected to a document reading device 8 (described later), and receives document data (which is the result of character recognition of a document image obtained by reading a document) from the character recognition device 9. form data). In this embodiment, the document read by the document reading device 8 is a form, but the present invention is not limited to this, and a document other than a form may be read. The information processing device 1 also acquires data related to character candidates during character recognition from the character recognition device 9.

文書読取装置8は、文書を読み取り、文書のイメージ(文書画像)を取得する装置であり、文字認識(OCR)機能を有するスキャナや複合機に例示される。なお、後述するが、文書読取装置8は、文書イメージを取得可能であれば、これらに限定されるものではなく、OCR機能を有さないスキャナや複合機であってもよく、また、デジタルカメラやスマートフォン等の撮像装置であってもよい。文書読取装置8は、帳票を読み取り、読み取り結果である帳票イメージ(帳票画像)を、通信ユニット(図示省略)を介して文字認識装置9に送信する。 The document reading device 8 is a device that reads a document and obtains an image of the document (document image), and is exemplified by a scanner or a multifunction peripheral having a character recognition (OCR) function. Note that, as will be described later, the document reading device 8 is not limited to these devices as long as it can acquire document images, and may be a scanner or a multifunction device without an OCR function, or a digital camera. It may also be an imaging device such as a smart phone or a smartphone. The document reading device 8 reads a document and transmits a document image (document image) as a reading result to the character recognition device 9 via a communication unit (not shown).

文字認識装置9は、CPU91、ROM92、RAM93、EEPROMやHDD等の記憶装置94及びNIC等の通信ユニット95、等を備えるコンピューターである。但し、文字認識装置9の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、文字認識装置9は、単一の筐体からなる装置に限定されない。文字認識装置9は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。 The character recognition device 9 is a computer that includes a CPU 91, a ROM 92, a RAM 93, a storage device 94 such as an EEPROM or an HDD, and a communication unit 95 such as an NIC. However, the specific hardware configuration of the character recognition device 9 can be omitted, replaced, or added as appropriate depending on the implementation mode. Further, the character recognition device 9 is not limited to a device consisting of a single housing. The character recognition device 9 may be realized by a plurality of devices using so-called cloud or distributed computing technology.

文字認識装置9は、記憶装置94にOCRソフトウェアを記憶し、当該プログラムがRAM93に読み出され、CPU91によって実行されることで、文字認識(OCR)処理を実行する。具体的には、文字認識装置9は、文書読取装置8から文書イメージ(帳票イメージ)を取得すると、文書イメージに対して文字認識(OCR)を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データ(帳票データ)を取得する。文書の認識結果である文書データは、文書に記載された各文字についての文字認識結果を含むものであれば、認識対象である当該文書と同様のフォーマットにより構成されるか否かは問わない。また、文書データは、コンピューターで編集可能な文字データ(電子データ)であり、WordファイルやExcelファイル等に例示される。なお、文字認識処理は、AI(Artificial Intelligence)を用いた文字認識処理であってもよい。 The character recognition device 9 stores OCR software in the storage device 94, reads the program into the RAM 93, and executes it by the CPU 91 to perform character recognition (OCR) processing. Specifically, upon acquiring a document image (form image) from the document reading device 8, the character recognition device 9 performs character recognition (OCR) on the document image to identify each character printed or handwritten on the document. Obtain document data (form data) that is the result of character recognition. The document data, which is the recognition result of a document, may or may not be configured in the same format as the document to be recognized, as long as it includes the character recognition results for each character written in the document. Further, the document data is character data (electronic data) that can be edited on a computer, and is exemplified by a Word file, an Excel file, or the like. Note that the character recognition process may be a character recognition process using AI (Artificial Intelligence).

ここで、文字認識(OCR)処理では、文書に記載された文字毎に、文字認識に係る認識候補である文字候補が複数選出され(索出され)、これら複数の文字候補の中から最も信頼度の高いものが最終的な文字認識結果として決定されることが一般的である。ここで、信頼度は、認識対象である文字に対する、当該文字についての認識結果(文字認識結果)の認識の確からしさを表す尺度である。具体的には、信頼度は、文字認識による文字認識結果をどれ程信頼して良いかを表す尺度であり、「単語信頼度」や「確信度」等と呼ばれる。信頼度は、例えば、0.0~1.0の範囲にある数値で示され、数値が0.0に近い程、その文字認識結果を信頼できる度合いが下がり、数値が1.0に近い程、その文字列認識結果を信頼できる度合いが上がる。 In character recognition (OCR) processing, multiple character candidates that are recognition candidates related to character recognition are selected (searched) for each character written in a document, and the most reliable character candidate is selected from among these multiple character candidates. Generally, the one with the highest degree of accuracy is determined as the final character recognition result. Here, the reliability is a measure representing the certainty of recognition of a recognition result (character recognition result) for a character to be recognized. Specifically, the reliability is a measure of how much the character recognition result obtained by character recognition can be trusted, and is called "word reliability", "confidence", or the like. For example, reliability is indicated by a numerical value in the range of 0.0 to 1.0, and the closer the numerical value is to 0.0, the lower the degree to which the character recognition result can be trusted; , the degree to which the string recognition results can be trusted increases.

例えば、帳票イメージ中の「千葉県浦安市」に対して文字認識が行われた結果、二文字目の「葉」が「業」と誤読される場合がある。これは、帳票イメージ中の「葉」に対する文字候補として、文字認識装置9が記憶する辞書等から、「業」、「葉」、「叢」、「棄」、「茎」等が選出され、これらの文字候補のうち最も信頼度が高い文字(文字候補第一位)が「業」であると判定されたためである。また、文字認識処理では、文字候補第二位が「葉」、文字候補第三位が「叢」、文字候補第四位が「棄」、文字候補第五位が「茎」等と、文字候補各々について信頼度の高い順に候補順位(優先順位)が決定される。 For example, when character recognition is performed on "Urayasu City, Chiba Prefecture" in a form image, the second character "ha" may be misread as "karma". This means that "karma", "ha", "kusa", "ki", "stalk", etc. are selected from the dictionary stored in the character recognition device 9 as character candidates for "ha" in the form image. This is because the character with the highest reliability among these character candidates (the first character candidate) was determined to be "karma". In addition, in the character recognition process, the second character candidate is "leaf", the third character candidate is "kusa", the fourth character candidate is "ki", the fifth character candidate is "stem", etc. Candidate rankings (priority rankings) are determined for each candidate in descending order of reliability.

本実施形態では、文字認識装置9は、文書に記載された各文字について、上述のように最終的な文字認識結果を決定する際に候補となった文字である文字候補を取得する。なお、文字候補は、最終的な文字認識結果である文字をも含む。例えば、上述の「千葉県浦安市」の例では、帳票イメージ中の「葉」に対する文字候補は、最終的な文字認識結果である「業」と、最終的な文字認識結果として採用されなかった「葉」、「叢」、「棄」、「茎」を含む。そして、文字認識装置9は、当該文字候補に係るデータを帳票データと併せて情報処理装置1へ送信する。なお、この文字候補に係るデータは、認識の確からしさに係る情報も含む。また、取得される文字候補は、文字毎に複数ある場合以外にも、1つの文字候補しかない場合や文字が認識出来ず文字候補がない場合(認識結果が「空白」となる場合)であってもよい。また、文字認識装置9は、文書読取装置8から取得した帳票イメージを、情報処理装置1へ送信する。 In this embodiment, the character recognition device 9 acquires character candidates, which are characters that are candidates when determining the final character recognition result, as described above, for each character written in a document. Note that the character candidates also include characters that are the final character recognition results. For example, in the example of "Urayasu City, Chiba Prefecture" mentioned above, the character candidate for "ha" in the form image was not adopted as the final character recognition result, "karu". Contains "leaves", "clusters", "abandon", and "stem". Then, the character recognition device 9 transmits data related to the character candidate to the information processing device 1 together with the form data. Note that the data related to this character candidate also includes information related to the certainty of recognition. In addition to the case where there are multiple character candidates for each character, there are also cases where there is only one character candidate, or when a character cannot be recognized and there is no character candidate (when the recognition result is "blank"). You can. Further, the character recognition device 9 transmits the form image acquired from the document reading device 8 to the information processing device 1.

なお、本実施形態において、文字認識装置9は、帳票イメージを、ネットワークを介して文書読取装置8から取得するが、これに限られるものではない。例えば、文字認識装置9は、USB(Universal Serial Bus)ポートやSDメモリーカード(Secure Digital memory card)スロット等を介して、デジタルカメラおよびスマートフォンにより撮影された撮影画像やJPEG、PNG等の画像ファイルを読み込むことで、帳票イメージを取得するようにしてもよい。この場合、本実施形態に係るシステムは、文書読取装置8を必ずしも備えなくてもよい。 Note that in this embodiment, the character recognition device 9 acquires the form image from the document reading device 8 via the network, but the invention is not limited to this. For example, the character recognition device 9 receives images taken with a digital camera or smartphone, or image files such as JPEG or PNG via a USB (Universal Serial Bus) port or an SD memory card (Secure Digital memory card) slot. A form image may be obtained by reading. In this case, the system according to this embodiment does not necessarily need to include the document reading device 8.

図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、認識結果取得部21、文書イメージ取得部22、修正候補記憶部23、修正候補抽出部24、類似度算出部25、表示制御部26、表示部27及び入力受付部28を備える情報処理装置として機能する。なお、本実施形態及び後述する他のバリエーションでは、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部または全部は、1または複数の専用プロセッサによって実行されてもよい。 FIG. 2 is a diagram schematically showing the functional configuration of the information processing device 1 according to the present embodiment. The information processing device 1 acquires recognition results by reading a program recorded in the storage device 14 into the RAM 13, executing it by the CPU 11, and controlling each hardware included in the information processing device 1. 21, a document image acquisition section 22, a modification candidate storage section 23, a modification candidate extraction section 24, a similarity calculation section 25, a display control section 26, a display section 27, and an input reception section 28. Note that in this embodiment and other variations described later, each function provided in the information processing device 1 is executed by the CPU 11, which is a general-purpose processor, but some or all of these functions are executed by one or more dedicated processors. It may be executed by

認識結果取得部21は、文書(文書イメージ)に記載された1以上の文字から構成される文字列についての認識結果を取得し、RAM13等に記憶する。具体的には、認識結果取得部21は、帳票が有する項目(入力項目)毎に、認識対象である文字列(入力内容)についての認識結果を取得する。また、認識結果取得部21は、文書に記載された各文字について、文字認識時の認識候補である文字候補を取得する。なお、本実施形態で「文字列」とは、1つの文字から構成される単位及び複数の文字から構成される単位を示す。認識結果取得部21は、認識データ受信部21Aと認識結果抽出部21Bを備える。 The recognition result acquisition unit 21 acquires a recognition result for a character string composed of one or more characters written in a document (document image), and stores it in the RAM 13 or the like. Specifically, the recognition result acquisition unit 21 acquires the recognition result for the character string (input content) to be recognized for each item (input item) included in the form. The recognition result acquisition unit 21 also acquires character candidates that are recognition candidates during character recognition for each character written in the document. Note that in this embodiment, a "character string" refers to a unit consisting of one character and a unit consisting of a plurality of characters. The recognition result acquisition section 21 includes a recognition data reception section 21A and a recognition result extraction section 21B.

認識データ受信部21Aは、通信ユニット15を介して、文字認識装置9から、文書を読み取ることで得られた文書画像を文字認識した結果である文書データ(帳票データ)及び文字候補に係るデータを取得する。 The recognition data receiving unit 21A receives document data (form data) that is the result of character recognition of a document image obtained by reading a document and data related to character candidates from the character recognition device 9 via the communication unit 15. get.

認識結果抽出部21Bは、帳票が有する入力項目に係る入力領域を指定することで、当該入力項目毎の文字列認識結果を抽出(取得)する。具体的には、帳票データが、項目名や入力項目毎に割り振られた項目コードと認識結果とが対応づく形で構成されている場合、認識結果抽出部21Bは、帳票の入力項目名や項目コード等に基づき帳票データ内を検索することで、入力項目に対応する入力内容についての文字列認識結果を抽出する。入力項目(記載項目)は、帳票に入力(記載)される項目であり、「住所」、「名前」、「銀行名」、「銀行口座種別」等の、認識対象である文字列が属する項目である。 The recognition result extraction unit 21B extracts (obtains) a character string recognition result for each input item by specifying an input area related to the input item included in the form. Specifically, when the form data is configured such that the item name or item code assigned to each input item corresponds to the recognition result, the recognition result extraction unit 21B extracts the input item name or item of the form. By searching the form data based on the code, etc., the character string recognition results for the input contents corresponding to the input items are extracted. Input items (description items) are items that are input (described) in a form, and are items to which the character string to be recognized belongs, such as "address", "name", "bank name", "bank account type", etc. It is.

認識結果抽出部21Bは、例えば、帳票データから、入力項目「住所」に対応する入力内容の文字列認識結果として「干業県蒲完市」を抽出する。このように、認識結果取得部21は、帳票データを取得し、取得した帳票データから、帳票に記載された文字列についての文字列認識結果を取得することが出来る。なお、文字列認識結果は、認識対象である文字列に含まれる各文字についての文字認識候補第一位の文字からなる文字列である。つまり、文字列認識結果は、文字候補第一位の文字から構成される文字列である。 For example, the recognition result extracting unit 21B extracts "Kaman City, Kanye Prefecture" from the form data as a character string recognition result of the input content corresponding to the input item "address". In this manner, the recognition result acquisition unit 21 can acquire form data and, from the acquired form data, obtain character string recognition results for character strings written on the form. Note that the character string recognition result is a character string consisting of the first character recognition candidate character for each character included in the character string to be recognized. In other words, the character string recognition result is a character string composed of the first character candidate character.

文書イメージ取得部22は、通信ユニット15を介して、文字認識装置9から、文書読取装置8において読み取られた文書イメージ(帳票イメージ)を受信(取得)する。 The document image acquisition section 22 receives (acquires) the document image (form image) read by the document reading device 8 from the character recognition device 9 via the communication unit 15 .

修正候補記憶部23は、文書に記載された認識対象である文字列に係る認識結果の修正候補となり得る文字列を1以上記憶する。文字列認識結果に対する修正候補には、以前認識結果の修正の際にユーザが入力した文字列の履歴(入力履歴)や、ユーザ等により予め設定された辞書に含まれる文字列が用いられる。修正候補記憶部23は、修正候補として、これらユーザの入力履歴や辞書に含まれるデータ(文字列)を情報処理装置1の揮発性のメモリ(本実施形態では、RAM13)に記憶する。 The correction candidate storage unit 23 stores one or more character strings that can be correction candidates for a recognition result related to a character string to be recognized written in a document. As correction candidates for the character string recognition result, a history of character strings input by the user when previously modifying the recognition result (input history), and character strings included in a dictionary preset by the user or the like are used. The modification candidate storage unit 23 stores these user input histories and data (character strings) included in the dictionary as modification candidates in the volatile memory (RAM 13 in this embodiment) of the information processing device 1.

また、修正候補記憶部23は、認識対象が属する項目(入力項目)に応じた適切な修正候補を設定可能である。具体的には、修正候補記憶部23は、帳票の入力項目(項目種別)毎に修正候補を記憶することで、認識対象である文字列が属する項目に応じた適切な修正候補を設定できる。修正候補記憶部23は、例えば、帳票の入力項目「住所」に対応付けて、「千葉県浦安市」、「愛知県蒲郡市」等の修正候補を記憶することにより、入力項目「住所」に係る文字列認識結果「干業県蒲完市」に対して、「千葉県浦安市」、「愛知県蒲郡市」等の修正候補を表示(提示)することが出来る。 Further, the modification candidate storage unit 23 can set appropriate modification candidates according to the item (input item) to which the recognition target belongs. Specifically, the modification candidate storage unit 23 stores modification candidates for each input item (item type) of a form, thereby making it possible to set appropriate modification candidates according to the item to which the character string to be recognized belongs. For example, the correction candidate storage unit 23 stores correction candidates such as "Urayasu City, Chiba Prefecture" and "Gamagori City, Aichi Prefecture" in association with the input item "Address" of the form, thereby modifying the input item "Address". For the character string recognition result "Gamagori City, Kanyo Prefecture", correction candidates such as "Urayasu City, Chiba Prefecture" and "Gamagori City, Aichi Prefecture" can be displayed (presented).

修正候補抽出部24は、認識結果抽出部21Bで取得された文字列認識結果に係る認識対象が属する項目に基づき、修正候補記憶部23から、文字列認識結果に対する修正候補を抽出する。例えば、認識結果抽出部21Bが、帳票データから、入力項目「住所」に対応する文字列認識結果として「干業県蒲完市」を取得した場合、修正候補抽出部24は、文字列認識結果「干業県蒲完市」が属する入力項目である「住所」に基づき、修正候補記憶部23から、修正候補を取得する。修正候補記憶部23には、入力項目「住所」に対応付けて、修正候補「千葉県浦安市」、「愛知県蒲郡市」等が記憶されているため、修正候補抽出部24は、入力項目「住所」に基づき、修正候補として「千葉県浦安市」、「愛知県蒲郡市」等を抽出することが出来る。 The modification candidate extraction unit 24 extracts modification candidates for the character string recognition result from the modification candidate storage unit 23 based on the item to which the recognition target related to the character string recognition result obtained by the recognition result extraction unit 21B belongs. For example, when the recognition result extracting unit 21B obtains “Kamakan City, Kanye Prefecture” from the form data as a character string recognition result corresponding to the input item “address”, the correction candidate extracting unit 24 obtains the character string recognition result A correction candidate is acquired from the correction candidate storage unit 23 based on "address" which is an input item to which "Kaman City, Kanye Prefecture" belongs. Since the correction candidate storage unit 23 stores correction candidates such as “Urayasu City, Chiba Prefecture” and “Gamagori City, Aichi Prefecture” in association with the input item “Address,” the correction candidate extraction unit 24 Based on the "address", "Urayasu City, Chiba Prefecture", "Gamagori City, Aichi Prefecture", etc. can be extracted as correction candidates.

類似度算出部25は、文字列認識結果に対する各修正候補について、修正候補と文字列認識結果との類似度を算出する。類似度は、二つの対象の似ている度合いを表す尺度であり、本実施形態では、修正候補と文字列認識結果との類似度として、修正候補と文字列認識結果との編集距離(レーベンシュタイン距離)が算出される。 The similarity calculation unit 25 calculates the similarity between the modification candidate and the character string recognition result for each modification candidate for the character string recognition result. Similarity is a measure of how similar two objects are. In this embodiment, the degree of similarity between a correction candidate and a character string recognition result is calculated using the edit distance (Levenshtein distance) is calculated.

ここで、編集距離とは、二つの文字列がどの程度異なっているか(似ているか)を示す距離である。具体的には、一方の文字列Sをもう一方の文字列Tと同じ文字列に変形するために必要となる編集操作の最小回数である。編集操作には、挿入(Sの中に一文字を挿入)、削除(Sの中の一文字を削除)、置換(Sの中の一文字を別の一文字で置き換える)の三つの操作がある。修正候補と文字列認識結果との編集距離を算出した結果、編集距離が近い(値が小さい)場合には、両者の類似度が高く、編集距離が遠い(値が大きい)場合には、両者の類似度は低いと判定される。なお、三つの編集操作「挿入」、「削除」、「置換」の編集コストを全て1としてもよいし、それぞれ別々の値を設定してもよい。本実施形態では、三つの編集操作の編集コストは全て同じ値(1)であることを前提とするが、これに限定されるものではない。以下、編集距離の算出方法について説明する。 Here, the edit distance is a distance that indicates how different (or similar) two character strings are. Specifically, it is the minimum number of editing operations required to transform one character string S into the same character string as the other character string T. There are three editing operations: insert (insert one character into S), delete (delete one character from S), and replace (replace one character from S with another character). As a result of calculating the edit distance between the correction candidate and the character string recognition result, if the edit distance is close (small value), the similarity between the two is high, and if the edit distance is far (large value), the similarity between the two is high. It is determined that the similarity of is low. Note that the editing costs for the three editing operations "insert," "delete," and "replace" may all be set to 1, or separate values may be set for each. In this embodiment, it is assumed that the editing costs of the three editing operations are all the same value (1), but the present invention is not limited to this. The method for calculating the edit distance will be explained below.

<編集距離の算出方法(一般的な算出方法)>
従来、ユーザの過去の入力内容の履歴から、OCRによる認識結果と類似度の高いものを修正候補としてリスト表示し、その中からユーザに選択させることで、エントリー業務に係る手間を軽減する方法も考えられるが、この方法では、OCRによる認識結果と修正候補となる文字列との類似度を、単なる文字列比較により算出しているに過ぎないため、適切な表示順(認識対象である正しい文字列に類似した表示順)で修正候補がリスト表示されず、認識結果である文字列の修正に手間が生じる場合があるという問題があった。以下、具体例により、この従来の一般的な類似度(編集距離)の算出方法を説明する。
<How to calculate edit distance (general calculation method)>
Conventionally, there has been a method to reduce the effort involved in entry work by displaying a list of correction candidates that have a high degree of similarity to the recognition result by OCR from the history of the user's past input contents, and letting the user select from among them. However, in this method, the similarity between the OCR recognition result and the correction candidate character string is simply calculated by comparing the character strings. There was a problem in that correction candidates were not displayed as a list in the display order similar to the column (similar display order), and it sometimes took time to correct the character string that was the recognition result. Hereinafter, this conventional general similarity (edit distance) calculation method will be explained using a specific example.

一般的な編集距離の算出方法では、OCRによる最終的な文字認識結果と修正候補についての単なる文字列比較により、両者間の編集距離が算出される。以下、一般的な編集距離の算出例として、帳票(帳票イメージ)に記載された実際の文字列(正解の文字列)である「千葉県浦安市」に対して、殆どの文字を誤読した結果、「干業県蒲完市」と認識された場合を例示する。また、修正候補としては、「千葉県浦安市」、「愛知県蒲郡市」を例示する。 In a general edit distance calculation method, the edit distance between the final character recognition result by OCR and a correction candidate is simply compared with the character strings. As an example of calculating a general edit distance, below is the result of misreading most of the characters for "Urayasu City, Chiba Prefecture", which is the actual character string (correct character string) written on a form (form image). , a case where "Kamakan City, Kanryo Prefecture" is recognized is exemplified. In addition, "Urayasu City, Chiba Prefecture" and "Gamagori City, Aichi Prefecture" are exemplified as correction candidates.

修正候補「千葉県浦安市」と文字列認識結果「干業県蒲完市」とを比較した場合、両者は、三文字目の「県」と六文字目の「市」の二文字しか一致していないため、四回の置換操作を必要とし、編集距離は「4」と算出される。一方、修正候補「愛知県蒲郡市」と文字列認識結果「干業県蒲完市」とを比較した場合、三文字目の「県」と、四文字目の「蒲」と、六文字目の「市」の三文字が一致しているため、三回の置換操作を必要とし、編集距離は「3」と算出される。つまり、認識対象である実際の文字列(正解の文字列)に該当する修正候補「千葉県浦安市」よりも、修正候補「愛知県蒲郡市」の方の編集距離が小さくなってしまう。よって、この一般的な編集距離の算出方法では、正解の文字列に該当する修正候補「千葉県浦安市」よりも、修正候補「愛知県蒲郡市」の方が、類似度が高いと判定されてしまう。そのため、類似度の高い順に修正候補を表示する場合、修正候補「愛知県蒲郡市」の方が上位に表示され、正解の文字列である修正候補「千葉県浦安市」が上位に表示されなくなってしまう。 When comparing the correction candidate "Urayasu City, Chiba Prefecture" and the character string recognition result "Kamakan City, Hanyo Prefecture", both have only one character, the third character "ken" and the sixth character "city". Since they do not match, four replacement operations are required, and the edit distance is calculated as "4". On the other hand, when comparing the correction candidate "Gamagori City, Aichi Prefecture" with the character string recognition result "Kanei Prefecture Gamagori City", the third character "ken", the fourth character "gama", and the sixth character Since the three characters of ``city'' match, three replacement operations are required, and the edit distance is calculated as ``3''. In other words, the editing distance of the correction candidate "Gamagori City, Aichi Prefecture" is smaller than that of the correction candidate "Urayasu City, Chiba Prefecture" which corresponds to the actual character string (correct character string) that is the recognition target. Therefore, with this general edit distance calculation method, the correction candidate ``Gamagori City, Aichi Prefecture'' is determined to have a higher degree of similarity than the correction candidate ``Urayasu City, Chiba Prefecture'' that corresponds to the correct character string. It ends up. Therefore, when displaying correction candidates in order of similarity, the correction candidate "Gamagori City, Aichi Prefecture" will be displayed higher, and the correction candidate "Urayasu City, Chiba Prefecture", which is the correct character string, will not be displayed higher. It ends up.

<編集距離の算出方法(文字候補を用いた算出方法)>
本実施形態では、類似度算出部25は、上述のように、最終的な文字認識結果と修正候補との単なる文字列比較を行うのではなく、認識対象である文字列中の各文字についての文字候補と修正候補とを比較することで、編集距離を算出する。つまり、類似度算出部25は、OCR認識時の各文字についての文字候補も加味した編集距離を算出する。
<Edit distance calculation method (calculation method using character candidates)>
In the present embodiment, the similarity calculation unit 25 does not simply compare the final character recognition result and the correction candidates as described above, but rather compares each character in the character string to be recognized. Edit distance is calculated by comparing character candidates and correction candidates. That is, the similarity calculation unit 25 calculates an edit distance that also takes into account character candidates for each character during OCR recognition.

具体的には、類似度算出部25は、前記比較を行い、認識対象である文字列中の文字についての文字候補のいずれかと、当該文字に対応する修正候補中の文字とが一致するか否かを判定する。なお、認識対象である文字列中の文字に対応する修正候補中の文字とは、前記比較を行う際に、認識対象である文字列中の文字の認識結果である文字認識結果と比較対象となる修正候補中の文字である。 Specifically, the similarity calculation unit 25 performs the comparison and determines whether any of the character candidates for the character in the character string to be recognized matches the character in the correction candidates corresponding to the character. Determine whether Note that the character in the correction candidates corresponding to the character in the character string to be recognized is the character recognition result that is the recognition result of the character in the character string to be recognized and the character to be compared when performing the above comparison. These are the characters in the correction candidates.

例えば、認識対象の文字列が「千葉県浦安市」、文字列認識結果が「干業県蒲完市」、二文字目の「葉」についての文字候補が「業」、「葉」、「叢」、「棄」、「茎」、修正候補が「千葉県浦安市」である場合を考える。この場合、文字列認識結果と修正候補との編集距離を算出する際に、認識対象である文字列中の二文字目の「葉」についての文字候補「業」、「葉」、「叢」、「棄」、「茎」のいずれかと、当該二文字目の「葉」に対応する修正候補中の文字「葉」とが一致するか否かを判定する。類似度算出部25は、この判定を、認識対象である文字列中の各文字について実行する。 For example, the character string to be recognized is "Urayasu City, Chiba Prefecture", the character string recognition result is "Kamakan City, Kanryo Prefecture", and the character candidates for the second character "Ya" are "Gari", "Ya", " Consider a case where the correction candidates for ``Cluster'', ``Kai'', and ``Ku'' are ``Urayasu City, Chiba Prefecture''. In this case, when calculating the edit distance between the character string recognition result and the correction candidate, the character candidates ``karu'', ``leaf'', ``shu'' for the second character ``leaf'' in the character string to be recognized are It is determined whether or not any of the words ``,'', and ``stem'' match the character ``leaf'' among the correction candidates corresponding to the second character ``leaf''. The similarity calculation unit 25 performs this determination for each character in the character string to be recognized.

そして、類似度算出部25は、上述した判定の結果、修正候補を構成する文字が文字候補のいずれかと一致する場合に、当該修正候補の文字列認識結果との類似度が高くなるよう、類似度を算出する。この際、類似度算出部25は、一致した文字候補の、認識対象である文字列中の文字に対する認識の確からしさに応じた重み付け値を用いることで、類似度を算出する。類似度算出部25は、重み付け値決定部25Aを備える。 Then, as a result of the above-described determination, if the characters constituting the correction candidate match any of the character candidates, the similarity calculation unit 25 calculates the similarity so that the similarity between the correction candidate and the character string recognition result is high. Calculate degree. At this time, the similarity calculation unit 25 calculates the similarity by using a weighting value according to the recognition certainty of the matched character candidate with respect to the character in the character string to be recognized. The similarity calculation section 25 includes a weighting value determination section 25A.

重み付け値決定部25Aは、文字候補である各々の文字について、認識対象である文字列中の文字に対する認識の確からしさに応じた重み付け値を決定する。なお、本実施形態において、重み付け値は、編集距離を算出する際の文字の置換に係る編集距離(コスト)に付与するものである。ここで、文字候補の認識の確からしさは、文字候補の優先順位(候補順位)や信頼度等であり、重み付け値決定部25Aは、一致した文字候補の優先順位又は信頼度に基づき、重み付け値を決定する。 The weighting value determination unit 25A determines a weighting value for each character that is a character candidate, depending on the probability of recognition of the character in the character string that is the recognition target. Note that in this embodiment, the weighting value is given to the edit distance (cost) related to character replacement when calculating the edit distance. Here, the certainty of recognition of a character candidate is the priority order (candidate order), reliability, etc. of the character candidate, and the weighting value determination unit 25A determines the weighting value based on the priority order or reliability of the matched character candidates. Determine.

図3は、本実施形態に係る文字候補に対する重み付け値決定例を示す図である。図3には、帳票イメージに含まれる「葉」の切り取り画像と、帳票イメージに含まれる「葉」を認識した結果、認識候補となった文字候補「業」、「葉」、「叢」、「棄」、「茎」を示す。重み付け値決定部25Aは、文字認識装置9から取得した、これら文字候補の各々についての認識の確からしさ(信頼度等)に基づき、重み付け値を決定する。例えば、重み付け決定部25Aは、図3に示されるように、文字候補第一位から第五位の文字「業」、「葉」、「叢」、「棄」、「茎」各々に対して、重み付け値「0」、「0.1」、「0.2」、「0.3」、「0.4」を決定する。 FIG. 3 is a diagram showing an example of determining weighting values for character candidates according to the present embodiment. Figure 3 shows a cut-out image of "leaf" included in the form image, and character candidates "karu", "leaf", "kusa", which became recognition candidates as a result of recognizing "leaf" included in the form image, and Indicates ``abandon'' and ``stem.'' The weighting value determination unit 25A determines a weighting value based on the recognition certainty (reliability, etc.) of each of these character candidates obtained from the character recognition device 9. For example, as shown in FIG. 3, the weighting determining unit 25A assigns the weighting determination unit 25A to each of the first to fifth character candidates “karma”, “leaf”, “kusa”, “ki”, and “stalk”. , weighting values "0", "0.1", "0.2", "0.3", and "0.4" are determined.

このように、重み付け決定部25Aは、信頼度(文字候補順位)が高いほど重み付け値が小さくなるように重み付け値を決定する。これより、修正候補中の文字と一致する文字候補の信頼度等が高いほど、当該文字についての編集距離(コスト)が小さくなる。重み付け値は、図3のような候補順位(優先順位)に比例した値や、図3に示した「0.1」等の大きさに限られるものではなく、文字認識時に文字候補各々について得られる信頼度に基づく値(例えば、信頼度の逆数)等であってもよい。なお、類似度算出に用いる文字候補の数(文字候補順位何位までを使用するか)は、任意に設定可能である。 In this way, the weighting determination unit 25A determines the weighting value such that the higher the reliability (character candidate rank), the smaller the weighting value. From this, the higher the reliability, etc. of a character candidate that matches a character in the correction candidates, the smaller the editing distance (cost) for the character. The weighting value is not limited to a value proportional to the candidate order (priority order) as shown in Figure 3, or a value such as "0.1" shown in Figure 3, but is a value that is calculated based on the value obtained for each character candidate during character recognition. The value may be a value based on the reliability (for example, the reciprocal of the reliability). Note that the number of character candidates used for similarity calculation (up to which character candidate rankings are used) can be arbitrarily set.

ここで、類似度算出部25は、編集距離を求めるにあたりDP(ダイナミックプログラミング)と呼ばれる、一つの問題を複数の問題に分割し、分割した問題の計算結果を記録しながら問題を解いていく手法を用いる。以下、文字候補を用いた編集距離の算出例を示す。なお、本算出例においても、一般的な編集距離の算出例と同様に、実際の文字列「千葉県浦安市」に対する文字列認識結果「干業県蒲完市」及び修正候補「千葉県浦安市」、「愛知県蒲郡市」について考える。 Here, in calculating the edit distance, the similarity calculation unit 25 uses a method called DP (dynamic programming) in which one problem is divided into multiple problems and the problem is solved while recording the calculation results of the divided problems. Use. An example of calculating an edit distance using character candidates is shown below. In addition, in this calculation example, as well as in the general edit distance calculation example, the character string recognition result ``Kamakan City, Kanryo Prefecture'' and the correction candidate ``Urayasu City, Chiba Prefecture'' for the actual character string ``Urayasu City, Chiba Prefecture'' are used. Think about "Gamagori City, Aichi Prefecture".

図4は、本実施形態に係る文字列認識結果と正しい修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。本マトリクスを用いて、文字候補を加味した、文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」との編集距離の算出例を説明する。ここで、本算出例における文字候補は、認識対象に含まれる各文字につき三個(文字候補第一位、第二位、第三位)まで使用することとし、文字候補第一位には重み付け値「0」が、文字候補第二位には重み付け値「0.1」が、文字候補第三位には重み付け値「0.2」が決定されている。 FIG. 4 is a diagram showing an outline of a DP matrix used to calculate the edit distance between a character string recognition result and a correct correction candidate according to the present embodiment. An example of calculating the edit distance between the character string recognition result "Kamakan City, Kanyo Prefecture" and the correction candidate "Urayasu City, Chiba Prefecture" using this matrix will be explained, taking into account character candidates. Here, in this calculation example, up to three character candidates are used for each character included in the recognition target (first, second, and third character candidates), and the first character candidate is weighted. A value of "0" is determined, a weighting value of "0.1" is determined for the second-ranked character candidate, and a weighting value of "0.2" is determined for the third-ranked character candidate.

文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」とを比較した場合、三文字目の「県」と六文字目の「市」は一致するため、その編集コストは「0」である。一文字目、二文字目、四文字目、五文字目の文字は異なるため、置換操作が必要となり本来ならそれぞれ編集コストが「1」となるが、この置換操作についての編集コストに重み付け値を加味(付与)する。具体的には、修正候補中の一文字目、二文字目、四文字目、五文字目の文字は、それぞれ、対応する(比較対象となる)文字候補中の第二位の文字と一致するため、これらの文字についての編集コスト「1」に対して重み付け値「0.1」を付与(乗算)することで、それぞれの編集コストが「0.1」と算出される。よって、文字列認識結果「干業県蒲完市」と修正候補「千葉県浦安市」との間の編集距離は、第二位の文字候補との置換操作を四回行うことから、「0.4」と算出される。 When comparing the character string recognition result "Kamakan City, Hanyo Prefecture" and the correction candidate "Urayasu City, Chiba Prefecture", the third character "Prefecture" and the sixth character "City" match, so the editing cost is is "0". Since the first, second, fourth, and fifth characters are different, a replacement operation is required, and the editing cost for each would normally be 1, but a weighting value is added to the editing cost for this replacement operation. (Give. Specifically, the first, second, fourth, and fifth characters in the correction candidates each match the second character in the corresponding (comparison target) character candidate. , by adding (multiplying) a weighting value of "0.1" to the editing cost of "1" for these characters, the editing cost of each character is calculated as "0.1". Therefore, the edit distance between the character string recognition result "Kamakan City, Kanyo Prefecture" and the correction candidate "Urayasu City, Chiba Prefecture" is "0" because the replacement operation with the second-ranked character candidate is performed four times. .4'' is calculated.

図5は、本実施形態に係る文字列認識結果と間違った修正候補との編集距離の算出に用いるDPマトリクスの概要を示す図である。本マトリクスを用いて、文字候補を加味した、文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」との編集距離の算出例を説明する。なお、文字候補および文字候補についての重み付け値は、上述の場合と同様である。 FIG. 5 is a diagram showing an outline of a DP matrix used to calculate the edit distance between a character string recognition result and an incorrect correction candidate according to the present embodiment. An example of calculating the edit distance between the character string recognition result "Kaneyo Prefecture Gamagori City" and the correction candidate "Aichi Prefecture Gamagori City" using this matrix will be explained, taking into account character candidates. Note that the character candidates and the weighting values for the character candidates are the same as in the above case.

文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」とを比較した場合、三文字目の「県」と四文字目の「蒲」と六文字目の「市」は一致するため、その編集コストは「0」である。一文字目、二文字目、五文字目の文字は異なり、更に、修正候補中の一文字目、二文字目、五文字目の文字は、それぞれ文字候補中に一致する文字がないため、一般的な編集距離の算出方法と同様に、置換操作に係る編集コストが「1」と算出される。よって、文字列認識結果「干業県蒲完市」と修正候補「愛知県蒲郡市」との間の編集距離は、通常の置換操作を三回行うことから、「3」と算出される。 When comparing the character string recognition result "Kamakan City, Kanyo Prefecture" and the correction candidate "Gamagori City, Aichi Prefecture", the third character "ken", the fourth character "kama", and the sixth character "city" Since they match, the editing cost is "0". The first, second, and fifth characters are different, and the first, second, and fifth characters in the correction candidates are common because there is no matching character in the candidate characters. Similar to the method for calculating the edit distance, the edit cost related to the replacement operation is calculated as "1". Therefore, the edit distance between the character string recognition result "Gamagori City, Kanyo Prefecture" and the correction candidate "Gamagori City, Aichi Prefecture" is calculated as "3" because the normal replacement operation is performed three times.

このように、文字列同士の比較を行う際は、文字が一致するか不一致かの二通りであるが、文字候補を用いた比較を行う際は、編集距離に、文字候補の位置(候補順位)や文字認識の類似度(信頼度)に応じた重みが付与される。上述の通り、文字候補を加味した編集距離を算出することで、正しい修正候補「千葉県浦安市」が、間違った修正候補「愛知県蒲郡市」よりも編集距離が小さく算出されるため、類似度が高いと判定され、修正候補の上位に表示することが可能となる。 In this way, when comparing character strings, there are two ways to compare the characters: they match or they do not match. However, when comparing characters using character candidates, the position of the character candidate (candidate rank) is added to the edit distance. ) and the similarity (reliability) of character recognition. As mentioned above, by calculating the edit distance that takes character candidates into account, the edit distance of the correct correction candidate "Urayasu City, Chiba Prefecture" is calculated to be smaller than that of the incorrect correction candidate "Gamagori City, Aichi Prefecture", so the edit distance is calculated as being similar. It is determined that the degree of modification is high, and it is possible to display it at the top of the correction candidates.

なお、類似度算出部25は、類似度算出時の閾値を設定することにより、例えば、文字列中の各文字についての編集コストを加算していく中で、当該閾値を超えた時点で、それ以上編集コストの加算処理を行わないよう、類似度算出を中止するようにしてもよい。この場合、類似度算出処理を途中で中止した修正候補については、ユーザに提示(表示)しないようにしてもよい。 Note that by setting a threshold value when calculating the similarity degree, the similarity calculation unit 25, for example, adds up the editing cost for each character in the character string, and when the threshold value is exceeded, the editing cost is added up. The similarity calculation may be stopped so that the editing cost addition process is not performed. In this case, correction candidates for which similarity calculation processing has been stopped midway may not be presented (displayed) to the user.

また、類似度算出部25は、編集距離を、修正候補の文字列を構成する文字数又は認識結果の文字列を構成する文字数により正規化し、この正規化された編集距離により表示順が決定されるようにしてもよい。例えば、類似度算出部25は、編集距離を、「修正候補の文字列を構成する文字数」と「認識結果の文字列を構成する文字数」とを比較し、文字数が多い方の文字数の値により除算することで、正規化された編集距離を算出するようにしてもよい。換言すると、編集距離を算出した二つの文字列(「修正候補の文字列」と「文字列認識結果の文字列」)において、長い方の文字列長で編集距離を除算することで、正規化を行う。例えば、文字列認識結果「千葉県浦安市」と二つの修正候補「千葉県」、「千葉県浦安市舞浜町」との間の編集距離は、どちらも「3」と算出される。一方、上述の正規化を行った正規化後の編集距離は、それぞれ、「0.5(=3/6)」、「0.375(=3/8)」と算出される。なお、編集距離の最大値は対象文字列の長い方の文字数に等しいため、正規化後の編集距離は0から1の範囲内の数値となる。このように、編集距離を正規化することで、修正候補「千葉県」より修正候補「千葉県浦安市舞浜町」の方が文字列認識結果「千葉県浦安市」との類似度が高い、等という人間の感覚に近い形で編集距離の比較が可能となる。 Further, the similarity calculation unit 25 normalizes the edit distance by the number of characters forming the correction candidate character string or the number of characters forming the recognition result character string, and the display order is determined by this normalized edit distance. You can do it like this. For example, the similarity calculation unit 25 calculates the edit distance by comparing "the number of characters that make up the correction candidate character string" and "the number of characters that make up the recognition result character string", and calculates the edit distance based on the value of the number of characters that has a larger number of characters. The normalized edit distance may be calculated by division. In other words, for the two strings for which the edit distance has been calculated (“correction candidate string” and “character string recognition result string”), normalization is performed by dividing the edit distance by the length of the longer string. I do. For example, the edit distances between the character string recognition result "Urayasu City, Chiba Prefecture" and the two correction candidates "Chiba Prefecture" and "Maihama Town, Urayasu City, Chiba Prefecture" are both calculated as "3". On the other hand, the edit distances after the normalization performed above are calculated as "0.5 (=3/6)" and "0.375 (=3/8)", respectively. Note that since the maximum value of the edit distance is equal to the number of longer characters in the target character string, the edit distance after normalization is a numerical value within the range of 0 to 1. In this way, by normalizing the edit distance, the correction candidate ``Maihama-cho, Urayasu City, Chiba Prefecture'' has a higher degree of similarity to the character string recognition result ``Urayasu City, Chiba Prefecture'' than the correction candidate ``Chiba Prefecture.'' It becomes possible to compare edit distances in a form similar to human sensations such as, etc.

表示制御部26は、類似度算出部25により算出された、各修正候補と文字列認識結果との類似度に基づき、修正候補の表示順を決定する。具体的には、表示制御部25は、算出された類似度が高い順(算出された編集距離が小さい順)に修正候補が表示されるよう、修正候補の表示順を決定する。つまり、表示制御部26は、文字列認識結果と類似している修正候補が先頭(上位)に表示されるように表示順を決定する。 The display control unit 26 determines the display order of the correction candidates based on the degree of similarity between each correction candidate and the character string recognition result calculated by the similarity calculation unit 25. Specifically, the display control unit 25 determines the display order of the correction candidates so that the correction candidates are displayed in order of higher calculated similarity (in order of lower calculated edit distance). That is, the display control unit 26 determines the display order so that correction candidates similar to the character string recognition result are displayed at the top (higher position).

表示部27は、情報処理装置1における出力デバイス17を介して、種々の表示処理を実行する。表示部27は、例えば、ユーザが帳票に記載された文字列の認識結果を確認する画面等を生成し、ディスプレイ等の出力デバイス17を介して生成された画面を表示(出力)する。また、表示部27は、入力受付部28により、文字列認識結果の選択に係る入力を受け付けると、選択された文字列認識結果に対する修正候補を、表示制御部26により決定された表示順に従い表示する。つまり、表示部27は、算出された類似度の昇順に、修正候補を表示する。なお、表示部27は、帳票イメージから、認識対象に係る画像(切り取り画像)を取得し、文字列認識結果および修正候補と併せて表示する。つまり、表示部27は、文字列認識結果、修正候補および認識対象に係る画像等を表示するためのユーザインターフェース(UI、User Interface)である。 The display unit 27 executes various display processes via the output device 17 in the information processing apparatus 1. The display unit 27 generates, for example, a screen for the user to check the recognition result of the character string written on the form, and displays (outputs) the generated screen via the output device 17 such as a display. Further, when the input reception unit 28 receives an input related to the selection of a character string recognition result, the display unit 27 displays correction candidates for the selected character string recognition result in the display order determined by the display control unit 26. do. That is, the display unit 27 displays the correction candidates in ascending order of the calculated similarity. Note that the display unit 27 acquires an image (cut image) related to the recognition target from the form image and displays it together with the character string recognition result and correction candidates. That is, the display unit 27 is a user interface (UI) for displaying character string recognition results, correction candidates, images related to recognition targets, and the like.

入力受付部28は、マウス等の入力デバイス16を介して、ユーザから種々の入力を受け付ける。入力受付部28は、例えば、ユーザが確認または修正を行いたい項目がある場合等に、ユーザが文字列認識結果をマウス等により選択することで、文字列認識結果の選択に係る入力(選択する旨の入力)を受け付ける。また、入力受付部28は、例えば、ユーザが修正候補を確認し、当該修正候補の中に正しい文字列を確認、選択した場合等に、ユーザからの修正候補についての選択に係る入力を受け付ける。 The input receiving unit 28 receives various inputs from the user via the input device 16 such as a mouse. For example, when there is an item that the user wants to confirm or modify, the input reception unit 28 receives input related to the selection of the character string recognition result (selection) by the user selecting the character string recognition result with a mouse or the like. input). Further, the input receiving unit 28 receives an input from the user regarding selection of a correction candidate, for example, when the user confirms the correction candidates and confirms and selects a correct character string among the correction candidates.

置換部29は、文書データ(帳票データ)から取得(抽出)した文字列認識結果を、ユーザが選択した修正候補に置き換える。置換部29は、RAM13に記憶された文字列認識結果を、入力受付部28により選択入力を受け付けたユーザ所望の修正候補(文字列)に置き換える。これより、ユーザが所望する正しい文字列が、文字列認識結果の代わりに確認画面に表示されるようになる。 The replacement unit 29 replaces the character string recognition result obtained (extracted) from the document data (form data) with a correction candidate selected by the user. The replacement unit 29 replaces the character string recognition result stored in the RAM 13 with a modification candidate (character string) desired by the user whose selection input has been received by the input reception unit 28 . From this, the correct character string desired by the user will be displayed on the confirmation screen instead of the character string recognition result.

<処理の流れ>
次に、本実施形態に係る情報処理装置によって実行される処理の流れを、フローチャートを用いて説明する。なお、以下に説明するフローチャートに示された処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
<Processing flow>
Next, the flow of processing executed by the information processing apparatus according to this embodiment will be explained using a flowchart. Note that the specific contents and processing order of the processes shown in the flowcharts described below are an example for implementing the present disclosure. The specific processing content and processing order may be selected as appropriate depending on the embodiment of the present disclosure.

図6は、本実施形態に係る修正候補表示処理の流れの概要を示すフローチャートである。本実施形態に係る修正候補表示処理は、情報処理装置1において、文字認識装置9から帳票イメージを文字認識した結果を受信したこと等を契機として実行される。 FIG. 6 is a flowchart outlining the flow of correction candidate display processing according to this embodiment. The correction candidate display process according to the present embodiment is executed in the information processing device 1 when a result of character recognition of a form image is received from the character recognition device 9.

ステップS101では、文字列認識結果及び文字候補が取得される。認識結果取得部21は、文字認識装置9から、帳票データ及び帳票(帳票イメージ)に記載の各文字についての文字候補を取得し、更に、帳票データから、認識を行った各項目についての文字列認識結果を取得する。また、認識結果取得部21は、取得した帳票データ、文字列認識結果および文字候補等をRAM13に記録する。その後、処理はステップS102へ進む。 In step S101, character string recognition results and character candidates are acquired. The recognition result acquisition unit 21 acquires character candidates for each character written on the form data and the form (form image) from the character recognition device 9, and further acquires character strings for each recognized item from the form data. Obtain recognition results. Further, the recognition result acquisition unit 21 records the acquired form data, character string recognition results, character candidates, etc. in the RAM 13. After that, the process advances to step S102.

ステップS102では、帳票イメージが取得される。文書イメージ取得部22は、文書読取装置8により取得された帳票イメージを、文字認識装置9から取得する。また、文書イメージ取得部22は、取得された帳票イメージをRAM13に記録する。なお、ステップS101とステップS102は順不同であり、同時に行われるようにしてもよい。その後、処理はステップS103へ進む。 In step S102, a form image is acquired. The document image acquisition unit 22 acquires the form image acquired by the document reading device 8 from the character recognition device 9. Further, the document image acquisition unit 22 records the acquired form image in the RAM 13. Note that step S101 and step S102 may be performed in any order and may be performed simultaneously. After that, the process advances to step S103.

ステップS103では、認識結果が表示される。表示部27は、帳票の各項目についての文字列認識結果の確認をユーザに促すための確認画面を生成し、情報処理装置1の出力デバイス17に表示する。この際、表示部27は、ステップS101で取得された各項目についての文字列認識結果を確認画面に表示する。また、表示部27は、ステップS102で取得された帳票イメージの中から、認識対象である各項目の文字列に係る帳票イメージを切り取り(抽出し)、対応する文字列認識結果と併せて確認画面に表示する。 In step S103, the recognition results are displayed. The display unit 27 generates a confirmation screen for prompting the user to confirm the character string recognition results for each item of the form, and displays it on the output device 17 of the information processing device 1. At this time, the display unit 27 displays the character string recognition results for each item acquired in step S101 on the confirmation screen. In addition, the display unit 27 cuts out (extracts) a form image related to the character string of each item to be recognized from among the form images acquired in step S102, and displays it on a confirmation screen together with the corresponding character string recognition result. to be displayed.

図7は、本実施形態に係る確認画面の概略を示す図である。確認画面には、図7に示されるように、帳票に記載された入力項目毎に、項目名71、認識対象に係る読み取り画像(切り取り画像)72、文字列認識結果73及び修正候補74等を含む。図7の例では、確認画面には、項目名「住所」、認識対象「千葉県浦安市」の読み取り画像、文字列認識結果「干業県蒲完市」及び修正候補「千葉県浦安市」、「千葉県船橋市」、「千葉県成田市」、「愛知県蒲郡市」等が表示される。なお、修正候補の表示については、ステップS107において実行される。その後、処理はステップS104へ進む。 FIG. 7 is a diagram schematically showing a confirmation screen according to this embodiment. As shown in FIG. 7, the confirmation screen displays the item name 71, read image (cut image) 72 related to the recognition target, character string recognition result 73, correction candidate 74, etc. for each input item written on the form. include. In the example shown in Figure 7, the confirmation screen includes the item name "Address", the read image of the recognition target "Urayasu City, Chiba Prefecture", the character string recognition result "Kamakan City, Hanyo Prefecture", and the correction candidate "Urayasu City, Chiba Prefecture". , "Funabashi City, Chiba Prefecture," "Narita City, Chiba Prefecture," "Gamagori City, Aichi Prefecture," etc. are displayed. Note that display of correction candidates is executed in step S107. After that, the process advances to step S104.

ステップS104では、文字列認識結果の選択に係る入力が受け付けられる。入力受付部28は、ユーザが確認または修正を行いたい項目がある場合等に、マウス等の入力デバイス16を介して、ユーザからの文字列認識結果の選択に係る入力を受け付ける。例えば、ユーザが、文字列認識結果のテキストボックス73をマウスでクリックすることで、文字列認識結果「干業県蒲完市」が選択され、文字列認識結果「干業県蒲完市」を選択する旨の入力が受け付けられる。その後、処理はステップS105へ進む。 In step S104, input related to selection of character string recognition results is accepted. The input receiving unit 28 receives input from the user regarding the selection of character string recognition results via the input device 16 such as a mouse, when there is an item that the user wants to confirm or modify. For example, when the user clicks the text box 73 of the character string recognition result with a mouse, the character string recognition result "Kaneyo Prefecture Kamwan City" is selected, and the character string recognition result "Kaneyo Prefecture Kamakan City" is selected. An input indicating selection is accepted. After that, the process advances to step S105.

ステップS105では、各修正候補について、文字列認識結果との類似度が算出される。類似度算出部25は、文字列認識結果に対する各修正候補について、修正候補と文字列認識結果との類似度を算出する。例えば、類似度算出部25は、図4、図5に示されるように、OCR認識時の各文字についての文字候補を加味した編集距離を算出する。本実施形態では、類似度算出部25は、例えば、修正候補「千葉県浦安市」についての編集距離を「0.4」、修正候補「愛知県蒲郡市」についての編集距離を「3」と算出する。なお、ステップS105の類似度算出処理の詳細については、後述する(図8)。その後、処理はステップS106へ進む。 In step S105, the degree of similarity with the character string recognition result is calculated for each correction candidate. The similarity calculation unit 25 calculates the similarity between the modification candidate and the character string recognition result for each modification candidate for the character string recognition result. For example, as shown in FIGS. 4 and 5, the similarity calculation unit 25 calculates an edit distance for each character during OCR recognition, taking into account character candidates. In this embodiment, the similarity calculation unit 25 sets the edit distance for the correction candidate "Urayasu City, Chiba Prefecture" to "0.4" and the edit distance for the correction candidate "Gamagori City, Aichi Prefecture" to "3", for example. calculate. Note that details of the similarity calculation process in step S105 will be described later (FIG. 8). After that, the process advances to step S106.

ステップS106では、算出された類似度に基づき、修正候補の表示順が決定される。表示制御部26は、ステップS105で算出された類似度に基づき、修正候補の表示順を決定する。表示制御部26は、例えば、算出された編集距離が小さい順(類似度が高い順)に修正候補が表示されるよう、修正候補の表示順を決定する。本実施形態では、表示制御部26は、編集距離が「0.4」である修正候補「千葉県浦安市」を、編集距離が「3」である修正候補「愛知県蒲郡市」よりも上位に表示されるよう、修正候補「千葉県浦安市」の表示順位を1位、修正候補「愛知県蒲郡市」の表示順位を7位等と表示順を決定する。その後、処理はステップS107へ進む。 In step S106, the display order of correction candidates is determined based on the calculated similarity. The display control unit 26 determines the display order of the correction candidates based on the similarity calculated in step S105. The display control unit 26 determines the display order of the correction candidates so that, for example, the correction candidates are displayed in order of decreasing calculated edit distance (in order of high similarity). In this embodiment, the display control unit 26 places the correction candidate "Urayasu City, Chiba Prefecture" whose edit distance is "0.4" higher than the correction candidate "Gamagori City, Aichi Prefecture" whose edit distance is "3". The display order is determined such that the correction candidate "Urayasu City, Chiba Prefecture" is displayed in first place, the correction candidate "Gamagori City, Aichi Prefecture" is displayed in seventh place, etc. After that, the process advances to step S107.

ステップS107では、修正候補が表示される。表示部27は、各修正候補を、ステップS106で決定された表示順に従いリスト表示する。本実施形態では、表示部27は、図7に示されるように、文字列認識結果の近傍(例えば、下部)に修正候補をリスト表示する。このように、ステップS104からステップS107の処理により、ユーザが確認、修正を行いたい文字列認識結果のテキストボックスをクリックすると、入力状態に移行し、当該文字列認識結果に対する修正候補がリスト表示される。その後、処理はステップS108へ進む。 In step S107, correction candidates are displayed. The display unit 27 displays each modification candidate as a list in the display order determined in step S106. In this embodiment, the display unit 27 displays a list of correction candidates near (for example, below) the character string recognition result, as shown in FIG. In this way, when the user clicks on the text box of the character string recognition result that he or she wishes to confirm or modify through the processes from step S104 to step S107, the system shifts to the input state and a list of correction candidates for the character string recognition result is displayed. Ru. After that, the process advances to step S108.

ステップS108では、文字列認識結果を修正するための修正候補が選択され、正しい認識結果として確定(置換)される。入力受付部28は、修正候補を確認したユーザから、ユーザの所望する修正候補についての選択に係る入力を受け付ける。入力受付部28は、例えば、ユーザがリスト表示された修正候補をマウスでクリックすることで、修正候補の選択に係る入力を受け付ける。そして、置換部29は、帳票データから抽出された文字列認識結果を、選択された修正候補に置換し、当該修正候補が正しい文字列認識結果として確定される。これより、ユーザが所望する正しい文字列が、文字列認識結果の代わりに確認画面に表示されるようになる。その後、本フローチャートに示された処理は終了する。 In step S108, a modification candidate for modifying the character string recognition result is selected and confirmed (replaced) as a correct recognition result. The input receiving unit 28 receives input from the user who has confirmed the correction candidates regarding the selection of the correction candidates desired by the user. The input accepting unit 28 accepts an input related to selection of a modification candidate, for example, when the user clicks a displayed modification candidate in a list with a mouse. Then, the replacement unit 29 replaces the character string recognition result extracted from the form data with the selected modification candidate, and the modification candidate is determined as the correct character string recognition result. From this, the correct character string desired by the user will be displayed on the confirmation screen instead of the character string recognition result. After that, the processing shown in this flowchart ends.

図8は、本実施形態に係る類似度算出処理の流れの概要を示すフローチャートである。本実施形態に係る類似度算出処理は、図6におけるステップS104の処理(文字列認識結果の選択に係る入力受付)が行われたこと等を契機として実行される。 FIG. 8 is a flowchart showing an overview of the flow of similarity calculation processing according to this embodiment. The similarity calculation process according to the present embodiment is executed in response to, for example, the process of step S104 in FIG. 6 (input reception related to selection of character string recognition results) being performed.

ステップS1051では、文字列認識結果に対する修正候補が抽出される。修正候補抽出部24は、ステップS104で選択された文字列認識結果に係る認識対象が属する項目に基づき、修正候補記憶部23から、当該文字列認識結果に対する修正候補を1以上抽出する。本実施形態では、ステップS104で文字列認識結果「干業県蒲完市」を選択する旨の入力が受け付けられたことにより、修正候補抽出部24は、入力項目「住所」に基づいて、「千葉県浦安市」、「千葉県船橋市」、「千葉県成田市」、「愛知県蒲郡市」等の修正候補を、修正候補記憶部23から抽出する。その後、処理はステップS1052へ進む。 In step S1051, correction candidates for the character string recognition result are extracted. The modification candidate extraction unit 24 extracts one or more modification candidates for the character string recognition result from the modification candidate storage unit 23 based on the item to which the recognition target related to the character string recognition result selected in step S104 belongs. In this embodiment, upon receiving the input to select the character string recognition result "Kaman City, Kanye Prefecture" in step S104, the correction candidate extracting unit 24 selects "Address" based on the input item "Address". Correction candidates such as ``Urayasu City, Chiba Prefecture'', ``Funabashi City, Chiba Prefecture'', ``Narita City, Chiba Prefecture'', and ``Gamagori City, Aichi Prefecture'' are extracted from the correction candidate storage unit 23. After that, the process advances to step S1052.

ステップS1052では、重み付け値が決定される。重み付け値算出部25Aは、ステップS104で選択された文字列認識結果の認識対象である文字列について、当該文字列を構成する各文字についての文字候補を取得し、文字候補の各々の文字についての重み付け値を決定する。重み付け値算出部25Aは、例えば、図4、図5に示されるように、文字候補第一位から第三位の文字候補各々について、候補順位(優先順位)に比例した重み付け値「0」、「0.1」、「0.2」を決定する。その後、処理はステップS1053へ進む。 In step S1052, weighting values are determined. The weighting value calculation unit 25A acquires character candidates for each character constituting the character string, which is the recognition target of the character string recognition result selected in step S104, and calculates the character candidates for each character of the character candidates. Determine weighting values. For example, as shown in FIGS. 4 and 5, the weighting value calculation unit 25A calculates a weighting value "0" proportional to the candidate ranking (priority ranking) for each of the first to third character candidates, "0.1" and "0.2" are determined. After that, the process advances to step S1053.

ステップS1053では、文字候補に基づく重み付け値を利用した編集距離(類似度)が算出される。類似度算出部25は、ステップS1051で抽出された各修正候補について、文字認識結果との類似度を算出する。類似度算出部25は、前述した通り、例えば、修正候補「千葉県浦安市」と文字列認識結果「干業県蒲完市」との間の編集距離を、「0.4」と算出する。また、類似度算出部25は、修正候補「愛知県蒲郡市」と文字列認識結果「干業県蒲完市」との間の編集距離を「3」と算出する。その後、本フローチャートに示された処理は終了する。 In step S1053, an edit distance (similarity) is calculated using weighted values based on the character candidates. The similarity calculation unit 25 calculates the similarity with the character recognition result for each correction candidate extracted in step S1051. As described above, the similarity calculation unit 25 calculates, for example, the edit distance between the correction candidate "Urayasu City, Chiba Prefecture" and the character string recognition result "Kamakan City, Kanye Prefecture" as "0.4". . Furthermore, the similarity calculation unit 25 calculates the edit distance between the correction candidate "Gamagori City, Aichi Prefecture" and the character string recognition result "Gamagori City, Hanyo Prefecture" as "3". After that, the processing shown in this flowchart ends.

上述した方法により、帳票を読み取り文字認識が行われると、認識対象の文字列に係る認識結果(文字列認識結果)に対して、適切な(最適な)修正候補をユーザに提示することが出来る。これより、ユーザは、提示された修正候補の中から正解の文字列を選択することが出来るため、認識結果を容易に修正することが可能となる。その結果、ユーザによる認識結果の確認、修正時の手間を軽減し、エントリー業務の効率を向上させることが可能となる。 When a form is read and character recognition is performed using the method described above, appropriate (optimal) correction candidates can be presented to the user for the recognition results (character string recognition results) related to the character string to be recognized. . This allows the user to select the correct character string from among the presented correction candidates, making it possible to easily correct the recognition result. As a result, it is possible to reduce the effort required by the user to check and correct recognition results, and improve the efficiency of entry operations.

また、上述した方法により、修正候補と文字列認識結果との単純な文字列同士の比較により算出される類似度ではなく、文字認識時の文字候補の信頼度等に基づく重み付け値を用いた類似度を算出し、この算出された類似度に基づき修正候補の表示順を決定することで、修正候補を適切な順番で表示することが可能となる。つまり、認識対象である正しい文字列に類似する順に、修正候補を表示することが可能となる。 In addition, with the method described above, similarity is calculated using a weighted value based on the reliability of character candidates during character recognition, rather than similarity calculated by a simple comparison of character strings between correction candidates and character string recognition results. By calculating the similarity and determining the display order of the correction candidates based on the calculated similarity, it becomes possible to display the correction candidates in an appropriate order. In other words, it is possible to display correction candidates in the order of similarity to the correct character string to be recognized.

具体的には、上述の一般的な編集距離の算出方法で示したように、一般的な類似度の算出方法によると、正解の文字列である「千葉県浦安市」の方が関係のない文字列である「愛知県蒲郡市」よりも編集距離が大きくなるため、正解の文字列ではなく関係のない修正候補が上位に表示されてしまう。この場合、ユーザが複数の修正候補の中から正解の文字列を見つけ出す手間や、正解の文字列が上位に表示されないためにユーザが直接文字を編集し修正する手間等が生じていた。 Specifically, as shown in the general edit distance calculation method above, according to the general similarity calculation method, the correct character string "Urayasu City, Chiba Prefecture" is less related. Because the edit distance is larger than the character string "Gamagori City, Aichi Prefecture", unrelated correction candidates are displayed at the top instead of the correct character string. In this case, the user has to take time to find the correct character string from among a plurality of correction candidates, and the user has to directly edit and correct the characters because the correct character string is not displayed at the top.

一方、上述した、本実施形態に係る文字候補に基づく重み付け値を利用した編集距離の算出方法により、認識対象である正しい文字列に類似する順に、修正候補を表示することが可能となる。よって、例えば、正解である文字列「千葉県浦安市」を修正候補の上位に表示することが出来るため、ユーザの所望する最適な修正候補が見つかり易くなる。その結果、ユーザによる認識結果の確認、修正の手間を軽減することが可能となり、エントリー業務の効率(ユーザの修正効率)をより向上させることが可能となる。このように、文字認識時の文字候補を加味した類似度を算出することで、誤読した場合でも最適な修正候補を上位に表示することができるため、ユーザに対して誤読に強い方法を提供することが可能である。 On the other hand, by the above-described edit distance calculation method using weighted values based on character candidates according to the present embodiment, it is possible to display correction candidates in the order of similarity to the correct character string to be recognized. Therefore, for example, the correct character string "Urayasu City, Chiba Prefecture" can be displayed at the top of the correction candidates, making it easier for the user to find the optimal correction candidate desired by the user. As a result, it becomes possible to reduce the effort required by the user to check and correct the recognition results, and it becomes possible to further improve the efficiency of entry operations (the user's correction efficiency). In this way, by calculating the degree of similarity that takes into account character candidates during character recognition, even in the case of misreading, the most suitable correction candidates can be displayed at the top, providing users with a method that is resistant to misreading. Is possible.

<第一のバリエーション>
次に、本開示に係る情報処理装置、修正候補表示方法及びプログラムのバリエーションを説明する。上記説明した実施形態では、文字認識装置9において、帳票イメージに対して文字認識処理を行っていた。これに対して、本バリエーションでは、情報処理装置1において、帳票イメージに対する文字認識処理が行われる。
<First variation>
Next, variations of the information processing device, modification candidate display method, and program according to the present disclosure will be described. In the embodiment described above, the character recognition device 9 performs character recognition processing on the form image. In contrast, in this variation, the information processing device 1 performs character recognition processing on the form image.

図9は、第一のバリエーションに係るシステムの構成の概略を示す図である。本バリエーションに係るシステムは、情報処理装置1及び文書読取装置8を備える。本バリエーションにおいて、情報処理装置1は、記憶装置14にOCRソフトウェアを記録し、当該プログラムがRAM13に読み出され、CPU11によって実行されることで、文字認識(OCR)処理を実行する。また、本バリエーションでは、上記説明した実施形態に係るシステムの構成と異なり、文字認識を行うための文字認識装置9は備えなくても良い。 FIG. 9 is a diagram schematically showing the configuration of a system according to the first variation. The system according to this variation includes an information processing device 1 and a document reading device 8. In this variation, the information processing device 1 records OCR software in the storage device 14, reads the program into the RAM 13, and executes it by the CPU 11, thereby performing character recognition (OCR) processing. Further, in this variation, unlike the system configuration according to the embodiment described above, the character recognition device 9 for performing character recognition does not need to be provided.

図10は、第一のバリエーション係る情報処理装置の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、認識結果取得部21、文書イメージ取得部22、修正候補記憶部23、修正候補抽出部24、類似度算出部25、表示制御部26、表示部27、入力受付部28及び置換部29を備える情報処理装置として機能する。なお、本バリエーションに係る情報処理装置1の機能構成については、上述した実施形態に係る機能構成と異なる部分についてのみ説明を行い、同様の機能構成については、説明を省略する。 FIG. 10 is a diagram schematically showing the functional configuration of an information processing device according to the first variation. The information processing device 1 acquires recognition results by reading a program recorded in the storage device 14 into the RAM 13, executing it by the CPU 11, and controlling each hardware included in the information processing device 1. 21, a document image acquisition section 22, a modification candidate storage section 23, a modification candidate extraction section 24, a similarity calculation section 25, a display control section 26, a display section 27, an input reception section 28, and a replacement section 29. Function. Regarding the functional configuration of the information processing device 1 according to this variation, only the parts that are different from the functional configuration according to the embodiment described above will be explained, and the explanation of the similar functional configuration will be omitted.

認識結果取得部21は、文書(文書イメージ)に記載された1以上の文字から構成される文字列(認識対象)についての認識結果を取得する。具体的には、認識結果取得部21は、帳票が有する入力項目毎に、認識対象である文字列の認識結果を取得する。また、認識結果取得部21は、文書に記載された各文字について、文字認識時の認識候補である文字候補に係るデータを取得する。認識結果取得部21は、文字認識部21C、認識用文字記憶部21D及び認識結果抽出部21Bを備える。 The recognition result acquisition unit 21 acquires recognition results for a character string (recognition target) composed of one or more characters written in a document (document image). Specifically, the recognition result acquisition unit 21 acquires the recognition result of the character string to be recognized for each input item included in the form. Furthermore, the recognition result acquisition unit 21 acquires, for each character written in a document, data related to character candidates that are recognition candidates during character recognition. The recognition result acquisition section 21 includes a character recognition section 21C, a recognition character storage section 21D, and a recognition result extraction section 21B.

文字認識部21Cは、文書イメージ取得部22により文書イメージ取得すると、後述する認識用文字記憶部21Dに記憶された認識用文字(文字変換辞書)を参照することで、文書イメージに対して文字認識を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データを生成(取得)する。また、文字認識部21は、文書に記載された各文字について、最終的な文字認識結果を決定する際(文字認識の際)に候補となった文字である文字候補に係るデータを取得する。 When the document image acquisition unit 22 acquires a document image, the character recognition unit 21C performs character recognition on the document image by referring to recognition characters (character conversion dictionary) stored in a recognition character storage unit 21D, which will be described later. By doing this, document data that is the result of character recognition of each character printed or handwritten on the document is generated (obtained). Further, the character recognition unit 21 acquires data related to character candidates, which are characters that are candidates when determining the final character recognition result (at the time of character recognition), for each character written in the document.

認識用文字記憶部21Dは、文字認識のための文字(仮名、漢字、ローマ字等)や記号を多数記憶する。認識用文字記憶部21Dにより記憶される文字の集合は、例えば文字変換辞書等に例示される。 The recognition character storage unit 21D stores a large number of characters (kana, kanji, romaji, etc.) and symbols for character recognition. The set of characters stored in the recognition character storage section 21D is exemplified by, for example, a character conversion dictionary.

認識結果抽出部21Bは、文字認識部21Cで生成(取得)した帳票データ内の入力領域を指定することで、入力領域に含まれる、認識対象である文字列についての認識結果を取得する。認識結果抽出部21Bは、帳票が有する入力項目に係る入力領域を指定することで、当該入力項目毎の文字列認識結果を抽出(取得)する。 The recognition result extraction unit 21B specifies the input area in the form data generated (acquired) by the character recognition unit 21C, and thereby acquires the recognition result for the character string to be recognized, which is included in the input area. The recognition result extraction unit 21B extracts (obtains) a character string recognition result for each input item by specifying an input area related to the input item included in the form.

文書イメージ取得部22は、通信ユニット15を介して、文書読取装置8において読み取られた帳票イメージを受信(取得)する。なお、本バリエーションにおいて、文書イメージ取得部22は、帳票イメージを、ネットワークを介して文書読取装置8から取得するが、これに限られるものではない。例えば、文書イメージ取得部22は、USB(Universal Serial Bus)ポートやSDメモリーカード(Secure Digital memory card)スロット等を介して、デジタルカメラおよびスマートフォンにより撮影された撮影画像や、JPEG、PNG等の画像ファイルを読み込むことで、帳票イメージを取得するようにしてもよい。そのため、情報処理装置1は、図9に挙げられたハードウェアに加え、帳票等の文書を撮像するデジタルカメラやスマートフォン等の撮像装置を備えるようにしてもよい。この場合、本実施形態に係るシステムは、文書読取装置8を必ずしも備えなくてもよい。 The document image acquisition section 22 receives (acquires) the form image read by the document reading device 8 via the communication unit 15 . Note that in this variation, the document image acquisition unit 22 acquires the form image from the document reading device 8 via the network, but the present invention is not limited to this. For example, the document image acquisition unit 22 may receive images taken by a digital camera or smartphone, or images in JPEG, PNG, etc. via a USB (Universal Serial Bus) port or an SD memory card (Secure Digital memory card) slot. A form image may be obtained by reading a file. Therefore, in addition to the hardware shown in FIG. 9, the information processing device 1 may include an imaging device such as a digital camera or a smartphone that captures an image of a document such as a form. In this case, the system according to this embodiment does not necessarily need to include the document reading device 8.

このように、本バリエーションでは、情報処理装置1は、文書読取装置8により読み取られた文書イメージを取得し、当該文書イメージに対して文字認識を行うことで、文書に印字または手書きされた各文字を文字認識した結果である文書データ及び文書に記載された各文字についての文字候補に係るデータを取得する。 As described above, in this variation, the information processing device 1 obtains a document image read by the document reading device 8, performs character recognition on the document image, and recognizes each character printed or handwritten on the document. Document data that is the result of character recognition and data related to character candidates for each character written in the document are acquired.

<第二のバリエーション>
本バリエーションでは、複合機等の文書読取装置8において、帳票イメージに対する文字認識処理が行われる。また、本バリエーションでは、文字認識処理が文書読取装置8において行われるため、第一のバリエーションと同様に、文字認識を行うための文字認識装置9は備えなくても良い。また、同様に、情報処理装置1において、文字認識ソフトウェアを備える必要もない。なお、本バリエーションに係る情報処理装置1の機能構成については、上述した実施形態に係る機能構成(図2)と同様であるため、説明を省略する。本バリエーションにおいて、認識データ受信部21Aは、文書読取装置8から、帳票データ及び文字候補に係るデータを受信(取得)し、文書イメージ取得部22は、文書読取装置8から、帳票イメージを取得する。
<Second variation>
In this variation, character recognition processing is performed on a form image in a document reading device 8 such as a multifunction device. Further, in this variation, since character recognition processing is performed in the document reading device 8, the character recognition device 9 for performing character recognition does not need to be provided, as in the first variation. Similarly, there is no need for the information processing device 1 to include character recognition software. Note that the functional configuration of the information processing device 1 according to this variation is the same as the functional configuration (FIG. 2) according to the above-described embodiment, and therefore a description thereof will be omitted. In this variation, the recognition data receiving unit 21A receives (obtains) form data and data related to character candidates from the document reading device 8, and the document image obtaining unit 22 obtains a form image from the document reading device 8. .

1 情報処理装置
21 認識結果取得部
21A 認識データ受信部
21B 認識結果抽出部
22 文書イメージ取得部
23 修正候補記憶部
24 修正候補抽出部
25 類似度算出部
25A 重み付け値決定部
26 表示制御部
27 表示部
28 入力受付部
29 置換部
8 文書読取装置
9 文字認識装置

1 Information processing device 21 Recognition result acquisition section 21A Recognition data reception section 21B Recognition result extraction section 22 Document image acquisition section 23 Correction candidate storage section 24 Correction candidate extraction section 25 Similarity calculation section 25A Weighting value determination section 26 Display control section 27 Display Section 28 Input reception section 29 Replacement section 8 Document reading device 9 Character recognition device

Claims (16)

文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出手段と、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、を備え、
前記認識結果取得手段は、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出手段は、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
情報処理装置。
recognition result acquisition means for acquiring a character string recognition result that is a recognition result of a character string composed of one or more characters written in a document;
correction candidate storage means for storing one or more character strings that can be correction candidates for the character string recognition result;
For each modification candidate for the character string recognition result, the modification candidate and the character string recognition result obtained by adding the editing cost related to each editing operation for matching the modification candidate and the character string recognition result. similarity calculation means for calculating the edit distance of as the similarity between the correction candidate and the character string recognition result;
display control means for determining the display order of the correction candidates based on the edit distance ;
Display means for displaying the correction candidates according to the display order,
The recognition result acquisition means further acquires character candidates that are recognition candidates during character recognition for each character of the character string that is a recognition target,
The similarity calculation means calculates the edit distance by comparing a character candidate and the correction candidate for each character in the character string to be recognized,
The similarity calculation means is arranged so that when the added editing cost exceeds a predetermined threshold while adding up the editing costs related to each of the editing operations, the processing of adding the editing cost no longer is performed. canceling the calculation of the edit distance;
Information processing device.
前記類似度算出手段は、前記比較を行い、認識対象である前記文字列中の文字についての文字候補のいずれかと、該文字に対応する前記修正候補中の文字とが一致するか否かを判定する、
請求項1に記載の情報処理装置。
The similarity calculation means performs the comparison and determines whether any of the character candidates for a character in the character string to be recognized matches a character in the correction candidates corresponding to the character. do,
The information processing device according to claim 1.
前記類似度算出手段は、前記判定の結果、前記修正候補中の文字が前記文字候補のいずれかと一致する場合、該修正候補と前記文字列認識結果との前記編集距離が小さくなるよう、前記編集距離を算出する、
請求項2に記載の情報処理装置。
The similarity calculation means is configured to reduce the edit distance between the correction candidate and the character string recognition result if the character in the correction candidate matches any of the character candidates as a result of the determination. , calculating the edit distance ;
The information processing device according to claim 2.
前記類似度算出手段は、前記判定の結果、一致した文字候補の、認識対象である前記文字列中の文字に対する認識の確からしさに応じて重み付け値を決定し、該重み付け値を用いて前記編集距離を算出する、
請求項3に記載の情報処理装置。
As a result of the determination, the similarity calculation means determines a weighting value according to the certainty of recognition of the matching character candidate with respect to the character in the character string that is the recognition target, and uses the weighting value to determine the Calculate the edit distance ,
The information processing device according to claim 3.
前記文字候補の認識の確からしさは、該文字候補の優先順位であり、
前記重み付け値は、該優先順位に基づき決定される、
請求項4に記載の情報処理装置。
The certainty of recognition of the character candidate is the priority of the character candidate,
The weighting value is determined based on the priority order,
The information processing device according to claim 4.
前記文字候補の認識の確からしさは、該文字候補の信頼度であり、
前記重み付け値は、該信頼度に基づき決定される、
請求項4に記載の情報処理装置。
The certainty of recognition of the character candidate is the reliability of the character candidate,
The weighting value is determined based on the reliability,
The information processing device according to claim 4.
前記類似度算出手段は、決定された前記重み付け値を用いて、前記各編集操作のうち前記修正候補中の前記文字に係る置操作に係る前記編集コストを算出する、
請求項4から6の何れか一項に記載の情報処理装置。
The similarity calculation means calculates the editing cost related to a replacement operation related to the character in the correction candidate among the editing operations, using the determined weighting value.
The information processing device according to any one of claims 4 to 6.
前記編集距離は、前記修正候補の文字列を構成する文字数又は前記文字列認識結果の文字列を構成する文字数により正規化される、
請求項7に記載の情報処理装置。
The edit distance is normalized by the number of characters constituting the character string of the correction candidate or the number of characters constituting the character string of the character string recognition result,
The information processing device according to claim 7.
前記表示制御手段は、算出された前記編集距離が小さい順に前記修正候補が表示されるよう、前記表示順を決定する、
請求項1から8の何れか一項に記載の情報処理装置。
The display control means determines the display order so that the correction candidates are displayed in descending order of the calculated edit distance .
The information processing device according to any one of claims 1 to 8.
前記修正候補は、ユーザの入力履歴および/または予め設定された辞書に含まれる文字列である、
請求項1から9の何れか一項に記載の情報処理装置。
The correction candidate is a character string included in the user's input history and/or a preset dictionary;
The information processing device according to any one of claims 1 to 9.
ユーザによる入力を受け付ける入力受付手段を更に備え、
該入力受付手段が、前記文字列認識結果の選択に係る入力を受け付けると、前記表示手段は、前記修正候補を前記表示順に従い表示する、
請求項1から10の何れか一項に記載の情報処理装置。
further comprising an input receiving means for receiving input from a user;
When the input receiving means receives an input related to selection of the character string recognition result, the displaying means displays the correction candidates according to the display order.
The information processing device according to any one of claims 1 to 10.
前記認識結果取得手段は、
前記文書を読み取ることで得られた文書画像を文字認識した結果である文書データを取得する文書データ取得手段と、
該文書データ内の入力領域を指定することで、該入力領域に含まれる、認識対象である前記文字列についての前記認識結果である前記文字列認識結果を取得する認識結果抽出手段と、
を備える、
請求項1から11の何れか一項に記載の情報処理装置。
The recognition result acquisition means includes:
document data acquisition means for acquiring document data that is a result of character recognition of a document image obtained by reading the document;
Recognition result extraction means for specifying an input area in the document data to obtain the character string recognition result that is the recognition result for the character string included in the input area and that is the recognition target;
Equipped with
The information processing device according to any one of claims 1 to 11.
前記認識結果抽出手段は、前記文字列認識結果に係る認識対象が属する項目に基づき、前記入力領域を指定することで、該項目に該当する前記文字列認識結果を取得する、
請求項12に記載の情報処理装置。
The recognition result extraction means acquires the character string recognition result corresponding to the item by specifying the input area based on the item to which the recognition target related to the character string recognition result belongs.
The information processing device according to claim 12.
前記文字列認識結果に係る認識対象が属する項目に基づき、前記修正候補記憶手段から、該文字列認識結果に対する修正候補を抽出する修正候補抽出手段を更に備える、
請求項1から13の何れか一項に記載の情報処理装置。
Further comprising a modification candidate extracting means for extracting a modification candidate for the character string recognition result from the modification candidate storage means based on an item to which a recognition target related to the character string recognition result belongs;
The information processing device according to any one of claims 1 to 13.
コンピューターが、
文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得ステップと、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶ステップと、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出ステップと、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御ステップと、
前記修正候補を前記表示順に従い表示する表示ステップと、を実行し、
前記認識結果取得ステップは、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出ステップは、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出ステップは、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
修正候補表示方法。
The computer is
a recognition result acquisition step of acquiring a character string recognition result that is a recognition result of a character string composed of one or more characters written in the document;
a correction candidate storage step of storing one or more character strings that can be correction candidates for the character string recognition result;
For each modification candidate for the character string recognition result, the modification candidate and the character string recognition result obtained by adding the editing cost related to each editing operation for matching the modification candidate and the character string recognition result. a similarity calculation step of calculating an edit distance of as a similarity between the correction candidate and the character string recognition result;
a display control step of determining a display order of the correction candidates based on the edit distance ;
displaying the correction candidates according to the display order;
The recognition result acquisition step further acquires character candidates that are recognition candidates during character recognition for each character of the character string that is a recognition target;
The similarity calculation step calculates the edit distance by comparing a character candidate and the correction candidate for each character in the character string to be recognized,
In the similarity calculation step, if the added editing cost exceeds a predetermined threshold while adding up the editing costs related to each editing operation, the processing of adding the editing cost no longer is performed. canceling the calculation of the edit distance;
How to display correction suggestions.
コンピューターを、
文書に記載された1以上の文字から構成される文字列についての認識結果である文字列認識結果を取得する認識結果取得手段と、
前記文字列認識結果の修正候補となり得る文字列を1以上記憶する修正候補記憶手段と、
前記文字列認識結果に対する各修正候補について、該修正候補と該文字列認識結果とを一致させるための各編集操作に係る編集コストを加算することで得られる該修正候補と該文字列認識結果との編集距離を、該修正候補と該文字列認識結果との類似度として算出する類似度算出手段と、
前記編集距離に基づき前記修正候補の表示順を決定する表示制御手段と、
前記修正候補を前記表示順に従い表示する表示手段と、として機能させるためのプログラムであって、
前記認識結果取得手段は、認識対象である前記文字列の各文字について、文字認識時の認識候補である文字候補を更に取得し、
前記類似度算出手段は、認識対象である前記文字列中の各文字についての文字候補と前記修正候補とを比較することで、前記編集距離を出し、
前記類似度算出手段は、前記各編集操作に係る編集コストを加算していく中で加算された編集コストが所定の閾値を超えた場合、それ以上前記編集コストを加算する処理を行わないよう、前記編集距離の算出を中止する、
プログラム。
computer,
recognition result acquisition means for acquiring a character string recognition result that is a recognition result of a character string composed of one or more characters written in a document;
correction candidate storage means for storing one or more character strings that can be correction candidates for the character string recognition result;
For each modification candidate for the character string recognition result, the modification candidate and the character string recognition result obtained by adding the editing cost related to each editing operation for matching the modification candidate and the character string recognition result. similarity calculation means for calculating the edit distance of as the similarity between the correction candidate and the character string recognition result;
display control means for determining a display order of the correction candidates based on the edit distance ;
A program for functioning as a display means for displaying the correction candidates according to the display order,
The recognition result acquisition means further acquires character candidates that are recognition candidates during character recognition for each character of the character string that is a recognition target,
The similarity calculation means calculates the edit distance by comparing a character candidate and the correction candidate for each character in the character string to be recognized,
The similarity calculation means is arranged so that, when the added editing cost exceeds a predetermined threshold while adding up the editing costs related to each of the editing operations, the processing of adding the editing cost no longer is performed. canceling the calculation of the edit distance;
program.
JP2020048975A 2020-03-19 2020-03-19 Information processing device, correction candidate display method, and program Active JP7421384B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020048975A JP7421384B2 (en) 2020-03-19 2020-03-19 Information processing device, correction candidate display method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020048975A JP7421384B2 (en) 2020-03-19 2020-03-19 Information processing device, correction candidate display method, and program

Publications (2)

Publication Number Publication Date
JP2021149531A JP2021149531A (en) 2021-09-27
JP7421384B2 true JP7421384B2 (en) 2024-01-24

Family

ID=77848999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020048975A Active JP7421384B2 (en) 2020-03-19 2020-03-19 Information processing device, correction candidate display method, and program

Country Status (1)

Country Link
JP (1) JP7421384B2 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042097A (en) 2005-07-29 2007-02-15 Fujitsu Ltd Key character extraction program, key character extraction device, key character extraction method, collective place name recognition program, collective place name recognition device and collective place name recognition method
JP2015090625A (en) 2013-11-06 2015-05-11 株式会社東芝 Document reading device, program and document reading system
JP2017033434A (en) 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58163072A (en) * 1982-03-20 1983-09-27 Comput Basic Mach Technol Res Assoc Character correcting system
JPH04138583A (en) * 1990-09-28 1992-05-13 Sanyo Electric Co Ltd Character recognizing device
JP3221968B2 (en) * 1993-04-02 2001-10-22 沖電気工業株式会社 Character recognition device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042097A (en) 2005-07-29 2007-02-15 Fujitsu Ltd Key character extraction program, key character extraction device, key character extraction method, collective place name recognition program, collective place name recognition device and collective place name recognition method
JP2015090625A (en) 2013-11-06 2015-05-11 株式会社東芝 Document reading device, program and document reading system
JP2017033434A (en) 2015-08-05 2017-02-09 大日本印刷株式会社 Candidate word evaluation device, candidate word evaluation system, program, and candidate word evaluation method

Also Published As

Publication number Publication date
JP2021149531A (en) 2021-09-27

Similar Documents

Publication Publication Date Title
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
US10963717B1 (en) Auto-correction of pattern defined strings
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP2014182477A (en) Program and document processing device
JP4991407B2 (en) Information processing apparatus, control program thereof, computer-readable recording medium storing the control program, and control method
JP2003524258A (en) Method and apparatus for processing electronic documents
US20220101643A1 (en) Information processing device, discerning method, and discerning program
JP6146209B2 (en) Information processing apparatus, character recognition method, and program
JP6884930B2 (en) Document search device, document search program, document search method
JP7421384B2 (en) Information processing device, correction candidate display method, and program
WO2014068770A1 (en) Data extraction method, data extraction device, and program thereof
JP2020095374A (en) Character recognition system, character recognition device, program and character recognition method
US11335108B2 (en) System and method to recognise characters from an image
WO2014170965A1 (en) Document processing method, document processing device, and document processing program
JP4518212B2 (en) Image processing apparatus and program
US20210019554A1 (en) Information processing device and information processing method
JP3467437B2 (en) Character recognition apparatus and method and program recording medium
JP3979288B2 (en) Document search apparatus and document search program
JP7110723B2 (en) Data conversion device, image processing device and program
JP4517822B2 (en) Image processing apparatus and program
JP4677750B2 (en) Document attribute acquisition method and apparatus, and recording medium recording program
JPH10187751A (en) Recognition data processor and its program recording medium
JP7268316B2 (en) Information processing device and program
US11574490B2 (en) Information processing apparatus and non-transitory computer readable medium storing information processing program
JP7463675B2 (en) Information processing device and information processing program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240112

R150 Certificate of patent or registration of utility model

Ref document number: 7421384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150