JP2023002091A - Information processing system, method and program - Google Patents
Information processing system, method and program Download PDFInfo
- Publication number
- JP2023002091A JP2023002091A JP2021103109A JP2021103109A JP2023002091A JP 2023002091 A JP2023002091 A JP 2023002091A JP 2021103109 A JP2021103109 A JP 2021103109A JP 2021103109 A JP2021103109 A JP 2021103109A JP 2023002091 A JP2023002091 A JP 2023002091A
- Authority
- JP
- Japan
- Prior art keywords
- character
- character string
- replacement candidate
- guessing
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本開示は、文字認識技術に関する。 The present disclosure relates to character recognition technology.
従来、文字認識の結果を修正する際のユーザの作業負担を軽減させるための技術が種々提案されている(特許文献1から4を参照)。
Conventionally, various techniques have been proposed for reducing the work load on the user when correcting the result of character recognition (see
従来、文字認識によって得られた文字列の修正は文字単位で行われており、また、修正の候補文字が提示される場合にも、文字認識における誤認識を修正するためのものであるから、提示される候補文字の字形は互いに類似している。このため、提示された候補文字から正解文字を見分けさせることは、ユーザに与える認知的な負担が大きい。 Conventionally, character strings obtained by character recognition are corrected on a character-by-character basis. The glyphs of the presented candidate characters are similar to each other. Therefore, distinguishing the correct character from the presented candidate characters imposes a heavy cognitive burden on the user.
本開示は、上記した問題に鑑み、文字認識によって得られた文字列の修正に係るユーザの負担を軽減することを課題とする。 In view of the above problems, the present disclosure aims to reduce the user's burden in correcting character strings obtained by character recognition.
本開示の一例は、文字列画像を文字認識することによって得られた認識文字列を取得する文字認識結果取得手段と、前記認識文字列のうち所定の箇所を推測対象箇所として指定する推測対象指定手段と、推測対象指定手段によって指定された前記推測対象箇所に入るべき正解文字を推測する推測手段と、前記認識文字列の少なくとも一部と置換するための文字列として、前記正解文字を含む置換候補文字列を生成する置換候補生成手段と、を備える情報処理システムである。 An example of the present disclosure includes character recognition result acquisition means for acquiring a recognized character string obtained by character recognition of a character string image; guessing means for guessing a correct character to be included in the guess target location designated by the guess target designating means; and replacement including the correct character as a character string for replacing at least part of the recognized character string. and replacement candidate generating means for generating candidate character strings.
本開示は、情報処理装置、システム、コンピューターによって実行される方法又はコンピューターに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピューターその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的又は化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。 The present disclosure can be understood as an information processing device, a system, a method executed by a computer, or a program to be executed by a computer. The present disclosure can also be understood as recording such a program in a recording medium readable by a computer, other device, machine, or the like. Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical or chemical action and can be read by a computer. say.
本開示によれば、文字認識によって得られた文字列の修正に係るユーザの負担を軽減することが可能となる。 Advantageous Effects of Invention According to the present disclosure, it is possible to reduce the user's burden of correcting a character string obtained by character recognition.
以下、本開示に係る情報処理装置、システム、方法及びプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る情報処理装置、システム、方法及びプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。 Hereinafter, embodiments of an information processing device, system, method, and program according to the present disclosure will be described based on the drawings. However, the embodiments described below are examples of embodiments, and do not limit the information processing apparatus, system, method, and program according to the present disclosure to the specific configurations described below. For implementation, a specific configuration may be appropriately adopted according to the mode of implementation, and various improvements and modifications may be made.
本実施形態では、本開示に係る情報処理装置、システム、方法及びプログラムを、電子化帳票の品質確認作業補助システムにおいて実施した場合の実施の形態について説明する。但し、本開示に係る情報処理装置、システム、方法及びプログラムは、文字認識技術について広く用いることが可能であり、本開示の適用対象は、実施形態において示した例に限定されない。 In this embodiment, an embodiment in which an information processing apparatus, system, method, and program according to the present disclosure are implemented in a quality confirmation work assistance system for electronic forms will be described. However, the information processing device, system, method, and program according to the present disclosure can be widely used for character recognition technology, and the application target of the present disclosure is not limited to the examples shown in the embodiments.
従来、文字認識(OCR)結果の確認及び修正は、文字認識の対象となった文字列画像とOCRによる認識文字列とをユーザが目視で比較し、認識文字列中に誤認識文字が発見された場合に、カーソルを誤認識文字の位置まで移動させ、誤認識文字を削除し、正解文字を入力する、というユーザ操作を誤認識文字毎に行うことでなされている。更に、誤認識文字がシングルバイト文字である場合には正解文字の入力は単純に正解文字のキーを押下する等の操作で行うことが出来るが、漢字や仮名等のマルチバイト文字を入力する場合には変換処理(日本語であれば、日本語変換処理)を行う必要がある。変換処理は、変換要素を入力し、変換要素に基づいてシステムから提示された変換候補から正解文字を探し出して選択し、確定する、といった操作を含み、マルチバイト文字を含む認識文字列を確認及び修正する際のユーザの作業はシングルバイト文字のみを含む認識文字列の確認及び修正に比べてより煩雑なものとなっている。 Conventionally, confirmation and correction of character recognition (OCR) results are performed by a user visually comparing a character string image to be character-recognized and a character string recognized by OCR, and if an erroneously recognized character is found in the recognized character string. In this case, the user moves the cursor to the position of the erroneously recognized character, deletes the erroneously recognized character, and inputs the correct character for each erroneously recognized character. Furthermore, when the misrecognized character is a single-byte character, the correct character can be input simply by pressing the key of the correct character, but when inputting multi-byte characters such as kanji and kana, , it is necessary to perform conversion processing (if it is Japanese, conversion processing to Japanese). The conversion process includes operations such as inputting conversion elements, searching for and selecting correct characters from conversion candidates presented by the system based on the conversion elements, and confirming them. The user's work when correcting is more complicated than checking and correcting a recognition string containing only single-byte characters.
また、上記のような課題に対して、従来、ユーザによって誤認識文字が選択された際に、文字認識の際に採用されなかった候補文字のリストを表示し、当該リストからユーザに正解文字を選択させるという手法が提案されている。しかし、このような手法が採用された場合にも、誤認識文字の修正が文字単位であるために誤認識文字が複数ある場合にその都度リストを表示させてユーザが選択する必要がある。更に、候補文字は文字認識における誤認識を修正するためのものであるから、候補文字のリストには類似する字形の文字が並び、正解文字を見分けるためにユーザに与える認知的な負担が大きい。加えて、候補文字リストの内容は採用されるOCRシステムの認識精度に依存するため、候補文字リスト中にそもそも正解文字が無いケースも発生し得る。 In order to solve the above problems, conventionally, when a user selects an erroneously recognized character, a list of candidate characters that were not adopted in character recognition is displayed, and the correct character is given to the user from the list. A selection method has been proposed. However, even when such a technique is adopted, since correction of misrecognized characters is performed on a character-by-character basis, it is necessary for the user to display a list and select each time there are a plurality of misrecognized characters. Furthermore, since the candidate characters are for correcting misrecognition in character recognition, characters with similar character shapes line up in the candidate character list, and the cognitive burden placed on the user to distinguish the correct character is heavy. In addition, since the content of the candidate character list depends on the recognition accuracy of the OCR system employed, there may be cases where there is no correct character in the candidate character list.
このため、本実施形態において説明するシステムでは、文字認識における候補文字の外からも正解文字を取得可能とし、1又は複数の誤認識文字に対する正解文字を含み且つ自然な語句である置換候補文字列を提示してユーザに選択させることで、文字認識によって得られた文字列の修正に係るユーザの負担を軽減することとした。但し、本開示に係る技術を実施する場合には、以下に説明する全ての構成を採用することで上記説明した全ての課題を解決しなくてもよい。本開示に係る技術を実施する場合には、以下に説明する構成の一部を採用することで、上記説明した課題の一部を解決することとしてもよい。 For this reason, in the system described in this embodiment, it is possible to obtain correct characters from outside the candidate characters in character recognition. is presented to allow the user to select it, thereby reducing the burden on the user in correcting the character string obtained by character recognition. However, when implementing the technology according to the present disclosure, it is not necessary to solve all the problems described above by adopting all the configurations described below. When implementing the technology according to the present disclosure, part of the above-described problems may be solved by adopting part of the configuration described below.
<システムの構成>
図1は、本実施形態に係るシステムの構成を示す概略図である。本実施形態に係るシステムは、ネットワーク又はその他の通信手段を介して互いに通信可能に接続されたスキャナ3及び情報処理装置1を備える。
<System configuration>
FIG. 1 is a schematic diagram showing the configuration of a system according to this embodiment. The system according to this embodiment includes a
情報処理装置1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、キーボードやマウス、タッチパネル等の入力デバイス15、ディスプレイ等の出力デバイス16、及び通信ユニット17、等を備えるコンピューターである。但し、情報処理装置1の具体的なハードウェア構成に関しては、実施の態様に応じて適宜省略や置換、追加が可能である。また、情報処理装置1は、単一の筐体からなる装置に限定されない。情報処理装置1は、所謂クラウドや分散コンピューティングの技術等を用いた、複数の装置によって実現されてよい。
The
スキャナ3は、ユーザがセットした、文書、名刺、レシート又は写真/イラスト等の原稿を撮像することで、画像データを取得する装置である。なお、本実施形態では、対象の画像を取得するための装置としてスキャナ3を例示したが、画像を取得するために用いられる装置は所謂スキャナに限定されない。例えば、デジタルカメラや、スマートフォン/タブレットに内蔵されているカメラセンサを用いて対象を撮像し、画像を得ることとしてもよい。
The
本実施形態に係るスキャナ3は、撮像によって得られた画像データを、ネットワークを介して情報処理装置1に送信する機能を有する。また、スキャナ3は、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザインターフェース、及びWebブラウズ機能やサーバー機能を更に有していてもよい。本実施形態に係る方法を採用可能なスキャナの通信手段及びハードウェア構成等は、本実施形態における例示に限定されない。
The
図2は、本実施形態に係る情報処理装置1の機能構成の概略を示す図である。情報処理装置1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、情報処理装置1に備えられた各ハードウェアが制御されることで、文字認識部21、文字認識結果取得部22、出力部23、選択受付部24、推測対象指定部25、推測部26、置換候補生成部27、自然語句判定部28、補正部29及び置換部30を備える情報処理装置として機能する。なお、本実施形態及び後述する他の実施形態では、情報処理装置1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部又は全部は、1又は複数の専用プロセッサによって実行されてもよい。
FIG. 2 is a diagram showing an outline of the functional configuration of the
文字認識部21は、入力された画像データに含まれる文字列画像に対する文字認識(OCR)処理を実行し、認識文字列を出力する。ここで、画像データは、スキャナ3等による撮像によって得られた画像データであってもよいし、はじめから画像データとして生成された画像であってもよい。本実施形態において、文字認識部21は、文字列画像に含まれる各文字について1又は複数の候補文字を得て、最も確度が高い文字を採用して認識文字列を作成し出力するが、文字認識部21は、確度が2番目以降であるために認識文字列には採用さなかった候補文字についても、参考データとして出力することが出来る。なお、本実施形態では、情報処理装置1が文字認識部21を備える例について説明するが、情報処理装置1は文字認識の結果である認識文字列を取得可能であればよく、文字認識部21を備えなくてもよい。文字認識部21は、スキャナ3や外部の装置、サーバ等、情報処理装置1以外の装置が備えていてもよい。
The
文字認識結果取得部22は、文字列画像を文字認識することによって得られた認識文字列(文字認識で得られた文字列)を取得する。また、本実施形態において、文字認識結果取得部22は、認識文字列に加えて、文字認識の際に認識文字列に採用されなかった候補文字を更に取得する。
The character recognition
出力部23は、文字列画像の認識文字列と並べて、当該文字列画像を表示させる。
The
図3は、本実施形態において情報処理装置1のディスプレイに表示される確認・修正画面5の例を示す図である。確認・修正画面5には、読み取り対象となった文字列画像51と、当該文字列画像51から認識された認識文字列52とが、並べて(横書きである場合、上下に並べて)表示される。この際、認識文字列52は、任意のフォントで表示されてよい。
FIG. 3 is a diagram showing an example of the confirmation/
選択受付部24は、ユーザからの修正対象文字の選択を受け付ける。確認・修正画面5を視認したユーザは、並べて表示された文字列画像51と認識文字列52とを見比べることで、文字認識部21による文字認識の結果が正しいか否かを確認する。文字認識の結果に誤認識された文字がある場合、ユーザは、当該文字を修正対象として指定するために、当該文字(以下、「修正対象文字」と称する。)にカーソル53を合わせることで、当該修正対象文字を選択状態とする。この際、カーソル53の操作は、方向キー等を用いた入力操作によって行われてもよいし、ポインティングデバイスを用いた入力操作によって行われてもよい。
The selection reception unit 24 receives selection of a correction target character from the user. A user who visually recognizes the confirmation/
推測対象指定部25は、認識文字列52のうち所定の箇所(以下、「推測対象箇所」と称する。)の文字を所定のマスク文字と置換したクエリ文字列を生成することで、推測対象箇所を指定する。ここで、推測対象指定部25は、少なくともユーザによって指定された修正対象文字を推測対象箇所としてマスク文字と置換したクエリ文字列を生成する。
The speculation target specifying unit 25 generates a query string by replacing characters in a predetermined portion (hereinafter referred to as a “guessment target portion”) of the
本実施形態では、ユーザによる操作負担をより軽減し、また全体としてより自然な修正候補が得られるように、推測対象指定部25は、修正対象文字及び当該修正対象文字以降の任意の文字をマスク文字と置換したクエリ文字列を生成する。このようにすることで、ユーザによって明示的に指定された修正対象文字以外にも誤認識された文字があるような場合にも、ユーザによる誤認識文字の選択を待つことなく、複数文字についての正解文字を含む自然な置換候補文字列を提案し、複数の文字をまとめて修正することが出来る。推測対象指定部25は、マスク文字によって置換される修正対象文字及びマスク文字によって置換される当該修正対象文字以降の任意の文字の組み合わせによって得られる複数のクエリ文字列を生成する。 In this embodiment, the guess target specifying unit 25 masks the correction target character and any characters after the correction target character in order to reduce the operation burden on the user and to obtain a more natural correction candidate as a whole. Generates a query string with character substitutions. By doing so, even if there are misrecognized characters other than the characters to be corrected explicitly specified by the user, multiple characters can be corrected without waiting for the selection of the misrecognized character by the user. It can propose natural replacement candidate character strings including correct characters and correct multiple characters at once. The speculation target specifying unit 25 generates a plurality of query character strings obtained by combining the correction target character to be replaced with the mask character and arbitrary characters after the correction target character to be replaced by the mask character.
更に、推測対象指定部25は、マスク文字による置換に加えて、認識文字列52中の候補文字に対応する文字を当該候補文字に置換することで、クエリ文字列を生成してもよい。この場合、推測対象指定部25は、マスク文字による置換及び候補文字による置換の組み合わせによって得られる複数のクエリ文字列を生成する。上述の通り、候補文字とは、文字認識結果取得部22による文字認識の際に認識文字列52に採用されなかった文字である。このようにすることで、文字認識部21による処理において候補に挙がったが採用されなかった文字も考慮した、正解文字の推測が可能となる。
Furthermore, the guess target designating unit 25 may generate a query string by replacing characters corresponding to candidate characters in the
推測部26は、推測対象指定部25によって指定された推測対象箇所に入るべき正解文字を推測する。本実施形態では、推測部26は、生成されたクエリ文字列中のマスク文字によって指定された推測対象箇所に入るべき文字を推測することで、正解文字を推測する。
The guessing
置換候補生成部27は、認識文字列52の少なくとも一部と置換するための文字列として、クエリ文字列中のマスク文字が推測部26による推測結果(正解文字)で置換された、置換候補文字列を生成する。ここで、複数のクエリ文字列が生成されている場合、置換候補生成部27は、複数のクエリ文字列の夫々に応じた複数の置換候補文字列を生成する。
The replacement
自然語句判定部28は、置換候補文字列が自然な語句であるか否かを判定する。また、自然語句判定部28は、置換候補文字列が自然な語句である程度を示す指標を、複数の置換候補文字列を表示させる際に用いられる優先度として更に算出する。
The natural
補正部29は、置換候補文字列が自然な語句でないと判定された場合に、当該置換候補文字列に対して、最後尾の文字を削除する補正を行う。そして、自然語句判定部28は、補正部29によって置換候補文字列が補正された場合、補正後の当該置換候補文字列が自然な語句であるか否かを更に判定する。
When the replacement candidate character string is determined not to be a natural phrase, the
置換部30は、ユーザによって選択された置換候補文字列で、認識文字列52のうち対応する文字列を置換する。
The replacing
<処理の流れ>
次に、本実施形態に係る情報処理装置1によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容及び処理順序は、本開示を実施するための一例である。具体的な処理内容及び処理順序は、本開示の実施の形態に応じて適宜選択されてよい。
<Process flow>
Next, the flow of processing executed by the
本実施形態では、はじめに文字認識部21による文字認識が実行される。そして、文字認識結果取得部22は、文字認識部21によって出力された認識文字列52及び候補文字(確度が2番目以降であるために認識文字列52には採用さなかった文字)を取得し、出力部23は、ユーザによる確認及び修正作業のために、文字認識の対象となった文字列画像51と、文字認識部21から取得した認識文字列52とを並べて出力する(図3を参照。)。ユーザは、文字列画像51と認識文字列52とを目視で比較し、認識文字列52中に誤認識文字を発見した場合、カーソル53を誤認識文字の位置まで移動させる。選択受付部24は、ユーザによるカーソル53の移動操作を、修正対象文字の選択として受け付け、誤認識文字を選択状態とする。
In this embodiment, character recognition is first performed by the
図4は、本実施形態に係る候補提示処理の流れの概要を示すフローチャートである。本フローチャートに示された処理は、ユーザ操作によって、認識文字列52中の任意の文字(誤認識文字)が選択状態となったことを契機として実行される。
FIG. 4 is a flowchart showing an overview of the flow of candidate presentation processing according to this embodiment. The process shown in this flowchart is executed when an arbitrary character (erroneously recognized character) in the recognized
ステップS101では、推測処理のためのクエリ文字列が生成される。推測対象指定部25は、後述する推測部26による文字推測用学習モデルを用いた正解文字の推測処理において、文字推測用学習モデルに入力するための1又は複数のクエリ文字列を生成する。本実施形態において、推測対象指定部25は、ユーザによって選択された修正対象文字以降の1又は複数の文字を、マスク文字と候補文字との組み合わせで置き換えることで、クエリ文字列を生成する。ここで、マスク文字は、文字推測用学習モデルに対して推測対象箇所を示すための特殊文字であり、本実施形態では、「@」が用いられる。但し、マスク文字にはその他の記号が用いられてよいし、推測対象を特定するための方法には、マスク文字以外の方法が採用されてもよい。また、候補文字は、上述の通り、文字認識結果取得部22によって取得された、文字認識処理において確度が2番目以降であると判定されたために認識文字列52に採用されなかった文字である。
In step S101, a query string is generated for the inference process. The guessing target designating unit 25 generates one or more query strings to be input to the character guessing learning model in the correct character guessing process using the character guessing learning model by the guessing
本実施形態において、推測対象指定部25は、修正対象文字以降の1又は複数の文字を、マスク文字と候補文字との全通りの組み合わせで置き換えることで、1又は複数のクエリ文字列を生成する。但し、生成されるクエリ文字列の数には、上限が設定されてもよい。このようにすることで、本フローチャートに示した候補提示処理の負荷を、情報処理装置1の処理能力に応じた負荷とすることが出来る。また、修正対象文字以降のクエリ文字列に含める文字数の上限、クエリ文字列の生成に用いる候補文字の範囲(確度が何位の候補文字まで使用するか)、及びクエリ文字列に含めるマスク文字の数の上限、等についても、任意に設定可能であってよい。
In this embodiment, the speculation target designation unit 25 generates one or more query strings by replacing one or more characters after the correction target character with all possible combinations of mask characters and candidate characters. . However, an upper limit may be set for the number of generated query strings. By doing so, the load of the candidate presentation process shown in this flow chart can be set according to the processing capability of the
図5は、本実施形態において情報処理装置1によって生成されるクエリ文字列の例を示す図である。図5に示された例によれば、修正対象文字以降の1又は複数の文字が、マスク文字(図中の特殊文字「@」)と候補文字(図中の太字文字「云」や「雲」、「パ」)との複数通りの組み合わせで置き換えられて、複数のクエリ文字列(図中の1から625)が生成されていることが分かる。推測処理のためのクエリ文字列の生成が完了すると、処理はステップS102へ進む。
FIG. 5 is a diagram showing an example of a query string generated by the
ステップS102では、クエリ文字列中のマスク文字が示す箇所に入る正解文字が推測され、正解文字を含む置換候補文字列が生成される。推測部26は、事前に学習を行うことで作成された文字推測用学習モデルに、ステップS101で生成された1又は複数のクエリ文字列を入力として与えることで、文字推測用学習モデルからの出力として、クエリ文字列中のマスク文字が示す箇所に入る正解文字の推測結果を得る。
In step S102, a correct character that is included in the portion indicated by the mask character in the query string is guessed, and a replacement candidate character string including the correct character is generated. The estimating
推測結果は、正解文字として出力されてもよいし、正解文字を含むクエリ文字列に対応する文字列(置換候補文字列)として出力されてもよい。推測結果として正解文字が得られた場合、置換候補生成部27は、クエリ文字列中のマスク文字が正解文字で置換された、置換候補文字列を生成する。ここで、ステップS101において複数のクエリ文字列が生成されている場合、複数のクエリ文字列の夫々に対応する複数の置換候補文字列が得られる。その後、処理はステップS103へ進む。但し、得られた置換候補文字列が1つである場合、ステップS103からステップS108の処理はスキップされてよい。
A guess result may be output as a correct character, or may be output as a character string (replacement candidate character string) corresponding to a query character string including the correct character. When a correct character is obtained as a result of guessing, the replacement
ステップS103からステップS107では、置換候補文字列が自然な語句であるか否かが判定される。自然語句判定部28は、事前に学習を行うことで作成された自然語句判定用学習モデルに、ステップS102で得られた複数の置換候補文字列の夫々を入力として与えることで、自然語句判定用学習モデルからの出力として、複数の置換候補文字列の夫々について、当該置換候補文字列が自然な語句であるか否かの判定結果、及び当該置換候補文字列が自然な語句である程度を示す指標を得る(ステップS103)。本実施形態では、当該置換候補文字列が自然な語句である程度を示す指標として、当該置換候補文字列が自然な語句である確率(例えば、0.0から1.0の間の値)を得る。但し、指標には、点数やランク等、その他の態様が採用されてよい。また、当該置換候補文字列が自然な語句であるか否かの判定結果は、当該置換候補文字列が自然な語句である程度を示す指標が予め設定された所定の閾値(例えば、0.6)以上である場合に、当該置換候補文字列が自然な語句であるとの判定結果が得られることとしてよい。但し、自然な語句であるか否かを判定するための閾値は任意に設定可能であってよい。
In steps S103 to S107, it is determined whether or not the replacement candidate character string is a natural phrase. The natural
置換候補文字列が自然な語句でないとの判定結果が得られた場合(ステップS104のNO)、補正部29は、当該置換候補文字列に対して、最後尾の1文字を削除する補正を行う(ステップS105)。ここで、最後尾の1文字を削除する補正が行われた結果、補正後の置換候補文字列がいずれかの判定スキップ条件を満たすこととなった場合、(ステップS106のYES)、処理はステップS107へ進む。ここで、判定スキップ条件とは、補正後の置換候補文字列の末尾の文字がユーザによって誤認識文字として選択された修正対象文字に対応する文字であること(換言すれば、補正後の置換候補文字列の末尾の文字がクエリ文字列中の最初に出現するマスク文字に対応する文字であること)、又は、補正後の置換候補文字列が既に自然語句判定済みの置換候補文字列と一致すること、の何れか一の条件である。一方、補正後の置換候補文字列がいずれの判定スキップ条件も満たさない場合(ステップS106のNO)、処理はステップS103へ戻り、自然語句判定部28は、補正後の当該置換候補文字列が自然な語句であるか否かを更に判定する(ステップS103)。即ち、ステップS103からステップS106の処理は、対象となっている置換候補文字列が自然な語句であると判定されるか、又はいずれかの判定スキップ条件が満たされるまで、最後尾の1文字を削除しながら繰り返し実行される。
When it is determined that the replacement candidate character string is not a natural phrase (NO in step S104), the
対象となっている置換候補文字列が自然な語句であると判定されるか、いずれかの判定スキップ条件が満たされた場合、ステップS102で生成された全ての置換候補文字列についての自然語句判定が終了したか否かが判定される(ステップS107)。未判定の置換候補文字列がある場合(ステップS107のNO)、自然語句判定部28は、未判定の次の置換候補文字列を対象として、ステップS103からステップS106の処理を実行する。即ち、ステップS103からステップS106の処理は、ステップS102で生成された全ての置換候補文字列についての自然語句判定が終了するまで、対象とする置換候補文字列を変更しながら、繰り返し実行される。生成された全ての置換候補文字列についての自然語句判定が終了すると(ステップS107のYES)、処理はステップS108へ進む。
If it is determined that the target replacement candidate character string is a natural phrase, or if any of the determination skip conditions are satisfied, natural phrase determination is made for all the replacement candidate character strings generated in step S102. is completed (step S107). If there is an undetermined replacement candidate character string (NO in step S107), the natural
ステップS108及びステップS109では、所定の優先順に従って置換候補文字列が出力される。出力部23は、ステップS107までの処理で得られた複数の置換候補文字列を、自然語句判定用学習モデルから得られた自然な語句である程度/確率の降順にソートし、更に文字列長の降順にソートする(ステップS108)。このようにすることで、複数の置換候補文字列は、文字列長の降順に並び、且つ文字列長が同じ候補については、自然な語句である程度/確率の降順に並ぶ。
In steps S108 and S109, replacement candidate character strings are output according to a predetermined priority order. The
そして、出力部23は、文字認識の対象となった文字列画像51、及び文字認識部21から取得した認識文字列52に並べて、生成された1又は複数の置換候補文字列を含む置換候補文字列リストを表示装置に表示させる(ステップS109)。この際、置換候補文字列は、ステップS108において上記説明した通りソートされているため、出力部23は、複数の置換候補文字列をソートされた順に表示させることで、より長い置換候補文字列を優先的に表示させ、且つ、自然語句判定部28によって算出された指標に基づいて、自然な語句である程度が高い置換候補文字列を優先的に表示させることが出来る。このため、ユーザは、少ない操作で、より長く且つより自然な語句を選択して、より多くの誤認識文字をまとめて修正することが出来る。その後、本フローチャートに示された処理は終了する。
Then, the
図6は、本実施形態において確認・修正画面5に表示される置換候補文字列リスト54の例を示す図である。図3を参照して説明した通り、確認・修正画面5には、読み取り対象となった文字列画像51と、当該文字列画像51から認識された認識文字列52とが並べて表示されている。置換候補文字列リスト54は、ユーザがカーソル53を合わせて選択状態とした誤認識文字を含む認識文字列52の下に、ステップS108でソートされた順に表示される。本実施形態では、カーソル53の移動により認識文字列52内の文字が選択状態となったことを契機として候補提示処理が実行され、自動的に置換候補文字列リスト54が表示される。なお、選択状態となってから置換候補文字列リスト54が表示されるまでの待機時間の長さは、設定により変更可能である。ここで、出力部23は、リスト54中の置換候補文字列のうち、認識文字列52との差分となる文字(修正される文字)を強調表示(図6では太字表示)させる。
FIG. 6 is a diagram showing an example of the replacement candidate
図7は、本実施形態において置換候補文字列リスト54から置換候補文字列が選択される様子の例を示す図である。出力部23は、認識文字列52のうち、選択状態にある置換候補文字列に対応する部分を強調表示させる。図7に示された例では、インデックス番号4の置換候補文字列「総合展示会」が選択状態となっている場合に、認識文字列52中の対応部分「総合展本会」が置換される範囲として強調表示されていることが分かる。
FIG. 7 is a diagram showing an example of how a replacement candidate character string is selected from the replacement candidate
本実施形態において、ユーザは、(1)マウスホイール操作によって選択状態にある置換候補文字列を変更してクリック操作によって所望の置換候補文字列の選択を確定する操作方法や、(2)キーボードの方向キー操作によって選択状態にある置換候補文字列を変更してEnterキー操作によって所望の置換候補文字列の選択を確定する操作方法、(3)置換候補文字列の近傍に表示されたインデックス番号(図6及び図7の例では、置換候補文字列の左側に示された数字1から5)に対応する数字キー操作によって置換候補文字列の選択を確定する操作方法等、様々な操作方法でユーザ所望の置換候補文字列を選択することが可能である。但し、置換候補文字列リスト54からユーザ所望の置換候補文字列を選択するための具体的な操作方法は、本実施形態における例示に限定されない。例えば、ユーザ所望の置換候補文字列は、ポインティングデバイスを用いて選択されてもよい。
In this embodiment, the user can (1) use the mouse wheel to change the selected replacement candidate character string and click to confirm the selection of the desired replacement candidate character string, and (2) use the keyboard. (3) an index number ( In the examples of FIGS. 6 and 7, the user can use various operation methods such as confirming the selection of the replacement candidate character string by operating the numeric keys corresponding to the
ユーザによる、表示された置換候補文字列リスト54から所望の置換候補文字列を選択し確定する操作が受け付けられると、置換部30は、ユーザによって選択された置換候補文字列で、認識文字列52の対応部分を置換(修正)する。図7に示された例を用いて説明すると、ユーザによってインデックス番号1の置換候補文字列が選択された場合、置換部30は、認識文字列「総合展本会ハネル」の全体を、置換候補文字列「総合展示会パネル」で置換する。即ち、本実施形態に係るシステムによれば、全体として意味のある自然な語句である「総合展示会パネル」を最も優先度が高い候補としてユーザに提示して選択させることで、認識文字列「総合展本会ハネル」に含まれる2つの誤認識文字「本」及び「ハ」を同時に修正することが出来る。一方、ユーザによってインデックス番号4の置換候補文字列が選択された場合、置換部30は、認識文字列「総合展本会ハネル」のうち、インデックス番号4の置換候補文字列に対応する部分「総合展本会」を、置換候補文字列「総合展示会」で置換する。この場合も、全体として意味のある自然な語句である「総合展示会」をユーザに提示して選択させることで、認識文字列「総合展本会」に含まれる誤認識文字「本」を修正することが出来る。
When the user's operation of selecting and confirming a desired replacement candidate character string from the displayed replacement candidate
置換候補文字列を用いた認識文字列52の対応部分の置換(修正)が完了すると、ユーザによる認識文字列52の確認作業が再開される。ユーザによって再び誤認識文字が発見され、誤認識文字が選択状態とされると、再び候補提示処理が実行される。例えば、図7に示された例において、ユーザによってインデックス番号4の置換候補文字列が選択された場合、誤認識文字「ハ」が残るが、ユーザは、カーソル53を移動して誤認識文字「ハ」を選択状態とすることで、再び候補提示処理を実行させることが出来る。ユーザは、誤認識文字を発見しなくなるまで一連の作業を繰り返すことで、認識文字列52を確認及び修正する作業を行う。
When the replacement (correction) of the corresponding portion of the recognized
<学習モデル>
本開示に係る技術において文字推測用学習モデルに採用可能な具体的な学習モデルの種類は限定されず、クエリ文字列を入力として、マスク文字が示す箇所に入る正解文字の推測結果を出力可能なモデルであればよい。例えば、正解文字は、Shift_JIS第一、第二水準の全文字を対象とした多クラス分類の結果として出力される。以下に、本実施形態において用いることが可能な文字推測用学習モデルを作成するための事前学習の流れの一例を説明する。
<Learning model>
In the technology according to the present disclosure, the type of specific learning model that can be adopted for the character guessing learning model is not limited, and the query string is input, and the result of guessing the correct character that fits in the location indicated by the mask character can be output. Any model is fine. For example, correct characters are output as a result of multi-class classification of all characters of Shift_JIS first and second levels. An example of the flow of pre-learning for creating a character guessing learning model that can be used in this embodiment will be described below.
事前学習では、大量の語句(名詞又は複合語)を収集し、これらの語句中の任意の割合の文字(少なくとも1文字)をランダムに選択してマスク文字で置換し、学習モデルを用いてマスク文字が示す箇所の文字を推測させ、マスク文字で置換する前の文字と推測された文字との誤差を計算し、誤差逆伝播法により学習モデルのパラメータを修正する、という一連の処理を任意の回数実行することで、文字推測用学習モデルを作成する。誤差の算出には、例えばone-hotベクトル等が用いられてよい。なお、マスク文字に置換される文字の割合は任意に設定可能である。例えば、実施の際に用いられるOCRシステムの誤認識率に合わせた割合の文字をマスクすることで、予測精度を高めることが出来る。また、マスクされる文字は上述の通りランダムに選択されてよいが、文字列の前方に比べて後方の文字のマスク率が高くなるように選択されてもよい。これは、文字認識結果の確認及び修正を行う際には文字列を前方から後方に向かって順に修正していくために、修正作業全体でみると文字列の後方の方がよりマスクされる頻度が高くなるという実情があり、このような実情に合わせて後方の文字列を精度良く推測可能な学習モデルを作成するためである。 In pre-learning, a large number of words (nouns or compound words) are collected, an arbitrary percentage of characters (at least one character) in these words are randomly selected and replaced with mask characters, and masked using a learning model. A series of processing is performed by making the user guess the character indicated by the character, calculating the error between the character before replacement with the mask character and the guessed character, and correcting the parameters of the learning model by error backpropagation. Create a learning model for character guessing by executing it a number of times. For example, a one-hot vector or the like may be used to calculate the error. Note that the ratio of characters to be replaced with mask characters can be set arbitrarily. For example, the accuracy of prediction can be improved by masking characters at a rate that matches the misrecognition rate of the OCR system used in implementation. Also, the characters to be masked may be randomly selected as described above, but may be selected so that the masking rate of characters at the back of the character string is higher than at the front of the character string. This is because when checking and correcting character recognition results, the character string is corrected in order from the front to the back, so the rear part of the character string is masked more frequently in the entire correction process. is high, and a learning model capable of accurately estimating the subsequent character string is created in accordance with such circumstances.
本開示に係る技術において自然語句判定用学習モデルに採用可能な具体的な学習モデルの種類は限定されず、任意の文字列を入力として、意味のある自然な語句であるか否かの判定結果、自然な語句である程度、又は自然な語句である確率等を出力可能なモデルであればよい。以下に、本実施形態において用いることが可能な自然語句判定用学習モデルを作成するための事前学習の流れの一例を説明する。 In the technology according to the present disclosure, the type of specific learning model that can be adopted as the learning model for determining natural phrases is not limited, and the result of determining whether or not an arbitrary character string is input is a meaningful and natural phrase. , the degree of natural phrases, or the probability of natural phrases, etc., may be used. An example of the flow of pre-learning for creating a learning model for determining natural phrases that can be used in this embodiment will be described below.
事前学習では、大量の語句(名詞又は複合語)を収集し、これらの語句中の複数の文字をランダムに選択してランダムな別の文字で置換することで負例を作成する。また、置換を行わない語句については、そのまま正例として用いられる。正例と負例は、収集された語句を50%の確率で正例又は負例に分けることで割り当てられてよい。そして、これらの正例及び負例として用意された語句を入力として、学習モデルを用いて入力された語句が自然な語句であるか否かを推測させ、推測結果としての自然な語句である確率(0.0から1.0の間の値)と正解(入力語句が正例であれば1.0、負例であれば0.0)との誤差を計算し、誤差逆伝播法により学習モデルのパラメータを修正する、という一連の処理を任意の回数実行することで、自然語句判定用学習モデルを作成する。 In pre-training, a large number of phrases (nouns or compound words) are collected, and multiple letters in these phrases are randomly selected and replaced with other random letters to create negative examples. Words that are not replaced are used as they are as positive examples. Positive and negative examples may be assigned by dividing the collected phrases into positive or negative examples with a 50% chance. Then, using the words prepared as positive and negative examples as input, the learning model is used to guess whether or not the input word is a natural word, and the probability that the word is a natural word as a result of guessing is calculated. Calculate the error between (a value between 0.0 and 1.0) and the correct answer (1.0 if the input word is a positive example, 0.0 if it is a negative example), and learn by error backpropagation A learning model for natural phrase determination is created by executing a series of processes of correcting model parameters an arbitrary number of times.
<バリエーション>
なお、上記説明した実施形態では、マスク文字への置換によって推測対象箇所を指定する例を説明したが、推測対象箇所の指定方法は、本実施形態における例示に限定されない。例えば、推測対象箇所は、認識文字列中の文字番号(文字列先頭からの文字数)によって指定されてもよい。
<Variation>
In addition, in the above-described embodiment, an example of designating a speculation target location by replacing with a mask character has been described, but the method of designating a speculation target location is not limited to the example in this embodiment. For example, the guess target part may be designated by a character number (the number of characters from the beginning of the character string) in the recognized character string.
1 情報処理装置 1 information processing device
Claims (18)
前記認識文字列のうち所定の箇所を推測対象箇所として指定する推測対象指定手段と、
推測対象指定手段によって指定された前記推測対象箇所に入るべき正解文字を推測する推測手段と、
前記認識文字列の少なくとも一部と置換するための文字列として、前記正解文字を含む置換候補文字列を生成する置換候補生成手段と、
を備える情報処理システム。 Character recognition result acquisition means for acquiring a recognized character string obtained by character recognition of a character string image;
Guessing target designation means for designating a predetermined portion of the recognized character string as a guessing target portion;
Guessing means for guessing a correct character to be included in the guessing target location designated by the guessing target designating means;
replacement candidate generating means for generating a replacement candidate character string including the correct character as a character string to replace at least part of the recognized character string;
An information processing system comprising
前記推測手段は、生成された前記クエリ文字列中の前記マスク文字によって指定された前記推測対象箇所に入るべき文字を推測し、
前記置換候補生成手段は、前記クエリ文字列中のマスク文字が前記推測手段による推測結果で置換された、前記置換候補文字列を生成する、
請求項1に記載の情報処理システム。 The guessing target specifying means specifies the guessing target part by generating a query string in which the character of the guessing target part in the recognition character string is replaced with a predetermined mask character,
The guessing means guesses a character to be included in the guess target location specified by the mask character in the generated query string;
The replacement candidate generating means generates the replacement candidate character string in which masked characters in the query string are replaced with a result of guessing by the guessing means.
The information processing system according to claim 1.
前記推測対象指定手段は、少なくとも前記修正対象文字を前記マスク文字と置換したクエリ文字列を生成する、
請求項2に記載の情報処理システム。 further comprising selection acceptance means for accepting selection of correction target characters from the user,
The speculation target specifying means generates a query string in which at least the correction target character is replaced with the mask character.
The information processing system according to claim 2.
請求項3に記載の情報処理システム。 The speculation target specifying means generates a query string in which the correction target character and any character after the correction target character are replaced with the mask character.
The information processing system according to claim 3.
前記置換候補生成手段は、前記複数のクエリ文字列に応じた複数の置換候補文字列を生成する、
請求項4に記載の情報処理システム。 The speculation target specifying means generates a plurality of query strings obtained by combining the correction target character to be replaced by the mask character and arbitrary characters after the correction target character to be replaced by the mask character,
The replacement candidate generating means generates a plurality of replacement candidate strings according to the plurality of query strings.
The information processing system according to claim 4.
前記推測対象指定手段は、前記マスク文字による置換に加えて、前記認識文字列中の前記候補文字に対応する文字を該候補文字に置換することで、前記クエリ文字列を生成する、
請求項2から5のいずれか一項に記載の情報処理システム。 The character recognition result acquisition means acquires, in addition to the recognized character string, candidate characters that were not adopted in the recognized character string during character recognition,
The guess target designation means generates the query string by replacing characters corresponding to the candidate characters in the recognized character string with the candidate characters in addition to the replacement with the mask characters.
The information processing system according to any one of claims 2 to 5.
前記置換候補生成手段は、前記複数のクエリ文字列に応じた複数の置換候補文字列を生成する、
請求項6に記載の情報処理システム。 The guess target specifying means generates a plurality of query strings obtained by combining the replacement with the mask character and the replacement with the candidate character,
The replacement candidate generating means generates a plurality of replacement candidate strings according to the plurality of query strings.
The information processing system according to claim 6.
請求項1から7のいずれか一項に記載の情報処理システム。 Further comprising natural phrase determination means for determining whether the replacement candidate character string is a natural phrase,
The information processing system according to any one of claims 1 to 7.
前記自然語句判定手段は、前記補正手段によって前記置換候補文字列が補正された場合、補正後の該置換候補文字列が自然な語句であるか否かを更に判定する、
請求項8に記載の情報処理システム。 Further comprising correction means for performing correction to delete the last character of the replacement candidate character string when it is determined that the replacement candidate character string is not a natural phrase,
When the replacement candidate character string is corrected by the correcting means, the natural phrase determination means further determines whether the corrected replacement candidate character string is a natural phrase.
The information processing system according to claim 8.
請求項8又は9に記載の情報処理システム。 The natural phrase determination means further calculates an index indicating the extent to which the replacement candidate character string is a natural phrase as a priority used when displaying the plurality of replacement candidate character strings,
The information processing system according to claim 8 or 9.
請求項1から10のいずれか一項に記載の情報処理システム。 Further comprising output means for displaying the generated replacement candidate character string on a display device,
The information processing system according to any one of claims 1 to 10.
請求項11に記載の情報処理システム。 The output means preferentially displays a longer replacement candidate character string when displaying a plurality of the replacement candidate character strings.
The information processing system according to claim 11.
請求項11から12のいずれか一項に記載の情報処理システム。 The output means highlights a character that is a difference from the recognized character string in the replacement candidate character string.
The information processing system according to any one of claims 11 to 12.
請求項11から13のいずれか一項に記載の情報処理システム。 The output means further displays the recognized character string, and highlights a portion of the recognized character string corresponding to the replacement candidate character string selected by the user.
The information processing system according to any one of claims 11 to 13.
請求項11から14のいずれか一項に記載の情報処理システム。 The output means displays the character string image side by side with the recognized character string of the character string image.
The information processing system according to any one of claims 11 to 14.
請求項1から15のいずれか一項に記載の情報処理システム。 Further comprising replacement means for replacing the corresponding character string in the recognized character string with the replacement candidate character string selected by the user;
The information processing system according to any one of claims 1 to 15.
文字列画像を文字認識することによって得られた認識文字列を取得する文字認識結果取得ステップと、
前記認識文字列のうち所定の箇所を推測対象箇所として指定する推測対象指定ステップと、
推測対象指定ステップで指定された前記推測対象箇所に入るべき正解文字を推測する推測ステップと、
前記認識文字列の少なくとも一部と置換するための文字列として、前記正解文字を含む置換候補文字列を生成する置換候補生成ステップと、
を実行する、方法。 the computer
a character recognition result obtaining step of obtaining a recognized character string obtained by character recognition of the character string image;
a speculation target designation step of designating a predetermined portion of the recognized character string as a speculation target portion;
a guessing step of guessing the correct character to be included in the guessing target location specified in the guessing target specifying step;
a replacement candidate generating step of generating a replacement candidate character string including the correct character as a character string to replace at least part of the recognized character string;
how to run
文字列画像を文字認識することによって得られた認識文字列を取得する文字認識結果取得手段と、
前記認識文字列のうち所定の箇所を推測対象箇所として指定する推測対象指定手段と、
推測対象指定手段によって指定された前記推測対象箇所に入るべき正解文字を推測する推測手段と、
前記認識文字列の少なくとも一部と置換するための文字列として、前記正解文字を含む置換候補文字列を生成する置換候補生成手段と、
として機能させるためのプログラム。
the computer,
Character recognition result acquisition means for acquiring a recognized character string obtained by character recognition of a character string image;
Guessing target designation means for designating a predetermined portion of the recognized character string as a guessing target portion;
Guessing means for guessing a correct character to be included in the guessing target location designated by the guessing target designating means;
replacement candidate generating means for generating a replacement candidate character string including the correct character as a character string to replace at least part of the recognized character string;
A program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021103109A JP2023002091A (en) | 2021-06-22 | 2021-06-22 | Information processing system, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021103109A JP2023002091A (en) | 2021-06-22 | 2021-06-22 | Information processing system, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023002091A true JP2023002091A (en) | 2023-01-10 |
Family
ID=84797632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021103109A Pending JP2023002091A (en) | 2021-06-22 | 2021-06-22 | Information processing system, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023002091A (en) |
-
2021
- 2021-06-22 JP JP2021103109A patent/JP2023002091A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614944B (en) | Mathematical formula identification method, device, equipment and readable storage medium | |
KR100297482B1 (en) | Method and apparatus for character recognition of hand-written input | |
US20080294982A1 (en) | Providing relevant text auto-completions | |
JP2007317022A (en) | Handwritten character processor and method for processing handwritten character | |
US10068155B2 (en) | Verification of optical character recognition results | |
US20240037969A1 (en) | Recognition of handwritten text via neural networks | |
US10963717B1 (en) | Auto-correction of pattern defined strings | |
CN110114776B (en) | System and method for character recognition using a fully convolutional neural network | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
EP2806336A1 (en) | Text prediction in a text input associated with an image | |
JP2008310772A (en) | Information processing device, control program thereof, computer readable recording medium in which control program is recorded, and control method | |
JP4470913B2 (en) | Character string search device and program | |
KR102468975B1 (en) | Method and apparatus for improving accuracy of recognition of precedent based on artificial intelligence | |
JP2023002091A (en) | Information processing system, method and program | |
US20230394720A1 (en) | Systems and methods for digital ink generation and editing | |
JP5014813B2 (en) | Handwritten character input device and handwritten character input program | |
EP4097630B1 (en) | Math detection in handwriting | |
JP2019175037A (en) | Character recognition device, method and program | |
JPWO2014170965A1 (en) | Document processing method, document processing apparatus, and document processing program | |
JP2005190199A (en) | Handwritten character input display device, handwritten character input display method, and program of the same | |
JP7383882B2 (en) | Information processing device and information processing program | |
JP2006163830A (en) | Character recognizing device, character recognizing method, and character recognizing program | |
JP7268316B2 (en) | Information processing device and program | |
Kazanç et al. | Converting Image Files to LaTeX Format Using Computer Vision, Natural Language Processing, and Machine Learning | |
JP2016212562A (en) | Conversion apparatus, conversion method, and conversion program |