JP7404625B2 - Information processing device and program - Google Patents
Information processing device and program Download PDFInfo
- Publication number
- JP7404625B2 JP7404625B2 JP2019009325A JP2019009325A JP7404625B2 JP 7404625 B2 JP7404625 B2 JP 7404625B2 JP 2019009325 A JP2019009325 A JP 2019009325A JP 2019009325 A JP2019009325 A JP 2019009325A JP 7404625 B2 JP7404625 B2 JP 7404625B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- reliability
- character
- similarity
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 108
- 239000000284 extract Substances 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 14
- 235000010724 Wisteria floribunda Nutrition 0.000 description 13
- 238000013145 classification model Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000010979 ruby Substances 0.000 description 3
- 229910001750 ruby Inorganic materials 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003045 statistical classification method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Description
本発明は、情報処理装置、及びプログラムに関する。 The present invention relates to an information processing device and a program.
文字認識の精度を向上させるための技術が検討されている。特許文献1には、入力画像の文章領域を、本文行領域と行間領域とに分別し、行間領域の文字列である行間文字列を抽出し、行間文字列ごとに、本文行領域の文字列の中から、仮決定の親文字列である仮親文字列を決定し、本文行領域及び行間領域の文字を認識し、仮親文字列の認識結果を参照キーとして親文字に対するルビ候補を示すルビ辞書を参照することによって得られるルビ候補の少なくとも1つと、行間文字列の認識結果が一致するか否かの判定を行い、その結果に基づいて、仮親文字列、又は仮親文字列に含まれる一部の文字を除いた残りの文字列を本決定の親文字列として決定する文書認識装置が記載されている。
Techniques are being considered to improve the accuracy of character recognition.
特許文献2には、第1の文字列であるイメージデータを文字認識して文字列コードに変換し、第1の文字列と読みが同じで文字種が異なる第2の文字列であるイメージデータを文字認識して文字列コードに変換し、文字認識された第1の文字列を第2の文字列と同じ文字種の文字列に変換し、変換された第1の文字列と文字認識された第2の文字列とを比較して、第1の文字列と第2の文字列とが異なる場合に第2の文字列を第1の文字列に基づいて訂正する文字認識装置が記載されている。 Patent Document 2 discloses that image data that is a first character string is character-recognized and converted into a character string code, and image data that is a second character string that has the same pronunciation as the first character string but a different character type is generated. Recognize the characters and convert them into character string codes, convert the first recognized character string into a character string of the same character type as the second character string, and combine the first character string with the first character string with the same character type as the second character string. A character recognition device is described that compares a second character string with a second character string and corrects the second character string based on the first character string if the first character string and the second character string are different. .
特許文献3には、原稿の画像情報から抽出した文字画像情報毎に形状的特徴に基づいて対応する漢字又はローマ字を選択する時に、特定の漢字画像情報について複数の漢字が選択された際に、画像情報内でこの漢字画像情報と所定の関係を有するローマ字画像情報について選択されたローマ字に基づいて、選択された複数の漢字の中から特定の漢字画像情報に対応する漢字を検索する文字認識方法が記載されている。 Patent Document 3 discloses that when selecting a corresponding kanji or Roman character based on shape characteristics for each character image information extracted from image information of a manuscript, when a plurality of kanji are selected for specific kanji image information, A character recognition method that searches for a kanji that corresponds to specific kanji image information from among a plurality of selected kanji based on a roman character selected for roman character image information that has a predetermined relationship with this kanji image information within image information. is listed.
なお、特許文献4には、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とするようにした情報処理装置が記載されている。 Note that Patent Document 4 describes an information processing device that eliminates the need for information regarding boundaries between single characters as a teacher signal in machine learning for recognizing characters to be recognized.
本発明の目的の一つは、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標を得ることである。 One of the objects of the present invention is to obtain an indication as to which of the character strings respectively recognized from two related images is to be trusted.
本発明の請求項1に係る情報処理装置は、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部と、を有する情報処理装置である。
The information processing device according to
本発明の請求項2に係る情報処理装置は、請求項1に記載の態様において、前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第3文字列を抽出することを特徴とする情報処理装置である。
In the information processing apparatus according to claim 2 of the present invention, in the aspect according to
本発明の請求項3に係る情報処理装置は、請求項1又は2に記載の態様において、前記抽出部は、異なる文字列が予め関連付けられた辞書を参照して、前記第2文字列に関連する1又は複数の第4文字列を抽出し、前記算出部は、前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、前記出力部は、前記第1信頼度、及び前記第2信頼度の少なくともいずれか、及び前記第2類似度に応じて、該第2類似度及び前記第4文字列の少なくともいずれかに基づく第2情報を出力することを特徴とする情報処理装置である。
In the information processing device according to claim 3 of the present invention, in the aspect according to
本発明の請求項4に係る情報処理装置は、請求項3に記載の態様において、前記出力部は、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、前記第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力することを特徴とする情報処理装置である。 In the information processing device according to claim 4 of the present invention, in the aspect according to claim 3 , the output unit is evaluated using the first reliability, the second reliability, and the second similarity. outputting the first character string as the second information when the reliability of the fourth character string with respect to the first character string is less than a threshold; and when the reliability is greater than or equal to the threshold; The information processing apparatus is characterized in that the fourth character string is output as the second information in place of the first character string.
本発明の請求項5に係る情報処理装置は、請求項3又は4に記載の態様において、前記抽出部は、前記第1信頼度及び前記第2信頼度が決められた条件を満たす場合に前記第4文字列を抽出することを特徴とする情報処理装置である。 In the information processing apparatus according to claim 5 of the present invention, in the aspect according to claim 3 or 4 , the extracting unit extracts the information when the first reliability and the second reliability satisfy a predetermined condition. This is an information processing device characterized by extracting a fourth character string.
本発明の請求項6に係る情報処理装置は、請求項1に記載の態様において、前記第2認識部は、前記第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第2文字列を認識し、前記出力部が前記第2文字列に代えて前記第3文字列を出力した場合に、前記第2画像から該第3文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。
In the information processing device according to claim 6 of the present invention, in the aspect according to
本発明の請求項7に係る情報処理装置は、請求項4に記載の態様において、前記第1認識部は、前記第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第1文字列を認識し、前記出力部が前記第1文字列に代えて前記第4文字列を出力した場合に、前記第1画像から該第4文字列を認識するように、前記重みを修正することを特徴とする情報処理装置である。
本発明の請求項8に係る情報処理装置は、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、該第1類似度及び前記第3文字列の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部と、を有する情報処理装置である。
In the information processing device according to claim 7 of the present invention, in the aspect according to claim 4 , the first recognition unit calculates a weight determined for each of the one or more feature amounts calculated from the first image. When the first character string is recognized and the output unit outputs the fourth character string instead of the first character string, the fourth character from the first image is recognized based on the amount added and totaled. The information processing apparatus is characterized in that the weights are modified so as to recognize columns.
The information processing device according to claim 8 of the present invention includes a first recognition unit that recognizes a first character string from a first image, and a second recognition unit that recognizes a second character string from a second image related to the first image. A recognition unit refers to a dictionary in which different character strings are associated in advance, and extracts one or more third character strings related to the first character string, and extracts one or more third character strings related to the second character string. an extraction unit that extracts a fourth character string; and an extraction unit that calculates, for each of the third character strings, a first degree of similarity indicating the degree of similarity to the second character string; a calculation unit that respectively calculates a second degree of similarity indicating a degree of similarity to a string; a first degree of reliability indicating a degree of reliability of character recognition of the first character string; and a degree of reliability indicating a degree of reliability of character recognition of the second character string; According to at least one of the second reliability and the first similarity, first information based on at least one of the first similarity and the third character string is output, and the first reliability, When the reliability of the fourth character string with respect to the first character string, which is evaluated using the second reliability and the second similarity, is less than a threshold, the first character string is used as second information. and an output unit that outputs the fourth character string instead of the first character string as the second information when the reliability is equal to or higher than the threshold value.
本発明の請求項9に係る情報処理装置は、請求項1から8のいずれか1項に記載の態様において、前記第2画像は、前記第1画像に含まれる文字列の発音を示す文字列を含む画像である、ことを特徴とする情報処理装置である。
In the information processing device according to claim 9 of the present invention, in the aspect according to any one of
本発明の請求項10に係るプログラムは、コンピュータを、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部、として機能させるためのプログラムである。
本発明の請求項11に係るプログラムは、コンピュータを、第1画像から第1文字列を認識する第1認識部と、前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、前記第3文字列及び前記第1類似度の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部、として機能させるためのプログラムである。
A program according to claim 10 of the present invention includes a first recognition unit that recognizes a first character string from a first image, and a second recognition unit that recognizes a second character string from a second image related to the first image. 2 recognition unit, an extraction unit that extracts one or more third character strings related to the first character string by referring to a dictionary in which different character strings are associated in advance, and for each third character string, a calculation unit that respectively calculates a first similarity degree indicating a degree of similarity to the second character string; a first reliability degree indicating a reliability degree of character recognition of the first character string; and a first degree of reliability indicating a degree of character recognition of the second character string; When the reliability of the third character string with respect to the second character string , which is evaluated using the second reliability indicating the reliability and the first similarity, is less than a threshold, the third character string is used as the first information. 2 character strings, and outputs the third character string as the first information in place of the second character string when the reliability is equal to or higher than the threshold value . be.
The program according to
請求項1、10に係る発明によれば、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについて指標が得られる。
また、請求項1、10に係る発明によれば、辞書を参照して抽出された、第1文字列に関連する第3文字列の信頼性が、第2文字列に対して閾値以上であるときに、第3文字列の出力が得られる。
請求項2に係る発明によれば、辞書を参照して第1文字列に関連する第3文字列を抽出する処理を行うための条件を、第1文字列、第2文字列の各信頼度に基づいて設定することができる。
請求項3に係る発明によれば、第1画像から認識された第1文字列と、第1画像に関連する第2画像から認識された第2文字列と、辞書を参照して抽出された、第1文字列に関連する第3文字列と、辞書を参照して抽出された、第2文字列に関連する第4文字列と、
を用いて、第1文字列と第2文字列とのいずれを信頼するかについて指標が得られる。
請求項4に係る発明によれば、辞書を参照して抽出された、第2文字列に関連する第4文字列の信頼性が、第1文字列に対して閾値以上であるときに、第4文字列の出力が得られる。
請求項5に係る発明によれば、辞書を参照して第2文字列に関連する第4文字列を抽出する処理を行うための条件を、第1文字列、第2文字列の各信頼度に基づいて設定することができる。
請求項6に係る発明によれば、第2画像から算出される特徴量につける重みを修正しない場合に比べて、第2文字列を認識する精度が向上する。
請求項7、8、11に係る発明によれば、第1画像から算出される特徴量につける重みを修正しない場合に比べて、第1文字列を認識する精度が向上する。
請求項9に係る発明によれば、第1画像に含まれる文字列の発音を示す文字列を含む第2文字列が、第2画像から認識される。
According to the inventions according to
Further, according to the invention according to
According to the invention according to claim 2 , the conditions for performing the process of extracting the third character string related to the first character string with reference to the dictionary are set based on the reliability of each of the first character string and the second character string. Can be set based on.
According to the invention according to claim 3 , the first character string recognized from the first image, the second character string recognized from the second image related to the first image, and the second character string extracted with reference to a dictionary. , a third character string related to the first character string, and a fourth character string related to the second character string extracted with reference to a dictionary;
can be used to obtain an index as to whether to trust the first character string or the second character string.
According to the invention according to claim 4 , when the reliability of the fourth character string related to the second character string extracted with reference to the dictionary is equal to or higher than the threshold value with respect to the first character string, You will get 4 strings of output.
According to the invention according to claim 5 , the conditions for performing the process of extracting the fourth character string related to the second character string with reference to the dictionary are set based on the reliability of each of the first character string and the second character string. Can be set based on.
According to the invention according to claim 6 , the accuracy of recognizing the second character string is improved compared to the case where the weight given to the feature amount calculated from the second image is not corrected.
According to the inventions according to
According to the invention according to claim 9, the second character string including the character string indicating the pronunciation of the character string included in the first image is recognized from the second image.
<実施形態>
<情報処理装置の構成>
図1は、情報処理装置1の構成を示す図である。図1に示す通り、情報処理装置1は、制御部11、記憶部12、通信部13、操作部14、表示部15、及び画像読取部16を有する。
<Embodiment>
<Configuration of information processing device>
FIG. 1 is a diagram showing the configuration of an
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を有し、CPUがROM及び記憶部12に記憶されているコンピュータプログラム(以下、単にプログラムという)を読み出して実行することにより情報処理装置1の各部を制御する。
The
通信部13は、有線又は無線により通信回線(図示せず)に接続する通信回路である。情報処理装置1は、通信部13により、通信回線に接続された他の装置(すなわち、外部装置)と情報をやり取りする。
The
操作部14は、各種の指示をするための操作ボタン、キーボード、タッチパネル等の操作子を備えており、利用者による操作を受付けてその操作内容に応じた信号を制御部11に送る。
The
表示部15は、液晶ディスプレイ等の表示画面を有しており、制御部11の制御の下、画像を表示する。表示画面の上には、操作部14の透明のタッチパネルが重ねて配置されてもよい。
The
画像読取部16は、プラテンガラス、媒体に光を照射する照射装置、反射光を集光する光学系、CMOS(Complementary Metal Oxide Semiconductor)イメージセンサや、CCD(Charge Coupled Device)イメージセンサ等の撮像素子等を備える。画像読取部16は、制御部11の制御の下、プラテンガラスに載せられた、紙等の媒体に形成された画像を読取り、読取った画像を示す画像データを生成して制御部11に供給する。
The
記憶部12は、ソリッドステートドライブ、ハードディスクドライブ等の記憶手段であり、制御部11のCPUに読み込まれる各種のプログラム、データ等を記憶する。また、記憶部12は、領域対応表121、文字認識モデル122、辞書DB123、及び分類モデル124を記憶する。
The
<領域対応表の構成>
図2は、記憶部12に記憶される領域対応表121の例を示す図である。領域対応表121は、帳票等の手書き用紙に含まれる記入欄等の領域のレイアウトを示した表である。領域対応表121は、領域を識別するための領域名と、その領域の具体的な範囲や位置を示す情報である領域情報とを対応付けて記憶する。例えば、図2に示す領域対応表121で、「氏名フリガナ」に対応する領域情報は「A2」である。領域情報は、例えば、手書き用紙から読取られた画像に対して、斜め補正や拡大・縮小補正が行われた後の補正画像における座標情報等として表される。例えば領域情報が示す領域が矩形であれば、領域情報はその矩形の左上及び右下の各頂点の座標等で表される。
<Structure of area correspondence table>
FIG. 2 is a diagram showing an example of the area correspondence table 121 stored in the
図3は、手書きされた領域の例を示す図である。例えば、図3に示す二点鎖線の枠で囲った「A2」は、図2で示す「氏名フリガナ」という領域名で識別される領域であり、枠で囲った「A1」は、図2で示す「氏名漢字」という領域名で識別される領域である。 FIG. 3 is a diagram showing an example of a handwritten area. For example, "A2" surrounded by a two-dot chain line frame shown in FIG. 3 is an area identified by the area name "Name Furigana" shown in FIG. This area is identified by the area name "Name Kanji" shown in the figure.
<文字認識モデルの構成>
図4は、記憶部12に記憶される文字認識モデル122の例を示す図である。文字認識モデル122は、領域対応表121に含まれる領域名で識別される領域ごとに、その領域に手書きされる文字の認識処理に用いられるモデルデータを対応付けて記憶する。
<Configuration of character recognition model>
FIG. 4 is a diagram showing an example of the
このモデルデータは、例えば、予め正解の文字コードと対応付けられた手書き文字の画像を示す画像データを読み込ませ、文字コードと手書き文字との対応関係を機械学習させることで生成された学習済みモデルである。情報処理装置1の制御部11は、例えば、用紙に書き込まれた手書き文字の画像を読取って生成された画像データを画素ごとに分解して、各画素の階調値を多層ニューラルネットワークに入力する。そして制御部11は、文字認識モデル122から読み出したモデルデータを多層ニューラルネットワークに適用し、算出される出力に基づいて、手書き文字に対応する文字コードを認識する。
This model data is, for example, a trained model generated by loading image data showing images of handwritten characters that are associated with correct character codes in advance and performing machine learning on the correspondence between character codes and handwritten characters. It is. For example, the
<辞書DBの構成>
図5は、記憶部12に記憶される辞書DB123の例を示す図である。辞書DB123は、異なる文字列を予め関連付けたデータベースである。図5に示す辞書DB123は、辞書名リスト1231と、辞書データ1232と、を有する。辞書名リスト1231は、辞書データ1232を識別するための識別情報である辞書名を列挙したリストである。辞書データ1232は、辞書名リスト1231に記載されている辞書名ごとにそれぞれ関連付けられたデータであって、その辞書名が示す対象の文字列にそれぞれ関連する文字列を記憶するデータである。
<Configuration of dictionary DB>
FIG. 5 is a diagram showing an example of the
例えば、図5に示す辞書DB123の辞書名リスト1231には「氏名用辞書」という辞書名が記入されている。そして、「氏名用辞書」という辞書名には、1つの辞書データ1232が対応付けられている。この辞書データ1232は、氏名に用いられる漢字を示した文字列と、その漢字の発音を示すカタカナ(すなわち、フリガナ)を示した文字列とを関連付けるデータである。氏名用辞書に対応付けられた辞書データ1232は、漢字からその漢字のフリガナを特定することに用いられる。1つの漢字の発音が複数通りである場合、その漢字から複数のフリガナが特定されることもある。例えば、図5に示す通り、「友規」という漢字には、「トモキ」「トモノリ」「ユウキ」等、複数の発音が関連付けられている。
For example, the dictionary name "Name Dictionary" is entered in the
<分類モデルの構成>
記憶部12に記憶される分類モデル124は、関連する2つの画像からそれぞれ認識された文字列のいずれを信頼するかについての判断に用いられる。情報処理装置1は、分類モデル124を用いて、例えば、第1信頼度、第2信頼度、及び、第1類似度の3つの数値で構成される特徴量を分類して、上述した判断を行う。
<Configuration of classification model>
The
ここで、第1信頼度とは、読取られた画像に含まれる画像(以下、第1画像という)から認識された第1文字列の信頼度である。また、第2信頼度とは、第1画像に関連する画像(以下、第2画像という)から認識された第2文字列の信頼度である。そして、第1類似度とは、辞書DB123から抽出された、第1文字列に関連する文字列(以下、第3文字列という)の、第2文字列に対する類似度である。類似度とは、2つの文字列が相互に類似している程度を示す数値であり、例えば、レーベンシュタイン距離、ジャロ・ウィンクラー距離等の編集距離で示される。
Here, the first reliability is the reliability of the first character string recognized from the image included in the read image (hereinafter referred to as the first image). Moreover, the second reliability is the reliability of the second character string recognized from the image related to the first image (hereinafter referred to as the second image). The first similarity is the similarity of a character string related to the first character string (hereinafter referred to as a third character string) extracted from the
図6は、記憶部12に記憶される分類モデル124を説明するための概念図である。図6で特徴量の次元は、説明のため2とする。x,yの2つの数値で構成される特徴量は、図6に示す通りxy平面上にプロットされる。これらの特徴量は属するクラスを示すラベルと対応付ける、いわゆる「ラベル付け」が予めされている。すなわち、これらの特徴量は、正解付きの認識データであり、教師データである。
FIG. 6 is a conceptual diagram for explaining the
図6に示す例では、各特徴量に対応する点は、それぞれ四角で表される点及び丸で表される点のいずれかである。分類モデル124は、予めラベル付けがなされたこれらの特徴量に基づいて生成されたモデルデータである。例えば、図6に示す直線Lは、上述した複数の点を種類ごとに分類する線であり、この直線Lを示すパラメータは、モデルデータの一例である。
In the example shown in FIG. 6, the points corresponding to each feature amount are either points represented by squares or points represented by circles. The
分類モデル124は、教師データを用いて機械学習の分類手法により生成される。
この教師データは、例えば、第1信頼度、第2信頼度、及び、第1類似度の3つの数値で構成される特徴量と、それらの特徴量にそれぞれ対応付けられた2以上のクラスと、を関連付けたデータである。クラスには、例えば「第2文字列を信頼する」及び「第3文字列を信頼する」のいずれかのラベルが付されている。この機械学習の分類手法としては、例えば、サポートベクターマシン、線形回帰、アンサンブル学習等が挙げられる。また、この機械学習のアルゴリズムには、例えば、エイダブースト等が適用される。なお、ラベルは上述した2種類に限らず、例えば、情報の出力内容や出力の有無を示すものを含んでもよい。
The
This training data includes, for example, feature quantities consisting of three numerical values: first reliability, second reliability, and first similarity, and two or more classes respectively associated with these feature quantities. This is data associated with . The classes are labeled with either "Trust the second character string" or "Trust the third character string", for example. Examples of this machine learning classification method include support vector machine, linear regression, and ensemble learning. Furthermore, for example, Adaboost is applied to this machine learning algorithm. Note that the labels are not limited to the two types described above, and may include, for example, labels indicating the output content of information and the presence or absence of output.
<情報処理装置の機能的構成>
図7は、情報処理装置1の機能的構成を示す図である。図7において、情報処理装置1の通信部13及び操作部14は省かれている。
<Functional configuration of information processing device>
FIG. 7 is a diagram showing the functional configuration of the
情報処理装置1の制御部11は、記憶部12に記憶されているプログラムを読み出して実行することにより、解析部111、認識部112、抽出部113、算出部114、及び出力部115として機能する。
The
解析部111は、画像読取部16が読取った画像を示す画像データを取得し、この画像を構成する記入欄のレイアウトを解析する。解析部111は、画像読取部16から画像データを取得すると、この画像データが示す画像に描かれた線や印等に基づいて、いわゆる斜め補正や拡大・縮小補正、オフセット補正等の各種の補正を行う。そして、解析部111は、領域対応表121を参照することで、補正された画像から第1画像及び第2画像を切出す。
The analysis unit 111 acquires image data representing the image read by the
第1画像は、例えば、領域情報「A1」で示される領域に描画された画像であり、利用者によって手書きされた漢字を示す画像である。第2画像は、例えば、領域情報「A2」で示される領域に描画された画像であり、利用者によって手書きされたフリガナを示す画像である。第2画像に示されるフリガナは、第1画像に示される漢字のフリガナであるから、第1画像と第2画像とは関連している。この漢字及びフリガナは、例えば利用者の氏名を示す漢字及びフリガナである。 The first image is, for example, an image drawn in the area indicated by the area information "A1", and is an image showing kanji characters handwritten by the user. The second image is, for example, an image drawn in the area indicated by the area information "A2", and is an image showing furigana handwritten by the user. Since the furigana shown in the second image is the furigana of the kanji character shown in the first image, the first image and the second image are related. The kanji and furigana are, for example, the kanji and furigana that indicate the user's name.
認識部112は、解析部111によって切出された第1画像及び第2画像のそれぞれに対し、文字認識モデル122に記憶されたモデルデータを用いて文字認識処理を行い、各領域に手書きされた文字列を認識する。認識部112は、第1画像から第1文字列を認識する。このとき、認識部112は、第1認識部として機能する。また、認識部112は、第1画像に関連する第2画像から第2文字列を認識する。このとき、認識部112は、第2認識部として機能する。
The
認識部112は、第1画像及び第2画像のそれぞれに対し、階調値に基づいてエッジ検出等を行って、文字単位で画像を分割する。そして、認識部112は、それぞれの領域に対応付けられたモデルデータを文字認識モデル122から読み出して、1文字ずつ認識処理を行う。
The
ここで認識部112は、1文字ずつ文字認識をする際に、認識した手書き文字が、モデルデータの生成に使われた教師データ等に含まれる文字の画像とどの程度、相違しているかを評価する。この評価は、例えば、一致する画素の数や、共通の階調値を示す画素の塊の配置、大きさ等に基づいて行われる。そして、認識部112は、この評価の結果に基づいて、文字ごとの文字認識の信頼度(以下、文字信頼度という)を算出する。
Here, when performing character recognition character by character, the
認識部112は、分割した全ての画像について文字認識を行うと、これを並べた文字列を生成するとともに、この文字列の信頼度を算出する。文字列の信頼度は、例えば、特許文献4に記載した数式4を用いて算出される。認識部112は、例えば、隣り合う文字の文字信頼度から計算される局所的なエネルギー関数の和を求め、これにより文字列の信頼度を算出する。
When the
認識部112は、文字認識の結果がそれぞれ文字ごとに複数ある場合、それらの文字を組合せて得られる文字列ごとに信頼度を算出する。そして、算出された信頼度が最も高い文字列をその画像から認識した文字列として選択する。例えば、認識部112は、複数の文字列の候補から1つの文字列を選択する際に、上述した局所的なエネルギー関数の和で示されるエネルギー関数が最小になる場合の文字列を、ビタビアルゴリズムを用いて探索する。
If there are a plurality of character recognition results for each character, the
図8は、文字認識の例を説明するための図である。例えば、図3に示す手書き文字に対して、認識部112は、第1文字列として「富士友規」という文字列、及び第2文字列として「フジマウキ」という文字列をそれぞれ認識する。そして、認識部112は、第1文字列及び第2文字列のそれぞれの信頼度も算出する。信頼度は0以上1以下の数値で示される。図8に示す通り、第1文字列の信頼度は0.998であり、第2文字列の信頼度は0.19である。第1文字列の信頼度は0よりも1に近いため、文字認識が成功していると推測される。一方、第2文字列の信頼度は1よりも0に近いため、文字認識が失敗していると推測される。
FIG. 8 is a diagram for explaining an example of character recognition. For example, with respect to the handwritten characters shown in FIG. 3, the
抽出部113は、異なる文字列が予め関連付けられた辞書を参照して、第1文字列に関連する1又は複数の第3文字列を抽出する。抽出部113は、上述した第1文字列である「富士友規」に関連する第3文字列を、辞書DB123から抽出する。抽出部113は、辞書DB123を参照して、「富士」の部分から「フジ」という1通りのフリガナを抽出する。また、抽出部113は、辞書DB123を参照して、「友規」の部分から「トモキ」、「トモノリ」、及び「ユウキ」の3通りのフリガナを抽出する。したがって、抽出部113は、「フジトモキ」、「フジトモノリ」及び「フジユウキ」の3つの第3文字列を抽出する。
The
算出部114は、第3文字列ごとに、第2文字列に対する類似度を示す第1類似度をそれぞれ算出する。この類似度は、第2文字列と第3文字列との編集距離によって算出される。ここで編集距離とは、初期の文字列(以下、初期文字列という)を目的とする文字列(以下、目的文字列という)に変化させるための編集処理の種類及び回数等に基づいて算出される数値である。編集処理とは、例えば、「追加する」、「削除する」、「入れ替える」といった処理をいう。
The
算出部114は、「追加する」、「削除する」、「入れ替える」という3つの編集処理の編集距離をいずれも「1」とする。そして、算出部114は、初期文字列から目的文字列までに要した編集処理の、それぞれの編集距離の合計を、初期文字列から目的文字列への編集距離として算出する。この編集距離を第1類似度とする場合、第1類似度が0に近いほど、第2文字列と第3文字列は類似しており、大きいほど非類似である。
The
なお、1つの「追加する」と1つの「削除する」とは、1つの「入れ替える」に相当するが、算出部114は、編集距離の合計が小さくなるように「入れ替える」を採用する。
Note that one "add" and one "delete" correspond to one "swap," but the
図8に示す例で、第3文字列である「フジトモキ」は、「ト」「モ」をそれぞれ「マ」「ウ」に入れ替えることで、第2文字列である「フジマウキ」に編集される。したがって、この第3文字列は、「入れ替える」という編集処理を2回行うことで第2文字列に変化するから、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「2」である。 In the example shown in Figure 8, the third character string "Fujitomoki" is edited to the second character string "Fujitomoki" by replacing "to" and "mo" with "ma" and "u" respectively. . Therefore, this third character string changes to the second character string by performing the editing process of "swapping" twice, so the editing distance of the third character string with respect to the second character string, that is, the first similarity is " 2".
また、第3文字列である「フジトモノリ」は、「ト」「モ」「ノ」をそれぞれ「マ」「ウ」「キ」に入れ替え、かつ、「リ」を削除することで、第2文字列である「フジマウキ」に編集される。つまり、この第3文字列は、「入れ替える」を3回、「削除する」を1回、すなわち合計して4回の編集処理を行うことで第2文字列に変化する。したがって、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「4」である。 In addition, the third character string "Fujitomonori" is created by replacing "to," "mo," and "no" with "ma," "u," and "ki," respectively, and deleting "li" to create the second character string. It is edited into the column "Fujimauki". In other words, this third character string is changed into the second character string by performing the editing process of "replace" three times and "delete" once, that is, a total of four times. Therefore, the edit distance of the third character string to the second character string, that is, the first similarity is "4".
一方、第3文字列である「フジユウキ」は、「ユ」を「マ」に入れ替えることで、第2文字列である「フジマウキ」に編集される。したがって、この第3文字列は、「入れ替える」という編集処理を1回だけ行うことで第2文字列に変化するから、第3文字列の第2文字列に対する編集距離、すなわち第1類似度は「1」である。 On the other hand, the third character string "Fuji Yuuki" is edited into the second character string "Fuji Mauuki" by replacing "yu" with "ma". Therefore, since this third character string changes to the second character string by performing the editing process of "swapping" only once, the editing distance of the third character string with respect to the second character string, that is, the first similarity is It is "1".
ところで、第2画像から認識されたフリガナは、一般に複数のカタカナ文字で構成される文字列であり、誤認識された場合であっても、その誤りは文字列全体の一部であることが多い。そして、第1類似度は、辞書DB123から抽出したフリガナと、認識されたフリガナとの相違の程度を表している。そのため、第1類似度が類似を示しているほど、一般に辞書DB123から抽出したフリガナの方が認識されたフリガナよりも信頼される。つまり、この場合、第1類似度が0に近い(類似していることを示す)ほど、漢字の認識精度の方が、フリガナの認識精度よりも信頼できると言える。
By the way, the furigana recognized from the second image is generally a string consisting of multiple katakana characters, and even if it is misrecognized, the error is often part of the entire string. . The first similarity represents the degree of difference between the furigana extracted from the
しかし、第1類似度が大きい(非類似であることを示す)ほど、辞書DB123から抽出したフリガナと認識されたフリガナとの相違する箇所が増えるので、漢字の認識精度に比較してフリガナの認識精度を信頼できない、とは言えなくなる。
However, the larger the first similarity (indicating that they are dissimilar), the more places there are differences between the furigana extracted from the
そこで、情報処理装置1は、第3文字列が複数ある場合、これら第3文字列ごとに算出した第1類似度を比較して、最も類似を示している(この場合、最も0に近い)第3文字列を選択する。
Therefore, when there are multiple third character strings, the
出力部115は、第1類似度に応じて、この第1類似度及び第3文字列の少なくともいずれかに基づく情報である第1情報を出力する。例えば、図8に示す通り、第1文字列として「富士友規」という文字列、第2文字列として「フジマウキ」という文字列がそれぞれ認識され、第3文字列として「フジユウキ」という文字列が抽出されたとする。この場合、第1文字列の信頼度である第1信頼度は「0.998」、第2文字列の信頼度である第2信頼度は「0.19」、第3文字列の第2文字列に対する第1類似度は「1」である。
The
このとき、出力部115は、(第1信頼度,第2信頼度,第1類似度)で示される特徴量が(0.998,0.19,1)である場合について、分類モデル124を参照し、第2文字列と第3文字列のいずれを信頼するべきかを判断する。そして、出力部115は、判断の結果に応じて、第1類似度及び第3文字列の少なくともいずれかに基づく情報である第1情報を出力する。
At this time, the
なお、この場合、出力部115は、第1類似度に加えて、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第1情報を出力する。特に、上述した(第1信頼度,第2信頼度,第1類似度)の3次元で示される特徴量のように、第1類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第1情報の出力内容や出力の有無が決まる。
In this case, in addition to the first similarity, the
出力部115は、例えば、第1情報として「フジマウキ(もしかしてフジユウキ?)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第3文字列を示すので、第1情報は、第1類似度及び第3文字列の少なくともいずれかに基づく情報である。
For example, the
また、出力部115は、例えば、第1情報として「フジマウキ(類似度が1の他の候補があります)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第1情報は、第1類似度及び第3文字列の少なくともいずれかに基づく情報である。
Further, the
<情報処理装置の動作>
図9は、情報処理装置1の動作の流れを示すフロー図である。図9に示す通り、情報処理装置1の制御部11は、画像読取部16を制御して媒体に形成された画像を読取る(ステップS101)。制御部11は、読取った画像を補正して、領域対応表121に基づいてこの画像から第1画像及び第2画像を切出す(ステップS102)。なお、読取った画像の補正は行われなくてもよい。
<Operation of information processing device>
FIG. 9 is a flow diagram showing the flow of operations of the
制御部11は、第1画像から第1文字列を認識し(ステップS103)、第1文字列の第1信頼度を算出する(ステップS104)。
The
また、制御部11は、第2画像から第2文字列を認識し(ステップS105)、第2文字列の第2信頼度を算出する(ステップS106)。ステップS105は、ステップS103の前に行われてもよい。
Further, the
制御部11は、辞書DB123を参照して第1文字列に関連する1又は複数の第3文字列を抽出し(ステップS107)、第3文字列ごとに第2文字列に対する第1類似度を算出する(ステップS108)。
The
制御部11は、第1信頼度、第2信頼度、及び第1類似度に応じて、第2文字列に対する第3文字列の信頼性を評価する(ステップS109)。この評価は、制御部11が、分類モデル124を参照して、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を分類し、この特徴量がどのラベルが付けられたクラスに分類されたかに応じて決定される。
The
そして、制御部11は、評価した信頼性が条件を満たした場合に、第2文字列に代えて第3文字列を出力する(ステップS110)。制御部11は、例えば、(第1信頼度,第2信頼度,第1類似度)で示される特徴量が「第3文字列を信頼する」というラベル付けがされたクラスに分類された場合に、第2文字列に代えて第3文字列を出力する。
Then, if the evaluated reliability satisfies the conditions, the
以上、説明した通り、情報処理装置1は、第3文字列の第2文字列に対する第1類似度に応じて第1情報を出力する。
As described above, the
例えば、上述した第1信頼度は、第1文字列の認識精度を示す指標であり、第2信頼度は第2文字列の認識精度を示す指標であるが、いずれも、それぞれの文字認識処理に基づいて算出される数値である。したがって、第1信頼度、又は第2信頼度だけで認識精度を評価すると判断を誤る可能性がある。 For example, the first reliability mentioned above is an index indicating the recognition accuracy of the first character string, and the second reliability is an index indicating the recognition accuracy of the second character string. This is a numerical value calculated based on. Therefore, if the recognition accuracy is evaluated only based on the first reliability or the second reliability, there is a possibility that the judgment will be incorrect.
一方、第1類似度は、辞書DB123から抽出した、第1文字列に関連する第3文字列と、第2文字列との編集距離等の比較結果により算出される。つまり、第1類似度は、第1文字列、第2文字列の文字認識処理に加えて、文字列の関連を記憶した辞書DB123に基づいている。そして、1つの第1文字列に関連して複数の第3文字列が記憶されていても、第1類似度は、これら複数の第3文字列と第2文字列との各組に対してそれぞれ算出されるので、辞書から抽出された文字列が一意に定まらない、ということがない。
On the other hand, the first similarity is calculated based on a comparison result such as the edit distance between the third character string related to the first character string and the second character string extracted from the
つまり、第1類似度に応じて第1情報を出力することで、情報処理装置1は、2つの文字認識処理のいずれを信頼するかについて、文字認識処理とそれ以外の両方の観点に基づく判断の指標を利用者に提供する。
In other words, by outputting the first information according to the first similarity, the
<変形例>
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例は、組合されてもよい。
<Modified example>
The above is the description of the embodiment, but the content of this embodiment can be modified as follows. Further, the following modifications may be combined.
<1>
上述した実施形態において、第1画像及び第2画像は、読取られた1つの画像から切出されていたが、これに限られない。例えば、情報処理装置1の制御部11は、名刺のおもて面から第1画像を、裏面から第2画像を、それぞれ画像読取部16により別々に読取らせてもよい。すなわち、第1画像と第2画像とは、互いに関連していれば共通の画像に含まれなくてもよい。
<1>
In the embodiment described above, the first image and the second image are cut out from one read image, but the invention is not limited to this. For example, the
<2>
上述した実施形態において、情報処理装置1は、第1類似度に加えて、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第1情報を出力していたが、これに限られない。情報処理装置1は、例えば、第1信頼度及び第2信頼度に関わらず、第1類似度に応じて第1情報を出力してもよい。この場合、情報処理装置1は、第1信頼度及び第2信頼度のいずれか、又はその両方を算出しなくてもよい。
<2>
In the embodiment described above, in addition to the first similarity, the
<3>
上述した実施形態において、制御部11は、分類モデル124を参照して、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を分類し、この特徴量がどのクラスに分類されたかに応じて、第2文字列に対する第3文字列の信頼性を評価していた。しかし、信頼性は、分類先のクラスではなく、特徴量から算出される数値で評価されてもよい。
<3>
In the embodiment described above, the
例えば、(第1信頼度,第2信頼度,第1類似度)で示される特徴量を独立変数としてもつ関数が定義されている場合、制御部11は、この関数を演算して得られる数値を、第2文字列に対する第3文字列の信頼性として用いてもよい。この場合、信頼性を示す数値が閾値以上であるときに、情報処理装置1は、第2文字列に代えて第3文字列を出力してもよい。つまり、この変形例における情報処理装置1は第1信頼度、第2信頼度、及び第1類似度を用いて評価される、第2文字列に対する第3文字列の信頼性が閾値以上であるときに、第2文字列に代えて第3文字列を出力する。
For example, if a function is defined that has the feature amount shown as (first reliability, second reliability, first similarity) as an independent variable, the
<4>
上述した実施形態において、情報処理装置1は、第1文字列及び第2文字列を認識すると、第1文字列に関連する第3文字列を辞書DB123から抽出していたが、第1信頼度及び第2信頼度が決められた条件を満たす場合に第3文字列を抽出してもよい。例えば、第1信頼度及び第2信頼度がそれぞれ決められた閾値以上である場合、第1文字列及び第2文字列のいずれも誤っている可能性が低い。この場合、情報処理装置1は第3文字列の抽出を行わなくてもよい。つまり、2つの文字認識がいずれも信頼し得る場合、この変形例における情報処理装置1は、第3文字列の抽出を行わないので、無用な処理負荷が減る。
<4>
In the embodiment described above, when the
<5>
上述した実施形態において、情報処理装置1は、辞書DB123を参照して、第1文字列に関連する1又は複数の第3文字列を抽出していたが、第2文字列に関連する1又は複数の第4文字列を抽出してもよい。例えば、情報処理装置1は、辞書DB123を参照して、第2文字列であるフリガナから、そのフリガナにより発音される漢字を第4文字列として抽出してもよい。この場合、第4文字列の抽出に用いる辞書DB123は、第3文字列の抽出に用いる辞書DB123と共通であってもよいし、共通でなくてもよい。
<5>
In the embodiment described above, the
そして、この場合、情報処理装置1は、抽出した第4文字列ごとに、第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、この第2類似度に応じて、第2類似度及び第4文字列の少なくともいずれかに基づく情報である第2情報を出力するとよい。
In this case, the
例えば、図3に示す手書き文字に対して、情報処理装置1は、第1文字列として「富士反規」という文字列、第2文字列として「フジユウキ」という文字列を認識する。このとき、情報処理装置1は、第1文字列の信頼度として0.1を算出し、第2文字列の信頼度として0.9を算出する。この場合、第1文字列の信頼度は1よりも0に近く、文字認識が失敗していると推測される。一方、第2文字列の信頼度は0よりも1に近く、文字認識が成功していると推測される。
For example, with respect to the handwritten characters shown in FIG. 3, the
情報処理装置1の制御部11によって実現する抽出部113は、上述した第2文字列である「フジユウキ」に関連する第4文字列を、辞書DB123から抽出する。抽出部113は、辞書DB123を参照して、例えば、「フジ」の部分から「富士」という1通りの漢字を抽出する。また、抽出部113は、辞書DB123を参照して、例えば、「ユウキ」の部分から「祐樹」、「優希」、及び「友規」の3通りの漢字を抽出する。したがって、抽出部113は、「富士祐樹」、「富士優希」、及び「富士友規」の3つの第4文字列を抽出する。
The
そして、情報処理装置1は、抽出した3つの第4文字列ごとに、それぞれ第1文字列に対する第2類似度を算出する。「富士祐樹」及び「富士優希」は、第1文字列である「富士反規」に対する編集距離がいずれも「2」であるのに対し、「富士友規」は、編集距離が「1」であるため、情報処理装置1は、3つの第4文字列のうち「富士友規」を選択する。
Then, the
情報処理装置1の制御部11によって実現する出力部115は、(第1信頼度,第2信頼度,第2類似度)で示される特徴量が(0.1,0.9,1)である場合について、分類モデル124を参照し、第1文字列と第4文字列のいずれを信頼するべきかを判断する。そして、判断結果に基づいて、情報処理装置1は、第2類似度及び第4文字列の少なくともいずれかに基づく第2情報を出力する。
The
上述した出力部115は、例えば、第2情報として「富士反規(もしかして富士友規?)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内の「もしかして」に続いて第4文字列を示すので、第2情報は、第2類似度及び第4文字列の少なくともいずれかに基づく情報である。
The above-mentioned
また、上述した出力部115は、例えば、第2情報として「富士反規(類似度が1の他の候補があります)」という文字列を示す制御信号を出力し、表示部15にこの文字列を表示させてもよい。この場合、括弧内には他の候補の類似度が示されるので、第2情報は、第2類似度及び第4文字列の少なくともいずれかに基づく情報である。
Further, the
上述した通り、情報処理装置1は、第1文字列と辞書DB123とを用いて第3文字列を抽出することで、誤認識された第2文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。
As described above, the
一方、例えば第2文字列に比べて第1文字列の信頼度が低い場合、情報処理装置1は、第3文字列を抽出するだけでは、第1文字列の訂正等をすることはできない。しかし、この変形例の情報処理装置1は、第1文字列と辞書DB123とを用いて第3文字列を抽出するとともに、第2文字列と辞書DB123とを用いて第4文字列を抽出する。そのため、この情報処理装置1は、誤認識された第1文字列を訂正し、又は、その誤認識の可能性を利用者に知らせる。
On the other hand, for example, if the reliability of the first character string is lower than that of the second character string, the
<6>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1文字列の信頼度を示す第1信頼度、及び第2文字列の信頼度を示す第2信頼度の少なくともいずれかに応じて、第2情報を出力するとよい。
<6>
Further, when extracting the fourth character string from the
特に、(第1信頼度,第2信頼度,第2類似度)の3次元で示される特徴量のように、第2類似度を含む複数次元の特徴量を用いると、例えば統計的分類手法を適用することにより複雑な判断基準の下に、第2情報の出力内容や出力の有無が決まる。 In particular, when using a multi-dimensional feature including a second similarity, such as a three-dimensional feature (first reliability, second confidence, second similarity), statistical classification methods By applying the above, the content of output of the second information and whether or not to output it are determined based on complex judgment criteria.
<7>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1信頼度、第2信頼度、及び第2類似度を用いて評価される、第1文字列に対する第4文字列の信頼性が閾値以上であるときに、第1文字列に代えて第4文字列を出力するとよい。
<7>
Further, when extracting a fourth character string from the
<8>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1信頼度及び第2信頼度が決められた条件を満たす場合に第4文字列を抽出するとよい。この変形例における情報処理装置1は、第1文字列及び第2文字列の文字認識がいずれも信頼し得る場合に第4文字列の抽出を行わないので、無用な処理負荷が減る。
<8>
Furthermore, when extracting the fourth character string from the
<9>
上述した実施形態において、制御部11は、文字認識モデル122から読み出したモデルデータを多層ニューラルネットワークに適用し、手書き文字に対応する文字コードを認識していたが、文字認識の手法はこれに限られない。
<9>
In the embodiment described above, the
また、制御部11は、文字認識モデル122を読み出すだけではなく、処理の結果に応じて書き換えてもよい。
Further, the
例えば、情報処理装置1は、第2画像を構成する各画素の階調値を、多層ニューラルネットワークに入力し、文字認識モデル122から取得した、各入力に対する重み係数を適用して文字認識を行うことがある。すなわち、この場合の制御部11は、第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第2文字列を認識する。
For example, the
そして、情報処理装置1は、第3文字列ごとに第2文字列に対する類似度を示す第1類似度を算出する。この第1類似度に応じて、第2文字列に代えて第3文字列を出力した場合、情報処理装置1は、第2文字列よりも第3文字列(及び、これの抽出に用いられた第1文字列)を信頼したことを意味する。このとき、この変形例における情報処理装置1は、第2文字列の認識に用いられた文字認識モデル122を、処理の結果に応じて修正する。具体的には、情報処理装置1は、第2画像から第3文字列が認識されるように、上述した重み係数を修正する。すなわち、この情報処理装置1は、第2文字列に代えて第3文字列を出力した場合に、第2画像からこの第3文字列を認識するように、上述した重みを修正するとよい。この変形例によれば、情報処理装置1の処理の結果が、学習済みモデルである文字認識モデル122にフィードバックされるので、文字認識の精度が上がる。
Then, the
<10>
また、辞書DB123から第4文字列を抽出する場合、情報処理装置1は、第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、第1文字列を認識するとよい。そして、情報処理装置1は、第1文字列に代えて第4文字列を出力した場合に、第1画像からこの第4文字列を認識するように、上述した重みを修正するとよい。
<10>
Furthermore, when extracting the fourth character string from the
<11>
上述した実施形態において、第2画像は、利用者によって手書きされた漢字の発音を示す文字列、すなわち、フリガナを示す画像であったが、これに限られない。例えば、第2画像は、第1画像に手書きされた文章等に対する翻訳であってもよい。この場合、辞書DB123は、例えば、和英辞書、英和辞書等の言語間の辞典でもよい。
<11>
In the embodiment described above, the second image is an image showing the character string representing the pronunciation of the kanji handwritten by the user, that is, the furigana, but the second image is not limited to this. For example, the second image may be a translation of a sentence written by hand on the first image. In this case, the
例えば、利用者が第1画像の領域に「自動車」という文字列を手書きし、第2画像の領域に「car」という文字列を手書きする。情報処理装置1は、この第1画像及び第2画像を取得すると、それぞれに対して文字認識処理を行う。その結果、情報処理装置1は、第1画像から「自動車」という文字列を認識し、第2画像から「dar」という文字列を認識する。この場合、第1画像の文字認識は成功しているが、第2画像の文字認識は失敗している。
For example, the user handwrites the character string "car" in the area of the first image, and handwrites the character string "car" in the area of the second image. Upon acquiring the first image and the second image, the
情報処理装置1は、第1画像から認識された第1文字列である「自動車」に基づいて、この第1文字列に関連する第3文字列を辞書DB123から抽出する。抽出された第3文字列は、「car」「automobile」「auto」「motorcar」等であり、情報処理装置1は、これら複数の第3文字列ごとに、第2文字列である「dar」との第1類似度を算出する。そして、情報処理装置1は、最も類似している「car」を第3文字列として選択し、第1文字列の第1信頼度、第2文字列の第2信頼度、及び選択されたこの第3文字列の第1類似度に基づいて、第2文字列に代えて第3文字列を出力するべきか否かを判断する。
The
<12>
上述した実施形態において、画像認識の入力には画像を示す画像データが用いられたが、画像データは、読取られた画像に限られない。情報処理装置1は、例えば、手書き文字の筆順やストローク等、文字を書く際の経時変化を示す情報から文字を認識してもよい。
<12>
In the embodiments described above, image data representing an image is used for inputting image recognition, but the image data is not limited to a read image. The
<13>
上述した実施形態において、文字列の信頼度は、特許文献4に記載した数式4を用いて算出されていたが、これに限られない。情報処理装置1は、文字列の信頼度を、この文字列を構成する各文字の文字信頼度に基づいて算出してもよい。情報処理装置1は、文字列の信頼度を、例えば、その文字列に含まれる文字の文字信頼度の平均値によって、算出してもよい。平均値には、例えば、相加平均、相乗平均、調和平均等が用いられてもよい。
<13>
In the embodiment described above, the reliability of a character string is calculated using Equation 4 described in Patent Document 4, but the reliability is not limited to this. The
また、情報処理装置1は、例えば、文字列に含まれる各文字の文字信頼度の最小値を、その文字列の信頼度として算出してもよい。また、情報処理装置1は、文字列に含まれる各文字の文字信頼度の積を、その文字列の信頼度として算出してもよい。この場合、各文字の文字信頼度は、いずれも0以上1以下等に正規化されたものである。
Further, the
<14>
上述した実施形態において、「追加する」、「削除する」、「入れ替える」という3つの編集処理の編集距離は、いずれも「1」として計算されたが、これらの編集処理には、種類ごとに異なる重みが付けられていてもよい。
<14>
In the embodiment described above, the edit distances for the three editing processes "add", "delete", and "replace" are all calculated as "1", but these editing processes have different distances for each type. Different weights may be given.
また、類似度は、編集距離を初期文字列又は目的文字列の長さで除算して算出されてもよい。例えば、第2文字列が「フジマウキ」であり、第3文字列が「フジユウキ」である場合、目的文字列の長さは「5」であり、第3文字列の第2文字列に対する編集距離は「1」である。この場合、第1類似度は「1/5」、すなわち「0.2」となる。 Further, the similarity may be calculated by dividing the edit distance by the length of the initial character string or the target character string. For example, if the second character string is "Fuji Mauki" and the third character string is "Fuji Yuuki", the length of the target character string is "5", and the edit distance of the third character string with respect to the second character string is is "1". In this case, the first similarity is "1/5", that is, "0.2".
また、類似度は、初期文字列又は目的文字列の長さから、編集距離を差し引いた値で表されてもよい。例えば、目的文字列の長さが「5」、第3文字列の第2文字列に対する編集距離が「1」である場合、第1類似度は「5-1」、すなわち「4」となる。要するに、初期文字列と目的文字列との類似度は、初期文字列から目的文字列への編集距離を用いて算出されるとよく、さらに初期文字列又は目的文字列の長さを用いて算出されてもよい。 Further, the degree of similarity may be expressed as a value obtained by subtracting the edit distance from the length of the initial character string or the target character string. For example, if the length of the target character string is "5" and the edit distance of the third character string to the second character string is "1", the first similarity is "5-1", that is, "4". . In short, the degree of similarity between the initial character string and the target character string is preferably calculated using the edit distance from the initial character string to the target character string, and further calculated using the length of the initial character string or the target character string. may be done.
<15>
上述した実施形態において、情報処理装置1は、利用者に対応付けられていない文字認識モデル122を参照していたが、例えば、書き手ごとに対応付けられた文字認識のための学習済みモデルを参照してもよい。すなわち、情報処理装置1は、利用者ごとに異なる学習済みモデルを用いて、その利用者に指示された画像から文字列を認識するとよい。この変形例によれば、例えば、手書き文字の書き手ごとの筆跡、書き癖等に特化した学習済みモデルが文字認識に用いられるので、文字認識の精度が向上する。
<15>
In the embodiment described above, the
<16>
上述した実施形態において、情報処理装置1は、画像読取部16を有する画像読取装置であったが、画像読取部16を有しなくてもよい。情報処理装置1は、例えば、通信部13及び通信回線を介して、媒体から画像を読取る画像読取装置を制御し、この画像読取装置から画像を取得してもよい。また、情報処理装置1は、操作部14のタッチパネルを操作して利用者が手書きした文字を認識してもよい。この場合、情報処理装置1は、画像を示す画像データとして、タッチパネルが受付けた操作に基づく筆順、ストローク等を含む情報を取得すればよい。
<16>
In the embodiment described above, the
<17>
上述した実施形態において、情報処理装置1は、第1文字列及び第2文字列をそれぞれ1つずつ認識していたが、複数の第1文字列、複数の第2文字列をそれぞれ認識してもよい。この場合、情報処理装置1は、各第1文字列、各第2文字列の組合せごとに、上述した処理を行えばよい。
<17>
In the embodiment described above, the
<18>
上述した実施形態において、第1類似度は、第3文字列の、第2文字列に対する編集距離に基づいて算出されたが、第3文字列が第2文字列へ編集される際に編集される箇所(以下、編集箇所という)の情報を含んだ情報であってもよい。この場合、第1類似度はスカラー値ではなく、ベクトルで表されてもよい。
<18>
In the embodiment described above, the first similarity is calculated based on the edit distance of the third character string with respect to the second character string, but the first similarity is calculated based on the edit distance of the third character string with respect to the second character string. The information may include information about the edited location (hereinafter referred to as the edited location). In this case, the first similarity may be expressed not as a scalar value but as a vector.
例えば、第2文字列が「フジマウキ」であり、第3文字列が「フジユウキ」である場合、編集距離は「1」であり、第3文字列と第2文字列との相違する箇所、すなわち、編集箇所は3文字目である。この場合、情報処理装置1は、(編集箇所,編集距離)=(3,1)という複数の要素で構成されるベクトルを第1類似度として算出してもよい。また、この場合、情報処理装置1は、編集箇所所の情報と、第2文字列のその箇所に対応する文字について算出された文字信頼度とを用いて、出力する内容を判断してもよい。この構成によれば、第1類似度が編集距離のみに由来する場合に比べて、第1類似度に含まれる情報が増えるので、例えば、第2文字列を第3文字列に訂正すべきか否かについて、判断の精度が向上する。
For example, if the second character string is "Fuji Mauuki" and the third character string is "Fuji Yuuki", the edit distance is "1", and the difference between the third character string and the second character string, i.e. , the edited part is the third character. In this case, the
<19>
情報処理装置1の制御部11によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムは、インターネット等の通信回線経由でダウンロードされてもよい。なお、上述した制御部11によって例示した制御手段としてはCPU以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。
<19>
The program executed by the
1…情報処理装置、11…制御部、111…解析部、112…認識部、113…抽出部、114…算出部、115…出力部、12…記憶部、121…領域対応表、122…文字認識モデル、123…辞書DB、1231…辞書名リスト、1232…辞書データ、124…分類モデル、13…通信部、14…操作部、15…表示部、16…画像読取部。
DESCRIPTION OF
Claims (11)
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度、前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部と、
を有する情報処理装置。 a first recognition unit that recognizes a first character string from a first image;
a second recognition unit that recognizes a second character string from a second image related to the first image;
an extraction unit that refers to a dictionary in which different character strings are associated in advance and extracts one or more third character strings related to the first character string;
a calculation unit that calculates, for each of the third character strings, a first degree of similarity indicating the degree of similarity to the second character string;
Evaluated using a first reliability indicating reliability of character recognition of the first character string , a second reliability indicating reliability of character recognition of the second character string , and the first similarity. When the reliability of the third character string with respect to the second character string is less than a threshold, the second character string is output as first information, and when the reliability is greater than or equal to the threshold, the first an output unit that outputs the third character string instead of the second character string as information ;
An information processing device having:
ことを特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1 , wherein the extraction unit extracts the third character string when the first reliability and the second reliability satisfy a predetermined condition.
前記算出部は、前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出し、
前記出力部は、前記第1信頼度、及び前記第2信頼度の少なくともいずれか、及び前記第2類似度に応じて、該第2類似度及び前記第4文字列の少なくともいずれかに基づく第2情報を出力する
ことを特徴とする請求項1又は2に記載の情報処理装置。 The extraction unit refers to a dictionary in which different character strings are associated in advance, and extracts one or more fourth character strings related to the second character string,
The calculation unit calculates, for each of the fourth character strings, a second degree of similarity indicating a degree of similarity to the first character string,
The output unit is configured to generate a first reliability level based on at least one of the first reliability level and the second reliability level, and a third character string based on at least one of the second similarity level and the fourth character string, according to the second similarity level. The information processing device according to claim 1 or 2, wherein the information processing device outputs two pieces of information.
ことを特徴とする請求項3に記載の情報処理装置。 When the reliability of the fourth character string with respect to the first character string is less than a threshold, the output unit evaluates using the first reliability, the second reliability, and the second similarity. outputting the first character string as the second information, and outputting the fourth character string as the second information in place of the first character string when the reliability is equal to or higher than the threshold value; The information processing device according to claim 3 , characterized in that:
ことを特徴とする請求項3又は4に記載の情報処理装置。 The information processing device according to claim 3 or 4 , wherein the extraction unit extracts the fourth character string when the first reliability and the second reliability satisfy a predetermined condition.
前記第2画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第2文字列を認識し、
前記出力部が前記第2文字列に代えて前記第3文字列を出力した場合に、前記第2画像
から該第3文字列を認識するように、前記重みを修正する
ことを特徴とする請求項1に記載の情報処理装置。 The second recognition unit is
Recognizing the second character string based on an amount calculated by adding a predetermined weight to each of one or more feature amounts calculated from the second image and totaling the amount;
A claim characterized in that, when the output unit outputs the third character string instead of the second character string, the weight is corrected so that the third character string is recognized from the second image. The information processing device according to item 1 .
前記第1画像から算出される1以上の特徴量のそれぞれに定められた重みをつけて集計した量に基づいて、前記第1文字列を認識し、
前記出力部が前記第1文字列に代えて前記第4文字列を出力した場合に、前記第1画像から該第4文字列を認識するように、前記重みを修正する
ことを特徴とする請求項4に記載の情報処理装置。 The first recognition unit is
Recognizing the first character string based on an amount calculated by adding a predetermined weight to each of one or more feature amounts calculated from the first image and totaling the amount;
A claim characterized in that, when the output unit outputs the fourth character string instead of the first character string, the weight is corrected so that the fourth character string is recognized from the first image. The information processing device according to item 4 .
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、a second recognition unit that recognizes a second character string from a second image related to the first image;
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、Referring to a dictionary in which different character strings are associated in advance, one or more third character strings related to the first character string are extracted, and one or more fourth character strings related to the second character string. an extraction unit that extracts
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、 For each of the third character strings, calculate a first degree of similarity indicating the degree of similarity to the second character string, and for each fourth character string, calculate a second degree of similarity indicating the degree of similarity to the first character string. A calculation unit that calculates each,
前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、該第1類似度及び前記第3文字列の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部と、According to at least one of a first reliability level indicating the reliability level of character recognition of the first character string, and a second reliability level indicating the reliability level of character recognition of the second character string, and the first similarity level. , outputs first information based on at least one of the first similarity and the third character string, and is evaluated using the first reliability, the second reliability, and the second similarity. , when the reliability of the fourth character string with respect to the first character string is less than a threshold, output the first character string as second information, and when the reliability is greater than or equal to the threshold, output the first character string. an output unit that outputs the fourth character string instead of the first character string as second information;
を有する情報処理装置。An information processing device having:
ことを特徴とする請求項1から8のいずれか1項に記載の情報処理装置。 The second image is an image including a character string indicating the pronunciation of the character string included in the first image.
The information processing device according to any one of claims 1 to 8.
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度、前記第2文字列の文字認識の信頼度を示す第2信頼度、及び前記第1類似度を用いて評価される、前記第2文字列に対する前記第3文字列の信頼性が閾値未満であるときに、第1情報として前記第2文字列を出力し、該信頼性が前記閾値以上であるときに、前記第1情報として前記第2文字列に代えて前記第3文字列を出力する出力部、
として機能させるためのプログラム。 computer,
a first recognition unit that recognizes a first character string from a first image;
a second recognition unit that recognizes a second character string from a second image related to the first image;
an extraction unit that refers to a dictionary in which different character strings are associated in advance and extracts one or more third character strings related to the first character string;
a calculation unit that calculates, for each of the third character strings, a first degree of similarity indicating the degree of similarity to the second character string;
Evaluated using a first reliability indicating reliability of character recognition of the first character string , a second reliability indicating reliability of character recognition of the second character string , and the first similarity. When the reliability of the third character string with respect to the second character string is less than a threshold, the second character string is output as first information, and when the reliability is greater than or equal to the threshold, the first an output unit that outputs the third character string instead of the second character string as information ;
A program to function as
第1画像から第1文字列を認識する第1認識部と、
前記第1画像に関連する第2画像から第2文字列を認識する第2認識部と、
異なる文字列が予め関連付けられた辞書を参照して、前記第1文字列に関連する1又は複数の第3文字列を抽出するとともに前記第2文字列に関連する1又は複数の第4文字列を抽出する抽出部と、
前記第3文字列ごとに、前記第2文字列に対する類似度を示す第1類似度をそれぞれ算出するとともに前記第4文字列ごとに、前記第1文字列に対する類似度を示す第2類似度をそれぞれ算出する算出部と、
前記第1文字列の文字認識の信頼度を示す第1信頼度、及び前記第2文字列の文字認識の信頼度を示す第2信頼度の少なくともいずれか、及び前記第1類似度に応じて、前記第3文字列及び前記第1類似度の少なくともいずれかに基づく第1情報を出力するとともに、前記第1信頼度、前記第2信頼度、及び前記第2類似度を用いて評価される、前記第1文字列に対する前記第4文字列の信頼性が閾値未満であるときに、第2情報として前記第1文字列を出力し、該信頼性が前記閾値以上であるときに、前記第2情報として前記第1文字列に代えて前記第4文字列を出力する出力部、
として機能させるためのプログラム。 computer,
a first recognition unit that recognizes a first character string from a first image;
a second recognition unit that recognizes a second character string from a second image related to the first image;
Referring to a dictionary in which different character strings are associated in advance, one or more third character strings related to the first character string are extracted , and one or more fourth character strings related to the second character string. an extraction unit that extracts
For each of the third character strings, calculate a first degree of similarity indicating the degree of similarity to the second character string , and for each fourth character string, calculate a second degree of similarity indicating the degree of similarity to the first character string. A calculation unit that calculates each ,
at least one of a first reliability level indicating the reliability level of character recognition of the first character string, and a second reliability level indicating the reliability level of character recognition of the second character string, and the first similarity level. , outputs first information based on at least one of the third character string and the first similarity , and is evaluated using the first reliability, the second reliability, and the second similarity. , when the reliability of the fourth character string with respect to the first character string is less than a threshold, output the first character string as second information, and when the reliability is greater than or equal to the threshold, output the first character string. an output unit that outputs the fourth character string instead of the first character string as 2 information ;
A program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009325A JP7404625B2 (en) | 2019-01-23 | 2019-01-23 | Information processing device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019009325A JP7404625B2 (en) | 2019-01-23 | 2019-01-23 | Information processing device and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020119206A JP2020119206A (en) | 2020-08-06 |
JP7404625B2 true JP7404625B2 (en) | 2023-12-26 |
Family
ID=71890851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019009325A Active JP7404625B2 (en) | 2019-01-23 | 2019-01-23 | Information processing device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7404625B2 (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232533A (en) | 2013-05-28 | 2014-12-11 | ゼロックス コーポレイションXerox Corporation | System and method for ocr output verification |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01316889A (en) * | 1988-06-17 | 1989-12-21 | Fujitsu Ltd | Handwritten character recognizing system |
JPH02178892A (en) * | 1988-12-29 | 1990-07-11 | Matsushita Electric Ind Co Ltd | Character recognition device |
JPH04280394A (en) * | 1991-03-08 | 1992-10-06 | Fujitsu Ltd | Character recognizing device and recognized character fixing method |
-
2019
- 2019-01-23 JP JP2019009325A patent/JP7404625B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014232533A (en) | 2013-05-28 | 2014-12-11 | ゼロックス コーポレイションXerox Corporation | System and method for ocr output verification |
Also Published As
Publication number | Publication date |
---|---|
JP2020119206A (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8270721B2 (en) | Method and system for acquiring data from machine-readable documents | |
JP3294995B2 (en) | Form reader | |
KR100412317B1 (en) | Character recognizing/correcting system | |
JP3345224B2 (en) | Pattern extraction device, pattern re-recognition table creation device, and pattern recognition device | |
US20110280481A1 (en) | User correction of errors arising in a textual document undergoing optical character recognition (ocr) process | |
US20100008578A1 (en) | Form recognition apparatus, method, database generation apparatus, method, and storage medium | |
JP5003051B2 (en) | Automatic mail sorting machine and automatic mail sorting method | |
Inkeaw et al. | Recognition-based character segmentation for multi-level writing style | |
US20120281919A1 (en) | Method and system for text segmentation | |
JP7404625B2 (en) | Information processing device and program | |
JPH11272800A (en) | Character recognition device | |
US10049107B2 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
JP4810853B2 (en) | Character image cutting device, character image cutting method and program | |
JP2022095391A (en) | Information processing apparatus and information processing program | |
JPH10154204A (en) | Pattern recognition device and method therefor | |
JPH11328306A (en) | Method and device for extracting logical element of document image, and record medium | |
US6636636B1 (en) | Character recognizing apparatus, method, and storage medium | |
JP2020119291A (en) | Information processing device and program | |
JP3812719B2 (en) | Document search device | |
JPH07114619A (en) | Document recognizing device | |
JPH09274645A (en) | Method and device for recognizing character | |
US20230045871A1 (en) | Character recognition method, computer program product with stored program and computer readable medium with stored program | |
JP3128357B2 (en) | Character recognition processor | |
JPS60217483A (en) | Recognizer of character | |
JPH0689330A (en) | Image filing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230704 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7404625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |