JP2016212473A - Information processor and information processing program - Google Patents

Information processor and information processing program Download PDF

Info

Publication number
JP2016212473A
JP2016212473A JP2015092498A JP2015092498A JP2016212473A JP 2016212473 A JP2016212473 A JP 2016212473A JP 2015092498 A JP2015092498 A JP 2015092498A JP 2015092498 A JP2015092498 A JP 2015092498A JP 2016212473 A JP2016212473 A JP 2016212473A
Authority
JP
Japan
Prior art keywords
lattice
module
recognition
character
single character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015092498A
Other languages
Japanese (ja)
Other versions
JP6511942B2 (en
Inventor
瑛一 田中
Eiichi Tanaka
瑛一 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2015092498A priority Critical patent/JP6511942B2/en
Publication of JP2016212473A publication Critical patent/JP2016212473A/en
Application granted granted Critical
Publication of JP6511942B2 publication Critical patent/JP6511942B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an information processor for eliminating the need of information on a boundary between single characters as a teacher signal in machine learning in character recognition of a recognition object.SOLUTION: Reception means of the information processor receives semi-character pattern strings and correct answer text strings of a recognition object, creation means creates a first lattice including a sequence of character recognition results to the recognition object, and a second lattice including a sequence of the correct answer text strings to the recognition object by a combination of the semi-character pattern strings, and difference means respectively calculates expectation values of differential values of evaluation values of the sequences included in the first lattice and the second lattice created by the creation means, and calculates difference between the expectation value of the first lattice and the expectation value of the second lattice as a recognition parameter update value in machine learning.SELECTED DRAWING: Figure 6

Description

本発明は、情報処理装置および情報処理プログラムに関する。   The present invention relates to an information processing apparatus and an information processing program.

特許文献1には、利便性のためユーザが連続入力した入力文字列を認識する手書き文字認識の方法と装置を提供することを課題とし、入力文字列における複数のストローク結合の単文字認識精度に関する特徴量と空間幾何学的な特徴量とを含む、入力文字列の様々な特徴量を計算する工程と確率モデル係数がサンプル訓練を通じたパラメータ推定法で推定される確率モデルにより、様々な切り出しパタンについて各ストローク結合の切り出し信頼度を計算する工程と上記複数のストローク結合の単文字認識を行うときにマルチテンプレートマッチング法で様々な書字パタンの文字を認識する工程と最良の切り出しパスを検索する工程と認識結果最適化用の後処理を行う工程とを含み、構造が単純で、ハードウェア要求が低く、認識が高速かつ高精度であり、組込システムに実装できる利点を有することが開示されている。   Patent Document 1 has an object to provide a handwritten character recognition method and apparatus for recognizing an input character string continuously input by a user for convenience, and relates to single character recognition accuracy of a plurality of stroke combinations in an input character string. Various cutout patterns can be obtained by calculating the various features of the input character string, including features and spatial geometric features, and by using the probability model in which the probability model coefficients are estimated by the parameter estimation method through sample training. The step of calculating the cutout reliability of each stroke combination and the step of recognizing characters of various written patterns by the multi-template matching method and the best cutout path when performing the single character recognition of the plurality of stroke combinations Process and post-processing for optimizing recognition results, simple structure, low hardware requirements, high speed recognition A precision, is disclosed to have an advantage that can be implemented in embedded systems.

特許文献2には、文字の接触や続け書き等に頑健な文字列の読み取りを実現することを課題とし、文字切り出し・特徴抽出手段 は文字列画像から切り出し位置候補を検出し、文字列読み取り手段は、切り出し位置候補に基づき文字列画像から文字パタン候補を抽出し、文字出現確率計算手段を用いて考え得るあらゆる読み取り結果の妥当性を検証し、文字出現確率計算手段は文字列読み取り手段より、文字パタン候補、文字コード、文字状態、および文字パタン候補の直前に位置する文字パタン候補の文字コード、文字状態を受け取り、直前の文字パタン候補との形状的な接続の妥当性を文字状態遷移確率を用いて評価し、また文字パタン候補があるカテゴリに属する妥当性を文字テンプレートを用いて評価し、文字パタン候補がある状態、ある文字カテゴリに属する尤度(得点)を計算し、文字列読み取り手段は文字列全体での認識得点が最大となる文字列の切り出し認識結果を探索し出力することが開示されている。   Patent Document 2 has an object of realizing reading of a character string that is robust to character contact and continuous writing, and character extraction / feature extraction means detects a cut-out position candidate from a character string image, and character string reading means Extracts a character pattern candidate from the character string image based on the cutout position candidate, verifies the validity of every possible reading result using the character appearance probability calculating means, and the character appearance probability calculating means is more than the character string reading means, Character pattern candidate, character code, character state, and character code / character state of the character pattern candidate located immediately before the character pattern candidate are received, and the validity of the geometric connection with the immediately preceding character pattern candidate is determined as the character state transition probability And using a character template to evaluate the validity of a character pattern candidate belonging to a category, It is disclosed that the likelihood (score) belonging to a certain character category is calculated, and the character string reading means searches for and outputs a character string segmentation recognition result that maximizes the recognition score of the entire character string.

特許文献3には、OCRの文字認識辞書や文字切り出しパラメータを最適化することを課題とし、文字列照合部は、文字認識部が出力する文字認識結果と、入力された文書画像の正解テキストを動的計画法により照合し、2文字列間の累積距離値、文字どうしの対応関係および誤認識箇所を抽出し、特に、ここで用いる動的計画法では、文字コードが正しく対応する格子点から水平・垂直方向にのびる経路に対して、通常の距離値に加え、ペナルティとなる距離値を上乗せすることにより、文字どうしの対応関係を正確に求め、メンテナンス部は、文字列照合部が出力する累積距離値ができるだけ小さくなるように、誤認識した文字の文字認識用辞書を修正したり、文字切り出しパラメータを微調整することが開示されている。
非特許文献1〜5には、機械学習、文字認識技術に関する技術が開示されている。
In Patent Document 3, it is an object to optimize an OCR character recognition dictionary and character segmentation parameters. The character string collation unit obtains a character recognition result output by the character recognition unit and a correct text of the input document image. Collated by dynamic programming, extracted cumulative distance value between two character strings, correspondence between characters and misrecognized locations, especially in the dynamic programming used here, from the grid points where the character code correctly corresponds In addition to the normal distance value, a penalty distance value is added to the path extending in the horizontal and vertical directions to accurately determine the correspondence between characters, and the maintenance unit outputs the character string matching unit. It is disclosed that a character recognition dictionary of a misrecognized character is corrected or a character cutout parameter is finely adjusted so that an accumulated distance value becomes as small as possible.
Non-Patent Documents 1 to 5 disclose techniques related to machine learning and character recognition techniques.

特表2012−520492号公報Special table 2012-520492 gazette 特開2000−207495号公報JP 2000-207495 A 特開平09−251518号公報JP 09-251518 A

John D.Lafferty,Andrew McCallum,and Fernando C.N.Pereira.“Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” In Proceedings of the Eighteenth International Conference on Machine Learning,ICML‘01,pp.282−289,San Francisco,CA,USA,2001.Morgan Kaufmann Publishers Inc.John D. Lufferty, Andrew McCallum, and Fernando C.L. N. Pereira. “Conditional random fields: Probabilistic models for segmenting and labeling sequence data,” In Proceedings of the Feeling International IC. 282-289, San Francisco, CA, USA, 2001. Morgan Kaufmann Publishers Inc. Peng,Jian and Bo,Liefeng and Xu,Jinbo,“Conditional Neural Fields,” Advances in neural information processing systems, pp.1419−1427,2009.Peng, Jian and Bo, Liefeng and Xu, Jinbo, “Conditional Neural Fields,” Advances in neural information processing systems, pp. 1419-1427, 2009. Zhou,Xiang−Dong and Liu,Cheng−Lin and Nakagawa,Masaki,“Online handwritten Japanese character string recognition using conditional random fields,” IEEE Computer Society,In Proceedings of the 2009 10th International Conference on Document Analysis and Recognition,ICDAR‘09,pp.521−525,Washington,DC,USA,2009.Zhou, Xiang-Dong and Liu, Cheng-Lin and Nakagawa, Masaki, "Online handwritten Japanese character string recognition using conditional random fields," IEEE Computer Society, In Proceedings of the 2009 10th International Conference on Document Analysis and Recognition, ICDAR'09 , Pp. 521-525, Washington, DC, USA, 2009. Zhou,Xiang−Dong and Wang,Da−Han and Tian,Feng and Liu,Cheng−Lin and Nakagawa,Masaki,“Handwritten Chinese/Japanese text recognition using semi−Markov conditional random fields,” IEEE Trans,Pattern Analysis and Machine Intelligence,Vol.35,No.10,pp.2413−2426,2013.Zhou, Xiang-Dong and Wang, Da-Han and Tian, Feng and Liu, Cheng-Lin and Nakagawa, Masaki, "Handwritten Chinese / Japanese text recognition using semi-Markov conditional random fields," IEEE Trans, Pattern Analysis and Machine Intelligence , Vol. 35, no. 10, pp. 2413-2426, 2013. Zhou,Xiang−Dong and Zhang,Yan−Ming and Tian,Feng and Wang,Hong−An and Liu,Cheng−Lin, “Minimum−risk training for semi−Markov conditional random fields with application to handwritten Chinese/Japanese text recognition,” Pattern Recognition,Vol.47,NO.5,pp.1904−1916,2014,Elsevier.Zhou, Xiang-Dong and Zhang, Yan-Ming and Tian, Feng and Wang, Hong-An and Liu, Cheng-Lin, "Minimum-risk training for semi-Markov conditional random fields with application to handwritten Chinese / Japanese text recognition, "Pattern Recognition, Vol. 47, NO. 5, pp. 1904-1916, 2014, Elsevier.

本発明は、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とするようにした情報処理装置および情報処理プログラムを提供することを目的としている。   An object of the present invention is to provide an information processing apparatus and an information processing program that do not require information regarding a boundary between single characters as a teacher signal in machine learning in character recognition of a recognition target.

かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、認識対象についての準文字パタン列と正解テキスト列を受け付ける受付手段と、前記認識対象に対する文字認識結果の系列を含む第1のラティスと、準文字パタン列の組み合わせによって、前記認識対象に対する正解テキスト列の系列を含む第2のラティスを作成する作成手段と、前記作成手段によって作成された第1のラティスと第2のラティスに含まれる系列の評価値の微分値の期待値を各々算出し、機械学習における認識パラメータ更新量として、該第1のラティスの期待値と該第2のラティスの期待値の差分を算出する差分手段を具備することを特徴とする情報処理装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
The invention of claim 1 is a combination of a receiving means for receiving a quasi-character pattern string and a correct text string for a recognition object, a first lattice including a series of character recognition results for the recognition object, and a quasi-character pattern string. Creation means for creating a second lattice including a series of correct text strings for the recognition target, and expectation of a differential value of evaluation values of series included in the first lattice and the second lattice created by the creation means An information processing apparatus comprising: a difference unit that calculates each value and calculates a difference between the expected value of the first lattice and the expected value of the second lattice as a recognition parameter update amount in machine learning It is.

請求項2の発明は、前記作成手段は、前記第1のラティスと前記第2のラティスを統合した第3のラティスを作成し、該第3のラティスを第1のラティスとすることを特徴とする請求項1に記載の情報処理装置である。   The invention of claim 2 is characterized in that the creating means creates a third lattice obtained by integrating the first lattice and the second lattice, and uses the third lattice as the first lattice. The information processing apparatus according to claim 1.

請求項3の発明は、単文字パタンの単文字識別結果を記憶する記憶手段をさらに具備し、前記作成手段は、前記記憶手段に記憶されている単文字パタンの単文字識別結果を用いることを特徴とする請求項1又は2に記載の情報処理装置である。   The invention of claim 3 further comprises storage means for storing a single character identification result of the single character pattern, wherein the creating means uses the single character identification result of the single character pattern stored in the storage means. The information processing apparatus according to claim 1 or 2, characterized in that

請求項4の発明は、前記第1のラティスの期待値計算において、局所的なエネルギー関数に関する計算結果を記憶する第2の記憶手段をさらに具備し、前記差分手段は、前記第2の記憶手段に記憶されている計算結果を前記第2のラティスの期待値計算に用いることを特徴とする請求項1又は2に記載の情報処理装置である。   The invention of claim 4 further comprises second storage means for storing a calculation result relating to a local energy function in the expected value calculation of the first lattice, wherein the difference means is the second storage means. The information processing apparatus according to claim 1, wherein the calculation result stored in is used for calculating the expected value of the second lattice.

請求項5の発明は、前記第1のラティスと前記第2のラティスのペアのセットを作成する作成手段と、前記セットからサブセットを抽出する抽出手段と、前記抽出手段によって抽出されたサブセットに含まれるそれぞれのペアについて、認識パラメータ更新量を算出する請求項1から4のいずれか一項に記載の情報処理装置を含む算出手段と、前記認識パラメータ更新量のセットについて、対応する該認識パラメータ更新量の和を算出し、予め定められた係数を乗算し、現在の認識パラメータ更新量から該乗算結果の値を減算することで、認識パラメータを更新する更新手段を具備し、前記抽出手段、前記算出手段、前記更新手段による処理を繰り返すことを特徴とする情報処理装置である。   The invention according to claim 5 is included in the subset extracted by the creating means for creating the set of the first and second lattice pairs, the extracting means for extracting the subset from the set, and the extracting means. 5. The calculation means including the information processing apparatus according to claim 1 for calculating a recognition parameter update amount for each of the pairs, and the recognition parameter update corresponding to the set of recognition parameter update amounts. An update means for updating the recognition parameter by calculating the sum of the quantities, multiplying by a predetermined coefficient, and subtracting the value of the multiplication result from the current recognition parameter update quantity, the extraction means, The information processing apparatus is characterized in that the processing by the calculating means and the updating means is repeated.

請求項6の発明は、前記認識対象は、文字画像又は文字のストローク情報であることを特徴とする請求項1から5のいずれか一項に記載の情報処理装置である。   The invention according to claim 6 is the information processing apparatus according to any one of claims 1 to 5, wherein the recognition target is a character image or character stroke information.

請求項7の発明は、コンピュータを、認識対象についての準文字パタン列と正解テキスト列を受け付ける受付手段と、前記認識対象に対する文字認識結果の系列を含む第1のラティスと、準文字パタン列の組み合わせによって、前記認識対象に対する正解テキスト列の系列を含む第2のラティスを作成する作成手段と、前記作成手段によって作成された第1のラティスと第2のラティスに含まれる系列の評価値の微分値の期待値を各々算出し、機械学習における認識パラメータ更新量として、該第1のラティスの期待値と該第2のラティスの期待値の差分を算出する差分手段として機能させるための情報処理プログラムである。   The invention of claim 7 is a computer that accepts a quasi-character pattern sequence and a correct text sequence for a recognition target, a first lattice including a sequence of character recognition results for the recognition target, and a quasi-character pattern sequence. A creation unit that creates a second lattice including a series of correct text strings for the recognition target by combination, and a derivative of the evaluation value of the series included in the first lattice and the second lattice created by the creation unit Information processing program for calculating expected values of values and functioning as difference means for calculating a difference between the expected value of the first lattice and the expected value of the second lattice as a recognition parameter update amount in machine learning It is.

請求項1の情報処理装置によれば、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とすることができる。   According to the information processing apparatus of the first aspect, information regarding the boundary between single characters can be made unnecessary as a teacher signal in machine learning in character recognition to be recognized.

請求項2の情報処理装置によれば、第2のラティスを含めた第1のラティスを用いて、機械学習をすることができる。   According to the information processing apparatus of the second aspect, machine learning can be performed using the first lattice including the second lattice.

請求項3の情報処理装置によれば、2回目以降の重複する単文字パタンの文字認識については、その文字認識を行う必要がない。   According to the information processing apparatus of the third aspect, it is not necessary to perform character recognition for character recognition of overlapping single character patterns for the second and subsequent times.

請求項4の情報処理装置によれば、2回目以降の重複する期待値計算については、その期待値計算を行う必要がない。   According to the information processing apparatus of claim 4, it is not necessary to perform the expected value calculation for the second and subsequent expected value calculations.

請求項5の情報処理装置によれば、認識パラメータを更新しない場合に比べて、より良好な認識パラメータが得られる。   According to the information processing apparatus of the fifth aspect, better recognition parameters can be obtained as compared with the case where the recognition parameters are not updated.

請求項6の情報処理装置によれば、文字画像又は文字のストローク情報を認識対象とすることができる。   According to the information processing apparatus of the sixth aspect, a character image or character stroke information can be set as a recognition target.

請求項7の情報処理プログラムによれば、認識対象の文字認識における機械学習において、教師信号として単文字間の境界に関する情報を不要とすることができる。   According to the information processing program of the seventh aspect, in the machine learning in the recognition of the character to be recognized, the information regarding the boundary between the single characters can be made unnecessary as the teacher signal.

入力の文字列パタンの例を示す説明図である。It is explanatory drawing which shows the example of the input character string pattern. 準文字パタン列の例を示す説明図である。It is explanatory drawing which shows the example of a quasi-character pattern row | line | column. 単文字パタン列候補の例を示す説明図である。It is explanatory drawing which shows the example of a single character pattern row | line candidate. 文字列認識の出力候補ラティスの例を示す説明図である。It is explanatory drawing which shows the example of the output candidate lattice of a character string recognition. テキスト列限定ラティスの例を示す説明図である。It is explanatory drawing which shows the example of a text string limitation lattice. 第1の実施の形態(学習用ラティス作成)の構成例についての概念的なモジュール構成図である。It is a conceptual module block diagram about the structural example of 1st Embodiment (lattice preparation for learning). 第1の実施の形態(認識パラメータ更新量計算)の構成例についての概念的なモジュール構成図である。It is a conceptual module block diagram about the structural example of 1st Embodiment (recognition parameter update amount calculation). 第2の実施の形態(和ラティス作成)の構成例についての概念的なモジュール構成図である。It is a conceptual module block diagram about the structural example of 2nd Embodiment (Japanese lattice creation). テキスト列限定の出力候補ラティスと出力候補ラティスの和の例を示す説明図である。It is explanatory drawing which shows the example of the sum of the output candidate lattice of a text string limitation, and an output candidate lattice. 第3の実施の形態(単文字識別結果を転用)の構成例についての概念的なモジュール構成図である。It is a notional module block diagram about the structural example of 3rd Embodiment (a single character identification result is diverted). 第4の実施の形態(境界評価値を転用)の構成例についての概念的なモジュール構成図である。It is a notional module block diagram about the structural example of 4th Embodiment (border evaluation value is diverted). 第5の実施の形態(SGD)の構成例についての概念的なモジュール構成図である。It is a notional module block diagram about the structural example of 5th Embodiment (SGD). 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。It is a block diagram which shows the hardware structural example of the computer which implement | achieves this Embodiment.

本実施の形態は、文字列認識技術に関するものである。以下に、本実施の形態の説明で用いる用語の定義を行う。
文字列認識とは、文字画像又は文字のストロークである文字列パタンの入力に対して、対応するテキスト列を出力する処理である。特に、文字数と単文字どうしの境界が未知である文字列の文字列認識の機械学習技術に関するものである。すなわち、単文字が偏や旁からなるため、単文字が複数の連結成分からなる日本語や、単文字どうしが接触して筆記されるため、1つの連結成分が複数の単文字からなる筆記体等の文字列を認識対象とする。
The present embodiment relates to a character string recognition technique. Hereinafter, terms used in the description of this embodiment will be defined.
Character string recognition is a process of outputting a corresponding text string in response to an input of a character string pattern that is a character image or a character stroke. In particular, the present invention relates to a machine learning technique for character string recognition of a character string in which the number of characters and the boundary between single characters are unknown. In other words, because single characters are composed of partial and 旁, single characters are written in Japanese with multiple connected components, and single characters are written in contact with each other, so one connected component is written with multiple single characters. A character string such as

なお、本実施の形態の説明では、画像とストロークを「パタン」と総称する。すなわち、文字列認識の入力は、文字列画像又は文字列ストロークであるが、これらを文字列パタンと総称する。また、文字列認識の正解に相当する単文字の種別(読み)を「テキスト」と呼ぶ。また、単文字パタンどうしの境界を「境界」と呼ぶ。文字列認識の出力は境界列で分割された単文字パタン列とその読みであるテキスト列であるが、これらをまとめて「出力系列」と呼ぶ。また、認識パラメータを学習データから推定することを「学習」(機械学習)と呼ぶ。   In the description of the present embodiment, images and strokes are collectively referred to as “patterns”. That is, the input for character string recognition is a character string image or a character string stroke, which are collectively referred to as a character string pattern. Also, the type (reading) of a single character corresponding to the correct answer for character string recognition is called “text”. A boundary between single character patterns is called a “boundary”. The output of character string recognition is a single character pattern string divided by a boundary string and a text string that is a reading thereof, and these are collectively called an “output series”. Estimating the recognition parameters from the learning data is called “learning” (machine learning).

まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する情報処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
本実施の形態(すなわち、認識処理に用いる機械学習に関する情報処理装置)を適用する文字列認識の処理を説明する。
図1に入力の文字列パタンの例を示す。図1の例に示す入力に対しては、「本村拓哉」というテキスト列を出力することが良好な文字列認識結果といえる。
First, before describing the present embodiment, the premise or an information processing apparatus using the present embodiment will be described. This description is intended to facilitate understanding of the present embodiment.
A character string recognition process to which the present embodiment (that is, an information processing apparatus related to machine learning used for the recognition process) is applied will be described.
FIG. 1 shows an example of an input character string pattern. For the input shown in the example of FIG. 1, outputting a text string “Takuya Motomura” is a good character string recognition result.

図1の例に示す文字列は、文字と文字との間である境界が未知であるため、単文字識別を行うべき領域も未知となる。そこで、ここでの文字列認識は、まず、多数の境界の候補を検出し、単文字パタン以下の単位である部分パタンを作成する。この部分パタンを準文字パタンと呼ぶ。準文字パタン列の例を図2に示す。なお、図2は分かりやすさのため輝度を反転している。   In the character string shown in the example of FIG. 1, since the boundary between characters is unknown, the region for single character identification is also unknown. Therefore, in the character string recognition here, first, a number of boundary candidates are detected, and a partial pattern that is a unit of a single character pattern or less is created. This partial pattern is called a quasi-character pattern. An example of the quasi-character pattern sequence is shown in FIG. In FIG. 2, the luminance is inverted for easy understanding.

続いて、準文字パタン列について、全ての単文字パタン列の候補を作成する。単文字パタンは連続する1つ以上の準文字パタンによって構成される。よって、(テキスト数が未知であり)準文字パタン数がN個のとき、単文字パタン列の候補数は全部で、数式1に示す数だけある。

Figure 2016212473
このとき、単文字パタン候補を間引きしてもよい。例えば、M個以下の準文字パタンからなる単文字パタンを作成するという方法がある。M=3としてこの方法を適用した単文字パタン列候補の例を図3に示す。つまり、単文字パタンを、3個以下の連続する準文字パタン(1個の準文字パタンを含む)によって構成する。例えば、左端にあるxを含む単文字パタンには、xの単文字パタン、xとxの単文字パタン、xとxとxの単文字パタンがある。図3に示す例において、丸角長方形が単文字パタンを表す。その丸角長方形間をつなぐ直線(リンク)は、単文字パタンどうしが隣り合うことを示す。隣り合うノードを辿ることで単文字パタン列が得られる。また、bos,eosは単文字パタン列の始点と終点を表す模式的なノードである。なお、良好な文字列認識結果が得られる単文字パタン列は、1文字目を(x)、2文字目を(x,x)、3文字目を(x,x)、4文字目を(x,x)とするものであり、図3の例では、黒い丸角長方形(ノード310、ノード320、ノード340、ノード360)で図示している。 Subsequently, candidates for all single character pattern sequences are created for the quasi-character pattern sequence. A single character pattern is composed of one or more consecutive quasi-character patterns. Therefore, when the number of quasi-character patterns (the number of texts is unknown) is N, the total number of single-character pattern sequence candidates is the number shown in Equation 1.
Figure 2016212473
At this time, single character pattern candidates may be thinned out. For example, there is a method of creating a single character pattern composed of M or less quasi-character patterns. An example of a single character pattern sequence candidate to which this method is applied with M = 3 is shown in FIG. That is, the single character pattern is composed of three or less consecutive quasi-character patterns (including one quasi-character pattern). For example, the single character pattern including x 1 at the left end includes a single character pattern of x 1, a single character pattern of x 1 and x 2, and a single character pattern of x 1 , x 2, and x 3 . In the example shown in FIG. 3, a rounded rectangle represents a single character pattern. A straight line (link) connecting the rounded rectangles indicates that single character patterns are adjacent to each other. A single character pattern string can be obtained by tracing adjacent nodes. Bos and eos are schematic nodes representing the start point and end point of the single character pattern string. In addition, the single character pattern sequence from which a good character string recognition result is obtained is that the first character is (x 1 ), the second character is (x 2 , x 3 ), the third character is (x 4 , x 5 ), The fourth character is (x 6 , x 7 ), and in the example of FIG. 3, it is illustrated by a black rounded rectangle (node 310, node 320, node 340, node 360).

続いて、単文字識別機を用いて単文字領域(図3の例では、丸角長方形で示された単文字パタン)のテキスト候補を作成する。これにより、文字列認識が出力しうる全ての単文字パタン列とテキスト列の候補が作成される。
このとき、テキスト候補を間引いてもよい。例えば、単文字識別の確信度の高い上位K個のテキストを採用するという方法がある。K=3としてこの方法を適用した文字列認識が出力しうる全ての単文字パタン列とテキスト列の候補の例を図4に示す。図4に示す例は、図3の例に示したものにテキスト候補を付加した例であり、テキストを単文字パタンの中に図示している。隣り合うノードを辿ることで、単文字パタン列とテキスト列が得られる。なお、良好な文字列認識結果は、1文字目を((x),‘本’)、2文字目を((x,x),‘村’)、3文字目を((x,x),‘拓’)、4文字目を((x,x),‘哉’)とするものあり、図4の例では、ノード410、ノード420、ノード440、ノード460で図示している。
Subsequently, text candidates in a single character region (in the example of FIG. 3, a single character pattern indicated by a rounded rectangle) are created using a single character classifier. As a result, all single character pattern strings and text string candidates that can be output by the character string recognition are created.
At this time, text candidates may be thinned out. For example, there is a method of adopting the top K texts with high certainty of single character identification. FIG. 4 shows examples of all single character pattern strings and text string candidates that can be output by character string recognition using this method with K = 3. The example shown in FIG. 4 is an example in which text candidates are added to those shown in the example of FIG. 3, and the text is illustrated in a single character pattern. By tracing adjacent nodes, a single character pattern string and a text string are obtained. A good character string recognition result is that the first character is ((x 1 , 'book'), the second character is ((x 2 , x 3 ), 'village'), the third character is ((x 4 , x 5 ), “taku”), and the fourth character is ((x 6 , x 7 ), “ya”). In the example of FIG. 4, node 410, node 420, node 440, node 460 This is shown in the figure.

最後に、これらの文字列認識の出力候補から、最適なものを選択し出力する。
いま、入力の準文字パタン列をX=(x,…,x)とする。なお、Nは準文字パタン列長である。また、出力の単文字パタン列をS=(s,…,s)とする。なお、s=(b,e)であり、bは単文字パタンsに含まれる準文字の開始番号、eは終了番号を表す。すなわち、単文字パタンsは、準文字パタンである数式2からなる。

Figure 2016212473
また、b=1、e=N、および、bt−1+1=eである。また、テキスト列をY=(y,…,y)とする。以上において、Tは単文字パタン数とテキスト数を表し、T≦Nである。 Finally, an optimum output is selected from these character string recognition output candidates and output.
Now, let the input quasi-character pattern sequence be X = (x 1 ,..., X N ). N is the quasi-character pattern string length. Also, the output single character pattern string is S = (s 1 ,..., S T ). Incidentally, s t = (b t, e t) is, b t is the start number of the quasi-characters included in the single character pattern s t, e t represents the end number. That is, a single character pattern s t consists Equation 2 is a quasi-character pattern.
Figure 2016212473
Further, b 1 = 1, e T = N, and a b t-1 + 1 = e t. The text string is Y = (y 1 ,..., Y T ). In the above, T represents the number of single character patterns and the number of texts, and T ≦ N.

さらに、v=(s,y)として、文字列認識の出力系列をV=(v,…,v)とすると、図4に示す例は、Vの全候補を含むラティスと見ることができる。最適な候補の選択とは、数式3のようにエネルギー関数E(X,V,Θ)が最小となるVを探索することである。なお、Θは学習によって得られる認識パラメータである。

Figure 2016212473
Furthermore, assuming that v t = (s t , y t ) and the output sequence of character string recognition is V = (v 1 ,..., V T ), the example shown in FIG. Can see. The selection of the optimum candidate is to search for V * that minimizes the energy function E (X, V, Θ) as shown in Equation 3. Note that Θ is a recognition parameter obtained by learning.
Figure 2016212473

エネルギー関数E(X,V,Θ)は、数式4のように計算すればよい。これは、隣り合う出力系列の要素から計算される局所的なエネルギー関数E(vt−1,vt,X,Θ)の和となっている。このようにエネルギー関数を部分に分解することで、数式3の探索がViterbi−Algorithmと呼ばれる方法で高速に解かれることが知られている。

Figure 2016212473
The energy function E (X, V, Θ) may be calculated as in Equation 4. This is the sum of local energy functions E (v t−1 , v t, X, Θ) calculated from elements of adjacent output series. It is known that the search of Equation 3 can be solved at high speed by a method called Viterbi-Algorithm by decomposing the energy function into parts in this way.
Figure 2016212473

さらに、局所的なエネルギー関数E(vt−1,v,X,Θ)は、数式6や数式7、又は、数式8のように計算すればよい。それぞれ、数式6は非特許文献1で、数式7は非特許文献2で、数式8は非特許文献3、4、5で示される方法である。

Figure 2016212473
なお、数式5はパラメータΘの要素である。また、F,Vはパラメータのサイズである。また、f(st−1,s,X)やf(st−1,s,yt−1、y,X)は特徴量関数である。また、σ(・)はシグモイド関数等を用いればよい。
Figure 2016212473
Figure 2016212473
Figure 2016212473
なお、特徴量関数は、非特許文献3、4、5や特許文献1等で示される方法を用いればよい。また、数式3では、v=(s,y)が必要となるが、これはXや事前の知識に基づいて計算される仮想的なノード(すなわち、bos)を設定すればよい。例えば、s=(0,0)としてyにはスペースコードや、文字列の始端を表す任意のシンボル等を設定すればよい。 Furthermore, the local energy function E (v t−1 , v t , X, Θ) may be calculated as in Equation 6, Equation 7, or Equation 8. Equation 6 is a method shown in Non-Patent Document 1, Equation 7 is Non-Patent Document 2, and Equation 8 is a method shown in Non-Patent Documents 3, 4, and 5.
Figure 2016212473
Equation 5 is an element of the parameter Θ. F and V are parameter sizes. F i (s t−1 , st t , X) and f i (s t−1 , st t , y t−1 , y t , X) are feature quantity functions. Moreover, a sigmoid function or the like may be used for σ (•).
Figure 2016212473
Figure 2016212473
Figure 2016212473
For the feature amount function, a method shown in Non-Patent Documents 3, 4, 5 or Patent Document 1 may be used. Further, in Expression 3, v 0 = (s 0 , y 0 ) is required, but this may be performed by setting a virtual node (that is, bos) calculated based on X and prior knowledge. For example, s 0 = (0, 0) and y 0 may be set with a space code or an arbitrary symbol representing the start of a character string.

特許文献1、2、3や非特許文献3、4、5に示される文字列認識技術は、いずれも本実施の形態と同様に文字数と境界が未知である文字列を認識しようとするものである。また、その認識パラメータの学習方法が示されるものである。
非特許文献3、4、5や特許文献1に示される技術は、学習の教師信号として正解の出力系列が必要となる。すなわち、正解のテキスト列と正解の単文字パタン列(境界列)の両方が必要であるため、学習データ作成コストが大きい。
これに対して、特許文献2や特許文献3に示される技術は、学習の教師信号として正解のテキスト列のみ必要であるため、単文字パタン列の教師信号付与コストがなく、学習データ作成のコストが小さい。しかし、特許文献2に示される技術は、教師信号として与えられない単文字パタン列の情報を補うため、学習の前処理として境界の分割を行い単文字パタン列を一意に決定するが、この単文字パタン列が学習の教師信号となるため、ある程度良好な認識パラメータを学習の初期値としなければ良好な認識パラメータが得られない。また、特許文献3に示される技術は、学習の目的関数として正解のテキスト列と文字列認識が出力するテキスト列の編集距離を用いるが、編集距離はテキストの一致不一致に基づく離散量であり一般に評価関数に対して精度が粗いため、学習によって良好な認識パラメータが得られない。さらに、目的関数である編集距離が認識パラメータによって微分不可能であるため、計算コストの大きい数値微分によって学習を行う必要があり、計算コストが大きい。
以上のように、文字列認識において、従来の学習によって良好な認識パラメータを得るためには学習データ作成のコストが大きくなる。
The character string recognition techniques shown in Patent Documents 1, 2, and 3 and Non-Patent Documents 3, 4, and 5 are all designed to recognize character strings whose number of characters and boundaries are unknown, as in this embodiment. is there. In addition, a method for learning the recognition parameter is shown.
The techniques disclosed in Non-Patent Documents 3, 4, 5 and Patent Document 1 require a correct output sequence as a learning teacher signal. That is, since both a correct text string and a correct single-character pattern string (boundary string) are required, the learning data creation cost is high.
On the other hand, since the techniques shown in Patent Document 2 and Patent Document 3 require only a correct text string as a learning teacher signal, there is no cost for providing a single character pattern string and learning data creation cost. Is small. However, in the technique shown in Patent Document 2, in order to compensate for information of a single character pattern sequence that is not given as a teacher signal, boundary division is performed as learning preprocessing, and a single character pattern sequence is uniquely determined. Since the character pattern string serves as a learning teacher signal, a good recognition parameter cannot be obtained unless a somewhat good recognition parameter is used as an initial value for learning. The technique disclosed in Patent Document 3 uses an edit distance between a correct text string and a text string output by character string recognition as an objective function of learning, and the edit distance is a discrete amount based on text mismatch and generally Since the accuracy of the evaluation function is rough, a good recognition parameter cannot be obtained by learning. Furthermore, since the edit distance that is the objective function cannot be differentiated by the recognition parameter, it is necessary to perform learning by numerical differentiation with a high calculation cost, which is expensive.
As described above, in character string recognition, learning data creation costs increase in order to obtain good recognition parameters by conventional learning.

本実施の形態の概要を説明する。
本実施の形態は、文字列認識機が文字列パタンに対して、正解のテキスト列で限定される出力系列の候補を作成することで、学習データ作成のコストを減少させる。具体的には、図2の例に示すような準文字パタン列に対して、図5の例に示すようなテキスト列で限定された出力候補ラティスを作成する。以下では、これをテキスト列限定ラティスと呼ぶ。テキスト列限定ラティスには、図4の例に示す出力候補ラティスに含まれる正解の出力系列の他、正解のテキスト列を持つが、単文字パタン列が異なる出力系列を持つ。すなわち、正解の出力系列である「ノード510、ノード520、ノード540、ノード560」の他に、正解でない出力系列(境界が誤っているものが含まれている出力系列)が教師信号として与えられる。
しかし、本実施の形態の学習においては、テキスト列限定ラティスのそれぞれの出力系列について、その評価値で重み付けを行うことで、学習の進行に伴い、正解でない出力系列の影響が低減され、学習が良好なものとなる。
An outline of the present embodiment will be described.
In the present embodiment, the character string recognizer creates an output sequence candidate limited by the correct text string for the character string pattern, thereby reducing learning data creation cost. Specifically, an output candidate lattice limited to a text string as shown in the example of FIG. 5 is created for the quasi-character pattern string as shown in the example of FIG. Hereinafter, this is referred to as a text string limited lattice. In addition to the correct output series included in the output candidate lattice shown in the example of FIG. 4, the text string limited lattice has a correct text string but an output series with a different single character pattern string. That is, in addition to “node 510, node 520, node 540, and node 560” which are correct output sequences, an output sequence that is not correct (an output sequence including an incorrect boundary) is given as a teacher signal. .
However, in the learning of the present embodiment, by weighting each output sequence of the text string limited lattice with the evaluation value, the influence of the output sequence that is not correct is reduced as the learning progresses, and learning is performed. It will be good.

本実施の形態によれば、特許文献2や特許文献3に示される技術と同様に、教師信号として正解のテキスト列のみが必要であり、単文字パタン列の教師信号付与コストがない学習データ作成コストの小さい文字列認識の学習が実現される。
さらに本実施の形態は、前処理として単文字パタン列を一意に決定しないため、初期値に依存せず、学習によって良好な認識パラメータが得られる、また、本実施の形態の目的関数は、非特許文献3、4、5や特許文献1と同様に、認識パラメータによって微分可能であり、評価関数に対して十分な精度を持つため、学習によって良好な認識パラメータが得られ、また、その計算コストが小さい。
According to the present embodiment, similar to the techniques disclosed in Patent Document 2 and Patent Document 3, only a correct text string is required as a teacher signal, and learning data generation without a teacher signal provision cost for a single character pattern string is required. Learning of character string recognition with low cost is realized.
Furthermore, since this embodiment does not uniquely determine a single character pattern string as pre-processing, it does not depend on the initial value, and a good recognition parameter can be obtained by learning. Similar to Patent Documents 3, 4, 5 and Patent Document 1, it can be differentiated by the recognition parameter and has sufficient accuracy for the evaluation function, so that a good recognition parameter can be obtained by learning, and its calculation cost Is small.

以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<<第1の実施の形態>>
図6は、第1の実施の形態(学習用ラティス作成)の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システムおよび方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
Hereinafter, examples of various preferred embodiments for realizing the present invention will be described with reference to the drawings.
<< First Embodiment >>
FIG. 6 shows a conceptual module configuration diagram of a configuration example of the first embodiment (learning lattice creation).
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment is a computer program for causing these modules to function (a program for causing a computer to execute each procedure, a program for causing a computer to function as each means, and a function for each computer. This also serves as an explanation of the system and method. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. This means that control is performed so as to be stored in the apparatus. Modules may correspond to functions one-to-one, but in mounting, one module may be configured by one program, or a plurality of modules may be configured by one program, and conversely, one module May be composed of a plurality of programs. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.). “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. In addition, if it is before the target processing, it is used in accordance with the situation / state at that time or with the intention to be decided according to the situation / state up to that point. When there are a plurality of “predetermined values”, they may be different values, or two or more values (of course, including all values) may be the same. In addition, the description having the meaning of “do B when it is A” is used in the meaning of “determine whether or not it is A and do B when it is judged as A”. However, the case where it is not necessary to determine whether or not A is excluded.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is also included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.
In addition, when performing a plurality of processes in each module or in each module, the target information is read from the storage device for each process, and the processing result is written to the storage device after performing the processing. is there. Therefore, description of reading from the storage device before processing and writing to the storage device after processing may be omitted. Here, the storage device may include a hard disk, a RAM (Random Access Memory), an external storage medium, a storage device via a communication line, a register in a CPU (Central Processing Unit), and the like.

本実施の形態の最小構成の実施の形態の例を図6、図7に示す。本実施の形態によって、学習における認識パラメータ更新量が得られる。
図6の例に示す第1の実施の形態(学習用ラティス作成)は、単文字パタン列候補作成モジュール610、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630、単文字識別1モジュール640、学習用ラティス書き出しモジュール650を有している。
図6の例に示す構成は、準文字パタン列608と正解テキスト列606を入力として(つまり、境界に関する情報は入力として不要である)、出力候補ラティス622とテキスト列限定ラティス632を出力する。以下では、これら2つのラティスのペアを学習用ラティス652と呼ぶ。
単文字パタン列候補作成モジュール610は、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630と接続されており、認識対象についての準文字パタン列608を受け付け、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630に単文字パタン列候補612を渡す。
出力候補ラティス作成1モジュール620は、単文字パタン列候補作成モジュール610、単文字識別1モジュール640、学習用ラティス書き出しモジュール650と接続されており、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、単文字識別1モジュール640に単文字パタン624を渡し、単文字識別1モジュール640から単文字識別結果642を受け取り、学習用ラティス書き出しモジュール650に出力候補ラティス622を渡す。出力候補ラティス作成1モジュール620は、認識対象に対する文字認識結果の系列を含む出力候補ラティス622を作成する。
テキスト列限定ラティス作成1モジュール630は、単文字パタン列候補作成モジュール610、単文字識別1モジュール640、学習用ラティス書き出しモジュール650と接続されており、正解テキスト列606を受け付け、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、単文字識別1モジュール640に単文字パタン634を渡し、単文字識別1モジュール640から単文字識別結果644を受け取り、学習用ラティス書き出しモジュール650にテキスト列限定ラティス632を渡す。テキスト列限定ラティス作成1モジュール630は、準文字パタン列の組み合わせによって、認識対象に対する正解テキスト列の系列を含むテキスト列限定ラティス632を作成する。なお、出力候補ラティス作成1モジュール620とテキスト列限定ラティス作成1モジュール630の処理を、1つのモジュールで行うようにしてもよい。
単文字識別1モジュール640は、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630と接続されており、出力候補ラティス作成1モジュール620から単文字パタン624を受け取り、出力候補ラティス作成1モジュール620に単文字識別結果642を渡し、テキスト列限定ラティス作成1モジュール630から単文字パタン634を受け取り、テキスト列限定ラティス作成1モジュール630に単文字識別結果644を渡す。
学習用ラティス書き出しモジュール650は、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630と接続されており、出力候補ラティス作成1モジュール620から出力候補ラティス622を、テキスト列限定ラティス作成1モジュール630からテキスト列限定ラティス632を受け取り、学習用ラティス652を出力する。
An example of an embodiment of the minimum configuration of the present embodiment is shown in FIGS. According to the present embodiment, a recognition parameter update amount in learning is obtained.
The first embodiment (learning lattice creation) shown in the example of FIG. 6 includes a single character pattern sequence candidate creation module 610, an output candidate lattice creation 1 module 620, a text sequence limited lattice creation 1 module 630, and a single character identification 1 A module 640 and a learning lattice writing module 650 are provided.
The configuration shown in the example of FIG. 6 outputs the output candidate lattice 622 and the text string limited lattice 632 with the quasi-character pattern string 608 and the correct text string 606 as inputs (that is, information regarding boundaries is not necessary as an input). Hereinafter, the pair of these two lattices is referred to as a learning lattice 652.
The single character pattern sequence candidate creation module 610 is connected to the output candidate lattice creation 1 module 620 and the text sequence limited lattice creation 1 module 630, accepts the quasi-character pattern sequence 608 for the recognition target, and outputs the output candidate lattice creation 1 module. 620, the single character pattern string candidate 612 is passed to the text string limitation lattice creation 1 module 630.
The output candidate lattice creation 1 module 620 is connected to the single character pattern sequence candidate creation module 610, the single character identification 1 module 640, and the learning lattice writing module 650, and from the single character pattern sequence candidate creation module 610 to the single character pattern sequence The candidate 612 is received, the single character pattern 624 is passed to the single character identification 1 module 640, the single character identification result 642 is received from the single character identification 1 module 640, and the output candidate lattice 622 is passed to the learning lattice writing module 650. The output candidate lattice creation 1 module 620 creates an output candidate lattice 622 including a series of character recognition results for the recognition target.
The text string limited lattice creation 1 module 630 is connected to the single character pattern sequence candidate creation module 610, the single character identification 1 module 640, and the learning lattice export module 650, accepts the correct text sequence 606, and receives the single character pattern sequence candidate. The single character pattern sequence candidate 612 is received from the creation module 610, the single character pattern 634 is passed to the single character identification 1 module 640, the single character identification result 644 is received from the single character identification 1 module 640, and the text is output to the learning lattice writing module 650. Pass column-limited lattice 632. The text string restriction lattice creation 1 module 630 creates a text string restriction lattice 632 including a series of correct text strings for a recognition target by combining quasi-character pattern strings. The processing of the output candidate lattice creation 1 module 620 and the text string limited lattice creation 1 module 630 may be performed by one module.
The single character identification 1 module 640 is connected to the output candidate lattice creation 1 module 620 and the text string limited lattice creation 1 module 630, receives the single character pattern 624 from the output candidate lattice creation 1 module 620, and outputs the output candidate lattice 1. The single character identification result 642 is passed to the module 620, the single character pattern 634 is received from the text string limitation lattice creation 1 module 630, and the single character identification result 644 is passed to the text string limitation lattice creation 1 module 630.
The learning lattice writing module 650 is connected to the output candidate lattice creation 1 module 620 and the text string restriction lattice creation 1 module 630, and the output candidate lattice 622 is output from the output candidate lattice creation 1 module 620 to the text string restriction lattice creation 1. The text string limited lattice 632 is received from the module 630 and a learning lattice 652 is output.

まず、単文字パタン列候補作成モジュール610が、図3の例に示すような単文字パタン列候補612を作成する。
続いて、出力候補ラティス作成1モジュール620が、図4の例に示すような出力候補ラティス622を作成する。また、テキスト列限定ラティス作成モジュール630が、図5の例に示すようなテキスト列限定ラティス632を作成する。このとき、単文字パタン列候補612に含まれる単文字パタン624、634について、単文字識別1モジュール640によって単文字識別結果642、644を得る。
最後に、学習用ラティス書き出しモジュール650が、出力候補ラティス622とテキスト限定ラティス632をペアとして書き出す。
First, the single character pattern string candidate creation module 610 creates a single character pattern string candidate 612 as shown in the example of FIG.
Subsequently, the output candidate lattice creation 1 module 620 creates an output candidate lattice 622 as shown in the example of FIG. Further, the text string limitation lattice creation module 630 creates a text string limitation lattice 632 as shown in the example of FIG. At this time, single character identification results 642 and 644 are obtained by the single character identification 1 module 640 for the single character patterns 624 and 634 included in the single character pattern string candidate 612.
Finally, the learning lattice writing module 650 writes the output candidate lattice 622 and the text limited lattice 632 as a pair.

図7の例に示す第1の実施の形態(認識パラメータ更新量計算)は、学習用ラティス読み込みモジュール710、期待値計算1モジュール720、期待値計算1モジュール730、差分計算モジュール740を有している。
図7の例に示す構成は、学習用系列候補である学習用ラティス652(学習用ラティス書き出しモジュール650の出力)と認識パラメータ706を入力として、認識パラメータ更新量742を出力する。
学習用ラティス読み込みモジュール710は、期待値計算1モジュール720、期待値計算1モジュール730と接続されており、学習用ラティス652を受け付け、期待値計算1モジュール720に出力候補ラティス712を、期待値計算1モジュール730にテキスト列限定ラティス714を渡す。
期待値計算1モジュール720は、学習用ラティス読み込みモジュール710、差分計算モジュール740と接続されており、認識パラメータ706を受け付け、学習用ラティス読み込みモジュール710から出力候補ラティス712を受け取り、差分計算モジュール740に出力候補ラティス期待値722を渡す。
期待値計算1モジュール730は、学習用ラティス読み込みモジュール710、差分計算モジュール740と接続されており、認識パラメータ706を受け付け、学習用ラティス読み込みモジュール710からテキスト列限定ラティス714を受け取り、差分計算モジュール740にテキスト列限定ラティス期待値732を渡す。期待値計算1モジュール730は、出力候補ラティス作成1モジュール620によって作成された出力候補ラティス622と、テキスト列限定ラティス作成1モジュール630によって作成されたテキスト列限定ラティス632に含まれる系列の評価値の微分値の期待値を各々算出し、機械学習における認識パラメータ更新量として、その第1のラティスの期待値とその第2のラティスの期待値の差分を算出する。
差分計算モジュール740は、期待値計算1モジュール720、期待値計算1モジュール730と接続されており、期待値計算1モジュール720から出力候補ラティス期待値722を、期待値計算1モジュール730からテキスト列限定ラティス期待値732を受け取る。
The first embodiment (recognition parameter update amount calculation) shown in the example of FIG. 7 includes a learning lattice reading module 710, an expected value calculation 1 module 720, an expected value calculation 1 module 730, and a difference calculation module 740. Yes.
The configuration shown in the example of FIG. 7 receives a learning lattice 652 (output of the learning lattice writing module 650), which is a learning sequence candidate, and a recognition parameter 706, and outputs a recognition parameter update amount 742.
The learning lattice reading module 710 is connected to the expected value calculation 1 module 720 and the expected value calculation 1 module 730, receives the learning lattice 652, receives the output candidate lattice 712 in the expected value calculation 1 module 720, and calculates the expected value. The text string limited lattice 714 is passed to one module 730.
The expected value calculation 1 module 720 is connected to the learning lattice reading module 710 and the difference calculation module 740, receives the recognition parameter 706, receives the output candidate lattice 712 from the learning lattice reading module 710, and sends it to the difference calculation module 740. The output candidate lattice expectation value 722 is passed.
The expected value calculation 1 module 730 is connected to the learning lattice reading module 710 and the difference calculation module 740, receives the recognition parameter 706, receives the text string limited lattice 714 from the learning lattice reading module 710, and receives the difference string calculation module 740. Is passed the text string limited lattice expectation value 732. The expected value calculation 1 module 730 includes the evaluation value of the series included in the output candidate lattice 622 created by the output candidate lattice creation 1 module 620 and the text column restriction lattice 632 created by the text column restriction lattice creation 1 module 630. Each expected value of the differential value is calculated, and the difference between the expected value of the first lattice and the expected value of the second lattice is calculated as the recognition parameter update amount in machine learning.
The difference calculation module 740 is connected to the expected value calculation 1 module 720 and the expected value calculation 1 module 730, the output candidate lattice expected value 722 is output from the expected value calculation 1 module 720, and the text string is limited from the expected value calculation 1 module 730. A lattice expectation value 732 is received.

まず、学習用ラティス読み込みモジュール710が、学習用ラティス652を読み出し、出力候補ラティス712とテキスト列限定ラティス714を出力する。
続いて、期待値計算1モジュール720、730が、数式9のFunc(G,Θ)をそれぞれのラティスについて計算する。数式9は、ラティスGと認識パラメータΘを入力としている。なお、Θは、パラメータの次元数だけの長さを持つベクトルである。また、edgesは、ラティスGに含まれる全ての隣り合うノードのペアの集合である。これは、図4、図5に示す例では、実線で結ばれる2つのノードのペアに相当する。なお、簡単のため局所的なエネルギー関数に関する式を、数式10、数式11のように省略している。また、α(v),β(v),Zは、それぞれ数式12、数式13、数式14、数式15、数式16のように計算される。なお、数式12において、prevs(v)は、ラティスGに含まれるノードvの直前のノードの集合である。また、数式13において、posts(v)は、ラティスGに含まれるノードvの直後のノードの集合である。
続いて、差分計算モジュール740が数式17のパラメータ更新量∇ΘL(X,Y,Θ)を計算する。なお、出力候補ラティス712をG(X)としている。また、テキスト列限定ラティス714をG(X,Y)としている。

Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
First, the learning lattice reading module 710 reads the learning lattice 652 and outputs the output candidate lattice 712 and the text string limited lattice 714.
Subsequently, the expected value calculation 1 modules 720 and 730 calculate Func (G, Θ) of Equation 9 for each lattice. Equation 9 takes a lattice G and a recognition parameter Θ as inputs. Note that Θ is a vector having a length corresponding to the number of dimensions of the parameter. Further, edges is a set of pairs of all adjacent nodes included in the lattice G. In the example shown in FIGS. 4 and 5, this corresponds to a pair of two nodes connected by a solid line. For the sake of simplicity, the expressions related to the local energy function are omitted as in Expressions 10 and 11. Further, α (v), β (v), and Z are calculated as Equation 12, Equation 13, Equation 14, Equation 15, and Equation 16, respectively. In Equation 12, prevs (v) is a set of nodes immediately before the node v included in the lattice G. In Equation 13, posts (v) is a set of nodes immediately after the node v included in the lattice G.
Subsequently, the difference calculation module 740 calculates the parameter update amount ∇Θ L (X, Y, Θ) of Equation 17. The output candidate lattice 712 is G (X). Further, the text string limitation lattice 714 is set to G (X, Y).
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473
Figure 2016212473

数式17において、テキスト列限定ラティスG(X,Y)から計算されるFunc(G(X,Y),Θ)は、数式18の計算に相当する。数式18のP(S|X,Y,Θ)は、準文字パタン列X、正解のテキスト列Y、および認識パラメータΘが与えられたときの単文字パタン列Sの評価値であり、数式19のように計算する。また、非特許文献4と同様に数式20のように計算してもよい。すなわち、数式18は、テキスト列限定ラティスに含まれるそれぞれの系列から計算されるパラメータ更新量について、その評価値で重み付けされた和を計算している。なお、数式19が確率の定義を満たすため、数式18は期待値と呼ぶことができる。これにより、学習によって認識パラメータΘが良好となるのに伴って正解の出力系列以外の評価値は小さくなるため、誤った教師信号の影響を低減され、良好な学習が実現される。なお、出力候補ラティスG(X)から計算されるFunc(G(X,Y),Θ)は非特許文献3、4に示される技術と同様である。
また、テキスト列限定ラティスを利用して、非特許文献5に示される技術のように認識パラメータ更新量を計算してもよい。

Figure 2016212473
Figure 2016212473
Figure 2016212473
In Expression 17, Func (G (X, Y), Θ) calculated from the text string limitation lattice G (X, Y) corresponds to the calculation of Expression 18. P (S | X, Y, Θ) in Expression 18 is an evaluation value of the single character pattern string S when the quasi-character pattern string X, the correct text string Y, and the recognition parameter Θ are given. Calculate as follows. Further, as in Non-Patent Document 4, the calculation may be performed using Equation 20. That is, Equation 18 calculates the sum of the parameter update amounts calculated from the respective series included in the text string limited lattice, weighted by the evaluation value. Since Equation 19 satisfies the definition of probability, Equation 18 can be called an expected value. As a result, the evaluation value other than the correct output sequence becomes smaller as the recognition parameter Θ is improved by learning, so that the influence of an erroneous teacher signal is reduced and good learning is realized. Note that Func (G (X, Y), Θ) calculated from the output candidate lattice G (X) is the same as the techniques shown in Non-Patent Documents 3 and 4.
Further, the recognition parameter update amount may be calculated using the text string limitation lattice as in the technique disclosed in Non-Patent Document 5.
Figure 2016212473
Figure 2016212473
Figure 2016212473

なお、実施においては図6の例に示す学習用ラティス書き出しモジュール650と、図7の例に示す学習用ラティス読み出しモジュール710を取り除き、図6と図7をつなげてもよい。
しかし、学習においては、多数の準文字パタン列608を学習データとすることが多く、また、認識パラメータの更新の繰り返しが行われることが多い。認識パラメータ更新量742は、図7の例に示す実施の形態に示す通り、学習用ラティス652から計算される。そこで、まずは、図6の例に示す実施の形態を用いて多数の学習用ラティス652を作成し、記憶装置に保持しておき、続いて、図7の例に示す実施の形態によって、その記憶装置から読み出して、パラメータ更新量を計算することで、学習用ラティス作成が初回のみで済み、計算コストが小さくなる。
In the implementation, the learning lattice writing module 650 shown in the example of FIG. 6 and the learning lattice reading module 710 shown in the example of FIG. 7 may be removed, and FIG. 6 and FIG. 7 may be connected.
However, in learning, a large number of quasi-character pattern sequences 608 are often used as learning data, and recognition parameter updating is often repeated. The recognition parameter update amount 742 is calculated from the learning lattice 652 as shown in the embodiment shown in the example of FIG. Therefore, first, a large number of learning lattices 652 are created using the embodiment shown in the example of FIG. 6 and held in the storage device, and then stored in the storage device according to the embodiment shown in the example of FIG. By reading from the apparatus and calculating the parameter update amount, learning lattice creation is only required for the first time, and the calculation cost is reduced.

<<第2の実施の形態>>
図8は、第2の実施の形態(和ラティス作成)の構成例についての概念的なモジュール構成図である。
第2の実施の形態は、単文字パタン列候補作成モジュール610、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630、単文字識別1モジュール640、和ラティス作成モジュール850、学習用ラティス書き出しモジュール650を有している。図6の例に示した構成に、和ラティス作成モジュール850を加えたものである(図6の例に示す実施の形態の別形態)。なお、前述の実施の形態と同種の部位には同一符号を付し重複した説明を省略する(以下、同様)。
第2の実施の形態は、テキスト列限定ラティス632と出力候補ラティス622の和であるラティス(和ラティス852)を作成する。この第2の実施の形態によって、図6、図7の例に示す第1の実施の形態よりもさらに良好な認識パラメータ更新量742が得られる。なお、前述したように、第1の実施の形態の出力候補ラティス622として、単文字識別の確信度の高い上位K個のテキストを採用した場合(図4の例では、上位3個まで)では、正解テキストが、その中に含まれていない場合もあり得る。第2の実施の形態は、このような場合に対処するものである。
<< Second Embodiment >>
FIG. 8 is a conceptual module configuration diagram of a configuration example of the second exemplary embodiment (Japanese lattice creation).
The second embodiment includes a single character pattern sequence candidate creation module 610, an output candidate lattice creation 1 module 620, a text sequence limited lattice creation 1 module 630, a single character identification 1 module 640, a sum lattice creation module 850, and a learning lattice. A writing module 650 is included. A sum lattice creation module 850 is added to the configuration shown in the example of FIG. 6 (another form of the embodiment shown in the example of FIG. 6). In addition, the same code | symbol is attached | subjected to the site | part of the same kind as the above-mentioned embodiment, and the overlapping description is abbreviate | omitted (hereinafter the same).
In the second embodiment, a lattice (sum lattice 852) that is the sum of the text string limited lattice 632 and the output candidate lattice 622 is created. According to the second embodiment, a better recognition parameter update amount 742 than the first embodiment shown in the examples of FIGS. 6 and 7 can be obtained. As described above, in the case where the top K texts with high single-character identification certainty are adopted as the output candidate lattice 622 of the first embodiment (up to the top three in the example of FIG. 4). In some cases, the correct text is not included therein. The second embodiment deals with such a case.

出力候補ラティス作成1モジュール620は、単文字パタン列候補作成モジュール610、単文字識別1モジュール640、和ラティス作成モジュール850と接続されており、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、単文字識別1モジュール640に単文字パタン624を渡し、単文字識別1モジュール640から単文字識別結果642を受け取り、和ラティス作成モジュール850に出力候補ラティス622を渡す。
テキスト列限定ラティス作成1モジュール630は、単文字パタン列候補作成モジュール610、単文字識別1モジュール640、和ラティス作成モジュール850、学習用ラティス書き出しモジュール650と接続されており、正解テキスト列606を受け付け、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、単文字識別1モジュール640に単文字パタン634を渡し、単文字識別1モジュール640から単文字識別結果644を受け取り、和ラティス作成モジュール850と学習用ラティス書き出しモジュール650にテキスト列限定ラティス632を渡す。
和ラティス作成モジュール850は、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630、学習用ラティス書き出しモジュール650と接続されており、出力候補ラティス作成1モジュール620から出力候補ラティス622を、テキスト列限定ラティス作成1モジュール630からテキスト列限定ラティス632を受け取り、学習用ラティス書き出しモジュール650に和ラティス852を渡す。和ラティス作成モジュール850は、出力候補ラティス作成1モジュール620が作成した出力候補ラティス622とテキスト列限定ラティス作成1モジュール630が作成したテキスト列限定ラティス632を統合した和ラティス852を作成し、その和ラティス852を第1の実施の形態における出力候補ラティス622として扱う。ここでの統合とは、いわゆる和(論理和処理)であり、具体的には、テキスト列限定ラティス632に含まれるノードが出力候補ラティス622にない場合は、そのノードを出力候補ラティス622に付加し、テキスト列限定ラティス632に含まれるノードが出力候補ラティス622にある場合は、何もしない(出力候補ラティス622にノードを加えることをしない)。この処理を、テキスト列限定ラティス632内の全てのノードに対して行う。
学習用ラティス書き出しモジュール650は、和ラティス作成モジュール850、テキスト列限定ラティス作成1モジュール630と接続されており、和ラティス作成モジュール850から和ラティス852を、テキスト列限定ラティス作成1モジュール630からテキスト列限定ラティス632を受け取り、学習用ラティス652を出力する。
The output candidate lattice creation 1 module 620 is connected to the single character pattern sequence candidate creation module 610, the single character identification 1 module 640, and the sum lattice creation module 850, and from the single character pattern sequence candidate creation module 610, the single character pattern sequence candidate 612 is received, the single character pattern 624 is passed to the single character identification 1 module 640, the single character identification result 642 is received from the single character identification 1 module 640, and the output candidate lattice 622 is passed to the sum lattice creation module 850.
The text string limited lattice creation 1 module 630 is connected to the single character pattern string candidate creation module 610, the single character identification 1 module 640, the sum lattice creation module 850, and the learning lattice export module 650, and accepts the correct text string 606. The single character pattern sequence candidate generation module 610 receives the single character pattern sequence candidate 612, passes the single character pattern sequence 634 to the single character identification 1 module 640, receives the single character identification result 644 from the single character identification 1 module 640, and receives the sum lattice. The text string limited lattice 632 is passed to the creating module 850 and the learning lattice writing module 650.
The sum lattice creation module 850 is connected to the output candidate lattice creation 1 module 620, the text string limited lattice creation 1 module 630, and the learning lattice export module 650, and the output candidate lattice creation 1 module 620 receives the output candidate lattice 622. The text string limitation lattice 632 is received from the text string limitation lattice creation 1 module 630, and the sum lattice 852 is passed to the learning lattice writing module 650. The sum lattice creation module 850 creates a sum lattice 852 obtained by integrating the output candidate lattice 622 created by the output candidate lattice creation 1 module 620 and the text column restriction lattice 632 created by the text column restriction lattice creation 1 module 630. The lattice 852 is treated as the output candidate lattice 622 in the first embodiment. The integration here is a so-called sum (logical sum processing). Specifically, when the node included in the text string limitation lattice 632 is not in the output candidate lattice 622, the node is added to the output candidate lattice 622. If the node included in the text string limitation lattice 632 is in the output candidate lattice 622, nothing is done (the node is not added to the output candidate lattice 622). This process is performed for all nodes in the text string limitation lattice 632.
The learning lattice writing module 650 is connected to the sum lattice creation module 850 and the text string limited lattice creation 1 module 630, and the sum lattice creation 850 from the sum lattice creation module 850 and the text string from the text string restriction lattice creation 1 module 630. The limited lattice 632 is received and a learning lattice 652 is output.

第2の実施の形態は、学習用系列候補である学習用ラティス652と認識パラメータ706を入力として、認識パラメータ更新量742を出力する。図6の例と異なり、和ラティス作成モジュール850が出力候補ラティス622とテキスト列限定ラティス632の和であるラティス(和ラティス852)を作成する。和ラティス852は、テキスト列限定ラティス632を包含する。すなわち、テキスト列限定ラティス632に含まれる出力系列は全て和ラティス852に含まれる。和ラティス852の例を図9に示す。図9に示す例は、図4と図5の例に示すラティスの和となっている。なお、図5の例で示したノードは、図9の例では、点線の丸角長方形で示している。   In the second embodiment, a learning lattice 652 that is a learning sequence candidate and a recognition parameter 706 are input, and a recognition parameter update amount 742 is output. Unlike the example of FIG. 6, the sum lattice creation module 850 creates a lattice (sum lattice 852) that is the sum of the output candidate lattice 622 and the text string limited lattice 632. The sum lattice 852 includes a text column limited lattice 632. That is, all output sequences included in the text string limited lattice 632 are included in the sum lattice 852. An example of the Japanese lattice 852 is shown in FIG. The example shown in FIG. 9 is the sum of the lattices shown in the examples of FIGS. Note that the nodes shown in the example of FIG. 5 are indicated by dotted-line rounded rectangles in the example of FIG.

第2の実施の形態における学習用ラティス652は、図6の例に示す実施の形態について、出力候補ラティス622を和ラティス852で置き換えたものに相当する。
テキスト列限定ラティス632には、正解でない出力系列が含まれる。一方、テキスト列限定ラティス632が包含される第2の実施の形態における和ラティス852にも、上記の正解でない出力系列が包含される。これにより、数式17に示すようにそれぞれのラティスに対して期待値計算を行いその差を計算することで、正解でない出力系列の影響が相殺され、より良好な認識パラメータ更新量742が得られる。
The learning lattice 652 in the second embodiment corresponds to the embodiment shown in the example of FIG. 6 in which the output candidate lattice 622 is replaced with the sum lattice 852.
The text string limited lattice 632 includes an output sequence that is not correct. On the other hand, the sum lattice 852 in the second embodiment in which the text string limitation lattice 632 is included also includes an output sequence that is not the correct answer. As a result, the expected value is calculated for each lattice and the difference is calculated as shown in Equation 17, so that the influence of the output sequence that is not correct is offset and a better recognition parameter update amount 742 is obtained.

<<第3の実施の形態>>
図10は、第3の実施の形態(単文字識別結果を転用)の構成例についての概念的なモジュール構成図である。
第3の実施の形態は、単文字パタン列候補作成モジュール610、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040、単文字識別結果記憶モジュール1060、学習用ラティス書き出しモジュール650を有している。図6の例に示した構成に、単文字識別結果記憶モジュール1060を加え、単文字識別1モジュール640の代わりに単文字識別2モジュール1040、出力候補ラティス作成1モジュール620の代わりに出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成1モジュール630の代わりにテキスト列限定ラティス作成2モジュール1030としたものである。
第3の実施の形態によれば、重複する単文字パタンの単文字識別の計算コストを減少させる。本実施の形態は図6、図8の例に示した構成の別形態である。なお、図8の例に示した構成と組み合わせてもよい。つまり、単文字パタン列候補作成モジュール610、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040、単文字識別結果記憶モジュール1060、和ラティス作成モジュール850、学習用ラティス書き出しモジュール650を有したものとしてもよい。
<< Third Embodiment >>
FIG. 10 is a conceptual module configuration diagram of a configuration example of the third embodiment (using a single character identification result).
The third embodiment includes a single character pattern sequence candidate creation module 610, an output candidate lattice creation 2 module 1020, a text sequence limited lattice creation 2 module 1030, a single character identification 2 module 1040, a single character identification result storage module 1060, learning A lattice writing module 650. A single character identification result storage module 1060 is added to the configuration shown in the example of FIG. 6, and a single character identification 2 module 1040 is substituted for the single character identification 1 module 640 and an output candidate lattice is created instead of the output candidate lattice 1 module 620 Instead of the two module 1020 and the text string limitation lattice creation 1 module 630, the text string limitation lattice creation 2 module 1030 is used.
According to the third embodiment, the calculation cost of single character identification of overlapping single character patterns is reduced. This embodiment is another embodiment of the configuration shown in the examples of FIGS. In addition, you may combine with the structure shown in the example of FIG. That is, single character pattern sequence candidate creation module 610, output candidate lattice creation 2 module 1020, text sequence limited lattice creation 2 module 1030, single character identification 2 module 1040, single character identification result storage module 1060, sum lattice creation module 850, learning A lattice writing module 650 may be provided.

単文字パタン列候補作成モジュール610は、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040と接続されており、準文字パタン列608を受け付け、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040に単文字パタン列候補612を渡す。
出力候補ラティス作成2モジュール1020は、単文字パタン列候補作成モジュール610、単文字識別結果記憶モジュール1060、学習用ラティス書き出しモジュール650と接続されており、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、学習用ラティス書き出しモジュール650に出力候補ラティス622を渡す。出力候補ラティス作成2モジュール1020は、出力候補ラティス作成1モジュール620と同等の処理を行うが、単文字識別結果記憶モジュール1060に記憶されている単文字パタンの単文字識別結果を用いる。
テキスト列限定ラティス作成2モジュール1030は、単文字パタン列候補作成モジュール610、単文字識別結果記憶モジュール1060、学習用ラティス書き出しモジュール650と接続されており、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取り、学習用ラティス書き出しモジュール650にテキスト列限定ラティス632を渡す。テキスト列限定ラティス作成2モジュール1030は、テキスト列限定ラティス作成1モジュール630と同等の処理を行うが、単文字識別結果記憶モジュール1060に記憶されている単文字パタンの単文字識別結果を用いる。
単文字識別2モジュール1040は、単文字パタン列候補作成モジュール610、単文字識別結果記憶モジュール1060と接続されており、単文字パタン列候補作成モジュール610から単文字パタン列候補612を受け取る。単文字識別2モジュール1040は、単文字識別1モジュール640と同等の処理を行うが、その結果を単文字識別結果記憶モジュール1060に記憶させる。
単文字識別結果記憶モジュール1060は、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040と接続されている。単文字識別結果記憶モジュール1060は、単文字パタンの単文字識別結果を記憶する。
学習用ラティス書き出しモジュール650は、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030と接続されており、出力候補ラティス作成2モジュール1020から出力候補ラティス622を、テキスト列限定ラティス作成2モジュール1030からテキスト列限定ラティス632を受け取り、学習用ラティス652を出力する。
The single character pattern sequence candidate creation module 610 is connected to the output candidate lattice creation 2 module 1020, the text sequence limited lattice creation 2 module 1030, and the single character identification 2 module 1040, receives the quasi-character pattern sequence 608, and outputs the output candidate lattice. The single character pattern string candidate 612 is passed to the creation 2 module 1020, the text string limited lattice creation 2 module 1030, and the single character identification 2 module 1040.
The output candidate lattice creation 2 module 1020 is connected to the single character pattern sequence candidate creation module 610, the single character identification result storage module 1060, and the learning lattice writing module 650. The column candidate 612 is received, and the output candidate lattice 622 is passed to the learning lattice writing module 650. The output candidate lattice creation 2 module 1020 performs the same processing as the output candidate lattice creation 1 module 620, but uses the single character identification result of the single character pattern stored in the single character identification result storage module 1060.
The text string limited lattice creation 2 module 1030 is connected to the single character pattern string candidate creation module 610, the single character identification result storage module 1060, and the learning lattice write module 650. The pattern string candidate 612 is received, and the text string limited lattice 632 is passed to the learning lattice writing module 650. The text string limitation lattice creation 2 module 1030 performs the same processing as the text string limitation lattice creation 1 module 630, but uses the single character identification result of the single character pattern stored in the single character identification result storage module 1060.
The single character identification 2 module 1040 is connected to the single character pattern string candidate creation module 610 and the single character identification result storage module 1060, and receives the single character pattern string candidate 612 from the single character pattern string candidate creation module 610. The single character identification 2 module 1040 performs the same processing as the single character identification 1 module 640, but stores the result in the single character identification result storage module 1060.
The single character identification result storage module 1060 is connected to the output candidate lattice creation 2 module 1020, the text string limited lattice creation 2 module 1030, and the single character identification 2 module 1040. The single character identification result storage module 1060 stores a single character identification result of a single character pattern.
The learning lattice writing module 650 is connected to the output candidate lattice creation 2 module 1020 and the text string restriction lattice creation 2 module 1030, and the output candidate lattice 622 is output from the output candidate lattice creation 2 module 1020 to the text string restriction lattice creation 2. A text string limited lattice 632 is received from the module 1030 and a learning lattice 652 is output.

第3の実施の形態では、まず、単文字識別2モジュール1040が単文字パタン列の全ての単文字パタンについて単文字識別を行い、その結果を保持しておく。続いて、出力候補ラティス作成2モジュール1020とテキスト列限定ラティス作成2モジュール1030は、前記の単文字識別結果を参照してラティス(出力候補ラティス622、テキスト列限定ラティス632)を作成する。図4、図5、図8の例に示した通り、出力候補ラティス622とテキスト列限定ラティス632は共通の単文字識別結果を持つため、第3の実施の形態のように一度単文字識別を行った結果を保持・参照することで、単文字識別の計算コストが小さくなる。   In the third embodiment, first, the single character identification 2 module 1040 performs single character identification for all the single character patterns in the single character pattern string, and holds the result. Subsequently, the output candidate lattice creation 2 module 1020 and the text string restriction lattice creation 2 module 1030 create a lattice (output candidate lattice 622, text string restriction lattice 632) with reference to the single character identification result. As shown in the examples of FIGS. 4, 5, and 8, the output candidate lattice 622 and the text string limited lattice 632 have a common single character identification result, so that single character identification is performed once as in the third embodiment. By holding and referring to the result, the calculation cost for single character identification is reduced.

<<第4の実施の形態>>
図11は、第4の実施の形態(境界評価値を転用)の構成例についての概念的なモジュール構成図である。
第4の実施の形態は、学習用ラティス読み込みモジュール710、期待値計算2モジュール1120、期待値計算3モジュール1130、局所エネルギー関数計算結果記憶モジュール1150、差分計算モジュール740を有している。図7の例に示した構成に、局所エネルギー関数計算結果記憶モジュール1150を加え、期待値計算1モジュール720の代わりに期待値計算2モジュール1120、期待値計算1モジュール730の代わりに期待値計算3モジュール1130としたものである。
第4の実施の形態によれば、重複する局所的なエネルギー関数の計算結果を転用することによって、そのエネルギー関数の計算コストを減少させる。本実施の形態は、図7の実施の形態の別形態である。
<< Fourth Embodiment >>
FIG. 11 is a conceptual module configuration diagram of a configuration example of the fourth embodiment (diverting the boundary evaluation value).
The fourth embodiment includes a learning lattice reading module 710, an expected value calculation 2 module 1120, an expected value calculation 3 module 1130, a local energy function calculation result storage module 1150, and a difference calculation module 740. The local energy function calculation result storage module 1150 is added to the configuration shown in the example of FIG. 7, and an expected value calculation 2 module 1120 instead of the expected value calculation 1 module 720 and an expected value calculation 3 instead of the expected value calculation 1 module 730. The module 1130 is used.
According to the fourth embodiment, the calculation result of the energy function is reduced by diverting the calculation result of the overlapping local energy function. This embodiment is another form of the embodiment of FIG.

学習用ラティス読み込みモジュール710は、期待値計算2モジュール1120、期待値計算3モジュール1130と接続されており、学習用ラティス652を受け付け、期待値計算2モジュール1120に出力候補ラティス712を、期待値計算3モジュール1130にテキスト列限定ラティス714を渡す。
期待値計算2モジュール1120は、学習用ラティス読み込みモジュール710、局所エネルギー関数計算結果記憶モジュール1150、差分計算モジュール740と接続されており、認識パラメータ706を受け付け、学習用ラティス読み込みモジュール710から出力候補ラティス712を受け取り、差分計算モジュール740に出力候補ラティス期待値722を渡す。期待値計算2モジュール1120は、期待値計算1モジュール720と同等の処理を行うが、その計算結果を局所エネルギー関数計算結果記憶モジュール1150に記憶させる。
期待値計算3モジュール1130は、学習用ラティス読み込みモジュール710、局所エネルギー関数計算結果記憶モジュール1150、差分計算モジュール740と接続されており、認識パラメータ706を受け付け、学習用ラティス読み込みモジュール710からテキスト列限定ラティス714を受け取り、差分計算モジュール740にテキスト列限定ラティス期待値732を渡す。期待値計算3モジュール1130は、期待値計算1モジュール730と同等の処理を行うが、期待値計算2モジュール1120と共通する局所的なエネルギー関数に関する計算結果は、局所エネルギー関数計算結果記憶モジュール1150に記憶されている計算結果を用いる。
局所エネルギー関数計算結果記憶モジュール1150は、期待値計算2モジュール1120、期待値計算3モジュール1130と接続されている。局所エネルギー関数計算結果記憶モジュール1150は、期待値計算2モジュール1120による期待値計算において、期待値計算2モジュール1120と期待値計算3モジュール1130とで共通する局所的なエネルギー関数に関する計算結果を記憶する。
差分計算モジュール740は、期待値計算2モジュール1120、期待値計算3モジュール1130と接続されており、期待値計算2モジュール1120から出力候補ラティス期待値722を、期待値計算3モジュール1130からテキスト列限定ラティス期待値732を受け取る。
The learning lattice reading module 710 is connected to the expected value calculation 2 module 1120 and the expected value calculation 3 module 1130, receives the learning lattice 652, receives the output candidate lattice 712 in the expected value calculation 2 module 1120, and calculates the expected value. The text string limited lattice 714 is passed to the three modules 1130.
The expected value calculation 2 module 1120 is connected to the learning lattice reading module 710, the local energy function calculation result storage module 1150, and the difference calculation module 740, accepts the recognition parameter 706, and receives the output candidate lattice from the learning lattice reading module 710. 712 is received and the output candidate lattice expected value 722 is passed to the difference calculation module 740. The expected value calculation 2 module 1120 performs processing equivalent to the expected value calculation 1 module 720, but stores the calculation result in the local energy function calculation result storage module 1150.
The expected value calculation 3 module 1130 is connected to the learning lattice reading module 710, the local energy function calculation result storage module 1150, and the difference calculation module 740, receives the recognition parameter 706, and is limited to the text string from the learning lattice reading module 710. The lattice 714 is received and the text string limited lattice expected value 732 is passed to the difference calculation module 740. The expected value calculation 3 module 1130 performs the same processing as the expected value calculation 1 module 730, but the calculation result related to the local energy function common to the expected value calculation 2 module 1120 is stored in the local energy function calculation result storage module 1150. The stored calculation result is used.
The local energy function calculation result storage module 1150 is connected to the expected value calculation 2 module 1120 and the expected value calculation 3 module 1130. The local energy function calculation result storage module 1150 stores a calculation result related to a local energy function common to the expected value calculation 2 module 1120 and the expected value calculation 3 module 1130 in the expected value calculation by the expected value calculation 2 module 1120. .
The difference calculation module 740 is connected to the expected value calculation 2 module 1120 and the expected value calculation 3 module 1130, the output candidate lattice expected value 722 is expected from the expected value calculation 2 module 1120, and the text string is limited from the expected value calculation 3 module 1130. A lattice expectation value 732 is received.

第4の実施の形態において、期待値計算2モジュール1120は数式9を計算し、その∇ΘE(v’,v)、また、数式10、数式11の値を保持しておく。続いて、期待値計算3モジュール1130は、局所エネルギー関数計算結果記憶モジュール1150に保持された前記値を参照して数式9を計算する。もし、対応する∇ΘE(v’,v)、また、数式10、数式11の値が保持されていなければ、新たに計算する。図4、図5、図8の例に示す通り、出力候補ラティス712とテキスト列限定ラティス714は共通の境界を持つため、第4の実施の形態のように一度計算した局所的なエネルギー関数の値を保持・参照することで、数式9の計算コストが小さくなる。 In the fourth embodiment, the expected value calculation 2 module 1120 calculates Formula 9, and holds the value of ∇Θ E (v ′, v), Formula 10 and Formula 11. Subsequently, the expected value calculation 3 module 1130 calculates Formula 9 with reference to the value held in the local energy function calculation result storage module 1150. If the corresponding ΘΘ E (v ′, v) and the values of Equations 10 and 11 are not held, a new calculation is performed. As shown in the examples of FIGS. 4, 5, and 8, the output candidate lattice 712 and the text string limited lattice 714 have a common boundary. Therefore, the local energy function calculated once as in the fourth embodiment is used. By holding and referring to the value, the calculation cost of Equation 9 is reduced.

<<第5の実施の形態>>
図12は、第5の実施の形態(Stochastic Gradient Descent(確率的勾配降下法、以下、SGDという))の構成例についての概念的なモジュール構成図である。
第5の実施の形態は、学習用ラティス作成モジュール1210、学習用ラティス全セット記憶モジュール1220、サブセット抽出モジュール1230、認識パラメータ更新量算出モジュール1240、認識パラメータ記憶モジュール1250、認識パラメータ更新モジュール1260を有している。
第5の実施の形態によれば、複数の学習用ラティスを学習に用いることで、より良好な認識パラメータが得られる。
第5の実施の形態は、学習用ラティスのセットと認識パラメータの初期値を入力として、認識パラメータを逐次更新・出力する。学習用ラティスのセットは、複数の文字列パタンとその正解テキスト列から図6、図8、図10等の例に示す実施の形態によって予め作成しておく。
<< Fifth Embodiment >>
FIG. 12 is a conceptual module configuration diagram of a configuration example of the fifth embodiment (Stochastic Gradient Descent (probabilistic gradient descent method, hereinafter referred to as SGD)).
The fifth embodiment includes a learning lattice creation module 1210, a learning lattice full set storage module 1220, a subset extraction module 1230, a recognition parameter update amount calculation module 1240, a recognition parameter storage module 1250, and a recognition parameter update module 1260. doing.
According to the fifth embodiment, better recognition parameters can be obtained by using a plurality of learning lattices for learning.
In the fifth embodiment, a set of learning lattices and an initial value of a recognition parameter are input, and the recognition parameter is sequentially updated and output. A set of learning lattices is created in advance from a plurality of character string patterns and their correct text strings according to the embodiment shown in the examples of FIG. 6, FIG. 8, FIG.

学習用ラティス作成モジュール1210は、学習用ラティス全セット記憶モジュール1220と接続されており、正解テキスト列セット1206、準文字パタン列セット1208を受け付ける。学習用ラティス作成モジュール1210は、正解テキスト列セット1206と準文字パタン列セット1208を用いて、出力候補ラティス622とテキスト列限定ラティス632のペアのセットを作成する。具体的には、図6、図8、図10等の例に示す実施の形態によって作成する。
学習用ラティス全セット記憶モジュール1220は、学習用ラティス作成モジュール1210、サブセット抽出モジュール1230と接続されている。学習用ラティス全セット記憶モジュール1220は、学習用ラティス作成モジュール1210によって作成されたセットを記憶する。
サブセット抽出モジュール1230は、学習用ラティス全セット記憶モジュール1220、認識パラメータ更新量算出モジュール1240と接続されており、認識パラメータ更新量算出モジュール1240に学習用ラティスサブセット1232を渡す。サブセット抽出モジュール1230は、学習用ラティス全セット記憶モジュール1220に記憶されているセットから学習用ラティスサブセット1232を抽出する。
認識パラメータ更新量算出モジュール1240は、サブセット抽出モジュール1230、認識パラメータ記憶モジュール1250、認識パラメータ更新モジュール1260と接続されており、サブセット抽出モジュール1230から学習用ラティスサブセット1232を受け取り、認識パラメータ更新モジュール1260に認識パラメータ更新量セット1242を渡す。認識パラメータ更新量算出モジュール1240は、サブセット抽出モジュール1230によって抽出された学習用ラティスサブセット1232に含まれるそれぞれのペアについて、認識パラメータ更新量セット1242を算出する。具体的には、図7、図11等の例に示す実施の形態によって作成する。
認識パラメータ記憶モジュール1250は、認識パラメータ更新量算出モジュール1240、認識パラメータ更新モジュール1260と接続されている。認識パラメータ記憶モジュール1250は、認識パラメータ(前述の実施の形態では、認識パラメータ706に該当)を記憶しており、認識パラメータ更新モジュール1260によって更新される。
認識パラメータ更新モジュール1260は、認識パラメータ更新量算出モジュール1240、認識パラメータ記憶モジュール1250と接続されており、認識パラメータ更新量算出モジュール1240から認識パラメータ更新量セット1242を受け取る。認識パラメータ更新モジュール1260は、認識パラメータ更新量セット1242について、対応するその認識パラメータ更新量の和を算出し、予め定められた係数を乗算し、現在の認識パラメータ更新量からその乗算結果の値を減算することで、認識パラメータ記憶モジュール1250内の認識パラメータを更新する。
そして、サブセット抽出モジュール1230、認識パラメータ更新量算出モジュール1240、認識パラメータ更新モジュール1260による処理を繰り返す。
The learning lattice creation module 1210 is connected to the learning lattice full set storage module 1220 and receives the correct text string set 1206 and the quasi-character pattern string set 1208. The learning lattice creation module 1210 creates a set of pairs of the output candidate lattice 622 and the text sequence limited lattice 632 using the correct text sequence set 1206 and the quasi-character pattern sequence set 1208. Specifically, it is created according to the embodiment shown in the examples of FIG. 6, FIG. 8, FIG.
The learning lattice full set storage module 1220 is connected to the learning lattice creation module 1210 and the subset extraction module 1230. The learning lattice full set storage module 1220 stores the set created by the learning lattice creation module 1210.
The subset extraction module 1230 is connected to the learning lattice full set storage module 1220 and the recognition parameter update amount calculation module 1240, and passes the learning lattice subset 1232 to the recognition parameter update amount calculation module 1240. The subset extraction module 1230 extracts the learning lattice subset 1232 from the set stored in the learning lattice full set storage module 1220.
The recognition parameter update amount calculation module 1240 is connected to the subset extraction module 1230, the recognition parameter storage module 1250, and the recognition parameter update module 1260. The recognition parameter update amount calculation module 1240 receives the learning lattice subset 1232 from the subset extraction module 1230 and sends it to the recognition parameter update module 1260. The recognition parameter update amount set 1242 is passed. The recognition parameter update amount calculation module 1240 calculates a recognition parameter update amount set 1242 for each pair included in the learning lattice subset 1232 extracted by the subset extraction module 1230. Specifically, it is created according to the embodiment shown in the examples of FIGS.
The recognition parameter storage module 1250 is connected to the recognition parameter update amount calculation module 1240 and the recognition parameter update module 1260. The recognition parameter storage module 1250 stores a recognition parameter (corresponding to the recognition parameter 706 in the above-described embodiment), and is updated by the recognition parameter update module 1260.
The recognition parameter update module 1260 is connected to the recognition parameter update amount calculation module 1240 and the recognition parameter storage module 1250, and receives the recognition parameter update amount set 1242 from the recognition parameter update amount calculation module 1240. The recognition parameter update module 1260 calculates the sum of the corresponding recognition parameter update amounts for the recognition parameter update amount set 1242, multiplies by a predetermined coefficient, and calculates the value of the multiplication result from the current recognition parameter update amount. By subtracting, the recognition parameter in the recognition parameter storage module 1250 is updated.
Then, the processing by the subset extraction module 1230, the recognition parameter update amount calculation module 1240, and the recognition parameter update module 1260 is repeated.

第5の実施の形態では、まず、学習用ラティス作成モジュール1210が、準文字パタン列セット1208と正解テキスト列セット1206から、図6、図8、図10等の例に示した実施の形態によって学習用ラティスのセットを作成する。
続いて、サブセット抽出モジュール1230が、学習用ラティスのセットから、そのサブセットである学習用ラティスサブセット1232を抽出する。
In the fifth embodiment, first, the learning lattice creation module 1210 uses the quasi-character pattern sequence set 1208 and the correct text sequence set 1206 according to the embodiments shown in the examples of FIG. 6, FIG. 8, FIG. Create a set of learning lattices.
Subsequently, the subset extraction module 1230 extracts the learning lattice subset 1232 that is the subset from the learning lattice set.

続いて、認識パラメータ更新量算出モジュール1240が、学習用ラティスサブセット1232に含まれる学習用ラティスについて、図7、図11等の例に示した実施の形態によって認識パラメータ更新量を計算し、その和である認識パラメータ更新量セット1242を出力する。
続いて、認識パラメータ更新モジュール1260が、先の和に予め定められた係数を乗算し、現在の認識パラメータからこの値を減算することで認識パラメータを更新する。
以上の処理を繰り返す。
複数の学習用ラティスを用いることで、より良好な認識パラメータ更新量が求まるため、より良好な認識パラメータが得られる。
Subsequently, the recognition parameter update amount calculation module 1240 calculates the recognition parameter update amount for the learning lattice included in the learning lattice subset 1232 according to the embodiment shown in the example of FIGS. The recognition parameter update amount set 1242 is output.
Subsequently, the recognition parameter update module 1260 updates the recognition parameter by multiplying the previous sum by a predetermined coefficient and subtracting this value from the current recognition parameter.
The above processing is repeated.
By using a plurality of learning lattices, a better recognition parameter update amount can be obtained, so that a better recognition parameter can be obtained.

図13を参照して、本実施の形態の情報処理装置のハードウェア構成例について説明する。図13に示す構成は、例えばパーソナルコンピュータ(PC)等によって構成されるものであり、スキャナ等のデータ読み取り部1317と、プリンタ等のデータ出力部1318を備えたハードウェア構成例を示している。   A hardware configuration example of the information processing apparatus according to the present embodiment will be described with reference to FIG. The configuration illustrated in FIG. 13 is configured by, for example, a personal computer (PC) or the like, and illustrates a hardware configuration example including a data reading unit 1317 such as a scanner and a data output unit 1318 such as a printer.

CPU(Central Processing Unit)1301は、前述の実施の形態において説明した各種のモジュール、すなわち、単文字パタン列候補作成モジュール610、出力候補ラティス作成1モジュール620、テキスト列限定ラティス作成1モジュール630、単文字識別1モジュール640、学習用ラティス書き出しモジュール650、学習用ラティス読み込みモジュール710、期待値計算1モジュール720、期待値計算1モジュール730、差分計算モジュール740、和ラティス作成モジュール850、出力候補ラティス作成2モジュール1020、テキスト列限定ラティス作成2モジュール1030、単文字識別2モジュール1040、期待値計算2モジュール1120、期待値計算3モジュール1130、学習用ラティス作成モジュール1210、サブセット抽出モジュール1230、認識パラメータ更新量算出モジュール1240、認識パラメータ更新モジュール1260等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。   A CPU (Central Processing Unit) 1301 includes various modules described in the above-described embodiments, that is, a single character pattern sequence candidate creation module 610, an output candidate lattice creation 1 module 620, a text string limited lattice creation 1 module 630, a single Character identification 1 module 640, learning lattice writing module 650, learning lattice reading module 710, expected value calculation 1 module 720, expected value calculation 1 module 730, difference calculation module 740, sum lattice creation module 850, output candidate lattice creation 2 Module 1020, text string limited lattice creation 2 module 1030, single character identification 2 module 1040, expected value calculation 2 module 1120, expected value calculation 3 module 1130, The control unit executes processing according to a computer program describing an execution sequence of each module such as a learning lattice creation module 1210, a subset extraction module 1230, a recognition parameter update amount calculation module 1240, and a recognition parameter update module 1260.

ROM(Read Only Memory)1302は、CPU1301が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1303は、CPU1301の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバス等から構成されるホストバス1304により相互に接続されている。   A ROM (Read Only Memory) 1302 stores programs used by the CPU 1301, calculation parameters, and the like. A RAM (Random Access Memory) 1303 stores programs used in the execution of the CPU 1301, parameters that change as appropriate during the execution, and the like. These are connected to each other by a host bus 1304 including a CPU bus or the like.

ホストバス1304は、ブリッジ1305を介して、PCI(Peripheral Component Interconnect/Interface)バス等の外部バス1306に接続されている。   The host bus 1304 is connected via a bridge 1305 to an external bus 1306 such as a PCI (Peripheral Component Interconnect / Interface) bus.

キーボード1308、マウス等のポインティングデバイス1309は、操作者により操作される入力デバイスである。ディスプレイ1310は、液晶表示装置又はCRT(Cathode Ray Tube)等があり、各種情報をテキストやイメージ情報として表示する。   A keyboard 1308 and a pointing device 1309 such as a mouse are input devices operated by an operator. The display 1310 includes a liquid crystal display device or a CRT (Cathode Ray Tube), and displays various types of information as text or image information.

HDD(Hard Disk Drive)1311は、ハードディスク(フラッシュメモリ等であってもよい)を内蔵し、ハードディスクを駆動し、CPU1301によって実行するプログラムや情報を記録又は再生させる。ハードディスクは、単文字識別結果記憶モジュール1060、局所エネルギー関数計算結果記憶モジュール1150、学習用ラティス全セット記憶モジュール1220、認識パラメータ記憶モジュール1250等としての機能を実現させる。さらに、その他の各種データ、各種コンピュータ・プログラム等が格納される。   An HDD (Hard Disk Drive) 1311 includes a hard disk (may be a flash memory or the like), drives the hard disk, and records or reproduces a program executed by the CPU 1301 and information. The hard disk realizes functions as a single character identification result storage module 1060, a local energy function calculation result storage module 1150, a learning lattice full set storage module 1220, a recognition parameter storage module 1250, and the like. Further, various other data, various computer programs, and the like are stored.

ドライブ1312は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1313に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1307、外部バス1306、ブリッジ1305、およびホストバス1304を介して接続されているRAM1303に供給する。リムーバブル記録媒体1313も、ハードディスクと同様のデータ記録領域として利用可能である。   The drive 1312 reads data or a program recorded on a removable recording medium 1313 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and reads the data or program into an interface 1307 and an external bus 1306. , The bridge 1305, and the RAM 1303 connected via the host bus 1304. The removable recording medium 1313 can also be used as a data recording area similar to a hard disk.

接続ポート1314は、外部接続機器1315を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1314は、インタフェース1307、および外部バス1306、ブリッジ1305、ホストバス1304等を介してCPU1301等に接続されている。通信部1316は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部1317は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1318は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。   The connection port 1314 is a port for connecting the external connection device 1315 and has a connection unit such as USB and IEEE1394. The connection port 1314 is connected to the CPU 1301 and the like via the interface 1307, the external bus 1306, the bridge 1305, the host bus 1304, and the like. A communication unit 1316 is connected to a communication line and executes data communication processing with the outside. The data reading unit 1317 is, for example, a scanner, and executes document reading processing. The data output unit 1318 is, for example, a printer, and executes document data output processing.

なお、図13に示す情報処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図13に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図13に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。   Note that the hardware configuration of the information processing apparatus illustrated in FIG. 13 illustrates one configuration example, and the present embodiment is not limited to the configuration illustrated in FIG. 13, and the modules described in the present embodiment are executed. Any configuration is possible. For example, some modules may be configured with dedicated hardware (for example, Application Specific Integrated Circuit (ASIC), etc.), and some modules are in an external system and connected via a communication line Alternatively, a plurality of systems shown in FIG. 13 may be connected to each other via communication lines so as to cooperate with each other. In particular, in addition to personal computers, portable information communication devices (including mobile phones, smartphones, mobile devices, wearable computers, etc.), information appliances, robots, copiers, fax machines, scanners, printers, multifunction devices (scanners, printers, An image processing apparatus having two or more functions such as a copying machine and a fax machine) may be incorporated.

なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に追加する、入れ替えをする等も含む)、また、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。   Note that the above-described various embodiments may be combined (for example, adding or replacing a module in one embodiment in another embodiment), and processing contents of each module The technique described in the background art may be employed.

なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去および書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray (registered trademark) Disc), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM (registered trademark)) )), Flash memory, Random access memory (RAM) ), SD (Secure Digital) memory card, and the like.
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, or a wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.

606…正解テキスト列
608…準文字パタン列
610…単文字パタン列候補作成モジュール
612…単文字パタン列候補
620…出力候補ラティス作成1モジュール
622…出力候補ラティス
624…単文字パタン
630…テキスト列限定ラティス作成1モジュール
632…テキスト列限定ラティス
634…単文字パタン
640…単文字識別1モジュール
642…単文字識別結果
644…単文字識別結果
650…学習用ラティス書き出しモジュール
652…学習用ラティス
706…認識パラメータ
710…学習用ラティス読み込みモジュール
712…出力候補ラティス
714…テキスト列限定ラティス
720…期待値計算1モジュール
722…出力候補ラティス期待値
730…期待値計算1モジュール
732…テキスト列限定ラティス期待値
740…差分計算モジュール
742…認識パラメータ更新量
850…和ラティス作成モジュール
852…和ラティス
1020…出力候補ラティス作成2モジュール
1030…テキスト列限定ラティス作成2モジュール
1040…単文字識別2モジュール
1060…単文字識別結果記憶モジュール
1120…期待値計算2モジュール
1130…期待値計算3モジュール
1150…局所エネルギー関数計算結果記憶モジュール
1206…正解テキスト列セット
1208…準文字パタン列セット
1210…学習用ラティス作成モジュール
1220…学習用ラティス全セット記憶モジュール
1230…サブセット抽出モジュール
1232…学習用ラティスサブセット
1240…認識パラメータ更新量算出モジュール
1242…認識パラメータ更新量セット
1250…認識パラメータ記憶モジュール
1260…認識パラメータ更新モジュール
606 ... Correct text string 608 ... Quasi-character pattern string 610 ... Single character pattern string candidate creation module 612 ... Single character pattern string candidate 620 ... Output candidate lattice creation 1 module 622 ... Output candidate lattice 624 ... Single character pattern 630 ... Text string limitation Lattice creation 1 module 632 ... Text string limited lattice 634 ... Single character pattern 640 ... Single character identification 1 module 642 ... Single character identification result 644 ... Single character identification result 650 ... Learning lattice export module 652 ... Learning lattice 706 ... Recognition parameters 710 ... Learning lattice reading module 712 ... Output candidate lattice 714 ... Text string limited lattice 720 ... Expected value calculation 1 module 722 ... Output candidate lattice expected value 730 ... Expected value calculation 1 module 732 ... Text column limit Expected constant lattice 740 ... Difference calculation module 742 ... Recognition parameter update amount 850 ... Sum lattice creation module 852 ... Sum lattice 1020 ... Output candidate lattice creation 2 module 1030 ... Text string limited lattice creation 2 module 1040 ... Single character identification 2 module 1060 Single character identification result storage module 1120 ... Expected value calculation 2 module 1130 ... Expected value calculation 3 module 1150 ... Local energy function calculation result storage module 1206 ... Correct text string set 1208 ... Quasi-character pattern string set 1210 ... Learning lattice creation module 1220 ... Learning lattice all set storage module 1230 ... Subset extraction module 1232 ... Learning lattice subset 1240 ... Recognition parameter update amount calculation module 12 42 ... Recognition parameter update amount set 1250 ... Recognition parameter storage module 1260 ... Recognition parameter update module

Claims (7)

認識対象についての準文字パタン列と正解テキスト列を受け付ける受付手段と、
前記認識対象に対する文字認識結果の系列を含む第1のラティスと、準文字パタン列の組み合わせによって、前記認識対象に対する正解テキスト列の系列を含む第2のラティスを作成する作成手段と、
前記作成手段によって作成された第1のラティスと第2のラティスに含まれる系列の評価値の微分値の期待値を各々算出し、機械学習における認識パラメータ更新量として、該第1のラティスの期待値と該第2のラティスの期待値の差分を算出する差分手段
を具備することを特徴とする情報処理装置。
Accepting means for accepting a quasi-character pattern sequence and a correct text sequence for the recognition target;
Creating means for creating a second lattice including a series of correct text strings for the recognition target by combining a first lattice including a series of character recognition results for the recognition target and a quasi-character pattern sequence;
Expected values of the differential values of the evaluation values of the series included in the first lattice and the second lattice created by the creating means are calculated, and the expected value of the first lattice is used as a recognition parameter update amount in machine learning. An information processing apparatus comprising: difference means for calculating a difference between a value and an expected value of the second lattice.
前記作成手段は、前記第1のラティスと前記第2のラティスを統合した第3のラティスを作成し、該第3のラティスを第1のラティスとする
ことを特徴とする請求項1に記載の情報処理装置。
The said creation means creates the 3rd lattice which integrated the said 1st lattice and the said 2nd lattice, This 3rd lattice is made into the 1st lattice. The Claim 1 characterized by the above-mentioned. Information processing device.
単文字パタンの単文字識別結果を記憶する記憶手段
をさらに具備し、
前記作成手段は、前記記憶手段に記憶されている単文字パタンの単文字識別結果を用いる
ことを特徴とする請求項1又は2に記載の情報処理装置。
Storage means for storing a single character identification result of the single character pattern;
The information processing apparatus according to claim 1, wherein the creating unit uses a single character identification result of a single character pattern stored in the storage unit.
前記第1のラティスの期待値計算において、局所的なエネルギー関数に関する計算結果を記憶する第2の記憶手段
をさらに具備し、
前記差分手段は、前記第2の記憶手段に記憶されている計算結果を前記第2のラティスの期待値計算に用いる
ことを特徴とする請求項1又は2に記載の情報処理装置。
A second storage means for storing a calculation result related to a local energy function in the expected value calculation of the first lattice;
The information processing apparatus according to claim 1, wherein the difference unit uses a calculation result stored in the second storage unit for calculating an expected value of the second lattice.
前記第1のラティスと前記第2のラティスのペアのセットを作成する作成手段と、
前記セットからサブセットを抽出する抽出手段と、
前記抽出手段によって抽出されたサブセットに含まれるそれぞれのペアについて、認識パラメータ更新量を算出する請求項1から4のいずれか一項に記載の情報処理装置を含む算出手段と、
前記認識パラメータ更新量のセットについて、対応する該認識パラメータ更新量の和を算出し、予め定められた係数を乗算し、現在の認識パラメータ更新量から該乗算結果の値を減算することで、認識パラメータを更新する更新手段
を具備し、
前記抽出手段、前記算出手段、前記更新手段による処理を繰り返す
ことを特徴とする情報処理装置。
Creating means for creating a set of pairs of the first lattice and the second lattice;
Extraction means for extracting a subset from the set;
Calculation means including the information processing apparatus according to any one of claims 1 to 4, for calculating a recognition parameter update amount for each pair included in the subset extracted by the extraction means;
For the set of recognition parameter update amounts, the sum of the corresponding recognition parameter update amounts is calculated, multiplied by a predetermined coefficient, and the value of the multiplication result is subtracted from the current recognition parameter update amount. An updating means for updating the parameters,
An information processing apparatus characterized by repeating the processing by the extracting unit, the calculating unit, and the updating unit.
前記認識対象は、文字画像又は文字のストローク情報である
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
The information processing apparatus according to any one of claims 1 to 5, wherein the recognition target is a character image or character stroke information.
コンピュータを、
認識対象についての準文字パタン列と正解テキスト列を受け付ける受付手段と、
前記認識対象に対する文字認識結果の系列を含む第1のラティスと、準文字パタン列の組み合わせによって、前記認識対象に対する正解テキスト列の系列を含む第2のラティスを作成する作成手段と、
前記作成手段によって作成された第1のラティスと第2のラティスに含まれる系列の評価値の微分値の期待値を各々算出し、機械学習における認識パラメータ更新量として、該第1のラティスの期待値と該第2のラティスの期待値の差分を算出する差分手段
として機能させるための情報処理プログラム。
Computer
Accepting means for accepting a quasi-character pattern sequence and a correct text sequence for the recognition target;
Creating means for creating a second lattice including a series of correct text strings for the recognition target by combining a first lattice including a series of character recognition results for the recognition target and a quasi-character pattern sequence;
Expected values of the differential values of the evaluation values of the series included in the first lattice and the second lattice created by the creating means are calculated, and the expected value of the first lattice is used as a recognition parameter update amount in machine learning. An information processing program for functioning as a difference means for calculating a difference between a value and an expected value of the second lattice.
JP2015092498A 2015-04-30 2015-04-30 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM Active JP6511942B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015092498A JP6511942B2 (en) 2015-04-30 2015-04-30 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015092498A JP6511942B2 (en) 2015-04-30 2015-04-30 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM

Publications (2)

Publication Number Publication Date
JP2016212473A true JP2016212473A (en) 2016-12-15
JP6511942B2 JP6511942B2 (en) 2019-05-15

Family

ID=57551772

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015092498A Active JP6511942B2 (en) 2015-04-30 2015-04-30 INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM

Country Status (1)

Country Link
JP (1) JP6511942B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047213A (en) * 2018-09-21 2020-03-26 富士ゼロックス株式会社 Character string recognition device and character string recognition program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185681A (en) * 1996-01-08 1997-07-15 Hitachi Ltd Address reading method
JPH09251518A (en) * 1996-03-15 1997-09-22 Nec Corp Maintenance method for ocr and its device
JP2000207495A (en) * 1999-01-14 2000-07-28 Nec Corp Character recognizing device, character learning device and computer readable recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09185681A (en) * 1996-01-08 1997-07-15 Hitachi Ltd Address reading method
JPH09251518A (en) * 1996-03-15 1997-09-22 Nec Corp Maintenance method for ocr and its device
JP2000207495A (en) * 1999-01-14 2000-07-28 Nec Corp Character recognizing device, character learning device and computer readable recording medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020047213A (en) * 2018-09-21 2020-03-26 富士ゼロックス株式会社 Character string recognition device and character string recognition program
JP7172351B2 (en) 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 Character string recognition device and character string recognition program

Also Published As

Publication number Publication date
JP6511942B2 (en) 2019-05-15

Similar Documents

Publication Publication Date Title
CN109117848B (en) Text line character recognition method, device, medium and electronic equipment
US20120243779A1 (en) Recognition device, recognition method, and computer program product
RU2641225C2 (en) Method of detecting necessity of standard learning for verification of recognized text
US9280725B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20120134591A1 (en) Image processing apparatus, image processing method and computer-readable medium
JP2015169978A (en) Image processor and image processing program
JP2008225907A (en) Language analysis model learning device, language analysis model learning method, language analysis model learning program, and recording medium with the same
JPWO2015146113A1 (en) Identification dictionary learning system, identification dictionary learning method, and identification dictionary learning program
JP7422548B2 (en) Label noise detection program, label noise detection method, and label noise detection device
JP7172351B2 (en) Character string recognition device and character string recognition program
WO2019092868A1 (en) Information processing device, information processing method, and computer-readable recording medium
US8401298B2 (en) Storage medium storing character recognition program, character recognition method, and character recognition apparatus
JP2019160236A (en) Learning data generation method, learning data generation program and data structure
CN111310912A (en) Machine learning system, domain conversion device, and machine learning method
JP6986287B2 (en) Estimating the symbol sequence in speech
US20120033887A1 (en) Image processing apparatus, computer readable medium storing program, and image processing method
Boillet et al. Confidence estimation for object detection in document images
JP6511942B2 (en) INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM
JP6260350B2 (en) Image processing apparatus and image processing program
JP2016009235A (en) Information processing apparatus and information processing program
US20230289406A1 (en) Computer-readable recording medium storing determination program, apparatus, and method
JP5888222B2 (en) Information processing apparatus and information processing program
JP2024006813A (en) Character string detection device and character string detection method
JP6187307B2 (en) Image processing apparatus and image processing program
JP5636766B2 (en) Image processing apparatus and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190325

R150 Certificate of patent or registration of utility model

Ref document number: 6511942

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350