JP5636766B2 - Image processing apparatus and image processing program - Google Patents
Image processing apparatus and image processing program Download PDFInfo
- Publication number
- JP5636766B2 JP5636766B2 JP2010146014A JP2010146014A JP5636766B2 JP 5636766 B2 JP5636766 B2 JP 5636766B2 JP 2010146014 A JP2010146014 A JP 2010146014A JP 2010146014 A JP2010146014 A JP 2010146014A JP 5636766 B2 JP5636766 B2 JP 5636766B2
- Authority
- JP
- Japan
- Prior art keywords
- calculating
- calculation means
- character
- image
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
- Character Discrimination (AREA)
Description
本発明は、画像処理装置及び画像処理プログラムに関する。 The present invention relates to an image processing apparatus and an image processing program.
画像から文字画像を切り出す技術がある。
これに関連する技術として、例えば、特許文献1には、文字認識において文字の大きさや形、ピッチ等が文書毎に異なっていても精度のよい認識を行うことを目的とし、言語的に正しいと思われる部分の文字を確定文字検出部が確定文字として検出し、認識結果出力部が認識結果として出力する一方、文字矩形情報検出部が確定文字の矩形情報を検出し、矩形評価関数の最適化を行い、矩形分割統合部は最適化された矩形評価関数に基づいてまだ確定されていない部分の基本矩形の分割・統合を行うことによって新たな基本矩形を求め、再び候補文字選出部以下の処理を行い、また筆記者推定部が確定文字から得た情報を用いて候補文字選出部で用いる辞書を最適化することが開示されている。
There is a technique for cutting out a character image from an image.
As a technology related to this, for example,
また、例えば、特許文献2には、文書画像から高速にかつ正確に文字の切り出しを可能とし、さらに、漢字やひらがななどに英数字記号の混在する文書における文字の切り出しを高速にかつ正確に行うことを目的とし、各外接矩形の形状情報から切り出し候補を推定し、この推定した切り出し候補に対して文字認識を行い、この文字認識の結果により切り出し確定可能と判断された切り出し候補に対してはそれを切り出し結果として確定し、前記文字認識の結果により切り出し確定可能と判断されなかった切り出し候補に対しては、各外接矩形の組み合わせによる複数の切り出し候補を推定し、それぞれの切り出し候補毎に個々の矩形に対する認識評価値を求め、これら個々の矩形に対する認識評価値を用いた各切り出し候補毎の組み合わせ評価値のうち最適な組み合わせ評価値を得た切り出し候補を切り出し結果として確定し、また、英数字記号のみを対象とした認識を行って、英数字記号のみを先に確定したのちに、英数字記号と確定された文字以外の文字の切り出しを行うことが開示されている。
Further, for example, in
また、例えば、特許文献3には、文字識別や文字列照合で、文字の切り出し方が確定できない場合でも、高い精度で文字を切り出し文字列を認識することを課題とし、多重仮説検定型の文字切り出し処理において、まず従来の方法で全部の切り出し方の中からより正しいと判断される複数の切り出し方の候補を選別し、次いで本発明の方法である各文字パターンの大きさや前後のパターンとの位置関係に基づき切り出し方の仮説の妥当性を評価するための評価値(概形ペナルティ)を求め、この仮定は予め収集登録しサンプルを学習して求めた線形識別関数により行い、このようにして正しい切り出し方を判別することにより、大きさや位置関係の情報を容易に扱えるようになることが開示されている。
In addition, for example,
本発明は、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐようにした画像処理装置及び画像処理プログラムを提供することを目的としている。 In the present invention, when a position to cut out a character image existing in an image is determined, and the evaluation value of a candidate for a cut-out position becomes a singular value, the position to be cut out is determined only by the singular evaluation value. It is an object of the present invention to provide an image processing apparatus and an image processing program that prevent this from happening.
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段を具備し、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理装置である。
The gist of the present invention for achieving the object lies in the inventions of the following items.
According to the first aspect of the present invention, there is provided first calculation means for calculating a weighted linear sum for a plurality of feature amounts related to position candidates for cutting out one character image existing in an image, and the first calculation means. As an argument, the absolute value of the slope of the output is obtained when the argument converges to a predetermined value when the argument is an extreme value, or the distance between the argument and the predetermined value increases. A second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function that becomes smaller or a function that approximates the nonlinear monotone function; and a calculation by the second calculation means based on the evaluation value, a clipping position determining means for determining a position for cutting out a character image that is present in the image, and receiving means for receiving training data segmentation position of the character image, the cropping position A number calculation unit that calculates the number of correct answers or errors of the cutout position by comparing the cutout position determined by the determination unit with the teacher data received by the reception unit; and the cutout position calculated by the number calculation unit Based on the number of correct answers or the number of errors, weight change means for changing the weight used in the first calculation means at the character cut-out position for one character is provided, and the weight change means is a correct answer when the current weight is used. The image processing apparatus is characterized in that the next weight is determined from the amount of change from the value based on the number or the number of errors to the number of correct answers with the changed weight or the value based on the number of errors .
請求項2の発明は、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段を具備し、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段を具備し、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理装置である。 According to a second aspect of the present invention , there is provided a first calculation means for calculating a weighted linear sum for a plurality of feature quantities related to a position candidate for cutting out one character image existing in an image, and the first calculation means. As an argument, the absolute value of the slope of the output is obtained when the argument converges to a predetermined value when the argument is an extreme value, or the distance between the argument and the predetermined value increases. A second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function that becomes smaller or a function that approximates the nonlinear monotone function; and a calculation by the second calculation means A plurality of sets of cut position determining means for determining a position to cut out a character image existing in the image based on the evaluated value, and a set of the first calculation means and the second calculation means, Multiple second A third calculation means for calculating a weighted linear sum with respect to the evaluation value calculated by the calculation means, and a calculation result by the third calculation means as an argument, and when the argument is a limit value, A nonlinear monotonic function that approximates to the nonlinear monotonic function, which converges to a predetermined value, or whose absolute value of the slope of output decreases as the distance between the argument and a predetermined value increases. And a fourth calculating means for calculating an evaluation value of a position candidate to cut out the one character image, wherein the cutting position determining means is based on the evaluation value calculated by the fourth calculating means. the determines the position for cutting out a character image that is present in the image, and receiving means for receiving training data segmentation position of the character image, the cropping position determining extraction position before and determined by means Based on the number of correct answers or the number of errors of the cutout position calculated by the number calculating means by comparing the teacher data received by the receiving means and calculating the number of correct answers or the number of errors of the cutout position, 1 A weight changing means for changing a weight used in the first calculating means or the third calculating means at a character cut-out position for a character, wherein the weight changing means The image processing apparatus is characterized in that the next weight is determined from the amount of change from the value based on the number of errors to the number of correct answers with the weight after change or the value based on the number of errors .
請求項3の発明は、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段を具備し、前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段を具備し、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理装置である。 According to a third aspect of the present invention , there is provided a first calculation means for calculating a weighted linear sum for a plurality of feature quantities related to a position candidate for cutting out one character image existing in an image, and the first calculation means. As an argument, the absolute value of the slope of the output is obtained when the argument converges to a predetermined value when the argument is an extreme value, or the distance between the argument and the predetermined value increases. A second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function that becomes smaller or a function that approximates the nonlinear monotone function; and a calculation by the second calculation means A plurality of sets of cut position determining means for determining a position to cut out a character image existing in the image based on the evaluated value, and a set of the first calculation means and the second calculation means, Multiple second A fifth calculating means for calculating the sum of the evaluation values calculated by the calculating means, and the cutting position determining means is based on the sum of the evaluation values calculated by the fifth calculating means. A receiving unit that determines a position to cut out a character image existing in the image and receives teacher data of a cutout position of the character image, a cutout position determined by the cutout position determining unit, and a teacher data received by the receiving unit The number calculation means for calculating the correct number or error number of the cutout position and the correct number or error number of the cutout position calculated by the number calculation means, Weight changing means for changing the weight used in the first calculating means is provided, and the weight changing means is the number of correct answers or errors in the case of the current weight. An image processing apparatus characterized by the amount of change to the correct number or value based on the number of errors in the weight of the changed from a value based on the number determines the next weight.
請求項4の発明は、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段を具備し、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段を具備し、前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段を具備し、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理装置である。 According to a fourth aspect of the present invention , there is provided a first calculation means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in an image, and the first calculation means. As an argument, the absolute value of the slope of the output is obtained when the argument converges to a predetermined value when the argument is an extreme value, or the distance between the argument and the predetermined value increases. A second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function that becomes smaller or a function that approximates the nonlinear monotone function; and a calculation by the second calculation means A plurality of sets of cut position determining means for determining a position to cut out a character image existing in the image based on the evaluated value, and a set of the first calculation means and the second calculation means, Multiple second A third calculation means for calculating a weighted linear sum with respect to the evaluation value calculated by the calculation means, and a calculation result by the third calculation means as an argument, and when the argument is a limit value, A nonlinear monotonic function that approximates to the nonlinear monotonic function, which converges to a predetermined value, or whose absolute value of the slope of output decreases as the distance between the argument and a predetermined value increases. And a fourth calculating means for calculating an evaluation value of a position candidate to cut out the one character image, wherein the cutting position determining means is based on the evaluation value calculated by the fourth calculating means. , Determining a position to cut out a character image existing in the image, a plurality of sets by the first calculation means and the second calculation means, a set by the third calculation means and the fourth calculation means Have multiple Sixth calculating means for calculating a sum of evaluation values calculated by the plurality of fourth calculating means is provided, and the cut-out position determining means is a sum of evaluation values calculated by the sixth calculating means. The character image existing in the image is determined to be cut out, and accepting means for receiving the character image cut-out position teacher data, the cut-out position determined by the cut-out position determining means and the accepting means Based on the number of correct answers or the number of errors of the cutout position by comparing the received teacher data, and based on the number of correct answers or the number of errors of the cutout position calculated by the number calculation means A weight changing means for changing a weight used in the first calculating means or the third calculating means at the character cutout position; Image processing characterized in that the next weight is determined from the amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight Device.
請求項5の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項6の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段として機能させ、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項7の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段として機能させ、前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
請求項8の発明は、コンピュータを、画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、前記第1の計算手段と前記第2の計算手段による組を複数有し、前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段として機能させ、前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段として機能させ、前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、文字画像の切り出し位置の教師データを受け付ける受付手段と、前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段として機能させ、前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定することを特徴とする画像処理プログラムである。
According to a fifth aspect of the present invention, there is provided a first calculating means for calculating a weighted linear sum with respect to a plurality of feature amounts relating to a position candidate for cutting out one character image existing in an image; When the calculation result of the calculation means is used as an argument, when the argument is a limit value, the value converges to a predetermined value, or when the distance between the argument and the predetermined value increases, the slope of the output Second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function whose absolute value becomes small or a function approximating the non-linear monotone function; and the second calculation based on the evaluation value calculated by the means, and the cropping position determining means for determining a position for cutting out a character image that is present in the image, receiving means for receiving training data segmentation position of the character image The number calculation means for comparing the cutout position determined by the cutout position determination means and the teacher data received by the reception means to calculate the correct number or the number of errors of the cutout position, and calculated by the number calculation means Based on the number of correct answers or the number of errors in the cutout position, the weight changer functions to change the weight used in the first calculation unit at the character cutout position for one character. An image processing program for determining a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of a value to a value based on the number of correct answers or the number of errors in the changed weight .
According to a sixth aspect of the present invention, there is provided a first calculation means for calculating a weighted linear sum with respect to a plurality of feature amounts related to a position candidate for cutting out one character image existing in an image; When the calculation result of the calculation means is used as an argument, when the argument is a limit value, the value converges to a predetermined value, or when the distance between the argument and the predetermined value increases, the slope of the output Second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function whose absolute value becomes small or a function approximating the non-linear monotone function; and the second calculation Based on the evaluation value calculated by the means, there are a plurality of sets of cutting position determining means for determining a position for cutting out a character image existing in the image, and a set of the first calculating means and the second calculating means. A third calculation means for calculating a weighted linear sum with respect to the evaluation values calculated by the plurality of second calculation means; and a calculation result obtained by the third calculation means as an argument. A non-linear monotonic function or the non-linear function in which the absolute value of the output slope decreases as the distance between the argument and the predetermined value increases. A function that approximates a monotonic function functions as a fourth calculation unit that calculates an evaluation value of a position candidate to cut out one character image, and the cut-out position determination unit is calculated by the fourth calculation unit. Based on the evaluation value, the position for cutting out the character image existing in the image is determined, and the reception means for receiving the teacher data of the cutting position of the character image is determined by the cutting position determination means. A number calculating means for calculating the number of correct answers or errors of the cutout position by comparing the cutout position and the teacher data received by the receiving means, and the number of correct answers or errors of the cutout position calculated by the number calculating means Based on the number of characters, the weight calculation unit functions as a weight change unit that changes the weight used in the first calculation unit or the third calculation unit at the character cut-out position for one character. In this case, the image processing program is characterized in that the next weight is determined from the amount of change from the value based on the number of correct answers or the number of errors to the value based on the number of correct answers or the number of errors with the changed weight.
According to a seventh aspect of the present invention, there is provided a first calculating means for calculating a weighted linear sum with respect to a plurality of feature amounts related to a position candidate for cutting out one character image existing in an image; When the calculation result of the calculation means is used as an argument, when the argument is a limit value, the value converges to a predetermined value, or when the distance between the argument and the predetermined value increases, the slope of the output Second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function whose absolute value becomes small or a function approximating the non-linear monotone function; and the second calculation Based on the evaluation value calculated by the means, there are a plurality of sets of cutting position determining means for determining a position for cutting out a character image existing in the image, and a set of the first calculating means and the second calculating means. , Functioning as fifth calculation means for calculating the sum of the evaluation values calculated by the plurality of second calculation means, and the cut-out position determination means is configured to calculate the evaluation values calculated by the fifth calculation means. Based on the sum, a position for cutting out a character image existing in the image is determined, and accepting means for receiving teacher data of the cutout position of the character image; a cutout position determined by the cutout position determining means; and the receiving means The number calculation means for calculating the number of correct answers or errors at the cutout position by comparing the teacher data received by the above, and the number of correct answers or the number of errors at the cutout position calculated by the number calculation means. Functioning as a weight changing means for changing the weight used in the first calculating means at the character cutout position of the character, and the weight changing means An image processing program for determining a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of a value to a value based on the number of correct answers or the number of errors in the changed weight .
The invention according to claim 8 is a first calculation means for calculating a weighted linear sum with respect to a plurality of feature quantities related to a position candidate for cutting out one character image existing in the image; When the calculation result of the calculation means is used as an argument, when the argument is a limit value, the value converges to a predetermined value, or when the distance between the argument and the predetermined value increases, the slope of the output Second calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function whose absolute value becomes small or a function approximating the non-linear monotone function; and the second calculation Based on the evaluation value calculated by the means, there are a plurality of sets of cutting position determining means for determining a position for cutting out a character image existing in the image, and a set of the first calculating means and the second calculating means. A third calculation means for calculating a weighted linear sum with respect to the evaluation values calculated by the plurality of second calculation means; and a calculation result obtained by the third calculation means as an argument. A non-linear monotonic function or the non-linear function in which the absolute value of the output slope decreases as the distance between the argument and the predetermined value increases. A function that approximates a monotonic function functions as a fourth calculation unit that calculates an evaluation value of a position candidate to cut out one character image, and the cut-out position determination unit is calculated by the fourth calculation unit. The character image existing in the image is cut out based on the evaluation value, a plurality of sets of the first calculation unit and the second calculation unit, the third calculation unit, and the second calculation unit; Calculation of 4 A plurality of sets of stages, and function as sixth calculation means for calculating a sum of evaluation values calculated by the plurality of fourth calculation means, wherein the cut-out position determination means is the sixth calculation means Based on the sum of the evaluation values calculated by step (b), a position for cutting out a character image existing in the image is determined, and a receiving unit that receives teacher data for the cutting position of the character image is determined by the cutting position determination unit. The number calculation means for calculating the number of correct answers or the number of errors of the cutout position by comparing the cutout position and the teacher data received by the receiving means, and the number of correct answers or the number of errors of the cutout position calculated by the number calculation means And a weight changing means for changing a weight used in the first calculating means or the third calculating means at the character cutout position for one character, The weight changing means is configured to change from a change amount from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight. An image processing program characterized by determining a weight.
請求項1の画像処理装置によれば、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐことができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
According to the image processing apparatus of
請求項2の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。 According to the image processing apparatus of the second aspect, it is possible to accurately determine the position where the character image existing in the image is cut out as compared with the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
請求項3の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。 According to the image processing apparatus of the third aspect, it is possible to accurately determine the position where the character image existing in the image is cut out as compared with the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
請求項4の画像処理装置によれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。 According to the image processing apparatus of the fourth aspect, it is possible to accurately determine the position where the character image existing in the image is cut out as compared with the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
請求項5の画像処理プログラムによれば、画像内に存在する文字画像を切り出す位置を決定する場合にあって、切り出す位置の候補の評価値が特異の値となった場合に、その特異な評価値だけによって切り出す位置が決定されてしまうことを防ぐことができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
請求項6の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
請求項7の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
請求項8の画像処理プログラムによれば、本構成を有していない場合に比較して、画像内に存在する文字画像を切り出す位置を精度よく決定することができる。また、画像内に存在する文字画像を切り出す位置を決定する場合にあって、評価値を計算するために利用する重みを決定することができる。
According to the image processing program of claim 5 , when a position to cut out a character image existing in an image is determined and the evaluation value of the candidate for the cut out position becomes a unique value, the unique evaluation is performed. It is possible to prevent the position to be cut out from being determined only by the value. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
According to the image processing program of the sixth aspect, the position to cut out the character image existing in the image can be determined with higher accuracy than in the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
According to the image processing program of the seventh aspect, it is possible to accurately determine the position to cut out the character image existing in the image as compared with the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
According to the image processing program of the eighth aspect, it is possible to accurately determine the position where the character image existing in the image is cut out as compared with the case where the present configuration is not provided. In addition, when determining the position to cut out the character image existing in the image, it is possible to determine the weight to be used for calculating the evaluation value.
本実施の形態は、例えば文字認識等のように文字画像を対象とした処理を行う場合に、画像内に存在する文字画像を切り出すためのものである。
まず、本実施の形態を説明する前に、その前提又は本実施の形態を利用する画像処理装置について説明する。なお、この説明は、本実施の形態の理解を容易にすることを目的とするものである。
The present embodiment is for cutting out a character image existing in an image when processing for a character image, such as character recognition, is performed.
First, before describing the present embodiment, the premise or an image processing apparatus using the present embodiment will be described. This description is intended to facilitate understanding of the present embodiment.
例えば、図11の例に示すような文字列画像を対象とする。まず、この文字列画像を文字セグメントに分割する。文字セグメントとは、文字そのもの、あるいは文字の一部となる可能性がある文字部分である。ここでは、図11の例に示すような横書きの文字列画像を例にとる。横書きの画像では、垂直な線(あるいは垂直に近い線)で分割を行うことにより、文字セグメントに分割する。例えば図12に示した縦線(切れ目候補1210、切れ目候補1220)で、文字列画像を分割して、3つの文字セグメント「イ」、「ヒ」、及び、「学」を得ることができる。図12の例に示した縦線を切れ目候補と呼ぶこととする。切れ目候補1210が「イ」と「ヒ」を分け、切れ目候補1220が「ヒ」と「学」を分けている。
For example, a character string image as shown in the example of FIG. 11 is targeted. First, this character string image is divided into character segments. A character segment is a character itself or a character portion that can be a part of a character. Here, a horizontally written character string image as shown in the example of FIG. 11 is taken as an example. In a horizontally written image, the image is divided into character segments by dividing the image with vertical lines (or lines close to vertical). For example, the character string image can be divided by the vertical lines (cut
次に、図13の例に示すように、各文字セグメントに対し、その外接矩形(外接矩形1310、外接矩形1320、外接矩形1330)を抽出する。
以下、特許文献3に記載されている技術内容を例にして説明する。なお、以下の説明で用いる用語は、特許文献3で用いる用語とは異なっている場合がある。
前述の文字セグメントを統合して、文字画像を決定する。複数の文字セグメントを統合して1つの文字画像を形成する場合もあれば、1つの文字セグメントが1つの文字となる場合もある。文字画像を決定するとは、文字の切り出し位置を決定することと同値であるから、以下では文字切り出し位置の決定という場合もある。
文字セグメントの統合のパターンは複数存在する。複数存在するパターンの中で、最も文字画像として評価の高いものを選択することによって、最終的な文字切り出し位置を決定する。
図13の例に対しては、全ての文字切り出しパターンは、図14に示す例のようになる。つまり、図14(a)の例では、パターン1として3つの文字画像(外接矩形1310、1320、1330)、図14(b)の例では、パターン2として2つの文字画像(外接矩形1310と1320、1330)、図14(c)の例では、パターン3として1つの文字画像(外接矩形1310と1320と1330)、図14(d)の例では、パターン4として2つの文字画像(外接矩形1310、外接矩形1320と1330)を示している。
Next, as shown in the example of FIG. 13, circumscribed rectangles (circumscribed
Hereinafter, the technical content described in
A character image is determined by integrating the character segments described above. A plurality of character segments may be integrated to form one character image, or one character segment may become one character. Determining a character image is equivalent to determining a character cutout position, and hence may be referred to as determining a character cutout position below.
There are multiple patterns of character segment integration. A final character cutout position is determined by selecting a character image having the highest evaluation from among a plurality of existing patterns.
For the example of FIG. 13, all the character cutout patterns are as shown in the example of FIG. That is, in the example of FIG. 14A, three character images (circumscribed
文字切り出し位置を示すグラフ表現として、図14の例に示した複数の切り出しパターンを表すことができる。図15の例において、グラフは、始点ノード1500、終点ノード1590、中間ノード1510(ノード1)、中間ノード1520(ノード2)の4つのノードと、ノード間を接続するアークで構成されている(ノード間の接続線をアークと呼ぶこととする)。始点は、文字列画像の左端、終点は文字列画像の右端にあたる。中間ノード1510(ノード1)、中間ノード1520(ノード2)は、それぞれ、文字の切れ目候補位置(すなわち、図12の例に示した切れ目候補1210、切れ目候補1220)を示す。中間ノード1510(ノード1)は、切れ目候補1210に対応している。また、中間ノード1520(ノード2)は、切れ目候補1220に対応している。
A plurality of cutout patterns shown in the example of FIG. 14 can be represented as a graph expression indicating a character cutout position. In the example of FIG. 15, the graph is composed of four nodes, a
始点から、各ノードを通って、終点に至る経路を以下、「パス」と呼ぶ。パスは、1又は複数のアークから構成される。通常、複数のパスが存在する。図14の例に示した文字切り出しパターンは、これらの複数のパスに対応している。例えば、図14(b)の例に示したパターン2は、図16の太線で示したパス(文字切り出しパターン1504、文字切り出しパターン1522)と対応している。
ここで、どれか1つのアークには、1つの文字画像の候補が対応している。例えば、始点ノード1500と中間ノード1520(ノード2)を結ぶアークには、「化」という文字画像(文字切り出しパターン1504)が対応している。1つのアークに対応する文字に対して、その文字の評価値を決定することができる。これを「アーク評価値」と呼ぶこととする。
アーク評価値は、文字の形状情報や、文字認識における認識確度などから算出する。この詳細に関しては後述する。
A route from the start point through each node to the end point is hereinafter referred to as a “path”. The path is composed of one or a plurality of arcs. Usually there are multiple paths. The character cutout pattern shown in the example of FIG. 14 corresponds to these multiple paths. For example, the
Here, one character image candidate corresponds to any one arc. For example, a character image (character cutout pattern 1504) “K” corresponds to an arc connecting the
The arc evaluation value is calculated from character shape information, recognition accuracy in character recognition, and the like. Details of this will be described later.
ここで、図17を用いて、一般的な文字切り出し、文字認識を行う画像処理装置の構成例についての概念的なモジュール構成図を説明する。
この画像処理装置は、画像受付モジュール110、文字列抽出モジュール120、文字境界候補抽出モジュール130、アーク特徴量抽出モジュール140、線形重み付け加算モジュール1710、文字切り出しモジュール160、文字認識モジュール170を有している。
Here, a conceptual module configuration diagram of a configuration example of an image processing apparatus that performs general character segmentation and character recognition will be described with reference to FIG.
The image processing apparatus includes an
画像受付モジュール110は、文字列抽出モジュール120と接続されており、対象となる画像を受け付けて、その画像を文字列抽出モジュール120へ渡す。画像を受け付けるとは、例えば、スキャナ、カメラ等で画像を読み込むこと、ファックス等で通信回線を介して外部機器から画像を受信すること、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている画像を読み出すこと等が含まれる。画像は、2値画像、多値画像(カラー画像を含む)であってもよい。受け付ける画像は、1枚であってもよいし、複数枚であってもよい。また、画像の内容として、文字が含まれていれば、ビジネスに用いられる文書、広告宣伝用のパンフレット等であってもよい。
The
文字列抽出モジュール120は、画像受付モジュール110、文字境界候補抽出モジュール130と接続されており、画像受付モジュール110から画像を受け取り、その画像から文字列画像を抽出し、その文字列画像を文字境界候補抽出モジュール130へ渡す。文字列画像の抽出は、従来から知られている技術を用いるようにしてもよい。例えば、横方向又は縦方向に存在する黒画素数のヒストグラムを作成し、そのヒストグラムについて予め定められた幅を有しており、隣のヒストグラムと予め定められた距離以上離れているものを文字列の画像として抽出する。
The character
文字境界候補抽出モジュール130は、文字列抽出モジュール120、アーク特徴量抽出モジュール140と接続されており、文字列抽出モジュール120から文字列画像を受け取り、文字列画像の境界候補を抽出し、その境界候補をアーク特徴量抽出モジュール140へ渡す。例えば、図12の例に示した切れ目候補1210、切れ目候補1220である。
The character boundary
アーク特徴量抽出モジュール140は、文字境界候補抽出モジュール130、線形重み付け加算モジュール1710と接続されており、文字境界候補抽出モジュール130から境界候補を受け取り、その境界候補の特徴量を抽出し、複数の特徴量を特徴量ベクトルとして線形重み付け加算モジュール1710へ渡す。前述の文字切り出し位置を示すグラフ表現における各アークの特徴量を抽出する。アークの特徴量については後述する。アーク特徴量は一般的には複数であるが、1つであってもよい。以下、アーク特徴量を特徴量ベクトルともいう。
The arc feature
線形重み付け加算モジュール1710は、アーク特徴量抽出モジュール140、文字切り出しモジュール160と接続されており、アーク特徴量抽出モジュール140から特徴量ベクトルを受け取り、その特徴量ベクトルのアーク評価値を計算し、そのアーク評価値を文字切り出しモジュール160へ渡す。アーク評価値の計算については後述する。
The linear
文字切り出しモジュール160は、線形重み付け加算モジュール1710、文字認識モジュール170と接続されており、線形重み付け加算モジュール1710からアーク評価値を受け取り、アーク評価値に基づいて、切れ目候補の選択、つまり文字列画像内に存在する文字画像を切り出す位置を決定し、その切れ目候補に沿って文字画像を文字列画像(又は画像受付モジュール110が受け取った画像)から切り出し、その文字画像を文字認識モジュール170へ渡す。アーク評価値に基づいてとは、例えば、アーク評価値が最も高い値(1つの文字を切り出している可能性が高いことを示している値)のものを選択することである。
文字認識モジュール170は、文字切り出しモジュール160と接続されており、文字切り出しモジュール160から文字画像を受け取り、その文字画像を文字認識して、認識結果としての文字コードを出力する。
The
The
アーク特徴量抽出モジュール140、線形重み付け加算モジュール1710の処理について説明する。
1つのパスは、複数のアークから構成されている。複数のアーク評価値を用いて、そのアークから構成されるパスの評価値を計算することができる。これを「パス評価値」と呼ぶこととする。
パス評価値としては、例えば、アーク評価値の重み付け和などが相当する。特許文献3に記載されている技術では、アーク内の文字セグメント数で重み付けを行う。
文字切り出し位置を決定するため、複数のパスの中で、最もパス評価値の高いパスを選択する。パスが選択できれば、文字切り出し位置が確定して、さらに、文字認識結果も確定することになる。
図16の例では、太線のパスが選択されたとする。この場合、文字切り出し位置は、始点ノード1500と、中間ノード1520(ノード2)と、終点ノード1590の3点となる。また、文字認識結果は、「化」、「学」となる。
Processing of the arc feature
One path is composed of a plurality of arcs. Using a plurality of arc evaluation values, an evaluation value of a path constituted by the arcs can be calculated. This is called a “path evaluation value”.
The path evaluation value corresponds to, for example, a weighted sum of arc evaluation values. In the technique described in
In order to determine the character cutout position, the path with the highest path evaluation value is selected from the plurality of paths. If the path can be selected, the character cutout position is confirmed, and the character recognition result is also confirmed.
In the example of FIG. 16, it is assumed that a thick line path is selected. In this case, the character cutout positions are three points: a
特に、線形重み付け加算モジュール1710が行うアーク評価値の算出方法を説明する。
特許文献3に記載の技術では、文字形状情報と、文字認識確度情報の重み付き線形和を用いて、文字評価値を算出する。さらに具体的には、特許文献3に記載の技術では、下記のようにアーク評価値の算出を行う。
まず、各アークに対応する文字の外接矩形を作る。これは、図14の例に示す各パターン内の各文字の外接矩形に相当する。以下、各アークに対応する文字の外接矩形を、アークの外接矩形と呼ぶ。
次に、下記のように、アークの特徴量(複数)を計算する。
f1 : 該当アークの外接矩形の高さ
f2 : 該当アークの外接矩形の幅
f3 : 該当アークの外接矩形と、左側アークの外接矩形の間隔
f4 : 該当アークの外接矩形と、右側アークの外接矩形の間隔
f5 : 該当アーク内の文字セグメントの外接矩形間の最大の間隔
f6 : 該当アーク内の連結成分数
さらに、文字類似度を、f7とする。
特許文献3に記載の技術では、アーク評価値Vを式(1)で決定する。ただし、この場合、(1)式でN=7とする。
In the technique described in
First, a circumscribed rectangle of characters corresponding to each arc is created. This corresponds to the circumscribed rectangle of each character in each pattern shown in the example of FIG. Hereinafter, a circumscribed rectangle of a character corresponding to each arc is referred to as an arc circumscribed rectangle.
Next, arc feature values (plural) are calculated as follows.
f 1: the corresponding arc of the circumscribed rectangle of height f 2: the width f of the circumscribed rectangle of the corresponding arc 3: and a circumscribed rectangle of the corresponding arc of the circumscribed rectangle of the left arc distance f 4: the circumscribed rectangle of the corresponding arc, right arc enclosing rectangles spacing f 5: maximum interval f between the circumscribed rectangle of a character segment in the corresponding arc 6: number connected components in the corresponding arc further, the character similarity, and f 7.
In the technique described in
つまり、文字形状情報(f1〜f6)と、文字認識確度情報f7の重み付け線形和でアーク評価値は決定される。wiは、線形和算出時の重みである。cは定数である。 特許文献3の記述方法では、式(1)の記載ではなく、別の形式で記述されている。しかし、記述の違いはあるが、数学的には同じとなっている。
線形重み付け加算モジュール1710は、特徴量ベクトルとして、特徴量である前述のf1〜f7の値を受け付ける。ここでは特徴数をNとしている。線形重み付け加算モジュール1710の内部動作は、式(1)で示されるものである。そして、アーク評価値Vを文字切り出しモジュール160へ渡す。
That is, the arc evaluation value is determined by the weighted linear sum of the character shape information (f 1 to f 6 ) and the character recognition accuracy information f 7 . w i is a weight at the time of calculating the linear sum. c is a constant. In the description method of
The linear
次に、特許文献3に記載の技術を実施した場合に起こり得る現象について説明する。
<現象1>
特許文献3に記載の技術では、特徴量の線形和をアーク評価値としていた。線形和であるため、特徴量の内容によっては、アーク評価値の値域はマイナス無限大〜プラス無限大の値を取り得る。
このように線形和を用いてアーク評価値を算出すると、アーク評価値が非常に高い値や非常に低い値になってしまう場合がある。
アーク評価値が非常に高い値や非常に低い値になってしまう場合、全体のパス評価値がその非常に高い、あるいは、非常に低い値に引きずられてしまう場合がある。例えば、ここではパス評価値をアーク評価値の重み付き和で評価するとする。重みは適当に定める。ここでは従来技術のようにアーク内の文字セグメント数で重み付けを行うとする。
図15の例において、図18の例に示すような評価値となっているとする。
このようなアーク評価値となっている場合、例えば、アーク内の文字セグメント数で重み付けを行うとすると、
・文字切り出しパターン1504「化」、文字切り出しパターン1522「学」の場合のパス評価値は、10×2+10=30 である。
・文字切り出しパターン1506「イ」、文字切り出しパターン1512「ヒ」、文字切り出しパターン1522「学」の場合のパス評価値は、1+100+10=111 である。
すなわち、「ヒ」のアーク評価値が他の評価値と比べて高すぎるために、他の評価値が小さい場合(すなわち、文字らしくない場合、例えば、文字切り出しパターン1506「イ」のアーク評価値は1)でも、その値に引きずられて、「ヒ」を含むパスが選択されてしまうこととなる。
Next, a phenomenon that may occur when the technique described in
<
In the technique described in
When the arc evaluation value is calculated using the linear sum in this way, the arc evaluation value may become a very high value or a very low value.
When the arc evaluation value becomes a very high value or a very low value, the overall path evaluation value may be dragged to the very high or very low value. For example, here, the path evaluation value is evaluated as a weighted sum of arc evaluation values. The weight is determined appropriately. Here, it is assumed that weighting is performed by the number of character segments in the arc as in the prior art.
In the example of FIG. 15, it is assumed that the evaluation values are as shown in the example of FIG.
If it is such an arc evaluation value, for example, if weighting is performed by the number of character segments in the arc,
The path evaluation value in the case of the
The path evaluation value in the case of the
That is, since the arc evaluation value of “HI” is too high compared to other evaluation values, the other evaluation values are small (that is, when the character evaluation is not character-like, for example, the arc evaluation value of the
<現象2>
ここで、アーク特徴量ベクトルf=(f1, …, fN)、重みベクトルをw=(w1, …, wN)とする。また、アーク評価値関数をV(f)とする。式(1)は、式(2)のようになる。
アーク評価値関数が妥当であるためには、式(3)のような関係になることが望ましい。つまり、正解切り出し位置の場合のアーク評価値は、不正解切り出し位置の場合のアーク評価値よりも大きな値であることが望ましい。
Here, it is assumed that the arc feature vector f = (f 1 ,..., F N ) and the weight vector is w = (w 1 ,..., W N ). The arc evaluation value function is V (f). Formula (1) becomes like Formula (2).
In order for the arc evaluation value function to be valid, it is desirable that the relationship is as shown in Expression (3). That is, it is desirable that the arc evaluation value in the case of the correct answer cut-out position is larger than the arc evaluation value in the case of the incorrect answer cut-out position.
ここで、特徴量ベクトルはN次元の空間内に存在する。式(1)又は式(2)は、このN次元特徴量空間における超平面を形成する。つまり、アーク評価値V(f)が、所定の値V0となるような特徴量ベクトルfの集合は、式(6)で示される超平面上に存在することになる。
簡単のため、特徴量空間が2次元の場合を図示する。2次元の場合には、超平面は直線となる。図19の例に示す破線1930のように、正解特徴量分布1920と不正解特徴量分布1910が直線で分離できる場合は問題がない。
Here, the feature vector exists in an N-dimensional space. Expression (1) or Expression (2) forms a hyperplane in this N-dimensional feature amount space. That is, a set of feature quantity vectors f such that the arc evaluation value V (f) becomes the predetermined value V 0 exists on the hyperplane represented by the equation (6).
For simplicity, the case where the feature space is two-dimensional is illustrated. In the case of two dimensions, the hyperplane is a straight line. There is no problem if the correct
特許文献3に記載の技術では、式(1)を採用しているため、分離面は超平面以外にはあり得ない。ところが、実際には、正解と不正解の分離面は超平面ではなく、もっと複雑な形状を示している可能性がある。超平面で分離不可能な複雑な形状を正解と不正解の分布が持つ場合、特許文献3に記載の技術では対応できない。
例えば、図20の例に示すような正解特徴量分布2020と不正解特徴量分布2010の分布の場合、もはや直線で分離することは不可能である。このような場合、特許文献3に記載の技術では、妥当なアーク評価値を求めることができなくなる。つまり、式(7)で示されるような現象が起こってしまう。この現象が起きると、間違った文字切り出し位置であるにも関わらず、高いアーク評価値を得ることになってしまう。結果として、文字切り出し位置を誤ることになる。
For example, in the case of the distribution of the correct
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
<第1の実施の形態>
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
Hereinafter, examples of various preferred embodiments for realizing the present invention will be described with reference to the drawings.
<First Embodiment>
FIG. 1 is a conceptual module configuration diagram of a configuration example according to the first embodiment.
The module generally refers to components such as software (computer program) and hardware that can be logically separated. Therefore, the module in the present embodiment indicates not only a module in a computer program but also a module in a hardware configuration. Therefore, the present embodiment is a computer program for causing these modules to function (a program for causing a computer to execute each procedure, a program for causing a computer to function as each means, and a function for each computer. This also serves as an explanation of the program and system and method for realizing the above. However, for the sake of explanation, the words “store”, “store”, and equivalents thereof are used. However, when the embodiment is a computer program, these words are stored in a storage device or stored in memory. It is the control to be stored in the device. Modules may correspond to functions one-to-one, but in mounting, one module may be configured by one program, or a plurality of modules may be configured by one program, and conversely, one module May be composed of a plurality of programs. The plurality of modules may be executed by one computer, or one module may be executed by a plurality of computers in a distributed or parallel environment. Note that one module may include other modules. Hereinafter, “connection” is used not only for physical connection but also for logical connection (data exchange, instruction, reference relationship between data, etc.). “Predetermined” means that the process is determined before the target process, and not only before the process according to this embodiment starts but also after the process according to this embodiment starts. In addition, if it is before the target processing, it is used in accordance with the situation / state at that time or with the intention to be decided according to the situation / state up to that point.
In addition, the system or device is configured by connecting a plurality of computers, hardware, devices, and the like by communication means such as a network (including one-to-one correspondence communication connection), etc., and one computer, hardware, device. The case where it implement | achieves by etc. is also included. “Apparatus” and “system” are used as synonymous terms. Of course, the “system” does not include a social “mechanism” (social system) that is an artificial arrangement.
In addition, when performing a plurality of processes in each module or in each module, the target information is read from the storage device for each process, and the processing result is written to the storage device after performing the processing. is there. Therefore, description of reading from the storage device before processing and writing to the storage device after processing may be omitted. Here, the storage device may include a hard disk, a RAM (Random Access Memory), an external storage medium, a storage device via a communication line, a register in a CPU (Central Processing Unit), and the like.
本実施の形態である画像処理装置は、図1の例に示すように、画像受付モジュール110、文字列抽出モジュール120、文字境界候補抽出モジュール130、アーク特徴量抽出モジュール140、アーク評価値決定モジュール150、文字切り出しモジュール160、文字認識モジュール170を有している。なお、前述の図17の例に示した画像処理装置と同種の部位には同一符号を付し重複した説明を省略する。したがって、アーク評価値決定モジュール150を詳細に説明する。ただし、文字列抽出モジュール120、文字境界候補抽出モジュール130、アーク特徴量抽出モジュール140については、より詳細に説明する。
As shown in the example of FIG. 1, the image processing apparatus according to the present embodiment includes an
文字列抽出モジュール120は、画像受付モジュール110、文字境界候補抽出モジュール130と接続されている。
文字列抽出モジュール120は、対象としている画像から横書き又は縦書きである1列の文字列画像を抽出する。ここで、列とは、横書きの場合は、横に並ぶ列であり、縦書きの場合は縦に並ぶ列である。
画像として、複数の文字列が存在するものがある。このような複数文字列を単一の文字列になるように分離する手法としては、従来よりさまざまなものが提案されているため、それらを用いればよい。
単一の文字列となるように分離する例として、特開平4−311283号公報、特開平3−233789号公報、特開平5−73718号公報、特開2000−90194号公報等に記載の技術がある。これらの手法や、その他の手法を用いればよい。
The character
The character
Some images have a plurality of character strings. Various methods for separating such a plurality of character strings into a single character string have been proposed so far, and these may be used.
As an example of separation to form a single character string, techniques described in JP-A-4-311283, JP-A-3-233789, JP-A-5-73718, JP-A-2000-90194, etc. There is. These methods and other methods may be used.
文字境界候補抽出モジュール130は、文字列抽出モジュール120、アーク特徴量抽出モジュール140と接続されている。
文字境界候補抽出モジュール130は、1列の文字列画像を受け取り、複数の文字セグメントに分割する。この文字セグメント分割方式としてもさまざまな方式があるため、そのうちのどれかを用いればよい。例えば、特開平5−114047号公報、特開平4−100189号公報、特開平4−92992号公報、特開平4−68481号公報、特開平9−54814号公報等に記載の技術、特許文献3の特に0021段落に記載の文字の境界候補抽出方式、特開平5−128308号公報の特に0005段落に記載の文字切り出し位置決定方式等を用いればよい。これ以外の方法でももちろん構わない。
The character boundary
The character boundary
アーク特徴量抽出モジュール140は、文字境界候補抽出モジュール130、アーク評価値決定モジュール150と接続されている。
アーク特徴量抽出モジュール140が抽出するアークの特徴量ベクトルの内容としては、特に限定しない。例えば、前述したf1〜f7の特徴量を用いてもよい。その他の特徴量を用いてもよい。特徴量ベクトルの次元数(すなわち、特徴量の種類数)に関しても、さまざまであって、何次元でも構わない。
The arc feature
The content of the arc feature quantity vector extracted by the arc feature
また、文字を切り出した後に文字認識を行い、その文字認識確度をアークの特徴量の1つとして用いる場合の具体例に関して補足する。これは、特許文献3に記載の技術では文字類似度として示していた量である。
文字認識確度としては、文字認識時に出力した文字コードの確信度合いあるいは尤度のようなものを得ることができればよい。このような文字認識確度を得る手法としても、従来よりさまざまな手法が提案されているため、そのうちのいずれかを用いればよい。例えば、特許文献3の0024段落に記載の方式、特許文献2の0051段落に記載の認識評価値取得方式等を用いてもよい。その他の手法を用いてもよい。
Further, a supplementary description will be made regarding a specific example in which character recognition is performed after a character is cut out, and the character recognition accuracy is used as one of the feature quantities of the arc. This is the amount indicated as the character similarity in the technique described in
As the character recognition accuracy, it is only necessary to obtain a certainty or likelihood of the character code output at the time of character recognition. As methods for obtaining such character recognition accuracy, various methods have been proposed so far, and any one of them may be used. For example, a method described in paragraph 0024 of
アーク評価値決定モジュール150は、アーク特徴量抽出モジュール140、文字切り出しモジュール160と接続されており、アーク特徴量抽出モジュール140から特徴量ベクトルを受け取り、その特徴量ベクトルを用いてアーク評価値を決定し、そのアーク評価値を文字切り出しモジュール160に渡す。
アーク評価値決定モジュール150は、他のアーク評価値と比べた場合に非常に大きなアーク評価値、他のアーク評価値と比べた場合に非常に小さなアーク評価値による影響が大きくなることを防ぐものである。つまり、他のアーク評価値と比べた場合に大きなアーク評価値の場合にはその大きさによる影響を小さくし、小さなアーク評価値の場合にはその小ささによる影響を小さくする。手法としては、特徴量の重み付け加算結果に対して、さらに、以下の特徴を持った非線形関数を付与する。非線形関数としては、(1)単調関数であって、(2)入力がプラス無限大のときや、マイナス無限大のとき、所定の値に収束すること、又は、ある中心位置から外れれば外れるほど、その傾きの絶対値が小さくなる関数である。
The arc evaluation
The arc evaluation
図2は、第1の実施の形態のアーク評価値決定モジュール150内の構成例についての概念的なモジュール構成図である。アーク評価値決定モジュール150は、線形重み付け加算モジュール210、非線形関数モジュール220を有している。線形重み付け加算モジュール210と非線形関数モジュール220は接続されている。
線形重み付け加算モジュール210は、アーク特徴量抽出モジュール140から特徴ベクトルとして、特徴量1〜N(画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量)を受け取り、前述の図17の例の線形重み付け加算モジュール1710と同等の重み付き線形和の計算処理を行う。その結果を非線形関数モジュール220へ渡す。
非線形関数モジュール220は、線形重み付け加算モジュール210から計算結果を引数として受け取り、その引数が極限の値の場合に予め定められた値に収束するようになる、又はその引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又はその非線形単調関数に近似する関数によって、1つの文字画像を切り出す位置の候補の評価値(アーク評価値)を計算する。つまり、アーク評価関数によって計算する。
FIG. 2 is a conceptual module configuration diagram of a configuration example in the arc evaluation
The linear
The
アーク評価値関数をV(f)とすると、この構成の演算は、式(8)となる。入力特徴量ベクトルをf、重みベクトルをw、重みのスカラー値をcとしている。σ()は非線形関数である。
このような構成を採ることによって、極端に大きな(あるいは極端に小さな)値をとった場合の影響を少なくする。
図18に示した例で、非線形関数(線形重み付け加算モジュール210)の入出力を、例えば、下記のような場合について説明する。
入力:1 出力:1
入力:10 出力:2
入力:100 出力:3
このようにすると、
パス1:「化」「学」の場合のパス評価値は、2×2+2=6
パス2:「イ」「ヒ」「学」の場合のパス評価値は、1+3+2=6
となって、値100の影響を小さくすることができて、パス1とパス2の評価値が同程度の値となる。
By adopting such a configuration, the influence when an extremely large (or extremely small) value is taken is reduced.
In the example shown in FIG. 18, the input / output of the nonlinear function (linear weighted addition module 210) will be described, for example, in the following case.
Input: 1 Output: 1
Input: 10 Output: 2
Input: 100 Output: 3
If you do this,
Pass 1: The pass evaluation value in the case of “K” or “Study” is 2 × 2 + 2 = 6
Pass 2: The pass evaluation value for “I”, “Hi” and “Study” is 1 + 3 + 2 = 6
Thus, the influence of the
非線形関数の例としては、ハイパーボリックタンジェント関数、ロジスティックシグモイド関数など、前述の「非線形関数条件」に合致するものであれば、どのような関数であってもよい。 As an example of the non-linear function, any function such as a hyperbolic tangent function or a logistic sigmoid function may be used as long as it meets the above-described “non-linear function condition”.
本実施の形態を実際に使用する場合には、線形重み付け加算モジュール210における重み(すなわち、wとc)を決定しなければならない。そのため、図3の例に示すような教師用データテーブル300を用意する。
教師用データテーブル300は、データ番号欄310、特徴量1欄320、特徴量2欄330、特徴量N欄380、正解/非正解欄390等を有している。データ番号欄310は、アークを一意に識別するデータ番号を記憶する。例えば、各アークに対して個別のデータ番号を1から順に与えることにする。特徴量1欄320から特徴量N欄380は、アーク特徴量抽出モジュール140が抽出した特徴量を記憶する。つまり、あるアークの特徴量をアーク特徴量抽出モジュール140が抽出し、それを教師用データテーブル300の表の横に並べて入力する。さらに、そのアークが正解の文字の切れ目を表している場合には正解/非正解欄390に例えば1と入力する。そのアークが正解の文字の切れ目を表していない場合には正解/非正解欄390に例えば0と入力する。
When this embodiment is actually used, the weights (that is, w and c) in the linear
The teacher data table 300 includes a
以上のように作成したデータを教師データとして、特徴量を入力したときに、前述の正解/非正解データとできるだけ近い値を得ることができるように重みを決定すればよい。
できるだけ近い値の評価方法としては、以下のような手法がある。まず、各アークに番号を与えるデータ番号をkとする。データ番号kのアークに対して、アーク評価値決定モジュール150を用いて算出したアーク評価値をVkとする。また、番号kのアークの教師データをtkとする。ここでは、例えば、
・正解のとき tk=1
・不正解のとき tk=0
とする。
このとき、(9)式を最小とするように重みを決定すればよい。
重み決定方式としては、一般的なロジスティック回帰の回帰係数決定方式や、単層パーセプトロンの重み決定方式を利用すればよい。
The weights may be determined so that values as close as possible to the above-mentioned correct / incorrect data can be obtained when feature values are input using the data created as described above as teacher data.
There are the following methods as evaluation methods for values as close as possible. First, let k be a data number that gives a number to each arc. Against arc data number k, and V k arc evaluation value calculated using the arc evaluation
• When the correct answer t k = 1
・ Incorrect answer t k = 0
And
At this time, the weight may be determined so as to minimize Equation (9).
As the weight determination method, a general logistic regression regression coefficient determination method or a single-layer perceptron weight determination method may be used.
文字切り出しモジュール160は、アーク評価値決定モジュール150、文字認識モジュール170と接続されており、アーク評価値決定モジュール150によって計算されたアーク評価値に基づいて、文字列画像内に存在する文字画像を切り出す位置を決定し、文字列画像(又は画像受付モジュール110が受け取った画像)から文字画像を切り出す。
The
<第2の実施の形態>
第1の実施の形態では、非線形関数を単調関数としたため、出力のアーク評価値の大きさは変わるが、その相対的な順番を変えることはない。つまり、前述の<現象2>は起こり得る。
第2の実施の形態は、図1の例に示した構成を有しており、アーク評価値決定モジュール150が線形重み付け加算と非線形関数の組による処理を2度繰り返す構成を採る。
<Second Embodiment>
In the first embodiment, since the nonlinear function is a monotone function, the magnitude of the output arc evaluation value changes, but the relative order does not change. That is, the above-described <
The second embodiment has the configuration shown in the example of FIG. 1 and employs a configuration in which the arc evaluation
図4は、第2の実施の形態のアーク評価値決定モジュール150内の構成例についての概念的なモジュール構成図である。
アーク評価値決定モジュール150は、線形重み付け加算モジュール1−1:411、線形重み付け加算モジュール1−2:412、・・・、線形重み付け加算モジュール1−M:41M、非線形関数σ1−1モジュール421、非線形関数σ1−2モジュール422、・・・、非線形関数σ1−Mモジュール42M、線形重み付け加算モジュール2:430、非線形関数σ2モジュール440を有している。図4において、複数の特徴量(特徴量1〜特徴量N)を特徴量ベクトルとして1本の線で記述している。
線形重み付け加算モジュール1−1:411は、非線形関数σ1−1モジュール421と接続されている。
線形重み付け加算モジュール1−2:412は、非線形関数σ1−2モジュール422と接続されている。
線形重み付け加算モジュール1−M:41Mは、非線形関数σ1−Mモジュール42Mと接続されている。
非線形関数σ1−1モジュール421は、線形重み付け加算モジュール1−1:411、線形重み付け加算モジュール2:430と接続されている。
非線形関数σ1−2モジュール422は、線形重み付け加算モジュール1−2:412、線形重み付け加算モジュール2:430と接続されている。
非線形関数σ1−Mモジュール42Mは、線形重み付け加算モジュール1−M:41M、線形重み付け加算モジュール2:430と接続されている。
線形重み付け加算モジュール1−1:411と非線形関数σ1−1モジュール421の組み合わせ、線形重み付け加算モジュール1−2:412と非線形関数σ1−2モジュール422の組み合わせ、線形重み付け加算モジュール1−M:41Mと非線形関数σ1−Mモジュール42Mの組み合わせは、第1の実施の形態における線形重み付け加算モジュール210と非線形関数モジュール220の組み合わせに該当する。
線形重み付け加算モジュール2:430は、非線形関数σ1−1モジュール421、非線形関数σ1−2モジュール422、非線形関数σ1−Mモジュール42M、非線形関数σ2モジュール440と接続されている。
非線形関数σ2モジュール440は、線形重み付け加算モジュール2:430と接続されている。
線形重み付け加算モジュール2:430は第1の実施の形態における線形重み付け加算モジュール210に該当し、非線形関数σ2モジュール440は第1の実施の形態における非線形関数モジュール220に該当する。
FIG. 4 is a conceptual module configuration diagram of a configuration example in the arc evaluation
The arc evaluation
The linear weighted addition module 1-1: 411 is connected to the nonlinear function σ 1-1 module 421.
Linear weighted addition Module 1-2: 412, is connected to the non-linear function sigma 1-2 module 422.
The linear weighted addition module 1-M: 41M is connected to the nonlinear function σ 1-M module 42M.
The nonlinear function σ 1-1 module 421 is connected to the linear weighted addition module 1-1: 411 and the linear weighted addition module 2: 430.
The nonlinear function σ 1-2 module 422 is connected to the linear weighted addition module 1-2: 412 and the linear weighted addition module 2: 430.
The nonlinear function σ 1-M module 42M is connected to the linear weighted addition module 1-M: 41M and the linear weighted addition module 2: 430.
Combination of linear weighted addition module 1-1: 411 and nonlinear function σ 1-1 module 421, combination of linear weighted addition module 1-2: 412 and nonlinear function σ 1-2 module 422, linear weighted addition module 1-M: The combination of 41M and the nonlinear function σ 1-M module 42M corresponds to the combination of the linear
The linear weighted addition module 2: 430 is connected to the nonlinear function σ 1-1 module 421, the nonlinear function σ 1-2 module 422, the nonlinear function σ 1-M module 42M, and the nonlinear function σ 2 module 440.
The nonlinear function σ 2 module 440 is connected to the linear weighted addition module 2: 430.
The linear weighted addition module 2: 430 corresponds to the linear
線形重み付け加算モジュール1−iと非線形関数σ1−iモジュールの組み合わせでは(ただし、i=1,2,…,M)、(12)式による演算を行って、出力値Uiを得る。w1−i及びc1−iは、線形重み付け加算モジュール1−iで用いる重みである。なお、Mは、1段目の線形重み付け加算モジュールの数である。
第2の実施の形態においては、その構成が3層のパーセプトロンと同等となる。そのため、正解アークと非正解アークが非線形な分離面を持っていても対応が可能となる。また、通常の誤差逆伝播方式を用いて重み係数を決定するようにしてもよい。その際の教師データとしては、図13の例に示した教師用データテーブル300を用いればよい。第2の実施の形態のアーク評価値決定モジュール150を用いて算出したアーク評価値yiと教師データtiの値の差が小さいとき小さくなるような評価値の例も、第1の実施と同等である。
In the combination of the linear weighted addition module 1-i and the nonlinear function σ 1-i module (where i = 1, 2,..., M), the calculation according to the equation (12) is performed to obtain the output value U i . w 1-i and c 1-i are weights used in the linear weighted addition module 1-i. M is the number of first-stage linear weighting addition modules.
In the second embodiment, the configuration is equivalent to a three-layer perceptron. Therefore, even if the correct arc and the non-correct arc have a non-linear separation surface, it is possible to cope with it. Further, the weight coefficient may be determined using a normal error back propagation method. As the teacher data at that time, the teacher data table 300 shown in the example of FIG. 13 may be used. Examples of the second arc evaluation
<第3の実施の形態>
第3の実施の形態は、図1の例に示した構成を有しており、さらに、アーク評価値決定モジュール150内で、第2の実施の形態のアーク評価値決定モジュール150を複数用いて、その和を取るものである。
1つの推定器であるアーク評価値決定モジュール150の性能が悪くても、複数の推定器を用いることによって、性能を上げることが可能である。例えば、3つの推定器があるとする。そのうち、1つの推定器が不正解で、残り2つの推定器が正解であるとする。この3つの多数決を取って、正解のほうを採用することによって、正解の推定を行うことが可能となる。
本実施の形態の例では、多数決の演算を加算によって行う。
<Third Embodiment>
The third embodiment has the configuration shown in the example of FIG. 1, and further uses a plurality of arc evaluation
Even if the performance of the arc evaluation
In the example of the present embodiment, the majority operation is performed by addition.
図5は、第3の実施の形態のアーク評価値決定モジュール150内の構成例についての概念的なモジュール構成図である。
アーク評価値決定モジュール150は、アーク評価値算出モジュール1:511、アーク評価値算出モジュール2:512、アーク評価値算出モジュールK:51K、アーク評価値加算モジュール520を有している。
アーク評価値算出モジュール1:511、アーク評価値算出モジュール2:512、アーク評価値算出モジュールK:51Kは、それぞれアーク評価値加算モジュール520と接続されている。
第3の実施の形態では、複数のアーク評価値算出モジュール(アーク評価値算出モジュール1〜アーク評価値算出モジュールK)を用いる。アーク評価値算出モジュールjの出力は、Vjとする。
FIG. 5 is a conceptual module configuration diagram of a configuration example in the arc evaluation
The arc evaluation
The arc evaluation value calculation module 1: 511, the arc evaluation value calculation module 2: 512, and the arc evaluation value calculation module K: 51K are connected to the arc evaluation
In the third embodiment, a plurality of arc evaluation value calculation modules (arc evaluation
アーク評価値算出モジュールjは、第2の実施の形態のアーク評価値決定モジュール150と同等の構成を採る。
図6は、第3の実施の形態のアーク評価値算出モジュール内の構成例についての概念的なモジュール構成図である。
線形重み付け加算モジュールj−1−1:611、線形重み付け加算モジュールj−1−2:612、線形重み付け加算モジュールj−1−Mj:61M、非線形関数σj−1−1モジュール621、非線形関数σj−1−2モジュール622、非線形関数σj−1−Mjモジュール62M、線形重み付け加算モジュールj−2:630、非線形関数σj−2モジュール640を有している。
線形重み付け加算モジュールj−1−1:611は、非線形関数σj−1−1モジュール621と接続されている。
線形重み付け加算モジュールj−1−2:612は、非線形関数σj−1−2モジュール622と接続されている。
線形重み付け加算モジュールj−1−Mj:61Mは、非線形関数σj−1−Mjモジュール62Mと接続されている。
非線形関数σj−1−1モジュール621は、線形重み付け加算モジュールj−1−1:611、線形重み付け加算モジュールj−2:630と接続されている。
非線形関数σj−1−2モジュール622は、線形重み付け加算モジュールj−1−2:612、線形重み付け加算モジュールj−2:630と接続されている。
非線形関数σj−1−Mjモジュール62Mは、線形重み付け加算モジュールj−1−Mj:61M、線形重み付け加算モジュールj−2:630と接続されている。
線形重み付け加算モジュールj−2:630は、非線形関数σj−1−1モジュール621、非線形関数σj−1−2モジュール622、非線形関数σj−1−Mjモジュール62M、非線形関数σj−2モジュール640と接続されている。
非線形関数σj−2モジュール640は、線形重み付け加算モジュールj−2:630と接続されている。
アーク評価値算出モジュールjは、各構成要素に添え字jが付与されていることを除いて、第2の実施の形態と動作は同等である。以下、動作を示す。線形重み付け加算器j−1−iと非線形関数σj−1−iの組み合わせでは(ただし、i=1,2,…,Mj)、(15)式による演算を行って、出力値Uj−iを得る。wj−1−i及びcj−1−iは、線形重み付け加算モジュールj−1−iが用いる重みである。Mjは、1段目の線形重み付け加算モジュールの数である。
FIG. 6 is a conceptual module configuration diagram of a configuration example in the arc evaluation value calculation module according to the third embodiment.
Linear weighted addition module j-1-1: 611, linear weighted addition module j-1-2: 612, linear weighted addition module j-1-Mj: 61M, nonlinear function σ j-1-1 module 621, nonlinear function σ a j-1-2 module 622; a nonlinear function σ j-1-Mj module 62M; a linear weighting addition module j-2: 630; and a nonlinear function σ j-2 module 640.
The linear weighted addition module j-1-1: 611 is connected to the nonlinear function σ j-1-1 module 621.
The linear weighted addition module j-1-2: 612 is connected to the nonlinear function σ j-1-2 module 622.
The linear weighted addition module j-1-Mj: 61M is connected to the nonlinear function σ j-1-Mj module 62M.
The nonlinear function σ j-1-1 module 621 is connected to the linear weighted addition module j-1-1: 611 and the linear weighted addition module j-2: 630.
The nonlinear function σ j-1-2 module 622 is connected to the linear weighted addition module j-1-2: 612 and the linear weighted addition module j-2: 630.
The nonlinear function σ j-1-Mj module 62M is connected to the linear weighted addition module j-1-Mj: 61M and the linear weighted addition module j-2: 630.
The linear weighted addition module j-2: 630 includes a nonlinear function σ j-1-1 module 621, a nonlinear function σ j-1-2 module 622, a nonlinear function σ j-1-Mj module 62M, and a nonlinear function σ j-2. A module 640 is connected.
The nonlinear function σ j-2 module 640 is connected to the linear weighted addition module j-2: 630.
The arc evaluation value calculation module j has the same operation as that of the second embodiment except that a subscript j is assigned to each component. The operation will be described below. In the combination of the linear weighting adder j-1-i and the nonlinear function σ j-1-i (where i = 1, 2,..., Mj), the calculation according to the equation (15) is performed, and the output value U j− i is obtained. w j-1-i and c j-1-i are weights used by the linear weighted addition module j-1-i. Mj is the number of first linear weighting addition modules.
第3の実施の形態においては、重みwj−1−i、cj−1−i、wj−2及びcj−2を決定する必要がある。ただし、i=1,2,…,Mj、j=1,2,…,Kである。
前記の重み決定方法としては、文献「J. Friedman, T. Hastie, R. Tibshirani著 “Additive Logistic Regression: a Statistical View of Boosting”、Annals of Statistics、Vol. 28, No. 2, pp. 337−407, 2000」に記載のジェントルアダブースト方式と呼ばれる方式を用いるようにしてもよい。
以下、ここでは、説明の都合上、非線形関数σとして、例えば、入力がマイナス無限大で0、プラス無限大で1になる関数を用いることとする。実際にはマイナス無限大やプラス無限大で収束する値に応じて線形変換を行えば、入力がマイナス無限大で−1、プラス無限大で1になる関数などに変更してもよい。
次に、教師用データとして、図7の例に示す教師用データテーブル700を用意する。教師用データテーブル700は、データ番号欄710、特徴量1欄720、特徴量2欄730、特徴量N欄770、正解/非正解欄780、ウエイト欄790等を有している。これは、図3の例に示す教師用データテーブル300にウエイト欄790を追加したものである。ここで、「ウエイト」と「重み」は、意味的には同じである。しかし、これまで、線形重み付け加算モジュールにおける係数に対して「重み」という用語を用いていたため、その用語と区別をするため、教師データの重みに関しては「ウエイト」という用語を用いることとする。また、データの量をGとする。
In the third embodiment, it is necessary to determine weights w j-1-i , c j-1-i , w j-2 and c j-2 . However, i = 1, 2,..., Mj, j = 1, 2,.
The weight determination method is described in the literature “J. Friedman, T. Hastie, R. Tibshirani“ Additive Logistic Regression: a Statistical View of Boosting, ”Anals of V.3. 407, 2000 "may be used.
Hereinafter, for convenience of explanation, for example, a function that takes 0 when the input is minus infinity and 1 when plus infinity is used as the nonlinear function σ. Actually, if linear transformation is performed according to a value that converges at minus infinity or plus infinity, the function may be changed to a function that takes −1 when the input is minus infinity and 1 when plus infinity.
Next, a teacher data table 700 shown in the example of FIG. 7 is prepared as teacher data. The teacher data table 700 has a
さらに、以下に示す手法を用いて重みを決定していく。
ここで、データ番号kに対して、正解/非正解を表す記号をykとする。第3の実施の形態においては、例えば、
・正解のとき yk=+1
・不正解のとき yk=−1
とする。
さらに、非線形関数σとして、ロジスティックシグモイド関数を採用する。このとき、Vjは0〜1までの値を取る。
1.まず、図7の例に示した教師用データテーブル700内のデータのウエイトを全て等しく1/Gとする。
2.j=1とする。
(ア)各教師データのウエイトを用いて、その重み付け2乗誤差を最小とするように、アーク評価値算出モジュールjの重みを決定する。決定方法は、第2の実施の形態の説明で記載したものと同等である。通常は単なる2乗誤差を最小化するように重みを決定するのに対して、ウエイトで重み付けした重み付け2乗誤差を最小とするように重みを決定する点が異なる。
つまり、第1の実施の形態又は第2の実施の形態では、(19)式を最小とするように重みを決定していたのに対し、ここでは、(20)式を最小とするように重みを決定する。ただし、ここで、tk=(yk+1)/2の関係がある。
(イ−1)k番目のデータに対するアーク評価値をVjkとする。
(イ−2)ウエイトを(21)式で更新する。これは、アーク評価値の推定が間違ったデータのウエイトを大きくして、合っていたデータのウエイトを小さくする操作を示している。
(エ)jを1増大させて、(ア)に戻る。
Furthermore, the weight is determined using the following method.
Here, a symbol representing a correct / incorrect answer for data number k is y k . In the third embodiment, for example,
・ When correct, y k = + 1
・ Incorrect answer y k = -1
And
Further, a logistic sigmoid function is adopted as the nonlinear function σ. At this time, V j takes a value from 0 to 1.
1. First, all the data weights in the teacher data table 700 shown in the example of FIG.
2. Let j = 1.
(A) Using the weight of each teacher data, the weight of the arc evaluation value calculation module j is determined so as to minimize the weighted square error. The determination method is the same as that described in the description of the second embodiment. Normally, the weight is determined so as to minimize the square error, but the weight is determined so as to minimize the weighted square error weighted by the weight.
That is, in the first embodiment or the second embodiment, the weight is determined so as to minimize Equation (19), but here, Equation (20) is minimized. Determine the weight. However, there is a relationship of t k = (y k +1) / 2 here.
(A-1) Let the arc evaluation value for the kth data be V jk .
(B-2) The weight is updated by equation (21). This indicates an operation of increasing the weight of data for which the estimation of the arc evaluation value is incorrect and decreasing the weight of the matched data.
(D) Increase j by 1 and return to (a).
前記(ア)では、2乗誤差を最小としているが、第1の実施の形態の説明でも述べたように、(10)式、(11)式その他の評価値を最小としてもよい。その場合のウエイトのつけ方も同等であり、各kに対してakを乗じればよい。具体的には(22)式のようになる。この(22)式を最小とするように重みを決定すればよい。
前述では、非線形関数σとして、ロジスティックシグモイド関数を採用する。このとき、Vjは0〜1までの値を取るため、2Vjk−1の計算を行った。これは値域を−1〜+1の範囲に変更するためである。この変更は単に線形変換を行っているにすぎない。他の非線形関数を用いる場合においても、単に値域を−1〜+1の範囲にするように線形変換を行えばよい。 In the above description, a logistic sigmoid function is employed as the nonlinear function σ. At this time, since V j takes a value from 0 to 1, 2V jk −1 was calculated. This is to change the value range to a range of −1 to +1. This change is merely a linear transformation. Even when other nonlinear functions are used, linear transformation may be performed simply so that the range of values is in the range of −1 to +1.
また、前述では、各アーク評価値算出モジュール(アーク評価値算出モジュール1:511、アーク評価値算出モジュール2:512、・・・、アーク評価値算出モジュールK:51K)に入力する特徴量ベクトルを同じものとしていたが、その内容を異なるものにしてもよい。
すなわち、
・アーク評価値算出モジュール1の入力を、文字セグメント外接矩形の高さのみとする。
・アーク評価値算出モジュール2の入力を、全ての特徴量とする。
・アーク評価値算出モジュール3の入力を、文字セグメント外接矩形の幅のみとする。
・ …
等としてもよい。
In the above description, the feature quantity vector input to each arc evaluation value calculation module (arc evaluation value calculation module 1: 511, arc evaluation value calculation module 2: 512,..., Arc evaluation value calculation module K: 51K) is used. The contents are the same, but the contents may be different.
That is,
The input of the arc evaluation
The input of the arc evaluation
The input of the arc evaluation
・…
Etc.
また、前述では、各アーク評価値算出器の構成は第2の実施の形態のアーク評価値決定モジュール150の構成(図4の例参照)としていたが、第1の実施の形態のアーク評価値決定モジュール150の構成(図2の例参照)を混在させて含んでもよいし、全てが第1の実施の形態のアーク評価値決定モジュール150の構成であってもよい。すなわち、
・アーク評価値算出器1が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第2の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよいし、
・アーク評価値算出器1が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第1の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第1の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよいし、
・アーク評価値算出器1が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器2が第2の実施の形態のアーク評価値決定モジュール150の構成
・アーク評価値算出器3が第2の実施の形態のアーク評価値決定モジュール150の構成
・ …
としてもよい。
In the above description, the configuration of each arc evaluation value calculator is the configuration of the arc evaluation
The arc
Or
The arc
Or
The arc
It is good.
<第4の実施の形態>
前述の実施の形態では、アーク評価値決定モジュール150において、アーク評価値を推定していることになる。
推定するアーク評価値の教師データとしては、例えば、そのアークが文字の正解切り出し位置に相当している場合は1として、不正解切り出し位置に相当している場合は0としていた。
その場合、以下の2通りの最適化(重み決定)となっていることになる。
・クラス0とクラス1の2クラス分類問題として、クラス分類の誤りができるだけ小さくなるように重みを決定する。
・0〜1の間に存在する推定値と、教師データ(0又は1)との2乗誤差(絶対値誤差、クロスエントロピー等の誤差を示すような評価値であってもよい)を最小化するように重みを決定する。
<Fourth embodiment>
In the above-described embodiment, the arc evaluation
The teacher data of the arc evaluation value to be estimated is, for example, 1 when the arc corresponds to the correct cutout position of the character, and 0 when the arc corresponds to the incorrect cutout position.
In that case, the following two types of optimization (weight determination) are performed.
As a two-class classification problem of class 0 and
-Minimize the square error between the estimated value existing between 0 and 1 and the teacher data (0 or 1) (it may be an evaluation value indicating an error such as an absolute value error or cross-entropy) Determine the weights to
しかし、アーク評価値が不正確であっても、文字切り出し位置が正確であればよい。逆に、アーク評価値が正確であったとしても、文字切り出し位置が不正確ではいけない。
アーク評価値と、文字切り出し位置の正確さは、複雑な関係になっており、単調な関係ではない。図8に、アーク候補決定モジュール810、アーク評価値決定モジュール820、文字切り出し位置決定モジュール830の関係例を示す。
アーク候補決定モジュール810は、アーク評価値決定モジュール820と接続されている。
アーク評価値決定モジュール820は、アーク候補決定モジュール810、文字切り出し位置決定モジュール830と接続されている。
文字切り出し位置決定モジュール830は、アーク評価値決定モジュール820と接続されている。
文字認識の処理において、まずアーク候補決定モジュール810において、画像を受け付け、前述したように複数のアーク候補が抽出される。さらに、アーク評価値決定モジュール820において、アークの評価値が決定され、文字切り出し位置決定モジュール830において、複数のアーク候補の集合としての複数のパスの中から、最適なパスを選択されることによって、文字切り出し位置が確定する。なお、図1の例に示したモジュール構成と比較すると、アーク候補決定モジュール810は画像受付モジュール110〜アーク特徴量抽出モジュール140に該当し、アーク評価値決定モジュール820はアーク評価値決定モジュール150に該当し、文字切り出し位置決定モジュール830は文字切り出しモジュール160に該当する。
第1の実施の形態〜第3の実施の形態では、アーク評価値決定モジュール150におけるアーク評価値決定を、アークの中だけを参照して行っていたが、第4の実施の形態では上図全体を考えて、アーク評価値決定モジュール820で用いられる重みを決定する例を示す。
以下、アーク評価値決定モジュール820の構成は、第1の実施の形態〜第3の実施の形態の説明で述べたもののいずれかであるとする。
However, even if the arc evaluation value is inaccurate, the character cutout position may be accurate. Conversely, even if the arc evaluation value is accurate, the character cutout position should not be inaccurate.
The accuracy of the arc evaluation value and the character cut-out position has a complicated relationship and is not a monotonous relationship. FIG. 8 shows a relationship example between the arc
The arc
The arc evaluation
The character cutout
In the character recognition process, first, the arc
In the first to third embodiments, the arc evaluation value determination in the arc evaluation
Hereinafter, it is assumed that the configuration of the arc evaluation
第4の実施の形態は、第1の実施の形態〜第3の実施の形態の重みを決定する方法に関するものである。アーク評価値決定モジュール820の構成は第1の実施の形態〜第3の実施の形態の例で示したアーク評価値決定モジュール150である。
図9は、第4の実施の形態の構成例についての概念的なモジュール構成図である。
第4の実施の形態の画像処理装置は、図9の例に示すように、アーク候補決定モジュール910、重み変更モジュール920、アーク評価値決定モジュール930、文字切り出し位置決定モジュール940、切り出し位置正解個数算出モジュール950を有している。なお、アーク候補決定モジュール910は図8の例に示したアーク候補決定モジュール810に該当し、アーク評価値決定モジュール930は図8の例に示したアーク評価値決定モジュール820に該当し、文字切り出し位置決定モジュール940は図8の例に示した文字切り出し位置決定モジュール830に該当する。
The fourth embodiment relates to a method for determining the weights of the first to third embodiments. The configuration of the arc evaluation
FIG. 9 is a conceptual module configuration diagram of a configuration example according to the fourth embodiment.
As shown in the example of FIG. 9, the image processing apparatus according to the fourth embodiment includes an arc
アーク候補決定モジュール910は、アーク評価値決定モジュール930と接続されており、画像を受け付け、アーク候補を決定する。
重み変更モジュール920は、アーク評価値決定モジュール930、切り出し位置正解個数算出モジュール950と接続されており、切り出し位置正解個数算出モジュール950によって算出された切り出し位置の正解個数に基づいて、1文字分の文字切り出し位置におけるアーク評価値決定モジュール930で用いる重みを変更する。そして、現在の重みでの場合の正解個数から変更後の重みでの正解個数への変更量から次の重みを決定する。
The arc
The
アーク評価値決定モジュール930は、アーク候補決定モジュール910、重み変更モジュール920、文字切り出し位置決定モジュール940と接続されており、アーク候補決定モジュール910からのアーク候補を受け取り、重み変更モジュール920からの重みを用いて、アーク評価値を決定する。
文字切り出し位置決定モジュール940は、アーク評価値決定モジュール930、切り出し位置正解個数算出モジュール950と接続されており、アーク評価値決定モジュール930からのアーク評価値に基づいて、画像内に存在する文字画像を切り出す位置を決定し、その決定された切り出し位置を切り出し位置正解個数算出モジュール950へ渡す。
切り出し位置正解個数算出モジュール950は、重み変更モジュール920、文字切り出し位置決定モジュール940と接続されており、文字切り出し位置決定モジュール940から切り出し位置と文字画像を切り出す位置の教師データを受け付け、文字切り出し位置決定モジュール940からの切り出し位置と教師データを比較して、切り出し位置の正解個数を算出する。
The arc evaluation
The character cutout
The cutout position correct
次に処理の流れを説明する。
まず、アーク候補決定モジュール910は画像を受け付け、アーク候補を決定する。
アーク評価値決定モジュール930が用いる初期の重みは、乱数であってもよいし、第1の実施の形態〜第3の実施の形態の説明に記載した手法で定めた重みであってもよい。いずれにせよ、重み変更モジュール920では、初期の重みを保持する。
次に、アーク評価値決定モジュール930はアーク評価値を決定する。そして、文字切り出し位置決定モジュール940が、そのアーク評価値を用いて、文字切り出し位置を決定する。
決定後の文字切り出し位置は、切り出し位置正解個数算出モジュール950に渡される。それとは別に、文字切り出し教師データが切り出し位置正解個数算出モジュール950に入力される。
ここで、文字切り出し結果とは、例えば、画像中の文字の外接矩形の位置、サイズと、文字コードのペアからなっている。文字切り出し教師データも同様である。
切り出し位置正解個数算出モジュール950では、
・教師文字:文字切り出し教師データ内に存在する、複数の文字(外接矩形の位置、サイズと、文字コードを持っている)
と、
・推定文字:文字切り出し位置決定モジュール940で決定した文字
との比較を行う。
教師文字と推定文字の文字切り出し位置、サイズと文字コードが一致した個数を、切り出し位置正解個数算出モジュール950では算出する。ここで、文字切り出し位置、サイズの一致の判定に関しては、微小なずれを許容するようにしてもよい。なお、文字コードの一致を判定せずに、文字切り出し位置、サイズの一致だけを判定してもよい。
Next, the flow of processing will be described.
First, the arc
The initial weight used by the arc evaluation
Next, the arc evaluation
The character cutout position after determination is passed to the cutout position correct
Here, the character cutout result is composed of, for example, a pair of a character code and a position and size of a circumscribed rectangle of the character in the image. The same applies to the character segmentation teacher data.
In the cutout position correct answer
・ Teacher characters: Multiple characters present in the character cutout teacher data (has the position, size, and character code of the circumscribed rectangle)
When,
Estimated character: Comparison with the character determined by the character cutout
The cutout position correct answer
以上のように判定した正解個数が、重み変更モジュール920に渡される。
重み変更モジュール920では、正解個数と、重み変更モジュール920内で保持している過去の重みを用いて、次の重みを決定する。
ここで、アーク評価値決定モジュール930で用いる重み(すなわち全てのwやc)を並べた重みベクトルをWとする。Wの要素を(W1,W2,…)とする。
また、初期重みをW0とする。次の重みをW1とする。このように次々に重みを更新していく。正解個数が増加しなくなった時点や、正解個数の増加率が所定の値以下になった時点、又は、繰り返し回数が予め定められた回数となった時点で重み変更の処理を終了して、その時点の重みをアーク評価値決定モジュール930に出力する。
The number of correct answers determined as described above is passed to the
The
Here, W is a weight vector in which weights (that is, all w and c) used in the arc evaluation
In addition, the initial weight and W 0. The following weight and W 1. In this way, the weights are updated one after another. When the number of correct answers stops increasing, when the rate of increase in the number of correct answers falls below a predetermined value, or when the number of repetitions reaches a predetermined number of times, the weight change process is terminated. The weight at the time is output to the arc evaluation
次に、重み変更モジュール920の処理の詳細を説明する。
まず、文字切り出し正解個数をAとする。Aは、Wの関数である。すなわち、A(W)と記すことができる。Aを最大化するようにWを決定すればよい。さて、現在の重みをWmとする。また、変更後の重みをWm+1とする。
重みの更新式は、(24)式となる。
First, let A be the number of correct character cutouts. A is a function of W. That is, it can be written as A (W). What is necessary is just to determine W so that A may be maximized. Now, let W m be the current weight. Further, the changed weight is set to W m + 1 .
The weight update formula is the formula (24).
ただし、関数A(W)の内容が不明であるため、∇Aを解析的に計算することは不可能である。そこで、適当なεを定めて、(26)式又は(27)式として、数値演算的に∇Aを計算する。
前述の説明では、正解個数を最大化していたが、誤り個数を最小化してもよい。又は、誤り率(すなわち、誤り個数/正解個数、又は誤り個数/(誤り個数+正解個数))を最小化してもよい。又は正解率(すなわち、正解個数/誤り個数、又は正解個数/(誤り個数+正解個数))を最大化してもよい。つまり、正解個数又は誤り個数に基づいた値として、正解個数、誤り個数、正解率、誤り率がある。 In the above description, the number of correct answers is maximized, but the number of errors may be minimized. Alternatively, the error rate (that is, the number of errors / the number of correct answers, or the number of errors / (number of errors + number of correct answers)) may be minimized. Alternatively, the correct answer rate (that is, the number of correct answers / number of errors, or the number of correct answers / (number of errors + number of correct answers)) may be maximized. That is, as the values based on the number of correct answers or the number of errors, there are the number of correct answers, the number of errors, the correct answer rate, and the error rate.
図10を参照して、第1〜第4の実施の形態の画像処理装置のハードウェア構成例について説明する。図10に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1017と、プリンタなどのデータ出力部1018を備えたハードウェア構成例を示している。
With reference to FIG. 10, a hardware configuration example of the image processing apparatuses according to the first to fourth embodiments will be described. The configuration illustrated in FIG. 10 is configured by, for example, a personal computer (PC), and illustrates a hardware configuration example including a
CPU1001は、前述の実施の形態において説明した各種のモジュール、すなわち、図1、図2、図4、図5、図6、図8、図9、図17等の例に示した各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
The
ROM(Read Only Memory)1002は、CPU1001が使用するプログラムや演算パラメータ等を格納する。RAM1003は、CPU1001の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1004により相互に接続されている。
A ROM (Read Only Memory) 1002 stores programs used by the
ホストバス1004は、ブリッジ1005を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1006に接続されている。
The
キーボード1008、マウス等のポインティングデバイス1009は、操作者により操作される入力デバイスである。ディスプレイ1010は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
A
HDD(Hard Disk Drive)1011は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1001によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、画像、文字画像、文字切り出し位置、文字切り出し位置の候補、教師用データテーブル300、教師用データテーブル700などが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
An HDD (Hard Disk Drive) 1011 includes a hard disk, drives the hard disk, and records or reproduces a program executed by the
ドライブ1012は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1013に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1007、外部バス1006、ブリッジ1005、及びホストバス1004を介して接続されているRAM1003に供給する。リムーバブル記録媒体1013も、ハードディスクと同様のデータ記録領域として利用可能である。
The
接続ポート1014は、外部接続機器1015を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1014は、インタフェース1007、及び外部バス1006、ブリッジ1005、ホストバス1004等を介してCPU1001等に接続されている。通信部1016は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1017は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1018は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
The
なお、図10に示す画像処理装置のハードウェア構成は、1つの構成例を示すものであり、第1〜第4の実施の形態は、図10に示す構成に限らず、第1〜第4の実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図10に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。 Note that the hardware configuration of the image processing apparatus shown in FIG. 10 shows one configuration example, and the first to fourth embodiments are not limited to the configuration shown in FIG. Any configuration can be used as long as the module described in the embodiment can be executed. For example, some modules may be configured with dedicated hardware (for example, Application Specific Integrated Circuit (ASIC), etc.), and some modules are in an external system and connected via a communication line In addition, a plurality of systems shown in FIG. 10 may be connected to each other via communication lines so as to cooperate with each other. Further, it may be incorporated in a copying machine, a fax machine, a scanner, a printer, a multifunction machine (an image processing apparatus having any two or more functions of a scanner, a printer, a copying machine, a fax machine, etc.).
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に適用する、入れ替えする等も含む)、各モジュールの処理内容として背景技術で説明した技術を採用してもよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
Note that the various embodiments described above may be combined (for example, a module in one embodiment may be applied to another embodiment, replaced, etc.), and the background art may be used as the processing content of each module. You may employ | adopt the technique demonstrated by.
In addition, although demonstrated using a numerical formula, the thing equivalent to the numerical formula is contained in a numerical formula. The equivalent includes not only the mathematical formula itself, but also transformation of the mathematical formula to the extent that the final result is not affected, or solving the mathematical formula by an algorithmic solution.
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
The program described above may be provided by being stored in a recording medium, or the program may be provided by communication means. In that case, for example, the above-described program may be regarded as an invention of a “computer-readable recording medium recording the program”.
The “computer-readable recording medium on which a program is recorded” refers to a computer-readable recording medium on which a program is recorded, which is used for program installation, execution, program distribution, and the like.
The recording medium is, for example, a digital versatile disc (DVD), which is a standard established by the DVD Forum, such as “DVD-R, DVD-RW, DVD-RAM,” and DVD + RW. Standard “DVD + R, DVD + RW, etc.”, compact disc (CD), read-only memory (CD-ROM), CD recordable (CD-R), CD rewritable (CD-RW), Blu-ray disc ( Blu-ray Disc (registered trademark), magneto-optical disk (MO), flexible disk (FD), magnetic tape, hard disk, read-only memory (ROM), electrically erasable and rewritable read-only memory (EEPROM), flash Includes memory, random access memory (RAM), etc. .
The program or a part of the program may be recorded on the recording medium for storage or distribution. Also, by communication, for example, a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), a wired network used for the Internet, an intranet, an extranet, etc., or wireless communication It may be transmitted using a transmission medium such as a network or a combination of these, or may be carried on a carrier wave.
Furthermore, the program may be a part of another program, or may be recorded on a recording medium together with a separate program. Moreover, it may be divided and recorded on a plurality of recording media. Further, it may be recorded in any manner as long as it can be restored, such as compression or encryption.
41M…線形重み付け加算モジュール1−M
42M…非線形関数σ1−Mモジュール
51K…アーク評価値算出モジュールK
61M…線形重み付け加算モジュールj−1−Mj
62M…非線形関数σj−1−Mjモジュール
110…画像受付モジュール
120…文字列抽出モジュール
130…文字境界候補抽出モジュール
140…アーク特徴量抽出モジュール
150…アーク評価値決定モジュール
160…文字切り出しモジュール
170…文字認識モジュール
210…線形重み付け加算モジュール
220…非線形関数モジュール
411…線形重み付け加算モジュール1−1
412…線形重み付け加算モジュール1−2
421…非線形関数σ1−1モジュール
422…非線形関数σ1−2モジュール
430…線形重み付け加算モジュール2
440…非線形関数σ2モジュール
511…アーク評価値算出モジュール1
512…アーク評価値算出モジュール2
520…アーク評価値加算モジュール
611…線形重み付け加算モジュールj−1−1
612…線形重み付け加算モジュールj−1−2
621…非線形関数σj−1−1モジュール
622…非線形関数σj−1−2モジュール
630…線形重み付け加算モジュールj−2
640…非線形関数σj−2モジュール
810…アーク候補決定モジュール
820…アーク評価値決定モジュール
830…文字切り出し位置決定モジュール
910…アーク候補決定モジュール
920…重み変更モジュール
930…アーク評価値決定モジュール
940…文字切り出し位置決定モジュール
950…切り出し位置正解個数算出モジュール
1710…線形重み付け加算モジュール
41M ... Linear weighting addition module 1-M
42M: nonlinear function σ 1-M module 51K: arc evaluation value calculation module K
61M: Linear weighted addition module j-1-Mj
62M ... Nonlinear function [sigma] j-1-Mj
412 ... Linear weighting addition module 1-2
421: nonlinear function σ 1-1 module 422: nonlinear function σ 1-2 module 430: linear
440: nonlinear function σ 2 module 511: arc evaluation
512 ... Arc evaluation
520 ... Arc evaluation
612 ... Linear weighting addition module j-1-2
621 ... Nonlinear function σ j-1-1 module 622 ... Nonlinear function σ j-1-2 module 630 ... Linear weighted addition module j-2
640: Nonlinear function σ j-2 module 810: Arc
Claims (8)
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image ;
Accepting means for accepting teacher data of the cutout position of the character image;
A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
Weight change means for changing the weight used in the first calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means.
Comprising
The weight changing means determines a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight.
The image processing apparatus characterized by.
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
を具備し、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
A plurality of sets of the first calculation means and the second calculation means;
Third calculation means for calculating a weighted linear sum for the evaluation values calculated by the plurality of second calculation means;
The calculation result by the third calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases A fourth calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function in which the absolute value of the slope of the curve becomes small or a function approximating the nonlinear monotone function;
The cut-out position determining means determines a position to cut out a character image existing in the image based on the evaluation value calculated by the fourth calculation means ,
Accepting means for accepting teacher data of the cutout position of the character image;
A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
A weight change for changing the weight used in the first calculation means or the third calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means means
Comprising
The weight changing means determines a next weight from a change amount from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight. An image processing apparatus.
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段
を具備し、
前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
A plurality of sets of the first calculation means and the second calculation means;
Fifth calculation means for calculating a sum of evaluation values calculated by the plurality of second calculation means;
The cut-out position determining means determines a position to cut out a character image existing in the image based on the sum of evaluation values calculated by the fifth calculation means ,
Accepting means for accepting teacher data of the cutout position of the character image;
A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
Weight change means for changing the weight used in the first calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means.
Comprising
The weight changing means determines a next weight from a change amount from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight. An image processing apparatus.
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
前記第1の計算手段と前記第2の計算手段による組を複数有し、
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段
を具備し、
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、
前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段
を具備し、
前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段
を具備し、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理装置。 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
A plurality of sets of the first calculation means and the second calculation means;
Third calculation means for calculating a weighted linear sum for the evaluation values calculated by the plurality of second calculation means;
The calculation result by the third calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Fourth calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function or an approximate function of the nonlinear monotone function in which the absolute value of the slope of the image becomes small
Comprising
The cut-out position determining means determines a position to cut out a character image existing in the image based on the evaluation value calculated by the fourth calculation means,
A plurality of sets by the first calculation means and the second calculation means; a plurality of sets by the third calculation means and the fourth calculation means;
Sixth calculation means for calculating a sum of evaluation values calculated by the plurality of fourth calculation means,
The cut-out position determining means determines a position to cut out a character image existing in the image based on the sum of evaluation values calculated by the sixth calculation means ,
Accepting means for accepting teacher data of the cutout position of the character image;
A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
A weight change for changing the weight used in the first calculation means or the third calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means means
Comprising
The weight changing means determines a next weight from a change amount from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight. An image processing apparatus.
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、
文字画像の切り出し位置の教師データを受け付ける受付手段と、
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段
として機能させ、
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する
ことを特徴とする画像処理プログラム。 Computer
First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image ;
Accepting means for accepting teacher data of the cutout position of the character image;
A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
Weight change means for changing the weight used in the first calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means.
Function as
The weight changing means determines a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight.
An image processing program characterized by that .
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、 The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、 Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
前記第1の計算手段と前記第2の計算手段による組を複数有し、 A plurality of sets of the first calculation means and the second calculation means;
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、 Third calculation means for calculating a weighted linear sum for the evaluation values calculated by the plurality of second calculation means;
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段 The calculation result by the third calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Fourth calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function or an approximate function of the nonlinear monotone function in which the absolute value of the slope of the image becomes small
として機能させ、 Function as
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、 The cut-out position determining means determines a position to cut out a character image existing in the image based on the evaluation value calculated by the fourth calculation means,
文字画像の切り出し位置の教師データを受け付ける受付手段と、 Accepting means for accepting teacher data of the cutout position of the character image;
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、 A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段 A weight change for changing the weight used in the first calculation means or the third calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means means
として機能させ、 Function as
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する The weight changing means determines a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight.
ことを特徴とする画像処理プログラム。 An image processing program characterized by that.
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、 The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、 Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
前記第1の計算手段と前記第2の計算手段による組を複数有し、 A plurality of sets of the first calculation means and the second calculation means;
前記複数の第2の計算手段によって計算された評価値の和を計算する第5の計算手段 Fifth calculation means for calculating the sum of the evaluation values calculated by the plurality of second calculation means
として機能させ、 Function as
前記切出位置決定手段は、前記第5の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、 The cut-out position determining means determines a position to cut out a character image existing in the image based on the sum of evaluation values calculated by the fifth calculation means,
文字画像の切り出し位置の教師データを受け付ける受付手段と、 Accepting means for accepting teacher data of the cutout position of the character image;
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、 A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段で用いる重みを変更する重み変更手段 Weight change means for changing the weight used in the first calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means.
として機能させ、 Function as
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する The weight changing means determines a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight.
ことを特徴とする画像処理プログラム。 An image processing program characterized by that.
画像内に存在する1つの文字画像を切り出す位置の候補に関する複数の特徴量に対して、重み付き線形和を計算する第1の計算手段と、 First calculating means for calculating a weighted linear sum for a plurality of feature amounts related to a position candidate for cutting out one character image existing in the image;
前記第1の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第2の計算手段と、 The calculation result by the first calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Second calculating means for calculating an evaluation value of a candidate for a position to cut out the one character image by a non-linear monotone function in which the absolute value of the slope of the non-linear monotonic function or a function approximating the non-linear monotone function is reduced;
前記第2の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定する切出位置決定手段と、 Based on the evaluation value calculated by the second calculating means, a cutting position determining means for determining a position for cutting out a character image existing in the image;
前記第1の計算手段と前記第2の計算手段による組を複数有し、 A plurality of sets of the first calculation means and the second calculation means;
前記複数の第2の計算手段によって計算された評価値に対して、重み付き線形和を計算する第3の計算手段と、 Third calculation means for calculating a weighted linear sum for the evaluation values calculated by the plurality of second calculation means;
前記第3の計算手段による計算結果を引数として、該引数が極限の値の場合に予め定められた値に収束するようになる、又は該引数と予め定められた値との距離が大きくなると出力の傾きの絶対値が小さくなるようになる非線形単調関数又は該非線形単調関数に近似する関数によって、前記1つの文字画像を切り出す位置の候補の評価値を計算する第4の計算手段 The calculation result by the third calculation means is used as an argument, and when the argument is a limit value, it converges to a predetermined value, or output when the distance between the argument and the predetermined value increases Fourth calculation means for calculating an evaluation value of a candidate for a position to cut out the one character image by a nonlinear monotone function or an approximate function of the nonlinear monotone function in which the absolute value of the slope of the image becomes small
として機能させ、 Function as
前記切出位置決定手段は、前記第4の計算手段によって計算された評価値に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、 The cut-out position determining means determines a position to cut out a character image existing in the image based on the evaluation value calculated by the fourth calculation means,
前記第1の計算手段と前記第2の計算手段による複数の組と、前記第3の計算手段と前記第4の計算手段による組を複数有し、 A plurality of sets by the first calculation means and the second calculation means; a plurality of sets by the third calculation means and the fourth calculation means;
前記複数の第4の計算手段によって計算された評価値の和を計算する第6の計算手段 Sixth calculation means for calculating a sum of evaluation values calculated by the plurality of fourth calculation means.
として機能させ、 Function as
前記切出位置決定手段は、前記第6の計算手段によって計算された評価値の和に基づいて、前記画像内に存在する文字画像を切り出す位置を決定し、 The cut-out position determining means determines a position to cut out a character image existing in the image based on the sum of evaluation values calculated by the sixth calculation means,
文字画像の切り出し位置の教師データを受け付ける受付手段と、 Accepting means for accepting teacher data of the cutout position of the character image;
前記切出位置決定手段によって決定された切り出し位置と前記受付手段によって受け付けられた教師データを比較して、切り出し位置の正解個数又は誤り個数を算出する個数算出手段と、 A number calculating means for comparing the cutout position determined by the cutout position determining means with the teacher data received by the receiving means, and calculating the correct number of answers or the number of errors of the cutout position;
前記個数算出手段によって算出された切り出し位置の正解個数又は誤り個数に基づいて、1文字分の文字切り出し位置における前記第1の計算手段、又は前記第3の計算手段で用いる重みを変更する重み変更手段 A weight change for changing the weight used in the first calculation means or the third calculation means at the character cutout position for one character based on the correct number or the error number of the cutout position calculated by the number calculation means means
として機能させ、 Function as
前記重み変更手段は、現在の重みでの場合の正解個数又は誤り個数に基づいた値から変更後の重みでの正解個数又は誤り個数に基づいた値への変更量から次の重みを決定する The weight changing means determines a next weight from an amount of change from a value based on the number of correct answers or the number of errors in the case of the current weight to a value based on the number of correct answers or the number of errors in the changed weight.
ことを特徴とする画像処理プログラム。 An image processing program characterized by that.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146014A JP5636766B2 (en) | 2010-06-28 | 2010-06-28 | Image processing apparatus and image processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010146014A JP5636766B2 (en) | 2010-06-28 | 2010-06-28 | Image processing apparatus and image processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012008909A JP2012008909A (en) | 2012-01-12 |
JP5636766B2 true JP5636766B2 (en) | 2014-12-10 |
Family
ID=45539349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010146014A Active JP5636766B2 (en) | 2010-06-28 | 2010-06-28 | Image processing apparatus and image processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5636766B2 (en) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0343877A (en) * | 1989-07-12 | 1991-02-25 | Omron Corp | Image collating device |
JP3009078B2 (en) * | 1992-01-06 | 2000-02-14 | オムロン株式会社 | Character recognition device |
JP3264961B2 (en) * | 1992-01-30 | 2002-03-11 | 松下電器産業株式会社 | Character recognition device |
JP3180477B2 (en) * | 1992-12-10 | 2001-06-25 | 松下電器産業株式会社 | Pattern recognition device |
JP2576080B2 (en) * | 1992-10-28 | 1997-01-29 | エヌ・ティ・ティ・データ通信株式会社 | Character extraction method |
JP3313272B2 (en) * | 1996-01-08 | 2002-08-12 | 株式会社日立製作所 | Address reading method and identification function weight vector generation method |
JP4741019B2 (en) * | 2009-07-06 | 2011-08-03 | セコム株式会社 | Intercom device |
-
2010
- 2010-06-28 JP JP2010146014A patent/JP5636766B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012008909A (en) | 2012-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8131087B2 (en) | Program and apparatus for forms processing | |
US8045800B2 (en) | Active segmentation for groups of images | |
US8224090B2 (en) | Apparatus and method for analyzing and determining correlation of information in a document | |
JP5772442B2 (en) | Image processing apparatus and image processing program | |
JP5699570B2 (en) | Image processing apparatus and image processing program | |
JP6003705B2 (en) | Information processing apparatus and information processing program | |
JP7353198B2 (en) | Calculator, discriminator learning method, and analysis system | |
US20230195851A1 (en) | Data classification system, data classification method, and recording medium | |
JP6892606B2 (en) | Positioning device, position identification method and computer program | |
JP2019204214A (en) | Learning device, learning method, program and estimation device | |
JP5942361B2 (en) | Image processing apparatus and image processing program | |
US8787676B2 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
JP5636766B2 (en) | Image processing apparatus and image processing program | |
WO2023093124A1 (en) | Lane line tracking method and apparatus, and computer device, storage medium and computer program product | |
JP5673033B2 (en) | Image processing apparatus and image processing program | |
JP6511942B2 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM | |
JP6260350B2 (en) | Image processing apparatus and image processing program | |
JP5888222B2 (en) | Information processing apparatus and information processing program | |
WO2023188362A1 (en) | Table image recognition device, program, and table image recognition method | |
JP6003375B2 (en) | Image processing apparatus and image processing program | |
US20230289406A1 (en) | Computer-readable recording medium storing determination program, apparatus, and method | |
JP5935324B2 (en) | Information processing apparatus and information processing program | |
JP2024006813A (en) | Character string detection device and character string detection method | |
JP2016009235A (en) | Information processing apparatus and information processing program | |
CN116563869A (en) | Page image word processing method and device, terminal equipment and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130522 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140212 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141007 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5636766 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |