JP2012164008A - Handwritten word recognition device and model learning device for handwritten word recognition - Google Patents
Handwritten word recognition device and model learning device for handwritten word recognition Download PDFInfo
- Publication number
- JP2012164008A JP2012164008A JP2011021728A JP2011021728A JP2012164008A JP 2012164008 A JP2012164008 A JP 2012164008A JP 2011021728 A JP2011021728 A JP 2011021728A JP 2011021728 A JP2011021728 A JP 2011021728A JP 2012164008 A JP2012164008 A JP 2012164008A
- Authority
- JP
- Japan
- Prior art keywords
- model
- word
- image
- environment
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
Description
本発明の実施形態は、たとえば、郵便物処理システムにおいて郵便物上の画像内に存在する手書き単語を認識する手書き単語認識装置、および、この手書き単語認識装置に用いられる手書き単語認識用モデル学習装置に関する。 Embodiments of the present invention include, for example, a handwritten word recognition device that recognizes a handwritten word existing in an image on a mail in a mail processing system, and a model learning device for handwritten word recognition used in the handwritten word recognition device About.
たとえば、音声認識では一般に隠れマルコフモデル(HMM:Hidden Markov Model)が用いられており、手書き文字認識においてもHMMを用いた方法が提案されている。 For example, a hidden Markov model (HMM) is generally used for speech recognition, and a method using an HMM has also been proposed for handwritten character recognition.
また、音声認識では、隣接する音素(これを「環境」と呼ぶ)に依存して音素がひずみを受けるため、環境別に音素モデルを作ることが有効であることが知られている。しかし、環境の数が多い場合、音素モデル1つ当たりの学習パターンの数が減少し、過学習に陥ってしまう。そこで、環境をクラスタリングし、同一のクラスタに属する環境間ではモデルを共有することで学習パターン数を増やし、過学習を防ぐ方法が取られる。 In speech recognition, it is known that it is effective to create a phoneme model for each environment because the phoneme is distorted depending on adjacent phonemes (referred to as “environment”). However, when the number of environments is large, the number of learning patterns per phoneme model decreases, resulting in overlearning. Therefore, a method is adopted in which environments are clustered and the number of learning patterns is increased by sharing models between environments belonging to the same cluster to prevent overlearning.
上記方法を手書き文字認識に用いることで、認識性能向上が期待される。しかし、手書き文字認識では、ブロック体と筆記体のような全く異なる字体が1つのクラス内に混在しており、上記環境クラスタリング手法ではこのような場合を想定していないため、効果が得られない。 Use of the above method for handwritten character recognition is expected to improve recognition performance. However, in handwritten character recognition, completely different fonts such as block and cursive are mixed in one class, and the above-mentioned environment clustering method does not assume such a case, so an effect cannot be obtained. .
具体例をあげて説明すると、たとえば、英文字における小文字の「r」の例を挙げる。小文字の「r」は、ブロック体と筆記体で全く字形が異なるため、図8に示すように大きく離れた2つの分布を形成すると考えられる。そして、環境の違いは、各分布の中での小さな差に留まると考えられる。本例では「r」の左側にある文字を環境とし、a〜eの5種類の環境が存在するものとし、a−r〜e−rと表記している。このとき、環境を無視してクラスタリングした場合は、図9のCとDのように字体を反映した分割が可能となるが、環境のみ分割すると、図9のAとBのように複数の字体にまたがった分割となり、前者に比べ推定精度が著しく低下してしまう。 For example, an example of a lowercase letter “r” in English letters is given. Since the letter “r” is completely different in the block form and the cursive form, it is considered that two distributions that are largely separated are formed as shown in FIG. And the difference in the environment is considered to be only a small difference in each distribution. In this example, it is assumed that the character on the left side of “r” is an environment, and five types of environments a to e exist, and are represented as ar to err. At this time, when clustering is performed while ignoring the environment, division that reflects the font is possible as shown in C and D of FIG. 9, but if only the environment is divided, a plurality of fonts are used as shown in A and B of FIG. Therefore, the estimation accuracy is significantly reduced compared to the former.
そこで、本発明は、1つのクラス内に全く異なる字体が混在している場合でも環境を考慮して手書き単語の認識精度を著しく向上することが可能な手書き単語認識装置および手書き単語認識用モデル学習装置を提供することを目的とする。 Therefore, the present invention provides a handwritten word recognition apparatus and model learning for handwritten word recognition that can significantly improve the recognition accuracy of handwritten words in consideration of the environment even when completely different fonts are mixed in one class. An object is to provide an apparatus.
実施形態に係る手書き単語認識装置は、記録媒体上の手書き単語を含む画像を取込む画像取込手段と、この画像取込手段により取込まれた画像から単語画像を抽出する単語抽出手段と、この単語抽出手段により抽出された単語画像からその特徴を抽出する第1の特徴抽出手段と、文字ごとの文字モデルを格納するもので、前記各文字モデルはモデル母集合および環境ごとの環境別文字モデルにより構成され、前記モデル母集合および前記各環境別文字モデルはそれぞれ複数の状態により構成され、前記モデル母集合の各状態は少なくとも2個以上のG(自然数)個のガウス分布により構成され、前記各環境別文字モデルの各状態は少なくとも2個以上のM(自然数で、M≦G)個のガウス分布により構成され、かつ、前記モデル母集合の各状態を構成するG個のガウス分布の中からM個を選択した組合せのいずれかに相当しているモデル格納手段と、前記第1の特徴抽出手段により抽出された特徴と前記モデル格納手段に格納された各文字モデルとの間でマッチング処理を行ない、その結果を認識結果とするモデルマッチング手段とを具備している。 The handwritten word recognition apparatus according to the embodiment includes an image capturing unit that captures an image including a handwritten word on a recording medium, a word extracting unit that extracts a word image from the image captured by the image capturing unit, A first feature extracting means for extracting the feature from the word image extracted by the word extracting means; and storing a character model for each character, wherein each character model is a model population and an environment-specific character for each environment. The model population and each environment-specific character model are each composed of a plurality of states, and each state of the model population is composed of at least two G (natural number) Gaussian distributions, Each state of each environment-specific character model is composed of at least two or more M (natural numbers, M ≦ G) Gaussian distributions, and each state of the model population Model storage means corresponding to any of the combinations of M selected from the G Gaussian distributions constituting the feature, the features extracted by the first feature extraction means, and the model storage means And a model matching unit that performs matching processing with each character model and uses the result as a recognition result.
まず、実施形態を説明する前に、本実施形態の概要について簡単に説明する。
前述した従来の問題点を解決する方法として、各環境の分布を単一のガウス分布ではなく混合ガウス分布(GMM)とし、各ガウス分布を共有させることが考えられる。これについて図8、図9と同様な例により図7を用いて説明する。まず、2つの字体で大きく分布が異なるため、字体で分割するのが自然である。図7では左右2つに分割される。そして、左側(ブロック体の「r」)は、パターン数が多いため、更に環境の分割が可能である。図7では、a−r、b−r、c−rの3つの環境を含むグループE(下側)と、d−r、e−rの2つの環境を含むグループF(上側)に分割される。
First, before describing the embodiment, an outline of the present embodiment will be briefly described.
As a method for solving the above-described conventional problems, it is conceivable that the distribution of each environment is not a single Gaussian distribution but a mixed Gaussian distribution (GMM), and each Gaussian distribution is shared. This will be described with reference to FIG. 7 using an example similar to FIG. 8 and FIG. First, since the distribution is greatly different between the two fonts, it is natural to divide the fonts. In FIG. 7, it is divided into left and right parts. Since the left side (“r” in the block body) has a large number of patterns, the environment can be further divided. In FIG. 7, it is divided into a group E (lower side) including three environments ar, br, and cr, and a group F (upper side) including two environments dr and er. The
一方、右側(筆記体の「r」)は、パターン数が少ないため、これ以上分割することができず、1つのグループGとなっている。この結果、たとえば、a−rを表わす分布はグループEとグループGのGMM、d−rを表わす分布はグループFとグループGのGMMとなる。 On the other hand, the right side (cursive “r”) has a small number of patterns and cannot be further divided into one group G. As a result, for example, the distribution representing ar is the GMM of group E and group G, and the distribution representing dr is the GMM of group F and group G.
そこで、本実施形態では、全体でG個のガウシアンがあり、各環境はそのうちのM個を用いたGMMで表わす形としたモデルを考え、このモデルをEMアルゴリズムで最尤推定する手法を用いる。 Therefore, in the present embodiment, there are G Gaussians as a whole, and each environment considers a model represented by GMM using M of them, and uses a method of estimating the maximum likelihood with the EM algorithm.
次に、本実施形態に適用される環境クラスタリングとGMM(Gaussian Mixture Model:混合ガウス分布モデル)推定の同時最適化法について述べる。
以下、実施形態について図面を参照して説明する。
図1は、本実施形態に係る手書き単語認識装置の構成を概略的に示すものである。この手書き単語認識装置は、記録媒体上の手書き単語を含む画像を取込む画像取込手段としての画像入力部11、この画像入力部11により取込まれた画像から単語画像を抽出する単語抽出手段としての単語抽出部12、郵便物処理システムにおけるビデオコーディングシステム(VCS)13、ビデオコーディングシステム13から得られる正解を教示された単語画像を学習用の単語画像として蓄積する単語画像蓄積手段としての単語画像蓄積部14、この単語画像蓄積部14に蓄積された単語画像あるいは単語抽出部12により抽出された単語画像からその特徴を抽出する第1、第2の特徴抽出手段としての特徴抽出部15、文字ごとの文字モデルを格納するモデル格納手段としてのモデル格納部16、特徴抽出部15により抽出された特徴とモデル格納部16に格納された各文字モデルとの間でマッチング処理を行なうモデルマッチング手段としてのモデルマッチング部17、特徴抽出部15により抽出された特徴がモデル格納部16内の各文字モデルの各状態から出現する事後確率を計算する第1の確率計算手段としての第1の確率計算部18、前記各環境が前記各組合せである事後確率を計算する第2の確率計算手段としての第2の確率計算部19、前記各環境が前記各組合せであることを条件として、特徴抽出部15により抽出された特徴が前記各ガウス分布から出現する事後確率を計算する第3の確率計算手段としての第3の確率計算部20、第1、第2、第3の確率計算部18,19,20により計算された各確率および特徴抽出部15により抽出された特徴からガウス分布のパラメータを計算し、その計算結果に基づき前記モデル格納部16に格納されているガウス分布のパラメータを更新するガウスパラメータ更新手段としてのガウスパラメータ更新部21、第2、第3の確率計算部19,20により計算された各確率からモデル学習用の重みパラメータを計算し、その計算結果に基づきモデル格納部16に格納されている重みパラメータを更新する重みパラメータ更新手段としての重みパラメータ更新部22から構成されている。
Hereinafter, embodiments will be described with reference to the drawings.
FIG. 1 schematically shows the configuration of a handwritten word recognition apparatus according to the present embodiment. The handwritten word recognition device includes an
以下、各部について詳細に説明する。
画像入力部11は、たとえば、図2に示すような郵便物上に手書きされた手書き単語(本例では英文字単語)を含む画像を入力するもので、ビデオカメラなどにより構成されている。
Hereinafter, each part will be described in detail.
The
単語抽出部12は、画像入力部11により入力された画像に対し公知の画像処理を施すことにより単語候補(単語画像)を抽出する。図3に、図2の画像に対して抽出された単語候補の例を示す。
The
ビデオコーディングシステム13は、たとえば、図示しない郵便物区分装置にて住所情報(単語)が認識できなかった郵便物の画像を表示部に表示し、オペレータのコーディング作業により認識できなかった単語に対する正解を入力するものである。
単語画像蓄積部14は、ビデオコーディングシステム13により入力された正解(単語)とともに対応する単語画像を蓄積する。
For example, the
The word
特徴抽出部15は、単語抽出部12により抽出された単語画像あるいは単語画像蓄積部14に蓄積された単語画像からその特徴を抽出する。この場合、1つの単語から複数個の特徴が抽出される。特徴抽出法には様々な手法が提案されているが、たとえば、以下の文献に開示されている手法を用いることができる。
The
J.A.Rodriguez,F.Perronnin,“Local gradient histogram features for word spotting in unconstrained handwritten documents,”International Conference of Frontiers in Handwriting Recognition (ICFHR 2008),July 2008
モデル格納部16は、各文字に対応する文字モデル31,31,…が格納されている。各文字モデル31は、たとえば、1つのモデル母集合32および環境ごとのL個(2個以上)の環境別文字モデル331〜33Lにより構成されている。さらに、モデル母集合32および各環境別文字モデル331〜33Lは、それぞれN個(2個以上)の状態から構成されている。さらに、環境別文字モデル331〜33Lの各状態は、M個(2個以上)のガウス分布(ガウシアン)から構成され、モデル母集合32の各状態はG個(M≦G)のガウス分布から構成されている。さらに、環境別文字モデル331〜33Lの各状態を構成するM個のガウス分布は、モデル母集合32の各状態を構成するG個のガウス分布の中からM個を選択した組合せのいずれかに相当している。
J. et al. A. Rodriguez, F.M. Perronnin, “Local gradient histogram features for word spotting in unconstrained handwrought documents,” International Conference of Frontiers
The
モデルマッチング部17は、特徴抽出部15により抽出された特徴とモデル格納部16に格納された各文字モデル31との間でマッチング処理を行ない、マッチングスコア最大となる結果をもって認識結果とする。
The
第1の確率計算部18は、特徴抽出部15により抽出された特徴がモデル格納部16内の各文字モデル31の各状態から出現する事後確率を計算する。計算方法は、たとえば、文献「“Machine Learning for Audio,Image and Video Analysis Theory and Applications”,Springer,2008」に開示された計算式を用い計算することができる。
The first
第2の確率計算部19は、各環境が各組合せ(各GMM)である事後確率を計算する。第3の確率計算部20は、各環境が各組合せ(各GMM)であることを条件として、特徴抽出部15により抽出された特徴が各ガウス分布から出現する事後確率を計算する。
The second
ガウスパラメータ更新部21は、第1、第2、第3の確率計算部18,19,20により計算された各確率および特徴抽出部15により抽出された特徴からガウス分布のパラメータを計算し、その計算結果に基づきモデル格納部16に格納されているガウス分布のパラメータを更新する。
The Gaussian
重みパラメータ更新部22は、第2、第3の確率計算部19,20により計算された各確率からモデル学習用の重みパラメータを計算し、その計算結果に基づきモデル格納部16に格納されている重みパラメータを更新する。
The weight
次に、上記のような構成において手書き単語の認識処理について説明する。
手書き単語の認識処理時は、図1の装置構成が図4に示すような装置構成となり、ビデオコーディングシステム13、単語画像蓄積部14、第1の確率計算部18、第2の確率計算部19、第3の確率計算部20、ガウスパラメータ更新部21、重みパラメータ更新部22は使用されない。
Next, handwritten word recognition processing in the above configuration will be described.
At the time of handwritten word recognition processing, the device configuration shown in FIG. 1 is as shown in FIG. 4, and the
まず、画像入力部11は、郵便物上の手書き単語を含む画像を入力する。図2に入力された画像の例を示す。次に、単語抽出部12は、画像入力部11により入力された画像に対し公知の画像処理を施すことにより単語候補(単語画像)を抽出する。図3に、図2の画像に対して抽出された単語候補の例を示す。
First, the
次に、特徴抽出部15は、単語抽出部12により抽出された単語画像からその特徴を抽出する。この場合、1つの単語から複数個の特徴が抽出される。次に、モデルマッチング部17は、特徴抽出部15により抽出された特徴とモデル格納部16に格納された各文字モデル31との間でマッチング処理を行ない、マッチングスコア最大となる結果をもって認識結果とする。
Next, the
次に、モデル学習処理について説明する。
モデル学習処理時は、図1の装置構成が図5に示すような装置構成となり、画像入力部11、単語抽出部12、モデルマッチング部17は使用されない。
Next, the model learning process will be described.
During the model learning process, the apparatus configuration shown in FIG. 1 is as shown in FIG. 5, and the
まず、ビデオコーディングシステム13にて、図示しない郵便物区分装置にて認識できなかった単語画像に正解が教示され、単語画像蓄積部14に蓄積される。特徴抽出部15は、単語画像蓄積部14に蓄積された単語画像からその特徴を抽出する。この場合、1つの単語から複数個の特徴が抽出される。
First, in the
次に、第1の確率計算部18は、特徴抽出部15により抽出された特徴がモデル格納部16内の各文字モデル31の各状態から出現する事後確率を計算する。そして、各特徴を上記事後確率が最大となる状態に属するものとする。つまり、各特徴に対し、特定の文字モデル、特定の環境、特定の状態が割り振られたことになる。
Next, the first
ここで、環境lに所属した特徴を選び出したものが、先に説明した「環境クラスタリングとGMM推定の同時最適化法」におけるxlの各要素であるxl1,…,xlNlに対応する。なお、先に説明した「環境クラスタリングとGMM推定の同時最適化法」における「データ」が本実施形態における「特徴」に相当していることに注意すること。 Here, the selected features belonging to environment l correspond to x l1 ,..., X lNl that are elements of x l in the “simultaneous optimization method of environment clustering and GMM estimation” described above. Note that “data” in the “simultaneous optimization method of environment clustering and GMM estimation” described above corresponds to “feature” in the present embodiment.
次に、第2の確率計算部19は、各環境が各組合せ(各GMM)である事後確率を計算する。すなわち、先に説明した「環境クラスタリングとGMM推定の同時最適化法」における式(93)の計算を行なう。
Next, the second
次に、第3の確率計算部20は、各環境が各組合せ(各GMM)であることを条件として、特徴抽出部15により抽出された特徴が各ガウス分布から出現する事後確率を計算する。すなわち、先に説明した「環境クラスタリングとGMM推定の同時最適化法」における式(97)の計算を行なう。
Next, the third
次に、ガウスパラメータ更新部21は、第1、第2、第3の確率計算部18,19,20により計算された各確率および特徴抽出部15により抽出された特徴からガウス分布のパラメータを計算し、その計算結果に基づきモデル格納部16に格納されているガウス分布のパラメータを更新する。
Next, the Gaussian
すなわち、先に説明した「環境クラスタリングとGMM推定の同時最適化法」における式(78)の計算を行ない、モデル格納部16に格納されているガウス分布のパラメータ(平均、共分散行列)を更新する。
That is, the calculation of Equation (78) in the “simultaneous optimization method of environment clustering and GMM estimation” described above is performed, and the parameters (means and covariance matrix) of the Gaussian distribution stored in the
次に、重みパラメータ更新部22は、第2、第3の確率計算部19,20により計算された各確率からモデル学習用の重みパラメータを計算し、その計算結果に基づきモデル格納部16に格納されている重みパラメータを更新する。
Next, the weight
すなわち、先に説明した「環境クラスタリングとGMM推定の同時最適化法」における式(83)および式(88)の計算を行ない、モデル格納部16に格納されているモデル母集合32に係るモデル学習用の重みパラメータを更新する。
In other words, the equations (83) and (88) in the “simultaneous optimization method of environment clustering and GMM estimation” described above are calculated, and model learning related to the
なお、上記実施形態では、単語画像蓄積部14に、ビデオコーディングシステム13にて正解が教示された、認識できなかった単語画像を学習用の単語画像として蓄積する場合について説明したが、ビデオコーディングシステム13に限らず、他の単語画像入力装置で入力された正解が教示された単語画像を学習用の単語画像として蓄積してもよい。さらに、認識できなかった単語画像に限らず、認識できた単語画像はすなわち正解が判明したものであるので、当該単語画像も学習用の単語画像として用いることができる。
In the above embodiment, a case has been described in which the word
また、上記実施形態では、1つの特徴抽出部15で、単語画像蓄積部14に蓄積された単語画像あるいは単語抽出部12により抽出された単語画像からその特徴を抽出する場合について説明したが、単語画像蓄積部14および単語抽出部12に対しそれぞれ専用の特徴抽出部を設けてもよい。
Moreover, although the said embodiment demonstrated the case where the one
さらに、上記実施形態では、第1の確率計算部18にて各特徴を事後確率が最大となる状態に属するものとしたが、特定の状態に所属させず事後確率を重みとみなして以後の計算を行なってもよい。
Further, in the above embodiment, each feature belongs to the state where the posterior probability is maximum in the first
以上説明したように上記実施形態によれば、1つのクラス内に全く異なる字体が混在している場合でも、1つの状態に対し複数個のガウス分布を割り当て可能とすることで、両隣の文字による文字変形等の環境を考慮して手書き単語の認識精度を著しく向上することが可能となる。 As described above, according to the above-described embodiment, even when completely different fonts are mixed in one class, a plurality of Gaussian distributions can be assigned to one state. The recognition accuracy of handwritten words can be remarkably improved in consideration of the environment such as character deformation.
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行なうことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and their modifications are included in the scope and gist of the invention, and are also included in the invention described in the claims and the equivalents thereof.
11…画像入力部(画像取込手段)、12…単語抽出部(単語抽出手段)、13…ビデオコーディングシステム(VCS)、14…単語画像蓄積部(単語画像蓄積手段)、15…特徴抽出部(特徴抽出手段)、16…モデル格納部(モデル格納手段)、17…モデルマッチング部(モデルマッチング手段)、18…第1の確率計算部(第1の確率計算手段)、19…第2の確率(第2の確率計算手段)、20…第3の確率計算部(第3の確率計算手段)、21…ガウスパラメータ更新部(ガウスパラメータ更新手段)、22…重みパラメータ更新部(重みパラメータ更新手段)、31…文字モデル、32…モデル母集合、331〜33L…環境別文字モデル。
DESCRIPTION OF
Claims (5)
この画像取込手段により取込まれた画像から単語画像を抽出する単語抽出手段と、
この単語抽出手段により抽出された単語画像からその特徴を抽出する第1の特徴抽出手段と、
文字ごとの文字モデルを格納するもので、前記各文字モデルはモデル母集合および環境ごとの環境別文字モデルにより構成され、前記モデル母集合および前記各環境別文字モデルはそれぞれ複数の状態により構成され、前記モデル母集合の各状態は少なくとも2個以上のG(自然数)個のガウス分布により構成され、前記各環境別文字モデルの各状態は少なくとも2個以上のM(自然数で、M≦G)個のガウス分布により構成され、かつ、前記モデル母集合の各状態を構成するG個のガウス分布の中からM個を選択した組合せのいずれかに相当しているモデル格納手段と、
前記第1の特徴抽出手段により抽出された特徴と前記モデル格納手段に格納された各文字モデルとの間でマッチング処理を行ない、その結果を認識結果とするモデルマッチング手段と、
を具備したことを特徴とする手書き単語認識装置。 Image capturing means for capturing an image including a handwritten word on a recording medium;
Word extraction means for extracting a word image from the image captured by the image capture means;
First feature extraction means for extracting the feature from the word image extracted by the word extraction means;
A character model for each character is stored. Each character model is composed of a model population and an environment-specific character model for each environment, and each of the model population and each environment-specific character model is composed of a plurality of states. Each state of the model population is composed of at least two G (natural numbers) Gaussian distributions, and each state of each environment-specific character model has at least two M (natural numbers, M ≦ G). Model storage means constituted by a number of Gaussian distributions and corresponding to any of a combination of M selected from the G number of Gaussian distributions constituting each state of the model population;
A model matching unit that performs a matching process between the feature extracted by the first feature extraction unit and each character model stored in the model storage unit, and sets the result as a recognition result;
A handwritten word recognition apparatus comprising:
学習用の単語画像を蓄積する単語画像蓄積手段と、
この単語画像蓄積手段により蓄積された単語画像からその特徴を抽出する第2の特徴抽出手段と、
この第2の特徴抽出手段により抽出された特徴が前記モデル格納手段内の各文字モデルの各状態から出現する事後確率を計算する第1の確率計算手段と、
前記各環境が前記各組合せである事後確率を計算する第2の確率計算手段と、
前記各環境が前記各組合せであることを条件として、前記第2の特徴抽出手段により抽出された特徴が前記各ガウス分布から出現する事後確率を計算する第3の確率計算手段と、
前記第1、第2、第3の確率計算手段により計算された各確率および前記第2の特徴抽出手段により抽出された特徴からガウス分布のパラメータを計算し、その計算結果に基づき前記モデル格納手段に格納されているガウス分布のパラメータを更新するガウスパラメータ更新手段と、
前記第2、第3の確率計算手段により計算された各確率からモデル学習用の重みパラメータを計算し、その計算結果に基づき前記モデル格納手段に格納されているモデル母集合に係るモデル学習用の重みパラメータを更新する重みパラメータ更新手段と、
を具備したことを特徴とする手書き単語認識用モデル学習装置。 A handwritten word recognition model learning device used in the handwritten word recognition device according to claim 1,
Word image storage means for storing a word image for learning;
Second feature extraction means for extracting features from the word images stored by the word image storage means;
First probability calculation means for calculating a posterior probability that the feature extracted by the second feature extraction means appears from each state of each character model in the model storage means;
A second probability calculating means for calculating a posteriori probability that each environment is the combination;
Third probability calculating means for calculating a posterior probability that the feature extracted by the second feature extracting means appears from each Gaussian distribution on the condition that each environment is the respective combination;
Gaussian distribution parameters are calculated from the probabilities calculated by the first, second, and third probability calculating means and the features extracted by the second feature extracting means, and the model storage means is based on the calculation result. Gaussian parameter updating means for updating the parameters of the Gaussian distribution stored in
A weight parameter for model learning is calculated from the respective probabilities calculated by the second and third probability calculating means, and based on the calculation result, the model learning for the model population stored in the model storing means is calculated. A weight parameter updating means for updating the weight parameter;
A model learning apparatus for recognizing handwritten words, comprising:
この画像取込手段により取込まれた画像から単語画像を抽出する単語抽出手段と、
この単語抽出手段により抽出された単語画像からその特徴を抽出する第1の特徴抽出手段と、
文字ごとの文字モデルを格納するもので、前記各文字モデルはモデル母集合および環境ごとの環境別文字モデルにより構成され、前記モデル母集合および前記各環境別文字モデルはそれぞれ複数の状態により構成され、前記モデル母集合の各状態は少なくとも2個以上のG(自然数)個のガウス分布により構成され、前記各環境別文字モデルの各状態は少なくとも2個以上のM(自然数で、M≦G)個のガウス分布により構成され、かつ、前記モデル母集合の各状態を構成するG個のガウス分布の中からM個を選択した組合せのいずれかに相当しているモデル格納手段と、
前記第1の特徴抽出手段により抽出された特徴と前記モデル格納手段に格納された各文字モデルとの間でマッチング処理を行ない、その結果を認識結果とするモデルマッチング手段と、
学習用の単語画像を蓄積する単語画像蓄積手段と、
この単語画像蓄積手段により蓄積された単語画像からその特徴を抽出する第2の特徴抽出手段と、
この第2の特徴抽出手段により抽出された特徴が前記モデル格納手段内の各文字モデルの各状態から出現する事後確率を計算する第1の確率計算手段と、
前記各環境が前記各組合せである事後確率を計算する第2の確率計算手段と、
前記各環境が前記各組合せであることを条件として、前記第2の特徴抽出手段により抽出された特徴が前記各ガウス分布から出現する事後確率を計算する第3の確率計算手段と、
前記第1、第2、第3の確率計算手段により計算された各確率および前記第2の特徴抽出手段により抽出された特徴からガウス分布のパラメータを計算し、その計算結果に基づき前記モデル格納手段に格納されているガウス分布のパラメータを更新するガウスパラメータ更新手段と、
前記第2、第3の確率計算手段により計算された各確率からモデル学習用の重みパラメータを計算し、その計算結果に基づき前記モデル格納手段に格納されているモデル母集合に係るモデル学習用の重みパラメータを更新する重みパラメータ更新手段と、
を具備したことを特徴とする手書き単語認識装置。 Image capturing means for capturing an image including a handwritten word on a recording medium;
Word extraction means for extracting a word image from the image captured by the image capture means;
First feature extraction means for extracting the feature from the word image extracted by the word extraction means;
A character model for each character is stored. Each character model is composed of a model population and an environment-specific character model for each environment, and each of the model population and each environment-specific character model is composed of a plurality of states. Each state of the model population is composed of at least two G (natural numbers) Gaussian distributions, and each state of each environment-specific character model has at least two M (natural numbers, M ≦ G). Model storage means constituted by a number of Gaussian distributions and corresponding to any of a combination of M selected from the G number of Gaussian distributions constituting each state of the model population;
A model matching unit that performs a matching process between the feature extracted by the first feature extraction unit and each character model stored in the model storage unit, and sets the result as a recognition result;
Word image storage means for storing a word image for learning;
Second feature extraction means for extracting features from the word images stored by the word image storage means;
First probability calculation means for calculating a posterior probability that the feature extracted by the second feature extraction means appears from each state of each character model in the model storage means;
A second probability calculating means for calculating a posteriori probability that each environment is the combination;
Third probability calculating means for calculating a posterior probability that the feature extracted by the second feature extracting means appears from each Gaussian distribution on the condition that each environment is the respective combination;
Gaussian distribution parameters are calculated from the probabilities calculated by the first, second, and third probability calculating means and the features extracted by the second feature extracting means, and the model storage means is based on the calculation result. Gaussian parameter updating means for updating the parameters of the Gaussian distribution stored in
A weight parameter for model learning is calculated from the respective probabilities calculated by the second and third probability calculating means, and based on the calculation result, the model learning for the model population stored in the model storing means is calculated. A weight parameter updating means for updating the weight parameter;
A handwritten word recognition apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021728A JP5524102B2 (en) | 2011-02-03 | 2011-02-03 | Handwritten word recognition device and model learning device for handwritten word recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021728A JP5524102B2 (en) | 2011-02-03 | 2011-02-03 | Handwritten word recognition device and model learning device for handwritten word recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164008A true JP2012164008A (en) | 2012-08-30 |
JP5524102B2 JP5524102B2 (en) | 2014-06-18 |
Family
ID=46843361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011021728A Active JP5524102B2 (en) | 2011-02-03 | 2011-02-03 | Handwritten word recognition device and model learning device for handwritten word recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5524102B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575952B2 (en) | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
WO2017057135A1 (en) * | 2015-09-30 | 2017-04-06 | 日本電気株式会社 | Information processing device, determination device, notification system, information transmission method, and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08106295A (en) * | 1994-10-05 | 1996-04-23 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Method and device for recognizing pattern |
JP2010176672A (en) * | 2009-01-28 | 2010-08-12 | Xerox Corp | Model based comparison index for vector series, and word spotting using the same |
-
2011
- 2011-02-03 JP JP2011021728A patent/JP5524102B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08106295A (en) * | 1994-10-05 | 1996-04-23 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | Method and device for recognizing pattern |
JP2010176672A (en) * | 2009-01-28 | 2010-08-12 | Xerox Corp | Model based comparison index for vector series, and word spotting using the same |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9575952B2 (en) | 2014-10-21 | 2017-02-21 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US9928231B2 (en) | 2014-10-21 | 2018-03-27 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US10241995B2 (en) | 2014-10-21 | 2019-03-26 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
US11030401B2 (en) | 2014-10-21 | 2021-06-08 | At&T Intellectual Property I, L.P. | Unsupervised topic modeling for short texts |
WO2017057135A1 (en) * | 2015-09-30 | 2017-04-06 | 日本電気株式会社 | Information processing device, determination device, notification system, information transmission method, and program |
JPWO2017057135A1 (en) * | 2015-09-30 | 2018-08-30 | 日本電気株式会社 | Information processing apparatus, determination apparatus, notification system, information transmission method, and program |
US10846537B2 (en) | 2015-09-30 | 2020-11-24 | Nec Corporation | Information processing device, determination device, notification system, information transmission method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5524102B2 (en) | 2014-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Handwritten Chinese text recognition using separable multi-dimensional recurrent neural network | |
Deng et al. | Challenges in end-to-end neural scientific table recognition | |
Marti et al. | Text line segmentation and word recognition in a system for general writer independent handwriting recognition | |
Moysset et al. | The A2iA multi-lingual text recognition system at the second Maurdor evaluation | |
Wshah et al. | Script independent word spotting in offline handwritten documents based on hidden markov models | |
Bluche et al. | Where to apply dropout in recurrent neural networks for handwriting recognition? | |
CN110178139B (en) | System and method for character recognition using a full convolutional neural network with attention mechanisms | |
Yang et al. | Enhanced level building algorithm for the movement epenthesis problem in sign language recognition | |
Roy et al. | A novel approach of Bangla handwritten text recognition using HMM | |
Amrouch et al. | Handwritten amazigh character recognition system based on continuous hmms and directional features | |
Dai Nguyen et al. | Recognition of online handwritten math symbols using deep neural networks | |
Wong et al. | Off-line handwritten Chinese character recognition as a compound Bayes decision problem | |
Bhowmik et al. | Lexicon reduction technique for Bangla handwritten word recognition | |
Tang et al. | HRCenterNet: An anchorless approach to Chinese character segmentation in historical documents | |
Reddy et al. | Combined online and offline assamese handwritten numeral recognizer | |
JP5524102B2 (en) | Handwritten word recognition device and model learning device for handwritten word recognition | |
Rabi et al. | Recognition of cursive Arabic handwritten text using embedded training based on HMMs | |
Kessentini et al. | Evidential combination of multiple HMM classifiers for multi-script handwritting recognition | |
Choisy et al. | Cross-learning in analytic word recognition without segmentation | |
CN111985488A (en) | Target detection segmentation method and system based on offline Gaussian model | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
Sarma et al. | Handwritten Assamese numeral recognizer using HMM & SVM classifiers | |
Kumar et al. | A Bayesian approach to script independent multilingual keyword spotting | |
Nopsuwanchai et al. | Maximization of mutual information for offline Thai handwriting recognition | |
Jayech et al. | Arabic handwriting recognition based on synchronous multi-stream HMM without explicit segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130509 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5524102 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |