JP5679936B2 - Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device - Google Patents
Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device Download PDFInfo
- Publication number
- JP5679936B2 JP5679936B2 JP2011193116A JP2011193116A JP5679936B2 JP 5679936 B2 JP5679936 B2 JP 5679936B2 JP 2011193116 A JP2011193116 A JP 2011193116A JP 2011193116 A JP2011193116 A JP 2011193116A JP 5679936 B2 JP5679936 B2 JP 5679936B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- probability
- feature
- image
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明の実施形態は、単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置に関する。 Embodiments described herein relate generally to a word recognition device, a word recognition method, and a paper sheet processing apparatus including the word recognition device.
従来、例えば郵便物などの紙葉類を処理する郵便区分機などの紙葉類処理装置が実用化されている。このような紙葉類処理装置は、投入部に投入された紙葉類を1枚ずつ取り込み、紙葉類から画像を取得する。また、紙葉類処理装置は、単語認識装置を備える。単語認識装置は、紙葉類から取得した画像に基づいて、紙葉類上の単語を認識する。紙葉類処理装置は、認識結果に基づいて紙葉類に記載されたアドレスまたは他の情報を特定し、紙葉類を所定の区分ポケットに区分する。 2. Description of the Related Art Conventionally, a paper sheet processing apparatus such as a mail sorting machine that processes paper sheets such as mail has been put into practical use. Such a paper sheet processing apparatus takes in paper sheets that have been input into the input unit one by one, and acquires an image from the paper sheets. The paper sheet processing apparatus includes a word recognition device. The word recognition device recognizes a word on a paper sheet based on an image acquired from the paper sheet. The paper sheet processing apparatus identifies an address or other information written on the paper sheet based on the recognition result, and sorts the paper sheet into a predetermined sorting pocket.
単語を認識する方法として、解析的手法(Analytic Approach)と、全体的手法(Holistic Approach)とが一般的に知られている。解析的手法と全体的手法とは、相補的な関係を有する。この為、単語認識装置は、解析的手法と全体的手法とを併用することにより、より高い精度で単語を認識することができる。 As a method of recognizing a word, an analytical method (Analytic Approach) and an overall method (Holistic Approach) are generally known. The analytical method and the overall method have a complementary relationship. For this reason, the word recognition apparatus can recognize a word with higher accuracy by using both the analytical method and the overall method.
単語認識装置は、解析的手法により単語を認識する場合、単語の画像に基づいて複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を生成する。さらに、単語認識装置は、事後確率比を利用して解析的手法の評価値を算出し、評価値に基づいて複数の文字候補の中から正しい組み合わせを選び出す。 When recognizing a word by an analytical method, the word recognition device extracts a plurality of cutting point candidates based on the word image, and generates a plurality of character candidates including overlapping portions based on the extracted cutting point candidates. . Furthermore, the word recognition device calculates an evaluation value of the analytical method using the posterior probability ratio, and selects a correct combination from a plurality of character candidates based on the evaluation value.
また、単語認識装置は、全体的手法により単語を認識する場合、例えば隠れマルコフモデル(HMM:Hidden Markov Model)を用いることにより、単語を認識する。 Further, when recognizing a word by the overall method, the word recognizing device recognizes the word by using, for example, a hidden Markov model (HMM).
解析的手法と全体的手法とを併用する方法として、先に全体的手法で認識を実行し、認識の結果に基づいて単語を文字毎に分割し、分割した各文字を解析的手法により認識することで、単語の認識結果を検証する方法がある。しかし、全体的手法による認識において誤認が発生した場合、文字の認識に失敗する為、単語認識装置は、十分な精度を得ることができないという課題がある。 As a method of using both the analytical method and the overall method, recognition is first performed by the overall method, the word is divided into characters based on the recognition result, and each divided character is recognized by the analytical method. Thus, there is a method of verifying the word recognition result. However, when a misperception occurs in recognition by the overall method, the word recognition device fails to recognize characters, so that the word recognition device cannot obtain sufficient accuracy.
そこで、より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供することを目的とする。 Therefore, an object of the present invention is to provide a word recognition device, a word recognition method, and a paper sheet processing device including the word recognition device that can recognize words with higher accuracy.
一実施形態に係る単語認識装置は、複数の単語を格納する単語辞書と、単語を含む画像を受け取る画像受取手段と、前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、前記単語画像から文字候補を抽出する文字候補抽出手段と、前記文字候補に対して文字認識を行う文字認識手段と、前記文字認識手段による文字認識の結果に基づいて、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、前記単語画像から特徴を抽出する特徴抽出手段と、前記単語辞書に格納されている単語毎に単語モデルを生成する単語モデル生成手段と、前記単語モデル毎に前記特徴が出現する確率を示す第2の評価値を計算する全体的マッチング手段と、前記特徴が出現する特徴確率を計算する特徴確率計算手段と、前記第1の評価値と前記第2の評価値と前記特徴確率の逆数とを乗算し第3の評価値を算出する統合評価値算出手段と、前記統合評価値算出手段により算出された前記第3の評価値を出力する出力手段と、を具備する。 A word recognition device according to an embodiment includes a word dictionary that stores a plurality of words, an image receiving unit that receives an image including a word, a word image extracting unit that extracts a word image for each word from the image, and the word Character candidate extraction means for extracting character candidates from the image, character recognition means for performing character recognition on the character candidates, and words stored in the word dictionary based on the result of character recognition by the character recognition means Analytical matching means for calculating a first evaluation value every time, feature extraction means for extracting features from the word image, word model generation means for generating a word model for each word stored in the word dictionary, An overall matching means for calculating a second evaluation value indicating the probability of occurrence of the feature for each word model; and a feature probability calculation means for calculating a feature probability of occurrence of the feature; Integrated evaluation value calculating means for calculating a third evaluation value by multiplying the first evaluation value, the second evaluation value, and the inverse of the feature probability, and the first evaluation value calculated by the integrated evaluation value calculating means. Output means for outputting 3 evaluation values.
(第1の実施形態)
以下、図面を参照しながら、一実施形態に係る紙葉類処理装置、及び光検出装置について詳細に説明する。
(First embodiment)
Hereinafter, a paper sheet processing apparatus and a light detection apparatus according to an embodiment will be described in detail with reference to the drawings.
図1は、一実施形態に係る紙葉類処理装置100の構成例を示す。
紙葉類処理装置100は、紙葉類から画像を読み取って、読み取った画像から宛先情報及び切手の貼付位置などを認識し、紙葉類に押印し、紙葉類を区分する。紙葉類処理装置100は、供給部200、分離ローラ210、搬送路220、画像読取部400、押印部460、印刷部470、主制御部500、区分処理部300、単語認識部600、操作部700、表示部800、及び入出力部900を備える。
FIG. 1 shows a configuration example of a paper
The paper
主制御部500は、紙葉類処理装置100の各部の動作を統合的に制御する。主制御部500は、CPU、バッファメモリ、プログラムメモリ、及び不揮発性メモリなどを備える。CPUは、種々の演算処理を行う。バッファメモリは、CPUにより行われる演算の結果を一時的に記憶する。プログラムメモリ及び不揮発性メモリは、CPUが実行する種々のプログラム及び制御データなどを記憶する。主制御部500は、CPUによりプログラムメモリに記憶されているプログラムを実行することにより、種々の処理を行うことができる。
The
供給部200は、紙葉類処理装置100に取り込む紙葉類1をストックする。供給部200は、重ねられた状態の紙葉類1をまとめて受け入れる。
The
分離ローラ210は、例えば供給部200の下端に設置される。分離ローラ210は、供給部200に紙葉類1が投入された場合、投入された紙葉類1の集積方向の下端に接する。分離ローラ210は、回転することにより、供給部200にセットされた紙葉類1を集積方向の下端から1枚ずつ紙葉類処理装置100の内部に取り込む。
The
分離ローラ210は、たとえば、1回転するごとに1枚の紙葉類1を取り込む。これにより、分離ローラ210は、紙葉類1を一定のピッチで取り込むことができる。分離ローラ210により取り込まれた紙葉類1は、搬送路220に導入される。
For example, the
搬送路220は、紙葉類1を紙葉類処理装置100内の各部に搬送する搬送部である。搬送路220は、図示しない搬送ベルト及び図示しない駆動プーリなどを備える。搬送路220は、図示しない駆動モータにより駆動プーリを駆動する。搬送ベルトは、駆動プーリにより動作する。
The
搬送路220は、分離ローラ210により取り込む紙葉類1を搬送ベルトにより一定速度で矢印a(搬送方向a)の方向に搬送する。なお、搬送路220において分離ローラ210に近い側を上流側、逆側を下流側として説明する。
The
画像読取部400は、搬送路220により搬送される紙葉類1から画像を取得する。画像読取部400は、例えば、照明と光学センサとを備える。照明は、搬送路220により搬送される紙葉類1に対して光を照射する。光学センサは、Charge Coupled Device(CCD)などの受光素子と光学系(レンズ)を備える。光学センサは、紙葉類1で反射した反射光を光学系により受光し、CCDに結像させ、電気信号(画像)を取得する。画像読取部400は、搬送路220により搬送される紙葉類1から連続して画像を取得することにより、紙葉類1の全体の画像を取得する。画像読取部400は、取得した画像を主制御部500に供給する。なお、画像読取部400は、ビデオカメラなどを備える構成であってもよい。
The
主制御部500は、画像読取部400から受け取った画像に基づいて、紙葉類1の搬送先を判定する為の処理を行う。この為に、主制御部500は、単語認識部600により画像中の単語を認識させることにより、宛先としての住所(宛先情報)などを特定する。主制御部500は、宛先情報に基づいて2次元コード、またはバーコードなどのイメージを生成し、生成したイメージを印刷部470に供給する。
Based on the image received from the
また、主制御部500は、紙葉類1上の切手などが貼付された位置を特定する。またさらに、主制御部500は、特定した切手の貼付位置に基づいて、押印部460の動作を制御する。
Further, the
押印部460は、主制御部500の制御に基づいて、例えば日付印などのスタンプを紙葉類1に押印する。即ち、主制御部500は、切手の貼付位置と重なる位置にスタンプを押印するように押印部460を制御する。例えば、押印部460は、割り印となるようにスタンプを押印する。
The
印刷部470は、主制御部500の制御に基づいて、例えば二次元コードまたはバーコードなどのイメージを印刷する。即ち、印刷部470は、主制御部500から供給される二次元コードまたはバーコードなどのイメージを印刷する。例えば、印刷部470は、紫外線が照射された場合に励起光を発する蛍光体などを含むインクにより上記のイメージを印刷する。
The
区分処理部300は、主制御部500の制御に基づいて、紙葉類1を区分けして集積する。区分処理部300は、例えば、第1のゲート310、第1のスタッカ320、第2のゲート330、及び第2のスタッカ340などの複数のゲート及びスタッカを備える。また、区分処理部300は、さらに複数のゲート及び複数スタッカを備える。スタッカは、例えば、宛先情報毎に設けられている。また、ゲートは、各スタッカ毎に設けられている。
The sorting
主制御部500は、区分処理部300の各ゲートを制御することにより、紙葉類1を区分させることができる。これにより、区分処理部300は、紙葉類1の宛先情報毎に異なるスタッカに紙葉類1を集積することができる。
The
第1のゲート310及び第2のゲート330は、搬送路220の画像読取部400、押印部460、及び印刷部470より下流に設けられる。第1のゲート310及び第2のゲート330は、それぞれ主制御部500の制御に基づいて動作する。主制御部500は、上記した処理により認識された宛先情報に応じて、第1のゲート310及び第2のゲート330を制御する。
The
第1のゲート310は、紙葉類1の搬送先を第1のスタッカ320と第2のゲート330とで切り替える。また、第2のゲート330は、紙葉類1の搬送先を第2のスタッカ340と他のスタッカとで切り替える。
The
主制御部500は、単語認識部600により画像中の単語を認識させる為に、画像読取部400から受け取った画像を単語認識部600に供給する。
The
単語認識部600は、受け取った画像中の単語を認識する。単語認識部600は、認識結果を主制御部500に出力する。主制御部500は、単語認識部600による認識結果に基づいて、宛先情報などを特定する。
The
また、主制御部500は、宛先情報を特定することができなかった紙葉類1の画像を保持するメモリを備える。また、区分処理部300は、宛先情報を特定できなかった紙葉類1を集積するスタッカを備える。
In addition, the
操作部700は、オペレータによる各種操作入力を操作部により受け付ける。操作部700は、オペレータにより入力される操作に基づいて操作信号を生成し、生成した操作信号を主制御部500に伝送する。
The
例えば、紙葉類処理装置100は、VCS(Video Coding System)の機能を備えていてもよい。即ち、紙葉類処理装置100の主制御部500は、宛先情報を特定できなかった紙葉類1の画像を表示部800に表示させる。紙葉類処理装置100は、表示部800に表示させた紙葉類1の画像をオペレータに読み取らせて宛先情報を操作部700により入力させる。これにより、紙葉類処理装置100は、正しい宛先情報を取得することが出来る。
For example, the paper
表示部800は、主制御部500の制御に基づいて種々の画面を表示する。例えば、表示部800は、オペレータに対して各種の操作案内、及び処理結果などを表示する。また、上記したように、表示部800は、宛先情報が特定されなかった紙葉類1の画像を表示する構成であってもよい。なお、操作部700と表示部800とは、タッチパネルとして一体に形成されていてもよい。
The display unit 800 displays various screens based on the control of the
入出力部900は、紙葉類処理装置100に接続される外部機器、または記憶媒体とデータの送受信を行う。例えば、入出力部900は、ディスクドライブ、USBコネクタ、LANコネクタ、またはデータの送受信が可能な他のインターフェースなどを備える。紙葉類処理装置100は、入出力部900に接続される外部機器、または記憶媒体からデータを取得することができる。また、紙葉類処理装置100は、入出力部900に接続される外部機器、または記憶媒体に処理結果を伝送することもできる。
The input /
図2は、第1の実施形態に係る単語認識部600の構成の例を示す。
単語認識部600は、画像受取部601、単語抽出部602、文字候補抽出部603、文字認識部604、特徴抽出部605、解析的マッチング部610、全体的マッチング部620、特徴確率計算部630、VCS640、第1の単語画像蓄積部641、モデル学習部642、モデル格納部643、単語モデル生成部644、単語辞書645、事前確率計算部651、事前確率格納部652、事前確率入力部653、統合評価値算出部660、及び事前確率乗算部670を具備する。
FIG. 2 shows an example of the configuration of the
The
なお、単語認識部600の動作は、認識フェーズと学習フェーズとに大きく分けられる。まず、認識フェーズについて説明する。
The operation of the
単語認識部600は、上記の各部により、解析的マッチングを行い、全体的マッチングを行い、特徴確率の計算を行い、これらの結果と、単語毎の事前確率とを統合する。これにより、単語認識部600は、単語毎の評価値(事後確率)を算出することができる。
The
一般にパターン認識では、事後確率が最大となるカテゴリにパターンを所属させることが最適である。即ち、事後確率が最大となるカテゴリにパターンを所属させた場合、識別エラーが最小となる。即ち、単語認識部600は、最も高い事後確率が算出された単語を認識結果として出力することにより、一つの単語を特定し、主制御部500に伝送することができる。また、例えば、単語認識部600は、単語毎の評価値を認識結果として主制御部500に出力する構成であってもよい。この場合、主制御部500は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。
In general, in pattern recognition, it is optimal to assign a pattern to a category having the maximum posterior probability. That is, when a pattern belongs to a category having the maximum posterior probability, the identification error is minimized. That is, the
例えば、解析的マッチングにおける単語候補内の全文字認識結果をY、全体的マッチングに用いられる画像から抽出された特徴をXとした場合、単語認識部600は、次の数式1に基づいて単語wの事後確率P(w|Y、X)を算出する。
数式1の左辺は、解析的マッチングによる文字認識結果の集合体と、全体的マッチングに用いられる特徴抽出結果の集合体とを条件とした場合のある単語の事後確率を示す。即ち、事後確率P(w|Y、X)は、解析的マッチングと全体的マッチングとを併用した場合の単語毎の評価値を示す。
The left side of
数式1の左辺は、ベイズの定理により右辺のように展開できる。さらに、解析的マッチングの結果と全体的マッチングの結果とがそれぞれ独立であるとみなすことにより、数式1の1段目の右辺は、2段目の右辺に示すように近似することができる。
The left side of
なお、数式1のP(Y|w)/P(Y)は、解析的マッチングの結果(事後確率比)を示す。また、数式1のP(X|w)は、全体的マッチングの結果(尤度)を示す。またさらに、数式1のP(X)は、特徴確率の計算結果を示す。またさらに、P(w)は、単語wに関する事前確率を示す。
Note that P (Y | w) / P (Y) in
単語認識部600は、上記の各項を算出し、数式1を演算することにより、単語毎の事後確率を算出することができる。
The
まず、解析的マッチングについて説明する。単語認識部600の画像受取部601は、主制御部500から紙葉類1の画像(紙葉類画像)を受け取る。図3は、紙葉類画像の例を示す。図3に示されるように、画像受取部601は、紙葉類1上に記載された単語を含む紙葉類画像を受け取る。図3は、英文字単語により宛先などが記載された例を示す。しかし、紙葉類1上に記載された宛先が日本語、または他の言語であっても本実施形態を適用することができる。画像受取部601は、受け取った紙葉類画像を単語抽出部602に伝送する。
First, analytical matching will be described. The
単語抽出部602は、画像受取部601により受け取られた紙葉類画像から単語候補(単語画像)を抽出する。単語抽出部602は、例えば、紙葉類画像に対して画像処理を施すことにより、単語として区切ることができる可能性の高い領域を特定し、抽出する。図4は、単語候補の例を示す。図4に示されるように、単語抽出部602は、紙葉類画像中の単語候補を抽出する。
The
例えば、単語抽出部602は、例えば、単語間のスペースを認識することにより、単語候補を抽出する。また、例えば、単語抽出部602は、「市」、「町」、または他の区切りとなるキーワードを抽出することにより、単語候補を抽出する構成であってもよい。また、単語候補を抽出する処理は、上記の方法に因らず、如何なるものであってもよい。単語抽出部602は、抽出した単語候補を文字候補抽出部603及び特徴抽出部605に伝送する。
For example, the
文字候補抽出部603は、単語候補から文字候補を抽出する。文字候補抽出部603は、単語候補(単語画像)に対して画像処理を施すことにより、文字として区切ることができる可能性の高い領域を特定し、抽出する。図5は、単語候補から文字候補を抽出する処理の例を示す。図5に示されるように、文字候補抽出部603は、文字候補から複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を抽出する。即ち、文字候補抽出部603は、1つの文字として認識することができる可能性の高い領域を特定し、文字候補として抽出する。文字候補抽出部603は、抽出した文字候補を文字認識部604に伝送する。
Character
文字認識部604は、文字候補毎に文字認識を行い、文字認識結果を取得する。即ち、文字認識部604は、文字候補の画像と予め用意された文字認識辞書とを比較することにより、文字認識結果を取得する。文字認識部604は、文字候補毎の文字認識結果を解析的マッチング部610に伝送する。
The
単語辞書645は、認識すべき単語をリストとして格納している。図6は、単語辞書645の例を示す。単語認識部600は、単語の認識を行う場合、単語辞書645のリストの中から正解の単語を選出する。単語辞書645は、解析的マッチング部610に単語リストを供給する。
The
解析的マッチング部610は、文字認識部604から伝送された文字候補毎の文字認識結果に基づいて、単語辞書645に格納されている単語毎に事後確率比を計算する。これにより、解析的マッチング部610は、文字候補抽出部603により抽出された複数の文字候補の正しいパス(経路)を探す。
The
例えば、単語wの第i番目の文字をci、第i番目の文字に対応する文字候補の通し番号をf(i)、第i番目の文字に対応する文字候補の文字認識結果をyf(i)、単語wの文字数をNとした場合、単語wの事後確率比P(Y|w)/P(Y)は、次の数式2に示すように近似される。
例えば、対象となる単語が「ham」である場合、c1=「h」、c2=「a」、c3=「m」である。また、この場合、N=3である。またこの場合、P(yf(i)|ci)/P(yf(i))は、第i番目の文字の事後確率比を示す。 For example, when the target word is “ham”, c 1 = “h”, c 2 = “a”, and c 3 = “m”. In this case, N = 3. In this case, P (y f (i) | c i ) / P (y f (i) ) represents the posterior probability ratio of the i-th character.
解析的マッチング部610は、第i番目の文字の事後確率比をi=1乃至Nに亘って乗算することにより、単語wの事後確率比P(Y|w)/P(Y)を算出することができる。即ち、解析的マッチング部610は、単語リストの各単語毎に文字認識結果に基づいて上記の数式2を演算することにより、単語毎の事後確率比を算出する。
The
なお、解析的マッチング部610は、文字確率計算部611、第1の演算部612、第2の演算部613を備える。文字確率計算部611は、数式2の右辺の各因子の分子を計算する。即ち、文字確率計算部611は、P(yf(i)|ci)をある単語wの各文字毎に算出する。
The
第1の演算部612は、数式2の右辺の各因子を計算する。即ち、第1の演算部612は、右辺の分母であるP(yf(i))を算出し、算出した値で分子であるP(yf(i)|ci)を割る。なお、P(yf(i))は、文字認識結果yf(i)の出現する確率である。
The
第2の演算部613は、数式2の右辺を計算する。即ち第2の演算部613は、第1の演算部612の演算結果である数式2の右辺の各因子を全て掛け合わせる。これにより、解析的マッチング部610は、単語wの事後確率比P(Y|w)/P(Y)を算出することができる。解析的マッチング部610は、算出した事後確率比P(Y|w)/P(Y)を統合評価値算出部660に出力する。
The
次に、全体的マッチングについて説明する。図2の特徴抽出部605は、上記したように、単語抽出部602から単語候補の画像を受け取る。特徴抽出部605は、受け取った単語候補の画像に基づいて、ベクトルの集合である特徴Xを抽出する。
Next, overall matching will be described. The
例えば、特徴抽出部605は、単語候補の画像をぼかした後の輝度勾配情報を128次元のベクトルとして特徴Xを抽出する。特徴抽出部605は、単語候補の画像中の注目する領域(注目領域)を画像中の左から右にずらしながら複数の特徴を抽出する。
For example, the
また、特徴抽出部605は、単語候補の画像の画素の濃度値を特徴として用いる構成であってもよい。またさらに、特徴抽出部605は、単語候補の画像をより簡易化することにより得られるパターンの濃度値を特徴として用いる構成であってもよい。
The
上記の処理により、特徴抽出部605は、1つの単語候補の画像から複数個の特徴を抽出する。特徴抽出部605は、抽出した特徴Xを全体的マッチング部620、及び特徴確率計算部630に出力する。
Through the above processing, the
モデル格納部643は、各文字毎の文字モデル、または単語毎の単語モデルなどを格納している。なお、モデル格納部643は、単語辞書645内の各単語に対応する単語モデルを格納する構成であってもよい。また、モデル格納部643は、任意の単語に対応する任意単語モデルを格納する構成であってもよい。
The
単語モデル生成部644は、モデル格納部643に格納されている文字モデル及び単語モデルを用いて、単語辞書645内の各単語に対応する単語モデルを生成する。単語モデル生成部644は、生成した単語モデルを全体的マッチング部620に出力する。
The word
例えば、単語モデル生成部644は、モデル格納部643に格納されている文字モデルを読み出し、単語辞書645内の単語に応じて文字モデルを連結させることにより、単語モデルを生成する。なお、単語辞書645内の単語に対応する単語モデルがモデル格納部643に格納されている場合、単語モデル生成部644は、モデル格納部643に格納されている単語モデルをそのまま全体的マッチング部620に出力する。
For example, the word
全体的マッチング部620は、特徴抽出部605により抽出された特徴Xと、単語モデル生成部644から出力された単語モデルとに基づいて、尤度P(X|w)を計算する。尤度P(X|w)は、特徴抽出部605により抽出された特徴Xが単語モデル生成部644から出力された単語モデルから出力される確率である。なお、尤度P(X|w)は、数式1の右辺の第2因子の分子と同じものである。
The
全体的マッチング部620は、ビタビアルゴリズム(Viterbi algorithm)を用いることにより、尤度P(X|w)を算出する。
The
ビタビアルゴリズムは、モデルパラメータが既知である場合に、与えられた配列を出力した可能性(尤度)が最も高い状態列を計算するアルゴリズムである。即ち、ビタビアルゴリズムは、特徴Xを結果として生じる隠された事象の系列を探す動的計画法アルゴリズムである。 The Viterbi algorithm is an algorithm that calculates a state sequence having the highest possibility (likelihood) of outputting a given array when model parameters are known. That is, the Viterbi algorithm is a dynamic programming algorithm that searches for a sequence of hidden events that result in feature X.
全体的マッチング部620は、ビタビアルゴリズムにより、単語モデル生成部644から出力された単語モデルを既知のパラメータとして、特徴Xが出現する確率としての尤度P(X|w)を算出する。即ち、尤度P(X|w)は、単語wに対応する単語モデルから特徴Xが出現する確率を示す。全体的マッチング部620は、算出した尤度P(X|w)を統合評価値算出部660に出力する。
The
次に、特徴確率の計算について説明する。図2の特徴確率計算部630は、特徴抽出部605により抽出された特徴Xと、モデル格納部643に格納されている任意単語モデルとに基づいて、任意の単語から特徴Xが出力される特徴確率P(X)を算出する。
Next, calculation of the feature probability will be described. The feature
任意の単語をc*とした場合、特徴確率P(X)は、P(X)=P(X|c*)と表すことが出来る。即ち、特徴確率P(X)は、任意の単語c*から特徴Xが出力される確率を示す。この為、特徴確率計算部630は、上記したビタビアルゴリズムを用いて特徴確率P(X)を算出することができる。なお、特徴確率P(X)は、単語に因らず特徴X毎に一定の値である。
When an arbitrary word is c *, the feature probability P (X) can be expressed as P (X) = P (X | c *). That is, the feature probability P (X) indicates the probability that the feature X is output from an arbitrary word c *. Therefore, the feature
任意の単語c*に対応するモデル(任意単語モデル)は、例えばエルゴディック隠れマルコフモデル(ergodic HMM)を用いた方法により生成される。任意単語モデルは、予め生成されてモデル格納部643に格納される。即ち、特徴確率計算部630は、モデル格納部643に格納されている任意単語モデルを取得し、任意単語モデルと、特徴Xとに基づいて、上記したビタビアルゴリズムにより特徴確率P(X)を算出する。特徴確率計算部630は、算出した特徴確率P(X)を統合評価値算出部660に出力する。
A model (arbitrary word model) corresponding to an arbitrary word c * is generated by a method using, for example, an ergodic hidden Markov model (ergic HMM). The arbitrary word model is generated in advance and stored in the
図7は、エルゴディックモデルの例を示す。任意単語モデルは、図7に示すような任意の状態間の遷移を許したエルゴディックモデルを用いてパラメータを学習することにより生成される。 FIG. 7 shows an example of an ergodic model. The arbitrary word model is generated by learning parameters using an ergodic model that allows transition between arbitrary states as shown in FIG.
また、任意単語モデルは、たとえば、各文字の文字モデルを用いて構成することもできる。構成方法の一例として、全文字の文字モデルを並列接続し、その任意回数の繰り返しを可能とするようモデル末尾から先頭への遷移を許すことで、任意の文字列を表すことができる。このモデルの例を図8に示す。並列に接続された文字モデル間の遷移確率は均等でもよいし、任意の値を設定してもよい。構成方法はこれに限るものではなく、任意の構成方法が考えられる。たとえば、「or」「er」「st」などの頻繁に登場する部分的な文字列が存在する場合、部分的な文字列を表すモデルを並列接続に加えてもよい。 Moreover, the arbitrary word model can also be comprised using the character model of each character, for example. As an example of the configuration method, an arbitrary character string can be represented by connecting the character models of all characters in parallel and allowing the transition from the model end to the head so that the arbitrary number of repetitions is possible. An example of this model is shown in FIG. Transition probabilities between character models connected in parallel may be equal, or an arbitrary value may be set. The configuration method is not limited to this, and an arbitrary configuration method is conceivable. For example, if there are frequently appearing partial character strings such as “or”, “er”, and “st”, a model representing the partial character string may be added to the parallel connection.
なお、図7に示した例は、図8に比べ状態数が少なく済むため、尤度の算出処理を高速に行うことができるという利点がある。一方、図7に示した例は文字モデルとは別にエルゴディックモデルのパラメータを記憶する必要があるため、文字モデルのパラメータを流用できる図8に示す例の方がメモリの容量を抑えることができるという利点がある。 The example shown in FIG. 7 has an advantage that the likelihood calculation process can be performed at high speed because the number of states is smaller than that in FIG. On the other hand, since the example shown in FIG. 7 needs to store the ergodic model parameters separately from the character model, the example shown in FIG. 8 that can divert the parameters of the character model can reduce the memory capacity. There is an advantage.
統合評価値算出部660は、解析的マッチング部610、全体的マッチング部620、及び特徴確率計算部630の算出結果を統合する。統合評価値算出部660は、解析的マッチング部610により算出された事後確率比P(Y|w)/P(Y)と、全体的マッチング部620により算出された尤度P(X|w)と、特徴確率計算部630により算出された特徴確率P(X)とに基づいて、統合評価値{P(Y|w)/P(Y)}・{P(X|w)/P(X)}を算出する。
The integrated evaluation
即ち、統合評価値算出部660は、事後確率比P(Y|w)/P(Y)と、尤度P(X|w)と、特徴確率P(X)の逆数とを乗算する。統合評価値算出部660は、算出した統合評価値{P(Y|w)/P(Y)}・{P(X|w)/P(X)}を事前確率乗算部670に出力する。
That is, the integrated evaluation
事前確率乗算部670は、統合評価値算出部660により算出された統合評価値{P(Y|w)/P(Y)}・{P(X|w)/P(X)}に単語毎の事前確率P(w)を乗算する。これにより、単語認識部600は、上記の数式1の演算結果としての事後確率P(w|Y、X)を得ることができる。
Prior
事前確率格納部652は、単語毎の事前確率P(w)をテーブルとして格納する。事前確率P(w)は、紙葉類1にある単語が記載されている頻度を示す確率である。この値を調整してテーブルを作成することにより、住所として不適当な単語の事後確率P(w|Y、X)を抑えることができる。
Prior
例えば、紙葉類1上のバーコードなどが「11111111」などの単語として認識される場合がある。このような場合であっても、「11111111」などの単語に事前確率P(w)として低い値を予め設定しておくことにより、単語認識部600が単語「11111111」の事後確率P(w|Y、X)として高い値を算出することを防ぐことができる。即ち、誤認識しやすい単語などに対して事前確率P(w)として低い値を予め設定しておくことにより、単語認識部600が誤認識を起こすことを防ぐことができる。
For example, a barcode on the
また、例えば、全ての単語の出現頻度が一律である場合、事前確率P(w)は一定の値であればよい。 For example, when the appearance frequency of all the words is uniform, the prior probability P (w) may be a constant value.
事前確率乗算部670は、事前確率格納部652に単語毎に格納されている事前確率事前確率P(w)を読み出し、統合評価値{P(Y|w)/P(Y)}・{P(X|w)/P(X)}に乗算する。事前確率乗算部670は、乗算の結果、即ち事後確率P(w|Y、X)を主制御部500に出力する。
Prior
上記の処理により、主制御部500は、単語毎の認識結果(評価値)を取得することができる。主制御部500は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。例えば、主制御部500は、宛先情報として適当な単語の組み合わせを推測することができる。
Through the above processing, the
上記したように単語認識部600は、上記の各部により、解析的マッチングにより事後確率比P(Y|w)/P(Y)を算出し、全体的マッチングにより尤度P(X|w)を算出し、特徴確率の計算により特徴確率P(X)を算出する。単語認識部600は、事後確率比P(Y|w)/P(Y)と、尤度P(X|w)と、特徴確率P(X)と、予め単語毎に設定された事前確率P(w)とを統合することにより、単語毎の事後確率P(w|Y、X)を算出することができる。
As described above, the
なお、単語認識部600は、最も高い事後確率P(w|Y、X)が算出された単語を認識結果として主制御部500に出力する構成であってもよい。この場合、単語認識部600は、一つの単語を認識結果として特定し、主制御部500に伝送することができる。
Note that the
また、上記したように、単語認識部600は、単語毎の事後確率P(w|Y、X)を認識結果として主制御部500に出力する構成であってもよい。この場合、主制御部500は、複数の単語の事後確率P(w|Y、X)と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。
Further, as described above, the
次に、学習フェーズについて説明する。
図2に示すVCS640は、たとえば、単語認識部600により宛先情報が認識されなかった紙葉類1の正しい宛先情報を紙葉類処理装置100のオペレータに入力させる為のモジュールである。VCS640は、例えば図1に示す操作部700及び表示部800により構成される。また、例えば、単語認識部600は、操作部700及び表示部800とは別に操作及び表示が可能なモジュールをVCS640として備える構成であってもよい。
Next, the learning phase will be described.
The
VCS640は、宛先情報を特定できなかった紙葉類1の画像を表示する。VCS640は、表示させた紙葉類1の画像をオペレータに読み取らせて宛先情報を入力させる。例えば、VCS640は、単語候補毎にオペレータに正しい単語を入力させる。これにより、VCS640は、単語画像と正しい宛先情報(正解)とを対応付けることができる。
The
VCS640は、単語画像及び正しい宛先情報(正解)を、第1の単語画像蓄積部641と事前確率計算部651とに出力する。
The
まず、単語モデルの学習について説明する。第1の単語画像蓄積部641は、VCS640により入力された単語画像と正解とを対応付けて蓄積する。
First, word model learning will be described. The first word
モデル学習部642は、第1の単語画像蓄積部641に蓄積されている単語画像とその正解を用いて、各文字モデル、各単語モデル、及び任意文字モデルのいずれかまたは複数を学習する。
The
モデル学習部642は、例えば、バウムウェルチアルゴリズム(Baum−Welch algorithm)を用いてモデルの学習を行う。バウムウェルチアルゴリズムは、隠れマルコフモデルにおける未知のパラメータを探すアルゴリズムである。バウムウェルチアルゴリズムは、モデルが出力した配列からモデルパラメータを推定することができる。
The
モデル学習部642は、例えば、第1の単語画像蓄積部641に蓄積されている単語画像とその正解を用いて、バウムウェルチアルゴリズムによりモデルを生成する。モデル学習部642は、生成したモデルをモデル格納部643に出力する。モデル格納部643は、受け取ったモデルを格納する。
For example, the
なお、モデル学習部642は、既にモデル格納部643に格納されているモデルを更新する構成であってもよい。
The
次に、事前確率の学習について説明する。事前確率計算部651は、VCS640により入力された単語画像の正しい宛先情報に基づいて、単語毎の頻度をカウントする。即ち、事前確率計算部651は、宛先情報に含まれる単語の数を単語毎にカウントして集計することにより、単語毎の事前確率P(w)を算出する。事前確率計算部651は、算出した単語毎の事前確率P(w)を事前確率格納部652に格納する。
Next, learning of prior probabilities will be described. The prior
事前確率入力部653は、事前確率格納部652に格納されている事前確率P(w)を変更することができる。事前確率入力部653は、例えば図1に示す操作部700により入力された操作に基づいて事前確率格納部652に格納されている事前確率P(w)を操作に応じた値に書き換える。
Prior
また、事前確率入力部653は、操作部700とは別に操作が可能なモジュールにより入力された操作に基づいて事前確率格納部652に格納されている事前確率P(w)を操作に応じた値に書き換える構成であってもよい。
The prior
これにより、上記したような誤認識しやすい単語などに対して事前確率P(w)として低い値を設定することができる。これにより、単語認識部600が誤認識を起こすことを防ぐ事ができる。
Thereby, a low value can be set as the prior probability P (w) for the above-described words that are easily misrecognized. Thereby, it is possible to prevent the
このような構成によると、単語認識部600は、解析的手法(解析的マッチング)と全体的手法(全体的マッチング)とを併用することができる。また、単語認識部600は、特徴確率P(X)を上記したように、任意単語モデルに基づいて算出することにより、より高い精度で事後確率P(w|Y、X)を算出することができる。この結果、より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供することができる。
According to such a configuration, the
なお、上記の実施形態では、解析的マッチングと全体的マッチングとは、どちらが先に行われてもよい。また、単語認識部600が解析的マッチングと全体的マッチングとを並列的に処理することが出来る構成を備える場合、解析的マッチングと全体的マッチングとを並列的に処理する構成であってもよい。
In the above embodiment, either the analytical matching or the overall matching may be performed first. In addition, when the
なお、上記の実施形態では、単語認識部600は、一つの単語を認識結果として特定する場合、最も高い事後確率P(w|Y、X)が算出された単語を認識結果として主制御部500に出力すると説明したが、この構成に限定されない。単語画像が同じである場合、特徴確率P(X)は一定である為、単語認識部600は、数式1のP(X)を任意の値として事後確率P(w|Y、X)を算出する構成であってもよい。即ち、単語認識部600は、事後確率比P(Y|w)/P(Y)、尤度P(X|w)、及び事前確率P(w)に基づいて事後確率P(w|Y、X)を算出することができる。
In the above embodiment, when the
また、上記したように、各単語毎の事後確率P(w|Y、X)を上位である主制御部500に出力する場合、単語認識部600は、特徴確率P(X)を算出し、数式1に基づいて事後確率P(w|Y、X)を算出する。これにより、単語認識部600は、各単語の評価としての事後確率P(w|Y、X)を主制御部500に出力することができる。主制御部500は、単語毎の事後確率P(w|Y、X)と、各単語の組み合わせとを考慮し、より高い精度で宛先情報を特定することが出来る。
Further, as described above, when outputting the posterior probability P (w | Y, X) for each word to the
また、上記した実施形態では、単語認識部600は、事後確率比P(Y|w)/P(Y)、尤度P(X|w)、及び事前確率P(w)に基づいて事後確率P(w|Y、X)を算出する構成として説明したが、この構成に限定されない。例えば、事前確率を考慮する必要がない場合、または事前確率が一定の値である場合、単語認識部600は、数式1の事前確率P(w)を無視する、または所定の値に置き換えて事後確率P(w|Y、X)を算出する構成であってもよい。
In the embodiment described above, the
(第2の実施形態)
図9は、第2の実施形態に係る単語認識部600の構成の例を示す。
単語認識部600は、画像受取部601、単語抽出部602、文字候補抽出部603、文字認識部604、特徴抽出部605、解析的マッチング部610、全体的マッチング部620、特徴確率計算部630、VCS640、第1の単語画像蓄積部641、モデル学習部642、モデル格納部643、単語モデル生成部644、単語辞書645、事前確率計算部651、事前確率格納部652、事前確率入力部653、統合評価値算出部660、事前確率乗算部670、第2の単語画像蓄積部681、パラメータ学習部682、及びパラメータ格納部683を具備する。
(Second Embodiment)
FIG. 9 shows an example of the configuration of the
The
また、特徴確率計算部630は、先頭特徴確率計算部631、条件特徴確率計算部632、同時確率特徴計算部633、前特徴確率計算部634、及び総積計算部635を具備する。なお、第1の実施形態と同様の構成には同じ参照符号を付し、詳細な説明を省略する。
The feature
なお、第2の実施形態に係る単語認識部600の動作は、認識フェーズと学習フェーズとに大きく分けられる。まず、認識フェーズについて説明する。
Note that the operation of the
特徴確率計算部630は、特徴抽出部605により抽出された特徴Xと、パラメータ格納部683により格納されているパラメータとに基づいて、特徴確率P(X)を算出する。上記したように、特徴抽出部605は、単語候補の画像に基づいて、ベクトルの集合である特徴Xを抽出する。この特徴Xは、T個の特徴ベクトルx1、x2、x3・・・xTを有する。この場合、特徴ベクトルxtは、t番目の特徴ベクトルを示す。また、特徴ベクトルxt−1は、特徴ベクトルxtのひとつ前の特徴ベクトルを示す。
The feature
上記のように仮定した場合、特徴確率計算部630は、下記の数式3に基づいて特徴確率P(X)を算出する。
特徴確率計算部630の先頭特徴確率計算部631は、数式3の右辺の第1因子P(x1)を計算する。第1因子P(x1)は、1番目の特徴ベクトルとしてx1が抽出される確率(先頭特徴確率)を示す。先頭特徴確率計算部631は、パラメータ格納部683により格納されているパラメータに基づいて第1因子P(x1)を計算する。
The head feature
パラメータ格納部683は、複数の単語画像に基づいて学習により算出されたパラメータを蓄積する。このパラメータは、単語画像に基づいて抽出された特徴Xが有する特徴ベクトルx1、x2、x3・・・の成す確率分布を示すものである。即ち、パラメータ格納部683は、各特徴ベクトルの成す確率分布のパラメータを記憶する。パラメータ格納部683は、例えば、混合ガウス分布でモデル化されている場合であれば、各ガウス分布の混合率、平均ベクトル、または共分散行列などを格納する。
The
条件特徴確率計算部632は、数式3の右辺の第2因子のΠの中身である個別因子P(xt|xt−1)を計算する。P(xt|xt−1)は、先頭の特徴ベクトルを除く各特徴ベクトルが特徴ベクトルの1つ前に並ぶ特徴ベクトルを条件として出現する条件付き確率を示す。即ち、特徴確率計算部630は、P(xt|xt−1)をT−1の組み合わせに応じてそれぞれ算出する。
The condition feature probability calculation unit 632 calculates the individual factor P (x t | x t−1 ) that is the content of the second factor bag on the right side of Equation 3. P (x t | x t−1 ) indicates a conditional probability that each feature vector excluding the first feature vector appears on the condition that the feature vector arranged immediately before the feature vector. That is, the feature
なお、P(xt|xt−1)は、下記の数式4に示すように表すことが出来る。
条件特徴確率計算部632は、同時確率特徴計算部633と前特徴確率計算部634とを具備する。同時確率特徴計算部633は、数式4の右辺の分子であるP(xt,xt−1)を計算する。P(xt,xt−1)は、1つ前のベクトルxt−1と特徴ベクトルxtとが同時に出現する確率(同時確率)を示す。同時確率特徴計算部633は、パラメータ格納部683により格納されているパラメータに基づいてP(xt,xt−1)を計算する。
The conditional feature probability calculation unit 632 includes a joint probability
また、前特徴確率計算部634は、数式4の右辺の分母であるP(xt−1)を計算する。P(xt−1)は、1つ前のベクトルxt−1が出現する確率(前特徴確率)を示す。前特徴確率計算部634は、パラメータ格納部683により格納されているパラメータに基づいてP(xt−1)を計算する。
Further, the previous feature
総積計算部635は、先頭特徴確率計算部631の出力と、条件特徴確率計算部632の全ての出力とを乗算する。即ち、総積計算部635は、P(x1)と、t=2乃至Tに亘るP(xt|xt−1)とを全て乗算する。これにより、特徴確率計算部630は、数式3の右辺を計算することができる。この結果、特徴確率計算部630は、特徴確率P(X)を算出することができる。特徴確率計算部630は、算出した特徴確率P(X)を統合評価値算出部660に出力する。これ以降の処理は、第1の実施形態と同様である。
The total
次に、学習フェーズについて説明する。
図9に示すVCS640は、図2に示すVCS640と同様の構成である。しかし、第2の実施形態に係るVCS640は、少なくとも単語認識部600により単語が認識されなかった紙葉類1の単語画像を収集可能な構成であればよい。VCS640は、単語画像を、第2の単語画像蓄積部681に出力する。
Next, the learning phase will be described.
The
第2の単語画像蓄積部681は、VCS640により入力された単語画像を蓄積する。また、図1に示す画像読取部400により読み取られた紙葉類1の画像を直接格納する構成であってもよい。また、第2の単語画像蓄積部681は、第1の単語画像蓄積部641と同一に構成されていてもよい。
The second word
パラメータ学習部682は、第2の単語画像蓄積部681に蓄積されている単語画像に基づいて、先頭特徴確率計算部631、同時確率特徴計算部633、及び前特徴確率計算部634により用いられるパラメータを学習する。即ち、パラメータ学習部682は、単語画像に基づいて複数の特徴ベクトルx1、x2、x3・・・を算出し、これらの複数の特徴ベクトルから確率分布のパラメータを学習する。パラメータ学習部682は、学習したパラメータをパラメータ格納部683に格納する。
The
このような構成によると、単語認識部600は、単語画像の特徴に基づいて、特徴ベクトルの確率分布のパラメータを予め学習する。単語認識部600は、特徴確率P(X)を学習したパラメータに基づいて算出する。このように算出された特徴確率P(X)を用いて事後確率P(w|Y、X)を算出することにより、単語認識部600は、より高い精度で事後確率P(w|Y、X)を算出することができる。この結果、より高い精度で単語の認識を行うことができる単語認識装置、単語認識方法、及び単語認識装置を備える紙葉類処理装置を提供することができる。
According to such a configuration, the
なお、上記した実施形態では、単語認識部600は、数式1乃至数式4の計算をそのまま行う構成として説明したが、この構成に限定されない。単語認識部600は、数式1乃至数式4の各項の対数を取って計算する構成であってもよい。このように対数を使うことにより、乗算であった部分が加算に代替される。また、除算であった部分が減算に代替される。
In the above-described embodiment, the
なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。 It should be noted that the functions described in the above embodiments are not limited to being configured using hardware, but can be realized by causing a computer to read a program describing each function using software. Each function may be configured by appropriately selecting either software or hardware.
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。 Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.
1…紙葉類、100…紙葉類処理装置、200…供給部、210…分離ローラ、220…搬送路、300…区分処理部、400…画像読取部、500…主制御部、 600…単語認識部、601…画像受取部、602…単語抽出部、603…文字候補抽出部、604…文字認識部、605…特徴抽出部、610…解析的マッチング部、611…文字確率計算部、612…第1の演算部、613…第2の演算部、620…全体的マッチング部、630…特徴確率計算部、631…先頭特徴確率計算部、632…条件特徴確率計算部、633…同時確率特徴計算部、634…前特徴確率計算部、635…総積計算部、640…VCS、641…第1の単語画像蓄積部、642…モデル学習部、643…モデル格納部、644…単語モデル生成部、645…単語辞書、651…事前確率計算部、652…事前確率格納部、653…事前確率入力部、660…統合評価値算出部、670…事前確率乗算部、681…第2の単語画像蓄積部、682…パラメータ学習部、683…パラメータ格納部、700…操作部、800…表示部、900…入出力部。
DESCRIPTION OF
Claims (14)
単語を含む画像を受け取る画像受取手段と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して文字認識を行う文字認識手段と、
前記文字認識手段による文字認識の結果に基づいて、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、
前記単語画像から特徴を抽出する特徴抽出手段と、
前記単語辞書に格納されている単語毎に単語モデルを生成する単語モデル生成手段と、
前記単語モデル毎に前記特徴が出現する確率を示す第2の評価値を計算する全体的マッチング手段と、
前記特徴が出現する特徴確率を計算する特徴確率計算手段と、
前記第1の評価値と前記第2の評価値と前記特徴確率の逆数とを乗算し第3の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第3の評価値を出力する出力手段と、
を具備する単語認識装置。 A word dictionary for storing multiple words,
An image receiving means for receiving an image including a word;
Word image extraction means for extracting a word image for each word from the image;
Character candidate extraction means for extracting character candidates from the word image;
Character recognition means for performing character recognition on the character candidates;
Analytical matching means for calculating a first evaluation value for each word stored in the word dictionary based on a result of character recognition by the character recognition means;
Feature extraction means for extracting features from the word image;
Word model generation means for generating a word model for each word stored in the word dictionary;
An overall matching means for calculating a second evaluation value indicating a probability that the feature appears for each word model;
A feature probability calculating means for calculating a feature probability that the feature appears;
Integrated evaluation value calculation means for calculating a third evaluation value by multiplying the first evaluation value, the second evaluation value, and the inverse of the feature probability;
Output means for outputting the third evaluation value calculated by the integrated evaluation value calculating means;
A word recognition device comprising:
前記第1の単語画像蓄積手段により蓄積されている単語画像及び正解を用いて前記単語モデル及び前記任意単語モデルを学習するモデル学習手段と、
をさらに具備する請求項3に記載の単語認識装置。 First word image storage means for storing a word image and a correct answer of the word image;
Model learning means for learning the word model and the arbitrary word model using the word image and the correct answer stored by the first word image storage means;
The word recognition device according to claim 3, further comprising:
前記単語モデル生成手段は、前記文字モデルを用いて前記任意単語モデルと、前記単語辞書に格納されている単語毎の前記単語モデルと、を生成する、
請求項2に記載の単語認識装置。 Model storage means for storing a character model for each character;
The word model generation means generates the arbitrary word model using the character model and the word model for each word stored in the word dictionary.
The word recognition device according to claim 2.
前記第1の単語画像蓄積手段により蓄積されている単語画像及び正解を用いて前記文字モデルを学習するモデル学習手段と、
をさらに具備する請求項5に記載の単語認識装置。 First word image storage means for storing a word image and a correct answer of the word image;
Model learning means for learning the character model using the word images and correct answers stored by the first word image storage means;
The word recognition device according to claim 5, further comprising:
前記特徴確率計算手段は、前記特徴の先頭の特徴ベクトルが出現する先頭特徴確率を算出し、先頭の特徴ベクトルを除く各特徴ベクトルが当該特徴ベクトルの1つ前に並ぶ特徴ベクトルを条件として出現する条件付き確率をそれぞれの特徴ベクトルについて算出し、前記先頭特徴確率と前記条件付き確率とに基づいて、前記特徴確率を計算する、
請求項1に記載の単語認識装置。 The feature extraction means extracts a plurality of feature vectors forming a permutation as features,
The feature probability calculation means calculates a leading feature probability that the leading feature vector of the feature appears, and each feature vector excluding the leading feature vector appears on the condition that the feature vector is arranged immediately before the feature vector. Calculating a conditional probability for each feature vector, and calculating the feature probability based on the leading feature probability and the conditional probability;
The word recognition device according to claim 1.
請求項7に記載の単語認識装置。 The feature probability calculating means calculates each previous feature probability that a feature vector arranged immediately before each feature vector appears, and each feature vector and a feature vector arranged immediately before the feature vector appear simultaneously. Calculating a joint probability for each feature vector, and calculating the feature probability based on the head feature probability, each joint probability, and each previous feature probability;
The word recognition device according to claim 7.
前記第2の単語画像蓄積手段により蓄積されている単語画像を用いて前記先頭特徴確率算出に用いられるパラメータ及び前記条件付き確率算出に用いられるパラメータを学習するパラメータ学習手段と、
をさらに具備する、
請求項8に記載の単語認識装置。 A second word image storage means for storing a word image;
Parameter learning means for learning a parameter used for the head feature probability calculation and a parameter used for the conditional probability calculation using the word image stored by the second word image storage means;
Further comprising
The word recognition device according to claim 8.
前記事前確率格納手段により格納されている前記事前確率と前記第3の評価値とに基づいて第4の評価値を算出する事後確率算出手段と、
をさらに具備し、
前記出力手段は、前記事後確率算出手段により算出された前記第4の評価値を出力する、
請求項1乃至9のいずれか1項に記載の単語認識装置。 Prior probability storage means for storing prior probabilities for each word;
Posterior probability calculation means for calculating a fourth evaluation value based on the prior probability stored in the prior probability storage means and the third evaluation value;
Further comprising
The output means outputs the fourth evaluation value calculated by the posterior probability calculation means;
The word recognition device according to any one of claims 1 to 9.
前記事前確率格納手段は、格納している前記事前確率の値を前記事前確率入力手段により入力された値に変更する、
請求項10に記載の単語認識装置。 A prior probability input means for inputting a value of the prior probability;
The prior probability storage means changes the value of the stored prior probability to the value input by the prior probability input means.
The word recognition device according to claim 10.
前記事前確率格納手段は、格納している前記事前確率の値を前記事前確率計算手段により計算された値に変更する、
請求項10または11に記載の単語認識装置。 A prior probability calculating means for receiving a recognition result of the word specified by the paper sheet processing apparatus provided with the word recognition device, and calculating the value of the prior probability for each word based on the received recognition result; Equipped,
The prior probability storage means changes the value of the stored prior probability to the value calculated by the prior probability calculation means.
The word recognition device according to claim 10 or 11.
単語を含む画像を受け取り、
前記画像から単語毎の単語画像を抽出し、
前記単語画像から文字候補を抽出し、
前記文字候補に対して文字認識を行い、
前記文字認識の結果に基づいて、前記単語辞書に格納されている単語毎に第1の評価値を計算し、
前記単語画像から特徴を抽出し、
前記単語辞書に格納されている単語毎に単語モデルを生成し、
前記単語モデル毎に前記特徴が出現する確率を示す第2の評価値を計算し、
前記特徴が出現する特徴確率を計算し、
前記第1の評価値と前記第2の評価値と前記特徴確率の逆数とを乗算し第3の評価値を算出し、
前記第3の評価値を出力する、
単語認識方法。 A word recognition method used in a word recognition device having a word dictionary for storing a plurality of words,
Take an image containing a word,
Extracting a word image for each word from the image;
Extracting character candidates from the word image;
Character recognition is performed on the character candidates,
Calculating a first evaluation value for each word stored in the word dictionary based on the result of the character recognition;
Extracting features from the word image;
Generating a word model for each word stored in the word dictionary;
Calculating a second evaluation value indicating a probability that the feature appears for each word model;
Calculating a feature probability that the feature appears;
Multiplying the first evaluation value, the second evaluation value, and the inverse of the feature probability to calculate a third evaluation value;
Outputting the third evaluation value;
Word recognition method.
前記紙葉類を搬送する搬送手段と、
前記紙葉類上の単語を含む画像を読み取る画像読取手段と、
複数の単語を格納する単語辞書と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して文字認識を行う文字認識手段と、
前記文字認識手段による文字認識に基づいて、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、
前記単語画像から特徴を抽出する特徴抽出手段と、
前記単語辞書に格納されている単語毎に単語モデルを生成する単語モデル生成手段と、
前記単語モデル毎に前記特徴が出現する確率を示す第2の評価値を計算する全体的マッチング手段と、
前記特徴が出現する特徴確率を計算する特徴確率計算手段と、
前記第1の評価値と前記第2の評価値と前記特徴確率の逆数とを乗算し第3の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第3の評価値に基づいて前記紙葉類の宛先情報を認識する認識部と、
前記認識部により認識された前記宛先情報に基づいて、前記紙葉類を区分する区分処理部と、
を具備する紙葉類処理装置。 A capturing means for capturing paper sheets;
Conveying means for conveying the paper sheet;
Image reading means for reading an image including a word on the paper sheet;
A word dictionary for storing multiple words,
Word image extraction means for extracting a word image for each word from the image;
Character candidate extraction means for extracting character candidates from the word image;
Character recognition means for performing character recognition on the character candidates;
Analytical matching means for calculating a first evaluation value for each word stored in the word dictionary based on character recognition by the character recognition means;
Feature extraction means for extracting features from the word image;
Word model generation means for generating a word model for each word stored in the word dictionary;
An overall matching means for calculating a second evaluation value indicating a probability that the feature appears for each word model;
A feature probability calculating means for calculating a feature probability that the feature appears;
Integrated evaluation value calculation means for calculating a third evaluation value by multiplying the first evaluation value, the second evaluation value, and the inverse of the feature probability;
A recognition unit for recognizing the destination information of the paper sheet based on the third evaluation value calculated by the integrated evaluation value calculating unit;
A sorting processing unit for sorting the paper sheets based on the destination information recognized by the recognition unit;
A paper sheet processing apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193116A JP5679936B2 (en) | 2011-09-05 | 2011-09-05 | Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193116A JP5679936B2 (en) | 2011-09-05 | 2011-09-05 | Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054583A JP2013054583A (en) | 2013-03-21 |
JP5679936B2 true JP5679936B2 (en) | 2015-03-04 |
Family
ID=48131501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011193116A Expired - Fee Related JP5679936B2 (en) | 2011-09-05 | 2011-09-05 | Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5679936B2 (en) |
-
2011
- 2011-09-05 JP JP2011193116A patent/JP5679936B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013054583A (en) | 2013-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Palm et al. | Cloudscan-a configuration-free invoice analysis system using recurrent neural networks | |
Weinman et al. | Toward integrated scene text reading | |
US7724957B2 (en) | Two tiered text recognition | |
US10963685B2 (en) | Generating variations of a known shred | |
US8457413B2 (en) | Pattern recognition method, character recognition method, pattern recognition apparatus, and character recognition apparatus | |
US9754176B2 (en) | Method and system for data extraction from images of semi-structured documents | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
US9286527B2 (en) | Segmentation of an input by cut point classification | |
US20160267355A1 (en) | Delivery system, method, and computer readable storage medium | |
US8208685B2 (en) | Word recognition method and word recognition program | |
JP2019220014A (en) | Image analyzing apparatus, image analyzing method and program | |
Chattopadhyay et al. | Automatic selection of binarization method for robust OCR | |
JP5767913B2 (en) | Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device | |
US10217020B1 (en) | Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another | |
JP5679936B2 (en) | Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device | |
JP2016051211A (en) | Address recognition device, segmentation device, general address recognition device, and address recognition method | |
JP5992206B2 (en) | Pattern recognition dictionary learning device, pattern recognition device, coding device, sorting device, and pattern recognition dictionary learning method | |
JP5881380B2 (en) | Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device | |
US9009026B2 (en) | Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method | |
JP2014182618A (en) | Sorting device and pattern recognition device | |
CN115039144A (en) | Mathematical detection in handwriting | |
JP6511942B2 (en) | INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING PROGRAM | |
Borovikov et al. | A multi-stage approach to Arabic document analysis | |
JP2019109729A (en) | Classification device and classification system | |
Tantini et al. | Sequences classification by least general generalisations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131205 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131212 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131219 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20131226 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20140109 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150106 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5679936 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |