JP5881380B2 - Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device - Google Patents

Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device Download PDF

Info

Publication number
JP5881380B2
JP5881380B2 JP2011248845A JP2011248845A JP5881380B2 JP 5881380 B2 JP5881380 B2 JP 5881380B2 JP 2011248845 A JP2011248845 A JP 2011248845A JP 2011248845 A JP2011248845 A JP 2011248845A JP 5881380 B2 JP5881380 B2 JP 5881380B2
Authority
JP
Japan
Prior art keywords
word
evaluation value
unit
image
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011248845A
Other languages
Japanese (ja)
Other versions
JP2013105323A (en
Inventor
匡哉 前田
匡哉 前田
浜村 倫行
倫行 浜村
入江 文平
文平 入江
英 朴
英 朴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011248845A priority Critical patent/JP5881380B2/en
Publication of JP2013105323A publication Critical patent/JP2013105323A/en
Application granted granted Critical
Publication of JP5881380B2 publication Critical patent/JP5881380B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明の実施形態は、単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置に関する。   Embodiments described herein relate generally to a word recognition apparatus, a word recognition program, and a paper sheet processing apparatus including the word recognition apparatus.

従来、例えば郵便物などの紙葉類を処理する郵便区分機などの紙葉類処理装置が実用化されている。このような紙葉類処理装置は、投入部に投入された紙葉類を1枚ずつ取り込み、紙葉類から画像を取得する。また、紙葉類処理装置は、単語認識装置を備える。単語認識装置は、紙葉類から取得した画像に基づいて、紙葉類上の単語を認識する。紙葉類処理装置は、認識結果に基づいて紙葉類に記載されたアドレスまたは他の情報を特定し、紙葉類を所定の区分ポケットに区分する。   2. Description of the Related Art Conventionally, a paper sheet processing apparatus such as a mail sorting machine that processes paper sheets such as mail has been put into practical use. Such a paper sheet processing apparatus takes in paper sheets that have been input into the input unit one by one, and acquires an image from the paper sheets. The paper sheet processing apparatus includes a word recognition device. The word recognition device recognizes a word on a paper sheet based on an image acquired from the paper sheet. The paper sheet processing apparatus identifies an address or other information written on the paper sheet based on the recognition result, and sorts the paper sheet into a predetermined sorting pocket.

単語を認識する方法として、解析的手法(Analytic Approach)と、全体的手法(Holistic Approach)とが一般的に知られている。解析的手法と全体的手法とは、相補的な関係を有する。この為、単語認識装置は、解析的手法と全体的手法とを併用することにより、より高い精度で単語を認識することができる。   As a method of recognizing a word, an analytical method (Analytic Approach) and an overall method (Holistic Approach) are generally known. The analytical method and the overall method have a complementary relationship. For this reason, the word recognition apparatus can recognize a word with higher accuracy by using both the analytical method and the overall method.

単語認識装置は、解析的手法により単語を認識する場合、単語の画像に基づいて複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を生成する。さらに、単語認識装置は、事後確率比を利用して解析的手法の評価値を算出し、評価値に基づいて複数の文字候補の中から正しい組み合わせを選び出す。   When recognizing a word by an analytical method, the word recognition device extracts a plurality of cutting point candidates based on the word image, and generates a plurality of character candidates including overlapping portions based on the extracted cutting point candidates. . Furthermore, the word recognition device calculates an evaluation value of the analytical method using the posterior probability ratio, and selects a correct combination from a plurality of character candidates based on the evaluation value.

また、単語認識装置は、全体的手法により単語を認識する場合、例えば隠れマルコフモデル(HMM:Hidden Markov Model)を用いることにより、単語を認識する。   Further, when recognizing a word by the overall method, the word recognizing device recognizes the word by using, for example, a hidden Markov model (HMM: Hidden Markov Model).

特許第4601835号公報Japanese Patent No. 4601835

解析的手法と全体的手法とを併用する方法として、先に全体的手法で認識を実行し、認識の結果に基づいて単語を文字毎に分割し、分割した各文字を解析的手法により認識することで、単語の認識結果を検証する方法がある。しかし、全体的手法による認識において誤認が発生した場合、文字の認識に失敗する為、単語認識装置は、十分な精度を得ることができないという課題がある。   As a method of using both the analytical method and the overall method, recognition is first performed by the overall method, the word is divided into characters based on the recognition result, and each divided character is recognized by the analytical method. Thus, there is a method of verifying the word recognition result. However, when a misperception occurs in recognition by the overall method, the word recognition device fails to recognize characters, so that the word recognition device cannot obtain sufficient accuracy.

また、解析的手法と全体的手法とを併用した場合、評価値の近似誤差が大きくなる可能性がある。このような場合、単語認識装置は、十分な精度で単語を認識することができないという課題がある。   Further, when the analytical method and the overall method are used in combination, the approximation error of the evaluation value may increase. In such a case, there is a problem that the word recognition device cannot recognize words with sufficient accuracy.

そこで、より高い精度で単語を認識することができる単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a word recognition device that can recognize words with higher accuracy, a word recognition program, and a paper sheet processing device including the word recognition device.

一実施形態に係る単語認識装置は、複数の単語を格納する単語辞書と、単語を含む画像を受け取る画像受取手段と、前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、前記単語画像から文字候補を抽出する文字候補抽出手段と、前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、特徴が出現する特徴確率を計算し、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルと前記特徴確率とに基づいて第2の評価値を計算する全体的マッチング手段と、予め設定された第1の補正パラメータにより前記第1の評価値を補正し、予め設定された第2の補正パラメータにより前記第2の評価値を補正する補正手段と、補正された前記第1の評価値と補正された前記第2の評価値とを統合して第3の評価値を算出する統合評価値算出手段と、前記統合評価値算出手段により算出された前記第3の評価値を出力する出力手段と、を具備する。   A word recognition device according to an embodiment includes a word dictionary that stores a plurality of words, an image receiving unit that receives an image including a word, a word image extracting unit that extracts a word image for each word from the image, and the word Character candidate extraction means for extracting character candidates from an image, analytical matching means for recognizing the character candidates and calculating a first evaluation value for each word stored in the word dictionary, An overall matching unit that calculates a feature probability of appearing and calculates a second evaluation value based on the word image, a word model for each word stored in the word dictionary, and the feature probability; Correction means for correcting the first evaluation value with the first correction parameter and correcting the second evaluation value with a second correction parameter set in advance; and the corrected first evaluation value; Integrated evaluation value calculating means for calculating the third evaluation value by integrating the corrected second evaluation value, and output means for outputting the third evaluation value calculated by the integrated evaluation value calculating means And.

図1は、一実施形態に係る紙葉類処理装置の例について説明するための図である。FIG. 1 is a diagram for explaining an example of a paper sheet processing apparatus according to an embodiment. 図2は、一実施形態に係る単語認識装置の例について説明するための図である。FIG. 2 is a diagram for describing an example of a word recognition device according to an embodiment. 図3は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 3 is a diagram for explaining processing of the word recognition device according to the embodiment. 図4は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 4 is a diagram for explaining processing of the word recognition device according to the embodiment. 図5は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 5 is a diagram for explaining processing of the word recognition device according to the embodiment. 図6は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 6 is a diagram for explaining the processing of the word recognition device according to the embodiment. 図7は、一実施形態に係る単語認識装置の例について説明するための図である。FIG. 7 is a diagram for describing an example of a word recognition device according to an embodiment. 図8は、一実施形態に係る単語認識装置の例について説明するための図である。FIG. 8 is a diagram for describing an example of a word recognition device according to an embodiment. 図9は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 9 is a diagram for explaining processing of the word recognition device according to the embodiment. 図10は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 10 is a diagram for explaining processing of the word recognition device according to the embodiment. 図11は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 11 is a diagram for explaining processing of the word recognition device according to the embodiment. 図12は、一実施形態に係る単語認識装置の処理について説明するための図である。FIG. 12 is a diagram for explaining processing of the word recognition device according to the embodiment.

以下、図面を参照しながら、一実施形態に係る紙葉類処理装置、及び単語認識装置について詳細に説明する。   Hereinafter, a paper sheet processing apparatus and a word recognition apparatus according to an embodiment will be described in detail with reference to the drawings.

図1は、一実施形態に係る紙葉類処理装置100の構成例を示す。
紙葉類処理装置100は、紙葉類から画像を読み取って、読み取った画像から宛先情報及び切手の貼付位置などを認識し、紙葉類に押印し、紙葉類を区分する。紙葉類処理装置100は、供給部200、分離ローラ210、搬送路220、画像読取部400、押印部460、印刷部470、主制御部500、区分処理部300、単語認識部600、操作部700、表示部800、及び入出力部900を備える。
FIG. 1 shows a configuration example of a paper sheet processing apparatus 100 according to an embodiment.
The paper sheet processing apparatus 100 reads an image from the paper sheet, recognizes destination information and a stamping position from the read image, and stamps the paper sheet to classify the paper sheet. The sheet processing apparatus 100 includes a supply unit 200, a separation roller 210, a conveyance path 220, an image reading unit 400, a stamping unit 460, a printing unit 470, a main control unit 500, a sorting processing unit 300, a word recognition unit 600, and an operation unit. 700, a display unit 800, and an input / output unit 900.

主制御部500は、紙葉類処理装置100の各部の動作を統合的に制御する。主制御部500は、CPU、バッファメモリ、プログラムメモリ、及び不揮発性メモリなどを備える。CPUは、種々の演算処理を行う。バッファメモリは、CPUにより行われる演算の結果を一時的に記憶する。プログラムメモリ及び不揮発性メモリは、CPUが実行する種々のプログラム及び制御データなどを記憶する。主制御部500は、CPUによりプログラムメモリに記憶されているプログラムを実行することにより、種々の処理を行うことができる。   The main control unit 500 controls the operation of each unit of the paper sheet processing apparatus 100 in an integrated manner. The main control unit 500 includes a CPU, a buffer memory, a program memory, a nonvolatile memory, and the like. The CPU performs various arithmetic processes. The buffer memory temporarily stores the results of calculations performed by the CPU. The program memory and the nonvolatile memory store various programs executed by the CPU, control data, and the like. The main control unit 500 can perform various processes by executing a program stored in the program memory by the CPU.

供給部200は、紙葉類処理装置100に取り込む紙葉類1をストックする。供給部200は、重ねられた状態の紙葉類1をまとめて受け入れる。   The supply unit 200 stocks the paper sheets 1 to be taken into the paper sheet processing apparatus 100. The supply unit 200 collectively receives the stacked paper sheets 1.

分離ローラ210は、例えば供給部200の下端に設置される。分離ローラ210は、供給部200に紙葉類1が投入された場合、投入された紙葉類1の集積方向の下端に接する。分離ローラ210は、回転することにより、供給部200にセットされた紙葉類1を集積方向の下端から1枚ずつ紙葉類処理装置100の内部に取り込む。   The separation roller 210 is installed at the lower end of the supply unit 200, for example. When the paper sheet 1 is loaded into the supply unit 200, the separation roller 210 contacts the lower end of the loaded paper sheet 1 in the stacking direction. The separation roller 210 rotates to take the sheets 1 set in the supply unit 200 one by one from the lower end in the stacking direction into the sheet processing apparatus 100.

分離ローラ210は、たとえば、1回転するごとに1枚の紙葉類1を取り込む。これにより、分離ローラ210は、紙葉類1を一定のピッチで取り込むことができる。分離ローラ210により取り込まれた紙葉類1は、搬送路220に導入される。   For example, the separation roller 210 takes in one sheet 1 every rotation. Thereby, the separation roller 210 can take in the paper sheets 1 at a constant pitch. The paper sheet 1 taken in by the separation roller 210 is introduced into the conveyance path 220.

搬送路220は、紙葉類1を紙葉類処理装置100内の各部に搬送する搬送部である。搬送路220は、図示しない搬送ベルト及び図示しない駆動プーリなどを備える。搬送路220は、図示しない駆動モータにより駆動プーリを駆動する。搬送ベルトは、駆動プーリにより動作する。   The conveyance path 220 is a conveyance unit that conveys the paper sheet 1 to each unit in the paper sheet processing apparatus 100. The conveyance path 220 includes a conveyance belt (not shown) and a drive pulley (not shown). The conveyance path 220 drives a drive pulley by a drive motor (not shown). The conveyor belt is operated by a driving pulley.

搬送路220は、分離ローラ210により取り込む紙葉類1を搬送ベルトにより一定速度で矢印a(搬送方向a)の方向に搬送する。なお、搬送路220において分離ローラ210に近い側を上流側、逆側を下流側として説明する。   The transport path 220 transports the paper sheet 1 taken in by the separation roller 210 in the direction of arrow a (transport direction a) at a constant speed by the transport belt. Note that the side closer to the separation roller 210 in the conveyance path 220 will be described as an upstream side, and the opposite side will be described as a downstream side.

画像読取部400は、搬送路220により搬送される紙葉類1から画像を取得する。画像読取部400は、例えば、照明と光学センサとを備える。照明は、搬送路220により搬送される紙葉類1に対して光を照射する。光学センサは、Charge Coupled Device(CCD)などの受光素子と光学系(レンズ)を備える。光学センサは、紙葉類1で反射した反射光を光学系により受光し、CCDに結像させ、電気信号(画像)を取得する。画像読取部400は、搬送路220により搬送される紙葉類1から連続して画像を取得することにより、紙葉類1の全体の画像を取得する。画像読取部400は、取得した画像を主制御部500に供給する。なお、画像読取部400は、ビデオカメラなどを備える構成であってもよい。   The image reading unit 400 acquires an image from the paper sheet 1 conveyed by the conveyance path 220. The image reading unit 400 includes, for example, illumination and an optical sensor. The illumination irradiates light onto the paper sheet 1 conveyed by the conveyance path 220. The optical sensor includes a light receiving element such as a Charge Coupled Device (CCD) and an optical system (lens). The optical sensor receives the reflected light reflected by the paper sheet 1 by the optical system, forms an image on the CCD, and acquires an electrical signal (image). The image reading unit 400 acquires an entire image of the paper sheet 1 by continuously acquiring images from the paper sheet 1 conveyed by the conveyance path 220. The image reading unit 400 supplies the acquired image to the main control unit 500. Note that the image reading unit 400 may include a video camera or the like.

主制御部500は、画像読取部400から受け取った画像に基づいて、紙葉類1の搬送先を判定する為の処理を行う。この為に、主制御部500は、単語認識部600により画像中の単語を認識させることにより、宛先としての住所(宛先情報)などを特定する。主制御部500は、宛先情報に基づいて2次元コード、またはバーコードなどのイメージを生成し、生成したイメージを印刷部470に供給する。   Based on the image received from the image reading unit 400, the main control unit 500 performs processing for determining the transport destination of the paper sheet 1. For this purpose, the main control unit 500 identifies an address (destination information) as a destination by causing the word recognition unit 600 to recognize a word in the image. The main control unit 500 generates an image such as a two-dimensional code or a barcode based on the destination information, and supplies the generated image to the printing unit 470.

また、主制御部500は、紙葉類1上の切手などが貼付された位置を特定する。またさらに、主制御部500は、特定した切手の貼付位置に基づいて、押印部460の動作を制御する。   Further, the main control unit 500 specifies the position where a stamp or the like on the paper sheet 1 is pasted. Furthermore, the main control unit 500 controls the operation of the stamp unit 460 based on the specified stamp position.

押印部460は、主制御部500の制御に基づいて、例えば日付印などのスタンプを紙葉類1に押印する。即ち、主制御部500は、切手の貼付位置と重なる位置にスタンプを押印するように押印部460を制御する。例えば、押印部460は、割り印となるようにスタンプを押印する。   The stamp unit 460 stamps, for example, a stamp such as a date stamp on the paper sheet 1 based on the control of the main control unit 500. That is, the main control unit 500 controls the stamping unit 460 so as to stamp the stamp at a position overlapping the stamping position. For example, the stamp unit 460 stamps the stamp so as to be a split.

印刷部470は、主制御部500の制御に基づいて、例えば二次元コードまたはバーコードなどのイメージを印刷する。即ち、印刷部470は、主制御部500から供給される二次元コードまたはバーコードなどのイメージを印刷する。例えば、印刷部470は、紫外線が照射された場合に励起光を発する蛍光体などを含むインクにより上記のイメージを印刷する。   The printing unit 470 prints an image such as a two-dimensional code or a barcode based on the control of the main control unit 500. That is, the printing unit 470 prints an image such as a two-dimensional code or a barcode supplied from the main control unit 500. For example, the printing unit 470 prints the above image with an ink containing a phosphor that emits excitation light when irradiated with ultraviolet rays.

区分処理部300は、主制御部500の制御に基づいて、紙葉類1を区分けして集積する。区分処理部300は、例えば、第1のゲート310、第1のスタッカ320、第2のゲート330、及び第2のスタッカ340などの複数のゲート及びスタッカを備える。また、区分処理部300は、さらに複数のゲート及び複数スタッカを備える。スタッカは、例えば、宛先情報毎に設けられている。また、ゲートは、各スタッカ毎に設けられている。   The sorting processing unit 300 sorts and stacks the sheets 1 based on the control of the main control unit 500. The sorting processing unit 300 includes, for example, a plurality of gates and stackers such as a first gate 310, a first stacker 320, a second gate 330, and a second stacker 340. Further, the sorting processing unit 300 further includes a plurality of gates and a plurality of stackers. A stacker is provided for each destination information, for example. A gate is provided for each stacker.

主制御部500は、区分処理部300の各ゲートを制御することにより、紙葉類1を区分させることができる。これにより、区分処理部300は、紙葉類1の宛先情報毎に異なるスタッカに紙葉類1を集積することができる。   The main control unit 500 can sort the sheets 1 by controlling each gate of the sorting processing unit 300. Thereby, the sorting processing unit 300 can stack the paper sheets 1 in different stackers for each piece of destination information of the paper sheets 1.

第1のゲート310及び第2のゲート330は、搬送路220の画像読取部400、押印部460、及び印刷部470より下流に設けられる。第1のゲート310及び第2のゲート330は、それぞれ主制御部500の制御に基づいて動作する。主制御部500は、上記した処理により認識された宛先情報に応じて、第1のゲート310及び第2のゲート330を制御する。   The first gate 310 and the second gate 330 are provided downstream of the image reading unit 400, the stamping unit 460, and the printing unit 470 in the conveyance path 220. The first gate 310 and the second gate 330 each operate based on the control of the main control unit 500. The main control unit 500 controls the first gate 310 and the second gate 330 according to the destination information recognized by the above processing.

第1のゲート310は、紙葉類1の搬送先を第1のスタッカ320と第2のゲート330とで切り替える。また、第2のゲート330は、紙葉類1の搬送先を第2のスタッカ340と他のスタッカとで切り替える。   The first gate 310 switches the transport destination of the paper sheet 1 between the first stacker 320 and the second gate 330. The second gate 330 switches the transport destination of the paper sheet 1 between the second stacker 340 and another stacker.

主制御部500は、単語認識部600により画像中の単語を認識させる為に、画像読取部400から受け取った画像を単語認識部600に供給する。   The main control unit 500 supplies the image received from the image reading unit 400 to the word recognition unit 600 so that the word recognition unit 600 can recognize words in the image.

単語認識部600は、受け取った画像中の単語を認識する。単語認識部600は、認識結果を主制御部500に出力する。主制御部500は、単語認識部600による認識結果に基づいて、宛先情報などを特定する。   The word recognition unit 600 recognizes a word in the received image. The word recognition unit 600 outputs the recognition result to the main control unit 500. The main control unit 500 identifies destination information and the like based on the recognition result by the word recognition unit 600.

また、主制御部500は、宛先情報を特定することができなかった紙葉類1の画像を保持するメモリを備える。また、区分処理部300は、宛先情報を特定できなかった紙葉類1を集積するスタッカを備える。   In addition, the main control unit 500 includes a memory that holds an image of the paper sheet 1 for which destination information could not be specified. In addition, the sorting processing unit 300 includes a stacker that accumulates the paper sheets 1 whose destination information could not be specified.

操作部700は、オペレータによる各種操作入力を操作部により受け付ける。操作部700は、オペレータにより入力される操作に基づいて操作信号を生成し、生成した操作信号を主制御部500に伝送する。   The operation unit 700 receives various operation inputs from the operator through the operation unit. The operation unit 700 generates an operation signal based on an operation input by the operator, and transmits the generated operation signal to the main control unit 500.

例えば、紙葉類処理装置100は、VCS(Video Coding System)の機能を備えていてもよい。即ち、紙葉類処理装置100の主制御部500は、宛先情報を特定できなかった紙葉類1の画像を表示部800に表示させる。紙葉類処理装置100は、表示部800に表示させた紙葉類1の画像をオペレータに読み取らせて宛先情報を操作部700により入力させる。これにより、紙葉類処理装置100は、正しい宛先情報を取得することが出来る。   For example, the paper sheet processing apparatus 100 may include a VCS (Video Coding System) function. That is, the main control unit 500 of the paper sheet processing apparatus 100 causes the display unit 800 to display an image of the paper sheet 1 whose destination information could not be specified. The paper sheet processing apparatus 100 causes the operator to read the image of the paper sheet 1 displayed on the display unit 800 and causes the operation unit 700 to input destination information. Thereby, the paper sheet processing apparatus 100 can acquire correct destination information.

表示部800は、主制御部500の制御に基づいて種々の画面を表示する。例えば、表示部800は、オペレータに対して各種の操作案内、及び処理結果などを表示する。また、上記したように、表示部800は、宛先情報が特定されなかった紙葉類1の画像を表示する構成であってもよい。なお、操作部700と表示部800とは、タッチパネルとして一体に形成されていてもよい。   The display unit 800 displays various screens based on the control of the main control unit 500. For example, the display unit 800 displays various operation guidance and processing results for the operator. Further, as described above, the display unit 800 may be configured to display an image of the paper sheet 1 for which the destination information is not specified. Note that the operation unit 700 and the display unit 800 may be integrally formed as a touch panel.

入出力部900は、紙葉類処理装置100に接続される外部機器、または記憶媒体とデータの送受信を行う。例えば、入出力部900は、ディスクドライブ、USBコネクタ、LANコネクタ、またはデータの送受信が可能な他のインターフェースなどを備える。紙葉類処理装置100は、入出力部900に接続される外部機器、または記憶媒体からデータを取得することができる。また、紙葉類処理装置100は、入出力部900に接続される外部機器、または記憶媒体に処理結果を伝送することもできる。   The input / output unit 900 transmits / receives data to / from an external device connected to the paper sheet processing apparatus 100 or a storage medium. For example, the input / output unit 900 includes a disk drive, a USB connector, a LAN connector, or another interface capable of transmitting and receiving data. The paper sheet processing apparatus 100 can acquire data from an external device connected to the input / output unit 900 or a storage medium. In addition, the paper sheet processing apparatus 100 can transmit the processing result to an external device connected to the input / output unit 900 or a storage medium.

図2は、一実施形態に係る単語認識部600の構成の例を示す。
単語認識部600は、画像受取部601、単語抽出部602、文字候補抽出部603、文字認識部604、特徴抽出部605、解析的マッチング部610、全体的マッチング部620、特徴確率計算部630、VCS640、単語画像蓄積部641、モデル学習部642、モデル格納部643、単語モデル生成部644、単語辞書645、事前確率計算部651、事前確率格納部652、事前確率入力部653、認識部660、及び学習部680を具備する。
FIG. 2 shows an example of the configuration of the word recognition unit 600 according to an embodiment.
The word recognition unit 600 includes an image receiving unit 601, a word extraction unit 602, a character candidate extraction unit 603, a character recognition unit 604, a feature extraction unit 605, an analytical matching unit 610, an overall matching unit 620, a feature probability calculation unit 630, VCS 640, word image storage unit 641, model learning unit 642, model storage unit 643, word model generation unit 644, word dictionary 645, prior probability calculation unit 651, prior probability storage unit 652, prior probability input unit 653, recognition unit 660, And a learning unit 680.

なお、単語認識部600の動作は、認識フェーズと学習フェーズとに大きく分けられる。まず、認識フェーズについて説明する。   The operation of the word recognition unit 600 is roughly divided into a recognition phase and a learning phase. First, the recognition phase will be described.

単語認識部600は、上記の各部により、解析的マッチングを行い、全体的マッチングを行い、特徴確率の計算を行い、これらの結果と、単語毎の事前確率とを統合する。これにより、単語認識部600は、単語毎の評価値(事後確率)を算出することができる。   The word recognizing unit 600 performs analytical matching, performs overall matching, calculates feature probabilities, and integrates these results and prior probabilities for each word. Thereby, the word recognition part 600 can calculate the evaluation value (posterior probability) for every word.

一般にパターン認識では、事後確率が最大となるカテゴリにパターンを所属させることが最適である。即ち、事後確率が最大となるカテゴリにパターンを所属させた場合、識別エラーが最小となる。即ち、単語認識部600は、最も高い事後確率が算出された単語を認識結果として出力することにより、一つの単語を特定し、主制御部500に伝送することができる。また、例えば、単語認識部600は、単語毎の評価値を認識結果として主制御部500に出力する構成であってもよい。この場合、主制御部500は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。   In general, in pattern recognition, it is optimal to assign a pattern to a category having the maximum posterior probability. That is, when a pattern belongs to a category having the maximum posterior probability, the identification error is minimized. That is, the word recognizing unit 600 can identify one word and transmit it to the main control unit 500 by outputting the word for which the highest posterior probability is calculated as a recognition result. For example, the word recognition unit 600 may be configured to output an evaluation value for each word to the main control unit 500 as a recognition result. In this case, the main control unit 500 can specify the destination information in consideration of the posterior probabilities of a plurality of words and combinations with other words.

例えば、解析的マッチングにおける単語候補内の全文字認識結果をY、全体的マッチングに用いられる画像から抽出された特徴をXとした場合、単語認識部600は、次の数式1に基づいて単語wの事後確率P(w|Y、X)を算出する。

Figure 0005881380
For example, when all character recognition results in word candidates in analytical matching are Y and features extracted from an image used for overall matching are X, the word recognition unit 600 uses the following formula 1 to generate the word w The posterior probability P (w | Y, X) is calculated.
Figure 0005881380

数式1の左辺は、解析的マッチングによる文字認識結果の集合体と、全体的マッチングに用いられる特徴抽出結果の集合体とを条件とした場合のある単語の事後確率を示す。即ち、事後確率P(w|Y、X)は、解析的マッチングと全体的マッチングとを併用した場合の単語毎の評価値を示す。   The left side of Equation 1 shows a posterior probability of a word in a case where a set of character recognition results by analytical matching and a set of feature extraction results used for overall matching are used as conditions. That is, the posterior probability P (w | Y, X) indicates an evaluation value for each word when analytical matching and overall matching are used together.

数式1の左辺は、ベイズの定理により右辺のように展開できる。さらに、解析的マッチングの結果と全体的マッチングの結果とがそれぞれ独立であるとみなすことにより、数式1の1段目の右辺は、2段目の右辺に示すように近似することができる。   The left side of Equation 1 can be expanded like the right side by Bayes' theorem. Furthermore, by assuming that the result of the analytical matching and the result of the overall matching are independent from each other, the right side of the first stage of Equation 1 can be approximated as shown on the right side of the second stage.

なお、数式1のP(Y|w)/P(Y)は、解析的マッチングの結果(事後確率比)を示す。また、数式1のP(X|w)は、全体的マッチングの結果(尤度)を示す。またさらに、数式1のP(X)は、特徴確率の計算結果を示す。またさらに、P(w)は、単語wに関する事前確率を示す。   Note that P (Y | w) / P (Y) in Equation 1 indicates the result of analytical matching (a posteriori probability ratio). In addition, P (X | w) in Equation 1 indicates the overall matching result (likelihood). Furthermore, P (X) in Formula 1 indicates the calculation result of the feature probability. Furthermore, P (w) indicates the prior probability for the word w.

単語認識部600は、上記の各項を算出し、数式1を演算することにより、単語毎の事後確率を算出することができる。   The word recognition unit 600 can calculate the a posteriori probability for each word by calculating each of the above terms and calculating Formula 1.

まず、解析的マッチングについて説明する。単語認識部600の画像受取部601は、主制御部500から紙葉類1の画像(紙葉類画像)を受け取る。図3は、紙葉類画像の例を示す。図3に示されるように、画像受取部601は、紙葉類1上に記載された単語を含む紙葉類画像を受け取る。図3は、英文字単語により宛先などが記載された例を示す。しかし、紙葉類1上に記載された宛先が日本語、または他の言語であっても本実施形態を適用することができる。画像受取部601は、受け取った紙葉類画像を単語抽出部602に伝送する。   First, analytical matching will be described. The image receiving unit 601 of the word recognition unit 600 receives the image of the paper sheet 1 (paper sheet image) from the main control unit 500. FIG. 3 shows an example of a paper sheet image. As shown in FIG. 3, the image receiving unit 601 receives a paper sheet image including words written on the paper sheet 1. FIG. 3 shows an example in which a destination and the like are described using English words. However, the present embodiment can be applied even if the destination described on the paper sheet 1 is in Japanese or another language. The image receiving unit 601 transmits the received paper sheet image to the word extracting unit 602.

単語抽出部602は、画像受取部601により受け取られた紙葉類画像から単語候補(単語画像)を抽出する。単語抽出部602は、例えば、紙葉類画像に対して画像処理を施すことにより、単語として区切ることができる可能性の高い領域を特定し、抽出する。図4は、単語候補の例を示す。図4に示されるように、単語抽出部602は、紙葉類画像中の単語候補を抽出する。   The word extraction unit 602 extracts word candidates (word images) from the paper sheet image received by the image receiving unit 601. For example, the word extraction unit 602 identifies and extracts an area that is likely to be segmented as a word by performing image processing on the paper sheet image. FIG. 4 shows an example of word candidates. As shown in FIG. 4, the word extraction unit 602 extracts word candidates from the paper sheet image.

例えば、単語抽出部602は、例えば、単語間のスペースを認識することにより、単語候補を抽出する。また、例えば、単語抽出部602は、「市」、「町」、または他の区切りとなるキーワードを抽出することにより、単語候補を抽出する構成であってもよい。また、単語候補を抽出する処理は、上記の方法に因らず、如何なるものであってもよい。単語抽出部602は、抽出した単語候補を文字候補抽出部603及び特徴抽出部605に伝送する。   For example, the word extraction unit 602 extracts word candidates by recognizing spaces between words, for example. In addition, for example, the word extraction unit 602 may be configured to extract word candidates by extracting “city”, “town”, or other keywords that serve as delimiters. Further, the process of extracting the word candidates is not limited to the above method, and any process may be used. The word extraction unit 602 transmits the extracted word candidates to the character candidate extraction unit 603 and the feature extraction unit 605.

文字候補抽出部603は、単語候補から文字候補を抽出する。文字候補抽出部603は、単語候補(単語画像)に対して画像処理を施すことにより、文字として区切ることができる可能性の高い領域を特定し、抽出する。図5は、単語候補から文字候補を抽出する処理の例を示す。図5に示されるように、文字候補抽出部603は、文字候補から複数の切断点候補を抽出し、抽出した切断点候補に基づいて互いに重なる箇所を含む複数の文字候補を抽出する。即ち、文字候補抽出部603は、1つの文字として認識することができる可能性の高い領域を特定し、文字候補として抽出する。文字候補抽出部603は、抽出した文字候補を文字認識部604に伝送する。   Character candidate extraction unit 603 extracts character candidates from word candidates. The character candidate extraction unit 603 identifies and extracts a region that is likely to be segmented as a character by performing image processing on the word candidate (word image). FIG. 5 shows an example of processing for extracting character candidates from word candidates. As illustrated in FIG. 5, the character candidate extraction unit 603 extracts a plurality of cut point candidates from the character candidates, and extracts a plurality of character candidates including overlapping portions based on the extracted cut point candidates. That is, the character candidate extraction unit 603 identifies a region that is highly likely to be recognized as one character and extracts it as a character candidate. The character candidate extraction unit 603 transmits the extracted character candidates to the character recognition unit 604.

文字認識部604は、文字候補毎に文字認識を行い、文字認識結果を取得する。即ち、文字認識部604は、文字候補の画像と予め用意された文字認識辞書とを比較することにより、文字認識結果を取得する。文字認識部604は、文字候補毎の文字認識結果を解析的マッチング部610に伝送する。   The character recognition unit 604 performs character recognition for each character candidate and acquires a character recognition result. That is, the character recognition unit 604 obtains a character recognition result by comparing a character candidate image with a character recognition dictionary prepared in advance. The character recognition unit 604 transmits the character recognition result for each character candidate to the analytical matching unit 610.

単語辞書645は、認識すべき単語をリストとして格納している。図6は、単語辞書645の例を示す。単語認識部600は、単語の認識を行う場合、単語辞書645のリストの中から正解の単語を選出する。単語辞書645は、解析的マッチング部610に単語リストを供給する。   The word dictionary 645 stores words to be recognized as a list. FIG. 6 shows an example of the word dictionary 645. When recognizing a word, the word recognition unit 600 selects a correct word from the list in the word dictionary 645. The word dictionary 645 supplies the word list to the analytical matching unit 610.

解析的マッチング部610は、文字認識部604から伝送された文字候補毎の文字認識結果に基づいて、単語辞書645に格納されている単語毎に事後確率比を計算する。これにより、解析的マッチング部610は、文字候補抽出部603により抽出された複数の文字候補の正しいパス(経路)を探す。   The analytical matching unit 610 calculates the posterior probability ratio for each word stored in the word dictionary 645 based on the character recognition result for each character candidate transmitted from the character recognition unit 604. Accordingly, the analytical matching unit 610 searches for a correct path (route) of the plurality of character candidates extracted by the character candidate extraction unit 603.

例えば、単語wの第i番目の文字をc、第i番目の文字に対応する文字候補の通し番号をf(i)、第i番目の文字に対応する文字候補の文字認識結果をyf(i)、単語wの文字数をNとした場合、単語wの事後確率比P(Y|w)/P(Y)は、次の数式2に示すように近似される。

Figure 0005881380
For example, the i-th character of the word w is c i , the serial number of the character candidate corresponding to the i-th character is f (i), and the character recognition result of the character candidate corresponding to the i-th character is y f ( i) When the number of characters of the word w is N, the posterior probability ratio P (Y | w) / P (Y) of the word w is approximated as shown in Equation 2 below.
Figure 0005881380

例えば、対象となる単語が「ham」である場合、c=「h」、c=「a」、c=「m」である。また、この場合、N=3である。またこの場合、P(yf(i)|c)/P(yf(i))は、第i番目の文字の事後確率比を示す。 For example, when the target word is “ham”, c 1 = “h”, c 2 = “a”, and c 3 = “m”. In this case, N = 3. In this case, P (y f (i) | c i ) / P (y f (i) ) represents the posterior probability ratio of the i-th character.

解析的マッチング部610は、第i番目の文字の事後確率比をi=1乃至Nに亘って乗算することにより、単語wの事後確率比P(Y|w)/P(Y)を算出することができる。即ち、解析的マッチング部610は、単語リストの各単語毎に文字認識結果に基づいて上記の数式2を演算することにより、単語毎の事後確率比を算出する。   The analytical matching unit 610 calculates the posterior probability ratio P (Y | w) / P (Y) of the word w by multiplying the posterior probability ratio of the i-th character over i = 1 to N. be able to. In other words, the analytical matching unit 610 calculates the posterior probability ratio for each word by calculating the above Equation 2 based on the character recognition result for each word in the word list.

なお、解析的マッチング部610は、文字確率計算部611、第1の演算部612、第2の演算部613を備える。文字確率計算部611は、数式2の右辺の各因子の分子を計算する。即ち、文字確率計算部611は、P(yf(i)|c)をある単語wの各文字毎に算出する。 The analytical matching unit 610 includes a character probability calculation unit 611, a first calculation unit 612, and a second calculation unit 613. The character probability calculation unit 611 calculates the numerator of each factor on the right side of Equation 2. That is, the character probability calculation unit 611 calculates P (y f (i) | c i ) for each character of a certain word w.

第1の演算部612は、数式2の右辺の各因子を計算する。即ち、第1の演算部612は、右辺の分母であるP(yf(i))を算出し、算出した値で分子であるP(yf(i)|c)を割る。なお、P(yf(i))は、文字認識結果yf(i)の出現する確率である。 The first calculation unit 612 calculates each factor on the right side of Equation 2. That is, the first calculation unit 612 calculates P (y f (i) ) that is the denominator of the right side, and divides P (y f (i) | c i ) that is the numerator by the calculated value. Note that P (y f (i) ) is the probability that the character recognition result y f (i) will appear.

第2の演算部613は、数式2の右辺を計算する。即ち第2の演算部613は、第1の演算部612の演算結果である数式2の右辺の各因子を全て掛け合わせる。これにより、解析的マッチング部610は、単語wの事後確率比P(Y|w)/P(Y)を算出することができる。解析的マッチング部610は、算出した事後確率比P(Y|w)/P(Y)を認識部660に出力する。   The second calculation unit 613 calculates the right side of Equation 2. That is, the second calculation unit 613 multiplies all the factors on the right side of Formula 2 that is the calculation result of the first calculation unit 612. Thereby, the analytical matching unit 610 can calculate the posterior probability ratio P (Y | w) / P (Y) of the word w. The analytical matching unit 610 outputs the calculated posterior probability ratio P (Y | w) / P (Y) to the recognition unit 660.

次に、全体的マッチングについて説明する。図2の特徴抽出部605は、上記したように、単語抽出部602から単語候補の画像を受け取る。特徴抽出部605は、受け取った単語候補の画像に基づいて、ベクトルの集合である特徴Xを抽出する。   Next, overall matching will be described. The feature extraction unit 605 in FIG. 2 receives the image of the word candidate from the word extraction unit 602 as described above. The feature extraction unit 605 extracts a feature X that is a set of vectors based on the received word candidate images.

例えば、特徴抽出部605は、単語候補の画像をぼかした後の輝度勾配情報を128次元のベクトルとして特徴Xを抽出する。特徴抽出部605は、単語候補の画像中の注目する領域(注目領域)を画像中の左から右にずらしながら複数の特徴を抽出する。   For example, the feature extraction unit 605 extracts the feature X using the brightness gradient information after blurring the word candidate image as a 128-dimensional vector. The feature extraction unit 605 extracts a plurality of features while shifting a region of interest (a region of interest) in the word candidate image from left to right in the image.

また、特徴抽出部605は、単語候補の画像の画素の濃度値を特徴として用いる構成であってもよい。またさらに、特徴抽出部605は、単語候補の画像をより簡易化することにより得られるパターンの濃度値を特徴として用いる構成であってもよい。   The feature extraction unit 605 may be configured to use the density value of the pixel of the word candidate image as a feature. Furthermore, the feature extraction unit 605 may be configured to use a pattern density value obtained by further simplifying a word candidate image as a feature.

上記の処理により、特徴抽出部605は、1つの単語候補の画像から複数個の特徴を抽出する。特徴抽出部605は、抽出した特徴Xを全体的マッチング部620、及び特徴確率計算部630に出力する。   Through the above processing, the feature extraction unit 605 extracts a plurality of features from one word candidate image. The feature extraction unit 605 outputs the extracted feature X to the overall matching unit 620 and the feature probability calculation unit 630.

モデル格納部643は、各文字毎の文字モデル、または単語毎の単語モデルなどを格納している。なお、モデル格納部643は、単語辞書645内の各単語に対応する単語モデルを格納する構成であってもよい。また、モデル格納部643は、単語辞書645内の任意の単語に対応する単語モデルを格納する構成であってもよい。   The model storage unit 643 stores a character model for each character or a word model for each word. The model storage unit 643 may be configured to store a word model corresponding to each word in the word dictionary 645. The model storage unit 643 may be configured to store a word model corresponding to an arbitrary word in the word dictionary 645.

単語モデル生成部644は、モデル格納部643に格納されている文字モデル及び単語モデルを用いて、単語辞書645内の各単語に対応する単語モデルを生成する。単語モデル生成部644は、生成した単語モデルを全体的マッチング部620に出力する。   The word model generation unit 644 generates a word model corresponding to each word in the word dictionary 645 using the character model and the word model stored in the model storage unit 643. The word model generation unit 644 outputs the generated word model to the overall matching unit 620.

例えば、単語モデル生成部644は、モデル格納部643に格納されている文字モデルを読み出し、単語辞書645内の単語に応じて文字モデルを連結させることにより、単語モデルを生成する。なお、単語辞書645内の単語に対応する単語モデルがモデル格納部643に格納されている場合、単語モデル生成部644は、モデル格納部643に格納されている単語モデルをそのまま全体的マッチング部620に出力する。   For example, the word model generation unit 644 reads a character model stored in the model storage unit 643 and generates a word model by connecting the character models according to the words in the word dictionary 645. When a word model corresponding to a word in the word dictionary 645 is stored in the model storage unit 643, the word model generation unit 644 directly uses the word model stored in the model storage unit 643 as an overall matching unit 620. Output to.

全体的マッチング部620は、特徴抽出部605により抽出された特徴Xと、単語モデル生成部644から出力された単語モデルとに基づいて、尤度P(X|w)を計算する。尤度P(X|w)は、特徴抽出部605により抽出された特徴Xが単語モデル生成部644から出力された単語モデルから出力される確率である。なお、尤度P(X|w)は、数式1の右辺の第2因子の分子と同じものである。   The overall matching unit 620 calculates a likelihood P (X | w) based on the feature X extracted by the feature extraction unit 605 and the word model output from the word model generation unit 644. The likelihood P (X | w) is a probability that the feature X extracted by the feature extraction unit 605 is output from the word model output from the word model generation unit 644. The likelihood P (X | w) is the same as the numerator of the second factor on the right side of Equation 1.

全体的マッチング部620は、ビタビアルゴリズム(Viterbi algorithm)を用いることにより、尤度P(X|w)を算出する。   The overall matching unit 620 calculates a likelihood P (X | w) by using a Viterbi algorithm.

ビタビアルゴリズムは、モデルパラメータが既知である場合に、与えられた配列を出力した可能性(尤度)が最も高い状態列を計算するアルゴリズムである。即ち、ビタビアルゴリズムは、特徴Xを結果として生じる隠された事象の系列を探す動的計画法アルゴリズムである。   The Viterbi algorithm is an algorithm that calculates a state sequence having the highest possibility (likelihood) of outputting a given array when model parameters are known. That is, the Viterbi algorithm is a dynamic programming algorithm that searches for a sequence of hidden events that result in feature X.

全体的マッチング部620は、ビタビアルゴリズムにより、単語モデル生成部644から出力された単語モデルを既知のパラメータとして、特徴Xが出現する確率としての尤度P(X|w)を算出する。即ち、尤度P(X|w)は、単語wに対応する単語モデルから特徴Xが出現する確率を示す。全体的マッチング部620は、算出した尤度P(X|w)を認識部660に出力する。   The overall matching unit 620 calculates a likelihood P (X | w) as a probability that the feature X appears using the Viterbi algorithm with the word model output from the word model generation unit 644 as a known parameter. That is, the likelihood P (X | w) indicates the probability that the feature X appears from the word model corresponding to the word w. The overall matching unit 620 outputs the calculated likelihood P (X | w) to the recognition unit 660.

次に、特徴確率の計算について説明する。図2の特徴確率計算部630は、特徴抽出部605により抽出された特徴Xと、予め記憶されているパラメータとに基づいて、特徴確率P(X)を算出する。上記したように、特徴抽出部605は、単語候補の画像に基づいて、ベクトルの集合である特徴Xを抽出する。この特徴Xは、T個の特徴ベクトルx、x、x・・・xを有する。この場合、特徴ベクトルxは、t番目の特徴ベクトルを示す。 Next, calculation of the feature probability will be described. The feature probability calculation unit 630 in FIG. 2 calculates the feature probability P (X) based on the feature X extracted by the feature extraction unit 605 and the parameters stored in advance. As described above, the feature extraction unit 605 extracts the feature X, which is a set of vectors, based on the word candidate images. This feature X has T feature vectors x 1 , x 2 , x 3 ... X T. In this case, the feature vector xt indicates the t-th feature vector.

上記のように仮定した場合、特徴確率計算部630は、下記の数式3に基づいて特徴確率P(X)を算出する。

Figure 0005881380
Assuming the above, the feature probability calculation unit 630 calculates the feature probability P (X) based on the following Equation 3.
Figure 0005881380

即ち、特徴確率計算部630は、全ての特徴ベクトルxが独立であると近似し、上記の数式3を計算することにより、特徴確率P(X)を算出することができる。 That is, the feature probability calculation unit 630 can calculate the feature probability P (X) by approximating that all feature vectors xt are independent and calculating the above Equation 3.

特徴確率計算部630は、予め記憶されているパラメータに基づいて、P(x)をt=1乃至Tに亘ってそれぞれ計算する。 The feature probability calculation unit 630 calculates P (x t ) from t = 1 to T based on parameters stored in advance.

なお、上記のパラメータは、複数の単語画像に基づいて学習により算出されたパラメータである。このパラメータは、単語画像に基づいて抽出された特徴Xが有する特徴ベクトルx、x、x・・・の成す確率分布を示すものである。また、混合ガウス分布でモデル化されている場合、パラメータは、各ガウス分布の混合率、平均ベクトル、または共分散行列などであってもよい。 The above parameters are parameters calculated by learning based on a plurality of word images. This parameter indicates the probability distribution formed by the feature vectors x 1 , x 2 , x 3 ... Of the feature X extracted based on the word image. When modeled with a mixed Gaussian distribution, the parameter may be a mixing ratio, an average vector, or a covariance matrix of each Gaussian distribution.

特徴確率計算部630は、計算した全てのP(x)を乗算することにより、特徴確率P(X)を算出する。特徴確率計算部630は、算出した特徴確率P(X)を認識部660に出力する。 The feature probability calculation unit 630 calculates the feature probability P (X) by multiplying all the calculated P (x t ). The feature probability calculation unit 630 outputs the calculated feature probability P (X) to the recognition unit 660.

なお、上記の数式1の第1因子である事後確率比P(Y|w)/P(Y)を解析的マッチングの評価値と称する。また、上記の数式1の第2因子であるP(X|w)/P(X)を全体的マッチングの評価値と称する。   Note that the posterior probability ratio P (Y | w) / P (Y), which is the first factor in the above-described Equation 1, is referred to as an analytical matching evaluation value. Further, P (X | w) / P (X), which is the second factor of the above-described Equation 1, is referred to as an overall matching evaluation value.

認識部660は、解析的マッチング部610、全体的マッチング部620、及び特徴確率計算部630の算出結果を統合し、統合評価値(事後確率)を算出する。上記の数式1により算出された事後確率P(w|Y、X)は、単語の文字列の長さなどが変動した場合、近似誤差が大きくなる可能性がある。この為、認識部660は、補正パラメータα及び補正パラメータβを数式1に導入した数式4により補正後の事後確率(統合評価値)を算出する。

Figure 0005881380
The recognizing unit 660 integrates the calculation results of the analytical matching unit 610, the overall matching unit 620, and the feature probability calculation unit 630, and calculates an integrated evaluation value (a posteriori probability). The posterior probability P (w | Y, X) calculated by the above mathematical formula 1 may have a large approximation error when the length of the character string of the word changes. For this reason, the recognizing unit 660 calculates a corrected posterior probability (integrated evaluation value) using Equation 4 obtained by introducing the correction parameter α and the correction parameter β into Equation 1.
Figure 0005881380

数式4により示されるように、補正パラメータαは、解析的マッチングの評価値を補正する。具体的には、補正パラメータαは、解析的マッチングの評価値をα乗する。また、
数式4により示されるように、補正パラメータβは、全体的マッチングの評価値を補正する。具体的には、補正パラメータβは、全体的マッチングの評価値をβ乗する。
As indicated by Equation 4, the correction parameter α corrects the evaluation value of analytical matching. Specifically, the correction parameter α raises the analytical matching evaluation value to the power of α. Also,
As shown by Equation 4, the correction parameter β corrects the evaluation value of the overall matching. Specifically, the correction parameter β raises the overall matching evaluation value to the power of β.

図7は、認識部660の構成の例を示す。認識部660は、第1の補正評価値算出部661、第1の補正パラメータ記憶部662、第2の補正評価値算出部663、第2の補正パラメータ記憶部664、及び統合評価値算出部665を備える。   FIG. 7 shows an example of the configuration of the recognition unit 660. The recognition unit 660 includes a first correction evaluation value calculation unit 661, a first correction parameter storage unit 662, a second correction evaluation value calculation unit 663, a second correction parameter storage unit 664, and an integrated evaluation value calculation unit 665. Is provided.

第1の補正評価値算出部661は、補正パラメータαを使用して数式4の{P(Y|w)/P(Y)}αを算出する。即ち、第1の補正評価値算出部661は、補正パラメータαにより、解析的マッチングの評価値を補正する。 The first correction evaluation value calculation unit 661 calculates {P (Y | w) / P (Y)} α of Expression 4 using the correction parameter α. That is, the first correction evaluation value calculation unit 661 corrects the evaluation value of analytical matching with the correction parameter α.

第1の補正パラメータ記憶部662は、補正パラメータαを記憶する記憶手段である。第1の補正パラメータ記憶部662は、後述する学習部680により選択された補正パラメータαを受け取り、記憶する。   The first correction parameter storage unit 662 is a storage unit that stores the correction parameter α. The first correction parameter storage unit 662 receives and stores the correction parameter α selected by the learning unit 680 described later.

第2の補正評価値算出部663は、補正パラメータβを使用して数式4の{P(X|w)/P(X)}βを算出する。即ち、第2の補正評価値算出部663は、補正パラメータβにより、全体的マッチングの評価値を補正する。 The second correction evaluation value calculation unit 663 calculates {P (X | w) / P (X)} β in Expression 4 using the correction parameter β. That is, the second correction evaluation value calculation unit 663 corrects the evaluation value of the overall matching with the correction parameter β.

なお、それぞれの補正前評価値(即ち、解析的マッチングの評価値と全体的マッチングの評価値)は、指数関数的に増加していく。この為、数式4の両辺にて対数をとった補正値とすることが、精度上だけでなく計算時の桁溢れの防止の上でも望ましい。   Each evaluation value before correction (that is, an evaluation value for analytical matching and an evaluation value for overall matching) increases exponentially. For this reason, it is desirable not only to improve accuracy but also to prevent overflowing during calculation, to use correction values obtained by logarithm on both sides of Equation 4.

第2の補正パラメータ記憶部664は、補正パラメータβを記憶する記憶手段である。第2の補正パラメータ記憶部664は、後述する学習部680により選択された補正パラメータβを受け取り、記憶する。   The second correction parameter storage unit 664 is a storage unit that stores the correction parameter β. The second correction parameter storage unit 664 receives and stores the correction parameter β selected by the learning unit 680 described later.

統合評価値算出部665は、第1の補正評価値算出部661により補正された解析的マッチングの評価値と、第2の補正評価値算出部663により補正された全体的マッチングの評価値と、事前確率格納部652に記憶されている事前確率と、を統合した統合評価値を算出する。統合評価値算出部665は、数式4の両辺の対数をとった状態として、右辺の計算を行う。対数をとることにより、統合評価値算出部665は、右辺のそれぞれの因子を対数の和として表すことが出来る。   The integrated evaluation value calculation unit 665 includes the analytical matching evaluation value corrected by the first correction evaluation value calculation unit 661, the overall matching evaluation value corrected by the second correction evaluation value calculation unit 663, and An integrated evaluation value obtained by integrating the prior probabilities stored in the prior probability storage unit 652 is calculated. The integrated evaluation value calculation unit 665 calculates the right side in a state where the logarithm of both sides of Equation 4 is taken. By taking the logarithm, the integrated evaluation value calculation unit 665 can represent each factor on the right side as the sum of logarithms.

事前確率格納部652は、単語毎の事前確率P(w)をテーブルとして格納する。事前確率P(w)は、ある単語が紙葉類1に記載されている頻度を示す確率である。この値を調整してテーブルを作成することにより、住所として不適当な単語の事後確率P(w|Y、X)を抑えることができる。   Prior probability storage unit 652 stores prior probability P (w) for each word as a table. The prior probability P (w) is a probability indicating the frequency with which a certain word is described in the paper sheet 1. By adjusting this value and creating a table, the posterior probability P (w | Y, X) of a word inappropriate as an address can be suppressed.

例えば、紙葉類1上のバーコードなどが「11111111」などの単語として認識される場合がある。このような場合であっても、「11111111」などの単語に事前確率P(w)として低い値を予め設定しておくことにより、単語認識部600が単語「11111111」の事後確率P(w|Y、X)として高い値を算出することを防ぐことができる。即ち、誤認識しやすい単語などに対して事前確率P(w)として低い値を予め設定しておくことにより、単語認識部600が誤認識を起こすことを防ぐことができる。   For example, a barcode on the paper sheet 1 may be recognized as a word such as “11111111”. Even in such a case, by setting a low value as a prior probability P (w) in a word such as “11111111” in advance, the word recognition unit 600 can determine the posterior probability P (w |) of the word “11111111”. Y, X) can be prevented from being calculated as a high value. That is, by setting in advance a low value as the prior probability P (w) for a word that is easily misrecognized, it is possible to prevent the word recognition unit 600 from causing erroneous recognition.

また、例えば、全ての単語の出現頻度が一律である場合、事前確率P(w)は一定の値であればよい。   For example, when the appearance frequency of all the words is uniform, the prior probability P (w) may be a constant value.

数式4に示されるように、統合評価値算出部665は、第1の補正評価値算出部661により補正された解析的マッチングの評価値と、第2の補正評価値算出部663により補正された全体的マッチングの評価値と、事前確率P(w)とを乗算し、統合評価値{P(Y|w)/P(Y)}α・{P(X|w)/P(X)}β・P(w)を算出する。統合評価値算出部665は、算出した統合評価値を出力する。これにより、単語認識部600は、統合評価値を主制御部500に出力することができる。 As shown in Equation 4, the integrated evaluation value calculation unit 665 is corrected by the analytical matching evaluation value corrected by the first correction evaluation value calculation unit 661 and the second correction evaluation value calculation unit 663. The overall matching evaluation value is multiplied by the prior probability P (w), and the integrated evaluation value {P (Y | w) / P (Y)} α · {P (X | w) / P (X)} β · P (w) is calculated. The integrated evaluation value calculation unit 665 outputs the calculated integrated evaluation value. Thereby, the word recognition unit 600 can output the integrated evaluation value to the main control unit 500.

上記の処理により、主制御部500は、単語毎の認識結果(評価値)を取得することができる。主制御部500は、複数の単語の事後確率と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。例えば、主制御部500は、宛先情報として適当な単語の組み合わせを推測することができる。   Through the above processing, the main control unit 500 can acquire a recognition result (evaluation value) for each word. The main control unit 500 can specify the destination information in consideration of the posterior probabilities of a plurality of words and combinations with other words. For example, the main control unit 500 can infer a combination of words suitable as destination information.

また、上記したように単語認識部600は、補正パラメータαにより解析的マッチングの評価値を補正し、補正パラメータβにより全体的マッチングの評価値を補正する。単語認識部600は、補正された解析的マッチングの評価値と全体的マッチングの評価値と事前確率とを乗算し、統合評価値を算出する。統合評価値算出部665は、算出した統合評価値を出力する。これにより、単語認識部600は、より精度の高い統合評価値を主制御部500に出力することができる。   Further, as described above, the word recognition unit 600 corrects the evaluation value of analytical matching with the correction parameter α, and corrects the evaluation value of overall matching with the correction parameter β. The word recognition unit 600 multiplies the corrected evaluation value of analytical matching, the evaluation value of overall matching, and the prior probability to calculate an integrated evaluation value. The integrated evaluation value calculation unit 665 outputs the calculated integrated evaluation value. As a result, the word recognition unit 600 can output a more accurate integrated evaluation value to the main control unit 500.

なお、単語認識部600は、最も高い事後確率P(w|Y、X)が算出された単語を認識結果として主制御部500に出力する構成であってもよい。この場合、単語認識部600は、一つの単語を認識結果として特定し、主制御部500に伝送することができる。   Note that the word recognition unit 600 may be configured to output the word for which the highest posterior probability P (w | Y, X) is calculated to the main control unit 500 as a recognition result. In this case, the word recognition unit 600 can identify one word as a recognition result and transmit it to the main control unit 500.

また、上記したように、単語認識部600は、単語毎の事後確率P(w|Y、X)を認識結果として主制御部500に出力する構成であってもよい。この場合、主制御部500は、複数の単語の事後確率P(w|Y、X)と、他の単語との組み合わせとを考慮して宛先情報を特定することができる。   Further, as described above, the word recognition unit 600 may be configured to output the posterior probability P (w | Y, X) for each word to the main control unit 500 as a recognition result. In this case, the main control unit 500 can specify the destination information in consideration of the posterior probabilities P (w | Y, X) of a plurality of words and combinations with other words.

次に、学習フェーズについて説明する。
図2に示すVCS640は、たとえば、単語認識部600により宛先情報が認識されなかった紙葉類1の正しい宛先情報を紙葉類処理装置100のオペレータに入力させる為のモジュールである。VCS640は、例えば図1に示す操作部700及び表示部800により構成される。また、例えば、単語認識部600は、操作部700及び表示部800とは別に操作及び表示が可能なモジュールをVCS640として備える構成であってもよい。
Next, the learning phase will be described.
The VCS 640 shown in FIG. 2 is a module for causing the operator of the paper sheet processing apparatus 100 to input correct destination information of the paper sheet 1 whose destination information has not been recognized by the word recognition unit 600, for example. The VCS 640 includes, for example, an operation unit 700 and a display unit 800 illustrated in FIG. Further, for example, the word recognition unit 600 may be configured to include a module capable of operation and display as the VCS 640 separately from the operation unit 700 and the display unit 800.

VCS640は、宛先情報を特定できなかった紙葉類1の画像を表示する。VCS640は、表示させた紙葉類1の画像をオペレータに読み取らせて宛先情報を入力させる。例えば、VCS640は、単語候補毎にオペレータに正しい単語を入力させる。これにより、VCS640は、単語画像と正しい宛先情報(正解)とを対応付けることができる。   The VCS 640 displays an image of the paper sheet 1 whose destination information could not be specified. The VCS 640 causes the operator to read the displayed image of the paper sheet 1 and input destination information. For example, the VCS 640 causes the operator to input a correct word for each word candidate. As a result, the VCS 640 can associate the word image with the correct destination information (correct answer).

VCS640は、単語画像及び正しい宛先情報(正解)を、単語画像蓄積部641と事前確率計算部651とに出力する。   The VCS 640 outputs the word image and correct destination information (correct answer) to the word image storage unit 641 and the prior probability calculation unit 651.

まず、単語モデルの学習について説明する。単語画像蓄積部641は、VCS640により入力された単語画像と正解とを対応付けて蓄積する。   First, word model learning will be described. The word image storage unit 641 stores the word image input by the VCS 640 and the correct answer in association with each other.

モデル学習部642は、単語画像蓄積部641に蓄積されている単語画像とその正解を用いて、各文字モデル、及び各単語モデルのいずれかまたは両方を学習する。   The model learning unit 642 learns either or both of each character model and each word model using the word image stored in the word image storage unit 641 and its correct answer.

モデル学習部642は、例えば、バウムウェルチアルゴリズム(Baum−Welch algorithm)を用いてモデルの学習を行う。バウムウェルチアルゴリズムは、隠れマルコフモデルにおける未知のパラメータを探すアルゴリズムである。バウムウェルチアルゴリズムは、モデルが出力した配列からモデルパラメータを推定することができる。   The model learning unit 642 performs model learning using, for example, a Baum-Welch algorithm. The Baumwelch algorithm is an algorithm that searches for unknown parameters in a hidden Markov model. The Baumwelch algorithm can estimate model parameters from the sequence output by the model.

モデル学習部642は、例えば、単語画像蓄積部641に蓄積されている単語画像とその正解を用いて、バウムウェルチアルゴリズムによりモデルを生成する。モデル学習部642は、生成したモデルをモデル格納部643に出力する。モデル格納部643は、受け取ったモデルを格納する。   For example, the model learning unit 642 generates a model by the Baum Welch algorithm using the word image stored in the word image storage unit 641 and its correct answer. The model learning unit 642 outputs the generated model to the model storage unit 643. The model storage unit 643 stores the received model.

なお、モデル学習部642は、既にモデル格納部643に格納されているモデルを更新する構成であってもよい。   The model learning unit 642 may be configured to update a model already stored in the model storage unit 643.

次に、事前確率の学習について説明する。事前確率計算部651は、VCS640により入力された単語画像の正しい宛先情報に基づいて、単語毎の頻度をカウントする。即ち、事前確率計算部651は、宛先情報に含まれる単語の数を単語毎にカウントして集計することにより、単語毎の事前確率P(w)を算出する。事前確率計算部651は、算出した単語毎の事前確率P(w)を事前確率格納部652に格納する。   Next, learning of prior probabilities will be described. The prior probability calculation unit 651 counts the frequency for each word based on the correct destination information of the word image input by the VCS 640. That is, the prior probability calculation unit 651 calculates the prior probability P (w) for each word by counting and counting the number of words included in the destination information for each word. The prior probability calculation unit 651 stores the calculated prior probability P (w) for each word in the prior probability storage unit 652.

事前確率入力部653は、事前確率格納部652に格納されている事前確率P(w)を変更することができる。事前確率入力部653は、例えば図1に示す操作部700により入力された操作に基づいて事前確率格納部652に格納されている事前確率P(w)を操作に応じた値に書き換える。   Prior probability input section 653 can change prior probability P (w) stored in prior probability storage section 652. The prior probability input unit 653 rewrites the prior probability P (w) stored in the prior probability storage unit 652 to a value corresponding to the operation based on, for example, an operation input by the operation unit 700 illustrated in FIG.

また、事前確率入力部653は、操作部700とは別に操作が可能なモジュールにより入力された操作に基づいて事前確率格納部652に格納されている事前確率P(w)を操作に応じた値に書き換える構成であってもよい。   The prior probability input unit 653 is a value corresponding to the prior probability P (w) stored in the prior probability storage unit 652 based on an operation input by a module that can be operated separately from the operation unit 700. The configuration may be rewritten as follows.

これにより、上記したような誤認識しやすい単語などに対して事前確率P(w)として低い値を設定することができる。これにより、単語認識部600が誤認識を起こすことを防ぐ事ができる。   Thereby, a low value can be set as the prior probability P (w) for the above-described words that are easily misrecognized. Thereby, it is possible to prevent the word recognition unit 600 from causing erroneous recognition.

次に、補正パラメータα及び補正パラメータβの学習について説明する。なお、この学習処理には、紙葉類1から取得した画像そのものが用いられてもよいし、上記の認識処理における補正前の評価値が用いられてもよい。本例では、補正前の評価値を用いる方法について説明する。   Next, learning of the correction parameter α and the correction parameter β will be described. In this learning process, the image itself acquired from the paper sheet 1 may be used, or an evaluation value before correction in the above recognition process may be used. In this example, a method using an evaluation value before correction will be described.

なお、図2に示す解析的マッチング部610は、算出した事後確率比P(Y|w)/P(Y)を学習部680に出力する。また、図2に示す全体的マッチング部620は、算出した尤度P(X|w)を学習部680に出力する。また、図2に示す特徴確率計算部630は、算出した特徴確率P(X)を学習部680に出力する。   Note that the analytical matching unit 610 shown in FIG. 2 outputs the calculated posterior probability ratio P (Y | w) / P (Y) to the learning unit 680. Also, the overall matching unit 620 illustrated in FIG. 2 outputs the calculated likelihood P (X | w) to the learning unit 680. Also, the feature probability calculation unit 630 illustrated in FIG. 2 outputs the calculated feature probability P (X) to the learning unit 680.

なお、解析的マッチング部610、全体的マッチング部620、及び特徴確率計算部630は、評価値の算出に用いた単語の単語画像を示すID(単語画像ID)を評価値とともに学習部680に出力する。学習部680は、解析的マッチング部610、全体的マッチング部620、及び特徴確率計算部630から解析的マッチングの評価値、全体的マッチングの評価値、及び単語画像IDをそれぞれ受け取る。   The analytical matching unit 610, the overall matching unit 620, and the feature probability calculation unit 630 output an ID (word image ID) indicating the word image of the word used for calculating the evaluation value to the learning unit 680 together with the evaluation value. To do. The learning unit 680 receives the analytical matching evaluation value, the global matching evaluation value, and the word image ID from the analytical matching unit 610, the global matching unit 620, and the feature probability calculation unit 630, respectively.

図8は、学習部680の構成の例を示す。認識部660は、第1の評価値格納部681、第2の評価値格納部682、オンライン認識結果格納部683、VCS結果格納部684、シミュレーション部685、及びパラメータ選択部686を備える。   FIG. 8 shows an example of the configuration of the learning unit 680. The recognition unit 660 includes a first evaluation value storage unit 681, a second evaluation value storage unit 682, an online recognition result storage unit 683, a VCS result storage unit 684, a simulation unit 685, and a parameter selection unit 686.

第1の評価値格納部681は、解析的マッチング部610から出力された解析的マッチングの評価値と、単語画像IDとを対応付けて格納する。   The first evaluation value storage unit 681 stores the analytical matching evaluation value output from the analytical matching unit 610 and the word image ID in association with each other.

第2の評価値格納部682は、全体的マッチング部620及び特徴確率計算部630から出力された全体的マッチングの評価値と、単語画像IDとを対応付けて格納する。   The second evaluation value storage unit 682 stores the overall matching evaluation value output from the global matching unit 620 and the feature probability calculation unit 630 and the word image ID in association with each other.

オンライン認識結果格納部683は、郵便区分機などで処理され、正常に自動認識できた場合に認識結果として選択された単語文字列と、単語画像IDとを格納する。正常に自動認識できた場合に認識結果として選択された単語文字列及び単語画像IDは、例えば主制御部500にネットワーク経由で供給される。オンライン認識結果格納部683は、正常に自動認識できた場合に認識結果として選択された単語文字列及び単語画像IDを主制御部500から受け取り、格納する。   The online recognition result storage unit 683 stores a word character string selected as a recognition result and a word image ID when processed by a postal sorting machine or the like and automatically recognized normally. The word character string and the word image ID selected as the recognition result when the automatic recognition can be normally performed are supplied to the main control unit 500 via the network, for example. The online recognition result storage unit 683 receives the word character string and the word image ID selected as the recognition result when the automatic recognition has been normally performed from the main control unit 500 and stores it.

また、上記したようにVCS640は、紙葉類1上に記載されている自動認識されなかった単語の正しい認識結果をオペレータによる操作入力に基づいて生成する。VCS640は、単語の正しい認識結果(正解)と、正解の単語の単語画像を示す単語画像IDとをVCS結果格納部684に出力する。VCS結果格納部684は、VCS640から供給された単語の正しい認識結果(正解)と、単語画像IDとを格納する。   Further, as described above, the VCS 640 generates a correct recognition result of a word that has not been automatically recognized described on the paper sheet 1 based on an operation input by the operator. The VCS 640 outputs the correct word recognition result (correct answer) and the word image ID indicating the word image of the correct word to the VCS result storage unit 684. The VCS result storage unit 684 stores the correct word recognition result (correct answer) supplied from the VCS 640 and the word image ID.

なお、上記の各格納部という名称は、便宜的なものであり、計算機上のメモリでもよいし、それぞれがファイルとして別に保存されるものであってもよい。   Note that the names of the above storage units are for convenience, and may be a memory on a computer, or each may be stored separately as a file.

シミュレーション部685は、第1の評価値格納部681により格納されている評価値と、第2の評価値格納部682により格納されている評価値と、オンライン認識結果格納部683により格納されている認識結果と、VCS結果格納部684により格納されている教示結果(正解)と、それぞれの評価値または教示結果に対応付けられて格納されている単語画像IDと、に基づいて補正パラメータα及び補正パラメータβの最適化を行う。 シミュレーション部685は、第1の評価値格納部681により格納されている評価値(第1の評価値)と、第2の評価値格納部682により格納されている評価値(第2の評価値)と、オンライン認識結果格納部683により格納されている認識結果と、VCS結果格納部684により格納されている教示結果(正解)と、を単語画像IDに基づいてつなぎ合わせて、図9に示されるようなリストを生成する。   The simulation unit 685 stores the evaluation value stored by the first evaluation value storage unit 681, the evaluation value stored by the second evaluation value storage unit 682, and the online recognition result storage unit 683. Based on the recognition result, the teaching result (correct answer) stored by the VCS result storage unit 684, and the word image ID stored in association with each evaluation value or teaching result, the correction parameter α and the correction Optimize parameter β. The simulation unit 685 includes an evaluation value (first evaluation value) stored in the first evaluation value storage unit 681 and an evaluation value (second evaluation value) stored in the second evaluation value storage unit 682. ) And the recognition result stored in the online recognition result storage unit 683 and the teaching result (correct answer) stored in the VCS result storage unit 684 are connected based on the word image ID, and are shown in FIG. Generate a list that looks like

図9は、シミュレーション部685の処理の例について説明する。
シミュレーション部685は、上記の第1の評価値、第2の評価値、認識結果、及び教示結果を単語画像ID毎に対応付け、統合リストを生成する。図9のそれぞれのリストの例において「#」で示している行は、見出し行でコメントアウトされる行である。
FIG. 9 illustrates an example of processing of the simulation unit 685.
The simulation unit 685 associates the first evaluation value, the second evaluation value, the recognition result, and the teaching result with each word image ID, and generates an integrated list. In the example of each list in FIG. 9, the line indicated by “#” is a line that is commented out as a heading line.

第1の評価値格納部681により格納されている第1の評価値のリストでは、データベース登録された単語名とその単語に対する評価値とのペアが各単語毎に単語画像IDに対応付けられて格納されている。   In the first evaluation value list stored by the first evaluation value storage unit 681, a pair of a word name registered in the database and an evaluation value for the word is associated with the word image ID for each word. Stored.

例えばDB登録されている単語が100個の場合には、単語画像のID番号の後に、100個の単語と評価値とのペアが記載されることとなる。なお、第2の評価値格納部682により格納されている第2の評価値のリストの第1の評価値のリストと同様の構成である。   For example, when there are 100 words registered in the DB, a pair of 100 words and an evaluation value is described after the ID number of the word image. Note that the configuration is the same as that of the first evaluation value list of the second evaluation value list stored in the second evaluation value storage unit 682.

また、今回のようにDB登録される単語全てに対して評価値を与えるようなケースでは、敢えて単語「ham」などをペアにして記載しなくてもDB登録順に評価値を記載しておくなどのルールを予め設定しておいてもよい。これにより、DB登録されている単語の文字列の記載は不要となる。   In addition, in the case where evaluation values are given to all words registered in the DB as in this case, the evaluation values are described in the order of DB registration even if the word “ham” is not described as a pair. These rules may be set in advance. Thereby, the description of the character string of the word registered in DB becomes unnecessary.

同様に、単語の文字列の代わりに各登録単語にID番号を振っておくことで、ID番号で置きかえることも当然可能である。   Similarly, it is naturally possible to replace each registered word with an ID number by assigning an ID number instead of a word character string.

オンライン認識結果格納部683により格納されている認識結果のリスト(オンライン認識結果リスト)の例では、オンライン認識結果が単語画像IDに対応付けられて格納されている。図9で示されている「REJECT」は、自動認識結果で最終認識結果が選ばれなかったものを示す。   In the example of the recognition result list (online recognition result list) stored by the online recognition result storage unit 683, the online recognition result is stored in association with the word image ID. “REJECT” shown in FIG. 9 indicates an automatic recognition result whose final recognition result is not selected.

VCS結果格納部684により格納されている教示結果のリスト(VCS教示結果リスト)の例では、教示結果が単語画像IDに対応付けられて格納されている。図9で示されている「No Process」は、自動的に単語画像の単語が認識されたことを示す。この場合、VCS640による正解の入力が行われない為、「No Process」となる。なお、この場合も、文字列の代わりに各登録単語にID番号が単語画像IDに対応付けられてもよい。   In the example of the teaching result list (VCS teaching result list) stored by the VCS result storage unit 684, the teaching result is stored in association with the word image ID. “No Process” shown in FIG. 9 indicates that the word of the word image is automatically recognized. In this case, since the correct answer is not input by the VCS 640, “No Process” is obtained. In this case as well, an ID number may be associated with the word image ID for each registered word instead of the character string.

統合リストは、単語画像IDと、正解単語名と、DB登録単語ごとの評価値とを対応付けた状態で備える。なお、DB登録単語ごとの評価値は、DB登録名と、第1の評価値と、第2の評価値とのセットである。   The integrated list includes a word image ID, a correct word name, and an evaluation value for each DB registered word in association with each other. The evaluation value for each DB registration word is a set of a DB registration name, a first evaluation value, and a second evaluation value.

例えば単語画像ID「000001」では、オンライン認識結果が「ham」である。即ち、単語画像ID「000001」の正解単語名は、「ham」である。また、単語画像ID「000001」には、DB登録単語ごとに第1の評価値及び第2の評価値が対応付けられる。   For example, in the word image ID “000001”, the online recognition result is “ham”. That is, the correct word name of the word image ID “000001” is “ham”. The word image ID “000001” is associated with the first evaluation value and the second evaluation value for each DB registered word.

単語画像ID「000002」は、オンライン認識結果が「REJECT」である。この為、オンライン認識結果ではなく、VCS教示結果が正解単語名として用いられる。即ち、単語画像ID「000002」の正解単語名は、「goteborg」である。また、単語画像ID「000002」には、DB登録単語ごとに第1の評価値及び第2の評価値が対応付けられる。   The word image ID “000002” has an online recognition result “REJECT”. For this reason, the VCS teaching result, not the online recognition result, is used as the correct word name. That is, the correct word name of the word image ID “000002” is “gotorgorg”. The word image ID “000002” is associated with the first evaluation value and the second evaluation value for each DB registered word.

シミュレーション部685は、各単語画像IDについて、正解単語名を特定し、DB登録単語毎に第1の評価値及び第2の評価値を抽出し、対応付ける。これにより、シミュレーション部685は、統合リストを作成する。   The simulation unit 685 identifies the correct word name for each word image ID, extracts the first evaluation value and the second evaluation value for each DB registered word, and associates them. As a result, the simulation unit 685 creates an integrated list.

この統合リストは、統合リスト作成に必要となるリストさえあれば、実際に郵便物等を処理したシステムとは別系統のシステムで作成しても構わないし、リスト自体は複数の処理システムから受け取る形でも実施可能である。また、簡便化のために統合リスト例として一つのファイルに出力した形式で説明しているが、実際にはプログラム上で単語画像IDに基づいて情報を仮想的に繋ぎ合せることをしても何ら問題ない。   This integrated list may be created by a system different from the system that actually processed mail items, as long as it is a list necessary for creating the integrated list. The list itself may be received from a plurality of processing systems. But it is possible. In addition, for the sake of simplification, an example of an integrated list has been described in a format output to a single file. However, in reality, information may be virtually connected based on a word image ID on a program. no problem.

さらに、シミュレーション部685は、統合リストに基づいて、補正パラメータα及びβの変動と補正後の統合評価値との関係をシミュレーションする。即ち、シミュレーション部685は、数式4に補正パラメータα及びβとして値を代入する。シミュレーション部685は、補正パラメータα及びβに値が代入された数式4と、第1の評価値と、第2の評価値と、に基づいて、統合評価値を算出する。シミュレーション部685は、算出した統合評価値に基づいて、1つの単語を特定する。例えば、シミュレーション部685は、最も高い統合評価値が算出された単語を特定する。即ち、特定された単語は、シミュレーションによる認識結果である。   Furthermore, the simulation unit 685 simulates the relationship between fluctuations in the correction parameters α and β and the integrated evaluation value after correction based on the integration list. That is, the simulation unit 685 substitutes values as the correction parameters α and β in Equation 4. The simulation unit 685 calculates an integrated evaluation value based on the mathematical formula 4 in which values are substituted into the correction parameters α and β, the first evaluation value, and the second evaluation value. The simulation unit 685 identifies one word based on the calculated integrated evaluation value. For example, the simulation unit 685 identifies the word for which the highest integrated evaluation value has been calculated. That is, the specified word is a recognition result by simulation.

なお、統合リストの各単語画像IDには、正解単語名が対応付けられている。シミュレーション部685は、統合評価値に基づいて特定された単語と正解単語名とが一致するか否か照合する。シミュレーション部685は、補正パラメータα及びβの変動と、照合結果とに基づいて表示画面を生成し、出力する。例えば、シミュレーション部685は、生成した画面を表示800に出力し、表示させる。   A correct word name is associated with each word image ID in the integrated list. The simulation unit 685 checks whether the word specified based on the integrated evaluation value matches the correct word name. The simulation unit 685 generates and outputs a display screen based on the fluctuations in the correction parameters α and β and the collation result. For example, the simulation unit 685 outputs the generated screen to the display 800 and displays it.

図10は、シミュレーション結果の例を示す。シミュレーション結果は、単語画像ID、正解単語名、シミュレーションにより算出された統合評価値、シミュレーションの認識結果、及び照合結果を有する。   FIG. 10 shows an example of a simulation result. The simulation result includes a word image ID, a correct word name, an integrated evaluation value calculated by the simulation, a simulation recognition result, and a matching result.

なお、図10の上段は、補正パラメータαが「1.0」であり、補正パラメータβが「1.0」である場合のシミュレーション結果を示す。また、図10の下段は、補正パラメータαが「1.0」であり、補正パラメータβが「0.5」である場合のシミュレーション結果を示す。   10 shows a simulation result when the correction parameter α is “1.0” and the correction parameter β is “1.0”. The lower part of FIG. 10 shows a simulation result when the correction parameter α is “1.0” and the correction parameter β is “0.5”.

補正パラメータα及びβは、操作部700による操作入力に基づいて生成された値が用いられてもよい。また、補正パラメータα及びβは、入出力部900により入力された値が用いられてもよい。また、補正パラメータα及びβは、予め紙葉類処理装置100内のメモリに格納された値が用いられてもよい。   As the correction parameters α and β, values generated based on an operation input by the operation unit 700 may be used. Further, values input by the input / output unit 900 may be used as the correction parameters α and β. Further, as the correction parameters α and β, values stored in advance in a memory in the paper sheet processing apparatus 100 may be used.

また、シミュレーション部685によるシミュレーションは、予め設定された変動パターンに応じて補正パラメータα及びβを変動させながらバッチ処理を行う構成であってもよい。また、上記のシミュレーション部685によるシミュレーションは、バッチ処理毎に予め設定された変動パターンに応じて補正パラメータα及びβを変動させながら適切な値を決定する構成であってもよい。   The simulation by the simulation unit 685 may be configured to perform batch processing while varying the correction parameters α and β according to a preset variation pattern. The simulation by the simulation unit 685 may be configured to determine appropriate values while varying the correction parameters α and β according to a variation pattern set in advance for each batch process.

シミュレーション部685は、ある単語画像に対して、各登録単語の補正前評価値からシミュレーションにより統合評価値を算出し、認識結果として単語を特定する。この結果、シミュレーション部685は、認識結果と正解との差分を表示画面に表示させることができる。   The simulation unit 685 calculates an integrated evaluation value by simulation from a pre-correction evaluation value of each registered word for a certain word image, and specifies a word as a recognition result. As a result, the simulation unit 685 can display the difference between the recognition result and the correct answer on the display screen.

シミュレーション部685は、全ての単語画像に対して上記のシミュレーションを行うことにより、指定した補正パラメータα及びβでの認識率を算出することができる。また、シミュレーション部685は、補正パラメータα及びβを変動させることにより、変動後の補正パラメータα及びβの認識率を算出することができる。例えば、シミュレーション部685は、補正パラメータαと補正パラメータβとのセット毎に認識率を算出する。   The simulation unit 685 can calculate the recognition rate with the specified correction parameters α and β by performing the above-described simulation on all word images. The simulation unit 685 can calculate the recognition rates of the corrected correction parameters α and β by changing the correction parameters α and β. For example, the simulation unit 685 calculates a recognition rate for each set of the correction parameter α and the correction parameter β.

パラメータ選択部686は、前述のように変動された補正パラメータα及びβの中から、特定の値を選択する。例えば、パラメータ選択部686は、最も良い認識率となるものを、補正パラメータα及びβとして採用する。即ち、パラメータ選択部686は、複数の補正パラメータαと補正パラメータβとのセットのうちで、最も良い認識率が算出されたセットを選択する。   The parameter selection unit 686 selects a specific value from the correction parameters α and β that have been changed as described above. For example, the parameter selection unit 686 employs the one having the best recognition rate as the correction parameters α and β. That is, the parameter selection unit 686 selects a set for which the best recognition rate is calculated from among a set of a plurality of correction parameters α and correction parameters β.

また、例えば、パラメータ選択部686は、上記したように認識結果と正解との差分、及び補正パラメータα及びβ毎の認識率などに基づいて画面を生成し、表示部800に表示させる。さらに、パラメータ選択部686は、操作部700による操作入力に基づいて、1つの補正パラメータαと補正パラメータβとのセットを選択する構成であってもよい。   For example, the parameter selection unit 686 generates a screen based on the difference between the recognition result and the correct answer, the recognition rate for each of the correction parameters α and β, and displays the screen on the display unit 800 as described above. Further, the parameter selection unit 686 may be configured to select a set of one correction parameter α and correction parameter β based on an operation input from the operation unit 700.

ただし、補正パラメータを自動変動させた場合、パラメータが発散することが想定される。このため、最終的にはGUIなどでオペレータがその調整結果を採用するかどうかを判断することが望ましい。   However, when the correction parameter is automatically changed, it is assumed that the parameter diverges. For this reason, it is desirable to finally determine whether or not the operator adopts the adjustment result by GUI or the like.

なお、本例では、シミュレーション部685は、事前確率を一定値(1.0)としてシミュレーションを行っている。しかし、事前確率の分布が単語毎に異なる場合、数式4に示されるように個々の単語の統合評価値が事前確率に応じて変化する。この結果、シミュレーションにおける認識結果が変動する。   In this example, the simulation unit 685 performs the simulation with the prior probability set to a constant value (1.0). However, when the distribution of prior probabilities differs for each word, the integrated evaluation value of each word changes according to the prior probability as shown in Equation 4. As a result, the recognition result in the simulation varies.

上記した処理により、学習部680は、最適な補正パラメータα及びβを特定することができる。学習部680は、パラメータ選択部686により選択された補正パラメータα及びβを出力し、認識部660に供給する。   Through the processing described above, the learning unit 680 can identify the optimal correction parameters α and β. The learning unit 680 outputs the correction parameters α and β selected by the parameter selection unit 686 and supplies the correction parameters α and β to the recognition unit 660.

認識部660は、供給された補正パラメータαを第1の補正パラメータ記憶部662に記憶する。また、認識部660は、供給された補正パラメータβを第2の補正パラメータ記憶部664に記憶する。これにより、認識部660は、学習部680により特定された補正パラメータα及びβを認識処理に用いることができる。この結果、より高い精度で単語を認識することができる単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置を提供することができる。   The recognition unit 660 stores the supplied correction parameter α in the first correction parameter storage unit 662. The recognizing unit 660 stores the supplied correction parameter β in the second correction parameter storage unit 664. Thereby, the recognition unit 660 can use the correction parameters α and β specified by the learning unit 680 for the recognition process. As a result, it is possible to provide a word recognition device that can recognize words with higher accuracy, a word recognition program, and a paper sheet processing device including the word recognition device.

また、上記した実施形態では、学習部680は、補正パラメータα及びβを自動的に選択し、出力すると説明したがこの構成に限定されない。学習部680は、特定した補正パラメータα及びβを候補として表示部800などに表示させ、操作部700に入力される操作入力に基づいて補正パラメータα及びβを更新するか否か判断する構成であってもよい。即ち、学習部680は、特定した補正パラメータα及びβを認識部660に出力するか否かを操作部700に入力される操作入力に基づいて判断する。これにより、オペレータにより確認された補正パラメータα及びβが設定されることを防ぐことができる。   In the above-described embodiment, the learning unit 680 has been described to automatically select and output the correction parameters α and β, but is not limited to this configuration. The learning unit 680 displays the identified correction parameters α and β as candidates on the display unit 800 and the like, and determines whether to update the correction parameters α and β based on the operation input input to the operation unit 700. There may be. That is, the learning unit 680 determines whether to output the specified correction parameters α and β to the recognition unit 660 based on an operation input input to the operation unit 700. This can prevent the correction parameters α and β confirmed by the operator from being set.

また、学習部680は、特定した補正パラメータα及びβを認識部660に出力する前に、既に認識部660に設定されている補正パラメータα及びβのバックアップをとる構成であってもよい。また、このバックアップは、認識部660が補正パラメータα及びβの上書き前に行う構成であってもよい。   Further, the learning unit 680 may be configured to take a backup of the correction parameters α and β already set in the recognition unit 660 before outputting the specified correction parameters α and β to the recognition unit 660. Further, this backup may be performed by the recognition unit 660 before overwriting the correction parameters α and β.

また、補正パラメータα及びβの更新は、データ収集時と同様に、必ずしも一つのシステムへの配信である必要はなく、複数のシステムへ同一の補正パラメータα及びβを配信して更新する構成であってもよい。この場合、紙葉類処理装置100は、ネットワークで接続された他の紙葉類処理装置に補正パラメータα及びβを供給する。   Further, the update of the correction parameters α and β does not necessarily have to be distributed to one system as in the case of data collection, and the same correction parameters α and β are distributed and updated to a plurality of systems. There may be. In this case, the paper sheet processing apparatus 100 supplies the correction parameters α and β to other paper sheet processing apparatuses connected via the network.

また上記した実施形態では、学習部680は、第1の評価値及び第2の評価値に基づいてシミュレーションを行い、補正パラメータα及びβを特定すると説明したが、この構成に限定されない。学習部680は、単語画像そのものに基づいて補正パラメータα及びβを学習する構成であってもよい。   In the above-described embodiment, the learning unit 680 performs the simulation based on the first evaluation value and the second evaluation value and specifies the correction parameters α and β. However, the configuration is not limited to this configuration. The learning unit 680 may be configured to learn the correction parameters α and β based on the word image itself.

単語画像そのものに基づいて補正パラメータα及びβを学習する場合、単語画像自体を保存する必要がある。このため、通信面でもファイル保存面でも容量的に負荷がかかる。また、評価値の計算をやり直す必要があるため学習時の処理時間等で不利である。   When learning the correction parameters α and β based on the word image itself, it is necessary to store the word image itself. For this reason, a load is applied in terms of capacity both in terms of communication and file storage. Moreover, since it is necessary to redo the calculation of the evaluation value, it is disadvantageous in processing time at the time of learning.

一方で、第1の評価値及び第2の評価値に基づいて補正パラメータα及びβを学習する場合、補正前の認識結果に基づいて正解単語名が特定される。この為、誤読されたものを正解単語名として扱う可能性がある。また、シミュレーション後の補正パラメータの承認時には単語画像をオペレータが確認することができない為、正解単語名が誤りであるのか否かが不確実であるという問題がある。   On the other hand, when learning the correction parameters α and β based on the first evaluation value and the second evaluation value, the correct word name is specified based on the recognition result before correction. For this reason, there is a possibility that a misread is handled as a correct word name. In addition, since the operator cannot confirm the word image when approving the correction parameter after simulation, there is a problem that it is uncertain whether or not the correct word name is incorrect.

単語画像を用いてシミュレーションを行う場合、認識時の処理と関係なく、単語画像を保存する。即ち、単語抽出部602により抽出された単語画像が紙葉類処理装置100内のメモリに格納される。この場合、格納されている単語画像を表示部800に表示させる。オペレータは、表示部800に表示された単語画像を確認し、正解単語名を操作部700により入力する。学習部680は、操作部700により入力された操作入力に基づいて、正解単語名を生成する。   When a simulation is performed using a word image, the word image is stored regardless of the process during recognition. That is, the word image extracted by the word extraction unit 602 is stored in the memory in the paper sheet processing apparatus 100. In this case, the stored word image is displayed on the display unit 800. The operator confirms the word image displayed on the display unit 800 and inputs the correct word name using the operation unit 700. The learning unit 680 generates a correct word name based on the operation input input by the operation unit 700.

シミュレーション部685は、認識処理で使用された補正パラメータのセットを使用して、上記のメモリに格納されている単語画像を認識させることにより、補正パラメータのセット毎の認識率を算出することができる。   The simulation unit 685 can calculate the recognition rate for each set of correction parameters by causing the word image stored in the memory to be recognized using the set of correction parameters used in the recognition process. .

シミュレーション部685は、自動認識された認識結果、またはVCSによる教示結果のいずれかをシミュレーションに必要となる正解単語名として用いる。   The simulation unit 685 uses either the automatically recognized recognition result or the VCS teaching result as a correct word name necessary for the simulation.

シミュレーション部685は、補正パラメータを変動させてシミュレーションする。これにより、上記のように、シミュレーション結果に基づく認識結果と、正解単語名との照合結果を画面として表示させる。これにより、オペレータは、差分が出た最終認識結果を確認することができる。さらに、シミュレーション部685は、操作入力に基づいて差分画像リストから単語画像を参照することができる。これにより、シミュレーション部685は、差分が出た単語画像をオペレータに確認させることができる。これにより、シミュレーション部685は、正解が誤読になったのか、誤読が正解になったのか、をオペレータに確認させることができる。   The simulation unit 685 performs simulation by changing the correction parameter. Thereby, as described above, the result of matching between the recognition result based on the simulation result and the correct word name is displayed on the screen. Thereby, the operator can confirm the final recognition result from which the difference came out. Furthermore, the simulation unit 685 can refer to the word image from the difference image list based on the operation input. As a result, the simulation unit 685 can cause the operator to check the word image having the difference. As a result, the simulation unit 685 can cause the operator to check whether the correct answer is misread or whether the misread is correct.

図11は、シミュレーション結果の例を示す。なお、この例では、シミュレーション部685は、単語画像を表示するためのボタン(SIM差分画像)を表示する。   FIG. 11 shows an example of a simulation result. In this example, the simulation unit 685 displays a button (SIM difference image) for displaying a word image.

図11における例によると、「画像1」は、元の結果(認識部660による認識結果)が「REJECT」である。この場合VCS640により入力された正解単語名が既に入力されている。このため、正解単語名の変更の必要がない。また、新結果(シミュレーションによる認識結果)では正しく認識されている。このため、判定は、「REJ」から「正解」となる。   According to the example in FIG. 11, “Image 1” has the original result (recognition result by the recognition unit 660) “REJECT”. In this case, the correct word name input by the VCS 640 has already been input. For this reason, there is no need to change the correct word name. The new result (recognition result by simulation) is correctly recognized. For this reason, the determination changes from “REJ” to “correct answer”.

一方、「画像3」は、元結果と新結果が異なっている。この元結果と新結果とは、それぞれ異なる補正パラメータが用いられて算出された結果である。この為、どちらの認識結果が正しいかをオペレータに判断させる必要がある。   On the other hand, “image 3” is different in the original result and the new result. The original result and the new result are calculated using different correction parameters. For this reason, it is necessary for the operator to determine which recognition result is correct.

上記したように、シミュレーション部685は、単語画像を表示するためのボタン(SIM差分画像)を表示する。例えば「画像3」がクリックされた場合、シミュレーション部685は、該当の単語画像を表示部800に表示させる。さらに、シミュレーション部685は、オペレータに正解単語名を操作部700により入力させる、これにより、シミュレーション部685は、正解単語名を取得することができる。   As described above, the simulation unit 685 displays a button (SIM difference image) for displaying a word image. For example, when “image 3” is clicked, the simulation unit 685 causes the display unit 800 to display a corresponding word image. Further, the simulation unit 685 causes the operator to input a correct word name by using the operation unit 700, whereby the simulation unit 685 can acquire the correct word name.

このようにして、シミュレーション部685は、VCS640により正解単語名が教示された単語画像を除く他の単語画像をオペレータに参照させ、正解単語名を入力させる。これにより、シミュレーション部685は、「正解」の列を埋めていく。この結果、シミュレーション部685は、補正パラメータの変動により認識結果に差分が出たリストに対して、誤読の間違いのない正解リストが作成できる。   In this way, the simulation unit 685 causes the operator to refer to other word images except the word image in which the correct word name is taught by the VCS 640, and causes the correct word name to be input. As a result, the simulation unit 685 fills in the “correct answer” column. As a result, the simulation unit 685 can create a correct list with no misreading with respect to a list in which a difference is found in the recognition result due to a change in the correction parameter.

また、シミュレーション部685は、集計ボタンの操作に応じて、合計の認識数と誤読数の増減を示す。さらに、シミュレーション部685は、「OKボタン」と「NGボタン」との操作にもとづいて、変更後の補正パラメータを適用するか否かを判定する。   In addition, the simulation unit 685 indicates increase / decrease in the total number of recognitions and the number of misreads according to the operation of the aggregation button. Further, the simulation unit 685 determines whether or not to apply the corrected correction parameter based on the operation of the “OK button” and the “NG button”.

シミュレーション部685は、表示部800に合計の認識数と誤読数の増減を表示し、オペレータに変更後の補正パラメータが効果的か否か判断させる。シミュレーション部685は、「OKボタン」が操作された場合、補正パラメータの変更を承認する。即ち、パラメータ選択部686は、シミュレーションに用いられた補正パラメータα及びβを選択する。また、シミュレーション部685は、「NGボタン」が操作された場合、補正パラメータの変更を拒絶する。   The simulation unit 685 displays an increase / decrease in the total number of recognitions and the number of misreads on the display unit 800, and allows the operator to determine whether the corrected correction parameter is effective. The simulation unit 685 approves the change of the correction parameter when the “OK button” is operated. That is, the parameter selection unit 686 selects the correction parameters α and β used for the simulation. Further, the simulation unit 685 rejects the change of the correction parameter when the “NG button” is operated.

誤読も含めて人間が判断する場合には、その時々に応じた判断が必要になる。このため、シミュレーション部685は、図12に示されるように評価値補正パラメータの変動と、認識数及び認識率の増減との関係を示すグラフを表示800に表示させる。また、シミュレーション部685は、誤読数及び誤読率の増減をグラフとして視覚化させて表示800に表示する。これにより、シミュレーション部685は、補正パラメータの有効性をオペレータに容易に判断させることができる。   When humans make judgments including misreading, it is necessary to make judgments according to the occasion. For this reason, the simulation unit 685 causes the display 800 to display a graph indicating the relationship between the fluctuation of the evaluation value correction parameter and the increase / decrease in the number of recognitions and the recognition rate, as shown in FIG. Further, the simulation unit 685 visualizes the increase / decrease in the number of misreads and the misread rate as a graph and displays the graph on the display 800. As a result, the simulation unit 685 can make the operator easily determine the effectiveness of the correction parameter.

例えばシミュレーション部685は、補正パラメータを変動させた値と、その際のシミュレーション結果を一時保存しておき、グラフ表示時に、保存されたシミュレーション結果をグラフ化することにより、図12に示されるようなグラフを表示することができる。   For example, the simulation unit 685 temporarily stores the value obtained by changing the correction parameter and the simulation result at that time, and graphs the stored simulation result when the graph is displayed, as shown in FIG. A graph can be displayed.

上記の処理により承認された補正パラメータα及び補正パラメータβは、認識部660に出力される。即ち、学習部680は、パラメータ選択部686により選択された補正パラメータα及びβを出力し、認識部660に供給する。これにより、補正パラメータが更新される。   The correction parameter α and the correction parameter β approved by the above processing are output to the recognition unit 660. That is, the learning unit 680 outputs the correction parameters α and β selected by the parameter selection unit 686 and supplies the correction parameters α and β to the recognition unit 660. As a result, the correction parameter is updated.

このような構成によると、単語認識部600は、解析的手法(解析的マッチング)と全体的手法(全体的マッチング)とを併用することができる。さらに、解析的手法(解析的マッチング)と全体的手法(全体的マッチング)とに対してそれぞれ適切な補正パラメータを用いて補正することができる。これにより、単語認識部600は、より高い精度で事後確率P(w|Y、X)を算出することができる。この結果、より高い精度で単語の認識を行うことができる単語認識装置、単語認識プログラム、及び単語認識装置を備える紙葉類処理装置を提供することができる。   According to such a configuration, the word recognizing unit 600 can use an analytical technique (analytic matching) and an overall technique (global matching) in combination. Furthermore, correction can be performed using appropriate correction parameters for the analytical technique (analytic matching) and the overall technique (global matching). Thereby, the word recognizing unit 600 can calculate the posterior probability P (w | Y, X) with higher accuracy. As a result, it is possible to provide a word recognition apparatus, a word recognition program, and a paper sheet processing apparatus including a word recognition apparatus that can recognize words with higher accuracy.

なお、上記の実施形態では、解析的マッチングと全体的マッチングとは、どちらが先に行われてもよい。また、単語認識部600が解析的マッチングと全体的マッチングとを並列的に処理することが出来る構成を備える場合、解析的マッチングと全体的マッチングとを並列的に処理する構成であってもよい。   In the above embodiment, either the analytical matching or the overall matching may be performed first. In addition, when the word recognition unit 600 includes a configuration capable of processing the analytical matching and the global matching in parallel, the configuration may be such that the analytical matching and the global matching are processed in parallel.

なお、上記の実施形態では、単語認識部600は、一つの単語を認識結果として特定する場合、最も高い事後確率P(w|Y、X)が算出された単語を認識結果として主制御部500に出力すると説明したが、この構成に限定されない。単語画像が同じである場合、特徴確率P(X)は一定である為、単語認識部600は、数式1のP(X)を任意の値として事後確率P(w|Y、X)を算出する構成であってもよい。   In the above embodiment, when the word recognition unit 600 specifies one word as the recognition result, the main control unit 500 uses the word for which the highest posterior probability P (w | Y, X) is calculated as the recognition result. However, the present invention is not limited to this configuration. Since the feature probability P (X) is constant when the word images are the same, the word recognition unit 600 calculates the posterior probability P (w | Y, X) with P (X) in Equation 1 as an arbitrary value. It may be configured to.

また、上記した実施形態では、単語認識部600は、事後確率比P(Y|w)/P(Y)、尤度P(X|w)、及び事前確率P(w)に基づいて事後確率P(w|Y、X)を算出する構成として説明したが、この構成に限定されない。例えば、事前確率を考慮する必要がない場合、または事前確率が一定の値である場合、単語認識部600は、数式1の事前確率P(w)を無視する、または所定の値に置き換えて事後確率P(w|Y、X)を算出する構成であってもよい。   In the embodiment described above, the word recognition unit 600 determines the posterior probability based on the posterior probability ratio P (Y | w) / P (Y), the likelihood P (X | w), and the prior probability P (w). Although described as a configuration for calculating P (w | Y, X), it is not limited to this configuration. For example, when it is not necessary to consider the prior probability or when the prior probability is a constant value, the word recognition unit 600 ignores the prior probability P (w) of Equation 1 or replaces it with a predetermined value, and the posterior The probability P (w | Y, X) may be calculated.

また、上記した実施形態では、単語認識部600は、数式1乃至数式4の計算をそのまま行う構成として説明したが、この構成に限定されない。単語認識部600は、数式1乃至数式3の各項の対数を取って計算する構成であってもよい。このように対数を使うことにより、乗算であった部分が加算に代替される。また、除算であった部分が減算に代替される。   In the above-described embodiment, the word recognition unit 600 has been described as a configuration in which the calculations of Formulas 1 to 4 are performed as they are, but the configuration is not limited thereto. The word recognition unit 600 may be configured to calculate by taking the logarithm of each term of Equations 1 to 3. By using the logarithm in this way, the part that was a multiplication is replaced with addition. Also, the part that was the division is replaced with subtraction.

なお、上述の各実施の形態で説明した機能は、ハードウエアを用いて構成するに留まらず、ソフトウエアを用いて各機能を記載したプログラムをコンピュータに読み込ませて実現することもできる。また、各機能は、適宜ソフトウエア、ハードウエアのいずれかを選択して構成するものであっても良い。   It should be noted that the functions described in the above embodiments are not limited to being configured using hardware, but can be realized by causing a computer to read a program describing each function using software. Each function may be configured by appropriately selecting either software or hardware.

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Further, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.

1…紙葉類、100…紙葉類処理装置、200…供給部、210…分離ローラ、220…搬送路、300…区分処理部、400…画像読取部、500…主制御部、600…単語認識部、601…画像受取部、602…単語抽出部、603…文字候補抽出部、604…文字認識部、605…特徴抽出部、610…解析的マッチング部、611…文字確率計算部、612…第1の演算部、613…第2の演算部、620…全体的マッチング部、630…特徴確率計算部、640…VCS、641…第1の単語画像蓄積部、642…モデル学習部、643…モデル格納部、644…単語モデル生成部、645…単語辞書、651…事前確率計算部、652…事前確率格納部、653…事前確率入力部、660…認識部、661…第1の補正評価値算出部、662…第1の補正パラメータ記憶部、663…第2の補正評価値算出部、664…第2の補正パラメータ記憶部、665…統合評価値算出部、680…学習部、681…第1の評価値格納部、682…第2の評価値格納部、683…オンライン認識結果格納部683、684…VCD結果格納部、685…シミュレーション部、686…パラメータ選択部、700…操作部、800…表示部、900…入出力部。   DESCRIPTION OF SYMBOLS 1 ... Paper sheets, 100 ... Paper sheet processing apparatus, 200 ... Supply part, 210 ... Separation roller, 220 ... Conveyance path, 300 ... Sorting processing part, 400 ... Image reading part, 500 ... Main control part, 600 ... Word Recognizing unit, 601 ... Image receiving unit, 602 ... Word extracting unit, 603 ... Character candidate extracting unit, 604 ... Character recognizing unit, 605 ... Feature extracting unit, 610 ... Analytical matching unit, 611 ... Character probability calculating unit, 612 ... First calculation unit, 613 ... second calculation unit, 620 ... global matching unit, 630 ... feature probability calculation unit, 640 ... VCS, 641 ... first word image storage unit, 642 ... model learning unit, 643 ... Model storage unit, 644 ... Word model generation unit, 645 ... Word dictionary, 651 ... Prior probability calculation unit, 652 ... Prior probability storage unit, 653 ... Prior probability input unit, 660 ... Recognition unit, 661 ... First correction evaluation value Calculation Unit, 662... First correction parameter storage unit, 663... Second correction evaluation value calculation unit, 664... Second correction parameter storage unit, 665... Integrated evaluation value calculation unit, 680. Evaluation value storage unit, 682 ... second evaluation value storage unit, 683 ... online recognition result storage unit 683, 684 ... VCD result storage unit, 685 ... simulation unit, 686 ... parameter selection unit, 700 ... operation unit, 800 ... Display unit, 900... Input / output unit.

Claims (10)

複数の単語を格納する単語辞書と、
単語を含む画像を受け取る画像受取手段と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、
特徴が出現する特徴確率を計算し、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルと前記特徴確率とに基づいて第2の評価値を計算する全体的マッチング手段と、
予め設定された第1の補正パラメータにより前記第1の評価値を補正し、予め設定された第2の補正パラメータにより前記第2の評価値を補正する補正手段と、
補正された前記第1の評価値と補正された前記第2の評価値とを統合して第3の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第3の評価値を出力する出力手段と、
を具備する単語認識装置。
A word dictionary for storing multiple words,
An image receiving means for receiving an image including a word;
Word image extraction means for extracting a word image for each word from the image;
Character candidate extraction means for extracting character candidates from the word image;
An analytical matching means for recognizing the character candidates and calculating a first evaluation value for each word stored in the word dictionary;
An overall matching means for calculating a feature probability that a feature appears, and calculating a second evaluation value based on the word image, a word model for each word stored in the word dictionary, and the feature probability;
Correction means for correcting the first evaluation value with a first correction parameter set in advance, and correcting the second evaluation value with a second correction parameter set in advance;
Integrated evaluation value calculating means for calculating a third evaluation value by integrating the corrected first evaluation value and the corrected second evaluation value;
Output means for outputting the third evaluation value calculated by the integrated evaluation value calculating means;
A word recognition device comprising:
前記補正手段は、前記第1の補正パラメータにより前記第1の評価値をべき乗し、前記第2の補正パラメータにより前記第2の評価値をべき乗する、請求項1に記載の単語認識装置。   The word recognition device according to claim 1, wherein the correction unit raises the first evaluation value to a power by the first correction parameter and raises the second evaluation value to a power by the second correction parameter. 前記補正手段は、対数として前記第1の補正パラメータにより前記第1の評価値を補正し、対数として前記第2の補正パラメータにより前記第2の評価値を補正する、請求項2に記載の単語認識装置。   3. The word according to claim 2, wherein the correction unit corrects the first evaluation value with the first correction parameter as a logarithm and corrects the second evaluation value with the second correction parameter as a logarithm. Recognition device. 前記第3の評価値に基づいて単語を認識する認識手段と、
操作入力に基づいて前記認識手段により単語が特定されなかった単語の正解単語名を生成する教示手段と、
前記単語画像と、前記認識手段による認識結果または前記正解単語名と、を対応付けて記憶する蓄積手段と、
前記第1の補正パラメータと前記第2の補正パラメータとを変動させ、前記単語画像と、変動させた前記第1の補正パラメータ及び前記第2の補正パラメータと、に基づいて単語を認識するシミュレーション手段と、
前記シミュレーション手段による認識結果と、前記認識手段による認識結果または前記正解単語名とを照合し、前記第1の補正パラメータ及び前記第2の補正パラメータを特定する補正パラメータ選択手段と、
を具備する請求項2に記載の単語認識装置。
Recognition means for recognizing a word based on the third evaluation value;
Teaching means for generating a correct word name of a word whose word is not specified by the recognition means based on an operation input;
Storage means for storing the word image and the recognition result or the correct word name by the recognition means in association with each other;
Simulation means for changing the first correction parameter and the second correction parameter and recognizing a word based on the word image and the changed first correction parameter and second correction parameter. When,
A correction parameter selection means for collating the recognition result by the simulation means with the recognition result by the recognition means or the correct word name, and specifying the first correction parameter and the second correction parameter;
The word recognition device according to claim 2, comprising:
前記第3の評価値に基づいて単語を認識する認識手段と、
操作入力に基づいて前記認識手段により単語が特定されなかった単語の正解単語名を生成する教示手段と、
前記第1の評価値と、前記第2の評価値と、前記認識手段による認識結果または前記正解単語名と、を対応付けて記憶する蓄積手段と、
前記第1の補正パラメータと前記第2の補正パラメータとを変動させ、前記第1の評価値及び前記第2の評価値と、変動させた前記第1の補正パラメータ及び前記第2の補正パラメータと、に基づいて単語を認識するシミュレーション手段と、
前記シミュレーション手段による認識結果と、前記認識手段による認識結果または前記正解単語名とを照合し、前記第1の補正パラメータ及び前記第2の補正パラメータを特定するパラメータ選択手段と、
を具備する請求項2に記載の単語認識装置。
Recognition means for recognizing a word based on the third evaluation value;
Teaching means for generating a correct word name of a word whose word is not specified by the recognition means based on an operation input;
Storage means for storing the first evaluation value, the second evaluation value, the recognition result by the recognition means or the correct word name in association with each other;
The first correction parameter and the second correction parameter are changed, and the first evaluation value and the second evaluation value, and the changed first correction parameter and second correction parameter are changed. Simulating means for recognizing words based on
A parameter selection means for collating the recognition result by the simulation means with the recognition result by the recognition means or the correct word name, and specifying the first correction parameter and the second correction parameter;
The word recognition device according to claim 2, comprising:
前記シミュレーション手段は、前記シミュレーション手段による認識結果と、前記認識手段による認識結果または前記正解単語名とを照合し、照合結果を出力し、
前記パラメータ選択手段は、操作入力に基づいて前記第1の補正パラメータと前記第2の補正パラメータとを特定する、
請求項4または5に記載の単語認識装置。
The simulation means collates the recognition result by the simulation means with the recognition result by the recognition means or the correct word name, and outputs a collation result,
The parameter selection means specifies the first correction parameter and the second correction parameter based on an operation input.
The word recognition device according to claim 4 or 5.
前記シミュレーション手段は、前記シミュレーション手段による認識結果と、前記認識手段による認識結果または前記正解単語名とが一致しない場合、前記単語画像を出力し、操作入力に基づいて前記蓄積手段により蓄積されている前記認識手段による認識結果を書き換える、請求項4に記載の単語認識装置。   The simulation means outputs the word image when the recognition result by the simulation means does not match the recognition result by the recognition means or the correct word name, and is stored by the storage means based on an operation input. The word recognition apparatus according to claim 4, wherein the recognition result by the recognition means is rewritten. 前記パラメータ選択手段は、特定した前記第1の補正パラメータ及び前記第2の補正パラメータをネットワーク経由で出力する請求項4または5に記載の単語認識装置。   The word recognition device according to claim 4, wherein the parameter selection unit outputs the specified first correction parameter and the second correction parameter via a network. 複数の単語を格納する単語辞書と、単語を含む画像を受け取る画像受取手段と、を具備する単語認識装置において実行される単語認識プログラムであって、前記単語認識プログラムは、前記単語認識装置を、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、
特徴が出現する特徴確率を計算し、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルと前記特徴確率とに基づいて第2の評価値を計算する全体的マッチング手段と、
予め設定された第1の補正パラメータにより前記第1の評価値を補正し、予め設定された第2の補正パラメータにより前記第2の評価値を補正する補正手段と、
補正された前記第1の評価値と補正された前記第2の評価値とを統合して第3の評価値を算出する統合評価値算出手段と、
前記統合評価値算出手段により算出された前記第3の評価値を出力する出力手段と、
して動作させる。
A word recognition program executed in a word recognition device comprising a word dictionary for storing a plurality of words and an image receiving means for receiving an image containing the word, wherein the word recognition program
Word image extraction means for extracting a word image for each word from the image;
Character candidate extraction means for extracting character candidates from the word image;
An analytical matching means for recognizing the character candidates and calculating a first evaluation value for each word stored in the word dictionary;
An overall matching means for calculating a feature probability that a feature appears, and calculating a second evaluation value based on the word image, a word model for each word stored in the word dictionary, and the feature probability;
Correction means for correcting the first evaluation value with a first correction parameter set in advance, and correcting the second evaluation value with a second correction parameter set in advance;
Integrated evaluation value calculating means for calculating a third evaluation value by integrating the corrected first evaluation value and the corrected second evaluation value;
Output means for outputting the third evaluation value calculated by the integrated evaluation value calculating means;
And make it work.
紙葉類を取り込む取り込み手段と、
前記紙葉類を搬送する搬送手段と、
前記紙葉類上の単語を含む画像を読み取る画像読取手段と、
複数の単語を格納する単語辞書と、
単語を含む画像を受け取る画像受取手段と、
前記画像から単語毎の単語画像を抽出する単語画像抽出手段と、
前記単語画像から文字候補を抽出する文字候補抽出手段と、
前記文字候補に対して認識を行い、前記単語辞書に格納されている単語毎に第1の評価値を計算する解析的マッチング手段と、
特徴が出現する特徴確率を計算し、前記単語画像と前記単語辞書に格納されている単語毎の単語モデルと前記特徴確率とに基づいて第2の評価値を計算する全体的マッチング手段と、
予め設定された第1の補正パラメータにより前記第1の評価値を補正し、予め設定された第2の補正パラメータにより前記第2の評価値を補正する補正手段と、
補正された前記第1の評価値と補正された前記第2の評価値とを統合して第3の評価値を算出する統合評価値算出手段と、
前記第3の評価値に基づいて単語を認識する認識手段と、
前記認識手段により認識された前記単語に基づいて、前記紙葉類を区分する区分処理手段と、
を具備する紙葉類処理装置。
A capturing means for capturing paper sheets;
Conveying means for conveying the paper sheet;
Image reading means for reading an image including a word on the paper sheet;
A word dictionary for storing multiple words,
An image receiving means for receiving an image including a word;
Word image extraction means for extracting a word image for each word from the image;
Character candidate extraction means for extracting character candidates from the word image;
An analytical matching means for recognizing the character candidates and calculating a first evaluation value for each word stored in the word dictionary;
An overall matching means for calculating a feature probability that a feature appears, and calculating a second evaluation value based on the word image, a word model for each word stored in the word dictionary, and the feature probability;
Correction means for correcting the first evaluation value with a first correction parameter set in advance, and correcting the second evaluation value with a second correction parameter set in advance;
Integrated evaluation value calculating means for calculating a third evaluation value by integrating the corrected first evaluation value and the corrected second evaluation value;
Recognition means for recognizing a word based on the third evaluation value;
Sorting processing means for sorting the paper sheets based on the words recognized by the recognition means;
A paper sheet processing apparatus comprising:
JP2011248845A 2011-11-14 2011-11-14 Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device Expired - Fee Related JP5881380B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011248845A JP5881380B2 (en) 2011-11-14 2011-11-14 Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011248845A JP5881380B2 (en) 2011-11-14 2011-11-14 Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device

Publications (2)

Publication Number Publication Date
JP2013105323A JP2013105323A (en) 2013-05-30
JP5881380B2 true JP5881380B2 (en) 2016-03-09

Family

ID=48624813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011248845A Expired - Fee Related JP5881380B2 (en) 2011-11-14 2011-11-14 Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device

Country Status (1)

Country Link
JP (1) JP5881380B2 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4601835B2 (en) * 2000-01-28 2010-12-22 株式会社東芝 Word recognition method, word recognition program, and word recognition device

Also Published As

Publication number Publication date
JP2013105323A (en) 2013-05-30

Similar Documents

Publication Publication Date Title
EP1362322B1 (en) Holistic-analytical recognition of handwritten text
US10963685B2 (en) Generating variations of a known shred
US5933531A (en) Verification and correction method and system for optical character recognition
US10783404B2 (en) Method and device for verifying recognition result in character recognition
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
JP6889279B2 (en) Systems and methods for detecting objects in digital images, as well as systems and methods for rescoring object detection.
US20170076152A1 (en) Determining a text string based on visual features of a shred
US8457413B2 (en) Pattern recognition method, character recognition method, pattern recognition apparatus, and character recognition apparatus
US9286527B2 (en) Segmentation of an input by cut point classification
KR100323351B1 (en) Address recognizing method and mail processing apparatus
CN108363943A (en) Clearance robot based on Weigh sensor technology
CA3149895A1 (en) Machine learning system for summarizing tax documents with non-structured portions
JP2010009410A (en) Video coding system, classifying system, coding method and classifying method
US20160267355A1 (en) Delivery system, method, and computer readable storage medium
TWI615809B (en) System and method for evaluating a classifier implemented within an image signal processor
US8208685B2 (en) Word recognition method and word recognition program
JP2021111279A (en) Label noise detection program, label noise detection method, and label noise detection device
JP5881380B2 (en) Word recognition device, word recognition program, and paper sheet processing device provided with word recognition device
JP5767913B2 (en) Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device
JP5679936B2 (en) Word recognition device, word recognition method, and paper sheet processing device provided with word recognition device
CN114611495A (en) Text comparison method, device, equipment and medium
US11335108B2 (en) System and method to recognise characters from an image
JP2014182618A (en) Sorting device and pattern recognition device
JP2018111082A (en) Division system, recognition support device, recognition support method, and recognition support program
JP2019109729A (en) Classification device and classification system

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131205

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131212

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131219

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20131226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140109

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160202

R151 Written notification of patent or utility model registration

Ref document number: 5881380

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees