JP4631005B2 - 付加情報を用いたパターン認識に係るプログラム、装置および方法 - Google Patents
付加情報を用いたパターン認識に係るプログラム、装置および方法 Download PDFInfo
- Publication number
- JP4631005B2 JP4631005B2 JP2005207511A JP2005207511A JP4631005B2 JP 4631005 B2 JP4631005 B2 JP 4631005B2 JP 2005207511 A JP2005207511 A JP 2005207511A JP 2005207511 A JP2005207511 A JP 2005207511A JP 4631005 B2 JP4631005 B2 JP 4631005B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- category
- recognition
- code
- additional information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Description
島村太郎、朱碧蘭、櫻田武嗣、中川正樹、"アクティブ帳票システムの設計と開発" 信学論(D-II), vol.J87-D-II, no.12, pp.2091-2103, Dec.,2004. 内田誠一、岩村雅一、大町真一郎、黄瀬浩一、"カメラによる文字認識のための付加情報の埋め込みに関する検討、" 画像の認識・理解シンポジウム(MIRU2005)論文集、 OS7A-29, July, 2005. 黄瀬浩一、大町真一郎、内田誠一、岩村雅一、カメラを用いた文字認識・文書画像解析の現状と課題、信学技報 PRMU2004-246, Mar.,2005. 太田学、高須淳宏、安達淳、"認識誤りを含む和文テキストにおける全文検索手法" 情報処理学会論文誌、vol.39, no.3, pp.625-635, Mar.,1998.
また、前記付加情報がパターンと共に与えられたときにパターンを認識できるものが望まれている。
なお、付加情報の具体的な態様としては、例えば、公知の二次元バーコードを用いることができるが、これに限定されるものではない。
クラスωiに属するパターンをクラスωjであると認識する確率P(ωj|ωi)を(i,j)要素に持つN×N行列Wを定義する。Wは、Cの各行の要素の和が1になるように正規化して得られる。すなわち、
図4は、混同行列Wの一例を示す説明図である。図4の混同行列Wで、数字の無い要素は、その値が0である。
特定の識別器に対応するCMを作成する手順は以下のとおりである。まず、識別器に認識させるパターンを用意する。パターンの種類は、識別させるべきパターンの種類、即ち真のクラスの数だけの種類を含み、各種類に属する十分な数のパターンを用意する。図4を例に説明すると、A、B、C、D、Eの5種類の文字を認識させる場合、5種類の各クラスに属する文字パターン、即ち、A、B、C、D、Eの各文字パターンを準備する。そして、例えばAの文字パターンとして、例えば、複数の人が書いた筆跡の異なる手書き文字、異なる書体の印刷文字、一部がかすれた文字など種々のパターンを用意する。
本発明で認識性能を十分に発揮するためには、文書画像を作成、配布、撮像して認識されるまでの諸条件が明確であって、付加情報を付加する段階で想定する条件と同一または想定する条件に含まれていることが望ましい。すなわち、用いるCMは、特定のフォントのみを用いて作成されたり、文書画像が特定の劣化を起こしていたり、特定の条件で画像を取り込んだりなどの諸条件がなるべく詳しくわかっている方がよい。特定のフォントとは、日本語の場合は明朝体のみを対象とする場合やゴシック体のみを対象とする場合など、認識対象の文字の字形が大きく異なる場合は、認識誤りが増えたり、認識誤りの傾向が異なったりするために、CMを別に作成したほうが良い場合がある。また、文書画像の劣化とは、認識対象である文字のつぶれやかすれなど、複写やファックスに起因する画像の劣化を始め、紙の汚れ、経年劣化による紙の変色、変形など、認識対象パターン自体の劣化や認識対象パターンを記録する媒体である紙などの劣化のことをいう。
認識対象パターンを記録する媒体は紙だけでなく、例えば、看板やガラス窓、瓶などでもよい。また、画像の取り込み条件とは、特定のメーカーのスキャナを用いた場合や、特定のメーカーのデジタルカメラを用いた場合、特定のメーカーのビデオカメラを用いた場合、特定の照明条件の下で特定のデジタルカメラを用いて画像を取得した場合や、水中など、特定の環境下で文書画像を撮像したりした場合などが考えられる。さらに、認識対象パターンを記録する媒体とカメラなどの撮像する機器との位置関係も重要である。これは撮像する角度が変わると得られる画像が変化するからである。さらに、認識対象パターンを記録する媒体が瓶など、最初から形が平面でない場合は、媒体とカメラの位置関係のみならず、媒体の向きによっても取得できる画像が変化する。このように、一般には撮像した結果、異なる画像が得られる2条件は別の条件であると考えたほうがよい。
前述のように別々の条件で作成した2つ以上のCMは、認識対象のクラスが同じであれば容易に合成することができる。すなわち、ある条件Aで作成したCMと別の条件Bで作成したCMがあるとき、条件Aにおいても条件Bにおいても本発明に有効なCMを作成するためには、2つのCMを認識パターンの頻度に応じて加重平均すればよい。利用条件によっては、単に平均すればよいこともある。
認識対象のクラスが同じでなければ、例えば、CM1にはA、B、Cという3つのクラスがあり、CM2にはA、B、D、Eという4つのクラスがあったならば、CM1のD、Eに対応する行と列に含まれる要素とCM2のCに対応する行と列には、値が0の要素を挿入し、5x5のCMにしてから加重平均すればよい。
このように、CMの合成は非常に容易であるため、実用上は認識対象や、認識条件、撮像条件等の条件を細分化してCMを作成、配布し、CMを使用する段階でCMを合成する方法も考えられる。
なお、CMの推定問題は確率分布の推定問題に帰着するため、CMの推定には十分な数のサンプルを用いることを前提とする。
次に、提供されたCMに基づいて、要求された認識性能を満たすために付与すべき符号の特性と、情報量、即ちビット数とを決定する手順について説明する。
この実施の形態では、パターンと符号が与えられる認識系において、認識率100%かつリジェクト率0%を実現するために付加すべき符号を決定する方法について説明する。図5は、この実施の形態に係る認識系の構成を示す説明図である。以降の説明で、認識系は記号とクラスの対応表とCM(行列W)を持っているとする。また、簡単のために各クラスのサンプルは等確率で生成されるとする。すなわち、クラス数をNとしたとき、事前確率はP(ω1)=1/Nである。
この発明に係る符号付与の方法では、前述の手順で予め識別器に応じて作成されたCMに対して、CMの各行に付加情報となる記号を割り当てる。k番目の記号を割り当てた行の集合を
認識率100%かつリジェクト率0%を実現するために付加情報が満たすべき条件を図4を例に説明する。図4によると認識結果がAになるのは真のクラスがA,C,Eのいずれかのときである。これらは当然、識別器では区別できない。もし識別器がそのままAと出力してしまうと、真のクラスがCやEだった場合には誤認識が生じてしまう。そのため、真のクラスがA,C,Eのいずれであったのかを区別する情報が必要となる。そこでA,C,Eにそれぞれ別々の記号を割り当てると、誤認識が生じない代わりに少なくとも3種類の記号が必要となる。
参考に、グラフを用いた符合の決定手順を説明する。各クラスに対応するN個のノードからなる集合Vと、Vの要素間を結ぶエッジの集合Eを考え、無向グラフG=(V,E)を定義する。同じ記号を割り当てても誤認識が起こらない2クラスを、ノード間にエッジを張ることで表す。ここでクラスiとクラスjに同じ符号を割り当てても誤認識が起こらないのはwij=wji=0のときである。
実施の形態1では認識率100%かつリジェクト率0%を達成するために付加する符号を決定する方法について説明した。認識率100%かつリジェクト率0%は、理想の認識系であるが、実用的には、そこまでの性能が要求されず、むしろ付加する情報量を減らす方を優先する場合も考えられる。この実施の形態では、リジェクト率が0%のときと誤認識率が0%のときに注目して、付加する情報量と認識性能との関係について説明する。具体的には、
(1)リジェクトを行わないときに付加すべき符号の情報量と認識率の関係、
(2)誤認識率を0%に保つことを条件に付加すべき符号の情報量と必要なリジェクト率との関係、
について説明する。実は付加情報の情報量、達成可能な認識率、必要なリジェクト率は3つのうち2つの値を決めると残りの1つの値が決まる関係にある。
実施の形態1を一般化し、誤認識やリジェクトを損失として扱うために、前述のCMの要素Bkj内の0でない要素数を定義する。
2.1.損失関数
誤認識が起こる確率を損失で表す。実施の形態1の項目2で述べたように、Bkj内に値が0でない要素が1つ以下しか存在しない場合(qkj≦1)は誤認識が生じず、2つ以上の0でない要素が存在した場合(qkj≧2)は誤認識が生じる。このとき、認識結果になり得る真のクラスはqkj通りの可能性があるが、認識結果として出力できるのはそのうち1つのクラスだけである。取り得る損失が最も小さい方法は、事後確率が最大になる要素を出力として採用することである。図9は、付加情報の情報量が図6より小さい場合であって、誤認識を許容して誤認識を避ける場合の符号の例を示す説明図である。図9で、反転表示は、損失になる要素を示す。例えば、図12の場合、記号が2で認識結果がAであれば、Cと出力するよりもEと出力したほうが損失が小さいので、Eと出力すればよい。
以上より、損失関数L1を次式のように定式化し、認識結果になり得る真のクラスが複数存在する場合(qkj≧2)に、それらのクラスから1つのクラスを選択することによって生じる損失を最小にすることを考える。CMの作成の説明で述べたように、正規化されたCMの各要素は、その行のクラスを真のクラスとするパターンを認識したときにその列のクラスを認識結果として出力する確率を示す。たとえば、真のクラスがAであるパターンの認識結果がAの場合、対応する要素は、AがAと正しく認識される確率を示す。一方、真のクラスがAであるパターンに対してCが認識結果として出力される場合、それに対応する要素は、AがCとして誤認識される確率を示す。
ここで、L1を以下のように定義する。L1は真のクラス毎の誤認識率の和であり、言い換えると、全クラスの平均誤認識率にクラス数を乗じたものである。
記号の種類Kに対して、そのときの損失の値を上記式に基づいて与える関数を、損失関数とする。この実施の形態では、図10の欲張り法の処理ルーチンの中で損失関数を用いる。図10は、損失最小を目指す欲張り法の処理ルーチンの実行手順を示す説明図である。図10の処理ルーチンでは、記号の種類KをNから1つずつ減っていき、その都度損失を計算する。K=1は通常のパターン認識と等価である。なお、Nが大きいときに最適な符号の割り当てを現実的な時間で求めるアルゴリズムは知られておらず、図10のアルゴリズムも最適な割り当てを保証するアルゴリズムではない。
図10に示すように、まず、CMの全てのクラスに別々の記号を割り当てる(S1)。即ち、K=Nである。このとき、HKは、それぞれ1つの行の要素からなる集合である。
(1,2,3のような具体的な記号の値は何でもよく、例えば4,5,6でもよい。)
図11に示すように、前述の処理手順に従って、最初は5種類の記号をそれぞれ5つのクラスに対応付ける。その後、同一の記号に置き換えたときに損失の増加が最も少ない2種類の記号を選び、同一の記号を割り当てる。例えば、記号の種類を5から4に減らすとき、別々の記号を割り当ててあったAとB、CとD、AとD、BとCに同一の記号を割り当てても損失が増加しない。このような記号の組のうち、ここではAとBに同一の記号を割り当てている。このように、前述の手順を繰り返せば、記号の種類がNのときから始めて1になるまで記号の種類を減らしながら近似的に損失が最も小さくなる記号の割り当て方を求めることができる。これらの処理をコンピュータに実行させるプログラムを作成することは容易である。
次に、認識系が満足すべき認識性能と損失関数との関係について説明する。この関係から、目標の認識性能が決まると、損失関数のしきい値を求めることができる。
全クラスの平均認識率を求めるために、まず全クラスの平均誤認識率を求める。損失関数L1は文字毎の誤認識率の和であるので、L1を文字数で割れば平均誤認識率が得られる。1から平均誤認識率を引けば平均認識率であるので、平均認識率はRrecog=1−L1/Nで与えられる。この式は、平均認識率とクラスの数Nから損失関数が達成すべき値、即ちしきい値を与えるものである。クラスの数Nは、与えられたCMの行あるいは列の数であるから、平均認識率が決まれば、損失関数のしきい値が決まる。
次に、誤認識率を0%に保つことを条件に付加すべき符号の情報量を決定する場合、あるいは符号の情報量が決まった場合のリジェクト率について説明する。
リジェクトする確率を損失で表す。Bkj内に値が0でない要素が1つ以下しか存在しない場合(qkj≦1)は誤認識が生じず、2つ以上の0でない要素が存在する場合(qkj≧2)は誤認識が生じる。このとき、認識結果に成り得る真のクラスはqkj通りの可能性があるが、認識率100%を達成するためには、誤る可能性のある場合は全てリジェクトするしかない。図12は、付加情報の情報量が図6より小さい場合であって、リジェクトなしで誤認識を許容する場合の符号の例を示す説明図である。図12で、反転表示は、損失になる要素を示す。例えば、図12の場合、記号が2で認識結果がAであれば、Cと出力してもEと出力しても誤認識の可能性が残る。そのため、この場合はいずれもリジェクトし、全て損失となる。
4.2.1と同様に、図10の処理ルーチンを図4に適用した場合の符号と損失L2の推移を図13に示す。
全クラスの平均リジェクト率を求める。損失関数L2は文字毎のリジェクト率の和であるので、L2を文字数で割れば平均リジェクト率が得られる。したがって、平均リジェクト率はRreject=L2/Nで与えられる。この式は、目標性能として平均リジェクト率が与えられた場合の損失関数L2のしきい値を与えるものである。
次に、符号定義が決定された後、認識パターンと認識パターンに対する真のクラスの情報が与えられた場合に、各認識パターンに符号を付与する符号付与処理の手順について説明する。
この発明に係るパターン認識処理は、付加情報が付与された文書画像をスキャナなどで読み取り、読み取った画像データを認識対象として、コンピュータがパターン認識プログラムを実行することによって実現される。
なお、ここで、SQDFとユークリッド距離とは、パターン認識の技術分野で認識したパターンをクラスに分類する方法を表す周知の用語である。
まず、ユークリッド距離について説明すると、認識パターンからそのパターンをよく表すような特徴を抽出して数値に変換することができるとする。この数値を特徴量と呼ぶ。このような特徴量がn個あった場合、このパターンはn個の特徴量によって定められるn次元空間の1点とみなすことができる。あらかじめ、各クラスを代表するn次元空間の1点をクラス毎に計算しておく。このとき、認識パターンを表す点と各クラスを代表する点の距離をn次元のユークリッド空間内の距離(ユークリッド距離)として計算し、最も距離が小さくなるクラスに認識パターンを分類する方法をパターン認識では一般に「ユークリッド距離」と呼ぶ。
一方、SQDFについては、まず、SQDFの基になる2次識別関数について説明しなければならない。2次識別関数の場合、認識パターンがn次元空間の1点で表される点では前述のユークリッド距離と同様であるが、各クラスは点ではなく、正規分布で表される。そして、パターンの識別においては認識パターンを表す点が各クラスの正規分布から生成された確率を計算し、その確率が最も高いクラスに分類する。二次識別関数は、各クラスの正規分布を推定するために用いるサンプル数が十分多ければ、ユークリッド距離やマハラノビス距離と呼ばれる識別器に比べて高性能であるが、サンプル数が不足した場合は性能が劣る。そこで、このような二次識別関数の欠点を補い、計算量と識別精度を改善した方法がSQDF(簡素化2次識別関数)である。以上が、SQDFとユークリッド距離の説明である。
図19の説明に戻ると、前記コンピュータは、予めCM格納部95に格納されたCMを参照し、候補とした文字コードの列のCMの要素のうち、符号に該当する要素を調べ、リジェクトを行わない場合には最も値の大きい要素の行が属する真のクラスを認識結果の文字コードとする(ステップS311)。そして、決定した文字コードを認識結果として格納する(ステップS313)。リジェクトを行う場合には、ここでリジェクトを行う。
なお、このフローチャートでは、認識結果をページ毎にまとめて出力するようにしているが、1文字ごとに出力してもよい。また、1ページについての認識手順を示しているが、複数ページを認識する場合は、全てのページについて前述の処理を繰り返せばよい。
実験例1.符号の情報量と認識率、リジェクト率の関係
実際の文字データを認識して得た8種類のCMを用い、認識率と、認識率100%かつリジェクト率0%に必要な情報量を求めた。8種類のCMは2種類の文字データ、2種類の識別器、さらにオープン実験とクローズ実験の組み合わせにより作成した。ここで、オープン実験とは、CMの作成に用いた文字データ以外の文字データを認識パターンに用いる実験であり、クローズ実験とは、CMの作成に用いた文字データのみを認識パターンに用いる実験である。
また、実用上は、少数のクラスに支配されてしまう認識率100%かつリジェクト率0%に必要な情報量よりも、多少のリジェクトを許容して認識率100%を達成する状況を考えるほうが有益であるとも考えられる。
この発明に係る認識方式は前述の通り、通常のパターン認識(図20(a))とコードをそのまま用いる場合(図20(b))の折衷である。このことは、パターン認識は利用できるが、認識結果が誤りを含む場合に意味を持つ。例えば、文書に書かれたテキスト情報をコンピュータに誤りなく読み込む状況等が該当する。この場合、文字コードをそのまま伝達できる媒体、例えばQRコードに埋め込む事で誤りのない情報の読み込みが可能である。しかし、情報量が大きいために、後述するように紙面に対して巨大なQRコードが必要となる。一方、提案方式を用いて認識率100%に必要な情報のみを埋め込めば、QRコードの大きさは随分小さくすることができる。このことを実際にQRコードを作成して比較、検証する。ここでは1ページ当たり、日本語のひらがなと漢字が1000文字含まれるとする。
このように、認識情報が利用できる状況では、この発明に係る認識方式を用いることで、誤りのない情報伝達が比較的小さい情報量の付加で実現可能である。
最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。
山田博三、斉藤泰一、山本和彦、"線密度イコライゼーション−−−相関法のための非線形正規化法" 信学論(D)、 vol.J67-D, no.11, pp.1379-1383, Nov.,1984.
参考文献2
孫寧、田原透、阿曽弘具、木村正行、"方向線素特徴量を用いた高精度文字認識、" 信学論(D-II)、 vol.J74-D-II, no.3, pp.330-339, Mar.,1991.
参考文献3
S.Omachi, F.Sun and H.Aso, "A new approximation method of the quadratic discriminant function, "Lecture Notes in Computer Science, vol.1876, pp.601-610, Sept.,2000.
53 符号定義処理部
55 符号定義出力部
57 CMデータ入力処理部
Claims (13)
- パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の決定方法であって、
それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする混同行列を取得する工程と、
前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける工程と、
前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義工程と、
決定された付加情報を出力する工程とを備え、
各工程をコンピュータが実行し、
前記符号定義工程は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせて複数の区分にまとめ、各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とする方法。 - 前記認識性能として認識率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義工程は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項1記載の方法。 - 前記認識性能としてリジェクト率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義工程は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項1記載の方法。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の決定処理をコンピュータに実行させるためのプログラムであって、
それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする混同行列を取得する混同行列取得部と、
前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける目標性能入力部と、
前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義部と、
決定された付加情報を出力する符号定義出力部としての機能をコンピュータに実行させ、
前記符号定義部は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせて複数の区分にまとめ、各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とするプログラム。 - 前記認識性能として認識率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項4記載のプログラム。 - 前記認識性能としてリジェクト率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項4記載のプログラム。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の付与プログラムであって、
パターンが属すべき正解カテゴリーを取得する正解カテゴリー取得部と、
請求項4記載の付加情報の決定処理用プログラムを用いて決定された符号定義を格納する符号定義格納部と、
パターンの正解カテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部としての機能をコンピュータに実行させることを特徴とするプログラム。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて複数のカテゴリーから各パターンが属する正解カテゴリーを決定する認識手法に係るパターン認識処理をコンピュータに実行させるパターン認識用プログラムであって、
請求項4記載のプログラムにより決定された区分の識別子が付加情報として予め付されたパターンのデータを取得するパターンデータ取得部と、
取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、
それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする行列であって、予め提供された混同行列を格納する混同行列格納部と、
識別器を用いて前記パターンを認識して少なくとも一つの正解候補を得る認識部と、
前記正解候補に付された識別子に基づいて正解カテゴリーが含まれる区分を決定し、その区分に属する混同行列中の要素のうち最大の要素が含まれるカテゴリーを正解カテゴリーとして決定する符号解析部と、
決定された正解カテゴリーを出力する認識結果出力部としての機能を実行させることを特徴とするプログラム。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報を決定する装置であって、
それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、
前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける目標性能入力部と、
前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義部と、
決定された付加情報を出力する符号定義出力部とを備え、
前記符号定義部は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせてなる複数の区分にまとめて各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とする装置。 - 前記認識性能として認識率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項9記載の装置。 - 前記認識性能としてリジェクト率が指定され、
前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての和が最小になる組み合わせに各カテゴリーをまとめる請求項9記載の装置。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の付与装置であって、
パターンが属すべき正解カテゴリーを取得する正解カテゴリー取得部と、
請求項9記載の付加情報決定用装置を用いて決定された符号定義を格納する符号定義格納部と、
パターンの正解カテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部とを備えることを特徴とする装置。 - パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて複数のカテゴリーから各パターンが属する正解カテゴリーを決定する認識手法に係るパターン認識用装置であって、
請求項9記載の装置により決定された区分の識別子が付加情報として予め付されたパターンのデータを取得するパターンデータ取得部と、
取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、
それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする行列であって、予め提供された混同行列を格納する混同行列格納部と、
識別器を用いて前記パターンを認識して少なくとも一つの正解候補を得る認識部と、
前記正解候補に付された識別子に基づいて正解カテゴリーが含まれる区分を決定し、その区分に属する混同行列中の要素のうち最大の要素が含まれるカテゴリーを正解カテゴリーとして決定する符号解析部と、
決定された正解カテゴリーを出力する認識結果出力部としての機能を実行させることを特徴とする装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005207511A JP4631005B2 (ja) | 2005-07-15 | 2005-07-15 | 付加情報を用いたパターン認識に係るプログラム、装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005207511A JP4631005B2 (ja) | 2005-07-15 | 2005-07-15 | 付加情報を用いたパターン認識に係るプログラム、装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007026098A JP2007026098A (ja) | 2007-02-01 |
JP4631005B2 true JP4631005B2 (ja) | 2011-02-16 |
Family
ID=37786760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005207511A Expired - Fee Related JP4631005B2 (ja) | 2005-07-15 | 2005-07-15 | 付加情報を用いたパターン認識に係るプログラム、装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4631005B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156609B (zh) * | 2010-12-10 | 2012-12-19 | 上海合合信息科技发展有限公司 | 一种重叠书写的手写输入方法 |
JP5660078B2 (ja) | 2012-05-31 | 2015-01-28 | カシオ計算機株式会社 | 多クラス識別器、方法、およびプログラム |
JP6770709B2 (ja) * | 2016-09-08 | 2020-10-21 | 富士ゼロックス株式会社 | 機械学習用モデル生成装置及びプログラム。 |
JP6545740B2 (ja) * | 2017-03-08 | 2019-07-17 | 株式会社東芝 | 生成装置、プログラム、認識システムおよび生成方法 |
CN111401221B (zh) * | 2020-03-12 | 2023-04-25 | 重庆农村商业银行股份有限公司 | 一种卡票识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3053607B2 (ja) * | 1998-04-08 | 2000-06-19 | 三菱電機株式会社 | データ照合方法およびその装置 |
-
2005
- 2005-07-15 JP JP2005207511A patent/JP4631005B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007026098A (ja) | 2007-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hamad et al. | A detailed analysis of optical character recognition technology | |
EP2047409B1 (en) | Two tiered text recognition | |
EP1362322B1 (en) | Holistic-analytical recognition of handwritten text | |
US6151423A (en) | Character recognition with document orientation determination | |
US8744196B2 (en) | Automatic recognition of images | |
US10133965B2 (en) | Method for text recognition and computer program product | |
JP4564277B2 (ja) | 適応的手書き文字認識のためのシステムおよび方法 | |
US8755604B1 (en) | Using shape similarity methods to improve OCR speed and accuracy | |
US5862259A (en) | Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation | |
US20170076152A1 (en) | Determining a text string based on visual features of a shred | |
EP3539052A1 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
JP2007042097A (ja) | キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法 | |
JP4631005B2 (ja) | 付加情報を用いたパターン認識に係るプログラム、装置および方法 | |
CN111401099A (zh) | 文本识别方法、装置以及存储介质 | |
CN112651392A (zh) | 证件信息的获取方法及装置、存储介质、计算机设备 | |
Favata | Off-line general handwritten word recognition using an approximate beam matching algorithm | |
US6560359B2 (en) | Data processing method and apparatus | |
JP2020102207A (ja) | 受取人アドレスを認識する装置及び方法 | |
Nagy et al. | Adaptive and interactive approaches to document analysis | |
Slavin et al. | Matching Digital Copies of Documents Based on OCR | |
Amrouch et al. | Decision Trees for handwritten Arabic words recognition | |
Huang et al. | Cryptogram decoding for optical character recognition | |
Blomqvist et al. | Joint handwritten text recognition and word classification for tabular information extraction | |
Butt et al. | Attention-Based CNN-RNN Arabic Text Recognition from Natural Scene Images. Forecasting 2021, 3, x | |
Butt et al. | Attention-Based CNN-RNN Arabic Text Recognition from Natural Scene Images. Forecasting 2021, 3, 520–540 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101012 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101018 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |