JP4631005B2 - 付加情報を用いたパターン認識に係るプログラム、装置および方法 - Google Patents

付加情報を用いたパターン認識に係るプログラム、装置および方法 Download PDF

Info

Publication number
JP4631005B2
JP4631005B2 JP2005207511A JP2005207511A JP4631005B2 JP 4631005 B2 JP4631005 B2 JP 4631005B2 JP 2005207511 A JP2005207511 A JP 2005207511A JP 2005207511 A JP2005207511 A JP 2005207511A JP 4631005 B2 JP4631005 B2 JP 4631005B2
Authority
JP
Japan
Prior art keywords
pattern
category
recognition
code
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005207511A
Other languages
English (en)
Other versions
JP2007026098A (ja
Inventor
雅一 岩村
誠一 内田
真一郎 大町
浩一 黄瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Osaka Prefecture University
Original Assignee
Osaka Prefecture University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Osaka Prefecture University filed Critical Osaka Prefecture University
Priority to JP2005207511A priority Critical patent/JP4631005B2/ja
Publication of JP2007026098A publication Critical patent/JP2007026098A/ja
Application granted granted Critical
Publication of JP4631005B2 publication Critical patent/JP4631005B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Description

この発明は、付加情報を用いたパターン認識に係るプログラム、装置および方法に関する。
一般にパターン認識の識別器は、文字画像等に含まれるパターンから抽出された特徴量を基に、そのパターンが属する可能性が高いカテゴリー(クラス)を出力する(図20(a))。パターン認識では正しい認識結果にのみ価値が認められることが多いため、識別器の評価には認識率を用いるのが一般的である。その意味で認識率100%を実現できる識別器は理想的であるが、その実現は容易でない。
そこで、パターンが属する(正解)クラスの情報(以後、付加情報または符号と呼ぶ。これは後述の記号の集合である。)をパターンとは独立に識別器に与えることで認識性能の改善を図る方式が提案されている。この方式に属する研究として、最近ではアクティブ帳票があり(例えば、非特許文献1参照)、複比を用いた付加情報の埋め込みも検討されている(例えば、非特許文献2、3参照)。
また、Confusion Matrix(混同行列ともいう。以下、CM)を用いて認識誤りに対処する手法が提案されている。例えば、文書画像からOCRを用いてテキスト情報を抽出し、全文データベースを構築する際にCMを用いる方法が提案されている(例えば、非特許文献4参照)。しかし、これは認識後にCMを用いる処理であり、CMの情報を認識に反映するものではない.
島村太郎、朱碧蘭、櫻田武嗣、中川正樹、"アクティブ帳票システムの設計と開発" 信学論(D-II), vol.J87-D-II, no.12, pp.2091-2103, Dec.,2004. 内田誠一、岩村雅一、大町真一郎、黄瀬浩一、"カメラによる文字認識のための付加情報の埋め込みに関する検討、" 画像の認識・理解シンポジウム(MIRU2005)論文集、 OS7A-29, July, 2005. 黄瀬浩一、大町真一郎、内田誠一、岩村雅一、カメラを用いた文字認識・文書画像解析の現状と課題、信学技報 PRMU2004-246, Mar.,2005. 太田学、高須淳宏、安達淳、"認識誤りを含む和文テキストにおける全文検索手法" 情報処理学会論文誌、vol.39, no.3, pp.625-635, Mar.,1998.
前述のように、パターン認識の究極の目標は認識率100%の達成である。しかし、誤認識が全く起こらない識別器の設計は容易ではない。そこで、認識誤りを補うために正解クラスに関する情報(付加情報)をパターンとは別に用意する手法が提案されている。
しかし、与えられた識別器に対してどのような情報を付加すれば認識性能がどの程度向上するのか等、付加情報と認識性能の関係についてはほとんど解明されていない。所定のパターン認識性能を満足するために必要かつ十分な付加情報をパターンと同時に識別器に与えることのできる手法が望まれている。前述の手法が提供できれば、付加情報の情報量によって達成可能な認識率や必要なリジェクト率が決まり、認識率100%かつリジェクト率0%を達成することも可能になるからである。
また、前記付加情報がパターンと共に与えられたときにパターンを認識できるものが望まれている。
ここで、認識率とは、認識したパターンの中で、正しく認識されたパターンの比率である。認識した全てのパターンについて何らかの認識結果を出力する場合、認識率と相補的な関係にあるのが誤読率である。また、認識したパターンに最もよくマッチングするクラスの得点が所定の値に満たない場合、誤読を避けるために認識の放棄(リジェクト)を行う場合がある。リジェクトは、誤読率を低減するための処理といえる。認識したパターンの中でリジェクトしたパターンの比率をリジェクト率という。
前記の課題に対して、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係る付加情報の決定方法であって、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する工程と、目標の認識性能を入力させる工程と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義工程と、符号定義を付加情報として出力する工程とをコンピュータに実行させることを特徴とする付加情報決定方法を提供する。
また、異なる観点から、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係る前記付加情報の決定処理をコンピュータに実行させる付加情報決定プログラムであって、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、目標の認識性能を入力させる目標性能入力部と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義部と、符号定義を付加情報として出力する符号定義出力部としての機能を実行させることを特徴とするプログラムを提供する。
さらに、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係る前記付加情報をパターンに付与する処理をコンピュータに実行させる付加情報付与プログラムであって、パターンの真のカテゴリーを取得する真のカテゴリー取得部と、前述の付加情報決定プログラムを用いて決定された符号定義を格納する符号定義格納部と、パターンの真のカテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部としての機能を実行させることを特徴とするプログラムを提供する。
さらにまた、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係るパターン認識処理をコンピュータに実行させるプログラムであって、パターンのデータを取得するパターンデータ取得部と、取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、予め提供された混同行列を格納する混同行列格納部と、抽出された付加情報から各パターンに対応する符号を取得し、前述の符号定義に基づいて真のカテゴリーのグループを決定する符号解析部と、各パターンのパターン認識結果に対応する混同行列中の各要素中で、取得された符合から決定された真のカテゴリーのグループに属する要素を参照し、最も確率の高いカテゴリーを各パターンの属するカテゴリーとして決定する認識部と、決定された各パターンのカテゴリーを出力する認識結果出力部としての機能を実行させることを特徴とするプログラムを提供する。
また、さらに異なる観点から、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係る前記付加情報を決定する付加情報決定装置であって、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、目標の認識性能を入力させる目標性能入力部と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義部と、符号定義を付加情報として出力する符号定義出力部とを備えることを特徴とする装置を提供する。
また、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係る前記付加情報をパターンに付与する付加情報付与装置であって、パターンの真のカテゴリーを取得する真のカテゴリー取得部と、前述の付加情報決定装置を用いて決定された符号定義を格納する符号定義格納部と、パターンの真のカテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部とを備えることを特徴とする装置を提供する。
さらにまた、この発明は、パターンのパターン認識結果と各パターンに対応付けられた付加情報とに基づいて複数のカテゴリーから各パターンが属するカテゴリーを決定する認識手法に係るパターン認識装置であって、パターンのデータを取得するパターンデータ取得部と、取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、予め提供された混同行列を格納する混同行列格納部と、抽出された付加情報から各パターンに対応する符号を取得し、前述の符号定義に基づいて真のカテゴリーのグループを決定する符号解析部と、各パターンのパターン認識結果に対応する混同行列中の各要素中で、取得された符合から決定された真のカテゴリーのグループに属する要素を参照し、最も確率の高いカテゴリーを各パターンの属するカテゴリーとして決定する認識部と、決定された各パターンのカテゴリーを出力する認識結果出力部とを備えることを特徴とする装置を提供する。
この発明に係るパターン認識は、付加情報をパターンと同時に認識系に入力し、パターンと付加情報から矛盾のない答えを導く手法である。ここで認識系とは、識別器と付加情報の受信機(復号器)の情報を統合し、妥当な認識結果を算出するものである。この方式は従来の一般的なパターン認識(図20(a))と、後述するコードをそのまま伝達する場合(図20(b))との折衷と考えることができる。
要求される認識性能を満足するために付加すべき必要かつ十分な付加情報の特性について、さらに説明する。この発明で扱う付加情報は、クラス数をNとしたとき、K種類の記号(K≦N)を用意し、そのうち一つずつを各クラスに割り当てるものである。このとき、付加情報の情報量はビット換算でlog2Kビットである。もしN種類の記号(ビット換算でlog2Kビットの情報)を用いるならば、これは図20(b)のようにコードを伝達することに等しく、認識系は確実に正解クラスを言い当てることができる。したがって、認識率100%が達成可能である。しかし、認識率100%を達成するためには常にN種類の記号が必要なわけではなく、識別器の性能が良ければ必要な情報量は減少する。このように、認識率100%を達成するために必要な情報量は識別器の性能に依存するものと考えられ、識別器の性能に応じた付加情報を付加することが、要求される認識性能を満足しかつ付加情報の情報量を最小限に留めるために重要である。
なお、付加情報の具体的な態様としては、例えば、公知の二次元バーコードを用いることができるが、これに限定されるものではない。
この明細書で、文書画像とは、文書の画像データである。文書とは、文字で表された情報をいう。文書の一例は、契約書やパンフレットのようなビジネス文書、科学技術論文、新聞、カタログである。また、特に断らずに「認識率」と「リジェクト率」という語を用いる場合、「認識率」は、全クラスの平均認識率を意味し、「リジェクト率」は、全クラスの平均リジェクト率を意味する。
この発明の付加情報の決定方法は、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する工程と、目標の認識性能を入力させる工程と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義工程とをコンピュータが実行するので、目標の認識性能を満足するために必要かつ十分な付加情報をパターンと同時に識別器に与えるように符号定義を決定することができる。
前記目標の認識性能が認識率として入力され、前記符号定義工程が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列に基づく確率が最も高いカテゴリーを除くカテゴリーの合計の確率の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定する工程であってもよい。このようにすれば、目標性能としての認識率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
あるいは、前記目標の認識性能がリジェクト率として入力され、前記符号定義工程が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列の確率の和の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定する工程であってもよい。このようにすれば、目標性能としてリジェクト率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
また、この発明の付加情報決定プログラムは、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、目標の認識性能を入力させる目標性能入力部と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義部としての機能をコンピュータに実行させるので、目標の認識性能を満足するために必要かつ十分な付加情報をパターンと同時に識別器に与えるように符号定義を決定する処理を実行させることができる。
前記目標の認識性能が認識率として入力され、前記符号定義部が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列に基づく確率が最も高いカテゴリーを除くカテゴリーの合計の確率の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定してもよい。このようにすれば、目標性能としての認識率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
あるいは、前記目標の認識性能がリジェクト率として入力され、前記符号定義部が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列の確率の和の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定してもよい。このようにすれば、目標性能としてリジェクト率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
さらに、この発明の付加情報付与プログラムは、パターンの真のカテゴリーを取得する真のカテゴリー取得部と、パターンの真のカテゴリーに対応する符号を符号定義に基づいて決定する符号決定部としての機能をコンピュータに実行させるので、各パターンに対応する符号を決定することができる。
さらにまた、この発明のパターン認識プログラムは、抽出された付加情報から各パターンに対応する符号を取得し、前述の符号定義に基づいて真のカテゴリーのグループを決定する符号解析部と、各パターンのパターン認識結果に対応する混同行列中の各要素中で、取得された符合から決定された真のカテゴリーのグループに属する要素を参照し、最も確率の高いカテゴリーを各パターンの属するカテゴリーとして決定する認識部としての機能をコンピュータに実行させるので、パターン認識と付加情報からパターンの属すべきカテゴリーを決定することができる。
また、この発明の付加情報決定装置は、各パターンがパターン認識されたときに真のカテゴリーを含む各カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、目標の認識性能を入力させる目標性能入力部と、混同行列を参照し、各パターンの真のカテゴリーに対して当該パターンに付加すべき付加情報の符号を対応付けて入力された目標性能を満足するように符号定義を決定する符号定義部とを備えるので、目標の認識性能を満足するために必要かつ十分な付加情報をパターンと同時に識別器に与えるように符号定義を決定する処理を実行させることができる。
前記目標の認識性能が認識率として入力され、前記符号定義部が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列に基づく確率が最も高いカテゴリーを除くカテゴリーの合計の確率の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定してもよい。このようにすれば、このようにすれば、目標性能としての認識率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
あるいは、前記目標の認識性能がリジェクト率として入力され、前記符号定義部が、1以上のカテゴリーをメンバーとするグループであって、各グループのうち各カテゴリーに属すると判定される混同行列の確率の和の全カテゴリーについての和を最小にするようなグループを決定して各グループを識別する符号を付すことにより、目標の認識率を満足しかつ符号の数を最小にするグループ分けと各グループに付された符号とを符号定義として決定してもよい。このようにすれば、目標性能としてリジェクト率が与えられた場合に、目標を満足するために必要かつ十分な付加情報を提供する符号定義を決定することができる。
さらに、この発明の付加情報付与装置は、パターンの真のカテゴリーを取得する真のカテゴリー取得部と、パターンの真のカテゴリーに対応する符号を符号定義に基づいて決定する符号決定部とを備えるので、各パターンに対応する符号を決定することができる。
さらにまた、この発明のパターン認識プログラムは、抽出された付加情報から各パターンに対応する符号を取得し、前述の符号定義に基づいて真のカテゴリーのグループを決定する符号解析部と、各パターンのパターン認識結果に対応する混同行列中の各要素中で、取得された符合から決定された真のカテゴリーのグループに属する要素を参照し、最も確率の高いカテゴリーを各パターンの属するカテゴリーとして決定する認識部とを備えるので、パターン認識と付加情報からパターンの属すべきカテゴリーを決定することができる。
以下、図面を用いてこの発明をさらに詳述する。以下の説明により、この発明をよりよく理解することが可能であろう。なお、以下の説明は、すべての点で例示であって、制限的なものではないと考えられるべきである。
この発明の実施形態の説明に先立ち、まず、CMの詳細について説明する。CMとは、識別器に入力されるパターンが属するクラス(真のクラス)と識別器が出力するクラス(認識結果)の対応を表す行列である。通常、ω12,…,ωNをクラス、N×N行列CをCMとすると、Cの(i,j)要素cijはクラスωiに属するパターンを認識によってクラスωjに属すると判断した回数を表す。
<Confusion Matrixの確率表現>
クラスωiに属するパターンをクラスωjであると認識する確率P(ωj|ωi)を(i,j)要素に持つN×N行列Wを定義する。Wは、Cの各行の要素の和が1になるように正規化して得られる。すなわち、
とおいたとき、Wの(i,j)要素wij
で与えられる。
図4は、混同行列Wの一例を示す説明図である。図4の混同行列Wで、数字の無い要素は、その値が0である。
<Confusion Matrixの作成>
特定の識別器に対応するCMを作成する手順は以下のとおりである。まず、識別器に認識させるパターンを用意する。パターンの種類は、識別させるべきパターンの種類、即ち真のクラスの数だけの種類を含み、各種類に属する十分な数のパターンを用意する。図4を例に説明すると、A、B、C、D、Eの5種類の文字を認識させる場合、5種類の各クラスに属する文字パターン、即ち、A、B、C、D、Eの各文字パターンを準備する。そして、例えばAの文字パターンとして、例えば、複数の人が書いた筆跡の異なる手書き文字、異なる書体の印刷文字、一部がかすれた文字など種々のパターンを用意する。
本発明で認識性能を十分に発揮するためには、文書画像を作成、配布、撮像して認識されるまでの諸条件が明確であって、付加情報を付加する段階で想定する条件と同一または想定する条件に含まれていることが望ましい。すなわち、用いるCMは、特定のフォントのみを用いて作成されたり、文書画像が特定の劣化を起こしていたり、特定の条件で画像を取り込んだりなどの諸条件がなるべく詳しくわかっている方がよい。特定のフォントとは、日本語の場合は明朝体のみを対象とする場合やゴシック体のみを対象とする場合など、認識対象の文字の字形が大きく異なる場合は、認識誤りが増えたり、認識誤りの傾向が異なったりするために、CMを別に作成したほうが良い場合がある。また、文書画像の劣化とは、認識対象である文字のつぶれやかすれなど、複写やファックスに起因する画像の劣化を始め、紙の汚れ、経年劣化による紙の変色、変形など、認識対象パターン自体の劣化や認識対象パターンを記録する媒体である紙などの劣化のことをいう。
認識対象パターンを記録する媒体は紙だけでなく、例えば、看板やガラス窓、瓶などでもよい。また、画像の取り込み条件とは、特定のメーカーのスキャナを用いた場合や、特定のメーカーのデジタルカメラを用いた場合、特定のメーカーのビデオカメラを用いた場合、特定の照明条件の下で特定のデジタルカメラを用いて画像を取得した場合や、水中など、特定の環境下で文書画像を撮像したりした場合などが考えられる。さらに、認識対象パターンを記録する媒体とカメラなどの撮像する機器との位置関係も重要である。これは撮像する角度が変わると得られる画像が変化するからである。さらに、認識対象パターンを記録する媒体が瓶など、最初から形が平面でない場合は、媒体とカメラの位置関係のみならず、媒体の向きによっても取得できる画像が変化する。このように、一般には撮像した結果、異なる画像が得られる2条件は別の条件であると考えたほうがよい。
前述のように別々の条件で作成した2つ以上のCMは、認識対象のクラスが同じであれば容易に合成することができる。すなわち、ある条件Aで作成したCMと別の条件Bで作成したCMがあるとき、条件Aにおいても条件Bにおいても本発明に有効なCMを作成するためには、2つのCMを認識パターンの頻度に応じて加重平均すればよい。利用条件によっては、単に平均すればよいこともある。
認識対象のクラスが同じでなければ、例えば、CM1にはA、B、Cという3つのクラスがあり、CM2にはA、B、D、Eという4つのクラスがあったならば、CM1のD、Eに対応する行と列に含まれる要素とCM2のCに対応する行と列には、値が0の要素を挿入し、5x5のCMにしてから加重平均すればよい。
このように、CMの合成は非常に容易であるため、実用上は認識対象や、認識条件、撮像条件等の条件を細分化してCMを作成、配布し、CMを使用する段階でCMを合成する方法も考えられる。
準備したパターンを全て符号なしで認識させ、真のクラス、即ち、正解に対する認識結果をマトリックスにする。そして、マトリックスの各行の要素の和が1になるように正規化をする。正規化されたCMの各要素の値は、その行に対応する真のクラスのパターンを識別器に認識させたとき、当該要素の列に対応するクラスが認識結果として出力される割合を示す。
スキャナの機種に応じて、あるいは同一機種において解像度や階調特性などが互いに異なる複数のモードに対応して、前述の認識パターンを認識させる作業を行い、CMを準備する。前述の作業は、手作業により行ってもよいし、少なくとも一部をコンピュータに処理させてもよい。
なお、CMの推定問題は確率分布の推定問題に帰着するため、CMの推定には十分な数のサンプルを用いることを前提とする。
また、前述の説明のように、CMは、ある機種のスキャナや、モードに対して決まるが、作成された複数のCMを合成して複数の機種および/またはモードに対応するCMを得ることも可能である。このように、認識性能および/または読み取り特性の異なる複数の認識器に対応するCMを用いれば、符号が付与されたパターンを認識させるスキャナの選択範囲が広がる。一方、一般的に対応機種を限定するほど、符号の情報量は少なくてよい。そこで、例えば、不特定多数に対して公開する文書データには広範な機種に対応したCMを用いて符号を付与し、特定の相手に送付する文書データには、相手の所有するスキャナに対応するCMを用いた少ない情報量の符号を付与するなど、用途に応じて後述する符号の付与処理に用いるCMを選択するようにしてもよい。
次に、提供されたCMに基づいて、要求された認識性能を満たすために付与すべき符号の特性と、情報量、即ちビット数とを決定する手順について説明する。
(実施の形態1)
この実施の形態では、パターンと符号が与えられる認識系において、認識率100%かつリジェクト率0%を実現するために付加すべき符号を決定する方法について説明する。図5は、この実施の形態に係る認識系の構成を示す説明図である。以降の説明で、認識系は記号とクラスの対応表とCM(行列W)を持っているとする。また、簡単のために各クラスのサンプルは等確率で生成されるとする。すなわち、クラス数をNとしたとき、事前確率はP(ω1)=1/Nである。
1.行列Wの分割
この発明に係る符号付与の方法では、前述の手順で予め識別器に応じて作成されたCMに対して、CMの各行に付加情報となる記号を割り当てる。k番目の記号を割り当てた行の集合を
とおき、WをH1,…,HKに分割する。ここで|HK |はk番目の記号を割り当てられた行数である。例えば、図6は図4のCMに3種類の記号を割り当てた例を示す説明図である。この場合はH1={1,2},H2={3,4},H3={5}となる。ただし、HKの要素は連続している必要はない。
次に、k番目の記号が割り当てられた行の要素のうちj列目の要素を
とおく。例えば、図6の場合、B11={(1,1),(2,1)}である。そして、(1,1)に対応する要素をWの要素として表記すれば、w11=0.6であり、(2,1)に対応する要素は、w21=0である。
2.符号が満たすべき条件
認識率100%かつリジェクト率0%を実現するために付加情報が満たすべき条件を図4を例に説明する。図4によると認識結果がAになるのは真のクラスがA,C,Eのいずれかのときである。これらは当然、識別器では区別できない。もし識別器がそのままAと出力してしまうと、真のクラスがCやEだった場合には誤認識が生じてしまう。そのため、真のクラスがA,C,Eのいずれであったのかを区別する情報が必要となる。そこでA,C,Eにそれぞれ別々の記号を割り当てると、誤認識が生じない代わりに少なくとも3種類の記号が必要となる。
同様に、認識結果がBになるのは真のクラスがB,D,Eのいずれかのときであるので、B,D,Eにも別々の記号を割り当てる。このように考えていくと、図6のように、AとB、CとD,Eに別々の記号を付加することでリジェクトを行うことなく認識率100%が達成できる。また、AとD、BとC、Eという割り当てでも同様である。つまり、認識率100%かつリジェクト率0%を実現するために付加情報が満たすべき条件は、全てのk,jについてBkj内に値が0でない要素が2つ以上存在しないことである。
例えば、図6において、B11={(1,1),(2,1)}={w11,w21}={0.6,0}であるので、B11内に値が0でない要素は、w11だけであり前記の条件を満たす。同様に、B12={(1,2),(2,2)}={0,0.8}、B13={(1,3),(2,3)}={0.4,0}、B14={(1,4),(2,4)}={0,0.1}、B15={(1,5),(2,5)}={0,0.1}であり、いずれも前記条件を満足する。また、B21={(3,1),(4,1)}={0.1,0}、B22={0,0.1}、B23={0.9,0}、B24={0,0.8}、B25={0,0.1}であり、いずれも前記条件を満足する。さらに、B31={0.2}、B32={0.1}、B33={0}、B34={0}、B35={0.7}であり、要素が1つであるから前記条件を満足することは自明である。従って、図6のように符号を付加した場合には、認識率100%かつリジェクト率0%の実現が可能であるとわかる。
3.情報量が最小の符号を決定する方法
参考に、グラフを用いた符合の決定手順を説明する。各クラスに対応するN個のノードからなる集合Vと、Vの要素間を結ぶエッジの集合Eを考え、無向グラフG=(V,E)を定義する。同じ記号を割り当てても誤認識が起こらない2クラスを、ノード間にエッジを張ることで表す。ここでクラスiとクラスjに同じ符号を割り当てても誤認識が起こらないのはwij=wji=0のときである。
該当する全てのエッジを張り、最後にグラフGをできるだけ少ない完全グラフに分割する。例として、図6を表すグラフを図7に示す。このときの完全グラフ、即ち全てのノード間にエッジが張られたグラフの数をNsymminとおく。完全グラフ毎に唯一の記号を割り当てるので、Nsymmin種類の記号があれば認識率100%かつリジェクト率0%を実現できる。このとき必要な情報量はlog2symminである。
symminは最も誤認識され易いクラスの性質によって決まる値である。一般にパターン認識問題には認識が容易なクラスと困難なクラスが存在しているが、同様に誤認識され易いクラスとされ難いクラスも存在する。誤認識され易いクラスとは、CMを列毎に見たとき、0でない要素が多い列に対応するクラスである。図8は、誤認識され易いクラスを含むCMの例を示す説明図である。図8のCMでは、どのクラスのサンプルもクラスCに誤認識され得る。
認識率100%を達成するためには、識別器の認識結果が最も誤認識され易いクラスになったとしても、認識系全体では正しい認識結果を出力できるだけの情報量を与える必要がある。例えば、図4のCMの場合はNsymminなのでlog23≒1.58となり、図8のCMの場合はNsymmin=5なのでlog25≒2.32となる。図4と図8のCMから計算される認識率はそれぞれ76%と92%であるので、単純に認識率が高ければ付加情報が小さくて済むというものではない。このような現象が実際のCMでも起こることは、後述する実験例1にも示されている。
上記の説明は、認識率100%かつリジェクト率0%を達成する符合の割り当て方と必要な符号の数Nsymminを求める手順を説明したが、目標の認識性能をさらに一般化することについて説明する。
(実施の形態2)
実施の形態1では認識率100%かつリジェクト率0%を達成するために付加する符号を決定する方法について説明した。認識率100%かつリジェクト率0%は、理想の認識系であるが、実用的には、そこまでの性能が要求されず、むしろ付加する情報量を減らす方を優先する場合も考えられる。この実施の形態では、リジェクト率が0%のときと誤認識率が0%のときに注目して、付加する情報量と認識性能との関係について説明する。具体的には、
(1)リジェクトを行わないときに付加すべき符号の情報量と認識率の関係、
(2)誤認識率を0%に保つことを条件に付加すべき符号の情報量と必要なリジェクト率との関係、
について説明する。実は付加情報の情報量、達成可能な認識率、必要なリジェクト率は3つのうち2つの値を決めると残りの1つの値が決まる関係にある。
1.Bkj内の0でない要素数
実施の形態1を一般化し、誤認識やリジェクトを損失として扱うために、前述のCMの要素Bkj内の0でない要素数を定義する。
最初に、値が0であれば0、さもなくば1を返す関数
を定める。すると、Bkjに含まれる要素のうち、wlj≠0を満たす要素の数qkjは関数z(x)を用いて次式で与えられる。
即ち、qkjは、Wを行の要素の集合に分割し、そのうちでj列の要素からなる集合Bkjに含まれる要素のうち、0でないものの数を与える。
2.リジェクトを行わないときに付加すべき符号の情報量と認識率の関係
2.1.損失関数
誤認識が起こる確率を損失で表す。実施の形態1の項目2で述べたように、Bkj内に値が0でない要素が1つ以下しか存在しない場合(qkj≦1)は誤認識が生じず、2つ以上の0でない要素が存在した場合(qkj≧2)は誤認識が生じる。このとき、認識結果になり得る真のクラスはqkj通りの可能性があるが、認識結果として出力できるのはそのうち1つのクラスだけである。取り得る損失が最も小さい方法は、事後確率が最大になる要素を出力として採用することである。図9は、付加情報の情報量が図6より小さい場合であって、誤認識を許容して誤認識を避ける場合の符号の例を示す説明図である。図9で、反転表示は、損失になる要素を示す。例えば、図12の場合、記号が2で認識結果がAであれば、Cと出力するよりもEと出力したほうが損失が小さいので、Eと出力すればよい。
以上より、損失関数L1を次式のように定式化し、認識結果になり得る真のクラスが複数存在する場合(qkj≧2)に、それらのクラスから1つのクラスを選択することによって生じる損失を最小にすることを考える。CMの作成の説明で述べたように、正規化されたCMの各要素は、その行のクラスを真のクラスとするパターンを認識したときにその列のクラスを認識結果として出力する確率を示す。たとえば、真のクラスがAであるパターンの認識結果がAの場合、対応する要素は、AがAと正しく認識される確率を示す。一方、真のクラスがAであるパターンに対してCが認識結果として出力される場合、それに対応する要素は、AがCとして誤認識される確率を示す。
ここで、L1を以下のように定義する。L1は真のクラス毎の誤認識率の和であり、言い換えると、全クラスの平均誤認識率にクラス数を乗じたものである。
式(7)の括弧内は第1項がBkj内の要素の和、第2項が損失にならない要素(出力するクラスに対応する要素)を表す。第2項として、確率が最大の要素を選択するので、認識に伴う損失は常に最小になる。
後述するように、要求される認識性能に対応して、損失関数のしきい値Tが決まる。
記号の種類Kに対して、そのときの損失の値を上記式に基づいて与える関数を、損失関数とする。この実施の形態では、図10の欲張り法の処理ルーチンの中で損失関数を用いる。図10は、損失最小を目指す欲張り法の処理ルーチンの実行手順を示す説明図である。図10の処理ルーチンでは、記号の種類KをNから1つずつ減っていき、その都度損失を計算する。K=1は通常のパターン認識と等価である。なお、Nが大きいときに最適な符号の割り当てを現実的な時間で求めるアルゴリズムは知られておらず、図10のアルゴリズムも最適な割り当てを保証するアルゴリズムではない。
図10に示すように、まず、CMの全てのクラスに別々の記号を割り当てる(S1)。即ち、K=Nである。このとき、HKは、それぞれ1つの行の要素からなる集合である。
次に、損失の計算に用いる損失関数を選択する(S2)。後述するように、要求性能として認識率が指定される場合と、リジェクト率が指定される場合とで、損失を計算する式が異なるからである。ここでは、上記L1の計算式が選択されるものとする。
符号の数を1つ減らす処理を行う。即ち、同じ記号を割り当てると仮定した場合の損失関数L1を、全ての組み合わせについて計算する。ただし、損失が0となる組が見つかった場合は、その組合せが最小の損失を実現することが自明であるので、その組合せを採用し残りの組み合わせについての損失計算は行わなくてよい。各組合せに対応するL1の値を比較して、L1を最小にする組合せを採用し符号の数を1減らす(S4)。そのときのL1の最小値がL(K)である。
L(K)がしきい値Tよりも小さいか、等しければ、その段階の組合せを仮の符号とする。そして、さらに符号の数を1減らす処理を繰り返す。L(K)がしきい値Tより大きくなった場合は、要求される認識性能を満足しないので、そのときのKより1大きい符号の数、即ち仮の符号とされている符号を付加すべき符号の定義とする。
以上の処理をコンピュータに実行させることにより、目標とする認識性能を満足するために付与すべき符号を決定することができる。
前述の処理手順を、別の表記方法を用いて説明する。図11は、図10の処理ルーチンを図4に適用した場合の符号と損失L1の推移を示す説明図である。
図11で、「符号の種類」は記号の種類Kであり、損失L1はそのときのKに対する損失を表す。右側のグラフは、損失に対応する符合の割り当て方(符号定義)を表した図である。例えば、図11で記号の種類が3のときはAとBに1、CとDに2、Eに3というような割り当て方をすることによって、損失L1が0になる割り当てが可能である。この割り当ては図6に等しい。
(1,2,3のような具体的な記号の値は何でもよく、例えば4,5,6でもよい。)
図11に示すように、前述の処理手順に従って、最初は5種類の記号をそれぞれ5つのクラスに対応付ける。その後、同一の記号に置き換えたときに損失の増加が最も少ない2種類の記号を選び、同一の記号を割り当てる。例えば、記号の種類を5から4に減らすとき、別々の記号を割り当ててあったAとB、CとD、AとD、BとCに同一の記号を割り当てても損失が増加しない。このような記号の組のうち、ここではAとBに同一の記号を割り当てている。このように、前述の手順を繰り返せば、記号の種類がNのときから始めて1になるまで記号の種類を減らしながら近似的に損失が最も小さくなる記号の割り当て方を求めることができる。これらの処理をコンピュータに実行させるプログラムを作成することは容易である。
次に、認識系が満足すべき認識性能と損失関数との関係について説明する。この関係から、目標の認識性能が決まると、損失関数のしきい値を求めることができる。
2.2.認識率
全クラスの平均認識率を求めるために、まず全クラスの平均誤認識率を求める。損失関数L1は文字毎の誤認識率の和であるので、L1を文字数で割れば平均誤認識率が得られる。1から平均誤認識率を引けば平均認識率であるので、平均認識率はRrecog=1−L1/Nで与えられる。この式は、平均認識率とクラスの数Nから損失関数が達成すべき値、即ちしきい値を与えるものである。クラスの数Nは、与えられたCMの行あるいは列の数であるから、平均認識率が決まれば、損失関数のしきい値が決まる。
3.誤認識率を0%に保つことを条件に付加すべき符号の情報量と必要なリジェクト率の関係
次に、誤認識率を0%に保つことを条件に付加すべき符号の情報量を決定する場合、あるいは符号の情報量が決まった場合のリジェクト率について説明する。
3.1.損失関数
リジェクトする確率を損失で表す。Bkj内に値が0でない要素が1つ以下しか存在しない場合(qkj≦1)は誤認識が生じず、2つ以上の0でない要素が存在する場合(qkj≧2)は誤認識が生じる。このとき、認識結果に成り得る真のクラスはqkj通りの可能性があるが、認識率100%を達成するためには、誤る可能性のある場合は全てリジェクトするしかない。図12は、付加情報の情報量が図6より小さい場合であって、リジェクトなしで誤認識を許容する場合の符号の例を示す説明図である。図12で、反転表示は、損失になる要素を示す。例えば、図12の場合、記号が2で認識結果がAであれば、Cと出力してもEと出力しても誤認識の可能性が残る。そのため、この場合はいずれもリジェクトし、全て損失となる。
以上より、損失関数L2を次式のように定式化し、損失を最小にする問題を考える。ここでL2は真のクラス毎のリジェクト率の和であり、言い換えると、全クラスの平均リジェクト率にクラス数を乗じたものである。
ただし、ここでskj
である。
4.2.1と同様に、図10の処理ルーチンを図4に適用した場合の符号と損失L2の推移を図13に示す。
3.2.リジェクト率
全クラスの平均リジェクト率を求める。損失関数L2は文字毎のリジェクト率の和であるので、L2を文字数で割れば平均リジェクト率が得られる。したがって、平均リジェクト率はRreject=L2/Nで与えられる。この式は、目標性能として平均リジェクト率が与えられた場合の損失関数L2のしきい値を与えるものである。
以上の説明のように、要求される認識性能と認識器の性能を示すCMとが与えられた場合に、認識性能に応じた損失関数が決まり、損失関数のしきい値を求めることができる。そして、決定した損失関数を用いて図10の処理手順を実行し、要求性能を満足するための符号を決定することができる。
符号の決定をコンピュータに実行させる処理はCMを作成する者が行って、CMと共に符号を提供してもよい。前述のように、付与すべき符号は要求される認識性能に依存する。CMと共に符号が提供される場合、認識性能は予め決定されていることが前提となる。例えば、識別器を生産する者が、識別器と共に、CMと符号のデータを提供する形態がこれに相当する。この場合、例えば、認識性能として、認識率100%、リジェクト率0%を実現するための符号が提供される。
あるいは識別器のユーザにCMと、符号を決定する符号決定プログラムが提供されてもよい。ユーザは、使用目的に応じた認識性能を指定して提供されたCMに対して符号決定プログラムを実行することにより、要求性能を満足する符号を決定することができる。このようにすれば、使用目的あるいは使用環境に応じた符号を付加することができる。
図1は、この発明に係る符号をCMに基づいて決定する処理をコンピュータに実行させる符合決定プログラム、あるいは符号決定処理装置の機能的な構成例を示すブロック図である。図1に示すように、符号決定プログラムあるいは符号決定装置は、混同行列取得部に相当し、CMのデータを入力させて取得するCMデータ入力処理部57、目標性能入力部に相当し、目標の認識性能、即ち平均認識率あるいは平均リジェクト率を入力させる目標性能設定処理部51、提供されたCMに基づき、図10の処理ルーチンに従って認識性能を満足するように文字をグループ分けし、各グループに割り当てる記号を定義する符号定義部53、符号定義の処理において損失関数の値を計算する損失関数計算部59、決定した符号定義を出力する符号定義出力部55から構成される。
図17は、コンピュータが実行する符号決定プログラムの処理手順を示すフローチャートである。図17に示すように、符号決定プログラムを実行するコンピュータは、まず、CMデータ入力処理部57として機能し、CMのデータを取得する処理を実行する(ステップS101)。CMデータは、識別器の生産者から提供されるものであってもよいし、前記生産者とは異なる第三者が提供するものであってもよい。CMデータの物理的な取得手段としては、例えば、符号決定プログラムを実行するコンピュータが、通信を介して外部からデータを取得してもよいし、DVDやCDなどのデータ記録メディアに記録されたデータを読み取ってもよい。
次に、コンピュータは、目標性能設定処理部51として機能し、ユーザに目標の認識性能を入力させる処理を実行する(ステップS103)。具体的には、前記コンピュータの画面に認識性能を設定するメニュー画面を表示し、ユーザが要求する認識性能の種類や値を入力させる。例えば、認識性能の種類が平均認識率であり、その値が100%である。
ユーザが必要な項目を入力し終えるのを待って(ステップS105)、前記コンピュータは、符号定義処理部53として、符号の決定処理を行う。まず、指定された認識性能に対応する損失関数を選択するために、リジェクト率が認識性能として入力されたかどうかを判断する(ステップS107)。リジェクト率が入力された場合、損失関数として前記L2を使用することを決定し、入力されたリジェクト率に対応するしきい値T2を計算する(ステップS113)。そして、前述した図10の処理手順を事項して、しきい値T2を上回らないが記号の種類Kが最も少ない符号を決定する(ステップS115)。符号決定処理に際しての損失関数の計算は、図1の機能ブロックのうち損失関数計算部59に対応する。そして、前記コンピュータは、符号定義出力部55として機能し、決定した符号定義を結果として出力する。符号定義は、具体的には、各文字コードに対して符号としての記号が定義されたデータテーブルとして与えられ、データファイルとして出力される。
符号決定プログラムを実行するハードウェアとしては、汎用のコンピュータ、例えばパーソナルコンピュータを用いることができる。ただし、ハードウェアは、パーソナルコンピュータに限定されるものではなく、例えば、大型コンピュータや携帯情報端末であってもよく、あるいは、デジタル複合機など、印字データを受けて画像を出力する画像形成装置であってもよい。
次に、符号定義が決定された後、認識パターンと認識パターンに対する真のクラスの情報が与えられた場合に、各認識パターンに符号を付与する符号付与処理の手順について説明する。
符号付与処理は、符号付与プログラムをコンピュータが実行することによって実現される。図2は、この発明に係る符号を認識パターンに付与する処理をコンピュータに実行させる符号付与プログラムあるいは符号付与装置の機能的な構成例を示すブロック図である。図2に示すように、符号付与プログラムあるいは符号付与装置は、真のカテゴリー取得部に相当し、認識パターンとなる文字の文字コードを取得する文字コード取得部71、予め前記符号決定処理により決定された符号定義を格納する符号定義格納部79、符号定義を参照して取得した文字に対して付与すべき符号を決定する符号決定部73、各文字に対応して決定した符号を文書のページあるいは領域の単位で結合した符号(結合付加情報)を生成して出力する付加情報出力部77から構成される。
一例として、いわゆるワープロと呼ばれる文書処理ソフトウェアで作成した文書に、文字認識用の符号を印字出力に付与する場合を説明する。パーソナルコンピュータのアプリケーションの一つとして文書処理ソフトがあり、この文書処理ソフトから文書の印字要求がなされる。この文書処理ソフトは、この発明に係る結合付加情報としての二次元バーコードを各ページの印字出力に付加する機能を有する。印字出力時にユーザが設定するメニューには、符号を書くページに付与するか否かの選択肢があり、ユーザは符号を付与することを選択したとする。文書処理ソフトからの印字要求は、OSを介して、指定されたプリンタドライバに伝えられる。また、付加情報を付与する設定がされているので、符号付与プログラムが起動される。符号付与プログラムは、文書処理ソフトと共に提供され、プリンタドライバと共同して働く独立したプログラムであってもよい。あるいはまた、印字データを生成するプリンタドライバの一部として組み込まれていてもよい。
図18は、符号付与プログラムの処理手順を示すフローチャートである。図18に示すように、符号付与プログラムを実行するコンピュータは、まず、文字コード取得部71として文書処理ソフトから出力される文書に含まれる各文字の文字情報を取得する(ステップS201)。前記文字情報の一形態は、JISで規定された文字コードである。文字情報は、各文字が属する真のクラスの情報に対応する。
前記コンピュータは、各文字の文字コード、が入力されると、符号決定部73として機能し、符号定義格納部79の符号定義を参照して文字コードに対応付けられた符号を取得する(ステップS203)。取得する符号は、前述の符号決定プログラムにより決定されたものであり、コンピュータは、符号定義格納部に格納された符号定義のテーブルを参照して、それぞれの文字に対して付加すべき符号を決定する。そして、決定した符合を一時的な記憶領域に格納する(ステップS205)。
そして、コンピュータは、文書のページに含まれる全ての文字についての符号を取得したかどうかを次に判定する(ステップS207)。残りの文字がある場合、ルーチンはS201へ進み、次の文字コードいついて処理を繰り返し、対応する符号を決定する。一方、ページ内の全ての文字の処理が終了したら、前記コンピュータは結合付加情報出力部77として、取得した一連の符号に基づいて文書画像に対応する結合付加情報を生成する(ステップS209)。結合付加情報の一態様は、二次元バーコードの一種であるQRコードであるが、これに限定されず、複数の符号の並びを表現でき、画像として出力できるものであればよい。
符号付与プログラムは、出力したQRコードを、文書画像内の各パターンとは別に、好ましくはページの隅に印字されるような処理をコンピュータに実行させる(ステップS211)。あるいは、結合付加情報は、各パターンに対応する位置に分散して配置されるパターンであってもよい。一般に文書画像の印字データは、ページ単位で生成される。この場合、符号付与プログラムは、各ページに含まれる全ての文字対応する符号をまとめて結合付加情報として出力することが好ましい。そして、文書の最終ページまで処理を繰り返す(ステップS213)。
符号付与プログラムが、プリンタドライバと独立したプログラムの場合、符号付与プログラムは、その出力である結合付加情報をプリンタドライバに渡す処理をコンピュータに実行させる。プリンタドライバは、結合付加情報を文書画像に重畳して印字データを生成する。
符号付与処理を実行するハードウェアとしては、汎用のコンピュータ、例えばパーソナルコンピュータを用いることができる。前記パーソナルコンピュータに符号付与プログラムをインストールすることによって認識パターンに符号を付与する処理が実行される。ただし、ハートウェアは、パーソナルコンピュータに限定されるものではなく、例えば、大型コンピュータや携帯情報端末であってもよく、あるいは、デジタル複合機など、印字データを受けて画像を出力する画像形成装置であってもよい。また、情報付与プログラムは、符号決定プログラムと同じハードウェア上で実行されてもよいが、別のハードウェア上で処理されてもよい。
符号付与処理を実行するハードウェアとしては、汎用のコンピュータ、例えばパーソナルコンピュータを用いることができる。前記パーソナルコンピュータに符号付与プログラムをインストールすることによって認識パターンに符号を付与する処理が実行される。ただし、ハートウェアは、パーソナルコンピュータに限定されるものではなく、例えば、大型コンピュータや携帯情報端末であってもよく、あるいは、デジタル複合機など、印字データを受けて画像を出力する画像形成装置であってもよい。また、情報付与プログラムは、符号決定プログラムと同じハードウェア上で実行されてもよいが、別のハードウェア上で処理されてもよい。
次に、この発明に係る認識方法で、付加情報が付与された文書画像を認識するパターン認識処理について説明する。
この発明に係るパターン認識処理は、付加情報が付与された文書画像をスキャナなどで読み取り、読み取った画像データを認識対象として、コンピュータがパターン認識プログラムを実行することによって実現される。
図3は、パターン認識処理を行う符号付与プログラムあるいはパターン認識装置の機能的な構成例を示すブロック図である。図3に示すように、パターン認識プログラムあるいはパターン認識装置は、パターンデータ取得部に相当し、スキャナなどで読み取った文書画像データを取得する文書画像読取部91と、文書画像データから認識すべき各文字の領域と例えばQRコードなどの結合付加情報の領域とを抽出するパターン抽出部93と、抽出された結合付加情報のパターンから各認識パターンに対応する符号を復元して取得する符号解析部99と、混同行列格納部に相当し、CMを予め格納するCM格納部95と、認識部に相当し、各文字パターンをパターン認識し、パターン認識の結果と復元された符号に基づき、CMを参照して認識パターンが属するクラス、即ち、文字パターンに対応する文字コードを判定する文字認識部97と、文字認識部97が判定した文字コードを認識結果として出力する認識結果出力部96とから構成される。
図19は、パターン認識プログラムの処理手順を示すフローチャートである。図19に示すように、パターン認識プログラムを実行するコンピュータは、まず文書画像読取部91として機能し、スキャナなどの文書画像読取部で読み取った文書画像データを取得する(ステップS301)。次に、パターン抽出部93として、取得した画像データを領域分離処理し、認識すべき各文字と各ページに付与されたQRコード、その他の領域、例えばグラフや写真画像の領域に分離する(ステップS303)。文字は、1文字あるいは1単語の、認識処理の単位領域に分離する。そして、符号解析部99として、QRコードから、そのページの各文字に対応する符号を復元する(ステップS305)。
次に、前記コンピュータは、文字認識部97として機能し、先頭の符号に対応する文字を取得する(ステップS307)。そして、符号に対応する文字のパターンを認識する。ここで、認識は、例えば、実験例で用いたSQDF(Simplified Quadratic Discriminant Function、あるいは簡素化2次識別関数)(参考文献3参照)やユークリッド距離など識別器の認識手法として知られた手法と符号からの情報とを組み合わせて行うが、認識の結果として出力される文字コードを最終的な認識結果とせず、中間段階の候補とする(ステップS309)。
なお、ここで、SQDFとユークリッド距離とは、パターン認識の技術分野で認識したパターンをクラスに分類する方法を表す周知の用語である。
まず、ユークリッド距離について説明すると、認識パターンからそのパターンをよく表すような特徴を抽出して数値に変換することができるとする。この数値を特徴量と呼ぶ。このような特徴量がn個あった場合、このパターンはn個の特徴量によって定められるn次元空間の1点とみなすことができる。あらかじめ、各クラスを代表するn次元空間の1点をクラス毎に計算しておく。このとき、認識パターンを表す点と各クラスを代表する点の距離をn次元のユークリッド空間内の距離(ユークリッド距離)として計算し、最も距離が小さくなるクラスに認識パターンを分類する方法をパターン認識では一般に「ユークリッド距離」と呼ぶ。
一方、SQDFについては、まず、SQDFの基になる2次識別関数について説明しなければならない。2次識別関数の場合、認識パターンがn次元空間の1点で表される点では前述のユークリッド距離と同様であるが、各クラスは点ではなく、正規分布で表される。そして、パターンの識別においては認識パターンを表す点が各クラスの正規分布から生成された確率を計算し、その確率が最も高いクラスに分類する。二次識別関数は、各クラスの正規分布を推定するために用いるサンプル数が十分多ければ、ユークリッド距離やマハラノビス距離と呼ばれる識別器に比べて高性能であるが、サンプル数が不足した場合は性能が劣る。そこで、このような二次識別関数の欠点を補い、計算量と識別精度を改善した方法がSQDF(簡素化2次識別関数)である。以上が、SQDFとユークリッド距離の説明である。
図19の説明に戻ると、前記コンピュータは、予めCM格納部95に格納されたCMを参照し、候補とした文字コードの列のCMの要素のうち、符号に該当する要素を調べ、リジェクトを行わない場合には最も値の大きい要素の行が属する真のクラスを認識結果の文字コードとする(ステップS311)。そして、決定した文字コードを認識結果として格納する(ステップS313)。リジェクトを行う場合には、ここでリジェクトを行う。
次に、前記コンピュータは、符号がそのページの最後の文字に対応するものか否かをしらべ(ステップS315)、残りの文字があれば、次の文字を取得した後(ステップS319)ルーチンはステップS309からの処理を繰り返す。一方、そのページの最終文字であれば、認識結果出力部96として、そのページの文字についての認識結果を出力する(ステップS317)。
なお、このフローチャートでは、認識結果をページ毎にまとめて出力するようにしているが、1文字ごとに出力してもよい。また、1ページについての認識手順を示しているが、複数ページを認識する場合は、全てのページについて前述の処理を繰り返せばよい。
(実験例)
実験例1.符号の情報量と認識率、リジェクト率の関係
実際の文字データを認識して得た8種類のCMを用い、認識率と、認識率100%かつリジェクト率0%に必要な情報量を求めた。8種類のCMは2種類の文字データ、2種類の識別器、さらにオープン実験とクローズ実験の組み合わせにより作成した。ここで、オープン実験とは、CMの作成に用いた文字データ以外の文字データを認識パターンに用いる実験であり、クローズ実験とは、CMの作成に用いた文字データのみを認識パターンに用いる実験である。
認識パターンとして用いる文字データには手書き文字と印刷文字を用いた。手書き文字の場合は推定されたCMには存在しない誤認識が起こる可能性が高く、また、文字パターンと同時に付加情報を与えることが困難なため、この発明に係る認識方式を手書き文字に用いることは主たる用途として想定できないが、参考のために掲載する。
手書き文字はETL9B(3036字種、200セット)を64×64の大きさに非線形正規化(参考文献1参照)した後、196次元の方向線素特徴量(参考文献2参照)を抽出して用いた。印刷文字は25種類のフォントからETL9Bに含まれる3036字種のひらがなと漢字を抜き出し、ETL9Bと同様の処理で特徴量を作成した。
識別器の代表として、ユークリッド距離とSQDFを用いる識別器を実験に用いた。オープン実験はleave-one-out法で行った。印刷文字のオープン実験は、24種類のフォントをCMの作成に用い、CMの作成に用いなかったフォントを認識する実験を行った。これらの実験条件とそのときの認識率を表1に示す。
注 Euclidean:ユークリッド距離
8種類のCMを対象として、パターンとしての各文字に付加する符号の情報量と認識率との関係を図10の処理ルーチンにより求めた。その結果を図14、15に示す。図14は、リジェクトなしの場合の記号の種類と認識率との関係を示すグラフである。図14(a)は手書き文字、図14(b)は印刷文字の結果を示す。また、誤認識率を0%に保つことを条件とした場合に付加すべき符号の情報量と必要なリジェクト率の関係を図10の処理ルーチンにより求めた。図14は、リジェクトなしの場合の記号の種類と認識率との関係を示すグラフである。図14、15は所望の認識率を得るために必要な符号の情報量とリジェクト率を表している。この発明に係る認識方式のようにパターンとは別に付加情報を与える認識系を設計する上で有用である。ただし、図中のグラフは最適解ではないため、達成可能な認識率は図14より上昇する可能性があり、図15より小さいリジェクト率で誤認識率0%が達成できる可能性がある。
また、認識率100%かつリジェクト率0%の達成に必要な情報量と、そのときの記号の種類を表1に示す。なお、3036クラス問題が持つ不確かさはlog23036≒11.57ビットである。欲張り法では近似解しか得られないが、認識率100%かつリジェクト率0%の達成に必要な記号の種類は厳密解と同じであった。
以上のようにして決定した符号を各文字に付加し、印刷文字に対してSQDFを用いた場合、オープン実験では1文字当たり4ビット、クローズ実験では1文字当たり1ビットの情報の付加で認識率100%かつリジェクト率0%が達成できた。後者はクローズ実験であるが、印刷文字はフォントと利用環境を限定すればCMがほぼ正しく求まると考えられるため、実験条件は現実に即したものである。
識別器の認識性能の違いの影響を検討するために、SQDFとユークリッド距離を比較すると、認識率ではSQDFが上回っているが、認識率100%かつリジェクト率0%に必要な情報量では必ずしもSQDFは優位ではなかった。これは、実施の形態1の項目2で述べたような誤認識が生じやすいクラスの影響である.ユークリッド距離の認識率はそれ程高くないが、認識誤りに偏りが小さく、認識結果のクラスが比較的分散していた。一方、SQDFは認識率が高い反面、オープン実験では多くのクラスが特定のクラスに誤認識される傾向が見られた。これが原因で、SQDFは認識率が高いにもかかわらず、認識率を100%にするために必要な情報量は認識率の低いユークリッド距離よりも大きくなるという逆転現象が起こった。このように付加情報を用いるパターン認識では、従来のように最高の認識率を目指すのではなく、最小の付加情報の情報量を目指す必要がある。つまり、多少認識率は低くても誤認識され易いクラスを生み出しにくい識別器の導出が求められる。
また、実用上は、少数のクラスに支配されてしまう認識率100%かつリジェクト率0%に必要な情報量よりも、多少のリジェクトを許容して認識率100%を達成する状況を考えるほうが有益であるとも考えられる。
実験例2.文字コードを伝達する場合との比較
この発明に係る認識方式は前述の通り、通常のパターン認識(図20(a))とコードをそのまま用いる場合(図20(b))の折衷である。このことは、パターン認識は利用できるが、認識結果が誤りを含む場合に意味を持つ。例えば、文書に書かれたテキスト情報をコンピュータに誤りなく読み込む状況等が該当する。この場合、文字コードをそのまま伝達できる媒体、例えばQRコードに埋め込む事で誤りのない情報の読み込みが可能である。しかし、情報量が大きいために、後述するように紙面に対して巨大なQRコードが必要となる。一方、提案方式を用いて認識率100%に必要な情報のみを埋め込めば、QRコードの大きさは随分小さくすることができる。このことを実際にQRコードを作成して比較、検証する。ここでは1ページ当たり、日本語のひらがなと漢字が1000文字含まれるとする。
QRコードは埋め込むことができるデータ量によって1型から40型に分かれており、それぞれ大きさが異なる。文字コードをそのまま埋め込む場合、前節の実験で対象とした3036字種を表すためには12ビット必要なので、必要な情報量は、
である。一方、文字認識を行う場合には、前節の実験結果から印刷文字のクローズ実験の場合には1文字当たり1ビットの付加情報で済むので、必要な情報量は、
である。
QRコードの基本仕様(JIS X0510)によると、レベルMの誤り訂正能力を持つQRコードの「8ビットバイトモード」を使用した場合、125バイトのデータを埋め込むことができる最小の型は8型であり、1500バイトのデータを埋め込むことができる最小の型は32型である。そこで、8型と32型のQRコードをWeb上のQRコード作成サイトで作成し、図16に示す。図16(a)は、32型であり、文字コードに相当する。図16(b)は、8型であり、認識率100%に必要な付加情報に相当する。
両者を比較すると、8型は縦、横の大きさが32型の約1/3、面積が約1/9である。
このように、認識情報が利用できる状況では、この発明に係る認識方式を用いることで、誤りのない情報伝達が比較的小さい情報量の付加で実現可能である。
最後に、前述した実施の形態の他にも、この発明について種々の変形例があり得ることは明らかである。そのような変形例は、この発明の特徴及び範囲に属さないと解釈されるべきものではない。本発明の範囲には、特許請求の範囲と均等の意味および範囲内でのすべての変更とが含まれることが意図される。
参考文献1
山田博三、斉藤泰一、山本和彦、"線密度イコライゼーション−−−相関法のための非線形正規化法" 信学論(D)、 vol.J67-D, no.11, pp.1379-1383, Nov.,1984.
参考文献2
孫寧、田原透、阿曽弘具、木村正行、"方向線素特徴量を用いた高精度文字認識、" 信学論(D-II)、 vol.J74-D-II, no.3, pp.330-339, Mar.,1991.
参考文献3
S.Omachi, F.Sun and H.Aso, "A new approximation method of the quadratic discriminant function, "Lecture Notes in Computer Science, vol.1876, pp.601-610, Sept.,2000.
この発明に係る符号をCMに基づいて決定する処理をコンピュータに実行させる符合決定プログラム、あるいは符号決定処理装置の機能的な構成例を示すブロック図である。 この発明に係る符合を認識パターンに付与する処理をコンピュータに実行させる符号付与プログラムあるいは符号付与装置の機能的な構成例を示すブロック図である。 この発明に係る認識手法において、パターン認識処理を行う符号付与プログラムあるいはパターン認識装置の機能的な構成例を示すブロック図である。 この発明に係る混同行列の一例を示す説明図である。 この発明に係る認識系の構成を示す説明図である。 認識率100%かつリジェクト率0%を実現する符号として、図4の混同行列に3種類の符号を割り当てた例を示す説明図である。 図6の符号の割り当てに対応するグラフを示す説明図である。 この発明に係る混同行列の異なる例として、誤認識され易いクラスを含む混同行列の例を示す説明図である。 この発明に係る認識手法において、付加情報の情報量が図6より小さい場合であって、リジェクトなしで誤認識を許容する場合の符号の例を示す説明図である。 この発明に係る認識手法において、損失最小を目指す欲張り法の処理ルーチンの実行手順を示す説明図である。 図10の処理ルーチンを図4に適用し、リジェクトなしで誤認識を許容する場合の符号を求めたときの符号と損失L1の推移を示す説明図である。 この発明に係る認識手法において、付加情報の情報量が図6より小さい場合であって、リジェクトを許容して誤認識を避ける場合の符号の例を示す説明図である。 図10の処理ルーチンを図4に適用し、リジェクトを許容して誤認識を避ける場合の符号を求めたときの符号と損失L2の推移を示す説明図である。 この発明に係る認識手法において、リジェクトなしの場合の記号の種類と認識率との関係を示すグラフである。 この発明に係る認識手法において、誤認識率0%の場合の記号の種類と認識率との関係を示すグラフである。 この発明に係る認識手法において、1ページ(1000文字)の日本語の文章を表すために必要なQRコードの例を示す説明図である。 この発明の認識手法において、コンピュータが実行する符号決定プログラムの処理手順を示すフローチャートである。 この発明の認識手法において、コンピュータが実行する符号付与プログラムの処理手順を示すフローチャートである。 この発明の認識手法において、コンピュータが実行するパターン認識プログラムの処理手順を示すフローチャートである。 従来の認識と情報伝達のモデルを示す説明図である。
符号の説明
51 目標性能設定処理部
53 符号定義処理部
55 符号定義出力部
57 CMデータ入力処理部

Claims (13)

  1. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の決定方法であって、
    それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする混同行列を取得する工程と、
    前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける工程と、
    前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義工程と、
    決定された付加情報出力する工程とを備え、
    各工程をコンピュータ実行し、
    前記符号定義工程は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせて複数の区分にまとめ、各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とする方法
  2. 前記認識性能として認識率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義工程は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和最小になる組み合わせに各カテゴリーをまとめる請求項1記載の方法
  3. 前記認識性能としてリジェクト率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義工程は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての最小になる組み合わせに各カテゴリーをまとめる請求項1記載の方法
  4. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報の決定処理をコンピュータに実行させるためのプログラムであって、
    それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする混同行列を取得する混同行列取得部と、
    前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける目標性能入力部と、
    前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義部と、
    決定された付加情報出力する符号定義出力部としての機能をコンピュータに実行させ
    前記符号定義部は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせて複数の区分にまとめ、各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とするプログラム。
  5. 前記認識性能として認識率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和最小になる組み合わせに各カテゴリーをまとめる請求項4記載のプログラム。
  6. 前記認識性能としてリジェクト率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての最小になる組み合わせに各カテゴリーをまとめる請求項4記載のプログラム。
  7. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報付与プログラムであって、
    パターンが属すべき正解カテゴリーを取得する正解カテゴリー取得部と、
    請求項4記載の付加情報決定処理用プログラムを用いて決定された符号定義を格納する符号定義格納部と、
    パターンの正解カテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部としての機能をコンピュータに実行させることを特徴とするプログラム。
  8. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて複数のカテゴリーから各パターンが属する正解カテゴリーを決定する認識手法に係るパターン認識処理をコンピュータに実行させるパターン認識プログラムであって、
    請求項4記載のプログラムにより決定された区分の識別子が付加情報として予め付されたパターンのデータを取得するパターンデータ取得部と、
    取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、
    それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする行列であって、予め提供された混同行列を格納する混同行列格納部と、
    識別器を用いて前記パターンを認識して少なくとも一つの正解候補を得る認識部と、
    前記正解候補に付された識別子に基づいて正解カテゴリーが含まれる区分を決定し、その区分に属する混同行列中の要素のうち最大の要素が含まれるカテゴリーを正解カテゴリーとして決定する符号解析部と、
    決定された正解カテゴリーを出力する認識結果出力部としての機能を実行させることを特徴とするプログラム。
  9. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報を決定する装置であって、
    それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定されるそれぞれの確率を要素とする混同行列を取得する混同行列取得部と、
    前記識別器の認識誤りを付加情報で補うことにより実現すべき認識性能として認識率またはリジェクト率の指定を受付ける目標性能入力部と、
    前記認識性能に応じて各パターンに付加すべき付加情報を決定する符号定義部と、
    決定された付加情報出力する符号定義出力部とを備え
    前記符号定義部は、前記混同行列を参照し、異なるカテゴリーに同じ符号を割り当てても前記認識性能を満足する限りにおいて各カテゴリーを組み合わせてなる複数の区分にまとめて各区分に識別子を付与し、各パターンにつき正解カテゴリーを含む区分に付与された識別子をそのパターンの付加情報とすることを特徴とする装置。
  10. 前記認識性能として認識率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素から最大のものを除いて残る要素の合計をその列に係る前記区分の誤認識率として試算し、試算された誤認識率の列を通しての和最小になる組み合わせに各カテゴリーをまとめる請求項9記載の装置
  11. 前記認識性能としてリジェクト率が指定され、
    前記混同行列は、縦方向の各行が各パターンの正解カテゴリーに対応し、横方向の各列が前記識別器による各パターンの認識結果として正解カテゴリーおよび各不正解カテゴリーに属すると判定される確率に対応し、
    前記符号定義部は、区分の数を現在より1つ減らすように前記混同行列に係る各カテゴリーを縦方向に組み合わせてみて、ある列において同じ区分に属することになる要素のうちゼロでないものの数が1以下ならゼロ値を、複数なら前記要素の和の値を、その列に係る前記区分の重み値として試算し、試算された重み値の列を通しての最小になる組み合わせに各カテゴリーをまとめる請求項9記載の装置
  12. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて前記パターンが属すべき正解カテゴリーを決定するために十分な情報量を有するパターン認識用付加情報付与装置であって、
    パターンが属すべき正解カテゴリーを取得する正解カテゴリー取得部と、
    請求項9記載の付加情報決定装置を用いて決定された符号定義を格納する符号定義格納部と、
    パターンの正解カテゴリーに対応する符号を符号定義に基づいて決定する符号決定部と、決定された符合を付加情報として出力する付加情報出力部とを備えることを特徴とする装置。
  13. パターンから抽出した特徴に基づいて、複数のカテゴリーのうちそのパターンが属すべき一つのカテゴリーを出力し得る識別器からの出力と、前記識別器の認識誤りを補うために前記パターンに予め付加される付加情報とに基づいて複数のカテゴリーから各パターンが属する正解カテゴリーを決定する認識手法に係るパターン認識装置であって、
    請求項9記載の装置により決定された区分の識別子が付加情報として予め付されたパターンのデータを取得するパターンデータ取得部と、
    取得したデータから、認識すべきパターンと付加情報とを抽出するパターン抽出部と、
    それぞれのカテゴリーに属すべき複数のパターンが前記識別器によりパターン認識されたときにそれらのパターンが正解カテゴリーおよびその他の各不正解カテゴリーに属すると判定される確率を要素とする行列であって、予め提供された混同行列を格納する混同行列格納部と、
    識別器を用いて前記パターンを認識して少なくとも一つの正解候補を得る認識部と
    前記正解候補に付された識別子に基づいて正解カテゴリーが含まれる区分を決定し、その区分に属する混同行列中の要素のうち最大の要素が含まれるカテゴリーを正解カテゴリーとして決定する符号解析部と、
    決定された正解カテゴリーを出力する認識結果出力部としての機能を実行させることを特徴とする装置。
JP2005207511A 2005-07-15 2005-07-15 付加情報を用いたパターン認識に係るプログラム、装置および方法 Expired - Fee Related JP4631005B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005207511A JP4631005B2 (ja) 2005-07-15 2005-07-15 付加情報を用いたパターン認識に係るプログラム、装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005207511A JP4631005B2 (ja) 2005-07-15 2005-07-15 付加情報を用いたパターン認識に係るプログラム、装置および方法

Publications (2)

Publication Number Publication Date
JP2007026098A JP2007026098A (ja) 2007-02-01
JP4631005B2 true JP4631005B2 (ja) 2011-02-16

Family

ID=37786760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005207511A Expired - Fee Related JP4631005B2 (ja) 2005-07-15 2005-07-15 付加情報を用いたパターン認識に係るプログラム、装置および方法

Country Status (1)

Country Link
JP (1) JP4631005B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156609B (zh) * 2010-12-10 2012-12-19 上海合合信息科技发展有限公司 一种重叠书写的手写输入方法
JP5660078B2 (ja) 2012-05-31 2015-01-28 カシオ計算機株式会社 多クラス識別器、方法、およびプログラム
JP6770709B2 (ja) * 2016-09-08 2020-10-21 富士ゼロックス株式会社 機械学習用モデル生成装置及びプログラム。
JP6545740B2 (ja) * 2017-03-08 2019-07-17 株式会社東芝 生成装置、プログラム、認識システムおよび生成方法
CN111401221B (zh) * 2020-03-12 2023-04-25 重庆农村商业银行股份有限公司 一种卡票识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3053607B2 (ja) * 1998-04-08 2000-06-19 三菱電機株式会社 データ照合方法およびその装置

Also Published As

Publication number Publication date
JP2007026098A (ja) 2007-02-01

Similar Documents

Publication Publication Date Title
Hamad et al. A detailed analysis of optical character recognition technology
EP2047409B1 (en) Two tiered text recognition
EP1362322B1 (en) Holistic-analytical recognition of handwritten text
US6151423A (en) Character recognition with document orientation determination
US8744196B2 (en) Automatic recognition of images
US10133965B2 (en) Method for text recognition and computer program product
JP4564277B2 (ja) 適応的手書き文字認識のためのシステムおよび方法
US8755604B1 (en) Using shape similarity methods to improve OCR speed and accuracy
US5862259A (en) Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation
US20170076152A1 (en) Determining a text string based on visual features of a shred
EP3539052A1 (en) System and method of character recognition using fully convolutional neural networks with attention
JP2007042097A (ja) キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
JP4631005B2 (ja) 付加情報を用いたパターン認識に係るプログラム、装置および方法
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN112651392A (zh) 证件信息的获取方法及装置、存储介质、计算机设备
Favata Off-line general handwritten word recognition using an approximate beam matching algorithm
US6560359B2 (en) Data processing method and apparatus
JP2020102207A (ja) 受取人アドレスを認識する装置及び方法
Nagy et al. Adaptive and interactive approaches to document analysis
Slavin et al. Matching Digital Copies of Documents Based on OCR
Amrouch et al. Decision Trees for handwritten Arabic words recognition
Huang et al. Cryptogram decoding for optical character recognition
Blomqvist et al. Joint handwritten text recognition and word classification for tabular information extraction
Butt et al. Attention-Based CNN-RNN Arabic Text Recognition from Natural Scene Images. Forecasting 2021, 3, x
Butt et al. Attention-Based CNN-RNN Arabic Text Recognition from Natural Scene Images. Forecasting 2021, 3, 520–540

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080714

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100727

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101018

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131126

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees