JP2015069256A - 文字識別システム - Google Patents

文字識別システム Download PDF

Info

Publication number
JP2015069256A
JP2015069256A JP2013200753A JP2013200753A JP2015069256A JP 2015069256 A JP2015069256 A JP 2015069256A JP 2013200753 A JP2013200753 A JP 2013200753A JP 2013200753 A JP2013200753 A JP 2013200753A JP 2015069256 A JP2015069256 A JP 2015069256A
Authority
JP
Japan
Prior art keywords
character
identification
unit
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013200753A
Other languages
English (en)
Inventor
永崎 健
Takeshi Nagasaki
健 永崎
孝志 河合
Takashi Kawai
孝志 河合
平林 元明
Motoaki Hirabayashi
平林  元明
正行 小澤
Masayuki Ozawa
正行 小澤
松田 純一
Junichi Matsuda
純一 松田
昇一 中上
Shoichi Nakagami
昇一 中上
英宣 谷口
Hidenori Taniguchi
英宣 谷口
正和 藤尾
Masakazu Fujio
正和 藤尾
竜治 嶺
Ryuji Mine
竜治 嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2013200753A priority Critical patent/JP2015069256A/ja
Publication of JP2015069256A publication Critical patent/JP2015069256A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】自動認識装置及び自動認識サービスにおいて少数サンプルでの追加学習機能を実現する【解決手段】前述の課題は、例えば、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムによって解決される。【選択図】図2

Description

本発明は、手書きや活字等の文書や、映像や写真などの画像において文字を認識するシステム及び関連サービスに関する。
情報利活用の効率化に対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ(PC)に格納された大量の電子文書中から、有益な情報を高精度に検索して、整理するための情報活用技術が求められている。企業情報システムに格納されるデータは年50%〜60%と年々増加する一方で、データベースに 蓄積される構造化データは20%程、残り80%は文書画像・写真・映像等の非構造化データとされる。これら企業や組織内に蓄えられた膨大な非構造データとしての文書群は、本来、その当該組織にとっての情報資産であるが、現状では完全に活用できているとは言い難い。
情報活用のためには、紙文書・文書画像・写真・映像中に含まれる文字列をコード化しておく必要がある。この時に問題となるのが姓名の異体字や地名等に使われる外字の取扱いである。
例えば日本の戸籍法等の関連法令・通達によれば、戸籍に使うことができる文字種は約5万種類あるとされている。これは一般的に使われているJIS(JIS X 0208)、シフトJISなどの文字コード体系(第一水準、第二水準)に比べて、はるかに字種が多いため、データ入力や検索などで、これまでは、各企業や自治体のシステム毎に、それぞれ独自の外字取扱い機能を構築してきた。全世界の文字コード体系をカバーするUNICODEにおいても、戸籍で使うための文字セット・字形とは異なる点が多々あるため、必ずしも使える訳ではない。近年では、これら行政等で用いられる人名漢字等の漢字を整備する試みとして、文字情報基盤、戸籍統一文字や住民基本台帳ネットワーク統一文字などの文字体系が検討されている。文字体系毎に扱える文字種は異なるが、大体約2万から6万の字種を扱うように設計されている。海外の文字種を含めれば、その数はさらに増大する。
紙文書・文書画像・写真・映像中に含まれる文字列をコード化するデバイスとしては、OCR装置がある。OCR装置の一般的な機能及び、それを用いた帳票入力業務の形態については、特許文献1、特許文献2および特許文献3に概要が記されている。特許文献1にはOCR装置内の基本的な処理の流れが述べられている。帳票の自動読取りを行う場合、帳票内に記載されている文字コード、文字行、罫線、枠等を抽出し、データ入力が必要な帳票上の特定領域の読取りを行い、これをテキストファイルとして外部記憶装置に出力する。特許文献2には、OCRの読取精度を向上する手段として、OCRの認識結果に形態素解析を適用する手法が記されている。また、特許文献3では、手書き数字列に対して上昇型構文解析を使った文字列表記解析処理が提案されている。いずれも、OCR装置を使って、紙文書あるいは文書画像上のデータを読取り精度を向上するための技術を提案している。
すなわち、OCR装置における文字認識機能と、戸籍姓名の文字字形を厳密に扱うための文字コード体系の整備が進められているというのが、本発明の背景となっている。
特開平06−52156 特開平05−108891 特開2002−117374
紙文書あるいは画像、映像中の文字パタンを判別して読み取るOCR装置においても、姓名等の外字の扱いには慎重な設計を必要としてきた。OCR装置において外字を登録する場合は、一般にはユーザ定義領域と称する文字コードの特別なエリアを設けて、外字の見本画像を登録することで読取を行ってきた。しかし、数少ない見本画像では認識精度が十分に出ないことが課題とされる。
前述の課題は、例えば、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムによって解決される。
本発明の一実施形態によれば、見本となる外字または新しい文字画像を最低1つ用意するだけで、それに対応した手書き文字パタンや活字文字パタンを学習して、単純な見本画像を登録する外字認識手法よりも、より高精度に認識することが可能となる。
本発明を構成する文書認識サービスの全体像である。 本発明を構成する認識辞書生成装置である。 本発明の自動認識装置の認識機能を実現する認識装置である。 本発明におけるハードウェアの構成例である。 本発明におけるハードウェアの入力装置部分である。 本発明における文書の認識プロセス図である。 本発明における文字の認識プロセス図である。 本発明における自律学習の仕組みを示した図である。 本発明における自動微分の仕組みを示した図である。 本発明における入力文書のサンプル例である。
以下、図面を用いて本発明の実施の形態を説明する。
まずは、本発明を適用する対象となる自動認識装置システム全体の外観について説明する。図1は複数台の窓口入力装置0101が、ネットワーク0102を介して認識クラウド又はホストコンピュータ0103に接続された様子を示したものである。
図1は、本発明の適用例であるWebサービスを用いた文書認識サービスを利用した業務のフローを示した図である。本サービスでは、業務を継続することにより文字認識辞書が改良され、認識精度が向上するという特徴を持つ。
まず、文書認識サービスの利用者は読み取りたい文書や文字を登録する(プロセス1、0110)。文書画像や文字画像はコンピュータ(すなわちディスプレイによる表示と、マウス、キーボードによる入力)を使って行うことも可能であるが、この図では電子ペンと特殊な用紙を利用することや、カメラやスキャナで画像化した文書群(0101)を扱うとしている。入力された業務文書は、ネットワーク0102を通して認識クラウド0103に送られる。さまざまな地域、さまざまな執筆者より集められた業務文書は、認識クラウド内のデータベース0104に記録される。次に、この文書画像データに基づいて、当該文書の必要な箇所をコンピュータで認識する(0105)。認識時には文字認識用の辞書0106を用いる。認識結果は認識サービスの利用者に提示される(プロセス2、0111)。
認識クラウドでは、大きく3つの機能を持つ部を持つ。第1が認識部0105である。認識部では、文書画像データに基づいて、個々の文字パタンを認識する。この際には、文字パタンの形状や分布を記録したデータが辞書として用いられる。第2が分析部0106である。分析部では、ユーザに提示した認識結果のうち不具合があるパタンや、あるいは新規で登録するべきパタンを同定する。第3が学習部である。学習部では、分析部によって同定されたパタンを読み取るために、文字認識辞書の変更を行う。このとき学習のために必要な辞書を用いる。認識結果提示(プロセス2、0111)では、文字認識の結果を利用者に提示する。提示内容に応じて、必要があれば利用者はシステムにフィードバック(プロセス3、0112)をする。フィードバックの例としては、認識結果が誤っている場合には正しい文字を入力する認識訂正や、認識対象の文字が辞書に登録されていない外字等である場合には辞書へ追加するための文字追加依頼などがある。これらのフィードバックに基づき、学習部(0108)によって認識辞書の修正すべきパラメータが同定され、その結果が認識辞書(0106)へと反映される(プロセス4、0113)。また、この学習の結果の反映には、どのような改善提案を辞書に反映するべきかについて、認識クラウドにフィードバックされる。このようにして、学習結果をフィードバックし、認識辞書が更新され、より高精度な認識ができるようになる。
一般的なOCRの読取り対象文字種が3000から4000であるのに対し、本発明では外字等を含めた数万文字種の認識を前提としている。したがって、一般的なOCRと比べて1位の正解率は低くならざるを得ない。このため本発明では1位認識率だけでなく累積認識率を考慮したシステムとする。累積認識率とは、第n位(nは用途により変わる。たとえば15位や50位)以内に正解が存在する場合の認識率である。認識結果が1位正解でない場合、本発明のフィードバックプロセス(0112)の認識訂正では、利用者がn位以内の認識結果の候補文字から選択することで正しい文字を入力する。この作業は、数万字の文字コードから目的の文字コードを手作業で調べるのに比べると作業効率が向上するという特長がある。この特徴を実現するため、本発明では、1位正解率の向上に寄与する辞書と、累積認識率の向上に寄与する辞書を利用する。以下、それぞれの辞書の作成方法について説明する。
図2は、図1の学習部108と学習辞書109に相当する認識辞書生成装置である。認識辞書生成装置の記憶装置には、学習用文字パタン0201があり、ここから特徴ベクトルを抽出する(0202)。認識辞書生成装置と認識装置が同一のハードウェア装置で駆動とした場合は、例えば図4の外部補助記憶部(0411)に学習用文字パタン0201が記憶されているものとする。一般には、ここで得た特徴ベクトルを学習、辞書に記録して、新たに登録した外字などの文字パタンを識別するための辞書1(単純学習辞書、0204)を構成する。辞書1(0204)は、1位正解率向上に寄与するための辞書であり、文字パタンを認識する際の基本となる辞書である。ここには文字パタンから作成した特徴ベクトル、文字コードや、その重みなどが格納されている。学習に用いた文字パタンの特徴を記録しているため、最近傍法などの簡易な識別アルゴリズムを処理するために使われる。しかし、姓名の異体字のように非常に字種が多い場合、あるいは文字パタン字形で新しいものが追加され得る場合、すべての字種に対して十分な学習サンプルを用意することは難しいこともあって、辞書1のみでは十分な認識精度を得ることが難しい。
外字パタンAが、既存の文字パタンBに対して類似した字形を持つことがある。類似した文字の場合、文字パタンAと文字パタンBを判別することが難しいので、クラスタリングを行うことで認識精度を向上することができる。文字パタンの似ている者同士を一つのグループとする異体字パタンクラスタリング処理(0205)を行うことで、似た文字同士の認識の間違い易さなどが分かる。クラスタリングの結果として、類似した文字同士の部分集合が情報として得られる。例えば、文字{A、B、C、・・・}があるとして、クラスタリングによって文字OとQが似ていると判断されると{O、Q}という部分集合が得られる。この情報を検索補完用の辞書2(検索補完辞書、0206)として記録する。辞書2は累積認識率向上に寄与する辞書である。この辞書により、“O”を認識した際には、誤認識も想定して“Q”を認識結果の候補に加えることができる。
また入力された文字パタンの画像に対して、縦や横の投影を撮る、黒い画素の連結成分を得る、当該文字パタンAの一部分と一致する別の文字パタンBが存在するかどうかを計算するといった処理によって、文字パタンの部品分解を行い(0207)、その結果を文字パタン部品分解データ(0208)として記録する。部品分解パタンは、文字パタンAの扁や旁などが、部分的に似ている別の文字パタンBに似ているといった情報を記憶しており、これを辞書3(検索補完辞書、0209)として記録する。辞書3は累積認識率向上に寄与する辞書である。辞書3は、各文字パタンの偏や旁の情報を記憶している。例えば、”和”はノギヘンとクチがそれぞれ左右に配置されている。また、偏と旁の情報の記憶様式としては、ノギヘンを含む漢字のリストの中に”和”があり、その位置は文字中の左にある、という別の様式でも持つことができる。この辞書を使うと、フィードバックプロセス(0112)において対話的な文字コード検索が可能となる。例えば、利用者がマウスやデジタルペンでクサカンムリを書いた時点で、それを含む文字コード候補を提示するといった使い方ができる。また、”金”という文字が入力された場合、金偏の全般の漢字を検索していると見なして、これを含む文字コード候補を提示することができる。
文字パタン部品については、更に疑似文字モデル生成(0211)を行う。疑似文字モデル生成は、辞書に未登録の文字や認識率が低い文字について、1つまたは少数の見本サンプルを元に、統計学習に必要となる大量の文字パタンを生成する機能である。まず、手書き文字パタン部品(0210)には、文字パタンを構成する部品(ノギヘン、モンガマエなどの扁と旁や、文字の一部として使われることが多い”日””口”などの要素漢字)があらかじめ格納されている。疑似パタン合成(0211)では、学習すべき文字パタンから、必要であれば文字の筆順を推定し、連結成分や時系列上で一群となり得るパタンに対して、当該部分に対応する手書き文字パタンの部品が存在するかどうかを辞書(0210)から調べる。対応する部品が得られた場合、その箇所に手書き文字パタンの部品を合成することで、組み合わせ式に、大量の疑似パタンの合成が可能となる。また、対応する手書き文字パタンの部品が無い場合でも、入力された学習すべき文字パタンから筆順を推定しているため、ストローク単位で変形や、偏や旁などの群れを構成すると思われる部分的パタンに対して、変形を行うことが可能となる。これにより、全体に対するアフィン変換や、樽型変換では得られない非線形な変形パタンが得られ、結果として得られる特徴空間でのバリエーションが増え、より高精度な文字認識が可能となる。
ここで生成した文字パタンから、特徴ベクトルを抽出し(2012)、多くのパタンを元に高次識別器学習(0213)を行う。高次識別器学習としては、サポートベクトルマシンや、多層ニューラルネット、パラメトリック統計判別法などが使える。疑似的な文字パタンの生成により、さまざまなパタンの文字が作られるため、一般に高精度な認識が可能となる高次識別器学習が可能となる。辞書4(高次識別辞書、0214)は、高次識別器学習によって生成された1位認識率向上に寄与するための辞書である。辞書4は、追加した外字文字パタンを識別するために、1つまたは少数の見本サンプルを元に、疑似的に文字パタンを生成して、これを元に統計的学習を行った結果を格納する。一方で、疑似的に文字パタンを合成しているため、必ずしも人間が考える文字の変形が実現できるわけではない。そのため文字識別辞書(0204)にデータを追加するのではなく、文字識別辞書と高次識別辞書(0214)を分けて管理し、それぞれの認識結果を利用することが必要となる。
このように、辞書4による追加学習機能を有する自動認識装置では、外字として提示された少数の見本の画像を元に、文字パタンの疑似生成モデルを生成し、これを学習することで、少数見本パタンからでも認識精度の向上が可能となる自動認識装置を実現できる。
図3の認識処理は図1の認識部105の処理の例であり、先の認識辞書生成装置で生成した辞書を使って、どのように認識を行うかを示している。ここで言う認識処理とは、図1の認識部105に示す認識部の一形態である。まず認識対象の未知の文字パタン(0301)が入力されると、辞書1(単純学習辞書、0204)と辞書4(高次識別辞書、0214)をそれぞれ使って認識を行う(0302)。例えば単純学習辞書では、学習用文字パタン0201から得られた特徴ベクトルをそのまま記憶しており、最近傍距離の計算によって認識候補を計算する。一方、高次識別辞書では、疑似文字モデル生成を通して自動的に作った手書き文字パタン群から抽出した大量の特徴ベクトルを記憶する、あるいは大量パタンを学習して得た二次判別関数のパラメータ、サポートベクトルなどが記憶され、単純学習辞書では判別が難しいパタンを識別する。擬似モデル生成において、少ない見本から学習することが出来、さらに高精度な識別が可能となっている。
また、複数の識別辞書を使っているので、認識候補は多重で得られることになるが、これについては認識順位を交互にする、あるいは認識尤度(特徴空間内における各カテゴリの中心と未知パタンとの距離で算出)の順序で並び変えるなどの手段により、候補の序列を一系列にすることができる。このように、2つの識別辞書を組み合わせることで、正しい候補が上位に上がる確率を増やす事ができる。次に、ここで得た認識結果を使って、文字候補を補完する。文字候補の補完としては、辞書2(0206)を使って誤認識し易い文字を文字候補として追加する方策や、辞書3(0209)を使って、扁や旁など部分的に似ている文字候補を追加するという方策がある。この文字候補の追加により、1位の認識精度の向上は図れないが、累積認識率の向上を図れるというメリットがある。以上のプロセスにより高精度化された文字認識結果(0304)が得られる。
図4は、文書認識システムが、帳票処理用計算機0400によって構成されることを示している。ここで言う文書認識システムとは、図1の0103に示す認識クラウドを使った、認識サービス・認識システムの一形態である。帳票処理用計算機0400は、画像入力部0403、入力部0405、出力部0406、通信部0407、制御部0408、補助記憶部0409、記憶部0410、及び外部補助記憶部0411を備える。これらは、内部バス0412を介して互いに接続される。画像入力部0403には、スキャナ0402によって読み取られた帳票画像が入力される。画像入力部0403には、スキャナ0402を介さずネットワーク等を介して帳票画像が電子データ0404として入力されてもよい。入力部0405はユーザによる入力を受け付ける。例えば、入力部0405はキーボード及びマウス等である。出力部0406は帳票処理の結果を出力する。例えば、出力部0406はディスプレイ及びプリンタ等である。通信部0407は、外部ネットワーク0413に接続されるインタフェースである。帳票処理の結果は、外部ネットワーク0413に接続された外部サーバ0414に出力されてもよい。制御部0408は帳票処理用計算機0400の制御に関する各種処理を実行し、例えば、CPU等である。補助記憶部0409は、帳票処理用計算機0400の内部に備わる記憶部0410以外の記憶部であり、例えばHDDである。記憶部0410は、制御部0408が直接アクセスできる記憶部であり、例えばメモリである。外部補助記憶部0411は、補助記憶部0409の一種であり、帳票処理用計算機0400の外部に備わる記憶部である。例えば、外部補助記憶部0411は、CD−R、及びDVD−R等である。帳票処理に関するプログラム(帳票処理プログラム)を含む各種プログラムは、補助記憶部0409又は外部補助記憶部0411に記憶され、制御部0408が各種プログラムに実行する場合に記憶部0410にロードされる。制御部0408は、記憶部0410にロードされたプログラムを実行する。また、制御部0408は、画像入力部0403に入力された帳票画像を、内部バス0412を介して記憶部0410、補助記憶部0409、及び外部補助記憶部0411等に記憶する。なお、帳票処理用計算機0400は、画像入力部0403、制御部0408、及び記憶部0410を少なくとも備えていればよく、他の部は備えなくてもよい。
図5は、文書認識システムのおける入力デバイスとして、電子筆記データ0404を入力する際に、電子ペンを用いた場合の、部分的な装置構成を示している。通信装置0503は、ネットワーク(図示省略)に接続され、そのネットワークに接続された他の装置(図示省略)と通信するインタフェースである。例えば、通信装置0503は、申込書などの文書0501に記入した内容を、電子ペンデバイス0502を通して、無線ランなどの形でデータを受信する。この受信したデータを送信することで、ストロークという形式を持った文字パタンデータを送る事ができる。例えばこのようなデバイスによって、図1のフィードバック処理0112における入力がなされる。
図6は図1に示す文書認識システムを用いたアプリケーションの一例である申請書認識サービスの認識処理フローを示している。図1の認識部0105の処理の詳細にあたる。
図6の認識処理フローで使われる、申請書の様式の一例が図10である。1001が申請書(贈り物申込書)であり、その中の記入欄として送付先の記入欄1002と顧客名の1003がある。数多くの異体字を持つ氏名を正しくコード変換する際には、1002や1003に書かれた手書きの記入を読み取り、文字コードに変換し、これを元に配送を手配する事になる。その際、変換した文字コードをチェックして、それが間違えていた場合、あるいは異体字の文字コードの候補を複数出力して、候補文字を選ばせることによって、認識結果に対するユーザからのフィードバックを得られることができ、更にそれを元に文字認識の辞書・パラメータを調整することが可能となる。
図6に戻って、申請書認識サービスにおける文字列認識の処理フローの概要を説明する。本発明の実施例である文字列認識装置では、OCR装置が紙文書を撮像して、これを電子的画像データに変換する。本処理は、元々の文書が電子的画像データである場合は省略可能である(0601)。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取対象枠の位置推定等の文書構造解析を行う(0602)。次に、文書構造解析の結果を受けて、読取対象である文字行を抽出する(0603)。次に、文字行画像から文字パタン候補の切出しと、各文字パタンの文字識別を行う(0604)。文字切出パタン及び識別結果を併せて文字列仮説と称する。読取対象とする文書において、書かれ得る文字表記列が事前に決まっている場合は、文字列仮説に対して表記解析を行う(0605)。これにより、文字切出や文字識別の曖昧性を含んだ文字列仮設は、文字列テキストに変換され、読取結果テキストとしてOCRから出力される(0606)、但し、表記知識での解析が十分に行えなかった場合など、読取結果テキストの信頼度が低い場合は、文字列仮説を出力とする。読取結果テキスト、並びに読取仮説データの双方は、必要であれば当該文字列の書かれた文書画像上の位置情報を保持するものとする。以上の処理により、読取結果テキスト、読取仮説データが出力され、一般にはこれらのデータを元に文書処理を行う。外字などの文字パタンを追加学習した結果の辞書は、辞書0610に反映される。このようにして、文章を入力情報とした場合であっても、少ない見本数を用いた高精度な文字認識が可能となる。
図7から図9は、図1の学習部108を実現するための具体的な学習方式の一例を説明した図である。ただし、図1を実現する学習方法はこの例に限定されない。
図7は文字認識のプロセスを示している。
1個の文字パタンの画像0710を入力とすると、特徴抽出0702が行われる。このとき文字のストロークの方向成分などを抽出して、文字パタン画像を1つのベクトルに変換する。文字パタンからベクトルが得られた後で、当該字種が何であるかを判定する。これをカテゴリ識別0703と称する。カテゴリ識別では、事前に大量のパタンを使った分布のようすから、どの字種が特徴空間上のどの辺に分布しているかを辞書に記憶しており、未知の入力パタンがどのカテゴリに属するかを決定する。この図ではカテゴリ“8”や“5”や“9”などの情報が記憶されている様子を、概念的に示している。なお、本来は高次元のベクトルであるが、可視化を容易にするために2次元にて表示している。以上のプロセスにより文字コード0704を得る。
このように文字認識のためには、大量の文字パタンから得られた大量の特徴ベクトルが、どのように特徴空間上に分布しているかを知る事が重要となる。特徴空間上における特徴ベクトルのばらつきは、文字のパタンの変形に起因する。このため、新たな外字を追加登録する場合、少ない文字パタンから大量の文字パタンを生成する文字の疑似生成モデルが重要となる。
疑似モデル生成には、学習するべきパラメータがある。これらのパラメータの学習を実現する一例として自動微分がある。自動微分を用いた学習の構成を図8、図9に示す。
学習部では、重回帰分析や、構造方程式モデリング、更には自動微分などの機構を使って、文字認識に必要なパラメータを学習する。
パラメータ学習においては、自動微分と回帰分析や構造化モデリングとの組合せを用いることができる。
図8は、文字認識に必要となるパラメータを学習するしくみと、自動微分の関係について記している。文字認識を行う場合、パラメータを利用して、原信号(画像)または特徴ベクトルから、各種ベクトル演算、行列演算、自己相関演算、畳込み演算などを行って、未知パタンのカテゴリが何かを計算する。自動微分は、この計算過程を支える基本的な数値演算体系である。
更に具体的な処理プロセスを述べるため、学習において、自動微分機構と回帰分析とを併用するための仕組みについて記す。自動微分では「数」と「演算」を独自に定義する。自動微分(Automatic Differentiation)で用いる演算関数例を図9に示す。ここで、プログラム中にある全変数の内、n個の変数が偏微分の対象であるとする。このとき「数」の構造は次のベクトルで表される。
Figure 2015069256
ここで、vは関数の値を保持する場所である。また、dk(k=1〜n)は関数を第k番目の変数で偏微分した時の値を保持する場所である。自動微分では上記構造を持つもの数をAD数[数1]として、これに基づいて各種の演算を行う。
このような機構を導入するのは、学習でのパラメータ調整を柔軟に構成するためである。後述するように、ルール計算を行う上では暗黙的なパラメータが利用される。例えば、文字認識の高次識別として二次判別関数を利用したとする、この時、高次識別辞書に記憶されるパラメータは各カテゴリの分布を表現した二次関数の係数である。図1の文書認識サービスにおいて、申請書の認識を処理した場合、認識辞書(0106)として、この高次識別辞書が使われる。その結果、文字認識が行われ、結果をユーザに提示して、そのフィードバックを得る。その結果、どの文字が認識を間違えたかが分かることになる。その場合、学習プロセス0108において、辞書を更新する。文字認識が間違えたということは、本来正しい判別関数Aの出した尤度を、間違えた判別関数Bが出力した尤度が上回ったことであると解釈できるので、この間違えた判別関数Bを計算するために使ったパラメータを、尤度が下がるように微修正すれば良い。その際に、値の計算と導関数値の計算が同時に処理できる自動微分機構が役に立つ。自動微分機構により、計算値(この場合の尤度)が下げるように、導関数値の値からパラメータの微調整量が計算できる。この結果として、微調整されたパラメータを格納した学習辞書(0109)が作成され、認識辞書(0106)に反映されることとなる。
上記のようにパラメータを微調整する方法を勾配法と称する。勾配法では目標関数の偏微分係数が必要になる。文書認識サービスや申請書受付システムでは、目標の関数は文字認識の精度や帳票の処理精度などになる。ここで、勾配法の具体的なプロセスを述べる。ここでは教師信号として、文字認識の正しい、正しくないがシステムユーザからのフィードバックとして与えられるとする。例えば、回帰分析に対して、文字識別精度向上に有効なパラメータを推定するならば、[数2]が目標関数となる。
Figure 2015069256
この目標関数は“文字識別精度向上”を高くすることになる。実際の文字識別精度向上度合いを“Y文字識別精度向上”で表すとする。また、文字識別精度向上に関係すると思われる項目として、変数1、変数2、変数3などの重みに掛かる複数のパラメータがあるとする。例えば変数としては、文字左上領域の標準的な黒さであったり、右半分エリアのストロークの密度であったり、文字の輪郭の斜め方向性分の平均的な強さなどであったりする。更に、文字パタンの変形についても文字識別精度に影響を与え得るパラメータとして考慮すると、上記の[数2]は、更に文字変形パラメータの関数とみなすことができる。すなわち、
Figure 2015069256
となる。
[数2]の回帰分析のパラメータa1〜は、線形方程式を解くことで容易に得られる。また、[数3]のパラメータの学習は勾配法によって、徐々にパラメータを変化するように学習することができる。
一般に、勾配法による学習を実装する場合は、固定の関数の定義式(例えばニューロの中間層の計算式や、多項式識別関数のパラメータ重畳など)から、手計算により偏微分方程式を導き、これを元に学習するプログラムを実装する。しかし、ルールの追加、削除は動的に行われ得る。さらに、目標関数についても文字識別精度向上重視か、件数重視かなど変わりえる。目標関数の計算式が動的に変更され得て、それに合せて勾配法によるパラメータ学習を行う必要がある場合は、偏微分方程式も動的に変更しなければならない。
目標関数を求めるプログラム(関数)は、if文、for文、数学関数・数学演算から成立する。これらの内、数学関数・数学演算部分を、自動微分の数構造を利用して記述する。自動微分を用いると定義した関数から値と微分値を同時に求める事ができるため、計算式の変更に対しても容易に微分値の導出が行える。かつ、回帰分析と組み合わせることで、文字識別精度向上に有効と思われるルールに絞って、パラメータ調整を行うことができる。
0201…学習用文字パタン、0204…単純学習辞書、検索補完辞書・コンフュージョンマトリクス情報…0206、検索補完辞書・扁/旁情報…0209、0211…手書きパタン合成、0213…高次識別器学習
0601…画像入力部、0602…文書構造解析部、0603…文字行抽出部、0604…文字列仮説作成部、0605…文字列表記解析部、0606…テキスト出力部、0601…従来の文書処理システムに入力される紙文書

Claims (6)

  1. 見本文字画像の入力を受け付ける見本文字画像入力受付部と、
    前記見本文字画像に基づいて文字部品を抽出する文字部品抽出部と、
    前記文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、
    前記擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成部と、
    を有することを特徴とする文字識別システム。
  2. 請求項1に記載の文字識別システムであって、
    文字画像の入力を受け付ける文字画像入力受付部と、
    前記識別辞書を用いて前記文字画像を識別し識別結果を生成する識別部と、
    をさらに有することを特徴とする文字識別システム。
  3. 請求項2に記載の文字識別システムであって、
    前記識別結果を出力する識別結果出力と、
    前記識別結果の成否情報の入力を受け付ける識別結果成否受付部と、
    前記成否情報に基づいて前記識別辞書の前記文字識別パターンを更新するフィードバック部と、
    をさらに有することを特徴とする文字識別システム。
  4. 請求項1に記載の文字識別システムであって、
    文字パタンを構成する部品情報を格納した部品情報データベースをさらに有し、
    前記文字部品は、筆順情報を含み、
    前記文字部品抽出部は、前記筆順情報に基づいて前記文字部品を抽出することを特徴とする文字識別システム。
  5. 請求項2に記載の文字識別システムであって、
    扁旁と文字の関係を示す扁旁情報を格納する扁旁情報データベースと、
    前記扁旁情報を用いて前記識別結果に関連する文字を文字候補として抽出する文字候補補間部と、
    をさらに有することを特徴とする文字識別システム。
  6. 請求項2に記載の文字識別システムであって、
    文書を撮像して電子画像データに変換するOCR部と、
    前記電子画像データに基づいて前記文書の文書構造を特定する文書構造解析部と、
    前記文書構造に基づいて読み取り対象となる文字画像を抽出して前記文字画像入力受付部へ入力する文字抽出部と、
    をさらに有することを特徴とする文字識別システム。
JP2013200753A 2013-09-27 2013-09-27 文字識別システム Pending JP2015069256A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013200753A JP2015069256A (ja) 2013-09-27 2013-09-27 文字識別システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013200753A JP2015069256A (ja) 2013-09-27 2013-09-27 文字識別システム

Publications (1)

Publication Number Publication Date
JP2015069256A true JP2015069256A (ja) 2015-04-13

Family

ID=52835901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013200753A Pending JP2015069256A (ja) 2013-09-27 2013-09-27 文字識別システム

Country Status (1)

Country Link
JP (1) JP2015069256A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074807A (ja) * 2017-10-12 2019-05-16 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2019117520A (ja) * 2017-12-27 2019-07-18 AI inside株式会社 文字認識装置、方法およびプログラム
JP2020091656A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 学習装置、学習システム、学習方法及び学習プログラム
WO2020218512A1 (ja) * 2019-04-26 2020-10-29 Arithmer株式会社 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
JPWO2021059329A1 (ja) * 2019-09-24 2021-04-01
US20220406082A1 (en) * 2021-06-16 2022-12-22 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151685A (ja) * 1982-03-04 1983-09-08 Ricoh Co Ltd 文字認識装置
JPS62271191A (ja) * 1986-05-20 1987-11-25 Canon Inc パタ−ン認識装置
JPH01189788A (ja) * 1988-01-25 1989-07-28 Toshiba Corp 文字読取装置
JPH0757046A (ja) * 1993-08-11 1995-03-03 Nec Corp 文字認識装置における文書画像記憶方式
JP2001265317A (ja) * 2000-03-23 2001-09-28 Riso Kagaku Corp ビットマップフォント、ビットマップフォント作成方法および装置、専用フォント文字を用いた文書データ作成方法および装置並びに文字認識方法および装置
JP2002216075A (ja) * 2001-01-17 2002-08-02 Nippon Digital Kenkyusho:Kk 辞書学習方法及び辞書学習プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58151685A (ja) * 1982-03-04 1983-09-08 Ricoh Co Ltd 文字認識装置
JPS62271191A (ja) * 1986-05-20 1987-11-25 Canon Inc パタ−ン認識装置
JPH01189788A (ja) * 1988-01-25 1989-07-28 Toshiba Corp 文字読取装置
JPH0757046A (ja) * 1993-08-11 1995-03-03 Nec Corp 文字認識装置における文書画像記憶方式
JP2001265317A (ja) * 2000-03-23 2001-09-28 Riso Kagaku Corp ビットマップフォント、ビットマップフォント作成方法および装置、専用フォント文字を用いた文書データ作成方法および装置並びに文字認識方法および装置
JP2002216075A (ja) * 2001-01-17 2002-08-02 Nippon Digital Kenkyusho:Kk 辞書学習方法及び辞書学習プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074807A (ja) * 2017-10-12 2019-05-16 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7021496B2 (ja) 2017-10-12 2022-02-17 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2019117520A (ja) * 2017-12-27 2019-07-18 AI inside株式会社 文字認識装置、方法およびプログラム
JP2020091656A (ja) * 2018-12-05 2020-06-11 Kddi株式会社 学習装置、学習システム、学習方法及び学習プログラム
WO2020218512A1 (ja) * 2019-04-26 2020-10-29 Arithmer株式会社 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
JPWO2021059329A1 (ja) * 2019-09-24 2021-04-01
JP7342961B2 (ja) 2019-09-24 2023-09-12 日本電気株式会社 情報収集装置、情報収集方法、及びプログラム
US20220406082A1 (en) * 2021-06-16 2022-12-22 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium
US12300010B2 (en) 2021-06-16 2025-05-13 Canon Kabushiki Kaisha Training of neural networks in which deformation processing of training data is adjusted so that deformed character images are not too similar to character images of another class

Similar Documents

Publication Publication Date Title
US11501061B2 (en) Extracting structured information from a document containing filled form images
US20210366055A1 (en) Systems and methods for generating accurate transaction data and manipulation
US9152883B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
CN110135427A (zh) 用于识别图像中的字符的方法、装置、设备和介质
CN108984578A (zh) 计算机、文档识别方法以及系统
CN110178139A (zh) 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
CN113469067B (zh) 一种文档解析方法、装置、计算机设备和存储介质
US20250061278A1 (en) Adaptive natural language processing model training with quality assessment
US20210256052A1 (en) Image search method, apparatus, and device
JP2015069256A (ja) 文字識別システム
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
WO2022038821A1 (ja) 表構造認識装置及び方法
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
CN114418124A (zh) 生成图神经网络模型的方法、装置、设备及存储介质
Ganai et al. A novel holistic unconstrained handwritten urdu recognition system using convolutional neural networks
CN116311298A (zh) 信息生成方法、信息处理方法、装置、电子设备以及介质
US20250225804A1 (en) Method of extracting information from an image of a document
CN117009595A (zh) 文本段落获取方法及其装置、存储介质、程序产品
CN120470165A (zh) 一种保险证件的数据管理方法、系统及智能终端
Khan et al. Analysis of cursive text recognition systems: A systematic literature review
CN118070789A (zh) 一种信息抽取方法及装置
Alzuru et al. Cooperative human-machine data extraction from biological collections
Pillai et al. Document layout analysis using detection transformers
Koushik et al. Equation detection in the camera captured handwritten document
JP2007280413A (ja) 財務諸表自動入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160517

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20171121