JP2015069256A

JP2015069256A - 文字識別システム

Info

Publication number: JP2015069256A
Application number: JP2013200753A
Authority: JP
Inventors: 永崎　健; Takeshi Nagasaki; 健永崎; 孝志河合; Takashi Kawai; 平林　元明; Motoaki Hirabayashi; 平林　　元明; 正行小澤; Masayuki Ozawa; 松田　純一; Junichi Matsuda; 純一松田; 昇一中上; Shoichi Nakagami; 英宣谷口; Hidenori Taniguchi; 正和藤尾; Masakazu Fujio; 竜治嶺
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-09-27
Filing date: 2013-09-27
Publication date: 2015-04-13

Abstract

【課題】自動認識装置及び自動認識サービスにおいて少数サンプルでの追加学習機能を実現する【解決手段】前述の課題は、例えば、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムによって解決される。【選択図】図２

Description

本発明は、手書きや活字等の文書や、映像や写真などの画像において文字を認識するシステム及び関連サービスに関する。

情報利活用の効率化に対する社会的関心の高まりに伴って、サーバ又は個人が所有するパーソナルコンピュータ（ＰＣ）に格納された大量の電子文書中から、有益な情報を高精度に検索して、整理するための情報活用技術が求められている。企業情報システムに格納されるデータは年５０％〜６０％と年々増加する一方で、データベースに蓄積される構造化データは２０％程、残り８０％は文書画像・写真・映像等の非構造化データとされる。これら企業や組織内に蓄えられた膨大な非構造データとしての文書群は、本来、その当該組織にとっての情報資産であるが、現状では完全に活用できているとは言い難い。

情報活用のためには、紙文書・文書画像・写真・映像中に含まれる文字列をコード化しておく必要がある。この時に問題となるのが姓名の異体字や地名等に使われる外字の取扱いである。

例えば日本の戸籍法等の関連法令・通達によれば、戸籍に使うことができる文字種は約５万種類あるとされている。これは一般的に使われているＪＩＳ（ＪＩＳＸ０２０８）、シフトＪＩＳなどの文字コード体系（第一水準、第二水準）に比べて、はるかに字種が多いため、データ入力や検索などで、これまでは、各企業や自治体のシステム毎に、それぞれ独自の外字取扱い機能を構築してきた。全世界の文字コード体系をカバーするＵＮＩＣＯＤＥにおいても、戸籍で使うための文字セット・字形とは異なる点が多々あるため、必ずしも使える訳ではない。近年では、これら行政等で用いられる人名漢字等の漢字を整備する試みとして、文字情報基盤、戸籍統一文字や住民基本台帳ネットワーク統一文字などの文字体系が検討されている。文字体系毎に扱える文字種は異なるが、大体約２万から６万の字種を扱うように設計されている。海外の文字種を含めれば、その数はさらに増大する。

紙文書・文書画像・写真・映像中に含まれる文字列をコード化するデバイスとしては、ＯＣＲ装置がある。ＯＣＲ装置の一般的な機能及び、それを用いた帳票入力業務の形態については、特許文献１、特許文献２および特許文献３に概要が記されている。特許文献１にはＯＣＲ装置内の基本的な処理の流れが述べられている。帳票の自動読取りを行う場合、帳票内に記載されている文字コード、文字行、罫線、枠等を抽出し、データ入力が必要な帳票上の特定領域の読取りを行い、これをテキストファイルとして外部記憶装置に出力する。特許文献２には、ＯＣＲの読取精度を向上する手段として、ＯＣＲの認識結果に形態素解析を適用する手法が記されている。また、特許文献３では、手書き数字列に対して上昇型構文解析を使った文字列表記解析処理が提案されている。いずれも、ＯＣＲ装置を使って、紙文書あるいは文書画像上のデータを読取り精度を向上するための技術を提案している。

すなわち、ＯＣＲ装置における文字認識機能と、戸籍姓名の文字字形を厳密に扱うための文字コード体系の整備が進められているというのが、本発明の背景となっている。

特開平０６−５２１５６特開平０５−１０８８９１特開２００２−１１７３７４

紙文書あるいは画像、映像中の文字パタンを判別して読み取るＯＣＲ装置においても、姓名等の外字の扱いには慎重な設計を必要としてきた。ＯＣＲ装置において外字を登録する場合は、一般にはユーザ定義領域と称する文字コードの特別なエリアを設けて、外字の見本画像を登録することで読取を行ってきた。しかし、数少ない見本画像では認識精度が十分に出ないことが課題とされる。

前述の課題は、例えば、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムによって解決される。

本発明の一実施形態によれば、見本となる外字または新しい文字画像を最低１つ用意するだけで、それに対応した手書き文字パタンや活字文字パタンを学習して、単純な見本画像を登録する外字認識手法よりも、より高精度に認識することが可能となる。

本発明を構成する文書認識サービスの全体像である。本発明を構成する認識辞書生成装置である。本発明の自動認識装置の認識機能を実現する認識装置である。本発明におけるハードウェアの構成例である。本発明におけるハードウェアの入力装置部分である。本発明における文書の認識プロセス図である。本発明における文字の認識プロセス図である。本発明における自律学習の仕組みを示した図である。本発明における自動微分の仕組みを示した図である。本発明における入力文書のサンプル例である。

以下、図面を用いて本発明の実施の形態を説明する。

まずは、本発明を適用する対象となる自動認識装置システム全体の外観について説明する。図１は複数台の窓口入力装置０１０１が、ネットワーク０１０２を介して認識クラウド又はホストコンピュータ０１０３に接続された様子を示したものである。

図１は、本発明の適用例であるＷｅｂサービスを用いた文書認識サービスを利用した業務のフローを示した図である。本サービスでは、業務を継続することにより文字認識辞書が改良され、認識精度が向上するという特徴を持つ。

まず、文書認識サービスの利用者は読み取りたい文書や文字を登録する（プロセス１、０１１０）。文書画像や文字画像はコンピュータ（すなわちディスプレイによる表示と、マウス、キーボードによる入力）を使って行うことも可能であるが、この図では電子ペンと特殊な用紙を利用することや、カメラやスキャナで画像化した文書群（０１０１）を扱うとしている。入力された業務文書は、ネットワーク０１０２を通して認識クラウド０１０３に送られる。さまざまな地域、さまざまな執筆者より集められた業務文書は、認識クラウド内のデータベース０１０４に記録される。次に、この文書画像データに基づいて、当該文書の必要な箇所をコンピュータで認識する（０１０５）。認識時には文字認識用の辞書０１０６を用いる。認識結果は認識サービスの利用者に提示される（プロセス２、０１１１）。

認識クラウドでは、大きく３つの機能を持つ部を持つ。第１が認識部０１０５である。認識部では、文書画像データに基づいて、個々の文字パタンを認識する。この際には、文字パタンの形状や分布を記録したデータが辞書として用いられる。第２が分析部０１０６である。分析部では、ユーザに提示した認識結果のうち不具合があるパタンや、あるいは新規で登録するべきパタンを同定する。第３が学習部である。学習部では、分析部によって同定されたパタンを読み取るために、文字認識辞書の変更を行う。このとき学習のために必要な辞書を用いる。認識結果提示（プロセス２、０１１１）では、文字認識の結果を利用者に提示する。提示内容に応じて、必要があれば利用者はシステムにフィードバック（プロセス３、０１１２）をする。フィードバックの例としては、認識結果が誤っている場合には正しい文字を入力する認識訂正や、認識対象の文字が辞書に登録されていない外字等である場合には辞書へ追加するための文字追加依頼などがある。これらのフィードバックに基づき、学習部（０１０８）によって認識辞書の修正すべきパラメータが同定され、その結果が認識辞書（０１０６）へと反映される（プロセス４、０１１３）。また、この学習の結果の反映には、どのような改善提案を辞書に反映するべきかについて、認識クラウドにフィードバックされる。このようにして、学習結果をフィードバックし、認識辞書が更新され、より高精度な認識ができるようになる。

一般的なＯＣＲの読取り対象文字種が３０００から４０００であるのに対し、本発明では外字等を含めた数万文字種の認識を前提としている。したがって、一般的なＯＣＲと比べて１位の正解率は低くならざるを得ない。このため本発明では１位認識率だけでなく累積認識率を考慮したシステムとする。累積認識率とは、第ｎ位（ｎは用途により変わる。たとえば１５位や５０位）以内に正解が存在する場合の認識率である。認識結果が１位正解でない場合、本発明のフィードバックプロセス（０１１２）の認識訂正では、利用者がｎ位以内の認識結果の候補文字から選択することで正しい文字を入力する。この作業は、数万字の文字コードから目的の文字コードを手作業で調べるのに比べると作業効率が向上するという特長がある。この特徴を実現するため、本発明では、１位正解率の向上に寄与する辞書と、累積認識率の向上に寄与する辞書を利用する。以下、それぞれの辞書の作成方法について説明する。

図２は、図１の学習部１０８と学習辞書１０９に相当する認識辞書生成装置である。認識辞書生成装置の記憶装置には、学習用文字パタン０２０１があり、ここから特徴ベクトルを抽出する（０２０２）。認識辞書生成装置と認識装置が同一のハードウェア装置で駆動とした場合は、例えば図４の外部補助記憶部（０４１１）に学習用文字パタン０２０１が記憶されているものとする。一般には、ここで得た特徴ベクトルを学習、辞書に記録して、新たに登録した外字などの文字パタンを識別するための辞書１（単純学習辞書、０２０４）を構成する。辞書１（０２０４）は、１位正解率向上に寄与するための辞書であり、文字パタンを認識する際の基本となる辞書である。ここには文字パタンから作成した特徴ベクトル、文字コードや、その重みなどが格納されている。学習に用いた文字パタンの特徴を記録しているため、最近傍法などの簡易な識別アルゴリズムを処理するために使われる。しかし、姓名の異体字のように非常に字種が多い場合、あるいは文字パタン字形で新しいものが追加され得る場合、すべての字種に対して十分な学習サンプルを用意することは難しいこともあって、辞書１のみでは十分な認識精度を得ることが難しい。

外字パタンＡが、既存の文字パタンＢに対して類似した字形を持つことがある。類似した文字の場合、文字パタンＡと文字パタンＢを判別することが難しいので、クラスタリングを行うことで認識精度を向上することができる。文字パタンの似ている者同士を一つのグループとする異体字パタンクラスタリング処理（０２０５）を行うことで、似た文字同士の認識の間違い易さなどが分かる。クラスタリングの結果として、類似した文字同士の部分集合が情報として得られる。例えば、文字｛Ａ、Ｂ、Ｃ、・・・｝があるとして、クラスタリングによって文字ＯとＱが似ていると判断されると｛Ｏ、Ｑ｝という部分集合が得られる。この情報を検索補完用の辞書２（検索補完辞書、０２０６）として記録する。辞書２は累積認識率向上に寄与する辞書である。この辞書により、“Ｏ”を認識した際には、誤認識も想定して“Ｑ”を認識結果の候補に加えることができる。

また入力された文字パタンの画像に対して、縦や横の投影を撮る、黒い画素の連結成分を得る、当該文字パタンＡの一部分と一致する別の文字パタンＢが存在するかどうかを計算するといった処理によって、文字パタンの部品分解を行い（０２０７）、その結果を文字パタン部品分解データ（０２０８）として記録する。部品分解パタンは、文字パタンＡの扁や旁などが、部分的に似ている別の文字パタンＢに似ているといった情報を記憶しており、これを辞書３（検索補完辞書、０２０９）として記録する。辞書３は累積認識率向上に寄与する辞書である。辞書３は、各文字パタンの偏や旁の情報を記憶している。例えば、”和”はノギヘンとクチがそれぞれ左右に配置されている。また、偏と旁の情報の記憶様式としては、ノギヘンを含む漢字のリストの中に”和”があり、その位置は文字中の左にある、という別の様式でも持つことができる。この辞書を使うと、フィードバックプロセス（０１１２）において対話的な文字コード検索が可能となる。例えば、利用者がマウスやデジタルペンでクサカンムリを書いた時点で、それを含む文字コード候補を提示するといった使い方ができる。また、”金”という文字が入力された場合、金偏の全般の漢字を検索していると見なして、これを含む文字コード候補を提示することができる。

文字パタン部品については、更に疑似文字モデル生成（０２１１）を行う。疑似文字モデル生成は、辞書に未登録の文字や認識率が低い文字について、１つまたは少数の見本サンプルを元に、統計学習に必要となる大量の文字パタンを生成する機能である。まず、手書き文字パタン部品（０２１０）には、文字パタンを構成する部品（ノギヘン、モンガマエなどの扁と旁や、文字の一部として使われることが多い”日””口”などの要素漢字）があらかじめ格納されている。疑似パタン合成（０２１１）では、学習すべき文字パタンから、必要であれば文字の筆順を推定し、連結成分や時系列上で一群となり得るパタンに対して、当該部分に対応する手書き文字パタンの部品が存在するかどうかを辞書（０２１０）から調べる。対応する部品が得られた場合、その箇所に手書き文字パタンの部品を合成することで、組み合わせ式に、大量の疑似パタンの合成が可能となる。また、対応する手書き文字パタンの部品が無い場合でも、入力された学習すべき文字パタンから筆順を推定しているため、ストローク単位で変形や、偏や旁などの群れを構成すると思われる部分的パタンに対して、変形を行うことが可能となる。これにより、全体に対するアフィン変換や、樽型変換では得られない非線形な変形パタンが得られ、結果として得られる特徴空間でのバリエーションが増え、より高精度な文字認識が可能となる。

ここで生成した文字パタンから、特徴ベクトルを抽出し（２０１２）、多くのパタンを元に高次識別器学習（０２１３）を行う。高次識別器学習としては、サポートベクトルマシンや、多層ニューラルネット、パラメトリック統計判別法などが使える。疑似的な文字パタンの生成により、さまざまなパタンの文字が作られるため、一般に高精度な認識が可能となる高次識別器学習が可能となる。辞書４（高次識別辞書、０２１４）は、高次識別器学習によって生成された１位認識率向上に寄与するための辞書である。辞書４は、追加した外字文字パタンを識別するために、１つまたは少数の見本サンプルを元に、疑似的に文字パタンを生成して、これを元に統計的学習を行った結果を格納する。一方で、疑似的に文字パタンを合成しているため、必ずしも人間が考える文字の変形が実現できるわけではない。そのため文字識別辞書（０２０４）にデータを追加するのではなく、文字識別辞書と高次識別辞書（０２１４）を分けて管理し、それぞれの認識結果を利用することが必要となる。

このように、辞書４による追加学習機能を有する自動認識装置では、外字として提示された少数の見本の画像を元に、文字パタンの疑似生成モデルを生成し、これを学習することで、少数見本パタンからでも認識精度の向上が可能となる自動認識装置を実現できる。

図３の認識処理は図１の認識部１０５の処理の例であり、先の認識辞書生成装置で生成した辞書を使って、どのように認識を行うかを示している。ここで言う認識処理とは、図１の認識部１０５に示す認識部の一形態である。まず認識対象の未知の文字パタン（０３０１）が入力されると、辞書１（単純学習辞書、０２０４）と辞書４（高次識別辞書、０２１４）をそれぞれ使って認識を行う（０３０２）。例えば単純学習辞書では、学習用文字パタン０２０１から得られた特徴ベクトルをそのまま記憶しており、最近傍距離の計算によって認識候補を計算する。一方、高次識別辞書では、疑似文字モデル生成を通して自動的に作った手書き文字パタン群から抽出した大量の特徴ベクトルを記憶する、あるいは大量パタンを学習して得た二次判別関数のパラメータ、サポートベクトルなどが記憶され、単純学習辞書では判別が難しいパタンを識別する。擬似モデル生成において、少ない見本から学習することが出来、さらに高精度な識別が可能となっている。

また、複数の識別辞書を使っているので、認識候補は多重で得られることになるが、これについては認識順位を交互にする、あるいは認識尤度（特徴空間内における各カテゴリの中心と未知パタンとの距離で算出）の順序で並び変えるなどの手段により、候補の序列を一系列にすることができる。このように、２つの識別辞書を組み合わせることで、正しい候補が上位に上がる確率を増やす事ができる。次に、ここで得た認識結果を使って、文字候補を補完する。文字候補の補完としては、辞書２（０２０６）を使って誤認識し易い文字を文字候補として追加する方策や、辞書３（０２０９）を使って、扁や旁など部分的に似ている文字候補を追加するという方策がある。この文字候補の追加により、１位の認識精度の向上は図れないが、累積認識率の向上を図れるというメリットがある。以上のプロセスにより高精度化された文字認識結果（０３０４）が得られる。

図４は、文書認識システムが、帳票処理用計算機０４００によって構成されることを示している。ここで言う文書認識システムとは、図１の０１０３に示す認識クラウドを使った、認識サービス・認識システムの一形態である。帳票処理用計算機０４００は、画像入力部０４０３、入力部０４０５、出力部０４０６、通信部０４０７、制御部０４０８、補助記憶部０４０９、記憶部０４１０、及び外部補助記憶部０４１１を備える。これらは、内部バス０４１２を介して互いに接続される。画像入力部０４０３には、スキャナ０４０２によって読み取られた帳票画像が入力される。画像入力部０４０３には、スキャナ０４０２を介さずネットワーク等を介して帳票画像が電子データ０４０４として入力されてもよい。入力部０４０５はユーザによる入力を受け付ける。例えば、入力部０４０５はキーボード及びマウス等である。出力部０４０６は帳票処理の結果を出力する。例えば、出力部０４０６はディスプレイ及びプリンタ等である。通信部０４０７は、外部ネットワーク０４１３に接続されるインタフェースである。帳票処理の結果は、外部ネットワーク０４１３に接続された外部サーバ０４１４に出力されてもよい。制御部０４０８は帳票処理用計算機０４００の制御に関する各種処理を実行し、例えば、ＣＰＵ等である。補助記憶部０４０９は、帳票処理用計算機０４００の内部に備わる記憶部０４１０以外の記憶部であり、例えばＨＤＤである。記憶部０４１０は、制御部０４０８が直接アクセスできる記憶部であり、例えばメモリである。外部補助記憶部０４１１は、補助記憶部０４０９の一種であり、帳票処理用計算機０４００の外部に備わる記憶部である。例えば、外部補助記憶部０４１１は、ＣＤ−Ｒ、及びＤＶＤ−Ｒ等である。帳票処理に関するプログラム（帳票処理プログラム）を含む各種プログラムは、補助記憶部０４０９又は外部補助記憶部０４１１に記憶され、制御部０４０８が各種プログラムに実行する場合に記憶部０４１０にロードされる。制御部０４０８は、記憶部０４１０にロードされたプログラムを実行する。また、制御部０４０８は、画像入力部０４０３に入力された帳票画像を、内部バス０４１２を介して記憶部０４１０、補助記憶部０４０９、及び外部補助記憶部０４１１等に記憶する。なお、帳票処理用計算機０４００は、画像入力部０４０３、制御部０４０８、及び記憶部０４１０を少なくとも備えていればよく、他の部は備えなくてもよい。

図５は、文書認識システムのおける入力デバイスとして、電子筆記データ０４０４を入力する際に、電子ペンを用いた場合の、部分的な装置構成を示している。通信装置０５０３は、ネットワーク（図示省略）に接続され、そのネットワークに接続された他の装置（図示省略）と通信するインタフェースである。例えば、通信装置０５０３は、申込書などの文書０５０１に記入した内容を、電子ペンデバイス０５０２を通して、無線ランなどの形でデータを受信する。この受信したデータを送信することで、ストロークという形式を持った文字パタンデータを送る事ができる。例えばこのようなデバイスによって、図１のフィードバック処理０１１２における入力がなされる。

図６は図１に示す文書認識システムを用いたアプリケーションの一例である申請書認識サービスの認識処理フローを示している。図1の認識部０１０５の処理の詳細にあたる。

図６の認識処理フローで使われる、申請書の様式の一例が図１０である。１００１が申請書（贈り物申込書）であり、その中の記入欄として送付先の記入欄１００２と顧客名の１００３がある。数多くの異体字を持つ氏名を正しくコード変換する際には、１００２や１００３に書かれた手書きの記入を読み取り、文字コードに変換し、これを元に配送を手配する事になる。その際、変換した文字コードをチェックして、それが間違えていた場合、あるいは異体字の文字コードの候補を複数出力して、候補文字を選ばせることによって、認識結果に対するユーザからのフィードバックを得られることができ、更にそれを元に文字認識の辞書・パラメータを調整することが可能となる。

図６に戻って、申請書認識サービスにおける文字列認識の処理フローの概要を説明する。本発明の実施例である文字列認識装置では、ＯＣＲ装置が紙文書を撮像して、これを電子的画像データに変換する。本処理は、元々の文書が電子的画像データである場合は省略可能である（０６０１）。次に、電子的画像データを元にして、罫線抽出、枠構造解析、読取対象枠の位置推定等の文書構造解析を行う（０６０２）。次に、文書構造解析の結果を受けて、読取対象である文字行を抽出する（０６０３）。次に、文字行画像から文字パタン候補の切出しと、各文字パタンの文字識別を行う（０６０４）。文字切出パタン及び識別結果を併せて文字列仮説と称する。読取対象とする文書において、書かれ得る文字表記列が事前に決まっている場合は、文字列仮説に対して表記解析を行う（０６０５）。これにより、文字切出や文字識別の曖昧性を含んだ文字列仮設は、文字列テキストに変換され、読取結果テキストとしてＯＣＲから出力される（０６０６）、但し、表記知識での解析が十分に行えなかった場合など、読取結果テキストの信頼度が低い場合は、文字列仮説を出力とする。読取結果テキスト、並びに読取仮説データの双方は、必要であれば当該文字列の書かれた文書画像上の位置情報を保持するものとする。以上の処理により、読取結果テキスト、読取仮説データが出力され、一般にはこれらのデータを元に文書処理を行う。外字などの文字パタンを追加学習した結果の辞書は、辞書０６１０に反映される。このようにして、文章を入力情報とした場合であっても、少ない見本数を用いた高精度な文字認識が可能となる。

図７から図９は、図１の学習部１０８を実現するための具体的な学習方式の一例を説明した図である。ただし、図１を実現する学習方法はこの例に限定されない。

図７は文字認識のプロセスを示している。

１個の文字パタンの画像０７１０を入力とすると、特徴抽出０７０２が行われる。このとき文字のストロークの方向成分などを抽出して、文字パタン画像を１つのベクトルに変換する。文字パタンからベクトルが得られた後で、当該字種が何であるかを判定する。これをカテゴリ識別０７０３と称する。カテゴリ識別では、事前に大量のパタンを使った分布のようすから、どの字種が特徴空間上のどの辺に分布しているかを辞書に記憶しており、未知の入力パタンがどのカテゴリに属するかを決定する。この図ではカテゴリ“８”や“５”や“９”などの情報が記憶されている様子を、概念的に示している。なお、本来は高次元のベクトルであるが、可視化を容易にするために2次元にて表示している。以上のプロセスにより文字コード０７０４を得る。

このように文字認識のためには、大量の文字パタンから得られた大量の特徴ベクトルが、どのように特徴空間上に分布しているかを知る事が重要となる。特徴空間上における特徴ベクトルのばらつきは、文字のパタンの変形に起因する。このため、新たな外字を追加登録する場合、少ない文字パタンから大量の文字パタンを生成する文字の疑似生成モデルが重要となる。
疑似モデル生成には、学習するべきパラメータがある。これらのパラメータの学習を実現する一例として自動微分がある。自動微分を用いた学習の構成を図８、図９に示す。

学習部では、重回帰分析や、構造方程式モデリング、更には自動微分などの機構を使って、文字認識に必要なパラメータを学習する。
パラメータ学習においては、自動微分と回帰分析や構造化モデリングとの組合せを用いることができる。

図８は、文字認識に必要となるパラメータを学習するしくみと、自動微分の関係について記している。文字認識を行う場合、パラメータを利用して、原信号（画像）または特徴ベクトルから、各種ベクトル演算、行列演算、自己相関演算、畳込み演算などを行って、未知パタンのカテゴリが何かを計算する。自動微分は、この計算過程を支える基本的な数値演算体系である。
更に具体的な処理プロセスを述べるため、学習において、自動微分機構と回帰分析とを併用するための仕組みについて記す。自動微分では「数」と「演算」を独自に定義する。自動微分（ＡｕｔｏｍａｔｉｃＤｉｆｆｅｒｅｎｔｉａｔｉｏｎ）で用いる演算関数例を図９に示す。ここで、プログラム中にある全変数の内、n個の変数が偏微分の対象であるとする。このとき「数」の構造は次のベクトルで表される。

ここで、ｖは関数の値を保持する場所である。また、ｄｋ（ｋ＝１〜ｎ）は関数を第k番目の変数で偏微分した時の値を保持する場所である。自動微分では上記構造を持つもの数をＡＤ数［数１］として、これに基づいて各種の演算を行う。
このような機構を導入するのは、学習でのパラメータ調整を柔軟に構成するためである。後述するように、ルール計算を行う上では暗黙的なパラメータが利用される。例えば、文字認識の高次識別として二次判別関数を利用したとする、この時、高次識別辞書に記憶されるパラメータは各カテゴリの分布を表現した二次関数の係数である。図１の文書認識サービスにおいて、申請書の認識を処理した場合、認識辞書（０１０６）として、この高次識別辞書が使われる。その結果、文字認識が行われ、結果をユーザに提示して、そのフィードバックを得る。その結果、どの文字が認識を間違えたかが分かることになる。その場合、学習プロセス０１０８において、辞書を更新する。文字認識が間違えたということは、本来正しい判別関数Ａの出した尤度を、間違えた判別関数Ｂが出力した尤度が上回ったことであると解釈できるので、この間違えた判別関数Ｂを計算するために使ったパラメータを、尤度が下がるように微修正すれば良い。その際に、値の計算と導関数値の計算が同時に処理できる自動微分機構が役に立つ。自動微分機構により、計算値（この場合の尤度）が下げるように、導関数値の値からパラメータの微調整量が計算できる。この結果として、微調整されたパラメータを格納した学習辞書（０１０９）が作成され、認識辞書（０１０６）に反映されることとなる。

上記のようにパラメータを微調整する方法を勾配法と称する。勾配法では目標関数の偏微分係数が必要になる。文書認識サービスや申請書受付システムでは、目標の関数は文字認識の精度や帳票の処理精度などになる。ここで、勾配法の具体的なプロセスを述べる。ここでは教師信号として、文字認識の正しい、正しくないがシステムユーザからのフィードバックとして与えられるとする。例えば、回帰分析に対して、文字識別精度向上に有効なパラメータを推定するならば、［数２］が目標関数となる。

この目標関数は“文字識別精度向上”を高くすることになる。実際の文字識別精度向上度合いを“Ｙ文字識別精度向上”で表すとする。また、文字識別精度向上に関係すると思われる項目として、変数１、変数２、変数３などの重みに掛かる複数のパラメータがあるとする。例えば変数としては、文字左上領域の標準的な黒さであったり、右半分エリアのストロークの密度であったり、文字の輪郭の斜め方向性分の平均的な強さなどであったりする。更に、文字パタンの変形についても文字識別精度に影響を与え得るパラメータとして考慮すると、上記の［数２］は、更に文字変形パラメータの関数とみなすことができる。すなわち、

となる。

［数２］の回帰分析のパラメータａ１〜は、線形方程式を解くことで容易に得られる。また、［数３］のパラメータの学習は勾配法によって、徐々にパラメータを変化するように学習することができる。
一般に、勾配法による学習を実装する場合は、固定の関数の定義式(例えばニューロの中間層の計算式や、多項式識別関数のパラメータ重畳など)から、手計算により偏微分方程式を導き、これを元に学習するプログラムを実装する。しかし、ルールの追加、削除は動的に行われ得る。さらに、目標関数についても文字識別精度向上重視か、件数重視かなど変わりえる。目標関数の計算式が動的に変更され得て、それに合せて勾配法によるパラメータ学習を行う必要がある場合は、偏微分方程式も動的に変更しなければならない。

目標関数を求めるプログラム(関数)は、if文、for文、数学関数・数学演算から成立する。これらの内、数学関数・数学演算部分を、自動微分の数構造を利用して記述する。自動微分を用いると定義した関数から値と微分値を同時に求める事ができるため、計算式の変更に対しても容易に微分値の導出が行える。かつ、回帰分析と組み合わせることで、文字識別精度向上に有効と思われるルールに絞って、パラメータ調整を行うことができる。

０２０１…学習用文字パタン、０２０４…単純学習辞書、検索補完辞書・コンフュージョンマトリクス情報…０２０６、検索補完辞書・扁／旁情報…０２０９、０２１１…手書きパタン合成、０２１３…高次識別器学習
０６０１…画像入力部、０６０２…文書構造解析部、０６０３…文字行抽出部、０６０４…文字列仮説作成部、０６０５…文字列表記解析部、０６０６…テキスト出力部、０６０１…従来の文書処理システムに入力される紙文書

Claims

見本文字画像の入力を受け付ける見本文字画像入力受付部と、
前記見本文字画像に基づいて文字部品を抽出する文字部品抽出部と、
前記文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、
前記擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成部と、
を有することを特徴とする文字識別システム。
請求項１に記載の文字識別システムであって、
文字画像の入力を受け付ける文字画像入力受付部と、
前記識別辞書を用いて前記文字画像を識別し識別結果を生成する識別部と、
をさらに有することを特徴とする文字識別システム。
請求項２に記載の文字識別システムであって、
前記識別結果を出力する識別結果出力と、
前記識別結果の成否情報の入力を受け付ける識別結果成否受付部と、
前記成否情報に基づいて前記識別辞書の前記文字識別パターンを更新するフィードバック部と、
をさらに有することを特徴とする文字識別システム。
請求項１に記載の文字識別システムであって、
文字パタンを構成する部品情報を格納した部品情報データベースをさらに有し、
前記文字部品は、筆順情報を含み、
前記文字部品抽出部は、前記筆順情報に基づいて前記文字部品を抽出することを特徴とする文字識別システム。
請求項２に記載の文字識別システムであって、
扁旁と文字の関係を示す扁旁情報を格納する扁旁情報データベースと、
前記扁旁情報を用いて前記識別結果に関連する文字を文字候補として抽出する文字候補補間部と、
をさらに有することを特徴とする文字識別システム。
請求項２に記載の文字識別システムであって、
文書を撮像して電子画像データに変換するOCR部と、
前記電子画像データに基づいて前記文書の文書構造を特定する文書構造解析部と、
前記文書構造に基づいて読み取り対象となる文字画像を抽出して前記文字画像入力受付部へ入力する文字抽出部と、
をさらに有することを特徴とする文字識別システム。