JP2021047693A

JP2021047693A - 情報処理装置及びプログラム

Info

Publication number: JP2021047693A
Application number: JP2019170518A
Authority: JP
Inventors: 上條　裕義; Hiroyoshi Kamijo; 裕義上條; 直浩糠谷; naohiro Nukaya; 知寿子仙頭; Chizuko Sendo
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2021-03-25
Also published as: CN112528999A; US20210089804A1; US11410442B2

Abstract

【課題】画像データに表されている情報に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成する場合と比べて、除去対象の情報が表されていない画像データの生成の精度を向上させることにある。【解決手段】プロセッサは、文書を表す第１画像データを受け付け、当該文書の外観的特徴に応じた処理によって、当該第１画像データに表されている情報のうち除去対象の情報を表さず当該除去対象以外の情報を表す第２画像データを生成する。【選択図】図１

Description

本発明は、情報処理装置及びプログラムに関する。

画像データから文字を認識する場合、その認識の精度を高めるために、認識対象以外の除去対象の情報が表されていない画像データを生成することがある。

特許文献１には、帳票の種類を判定してマスク処理を変更する装置が記載されている。

特許文献２には、戸籍に関する情報を含むチェック画像を表示する装置が記載されている。

特許文献３には、認識画像の状態に応じてＯＣＲエンジンを指定し、その指定されたＯＣＲエンジンを用いて文字認識処理を行う装置が記載されている。

特許文献４には、項目の情報が記載されている書類の画像と、無記入の書類の画像とを位置合わせして、差分画像を求めることで、項目の情報が記載された部分の画像を抽出する装置が記載されている。

特開２０１７−２１２５７５号公報特開２０１５−９０６５７号公報特開２００７−６５９９４号公報特開２０１９−３２６４５号公報

ところで、画像データに表されている情報に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成しようとすると、画像データに表されている情報によっては、除去対象の情報が表された画像データが生成されたり、認識対象の情報が表されていない画像データが生成されたりすることがある。

本発明の目的は、画像データに表されている情報に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成する場合と比べて、除去対象の情報が表されていない画像データの生成の精度を向上させることにある。もしくは、本発明の目的は、画像データに表されている情報に関わらず一定の認識処理によって認識対象となる文字を認識する場合と比べて、認識対象の文字の認識の精度を向上させることにある。

請求項１に係る発明によれば、プロセッサを有し、前記プロセッサは、文書を表す第１画像データを受け付け、前記文書の外観的特徴に応じた処理によって、前記第１画像データに表されている情報のうち除去対象の情報を表さず前記除去対象以外の情報を表す第２画像データを生成する、情報処理装置である。

請求項２に係る発明によれば、プロセッサを有し、前記プロセッサは、文書を表す画像データを受け付け、前記画像データに表されている文字を認識する処理であって前記文書の外観的特徴に応じた処理によって、前記文字を認識する、情報処理装置である。

請求項３に係る発明によれば、前記外観的特徴は、前記文書中の枠の形状である、ことを特徴とする請求項１又は請求項２に記載の情報処理装置である。

請求項４に係る発明によれば、前記外観的特徴は、前記文書中の文字の形状である、ことを特徴とする請求項１又は請求項２に記載の情報処理装置である。

請求項５に係る発明によれば、コンピュータに、文書を表す第１画像データを受け付けさせ、前記文書の外観的特徴に応じた処理によって、前記第１画像データに表されている情報のうち除去対象の情報を表さず前記除去対象以外の情報を表す第２画像データを生成させる、プログラムである。

請求項６に係る発明によれば、コンピュータに、文書を表す第１画像データを受け付けさせ、前記第１画像データに表されている文字を認識する処理であって前記文書の外観的特徴に応じた処理によって、前記文字を認識させる、プログラムである。

請求項１，５に係る発明によれば、画像データに表されている情報に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成する場合と比べて、除去対象の情報が表されていない画像データの生成の精度を向上させることができる。

請求項２，６に係る発明によれば、画像データに表されている情報に関わらず一定の認識処理によって認識対象となる文字を認識する場合と比べて、認識対象の文字の認識の精度を向上させることができる。

請求項３に係る発明によれば、文書中の枠の形状に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成する場合と比べて、除去対象の情報が表されていない画像データの生成の精度を向上させることができる。もしくは、文書中の枠の形状に関わらず一定の処理によって認識対象となる文字を認識する場合と比べて、認識対象の文字の認識の精度を向上させることができる。

請求項４に係る発明によれば、文書中の文字の形状に関わらず一定の処理によって、除去対象の情報が表されていない画像データを生成する場合と比べて、除去対象の情報が表されていない画像データの生成の精度を向上させることができる。もしくは、文書中の文字の形状に関わらず一定の処理によって認識対象となる文字を認識する場合と比べて、認識対象の文字の認識の精度を向上させることができる。

第１実施形態に係る情報処理装置の構成を示すブロック図である。第１実施形態に係る情報処理装置が有する機能の一部を示すブロック図である。第１実施形態の実施例１に係る処理の流れを示すフローチャートを示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。クレンジング学習器を示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。戸籍謄本の一例を示す図である。第１実施形態の実施例４に係る処理の流れを示すフローチャートを示す図である。クレンジング学習器を示す図である。戸籍謄本の一例を示す図である。第２実施形態の実施例１に係る処理の流れを示すフローチャートを示す図である。第２実施形態の実施例２に係る処理の流れを示すフローチャートを示す図である。第２実施形態の実施例３に係る処理の流れを示すフローチャートを示す図である。戸籍謄本の一例を示す図である。文字認識学習器を示す図である。文字認識辞書を示す図である。

＜第１実施形態＞
図１を参照して、第１実施形態に係る情報処理装置１０について説明する。図１には、情報処理装置１０のハードウェアの構成の一例が示されている。

情報処理装置１０は、例えば、通信装置１２と、ＵＩ１４と、記憶装置１６と、画像読取装置１８と、プロセッサ２０とを含む。もちろん、情報処理装置１０は、これら以外の構成を含んでもよい。

通信装置１２は通信インターフェースであり、他の装置にデータを送信する機能、及び、他の装置から送信されてきたデータを受信する機能を有する。通信装置１２は、無線通信機能を有してもよいし、有線通信機能を有してもよい。通信装置１２は、無線通信又は有線通信を利用することで通信経路を介して他の装置と通信してもよい。通信経路は、例えば、ＬＡＮ（Local Area Network）等のネットワークやインターネット等である。通信装置１２は、近距離無線通信等を利用することで他の装置と通信してもよい。近距離無線通信は、例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）やＲＦＩＤ（Radio Frequency Identifier）やＮＦＣ等である。

ＵＩ１４はユーザインターフェースであり、表示装置と操作装置とを含む。表示装置は、液晶ディスプレイやＥＬディスプレイ等である。操作装置は、キーボードや入力キーや操作パネル等である。ＵＩ１４は、表示装置と操作装置とを兼ね備えたタッチパネル等のＵＩであってもよい。

記憶装置１６は、各種のデータを記憶する１又は複数の記憶領域を構成する装置である。記憶装置１６は、例えば、ハードディスクドライブ、各種のメモリ（例えばＲＡＭやＤＲＡＭやＲＯＭ等）、その他の記憶装置（例えば光ディスク等）、又は、それらの組み合わせである。１又は複数の記憶装置１６が情報処理装置１０に含まれている。

画像読取装置１８は、画像データを読み取るように構成されている装置である。画像読取装置１８は、イメージスキャナであってもよいし、カメラ等の撮影装置であってもよい。イメージスキャナは、光学的に読取対象をスキャンすることで当該読取対象を表す画像データを生成するように構成されている装置である。撮影装置は、読取対象を撮影することで当該読取対象を表す画像データを生成するように構成されている装置である。読取対象は、例えば文書である。画像読取装置１８によって文書がスキャン又は撮影されることで、当該文書を表す画像データが生成される。ここでの文書は、文字が記載や印刷されている用紙に限られず、文書が記載や印刷されている物体であればどのような物であってもよい。例えば、曲面を有する物体の当該曲面に文字列が印刷されており、その文字列を表す画像データが生成されてもよい。文書は、例えば、戸籍謄本や住民票等の各種証明書や、各種の伝票（例えば宅配便に用いられる伝票等）等である。もちろん、これら以外の物体が、文書の概念の範疇に含まれてもよい。

プロセッサ２０は、画像データに対してクレンジング処理を実行するように構成されている。クレンジング処理は、画像データに表されている情報のうち除去対象の情報を表さず除去対象以外の情報を表す画像データを生成する処理である。クレンジング処理は、画像データから除去対象の情報を除去することで、除去対象の情報を表さず除去対象以外の情報を表す画像データを生成する処理であってもよいし、画像データから除去対象以外の情報を抽出し、その抽出された情報を表す画像データを生成する処理であってもよい。クレンジング処理は、画像データを加工することで、除去対象の情報を表さず除去対象以外の情報を表す画像データを生成してもよい。除去対象の情報を表さず除去対象以外の情報を表す画像データを生成するという意味で、クレンジング処理はフィルタ処理であるともいえる。画像データに表されている情報は、例えば、画像データに表されている文字や、文字以外の図形（例えば線や枠等）等である。

クレンジング処理の対象となる画像データは、文書を表す画像データである。当該画像データは、画像読取装置１８によって生成された画像データであってもよいし、情報処理装置１０以外の他の装置から情報処理装置１０に送信されて通信装置１２によって受信された画像データであってもよいし、可搬性の記憶媒体（例えば光ディスク等）に記憶されて当該記憶媒体から情報処理装置１０に入力された画像データであってもよい。

画像読取装置１８は、情報処理装置１０に設けられていなくてもよい。この場合、プロセッサ２０は、通信装置１２によって受信された画像データや、可搬性の記憶媒体から情報処理装置１０に入力された画像データに対してクレンジング処理を実行する。

なお、クレンジング処理の対象となる画像データは、ＢＭＰ形式やＪＰＥＧ形式やＰＤＦ形式等を有するデータであってもよいし、テキストデータであってもよい。

例えば、クレンジング処理は、文字認識処理の前に実行される前処理である。文字認識処理は、画像データから文字を認識する処理である。クレンジング処理は、例えば、画像データから文字が認識され易くするために実行される処理である。例えば、クレンジング処理が実行された後の画像データに対して文字認識処理が実行される。文字認識処理として、例えば、ＯＣＲ（Optical Character Recognition）処理が用いられる。例えば、文書に対してＯＣＲ処理が実行されることで、当該文書から文字が認識される。

除去対象の情報は、文字認識処理によって認識されるべきである文字以外の情報である。除去対象の情報は、例えば、画像データに表されている文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る情報である。

以下では、クレンジング処理が実行される前の画像データを「第１画像データ」と称し、クレンジング処理が実行された後の画像データを「第２画像データ」と称することとする。

プロセッサ２０は、文書を表す第１画像データに表されている情報のうち除去対象以外の特定の情報に応じたクレンジング処理によって、当該第１画像データに表されている情報のうち除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成する。つまり、プロセッサ２０は、除去対象以外の特定の情報に応じてクレンジング処理を変更して、クレンジング処理を第１画像データに対して実行する。プロセッサ２０は、特定の情報に応じて、クレンジング処理の方式（例えばクレンジング処理のアルゴリズム）を変更してもよいし、クレンジング処理のエンジンを変更してもよい。クレンジング処理のエンジンの概念の範疇には、クレンジング処理を人工知能によって実現するクレンジング学習器が含まれてもよい。例えば、文書の一例である戸籍謄本には、偽造防止やコピー防止等を目的として、透かし文字や透かし図形等の地紋が記載される場合がある。戸籍謄本を表す第１画像データに対してクレンジング処理を実行することで、第１画像データから地紋が消され、地紋以外の文字列や枠等の図形が消されない。つまり、地紋を表さず、地紋以外の文字列や枠等の図形を表す第２画像データが生成される。

例えば、特定の情報毎に、特定の情報とクレンジング処理とが紐付けられており、プロセッサ２０は、第１画像データに表されている特定の情報に紐付けられているクレンジング処理を当該第１画像データに実行する。

特定の情報は、除去対象の情報に関連する情報であり、例えば、除去対象の情報が有する特徴に対応する情報や、除去対象の情報に関連する事柄に対応する情報や、除去対象の情報が有する特徴が反映された情報や、除去対象の情報に関連する事柄が反映された情報等である。特定の情報は、除去対象の情報に応じて変わり得る情報であってもよい。つまり、特定の情報は、除去対象の情報毎に異なる情報であってもよい。除去対象の情報が有する特徴や、除去対象の情報に関連する事項は、除去対象の情報に応じて変わる場合がある。除去対象の情報は、画像データに表されている文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る情報であるため、除去対象の情報に関連する特定の情報も、文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る情報である。

特定の情報は、例えば、第１画像データに表されている文書に記載されている特定の文字列である。特定の文字列は、例えば、特定のキーワードや、複数の特定のキーワードの組み合わせ等である。特定の文字列は、除去対象の情報が有する特徴に対応する文字列や、除去対象の情報に関連する事項に対応する文字列や、除去対象の情報が有する特徴が反映された文字列や、除去対象の情報に関連する事項が反映された文字列等である。特定の文字列は、除去対象の情報に応じて変わり得る文字列である。例えば、除去対象の情報に応じて、特定の文字列であるキーワードや複数のキーワードの組み合わせ等が変わり得る。

特定の文字列は、第１画像データに表されている文書において特定の位置に記載されている文字列であってもよい。特定の位置は、除去対象の情報に応じて変わり得る特定の文字列が記載されると推定される位置である。

また、特定の情報は、第１画像データに表されている特定の文字列に対応する対応文字列であってもよい。対応文字列は、例えば、特定の文字列の周囲に記載されている文字列である。

プロセッサ２０は、特定の文字列に関連する属性に応じてクレンジング処理を変更してもよい。当該属性は、例えば、第１画像データに表されている文書において特定の文字列が記載されている位置である。当該位置は、除去対象の情報が有する特徴に対応する位置や、除去対象の情報に関連する事柄に対応する位置や、除去対象の情報が有する特徴が反映された位置や、除去対象の情報に関連する事柄が反映された位置等である。当該位置は、除去対象の情報に応じて変わり得る位置である。

また、プロセッサ２０は、画像データに対して文字認識処理を実行することで、当該画像データから文字を認識してもよい。例えば、プロセッサ２０は、上記の第２画像データに対して文字認識処理を実行することで、当該第２画像データから文字を認識する。文字認識処理は、人工知能を用いた学習器によって実現されてもよい。

文字認識処理は、情報処理装置１０以外の他の装置（例えば、サーバや、パーソナルコンピュータ（以下、「ＰＣ」と称する）等）によって実行されてもよい。例えば、情報処理装置１０にてクレンジング処理が実行されることで第２画像データが生成され、当該第２画像データが他の装置に送信され、当該他の装置にて、当該第２画像データに対して文字認識処理が実行されることで、当該第２画像データから文字が認識されてもよい。

情報処理装置１０は、イメージスキャナそのものであってもよいし、イメージスキャナやプリンタ等を有する画像形成装置（例えば複合機）であってもよいし、イメージスキャナを有しておらずカメラを有する装置（例えば、ＰＣやタブレットＰＣやスマートフォンや携帯電話やその他の装置）であってもよい。もちろん、上述したように、情報処理装置１０は、イメージスキャナやカメラ等の画像読取装置１８を有していない装置（例えばＰＣ等）であってもよい。

以下の説明では、情報処理装置１０は、画像読取装置１８と文字認識機能とを有するものとする。つまり、情報処理装置１０は、文書をスキャン又は撮影することで画像データを生成し、当該画像データから文字を認識するように構成されているものとする。

以下、図２を参照して、情報処理装置１０が有する機能の一部について説明する。図２には、情報処理装置１０が有する機能の一部が示されている。図２に示されている機能の一部は、クレンジング処理についての機能と文字認識処理についての機能である。

情報処理装置１０は、クレンジング学習器２２と、文字認識学習器２４と、文字認識辞書２６とを有する。クレンジング学習器２２は、クレンジング処理を実行するように構成されている。文字認識学習器２４は、文字認識処理を実行するように構成されている。文字認識辞書２６は、文字認識処理のために用いられる文字が登録されている辞書のデータである。具体的には、文字認識辞書２６は、画像データから文字を認識するために、画像データから抽出された文字の特徴と照合される文字が登録されている辞書のデータである。なお、文字認識辞書２６は、文字認識学習器２４に含まれてもよい。

クレンジング学習器２２及び文字認識学習器２４は、例えば、人工知能によって実現されてもよい。この場合、クレンジング学習器２２は、人工知能が学習した内容に応じて異なるクレンジング処理を実行することになる。同様に、文字認識学習器２４は、人工知能が学習した内容に応じて異なる文字認識処理を実行することになる。人工知能に用いられるアルゴリズムは特に限定されず、どのようなアルゴリズムが用いられてもよい。アルゴリズムとして、例えば機械学習が用いられる。機械学習として、教師あり学習が用いられてもよいし、教師なし学習が用いられてもよいし、強化学習が用いられてもよい。具体的には、ディープラーニング（例えば、多層パーセプトロン、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、オートエンコーダ、制限ボルツマンマシン等）、パーセプトロン、バックプロパゲーション、アソシアトロン、サポートベクタマシン、決定木、ｋ近傍法、線形回帰、自己組織マップ、ボルツマンマシン、主成分分析、クラスタ分析、又は、Ｑラーニング等が用いられてもよい。なお、機械学習以外のアルゴリズムとして、遺伝的アルゴリズムや山登り法等が用いられてもよい。もちろん、これら以外のアルゴリズムが用いられてもよい。

第１実施形態においては、情報処理装置１０は、複数の異なるクレンジング学習器２２を有する。各クレンジング学習器２２は、異なるクレンジング処理を実行する。例えば、各クレンジング学習器２２は、文書の種類毎に異なるクレンジング学習器であってもよいし、文書が作成された時代毎に異なるクレンジング学習器であってもよいし、文書の作成者毎に異なるクレンジング学習器であってもよいし、文書の用途毎に異なるクレンジング学習器であってもよい。

例えば、ある種類の文書に用いられるクレンジング学習器２２は、当該種類の文書に特化したクレンジング学習器であり、当該種類の文書を表す第１画像データから、当該種類の文書に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように構成されている。当該クレンジング学習器２２が人工知能によって実現される場合、当該クレンジング学習器２２を実現する人工知能は、当該種類の文書に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように学習させられている。

具体例を挙げて説明すると、文書である戸籍謄本用のクレンジング学習器２２は、戸籍謄本に特化したクレンジング学習器である。戸籍謄本用のクレンジング学習器２２は、戸籍謄本を表す第１画像データから、当該戸籍謄本に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように構成されている。戸籍謄本用のクレンジング学習器２２が人工知能によって実現される場合、戸籍謄本用のクレンジング学習器２２を実現する人工知能は、戸籍謄本に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように学習させられている。

また、文書である伝票用のクレンジング学習器２２は、伝票に特化したクレンジング学習器である。伝票用のクレンジング学習器２２は、伝票を表す第１画像データから、当該伝票に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように構成されている。伝票用のクレンジング学習器２２が人工知能によって実現される場合、伝票用のクレンジング学習器２２を実現する人工知能は、伝票に含まれている除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように学習させられている。

また、各クレンジング学習器２２は、除去対象の情報毎に異なるクレンジング学習器である。例えば、除去対象の情報に関連する特定の情報毎に異なるクレンジング学習器２２が作成されており、クレンジング学習器２２には、当該クレンジング学習器２２によって表されなくなる除去対象の情報に関連する特定の情報が紐付けられている。ある特定の情報が紐付けられているクレンジング学習器２２は、当該特定の情報に関連する除去対象の情報に特化したクレンジング学習器である。

以下、第１実施形態の各実施例について説明する。

（第１実施形態の実施例１）
図３を参照して、第１実施形態の実施例１について説明する。図３には、第１実施形態の実施例１に係る処理の流れを示すフローチャートが示されている。

まず、画像読取装置１８によって文書が読み取られ、当該文書を表す第１画像データが生成される（Ｓ０１）。

次に、プロセッサ２０は、第１画像データから特定の情報（例えばキーワード等）を抽出する（Ｓ０２）。例えば、プロセッサ２０は、第１画像データを対象として、画像補正、２値化、レイアウト解析及び表構造解析等を実行し、特定の情報を抽出するための簡易な文字認識処理を実行することで、当該第１画像データから特定の情報を抽出する。簡易な文字認識処理は、例えば、文字認識学習器２４が実行する文字認識処理ほど文字認識の精度は高くないが、特定の情報を抽出し得る程度の精度を有する文字認識処理である。

次に、プロセッサ２０は、複数のクレンジング学習器２２の中から、読み取られた文書の種類に特化したクレンジング学習器２２であって、第１画像データから抽出された特定の情報が紐付けられているクレンジング学習器２２を選択する（Ｓ０３）。つまり、プロセッサ２０は、第１画像データから抽出された特定の情報に関連する除去対象の情報に特化したクレンジング学習器２２を選択する。なお、ユーザがＵＩ１４を操作することで文書の種類を指定してもよいし、プロセッサ２０が第１画像データを解析することで文書の種類を特定してもよい。

次に、プロセッサ２０は、Ｓ０３にて選択されたクレンジング学習器２２を用いて第１画像データにクレンジング処理を実行する（Ｓ０４）。これにより、除去対象の情報を表さず除去対象以外の情報を表す第２画像データが生成される。

次に、プロセッサ２０は、文字認識学習器２４を用いて第２画像データに文字認識処理を実行する（Ｓ０５）。文字認識学習器２４は、例えば、第２画像データに表されている文書のレイアウトを解析し、当該文書から行や列を抽出し、その抽出した行や列から文字を抽出し、その抽出した文字を正規化し、正規化された文字の特徴を抽出し、文字認識辞書２６に登録されている文字と抽出された文字の特徴とをマッチングすることで、第２画像データから文字を認識する。また、文字認識学習器２４は、文字列の意味を解析する知識処理を実行してもよい。なお、文字認識処理は、情報処理装置１０以外の他の装置によって実行されてもよい。

以下、第１実施形態の実施例１の具体例について説明する。第１実施形態の実施例１では、読取対象の文書に記載されている特定のキーワード、又は、複数の特定のキーワードの組み合わせが、特定の情報として用いられる。プロセッサ２０は、特定のキーワード又は複数の特定のキーワードの組み合わせに応じたクレンジング学習器２２を選択してクレンジング処理を実行する。

ここでは一例として、読取対象の文書は戸籍謄本であり、戸籍謄本を表す画像データにクレンジング処理を実行するものとする。

ここで、戸籍の様式について説明する。戸籍の様式には、平成６年式戸籍、昭和２３年式戸籍、大正４年式戸籍、及び、明治３１年式戸籍がある。なお、明治１９年式戸籍が用いられる場合もあるが、ここではその説明を省略する。以下では、平成６年式戸籍の様式を有する戸籍謄本を「平成６年式戸籍謄本」と称し、昭和２３年式戸籍の様式を有する戸籍謄本を「昭和２３年式戸籍謄本」と称し、大正４年式戸籍の様式を有する戸籍謄本を「大正４年式戸籍謄本」と称し、明治３１年式戸籍の様式を有する戸籍謄本を「明治３１年式戸籍謄本」と称することとする。

一般的に、平成６年式戸籍は、活字によって作成され、昭和２３年式戸籍は、活字又は手書きによって作成され、大正４年式戸籍は、活字又は手書きによって作成され、明治３１年式戸籍は、活字又は手書きによって作成されている。もちろん、戸籍謄本を発行する地方自治体（例えば都道府県や市区町村等）によっては、これらとは異なる戸籍謄本が用いられる場合もあり得る。

図４には、平成６年式戸籍謄本の一例が示されている。図４に示されている平成６年式戸籍謄本２８は、一般的な平成６年式戸籍謄本の一例に過ぎない。戸籍謄本を発行する地方公共団体（例えば都道府県や市区町村等）によっては、戸籍謄本の様式が若干異なることがあるが、平成６年式戸籍謄本の基本的な様式は、平成６年式戸籍謄本２８の様式と同じである。

平成６年式戸籍謄本２８は、基本的には、本籍と筆頭者の氏名とが記載される記載欄２８ａ、戸籍事項が記載される記載欄２８ｂ、除籍された戸籍記載者の名等が記載される記載欄２８ｃ、戸籍記載者の名等が記載される記載欄２８ｄ、身分事項が記載される記載欄２８ｅ、及び、地方公共団体が記載すべき記載欄２８ｆ等を有する。

記載欄２８ｂには、符号２８ｇが指し示すように、文字列「改製事由」の右側に、文字列「平成６年法務省令第５１号附則第２条第１項による改製」が記載されている。

除籍された戸籍記載者の氏名等が記入される記載欄２８ｃには、文字列「戸籍に記載されている者」の下側に、「除籍」を表す除籍マーク２８ｈが記載されている。

記載欄２８ｃ等には、符号２８ｉが指し示すように、文字列「続柄」が記載されている。

記載欄２８ｆには、符号２８ｊが指し示すように、文字列「発行番号」が記載されており、その文字列「発行番号」の右側に番号が記載されている

符号２８ｍが指し示すように、符号２８ｋが指し示す文字列「本籍」の右側に、住所を表す文字列が記載されている。

平成６年式戸籍謄本２８では、文字を書き進める方向は横書きである。

図５には、昭和２３年式戸籍謄本の一例が示されている。図５に示されている昭和２３年式戸籍謄本３０は、一般的は昭和２３年式戸籍謄本の一例に過ぎない。戸籍謄本を発行する地方公共団体（例えば都道府県や市区町村等）によっては、戸籍謄本の様式が若干異なることがあるが、昭和２３年式戸籍謄本の基本的な様式は、昭和２３年式戸籍謄本３０の様式と同じである。

昭和２３年式戸籍謄本３０は、基本的には、欄外表示３０ａ、本籍地と筆頭者の氏名とが記載される記載欄３０ｂ、戸籍事項が記載される記載欄３０ｃ、身分事項が記載される記載欄３０ｄ、筆頭者の名が記載される記載欄３０ｅ、家族の身分事項が記載される記載欄３０ｆ、及び、地方公共団体が記載すべき記載欄３０ｇ等を有する。

除籍された者の名が記載されている記載欄には、バツ印が記載される。例えば、記載欄３０ｅに名が記入されている者は除籍されているため、記載欄３０ｅに、符号３０ｈが指し示すバツ印が記載されている。

符号３０ｉが指し示すように、文字列「名氏」が記載されている。また、記載欄３０ｂには、符号３０ｊが指し示すように、文字列「籍本」の下側に、住所を表す文字列が記載されている。

昭和２３年式戸籍謄本３０では、文字を書き進める方向は、縦書きである。また、昭和２３年式戸籍謄本３０の全体は、Ａ４サイズの横型の形状を有する。

図６には、大正４年式戸籍謄本の一例が示されている。図６に示されている大正４年式戸籍謄本３２は、一般的な大正４年式戸籍謄本の一例に過ぎない。戸籍謄本を発行する地方公共団体（例えば都道府県や市区町村等）によっては、戸籍謄本の様式が若干異なることがあるが、大正４年式戸籍謄本の基本的な様式は、大正４年式戸籍謄本３２の様式と同じである。

大正４年式戸籍謄本３２は、基本的には、欄外表示３２ａ、本籍地と前戸主の氏名とが記載される記載欄３２ｂ、文字列「戸主」が記載される記載欄３２ｃ、戸主の事項が記載される記載欄３２ｄ、戸主名が記載される記載欄３２ｅ、家族の事項が記載される記載欄３２ｆ、及び、役所が記載すべき記載欄３２ｇ等を有する。

文字列「籍本」の下側に、符号３２ｈが指し示すように、住所を表す文字列が記載されており、更に下側には、符号３２ｉが指し示すように、文字列「主戸前」が記載されている。このように、大正４年式戸籍謄本３２には、戸籍の最初に記載されている者の氏名を「前戸主」と称している。また、家長を「戸主」と称している。

大正４年式戸籍謄本においては、一般的に、平仮名は存在するが、昭和２３年式戸籍謄本や平成６年式戸籍謄本と比べると、平仮名の数は少ない。

図７には、明治３１年式戸籍謄本の一例が示されている。図７に示されている明治３１年式戸籍謄本３４は、一般的な明治３１年式戸籍謄本の一例に過ぎない。戸籍謄本を発行する地方公共団体（例えば都道府県や市区町村等）によっては、戸籍謄本の様式が若干異なることがあるが、明治３１年式戸籍謄本の基本的な様式は、明治３１年式戸籍謄本３４の様式と同じである。

明治３１年式戸籍謄本３４は、基本的には、本籍地と前戸主の氏名とが記載される記載欄３４ａ、文字列「戸主」が記載される記載欄３４ｂ、戸主の事項が記載される記載欄３４ｃ、戸主名が記載される記載欄３４ｄ、及び、家族の事項が記載される記載欄３４ｅ等を有する。

文字列「地籍本」の下側に、符号３４ｆが指し示すように、住所を表す文字列が記載されており、更に下側には、符号３４ｇが指し示すように、文字列「主戸前」が記載されている。このように、明治３１年式戸籍謄本３４には、戸籍の最初に記載されている者の氏名を「前戸主」と称している。また、家長を「戸主」と称している。

戸主名が記載される記載欄３４ｄの左側に、符号３４ｈが指し示すように、文字列「戸主ト為タル原因及び年月日」が記載されており、その欄には、戸主となるための原因及び年月日が記載される。また、旧漢字が用いられることがある。例えば、文字「県」の旧漢字が用いられる。

明治３１年式戸籍謄本においては、一般的に、大正４年式戸籍謄本と比べると、平仮名の数は少ない。一般的に、明治３１年式戸籍謄本の上段には平仮名は使われておらず、下段に記載された氏名の一部に平仮名が使用される。

偽造防止やコピー防止等を目的として、透かし文字や透かし図形等の地紋が、戸籍謄本の背景に記載される場合がある。地紋は、地紋以外の文字の認識率を低下させる要因となる場合があるため、除去対象の情報の一例に該当する。また、地紋以外の特定のキーワード又は複数の特定のキーワードの組み合わせが、特定の情報として用いられる。

図４から図７に示すように、戸籍謄本の構造や、戸籍謄本に記載されている内容は、その戸籍謄本が作成された時代毎に異なっている。また、地紋も、その地紋が記載されている戸籍謄本が作成された時代毎に異なっている。戸籍謄本が作成された時代を反映した特定のキーワード又は複数の特定のキーワードの組み合わせを抽出することで、当該戸籍謄本が作成された時代が推定される。つまり、読取対象の戸籍謄本が、平成６年式戸籍謄本、昭和２３年式戸籍謄本、大正４年式戸籍謄本、又は、明治３１年式戸籍謄本のいずれかであることが推定される。以下、各戸籍謄本に記載されているキーワードについて説明する。

図４に示すように、平成６年式戸籍謄本２８には、符号２８ｋが指し示すように、文字列「本籍」が記載されており、当該文字列「本籍」の下側に文字列「氏名」が記載されている。

図５に示すように、昭和２３年式戸籍謄本３０の記載欄３０ｂには、文字列「籍本」が記載されており、当該文字列「籍本」の下側に記載された住所の文字列の下側に、文字列「名氏」が記載されている。

図６に示すように、大正４年式戸籍謄本３２の記載欄３２ｂには、文字列「籍本」が記載されており、当該文字列「籍本」の下側に記載された住所の文字列の下側に、文字列「主戸前」が記載されている。

図７に示すように、明治３１年式戸籍謄本３４の記載欄３４ａには、文字列「地籍本」が記載されており、当該文字列「地籍本」の下側に記載された住所の文字列の下側に、文字列「主戸前」が記載されている。

各戸籍謄本に記載されている上記の文字列を比較すると、各文字列に差異があることが分かる。各文字列を整理すると以下のようになる。
・平成６年式戸籍謄本：文字列「本籍」と文字列「氏名」
・昭和２３年式戸籍謄本：文字列「籍本」と文字列「名氏」
・大正４年式戸籍謄本：文字列「籍本」と文字列「主戸前」
・明治３１年式戸籍謄本：文字列「地籍本」と文字列「主戸前」

つまり、文字列「本籍」と文字列「氏名」との組み合わせは、平成６年式戸籍謄本２８の時代を反映した複数の特定のキーワードの組み合わせであるといえる。

また、文字列「籍本」と文字列「名氏」との組み合わせは、昭和２３年式戸籍謄本３０の時代を反映した複数の特定のキーワードの組み合わせであるといえる。

また、文字列「籍本」と文字列「主戸前」との組み合わせは、大正４年式戸籍謄本３２の時代を反映した複数の特定のキーワードの組み合わせであるといえる。

また、文字列「地籍本」と文字列「主戸前」との組み合わせは、明治３１年式戸籍謄本３４の時代を反映した複数の特定のキーワードの組み合わせであるといえる。

上記のように、戸籍謄本の時代によって特定のキーワードが異なるため、読取対象の戸籍謄本を表す第１画像データから抽出された特定のキーワード又は複数の特定のキーワードの組み合わせに基づいて、当該戸籍謄本の時代が推定される。

プロセッサ２０は、第１画像データから抽出された特定のキーワード又は複数の特定のキーワードの組み合わせに応じたクレンジング学習器２２を選択し、選択したクレンジング学習器２２を用いてクレンジング処理を実行する。

第１画像データから抽出された特定のキーワード又は複数の特定のキーワードの組み合わせに応じたクレンジング学習器２２は、当該特定のキーワード又は当該複数の特定のキーワードの組み合わせが抽出された戸籍謄本に特化したクレンジング学習器２２である。特定のキーワード又は複数の特定のキーワードの組み合わせは、戸籍謄本の時代を反映した文字列であるため、当該戸籍謄本に特化したクレンジング学習器２２は、当該戸籍謄本の時代に特化したクレンジング学習器であるといえる。その戸籍謄本に特化したクレンジング学習器２２とは、当該戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように学習されたクレンジング学習器である。

図８には、各時代の戸籍謄本に特化したクレンジング学習器２２が示されている。

クレンジング学習器２２Ａは、平成６年式戸籍謄本に特化したクレンジング学習器である。クレンジング学習器２２Ａには、複数の特定のキーワードの組み合わせである、文字列「本籍」と文字列「氏名」との組み合わせが予め紐付けられている。

クレンジング学習器２２Ｂは、昭和２３年式戸籍謄本に特化したクレンジング学習器である。クレンジング学習器２２Ｂには、複数の特定のキーワードの組み合わせである、文字列「籍本」と文字列「名氏」との組み合わせが予め紐付けられている。

クレンジング学習器２２Ｃは、大正４年式戸籍謄本に特化したクレンジング学習器である。クレンジング学習器２２Ｃには、複数の特定のキーワードの組み合わせである、文字列「籍本」と文字列「主戸前」との組み合わせが予め紐付けられている。

クレンジング学習器２２Ｄは、明治３１年式戸籍謄本に特化したクレンジング学習器である。クレンジング学習器２２Ｄには、複数の特定のキーワードの組み合わせである、文字列「地籍本」と文字列「主戸前」との組み合わせが予め紐付けられている。

例えば、各時代の戸籍謄本によって、地紋の形状、大きさ及び位置等が異なる。従って、ある時代の戸籍謄本に記載されている地紋の形状、大きさ及び位置等を、当該時代の戸籍謄本に特化したクレンジング学習器２２に予め学習させておくことで、当該クレンジング学習器２２は、当該時代の戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成することができるようになる。クレンジング学習器２２は、地紋を削除することで第２画像データを生成してもよいし、第１画像データから地紋以外の情報を抽出し、その抽出した情報を表す第２画像データを生成してもよい。

例えば、クレンジング学習器２２Ａは、平成６年式戸籍謄本に記載される地紋の形状、大きさ及び位置等を予め学習し、平成６年式戸籍謄本を表す第１画像データから、地紋を表さす地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

同様に、クレンジング学習器２２Ｂは、昭和２３年式戸籍謄本に記載される地紋の形状、大きさ及び位置等を予め学習し、昭和２３年式戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

同様に、クレンジング学習器２２Ｃは、大正４年式戸籍謄本に記載される地紋の形状、大きさ及び位置等を予め学習し、大正４年式戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

同様に、クレンジング学習器２２Ｄは、明治３１年式戸籍謄本に記載される地紋の形状、大きさ及び位置等を予め学習し、明治３１年式戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

ここでは一例として、各クレンジング学習器２２は、少なくとも地紋以外の文字を表す第２画像データを生成するように予め学習されている。各クレンジング学習器２２の学習の程度や学習に用いられる教師データ等によっては、第２画像データに、文字以外の情報である罫線等が表されることがある。また、各クレンジング学習器２２の学習の程度や学習に用いられる教師データ等によっては、下地や背景以外の情報（例えば文字の上から付いた汚れ等）が除去されることがある。

図９を参照して、処理の一例について説明する。図９には、大正４年式戸籍謄本３２が示されている。この大正４年式戸籍謄本３２が読取対象の文書である。大正４年式戸籍謄本３２には、地紋３２ｊが印刷されている。地紋３２ｊは、複数の文字列「禁複写」によって構成されている。各文字列「禁複写」は、例えば透かし文字である。

まず、地紋３２ｊが重畳された状態の大正４年式戸籍謄本３２を画像読取装置１８によって読み取る。これにより、地紋３２ｊが重畳された状態の大正４年式戸籍謄本３２を表す第１画像データが生成される。

次に、プロセッサ２０は、画像補正、２値化、レイアウト解析及び表構造解析等を実行し、簡易な文字認識処理を実行することで、当該第１画像データから特定のキーワード又は複数の特定のキーワードを抽出する。

例えば、符号３２ｋが指し示す文字列「籍本」と、符号３２ｍが指し示す文字列「主戸前」とが抽出された場合、読取対象の戸籍謄本は大正４年式戸籍謄本３２であると推定される。

次に、図８に示すように、プロセッサ２０は、クレンジング学習器２２Ａ，２２Ｂ，２２Ｃ，２２Ｄの中から、複数の特定のキーワードの組み合わせである、文字列「籍本」と文字列「主戸前」との組み合わせが紐付けられているクレンジング学習器２２Ｃを選択する。これにより、大正４年式戸籍謄本３２に特化したクレンジング学習器２２Ｃが選択される。

プロセッサ２０は、第１画像データに対してクレンジング学習器２２Ｃを用いてクレンジング処理を実行することで、第２画像データを生成する。このようにして生成された第２画像データは、地紋３２ｊが表されておらず、地紋３２ｊ以外の文字が表されている画像データである。例えば、図６に示すように、地紋３２ｊが表されていない大正４年式戸籍謄本３２を表す第２画像データが生成される。なお、クレンジング学習器２２Ｃの学習の程度や学習に用いられる教師データ等によっては、罫線等が表されていない第２画像データが生成される場合がある。このようにして生成された第２画像データに対して文字認識処理を実行することで、地紋３２ｊが表されていない第２画像データから文字が認識される。

大正４年式戸籍謄本３２以外の戸籍謄本についても同様に、抽出された特定のキーワード又は複数の特定のキーワードの組み合わせに紐付けられたクレンジング学習器２２が選択されてクレンジング処理が実行される。

（第１実施形態の実施例２）
第１実施形態の実施例２では、プロセッサ２０は、第１画像データに表されている文書において特定の位置に記載されている特定の情報（例えばキーワード等）を抽出し、その抽出された特定の情報が紐付けられているクレンジング学習器２２を用いてクレンジング処理を実行する。

以下、具体例を挙げて第１実施形態の実施例２について詳しく説明する。第１実施形態の実施例１の具体例と同様に、ここでは一例として、読取対象の文書は戸籍謄本であり、特定の情報は、戸籍謄本の時代を反映した複数の特定のキーワードの組み合わせである。

昭和２３年式戸籍謄本３０、大正４年式戸籍謄本３２、及び、明治３１年式戸籍謄本３４は、ほぼ同じ構造を有している場合があるが、記載されているキーワードが異なる場合がある。第１実施形態の実施例１にて説明したように、これらの戸籍謄本の間では、複数の特定のキーワードの組み合わせが異なる。

第１実施形態の実施例２では、複数の特定のキーワードが検出される座標を予め定めておき、プロセッサ２０は、当該座標から複数の特定のキーワードの組み合わせを検出し、その組み合わせに紐付けられているクレンジング学習器２２を用いてクレンジング処理を実行する。

図１０から図１２には、キーワードが検出される座標が示されている。図１０には、昭和２３年式戸籍謄本３０が示されており、図１１には、大正４年式戸籍謄本３２が示されており、図１２には、明治３１年式戸籍謄本３４が示されている。

各戸籍謄本において、ほぼ同じ座標が、キーワードが検出される座標として定められている。例えば、昭和２３年式戸籍謄本３０においては、符号３０ｋ，３０ｍのそれぞれが指し示す太枠の領域が、特定のキーワードが検出される領域であり、その領域の座標が定められている。大正４年式戸籍謄本３２においては、符号３２ｎ，３２ｐのそれぞれが指し示す太枠の領域が、特定のキーワードが検出される領域であり、その領域の座標が定められている。明治３１年式戸籍謄本３４においては、符号３４ｉ，３４ｊのそれぞれが指し示す太枠の領域が、特定のキーワードが検出される領域である。

例えば、上記のようにして定められた座標から、文字列「地籍本」と文字列「主戸前」との組み合わせが検出された場合、読取対象の戸籍謄本は、明治３１年式戸籍謄本３４であると推定される。プロセッサ２０は、文字列「地籍本」と文字列「主戸前」との組み合わせに紐付けられているクレンジング学習器２２Ｄを用いてクレンジング処理を実行する。他の時代の戸籍謄本についても同様である。

（第１実施形態の実施例３）
第１実施形態の実施例３では、プロセッサ２０は、第１画像データに表されている文書において特定の情報（例えばキーワード等）が記載されている位置に応じたクレンジング学習器２２を選択し、その選択したクレンジング学習器２２を用いてクレンジング処理を実行する。

以下、具体例を挙げて第１実施形態の実施例３について詳しく説明する。第１実施形態の実施例１の具体例と同様に、ここでは一例として、読取対象の文書は戸籍謄本であり、特定の情報は、戸籍謄本の時代を反映した特定のキーワードである。

図４に示すように、平成６年式戸籍謄本２８においては、文字列「本籍」という特定のキーワードが左上側の位置に記載されている。図５に示すように、昭和２３年式戸籍謄本３０においては、文字列「籍本」という特定のキーワードが右上側の位置に記載されている。図６に示すように、大正４年式戸籍謄本３２においては、文字列「籍本」という特定のキーワードが右上側の位置に記載されている。図７に示すように、明治３１年式戸籍謄本３４においては、文字列「地籍本」という特定のキーワードが右上側の位置に記載されている。このように、戸籍謄本の時代によって、特定のキーワードが記載されている位置が異なり、特定のキーワードが記載されている位置は、戸籍謄本の時代を反映しているといえる。

平成６年式戸籍謄本に特化したクレンジング学習器２２Ａには、文字列「本籍」と、その文字列「本籍」が記載されている位置（例えば左上側の位置）を示す情報とが予め紐付けられている。

昭和２３年式戸籍謄本に特化したクレンジング学習器２２Ｂには、文字列「籍本」と、その文字列「籍本」が記載されている位置（例えば右上側の位置）を示す情報とが予め紐付けられている。

大正４年式戸籍謄本に特化したクレンジング学習器２２Ｃには、文字列「籍本」と、その文字列「籍本」が記載されている位置（例えば右上側の位置）を示す情報とが予め紐付けられている。

明治３１年式戸籍謄本に特化したクレンジング学習器２２Ｄには、文字列「地籍本」と、その文字列「地籍本」が記載されている位置（例えば右上側の位置）を示す情報とが予め紐付けられている。

例えば、第１画像データから文字列「本籍」が検出され、その検出された位置が、第１画像データが表す戸籍謄本の左上側の位置である場合、読取対象の戸籍謄本は、平成６年式戸籍謄本であると推定される。プロセッサ２０は、文字列「本籍」と左上側の位置とに紐付けられているクレンジング学習器２２Ａを用いてクレンジング処理を実行する。他の時代の戸籍謄本についても同様である。

なお、特定のキーワードが抽出された位置によっては、読取対象の戸籍謄本の時代が推定されずに、読取対象の戸籍謄本に特化したクレンジング学習器２２が選択されない場合、第１実施形態の実施例１又は実施例２を組み合わせることで、読取対象の戸籍謄本に特化したクレンジング学習器２２が選択されてもよい。

（第１実施形態の実施例４）
第１実施形態の実施例４においては、プロセッサ２０は、第１画像データに表されている文書から特定の文字列を検索し、当該特定の文字列に対応する対応文字列を当該第１画像データから抽出する。そして、プロセッサ２０は、当該対応文字列に応じたクレンジング学習器２２を用いてクレンジング処理を実行する。以下、特定の文字列を「キー」と称し、対応文字列を「バリュー」と称することとする。

図１３を参照して、第１実施形態の実施例４に係る処理の流れについて説明する。図１３には、第１実施形態の実施例４に係る処理の流れを示すフローチャートが示されている。

まず、画像読取装置１８によって文書が読み取られ、当該文書を表す第１画像データが生成される（Ｓ１０）。

次に、プロセッサ２０は、第１画像データからキーを検索する（Ｓ１１）。キーは、予め定められている。例えば、プロセッサ２０は、第１画像データを対象として、画像補正、２値化、レイアウト解析及び表構造解析等を実行し、キーを検索するための簡易な文字認識処理を実行することで、当該第１画像データからキーを検索する。簡易な文字認識処理は、例えば、文字認識学習器２４が実行する文字認識処理ほど文字認識の精度は高くないが、キーを検索し得る程度の制度を有する文字認識処理である。

次に、プロセッサ２０は、第１画像データからキーに対応するバリューを抽出する（Ｓ１２）。例えば、プロセッサ２０は、キーが記載されている位置を基準として予め定められた方向の領域に記載されている文字列をバリューとして抽出する。例えば、キーの上側、下側、右側又は左側等の領域が予め定められており、プロセッサ２０は、その定められた領域内に記載されている文字列をバリューとして抽出する。このようにバリューが抽出されるように、当該バリューに対応するキーが設定される。

次に、プロセッサ２０は、複数のクレンジング学習器２２の中から、読み取られた文書の種類に特化したクレンジング学習器２２であって、抽出されたバリューに紐付けられているクレンジング学習器２２を選択する（Ｓ１３）。なお、ユーザがＵＩ１４を操作することで文書の種類を特定してもよいし、プロセッサ２０が第１画像データを解析することで文書の種類を特定してもよい。

次に、プロセッサ２０は、Ｓ１３にて選択されたクレンジング学習器２２を用いて第１画像データにクレンジング処理を実行する（Ｓ１４）。これにより、除去対象の情報を表さず除去対象以外の情報を表す第２画像データが生成される。

次に、プロセッサ２０は、文字認識学習器２４を用いて第２画像データに文字認識処理を実行する（Ｓ１５）。これにより、第２画像データから文字が認識される。

以下、第１実施形態の実施例４の具体例について説明する。第１実施形態の実施例１の具体例と同様に、ここでは一例として、読取対象の文書は戸籍謄本であり、除去対象の情報は地紋である。バリューは、戸籍謄本を発行した地方公共団体（例えば都道府県や市区町村等）を反映した文字列である。例えば、バリューは、戸籍謄本を発行した地方公共団体の名称を示す文字列である。

戸籍謄本に記載される地紋は、当該戸籍謄本を発行した地方公共団体毎に異なる場合がある。例えば、地紋として、戸籍謄本を発行した地方公共団体の名称等が用いられる場合があるため、地紋は地方公共団体毎に異なることがある。戸籍謄本を発行した地方公共団体を反映した文字列であるバリューを抽出することで、当該戸籍謄本を発行した地方公共団体が推定される。

プロセッサ２０は、バリューに応じたクレンジング学習器２２を選択し、選択したクレンジング学習器２２を用いてクレンジング処理を実行する。

バリューに応じたクレンジング学習器２２は、当該バリューが抽出された戸籍謄本に特化したクレンジング学習器２２である。バリューは、戸籍謄本を発行した地方公共団体を反映した文字列であるため、当該バリューが抽出された戸籍謄本に特化したクレンジング学習器２２は、当該戸籍謄本を発行した地方公共団体に特化したクレンジング学習器であるといえる。その戸籍謄本に特化したクレンジング学習器２２とは、当該戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように学習されたクレンジング学習器である。

図１４には、各地方公共団体が発行した戸籍謄本に特化したクレンジング学習器２２が示されている。ここでは一例として、都道府県毎に地紋が異なるものとする。

クレンジング学習器２２Ｅは、北海道が発行した戸籍謄本に特化したクレンジング学習器であり、バリューである文字列「北海道」が予め紐付けられている。

クレンジング学習器２２Ｆは、東京都が発行した戸籍謄本に特化したクレンジング学習器であり、バリューである文字列「東京都」が予め紐付けられている。

クレンジング学習器２２Ｇは、沖縄県が発行した戸籍謄本に特化したクレンジング学習器であり、バリューである文字列「沖縄県」が予め紐付けられている。

その他の県や府についても同様にクレンジング学習器２２が予め用意されている。

例えば、都道府県毎に、地紋の形状、大きさ及び位置等が異なる。従って、ある県が発行した戸籍謄本に記載されている地紋の形状、大きさ及び位置等を、当該県に特化したクレンジング学習器２２に予め学習させておくことで、当該クレンジング学習器２２は、当該県が発行した戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成することができるようになる。

例えば、クレンジング学習器２２Ｅは、北海道が発行する戸籍謄本に記載されている地紋の形状、大きさ及び位置等を予め学習し、北海道が発行する戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

同様に、クレンジング学習器２２Ｆは、東京都が発行する戸籍謄本に記載されている地紋の形状、大きさ及び位置等を予め学習し、東京都が発行する戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

同様に、クレンジング学習器２２Ｇは、沖縄県が発行する戸籍謄本に記載されている地紋の形状、大きさ及び位置等を予め学習し、沖縄県が発行する戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように予め学習したクレンジング学習器である。

他の県や府に特化しているクレンジング学習器２２についても同様である。

ここでは一例として、各クレンジング学習器２２は、少なくとも地紋以外の文字を表す第２画像データを生成するように予め学習されている。各クレンジング学習器２２の学習の程度が学習に用いられる教師データ等によっては、第２画像データに、文字以外の情報である罫線等が表されることがある。

図１５を参照して、処理の一例について説明する。図１５には、東京都が発行した昭和２３年式戸籍謄本３０が示されている。この昭和２３年式戸籍謄本３０が読取対象の文書である。東京都が発行した昭和２３年式戸籍謄本３０には、地紋３０ｎが印刷されている。地紋３０ｎは、複数の文字「Ｘ」によって構成されている。各文字「Ｘ」は、例えば透かし文字である。

まず、地紋３０ｎが重畳された状態の昭和２３年式戸籍謄本３０を画像読取装置１８によって読み取る。これにより、地紋３０ｎが重畳された状態の昭和２３年式戸籍謄本３０を表す第１画像データが生成される。

次に、プロセッサ２０は、画像補正、２値化、レイアウト解析及び表構造解析等を実行し、簡易な文字認識処理を実行することで、当該第１画像データからキーを検索する。ここでは一例として、キーは、文字列「本籍」、文字列「籍本」又は文字列「地籍本」である。地方公共団体を反映したバリュー（例えば地方公共団体の名称を示すバリュー）が抽出されるようにキーが定められる。文字列「本籍」、文字列「籍本」又は文字列「地籍本」の周囲には、地方公共団体を示す文字列が記載されていると推定される。それ故、キーとして、文字列「本籍」、文字列「籍本」又は文字列「地籍本」が用いられる。

次に、プロセッサ２０は、キーである文字列「本籍」、文字列「籍本」又は文字列「地籍本」の位置を基準として、予め定められた方向の領域内にてバリューを検索する。予め定められた方向の領域は、キーの位置を基準として、地方公共団体を反映したバリューが記載されていると推定される方向の領域である。プロセッサ２０は、例えば、文字列「本籍」、文字列「籍本」又は文字列「地籍本」の位置の右側又は下側の領域内にてバリューを検索する。

図１５に示す例では、符号３０ｐが指し示す文字列「籍本」がキーであり、当該文字列「籍本」が検索される。そして、当該文字列「籍本」の右側又は下側の領域内からバリューが検索される。ここでは、符号３０ｑが指し示すように、文字列「籍本」の下側の領域から、バリューである文字列「東京都・・・」が検索される。

プロセッサ２０は、文字列「籍本」の下側の領域から、バリューである文字列「東京都・・・」を抽出する。バリューである文字列「東京都・・・」には、文字列「東京都」が含まれているため、読取対象の戸籍謄本は、東京都が発行した戸籍謄本であると推定される。

次に、図１４に示すように、プロセッサ２０は、クレンジング学習器２２Ｅ，２２Ｆ，２２Ｇ，・・・の中から、バリューに含まれる文字列「東京都」が紐付けられているクレンジング学習器２２Ｆを選択する。これにより、東京都に特化したクレンジング学習器２２Ｆが選択される。

プロセッサ２０は、第１画像データに対してクレンジング学習器２２Ｆを用いてクレンジング処理を実行することで、第２画像データを生成する。このようにして生成された第２画像データは、地紋３０ｎが表されておらず、地紋３０ｎ以外の文字が表された画像データである。例えば、地紋３０ｎが表されていない昭和２３年式戸籍謄本３０を表す第２画像データが生成される。なお、クレンジング学習器２２Ｆの学習の程度や学習に用いられる教師データ等によっては、罫線等が表されていない第２画像データが生成される場合がある。このようにして生成された第２画像データに対して文字認識処理を実行することで、地紋３０ｎが表されていない第２画像データから文字が認識される。

他の地方公共団体が発行した戸籍謄本についても同様に、キーに対応するバリューが抽出され、そのバリューに紐付けられたクレンジング学習器２２が選択されてクレンジング処理が実行される。

なお、対応文字列であるバリューが、地域の旧名称を現す文字列である場合、プロセッサ２０は、当該旧名称に対応する現在の名称に応じたクレンジング学習器２２を用いてクレンジング処理を実行する。

例えば、バリューが、現在の地方公共団体の名称を表しておらず、過去の地方公共団体の名称を表している場合、プロセッサ２０は、当該過去の名称に対応する現在の名称に応じたクレンジング学習器２２を用いてクレンジング処理を実行する。

具体的には、過去の地方公共団体の名称と、当該過去の地方公共団体に対応する現在の地方公共団体の名称とが予め紐付けられており、その紐付けを示す管理情報（例えばテーブル等）が、予め記憶装置１６等に記憶されている。プロセッサ２０は、当該テーブルを参照することで、抽出された旧名称に対応する現在の名称を特定し、その現在の名称に紐付けられているクレンジング学習器２２を用いてクレンジング処理を実行する。

例えば、「信濃」や「阿波」等は旧県名であり、このような旧県名を表す文字列がバリューとして抽出される場合がある。この場合、プロセッサ２０は、上記のテーブルを参照することで、抽出された旧県名に対応する現在の県名を特定する。例えば、「信濃」は現在の「長野県」であるため、バリューとして文字列「信濃」が抽出された場合、プロセッサ２０は、「信濃」に対応する「長野県」に紐付けられたクレンジング学習器２２を用いてクレンジング処理を実行する。

（第１実施形態の実施例５）
第１実施形態の実施例５では、プロセッサ２０は、キーの位置を基準としてバリューが記載されている方向に応じたクレンジング学習器２２を用いてクレンジング処理を実行する。ここでは一例として、キーは、文字列「本籍」、文字列「籍本」又は文字列「地籍本」であり、バリューは、地方公共団体の名称を示す文字列である。

例えば、図４に示すように、平成６年式戸籍謄本２８においては、キーである文字列「本籍」の右側に、バリューである文字列「ＸＸ県・・・」が記載されている。図５に示すように、昭和２３年式戸籍謄本３０においては、キーである文字列「籍本」の下側に、バリューである文字列「ＸＸ県・・・」が記載されている。図６に示すように、大正４年式戸籍謄本３２においては、キーである文字列「籍本」の下側に、バリューである文字列「ＸＸ県・・・」が記載されている。図７に示すように、明治３１年式戸籍謄本３４においては、キーである文字列「地籍本」の下側に、バリューである文字列「ＸＸ県・・・」が記載されている。

実施例５では、キーの右側からバリューが抽出された場合、プロセッサ２０は、平成６年式戸籍謄本に特化したクレンジング学習器２２Ａを用いてクレンジング処理を実行する。キーの下側からバリューが抽出された場合、プロセッサ２０は、昭和２３年式戸籍謄本に特化したクレンジング学習器２２Ｂ、大正４年式戸籍謄本に特化したクレンジング学習器２２Ｃ、又は、明治３１年式戸籍謄本に特化したクレンジング学習器２２Ｄを用いてクレンジング処理を実行する。

（第１実施形態の実施例６）
以下、第１実施形態の実施例６について説明する。読取対象の文書が戸籍謄本であり、戸籍謄本の時代に特化したクレンジング学習器２２を選択する場合、除籍を表す情報に応じてクレンジング学習器２２が選択されてもよい。

例えば、図４に示されている平成６年式戸籍謄本２８においては、符号２８ｈが指し示すように、除籍されている者については、枠で囲まれた文字列「除籍」が記載されている。一方、図５に示されている昭和２３年式戸籍謄本３０においては、符号３０ｈが指し示すように、除籍されている者については、バツ印が記載されている。大正４年式戸籍謄本３２及び明治３１年式戸籍謄本３４においても、除籍されている者については、バツ印が記載される。

実施例６では、枠で囲まれた文字列「除籍」が抽出された場合、プロセッサ２０は、平成６年式戸籍謄本に特化したクレンジング学習器２２Ａを用いてクレンジング処理を実行する。バツ印が抽出された場合、プロセッサ２０は、昭和２３年式戸籍謄本に特化したクレンジング学習器２２Ｂ、大正４年式戸籍謄本に特化したクレンジング学習器２２Ｃ、又は、明治３１年式戸籍謄本に特化したクレンジング学習器２２Ｄを用いてクレンジング処理を実行する。

＜第２実施形態＞
以下、第２実施形態について説明する。第２実施形態に係る情報処理装置１０は、第１実施形態と同様に、通信装置１２と、ＵＩ１４と、記憶装置１６と、画像読取装置１８と、プロセッサ２０とを含む。

第２実施形態においては、プロセッサ２０は、第１画像データに表されている文書の外観的特徴に応じたクレンジング処理によって、当該第１画像データに表されている情報のうち除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成する。つまり、プロセッサ２０は、文書の外観的特徴に応じてクレンジング処理を変更して、クレンジング処理を第１画像データに実行する。プロセッサ２０は、文書の外観的特徴に応じて、クレンジング処理の方式を変更してもよいし、クレンジング処理のエンジンを変更してもよい。

別の例として、プロセッサ２０は、画像データに表されている文書の外観的特徴に応じた文字認識処理によって、当該画像データから文字を認識してもよい。つまり、プロセッサ２０は、文書の外観的特徴に応じて文字認識処理を変更して、文字認識処理を画像データに実行する。プロセッサ２０は、文書の外観的特徴に応じて、文字認識処理の方式（例えば文字認識処理のアルゴリズム）を変更してもよいし、文字認識処理のエンジンを変更してもよい。文字認識処理のエンジンの概念の範疇には、文字認識処理を人工知能によって実現する文字認識学習器が含まれてもよい。更に別の例として、プロセッサ２０は、文書の外観的特徴に応じて、文字認識に用いられる辞書を変更してもよい。

プロセッサ２０は、第１画像データに表されている文書の外観的特徴に応じたクレンジング処理を実行することで第２画像データを生成し、当該外観的特徴に応じた文書認識処理を実行することで当該第２画像データから文字を認識してもよい。

文書の外観的特徴は、文字認識の対象とならない情報であり、例えば、読取対象の文書の特徴が反映された情報である。文書の外観的特徴は、文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る。文書の外観的特徴は、例えば、文書中の枠の形状である。

また、第２実施形態に係る情報処理装置１０は、第１実施形態と同様に、クレンジング学習器２２と、文字認識学習器２４と、文字認識辞書２６とを有する。

以下、第２実施形態の各実施例について説明する。

（第２実施形態の実施例１）
第２実施形態の実施例１では、プロセッサ２０は、文書の外観的特徴に応じてクレンジング処理を変更してクレンジング処理に実行する。

例えば、第２実施形態に係る情報処理装置１０は、複数の異なるクレンジング学習器２２を有する。第１画像データに表されている文書の外観的特徴毎に異なるクレンジング学習器２２が作成されており、クレンジング学習器２２には、外観的特徴を示す情報が紐付けられている。除去対象の情報及び文書の外観的特徴は、文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る。つまり、除去対象の情報と文書の外観的特徴は対応関係を有する。ある文書の外観的特徴を示す情報が紐付けられているクレンジング学習器２２は、当該外観的特徴に対応する除去対象の情報に特化したクレンジング学習器であり、第１画像データから、当該外観的特徴に対応する除去対象を表さず除去対象以外の情報を表す第２画像データを生成するように学習されている。

図１６を参照して、第２実施形態の実施例１について説明する。図１６には、第２実施形態の実施例１に係る処理の流れを示すフローチャートが示されている。

まず、画像読取装置１８によって文書が読み取られ、当該文書を表す第１画像データが生成される（Ｓ２０）。

次に、プロセッサ２０は、第１画像データに表されている文書の外観的特徴を当該第１画像データから抽出する（Ｓ２１）。例えば、公知の技術を用いることで外観的特徴が抽出される。

次に、プロセッサ２０は、複数のクレンジング学習器２２の中から、読み取られた文書の種類に特化したクレンジング学習器２２であって、第１画像データから抽出された文書の外観的特徴を示す情報が紐付けられているクレンジング学習器２２を選択する（Ｓ２２）。なお、ユーザがＵＩ１４を操作することで文書の種類を指定してもよいし、プロセッサ２０が第１画像データを解析することで文書の種類を特定してもよい。

次に、プロセッサ２０は、Ｓ２２にて選択されたクレンジング学習器２２を用いて第１画像データにクレンジング処理を実行する（Ｓ２３）。これにより、除去対象の情報を表さず除去対象以外の情報を表す第２画像データが生成される。

次に、プロセッサ２０は、文字認識学習器２４を用いて第２画像データに文字認識処理を実行する（Ｓ２４）。これにより、第２画像データから文字が認識される。なお、文字認識処理は、情報処理装置１０以外の他の装置によって実行されてもよい。

（第２実施形態の実施例２）
第２実施形態の実施例２では、プロセッサ２０は、文書の外観的特徴に応じて文書認識処理を変更して文書認識処理を実行する。

例えば、第２実施形態に係る情報処理装置１０は、複数の異なる文字認識学習器２４を有する。各文字認識学習器２４は、異なる文字認識処理を実行する。例えば、文字認識学習器２４は、文書の種類毎に異なる文字認識学習器であってもよいし、文書が作成された時代毎に異なる文字認識学習器であってもよいし、文書の作成者毎に異なる文字認識学習器であってもよいし、文書の用途毎に異なる文字認識学習器であってもよい。例えば、各文字認識学習器２４で、画像データに表されている文書のレイアウト解析のアルゴリズム、行や列を抽出するアルゴリズム、行や列から文字を抽出するアルゴリズム、文字の正規化のアルゴリズム、文字の特徴の抽出のアルゴリズム、文字認識辞書に登録されている文字と抽出された特徴とのマッチングのアルゴリズム、又は、知識処理のアルゴリズム等が異なる。

文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて、文書に記載されている文字の特徴（例えば、文字の字体（つまり文字の形状）や、文字の大きさや、文字のかすれや、文字の書き方等）が異なる場合がある。また、文書の外観的特徴は、文書の種類や、文書が作成された時代や、文書の作成者や、文書の用途等に応じて変わり得る。従って、文書に記載されている文字の特徴と当該文書の外観的特徴は対応関係を有する。

読取対象の文書の外観的特徴毎に異なる文字認識学習器２４が作成されており、文字認識学習器２４には、外観的特徴を示す情報が紐付けられている。ある文書の外観的特徴を示す情報が紐付けられている文字認識学習器２４は、当該外観的特徴に対応する文字の特徴に特化した文字認識学習器であり、当該外観的特徴を有する文書から文字を認識するように学習されている。

図１７を参照して、第２実施形態の実施例２について説明する。図１７には、第２実施形態の実施例２に係る処理の流れを示すフローチャートが示されている。

まず、画像読取装置１８によって文書が読み取られ、当該文書を表す画像データが生成される（Ｓ３０）。

次に、プロセッサ２０は、Ｓ３０にて生成された画像データに表されている文書の外観的特徴を当該画像データから抽出する（Ｓ３１）。

次に、プロセッサ２０は、複数の文字認識学習器２４の中から、読み取られた文書の種類に特化した文字認識学習器２４であって、Ｓ３０にて生成された画像データから抽出された文書の外観的特徴を示す情報が紐付けられている文字認識学習器２４を選択する（Ｓ３２）。なお、ユーザがＵＩ１４を操作することで文書の種類を指定してもよいし、プロセッサ２０が画像データを解析することで文書の種類を特定してもよい。

次に、プロセッサ２０は、Ｓ３２にて選択された文字認識学習器２４を用いて画像データに文字認識処理を実行する（Ｓ３３）。これにより、画像データから文字が認識される。

（第２実施形態の実施例３）
第２実施形態の実施例３では、プロセッサ２０は、文書の外観的特徴に応じた文字認識辞書を用いて文字認識処理を実行する。

例えば、第２実施形態に係る情報処理装置１０は、複数の異なる文字認識辞書２６を有する。例えば、文字認識辞書２６は、文書の種類毎に異なる文字認識辞書であってもよいし、文書が作成された時代毎に異なる文字認識辞書であってもよいし、文書の作成者毎に異なる文字認識辞書であってもよい。

読取対象の文書の外観的特徴毎に異なる文字認識辞書２６が作成されており、文字認識辞書２６には、外観的特徴を示す情報が紐付けられている。ある文書の外観的特徴を示す情報が紐付けられている文字認識辞書２６は、当該外観的特徴に対応する文字の特徴に特化した文字認識辞書であり、当該外観的特徴を有する文書から文字が認識されるように、当該外観的特徴に対応する文字の特徴が登録されている。

図１８を参照して、第２実施形態の実施例３について説明する。図１８には、第２実施形態の実施例３に係る処理の流れを示すフローチャートが示されている。

まず、画像読取装置１８によって文書が読み取られ、当該文書を表す画像データが生成される（Ｓ４０）。

次に、プロセッサ２０は、Ｓ４０にて生成された画像データに表されている文書の外観的特徴を当該画像データから抽出する（Ｓ４１）。

次に、プロセッサ２０は、複数の文字認識辞書２６の中から、読み取られた文書の種類に特化した文字認識辞書２６であって、Ｓ４０にて生成された画像データから抽出された文書の外観的特徴を示す情報が紐付けられている文字認識辞書２６を選択する（Ｓ４２）。

次に、プロセッサ２０は、Ｓ４２にて選択された文字認識辞書２６を用いて画像データに文字認識処理を実行する（Ｓ４３）。これにより、画像データから文字が認識される。

以下、具体例を挙げて第２実施形態について詳しく説明する。ここでは一例として、読取対象の文書は戸籍謄本であり、外観的特徴は文書中の枠の形状である。

一般的に、戸籍謄本中の枠の形状は、戸籍謄本の時代毎に異なる。例えば、図４に示されている平成６年式戸籍謄本２８は２列の枠を有し、文字を書き進める方向は横書きである。一方、図５に示されている昭和２３年式戸籍謄本３０、図６に示されている大正４年式戸籍謄本３２、及び、図７に示されている明治３１年式戸籍謄本３４は、平成６年式戸籍謄本２８よりも多くの列の枠を有し、文字を書き進める方向は縦書きである。このように、平成６年式戸籍謄本２８の枠の形状は、他の戸籍謄本の枠の形状と異なるため、枠の形状によって、平成６年式戸籍謄本２８と他の戸籍謄本とを区別することができる。

また、図１９に示すように、昭和２３年式戸籍謄本３０には、文字列「籍本」の記載欄の左側に、大正４年式戸籍謄本３２や明治３１年式戸籍謄本３４にはない太い枠（例えば符号３０ｒが指し示す枠）が形成されている。この太い枠の有無によって、昭和２３年式戸籍謄本３０と他の戸籍謄本とを区別することができる。

上記のように、戸籍謄本の時代によって枠の形状が異なるため、読取対象の戸籍謄本を表す画像データから抽出された枠の形状に基づいて、当該戸籍謄本の時代が推定される。

第２実施形態の実施例１では、例えば、プロセッサ２０は、公知技術を用いることで、読取対象の戸籍謄本を表す第１画像データから枠の形状を抽出し、その枠の形状に応じたクレンジング学習器２２を選択し、選択したクレンジング学習器２２を用いてクレンジング処理を実行する。第１画像データから抽出された枠の形状に応じたクレンジング学習器２２は、当該枠の形状が抽出された戸籍謄本に特化したクレンジング学習器２２である。枠の形状は戸籍謄本の時代を反映しているため、当該戸籍謄本に特化したクレンジング学習器２２は、当該戸籍謄本の時代に特化したクレンジング学習器であるといえる。その戸籍謄本に特化したクレンジング学習器２２は、当該戸籍謄本を表す第１画像データから、地紋を表さず地紋以外の情報を表す第２画像データを生成するように学習されたクレンジング学習器である。

例えば、クレンジング学習器２２Ａには、平成６年式戸籍謄本の枠の形状が予め紐付けられており、クレンジング学習器２２Ｂには、昭和２３年式戸籍謄本の枠の形状が予め紐付けられており、クレンジング学習器２２Ｃには、大正４年式戸籍謄本の枠の形状が予め紐付けられており、クレンジング学習器２２Ｄには、明治３１年式戸籍謄本の枠の形状が予め紐付けられている。

例えば、読取対象の戸籍謄本を表す第１画像データから、昭和２３年式戸籍謄本２８に含まれる枠の形状（例えば符号３０ｒが指し示す枠の形状）が抽出された場合、プロセッサ２０は、クレンジング学習器２２Ａ，２２Ｂ，２２Ｃ，２２Ｄの中から、抽出された枠の形状が紐付けられているクレンジング学習器２２Ｂを選択する。これにより、昭和２３年式戸籍謄本に特化したクレンジング学習器２２Ｂが選択される。

プロセッサ２０は、第１画像データに対してクレンジング学習器２２Ｂを用いてクレンジング処理を実行することで、第２画像データを生成する。

昭和２３年式戸籍謄本２８以外の戸籍謄本についても同様に、抽出された枠の形状に紐付けられたクレンジング学習器２２が選択されてクレンジング処理が実行される。

第２実施形態の実施例２では、例えば、プロセッサ２０は、公知技術を用いることで、読取対象の戸籍謄本を表す画像データから枠の形状を抽出し、その枠の形状に応じた文字認識学習器２４を選択し、選択した文字認識学習器２４を用いて文字認識処理を実行する。画像データから抽出された枠の形状に応じた文字認識学習器２４は、当該枠の形状が抽出された戸籍謄本に特化した文字認識学習器２４である。枠の形状は戸籍謄本の時代を反映しているため、当該戸籍謄本に特化した文字認識学習器２４は、当該戸籍謄本の時代に特化した文字認識学習器であるといえる。

図２０には、各戸籍謄本の時代に特化した文字認識学習器２４が示されている。文字認識学習器２４Ａは、平成６年式戸籍謄本に特化した文字認識学習器である。文字認識学習器２４Ａには、平成６年式戸籍謄本の枠の形状が予め紐付けられている。文字認識学習器２４Ｂは、昭和２３年式戸籍謄本に特化した文字認識学習器である。文字認識学習器２４Ｂには、昭和２３年式戸籍謄本の枠の形状が予め紐付けられている。文字認識学習器２４Ｃは、大正４年式戸籍謄本に特化した文字認識学習器である。文字認識学習器２４Ｃには、大正４年式戸籍謄本の枠の形状が予め紐付けられている。文字認識学習器２４Ｄは、明治３１年式戸籍謄本に特化した文字認識学習器である。文字認識学習器２４Ｄには、明治３１年式戸籍謄本の枠の形状が予め紐付けられている。

例えば、読取対象の戸籍謄本を表す画像データから、昭和２３年式戸籍謄本２８に含まれる枠の形状（例えば符号３０ｒが指し示す枠の形状）が抽出された場合、プロセッサ２０は、文字認識学習器２４Ａ，２４Ｂ，２４Ｃ，２４Ｄの中から、抽出された枠の形状が紐付けられている文字認識学習器２４Ｂを選択する。これにより、昭和２３年式戸籍謄本に特化した文字認識学習器２４Ｂが選択される。

プロセッサ２０は、画像データに対して文字認識学習器２４Ｂを用いて文字認識処理を実行することで、当該画像データから文字を認識する。

昭和２３年式戸籍謄本２８以外の戸籍謄本についても同様に、抽出された枠の形状に紐付けられた文字認識学習器２４が選択されて文字認識処理が実行される。

第２実施形態の実施例３では、例えば、プロセッサ２０は、公知技術を用いることで、読取対象の戸籍謄本を表す画像データから枠の形状を抽出し、その枠の形状に応じた文字認識辞書２６を選択し、選択した文字認識辞書２６を用いて文字認識処理を実行する。画像データから抽出された枠の形状に応じた文字認識辞書２６は、当該枠の形状が抽出された戸籍謄本に特化した文字認識辞書である。枠の形状は戸籍謄本の時代を反映しているため、当該戸籍謄本に特化した文字認識辞書２６は、当該戸籍謄本の時代に特化した文字認識辞書であるといえる。

図２１には、各戸籍謄本の時代に特化した文字認識辞書２６が示されている。文字認識辞書２６Ａは、平成６年式戸籍謄本に特化した文字認識辞書である。文字認識辞書２６Ａには、平成６年式戸籍謄本の枠の形状が予め紐付けられている。文字認識辞書２６Ｂは、昭和２３年式戸籍謄本に特化した文字認識辞書である。文字認識辞書２６Ｂには、昭和２３年式戸籍謄本の枠の形状が予め紐付けられている。文字認識辞書２６Ｃは、大正４年式戸籍謄本に特化した文字認識辞書である。文字認識辞書２６Ｃには、大正４年式戸籍謄本の枠の形状が予め紐付けられている。文字認識辞書２６Ｄは、明治３１年式戸籍謄本に特化した文字認識辞書である。文字認識辞書２６Ｄには、明治３１年式戸籍謄本の枠の形状が予め紐付けられている。

例えば、読取対象の戸籍謄本を表す画像データから、昭和２３年式戸籍謄本２８に含まれる枠の形状（例えば符号３０ｒが指し示す枠の形状）が抽出された場合、プロセッサ２０は、文字認識辞書２６Ａ，２６Ｂ，２６Ｃ，２６Ｄの中から、抽出された枠の形状が紐付けられている文字認識辞書２６Ｂを選択する。これにより、昭和２３年式戸籍謄本に特化した文字認識辞書２６Ｂが選択される。

プロセッサ２０は、画像データに対して文字認識辞書２６Ｂを用いて文字認識処理を実行することで、当該画像データから文字を認識する。

昭和２３年式戸籍謄本２８以外の戸籍謄本についても同様に、抽出された枠の形状に紐付けられた文字認識辞書２６が選択されて文字認識処理が実行される。

（第２実施形態の実施例４）
第２実施形態の実施例４では、文書の外観的特徴は、文書中の文字の形状である。例えば、戸籍謄本が作成された時代に応じて、戸籍謄本が活字又は手書きで作成される。また、同じ時代の戸籍謄本であっても、活字で作成される戸籍謄本と、手書きで作成される戸籍謄本とが存在する場合がある。例えば、戸籍謄本が電子化されている場合、戸籍謄本が活字で作成され、戸籍謄本が電子化されていない場合、戸籍謄本が手書きで作成されることがある。

第２実施形態の実施例４では、プロセッサ２０は、読取対象の文書中の文字の形状に応じたクレンジング処理を実行する。例えば、活字に特化したクレンジング学習器２２と、手書きに特化したクレンジング学習器２２とが予め作成される。活字に特化したクレンジング学習器２２は、活字で作成された戸籍謄本を表す第１画像データから、除去対象の情報（例えば地紋）を表さず除去対象以外の情報を表す第２画像データを生成するように学習されたクレンジング学習器である。手書きに特化したクレンジング学習器２２は、手書きで作成された戸籍謄本を表す第１画像データから、除去対象の情報を表さず除去対象以外の情報を表す第２画像データを生成するように学習されたクレンジング学習器である。活字に特化したクレンジング学習器２２には、活字を示す情報が予め紐付けられており、手書きに特化したクレンジング学習器２２には、手書きを示す情報が予め紐付けられている。

プロセッサ２０は、公知技術を用いることで、第２画像データに表されている読取対象の戸籍謄本が、活字によって作成されたか、手書きによって作成されたかを特定する。例えば、プロセッサ２０は、読取対象の戸籍謄本を表す第２画像データに対して文字認識処理を実行し、当該戸籍謄本に記載されている活字及び手書き文字のそれぞれの数をカウントし、活字及び手書き文字のそれぞれの数に基づいて、当該戸籍謄本が活字又は手書きのいずれかによって作成されたのかを特定する。例えば、プロセッサ２０は、活字の数が手書き文字の数よりも多い場合、当該戸籍謄本は活字で作成された文書であると特定し、手書き文字の数が活字の数よりも多い場合、当該戸籍謄本は手書きで作成された文書であると特定する。もちろん、プロセッサ２０は、別の技術を用いることで、読取対象の文書が、活字又は手書きのいずれかによって作成された文書であることを特定してもよい。

読取対象の戸籍謄本が活字によって作成された場合、プロセッサ２０は、活字を示す情報が紐付けられているクレンジング学習器２２を用いてクレンジング処理を実行する。読取対象の戸籍謄本が手書きによって作成された場合、プロセッサ２０は、手書きを示す情報が紐付けられているクレンジング学習器２２を用いてクレンジング処理を実行する。

別の例として、プロセッサ２０は、読取対象の文書中の文字の形状に応じた文字認識処理を実行してもよい。例えば、活字に特化した文字認識学習器２４と、手書きに特化した文字認識学習器２４とが予め作成される。活字に特化した文字認識学習器２４は、活字で作成された戸籍謄本を表す画像データから活字を認識するように学習された文字認識学習器である。手書きに特化した文字認識学習器２４は、手書きで作成された戸籍謄本を表す画像データから手書きの文字を認識するように学習された文字認識学習器である。活字に特化した文字認識学習器２４には、活字を示す情報が予め紐付けられており、手書きに特化した文字認識学習器２４には、手書きを示す情報が予め紐付けられている。

読取対象の戸籍謄本が活字によって作成された場合、プロセッサ２０は、活字を示す情報が紐付けられている文字認識学習器２４を用いて文字認識処理を実行する。読取対象の戸籍謄本が手書きによって作成された場合、プロセッサ２０は、手書きを示す情報が紐付けられている文字認識学習器２４を用いて文字認識処理を実行する。

更に別の例として、プロセッサ２０は、読取対象の文書中の文字の形状に応じた文字認識辞書を用いて文字認識処理を実行してもよい。例えば、活字に特化した文字認識辞書２６と、手書きに特化した文字認識辞書２６とが予め作成される。活字に特化した文字認識辞書２６は、画像データから活字を認識するための文字が登録されている辞書である。手書きに特化した文字認識辞書２６は、画像データから手書きの文字を認識するための文字が登録されている辞書である。活字に特化した文字認識辞書２６には、活字を示す情報が予め紐付けられており、手書きに特化した文字認識辞書２６には、手書きを示す情報が予め紐付けられている。

読取対象の戸籍謄本が活字によって作成された場合、プロセッサ２０は、活字を示す情報が紐付けられている文字認識辞書２６を用いて文字認識処理を実行する。読取対象の戸籍謄本が手書きによって作成された場合、プロセッサ２０は、手書きを示す情報が紐付けられている文字認識辞書２６を用いて文字認識処理を実行する。

また、戸籍謄本が手書きで作成されている場合、プロセッサ２０は、手書きの文字の書体（例えば、大字、変体仮名、崩し字、異体字、草書体等）を特定し、その特定した書体に応じて、クレンジング学習器２２、文字認識学習器２４又は文字認識辞書２６を変更してもよい。

文字認識辞書２６は、文字認識学習器２４に含まれていてもよい。この場合、外観的特徴に応じて、文字認識処理のアルゴリズム又は文字認識辞書が変更されてもよいし、文字認識処理のアルゴリズムと文字認識辞書の両方が変更されてもよい。

上述した第１実施形態及び第２実施形態では、文書の一例として戸籍謄本を例に挙げて各実施例について説明したが、戸籍謄本は文書の一例に過ぎず、読取対象の文書は戸籍謄本以外の文書であってもよい。戸籍謄本以外の文書が読取対象の文書であっても、戸籍謄本と同様に各実施例に係る処理が実行される。

上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ（例えばCPU： Central Processing Unit、等）や、専用のプロセッサ（例えばGPU： Graphics Processing Unit、ASIC： Application Specific Integrated Circuit、FPGA： Field Programmable Gate Array、プログラマブル論理デバイス、等）を含むものである。また上記各実施形態におけるプロセッサの動作は、１つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。

１０情報処理装置、１８画像読取装置、２０プロセッサ。

Claims

プロセッサを有し、
前記プロセッサは、
文書を表す第１画像データを受け付け、
前記文書の外観的特徴に応じた処理によって、前記第１画像データに表されている情報のうち除去対象の情報を表さず前記除去対象以外の情報を表す第２画像データを生成する、
情報処理装置。
プロセッサを有し、
前記プロセッサは、
文書を表す画像データを受け付け、
前記画像データに表されている文字を認識する処理であって前記文書の外観的特徴に応じた処理によって、前記文字を認識する、
情報処理装置。
前記外観的特徴は、前記文書中の枠の形状である、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記外観的特徴は、前記文書中の文字の形状である、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
コンピュータに、
文書を表す第１画像データを受け付けさせ、
前記文書の外観的特徴に応じた処理によって、前記第１画像データに表されている情報のうち除去対象の情報を表さず前記除去対象以外の情報を表す第２画像データを生成させる、
プログラム。
コンピュータに、
文書を表す第１画像データを受け付けさせ、
前記第１画像データに表されている文字を認識する処理であって前記文書の外観的特徴に応じた処理によって、前記文字を認識させる、
プログラム。