JP2023087357A

JP2023087357A - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: JP2023087357A
Application number: JP2021201693A
Authority: JP
Inventors: 亮小坂; Ryo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2023-06-23

Abstract

【課題】文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する文字列のデータを、所定の項目に対応する項目値の候補として抽出する。【解決手段】学習用の文書画像を解析して分割した、所定の項目の項目値に対応する領域毎に、領域を示す第１のトークンと、学習用の文書画像から取得した文字列を構成する単語を示す第２のトークンとを生成する。第１のトークンと第２のトークンを連結して生成した第１の入力トークン列を入力データとし、第１の入力トークン列を構成する第１のトークンおよび第２のトークンを項目に対応する情報に置き換えた出力トークン列を出力データとして生成した学習データを用いて機械学習を行うことにより、文書画像から所定の項目の項目値に対応する文字列を候補文字列として抽出するための学習済みモデルを生成する。【選択図】図３

Description

本開示は、文書画像から文字列のデータを抽出する技術に関する。

イメージスキャナデバイス（以下「スキャナ」という。）またはファクシミリ（以下「ＦＡＸ」という。）受信機などを用いて得られた文書画像から、所定の項目値を文字列のデータとして抽出することが行われている。抽出された文字列のデータは、ファイル名の自動付与などの文書ファイリング処理、または業務システムへの転記処理などの入力データとしてデータ入力業務などに用いられる。

特許文献１には、データ入力業務を支援する技術として、一般に準定型文書または非定型文書と呼ばれる、予めレイアウトが定められた定型文書とは異なるレイアウトで作成された文書の画像から所定の項目値に対応する文字列を抽出する手法が開示されている。特許文献１に開示された手法（以下「従来手法」という。）は、先ず、振込依頼書などの文書画像に含まれる複数の文字列から、口座番号などの予め定められた項目名と、項目名に対応する１２３４５６７などの項目値を抽出する。そして、項目名と項目値との互いの位置関係から両者の妥当性を評価し、この評価結果に基づいて項目値を抽出する。従来手法では、項目名を、番号または口座番号などの予め定められたキーワードに基づいて抽出し、項目値を、ＮＮＮＮＮＮＮ（Nは、例えば任意のアラビア数字）などの予め定められたデータ型に基づいて抽出する。

特開２０１６－５１３３９号公報

従来手法では、金額、日付、または口座番号などの文字列の表記に規則性がある項目の項目値については抽出できるが、氏名、住所、職業、または続柄などの文字列の表記に規則性が無い項目の項目値については抽出できないことがあった。すなわち、文字列の表記に規則性がある場合についてはデータ型によって妥当性を評価できるが、文字列の表記に規則性が無い場合については、データ型によって妥当性を評価することが困難なため、項目値を必ずしも抽出できるわけではない。また、上述の従来手法とは別の手法として、文書画像中の全ての文字列に対して自然言語処理による機械学習を行う手法が考えられるが、抽出対象である項目値の手がかりとなる文字列の出現位置に影響されて項目値を正しく抽出できないことがあった。

本開示の一態様に係る情報処理装置は、文書画像から所定の項目の項目値に対応する文字列を候補文字列として抽出するための学習済みモデルを生成する情報処理装置であって、学習用の文書画像から文字列を取得する第１の取得手段と、前記学習用の文書画像から抽出対象の文字列に対応する所定の項目を取得する第２の取得手段と、前記学習用の文書画像を解析して前記所定の項目の項目値に対応する領域に分割する第１の解析手段と、前記第１の解析手段により分割された領域毎に前記領域を示す第１のトークンを生成する第１の生成手段と、前記第１の解析手段により分割された領域毎に、前記第１の取得手段により取得された文字列を構成する単語を示す第２のトークンを生成する第２の生成手段と、前記第１のトークンと前記第２のトークンを連結して第１の入力トークン列を生成する第１の連結手段と、前記第１の入力トークン列を構成する前記第１のトークンおよび前記第２のトークンを、前記項目に対応する情報に置き換えた第１の出力トークン列に変換する変換手段と、生成された第１の入力トークン列を入力データとし、変換された第１の出力トークン列を出力データとして生成された学習データを用いて機械学習を行うことにより前記学習済みモデルを生成する学習手段と、を有することを特徴とする。

本開示によれば、文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する文字列のデータを、所定の項目に対応する項目値の候補として抽出することができる。

情報処理システムの構成例を示す図である。文書画像取得装置の構成例を示す図である。学習装置の構成例を示す図である。推論装置の構成例を示す図である。情報処理システムの処理シーケンス例を示す図である。項目値判定モデルを生成する処理の流れを示すフローチャートである。文書画像サンプルとその文字列データおよび項目値情報の一例を示す図である。文書画像トークン列を生成する処理の流れを示すフローチャートである。文書画像トークン列を説明するための図である。項目値トークン列を説明するための図である。候補文字列群を生成する処理の流れを示すフローチャートである。文書画像とその文字列データおよび文書画像トークン列の一例を示す図である。項目値トークン列の一例を示す図である。レイアウトの解析処理を説明するための図である。文書画像トークン列を説明するための図である。項目値トークン列を説明するための図である。

本開示の実施形態を説明する前に、文字列の表記に規則性が無い項目値を抽出する方法として、文書画像中の全文字列に対して自然言語処理による機械学習を行う方法を用いた場合、データ型によって妥当性を評価することが困難となる要因について説明する。

この方法では、まず、文書画像中の文字列を、文書画像の左上から下方向に順番に読み取るなど、所定の規則に従って文字列の読取順番を決定する。そして、読取順番に従って並べた文字列を機械学習モデルの入力とすることにより、文字列の出現順番を基に項目値らしさを推定することが可能となる。ただし、文書画像において離れた個所に記載されていた文字列が、学習モデルに入力する際に、抽出対象である項目値の手掛かりとなる文字列の前後にて連続して出現する場合、項目値を正しく抽出できないことがあった。すなわち、単純な文字列の出現順番だけを基に、抽出対象となる項目の項目値であるか判断すると、手がかりとなる文字列の出現位置に影響されて項目値を正しく抽出できないことがあった。ここで、妥当性を評価することが困難となるデータ型の一例について、図７（ｂ）を用いて説明する。図７（ｂ）は、文書画像サンプル７００の抽出対象領域７１０を示す図である。抽出対象領域７１０（文書画像サンプル７００）では、領域７１２の文字列「商業労政課」と、領域７１３の文字列「（宛先）川崎工場」とは離れた個所に記載されているものの、機械学習モデルへの入力時には２つの文字列が順番に出現することになる。そのため、「（宛先）」という文字列の近傍に存在する「川崎工場」を発行元情報として正しく抽出する一方で、発行先情報であるはずの「商業労政課」も発行元情報として誤抽出してしまうことがあった。

以下、本開示を実施するための形態について図面を用いて説明する。なお、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［第１の実施形態］
＜情報処理システム＞
図１は、本実施形態に係る情報処理システムの構成例を示す図である。図１に示すように、情報処理システム１は、文書画像取得装置２と、学習装置３と、推論装置４とを有する。文書画像取得装置２と学習装置３と推論装置４とは、ネットワーク５を介して互いにデータを送受信可能に接続される。情報処理システム１において、文書画像取得装置２、学習装置３および推論装置４は、いずれも、ネットワーク５に対して単一接続ではなく、複数接続された構成であってもよい。例えば、推論装置４は、高速演算リソースを有する第１の装置と、大容量ストレージを有する第２の装置により構成され、第１および第２の装置がネットワーク５を介して互いにデータを送受信可能に接続された構成であってもよい。図１に示す情報処理システム１は、一例として、文書画像取得装置２、学習装置３および推論装置４がネットワーク５を介してそれぞれ単一接続されたものである。

文書画像取得装置２は、プリント機能、スキャン機能およびＦＡＸ機能などの複数の機能を備えた、例えば、ＭＦＰ（Ｍｕｌｔｉ－ＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）により実現される。文書画像取得装置２は、画像を取得し、取得した画像のデータを外部の装置に出力する機能を有する。文書画像取得装置２は、ＭＦＰにより実現される場合、文書画像取得装置２は、例えば、スキャン機能により紙などの記録媒体に印字された原稿１１を光学的に読み取り、周知のスキャン画像処理を行うことにより文書画像を取得する。また、当該場合、例えば、文書画像取得装置２は、ＦＡＸ機能により、図１には不図示のＦＡＸ送信機から送信されたＦＡＸデータ１２を受信し、ＦＡＸデータ１２に対して周知のＦＡＸ画像処理を行うことにより文書画像を取得する。さらに、文書画像取得装置２は、取得した文書画像を文書画像データ１３として推論装置４に対して送信する。

なお、ＭＦＰはあくまで一例であって、文書画像取得装置２は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などにより実現されてもよい。例えば、文書画像取得装置２としてのＰＣにおいて動作する文書作成アプリケーションを用いて生成される文書画像を取得し、取得した文書画像を文書画像データ１３として推論装置４に対して送信してもよい。ここで、文書作成アプリケーションを用いて生成される文書画像のデータとは、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）などの電子文書ファイル形式のデータである。当該文書画像のデータは、ＪＰＥＧ（ＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ）などの静止画像のデータなどであってもよい。

学習装置３は、データセットを生成し、生成したデータセットを用いて機械学習を行うことにより得た学習済モデルに基づいて項目値判定モデル１５を生成する。ここで、項目値判定モデル１５とは、説明変数として入力された文字列を示す情報とレイアウトを示す情報とに基づいて、予め定められた複数の項目のうちから、所定の項目に対応する項目値を特定するものである。具体的には、学習装置３は、エンジニアなどのユーザから提供された複数の文書画像のサンプル（以下「文書画像サンプル１４」という。）に含まれる文字列のデータ（以下「文字列データ」という。）と抽出対象の項目値情報とを取得する。なお、文書画像サンプル１４は、学習に用いられることから、学習用の文書画像であるともいえる。次に、学習装置３は、文書画像サンプル１４に対して、文書画像内のレイアウトを解析するレイアウト解析処理を実行して、文書画像中の文字領域、空白領域および罫線などの領域を示すレイアウト情報を取得する。なお、レイアウト解析処理には、公知の技術が用いされる。そして、学習装置３は、選択された領域に対応する、文書画像内のレイアウト情報と文字列データを、領域情報トークンと文字列トークンにそれぞれ変換して結合する。学習装置３は、これら処理を全ての領域に対して実行することで、文書画像トークン列を生成する。また、学習装置３は、文書画像トークン列の各トークンに、抽出対象の項目値情報を埋め込むことで項目値トークン列を生成する。すなわち、学習装置３は、文書画像トークン列の各トークンを、抽出対象の項目値情報に置き換えることで項目値トークン列を生成するともいえる。なお、後述する推論装置４においても同様の処理が提供されるため、学習装置３の代わりに推論装置４を利用してもよい。そして、学習装置３は、文書画像トークン列と項目値トークン列をペアとした学習データを用いて、項目値情報を抽出する項目値判定モデル１５を生成する。

学習装置３は、例えば、経理系の事務部門にて扱われる文書画像のデータを文書画像サンプル１４として取得する。学習装置３は、取得した文書画像サンプル１４に含まれる文字列データを元に、文書名、文書番号、発行日、発行元情報、宛先情報などの項目の項目値を抽出するための項目値判定モデル１５を生成する。なお、人事系の事務部門にて扱われる文書画像のデータを文書画像サンプル１４として取得してもよい。この場合、学習装置３は、取得した文書画像サンプル１４に含まれる文字列データを元に、文書名、日付、氏名、住所、法人名などの項目の項目値を抽出するための項目値判定モデル１５を生成する。また、医療系の事務部門にて扱われる文書画像のデータを文書画像サンプル１４として取得してもよい。この場合、学習装置３は、取得した文書画像サンプル１４に含まれる文字列データを元に、文書名、日付、氏名、医療機関名、病名、薬品名、金額などの項目の項目値を抽出するための項目値判定モデル１５を生成する。項目値判定モデル１５を生成した後、学習装置３は、生成した項目値判定モデル１５を、ネットワーク５を介して推論装置４に対して送信する。学習装置３の詳細については後述する。

推論装置４は、文書画像取得装置２から受信した文書画像データ１３に含まれる複数の文字列のそれぞれに対応するデータを、文字列毎に文字列データおよびレイアウト情報として取得する。すなわち、推論装置４は、文書画像データ１３に対してブロックセレクション処理およびＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）処理を実行することによって得られた文字認識結果を複数の文字列データとして取得する。さらに、推論装置４は、文書画像データ１３に対して、文書画像内のレイアウトを解析するレイアウト解析処理を実行することによって得られたレイアウト解析結果をレイアウト情報として取得する。そして、推論装置４は、取得した文書画像内の文字列データとレイアウト情報を、文字列トークンと領域情報トークンにそれぞれ変換して結合することで、文書画像トークン列を生成する。そして、推論装置４は、学習装置３により生成された項目値判定モデル１５を用いて、文書画像データ１３に含まれる複数の文字列のデータのうちから、所定の項目の項目値に対応する、候補となる文字列（以下「候補文字列」という）のデータを抽出する。推論装置４は、抽出した候補文字列のデータ（文字列データ１６）を図１には不図示の記憶装置または表示装置などに出力する。推論装置４の詳細については後述する。

ネットワーク５は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）またはＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などにより構成される通信網である。ネットワーク５は、文書画像取得装置２、学習装置３および推論装置４の間を互いに通信可能に接続して、装置間におけるデータの送受信を可能にする。

なお、文書画像取得装置２と学習装置３と推論装置４は、詳細につき後述する、それぞれが有する機能の一部または全部を担ってもよい。
＜文書画像取得装置＞
図２は、文書画像取得装置２の構成例を示す図であり、図２（ａ）に文書画像取得装置２の機能構成例を示し、図２（ｂ）に文書画像取得装置２のハードウェア構成例を示す。図２（ａ）を用いて、文書画像取得装置２の機能について説明する。なお、文書画像取得装置２が有する各機能部は、それぞれが有する機能の一部または全部を担ってもよい。文書画像取得装置２は、画像取得部２１と、画像送信部２２とを有する。画像取得部２１は、文書画像を取得する。画像送信部２２は、画像取得部２１により取得された文書画像を、文書画像データ１３として、ネットワーク５を介して推論装置４に対して送信する。

文書画像取得装置２において機能する各部の処理は、文書画像取得装置２に内蔵されたＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアによってなされる。当該処理は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのハードウェアによってなされるものであってもよい。また、当該処理は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメモリと、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）などのプロセッサとを用いたソフトウエアによってなされるものであってもよい。

図２（ｂ）を用いて、文書画像取得装置２のハードウェアについて説明する。文書画像取得装置２は、コンピュータにより構成されており、ＣＰＵ２０１、ＲＯＭ２０２、データバス２０３、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、原稿搬送デバイス２０７を有する。また、文書画像取得装置２は、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、外部インタフェース２１１などを有する。

ＣＰＵ２０１は、文書画像取得装置２における動作全体を制御するためのプロセッサである。ＣＰＵ２０１は、ＲＯＭ２０２などに格納された起動プログラムを実行することにより、文書画像取得装置２のシステムを起動する。ＣＰＵ２０１は、ストレージ２０８などに記憶された制御プログラムを実行することにより、文書画像取得装置２においてプリント機能、スキャン機能、またはＦＡＸ機能などとして機能する各部を機能させる。なお、文書画像取得装置２は、ＣＰＵ２０１とは異なる１つまたは複数の専用のハードウェアを有し、ＣＰＵ２０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、またはＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などがある。

ＲＯＭ２０２は、変更を必要としないプログラムなどを格納する不揮発性のメモリであって、例えば、文書画像取得装置２を起動する起動プログラムを格納する。データバス２０３は、文書画像取得装置２が有する各ハードウェアを接続して、ハードウェア間において相互にデータを伝送する。

ＲＡＭ２０４は、ＲＯＭ２０２またはストレージ２０８などから供給されるプログラムまたはデータ、または外部インタフェース２１１を介して外部から供給されるデータなどを一時記憶する揮発性のメモリである。ＲＡＭ２０４は、ＣＰＵ２０１が起動プログラムまたは制御プログラムなどのプログラムを実行する際のワークメモリとして使用される。

プリンタデバイス２０５は、画像出力用のデバイスであって、文書画像取得装置２にて取得された文書画像を紙などの記録媒体に印字して印刷出力するためのデバイスである。スキャナデバイス２０６は、画像入力用のデバイスであって、文字や図表などが印字された紙などの記録媒体を光学的に読み取って文書画像として取得するためのデバイスである。原稿搬送デバイス２０７は、図２（ｂ）では不図示の原稿台に載置された原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送するためのデバイスである。原稿搬送デバイス２０７は、ＡＤＦ（ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）などにより実現される。

ストレージ２０８は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などにより実現されるものであって、上述の制御プログラムおよび文書画像データ１３などを記憶するための補助記憶装置である。入力デバイス２０９は、タッチパネルおよびハードキーなどにより実現されるものであって、ユーザからの文書画像取得装置２に対する操作入力を受け付けるためのデバイスである。表示デバイス２１０は、液晶ディスプレイなどにより実現されるものであって、文書画像取得装置２が出力する設定画面などの表示画像をユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２１１は、文書画像取得装置２とネットワーク５との間を接続するものであって、図２（ｂ）には不図示のＦＡＸ送信機からＦＡＸデータ１２を受信したり、推論装置４に対して文書画像データ１３を送信したりするためのデバイスである。

＜学習装置＞
図３は、学習装置３の構成例を示す図であり、図３（ａ）に学習装置３の機能構成例を示し、図３（ｂ）に学習装置３のハードウェア構成例を示す。図３（ａ）を用いて、学習装置３の機能について説明する。なお、学習装置３が有する各機能部は、それぞれが有する機能の一部または全部を担ってもよい。学習装置３は、画像サンプル取得部３１、文字列取得部３２、項目値情報取得部３３、第１トークン列生成部３４、第２トークン列生成部３５、学習データ生成部３６、学習部３７、判定モデル出力部３８を有する。

画像サンプル取得部３１は、文書画像サンプルを取得する。取得した文書画像サンプルは、文字列取得部３２と項目値情報取得部３３と第１トークン列生成部３４に送られる。文字列取得部３２は、文書画像サンプルに対してブロックセレクション処理およびＯＣＲ処理などの処理を実行して、処理結果として文字列データを取得する。取得した文字列データは、項目値情報取得部３３と第１トークン列生成部３４とに送られる。項目値情報取得部３３は、文字列データに対して解析処理を実行して、解析結果として項目値情報を取得する。項目値情報の取得方法としては、公知の技術が用いられる。取得した項目値情報は、第２トークン列生成部３５に送られる。

第１トークン列生成部３４は、文書画像サンプルと文字列データを基に、文書画像トークン列を生成する。生成した文書画像トークン列は、第２トークン列生成部３５に送られる。第２トークン列生成部３５は、文書画像トークン列と、項目値情報を基に作成された項目名ＩＤリストとに基づき、項目値トークン列を生成する。生成した項目値トークン列は、学習データ生成部３６に送られる。学習データ生成部３６は、文書画像トークン列を入力データとし、項目値トークン列を出力データとする学習データセット（学習用データ）を生成する。文書画像トークン列が入力データとされることから、文書画像トークン列は、第１の入力トークン列ともいえる。項目値トークン列が出力データとするとされることから、項目値トークン列は、第１の出力トークン列ともいえる。学習部３７は、全ての学習データセットを学習モデルに入力することにより、学習モデルに機械学習させる。そして、学習部３７は、学習結果である学習済モデルに基づいて項目値判定モデル１５を生成する。なお、学習部３７は、学習結果である学習済モデルに対して処理を行うことなく、当該学習済モデルを項目値判定モデル１５としてもよい。判定モデル出力部３８は、学習部３７により生成された判定モデルを、推論装置４、または図３（ｂ）には不図示の記憶装置に対して出力する。

学習装置３において機能する各部の処理は、文書画像取得装置２に内蔵されたＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などのハードウェアによってなされる。当該処理は、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などのハードウェアによってなされるものであってもよい。また、当該処理は、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などのメモリと、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｏｒＵｎｉｔ）などのプロセッサとを用いたソフトウエアによってなされるものであってもよい。

図３（ｂ）を用いて、学習装置３のハードウェアについて説明する。学習装置３は、コンピュータにより構成されており、ＣＰＵ２３１、ＲＯＭ２３２、データバス２３３、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７を有する。また、学習装置３は、外部インタフェース２３８、ＧＰＵ２３９などを有する。

ＣＰＵ２３１は、学習装置３における動作全体を制御するためのプロセッサである。ＣＰＵ２３１は、ＲＯＭ２３２などに格納された起動プログラムを実行することにより、学習装置３のシステムを起動する。ＣＰＵ２３１は、ストレージ２３５などに記憶された制御プログラムを実行することにより、学習装置３において機能する各部を機能させる。学習装置３は、ＣＰＵ２３１とは異なる１つまたは複数の専用のハードウェアを有し、ＣＰＵ２３１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、またはＤＳＰなどがある。

ＲＯＭ２３２は、変更を必要としないプログラムなどを格納する不揮発性のメモリであって、例えば、学習装置３を起動する起動プログラムなどを格納する。データバス２３３は、学習装置３が有する各ハードウェアを接続して、ハードウェア間において相互にデータを伝送する。ＲＡＭ２３４は、ＲＯＭ２３２またはストレージ２３５などから供給されるプログラムまたはデータ、または外部インタフェース２３８を介して外部から供給されるデータなどを一時記憶する揮発性のメモリである。ＲＡＭ２３４は、ＣＰＵ２３１が起動プログラムまたは制御プログラムなどのプログラムを実行する際のワークメモリとして使用される。ストレージ２３５は、ＨＤＤなどにより実現されるものであって、上述の制御プログラムおよび文書画像サンプル１４などを記憶するための補助記憶装置である。

入力デバイス２３６は、マウスおよびキーボードなどにより実現されるものであって、エンジニアなどのユーザ（以下、単に「エンジニア」という。）からの学習装置３に対する操作入力を受け付けるためのデバイスである。表示デバイス２３７は、液晶ディスプレイなどにより実現されるものであって、学習装置３の設定画面などの表示画像をエンジニアに対して視認可能に表示出力するためのデバイスである。

外部インタフェース２３８は、学習装置３とネットワーク５との間を接続するものであって、図３（ｂ）には不図示の記憶装置およびＰＣなどの外部装置から文書画像サンプル１４などを受信するためのデバイスである。また、外部インタフェース２３８は、推論装置４、または図３（ｂ）には不図示の記憶装置に対して項目値判定モデル１５などを送信するためのデバイスである。ＧＰＵ２３９は、画像処理用のプロセッサである。ＧＰＵ２３９は、例えば、ＣＰＵ２３１から与えられた制御コマンドに従って、与えられた文書画像に含まれる文字列データを元に、項目値判定モデル１５を生成するための演算を実行する。

＜推論装置＞
図４は、推論装置４の構成例を示す図であって、図４（ａ）に推論装置４の機能構成例を示し、図４（ｂ）に推論装置４のハードウェア構成例を示す。図４（ａ）を用いて、推論装置４の機能について説明する。なお、推論装置４が有する各機能部は、それぞれが有する機能の一部または全部を担ってもよい。推論装置４は、判定モデル取得部４１、処理画像取得部４２、文字列取得部４３、第１トークン列生成部４４、第２トークン列推定部４５、候補抽出部４６、候補出力部４７を有する。

判定モデル取得部４１は、項目値判定モデル１５を取得する。例えば、判定モデル取得部４１は、学習装置３から送られた項目値判定モデル１５を取得する。また、判定モデル取得部４１は、図４（ａ）には不図示の記憶装置に予め記憶された項目値判定モデル１５を当該記憶装置から読み出すことにより取得してもよい。取得した項目値判定モデル１５は、第２トークン列推定部４５に送られる。処理画像取得部４２は、文書画像データ１３を取得する。例えば、処理画像取得部４２は、文書画像取得装置２から送られた文書画像データ１３を取得する。また、処理画像取得部４２は、図４（ａ）には不図示の記憶装置に予め記憶された文書画像データ１３を当該記憶装置から読み出すことにより取得してもよい。取得した文書画像データ１３は、文字列取得部４３と第１トークン列生成部４４に送られる。

文字列取得部４３は、文書画像データ１３に対してブロックセレクション処理およびＯＣＲ処理などの解析処理を実行して、解析結果として文字列データを取得する。取得された文字列データは、第１トークン列生成部４４に送られる。

第１トークン列生成部４４は、文書画像データ１３に対して、文書画像内のレイアウトを解析するレイアウト解析処理を実行することによって得られたレイアウト解析結果をレイアウト情報として取得する。そして、第１トークン列生成部４４は、レイアウト情報と文字列データとに基づき、文書画像トークン列（第２の入力トークン列）を生成する。生成された文書画像トークン列は、第２トークン列推定部４５と候補抽出部４６に送られる。第２トークン列推定部４５は、文書画像トークン列と項目値判定モデルを基に項目値トークン列（第２の出力トークン列）を推定する。推定された項目値トークン列は、候補抽出部４６に送られる。

候補抽出部４６は、項目値トークン列を基に、候補文字列を抽出する。抽出された候補文字列は、候補出力部４７に送られる。候補出力部４７は、候補文字列を出力する。

推論装置４において機能する各部の処理は、推論装置４に内蔵されたＡＳＩＣまたはＦＰＧＡなどのハードウェア、または、ＲＡＭなどのメモリと、ＣＰＵなどのプロセッサとを用いたソフトウエアによってなされる。

図４（ｂ）を用いて、推論装置４のハードウェアについて説明する。推論装置４は、コンピュータにより構成されており、ＣＰＵ２６１、ＲＯＭ２６２、データバス２６３、ＲＡＭ２６４、ストレージ２６５、入力デバイス２６６、表示デバイス２６７、外部インタフェース２６８を有する。

ＣＰＵ２６１は、推論装置４における動作全体を制御するためのプロセッサである。ＣＰＵ２６１は、ＲＯＭ２６２などに格納された起動プログラムを実行することにより、推論装置４のシステムを起動する。また、ＣＰＵ２６１は、ストレージ２６５などに記憶された制御プログラムを実行することにより、推論装置４において機能する各部を機能させる。なお、推論装置４は、ＣＰＵ２６１とは異なる１つまたは複数の専用のハードウェアを有し、ＣＰＵ２６１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、またはＤＳＰなどがある。

ＲＯＭ２６２は、変更を必要としないプログラムなどを格納する不揮発性のメモリであって、例えば、推論装置４を起動する起動プログラムを格納する。データバス２６３は、推論装置４が有する各ハードウェアを接続して、ハードウェア間において相互にデータを伝送する。ＲＡＭ２６４は、ＲＯＭ２６２またはストレージ２６５などから供給されるプログラムまたはデータ、または外部インタフェース２６８を介して外部から供給されるデータなどを一時記憶する揮発性のメモリである。ＲＡＭ２６４は、ＣＰＵ２６１が起動プログラムまたは制御プログラムなどのプログラムを実行する際のワークメモリとして使用される。ストレージ２６５は、ＨＤＤなどにより実現されるものであって、上述の制御プログラム、文書画像データ１３、項目値判定モデル１５、文字列データ１６などを記憶するための補助記憶装置である。

入力デバイス２６６は、マウスおよびキーボードなどにより実現されるものであって、エンドユーザおよびエンジニアなどのユーザからの推論装置４に対する操作入力を受け付けるためのデバイスである。表示デバイス２６７は、液晶ディスプレイなどにより実現されるものであって、推論装置４が出力する設定画面などの表示画像をエンドユーザおよびエンジニアなどのユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２６８は、推論装置４とネットワーク５との間を接続するものであって、学習装置３、または図４（ｂ）には不図示の記憶装置などの外部装置から項目値判定モデル１５を受信するためのデバイスである。また、外部インタフェース２６８は、文書画像取得装置２、または図４（ｂ）には不図示の記憶装置などの外部装置から文書画像データ１３を受信するためのデバイスである。

＜処理シーケンス＞
図５は、情報処理システム１の処理シーケンス例を示す図である。図５（ａ）に情報処理システム１の学習装置３が項目値判定モデル１５を生成する処理シーケンスを示し、図５（ｂ）に情報処理システム１の推論装置４が候補文字列群（候補文字列データ）を抽出する処理シーケンスを示す。なお、図５（ａ）および図５（ｂ）のそれぞれに示す処理シーケンスの詳細については図を用いて後述する。図５（ａ）に示す処理シーケンスは、例えば、エンジニアによる開発時に実行される処理シーケンスである。図５（ｂ）に示す処理シーケンスは、例えば、エンドユーザによる利用時に実行される処理シーケンスである。

まず、エンジニアによる開発時の処理シーケンスについて説明する。図５（ａ）に示すように、Ｓ５０１にて、情報処理システム１を開発するエンジニアは、項目値判定モデル１５を生成するために、学習装置３に対して、複数の文書画像サンプル１４を入力する。具体的には、例えば、エンジニアは、学習装置３に対して複数の文書画像サンプル１４の所在などを示す情報を入力することにより、学習装置３に文書画像サンプル１４を取得させるための指示を実行する。学習装置３は、エンジニアからの入力に基づいて、文書画像サンプル１４を取得する。

次に、Ｓ５０２にて、学習装置３は、Ｓ５０１にて入力された複数の文書画像サンプル１４より、各文書画像サンプルに含まれる文字列データおよび抽出対象の項目値情報を取得する。抽出対象の項目値情報は、文書画像サンプルに含まれる所定の項目の項目値に関する情報である。抽出対象の項目値情報は、エンジニアによって手動で設定した情報でもよいし、公知の技術により文書画像サンプルから取得した情報でもよい。そして、文書画像のレイアウトを解析することにより、該当する領域に所定の項目の項目値があることを示すレイアウト情報を取得する。その後、取得した文字列データ、レイアウト情報、項目値情報を基づき学習データセットを生成する。そして、生成した学習データセットを学習モデルに入力することにより学習モデルに機械学習させる。学習結果である学習済モデルに基づいて項目値判定モデル１５を生成する。

その後、Ｓ５０３にて、学習装置３は、推論装置４に対して、Ｓ５０２にて生成した項目値判定モデル１５を送信する。推論装置４は、学習装置３が送信した項目値判定モデル１５を取得して、推論装置４内のストレージ２６５に項目値判定モデル１５を保存する。

続いて、エンドユーザによる利用時の処理シーケンスについて説明する。図５（ｂ）に示すように、Ｓ５１１にて、情報処理システム１を利用するエンドユーザは、例えば、文書画像取得装置２に原稿１１を載置して、文書画像取得装置２に対して原稿の読み取りを指示する。文書画像取得装置２は、当該指示を受けて、原稿１１を光学的に読み取って文書画像データ１３を取得する。

次に、Ｓ５１２にて、文書画像取得装置２は、Ｓ５１１にて取得した文書画像データ１３を推論装置４に対して送信する。推論装置４は、文書画像取得装置２から送信された文書画像データ１３を受信することにより文書画像データ１３を取得する。なお、推論装置４は、文書画像データ１３を取得できればよく、文書画像データ１３の取得先は、文書画像取得装置２であってもよいし、ストレージ２６５などの記憶装置であってもよい。

次に、Ｓ５１３にて、推論装置４は、Ｓ５１２にて取得した文書画像データ１３に含まれる文字列のデータの中から、抽出対象の候補となる文字列のデータを抽出する。具体的には、推論装置４は、まず、Ｓ５１２にて取得した文書画像データ１３に含まれる文字列データを取得する。さらに、推論装置４は、Ｓ５１２にて取得した文書画像のレイアウトを解析することによりレイアウト情報を取得する。そして、推論装置４は、Ｓ５０３にて学習装置３から出力された項目値判定モデル１５を用いて、文書画像データ１３から取得した文字列データおよびレイアウト情報を処理することにより、抽出対象の候補文字列データを抽出する。

その後、Ｓ５１４にて、推論装置４は、Ｓ５１３にて抽出した抽出対象の候補文字列データを、エンドユーザに対して視認可能に表示出力する。

＜項目値判定モデルの生成処理＞
図６は、項目値判定モデル１５の生成処理（Ｓ５０２）の詳細な流れを示すフローチャートである。項目値判定モデル１５の生成処理は、学習装置３により実行される。なお、図６に示す各ステップの実行プログラムは、学習装置３のＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５のいずれかに記憶され、学習装置３のＣＰＵ２３１またはＧＰＵ２３９により実行される。また、図６におけるステップの一部または全部の機能をＡＳＩＣ及び電子回路等のハードウェアで実現してもよい。各処理の説明における記号「Ｓ」は、当該フローチャートにおけるステップであることを意味し、以後のフローチャートにおいても同様とする。

先ず、Ｓ６０１にて、画像サンプル取得部３１は、複数の文書画像サンプル１４を取得する。ここで、文書画像サンプル１４は、例えば、経理系の事務職にて扱われる文書画像というように、特定の業務分野にて扱われる文書画像のデータのみを対象としてもよい。あるいは、文書画像サンプル１４は、経理、人事、医療などの業務分野の全般にて扱われる文書画像というように、複数の異なる業務分野にて扱われる文書画像のデータをまとめて対象としてもよい。

Ｓ６０２にて、文字列取得部３２は、Ｓ６０１にて取得された複数の文書画像サンプルの中から未処理の文書画像サンプルを選択する。ここでは、文書画像サンプルとして、詳細につき後述する、図７（ａ）に示す文書画像サンプル７００が選択されたものとして説明を行う。

Ｓ６０３にて、文字列取得部３２は、Ｓ６０２にて選択された文書画像サンプル対して画像処理を行って文書画像サンプルに含まれる全ての文字列のデータを取得する。具体的には、文書画像サンプルに対して文字領域を検出するブロックセレクション処理を実行し、検出した文字領域に対してＯＣＲ処理を実行して文字列を認識することにより文字列のデータを取得する。

Ｓ６０４にて、項目値情報取得部３３は、Ｓ６０３にて取得された文字列データを解析して項目値情報を取得する。取得された項目値情報は、第１トークン列生成部３４に送られる。

ここで、Ｓ６０３にて取得された文字列データと、Ｓ６０４にて取得された抽出対象の項目値情報について、図を参照して説明する。図７は、文書画像サンプルとその文字列データおよび項目値情報の一例を示す図である。図７（ａ）に文書画像サンプル７００を示し、図７（ｂ）に文書画像サンプル７００における抽出対象領域７１０を示し、図７（ｃ）に抽出対象領域７１０内の文字列データ７２１および項目値情報７２２を示す。項目値情報７２２は、抽出対象の項目の項目値に関する情報である。抽出対象領域７１０においては、文字列領域７１１、７１２、７１３、７１４のそれぞれから、図７（ｃ）に示すような文字列データ７２１が取得されることになる。また、文字列領域７１１、７１２、７１３、７１４のそれぞれに対応した項目名および抽出対象の文字列データを含む項目値情報７２２が取得されることになる。例えば、領域７１３からは、「（宛先）川崎工場」という文字列データに加え、項目名である「宛先情報」と、抽出対象の文字列データである「川崎工場」とを含む項目値情報が取得される。一方、領域７１４には項目値情報が含まれていないことから、領域７１４からは、「下記の通り請求致します」という文字列データのみが取得されることになる。

図６に戻り、Ｓ６０５にて、第１トークン列生成部３４は、Ｓ６０２にて選択された文書画像サンプルと、Ｓ６０３にて取得された文字列データとを基に、文書画像トークン列を生成する。なお、本実施形態では、学習装置３において実行されるものとして説明するが、推論装置４において実行されてもよい。

＜文書画像トークン列の生成処理＞
図８は、文書画像トークン列を生成する処理（Ｓ６０５）の詳細な流れを示すフローチャートである。

先ず、Ｓ８０１にて、第１トークン列生成部３４は、文書画像サンプルと、この文書画像サンプルから得られた文字列データとを取得する。なお、文字列データは、その位置などを示す情報を含む。

Ｓ８０２にて、第１トークン列生成部３４は、Ｓ８０１にて取得した文書画像サンプルのレイアウトを解析し、この解析結果を基に文書画像サンプルを所定の項目に対応する領域に分割する。例えば、文書画像サンプルは、複数の領域に分割される。そして、第１トークン列生成部３４は、所定の項目に対応する領域の情報を、レイアウト情報として取得する。なお、領域の情報は、その位置や範囲などを示す情報を含む。領域に分割する方法としては、例えば、文書画像中の空白領域や罫線などを抽出し、所定の条件を満たす領域を、項目に対応する領域として分割する方法が用いられる。ここで、文書画像サンプルに対してレイアウトの解析処理を実行した例について、図９（ａ）を参照して説明する。図９（ａ）に示すように、文書画像サンプル９００に対してレイアウトの解析処理が行われると、文書画像サンプル９００が複数の領域９０１－９０７に分割される。

Ｓ８０３にて、第１トークン列生成部３４は、Ｓ８０２にて生成した領域に対して、読み取りを行う読取順番を決定する。なお、文書画像サンプルが複数の領域に分割された場合、Ｓ８０３に続くＳ８０４では、読取順番に従って複数の領域の中から領域が選択されることから、第１トークン列生成部３４は、領域を選択する選択順番を決定するともいえる。本実施形態では、例えば、文書画像サンプル７００の左上を起点として領域を読み取るように、読取順番を決定する。なお、読取順番はこれに限定されない。

Ｓ８０４にて、第１トークン列生成部３４は、Ｓ８０３にて決定した読取順番に従って、Ｓ８０２にて得られた複数の領域の中から未処理の領域を選択する。

Ｓ８０５にて、第１トークン列生成部３４は、Ｓ８０４にて選択した領域に対応するレイアウト情報を、領域情報を示す特殊トークンである、「＜領域＞」という領域情報トークン（第１のトークン）に変換する。このような領域情報トークンが詳細につき後述する文書画像トークン列に存在することにより、領域の境界であることを示す情報として利用できる。

Ｓ８０６にて、第１トークン列生成部３４は、Ｓ８０４にて選択した領域内に含まれる複数の文字列データに対して、読み取りを行う読取順番を決定する。例えば、レイアウト情報と、文字列データの位置などに関する情報とが照合されることにより、Ｓ８０４にて選択した領域内に含まれる複数の文字列データが特定される。そして、特定された複数の文字列データに対して、読み取りを行う読取順番を決定する。例えば、図９（ａ）に示す文書画像サンプル９００において、領域９０３に示すように、１つの領域内に文字列が２行含まれている場合、領域９０３内の左上から順番に文字列を読み取るように、読取順番を決定する。

Ｓ８０７にて、第１トークン列生成部３４は、Ｓ８０６にて決定した読取順番に従い並べた文字列データから抽出した単語の情報を示す文字列トークンに変換する。文字列データに対して形態素解析の手法を用いて形態素（単語）を抽出し、個々の形態素を文字列トークンとすればよい。例えば、領域９０１の文字列は、「請求」の文字列トークン９１２と「書」の文字列トークン９１３との２つの文字列トークンに変換される。すなわち、領域９０１の文字列は、２つの文字列トークン９１２および９１３に分解されるともいえる。

Ｓ８０８にて、第１トークン列生成部３４は、Ｓ８０５にて得られた領域情報トークンと、Ｓ８０７にて得られた文字列トークンとを連結することにより文書画像トークン列を生成する。

文書画像トークン列の生成について、図を参照して説明する。図９は、文書画像トークン列を説明するための図である。図９（ａ）に文書画像サンプル９００を示し、図９（ｂ）に文書画像サンプル９００の領域９０１に対応する文書画像トークン列９１０を示し、図９（ｃ）に領域９０１および９０２に対応する文書画像トークン列９２０を示す。図９（ａ）に示す領域９０１に対して、上述したＳ８０４－Ｓ８０８の処理が実行されると、図９（ｂ）に示すように、領域情報トークン９１１と２つの文字列トークン９１２および９１３とを連結した文書画像トークン列９１０が生成される。また、図９（ａ）に示す領域９０１および領域９０２に対して、上述したＳ８０４－Ｓ８０８の処理が実行されると、次に示す文書画像トークン列９２０が生成される。すなわち、図９（ｃ）に示すように、文書画像トークン列９１０の後に、領域情報トークン９２１と３つの文字列トークン９２２、９２３、９２４とを連結した文書画像トークン列９２０が生成される。

Ｓ８０９にて、全ての領域が処理されたか判定される。全ての領域が処理されていないとの判定結果を得ると（Ｓ８０９のＮＯ）、処理がＳ８０４に戻される。そして、未処理の領域がなくなるまで、Ｓ８０４－Ｓ８０９の処理が繰り返し実行される。他方、全ての領域が処理されたとの判定結果を得ると（Ｓ８０９のＹＥＳ）、図８に示すフローを終える。すなわち、文書画像トークン列の生成処理を終える。図９（ａ）に示す文書画像サンプル９００に対して文書画像トークン列の生成処理が行われると、図９（ｄ）に示すような文書画像トークン列９３０が生成されることになる。すなわち、領域毎に領域情報トークンと文字列トークンを含み、全ての領域における領域情報トークンおよび文字列トークンが読取順番に連結した文書画像トークン列９３０が生成されることになる。

図６に戻り、Ｓ６０６にて、第２トークン列生成部３５は、Ｓ６０５にて生成した文書画像トークン列に対応した、各項目名に対する抽出対象の文字列が出現するトークン位置を表す項目値トークン列を生成する。

項目値トークン列の生成について、図を参照して説明する。図１０は、項目値トークン列を説明するための図であり、図１０（ａ）に項目名ＩＤリストを示し、図１０（ｂ）に項目値トークン列への変換例を示し、図１０（ｃ）に図９（ｃ）に示す文書画像トークン列９３０の項目値トークン列への変換例を示す。

領域９０１中の文字列データ７２１「請求書」に対応する各トークンの項目値トークン列への変換について、図１０（ｂ）を参照して説明する。まず、領域情報トークン９１１「＜領域＞」は、項目名ＩＤリスト１０００の項目名１００１には該当する特定の項目名が無いことから、項目名１００１「該当なし」が該当する。そのため、領域情報トークン９１１「＜領域＞」は、項目名１００１「該当なし」に対応する項目名ＩＤ１００２「０」に置き換えた項目値トークン１０１１に変換される。続いて、抽出対象の文字列データ「請求書」に対応する文字列トークン９１２および９１３は、項目名ＩＤリスト１０００の項目名１００１「文書名」が該当する。そのため、文字列トークン９１２および９１３は、項目名１００１「文書名」に対応する項目名ＩＤ１００２「１」に置き換えた項目値トークン１０１２および１０１３に変換される。

同様に、項目名ＩＤリスト１０００を用いて、文書画像トークン列に含まれる領域情報トークンおよび文字列トークンについて、該当する項目名を特定し、特定した項目名に対応する項目名ＩＤに変換することで、項目値トークン列が生成されることになる。すなわち、図１０（ｃ）に示すように、図９（ｃ）に示す文書画像トークン列９３０に対して項目値トークン列の生成処理が行われると、最終的に項目値トークン列１０３０が生成されることになる。なお、項目名ＩＤおよび項目名ＩＤの付与方法はこれに限定されない。例えば、項目名ＩＤにＩＯＢフォーマットまたはＢＩＬＯＵフォーマットを用いることにより、項目値トークンを生成してもよい。ＩＯＢフォーマットを用いる場合、開始項目値トークンには「Ｂ－」（Ｂｅｇｉｎ）を付与し、途中の項目値トークンには「Ｉ－」（Ｉｎｓｉｄｅ）を付与すればよい。また、ＢＩＬＯＵフォーマットを用いる場合、ＩＯＢフォーマットに加え、終了項目値トークンには「Ｌ－」（Ｌａｓｔ）を付与し、単一の項目値トークンの場合に「Ｕ－」（Ｕｎｉｔ）を付与すればよい。このように条件に応じて特定の文字を付与することにより、抽出文字列の範囲を明確化して学習および推論を行うことができる。

図６に戻り、Ｓ６０７にて、学習データ生成部３６は、Ｓ６０５にて生成した文書画像トークン列を入力データとし、Ｓ６０６にて生成した項目値トークン列を出力データとする学習データセットを生成する。例えば、学習データ生成部３６は、Ｓ６０５にて生成した文書画像トークン列９３０を入力データとし、Ｓ６０６にて生成した項目値トークン列１０１０を出力データとする学習データセットを生成する。

Ｓ６０８にて、全ての文書画像サンプルが処理されたか判定される。全ての文書画像サンプルが処理されていないとの判定結果を得た場合（Ｓ６０８のＮＯ）、処理がＳ６０２に戻される。そして、未処理の文書画像サンプルがなくなるまでＳ６０２－Ｓ６０８の処理が繰り返し実行されることにより、全ての文書画像サンプルから学習データセットが生成されることになる。他方、全ての文書画像サンプルが処理されたとの判定結果を得た場合（Ｓ６０８のＹＥＳ）、処理がＳ６０９に移行される。

Ｓ６０９にて、学習部３７は、生成された全ての学習データセットを用いて、機械学習により項目値判定モデル１５を生成する。この処理において、抽出対象の文字列トークンと、その前後の文字列トークンとの関係性だけではなく、同一領域あるいは領域をまたいだ文字列トークンの関係性も学習することができる。すなわち、抽出対象の文字列を探す手がかりとなるような文字列（項目名に対応するキーワードなど）は、同一領域内に出現することが多く、領域をまたいで出現することが少ないといった傾向性を取得できる。なお、項目値判定モデルの学習には、公知の機械学習の手法を用いればよい。公知の機械学習の手法として、例えば、自然言語による機械翻訳または文書分類、固有表現抽出などで用いられるＲＮＮまたはＳｅｑ２Ｓｅｑ、Ｔｒａｎｓｆｏｒｍｅｒ、ＢＥＲＴなどを用いてもよい。

最後に、Ｓ６１０にて、判定モデル出力部３８は、Ｓ６０８にて生成した項目値判定モデル１５を、推論装置４に対して出力する。なお、推論装置４は、学習装置３から出力された項目値判定モデル１５を受け取り、推論装置４が有するストレージ２６５に保存する。

＜候補文字列群の抽出処理＞
候補文字列群の抽出処理について、図を用いて説明する。図１１は、候補文字列群の抽出処理（Ｓ５１３）の詳細な流れを示すフローチャートである。候補文字列群の抽出処理は、推論装置４により実行される。図１２は、文書画像とその文字列データおよび文書画像トークン列の一例を示す図である。図１２（ａ）に文書画像の一例を示し、図１２（ｂ）に図１２（ａ）に示す文書画像に対応する文字列データのリスト例を示し、図１２（ｃ）に図１２（ａ）に示す文書画像に対応する文書画像トークン列を示す。なお、図１１に示す各ステップの実行プログラムは、推論装置４のＲＯＭ２６２、ＲＡＭ２６４、またはストレージ２６５のいずれかに記憶され、推論装置４のＣＰＵ２６１により実行される。

まず、Ｓ１１０１にて、判定モデル取得部４１は、図５のＳ５０３にて学習装置３から出力され推論装置４のストレージ２６５に保存された項目値判定モデル１５を取得する。

Ｓ１１０２にて、処理画像取得部４２は、Ｓ５１１にてエンドユーザにより入力された文書画像であって、Ｓ５１２にて文書画像取得装置２により送信された文書画像データを取得する。ここでは、図１２（ａ）に示すような文書画像１２００のデータを取得することとする。

Ｓ１１０３にて、文字列取得部４３は、Ｓ１１０２にて取得した文書画像データに対してブロックセレクション処理およびＯＣＲ処理などの解析処理を実行することにより、文字列データを取得する。文書画像１２００のデータからは、図１２（ｂ）に示すような文書画像内の文字列データ１２１０が取得される。

Ｓ１１０４にて、第１トークン列生成部４４は、Ｓ１１０２にて取得した文書画像データと、Ｓ１１０３にて取得した文字列データとを基に、文書画像トークン列を生成する。なお、文書画像トークン列の生成処理は、Ｓ６０５と同様の処理となるため、ここでは説明を省略する。文書画像１２００のデータと文字列データ１２１０とからは、図１２（ｃ）に示すような文書画像トークン列１２２０が生成される。

Ｓ１１０５にて、第２トークン列推定部４５は、Ｓ１１０４にて生成した文書画像トークン列を、Ｓ１１０１にて取得した項目値判定モデルに対して入力することにより項目値トークン列を推定する。例えば、文書画像トークン列１２２０を、Ｓ１１０１にて取得した項目値判定モデル１５に対して入力することにより、図１３に示すような項目値トークン列１３００が推定される。この推論処理では、学習された文字列トークンおよび領域情報トークンの関係性を基に、項目名ＩＤリスト１０００のうちどの項目名ＩＤらしいかについて、文書画像トークン列１２２０の各トークンに対して判定される。なお、処理対象のトークン列が特定の項目名である可能性の程度を示しており、項目名ＩＤらしさを示す確率値を同時に出力することも可能である。

Ｓ１１０６にて、候補抽出部４６は、文書画像トークン列１３１０と、項目値トークン列とから、項目名ＩＤが付与された項目値トークンに対応する文字列データを項目の項目値に対応する候補文字列として抽出する。具体的には、図１３に示すように、項目値トークン１３０１において項目名「文書番号」に対応付けられている項目名ＩＤ「２」が推論結果として出力される。項目値トークン１３０１は、図１２（ｃ）に示す文書画像トークン列１２２０中のトークン１２２１と対応することから、文字列データ１２０１の一部である「１３２１」が、項目名「文書番号」に対応する候補文字列として出力される。同様に、項目値トークン列１３００内において連続する項目値トークン１３０２－１３０４には、項目名「宛先情報」に対応付けられた項目値ＩＤ「５」が推論結果として出力される。項目値トークン１３０２－１３０４は、文書画像トークン列１２２０内のトークン１２２２－１２２４と対応する。よって、これらのトークンを連結することで、文字列データ１２０４の一部である「下丸子印刷所」が、項目名「宛先情報」に対応する候補文字列として抽出される。なお、項目名ＩＤが付与された項目値トークンが複数個所から抽出された場合は、項目値らしさの確率値を参照し、確率値の高いものから順番に候補文字列として抽出すればよい。すなわち、項目値らしさの確率値に基づき特定した文字列を、候補文字列として抽出すればよい。また、項目値らしさの確率値が高い文字列を優先して、候補文字列として抽出すればよい。

Ｓ１１０７にて、処理が終了したか否か判定される。処理が終了しないとの判定結果を得た場合（Ｓ１１０７のＮＯ）、処理がＳ１１０２に戻され、Ｓ１１０２－Ｓ１１０７の処理が繰り返し行われる。処理が終了したとの判定結果を得た場合（Ｓ１１０７のＹＥＳ）、処理がＳ１１０８に移行される。すなわち、ユーザからの処理を終了する通知があるまで、Ｓ１１０２－Ｓ１１０７の処理が繰り返し実行されることになる。

最後に、Ｓ１１０８にて、候補出力部４７は、Ｓ１１０６にて抽出された全ての候補文字列のデータを抽出結果として出力する。具体的には、例えば、候補出力部４７は、当該抽出結果を確認画面に含める表示画像を生成し、当該表示画像を表示装置に表示出力する。

以上述べたように、本実施形態によれば、レイアウトが予め定められた定型文書とは異なるレイアウトで作成された、準定型文書または非定型文書などの文書画像から、所定の項目の項目値に対応する文字列のデータを抽出できる。さらに、本実施形態では、文書画像のレイアウトを解析して領域情報トークンを生成し、文字列トークンと連結させることで、文字列データの関係性だけではなく、文書画像内のレイアウト情報の関係性も併せて学習および推論が行われる。これにより、レイアウト情報を考慮しないと判別が難しかった項目の項目値に対応する文字列を抽出する精度を向上させることができる。

［第２の実施形態］
本実施形態では、レイアウトの解析処理を実行することにより、文書画像における各領域が持つ属性の種類を示す属性情報を取得し、取得した属性情報の種類に対応した領域情報トークン（属性情報トークン）に変換する態様について説明する。

＜項目値判定モデルの生成処理＞
まず、本実施形態に係る項目値判定モデルの生成処理について、図６、図８および図１５を用いて説明する。図１５は、文書画像トークン列を説明するための図であり、図１５（ａ）に属性トークンテーブルを示し、図１５（ｂ）に文書画像トークン列を示す。本実施形態では、項目値判定モデルの生成処理に関し、第１の実施形態の場合と異なる、図６に示されるＳ６０５、Ｓ６０７、Ｓ６０９の各処理について詳細に説明する。

Ｓ６０５にて、第１トークン列生成部３４は、文書画像トークン列を生成する。本実施形態に係る文書画像トークン列の生成処理は、第１の実施形態の場合と概ね同じである。ただし、図８に示すＳ８０２およびＳ８０５の処理は、第１の実施形態の場合と差分があり、特にこれら処理について詳細に説明する。

まず、Ｓ８０２では、第１トークン列生成部３４は、Ｓ８０１にて取得した文書画像サンプルのレイアウトを解析し、この解析結果を基に文書画像サンプルを、属性を持つ領域に分割する。すなわち、第１トークン列生成部３４は、文書画像サンプルにおいて各領域が文字列、段落、線、表などの属性のうち該当する属性を持つ領域に分割する。そして、第１トークン列生成部３４は、属性を持つ領域の情報を示す属性情報を、レイアウト情報として取得する。なお、属性情報は、属性や領域の位置や範囲などを示す情報を含む。

＜レイアウトの解析処理＞
ここで、本実施形態に係るレイアウトの解析処理の詳細について図を用いて説明する。図１４は、本実施形態に係るレイアウトの解析処理を説明するための図である。図１４（ａ）は、本実施形態に係るレイアウトの解析処理の流れを示すフローチャートである。図１４（ｂ）は、文書画像サンプル１４００に対して本実施形態に係るレイアウトの解析処理を行った後の領域を示す図である。図１４（ｃ）は、文書画像サンプル１４００の各領域に対応する属性情報のリストを示す図である。例えば、文書画像サンプル１４００における領域１４１１および１４１３は、文字列の属性を持つ文字列領域として分割される。文書画像サンプル１４００における領域１４１２は、スタンプの属性を持つスタンプ領域として分割される。文書画像サンプル１４００における領域１４１４は、線の属性を持つ線領域として分割される。文書画像サンプル１４００における領域１４１５は、段落の属性を持つ段落領域として分割される。

まず、Ｓ１４０１にて、第１トークン列生成部３４は、Ｓ８０１にて取得した文書画像サンプルに対して二値化処理を実行する。これにより、文書画像サンプルから白黒の二値画像が生成される。

Ｓ１４０２にて、第１トークン列生成部３４は、黒画素輪郭で囲まれる画素の塊を抽出する。具体的には、Ｓ１４０１にて生成した二値画像に対して輪郭線追跡を行うことにより、黒画素輪郭で囲まれる画素の塊が抽出される。なお、輪郭線追跡を行うことにより得られた黒画素の塊の面積が所定の面積よりも大きい場合については、内部にある白画素に対しても輪郭線追跡を行うことにより、白画素の塊を抽出する。そして、さらに一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出することを繰り返す。

最後に、Ｓ１４０３にて、第１トークン列生成部３４は、Ｓ１４０２にて得た黒画素の塊に対し、大きさおよび形状で分類し、分類結果に応じて、文字列、段落、線、表などの属性のうち、該当する属性を示す属性情報を持つ領域に分割する。例えば、縦横比が１に近く、大きさが一定の範囲のものを文字相当の画素塊とする。さらに近接する文字が整列よくグループ化されている部分を、文字列の属性情報を持つ領域として分割する。複数の文字列領域が整列よくグループ化されている部分領域を、段落の属性情報を持つ領域として分割する。扁平な画素塊の領域を、線の属性情報を持つ領域として分割する。一定大きさ以上でかつ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲（領域）を、表の属性情報を持つ領域として分割する。不定形の画素塊が散在している領域を、写真の属性情報を持つ領域として分割する。また、それ以外の任意形状の画素塊で構成される領域を、オブジェクトの属性情報を持つ領域として分割する。なお、属性情報はこれに限定されない。例えば、さらに詳細に解析を行うことにより、罫線なしの表領域を推定して罫線なしの表の属性情報を持つ領域に分割したり、オブジェクトの種類を線画、スタンプなどのように細分化した属性を示す属性情報を持つ領域に分割したりしてもよい。すなわち、オブジェクトとして、例えば、文字列、段落、線、表、写真、スタンプなどが挙げられる。

図８に戻り、Ｓ８０３にて、第１トークン列生成部３４は、Ｓ８０２にて生成した領域に対して、読み取りを行う読取順番を決定する。そして、Ｓ８０４にて、第１トークン列生成部３４は、Ｓ８０３にて決定した読取順番に従って、Ｓ８０２にて得られた複数の領域の中から未処理の領域を選択する。

Ｓ８０５にて、第１トークン列生成部３４は、属性トークンテーブルを基に、Ｓ８０２にて分割した領域が持つ属性情報に対応した属性トークンを、本実施形態に係る領域情報トークンとして生成する。属性トークンテーブルは、予め作成されていてもよいし、図１４に示すレイアウトの解析処理結果を基に作成されていてもよい。属性トークンテーブルは、属性情報と属性トークンとの関係を示す表である。属性トークンテーブル１５００は、図１５（ａ）に示すように、属性情報１５０１の各情報と属性トークン１５０２の各トークンとが対応している。例えば、「文字列」の属性情報を持つ領域１４１１は、図１５（ｂ）に示すように、「＜文字列＞」の領域情報トークン列１５１１に変換される。また、「スタンプ」の属性情報を持つ領域１４１２は、「＜スタンプ＞」の領域情報トークン１５１２に変換される。

Ｓ８０６－Ｓ８０８では、第１トークン列生成部３４は、領域内の文字列データを読み取る読取順番を決定し、領域情報トークンと、読取順番に従い読み取った文字列トークンとを結合することにより、文書画像トークン列を生成する。上述の処理を繰り返して、文書画像サンプル１４００における全ての領域を処理することにより、図１５（ｂ）に示すような、文書画像トークン列１５１０が生成される。

図６に戻り、Ｓ６０６にて、第２トークン列生成部３５は、第１の実施形態と同様、Ｓ６０５にて生成した文書画像トークン列に対応した、各項目名に対する抽出対象の文字列が出現するトークン位置と属性を表す項目値トークン列を生成する。

Ｓ６０７にて、学習データ生成部３６は、Ｓ６０５にて生成した文書画像トークン列を入力データとし、Ｓ６０６にて生成した項目値トークン列を出力データとする学習データセットを生成する。本実施形態のＳ６０５にて文書画像トークン列１５１０を生成し、本実施形態のＳ６０６にて項目値トークン列１０３０を生成した場合には、以下に示す学習データセットが生成される。すなわち、Ｓ６０５にて生成した文書画像トークン列１５１０を入力データとし、Ｓ６０６にて生成した項目値トークン列１０３０を出力データとする学習データセットが生成される。

Ｓ６０９にて、学習部３７は、生成された全ての学習データセットを用いて、機械学習により項目値判定モデル１５を生成する。この処理において、抽出対象の文字列トークンが出現しやすい領域属性の傾向や、領域属性の関係性の傾向を学習することができる。例えば、書類名や書類番号などは、独立した一文、すなわち文字列領域として現れることが多いという傾向を取得できる。一方で、発行元情報や宛先情報などは、会社名／住所／電話番号／部署名／担当者名など、関連した情報が列挙されるため、段落領域に現れることが多いという傾向を取得できる。また、線領域は、２つの領域の内容を分断するという傾向を取得できる。さらには、社印や個人印などは発行者を証明するために押印されることから、スタンプ領域の近くには発行元情報が記載されることが多いという傾向を取得できる。

以上述べたように、本実施形態によれば、レイアウト解析処理を実行することにより文書画像を詳細な属性情報を持つ領域に分割することにより、抽出対象の文字列トークンと領域属性の関係性、または領域属性の関係性を考慮した項目値の推定が可能となる。これにより、抽出精度を向上させることができる。

［第３の実施形態］
本実施形態では、領域情報の項目値トークン自体にも意味を付与させることにより学習させる態様について説明する。

＜項目値判定モデルの生成処理＞
まず、本実施形態に係る項目値判定モデルの生成処理について、図６および図１６を用いて説明する。図１６は、項目値トークン列を説明するための図である。図１６（ａ）に項目値トークンテーブルを示す。図１６（ｂ）に文字列トークンの一例を示し、図１６（ｃ）に図１６（ｂ）に示す文字列トークンに対応する項目値トークン列を示す。図１６（ｄ）に文字列トークンの一例を示し、図１６（ｅ）に図１６（ｄ）に示す文字列トークンに対応する項目値トークン列を示す。本実施形態では、項目値判定モデルの生成処理に関し、第１および第２の実施形態の場合と異なる、図６に示されるＳ６０５、Ｓ６０７、Ｓ６０９の各処理について詳細に説明する。

Ｓ６０５にて、第１トークン列生成部３４は、項目名ＩＤリストと領域情報ＩＤリストに基づき、文書画像トークン列を生成する。具体的には、第１トークン列生成部３４は、例えば、図１０（ａ）に示す項目名ＩＤリスト１０００と、図１６（ａ）に示す領域情報ＩＤリスト１６００とを参照することにより、項目値トークン列を生成する。領域情報ＩＤリスト１６００は、条件１６０１と領域情報ＩＤ１６０２とが対応付けられた表である。「抽出対象の文字列を含む」の条件には、領域情報ＩＤの「０」が対応付けられている。「抽出対象の文字列を含まない」の条件には、領域情報ＩＤの「－１」が対応付けられている。

図１６（ｂ）および図１６（ｃ）を用いて、文書画像サンプル９００の領域９０１に対する項目値トークン列の生成処理について説明する。領域９０１中の文字列データ７２１「請求書」には、抽出対象の文字列データとして「請求書」が含まれる。そのため、領域情報トークン９１１「＜領域＞」を領域情報ＩＤ１６０２「０」に置き換えた項目値トークン１６１１に変換される。また、「請求書」に対応する文字列トークン９１２および９１３を、項目名ＩＤリスト１０００の項目名１００１「文書名」に対応する項目名ＩＤ１００２「１」に置き換えた項目値トークン１６１２および１６１３に変換される。よって、「０」の項目値トークン１６１１と、「１」の項目値トークン１６１２と、「１」の項目値トークン１６１３とが記載順に並んだ項目値トークン列１６１０が生成される。

また、図１６（ｄ）および図１６（ｅ）を用いて、文書画像サンプル９００の領域９０６に対する項目値トークン列の生成処理について説明する。領域９０６には、４つの文字列データ「振込先」「川崎第一銀行」「普通３０１４６」「ショウギョウロセイカ」が含まれるが、いずれも抽出対象の文字列を含んでいない。そのため、領域情報トークン１６２１「＜領域＞」を領域情報ＩＤ１６０２「－１」に置き換えた項目値トークン１６５１に変換される。上述の文字列データに対応する文字列トークン１６２２－１６３１は、「該当なし」の項目名１００１に対応する項目名ＩＤ１００２「０」にそれぞれ置き換えた項目値トークン１６５２－１６６１に変換される。よって、項目値トークン１６５１と、項目値トークン１６５２－１６６１とが記載順に並んだ項目値トークン列１６２０が生成される。これを全ての領域に対して行うことにより、最終的な項目値トークン列が生成される。なお、本実施形態では、第１の実施形態と同様な方法により領域情報トークンを生成する態様について説明したが、第２の実施形態と同様な方法により生成した属性トークンを領域情報トークンとして生成してもよい。

Ｓ６０７にて、学習データ生成部３６は、Ｓ６０５にて生成した文書画像トークン列を入力データとし、Ｓ６０６にて生成した項目値トークン列を出力データとする学習データセットを生成する。本実施形態のＳ６０５にて文書画像トークン列１５１０を生成した場合、学習データ生成部３６は、Ｓ６０５にて生成した文書画像トークン列１５１０を入力データとし、Ｓ６０５にて生成した項目値トークン列を出力データとする学習データセットを生成する。

Ｓ６０９にて、学習部３７は、生成された全ての学習データセットを用いて、機械学習により項目値判定モデル１５を生成する。この処理において、領域内に抽出対象の文字列が含まれる領域の傾向性を学習することができる。これにより、候補文字列群の抽出処理において１つの項目の項目値として複数の候補文字列が検出された場合、領域内に対象文字列が含まれる可能性が高い領域のものを優先して出力することも可能となる。なお、ここでは、領域内に対象文字列を含むかという情報を項目値トークンに意味付けて学習を行ったが、意味付けの方法はこれに限定さない。例えば、含まれる項目名を情報として埋め込むなどしてもよい。

以上述べたように、本実施形態によれば、領域情報の項目値トークン自体にも意味付けした項目値トークン列を生成することによって、領域全体としての特徴、例えば抽出対象文字列の含みやすさなどを考慮した推論が可能となる。そして、特に、１つの項目の項目値として複数の候補文字列が検出された場合などの優先付けなどに利用することにより、抽出精度の向上にもつながる。

［その他の実施形態］
本開示は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

３学習装置
３２文字列取得部
３３項目値情報取得部
３４第１トークン列生成部
３５第２トークン列生成部
３７学習部

Claims

文書画像から所定の項目の項目値に対応する文字列を候補文字列として抽出するための学習済みモデルを生成する情報処理装置であって、
学習用の文書画像から文字列を取得する第１の取得手段と、
前記学習用の文書画像から抽出対象の文字列に対応する所定の項目を取得する第２の取得手段と、
前記学習用の文書画像を解析して前記所定の項目の項目値に対応する領域に分割する第１の解析手段と、
前記第１の解析手段により分割された領域毎に前記領域を示す第１のトークンを生成する第１の生成手段と、
前記第１の解析手段により分割された領域毎に、前記第１の取得手段により取得された文字列を構成する単語を示す第２のトークンを生成する第２の生成手段と、
前記第１のトークンと前記第２のトークンを連結して第１の入力トークン列を生成する第１の連結手段と、
前記第１の入力トークン列を構成する前記第１のトークンおよび前記第２のトークンを、前記項目に対応する情報に置き換えた第１の出力トークン列に変換する変換手段と、
生成された第１の入力トークン列を入力データとし、変換された第１の出力トークン列を出力データとして生成された学習データを用いて機械学習を行うことにより前記学習済みモデルを生成する学習手段と、
を有することを特徴とする情報処理装置。
前記領域を選択する順番を決定する第１の決定手段
を有し、
前記第１の連結手段は、前記第１の決定手段によって決定された順番に従い前記領域を選択して、前記第１のトークンと前記第２のトークンを連結した前記第１の入力トークン列を生成することを特徴とする請求項１に記載の情報処理装置。
前記領域において前記単語を選択する順番を決定する第２の決定手段
を有し、
前記第１の連結手段は、前記第２の決定手段によって決定された順番に従い前記単語を選択して前記第１のトークンと前記第２のトークンを連結した前記第１の入力トークン列を生成することを特徴とする請求項１または２に記載の情報処理装置。
前記第１の解析手段は、前記学習用の文書画像を解析して前記文書画像に含まれるオブジェクトの領域毎に当該オブジェクトの属性を特定し、
前記第１の生成手段は、特定された属性を示すトークンを、前記第１のトークンとして生成することを特徴とする請求項１から３の何れか一項に記載の情報処理装置。
前記オブジェクトは、文字列、段落、線、表、写真、またはスタンプのうちの何れかであることを特徴とする請求項４に記載の情報処理装置。
前記学習済みモデルは、処理対象の文書画像とは異なる複数の文書画像に含まれる文字列のそれぞれを学習用データとする機械学習により生成されたものである
ことを特徴とする請求項１から５の何れか一項に記載の情報処理装置。
前記学習済みモデルは、前記所定の項目に対応する情報に基づき前記第２のトークンを変換した出力トークン列と、前記第１の入力トークン列とを用いて生成されたものである
ことを特徴とする請求項１から６の何れか一項に記載された情報処理装置。
前記学習済みモデルは、前記領域に含まれる所定の項目の項目名に基づき前記第２のトークンを変換した出力トークン列と、前記第１の入力トークン列とを用いて生成されたものであることを特徴とする請求項１から７の何れか一項に記載された情報処理装置。
前記学習済みモデルは、前記領域に含まれる所定の文字列の情報に基づき前記第１のトークンを変換した前記第１の出力トークン列と、前記第１の入力トークン列とを用いて生成されたものである、ことを特徴とする請求項１から８の何れか一項に記載の情報処理装置。
処理対象の文書画像を取得する第３の取得手段と、
前記処理対象の文書画像から文字列を取得する第４の取得手段と、
前記処理対象の文書画像を解析して所定の項目の項目値に対応する領域に分割する第２の解析手段と、
前記第２の解析手段により分割された領域毎に前記領域を示す第３のトークンを生成する第３の生成手段と、
前記第２の解析手段により分割された領域毎に、前記第４の取得手段により取得された文字列を構成する単語を示す第４のトークンを生成する第４の生成手段と、
前記第３のトークンと前記第４のトークンを連結して第２の入力トークン列を生成する第２の連結手段と、
前記第２の連結手段により生成された前記第２の入力トークン列を、前記学習手段により生成された前記学習済みモデルに対して入力することにより、前記第２の入力トークン列に対応する第２の出力トークン列を推定する推定手段と、
推定された第２の出力トークン列を基に、前記処理対象の文書画像から取得された文字列のうち、前記所定の項目の項目値に対応する文字列を候補文字列として抽出する抽出手段と、
を有することを特徴とする請求項１から９の何れか一項に記載の情報処理装置。
前記推定手段は、前記第２の入力トークン列を前記学習済みモデルに対して入力することにより、前記第２の入力トークン列を構成する前記第３のトークンおよび前記第４のトークンを、前記項目に対応する情報に置き換えた第３の出力トークン列、または前記項目の項目値らしさの確率値を格納した第４の出力トークン列の少なくとも一方を推定し、
前記抽出手段は、前記推定に基づき特定された前記文字列を、前記候補文字列として抽出する、ことを特徴とする請求項１０に記載の情報処理装置。
前記抽出手段は、前記推定に基づき特定された前記文字列が１つの項目の項目値に対応して複数ある場合、前記項目値らしさの確率値に基づき特定した文字列を、前記候補文字列として抽出する、ことを特徴とする請求項１１に記載の情報処理装置。
前記抽出手段は、前記項目値らしさの確率値が高い文字列を優先して、前記候補文字列として抽出する、ことを特徴とする請求項１２に記載の情報処理装置。
抽出された候補文字列を出力する出力手段、
を有することを特徴とする請求項１０から１３の何れか一項に記載の情報処理装置。
前記処理対象の文書画像は、予めレイアウトが定められた定型文書とは異なるレイアウトで作成された文書の画像である
ことを特徴とする請求項１０から１４の何れか一項に記載の情報処理装置。
文書画像から所定の項目の項目値に対応する文字列を候補文字列として抽出するための学習済みモデルを生成する情報処理方法であって、
学習用の文書画像から文字列を取得する第１の取得工程と、
前記学習用の文書画像から抽出対象の文字列に対応する所定の項目を取得する第２の取得工程と、
前記学習用の文書画像を解析して前記所定の項目の項目値に対応する領域に分割する解析工程と、
前記解析工程にて分割された領域毎に前記領域を示す第１のトークンを生成する第１の生成工程と、
前記解析工程にて分割された領域毎に、前記第１の取得工程にて取得された文字列を構成する単語を示す第２のトークンを生成する第２の生成工程と、
前記第１のトークンと前記第２のトークンを連結して第１の入力トークン列を生成する連結工程と、
前記第１の入力トークン列を構成する前記第１のトークンおよび前記第２のトークンを、前記項目に対応する情報に置き換えた第１の出力トークン列に変換する変換工程と、
生成された第１の入力トークン列を入力データとし、変換された第１の出力トークン列を出力データとして生成された学習データを用いて機械学習を行うことにより、前記学習済みモデルを生成する学習工程と、
を含むことを特徴とする情報処理方法。
コンピュータに、請求項１から１５の何れか一項に記載の情報処理装置の各手段として機能させるためのプログラム。