JP2023041242A

JP2023041242A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2023041242A
Application number: JP2021148490A
Authority: JP
Inventors: 亮小坂; Ryo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-03-24
Also published as: US20230083959A1

Abstract

【課題】文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する属性に該当する文字列データを、所定の項目に対応する項目値の候補として抽出する。【解決手段】情報処理装置は、処理対象の文書画像に含まれる複数の文字列の中から予め定められた項目に対応する項目値の候補となる文字列を抽出するものであって、まず、予め設定された抽出対象の概念特徴グループを示す情報を取得する。次に、処理対象の文書画像に含まれる各文字列に対応する特徴ベクトルに基づいて、予め定められた複数の概念特徴グループのうちから各文字列が属する概念特徴グループを特定する。次に、当該文書画像に含まれる文字列の中から、特定された概念属性グループが抽出対象の概念特徴グループと同一の属性情報に対応付けられた概念特徴グループと同一となった文字列を候補として抽出する。【選択図】図２Ｃ

Description

本開示は、文書画像から文字列のデータを抽出する技術に関する。

イメージスキャナデバイス（以下「スキャナ」という。）又はファクシミリ（以下「ＦＡＸ」という。）受信機等を用いて得られた文書画像から、所定の項目値を文字列のデータとして抽出することが行われている。抽出された文字列のデータは、ファイル名の自動付与等の文書ファイリング処理、又は、業務システムへの転記処理等の入力データとしてデータ入力業務等に用いられる。

特許文献１には、データ入力業務を支援するための技術として、一般に準定型文書又は非定型文書と呼ばれる、予めレイアウトが定められた定型文書とは異なるレイアウトで作成された文書の画像から、項目値に対応する文字列を抽出する手法が開示されている。特許文献１に開示された手法（以下「従来手法」という。）は、まず、振込依頼書等の文書画像に含まれる複数の文字列から、「口座番号」等の予め定められた項目名と、項目名に対応する「１２３４５６７」等の項目値とを抽出する。次に、項目名と項目値との互いの位置関係から両者の妥当性を評価し、この評価結果に基づいて項目値を抽出するものである。従来手法では、項目名を、「番号」又は「口座番号」等の予め定められたキーワードに基づいて抽出し、項目値を、「ＮＮＮＮＮＮＮ」（Nは、例えば任意のアラビア数字）等の予め定められたデータ型に基づいて抽出する。

また、抽出した文字列を基に集計又は分析を行い、集計又は分析後の文字列のデータを新たなデータとして入力する、税法上の仕訳処理等の集計／分析業務がある。この集計／分析処理を行うためには、抽出した文字列のデータを、消耗品又は交通費等の勘定科目等、適切な属性のグループに分類して集計する必要がある。しかしながら、従来の手法では、ユーザが自らの経験等を基にして、手動で分類することにより集計していた。又は、予め定められた属性のグループ名と項目値との関係性を示す情報を基にして、抽出した文字列のデータである項目値から属性のグループ名を自動で決定することにより集計していた。

特開２０１６－５１３３９号公報

従来手法では、「金額」、「日付」、又は「口座番号」等の文字列の表記に規則性がある項目の項目値については抽出できるが、「氏名」、「住所」、「職業」、又は「続柄」等の文字列の表記に規則性が無い項目の項目値については抽出できないことがあった。具体的には、文字列の表記に規則性がある場合についてはデータ型によって妥当性を評価できるが、文字列の表記に規則性が無い場合については、データ型によって妥当性を評価することが困難なため、所望する項目値を必ずしも抽出できなるわけではない。

本開示に係る情報処理装置は、処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる候補文字列を抽出する情報処理装置であって、予め定められた複数の概念特徴グループのうちの予め設定された抽出対象の概念特徴グループの情報を取得する抽出対象取得手段と、複数の概念特徴グループのそれぞれと属性グループの項目を示す属性情報とが予め対応付けられた属性情報テーブルを取得するテーブル取得手段と、属性情報テーブルに基づいて、抽出対象の概念特徴グループに対応付けられた属性情報と同一の属性情報に対応付けられた１以上の概念特徴グループを概念特徴グループ群として複数の概念特徴グループの中のから取得するグループ群取得部と、複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、複数の概念特徴グループの中のから複数の文字列のそれぞれが属する概念特徴グループを特定し、複数の文字列の中から、特定した概念特徴グループが概念特徴グループ群のうちのいずれかの概念特徴グループと同一となった文字列を候補文字列として抽出する候補抽出手段と、候補抽出手段により抽出された候補文字列を出力する候補出力手段と、を有する。

本開示によれば、文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する属性に該当する文字列データを、所定の項目に対応する項目値の候補として抽出できる。

第１実施形態に係る情報処理システムの構成の一例を示すブロック図である。第１実施形態に係る画像入力装置の構成の一例を示すブロック図である。第１実施形態に係る学習装置の構成の一例を示すブロック図である。第１実施形態に係る情報処理装置の構成の一例を示すブロック図である。第１実施形態に係る情報処理システムの処理シーケンスの一例を示すシーケンス図である。第１実施形態に係る学習装置における処理の一部の流れの一例を示すフローチャートである。第１実施形態に係る学習装置における処理の他の一部の流れの一例を示すフローチャートである。第１実施形態に係る情報処理装置における処理の一部の流れの一例を示すフローチャートである。第１実施形態に係る情報処理装置における処理の他の一部の流れの一例を示すフローチャートである。属性文字列サンプルの一例を説明するための説明図である。属性情報テーブルの一例を説明するための説明図である。第２実施形態に係る情報処理装置における処理の一部の流れの一例を示すフローチャートである。文字列データ及び特徴ベクトルの一例を説明するための説明図である。設定画面の一例を説明するための説明図である。確認画面の一例を説明するための説明図である。確認画面の他の一例を説明するための説明図である。第３実施形態に係る情報処理装置における処理の一部の流れの一例を示すフローチャートである。第４実施形態に係る学習装置における処理の一部の流れの一例を示すフローチャートである。概念特徴グループ及び属性情報テーブルの一例を説明するための説明図である。

以下、添付の図面を参照して、本開示の実施の形態について説明する。なお、以下の実施の形態に示す構成は、一例に過ぎず、本開示の範囲をその構成のみに限定されるものでなく、また、以下の実施の形態に示す構成の全てが本開示に必須のものとは限らない。

［第１実施形態］
＜情報処理システム＞
図１乃至９及び図１１乃至１４を参照して、第１実施形態に係る情報処理システム１について説明する。図１は、第１実施形態に係る情報処理システム１の構成の一例を示すブロック図である。情報処理システム１は、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続されている。情報処理システム１において、画像入力装置２、学習装置３、及び情報処理装置４は、いずれも、ネットワーク５に対して単一接続ではなく、複数接続された構成であってもよい。具体的には、例えば、情報処理装置４は、高速演算リソースを有する第１の装置と、大容量ストレージを有する第２の装置により構成され、第１及び第２の装置がネットワーク５を介して互いに通信可能に接続された構成であってもよい。図１に示す情報処理システム１は、一例として、画像入力装置２、学習装置３、及び情報処理装置４がネットワーク５に対してそれぞれ単一接続されたものである。

画像入力装置２は、プリント機能、スキャン機能、及びＦＡＸ機能等の複数の機能を備えた、例えば、ＭＦＰ（Multi-Function Peripheral）により実現される。画像入力装置２は、画像を取得し、取得した画像のデータを外部の装置に出力する機能を有する。画像入力装置２は、ＭＦＰにより実現される場合、画像入力装置２は、例えば、スキャン機能により紙等の記録媒体に印字された原稿１１を光学的に読み取り、周知のスキャン画像処理を行うことにより文書画像１３を取得する。また、当該場合、例えば、画像入力装置２は、ＦＡＸ機能により、図１には不図示のＦＡＸ送信機から送信されたＦＡＸデータ１２を受信し、ＦＡＸデータ１２に対して周知のＦＡＸ画像処理を行うことにより文書画像１３を取得する。さらに、画像入力装置２は、取得した文書画像１３を文書画像データとして情報処理装置４に対して送信する。

なお、ＭＦＰはあくまで一例であって、画像入力装置２は、ＰＣ（Personal Computer）等により実現されてもよい。具体的には、例えば、画像入力装置２としてのＰＣにおいて動作する文書作成アプリケーションを用いて生成される文書画像１３を取得し、取得した文書画像１３を文書画像データとして情報処理装置４に対して送信してもよい。ここで、文書作成アプリケーションを用いて生成される文書画像１３のデータとは、ＰＤＦ（Portable Document Format）等の電子文書ファイル形式のデータである。当該文書画像１３のデータは、ＪＰＥＧ（Joint Photographic Experts Group）等の静止画像のデータ等であってもよい。

学習装置３は、文字列分類器１５を生成して出力する。具体的には、学習装置３は、機械学習を行い、機械学習を行うことにより得た学習済モデルに基づいて文字列分類器１５を生成する。ここで、文字列分類器１５とは、説明変数として入力された文字列を示す情報に基づいて、予め定められた複数の概念的な特徴を捉えたグループ（以下「概念特徴グループ」という。）のうちから、当該文字列が属する概念特徴グループを特定するものである。具体的には、学習装置３は、まず、エンジニア等のユーザから提供された複数の文書画像のサンプル（以下「文書画像サンプル１４」という。）に含まれる文字列のデータ（以下「文字列データ」という。）を取得する。次に、取得した文字列データを学習用データとして機械学習を行うことにより得た学習済モデルに基づいて、文字列分類器１５を生成する。ここで、概念特徴グループとは、一般に固有表現と呼ばれる、文字列データの概念的な特徴を捉えたグループを指すものであって、人名若しくは地名等の固有名詞、又は、日付若しくは金額等の固有表現等が挙げられる。なお、学習装置３は、取得した文字列データを特徴ベクトルに変換し、変換した特徴ベクトルを学習用データとして機械学習を行ってもよい。特徴ベクトルについては後述する。

学習装置３は、例えば、人事系の事務部門で扱われる複数の文書画像のデータを文書画像サンプル１４として取得する。学習装置３は、取得した複数の文書サンプル１４のそれぞれに含まれる文字列のデータを元に、当該文字列を機械学習により文書名、日付、氏名、住所、又は法人名等に相当する複数の概念特徴グループにグループ化する。このようにして、学習装置３は、説明変数として入力された文字列を示すデータに基づいて当該文字列がこれらの概念特徴グループのうちのいずれに属するかを特定するための文字列分類器１５を生成する。なお、文書サンプル１４に含まれる文字列は、文書サンプル１４に対してＯＣＲ（Optical character recognition）処理を実行することによって得られた文字認識結果として取得される。

また、学習装置３は、例えば、医療系の事務部門で扱う複数の文書画像のデータを文書画像サンプル１４として取得してもよい。この場合、学習装置３は、取得した複数の文書サンプル１４のそれぞれに含まれる文字列のデータを元に、当該文字列を機械学習により文書名、日付、氏名、医療機関名、病名、薬品名、又は金額等に相当する複数の概念特徴グループにグループ化する。このようにして、学習装置３は、入力された文字列を示すデータに基づいて当該文字列がこれらの概念特徴グループのうちのいずれに属するかを特定するための文字列分類器１５を生成する。文字列分類器１５を生成した後、学習装置３は、生成した文字列分類器１５を、ネットワーク５を介して情報処理装置４に対して送信する。

また、学習装置３は、文字列分類器１５に加えて、属性情報テーブル１８を生成して出力する。具体的には、学習装置３は、まず、エンジニア又はエンドユーザ等のユーザ（以下、単に「ユーザ」という。）によって提供された属性文字列サンプル１７を取得し、属性文字列サンプル１７に含まれる属性情報と文字列データを取得する。次に、学習装置３にて生成された上述の文字列分類器１１５を用いて、属性文字列サンプル１７に含まれる文字列データを概念特徴グループに分類し、概念特徴グループと属性情報とを対応付けて属性情報テーブル１８を生成する。属性情報テーブル１８を生成した後、学習装置３は、生成した属性情報テーブル１８を、ネットワーク５を介して情報処理装置４に対して送信する。学習装置３の詳細については後述する。

情報処理装置４は、画像入力装置２から受信した文書画像１３に含まれる１以上の文字列のそれぞれに対応するデータを、文字列毎に文字列データとして取得する。具体的には、例えば、情報処理装置４は、文書画像１３に対してＯＣＲ処理を実行することによって得られた文字認識結果を文字列データとして取得する。さらに、情報処理装置４は、文書画像１３に含まれる１以上の文字列のデータのうちから、候補となる１以上の文字列（以下「候補文字列」という。）のデータを抽出する。具体的には、情報処理装置４は、まず、文字列分類器１５を用いて、取得した文字列データの文字列が複数の概念特徴グループのうちのいずれに属するかを特定する。次に、文書画像１３に含まれる１以上の文字列のデータのうちから、特定された概念特徴グループが予め定められた抽出対象の概念特徴グループ（以下「抽出対象グループ」という。）と同一の文字列データ１６を候補文字列のデータとして抽出する。情報処理装置４は、抽出した候補文字列のデータ（文字列データ１６）を出力する。具体的には、情報処理装置４は、抽出した候補文字列のデータ（文字列データ１６）を図１には不図示の記憶装置又は表示装置等に出力する。情報処理装置４の詳細については後述する。

ネットワーク５は、ＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）等により構成される通信網である。ネットワーク５は、画像入力装置２、学習装置３、及び情報処理装置４の間を互いに通信可能に接続して、装置間におけるデータの送受信を可能にする。

＜装置構成＞
図２を参照して、画像入力装置２、学習装置３、及び情報処理装置４の構成について説明する。図２Ａは、第１実施形態に係る画像入力装置２の構成の一例を示すブロック図である。具体的には、図２Ａ（ａ）は、第１実施形態に係る画像入力装置２が有する機能ブロックの一例を示すブロック図である。画像入力装置２は、画像取得部２１及び画像送信部２２を有する。画像取得部２１は、文書画像１３を取得する。画像送信部２２は、画像取得部２１により取得された文書画像１３のデータを、ネットワーク５を介して情報処理装置４に対して送信する。

画像入力装置２において機能する各部の処理は、画像入力装置２に内蔵されたＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアによってなされる。当該処理は、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアによってなされるものであってもよい。また、当該処理は、ＲＡＭ（Random Access Memory）等のメモリと、ＣＰＵ（Central Processor Unit）等のプロセッサとを用いたソフトウエアによってなされるものであってもよい。

図２Ａ（ｂ）は、第１実施形態に係る画像入力装置２が有するハードウェアの一例を示すブロック図である。具体的には、図２Ａ（ｂ）に示すブロック図は、画像入力装置２において機能する各部がソフトウエアとして動作する場合の画像入力装置２のハードウェア構成の一例を示すものである。画像入力装置２は、コンピュータにより構成されており、当該コンピュータは、図２Ａ（ｂ）に一例として示すように、ＣＰＵ２０１、ＲＯＭ２０２、データパス２０３、ＲＡＭ２０４、プリンタデバイス２０５、及びスキャナデバイス２０６を有する。また、当該コンピュータは、図２Ａ（ｂ）に一例として示すように、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を有する。

ＣＰＵ２０１は、画像入力装置２における動作全体を制御するためのプロセッサである。ＣＰＵ２０１は、ＲＯＭ２０２等に格納された起動プログラムを実行することにより、画像入力装置２のシステムを起動する。さらに、ＣＰＵ２０１は、ストレージ２０８等に記憶された制御プログラムを実行することにより、画像入力装置２においてプリント機能、スキャン機能、又はＦＡＸ機能等として機能する各部を機能させる。なお、画像入力装置２は、ＣＰＵ２０１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ（Digital Signal Processor）等がある。

ＲＯＭ２０２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、画像入力装置２を起動する起動プログラムを格納している。データバス２０３は、画像入力装置２が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２０４は、ＲＯＭ２０２又はストレージ２０８等から供給されるプログラム若しくはデータ、又は外部インタフェース２１１を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＲＡＭ２０４は、ＣＰＵ２０１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。

プリンタデバイス２０５は、画像出力用のデバイスであって、画像入力装置２にて取得された文書画像を紙等の記憶媒体に印字して印刷出力するためのデバイスである。スキャナデバイス２０６は、画像入力用のデバイスであって、文字や図表等が印字された紙等の記憶媒体を光学的に読み取って文書画像として取得するためのデバイスである。原稿搬送デバイス２０７は、図２Ａ（ｂ）には不図示の原稿台に載置された原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送するためのデバイスである。原稿搬送デバイス２０７は、ＡＤＦ（Auto Document Feeder）等により実現される。

ストレージ２０８は、ＨＤＤ（Hard Disk Drive）等により実現されるものであって、前述の制御プログラム又は文書画像データを記憶するための補助記憶装置である。入力デバイス２０９は、タッチパネル又はハードキー等により実現されるものであって、ユーザからの画像入力装置２に対する操作入力を受け付けるためのデバイスである。表示デバイス２１０は、液晶ディスプレイ等により実現されるものであって、画像入力装置２が出力する設定画面等の表示画像をユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２１１は、画像入力装置２とネットワーク５との間を接続するものであって、図２Ａ（ｂ）には不図示のＦＡＸ送信機からＦＡＸデータ１２を受信したり、情報処理装置４に対して文書画像のデータを送信したりするためのものである。

図２Ｂは、第１実施形態に係る学習装置３の構成の一例を示すブロック図である。具体的には、図２Ｂ（ａ）は、第１実施形態に係る学習装置３が有する機能ブロックの一例を示すブロック図である。学習装置３は、画像サンプル取得部３１、文字列取得部３２、ベクトル変換部３３、第１学習部３４、分類器生成部３５、分類器出力部３６、属性サンプル取得部３７、第２学習部３８、及びテーブル出力部３９を有する。

画像サンプル取得部３１は、文書画像サンプル１４を取得する。具体的には、例えば、画像サンプル取得部３１は、ユーザによる操作入力に基づいて、操作入力に対応する文書画像サンプル１４を図２Ｂ（ａ）には不図示の記憶装置から読み出すことにより、文書画像サンプル１４を取得する。文字列取得部３２は、画像サンプル取得部３１により取得された文書画像サンプル１４が示す文章画像に含まれる１以上の文字列のデータを取得する。ベクトル変換部３３は、文字列取得部３２により取得された１以上の文字列データのそれぞれを、文字列データ毎に特徴ベクトルに変換する。第１学習部３４は、ベクトル変換部３３により変換された特徴ベクトルを学習用データとして学習モデルに入力することにより学習モデルに機械学習させる。分類器生成部３５は、第１学習部３４よる学習結果である学習済モデルを受けて、学習済モデルに基づいて文字列分類器１５を生成する。なお、分類器生成部３５は、第１学習部３４よる学習結果である学習済モデルに対して処理を行うことなく、当該学習済モデルを文字列分類器１５としてもよい。分類器出力部３６は、分類器生成部３５により生成された文字列分類器１５を、情報処理装置４、又は図２Ｂ（ｂ）には不図示の記憶装置に対して出力する。

属性サンプル取得部３７は、属性文字列サンプル１７を取得する。具体的には、例えば、属性サンプル取得部３７は、ユーザによる操作入力に基づいて、操作入力に対応する属性文字列サンプル１７を図２Ｂ（ａ）には不図示の記憶装置から読み出すことにより、属性文字列サンプル１７を取得する。属性文字列サンプル１７の詳細について後述する。第２学習部３８は、分類器生成部３５により生成された文字列分類器１５と、属性サンプル取得部３７により取得された属性文字列サンプル１７とを用いて、属性情報テーブル１８を生成する。テーブル出力部３９は、第２学習部３８により生成された属性情報テーブル１８を、情報処理装置４、又は図２Ｂ（ｂ）には不図示の記憶装置に対して出力する。学習装置３が有する各部の詳細な処理については後述する。

学習装置３において機能する各部の処理は、学習装置３に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。図２Ｂ（ｂ）は、第１実施形態に係る学習装置３が有するハードウェアの一例を示すブロック図である。具体的には、図２Ｂ（ｂ）に示すブロック図は、学習装置３において機能する各部がソフトウエアとして動作する場合の学習装置３のハードウェア構成の一例を示すものである。学習装置３は、コンピュータにより構成されており、当該コンピュータは、図２Ｂ（ｂ）に一例として示すように、ＣＰＵ２３１、ＲＯＭ２３２、データバス２３３、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、及び表示デバイス２３７を有する。また、当該コンピュータは、図２Ｂ（ｂ）に一例として示すように、外部インタフェース２３８及びＧＰＵ２３９を有する。

ＣＰＵ２３１は、学習装置３における動作全体を制御するためのプロセッサである。ＣＰＵ２３１は、ＲＯＭ２３２等に格納された起動プログラムを実行することにより、学習装置３のシステムを起動する。また、ＣＰＵ２３１は、ストレージ２３５に記憶された制御プログラムを実行することにより、学習装置３において機能する各部を機能させる。なお、学習装置３は、ＣＰＵ２３１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２３１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ等がある。

ＲＯＭ２３２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、学習装置３を起動する起動プログラムを格納している。データバス２３３は、学習装置３が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２３４は、ＲＯＭ２３２又はストレージ２３５等から供給されるプログラム若しくはデータ、又は外部インタフェース２３８を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＲＡＭ２３４は、ＣＰＵ２３１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。ストレージ２３５は、ＨＤＤ等により実現されるものであって、前述の制御プログラム又は文書画像サンプルデータ１４等を記憶するための補助記憶装置である。

入力デバイス２３６は、マウス又はキーボード等により実現されるものであって、エンジニア等のユーザ（以下、単に「エンジニア」という。）からの学習装置３に対する操作入力を受け付けるためのデバイスである。表示デバイス２３７は、液晶ディスプレイ等により実現されるものであって、学習装置３の設定画面等の表示画像をエンジニアに対して視認可能に表示出力するためのデバイスである。外部インタフェース２３８は、学習装置３とネットワーク５との間を接続するものであって、図２Ｂ（ｂ）には不図示の記憶装置又はＰＣ等の外部装置から文書画像サンプル１４を受信するためのものである。また、外部インタフェース２３８は、情報処理装置４、又は図２Ｂ（ｂ）には不図示の記憶装置に対して文字列分類器１５を出力するためのものである。ＧＰＵ２３９は、画像処理を行うことが可能なプロセッサである。ＧＰＵ２３９は、例えば、ＣＰＵ２３１から与えられた制御コマンドに従って、与えられた文書画像に含まれる文字列のデータを元に、文字列分類器１５を生成するための演算を行う。

図２Ｃは、第１実施形態に係る情報処理装置４の構成の一例を示すブロック図である。具体的には、図２Ｃ（ａ）は、第１実施形態に係る情報処理装置４が有する機能ブロックの一例を示すブロック図である。情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，概念特徴グループ特定部４５、抽出対象設定部４６、候補抽出部４７、候補出力部４８、テーブル取得部４９を有する。

分類器取得部４１は、文字列分類器１５を取得する。具体的には、例えば、分類器取得部４１は、学習装置３により出力された文字列分類器１５を受けて、文字列分類器１５を取得する。分類器取得部４１は、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された文字列分類器１５を当該記憶装置から読み出すことにより、文字列分類器１５を取得してもよい。処理画像取得部４２は、文書画像１３を取得する。具体的には、例えば、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された文書画像１３のデータを当該記憶装置から読み出すことにより、文書画像１３を取得してもよい。文字列取得部４３は、文書画像１３に含まれる１以上の文字列のデータを取得する。ベクトル変換部４４は、文字列取得部４３により取得された１以上の文字列データのそれぞれを、文字列データ毎に特徴ベクトルに変換する。

概念特徴グループ特定部４５は、ベクトル変換部４４により変換された特徴ベクトルに基づいて、予め定められた複数の概念特徴グループのうちから、当該特徴ベクトルに対応する文字列が属する概念特徴グループを特定する。具体的には、概念特徴グループ特定部４５は、ベクトル変換部４４により変換された特徴ベクトルを、分類器取得部４１により取得された文字列分類器１５に説明変数と入力する。概念特徴グループ特定部４５は、文字列分類器１５が推論結果として出力する、概念特徴グループを識別可能な識別番号等の情報（以下「グループＩＤ（identification）」という。）を取得する。グループＩＤにより、当該特徴ベクトルに対応する文字列が属する概念特徴グループが特定される。

抽出対象設定部４６は、概念特徴グループ特定部４５により特定された概念特徴グループを抽出対象グループとして設定する。抽出対象設定部４６は、抽出対象グループを示す情報を抽出対象グループ情報として出力する。具体的には、抽出対象設定部４６は、抽出対象グループ情報をストレージ２６５等の記憶装置に出力して記憶装置に記憶させる。テーブル取得部４９は、属性情報テーブル１８を取得する。具体的には、例えば、テーブル取得部４９は、学習装置３により出力された属性情報テーブル１８を受けて、属性情報テーブル１８を取得する。

候補抽出部４７は、抽出対象グループに基づいて、文字列取得部４３により取得された、文書画像１３に含まれる１以上の文字列データのうちから、候補文字列を選択して抽出する。具体的には、例えば、候補抽出部４７は、まず、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された抽出対象グループ情報を、当該記憶装置から読み出すことにより取得する。次に、テーブル取得部４９により取得された属性情報テーブル１８を用いて、抽出対象グループに対応付けられた属性情報と同一の属性情報に対応付けられた１以上の概念特徴グループ「以下「概念特徴グループ群」という。」を取得する。次に、概念特徴グループ群を構成する各概念特徴グループと、概念特徴グループ特定部４５により特定された概念特徴グループとを、文書画像１３に含まれる文字列毎に比較する。候補抽出部４７は、当該比較の結果に基づいて、候補文字列のデータを抽出する。候補出力部４８は、候補抽出部４７により候補文字列のデータとして抽出された文字列データ１６を出力する。具体的には、例えば、候補出力部４８は、文字列データ１６を、図２Ｃ（ａ）には不図示の表示装置に表示出力する。情報処理装置４が有する各部の詳細な処理については後述する。

情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。図２Ｃ（ｂ）は、第１実施形態に係る情報処理装置４が有するハードウェアの一例を示すブロック図である。具体的には、図２Ｃ（ｂ）に示すブロック図は、情報処理装置４において機能する各部がソフトウエアとして動作する場合の情報処理装置４のハードウェア構成の一例を示すものである。情報処理装置４は、コンピュータにより構成されており、当該コンピュータは、図２Ｃ（ｂ）に一例として示すように、ＣＰＵ２６１、ＲＯＭ２６２、データバス２６３、ＲＡＭ２６４、及びストレージ２６５を有する。また、当該コンピュータは、図２Ｃ（ｂ）に一例として示すように、入力デバイス２６６、表示デバイス２６７、及び外部インタフェース２６８を有する。

ＣＰＵ２６１は、情報処理装置４における動作全体を制御するためのプロセッサである。ＣＰＵ２６１は、ＲＯＭ２６２に格納された起動プログラムを実行することにより、情報処理装置４のシステムを起動する。また、ＣＰＵ２６１は、ストレージ２６５に記憶された制御プログラムを実行することにより、情報処理装置４において機能する各部を機能させる。なお、情報処理装置４は、ＣＰＵ２６１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２６１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ等がある。

ＲＯＭ２６２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、情報処理装置４を起動する起動プログラムを格納している。データバス２６３は、情報処理装置４が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２６４は、ＲＯＭ２６２又はストレージ２６５等から供給されるプログラム若しくはデータ、又は外部インタフェース２６８を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＣＰＵ２６１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。ストレージ２６５は、ＨＤＤ等で実現されるものであって、前述の制御プログラム、文書画像１３のデータ、文字列分類器１５、文字列データ１６、又は属性情報テーブル１８等を記憶するための補助記憶装置である。

入力デバイス２６６は、マウス又はキーボード等で実現されるものであって、ユーザからの情報処理装置４に対する操作入力を受け付けるためのデバイスである。表示デバイス２６７は、液晶ディスプレイ等により実現されるものであって、情報処理装置４の設定画面等の表示画像をユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２６８は、情報処理装置４とネットワーク５との間を接続するものであって、学習装置３、又は図２Ｃ（ｂ）には不図示の記憶装置等の外部装置から文字列分類器１５を受信するためのものである。また、外部インタフェース２６８は、画像入力装置２、又は図２Ｃ（ｂ）には不図示の記憶装置等の外部装置から文書画像１３のデータを受信するためのものである。

＜利用シーケンス＞
図３を参照して、情報処理システム１の処理シーケンスについて説明する。図３は、第１実施形態に係る情報処理システム１の処理シーケンスの一例を示すシーケンス図である。図３に一例として示すように、情報処理システム１は、（ａ）から（ｆ）までの６つの処理シーケンスに分けられる。なお、図３の説明において、記号「Ｓ」はステップを意味する。

図３に示す（ａ）は、学習装置３が文字列分類器１５を生成する処理シーケンスを示している。図３に示す（ａ）の処理シーケンスは、エンジニアによる開発時に実行される処理シーケンスである。図３に示す（ａ）の処理シーケンスにおいて、Ｓ３０１にて、まず、情報処理システム１を開発するエンジニアは、学習装置３に対して複数の文書画像サンプル１４を入力する。具体的には、例えば、エンジニアは、複数の文書画像サンプル１４の所在等を示す情報を入力することにより、学習装置３に文書画像サンプル１４を取得させるための指示を行う。学習装置３は、エンジニアからの入力に基づいて、文書画像サンプル１４を取得する。

Ｓ３０１の後、Ｓ３０２にて、学習装置３は、まず、文書画像サンプル１４毎に文書画像サンプル１４の文書画像に含まれる文字列のデータを取得する。次に、取得した文字列データに基づく機械学習により学習済モデルを生成して複数の概念特徴グループを生成する。さらに、学習済モデルに基づいて文字列分類器１５を生成する。ここで、生成される文字列分類器１５は、説明変数として文字列データに対応する特徴ベクトルが入力され、特徴ベクトルに対応する文字列データが属する属性グループを、生成した複数の属性グループのうちから推論して当該推論の結果を出力するものである。文字列分類器１５は、文字列データを特徴ベクトル化する言語モデルを内部に有し、説明変数として文字列データが入力されるものであってもよい。Ｓ３０２の後、Ｓ３０３にて、学習装置３は、情報処理装置４に対して、生成した文字列分類器１５を送信する。情報処理装置４は、学習装置３が送信した文字列分類器１５を取得して、情報処理装置４内のストレージ２６５に文字列分類器１５を保存する。なお、図３に示す（ａ）の処理シーケンスの詳細については、図４を用いて後述する。

図３に示す（ｂ）は、学習装置３が属性情報テーブル１８を生成する処理シーケンスを示している。図３に示す（ｂ）の処理シーケンスは、エンジニアによる開発時に実行される処理シーケンスである。図３に示す（ａ）及び（ｂ）の処理シーケンスは、後述する図３に示す（ｃ）から（ｆ）までの処理シーケンスよりも前に予め実行される。図３に示す（ｂ）の処理シーケンスにおいて、Ｓ３１１にて、まず、エンジニアは、学習装置３に対して属性文字列サンプル１７を入力する。具体的には、例えば、エンジニアは、属性文字列サンプル１７の所在等を示す情報を入力することにより、学習装置３に属性文字列サンプル１７を取得させるための指示を行う。学習装置３は、エンジニアからの入力に基づいて、属性文字列サンプル１７を取得する。

Ｓ３１１の後、Ｓ３１２にて、学習装置３は、まず、Ｓ３０２にて生成した文字列分類器１５を用いて、属性文字列サンプル１７に含まれる各文字列データが属する概念特徴グループを特定する。次に、特定した概念特徴グループと文字列データに対応する属性情報とを対応づけることよりに、属性情報テーブル１８を生成する。Ｓ３１２の後、Ｓ３１３にて、学習装置３は、Ｓ３１２にて生成した属性情報テーブル１８を情報処理装置４に対して送信する。情報処理装置４は、学習装置３が送信した属性情報テーブル１８を取得して、情報処理装置４が有するストレージ２６５に属性情報テーブル１８を保存する。なお、図３に示す（ｂ）の処理シーケンスの詳細については、図５を用いて後述する。

図３に示す（ｃ）は、後述する図３に示す（ｆ）の処理シーケンスにおいて候補文字列のデータを抽出する際に用いる抽出対象グループを設定する処理シーケンスを示している。具体的には、図３に示す（ｃ）の処理シーケンスは、文書画像１３に含まれる１以上の文字列のうちのエンジニアからの操作入力により選択された文字列のデータが属する概念特徴グループを抽出対象グループとして設定するものである。なお、図３に示す（ｃ）の処理シーケンスは、エンジニアにより、情報処理装置４の開発時に行われるものである。これに対して、後述する図３に示す（ｃ）の処理シーケンスは、エンドユーザ等のユーザ（以下、単に「エンドユーザ」という。）により、運用時に行われるものである。具体的には、図３に示す（ｃ）の処理シーケンスは、図３に示す（ｃ）の処理シーケンスにおいて行われる抽出対象グループの設定を、エンドユーザの代わりにエンジニアが予め開発時に行うものである。

図３に示す（ｃ）の処理シーケンスにおいて、Ｓ３１１にて、まず、エンジニアは、情報処理装置４に対して文書画像１３のデータを入力する。具体的には、例えば、エンジニアは、文書画像１３のデータの所在等を示す情報を入力することにより、情報処理装置４に文書画像１３のデータを取得させるための指示を行う。情報処理装置４は、エンジニアからの入力に基づいて、文書画像１３のデータを取得する。Ｓ３１１の後、Ｓ３１２にて、情報処理装置４は、まず、文書画像１３に含まれる１以上の文字列のデータを取得する。次に、取得した１以上の文字列データのうち、エンジニアが所望する文字列の指定を行うためのエンジニアからの操作入力を受け付ける。Ｓ３１２の後、Ｓ３１３にて、情報処理装置４は、まず、Ｓ３０３にて取得した文字列分類器１５を用いて、Ｓ３１２にて受け付けた操作入力により指定された文字列が属する概念特徴グループを特定する。次に、特定した概念特徴グループを抽出対象グループとして指定して、抽出対象グループを示す情報（以下「抽出対象グループ情報」という。）をストレージ２６５等に保存する。なお、図３に示す（ｃ）の処理シーケンスの詳細については、図６を用いて後述する。

図３に示す（ｄ）は、学習装置３が属性情報テーブル１８を生成する処理シーケンスを示している。なお、図３に示す（ｄ）の処理シーケンスは、エンドユーザによる運用時に実行される処理シーケンスであり、上述の図３に示す（ｂ）の処理シーケンスと同様の処理を行うものである。図３に示す（ｄ）の処理シーケンスにおいて、Ｓ３３１にて、まず、エンドユーザは、情報処理装置４に対して属性文字列サンプル１７を入力する。具体的には、例えば、エンドユーザは、属性文字列サンプル１７の所在等を示す情報を情報処理装置４に入力して、情報処理装置４に属性文字列サンプル１７を取得させるための指示を行う。情報処理装置４は、ユーザからの入力に基づいて、属性文字列サンプル１７を取得する。Ｓ３３１の後、Ｓ３３２にて、情報処理装置４は、取得した属性文字列サンプル１７を学習装置３に対して送信し、学習装置３は、情報処理装置４から送信された属性文字列サンプル１７を受けて、属性文字列サンプル１７を取得する。なお、エンドユーザは、学習装置３に対して直接、属性文字列サンプル１７の所在等を示す情報を情報処理装置４に入力して、学習装置３に属性文字列サンプル１７を取得させるための指示を行ってもよい。この場合、学習装置３は、ユーザからの入力に基づいて、属性文字列サンプル１７を取得する。

３３２の後、Ｓ３３３にて、学習装置３は、属性情報テーブル１８を生成する。具体的には、学習装置３は、まず、属性文字列サンプルに含まれる各文字列データが属する概念特徴グループを、Ｓ３０２にて生成した文字列分類器１５を用いて特定する。次に、特定した概念特徴グループと属性情報とを対応付けることにより、属性情報テーブル１８を生成する。３３３の後、Ｓ３３４にて、学習装置３は、情報処理装置４に対して属性情報テーブル１８を送信する。情報処理装置４は、学習装置３が送信した属性情報テーブル１８を取得して、情報処理装置４が有するストレージ２６５に属性情報テーブル１８を保存する。なお、図３に示す（ｂ）の処理シーケンスの詳細については、図５を用いて後述する。

図３に示す（ｅ）は、後述する図３に示す（ｆ）の処理シーケンスにおいて候補文字列のデータを抽出する際に用いる抽出対象グループを設定する処理シーケンスを示している。なお、図３に示す（ｅ）の処理シーケンスは、エンドユーザにより運用時に行われるものであって、前述した図３に示す（ｃ）の処理シーケンスと同様のものである。具体的には、図３に示す（ｅ）の処理シーケンスは、文書画像１３に含まれる１以上の文字列のうちのエンドユーザからの操作入力により選択された文字列が属する概念特徴グループを抽出対象グループとして設定するものである。

図３に示す（ｅ）の処理シーケンスにおいて、Ｓ３４１にて、まず、エンドユーザは、例えば、画像入力装置２に原稿１１を載置して、画像入力装置２に対して原稿１１の読み取りを指示する。画像入力装置２は、当該指示を受けて、原稿１１を光学的に読み取って文書画像１３を取得する。Ｓ３４１の後、Ｓ３４２にて、まず、画像入力装置２は、Ｓ３４１にて取得した文書画像１３のデータを情報処理装置４に対して送信する。情報処理装置４は、画像入力装置２から送信された文書画像１３のデータを受信することにより文書画像１３を取得する。なお、情報処理装置４は、文書画像１３を取得できればよく、文書画像１３のデータの取得元は、画像入力装置２であっても、ストレージ２６５等の記憶装置等であってもよい。

Ｓ３４２の後、Ｓ３４３にて、情報処理装置４は、まず、Ｓ３４１にて取得した文書画像１３のデータについて、文書画像１３に含まれる１以上お文字列のデータを取得する。次に、取得した１以上の文字列データのうち、エンドユーザが所望する文字列の指定を行うためのエンドユーザからの操作入力を受け付ける。Ｓ３４２の後、Ｓ３４３にて、情報処理装置４は、まず、Ｓ３０３にて取得した文字列分類器１５を用いて、Ｓ３４２にて受け付けた操作入力により指定された文字列が属する概念特徴グループを特定する。次に、特定した概念特徴グループを抽出対象グループとして指定して、抽出対象グループ情報をストレージ２６５等に保存する。なお、図３に示す（ｅ）の処理シーケンスの詳細については、図６を用いて後述する。

図３に示す（ｆ）は、情報処理装置４が文書画像１３に含まれる文字列のデータの中から、図３に示す（ｃ）又は（ｅ）の処理シーケンスにおいて予め設定された抽出対象グループに基づいて候補文字列のデータを抽出する処理シーケンスを示している。なお、図３に示す（ｆ）は、図３に示す（ｃ）又は（ｅ）の処理シーケンスの実行時に用いた文書画像１３のレイアウトとは異なるレイアウトの複数の文書画像１３について、繰り返して候補文字列を抽出することができる。また、図３に示す（ｄ）では、文書画像１３に含まれる１以上の文字列について、文字列毎に当該文字列が候補文字列に該当するか否かを繰り返して判定することにより、１以上の候補文字列を抽出することができる。

図３に示す（ｆ）の処理シーケンスにおいて、Ｓ３５１にて、エンドユーザは、画像処理装置２に原稿１１１を載置して、画像入力装置２に対して原稿１１の読み取りを指示する。画像処理装置２は、当該指示を受けて、原稿１１を光学的に読み取って文書画像１３を取得する。Ｓ３５１の後、Ｓ３５２にて、まず、画像入力装置２は、Ｓ３１１にて取得した文書画像１３のデータを情報処理装置４に対して送信する。情報処理装置４は、画像入力装置２から送信された文書画像１３のデータを受信することにより文書画像１３を取得する。なお、情報処理装置４は、文書画像１３を取得できればよく、文書画像１３のデータの取得元は、画像入力装置２であっても、ストレージ２６５等の記憶装置等であってもよい。

Ｓ３５２の後、Ｓ３５３にて、情報処理装置４は、Ｓ３５２にて取得した文書画像１３に含まれる１以上の文字列のデータの中から、候補文字列のデータを抽出する。具体的には、情報処理装置４は、まず、Ｓ３５２にて取得した文書画像１３に含まれる１以上の文字列のデータを取得し、取得した各文字列データについて、Ｓ３５２にて取得した文字列分類器１５を用いて文字列データが属する概念特徴グループを特定する。次に、Ｓ３５２にて特定した概念特徴グループ、Ｓ３２３又はＳ３４４にて設定された抽出対象グループ、及びＳ３０３にて取得した属性情報テーブル１８に基づいて、文書画像１３に含まれる１以上の文字列のデータの中から候補文字列のデータを抽出する。Ｓ３５３の後、Ｓ３５４にて、情報処理装置４は、Ｓ３５３にて抽出した候補文字列のデータの候補を、エンドユーザに対して視認可能に表示出力する。なお、図３に示す（ｆ）の処理シーケンスの詳細については、図７を用いて後述する。

＜文字列分類器の生成処理＞
図４を参照して、図３に示す（ａ）における学習装置３が文字列分類器１５を生成する処理の流れについて説明する。図４は、第１実施形態に係る学習装置３が文字列分類器１５を生成する処理の流れの一例を示すフローチャートである。なお、図４の説明において、記号「Ｓ」はステップを意味する。また、図４に示す各ステップの実行プログラムは、例えば、学習装置３のＲＯＭ２３２、ＲＡＭ２３４、又はストレージ２３５のいずれかに記憶され、学習装置３のＣＰＵ２３１又はＧＰＵ２３９により実行される。

まず、Ｓ４０１にて、画像サンプル取得部３１は、複数の文書画像サンプル１４を取得する。具体的には、例えば、画像サンプル取得部３１は、人事、医療、又は経理等の事務部門において扱われる文書画像のデータを文書画像サンプル１４として取得する。ここで、画像サンプル取得部３１は、文書画像サンプル１４として、例えば、医療系の事務部門にて扱われる文書画像、というように、ある特定の業務分野にて扱われる文書画像のデータのみを対象として取得してもよい。また、画像サンプル取得部３１は、人事、医療、及び経理の業務分野にて扱われる文書画像、というように、互いに異なる複数の業務分野にて扱われる文書画像のデータを対象として取得してもよい。

次に、Ｓ４０２にて、文字列取得部３２は、画像サンプル取得部３１により取得された複数の文書画像サンプル１４のそれぞれに含まれる文字列のデータを取得する。具体的には、例えば、文字列取得部３２は、複数の文書画像サンプル１４のそれぞれに対して、ＯＣＲ処理を実行し、ＯＣＲ処理により文字認識結果として得られた複数の文字列データを取得する。例えば、文字列取得部３２は、準定型文書の文書画像を構成するオブジェクトの単位を識別するブロックセレクションの技術を用いて、文書画像において間隔又は罫線等により区切られて配置された単語区切りの単位でＯＣＲ処理を実行する。なお、ブロックセレクションについては、周知の技術であるため説明を省略する。また、例えば、文字列取得部３２は、非定型文書の文書画像に含まれる文章に対して、周知の形態素解析の手法を用いて当該文章を単語毎に分割し、分割された単語の単位でＯＣＲ処理を実行してもよい。

次に、Ｓ４０３にて、ベクトル変換部３３は、文字列取得部３２により取得された複数の文字列データのそれぞれを特徴ベクトルに変換する。具体的には、例えば、ベクトル変換部３３は、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ、ｆａｓｔＴｅｘｔ、ＢＥＲＴ、ＸＬＮｅｔ、又はＡＬＢＥＲＴ等の周知の手法を用いて、文字列データを特徴ベクトルに変換する。例えば、ウィキペディア（登録商標）等のＷｅｂサイト等に登録された膨大な一般の文書に対して予め学習済のＢＥＲＴの言語モデルを用いる。これにより、当該文書に含まれる文字列毎に、文字列データを、７６８次元等の数値により表現される特徴ベクトルに変換できる。

図１１を参照して、文字列データと、文字列データに対応する特徴ベクトルとについて説明する。図１１は、文字列データ及び特徴ベクトルの一例を説明するための説明図である。具体的には、図１１（ａ）は、文書画像サンプル１４に含まれる文字列のデータを特徴ベクトルに変換する様子の一例を示す概念図である。図１１（ａ）に示すように、文書画像サンプル１４に含まれる複数の文字列のデータである文字列データ群１１０１は、例えば、学習済のＢＥＲＴの言語モデルを用いることにより、文字列データ毎に７６８次元の数値により表現される特徴ベクトルに変換される。図１１（ａ）には、文字列データ群１１０１に対応する複数の特徴ベクトルとして、特徴ベクトル群１１０２が示されている。図１１（ｂ）及び（ｃ）については後述する。

Ｓ４０３の後、Ｓ４０４にて、学習部３４は、ベクトル変換部３３により変換された複数の特徴ベクトルを学習用データとする機械学習により、未学習又は学習途中の学習モデルに学習させる。具体的には、学習部３４は、ベクトル変換部３３により変換された複数の特徴ベクトルを学習用データとして、機械学習によるクラスタリング手法を用いて特徴ベクトルを複数の概念特徴グループにグループ化する。ここで、ベクトル変換部３３により生成された特徴ベクトル群１１０２は、一般に固有表現と呼ばれる、文字列データの概念的な特徴を示すものであって、人名若しくは地名等の固有名詞、又は、日付若しくは金額等の固有表現等の特徴を示すものである。学習部３４では、このような特徴を利用し、エンジニア等が手動で属性を示す情報を教師データとして与えることなく、教師なし学習の機械学習の１つであるクラスタリング手法を用いて、特徴ベクトルを自動で複数の概念特徴グループにグループ化する。ここで、特徴ベクトル群をグループ化するクラスタリング手法としては、最短距離法若しくは最長距離法等の階層クラスタリング手法、又は、Ｋ－ｍｅａｎｓ若しくはＸ－ｍｅａｎｓ等の非階層クラスタリング手法等の周知の技術を利用できる。

図１１（ｂ）は、複数の特徴ベクトルを機械学習によるクラスタリング手法を用いて複数の概念特徴グループにグループ化した様子の一例を示す概念図である。具体的には、図１１（ｂ）は、図１１（ａ）に示す７６８次元の数値により表現される特徴ベクトルを、ＰＣＡ又はｔ－ＳＮＥ等の周知の技術を用いて２次元平面に次元圧縮するように変換して可視化したものである。図１１（ｂ）に示すように、図１１（ａ）に示した文字列データの特徴ベクトル群１１０２に対して、上述のクラスタリング手法を用いることにより、自動で複数の概念特徴グループ１１１１～１１１７にグループ化できる。ここで、図１１（ｂ）に示す概念特徴グループ１１１１～１１１７のそれぞれは、例えば、法人名、日付、医療機関名、及び商品名であると見て取れる。図１１（ｂ）に示すように、グループ化の粒度によっては、法人名として扱われるべき文字列データが互いに異なる概念特徴グループ１１１１，１１１２に分類されてことがある。ここで、クラスタリング手法によるグループ化では、これらの概念特徴グループ１１１１～１１１７のそれぞれが何を示すかの情報を持たず、概念特徴グループを識別可能な情報（グループＩＤ）のみを持つ。

なお、学習部３４は、特徴ベクトルを学習用データとする機械学習により、未学習又は学習途中の学習モデルに学習させるものとして説明したが、これに限定されるものではない。具体的には、例えば、学習モデルの設計段階において、学習モデル内にて文字列データを特徴ベクトル化する言語モデルを含めて学習モデルを予め設計し、学習部３４は、文字列データを学習用データとして学習モデルに機械学習による学習をさせてもよい。この場合、学習装置３は、ベクトル変換部３３が不要となる。

Ｓ４０４にて必要又は十分な学習が完了した後、Ｓ４０５にて、分類器生成部３５は、まず、学習部３４による学習結果である学習済モデルを取得する。次に、取得した学習済モデルに基づいて文字列分類器１５を生成する。文字列分類器１５とは、文字列データに対応する特徴ベクトルが入力されて、上述のクラスタリング手法により生成された複数の概念特徴グループのうち、入力された特徴ベクトルに対応する文字列がいずれの概念特徴グループに属するかを特定するものである。具体的には、例えば、文字列分類器１５は、特定した概念特徴グループを示す情報としてグループＩＤを出力する。

なお、分類器生成部３５は、例えば、文字列データと、当該文字列データに対する上述のクラスタリング手法により取得された概念特徴グループとの組み合わせを教師データとして再利用し、教師あり学習による機械学習により再現するように実現してもよい。また、分類器生成部３５は、例えば、単に、上述のクラスタリング手法により取得された各概念特徴グループの重心位置を算出し、重心位置が最も近い概念特徴グループを最も類似度が高い概念特徴グループとして判定するように実現してもよい。Ｓ４０５の後、Ｓ４０６にて、分類器出力部３６は、分類器生成部３５により生成された文字列分類器１５を情報処理装置４に出力して、情報処理装置４が有するストレージ２６５に文字列分類器１５を保存する。文字列分類器１５が文字列データを特徴ベクトル化する言語モデルを内部に有していない場合、分類器出力部３６は、文字列分類器１５に加えて、文字列データを文字列分類器１５に入力可能な特徴ベクトルに変換するための言語モデルを出力してもよい。以下、文字列分類器１５は、文字列データを特徴ベクトル化する言語モデルを内部に有していないものとして説明する。Ｓ４０６の後、学習装置３は、図４に示すフローチャートの処理を終了する。

＜属性情報テーブルの生成処理＞
図５を参照して、図３に示す（ｂ）又は（ｄ）において、学習装置３が属性情報テーブル１８を生成する処理の流れについて説明する。図５（ａ）は、第１実施形態に係る学習装置３が属性情報テーブル１８を生成する処理の流れの一例を示すフローチャートである。また、図５（ｂ）は、図５（ａ）に示すＳ５０４の処理の流れの一例を示すフローチャートである。なお、図５の説明において、記号「Ｓ」はステップを意味する。また、図５に示す各ステップの実行プログラムは、例えば、学習装置３のＲＯＭ２３２、ＲＡＭ２３４、又はストレージ２３５のいずれかに記憶され、学習装置３のＣＰＵ２３１又はＧＰＵ２３９のいずれかにより実行される。まず、Ｓ５０１にて、学習装置３は、属性文字列サンプル１７に含まれる文字列データを取得する。具体的には、まず、属性サンプル取得部３７は、ユーザによる操作入力に基づいて、属性文字列サンプル１７のデータを取得する。次に、第２学習部３８は、属性文字列サンプル１７に含まれる文字列データを取得する。

図８を参照して、属性文字列サンプル１７について説明する。図８は、属性文字列サンプル１７の一例を示す説明図である。属性文字列サンプル１７に含まれる属性情報は、エンドユーザが汎用的に利用しそうな概念的な意味を捉えた属性をエンジニアが定義することにより事前に設定される。図８（ａ）に示すように、例えば、エンジニアは、氏名８０１、住所８０２、日付８０３、法人名８０４、医療機関名８０５、及び、商品名８０６の属性グループを定義して、属性グループの文字列を属性情報として属性文字列サンプル１７に設定する。また、エンジニアは、各属性グループに分類される文字列を想定して、当該文字列のデータを属性文字列サンプル１７に設定することにより、属性情報と文字列データとが対応付けられた属性文字列サンプル１７が作成される。図８（ａ）をみると、日付８０３のようにデータ型を規定することが可能な一部の項目値を除いて、氏名８０１、住所８０２、法人名８０４、医療機関名８０５、又は商品名８０６等の属性グループには、字面が異なる文字列データが多く含まれることが分かる。

一方、エンドユーザは、人事系の事務業務等のエンドユーザの業務内容に特化して使われる属性グループを定義して、属性グループの文字列を属性情報として属性文字列サンプル１７に設定する。例えば、取引先名を１つの属性グループとして扱うような業務の場合には、図８（ａ）では互いに異なる属性グループとして定義していた法人名８０４と医療機関名８０５とを、図８（ｂ）に示すように企業名８１１として統合した属性グループを定義する。さらに、企業名８１１に分類される文字列データとして法人名及び医療機関名の具体的な文字列のデータを、企業名８１１に対応する属性情報に対応付けて追加する。また、エンドユーザの業務が税率又は勘定科目等の属性グループに分類するような業務である場合には、以下のように属性グループとして定義してもよい。当該場合、例えば、図８（ａ）では１つの属性グループとして扱っていた商品名８０６を、食料品８２１、図８（ｃ）に示すように飲料品８２２、酒類８２３、及び消耗品８２４等の独立した属性グループとして定義する。さらに、各属性グループに分類される具体的な文字列データを属性グループに対応する属性情報に対応付けて属性文字列サンプル１７に追加すればよい。

Ｓ５０１の後、Ｓ５０２にて、ベクトル変換部３３は、Ｓ５０１で取得した各文字列データを、文字列データ毎に、Ｓ４０３と同様の処理により特徴ベクトルに変換する。次に、Ｓ５０３にて、第２学習部３８は、Ｓ４０５にて生成された文字列分類器１５に、Ｓ５０２にて変換により得た各特徴ベクトルを入力して、各特徴ベクトルに対応する文字列データが属する概念特徴グループを特定する。図１１（ｃ）は、図８（ａ）に示す属性文字列サンプル１７に含まれる文字列データを概念特徴グループに分類し、７６８次元の数値により表現される特徴ベクトルを２次元平面に次元圧縮するように変換して可視化した一例を示す概念図である。Ｓ５０３の後、Ｓ５０４にて、第２学習部３８は、Ｓ５０１にて取得した文字列データと、Ｓ５０３にて特定された概念特徴グループとを基に、属性情報テーブル１８を生成する。

図５（ｂ）を参照して、Ｓ５０４の処理について説明する。まず、Ｓ５１１にて、第２学習部３８は、文字列分類器で分類される全ての概念特徴グループの中から未処理の概念特徴グループを１つ選択する。次に、Ｓ５１２にて、第２学習部３８は、Ｓ５０３にて特定された文字列データの概念特徴グループがＳ５１１にて選択された概念特徴グループと同一であるか否かを文字列データ毎に判定する。Ｓ５１２にて同一であると判定された場合、Ｓ５１３にて、第２学習部３８は、属性文字列サンプル１７に基づいて、同一であるとされた概念特徴グループに特定された１以上の文字列データのそれぞれに対応付けられている属性情報を取得する。具体的には、例えば、第２学習部３８は、図１１（ｃ）に示す概念特徴グループ１１１１をＳ５１１にて選択し、Ｓ５０３にて概念特徴グループ１１１１に属すると特定された文字列データに、属性文字列サンプル１７にて対応付けられている属性情報を取得する。より具体的には、例えば、図１１（ｃ）に示す「猪苗代運輸」という文字列のデータに、図８（ａ）に示す属性文字列サンプル１７にて対応付けられている法人名８０４の属性グループの属性情報を取得する。

Ｓ５１３の後、Ｓ５１４にて、第２学習部３８は、Ｓ５１３にて取得した全ての属性情報の中から代表的な属性情報を決定し、決定した代表的な属性情報とＳ５１１にて選択された概念特徴グループを示す情報とを対応付けて保存する。具体的には、例えば、第２学習部３８は、Ｓ５１１にてある概念特徴グループを選択したとき、Ｓ５１３にて取得される１以上の属性情報の中から、取得された回数が最も多かった属性情報を代表的な属性情報として決定する。なお、代表的な属性情報の決定方法は、上述の方法に限定されるものではなく、例えば、文字列データに対応する属性情報が、概念特徴グループの領域内において、より広範囲に分布する属性情報を代表的な属性情報としてもよい。

図９を参照して、属性情報テーブル１８について説明する。図９は、第１実施形態に係る学習装置３が生成する属性情報テーブル１８の一例を説明するための説明図である。第１実施形態に係る学習装置３では、代表的な属性情報と概念特徴グループとを対応付けて保存するため、図９（ａ）に示す属性情報テーブル１８のように、例えば、概念特徴グループ１１１１には、１つの属性情報として法人名９０１が保存されている。属性情報としての、法人名９０２，日付９０３，９０４、医療機関名９０５，９０６、及び、商品名９０７については同様であるため説明を省略する。また、例えば、図３に示す（ｄ）の処理シーケンスにおいて、エンドユーザが図８（ｂ）に示す属性文字列サンプル１７を入力した場合、「猪苗代運輸」は、図８（ｂ）に示すように企業名８１１に対応付けられている。その結果、図９（ｂ）に示す属性情報テーブル１８のように、例えば、概念特徴グループ１１１１には、属性情報として企業名９１１が保存されている。属性情報としての、企業名９１２，９１５，９１６、日付９１３，９１４、及び、商品名９１７については同様であるため説明を省略する。

Ｓ５１４の後、又は、Ｓ５１２にて同一でないと判定された場合、Ｓ５１５にて、第２学習部３８は、Ｓ５１２にて全ての概念特徴グループが選択されたか否かを判定する。Ｓ５１５にて全ての概念特徴グループが選択されていないと判定された場合、すなわち、未処理の概念特徴グループが残っていると判定された場合、学習装置３は、Ｓ５１１の処理に戻って処理を継続する。Ｓ５１５にて全ての概念特徴グループが選択されたと判定された場合、すなわち、未処理の概念特徴グループは残っていないと判定された場合、学習装置３は、図８（ｂ）に示すフローチャートの処理を終了することにより、Ｓ５０４の処理を完了する。Ｓ５０４の後、Ｓ５０５にて、テーブル出力部３９は、Ｓ５０４にて生成された属性情報テーブル１８を情報処理装置４に対して出力する。具体的には、テーブル出力部３９は、属性情報テーブル１８を、ネットワーク１０４を介して情報処理装置４に送信し、情報処理装置４が有するストレージ２６５に保存する。

＜抽出対象の設定処理＞
図６を参照して、図３に示す（ｃ）又は（ｅ）において、情報処理装置４が抽出対象グループを設定する処理の流れについて説明する。図６は、第１実施形態に係る情報処理装置４が抽出対象グループを設定する処理の流れの一例を示すフローチャートである。なお、図６の説明において、記号「Ｓ」はステップを意味する。また、図６に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１により実行される。

まず、Ｓ６０１にて、分類器取得部４１は、文字列分類器１５を取得する。具体的には、例えば、分類器取得部４１は、ストレージ２６５に保存された文字列分類器１５を読み出すことにより、文字列分類器１５を取得する。次に、Ｓ６０２にて、まず、処理画像取得部４２は、抽出対象グループを指定するために用いる（以下「抽出対象文書」という。）に対応する画像として文書画像１３を取得する。具体的には、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、文書画像１３のデータが予め記憶されたストレージ２６５等の記憶装置等から文書画像１３のデータを読み出すことにより、文書画像１３を取得してもよい。次に、文字列取得部４３は、まず、処理画像取得部４２により取得された文書画像１３に対してＯＣＲ処理等を実行することにより、文書画像１３に含まれる１以上の文字列のデータを取得する。文字列取得部４３は、次に、文書画像１３に含まれる１以上の文字列のデータのうちから、エンジニア又はエンドユーザ等のユーザによる操作入力により指定された文字列に対応する文字列データを取得する。

図１２を参照して、ユーザが文書画像１３に含まれる１以上の文字列のデータのうちから所望の文字列を指定するための設定画面について説明する。図１２は、第１実施形態に係る設定画面の一例を説明するための説明図である。具体的には、図１２（ａ）は、第１実施形態に係る処理画像取得部４２により取得された文書画像１３の一例を示す図である。図１２（ａ）には、文書画像１３を可視化した画像１２０１と、画像１２０１のうちの一部の画像領域を拡大して示した画像１２０３が示されている。また、画像１２０３には、項目を示す医療機関名の項目値を示す固有名詞（人名）の「赤羽リハビリテーション病院」の文字領域１２０２が示されている。

図１２（ｂ）は、第１実施形態に係る情報処理装置４が表示装置に出力して当該表示装置表示させる設定画面１２００の一例を示す図である。具体的には、図１２（ｂ）に示すプレビュー画面領域には、図１２（ａ）に示す文書画像１３を可視化した画像１２０１が表示されている。また、図１２（ｂ）に示すプレビュー画面領域に表示される画像１２０１には、項目を示す医療機関名に対応する項目値である「赤羽リハビリテーション病院」の文字領域１２０２が示されている。例えば、ユーザは、図１２（ｂ）示すにプレビュー画面領域に表示された画像１２０１において、所望の文字領域を選択する。当該選択は、例えば、文字領域に対してポインタ等による位置指定１２１０を行うことによりなされる。例えば、ユーザが「赤羽リハビリテーション病院」に対応する文字領域１２０２を位置指定して選択した場合、文字領域１２０２に対応する画像１２１３が取得されて、「抽出対象：」の項目値として表示されている。また、図１２（ｂ）に示す設定画面１２００には、画像１２１３に対するＯＣＲ処理の結果である文字列データが「紹介元機関名」を示す項目１２１１に対応する項目値１２１２として表示される。

なお、「紹介元機関名」を示す項目１２１１は、エンジニア等のユーザにより予め設定されたものである。項目１２１１は、エンドユーザ等のユーザにより項目を追加するための追加ボタン１２１５が押下されることにより追加設定されたものであってもよい。ユーザは、図１２（ｂ）の設定画面の項目値１２１２として表示されたＯＣＲ結果等の文字列データが誤っていると判断した場合に、編集ボタン１２１４を押下することにより、文字列データを修正することができる。ユーザは、文書画像１３に含まれる１以上の文字列のデータのうち、所望する全ての文字列データについての選択が完了したとき、図１２（ｂ）に示す設定画面における終了ボタン１２１６を押下することにより、その表示を終了させる。

Ｓ６０２の後、Ｓ６０３にて、まず、ベクトル変換部４４は、Ｓ６０２にてユーザにより選択された１以上の文字列データのそれぞれについて、文字列データを特徴ベクトルに変換する。次に、グループ特定部４５は、分類器取得部４１により取得された文字列分類器１５に、ベクトル変換部４４により変換された特徴ベクトルを入力して、当該特徴ベクトルに対応する文字列データが属する概念特徴グループを特定する。Ｓ６０３の後、Ｓ６０４にて、抽出対象設定部４６は、グループ特定部４５により特定された概念特徴グループを抽出対象グループとして設定し、抽出対象グループ情報をストレージ２６５等の記憶装置に出力して当該記憶装置に記憶させて保存する。ここで、抽出対象グループ情報とは、概念特徴グループを識別可能な情報であって、例えば、グループＩＤ情報である。

Ｓ６０４の後、Ｓ６０５にて、例えば、文字列取得部４３は、エンジニア又はエンドユーザ等のユーザによる操作入力により、抽出対象として指定する文字列のデータの選択が終了されたか否かを判定する。具体的には、例えば、図１２（ｂ）示すにプレビュー画面領域に表示された画像１２０１において、新たな文字領域が選択されたとき、文字列取得部４３は、抽出対象として指定する文字列のデータの選択が終了されていないと判定する。抽出対象として指定する文字列のデータの選択が終了されていないと判定された場合、情報処理装置４は、Ｓ６０３の処理に戻ってＳ６０３からＳ６０５までの処理を実行して、新たに指定された文字列のデータに対応する抽出対象グループ情報を追加する。すなわち、当該場合、情報処理装置４は、抽出対象として指定する文字列のデータの選択が終了されたと判定されるまで、Ｓ６０３からＳ６０５までの処理を繰り返して実行して抽出対象グループ情報を追加する。

これに対して、例えば、文字列取得部４３は、図１２（ｂ）に示す設定画面における終了ボタン１２１６が押下されたとき、抽出対象として指定する文字列のデータの選択が終了されたと判定する。抽出対象として指定する文字列のデータの選択が終了されたと判定された場合、情報処理装置４は、図６に示すフローチャートの処理を終了し、処理画像取得部４２にて新たな文書画像１３が取得されるまで待機する。処理画像取得部４２にて新たな文書画像１３が取得された場合、情報処理装置４は、図６に示すフローチャートの処理を再度実行する。なお、この場合、情報処理装置４は、図６に示すフローチャートの処理のうち、Ｓ６０１の処理を省略して、Ｓ６０２以降の処理のみを実行してもよい。

＜候補文字列の抽出処理＞
図７を参照して、図３に示す（ｆ）の処理シーケンスにおいて、情報処理装置４が文書画像１３に含まれる１以上の文字列のデータうちから候補文字列のデータを抽出する処理の流れについて説明する。図７（ａ）は、第１実施形態に係る情報処理装置４が文書画像１３に含まれる１以上の文字列のデータうちから候補文字列のデータを抽出する処理の流れの一例を示すフローチャートである。図７（ｂ）は、図７（ａ）に示すＳ７０６の処理の一例を示すフローチャートである。なお、図７の説明において、記号「Ｓ」はステップを意味する。また、図７に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１により実行される。

まず、Ｓ７６０１にて、分類器取得部４１は、文字列分類器１５を取得する。具体的には、分類器取得部４１は、情報処理装置４が有するストレージ２６５に保存された文字列分類器１５を読み出すことにより、文字列分類器１５を取得する。次に、Ｓ７０２にて、まず、候補抽出部４７は、図６に示すＳ６０４にて保存された抽出対象グループ情報を取得する。なお、Ｓ６０４にて保存された抽出対象グループ情報が複数存在する場合、候補抽出部４７は、複数の抽出対象グループ情報を取得する。次に、Ｓ７０３にて、まず、処理画像取得部４２は、候補文字列のデータを抽出するための文書（以下「処理対象文書」という。）に対応する画像として文書画像１３を取得する。具体的には、例えば、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、文書画像１３のデータが予め記憶されたストレージ２６５等の記憶装置等から文書画像１３のデータを読み出すことにより、文書画像１３を取得してもよい。次に、文字列取得部４３は、まず、処理画像取得部４２により取得された文書画像１３に対してＯＣＲ処理等を実行することにより、文書画像１３に含まれる１以上の文字列のデータを取得する。

Ｓ７０３の後、Ｓ７０４にて、まず、ベクトル変換部４４は、Ｓ７０３にて文字列取得部４３により取得された１以上の文字列データのそれぞれについて、文字列データを特徴ベクトルに変換する。次に、グループ特定部４５は、まず、Ｓ７０１にて分類器取得部４１により取得された文字列分類器１５に、ベクトル変換部４４により変換された特徴ベクトルを文字列データ毎に入力する。次に、文字列分類器１５が出力する結果を当該入力毎に受けて、当該特徴ベクトルに対応する文字列データが属する概念特徴グループを文字列データ毎に特定する。以下、グループ特定部４５により特定された概念特徴グループを特定概念特徴グループと称して説明する。Ｓ７０４の後、Ｓ７０５にて、候補抽出部４７は、Ｓ７０２にて取得した全ての抽出対象グループ情報の中から未処理の抽出対象グループ情報を１つ選択する。次に、Ｓ７０６にて、候補抽出部４７は、Ｓ７０５にて選択した抽出対象グループ情報が示す抽出対象グループに対応する候補文字列を抽出する。

図７（ｂ）を参照して、Ｓ７０６の処理について説明する。まず、Ｓ７１１にて、候補抽出部４７は、Ｓ３１３又はＳ３３４（すなわち、Ｓ５０５）にてストレージ２６５に保存された属性情報テーブル１８を参照し、Ｓ７０５にて選択した抽出対象グループに対応する属性情報を取得する。なお、ストレージ２６５に保存された属性情報テーブル１８は、テーブル取得部４９によりストレージ２６５から事前に読み出され、ＲＡＭ２６４に一時的に記憶される。例えば、Ｓ６０４にて項目１２１１（紹介元機関名）に対応する概念特徴グループが抽出対象グループとして選択された場合、候補抽出部４７は、属性情報テーブル１８にて概念特徴グループ１１０５と対応付けられている属性情報を取得する。具体的には、例えば、候補抽出部４７は、図９（ａ）に示した属性情報テーブル１８中の概念特徴グループ１１０５を参照し、属性情報として医療機関名９０５を取得する。

次に、Ｓ７１２にて、候補抽出部４７は、属性情報テーブル１８を参照し、Ｓ７１１にて取得した属性情報と同一の属性情報と対応付けられた１以上の概念特徴グループ（概念特徴グループ群）を示す情報を取得する。具体的には、例えば、医療機関名という属性情報に対応付けられた概念特徴グループ１１１５及び概念特徴グループ１１１６を示す情報を取得する。なお、Ｓ７１１にて抽出対象グループに対応付けられた属性情報がなかった場合は、概念特徴グループ群として抽出対象グループである概念特徴グループ１１１５のみを取得すればよい。

次に、Ｓ７１３にて、候補抽出部４７は、Ｓ７０３にて取得した文字列データ毎に、Ｓ７１２にて取得した概念特徴グループ群のいずれかとＳ７０４にて特定した特定概念特徴グループとが同一であるか否かを判定する。Ｓ７１３にて同一であると判定された場合、Ｓ７１４にて、候補抽出部４７は、概念特徴グループ群のいずれかと同一であると判定された特定概念特徴グループに属するとＳ７０４にて特定された文字列データを抽出する。次に、Ｓ７１５にて、候補抽出部４７は、Ｓ７１４にて抽出された文字列データを候補文字列のデータとして保存する。Ｓ７１５の後、又は、Ｓ７１３にて同一でないと判定された場合、情報処理装置４は、図７（ｂ）に示すフローチャートの処理を終了して、Ｓ７０６の処理を完了する。

Ｓ７０６の後、Ｓ７０７にて、候補抽出部４７は、全ての抽出対象グループを選択したか否かを判定する。Ｓ７０７にて全ての抽出対象グループを処理していない、すなわち、未処理の抽出対象グループが残っていると判定された場合、候補抽出部４７は、Ｓ７０５の処理に戻る。当該場合、候補抽出部４７は、Ｓ７０７にて全ての抽出対象グループを処理したと判定されるまで、Ｓ７０５からＳ７０７までの処理を繰り返し実行する。Ｓ７０７にて全ての抽出対象グループを選択した、すなわち、未処理の抽出対象グループが残っていないと判定された場合、Ｓ７０８にて、候補出力部４８は、保存した全ての候補文字列のデータを抽出結果として出力する。具体的には、例えば、候補出力部４８は、当該抽出結果を確認画面に含める表示画像を生成し、当該表示画像を表示装置に表示出力する。

図１３及び図１４を参照して、候補出力部４８により出力される確認画面１３００について説明する。図１３は、第１実施形態に係る候補出力部４８が出力する確認画面１３００の一例を説明するための説明図である。具体的には、図１３（ａ）は、第１実施形態に係る処理画像取得部４２により取得された文書画像１３の一例を示す図である。図１３（ａ）には、文書画像１３を可視化した文書画像１３０１と、画像１３０１のうちの一部の画像領域を拡大して示した画像１３０５，１３０６が示されている。また、画像１３０５，１３０６には、項目値を示す固有名詞（医療機関名）の「静岡県立静岡がんセンター」の文字領域１３０２、及び「池田病院」の文字領域１３０３が示されている。候補抽出部４７は、文書画像１３０１から、Ｓ７０４にて概念特徴グループ１１１５に属すると特定された文字列である「静岡県立静岡がんセンター」、及び概念特徴グループ１１１６に属すると特定された文字列である「池田病院」を候補文字列として抽出する。

図１３（ｂ）は、第１実施形態に係る情報処理装置４が有する候補出力部４８により出力されて表示装置に表示される確認画面１３００の一例を示す図である。具体的には、図１３（ｂ）に示すプレビュー画面領域には、図１３（ａ）に示す文書画像１３０１が表示されている。また、図１３（ｂ）に示すプレビュー画面領域に表示される文書画像１３０１には、項目を示す「紹介元機関名」に対応する候補文字列として文字領域１３０２，１３０３，１３０４が確認可能な状態で表示されている。また、文字領域１３０２，１３０３に対応する画像１３１４，１３１５が「候補一覧：」の項目値として確認可能な状態で表示される。ここで、抽出対象の項目である「紹介元機関名」は、図１２（ｂ）を用いて前述した通り、エンジニア又はエンドユーザ等のユーザによって予め設定されたものである。

図１３（ｂ）に示す確認画面１３００において、例えば、エンドユーザは、操作入力を行うことにより、表示されている候補一覧の画像１３１４、１３１５のうちのいずれかを選択する。当該選択は、ポインタ等による位置指定１３１０によりなされる。例えば、ユーザが操作入力により画像１３１５を選択すると、選択された画像１３１５をＯＣＲ処理することにより得た文字列データ１３１２が表示される。ユーザは、選択する画像１３１４、１３１５を変更することにより、出力させる文字列データ１２を切り替えることができる。

また、図１３（ｂ）に示す確認画面１３００において、エンドユーザは、表示されたＯＣＲ処理の結果である表示された文字列データ１３１２が誤っていた場合に、「編集」ボタン１３１３を押下することにより文字列データ１３１２を修正することができる。また、エンドユーザによる「次へ」ボタン１３１７の押下を受け付けると、次に取得した文書画像１３に含まれる１以上の文字列のデータのうちの候補文字列のデータについて確認するための確認画面に遷移する。さらに、エンドユーザによる「終了」ボタン１３１８の押下を受け付けると、文書画像１３についての候補文字列の出力を完了し、確認画面が終了される。

図１４は、第１実施形態に係る候補出力部４８が出力する、図１３とは異なる確認画面１３００の一例を説明するための説明図である。具体的には、図１４（ａ）は、第１実施形態に係る処理画像取得部４２により取得された文書画像１３の一例を示す図である。また、図１４（ｂ）は、第１実施形態に係る情報処理装置４が有する候補出力部４８により出力されて表示装置に表示される確認画面１４００の一例を示す図である。図１４（ａ）には、文書画像１３を可視化した文書画像１４０１と、画像１４０１のうちの一部の画像領域を拡大して示した画像１４０５，１４０６が示されている。また、画像１４０５，１４０６には、項目値を示す固有名詞（医療機関名）の「医療法人大手町メディカル医院」の文字領域１４０２、及び「八重洲総合研究所」の文字領域１４０３が示されている。

上述と同様に、候補抽出部４７は、まず、Ｓ７１１にて抽出対象グループに対応付けられた属性情報を取得し、Ｓ７１２にて概念特徴グループ群を取得する。続いてＳ７１３及びＳ７１４にて、Ｓ７１２で取得した概念特徴グループ群を構成する概念特徴グループのいずれかに属すると特定された文字列データを取得して、当該文字列データを候補文字列のデータとして保存する。ここで、候補抽出部４７がＳ３１３にてエンジニアによって作成された図９（ａ）に一例として示す属性情報テーブル１８を参照する場合、医療機関名という属性情報が取得され、概念特徴グループ群として概念特徴グループ１１１５，１１１６が取得される。結果として、候補抽出部４７は、文書画像１４０１から、Ｓ７０４にて概念特徴グループ１１１５に属すると特定された文字列である「医療法人大手町メディカル医院」のみを候補文字列として抽出することになる。

一方、Ｓ３３４にてエンドユーザによって作成された、図９（ｂ）に示す属性テーブル１１８を参照する場合、企業名という属性情報が取得され、概念特徴グループ群として概念特徴グループ１１１１、１１１２，１１１５，１１１６が取得される。結果として、候補抽出部４７は、概念特徴グループ１１１５に属すると特定された文字列である「医療法人大手町メディカル医院」に加え、概念特徴グループ１１１１に属すると特定された文字列である「八重洲総合研究所」が候補文字列として抽出する。このように、ユーザが業務内容に合わせて属性文字列サンプル１７を定義することにより、ユーザの業務内容に合わせてカスタマイズされた属性情報テーブル１８が作成でき、所望の候補文字列のデータを出力結果として得られるようになる。

以上のように、情報処理装置４によれば、準定型文書又は非定型文書等の所定のレイアウトとは異なるレイアウトの文書の画像から、ユーザが所望する属性グループに該当する文字列データを、所定の項目に対応する項目値の候補として抽出できる。すなわち、抽出対象文書を用いて指定した概念特徴グループ（抽出対象グループ）と同一の属性情報が対応付けられた概念特徴グループに属する文字列データを処理対象文書から抽出し、抽出した１つ以上の文字列データを候補文字列のデータとして抽出できる。ここで、第１実施形態において、文字列の表記の規則性を利用していない。そのため、文字列の表記に規則性がある金額、日付、又は口座番号等の項目の項目値だけでなく、文字列の表記に規則性が無い氏名、住所、職業、又は続柄等の項目に対応する項目値の候補についても候補文字列として抽出できる。また、ユーザの業務内容に合わせた簡単な属性文字列サンプルを定義するだけで、ユーザが所望する属性の条件下で候補となる文字列を抽出できる。

また、第１実施形態に係る情報処理装置４によれば、各属性に対して少ない文字列を定義することにより、文字列に対応する属性情報を設定できることから、予め項目値の候補となる辞書をデータベースとして用意する必要が無い。そのため、辞書を保守又は管理するためのコストを抑制できる。さらに、第１実施形態は、項目名に基づいて項目値を抽出する手法とは異なり、項目値が属する属性グループに基づいて項目値を直接的に抽出する方法であるため、「氏名」又は「おなまえ」等の表記の異なる項目名の影響を受けずに項目値を抽出できる。

［第２実施形態］
第２実施形態に係る情報処理システム１（以下、単に「情報処理システム１」という。）について説明する。情報処理システム１の構成は、図１に一例として示す第１実施形態に係る情報処理システム１の構成と同様に、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続される。

第１実施形態に係る情報処理装置４は、以下のようなものであった。まず、抽出対象文書に対応する文書画像１３を用いて抽出対象グループを予め設定する。さらに、処理対象文書に対応する文章画像１３に含まれる１以上の文字列のデータのうちから、抽出対象グループと同一の属性情報が対応付けられた概念特徴グループに属する文字列データを候補文字列のデータとして抽出する。これに対して、第２実施形態に係る情報処理装置４は、抽出対象グループだけでなく、抽出対象グループの近傍に位置する概念特徴グループと同一の属性情報が対応付けられた概念特徴グループに属する文字列データについても候補文字列のデータとして抽出する。また、以下、抽出対象グループの近傍に位置する概念特徴グループを「近傍グループ」と称して説明する。

情報処理装置４の構成は、図２Ｃに一例として示す第１実施形態に係る情報処理装置４の構成と同様である。すなわち、情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，概念特徴グループ特定部４５、抽出対象設定部４６、候補抽出部４７、候補出力部４８、テーブル取得部４９を有する。ただし、第２実施形態に係る候補抽出部４７（以下、単に「候補抽出部４７」という。）は、第１実施形態に係る候補抽出部４７とは異なる機能を有するものである。候補抽出部４７の詳細については後述する。

また、情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。具体的には、例えば、情報処理装置４は、図２Ｃ（ｂ）に一例として示すコンピュータにより構成される。なお、第２実施形態に係る画像入力装置２（以下、単に「画像入力装置２」という。）及び学習装置３（以下、単に「学習装置３」という。）は、第１実施形態に係る画像入力装置２及び学習装置３と同様であるため説明を省略する。

＜抽出対象の設定処理＞
図６に示すフローチャートを参照して、図３に示す（ｃ）又は（ｅ）の処理シーケンスにおいて、第２実施形態に係る情報処理装置４が文書画像１３からの抽出対象グループを設定する処理の流れについて説明する。以下、第１実施形態に係る情報処理装置４における処理との差分となるステップのみについて説明する。Ｓ６０１、Ｓ６０２、及びＳ６０５は、第１実施形態に係る情報処理装置４における処理と同様であるため説明を省略する。

第２実施形態に係る情報処理装置４（以下、単に「情報処理装置４」と表記する。）では、Ｓ６０３にて、グループ特定部４５は、文字列データが属する概念特徴グループを特定し、Ｓ６０４にて、抽出対象設定部４６は、抽出対象グループを設定する。ここでは、Ｓ６０４にて、抽出対象設定部４６は、抽出対象グループを設定する際に、Ｓ４０５の処理と同様の処理により全ての概念特徴グループの重心位置を算出し、重心位置と文字列に対応する特徴ベクトルとの間の距離によって類似度を算出するものとする。抽出対象設定部４６は、全ての概念特徴グループの中から、予め定められた数の概念特徴グループを、当該距離が短い順、又は当該類似度が高い順に選択することにより、当該数の抽出対象グループを設定する。抽出対象設定部４６は、当該距離が予め定められた閾値より短い概念特徴グループ、又は、当該類似度が予め定められた閾値より高い概念特徴グループを抽出対象グループとして設定してもよい。さらに、抽出対象設定部４６は、所定値以上の類似度をもつ概念特徴グループに対し、類似度の高い順に優先度を付与する等の類似度に対応させた優先度を付与することにより、優先度が互いに異なる複数の抽出対象グループを設定できる。具体的には、例えば、抽出対象設定部４６は、まず、図１１（ｃ）に示す「奈良電機」という文字列のデータに対応する特徴ベクトルと、全ての概念特徴グループ１１１１～１１１７の重心位置との間の距離を算出する。そして、類似度が高い順、すなわち、当該特徴ベクトルからの距離が短い順に、例えば、３つ概念特徴グループ１１１１、１１１５、１１１６を抽出対象グループとして設定する。

＜候補文字列の抽出処理＞
図７（ａ）に示すフローチャートと、図１０とを参照して、図３に示す（ｆ）の処理シーケンスにおいて、第２実施形態に係る情報処理装置４が文書画像１３から候補文字列のデータを抽出する処理の流れについて説明する。図１０は、図７（ａ）に示すＳ７０６の処理の流れの一例を示すフローチャートである。なお、図１０の説明において、記号「Ｓ」はステップを意味する。また、図１０に示す各ステップの実行プログラムは、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１により実行される。以下、図７（ａ）については、第１実施形態に係る情報処理装置４における処理との差分となるステップのみについて説明する。また、図１０において、図７（ｂ）と同じ符号を付したステップについては、詳細な説明を省略する。

まず、情報処理装置４は、図７（ａ）に示すＳ７０１からＳ７０４までの処理を実行する。Ｓ７０１からＳ７０４までの処理は、第１実施形態と同様であるため説明を省略する。Ｓ７０４の後、Ｓ７０５にて、候補抽出部４７は、Ｓ７０２にて取得した全ての抽出対象グループ情報の中から、未処理の概念特徴グループ情報を１つ選択する。ここでは、Ｓ６０４にて得られた抽出グループから、優先度が順に高い概念特徴グループ１１１１、１１１５，１１１６の順に選択されることになる。Ｓ７０５の後、Ｓ７０６の処理、すなわち、図１０に示すフローチャートの処理が実行される。まず、Ｓ７１１にて、候補抽出部４７は、属性情報テーブル１８を参照して、Ｓ７０５にて選択された抽出対象グループに対応付けられた属性情報を取得する。ここでは、図９（ａ）に示す属性情報テーブル１８が参照されるものとする。次に、Ｓ１００１にて、候補抽出部４７は、Ｓ７１１にて取得された属性情報が未処理であるか否かを判定する。具体的には、Ｓ７０５にて選択された抽出対象グループが概念特徴グループ１１１１，１１１５である場合は、属性情報が法人名又は医療機関名となり、未処理の属性情報となる。一方、Ｓ７０５にて選択された抽出対象グループが概念特徴グループ１１１６である場合、概念特徴グループ１１１６に対応付けられた属性情報は、概念特徴グループ１１１５が選択されたときに既に処理された医療機関名と同一の属性情報となる。

Ｓ１００１にて属性情報が未処理でないと判定された場合、情報処理装置４は、図１０に示すフローチャートの処理を終了し、Ｓ７０６の処理を完了する。Ｓ１００１にて属性情報が未処理であると判定された場合、情報処理装置４は、Ｓ７１２からＳ７１４までの処理を実行する。Ｓ７１２からＳ７１４までの処理は、第１実施形態と同様であるため説明を省略する。Ｓ７１４の後、Ｓ１００２にて、情報処理装置４は、Ｓ７１４にて抽出した文字列データに優先度を付与した候補文字列のデータを保存する。候補文字列のデータに対する優先度の付与は、抽出対象グループとして設定された概念特徴グループに付与された優先度に基づいて行われる。具体的には、より高い第１の優先度が付与された、法人名という属性情報と対応付けられた概念特徴グループに属する文字列のデータに対して、より高い優先度を付与する。また、より低い第２の優先度が付与された、医療機関名という属性情報と対応付けられた概念特徴グループに属する文字列のデータに対して、より低い優先度を付与する。そして、これらの文字列のデータが優先度が付与された候補文字列のデータとして保存される。Ｓ１００２の後、情報処理装置４は、図１０に示すフローチャートの処理を終了し、Ｓ７０６の処理を完了する。Ｓ７０７及びＳ７０８の処理は、第１実施形態と同様であるため説明を省略する。

以上のように、情報処理装置４によれば、抽出対象グループだけでなく、近傍グループと同一の属性情報に対応付けられた概念特徴グループに属すると特定された文字列データについても候補文字列として抽出できる。すなわち、抽出対象グループが複数の概念特徴グループに類似していて抽出すべき候補文字列の抽出が困難な場合であっても、近傍グループと同一の属性情報に対応付けられた概念特徴グループに属する文字列データをも候補文字列のデータとして抽出できる。したがって、当該場合であっても、候補文字列のデータの抽出漏れを抑制することができる。

［第３実施形態］
第３実施形態に係る情報処理システム１（以下、単に「情報処理システム１」という。）について説明する。情報処理システム１の構成は、図１に一例として示す第１実施形態に係る情報処理システム１の構成と同様に、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続される。

第１及び第２実施形態に係る情報処理装置４は、１つの概念特徴グループに対して代表的な１つの属性情報が対応付けられた属性情報テーブル１８を参照して、候補文字列のデータを抽出するものであった。これに対して、第３実施形態に係る情報処理装置４（以下、単に「情報処理装置４」という。）は、1つの概念特徴グループに対して複数の属性情報が対応付けられた属性情報テーブル１８を参照して、候補文字列のデータを抽出するものである。

学習装置３の構成は、図２Ｂに一例として示す第１実施形態に係る情報処理装置４の構成と同様である。すなわち、学習装置３は、画像サンプル取得部３１、文字列取得部３２、ベクトル変換部３３、第１学習部３４、分類器生成部３５、分類器出力部３６、属性サンプル取得部３７、第２学習部３８、及びテーブル出力部３９を有する。ただし、第３実施形態に係る第２学習部３８（以下、単に「第２学習部３８」という。）は、第１及び第２実施形態に係る第２学習部３８とは異なる機能を有するものである。第２学習部３８の詳細については後述する。

情報処理装置４の構成は、図２Ｃに一例として示す第１実施形態に係る情報処理装置４の構成と同様である。すなわち、情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，概念特徴グループ特定部４５、抽出対象設定部４６、候補抽出部４７、候補出力部４８、テーブル取得部４９を有する。ただし、第２実施形態に係る候補抽出部４７（以下、単に「候補抽出部４７」という。）は、第１及び第２実施形態に係る候補抽出部４７とは異なる機能を有するものである。候補抽出部４７の詳細については後述する。

学習装置３において機能する各部の処理は、学習装置３に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。また、情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。具体的には、例えば、学習装置３は、図２Ｂ（ｂ）に一例として示すコンピュータにより構成され、情報処理装置４は、図２Ｃ（ｂ）に一例として示すコンピュータにより構成される。なお、第３実施形態に係る画像入力装置２（以下、単に「画像入力装置２」という。）は、第１又は第２実施形態に係る画像入力装置２と同様であるため説明を省略する。

＜属性情報テーブルの生成処理＞
図５を参照して、図３（ｂ）及び図３（ｄ）の工程において、第３実施形態に係る学習装置３（以下、単に「学習装置３」と表記する。）が、属性情報テーブル１８を生成する処理の流れを説明する。ここにおいて、図５については、第１又は第２実施形態に係る学習装置３の処理については、差分となるステップのみについて説明する。

まず、Ｓ５０１にて、属性サンプル取得部３７は、属性文字列サンプルに含まれる文字列サンプルを取得し、第２学習部３８は、属性文字列サンプル１７に含まれる文字列データを取得する。ここでは、属性サンプル取得部３７は、図８（ｃ）に示す属性文字列サンプル１７を取得するものとして説明する。図８（ｃ）に示す属性文字列サンプル１７には、食料品８２１、飲料品８２２、酒類８２３、及び消耗品８２４という属性情報が定義されて設定されており、各属性情報に対応する文字列データが設定されている。第２学習部３８は、各属性情報に対応する文字列データを取得する。次に、Ｓ５０２及びＳ５０３にて、ベクトル変換部３３は、Ｓ５０１にて取得された各文字列データを特徴グループに変換し、文字列分類器１５を用いて各文字列データが属する概念特徴グループを特定する。図８（ｃ）に示す属性文字列サンプル１７に含まれる文字列データは、図１１（ｃ）に示す概念特徴グループ１１１７と、図１１（ｃ）には不図示の概念特徴グループに分類される。次に、Ｓ５０４にて、第２学習部３８は、Ｓ５０１にて取得した文字列データと、Ｓ５０３にて特定された概念特徴グループとを基に、属性情報テーブル１８を生成する。具体的には、第２学習部３８は、図５（ｂ）に示すフローチャートの処理を実行する。

まず、Ｓ５１１にて、第２学習部３８は、文字列分類器で分類される全ての概念特徴グループの中から、未処理の概念特徴グループを１つ選択する。ここでは、概念特徴グループ１１１７が選択されたものとして説明する。次に、Ｓ５１２にて、第２学習部３８は、Ｓ５０３にて特定された文字列データの概念特徴グループがＳ５１１にて選択された概念特徴グループと同一であるか否かを文字列データ毎に判定する。Ｓ５１２にて同一であると判定された場合、Ｓ５１３にて、第２学習部３８は、属性文字列サンプル１７に基づいて、同一であるとされた概念特徴グループに特定された１以上の文字列データのそれぞれに対応付けられている属性情報を取得する。ここでは、概念特徴グループ１１１７に含まれる文字列である「ジュース」、「お茶」、及び「日本酒」に対応付けられている属性情報である「飲料水）、「飲料水」、及び「酒類」を取得する。

次に、Ｓ５１４にて、第２学習部３８は、Ｓ５１１にて選択された概念特徴グループに対応付ける属性情報を決定し、決定した属性情報と当該概念特徴グループを示す情報とを対応付けて保存する。本実施形態では、Ｓ５１３にて取得された複数の属性情報のそれぞれの出現頻度に応じて、各属性情報に優先度を付与する。ここでは、出現頻度の高い順に、「飲料品」、「酒類」という属性情報が取得されるため、図９（ｃ）に示す属性情報テーブル１８には、「飲料品」及び「酒類」に対応する文字列のデータ９１７が保存される。なお、優先度の決め方は、出現頻度の高い順に限るものではなく、概念特徴グループの領域内で広範囲に分布する属性情報に対して高い優先度を付与してもよい。また、エンドユーザが定義した属性文字列サンプル１７に含まれる属性情報の優先度を高くし、エンジニアが定義した属性文字列サンプルに含まれる属性情報の優先度を低くしてもよい。具体的には、例えば、図９（ａ）に示すエンジニアが定義した法人名と、図９（ｂ）に示すエンドユーザが定義した企業名という互いに異なる属性情報がＳ５１３にて取得された場合、エンドユーザに定義された企業名という属性情報により高い優先度を付与する。なお、出現頻度が同じ等の場合は、同一の優先度を付与してもよい。図５に示すフローチャートにおいて、Ｓ５１４以降の処理は、第１実施形態に係る学習装置３と同様であるため、説明を省略する。

＜候補文字列の抽出処理＞
図７（ａ）及び図１５を参照して、図３（ｆ）の工程において、第２実施形態に係る情報処理装置４（以下、単に「情報処理装置４」と表記する。）が、文書画像から抽出対象としての候補文字列を抽出する処理の流れについて説明する。図１５は、図７に示すＳ７０６の処理の流れの一例を示すフローチャートである。なお、図１５の説明において、記号「Ｓ」はステップを意味する。また、図１５に示す各ステップの実行プログラムは、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１により実行される。以下、図７（ａ）については、第１実施形態に係る情報処理装置４における処理との差分となるステップのみについて説明する。また、図１５において、図７（ｂ）又は図１０と同じ符号を付したステップについては、詳細な説明を省略する。

まず、情報処理装置４は、図７（ａ）に示すＳ７０１からＳ７０４までの処理を実行する。Ｓ７０１からＳ７０４までの処理は、第１実施形態に係る情報処理装置４における処理と同様の処理であるため、説明を省略する。Ｓ７０４の後、Ｓ７０５にて、候補抽出部４７は、Ｓ７０２にて取得した全ての抽出対象グループ情報の中から、未処理の概念特徴グループ情報を１つ選択する。Ｓ７０５の後、候補抽出部４７は、Ｓ７０６の処理として図１５に示すフローチャートの処理を実行する。具体的には、まず、Ｓ７１１にて、候補抽出部４７は、抽出対象グループの属性情報を取得する。例えば、Ｓ７０５にて概念特徴グループ１１１７が選択された場合、候補抽出部４７は、図９（ｃ）に示す属性情報テーブル１８を参照して、飲料品及び酒類というそれぞれに優先度が付与された２つの属性情報を取得する。次に、Ｓ１５０１にて、候補抽出部４７は、Ｓ７１１にて取得した属性情報のうち、未処理の属性情報を１つ選択する。Ｓ１５０１の後、候補抽出部４７は、Ｓ７１２からＳ７１４までの処理を実行する。Ｓ７１２からＳ７１４までの処理は第１実施形態に係る候補抽出部４７の処理と同様であるため、説明を省略する。

Ｓ７１４の後、Ｓ１００２にて、候補抽出部４７は、Ｓ７１１にて取得した属性情報に付与された優先度に基づき、優先度をつけた候補文字列として保存する。具体的には、候補抽出部４７は、より高い優先度である第１の優先度が付与された飲料水という属性情報と対応付けられた概念特徴グループに属する文字列データを上位の候補文字列のデータとて保存する。また、候補抽出部４７は、より低い優先度である第２の優先度が付与された酒類という属性情報と対応付けられた概念特徴グループに属する文字列データを下位の候補文字列のデータとして保存する。ＳＳ１００２の後、Ｓ１５０２にて、候補抽出部４７は、全ての属性情報を処理したか否かを判定する。Ｓ１５０２にて全ての属性情報を処理していない、すなわち、未処理の属性情報が残っていると判定された場合、Ｓ１５０１に戻って、Ｓ１５０２にて全ての属性情報を処理したと判定されるまで、Ｓ１５０１からＳ１５０２までの処理が繰り返し実行される。Ｓ１５０２にて全ての属性情報を処理した、すなわち、未処理の属性情報がないと判定された場合、候補抽出部４７は、図１５に示すフローチャートの処理を終了して、Ｓ７０６の処理を完了する。図７に示すフローチャートにおいて、Ｓ７０７以降の処理は、第１実施形態に係る情報処理装置４と同様であるため、説明を省略する。

以上のように、情報処理装置４によれば、項目値の候補である文字列データが複数の属性情報に対応付けられた概念特徴グループに属する場合であっても、候補としてより可能性の高い属性情報に対応する文字列データを上位の候補として抽出できる。

［第４実施形態］
第４実施形態に係る情報処理システム１（以下、単に「情報処理システム１」という。）について説明する。情報処理システム１の構成は、図１に一例として示す第１実施形態に係る情報処理システム１の構成と同様に、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続される。

第３実施形態に係る学習装置３は、1つの概念特徴グループに対して、優先度をそれぞれ付与した複数の属性情報が対応付けられた属性情報テーブル１８を生成するものであった。これに対して、第４実施形態に係る学習装置３は、１つの概念特徴グループに対して１つの属性情報が対応付けられた属性情報テーブル１８が生成されるように文字列分類器１５を更新するものである。

学習装置３の構成は、図２Ｂに一例として示す第１実施形態に係る情報処理装置４の構成と同様である。すなわち、学習装置３は、画像サンプル取得部３１、文字列取得部３２、ベクトル変換部３３、第１学習部３４、分類器生成部３５、分類器出力部３６、属性サンプル取得部３７、第２学習部３８、及びテーブル出力部３９を有する。ただし、第４実施形態に係る分類器生成部３５（以下、単に「分類器生成部３５」という。）は、第１、第２、及び第３実施形態に係る分類器生成部３５とは異なる機能を有するものである。分類器生成部３５の詳細については後述する。

また、学習装置３において機能する各部の処理は、学習装置３に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。具体的には、例えば、学習装置３は、図２Ｂ（ｂ）に一例として示すコンピュータにより構成される。なお、第４実施形態に係る画像入力装置２（以下、単に「画像入力装置２」という。）は、第１、第２、又は第３実施形態に係る画像入力装置２と同様であるため説明を省略する。また、第４実施形態に係る情報処理装置４（以下、単に「情報処理装置４」という。）は、第１又は第２実施形態に係る情報処理装置４と同様であるため説明を省略する。

図１６を参照して、学習装置３が文字列分類器１５及び属性情報テーブル１８を生成又は更新する処理の流れについて説明する。図１６は、第４実施形態に係る学習装置３が文字列分類器１５及び属性情報テーブル１８を生成又は更新する処理の流れの一例を示すフローチャートである。なお、図１６の説明において、記号「Ｓ」はステップを意味する。また、図１６に示す各ステップの実行プログラムは、学習装置３のＲＯＭ２３２、ＲＡＭ２３４、又はストレージ２３５のいずれかに記憶され、学習装置３のＣＰＵ２３１又はＧＰＵ２３９のいずれかにより実行される。以下、図１６については、第１、第２、又は第３実施形態に係る学習装置３における処理との差分となるステップのみについて説明する。また、図１６において、図４又は図５と同じ符号を付したステップについては、詳細な説明を省略する。

まず、第４実施形態に係る学習装置３（以下、単に「学習装置３」と表記する。）は、Ｓ５０１からＳ５０４までの処理を実行する。Ｓ５０１からＳ５０４までの処理は第１実施形態に係る学習装置３の処理と同様であるため、説明を省略する。なお、ここでは、第３実施形態と同様に、図８（ｃ）に示す属性文字列サンプル１７が定義され、Ｓ５０４にて、図９（ｃ）に示す属性情報テーブル１８が生成されたものとする。Ｓ５０４の後、Ｓ１６０１にて、学習装置３は、文字列分類器１５を更新する必要があるか否かを判定する。当該判定は、例えば、第２学習部３８により行われる。例えば、Ｓ５０４にて生成された属性情報テーブルにおいて、１つの概念特徴グループに対して複数の属性情報が対応付けられているか否かを確認し、複数の属性情報が対応付けられている概念特徴グループが１つでもある場合、更新する必要があると判定する。１６０１にて文字列分類器１５の更新が必要であると判定された場合、Ｓ１６０２にて、学習装置３は、文字列分類器１５の更新処理を行う。

図１６（ｂ）を参照して、文字列分類器１５の更新処理について説明する。図１６（ｂ）は、図１６（ａ）に示すＳ１６０２の処理の流れの一例を示すフローチャートである。まず、Ｓ１６１１にて、分類器生成部３５は、複数の属性情報が対応付けられている概念特徴グループの中から、未処理の概念特徴グループを１つ選択する。具体的には、例えば、分類器生成部３５は、「飲料品」及び「酒類」という２つの属性情報が対応付けられている概念特徴グループ１１１７を選択する。

次に、Ｓ１６１２にて、ＣＰＵ２３１は、文書画像サンプル１４に含まれる文字列のデータの中から。選択された概念特徴グループに分類された文字列のデータを取得する。具体的には、例えば、文書画像サンプル１４に含まれる文字列のデータの中から、図１１（ｂ）に一例に示す概念特徴グループ１１１７に属する文字列データを取得する。なお、例えば、当該文書画像サンプル１４は、図４に示すＳ４０１にて取得された文書画像サンプル１４がストレージ２３５に保存され、Ｓ１６１２にてストレージ２３５から読み出されることにより取得される。

次に、Ｓ１６１３にて、第２学習部３８は、属性文字列サンプル１７に含まれる文字列データの中から、選択された概念特徴グループに分類された文字列データを取得する。具体的には、例えば、第２学習部３８は、属性文字列サンプル１７に含まれる文字列データの中から、図１１（ｃ）に示す概念特徴グループ１１１７に含まれた文字列群を取得する。なお、例えば、当該属性文字列サンプル１７は、図５に示すＳ５０１にて取得された属性文字列サンプル１７がストレージ２３５に保存され、Ｓ１６１３にてストレージ２３５から読み出されることにより取得される。

次に、Ｓ１６１４にて、ベクトル変換部３３は、Ｓ１６１２にて取得された各文字列を特徴ベクトルに変換する。次に、Ｓ１６１５にて、学習部３４は、上述のクラスタリング手法を用いて特徴ベクトルを複数の概念特徴グループにグループ化する。このとき、例えば、グループ化する概念特徴グループの数は、Ｓ１６１１にて選択された概念特徴グループに対応付けられている属性情報の数に基づいて決定される。具体的には、例えば、概念特徴グループ１１１７は、２つの属性情報が対応付けられているため、概念特徴グループ１１１７を２つの属性情報グループにグループ化するようにすればよい。次に、Ｓ１６１６にて、分類器生成部３５は、Ｓ１６１５にてグループ化された概念特徴グループを含め、全ての概念特徴グループに対する階層的なグループ化の結果を再現する文字列分類器１５を生成する。次に、Ｓ１６１７にて、第２学習部３８は、Ｓ１６１６にて生成した文字列分類器１５を用いて、Ｓ１６１３にて取得した属性文字列サンプル１７に含まれる文字列データについて、当該文字列データが属する概念特徴グループを再度特定する。なお、Ｓ１６１７の処理において、まず、Ｓ１６１３にて取得した属性文字列サンプル１７に含まれる各文字列データは、ベクトル変換部３３により特徴ベクトルされる。次に、第２学習部３８は、変換された特徴ベクトルをＳ１６１６にて生成した文字列分類器１５に入力することにより、文字列データが属する概念特徴グループを特定する。

図１７を参照して、Ｓ１６１６にて生成される文字列分類器１５により分類される概念特徴グループ、及び、後述するＳ１６０３にて生成される属性情報テーブル１８について説明する。図１７（ａ）は、Ｓ１６１６にて生成される文字列分類器１５により分類される概念特徴グループと、Ｓ１６１２及びＳ１６１３にて取得された各文字列データに対応する特徴ベクトルとの関係の一例を説明するための説明図である。具体的には、概念特徴グループの領域と文字列データに対応する特徴ベクトルとを２次元平面に次元圧縮するように変換して可視化したものである。図１７（ｂ）については後述する。図１７（ａ）に示すように、図１１（ｂ）及び（ｃ）に示す概念特徴グループ１１１７は、概念特徴グループ１７２１及び概念特徴グループ１７２２という２つの概念特徴グループに分割されている。

次に、Ｓ１６１８にて、学習装置３は、１６１３にて取得した各文字列データが正しく分類されたか否かを判定する。当該判定は、例えば、第２学習部３８により行われる。当該判定は、Ｓ１６１７にて各文字列データが属する概念特徴グループを特定した結果、１つの概念特徴グループに１つの属性情報が対応付けられたか否かを判定することにより行われる。Ｓ１６１８にて正しく分類されていないと判定された場合、学習装置３は、Ｓ１６１４に戻って、Ｓ１６１８にて正しく分類されたと判定されるまでの間、Ｓ１６１４からＳ１６１８までの処理を繰り返して実行する。ここで、図１７（ａ）に示すように、「飲料品」の属性情報に対応付けられた各文字列と、「酒類」の属性情報に対応付けられた各文字列とは、それぞれ互いに異なる概念特徴グループに属することから、学習装置３は、正しく分類できたと判定することができる。

Ｓ１６１８にて正しく分類されたと判定された場合、Ｓ１６１９にて、学習装置３は、複数の属性情報が対応付けられた概念特徴グループを全て処理したかを判定する。当該判定は、例えば、第２学習部３８により行われる。Ｓ１６１９にて全ての概念特徴グループを処理していないと判定された場合、すなわち、未処理の概念特徴グループがあると判定された場合、学習装置３は、Ｓ１６１１に戻って処理を継続する。学習装置３は、Ｓ１６１９にて全ての概念特徴グループを処理したと判定されるまでの間、Ｓ１６１１からＳ１６１９までの処理を繰り返し実行する。Ｓ１６１９にて全ての概念特徴グループを処理したと判定された場合、Ｓ４０６にて、分類器出力部３６は、Ｓ１６０２にて生成された文字列分類器１５を情報処理装置４に出力する。具体的には、分類器出力部３６は、当該文字列分類器１５を情報処理装置４に出力して、情報処理装置４が有するストレージ２６５に保存されている文字列分類器１５を更新する。Ｓ４０６の後、学習装置３は、図１６（ｂ）に示すフローチャートの処理を終了して、Ｓ１６０２の処理を完了する。

Ｓ１６０２の後、Ｓ１６０３にて、学習装置３は、Ｓ１６０２にて更新された文字列分類器１５を用いて新たな属性情報テーブル１８を生成する。なお、Ｓ１６０３における、新たな属性情報テーブルを生成する処理は、Ｓ５０４の処理、すなわち、図５（ｂ）に示すフローチャートの処理と同様の処理であるため説明を省略する。図１７（ｂ）は、Ｓ１６０３にて生成された新たな属性情報テーブル１８の一例を説明するための説明図である。図９（ｃ）に示す属性情報テーブル１８において２つの属性情報が対応付けられていた概念特徴グループ１１１７は、図１７（ｂ）では、互いに異なる１つの属性情報が対応付けられた２つの概念特徴グループ１７２１，１７２２に変更されている。Ｓ１６０３の後、Ｓ５０５にて、テーブル出力部３９は、Ｓ１６０３にて生成された属性情報テーブル１８を情報処理装置４に対して出力して、情報処理装置４が有するストレージ２６５に保存されている属性情報テーブル１８を更新する。Ｓ５０５の後、学習装置３は、図１６に示すフローチャートの処理を終了する。

以上のように、情報処理装置４によれば、１つの概念特徴グループに対して１つの属性情報が対応付けられるように、文字列分類器１５を更新することができる。結果として、情報処理装置４によれば、ユーザの所望の属性をもつ候補文字列を効率よく抽出することができる。

［その他の実施形態］
本開示は、上述の実施形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、本開示はその開示の範囲内において、各実施形態の自由な組み合わせ、各実施形態の任意の構成要素の変形、又は、各実施形態において任意の構成要素の省略が可能である。

４情報処理装置
４５概念特徴グループ特定部
４７候補抽出部
４８候補出力部
４９テーブル取得部

Claims

処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる候補文字列を抽出する情報処理装置であって、
予め定められた複数の概念特徴グループのうちの予め設定された抽出対象の概念特徴グループの情報を取得する抽出対象取得手段と、
前記複数の概念特徴グループのそれぞれと属性グループの項目を示す属性情報とが予め対応付けられた属性情報テーブルを取得するテーブル取得手段と、
前記属性情報テーブルに基づいて、前記抽出対象の概念特徴グループに対応付けられた前記属性情報と同一の属性情報に対応付けられた１以上の概念特徴グループを概念特徴グループ群として前記複数の概念特徴グループの中のから取得するグループ群取得部と、
前記複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、前記複数の概念特徴グループの中のから前記複数の文字列のそれぞれが属する概念特徴グループを特定し、前記複数の文字列の中から、前記特定した概念特徴グループが前記概念特徴グループ群のうちのいずれかの概念特徴グループと同一となった文字列を候補文字列として抽出する候補抽出手段と、
前記候補抽出手段により抽出された前記候補文字列を出力する候補出力手段と、
を有すること
を特徴とする情報処理装置。
文字列のデータを特徴ベクトルに変換するベクトル変換手段、
を更に有し、
前記候補抽出手段は、前記ベクトル変換手段により変換された前記複数の文字列のそれぞれに対応する前記特徴ベクトルに基づいて、前記複数の文字列のそれぞれが属する前記概念特徴グループを特定すること
を特徴する請求項１に記載の情報処理装置。
前記属性情報テーブルは、複数の前記属性情報のそれぞれに予め定め対応付けられた文字列に対応する特徴ベクトルに基づいて、前記複数の概念特徴グループの中のから前記属性情報に対応付けられた文字列が属する概念特徴グループを当該文字列毎に特定し、前記特定した概念特徴グループと、当該概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報とを対応付けることにより生成されたものであること
を特徴する請求項１又は請求項２に記載の情報処理装置。
前記属性情報に対応付けられた文字列が属する概念特徴グループは、入力された文字列が前記複数の概念特徴グループの中のいずれかに分類する分類器を用いて、特定されること
を特徴する請求項３に記載の情報処理装置。
前記候補抽出手段は、入力された文字列が前記複数の概念特徴グループの中のいずれかに分類する分類器を用いて、前記複数の文字列のそれぞれが属する前記概念特徴グループを特定すること
を特徴する請求項１乃至４のいずれか１項に記載の情報処理装置。
前記分類器は、前記入力された文字列を分類する際に、前記複数の概念特徴グループのそれぞれの重心位置と、前記入力された文字列に対応する特徴ベクトルとの間の距離に基づいて、前記分類した概念特徴グループに優先度を付与すること
を特徴する請求項５に記載の情報処理装置。
前記分類器は、前記処理対象の文書画像とは異なる複数の文書画像に含まれる文字列のそれぞれを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものであること
を特徴する請求項４又は請求項５に記載の情報処理装置。
前記分類器は、前記複数の文書画像に含まれる文字列のそれぞれを特徴ベクトルに変換し、変換した複数の前記特徴ベクトルを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものでものであること
を特徴する請求項７に記載の情報処理装置。
前記属性情報テーブルは、前記特定した概念特徴グループと、当該概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報の中の代表的な１つの属性情報と、を対応付けることにより生成されたものであること
を特徴する請求項３に記載の情報処理装置。
当該概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報には、優先度が付与されていること
を特徴する請求項３に記載の情報処理装置。
前記候補抽出手段は、概念特徴グループに付与されている優先度に基づいて、優先度が高い概念特徴グループに属すると特定された前記候補文字列に高い優先度を付与すること
を特徴とする請求項６記載の情報処理装置。
前記候補抽出手段は、前記属性情報に付与されている優先度に基づいて、優先度が高い属性情報に対応付けられた概念特徴グループに属すると特定された前記候補文字列に高い優先度を付与すること
を特徴とする請求項１０記載の情報処理装置。
前記抽出対象の属性グループを設定する抽出対象設定手段、
を更に有し、
前記抽出対象設定手段は、前記処理対象の文書画像とは異なる文書画像に含まれる１以上の第２の文字列の中から指定された文字列に対応する前記特徴ベクトルに基づいて、前記複数の属性グループの中から前記指定された文字列が属する属性グループを特定し、前記特定した前記指定された文字列が属する属性グループを前記抽出対象の属性グループとして設定し、
抽出対象取得手段は、前記抽出対象設定手段により設定された前記抽出対象の属性グループを示す情報を取得すること
を特徴する請求項１乃至１２のいずれか１項に記載の情報処理装置。
文字列のデータを特徴ベクトルに変換するベクトル変換手段、
を更に有し、
前記ベクトル変換手段は、前記抽出対象の概念特徴グループを設定するために用いる文書画像に含まれる前記１以上の第２の文字列のうちの指定された前記第２の文字列を前記特徴ベクトルに変換し、
前記抽出対象設定手段は、前記ベクトル変換手段により変換された前記指定された文字列に対応する前記特徴ベクトルに基づいて、前記指定された文字列が属する前記概念特徴グループを特定すること
を特徴する請求項１３に記載の情報処理装置。
前記抽出対象設定手段は、入力された文字列が前記複数の概念特徴グループの中のいずれかに分類する分類器を用いて、前記指定された文字列が属する前記概念特徴グループを特定すること
を特徴する請求項１３又は請求項１４に記載の情報処理装置。
前記分類器は、前記処理対象の文書画像とは異なる複数の文書画像に含まれる文字列のそれぞれを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものであること
を特徴する請求項１５に記載の情報処理装置。
前記分類器は、前記複数の文書画像に含まれる文字列のそれぞれを特徴ベクトルに変換し、変換した複数の前記特徴ベクトルを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものでものであること
を特徴する請求項１５に記載の情報処理装置。
コンピュータを、請求項１乃至１７のいずれかに１項に記載の情報処理装置を構成する各手段として動作させるためのプログラム。
処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる候補文字列を抽出する情報処理方法であって、
予め定められた複数の概念特徴グループのうちの予め設定された抽出対象の概念特徴グループの情報を取得する抽出対象取得工程と、
前記複数の概念特徴グループのそれぞれと属性グループの項目を示す属性情報とが予め対応付けられた属性情報テーブルを取得するテーブル取得工程と、
前記属性情報テーブルに基づいて、前記抽出対象の概念特徴グループに対応付けられた前記属性情報と同一の属性情報に対応付けられた１以上の概念特徴グループを概念特徴グループ群として前記複数の概念特徴グループの中のから取得するグループ群取得部と、
前記複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、前記複数の概念特徴グループの中のから前記複数の文字列のそれぞれが属する概念特徴グループを特定し、前記複数の文字列の中から、前記特定した概念特徴グループが前記概念特徴グループ群のうちのいずれかの概念特徴グループと同一となった文字列を候補文字列として抽出する候補抽出工程と、
前記候補抽出工程により抽出された前記候補文字列を出力する候補出力工程と、
を有すること
を特徴とする情報処理方法。
複数の文書画像に含まれる文字列のそれぞれに対応する特徴ベクトルを学習用データとして、未学習又は学習途中の学習モデルに、前記特徴ベクトルを複数の概念特徴グループにグループ化する学習をさせる第１の学習手段と、
前記第１の学習手段による学習結果である学習済モデルを用いて、入力された文字列が前記複数の概念特徴グループの中のいずれかに分類する分類器を生成する分類器生成手段と、
生成された前記分類器を用いて、複数の属性情報のそれぞれに予め定め対応付けられた文字列が属する概念特徴グループを当該文字列毎に特定し、特定した概念特徴グループと、当該概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報とが対応付けられた属性情報テーブルを生成するテーブル生成手段と、
生成された前記分類器を出力する分類器出力手段と、
生成された前記属性情報テーブルを出力するテーブル出力手段と、
を有することを特徴とする学習装置。
前記分類器生成手段は、前記入力された文字列を分類する際に、前記複数の概念特徴グループのそれぞれの重心位置と、前記入力された文字列に対応する特徴ベクトルとの間の距離に基づいて、前記分類した概念特徴グループに優先度を付与する前記分類器を生成すること
を特徴とする請求項２０に記載の学習装置。
前記テーブル生成手段は、前記特定した概念特徴グループと、当該概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報の中の代表的な１つの属性情報とを対応付けることにより前記属性情報テーブルを生成すること
を特徴とする請求項２０又は請求項２１に記載の学習装置。
前記テーブル生成手段は、前記概念特徴グループに属すると特定された文字列に対応付けられた前記属性情報に優先度を付与した前記属性情報テーブルを生成すること
を特徴とする請求項２０又は請求項２１に記載の学習装置。
前記テーブル生成手段により生成された前記属性情報テーブルにおいて、複数の属性情報が対応付けられた前記概念特徴グループが存在する場合、前記分類器生成手段は、当該概念特徴グループに対応付けられている前記属性情報の数に基づいて、当該概念特徴グループを複数の概念特徴グループに分割して、前記分類器を生成しなおすこと
を特徴とする請求項２０乃至２３のいずれか１項に記載の学習装置。