JP2023041243A

JP2023041243A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2023041243A
Application number: JP2021148491A
Authority: JP
Inventors: 健阿知波; Takeshi Achinami
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-03-24
Also published as: US20230077608A1

Abstract

【課題】文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する文字列データを、所定の項目に対応する項目値の候補として抽出する。【解決手段】情報処理装置は、処理対象の文書画像に含まれる複数の文字列の中から予め定められた項目に対応する項目値の候補となる１以上の候補文字列を抽出するものであって、まず、予め設定された抽出対象の属性グループを示す情報を取得する。次に、処理対象の文書画像に含まれる複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、予め定められた複数の属性グループのうちから、複数の文字列のそれぞれが属する属性グループを特定する。次に、処理対象の文書画像に含まれる複数の文字列の中から、特定された属性グループが抽出対象の属性グループと同一となった文字列を候補文字列として抽出する。【選択図】図２Ｃ

Description

本開示は、文書画像から文字列のデータを抽出する技術に関する。

イメージスキャナデバイス（以下「スキャナ」という。）又はファクシミリ（以下「ＦＡＸ」という。）受信機等を用いて得られた文書画像から、所定の項目値を文字列のデータとして抽出することが行われている。抽出された文字列のデータは、ファイル名の自動付与等の文書ファイリング処理、又は、業務システムへの転記処理等の入力データとしてデータ入力業務等に用いられる。

特許文献１には、データ入力業務を支援するための技術として、一般に準定型文書又は非定型文書と呼ばれる、予めレイアウトが定められた定型文書とは異なるレイアウトで作成された文書の画像から、項目値に対応する文字列を抽出する手法が開示されている。特許文献１に開示された手法（以下「従来手法」という。）は、まず、振込依頼書等の文書画像に含まれる複数の文字列から、「口座番号」等の予め定められた項目名と、項目名に対応する「１２３４５６７」等の項目値とを抽出する。次に、項目名と項目値との互いの位置関係から両者の妥当性を評価し、この評価結果に基づいて項目値を抽出するものである。従来手法では、項目名を、「番号」又は「口座番号」等の予め定められたキーワードに基づいて抽出し、項目値を、「ＮＮＮＮＮＮＮ」（Nは、例えば任意のアラビア数字）等の予め定められたデータ型に基づいて抽出する。

特開２０１６－５１３３９号公報

従来手法では、「金額」、「日付」、又は「口座番号」等の文字列の表記に規則性がある項目の項目値については抽出できるが、「氏名」、「住所」、「職業」、又は「続柄」等の文字列の表記に規則性が無い項目の項目値については抽出できないことがあった。具体的には、文字列の表記に規則性がある場合についてはデータ型によって妥当性を評価できるが、文字列の表記に規則性が無い場合については、データ型によって妥当性を評価することが困難なため、所望する項目値を必ずしも抽出できなるわけではない。

本開示に係る情報処理装置は、処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる１以上の候補文字列を抽出する情報処理装置であって、予め定められた複数の属性グループのうちの予め設定された抽出対象の属性グループの情報を取得する抽出対象取得手段と、複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、複数の属性グループの中のから複数の文字列のそれぞれが属する属性グループを特定し、複数の文字列の中から、特定した属性グループが抽出対象の属性グループと同一となった文字列を候補文字列として抽出する候補抽出手段と、候補抽出手段により抽出された候補文字列を出力する候補出力手段と、を有する。

本開示によれば、文字列の表記に規則性が無い項目の項目値であっても、予めレイアウトが定められた定型文書とは異なるレイアウトの文書の画像から、ユーザが所望する文字列データを、所定の項目に対応する項目値の候補として抽出できる。

第１実施形態に係る情報処理システムの構成の一例を示すブロック図である。第１実施形態に係る画像入力装置の構成の一例を示すブロック図である。第１実施形態に係る学習装置の構成の一例を示すブロック図である。第１実施形態に係る情報処理装置の構成の一例を示すブロック図である。第１実施形態に係る情報処理システムの処理シーケンスの一例を示すシーケンス図である。第１実施形態に係る学習装置における処理の流れの一例を示すフローチャートである。第１実施形態に係る情報処理装置における処理の流れの一例を示すフローチャートである。第１実施形態に係る情報処理装置における処理の流れの一例を示すフローチャートである。第２実施形態に係る情報処理装置における処理の流れの一例を示すフローチャートである。第３実施形態に係る情報処理装置における処理の流れの一例を示すフローチャートである。図８に示すＳ８０１の処理の流れの一例を示すフローチャートである。属性グループ及び文字列データの一例を説明するための説明図である。文字列データ及び特徴ベクトルの一例を説明するための説明図である。設定画面の一例を説明するための説明図である。確認画面の一例を説明するための説明図である。複数の属性グループにグループ化した様子の一例を示した概念図である。文字列の周辺に位置する文字列の一例を説明するための説明図である。文字列の配置及びサイズの一例を説明するための説明図である。

以下、添付の図面を参照して、本開示の実施の形態について説明する。なお、以下の実施の形態に示す構成は、一例に過ぎず、本開示の範囲をその構成のみに限定されるものでなく、また、以下の実施の形態に示す構成の全てが本開示に必須のものとは限らない。

［第１実施形態］
＜情報処理システム＞
図１乃至７及び図１０乃至１３を参照して、第１実施形態に係る情報処理システム１について説明する。図１は、第１実施形態に係る情報処理システム１の構成の一例を示すブロック図である。情報処理システム１は、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続されている。情報処理システム１において、画像入力装置２、学習装置３、及び情報処理装置４は、いずれも、ネットワーク５に対して単一接続ではなく、複数接続された構成であってもよい。具体的には、例えば、情報処理装置４は、高速演算リソースを有する第１の装置と、大容量ストレージを有する第２の装置により構成され、第１及び第２の装置がネットワーク５を介して互いに通信可能に接続された構成であってもよい。図１に示す情報処理システム１は、一例として、画像入力装置２、学習装置３、及び情報処理装置４がネットワーク５に対してそれぞれ単一接続されたものである。

画像入力装置２は、プリント機能、スキャン機能、及びＦＡＸ機能等の複数の機能を備えた、例えば、ＭＦＰ（Multi-Function Peripheral）により実現される。画像入力装置２は、画像を取得し、取得した画像のデータを外部の装置に出力する機能を有する。画像入力装置２は、ＭＦＰにより実現される場合、画像入力装置２は、例えば、スキャン機能により紙等の記録媒体に印字された原稿１１を光学的に読み取り、周知のスキャン画像処理を行うことにより文書画像１３を取得する。また、当該場合、例えば、画像入力装置２は、ＦＡＸ機能により、図１には不図示のＦＡＸ送信機から送信されたＦＡＸデータ１２を受信し、ＦＡＸデータ１２に対して周知のＦＡＸ画像処理を行うことにより文書画像１３を取得する。さらに、画像入力装置２は、取得した文書画像１３を文書画像データとして情報処理装置４に対して送信する。

なお、ＭＦＰはあくまで一例であって、画像入力装置２は、ＰＣ（Personal Computer）等により実現されてもよい。具体的には、例えば、画像入力装置２としてのＰＣにおいて動作する文書作成アプリケーションを用いて生成される文書画像１３を取得し、取得した文書画像１３を文書画像データとして情報処理装置４に対して送信してもよい。ここで、文書作成アプリケーションを用いて生成される文書画像１３のデータとは、例えば、ＰＤＦ（Portable Document Format）等の電子文書ファイル形式のデータである。当該データは、ＪＰＥＧ（Joint Photographic Experts Group）等の静止画像のデータ等であってもよい。

学習装置３は、機械学習を行い、機械学習を行うことにより得た学習済モデルに基づいて文字列分類器１５を生成する。ここで、学習装置３により生成される文字列分類器１５とは、説明変数として入力された文字列を示す情報に基づいて、予め定められた複数の属性のグループ（以下「属性グループ」という。）のうちから、当該文字列が属する属性グループを特定するものである。具体的には、学習装置３は、まず、エンジニア等のユーザから提供された複数の文書画像のサンプル（以下「文書画像サンプル１４」という。）に含まれる文字列のデータ（以下「文字列データ」という。）を取得する。次に、取得した文字列データを学習用データとして機械学習を行うことにより得た学習済モデルに基づいて、文字列分類器１５を生成する。ここで、属性グループとは、一般に固有表現と呼ばれる、文字列データの概念的な特徴を捉えたグループを指すものであって、人名若しくは地名等の固有名詞、又は、日付若しくは金額等の固有表現等が挙げられる。なお、学習装置３は、取得した文字列データを特徴ベクトルに変換し、変換した特徴ベクトルを学習用データとして機械学習を行ってもよい。特徴ベクトルについては後述する。

図１０を参照して、属性グループ及び文字列データについて説明する。図１０は、第１実施形態に係る属性グループ及び文字列データの一例を説明するための説明図である。図１０には、属性グループの具体例として、氏名１００１、住所１００２、職業１００３、続柄１００４、日付１００５、及び、病名１００６と、各属性グループに分類される文字列データの具体例が示されている。図１０には、日付１００５の項目値のように、データ型を規定することが可能な項目値と、氏名１００１、住所１００２、職業１００３、続柄１００４、又は病名１００６の項目値のように、字面が互いに異なる文字列からなる項目値とが含まれている。

学習装置３は、例えば、人事系の事務部門で扱われる複数の文書画像のデータを文書画像サンプル１４として取得する。学習装置３は、取得した複数の文書サンプル１４のそれぞれに含まれる文字列のデータを元に、当該文字列を機械学習により文書名、日付、氏名、住所、職業、又は続柄等に相当する複数の属性グループにグループ化する。このようにして、学習装置３は、説明変数として入力された文字列を示すデータに基づいて当該文字列がこれらの属性グループのうちのいずれに属するかを特定するための文字列分類器１５を生成する。なお、文書サンプル１４に含まれる文字列は、文書サンプル１４に対してＯＣＲ（Optical character recognition）処理を実行することによって得られた文字認識結果として取得される。

また、学習装置３は、例えば、医療系の事務部門で扱う複数の文書画像のデータを文書画像サンプル１４として取得してもよい。この場合、学習装置３は、取得した複数の文書サンプル１４のそれぞれに含まれる文字列のデータを元に、当該文字列を機械学習により文書名、日付、氏名、医療機関名、病名、薬品名、又は金額等に相当する複数の属性グループにグループ化する。このようにして、学習装置３は、入力された文字列を示すデータに基づいて当該文字列がこれらの属性グループのうちのいずれに属するかを特定するための文字列分類器１５を生成する。文字列分類器１５を生成した後、学習装置３は、生成した文字列分類器１５を、ネットワーク５を介して情報処理装置４に対して送信する。学習装置３の詳細については後述する。

情報処理装置４は、画像入力装置２から受信した文書画像１３に含まれる１以上の文字列のそれぞれに対応するデータを、文字列毎に文字列データとして取得する。具体的には、例えば、情報処理装置４は、文書画像１３に対してＯＣＲ処理を実行することによって得られた文字認識結果を文字列データとして取得する。さらに、情報処理装置４は、文書画像１３に含まれる１以上の文字列のデータのうちから、候補となる１以上の文字列（以下「候補文字列」という。）のデータを抽出する。具体的には、情報処理装置４は、まず、文字列分類器１５を用いて、取得した文字列データの文字列が複数の属性グループのうちのいずれに属するかを特定する。次に、文書画像１３に含まれる１以上の文字列のデータのうちから、特定された属性グループが予め定められた抽出対象の属性グループ（以下「抽出対象グループ」という。）と同一の文字列データ１６を候補文字列のデータとして抽出する。情報処理装置４は、抽出した候補文字列のデータ（文字列データ１６）を出力する。具体的には、情報処理装置４は、抽出した候補文字列のデータ（文字列データ１６）を図１には不図示の記憶装置又は表示装置等に出力する。情報処理装置４の詳細については後述する。

ネットワーク５は、ＬＡＮ（Local Area Network）又はＷＡＮ（Wide Area Network）等により構成される通信網である。ネットワーク５は、画像入力装置２、学習装置３、及び情報処理装置４の間を互いに通信可能に接続して、装置間におけるデータの送受信を可能にする。

＜装置構成＞
図２を参照して、画像入力装置２、学習装置３、及び情報処理装置４の構成について説明する。図２Ａは、第１実施形態に係る画像入力装置２の構成の一例を示すブロック図である。具体的には、図２Ａ（ａ）は、第１実施形態に係る画像入力装置２が有する機能ブロックの一例を示すブロック図である。画像入力装置２は、画像取得部２１及び画像送信部２２を有する。画像取得部２１は、文書画像１３を取得する。画像送信部２２は、画像取得部２１により取得された文書画像１３のデータを、ネットワーク５を介して情報処理装置４に対して送信する。

画像入力装置２において機能する各部の処理は、画像入力装置２に内蔵されたＡＳＩＣ（Application Specific Integrated Circuit）等のハードウェアによってなされる。当該処理は、ＦＰＧＡ（Field Programmable Gate Array）等のハードウェアによってなされるものであってもよい。また、当該処理は、ＲＡＭ（Random Access Memory）等のメモリと、ＣＰＵ（Central Processor Unit）等のプロセッサとを用いたソフトウエアによってなされるものであってもよい。

図２Ａ（ｂ）は、第１実施形態に係る画像入力装置２が有するハードウェアの一例を示すブロック図である。具体的には、図２Ａ（ｂ）に示すブロック図は、画像入力装置２において機能する各部がソフトウエアとして動作する場合の画像入力装置２のハードウェア構成の一例を示すものである。画像入力装置２は、コンピュータにより構成されており、当該コンピュータは、図２Ａ（ｂ）に一例として示すように、ＣＰＵ２０１、ＲＯＭ２０２、データパス２０３、ＲＡＭ２０４、プリンタデバイス２０５、及びスキャナデバイス２０６を有する。また、当該コンピュータは、図２Ａ（ｂ）に一例として示すように、原稿搬送デバイス２０７、ストレージ２０８、入力デバイス２０９、表示デバイス２１０、及び外部インタフェース２１１を有する。

ＣＰＵ２０１は、画像入力装置２における動作全体を制御するためのプロセッサである。ＣＰＵ２０１は、ＲＯＭ２０２等に格納された起動プログラムを実行することにより、画像入力装置２のシステムを起動する。さらに、ＣＰＵ２０１は、ストレージ２０８等に記憶された制御プログラムを実行することにより、画像入力装置２においてプリント機能、スキャン機能、又はＦＡＸ機能等として機能する各部を機能させる。なお、画像入力装置２は、ＣＰＵ２０１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２０１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ（Digital Signal Processor）等がある。

ＲＯＭ２０２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、画像入力装置２を起動する起動プログラムを格納している。データバス２０３は、画像入力装置２が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２０４は、ＲＯＭ２０２又はストレージ２０８等から供給されるプログラム若しくはデータ、又は外部インタフェース２１１を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＲＡＭ２０４は、ＣＰＵ２０１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。

プリンタデバイス２０５は、画像出力用のデバイスであって、画像入力装置２にて取得された文書画像を紙等の記憶媒体に印字して印刷出力するためのデバイスである。スキャナデバイス２０６は、画像入力用のデバイスであって、文字や図表等が印字された紙等の記憶媒体を光学的に読み取って文書画像として取得するためのデバイスである。原稿搬送デバイス２０７は、図２Ａ（ｂ）には不図示の原稿台に載置された原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送するためのデバイスである。原稿搬送デバイス２０７は、ＡＤＦ（Auto Document Feeder）等により実現される。

ストレージ２０８は、ＨＤＤ（Hard Disk Drive）等により実現されるものであって、前述の制御プログラム又は文書画像データを記憶するための補助記憶装置である。入力デバイス２０９は、タッチパネル又はハードキー等により実現されるものであって、ユーザからの画像入力装置２に対する操作入力を受け付けるためのデバイスである。表示デバイス２１０は、液晶ディスプレイ等により実現されるものであって、画像入力装置２が出力する設定画面等の表示画像をユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２１１は、画像入力装置２とネットワーク５との間を接続するものであって、図２Ａ（ｂ）には不図示のＦＡＸ送信機からＦＡＸデータ１２を受信したり、情報処理装置４に対して文書画像のデータを送信したりするためのものである。

図２Ｂは、第１実施形態に係る学習装置３の構成の一例を示すブロック図である。具体的には、図２Ｂ（ａ）は、第１実施形態に係る学習装置３が有する機能ブロックの一例を示すブロック図である。学習装置３は、サンプル取得部３１、文字列取得部３２、ベクトル変換部３３、学習部３４、分類器生成部３５、及び分類器出力部３６を有する。

サンプル取得部３１は、文書画像サンプル１４を取得する。具体的には、例えば、サンプル取得部３１は、ユーザによる操作入力に基づいて、操作入力に対応する文書画像サンプル１４を図２Ｂ（ａ）には不図示の記憶装置から読み出すことにより、文書画像サンプル１４を取得する。文字列取得部３２は、サンプル取得部３１により取得された文書画像サンプル１４が示す文章画像に含まれる１以上の文字列のデータを取得する。ベクトル変換部３３は、文字列取得部３２により取得された１以上の文字列データのそれぞれを、文字列データ毎に特徴ベクトルに変換する。学習部３４は、ベクトル変換部３３により変換された特徴ベクトルを学習用データとして学習モデルに入力することにより学習モデルに機械学習させる。分類器生成部３５は、学習部３４よる学習結果である学習済モデルを受けて、学習済モデルに基づいて文字列分類器１５を生成する。なお、分類器生成部３５は、学習部３４よる学習結果である学習済モデルに対して処理を行うことなく、当該学習済モデルを文字列分類器１５としてもよい。分類器出力部３６は、分類器生成部３５により生成された文字列分類器を、情報処理装置４、又は図２Ｂ（ｂ）には不図示の記憶装置に対して出力する。学習装置３が有する各部の詳細な処理については後述する。

学習装置３において機能する各部の処理は、学習装置３に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。図２Ｂ（ｂ）は、第１実施形態に係る学習装置３が有するハードウェアの一例を示すブロック図である。具体的には、図２Ｂ（ｂ）に示すブロック図は、学習装置３において機能する各部がソフトウエアとして動作する場合の学習装置３のハードウェア構成の一例を示すものである。学習装置３は、コンピュータにより構成されており、当該コンピュータは、図２Ｂ（ｂ）に一例として示すように、ＣＰＵ２３１、ＲＯＭ２３２、データバス２３３、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、及び表示デバイス２３７を有する。また、当該コンピュータは、図２Ｂ（ｂ）に一例として示すように、外部インタフェース２３８及びＧＰＵ２３９を有する。

ＣＰＵ２３１は、学習装置３における動作全体を制御するためのプロセッサである。ＣＰＵ２３１は、ＲＯＭ２３２等に格納された起動プログラムを実行することにより、学習装置３のシステムを起動する。また、ＣＰＵ２３１は、ストレージ２３５に記憶された制御プログラムを実行することにより、学習装置３において機能する各部を機能させる。なお、学習装置３は、ＣＰＵ２３１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２３１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ等がある。

ＲＯＭ２３２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、学習装置３を起動する起動プログラムを格納している。データバス２３３は、学習装置３が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２３４は、ＲＯＭ２３２又はストレージ２３５等から供給されるプログラム若しくはデータ、又は外部インタフェース２３８を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＲＡＭ２３４は、ＣＰＵ２３１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。ストレージ２３５は、ＨＤＤ等により実現されるものであって、前述の制御プログラム又は文書画像サンプルデータ１４等を記憶するための補助記憶装置である。

入力デバイス２３６は、マウス又はキーボード等により実現されるものであって、エンジニア等のユーザ（以下、単に「エンジニア」という。）からの学習装置３に対する操作入力を受け付けるためのデバイスである。表示デバイス２３７は、液晶ディスプレイ等により実現されるものであって、学習装置３の設定画面等の表示画像をエンジニアに対して視認可能に表示出力するためのデバイスである。外部インタフェース２３８は、学習装置３とネットワーク５との間を接続するものであって、図２Ｂ（ｂ）には不図示の記憶装置又はＰＣ等の外部装置から文書画像サンプル１４を受信するためのものである。また、外部インタフェース２３８は、情報処理装置４、又は図２Ｂ（ｂ）には不図示の記憶装置に対して文字列分類器１５を出力するためのものである。ＧＰＵ２３９は、画像処理を行うことが可能なプロセッサである。ＧＰＵ２３９は、例えば、ＣＰＵ２３１から与えられた制御コマンドに従って、与えられた文書画像に含まれる文字列のデータを元に、文字列分類器１５を生成するための演算を行う。

図２Ｃは、第１実施形態に係る情報処理装置４の構成の一例を示すブロック図である。具体的には、図２Ｃ（ａ）は、第１実施形態に係る情報処理装置４が有する機能ブロックの一例を示すブロック図である。情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，属性グループ特定部４５、抽出対象設定部４６、候補抽出部４７、及び候補出力部４８を有する。

分類器取得部４１は、文字列分類器１５を取得する。具体的には、例えば、分類器取得部４１は、学習装置３により出力された文字列分類器１５を受けて、文字列分類器１５を取得する。分類器取得部４１は、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された文字列分類器１５を当該記憶装置から読み出すことにより、文字列分類器１５を取得してもよい。処理画像取得部４２は、文書画像１３を取得する。具体的には、例えば、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された文書画像１３のデータを当該記憶装置から読み出すことにより、文書画像１３を取得してもよい。文字列取得部４３は、文書画像１３に含まれる１以上の文字列のデータを取得する。ベクトル変換部４４は、文字列取得部４３により取得された１以上の文字列データのそれぞれを、文字列データ毎に特徴ベクトルに変換する。

属性グループ特定部４５は、ベクトル変換部４４により変換された特徴ベクトルに基づいて、予め定められた複数の属性グループのうちから、当該特徴ベクトルに対応する文字列が属する属性グループを特定する。具体的には、属性グループ特定部４５は、ベクトル変換部４４により変換された特徴ベクトルを、分類器取得部４１により取得された文字列分類器１５に説明変数と入力する。属性グループ特定部４５は、文字列分類器１５が推論結果として出力する、属性グループを識別可能な識別番号等の情報（以下「グループＩＤ（identification）」という。）を取得する。グループＩＤにより、当該特徴ベクトルに対応する文字列が属する属性グループが特定される。

抽出対象設定部４６は、属性グループ特定部４５により特定された属性グループを抽出対象グループとして設定する。抽出対象設定部４６は、抽出対象グループを示す情報を抽出対象グループ情報として出力する。具体的には、抽出対象設定部４６は、抽出対象グループ情報をストレージ２６５等の記憶装置に出力して記憶装置に記憶させる。

候補抽出部４７は、抽出対象グループに基づいて、文字列取得部４３により取得された、文書画像１３に含まれる１以上の文字列データのうちから、候補文字列を選択して抽出する。具体的には、例えば、候補抽出部４７は、まず、図２Ｃ（ａ）には不図示の記憶装置に予め記憶された抽出対象グループ情報を、当該記憶装置から読み出すことにより取得する。次に、抽出対象グループ情報が示す抽出対象グループと、属性グループ特定部４５により特定された属性グループとを、文書画像１３に含まれる文字列毎に比較する。候補抽出部４７は、当該比較の結果に基づいて、候補文字列のデータを抽出する。候補出力部４８は、候補抽出部４７により候補文字列のデータとして抽出された文字列データ１６を出力する。具体的には、例えば、候補出力部４８は、文字列データ１６を、図２Ｃ（ａ）には不図示の表示装置に表示出力する。情報処理装置４が有する各部の詳細な処理については後述する。

情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。図２Ｃ（ｂ）は、第１実施形態に係る情報処理装置４が有するハードウェアの一例を示すブロック図である。具体的には、図２Ｃ（ｂ）に示すブロック図は、情報処理装置４において機能する各部がソフトウエアとして動作する場合の情報処理装置４のハードウェア構成の一例を示すものである。情報処理装置４は、コンピュータにより構成されており、当該コンピュータは、図２Ｃ（ｂ）に一例として示すように、ＣＰＵ２６１、ＲＯＭ２６２、データバス２６３、ＲＡＭ２６４、及びストレージ２６５を有する。また、当該コンピュータは、図２Ｃ（ｂ）に一例として示すように、入力デバイス２６６、表示デバイス２６７、及び外部インタフェース２６８を有する。

ＣＰＵ２６１は、情報処理装置４における動作全体を制御するためのプロセッサである。ＣＰＵ２６１は、ＲＯＭ２６２に格納された起動プログラムを実行することにより、情報処理装置４のシステムを起動する。また、ＣＰＵ２６１は、ストレージ２６５に記憶された制御プログラムを実行することにより、情報処理装置４において機能する各部を機能させる。なお、情報処理装置４は、ＣＰＵ２６１とは異なる１又は複数の専用のハードウェアを有し、ＣＰＵ２６１による処理の少なくとも一部を専用のハードウェアが実行してもよい。専用のハードウェアの例としては、ＡＳＩＣ、ＦＰＧＡ、又はＤＳＰ等がある。

ＲＯＭ２６２は、変更を必要としないプログラム等を格納する不揮発性のメモリであって、例えば、情報処理装置４を起動する起動プログラムを格納している。データバス２６３は、情報処理装置４が有する各ハードウェアをつないで、ハードウェア間においてデータを伝達する。ＲＡＭ２６４は、ＲＯＭ２６２又はストレージ２６５等から供給されるプログラム若しくはデータ、又は外部インタフェース２６８を介して外部から供給されるデータ等を一時記憶する揮発性のメモリである。ＣＰＵ２６１が起動プログラム又は制御プログラム等のプログラムを実行する際のワークメモリとして使用される。ストレージ２６５は、ＨＤＤ等で実現されるものであって、前述の制御プログラム、文書画像１３のデータ、文字列分類器１５、又は文字列データ１６等を記憶するための補助記憶装置である。

入力デバイス２６６は、マウス又はキーボード等で実現されるものであって、エンジニア又はエンドユーザ等のユーザからの情報処理装置４に対する操作入力を受け付けるためのデバイスである。表示デバイス２６７は、液晶ディスプレイ等により実現されるものであって、情報処理装置４の設定画面等の表示画像をエンジニア又はエンドユーザ等のユーザに対して視認可能に表示出力するためのデバイスである。外部インタフェース２６８は、情報処理装置４とネットワーク５との間を接続するものであって、学習装置３、又は図２Ｃ（ｂ）には不図示の記憶装置等の外部装置から文字列分類器１５を受信するためのものである。また、外部インタフェース２６８は、画像入力装置２、又は図２Ｃ（ｂ）には不図示の記憶装置等の外部装置から文書画像１３のデータを受信するためのものである。

＜処理シーケンス＞
図３を参照して、情報処理システム１の処理シーケンスについて説明する。図３は、第１実施形態に係る情報処理システム１の処理シーケンスの一例を示すシーケンス図である。図３に一例として示すように、情報処理システム１は、（ａ）から（ｄ）までの４つの処理シーケンスに分けられる。なお、図３の説明において、記号「Ｓ」はステップを意味する。

図３に示す（ａ）は、学習装置３が文字列分類器１５を生成する処理シーケンスを示している。図３に示す（ａ）の処理シーケンスは、図３に示す（ｂ）から（ｄ）までのいずれの処理シーケンスが実行されるよりも前に予め実行される。図３に示す（ａ）の処理シーケンスにおいて、Ｓ３０１にて、まず、情報処理システム１を開発するエンジニアは、学習装置３に対して複数の文書画像サンプル１４を入力する。具体的には、例えば、エンジニアは、複数の文書画像サンプル１４の所在等を示す情報を入力することにより、学習装置３に文書画像サンプル１４を取得させるための指示を行う。学習装置３は、エンジニアからの入力に基づいて、文書画像サンプル１４を取得する。

Ｓ３０１の後、Ｓ３０２にて、学習装置３は、まず、文書画像サンプル１４毎に文書画像サンプル１４の文書画像に含まれる文字列のデータを取得する。次に、取得した文字列データに基づく機械学習により学習済モデルを生成して複数の属性グループを生成する。さらに、学習済モデルに基づいて文字列分類器１５を生成する。ここで、生成される文字列分類器１５は、説明変数として文字列データに対応する特徴ベクトルが入力され、特徴ベクトルに対応する文字列データが属する属性グループを、生成した複数の属性グループのうちから推論して当該推論の結果を出力するものである。文字列分類器１５は、文字列データを特徴ベクトル化する言語モデルを内部に有し、説明変数として文字列データが入力されるものであってもよい。Ｓ３０２の後、Ｓ３０３にて、学習装置３は、情報処理装置４に対して、生成した文字列分類器１５を送信する。情報処理装置４は、学習装置３から送信された文字列分類器１５を取得して、情報処理装置４が有するストレージ２６５に文字列分類器１５を保存する。

なお、図３に示す（ａ）の処理シーケンスの詳細については、図４を用いて後述する。

図３に示す（ｂ）は、後述する図３に示す（ｄ）の処理シーケンスにおいて候補文字列のデータを抽出する際に用いる抽出対象グループを設定する処理シーケンスを示している。具体的には、図３に示す（ｂ）の処理シーケンスは、文書画像１３に含まれる１以上の文字列のうちのエンジニアからの操作入力により選択された文字列のデータが属する属性グループを抽出対象グループとして設定するものである。なお、図３に示す（ｂ）の処理シーケンスは、エンジニアにより、情報処理装置４の開発時に行われるものである。これに対して、後述する図３に示す（ｃ）の処理シーケンスは、エンドユーザ等のユーザ（以下、単に「エンドユーザ」という。）により、運用時に行われるものである。具体的には、図３に示す（ｂ）の処理シーケンスは、図３に示す（ｃ）の処理シーケンスにおいて行われる抽出対象グループの設定を、エンドユーザの代わりにエンジニアが予め開発時に行うものである。

図３に示す（ｂ）の処理シーケンスにおいて、Ｓ３０４にて、まず、エンジニアは、情報処理装置４に対して文書画像１３のデータを入力する。具体的には、例えば、エンジニアは、文書画像１３のデータの所在等を示す情報を入力することにより、情報処理装置４に文書画像１３のデータを取得させるための指示を行う。情報処理装置４は、エンジニアからの入力に基づいて、文書画像１３のデータを取得する。Ｓ３０４の後、Ｓ３０５にて、情報処理装置４は、まず、文書画像１３に含まれる１以上の文字列のデータを取得する。次に、取得した１以上の文字列データのうち、エンジニアが所望する文字列の指定を行うためのエンジニアからの操作入力を受け付ける。Ｓ３０５の後、Ｓ３０６にて、情報処理装置４は、まず、Ｓ３０３にて取得した文字列分類器１５を用いて、Ｓ３０５にて受け付けた操作入力により指定された文字列が属する属性グループを特定する。次に、特定した属性グループを抽出対象グループとして指定して、抽出対象グループを示す情報（以下「抽出対象グループ情報」という。）をストレージ２６５等に保存する。なお、図３に示す（ｂ）の処理シーケンスの詳細については、図５を用いて後述する。

図３に示す（ｃ）は、後述する図３に示す（ｄ）の処理シーケンスにおいて候補文字列のデータを抽出する際に用いる抽出対象グループを設定する処理シーケンスを示している。なお、図３に示す（ｃ）の処理シーケンスは、エンドユーザにより運用時に行われるものであって、前述した図３に示す（ｂ）の処理シーケンスと同様のものである。具体的には、図３に示す（ｃ）の処理シーケンスは、文書画像１３に含まれる１以上の文字列のうちのエンドユーザからの操作入力により選択された文字列が属する属性グループを抽出対象グループとして設定するものである。

図３に示す（ｃ）の処理シーケンスにおいて、Ｓ３０７にて、まず、エンドユーザは、例えば、画像入力装置２に原稿１１を載置して、画像入力装置２に対して原稿１１の読み取りを指示する。画像入力装置２は、当該指示を受けて、原稿１１を光学的に読み取って文書画像１３を取得する。Ｓ３０７の後、Ｓ３０８にて、まず、画像入力装置２は、Ｓ３０７にて取得した文書画像１３のデータを情報処理装置４に対して送信する。情報処理装置４は、画像入力装置２から送信された文書画像１３のデータを受信することにより文書画像１３を取得する。なお、情報処理装置４は、文書画像１３を取得できればよく、文書画像１３のデータの取得元は、画像入力装置２であっても、ストレージ２６５等の記憶装置等であってもよい。

Ｓ３０８の後、Ｓ３０９にて、情報処理装置４は、まず、Ｓ３０８にて取得した文書画像１３のデータについて、文書画像１３に含まれる１以上お文字列のデータを取得する。次に、取得した１以上の文字列データのうち、エンドユーザが所望する文字列の指定を行うためのエンドユーザからの操作入力を受け付ける。Ｓ３０９の後、Ｓ３１０にて、情報処理装置４は、まず、Ｓ３０３にて取得した文字列分類器１５を用いて、Ｓ３０９にて受け付けた操作入力により指定された文字列が属する属性グループを特定する。次に、特定した属性グループを抽出対象グループとして指定して、抽出対象グループ情報をストレージ２６５等に保存する。なお、図３に示す（ｃ）の処理シーケンスの詳細については、図５を用いて後述する。

図３に示す（ｄ）は、文書画像１３に含まれる１以上の文字列のデータのうちから、図３に示す（ｂ）又は（ｃ）の処理シーケンスにおいて予め設定された抽出対象グループに基づいて候補文字列のデータを抽出する処理シーケンスを示している。なお、図３に示す（ｄ）では、図３に示す（ｂ）又は（ｃ）の処理シーケンスの実行時に用いた文書画像１３のレイアウトとは異なるレイアウトの複数の文書画像１３について、繰り返して候補文字列のデータを抽出することができる。また、図３に示す（ｄ）では、文書画像１３に含まれる１以上の文字列について、文字列毎に当該文字列が候補文字列に該当するか否かを繰り返して判定することにより、１以上の候補文字列を抽出することができる。

図３に示す（ｄ）の処理シーケンスにおいて、Ｓ３１１にて、まず、エンドユーザは、まず、画像入力装置２に原稿１１を載置して、画像入力装置２に対して原稿１１の読み取りを指示する。画像入力装置２は、当該指示を受けて、原稿１１を光学的に読み取って文書画像１３を取得する。Ｓ３１１の後、Ｓ３１２にて、まず、画像入力装置２は、Ｓ３１１にて取得した文書画像１３のデータを情報処理装置４に対して送信する。情報処理装置４は、画像入力装置２から送信された文書画像１３のデータを受信することにより文書画像１３を取得する。なお、情報処理装置４は、文書画像１３を取得できればよく、文書画像１３のデータの取得元は、画像入力装置２であっても、ストレージ２６５等の記憶装置等であってもよい。

Ｓ３１２の後、Ｓ３１３にて、情報処理装置４は、まず、Ｓ３１２にて取得した文書画像１３のデータについて、文書画像１３に含まれる１以上の文字列のデータを取得する。次に、取得した１以上の文字列データのそれぞれについて、文字列データが属する属性グループを特定する。次に、文字列データ毎に特定した属性グループと、図３に示す（ｂ）又は（ｃ）の処理シーケンスにおいて予め設定された抽出対象グループとに基づいて、取得した文書画像１３に含まれる１以上の文字列のデータのうちから、候補文字列のデータを抽出する。Ｓ３１３の後、Ｓ３１４にて、情報処理装置４は、Ｓ３１３にて抽出した候補文字列のデータを、エンドユーザに対して視認可能に表示出力する。なお、図３に示す（ｄ）の処理シーケンスの詳細については、図６を用いて後述する。

＜文字列分類器の生成処理＞
図４を参照して、図３に示す（ａ）における学習装置３が文字列分類器１５を生成する処理の流れについて説明する。図４は、第１実施形態に係る学習装置３が文字列分類器１５を生成する処理の流れの一例を示すフローチャートである。なお、図４の説明において、記号「Ｓ」はステップを意味する。また、図４に示す各ステップの実行プログラムは、例えば、学習装置３のＲＯＭ２３２、ＲＡＭ２３４、又はストレージ２３５のいずれかに記憶され、学習装置３のＣＰＵ２３１又はＧＰＵ２３９によって実行される。

まず、Ｓ４０１にて、サンプル取得部３１は、複数の文書画像サンプル１４を取得する。具体的には、例えば、サンプル取得部３１は、人事、医療、又は経理等の事務部門において扱われる文書画像のデータを文書画像サンプル１４として取得する。ここで、サンプル取得部３１は、文書画像サンプル１４として、例えば、医療系の事務職部門にて扱われる文書画像、というように、ある特定の業務分野にて扱われる文書画像のデータのみを対象として取得してもよい。また、サンプル取得部３１は、人事、医療、及び経理の業務分野にて扱われる文書画像、というように、互いに異なる複数の業務分野にて扱われる文書画像のデータを対象として取得してもよい。

次に、Ｓ４０２にて、文字列取得部３２は、サンプル取得部３１により取得された複数の文書画像サンプル１４のそれぞれに含まれる文字列のデータを取得する。具体的には、例えば、文字列取得部３２は、複数の文書画像サンプル１４のそれぞれに対して、ＯＣＲ処理を実行し、ＯＣＲ処理により文字認識結果として得られた複数の文字列データを取得する。例えば、文字列取得部３２は、準定型文書の文書画像を構成するオブジェクトの単位を識別するブロックセレクションの技術を用いて、文書画像において間隔又は罫線等により区切られて配置された単語区切りの単位でＯＣＲ処理を実行する。なお、ブロックセレクションについては、周知の技術であるため説明を省略する。また、例えば、文字列取得部３２は、非定型文書の文書画像に含まれる文章に対して、周知の形態素解析の手法を用いて当該文章を単語毎に分割し、分割された単語の単位でＯＣＲ処理を実行してもよい。

次に、Ｓ４０３にて、ベクトル変換部３３は、文字列取得部３２により取得された複数の文字列データのそれぞれを特徴ベクトルに変換する。具体的には、例えば、ベクトル変換部３３は、Ｗｏｒｄ２Ｖｅｃ、ＧｌｏＶｅ、ｆａｓｔＴｅｘｔ、ＢＥＲＴ、ＸＬＮｅｔ、又はＡＬＢＥＲＴ等の周知の手法を用いて、文字列データを特徴ベクトルに変換する。例えば、ウィキペディア（登録商標）等のＷｅｂサイト等に登録された膨大な一般の文書に対して予め学習済のＢＥＲＴの言語モデルを用いる。これにより、当該文書に含まれる文字列毎に、文字列データを、７６８次元等の数値により表現される特徴ベクトルに変換できる。

図１１を参照して、文字列データと、文字列データに対応する特徴ベクトルとについて説明する。図１１は、文字列データ及び特徴ベクトルの一例を説明するための説明図である。具体的には、図１１（ａ）は、文書画像サンプル１４に含まれる文字列のデータを特徴ベクトルに変換する様子の一例を示す概念図である。図１１（ａ）に示すように、文書画像サンプル１４に含まれる複数の文字列のデータである文字列データ群１１０１は、例えば、学習済のＢＥＲＴの言語モデルを用いることにより、文字列データ毎に７６８次元の数値により表現される特徴ベクトルに変換できる。図１１（ａ）には、文字列データ群１１０１に対応する複数の特徴ベクトルとして、特徴ベクトル群１１０２が示されている。図１１（ｂ）については後述する。

Ｓ４０３の後、Ｓ４０４にて、学習部３４は、ベクトル変換部３３により変換された複数の特徴ベクトルを学習用データとする機械学習により、学習途中の学習モデルに学習させる。具体的には、学習部３４は、ベクトル変換部３３により変換された複数の特徴ベクトルを学習用データとして、機械学習によるクラスタリング手法を用いて特徴ベクトルを複数の属性グループにグループ化する。ここで、ベクトル変換部３３により生成された特徴ベクトル群１１０２は、一般に固有表現と呼ばれる、文字列データの概念的な特徴を示すものであって、人名若しくは地名等の固有名詞、又は、日付若しくは金額等の固有表現等の特徴を示すものである。学習部３４では、このような特徴を利用し、エンジニア等が手動で属性を示す情報を教師データとして与えることなく、教師なし学習の機械学習の１つであるクラスタリング手法を用いて、特徴ベクトルを自動で複数の属性グループにグループ化する。ここで、特徴ベクトル群をグループ化するクラスタリング手法としては、最短距離法若しくは最長距離法等の階層クラスタリング手法、又は、Ｋ－ｍｅａｎｓ若しくはＸ－ｍｅａｎｓ等の非階層クラスタリング手法等の周知の技術を利用できる。

図１１（ｂ）は、複数の特徴ベクトルを機械学習によるクラスタリング手法を用いて複数の属性グループにグループ化した様子の一例を示す概念図である。具体的には、図１１（ｂ）は、図１１（ａ）に示す７６８次元の数値により表現される特徴ベクトルを、ＰＣＡ又はｔ－ＳＮＥ等の周知の技術を用いて２次元平面に次元圧縮するように変換して可視化したものである。図１１（ｂ）に示すように、図１１（ａ）に示した文字列データの特徴ベクトル群１１０２に対して、上述のクラスタリング手法を用いることにより、自動で複数の属性グループ１１１１，１１１２，１１１３，１１１４にグループ化できる。ここで、図１１（ｂ）に示す属性グループ１１１１～１１１４のそれぞれは、例えば、病名、氏名、日付、及び文書名であると見て取れる。ただし、クラスタリング手法によるグループ化では、これらの属性グループ１１１１～１１１４のそれぞれが何を示すかの情報を持たず、属性グループを識別可能な情報（グループＩＤ）のみを持つ。

なお、学習部３４は、特徴ベクトルを学習用データとする機械学習により、学習途中の学習モデルに学習させるものとして説明したが、これに限定されるものではない。具体的には、例えば、学習モデルの設計段階において、学習モデル内にて文字列データを特徴ベクトル化する言語モデルを含めて学習モデルを予め設計し、学習部３４は、文字列データを学習用データとして学習モデルに機械学習による学習をさせてもよい。この場合、学習装置３は、ベクトル変換部３３が不要となる。

Ｓ４０４にて必要又は十分な学習が完了した後、Ｓ４０５にて、分類器生成部３５は、まず、学習部３４による学習結果である学習済モデルを取得する。次に、取得した学習済モデルに基づいて文字列分類器１５を生成する。ここで、文字列分類器１５とは、文字列データの特徴ベクトルを説明変数として受けて、上述のクラスタリング手法により生成された複数の属性グループのうち、入力された特徴ベクトルに対応する文字列がいずれの属性グループに属するかを特定するものである。具体的には、例えば、文字列分類器１５は、特定した属性グループを示す情報としてグループＩＤを出力する。

なお、分類器生成部３５は、例えば、文字列データと、当該文字列データに対する上述のクラスタリング手法により取得された属性グループとの組み合わせを教師データとして再利用し、教師あり学習による機械学習により再現するように実現してもよい。また、分類器生成部３５は、例えば、単に、上述のクラスタリング手法により取得された各属性グループの重心位置を算出し、重心位置が最も近い属性グループを最も類似度が高い属性グループとして判定するように実現してもよい。Ｓ４０５の後、Ｓ４０６にて、分類器出力部３６は、分類器生成部３５により生成された文字列分類器１５を情報処理装置４又は図１等には不図示の記憶装置に出力する。文字列分類器１５が文字列データを特徴ベクトル化する言語モデルを内部に有していない場合、分類器出力部３６は、文字列分類器１５に加えて、文字列データを文字列分類器１５に入力可能な特徴ベクトルに変換するための言語モデルを出力してもよい。以下、文字列分類器１５は、文字列データを特徴ベクトル化する言語モデルを内部に有していないものとして説明する。Ｓ４０６の後、学習装置３は、図４に示すフローチャートの処理を終了する。

＜抽出対象グループの設定処理＞
図５を参照して、図３に示す（ｂ）又は（ｃ）において、情報処理装置４が抽出対象グループを設定する処理の流れについて説明する。図５は、第１実施形態に係る情報処理装置４が抽出対象グループを設定する処理の流れの一例を示すフローチャートである。なお、図５の説明において、記号「Ｓ」はステップを意味する。また、図５に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１によって実行される。

まず、Ｓ５０１にて、分類器取得部４１は、文字列分類器１５を取得する。次に、Ｓ５０２にて、まず、処理画像取得部４２は、抽出対象グループを指定するために用いる（以下「抽出対象文書」という。）に対応する画像として文書画像１３を取得する。具体的には、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、文書画像１３のデータが予め記憶されたストレージ２６５等の記憶装置等から文書画像１３のデータを読み出すことにより、文書画像１３を取得してもよい。次に、文字列取得部４３は、まず、処理画像取得部４２により取得された文書画像１３に対してＯＣＲ処理等を実行することにより、文書画像１３に含まれる１以上の文字列のデータを取得する。文字列取得部４３は、次に、文書画像１３に含まれる１以上の文字列のデータのうちから、エンジニア又はエンドユーザ等のユーザによる操作入力により指定された文字列に対応する文字列データを取得する。

図１２を参照して、ユーザが文書画像１３に含まれる１以上の文字列のデータのうちから所望の文字列を指定するための設定画面について説明する。図１２は、第１実施形態に係る設定画面の一例を説明するための説明図である。具体的には、図１２（ａ）は、第１実施形態に係る処理画像取得部４２により取得された文書画像１３の一例を示す図である。図１２（ａ）には、文書画像１３を可視化した画像１２０１と、画像１２０１のうちの一部の画像領域を拡大して示した画像１２０３が示されている。また、画像１２０３には、項目を示す「患者氏名」の文字領域１２０２と、当該項目の項目値を示す固有名詞（人名）の「三輪千代里」の文字領域１２０４が示されている。

図１２（ｂ）は、第１実施形態に係る情報処理装置４が表示装置に出力して当該表示装置表示させる設定画面１２００の一例を示す図である。具体的には、図１２（ｂ）に示すプレビュー画面領域には、図１２（ａ）に示す文書画像１３を可視化した画像１２０１が表示されている。また、図１２（ｂ）に示すプレビュー画面領域に表示される画像１２０１には、項目を示す「患者氏名」の文字領域１２０２と、当該項目に対応する項目値である「三輪千代里」の文字領域１２０４が示されている。例えば、ユーザは、図１２（ｂ）示すにプレビュー画面領域に表示された画像１２０１において、所望の文字領域を選択する。当該選択は、例えば、文字領域に対してポインタ等による位置指定１２１０を行うことによりなされる。例えば、ユーザが「三輪千代里」に対応する文字領域１２０４を位置指定して選択した場合、文字領域１２０４に対応する画像１２１３が取得されて、「取得対象：」の項目値として表示されている。また、図１２（ｂ）に示す設定画面１２００には、画像１２１３に対するＯＣＲ処理の結果である文字列データが「患者氏名」を示す項目１２１１に対応する項目値１２１２として表示される。

なお、「患者氏名」を示す項目１２１１は、エンジニア等のユーザにより予め設定されたものである。項目１２１１は、エンドユーザ等のユーザにより項目を追加するための追加ボタン１２１５が押下されることにより追加設定されたものであってもよい。ユーザは、図１２（ｂ）の設定画面の項目値１２１２として表示されたＯＣＲ結果等の文字列データが誤っていると判断した場合に、編集ボタン１２１４を押下することにより、文字列データを修正することができる。ユーザは、文書画像１３に含まれる１以上の文字列のデータのうち、所望する全ての文字列データについての選択が完了したとき、図１２（ｂ）に示す設定画面における終了ボタン１２１６を押下することにより、その表示を終了させる。

Ｓ５０２の後、Ｓ５０３にて、まず、ベクトル変換部４４は、Ｓ５０２にてユーザにより選択された１以上の文字列データのそれぞれについて、文字列データを特徴ベクトルに変換する。次に、グループ特定部４５は、分類器取得部４１により取得された文字列分類器１５に、ベクトル変換部４４により変換された特徴ベクトルを入力して、当該特徴ベクトルに対応する文字列データが属する属性グループを特定する。Ｓ５０３の後、Ｓ５０４にて、抽出対象設定部４６は、グループ特定部４５により特定された属性グループを抽出対象グループとして設定し、抽出対象グループ情報をストレージ２６５等の記憶装置に出力して当該記憶装置に記憶させて保存する。ここで、抽出対象グループ情報とは、属性グループを識別可能な情報であって、例えば、グループＩＤ情報である。

Ｓ５０４の後、Ｓ５０５にて、例えば、文字列取得部４３は、エンジニア又はエンドユーザ等のユーザによる操作入力により、抽出対象として指定する文字列のデータの選択が終了されたか否かを判定する。具体的には、例えば、図１２（ｂ）示すにプレビュー画面領域に表示された画像１２０１において、新たな文字領域が選択されたとき、文字列取得部４３は、抽出対象として指定する文字列のデータの選択が終了されていないと判定する。抽出対象として指定する文字列のデータの選択が終了されていないと判定された場合、情報処理装置４は、Ｓ５０３の処理に戻ってＳ５０３からＳ５０５までの処理を実行して、新たに指定された文字列のデータに対応する抽出対象グループ情報を追加する。すなわち、当該場合、情報処理装置４は、抽出対象として指定する文字列のデータの選択が終了されたと判定されるまで、Ｓ５０３からＳ５０５までの処理を繰り返して実行して抽出対象グループ情報を追加する。

これに対して、例えば、文字列取得部４３は、図１２（ｂ）に示す設定画面における終了ボタン１２１６が押下されたとき、抽出対象として指定する文字列のデータの選択が終了されたと判定する。抽出対象として指定する文字列のデータの選択が終了されたと判定された場合、情報処理装置４は、図５に示すフローチャートの処理を終了し、処理画像取得部４２にて新たな文書画像１３が取得されるまで待機する。処理画像取得部４２にて新たな文書画像１３が取得された場合、情報処理装置４は、図５に示すフローチャートの処理を再度実行する。なお、この場合、情報処理装置４は、図５に示すフローチャートの処理のうち、Ｓ５０１の処理を省略して、Ｓ５０２以降の処理のみを実行してもよい。

＜候補文字列の抽出処理＞
図６を参照して、図３に示す（ｄ）の処理シーケンスにおいて、情報処理装置４が文書画像１３に含まれる１以上の文字列のデータうちから候補文字列のデータを抽出する処理の流れについて説明する。図６は、第１実施形態に係る情報処理装置４が文書画像１３に含まれる１以上の文字列のデータうちから候補文字列のデータを抽出する処理の流れの一例を示すフローチャートである。なお、図６の説明において、記号「Ｓ」はステップを意味する。また、図６に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１によって実行される。

まず、Ｓ６０１にて、分類器取得部４１は、文字列分類器１５を取得する。次に、Ｓ６０２にて、まず、候補抽出部４７は、図５に示すＳ５０４にて保存された抽出対象グループ情報を取得する。なお、Ｓ５０４にて保存された抽出対象グループ情報が複数存在する場合、候補抽出部４７は、複数の抽出対象グループ情報を取得する。次に、Ｓ６０３にて、まず、処理画像取得部４２は、候補文字列のデータを抽出するための文書（以下「処理対象文書」という。）に対応する画像として文書画像１３を取得する。具体的には、例えば、処理画像取得部４２は、画像入力装置２により送信された文書画像１３のデータを受信することにより文書画像１３を取得する。処理画像取得部４２は、文書画像１３のデータが予め記憶されたストレージ２６５等の記憶装置等から文書画像１３のデータを読み出すことにより、文書画像１３を取得してもよい。次に、文字列取得部４３は、まず、処理画像取得部４２により取得された文書画像１３に対してＯＣＲ処理等を実行することにより、文書画像１３に含まれる１以上の文字列のデータを取得する。

Ｓ６０３の後、Ｓ６０４にて、まず、ベクトル変換部４４は、Ｓ６０３にて文字列取得部４３により取得された１以上の文字列データのそれぞれについて、文字列データを特徴ベクトルに変換する。次に、グループ特定部４５は、まず、Ｓ６０１にて分類器取得部４１により取得された文字列分類器１５に、ベクトル変換部４４により変換された特徴ベクトルを文字列データ毎に入力する。次に、文字列分類器１５が出力する結果を当該入力毎に受けて、当該特徴ベクトルに対応する文字列データが属する属性グループを文字列データ毎に特定する。以下、グループ特定部４５により特定された属性グループを特定属性グループと称して説明する。

Ｓ６０４の後、Ｓ６０５にて、候補抽出部４７は、Ｓ６０３にて文字列取得部４３により取得された１以上の文字列データのうちの１つを選択する。Ｓ６０５の後、Ｓ６０６にて、候補抽出部４７は、Ｓ６０２にて取得された抽出対象グループ情報が示す特定属性グループと、Ｓ６０５にて選択した文字列データに対応する特定属性グループとが同一であるか否かを判定する。なお、Ｓ６０２にて取得された抽出対象グループ情報が複数存在する場合、候補抽出部４７は、複数の抽出対象グループ情報のそれぞれが示す抽出対象グループのうちの少なくともいずれかと特定属性グループとが同一であるか否かを判定する。Ｓ６０６にて抽出対象グループと特定属性グループとが同一であると判定された場合、Ｓ６０７にて、候補抽出部４７は、Ｓ６０５にて選択した文字列データを候補文字列のデータとして抽出する。Ｓ６０７の後、または、Ｓ６０６にて抽出対象グループと特定属性グループとが同一でないと判定された場合、情報処理装置４は、Ｓ６０８の処理を実行する。

Ｓ６０８では、候補抽出部４７は、Ｓ６０３にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されたか否かを判定する。Ｓ６０８にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されていないと判定された場合、情報処理装置４は、Ｓ６０５の処理に戻って、Ｓ６０５からＳ６０６までを繰り返し実行する。なお、この場合、Ｓ６０５にて、候補抽出部４７は、Ｓ６０３にて文字列取得部４３により取得された１以上の文字列データのうち、これまでに選択されていない文字列データを選択する。Ｓ６０８にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されたと判定された場合、Ｓ６０９にて、候補出力部４８は、候補文字列のデータを抽出結果として出力する。具体的には、例えば、候補出力部４８は、当該抽出結果を確認画面に含める表示画像を生成し、当該表示画像を表示装置に表示出力する。

図１３を参照して、候補出力部４８により出力される確認画面１３００について説明する。図１３は、第１実施形態に係る候補出力部４８が出力する確認画面１３００の一例を説明するための説明図である。具体的には、図１３（ａ）は、第１実施形態に係る処理画像取得部４２により取得された文書画像１３の一例を示す図である。図１３（ａ）には、文書画像１３を可視化した文書画像１３０１と、画像１３０１のうちの一部の画像領域を拡大して示した画像１３０５，１３０６，１３０７が示されている。また、画像１３０５，１３０６，１３０７には、項目値を示す固有名詞（人名）の「成瀬愛理」の文字領域１３０２、「片山雅夫」の文字領域１３０３、及び「花岡伸也」の文字領域１３０４が示されている。

図１３（ｂ）は、第１実施形態に係る情報処理装置４が有する候補出力部４８により出力されて表示装置に表示される確認画面１３００の一例を示す図である。具体的には、図１３（ｂ）に示すプレビュー画面領域には、図１３（ａ）に示す文書画像１３０１が表示されている。また、図１３（ｂ）に示すプレビュー画面領域に表示される文書画像１３０１には、項目を示す「患者氏名」に対応する候補文字列として文字領域１３０２，１３０３，１３０４が確認可能な状態で表示されている。また、文字領域１３０２，１３０３，１３０４に対応する画像１３１４，１３１５，１３１６が「候補一覧：」の項目値として確認可能な状態で表示されている。ここで、抽出対象の項目である「患者氏名」は、図１２（ｂ）を用いて前述した通り、エンジニア又はエンドユーザ等のユーザによって予め設定されたものである。

図１３（ｂ）に示す確認画面１３００において、例えば、ユーザは、操作入力を行うことにより、表示されている候補一覧の画像１３１４、１３１５、１３１６のうちのいずれかを選択する。当該選択は、ポインタ等による位置指定１３１０によりなされる。例えば、ユーザが操作入力により画像１３１６を選択すると、選択された画像１３１６をＯＣＲ処理することにより得た文字列データ１３１２が表示される。ユーザは、選択する画像１３１４、１３１５、１３１６を変更することにより、出力させる文字列データ１２を切り替えることができる。

また、図１３（ｂ）に示す確認画面１３００において、エンドユーザは、表示されたＯＣＲ処理の結果である表示された文字列データ１３１２が誤っていた場合に、「編集」ボタン１３１３を押下することにより文字列データ１３１２を修正することができる。また、ユーザによる「次へ」ボタン１３１７の押下を受け付けると、次に取得した文書画像１３に含まれる１以上の文字列のデータのうちの候補文字列のデータについて確認するための確認画面に遷移する。さらに、ユーザによる「終了」ボタン１３１８の押下を受け付けると、文書画像１３についての候補文字列の出力を完了し、確認画面が終了される。

以上のように、情報処理装置４によれば、準定型文書又は非定型文書等の所定のレイアウトとは異なるレイアウトの文書の画像から、ユーザが所望する文字列データを所定の項目に対応する項目値の候補としてとして抽出できる。すなわち、抽出対象文書を用いて指定した属性グループ（抽出対象グループ）と同一の属性グループに属する文字列データを処理対象文書から抽出し、抽出した１つ以上の文字列データを候補文字列のデータとして抽出できる。ここで、第１実施形態において、文字列の表記の規則性を利用しないていない。そのため、文字列の表記に規則性がある金額、日付、又は口座番号等の項目の項目値だけでなく、文字列の表記に規則性が無い氏名、住所、職業、又は続柄等の項目に対応する項目値の候補についても候補文字列として抽出できる。

また、第１実施形態に係る情報処理装置４によれば、予め項目値の辞書をデータベースとして用意する必要が無いため、辞書を保守又は管理するためのコストを抑制できる。さらに、第１実施形態は、項目名に基づいて項目値を抽出する手法とは異なり、項目値が属する属性グループに基づいて項目値を直接的に抽出する方法であるため、「氏名」又は「おなまえ」等の表記の異なる項目名の影響を受けずに項目値を抽出できる。

［第２実施形態］
図７及び図１４を参照して、第２実施形態に係る情報処理システム１（以下、単に「情報処理システム１」という。）について説明する。情報処理システム１の構成は、図１に一例として示す第１実施形態に係る情報処理システム１の構成と同様に、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続される。

第１実施形態に係る情報処理装置４は、以下のようなものであった。まず、抽出対象文書に対応する文書画像１３を用いて抽出対象グループを予め設定する。さらに、処理対象文書に対応する文章画像１３に含まれる１以上の文字列のデータのうちから、抽出対象グループと同一の属性グループに属する文字列データを候補文字列のデータとして抽出する。これに対して、第２実施形態に係る情報処理装置４は、抽出対象グループと同一の属性グループに属する文字列データだけでなく、抽出対象グループの近傍に位置する属性グループに属する文字列データについても候補文字列のデータとして抽出するものである。以下、第２実施形態に係る情報処理装置４を単に「情報処理装置４」と表記して説明する。また、以下、抽出対象グループの近傍に位置する属性グループを「近傍グループ」と称して説明する。

情報処理装置４の構成は、図２Ｃに一例として示す第１実施形態に係る情報処理装置４の構成と同様である。すなわち、情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，属性グループ特定部４５、抽出対象設定部４６、候補抽出部４７、及び候補出力部４８を有する。ただし、第２実施形態に係る候補抽出部４７（以下、単に「候補抽出部４７」という。）は、第１実施形態に係る候補抽出部４７とは異なる機能を有するものである。候補抽出部４７の詳細については後述する。

また、情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。具体的には、例えば、情報処理装置４は、図２Ｃ（ｂ）に一例として示すコンピュータにより構成される。なお、第２実施形態に係る画像入力装置２（以下、単に「画像入力装置２」という。）及び学習装置３（以下、単に「学習装置３」という。）は、第１実施形態に係る画像入力装置２及び学習装置３と同様であるため説明を省略する。

＜候補文字列の抽出処理＞
図７を参照して、図３に示す（ｄ）の処理シーケンスにおいて、情報処理装置４が文書画像１３に含まれる文字列に対応する候補文字列のデータを抽出する処理の流れについて説明する。図７は、第２実施形態に係る情報処理装置４が文書画像１３に含まれる文字列に対応する候補文字列のデータを抽出する処理の流れの一例を示すフローチャートである。なお、図７の説明において、記号「Ｓ」はステップを意味する。また、図７に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、又はストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１によって実行される。また、図７において、図６と同一の符号を付したものについては説明を省略する。

まず、情報処理装置４は、Ｓ６０１及びＳ６０２の処理を順次実行する。Ｓ６０２の後、Ｓ７０１にて、候補抽出部４７は、Ｓ６０２にて取得した抽出対象グループ情報に加えて、抽出対象グループの近傍に位置する属性グループ（近傍グループ）の情報（以下「近傍グループ情報」という。）を取得する。ここで、近傍グループに該当するか否かの判定は、例えば、各属性グループの重心位置を算出し、Ｓ６０２にて取得した抽出対象グループの重心位置からの距離が予め定められた閾値内の重心位置を持つ属性グループを近傍グループに該当すると判定すればよい。

図１４を参照して、近傍グループについて説明する。図１４（ａ）及び図１４（ｂ）は、いずれも、図１１（ｂ）と同様に、複数の特徴ベクトルを機械学習によるクラスタリング手法を用いて複数の属性グループにグループ化した様子の一例を示した概念図である。図１４（ａ）及び図１４（ｂ）には、複数の属性グループ１４０１，１４０２，１４０３，１４０４，１４０５が示されている。具体的には、図１４（ａ）は、図１１（ｂ）に示す単一の属性グループ１１１１が、２つの属性グループ１４０１，１４０２に分かれてグループ化された場合を示したものである。なお、図１４（ａ）及び図１４（ｂ）において、★により示した位置は、対応する属性グループの重心位置を示している。

ここで、図１４（ａ）及び図１４（ｂ）において、属性グループ１４０２の重心位置から属性グループ１４０１の重心位置までの距離が閾値の範囲内であるものとして説明する。また、同様に、属性グループ１４０１及び属性グループ１４０２の重心位置から属性グループ１４０３，１４０４，１４０５の重心位置までの距離は、いずれも、閾値の範囲外であるものとして説明する。すなわち、属性グループ１４０１及び属性グループ１４０２は、互いにそれぞれの近傍グループとなる。例えば、抽出対象グループが属性グループ１４０２である場合、候補抽出部４７は、抽出対象グループである属性グループ１４０２の情報に加えて、属性グループ１４０２の近傍に位置する属性グループ１４０１の情報を近傍グループ情報として取得する。結果として、図１４（ｂ）に示すように、候補抽出部４７は、属性グループ１４０１又は属性グループ１４０２が抽出対象グループである場合に、属性グループ１４０１と属性グループ１４０２とを合わせた属性グループ１４１０の情報を取得することができる。したがって、例えば、クラスタリング手法によるグループ化においてグループの分割の粒度が細か過ぎる場合であっても、近傍グループを考慮することにより、抽出対象グループと同一の属性グループに属さない文字列データの抽出漏れを抑制することができる。

Ｓ７０１の後、情報処理装置４は、Ｓ６０３からＳ６０６までの処理を順次実行する。Ｓ６０６にて抽出対象グループと特定属性グループとが同一であると判定された場合、Ｓ７０２にて、候補抽出部４７は、Ｓ６０５にて選択した文字列データを、上位候補の候補文字列のデータとして抽出する。Ｓ７０２の後、又は、Ｓ６０６にて抽出対象グループと特定属性グループとが同一でないと判定された場合、Ｓ７０３にて、候補抽出部４７は、近傍グループと特定属性グループとが同一であるか否かを判定する。Ｓ７０３にて近傍グループと特定属性グループとが同一であると判定された場合、Ｓ７０４にて、候補抽出部４７は、Ｓ６０５にて選択した文字列データを、下位候補の候補文字列のデータとして抽出する。なお、Ｓ６０６にて抽出対象グループと特定属性グループとが同一でないと判定され、Ｓ７０３にて近傍グループと特定属性グループとが同一であると判定された場合、下位候補の候補文字列のデータのみが取得されることになる。この場合、例えば、候補抽出部４７は、下位候補の候補文字列のデータを上位候補に繰り上げてもよい。Ｓ７０３の後、又は、Ｓ７０２にて近傍グループと特定属性グループとが同一でないと判定された場合、情報処理装置４は、Ｓ６０８の処理を実行する。

Ｓ６０８にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されていないと判定された場合、情報処理装置４は、Ｓ６０５の処理に戻って、Ｓ６０５からＳ６０６までを繰り返し実行する。なお、この場合、Ｓ６０５にて、候補抽出部４７は、Ｓ６０３にて文字列取得部４３により取得された１以上の文字列データのうち、これまでに選択されていない文字列データを選択する。Ｓ６０８にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されたと判定された場合、Ｓ６０９にて、候補出力部４８は、候補文字列のデータを抽出結果として出力する。具体的には、例えば、候補出力部４８は、当該抽出結果を確認画面に含める表示画像を生成し、当該表示画像を表示装置に表示出力する。より具体的には、例えば、候補出力部４８は、当該抽出結果を確認画面に含めた表示画像を生成する際に、上位候補の候補文字列のデータが下位候補の候補文字列のデータより上位に表示されるように表示画像を生成する。

以上のように、第２実施形態に係る情報処理装置４によれば、設定された抽出対象グループと同一の属性グループに属する文字列データだけでなく、近傍グループと同一の属性グループに属する文字列データについても候補文字列として抽出できる。すなわち、クラスタリング手法によりグループ化された属性グループの粒度が細かく、所望の抽出対象グループを指定できなかった場合であっても、近傍グループと同一の属性グループに属する文字列データを候補文字列のデータとして抽出できる。したがって、当該場合であっても、候補文字列のデータの抽出漏れを抑制することができる。

［第３実施形態］
図８及び図９並びに図１５及び図１６を参照して、第３実施形態に係る情報処理システム１（以下、単に「情報処理システム１」という。）について説明する。情報処理システム１の構成は、図１に一例として示す第１実施形態に係る情報処理システム１の構成とに、画像入力装置２、学習装置３、及び情報処理装置４を有する。また、画像入力装置２、学習装置３、及び情報処理装置４は、ネットワーク５を介して、互いに通信可能に接続される。

第１及び第２実施形態に係る情報処理装置４は、言語モデルによる文字列の言語的な特徴（以下「言語特徴」という。）のみを用いて、候補文字列のデータを抽出するものであった。これに対して、第３実施形態に係る情報処理装置４（以下、単に「情報処理装置４」という。）は、言語特徴と、文字列の画像的な特徴（以下「画像特徴」という。）とを用いて、類似度の高い候補文字列のデータの優先度を上げて優先して抽出するものである。情報処理装置４は、類似度の低い候補文字列のデータの優先度を下げて抽出してもよい。ここで、画像特徴とは、項目値である文字列と、文書画像１３における項目値の文字領域の周辺に現れる項目名等の文字列との間の共起性等の関係性等である。画像特徴は、当該関係性に限定されるものではなく、文書画像１３における項目値の文字列の位置を示す位置座標等の相対的な配置情報、又は項目値の文字列の絶対的な大きさを示すサイズ情報等であってもよい。

情報処理装置４の構成は、図２Ｃ（ａ）に一例として示す第１実施形態に係る情報処理装置４の構成に加えて、図２Ｃ（ａ）には不図示の評価部を備える。すなわち、情報処理装置４は、分類器取得部４１，処理画像取得部４２、文字列取得部４３、ベクトル変換部４４，属性グループ特定部４５、抽出対象設定部４６、候補抽出部４７、候補出力部４８、及び評価部を有する。評価部の詳細については後述する。

また、情報処理装置４において機能する各部の処理は、情報処理装置４に内蔵されたＡＳＩＣ若しくはＦＰＧＡ等のハードウェア、又は、ＲＡＭ等のメモリと、ＣＰＵ等のプロセッサとを用いたソフトウエアによってなされる。具体的には、例えば、情報処理装置４は、図２Ｃ（ｂ）に一例として示すコンピュータにより構成される。なお、第３実施形態に係る画像入力装置２（以下、単に「画像入力装置２」という。）及び学習装置３（以下、単に「学習装置３」という。）は、第１又は第２実施形態に係る画像入力装置２及び学習装置３と同様であるため説明を省略する。

＜候補文字列の抽出処理＞
図８を参照して、図３に示す（ｄ）の処理シーケンスにおいて、情報処理装置４が文書画像１３に含まれる文字列に対応する候補文字列のデータを抽出する処理の流れについて説明する。図８は、第３実施形態に係る情報処理装置４が文書画像１３に含まれる文字列に対応する候補文字列のデータを抽出する処理の流れの一例を示すフローチャートである。なお、図８の説明において、記号「Ｓ」はステップを意味する。また、図８に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１によって実行される。また、図８において、図６を用いて説明したと同一の符号を付したものについては説明を省略する。

まず、情報処理装置４は、Ｓ６０１からＳ６０８までの処理を順次実行する。Ｓ６０８にて文字列取得部４３により取得された１以上の文字列データのうちの全てがＳ６０５にて選択されたと判定された場合、Ｓ８０１にて、評価部は、Ｓ６０７にて抽出された候補文字列のデータについての画像特徴を用いて妥当性を評価する。なお、Ｓ８０１の処理の詳細については、図９を参照して後述する。Ｓ８０１の後、情報処理装置４は、Ｓ６０９の処理を実行する。具体的には、Ｓ６０９にて、候補出力部４８は、Ｓ８０８での評価結果に基づいて、評価部により妥当であると判定された候補文字列のデータを抽出結果として出力する。

＜候補文字列の評価処理＞
図９を参照して、図８に示すＳ８０１の処理について説明する。図９は、図８に示すＳ８０１の処理の流れの一例を示すフローチャートである。なお、図９の説明において、記号「Ｓ」はステップを意味する。また、図９に示す各ステップの実行プログラムは、例えば、情報処理装置４のＲＯＭ２６２、ＲＡＭ２６４、ストレージ２６５のいずれかに記憶され、情報処理装置４のＣＰＵ２６１によって実行される。まず、Ｓ９０１にて、評価部は、Ｓ６０７にて抽出された候補文字列のデータを候補抽出部４７から取得する。

Ｓ９０１の後、Ｓ９０２にて、評価部は、Ｓ９０１にて取得した候補文字列のデータと、当該候補文字列に対応する文書画像１３における文字領域の周辺に位置する文字列のデータとの間の共起性等の関係性を評価するか否かを判定する。ここで、当該評価に関する設定は、当該評価の要否を示すフラグ等により定義されるものであって、初期状態において予め設定されたものであってもよく、図３に示すＳ３０６又はＳ３１０等にて、ユーザにより設定又は変更されたものあってもよい。Ｓ９０２にて文字列データ同士の関係性を評価すると判定された場合、評価部は、Ｓ９０３からＳ９０５までの処理を順次実行し、Ｓ９０２にて文字列データ同士の関係性を評価しないと判定された場合、評価部は、Ｓ９０６の処理を実行する。Ｓ９０２にて文字列データ同士の関係性を評価すると判定された場合、まず、評価部は、Ｓ９０３にて、抽出対象文書に対応する文書画像１３においてユーザにより指定された文字列に対応する文字領域の周辺に位置する文字列のデータを取得する。

図１５を参照して、文書画像１３における文字領域の周辺に位置する文字列について説明する。図１５（ａ）は、図１２（ａ）に示す抽出対象文書に対応する文書画像１３において指定された文字列の文字領域の周辺に位置する文字列の一例を説明するための説明図である。図１５（ｂ）については後述する。図１５（ａ）に示すように、項目値に対応する文字領域１２０２の周辺に位置する文字領域１５０１に対応する文字列のデータを取得する。ここで、文字領域１５０１は一例であって、Ｓ９０３にて取得される文字列データは、予め、ユーザに指定された項目値に対する項目名が出現する可能性の高い、項目値の文字領域の左側又は上側等に位置する文字列のみであってもよい。また、Ｓ９０３にて取得される文字列データは、項目値の文字領域に隣接する最大５個等の複数の文字列等であってもよい。

Ｓ９０３の後、Ｓ９０４にて、評価部は、Ｓ９０３と同様の手法により、処理対象文書に対応する文書画像１３における候補文字列の文字領域の周辺に位置する文字列を取得する。図１５（ｂ）は、図１３（ａ）に示す処理対象文書に対応する文書画像１３における候補文字列の文字領域の周辺に位置する文字列の一例を説明するための説明図である。図１５（ｂ）に示すように、候補文字列の文字領域１３０２，１３０３，１３０４のそれぞれの周辺に位置する文字領域１５０２，１５０３，１５０４，１５０５のそれぞれに対応する文字列のデータを取得する。ここで、文字領域１５０２，１５０３，１５０４，１５０５は一例であって、これに限定されるものではない。例えば、Ｓ９０４にて取得される文字列は、予め、項目値に対する項目名が出現する可能性の高い、項目値の文字領域の左側又は上側等に位置する文字列のみであってもよく、項目値の文字領域に隣接する最大５個等の複数の文字列等であってもよい。

Ｓ９０４の後、Ｓ９０５にて、評価部は、Ｓ９０３及びＳ９０４にて取得した文字列同士の関係性を比較して評価し、当該文字列同士の類似度を示す類似度スコア（以下「第１類似度スコア」という。）を算出する。ここで、第１類似度スコアの算出方法は、例えば、項目値に対応する項目名と考えられる文字列を、項目値と同様のベクトル化の手法を用いて、特徴ベクトルに変換し、変換した特徴ベクトルのコサイン類似度の最大値を第１類似度スコアとすればよい。Ｓ９０５の後、評価部は、Ｓ９０６の処理を実行する。

Ｓ９０６にて、評価部は、文書画像１３全体の画像領域に対する項目値に対応する文字領域の相対的な配置を示す配置情報を評価するか否かを判定する。なお、配置情報は、書画像１３全体の画像領域における予め定められた点を原点とし、主走査方向をＸ軸、副走査方向をＹ軸とする位置座標等からなる。ここで、当該評価に関する設定は、当該評価の要否を示すフラグ等により定義されるものであって、初期状態において予め設定されたものであってもよく、図３に示すＳ３０６又はＳ３１０等にて、ユーザにより設定又は変更されたものあってもよい。Ｓ９０６にて配置情報を評価すると判定された場合、評価部は、Ｓ９０７からＳ９０９までの処理を順次実行し、Ｓ９０６にて配置情報を評価しないと判定された場合、評価部は、Ｓ９１０の処理を順次実行する。

Ｓ９０６にて配置情報を評価すると判定された場合、Ｓ９０７にて、評価部は、抽出対象文書に対応する文書画像１３においてユーザにより指定された文字列に対応する文字領域の配置情報を取得する。具体的には、評価部は、文書画像１３全体の画像領域に対する当該文字領域の相対的な配置を示す配置情報を取得する。より具体的には、例えば、評価部は、文書画像１３の幅（例えばＸ軸方向の長さ）及び高さ（例えばＹ軸方向の長さ）により示される画像サイズに対する、当該文字領域の相対的な位置を示す情報を配置情報として算出して取得する。Ｓ９０７の後、Ｓ９０８にて、評価部は、Ｓ９０７の処理と同様の手法を用いて、処理対象文書に対応する文書画像１３に含まれる候補文字列についての、当該文書画像１３の画像領域に対する配置情報を取得する。

図１６（ａ）を参照して、文書画像１３全体の画像領域に対する文書画像１３に含まれる文字列に対応する文字領域の相対的な配置について説明する。図１６（ａ）は、抽出対象文書に対応する文書画像１２０１及び処理対象文書に対応する文書画像１３０１のそれぞれに含まれる文字列に対応する文字領域の、文書画像１３の画像領域に対する配置の一例について説明するための説明図である。図１６（ａ）に示すように、評価部は、抽出対象文書に対応する文章画像１２０１全体の画像領域に対する、文章画像１２０１においてユーザにより指定された文字列１６０１に対応する文字領域の配置情報（Ｘ０，Ｙ０）を取得する。同様に、評価部は、処理対象文書に対応する文章画像１３０１全体の画像領域に対する、文章画像１３０１に含まれる候補文字列１６０２，１６０３，１６０４に対応する文字領域の配置情報（Ｘ１，Ｙ１），（Ｘ２，Ｙ２），（Ｘ３，Ｙ３）を取得する。

Ｓ９０８の後、Ｓ９０９にて、評価部は、Ｓ９０７及びＳ９０８にて取得した配置情報同士の類似度を比較して評価し、類似度スコア（以下「第２類似度スコア」という。）を算出する。ここで、第２類似度スコアは、例えば、以下のような方法により算出する。まず、Ｓ９０７にて取得した配置情報を、Ｘ軸及びＹ軸において、文書画像１２０１の画像サイズで除することにより第１の位置座標ベクトルを算出する。次に、Ｓ９０８にて取得した配置情報を、Ｘ軸及びＹ軸において、文書画像１３０１の画像サイズで除することにより第２の位置座標ベクトルを算出する。さらに、第１の位置座標ベクトルと第２の位置座標ベクトルとのコサイン類似度を第２類似度スコアとして算出する。Ｓ９０９の後、評価部は、Ｓ９１０の処理を実行する。

Ｓ９１０にて、評価部は、項目値に対応する文字領域の絶対的なサイズを示す情報（以下「サイズ情報」という。）を評価するか否かを判定する。なお、サイズ情報とは、例えば、文字領域の幅、すなわち、Ｘ軸方向の長さを示す情報、及び、文字領域の高さ、すなわち、Ｙ軸方向の長さを示す情報からなる。ここで、当該評価に関する設定は、当該評価の要否を示すフラグ等により定義されるものであって、初期状態において予め設定されたものであってもよく、図３に示すＳ３０６又はＳ３１０等にて、ユーザにより設定又は変更されたものあってもよい。Ｓ９１０にてサイズ情報を評価すると判断された場合、評価部は、Ｓ９１１からＳ９１３までの処理を実行し、Ｓ９１０にてサイズ情報を評価しないと判断された場合、評価部は、Ｓ９１４の処理を実行する。

Ｓ９１０にてサイズ情報を評価すると判断された場合、Ｓ９１１にて、評価部は、抽出対象文書に対応する文書画像１２０１においてユーザにより指定された文字列に対応する文字領域のサイズ情報を取得する。具体的には、例えば、評価部は、周知のブロックセレクション技術を用いて特定された文字領域についての、主走査方向（Ｘ軸方向）及び副走査方向（Ｙ軸方向）のそれぞれにおける画素数を取得する。Ｓ９１１の後、Ｓ９１２にて、評価部は、Ｓ９１１の処理と同様の手法を用いて処理対象文書に対応する文書画像１２０１に含まれる候補文字列に対応する文字領域のサイズ情報を取得する。

図１６（ｂ）を参照して、文字領域のサイズについて説明する。図１６（ｂ）は、Ｓ９１１又はＳ９１２にて取得した、文字領域のサイズの一例を説明するための説明図である。図１６（ｂ）に示すように、評価部は、抽出対象文書に対応する文書画像１２０１にてユーザにより指定された文字列１６０１の文字領域における、主走査方向の画素数１６３１及び副走査方向の画素数１６２１を取得する。同様に、評価部は処理対象文書に対応する文書画像１３０１に含まれる候補文字列１６０２，１６０３，１６０４に対応する文字領域における、主走査方向の画素数１６３２，１６３３，１６３４及び副走査方向の画素数１６２２，１６２３，１６２４を取得する。

Ｓ９１２の後、Ｓ９１３にて、評価部は、Ｓ９１１にて取得したサイズ情報とＳ９１２にて取得した各サイズ情報との間の類似度を比較して評価し、類似度スコア（以下「第３類似度スコア」という。）を算出する。ここで、第３類似度スコアの算出方法は、例えば、文字列のサイズ同士が一致した場合を１とし、文字列のサイズ同士の差が大きくなるにつれて０に近づくような、負の相関を持つ関数により定義した値を算出するようにすればよい。Ｓ９１３の後、評価部は、Ｓ９１４の処理を実行する。

Ｓ９１４にて、評価部は、Ｓ９０５、Ｓ９０９、及びＳ９１３にて算出した第１、第２、及び第３類似度スコアのうちの少なくともいずれを用いて候補文字列の妥当性を評価する。以下、評価部は、Ｓ第１、第２、及び第３類似度スコアを算出し、且つ、第１、第２、及び第３類似度スコアの全てを用いて候補文字列の妥当性を評価するものとして説明する。ここで、第１、第２、及び第３類似度スコアのそれぞれは、互いに異なる尺度により算出された評価値である。そのため、評価部は、例えば、各類似度スコアに、対応する重みづけの係数を乗じた合計値（＝係数１×第１類似度スコア＋係数２×第２類似度スコア＋係数３×第３類似度スコア）を算出し、当該合計値を用いて、類似度を評価してもよい。

Ｓ９１４の後、Ｓ９１５にて、評価部は、各候補文字列に対応する類似度が予め定められた閾値未満であるか否かを判定する。Ｓ９１５にて類似度が閾値未満であると判定された場合、Ｓ９１６にて、評価部は、類似度が閾値未満であると判定された候補文字列について、Ｓ６０７にて抽出された候補文字列のうちから除外する。評価部は、類似度が閾値未満であると判定された候補文字列について、その優先順位を下げるように設定を行ってもよい。Ｓ９１６の後、又は、Ｓ９１５にて類似度が閾値未満でないと判定された場合、評価部は、図９に示すフローチャートの処理を終了する。

以上のように、第３実施形態に係る情報処理装置４によれば、言語特徴だけでは候補文字列の絞り込みが困難な場合であっても、言語特徴と画像特徴とを組み合わせることにより、類似度が高い結果を優先するように候補文字列の絞り込みを行うことができる。

［その他の実施形態］
本開示は、上述の実施形態の１以上の機能を実現するプログラムをネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

なお、本開示はその開示の範囲内において、各実施形態の自由な組み合わせ、各実施形態の任意の構成要素の変形、又は、各実施形態において任意の構成要素の省略が可能である。

４情報処理装置
４５属性グループ特定部
４７候補抽出部
４８候補出力部

Claims

処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる１以上の候補文字列を抽出する情報処理装置であって、
予め定められた複数の属性グループのうちの予め設定された抽出対象の属性グループの情報を取得する抽出対象取得手段と、
前記複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、前記複数の属性グループの中のから前記複数の文字列のそれぞれが属する属性グループを特定し、前記複数の文字列の中から、前記特定した属性グループが前記抽出対象の属性グループと同一となった文字列を候補文字列として抽出する候補抽出手段と、
前記候補抽出手段により抽出された前記候補文字列を出力する候補出力手段と、
を有すること
を特徴とする情報処理装置。
文字列のデータを特徴ベクトルに変換するベクトル変換手段、
を更に有し、
前記候補抽出手段は、前記ベクトル変換手段により変換された前記複数の文字列のそれぞれに対応する前記特徴ベクトルに基づいて、前記複数の文字列のそれぞれが属する前記属性グループを特定すること
を特徴する請求項１に記載の情報処理装置。
前記候補抽出手段は、入力された文字列が前記複数の属性グループの中のいずれかに分類する分類器を用いて、前記複数の文字列のそれぞれが属する前記属性グループを特定すること
を特徴する請求項１又は請求項２に記載の情報処理装置。
前記分類器は、前記処理対象の文書画像とは異なる複数の文書画像に含まれる文字列のそれぞれを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものであること
を特徴する請求項３に記載の情報処理装置。
前記分類器は、前記複数の文書画像に含まれる文字列のそれぞれを特徴ベクトルに変換し、変換した複数の前記特徴ベクトルを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものでものであること
を特徴する請求項３に記載の情報処理装置。
前記候補抽出手段は、
前記抽出対象の属性グループの近傍に位置する属性グループである近傍グループを示す情報を取得し、
前記特定した属性グループが前記抽出対象の属性グループと同一となった前記文字列に加えて、前記複数の文字列の中から、前記特定した属性グループが前記近傍グループと同一となった文字列についても前記候補文字列として抽出すること
を特徴する請求項１乃至５のいずれか１項に記載の情報処理装置。
前記候補抽出手段は、前記複数の属性グループのそれぞれの重心位置を算出し、前記複数の属性グループの中から、前記抽出対象の属性グループの重心位置から予め定められた閾値の範囲内に重心位置を有する持つ属性グループを前記近傍グループとすること
を特徴する請求項６に記載の情報処理装置。
前記抽出対象の属性グループを設定する抽出対象設定手段、
を更に有し、
前記抽出対象設定手段は、前記処理対象の文書画像とは異なる文書画像に含まれる１以上の第２の文字列の中から指定された文字列に対応する前記特徴ベクトルに基づいて、前記複数の属性グループの中から前記指定された文字列が属する属性グループを特定し、前記特定した前記指定された文字列が属する属性グループを前記抽出対象の属性グループとして設定し、
抽出対象取得手段は、前記抽出対象設定手段により設定された前記抽出対象の属性グループを示す情報を取得すること
を特徴する請求項１乃至７のいずれか１項に記載の情報処理装置。
文字列のデータを特徴ベクトルに変換するベクトル変換手段、
を更に有し、
前記ベクトル変換手段は、前記抽出対象の属性グループを設定するために用いる文書画像に含まれる前記１以上の第２の文字列のうちの指定された前記第２の文字列を前記特徴ベクトルに変換し、
前記抽出対象設定手段は、前記ベクトル変換手段により変換された前記指定された文字列に対応する前記特徴ベクトルに基づいて、前記指定された文字列が属する前記属性グループを特定すること
を特徴する請求項８に記載の情報処理装置。
前記抽出対象設定手段は、入力された文字列が前記複数の属性グループの中のいずれかに分類する分類器を用いて、前記指定された文字列が属する前記属性グループを特定すること
を特徴する請求項８又は請求項９に記載の情報処理装置。
前記分類器は、前記処理対象の文書画像とは異なる複数の文書画像に含まれる文字列のそれぞれを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものであること
を特徴する請求項１０に記載の情報処理装置。
前記分類器は、前記複数の文書画像に含まれる文字列のそれぞれを特徴ベクトルに変換し、変換した複数の前記特徴ベクトルを学習用データとする機械学習により生成された学習済モデルに基づいて生成されたものでものであること
を特徴する請求項１０に記載の情報処理装置。
前記候補抽出手段により抽出された１以上の前記候補文字列のそれぞれの画像特徴と、前記指定された文字列の画像特徴とを比較して、文字列同士の類似度を算出する評価手段
を更に有し、
前記評価手段は、算出した前記類似度が高い前記候補文字列の優先度を上げ、
前記候補出力手段は、前記候補抽出手段により抽出された１以上の前記候補文字列のうち、優先度の高い前記候補文字列を優先して出力すること
を特徴する請求項８乃至１２のいずれか１項に記載の情報処理装置。
前記評価手段は、前記類似度が低い前記候補文字列の優先度を下げること
を特徴する請求項１３に記載の情報処理装置。
前記評価手段は、
前記候補抽出手段により抽出された１以上の前記候補文字列のそれぞれについて、前記候補文字列と、前記複数の文字列の中の、前記処理対象の文書画像における前記候補文字列の周辺に位置する文字列との間の第１の関係性を示す情報を取得し、
前記指定された文字列と、前記処理対象の文書画像とは異なる文書画像に含まれる文字列の中の、前記処理対象の文書画像とは異なる文書画像における前記指定された文字列の周辺に位置する文字列との間の第２の関係性を示す情報を取得し、
前記候補文字列毎に、前記第１の関係性と前記第２の関係性とを比較して、文字列同士の類似度を第１の類似度として算出し、
前記第１の類似度に基づいて前記候補文字列のそれぞれの優先度を変更すること
を特徴する請求項１３又は請求項１４に記載の情報処理装置。
前記評価手段は、
前記候補抽出手段により抽出された１以上の前記候補文字列のそれぞれについて、前記処理対象の文書画像における前記候補文字列の位置を示す情報を取得し、
前記処理対象の文書画像とは異なる文書画像における前記指定された文字列の位置を示す情報を取得し、
前記候補文字列毎に、前記候補文字列の位置と前記指定された第２の文字列の位置とを比較して、文字列同士の類似度を第２の類似度として算出し、
前記第２の類似度に基づいて前記候補文字列のそれぞれの優先度を変更すること
を特徴する請求項１３乃至１５のいずれか１項に記載の情報処理装置。
前記評価手段は、
前記候補抽出手段により抽出された１以上の前記候補文字列のそれぞれについて、前記候補文字列のサイズを示す情報を取得し、
前記指定された文字列のサイズを示す情報を取得し、
前記候補文字列毎に、前記候補文字列のサイズと前記指定された第２の文字列のサイズとを比較して、文字列同士の類似度を第３の類似度として算出し、
前記第３の類似度に基づいて前記候補文字列のそれぞれの優先度を変更すること
を特徴する請求項１３乃至１６のいずれか１項に記載の情報処理装置。
コンピュータを、請求項１乃至１７のいずれか１項に記載の情報処理装置を構成する各手段として動作させるためのプログラム。
処理対象の文書画像に含まれる複数の文字列の中から、予め定められた項目に対応する項目値の候補となる１以上の候補文字列を抽出する情報処理方法であって、
予め定められた複数の属性グループのうちの予め設定された抽出対象の属性グループの情報を取得する抽出対象取得工程と、
前記複数の文字列のそれぞれに対応する特徴ベクトルに基づいて、前記複数の属性グループの中のから前記複数の文字列のそれぞれが属する属性グループを特定し、前記複数の文字列の中から、前記特定した属性グループが前記抽出対象の属性グループと同一となった文字列を候補文字列として抽出する候補抽出工程と、
前記候補抽出工程により抽出された前記候補文字列を出力する候補出力工程と、
を有すること
を特徴とする情報処理方法。