JP7430219B2

JP7430219B2 - 文書情報構造化装置、文書情報構造化方法およびプログラム

Info

Publication number: JP7430219B2
Application number: JP2022099538A
Authority: JP
Inventors: 通隆茶山; 卓弥平子; 義博松尾
Original assignee: NTT Advanced Technology Corp
Current assignee: NTT Advanced Technology Corp
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-02-09
Anticipated expiration: 2042-06-21
Also published as: JP2024000690A

Description

本発明は、文書情報構造化装置、文書情報構造化方法およびプログラムに関する。

従来、企業等における契約や給付・支払等の業務では、一定の形式を持った書面にてその内容を記述し、取引や合意形成を進めることが一般的である。例えば契約時には、申込書や見積書、注文書、注文請書等の書面にて契約の申込や承諾の内容を取り交わし、給付・支払時には、納品書や請求書等の書面が取り交わされる。
近年ではコンピューターネットワークを通じて書面の取り交わしを行うことも多く、したがって書面は紙に印刷されたものとは限らず、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）やオフィスソフトウェアのファイルにて電子的に授受されることも多い。

また、企業での契約管理や会計処理はコンピューター上で進める場合が多く、そのためには、これら書面から金額や取引日、取引相手などの情報を抜き取り、会計ソフトウェアや表計算ソフトウェアへ投入する工程が必要となる。ソフトウェアへの投入は、作業者が目視で転記する場合も多いが、文字認識ソフトウェアを用いて書面画像の読み取りを自動化する技術も知られている。
書面画像の読み取りに関して、身分証明書の読み取りにおいて、あらかじめ定められたレイアウト情報を用いて姓名等の記載場所を特定し、文字認識ソフトウェアで読み取る技術が知られている（例えば、特許文献１参照）。また、書面画像の読み取りに関して、読取対象エリアをユーザーが指定することで指定箇所を文字認識し、帳票から項目を読み取る技術が知られている（例えば、特許文献２参照）。また、書面画像の読み取りに関して、項目名をリストアップした辞書を用いることで項目名を抽出し、その近傍から項目値を読み取る技術が知られている（例えば、特許文献３参照）。

特開２０１６－１７３７１０号公報特開２０１５－９０６２３号公報特開２０２０－１６９４６号公報

従来技術では、項目の記載箇所を指定することでコンピューター処理に必要な情報を抜き取っており、帳票の様式が固定されている場合やバリエーションが限定的な場合には効率的な自動処理が期待できるものの、多様な様式の帳票を対象とする場合にはそのバリエーションひとつひとつを事前登録するか、もしくは帳票読み取りの都度位置を指定する必要があり、効率的な処理の妨げとなっていた。
また、特許文献３のように項目名辞書を手掛かりに抽出する場合は、項目名が存在せず項目値のみが書かれた項目については読取りが困難であり、対象項目が限定的であった。

本発明はこのような課題に鑑みてなされたもので、その目的とするところは、個別の様式の登録を必要とせず、帳票に関する幅広い業務の効率的な自動処理を実現できる文書情報構造化装置、文書情報構造化方法およびプログラムを提供することにある。

（１）本発明の一態様は、電子化文書を入力する文書入力部と、前記文書入力部が入力した前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出する文字情報抽出部と、前記文字情報抽出部が抽出した前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出する項目値抽出部と、前記項目値抽出部が抽出した前記項目値の種別を推定する項目値種別判定部と、前記項目値抽出部が抽出した前記項目値と前記項目値種別判定部が推定した前記項目値の前記種別とを含む記述項目情報を出力する記述項目情報出力部と、を備え、前記項目値抽出部は、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する文書情報構造化装置である。
（２）本発明の一態様は、上記（１）に記載の文書情報構造化装置において、前記記述項目情報に含まれる前記項目値の前記種別を表現している文字列と前記文字列の位置とのいずれか一方又は両方を前記電子化文書から抽出する項目名抽出部をさらに備える。
（３）本発明の一態様は、上記（１）又は上記（２）に記載の文書情報構造化装置において、文字列同士を連結するかどうかを判定する文字列連結判定部をさらに備える。
（４）本発明の一態様は、上記（１）から上記（３）のいずれか一項に記載の文書情報構造化装置において、文字列を分割するかどうかを判定する文字列分割判定部をさらに備える。
（５）本発明の一態様は、上記（１）から上記（４）のいずれか一項に記載の文書情報構造化装置において、前記電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、前記文字情報判定部による前記文字情報が含まれているかどうかの判定結果に基づいて、前記文字情報を用いるか、画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部と、をさらに備える。

（６）本発明の一態様は、コンピューターが実行する文書情報構造化方法であって、電子化文書を入力するステップと、前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、前記項目値の種別を推定するステップと、前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、を有し、前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、文書情報構造化方法である。

（７）本発明の一態様は、コンピューターに、電子化文書を入力するステップと、前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、前記項目値の種別を推定するステップと、前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、を実行させ、前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、プログラムである。

本発明によれば、個別の様式の登録を必要とせず、帳票に関する幅広い業務の効率的な自動処理を実現できる。

本実施形態に係る文書情報構造化装置１０の機能構成例を表す概略ブロック図である。本実施形態に係る文書情報構造化装置１０の動作の一例を示すフローチャートである。本実施形態に係る文書情報構造化装置１０の動作の一例を示すフローチャートである。実施形態の変形例に係る文書情報構造化装置１０ａの機能構成例を表す概略ブロック図である。実施形態の変形例に係る文書情報構造化装置１０ａの動作の一例を示すフローチャートである。実施形態の変形例に係る文書情報構造化装置１０ａの動作の一例を示すフローチャートである。入力される文書（書面）の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。

次に、本実施形態に係る文書情報構造化装置、文書情報構造化方法およびプログラムを、図面を参照しつつ説明する。以下で説明する実施形態は一例に過ぎず、本発明が適用される実施形態は、以下の実施形態に限られない。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「ＸＸに基づいて」とは、「少なくともＸＸに基づく」ことを意味し、ＸＸに加えて別の要素に基づく場合も含む。また、「ＸＸに基づいて」とは、ＸＸを直接に用いる場合に限定されず、ＸＸに対して演算や加工が行われたものに基づく場合も含む。「ＸＸ」は、任意の要素（例えば、任意の情報）である。

（実施形態）
（文書情報構造化装置）
以下、文書情報構造化装置の一実施形態を詳細に説明する。
図１は、本実施形態に係る文書情報構造化装置１０の機能構成例を表す概略ブロック図である。
文書情報構造化装置１０は、帳票などの文書に関する業務の支援を行う。ここで、文書とは、例えば、見積書、契約書、融資等の申し込み書類や公募案件への応募書類、社内の稟議書等のある程度記載内容が定められている文書であればどのような文書であってもよい。以下の説明では、文書として、見積書を例に説明する。文書情報構造化装置１０が行う帳票などの文書に関する業務の支援とは、文書の内容等を顧客が確認を行う際のサポートを意味する。内容の一例は、一又は複数の項目と、一又は複数の項目の各々の内容（項目値）、項目値の種別である。

文書情報構造化装置１０には、電子化された文書（以下「電子化文書」という）が入力される。文書情報構造化装置１０は、入力された電子化文書から、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定し、抽出した項目値と推定した項目値の種別とを含む記述項目情報を出力する。

以下、文書情報構造化装置１０について、説明する。
文書情報構造化装置１０は、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ、仮想マシン（ＶＭ：ＶｉｒｔｕａｌＭａｃｈｉｎｅ）又は産業用コンピューター等の装置によって実現される。文書情報構造化装置１０は、例えば制御部１００及び記憶部１５０を備える。

制御部１００は、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェアプロセッサが記憶部１５０に格納されたコンピュータプログラム（ソフトウェア）を実行することにより実現される。制御部１００は、文書入力部１１０、文字情報抽出部１２０、記述項目構造化部１３０および記述項目情報出力部１４０として機能する。
また、これらの機能部のうち一部または全部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）やＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などのハードウェア（回路部；ｃｉｒｃｕｉｔｒｙを含む）によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。
記憶部１５０は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）やフラッシュメモリ、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などにより実現される。

文書入力部１１０は、構造化対象となる一又は複数の電子文書を入力する。本実施形態では、文書入力部１１０が、構造化対象となる電子文書を１つ入力する場合を例に説明する。文書入力部１１０は、自装置の記憶部１５０に記憶された文書を入力してもよいし、文書情報構造化装置１０にアップロードされた文書を入力してもよいし、ネットワークを介して他の装置から送信された電子文書を入力してもよいし、ネットワーククローラーによって収集された電子文書を入力してもよいし、ＦＡＸソフトウェアによって受信された電子文書を入力してもよいし、ユーザーによりキーボード入力された電子文書を入力してもよいし、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリやＳＤカードなどの外部記録媒体に記憶された文書を入力してもよい。

文字情報抽出部１２０は、文書入力部１１０に入力された電子文書から文字情報を抽出する。具体的には、文字情報抽出部１２０は、特定の条件に従って電子化文書から、文書中の文字列と文字列の位置とを抽出する。
文字情報を抽出する処理について説明する。
文字情報抽出部１２０は、文書入力部１１０によって入力された電子文書を取得し、取得した電子文書から文字情報を抽出する。文字情報には、文字列とその文字列の紙面上での座標とが含まれる。ここで文字列と記述するが、長さ１の文字列、すなわち単独の文字であっても構わない。座標は文字に外接する矩形で表現される。ただし、座標が文字に外接する矩形で表現されることに限られず、矩形以外の形状で表現されてもよい。以下、文字列とその文字列の紙面上の座標とを含む文字情報を文字ブロックとも呼ぶ。

文字情報抽出部１２０は、入力された電子文書から文字ブロックの集合を抽出する。具体的には、文字情報抽出部１２０は、入力された電子文書の文書表現種別を判定する。ここで文書表現種別とは、印刷形式の文書を得るための電子情報の内部表現タイプを指す。電子情報の内部表現タイプの一例は、マークアップ言語文書、レイアウト文書、ビットマップ画像文書である。文字情報抽出部１２０は、例えばファイルの拡張子やバイナリファイル先頭のマジックナンバーなどからファイル種類を判定することで、文書表現種別を判定する。

文字情報抽出部１２０は、電子文書の文書表現種別がマークアップ言語文書であった場合には、その電子文書をレンダリングし、印刷した際の座標を計算し出力する。ここでマークアップ言語文書とは、ＨＴＭＬ（ＨｙｐｅｒｔｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）などのマークアップ言語で記述されている文書である。さらに、本実施形態では、ワードプロセッサや表計算ソフトウェア、プレゼンテーションソフトウェアなどのソフトウェアの内部表現形式で記述されている文書も、その内部表現を紙面上に配置することで最終紙面が得られるという観点から、マークアップ言語で記述されている文書に含むこととする。
文字情報抽出部１２０は、入力された電子文書の文書表現種別がマークアップ言語であると判定した場合、その電子文書をレンダリングして印刷紙面上の配置を決定し、文字列とその文字列の座標とを取得する。

文字情報抽出部１２０は、ワープロ等のレンダリング機能を用いることができる場合には、同機能を用いてレンダリングを実施するようにしてもよい。文字情報抽出部１２０は、レンダリング機能がワープロ等でＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）として用意されていない場合には、例えばＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）形式で出力し、ＰＤＦ形式で出力した結果から文字列とその文字列の座標とを抽出するようにしてもよい。文字情報抽出部１２０は、ワープロ等の機能を用いずにマークアップを解釈して配置を算出してもよい。文字情報抽出部１２０は、マークアップを解釈して配置を算出する場合に、例えば表計算ソフトウェアの文書であれば、各セルのサイズ等から計算して文字列とその文字列の座標とを求めるようにしてもよい。

文字情報抽出部１２０は、入力された電子文書の文書表現種別がＨＴＭＬ形式であると判定した場合、ブラウザ機能を用いてその電子文書をレンダリングして印刷紙面上の配置を決定してもよいし、マークアップ言語を解釈して配置を算出してもよい。
文字情報抽出部１２０は、電子文書の文書表現種別がレイアウト文書であった場合には、その電子文書から文字列とその文字列の座標とを抽出する。ここでレイアウト文書とは、ＰＤＦやＰｏｓｔＳｃｒｉｐｔのように、内部表現として文字とその文字の座標とを表現した文書を指す。レイアウト文書は、文書中に文字とその文字の座標情報とが記述されているため、文字情報抽出部１２０、記述されている文字とその文字の座標情報をそのまま取り出して出力する。

文字情報抽出部１２０は、電子文書の文書表現種別がビットマップ画像文書であった場合には、光学文字読み取り装置等で用いられる文字認識ソフトウェアを用いて、その電子文書から文字とその文字の座標とを抽出する。ここでビットマップ画像文書とは、スキャナーから入力されたビットマップ画像や、写真撮影された画像データ、コンピューター画面をキャプチャした画像などを指す。ＰＤＦ形式のファイルのうち、内部に文字情報や座標情報を含まずにビットマップ画像を格納している文書もビットマップ画像文書に該当する。文字情報抽出部１２０は、文字認識ソフトウェアから得られる文字とその文字の座標情報とを取得する。

文字情報抽出部１２０は、電子文書にビットマップ画像と、文字とその文字の座標情報との双方を含むと判定した場合には、文字とその文字の座標情報を優先してレイアウト文書として取り扱ってもよいし、ビットマップ画像を優先してビットマップ画像文書として取り扱ってもよい。
また、文字情報抽出部１２０は、電子文書にビットマップ画像と、文字とその文字の座標情報との双方を含むと判定した場合には、その電子文書から文字とその文字の座標とを抽出し、文字認識ソフトウェアを用いてその電子文書から文字とその文字の座標とを抽出し、抽出された文字数に応じていずれかを選択するようにしてもよい。

例えば、文字情報抽出部１２０は、その電子文書から抽出した文字数と文字認識ソフトウェアを用いてその電子文書から抽出した文字数との比が閾値を超えている場合にはその電子文書から抽出した文字とその文字の座標情報とを優先し、超えていない場合には文字認識ソフトウェアを用いてその電子文書から抽出した文字とその文字の座標情報とを優先するようにしてもよい。ここで閾値の一例は、０．９である。

項目情報を構造化する処理について説明する。
記述項目構造化部１３０は、文字情報抽出部１２０から電子文書中の文字ブロックの集合を取得する。記述項目構造化部１３０は、取得した文字ブロックの集合から、電子文書に記述された記述項目情報を生成する。記述項目情報は、少なくとも項目種別と項目値との組み合わせから構成される。
具体的には、記述項目構造化部１３０は、取得した文字ブロックの集合から、項目値を指し示す文字ブロックを抽出する。記述項目構造化部１３０は、文字ブロックやその文字ブロックの周辺の文字ブロックに含まれるキーワードによるルール判定を行うことによって文字ブロックが項目値を指し示すかどうかを判定する。ここで、周辺の文字ブロックの範囲は、当該文字ブロックとの相対位置関係で定義するようにしてもよい。例えば、周辺の文字ブロックは、当該文字ブロックと同一行のものを範囲としてもよいし、当該文字ブロックと上下左右のブロック間距離が閾値以下のものを範囲としてもよい。

また、記述項目構造化部１３０は、ルール判定の代わりに又はルール判定とともに教師データを用いた機械学習で文字ブロックが項目値を指し示すかどうかを判定するようにしてもよい。教師データは人手で準備したものであってもよい。機械学習で文字ブロックが項目値を指し示すかどうかを判定することを実現する場合には、当該文字ブロックおよび周辺の文字ブロックに含まれる文字に基づいて、文字や文字ｎ－ｇｒａｍ、単語、単語ｎ－ｇｒａｍ、ニューラルネットや特異値分解等の統計処理によって生成した概念ベクトルなどを特徴量としてもよい。
また、機械学習で文字ブロックが項目値を指し示すかどうかを判定することを実現する場合には、当該文字ブロックおよび周辺の文字ブロックに含まれる文字に加えて当該文字ブロックの紙面上の位置をルール条件や機械学習の特徴量としてもよい。機械学習の場合は、文字ブロックの紙面上の位置の特徴によって例えば、紙面上右上の文字ブロックは書面発行日の項目値を指し示す可能性があるなどの法則が学習されることが期待できる。

記述項目構造化部１３０は、抽出した項目値を指し示す文字ブロックに基づいて、項目種別を判定する。項目種別とは書面で項目値が持つ意味分類である。項目種別は、例えば書面が見積書の場合であれば、［契約件名］、［見積金額］、［見積有効期限］などが該当する。
記述項目構造化部１３０は、項目値を指し示すかどうかを判定する処理と同様に、当該文字ブロックや周辺文字ブロックに含まれる文字や当該文字ブロックの紙面上の位置を手掛かりに、ルールや機械学習で判定する。記述項目構造化部１３０は、例えば周辺文字ブロックに「有効」や「期限」といった単語があることを手掛かりとすることで当該文字ブロックが［見積有効期限］であると判定する。

記述項目情報出力部１４０は、記述項目構造化部１３０から記述項目情報や記述項目に関連する文字ブロック情報を取得する。記述項目情報出力部１４０は、取得した記述項目情報や記述項目に関連する文字ブロック情報を出力する。例えば、記述項目情報出力部１４０は、取得した記述項目情報や記述項目に関連する文字ブロック情報を、表示部（図示なし）に表示するようにしてもよいし、ファイルに出力するようにしてもよいし、ネットワークに出力してもよい。

図２は、本実施形態に係る文書情報構造化装置１０の動作の一例を示すフローチャートである。
文書入力部１１０は、構造化対象となる一又は複数の電子文書を入力する（ステップＳ１－１）。

文字情報抽出部１２０は、文字ブロック抽出処理を行う（ステップＳ２－１）。例えば、文字情報抽出部１２０は、文書入力部１１０に入力された電子文書から文字ブロックの集合を抽出する。

図３は、本実施形態に係る文書情報構造化装置１０の動作の一例を示すフローチャートである。図３は、文字情報抽出部１２０が行う文字ブロック抽出処理の詳細を示す。
文字情報抽出部１２０は、文書表現種別判定処理を行う（ステップＳ２－１１）。例えば、文字情報抽出部１２０は、文書入力部１１０に入力された電子文書の文書表現種別を判定する。ここでは、一例として、文字情報抽出部１２０が、電子文書の文書表現種別として、マークアップ言語文書と、レイアウト文書と、ビットマップ画像文書とのいずれかを判定する場合について説明する。

文字情報抽出部１２０は、電子文書の文書表現種別がマークアップ言語文書であると判定した場合には、レンダリング抽出処理を行う（ステップＳ２－１２）。例えば、文字情報抽出部１２０は、その電子文書をレンダリングし、印刷した際の座標を計算し出力する。

文字情報抽出部１２０は、電子文書の文書表現種別がレイアウト文書であると判定した場合には、文字座標抽出処理を行う（ステップＳ２－１３）。例えば、文字情報抽出部１２０は、その電子文書から文字とその文字の座標とを抽出する。

文字情報抽出部１２０は、電子文書の文書表現種別がビットマップ画像文書であると判定した場合には、文字認識抽出処理を行う（ステップＳ２－１４）。例えば、文字情報抽出部１２０は、文字認識ソフトウェアを用いて、その電子文書から文字とその文字の座標とを抽出する。図２に戻り説明を続ける。

記述項目構造化部１３０は、項目値抽出処理を行う（ステップＳ３－１）。例えば、記述項目構造化部１３０は、文字情報抽出部１２０が出力した文字ブロックの集合を取得し、取得した文字ブロックの集合から、項目値を指し示す文字ブロックを抽出する。

記述項目構造化部１３０は、項目種別判定処理を行う（ステップＳ４－１）。例えば、記述項目構造化部１３０は、項目値抽出処理で抽出した項目値の項目種別を判定する。

記述項目情報出力部１４０は、記述項目構造化部１３０が出力した記述項目情報や記述項目に関連する文字ブロック情報を取得し、取得した記述項目情報や記述項目に関連する文字ブロック情報を出力する（ステップＳ５－１）。

前述した実施形態では、一例として、文書入力部１１０が、構造化対象となる電子文書を１つ入力する場合について説明したが、この例に限られない。例えば、文書入力部１１０が、構造化対象となる電子文書を複数入力するようにしてもよい。
前述した実施形態では、文書入力部１１０が、構造化対象となる一又は複数の電子文書を入力する場合について説明したがこの例に限られない。例えば、仮に構造化対象の文書が物理的な紙書面であれば、文書入力部１１０は、スキャナーで構造化対象の文書を電子文書に変換して入力するようにしてもよい。具体的には、電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、文字情報判定部による文字情報が含まれているかどうかの判定結果に基づいて、文字情報を用いるか、スキャナーなどの画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部とをさらに備えるようにしてもよい。

前述した実施形態では、文字情報抽出部１２０が、入力された電子文書の文書表現種別を判定する場合について説明したが、この例に限られない。例えば、文字情報抽出部１２０は、入力される電子文書の文書表現種別を固定してシステムを構成してもよい。このように構成することによって、文字情報抽出部１２０は、入力された電子文書の文書表現種別を判定する機能を備えることなく、固定された文書表現種別に合致した処理のみを実装できる。例えば、表計算ソフトウェアの文書のみを対象にしたシステムであれば、文字情報抽出部１２０は、レンダリング抽出処理のみを実装すればよいため、軽量なシステムとすることができる。

また、例えば、文字情報抽出部１２０は、入力された電子文書の文書表現種別が、マークアップ言語文書やレイアウト文書であると判定した場合であっても、いったんその電子文書のビットマップ画像を取得し、取得したビットマップ画像から、文字認識ソフトウェアを用いて文字列とその文字列の座標を取得するようにしてもよい。このように構成することで、入力された電子文書の文書表現種別を判定する処理を省略できるため、シンプルなシステムにできる。

前述した実施形態では、記述項目構造化部１３０が、項目値かどうかの判定と項目種別の判定とを別個に行う場合について説明したが、この例に限られない。例えば、記述項目構造化部１３０は、項目値かどうかの判定と項目種別の判定とを同時に（並行して）行うようにしてもよい。この場合、文字ブロックが項目値以外であることを示す［その他］が項目種別に加えられてもよい。記述項目構造化部１３０は、各文字ブロックの項目種別を判定し、項目種別が［その他］の場合には当該文字ブロックは項目値ではないと判定するようにしてもよい。このように構成することで、同等の記述項目情報が生成できる。

前述した実施形態において、記述項目構造化部１３０は、辞書やルールを用いて項目名を抽出してもよいし、機械学習で項目名を抽出してもよい。記述項目構造化部１３０は、辞書やルールを用いて項目名を抽出する場合、例えば、着目している項目値が数字とカンマから構成されている場合には、その項目値の左側に存在する文字ブロックで「金額」という単語を含む文字ブロックを項目名とする、などのルールを用意する。このようなルールにより「合計金額」や「請求金額」と書かれた文字ブロックが項目名として抽出されることが期待できる。

前述した実施形態において、記述項目構造化部１３０は、機械学習で項目名を抽出する場合、項目値の文字ブロックと項目名候補の文字ブロックとの相対的位置関係や、項目値に含まれる文字や単語、項目名候補ブロックに含まれる文字や単語などを特徴量として教師データから学習するようにしてもよい。
前述した実施形態において、記述項目構造化部１３０は、項目種別を判定する処理の後に項目値の項目名を指し示す文字ブロックを抽出する処理を行ってもよいし、並行して行ってもよいし、項目値の項目名を指し示す文字ブロックを抽出する処理の後に項目種別を判定する処理を行ってもよい。

前述した実施形態において、記述項目構造化部１３０は、項目種別を判定する処理の後に項目値の項目名を指し示す文字ブロックを抽出する処理を行う場合には、項目値の項目名を指し示す文字ブロックを抽出する処理を行う場合に用いる機械学習の特徴量に項目種別を判定する処理で推定された項目種別を加えるようにしてもよい。
前述した実施形態において、記述項目構造化部１３０は、項目値の項目名を指し示す文字ブロックを抽出する処理の後に項目種別を判定する処理を行う場合には、抽出した項目名を指し示す文字ブロックの特徴を、項目種別を判定する処理を行う場合に用いる機械学習の特徴量に加えるようにしてもよい。

本実施形態に係る文書情報構造化装置１０によれば、文書情報構造化装置１０は、電子化文書を入力する文書入力部１１０と、文書入力部１１０が入力した電子化文書から、文書中の文字列と文字列の位置とを抽出する文字情報抽出部１２０と、文字情報抽出部１２０が抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出する項目値抽出部としての記述項目構造化部１３０と、項目値抽出部が抽出した項目値の種別を推定する項目値種別判定部としての記述項目構造化部１３０と、項目値抽出部が抽出した項目値と項目値種別判定部が推定した項目値の種別とを含む記述項目情報を出力する記述項目情報出力部１４０とを備える。
このように構成することによって、文書情報構造化装置１０は、電子化文書から、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できるため、個別の様式の登録を必要とせず、帳票に関する幅広い業務の効率的な自動処理を実現できる。

また、文書情報構造化装置１０において、電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、文字情報判定部による文字情報が含まれているかどうかの判定結果に基づいて、文字情報を用いるか、画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部とをさらに備える。
このように構成することによって、文字情報判定部によって電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定できる。文字情報判定部によって文字情報が含まれている場合には文字情報切り替え部によって文字情報を用いるように切り替え、文字情報が含まれず画像情報である場合にはその画像情報を文字読み取り装置にて文字情報化して用いるように切り替えることができるため、文書入力部１１０は、構造化対象の文書を電子文書に変換して入力することができる。
なお、文字情報判定部による文字情報の有無の自動判定が効果を持つのは例えば下記のケースである。
（１）ＰＤＦ文書のように、内部に文字情報を持っているものと、文字情報を持たず画像で表現されたものがある場合、そのどちらからでも情報を抽出できる。
（２）（１）の場合、文字情報をいったん画像化して、常に文字認識をするという構成も考えられるが、その場合は文字認識誤りの可能性があるため、精度が低下するおそれがある。
（３）文書形式によっては画像と文字情報がページ中に混在している場合もある。例えば表の部分は別ソフトで作成して、ワープロソフトでその画像を貼りつけたような場合である。このような場合には、例えば文字情報から得られた文字数と画像情報から得られた文字数の比に基づいて判定することで、文字情報を用いる場合と、画像情報を文字読み取り装置にて文字情報化して用いる場合とのどちらを優先すべきかを自動切換えできる。

（実施形態の変形例）
図４は、実施形態の変形例に係る文書情報構造化装置１０ａの機能構成例を表す概略ブロック図である。
文書情報構造化装置１０ａは、帳票などの文書に関する業務の支援を行う。文書情報構造化装置１０ａは、電子化文書が入力され、入力された電子化文書から、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定し、抽出した項目値について、項目名を指し示す文字ブロックを抽出し、抽出した項目値と推定した項目値の種別とを含む記述項目情報を出力する。

以下、文書情報構造化装置１０ａについて、説明する。
文書情報構造化装置１０ａは、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ、仮想マシン又は産業用コンピューター等の装置によって実現される。文書情報構造化装置１０ａは、例えば制御部１００ａ及び記憶部１５０を備える。
制御部１００ａは、例えば、ＣＰＵなどのハードウェアプロセッサが記憶部１５０に格納されたコンピュータプログラム（ソフトウェア）を実行することにより実現される。制御部１００ａは、文書入力部１１０、文字情報抽出部１２０、記述項目構造化部１３０、記述項目情報出力部１４０、文字列連結判定部１６０ａ、文字列分割判定部１７０ａ及び項目名抽出部１８０ａとして機能する。
また、これらの機能部のうち一部または全部は、ＬＳＩやＡＳＩＣ、ＦＰＧＡ、ＧＰＵなどのハードウェア（回路部；ｃｉｒｃｕｉｔｒｙを含む）によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。

文字列連結判定部１６０ａは、文字情報抽出部１２０から複数の文字ブロックを取得し、取得した複数の文字ブロックに基づいて、各文字ブロックを連結するか否かを判定する。文字列連結判定部１６０ａは、各文字ブロックを連結すると判定した場合には、連結する文字ブロック同士の含まれる文字列同士を連結し、連結した文字列とその文字列の座標情報とを補正する。

文字列分割判定部１７０ａは、文字情報抽出部１２０から一又は複数の文字ブロックを取得し、取得した一又は複数の文字ブロックに基づいて、各文字ブロックを分割するか否かを判定する。文字列分割判定部１７０ａは、各文字ブロックを分割すると判定した場合には、文字ブロックを分割し、分割した文字ブロックの各々に含まれる文字列とその文字列の座標情報とを補正する。
具体的には、文字列連結判定部１６０ａは、取得した複数の文字ブロックに基づいて、文字列とその文字列の座標とを含む文字ブロックの集合を、その座標情報に基づいて左上から右下へと並べ系列化する。文字列連結判定部１６０ａは、例えばＹ座標情報に基づいて同一行に含まれる文字情報を抽出し、同一行内の文字情報をＸ座標情報に基づいて左から並べるなどの処理を行う。文字列連結判定部１６０ａは、多段組のレイアウトであることが情報として得られる場合には、各段組みの範囲で左上から右下へと並べるようにしてもよい。

ただし、文字認識ソフトウェアは一般に、文書レイアウト解析や行切り出しなどの処理工程を経て文字情報を出力することから、元々の出力順が概ね行単位に左上から右下へと並んでいる仕様の場合が多い。同様にレイアウト文書やマークアップ文書も配置順に内部情報を持っている場合が多い。したがって、文字列連結判定部１６０ａは、特段の処理をすることなく、元の順序をそのまま保持することとしてもよい。
なお、上記では、一例として、横書き文書の場合について説明したが、縦書き文書の場合は右上から左下の順としてもよい。

文字列連結判定部１６０ａは、並んだ２つの文字ブロックが、連結されるべきかどうかを判定し、連結されるべきであると判定した場合には文字ブロックを連結する。文字列連結判定部１６０ａは、辞書やルールを用いて連結されるべきかどうかを判定してもよいし、機械学習で連結されるべきかどうかを判定してもよい。
辞書を用いて実現する場合には、例えば記述項目名の辞書を用意し、文字列連結判定部１６０ａは、文字ブロックを連結することで記述項目名と合致する場合には連結するなどの条件で判定する。ルールを用いて判定する場合には、文字列連結判定部１６０ａは、例えば数字の並びは連結して一連の数字からなる文字ブロックを構成するなどのルールで判定する。文字列連結判定部１６０ａは、座標情報も併用し、文字ブロック同士がある一定の距離内にある場合に連結すると判定してもよい。

文字列連結判定部１６０ａは、機械学習を用いて連結されるべきかどうかを判定する場合は、隣接した文字ブロック中の文字列を連結したテキストを生成し、生成したテキストに含まれる文字や文字ｎ－ｇｒａｍ、単語、単語ｎ－ｇｒａｍなどのテキスト特徴量を用いる。文字列連結判定部１６０ａは、テキスト特徴量に加えて、文字ブロック間の座標距離や、隣接する文字ブロックの方向が左方や上方などのブロック間の方向なども特徴量としてもよい。文字列連結判定部１６０ａは、これらの特徴量を用いて、例えば、着目している文字ブロックが直前の文字ブロックと連結するかどうかを教師あり機械学習にて判定する。文字列連結判定部１６０ａは、系列の先頭（すなわち書面の左上）から順に推定して、既推定結果を動的特徴量として特徴量に加えた系列ラベリングとして実現してもよい。

実施形態の変形例では、文字列連結判定部１６０ａは、文字ブロックの集合を一列の系列とする処理を行う場合について説明したがこの例に限られない。例えば、あらかじめ一列の系列を構成する代わりに、各文字ブロックの左側隣接文字ブロックもしくは右側隣接文字ブロックを文字ブロック集合から選択する処理を用意して、連結判定時に逐次並び情報を得るようにしてもよい。このように構成することによって、文字ブロックを配列する処理を別ステップとして用意することなく実現できる。隣接ブロックを選択する処理は前述の文字ブロック配列処理の処理と同様に座標情報に基づいて実現できる。

文字列分割判定部１７０ａは、取得した一又は複数の文字ブロックに基づいて、各文字ブロックを、記述項目もしくは項目値に適した範囲に分割する。文字情報抽出部１２０から取得した文字ブロックには、記述項目や項目値以外の文字列を含んでいる場合や、記述項目と項目値との両方が含む文字列を含んでいる場合が考えられる。文字情報抽出部１２０は、文字ブロックが分割されるべきかどうかを判定し、分割されるべきであると判定した場合には分割して複数の文字ブロックとする。文字列分割判定部１７０ａは、辞書やルールを用いて分割されるべきかどうかを判定してもよいし、機械学習で分割されるべきかどうかを判定してもよい。

文字列分割判定部１７０ａは、辞書を用いて分割されるべきかどうかを判定する場合には、記述項目名の辞書を用意し、辞書中の記述項目名の単位で文字ブロックを分割する。
文字列分割判定部１７０ａは、ルールを用いて分割されるべきかどうかを判定する場合には、例えば数字の並びからなる正規表現パタンを用意して、パタンにマッチする範囲で分割する。
文字列分割判定部１７０ａは、機械学習を用いて分割されるべきかどうかを判定する場合は、文字ブロック中の文字列の各文字境界を対象に、その文字境界が分割点になるかどうかを教師データから学習して推定する。文字列分割判定部１７０ａは、全文字境界を対象にする代わりに、あらかじめ文字列を形態素解析して形態素境界のみを分割点候補としてもよい。
文字列分割判定部１７０ａは、機械学習の特徴量として、文字ｎ－ｇｒａｍや単語ｎ－ｇｒａｍを採用してもよいし、記述項目名辞書を用意して、境界候補の左右に辞書中の語が存在するかどうかを示す特徴を併用してもよい。

図５は、実施形態の変形例に係る文書情報構造化装置１０ａの動作の一例を示すフローチャートである。図５は、文字情報抽出部１２０が行う文字ブロック抽出処理の詳細を示す。
ステップＳ１－２、Ｓ２－２、Ｓ４－２、Ｓ５－２及びＳ７－２は、ステップＳ１－１からＳ５－１を適用できるため、説明を省略する。

文字列連結判定部１６０ａと文字列分割判定部１７０ａとは、文字ブロック補正処理を行う（Ｓ３－２）。例えば、文字列連結判定部１６０ａは、文字情報抽出部１２０から取得した各文字ブロックを連結して、文字列とその文字列の座標情報とを補正する。文字列分割判定部１７０ａは、文字情報抽出部１２０から取得した各文字ブロックを分割して、文字列とその文字列の座標情報とを補正する。

図６は、実施形態の変形例に係る文書情報構造化装置１０ａの動作の一例を示すフローチャートである。図６は、文字列連結判定部１６０ａと文字列分割判定部１７０ａとが行う文字ブロック補正処理の詳細を示す。
文字列連結判定部１６０ａは、文字ブロック配列処理を行う（ステップＳ３－２１）。例えば、文字列連結判定部１６０ａは、取得した複数の文字ブロックに基づいて、文字列とその文字列の座標とを含む文字ブロックの集合を、その座標情報に基づいて左上から右下へと並べ系列化する。
文字列連結判定部１６０ａは、連結判定連結処理を行う（ステップＳ３－２２）。例えば、文字列連結判定部１６０ａは、並んだ２つの文字ブロックが、連結されるべきかどうかを判定し、連結されるべきであると判定した場合には文字ブロックを連結する。

文字列分割判定部１７０ａは、分割判定分割処理を行う（ステップＳ３－２３）。例えば、文字列分割判定部１７０ａは、取得した一又は複数の文字ブロックに基づいて、文字ブロックが分割されるべきかどうかを判定し、分割されるべきであると判定した場合には分割して複数の文字ブロックとする。図５に戻り説明を続ける。

記述項目構造化部１３０は、項目値抽出処理を行う（ステップＳ４－２）。例えば、記述項目構造化部１３０は、文字列連結判定部１６０ａと文字列分割判定部１７０ａとのいずれか一方又は両方から文字ブロックの集合を取得し、取得した文字ブロックの集合から、項目値を指し示す文字ブロックを抽出する。
項目名抽出部１８０ａは、項目名抽出処理を行う（ステップＳ６－２）。例えば、項目名抽出部１８０ａは、項目種別Ｄ４０が［その他］以外のものを対象に項目名を推定する。

図６に示されるフローチャートにおいて、ステップＳ３－２２とステップＳ３－２３との処理の順序を入れ替えてもよい。
また、文字情報抽出部１２０が抽出する文字ブロックが十分に長い場合にはステップＳ３－２２を省略してもよいし、文字情報抽出部１２０が抽出する文字ブロックが十分に短い場合にはステップＳ３－２３を省略してもよい。
また、ステップＳ３－２を省略してもよい。この場合に、ステップＳ５－２の処理で推定される項目種別を手掛かりに、同一項目種別の文字ブロックを別途連結するようにしてもよい。

（具体的な文書での例）
次に、具体的な文書例を用いて文書情報構造化装置１０ａの動作を説明する。
図７は、入力される文書（書面）の一例を示す図である。文書入力部１１０から入力された文書は文字情報抽出部１２０に出力される。文字情報抽出部１２０は、文書入力部１１０から出力された文書を取得し、取得した文書に対して文字ブロック抽出処理を行うことによって文字ブロックの系列を抽出する。
具体的には、文字情報抽出部１２０は、文書表現種別判定処理を行うことによって文書表現種別を判定し、文書表現種別の判定結果に基づいて、レンダリング抽出処理と文字座標抽出処理と文字認識抽出処理とのいずれかを行うことによって、文字ブロックの系列を抽出する。

図８Ａと図８Ｂとは、実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。図８Ａと図８Ｂとは、文字ブロックの抽出結果の一例を示す。図８Ａによれば、四角形の枠で文字ブロックが表現されている。図８Ｂによれば、文書情報構造化装置１０ａの内部で表現されるデータの一例として文字ブロックが表現されている。図８Ｂにおいて、ブロック番号Ｂ１０は説明のための番号であり、座標Ｂ２０はブロック外接矩形の左上および右下の紙面上での位置であり、文字列Ｂ３０は文字ブロック内のテキストを意味する。

なお、ブロック番号Ｂ１０は、項目名抽出部１８０ａが実行する項目名抽出処理で、項目値に対応する項目名を表現するためにも用いられる。ここで、文字情報抽出部１２０が出力する文字ブロックの大きさは、処理対象のＰＤＦ等文書内でのデータ表現や、文字認識ソフトウェアの仕様等に依存し、多数の文字を含んだ大きな文字ブロックの場合もあれば、１文字単位の細切れの場合もあり得る。ここでは仮に図８Ａに示される大きさで文字ブロックが出力されたと想定して以降の説明を続ける。

文字列連結判定部１６０ａは、文字情報補正処理を実行することによって、各文字ブロックの範囲を調整する。具体的には、文字列連結判定部１６０ａは、文字ブロック配列処理を実行することによって、その文字ブロックの順序が修正される。例えば、文字列連結判定部１６０ａは、文書ブロック配列処理を実行することによって、文字ブロック抽出処理を実行することによって得られた文字ブロックの順序をそのまま保存する。前述のとおり、文字ブロック抽出処理の結果は概ね左上から右下に並んでいることが期待されるため、対象文書の性質や文字認識ソフトウェアの実装・仕様によっては特段の処理をしなくてもよい。

文字列連結判定部１６０ａは、文字ブロックの順序と紙面上の位置関係に乖離がある場合には、左上から右下に並ぶように文字ブロックを整列させる。文字列連結判定部１６０ａは、例えば、まず文字ブロックをＹ座標に基づいて行単位に集約し、行内ではＸ座標の昇順に並べ、行順序はＹ座標の昇順とするように整列させる。文字列連結判定部１６０ａは、例えば、何らかの閾値を定めて、２つの文字ブロックのＹ座標範囲の重なりが同閾値以上であれば同一行とみなすなどのルールに基づいて行単位の集約を実行する。

文字列連結判定部１６０ａは、ブロック順序が決まった複数の文字ブロック系列の各々について、連結判定連結処理を行う。図８Ｂに示すように、複数の文字ブロック系列の各々は、すでに左上から右下に並んでいる。図８Ｂを参照して、連結判定連結処理について説明する。
文字列連結判定部１６０ａは、連結判定連結処理を実行することによって、隣接する２つの文字ブロックが連結するかどうかを判定し、連結すると判定した場合には２つのブロックを連結して新たなブロックを生成する。文字列連結判定部１６０ａは、連結した新たなブロックの文字列は両ブロックの文字列を連結したものとし、座標は２つの矩形に外接する矩形とする。文字列連結判定部１６０ａは、連結判定連結処理を実行することによって、全ての隣接文字ブロックペアを対象に連結するかどうかを判定し、連結すると判定した場合に各々のブロックを連結することで、３つ以上のブロックを連結して新たなブロックを生成するようにしてもよい。

連結判定については、ここでは機械学習を用いた処理例を説明する。機械学習では、文字ブロックの境界の各々について、文字ブロックの境界が連結されるべきかどうかの二値に分類する二値分類器として実現することができる。分類器で用いる特徴量の一例は、テキスト特徴量である。テキスト特徴量としては文字ブロック境界の前後に含まれる文字列を用いる。
例えばブロック番号「１０１１」とブロック番号「１０１２」との連結判定を行う場合には、境界前のブロックを連結した「・・・に関する業務委託契約作業」と、境界後のブロックを連結した「期間２０２０年４月１日～２０２０年９月３０日・・・」との文字列に基づいた特徴量とすればよい。例えば判定対象境界の前後４文字を特徴量として用いる場合は、「契約作業－期間２０」を対象として、その文字ｎ－ｇｒａｍなどを特徴量とする。

併せて、分類器で用いる特徴量の一例として、座標特徴量を用いることが考えられる。座標特徴量としては例えば座標距離に基づいた特徴量や、左方・上方などのブロック方向に基づいて特徴量を作成する。
機械学習の代わりに、あらかじめ準備した項目名の辞書を用いて実現してもよい。文字列を連結したものが辞書に掲載されている場合に連結するなどをルールとする。例えば辞書に「作業期間」というエントリがある場合には、ブロック番号「１０１１」とブロック番号「と１０１２」とが連結されることとなる。

文字列分割判定部１７０ａは、分割判定分割処理を実行することによって、各々の文字ブロックについて、その文字ブロックが分割されるべきかどうかを判定する。項目名抽出部１８０ａは、分割されるべきと判定した場合には、その文字ブロックから２つ以上の新たな文字ブロックを生成する。
分割判定についても、ここでは機械学習を用いた処理例を説明する。機械学習では、各文字ブロックの文字列中の各文字境界候補について、各文字境界候補が分割されるべきかどうかの二値分類器として実現することができる。ここで文字境界候補の一例としては、例えば、全ての文字境界を候補とすることである。
例えばブロック番号「１０１３」の「２０２０年４月１日～２０２０年９月３０日」について、「２」と「０２０年４月・・」の間、「２０」と「２０年４月・・」の間などのように、全ての文字境界を候補とする。また、文字列を形態素解析し、単語境界を文字境界候補とすることも考えられる。その場合は例えば「２０２０」と「年４月・・」の間などが境界候補となる。

分割判定で用いる特徴量としても、連結判定で用いる特徴量と同様にテキスト特徴量が考えられる。テキスト特徴量としては文字境界の前後に含まれる文字列を用いることができる。例えば、ブロック番号「１０１３」について「２０２０年４月１日」と「～２０２０年９月３０日」の間の境界判定をする場合、両文字列に基づいた特徴量を用いる。ここでテキスト特徴量として文字ｎ－ｇｒａｍ等を用いることができるのは前述のとおりである。
さらに、文字列左側もしくは右側から順に分割判定をするように構成して、既に実行した分割判定の結果を分割動的特徴量として加えることも可能である。文字列分割判定部１７０ａは、文字ブロックの範囲が補正された結果として、文字ブロックの集合を出力する。文字列分割判定部１７０ａは、分割判定分割処理を実行することによって、各々の文字ブロックについて、その文字ブロックを分割した場合に、新たな文字ブロックの文字列には分割点の前後の部分文字列を格納する。文字列分割判定部１７０ａは、新たな文字ブロックの座標範囲は、仮に各文字ブロック中の各文字の座標が得られている場合にはその各文字の座標から算出した座標値を用いるようにしてもよい。文字列分割判定部１７０ａは、新たな文字ブロックの座標範囲は、仮に各文字の座標が得られていない場合には、分割した文字列の長さの比に基づいて新たな文字ブロックの座標範囲を算出してもよい。

図９Ａと図９Ｂとは、実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。図９Ａと図９Ｂとは、文字ブロックの範囲が補正された結果の一例を示す。図９Ａは、説明のために四角形枠で文字ブロックが表現されている。図９Ｂによれば、文書情報構造化装置１０ａの内部で表現されるデータの一例として文字ブロックが表現されている。
記述項目構造化部１３０は図９Ａに示される文字ブロック集合から、項目値と項目種別ならびに項目名を抽出する。

図１０は、実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。図１０は、記述項目構造化部１３０の出力の一例を示す。図１０において、ブロック番号Ｄ１０と座標Ｄ２０と文字列Ｄ３０と項目種別Ｄ４０と項目名Ｄ５０とが関連付けられている。ブロック番号Ｄ１０～文字列Ｄ３０は文字列分割判定部１７０ａから取得した情報である。
記述項目構造化部１３０は、項目種別Ｄ４０および項目名Ｄ５０を推定する。ここで、ブロック番号Ｄ１０に関連付けられる項目種別Ｄ４０が［その他］でなければ、当該ブロック番号Ｄ１０に関連付けられる文字列Ｄ３０は項目値であることを意味している。
ここでは、一例として、記述項目構造化部１３０が、項目抽出処理と項目種別判定処理とを行う場合に、単一の機械学習にて推定する構成例について説明する。記述項目構造化部１３０が、項目抽出処理と項目種別判定処理とを行う場合に、別個の機械学習にて推定するようにしてもよい。

記述項目構造化部１３０は、項目種別判定処理を実行することによって、各文字ブロックの項目種別を推定する。記述項目構造化部１３０は、各文字ブロックの項目種別を推定する場合に着目する文字ブロックの情報と周辺の文字ブロックの情報とを特徴量として用いる。記述項目構造化部１３０は、図１０に示す文字ブロックの集合から、座標Ｄ２０に基づいて周辺文字ブロックを抽出する。
例えば周辺文字ブロックの範囲として、自身の左側に位置するブロックを定義した場合、ブロック番号３１０２の周辺文字ブロックはブロック番号３１０１となり、ブロック番号３１０４の周辺文字ブロックはブロック番号３１０１、ブロック番号３１０２、ブロック番号３１０３となる。左側以外にも上側や右側を周辺と定義してもよいし、その座標距離に閾値制限を設けてもよい。

特徴量は、まず、着目する文字ブロックと周辺の文字ブロックとの文字列Ｄ３０をテキスト特徴とする。周辺の文字ブロックをテキスト特徴とする際には、その紙面上の方向や距離に応じて別次元の特徴としてもよい。例えば左側の文字ブロックと上側の文字ブロックのテキスト特徴量を別次元に配置することも考えられる。
また、着目する文字ブロックの座標も特徴量化して用いる。例えば、文字ブロックの重心座標が紙面のどの位置にあるかなどの特徴量が考えられる。項目種別Ｄ４０が付与された教師データを用いて機械学習することで、項目種別を推定できる。

項目名抽出部１８０ａは、項目名抽出処理を実行することによって項目種別Ｄ４０が［その他］以外のものを対象に項目名Ｄ５０を推定する。図１０では項目名に該当する文字ブロックをその文字ブロック番号で表現しており、ブロック番号Ｄ１０が「３１０２」の項目名Ｄ５０は「３１０１」であり、ブロック番号Ｄ１０が「３１０４」の項目名Ｄ５０の項目名Ｄ５０も「３１０１」であることを意味する。また、ブロック番号Ｄ１０が「３０１０」の項目名Ｄ５０に該当するブロックは存在していないことを”ε”で表現している。

項目名抽出部１８０ａは、項目種別Ｄ４０が［その他］以外の各文字ブロックについて、当該文字ブロック以外の文字ブロックから項目名を選択する。選択は例えば、逐次の分類器によって実現される。着目するブロック番号Ｄ１０が「３１０２」である場合を例にとると、ブロック番号Ｄ１０が「３１０２」以外の各文字ブロックについて、その文字ブロック番号Ｄ１０が「３１０２」の項目名Ｄ５０に該当するかどうかを機械学習で推定する。項目名に該当する文字ブロックがない場合は”ε（イプシロン）”とする。

図１１は、実施形態の変形例に係る文書情報構造化装置１０ａの処理結果の一例を示す図である。図１１は、記述項目情報出力部１４０が出力する記述項目情報の例である。この例では、図１０の項目種別Ｄ４０が［その他］以外の文字ブロックについて、その項目種別と項目値、項目名の文字列のみを表の各行に出力している。

実施形態の変形例に係る文書情報構造化装置１０ａによれば、実施形態に係る文書情報構造化装置１０において、記述項目情報に含まれる項目値の種別を表現している文字列と文字列の位置とのいずれか一方又は両方を電子化文書から抽出する項目名抽出部１８０ａをさらに備える。
このように構成することによって、文書情報構造化装置１０ａは、項目値の種別を表現している文字列と文字列の位置とのいずれか一方又は両方を電子化文書から抽出できるため、抽出した項目値の種別を含む記述項目情報を出力できる。

また、文書情報構造化装置１０ａにおいて、断片化された文字列を連結するかどうかを判定する文字列連結判定部をさらに備える。
このように構成することによって、文書情報構造化装置１０ａは、断片化された文字列を連結するかどうかの判定結果に基づいて、文字列を連結できるため、連結した文字列に基づいて、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できる。

また、文書情報構造化装置１０ａにおいて、過分に連結された文字列を分割するかどうかを判定する文字列分割判定部をさらに備える。
このように構成することによって、文書情報構造化装置１０ａは、過分に連結された文字列を分割するかどうかの判定結果に基づいて、文字列を分割できるため、分割した文字列に基づいて、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できる。

以上、本発明の実施形態と、実施形態の変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。例えば、上述した各装置の機能を実現するためのコンピュータプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたコンピュータプログラムをコンピュータシステムに読み込ませ、実行するようにしてもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。

また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してコンピュータプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１０、１０ａ…文書情報構造化装置、１００、１００ａ…制御部、１１０…文書入力部、１２０…文字情報抽出部、１３０…記述項目構造化部、１４０…記述項目情報出力部、１５０…記憶部、１６０ａ…文字列連結判定部、１７０ａ…文字列分割判定部、１８０ａ…項目名抽出部

Claims

電子化文書を入力する文書入力部と、
前記文書入力部が入力した前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出する文字情報抽出部と、
前記文字情報抽出部が抽出した前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出する項目値抽出部と、
前記項目値抽出部が抽出した前記項目値の種別を推定する項目値種別判定部と、
前記項目値抽出部が抽出した前記項目値と前記項目値種別判定部が推定した前記項目値の前記種別とを含む記述項目情報を出力する記述項目情報出力部と、
を備え、
前記項目値抽出部は、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する文書情報構造化装置。
前記記述項目情報に含まれる前記項目値の前記種別を表現している文字列と前記文字列の位置とのいずれか一方又は両方を前記電子化文書から抽出する項目名抽出部
をさらに備える、請求項１に記載の文書情報構造化装置。
文字列同士を連結するかどうかを判定する文字列連結判定部
をさらに備える、請求項１又は請求項２に記載の文書情報構造化装置。
文字列を分割するかどうかを判定する文字列分割判定部
をさらに備える、請求項１又は請求項２に記載の文書情報構造化装置。
前記電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、
前記文字情報判定部による前記文字情報が含まれているかどうかの判定結果に基づいて、前記文字情報を用いるか、画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部と、
をさらに備える、請求項１に記載の文書情報構造化装置。
コンピューターが実行する文書情報構造化方法であって、
電子化文書を入力するステップと、
前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、
前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、
前記項目値の種別を推定するステップと、
前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、
を有し、
前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、文書情報構造化方法。
コンピューターに、
電子化文書を入力するステップと、
前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、
前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、
前記項目値の種別を推定するステップと、
前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、
を実行させ、
前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、プログラム。