JP2022035594A

JP2022035594A - 表構造認識装置及び表構造認識方法

Info

Publication number: JP2022035594A
Application number: JP2020140032A
Authority: JP
Inventors: 達也長谷部; Tatsuya Hasebe; 和夫武藤; Kazuo Muto
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2022-03-04
Also published as: WO2022038821A1

Abstract

【課題】統計分析や業務自動化に用いるために、表構造のデータから構成セルなどの表要素間の関連性を認識し、機械可読な構造化データに変換する表構造認識装置を提供する。
【解決手段】セルによる表構造と文字を含む表構造情報を入力する入力部と、表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、特徴量に基づいて表構造情報に含まれる２つのセル間の参照関係を算出する参照関係算出部とを有し、特徴量算出部は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量を算出し、参照関係算出部は、セル特徴量と近傍セル特徴量を含む特徴量に基づいて参照関係を算出することを特徴とする表構造認識装置。
【選択図】図１

Description

本発明は、非構造なデータ形式で記録される表データの認識、構造化を行う表構造認識装置及び表構造認識方法に関する。

現在、コンピューターやスマートデバイスの普及を背景とし、以前にも増して電子データとしてドキュメントが作成されている。さらに近年はハードウェアの技術革新やデータレイクを提供するクラウドサービスの普及により、データの蓄積と保管に要するコストが低下し、より大量かつ多様なデータが記録される機会が増えている。

例えば、金融業においては多種多様な帳票情報が画像や電子ドキュメント形式でやり取りされ、製造業においては、仕様書、開発実験データ、検査結果、量産記録など様々な種類のドキュメントが日々作成される。

一方、これらドキュメントは人間の視認性を重視している、あるいは業務プロセスが頻繁に変化することに起因して、文章フォーマットが統一されていない場合が多い。

近年、これらの取得、記録されたドキュメントに対して、情報の抽出と、抽出情報を用いた統計学習処理や業務自動化を行うことで、意思決定、業務効率化を行うことが期待されている。統計学習処理や業務自動化を行うには、ドキュメントの情報抽出により、ドキュメント情報を機械可読な構造化データに変換する必要がある。構造化データの例としては、キーバリュー形式、ノードグラフ形式、テーブル形式などがある。

情報抽出の取り組みとして、スキャンした紙媒体文章の画像から文字認識を行う光学文字認識ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、）や、ＯＣＲ結果や表の構成や文字の位置関係を用いた文章構造情報の抽出などが以前より取り組まれている。特に、ドキュメントのフォーマットは統一されていない場合が多いことから、未知のフォーマットの文章に対して、その表の構造等を認識し、情報抽出を行うことが求められている。

また、ドキュメントの形式として、紙文書画像だけでなく、表計算形式データやＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）マークアップ言語のような、業務で頻繁に用いられるソフトウェアにより作成されたものも多い。

一見、表計算形式やＨＴＭＬのデータは構造化されているように見えても、視認性を重視して作成される場合が多く、セルの結合、カラムやインデックスの親子関係、複数の表を有するなど、複雑な表が用いられている場合も多い。統計処理や業務自動化に用いるためには、表計算形式のような半構造化データについても、表の構造等を認識し、構造化データを抽出する必要がある。

この点に関し例えば、特許文献１では、画像よりセルの位置関係などの表構造を認識し、記入済みのセルについてのみ２値化処理を行い、高速に文字認識を行う装置が提案されている。

特許文献２では、表構造を認識した上で、表要素の関連文をドキュメントから抜き出し、関連文からルールベースで表要素間の関係を予測、記憶する装置が提案されている。

特開２０１２－１４１６７０号公報ＷＯ２０１４／００２６０１号公報

上記背景技術に記載の構造化データ抽出のためには、セルや見出しなどの表要素の認識だけでなく、表要素間の意味的な関係性を認識する必要がある。例えば、表にはカラムやインデックスを意味するセルが存在し、数値などの値が書かれているセルはこれらカラム、インデックスに対応した値を意味している、というような意味的な関係性が存在する。その他にも、カラムが階層的になっており親子関係がある、帳票のように項目名と項目値からなるキー・バリューの関係があるなど様々な種類の意味的な関係性が考えられる。

構造化データを抽出するためには、これらを認識する必要がある。しかし、特許文献１に記載された先行技術は、ドキュメントを画像化したデータを対象とし、認識したセルの領域、位置などの幾何的な表構造を元に、文字の認識を行うものである。したがって、表要素間の意味的な関連性の認識は対象としていない。

構造化データ抽出の対象となる表はかならずしも論文中の表など、文中に含まれる表だけではなく、統計表、データ表のような、表のみを含むデータも存在する。特許文献２に記載された先行技術は、文章と表をどちらも含む表構造のみを対象としており、文章中に記載がない表要素間の関連性や、表のみを持つドキュメントについては、対象としていない。

以上のことから、本発明の目的は、統計分析や業務自動化に用いるために、表構造のデータから構成セルなどの表要素間の関連性を認識し、機械可読な構造化データに変換する表構造認識装置及び表構造認識方法を提供することである。

以上のことから本発明においては、「セルによる表構造と文字を含む表構造情報を入力する入力部と、表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、特徴量に基づいて表構造情報に含まれる２つのセル間の参照関係を算出する参照関係算出部とを有し、特徴量算出部は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量を算出し、参照関係算出部は、セル特徴量と近傍セル特徴量を含む特徴量に基づいて参照関係を算出することを特徴とする表構造認識装置」としたものである。

また本発明においては、「セルによる表構造と文字を含む表構造情報から、表構造情報に含まれる各セルの特徴量を算出し、特徴量に基づいて表構造情報に含まれる２つのセル間の参照関係を算出するとともに、特徴量は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量から求められ、特徴量に基づいて参照関係を算出することを特徴とする表構造認識方法」としたものである。

本発明によれば、表構造のデータを構成セル等の表要素間の関係性を考慮した構造化データに変換することができ、統計分析や業務自動化への表構造データ活用が容易になる。

本発明の実施例１に係る表認識、データ抽出装置の構成例を示す図。入力部１０１に入力される表構造情報Ｄ１の一例を示す図。図２の表構造情報Ｄ１を構造化した例を示す図。表構造情報Ｄ１の入力から構造化情報Ｄ６の出力までのフローチャート。図４の処理ステップＳ４０７の参照関係の算出処理についての詳細な処理フローを示す図。本発明の実施例２に係る表認識、データ抽出装置の構成例を示す図。出力部６０７における構造化結果の可視化画面７０１の一例を示す図。修正部６０８で表示される修正画面の一例を示す図。

以下本発明の実施例について、図面を用いて詳細に説明する。

図１は、本発明の実施例１に係る表認識、データ抽出装置の構成例を示している。本装置は、入力部１０１、特徴量算出部１０２、参照関係算出部１０８により構成され、セルや文字列、罫線、セル結合のような情報をもつ表構造情報Ｄ１を入力部１０１から入力して、結果として参照関係算出部１０８から構造化情報Ｄ６を出力する。

このうち、入力部１０１にはセル、セル中の文字列、罫線、セル結合等の情報を保持した表構造情報Ｄ１が入力される。表構造情報Ｄ１には例えば、表文書のスキャンのＯＣＲ、セル画像認識結果として、表計算形式データ、マークアップ形式データなどが含まれる。

特徴量算出部１０２では、入力部１０１で入力された表構造情報Ｄ１を元に、表構造を構成するセル同士の参照関係の推定のために、特徴量の算出を行う。このため、まず属性情報抽出部１０４では、特徴量算出のために、表構造情報Ｄ１からセル文字列Ｄ２ａ、セル結合Ｄ２ｂ、セル罫線Ｄ２ｃといったセルを特徴づけるセル属性情報Ｄ２を抽出する。さらにセル特徴量導出部１０５において、このセル属性情報Ｄ２を数ベクトル化しセル特徴量Ｄ３を算出するとともに、セル同士の相対的な位置関係を把握する。

次に近傍セル特徴量算出部１０６において、セル特徴量導出部１０５で算出した各セルのセル特徴量Ｄ３とセル同士の相対的な位置関係を元に、近傍セル特徴量Ｄ４を算出する。特徴量算出部１０７では、セル特徴量Ｄ３と近傍セル特徴量Ｄ４を結合した特徴量Ｄ５を算出する。

最後に、参照関係算出部１０８では特徴量算出部１０７で求めた特徴量Ｄ５を用いて、各セル同士の参照関係の有無を構造化情報Ｄ６として算出する。

図２に入力部１０１に入力される表構造情報Ｄ１の一例を示す。この表構造情報Ｄ１は多くの場合、表計算形式のデータやＨＴＭＬのようなマークアップ言語形式、あるいはスキャン画像の画像認識結果などから得られる。表構造情報Ｄ１は見出し等の文章や複数の表を含んでいる。表構造情報Ｄ１の表中の文字列位置は、横方向の複数のカラムＣＬ（この例ではＣＬ１、ＣＬ２、ＣＬ３）と縦方向のインデックスＩＮ（この例ではＩＮ１、ＩＮ２）の番号によって表現できるようになっている。

一例としての図２の表中には、階層構造を持つカラムＣＬ１、ＣＬ２や複数セルに跨るカラムＣＬ３、階層構造をもつインデックスＩＮ１、ＩＮ２、メタデータを表すキー・バリューの値２０５、数値や文字列など、データそのものを格納するセル２０６などが存在している。ここで例えば、親カラムＣＬ１や親インデックスＩＮ１について、セル結合によって表現される場合や、空白セルによって表現される場合など、表現の方法は複数考えられる。

ここで、「階層構造を持つ」とは、例えば親カラムＣＬ１について、「ひずみ」のセルをさらに「最大」と「最小」のセルに区分し、親カラムＣＬ２について、「温度」のセルをさらに「上部」と「底部」のセルに区分し、あるいは親インデックスＩＮ１について、「設計案１」のセルを「試験環境１」、「試験環境２」のセルに区分し、階層化することを意味している。階層の上部を親（親カラム、親インデックス）、下部を子（子カラム、子インデックス）あるいは孫（孫カラム、孫インデックス）とよぶものとする。

なお図２の表は試作実験結果をまとめたものであり、複数の試験環境下での設計案（ＩＮ）について、最大最小のひずみ（ＣＬ１）、上部底部の温度（ＣＬ２）、ならびにこの条件下での不具合の有無（ＣＬ３）をマトリクス形式にして纏めたものである。

図３に図２の表構造情報Ｄ１を構造化した例として、グラフ形式３０１と辞書形式３０２で表したものを示す。図３上部のグラフ形式３０１は、各セル２０６をノード、その参照関係をエッジとした有向グラフとして参照関係を表したものである。この記述によれば、各セルの記述内容は、横方向のカラムＣＬと縦方向のインデックスＩＮとの間に参照関係を有する。有向グラフの場合に、参照関係は階層構造における子から親に向かう方向で表している。

また図３下部の辞書形式３０２は、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｂｊｅｃｔＮｏｔａｔｉｏｎ）に代表されるような、階層型データの表現形式である。辞書形式３０２では、カラム項目をキーに、項目値をバリューとして格納する。インデックスや親インデックスについては専用のキーを設けてデータを格納している。このため、辞書形式３０２での構造化のためにはインデックスＩＮ、カラムＣＬ等の認識が必要であり、後述するセル役割の予測が必要である。

図４に表構造情報Ｄ１の入力から構造化情報Ｄ６の出力までのフローチャートを示す。この処理は、図１の入力部１０１から、特徴量算出部１０２を介して参照関係算出部１０８に至る一連の処理手順を表している。

図４の処理ではまず、入力部１０１の機能に相当する処理として、処理ステップＳ４０２において、表構造情報Ｄ１を受け取る。この表構造情報Ｄ１は、図２に例示されるようなものであり、セルとセルに対する罫線、セル結合、セルの内容文字列を含んだデータであり、表計算形式、マークアップ形式の表、表のスキャン画像認識結果等を含む。

次に属性情報抽出部１０４の機能に相当する処理として、処理ステップＳ４０３において、表構造情報Ｄ１から各セルのセル文字列Ｄ２ａ、セル結合Ｄ２ｂ、セル罫線Ｄ２ｃといったセルを特徴づけるセル属性情報Ｄ２を抽出する。

ここで、セル文字列Ｄ２ａである場合には、例えば図２の各セル２０６内の文字が数値、漢字、小数値などのいずれであるかを区別する情報をセル文字列Ｄ２ａについてのセル属性情報Ｄ２とするのがよい。セル結合Ｄ２ｂである場合には、例えば図２の各セル２０６が結合されていたときにその結合数をセル結合Ｄ２ｂについてのセル属性情報Ｄ２とするのがよい。なお図２左上の空欄のセルの場合には結合数が４であり、ひずみを記述したセルの結合数は２である。セル罫線Ｄ２ｃである場合には、例えば図２の各セル２０６を囲む枠線について、枠線の有無、あるいは線種、太さをセル罫線Ｄ２ｃについてのセル属性情報Ｄ２とするのがよい。なお、ある２セルについて、セルを結合するあるいは、セルを結合しないで罫線で囲むなど、同じ要素を表すのに複数の方法が有る。このため、セル文字列Ｄ２ａ、セル結合Ｄ２ｂに加えて、セル罫線Ｄ２ｃが必要となる。

セル特徴量導出部１０５の機能に相当する処理として、処理ステップＳ４０４において、このセル属性情報Ｄ２を数ベクトルに変換する処理を行う。例えば、セル文字列Ｄ２ａに対しては、セル文字列Ｄ２ａの分散表現をＷｏｒｄ２ＶｅｃやＢＥＲＴで算出した結果を用いたり、セル文字列Ｄ２ａのデータ型（整数、文字列、小数など）を０－１の整数値で表したりすることが考えられる。同様にセル結合Ｄ２ｂには、ある方向へのセル結合数を用いる方法、セル罫線Ｄ２ｃには罫線の有無、太さなどを数値化したもの用いる方法などを、数ベクトル化の手法として利用することができる。これら様々な手法で得られたセル文字列Ｄ２ａの特徴、セル罫線Ｄ２ｃの特徴、セル結合Ｄ２ｂの特徴を表すベクトルを結合したものをセル特徴量Ｄ３とする。

次に近傍セル特徴量算出部１０６の機能に相当する処理として、処理ステップＳ４０５において、各セルの近傍セル特徴量Ｄ４の算出を行う。近傍セル特徴量Ｄ４はセル毎に、近傍のセル特徴量Ｄ３を統計処理することで計算される。ここで、「近傍」とは着目するセルに対して隣接するセルばかりではなく、１セル離れた位置のセル群、あるいは２セル離れた位置のセル群のように、適宜定義して設定するものであってもよい。これらは例えば第一近接や第二近接といった表現で区別される。

処理ステップＳ４０５における統計処理の方法として、近傍セル特徴量Ｄ４の算出方法としては、着目するあるセルに対して第一近接や第二近接の位置関係にあるセル群のセル特徴量Ｄ３を基準のセル特徴量に結合する方法、または第Ｎ近接までのセル特徴量Ｄ３までを見て畳み込み演算をグラフニューラルネットベースで行う方法、または、全ての近傍セル基準セル以外の全てのセルの特徴量を利用し、注意機構付きのニューラルネット等を用いる方法がある。以上により、各セルについて、近傍セルとの関係性の情報を保持した近傍セル特徴量Ｄ４を得ることができる。

特徴量算出部１０７の機能に相当する処理として、処理ステップＳ４０７において、セル特徴量Ｄ３と近傍セル特徴量Ｄ４を結合した特徴量Ｄ５を算出する。

次に参照関係算出部１０８の機能に相当する処理として、処理ステップＳ４０７において、セル特徴量Ｄ３と近傍セル特徴量Ｄ４を結合した特徴量Ｄ５を用いて、セル同士の参照関係を算出する。また最後に参照関係算出部１０８の機能に相当する処理として、処理ステップＳ４０８において、得られた参照関係情報を用いて、元の表構造情報Ｄ１を指定された構造化形式のデータである構造化情報Ｄ６に変換し、ユーザーに提示する。なお参照関係算出部１０８の処理フローについて、図５を用いて詳細に説明する。

ここで、セルの参照関係情報から構造化データ形式のデータである構造化情報Ｄ６に変換するに際し、表示形式を図３上部のグラフ形式３０１で出力する場合は、得られた参照関係の情報をそのまま保持する形で変換を行うのがよい。

これに対し、表示形式を図３下部の辞書形式３０２で出力する場合は、セル同士の参照関係の他に、後述するセル役割の情報が必要である。セル役割の情報により、グラフ上の各ノードがカラムを意味するのか、インデックスや値を意味するのかなど、判別することができ、この情報を用いて、カラムを辞書のキーに、値を辞書の値にする、インデックスは特殊なキーを割り当てるなどの処理により、辞書形式の構造化データを作成することができる。

図５に、図４の処理ステップＳ４０７の参照関係の算出処理についての詳細な処理フローを示す。まず処理ステップＳ５０２では、本処理フローの開始以前に計算された各セルの近傍セル特徴量およびセル特徴量を結合した特徴量Ｄ５を入力する。

次に処理ステップＳ５０３では、結合した特徴量Ｄ５を用いて、各セルの役割を予測する。セル役割の予測には、結合した特徴量Ｄ５を入力として、そのセル２０６がある役割を持つ確率を０－１で予測するニューラルネットや機械学習などの学習モデルを用いる。ここでの出力確率が一番大きいものをそのセルの役割とする。セル役割としては、カラム、親カラム、インデックス、親インデックス、値、メタデータ、見出し、コメントなど、表中のセル値の役割を網羅する役割分類を用意しておき、これらに対して学習モデルで確率を算出する。

次に処理ステップＳ５０４では、各セルのペアに対して、結合した特徴量Ｄ５を用いて、参照関係の有無を算出する。参照関係の有無は０－１の値をとる参照関係を有する確率を計算し、適当な閾値に対する大小を判定することによってなされる。参照関係の算出は特徴量Ｄ５を用いて、全てのセルの組、あるいは参照関係を持つ可能性の高い一部のセルの組に対して実施され、ニューラルネット等の機械学習により、特徴量Ｄ５から参照関係を有する確率を算出する。

例えば同一列のカラム、および同一行のインデックスに含まれる複数のセルの関係において、第１のセル内に記述されている文字が数値であり、第２のセル内に記述されている文字が漢字であるときに、第２のセルが階層関係上は親であり、第１のセルは子であると推定できる可能性が高いということが言える。また結合数が多いセルであるほど、階層関係上は親であると推定できる可能性が高い。枠線がない文字列は、見出しであると推定できる可能性が高い。学習モデルでは、上記のような関係性を利用して、セルの役割として可能性が高いものを抽出し、その確率とともに出力するとともに、参照関係を有する確率を算出する。

ここで、参照関係を持つ可能性の高いセルの組は、セルの幾何的な相対位置関係を用いて、近い列、行にあるものに限る、あるいは、ニューラルネット等によって、各セルがかかわる参照関係の個数を制限する、ことにより選定することで計算を効率化するのがよい。

次処理ステップＳ５０５では、セルの役割、及び参照関係の有無の情報を用いて図３上部に例示したような有向グラフ３０１を構築する。この処理は、セルをノードとして、参照関係を有する場合にエッジを作成する方法で行われる。また、セルの役割の情報はノードに対する付加情報として、グラフ上に記録する。また、参照関係を有する確率はエッジの重みとしてグラフに保持する。なお、参照関係の確率は適宜閾値と比較判断され、確度の高い参照関係のみを抽出することで、有向グラフ３０１をより正確なものとすることができる。

次に処理ステップＳ５０６では、有向グラフ３０１を図３下部に例示したような辞書形式３０２の構造化データに変換する場合にエラーの原因と成るループや、変換に対応していないエッジなどを、グラフの次数の検出、ループの検出、部分グラフのマッチングを行い、エラーとなりうるグラフ構造の除去を行う。不要なエッジの削除の際には、参照関係を有する確率が小さいものを優先して除去していく。

最後に処理ステップＳ５０７では、前記まで得られたグラフ形式、辞書形式など、指定した構造化データ形式に整合するセルの参照関係グラフを出力する。

上記した本発明の実施例によれば、表構造のデータを構成セル等の表要素間の関係性を考慮した構造化データに変換することができ、統計分析や業務自動化への表構造データ活用が容易になる。

実施例１を拡張した本発明の実施例２に係る表認識、データ抽出装置の構成例を図６に記す。図６の構成は、図１の構成にさらに探索部６０１、記憶部６０２、学習部６０６、出力部６０７、修正部６０８、マージ出力部６０９に機能を追加している。

実施例２では、まず探索部６０１にて、指定したストレージ、ネットワークパス等の表構造情報Ｄ１が保存されている箇所を探索し、複数の表構造情報Ｄ１を得る。次に入力部１０１にて探索部６０１で得た表構造情報Ｄ１を入力する。入力部１０１、特徴量算出部１０２、参照関係算出部１０８の構成は実施例１と同じである。

次に記憶部６０５には、事前に収集された表構造情報Ｄ１と、それに対応する各セルの役割、参照関係の真値のペアが記憶されている。学習部６０６では、記憶部６０５の表構造情報Ｄ１とセルの役割、参照関係のデータを用いて、参照関係算出部１０８に含まれる学習モデルの学習を行う。この学習の際には、セルの役割、セルの参照関係の学習をそれぞれ独立して行う、あるいは、ニューラルネットを用いる場合は同時に学習することができる。また、学習にあたっては、参照関係算出部１０８に含まれる学習モデルの他に、特徴量算出部１０２で用いられる文字列の数ベクトル化などにＴｒａｎｓｆｏｒｍｅｒなどのニューラルネットを用いる場合には、これらの学習も含めて行う。学習の損失関数としては、クロスエントロピー等を用い、必要に応じてそれらの重み付き和を用いるのがよい。

出力部６０７では、参照関係算出部１０８より出力されるグラフを可視化したり、ＪＳＯＮなどの指定された構造化フォーマットに変換したりする。修正部６０８では、構造化に誤りが合った場合に、出力されたグラフに対してユーザーが修正を加え、修正結果を反映させて、構造化データを出力する、あるいは、修正履歴を記憶部６０５に記憶し学習部６０６にて再学習させることができる。

マージ出力部６０９では、探索部６０１にて得られた複数の表構造情報Ｄ１それぞれの出力部における出力を結合し、一つのファイル、あるいはデータベースに格納する。結合処理に際しては、例えばＪＳＯＮにおいては、配列の要素、あるいは、辞書のキーとして複数の構造化結果データを結合させる形で結合処理を行う。

図７に、出力部６０７における構造化結果の可視化画面７０１の一例を示す。出力部６０７の可視化画面７０１には、構造化結果の可視化部７０２があり、例えば指定したセル７０３がどのセルと参照関係を持っているか可視化することができる。この例では指定したセル７０３は、温度上部と、試験環境２のセルと参照関係を持っていることがわかる
また、可視化画面７０１には、指定したセル７０３の役割、参照関係、参照先セルの役割、それを予測するに至った予測根拠の提示部７０４を備える。予測根拠は、機械学習をもちいる場合はＳＨＡＰ（ＳＨａｐｌｅｙＡｄｄｉｔｉｖｅｅｘＰｌａｎａｔｉｏｎｓ）値のような説明変数の重要度の指標、あるいはニューラルネットを使う場合はＧｒａｄＣＡＭＧｒａｄｉｅｎｔ－ｗｅｉｇｈｔｅｄＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ）のような勾配ベースの方法や注意機構を有する場合は注意機構の重みを用いて、特徴量のランキングを作成し、これを７０４に表示する。

図示の例では、セル７０３の役割は「値」であり、セル７０３に対する表の縦方向での参照関係は「上部」であり、「上部」の役割はカラムであると推定している。またセル７０３に対する表の横方向での参照関係は「試験環境２」であり、「試験環境２」の役割はインデックスであると推定している。またこのように推定する根拠は、「温度」のセルがセル結合されている点、「設計案１」のセルがセル結合されている点、セル７０３の文字列が数値の２０出あり、文字の型を示している点などにある。

また可視化画面７０１には、各種の操作ボタンを備える。例えば、ＪＳＯＮ形式で出力するための出力ボタン７０５、データベースＤＢに登録するための登録ボタン７０６をクリックすることで、構造化結果の情報をファイルやデータベースＤＢの形式で出力することができる。データベースＤＢとしては、リレーショナル・データベースの他、グラフデータベースＤＢやドキュキュメンデータベースＤＢが本発明で生成される構造化データの形式と整合している。また、修正ボタン７０７をクリックすることで、結果を修正部６０８に移動する。

図８に、修正部６０８で表示される修正画面を示す。修正画面では、修正箇所指定部８０１でのセルの指定に対して、指定したセル役割、参照関係を修正表示部８０２に表示する。セル役割、参照関係の修正表示部８０２ではセルの役割や参照先のセルをドロップダウンや修正箇所指定クリックで指定できる。また参照関係の削除や追加が可能である。修正は、登録ボタン８０３をクリックすると出力部６０７の画面７０１に遷移すると同時に、修正結果生成された構造化データのグラフと元の表構造データの生データの組を記憶部６０５に記憶し、学習部６０６にて再学習を行う。再学習の際は、再学習前と再学習後で学習精度を比較し、向上した場合に新しい再学習後の学習モデルを採用する。学習精度の検証は交差検証精度のｆ１スコアやＡＰ（ＡｖｅｒａｇｅＰｒｅｃｉｓｉｏｎ）等を用いて行う。

１０１：入力部
１０２：特徴量算出部
Ｄ１：表構造情報
Ｄ２：セル属性情報
Ｄ３：セル特徴量
Ｄ４：近傍セル特徴量
１０４：属性情報抽出部
１０８：参照関係算出部
６０１：探索部
６０２：記憶部
６０６：学習部
６０７：出力部
６０８：修正部
６０９：マージ出力部

Claims

セルによる表構造と文字を含む表構造情報を入力する入力部と、前記表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、前記特徴量に基づいて前記表構造情報に含まれる２つのセル間の参照関係を算出する参照関係算出部とを有し、
前記特徴量算出部は、前記表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルの前記セル特徴量と当該セルに対する近傍セルの前記セル特徴量の統計処理により得られる近傍セル特徴量を算出し、
前記参照関係算出部は、前記セル特徴量と前記近傍セル特徴量を含む前記特徴量に基づいて前記参照関係を算出することを特徴とする表構造認識装置。
請求項１に記載の表構造認識装置であって、
前記参照関係算出部は、前記参照関係を確率とともに算出し、
出力部は、設定した確率の閾値に基づいて、キーバリュー形式およびリスト形式のデータ構造の組み合わせたデータ構造、あるいはグラフ形式のデータ構造、あるいは関係データベース互換形式からなる構造化情報として提示することを特徴とする表構造認識装置。
請求項１に記載の表構造認識装置であって、
前記参照関係算出部は、参照関係を有する２つのセルについて、前記特徴量より参照元および参照先のセルの役割と参照関係の属性を識別することを特徴とする表構造認識装置。
請求項１に記載の表構造認識装置であって、
表構造情報と、構成するセルの役割および関係性データの組を複数保持する記憶部と、
前記記憶部に保持される表構造情報とセルの役割および関係性データを元に、前記特徴量算出部におけるセル特徴量および近傍セル特徴量の算出に用いる係数を学習し、学習モデルを作成する学習部を有することを特徴とする表構造認識装置。
請求項４に記載の表構造認識装置であって、
前記セルの役割および関連性の推定値それぞれについて、その判断の根拠となったセルあるいは隣接セルの特徴を提示あるいはその重要度を可視化する出力部を備えることを特徴とする表構造認識装置。
請求項４に記載の表構造認識装置であって、
前記表構造認識装置における処理内容を表示出力し、算出結果および入力した表構造を可視化する出力部と、利用者による構造化情報の算出結果への修正入力を受け付ける修正部を備え、修正結果のセル役割あるいはセル関係性情報を前記記憶部に記憶し、再度前記学習部にて係数の算出を実行することを特徴とする表構造認識装置。
請求項１に記載の表構造認識装置であって、
複数の表構造情報を含むファイルが格納される記録装置あるいは記録場所を指定し、指定箇所に含まれるデータのうち、前記入力部が対応している表構造情報を探索、判別し、
探索された表構造情報を前記入力部の入力とする探索部を有することを特徴とする表構造認識装置。
請求項７に記載の表構造認識装置であって、
前記表構造認識装置における処理内容を表示出力し、算出結果および入力した表構造情報を可視化する出力部と、前記探索部から入力される複数の表構造情報それぞれの出力部における出力結果の構造化情報に対し、前記複数の構造化情報の類似性の判定を行い、類似構造が基準値より多く含まれる複数の構造化情報に対して、類似構造を起点としたデータ結合を実行し、マージ結果の構造化情報を出力する、マージ出力部を有することを特徴とする表構造認識装置。
セルによる表構造と文字を含む表構造情報から、前記表構造情報に含まれる各セルの特徴量を算出し、前記特徴量に基づいて前記表構造情報に含まれる２つのセル間の参照関係を算出するとともに、
前記特徴量は、前記表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルの前記セル特徴量と当該セルに対する近傍セルの前記セル特徴量の統計処理により得られる近傍セル特徴量から求められ、前記特徴量に基づいて前記参照関係を算出することを特徴とする表構造認識方法。