JP2022035594A - 表構造認識装置及び表構造認識方法 - Google Patents

表構造認識装置及び表構造認識方法 Download PDF

Info

Publication number
JP2022035594A
JP2022035594A JP2020140032A JP2020140032A JP2022035594A JP 2022035594 A JP2022035594 A JP 2022035594A JP 2020140032 A JP2020140032 A JP 2020140032A JP 2020140032 A JP2020140032 A JP 2020140032A JP 2022035594 A JP2022035594 A JP 2022035594A
Authority
JP
Japan
Prior art keywords
cell
table structure
feature amount
information
recognition device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020140032A
Other languages
English (en)
Inventor
達也 長谷部
Tatsuya Hasebe
和夫 武藤
Kazuo Muto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020140032A priority Critical patent/JP2022035594A/ja
Priority to PCT/JP2021/012308 priority patent/WO2022038821A1/ja
Publication of JP2022035594A publication Critical patent/JP2022035594A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Abstract

Figure 2022035594000001
【課題】統計分析や業務自動化に用いるために、表構造のデータから構成セルなどの表要素間の関連性を認識し、機械可読な構造化データに変換する表構造認識装置を提供する。
【解決手段】セルによる表構造と文字を含む表構造情報を入力する入力部と、表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、特徴量に基づいて表構造情報に含まれる2つのセル間の参照関係を算出する参照関係算出部とを有し、特徴量算出部は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量を算出し、参照関係算出部は、セル特徴量と近傍セル特徴量を含む特徴量に基づいて参照関係を算出することを特徴とする表構造認識装置。
【選択図】図1

Description

本発明は、非構造なデータ形式で記録される表データの認識、構造化を行う表構造認識装置及び表構造認識方法に関する。
現在、コンピューターやスマートデバイスの普及を背景とし、以前にも増して電子データとしてドキュメントが作成されている。さらに近年はハードウェアの技術革新やデータレイクを提供するクラウドサービスの普及により、データの蓄積と保管に要するコストが低下し、より大量かつ多様なデータが記録される機会が増えている。
例えば、金融業においては多種多様な帳票情報が画像や電子ドキュメント形式でやり取りされ、製造業においては、仕様書、開発実験データ、検査結果、量産記録など様々な種類のドキュメントが日々作成される。
一方、これらドキュメントは人間の視認性を重視している、あるいは業務プロセスが頻繁に変化することに起因して、文章フォーマットが統一されていない場合が多い。
近年、これらの取得、記録されたドキュメントに対して、情報の抽出と、抽出情報を用いた統計学習処理や業務自動化を行うことで、意思決定、業務効率化を行うことが期待されている。統計学習処理や業務自動化を行うには、ドキュメントの情報抽出により、ドキュメント情報を機械可読な構造化データに変換する必要がある。構造化データの例としては、キーバリュー形式、ノードグラフ形式、テーブル形式などがある。
情報抽出の取り組みとして、スキャンした紙媒体文章の画像から文字認識を行う光学文字認識OCR(Optical Character Recognition、)や、OCR結果や表の構成や文字の位置関係を用いた文章構造情報の抽出などが以前より取り組まれている。特に、ドキュメントのフォーマットは統一されていない場合が多いことから、未知のフォーマットの文章に対して、その表の構造等を認識し、情報抽出を行うことが求められている。
また、ドキュメントの形式として、紙文書画像だけでなく、表計算形式データやHTML(Hyper Text Markup Language)マークアップ言語のような、業務で頻繁に用いられるソフトウェアにより作成されたものも多い。
一見、表計算形式やHTMLのデータは構造化されているように見えても、視認性を重視して作成される場合が多く、セルの結合、カラムやインデックスの親子関係、複数の表を有するなど、複雑な表が用いられている場合も多い。統計処理や業務自動化に用いるためには、表計算形式のような半構造化データについても、表の構造等を認識し、構造化データを抽出する必要がある。
この点に関し例えば、特許文献1では、画像よりセルの位置関係などの表構造を認識し、記入済みのセルについてのみ2値化処理を行い、高速に文字認識を行う装置が提案されている。
特許文献2では、表構造を認識した上で、表要素の関連文をドキュメントから抜き出し、関連文からルールベースで表要素間の関係を予測、記憶する装置が提案されている。
特開2012-141670号公報 WO2014/002601号公報
上記背景技術に記載の構造化データ抽出のためには、セルや見出しなどの表要素の認識だけでなく、表要素間の意味的な関係性を認識する必要がある。例えば、表にはカラムやインデックスを意味するセルが存在し、数値などの値が書かれているセルはこれらカラム、インデックスに対応した値を意味している、というような意味的な関係性が存在する。その他にも、カラムが階層的になっており親子関係がある、帳票のように項目名と項目値からなるキー・バリューの関係があるなど様々な種類の意味的な関係性が考えられる。
構造化データを抽出するためには、これらを認識する必要がある。しかし、特許文献1に記載された先行技術は、ドキュメントを画像化したデータを対象とし、認識したセルの領域、位置などの幾何的な表構造を元に、文字の認識を行うものである。したがって、表要素間の意味的な関連性の認識は対象としていない。
構造化データ抽出の対象となる表はかならずしも論文中の表など、文中に含まれる表だけではなく、統計表、データ表のような、表のみを含むデータも存在する。特許文献2に記載された先行技術は、文章と表をどちらも含む表構造のみを対象としており、文章中に記載がない表要素間の関連性や、表のみを持つドキュメントについては、対象としていない。
以上のことから、本発明の目的は、統計分析や業務自動化に用いるために、表構造のデータから構成セルなどの表要素間の関連性を認識し、機械可読な構造化データに変換する表構造認識装置及び表構造認識方法を提供することである。
以上のことから本発明においては、「セルによる表構造と文字を含む表構造情報を入力する入力部と、表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、特徴量に基づいて表構造情報に含まれる2つのセル間の参照関係を算出する参照関係算出部とを有し、特徴量算出部は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量を算出し、参照関係算出部は、セル特徴量と近傍セル特徴量を含む特徴量に基づいて参照関係を算出することを特徴とする表構造認識装置」としたものである。
また本発明においては、「セルによる表構造と文字を含む表構造情報から、表構造情報に含まれる各セルの特徴量を算出し、特徴量に基づいて表構造情報に含まれる2つのセル間の参照関係を算出するとともに、特徴量は、表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルのセル特徴量と当該セルに対する近傍セルのセル特徴量の統計処理により得られる近傍セル特徴量から求められ、特徴量に基づいて参照関係を算出することを特徴とする表構造認識方法」としたものである。
本発明によれば、表構造のデータを構成セル等の表要素間の関係性を考慮した構造化データに変換することができ、統計分析や業務自動化への表構造データ活用が容易になる。
本発明の実施例1に係る表認識、データ抽出装置の構成例を示す図。 入力部101に入力される表構造情報D1の一例を示す図。 図2の表構造情報D1を構造化した例を示す図。 表構造情報D1の入力から構造化情報D6の出力までのフローチャート。 図4の処理ステップS407の参照関係の算出処理についての詳細な処理フローを示す図。 本発明の実施例2に係る表認識、データ抽出装置の構成例を示す図。 出力部607における構造化結果の可視化画面701の一例を示す図。 修正部608で表示される修正画面の一例を示す図。
以下本発明の実施例について、図面を用いて詳細に説明する。
図1は、本発明の実施例1に係る表認識、データ抽出装置の構成例を示している。本装置は、入力部101、特徴量算出部102、参照関係算出部108により構成され、セルや文字列、罫線、セル結合のような情報をもつ表構造情報D1を入力部101から入力して、結果として参照関係算出部108から構造化情報D6を出力する。
このうち、入力部101にはセル、セル中の文字列、罫線、セル結合等の情報を保持した表構造情報D1が入力される。表構造情報D1には例えば、表文書のスキャンのOCR、セル画像認識結果として、表計算形式データ、マークアップ形式データなどが含まれる。
特徴量算出部102では、入力部101で入力された表構造情報D1を元に、表構造を構成するセル同士の参照関係の推定のために、特徴量の算出を行う。このため、まず属性情報抽出部104では、特徴量算出のために、表構造情報D1からセル文字列D2a、セル結合D2b、セル罫線D2cといったセルを特徴づけるセル属性情報D2を抽出する。さらにセル特徴量導出部105において、このセル属性情報D2を数ベクトル化しセル特徴量D3を算出するとともに、セル同士の相対的な位置関係を把握する。
次に近傍セル特徴量算出部106において、セル特徴量導出部105で算出した各セルのセル特徴量D3とセル同士の相対的な位置関係を元に、近傍セル特徴量D4を算出する。特徴量算出部107では、セル特徴量D3と近傍セル特徴量D4を結合した特徴量D5を算出する。
最後に、参照関係算出部108では特徴量算出部107で求めた特徴量D5を用いて、各セル同士の参照関係の有無を構造化情報D6として算出する。
図2に入力部101に入力される表構造情報D1の一例を示す。この表構造情報D1は多くの場合、表計算形式のデータやHTMLのようなマークアップ言語形式、あるいはスキャン画像の画像認識結果などから得られる。表構造情報D1は見出し等の文章や複数の表を含んでいる。表構造情報D1の表中の文字列位置は、横方向の複数のカラムCL(この例ではCL1、CL2、CL3)と縦方向のインデックスIN(この例ではIN1、IN2)の番号によって表現できるようになっている。
一例としての図2の表中には、階層構造を持つカラムCL1、CL2や複数セルに跨るカラムCL3、階層構造をもつインデックスIN1、IN2、メタデータを表すキー・バリューの値205、数値や文字列など、データそのものを格納するセル206などが存在している。ここで例えば、親カラムCL1や親インデックスIN1について、セル結合によって表現される場合や、空白セルによって表現される場合など、表現の方法は複数考えられる。
ここで、「階層構造を持つ」とは、例えば親カラムCL1について、「ひずみ」のセルをさらに「最大」と「最小」のセルに区分し、親カラムCL2について、「温度」のセルをさらに「上部」と「底部」のセルに区分し、あるいは親インデックスIN1について、「設計案1」のセルを「試験環境1」、「試験環境2」のセルに区分し、階層化することを意味している。階層の上部を親(親カラム、親インデックス)、下部を子(子カラム、子インデックス)あるいは孫(孫カラム、孫インデックス)とよぶものとする。
なお図2の表は試作実験結果をまとめたものであり、複数の試験環境下での設計案(IN)について、最大最小のひずみ(CL1)、上部底部の温度(CL2)、ならびにこの条件下での不具合の有無(CL3)をマトリクス形式にして纏めたものである。
図3に図2の表構造情報D1を構造化した例として、グラフ形式301と辞書形式302で表したものを示す。図3上部のグラフ形式301は、各セル206をノード、その参照関係をエッジとした有向グラフとして参照関係を表したものである。この記述によれば、各セルの記述内容は、横方向のカラムCLと縦方向のインデックスINとの間に参照関係を有する。有向グラフの場合に、参照関係は階層構造における子から親に向かう方向で表している。
また図3下部の辞書形式302は、JSON(JavaScript Object Notation)に代表されるような、階層型データの表現形式である。辞書形式302では、カラム項目をキーに、項目値をバリューとして格納する。インデックスや親インデックスについては専用のキーを設けてデータを格納している。このため、辞書形式302での構造化のためにはインデックスIN、カラムCL等の認識が必要であり、後述するセル役割の予測が必要である。
図4に表構造情報D1の入力から構造化情報D6の出力までのフローチャートを示す。この処理は、図1の入力部101から、特徴量算出部102を介して参照関係算出部108に至る一連の処理手順を表している。
図4の処理ではまず、入力部101の機能に相当する処理として、処理ステップS402において、表構造情報D1を受け取る。この表構造情報D1は、図2に例示されるようなものであり、セルとセルに対する罫線、セル結合、セルの内容文字列を含んだデータであり、表計算形式、マークアップ形式の表、表のスキャン画像認識結果等を含む。
次に属性情報抽出部104の機能に相当する処理として、処理ステップS403において、表構造情報D1から各セルのセル文字列D2a、セル結合D2b、セル罫線D2cといったセルを特徴づけるセル属性情報D2を抽出する。
ここで、セル文字列D2aである場合には、例えば図2の各セル206内の文字が数値、漢字、小数値などのいずれであるかを区別する情報をセル文字列D2aについてのセル属性情報D2とするのがよい。セル結合D2bである場合には、例えば図2の各セル206が結合されていたときにその結合数をセル結合D2bについてのセル属性情報D2とするのがよい。なお図2左上の空欄のセルの場合には結合数が4であり、ひずみを記述したセルの結合数は2である。セル罫線D2cである場合には、例えば図2の各セル206を囲む枠線について、枠線の有無、あるいは線種、太さをセル罫線D2cについてのセル属性情報D2とするのがよい。なお、ある2セルについて、セルを結合するあるいは、セルを結合しないで罫線で囲むなど、同じ要素を表すのに複数の方法が有る。このため、セル文字列D2a、セル結合D2bに加えて、セル罫線D2cが必要となる。
セル特徴量導出部105の機能に相当する処理として、処理ステップS404において、このセル属性情報D2を数ベクトルに変換する処理を行う。例えば、セル文字列D2aに対しては、セル文字列D2aの分散表現をWord2VecやBERTで算出した結果を用いたり、セル文字列D2aのデータ型(整数、文字列、小数など)を0-1の整数値で表したりすることが考えられる。同様にセル結合D2bには、ある方向へのセル結合数を用いる方法、セル罫線D2cには罫線の有無、太さなどを数値化したもの用いる方法などを、数ベクトル化の手法として利用することができる。これら様々な手法で得られたセル文字列D2aの特徴、セル罫線D2cの特徴、セル結合D2bの特徴を表すベクトルを結合したものをセル特徴量D3とする。
次に近傍セル特徴量算出部106の機能に相当する処理として、処理ステップS405において、各セルの近傍セル特徴量D4の算出を行う。近傍セル特徴量D4はセル毎に、近傍のセル特徴量D3を統計処理することで計算される。ここで、「近傍」とは着目するセルに対して隣接するセルばかりではなく、1セル離れた位置のセル群、あるいは2セル離れた位置のセル群のように、適宜定義して設定するものであってもよい。これらは例えば第一近接や第二近接といった表現で区別される。
処理ステップS405における統計処理の方法として、近傍セル特徴量D4の算出方法としては、着目するあるセルに対して第一近接や第二近接の位置関係にあるセル群のセル特徴量D3を基準のセル特徴量に結合する方法、または第N近接までのセル特徴量D3までを見て畳み込み演算をグラフニューラルネットベースで行う方法、または、全ての近傍セル基準セル以外の全てのセルの特徴量を利用し、注意機構付きのニューラルネット等を用いる方法がある。以上により、各セルについて、近傍セルとの関係性の情報を保持した近傍セル特徴量D4を得ることができる。
特徴量算出部107の機能に相当する処理として、処理ステップS407において、セル特徴量D3と近傍セル特徴量D4を結合した特徴量D5を算出する。
次に参照関係算出部108の機能に相当する処理として、処理ステップS407において、セル特徴量D3と近傍セル特徴量D4を結合した特徴量D5を用いて、セル同士の参照関係を算出する。また最後に参照関係算出部108の機能に相当する処理として、処理ステップS408において、得られた参照関係情報を用いて、元の表構造情報D1を指定された構造化形式のデータである構造化情報D6に変換し、ユーザーに提示する。なお参照関係算出部108の処理フローについて、図5を用いて詳細に説明する。
ここで、セルの参照関係情報から構造化データ形式のデータである構造化情報D6に変換するに際し、表示形式を図3上部のグラフ形式301で出力する場合は、得られた参照関係の情報をそのまま保持する形で変換を行うのがよい。
これに対し、表示形式を図3下部の辞書形式302で出力する場合は、セル同士の参照関係の他に、後述するセル役割の情報が必要である。セル役割の情報により、グラフ上の各ノードがカラムを意味するのか、インデックスや値を意味するのかなど、判別することができ、この情報を用いて、カラムを辞書のキーに、値を辞書の値にする、インデックスは特殊なキーを割り当てるなどの処理により、辞書形式の構造化データを作成することができる。
図5に、図4の処理ステップS407の参照関係の算出処理についての詳細な処理フローを示す。まず処理ステップS502では、本処理フローの開始以前に計算された各セルの近傍セル特徴量およびセル特徴量を結合した特徴量D5を入力する。
次に処理ステップS503では、結合した特徴量D5を用いて、各セルの役割を予測する。セル役割の予測には、結合した特徴量D5を入力として、そのセル206がある役割を持つ確率を0-1で予測するニューラルネットや機械学習などの学習モデルを用いる。ここでの出力確率が一番大きいものをそのセルの役割とする。セル役割としては、カラム、親カラム、インデックス、親インデックス、値、メタデータ、見出し、コメントなど、表中のセル値の役割を網羅する役割分類を用意しておき、これらに対して学習モデルで確率を算出する。
次に処理ステップS504では、各セルのペアに対して、結合した特徴量D5を用いて、参照関係の有無を算出する。参照関係の有無は0-1の値をとる参照関係を有する確率を計算し、適当な閾値に対する大小を判定することによってなされる。参照関係の算出は特徴量D5を用いて、全てのセルの組、あるいは参照関係を持つ可能性の高い一部のセルの組に対して実施され、ニューラルネット等の機械学習により、特徴量D5から参照関係を有する確率を算出する。
例えば同一列のカラム、および同一行のインデックスに含まれる複数のセルの関係において、第1のセル内に記述されている文字が数値であり、第2のセル内に記述されている文字が漢字であるときに、第2のセルが階層関係上は親であり、第1のセルは子であると推定できる可能性が高いということが言える。また結合数が多いセルであるほど、階層関係上は親であると推定できる可能性が高い。枠線がない文字列は、見出しであると推定できる可能性が高い。学習モデルでは、上記のような関係性を利用して、セルの役割として可能性が高いものを抽出し、その確率とともに出力するとともに、参照関係を有する確率を算出する。
ここで、参照関係を持つ可能性の高いセルの組は、セルの幾何的な相対位置関係を用いて、近い列、行にあるものに限る、あるいは、ニューラルネット等によって、各セルがかかわる参照関係の個数を制限する、ことにより選定することで計算を効率化するのがよい。
次処理ステップS505では、セルの役割、及び参照関係の有無の情報を用いて図3上部に例示したような有向グラフ301を構築する。この処理は、セルをノードとして、参照関係を有する場合にエッジを作成する方法で行われる。また、セルの役割の情報はノードに対する付加情報として、グラフ上に記録する。また、参照関係を有する確率はエッジの重みとしてグラフに保持する。なお、参照関係の確率は適宜閾値と比較判断され、確度の高い参照関係のみを抽出することで、有向グラフ301をより正確なものとすることができる。
次に処理ステップS506では、有向グラフ301を図3下部に例示したような辞書形式302の構造化データに変換する場合にエラーの原因と成るループや、変換に対応していないエッジなどを、グラフの次数の検出、ループの検出、部分グラフのマッチングを行い、エラーとなりうるグラフ構造の除去を行う。不要なエッジの削除の際には、参照関係を有する確率が小さいものを優先して除去していく。
最後に処理ステップS507では、前記まで得られたグラフ形式、辞書形式など、指定した構造化データ形式に整合するセルの参照関係グラフを出力する。
上記した本発明の実施例によれば、表構造のデータを構成セル等の表要素間の関係性を考慮した構造化データに変換することができ、統計分析や業務自動化への表構造データ活用が容易になる。
実施例1を拡張した本発明の実施例2に係る表認識、データ抽出装置の構成例を図6に記す。図6の構成は、図1の構成にさらに探索部601、記憶部602、学習部606、出力部607、修正部608、マージ出力部609に機能を追加している。
実施例2では、まず探索部601にて、指定したストレージ、ネットワークパス等の表構造情報D1が保存されている箇所を探索し、複数の表構造情報D1を得る。次に入力部101にて探索部601で得た表構造情報D1を入力する。入力部101、特徴量算出部102、参照関係算出部108の構成は実施例1と同じである。
次に記憶部605には、事前に収集された表構造情報D1と、それに対応する各セルの役割、参照関係の真値のペアが記憶されている。学習部606では、記憶部605の表構造情報D1とセルの役割、参照関係のデータを用いて、参照関係算出部108に含まれる学習モデルの学習を行う。この学習の際には、セルの役割、セルの参照関係の学習をそれぞれ独立して行う、あるいは、ニューラルネットを用いる場合は同時に学習することができる。また、学習にあたっては、参照関係算出部108に含まれる学習モデルの他に、特徴量算出部102で用いられる文字列の数ベクトル化などにTransformerなどのニューラルネットを用いる場合には、これらの学習も含めて行う。学習の損失関数としては、クロスエントロピー等を用い、必要に応じてそれらの重み付き和を用いるのがよい。
出力部607では、参照関係算出部108より出力されるグラフを可視化したり、JSONなどの指定された構造化フォーマットに変換したりする。修正部608では、構造化に誤りが合った場合に、出力されたグラフに対してユーザーが修正を加え、修正結果を反映させて、構造化データを出力する、あるいは、修正履歴を記憶部605に記憶し学習部606にて再学習させることができる。
マージ出力部609では、探索部601にて得られた複数の表構造情報D1それぞれの出力部における出力を結合し、一つのファイル、あるいはデータベースに格納する。結合処理に際しては、例えばJSONにおいては、配列の要素、あるいは、辞書のキーとして複数の構造化結果データを結合させる形で結合処理を行う。
図7に、出力部607における構造化結果の可視化画面701の一例を示す。出力部607の可視化画面701には、構造化結果の可視化部702があり、例えば指定したセル703がどのセルと参照関係を持っているか可視化することができる。この例では指定したセル703は、温度上部と、試験環境2のセルと参照関係を持っていることがわかる
また、可視化画面701には、指定したセル703の役割、参照関係、参照先セルの役割、それを予測するに至った予測根拠の提示部704を備える。予測根拠は、機械学習をもちいる場合はSHAP(SHapley Additive exPlanations)値のような説明変数の重要度の指標、あるいはニューラルネットを使う場合はGradCAMGradient-weighted Class Activation Mapping)のような勾配ベースの方法や注意機構を有する場合は注意機構の重みを用いて、特徴量のランキングを作成し、これを704に表示する。
図示の例では、セル703の役割は「値」であり、セル703に対する表の縦方向での参照関係は「上部」であり、「上部」の役割はカラムであると推定している。またセル703に対する表の横方向での参照関係は「試験環境2」であり、「試験環境2」の役割はインデックスであると推定している。またこのように推定する根拠は、「温度」のセルがセル結合されている点、「設計案1」のセルがセル結合されている点、セル703の文字列が数値の20出あり、文字の型を示している点などにある。
また可視化画面701には、各種の操作ボタンを備える。例えば、JSON形式で出力するための出力ボタン705、データベースDBに登録するための登録ボタン706をクリックすることで、構造化結果の情報をファイルやデータベースDBの形式で出力することができる。データベースDBとしては、リレーショナル・データベースの他、グラフデータベースDBやドキュキュメンデータベースDBが本発明で生成される構造化データの形式と整合している。また、修正ボタン707をクリックすることで、結果を修正部608に移動する。
図8に、修正部608で表示される修正画面を示す。修正画面では、修正箇所指定部801でのセルの指定に対して、指定したセル役割、参照関係を修正表示部802に表示する。セル役割、参照関係の修正表示部802ではセルの役割や参照先のセルをドロップダウンや修正箇所指定クリックで指定できる。また参照関係の削除や追加が可能である。修正は、登録ボタン803をクリックすると出力部607の画面701に遷移すると同時に、修正結果生成された構造化データのグラフと元の表構造データの生データの組を記憶部605に記憶し、学習部606にて再学習を行う。再学習の際は、再学習前と再学習後で学習精度を比較し、向上した場合に新しい再学習後の学習モデルを採用する。学習精度の検証は交差検証精度のf1スコアやAP(Average Precision)等を用いて行う。
101:入力部
102:特徴量算出部
D1:表構造情報
D2:セル属性情報
D3:セル特徴量
D4:近傍セル特徴量
104:属性情報抽出部
108:参照関係算出部
601:探索部
602:記憶部
606:学習部
607:出力部
608:修正部
609:マージ出力部

Claims (9)

  1. セルによる表構造と文字を含む表構造情報を入力する入力部と、前記表構造情報に含まれる各セルの特徴量を算出する特徴量算出部と、前記特徴量に基づいて前記表構造情報に含まれる2つのセル間の参照関係を算出する参照関係算出部とを有し、
    前記特徴量算出部は、前記表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルの前記セル特徴量と当該セルに対する近傍セルの前記セル特徴量の統計処理により得られる近傍セル特徴量を算出し、
    前記参照関係算出部は、前記セル特徴量と前記近傍セル特徴量を含む前記特徴量に基づいて前記参照関係を算出することを特徴とする表構造認識装置。
  2. 請求項1に記載の表構造認識装置であって、
    前記参照関係算出部は、前記参照関係を確率とともに算出し、
    出力部は、設定した確率の閾値に基づいて、キーバリュー形式およびリスト形式のデータ構造の組み合わせたデータ構造、あるいはグラフ形式のデータ構造、あるいは関係データベース互換形式からなる構造化情報として提示することを特徴とする表構造認識装置。
  3. 請求項1に記載の表構造認識装置であって、
    前記参照関係算出部は、参照関係を有する2つのセルについて、前記特徴量より参照元および参照先のセルの役割と参照関係の属性を識別することを特徴とする表構造認識装置。
  4. 請求項1に記載の表構造認識装置であって、
    表構造情報と、構成するセルの役割および関係性データの組を複数保持する記憶部と、
    前記記憶部に保持される表構造情報とセルの役割および関係性データを元に、前記特徴量算出部におけるセル特徴量および近傍セル特徴量の算出に用いる係数を学習し、学習モデルを作成する学習部を有することを特徴とする表構造認識装置。
  5. 請求項4に記載の表構造認識装置であって、
    前記セルの役割および関連性の推定値それぞれについて、その判断の根拠となったセルあるいは隣接セルの特徴を提示あるいはその重要度を可視化する出力部を備えることを特徴とする表構造認識装置。
  6. 請求項4に記載の表構造認識装置であって、
    前記表構造認識装置における処理内容を表示出力し、算出結果および入力した表構造を可視化する出力部と、利用者による構造化情報の算出結果への修正入力を受け付ける修正部を備え、修正結果のセル役割あるいはセル関係性情報を前記記憶部に記憶し、再度前記学習部にて係数の算出を実行することを特徴とする表構造認識装置。
  7. 請求項1に記載の表構造認識装置であって、
    複数の表構造情報を含むファイルが格納される記録装置あるいは記録場所を指定し、指定箇所に含まれるデータのうち、前記入力部が対応している表構造情報を探索、判別し、
    探索された表構造情報を前記入力部の入力とする探索部を有することを特徴とする表構造認識装置。
  8. 請求項7に記載の表構造認識装置であって、
    前記表構造認識装置における処理内容を表示出力し、算出結果および入力した表構造情報を可視化する出力部と、前記探索部から入力される複数の表構造情報それぞれの出力部における出力結果の構造化情報に対し、前記複数の構造化情報の類似性の判定を行い、類似構造が基準値より多く含まれる複数の構造化情報に対して、類似構造を起点としたデータ結合を実行し、マージ結果の構造化情報を出力する、マージ出力部を有することを特徴とする表構造認識装置。
  9. セルによる表構造と文字を含む表構造情報から、前記表構造情報に含まれる各セルの特徴量を算出し、前記特徴量に基づいて前記表構造情報に含まれる2つのセル間の参照関係を算出するとともに、
    前記特徴量は、前記表構造情報の各セルの文字列情報、セル結合情報、罫線情報を数ベクトル化したセル特徴量と、各セルの前記セル特徴量と当該セルに対する近傍セルの前記セル特徴量の統計処理により得られる近傍セル特徴量から求められ、前記特徴量に基づいて前記参照関係を算出することを特徴とする表構造認識方法。
JP2020140032A 2020-08-21 2020-08-21 表構造認識装置及び表構造認識方法 Pending JP2022035594A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020140032A JP2022035594A (ja) 2020-08-21 2020-08-21 表構造認識装置及び表構造認識方法
PCT/JP2021/012308 WO2022038821A1 (ja) 2020-08-21 2021-03-24 表構造認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020140032A JP2022035594A (ja) 2020-08-21 2020-08-21 表構造認識装置及び表構造認識方法

Publications (1)

Publication Number Publication Date
JP2022035594A true JP2022035594A (ja) 2022-03-04

Family

ID=80322608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020140032A Pending JP2022035594A (ja) 2020-08-21 2020-08-21 表構造認識装置及び表構造認識方法

Country Status (2)

Country Link
JP (1) JP2022035594A (ja)
WO (1) WO2022038821A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724156B (zh) * 2022-04-20 2023-07-25 北京百度网讯科技有限公司 表单识别方法、装置及电子设备
CN116011422B (zh) * 2023-03-28 2023-06-09 北京宽客进化科技有限公司 一种结构化表格数据生成方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4476318B2 (ja) * 2007-10-31 2010-06-09 富士通株式会社 論理構造認識プログラム、論理構造認識装置、および論理構造認識方法
US8914419B2 (en) * 2012-10-30 2014-12-16 International Business Machines Corporation Extracting semantic relationships from table structures in electronic documents

Also Published As

Publication number Publication date
WO2022038821A1 (ja) 2022-02-24

Similar Documents

Publication Publication Date Title
US11501061B2 (en) Extracting structured information from a document containing filled form images
US11782928B2 (en) Computerized information extraction from tables
US11615246B2 (en) Data-driven structure extraction from text documents
Nguyen et al. Digital comics image indexing based on deep learning
US9910842B2 (en) Interactively predicting fields in a form
US11954139B2 (en) Deep document processing with self-supervised learning
WO2022038821A1 (ja) 表構造認識装置及び方法
WO2014050774A1 (en) Document classification assisting apparatus, method and program
JP2009193571A (ja) ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
JP2015049574A (ja) インデックス生成装置及び検索装置
JP2015069256A (ja) 文字識別システム
CN116450834A (zh) 一种基于多模态语义特征的档案知识图谱构建方法
JP6714268B1 (ja) 質問文出力方法、コンピュータプログラム及び情報処理装置
Wick et al. Staff, symbol and melody detection of medieval manuscripts written in square notation using deep fully convolutional networks
Le et al. Stroke order normalization for improving recognition of online handwritten mathematical expressions
JP5942361B2 (ja) 画像処理装置及び画像処理プログラム
JP4787955B2 (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
JP2016027493A (ja) 文書分類支援装置、方法及びプログラム
WO2014068770A1 (ja) データ抽出方法、データ抽出装置及びそのプログラム
US20230315799A1 (en) Method and system for extracting information from input document comprising multi-format information
Fischer et al. Line-level layout recognition of historical documents with background knowledge
US20230126022A1 (en) Automatically determining table locations and table cell types
JPWO2014170965A1 (ja) 文書処理方法、文書処理装置および文書処理プログラム
JP4466241B2 (ja) 文書処理手法及び文書処理装置
US11755818B2 (en) Computer-readable recording medium storing design document management program, design document management method, and information processing apparatus