JP2020155054A - 表情報読取装置、表情報読取方法およびプログラム - Google Patents
表情報読取装置、表情報読取方法およびプログラム Download PDFInfo
- Publication number
- JP2020155054A JP2020155054A JP2019055427A JP2019055427A JP2020155054A JP 2020155054 A JP2020155054 A JP 2020155054A JP 2019055427 A JP2019055427 A JP 2019055427A JP 2019055427 A JP2019055427 A JP 2019055427A JP 2020155054 A JP2020155054 A JP 2020155054A
- Authority
- JP
- Japan
- Prior art keywords
- information
- heading
- cell
- table structure
- content entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】表構造を適切に推定する。【解決手段】本発明の一態様は、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出する文書入力部と、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定する表構造推定部と、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する表要素間関係決定部と、を備える表情報読取装置である。【選択図】図1
Description
本発明は、表情報読取装置、表情報読取方法およびプログラムに関する。
特許文献1に記載されている表情報理解システムは、文書中に含まれる表の情報を理解する表情報理解システムであって、文章と表とを含む文書の入力を受け付けて、文章の文字列と、表の構成を示す表構成情報とを抽出する文書入力部と、表構成情報から表の構造を示す表構造情報を推定する表構造推定部とを備える。また、特許文献1に記載されている表情報理解システムは、表のセル内の文字列を示す複数の表要素と関連する表要素関連文を文章から抽出する表要素関連文抽出部と、接続符と2つの被接続項の表記パターンを収集したフォーマットと概念的な構造関係とを対応付けた概念的構造関係推定ルールを蓄積する概念的構造関係推定ルールデータベースと、表要素関連文に含まれる表要素同士の概念的な構造関係を示す表要素間関係情報を概念的構造関係推定ルールに基づき推定すると共に表要素間関係情報と表構造情報とに基づいて表構造間の概念的な構造関係を示す構造関係情報を推定する表要素間関係推定部とを備える。
特許文献1において、被接続項は、特定の単語や文字列、品詞などが該当する。接続符は、2つの被接続項をつなぐ役割をする助詞、述語、記号などが該当する。また、概念的な構造関係とは、文字列間の意味的なhas−a関係(包含関係)、is−a関係(継承関係)、上位/下位関係、部分/全体関係、同義関係、多義関係などに相当する。
また、特許文献1において、表構成情報は、例えば、表を構成する文字列、罫線、および背景色を示す情報である。表構成情報は、例えば、表の何行何列目のセルにどのような文字列が配置されているかを示す情報、表の中のセルの位置を示す行番号と列番号を示す情報と、セル同士の連結の有無を示す連結情報、セルの中の文字列である表要素を示す情報を含む。
また、特許文献1において、表構造情報は、例えば、表のタイトル、列見出し部分、行見出し部分、共通見出し部分、内容記載欄といった表の各要素の種別と各要素間の関係を示す情報である。特許文献1には、表構造情報の推定方法として、一般的に列見出しは表の最上部の行に、行見出しは表の左端の列に、共通見出しは表の左上のセルに割り当てられることが多いことを利用し、これらの位置関係で表の構造を推定するという方法が記載されている。ただし、列見出し、行見出し、共通見出しに割り当てている位置、行数や列数は、表によって大きく異なることがあるため、より精度の高い表の構造の推定方法として、特許文献1には、次の第1の表の構造の推定方法と第2の表の構造の推定方法が記載されている。
すなわち、特許文献1に記載されている第1の表の構造の推定方法は、HTML(Hyper Text Markup Language)やXML(Extensible Markup Language)で記述されたドキュメントであれば<TABLE>タグの中身や文字列を読み取って、紙媒体に記載されたドキュメントであればスキャナで背景色や罫線の種類、文字種別、文字列を読み取って、背景色の変わり目や、罫線が二重線になっている部分を境界として見出し部分と内容記載欄を推定する方法である。また、特許文献1に記載されている第2の表の構造の推定方法は、表要素の文字数や文字種別の構成が大きく変わる部分を境界として見出し部分と内容記載欄を推定する方法である。
特許文献1に記載されている表情報理解システムによれば、表要素関連文に含まれる表要素同士の概念的な構造関係を示す表要素間関係情報と、表構造情報とに基づいて表構造間の概念的な構造関係を示す構造関係情報が推定される。すなわち、特許文献1に記載されている表情報理解システムでは、表構成情報に含まれた表要素に関連する表要素関連文が、文書入力部で読み取ったドキュメント(表外の文章)から抽出され、表要素関連文と概念的構造関係推定ルールデータベースに蓄積された概念的構造関係推定ルールとから、表の見出し間の概念的関係や見出しと内容の概念的関係が例えば、has−a関係やis−a関係として推定される。この構成によれば、表以外の文章(テキスト)を利用して、表要素の役割を認識(理解)することができる。
上述した特許文献1に記載されている表情報理解システムでは、基本的に、表構造推定部によって、各セルを見出し部分と内容記載欄のいずれかに分類することで表構造が推定される。しかしながら、表によっては、見出し部分と内容記載欄のどちらにも分類されないセルを含む場合がある。例えば、見出し部分と内容記載欄の関係を変えずに、内容記載欄の内容を分類したり、内容記載欄の内容に関する参照情報を示したりするためのセルである。このようなセルとしては、例えば、文書内の項目番号、項目番号とタイトル、ページ番号等を内容とするセルが挙げられる。例えば、このようなセルを見出し部分と分類した場合、その見出し部分は、多くの場合、内容記載欄に対して有意な関係性を有しないことになる。一方、このようなセルを内容記載欄と分類した場合、その内容は、本来の見出し部分に対して正しい対応関係を有しないことが多くなる。したがって、このようなセルを含む表の各セルを、見出し部分と内容記載欄のいずれかに分類することで表構造を推定した場合、推定された表構造情報が有意ではない情報を多く含んでしまう場合があるという課題がある。
本発明は、上記事情を考慮してなされたものであり、表構造を適切に推定することができる表情報読取装置、表情報読取方法およびプログラムを提供することを目的とする。
上記課題を解決するため、本発明の一態様は、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出する文書入力部と、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定する表構造推定部と、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する表要素間関係決定部と、を備える表情報読取装置である。
また、本発明の一態様は、前記表構造推定部が推定した前記表構造情報に基づいて、改ページ前後に存在する2つの表の結合処理を行う表構造修正部をさらに備える上記表情報読取装置である。
また、本発明の一態様は、前記表構造修正部は、前記2つの表の結合処理を行う際に、改ページ後に存在する前記表のセルが同列の各セルと比較して差異を有する場合、前記改ページ前後に存在する2つの表に含まれる前記内容記入要素である2つのセルをセル結合する上記表情報読取装置である。
また、本発明の一態様は、前記表構造推定部は、前記各セルの表記の形式が所定の条件を満たしかつ該条件を満たすセルの個数の前記表の全セル数に占める割合が所定の値未満である場合、セル内容が所定の内容である場合、または、表形状と当該セルの位置が所定の位置にある場合、当該セルを見出し候補要素とし、前記見出し候補要素とした各セルの位置または他の見出し候補要素との位置関係が所定の位置関係である場合に当該セルを前記見出し要素とし、満たさない場合に前記その他の要素とし、前記見出し候補要素とされなかった各セルを前記内容記入要素とする上記表情報読取装置である。
また、本発明の一態様は、文書入力部と表構造推定部と表要素間関係決定部を備える表情報読取装置において、前記文書入力部によって、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出し、前記表構造推定部によって、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定し、前記表要素間関係決定部によって、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する表情報読取方法である。
また、本発明の一態様は、文書入力部と表構造推定部と表要素間関係決定部を機能的要素として備えるコンピュータに、前記文書入力部によって、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出し、前記表構造推定部によって、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定し、前記表要素間関係決定部によって、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する処理を実行させるプログラムである。
本発明の各態様によれば、表構造を適切に推定することができる。
以下、図面を参照して本発明の実施形態について説明する。まず、図1と、図6〜図15を参照して、図1に示す本発明の一実施形態に係る表情報読取装置10について構成と概略の動作例について説明する。
なお、図1は、本発明の一実施形態に係る表情報読取装置10の概略構成例を示すブロック図である。図2は、図1に示す表情報読取装置10の動作例を示すフローチャートである。図3は、図1に示す表構造推定部2の動作例を示すフローチャートである。図4および図5は、図1に示す表構造修正部3の動作例を示すフローチャートである。図6および図7は、図1に示す文書入力部1の動作例を説明するための模式図である。図8〜図12は、図1に示す表構造推定部2の動作例を説明するための模式図である。図13は、図1に示す表構造修正部3の動作例を説明するための模式図である。図14は、図1に示す表要素間関係決定部4の動作例を説明するための模式図である。図15は、図1に示す表情報変換部5の動作例を説明するための模式図である。図16〜図18は、図1に示す表情報読取装置10の動作例を説明するための模式図である。なお、各図において、同一または対応する構成には同一の符号を付け、説明を適宜省略する。
図1に示す表情報読取装置10は、サーバ、パーソナルコンピュータ、スマートフォン等のコンピュータを備える電子機器とその周辺装置等から構成することができる。図1に示す表情報読取装置10は、コンピュータや周辺機器が有するハードウェアと、コンピュータが実行するソフトウェア(プログラム等)との組み合わせからなる機能的要素として、文書入力部1、表構造推定部2、表構造修正部3、表要素間関係決定部4および表情報変換部5を備える。
文書入力部1は、文書情報の入力を受け付けて、文書情報に含まれる表の構成を表す表構成情報を抽出する。文書情報は、ワープロソフト、表計算ソフト等で作成された文書ファイル、HTML(Hyper Text Markup Language)やXML(Extensible Markup Language)で記述された文書ファイル、紙媒体の文書を撮影した画像ファイルや文書を画像データとして含む所定形式の文書ファイルを、OCR(Optical Character Reader)用のエンジン等を用いて所定形式のファイル(文字列、メタデータ等を含むファイル)に変換した情報等である。文書情報は、例えば、文章、表、図等を表す情報を含む。また、文書情報は、例えば、図6に示すように、文章が、ヘッターなのか(として検出されたのか)、本文なのか(として検出されたのか)、フッターなのか(として検出されたのか)という情報を含む。図6は、OCRによる文書情報の抽出例を模式的に示す。また、文書情報は、例えば、図7に示すように、セルの結合(列の結合)を示す情報D101aや、フォントと背景色を示す情報D102aを含む。図7は、表T101と、表T101を表すXML形式の文書情報の一部である情報D101と情報D102を表す。情報D101は、セルC101を表す情報であり、情報D101は、セルC101を表す情報である。なお、表構成情報が例えばOCRのエンジンを用いて画像データから作成されたものである場合、表の罫線やセル結合に関する情報には誤差が含まれていることがある。
なお、文書情報は、表については、例えば、表構成情報として、表を構成する複数のセルの行数および列数、行番号、列番号、セルの大きさ(幅、高さ)、セルの内容(数値、文字等)、フォント、文字の色、セルの背景色、罫線、セルの結合状態等を表す情報を含む。
図1に示す表構造推定部2は、文書入力部1が抽出した表構成情報に基づいて、表を構成する各セルが、「見出し要素」、「内容記入要素」または「その他の要素」のいずれに該当するのかを推定するとともに、罫線の推定やセル結合の推定を行い、表の構造を表す情報である表構造情報を推定する。「見出し要素」、「内容記入要素」および「その他の要素」は、各セルを役割によって分類する各セルの属性である。「見出し要素」のセルは、見出し行または見出し列に含まれるセルである。ここで、見出し行は当該行を構成する複数のセルが「見出し要素」である行であり、見出し列は当該列を構成する複数のセルが「見出し要素」である列である。「内容記入要素」のセルは、「見出し要素」に関する内容の記入があるセルである。「その他の要素」は、「見出し要素」と「内容記入要素」以外のセルである。
図8に示すように、表T102では、例えば、「X」、「A」、「B」、「C」および「D」を内容とする各セルが「見出し要素」、「11」、「12」、「13」、「14」、「21」、「22」、「23」、「24」、「41」、「42」、「43」、および「44」を内容とする各セルが「内容記入要素」、「Y」を内容とするセルとそのセルと同じ行で左端のセルが「その他の要素」にそれぞれ分類される。この場合、表構造推定部2は、背景色が色つけされている(図上では色つけを網掛けで示す)上から1行目と2行目の各セルが「見出し要素」であると推定し、背景色が色つけされていない各セルが「内容記入要素」であると推定し、背景色が色つけされているものの「見出し要素」のセルに連続していない(離間している)上から5行目の各セルを「その他の要素」であると推定している。なお、図8は、表構造推定部2による表構造の推定例を模式的に示す。この場合、表T102では、例えば、「見出し要素」である「X」および「A」と、「内容記入要素」である「11」、「21」および「41」が対応関係を有する。
また、表構造推定部2は、文書入力部1が抽出した表構成情報に基づいて、例えば図9に示すように罫線を推定する。図9は、文書入力部1が抽出した表構成情報によれば横方向の罫線のみを含む表T103に対して、表構造推定部2が文字列の間隔等に基づき、破線で示す縦方向の2本の罫線を推定して追加した表T103aを模式的に示す。
また、表構造推定部2は、文書入力部1が抽出した表構成情報に基づいて、例えば図10に示すようにセル結合を推定する。図10は、文書入力部1が抽出した表構成情報に基づく5行3列の表T104に対する表構造推定部2によるセル結合の推定例を模式的に示す。この場合、表T104では1行目の3つのセルがセル結合(内容「ABC」)されている。また、表T104では、1行目と2行目の背景色が色つけされている。この場合、表構造推定部2が、文書入力部1が抽出した表構成情報に基づいて1行目と2行目の各セルが「見出し要素」に該当すると推定した場合、表T104中でセル結合された1行目のセルの内容「ABC」を表T104aのように3個のセルに分配することで表構造を推定する。一方、例えば、文書入力部1が抽出した表構成情報に基づく表が表T104bのように1行目の中央のセルの内容が「ABC」で左右の2個のセルの内容が無い場合、表構造推定部2は、1行目の各セルが「見出し要素」に該当すると推定したとき、1行目の3個のセルは結合されていると推定し、中央のセルの内容「ABC」を表T104aのように3個のセルに分配した構造で表構造を推定する。
なお、「その他の要素」を含む表構造は、例えば図11に示すように各セルに対するトータル表記とする例や、図12に示すようにサブ見出しとする例がある。図11は「その他の要素」のセルをトータル表記として含む表T105を模式的に示し、図12は「その他の要素」のセルをサブ見出しとして含む表T106を模式的に示す。いずれの場合も「その他の要素」のセルであり、「内容記入要素」のセルではない。
また、図1に示す表構造修正部3は、表構造推定部2が推定した表構造情報に基づいて、改ページ前後に存在する2つの表の結合処理を行う。図13は、表構造修正部3による表の結合処理の例を示す模式図である。図13は、7行3列の表T107が、改ページ前後で分断されている4つの例E1〜E4を示す。表T107では、1行目の3個のセル(内容「A」、「B」および「C」)が「見出し要素」であり、見出し行R1を構成している。表T107の他のセルは、「内容記入要素」である。
例E1では、改ページ前のページP11に見出し行R1と内容「aa」、「ab」、「ac」、「ba」、「bb」、「bc」、「ca」、「cb」、および「cc」の9個のセルが存在し、改ページ後のページP12に見出し行R1と内容「da」、「db」、「dc」、「ea」、「eb」、「ec」、「fa」、「fb」、および「fc」の9個のセルが存在する。
例E2では、改ページ前のページP21に見出し行R1と内容「aa」、「ab」、「ac」、「ba」、「bb」、「bc」、「ca」、「cb」、および「cc」の9個のセルが存在し、改ページ後のページP22に内容「da」、「db」、「dc」、「ea」、「eb」、「ec」、「fa」、「fb」、および「fc」の9個のセルが存在する。例E2では、改ページ後のページP22に見出し行R1は含まれていない。
例E3では、改ページ前のページP31に見出し行R1と内容「aa」、「ab」、「ac」、「ba」、「bb」、「bc」、「c」、「c」、および「c」の9個のセルが存在し、改ページ後のページP32に見出し行R1と内容「a」、「b」、「c」、「da」、「db」、「dc」、「ea」、「eb」、「ec」、「fa」、「fb」、および「fc」の12個のセルが存在する。例E3では、表T107の上から4行目の3個のセル(内容「ca」、「cb」および「cc」の3個のセル)が、改ページ前のページP31と改ページ後のページP32に分断されている。
例E4では、改ページ前のページP41に見出し行R1と内容「aa」、「ab」、「ac」、「ba」、「bb」、「bc」、「c」、「c」、および「c」の9個のセルが存在し、改ページ後のページP42に内容「a」、「b」、「c」、「da」、「db」、「dc」、「ea」、「eb」、「ec」、「fa」、「fb」、および「fc」の12個のセルが存在する。例E4では、改ページ後のページP42に見出し行R1は含まれていない。また、例E4では、表T107の上から4行目の3個のセル(内容「ca」、「cb」および「cc」の3個のセル)が、改ページ前のページP41と改ページ後のページP42に分断されている。
表構造修正部3は、図13に示すように複数種類のパターンで改ページ前後で分断された2つの表を、すべて同じ表T107に修正する。表構造修正部3の詳細な動作例については後述する。
また、図1に示す表要素間関係決定部4は、表毎に、「見出し要素」に該当するセルおよび「内容記入要素」に該当するセルの、表における位置関係に基づいて、「見出し要素」に含まれる情報と「内容記入要素」に含まれる情報との関係を決定する。本実施形態において表要素間関係決定部4は、まず、表をタイプ分類(図14)し、表タイプに基づいて、見出し行・列(「見出し要素」)と「内容記入要素」との関係(表要素間関係)に適用すべき規則(表情報変換部5が情報変換に使用する変換規則)を決定する。
図14は、本実施形態における表のタイプ分類の例(表タイプ)を示す模式図である。なお、タイプ分類される各表(表タイプ)は、「その他の要素」に該当するセルを含まない、「見出し要素」に該当するセルと「内容記入要素」に該当するセルから構成されている。図14において、網掛けして示したセルが「見出し要素」に該当し、白抜きのセルが「内容記入要素」に該当する。図14において、表タイプTY1は「内容記入要素」のセルのみから構成される表のタイプである。表タイプTY2は、一番上の行に並んだ「見出し要素」の複数のセルで構成した見出し行と、「内容記入要素」の複数のセルから構成される表のタイプである。表タイプTY3は、一番左の列に並んだ「見出し要素」の複数のセルで構成した見出し列と、「内容記入要素」の複数のセルから構成される表のタイプである。表タイプTY4は、一番上の行に並んだ「見出し要素」の複数のセルで構成した見出し行と、一番左の列に並んだ「見出し要素」の複数のセルで構成した見出し列と、「内容記入要素」の複数のセルから構成される表のタイプである。
表タイプTY5は、「見出し要素」の複数のセルで構成したn段の見出し行と、「内容記入要素」の複数のセルから構成される表のタイプである。表タイプTY6は、「見出し要素」の複数のセルで構成したm段の見出し列と、「内容記入要素」の複数のセルから構成される表のタイプである。表タイプTY7は、「見出し要素」の複数のセルで構成したn段の見出し行と、「見出し要素」の複数のセルで構成したm段の見出し列と、「内容記入要素」の複数のセルから構成される表のタイプである。
図15は、表タイプに基づく変換規則の例を模式的に示す。図15に示す例では、表要素間関係決定部4によって、6行4列の表T108に対して表のタイプが図14に示す表タイプTY2であると特定される。この表タイプTY2に対しては規則RL2が適用される。規則RL2では、「内容記入要素」毎に、当該「内容記入要素」に対応する「見出し要素」と当該「内容記入要素」を記号「|」(縦線)で区切って並べて角括弧「[」と「]」で囲うことで(例えば「[A|aa]」で)、「見出し要素」と「内容記入要素」の対応関係を示す。次に、各「見出し要素」と同じ行に位置する他の「見出し要素」について、「見出し要素」と「内容記入要素」の対応関係(例えば「[A|aa]」)を、行単位で「,」(コンマ)で区切って並べて波括弧「{」と「}」で囲ったもの(例えば「{[A|aa],[B|ab],[C|ac]}」)で、各行の「見出し要素」と「内容記入要素」の対応関係をセルの並び順で示す。そして、各行の「見出し要素」と「内容記入要素」の対応関係を、「,」(コンマ)で区切って列数から見出し要素の行数を引いた数だけ並べることで(「{[A|aa],[B|ab],[C|ac]},{[A|ba],[B|bb],[C|bc]},{[A|ca],[B|cb],[C|cc]}」で)、表中のすべてのセルの「見出し要素」と「内容記入要素」の対応関係を示す。また、図14において、規則RL2を表T108の表構造に適用して表構造を変換した結果が表情報D201である。
表情報D201によれば、例えば、表T108の2行目について、「見出し要素」の「Fault Category」と「内容記入要素」の「0」が対応し、「見出し要素」の「FPMK」と「内容記入要素」の「81」が対応し、「見出し要素」の「λ」と「内容記入要素」の「8.1×10−6」が対応し、そして、「見出し要素」の「MKBF」と「内容記入要素」の「12 350(km)」が対応しているという縦横両方向のセル要素間の関係を、横方向にテキストを読むことで、理解することができる。
また、図1に示す表情報変換部5は、表要素間関係決定部4が決定した表要素間関係に基づき決定された変換規則を適用して、表構造修正部3で得た表構造情報を、例えば図15の表情報D201のような目的の形式の情報に変換し、出力する。本実施形態において、表情報は、表を構成する各要素間の関係(例えば「見出し要素」と「内容記入要素」と間の関係)を示す情報である。
次に、図2〜図5に示すフローチャートと、図16〜図18等を参照して、図1に示す表情報読取装置10が表情報を読み取る動作の例について詳細に説明する。表情報読取装置10では、まず、文書入力部10が、表情報の読み取りを行う対象となる文書情報を入力する(ステップS1)。次に、文書入力部10は、入力した文書情報に表が含まれているか否かを判断し(ステップS2)、含まれていない場合には(ステップS2で「NO」の場合には)、図2に示す処理を終了する。一方、入力された文書情報に表が含まれている場合(ステップS2で「YES」の場合)、文書入力部10は、文書内の各表について、表構成情報を抽出する(ステップS3)。
例えば、ステップS1で、文書入力部10が、図7を参照して説明した表T101を含む図16に示す文書DC1を表す文書情報を入力したとする。この場合、文書入力部10は、ステップS3で図16に示すような表構成情報D301を抽出する。図16に示す表構成情報D301は、表T101の構成を表す情報として、「・6行4列の表、・1行目、2行目が色つき、・1行目の2列目から4列目までがセル結合、…」といった情報を含む。
次に、表構造推定部2が、表構成情報に基づいて表構造を推定する(ステップS4)。ステップS4で、表構造推定部2は、罫線を推定し(ステップS41)、各セルを、見出し要素、内容記入要素、または、その他の要素に分類し(ステップS42)、セル結合を推定する(ステップS43)。なお、ステップS41〜S43の処理は、再帰的に繰り返して実行してもよい。
図3は、ステップS42における処理内容の例を示す。表構造推定部2は、各セルについて、内容を表す文字、数字、記号等がボールドまたはイタリック等の文字等を強調するようなフォントで記載されていたり、あるいは文字色で記載されているか否かを判断する(ステップS101)。ボールドまたはイタリックでは無い場合(ステップS101で「NO」の場合)、表構造推定部2は、各セルについて、背景色が色つきである(表全体の背景色と異なる色の背景色である)か否かを判断する(ステップS102)。
内容を表す文字等がボールドまたはイタリック等の文字等を強調するようなフォントや色で記載されている場合(ステップS101で「YES」の場合)、または、背景色が色つきの場合(ステップS102で「YES」の場合)、表構造推定部2は、当該各セルを見出し候補要素(「見出し要素」の候補)に設定する(ステップS103)。次に、表構造推定部2は、ステップS103で見出し候補要素に設定した各セルのセル数が、表の全セル数の2分の1より小さいか否かを判断する(ステップS104)。表の全セル数の2分の1より小さくない場合(ステップS104で「NO」の場合)、表構造推定部2は、ステップS103で見出し候補要素に設定した各セルを、見出し候補要素から除外する(ステップS109)。
背景色が色つきでないと判断された場合(ステップS102で「NO」の場合)、または、見出し候補要素から除外された場合(ステップS109)、表構造推定部2は、各セルについて、セル内容(セルの文字、数値、記号の意味的な内容)が所定の条件を満たすか否かを判断する(ステップS110)。ステップS110で判断される所定の条件は、例えば、各セルの文字列の長さを全セルで相対的に評価した結果、各セルの内容が文字列と数値のどちらなのかを全セルで相対的に評価した結果、行毎あるいは列毎の文字列の長さや数値数の傾向を他の行あるいは列との比較で評価した結果等が、見出し要素である可能性が高いと考えられる条件である。セル内容が所定の条件を満たす場合(ステップS110で「YES」の場合)、表構造推定部2は、条件を満たす各セルを見出し候補要素に設定する(ステップS111)。
セル内容が所定の条件を満たさない場合(ステップS110で「NO」の場合)、表構造推定部2は、表形状と当該セルの位置が所定の条件を満たすか否かを判断する(ステップS112)。ステップS112で判断される所定の条件は、例えば、当該セルがセル結合されたセルに含まれているとか、例えば表形状が図14に示す表タイプTY4のように左上のセルが無い場合に(あるいは左上のセルの内容が無く、同一行または同一列の他のセルに内容がある場合に)、当該セルが左上のセルと同一行または同一列の他のセルであるといった条件である。表形状と当該セルの位置が所定の条件を満たす場合(ステップS112で「YES」の場合)、表構造推定部2は、条件を満たす各セルを見出し候補要素に設定する(ステップS113)。
一方、ステップS103で見出し候補要素に設定した各セルのセル数が、表の全セル数の2分の1より小さい場合(ステップS104で「YES」の場合)、または、ステップS111もしくはステップS113で見出し候補要素に設定された場合、表構造推定部2は、見出し候補要素のセルが1段目(上から1行目または左から1列目)のセルであるか否かを判断する(ステップS105)。見出し候補要素のセルが1段目(上から1行目または左から1列目)のセルである場合(ステップS105で「YES」の場合)、表構造推定部2は、当該セルを「見出し要素」に分類する(ステップS106)。他方、見出し候補要素のセルが1段目(上から1行目または左から1列目)のセルでない場合(ステップS105で「NO」の場合)、表構造推定部2は、当該セルの1段前が「見出し要素」であるか否かを判断する(ステップS107)。当該セルの1段前が「見出し要素」である場合(ステップS107で「YES」の場合)、表構造推定部2は、当該セルを「見出し要素」に分類する(ステップS106)。他方、当該セルの1段前が「見出し要素」でない場合(ステップS107で「NO」の場合)、表構造推定部2は、当該セルを「その他の要素」に分類する(ステップS108)。
また、表形状と当該セルの位置が所定の条件を満たさない場合(ステップS112で「NO」の場合)、表構造推定部2は、当該セルを「内容記入要素」に分類する(ステップS114)。
例えば、図2のステップS4で、表構造推定部2は、図16に示す表構成情報D301に基づき、文書入力部1で得られた情報が正しいか否かを判断するとともに、表T101の上2行がセルなので「見出し要素」、他の行は「内容記入要素」と推定する(D302)。また、ステップS4で、表構造推定部2は、表T101の1行目の右側のセルC101が3列分のセルを結合したセルであると推定し、表T101aのようにセルC101の内容を3個のセルC201、C202およびC203に分配する(D303)。なお、図17は、図16に示す表T101aと同一の表を拡大して示す。
図2において、ステップS4で表構造推定部2が表構成情報に基づいて表構造を推定した後、表構造修正部3は、表構造を修正する(ステップS5)。ステップS5で、表構造修正部3は、表の分断の有無を判断し(ステップS51)、分断されている表を結合する(ステップS52)。
図4は、ステップS51における処理内容の例を示す。表構造修正部3は、文書情報に含まれた各ページについて、改ページ前後に本文を挟まずに2つの表があるか否かを判断する(ステップS201)。改ページ前後に本文を挟まずに2つの表がある場合(ステップS201で「YES」の場合)、表構造修正部3は、ステップS201の条件を満たす各表について、当該2つ表の列数と幅が互いに同じであるか否かを判断する(ステップS202)。2つ表の列数と幅が互いに同じである場合(ステップS202で「YES」の場合)、表構造修正部3は、当該2つの表を分断された表であると判断する(ステップS203)。
一方、ステップS201の条件またはステップS202の条件を満たさない場合(ステップS201またはステップS202で「NO」の場合)、表構造修正部3は、条件を満たさない表が分断された表ではないと判断する(ステップS204)。
また、図5は、ステップS52における処理内容の例を示す。図5に示す処理において、表構造修正部3は、図4のステップS203で分断表であると判断された各表について、まず、改ページ後の表に「見出し要素」があるか否かを判断する(ステップS301)。改ページ後の表に「見出し要素」がある場合(ステップS301で「YES」の場合)、表構造修正部3は、改ページ後の表の「見出し要素」が背景色・フォントにより決定した「見出し要素」であるか否かを判断する(ステップS302)。
改ページ後の表の「見出し要素」が背景色・フォントにより決定した「見出し要素」である場合(ステップS302で「YES」の場合)、表構造修正部3は、改ページ前後の「見出し要素」の色・フォントが同じであるか否かを判断する(ステップS303)。改ページ前後の「見出し要素」の色・フォントが同じでない場合(ステップS303で「NO」の場合)、表構造修正部3は、改ページ後の「見出し要素」を「内容記入要素」と再判定する(ステップS304)。一方、改ページ前後の「見出し要素」の色・フォントが同じである場合(ステップS303で「YES」の場合)、表構造修正部3は、「見出し要素」中の文字列が同じであるか否かを判断する(ステップS306)。
「見出し要素」中の文字列が同じでない場合(ステップS306で「NO」の場合)、表構造修正部3は、当該表が分断表ではないと判断する(ステップS308)。一方、「見出し要素」中の文字列が同じである場合(ステップS306で「YES」の場合)、表構造修正部3は、当該表(改ページ後の表)で見出し要素重複除去処理(改ページ後の「見出し要素」を除去する処理)を行う(ステップS307)。
他方、改ページ後の表に「見出し要素」がない場合(ステップS301で「NO」の場合)、または、当該表で見出し要素重複除去処理を行った場合(ステップS307)、表構造修正部3は、改ページ後の1行目セル(「内容記入要素」のセル)が同列(同列の「内容記入要素」のセル)と比較して差異があるか否かを判断する(ステップS309)。改ページ後の1行目セルが同列と比較して差異がある場合(ステップS309で「YES」の場合)、表構造修正部3は、改ページ前後の2つの表について、改ページ前後の各2つのセル(「内容記入要素」のセル)についてセル結合処理を行うとともに、表結合処理を行う(ステップS310)。一方、改ページ後の1行目セルが同列と比較して差異がない場合(ステップS309で「NO」の場合)、または、改ページ後の「見出し要素」を「内容記入要素」と再判定した場合(ステップS304)、表構造修正部3は、改ページ前後の2つの表について、表結合処理を行う(ステップS305)。
図5に示す分断表の結合処理において、表構造修正部3は、例えば図13に示す改ページ前後で表が分断されている4つの例E1〜E4に対して次のように結合処理を行う。すなわち、例E1に対して、表構造修正部3は、「見出し要素」の重複除去処理を行った後(ステップS307)、表結合処理を行って(ステップS305)、表T107を生成する。また、例E2に対して、表構造修正部3は、「見出し要素」の重複除去処理を行わずに、表結合処理を行って(ステップS305)、表T107を生成する。また、例E3に対して、表構造修正部3は、「見出し要素」の重複除去処理を行った後(ステップS307)、セル結合処理と表結合処理を行って(ステップS310)、表T107を生成する。また、例E4に対して、表構造修正部3は、「見出し要素」の重複除去処理を行わずに、セル結合処理と表結合処理を行って(ステップS310)、表T107を生成する。
図2において、ステップS5で表構造修正部3が表構造を修正した後、表要素間関係決定部4が、修正された表構造に基づいて表要素間関係を決定する(ステップS6)。ステップS6で、表要素間関係決定部4は、表構造に基づいて表タイプを決定し(ステップS61)、表タイプに基づき変換規則を決定する(ステップS62)。
例えば図16および図17に示す表T101aに対して、ステップS61において、表要素間関係決定部4は、表T101aの表構造に基づいて、図18(a)に示すように、表T101aの表タイプが、上2行が「見出し要素」(見出し行が2段)で見出し列が無い図14に示す表タイプTY5(n=2)であると判断する。次に、ステップS62において、表要素間関係決定部4は、図18(a)に示すように、一旦、2段の「見出し要素」を結合記号「||」を用いて1段の「見出し要素」とすることで表T101aの表タイプを図14に示す表タイプTY2に類似する表タイプTY401に変換する。そして、表要素間関係決定部4は、表T101aに適用する変換規則を、見出し要素(見出し行)が多段の場合の変換規則RL401に決定する。
規則RL401では、「内容記入要素」毎に、当該「内容記入要素」に対応する2段の「見出し要素」を記号「||」(2本の縦線)で区切って並べて、さらに当該「内容記入要素」を記号「|」(1本の縦線)で区切って並べて角括弧「[」と「]」で囲うことで(例えば「[A1||A2|aa]」で)、2段の「見出し要素」と「内容記入要素」の対応関係を示す。次に、2段の「見出し要素」と「内容記入要素」の対応関係を、行単位で「,」(コンマ)で区切って並べて波括弧「{」と「}」で囲ったもので、各行の2段の「見出し要素」と「内容記入要素」の対応関係をセルの並び順で示す。そして、各行の2段の「見出し要素」と「内容記入要素」の対応関係を、「,」(コンマ)で区切って列数から見出し要素の行数を引いた数だけ並べることで(「{[A1||A2|aa],[B1||B2|ab],[C1||C2|ac]},{[A1||A2|ba],[B1||B2|bb],[C1||C2|bc]},{[A1||A2|ca],[B1||B2|cb],[C1||C2|cc]}」で)、表中のすべてのセルの2段の「見出し要素」と「内容記入要素」の対応関係を示す。
図2において、ステップS6で表要素間関係決定部4が表要素間関係(表タイプと変換規則)を決定した後、表情報変換部5が、表構造と表要素間関係に基づき表構造を所定形式の表情報に変換する(ステップS7)。表情報変換部5は、例えば、図17に示す表T101aに対して、図18(a)に示す表情報D401を出力する。図18(a)に示す表情報D401は、図17に示す表T101aの3行目の各セル(「内容記入要素」)に対応する表要素間の関係を示す情報を含んでいる。
なお、例えば、図14に示す表タイプTY4のように、見出し行と見出し列の両方の「見出し要素」を有する場合には、例えば図18(b)に変換規則RL4として示すように、見出し行中の「見出し要素」と見出し列中の「見出し要素」を記号「|||」(3本の縦線)で区切って並べて、さらに「見出し要素」と「内容記入要素」を記号「|」(1本の縦線)で区切って並べることによって「見出し要素」と「内容記入要素」の関係を示す変換規則を適用することができる。なお、変換規則(例えば各要素の並べ方)や表記の際に使用する記号は任意に設定することができる。図18(b)に示す変換規則RL4によれば、計算機において読み取り方向が一方向に限られるテキスト形式で、表構造における縦横の関係性を記述することができる。
以上のように本実施形態の表情報読取装置10は、文書情報の入力を受け付けて、文書情報に含まれる表の構成を表す表構成情報を抽出する文書入力部1と、表構成情報に基づいて、表を構成する各セルが、「見出し要素」、「内容記入要素」または「その他の要素」のいずれに該当するのかを表す表構造情報を推定する表構造推定部2と、「見出し要素」に該当するセルおよび「内容記入要素」に該当するセルの、表における位置関係に基づいて「見出し要素」に含まれる情報と「内容記入要素」に含まれる情報との関係を決定する表要素間関係決定部4とを備える。この構成によれば、表の構成要素を「見出し要素」、「内容記入要素」または「その他の要素」の3種類の要素に分類することができるので、容易に、表構造を適切に推定することができる。
また、本実施形態の表情報読取装置10は、表構造推定部2が推定した表構造情報に基づいて、改ページ前後に存在する2つの表の結合処理を行う表構造修正部3をさらに備える。この構成によれば、表が複数のページにわたって記述されている場合でも、表構造を正しく推定することができる。
また、本実施形態の表構造修正3は、2つの表の結合処理を行う際に、改ページ後に存在する表のセルが同列の各セルと比較して差異を有する場合(図5のステップS309で「YES」の場合)、改ページ前後に存在する2つの表に含まれる「内容記入要素」である2つのセルをセル結合する。この構成によれば、セルの内容が分断されている場合でも、表構造を正しく推定することができる。
なお、表構造推定部2は、各セルの表記の形式(フォント、文字色や背景色)が所定の条件(図3のステップS101の条件またはステップS102の条件)を満たしかつその条件を満たすセルの個数の表の全セル数に占める割合が所定の値未満である(ステップS104の判断)場合、セル内容が所定の内容である(ステップS110の条件を満たす場合)、または、表形状と当該セルの位置が所定の位置である(ステップS112の条件を満たす場合)、当該セルを見出し候補要素とし、見出し候補要素とした各セルの位置または他の見出し候補要素との位置関係が所定の位置関係である(ステップS105の条件またはステップS107の条件を満たす場合)に当該セルを「見出し要素」とし、満たさない場合に「その他の要素」とし、見出し候補要素とされなかった各セルを「内容記入要素」とする。この構成によれば、例えば、文書に含まれる、表以外の本文の内容等を参照せずに、各要素の分類を行うなうことができる。すなわち、本実施形態によれば、表構造のみから表要素間関係を推定するため、表以外の文章中に含まれる情報によらず、表要素間関係を正しくて推定することができる。また、表構造を「見出し要素」と、見出しに関する内容が記載されている「内容記入要素」に限定して構成するため、見出しと関係がない表要素が出現した場合でも、表要素間関係を正しく推定することができる。
なお、本実施形態は例えば次のような分野に適用することができる。すなわち、例えば、EPC(Engineering, Procurement and Construction;プロジェクトの建設工事請負契約)におけるレイアウトが決まっていないRFP(Request For Proposal; 提案依頼書)に出現する表の情報を抽出を自動化するための技術として適用することができる。また、抽出した情報を用いてリスク判定を行う技術にも適用することができる。また、その他レイアウトが決まっていない技術資料、特許文章などの文書中に出現する表の情報抽出自動化に適用することができ、さらに、表情報のデータベース構築やナレッジ構築への展開可能性がある。
また、本実施形態によれば、文書から表以外の情報(文章や図)を用いることなく、表のみから表に記載されている情報を抽出することができるので、入力情報であるレイアウトの決まっていない文書中の表に対して表情報抽出処理を行う時に、表構成情報を用いた表構造推定器の結果により表構造変換を行うことによって、表記の揺れ、レイアウト揺れに対してロバストな結果を得ることができる。これにより、未知の表構造や表のみの文書であっても表の情報抽出が可能である。
また、本実施形態によれば、表の要素間関係の推定を、表構成情報のみを用いた表構造推定および分類で行うため、表のみが出現する文書であっても処理が可能である。また、表構造を「見出し要素」および見出しに関わる「内容記入要素」に限定せず、見出しに関係のない「その他の要素」を推定できることにより、より複雑な表の構造推定も可能である。
〈コンピュータ構成〉
図19は、上記実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ90は、プロセッサ91、メインメモリ92、ストレージ93、インタフェース94を備える。
上述の表情報読取装置10は、コンピュータ90に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ93に記憶されている。プロセッサ91は、プログラムをストレージ93から読み出してメインメモリ92に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ91は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ92に確保する。
図19は、上記実施形態に係るコンピュータの構成を示す概略ブロック図である。
コンピュータ90は、プロセッサ91、メインメモリ92、ストレージ93、インタフェース94を備える。
上述の表情報読取装置10は、コンピュータ90に実装される。そして、上述した各処理部の動作は、プログラムの形式でストレージ93に記憶されている。プロセッサ91は、プログラムをストレージ93から読み出してメインメモリ92に展開し、当該プログラムに従って上記処理を実行する。また、プロセッサ91は、プログラムに従って、上述した各記憶部に対応する記憶領域をメインメモリ92に確保する。
プログラムは、コンピュータ90に発揮させる機能の一部を実現するためのものであってもよい。例えば、プログラムは、ストレージに既に記憶されている他のプログラムとの組み合わせ、または他の装置に実装された他のプログラムとの組み合わせによって機能を発揮させるものであってもよい。なお、他の実施形態においては、コンピュータは、上記構成に加えて、または上記構成に代えてPLD(Programmable Logic Device)などのカスタムLSI(Large Scale Integrated Circuit)を備えてもよい。PLDの例としては、PAL(Programmable Array Logic)、GAL(Generic Array Logic)、CPLD(Complex Programmable Logic Device)、FPGA(Field Programmable Gate Array)が挙げられる。この場合、プロセッサによって実現される機能の一部または全部が当該集積回路によって実現されてよい。
ストレージ93の例としては、HDD(Hard Disk Drive)、SSD(Solid State Drive)、磁気ディスク、光磁気ディスク、CD−ROM(Compact Disc Read Only Memory)、DVD−ROM(Digital Versatile Disc Read Only Memory)、半導体メモリ等が挙げられる。ストレージ93は、コンピュータ90のバスに直接接続された内部メディアであってもよいし、インタフェース94または通信回線を介してコンピュータ90に接続される外部メディアであってもよい。また、このプログラムが通信回線によってコンピュータ90に配信される場合、配信を受けたコンピュータ90が当該プログラムをメインメモリ92に展開し、上記処理を実行してもよい。少なくとも1つの実施形態において、ストレージ93は、一時的でない有形の記憶媒体である。
以上、この発明の実施形態について図面を参照して説明してきたが、具体的な構成は上記実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。
1 文書入力部
2 表構造推定部
3 表構造修正部
4 表要素間関係決定部
5 表情報変換部
10 表情報読取装置
2 表構造推定部
3 表構造修正部
4 表要素間関係決定部
5 表情報変換部
10 表情報読取装置
Claims (6)
- 文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出する文書入力部と、
前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定する表構造推定部と、
前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する表要素間関係決定部と、
を備える表情報読取装置。 - 前記表構造推定部が推定した前記表構造情報に基づいて、改ページ前後に存在する2つの表の結合処理を行う表構造修正部をさらに備える
請求項1に記載の表情報読取装置。 - 前記表構造修正部は、前記2つの表の結合処理を行う際に、改ページ後に存在する前記表のセルが同列の各セルと比較して差異を有する場合、前記改ページ前後に存在する2つの表に含まれる前記内容記入要素である2つのセルをセル結合する
請求項2に記載の表情報読取装置。 - 前記表構造推定部は、前記各セルの表記の形式が所定の条件を満たしかつ該条件を満たすセルの個数の前記表の全セル数に占める割合が所定の値未満である場合、セル内容が所定の内容である場合、または、表形状と当該セルの位置が所定の位置にある場合、当該セルを見出し候補要素とし、
前記見出し候補要素とした各セルの位置または他の見出し候補要素との位置関係が所定の位置関係である場合に当該セルを前記見出し要素とし、満たさない場合に前記その他の要素とし、
前記見出し候補要素とされなかった各セルを前記内容記入要素とする
請求項1から3のいずれか1項に記載の表情報読取装置。 - 文書入力部と表構造推定部と表要素間関係決定部を備える表情報読取装置において、
前記文書入力部によって、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出し、
前記表構造推定部によって、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定し、
前記表要素間関係決定部によって、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する
表情報読取方法。 - 文書入力部と表構造推定部と表要素間関係決定部を機能的要素として備えるコンピュータに、
前記文書入力部によって、文書情報の入力を受け付けて、前記文書情報に含まれる表の構成を表す表構成情報を抽出し、
前記表構造推定部によって、前記表構成情報に基づいて、前記表を構成する各セルが、見出し要素、内容記入要素またはその他の要素のいずれに該当するのかを表す表構造情報を推定し、
前記表要素間関係決定部によって、前記見出し要素に該当するセルおよび前記内容記入要素に該当するセルの、前記表における位置関係に基づいて前記見出し要素に含まれる情報と前記内容記入要素に含まれる情報との関係を決定する
処理を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019055427A JP2020155054A (ja) | 2019-03-22 | 2019-03-22 | 表情報読取装置、表情報読取方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019055427A JP2020155054A (ja) | 2019-03-22 | 2019-03-22 | 表情報読取装置、表情報読取方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020155054A true JP2020155054A (ja) | 2020-09-24 |
Family
ID=72559405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019055427A Pending JP2020155054A (ja) | 2019-03-22 | 2019-03-22 | 表情報読取装置、表情報読取方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020155054A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915123B2 (en) | 2015-06-30 | 2021-02-09 | Huawei Technologies Co., Ltd. | Low dropout regulator and phase-locked loop |
WO2022113378A1 (ja) * | 2020-11-26 | 2022-06-02 | 株式会社KPMG Ignition Tokyo | 表結合プログラム、表結合システム、及び表結合方法 |
-
2019
- 2019-03-22 JP JP2019055427A patent/JP2020155054A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10915123B2 (en) | 2015-06-30 | 2021-02-09 | Huawei Technologies Co., Ltd. | Low dropout regulator and phase-locked loop |
WO2022113378A1 (ja) * | 2020-11-26 | 2022-06-02 | 株式会社KPMG Ignition Tokyo | 表結合プログラム、表結合システム、及び表結合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11829401B2 (en) | Method for table extraction from journal literature based on text state characteristics | |
JP5465015B2 (ja) | 文書を電子化する装置及び方法 | |
JP3940491B2 (ja) | 文書処理装置および文書処理方法 | |
CN102830947A (zh) | 一种基于报表打印模板格式实现的报表打印控件 | |
CA2823396A1 (en) | Storage of a document using multiple representations | |
US11720597B2 (en) | Generating an OLAP model from a spreadsheet | |
JP2020155054A (ja) | 表情報読取装置、表情報読取方法およびプログラム | |
US20150199422A1 (en) | Universal text representation with import/export support for various document formats | |
KR20120051419A (ko) | 종속형 스타일 시트 규칙 추출 장치 및 방법 | |
CN110765739A (zh) | 一种从pdf文档中抽取表格数据和篇章结构的方法 | |
CN108256716B (zh) | 基于表来配置/执行流程和/或原子流程的方法和设备 | |
CN113761202A (zh) | 一种将非结构金融Excel表格映射到数据库的优化系统 | |
KR102110281B1 (ko) | 자동화된 작성물 평가기 | |
CN115331247A (zh) | 文档结构识别方法、装置、电子设备及可读存储介质 | |
JP2010108208A (ja) | 文書処理装置 | |
US10120852B2 (en) | Data processing method, non-transitory computer-readable storage medium, and data processing device | |
JP5790082B2 (ja) | 文書認識装置、文書認識方法、プログラム及び記憶媒体 | |
CN111768820A (zh) | 纸质病历数字化及目标检测模型训练方法、装置、存储介质 | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP5521384B2 (ja) | 書籍掲載文書の電子的な編集・内容変更システム、書籍掲載文書の電子的な編集・内容変更プログラムおよび書籍作成システム | |
CN111966785B (zh) | 一种基于层叠序列标注的简历信息抽取方法 | |
WO2024087566A1 (zh) | 文档转换方法及装置、计算机可读存储介质、计算机设备 | |
JP2022035594A (ja) | 表構造認識装置及び表構造認識方法 | |
WO2022104458A1 (en) | Method and system for managing content in a document and publishing same | |
CN110457659B (zh) | 条款文档生成方法及终端设备 |