JP2019032704A - 表データ構造化システムおよび表データ構造化方法 - Google Patents

表データ構造化システムおよび表データ構造化方法 Download PDF

Info

Publication number
JP2019032704A
JP2019032704A JP2017153308A JP2017153308A JP2019032704A JP 2019032704 A JP2019032704 A JP 2019032704A JP 2017153308 A JP2017153308 A JP 2017153308A JP 2017153308 A JP2017153308 A JP 2017153308A JP 2019032704 A JP2019032704 A JP 2019032704A
Authority
JP
Japan
Prior art keywords
dimension
measure
row
table data
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017153308A
Other languages
English (en)
Inventor
真 岩山
Makoto Iwayama
真 岩山
優 浅野
Yu Asano
優 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017153308A priority Critical patent/JP2019032704A/ja
Publication of JP2019032704A publication Critical patent/JP2019032704A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構造化されていない表データを自動で構造化する。【解決手段】構造化された表データと、構造化された表データから構築された、表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別するための次元・測度モデルと、を保持する記憶部と、次元・測度モデルに基づいて、入力された構造化されていない表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別する次元・測度識別部と、構造化された表データに基づいて、同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定する測度同定部と、構造化された表データに基づいて、同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定する次元名同定部と、構造化された表データに基づいて、同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を特定する次元値同定部と、を有する。【選択図】図1

Description

本発明は、表データ構造化システムおよび表データ構造化方法に関する。
表形式のデータを機械処理するための技術として、例えば特開2015−028736号公報(特許文献1)及び”Semantic Labeling: A domain−independent approach”(非特許文献1)が開示されている。
特許文献1には、人間のための表形式の利点を保ったまま計算機による処理が可能なPDF形式のデータを形成するために、「本発明は、オリジナルの表の列見出し部を構成する各行の下に1行ずつ挿入し、挿入行の各セルに対応するIDを記入すると共に、行見出し部を構成する各列の右に1列ずつ挿入し、挿入列の各セルに対応するIDを記入する第1の処理部と、前記列見出し部とデータ部の間に1行挿入すると共に、行見出し部とデータ部の間に1列挿入し、挿入した1行及び1列の各セルが次元の値であれば次元のIDを記入し、測度であれば何も記入せず、すべての列見出し又は行見出しが次元の値であれば挿入行及び列の交点セルに測度のIDを更に記入する第2の処理部と、作成されたテンプレート表のデータ部の各セルに対応する次元とその値及び測度を同定し、RDF形式のデータを生成する第3の処理部とを有する」と記載されている。
非特許文献1では、訓練データを用いて観測値から測度のIDを、次元値の文字列から次元名のIDを同定する方法が提案されている。
特開2015−028736号公報
Pham, M.他,"Semantic Labeling: A domain−independent approach", ISWC 2016 − 15th International Semantic Web Conference, 2016
近年、様々な組織で統計データを公開するようになったが、そのほとんどは、人間が見やすい表形式になっており、機械処理を行うためには情報が不足している。
例えば、図2は、各都道府県の年別の人口および平均所得をあらわす表である。セル201の値は、「人口」の値である。ただし、「都道府県が北海道」で、かつ、「年が平成27年」の「人口」である。ここで、例えばセル204の値である「人口」を測度と呼ぶ。一方、例えばセル202の値から読み取られる「都道府県が北海道」、及び、例えばセル203の値から読み取られる「年が平成27年」を次元と呼ぶ。測度は、表中の観測値(例えばセル201の値)が何を観測したものであるかを表している。一方、次元は、観測値が得られた条件を表す。次元は、更に細かく、次元名と次元値とからなる。「都道府県が北海道」の場合、「都道府県」が次元名、「北海道」が次元値である。観測値を集計したり加工したりするには、測度及び次元に関する情報が必要になる。
図2の表には、「人口」「北海道」「平成27年」という文字列が記載されているが、それぞれが、測度なのか、次元名なのか、次元値なのかは指定されていない。また、次元名である「都道府県」及び「年」は表中に記載されていない。これらの対応情報及び欠損情報は、人間であれば表から容易に推測できるため、人間が閲覧するための表データには明記されない。
更に、測度、次元名及び次元値は、様々な表記で記載されることがある。例えば、「人口」は「総人口」と書かれる場合もあるし、「平成27年」は「2015」と書かれる場合もある。これらも、人間であれば同一であると容易に判断できるが、機械処理を行うためには、明確に表記を統一しておくか、又は一意のIDに対応付けておく必要がある。
図3は、図2に示した各都道府県の年別の人口および平均所得をあらわす表に、次元及び測度に関する情報を追加した表である。本発明の目的は、図2の表を図3の表に自動で変換することである。図3の形式は、特許文献1で提案された形式と同じである。ここで、観測値(図中の「・・・」)より上の行(図2の例では行205)のことを表頭、観測値より左の列(図2の例では列206)のことを表側と呼ぶ。表頭の各行(表頭行)、表側の各列(表側列)には、測度および次元がまとまって記載される。変換後の図3では、表頭行又は表側列が測度に関する行である場合は、対応するセル(例えばセル301)を空白とする。一方、次元に関する行である場合には、対応するセル(例えばセル302)に次元名のIDを記載する。その上で、各測度に対応するセル(例えばセル303)には、測度のIDを、次元値に対応するセル(例えばセル304)には、次元値のIDを記載する。以上によって、図2の表を機械処理するために必要な情報が図3の表に埋め込まれる。特許文献1では、図2を機械処理する際に必要となる情報が図3のような形式で表現できることを示しているが、図2を図3に自動変換する手法については開示していない。
非特許文献1では、訓練データを用いて観測値から測度のIDを、次元値の文字列から次元名のIDを同定する方法を提案しているが、測度、次元名及び次元値の判別は行っていない。また、次元名のIDも同定しない。
上記のとおり、本発明の目的は、図2のような表を、図3のような表に自動変換することである。具体的には、表頭行、表側列の各ラベルに対し、測度ID、もしくは次元名ID、次元値IDを自動で付与することである。
上記の課題を解決するために、本発明は、表データ構造化システムであって、訓練データである構造化された表データと、前記構造化された表データから構築された、表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別するための次元・測度モデルと、を保持する記憶部と、前記次元・測度モデルに基づいて、入力された構造化されていない表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別する次元・測度識別部と、前記構造化された表データに基づいて、前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定する測度同定部と、前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定する次元名同定部と、前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を特定する次元値同定部と、を有することを特徴とする。
本発明の一形態によれば、表データの各セルの値の測度、次元名及び次元値を識別するIDを自動で決定することができる。上記した以外の課題、構成及び効果は、以下の実施例の説明によって明らかにされる。
本発明の実施例における表データ構造化システムの構成例を示すブロック図である。 各都道府県の年別の人口および平均所得をあらわす表である。 各都道府県の年別の人口および平均所得をあらわす表に、次元及び測度に関する情報を追加した表である。 本発明の実施例の構造化部が実行する処理を示すフローチャートである。 本発明の実施例の次元/測度識別部が実行する次元/測度識別処理の概略を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される意味情報に関する特徴ベクトルの第1の例を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される意味情報に関する特徴ベクトルの第2の例を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される意味情報に関する特徴ベクトルの第3の例を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される構文情報に関する特徴ベクトルの例を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される関連テキスト情報に関する特徴ベクトルの例を示す説明図である。 本発明の実施例の表データ構造化システムにおいて構築される全体の特徴ベクトルの例を示す説明図である。 本発明の実施例の次元/測度学習部が実行する処理を示すフローチャートである。 本発明の実施例の次元/測度識別部が実行する処理を示すフローチャートである。 本発明の実施例の次元/測度学習部及び次元/測度識別部の双方が実行する特徴ベクトル構築処理を示すフローチャートである。 本発明の実施例の構造化部がある測度行に関して実行する測度同定処理の概略を示す説明図である。 本発明の実施例の表DBに登録されるデータ例を示す説明図である。 本発明の実施例の表DBに登録されるデータ例を示す説明図である。 本発明の実施例の測度同定部が測度IDを同定するのに必要な情報を検索するためのクエリ例を示す説明図である。 本発明の実施例の次元名同定部が次元とわかっている表側列から次元名IDを同定する処理の概略を示す説明図である。 本発明の実施例の次元名同定部が次元名IDを同定するのに必要な情報を検索するためのクエリ例を示す説明図である。 本発明の実施例の次元値同定部が次元値IDを同定する処理の概略を示す説明図である。 本発明の実施例の次元値同定部が次元値IDを同定するために必要な情報を取得するためのクエリ例を示す説明図である。 本発明の実施例の構造化部が、次元か測度かの識別の際に出力する画面インターフェースの例の説明図である。 本発明の実施例の構造化部が、測度IDを同定する際に出力する画面インターフェースの例の説明図である。
図1は、本発明の実施例における表データ構造化システムの構成例を示すブロック図である。
本実施例の表データ構造化システムは、学習部101と構造化部102とから構成される。
学習部101では、すでに構造化されている構造化表データ103を訓練データとして用いて、次元/測度学習部104が、次元/測度モデル106を学習する。また、データ変換部105が、構造化表データ103を変換して、表DB107に格納する。構造化表データ103、次元/測度モデル106及び表DB107は、公知のデータベース技術で構築される。次元/測度学習部104及びデータ変換部105は、記憶装置110上に保存されているプログラムであり、適宜、メモリ109に移動し、プロセッサ108が実行する。すなわち、本実施例において次元/測度学習部104及びデータ変換部105が実行する処理は、実際にはプロセッサ108によって実行される。データの入出力は、入出力インターフェース111が実行する。
構造化部102は、表データ116を構造化し、構造化表データ117とする。その際に、構造化部102は、学習部101で構築した、次元/測度モデル106、および、表DB107を用いる。構造化部102は、次元/測度識別部112、測度同定部113、次元名同定部114及び次元値同定部115から構成される。それぞれは、記憶装置120上に保存されているプログラムで、適宜、メモリ119に移動し、プロセッサ118が実行する。すなわち、本実施例において次元/測度識別部112、測度同定部113、次元名同定部114及び次元値同定部115が実行する処理は、実際にはプロセッサ118によって実行される。データの入出力は、入出力インターフェース121が実行する。
構造化表データ103は、記憶装置110に格納される。表データ116及び構造化表データ117は、記憶装置120に格納される。次元/測度モデル106及び表DB107は、例えば、それぞれ次元/測度学習部104及びデータ変換部105によって作成されて記憶装置110に格納され、その後、記憶装置120にコピーされ、構造化部102の各部によって参照されてもよい。あるいは、学習部101と構造化部102とがネットワーク(図示省略)等を介して接続されている場合には、次元/測度モデル106及び表DB107が記憶装置110に格納され、構造化部102の各部が必要に応じてネットワークを介して次元/測度モデル106及び表DB107を参照してもよい。
なお、学習部101と構造化部102で、プロセッサ、メモリ、記憶装置、入出力インターフェースを共有する構成も可能である。
図4は、本発明の実施例の構造化部102が実行する処理を示すフローチャートである。
構造化部102には構造化前の表データ116が入力される(ステップ401)。図2がそのデータ例である。まずは、次元/測度識別部112が、各表頭行及び各表側列に対して、それぞれが次元に関する行/列なのか測度に関する行/列なのかを識別する(ステップ402〜404)。なお、表データ116からの表頭行及び表側列の抽出は、ユーザが手動で行ってもよいし、構造化部102が任意の方法で自動で行ってもよい。例えば、ユーザが表の中の観測値が記載されたセルの範囲の境界を指定し、その範囲の上側及び左側の、観測値を含まない行及び列を、それぞれ表頭行及び表側列として抽出してもよい。あるいは、観測値が記載されたセルの範囲の境界を構造化部102が自動で特定してもよい。
その後、測度に関する行/列に対しては、測度同定部113が測度のIDを同定する(ステップ405〜407)。次元に関する行/列に対しては、まず、次元名同定部114が次元名のIDを同定する(ステップ408〜410)。次に、次元値同定部115が各次元のセルに対して次元値のIDを同定する(ステップ411〜413)。最終的に、測度同定部113及び次元値同定部115によって、構造化された表データが出力される(ステップ414)。図3が出力されたデータ例である。
以降では、構造化部102を構成する、次元/測度識別部112(ステップ403)、測度同定部113(ステップ406)、次元名同定部114(ステップ409)、及び次元値同定部115(ステップ412)の詳細を順に説明する。その際に、必要な箇所で、学習部101を構成する、次元/測度学習部104及びデータ変換部105の詳細を説明する。
図5は、本発明の実施例の次元/測度識別部112が実行する次元/測度識別処理の概略を示す説明図である。
本発明の特徴は、表を構造化する際に、まず、次元と測度を識別する点にある。後に述べるように、次元と測度では、識別のために使う情報及び処理内容が異なる。
ここでの識別対象は、表頭行501及び表側列502、503である。これらの行および列が、次元に関する行/列なのか、測度に関する行/列なのかを識別する。図示した例の場合は、表頭行501は測度に関する行であり、表側列502および503は次元に関する列である。
ここで、測度に関する行/列とは、測度を示すラベルが記載されたセルを含む行/列を意味する。また、次元に関する行/列とは、次元値を示すラベルが記載されたセルを含む行を意味する。このため、例えば、ある表頭行が測度に関する行であると識別することは、その行のラベルが記載されたセルを含む列が、同一の測度の観測値を含む列であると識別することを意味する。図2の例では、正しく識別が行われた場合、「人口」「平均所得」等のラベルが記載されたセルを含む表頭行205が測度に関する行であると識別される。このことは、「人口」のセルを含む列が同一の測度(すなわち人口)の観測値を含む列であり、「平均所得」のセルを含む列も別の同一の測度(すなわち平均所得)の観測値を含む列であると識別されることを意味する。次元についても同様であり、図2の例では、表側列206が次元に関する列であると識別される。このことは、表側列206のラベルが記載されたセルに対応する各行が同一の次元値の(例えば北海道の平成27年の)観測値を含む行であると識別されることを意味する。また、図2には、一つの列に同一の測度の観測値が含まれ、一つの行に同一の次元値の観測値が含まれる例を示したが、逆に、一つの列に同一の次元値の観測値が含まれ、一つの行に同一の測度の観測値が含まれる表もあり得る。そのような表の場合にも上記と同様の方法で識別が行われる。
次元か測度かを識別するために、3種類の情報を使う。第1は、セル内の文字列に関する情報でこれを意味情報と呼ぶ。表頭行501の場合は、「人口」「平均所得」という文字列は、この行が測度であることを強く特徴付ける情報である。ただし、「人口」「平均所得」が訓練データに含まれていた場合に限る。
第2は、セル内の文字列に関わらない情報で、これを構文情報と呼ぶ。構文情報は、例えば、対象となる行/列の表内での位置などの情報である。表頭の1行目は測度が入りやすいため、位置情報のみで次元/測度の識別が容易になる場合もある。位置の他に、文字列が数値なのか、アルファベットなのか、といった文字種情報も有効である。
第3は、関連テキスト情報である。例えば、図表のタイトルが「都道府県別の人口」であった場合、「AのB」のBに相当する「人口」は測度になりやすいという特徴がある。よって、セル内の文字列のタイトル中での位置は、次元/測度を識別するために重要な情報となる。
本実施例では、上記の3種類の情報をベクトル化する。このベクトルのことを特徴ベクトルと呼ぶ。特徴ベクトルは、次元/測度学習部104および次元/測度識別部112で使用される。
意味情報に関する特徴ベクトルには、3つのバリエーションがある。
図6から図8は、本発明の実施例の表データ構造化システムにおいて構築される意味情報に関する特徴ベクトルの例を示す説明図である。
3つのバリエーションの1つめは、文字列全体をベクトルの要素とする方法である。例として、図5の表頭行501から文字列全体をベクトルの要素として含むように構築した意味情報特徴ベクトル600を図6に示す。ベクトルの要素は、訓練データ(すなわち構造化表データ103)の表頭行/表側列に現れる全ての文字列である。ベクトルの値は、対応する文字列が対象の行/列に含まれていれば1、含まれていない場合は0となる。
図6の例では、訓練データの表頭行/表側列に現れる全ての文字列、例えば、「人口」、「平均所得」、「北海道」、「青森」、及びその他の種々の文字列に対応する値を要素として含むベクトルが生成される。これらの文字列のうち、表頭行501には「人口」と「平均所得」が含まれるため、それらに対応する要素の値が「1」となり、他の文字列に対応する値が「0」となる。
図6には表頭行501から構築した意味情報特徴ベクトルの例を示しているが、入力された構造化前の表データがさらに他の表頭行を含む場合にはそれについても同様の意味情報特徴ベクトルが生成される。また、構造化前の表データの各表側列(例えば図2の列206)についても同様の意味情報特徴ベクトルが生成される。後述する他の特徴ベクトルも同様である。
2つめは、文字列全体ではなく形態素をベクトルの要素とする方法である。例として、図5の表頭行501から形態素をベクトルの要素として含むように構築した意味情報特徴ベクトル700を図7に示す。「平均所得」が「平均」と「所得」に分かれているため、「所得平均」「平均の所得」などとも符合するようになる。この方法では、訓練データの表頭行/表側列に現れるすべての形態素をベクトルの要素とする。形態素解析には、公知の技術を使う。
図7の例では、訓練データの表頭行/表側列に現れる全ての形態素、例えば、「人口」、「平均」、「所得」、「北海道」、「青森」、及びその他の種々の形態素に対応する値を要素として含むベクトルが生成される。これらの文字列のうち、表頭行501には「人口」、「平均」及び「所得」が含まれるため、それらに対応する要素の値が「1」となり、他の文字列に対応する値が「0」となる。仮に、表頭行に「平均所得」ではなく「所得平均」又は「所得の平均」が含まれていても、「平均」及び「所得」に対応する要素の値が「1」となるため、構築される意味情報特徴ベクトルは同一となる。
3つめは、文字列の最終形態素のみをベクトルの要素とする方法である。例として、図5の表頭行501から文字列の最終形態素のみをベクトルの要素として含むように構築した意味情報特徴ベクトル800を図8に示す。「平均所得」は、「平均」と「所得」のうち最後の形態素である「所得」のみになる。日本語の場合は、末尾の形態素が重要な意味を持つことが多い。例えば訓練データに「合計所得」が測度として存在した場合、最終形態素のみで符合することで、「平均所得」も測度と判定できる。2つめの方法のように形態素を全て使うと、「所得」では一致するものの、「平均」と「合計」で不一致が生じるため、「平均所得」が測度と判定されにくくなる。この方法では、訓練データの表頭行/表側列に現れるすべての最終形態素をベクトルの要素とする。形態素解析には、公知の技術を使う。
本実施例では、以上の3つのバリエーションからいずれかを選んで意味情報に関する特徴ベクトルとする。または、3種類の特徴ベクトルを構築し、それぞれから得られた結果を組み合わせて最終的な結果としてもよい。組み合わせ方としては、例えば多数決が考えられる。
図9は、本発明の実施例の表データ構造化システムにおいて構築される構文情報に関する特徴ベクトルの例を示す説明図である。
構文情報に関する特徴ベクトルは、表頭行/表側列の構文上の特徴、例えば表における位置等の情報を含む。具体的には、構文情報に関する特徴ベクトルは、例えば、その特徴ベクトルを構築する対象の表頭行又は表側列に含まれる文字種、その対象が表頭行又は表側列のいずれであるか、その表頭行又は表側列の先頭からの距離、及び、その表頭行又は表側列の観測値からの距離を示す値を要素として含む。
文字種は、数値を含まない、数値のみ、数値と数値以外を含む、の3種類とする。行/列の位置に関しては、まず、対象が行なのか列なのかを指定し、先頭(行の場合は1行目、列の場合は1列目)からの行/列数、観測値からの行/列数を指定する。先頭からの行/列数は、行の場合は、1行目から1行、2行とカウントする。列の場合は、1列目から1列、2列とカウントする。観測値からの行/列数は、行の場合は、観測値の最上行から上方向に、1行、2行とカウントする。列の場合は、観測値の最左列から左方向に、1列、2列とカウントする。
図9には、例として、図5の表頭行501から構築した構文情報に関する特徴ベクトル900を示す。この例では、表頭行501は数値を含まないため、文字種に対応する要素の値は「1」となる。仮に表頭行501が数値のみを含む場合は当該要素の値は「2」、数値と数値以外を含む場合は「3」となる。表頭行501は行であるため、対象が行なのか列なのかを示す要素の値は「1」となる。仮に対象が表側列であれば当該要素の値は「2」となる。表頭行501は表の先頭の行であるため、先頭からの行/列数を示す要素の値は「1」となる。表頭行501の次の行が観測値を含むため、観測値からの行/列数を示す要素の値は「1」となる。
なお、図9に示す構文情報に関する特徴ベクトル900は一例であり、構文情報に関する特徴ベクトル上記以外の要素を含む構文情報に関する特徴ベクトルが生成されてもよいし、上記以外の方法で各要素の値が決められてもよい。例えば文字種に対応する要素は、数値を含むか否かのみを示す要素の値を設定してもよいし、より詳細に文字種を分類して、それぞれに対応する要素の値を設定してもよい。
図10は、本発明の実施例の表データ構造化システムにおいて構築される関連テキスト情報に関する特徴ベクトルの例を示す説明図である。
本実施例では、関連テキストとして表のタイトル文字列を用いる。ベクトル化する対象行または対象列のセル内の文字列がタイトルに現れる場合、当該文字列の当該タイトルにおける位置を示す先頭からの文字数及び末尾からの文字数をベクトルの要素とする。先頭からの文字数は1から始まり、マッチした文字列の先頭文字の位置を使う。すなわち、マッチした文字列がタイトルの先頭に位置する場合には先頭からの文字数は1となる。末尾からの文字列も1から始まり、マッチした文字列の末尾文字の位置を使う。すなわち、マッチした文字列がタイトルの末尾に位置する場合には末尾からの文字数は1となる。複数のセルの文字列がタイトルに現れる場合は、それぞれの文字列について先頭からの文字数及び末尾からの文字数を計数し、共に最小値を採用する。いずれのセルの文字列もタイトルに現れない場合は、先頭からの文字数、末尾からの文字数共に0とする。
図10に例として示す関連テキスト情報に関する特徴ベクトル1000は、ベクトル化する対象行または対象列に含まれる少なくとも一つの文字列がタイトルに含まれ、それらのうち最初に現れる文字列の先頭の文字がタイトルの先頭から5番目の文字に相当し、最後に現れる文字列の末尾の文字がタイトルの末尾から1番目の文字(すなわち末尾の文字)に相当することを示している。
なお、上記の表のタイトルは関連テキストの一例であり、タイトルに限らず、例えば表の説明文又は注釈文など、表に付随する種々のテキストを関連テキストとして利用し、そのようなテキストと表頭行及び表側列のセル内の文字列との関連を示す情報を関連テキスト情報として抽出することができる。
表データ構造化システムは、上記の3種類の特徴ベクトルを結合して全体の特徴ベクトルを構築する。
図11は、本発明の実施例の表データ構造化システムにおいて構築される全体の特徴ベクトルの例を示す説明図である。
表データ構造化システムは、例えば、表頭行501について、図6〜図8に示す意味情報特徴ベクトル600〜800のいずれか(又はそれらを組み合わせて構築した意味情報特徴ベクトル)、図9に示す構文情報特徴ベクトル900及び図10に示す関連テキスト情報特徴ベクトル1000を図11に示すように結合することによって、表頭行501に関する全体の特徴ベクトル1100を構築する。このようにして構築された特徴ベクトルは、次元/測度学習部104、および、次元/測度識別部112で用いられる。
図12は、本発明の実施例の次元/測度学習部104が実行する処理を示すフローチャートである。
次元/測度学習部104では、すでに構造化されている表データ103を参照して(ステップ1201)、表頭行及び表側列を抽出し、それぞれに対し特徴ベクトルを構築する(ステップ1202〜1204)。次に、次元/測度学習部104は、各特徴ベクトルに対し、それぞれの表頭行及び表側列の内容が次元か測度かがすでに判っているため、これらを教師データとして機械学習を実行する(ステップ1205)。機械学習の結果、次元/測度モデル106が得られる(ステップ1206)。次元/測度モデル106とは、特徴ベクトルを次元又は測度に識別するような識別器である。
言い換えると、次元/測度モデル106は、ある表頭行又は表側列から構築された特徴ベクトルが入力されると、当該表頭行又は表側列が測度に関する行又は列であるか、次元に関する行又は列であるかを識別してその結果を出力する識別器である。このとき、識別器は、識別の結果の確からしさを示す確信度を併せて出力してもよい。このようにして学習された識別器に、構造化されていない表データ116の表頭行及び表側列から構築した特徴ベクトルを入力することによって、構造化されていない表データ116の表頭行及び表側列が測度に関する行及び列であるのか、次元に関する行及び列であるのか、すなわち、観測値を含む各行及び各列が同一の測度の観測値を含む行及び列であるのか、同一の次元の観測値を含む行及び列であるのかが識別される。
次元/測度モデル106は、公知の機械学習の手法で作成される。例えば、SVM(Support Vector Machine)を使ってもよい。
図13は、本発明の実施例の次元/測度識別部112が実行する処理を示すフローチャートである。
次元/測度識別部112では、構造化されていない表データ116及び次元/測度学習部104で学習した次元/測度モデル106が入力されると(ステップ1301)、表データ116の表頭行及び表側列を次元又は測度に識別する。その際、まず、次元/測度識別部112は、入力されたそれぞれの表頭行及び表側列から特徴ベクトルを構築する(ステップ1302)。次に、次元/測度識別部112は、次元/測度学習部104で学習した次元/測度モデル106を用いて、入力された表頭行及び表側列次元か測度かを識別する(ステップ1303)。ここでも、公知の機械学習の手法を用いる。そして、次元/測度識別部112は、識別の結果を出力する(ステップ1304)。
図14は、本発明の実施例の次元/測度学習部104及び次元/測度識別部112の双方が実行する特徴ベクトル構築処理を示すフローチャートである。
具体的には、図14は、次元/測度学習部104がステップ1203において、次元/測度識別部112がステップ1302において、それぞれ実行する処理を示す。表頭行/表側列が入力されると(ステップ1401)、次元/測度学習部104及び次元/測度識別部112は、上記で説明した方法によって、意味情報特徴ベクトル、構文情報特徴ベクトル、及び関連テキスト情報特徴ベクトルを順に構築する(ステップ1402、1403、1404)。最後に、次元/測度学習部104及び次元/測度識別部112は、これらを結合して(ステップ1405)特徴ベクトルを構築する(ステップ1406)。
ここまでの処理は、構造化部102の処理(図4)のステップ402〜404に相当し、表頭行/表側列が、次元なのか測度なのかが判別される。次に、構造化部102は、ステップ405〜407において、測度行/列だけを集めて、各要素(測度)のIDを同定する。
図15は、本発明の実施例の構造化部102がある測度行1501に関して実行する測度同定処理の概略を示す説明図である。
この測度行1501には、「人口」及び「平均所得」というラベルがあり、構造化部102の測度同定部113は、それぞれに対して、[population]及び[ave_income]という測度IDを同定する。
具体的には、測度同定部113は、例えば、非特許文献1と同様に、すでに構造化されている表データ103から一番近いIDを探す。その際に、二種類の情報を使う。まずはラベル文字列1502の類似性である。測度同定部113は、既に構造化されている表データ103のラベル文字列と、対象のラベル文字列とを比較して両者間の距離を計算する。距離としては、例えば、公知の編集距離を用いることができる。
二番目の情報は、それぞれのラベルに対応する観測値集合1503の類似性である。上記の例では同定対象が表頭行のラベルであるため、観測値集合1503はそれぞれのラベルを含む列の観測値の集合である。観測値集合1503の平均値や分散を調べると、それがどのような測度なのかを推定することができる。例えば、人口には人口特有の分布が、身長には身長特有の分布がある。測度同定部113は、既に構造化されている表から、各測度の観測値集合を取得し、それらの平均と分散と、同定対象の観測値集合の平均と分散とを比較し、類似性を計算する。類似性の計算方法は、例えば非特許文献1の方法を使用してもよい。
測度同定部113は、これら二種類の情報を組み合わせて、既に構造化されている表から、一番類似する測度IDを検索する。組み合わせの方法も、例えば非特許文献1の方法を使うことができる。
本実施例では、データ変換部105によって、既に構造化されている表データ103から、上記処理で必要な情報が容易に取得しやすいデータベース(表DB107)が構築される。
図16及び図17は、本発明の実施例の表DB107に登録されるデータ例を示す説明図である。
これは、RDF(Resource Description Framework)と呼ばれる形式である。図16は観測値に関する情報である。観測値のセル毎に「主語」「述語」「目的語」の三つ組で情報を登録する。図17は、測度、次元名、次元値に関する情報である。構造化された表をこのような形式に変換する方法については、特許文献1で開示されている。
例えば、仮に、図2に示す表が訓練データとして構造化表データ103に含まれているとすると、その表の観測値の領域の一番上の行(0行目)の一番左の列(0列目)のセルが「セル_0_0」と登録され、そのセルの観測値「・・・」は、測度「人口」(測度ID:[population])、次元名「都道府県」(次元名ID:<pref>)の次元値「北海道」(次元値ID:#hokkaido)、及び、次元名「年」(次元名ID:<year>)の次元値「平成27」(次元値ID:#2015)に対応することが図16の形式で登録される。また、ラベル文字列「人口」が測度のラベルであり、その測度IDが[population]であること、及び、ラベル文字列「北海道」が次元値のラベルであり、その次元値IDが#hokkaidoであることが図17の形式で登録される。なお、図2の例では「北海道」等の次元値の次元名は都道府県であるが、それを示すラベルは表の中に含まれないため、<pref>が次元名IDであることを示す情報が図17の形式で登録され、それに対応するラベル文字列は登録されていない。
なお、図16及び図17には訓練データである表DB107の形式を示したが、構造化部102が入力された表データ116から訓練データに基づいて生成した構造化表データ117も上記と同様の形式で登録されてもよい。例えば、図2に示す表が構造化前の表データ116として入力された場合、次元/測度の識別、測度の同定、次元名/次元値の同定が行われ、最終的に、図16に示すデータが生成されて、構造化表データ117として登録される。
図18は、本発明の実施例の測度同定部113が測度IDを同定するのに必要な情報を検索するためのクエリ例を示す説明図である。
これらはSPARQLというRDFデータ検索用クエリの形式である。これらのクエリによって、測度同定部113は、全測度、各測度のラベル文字列、及び各測度の観測値集合が取得できるため、対象のラベル文字列1502及び観測値集合1503と類似する測度を同定することができる。
次に、次元名IDと次元値IDを同定する処理を説明する。まずは、構造化部102の次元名同定部114が、各次元行/列に対し、次元名IDを同定する(図4の408〜410)。
図19は、本発明の実施例の次元名同定部114が次元とわかっている表側列1901から次元名IDを同定する処理の概略を示す説明図である。
ここでは、次元名同定部114は、次元名のラベル文字列間の類似性と、次元値のラベル文字列集合間の類似性を使い、表DB107から一番近い次元名IDを検索する。ラベル文字列間の類似性は編集距離を使う。次元名のラベル文字列とは、例えば「北海道」「青森」といった次元値に対応する次元名を示す「都道府県」のようなラベル文字列であり、構造化されていない表データ116にそのような文字列を含むセルがある場合にはその文字列と表DB107に含まれる次元名のラベル文字列との類似性が使われてもよい。しかし、図19の例では、次元名に相当するセルがないため、次元名同定部114は、次元名のラベル文字列間の類似性を使わずに、次元値のラベル文字列の集合の間の類似性に基づいて、その次元値に対応する次元名のIDを同定する。
図19の例では、ラベル文字列「北海道」を含む表側列、及び、ラベル文字列「平成27」を含む表側列が、次元に関する列であると識別される。一つの列が一つの次元名に対応すると考えられることから、次元名同定部114は、一つの列に含まれる次元値のラベル文字列の集合と、表DB107に含まれる一つの次元名に対応する次元値のラベル文字列の集合との間の類似性に基づいて、例えばラベル文字列の類似性が最も高い次元値に対応する次元名IDを、その列の次元値に対応する次元名のIDとして同定する。なお、図16及び図17に示すように、表DB107は、次元値IDと次元名IDとを対応付ける情報を含んでいる。例えば、図19の表側列1901の次元値のラベル文字列集合は{北海道、青森}である。ラベル文字列集合間の類似性には既存の手法(例えば、ベクトルの余弦)を用いる。
図20は、本発明の実施例の次元名同定部114が次元名IDを同定するのに必要な情報を検索するためのクエリ例を示す説明図である。
これらのクエリによって、次元名同定部114は、全次元名、各次元名のラベル文字列、及び各次元名の次元値集合が取得できる。このため、対象の列1901の次元値のラベル文字列と類似するラベル文字列に対応する次元名IDを表DB107から検索して、それを対象の列1901の次元名IDとして同定することができる。図19の例では、列1901の次元名IDとして都道府県を識別するする<pref>が同定され、セル1902に記載される。
図19の例では、「平成27年」等のラベル文字列を含む表側列についても同様に次元名ID<year>が同定される。
ここまでの処理によって、測度ID及び次元名IDが同定されるため、次に、構造化部102の次元値同定部115が、これらの情報を使い、次元に関する行/列の各セルから次元値IDを同定する(図4の411〜413)。
図21は、本発明の実施例の次元値同定部115が次元値IDを同定する処理の概略を示す説明図である。
ここでは、次元名ID(2102)が決まっているため、次元値IDは、この次元名IDが取り得る次元値ID集合から検索すればよい。検索の際は、ラベル文字列の情報(2101)を使う。また、既に観測値IDも同定されているため、表内の観測値集合(2104と2106)の情報も使う。つまり、次元値同定部115は、表DB107から、ラベル文字列が類似していて、かつ、対応する観測値集合も類似している(例えば、観測値集合の平均及び分散といった統計的指標が類似している)ような次元値を検索する。本処理の特徴は、前段階で既に判明している、次元名IDと測度IDとを使って次元値IDを同定する点にある。
図22は、本発明の実施例の次元値同定部115が次元値IDを同定するために必要な情報を取得するためのクエリ例を示す説明図である。
これらのクエリによって、次元値同定部115は、各次元名の次元値、各次元値のラベル文字列、及び、各次元名、各次元値及び各測度の観測値が取得集合できる。
以上によって、表データの構造化が可能になる。本実施例では、全ての処理を自動化する形態を説明したが、識別精度及び同定精度は100%ではないために、その都度、ユーザの確認を求めることも可能である。
図23は、本発明の実施例の構造化部102が、次元か測度かの識別の際に出力する画面インターフェースの例の説明図である。
本実施例の構造化部102は、まず次元か測度かを識別し、次に測度名を同定し、次に次元名を同定し、最後に次元値を同定する。ユーザへの確認作業もこの順番で行う。図23は、「平成27」「平成28」等の列が次元か測度かを判別しようとしているときに入出力I/F121が出力する画面インターフェースの例である。今決めるべきセル2301は太枠でハイライトされる。
ユーザがこのセル上で所定の入力(例えばマウスクリック)をすると、次元/測度識別部112による識別の結果がポップアップウィンドウ2302に現れる。ポップアップウィンドウ内では、確信度が高い結果ほど上位にリストされる。例の場合、次元を表す「<>」が1位にリストされている。2位の空白「 」は測度を表す記号である。これは、次元/測度識別部112が次元/測度モデル106に基づいて、識別対象の列が次元又は測度のいずれであるかを識別した結果、次元であるとの識別結果の確信度が最も高く、測度であるとの識別結果の確信度が2番目に高かったことを示している。
ユーザはポップアップウィンドウから適切な結果を選ぶことができる。上記の例ではユーザが識別対象の列を次元と識別して「<>」を選択することができる。
このようにして、順に判別および同定を行っていく。
図24は、本発明の実施例の構造化部102が、測度IDを同定する際に出力する画面インターフェースの例の説明図である。
具体的には、図24は、セル2401の内容、つまり「平均所得」という測度のIDを同定する際の画面である。ここでもポップアップウィンドウ2402には、測度同定部の結果が確信度順にリストされる。図24の例は、測度同定部113が表DB107に基づいて、同定対象である測度のラベル文字列「平均所得」の測度IDを同定した結果、[area]であるとの同定結果の確信度が最も高く、[ave_income]であるとの同定結果の確信度が2番目に高かったことを示している。この例の場合、ユーザは、平均所得に対応する2位の[ave_income]が正しい結果であると判断して、それを選択することができる。
なお、上記の確信度は、例えば、測度同定部113、次元名同定部114及び次元値同定部がそれぞれ測度ID、次元名ID及び次元値IDを同定するときに計算した類似性の高さを示す指標であってもよい。
以上のように、本発明の実施例の表データ構造化システムは、構造化されていない表データに含まれる観測値の測度、次元名及び次元値の各IDを段階的に同定する。まずは、表データ構造化システムは、表頭行/表側列が次元に関する行/列なのか、測度に関する行/列なのかを識別する。具体的には、既に構造化されている表から、識別のためのモデルを学習して、学習したモデルを用いて識別を行う。
このとき、表データ構造化システムは、表頭行/表側列の文字列の意味情報、構文情報及び関連テキスト情報の少なくともいずれかを含む特徴情報に基づいて識別を行うモデルを構築する意味情報として、文字列全体、文字列を構成する各形態素、及び、文字列の最終形態素の少なくともいずれかを使用してもよい。これによって、精度のよい識別を行うことができる。
次に、表データ構造化システムは、測度に関する行/列の場合は、行/列の各要素に対して、ラベルと観測値集合を用いて測度IDを同定する。具体的には、既に構造化されている表の中から、ラベルと観測値集合が最も類似する測度IDを検索する。次元に関する行/列の場合は、表データ構造化システムは、行/列のラベル集合を用いて次元名IDを同定する。具体的には、既に構造化されている表の中から、次元値のラベル集合が最も類似する次元名IDを検索する。最後に、表データ構造化システムは、次元に関する行/列の各要素に対して、ラベルと観測値集合を用いて次元値IDを同定する。具体的には、既に構造化されている表の中から、ラベルと観測値集合が最も類似する次元名IDを同定する。これによって、表データの各セルの観測値の測度、次元名及び次元値を識別するIDを自動で決定することができる。
上記の測度、次元名及び次元値のIDを同定する順序は、必ずしも上記のとおりでなくてもよく、いずれの順序でも自動で各IDを同定することができる。ただし、上記の順序で各IDを段階的に同定すると、最後に次元値IDの同定を行う時点で、これからIDを決定しようとする次元値に対応する観測値の測度が既に判明しているため、観測値集合の類似性を次元値IDの同定に利用することができる。これによって、ID同定の精度が向上する。なお、そのためには次元値IDの同定を行う時点で測度ID及び次元名IDが同定されていればよいため、測度IDの同定と次元名IDの同定はいずれが先に行われてもよい。
さらに、表データ構造化システムは、表頭行/表側列が次元に関する行/列なのか、測度に関する行/列なのかの識別結果、及び、各IDの同定結果を、その確信度と合わせて複数表示し、ユーザにそれらのいずれかを選択させてもよい。これによって、次元/測度の識別及び各IDの同定の精度が完全でない場合にも、ユーザの判断で精度を向上させることができる。
なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されものではない。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、不揮発性半導体メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶デバイス、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、制御線及び情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
101 学習部
102 構造化部
103、117 構造化表データ
104 次元/測度学習部
105 データ変換部
106 次元/測度モデル
107 表DB
108、118 プロセッサ
109、119 メモリ
110、120 記憶装置
111、121 入出力I/F
112 次元/測度識別部
113 測度同定部
114 次元名同定部
115 次元値同定部
116 表データ

Claims (14)

  1. 表データ構造化システムであって、
    訓練データである構造化された表データと、前記構造化された表データから構築された、表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別するための次元・測度モデルと、を保持する記憶部と、
    前記次元・測度モデルに基づいて、入力された構造化されていない表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別する次元・測度識別部と、
    前記構造化された表データに基づいて、前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定する測度同定部と、
    前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定する次元名同定部と、
    前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を特定する次元値同定部と、を有することを特徴とする表データ構造化システム。
  2. 請求項1に記載の表データ構造化システムであって、
    前記次元・測度識別部は、
    前記構造化されていない表データのうち、前記観測値を含まない表頭行及び表側列の各セルに含まれる文字列の意味を示す意味情報、前記各表頭行及び表側列の前記表データにおける配置を示す構文情報、及び、前記各表頭行及び表側列のセルに含まれる文字列と前記構造化されていない表データに付随するテキスト情報との関連を示す関連テキスト情報を含む特徴情報を生成し、
    前記特徴情報を前記次元・測度モデルに適用することによって、前記各表頭行及び表側列が測度のラベルを含む行及び列であるか次元値のラベルを含む行及び列であるかを判定し、
    前記測度のラベルを含むと判定した表頭行のセルに対応する観測値の列、及び、前記測度のラベルを含むと判定した表側列のセルに対応する観測値の行を、それぞれ、同一の測度の観測値を含む列及び行と識別し、前記次元値のラベルを含むと判定した表頭行のセルに対応する観測値の列、及び、前記次元値のラベルを含むと判定した表側列のセルに対応する観測値の行を、それぞれ、同一の次元の観測値を含む列及び行と識別することを特徴とする表データ構造化システム。
  3. 請求項2に記載の表データ構造化システムであって、
    前記意味情報は、前記各セルに含まれる文字列全体、前記各セルに含まれる文字列を構成する各形態素、及び、前記各セルに含まれる文字列を構成する形態素のうち末尾の形態素、の少なくともいずれかを含むことを特徴とする表データ構造化システム。
  4. 請求項2に記載の表データ構造化システムであって、
    前記構造化された表データに基づいて前記次元・測度モデルを生成する次元・測度学習部をさらに有し、
    前記構造化された表データは、前記観測値を含まない表頭行及び表側列の各セルに含まれる文字列と、前記文字列が測度のラベルであるか次元値のラベルであるかを示す情報と、前記測度及び前記次元値の識別情報と、を対応付ける情報を含み、
    前記次元・測度学習部は、
    前記構造化された表データのうち、前記観測値を含まない表頭行及び表側列に関する前記意味情報、前記構文情報及び前記関連テキスト情報を含む前記特徴情報を生成し、
    前記特徴情報が入力されると前記表頭行及び表側列が測度のラベルを含む行及び列であるか次元値のラベルを含む行及び列であるかを識別し、その結果を出力する識別器を、前記構造化された表データと、前記構造化された表データから生成した前記特徴情報と、に基づいて、前記次元・測度モデルとして生成することを特徴とする表データ構造化システム。
  5. 請求項4に記載の表データ構造化システムであって、
    前記構造化された表データは、前記次元値の識別情報と前記次元名の識別情報とを対応付ける情報をさらに含み、
    前記測度同定部は、前記構造化された表データに含まれるラベルの文字列と、前記同一の測度の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定し、
    前記次元名同定部は、前記構造化された表データに含まれるラベルの文字列と、前記同一の次元の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定し、
    前記次元値同定部は、前記構造化された表データに含まれるラベルの文字列と、前記同一の次元の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を同定することを特徴とする表データ構造化システム。
  6. 請求項5に記載の表データ構造化システムであって、
    前記構造化された表データは、各観測値と、前記各観測値の測度の識別情報と、前記各観測値の次元値の識別情報と、を対応付ける情報をさらに含み、
    前記測度同定部が前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定し、前記次元名同定部が前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定した後に、前記次元値同定部が、前記同一の次元の観測値を含むと判定された行及び列の観測値と、前記構造化された表データに含まれる観測値のうち、前記同一の次元の観測値を含むと判定された行及び列の観測値として同定された測度と同一の測度の観測値と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を同定することを特徴とする表データ構造化システム。
  7. 請求項5に記載の表データ構造化システムであって、
    画像情報を出力する出力部をさらに有し、
    前記次元・測度モデルとして生成された前記識別器は、前記特徴情報が入力されると、前記各セルに含まれる文字列が測度のラベルであると識別した結果の確信度と、次元値のラベルであると識別した結果の確信度と、を出力し、
    前記測度同定部、前記次元名同定部及び前記次元値同定部は、それぞれ、複数の同定された識別情報と、前記類似性に基づく前記同定された識別情報の確信度と、を出力し、
    前記出力部は、
    前記各セルに含まれる文字列が測度のラベルであると識別した結果及び前記各セルに含まれる文字列が測度のラベルであると識別した結果を、前記確信度が高い順に表示し、前記測度同定部、前記次元名同定部及び前記次元値同定部のそれぞれが同定した複数の識別情報を前記確信度が高い順に表示する画面を出力することを特徴とする表データ構造化システム。
  8. 計算機システムが実行する表データ構造化方法であって、
    前記計算機システムは、プロセッサと、記憶部と、を有し、
    前記記憶部は、訓練データである構造化された表データと、前記構造化された表データから構築された、表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別するための次元・測度モデルと、を保持し、
    前記表データ構造化方法は、
    前記プロセッサが、前記次元・測度モデルに基づいて、入力された構造化されていない表データの各行及び各列が同一の測度の観測値又は同一の次元の観測値のいずれを含むかを識別する第1手順と、
    前記プロセッサが、前記構造化された表データに基づいて、前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定する第2手順と、
    前記プロセッサが、前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定する第3手順と、
    前記プロセッサが、前記構造化された表データに基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を特定する第4手順と、を含むことを特徴とする表データ構造化方法。
  9. 請求項8に記載の表データ構造化方法であって、
    前記第1手順において、前記プロセッサは、
    前記構造化されていない表データのうち、前記観測値を含まない表頭行及び表側列の各セルに含まれる文字列の意味を示す意味情報、前記各表頭行及び表側列の前記表データにおける配置を示す構文情報、及び、前記各表頭行及び表側列のセルに含まれる文字列と前記構造化されていない表データに付随するテキスト情報との関連を示す関連テキスト情報を含む特徴情報を生成し、
    前記特徴情報を前記次元・測度モデルに適用することによって、前記各表頭行及び表側列が測度のラベルを含む行及び列であるか次元値のラベルを含む行及び列であるかを判定し、
    前記測度のラベルを含むと判定した表頭行のセルに対応する観測値の列、及び、前記測度のラベルを含むと判定した表側列のセルに対応する観測値の行を、それぞれ、同一の測度の観測値を含む列及び行と識別し、前記次元値のラベルを含むと判定した表頭行のセルに対応する観測値の列、及び、前記次元値のラベルを含むと判定した表側列のセルに対応する観測値の行を、それぞれ、同一の次元の観測値を含む列及び行と識別することを特徴とする表データ構造化方法。
  10. 請求項9に記載の表データ構造化方法であって、
    前記意味情報は、前記各セルに含まれる文字列全体、前記各セルに含まれる文字列を構成する各形態素、及び、前記各セルに含まれる文字列を構成する形態素のうち末尾の形態素、の少なくともいずれかを含むことを特徴とする表データ構造化方法。
  11. 請求項9に記載の表データ構造化方法であって、
    前記構造化された表データは、前記観測値を含まない表頭行及び表側列の各セルに含まれる文字列と、前記文字列が測度のラベルであるか次元値のラベルであるかを示す情報と、前記測度及び前記次元値の識別情報と、を対応付ける情報を含み、
    前記表データ構造化方法は、
    前記プロセッサが、前記構造化された表データのうち、前記観測値を含まない表頭行及び表側列に関する前記意味情報、前記構文情報及び前記関連テキスト情報を含む前記特徴情報を生成する第4手順と、
    前記プロセッサが、前記特徴情報が入力されると前記表頭行及び表側列が測度のラベルを含む行及び列であるか次元値のラベルを含む行及び列であるかを識別し、その結果を出力する識別器を、前記構造化された表データと、前記構造化された表データから生成した前記特徴情報と、に基づいて、前記次元・測度モデルとして生成する第5手順と、をさらに含むことを特徴とする表データ構造化方法。
  12. 請求項11に記載の表データ構造化方法であって、
    前記構造化された表データは、前記次元値の識別情報と前記次元名の識別情報とを対応付ける情報をさらに含み、
    前記第2手順において、前記プロセッサは、前記構造化された表データに含まれるラベルの文字列と、前記同一の測度の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の測度の観測値を含むと判定された行及び列の測度の識別情報を同定し、
    前記第3手順において、前記プロセッサは、前記構造化された表データに含まれるラベルの文字列と、前記同一の次元の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元名の識別情報を同定し、
    前記第4手順において、前記プロセッサは、前記構造化された表データに含まれるラベルの文字列と、前記同一の次元の観測値を含むと判定された行及び列に対応する表側列及び表頭行のセルの文字列と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を同定することを特徴とする表データ構造化方法。
  13. 請求項12に記載の表データ構造化方法であって、
    前記構造化された表データは、各観測値と、前記各観測値の測度の識別情報と、前記各観測値の次元値の識別情報と、を対応付ける情報をさらに含み、
    前記第2手順及び前記第3手順が実行された後に、前記第4手順において、前記プロセッサが、前記同一の次元の観測値を含むと判定された行及び列の観測値と、前記構造化された表データに含まれる観測値のうち、前記同一の次元の観測値を含むと判定された行及び列の観測値として同定された測度と同一の測度の観測値と、の類似性に基づいて、前記同一の次元の観測値を含むと判定された行及び列の次元値の識別情報を同定することを特徴とする表データ構造化方法。
  14. 請求項12に記載の表データ構造化方法であって、
    前記計算機システムは、画像情報を出力する出力部をさらに有し、
    前記第1手順において、前記次元・測度モデルとして生成された前記識別器は、前記特徴情報が入力されると、前記各セルに含まれる文字列が測度のラベルであると識別した結果の確信度と、次元値のラベルであると識別した結果の確信度と、を出力し、
    前記第2手順から前記第4手順のそれぞれにおいて、前記プロセッサは、複数の同定された識別情報と、前記類似性に基づく前記同定された識別情報の確信度と、を出力し、
    前記表データ構造化方法は、
    前記第1手順において前記各セルに含まれる文字列が測度のラベルであると識別された結果及び前記各セルに含まれる文字列が測度のラベルであると識別された結果を、前記確信度が高い順に表示し、前記第2手順から前記第4手順のそれぞれにおいて同定された複数の識別情報を前記確信度が高い順に表示する画面を、前記出力部が出力する第6手順をさらに含むことを特徴とする表データ構造化方法。
JP2017153308A 2017-08-08 2017-08-08 表データ構造化システムおよび表データ構造化方法 Pending JP2019032704A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017153308A JP2019032704A (ja) 2017-08-08 2017-08-08 表データ構造化システムおよび表データ構造化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017153308A JP2019032704A (ja) 2017-08-08 2017-08-08 表データ構造化システムおよび表データ構造化方法

Publications (1)

Publication Number Publication Date
JP2019032704A true JP2019032704A (ja) 2019-02-28

Family

ID=65524344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017153308A Pending JP2019032704A (ja) 2017-08-08 2017-08-08 表データ構造化システムおよび表データ構造化方法

Country Status (1)

Country Link
JP (1) JP2019032704A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021064879A1 (ja) 2019-10-01 2021-04-08 富士通株式会社 学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラム
DE112020000941T5 (de) 2019-02-26 2021-12-02 Hitachi Astemo, Ltd. Stossdämpfer
CN113779943A (zh) * 2021-01-12 2021-12-10 北京沃东天骏信息技术有限公司 表格生成方法、表格生成装置、存储介质及电子设备
US11568662B2 (en) 2020-03-17 2023-01-31 Kabushiki Kaisha Toshiba Information processing apparatus for detecting a common attribute indicated in different tables and generating information about the common attribute, and information processing method, and non-transitory computer readable medium
CN116049354A (zh) * 2023-01-28 2023-05-02 北京原子回声智能科技有限公司 基于自然语言的多表格检索方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112020000941T5 (de) 2019-02-26 2021-12-02 Hitachi Astemo, Ltd. Stossdämpfer
WO2021064879A1 (ja) 2019-10-01 2021-04-08 富士通株式会社 学習方法、学習装置、学習プログラム、予測方法、予測装置および予測プログラム
US11568662B2 (en) 2020-03-17 2023-01-31 Kabushiki Kaisha Toshiba Information processing apparatus for detecting a common attribute indicated in different tables and generating information about the common attribute, and information processing method, and non-transitory computer readable medium
CN113779943A (zh) * 2021-01-12 2021-12-10 北京沃东天骏信息技术有限公司 表格生成方法、表格生成装置、存储介质及电子设备
CN116049354A (zh) * 2023-01-28 2023-05-02 北京原子回声智能科技有限公司 基于自然语言的多表格检索方法及装置

Similar Documents

Publication Publication Date Title
US10521464B2 (en) Method and system for extracting, verifying and cataloging technical information from unstructured documents
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接系统和方法
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
US8112401B2 (en) Analyzing externally generated documents in document management system
CN108021553A (zh) 疾病术语的词处理方法、装置及计算机设备
US9881037B2 (en) Method for systematic mass normalization of titles
US11093520B2 (en) Information extraction method and system
TWI682287B (zh) 知識圖譜產生裝置、方法及其電腦程式產品
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
US20160117405A1 (en) Information Processing Method and Apparatus
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
JP2005352888A (ja) 表記揺れ対応辞書作成システム
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
JP2021523509A (ja) エキスパートレポートエディタ
CN111656453A (zh) 用于信息提取的层次实体识别和语义建模框架
US20170220549A1 (en) Information processing apparatus and display method
US20120141031A1 (en) Analysing character strings
JP5577546B2 (ja) 計算機システム
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
US20170220550A1 (en) Information processing apparatus and registration method
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
JP5112027B2 (ja) 文書群提示装置および文書群提示プログラム