JP6662000B2 - テーブル語義化装置及び方法 - Google Patents

テーブル語義化装置及び方法 Download PDF

Info

Publication number
JP6662000B2
JP6662000B2 JP2015232018A JP2015232018A JP6662000B2 JP 6662000 B2 JP6662000 B2 JP 6662000B2 JP 2015232018 A JP2015232018 A JP 2015232018A JP 2015232018 A JP2015232018 A JP 2015232018A JP 6662000 B2 JP6662000 B2 JP 6662000B2
Authority
JP
Japan
Prior art keywords
attribute
entity
column
similarity
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015232018A
Other languages
English (en)
Other versions
JP2016110646A (ja
Inventor
ミアオ・チンリアン
遥 孟
遥 孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2016110646A publication Critical patent/JP2016110646A/ja
Application granted granted Critical
Publication of JP6662000B2 publication Critical patent/JP6662000B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理分野に関し、より具体的には、テーブル(表)に対して語義化(semantization(意味化))を行う装置及び方法に関する。
インターネットの急速な発展に伴い、インターネットには大量のテーブルデータが現れている。テーブルデータには豊富な構造化情報が含まれている。テーブルデータを掘り出すことで大量の人類の知識を得ることができる。テーブル中の語義情報が隠在的であるが、インターネット知識ベースの語義情報が顕在的であるため、如何にテーブルを語義化してテーブル中の隠在的語義情報を顕在化するかは、非常に重要なことである。
よって、テーブルを語義化することで、テーブル中の隠在的語義情報を顕在化することができる装置及び方法が望ましい。
本発明の目的は、テーブルに対して語義化を行うことができる装置及び方法を提供することにある。
上記目的を達成するために、本発明の一側面によれば、テーブル語義化装置が提供され、該装置は、
テーブルの実体(entity)列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定するように構成される実体確定ユニット;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定するように構成される属性確定ユニット;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するように構成されるテーブル語義化ユニットを含む。
また、本発明の他の側面によれば、テーブル語義化方法が提供され、該方法は、
前記テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定し;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化することを含む。
また、本発明の他の側面によれば、コンピュータに、上述の方法を実行させるためのコンピュータプログラムが提供される。
また、本発明の他の側面によれば、コンピュータ可読記憶媒体が提供され、その中には、コンピュータに、上述の方法を実行させるためのコンピュータプログラムが記憶されている。
テーブル情報の一例を示す図である。 インターネット知識ベース中の実体情報の一例を示す図である。 インターネット知識ベース中の実体情報の一例を示す図である。 本発明の一実施例におけるテーブル語義化装置300の例示的な構成のブロック図である。 図3中の実体確定ユニット302の例示的な構成のブロック図である。 図3中の属性確定ユニット304の例示的な構成のブロック図である。 図1におけるテーブル中の実体情報を例として構築されたマッピング関係表を示す図である。 図2Aにおけるテーブル中の実体情報を例として構築されたマッピング関係表を示す図である。 図2Bにおけるテーブル中の実体情報を例として構築されたマッピング関係表を示す図である。 図3中の属性確定ユニットの他の例示的な構成304’のブロック図である。 本発明の一実施例におけるテーブル語義化方法800のフローチャートである。 図8中のステップS802の例示的なプロセスのフローチャートである。 図8中のステップS804の例示的なプロセスのフローチャートである。 図8中のステップS804の他の例示的なプロセスのフローチャートである。 本発明の実施例によるテーブル語義化装置及び方法を実施し得る計算装置の例示的な構造のブロック図である。
本発明の実施例は、テーブルと、インターネット知識ベースとの関連付けに基づいて、テーブルに対して語義化を行う方法を提供し、該方法は、先ず、テーブル中の実体と、インターネット知識ベースとを関連付け、その後、テーブルの各列のインターネット知識ベース中での対応する属性を確定し、最後に、テーブル情報を語義表示に変換する。本発明の実施例は、リソース・ディスクリプション・フレームワーク(RDF、Resource Description Framework)のフォーマット、及び、インターネット知識ベースを用いることで、テーブルの語義化を実現する。それと同時に、テーブルに存在するが、インターネット知識ベースに存在しない実体の語義情報をインターネット知識ベースに添加する。
以下、図面をもとに、本発明の一実施例におけるテーブル語義化装置について詳細に説明する。
図1は、テーブル情報の一例を示し、図2A〜2Bは、インターネット知識ベース中での実体情報の一例を示す。以下、図1に示すテーブル情報を例として本発明の一実施例におけるテーブル語義化装置を詳しく説明する。
図3は、本発明の一実施例におけるテーブル語義化装置300の例示的な構成のブロック図である。
図3に示すように、テーブル語義化装置300は、実体確定ユニット302、属性確定ユニット304、及びテーブル語義化ユニット306を含む。
実体確定ユニット302は、前記テーブルの実体列中の各行の実体名ETと、インターネット知識ベース中での実体EKとを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定することができる。
テーブルの各行について、属性確定ユニット304は、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定することができる。
テーブル語義化ユニット306は、確定された実体名、及び各列が対応する属性に基づいて、前記テーブルを語義化することができる。
以下、テーブル語義化装置300に含まれる各ユニットをそれぞれ詳細に説明する。
本発明の実施例では、テーブルに1つの実体列のみが含まれ、且つ実体列が既知であるとし、例えば、図1中のテーブルの第1列が実体列である。なお、テーブルに1つ以上の実体列が含まれる場合、先にテーブルを、シングル対象を記述する複数のテーブルとして再構成し、即ち、複数の実体列を含むテーブルを、1つの実体列のみを含む複数のテーブルとして再構成することができる。
図4は、図3中の実体確定ユニット302の例示的な構成のブロック図である。
図4に示すように、実体確定ユニット302は、第1類似度計算サブユニット3022、第2類似度計算サブユニット3024、重み付け類似度計算サブユニット3026、及び実体確定サブユニット3028を含む。
第1類似度計算サブユニット3022は、実体列の各実体名ETと、インターネット知識ベース中での実体EKとの文字列類似度を、例えばsim1として計算することができる。一例では、文字列類似度は、ロジカル距離又はJaccard類似度を用いて計算することができる。
第2類似度計算サブユニット3024は、テーブル中の各列の値と、対応する実体EKのインターネット知識ベース中での属性値とのマッチング度を、例えばsim2として計算することができる。一例では、公式
Figure 0006662000

により、sim2を計算することができ、そのうち、cは、テーブルの列数であり、s(i)は、実体ETが対応するテーブルの第i列の値と、EKの属性値との文字列類似度である。
重み付け類似度計算サブユニット3026は、sim1とsim2の重み付け和を計算することができ、一例では、公式「sim=α・sim1+(1−α)・sim2」により、sim1とsim2の重み付け和を計算し、そのうち、αは、所定係数である。
Simが閾値δよりも大きい時に、実体確定サブユニット3028は、ETと関連付けられる実体がEKであると確定する。simが閾値δ以下である時に、該ETのインターネット知識ベース中での対応する実体がないと確定し、これらの実体は後で処理される。
なお、関連付ける時に、実体の類型が一致することを要する。例えば、図1中のテーブルの第1列が実体列であり、且つ実体の類型が映画であり、この場合、実体との関連付けを行う時に、通常、インターネット知識ベース中での映画の実体のみと関連付けられる。
実体確定ユニット302の処理により、実体列中の実体ETが対応するインターネット知識ベース中での実体がEKであると確定することができる。
図5は、図3中の属性確定ユニット304の例示的な構成のブロック図である。
図5に示すように、属性確定ユニット304は、マッピング関係表構築サブユニット3042、属性支持度計算サブユニット3044、及び属性確定サブユニット3046を含む。
マッピング関係表構築サブユニット3042は、テーブルの各行について、ETが対応する各列の値と、対応するEKのインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築することができる。図1中のテーブル及び図2A〜2B中のインターネット知識ベース中での実体情報を例とすると、図6A〜6Cに示すようなマッピング関係表を得ることができる。
T(1,2)が2つの可能な属性を有し、それぞれ“example:directedBy”及び“example:starring”であるため、図1中のテーブルの第1行から、図6A及び図6B中の2つのマッピング関係表を構築することができる。なお、T(i,j)は、テーブルの第i行、第j列を表す。
次に、属性支持度計算サブユニット3044は、構築されたマッピング関係表に基づいて、属性支持度を計算することができる。
属性支持度とは、1つの属性が全てのマッピング関係表の同一列中で出現する回数と、マッピング関係表の個数との比を指す。例えば、図6A〜6Cの3つのマッピング関係表のうち、属性example:nameが3回出現し、このとき、該属性の支持度は3/3であり、属性example:directedByが2回出現し、このとき、該属性の支持度は2/3であり、属性example:starringが1回出現し、このとき、該属性の支持度は1/3である。
一列では、1つの属性の支持度が高いほど、該列の属性が該属性である可能性が大きい。属性確定サブユニット3046は、各列の属性の支持度に基づいて、各列が対応する属性を確定することができる。
図7は、図3中の属性確定ユニットの他の例示的な構成304’のブロック図である。
図7に示すように、属性確定ユニット304’は、マッピング関係表構築サブユニット3042、属性支持度計算サブユニット3044、属性信頼度計算サブユニット3048、属性総得点計算サブユニット3049、及び属性確定サブユニット3046を含む。言い換えると、図7に示すの属性確定ユニット304’は、図5に示す属性確定ユニット304の各パーツの他、更に、属性信頼度計算サブユニット3048及び属性総得点計算サブユニット3049を含む。
図7中のマッピング関係表構築サブユニット3042及び属性支持度計算サブユニット3044の機能構成は、図5をもとに説明した機能構成と同じであるため、ここではその記載を省略する。
図7中の属性確定ユニット304’は更に、マッピング関係表に基づいて属性信頼度を計算し、そして、属性支持度及び属性信頼度を用いて属性総得点を計算し、その後、属性総得点に基づいて各列の対応する属性を確定する。
具体的には、属性信頼度計算サブユニット3048は、前記マッピング関係表に基づいて、属性信頼度を計算することができる。属性信頼度を計算するには、先ず、行信頼度を、テーブルの一行と関連付けられるインターネット知識ベース中での属性の個数として定義する。例えば、図1中のテーブルの第1行T(1,*)と関連付けられる属性数が5であると、行信頼度は5である。テーブルのある行中の各列の値のインターネット知識ベース中での関連付けられる属性が存在すれば、行信頼度は列数と同じである。ある行中の一列の値のインターネット知識ベース中での関連付けられる属性がなければ、該行と関連付けられる属性数は「列数−1」(減算)であり、また、これに基づいて類推することができる。
1つの実施例では、属性信頼度を、「行信頼度/テーブルの列数」(除算)として定義する。例えば、図1の例では、第1行の属性信頼度が5/5=1である。一行中の一列の値のインターネット知識ベース中での関連付け属性がなければ、該行の属性信頼度が1よりも小さい。
属性総得点計算サブユニット3049は、得られた属性信頼度及び属性支持度に基づいて属性総得点を計算することができる。
1つの実施例では、以下の公式、即ち、「属性総得点=属性支持度*log(属性信頼度+1)」により、属性総得点を計算することができる。
属性確定サブユニット3046は、属性総得点が高い属性を、各列が対応する属性として確定することができる。
属性総得点を計算することで、図1のテーブル中で各列の対応する属性がそれぞれexample:name、example:directedBy、example:country、example:releaseDate、example:runtimeであると確定することができる。
このようにして、実体確定ユニット302及び属性確定ユニット304により、実体列の実体及び各列が対応する属性をそれぞれ確定している。
次に、テーブル語義化ユニット306は、確定された実体、及び各列が対応する属性に基づいて、テーブルを語義化することができる。
1つの実施例では、テーブル語義化ユニット306は、確定された実体、及び各列が対応する属性を、リソース・ディスクリプション・フレームワーク(RDF)のフォーマットに変換することで、テーブルの語義化を行い、即ち、テーブル情報を、RDFフォーマットの情報に変換する。RDFフォーマットは、主語・述語・目的語の3つの要素のフォーマットであり、また、当業者がRDFフォーマットの語義情報を理解することができるため、ここではその詳しい説明を省略する。
見ると分かるように、図1中のテーブルの第3行中の“無人区”について、インターネット知識ベース中での対応する実体を発見することができず、このとき、他の行と同じ属性を用いて、第3行の各列の属性値をRDFフォーマットに変換し、その後、インターネット知識ベースに添加する。
なお、図3〜7に示すテーブル語義化装置300及びその構成ユニットの構造は例示にすぎず、当業者は、必要に応じて図3〜7に示す構造のブロック図に対して変更することもできる。
図8は、本発明の一実施例におけるテーブル語義化方法800のフローチャートである。
先ず、ステップS802では、前記テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定する。
図9は、図8中のステップS802の例示的なプロセスのフローチャートである。
図9に示すように、ステップS8022では、実体列の各実体名ETと、インターネット知識ベース中での実体EKとの文字列類似度を、例えばsim1として計算する。一例では、文字列類似度は、ロジカル距離又はJaccard類似度を用いて計算することができる。
次に、ステップS8024では、テーブル中の各列の値と、対応する実体EKのインターネット知識ベース中での属性値とのマッチング度を、例えばsim2として計算する。一例では、公式
Figure 0006662000

により、sim2を計算することができ、そのうち、cは、テーブルの列数であり、s(i)は、実体ETが対応するテーブルの第i列の値と、EKの属性値との文字列類似度である。
ステップS8026では、sim1とsim2の重み付け和を計算する。一例では、公式「sim=α・sim1+(1−α)・sim2」を用いて、sim1とsim2の重み付け和を計算し、そのうち、αは所定係数である。
ステップS8028では、simが閾値δよりも大きい時に、ETの関連付け実体がEKであると確定することができる。simが閾値δ以下であれば、該ETのインターネット知識ベース中での対応する実体がないと見なし、これらの実体は後で処理される。
ステップS802の処理により、実体列中の実体ETのインターネット知識ベース中での対応する実体EKを確定することができる。
次に、ステップS804では、前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定する。
図10は、図8中のステップS804の例示的なプロセスのフローチャートである。
図10に示すように、ステップS8042では、テーブルの各行について、ETが対応する各列の値と、対応するEKのインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築することができる。
次に、ステップS8044では、構築されたマッピング関係表に基づいて、属性支持度を計算することができる。
ステップS8046では、各列の属性支持度に基づいて、各列が対応する属性を確定することができる。
図11は、図8中のステップS804の他の例示的なプロセスのフローチャートである。
ステップS804では、ステップS8042’及びS8044’は、図10中のステップS8042及びS8044に類似するため、ここではその詳しい説明を省略する。
ステップS8048では、前記マッピング関係表に基づいて属性信頼度を計算することができ、属性信頼度は、テーブルの一行と関連付けられるインターネット知識ベース中での属性の個数と、テーブルの列数との比である。
ステップS8049では、前記属性信頼度及び前記属性支持度に基づいて属性総得点を計算することができる。
ステップS8046’では、属性総得点をもとに、各列が対応する属性を計算することができる。
テーブルに対して語義化を行う方法800の最後に、ステップS806では、確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化することができる。
また、テーブルに対して再構成を行う方法800の各ステップの細部については、図3〜7をもとに説明した本発明のテーブル語義化装置の実施例を参照することができるので、ここではその詳しい説明を省略する。
本発明の実施例は、テーブルと、インターネット知識ベースとの関連付けに基づくテーブル語義化装置及び方法を提供し、そのうち、テーブル中の属性列と、インターネット知識ベースとの関連付けを行うことができる。本発明の実施例におけるテーブル語義化装置及び方法により、テーブル情報を語義表示に変換することで、テーブル中の隠在的語義情報を顕在化することができ、また、インターネット知識ベースに対して補充を行って完全なものにすることもできる。
以上、具体的な実施例をもとに本発明の基本原理を説明した。なお、当業者が理解すべきは、本発明の方法及び装置の全部又は任意のステップ又は構成要素が、任意の計算装置(プロセッサ、記憶媒体などを含む)又は計算装置のネットワーク中で、ハードウェア、ソフトウェア、ファームウェア、又は、それらの組み合わせにより実現され得るということである。これは、当業者が、本発明の説明を参照した上で、彼らの基本的なプログラミングスキルを発揮することで実現し得ることである。
よって、本発明の目的は更に、任意の装置上で1つのプログラム又は1組のプログラムを実行することで実現することができる。前記計算装置は、周知の汎用装置であっても良い。また、本発明の目的は更に、前記方法又は装置を実現し得るプログラムコードを含むプログラムプロダクトのみにより達成することができる。言い換えると、このようなプログラムプロダクトも本発明を構成し、また、このようなプログラムプロダクトを記憶した記憶媒体も本発明を構成する。もちろん、前記記憶媒体は、任意の周知の記憶媒体又は将来開発される任意の記憶媒体であっても良い。
ソフトウェア及び/又はファームウェアで本発明の実施例を実現する場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ、例えば図12に示すような汎用コンピュータ1200に、該ソフトウェアやファームウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされている時に、各種の機能を実行することができる。
図12では、中央処理装置(CPU)1201が、リードオンリーメモリ(ROM)1202に記憶されているプログラム又は記憶部1208からランダムアクセスメモリ(RAM)1203にロードされているプログラムに基づいて各種の処理を行う。RAM1203では、必要に応じて、CPU1201が各種の処理を行う時に必要なデータも記憶する。CPU1201、ROM1202、及びRAM1203は、バス1204によって互いに接続される。入力/出力インターフェース1205もバス1204に接続される。
また、入力/出力インターフェース1205には次のようなものも接続され、即ち、入力部1206(キーボード、マウスなどを含む)、出力部1207(表示器例えばCRT、LCDなど、及びスピーカーなどを含む)、記憶部1208(ハードディスクなどを含む)、通信部1209(ネットワークインターフェースカード、例えばLANカード、モデムなどを含む)である。通信部1209は、ネットワーク、例えばインターネットを経由して通信処理を行う。必要に応じて、ドライブ1210が入力/出力インターフェース1205に接続されても良い。取り外し可能な媒体1211、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどが、必要に応じて、ドライブ1210に取り付けられ、これにより、その中から読み出されたコンピュータプログラムは、必要に応じて、記憶部1208にインストールすることができる。
ソフトウェアで上述の一連の処理を実現する場合、ネットワーク、例えばインターネット又は記憶媒体、例えば取り外し可能な媒体1211から、該ソフトウェアを構成するプログラムをインストールすることもできる。
なお、当業者が理解すべきは、このような記憶媒体は、図12に示すような、プログラムを記憶しており、該プログラムをユーザに提供するために装置と独立して配る取り外し可能な媒体1211に限られないということである。取り外し可能な媒体1211は、磁ディスク(フロッピー(登録商標)ディスク)、光ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標))、及び半導体メモリを含む。或いは、記憶媒体は、中にプログラムが記憶されているROM1202、記憶部1208に含まれるハードディスクなどであっても良く、また、それらを含む装置とともにユーザに配られても良い。
本発明は更に、マシン(コンピュータ)可読指令コードを含むプログラムプロダクトも提供する。指令コードは、マシンにより読み取られて実行される時に、上述の本発明の実施例による方法を実行することができる。
それ相応に、上述のマシン可読指令コードを含むプログラムプロダクトを記憶した記憶媒体も本発明の開示に含まれる。記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカード、メモリースティックなどを含むが、これらに限定されない。
また、当業者が理解すべきは、ここに列挙したものは例示にすぎず、本発明はそれらに限定されないということである。
一例として、上述の方法の各ステップ及び上述の装置の各構成モジュール及び/又はユニットは、ソフトウェア、ファームウェア、ハードウェア、又はそれらの組み合わせとして実施され、また、対応する装置中の一部とされても良い。また、上述の装置中の各構成モジュールやユニットがソフトウェア、ファームウェア、ハードウェア、又は、それらの組み合わせの方式で構成される時に、使用可能な具体的な手段や方法は当業者にとって周知であるため、ここではその詳しい説明を省略する。
また、一例として、ソフトウェア又はファームウェアで実現する場合、記憶媒体又はネットワークから、専用ハードウェア構造を有するコンピュータ(例えば、図12に示すような汎用コンピュータ1200)に、該ソフトウェアやファームウェアを構成するプログラムをインストールし、該コンピュータは、各種のプログラムがインストールされている時に、各種の機能を実行することができる。
また、本発明の実施例による方法におけるステップの実行は、明細書に記述の時間順序に従って実行するに限られず、他の時間順序に従って実行しても良く、並行又は独立して実行しても良い。よって、本明細書に記載の方法の実行順序は、本発明の技術的範囲について限定しない。
また、上述の各実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
テーブル語義化装置であって、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定するように構成される実体確定ユニット;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて各列が対応する属性を確定するように構成される属性確定ユニット;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するように構成されるテーブル語義化ユニットを含む、装置。
(付記2)
付記1に記載の装置であって、
前記実体確定ユニットは、
前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算するように構成される第1類似度計算サブユニット;
前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算するように構成される第2類似度計算サブユニット;
前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算するように構成される重み付け類似度計算サブユニット;及び
前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定するように構成される実体確定サブユニットを含む、装置。
(付記3)
付記1に記載の装置であって、
前記属性確定ユニットは、
前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築するように構成されるマッピング関係表構築サブユニット;
前記マッピング関係表に基づいて、列の属性支持度を計算するように構成される属性支持度計算サブユニットであって、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比である、属性支持度計算サブユニット;及び
少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定するように構成される属性確定サブユニットを含む、装置。
(付記4)
付記3に記載の装置であって、
前記属性確定ユニットは、更に、
前記マッピング関係表に基づいて属性信頼度を計算するように構成される属性信頼度計算サブユニットであって、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比である、属性信頼度計算サブユニット;及び
前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算するように構成される属性総得点計算サブユニットを含み、
前記属性確定サブユニットは、前記属性総得点に基づいて、前記各列が対応する属性を確定するように構成される、装置。
(付記5)
付記4に記載の装置であって、
前記属性総得点は、属性信頼度に1を加算してから対数計算を行い、さらに属性支持度を乗算することで計算されるものである、装置。
(付記6)
付記2に記載の装置であって、
前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるものであり;
前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度を加算して(つまり、和を求めて)から対数計算を行うことで計算されるものであり;及び
前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、そのうち、αは所定係数である、装置。
(付記7)
付記1に記載の装置であって、
前記テーブル語義化ユニットは更に、前記実体列の実体名、及び前記各列が対応する属性を、リソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化するように構成される、装置。
(付記8)
付記1に記載の装置であって、更に、
前記実体確定ユニットが、前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体を見つけることができない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、そして、得られた語義化情報を前記インターネット知識ベースに添加するように構成される実体情報添加ユニットを含む、装置。
(付記9)
付記1に記載の装置であって、
前記実体確定ユニットは更に、前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じである実体とを関連付けるように構成される、装置。
(付記10)
テーブル語義化方法であって、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて各列が対応する属性を確定し;及び
確定された実体名、及び各列が対応する属性に基づいて前記テーブルを語義化することを含む、方法。
(付記11)
付記10に記載の方法であって、
前記テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定することは、
前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算し;
前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算し;
前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算し;及び
前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定することを含む、方法。
(付記12)
付記10に記載の方法であって、
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定することは、
前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築し;
前記マッピング関係表に基づいて、列の属性支持度を計算し、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比であり;及び
少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定することを含む、方法。
(付記13)
付記12に記載の方法であって、
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定することは、更に、
前記マッピング関係表に基づいて、属性信頼度を計算し、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比であり;及び
前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算することを含み、
そのうち、前記属性総得点に基づいて、前記各列が対応する属性を確定する、方法。
(付記14)
付記13に記載の方法であって、
前記属性総得点は、属性信頼度に1を加算してから対数計算を行い、さらに属性支持度を乗算することで計算されるものである、方法。
(付記15)
付記11に記載の方法であって、
前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるものであり;
前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度の和を求めてから対数計算を行うことで計算されるものであり;及び
前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、そのうち、αは所定係数である、方法。
(付記16)
付記10に記載の方法であって、
確定された実体名、及び各列が対応する属性に基づいて、前記テーブルを語義化することは、更に、
前記実体列の実体名、及び前記各列が対応する属性を、リソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化することを含む、方法。
(付記17)
付記10に記載の方法であって、更に、
前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体が見つからない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、そして、得られた語義化情報を前記インターネット知識ベースに添加することを含む、方法。
(付記18)
付記10に記載の方法であって、
前記テーブルの実体列中の各行の実体名と、前記インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定することは、更に、
前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じ実体とを関連付けることを含む、方法。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (10)

  1. テーブル語義化装置であって、
    テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付け、各実体名の前記インターネット知識ベース中での対応する実体を確定する実体確定ユニット;
    前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、マッチング結果に基づいて各列が対応する属性を確定する属性確定ユニット;及び
    確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するテーブル語義化ユニットを含む、装置。
  2. 請求項1に記載の装置であって、
    前記実体確定ユニットは、
    前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算する第1類似度計算サブユニット;
    前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算する第2類似度計算サブユニット;
    前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算する重み付け類似度計算サブユニット;及び
    前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定する実体確定サブユニットを含む、装置。
  3. 請求項1に記載の装置であって、
    前記属性確定ユニットは、
    前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築するマッピング関係表構築サブユニット;
    前記マッピング関係表に基づいて、列の属性支持度を計算する属性支持度計算サブユニットであって、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比である、属性支持度計算サブユニット;及び
    少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定する属性確定サブユニットを含む、装置。
  4. 請求項3に記載の装置であって、
    前記属性確定ユニットは、更に、
    前記マッピング関係表に基づいて、属性信頼度を計算する属性信頼度計算サブユニットであって、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比である、属性信頼度計算サブユニット;及び
    前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算する属性総得点計算サブユニットを含み、
    前記属性確定サブユニットは、前記属性総得点に基づいて、前記各列が対応する属性を確定する、装置。
  5. 請求項4に記載の装置であって、
    前記属性総得点は、前記属性信頼度に1を加算してから対数計算を行い、そして、前記属性支持度をさらに乗算することで計算されるものである、装置。
  6. 請求項2に記載の装置であって、
    前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるのもであり;
    前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度の和を求めてから対数計算を行うことで計算されるものであり;及び
    前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、αは、所定係数である、装置。
  7. 請求項1に記載の装置であって、
    前記テーブル語義化ユニットは更に、前記実体列の実体名、及び前記各列が対応する属性をリソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化する、装置。
  8. 請求項1に記載の装置であって、更に、
    前記実体確定ユニットが、前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体を発見することができない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、得られた語義化情報を前記インターネット知識ベースに添加する実体情報添加ユニットを含む、装置。
  9. 請求項1に記載の装置であって、
    前記実体確定ユニットは更に、前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じ実体とを関連付ける、装置。
  10. テーブル語義化装置におけるテーブル語義化方法であって、
    前記テーブル語義化装置が、
    テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付け、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
    前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、マッチング結果に基づいて、各列が対応する属性を確定し;及び
    確定された実体名、及び各列が対応する属性に基づいて、前記テーブルを語義化することを含む、方法。
JP2015232018A 2014-12-05 2015-11-27 テーブル語義化装置及び方法 Active JP6662000B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410737646.8A CN105718433B (zh) 2014-12-05 2014-12-05 表格语义化装置和方法
CN201410737646.8 2014-12-05

Publications (2)

Publication Number Publication Date
JP2016110646A JP2016110646A (ja) 2016-06-20
JP6662000B2 true JP6662000B2 (ja) 2020-03-11

Family

ID=56124451

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015232018A Active JP6662000B2 (ja) 2014-12-05 2015-11-27 テーブル語義化装置及び方法

Country Status (2)

Country Link
JP (1) JP6662000B2 (ja)
CN (1) CN105718433B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022116866A (ja) * 2021-01-29 2022-08-10 国立研究開発法人医薬基盤・健康・栄養研究所 複数の項目を関係付けるための方法、システム、およびプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086782A (ja) * 2002-08-29 2004-03-18 Hitachi Ltd 異種データベース統合支援装置
EP1983444A1 (en) * 2007-04-16 2008-10-22 The European Community, represented by the European Commission A method for the extraction of relation patterns from articles
CN102043819A (zh) * 2009-10-20 2011-05-04 华中科技大学 Html表格语义脉络分析方法
US20120284224A1 (en) * 2011-05-04 2012-11-08 Microsoft Corporation Build of website knowledge tables
JP2013120534A (ja) * 2011-12-08 2013-06-17 Mitsubishi Electric Corp 関連語分類装置及びコンピュータプログラム及び関連語分類方法
CN102495892A (zh) * 2011-12-09 2012-06-13 北京大学 一种网页信息抽取方法
CN102779161B (zh) * 2012-06-14 2015-03-04 杜小勇 基于rdf知识库的语义标注方法
CN104182420A (zh) * 2013-05-27 2014-12-03 华东师范大学 一种基于本体的中文人名消歧方法

Also Published As

Publication number Publication date
CN105718433B (zh) 2019-01-22
JP2016110646A (ja) 2016-06-20
CN105718433A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
Morlon et al. RPANDA: an R package for macroevolutionary analyses on phylogenetic trees
US10599983B2 (en) Inferred facts discovered through knowledge graph derived contextual overlays
EP3032409A1 (en) Transitive source code violation matching and attribution
US9740480B1 (en) Apparatus and methodologies for code refactoring
WO2019242144A1 (zh) 电子装置、偏好倾向预测方法和计算机可读存储介质
US10628521B2 (en) Scoring automatically generated language patterns for questions using synthetic events
WO2020217095A1 (en) Method and apparatus for natural language processing of medical text in chinese
CN110795572B (zh) 一种实体对齐方法、装置、设备及介质
Landsheer et al. Unbalanced 2 x 2 factorial designs and the interaction effect: a troublesome combination
JP2016149127A (ja) 実体属性値の確定装置及び方法
AU2020381439B2 (en) Enhanced intent matching using keyword-based word mover’s distance
Fernandez-Álvarez et al. Automatic extraction of shapes using sheXer
US10628413B2 (en) Mapping questions to complex database lookups using synthetic events
Shanavas et al. Ontology-based enriched concept graphs for medical document classification
US20160110501A1 (en) Natural Language Processing Correction Based on Treatment Plan
US11669691B2 (en) Information processing apparatus, information processing method, and computer readable recording medium
JP2022525089A (ja) 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム
Khan et al. xcodeeval: A large scale multilingual multitask benchmark for code understanding, generation, translation and retrieval
US10032204B2 (en) System and method for synthetic ideation
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
JP6662000B2 (ja) テーブル語義化装置及び方法
Wang et al. Bayesian adaptive lasso for additive hazard regression with current status data
US20200210646A1 (en) Natural language processing shallow discourse parser
US8740703B2 (en) Random data generation
Kim et al. Machine learning methodologies for prediction of rhythm-control strategy in patients diagnosed with atrial fibrillation: observational, retrospective, case-control study

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190726

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200127

R150 Certificate of patent or registration of utility model

Ref document number: 6662000

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150