JP6662000B2 - テーブル語義化装置及び方法 - Google Patents
テーブル語義化装置及び方法 Download PDFInfo
- Publication number
- JP6662000B2 JP6662000B2 JP2015232018A JP2015232018A JP6662000B2 JP 6662000 B2 JP6662000 B2 JP 6662000B2 JP 2015232018 A JP2015232018 A JP 2015232018A JP 2015232018 A JP2015232018 A JP 2015232018A JP 6662000 B2 JP6662000 B2 JP 6662000B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- entity
- column
- similarity
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
テーブルの実体(entity)列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定するように構成される実体確定ユニット;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定するように構成される属性確定ユニット;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するように構成されるテーブル語義化ユニットを含む。
前記テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定し;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化することを含む。
により、sim2を計算することができ、そのうち、cは、テーブルの列数であり、s(i)は、実体ETが対応するテーブルの第i列の値と、EKの属性値との文字列類似度である。
テーブル語義化装置であって、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定するように構成される実体確定ユニット;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて各列が対応する属性を確定するように構成される属性確定ユニット;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するように構成されるテーブル語義化ユニットを含む、装置。
付記1に記載の装置であって、
前記実体確定ユニットは、
前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算するように構成される第1類似度計算サブユニット;
前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算するように構成される第2類似度計算サブユニット;
前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算するように構成される重み付け類似度計算サブユニット;及び
前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定するように構成される実体確定サブユニットを含む、装置。
付記1に記載の装置であって、
前記属性確定ユニットは、
前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築するように構成されるマッピング関係表構築サブユニット;
前記マッピング関係表に基づいて、列の属性支持度を計算するように構成される属性支持度計算サブユニットであって、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比である、属性支持度計算サブユニット;及び
少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定するように構成される属性確定サブユニットを含む、装置。
付記3に記載の装置であって、
前記属性確定ユニットは、更に、
前記マッピング関係表に基づいて属性信頼度を計算するように構成される属性信頼度計算サブユニットであって、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比である、属性信頼度計算サブユニット;及び
前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算するように構成される属性総得点計算サブユニットを含み、
前記属性確定サブユニットは、前記属性総得点に基づいて、前記各列が対応する属性を確定するように構成される、装置。
付記4に記載の装置であって、
前記属性総得点は、属性信頼度に1を加算してから対数計算を行い、さらに属性支持度を乗算することで計算されるものである、装置。
付記2に記載の装置であって、
前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるものであり;
前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度を加算して(つまり、和を求めて)から対数計算を行うことで計算されるものであり;及び
前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、そのうち、αは所定係数である、装置。
付記1に記載の装置であって、
前記テーブル語義化ユニットは更に、前記実体列の実体名、及び前記各列が対応する属性を、リソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化するように構成される、装置。
付記1に記載の装置であって、更に、
前記実体確定ユニットが、前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体を見つけることができない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、そして、得られた語義化情報を前記インターネット知識ベースに添加するように構成される実体情報添加ユニットを含む、装置。
付記1に記載の装置であって、
前記実体確定ユニットは更に、前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じである実体とを関連付けるように構成される、装置。
テーブル語義化方法であって、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて各列が対応する属性を確定し;及び
確定された実体名、及び各列が対応する属性に基づいて前記テーブルを語義化することを含む、方法。
付記10に記載の方法であって、
前記テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定することは、
前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算し;
前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算し;
前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算し;及び
前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定することを含む、方法。
付記10に記載の方法であって、
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定することは、
前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築し;
前記マッピング関係表に基づいて、列の属性支持度を計算し、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比であり;及び
少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定することを含む、方法。
付記12に記載の方法であって、
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、そして、マッチング結果に基づいて、各列が対応する属性を確定することは、更に、
前記マッピング関係表に基づいて、属性信頼度を計算し、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比であり;及び
前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算することを含み、
そのうち、前記属性総得点に基づいて、前記各列が対応する属性を確定する、方法。
付記13に記載の方法であって、
前記属性総得点は、属性信頼度に1を加算してから対数計算を行い、さらに属性支持度を乗算することで計算されるものである、方法。
付記11に記載の方法であって、
前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるものであり;
前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度の和を求めてから対数計算を行うことで計算されるものであり;及び
前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、そのうち、αは所定係数である、方法。
付記10に記載の方法であって、
確定された実体名、及び各列が対応する属性に基づいて、前記テーブルを語義化することは、更に、
前記実体列の実体名、及び前記各列が対応する属性を、リソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化することを含む、方法。
付記10に記載の方法であって、更に、
前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体が見つからない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、そして、得られた語義化情報を前記インターネット知識ベースに添加することを含む、方法。
付記10に記載の方法であって、
前記テーブルの実体列中の各行の実体名と、前記インターネット知識ベース中での実体とを関連付けることで、各実体名の前記インターネット知識ベース中での対応する実体を確定することは、更に、
前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じ実体とを関連付けることを含む、方法。
Claims (10)
- テーブル語義化装置であって、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付け、各実体名の前記インターネット知識ベース中での対応する実体を確定する実体確定ユニット;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、マッチング結果に基づいて各列が対応する属性を確定する属性確定ユニット;及び
確定された実体、及び各列が対応する属性に基づいて、前記テーブルを語義化するテーブル語義化ユニットを含む、装置。 - 請求項1に記載の装置であって、
前記実体確定ユニットは、
前記実体名と、前記インターネット知識ベース中での対応する前記実体との第1類似度を計算する第1類似度計算サブユニット;
前記テーブルの各列の値と、対応する前記実体の前記インターネット知識ベース中での属性値との第2類似度を計算する第2類似度計算サブユニット;
前記第1類似度及び前記第2類似度に基づいて、重み付け類似度を計算する重み付け類似度計算サブユニット;及び
前記重み付け類似度が所定閾値より大きい時に、該実体が前記実体名の前記インターネット知識ベース中での対応する実体であると確定する実体確定サブユニットを含む、装置。 - 請求項1に記載の装置であって、
前記属性確定ユニットは、
前記テーブルの各行について、前記各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチング関係に基づいて、マッピング関係表を構築するマッピング関係表構築サブユニット;
前記マッピング関係表に基づいて、列の属性支持度を計算する属性支持度計算サブユニットであって、前記列の属性支持度は、1つの属性が全てのマッピング関係表の同一列に出現する回数と、前記マッピング関係表の個数との比である、属性支持度計算サブユニット;及び
少なくとも前記列の属性支持度に基づいて、前記各列が対応する属性を確定する属性確定サブユニットを含む、装置。 - 請求項3に記載の装置であって、
前記属性確定ユニットは、更に、
前記マッピング関係表に基づいて、属性信頼度を計算する属性信頼度計算サブユニットであって、前記属性信頼度は、前記テーブルの一行と関連付けられる前記インターネット知識ベース中での属性の個数と、前記テーブルの列数との比である、属性信頼度計算サブユニット;及び
前記属性信頼度及び前記属性支持度に基づいて、属性総得点を計算する属性総得点計算サブユニットを含み、
前記属性確定サブユニットは、前記属性総得点に基づいて、前記各列が対応する属性を確定する、装置。 - 請求項4に記載の装置であって、
前記属性総得点は、前記属性信頼度に1を加算してから対数計算を行い、そして、前記属性支持度をさらに乗算することで計算されるものである、装置。 - 請求項2に記載の装置であって、
前記第1類似度は、ロジカル距離又はJaccard類似度を用いて計算されるのもであり;
前記第2類似度は、前記テーブルの各列の値と、対応する前記実体の前記属性値との類似度の和を求めてから対数計算を行うことで計算されるものであり;及び
前記重み付け類似度は、公式「重み付け類似度=α・第1類似度+(1−α)・第2類似度」により計算されるものであり、αは、所定係数である、装置。 - 請求項1に記載の装置であって、
前記テーブル語義化ユニットは更に、前記実体列の実体名、及び前記各列が対応する属性をリソース・ディスクリプション・フレームワークのフォーマットに変換することで、前記テーブルを語義化する、装置。 - 請求項1に記載の装置であって、更に、
前記実体確定ユニットが、前記テーブルのある行の実体名の前記インターネット知識ベース中での対応する実体を発見することができない場合、該実体名及びその対応する属性値を、確定された各列が対応する属性と同じ属性を用いて語義化し、得られた語義化情報を前記インターネット知識ベースに添加する実体情報添加ユニットを含む、装置。 - 請求項1に記載の装置であって、
前記実体確定ユニットは更に、前記実体名と、前記インターネット知識ベース中での前記実体名の実体類型と同じ実体とを関連付ける、装置。 - テーブル語義化装置におけるテーブル語義化方法であって、
前記テーブル語義化装置が、
テーブルの実体列中の各行の実体名と、インターネット知識ベース中での実体とを関連付け、各実体名の前記インターネット知識ベース中での対応する実体を確定し;
前記テーブルの各行について、各列の値と、該行が対応する実体のインターネット知識ベース中での属性値とのマッチングを行い、マッチング結果に基づいて、各列が対応する属性を確定し;及び
確定された実体名、及び各列が対応する属性に基づいて、前記テーブルを語義化することを含む、方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410737646.8A CN105718433B (zh) | 2014-12-05 | 2014-12-05 | 表格语义化装置和方法 |
CN201410737646.8 | 2014-12-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016110646A JP2016110646A (ja) | 2016-06-20 |
JP6662000B2 true JP6662000B2 (ja) | 2020-03-11 |
Family
ID=56124451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015232018A Active JP6662000B2 (ja) | 2014-12-05 | 2015-11-27 | テーブル語義化装置及び方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6662000B2 (ja) |
CN (1) | CN105718433B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022116866A (ja) * | 2021-01-29 | 2022-08-10 | 国立研究開発法人医薬基盤・健康・栄養研究所 | 複数の項目を関係付けるための方法、システム、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086782A (ja) * | 2002-08-29 | 2004-03-18 | Hitachi Ltd | 異種データベース統合支援装置 |
EP1983444A1 (en) * | 2007-04-16 | 2008-10-22 | The European Community, represented by the European Commission | A method for the extraction of relation patterns from articles |
CN102043819A (zh) * | 2009-10-20 | 2011-05-04 | 华中科技大学 | Html表格语义脉络分析方法 |
US20120284224A1 (en) * | 2011-05-04 | 2012-11-08 | Microsoft Corporation | Build of website knowledge tables |
JP2013120534A (ja) * | 2011-12-08 | 2013-06-17 | Mitsubishi Electric Corp | 関連語分類装置及びコンピュータプログラム及び関連語分類方法 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN102779161B (zh) * | 2012-06-14 | 2015-03-04 | 杜小勇 | 基于rdf知识库的语义标注方法 |
CN104182420A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 一种基于本体的中文人名消歧方法 |
-
2014
- 2014-12-05 CN CN201410737646.8A patent/CN105718433B/zh active Active
-
2015
- 2015-11-27 JP JP2015232018A patent/JP6662000B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
CN105718433A (zh) | 2016-06-29 |
CN105718433B (zh) | 2019-01-22 |
JP2016110646A (ja) | 2016-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Morlon et al. | RPANDA: an R package for macroevolutionary analyses on phylogenetic trees | |
US10599983B2 (en) | Inferred facts discovered through knowledge graph derived contextual overlays | |
EP3032409A1 (en) | Transitive source code violation matching and attribution | |
US9740480B1 (en) | Apparatus and methodologies for code refactoring | |
CN110795572B (zh) | 一种实体对齐方法、装置、设备及介质 | |
WO2014126657A1 (en) | Latent semantic analysis for application in a question answer system | |
Landsheer et al. | Unbalanced 2 x 2 factorial designs and the interaction effect: a troublesome combination | |
US11232267B2 (en) | Proximity information retrieval boost method for medical knowledge question answering systems | |
Fernandez-Álvarez et al. | Automatic extraction of shapes using sheXer | |
US20170039271A1 (en) | Scoring Automatically Generated Language Patterns for Questions using Synthetic Events | |
US10083398B2 (en) | Framework for annotated-text search using indexed parallel fields | |
JP2016149127A (ja) | 実体属性値の確定装置及び方法 | |
US10628413B2 (en) | Mapping questions to complex database lookups using synthetic events | |
JP2021500692A (ja) | 系図エンティティ解決システムおよび方法 | |
Khan et al. | xcodeeval: A large scale multilingual multitask benchmark for code understanding, generation, translation and retrieval | |
Shanavas et al. | Ontology-based enriched concept graphs for medical document classification | |
JP2022525089A (ja) | 医療データ自動収集セグメンテーション及び分析のための方法、装置、及びコンピュータプログラム | |
US11669691B2 (en) | Information processing apparatus, information processing method, and computer readable recording medium | |
US12118314B2 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
CN116710986A (zh) | 基于无参考鉴别器的对话模型训练 | |
JP6662000B2 (ja) | テーブル語義化装置及び方法 | |
Wang et al. | Bayesian adaptive lasso for additive hazard regression with current status data | |
Staff | A leap from artificial to intelligence | |
US8740703B2 (en) | Random data generation | |
Kim et al. | Machine learning methodologies for prediction of rhythm-control strategy in patients diagnosed with atrial fibrillation: observational, retrospective, case-control study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190723 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190726 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6662000 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |