JP2018136640A - 検出方法、検出装置および検出プログラム - Google Patents
検出方法、検出装置および検出プログラム Download PDFInfo
- Publication number
- JP2018136640A JP2018136640A JP2017029419A JP2017029419A JP2018136640A JP 2018136640 A JP2018136640 A JP 2018136640A JP 2017029419 A JP2017029419 A JP 2017029419A JP 2017029419 A JP2017029419 A JP 2017029419A JP 2018136640 A JP2018136640 A JP 2018136640A
- Authority
- JP
- Japan
- Prior art keywords
- common
- data set
- data
- predicates
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】本検出方法は、トリプルを含む第1のデータセット及び第2のデータセットの何れにも含まれる複数の共通主語及び複数の共通述語を抽出し、複数の共通主語の何れかを含み且つ複数の共通述語の何れかを含むトリプルを、第1のデータセット及び第2のデータセットの各々から抽出し、複数の共通主語の各々に対して複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられたデータを、第1のデータセットから抽出したトリプルについて生成し且つ第2のデータセットから抽出したトリプルについて生成し、第1のデータセットについて生成したデータ及び第2のデータセットについて生成したデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する処理を含む。
【選択図】図1
Description
(1)トリプルの種類数が非常に多い(例えば数十億)
(2)述語の種類数が少ない(多くても100)
(3)主語の種類数および目的語の種類数の桁数は、トリプルの種類数の桁数と比較して数桁少ない
(4)いくつかの主語が追加または削除される(主語の数が2倍程度以上に増えることはない)
(5)いくつかの述語が追加または削除されることがある(述語の数が2倍程度以上に増えることはない)
(6)いくつかの目的語が追加または削除される(バージョン間の相違であるため、全体の一部の目的語が変更される)
本付録においては、ハッシュ結合、ソートマージ結合およびネステッドループ結合のそれぞれを用いて共通するレコードを特定する処理について説明する。
図23は、ハッシュ結合について説明するための図である。図23に示した例においては、データセットT1とデータセットT2との間で共通するトリプルが抽出される。ハッシュテーブルには、データセットT1の比較対象列(この例では、列1、列2及び列3)の値からハッシュ関数により算出されたハッシュ値と、比較対象列の値とが登録される。そして、ハッシュテーブルを参照しながら、データセットT2の各レコードの比較対象列がデータセットT1のレコードと一致するか確認される。
図24は、ソートマージ結合について説明するための図である。ソートマージ結合においては、まず各データセットのレコードがソートされる。図24に示した例においては、比較対象列は列1、列2及び列3であり、まずデータセットT1の最初のレコードの値とデータセットT2の最初のレコード値とが比較される。両者が等しければ、共通するレコードであるとして抽出される。データセットT1の最初のレコードの値がデータセットT2の最初のレコードの値より大きい場合(或いは、辞書順で後である場合)、データセットT2の次のレコードの値とデータセットT1の最初のレコードの値とが比較される。逆に、データセットT1の最初のレコードの値がデータセットT2の最初のレコードの値より小さい場合(或いは、辞書順で前である場合)、データセットT1の次のレコードの値とデータセットT2の最初のレコードの値とが比較される。以上のような処理が繰り返される。
図25は、ネステッドループ結合について説明するための図である。図25に示した例においては、データセットT1における最初のレコードの比較対象列(ここでは、列1、列2及び列3)の値と、データセットT2における各レコードの比較対象列の値とが比較される。この処理が、データセットT1における2番目のレコードから最後のレコードまで実行されることで、共通するレコードが抽出される。
コンピュータに、
主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出し、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、
前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する、
処理を実行させる検出プログラム。
前記コンピュータに、
前記第1のデータに含まれる目的語の集合の各々から生成した符号と、前記第2のデータに含まれる目的語の集合の各々から生成した符号との比較に基づき、前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する、
処理をさらに実行させる付記1記載の検出プログラム。
前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する処理において、
第1のデータに含まれる目的語の第1の集合から生成した符号と、前記第2のデータに含まれる目的語の第2の集合から生成した符号とが同一である場合、前記第1の集合又は前記第2の集合に含まれる各目的語と、当該目的語に対応する共通主語および共通述語とを含むトリプルを抽出し、
前記第1のデータに含まれる目的語の第3の集合から生成した符号と、前記第2のデータに含まれる目的語の第4の集合から生成した符号とが同一ではない場合、前記第3の集合に含まれる各目的語と、前記第4の集合に含まれる各目的語との比較に基づき、前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する、
付記2記載の検出プログラム。
前記複数の共通主語および前記複数の共通述語を抽出する処理において、
前記第1のデータセットに含まれる複数の述語のうち前記第2のデータセットに含まれる述語である前記複数の共通述語を抽出し、
前記第2のデータセットに含まれるトリプルのうち、抽出された前記複数の共通述語のいずれかと同じ述語を含み且つ前記第1のデータセットに含まれる主語と同じ主語を含むトリプルを特定し、特定した当該トリプルに含まれる主語である前記複数の共通主語を抽出する、
付記1乃至3のいずれか1つ記載の検出プログラム。
目的語の集合から生成される符号はチェックサムである、
付記1乃至4のいずれか1つ記載の検出プログラム。
コンピュータが、
主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出し、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、
前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する、
処理を実行する検出方法。
主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出する抽出部と、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する生成部と、
を有する検出装置。
103 第2抽出部 105 生成部
107 比較部 111 データセット格納部
113 共通述語格納部 115 共通主語格納部
117 テーブル格納部 119 共通トリプル格納部
Claims (6)
- コンピュータに、
主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出し、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、
前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する、
処理を実行させる検出プログラム。 - 前記コンピュータに、
前記第1のデータに含まれる目的語の集合の各々から生成した符号と、前記第2のデータに含まれる目的語の集合の各々から生成した符号との比較に基づき、前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する、
処理をさらに実行させる請求項1記載の検出プログラム。 - 前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する処理において、
第1のデータに含まれる目的語の第1の集合から生成した符号と、前記第2のデータに含まれる目的語の第2の集合から生成した符号とが同一である場合、前記第1の集合又は前記第2の集合に含まれる各目的語と、当該目的語に対応する共通主語および共通述語とを含むトリプルを抽出し、
前記第1のデータに含まれる目的語の第3の集合から生成した符号と、前記第2のデータに含まれる目的語の第4の集合から生成した符号とが同一ではない場合、前記第3の集合に含まれる各目的語と、前記第4の集合に含まれる各目的語との比較に基づき、前記第1のデータセットと前記第2のデータセットとのいずれにも含まれるトリプルを抽出する、
請求項2記載の検出プログラム。 - 前記複数の共通主語および前記複数の共通述語を抽出する処理において、
前記第1のデータセットに含まれる複数の述語のうち前記第2のデータセットに含まれる述語である前記複数の共通述語を抽出し、
前記第2のデータセットに含まれるトリプルのうち、抽出された前記複数の共通述語のいずれかと同じ述語を含み且つ前記第1のデータセットに含まれる主語と同じ主語を含むトリプルを特定し、特定した当該トリプルに含まれる主語である前記複数の共通主語を抽出する、
請求項1乃至3のいずれか1つ記載の検出プログラム。 - コンピュータが、
主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出し、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、
前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、
前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する、
処理を実行する検出方法。 - 主語、述語および目的語を含むトリプルを複数含む第1のデータセットおよび第2のデータセットから、前記第1のデータセットおよび前記第2のデータセットのいずれにも含まれる複数の共通主語および複数の共通述語を抽出する抽出部と、
前記複数の共通主語のいずれかを含み且つ前記複数の共通述語のいずれかを含むトリプルを、前記第1のデータセット及び前記第2のデータセットのそれぞれから抽出し、前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第1のデータを、前記第1のデータセットから抽出したトリプルから生成し、前記複数の共通主語の各々に対して前記複数の共通述語の各々が対応付けられ且つ当該複数の共通述語の各々に対して目的語の集合が対応付けられた第2のデータを、前記第2のデータセットから抽出したトリプルから生成し、前記第1のデータおよび前記第2のデータのそれぞれについて、目的語の集合の各々から符号を生成する処理を実行する生成部と、
を有する検出装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017029419A JP6790905B2 (ja) | 2017-02-20 | 2017-02-20 | 検出方法、検出装置および検出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017029419A JP6790905B2 (ja) | 2017-02-20 | 2017-02-20 | 検出方法、検出装置および検出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018136640A true JP2018136640A (ja) | 2018-08-30 |
JP6790905B2 JP6790905B2 (ja) | 2020-11-25 |
Family
ID=63365858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017029419A Active JP6790905B2 (ja) | 2017-02-20 | 2017-02-20 | 検出方法、検出装置および検出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6790905B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021112257A1 (ja) * | 2019-12-06 | 2021-06-10 | 出光興産株式会社 | ポリカーボネート-ポリオルガノシロキサン共重合体及び該共重合体を含む樹脂組成物 |
JP2021111417A (ja) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Spoの抽出方法、装置、電子機器及び記憶媒体 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006302085A (ja) * | 2005-04-22 | 2006-11-02 | Kddi Corp | プロファイル管理装置およびコンピュータプログラム |
JP2007052723A (ja) * | 2005-08-19 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | メタデータ生成装置、メタデータ制約定義処理装置およびその制御方法 |
JP2013175181A (ja) * | 2012-02-23 | 2013-09-05 | Fujitsu Ltd | エンコードされたトリプルを格納するデータベース、装置及び方法 |
US20140201234A1 (en) * | 2013-01-15 | 2014-07-17 | Fujitsu Limited | Data storage system, and program and method for execution in a data storage system |
JP2014194766A (ja) * | 2013-03-27 | 2014-10-09 | Nec (China) Co Ltd | オントロジに基づく問い合わせ方法及び装置 |
JP2017517069A (ja) * | 2014-05-30 | 2017-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | リレーショナル・データベースに対するセマンティック・マッピングの自動生成 |
-
2017
- 2017-02-20 JP JP2017029419A patent/JP6790905B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006302085A (ja) * | 2005-04-22 | 2006-11-02 | Kddi Corp | プロファイル管理装置およびコンピュータプログラム |
JP2007052723A (ja) * | 2005-08-19 | 2007-03-01 | Nippon Telegr & Teleph Corp <Ntt> | メタデータ生成装置、メタデータ制約定義処理装置およびその制御方法 |
JP2013175181A (ja) * | 2012-02-23 | 2013-09-05 | Fujitsu Ltd | エンコードされたトリプルを格納するデータベース、装置及び方法 |
JP2013246828A (ja) * | 2012-02-23 | 2013-12-09 | Fujitsu Ltd | エンコードされたトリプルを格納するデータベース、制御部、方法及びシステム |
US20140201234A1 (en) * | 2013-01-15 | 2014-07-17 | Fujitsu Limited | Data storage system, and program and method for execution in a data storage system |
JP2014137820A (ja) * | 2013-01-15 | 2014-07-28 | Fujitsu Ltd | データ記憶システム、データ記憶システムで実行されるプログラム及び方法 |
JP2014194766A (ja) * | 2013-03-27 | 2014-10-09 | Nec (China) Co Ltd | オントロジに基づく問い合わせ方法及び装置 |
JP2017517069A (ja) * | 2014-05-30 | 2017-06-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | リレーショナル・データベースに対するセマンティック・マッピングの自動生成 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021112257A1 (ja) * | 2019-12-06 | 2021-06-10 | 出光興産株式会社 | ポリカーボネート-ポリオルガノシロキサン共重合体及び該共重合体を含む樹脂組成物 |
JP2021111417A (ja) * | 2020-01-15 | 2021-08-02 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Spoの抽出方法、装置、電子機器及び記憶媒体 |
JP7242719B2 (ja) | 2020-01-15 | 2023-03-20 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Spoの抽出方法、装置、電子機器及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP6790905B2 (ja) | 2020-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11693839B2 (en) | Parser for schema-free data exchange format | |
CN106104592B (zh) | 映射带键实体的属性 | |
US10521441B2 (en) | System and method for approximate searching very large data | |
US11074235B2 (en) | Inclusion dependency determination in a large database for establishing primary key-foreign key relationships | |
CN106294762B (zh) | 一种基于学习的实体识别方法 | |
US20130013597A1 (en) | Processing Repetitive Data | |
US20190228085A1 (en) | Log file pattern identifier | |
JP2008027072A (ja) | データベース分析プログラム、データベース分析装置、データベース分析方法 | |
Gu et al. | The interaction between schema matching and record matching in data integration | |
CN105447169A (zh) | 文献归一方法、文献搜索方法及对应装置 | |
CN105589908A (zh) | 用于事务集合的关联规则计算方法 | |
US11288266B2 (en) | Candidate projection enumeration based query response generation | |
Lattanzi et al. | A framework for parallelizing hierarchical clustering methods | |
Davardoost et al. | Extracting OLAP cubes from document-oriented NoSQL database based on parallel similarity algorithms | |
JP6790905B2 (ja) | 検出方法、検出装置および検出プログラム | |
CN106599122B (zh) | 一种基于垂直分解的并行频繁闭序列挖掘方法 | |
WO2013172310A1 (ja) | ルール発見システムと方法と装置並びにプログラム | |
CN114398394A (zh) | 数据血缘解析方法、装置、设备及存储介质 | |
US20070174306A1 (en) | Data extraction and conversion methods and apparatuses | |
US11048730B2 (en) | Data clustering apparatus and method based on range query using CF tree | |
CN113495901B (zh) | 一种面向可变长数据块的快速检索方法 | |
WO2018096686A1 (ja) | 検証プログラム、検証装置、検証方法、インデックス生成プログラム、インデックス生成装置およびインデックス生成方法 | |
Wang et al. | MapReduce based personalized locality sensitive hashing for similarity joins on large scale data | |
WO2014168199A1 (ja) | 論理演算方法および情報処理装置 | |
WO2013172309A1 (ja) | ルール発見システムと方法と装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200831 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201019 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6790905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |