JP2019121173A - 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 - Google Patents
複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP2019121173A JP2019121173A JP2018000458A JP2018000458A JP2019121173A JP 2019121173 A JP2019121173 A JP 2019121173A JP 2018000458 A JP2018000458 A JP 2018000458A JP 2018000458 A JP2018000458 A JP 2018000458A JP 2019121173 A JP2019121173 A JP 2019121173A
- Authority
- JP
- Japan
- Prior art keywords
- data
- data item
- group
- instance
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
近年普及が進みつつあるオープンデータとして、各市町村が公開しているデータの群(保育園情報や公共施設情報、人口統計情報など)がある。これらのインスタンスデータを統合して分析することによって、例えば「家探し支援サービス」として、住居をWeb検索する際に、街同士の比較結果を合わせて表示することもできる。
他の例として、企業に関するインスタンスデータとしては、顧客情報や商品情報、購入情報などがある。これらのインスタンスデータを統合して分析することで、顧客の商品購入の傾向の把握や、類似した他の商品のレコメンドなどに活用できる。
インスタンスデータの群には、複数のデータ項目が任意に対応付けられており、各データ項目に対応した内容がまとめられている。
一方で、インスタンスデータの異なる群同士では、そのデータ項目の名称が異なる場合が多い。例えば、第1のインスタンスデータの群の「施設名称」と、第2のインスタンスデータの群の「施設名」とは、その用語が異なっている。但し、同じ内容を表すデータ項目であるために、同じ列としてまとめて、インスタンスデータの群同士を統合することが好ましい。
このように、インスタンスデータの群同士が、統一的なフォーマットで構成されていない場合、データ項目を統合することが難しいだけでなく、インスタンスデータの大規模な共有化が進みにくいという問題もある。
例えば、各データ項目におけるデータ値の統計量などを考慮した評価関数を用いて、データ項目の類似度を判定する技術がある(例えば特許文献1参照)。図1の場合、第1のインスタンスデータの群におけるデータ項目「施設緯度」のデータ値の平均は35.8023025であり、第2のインスタンスデータの群におけるデータ項目「緯度」のデータ値の平均は35.71665であるとする。この場合、その差は0.2%程度と小さいために、両データ項目の類似度は高いと判定し、それらデータ項目を統合することができる。
概念的弁別関係の例としては、データ項目「番号」「日付」があった場合、両者は弁別性のある概念であるため、異なるデータ項目と判定する。
時間的順序関係の例としては、データ項目「出荷」「着荷」があった場合、「出荷」の方が時間的に早いことを考慮して、異なるデータ項目と判定する。
しかしながら、これらデータ項目の情報自体を用いて判定しようとすると、インスタンスデータの群の統合の精度を高めることが難しい。即ち、データ項目は、インスタンスデータの作成者の恣意的なものであって、結局、データ項目同士の統合は、人手によって判定する必要があった。
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
してコンピュータを機能させることを特徴とする。
第1の検索件数取得手段における第1の検索件数は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化されたものである
ようにコンピュータを機能させることも好ましい。
データ項目統合手段は、所定条件の判定のために機械学習エンジンを適用しており、第1の検索件数を特徴量として、過去に、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合したデータ項目を、教師データとして学習させておく
ようにコンピュータを機能させることも好ましい。
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する第1の検索割合算出手段を更に有し、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合とが第1の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
第1の検索割合算出手段における第1の検索割合は、第1の検索件数が最多となるデータ項目の第1の検索割合を1とし、最少となるデータ項目の第1の検索割合を0として、全てのデータ項目に対して正規化されたものである
ようにコンピュータを機能させることも好ましい。
データ項目統合手段における第1の所定条件とは、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合との差分又は比率が、第1の所定閾値以下である場合である
ようにコンピュータを機能させることも好ましい。
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジンによって第2の検索件数を取得する第2の検索件数取得手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する第2の検索割合算出手段と
して更に機能させ、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第2の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第2の検索割合とが第2の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
データ項目統合手段は、第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果とに基づいて、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることも好ましい。
データ項目として、URL(Uniform Resource Locator)が含まれおり、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、URLに基づくページ情報を取得するページ情報取得手段と、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する掲載回数計数手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する掲載割合算出手段と
して機能させ、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが第3の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
データ項目統合手段は、
第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、又は、
第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、
第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることも好ましい。
掲載回数計数手段における掲載回数は、当該データ項目が、当該ページ情報のタイトルタグに記述されたものである
ようにコンピュータを機能させることも好ましい。
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
を有することを特徴とする。
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1のステップと、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する第2のステップと
を実行することを特徴とする。
図3は、データ項目に対する第1の検索件数及び第1の検索割合の対応表である。
図2によれば、インスタンスデータ統合装置1は、第1の検索件数取得部111と、第1の検索割合算出部112と、データ項目統合部14と、検索エンジンアクセス部15とを有する。これら機能構成部は、インスタンスデータ統合装置1に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、インスタンスデータ項目統合方法としても理解できる。
第1の検索件数取得部111は、第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジン2によって第1の検索件数を取得する。第1の検索件数とは、当該データ項目の内容を含むWebサイトページのヒット件数であり、データ項目毎の特徴量として扱う。
図3によれば、インスタンスデータの各データ項目に、第1の検索件数が対応付けられている。
次に、施設番号「0xx-xxx-xxxx」をキーとして、ヒット件数を取得する。
更に、施設URL「http://www.x-hoikuen.com」をキーとして、ヒット件数を取得する。
更に、施設住所「A市xx1丁目2−3」をキーとして、ヒット件数を取得する。
このように、全てのデータ項目の内容をキーとして、第1の検索件数(ヒット件数)を取得する。ここで、例えば保育園情報の場合、施設名称「X保育園」は、施設電話や施設住所よりも、第1の検索件数が多くなる傾向がある。
第1の検索割合算出部112は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する。これは、図2によれば、オプション的な機能となる。
図3によれば、インスタンスデータの各データ項目に、第1の検索割合が対応付けられている。
データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが「所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
第1の検索割合算出部112によって取得された第1の検索割合を、特徴量として判定する。例えば、第1の検索割合の差分又は比率が、第1の所定閾値以下である場合には、「第1の所定条件」を満たすと判定する。
図3によれば、第1のインスタンスデータの第1の検索割合と第2のインスタンスデータの第1の検索割合とが第1の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
具体的には、順伝播型の畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)として、入力層(input layer)と、中間層(hidden layer)と、出力層(output layer)との3つの層から構成され、入力層から出力層へ向けて一方向に伝播する。中間層は、グラフ状に複数の層から構成するものであってもよい。最終的に、出力層は、2クラス(正例/負例)を出力するように構成することができる。
図5は、データ項目に対する第2の検索件数及び第2の検索割合の対応表である。
図6は、データ項目に対する掲載回数及び掲載割合の対応表である。
第2の検索件数取得部121は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジン2によって第2の検索件数を取得する。これは、2つのデータ項目の内容が、同一ページに掲載される件数を特徴量としたものである。
前述と同様に、第2の検索件数も、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化したものであってもよい。
そして、電話番号のデータ項目について、最多の第1の検索件数の施設名称「X保育園」と、例えば「0xx-xxx-xxxx」とを、アンド検索キーとして検索エンジン2によって第2の検索件数を取得する。
同様に、施設URLのデータ項目について、最多の第1の検索件数の施設名称「X保育園」と、例えば「http://www-xhoikuen.com」とを、アンド検索キーとして検索エンジン2によってヒット件数(第2の検索件数)を取得する。
このように、全てのデータ項目について、第2の検索件数を取得する。
第2の検索割合算出部122は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する。これは、図4によれば、オプション的な機能となる。
前述と同様に、第2の検索割合は、第2の検索件数が最多となるデータ項目の第2の検索割合を1とし、最少となるデータ項目の第2の検索割合を0として、全てのデータ項目に対して正規化されたものであってもよい。
オプションとしての第2の検索割合算出部122を含まない場合、データ項目統合部14は、第2の検索件数取得部121によって取得された第2の検索件数を、特徴量として判定する。例えば、総数となる第2の検索件数同士の差分又は比率が、所定閾値以下である場合には、「所定条件」を満たすと判定してもよい。
前述と同様に、例えば、第2の検索割合の差分又は比率が、所定閾値以下である場合には、「第2の所定条件」を満たすと判定してもよい。
図5によれば、第1のインスタンスデータの第2の検索割合と第2のインスタンスデータの第2の検索割合とが第2の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
具体的には、各データ項目について、第1の所定条件の結果に応じて類似度を付与し、第2の所定条件の結果に応じて類似度を付与し、それら類似度の加算値を対応付ける。その加算値の大小に応じて、データ項目を統合するか否かを判定することができる。
データ項目に、URL(Uniform Resource Locator)が含まれているとする。このとき、掲載回数計数部131は、第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する。
掲載回数計数部131は、データ項目のURLをキーとして、ページ情報取得部16へ出力する。ページ情報取得部16は、そのURLに向けてページ取得要求(GET Request)を送信し、そのページ応答(GET Response)を受信する。ページ応答には、ページとして、HTML(HyperText Markup Language)に基づくテキストが含まれる。
掲載回数計数部131は、取得したページに、各データ項目の内容が含まれているか否かをテキスト検索する。これを特徴量として利用する。
前述と同様に、掲載回数も、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化したものであってもよい。
掲載割合算出部132は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する。
前述と同様に、掲載割合としては、掲載回数が最多となるデータ項目の掲載割合を1とし、最少となるデータ項目の掲載割合を0として、全てのデータ項目に対して正規化されたものであってもよい。
また、他の実施形態として、掲載割合としては、インスタンスデータの群の中で、そのデータ項目(例えば施設名称)の内容が掲載された確率値であってもよい。図6によれば、例えば「施設名称」100%の場合、インスタンスデータの群における全てのインスタンスデータについて、そのホームページにその施設名称が掲載されていることを意味する。また、例えば「施設名称」50%の場合、インスタンスデータの群における50%のインスタンスデータについて、そのホームページにその施設名称が掲載されていることを意味する。
データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが「第3の所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
例えば、掲載割合同士の差分又は比率が、所定閾値以下である場合には、「第3の所定条件」を満たすと判定してもよい。
図6によれば、第1のインスタンスデータの第2の掲載割合と第2のインスタンスデータの第2の掲載割合とが第3の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
(1)第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて判定する。
(2)第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて判定する。
データ項目同士における第1の検索割合の差分が10%以下である場合、類似度0.5を加算する。
データ項目同士における第2の検索割合の差分が10%以下である場合、類似度1を加算する。
データ項目同士における掲載割合の差分が10%以下である場合、類似度1を加算する。
その他、データ項目の文字列や、データ型、データ統計量に応じて、類似度を加算する。
(第1のインスタンスデータ)<->(第2のインスタンスデータ)(最多類似度)
施設名称 <-> 施設名 4
施設電話 <-> 電話番号 4
施設URL <-> ホームページ 4
施設住所 <-> 住所 4
施設緯度 <-> 緯度 4
施設経度 <-> 経度 4
施設収容人数 <-> 定員 2
(第1のインスタンスデータ)<->(第2のインスタンスデータ)(最多類似度)
施設名称 <-> 施設名 5
施設電話 <-> 電話番号 5
施設URL <-> ホームページ 5
施設住所 <-> 住所 5
施設緯度 <-> 緯度 5
施設経度 <-> 経度 5
施設収容人数 <-> 定員 2
111 第1の検索件数取得部
112 第1の検索割合算出部
121 第2の検索件数取得部
122 第2の検索割合算出部
131 掲載回数計数部
132 掲載割合算出部
14 データ項目統合部
15 検索エンジンアクセス部
16 ページ情報取得部
2 検索エンジン
3 Webサイト
Claims (13)
- 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するようにコンピュータを機能させるプログラムであって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
してコンピュータを機能させることを特徴とするプログラム。 - 第1の検索件数取得手段における第1の検索件数は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化されたものである
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 前記データ項目統合手段は、前記所定条件の判定のために機械学習エンジンを適用しており、第1の検索件数を特徴量として、過去に、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合したデータ項目を、教師データとして学習させておく
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。 - 第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する第1の検索割合算出手段を更に有し、
前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合とが第1の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 第1の検索割合算出手段における第1の検索割合は、第1の検索件数が最多となるデータ項目の第1の検索割合を1とし、最少となるデータ項目の第1の検索割合を0として、全てのデータ項目に対して正規化されたものである
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。 - 前記データ項目統合手段における第1の所定条件とは、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合との差分又は比率が、第1の所定閾値以下である場合である
ようにコンピュータを機能させることを特徴とする請求項4又は5に記載のプログラム。 - 第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジンによって第2の検索件数を取得する第2の検索件数取得手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する第2の検索割合算出手段と
して更に機能させ、
前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第2の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第2の検索割合とが第2の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることを特徴とする請求項4から6のいずれか1項に記載のプログラム。 - 前記データ項目統合手段は、第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果とに基づいて、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。 - 前記データ項目として、URL(Uniform Resource Locator)が含まれおり、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、前記URLに基づくページ情報を取得するページ情報取得手段と、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する掲載回数計数手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する掲載割合算出手段と
して機能させ、
前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが第3の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載のプログラム。 - 前記データ項目統合手段は、
第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、又は、
第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、
第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。 - 前記掲載回数計数手段における前記掲載回数は、当該データ項目が、当該ページ情報のタイトルタグに記述されたものである
ようにコンピュータを機能させることを特徴とする請求項9又は8に記載のプログラム。 - 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するインスタンスデータ統合装置であって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
を有することを特徴とする装置。 - 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合する装置のインスタンスデータ項目統合方法であって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1のステップと、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する第2のステップと
を実行することを特徴とする装置のインスタンスデータ項目統合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018000458A JP6787644B2 (ja) | 2018-01-05 | 2018-01-05 | 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018000458A JP6787644B2 (ja) | 2018-01-05 | 2018-01-05 | 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019121173A true JP2019121173A (ja) | 2019-07-22 |
JP6787644B2 JP6787644B2 (ja) | 2020-11-18 |
Family
ID=67306347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018000458A Active JP6787644B2 (ja) | 2018-01-05 | 2018-01-05 | 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6787644B2 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099236A (ja) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | 分類支援装置、分類支援方法及び分類支援プログラム |
WO2008111424A1 (ja) * | 2007-03-09 | 2008-09-18 | Nec Corporation | フィールド照合方法及びシステムと、そのプログラム |
JP2014092967A (ja) * | 2012-11-05 | 2014-05-19 | Mitsubishi Electric Building Techno Service Co Ltd | 同一項目検出装置及びプログラム |
-
2018
- 2018-01-05 JP JP2018000458A patent/JP6787644B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099236A (ja) * | 2004-09-28 | 2006-04-13 | Toshiba Corp | 分類支援装置、分類支援方法及び分類支援プログラム |
WO2008111424A1 (ja) * | 2007-03-09 | 2008-09-18 | Nec Corporation | フィールド照合方法及びシステムと、そのプログラム |
JP2014092967A (ja) * | 2012-11-05 | 2014-05-19 | Mitsubishi Electric Building Techno Service Co Ltd | 同一項目検出装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6787644B2 (ja) | 2020-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908740B (zh) | 信息输出方法和装置 | |
US9990422B2 (en) | Contextual analysis engine | |
US10430806B2 (en) | Input/output interface for contextual analysis engine | |
US10235681B2 (en) | Text extraction module for contextual analysis engine | |
Arias et al. | Forecasting with twitter data | |
Wu et al. | Harvesting social knowledge from folksonomies | |
US7580926B2 (en) | Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy | |
US20120136859A1 (en) | Entity Type Assignment | |
Beel | Towards effective research-paper recommender systems and user modeling based on mind maps | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN112330510A (zh) | 一种志愿推荐方法、装置、服务器及计算机可读存储介质 | |
Sanyal et al. | Enhancing access to scholarly publications with surrogate resources | |
Katz et al. | Wikiometrics: a Wikipedia based ranking system | |
CN104462556A (zh) | 问答页面相关问题推荐方法和装置 | |
Van Pham et al. | Hybrid louvain-clustering model using knowledge graph for improvement of clustering user’s behavior on social networks | |
Liu et al. | LD Connect: A linked data portal for ios press scientometrics | |
Giannakoulopoulos et al. | Estimation on the importance of semantic web integration for art and culture related online media outlets | |
Wang et al. | Evaluating similarity measures for dataset search | |
Adeniyi et al. | Personalised news filtering and recommendation system using Chi-square statistics-based K-nearest neighbour (χ 2SB-KNN) model | |
Ameen et al. | The impact of organizational innovation on financial performance: a perspective of employees within Dubai ports world | |
Santoso et al. | An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites. | |
JP6787644B2 (ja) | 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 | |
CN113837847A (zh) | 基于异质多元关系融合的知识密集型服务推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201015 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201028 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6787644 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |