JP2019121173A - 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 - Google Patents

複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 Download PDF

Info

Publication number
JP2019121173A
JP2019121173A JP2018000458A JP2018000458A JP2019121173A JP 2019121173 A JP2019121173 A JP 2019121173A JP 2018000458 A JP2018000458 A JP 2018000458A JP 2018000458 A JP2018000458 A JP 2018000458A JP 2019121173 A JP2019121173 A JP 2019121173A
Authority
JP
Japan
Prior art keywords
data
data item
group
instance
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018000458A
Other languages
English (en)
Other versions
JP6787644B2 (ja
Inventor
康孝 西村
Yasutaka Nishimura
康孝 西村
雅晴 服部
Masaharu Hattori
雅晴 服部
吉原 貴仁
Takahito Yoshihara
貴仁 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2018000458A priority Critical patent/JP6787644B2/ja
Publication of JP2019121173A publication Critical patent/JP2019121173A/ja
Application granted granted Critical
Publication of JP6787644B2 publication Critical patent/JP6787644B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数のインスタンスデータの群をスキーマの関係性に基づいて、精度良く統合することができるプログラム、装置及び方法を提供する。【解決手段】第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段としてコンピュータを機能させる。【選択図】図2

Description

本発明は、複数のインスタンスデータの群を統合する技術に関する。
従来、複数のインスタンス(実体)データの群を統合したいとする需要がある。これによって、分散された個々のインスタンスデータでは提供できない価値を生み出すことが期待される。
近年普及が進みつつあるオープンデータとして、各市町村が公開しているデータの群(保育園情報や公共施設情報、人口統計情報など)がある。これらのインスタンスデータを統合して分析することによって、例えば「家探し支援サービス」として、住居をWeb検索する際に、街同士の比較結果を合わせて表示することもできる。
他の例として、企業に関するインスタンスデータとしては、顧客情報や商品情報、購入情報などがある。これらのインスタンスデータを統合して分析することで、顧客の商品購入の傾向の把握や、類似した他の商品のレコメンドなどに活用できる。
図1は、2つのインスタンスデータの群を統合する例を表す説明図である。
図1によれば、インスタンスデータの群は、例えば異なる自治体が公開する保育園のオープンデータである。第1のインスタンスデータの群は、A市の保育園情報であり、第2のインスタンスデータの群は、B市の保育園情報である。
インスタンスデータの群には、複数のデータ項目が任意に対応付けられており、各データ項目に対応した内容がまとめられている。
一方で、インスタンスデータの異なる群同士では、そのデータ項目の名称が異なる場合が多い。例えば、第1のインスタンスデータの群の「施設名称」と、第2のインスタンスデータの群の「施設名」とは、その用語が異なっている。但し、同じ内容を表すデータ項目であるために、同じ列としてまとめて、インスタンスデータの群同士を統合することが好ましい。
インスタンスデータの群を統合する際、スキーマの関係性に基づいて、データ項目を統合する必要がある。スキーマとは、データ項目における名称やデータ型などのデータ構造を表す。通常、一方のインスタンスデータの群が作成される際に、他の群と統合されることを前提として作成されていない場合が多い。
このように、インスタンスデータの群同士が、統一的なフォーマットで構成されていない場合、データ項目を統合することが難しいだけでなく、インスタンスデータの大規模な共有化が進みにくいという問題もある。
スキーマの関係性に基づく基本的情報としては、データ項目の類似度がある。類似度は、データ項目の文字列を比較して算出されたものであってもよい。データ項目の文字列が同一の場合や、同一の部分文字列を含む場合、高い類似度で算出される。しかしながら、データ項目「名称」という同一の部分文字列があったとしても、施設の名称であるのか、市町村の名称であるのかなど、データ項目の名称だけで判定することが難しい場合も多い。
従来、データ項目の名称以外の情報を用いて、スキーマの関係性に基づいてインスタンスデータの群を統合する技術がある。
例えば、各データ項目におけるデータ値の統計量などを考慮した評価関数を用いて、データ項目の類似度を判定する技術がある(例えば特許文献1参照)。図1の場合、第1のインスタンスデータの群におけるデータ項目「施設緯度」のデータ値の平均は35.8023025であり、第2のインスタンスデータの群におけるデータ項目「緯度」のデータ値の平均は35.71665であるとする。この場合、その差は0.2%程度と小さいために、両データ項目の類似度は高いと判定し、それらデータ項目を統合することができる。
また、データ項目名を構成する語彙の概念的弁別関係と時間的順序関係とを事前設定しておき、それを用いてデータ項目の関係性に基づく候補を絞り込む技術もある(例えば特許文献2参照)。
概念的弁別関係の例としては、データ項目「番号」「日付」があった場合、両者は弁別性のある概念であるため、異なるデータ項目と判定する。
時間的順序関係の例としては、データ項目「出荷」「着荷」があった場合、「出荷」の方が時間的に早いことを考慮して、異なるデータ項目と判定する。
更に、スキーマに関する設計書情報を用いて、データ項目を統合する技術もある(例えば特許文献3参照)。設計書としては、wordやpdfなどのドキュメントファイルを想定しており、設計書には、データ項目の名称やデータ型の定義に加えて、補足説明情報(例えばデータ項目「氏名」の姓と名の間に全角スペースを入れる、など)が含まれている。これらの情報を設計書から読み取り、スキーマの関係性に基づいてデータ項目を統合する。
特開2006―99236号公報 特開2007−179146号公報 WO2013128611A1
前述したように、従来技術によれば、インスタンスデータの群を統合する際に、スキーマの関係性として、データ項目について、名称や、データ値、語彙情報、設計書情報などを用いている。
しかしながら、これらデータ項目の情報自体を用いて判定しようとすると、インスタンスデータの群の統合の精度を高めることが難しい。即ち、データ項目は、インスタンスデータの作成者の恣意的なものであって、結局、データ項目同士の統合は、人手によって判定する必要があった。
そこで、本発明は、複数のインスタンスデータの群をスキーマの関係性に基づいて、精度良く統合することができるプログラム、装置及び方法を提供することを目的とする。
本発明によれば、第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するようにコンピュータを機能させるプログラムであって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
してコンピュータを機能させることを特徴とする。
本発明のプログラムにおける他の実施形態によれば、
第1の検索件数取得手段における第1の検索件数は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化されたものである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
データ項目統合手段は、所定条件の判定のために機械学習エンジンを適用しており、第1の検索件数を特徴量として、過去に、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合したデータ項目を、教師データとして学習させておく
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する第1の検索割合算出手段を更に有し、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合とが第1の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1の検索割合算出手段における第1の検索割合は、第1の検索件数が最多となるデータ項目の第1の検索割合を1とし、最少となるデータ項目の第1の検索割合を0として、全てのデータ項目に対して正規化されたものである
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
データ項目統合手段における第1の所定条件とは、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合との差分又は比率が、第1の所定閾値以下である場合である
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジンによって第2の検索件数を取得する第2の検索件数取得手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する第2の検索割合算出手段と
して更に機能させ、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第2の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第2の検索割合とが第2の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
データ項目統合手段は、第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果とに基づいて、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
データ項目として、URL(Uniform Resource Locator)が含まれおり、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、URLに基づくページ情報を取得するページ情報取得手段と、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する掲載回数計数手段と、
第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する掲載割合算出手段と
して機能させ、
データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが第3の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
データ項目統合手段は、
第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、又は、
第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、
第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
ようにコンピュータを機能させることも好ましい。
本発明のプログラムにおける他の実施形態によれば、
掲載回数計数手段における掲載回数は、当該データ項目が、当該ページ情報のタイトルタグに記述されたものである
ようにコンピュータを機能させることも好ましい。
本発明によれば、第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するインスタンスデータ統合装置であって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
を有することを特徴とする。
本発明によれば、第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合する装置のインスタンスデータ項目統合方法であって、
第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1のステップと、
第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する第2のステップと
を実行することを特徴とする。
本発明のプログラム、装置及び方法によれば、複数のインスタンスデータの群をスキーマの関係性に基づいて、精度良く統合することができる。
2つのインスタンスデータの群を統合する例を表す説明図である。 本発明におけるインスタンスデータ統合装置の基本的な機能構成図である。 データ項目に対する第1の検索件数及び第1の検索割合の対応表である。 本発明におけるインスタンスデータ統合装置の応用的な機能構成図である。 データ項目に対する第2の検索件数及び第2の検索割合の対応表である。 データ項目に対する掲載回数及び掲載割合の対応表である。 データ項目に対するデータ型の対応表である。 異なるインスタンスデータの群におけるデータ項目同士の類似度を表す対応表である。
以下では、本発明の実施の形態について、図面を用いて詳細に説明する。
図2は、本発明におけるインスタンスデータ統合装置の基本的な機能構成図である。
図3は、データ項目に対する第1の検索件数及び第1の検索割合の対応表である。
インスタンスデータ統合装置1は、第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合する。
図2によれば、インスタンスデータ統合装置1は、第1の検索件数取得部111と、第1の検索割合算出部112と、データ項目統合部14と、検索エンジンアクセス部15とを有する。これら機能構成部は、インスタンスデータ統合装置1に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、インスタンスデータ項目統合方法としても理解できる。
[第1の検索件数取得部111]
第1の検索件数取得部111は、第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジン2によって第1の検索件数を取得する。第1の検索件数とは、当該データ項目の内容を含むWebサイトページのヒット件数であり、データ項目毎の特徴量として扱う。
特に、第1の検索件数は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化したものであってもよい。特定のインスタンスデータにおける特定のデータ項目についてのみ、ヒット件数が多くても、全体的に平均化することができる。
図3によれば、インスタンスデータの各データ項目に、第1の検索件数が対応付けられている。
第1の検索件数取得部111は、検索エンジンアクセス部15を介して、インターネットに接続された検索エンジン2へ、キー(データ項目の内容)を送信し、そのヒット件数(第1の検索件数)を取得する。検索エンジン2としては、例えばGoogle(登録商標)やYahoo(登録商標)、Bing(登録商標)のような検索サイトがある。
図1の第1のインスタンスデータによれば、例えば施設名称「X保育園」をキーとして、ヒット件数を取得する。
次に、施設番号「0xx-xxx-xxxx」をキーとして、ヒット件数を取得する。
更に、施設URL「http://www.x-hoikuen.com」をキーとして、ヒット件数を取得する。
更に、施設住所「A市xx1丁目2−3」をキーとして、ヒット件数を取得する。
このように、全てのデータ項目の内容をキーとして、第1の検索件数(ヒット件数)を取得する。ここで、例えば保育園情報の場合、施設名称「X保育園」は、施設電話や施設住所よりも、第1の検索件数が多くなる傾向がある。
同様に、統合を検討すべき第2のインスタンスデータについても、全てのデータ項目の内容をキーとして、第1の検索件数を取得する。
[第1の検索割合算出部112]
第1の検索割合算出部112は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する。これは、図2によれば、オプション的な機能となる。
ここで、第1の検索割合は、第1の検索件数が最多となるデータ項目の第1の検索割合を1とし、最少となるデータ項目の第1の検索割合を0として、全てのデータ項目に対して正規化されたものであってもよい。正規化することによって、データ項目同士の第1の検索割合の大小関係が明確となる。
図3によれば、インスタンスデータの各データ項目に、第1の検索割合が対応付けられている。
[データ項目統合部14]
データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが「所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
オプションとしての第1の検索割合算出部112を含まない場合、データ項目統合部14は、第1の検索件数取得部111によって取得された第1の検索件数を、特徴量として判定する。例えば、総数となる第1の検索件数同士の差分又は比率が、所定閾値以下である場合には、「所定条件」を満たすと判定してもよい。
一方で、第1の検索割合算出部112を含む場合、データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合とが「第1の所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
第1の検索割合算出部112によって取得された第1の検索割合を、特徴量として判定する。例えば、第1の検索割合の差分又は比率が、第1の所定閾値以下である場合には、「第1の所定条件」を満たすと判定する。
図3によれば、第1のインスタンスデータの第1の検索割合と第2のインスタンスデータの第1の検索割合とが第1の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
他の実施形態として、データ項目統合部14は、所定条件を、例えば機械学習エンジンによって判定するものであってもよい。例えば、第1の検索件数又は第1の検索割合を特徴量として、過去に、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合したデータ項目を、教師データとして学習させておく。
機械学習エンジンとしては、具体的には、教師あり学習のパターン認識モデルであるサポートベクターマシン(Support Vector Machine)を用いてもよい。サポートベクターマシンは、線形入力素子を用いて、2クラスのパターン識別器を構成する。サポートベクターマシンは、ノンパラメトリックモデルであり、教師データとしての正例/負例の特徴量を入力するだけで学習させることができる。
また、機械学習エンジンとして、ニューラルネットワーク(Neural Network)を用いたものであってもよい。ニューラルネットワークは、脳機能の特性を、計算機上のシミュレーションによって表現した数学モデルである。シナプスの結合によりネットワークを形成した人工ニューロン(ノード)が、学習によってシナプスの結合強度を変化させ、問題解決能力を持つようなモデル全般をいう。
具体的には、順伝播型の畳み込みニューラルネットワーク(Convolutional Neural Network, CNN)として、入力層(input layer)と、中間層(hidden layer)と、出力層(output layer)との3つの層から構成され、入力層から出力層へ向けて一方向に伝播する。中間層は、グラフ状に複数の層から構成するものであってもよい。最終的に、出力層は、2クラス(正例/負例)を出力するように構成することができる。
機械学習エンジンとして、サポートベクターマシンであってもニューラルネットワークであっても、本発明によれば、過去に統合したデータ項目同士の特徴量(第1の検索件数又は第1の検索割合)を「正例」とし、統合しなかったデータ項目同士の特徴量を「負例」として学習させることができる。
最終的に、データ項目統合部14は、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合し、そのインスタンスデータの群を出力する。
図4は、本発明におけるインスタンスデータ統合装置の応用的な機能構成図である。
図5は、データ項目に対する第2の検索件数及び第2の検索割合の対応表である。
図6は、データ項目に対する掲載回数及び掲載割合の対応表である。
図4によれば、インスタンスデータ統合装置1は、図1の各機能構成部に加えて、第2の検索件数取得部121と、第2の検索割合算出部122と、掲載回数計数部131と、掲載割合算出部132と、ページ情報取得部16とを更に有する。
[第2の検索件数取得部121]
第2の検索件数取得部121は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジン2によって第2の検索件数を取得する。これは、2つのデータ項目の内容が、同一ページに掲載される件数を特徴量としたものである。
前述と同様に、第2の検索件数も、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化したものであってもよい。
例えば、図1における第1のインスタンスデータの群における、施設名称「X保育園」のインスタンスデータを想定する。ここでは、当然、施設名称「X保育園」における第1の検索件数(平均値であってもよい)が最多となる。
そして、電話番号のデータ項目について、最多の第1の検索件数の施設名称「X保育園」と、例えば「0xx-xxx-xxxx」とを、アンド検索キーとして検索エンジン2によって第2の検索件数を取得する。
同様に、施設URLのデータ項目について、最多の第1の検索件数の施設名称「X保育園」と、例えば「http://www-xhoikuen.com」とを、アンド検索キーとして検索エンジン2によってヒット件数(第2の検索件数)を取得する。
このように、全てのデータ項目について、第2の検索件数を取得する。
[第2の検索割合算出部122]
第2の検索割合算出部122は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する。これは、図4によれば、オプション的な機能となる。
前述と同様に、第2の検索割合は、第2の検索件数が最多となるデータ項目の第2の検索割合を1とし、最少となるデータ項目の第2の検索割合を0として、全てのデータ項目に対して正規化されたものであってもよい。
(データ項目統合部14の追加機能)
オプションとしての第2の検索割合算出部122を含まない場合、データ項目統合部14は、第2の検索件数取得部121によって取得された第2の検索件数を、特徴量として判定する。例えば、総数となる第2の検索件数同士の差分又は比率が、所定閾値以下である場合には、「所定条件」を満たすと判定してもよい。
一方で、第2の検索割合算出部122を含む場合、データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の第2の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第2の検索割合とが「第2の所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
前述と同様に、例えば、第2の検索割合の差分又は比率が、所定閾値以下である場合には、「第2の所定条件」を満たすと判定してもよい。
図5によれば、第1のインスタンスデータの第2の検索割合と第2のインスタンスデータの第2の検索割合とが第2の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
他の実施形態として、データ項目統合部14は、第1の検索割合算出部112及び第2の検索割合算出部122の両方を用いて、第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果とに基づいて、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定するものであってもよい。
具体的には、各データ項目について、第1の所定条件の結果に応じて類似度を付与し、第2の所定条件の結果に応じて類似度を付与し、それら類似度の加算値を対応付ける。その加算値の大小に応じて、データ項目を統合するか否かを判定することができる。
[掲載回数計数部131]
データ項目に、URL(Uniform Resource Locator)が含まれているとする。このとき、掲載回数計数部131は、第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する。
掲載回数計数部131は、データ項目のURLをキーとして、ページ情報取得部16へ出力する。ページ情報取得部16は、そのURLに向けてページ取得要求(GET Request)を送信し、そのページ応答(GET Response)を受信する。ページ応答には、ページとして、HTML(HyperText Markup Language)に基づくテキストが含まれる。
掲載回数計数部131は、取得したページに、各データ項目の内容が含まれているか否かをテキスト検索する。これを特徴量として利用する。
前述と同様に、掲載回数も、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化したものであってもよい。
例えば、保育園情報や公共施設情報のオープンデータには、ホームページのURLが含まれる場合もある。また、それらのホームページには、施設名称や施設住所のような情報が掲載されている可能性が高い一方で、緯度経度のような情報は掲載されている可能性が低いといった傾向がある。また、施設名称の掲載回数が2回以上となるのに対し、施設電話や施設住所の掲載回数は1回となる傾向がある。このような傾向を、特徴量として定量的に算出する。
他の実施形態として、掲載回数は、当該データ項目が、当該ページ情報のタイトルタグに記述されたものに限定したものであってもよい。HTMLのテキストの場合、タイトルタグとは、<Title>タブで囲まれた部分を意味する。ここには、ページの最も特徴を表す単語が記述されている。
[掲載割合算出部132]
掲載割合算出部132は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する。
前述と同様に、掲載割合としては、掲載回数が最多となるデータ項目の掲載割合を1とし、最少となるデータ項目の掲載割合を0として、全てのデータ項目に対して正規化されたものであってもよい。
また、他の実施形態として、掲載割合としては、インスタンスデータの群の中で、そのデータ項目(例えば施設名称)の内容が掲載された確率値であってもよい。図6によれば、例えば「施設名称」100%の場合、インスタンスデータの群における全てのインスタンスデータについて、そのホームページにその施設名称が掲載されていることを意味する。また、例えば「施設名称」50%の場合、インスタンスデータの群における50%のインスタンスデータについて、そのホームページにその施設名称が掲載されていることを意味する。
(データ項目統合部14の追加機能)
データ項目統合部14は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが「第3の所定条件」を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する。
例えば、掲載割合同士の差分又は比率が、所定閾値以下である場合には、「第3の所定条件」を満たすと判定してもよい。
図6によれば、第1のインスタンスデータの第2の掲載割合と第2のインスタンスデータの第2の掲載割合とが第3の所定条件(例えば10%以下)を満たすように近いデータ項目同士が、両矢印破線で対応付けられている。
他の実施形態として、データ項目統合部14は、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定するために、以下のように結果を総合的に判定することも好ましい。
(1)第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて判定する。
(2)第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて判定する。
図7は、データ項目に対するデータ型の対応表である。
図7によれば、第1のインスタンスデータのデータ項目のデータ型と、第2のインスタンスデータのデータ項目のデータ型との対応関係を表す。データ型としては、例えば文字列、整数、電話番号、URL型、小数、e-mailなどがある。データ型が同じであれば、データ項目を統合すべき可能性も高い。
図8は、異なるインスタンスデータの群におけるデータ項目同士の類似度を表す対応表である。
図8(a)には、データ項目同士が所定条件を満たした場合における類似度の加算値のルールを表す。この判定条件に一致した際に、データ項目同士の組にその類似度を加算していく。
データ項目同士における第1の検索割合の差分が10%以下である場合、類似度0.5を加算する。
データ項目同士における第2の検索割合の差分が10%以下である場合、類似度1を加算する。
データ項目同士における掲載割合の差分が10%以下である場合、類似度1を加算する。
その他、データ項目の文字列や、データ型、データ統計量に応じて、類似度を加算する。
図8(b)には、第1の検索割合及び第2の検索割合に基づいた類似度の加算値の例を表す。これは、図8(a)のルールに従って、データ項目の類似度を加算し、スキーマ間の関係性を表している。
第1のインスタンスデータのデータ項目「施設名称」から見て、第2のインスタンスデータのデータ項目「施設名」が、類似度4で最多となる。一方で、第2のインスタンスデータのデータ項目「施設名」から見て、第1のインスタンスデータのデータ項目「施設名称」も、類似度4で最多となる。この場合、第1のインスタンスデータのデータ項目「施設名称」と、第2のインスタンスデータのデータ項目「施設名」とを統合することができると判断する。
次に、第1のインスタンスデータのデータ項目「施設電話」から見て、第2のインスタンスデータのデータ項目「電話番号」が、類似度2で最多となる。一方で、第2のインスタンスデータのデータ項目「電話番号」から見て、第1のインスタンスデータのデータ項目「施設電話」も、類似度2で最多となる。この場合、第1のインスタンスデータのデータ項目「施設電話」と、第2のインスタンスデータのデータ項目「電話番号」とを統合することができると判断する。
このように考えると、以下のようにデータ項目を統合することができると判断できる。
(第1のインスタンスデータ)<->(第2のインスタンスデータ)(最多類似度)
施設名称 <-> 施設名 4
施設電話 <-> 電話番号 4
施設URL <-> ホームページ 4
施設住所 <-> 住所 4
施設緯度 <-> 緯度 4
施設経度 <-> 経度 4
施設収容人数 <-> 定員 2
図8(c)には、更に掲載割合に基づいた類似度の加算値の例を表す。これは、図8(a)のルールに従って、データ項目の類似度を加算し、スキーマ間の関係性を表している。図8(c)についても、前述した図8(b)と同様に判断できる。
(第1のインスタンスデータ)<->(第2のインスタンスデータ)(最多類似度)
施設名称 <-> 施設名 5
施設電話 <-> 電話番号 5
施設URL <-> ホームページ 5
施設住所 <-> 住所 5
施設緯度 <-> 緯度 5
施設経度 <-> 経度 5
施設収容人数 <-> 定員 2
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、複数のインスタンスデータの群をスキーマの関係性に基づいて、精度良く統合することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 インスタンスデータ統合装置
111 第1の検索件数取得部
112 第1の検索割合算出部
121 第2の検索件数取得部
122 第2の検索割合算出部
131 掲載回数計数部
132 掲載割合算出部
14 データ項目統合部
15 検索エンジンアクセス部
16 ページ情報取得部
2 検索エンジン
3 Webサイト

Claims (13)

  1. 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するようにコンピュータを機能させるプログラムであって、
    第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
    第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
    してコンピュータを機能させることを特徴とするプログラム。
  2. 第1の検索件数取得手段における第1の検索件数は、第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、平均化されたものである
    ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
  3. 前記データ項目統合手段は、前記所定条件の判定のために機械学習エンジンを適用しており、第1の検索件数を特徴量として、過去に、第1のインスタンスデータの群と第2のインスタンスデータの群とを統合したデータ項目を、教師データとして学習させておく
    ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
  4. 第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第1の検索件数が最多となるデータ項目に対する、当該データ項目の第1の検索件数の第1の検索割合を算出する第1の検索割合算出手段を更に有し、
    前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合とが第1の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
    ようにコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。
  5. 第1の検索割合算出手段における第1の検索割合は、第1の検索件数が最多となるデータ項目の第1の検索割合を1とし、最少となるデータ項目の第1の検索割合を0として、全てのデータ項目に対して正規化されたものである
    ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。
  6. 前記データ項目統合手段における第1の所定条件とは、第1のインスタンスデータの群における第1のデータ項目の第1の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第1の検索割合との差分又は比率が、第1の所定閾値以下である場合である
    ようにコンピュータを機能させることを特徴とする請求項4又は5に記載のプログラム。
  7. 第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、当該データ項目と、第1の検索件数が最多となるデータ項目とをアンド検索キーとして検索エンジンによって第2の検索件数を取得する第2の検索件数取得手段と、
    第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、第2の検索件数が最多となるデータ項目に対する、当該データ項目の第2の検索件数の第2の検索割合を算出する第2の検索割合算出手段と
    して更に機能させ、
    前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の第2の検索割合と、第2のインスタンスデータの群における第2のデータ項目の第2の検索割合とが第2の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
    ようにコンピュータを機能させることを特徴とする請求項4から6のいずれか1項に記載のプログラム。
  8. 前記データ項目統合手段は、第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果とに基づいて、第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
    ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。
  9. 前記データ項目として、URL(Uniform Resource Locator)が含まれおり、
    第1のインスタンスデータ及び第2のインスタンスデータの全てについて、前記URLに基づくページ情報を取得するページ情報取得手段と、
    第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目が当該ページ情報に記述されている掲載回数を計数する掲載回数計数手段と、
    第1のインスタンスデータの群及び第2のインスタンスデータの群それぞれについて、データ項目毎に、掲載回数が最多となるデータ項目に対する、当該データ項目の掲載回数の掲載割合を算出する掲載割合算出手段と
    して機能させ、
    前記データ項目統合手段は、第1のインスタンスデータの群における第1のデータ項目の掲載割合と、第2のインスタンスデータの群における第2のデータ項目の掲載割合とが第3の所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する
    ようにコンピュータを機能させることを特徴とする請求項1から8のいずれか1項に記載のプログラム。
  10. 前記データ項目統合手段は、
    第1の検索割合に対する第1の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、又は、
    第1の検索割合に対する第1の所定条件の結果と、第2の検索割合に対する第2の所定条件の結果と、掲載割合に対する第3の所定条件の結果とに基づいて、
    第1のインスタンスデータの群の第1のデータ項目と第2のインスタンスデータの群の第2のデータ項目とを統合するか否かを判定する
    ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。
  11. 前記掲載回数計数手段における前記掲載回数は、当該データ項目が、当該ページ情報のタイトルタグに記述されたものである
    ようにコンピュータを機能させることを特徴とする請求項9又は8に記載のプログラム。
  12. 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合するインスタンスデータ統合装置であって、
    第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1の検索件数取得手段と、
    第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合するデータ項目統合手段と
    を有することを特徴とする装置。
  13. 第1のインスタンスデータの群及び第2のインスタンスデータの群を、データ項目に基づくスキーマの関係性に基づいて統合する装置のインスタンスデータ項目統合方法であって、
    第1のインスタンスデータ及び第2のインスタンスデータの全てについて、データ項目毎に、当該データ項目の内容をキーとして検索エンジンによって第1の検索件数を取得する第1のステップと、
    第1のインスタンスデータの群における第1のデータ項目の第1の検索件数と、第2のインスタンスデータの群における第2のデータ項目の第1の検索件数とが所定条件を満たす場合、第1のインスタンスデータの群における第1のデータ項目と、第2のインスタンスデータの群における第2のデータ項目とを統合する第2のステップと
    を実行することを特徴とする装置のインスタンスデータ項目統合方法。
JP2018000458A 2018-01-05 2018-01-05 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法 Active JP6787644B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018000458A JP6787644B2 (ja) 2018-01-05 2018-01-05 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018000458A JP6787644B2 (ja) 2018-01-05 2018-01-05 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法

Publications (2)

Publication Number Publication Date
JP2019121173A true JP2019121173A (ja) 2019-07-22
JP6787644B2 JP6787644B2 (ja) 2020-11-18

Family

ID=67306347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018000458A Active JP6787644B2 (ja) 2018-01-05 2018-01-05 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法

Country Status (1)

Country Link
JP (1) JP6787644B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099236A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム
WO2008111424A1 (ja) * 2007-03-09 2008-09-18 Nec Corporation フィールド照合方法及びシステムと、そのプログラム
JP2014092967A (ja) * 2012-11-05 2014-05-19 Mitsubishi Electric Building Techno Service Co Ltd 同一項目検出装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099236A (ja) * 2004-09-28 2006-04-13 Toshiba Corp 分類支援装置、分類支援方法及び分類支援プログラム
WO2008111424A1 (ja) * 2007-03-09 2008-09-18 Nec Corporation フィールド照合方法及びシステムと、そのプログラム
JP2014092967A (ja) * 2012-11-05 2014-05-19 Mitsubishi Electric Building Techno Service Co Ltd 同一項目検出装置及びプログラム

Also Published As

Publication number Publication date
JP6787644B2 (ja) 2020-11-18

Similar Documents

Publication Publication Date Title
CN107908740B (zh) 信息输出方法和装置
US9990422B2 (en) Contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US10235681B2 (en) Text extraction module for contextual analysis engine
Arias et al. Forecasting with twitter data
Wu et al. Harvesting social knowledge from folksonomies
US7580926B2 (en) Method and apparatus for representing text using search engine, document collection, and hierarchal taxonomy
US20120136859A1 (en) Entity Type Assignment
Beel Towards effective research-paper recommender systems and user modeling based on mind maps
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN112330510A (zh) 一种志愿推荐方法、装置、服务器及计算机可读存储介质
Sanyal et al. Enhancing access to scholarly publications with surrogate resources
Katz et al. Wikiometrics: a Wikipedia based ranking system
CN104462556A (zh) 问答页面相关问题推荐方法和装置
Van Pham et al. Hybrid louvain-clustering model using knowledge graph for improvement of clustering user’s behavior on social networks
Liu et al. LD Connect: A linked data portal for ios press scientometrics
Giannakoulopoulos et al. Estimation on the importance of semantic web integration for art and culture related online media outlets
Wang et al. Evaluating similarity measures for dataset search
Adeniyi et al. Personalised news filtering and recommendation system using Chi-square statistics-based K-nearest neighbour (χ 2SB-KNN) model
Ameen et al. The impact of organizational innovation on financial performance: a perspective of employees within Dubai ports world
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.
JP6787644B2 (ja) 複数のインスタンスデータの群をスキーマの関係性に基づいて統合するプログラム、装置及び方法
CN113837847A (zh) 基于异质多元关系融合的知识密集型服务推荐方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201015

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201028

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201028

R150 Certificate of patent or registration of utility model

Ref document number: 6787644

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150