JP2016149127A - 実体属性値の確定装置及び方法 - Google Patents

実体属性値の確定装置及び方法 Download PDF

Info

Publication number
JP2016149127A
JP2016149127A JP2016021478A JP2016021478A JP2016149127A JP 2016149127 A JP2016149127 A JP 2016149127A JP 2016021478 A JP2016021478 A JP 2016021478A JP 2016021478 A JP2016021478 A JP 2016021478A JP 2016149127 A JP2016149127 A JP 2016149127A
Authority
JP
Japan
Prior art keywords
entity
reliability
data source
attribute value
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016021478A
Other languages
English (en)
Inventor
ミアオ・チンリアン
Qingliang Miao
遥 孟
Yao Meng
遥 孟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2016149127A publication Critical patent/JP2016149127A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】本発明は、実体属性値の確定装置及び方法を提供する。【解決手段】前記装置は、実体の名称又は別称をキーワードとしてインターネット又はデータベース中で検索を行い、前記実体のデータソースを確定するユニット;各データソースについて、該データソース中の各レコードと、所定実体集合中の全ての実体との類似度に基づいて該データソースの信頼度を計算するユニット;各データソースの信頼度に基づいて実体の各属性値の信頼度を計算するユニット;及び、各属性値の信頼度に基づいて実体の属性値を確定するユニットを含む。本発明の装置及び方法により、複数データソース中の実体属性及び属性値に基づいて最信頼の属性値を発見し、実体の属性を補完することで、より豊富な実体情報を得ることができる。【選択図】図3

Description

本発明は、情報処理分野に関し、より具体的には、実体の属性値(エンティティ・アトリビュート・バリュー)を確定するための装置及び方法に関する。
インターネットの飛躍的な発展に伴い、インターネットでは、大量のデータが現れ、また、一つの実体eを記述するデータソースも複数ある。これらのデータソースに含まれている実体の属性値は、必ずしも同じものではなく、重複したものがあり、不一致なものがあり、また、衝突したものもある。よって、如何に複数のデータソースから実体eのできるだけ多くの属性及び属性値を発見し、これらの属性値の正確性を確保することができるかは、非常に重要なことである。
従って、実体の属性値を確定するための装置及び方法が望ましい。
本発明の目的は、実体の属性値を確定するための装置及び方法を提供することにある。
本発明の一側面によれば、実体の属性値を確定する装置が提供され、前記装置は、
実体の名称又は別称を検索キーワードとして、インターネット又はデータベース中で検索を行い、前記実体に関する少なくとも一つのデータソースを確定するためのデータソース確定ユニットであって、前記実体は所定実体集合中の一つである、データソース確定ユニット;
前記実体の各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算するためのデータソース信頼度計算ユニット;
前記実体の各データソースの信頼度に基づいて、前記実体の各属性値の信頼度を計算するための属性値信頼度計算ユニット;及び
前記実体の各属性値の信頼度に基づいて、前記実体の属性値を確定するための属性値確定ユニットを含む。
本発明の一実施例による実体属性値確定方法100の例示的なフローチャートである。 本発明の他の実施例による実体属性値方法100’の例示的なフローチャートである。 本発明の一実施例による実体属性値確定装置300の例示的な構成図である。 本発明の他の実施例による実体属性値確定装置300’の例示的な構成図である。 本発明の実施例による実体属性値確定方法及び装置を実施し得る計算装置の例示的な構成図である。
以下、添付した図面を参照しながら、本発明を実施するための形態を詳しく説明する。
本発明の実施例では、協同的な実体属性値補完方法が提供され、該方法は、先ず、所定の実体集合Eに基づいて、インターネット又はデータベース中でEに関するデータソースを検索し、そして、データソースに基づいて、シングルな実体eの関連データ集Sを構成し、その後、データソースの初期信頼度を推定し、そして、該信頼度を該データソースの各属性値に割り当てる。一例では、各実体eのためにデータソース初期信頼度行列を構成し、そして、各実体eの属性値のために信頼度を計算し、その後、データソース中の属性値間の一致性情報に基づいて、信頼度行列を再計算し、そして、再び信頼度行列に基づいて各データソースの信頼度を計算する。これらのステップに対して反復処理を、信頼度行列が収束するまで又は反復回数が所定回数に達するまで行う。最後に、信頼度行列に基づいて、信頼度が最も高い属性値を最終属性値とする。
以下、図面を参照しながら、本発明の実施例による実体の属性値を確定する方法及び装置について詳細に説明する。
図1は、本発明の一実施例による実体属性値確定方法100の例示的なフローチャートである。
先ず、ステップS102では、実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行い、該実体に関する少なくとも一つのデータソースを確定する。実体eは、所定実体集合E中の一つの実体であり、また、検索により実体eのデータソース集合Seを構成する。
検索時に実体eの名称又は別称を用いて検索を行い、eの名称とは、実体eの正式名称を指し、例えば、実体e=“清華大学”の名称は“清華大学”であり、また、eの別称は、“清華”などがある。なお、eの別称は、eの言及(mention)とも称される。
一例では、eに関するデータは、表データであっても良い。eの名称又は別称が表の実体列に出現した時に、該データソースは実体eの表データソースであり、該データソースをデータソース集合Seに追加する。
E中の全ての実体の関連データソース集合はSである。各実体e∈実体集合Eについては、データソース集合Se中で出現する実体eの属性集合Aeを統計により得る。
続いて、ステップS104では、得られた各データソースについて、該データソースに含まれている各レコードと、所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算する。
一例では、先ず、各実体eのためにデータソース初期信頼度行列を構成しても良い。具体的には、ステップS102で得られたデータソース集合Se及び属性集合Aeに基づいて、eの初期化行列Meを構成し、ここでは、Meの次元がm行n列であると仮定し、そのうち、m=|Se|、n=|Ae|である。
データソースse i∈Seの信頼度
(外1)
Figure 2016149127
を計算する方法は、
Figure 2016149127
及び
Figure 2016149127
である。
そのうち、
(外2)
Figure 2016149127
は、データソースse i中のある記録(レコード)であっても良い(表中のある行と理解されても良い)。confidence(se i)の意味は、実体集合E中の全ての実体eiと、データソースse iとの類似度を指す。公式(1)では、データソースse iに含まれている各レコードと、所定実体集合E中の全ての実体eiとの類似度の和を求め、そして、公式(2)では、
(外3)
Figure 2016149127
は、confidence(se i)に対して行った列正規化であり、即ち、全てのconfidence(se i)に対して正規化を行う。該類似度
(外4)
Figure 2016149127
は、データソースse iの初期信頼度とされ、データソースse iに含まれているレコードと、実体集合E中の実体とが類似するほど、データソースse iの信頼度が高いと理解されても良い。類似度の関数は、実体eと、レコード
(外5)
Figure 2016149127
中の実体名との類似度を考慮しても良く、所定の実体eには更に属性情報が含まれている場合、該類似度は、実体eの属性情報も考慮しても良く、即ち、実体eの属性値と、レコード
(外6)
Figure 2016149127
中での対応する属性値との類似度を考慮しても良い。
(外7)
Figure 2016149127
がデータソースse iの信頼度を表すので、se iの各属性値は、同じ信頼度
(外8)
Figure 2016149127
を有する。よって、Me中の第i行の値は全て
(外9)
Figure 2016149127
である。
類似度は、次の公式(3)
Figure 2016149127
のように、編集距離(edit distance)を用いて計算することができ、或いは、Jaro-Winkler距離を用いて計算することもできる。
ステップS104を実行したら、データソースは一つの初期信頼度を有するようになる。ステップS106では、各データソースの信頼度に基づいて、実体eの各属性値の信頼度を計算する。
一例では、次のような計算方法を採用して属性値の信頼度を計算する。先ず、投票ルール(voting rule)に基づいて各属性値の信頼度を確定する。実体eの各属性がp個の属性値を有すると仮定すると、次の公式(4)に従って各属性値の信頼度を計算し、そして、各属性値について信頼度の和を求めることができる。
Figure 2016149127
そのうち、ve iは、eの第i個目のデータソースにおける属性値であり、num(ve i)は、ve iのse i中で出現する回数である。
その後、次の公式(5)
Figure 2016149127
に従って、信頼度に対して正規化を行う。このようにして、新しい信頼度行列を得ることができる。
以下、属性値の信頼度を計算するための一つの具体例を挙げる。
表1に示すように、eの属性pは、3個の値、即ち、v1、v2、v3を有し、トータルで5個のデータソースを有する。
Figure 2016149127
よって、
属性値v1の信頼度が1*con(s1)+1*con(s4)であり、
属性値v2の信頼度が1*con(s2)であり、
属性値v3の信頼度が1*con(s3)+1*con(s5)であるように得ることができる。
また、正規化後のv1、v2、v3の信頼度は、それぞれ、
[1*con(s1)+1*con(s4)]/[1*con(s1)+1*con(s4)+1*con(s2)+1*con(s3)+1*con(s5)]、
[1*con(s2)]/[1*con(s1)+1*con(s4)+1*con(s2)+1*con(s3)+1*con(s5)]、及び
[1*con(s3)+1*con(s5)]/[1*con(s1)+1*con(s4)+1*con(s2)+1*con(s3)+1*con(s5)]であるようになる。
上述のステップにより、属性値v1、v2、v3の信頼度を得ることができる。
最後に、ステップS108では、各属性値の信頼度に基づいて実体の属性値を確定することができる。
図2は、本発明の他の実施例による実体属性値確定方法100’の例示的なフローチャートである。
図2中の実体属性値確定方法100’のステップS102〜S106は、図1中の確定方法100のステップS102〜S106と同様であるため、ここではその詳しい説明が省略される。
図2中の実体属性値確定方法100’は、ステップS108の前にステップS107を更に含み、ステップS107では、各属性値の信頼度に基づいて各データソースの信頼度を再計算し、そして、各データソースの信頼度に基づいて実体の各属性値の信頼度を計算することを、所定条件を満たすまで、反復して実行する。
具体的には、ステップS106で計算された実体の各属性値の信頼度に基づいて、実体属性値信頼度行列を得ることができ、その後、各データソースの信頼度を再計算する。計算方法は、データソースS中の実体eの各属性値の信頼度の和を求め、そして、正規化を行うことである。新しいデータソース信頼度を用いて、前のデータソース信頼度行列を更新し、その後、データソースの信頼度に基づいて実体eの各属性値の信頼度を計算するステップを再実行する。このように、データソース信頼度行列が収束するまで、即ち、属性値の信頼度が収束するまで、又は、反復回数が所定回数に達するまで、反復して実行する。ここで、反復の停止条件は、属性値の信頼度が収束することのみであっても良く、反復回数が所定回数に達することのみであっても良く、又は、属性値の信頼度が収束すること及び反復が所定回実行されることのうちの任意の一つであっても良い。
図2の実体属性値確定方法100’中のステップS108は具体的に、収束した信頼度行列に基づいて、信頼度が最も大きい属性値を最終属性値として発見することを含む。
最終実体属性値vの信頼度は、上記実体属性値vの信頼度の加重和であり、重み(weight)は、属性値vが所在するデータソースの信頼度である。例えば、属性値vが三つのデータソースs1、s2及びs3に出現すれば、属性値vの最終信頼度は、
con(v)=con(vs1)*con(s1)+con(vs2)*con(s2)+con(vs3)*con(s3)
である。
また、実体pが複数の属性値を有する場合、各属性値の最終信頼度を計算し、そして、信頼度に基づいて属性値に対してソーティング(並べ替え)を行うことで、最大の属性値を最終属性値とする。
なお、一例における実体属性値確定方法では、データソース信頼度行列を構成してから、属性値の信頼度を計算するのであるが、当業者が理解すべきは、信頼度行列を構成しない場合、実体属性値確定方法の各ステップを実行することもできるということである。
図3は、本発明の一実施例による実体属性値確定装置300の例示的な構成図である。
図3に示すように、実体属性値確定装置300は、データソース確定ユニット302、データソース信頼度計算ユニット304、属性値信頼度計算ユニット306及び属性値確定ユニット308を含む。
そのうち、データソース確定ユニット302は、実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行うことで、該実体に関する少なくとも一つのデータソースを確定するように構成され、該実体は、所定実体集合中の一つの実体である。
データソース信頼度計算ユニット304は、得られた各データソースについて、該データソースに含まれている各レコードと、所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算するように構成される。
属性値信頼度計算ユニット306は、データソースの信頼度に基づいて、実体の各属性値の信頼度を計算するように構成される。
属性値確定ユニット308は、各属性値の信頼度に基づいて実体の属性値を確定するように構成される。
図4は、本発明の他の実施例による実体属性値確定装置300’の例示的な構成図である。
図4に示すように、実体属性値確定装置300’は、データソース確定ユニット302、データソース信頼度計算ユニット304、属性値信頼度計算ユニット306、反復ユニット307及び属性値確定ユニット308を含む。言い換えると、図4に示す実体属性値の確定装置300’は、図3に示す実体属性値の確定装置300の各ユニットの他に、反復ユニット307も含む。
データソース確定ユニット302、データソース信頼度計算ユニット304、属性値信頼度計算ユニット306及び属性値確定ユニット308は、既に図3をもとに詳細的に説明されているので、ここでは同じ記載が省略される。
実体属性値確定装置300’の反復ユニット307は、各属性値の信頼度に基づいて各データソースの信頼度を再計算し、及び、各データソースの信頼度に基づいて実体の各属性値の信頼度を計算することを、所定条件を満たすまで、反復して実行するように構成される。
そのうち、所定条件は、属性値の信頼度が収束すること、及び、反復回数が所定回数に達することのうちの任意の一つである。
データソース信頼度計算ユニット304は更に、データソースに含まれている各レコードと、所定実体集合中の全ての実体との類似度に対して和を求め、そして、正規化を行うことで、データソースの信頼度を計算するように構成されても良い。
そのうち、データソースに含まれている各レコードと、所定実体集合中の全ての実体との類似度は、実体と、記録(レコード)中の実体の名称との類似度、及び/又は、実体の属性値と、記録中での対応する属性値との類似度であっても良い。
そのうち、類似度は、編集距離に基づいて計算することができ、又は、Jaro-Winkler距離に基づいて計算することもできる。
そのうち、属性値信頼度計算ユニット306は更に、実体の各属性値がデータソース中で出現する回数及びデータソースの信頼度に基づいて、投票ルールにより、各属性値の信頼度を計算するように構成されても良い。
そのうち、反復ユニット307は更に、実体に関するデータソースの各属性値の信頼度に対して和を求め、そして、正規化を行うことで、各データソースの信頼度を更新するように構成されても良い。
実体属性値確定装置300及び300’の各ユニットの操作(処理)及び機能の細部については、図1及び図2をもとに説明されている実体属性値確定方法の実施例を参照することができるので、ここではその詳しい説明が省略される。
なお、図3及び図4に示す実体属性値確定装置300、300’及びその構成ユニットの構造は例示に過ぎず、当業者は、ニーズに応じて、図3及び図4に示す結構に対して変更などを行っても良い。
本発明の実施例は、複数のデータソースにおける属性値の融合方法を提供し、実体属性値の冗長性及び実体属性値が所在するデータソースの信頼度に基づいて、実体属性値の信頼度を協同計算し、複数のデータソースにおける実体属性及び属性値に基づいて、最信頼の属性値を見つけ、そして、実体の属性に対して補完を行うことで、より豊富な実体情報を得ることができる。また、本発明の実施例による方法は、データのトレーニングを必要とせず、一種の汎用の属性値融合方法である。
また、本発明の実施例による方法及び装置は、ソフトウェア、ファームウェア、ハードウェア又はそれらの任意の組む合せの方式で実現されてもよい。ソフトウェア又はファームウェアにより実現する場合、まず、記憶媒体又はネットワークから、専用ハードウェア構造を有するマシン(例えば、図5に示す汎用コンピュータ500)に該ソフトウェア又はファームウェアのプログラムをインストールし、それから、該マシンは、各種プログラムがインストールされている時に、上述の方法や装置の各種機能を実行することができる。
図5は、本発明の実施例による実体属性値確定方法及び装置を実施し得る計算装置の例示的な構成図である。
図5に示すように、中央処理ユニット(CPU)501が、リードオンリーメモリ(ROM)502に記憶されているプログラム、又は、記憶部508からランダムアクセスメモリ(RAM)503にロードされているプログラムに基づいて各種の処理を行う。RAM503は、ニーズに応じて、CPU501が各種の処理などを実行するときに必要なデータを記憶しても良い。CPU501、ROM502及びRAM503は、バス504を経由して互いに接続される。また、入力/出力インターフェース505もバス504に接続される。
入力/出力インターフェース505には、入力部506(キーボードやマウスなどを含む)、出力部507(表示器例えばCRT、LCD、スピーカーなどを含む)、記憶部508(ハードディスクなどを含む)、及び通信部509(ネットワーク接続カード例えばLANカード、モデムなどを含む)が接続される。通信部509は、ネットワーク例えばインターネットを経由して通信処理を行う。ドライブ510がニーズに応じて入力/出力インターフェース505に接続されても良い。また、ニーズに応じて、取り外し可能な媒体511例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどをドライブ510にセットすることにより、その中から読み出したコンピュータプログラムを記憶部508にインストールしても良い。
ソフトウェアにより上述の一連の処理を実現する場合は、ネットワーク例えばインターネット、又は記憶媒体例えば取り外し可能な媒体511から、このソフトウェアを構成するプログラムをインストールしてもよい。
なお、当業者が理解すべきは、このような記憶媒体は、中にプログラムが記憶されており、ユーザにプログラムを提供するよう装置と独立して配られる図5に示すような取り外し可能な媒体511に限定されない。取り外し可能な媒体511の例としては、磁気ディスク(フロッピー(登録商標)ディスクを含む)、光ディスク(CD−ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体メモリを含む。或いは、記憶媒体はROM502、記憶部508に含まれるハードディスクなどであってもよく、それらにはプログラムが記憶されており、且つそれらを含む装置とともにユーザに配られてもよい。
また、本発明は、マシン(例えば、コンピュータ)読取可能な命令コードからなるプログラムプロダクトにも関する。この命令コードは、マシンに読み取られて実行される時に、上述の実施例による方法を実行することができる。
さらに、上述のマシン読取可能な命令コードからなるプログラムプロダクトを記憶している記憶媒体も本開示に含まれている。このような記憶媒体は、磁気ディスク(フロッピーディスク)、光ディスク、光磁気ディスク、メモリカード、メモリメモリスティックなどを含むが、これらに限定されない。
本発明の上述の実施例による方法は、明細書に記載の又は図面に図示の時間順序に従って実行することに限定されず、他の時間順序に従って、並列に又は独立して実行してもよい。よって、本明細書又は図面に記載の方法の実行順序は、本発明の技術的範囲を限定しない。
また、もちろん、本発明の上述の方法の各処理ステップは、各種のマシン可読記憶媒体に保存のコンピュータ実行可能なプログラムの方式により実現されてもよい。
また、本発明の目的は、上述の実行可能なプログラムコードを記憶している記憶媒体を直接又は間接にシステム又は装置に提供し、且つ、該システム又は装置中のコンピュータ又は中央処理ユニット(CPU)が上述のプログラムコードを読み出して実行させる方式で実現されてもよい。
また、該システム又は装置はプログラムを実行する機能を有すれば、本発明の実施方式はプログラムに限定されず、また、該プログラムは他の任意の形式、例えば、オブジェクトプログラム、インタープリター実行用プログラム、又は、オペレーティングシステムに提供するスクリプトプログラムなどであってもよい。
上述のマシン可読記憶媒体は、各種の存儲器及び存儲ユニット、半導体装置、ディスユニット例えば光、磁気及び光磁気ディス、及び他の任意の使用可能な情報記憶媒体などであっても良い。
また、クライントコンピュータが、インターネットに接続されている所定のウェブサイトを経由して、本発明の上述の実施例によるコンピュータプログラムコードをダウンロードし、コンピュータにインストールした後に、該プログラムを実行することにより、本発明を実現することもできる。
また、本発明の実施例による装置及び方法は、ソフトウェアにより実現されても良く、ハードウェアにより実現されてもよく、ハードウェア及びソフトウェアの組み合わせにより実現されても良い。また、本発明はこのようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行される時に、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は上述のプログラムを記憶するための記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、flashメモリなどにも関する。
また、上述の実施例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
実体の属性値を確定するための装置であって、
実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行い、前記実体に関する少なくとも一つのデータソースを確定するためのデータソース確定ユニットであって、前記実体は所定実体集合中の一つである、データソース確定ユニット;
得られた各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算するためのデータソース信頼度計算ユニット;
各データソースの信頼度に基づいて、前記実体の各属性値の信頼度を計算するための属性値信頼度計算ユニット;及び
各属性値の信頼度に基づいて、前記実体の属性値を確定するための属性値確定ユニットを含む、装置。
(付記2)
付記1に記載の装置であって、更に、
各属性値の信頼度に基づいて各データソースの信頼度を再計算し、及び、各データソースの信頼度に基づいて前記実体の各属性値の信頼度を、所定条件を満たすまで、反復して実行するための反復ユニットを含む、装置。
(付記3)
付記2に記載の装置であって、
前記所定条件は、前記属性値の信頼度が収束すること、及び、反復回数が所定回数に達することのうちの任意の一つを含む、装置。
(付記4)
付記1に記載の装置であって、
前記データソース信頼度計算ユニットは更に、前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度の和を求め、そして、正規化を行うことで、前記データソースの信頼度を計算するように構成される、装置。
(付記5)
付記1に記載の装置であって、
前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、前記実体と、前記レコード中の実体の名称との類似度、及び、前記実体の属性値と、前記レコード中での対応する属性値との類似度のうちの少なくとも一つを含む、装置。
(付記6)
付記5に記載の装置であって、
前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、編集距離に基づいて計算され、又は、Jaro-Winkler距離に基づいて計算される、装置。
(付記7)
付記1に記載の装置であって、
前記属性値信頼度計算ユニットは更に、前記実体の各属性値が前記データソース中で出現する回数、及び前記データソースの信頼度に基づいて、投票ルールを用いて各属性値の信頼度を計算するように構成される、装置。
(付記8)
付記2に記載の装置であって、
前記反復ユニットは更に、前記実体に関するデータソースの各属性値の信頼度に対して和を求め、そして、正規化を行うことで、各データソースの信頼度を更新するように構成される、装置。
(付記9)
実体の属性値を確定するための方法であって、
実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行い、前記実体に関する少なくとも一つのデータソースを確定し、前記実体は、所定実体集合中の一つであり;
得られた各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算し;
各データソースの信頼度に基づいて、前記実体の各属性値の信頼度を計算し;及び
各属性値の信頼度に基づいて、前記実体の属性値を確定することを含む、方法。
(付記10)
付記9に記載の方法であって、
各データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算した後に、更に、
各属性値の信頼度に基づいて各データソースの信頼度を再計算し、及び、各データソースの信頼度に基づいて前記実体の各属性値の信頼度計算することを、所定条件を満たすまで、反復して実行することを含む、方法。
(付記11)
付記10に記載の方法であって、
前記所定条件は、前記属性値の信頼度が収束すること、及び、反復が所定回数実行されることのうちの任意の一つを含む、方法。
(付記12)
付記9に記載の方法であって、
得られた各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算することは、
前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に対して和を求め、そして、正規化を行うことで、前記データソースの信頼度を計算することを含む、方法。
(付記13)
付記9に記載の方法であって、
前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、前記実体と、前記レコード中の実体の名称との類似度、及び、前記実体の属性値と、前記レコード中での対応する属性値との類似度のうちの少なくとも一つを含む、方法。
(付記14)
付記13に記載の方法であって、
前記データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、編集距離に基づいて計算され、又は、Jaro-Winkler距離に基づいて計算される、方法。
(付記15)
付記9に記載の方法であって、
前記データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算することは、前記実体の各属性値が前記データソース中で出現する回数と、前記データソースの信頼度とに基づいて、投票ルールを用いて各属性値の信頼度を計算することを含む、方法。
(付記16)
付記9に記載の方法であって、
前記データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算することは、前記実体に関するデータソースの各属性値の信頼度に対して和を求め、そして、正規化を行うことで、各データソースの信頼度を更新することを含む、方法。
(付記17)
コンピュータに、付記9〜16の任意の一つに記載の方法を実行させるための、プログラム。
(付記18)
付記17に記載のプログラムを記憶した記憶媒体。
以上、本発明の好ましい実施形態を説明したが、本発明はこのような実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (10)

  1. 実体の属性値を確定する装置であって、
    前記実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行い、前記実体に関する少なくとも一つのデータソースを確定するためのデータソース確定ユニットであって、前記実体は所定実体集合中の一つの実体である、データソース確定ユニット;
    前記実体の各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算するためのデータソース信頼度計算ユニット;
    前記実体の各データソースの信頼度に基づいて、前記実体の各属性値の信頼度を計算するための属性値信頼度計算ユニット;及び
    前記実体の各属性値の信頼度に基づいて、前記実体の属性値を確定するための属性値確定ユニットを含む、装置。
  2. 請求項1に記載の装置であって、更に、
    前記実体の各属性値の信頼度に基づいて前記実体の各データソースの信頼度を再び計算し、そして、前記実体の各データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算することを、所定条件を満たすまで、反復して実行するための反復ユニットを含む、装置。
  3. 請求項2に記載の装置であって、
    前記所定条件は、前記属性値の信頼度が収束すること、及び、反復回数が所定回数に達することのうちの任意の一つを含む、装置。
  4. 請求項1に記載の装置であって、
    前記データソース信頼度計算ユニットは更に、前記実体の各データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度の和を求め、そして、正規化を行うことで、該データソースの信頼度を計算するように構成される、装置。
  5. 請求項1に記載の装置であって、
    前記実体の各データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、前記実体と、該レコード中の実体の名称の類似度、及び、前記実体の属性値と、該レコード中での対応する属性値との類似度のうちの少なく一つを含む、装置。
  6. 請求項5に記載の装置であって、
    前記実体の各データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度は、編集距離に基づいて計算され、又は、Jaro-Winkler距離に基づいて計算される、装置。
  7. 請求項1に記載の装置であって、
    前記属性値信頼度計算ユニットは更に、前記実体の各属性値が前記実体の各データソース中で出現する回数と、該データソースの信頼度とに基づいて、投票ルールにより該属性値の信頼度を計算するように構成される、装置。
  8. 請求項2に記載の装置であって、
    前記反復ユニットは更に、前記実体に関する各データソースの各属性値の信頼度の和を求め、そして、正規化を行うことで、各データソースの信頼度を更新するように構成される、装置。
  9. 実体の属性値を確定する方法であって、
    前記実体の名称又は別称を検索キーワードとし、インターネット又はデータベース中で検索を行い、前記実体に関する少なくとも一つのデータソースを確定し、前記実体は所定実体集合中の一つの実体であり;
    前記実体の各データソースについて、該データソースに含まれている各レコードと、前記所定実体集合中の全ての実体との類似度に基づいて、該データソースの信頼度を計算し;
    前記実体の各データソースの信頼度に基づいて、前記実体の各属性値の信頼度を計算し;及び
    前記実体の各属性値の信頼度に基づいて、前記実体の属性値を確定することを含む、方法。
  10. 請求項9に記載の方法であって、
    前記実体の各データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算した後に、更に、
    前記実体の各属性値の信頼度に基づいて前記実体の各データソースの信頼度を再び計算し、そして、前記実体の各データソースの信頼度に基づいて前記実体の各属性値の信頼度を計算することを、所定条件を満たすまで、反復して実行することを含む、方法。
JP2016021478A 2015-02-11 2016-02-08 実体属性値の確定装置及び方法 Pending JP2016149127A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510072365.XA CN105989080A (zh) 2015-02-11 2015-02-11 确定实体属性值的装置和方法
CN201510072365.X 2015-02-11

Publications (1)

Publication Number Publication Date
JP2016149127A true JP2016149127A (ja) 2016-08-18

Family

ID=56687968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016021478A Pending JP2016149127A (ja) 2015-02-11 2016-02-08 実体属性値の確定装置及び方法

Country Status (2)

Country Link
JP (1) JP2016149127A (ja)
CN (1) CN105989080A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101831561B1 (ko) 2017-09-28 2018-04-04 부산대학교 산학협력단 통계적 특성을 이용한 설계 장치 및 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002528B (zh) * 2018-07-12 2021-03-26 北京猫眼文化传媒有限公司 一种数据导入的方法、装置和存储介质
CN109472005B (zh) * 2018-11-08 2023-08-04 北京锐安科技有限公司 数据可信度评估方法、装置、设备和存储介质
US11210346B2 (en) * 2019-04-04 2021-12-28 Iqvia Inc. Predictive system for generating clinical queries
CN110287302B (zh) * 2019-06-28 2021-03-30 中国船舶工业综合技术经济研究院 一种国防科技领域开源信息置信度确定方法及系统
CN110674224B (zh) * 2019-08-02 2022-05-27 北京百度网讯科技有限公司 实体数据的处理方法、装置、设备及计算机可读存储介质
CN110517083A (zh) * 2019-08-27 2019-11-29 秒针信息技术有限公司 一种确定用户属性信息的方法及装置
CN112035561A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 数据处理方法、装置、存储介质及计算机设备
CN113076525A (zh) * 2021-03-15 2021-07-06 北京明略软件系统有限公司 人口属性值的计算方法及装置、存储介质、电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136020A (zh) * 2006-08-31 2008-03-05 国际商业机器公司 自动扩展参考数据的系统和方法
CN101226547A (zh) * 2008-01-11 2008-07-23 孟小峰 一种用在实体识别系统中的Web实体识别方法
US20130110830A1 (en) * 2011-10-31 2013-05-02 Microsoft Corporation Ranking of entity properties and relationships
CN104298676A (zh) * 2013-07-18 2015-01-21 佳能株式会社 主题挖掘方法和设备、以及查询扩展方法和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101831561B1 (ko) 2017-09-28 2018-04-04 부산대학교 산학협력단 통계적 특성을 이용한 설계 장치 및 방법

Also Published As

Publication number Publication date
CN105989080A (zh) 2016-10-05

Similar Documents

Publication Publication Date Title
JP2016149127A (ja) 実体属性値の確定装置及び方法
US10885056B2 (en) Data standardization techniques
US10592672B2 (en) Testing insecure computing environments using random data sets generated from characterizations of real data sets
US10891421B2 (en) Apparatuses, methods and systems for adjusting tagging in a computing environment
EP3748507B1 (en) Automated software testing
US10268655B2 (en) Method, device, server and storage medium of searching a group based on social network
US11074276B2 (en) Methods and systems for optimized visual summarization for sequences of temporal event data
CN114902246A (zh) 用于大数据的快速交互式探索的系统
Silverbush et al. Optimally orienting physical networks
CN115185998A (zh) 目标字段查找方法及装置、服务器、计算机可读存储介质
US10216792B2 (en) Automated join detection
Yang et al. LAZY R-tree: The R-tree with lazy splitting algorithm
CN107832347B (zh) 数据降维方法、系统及电子设备
AU2021329818B2 (en) Techniques for data-enabled drug discovery
US20230075443A1 (en) Conversion and migration of key-value store to relational model
JP2019148859A (ja) フローダイアグラムを用いたモデル開発環境におけるデザインパターンの発見を支援する装置および方法
WO2022186932A1 (en) Decision tree native to graph database
CN112001748A (zh) 一种基于标签传播的数据扩展方法与设备
JP6662000B2 (ja) テーブル語義化装置及び方法
US11860876B1 (en) Systems and methods for integrating datasets
US9916296B2 (en) Expanding entity and relationship patterns to a collection of document annotators using run traces
JP2014174921A (ja) 情報処理システム、名寄せ判定方法及びプログラム
JP2017016276A (ja) 略語の拡張方法及び装置
Győrödi et al. A Comparative Study of Databases with Different Methods of Internal Data Management
CN115934900A (zh) 单词的派生联想方法、装置、计算机设备和存储介质