JP2015179516A - 大量の複雑な構造化データを管理するための知識エンジン - Google Patents

大量の複雑な構造化データを管理するための知識エンジン Download PDF

Info

Publication number
JP2015179516A
JP2015179516A JP2015054835A JP2015054835A JP2015179516A JP 2015179516 A JP2015179516 A JP 2015179516A JP 2015054835 A JP2015054835 A JP 2015054835A JP 2015054835 A JP2015054835 A JP 2015054835A JP 2015179516 A JP2015179516 A JP 2015179516A
Authority
JP
Japan
Prior art keywords
encoded
entities
entity
list
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015054835A
Other languages
English (en)
Other versions
JP6440542B2 (ja
Inventor
イン ホンフェン
Yin Hongfeng
イン ホンフェン
スバシッチ ペロ
Subasic Pero
スバシッチ ペロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2015179516A publication Critical patent/JP2015179516A/ja
Application granted granted Critical
Publication of JP6440542B2 publication Critical patent/JP6440542B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】効率的な記憶を可能にしながら、対応する知識エンジンによる高速で正確な検索に対応する編成を持つ知識データベースを得る。【解決手段】Freebaseを構造化データの入手元として使用して、リソース記述フレームワーク(Resource Description Framework:RDF)トリプルで知識データベースを構築し、構造化クエリに対して符号化されたエンティティを判定する、システム、方法、及び媒体が提供される。【選択図】図4

Description

本発明は、情報の記憶及び検索に関し、より詳細には構造化データの記憶及び検索に関する。
[関連出願]
本願は、2014年3月18日に出願された米国仮出願第61/955,077号の利益を主張し、同文献の内容は参照により本明細書にすべて援用される。
構造化照会言語(SQL)を使用して照会することが可能なリレーショナルデータベースへの構造化データの記憶は1970年代以降徐々に発展してきた。例えば、大規模な販売業者はリレーショナルデータベースを使用して顧客のプロファイルや他の履歴を記憶する場合がある。そのようなデータベースはかなり巨大になる場合があるが、検索されるデータの範囲が顧客のプロファイルのように比較的狭いときにしか効率的に機能しない。
従来のリレーショナルデータベースに対して、広大な範囲の事柄にわたって対応する知識データベースを照会することが可能な「知識エンジン」が開発されている。しかし、そのような知識エンジンは、照会対象となるエンティティ及び属性の範囲が広いために、その複雑性が扱い切れないほど高くなる。例えば、あるユーザが「William Jefferson Clintonが生まれたのは何年?」を尋ね、別のユーザが同じ知識エンジンに「2012年のアラスカ州バロー(Barrow)の人口は?」を尋ねたい場合がある。したがって、照会対象の構造化データの複雑性と範囲に効率的に対応することが可能な知識エンジン及びそれに対応する知識データベースが本技術分野で必要とされている。
また、知識データベースは、それらが記憶することが求められる構造化データの量そのもののために、大規模になり、扱いが困難になりつつある。そのために、効率的な記憶を可能にしながら、対応する知識エンジンによる高速で正確な検索に対応する編成を持つ知識データベースが本技術分野で必要とされる。
以下の例示的実施形態は、開示される知識データベースを構築するために使用される構造化データの入手元としてFreebaseの使用を対象とする。しかし、代替実施形態では、Freebaseに代えて、Wikipediaや、オンライン及び電子の辞書や百科事典などの幅広い他の情報源も使用可能であることが理解されよう。例えば、知識データベースは、国際出願第PCT/US14/67479号に開示されるようにリソースの生成を行うシステムによって駆動されることも可能であり、同出願の内容は参照により本明細書にすべて援用される。そのため、知識データベースは、例えばWikipediaデータベース中の複数の他の項目へのハイパーリンクなど、他のリソースへの各種リンクを搭載することができる。
Freebaseでは、データはリソース記述フレームワーク(Resource Description Framework:RDF)のトリプル(triple)で編成される。RDFトリプルの第1の部分はエンティティであり、これは記述又は描写される主語である。トリプルの第2の部分は属性又は述語であり、これは記述されるエンティティについての関係の種類である。最後に、トリプルの第3の部分は値又は目的語であり、これはそのトリプルによって参照される対象物である。例えば、次の例示的な文、「ジョーはトムの友人だ(Joe is a friend of Tom.)」を考えられたい。この例では、トムが主語又はエンティティであり、友人関係が属性又は述語であり、ジョーが値になる。このような三つ組は接続グラフの形式で容易に表現されることができ、ジョーとトムが、「〜の友人である」という属性を表す、ジョーからトムに向かう弧で接続されたノードとなる。トムの年齢、職業、興味関心など、多数の同様のトリプルがエンティティ「トム」から伸びることができる。
例示的な方法は、符号化されたリソース記述フォーマットエンティティ、属性、値、及び符号化されたカテゴリのセットについて、符号化されたカテゴリのカテゴリ索引を形成するステップを含むことができ、カテゴリ索引中の各符号化されたカテゴリは、対応する符号化されたエンティティのリストを含む。この方法は、符号化された属性ごとに、当該符号化された属性についての符号化された値を有する符号化されたエンティティを判定するステップも含むことができる。この方法は、判定に応答して、符号化された属性とそれらに対応する符号化されたエンティティ及び符号化された値の属性索引を形成するステップも含むことができる。この方法は、カテゴリ索引及び属性索引を記憶して知識データベースを形成するステップも含むことができる。
この方法は、構造化クエリを分解して複数の単純クエリにするステップも含むことができる。複数の単純クエリ各々について、この方法は、知識データベースのカテゴリ索引又は属性索引にアクセスして、符号化されたエンティティのリストを求めるステップも含むことができる。この方法は、符号化されたエンティティのリストの共通集合を求めて、構造化クエリに応答性のある符号化されたエンティティを判定するステップも含むことができる。この方法は、構造化クエリに応答性のある符号化されたエンティティを元のエンティティに変換するステップも含むことができる。
例示的な知識データベースをロードする際のフローチャートである。 例示的な知識エンジンが知識データベースを照会する際のフローチャートである。 図1及び図2の知識エンジンを含む例示的な検索アーキテクチャの図である。 図1〜図3の知識エンジンを含む例示的なシステムの図である。 図1〜図4の知識エンジンを含む例示的なサーバ装置の図である。 図1〜図4の知識エンジンを含む例示的なサーバ装置の図である。
次いで図面を参照すると、図1のステップ101に示すように、Freebaseなどの該当するデータベースから未処理のトリプルが受け取られる。ステップ102は、ステップ101で受け取られた未処理のトリプルから冗長なエンティティ、属性、及びRDFトリプルを取り除いて、冗長性のない(本明細書では「クリーンな」とも呼ぶ)RDFトリプル103を得ることを含む。RDFトリプル103に関して、ステップ104でそれらのエンティティが順位付けされる。例えば、エンティティの順位は、Wikipediaのアクセス数出力、エンティティの名前が出現する頻度、エンティティの名前の人気度等を分析することによって生成することができる。
ステップ105で、クリーンなRDFトリプル103が一意の整数の識別(ID)として符号化される。各エンティティ、属性、及び値がそのように符号化されて、1つのトリプルを整数の3つ組で表すことができるようにし、その結果ステップ106で符号化データが得られる。元のバージョンと符号化後のバージョンを区別するために、符号化されたエンティティを表す整数IDを本明細書では「エンティティID」とも称する。同様に、符号化された属性を表す整数IDを本明細書では「属性ID」とも称する。同様に、符号化された値を表す整数IDを本明細書では「値ID」とも称する。ステップ104で得られたエンティティの順位に、エンティティの整数IDを割り当てることもできる。また、各カテゴリも符号化してカテゴリIDとすることができるように、カテゴリに従ってエンティティを編成することができる。ハッシュテーブルH(図示せず)に、エンティティ、属性、値、エンティティの順位付け、及びカテゴリについてのすべての対応付けを、各自の整数表現との関連で記憶する。同様に、整数IDから、それに対応する未符号化状態すなわち元のエンティティ、属性、値、エンティティ順位付け、及びカテゴリへの対応付けを配列リストLに記憶する。したがって、ハッシュテーブルHと配列リストLは互いの逆となる。次いで、ステップ107で、符号化されたRDFトリプルをメモリ108にロードすることができる。ステップ107は、すべてのエンティティIDを各自のカテゴリID及び属性IDに従って索引付けすることも含むことができる。カテゴリはエンティティの種別を表し、例えば種別は「映画スター」であり、対して、そのようなカテゴリのエンティティは個々の映画スターからなることができる。ステップ109で、属性IDごとにエンティティID及び値IDを索引付けすることに関して、追加的な索引付けを行うことができる。この索引付けの結果は、ステップ110で知識データベース又はメモリに記憶されるカテゴリID及び属性ID索引で表される。
例示的なカテゴリ索引は、カテゴリごとにエンティティIDをリストする。同様に、属性索引は、属性ごとに値IDと共にエンティティIDをリストする。カテゴリID索引と属性ID索引は、カテゴリIDごと且つ属性IDごとに、エンティティIDでソートされる。その結果得られる、図1に関して説明したように形成される知識データベース中の符号化及び索引付けされたRDFトリプルは、図2に示すように知識エンジン200で検索することができ、有利である。ステップ201で構造化クエリ201が受け取られる。そのような構造化クエリは、指定されたエンティティ、比較値を伴う属性、及びカテゴリ、並びに出力属性及びソート順序を含む。ステップ202で構造化クエリ201が構文解析して単純クエリ203にされ、有利である。各単純クエリ203は、1つのカテゴリ及び1つの属性に対応することができる。さらに、各単純クエリ203は、1つのみのエンティティ、又は比較を伴う1つのみの属性、又は1つのみのカテゴリを有することができる。例えば、ユーザが、データベース中にある1982年以降に生まれたすべての映画スターの識別を知りたいとする。そのようなクエリは、カテゴリ「映画スター」にあるすべてのエンティティや、1982年以降生まれの属性を持つすべてのエンティティなどのいくつかの単純クエリに構造化することができる。注目すべき点として、各単純クエリ203が1つのカテゴリ及び1つの属性に対応する場合、カテゴリ及び属性の数は、一般的なリレーショナルデータベースの制約をはるかに超える可能性がある。具体的には、本実施形態におけるデータセットは数百ギガバイトを超える可能性があり、単純クエリ203を構文解析するために多数のコンピュータクラスタが必要となる可能性がある。
単純クエリ203は、ハッシュテーブルの符号化された整数値を使用して作成される。すなわち、カテゴリの「映画スター」を検索するのではなく、実際の検索は、カテゴリ「映画スター」の整数符号化表現(カテゴリID)に基づく。同様に、「公開日」の属性に対する検索では、「公開日」に対応する属性IDを使用して検索を行う。ステップ204は、クエリの出力属性及びソート属性をリストすることを含む。このリストは実施形態によっては空になる場合がある。
比較ステップ205は単純クエリ203ごとに行われる。例えば、単純クエリ203は、特定のカテゴリIDに対応するすべてのエンティティIDをリストすることを含むことができる。或いは、単純クエリ203は、特定の属性IDについてすべてのエンティティIDとそれに対応する値IDをリストすることに関連する場合もある。そして、配列リストLを使用して値IDを復号して元の値にすることができる。次いで、その結果得られた値を何らかのクエリパラメータと比較して、対応するエンティティがその単純クエリに応答するかどうかを判定することができる。例えば、そのような単純クエリは、その単純クエリの固有の性質に応じて、値がそれよりも大きい、等しい、又は小さくなければならない比較値を含むことができる。ステップ205で比較又は一致があるたびに、対応するエンティティリスト206が生成される。
ステップ207で各種エンティティリスト206の共通集合を求めることにより、エンティティリスト208を得る。例えば、1982年以降に生まれたすべての映画スターを特定する上記の例示的検索では、1つのエンティティリスト206がメモリ108で見つかったすべての映画スターを含むことができる。別のリストが、データベース中にある1982年以降に生まれたすべてのエンティティを含むことができる。それらリストの共通集合が要求される答に相当する。
例えば、ステップ207で、エンティティA(E(A)と表記する)とエンティティB(E(B)と表記する)との共通集合を、共通集合E(A)∩E(B)で特定されるように求めることができる。それらエンティティ間に共通集合がない場合は、エンティティAとBの間には何の関係もない可能性がある。この共通集合が存在する場合は、E(A)∪E(B)で表されるE(A)とE(B)の和集合、及び式、−log((E(A)∩E(B)/E(A)∪E(B))を計算して、エンティティAとBの間の類似度スコアを得ることができる。
そのような類似度スコアは、エンティティ間の類似度に逆比例する。特に、最も緊密に関連するエンティティは、参照されるエンティティの共通集合がそれらエンティティの和集合と同じである(対数の底に関係なく1の対数がゼロになる)ことに相当すると考えられる。共通集合が和集合と比較して小さくなるのに従って、その結果得られる比の対数はより負に近づき、対数の逆関数がより正に近づく。そのようにして、エンティティごとに、関連するエンティティの順序付けしたスコアを生成することができる。実施形態によっては、順序付けしたスコアに閾値が適用されて、与えられたエンティティに最も関連性が高いエンティティのサブセットを求め、また可能性としては、構造化クエリ201に応答性のあるエンティティのリスト208を求める。閾値が適用されるかどうかに関係なく、類似度の計算により、クエリ201に応答性のあるエンティティのリスト208を求めることが容易になり、また関連するエンティティのソートと順位付け209も容易にすることができる。
上記の対数法に代えて、又はそれと併用して、追加的なアルゴリズムを実装することができる。例えば、Jaccard法やPMI法を利用してエンティティ間の数値的な類似度を算出することができる。また、与えられたエンティティがカテゴリの要素であることを使用して、そのカテゴリにある他の要素を関連エンティティとして選択することもできる。
ステップ209で、ステップ204で求められた出力形式に基づいて、最終的なリスト208にあるエンティティを各自の指定された属性に従ってソートすることができる。或いは、ステップ209は、出力形式が空の場合はエンティティの順位でエンティティを順位付けすることを含んでもよい。ステップ209のソート又は順位付けから、ステップ210で指定された形式のエンティティの出力リストを得ることができ、それをステップ211で検索結果としてユーザに表示することができる。
次いで、いくつかの例示的なクエリを検討して検索プロセスをより詳しく説明する。構造化クエリ201は、入力形式と出力形式の2つの部分を有する。例えば、ユーザが2013年9月5日から2013年9月12日までの週に公開されたすべての映画の題名を知りたいとする。その結果得られる構造化クエリ201は、カテゴリ=映画,公開日>=2013−09−05,公開日<2013−09−12、の入力形式を有することができる。出力形式は、エンティティ名,公開日:降順でソート、とすることができる。
次いで、その結果得られた構造化クエリ201を分解して次の単純クエリ203にすることができる。第1の単純クエリは、カテゴリ=映画のすべてのエンティティをリストするものである。上記のように、知識データベースは、RDFの三つ組値を例えば整数の三つ組で置き換えられるように圧縮形態でカテゴリ索引と属性索引を記憶する。他の種類のデータ圧縮が使用されてもよいことが理解されよう。この単純クエリについて、まずハッシュテーブルHにアクセスしてカテゴリ「映画」の整数表現を見つける。すると、知識データベースからの検索は、単に、カテゴリ「映画」に対応するハッシュテーブル中の整数を、符号化されたカテゴリ索引と一致させるだけになる。例えば、カテゴリ「映画」が「j」の整数IDで表されるとする。したがって、知識データベースの検索は、整数ID「j」として符号化されたカテゴリ索引を取り出すという比較的高速で容易な作業になる。したがって、このj番目の索引は、映画の索引であり、対応するエンティティIDのリストをもたらす。
例示的な構造化クエリの分解で得られる第2の単純クエリは、公開日の属性を持つすべてのエンティティをリストするものであり、属性値は2013−09−05以上となる(そのような単純クエリは属性、比較、及び値を有することに留意されたい)。したがって、「公開日」の属性の整数表現がハッシュテーブルHから取得される。例えば、「公開日」の属性IDが整数yで表されるとする。すると、知識エンジンは、整数yに対応する属性索引を知識データベースから取り出す。そのような検索は整数を一致させることに過ぎず、したがって従来技術の方法と比べて非常に高速になる。検索で得られる属性索引は、「公開日」の属性に対応する値を持つすべてのエンティティをリストするが、知識データベースに記憶された他の項目と同じように符号化されている。言い換えると、検索で得られる属性索引はペアのリストであり、各ペアはエンティティIDとそれに対応する値IDである。そして知識エンジンは新しいエンティティIDリストEを作成することができる。検索で得られる属性索引の値ID「n」ごとに、知識エンジンは、配列リストLから元の値(この例では公開日)を取得し、公開日が「2013−09−05」のクエリ日付と同じ又は後の日付であるか比較することができる。比較の結果が真(公開日が「2013−09−05」のクエリ日付と同じ又は後の日付)の場合、知識エンジンは、対応するエンティティIDをエンティティIDリストEに入れることができる。このエンティティIDリストEが第2の単純クエリに応答性のあるリストとなる。
第3の単純クエリは、第2の単純クエリと似ており、したがって公開日の属性を持つすべてのエンティティのリストを対象とし、属性値は日付2013−09−12未満となる。この第3の単純クエリはしたがって第2の単純クエリに関して説明したのと同様に処理される。そして、これら3つの単純クエリで得られた3つのエンティティリストの共通集合をステップ207に関して述べたように行って、出力エンティティリスト208を得ることができる。この例では、図2のステップ209に関して述べたようなソートや順位付けの必要はない。そして配列リストLを使用して結果を復号して、元のエンティティとそれらの値を得ることができる。次の表1は、この構造化クエリ例による映画をリストした検索結果を示す。
検索結果の実際のリストは、一般には、クエリで指定される出力形式204、例えば値が昇順でリストされるべきか、降順でリストされるべきか等に依存する。
知識エンジン200は、サーバ、複数のサーバ、又は他の種類の適切なコンピュータからなることができる。図2に示すステップを行うために、知識エンジン200を実装するサーバは、Java(登録商標)又は他の適切なプログラミング言語でコーディングすることができる。Freebaseに記憶されるトリプルは、RDFの分野で知られる形態を使用して表される。
知識エンジン200は、図3に示すようにシステムアーキテクチャに組み込むことができる。セマンティックエンジン305が、ユーザから自然言語のクエリを受け取り、それに対応する構造化クエリ201を知識エンジン200に提供する。知識エンジンは次いで図2に関して説明したデータベース108と対話して要求される検索結果を得、その結果を次いで、スマートフォン、スマートウォッチ、タブレット、また他の適切な装置等のユーザ装置310に表示することができる。
知識エンジン200は、図4に示すようにシステムに組み込むこともできる。システム400は、サーバ装置402やクライアント装置404及び406等の複数のコンピューティング装置を含み、各装置は、通信ネットワーク408を通じてデータ/データパケット416及び418を送信及び受信するように構成することができる。例えば、通信インターフェース410は、図1〜図3との関連で上述したような未処理のRDFデータ及び構造化クエリを送受信することができる。メモリ412は、例えば上記の1つ又は複数のエンティティリストを記憶するようにさらに構成された、磁気、光学、又はフラッシュ記憶機構などの、揮発性、不揮発性、取り外し可能、及び/又は取り外し不能の記憶構成要素の1つ又は複数を含むことができる。そのため、通信インターフェース410、知識エンジン200、セマンティックエンジン305、知識ベース108、及びメモリ412は、システムバス、ネットワーク、又は他の接続機構414を介して通信的に結合することができる。
クライアント装置404及び406は各種形態を取ることができ、それらには、例えば構造化クエリを送信し、検索結果を受け取ることが可能な種々のコンピューティング装置の中でも特に、パーソナルコンピュータ(PC)、スマートフォン、着用可能コンピュータ、ラップトップ/タブレットコンピュータ、適切なコンピュータハードウェアリソースを備えたスマートウォッチ、頭部装着ディスプレイ、他の種類の着用可能装置が含まれる。クライアント装置404及び406は各種の構成要素を含むことができ、それらには例えばそれぞれ、入力/出力(I/O)インターフェース430及び440、通信インターフェース432及び442、プロセッサ434及び444、並びにデータ記憶機構436及び446が含まれ、それらはすべてそれぞれシステムバス、ネットワーク、又は他の接続機構438及び448を介して互いに通信的に結合することができる。
I/Oインターフェース430及び440は、それぞれ、クライアント装置404及び406と、クライアント装置404及び406のユーザとの間の対話を容易にするように構成することができる。例えば、I/Oインターフェース430及び440は、ユーザから受け取られたクエリにアクセスし、検索結果をユーザに提供するように構成することができる。したがって、I/Oインターフェース430及び440は、入力ハードウェア、例えば音声コマンドを受け取るマイクロフォン、タッチ画面、タッチセンシティブパネル、コンピュータマウス、キーボード、及び/又は他の入力ハードウェアを含むことができる。
上記のように、知識エンジン200は、サーバ、複数のサーバ、又は他の種類の適切なコンピュータからなることができる。知識エンジン200は、その拡張縮小可能性により、図5A及び図5Bに示すようにサーバ装置と一体化することができる。図5Aは、一実施形態による、トレーのセットを支持するように構成された例示的なサーバ装置500を示す。図示するように、サーバ装置500は、トレー504及び506を支持し、場合によっては複数の他のトレーも支持することが可能な筐体502を含むことができる。筐体502は、それぞれトレー504及び506を保持するように構成されたスロット508及び510を含むことができる。筐体502は、接続514及び516を介して電源512に接続されて、それぞれスロット508及び510に電力を供給することができる。筐体502は、接続520及び522を介して通信ネットワーク518に接続して、それぞれスロット508及び510にネットワークへの接続性を提供することもできる。したがって、トレー504及び506はそれぞれスロット508及び510に挿入して、電源512から電力を受け取ると共に、通信ネットワーク518に接続することができる。
図5Bは、1つ又は複数の構成要素を支持するように構成されたトレー504を示す図である。トレー204は、知識エンジン200、セマンティックエンジン305、知識ベース108、通信インターフェース410、及びメモリ412を含むことができる。トレー204は、接続514又は516に結合してトレー504に電力を供給することができるコネクタ526を含むことができる。トレー504は、接続520又は522に結合してトレー504にネットワークへの接続性を提供することができるコネクタ528も含むことができる。そのため、知識エンジン200、セマンティックエンジン305、及び知識ベース108は、本明細書に記載され、添付図面に示される動作を行うように構成されることができる。
108…メモリ、200…知識エンジン、201…構造化クエリ、203…単純クエリ、206、208…エンティティリスト、305…セマンティックエンジン、310…ユーザ装置、402…サーバ装置、404、406…クライアント装置、408…通信ネットワーク、416、418…データ/データパケット、410…通信インターフェース、412…メモリ、414…接続機構、430、440…I/Oインターフェース、432、442…通信インターフェース、434、444…プロセッサ、436、446…データ記憶機構、438、448…接続機構、500…サーバ装置、502…筐体、504、506…トレー、508、510…スロット、514、516…接続、512…電源、518…通信ネットワーク、526…コネクタ、528…コネクタ。

Claims (20)

  1. 符号化されたリソース記述フレームワークエンティティ、属性、値、及び符号化されたカテゴリのセットについて、符号化されたカテゴリのカテゴリ索引を作成するステップであって、前記カテゴリ索引中の各符号化されたカテゴリは、対応する符号化されたエンティティのリストを含む、当該作成するステップと、
    符号化された属性ごとに、当該符号化された属性についての符号化された値を有する符号化されたエンティティを判定するステップと、
    判定結果に応じて、符号化された属性と、該符号化された属性に対応する符号化されたエンティティ及び符号化された値と、に関する属性索引を形成するステップと、
    前記カテゴリ索引及び前記属性索引を記憶して知識データベースを形成するステップと、
    を含む方法。
  2. 構造化クエリを分解して複数の単純クエリにするステップと、
    前記複数の単純クエリの各々について、前記知識データベースの前記カテゴリ索引又は前記属性索引にアクセスして、符号化されたエンティティのリストを求めるステップと、
    複数の前記符号化されたエンティティのリストの共通集合を求めて、前記構造化クエリに応答性のある前記符号化されたエンティティを判定するステップと、
    前記構造化クエリに応答性のある前記符号化されたエンティティを元のエンティティに変換するステップと、
    をさらに含む請求項1に記載の方法。
  3. 符号化された属性、符号化されたエンティティ、符号化された値、及び符号化されたカテゴリが各々、対応する整数からなる請求項2に記載の方法。
  4. 前記複数の単純クエリの各々が、前記符号化された属性のうち1つの符号化された属性及び前記符号化されたカテゴリのうち1つの符号化されたカテゴリを備える請求項2に記載の方法。
  5. 複数の前記符号化されたエンティティのリストの共通集合を求める処理が、メモリ中の1つのエンティティリストと前記知識データベース中の別のエンティティリストとの共通集合を求めることを含む請求項2に記載の方法。
  6. 前記方法が、
    前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して前記構造化クエリに応答性のある前記符号化されたエンティティを判定するステップ、
    を含む請求項2に記載の方法。
  7. 前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して前記構造化クエリに応答性のある前記符号化されたエンティティを判定するステップは、
    −log(E(A)∩E(B)/E(A)∪E(B))を求めることを含み、
    前記E(A)は1つのエンティティであり、前記E(B)は別のエンティティである請求項6に記載の方法。
  8. 符号化された属性と、該符号化された属性に対応する符号化されたエンティティ及び符号化された値と、に関する属性索引を記憶するように構成された知識データベースであって、符号化されたカテゴリのカテゴリ索引を記憶するようにさらに構成され、前記カテゴリ索引中の各符号化されたカテゴリは、対応する符号化されたエンティティのリストを含む、当該知識データベースと、
    前記知識データベースに記憶された前記カテゴリ索引及び前記属性索引を使用して、単純クエリに応答性のある符号化されたエンティティリストを検索するように構成された知識エンジンと、
    を備えるシステム。
  9. 符号化された属性、符号化されたエンティティ、符号化された値、及び符号化されたカテゴリがそれぞれ、対応する整数からなる請求項8に記載のシステム。
  10. 前記システムが、
    自然言語のクエリを受け取ってそれに対応する構造化クエリを前記知識エンジンに提供するように構成されたセマンティックエンジン、
    を備える請求項8に記載のシステム。
  11. 前記知識エンジンが前記知識データベースと対話し、前記単純クエリに応答性のある前記符号化されたエンティティリストをユーザ装置に表示させる請求項8に記載のシステム。
  12. 前記知識エンジンが、前記符号化されたエンティティの共通集合を求めて、前記単純クエリに応答性のある前記符号化されたエンティティのリストを取得するように構成される請求項8に記載のシステム。
  13. 前記知識エンジンが、メモリ中の1つのエンティティリストと前記知識データベース中の別のエンティティリストとの共通集合を求めるように構成される請求項8に記載のシステム。
  14. 前記知識エンジンが、前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して、構造化クエリに応答性のある前記符号化されたエンティティのリストを取得するように構成される請求項8に記載のシステム。
  15. 前記知識エンジンが、前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して、前記構造化クエリに応答性のある前記符号化されたエンティティのリストを取得するように構成され、前記類似度スコアは、−log((E(A)∩E(B)/E(A)∪E(B))に基づいて求められ、前記E(A)は1つのエンティティであり、前記E(B)は別のエンティティである請求項14に記載のシステム。
  16. プログラム命令を記憶した非一時的なコンピュータ読み取り可能な記録媒体であって、
    前記プログラム命令は、知識エンジンに、
    符号化されたリソース記述フォーマットエンティティ、属性、値、及び符号化されたカテゴリのセットについて、符号化されたカテゴリのカテゴリ索引を作成するステップであり、前記カテゴリ索引中の各符号化されたカテゴリは、対応する符号化されたエンティティのリストを含む、当該作成するステップと、
    符号化された属性ごとに、当該符号化された属性についての符号化された値を有する符号化されたエンティティを判定するステップと、
    判定結果に応じて、符号化された属性と、該符号化された属性に対応する符号化されたエンティティ及び符号化された値と、に関する属性索引を形成するステップと、
    前記カテゴリ索引及び前記属性索引を記憶して知識データベースを形成するステップと、
    を実行させるためのプログラム命令である、
    非一時的なコンピュータ読み取り可能な記録媒体。
  17. 前記プログラム命令は、知識エンジンに、
    構造化クエリを分解して複数の単純クエリにするステップと、
    前記複数の単純クエリの各々について、前記知識データベースの前記カテゴリ索引又は前記属性索引にアクセスして、符号化されたエンティティのリストを求めるステップと、
    複数の前記符号化されたエンティティのリストの共通集合を求めて、前記構造化クエリに応答性のある前記符号化されたエンティティを判定するステップと、
    前記構造化クエリに応答性のある前記符号化されたエンティティを元のエンティティに変換するステップと、
    を、さらに実行させるためのプログラム命令である、
    請求項16に記載の非一時的なコンピュータ読み取り可能な記録媒体。
  18. 前記符号化されたエンティティのリストの共通集合を求める処理が、
    メモリ中の1つのエンティティリストと前記知識データベース中の別のエンティティリストとの共通集合を求めること、を含む請求項17に記載の非一時的なコンピュータ読み取り可能な記録媒体。
  19. 前記プログラム命令は、知識エンジンに、
    前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して、構造化クエリに応答性のある前記符号化されたエンティティを判定するステップ、
    を、さらに実行させるためのプログラム命令である、
    請求項16に記載の非一時的なコンピュータ読み取り可能な記録媒体。
  20. 前記符号化されたエンティティのリスト間の類似度スコアが閾値より大きいことを判定して、前記構造化クエリに応答性のある前記符号化されたエンティティを判定するステップは、
    −log(E(A)∩E(B)/E(A)∪E(B))を求めることを含み、
    前記E(A)は1つのエンティティであり、前記E(B)は別のエンティティである請求項19に記載の非一時的なコンピュータ読み取り可能な記録媒体。
JP2015054835A 2014-03-18 2015-03-18 大量の複雑な構造化データを管理するための知識エンジン Active JP6440542B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201461955077P 2014-03-18 2014-03-18
US61/955,077 2014-03-18

Publications (2)

Publication Number Publication Date
JP2015179516A true JP2015179516A (ja) 2015-10-08
JP6440542B2 JP6440542B2 (ja) 2018-12-19

Family

ID=54263471

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015054835A Active JP6440542B2 (ja) 2014-03-18 2015-03-18 大量の複雑な構造化データを管理するための知識エンジン

Country Status (1)

Country Link
JP (1) JP6440542B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6321845B1 (ja) * 2017-03-10 2018-05-09 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP2019159877A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 セキュリティシステムとその符号化方式並びにネットワーク制御方式
CN111143394A (zh) * 2019-11-20 2020-05-12 泰康保险集团股份有限公司 知识数据处理方法、装置、介质及电子设备
CN111666479A (zh) * 2019-03-06 2020-09-15 富士通株式会社 搜索网页的方法和计算机可读存储介质
KR20210000952A (ko) * 2019-06-26 2021-01-06 주식회사 카카오 지식그래프 색인 방법 및 장치
CN113407730A (zh) * 2021-05-28 2021-09-17 北京小米移动软件有限公司 基于知识图谱的问答方法、装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196608A (ja) * 2004-01-09 2005-07-21 National Institute Of Information & Communication Technology リソース選択システム、リソース選択処理装置、リソース選択プログラム、およびリソース選択処理方法
US20060235823A1 (en) * 2005-04-18 2006-10-19 Oracle International Corporation Integrating RDF data into a relational database system
JP2013130965A (ja) * 2011-12-20 2013-07-04 Hitachi Ltd データ分析装置、データ分析方法及びプログラム
WO2013111287A1 (ja) * 2012-01-25 2013-08-01 株式会社日立製作所 Sparqlクエリ最適化方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005196608A (ja) * 2004-01-09 2005-07-21 National Institute Of Information & Communication Technology リソース選択システム、リソース選択処理装置、リソース選択プログラム、およびリソース選択処理方法
US20060235823A1 (en) * 2005-04-18 2006-10-19 Oracle International Corporation Integrating RDF data into a relational database system
JP2013130965A (ja) * 2011-12-20 2013-07-04 Hitachi Ltd データ分析装置、データ分析方法及びプログラム
WO2013111287A1 (ja) * 2012-01-25 2013-08-01 株式会社日立製作所 Sparqlクエリ最適化方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6321845B1 (ja) * 2017-03-10 2018-05-09 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP2018151800A (ja) * 2017-03-10 2018-09-27 ヤフー株式会社 付与装置、付与方法および付与プログラム
JP2019159877A (ja) * 2018-03-14 2019-09-19 株式会社日立製作所 セキュリティシステムとその符号化方式並びにネットワーク制御方式
CN111666479A (zh) * 2019-03-06 2020-09-15 富士通株式会社 搜索网页的方法和计算机可读存储介质
KR20210000952A (ko) * 2019-06-26 2021-01-06 주식회사 카카오 지식그래프 색인 방법 및 장치
KR102309375B1 (ko) * 2019-06-26 2021-10-06 주식회사 카카오 지식그래프 색인 방법 및 장치
CN111143394A (zh) * 2019-11-20 2020-05-12 泰康保险集团股份有限公司 知识数据处理方法、装置、介质及电子设备
CN111143394B (zh) * 2019-11-20 2023-06-13 泰康保险集团股份有限公司 知识数据处理方法、装置、介质及电子设备
CN113407730A (zh) * 2021-05-28 2021-09-17 北京小米移动软件有限公司 基于知识图谱的问答方法、装置及计算机可读存储介质
CN113407730B (zh) * 2021-05-28 2024-03-12 北京小米移动软件有限公司 基于知识图谱的问答方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP6440542B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
US10055482B2 (en) Knowledge engine for managing massive complex structured data
JP6440542B2 (ja) 大量の複雑な構造化データを管理するための知識エンジン
US20210165955A1 (en) Methods and systems for modeling complex taxonomies with natural language understanding
US9710468B2 (en) Topic profile query creation
US9633074B1 (en) Querying data set tables in a non-transactional database
US11227011B2 (en) Content recommendations
US20120158791A1 (en) Feature vector construction
US20120246154A1 (en) Aggregating search results based on associating data instances with knowledge base entities
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
US20150095407A1 (en) Recommending content in a client-server environment
US9582572B2 (en) Personalized search library based on continual concept correlation
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
US20180129716A1 (en) Multi-Level Data Pagination
US20150081690A1 (en) Network sourced enrichment and categorization of media content
US20140379723A1 (en) Automatic method for profile database aggregation, deduplication, and analysis
US10936640B2 (en) Intelligent visualization of unstructured data in column-oriented data tables
EP3807784A1 (en) Providing query recommendations
US9043321B2 (en) Enhancing cluster analysis using document metadata
JP2019087249A (ja) 自動検索辞書およびユーザインターフェイス
US10642872B2 (en) System for optimizing content queries
US9465658B1 (en) Task distribution over a heterogeneous environment through task and consumer categories
US20170124090A1 (en) Method of discovering and exploring feature knowledge
JP7188879B2 (ja) 提供装置、提供方法及び提供プログラム
US9519710B1 (en) Dynamic classification of attribute relevance and classification
WO2016010591A1 (en) Search engine using name clustering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181120

R150 Certificate of patent or registration of utility model

Ref document number: 6440542

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250