JP6440733B2 - オンラインサービスのサポートのためのリソース生成 - Google Patents

オンラインサービスのサポートのためのリソース生成 Download PDF

Info

Publication number
JP6440733B2
JP6440733B2 JP2016556247A JP2016556247A JP6440733B2 JP 6440733 B2 JP6440733 B2 JP 6440733B2 JP 2016556247 A JP2016556247 A JP 2016556247A JP 2016556247 A JP2016556247 A JP 2016556247A JP 6440733 B2 JP6440733 B2 JP 6440733B2
Authority
JP
Japan
Prior art keywords
concept
wikipedia
wikipedi
category
concepts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016556247A
Other languages
English (en)
Other versions
JP2016538676A (ja
Inventor
ペロ スバシッチ,
ペロ スバシッチ,
ヒョン シク シン,
ヒョン シク シン,
ロナルド スジタン,
ロナルド スジタン,
ホンフェン イン,
ホンフェン イン,
サヤンデヴ ムカルジー,
サヤンデヴ ムカルジー,
和計 秋永
和計 秋永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of JP2016538676A publication Critical patent/JP2016538676A/ja
Application granted granted Critical
Publication of JP6440733B2 publication Critical patent/JP6440733B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

[0002]本開示は一般にデータベース処理に関し、より詳細にはデータベース内の概念の類似性に重み付けするために概念をカテゴリへと編成するデータベース処理に関する。
[関連出願]
[0001]本出願は、2013年11月27日出願の米国仮特許出願第61/910000号の利益を主張するものであり、上記出願の内容はその全体が本明細書に援用される。
[0003]オンラインサービスは、ユーザとの対話を知的に処理してユーザに対して提案を行うことができれば、その人気を増大させることができる。例えば、ウェブページサーバ上で実行中のアプリケーションは、ユーザに対してその現在の利用内容に基づいて追加のウェブページを提案してもよい。この点に関して、「ニューヨーク(New York)」や「マドンナ(Madonna)」等の概念に関する膨大な量の情報を提供するウィキペディア(Wikipedia)等の実質的に百科事典のようなデータベースが現時点で存在している。もしこのようなデータベースを自動的に分析して概念間の関係を決定できれば、ユーザに対する提案がより正確となり、ユーザとの対話及びかみ合いがサポートされる。
[0004]よって、オンラインデータベースにおける概念間の関係の発見は非常に価値があるため、このような関係の分析を提供する試みにかなりの努力が費やされてきた。しかしながら残念なことに、現在の分析は、特定のデータベースに関して個別的にのみ開発されてきた。このようなアプリケーションは一般に、単一言語の利用にのみ有効であり、他の言語に移すことは困難又は不可能である。よって、従来のアプリケーションにおける概念の関係に関するリソースの更新は、相当量の手作業の介在を伴っている。
[0005]よって、データベースを処理してデータベース内の概念間の関係を発見できるアプリケーションが、当該技術分野において求められている。
[0006]一態様では、カテゴリへと編成される概念のデータベースを分析するためのシステムが提供される。各カテゴリについて、概念のうちの第1の概念の数であって、第1の概念のカテゴリは第1の概念を直接的に含む第1のレベルのカテゴリである、第1の概念の数と、概念のうちの第2の概念の数であって、第2の概念のカテゴリは、第2の概念が今度は第2の概念を含むカテゴリのうちの他のカテゴリのメンバーであることを通してのみ第2の概念を含む、第2の概念の数と、同様に続いて、概念のうちの第nの概念の数であって、第nの概念のカテゴリは第nのレベルのカテゴリである、第nの概念の数までとを計数する行為であって、ここでnは2以上の正の整数である、計数する行為を含む、方法を実行するよう構成される。更に、方法は、各カテゴリについて、最も多い計数を有するレベルとなるようにカテゴリを分類する行為を含む。最後に方法は、各レベルに分類された各カテゴリについて、カテゴリの概念のページランクに少なくとも基づいて最も有意な概念を有する分類されたカテゴリを決定し、各レベルについて最も有意な概念を有する分類されたカテゴリの集合を決定する行為を含む。
[0007]本明細書で開示されるシステム及び方法の追加の特徴及び利点は、以下の詳細な説明を通してよりよく理解されるだろう。
本開示の実施形態による、概念とカテゴリとの間の関係を決定するためにデータベースを分析するよう構成されたシステムのためのモジュールの集まりを示す。 図1Aのシステムへの追加のモジュールを示す。 図1Aのシステムにより分析されるデータベース内のカテゴリの集合についての循環を示す。 図1Aのシステムにより分析されるデータベースについての、カテゴリ階層の決定に関する第1の概念の計数処理を示す。 別の概念に適用される図3Aの計数処理を示す。 本発明の実施形態による、カテゴリへと編成される概念を有するデータベースを分析する方法についてのフローチャートである。 図1A及び図1Bのシステムを実装するよう構成できるコンピュータシステムの一例のブロック図である。
[0015]本発明の実施形態及びその利点は、以下の詳細な説明を参照することにより最もよく理解される。1つ又は複数の図面に示される類似の要素を識別するために類似の参照番号を使用していることを理解されたい。
[0016]添付の図面に関連させて以下に述べる詳細な説明は、様々な構成の説明を意図したものであり、本明細書に記載の概念を実行できる唯一の構成を表すことを意図したものではない。詳細な説明は、様々な概念の完全な理解を提供するために具体的な詳細を含む。しかしながら、これらの具体的な詳細を用いることなくこれらの概念を実施できることは、当業者には明白であろう。いくつかの例では、このような概念の不明瞭さを回避するために、よく知られた構造及び構成要素をブロック図の形態で示す。
[0017]追加のオンラインリソースを提供するための百科事典のようなデータベースの概念的な分析は、統計的アプローチとは異なる。例えば、商業的ウェブサイトをホスティングするアプリケーションは、典型的には購入を統計的にレビューすることにより、商品が購入されるとアプリケーションが同じ商品を購入した他のユーザも既に購入した関連する商品を示唆できるようにする。しかしこのような分析は、商品自体と関連する商品との概念的な関係には全く関連しない。本明細書で開示されるシステム及び方法は、ユーザのウェブブラウジングの過去の行動を単に使用するのではなく、代わりにデータベースを分析してデータベース内の概念の相互関係性を数値的に特徴付ける。この形式では、ユーザが所与の概念を有するウェブページを読んでいると、関連する概念を有するウェブページをユーザに対して知的に提案できる。
[0018]本明細書中で使用する「概念(concept)」は、概念と関連付けられたテキストの情報を有するデータベースエンティティであって、このエンティティはデータベース内の他の概念へのリンクを含み得る。概念のデータベースの一例はウィキペディアであり、ウィキペディアでは各概念が記事として表される。これらの記事はカテゴリへと編成される。各カテゴリは関連する記事の集まりである。以下の分析は、ウィキペディア内の概念の分析に特化することになるが、本明細書で開示される分析は、各概念がデータベース内の他の概念へのリンクを含み得るテキストのデータベース見出し語である概念を有するいずれのデータベースに対しても広く適用できることを理解されたい。概念の類似物はスプレッドシートデータベース内のレコードである。典型的には各レコードは、多数のフィールドを含有するスプレッドシート内の列である。よってデータベースエンティティ又は「概念」に関連付けられた言葉は、スプレッドシートデータベースの列(又はレコード)のフィールドに類似している。
[0019]本明細書で開示するリソース生成を実行するために、システムを開示する。このシステムは多数のモジュールからなる。各モジュールを、単一のコンピュータ又はコンピュータの集まりにより実装してもよい。或いは、各モジュールをASIC又は構成されたフィールドプログラマブルゲートアレイ(Field Programmable Gate Array)を用いて実装してもよい。図1Aは、例示的なシステム100の高度な概観を示す。システム100は、データベース105からリソースを生成するために稼働する。以下の記述は、データベース105はウィキペディアデータベースであることを想定するが、システム100により同様の形式で類似のデータベースを分析してもよいことを理解されたい。ウィキペディアでは、特定の記事は概念に特化しない。例えば、「ニューヨーク」をインターネット検索すると、ニューヨーク州に関するテキストの記事に特化したウィキペディアのページが導かれる。しかし、他のウィキペディアのページはその代わりに曖昧さ回避ページである。例えば、「マドンナ」という用語は、場所、ポップアーティスト又は聖人を意味し得るので曖昧である。ウィキペディアは、このような曖昧な概念に関して、同じ名称を共有する様々な概念を列挙する「曖昧さ回避ページ」を設けることができる。このような曖昧さ回避ページは、それ自体は1つの概念と別の概念との関係に関する情報を提供しないので、システム100は、全てのウィキペディアの曖昧さ回避ページ又は参照をリスト120内に識別するための、曖昧さ回避ページエクストラクタモジュール110を含んでもよい。
[0020]ウィキペディアは、それぞれの単独のウェブページ又は記事に対して参照番号を提供する。全ての概念及びカテゴリをその参照番号により識別するために、システム100は、概念リスト125を生成するよう構成されたページのパーサ、エクストラクタ及びフィルタモジュール115を含んでもよい。この概念リスト125は、曖昧さ回避ページを含む、ウィキペディア内の全ての概念(即ち、単独のウェブページ)のリストである。更に、モジュール115はウィキペディアについて全てのカテゴリのリストを生成する。この点に関して、ウィキペディア内の各名詞(曖昧さ回避ではないページ)は1つ又は複数のカテゴリを列挙する。例えば、「ニューヨーク」に関するウィキペディアのページは、この概念が6つのウィキペディアのカテゴリ、即ち昔の英国植民地、ニューヨーク、米国の州、中部大西洋、米国北東部、及び米国の東岸の州、に含まれることを示す。この例示的なカテゴリの集合が示すように、概念は、単独の「ニューヨーク」の概念及びカテゴリにより示されるカテゴリでもあり得る。各カテゴリは1つ又は複数の概念を含み、この概念はウィキペディア内の特定のトピックについてのテキストの内容の単独の記事又はウェブページと等価である。
[0021] パーサ、エクストラクタ及びフィルタモジュール115もまた、概念参照マップ140を生成する。この点に関して、ウィキペディア内の各概念は、他のウィキペディアの概念へのハイパーリンクを含んでもよい。概念参照マップ140は、ウィキペディア内の各概念について、他の概念への全てのこのような参照を列挙する。なお、しかし、いくつかのハイパーリンクは、ハイパーリンク内のテキストの参照により示される概念を参照しない。例えば、「ニューヨーク」について上述したウィキペディアのページは、「3番目に人口が多い」のハイパーリンクを含むが、このハイパーリンクは「3番目に人口が多い」の概念を導かず、代わりに「人口による米国及び地域のリスト」の概念に関するウェブページを導く。本明細書で使用するように、対応する概念とは異なった言葉で表現されるハイパーリンクを介した1つの概念から別の概念へのこのような参照は、リダイレクトとして表される。モジュール115は、各概念について、概念が他の概念に対して有し得るいずれのリダイレクトも列挙するための概念リダイレクトマップも生成する。本明細書中で更に説明するように、このようなリダイレクトは、所与の概念についての同義語に関する追加の情報を提供し、これは関連する概念を識別するために使用できる。
[0022]概念参照マップ140は、各概念について、曖昧さ回避ページを含む全ての参照される概念を識別する。曖昧さ回避ページはリスト120に既に識別されているので、曖昧さ回避モジュール145は、概念参照マップ140を容易にフィルタリングして、いずれの曖昧さ回避参照も含まない参照される名詞の概念のみを列挙するフィルタリング済み概念参照マップ150を形成できる。概念参照マップ150は、ウィキペディア内の所与の名詞の概念と別の名詞の概念とを関連付けるために、本明細書中で述べるような多数の方法において使用できる。以下の記述において使用される用語「概念」は、簡潔さのために、名詞の概念(曖昧さ回避ページではない概念)を意味するものと理解されたい。
[0023]なお、英語版のウィキペディアは、対応する概念を対象とする340万を超える記事を有する。このような途方に暮れるほど多数の概念は、未処理の形式では、本質的に管理不可能である。しかし、本明細書で開示される技術及びシステムは、この複雑性に対処し、ユーザが所与の概念に興味を示すと、概念参照マップ150により決定される関連する概念をユーザに対して識別できるようにする。ユーザがウィキペディアとは何の関係もないウェブページをウェブ閲覧すること又はサーバに対してリクエストを行うことができるという技術の力に留意されたい。しかし、このようなアプリケーションへのユーザの入力を、概念を識別するために分析してもよい。これらの概念は、今度は関連する概念を識別するために処理されてもよい。これを行うために、システム100は、類似性演算モジュール155を含んでもよい。概念間の関係を数値的に特徴付けるために、モジュール155により多数のアルゴリズムを実装してもよい。例えばモジュール155は、概念参照マップ150を使用して、各概念についてその概念の残りの全ての概念に対する類似性の推定値を計算してもよい。例えば、所与の概念Aと別の概念Bとの間の類似性を決定する問題を考える。モジュール155は、概念Aにより参照される概念(RC(A)として示される)と、概念Bにより参照される概念(RC(B)として示される)との間に、共通部分RC(A)∩RC(B)と識別されるようないずれかの共通部分が存在するかどうかをまず決定してもよい。これらの参照される概念の間に共通部分が存在しない場合、概念Aと概念Bとの間には何の関係もないと考えられる。共通部分が存在する場合、次いでモジュール155はRC(A)∪RC(B)で表されるRC(A)とRC(B)との和集合も計算し、式「−log((RC(A)∩RC(B)/RC(A)∪RC(B)))」を決定して概念Aと概念Bとの間の類似性のスコアを得る。このような類似性のスコアは、最も緊密に関連する概念は、参照される概念の和集合と同じである、参照される概念の共通部分に相当すると考えられるという点で、概念間の類似性と逆相関の関係にある(対数の底によらず1の対数はゼロである)。共通部分が和集合に比較して小さくなるほど、得られる比の対数はますます負となり、真数はますます正となる。よって、各概念について、関連する概念の順序付きスコアが生成できる。いくつかの実施形態では、この順序付きスコアに閾値を適用し、所与の概念に対して最も密接に関連する概念の部分集合を決定してもよい。よって閾値を適用するかどうかに関わらず、類似性演算モジュールは、ウィキペディア内の各概念について、関連する概念の順序付きリスト165をこの形式で生成できる。類似性演算モジュール155は、直前で述べた対数の式の代わりに又はこれと併せて代替のアルゴリズムを実装してもよい。例えば、類似性演算モジュール155は、Jaccardの式又はPMIの式を使用して、概念間の数値的な類似性を演算できる。更に類似性演算モジュール155は、所与の概念のカテゴリのメンバーシップを使用して、カテゴリ内の追加のメンバーを関連する概念として選択できる。
[0024]フィルタリング済み概念参照マップ150を処理して類似性演算モジュール155を介して類似の概念を決定することに加えて、システム100は概念重要性演算モジュール160を含んでもよい。一実施形態では、概念重要性演算モジュール160は、ページランクアルゴリズムを使用して、所与の概念の重要性を決定してもよい。当技術分野において知られている通り、ページランクアルゴリズムは、所与の概念にリンクしている他の概念からのインバウンドリンク(inbound link)に対して適用される再帰的処理である。よって、ランク付けされた概念のリスト170に編さんされているように、モジュール160によりウィキペディア内の各概念にページランクスコアを与えることができる。応用では、あまり重要でない概念を取り除くために、何らかの閾値に応じてリスト170をフィルタリングしてもよい。ユーザが多数の概念を含むウェブページを閲覧すると、それらの概念のページランクスコアが所望の閾値を超えているかどうかを決定することにより、より重要な概念を識別できる。なお、このようなフィルタリングは、所与のユーザのシステム100との対話により提示される概念に関連し得る概念の数を低減するという点において、制約的である。対照的に、所与の概念に関連する概念を見つけるためにリスト165を適用することは、ユーザのシステム100との対話に関連し得る概念の数を増加させるという点で拡張するものである。この点に関して、ユーザのシステム100との「対話」は、本明細書中ではシステム100に対していくらかの内容を提示することを含むと定義される。この内容は、「パロアルトにあるイタリア料理店を探して」等の音声の要求又はテキストベースの要求であってもよい。或いはこの内容は、ユーザが現在閲覧している所与のウェブページ又はニュース記事中のテキストであってもよい。この内容がどのように提示されるかに関わらず、システム100はこの内容を分析して、この内容に関連する概念及びカテゴリを決定できる。リスト165は関連する概念の数の拡張をもたらすのに対し、リスト170は関連する概念の数の縮小をもたらすので、これらのリストを繰り返して使用して、所与のユーザのシステム100との対話に対して、関連する概念の数をまず拡張(又は縮小)し、そして縮小(又は拡張)できる。
[0025]システム100はまた、図1Bに示すように、各カテゴリ中に含まれる概念とカテゴリ−カテゴリの関係とを列挙した、ウィキペディアから得るカテゴリリンクファイル175を処理する階層エクストラクタ及びフィルタモジュール185を含んでもよい。よってモジュール185は、各カテゴリについて概念を列挙した概念−カテゴリマップ191を抽出でき、他のカテゴリに含まれているカテゴリを識別するカテゴリ−カテゴリマップ192も抽出できる。カテゴリの識別に関する1つの問題は、ウィキペディア等の個人の書き手のコミュニティによりオープンソース化され形成されているデータベースが、余分な又は重複したカテゴリを有し得るということである。例えば、1つのカテゴリが「Computer Science」と命名されることがあるのに対し、別のカテゴリが「Computer science」と命名されることがある。このような重複したカテゴリを、全く大文字を使用せずにカテゴリ名について文字列を比較すること等により、モジュール185によりマージしてもよい。よってモジュール185は、余分なカテゴリを取り除く働きをする。なお、リスト192で識別されるカテゴリ−カテゴリ関係は、カテゴリの例示的な集合200について図2に示すように循環するものであってもよい。特に、カテゴリ205の「チェコ共和国−スロバキアの関係(Czech Republic−Slovakia relations)」は、カテゴリ210の「チェコスロバキア(Czechoslovakia)」を含むが、今度はこれ自体がカテゴリ235の「チェコ共和国の2国関係(Bilateral relations of Czech Republic)」内に含まれるカテゴリである。同様に、カテゴリ235は、今度はカテゴリ230の「チェコ共和国の対外関係(Foreign relations of Czech Republic)」内に含まれ、カテゴリ230は、今度はカテゴリ225の「チェコ共和国の政府(Government of Czech Republic)」及びカテゴリ220の「チェコ共和国の政治(Politics of the Czech Republic)」内に含まれる。最後にカテゴリ220はカテゴリ215の「チェコ共和国(Czech Republic)」内に含まれ、カテゴリ215は、今度は既に上述したカテゴリ250に含まれる。この循環性は、以下で更に述べるカテゴリ階層の決定に関する問題を表している。
[0026]システム100はまた、所与のユーザのシステム100との対話に基づいた、他の概念及びカテゴリの提案に関する視聴統計により決定される、概念の人気を使用することもできる。例えばシステム100は図1Bに示すように、ウィキペディアにより提供される毎時視聴統計ファイル180を処理して、人気による重み付け概念リスト195を生成する、人気抽出モジュール190を含んでもよい。リスト195を、所与のユーザのシステム100との対話に基づいて識別された概念の数の除外又は低減に関して、リスト170と併せて又はこれの代わりに使用してもよい。
[0027]システム100により生成される概念並びにそのカテゴリの様々なリスト及びランク付けを極めて有利な方法で使用して、ユーザのシステム100との対話に関連するリソース(概念及びカテゴリ)を生成できる。例えばマップ191を使用して、今度はユーザの対話により識別された重要な概念を含むカテゴリを識別できる。なお、この点に関して、概念とカテゴリとの間の関係は、特定の概念は他のカテゴリに含まれることを通してのみ所与のカテゴリ内に含まれるという点で階層的である。例えば再び図2を参照すると、「チェコスロバキアの解体(Dissolution of Czechoslovakia)」の概念はカテゴリ205内に含まれるウィキペディア記事のうちの1つである。よってカテゴリ205は、この概念に関して「第1のレベル」のカテゴリと考えられる。しかしカテゴリ235がカテゴリ205を含むとしても、この同じ概念はカテゴリ235の直接のメンバーではない。それにも関わらず、「チェコスロバキアの解体」の概念とカテゴリ235との間のこの間接的な関係を、重要な関連する概念を識別するためにシステム100により有利に使用できる。この概念はカテゴリ235からたった1つ移動するカテゴリなので、カテゴリ235は、チェコスロバキアの解体の概念に関して「第2のレベル」のカテゴリであると考えることができる。同じ概念に関して、カテゴリ230は、今度は第3のレベルのカテゴリとなるのに対し、カテゴリ225は第4のレベルのカテゴリとなることになる。よってシステム100は、概念の集合200を介して所与の概念に関するレベルを決定するよう機能し得る。しかし集合200の循環する性質は、カテゴリ205が「チェコスロバキアの解体」の概念を直接的に含むだけでなく、この同じ概念に関して第8のレベルのカテゴリでもあるという点で、問題を呈す。同様にカテゴリ205は、システム100が、集合200が形成する循環の繰り返しを無期限に継続する場合、第15のレベルのカテゴリであるとも考えられ得る。所与のカテゴリの循環の不確定のループを回避するために、このような各循環の集合は、循環内のカテゴリ−カテゴリ関係のうちの1つを壊すことにより強制的に非循環にしなければならない。例えばカテゴリ215がもはやカテゴリ220を含むと考えられないとすると(循環内の端の削除)、集合200はもはや循環ではなく、これにより得られるカテゴリの階層は限定された及び画定されたものとなる。或いは、カテゴリ220を集合200から削除すると(循環内のノード及びその端の削除)、得られる階層も限定された及び画定されたものとなる。端又はノードのこのような削除は、意味に基づいて行われてもよい。例えばカテゴリ210は、もはや存在しない国の「チェコスロバキア」と関連しているので、このノード及びその端は削除され得る。このような削除は今日の旅行及び観光産業にとっては正確であるが、ユーザのクエリ又はシステム100との対話が歴史に関連するものである場合、必然的に望ましくないものとなり得る。しかしながら、典型的なデータベースが有するこのような循環した配置のカテゴリは比較的少ないことが理解されよう。例えば英語版のウィキペディアは400000を超えるカテゴリを有するが、このような循環はたった20〜30程度である。よって人間のオペレータは、実質的な負担を負うことなくこのような比較的小さい循環の集合をどのように解消するかについて適切な意味的決定を施すことができる。
[0028]全てのカテゴリをどのように非循環にするかに関わらず、得られる非循環のカテゴリを有利に分析して、図3A及び図3Bに示すようにその階層のレベルを決定することができる。この階層に関しては、図3Aの概念300等の概念を第0のレベルにあると考える。カテゴリ305は概念300を直接的に含むので、カテゴリ305は概念300に関して第1のレベルのカテゴリであると考えることができる。同様に、カテゴリ310は概念300を直接的に含まないが、カテゴリ305は、今度はカテゴリ310内に含まれるので、間接的にこの概念を含む。カテゴリ310はカテゴリ305と比較して階層においてちょうど「1レベル」上なので、カテゴリ310は概念300に関して第2のレベルのカテゴリであると考えることができる。しかし図3Bに示すように、別の概念315はカテゴリ310の直接のメンバーであり、カテゴリ310は概念315に関して第1のレベルのカテゴリである。カテゴリ310等の所与のカテゴリは、1つの概念に関してあるレベルであり得るが、別の概念に関して別のレベルであり得るという不明瞭さに留意されたい。この不明瞭さにより、カテゴリが階層中の上位に移動することでこのカテゴリの相対的な有用性が消えるので、1つのカテゴリと別のカテゴリとを直接的に比較することができなくなる。例えば、「全ての概念(all concepts)」のカテゴリは、このカテゴリが含む概念についていずれかの有用な情報を提供するには一般的過ぎることが想像できる。よってカテゴリのレベルが高くなればなるほど、そのカテゴリが含む概念について少ない情報が提供される。よって階層は、あるレベルにおいて適宜終結させることができる−例えばシステム100は一実施形態では第4のレベルのカテゴリまでのカテゴリを計算してもよい。
[0029]カテゴリの階層において追加のレベルを計算することに関してどこに閾値があるかに関わらず、レベルにおける不明瞭さのために1つのカテゴリと別のカテゴリとの直接比較が問題あるものになる。特に、第1のレベルのカテゴリは、第2のレベルのカテゴリが含むよりも概念についてのより多くの情報を含有することになる(第2のレベルのカテゴリは、今度は第3のレベルのカテゴリよりも多くの情報を提供することになり、同様に続く)ので、第1のレベルのカテゴリのランク付けは、他の第1のレベルのカテゴリのみに対して所与の第1のレベルのカテゴリを比較することにより最も正確に実行される。同様に、第2のレベルのカテゴリの比較は、他の第2のレベルのカテゴリとのみ行われ、同様に続く。しかし、未加工のカテゴリについて同じレベルの比較を行うことは、所与のカテゴリがどのレベルを占めるかの不明瞭さ故に不可能である。この不明瞭さを解決するために、システム100は図1Aに示すようにカテゴリランク演算モジュール136を含んでもよい。図1A及び図1Bを再び参照すると、モジュール136は、概念−カテゴリマップ191及びカテゴリ−カテゴリマップ192を使用して、各概念について、直接的又は間接的にカテゴリを含むいずれのカテゴリの相対的なレベルを決定できる。各概念について、所与のカテゴリ内に(直接的に又は間接的に)含まれた回数に関して、計数が決定される。例えば、図3Aの概念300はカテゴリ305及びカテゴリ306内に直接的に含まれている。よってカテゴリ305及びカテゴリ306のそれぞれは、第1のレベルの分類に関して計数1をそれぞれ得る。他方では、概念300は、カテゴリ305及びカテゴリ306の両方を介して間接的にカテゴリ310のメンバーであるので、カテゴリ310は第2のレベルの分類に関して計数2を受ける。別のカテゴリ(図示せず)がカテゴリ310を含むとすると、そのカテゴリは第3のレベルの分類に関して計数3を受けることになり、同様に続く。よって各概念は、概念を直接的又は間接的に含むカテゴリのレベル分類について「投票」していると考えることができ、ここで投票は図3Aについて示した対応するカテゴリをもたらす計数である。概念毎に行われるこのレベル分類では、カテゴリが対応する概念を直接的に含む場合、第1のレベルの分類についてこのカテゴリに計数が与えられる。逆に、対応する概念が、対応する概念を今度はそれぞれ含む1つ又は複数のカテゴリに直接的に含まれることを介してのみ、所与のカテゴリがこの対応する概念を間接的に含む場合、第2のレベルの分類についてこの所与のカテゴリに計数が与えられる。同様に、対応する概念が、所与のカテゴリに今度は含まれる1つ又は複数の第2のカテゴリに今度は含まれる1つ又は複数の第1のカテゴリに直接的に含まれることを介してのみ、所与のカテゴリがこの対応する概念を間接的に含む場合、第3のレベルの分類についてこの所与のカテゴリに計数が与えられる。この形式では、それぞれの追加のレベル分類は、介在するカテゴリを通して別の「飛躍(hop)」を伴う。
[0030]概念315からの計数は図3Bに示されている。この場合、カテゴリ305は第1のレベルの分類に関して別の計数を得る。概念300に関する第2のレベルの分類とは対照的に、カテゴリ310は、カテゴリ310が概念315を直接的に含むので、概念315からの第1のレベルの分類に関して計数を得る。分類に関する概念300と概念315との間の矛盾は、各概念からの計数の総数(これは上述したように所与の分類レベルについて投票を真似てもよい)により決定される。例えばモジュール136により全ての概念を処理した後に、所与のカテゴリがレベル1において計数30、レベル2において計数132、レベル3において計数20、レベル4において計数0を有すると想定する。最も多い計数はレベル2においてであるので、モジュール136は、この同じカテゴリがレベル1及びレベル3において同様に選別された計数を有していたとしても、カテゴリをレベル2のカテゴリとして分類することになる。この形式で分類された全てのカテゴリを用いて、次いでモジュール136はカテゴリランク付けマップ137に分類されたカテゴリを列挙する。なお、しかしながら、英語版のウィキペディアは400000を超えるカテゴリを有する。モジュール136により全て分類されたこれらのカテゴリを用いてさえ、カテゴリランク付けマップ137は、この所与の極めて多数のカテゴリを使用するにはまだ扱いにくい可能性がある。よってカテゴリランク演算モジュール136は、ランク付き概念マップ170を使用して、分類されたカテゴリをフィルタリングしてもよい。例えばモジュール136は、所与の分類されたカテゴリ内の全ての概念について、概念ランクを平均して、閾値に対してこの平均を比較してもよい。次いでモジュール136は、所望の閾値を超えた分類されたカテゴリのみをカテゴリランク付けマップ137内に含んでもよい。マップ137の優れた有用性を考慮すると、まず初めに、ウィキペディア等のデータベース内の多様なカテゴリは、フィルタリングされた各レベルが有意にランク付けされた概念を有するカテゴリからなるように、フィルタリングされたレベルへと知的に分類される。
[0031]次いでシステム100から得られたリソースを、多数の方法に適用して、ユーザのシステム100との対話に対応する、関連する概念及びカテゴリを識別してもよい。例えば、ユーザが現在利用しているウェブページに対応するテキスト文書がシステム100に提示されると仮定する。一般には、特に文書のワード計数が増加するにつれ、マシンにとって文書を理解することは大変困難なタスクである。しかしシステム100は、ウィキペディアがウィキペディアとは無関係の文書内で何が重要で関連しているかを密接に反映している実に莫大な知識の集まりであるという点で、ウィキペディア等のデータベースを人間の文書理解のプロキシとして使用する。例えばシステム100を、データベース105内の概念について逆索引を生成するよう構成してもよい。次いでユーザの文書内の言葉を逆索引に対して処理して、記事に最も関連する概念を見つけてもよい。次いでこれらの概念を、上述のようにマップ165を用いて拡張させ、マップ170を用いて縮小させてもよい。更に、得られたカテゴリに対応するマップ137からのカテゴリを識別してもよい。この形式では、ユーザの文書に関連する概念及びカテゴリのリストは、システム100によりほぼリアルタイムで容易に生成される。システム100を、関連する概念及びカテゴリを同じ形式で生成させた他の文書のデータベースにリンクさせてもよい。ユーザの文書からの関連する概念及びカテゴリと、文書データベース内の文書について対応する概念及びカテゴリとを比較することにより、次いでシステム100は関連する文書を知的にかつ迅速にユーザに対して提示することができ、これはユーザのシステム100との対話及びこれに対する満足を大幅に増加させる。よって文書を分析する複雑性は、ユーザに関連する文書を知的に示すために、ウィキペディア等の個別のデータベースの既に分析済みの構造を、人間の文書理解のプロキシとして用いることにより解決される。ここで、データベースを分析して所与のユーザのシステムとの対話に関連する概念及びカテゴリを見つける方法を述べる。
[0032]ここで図4に戻ると、データベースを分析して概念とカテゴリとの間の関係を見つける例示的な方法に関するフローチャートが提供されている。方法は、各カテゴリについて、概念のうちの第1の概念の数であって、第1の概念のカテゴリは第1の概念を直接的に含む第1のレベルのカテゴリである、第1の概念の数と、概念のうちの第2の概念の数であって、第2の概念のカテゴリは、第2の概念が今度は第2の概念を含むカテゴリのうちの他のカテゴリのメンバーであることを通してのみ第2の概念を含む、第2の概念の数と、同様に続いて、概念のうちの第nの概念の数であって、第nの概念のカテゴリは第nのレベルのカテゴリである、第nの概念の数までとを計数する行為400を含み、ここでnは2以上の正の整数である。図3A及び図3Bにおける、概念300及び315に関して特定のレベルに属するカテゴリ305、306及び310の計数は、nが2となる場合の、行為400の一例である。しかしながら、nは任意の正の整数であり、必要に応じて増加させることができることを理解されたい。例えば他の実施形態では、整数nは4以上であり得る。
[0033]方法は、各カテゴリについて、最も多い計数を有するレベルとなるようにカテゴリを分類する行為405を更に含む。カテゴリランク演算モジュール136による最も多い計数に基づいたnのレベルのうちのそれぞれのレベルへのカテゴリの分類は、行為405の一例である。最後に方法は、各レベルに分類された各カテゴリについて、カテゴリの概念のページランクに少なくとも基づいて最も有意な概念を有する分類されたカテゴリを決定して、最も有意な概念を有する各レベルに分類されたカテゴリの集合を決定する行為410を含む。モジュール136によるカテゴリランク付けマップ137の形成に関して上述した、概念のページランクに従って分類されたカテゴリのフィルタリングは、行為410の一例である。
[0034]前述したように、システム100は1つ又は複数のコンピュータを用いて実装してもよく、又は構成されたFPGA若しくは(1つ若しくは複数の)ASICを用いて具体的に作成してもよい。システム100のための1つ又は複数のモジュールを実装するのに好適なコンピュータシステム500を、図5に示す。管理者は、ディスプレイ511、キーボード504及び視聴覚I/O505を用いてシステム500を構成してもよい。システム500は、バス502を介して命令のメモリ514に連結された少なくとも1つのプロセッサを含む。バス502は、ネットワークインターフェース506及び通信リンク518を介して、インターネット等のネットワーク550にも連結されている。この形式では、システム500によりホスティングされるウェブページ上の文書のテキスト、テキストの検索クエリ、又は音声の検索クエリ等のユーザの対話を、ネットワーク550からシステム500により容易に受信してもよい。本明細書中で述べた様々なモジュールを実装するためにプロセッサ512により実行されるメモリ514に記憶された命令は、Java(登録商標)又は他の好適なプログラミング言語で記述できる。
[0035]当業者は既に理解している通り、手元にある特定の用途に応じて、本開示のデバイスの材料、装置、構造、及び使用方法において並びにこれらに対して、本開示の精神及び範囲から逸脱することなく多数の変更、置き換え、及び変形を行うことができる。この見地から、本開示の範囲は、実施形態は単なるいくつかの例なので、本明細書中で示された及び説明された特定の実施形態の範囲に限定されるべきものではなく、むしろ、添付された請求項及びこれらの機能的な均等物の範囲と完全に同等のものであるべきである。

Claims (12)

  1. ウィキペディア概念およびウィキペディアカテゴリを解析するためのマシン実装方法であって、
    エクストラクタモジュールが、複数の文書に関連付けられたオンライン百科事典を備えるウェブサイトにアクセスするステップであって、ここで前記複数の文書が各々が1つ以上のウィキペディア概念を前記ウェブサイト用のデータベース内に有するウィキペディアカテゴリを備える、アクセスするステップと、
    カテゴリランク演算モジュールが、前記複数の文書に関連付けられた各カテゴリについて、
    前記ウィキペディア概念のうちの第1のウィキペディア概念の数であって、前記第1のウィキペディア概念に関するウィキペディアカテゴリは、前記第1のウィキペディア概念を直接的に含む第1レベルのウィキペディアカテゴリである、第1のウィキペディア概念の数と、
    前記ウィキペディア概念のうちの第2のウィキペディア概念の数であって、前記第2のウィキペディア概に関するウィキペディアカテゴリは、前記第2のウィキペディア概念が、今度は前記第2のウィキペディア概念を含むカテゴリのうちの他のカテゴリのメンバーであることを通してのみ前記第2のウィキペディア概念を含む第2レベルのウィキペディアカテゴリである、第2のウィキペディア概念の数と、
    同様に続いて、前記ウィキペディア概念のうちの第nのウィキペディア概念の数であって、前記第nのウィキペディア概念に関するウィキペディアカテゴリは、第nのレベルのウィキペディアカテゴリである、第nのウィキペディア概念の数まで、
    を計数するステップであって、ここでnは2以上の正の整数であり前記ウィキペディアカテゴリの階層の設定最大数に制限され、計数するステップと、
    パーサモジュールが、各ウィキペディア概念について、前記ウィキペディア概念がハイパーリンクする全ての他のウィキペディア概念を識別し、各ウィキペディア概念について参照されるウィキペディア概念のマップを生成し、類似性演算モジュールが、前記全ての他のウィキペディア概念及び前記ウィキペディア概念内のすべての前記参照されるウィキペディア概念の和集合ごとに、前記全ての他のウィキペディア概念と前記ウィキペディア概念との間の類似性スコアを、前記全ての他のウィキペディア概念と前記ウィキペディア概念との間の前記参照されるウィキペディア概念の共通部分の比として決定するステップと、
    前記カテゴリランク演算モジュールが、各ウィキペディアカテゴリについて、n個のレベルのうち最も多い計数を有するレベルを決定し、前記最も多い計数を有するレベルとなるように前記ウィキペディアカテゴリを分類するステップと、
    前記カテゴリランク演算モジュールが、各レベルについて、前記ウィキペディアカテゴリの概念の平均ページランクに対する閾値を超える前記ウィキペディアカテゴリの概念の前記平均ページランクに少なくとも基づいて、前記レベルに分類された複数のウィキペディアカテゴリのうち最も有意な概念を有するウィキペディアカテゴリを決定して、前記最も有意な概念を有する各レベルに分類されたウィキペディアのカテゴリの集合を決定するステップと、
    前記類似性演算モジュールが、前記ウェブサイトの前記複数の文書内の前記ウィキペディア概念を用いて前記ウェブサイトの前記データベースに関連付けられた逆索引を生成するステップであって、ここで前記逆索引は前記ウィキペディア概念を前記ウィキペディアカテゴリにマップする、生成するステップと、
    前記類似性演算モジュールが、参照されるウィキペディア概念の前記マップ、前記類似性スコア、及び、各レベルについて前記レベルに分類されたウィキペディア概念のいずれが前記概念のうちの前記最も有意な概念を有するのかという前記決定を用いて、前記逆索引を更新するステップと、
    前記類似性演算モジュールが、前記ウェブサイト上でユーザによって実行される入力に関連付けられた前記複数の文書のうちの少なくとも一つの示唆される文書を前記ウェブサイトにアクセスしているユーザに対して出力するステップであって、ここで前記少なくとも一つの示唆される文書は、前記更新された逆索引に基づく1つ以上の前記ウィキペディアカテゴリ又は前記ウィキペディア概念へ案内する、出力するステップと、
    を含む、マシン実装方法。
  2. 前記ウィキペディアカテゴリの部分集合が循環機構を有し、
    前記マシン実装方法が、
    階層エクストラクタフィルタモジュールが、前記カテゴリランク演算モジュールが前記ウィキペディアカテゴリを分類する前に、前記ウィキペディアカテゴリの前記部分集合について、前記循環機構を解消するステップ、
    を更に含む、請求項1に記載のマシン実装方法。
  3. 概念重要性演算モジュールが、ユーザからの前記入力を受信するステップと、
    前記概念重要性演算モジュールが、前記入力を分析して、前記入力により示唆されるウィキペディア概念の第1の集合を識別するステップと、
    階層エクストラクタフィルタモジュールが、参照されるウィキペディア概念の前記マップを介して前記ウィキペディア概念の第1の集合を参照して、前記ウィキペディア概念の第1の集合に関連する追加のウィキペディア概念を識別するステップと、
    を更に含む、請求項に記載のマシン実装方法。
  4. 概念重要性演算モジュールが、ユーザからの前記入力を受信するステップと、
    前記概念重要性演算モジュールが、前記入力を分析して、前記入力により示唆されるウィキペディア概念の第1の集合を識別するステップと、
    前記概念重要性演算モジュールが、前記第1の集合内の各ウィキペディア概念が閾値となるページランク概念を超えるかどうかに従って、前記ウィキペディア概念の第1の集合を低減して、有意なページランクを有する低減されたウィキペディア概念の集合を形成するステップと、
    を更に含む、請求項1に記載のマシン実装方法。
  5. 前記マシン実装方法が、
    人気抽出モジュールが、統計を分析して、各ウィキペディア概念について利用人気を識別するステップ、
    を更に含み、
    前記ウィキペディア概念の集合を形成するステップは、
    前記ウィキペディア概念の第1の集合に対して利用人気閾値を適用することにより、前記利用人気閾値を超える利用人気を有する前記第1の集合内のウィキペディア概念のみが前記低減されたウィキペディア概念の集合に属することができるようにすること、を更に含む、請求項に記載のマシン実装方法。
  6. 前記階層エクストラクタフィルタモジュールが、全て大文字でない文字を用いて各ウィキペディアのカテゴリから文字列を形成するステップと、
    前記階層エクストラクタフィルタモジュールが、全ての前記ウィキペディアのカテゴリから得た前記文字列を比較して、同一の文字列を有するウィキペディアのカテゴリを識別するステップと、
    前記階層エクストラクタフィルタモジュールが、前記同一の文字列を有するいずれのウィキペディアのカテゴリも、対応するマージ済みの単一のウィキペディアのカテゴリへとマージするステップと、
    を更に含む、請求項2に記載のマシン実装方法。
  7. 概念重要性演算モジュールが、ユーザからテキスト入力を受信するステップと、
    前記概念重要性演算モジュールが、前記テキスト入力内の言葉と前記更新された逆索引とを比較して、前記テキスト入力に関連するウィキペディアの概念の集合を識別するステップと、
    を更に含む、請求項に記載のマシン実装方法。
  8. 前記概念重要性演算モジュールが、前記関連するウィキペディアの概念と前記分類されたウィキペディアのカテゴリの集合とを、前記最も有意なウィキペディアの概念を有する各レベルについて比較して、前記関連するウィキペディアの概念を含む分類されたウィキペディアのカテゴリの低減された集合を識別するステップ、
    を更に含む、請求項に記載のマシン実装方法。
  9. 前記類似性演算モジュールが、前記関連するウィキペディアの概念の集合と前記分類されたウィキペディアのカテゴリの低減された集合とを使用して、前記ユーザに対して前記ユーザのテキスト入力に関連する内容を提示するステップ、
    を更に含む、請求項に記載のマシン実装方法。
  10. 前記類似性演算モジュールが、前記参照されるウィキペディア概念のマップを分析して、各ウィキペディア概念から前記参照されるウィキペディア概念と、全ての残りのウィキペディア概念に対して参照されるウィキペディア概念との間のいずれの共通部分も識別するステップ、
    を更に含む、請求項に記載のマシン実装方法。
  11. ウィキペディア概念を解析して、各ウィキペディア概念について前記ウィキペディア概念がハイパーリンクする全ての他のウィキペディア概念を識別し、各ウィキペディア概念について全ての参照されるウィキペディア概念を列挙した概念参照マップを生成するよう構成された、パーサモジュールであって、ここで前記ウィキペディア概念が、ウェブサイトのデータベース内の前記ウィキペディア概念用の複数の文書に関連付けられたオンライン百科事典を備えるウェブサイトに含まれている、パーサモジュールと、
    ウィキペディア内の、同じ言葉で表現されるが異なるテキストページに対応するウィキペディア概念を列挙する全ての曖昧さ回避ページを識別するよう構成された、曖昧さ回避ページエクストラクタモジュールと、
    前記参照されるウィキペディア概念の前記マップをフィルタリングして、曖昧さ回避ページを除去することにより、フィルタリング済みウィキペディア概念参照マップを形成するよう構成された、曖昧さ回避モジュールと、
    前記フィルタリング済みウィキペディア概念参照マップを処理して、前記ウィキペディア概念を前記ウィキペディア概念の類似物にマップし、前記全ての他のウィキペディア概念及び前記ウィキペディア概念内のすべての前記参照されるウィキペディア概念の和集合ごとに、前記全ての他のウィキペディア概念と前記ウィキペディア概念との間の類似性スコアを、前記全ての他のウィキペディア概念と前記ウィキペディア概念との間の前記される参照ウィキペディア概念の共通部分の比として決定するよう構成された、類似性演算モジュールと、
    を含み、
    前記類似性演算モジュールは、更に、前記ウェブサイトの前記複数の文書内の前記ウィキペディア概念を用いて前記ウェブサイトの前記データベースに関連付けられた逆索引を生成し、ここで前記逆索引は前記ウィキペディア概念を前記ウィキペディアの概念の類似物にマップし、前記フィルタリング済みウィキペディア概念参照マップ及び前記類似性スコアを用いて前記逆索引を更新し、前記ウェブ上でユーザによって実行される入力に関連付けられた前記複数の文書のうちの少なくとも一つの示唆される文書を前記ウェブサイトにアクセスしているユーザに対して出力し、ここで前記少なくとも一つの示唆された文書は、前記更新された逆索引に基づく1つ以上の前記ウィキペディアの概念へ案内する、システム。
  12. ーザからの前記入力を処理して前記入力に関連するウィキペディア概念の集合を識別し、類似性重み付けウィキペディア概念のリストに関して前記ウィキペディア概念の集合を更に処理して前記ウィキペディア概念の集合に関連するウィキペディア概念の集合を識別するように構成される概念重要性演算モジュールを更に備える、請求項11に記載のシステム。
JP2016556247A 2013-11-27 2014-11-25 オンラインサービスのサポートのためのリソース生成 Active JP6440733B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361910000P 2013-11-27 2013-11-27
US61/910,000 2013-11-27
PCT/US2014/067479 WO2015081131A1 (en) 2013-11-27 2014-11-25 Generating resources for support of online services

Publications (2)

Publication Number Publication Date
JP2016538676A JP2016538676A (ja) 2016-12-08
JP6440733B2 true JP6440733B2 (ja) 2018-12-19

Family

ID=53199616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016556247A Active JP6440733B2 (ja) 2013-11-27 2014-11-25 オンラインサービスのサポートのためのリソース生成

Country Status (6)

Country Link
US (1) US9646099B2 (ja)
EP (1) EP3074890A4 (ja)
JP (1) JP6440733B2 (ja)
KR (1) KR101778901B1 (ja)
CN (1) CN105378729A (ja)
WO (1) WO2015081131A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11610248B1 (en) * 2019-06-19 2023-03-21 Amazon Technologies, Inc. Type ambiguity detection system

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6415283B1 (en) * 1998-10-13 2002-07-02 Orack Corporation Methods and apparatus for determining focal points of clusters in a tree structure
US8229957B2 (en) * 2005-04-22 2012-07-24 Google, Inc. Categorizing objects, such as documents and/or clusters, with respect to a taxonomy and data structures derived from such categorization
US20070027772A1 (en) * 2005-07-28 2007-02-01 Bridge Well Incorporated Method and system for web page advertising, and method of running a web page advertising agency
CN1794240A (zh) * 2006-01-09 2006-06-28 北京大学深圳研究生院 基于自然语言理解的计算机信息检索系统及其检索方法
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US7860855B2 (en) * 2007-02-13 2010-12-28 Sap Ag Method and system for analyzing similarity of concept sets
EP2537348A2 (en) * 2010-02-19 2012-12-26 Thomson Licensing Enhanced content search
US8595234B2 (en) * 2010-05-17 2013-11-26 Wal-Mart Stores, Inc. Processing data feeds
US8725739B2 (en) * 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
CN102129479B (zh) * 2011-04-29 2013-01-02 南京邮电大学 一种基于概率潜在语义分析模型的万维网服务发现方法

Also Published As

Publication number Publication date
JP2016538676A (ja) 2016-12-08
CN105378729A (zh) 2016-03-02
US20160026723A1 (en) 2016-01-28
EP3074890A1 (en) 2016-10-05
EP3074890A4 (en) 2017-09-06
KR101778901B1 (ko) 2017-09-26
KR20160127707A (ko) 2016-11-04
US9646099B2 (en) 2017-05-09
WO2015081131A1 (en) 2015-06-04

Similar Documents

Publication Publication Date Title
Martinez-Rodriguez et al. Information extraction meets the semantic web: a survey
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US10108720B2 (en) Automatically providing relevant search results based on user behavior
Zhao et al. Ontology integration for linked data
US20100121790A1 (en) Method, apparatus and computer program product for categorizing web content
NO325864B1 (no) Fremgangsmåte ved beregning av sammendragsinformasjon og en søkemotor for å støtte og implementere fremgangsmåten
CN107506472B (zh) 一种学生浏览网页分类方法
WO2010125463A1 (en) Method and apparatus for identifying synonyms and using synonyms to search
Al-Subaihin et al. Empirical comparison of text-based mobile apps similarity measurement techniques
US20180025012A1 (en) Web page classification based on noise removal
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
US20170199939A1 (en) Method of and a system for website ranking using an appeal factor
CN112231598A (zh) 网页路径导航方法、装置、电子设备及存储介质
Bizer et al. Using the semantic web as a source of training data
WO2012091541A1 (en) A semantic web constructor system and a method thereof
JP6440733B2 (ja) オンラインサービスのサポートのためのリソース生成
Moumtzidou et al. Discovery of environmental nodes in the web
Tourné et al. Evaluating tag filtering techniques for web resource classification in folksonomies
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Das et al. Adaptive web personalization system using splay tree
KR20140135100A (ko) 시맨틱 매쉬업 기술을 이용한 프로그램 제공 방법
US10430852B2 (en) Social result abstraction based on network analysis
Lalitha et al. Potential Web Content Identification and Classification System using NLP and Machine Learning Techniques
US20220147574A9 (en) Expert stance classification using computerized text analytics
Campos et al. Extracting Context Data from User Reviews for Recommendation: A Linked Data Approach.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151105

A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20151201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170523

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180724

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181120

R150 Certificate of patent or registration of utility model

Ref document number: 6440733

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250