JP2013033452A - 文書検索装置および方法 - Google Patents

文書検索装置および方法 Download PDF

Info

Publication number
JP2013033452A
JP2013033452A JP2012133641A JP2012133641A JP2013033452A JP 2013033452 A JP2013033452 A JP 2013033452A JP 2012133641 A JP2012133641 A JP 2012133641A JP 2012133641 A JP2012133641 A JP 2012133641A JP 2013033452 A JP2013033452 A JP 2013033452A
Authority
JP
Japan
Prior art keywords
document
hypergraph
nodes
edge
subunit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012133641A
Other languages
English (en)
Other versions
JP5497105B2 (ja
Inventor
Bo Liu
ボ リウ
Yubo Koe
ユーボ コウ
Jianqiang Li
ジェンチャン リイ
Yu Zhao
ユウ ジャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Publication of JP2013033452A publication Critical patent/JP2013033452A/ja
Application granted granted Critical
Publication of JP5497105B2 publication Critical patent/JP5497105B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書内で黙示される意味的関連度情報を使用して文書検索を実行するための文書検索装置を提供する。
【解決手段】対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備える。
【選択図】図1

Description

本発明は情報検索の分野に関し、特に、文書検索装置および方法に関する。
情報時代の到来に伴い、検索可能な文書の数は増加の一途を辿っている。そのため、膨大な文書の中から有益な情報を効果的に見つけ出すことは極めて重要となっている。
情報検索(IR:Information Retrieval)とは、一連の文書(文書セット)の中から特定の情報を検索する技術である。情報検索技術はさらに、文書に含まれる情報の検索、文書自体の検索、文書について記述するメタデータの検索、データベースの検索に分類される。データベースの検索では、リレーショナル・スタンドアロン型データベースや、Ethernet、コンテンツ/文書管理システム等のネットワーク型ハイパーテキストデータベースに対して、テキスト・音声・画像・データの検索が実行される。
文書検索が実行される場合、文書検索システムが担う主なタスクは、1)ユーザクエリに関連する文書を発見すること、2)照合結果を評価し、関連度に基づいて文書をランキングすること、の2つである。従来の多くの文書検索システムでは、キーワード検索が重要な役割を果たしている。これらのシステムでは、文書内におけるクエリ語の出現頻度と出現場所、文書をポイントするハイパーリンク、文書アクセス情報といった、いくつかの特定の要因を考慮して文書の検索が実行される。
最近では、いわゆる「意味的Web(SW:Semantic Web)」技術が提案されている。これは、機械が情報の意味(すなわち「セマンティクス」)を理解できるようにするための技術である。リソース・ディスクリプション・フレームワーク(PDF:Resource Description Framework)やWebオントロジ語(OWL:Web Ontology Language)に代表されるSW技術は、所与の知識ドメイン内に、概念と関係の形式的記述を提供することを主眼とする。そのため、SW技術を使用することにより文書検索の精度を高めることができる。
近年、オントロジの使用によって検索精度を高めるための手法がいくつか開発されている。オントロジは、機械に理解可能な方法で、情報の意味を形式的に記述するものである。これにより、クエリおよび文書内で黙示される意味のマイニングが容易になり、ひいては、自然言語の多義性と同義性の問題に対処し、かつクエリや文書内における概念の文脈情報を理解することが可能になる。
非特許文献1(P.Castells.M.Fernandes,and D.Vallet,“An Adaptation of the Vector−Space Model for Ontology−Based Information Retrieval(オントロジベース情報検索のためのベクトル空間モデルの1つの適応)”,IEEE Transactions on Knowledge and Data Engineering,2007)では、文書に関連度スコアを付与する方法が提案されている。この方法は、1)文書およびクエリから概念を抽出する、2)ベクトル空間モデルを使用して文書とクエリ間の類似度を計算する、および3)前のステップで取得されたスコアを、キーワードベースのアルゴリズムによって計算された類似度スコアと結合する、という3つのステップで構成される。
非特許文献2(Tuukka Ruotsalo and Eero Hyvonen,“A Method for Determining Ontology−Based Semantic Relevance(オントロジベース意味的関連度の決定方法)”,Proceeding of DEXA2007)では、基礎となるドメインオントロジを使用して、注釈の相互の関連度を計算し、それによりTerm Frequency−Inverse Document Frequency法(以下、略して「TF−IDF法」)を拡張する方法が提案されている。
特許文献1(WO2006001906 A3)では、グラフベースのランキングアルゴリズムが提案されている。これは、自然言語処理技術とドメインオントロジを使用して各文書に関するグラフを構築し、その後、曖昧性除去やキーワード抽出等のテキスト処理を実行するためにノードをランキングするアルゴリズムである。
WO2006001906 A3
P.Castells.M.Fernandes,and D.Vallet,"An Adaptation of the Vector−Space Model for Ontology−Based Information Retrieval(オントロジベース情報検索のためのベクトル空間モデルの1つの適応)",IEEE Transactions on Knowledge and Data Engineering,2007 Tuukka Ruotsalo and Eero Hyvonen,"A Method for Determining Ontology−Based Semantic Relevance(オントロジベース意味的関連度の決定方法)",Proceeding of DEXA2007
上記の従来技術による方法では、主にクエリと文書から取得されたオントロジの概念(クラスとインスタンス)を使用して文書検索を行うのみで、文書内で黙示されるリッチな意味的情報は考慮されないため、文書検索の精度に劣る。事実、文書とクエリ間の関連度を決定する際には、文書内の概念だけでなく、これらの概念間における暗黙の意味的情報も、重要な役割を果たす。クエリと文書内の概念を考慮するだけでは、検索におけるユーザの真の要求を示すことは不可能である。
上記の問題を解決するため、本発明は、文書内で黙示される意味的関連度情報を使用して文書検索を実行するための文書検索装置および方法を提供する。
具体的には、本発明による文書検索装置および方法は、まず、文書内で黙示される意味的情報を記述するハイパーグラフを構築し、その後、ドメインオントロジを使用してこのハイパーグラフを精緻化する。この方法により、ある特定のクエリに関して文書検索を実行する際には、ハイパーグラフに基づいて当該特定のクエリに関連する文書の関連度スコアを計算し、その関連度スコアを使用して文書をランキングすることが可能になる。
本発明の1つの態様によれば、文書検索装置であって、対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備える文書検索装置が提供される。
ハイパーグラフ構築ユニットは、ドメインオントロジ情報を使用して文書から概念を抽出し、当該概念の重みを計算するように構成された概念抽出サブユニットと、当該文書の初期ハイパーグラフを構築するように構成されたハイパーグラフ構築サブユニットと、ドメインオントロジ情報を使用して当該初期ハイパーグラフを精緻化するように構成されたハイパーグラフ精緻化サブユニットと、精緻化されたハイパーグラフのノードおよびエッジに重みを付与するように構成された重み付与サブユニットとを備えるのが望ましい。
ハイパーグラフ構築サブユニットは、当該文書に含まれる概念セットの各々についてノードを作成してノードセットを形成し、当該文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成し、当該ノードセットと当該エッジセットとから構成される初期ハイパーグラフを構築するように構成されるのが望ましい。
ハイパーグラフ精緻化サブユニットは、初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージし、これらのノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、初期ハイパーグラフ内の任意の個数のノードを連結するエッジを付加し、2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするように構成されるのが望ましい。
重み付与サブユニットは、文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与し、文書内におけるあるエッジの概念の出現頻度と、文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するように構成されるのが望ましい。
2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とするのが望ましい。
文書ランキングユニットは、ハイパーグラフ構築ユニットによって構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するように構成された最小スパニングツリー生成サブユニットと、生成された最小スパニングツリーの意味的関連度スコアを計算するように構成された関連度計算サブユニットと、当該意味的関連度スコアに基づいて文書をランキングするように構成された文書ランキングサブユニットとを備えるのが望ましい。
最小スパニングツリー生成サブユニットは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するように構成されるのが望ましい。
関連度計算サブユニットは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するように構成されるのが望ましい。
本発明の他の態様によれば、文書検索方法であって、対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するステップと、構築されたハイパーグラフに基づいて、当該対象文書セット内で特定クエリに対応する文書を検索し、検索された文書をランキングするステップとを備える文書検索方法が提供される。
構築ステップは、ドメインオントロジ情報を使用して1つの文書から概念を抽出し、当該概念に関する重みを計算するステップと、当該文書に関する初期ハイパーグラフを構築するステップと、ドメインオントロジ情報を使用して初期ハイパーグラフを精緻化するステップと、精緻化されたハイパーグラフのノードおよびエッジに重みを付与するステップとを備えるのが望ましい。
当該文書に関する初期ハイパーグラフを構築するステップは、当該文書に含まれる概念セットの各々についてノードを作成してノードセットを形成するステップと、当該文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成するステップと、当該ノードセットと当該エッジセットとから成る初期ハイパーグラフを構築するステップとを備えるのが望ましい。
初期ハイパーグラフを精緻化するステップは、初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージするステップと、初期ハイパーグラフ内の任意の個数のノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、これらのノードを連結するエッジを付加するステップと、2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするステップとを備えるのが望ましい。
重みを付与するステップは、文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与するステップと、文書内におけるあるエッジの概念の出現頻度と、文書内における当該エッジの出現頻度と、(すなわち、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するステップとを備えるのが望ましい。
2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とするのが望ましい。
検索およびランキングを行うステップは、構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するステップと、生成された最小スパニングツリーの意味的関連度スコアを計算するステップと、当該意味的関連度スコアに基づいて文書をランキングするステップを備えるのが望ましい。
最小スパニングツリーを生成するステップは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するステップを備えるのが望ましい。
意味的関連度スコアを計算するステップは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するステップを備えるのが望ましい。
本発明によって提案される文書検索装置および方法では、文書内で黙示されるリッチな意味的情報を利用し、当該文書に関するハイパーグラフを構築して特定のクエリに関する当該文書の関連度スコアを計算し、かつ計算された関連度スコアに基づいて当該文書をランキングすることによって、文書検索の精度が高められる。そのため、検索におけるユーザの真の要求をより効果的に満たすことが可能となる。
本発明の上記および他の特徴は、添付図面を参照しながら以下の詳細な説明を読むことで、より明らかになるであろう。
本発明の一実施例による文書検索装置を示すブロック図である。 本発明の一実施例による文書検索装置におけるハイパーグラフ構築ユニットを示すブロック図である。 ハイパーグラフ構築サブユニットによって構築されるハイパーグラフを示す概略図である。 図3に示すハイパーグラフ上におけるノードマージ操作の実行前と実行後の状態を示す概略図である。 図3に示すハイパーグラフ上におけるエッジ付加操作の実行前と実行後の状態を示す概略図である。 図3に示すハイパーグラフ上におけるエッジマージ操作の実行前と実行後の状態を示す概略図である。 本発明の一実施例による文書検索装置における文書ランキングユニットを示すブロック図である。 本発明の一実施例による文書検索方法を示すフローチャートである。 本発明の一実施例による文書検索方法の詳細なステップを示すフローチャートである。
以下では、本発明の原理と実施がさらに明らかになるよう、本発明による特定の実施例について添付図面を参照しながら説明する。本発明は以下で説明する特定の実施例に限定されないことに留意されたい。なお、説明の煩雑化を避けるため、本発明には直接関係のない、よく知られた技法の詳細は省略する。
最初に、表1において、説明で使用する用語の意味を示す。
Figure 2013033452
図1は、本発明の一実施例による文書検索装置10を示すブロック図である。図1に示すように、本実施例の文書検索装置10は、ハイパーグラフ構築ユニット110と文書ランキングユニット120とを備える。ハイパーグラフ構築ユニット110は、対象文書セット内の各文書について、当該文書に含まれる暗黙的意味をモデル化するためのハイパーグラフを構築する。文書ランキングユニット120は、ハイパーグラフ構築ユニット110によって構築されたハイパーグラフに基づいて、特定のクエリに対応して対象文書セット内の文書を処理し、文書検索の結果を取得する。以下では、図2〜5を参照して、ハイパーグラフ構築ユニット110と文書ランキングユニット120の構造および動作について詳細に説明する。
図2は、図1に示す文書検索装置10内のハイパーグラフ構築ユニット110を示すブロック図である。図示するように、ハイパーグラフ構築ユニット110は、概念抽出サブユニット1110と、ハイパーグラフ構築サブユニット1120と、ハイパーグラフ精緻化サブユニット1130と、重み付与サブユニット1140とを備える。
概念抽出サブユニット1110は、概念認識技術により、ドメインオントロジに基づいて対象文書から概念を抽出し、その後これらの概念に対する重みを計算する。概念抽出サブユニット1110は、例えば既知のTF−IDF法を使用して概念に対する重みを計算してもよい。
ハイパーグラフ構築サブユニット1120は、特定の文書に関する初期ハイパーグラフを構築する。1つの文書内において、同じ文脈の中に多数の概念が出現する場合には、当該概念間に直接的な意味的関連度があると考えられる。直接的な意味的関連度は、当該文書内の暗黙の意味的情報とみなすことができる。本発明において「同じ文脈」とは、まったく同一の文を意味する。
以下では、ハイパーグラフ構築サブユニット1120の動作について説明する。最初に、1つの文書内で認識された概念セットCに関して、ハイパーグラフ構築サブユニット1120が各概念に対応するノードvを作成して、ノードセットVを形成する。当該文書内の各文は概念セット{C,C,…,C}(nはその文に含まれるノード(概念)の個数)を含むと想定される。次に、その各文について、ハイパーグラフ構築サブユニット1120が概念セット{C,C,…,C}によって形成されるエッジeを付加し、エッジセットEを形成する。最後に、ハイパーグラフ構築サブユニット1120は、G(V,E)と表されるハイパーグラフを形成する。
図3は、ハイパーグラフ構築サブユニット1120によって構築されるハイパーグラフの例を示す概略図である。図3に示すハイパーグラフの例は、7個のノード(ノード(1)〜(7))と5個のエッジ(ノード(1)〜(7)を囲む閉曲線)とを含む。具体的には、この5個のエッジとは、ノード(1)とノード(2)とで構成されるエッジ、ノード(1)とノード(3)とで構成されるエッジ、ノード(2)とノード(4)とで構成されるエッジ、ノード(3)とノード(5)とノード(6)とで構成されるエッジ、ノード(3)とノード(5)とノード(7)とノードとで構成されるエッジである。上述したように、ハイパーグラフにおいて、1個のエッジで任意の数のノードを連結することができる。
通常、文書の著者は、よく知られていると想定される意味的情報を文書内に記録しない(つまり、文書から省略する)ので、ハイパーグラフ構築サブユニット1120によって構築されたハイパーグラフは完全ではないことが多い。そこで本発明では、構築されたハイパーグラフをコンピュータによって処理できるようにするために、ハイパーグラフ精緻化サブユニット1130を使用して、省略された情報をハイパーグラフに付加する。ハイパーグラフ精緻化サブユニット1130は、ドメインオントロジを使用して、ハイパーグラフ構築サブユニット1120によって構築された初期ハイパーグラフを精緻化する。具体的には、ハイパーグラフ精緻化サブユニット1130は、ノード操作とエッジ操作という2種類の動作を実行する。
ノード操作(マージ)とは、ハイパーグラフ内の2個のノードをマージし、当該2個のノードに対応する概念がドメインオントロジ内で同じ意味を有する場合には、当該2個のノードのエッジをマージすることを意味する。図4(a)に、図3に示すハイパーグラフ上でのノード操作の実行例を示す。図4(a)に示すように、ノード(1)(2)がハイパーグラフ内で同じ意味を有する場合には、ハイパーグラフ精緻化サブユニット1130はノード(1)(2)をマージしてノード(1)を形成し、さらにそれに対応してノード(1)(2)のエッジをマージする。ノード操作後のハイパーグラフは、図4(a)の右側に示すように、6個のノードと4個のエッジしか含んでいない。
エッジ操作(付加およびマージ)とは、任意の個数のノードに対応する概念がドメインオントロジ内で隣り合っている場合(すなわち、ドメインオントロジ内で直接関連付けられている場合)には、これらのノードを連結するエッジをハイパーグラフ内で付加し、さらには、2個のエッジに対応する概念がドメインオントロジ内または初期ハイパーグラフ内において互いに距離が近い場合には、ハイパーグラフ内でこれら2個のエッジをマージすることを意味する。図4(b)に、図3に示すハイパーグラフ上でのエッジ操作の実行例を示す。図4(b)に示すように、ノード(4)とノード(7)とがオントロジ内で直接関連付けられている場合には、ノード(4)とノード(7)とを連結するエッジが付加される。したがって、エッジ操作(付加)後のハイパーグラフは、7個のノードと6個のエッジを含む。
図4(c)は、ハイパーグラフ上におけるエッジ操作の実行例を示す概略図である。図4(c)に示すように、ハイパーグラフは当初、2個のエッジ(すなわちノード(1)とノード(2)とで構成されるエッジとノード(1)とノード(3)とで構成されるエッジ)を含んでいる。ノード(2)とノード(3)が直接関連付けられている(すなわち、隣り合っている)ことがドメインオントロジから判断される場合には、ノード(1)とノード(2)とで構成されるエッジと、ノード(1)とノード(3)とで構成されるエッジとをマージして、ノード(1)とノード(2)とノード(3)とで構成されるエッジを形成することができる。
重み付与サブユニット1140は、文書内における意味的情報の重要度に基づいて、精緻化されたハイパーグラフのノードとエッジに重みを付与する。具体的には、重み付与サブユニット1140は、以下の動作を実行する。
(i)ある特定の概念に対応するノードついて、当該概念の文書内における出現頻度(出現回数)に基づいて、当該ノードに重みを付与する。例えば、ノードvに関して、その重みは式weight(v)=Freq(t)として表される。ここで、tはノードvに対応する概念、Freq(t)は文書内における概念tの出現頻度(出現回数)である。
(ii)ある特定のエッジeについて、文書内における当該エッジeに対応する概念tの出現頻度(出現回数)(「Freqterm(e)」とする)と、文書内における当該エッジeの出現頻度(出現回数)(「Freqrelation(e)」とする)と、当該エッジeの新規度(「Nov(e)」とする)とに基づいて、当該エッジeに重みを付与する。
例えば、各エッジe(e={v,v、…、v})(ここで、kは当該エッジ内に含まれるノードの総数を表す)について、その重みは以下の式で表される。
weight(e)=Freqterm(e)*Freqrelation(e)*Nov(e),
ここで、
Freqterm(e)=(weight(v)+weight(v)+…+weight(v))/k
であり、さらに、1つの文書および2つの概念を所与とすると、新規度とは、当該文書が当該2つの概念の意味的距離をどの程度短縮できるかを意味する。Nov(e)=ΣNov({v,v}),0<i,j≦kであり、ここで任意の2つの概念v,vにおいて、その意味的距離(「D({vi,vj}」として表される)がk−1以下の長さの場合はNov({v、v})=1であり、それ以外の場合はNov({v、v})=D({v、v})/(k−1)である。新規な情報は2つの概念間の意味的距離を短縮する可能性があるため、新規度Nov(e)は重大な意味を持つ。
図5は、図1に示す文書検索装置10内の文書ランキングユニット120を示すブロック図である。図5に示すように、文書ランキングユニット120は、最小スパニングツリー生成サブユニット1210と、関連度計算サブユニット1220と、文書ランキングサブユニット1230とを備える。
最小スパニングツリー生成サブユニット1210は、ハイパーグラフ構築ユニット1210によって構築されたハイパーグラフを用いて、最小スパニングツリーを生成する。最小スパニングツリー生成サブユニット1210は、例えば欲張りアルゴリズムを使用して最小スパニングツリーを生成してもよい。欲張りアルゴリズムにおいては、任意の2個のノードが最短のパスによって連結される。所与のすべてのノードが連結されると、アルゴリズムは終了する。
関連度計算サブユニット1220は、生成された最小スパニングツリーの意味的関連度スコアを計算する。一例を挙げれば、文書Doc1とクエリ(q,q,….,q)を所与とすると、最小スパニングツリー生成サブユニット1210が当該クエリに関して計算する最小スパニングツリーはT={r、(q,q,….,q)}である(ここで、rはTのルート、mはTのエッジ数を表す)。その後、関連度計算サブユニット1220は以下の式により、文書Doc1の当該クエリに関する意味的関連度スコアを計算する。

Score(Doc1)=Σ(weight(e)+weight(e)+…+weight(e))/m.
文書ランキングサブユニット1230は、計算された文書の意味的関連度スコアに基づいて、対象文書をランキングし、文書検索の最終結果を取得する。
以下では、文書検索装置10の具体的な用途例を示す。
対象文書Doc1は“The computer science field of information retrieval studies how to store,index,retrieve and rank documents(コンピュータサイエンスの情報検索とは、文書の格納、索引付け、検索、およびランキングについて研究する分野である)”という文を含み、別の対象文書Doc2は““In this paper,graph matching techniques are utilized to enhance information retrieval(本論文では、情報検索の精度を高めるためにグラフ照合技術が利用されている)”という文を含む。ユーザは、文書をグラフとして表現することにより情報検索のパフォーマンスを向上させる方法に関連する文献を見つけようと、3つのキーワード(“information retrieval(情報検索)”、“document(文書)”、“graph(グラフ)”)を含むクエリを入力する。この場合、従来技術の文書検索装置は、Doc1とDoc2の当該クエリに関連するスコアは同じであるという結果を返す。それは、Doc1におけるキーワード“information retrieval”と“document”との絶対距離が、Doc2におけるキーワード“information retrieval”と“graph”との絶対距離と同じだからである。
本発明による文書検索装置10は、これとは異なる結果を返す。それは、Doc1におけるキーワード“information retrieval”および“document”と、Doc2におけるキーワード“information retrieval”および“graph”とでは、その絶対距離は同じであっても相対距離は異なるからである。具体的には、Doc1におけるキーワード“information retrieval”と“document”との相対距離はD(“information retrieval”,“document”)=1と判定され、Doc2におけるキーワード“information retrieval”と“graph”との相対距離はD(“information retrieval”,“graph”)=5と判定される。それは、第1キーワードグループと第2キーワードグループの概念出現頻度とエッジ出現頻度はいずれも1であるが、第1キーワードグループの新規度は1であるのに対し、第2キーワードグループの新規度は5であるためである。その結果、Doc1とDoc2の意味的関連度スコアは以下のようになる。

Score(Doc1)=Weight(e(“information retrieval”,“document”))=1;
Score(Doc1)=Weight(e(“information retrieval”,“graph”))=5.
したがって、本発明による文書検索装置10の検索結果において、Doc2はDoc1よりも高いランクになる。換言すれば、ユーザが求める文書はDoc2であると判定される。
図6は、本発明の一実施例による文書検索方法60を示すフローチャートである。図6に示すように、方法60はステップS610から始まる。
ステップS620において、対象文書セット内の各文書に関して、当該文書に含まれる暗黙的意味を記述するためのハイパーグラフが構築される。図7(a)に、ハイパーグラフを構築するプロセスの具体例を示す。図7に示すように、ステップS6210において、概念認識技術により、ドメインオントロジに基づいて対象文書から概念が抽出され、その後これらの概念に対する重みが計算される。概念に対する重みは、例えば既知のTF−IDF法を使用して計算してもよい。
次に、ステップS6220において、各文書のハイパーグラフが構築される。1つの文書内において、同じ文脈に多数の概念が出現する場合には、これらの概念の間には直接的な意味的関連度があると判定される。具体的には、ある特定の文書における概念セットCについて、各概念に対応するノードvが作成されて、ノードセットVが形成される。次に、概念セット{C,C,…,C}を含むと推定される文書内の各文について、概念セット{C,C,…,C}によって形成されるエッジeが付加され、エッジセットEが形成される。これにより、G(V,E)と表されるハイパーグラフが形成される。
続いて、ステップS6230において、ドメインオントロジを用いて初期ハイパーグラフが精緻化される。具体的には、初期ハイパーグラフは、上記において図4を参照して説明したノード操作とエッジ操作を実行することにより精緻化される。
最後に、ステップS6240において、文書内における意味的情報の重要度に基づいて、精緻化されたハイパーグラフのノードとエッジに重みが付与される。例えば、ある特定の概念に対応するノードに対して、文書内における当該概念の出現頻度(出現回数)に基づいて重みを付与し、さらには、あるエッジに対して、当該エッジの概念の出現頻度(出現回数)と、文書内における当該エッジの出現頻度(出現回数)と、当該エッジの新規性とに基づいて重みを付与することができる。
ここで図6に戻ると、ステップS620の完了後、ステップS630において、ステップS620で生成されたハイパーグラフに基づいて、ある特定のクエリに対応する文書が検索される。図7(b)に、文書を検索するプロセスの具体例を示す。図7に示すように、ステップS6310においてまず、ステップS620で生成されたハイパーグラフを用いて最小スパニングツリーが生成される。この最小スパニングツリーは、例えば、欲張りアルゴリズムを用いて生成することができる。欲張りアルゴリズムにおいては、任意の2個のノードが最短のパスで連結される。所与のすべてのノードが連結されると、アルゴリズムは終了する。
次に、ステップS6320において、生成された最小スパニングツリーの意味的関連度スコアが計算される。一例を挙げれば、文書Doc1とクエリ(q,q,….,q)を所与とすると、最小スパニングツリー生成サブユニット1210が当該クエリに関して計算する最小スパニングツリーはT={r、(q,q,….,q)}である(ここで、rはTのルート、mはTのエッジ数を表す)。その後、関連度計算サブユニット1220は以下の式により、文書Doc1の当該クエリに関する意味的関連度スコアを計算する。

Score(Doc1)=Σ(weight(e)+weight(e)+…+weight(e))/m.
最後に、ステップS6330において、計算された意味的関連度スコアに基づいて文書がランキングされ、文書検索の最終結果が取得される。
図6に戻ると、方法60はステップS630の完了後、ステップS640において終了する。
本発明による文書検索装置および方法では、文書内で黙示されるリッチな意味的情報を利用し、当該文書に関するハイパーグラフを構築して特定のクエリに関する当該文書の関連度スコアを計算し、かつ計算された関連度スコアに基づいて当該文書をランキングすることによって、文書検索の精度が高められる。そのため、検索におけるユーザの真の要求をより効果的に満たすことができる。
上記では、好適な実施例を参照して本発明を説明してきたが、本発明の精神および範囲から逸脱することなく、様々な変更、置換、改変が可能であることは当業者には理解されるであろう。したがって、本発明は上記の実施例に限定されず、添付請求項およびその等価物によってのみ限定される。
さらに、上記実施形態の一部又は全部は、以下の付記のようにも記載されうるが、これに限定されない。
(付記1)
対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、前記対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備えることを特徴とする文書検索装置。
(付記2)
前記ハイパーグラフ構築ユニットは、
ドメインオントロジ情報を使用して文書から概念を抽出し、当該概念の重みを計算するように構成された概念抽出サブユニットと、
前記文書の初期ハイパーグラフを構築するように構成されたハイパーグラフ構築サブユニットと、
前記ドメインオントロジ情報を使用して前記初期ハイパーグラフを精緻化するように構成されたハイパーグラフ精緻化サブユニットと、
精緻化されたハイパーグラフのノードおよびエッジに重みを付与するように構成された重み付与サブユニットとを備えることを特徴とする付記1に記載の文書検索装置。
(付記3)
前記ハイパーグラフ構築サブユニットは、
前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成し、
前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成し、当該ノードセットと当該エッジセットとから構成される初期ハイパーグラフを構築するように構成される
ことを特徴とする付記2に記載の文書検索装置。
(付記4)
前記ハイパーグラフ精緻化サブユニットは、
前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージし、
これらのノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、前記初期ハイパーグラフ内の任意の個数のノードを連結するエッジを付加し、
前記2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするように構成される
ことを特徴とする付記2に記載の文書検索装置。
(付記5)
前記重み付与サブユニットは、
前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与し、
前記文書内におけるあるエッジの概念の出現頻度と、前記文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するように構成されることを特徴とする付記2に記載の文書検索装置。
(付記6)
2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする付記5に記載の文書検索装置。
(付記7)
前記文書ランキングユニットは、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するように構成された最小スパニングツリー生成サブユニットと、
生成された最小スパニングツリーの意味的関連度スコアを計算するように構成された関連度計算サブユニットと、
前記意味的関連度スコアに基づいて文書をランキングするように構成された文書ランキングサブユニットと
を備えることを特徴とする付記1に記載の文書検索装置。
(付記8)
前記最小スパニングツリー生成サブユニットは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するように構成されることを特徴とする付記7に記載の文書検索装置。
(付記9)
前記関連度計算サブユニットは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するように構成されることを特徴とする付記7に記載の文書検索装置。
(付記10)
対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するステップと、
構築されたハイパーグラフに基づいて、前記対象文書セット内で特定クエリに対応する文書を検索し、検索された文書をランキングするステップと
を備えることを特徴とする文書検索方法。
(付記11)
前記構築ステップは、
ドメインオントロジ情報を使用して1つの文書から概念を抽出し、当該概念に関する重みを計算するステップと、
前記文書に関する初期ハイパーグラフを構築するステップと、
ドメインオントロジ情報を使用して初期ハイパーグラフを精緻化するステップと、
精緻化されたハイパーグラフのノードおよびエッジに重みを付与するステップと
を備えることを特徴とする付記10に記載の文書検索方法。
(付記12)
前記文書に関する初期ハイパーグラフを構築するステップは、
前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成するステップと、
前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成するステップと、
前記ノードセットと当該エッジセットとから成る初期ハイパーグラフを構築するステップと
を備えることを特徴とする付記11に記載の文書検索方法。
(付記13)
前記初期ハイパーグラフを精緻化するステップは、
前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージするステップと、
前記初期ハイパーグラフ内の任意の個数のノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、これらのノードを連結するエッジを付加するステップと、
2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするステップと
を備えることを特徴とする付記11に記載の文書検索方法。
(付記14)
前記重みを付与するステップは、
前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与するステップと、
前記文書内におけるあるエッジの概念の出現頻度と、文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するステップと
を備えることを特徴とする付記11に記載の文書検索方法。
(付記15)
前記2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする付記14に記載の文書検索方法。
(付記16)
前記検索およびランキングを行うステップは、
構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するステップと、
生成された最小スパニングツリーの意味的関連度スコアを計算するステップと、当該意味的関連度スコアに基づいて文書をランキングするステップと
を備えることを特徴とする付記10に記載の文書検索方法。
(付記17)
前記最小スパニングツリーを生成するステップは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するステップを備えることを特徴とする付記16に記載の文書検索方法。
(付記18)
前記意味的関連度スコアを計算するステップは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するステップを備えることを特徴とする付記16に記載の文書検索方法。
10:文書検索装置
110:ハイパーグラフ構築ユニット
120:文書ランキングユニット
1110:概念抽出サブユニット
1120:ハイパーグラフ構築サブユニット
1130:ハイパーグラフ精緻化サブユニット
1140:重み付与サブユニット
1210:最小スパニングツリー生成サブユニット
1220:関連度計算サブユニット
1230:文書ランキングサブユニット

Claims (10)

  1. 対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、
    前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、前記対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備えることを特徴とする文書検索装置。
  2. 前記ハイパーグラフ構築ユニットは、
    ドメインオントロジ情報を使用して文書から概念を抽出し、当該概念の重みを計算するように構成された概念抽出サブユニットと、
    前記文書の初期ハイパーグラフを構築するように構成されたハイパーグラフ構築サブユニットと、
    前記ドメインオントロジ情報を使用して前記初期ハイパーグラフを精緻化するように構成されたハイパーグラフ精緻化サブユニットと、
    精緻化されたハイパーグラフのノードおよびエッジに重みを付与するように構成された重み付与サブユニットとを備えることを特徴とする請求項1に記載の文書検索装置。
  3. 前記ハイパーグラフ構築サブユニットは、
    前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成し、
    前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成し、当該ノードセットと当該エッジセットとから構成される初期ハイパーグラフを構築するように構成される
    ことを特徴とする請求項2に記載の文書検索装置。
  4. 前記ハイパーグラフ精緻化サブユニットは、
    前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージし、
    これらのノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、前記初期ハイパーグラフ内の任意の個数のノードを連結するエッジを付加し、
    前記2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするように構成される
    ことを特徴とする請求項2に記載の文書検索装置。
  5. 前記重み付与サブユニットは、
    前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与し、
    前記文書内におけるあるエッジの概念の出現頻度と、前記文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するように構成されることを特徴とする請求項2に記載の文書検索装置。
  6. 2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする請求項5に記載の文書検索装置。
  7. 前記文書ランキングユニットは、
    前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するように構成された最小スパニングツリー生成サブユニットと、
    生成された最小スパニングツリーの意味的関連度スコアを計算するように構成された関連度計算サブユニットと、
    前記意味的関連度スコアに基づいて文書をランキングするように構成された文書ランキングサブユニットと
    を備えることを特徴とする請求項1に記載の文書検索装置。
  8. 前記最小スパニングツリー生成サブユニットは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するように構成されることを特徴とする請求項7に記載の文書検索装置。
  9. 前記関連度計算サブユニットは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するように構成されることを特徴とする請求項7に記載の文書検索装置。
  10. 対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するステップと、
    構築されたハイパーグラフに基づいて、前記対象文書セット内で特定クエリに対応する文書を検索し、検索された文書をランキングするステップと
    を備えることを特徴とする文書検索方法。
JP2012133641A 2011-08-01 2012-06-13 文書検索装置および方法 Expired - Fee Related JP5497105B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110218949.5 2011-08-01
CN201110218949.5A CN102915304B (zh) 2011-08-01 2011-08-01 文档检索设备和方法

Publications (2)

Publication Number Publication Date
JP2013033452A true JP2013033452A (ja) 2013-02-14
JP5497105B2 JP5497105B2 (ja) 2014-05-21

Family

ID=47613675

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012133641A Expired - Fee Related JP5497105B2 (ja) 2011-08-01 2012-06-13 文書検索装置および方法

Country Status (2)

Country Link
JP (1) JP5497105B2 (ja)
CN (1) CN102915304B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041208A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 グラフ変換装置、方法、及びプログラム
JP2021531536A (ja) * 2018-06-29 2021-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問および回答の語彙のグラフを使用する照会拡張
JP7546664B2 (ja) 2019-10-07 2024-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 分散知識ベースのためのオントロジーに基づくデータ・ストレージ
US12086181B2 (en) 2020-01-10 2024-09-10 Semiconductor Energy Laboratory Co., Ltd. Document retrieval system and method for retrieving document

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372087B (zh) * 2015-07-23 2019-12-13 北京大学 一种面向信息检索的信息地图生成方法及其动态更新方法
CN105354280A (zh) * 2015-10-30 2016-02-24 中国科学院自动化研究所 一种基于社会媒体平台的社会事件的跟踪和演变方法
CN111949679A (zh) * 2019-05-17 2020-11-17 上海戈吉网络科技有限公司 一种文档检索系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689457B2 (en) * 2007-03-30 2010-03-30 Amazon Technologies, Inc. Cluster-based assessment of user interests
CN101986299A (zh) * 2010-10-28 2011-03-16 浙江大学 基于超图的多任务个性化网络服务方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2001249935A (ja) * 2000-03-07 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 文書ダイジェスト作成方法、文書検索装置および記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200700118008; 石塚 満: '自然言語テキストの共通的概念記述' 人工知能学会誌 第21巻 第6号, 20061101, p.691-698, 社団法人人工知能学会 *
CSNG200900465016; 西岡 晋太郎 外3名: '意味グラフ照合による質問応答システムMetisの回答精度向上-質問文解析フェーズと検索フェーズの改良' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] , 20090615, p.1-8, 社団法人情報処理学会 *
JPN6013021632; 西岡 晋太郎 外3名: '意味グラフ照合による質問応答システムMetisの回答精度向上-質問文解析フェーズと検索フェーズの改良' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] , 20090615, p.1-8, 社団法人情報処理学会 *
JPN6013050990; 石塚 満: '自然言語テキストの共通的概念記述' 人工知能学会誌 第21巻 第6号, 20061101, p.691-698, 社団法人人工知能学会 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017041208A (ja) * 2015-08-21 2017-02-23 日本電信電話株式会社 グラフ変換装置、方法、及びプログラム
JP2021531536A (ja) * 2018-06-29 2021-11-18 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 質問および回答の語彙のグラフを使用する照会拡張
JP7406873B2 (ja) 2018-06-29 2023-12-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 質問および回答の語彙のグラフを使用する照会拡張
JP7546664B2 (ja) 2019-10-07 2024-09-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 分散知識ベースのためのオントロジーに基づくデータ・ストレージ
US12086181B2 (en) 2020-01-10 2024-09-10 Semiconductor Energy Laboratory Co., Ltd. Document retrieval system and method for retrieving document

Also Published As

Publication number Publication date
CN102915304A (zh) 2013-02-06
JP5497105B2 (ja) 2014-05-21
CN102915304B (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
JP5497105B2 (ja) 文書検索装置および方法
Liu et al. Meta-path-based ranking with pseudo relevance feedback on heterogeneous graph for citation recommendation
KR101192439B1 (ko) 디지털 콘텐츠 검색 장치 및 방법
US8321424B2 (en) Bipartite graph reinforcement modeling to annotate web images
Phan et al. Pair-linking for collective entity disambiguation: Two could be better than all
JP5699789B2 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
JP5078173B2 (ja) 多義性解消方法とそのシステム
JP7232831B2 (ja) 複雑な回答の補強証拠取り出し
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
Haribabu et al. A novel approach for ontology focused inter-domain personalized search based on semantic set expansion
US10467256B2 (en) Automatic query pattern generation
Jotheeswaran et al. OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE.
Chen et al. BibPro: A citation parser based on sequence alignment
US20140101162A1 (en) Method and system for recommending semantic annotations
JP6145562B2 (ja) 情報構造化システム及び情報構造化方法
JP5486667B2 (ja) クエリ結果を多様化するための方法および装置
JP5362807B2 (ja) ドキュメントランク付け方法および装置
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
Chakraborti et al. Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization
Gupta et al. Page ranking algorithms in online digital libraries: A survey
Noraset et al. WebSAIL wikifier at ERD 2014
Rei et al. Parser lexicalisation through self-learning
Reddy et al. Cross lingual information retrieval using search engine and data mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131008

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20131106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140305

R150 Certificate of patent or registration of utility model

Ref document number: 5497105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees