JP2013033452A - 文書検索装置および方法 - Google Patents
文書検索装置および方法 Download PDFInfo
- Publication number
- JP2013033452A JP2013033452A JP2012133641A JP2012133641A JP2013033452A JP 2013033452 A JP2013033452 A JP 2013033452A JP 2012133641 A JP2012133641 A JP 2012133641A JP 2012133641 A JP2012133641 A JP 2012133641A JP 2013033452 A JP2013033452 A JP 2013033452A
- Authority
- JP
- Japan
- Prior art keywords
- document
- hypergraph
- nodes
- edge
- subunit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備える。
【選択図】図1
Description
具体的には、本発明による文書検索装置および方法は、まず、文書内で黙示される意味的情報を記述するハイパーグラフを構築し、その後、ドメインオントロジを使用してこのハイパーグラフを精緻化する。この方法により、ある特定のクエリに関して文書検索を実行する際には、ハイパーグラフに基づいて当該特定のクエリに関連する文書の関連度スコアを計算し、その関連度スコアを使用して文書をランキングすることが可能になる。
weight(e)=Freqterm(e)*Freqrelation(e)*Nov(e),
ここで、
Freqterm(e)=(weight(v1)+weight(v2)+…+weight(vk))/k
であり、さらに、1つの文書および2つの概念を所与とすると、新規度とは、当該文書が当該2つの概念の意味的距離をどの程度短縮できるかを意味する。Nov(e)=ΣNov({vi,vj}),0<i,j≦kであり、ここで任意の2つの概念vi,vjにおいて、その意味的距離(「D({vi,vj}」として表される)がk−1以下の長さの場合はNov({vi、vj})=1であり、それ以外の場合はNov({vi、vj})=D({vi、vj})/(k−1)である。新規な情報は2つの概念間の意味的距離を短縮する可能性があるため、新規度Nov(e)は重大な意味を持つ。
Score(Doc1)=Σ(weight(e1)+weight(e2)+…+weight(em))/m.
Score(Doc1)=Weight(e(“information retrieval”,“document”))=1;
Score(Doc1)=Weight(e(“information retrieval”,“graph”))=5.
Score(Doc1)=Σ(weight(e1)+weight(e2)+…+weight(em))/m.
対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、前記対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備えることを特徴とする文書検索装置。
前記ハイパーグラフ構築ユニットは、
ドメインオントロジ情報を使用して文書から概念を抽出し、当該概念の重みを計算するように構成された概念抽出サブユニットと、
前記文書の初期ハイパーグラフを構築するように構成されたハイパーグラフ構築サブユニットと、
前記ドメインオントロジ情報を使用して前記初期ハイパーグラフを精緻化するように構成されたハイパーグラフ精緻化サブユニットと、
精緻化されたハイパーグラフのノードおよびエッジに重みを付与するように構成された重み付与サブユニットとを備えることを特徴とする付記1に記載の文書検索装置。
前記ハイパーグラフ構築サブユニットは、
前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成し、
前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成し、当該ノードセットと当該エッジセットとから構成される初期ハイパーグラフを構築するように構成される
ことを特徴とする付記2に記載の文書検索装置。
前記ハイパーグラフ精緻化サブユニットは、
前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージし、
これらのノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、前記初期ハイパーグラフ内の任意の個数のノードを連結するエッジを付加し、
前記2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするように構成される
ことを特徴とする付記2に記載の文書検索装置。
前記重み付与サブユニットは、
前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与し、
前記文書内におけるあるエッジの概念の出現頻度と、前記文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するように構成されることを特徴とする付記2に記載の文書検索装置。
2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする付記5に記載の文書検索装置。
前記文書ランキングユニットは、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するように構成された最小スパニングツリー生成サブユニットと、
生成された最小スパニングツリーの意味的関連度スコアを計算するように構成された関連度計算サブユニットと、
前記意味的関連度スコアに基づいて文書をランキングするように構成された文書ランキングサブユニットと
を備えることを特徴とする付記1に記載の文書検索装置。
前記最小スパニングツリー生成サブユニットは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するように構成されることを特徴とする付記7に記載の文書検索装置。
前記関連度計算サブユニットは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するように構成されることを特徴とする付記7に記載の文書検索装置。
対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するステップと、
構築されたハイパーグラフに基づいて、前記対象文書セット内で特定クエリに対応する文書を検索し、検索された文書をランキングするステップと
を備えることを特徴とする文書検索方法。
前記構築ステップは、
ドメインオントロジ情報を使用して1つの文書から概念を抽出し、当該概念に関する重みを計算するステップと、
前記文書に関する初期ハイパーグラフを構築するステップと、
ドメインオントロジ情報を使用して初期ハイパーグラフを精緻化するステップと、
精緻化されたハイパーグラフのノードおよびエッジに重みを付与するステップと
を備えることを特徴とする付記10に記載の文書検索方法。
前記文書に関する初期ハイパーグラフを構築するステップは、
前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成するステップと、
前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成するステップと、
前記ノードセットと当該エッジセットとから成る初期ハイパーグラフを構築するステップと
を備えることを特徴とする付記11に記載の文書検索方法。
前記初期ハイパーグラフを精緻化するステップは、
前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージするステップと、
前記初期ハイパーグラフ内の任意の個数のノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、これらのノードを連結するエッジを付加するステップと、
2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするステップと
を備えることを特徴とする付記11に記載の文書検索方法。
前記重みを付与するステップは、
前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与するステップと、
前記文書内におけるあるエッジの概念の出現頻度と、文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するステップと
を備えることを特徴とする付記11に記載の文書検索方法。
前記2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする付記14に記載の文書検索方法。
前記検索およびランキングを行うステップは、
構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するステップと、
生成された最小スパニングツリーの意味的関連度スコアを計算するステップと、当該意味的関連度スコアに基づいて文書をランキングするステップと
を備えることを特徴とする付記10に記載の文書検索方法。
前記最小スパニングツリーを生成するステップは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するステップを備えることを特徴とする付記16に記載の文書検索方法。
前記意味的関連度スコアを計算するステップは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するステップを備えることを特徴とする付記16に記載の文書検索方法。
110:ハイパーグラフ構築ユニット
120:文書ランキングユニット
1110:概念抽出サブユニット
1120:ハイパーグラフ構築サブユニット
1130:ハイパーグラフ精緻化サブユニット
1140:重み付与サブユニット
1210:最小スパニングツリー生成サブユニット
1220:関連度計算サブユニット
1230:文書ランキングサブユニット
Claims (10)
- 対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するように構成されたハイパーグラフ構築ユニットと、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフに基づいて、前記対象文書セット内で、ある特定クエリに対応する文書を検索し、検索された文書をランキングするように構成された文書ランキングユニットとを備えることを特徴とする文書検索装置。 - 前記ハイパーグラフ構築ユニットは、
ドメインオントロジ情報を使用して文書から概念を抽出し、当該概念の重みを計算するように構成された概念抽出サブユニットと、
前記文書の初期ハイパーグラフを構築するように構成されたハイパーグラフ構築サブユニットと、
前記ドメインオントロジ情報を使用して前記初期ハイパーグラフを精緻化するように構成されたハイパーグラフ精緻化サブユニットと、
精緻化されたハイパーグラフのノードおよびエッジに重みを付与するように構成された重み付与サブユニットとを備えることを特徴とする請求項1に記載の文書検索装置。 - 前記ハイパーグラフ構築サブユニットは、
前記文書に含まれる概念セットの各々についてノードを作成してノードセットを形成し、
前記文書の各文に含まれる概念セットによって形成されるエッジを付加してエッジセットを形成し、当該ノードセットと当該エッジセットとから構成される初期ハイパーグラフを構築するように構成される
ことを特徴とする請求項2に記載の文書検索装置。 - 前記ハイパーグラフ精緻化サブユニットは、
前記初期ハイパーグラフ内の2個のノードに対応する概念がドメインオントロジにおいて同じ意味を有する場合には、当該2個のノードをマージし、
これらのノードに対応する概念がドメインオントロジにおいて直接関連付けられている場合には、前記初期ハイパーグラフ内の任意の個数のノードを連結するエッジを付加し、
前記2個のエッジに対応する概念がドメインオントロジまたは初期ハイパーグラフ内において距離が近い場合には、初期ハイパーグラフ内において当該2個のエッジをマージするように構成される
ことを特徴とする請求項2に記載の文書検索装置。 - 前記重み付与サブユニットは、
前記文書内におけるある特定の概念の出現頻度に基づいて、当該特定の概念に対応するノードに重みを付与し、
前記文書内におけるあるエッジの概念の出現頻度と、前記文書内における当該エッジの出現頻度と、当該エッジ内の任意の2個のノードにおける意味的関連度の新規性の総和であるエッジの新規性とに基づいて、当該エッジに重みを付与するように構成されることを特徴とする請求項2に記載の文書検索装置。 - 2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での2個のノード間の意味的距離が、エッジ内のノード数マイナス1に相当する数を超えない場合は1とし、それ以外の場合には、2個のノードにおける意味的関連度の新規度は、ドメインオントロジ内での当該2個のノード間の意味的距離を、エッジ内のノード数と1との差に相当する数で除算して得られる数とすることを特徴とする請求項5に記載の文書検索装置。
- 前記文書ランキングユニットは、
前記ハイパーグラフ構築ユニットによって構築されたハイパーグラフを用いてある特定のクエリに関する最小スパニングツリーを生成するように構成された最小スパニングツリー生成サブユニットと、
生成された最小スパニングツリーの意味的関連度スコアを計算するように構成された関連度計算サブユニットと、
前記意味的関連度スコアに基づいて文書をランキングするように構成された文書ランキングサブユニットと
を備えることを特徴とする請求項1に記載の文書検索装置。 - 前記最小スパニングツリー生成サブユニットは、欲張りアルゴリズムを使用して最小スパニングツリーを生成するように構成されることを特徴とする請求項7に記載の文書検索装置。
- 前記関連度計算サブユニットは、意味的関連度スコアとして、最小スパニングツリーにおけるすべてのエッジの重みの平均を計算するように構成されることを特徴とする請求項7に記載の文書検索装置。
- 対象文書セットのある1つの文書に含まれる暗黙の意味的情報を記述するために、当該文書に関するハイパーグラフを構築するステップと、
構築されたハイパーグラフに基づいて、前記対象文書セット内で特定クエリに対応する文書を検索し、検索された文書をランキングするステップと
を備えることを特徴とする文書検索方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110218949.5 | 2011-08-01 | ||
CN201110218949.5A CN102915304B (zh) | 2011-08-01 | 2011-08-01 | 文档检索设备和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013033452A true JP2013033452A (ja) | 2013-02-14 |
JP5497105B2 JP5497105B2 (ja) | 2014-05-21 |
Family
ID=47613675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012133641A Expired - Fee Related JP5497105B2 (ja) | 2011-08-01 | 2012-06-13 | 文書検索装置および方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5497105B2 (ja) |
CN (1) | CN102915304B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
JP2021531536A (ja) * | 2018-06-29 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 質問および回答の語彙のグラフを使用する照会拡張 |
JP7546664B2 (ja) | 2019-10-07 | 2024-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 分散知識ベースのためのオントロジーに基づくデータ・ストレージ |
US12086181B2 (en) | 2020-01-10 | 2024-09-10 | Semiconductor Energy Laboratory Co., Ltd. | Document retrieval system and method for retrieving document |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372087B (zh) * | 2015-07-23 | 2019-12-13 | 北京大学 | 一种面向信息检索的信息地图生成方法及其动态更新方法 |
CN105354280A (zh) * | 2015-10-30 | 2016-02-24 | 中国科学院自动化研究所 | 一种基于社会媒体平台的社会事件的跟踪和演变方法 |
CN111949679A (zh) * | 2019-05-17 | 2020-11-17 | 上海戈吉网络科技有限公司 | 一种文档检索系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2001249935A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689457B2 (en) * | 2007-03-30 | 2010-03-30 | Amazon Technologies, Inc. | Cluster-based assessment of user interests |
CN101986299A (zh) * | 2010-10-28 | 2011-03-16 | 浙江大学 | 基于超图的多任务个性化网络服务方法 |
-
2011
- 2011-08-01 CN CN201110218949.5A patent/CN102915304B/zh active Active
-
2012
- 2012-06-13 JP JP2012133641A patent/JP5497105B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2001249935A (ja) * | 2000-03-07 | 2001-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
Non-Patent Citations (4)
Title |
---|
CSNG200700118008; 石塚 満: '自然言語テキストの共通的概念記述' 人工知能学会誌 第21巻 第6号, 20061101, p.691-698, 社団法人人工知能学会 * |
CSNG200900465016; 西岡 晋太郎 外3名: '意味グラフ照合による質問応答システムMetisの回答精度向上-質問文解析フェーズと検索フェーズの改良' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] , 20090615, p.1-8, 社団法人情報処理学会 * |
JPN6013021632; 西岡 晋太郎 外3名: '意味グラフ照合による質問応答システムMetisの回答精度向上-質問文解析フェーズと検索フェーズの改良' 情報処理学会研究報告 平成21年度▲1▼ [CD-ROM] , 20090615, p.1-8, 社団法人情報処理学会 * |
JPN6013050990; 石塚 満: '自然言語テキストの共通的概念記述' 人工知能学会誌 第21巻 第6号, 20061101, p.691-698, 社団法人人工知能学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041208A (ja) * | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | グラフ変換装置、方法、及びプログラム |
JP2021531536A (ja) * | 2018-06-29 | 2021-11-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 質問および回答の語彙のグラフを使用する照会拡張 |
JP7406873B2 (ja) | 2018-06-29 | 2023-12-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 質問および回答の語彙のグラフを使用する照会拡張 |
JP7546664B2 (ja) | 2019-10-07 | 2024-09-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 分散知識ベースのためのオントロジーに基づくデータ・ストレージ |
US12086181B2 (en) | 2020-01-10 | 2024-09-10 | Semiconductor Energy Laboratory Co., Ltd. | Document retrieval system and method for retrieving document |
Also Published As
Publication number | Publication date |
---|---|
CN102915304A (zh) | 2013-02-06 |
JP5497105B2 (ja) | 2014-05-21 |
CN102915304B (zh) | 2016-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5497105B2 (ja) | 文書検索装置および方法 | |
Liu et al. | Meta-path-based ranking with pseudo relevance feedback on heterogeneous graph for citation recommendation | |
KR101192439B1 (ko) | 디지털 콘텐츠 검색 장치 및 방법 | |
US8321424B2 (en) | Bipartite graph reinforcement modeling to annotate web images | |
Phan et al. | Pair-linking for collective entity disambiguation: Two could be better than all | |
JP5699789B2 (ja) | 情報処理装置、情報処理方法、プログラム及び情報処理システム | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
JP7232831B2 (ja) | 複雑な回答の補強証拠取り出し | |
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
Kaptein et al. | Exploiting the category structure of Wikipedia for entity ranking | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Haribabu et al. | A novel approach for ontology focused inter-domain personalized search based on semantic set expansion | |
US10467256B2 (en) | Automatic query pattern generation | |
Jotheeswaran et al. | OPINION MINING USING DECISION TREE BASED FEATURE SELECTION THROUGH MANHATTAN HIERARCHICAL CLUSTER MEASURE. | |
Chen et al. | BibPro: A citation parser based on sequence alignment | |
US20140101162A1 (en) | Method and system for recommending semantic annotations | |
JP6145562B2 (ja) | 情報構造化システム及び情報構造化方法 | |
JP5486667B2 (ja) | クエリ結果を多様化するための方法および装置 | |
JP5362807B2 (ja) | ドキュメントランク付け方法および装置 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
Chakraborti et al. | Product news summarization for competitor intelligence using topic identification and artificial bee colony optimization | |
Gupta et al. | Page ranking algorithms in online digital libraries: A survey | |
Noraset et al. | WebSAIL wikifier at ERD 2014 | |
Rei et al. | Parser lexicalisation through self-learning | |
Reddy et al. | Cross lingual information retrieval using search engine and data mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131008 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131015 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5497105 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |