JP2008123526A - 情報検索方法及び装置 - Google Patents

情報検索方法及び装置 Download PDF

Info

Publication number
JP2008123526A
JP2008123526A JP2007294933A JP2007294933A JP2008123526A JP 2008123526 A JP2008123526 A JP 2008123526A JP 2007294933 A JP2007294933 A JP 2007294933A JP 2007294933 A JP2007294933 A JP 2007294933A JP 2008123526 A JP2008123526 A JP 2008123526A
Authority
JP
Japan
Prior art keywords
document
field
entity candidate
entity
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007294933A
Other languages
English (en)
Inventor
You Ganmei
ガンメイ ユ
Gang Li
ガン リ
Lu Yaojie
ヤオジエ ル
Yin Yueyan
ユエイェン イン
Zheng Jichuan
ジチャン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2008123526A publication Critical patent/JP2008123526A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】各文書がNフィールドに分割されたデジタル文書集合において目標情報を検索する方法及び装置を提供する。
【解決手段】各目標情報候補に対して、それに関連するすべてのフィールド文書を選択して該目標情報候補フィールド文書を構成する。そして、各目標情報候補に対して、関連するすべてのフィールド文書を動的選択して目標情報候補のフィールド関連文書を構成する。その後、キーワードリスト及び目標情報候補フィールド文書集合に基づいて、目標情報候補フィールド文書集合における各目標情報候補フィールド文書値を計算する。最後に、目標情報候補フィールド文書値を合計して目標情報候補文書値を得、目標情報候補文書値に基づく、目標情報を選択するステップとを備える。
【選択図】図3

Description

本発明は、文書集合から目標情報を検索する方法及び装置に関するものである。
情報技術及びインターネットの発展につれて、ネットワーク情報が幾何級数の勢いで拡大しつつある。情報取得する主な方法として、情報検索技術も絶え間なく進歩している。情報検索に対する要求も、ユーザーの検索に応じてデジタル文書から関連文書を検索するだけに留まるではない。企業及び情報分野では、常にデジタル文書に隠された情報の検索を求める。例えば、文書集合から所定の分野を研究する専門家または指定の項目を経営する会社などを検索する。しかし、従来の情報検索システムによってこのような問題を解決できないまたはうまく解決できない。
本発明は、上記に鑑みてなされたものであって、デジタル文書情報を有効に利用し、目標情報を検索する時に、目標情報に関する文書の集合を選択することで、目標情報の検索精度を向上させる方法及び装置を提供することを目的とする。
上述した課題を解決し、目的を達成するために、前記課題を解決するための手段の特徴を以下に挙げる。
本発明は各文書がNフィールドに分割されたデジタル文書集合において、そのうちのMフィールド(N≧1、N≧M≧1)に対して目標エンティティを検索する検索方法において、(a)各フィールドデジタル文書集合および各エンティティ候補に対して、既知である各文書とすべてのエンティティ候補との関係に基づいて、該エンティティ候補に関連するすべてのフィールドデジタル文書を選択し、これらのフィールドデジタル文書によって該エンティティ候補フィールド文書を構成して、各フィールドでのすべてのエンティティ候補フィールド文書によって該フィールドに対応するエンティティ候補フィールド文書集合を形成するステップと、(b)ユーザーが入力した検索により、一つ以上のキーワードを包含するキーワードリストを抽出して現在のキーワードリストとするステップと、(c)一つのフィールドを選択して現在のフィールドとし、キーワードリストに基づいて、現在のフィールドデジタル文書集合を検索して、フィールド関連文書集合を得るステップと、(d)各エンティティ候補に対して、該エンティティ候補に関連するフィールド文書を動的選択し、これらの選択されたフィールド関連文書の集合を前記エンティティ候補のフィールド関連文書を構成し、すべてのエンティティ候補のフィールド関連文書でエンティティ候補フィールド関連文書集合を形成するステップと、(e)キーワードリストとエンティティ候補フィールド関連文書集合に基づいて、エンティティ候補文書集合における各エンティティ候補フィールド文書値を計算するステップと、(f)既知であるMフィールドにおいて、計算されないフィールドがあると、そのうちの一つを現在のフィールドとし、ステップ(c)、(d)、(e)、(f)を行い、また、計算されないフィールドがないと、各エンティティ候補についてそれが対応するすべてのフィールドのエンティティ候補フィールド文書値を合計して、エンティティ候補文書値を得るステップと、(g)エンティティ候補文書値に基づいて、目標エンティティを選択するステップとを備える検索方法を提供する。
また、本発明は各文書がNフィールドに分割されたデジタル文書集合において、そのうちのMフィールド(N≧1、N≧M≧1)に対して目標エンティティを検索する検索装置において、各フィールドデジタル文書集合および各エンティティ候補に対して、既知である各文書とすべてのエンティティ候補との関係に基づいて、該エンティティ候補に関連するすべてのフィールドデジタル文書を選択し、これらの選択されたフィールドデジタル文書によって該エンティティ候補フィールド文書を構成し、各フィールドのすべてのエンティティ候補フィールド文書によって該フィールドのエンティティ候補フィールド文書集合を形成するエンティティ候補フィールド文書集合生成手段と、ユーザーが入力した検索により、一つ以上のキーワードを包含するキーワードリストを抽出して現在のキーワードリストとするキーワード抽出手段と、現在のフィールドとして一つのフィールドを選択し、キーワードリストに基づいて現在のフィールドデジタル文書集合を検索して、フィールド関連文書集合を得る関連文書検索手段と、各エンティティ候補に対して、該エンティティ候補に関連するフィールド文書を動的選択し、これらの選択したフィールド関連文書の集合によって前記エンティティ候補のフィールド関連文書を構成し、すべてのエンティティ候補のフィールド関連文書によってエンティティ候補フィールド関連文書集合を形成するエンティティ候補フィールド関連文書集合生成手段と、キーワードリストとエンティティ候補フィールド関連文書集合に基づいて、エンティティ候補文書集合における各エンティティ候補フィールド文書値を計算する各エンティティ候補フィールド文書値計算手段と、各エンティティ候補についてその対応するすべてのフィールドのエンティティ候補フィールド文書値を合計するエンティティ候補文書値合計手段と、エンティティ候補文書値に基づいて、目標エンティティを選択するエンティティ候補選択手段とを備えることを特徴とする検索装置を提供する。
本発明における検索方法及び装置によれば、情報検索精度を有効に向上させて、文書情報と文書及び目標情報候補の関係を有効に利用することで、相対的正確なユーザー検索に関連する目標情報候補を算出できる。また、本発明は、検索精度を有効に向上することができる。
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本発明の実施例に係る検索装置のブロック図である。図1に示すように、各文書がNフィールドに分割されたデジタル文書集合において、ユーザーが必要に応じて検索しようとするフィールドの数をMに設定し、該Mフィールドに対して目標情報を検索する装置である。すなわち、デジタル文書集合における各文書がNフィールドに分割されても、ユーザーがそのうちのMフィールドに対して目標情報を検索することができる。該装置には、現在のフィールドデジタル文書集合から現在の目標情報候補に関連するすべての文書を選択し、これらの文書で目標情報候補フィールド文書を構成してから、目標情報候補フィールド文書を集めて目標情報候補フィールド文書集合を形成する目標情報候補フィールド文書集合生成手段101と、ユーザーにより入力された検索に基づいて、一つ以上のキーワードを包含するキーワードリストを抽出して現在のキーワードリストとするキーワード抽出手段102と、キーワードリストに基づいて関連文書を検索する関連文書検索手段103と、フィールド関連文書集合から現在の目標情報候補の関連文書を動的選択(dynamically select)し、これらの選択された関連文書で現在の目標情報候補フィールド関連文書集合を構成する目標情報候補フィールド文書生成手段104と、キーワードリストと目標情報候補フィールド関連文書に基づいて、目標情報候補フィールド文書集合における各目標情報候補文書値を計算する目標情報候補文書値計算手段105と、現在の目標情報候補に対応するすべての目標情報候補文書値を合計する目標情報候補文書値合計手段106と、目標情報候補文書値により目標情報を選択する目標情報候補選択手段107とを備えている。第一のフィールドから第Mのフィールドまでに基づく目標情報候補文書値を算出する過程において、該Mフィールドに計算されないフィールドがあると、それらのうちの一つを現在のフィールドとし、該現在のフィールドに対して、前記関連文書検索手段103と目標情報候補フィールド関連文書生成手段104、及び目標情報候補文書値算出手段105によって前記操作を実行する。また、該Mフィールドに計算されないフィールドがないと、現在のフィールドに対して、前記目標情報候補文書値合計手段106と目標情報候補選択手段107によって前記操作を実行する。該検索装置では、デジタル文書と目標情報候補の関係に基づいて目標情報候補フィールド文書集合を生成し、動的選択された関連文書により目標情報候補文書値を算出して目標情報を得る方法を利用することで、検索精度を有効に向上させる。
図1は最良な実施の形態としてこの発明を説明するだけで、本発明を限定するものではない。例えば、本発明の検索装置が以下の主な効果があることは本分野の技術者にとって明らかである。すなわち、デジタル文書と目標情報候補の関係を利用して目標情報候補フィールド文書集合を得って、また、動的選択された関連文書に基づいて目標情報候補フィールド文書値を計算し、目標情報を得ることで、検索精度を有効に向上させる。前記キーワードは、一つの単語または一つの語句である。フィールドはデジタル文書のタイトル、見出し、要約、もとのデータおよび文書における項目位置と隣接のデータを含める。
また、システムを広範囲で利用できるように、本発明の検索装置におけるフィールドデジタル文書集合は、フィールドに分割されないデジタル文書集合も含める。
また、本発明の検索装置において、前記手段104の動的選択は、最も関連するKフィールド関連文書集合から選択された現在の目標目標情報候補に関連するすべてのフィールド関連文書を含めるとともに、フィールド関連文書集合から選択された現在の目標情報候補に最も関連するLフィールド関連文書も含める。K≧1、L≧1。前記装置105の前記計算方式は、検索語句に基づく文書の長さを算出する方式を含める。すなわち、目標情報候補フィールド関連文書の長さ。検索文書の長さに基づく計算方式は、BM25方式の変形(variation of BM25 method)、またはDFR_BM25方式の変形(variation of DFR_BM25 method)、または語句方式の変形(variation of phrase method)、またはBM25方式の変形と語句方式の変形との結合方式、またはDFR_BM25方式の変形と語句方式の変形との結合方式を含める。BM25方式の変形方式は、検索語句に基づく文書の長さをBM25公式における文書の長さとする。DFR_BM25方式の変形は、検索語句に基づく文書の長さをDFR_BM25公式における文書の長さとする。語句方式の変形は、BM25語句方式の変形(variation of BM25 phrase method)とDFR_BM25語句方式の変形(variation of DFR_BM25 phrase method)とを含む。BM25語句方式の変形は、語句に対してBM25語句公式の変形式を応用する。すなわち、BM25公式の変形式と該語句の長さの掛け算をDFR_BM25語句公式の変形式とする。前記結合方式は各方式によって得られた文書値の線形結合。前記手段106の合計は線形結合を含む。手段107の選択は、最も大きいT目標情報候補文書値に対応するT目標情報候補を選択して目標情報とする。T≧1。
図2は本発明の検索方法のフローチャートである。図2に示すように、各文書がNフィールドに分割されたデジタル文書集合において、そのうちのMフィールドに対する検索方法。N≧1、N≧M≧1。フィールドデジタル文書は、一つのデジタル文書に対応する一つのフィールド文書部分で、各文書とすべての目標情報候補との関係が知られた。まず、各フィールドデジタル文書集合に対し、各目標情報候補に対して、知られた各文書とすべての目標情報候補との関係に基づいて、該目標情報候補に関連するすべてのフィールドデジタル文書を選択し、これらのフィールドデジタル文書で該目標情報候補フィールド文書を構成し、各フィールドにあるすべての目標情報候補フィールド文書で該フィールドに対応する目標情報候補フィールド文書集合を形成する(S201)。ユーザーの入力から、一つ以上のキーワードを包含するキーワードリストを抽出して現在のキーワードリストとする(S202)。キーワードリストにより現在のフィールドデジタル文書集合を検索して、フィールド関連文書を得る(S203)。各目標情報候補に対して、該目標情報候補に関連するフィールド文書を動的選択し、これらの選ばれたフィールド関連文書で目標情報候補フィールド関連文書を構成して、すべての目標情報候補フィールド関連文書で目標情報候補関連文書集合を形成する(S204)。キーワードリストと目標情報候補フィールド関連文書集合に基づいて、目標情報候補フィールド関連文書集合における各目標情報候補フィールド文書値を計算する(S205)。既知であるMフィールドにおいて、計算されないフィールドがあるかどうかを判断する(S206)。既知のMフィールドにおいて、計算されないフィールドがあると、そのうちの一つを現在のフィールドとし(S207)、S203、S204、S205、S206を行う。また、既知であるMフィールドにおいて、計算されないフィールドがないと、各目標情報候補に対して、その対応するすべてのフィールドの目標情報候補フィールド文書値を合計して、目標情報候補文書値を得る(S208)。目標情報候補文書値に基づいて目標情報を選択する(S209)。
図2は最良な実施の形態としてこの発明を説明するだけで、本発明を限定するものではない。例えば、本発明の検索装置が以下の主な効果があることは本分野の技術者にとって明らかである。すなわち、デジタル文書と目標情報候補の関係を利用して目標情報候補フィールド文書集合を得って、また、動的選択された関連文書に基づいて目標情報候補フィールド文書値を計算し、目標情報を得ることで、検索精度を有効に向上させる。前記キーワードは、一つの単語または一つの語句である。フィールドはデジタル文書のタイトル、見出し、要約、もとのデータおよび文書における項目位置と隣接のデータを含める。
また、システムを広範囲で利用できるように、本発明の検索装置におけるフィールドデジタル文書集合は、フィールドに分割されないデジタル文書集合も含める。
また、本発明の検索装置において、前記ステップS204の動的選択は、最も関連するKフィールド関連文書集合から選択された現在の目標情報候補に関連するすべてのフィールド関連文書を含めるとともに、フィールド関連文書集合から選択された現在の目標情報候補に最も関連するLフィールド関連文書も含める。K≧1、L≧1。前記ステップ205の前記計算方法は、検索に基づく文書の長さを利用する計算方法を含める。すなわち、目標情報候補フィールド関連文書の長さ。検索に基づく文書の長さに計算方法は、BM25方式の変形、またはDFR_BM25方式の変形、または語句方式の変形、またはBM25方式の変形と語句方式の変形との結合方式、またはDFR_BM25方式の変形と語句方式の変形との結合方式を含める。BM25方式の変形は、検索語句に基づく文書の長さをBM25公式における文書の長さとする。DFR_BM25方式の変形は検索語句に基づく文書の長さをDFR_BM25公式における文書の長さとする。BM25語句方式の変形は、語句に対してBM25語句公式の変形式を応用する。すなわち、BM25公式の変形式と該語句の長さの掛け算をDFR_BM25語句公式の変形式とする。前記結合方式は各方式によって得られた文書値の線形結合。前記手段106の合計は線形結合を含む。手段107の選択は、最も大きいT目標情報候補文書値に基づくT目標情報候補を選択して目標情報とする。T≧1。
図3は本発明の検索方法を説明するフローチャートである。
まず、フィールドデジタル文書集合、目標情報候補集合および文書と目標情報候補との関係集合に基づいて、各目標情報候補に関連するフィールドデジタル文書を選択して、目標情報候補フィールド文書集合を生成する(S301)。ユーザーが検索対象が含まれた記述Qを入力し、本願の検索装置のキーワード抽出手段はその記述から単語を抽出し、キーワードリストT(t1、t2、...)を得る(S302)。該キーワードリストTを用い、検索装置は、文書集合D(d1、d2、...)における各文書(d1、d2、...)のフィールド1からなるフィールド文書集合F1D(f1d1、f1d2、...)に対して検索を行い、フィールドF1Dにおける関連文書集合R1D(r1d1、r1d2、...)を得る(S303)。本願の検索装置が文書と目標情報候補関係集合に基づいて、フィールド1にある関連文書集合における各目標情報候補に関連するフィールド1文書を動的選択して、フィールド1上の目標情報候補の関連文書集合RE1を得る(S304)。フィールド1上のキーワードTと目標情報候補の関連文書集合RE1に基づいて、目標情報候補フィールド文書値を計算する(S305)。フィールド2に対して、S303、304、305を繰り返し行い、フィールド2上の目標情報候補の目標情報候補フィールド文書値を得る。次のフィールドの文書値を計算して、ユーザーにより選択されたすべてのフィールドに対して計算を行う。そして、各フィールド上の目標情報候補フィールド文書値を加算し、目標情報候補文書値を得る(S306)。目標情報候補文書値に基づいて、n個の目標情報候補文書値に対応する目標情報候補を選択して目標情報として出力する(S307)。
次に、具体例を用いて本発明の装置及び方法を説明する。
例えば、あるウェブサイト(例えばwww.w3.org)のホームページの集合にコンピュータ専門家及びその研究分野に関する情報が含まれているとし、また、ユーザーはそのホームページ集合から所定分野の専門家の情報を検索しようとする。ここで、文書集合D(d1、d2、...)は該ウェブサイトのホームページの集合となる。各ホームページに複数のフィールド、例えばホームページのタイトル、要約、サブタイトル、キーワード、本文などが含まれている。よって、文書集合D(d1、d2、...)をF1Dタイトル文書集合、F2D要約文書集合などのフィールド文書集合で細分することができる。具体的に、タイトル文書集合F1D:(f1d1、f1d2、...)において、f1d1はホームページ1(文書d1)のフィールド1(f1、即ちタイトル)のデータ、f1d2はホームページ2(文書d2)のフィールド1(f1、即ちタイトル)のデータであり、要約文書集合F2D:(f2d1、f2d2、...)において、f2d1はホームページ1(文書d1)のフィールド2(f2、即ち要約)のデータ、f2d2はホームページ2(文書d2)のフィールド2(f2、即ち要約)のデータである。
検索候補の集合EX(ex1、ex2、...)はすべての専門家のリストからなる。ユーザーは文書集合D及び各フィールド文書集合から、所定研究領域の専門家を検索する。そのため、各ホームページで現れた専門家の情報から文書(各ホームページ)と検索項目(所定研究領域の専門家)との対応関係の集合を作成する。
以下、本発明の方法による検索の動作を具体的に説明する。
まず、作成したホームページと専門家の関係集合に基づき、各フィールドに対して、専門家ごとに、当該専門家の現れたすべてのホームページを併合し、専門家ごとのフィールド集合が得られる。例えば、専門家1(タイトル集合、要約集合、...)、専門家2(タイトル集合、要約集合、...)、。。。が得られる。
次に、ユーザーがサーチ欄に入力した記述から、単語抽出モジュールによりキーワードリストT(t1、t2、...)を抽出する。
所定の専門家について、本願の検索装置は当該キーワードリストを用い、第一のフィールドであるタイトルフィールドの集合を検索し、関連性のあるタイトル集合(即ち、関連タイトル集合)を得る。同様に、全ての専門家について、専門家毎関連タイトル集合が得られる。
各専門家のタイトル集合と各専門家の関連タイトル集合に基づき、所定の検索方法(例えば、V−BM25方法)で各専門家のタイトルフィールド文書値を計算する。V−BM25方法は、専門家のタイトルフィールドの関連文書の合計長さをBM25公式における文書の長さとする。
以上のように繰り返して、各専門家の他のフィールドでのフィールド文書値を計算する。
そして、各専門家の各フィールドでのフィールド文書値を重み付けて加算し、各専門家の文書値を得る。ここで、例えば、タイトル、サブタイトルなど重要なフィールドのウェイトを大きくする。そして、文書値を大きい順に並べ、最初のn個の文書値に対応する専門家を検査結果として返す。
以上の実施例は、本発明を説明するために用いられたものであり、本発明を制限するものではない。本発明を逸脱しない範囲内で当業者が本発明に加えた如何なる変更、改変、修正は、本発明の範囲に属する。
本発明の実施例における検索装置のブロック図である。 本発明の検索方法のフローチャートである。 本発明の検索方法を説明するフローチャートである。
符号の説明
101 目標情報候補フィールド文書集合生成手段
102 キーワード抽出手段
103 関連文書検索手段
104 目標情報候補フィールド文書生成手段
105 目標情報候補文書値計算手段
106 目標情報候補文書値合計手段
107 目標情報候補選択手段

Claims (34)

  1. 各文書がNフィールドに分割されたデジタル文書集合において、そのうちのMフィールド(N≧1、N≧M≧1)に対して目標エンティティを検索する検索方法であって、
    (a)各フィールドデジタル文書集合および各エンティティ候補に対して、該エンティティ候補に関連するすべてのフィールドデジタル文書を選択し、これらのフィールドデジタル文書で該エンティティ候補のエンティティ候補フィールド文書を構成し、各フィールドでのすべてのエンティティ候補フィールド文書で該フィールドに対応するエンティティ候補フィールド文書集合を形成するステップと、
    (b)ユーザー入力により、一つ以上のキーワードを包含するキーワードリストを抽出し現在のキーワードリストとするステップと、
    (c)一つのフィールドを選択し現在のフィールドとし、前記キーワードリストに基づいて、前記現在のフィールドデジタル文書集合を検索し、フィールド関連文書集合を得るステップと、
    (d)前記各エンティティ候補に対して、該エンティティ候補に関連するフィールド文書を動的選択し、当該選択されたフィールド関連文書の集合を前記エンティティ候補のフィールド関連文書を構成し、すべての前記エンティティ候補のフィールド関連文書でエンティティ候補フィールド関連文書集合を形成するステップと、
    (e)前記キーワードリストと前記エンティティ候補フィールド関連文書集合に基づいて、前記エンティティ候補文書集合における各エンティティ候補フィールド文書値を計算するステップと、
    (f)前記M個のフィールドについて、各エンティティ候補の対応するすべてのフィールドのエンティティ候補フィールド文書値を合計し、エンティティ候補文書値を得るステップと、
    (g)前記エンティティ候補文書値に基づいて、前記目標エンティティを選択するステップとを備えることを特徴とする検索方法。
  2. 前記フィールドは、デジタル文書のタイトル、標題、要約、本文のデータ、文書におけるエンティティの位置のデータを含むことを特徴とする請求項1に記載の検索方法。
  3. 前記フィールド文書集合は、フィールドに分割されないデジタル文書集合を含むことを特徴とする請求項1に記載の検索方法。
  4. 前記キーワードは、一つの単語または一つの文であることを特徴とする請求項1に記載の検索方法。
  5. 前記ステップ(d)における動的選択は、最も関連するKフィールド関連文書から現在のエンティティ候補に関連するすべてのフィールド関連文書を選択し、K≧1であることを特徴とする請求項1に記載の検索方法。
  6. 前記ステップ(d)における動的選択は、最も関連するLフィールド関連文書から現在のエンティティ候補に関連するすべてのフィールド関連文書を選択し、L≧1であることを特徴とする請求項1に記載の検索方法。
  7. 前記ステップ(e)における計算は、ユーザー入力の文書の長さを利用する方法を含むことを特徴とする請求項1に記載の検索方法。
  8. 前記ユーザー入力の文書の長さは、前記エンティティ候補フィールド関連文書の長さとすることを特徴とする請求項7に記載の検索方法。
  9. 前記ユーザー入力の文書の長さを利用する方法は、BM25方式の変形、またはDFR_BM25方式の変形、または語句方式の変形、またはBM25方式の変形と語句方式の変形との結合方式、またはDFR_BM25方式の変形と語句方式の変形との結合方式を含むことを特徴とする請求項7に記載の検索方法。
  10. 前記BM25方式の変形は、検索語句に基づく文書の長さをBM25公式における文書の長さとすることを特徴とする請求項9に記載の検索方法。
  11. 前記DFR_BM25方式の変形は、検索語句に基づく文書の長さをDFR_BM25公式における文書の長さとすることを特徴とする請求項9に記載の検索方法。
  12. 前記語句方式の変形は、BM25語句方式の変形とDFR_BM25語句方式の変形とを含むことを特徴とする請求項9に記載の検索方法。
  13. 前記BM25語句方式の変形は、BM25公式の変形式と該語句の長さとの掛け算をBM25語句公式の変形式とすることを特徴とする請求項12に記載の検索方法。
  14. 前記DFR_BM25語句方式の変形は、DFR_BM25公式の変形式と該語句の長さとの掛け算をDFR_BM25語句公式の変形式とすることを特徴とする請求項12に記載の検索方法。
  15. 前記結合方式は、各方式によって得られた文書値の線形結合を含むことを特徴とする請求項9に記載の検索方法。
  16. 前記ステップ(f)における合計は線形結合を含むことを特徴とする請求項1に記載の検索方法。
  17. 前記ステップ(g)における選択は、最も大きいTエンティティ候補文書値が対応するTエンティティ候補を選択して目標エンティティとし、T≧1であることを特徴とする請求項1に記載の検索方法。
  18. 各文書がNフィールドに分割されたデジタル文書集合において、そのうちのMフィールド(N≧1、N≧M≧1)に対して目標エンティティを検索する検索装置であって、
    各フィールドデジタル文書集合および各エンティティ候補に対して、該エンティティ候補に関連するすべてのフィールドデジタル文書を選択し、これらの選択されたフィールドデジタル文書で該エンティティ候補のエンティティ候補フィールド文書を構成し、各フィールドのすべてのエンティティ候補フィールド文書で該フィールドのエンティティ候補フィールド文書集合を形成するエンティティ候補フィールド文書集合生成手段と、
    ユーザー入力により、一つ以上のキーワードを包含するキーワードリストを抽出し現在のキーワードリストとするキーワード抽出手段と、
    現在のフィールドとして一つのフィールドを選択し、前記キーワードリストに基づいて現在のフィールドデジタル文書集合を検索し、フィールド関連文書集合を得る関連文書検索手段と、
    前記各エンティティ候補に対して、該エンティティ候補に関連するフィールド文書を動的選択し、当該選択したフィールド関連文書の集合で前記エンティティ候補のフィールド関連文書を構成し、すべての前記エンティティ候補のフィールド関連文書でエンティティ候補フィールド関連文書集合を形成するエンティティ候補フィールド関連文書集合生成手段と、
    前記キーワードリストと前記エンティティ候補フィールド関連文書集合に基づいて、前記エンティティ候補文書集合における各エンティティ候補フィールド文書値を計算する各エンティティ候補フィールド文書値計算手段と、
    前記各エンティティ候補について、対応するすべての前記フィールドのエンティティ候補フィールド文書値を合計するエンティティ候補文書値合計手段と、
    前記エンティティ候補文書値に基づいて、前記目標エンティティを選択するエンティティ候補選択手段とを備えることを特徴とする検索装置。
  19. 前記フィールドは、デジタル文書のタイトル、標題、要約、本文データ、文書におけるエンティティの位置のデータを含むことを特徴とする請求項18に記載の検索装置。
  20. 前記フィールド文書集合は、フィールドに分割されないデジタル文書集合を含むことを特徴とする請求項18に記載の検索装置。
  21. 前記キーワードは、一つの単語または一つの文であることを特徴とする請求項1に記載の検索装置。
  22. 前記フィールド関連文書集合から現在のエンティティ候補に関連する文書は、最も関連するKフィールド関連文書から現在のエンティティ候補に関連するすべてのフィールド関連文書を選択し、K≧1であることを特徴とする請求項18に記載の検索装置。
  23. 前記フィールド関連文書集合から現在のエンティティ候補に関連する文書は、最も関連するLフィールド関連文書から現在のエンティティ候補に関連するすべてのフィールド関連文書を選択し、L≧1であることを特徴とする請求項18に記載の検索装置。
  24. 前記エンティティ候補文書値計算手段の計算方式は、前記ユーザー入力の文書の長さを利用する方式を含むことを特徴とする請求項18に記載の検索装置。
  25. 前記ユーザー入力の文書の長さは、前記エンティティ候補フィールド関連文書の長さとすることを特徴とする請求項24に記載の検索装置。
  26. 前記ユーザー入力の文書の長さを利用する方式は、BM25方式の変形、またはDFR_BM25方式の変形、または語句方式の変形、またはBM25方式の変形と語句方式の変形との結合方式、またはDFR_BM25方式の変形と語句方式の変形との結合方式を含むことを特徴とする請求項25に記載の検索装置。
  27. 前記BM25方式の変形は、検索語句に基づく文書の長さをBM25公式における文書の長さとするものであることを特徴とする請求項26に記載の検索装置。
  28. 前記DFR_BM25方式の変形は、検索語句に基づく文書の長さをDFR_BM25公式における文書の長さとするものであることを特徴とする請求項26に記載の検索装置。
  29. 前記語句方式の変形は、BM25語句方式の変形とDFR_BM25語句方式の変形とを含むことを特徴とする請求項26に記載の検索方法。
  30. 前記BM25語句方式の変形は、BM25公式の変形式と該語句の長さとの掛け算をBM25語句公式の変形式とすることを特徴とする請求項29に記載の検索装置。
  31. 前記DFR_BM25語句方式の変形は、DFR_BM25公式の変形式と該語句の長さとの掛け算をDFR_BM25語句公式の変形式とすることを特徴とする請求項29に記載の検索装置。
  32. 前記結合方式は、各方式によって得られた文書値の線形結合を含むことを特徴とする請求項26に記載の検索装置。
  33. 前記エンティティ候補合計手段は、エンティティ候補文書値の線形結合を用い、エンティティ候補フィールド文書値を合計することを特徴とする請求項18に記載の検索装置。
  34. 前記エンティティ候補選択手段は、最も大きいTエンティティ候補文書値が対応するTエンティティ候補を選択して目標エンティティとし、T≧1であることを特徴とする請求項18に記載の検索装置。
JP2007294933A 2006-11-14 2007-11-13 情報検索方法及び装置 Pending JP2008123526A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610144799A CN100585594C (zh) 2006-11-14 2006-11-14 基于文档和实体关系搜索目标实体的方法和装置

Publications (1)

Publication Number Publication Date
JP2008123526A true JP2008123526A (ja) 2008-05-29

Family

ID=39370406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007294933A Pending JP2008123526A (ja) 2006-11-14 2007-11-13 情報検索方法及び装置

Country Status (3)

Country Link
US (1) US20080114742A1 (ja)
JP (1) JP2008123526A (ja)
CN (1) CN100585594C (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207936B (zh) * 2010-03-30 2013-10-23 国际商业机器公司 用于提示电子文档内容变更的方法和系统
US20130036076A1 (en) * 2010-04-14 2013-02-07 Hewlett-Packard Development Company, L.P. Method for keyword extraction
CN102375806B (zh) * 2010-08-23 2014-05-07 北大方正集团有限公司 一种文档标题提取方法和装置
CN106934002B (zh) * 2017-03-06 2020-07-07 冠生园(集团)有限公司 一种搜索关键字数字化解析方法和引擎
CN107391535B (zh) * 2017-04-20 2021-01-12 创新先进技术有限公司 在文档应用中搜索文档的方法及装置
US11080317B2 (en) * 2019-07-09 2021-08-03 International Business Machines Corporation Context-aware sentence compression

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112898A1 (en) * 2005-11-15 2007-05-17 Clairvoyance Corporation Methods and apparatus for probe-based clustering

Also Published As

Publication number Publication date
US20080114742A1 (en) 2008-05-15
CN100585594C (zh) 2010-01-27
CN101183362A (zh) 2008-05-21

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
JP5116775B2 (ja) 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
Arguello Aggregated search
CN105373546B (zh) 一种用于知识服务的信息处理方法及系统
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
JP2008123526A (ja) 情報検索方法及び装置
KR101668725B1 (ko) 잠재 키워드 생성 방법 및 장치
JP5952711B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
Renjit et al. CUSAT NLP@ AILA-FIRE2019: Similarity in Legal Texts using Document Level Embeddings.
JP2006318398A (ja) ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体
Kang et al. A hybrid approach for paper recommendation
JP5497105B2 (ja) 文書検索装置および方法
Gupta et al. Text analysis and information retrieval of text data
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
JP2007334590A (ja) 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
Ren et al. Role-explicit query extraction and utilization for quantifying user intents
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
JP5199968B2 (ja) キーワードタイプ判定装置、キーワードタイプ判定方法およびキーワードタイプ判定プログラム
TWI746527B (zh) 資料推薦的處理互動方法、裝置及系統
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP2008276561A (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
Benna et al. Building a social network, based on collaborative tagging, to enhance social information retrieval