JP2009223890A - 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 - Google Patents

再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 Download PDF

Info

Publication number
JP2009223890A
JP2009223890A JP2009058448A JP2009058448A JP2009223890A JP 2009223890 A JP2009223890 A JP 2009223890A JP 2009058448 A JP2009058448 A JP 2009058448A JP 2009058448 A JP2009058448 A JP 2009058448A JP 2009223890 A JP2009223890 A JP 2009223890A
Authority
JP
Japan
Prior art keywords
term
question
terms
additional
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009058448A
Other languages
English (en)
Inventor
Kyu Young Whang
ヨン ファン,キュ
Yi Reun Kim
イ ルン キム,
Jun Seok Heo
ソク ホー,ジュン
Jung Hoon Lee
フン リー,ジュン
Tuan Quang Nguyen
クアン グイェン,ツアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of JP2009223890A publication Critical patent/JP2009223890A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な、追加用語を用いた質疑拡張方法の提供。
【解決手段】 質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張する質疑拡張過程と、前記質疑拡張過程で結合語として追加された用語を質疑に追加する質疑追加過程と、拡張された質疑内のそれぞれの用語に対して加重値を設定する加重値設定過程とを含む、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
【選択図】 図2

Description

本発明は、質疑拡張方法に係り、さらに詳しくは、ユーザの質疑に関連した新規用語を追加して質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現率(recall)を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることが可能な、追加用語を用いた質疑拡張方法に関する。
インターネット上のデータ量が増加するにつれて、データから情報を検索するための手段として検索エンジン(search engine)が広く用いられる[非特許文献1参照]。検索エンジンは、ユーザから用語の組み合わせを質疑(query)として受信した後、質疑に関連した文書(relevant documents)を検索結果として返還する。検索エンジンの効率性は、検索された文書における関連文書の占有比率を示す正確度、および関連文書に対する検索された関連文書の占有比率を示す再現率で評価される[非特許文献1]。
一般的な情報検索(information retrieval:IR)システムの語彙力(vocabulary)がユーザの語彙力とは異なるので、ユーザの意図を完璧に表現する質疑を作ることは容易ではなく、質疑に用いられた用語が、検索エンジンに格納された文書で用いられた用語と合致しないこともある[非特許文献3]。
その一例として、情報検索システムにおいて「車」と「自動車」を含む文書は「車」と関連している。この際、ユーザは「車」に関連した文書を検索したがる。ユーザの質疑に「車」という一つの用語が含まれる場合、検索エンジンは「車」を含む文書のみを返還する。
すなわち、情報検索システムはユーザの意図による関連文書を全て見せなくなり、このような不合致問題(mismatch problem)[非特許文献3]は一般に検索エンジンの正確度および再現率を低下させる。
一方、以下では本発明の背景技術である拡張ブールモデルおよび関連研究について説明する。
1.拡張ブールモデル(Extended Boolean Model)
拡張ブールモデルは、ブールモデルの検索モデル(retrieval model)とベクター空間モデル(Vector Space Model)の等級化モデル(ranking model)とを組み合わせた情報検索モデルである[非特許文献2および5]。
ブールモデルにおいて、文書は用語の集合で表示され、質疑は3つの演算子、すなわちAND、ORおよびNOTによって連結された用語からなる。また、与えられた質疑に対して、質疑のブール表現を満足させる文書が検索される[非特許文献1]。
ベクター空間モデル[非特許文献6]において、文書と質疑は多次元ベクター空間内のベクターとして表示され、用語は多次元ベクター空間を形成する。文書および質疑において、それぞれの用語には実数値の加重値が与えられる。用語の加重値は「TF−IDF用語加重値技法(TF-IDF term weighting scheme)」[非特許文献1]によって計算される。TF−IDF用語加重値技法は、一つの文書によく現れ且つ文書コレクションの残りにはほぼ現れない用語にさらに多くの加重値を与える。文書は質疑に対する文書の類似度によって等級化される[非特許文献1]。類似度は、2つのベクター間の角のコサインである「コサイン類似度の測定(cosine similarity measure)」[非特許文献1]によって計算される。質疑
Figure 2009223890
に対する文書
Figure 2009223890
のコサイン類似度は式(1)で計算される。
Figure 2009223890
コサイン類似度測定の意味は、2つのベクター
Figure 2009223890

の内積(inner product)である。言い換えれば、類似度は文書内の質疑用語らの加重値の和である[非特許文献1]。
拡張ブールモデルは、ブールモデルとベクター空間モデルとの間に位置する情報検索モデルである[非特許文献5]。よって、拡張ブールモデルは、ブール質疑(Boolean query)と文書等級化を全て支援することができる。
図1は拡張ブールモデルに基づいた検索モデルに関するものである。拡張ブールモデルは、ブールモデルの検索モデルとベクター空間モデルの等級化モデルとを組み合わせたものである[非特許文献2および5]。したがって、ブール質疑を満足させる全ての文書が検索され、検査された文書は「コサン類似度の測定」によって等級化される[非特許文献1]。
A,qおよびWB,qがそれぞれ質疑内における用語AおよびBの加重値であると仮定し、WA,dおよびWB,dがそれぞれ文書内における用語AおよびBの加重値であると仮定しよう。2つの基本ケース(ANDおよびOR演算子)に対する質疑に対する文書の類似度は、式(2)に示すように、文書および質疑内における用語の加重値によって決定される。
Figure 2009223890
例1.表1は文書コレクションの情報を表示したものである。この例において、文書コレクションには2つの文書dおよびdがあり、dは2つの用語「揮発油」および「車」を含み、dは用語「揮発油」を含む。
Figure 2009223890
文書dにおける用語「揮発油」および「車」の加重値はそれぞれ0.4および0.3であり、文書dにおける用語「揮発油」の加重値は0.9である。2つの質疑qor=「車」または「揮発油」、およびqand=「車」および「揮発油」を考慮しよう。qorおよびqandにおける「揮発油」の加重値は0.7であり、qおよびqandにおける「車」の加重値は0.8であると仮定しよう。
orの場合、拡張ブールモデルはdおよびdを検索する。その理由はこれらの文書が質疑qorのブール表現を満足させるためである。qandの場合、拡張ブールモデルはdのみを検索する。類似度は式(3)および式(4)のように計算される。類似度(d、qor)が類似度(d、qor)より大きいため、qorの場合に文書dが文書dより高い等級を持つ。
Figure 2009223890
2.関連研究
本発明と関連のある質疑拡張方法について詳細に説明する。非特許文献2は、ドメイン適応的加重関連語集(Domain Adapted Weighted Thesaurus:DAWIT)を用いた質疑拡張(DAWIT方法とも呼ぶ)を提案した。DAWIT方法は、質疑を構成するそれぞれの用語に関連した、「関連用語」と指称される新規用語を追加することにより、質疑を拡張させる。DAWIT方法は、関連用語を発見するために関連語集(thesaurus)を使用する。
DAWIT方法は、次の3つの段階を経て質疑を拡張させる。まず、DAWIT方法は、関連語集を用いて質疑内のそれぞれの用語の関連用語を発見する。次いで、DAWIT方法は質疑内のそれぞれの用語を用語と関連用語の分節語(disjunctions)で代替する。最後に、DAWIT方法は、拡張された質疑のそれぞれの用語に新しい加重値を割り当てる。ところが、この方法はさらに多くの質疑用語を持つ文書が他の文書より高く等級化されることを保障しない。
非特許文献5は、関連性フィードバック(relevance feedback)を用いた質疑拡張を提案した。関連性フィードバックを用いた質疑拡張は、質疑拡張のために最近検査された文書から関連用語を選択し、質疑を拡張させるためにAND演算子を用いる。ところが、この方法は、さらに多くの質疑用語を持つ文書が、そうでない他の文書よりさらに高い等級を持つようにすることを保障せず、拡張された質疑には質疑の最初用語を含まない。
Baeza-Yates,R.and Ribeiro-Neto,B.,Modern InformationRetrieval,AddisonWesley,1999. Kwon,O.W.,Kim,M.C.,and Choi,K.S.,"Query Expansion Using Domain Adapted,Weighted Thesaurus in an Extended Boolean Model,"In Proc. 3rd Int'l Conf.on Information and Knowledge Management,pp.140-146,Gaithers-burg,Maryland,Nov.1994. Xu,J.and Croft,W.B.,"Improving the Effectiveness of Information Retrieval with Local Context Analysis,"ACM Transactions on Information Systems(TOIS),Vol.18,No.1,pp.79-112,Jan.2000. Salton,G.and Voorhees,E.,"A Comparison of Two Methods for Boolean Query Relevancy Feedback,"Information Processing & Management,Vol.20,No.5,pp.637-651,Sept.1984. Salton,G.,Fox,E.A.,and Wu,H.,"Extended Boolean Information Retrieval,"Communications of the ACM,Vol.26,No.12,pp.1022-1036,1983. Salton,G.and Lesk,M.E.,"Computer Evaluation of Indexing and Text Processing,"Journal of the ACM,Vol.15,No.1,pp.8-36,Jan.1968. Clarke,C.L.A.,Cormack,G.V.,and Tudhope,E.A.,"Relevance Ranking for One to Three Term Queries,"Information Processing & Management,Vol.36,No.2,pp.291-311,Mar.2000. Hiemstra,D.,"A Linguistically Motivated Probabilistic Model of Information Retrieval,"In Proc.2nd European Conference on Research and Advanced Technology for Digital Libraries(ECDL),pp.569-584,Crete,Greece,Sept.1998. Voorhees,E.M.and Harman,D.,"Overview of the Sixth Text Retrieval Conference(TREC-6),"In Proc.6th Text Retrieval Conference,pp.1-24,Gaithersburg,Maryland,Nov.19-21,1997. Chung,Y.M.and Lee,J.Y.,"Optimization of Some Factors Affecting the Performance of Query Expansion,''Information Processing & Management,Vol.40,No.6,pp.891-917,Nov.2004.
そこで、本発明は、上述した問題点に鑑みて案出されたもので、その目的とするところは、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な「追加用語を用いた質疑拡張方法」を提供することにある。
本発明の追加用語を用いた質疑拡張方法は、質疑モデルを定義する第1段階と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第2段階と、用語の結合語(conjunctions)として追加された用語を質疑に追加することにより、質疑を追加拡張させる第3段階と、拡張された質疑内のそれぞれの用語に加重値を設定する第4段階とを含んでなる。
この際、第2段階において、提案された質疑拡張は、外部関連語集から関連用語を選択するように、非特許文献2に記載のアルゴリズムを用いる。
第3段階において、用語の結合語として追加された用語を質疑に追加することにより、質疑を追加拡張させる。質疑用語が同時に発生する文書は、増大した用語を用いて識別できる。増大した用語を文書が含むと、その文書は増大した用語の全ての単独個体(singleton)を含む。
第4段階において、ユーザの選好度に基づいて同時発生認識用語再加重(co-occurrence aware term re-weighting)方案を提案する。この方案によって、さらに多くの質疑用語を含む文書はそうでない文書に比べて等級がさらに高くなる。
上記目的を達成するために、本発明は、(a)質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、(b)前記(a)過程で結合語として追加された用語を質疑に追加する過程と、(c)拡張された質疑内のそれぞれの用語に対して加重値を設定する過程とを含んでなる、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
また、前記(a)過程の前に、(a−1)質疑モデルを定義する過程をさらに含むことを特徴とする。
また、前記(c)過程は、(c−1)拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、(c−2)前記(c−1)段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、(c−3)追加用語に対して再加重値を設定する段階とを含むことを特徴とする。
また、前記(c)過程において、追加用語配位レベルが(n+1)である追加用語の加重値は、追加用語配位レベルがnである追加用語の加重値より常に大きいことを特徴とする。
また、前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする。
また、前記類似度は、2つの用語x、y間の相互情報(MI)値であって、
Figure 2009223890
によって計算されることを特徴とする。
また、前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする。
上述した本発明によれば、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現性を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることができるという効果がある。
本発明に係る拡張ブールモデルに基づいた検索モデルに関する概念図である。 本発明に係る追加用語を用いた質疑拡張方法に関する全体流れ図である。 本発明に係る質疑内の最初用語と関連用語を示す一例示図である。 本発明に係る図3aに示した用語を用いて質疑拡張の例を示す一例示図である。 本発明に係る拡張された質疑内それぞれの用語に加重値を設定する第4過程に関する細部流れ図である。
本発明の具体的特徴および利点は、添付図面に基づいた下記の詳細な説明によってさらに明白になるであろう。これに先立ち、本発明に関連した公知の機能およびその構成に対する具体的な説明が本発明の要旨を無駄に乱すおそれがあると判断される場合には、その具体的な説明を省略したことに留意すべきであろう。
以下に添付図面を参照しながら、本発明について詳細に説明する。
本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法について図2〜図4を参照して説明すると、次の通りである。
図2は本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法に関する全体流れ図である。本発明に係る追加用語を用いた質疑拡張方法は、図2に示すように、質疑モデルを定義する第1過程(S10)と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第2過程(S20)と、結合語として追加された追加用語を質疑に追加する第3過程(S30)と、拡張された質疑内のそれぞれの用語に対して加重値を設定する第4過程(S40)とを含んでなり、以下、その細部段階を詳細に考察する。
まず、質疑モデルを定義する(S10)。本発明では、式(5)に示したように、m個の用語(t、t、・・・、t)の分節語である質疑を取り扱う。
Figure 2009223890
それぞれの用語は単独個体であり、用語t(1≦i≦m)を最初用語として、質疑qを最初質疑としてそれぞれ定義する。以下の説明で使用される表記法を定義すると、表2のとおりである。
Figure 2009223890
その後、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第2過程を行う(S20)。
具体的に、質疑内の用語に関連した用語を選択する。例えば、質疑内の用語に関連した用語として、質疑が「揮発油」の場合には「ガソリン」という用語が選択でき、質疑が「車」の場合には「自動車」という用語が選択できる。
質疑内の最初用語t(1≦i≦m)はp個の関連用語t、t、・・・、tpiを有し、それぞれの用語tの関連用語の集合は
Figure 2009223890
で表わすことができる。
用語t
Figure 2009223890
に拡張され、
Figure 2009223890
で表わすことができる。すなわち、質疑内のそれぞれの用語を最初用語と関連用語の分節語で代替させる。
したがって、前記式(5)における質疑は、式(6)のような質疑に拡張される。
Figure 2009223890
この際、関連用語の選択は最初用語と関連用語間の類似度による。用語間の類似度は「相互情報(Mutual Information:MI)」[非特許文献2参照]によって測定する。用語間の類似度および相互情報に関する内容は第4過程の説明で詳細に考察する。
次いで、前記式(6)内に結合語(conjunctions)として追加された用語を質疑に追加する第3過程を行う(S30)。
ユーザは、n個の質疑用語を含む文書より、(n+1)個の質疑用語を含む文書を選好する[非特許文献7および8]。したがって、本発明ではいわゆる「配位レベル(coordination level)」[非特許文献7]を文書内に含まれた質疑用語の個数として使用する[非特許文献7]。下記の定義および実施例によって第3過程(S30)を詳細に考察する。
定義1:qを用語の分節語からなる質疑と仮定し、Rを質疑qの最初用語および関連用語の集合と仮定する。また、tは質疑qの用語と仮定する。この際、tの質疑様相(query aspect)は用語tおよびtの関連用語を含むRの部分集合と定義する。
定義2:qを用語の分節語からなる質疑と仮定し、Rを質疑qの最初用語及び関連用語の集合と仮定する。また、追加用語τはR内の用語の結合語と定義する。ここで、τ内のそれぞれの単独個体は一つの個別的な質疑様相に属する。
定義3:τの追加用語配位レベルはτ内の単独個体の個数と定義する。
下記の一例は前記定義1、定義2、定義3に対するものである。質疑q=「揮発油」または「車」または「販売」としよう。この際、用語「ガソリン」は「揮発油」の関連用語であり、用語「自動車」は「車」の関連用語であり、用語「売却」は「販売」の関連用語である。また、R={「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」}である。ここで、3つの質疑様相があるが、「揮発油」の質疑様相は{「揮発油」、「ガソリン」}であり、「車」の質疑様相は{「車」、「自動車」}であり、「販売」の質疑様相は{「販売」、「売却」}である。この際、(「揮発油」および「車」)、(「揮発油」および「自動車」)は2つの単独個体を含むので、追加用語配位レベルは2である。また、(「揮発油」および「車」および「販売」)は3つの単独個体を含むので、追加用語配位レベルは3である。そして、「揮発油」および「車」が文書d内で同時発生すると、文書dが追加用語(「揮発油」および「車」)を含むという。
本発明では、質疑用語が現れる文書を識別する。追加用語が質疑用語の同時発生を表現するので、文書は追加用語を用いて識別できる。文書が追加用語を含むならば、文書は追加用語の単独個体も含む。また、文書には一つまたは複数の追加用語が現れる。これを質疑として表現するために、与えられた質疑qはその追加用語が分節演算子を用いて結合される。
l個の追加用語τ、τ、…、τがあると仮定すると、式(6)における質疑は式(7)のような質疑に拡張される。
Figure 2009223890
図3aは質疑内の最初用語と間連用語を示す一例示図、図3bは質疑拡張の例を示す一例示図である。最初質疑に含まれた用語は「揮発油」、「車」、「販売」であり、最初質疑にこのような関連用語を追加させる。
すなわち、質疑が(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)に拡張され、追加用語(「ガソリン」、「自動車」、「売却」)が質疑にさらに追加されることにより、質疑は[(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)OR(「揮発油」AND「車」)OR(「揮発油」AND「自動車」)……OR(「揮発油」AND「車」AND「販売」)OR…]に拡張される。
次いで、拡張された質疑内のそれぞれの用語に対して加重値を設定する第4過程を行う(S40)。具体的に、図4に示すように、拡張された質疑内の用語の集合Tを抽出し、拡張された質疑内の用語を3つの類型の用語、すなわち最初用語、関連用語および追加用語に分類する(S42)。S42段階によって分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加し(S44)、追加用語に対して再加重値を設定する(S46)。
この際、最初用語には1.0の加重値を設定し、関連用語は最初用語との類似度を計算して加重値を設定し、追加用語は配位レベルと類似度によって加重値を設定する。
関連用語の加重値は、非特許文献2に記載されたアルゴリズムを用いて計算する。前記相互情報(Mutual Information:MI)は用語間の類似度であって、本発明では関連用語の加重値を、最初用語との類似度を計算して設定することにする。
2つの用語x、y間の相互情報(MI)、すなわち類似度はy内に含まれたxの情報およびその反対を測定する。すなわち、2つの用語x、y間の値は式(8)のとおりであり、その値は[0,1]内でlogによって正規化される[非特許文献10]。
Figure 2009223890
この際、全体個数は文書コレクション内における用語の総個数を示す。
追加用語に対する加重値を計算する方法は下記のとおりである。τは追加用語であり、|τ|は追加用語の配位レベルである。追加用語の加重値を設定するために、本発明では、追加用語配位レベルに対する単調関数を使用し、追加用語配位レベル(n+1)の追加用語の加重値を追加用語配位レベルnの追加用語の加重値より常にさらに大きく設定する。
本発明で追加用語の加重値を計算するために使用する関数は10|τ|である。一例として、追加用語配位レベル2の追加用語の加重値は100と設定し、追加用語配位レベル3の追加用語の加重値は1000と設定する。
その後、追加用語に対して再加重値を設定するために、追加用語τ内の用語の類似度を使用する。追加用語の加重値は追加用語内の各用語の加重値の和によって異なり、質疑q内の追加用語τの加重値は式(9)で計算される。
Figure 2009223890
図3bの説明で考察した拡張された質疑の一部分を参照して、拡張された質疑内のそれぞれの用語に加重値を設定する第4過程について詳細に説明すると、次のとおりである。
最初用語(q)=「揮発油」OR「車」OR「販売」
exp=拡張された質疑(q)=(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)OR(「揮発油」OR「車」)OR(「揮発油」AND「自動車」)OR……OR(「揮発油」AND「車」AND「販売」)OR…の場合、
拡張された質疑内の用語の集合Tは、
T={「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」、(「揮発油」AND「車」)、(「揮発油」AND「自動車」)、(「揮発油」AND「車」AND「販売」)、…}で表わすことができる。
すなわち、最初用語は「揮発油」、「車」、「販売」であり、関連用語は「ガソリン」、「自動車」および「売却」であり、追加用語は(「揮発油」AND「車」)、(「揮発油」AND自動車」)、および(「揮発油」AND「車」AND「販売」)である。
次いで、拡張された質疑qexp内のそれぞれの用語の加重値を計算する。
用語「揮発油」、「車」および「販売」は最初用語なので1.0の加重値を有し、関連用語「ガソリン」、「自動車」および「売却」の加重値は式(8)によってそれぞれ0.9、0.8および0.7に計算される。
(「揮発油」AND「車」)、(「揮発油」AND「自動車」)および(「揮発油」AND「車」AND「販売」)のような追加用語の加重値は、式(9)によってそれぞれ102、101.8、および1003に計算される。
つまり、追加用語配位レベル3の追加用語、すなわち(「揮発油」AND「車」AND「販売」)の加重値が追加用語配位レベル2の追加用語、すなわち(「揮発油」AND「車」)および(「揮発油」AND「自動車」)の加重値より大きい。
そして、最初用語の加重値が関連用語の加重値より大きい。よって、同一の追加用語配位レベルを持つ追加用語(「揮発油」AND「車」)は、追加用語(「揮発油」AND「自動車」)よりさらに大きい加重値が設定される。
このように、追加用語を用いた質疑拡張の効率性とDAWIT方法[非特許文献2]を用いた質疑拡張の効率性とを比較するために、広範囲な実験を行った。特定の文書コレクションTREC−6[非特許文献9]を用いた実験結果は、増大した用語を用いた質疑拡張が、DAWIT方法[非特許文献2]を用いた質疑拡張を凌いで正確度の側面で最大102%だけ、そして上位10個の検索された文書に対する再現率の側面では最大157%だけ高い結果を示した。

Claims (7)

  1. 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法において、
    (a)質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、
    (b)前記(a)過程で結合語として追加された用語を質疑に追加する過程と、
    (c)拡張された質疑内のそれぞれの用語に加重値を設定する過程とを含んでなることを特徴とする、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  2. 前記(a)過程の前に、
    (a−1)質疑モデルを定義する過程をさらに含むことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  3. 前記(c)過程は、
    (c−1)拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、
    (c−2)前記(c−1)段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、
    (c−3)追加用語に対して再加重値を設定する段階とを含むことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  4. 前記(c)過程において、追加用語配位レベルが(n+1)である追加用語の加重値は、追加用語配位レベルがnである加重値より常に大きいことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  5. 前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  6. 前記類似度は、2つの用語x、y間の相互情報(MI)値であって、
    Figure 2009223890
    によって計算されることを特徴とする、請求項5に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
  7. 前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする、請求項3に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
JP2009058448A 2008-03-18 2009-03-11 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 Pending JP2009223890A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080024776A KR100931025B1 (ko) 2008-03-18 2008-03-18 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법

Publications (1)

Publication Number Publication Date
JP2009223890A true JP2009223890A (ja) 2009-10-01

Family

ID=40340484

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009058448A Pending JP2009223890A (ja) 2008-03-18 2009-03-11 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法

Country Status (4)

Country Link
US (1) US20100070506A1 (ja)
EP (1) EP2104044A1 (ja)
JP (1) JP2009223890A (ja)
KR (1) KR100931025B1 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901235B (zh) 2009-05-27 2013-03-27 国际商业机器公司 文档处理方法和系统
US20110125764A1 (en) * 2009-11-26 2011-05-26 International Business Machines Corporation Method and system for improved query expansion in faceted search
GB201010545D0 (en) 2010-06-23 2010-08-11 Rolls Royce Plc Entity recognition
EP2423830A1 (de) * 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
US20120078941A1 (en) * 2010-09-27 2012-03-29 Teradata Us, Inc. Query enhancement apparatus, methods, and systems
KR101850886B1 (ko) * 2010-12-23 2018-04-23 네이버 주식회사 감소 질의를 추천하는 검색 시스템 및 방법
US8898156B2 (en) * 2011-03-03 2014-11-25 Microsoft Corporation Query expansion for web search
EP2518638A3 (en) * 2011-04-27 2013-01-23 Verint Systems Limited System and method for keyword spotting using multiple character encoding schemes
IL212511A (en) 2011-04-27 2016-03-31 Verint Systems Ltd Keyword Finding System and Method by Multiple Character Encoding Schemes
KR101818717B1 (ko) * 2011-09-27 2018-01-15 네이버 주식회사 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
US9645987B2 (en) * 2011-12-02 2017-05-09 Hewlett Packard Enterprise Development Lp Topic extraction and video association
US8719025B2 (en) * 2012-05-14 2014-05-06 International Business Machines Corporation Contextual voice query dilation to improve spoken web searching
US8661049B2 (en) * 2012-07-09 2014-02-25 ZenDesk, Inc. Weight-based stemming for improving search quality
US8756241B1 (en) * 2012-08-06 2014-06-17 Google Inc. Determining rewrite similarity scores
US9223853B2 (en) 2012-12-19 2015-12-29 Microsoft Technology Licensing, Llc Query expansion using add-on terms with assigned classifications
IL224482B (en) 2013-01-29 2018-08-30 Verint Systems Ltd System and method for keyword spotting using representative dictionary
US9600529B2 (en) * 2013-03-14 2017-03-21 Wal-Mart Stores, Inc. Attribute-based document searching
IL226747B (en) 2013-06-04 2019-01-31 Verint Systems Ltd A system and method for studying malware detection
CN104239314B (zh) * 2013-06-09 2018-01-19 天津海量信息技术股份有限公司 一种扩展检索词的方法和系统
US10055485B2 (en) 2014-11-25 2018-08-21 International Business Machines Corporation Terms for query expansion using unstructured data
IL238001B (en) 2015-03-29 2020-05-31 Verint Systems Ltd System and method for identifying communication conversation participants based on communication traffic patterns
IL242219B (en) 2015-10-22 2020-11-30 Verint Systems Ltd System and method for keyword searching using both static and dynamic dictionaries
IL242218B (en) 2015-10-22 2020-11-30 Verint Systems Ltd A system and method for maintaining a dynamic dictionary
US10685027B2 (en) * 2015-10-28 2020-06-16 Microsoft Technology Licensing, Llc Search system
US10311065B2 (en) 2015-12-01 2019-06-04 International Business Machines Corporation Scoring candidate evidence passages for criteria validation using historical evidence data
IL248306B (en) 2016-10-10 2019-12-31 Verint Systems Ltd System and method for creating data sets for learning to recognize user actions
IL252037B (en) 2017-04-30 2021-12-01 Verint Systems Ltd System and method for identifying relationships between computer application users
CN108062355B (zh) * 2017-11-23 2020-07-31 华南农业大学 基于伪反馈与tf-idf的查询词扩展方法
IL256690B (en) 2018-01-01 2022-02-01 Cognyte Tech Israel Ltd System and method for identifying pairs of related application users
US10678822B2 (en) 2018-06-29 2020-06-09 International Business Machines Corporation Query expansion using a graph of question and answer vocabulary
IL260986B (en) 2018-08-05 2021-09-30 Verint Systems Ltd A system and method for using a user action log to study encrypted traffic classification
WO2020188524A1 (en) 2019-03-20 2020-09-24 Verint Systems Ltd. System and method for de-anonymizing actions and messages on networks
WO2021084439A1 (en) 2019-11-03 2021-05-06 Verint Systems Ltd. System and method for identifying exchanges of encrypted communication traffic
US20240184789A1 (en) * 2022-12-06 2024-06-06 Microsoft Technology Licensing, Llc Creating a query template optimized for both recall and precision

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5398749A (en) * 1977-02-08 1978-08-29 Nec Corp Information retrieval system
JPH05189483A (ja) * 1992-01-16 1993-07-30 Nec Corp データ検索方法および装置
JPH05250411A (ja) * 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393386B1 (en) * 1998-03-26 2002-05-21 Visual Networks Technologies, Inc. Dynamic modeling of complex networks and prediction of impacts of faults therein
US7047242B1 (en) * 1999-03-31 2006-05-16 Verizon Laboratories Inc. Weighted term ranking for on-line query tool
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US7703073B2 (en) * 2004-06-08 2010-04-20 Covia Labs, Inc. Device interoperability format rule set and method for assembling interoperability application package
US20060080432A1 (en) * 2004-09-03 2006-04-13 Spataro Jared M Systems and methods for collaboration
KR20070035786A (ko) * 2005-09-28 2007-04-02 강기만 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법
US20070214158A1 (en) * 2006-03-08 2007-09-13 Yakov Kamen Method and apparatus for conducting a robust search

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5398749A (en) * 1977-02-08 1978-08-29 Nec Corp Information retrieval system
JPH05189483A (ja) * 1992-01-16 1993-07-30 Nec Corp データ検索方法および装置
JPH05250411A (ja) * 1992-03-09 1993-09-28 Nippon Telegr & Teleph Corp <Ntt> 検索条件式作成装置
JP2000137738A (ja) * 1998-11-03 2000-05-16 Nec Corp 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
JP2001134588A (ja) * 1999-11-04 2001-05-18 Ricoh Co Ltd 文書検索装置

Also Published As

Publication number Publication date
EP2104044A1 (en) 2009-09-23
KR20090099657A (ko) 2009-09-23
KR100931025B1 (ko) 2009-12-10
US20100070506A1 (en) 2010-03-18

Similar Documents

Publication Publication Date Title
JP2009223890A (ja) 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法
Bendersky et al. Learning concept importance using a weighted dependence model
US7801887B2 (en) Method for re-ranking documents retrieved from a document database
JP6299596B2 (ja) クエリ類似度評価システム、評価方法、及びプログラム
US20060206483A1 (en) Method for domain identification of documents in a document database
JP5534266B2 (ja) 電子文書コレクションからクエリ結果を送付する方法、システム及び装置
CN104794242B (zh) 一种搜索方法
US10430448B2 (en) Computer-implemented method of and system for searching an inverted index having a plurality of posting lists
EP1987453A1 (en) Document similarity scoring and ranking method, device and computer program product
JP2005327299A (ja) オブジェクトの類似性を異種の関係に基づいて判定するための方法およびシステム
Song et al. A novel term weighting scheme based on discrimination power obtained from past retrieval results
Azad et al. Improving query expansion using pseudo-relevant web knowledge for information retrieval
Lee et al. A deterministic resampling method using overlapping document clusters for pseudo-relevance feedback
US20110295861A1 (en) Searching using taxonomy
Balog et al. Category-based query modeling for entity search
Zhang et al. Improving cbir by semantic propagation and cross modality query expansion
Lv et al. Enhanced context-based document relevance assessment and ranking for improved information retrieval to support environmental decision making
EP2577495A1 (en) Searching using taxonomy
Cha et al. Topic model based approach for improved indexing in content based document retrieval
Wong et al. Re-examining the effects of adding relevance information in a relevance feedback environment
Alma’aitah et al. Towards adaptive structured Dirichlet smoothing model for digital resource objects
Bhatia et al. A scalable approach for performing proximal search for verbose patent search queries
Zhu Improvement in Probabilistic Information Retrieval Model: Rewarding Terms with High Relative Term Frequency
JP3880534B2 (ja) 文書分類方法及び文書分類プログラム
US20060184499A1 (en) Data search system and method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120221