JP2009223890A - 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 - Google Patents
再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 Download PDFInfo
- Publication number
- JP2009223890A JP2009223890A JP2009058448A JP2009058448A JP2009223890A JP 2009223890 A JP2009223890 A JP 2009223890A JP 2009058448 A JP2009058448 A JP 2009058448A JP 2009058448 A JP2009058448 A JP 2009058448A JP 2009223890 A JP2009223890 A JP 2009223890A
- Authority
- JP
- Japan
- Prior art keywords
- term
- question
- terms
- additional
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な、追加用語を用いた質疑拡張方法の提供。
【解決手段】 質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張する質疑拡張過程と、前記質疑拡張過程で結合語として追加された用語を質疑に追加する質疑追加過程と、拡張された質疑内のそれぞれの用語に対して加重値を設定する加重値設定過程とを含む、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
【選択図】 図2
【解決手段】 質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張する質疑拡張過程と、前記質疑拡張過程で結合語として追加された用語を質疑に追加する質疑追加過程と、拡張された質疑内のそれぞれの用語に対して加重値を設定する加重値設定過程とを含む、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
【選択図】 図2
Description
本発明は、質疑拡張方法に係り、さらに詳しくは、ユーザの質疑に関連した新規用語を追加して質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現率(recall)を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることが可能な、追加用語を用いた質疑拡張方法に関する。
インターネット上のデータ量が増加するにつれて、データから情報を検索するための手段として検索エンジン(search engine)が広く用いられる[非特許文献1参照]。検索エンジンは、ユーザから用語の組み合わせを質疑(query)として受信した後、質疑に関連した文書(relevant documents)を検索結果として返還する。検索エンジンの効率性は、検索された文書における関連文書の占有比率を示す正確度、および関連文書に対する検索された関連文書の占有比率を示す再現率で評価される[非特許文献1]。
一般的な情報検索(information retrieval:IR)システムの語彙力(vocabulary)がユーザの語彙力とは異なるので、ユーザの意図を完璧に表現する質疑を作ることは容易ではなく、質疑に用いられた用語が、検索エンジンに格納された文書で用いられた用語と合致しないこともある[非特許文献3]。
その一例として、情報検索システムにおいて「車」と「自動車」を含む文書は「車」と関連している。この際、ユーザは「車」に関連した文書を検索したがる。ユーザの質疑に「車」という一つの用語が含まれる場合、検索エンジンは「車」を含む文書のみを返還する。
すなわち、情報検索システムはユーザの意図による関連文書を全て見せなくなり、このような不合致問題(mismatch problem)[非特許文献3]は一般に検索エンジンの正確度および再現率を低下させる。
一方、以下では本発明の背景技術である拡張ブールモデルおよび関連研究について説明する。
1.拡張ブールモデル(Extended Boolean Model)
拡張ブールモデルは、ブールモデルの検索モデル(retrieval model)とベクター空間モデル(Vector Space Model)の等級化モデル(ranking model)とを組み合わせた情報検索モデルである[非特許文献2および5]。
拡張ブールモデルは、ブールモデルの検索モデル(retrieval model)とベクター空間モデル(Vector Space Model)の等級化モデル(ranking model)とを組み合わせた情報検索モデルである[非特許文献2および5]。
ブールモデルにおいて、文書は用語の集合で表示され、質疑は3つの演算子、すなわちAND、ORおよびNOTによって連結された用語からなる。また、与えられた質疑に対して、質疑のブール表現を満足させる文書が検索される[非特許文献1]。
ベクター空間モデル[非特許文献6]において、文書と質疑は多次元ベクター空間内のベクターとして表示され、用語は多次元ベクター空間を形成する。文書および質疑において、それぞれの用語には実数値の加重値が与えられる。用語の加重値は「TF−IDF用語加重値技法(TF-IDF term weighting scheme)」[非特許文献1]によって計算される。TF−IDF用語加重値技法は、一つの文書によく現れ且つ文書コレクションの残りにはほぼ現れない用語にさらに多くの加重値を与える。文書は質疑に対する文書の類似度によって等級化される[非特許文献1]。類似度は、2つのベクター間の角のコサインである「コサイン類似度の測定(cosine similarity measure)」[非特許文献1]によって計算される。質疑
拡張ブールモデルは、ブールモデルとベクター空間モデルとの間に位置する情報検索モデルである[非特許文献5]。よって、拡張ブールモデルは、ブール質疑(Boolean query)と文書等級化を全て支援することができる。
図1は拡張ブールモデルに基づいた検索モデルに関するものである。拡張ブールモデルは、ブールモデルの検索モデルとベクター空間モデルの等級化モデルとを組み合わせたものである[非特許文献2および5]。したがって、ブール質疑を満足させる全ての文書が検索され、検査された文書は「コサン類似度の測定」によって等級化される[非特許文献1]。
WA,qおよびWB,qがそれぞれ質疑内における用語AおよびBの加重値であると仮定し、WA,dおよびWB,dがそれぞれ文書内における用語AおよびBの加重値であると仮定しよう。2つの基本ケース(ANDおよびOR演算子)に対する質疑に対する文書の類似度は、式(2)に示すように、文書および質疑内における用語の加重値によって決定される。
qorの場合、拡張ブールモデルはd1およびd2を検索する。その理由はこれらの文書が質疑qorのブール表現を満足させるためである。qandの場合、拡張ブールモデルはd1のみを検索する。類似度は式(3)および式(4)のように計算される。類似度(d2、qor)が類似度(d1、qor)より大きいため、qorの場合に文書d2が文書d1より高い等級を持つ。
本発明と関連のある質疑拡張方法について詳細に説明する。非特許文献2は、ドメイン適応的加重関連語集(Domain Adapted Weighted Thesaurus:DAWIT)を用いた質疑拡張(DAWIT方法とも呼ぶ)を提案した。DAWIT方法は、質疑を構成するそれぞれの用語に関連した、「関連用語」と指称される新規用語を追加することにより、質疑を拡張させる。DAWIT方法は、関連用語を発見するために関連語集(thesaurus)を使用する。
DAWIT方法は、次の3つの段階を経て質疑を拡張させる。まず、DAWIT方法は、関連語集を用いて質疑内のそれぞれの用語の関連用語を発見する。次いで、DAWIT方法は質疑内のそれぞれの用語を用語と関連用語の分節語(disjunctions)で代替する。最後に、DAWIT方法は、拡張された質疑のそれぞれの用語に新しい加重値を割り当てる。ところが、この方法はさらに多くの質疑用語を持つ文書が他の文書より高く等級化されることを保障しない。
非特許文献5は、関連性フィードバック(relevance feedback)を用いた質疑拡張を提案した。関連性フィードバックを用いた質疑拡張は、質疑拡張のために最近検査された文書から関連用語を選択し、質疑を拡張させるためにAND演算子を用いる。ところが、この方法は、さらに多くの質疑用語を持つ文書が、そうでない他の文書よりさらに高い等級を持つようにすることを保障せず、拡張された質疑には質疑の最初用語を含まない。
Baeza-Yates,R.and Ribeiro-Neto,B.,Modern InformationRetrieval,AddisonWesley,1999. Kwon,O.W.,Kim,M.C.,and Choi,K.S.,"Query Expansion Using Domain Adapted,Weighted Thesaurus in an Extended Boolean Model,"In Proc. 3rd Int'l Conf.on Information and Knowledge Management,pp.140-146,Gaithers-burg,Maryland,Nov.1994. Xu,J.and Croft,W.B.,"Improving the Effectiveness of Information Retrieval with Local Context Analysis,"ACM Transactions on Information Systems(TOIS),Vol.18,No.1,pp.79-112,Jan.2000. Salton,G.and Voorhees,E.,"A Comparison of Two Methods for Boolean Query Relevancy Feedback,"Information Processing & Management,Vol.20,No.5,pp.637-651,Sept.1984. Salton,G.,Fox,E.A.,and Wu,H.,"Extended Boolean Information Retrieval,"Communications of the ACM,Vol.26,No.12,pp.1022-1036,1983. Salton,G.and Lesk,M.E.,"Computer Evaluation of Indexing and Text Processing,"Journal of the ACM,Vol.15,No.1,pp.8-36,Jan.1968. Clarke,C.L.A.,Cormack,G.V.,and Tudhope,E.A.,"Relevance Ranking for One to Three Term Queries,"Information Processing & Management,Vol.36,No.2,pp.291-311,Mar.2000. Hiemstra,D.,"A Linguistically Motivated Probabilistic Model of Information Retrieval,"In Proc.2nd European Conference on Research and Advanced Technology for Digital Libraries(ECDL),pp.569-584,Crete,Greece,Sept.1998. Voorhees,E.M.and Harman,D.,"Overview of the Sixth Text Retrieval Conference(TREC-6),"In Proc.6th Text Retrieval Conference,pp.1-24,Gaithersburg,Maryland,Nov.19-21,1997. Chung,Y.M.and Lee,J.Y.,"Optimization of Some Factors Affecting the Performance of Query Expansion,''Information Processing & Management,Vol.40,No.6,pp.891-917,Nov.2004.
Baeza-Yates,R.and Ribeiro-Neto,B.,Modern InformationRetrieval,AddisonWesley,1999. Kwon,O.W.,Kim,M.C.,and Choi,K.S.,"Query Expansion Using Domain Adapted,Weighted Thesaurus in an Extended Boolean Model,"In Proc. 3rd Int'l Conf.on Information and Knowledge Management,pp.140-146,Gaithers-burg,Maryland,Nov.1994. Xu,J.and Croft,W.B.,"Improving the Effectiveness of Information Retrieval with Local Context Analysis,"ACM Transactions on Information Systems(TOIS),Vol.18,No.1,pp.79-112,Jan.2000. Salton,G.and Voorhees,E.,"A Comparison of Two Methods for Boolean Query Relevancy Feedback,"Information Processing & Management,Vol.20,No.5,pp.637-651,Sept.1984. Salton,G.,Fox,E.A.,and Wu,H.,"Extended Boolean Information Retrieval,"Communications of the ACM,Vol.26,No.12,pp.1022-1036,1983. Salton,G.and Lesk,M.E.,"Computer Evaluation of Indexing and Text Processing,"Journal of the ACM,Vol.15,No.1,pp.8-36,Jan.1968. Clarke,C.L.A.,Cormack,G.V.,and Tudhope,E.A.,"Relevance Ranking for One to Three Term Queries,"Information Processing & Management,Vol.36,No.2,pp.291-311,Mar.2000. Hiemstra,D.,"A Linguistically Motivated Probabilistic Model of Information Retrieval,"In Proc.2nd European Conference on Research and Advanced Technology for Digital Libraries(ECDL),pp.569-584,Crete,Greece,Sept.1998. Voorhees,E.M.and Harman,D.,"Overview of the Sixth Text Retrieval Conference(TREC-6),"In Proc.6th Text Retrieval Conference,pp.1-24,Gaithersburg,Maryland,Nov.19-21,1997. Chung,Y.M.and Lee,J.Y.,"Optimization of Some Factors Affecting the Performance of Query Expansion,''Information Processing & Management,Vol.40,No.6,pp.891-917,Nov.2004.
そこで、本発明は、上述した問題点に鑑みて案出されたもので、その目的とするところは、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な「追加用語を用いた質疑拡張方法」を提供することにある。
本発明の追加用語を用いた質疑拡張方法は、質疑モデルを定義する第1段階と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第2段階と、用語の結合語(conjunctions)として追加された用語を質疑に追加することにより、質疑を追加拡張させる第3段階と、拡張された質疑内のそれぞれの用語に加重値を設定する第4段階とを含んでなる。
この際、第2段階において、提案された質疑拡張は、外部関連語集から関連用語を選択するように、非特許文献2に記載のアルゴリズムを用いる。
第3段階において、用語の結合語として追加された用語を質疑に追加することにより、質疑を追加拡張させる。質疑用語が同時に発生する文書は、増大した用語を用いて識別できる。増大した用語を文書が含むと、その文書は増大した用語の全ての単独個体(singleton)を含む。
第4段階において、ユーザの選好度に基づいて同時発生認識用語再加重(co-occurrence aware term re-weighting)方案を提案する。この方案によって、さらに多くの質疑用語を含む文書はそうでない文書に比べて等級がさらに高くなる。
上記目的を達成するために、本発明は、(a)質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、(b)前記(a)過程で結合語として追加された用語を質疑に追加する過程と、(c)拡張された質疑内のそれぞれの用語に対して加重値を設定する過程とを含んでなる、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
また、前記(a)過程の前に、(a−1)質疑モデルを定義する過程をさらに含むことを特徴とする。
また、前記(c)過程は、(c−1)拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、(c−2)前記(c−1)段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、(c−3)追加用語に対して再加重値を設定する段階とを含むことを特徴とする。
また、前記(c)過程において、追加用語配位レベルが(n+1)である追加用語の加重値は、追加用語配位レベルがnである追加用語の加重値より常に大きいことを特徴とする。
また、前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする。
また、前記類似度は、2つの用語x、y間の相互情報(MI)値であって、
また、前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする。
上述した本発明によれば、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現性を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることができるという効果がある。
本発明の具体的特徴および利点は、添付図面に基づいた下記の詳細な説明によってさらに明白になるであろう。これに先立ち、本発明に関連した公知の機能およびその構成に対する具体的な説明が本発明の要旨を無駄に乱すおそれがあると判断される場合には、その具体的な説明を省略したことに留意すべきであろう。
以下に添付図面を参照しながら、本発明について詳細に説明する。
本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法について図2〜図4を参照して説明すると、次の通りである。
図2は本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法に関する全体流れ図である。本発明に係る追加用語を用いた質疑拡張方法は、図2に示すように、質疑モデルを定義する第1過程(S10)と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第2過程(S20)と、結合語として追加された追加用語を質疑に追加する第3過程(S30)と、拡張された質疑内のそれぞれの用語に対して加重値を設定する第4過程(S40)とを含んでなり、以下、その細部段階を詳細に考察する。
まず、質疑モデルを定義する(S10)。本発明では、式(5)に示したように、m個の用語(t1、t2、・・・、tm)の分節語である質疑を取り扱う。
具体的に、質疑内の用語に関連した用語を選択する。例えば、質疑内の用語に関連した用語として、質疑が「揮発油」の場合には「ガソリン」という用語が選択でき、質疑が「車」の場合には「自動車」という用語が選択できる。
質疑内の最初用語ti(1≦i≦m)はpi個の関連用語t1、t2、・・・、tpiを有し、それぞれの用語tiの関連用語の集合は
用語tiは
したがって、前記式(5)における質疑は、式(6)のような質疑に拡張される。
次いで、前記式(6)内に結合語(conjunctions)として追加された用語を質疑に追加する第3過程を行う(S30)。
ユーザは、n個の質疑用語を含む文書より、(n+1)個の質疑用語を含む文書を選好する[非特許文献7および8]。したがって、本発明ではいわゆる「配位レベル(coordination level)」[非特許文献7]を文書内に含まれた質疑用語の個数として使用する[非特許文献7]。下記の定義および実施例によって第3過程(S30)を詳細に考察する。
定義1:qを用語の分節語からなる質疑と仮定し、Rを質疑qの最初用語および関連用語の集合と仮定する。また、tは質疑qの用語と仮定する。この際、tの質疑様相(query aspect)は用語tおよびtの関連用語を含むRの部分集合と定義する。
定義2:qを用語の分節語からなる質疑と仮定し、Rを質疑qの最初用語及び関連用語の集合と仮定する。また、追加用語τはR内の用語の結合語と定義する。ここで、τ内のそれぞれの単独個体は一つの個別的な質疑様相に属する。
定義3:τの追加用語配位レベルはτ内の単独個体の個数と定義する。
下記の一例は前記定義1、定義2、定義3に対するものである。質疑q=「揮発油」または「車」または「販売」としよう。この際、用語「ガソリン」は「揮発油」の関連用語であり、用語「自動車」は「車」の関連用語であり、用語「売却」は「販売」の関連用語である。また、R={「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」}である。ここで、3つの質疑様相があるが、「揮発油」の質疑様相は{「揮発油」、「ガソリン」}であり、「車」の質疑様相は{「車」、「自動車」}であり、「販売」の質疑様相は{「販売」、「売却」}である。この際、(「揮発油」および「車」)、(「揮発油」および「自動車」)は2つの単独個体を含むので、追加用語配位レベルは2である。また、(「揮発油」および「車」および「販売」)は3つの単独個体を含むので、追加用語配位レベルは3である。そして、「揮発油」および「車」が文書d内で同時発生すると、文書dが追加用語(「揮発油」および「車」)を含むという。
本発明では、質疑用語が現れる文書を識別する。追加用語が質疑用語の同時発生を表現するので、文書は追加用語を用いて識別できる。文書が追加用語を含むならば、文書は追加用語の単独個体も含む。また、文書には一つまたは複数の追加用語が現れる。これを質疑として表現するために、与えられた質疑qはその追加用語が分節演算子を用いて結合される。
l個の追加用語τ1、τ2、…、τlがあると仮定すると、式(6)における質疑は式(7)のような質疑に拡張される。
すなわち、質疑が(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)に拡張され、追加用語(「ガソリン」、「自動車」、「売却」)が質疑にさらに追加されることにより、質疑は[(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)OR(「揮発油」AND「車」)OR(「揮発油」AND「自動車」)……OR(「揮発油」AND「車」AND「販売」)OR…]に拡張される。
次いで、拡張された質疑内のそれぞれの用語に対して加重値を設定する第4過程を行う(S40)。具体的に、図4に示すように、拡張された質疑内の用語の集合Tを抽出し、拡張された質疑内の用語を3つの類型の用語、すなわち最初用語、関連用語および追加用語に分類する(S42)。S42段階によって分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加し(S44)、追加用語に対して再加重値を設定する(S46)。
この際、最初用語には1.0の加重値を設定し、関連用語は最初用語との類似度を計算して加重値を設定し、追加用語は配位レベルと類似度によって加重値を設定する。
関連用語の加重値は、非特許文献2に記載されたアルゴリズムを用いて計算する。前記相互情報(Mutual Information:MI)は用語間の類似度であって、本発明では関連用語の加重値を、最初用語との類似度を計算して設定することにする。
2つの用語x、y間の相互情報(MI)、すなわち類似度はy内に含まれたxの情報およびその反対を測定する。すなわち、2つの用語x、y間の値は式(8)のとおりであり、その値は[0,1]内でlogによって正規化される[非特許文献10]。
追加用語に対する加重値を計算する方法は下記のとおりである。τは追加用語であり、|τ|は追加用語の配位レベルである。追加用語の加重値を設定するために、本発明では、追加用語配位レベルに対する単調関数を使用し、追加用語配位レベル(n+1)の追加用語の加重値を追加用語配位レベルnの追加用語の加重値より常にさらに大きく設定する。
本発明で追加用語の加重値を計算するために使用する関数は10|τ|である。一例として、追加用語配位レベル2の追加用語の加重値は100と設定し、追加用語配位レベル3の追加用語の加重値は1000と設定する。
その後、追加用語に対して再加重値を設定するために、追加用語τ内の用語の類似度を使用する。追加用語の加重値は追加用語内の各用語の加重値の和によって異なり、質疑q内の追加用語τの加重値は式(9)で計算される。
最初用語(q)=「揮発油」OR「車」OR「販売」
qexp=拡張された質疑(q)=(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)OR(「揮発油」OR「車」)OR(「揮発油」AND「自動車」)OR……OR(「揮発油」AND「車」AND「販売」)OR…の場合、
拡張された質疑内の用語の集合Tは、
T={「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」、(「揮発油」AND「車」)、(「揮発油」AND「自動車」)、(「揮発油」AND「車」AND「販売」)、…}で表わすことができる。
qexp=拡張された質疑(q)=(「揮発油」OR「ガソリン」)OR(「車」OR「自動車」)OR(「販売」OR「売却」)OR(「揮発油」OR「車」)OR(「揮発油」AND「自動車」)OR……OR(「揮発油」AND「車」AND「販売」)OR…の場合、
拡張された質疑内の用語の集合Tは、
T={「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」、(「揮発油」AND「車」)、(「揮発油」AND「自動車」)、(「揮発油」AND「車」AND「販売」)、…}で表わすことができる。
すなわち、最初用語は「揮発油」、「車」、「販売」であり、関連用語は「ガソリン」、「自動車」および「売却」であり、追加用語は(「揮発油」AND「車」)、(「揮発油」AND自動車」)、および(「揮発油」AND「車」AND「販売」)である。
次いで、拡張された質疑qexp内のそれぞれの用語の加重値を計算する。
用語「揮発油」、「車」および「販売」は最初用語なので1.0の加重値を有し、関連用語「ガソリン」、「自動車」および「売却」の加重値は式(8)によってそれぞれ0.9、0.8および0.7に計算される。
(「揮発油」AND「車」)、(「揮発油」AND「自動車」)および(「揮発油」AND「車」AND「販売」)のような追加用語の加重値は、式(9)によってそれぞれ102、101.8、および1003に計算される。
つまり、追加用語配位レベル3の追加用語、すなわち(「揮発油」AND「車」AND「販売」)の加重値が追加用語配位レベル2の追加用語、すなわち(「揮発油」AND「車」)および(「揮発油」AND「自動車」)の加重値より大きい。
そして、最初用語の加重値が関連用語の加重値より大きい。よって、同一の追加用語配位レベルを持つ追加用語(「揮発油」AND「車」)は、追加用語(「揮発油」AND「自動車」)よりさらに大きい加重値が設定される。
このように、追加用語を用いた質疑拡張の効率性とDAWIT方法[非特許文献2]を用いた質疑拡張の効率性とを比較するために、広範囲な実験を行った。特定の文書コレクションTREC−6[非特許文献9]を用いた実験結果は、増大した用語を用いた質疑拡張が、DAWIT方法[非特許文献2]を用いた質疑拡張を凌いで正確度の側面で最大102%だけ、そして上位10個の検索された文書に対する再現率の側面では最大157%だけ高い結果を示した。
Claims (7)
- 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法において、
(a)質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、
(b)前記(a)過程で結合語として追加された用語を質疑に追加する過程と、
(c)拡張された質疑内のそれぞれの用語に加重値を設定する過程とを含んでなることを特徴とする、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。 - 前記(a)過程の前に、
(a−1)質疑モデルを定義する過程をさらに含むことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。 - 前記(c)過程は、
(c−1)拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、
(c−2)前記(c−1)段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、
(c−3)追加用語に対して再加重値を設定する段階とを含むことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。 - 前記(c)過程において、追加用語配位レベルが(n+1)である追加用語の加重値は、追加用語配位レベルがnである加重値より常に大きいことを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
- 前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする、請求項1に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
- 前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする、請求項3に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080024776A KR100931025B1 (ko) | 2008-03-18 | 2008-03-18 | 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009223890A true JP2009223890A (ja) | 2009-10-01 |
Family
ID=40340484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009058448A Pending JP2009223890A (ja) | 2008-03-18 | 2009-03-11 | 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20100070506A1 (ja) |
EP (1) | EP2104044A1 (ja) |
JP (1) | JP2009223890A (ja) |
KR (1) | KR100931025B1 (ja) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901235B (zh) | 2009-05-27 | 2013-03-27 | 国际商业机器公司 | 文档处理方法和系统 |
US20110125764A1 (en) * | 2009-11-26 | 2011-05-26 | International Business Machines Corporation | Method and system for improved query expansion in faceted search |
GB201010545D0 (en) | 2010-06-23 | 2010-08-11 | Rolls Royce Plc | Entity recognition |
EP2423830A1 (de) * | 2010-08-25 | 2012-02-29 | Omikron Data Quality GmbH | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
US20120078941A1 (en) * | 2010-09-27 | 2012-03-29 | Teradata Us, Inc. | Query enhancement apparatus, methods, and systems |
KR101850886B1 (ko) * | 2010-12-23 | 2018-04-23 | 네이버 주식회사 | 감소 질의를 추천하는 검색 시스템 및 방법 |
US8898156B2 (en) * | 2011-03-03 | 2014-11-25 | Microsoft Corporation | Query expansion for web search |
EP2518638A3 (en) * | 2011-04-27 | 2013-01-23 | Verint Systems Limited | System and method for keyword spotting using multiple character encoding schemes |
IL212511A (en) | 2011-04-27 | 2016-03-31 | Verint Systems Ltd | Keyword Finding System and Method by Multiple Character Encoding Schemes |
KR101818717B1 (ko) * | 2011-09-27 | 2018-01-15 | 네이버 주식회사 | 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체 |
US9645987B2 (en) * | 2011-12-02 | 2017-05-09 | Hewlett Packard Enterprise Development Lp | Topic extraction and video association |
US8719025B2 (en) * | 2012-05-14 | 2014-05-06 | International Business Machines Corporation | Contextual voice query dilation to improve spoken web searching |
US8661049B2 (en) * | 2012-07-09 | 2014-02-25 | ZenDesk, Inc. | Weight-based stemming for improving search quality |
US8756241B1 (en) * | 2012-08-06 | 2014-06-17 | Google Inc. | Determining rewrite similarity scores |
US9223853B2 (en) | 2012-12-19 | 2015-12-29 | Microsoft Technology Licensing, Llc | Query expansion using add-on terms with assigned classifications |
IL224482B (en) | 2013-01-29 | 2018-08-30 | Verint Systems Ltd | System and method for keyword spotting using representative dictionary |
US9600529B2 (en) * | 2013-03-14 | 2017-03-21 | Wal-Mart Stores, Inc. | Attribute-based document searching |
IL226747B (en) | 2013-06-04 | 2019-01-31 | Verint Systems Ltd | A system and method for studying malware detection |
CN104239314B (zh) * | 2013-06-09 | 2018-01-19 | 天津海量信息技术股份有限公司 | 一种扩展检索词的方法和系统 |
US10055485B2 (en) | 2014-11-25 | 2018-08-21 | International Business Machines Corporation | Terms for query expansion using unstructured data |
IL238001B (en) | 2015-03-29 | 2020-05-31 | Verint Systems Ltd | System and method for identifying communication conversation participants based on communication traffic patterns |
IL242219B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | System and method for keyword searching using both static and dynamic dictionaries |
IL242218B (en) | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | A system and method for maintaining a dynamic dictionary |
US10685027B2 (en) * | 2015-10-28 | 2020-06-16 | Microsoft Technology Licensing, Llc | Search system |
US10311065B2 (en) | 2015-12-01 | 2019-06-04 | International Business Machines Corporation | Scoring candidate evidence passages for criteria validation using historical evidence data |
IL248306B (en) | 2016-10-10 | 2019-12-31 | Verint Systems Ltd | System and method for creating data sets for learning to recognize user actions |
IL252037B (en) | 2017-04-30 | 2021-12-01 | Verint Systems Ltd | System and method for identifying relationships between computer application users |
CN108062355B (zh) * | 2017-11-23 | 2020-07-31 | 华南农业大学 | 基于伪反馈与tf-idf的查询词扩展方法 |
IL256690B (en) | 2018-01-01 | 2022-02-01 | Cognyte Tech Israel Ltd | System and method for identifying pairs of related application users |
US10678822B2 (en) | 2018-06-29 | 2020-06-09 | International Business Machines Corporation | Query expansion using a graph of question and answer vocabulary |
IL260986B (en) | 2018-08-05 | 2021-09-30 | Verint Systems Ltd | A system and method for using a user action log to study encrypted traffic classification |
WO2020188524A1 (en) | 2019-03-20 | 2020-09-24 | Verint Systems Ltd. | System and method for de-anonymizing actions and messages on networks |
WO2021084439A1 (en) | 2019-11-03 | 2021-05-06 | Verint Systems Ltd. | System and method for identifying exchanges of encrypted communication traffic |
US20240184789A1 (en) * | 2022-12-06 | 2024-06-06 | Microsoft Technology Licensing, Llc | Creating a query template optimized for both recall and precision |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5398749A (en) * | 1977-02-08 | 1978-08-29 | Nec Corp | Information retrieval system |
JPH05189483A (ja) * | 1992-01-16 | 1993-07-30 | Nec Corp | データ検索方法および装置 |
JPH05250411A (ja) * | 1992-03-09 | 1993-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 検索条件式作成装置 |
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393386B1 (en) * | 1998-03-26 | 2002-05-21 | Visual Networks Technologies, Inc. | Dynamic modeling of complex networks and prediction of impacts of faults therein |
US7047242B1 (en) * | 1999-03-31 | 2006-05-16 | Verizon Laboratories Inc. | Weighted term ranking for on-line query tool |
US7089226B1 (en) * | 2001-06-28 | 2006-08-08 | Microsoft Corporation | System, representation, and method providing multilevel information retrieval with clarification dialog |
US7703073B2 (en) * | 2004-06-08 | 2010-04-20 | Covia Labs, Inc. | Device interoperability format rule set and method for assembling interoperability application package |
US20060080432A1 (en) * | 2004-09-03 | 2006-04-13 | Spataro Jared M | Systems and methods for collaboration |
KR20070035786A (ko) * | 2005-09-28 | 2007-04-02 | 강기만 | 단어 교차 관계 기반 질의어 확장에 의한 문서 검색 장치및 그 방법 |
US20070214158A1 (en) * | 2006-03-08 | 2007-09-13 | Yakov Kamen | Method and apparatus for conducting a robust search |
-
2008
- 2008-03-18 KR KR1020080024776A patent/KR100931025B1/ko not_active IP Right Cessation
- 2008-12-31 EP EP08173128A patent/EP2104044A1/en not_active Withdrawn
-
2009
- 2009-03-10 US US12/401,014 patent/US20100070506A1/en not_active Abandoned
- 2009-03-11 JP JP2009058448A patent/JP2009223890A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5398749A (en) * | 1977-02-08 | 1978-08-29 | Nec Corp | Information retrieval system |
JPH05189483A (ja) * | 1992-01-16 | 1993-07-30 | Nec Corp | データ検索方法および装置 |
JPH05250411A (ja) * | 1992-03-09 | 1993-09-28 | Nippon Telegr & Teleph Corp <Ntt> | 検索条件式作成装置 |
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2001134588A (ja) * | 1999-11-04 | 2001-05-18 | Ricoh Co Ltd | 文書検索装置 |
Also Published As
Publication number | Publication date |
---|---|
EP2104044A1 (en) | 2009-09-23 |
KR20090099657A (ko) | 2009-09-23 |
KR100931025B1 (ko) | 2009-12-10 |
US20100070506A1 (en) | 2010-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009223890A (ja) | 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法 | |
Bendersky et al. | Learning concept importance using a weighted dependence model | |
US7801887B2 (en) | Method for re-ranking documents retrieved from a document database | |
JP6299596B2 (ja) | クエリ類似度評価システム、評価方法、及びプログラム | |
US20060206483A1 (en) | Method for domain identification of documents in a document database | |
JP5534266B2 (ja) | 電子文書コレクションからクエリ結果を送付する方法、システム及び装置 | |
CN104794242B (zh) | 一种搜索方法 | |
US10430448B2 (en) | Computer-implemented method of and system for searching an inverted index having a plurality of posting lists | |
EP1987453A1 (en) | Document similarity scoring and ranking method, device and computer program product | |
JP2005327299A (ja) | オブジェクトの類似性を異種の関係に基づいて判定するための方法およびシステム | |
Song et al. | A novel term weighting scheme based on discrimination power obtained from past retrieval results | |
Azad et al. | Improving query expansion using pseudo-relevant web knowledge for information retrieval | |
Lee et al. | A deterministic resampling method using overlapping document clusters for pseudo-relevance feedback | |
US20110295861A1 (en) | Searching using taxonomy | |
Balog et al. | Category-based query modeling for entity search | |
Zhang et al. | Improving cbir by semantic propagation and cross modality query expansion | |
Lv et al. | Enhanced context-based document relevance assessment and ranking for improved information retrieval to support environmental decision making | |
EP2577495A1 (en) | Searching using taxonomy | |
Cha et al. | Topic model based approach for improved indexing in content based document retrieval | |
Wong et al. | Re-examining the effects of adding relevance information in a relevance feedback environment | |
Alma’aitah et al. | Towards adaptive structured Dirichlet smoothing model for digital resource objects | |
Bhatia et al. | A scalable approach for performing proximal search for verbose patent search queries | |
Zhu | Improvement in Probabilistic Information Retrieval Model: Rewarding Terms with High Relative Term Frequency | |
JP3880534B2 (ja) | 文書分類方法及び文書分類プログラム | |
US20060184499A1 (en) | Data search system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120221 |