JP2009223890A

JP2009223890A - 再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法

Info

Publication number: JP2009223890A
Application number: JP2009058448A
Authority: JP
Inventors: Kyu Young Whang; ヨンファン，キュ; Yi Reun Kim; イルンキム，; Jun Seok Heo; ソクホー，ジュン; Jung Hoon Lee; フンリー，ジュン; Tuan Quang Nguyen; クアングイェン，ツアン
Original assignee: Korea Advanced Institute of Science and Technology KAIST
Current assignee: Korea Advanced Institute of Science and Technology KAIST
Priority date: 2008-03-18
Filing date: 2009-03-11
Publication date: 2009-10-01
Also published as: EP2104044A1; KR20090099657A; KR100931025B1; US20100070506A1

Abstract

【課題】ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な、追加用語を用いた質疑拡張方法の提供。
【解決手段】質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張する質疑拡張過程と、前記質疑拡張過程で結合語として追加された用語を質疑に追加する質疑追加過程と、拡張された質疑内のそれぞれの用語に対して加重値を設定する加重値設定過程とを含む、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。
【選択図】図２

Description

本発明は、質疑拡張方法に係り、さらに詳しくは、ユーザの質疑に関連した新規用語を追加して質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現率(recall)を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることが可能な、追加用語を用いた質疑拡張方法に関する。

インターネット上のデータ量が増加するにつれて、データから情報を検索するための手段として検索エンジン(search engine)が広く用いられる［非特許文献１参照］。検索エンジンは、ユーザから用語の組み合わせを質疑(query)として受信した後、質疑に関連した文書(relevant documents)を検索結果として返還する。検索エンジンの効率性は、検索された文書における関連文書の占有比率を示す正確度、および関連文書に対する検索された関連文書の占有比率を示す再現率で評価される［非特許文献１］。

一般的な情報検索（information retrieval：ＩＲ）システムの語彙力(vocabulary)がユーザの語彙力とは異なるので、ユーザの意図を完璧に表現する質疑を作ることは容易ではなく、質疑に用いられた用語が、検索エンジンに格納された文書で用いられた用語と合致しないこともある［非特許文献３］。

その一例として、情報検索システムにおいて「車」と「自動車」を含む文書は「車」と関連している。この際、ユーザは「車」に関連した文書を検索したがる。ユーザの質疑に「車」という一つの用語が含まれる場合、検索エンジンは「車」を含む文書のみを返還する。

すなわち、情報検索システムはユーザの意図による関連文書を全て見せなくなり、このような不合致問題(mismatch problem)［非特許文献３］は一般に検索エンジンの正確度および再現率を低下させる。

一方、以下では本発明の背景技術である拡張ブールモデルおよび関連研究について説明する。

１．拡張ブールモデル(Extended Boolean Model)
拡張ブールモデルは、ブールモデルの検索モデル(retrieval model)とベクター空間モデル(Vector Space Model)の等級化モデル(ranking model)とを組み合わせた情報検索モデルである［非特許文献２および５］。

ブールモデルにおいて、文書は用語の集合で表示され、質疑は３つの演算子、すなわちＡＮＤ、ＯＲおよびＮＯＴによって連結された用語からなる。また、与えられた質疑に対して、質疑のブール表現を満足させる文書が検索される［非特許文献１］。

ベクター空間モデル［非特許文献６］において、文書と質疑は多次元ベクター空間内のベクターとして表示され、用語は多次元ベクター空間を形成する。文書および質疑において、それぞれの用語には実数値の加重値が与えられる。用語の加重値は「ＴＦ−ＩＤＦ用語加重値技法(TF-IDF term weighting scheme)」［非特許文献１］によって計算される。ＴＦ−ＩＤＦ用語加重値技法は、一つの文書によく現れ且つ文書コレクションの残りにはほぼ現れない用語にさらに多くの加重値を与える。文書は質疑に対する文書の類似度によって等級化される［非特許文献１］。類似度は、２つのベクター間の角のコサインである「コサイン類似度の測定(cosine similarity measure)」［非特許文献１］によって計算される。質疑

に対する文書

のコサイン類似度は式（１）で計算される。

コサイン類似度測定の意味は、２つのベクター

の内積(inner product)である。言い換えれば、類似度は文書内の質疑用語らの加重値の和である［非特許文献１］。

拡張ブールモデルは、ブールモデルとベクター空間モデルとの間に位置する情報検索モデルである［非特許文献５］。よって、拡張ブールモデルは、ブール質疑(Boolean query)と文書等級化を全て支援することができる。

図１は拡張ブールモデルに基づいた検索モデルに関するものである。拡張ブールモデルは、ブールモデルの検索モデルとベクター空間モデルの等級化モデルとを組み合わせたものである［非特許文献２および５］。したがって、ブール質疑を満足させる全ての文書が検索され、検査された文書は「コサン類似度の測定」によって等級化される［非特許文献１］。

Ｗ_A,qおよびＷ_B,qがそれぞれ質疑内における用語ＡおよびＢの加重値であると仮定し、Ｗ_A,dおよびＷ_B,dがそれぞれ文書内における用語ＡおよびＢの加重値であると仮定しよう。２つの基本ケース（ＡＮＤおよびＯＲ演算子）に対する質疑に対する文書の類似度は、式（２）に示すように、文書および質疑内における用語の加重値によって決定される。

例１．表１は文書コレクションの情報を表示したものである。この例において、文書コレクションには２つの文書ｄ_１およびｄ_２があり、ｄ_１は２つの用語「揮発油」および「車」を含み、ｄ_２は用語「揮発油」を含む。

文書ｄ_１における用語「揮発油」および「車」の加重値はそれぞれ０．４および０．３であり、文書ｄ_２における用語「揮発油」の加重値は０．９である。２つの質疑ｑ_ｏｒ＝「車」または「揮発油」、およびｑ_ａｎｄ＝「車」および「揮発油」を考慮しよう。ｑ_ｏｒおよびｑ_ａｎｄにおける「揮発油」の加重値は０．７であり、ｑ_ｏおよびｑ_ａｎｄにおける「車」の加重値は０．８であると仮定しよう。

ｑ_ｏｒの場合、拡張ブールモデルはｄ_１およびｄ_２を検索する。その理由はこれらの文書が質疑ｑ_ｏｒのブール表現を満足させるためである。ｑ_ａｎｄの場合、拡張ブールモデルはｄ_１のみを検索する。類似度は式（３）および式（４）のように計算される。類似度（ｄ_２、ｑ_ｏｒ）が類似度（ｄ_１、ｑ_ｏｒ）より大きいため、ｑ_ｏｒの場合に文書ｄ_２が文書ｄ_１より高い等級を持つ。

２．関連研究
本発明と関連のある質疑拡張方法について詳細に説明する。非特許文献２は、ドメイン適応的加重関連語集（Domain Adapted Weighted Thesaurus：ＤＡＷＩＴ）を用いた質疑拡張（ＤＡＷＩＴ方法とも呼ぶ）を提案した。ＤＡＷＩＴ方法は、質疑を構成するそれぞれの用語に関連した、「関連用語」と指称される新規用語を追加することにより、質疑を拡張させる。ＤＡＷＩＴ方法は、関連用語を発見するために関連語集(thesaurus)を使用する。

ＤＡＷＩＴ方法は、次の３つの段階を経て質疑を拡張させる。まず、ＤＡＷＩＴ方法は、関連語集を用いて質疑内のそれぞれの用語の関連用語を発見する。次いで、ＤＡＷＩＴ方法は質疑内のそれぞれの用語を用語と関連用語の分節語(disjunctions)で代替する。最後に、ＤＡＷＩＴ方法は、拡張された質疑のそれぞれの用語に新しい加重値を割り当てる。ところが、この方法はさらに多くの質疑用語を持つ文書が他の文書より高く等級化されることを保障しない。

非特許文献５は、関連性フィードバック(relevance feedback)を用いた質疑拡張を提案した。関連性フィードバックを用いた質疑拡張は、質疑拡張のために最近検査された文書から関連用語を選択し、質疑を拡張させるためにＡＮＤ演算子を用いる。ところが、この方法は、さらに多くの質疑用語を持つ文書が、そうでない他の文書よりさらに高い等級を持つようにすることを保障せず、拡張された質疑には質疑の最初用語を含まない。
Baeza-Yates,R.and Ribeiro-Neto,B.,Modern InformationRetrieval,AddisonWesley,1999. Kwon,O.W.,Kim,M.C.,and Choi,K.S.,"Query Expansion Using Domain Adapted,Weighted Thesaurus in an Extended Boolean Model,"In Proc. 3rd Int'l Conf.on Information and Knowledge Management,pp.140-146,Gaithers-burg,Maryland,Nov.1994. Xu,J.and Croft,W.B.,"Improving the Effectiveness of Information Retrieval with Local Context Analysis,"ACM Transactions on Information Systems(TOIS),Vol.18,No.1,pp.79-112,Jan.2000. Salton,G.and Voorhees,E.,"A Comparison of Two Methods for Boolean Query Relevancy Feedback,"Information Processing & Management,Vol.20,No.5,pp.637-651,Sept.1984. Salton,G.,Fox,E.A.,and Wu,H.,"Extended Boolean Information Retrieval,"Communications of the ACM,Vol.26,No.12,pp.1022-1036,1983. Salton,G.and Lesk,M.E.,"Computer Evaluation of Indexing and Text Processing,"Journal of the ACM,Vol.15,No.1,pp.8-36,Jan.1968. Clarke,C.L.A.,Cormack,G.V.,and Tudhope,E.A.,"Relevance Ranking for One to Three Term Queries,"Information Processing & Management,Vol.36,No.2,pp.291-311,Mar.2000. Hiemstra,D.,"A Linguistically Motivated Probabilistic Model of Information Retrieval,"In Proc.2nd European Conference on Research and Advanced Technology for Digital Libraries(ECDL),pp.569-584,Crete,Greece,Sept.1998. Voorhees,E.M.and Harman,D.,"Overview of the Sixth Text Retrieval Conference(TREC-6),"In Proc.6th Text Retrieval Conference,pp.1-24,Gaithersburg,Maryland,Nov.19-21,1997. Chung,Y.M.and Lee,J.Y.,"Optimization of Some Factors Affecting the Performance of Query Expansion,''Information Processing & Management,Vol.40,No.6,pp.891-917,Nov.2004.

そこで、本発明は、上述した問題点に鑑みて案出されたもので、その目的とするところは、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、且つ各用語に加重値を与えることにより、検索エンジンの再現率を低下させることなく、ユーザが要求する検索の正確度を高めることが可能な「追加用語を用いた質疑拡張方法」を提供することにある。

本発明の追加用語を用いた質疑拡張方法は、質疑モデルを定義する第１段階と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第２段階と、用語の結合語(conjunctions)として追加された用語を質疑に追加することにより、質疑を追加拡張させる第３段階と、拡張された質疑内のそれぞれの用語に加重値を設定する第４段階とを含んでなる。

この際、第２段階において、提案された質疑拡張は、外部関連語集から関連用語を選択するように、非特許文献２に記載のアルゴリズムを用いる。

第３段階において、用語の結合語として追加された用語を質疑に追加することにより、質疑を追加拡張させる。質疑用語が同時に発生する文書は、増大した用語を用いて識別できる。増大した用語を文書が含むと、その文書は増大した用語の全ての単独個体(singleton)を含む。

第４段階において、ユーザの選好度に基づいて同時発生認識用語再加重(co-occurrence aware term re-weighting)方案を提案する。この方案によって、さらに多くの質疑用語を含む文書はそうでない文書に比べて等級がさらに高くなる。

上記目的を達成するために、本発明は、（ａ）質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、（ｂ）前記（ａ）過程で結合語として追加された用語を質疑に追加する過程と、（ｃ）拡張された質疑内のそれぞれの用語に対して加重値を設定する過程とを含んでなる、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法を提供する。

また、前記（ａ）過程の前に、（ａ−１）質疑モデルを定義する過程をさらに含むことを特徴とする。

また、前記（ｃ）過程は、（ｃ−１）拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、（ｃ−２）前記（ｃ−１）段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、（ｃ−３）追加用語に対して再加重値を設定する段階とを含むことを特徴とする。

また、前記（ｃ）過程において、追加用語配位レベルが（ｎ＋１）である追加用語の加重値は、追加用語配位レベルがｎである追加用語の加重値より常に大きいことを特徴とする。

また、前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする。

また、前記類似度は、２つの用語ｘ、ｙ間の相互情報（ＭＩ）値であって、

によって計算されることを特徴とする。

また、前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする。

上述した本発明によれば、ユーザの質疑に関連した新規用語を追加することにより質疑を拡張し、各用語に加重値を与えることにより、検索エンジンの再現性を低下させることなく、ユーザが要求する検索の正確度(precision)を高めることができるという効果がある。

本発明に係る拡張ブールモデルに基づいた検索モデルに関する概念図である。本発明に係る追加用語を用いた質疑拡張方法に関する全体流れ図である。本発明に係る質疑内の最初用語と関連用語を示す一例示図である。本発明に係る図３ａに示した用語を用いて質疑拡張の例を示す一例示図である。本発明に係る拡張された質疑内それぞれの用語に加重値を設定する第４過程に関する細部流れ図である。

本発明の具体的特徴および利点は、添付図面に基づいた下記の詳細な説明によってさらに明白になるであろう。これに先立ち、本発明に関連した公知の機能およびその構成に対する具体的な説明が本発明の要旨を無駄に乱すおそれがあると判断される場合には、その具体的な説明を省略したことに留意すべきであろう。

以下に添付図面を参照しながら、本発明について詳細に説明する。

本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法について図２〜図４を参照して説明すると、次の通りである。

図２は本発明に係る再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法に関する全体流れ図である。本発明に係る追加用語を用いた質疑拡張方法は、図２に示すように、質疑モデルを定義する第１過程（Ｓ１０）と、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第２過程（Ｓ２０）と、結合語として追加された追加用語を質疑に追加する第３過程（Ｓ３０）と、拡張された質疑内のそれぞれの用語に対して加重値を設定する第４過程（Ｓ４０）とを含んでなり、以下、その細部段階を詳細に考察する。

まず、質疑モデルを定義する（Ｓ１０）。本発明では、式（５）に示したように、ｍ個の用語（ｔ_１、ｔ_２、・・・、ｔ_ｍ）の分節語である質疑を取り扱う。

それぞれの用語は単独個体であり、用語ｔ_ｉ（１≦ｉ≦ｍ）を最初用語として、質疑ｑを最初質疑としてそれぞれ定義する。以下の説明で使用される表記法を定義すると、表２のとおりである。

その後、質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる第２過程を行う（Ｓ２０）。

具体的に、質疑内の用語に関連した用語を選択する。例えば、質疑内の用語に関連した用語として、質疑が「揮発油」の場合には「ガソリン」という用語が選択でき、質疑が「車」の場合には「自動車」という用語が選択できる。

質疑内の最初用語ｔ_ｉ（１≦ｉ≦ｍ）はｐ_ｉ個の関連用語ｔ_１、ｔ_２、・・・、ｔ_ｐｉを有し、それぞれの用語ｔ_ｉの関連用語の集合は

で表わすことができる。

用語ｔ_ｉは

に拡張され、

で表わすことができる。すなわち、質疑内のそれぞれの用語を最初用語と関連用語の分節語で代替させる。

したがって、前記式（５）における質疑は、式（６）のような質疑に拡張される。

この際、関連用語の選択は最初用語と関連用語間の類似度による。用語間の類似度は「相互情報（Mutual Information：ＭＩ）」[非特許文献２参照]によって測定する。用語間の類似度および相互情報に関する内容は第４過程の説明で詳細に考察する。

次いで、前記式（６）内に結合語(conjunctions)として追加された用語を質疑に追加する第３過程を行う（Ｓ３０）。

ユーザは、ｎ個の質疑用語を含む文書より、（ｎ＋１）個の質疑用語を含む文書を選好する［非特許文献７および８］。したがって、本発明ではいわゆる「配位レベル(coordination level)」［非特許文献７］を文書内に含まれた質疑用語の個数として使用する［非特許文献７］。下記の定義および実施例によって第３過程（Ｓ３０）を詳細に考察する。

定義１：ｑを用語の分節語からなる質疑と仮定し、Ｒを質疑ｑの最初用語および関連用語の集合と仮定する。また、ｔは質疑ｑの用語と仮定する。この際、ｔの質疑様相(query aspect)は用語ｔおよびｔの関連用語を含むＲの部分集合と定義する。

定義２：ｑを用語の分節語からなる質疑と仮定し、Ｒを質疑ｑの最初用語及び関連用語の集合と仮定する。また、追加用語τはＲ内の用語の結合語と定義する。ここで、τ内のそれぞれの単独個体は一つの個別的な質疑様相に属する。

定義３：τの追加用語配位レベルはτ内の単独個体の個数と定義する。

下記の一例は前記定義１、定義２、定義３に対するものである。質疑ｑ＝「揮発油」または「車」または「販売」としよう。この際、用語「ガソリン」は「揮発油」の関連用語であり、用語「自動車」は「車」の関連用語であり、用語「売却」は「販売」の関連用語である。また、Ｒ＝｛「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」｝である。ここで、３つの質疑様相があるが、「揮発油」の質疑様相は｛「揮発油」、「ガソリン」｝であり、「車」の質疑様相は｛「車」、「自動車」｝であり、「販売」の質疑様相は｛「販売」、「売却」｝である。この際、（「揮発油」および「車」）、（「揮発油」および「自動車」）は２つの単独個体を含むので、追加用語配位レベルは２である。また、（「揮発油」および「車」および「販売」）は３つの単独個体を含むので、追加用語配位レベルは３である。そして、「揮発油」および「車」が文書ｄ内で同時発生すると、文書ｄが追加用語（「揮発油」および「車」）を含むという。

本発明では、質疑用語が現れる文書を識別する。追加用語が質疑用語の同時発生を表現するので、文書は追加用語を用いて識別できる。文書が追加用語を含むならば、文書は追加用語の単独個体も含む。また、文書には一つまたは複数の追加用語が現れる。これを質疑として表現するために、与えられた質疑ｑはその追加用語が分節演算子を用いて結合される。

ｌ個の追加用語τ_１、τ_２、…、τ_ｌがあると仮定すると、式（６）における質疑は式（７）のような質疑に拡張される。

図３ａは質疑内の最初用語と間連用語を示す一例示図、図３ｂは質疑拡張の例を示す一例示図である。最初質疑に含まれた用語は「揮発油」、「車」、「販売」であり、最初質疑にこのような関連用語を追加させる。

すなわち、質疑が（「揮発油」ＯＲ「ガソリン」）ＯＲ（「車」ＯＲ「自動車」）ＯＲ（「販売」ＯＲ「売却」）に拡張され、追加用語（「ガソリン」、「自動車」、「売却」）が質疑にさらに追加されることにより、質疑は［（「揮発油」ＯＲ「ガソリン」）ＯＲ（「車」ＯＲ「自動車」）ＯＲ（「販売」ＯＲ「売却」）ＯＲ（「揮発油」ＡＮＤ「車」）ＯＲ（「揮発油」ＡＮＤ「自動車」）……ＯＲ（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）ＯＲ…］に拡張される。

次いで、拡張された質疑内のそれぞれの用語に対して加重値を設定する第４過程を行う（Ｓ４０）。具体的に、図４に示すように、拡張された質疑内の用語の集合Ｔを抽出し、拡張された質疑内の用語を３つの類型の用語、すなわち最初用語、関連用語および追加用語に分類する（Ｓ４２）。Ｓ４２段階によって分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加し（Ｓ４４）、追加用語に対して再加重値を設定する（Ｓ４６）。

この際、最初用語には１．０の加重値を設定し、関連用語は最初用語との類似度を計算して加重値を設定し、追加用語は配位レベルと類似度によって加重値を設定する。

関連用語の加重値は、非特許文献２に記載されたアルゴリズムを用いて計算する。前記相互情報（Mutual Information：ＭＩ）は用語間の類似度であって、本発明では関連用語の加重値を、最初用語との類似度を計算して設定することにする。

２つの用語ｘ、ｙ間の相互情報（ＭＩ）、すなわち類似度はｙ内に含まれたｘの情報およびその反対を測定する。すなわち、２つの用語ｘ、ｙ間の値は式（８）のとおりであり、その値は［０，１］内でｌｏｇによって正規化される［非特許文献１０］。

この際、全体個数は文書コレクション内における用語の総個数を示す。

追加用語に対する加重値を計算する方法は下記のとおりである。τは追加用語であり、｜τ｜は追加用語の配位レベルである。追加用語の加重値を設定するために、本発明では、追加用語配位レベルに対する単調関数を使用し、追加用語配位レベル（ｎ＋１）の追加用語の加重値を追加用語配位レベルｎの追加用語の加重値より常にさらに大きく設定する。

本発明で追加用語の加重値を計算するために使用する関数は１０^｜τ｜である。一例として、追加用語配位レベル２の追加用語の加重値は１００と設定し、追加用語配位レベル３の追加用語の加重値は１０００と設定する。

その後、追加用語に対して再加重値を設定するために、追加用語τ内の用語の類似度を使用する。追加用語の加重値は追加用語内の各用語の加重値の和によって異なり、質疑ｑ内の追加用語τの加重値は式（９）で計算される。

図３ｂの説明で考察した拡張された質疑の一部分を参照して、拡張された質疑内のそれぞれの用語に加重値を設定する第４過程について詳細に説明すると、次のとおりである。

最初用語（ｑ）＝「揮発油」ＯＲ「車」ＯＲ「販売」
ｑ_ｅｘｐ＝拡張された質疑（ｑ）＝（「揮発油」ＯＲ「ガソリン」）ＯＲ（「車」ＯＲ「自動車」）ＯＲ（「販売」ＯＲ「売却」）ＯＲ（「揮発油」ＯＲ「車」）ＯＲ（「揮発油」ＡＮＤ「自動車」）ＯＲ……ＯＲ（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）ＯＲ…の場合、
拡張された質疑内の用語の集合Ｔは、
Ｔ＝｛「揮発油」、「車」、「販売」、「ガソリン」、「自動車」、「売却」、（「揮発油」ＡＮＤ「車」）、（「揮発油」ＡＮＤ「自動車」）、（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）、…｝で表わすことができる。

すなわち、最初用語は「揮発油」、「車」、「販売」であり、関連用語は「ガソリン」、「自動車」および「売却」であり、追加用語は（「揮発油」ＡＮＤ「車」）、（「揮発油」ＡＮＤ自動車」）、および（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）である。

次いで、拡張された質疑ｑ_ｅｘｐ内のそれぞれの用語の加重値を計算する。

用語「揮発油」、「車」および「販売」は最初用語なので１．０の加重値を有し、関連用語「ガソリン」、「自動車」および「売却」の加重値は式（８）によってそれぞれ０．９、０．８および０．７に計算される。

（「揮発油」ＡＮＤ「車」）、（「揮発油」ＡＮＤ「自動車」）および（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）のような追加用語の加重値は、式（９）によってそれぞれ１０２、１０１．８、および１００３に計算される。

つまり、追加用語配位レベル３の追加用語、すなわち（「揮発油」ＡＮＤ「車」ＡＮＤ「販売」）の加重値が追加用語配位レベル２の追加用語、すなわち（「揮発油」ＡＮＤ「車」）および（「揮発油」ＡＮＤ「自動車」）の加重値より大きい。

そして、最初用語の加重値が関連用語の加重値より大きい。よって、同一の追加用語配位レベルを持つ追加用語（「揮発油」ＡＮＤ「車」）は、追加用語（「揮発油」ＡＮＤ「自動車」）よりさらに大きい加重値が設定される。

このように、追加用語を用いた質疑拡張の効率性とＤＡＷＩＴ方法［非特許文献２］を用いた質疑拡張の効率性とを比較するために、広範囲な実験を行った。特定の文書コレクションＴＲＥＣ−６［非特許文献９］を用いた実験結果は、増大した用語を用いた質疑拡張が、ＤＡＷＩＴ方法［非特許文献２］を用いた質疑拡張を凌いで正確度の側面で最大１０２％だけ、そして上位１０個の検索された文書に対する再現率の側面では最大１５７％だけ高い結果を示した。

Claims

再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法において、
（ａ）質疑内のそれぞれの最初用語に関連した新しい関連用語を選択して追加することにより、質疑を拡張させる過程と、
（ｂ）前記（ａ）過程で結合語として追加された用語を質疑に追加する過程と、
（ｃ）拡張された質疑内のそれぞれの用語に加重値を設定する過程とを含んでなることを特徴とする、再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記（ａ）過程の前に、
（ａ−１）質疑モデルを定義する過程をさらに含むことを特徴とする、請求項１に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記（ｃ）過程は、
（ｃ−１）拡張された質疑内の用語の集合を抽出し、拡張された質疑内の用語を最初用語、関連用語および追加用語に分類する段階と、
（ｃ−２）前記（ｃ−１）段階で分類された最初用語、関連用語および追加用語それぞれの加重値を設定して質疑に追加する段階と、
（ｃ−３）追加用語に対して再加重値を設定する段階とを含むことを特徴とする、請求項１に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記（ｃ）過程において、追加用語配位レベルが（ｎ＋１）である追加用語の加重値は、追加用語配位レベルがｎである加重値より常に大きいことを特徴とする、請求項１に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記関連用語は、最初用語との類似度を計算して加重値が設定されることを特徴とする、請求項１に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記類似度は、２つの用語ｘ、ｙ間の相互情報（ＭＩ）値であって、

によって計算されることを特徴とする、請求項５に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。
前記追加用語は、最初用語および関連用語より常に高い加重値を持つことを特徴とする、請求項３に記載の再現率の低下なしに正確度を向上させるための追加用語を用いた質疑拡張方法。