JP2000105768A - Device for calculating feature amount of inquiry document, and method therefor - Google Patents

Device for calculating feature amount of inquiry document, and method therefor

Info

Publication number
JP2000105768A
JP2000105768A JP27349298A JP27349298A JP2000105768A JP 2000105768 A JP2000105768 A JP 2000105768A JP 27349298 A JP27349298 A JP 27349298A JP 27349298 A JP27349298 A JP 27349298A JP 2000105768 A JP2000105768 A JP 2000105768A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
document
amount
feature
inquiry
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP27349298A
Other languages
Japanese (ja)
Inventor
Daijiro Mori
Masakatsu Okubo
Masayuki Sugizaki
Kazuo Tanaka
雅且 大久保
正之 杉崎
大二郎 森
一男 田中
Original Assignee
Nippon Telegr & Teleph Corp <Ntt>
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PROBLEM TO BE SOLVED: To provide a method for calculating the feature amount of an inquiry document for calculating feature amount suited to an inquiry content. SOLUTION: An inquiry document feature amount calculating part 3 calculates inquiry document feature amount for quantitatively describing the features of an inquiry document for each inquiry document in an inquiry document group. An answer document feature amount calculating part 4 calculates answer document feature amount for quantitatively describing the features of each answer document for each answer document in an answer document group. An inquiry document synthetic feature amount calculating part 5 inputs the inquiry document feature amount and the answer document feature amount, calculates correction feature amount corresponding to the answer document feature amount according to a prescribed relation, synthesizes the inquiry document feature amount with the correction feature amount, and outputs the synthesizsed result as the final feature amount of the inquiry document.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、問合せに対して回答を行う業務を通して得られる情報を蓄積し、検索・分類・自動応答などの諸機能を実現する際に必要な問合せ文書の特徴量計算装置および方法に関する。 BACKGROUND OF THE INVENTION The present invention is to store information obtained through work which answers to queries, the feature quantity calculation query document needed to implement the various functions such as search, categorization, and automatic responses apparatus and a method for.

【0002】 [0002]

【従来の技術】計算機技術の発展に伴い、大量の蓄積文書を対象として検索や分類を行うことが可能になった。 With the development of the Prior Art] computer technology, it has become possible to perform a search and classification as a target a large number of stored document.
検索や分類などの処理を高速かつ高精度に行うために、 Processes such as search and classification in order to perform fast and accurate,
対象となる文書の特徴量をあらかじめ抽出する技術が一般に用いられる。 Previously extracted technology the characteristics of the document of interest is generally used. 文書の特徴量を計算する方法として、 As a method for calculating the characteristics of the document,
以下のものが知られている。 The following are known.

【0003】まず文書を、文字列や単語や文節を単位とする要素に分解し、要素の出現頻度や長さによってその重要度を算出する。 [0003] The first document, broken down into elements that a string or a word or phrase as a unit, and calculates the degree of importance by the appearance frequency and length of the element. これらの要素毎の重要度を成分とするベクトル(各要素を基底とし、重要度を成分とするベクトル)を文書の特徴量とする。 Vector the importance of each of these elements as a component (each element is a base vector whose components importance) to the characteristics of the document.

【0004】あるいは、単語などの要素を直接ベクトル空間の基底にとるのではなく、文書に含まれる要素間の関連度を所定の方法で算出し、関連度の高い要素が相互に近傍に位置するように、予め定められたn次元のベクトル空間上に要素を適宜配置して各要素をそのn次元のベクトル空間上のベクトルに対応させておき、文書の特徴を計算するとき当該文書を構成する各要素を抽出し、 [0004] Alternatively, instead of taking the element basis of the direct vector space, such as a word, calculates a degree of relevance between elements included in a document in a predetermined manner, a high degree of association element is positioned near to each other as described above, were allowed to correspond to each element by appropriately arranging the elements on the vector space of n dimensions predetermined to a vector of a vector space of n dimensions, constitutes the document when calculating the characteristics of the document extracts each element,
抽出された要素に対応するベクトルの、上記ベクトル空間上におけるベクトル和を求めて特徴量を計算する方法も知られている。 The vector corresponding to the extracted elements, is also known a method of calculating the feature quantity seeking vector sum on the vector space.

【0005】 [0005]

【発明が解決しようとする課題】上記の従来の技術においては、いずれも、特徴を求める対象となる問合せ文書そのものに含まれる要素を抽出し、これに基づいて文書の特徴量を計算している。 In THE INVENTION It is an object of the prior art, either, to extract elements contained in the query document itself to be seeking feature, and calculating the characteristics of the document based on this .

【0006】しかし、不特定多数の人から受ける問合せ文書は、使用される語彙や表現が人によって異なる傾向が強い。 [0006] However, the inquiry documents received from an unspecified number of people, a strong tendency different vocabulary and expressions that are used by people. したがって、文書に含まれる要素から特徴量を計算すると、問合せの内容が同一であっても、特徴量が一致しない場合が多く発生する。 Therefore, calculating a feature from the elements included in the document, even if the same contents of the inquiry, if the feature amount is not identical often occur.

【0007】本発明は、上述の従来の技術に見られる課題に鑑みてなされたもので、従来の方法よりも問合せの内容に適合した特徴量を計算することができる、問合わせ文書の特徴量計算方法およびその装置を提供することを目的とする。 [0007] The present invention has been made in view of the problems found in the prior art described above, it is possible to calculate the feature amount suitable for the contents of the query than conventional methods, the feature quantity of inquiry document and to provide a calculation method and apparatus.

【0008】 [0008]

【課題を解決するための手段】従来の技術においては、 In SUMMARY OF THE INVENTION The prior art,
問合せ文書から抽出される特徴のみによって特徴量を計算していたのに対して、本発明では、該問合せ文書に対応する回答文書から抽出される特徴に基づいて問合せ文書の特徴量を修正することによって、最終的な特徴量を計算する。 For example G to calculate the feature quantity only by features extracted from the query document, in the present invention, modifying the feature amount of the query document based on features extracted from the answer documents corresponding to the query document by calculating the final feature quantity.

【0009】そのために、本発明の問合せ文書特徴量計算装置は、問合せ文書特徴量計算部と回答文書特徴量計算部と問合せ文書合成特徴量計算部とを備えている。 [0009] Therefore, the query document feature value computing device of the present invention, and a query document combining the feature amount calculating unit and the answer document feature quantity calculating unit and the query document feature quantity calculating unit. 問合せ文書特徴量計算部は、問合せ文書の特徴を定量的に記述する問合せ文書特徴量を問合せ文書集合中の各問合せ文書について計算する。 Query document feature quantity calculating unit calculates for each query document query document set in quantitatively describe query document feature quantity the feature of the query document. 回答文書特徴量計算部は、各回答文書の特徴を定量的に記述する回答文書特徴量を回答文書集合中の各回答文書について計算する。 Answer document feature quantity calculating unit calculates for each answer document in the answer document set quantitatively describe answer text feature quantity characteristics of each answer document. 問合せ文書合成特徴量計算部は問合せ文書特徴量と回答文書特徴量とを入力し、所定の関係によって回答文書特徴量に対応する修正特徴量を演算し、問合せ文書特徴量と修正特徴量とを合成してその合成結果を当該問合せ文書の最終特徴量として出力する。 Contact Article synthesized characteristic quantity calculation unit inputs the answer text feature quantity with the query document feature amount, calculates a correction feature amount corresponding to the answer document feature quantity by a predetermined relationship, and a modified characteristic quantity with the query document feature quantity synthesis and outputs the synthesis result as a final feature amount of the query document.

【0010】本発明の問合せ文書特徴量計算方法は、複数の問合せ文書と、各問合せに対する回答文書とを対応付けて管理し、各問合せ文書の特徴量を計算する問合せ文書特徴量計算方法であって、問合せ文書の特徴を定量的に記述する問合せ文書特徴量を、問合せ文書集合中の各問合せ文書について計算する問合せ文書特徴量計算処理と、回答文書の特徴を定量的に記述する回答文書特徴量を、回答文書集合中の各回答文書について計算する回答文書特徴量計算処理と、問合せ文書特徴量と前記回答文書特徴量とに基づいて、所定の関係によって前記回答文書特徴量に対応する修正特徴量を演算し、問合せ文書特徴量と修正特徴量とを合成してその合成結果を当該問合せ文書の最終特徴量として出力する問合せ文書合成特徴量計算処理を含 [0010] query document feature quantity calculation method of the present invention, there query document feature quantity calculation method in which a plurality of query document, and managed in association with the answer text for each query, calculates the feature amount of each query document Te, quantitatively describe query document feature quantity the feature of the query document, the query document feature quantity calculation process for calculating for each query document query document set in quantitatively describe Answer document feature characteristic of answer text amounts, and answer text feature quantity calculation process for calculating for each answer document answer document set in, on the basis of said answer document feature quantity with the query document feature quantity correction corresponding to the reply document feature quantity by a predetermined relationship calculating a feature quantity, including a query document synthesis feature quantity calculation process of outputting the combination result as a final feature amount of the query document by synthesizing the modified characteristic quantity with the query document feature quantity でいる。 They are out.

【0011】 [0011]

【作用】前述のように、問合せ文書において、使用される語彙や表現が多様であるため、そこから抽出される特徴量が、問合せの内容と合致しない場合がある。 [Action] As described above, in the query document, because the vocabulary and expressions used are diverse, feature amounts extracted therefrom, may not match the contents of the query. 一方、 on the other hand
不特定多数の人から受ける問合せに回答する業務においては、問合せ文書を作成する人の数に比べて、回答文書を作成する人の数の方が少ないので、回答文書に現れる語彙や表現は、問合せ文書のそれと比べてより一様であり、同一の問合せ内容に対しては、同一の語彙や表現を用いた回答文書が作成される傾向が強い。 In the business to respond to a query received from an unspecified number of people, compared to the number of people to create a query document, because the people of the number of people to create an answer document is small, the vocabulary and expressions that appear in the answer document, Us is more uniform than that of the document, for the same query content, strong tendency to answer document using the same vocabulary and expressions is created. したがって、 Therefore,
問合せ文書から抽出された特徴量に対して、所定の関係によって回答文書特徴量に対応する修正特徴量を演算し、問合せ文書特徴量と修正特徴量とを合成することによって、従来の技術よりも問合せ内容に適合した最終特徴量を計算することが可能になる。 The feature quantity extracted from the query document, calculates a correction feature amount corresponding to the answer document feature quantity by a predetermined relationship, by combining the modified characteristic quantity with the query document feature quantity, than the prior art it is possible to calculate the final feature amount suitable for the inquiry.

【0012】修正特徴量としては、回答文書特徴量に所定の定数を乗算し、その乗算結果を修正特徴量とすることができる。 [0012] As the modified feature quantity, multiplied by a predetermined constant to the answer document feature quantity may be a modified characteristic quantity the multiplication result. また、問合せ文書の特徴と回答文書の特徴との間の共通する特徴成分を抽出して定量的に評価し、 Further, quantitatively evaluated by extracting common features component between the features of the characterizing and the answer document query document,
その共通する特徴成分の評価量を修正特徴量とすることができる。 It can be modified feature quantity evaluation of its common feature components. さらに、回答文書集合中の2つの回答文書の組の類似度を計算し、その類似度を重率として問合せ文書特徴量を合成し、その合成結果を修正特徴量とすることもできる。 Furthermore, the two sets of similarity answer texts answer document set in calculates the degree of similarity by combining the query document feature quantity as a heavy rate, it may be its modifying the synthesis results feature amount. このようにして、回答文書から抽出される特徴を問い合わせ文書特徴量に反映させることができる。 In this manner, it is possible to reflect the features extracted from the answer documents to a query document feature quantity.

【0013】 [0013]

【発明の実施の形態】次に、図面を参照して本発明の特徴量計算装置の実現形態を説明する。 DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, with reference to the drawings an implementation of the feature quantity calculation apparatus of the present invention. 本実施形態の特徴量計算装置は、本発明の特徴量計算方法を実施するための装置である。 Feature quantity calculation device of this embodiment is an apparatus for carrying out a feature quantity calculation process of the present invention.

【0014】図1は特徴量計算装置のシステム構成を示すブロック図である。 [0014] Figure 1 is a block diagram showing the system configuration of the feature value computing device. 図2は、図1のデータベース管理部2に保持されている問合せ・回答対応表の概念図である。 Figure 2 is a conceptual diagram of a query-reply correspondence table held in the database management unit 2 of Figure 1. 本実施形態の特徴量計算装置は、文書データベース1、データベース管理部2、問合せ文書特徴量計算部3、回答文書特徴量計算部4、問合せ文書合成特徴量計算部5、問合せ文書特徴量計算部6を備えている。 Feature quantity calculation device of this embodiment, the document database 1, the database management unit 2, a query document feature quantity calculator 3, the answer text feature quantity calculator 4, query document synthesized characteristic quantity calculation section 5, a query document feature quantity calculator It is equipped with a 6.

【0015】文書データベース1には、問合せ文書と回答文書が格納されている。 [0015] in the document database 1, inquiry document and answer document is stored. データベース管理部2は、文書データベース1から問合せ文書または回答文書を取り出す機能を有する。 Database management unit 2 has a function to retrieve the query document or answer documents from the document database 1. さらに、データベース管理部2は、 In addition, the database management unit 2,
図2に示すような問合せ・回答対応表を備えており、問合せ文書をキーとして該問合せ文書に対応する回答文書を取り出し、また、回答文書をキーとして、回答文書に対応する問合せ文書を取り出すことができる。 Includes a query-reply correspondence table as shown in FIG. 2, retrieves the reply documents corresponding to the query document query document as a key, also, the answer text as a key, to retrieve the query document corresponding to the answer document can. 図2の向かって右側の図は図1の文書データベース1であり、図2の向かって左側の図が問合せ・回答対応表を表す。 Figure on the right side of FIG. 2 is a document database 1 of Figure 1, representing a query-reply correspondence table diagram left side of FIG. 図示されているように、問合せ・回答対応表はレコード番号フィールド、問合せ文書識別情報フィールド、当該問合せ文書に対応する回答文書の回答文書識別情報フィールドを含んでいる。 As shown, query-reply correspondence table includes a record number field, query the document identification information field, a reply document identification information field of the reply document corresponding to the query document.

【0016】回答文書特徴量計算部4および問合せ文書特徴量計算部3は、複数の成分から構成される特徴量を、文書の内容に即して抽出する。 The answer text feature amount calculating unit 4 and the query document feature quantity calculating unit 3, the feature amount including a plurality of components, is extracted in line with the content of the document. これらの特徴量計算部3、4は特徴を構成する複数の成分(以下、特徴成分と記す)から構成される特徴量を、文書の内容に即して抽出する手段であれば、いずれも本発明において適用可能である。 A plurality of components these feature quantity calculator 3 and 4 constituting a feature (hereinafter, referred to as characteristic component) feature amounts comprised, if means for extracting in line with the content of the document, the both it is applicable in the invention. 本実施形態では、文書の各文を形態素解析して単語に分解し、各単語の出現頻度を成分とする特徴ベクトルによって特徴量を表すものとする。 In this embodiment, decomposed into words by morphological analysis each sentence of the document, is intended to refer to the feature quantity by a feature vector and the frequency of occurrence of each word component.

【0017】問合せ文書合成特徴量計算部5は、問合せ文書特徴量と、回答文書特徴量を合成し、最終的な問合せ文書特徴量を生成し、問合せ文書特徴量テーブル6 The query document synthesized characteristic quantity calculation section 5 includes a query document feature amount, and combining the answer text feature amount, to generate the final query document feature amount, inquiry document feature quantity table 6
に、問合せ文書番号と最終的な問合せ文書特徴量を記録する。 In records the query document number and the final query document feature quantity.

【0018】図1の問合せ文書特徴量計算装置は次のように動作する。 The query document feature value computing device of FIG. 1 operates as follows.

【0019】データベース管理部2は文書データベース1から、対応する問合せ文書と回答文書を取り出し、それぞれについて問合せ文書特徴量計算部および回答文書特徴計算部により問合せ文書特徴量および回答文書特徴量を計算する。 [0019] from the database management unit 2 document database 1, the corresponding query document and answer text extraction, to calculate the query document features and answer text feature amount by the query document feature quantity calculating unit and the answer document characteristic calculation section for each . 問合せ文書合成特徴量計算部5は、問合せ文書特徴量と、所定の関係で回答文書特徴量に対応する修正特徴量とを合成し、問合せ文書特徴量テーブル6 The query document synthesized characteristic quantity calculation section 5, synthesizes the query document feature quantity, and a modification feature amount corresponding to the answer document feature quantity in a predetermined relationship, query document feature quantity table 6
に、問合せ文書番号と最終的な問合せ文書特徴量(以下、最終問合せ文書特徴量と記す)を記録する。 , The query document ID and the final query document feature quantity (hereinafter referred to as final query document feature amount) is recorded. 次に、 next,
問合せ文書特徴量計算部3および回答文書特徴計算部4 Contact document feature quantity calculating unit 3 and answer document characteristic calculation section 4
(以下、特徴量計算部と総称する)、問合せ文書合成特徴量計算部5の動作について更に詳細に説明する。 (Hereinafter collectively referred to as the feature amount calculation unit), further detailed description will be given of the operation of the query document synthesized characteristic quantity calculation section 5.

【0020】図3は特徴量計算部の処理フローを示す図である。 [0020] FIG. 3 is a diagram depicting a processing flow of the feature amount calculation unit. まず、各文書i(1≦i≦M、Mは文書総数) First, each document i (1 ≦ i ≦ M, M is the total number of documents)
を形態素解析し(ステップS1)、文書の各文を単語に分解する。 The morphological analysis decomposing (step S1), and each sentence of the document into words. 次に、単語リストを生成し(ステップS Then, to generate a word list (step S
2)、各単語j(1≦j≦N、Nは文書集合における全単語数)の出現頻度tf(i,j)を計算する(ステップS 2), each word j (1 ≦ j ≦ N, N calculates the appearance frequency tf (i, j) of the total number of words) in the document set (step S
3)。 3). 次に、各単語j毎に重み付け処理をする(ステップS4)。 Next, a weighting processing for each word j (step S4). 本実施形態においては、重率は、log(M/df In this embodiment, the heavy constant, log (M / df
(j))とする。 And (j)). ここで、df(j)は文書集合における単語j Here, df (j) the word in the document set j
の出現回数である。 Is the number of occurrences of. (この重率は次の意味をもつ。一般にある文書に「特定」の単語が高い頻度で使用されているときには、その文書は、その特定単語の内容によって特徴付けられる。しかし、ある単語が、どの文書にも共通して高い頻度で使用されている場合には、その単語は当該文書を特徴付ける単語ということはできない。df (When the word "specific" The heavy rate for documents in. Generally having the following meanings is used frequently, the document is characterized by the contents of that particular word. However, there is a word, .df which when document are also used in common to a high frequency, that the word can not be called a word characterizing the document
(j)/Mは、単語jの1文書当たりの出現頻度である。 (J) / M is the frequency of occurrence of per document of the word j. df df
(j)/Mが大きいということは、その単語が、どの文書にも共通して高い頻度で使用されていることを意味する。 (J) / M that is large, the word means that are used in common to a high frequency in any document.
log(M/df(j))は、1文書当たり、平均10回の出現頻度の単語に、1文書当たり、平均100回の出現頻度をもつ単語の2倍の重率を与える重み付け処理である)。 log (M / df (j)) is per document, the word frequency of occurrence of an average 10 times, per document, is the weighting process to give twice the weight ratio of the word with a frequency of occurrence of the average 100 times ).

【0021】この重み付け処理によって文書iの特徴ベクトルFV(i)のj成分(単語1,2,3..j..Nを基底とするN [0021] N to base the j component (word 1,2,3..j..N feature vectors FV of document i by the weighting process (i)
次元ベクトル空間のj成分)w(i,j)は、 w(i,j) = tf(i,j)・log(M/df(j)) (1) になる。 Dimensional vector j component of a spatial) w (i, j) is, w (i, j) = tf (i, j) · log (M / df (j) becomes) (1). したがって、文書iの特徴ベクトルFV(i)は次式で表される。 Therefore, the feature vector FV (i) of document i is expressed by the following equation.

【0022】 FV(i) = (w(i,1),... w(i,j),... w(i,N)) (2) このようにして、特徴量計算部3,4は文書に含まれる各単語に基づいて、特徴ベクトルFV(i)を計算する。 [0022] FV (i) = (w (i, 1), ... w (i, j), ... w (i, N)) (2) In this way, the feature amount calculating section 3, 4, based on the words contained in the document, to calculate a feature vector FV (i).

【0023】ここでは、ベクトルの成分は単語全般としているが、文書の特徴を表すのに適当な単位として、自立語のみを要素とする方法や、接辞や複合語を含めて要素とする方法、名詞句に含まれる単語列を要素とする方法をも用いることができる。 [0023] Here, the method is the component of the vector is set to a word in general, suitable unit for representing the characteristics of the document, that only the independent words and how an element, the element including affixation and compounding how to the word string elements included in the noun phrase it can also be used. また、問い合わせ文書特徴量計算部3と解答文書特徴量計算部4とで、異なる方法で特徴量を計算することができる。 Further, in the query document feature quantity calculating unit 3 and Answers document feature quantity calculation unit 4, it is possible to calculate the characteristic amount in a different way.

【0024】図4は問合せ文書集合と回答文書集合との対応を示す図である。 [0024] FIG. 4 is a diagram showing the correspondence between answer document set the query document set. 文書集合は問合せ文書q iと、対応する回答文書a iとの対で構成されている。 Document set is composed of a pair of the query document q i, the corresponding answer document a i. しかし、本実施形態においては、式(1)、式(2)のような数値を計算するときには、問合せ文書集合と回答文書集合は独立の文書集合と見做し、前記の各数値も独立に算出するものとする。 However, in this embodiment, Equation (1), when calculating the numerical values ​​as in equation (2) to query document set and responses document set is regarded as the set of documents independently, each value of the even independently It shall be calculated. また、問合せ文書と、これに対応する回答文書については文書番号は同一とする。 Also, a query document, the document ID for the reply document corresponding thereto shall be the same.

【0025】次に、本実施形態の問合せ文書合成特徴量計算部5について説明する。 Next, a description will be given query document synthesized characteristic quantity calculating unit 5 of the present embodiment. 本実施形態の問合せ文書合成特徴量計算部5は、回答文書特徴量と問合せ文書特徴量との両者に基づいて最終問合せ文書特徴量を計算する。 Contact Article synthesized characteristic quantity calculating unit 5 of the present embodiment calculates the final query document feature amount based on both the query document feature quantity and the answer document feature quantity.

【0026】問合せ文書合成特徴量計算部5の第1の実施例においては、回答文書の特徴ベクトル FV(a i ) = (a(i,1), a(i,2)..., a(i,j)..., a(i,S)) (3) に所定の重率Cを乗算して問合せ文書の特徴ベクトル FV(q i ) = (q(i,1), q(i,2)..., q(i,j)..., q(i,S)) (4) に加算して、その加算結果、すなわち、 FV'(q i ) = (q(i,1)+C a(i,1),...,q(i,j)+C a(i,j),..., q(i,S)+C a(i,S)) (5) を問合せ文書の最終特徴ベクトルとする。 [0026] In a first embodiment of a query document synthesized characteristic quantity calculation section 5, a feature vector FV answer document (a i) = (a ( i, 1), a (i, 2) ..., a (i, j) ..., a (i, S)) ( feature vector FV (q i of 3) by multiplying a predetermined weight ratio C query document) = (q (i, 1 ), q ( i, 2) ..., q ( i, j) ..., q (i, S)) (4) is added to, the addition result, i.e., FV '(q i) = (q (i , 1) + C a (i, 1), ..., q (i, j) + C a (i, j), ..., q (i, S) + C a (i, S)) (5) a final feature vector of the query document. ここで、q i Here, q i,
a iはそれぞれ文書番号iの問合せ文書および回答文書である。 a i is the inquiry documents and answer document of each document number i. また、a(i,j)は文書番号iの回答文書の特徴ベクトルFV(a i )のj成分(該成分が存在しなければ0)である。 Moreover, it is a (i, j) j component of the feature vector FV answer texts article number i (a i) is (0 if there is no ingredients). q(i,j)は文書番号iの問合せ文書の特徴ベクトル q (i, j) is the feature vector of the query document article number i
FV(q i ) のj成分(該成分が存在しなければ0)である。 A FV j component of (q i) (0 if there is no ingredients).
Sは回答文書および問合せ文書を合わせた全文書集合における全単語数である。 S is the total number of words in all the documents set a combination of the answer document and query document. 本実施例では、式(5)のC a(i, In this embodiment, C a (i of formula (5),
j)が修正特徴量のj成分である。 j) is a j components of the correction characteristic quantity.

【0027】問合せ文書合成特徴量計算部5の第2の実施例においては、問合せ文書の特徴ベクトルと回答文書の特徴ベクトルの間で共通する成分を抽出し、該共通部分を重みとして重み付けをすることによって最終的な問合せ文書特徴量を計算する。 [0027] In a second embodiment of a query document synthesized characteristic quantity calculation section 5 extracts the common components between the feature vector of the feature vector and the answer document query document, the weighting said common part as the weight calculating a final query document feature quantity by. 本実施例においては、問合せ文書(文書番号i)の特徴ベクトルと回答文書(文書番号i)の特徴ベクトルの間の共通する成分は各単語要素k (1≦k≦N)が問合せ文書と回答文書との両者に出現する頻度である。 In this embodiment, common components between each word element k (1 ≦ k ≦ N) query document answers between the feature vector of the feature vector and the answer documents in the query document (ID i) (article i) is the frequency that appears in both the document. 本実施例においては、この頻度をq(i, In the present embodiment, the frequency q (i,
k)a(i,k)によって評価する(単語要素kがどちらか一方にしか含まれていなければ、q(i,k)a(i,k)は0になる)。 k) a (assessed by i, k) (unless the word element k is included only to either, q (i, k) a (i, k) is zero). 本実施例における文書番号iの問合せ文書の最終特徴ベクトルFV'(q i )は次式で表される。 The final feature vector FV query document article number i in this embodiment '(q i) is expressed by the following equation. FV'(q i ) = (q(i,1)・(1+ a(i,1)), q(i,2)・(1+ a(i,2)),... , q(i,j)・(1+ a(i,j)),..., q(i,N)・(1+ a(i,N)),) (6) ここで、q(i,j)は、問合せ文書iの特徴ベクトルの単語jに対応する成分、a(i,j)は、回答文書iの特徴ベクトルの単語jに対応する成分(該成分が存在しなければ0)、Nは、問合せ文書集合における全単語数である。 FV '(q i) = ( q (i, 1) · (1+ a (i, 1)), q (i, 2) · (1+ a (i, 2)), ..., q ( i, j) · (1+ a (i, j)), ..., q (i, N) · (1+ a (i, N)),) (6) here, q (i, j ), the components corresponding to the word j of the feature vector of the query document i, a (i, j) is 0 if there is no component (the component that corresponds to the word j of the feature vector of the answer document i), N is the total number of words in the query document set.
本実施例においては、q(i,k)a(i,k)が修正特徴量のk成分である。 In this embodiment, k component of q (i, k) a (i, k) is corrected feature quantity.

【0028】問合せ文書合成特徴量計算部5の第3の実施例において、問合せ文書q iの最終特徴ベクトルFV' In a third embodiment of a query document synthesized characteristic quantity calculation section 5, the final feature vector FV query document q i '
(q i )を計算しようとするとき、先ず、回答文書集合A中の総ての回答文書a s (1≦s≦M)について、前掲の回答文書特徴量計算部3および4によって問合せ文書特徴ベクトルFV(q s )および回答文書特徴ベクトルFV(a s ) (1≦s≦ when trying to calculate the (q i), first, for all the answers document a s in answer document set A (1 ≦ s ≦ M) , query document feature by supra answer document feature quantity calculating unit 3 and 4 vector FV (q s) and answer document feature vector FV (a s) (1 ≦ s ≦
M)を計算する。 M) is calculated. ここで、Mは回答文書集合Aにおける回答文書集合の要素(回答文書)の総数である。 Here, M is the total number of elements of the answer document set in the reply document set A (answer documents). 次に、計算された回答文書特徴ベクトルFV(a s ) (1≦s≦M)を用いて、当該問合せ文書q iに対する回答文書a i (∈A)と、回答文書集合A中の回答文書a s (1≦s≦M)との総ての組合せについて類似度R(i,s)を計算する。 Then, the calculated answer document feature vector FV (a s) (1 ≦ s ≦ M) using, and the answer document a i (∈A) with respect to the query document q i, answer documents in answer text set A for all combinations of a s (1 ≦ s ≦ M ) to calculate the similarity R (i, s). 類似度R(i,s)の計算方法は後述する。 Calculation of similarity R (i, s) will be described later. 次に、回答文書a iと組合せた回答文書 Then, answer document in combination with the answer document a i
a s (1≦s≦M)に対応する問合せ文書q s (1≦s≦M)の問合せ文書特徴ベクトルFV(q s )に類似度R(i,s)を重率として乗算し、その乗算結果を総てのsについてベクトル合成する。 multiplying a s (1 ≦ s ≦ M ) query document corresponding to q s (1 ≦ s ≦ M ) query document feature vector FV (q s) to the similarity R (i, s) of the as heavy rate, the the multiplication result for all of the s vector synthesis. この合成結果を問合せ文書q iの最終特徴ベクトルF The final feature vector F of this synthesis results query document q i
V'(q i )とする。 V 'and (q i).

【0029】類似度R(i,s)は回答文書特徴ベクトルFV(a The similarity R (i, s) is the answer text feature vectors FV (a
i )と 回答文書特徴ベクトルFV(a s )とのN次元空間(Nは単語要素の総数)における夾角に対応する。 N-dimensional space (N and i) and the answer document feature vector FV (a s) corresponds to the included angle in the word total number of elements). すなわち、 That is,

【0030】 [0030]

【数1】 [Number 1] 式(7)〜(11)において、式(10)および(11)はそれぞれ回答文書特徴ベクトルFV(a i )、FV(a s )の大きさ(成分の2 Equation (7) to (11), equation (10) and (11) respectively answer document feature vector FV (a i), the size of the FV (a s) (component 2
乗和の平方根)を表す。 It represents the square root of the sum of squares). 式(8)、式(9)の記号<>はベクトルの内積(対応する成分の積和)を表す。 Equation (8), the symbols of the formula (9) <> denotes the inner product of the vector (product sum of the corresponding components). したがって、 Therefore,
式(8)のR(i,s)は回答文書特徴ベクトルFV(a i )とFV(a s ) R in formula (8) (i, s) is the answer text feature vectors FV (a i) and FV (a s)
との夾角の余弦を表す。 It represents the cosine of the included angle of the. 式(7)の加算範囲の上限Mは回答文書集合Aにおける回答文書の総数である(これは、問合せ文書集合における問合せ文書の総数に等しい(図4 The upper limit M of the addition range of the formula (7) is the total number of answer documents in answer document set A (which is equal to the number of query documents in query document set (FIG. 4
参照))。 reference)). しかし、式(7)の和は類似度R(i,s)が所定の閾値以上の値をもつ項のみについて加算を実行して演算量を少なくすることができる。 However, the sum of Equation (7) the similarity R (i, s) is able to reduce the amount of computation by running only the addition term having a value equal to or greater than a predetermined threshold value.

【0031】第3の実施例は次のような考え方に基いている。 [0031] The third embodiment is based on the following idea. 企業等のヘルプデスク等においては、不特定多数の顧客から寄せられる問合せに対して、特定の少数の対応要員から回答が返される。 In the help desk such as companies, for queries that asked from an unspecified number of customers, the answer from a particular minority of the corresponding personnel returned. 不特定多数の顧客から寄せられる問合せは、問合せの内容が同一であっても独自の語彙や言い回しが用いられることが多く、使用される語彙がまちまちである。 Queries asked from unspecified number of customers, often the contents of the query is unique vocabulary and phrases may be the same as used, is mixed vocabulary used. しかし、特定の少数の対応要員から返される回答文書は、問合せの内容が同一であれば、 However, the answer document that is returned from a particular minority of responders, if the same is the content of the inquiry,
高い類似性を示すことが期待できる。 It can be expected to show a high similarity. 第3の実施例は、 The third embodiment,
この仮定に基づき、回答文書間の類似度によって対応する問合せ文書の特徴ベクトルを調整したものである。 Based on this assumption, it is obtained by adjusting the feature vector of the corresponding query document by similarities between answer document.

【0032】一般に、2つの文書の特徴ベクトルを加算すると、両方の文書に共通に使用されている単語要素に対応する成分は加算されてその成分の値は増加するけれど、共通に使用されていない単語要素に対応する成分の値は変わらない。 [0032] Generally, when adding the feature vector of the two documents, but component corresponding to the word element used in both documents in common summed with the value of the component is increased, it is not used in common the value of the component corresponding to the word element does not change. したがって、2つの特徴ベクトルを加算して新たな特徴ベクトルを作ると、その新たな特徴ベクトルは、元の2つの特徴ベクトルに共通に含まれている単語要素に対応する成分が強調された特徴ベクトルになる。 Therefore, when making two feature vectors new feature vectors by adding, the new feature vector, wherein components corresponding to a word element which is commonly included in two feature vectors of the original is emphasized vector become. したがって、問合せ文書集合の中から、同一または類似の問合せ内容をもつ問合せ文書を選択して、それらの問合せ文書の特徴ベクトルを加算すると、それらの問合せ文書に共通に使用されている単語要素に対応する成分が強調された新たな特徴ベクトルが得られる。 Therefore, from the query document set, select the query document having the same or similar inquiry, adding the feature vectors of their query document, corresponding to a word elements in their query documents are commonly used new feature vector component is emphasized is obtained. このとき、同一または類似の問合せ内容をもつ問合せ文書に共通に使用されている単語要素は、その問合せ内容の特徴を示す単語要素であると考えることができる。 In this case, the word elements that are commonly used in the query document having the same or similar inquiry can be considered to be a word element indicating the characteristics of the inquiry. 本実施例の類似度は、同一または類似の問合せ内容をもつ問合せ文書に大きな重率を与えることによって、同一または類似の問合せ内容をもつ問合せ文書が最終問合せ文書特徴ベクトルに対して大きな寄与を与えるように働く。 Similarity of this embodiment, by providing a large heavy rate query document having the same or similar inquiry, inquiry documents having the same or similar inquiry has a great contribution to the final inquiry document feature vector It works so. この類似度を、問合せ文書の特徴ベクトルでななく、回答文書の特徴ベクトルによって計算することが本実施形態の特徴である。 This similarity, without such a feature vector of a query document, be calculated by the feature vector of the answer document, which is a feature of this embodiment.

【0033】最後に、本発明は、特許請求の範囲に記載されている本発明の主旨を逸脱しない範囲でシステム構成や実現手段を変更することができる。 [0033] Finally, the present invention can change the system configuration and implementation means without departing from the scope of the invention as set forth in the appended claims. 例えば、文書の特徴ベクトルを記述するための単語要素として、自立語のみを単語要素とする方法や、接辞や複合語を含めて単語要素とする方法、名詞句に含まれる単語列を単語要素とする方法をも用いることができる。 For example, as a word element for writing the characteristic vector of the document, a method of only independent words and word elements, a method for a word element including affixation and compounding and words element word strings included in the noun phrase how to can also be used. また、文書の特徴ベクトルの計算方法も、必ずしも式(1)、式(2)の方法である必要はない。 Also, calculating method of feature vectors of documents, not necessarily the formula (1), need not be the method of equation (2). 大切なことは、任意の方法で計算された回答文書の特徴量によって、任意の方法で計算された問合せ文書の特徴量を修正するということが本発明の特許請求の範囲の趣旨である。 The important thing is, by the feature amount calculated answer documents in any way, which is the spirit of the appended claims it is the present invention that corrects the feature amount of the query documents calculated in any way. また、第2の実施例において、単語要素k (1≦k≦N)が問合せ文書と回答文書との両者に出現する頻度を、必ずしもq(i,k)a(i,k)によって評価する必要はない。 In the second embodiment, the frequency of word element k (1 ≦ k ≦ N) appears in both the query document and answer text, necessarily assessed by q (i, k) a (i, k) You need not be. 大切なことは、問合せ文書と回答文書との両者に出現する単語要素の頻度によって、問合せ文書の特徴量を修正するということであって、その頻度の計算方法は、任意の方法を採用することができる。 What is important is the frequency of the word elements appearing in both the query document and answer text, the method comprising that modify the feature amount of a query document, the calculation method of the frequency, possible to employ any method can.
さらに、第3の実施例においては、類似度は、必ずしも式(7)〜(11)の方法で計算する必要はない。 Further, in the third embodiment, the degree of similarity does not necessarily have to be calculated by the method of equation (7) to (11). 大切なことは、問合せ文書の類似度ではなく、回答文書の類似度を用いることであって、その計算方法は任意の方法を採用することができる。 What is important is not the degree of similarity query document, the method comprising using a similarity answer text, the calculation method can be adopted any method.

【0034】 [0034]

【発明の効果】以上説明したように、本発明においては、問合せ文書の特徴量を回答文書の特徴量によって修正することによって、問合せ文書が不特定多数の問合せ者による、独自の語彙や言い回しが用いられた問合せ文書であっても、問合せ文書の内容に適合した特徴量を計算することができる効果がある。 As described in the foregoing, in the present invention, by modifying the characteristic amount of answer text feature amount of a query document, query documents by unspecified number of query's unique vocabulary and phrases even query document used, there is an effect that it is possible to calculate the feature amount suitable for the contents of the query document. その結果、問合せ文書の検索・分類・自動応答などの諸機能を従来より高い精度で実現することができるという効果がある。 As a result, there is an effect that it is possible to realize various functions such as search, categorization, and automatic response query documents higher than conventional precision.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の特徴量計算装置のシステム構成を示すブロック図である。 1 is a block diagram showing the system configuration of the feature quantity calculation apparatus of the present invention.

【図2】図1のデータベース管理部2に保持されている問合せ・回答対応表の概念図である。 2 is a conceptual diagram of a query-reply correspondence table held in the database management unit 2 of Figure 1.

【図3】特徴量計算部の処理フローを示す図である。 3 is a diagram showing a processing flow of the feature amount calculation unit.

【図4】問合せ文書集合と回答文書集合との対応を示す図である。 FIG. 4 is a diagram showing the correspondence between the query document set and answer document set.

【符号の説明】 DESCRIPTION OF SYMBOLS

1 文書データベース 2 データベース管理部 3 問合せ文書特徴量計算部 4 回答文書特徴量計算部 5 問合せ文書合成特徴量計算部 6 問合せ文書特徴量テーブル 1 document database 2 database management unit 3 query document feature quantity calculating unit 4 answer text feature quantity calculator 5 query document synthesized characteristic quantity calculating unit 6 queries the document feature quantity table

───────────────────────────────────────────────────── フロントページの続き (72)発明者 杉崎 正之 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 (72)発明者 田中 一男 東京都新宿区西新宿三丁目19番2号 日本 電信電話株式会社内 Fターム(参考) 5B075 ND03 NR02 NS01 PR06 QM08 QP02 QS01 UU05 5B091 BA02 BA03 CA12 CA22 CD15 ────────────────────────────────────────────────── ─── of the front page continued (72) inventor Masayuki Sugisaki Tokyo Nishi-Shinjuku, Shinjuku-ku, Third Street No. 19 No. 2, Nippon telegraph and telephone Corporation within (72) inventor Kazuo Tanaka Tokyo Nishi-Shinjuku, Shinjuku-ku, Third Street # 19 2 issue Nippon telegraph and telephone Corporation in the F-term (reference) 5B075 ND03 NR02 NS01 PR06 QM08 QP02 QS01 UU05 5B091 BA02 BA03 CA12 CA22 CD15

Claims (8)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 複数の問合せ文書と、各問合せに対する回答文書とを対応付けて管理し、各問合せ文書の特徴量を計算する特徴量計算装置において、 問合せ文書の特徴を定量的に記述する問合せ文書特徴量を、問合せ文書集合中の各問合せ文書について計算する、問合せ文書特徴量計算手段と、 各回答文書の特徴を定量的に記述する回答文書特徴量を、回答文書集合中の各回答文書について計算する、回答文書特徴量計算手段と、 前記問合せ文書特徴量と前記回答文書特徴量とを入力し、所定の関係によって前記回答文書特徴量に対応する修正特徴量を演算し、問合せ文書特徴量と修正特徴量とを合成してその合成結果を当該問合せ文書の最終特徴量として出力する問合せ文書合成特徴量計算手段と、を備えていることを特徴とする問合せ文 And 1. A plurality of query document, and managed in association with the answer text for each query, the feature quantity calculation device for calculating a feature amount of each query document, quantitatively describe query features of the query document the document feature amount is calculated for each query document query document set in the query document feature quantity calculating means, the quantitatively describe answer text feature quantity characteristics of each answer document, the answers document answer document set in calculated for a answer text feature quantity calculating means, the type inquiry document feature quantity and the said answer text feature amount, calculates a correction feature amount corresponding to the reply document feature quantity by a predetermined relationship, query document characteristic query statement which is characterized in that it comprises a query document synthesized characteristic quantity calculating means for outputting the combined result as a final feature amount of the query document by combining the amount and correction feature amount, the 書特徴量計算装置。 Book feature value computing device.
  2. 【請求項2】 問合せ文書合成特徴量計算手段は、回答文書特徴量に所定の定数を乗算し、その乗算結果を修正特徴量として、当該回答文書に対応する問合せ文書の最終特徴量を生成する手段を有する、請求項1に記載の問合せ文書特徴量計算装置。 2. A query document synthesized characteristic quantity calculating means multiplies a predetermined constant to the answer document feature amount, the multiplication result as a modified feature quantity, generates a final feature amount of the query document corresponding to the answer text having means, query document feature quantity calculation apparatus according to claim 1.
  3. 【請求項3】 問合せ文書合成特徴量計算手段は、問合せ文書の特徴と、当該問合せ文書に対応する回答文書の特徴との間の共通する特徴成分を抽出して定量的に評価する手段を有し、その共通する特徴成分の評価量を修正特徴量として当該問合せ文書の最終特徴量を生成する手段を有する、請求項1に記載の問合せ文書特徴量計算装置。 3. A query document synthesized characteristic quantity calculating means, chromatic and features of query document, the means for quantitatively evaluating extracts common feature components between the characteristic of the answer document corresponding to the query document and comprises means for generating a final feature amount of the query document index obtained feature components that the common as a modified feature quantity, query document feature quantity calculation apparatus according to claim 1.
  4. 【請求項4】 問合せ文書合成特徴量計算手段は、最終特徴量を求めようとする問合せ文書q iに対応する回答文書a iと、回答文書集合中の回答文書a sとの間の類似度R 4. A query document synthesized characteristic quantity calculating means, the similarity between the answer text a i corresponding to the query document q i to be obtained a final feature amount, and the answer document a s answer document set in R
    (i,s)を演算する手段を有し、前記回答文書a sに対応する問合せ文書q sの問合せ文書特徴量FV(q s )に類似度R(i, (i, s) comprises means for calculating the said reply document a s query document corresponding to q s query document feature quantity FV of (q s) to the similarity R (i,
    s)を乗算してその乗算結果R(i,s)FV(q s )を問合せ文書集合中の、当該問合せ文書q i以外の総ての問合せ文書について合成し、その合成結果を修正特徴量として、当該問合せ文書q iの問合せ文書特徴量FV(q i )と合成して当該問合せ文書q iの最終特徴量を生成する請求項1に記載の問合せ文書特徴量計算装置。 s) multiplied by the multiplication result R (i, s) FV ( q s) of the query document set in, synthesized for all query document other than the query document q i, the combined result correction feature quantity as a query document feature quantity calculation apparatus according to claim 1, by combining with the query document q i query document feature quantity FV of (q i) to produce the final feature amount of the query document q i.
  5. 【請求項5】 複数の問合せ文書と、各問合せに対する回答文書とを対応付けて管理し、各問合せ文書の特徴量を計算する問合せ文書特徴量計算方法において、 問合せ文書の特徴を定量的に記述する問合せ文書特徴量を、問合せ文書集合中の各問合せ文書について計算する問合せ文書特徴量計算処理と、 回答文書の特徴を定量的に記述する回答文書特徴量を、 5. A plurality of query document, and managed in association with the answer text for each query, the query document feature quantity calculation method for calculating a feature amount of each query document, quantitatively describe the features of the query document the query document feature data, the query document feature quantity calculation process for calculating for each query document query document set in a quantitatively describe answer text feature quantity the feature of answer documents,
    回答文書集合中の各回答文書について計算する回答文書特徴量計算処理と、 前記問合せ文書特徴量と前記回答文書特徴量とに基づいて、所定の関係によって前記回答文書特徴量に対応する修正特徴量を演算し、問合せ文書特徴量と修正特徴量とを合成してその合成結果を当該問合せ文書の最終特徴量として出力する問合せ文書合成特徴量計算処理を含んでいることを特徴とする問合せ文書特徴量計算方法。 And answer text feature quantity calculation process for calculating for each answer document answer document set in, on the basis of the inquiry document feature quantity and said answer text feature quantity, the correction characteristic amount corresponding to the reply document feature quantity by a predetermined relationship calculating a query document characteristic which is characterized by comprising the combined and the combined result inquiry document synthesis feature quantity calculation process for outputting as a final feature amount of the query document and a modified characteristic quantity with the query document feature quantity amount calculation method.
  6. 【請求項6】 問合せ文書合成特徴量計算処理は、回答文書特徴量に所定の定数を乗算し、その乗算結果を修正特徴量として、当該回答文書に対応する問合せ文書の最終特徴量を生成する過程を有する、請求項5に記載の問合せ文書特徴量計算方法。 6. query document synthesized characteristic quantity calculation process multiplies a predetermined constant to the answer document feature amount, the multiplication result as a modified feature quantity, generates a final feature amount of the query document corresponding to the answer text comprising the step, query document feature quantity calculation method according to claim 5.
  7. 【請求項7】 問合せ文書合成特徴量計算処理は、問合せ文書の特徴と回答文書の特徴との間の共通する特徴成分を抽出して定量的に評価する過程を有し、その共通する特徴成分の評価量を修正特徴量として当該問合せ文書の最終特徴量を生成する過程を有する、請求項5に記載の問合せ文書特徴量計算方法。 7. The query document synthesized characteristic quantity calculation process, common has the step of quantitatively evaluating to extract a feature component, feature components that common between the features of the characterizing and the answer documents in the query document the comprises the step of generating the final feature amount of a query document, query document feature quantity calculation method according to claim 5 evaluation amount as the correction characteristic of.
  8. 【請求項8】 問合せ文書合成特徴量計算処理は、最終特徴量を求めようとする問合せ文書q iに対応する回答文書a iと、回答文書集合中の回答文書a sとの間の類似度R 8. Contact document synthesized characteristic quantity calculation process, the similarity between the answer text a i corresponding to the query document q i to be obtained a final feature amount, and the answer document a s answer document set in R
    (i,s)を演算する過程を有し、前記回答文書a sに対応する問合せ文書q sの問合せ文書特徴量FV(q s )に類似度R(i, (i, s) has the step of calculating the said reply document a s query document corresponding to q s query document feature quantity FV of (q s) to the similarity R (i,
    s)を乗算してその乗算結果R(i,s)FV(q s )を問合せ文書集合中の、当該問合せ文書q i以外の総ての問合せ文書について合成し、その合成結果を修正特徴量として、当該問合せ文書q iの問合せ文書特徴量FV(q i )と合成して当該問合せ文書q iの最終特徴量を生成する、請求項5に記載の問合せ文書特徴量計算方法。 s) multiplied by the multiplication result R (i, s) FV ( q s) of the query document set in, synthesized for all query document other than the query document q i, the combined result correction feature quantity as combines with the query document q i query document feature quantity FV of (q i) to produce the final feature amount of the query document q i, querying document feature quantity calculation method according to claim 5.
JP27349298A 1998-09-28 1998-09-28 Device for calculating feature amount of inquiry document, and method therefor Pending JP2000105768A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP27349298A JP2000105768A (en) 1998-09-28 1998-09-28 Device for calculating feature amount of inquiry document, and method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP27349298A JP2000105768A (en) 1998-09-28 1998-09-28 Device for calculating feature amount of inquiry document, and method therefor

Publications (1)

Publication Number Publication Date
JP2000105768A true true JP2000105768A (en) 2000-04-11

Family

ID=17528667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP27349298A Pending JP2000105768A (en) 1998-09-28 1998-09-28 Device for calculating feature amount of inquiry document, and method therefor

Country Status (1)

Country Link
JP (1) JP2000105768A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993517B2 (en) 2000-05-17 2006-01-31 Matsushita Electric Industrial Co., Ltd. Information retrieval system for documents
JP2011008334A (en) * 2009-06-23 2011-01-13 Nippon Hoso Kyokai <Nhk> Related content display device and computer program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6993517B2 (en) 2000-05-17 2006-01-31 Matsushita Electric Industrial Co., Ltd. Information retrieval system for documents
JP2011008334A (en) * 2009-06-23 2011-01-13 Nippon Hoso Kyokai <Nhk> Related content display device and computer program

Similar Documents

Publication Publication Date Title
Lee et al. Information gain and divergence-based feature selection for machine learning-based text categorization
Radev et al. Probabilistic question answering on the web
Wang et al. Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization
Gomaa et al. A survey of text similarity approaches
Li et al. Improvement of HITS-based algorithms on web documents
US7216123B2 (en) Methods for ranking nodes in large directed graphs
US6901411B2 (en) Statistical bigram correlation model for image retrieval
Boyle Options: A monte carlo approach
Turney Measuring semantic similarity by latent relational analysis
US20070078670A1 (en) Selecting high quality reviews for display
US5873076A (en) Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US20120278341A1 (en) Document analysis and association system and method
US20070078671A1 (en) Selecting high quality text within identified reviews for display in review snippets
US20070118518A1 (en) Text summarization method and apparatus using a multidimensional subspace
US20090265290A1 (en) Optimizing ranking functions using click data
Hiemstra A linguistically motivated probabilistic model of information retrieval
Nanopoulos et al. Musicbox: Personalized music recommendation based on cubic analysis of social tags
US20060287988A1 (en) Keyword charaterization and application
US20020111941A1 (en) Apparatus and method for information retrieval
Li et al. Topic analysis using a finite mixture model
US20070078845A1 (en) Identifying clusters of similar reviews and displaying representative reviews from multiple clusters
US5737734A (en) Query word relevance adjustment in a search of an information retrieval system
Suryanto et al. Quality-aware collaborative question answering: methods and evaluation
US20050086045A1 (en) Question answering system and question answering processing method
US6678690B2 (en) Retrieving and ranking of documents from database description