JP2010282403A - Document retrieval method - Google Patents
Document retrieval method Download PDFInfo
- Publication number
- JP2010282403A JP2010282403A JP2009134934A JP2009134934A JP2010282403A JP 2010282403 A JP2010282403 A JP 2010282403A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2010282403 A JP2010282403 A JP 2010282403A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- question
- index
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、検索元の検索インデックスと検索先の文書インデックスとを適正に設定することで、ユーザが望む文書ファイルを的確に抽出することができるようにする文書検索方法に関する。 The present invention relates to a document search method capable of appropriately extracting a document file desired by a user by appropriately setting a search source search index and a search destination document index.
インターネット上や社内ネットワークのようなローカルネット上において、Q&Aシステムと呼ばれる通信ネットワークシステムが普及している。一般にQ&Aシステムは、あるユーザが質問文書を当該システム上に入力すると、前記質問をシステム上で閲覧した他のユーザが、自身の知識に基づき自発的に、前記質問に対する回答文書を当該システム上に入力するという運用がなされる。システムのユーザは、解決したい問題や知見したい情報についての質問を投稿すれば、それらに対する何らかのソリューションを当該システムから得ることができるという利点がある。 Communication network systems called Q & A systems are widespread on local networks such as the Internet and company networks. Generally, in a Q & A system, when a user inputs a question document on the system, other users who browse the question on the system voluntarily put an answer document on the question on the system based on their own knowledge. The operation of inputting is performed. If the user of a system posts a question about a problem to be solved or information to be discovered, there is an advantage that a certain solution for them can be obtained from the system.
しかし、上記のQ&Aシステムでは、特定の質問文書に対するレスポンスという形で投稿される特定の回答文書という、非常に限られた範囲からしか回答を得ることができない。すなわち、求める問いに対するベストの回答文書が投稿されるとは限らず、さらには質問文書に対してレスポンスが付かない場合すらあり、ユーザは所望の情報を得ることができないことが多々ある。 However, in the above Q & A system, answers can be obtained only from a very limited range of specific answer documents posted in the form of responses to specific question documents. That is, the best answer document for the requested question is not always posted, and there is even a case where no response is given to the question document, and the user often cannot obtain desired information.
ユーザが所望の情報を得る他の手法として、質問事象に関し自身が想起できるキーワードを設定して、所定のデータベースに検索をかける方法も存在する。この方法は、キーワードの入力という簡易な操作で情報を取得可能ではあるが、質問者の主観に依存して検索キーワードが設定されることから、ベストの回答を取得するための適切なキーワードが設定されないことが多く、なかなか所望の情報が得られないという不具合がある。そもそも質問者は、何が問題解決のキーワードであるかを認識していない場合が多く、適切なキーワード設定はもともと期待できない。 As another method for the user to obtain desired information, there is also a method for setting a keyword that can be recalled with respect to a question event and performing a search on a predetermined database. Although this method can acquire information by a simple operation of inputting a keyword, the search keyword is set depending on the subjectivity of the questioner, so the appropriate keyword for acquiring the best answer is set. In many cases, the desired information cannot be obtained. In the first place, the questioner often does not recognize what is a problem-solving keyword, and appropriate keyword setting cannot be expected from the beginning.
特許文献1には、新規の質問が発生したときに、当該質問文書に用いられているキーワードを用いてデータベースを検索し、過去の同様な質問及び回答のペアを抽出する検索方法が開示されている。この検索方法によれば、同種の質問に対する過去のQ&A事例が提示されることから、ベストの回答が得られやすくなることは確かである。
このような検索方法においては、検索元の質問文書に基づき作成される検索インデックス(キーワード)と、検索先のデータベースに蓄積されている多数の文書ファイルに基づき予め作成されている文書インデックスとを、所定の検索アルゴリズムを用いて照合させ、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。 In such a search method, a search index (keyword) created based on the query document of the search source, and a document index created in advance based on a large number of document files accumulated in the search destination database, A technique is adopted in which a document file having a high similarity is extracted as a hit document by collating using a predetermined search algorithm.
上記の検索方法によれば、ある程度の精度で質問文書に類似した文書を抽出することは可能である。しかし、ユーザが真に欲する回答文書を抽出することができる確率は、それほど高いものではなかった。すなわち、ユーザが抱える問題の解決に繋がる重要文書の抽出が、従来の検索方法では充分に行えないという問題があった。 According to the above search method, it is possible to extract a document similar to a question document with a certain degree of accuracy. However, the probability that the answer document that the user really wants can be extracted has not been so high. That is, there is a problem that extraction of an important document that leads to solution of a problem that the user has cannot be performed sufficiently by a conventional search method.
本発明の目的は、上記の問題に鑑み、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することにある。 In view of the above problems, an object of the present invention is to provide a document search method capable of accurately extracting an important document desired by a user.
上記目的を達成する本発明の一の局面に係る文書検索方法は、検索先の第1データベースに蓄積されている多数の文書ファイルに基づき、文書インデックスを作成するステップと、検索元のクエリに基づき検索インデックスを設定するステップと、前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、前記文書インデックスを作成するステップは、前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、を含むことを特徴とする(請求項1)。 A document search method according to one aspect of the present invention that achieves the above object is based on a step of creating a document index based on a large number of document files stored in a first database of a search destination, and on a query of a search source Setting a search index; and collating the search index with the document index to extract a document file corresponding to the query, and creating the document index includes: A step of extracting a document group created by the same person, a step of analyzing each document of the document group, specifying a word used in the document, and one of the document groups Obtaining a degree of appearance of a word specified in a document appearing in another document; Raise the weights for higher word than value, characterized in that it comprises the steps of: setting a weighting of the document index (claim 1).
この方法によれば、第1データベースの中から、同一人が作成した文書群が抽出され、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いが求められる。一般に、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であると推定することができる。そのような文書は、信憑性が高く、充実した文書であると期待できる。従って、同一人の作成に係る文書において出現の頻度が高い単語について重み付けを上げて文書インデックスを作成することで、その単語を含むクエリが与えられたときに、その者の作成に係る文書ファイル、つまり専門家の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。これにより、ユーザが望む重要文書の抽出確率を向上させることができる。 According to this method, a document group created by the same person is extracted from the first database, and a degree of appearance in which a word specified in one document of the document group appears in another document. Is required. Generally, a person who describes many documents related to a certain matter (word) can be estimated to be an expert on that matter. Such a document is highly reliable and can be expected to be a complete document. Therefore, when a query including the word is given by increasing the weight for a word that frequently appears in a document related to the creation of the same person and creating a document index, the document file related to the creation of the person, That is, it is possible to increase the similarity of document files related to the creation of experts and to facilitate extraction. Thereby, the extraction probability of the important document desired by the user can be improved.
上記方法において、前記単語を特定するステップにおいて、特定される単語が、名詞単語であることが望ましい(請求項2)。名詞単語は、他の品詞の単語に比較して、その事柄に端的に繋がることを表現している場合が多い。従って、この方法によれば、的確な文書インデックスの作成に寄与する。 In the above method, in the step of specifying the word, it is preferable that the specified word is a noun word. A noun word often expresses that it is directly connected to the matter as compared to other parts of speech. Therefore, this method contributes to the creation of an accurate document index.
この場合、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞を備える文に含まれる前記名詞単語について重み付けを上げることが望ましい(請求項3)。例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げることで、かかる文を含む文書ファイルが抽出され易いようにすることができる。 In this case, in the step of setting the weighting, it is desirable to further increase the weighting for the noun word included in the sentence including the connection particle indicating the cause or the reason (Claim 3). For example, a sentence including a connection particle indicating a cause or reason such as “... so” and “... so” is highly likely to contain a main description of a certain matter. Therefore, by increasing the weight of noun words included in such a sentence, it is possible to easily extract a document file including such a sentence.
或いは、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞の直前に存在する前記名詞単語について重み付けを上げることが望ましい(請求項4)。一般に、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。 Alternatively, in the step of setting the weighting, it is desirable to further increase the weighting for the noun word existing immediately before the connection particle indicating the cause or reason. In general, there are many cases in which a noun word that is a key of a matter is arranged immediately before a connection particle indicating a cause or reason. Therefore, by increasing the weight for such noun words, it is possible to easily extract a document file including such noun words.
上記いずれかの方法において、前記検索元のクエリが、前記第1データベースとは異なる第2データベースに投稿された1の質問文書であって、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項5)。この方法によれば、ユーザが第2データベースに質問文書を投稿したことを端緒として、第1データベース中に潜在している有益な回答文書を抽出することが可能となる。 In any one of the above methods, the query of the search source is one question document posted to a second database different from the first database, and in the step of setting the search index, the search index includes: The question document can be created based on a word identified by document analysis. According to this method, it is possible to extract useful answer documents that are latent in the first database, starting with the user posting a question document in the second database.
或いは、前記検索元のクエリが、さらに、前記質問文書に対して前記第2データベースに投稿された1又は複数の回答文書を含み、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項6)。 Alternatively, the search source query further includes one or a plurality of answer documents posted to the second database with respect to the question document, and in the step of setting the search index, the search index includes the question document The document and the answer document can be created based on the word identified by document analysis (claim 6).
一般に質問者は、質問事象に関しあまり知識を持たず適切なキーワードを想起することが困難で、自ずと質問文書に用いられる単語も適切でない場合が往々として生じる。これに対し、回答者は、質問事象に関して比較的詳しい知識を有し(それゆえ回答文書を自発的に投稿する)、回答文書において質問事象に対する適切なキーワードが使用される可能性が高い。従って、回答文書に基づき検索インデックスを作成することで、質問事象に対して的確性を高めることができる。 In general, the questioner often has little knowledge about the question event, is difficult to recall an appropriate keyword, and the words used in the question document are often not appropriate. On the other hand, the respondent has relatively detailed knowledge about the question event (and therefore submits the answer document voluntarily), and an appropriate keyword for the question event is likely to be used in the answer document. Therefore, by creating a search index based on the answer document, it is possible to improve the accuracy with respect to the question event.
この場合、前記質問文書において、疑問乃至は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項7)。例えば、「・・・でしょうか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げ検索インデックスを作成することで、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。 In this case, in the question document, it is preferable that the search index is created by increasing the weights of noun words included in a sentence including a question or a final particle indicating a question (claim 7). For example, a sentence such as “Is it?” Or a sentence with a final particle indicating the question is likely to contain an essential description of the question that the user wants to know. Therefore, by increasing the weight of noun words included in such a sentence and creating a search index, it is possible to easily extract a document file that includes the content in line with the question.
或いは、前記質問文書において、疑問乃至は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項8)。一般に、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。 Alternatively, in the question document, it is preferable that the search index is created by increasing the weight for a noun word existing immediately before a question or a final particle indicating a question (claim 8). In general, a noun word that is a key to a question event is often placed immediately before a question or a final particle indicating a question. Therefore, by increasing the weight for such noun words, it is possible to easily extract a document file including such noun words.
上記方法において、前記質問文書及び回答文書の全てにおいて前記単語の出現度合いを求め、前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることが望ましい(請求項9)。この方法によれば、質問文書及び回答文書の全てを通して単語の出現頻度が評価されるので、客観性に優れた検索インデックスを作成することができる。 In the above method, it is preferable that the appearance degree of the word is obtained in all of the question document and the answer document, the weight of the word is set according to the appearance degree, and the search index is created. . According to this method, since the appearance frequency of words is evaluated through all of the question document and the answer document, a search index having excellent objectivity can be created.
又は、前記回答文書が複数存在する場合において全ての回答文書に前記単語の出現度合いを求め、複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることが望ましい(請求項10)。複数の回答文書に同様に出現する単語は、その事柄において要点を為すと推定される。従って、そのような単語の重み付けを上げることで、的確な検索インデックスを作成することができる。 Alternatively, when there are a plurality of the answer documents, the appearance degree of the word is obtained for all the answer documents, the weights of the words appearing in the answer documents are increased, and the weight of the search index is set. Desirable (claim 10). Words that appear similarly in multiple answer documents are presumed to make a point in that matter. Therefore, an accurate search index can be created by increasing the weighting of such words.
さらに、前記質問文書がタイトルを含む場合において、該タイトルに含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項11)。多くの場合、タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する。 Furthermore, when the question document includes a title, it is desirable that the search index is created by increasing the weights of noun words included in the title. In many cases, noun words that are the main points of questions are included in the title, so increasing the weight of such noun words contributes to improving the accuracy of the search.
本発明によれば、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイトの利用価値を高め、該サイトを活性化させることが可能となる。 ADVANTAGE OF THE INVENTION According to this invention, the document search method which can extract exactly the important document which a user desires can be provided. Therefore, it is possible to increase the utility value of the Q & A site existing on the Internet and activate the site.
以下、図面に基づいて本発明の実施形態につき詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の文書検索方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、検索エンジン1と、インターネット(又はローカルな通信ネットワーク)上においてユーザ同士の質問文書及び回答文書の投稿を受け付けるQ&Aシステム2と、インターネット上において利用可能なデータベース3と、ユーザが利用する端末装置4とが、インターネットINを介してデータ通信可能に接続されてなる。
FIG. 1 is a block diagram schematically showing the hardware configuration of a network system S to which the document search method of the present invention is applied. This network system S includes a
Q&Aシステム2は、インターネット上に展開された特定のウエブサイトであって、1人のユーザの質問文書の投稿(文書データ等の入力)を受け付けてこれを掲載すると共に、当該質問文書に対する他のユーザの回答文書、前記1人のユーザの再質問文書やお礼文書等も掲載するコミュニティサイトである。現行で運用されている同種のシステムとしては、例えば「Yahoo!知恵袋(登録商標)」、「教えて!Goo」、「OKwave」などを例示することができる。
The Q & A
データベース3は、インターネットに接続され、各種のHTMLファイルや画像ファイルなどが大量に記憶されているデータベースである。ここでは簡略的に図示しているが、データベース3は各々ドメイン名を持つ多数のウエブサイトの集合を示している。このようなデータベース3としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。
The
端末装置4は、Q&Aシステム2に会員登録されている多数のユーザに保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機41、42、43、44、45、・・・4nである。端末装置4は、インターネットINを介してデータベース3の各種ウエブサイトにもアクセス可能とされている。Q&Aシステム2のユーザは、各自の通信端末機41〜4nを介して、Q&Aシステム2に質問文書を投稿したり、その質問文書に対して回答文書を投稿したり、この回答文書に対して適宜なコメント文書を投稿したり、或いはこれら文書を単に閲覧したりすることが可能とされている。
The
検索エンジン1は、Q&Aシステム2及びデータベース3の双方にデータ通信可能に接続され、文書検索処理、インデックス作成処理及び文書解析処理等が実行可能なサーバ装置である。検索エンジン1は、あるユーザがQ&Aシステム2に投稿した1の質問文書に対する最適な回答内容を含む文書等(以下「BEST文書」と言うことがある)を、データベース3の中から、或いはQ&Aシステム2及びデータベース3の双方から検索する処理を行う。
The
図2は、検索エンジン1が実行する文書検索方法の概要を示す模式的なフローチャートである。検索エンジン1は、Q&Aシステム2に備えられているデータベースから、1の質問文書と、これに応答して投稿された1又は複数の回答文書とを抽出し、これら文書に対して先ず形態素解析等を含む文書解析処理を行う(ステップS1)。文書解析の対象とする文書は、回答文書のみでも良いが、検索に有益な単語を広くピックアップするという観点からは、質問文書及び回答文書の双方を対象とすることがより望ましい。
FIG. 2 is a schematic flowchart showing an outline of a document search method executed by the
次いで検索エンジン1は、上記の文書解析処理で得られた単語をベースにして検索インデックスを作成する(ステップS2)。この検索インデックスは、主に質問事象に関連深い単語群からなり、各単語に所定の重み付けが付与されたものである。そして、当該検索インデックスを用いて、大量のデータを含むデータベース3に対して文書の検索処理を行う(ステップS3)。この検索処理の対象に、Q&Aシステム2に備えられているデータベースを含めるようにしても良い。
Next, the
なお、データベース3の側においても、検索エンジン1による定期的な処理で、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)が行われている。この文書インデックスは、文書ファイルから抽出された単語群からなり、各単語に所定の重み付けが付与されたものである。検索元のステップS3における検索処理では、前記検索インデックスと検索先の文書インデックスとを使用し、所定の検索アルゴリズムを適用してクエリに対して類似度が高い文書ファイルをデータベース3から抽出する。ステップS3の検索処理で得られた結果は、前記1の質問文書を投稿したユーザの端末装置4に出力される(ステップS4)。
On the
以上が、本実施形態に係る文書検索方法の概要であるが、ここで本実施形態との比較のために、検索インデックス及び文書インデックスの作成の従来手法について説明する。図3は、従来の検索インデックスの作成手法を、図4は、従来の文書インデックスの作成手法を説明するための模式図である。 The above is the outline of the document search method according to the present embodiment. Here, for comparison with the present embodiment, a conventional method for creating a search index and a document index will be described. FIG. 3 is a schematic diagram for explaining a conventional search index creation method, and FIG. 4 is a schematic diagram for explaining a conventional document index creation method.
図3には、Q&Aシステム2に投稿される質問文書及び回答文書の具体例を示している。ここでは、質問タイトルが「パソコンにモデムを接続するとモデムのランプが消える」という質問事象についての一つの質問文書と、これに対する3つの回答文書を例示している。ここでは、質問文書に対する回答を、Q&Aシステム2に投稿される本来の回答文書からだけではなく、汎用のデータベース3内の文書ファイル群(回答文書候補)からも抽出する例を示している。
FIG. 3 shows a specific example of a question document and an answer document posted to the Q & A
検索インデックス作成の従来手法は、質問文書から例えば名詞単語を抽出し、その単語の質問文書中における出現頻度を重みとして作成する方法である。例えば、質問文書中の「モデム」という単語に着目すると、この単語は質問文書中に4回登場するので、その頻度(重み)=4として検索インデックスが作成される。例えば「USB」という単語ならば、質問文書中に1回しか登場しないので、重み=1となる。 A conventional technique for creating a search index is a method in which, for example, a noun word is extracted from a question document, and the appearance frequency of the word in the question document is created as a weight. For example, paying attention to the word “modem” in the question document, this word appears four times in the question document, so a search index is created with its frequency (weight) = 4. For example, the word “USB” appears only once in the question document, so weight = 1.
図4に示すように、文書インデックスも同様にして作成される。すなわち、データベース3に含まれる回答文書候補の各文書ファイルから、例えば名詞単語を抽出し、その単語の当該文書ファイル中における出現頻度を重みとして文書インデックスが作成される。図4では、回答文書候補である「Aさんの文書」に、例えば「モデム」という単語が3回登場し、「ドライバ」という単語が1回登場している。従って、「モデム」の頻度(重み)=3、「ドライバ」の重み=1として文書インデックスが作成される。
As shown in FIG. 4, the document index is created in the same manner. That is, for example, a noun word is extracted from each document file of answer document candidates included in the
このようにして作成された検索インデックスと文書インデックスとを、検索モデルと呼ばれる文書合致度算出式(検索アルゴリズム)に当て嵌めて、質問文書と回答文書候補との合致度が算出される。そして、この合致度が高い順に、ヒット文書のリストが作成されるものである。 The matching index between the question document and the answer document candidate is calculated by fitting the search index and the document index thus created to a document matching score calculation formula (search algorithm) called a search model. Then, a list of hit documents is created in descending order of the degree of match.
このような単語出現頻度のみに依存した重み付けを採用した文書検索方法でも、ある程度の文書抽出精度は担保することはできる。しかし、質問者が真に望む、問題解決に繋がるBEST文書の抽出精度を高くするには限界がある。要因の一つは、質問に関わる事象に関して、その事象についての専門家が作成した文書も、素人が作成した文書も、単語の出現頻度が同じであれば同列に扱われてしまう点にある。当然、専門家の作成に係る文書の方が、質問者にとってのBEST文書である確率がはるかに高いのであるが、従来の検索方法では両者を実質的に区別することはできない。 Even with such a document search method that employs weighting that depends only on the word appearance frequency, a certain degree of document extraction accuracy can be ensured. However, there is a limit to increasing the extraction accuracy of the BEST document that the questioner really wants and leads to problem solving. One of the factors is that regarding an event related to a question, a document created by an expert about the event and a document created by an amateur are treated in the same line if the appearance frequency of words is the same. Naturally, a document related to the creation of an expert has a much higher probability of being a BEST document for a questioner, but the conventional search method cannot substantially distinguish the two.
本発明の実施形態に係る検索インデックス及び文書インデックスの作成方法は、このような問題を解消し、ユーザが真に欲する回答文書を抽出できる確率を向上させる重み付けを行う点に特徴を有する。図5は、本発明の実施形態に係る文書検索方法を概略的に示す図である。 The search index and document index creation method according to the embodiment of the present invention is characterized in that such a problem is solved and weighting is performed to improve the probability that the user can extract the answer document that the user really wants. FIG. 5 is a diagram schematically illustrating a document search method according to an embodiment of the present invention.
本実施形態の文書検索方法では、Q&Aシステム2で生じた質問文書Qnとこれに応答する回答文書Anとを対象として文書解析を行い、検索インデックスSIを作成する。この検索インデックスSIは、従来方法のように単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された検索インデックスである。また、データベース3中の文書ファイルを対象として文書インデックスDIが作成される。この文書インデックスもまた、単に単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された文書インデックスである。このような検索インデックスSIと文書インデックスDIとを、検索アルゴリズムMに当て嵌めて合致度が算出され、データベース3中から質問文書に対するBEST文書が抽出される。
In the document search method of this embodiment, the document analysis is performed on the question document Qn generated in the Q & A
本実施形態では、上記インデックスの特殊重み付けの要素として次の(1)〜(8)の項目が考慮される。
[検索インデックスSIについて]
(1)質問文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
(2)質問文書だけではなく回答文書も全て含めて、単語の出現頻度を算出する。
(3)質問文書において、疑問又は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げる。
(4)質問文書において、疑問又は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げる。
(5)複数の回答文書に出現する単語について、重み付けを上げる。
[文書インデックスDIについて]
(6)原因乃至は理由を示す接続助詞を備える文に含まれる名詞単語について重み付けを上げる。
(7)原因乃至は理由を示す接続助詞の直前に存在する名詞単語について重み付けを上げる。
(8)同一人物の作成に係る文書群において、複数の文書において使用されている単語について重み付けを上げる。
(9)文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
In the present embodiment, the following items (1) to (8) are considered as elements of the special weighting of the index.
[Search index SI]
(1) Increase the weighting of noun words included in the title of the question document.
(2) The word appearance frequency is calculated including not only the question document but also all the answer documents.
(3) In a question document, weighting is increased for noun words included in a sentence having a question or a final particle indicating a question.
(4) In a question document, weighting is increased for a noun word existing immediately before a question or a final particle indicating a question.
(5) Increase the weight for words appearing in a plurality of answer documents.
[About Document Index DI]
(6) Weighting is increased for noun words included in sentences having a connection particle indicating the cause or reason.
(7) Increase the weight of a noun word that exists immediately before the connection particle indicating the cause or reason.
(8) In a document group related to creation of the same person, weighting is increased for words used in a plurality of documents.
(9) Increase the weighting of noun words included in the document title.
図6は、検索インデックスSIの作成手法の実施形態を説明するための模式図である。ここで例示している質問タイトル、質問文書及び回答文書は、図3のものと同じである。上記の項目(1)の設定理由は、一般に質問タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与すると考えられるからである。図6の例では、質問タイトルには、例えば符号51で示す「モデム」という名詞単語が出現する。この「モデム」について、1回出現すると単に頻度=1とカウントするのではなく、重みを少し上げてカウントすることで、当該名詞単語の重要性を検索インデックスSIに反映させるようにする。
FIG. 6 is a schematic diagram for explaining an embodiment of a method for creating a search index SI. The question title, question document, and answer document illustrated here are the same as those in FIG. The reason for setting item (1) above is that the noun word that is the main point of the question is generally included in the question title, so increasing the weighting of such noun word is considered to contribute to improving the accuracy of the search. is there. In the example of FIG. 6, for example, a noun word “modem” indicated by
上記の項目(2)は、質問文書及び回答文書の全てを通して単語の出現頻度を評価することで、客観性に優れた検索インデックスを作成することを企図した項目である。一般に、Q&Aシステム2において、質問事象について詳しい知識を持たない質問者は、適切なキーワードを設定できないことが多い。一方、回答者は、相応の知識を有することが想定されるので、その事象について適切なキーワードを用いて回答文書を作成している可能性が高い。一方、質問文書及び回答文書の双方において頻出している如き単語は、その事象において重要性が極めて高いと評価できる。図6の例では、例えば「モデム」という単語は、質問タイトル及び質問文書に出現しているだけでなく、回答文書1〜3の全てに登場している。従って、この「モデム」には、高い重み付けが与えられる。
The item (2) is an item intended to create a search index having excellent objectivity by evaluating the appearance frequency of words through all of the question document and the answer document. Generally, in the Q & A
上記の項目(3)は、例えば、「・・・でしょうか」、「・・・ですか」、「・・・ますか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高いという推定に基づく項目である。図6の例では、符号54で示す「でしょうか」という語を含む文55は、「B社製モデムはサポートしていないのでしょうか」というものであるが、この文55に含まれる符号51、52、53でそれぞれ示す「モデム」、「B社」、「サポート」という名詞単語の重み付けが上げられる。これにより、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。なお、この例では名詞単語「モデム」の重み付けが、上記項目(1)、(2)による上昇に加えて重畳的に上昇されることになる。
The above item (3) includes, for example, a sentence with a final particle indicating a question or a question such as “Is it?”, “Is it?”, “Is it?” This is an item based on the assumption that there is a high possibility that an essential description of the question that the user wants to know is included. In the example of FIG. 6, a
上記の項目(4)は、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多く、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることを企図した項目である。図6の例では、文55において、符号54で示す「でしょうか」という語の直前に位置する符号53の名詞単語「サポート」が該当する。従って「サポート」については、項目(3)による重み付けに加えて、より高い重み付けが付与される。
In the above item (4), there are many cases where a noun word as a key of a question event is arranged immediately before a question or a final particle indicating a question. This is an item intended to facilitate extraction of a document file containing words. In the example of FIG. 6, in the
上記の項目(5)は、複数の回答文書に同様に出現する単語は、その事柄において要点を為すとの推定に基づいた項目である。上述の通り、回答文書は、質問事象について相応の知識を有する者が作成することが想定されるので、このような回答文書に頻出する単語は、質問事象の要点を表現している可能性が高いと言える。図6で示す例では、符号56で示す名詞単語「ドライバ」が、回答文書1及び回答文書2で出現しており、この「ドライバ」については重み付けが上げられる。
The above item (5) is an item based on the presumption that a word that appears in the same manner in a plurality of answer documents makes a point in the matter. As described above, it is assumed that the answer document is created by a person who has appropriate knowledge about the question event. Therefore, the words that frequently appear in such an answer document may represent the main point of the question event. It can be said that it is expensive. In the example shown in FIG. 6, the noun word “driver” indicated by
図7は、文書インデックスDIの作成手法の実施形態を説明するための模式図である。上記の項目(6)は、例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高いとの推定に基づく項目である。図7では、一人のユーザである「Aさん」の作成に係る1つの文書60と、同じ「Aさん」の作成に係るその他の文書群60Aとを例示している。これら文書の文書ファイルは、データベース3に蓄積されている。ここで文書60に着目すると、符号61で示す「ため」という接続助詞を含む文62は、「A社製パソコンはB社製モデムを標準サポートしていないため、」というものであるが、この文62に含まれる符号63、64でそれぞれ示す「モデム」、「サポート」という名詞単語、さらには「A社」、「B社」、「パソコン」といった名詞単語の重み付けを上げて文書インデックスDIが作成される。これにより、検索インデックスSIが、例えば高い重みで「モデム」という単語を含むとき、文書60が抽出され易いようにすることができる。
FIG. 7 is a schematic diagram for explaining an embodiment of a document index DI creation method. In the above item (6), for example, a sentence including a connection particle indicating the cause or reason such as “... so”, “... so,” includes a main description of a certain matter. It is an item based on the estimation that there is a high possibility that FIG. 7 illustrates one
上記の項目(7)は、上掲の「・・・ため」のような、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多いことに着目した項目である。図7の文書60では、文62において、符号61で示す「ため」という接続助詞の直前に位置する符号64の名詞単語「サポート」が該当する。従って「サポート」については、項目(6)による重み付けに加えて、より高い重み付けが付与される。このようにして文書インデックスDIを作成しておけば、上記の項目(4)のルールに従って作成された検索インデックスSIとの合致率が高くなる。
In item (7) above, there are many cases where a noun word that is the key to a matter is placed immediately before the connection particle indicating the cause or reason, such as “...” above. Item. In the
上記の項目(8)は、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であるとの推定に基づく項目である。図7に示すように、「Aさん」は、データベース3に蓄積された一つの文書60において、符号63、65でそれぞれ示すように「モデム」、「ドライバ」という名詞単語を使用している。また、データベース3に蓄積された「Aさん」の作成に係るその他の文書群60Aにおいても、符号63で示す名詞単語「モデム」は文書601〜603の全てで、符号65で示す名詞単語「ドライバ」は文書602、603でも使用されている。
The item (8) is an item based on the assumption that a person who describes many documents related to a certain matter (word) is an expert on the matter. As shown in FIG. 7, “Mr. A” uses the noun words “modem” and “driver” in one
これらの文書群から、「Aさん」という人物は、「モデム」、「ドライバ」という用語が汎用される事柄についての専門家と推定することができ、「Aさん」の作成に係る文書は、信憑性が高く、充実した文書であると期待できる。かかる文書は、質問事象の解決に繋がる重要文書である可能性が高い。そこで、ここでは「モデム」、「ドライバ」という名詞単語の重み付けを上げて文書インデックスを作成する。これにより、名詞単語「モデム」、「ドライバ」を含むクエリ(検索インデックスSI)が与えられたときに、その者の作成に係る文書ファイル、つまり専門家であると推定される「Aさん」の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。 From these documents, a person named “Mr. A” can be estimated as an expert on matters in which the terms “modem” and “driver” are widely used. Highly credible and can be expected to be a complete document. Such a document is likely to be an important document that leads to the resolution of a question event. Therefore, the document index is created by increasing the weights of the noun words “modem” and “driver”. Thus, when a query (search index SI) including the noun words “modem” and “driver” is given, the document file related to the creation of the person, that is, “Mr. A” who is estimated to be an expert It is possible to increase the degree of similarity of document files related to creation and to facilitate extraction.
上記の項目(9)は、項目(1)と実質的に同じ観点に立脚したもので、一般に文書タイトルにはその文書の内容の要点となる名詞単語が含まれ、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する可能性が高いからである。 The item (9) is based on substantially the same viewpoint as the item (1). In general, a document title includes a noun word that is a gist of the content of the document, and the noun word is increased in weight. This is because there is a high possibility that it contributes to improving the accuracy of search.
次に、図8は、検索モデルの例を示す表形式の図である。ここでは、図7に示す検索アルゴリズムMとして適用可能な検索モデルを例示している。この種の検索モデルとして最も普及しているベクトル空間モデルは、コサイン尺度である。本発明者の研究によれば、コサイン尺度は、複数の単語を含むクエリを与えたときに、より多くの種類の単語が合致する文書である程、合致度合いが高くなる傾向がある。すなわち、まんべんなく単語が合致している文書が、クエリを満たす度合いが高いと評価する傾向がある。 Next, FIG. 8 is a table format diagram showing an example of a search model. Here, a search model applicable as the search algorithm M shown in FIG. 7 is illustrated. The most popular vector space model of this kind is a cosine measure. According to the research of the present inventor, when a query including a plurality of words is given to a cosine measure, the degree of matching tends to increase as the document matches more types of words. That is, there is a tendency to evaluate that a document in which words are evenly matched satisfies the query.
しかし、ある種の問題に対する回答文書を得ようとするQ&Aシステム等においては、まんべんなく単語が合致している文書よりも、キーとなる特定の単語について合致している文書の方が、有益な場合が多い。この点に鑑み、既存の検索モデルを試行したところ、Dice係数は、ある文書に対して、合致する単語の種類は少なくても、特定の単語の合致度が高ければ、クエリを満たす度合いが高いと評価する傾向があること、つまり、まんべんなく単語が合致しているというよりも、重みの高い単語同士の合致率が高い程、順位の高い文書と扱うことができる検索モデルであることを本発明者は見出した。従って、本実施形態では、Dice係数モデルを、検索アルゴリズムとして用いることが検索精度を上げる点で好ましい。勿論、重みの高い単語同士の合致率が高い文書を順位の高い文書と評価できる限りにおいて、他の検索アルゴリズムも好ましく用いることができる。 However, in a Q & A system that tries to obtain a response document for a certain type of problem, a document that matches a specific key word is more useful than a document that evenly matches the word. There are many. In consideration of this point, when an existing search model is tried, the Dice coefficient is high in the degree of satisfying a query if the matching degree of a specific word is high even if there are few types of matching words for a certain document. In other words, the present invention is a search model that can be treated as a higher-ranked document as the match rate between words with higher weights is higher than when the words are evenly matched. Found. Therefore, in the present embodiment, it is preferable to use the Dice coefficient model as a search algorithm from the viewpoint of improving the search accuracy. Of course, other search algorithms can be preferably used as long as a document having a high match rate between words having high weights can be evaluated as a document having a high rank.
続いて、本実施形態に係るネットワークシステムSの詳細構成を説明する。図9は、ネットワークシステムSの機能構成を示す機能ブロック図である。検索エンジン1は、例えば上記の文書解析処理及び検索処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置である。前記CPUは、上記の処理を行うべくプログラミングされたソフトウェアが実行されることで、図9に示す機能部を具備するように動作する。検索エンジン1は、機能的に第1処理部11、第2処理部12、検索処理部13及び出力処理部15を備えている。
Subsequently, a detailed configuration of the network system S according to the present embodiment will be described. FIG. 9 is a functional block diagram showing a functional configuration of the network system S. As shown in FIG. The
先に図1に基づき説明した通り、ネットワークシステムSには、上記の検索エンジン1以外に、Q&Aシステム2、データベース3(第1データベース)及び端末装置4が含まれている。Q&Aシステム2は、ユーザが質問文書や回答文書等を入力するQ&Aサイト21と、これら質問文書及び回答文書等を記憶するQ&A文書データベース22(第2データベース)とを備える。データベース3は、各種の文書データが記憶された複数のウエブサイト(ウエブサーバ)31、32、・・・3nを含む。また、端末装置4は、キーボードやマウス等からなる操作部41と、液晶ディスプレイパネル等からなる表示部42と、プリンタ等からなる出力部43とを備えている。
As described above with reference to FIG. 1, the network system S includes the Q & A
検索エンジン1の第1処理部11は、検索元となる質問文書(クエリ)や回答文書等に基づいて、検索インデックスを作成する処理を行う。第1処理部11は、文書抽出部111、文書解析部112及び検索インデックス作成部113を備えている。
The
文書抽出部111は、Q&Aシステム2のQ&A文書データベース22に記憶されている1の質問文書と、この質問文書に対応付けてQ&Aサイト21に投稿された1又は複数の回答文書とのペアを抽出する。文書抽出部111は、質問文書を起点としてQ&Aサイト21上に形成されたスレッド全体の文書を取り込むようにしても良いし、質問文書に対して直接回答している文書を取り込むようにしても良い。
The
文書解析部112は、文書抽出部111が抽出した質問文書及び回答文書に対して少なくとも形態素解析を含む文書解析して、自立する単語を抽出する処理を行う。具体的には文書解析部112は、各解析対象文書の正規化処理、文書構造解析処理などを行う。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、文書解析部12は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。
The
検索インデックス作成部113は、文書解析部112により抽出された単語から検索インデックスを作成する処理を行う。例えば、文書解析部112が「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、検索インデックス作成部113は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(1)〜(5)に従って付加される重み付けとを加算して、検索インデックスを作成する。この検索インデックスは、図略のメモリ部で保管される。
The search
第2処理部12は、検索先となる文書ファイル、つまりデータベース3に蓄積されている文書ファイルを文書解析して、文書インデックスを作成する処理を行う。第2処理部12は、DB文書抽出部121、DB文書解析部122及び文書インデックス作成部123を備えている。
The
DB文書抽出部121は、データベース3(ウエブサイト31、32、・・・3n)に格納されている文書ファイルを、ユーザID等に関連付けて、同一人の作成に係る文書群の単位で抽出する。この抽出は、所定の周期で定期的に実行される。
The DB
DB文書解析部122は、複数のウエブサイト31、32、・・・3nに各々存在する文書を統合・編集してデータを共通化し、これらの文書に対して、正規化処理、形態素解析及び同義語処理などの文書解析処理を行う。この処理は、上述の文書解析部112のものと同様である。かかる文書解析処理により、文書タイトルや著者、自立する単語(キーワード)が導出される。
The DB
文書インデックス作成部123は、DB文書解析部122により抽出された単語から、文書インデックスを作成する処理を行う。例えばDB文書解析部122が、「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、文書インデックス作成部123は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(6)〜(9)に従って付加される重み付けとを加算して、文書インデックスを作成する。この文書インデックスは、図略のメモリ部で保管される。
The document
上記の項目(8)の重み付けを設定する場合、文書インデックス作成部123は、同一人の作成に係る文書群の各文書で使用されている単語を特定し、一の文書で特定された単語が他の文書において出現している出現度合いを求める。図7の例では、文書60において出現する「モデム」という単語が、他の文書601〜603においても出現しているか否かを判定し、その出現度合いを求める。そして、前記出現度合いが所定値よりも高い単語について重み付けを上げて、文書インデックスの重み付けを設定する。図7では、「モデム」という単語は、他の文書601〜603の全てに登場するので、「モデム」の重み付けは相応の高い値に設定される。
When setting the weighting of the item (8), the document
検索処理部13は、データベース3を検索対象として、検索インデックス作成部113が作成した検索インデックスと、文書インデックス作成部123が作成した文書インデックスとを、検索アルゴリズムに当て嵌めて合致度を算出する検索処理を行う。検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示できるが、上述の通り好ましい検索アルゴリズムはDice係数である。検索処理部13は、前記検索処理によって合致度が所定値よりも高いと判定された文書ファイルのタイトル等を抽出する。
The
出力処理部14は、検索処理部13によるデータベース3の検索によりヒットした文書(推奨文書)のリストを作成する。このリストは、クエリに対する合致が高い順に並べられたリストであって、当該質問文書を投稿したユーザの端末装置4へ送信される。
The
端末装置4の表示部42には、出力処理部14から送信される検索ヒット文書(推奨文書)のリストが表示される。ユーザは、操作部41により、前記リスト中から所望の文書に選択指示を与える操作を行うことができる。選択指示が与えられると、端末装置4はデータベース3に直接アクセスし、選択に係る文書に対してブラウジング(出力要求)し、その内容を表示部42に表示させる。さらに、操作部41からプリント要求が与えられた場合は、出力部43から当該文書のプリント処理を行う。
A list of search hit documents (recommended documents) transmitted from the
上記で説明した検索エンジン1の処理動作を、図10に示すフローチャートに基づいて説明する。第1処理部11の文書抽出部111により、Q&A文書データベース22から質問文書が抽出され、該質問文書に対して文書解析部112により文書解析処理として順次、正規化処理(ステップS11)、形態素解析処理(ステップS12)、及び同義語処理(ステップS13)が実行される。
The processing operation of the
また、前記質問文書に関連付けられて、Q&A文書データベース22に回答文書が記録されていれば、この回答文書に対しても、正規化処理(ステップS14)、形態素解析処理(ステップS15)、及び同義語処理(ステップS16)が実行される。これにより、質問文書及び回答文書について検索キーワードとなり得る単語が抽出される。なお、文書抽出部11による質問文書及び回答文書の抽出は、Q&Aサイト21へ入力される毎でも良いし、定時的(例えば毎日24:00時など)であっても良い。
If an answer document is recorded in the Q & A
次いで、検索インデックス作成部113により、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(1)〜(5)に基づいた重み付けを付加して、検索インデックスが作成される(ステップS18)。この検索インデックスは、図略のメモリ部で一時的に保管される。
Next, the search
一方、第2処理部12の側では、定時的な処理により、データベース3に含まれる文書のインデックスが並行して作成される。すなわちDB文書抽出部121がデータベース3から文書ファイルをユーザID毎に文書群を抽出し、DB文書解析部122がデータベース3内の文書データを共通化するため、統合・編集処理を行う(ステップS21)。そして、これらの文書に対して、DB文書解析部122が、正規化処理(ステップS22)、形態素解析処理(ステップS23)、及び同義語処理(ステップS24)を含む文書解析処理を行う。
On the other hand, on the
そして、文書インデックス作成部123により、文書解析処理により抽出された単語等に基づいて、文書インデックスが作成される(ステップS25)。この文書インデックスは、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(6)〜(9)に基づいた重み付けを付加して作成される。作成された文書インデックスは、図略のメモリ部に記憶される(ステップS26)。
Then, the document
続いて、検索処理部13が、ステップS18で作成された検索インデックスを用いて、ステップS25で作成された文書インデックスに対する文書検索を行う(ステップS31)。この文書検索によりヒットした文書(推奨文書)のリストが、出力処理部14により作成される(ステップS32)。そして、該リストは、質問文書を投稿したユーザの端末装置4へ送信される(ステップS33)。
Subsequently, the
端末装置4の操作部41により、前記リスト中から所望の文書に選択指示を与えられた場合(ステップS34)、端末装置4はデータベース3に当該選択文書の出力要求を行う。この出力要求に呼応して、選択文書の内容が表示部42に表示されたり、或いは出力部43により当該文書のプリント処理が行われたりする(ステップS35)。
When a selection instruction is given to a desired document from the list by the
図11は、図10のステップS17の検索インデックス作成処理(検索インデックス作成部113の動作)の一例を示すフローチャートである。先ず、各質問文書の投稿毎に与えられる質問要求番号に対応したカウンタqが、q=0と設定される(ステップS41)。その後、カウンタq=q+1とインクリメントされ(ステップS42)、q番目の質問文書及び回答文書の文書解析データが取得される(ステップS43)。 FIG. 11 is a flowchart showing an example of the search index creation process (operation of the search index creation unit 113) in step S17 of FIG. First, the counter q corresponding to the question request number given for each posting of each question document is set to q = 0 (step S41). Thereafter, the counter q is incremented to q + 1 (step S42), and the document analysis data of the qth question document and answer document are acquired (step S43).
続いて、質問文書及び回答文書毎に名詞単語、終助詞が特定され(ステップS44)、名詞単語の出現度合いが導出される(ステップS45)。この処理で得られる出現度合いの値は、上記の項目(2)に基づく重み付けに使用される。さらに、「・・・でしょうか」というような終助詞を含む文の特定、及び終助詞と名詞単語との位置関係が特定される(ステップS46)。この処理で得られるデータは、上記の項目(3)、(4)に基づく重み付けに使用される。 Subsequently, the noun word and final particle are specified for each question document and answer document (step S44), and the appearance degree of the noun word is derived (step S45). The value of the degree of appearance obtained by this processing is used for weighting based on the item (2). Further, a sentence including a final particle such as “...?” And a positional relationship between the final particle and the noun word are specified (step S46). Data obtained by this processing is used for weighting based on the above items (3) and (4).
次に、回答文書の数が1を超過しているか否かが判定される(ステップS47)。2以上存在する場合(ステップS47でYES)、複数の回答文書間における名詞単語の出現度合いが導出される(ステップS48)。この処理で得られる出現度合いの値は、上記の項目(5)に基づく重み付けに使用される。なお、回答文書の数が1以下である場合は(ステップS47でNO)、ステップS48はスキップされる。 Next, it is determined whether or not the number of answer documents exceeds 1 (step S47). When there are two or more (YES in step S47), the appearance degree of noun words among a plurality of answer documents is derived (step S48). The value of the degree of appearance obtained by this processing is used for weighting based on the item (5). If the number of answer documents is 1 or less (NO in step S47), step S48 is skipped.
その後、質問文書にタイトルが存在するか否かが確認される(ステップS49)。図6に例示するような「質問タイトル」が存在する場合は、そのタイトルに使用されている名詞単語が特定される(ステップS50)。この処理で得られるデータは、上記の項目(1)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS49でNO)、ステップS50はスキップされる。 Thereafter, it is confirmed whether or not a title exists in the question document (step S49). If there is a “question title” as illustrated in FIG. 6, the noun word used in the title is specified (step S50). Data obtained by this processing is used for weighting based on the item (1). If the title does not exist (NO in step S49), step S50 is skipped.
しかる後、各々の名詞単語に重み付けが設定される(ステップS51)。勿論、名詞単語以外の単語も検索インデックスに加えると共に、これらにも重み付けを付与するようにしても良い。この重み付けの詳細は、上記の項目(1)〜(5)でそれぞれ説明した通りである。そして、この重み付けを含む検索インデックスの関連データがメモリに記録される(ステップS52)。以下、カウンタqが最終であるか否かが判定され(ステップS53)、最終である場合は(ステップS53でYES)、処理を終了する。一方、最終でない場合は(ステップS53でNO)、ステップS42に戻って、q+1番目の質問要求に対して同様の処理が繰り返される。 Thereafter, weighting is set for each noun word (step S51). Of course, words other than noun words may be added to the search index, and weights may be given to them. The details of the weighting are as described in the items (1) to (5). Then, the related data of the search index including this weighting is recorded in the memory (step S52). Thereafter, it is determined whether or not the counter q is final (step S53). If it is final (YES in step S53), the process is terminated. On the other hand, if it is not final (NO in step S53), the process returns to step S42, and the same processing is repeated for the q + 1th question request.
図12は、図10のステップS25の文書インデックス作成処理(文書インデックス作成部123の動作)の一例を示すフローチャートである。先ず、データベース3への文書の投稿者毎に付与される作成者IDに対応したカウンタpが、p=0と設定される(ステップS61)。その後、カウンタp=p+1とインクリメントされ(ステップS62)、p番目の作成者を対象とした処理が以下で実施される。
FIG. 12 is a flowchart showing an example of the document index creation process (operation of the document index creation unit 123) in step S25 of FIG. First, the counter p corresponding to the creator ID assigned to each contributor of the document to the
当該作成者がデータベース3へ投稿した文書毎に付与される文書IDに対応したカウンタdが、d=0と設定される(ステップS64)。その後、カウンタd=d+1とインクリメントされ(ステップS64)、当該作成者についてのd番目の文書ファイルデータが取得される(ステップS65)。
A counter d corresponding to the document ID assigned to each document posted by the creator to the
続いて、d番目の文書ファイルについて名詞単語、接続助詞が特定され(ステップS66)、名詞単語の出現度合いが導出される(ステップS67)。この処理で得られる出現度合いの値は、上記の項目(8)に基づく重み付けに使用される。さらに、「・・・ため」というような接続助詞を含む文の特定、及び接続助詞と名詞単語との位置関係が特定される(ステップS68)。この処理で得られるデータは、上記の項目(6)、(7)に基づく重み付けに使用される。 Subsequently, a noun word and a connection particle are specified for the d-th document file (step S66), and the appearance degree of the noun word is derived (step S67). The value of the degree of appearance obtained by this processing is used for weighting based on the item (8). Further, a sentence including a connection particle such as “... For” is specified, and the positional relationship between the connection particle and the noun word is specified (step S68). Data obtained by this processing is used for weighting based on the above items (6) and (7).
その後、d番目の文書ファイルにタイトルが存在するか否かが確認される(ステップS69)。当該文書ファイルにタイトルが存在する場合(ステップS69でYES)は、そのタイトルに使用されている名詞単語が特定される(ステップS70)。この処理で得られるデータは、上記の項目(9)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS69でNO)、ステップS70はスキップされる。 Thereafter, it is confirmed whether or not a title exists in the d-th document file (step S69). If a title exists in the document file (YES in step S69), the noun word used in the title is specified (step S70). Data obtained by this processing is used for weighting based on the item (9). If the title does not exist (NO in step S69), step S70 is skipped.
その後、各々の名詞単語に一次的な重み付けが設定される(ステップS71)。この重み付けの詳細は、上記の項目(6)、(7)、(9)でそれぞれ説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS72)。続いて、カウンタdが最終であるか否かが判定され(ステップS73)、最終でない場合は(ステップS73でNO)、ステップS64に戻って、d+1番目の文書ファイルに対して同様の処理が繰り返される。 Thereafter, primary weighting is set for each noun word (step S71). Details of the weighting are as described in the items (6), (7), and (9). Then, the related data of the document index including this weight is recorded in the memory (step S72). Subsequently, it is determined whether or not the counter d is final (step S73). If it is not final (NO in step S73), the process returns to step S64 and the same processing is repeated for the d + 1-th document file. It is.
一方、カウンタdが最終である場合は(ステップS73でYES)、続いてp番目の作成者が投稿した全ての文書ファイル間において共通して使用されている単語が存在するか否かが確認される(ステップS74)。これは、上記の項目(8)に対応した処理である。共通単語が存在する場合(ステップS74でYES)、その単語に二次的な重み付けが設定される(ステップS75)。この重み付けの詳細は、上記の項目(8)及び図7で説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS76)。 On the other hand, if the counter d is final (YES in step S73), it is confirmed whether or not there is a word that is used in common among all the document files posted by the p-th creator. (Step S74). This is processing corresponding to the item (8). If there is a common word (YES in step S74), secondary weighting is set for the word (step S75). Details of this weighting are as described in the above item (8) and FIG. Then, the related data of the document index including this weight is recorded in the memory (step S76).
以下、カウンタpが最終であるか否かが判定され(ステップS77)、最終である場合は(ステップS77でYES)、処理を終了する。一方、最終でない場合は(ステップS77でNO)、ステップS62に戻って、p+1番目の作成者の作成に係る文書ファイルに対して同様の処理が繰り返される。 Thereafter, it is determined whether or not the counter p is final (step S77). If it is final (YES in step S77), the process is terminated. On the other hand, if it is not final (NO in step S77), the process returns to step S62, and the same processing is repeated for the document file related to the creation of the (p + 1) th creator.
図13は、本実施形態に基づく文書検索の具体例を示す模式的に示す図である。Q&Aシステム2に存在する検索元文書(質問文書及び回答文書)に基づいて作成される検索インデックスSIは、単語a、単語b、単語cについて、各々1.023、0.221、6.809という重み付けが付与されている。また、データベース3に存在する検索先文書(文書ファイル)に基づいて作成される文書インデックスDIも、文書1、文書2、文書3・・・について、図表に示すように単語a、単語b、単語cについて重み付けが付与されている。
FIG. 13 is a diagram schematically illustrating a specific example of document search based on the present embodiment. The search index SI created based on the search source document (question document and answer document) existing in the Q & A
このような検索インデックスSIと、各文書の文書インデックスDIとが、Dice係数の検索モデルに従った文書合致度算出式に入力される。そして、文書1、文書2、文書3・・・毎に、合致度が算出される。そして、合致度が高い順にソートされ、ヒット文書のランキング表示データが作成される。図13の例では、重みの高い単語の合致率が高い場合に高合致度となるDice係数が採用されていることもあり、単語cの重みが高い検索インデックスSIであることから、同じく単語cの重みが突出している文書2について合致度が最も高い結果となっている。
Such a search index SI and a document index DI of each document are input to a document matching degree calculation formula according to a Dice coefficient search model. Then, the degree of coincidence is calculated for each of
以上説明した本実施形態に係るネットワークシステムSによれば、ユーザが望む重要文書を、Q&Aシステム2からだけではなく、大規模なデータベース3から的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイト21の利用価値を高め、該サイトを活性化させることが可能となる。
According to the network system S according to the present embodiment described above, it is possible to provide a document search method capable of accurately extracting an important document desired by a user not only from the Q & A
S ネットワークシステム
1 検索エンジン
11 第1処理部
111 文書抽出部
112 文書解析部
113 検索インデックス作成部
12 第2処理部
121 DB文書抽出部
122 DB文書解析部
123 文書インデックス作成部
13 検索処理部
14 出力処理部
2 Q&Aシステム
21 Q&Aサイト
22 Q&A文書データベース22(第2データベース)
3 データベース(第1データベース)
4 端末装置
41 操作部
42 表示部
43 出力部
3 Database (first database)
4
Claims (11)
検索元のクエリに基づき検索インデックスを設定するステップと、
前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、
前記文書インデックスを作成するステップは、
前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、
前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、
前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、
前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、
を含むことを特徴とする文書検索方法。 Creating a document index based on a number of document files stored in a first database of search destinations;
Setting a search index based on the query from the search source;
Collating the search index with the document index to extract a document file according to the query,
The step of creating the document index includes:
Extracting a document group created by the same person from the first database;
Analyzing each document of the document group and identifying words used in the documents;
Obtaining a degree of appearance of a word specified in one document of the document group appearing in another document;
Increasing the weight for words whose appearance degree is higher than a predetermined value, and setting the weight of the document index;
A document retrieval method comprising:
前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。 The query of the search source is one question document posted to a second database different from the first database,
5. The document search method according to claim 1, wherein in the step of setting the search index, the search index is created based on a word specified by document analysis of the question document. .
前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。 The query of the search source further includes one or more answer documents posted to the second database for the question document;
5. The search index according to claim 1, wherein in the step of setting the search index, the search index is created based on a word specified by document analysis of the question document and the answer document. Document search method.
前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることを特徴とする請求項6に記載の文書検索方法。 Obtaining the appearance degree of the word in all of the question document and the answer document;
The document search method according to claim 6, wherein weighting of the word is set according to the appearance degree, and the search index is created.
複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることを特徴とする請求項6に記載の文書検索方法。 In a case where there are a plurality of the answer documents, obtain the degree of appearance of the word in all the answer documents,
The document search method according to claim 6, wherein the weight of the search index is set by increasing the weight of words appearing in the plurality of answer documents.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009134934A JP2010282403A (en) | 2009-06-04 | 2009-06-04 | Document retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009134934A JP2010282403A (en) | 2009-06-04 | 2009-06-04 | Document retrieval method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010282403A true JP2010282403A (en) | 2010-12-16 |
Family
ID=43539078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009134934A Pending JP2010282403A (en) | 2009-06-04 | 2009-06-04 | Document retrieval method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010282403A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013136634A1 (en) * | 2012-03-13 | 2013-09-19 | 三菱電機株式会社 | Document search device and document search method |
JP2014512600A (en) * | 2011-03-31 | 2014-05-22 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for acquiring / searching related knowledge information |
JP2019139746A (en) * | 2018-02-09 | 2019-08-22 | 株式会社日立製作所 | Information search system and method |
-
2009
- 2009-06-04 JP JP2009134934A patent/JP2010282403A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014512600A (en) * | 2011-03-31 | 2014-05-22 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | Method and apparatus for acquiring / searching related knowledge information |
WO2013136634A1 (en) * | 2012-03-13 | 2013-09-19 | 三菱電機株式会社 | Document search device and document search method |
JPWO2013136634A1 (en) * | 2012-03-13 | 2015-08-03 | 三菱電機株式会社 | Document search apparatus and document search method |
JP2019139746A (en) * | 2018-02-09 | 2019-08-22 | 株式会社日立製作所 | Information search system and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12001490B2 (en) | Systems for and methods of finding relevant documents by analyzing tags | |
Balog et al. | Formal models for expert finding in enterprise corpora | |
Bhagavatula et al. | Methods for exploring and mining tables on wikipedia | |
Markov et al. | Data mining the Web: uncovering patterns in Web content, structure, and usage | |
US8051080B2 (en) | Contextual ranking of keywords using click data | |
US7617176B2 (en) | Query-based snippet clustering for search result grouping | |
US9576029B2 (en) | Trust propagation through both explicit and implicit social networks | |
AU2010343183B2 (en) | Search suggestion clustering and presentation | |
CN108763321B (en) | Related entity recommendation method based on large-scale related entity network | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US20090254540A1 (en) | Method and apparatus for automated tag generation for digital content | |
US7996379B1 (en) | Document ranking using word relationships | |
US20110307432A1 (en) | Relevance for name segment searches | |
KR102256007B1 (en) | System and method for searching documents and providing an answer to a natural language question | |
Li et al. | Getting work done on the web: supporting transactional queries | |
JP2013168177A (en) | Information provision program, information provision apparatus, and provision method of retrieval service | |
JP5315726B2 (en) | Information providing method, information providing apparatus, and information providing program | |
JP2010282403A (en) | Document retrieval method | |
JP2012104051A (en) | Document index creating device | |
Secker et al. | AISIID: An artificial immune system for interesting information discovery on the web | |
Agosti | Information access through search engines and digital libraries | |
Weiss et al. | Information retrieval and text mining | |
Alashti et al. | Parsisanj: an automatic component-based approach toward search engine evaluation | |
CN118132818B (en) | Tourist area resource assessment method based on image difference | |
Varnaseri et al. | The assessment of the effect of query expansion on improving the performance of scientific texts retrieval in Persian |