JP2010282403A - Document retrieval method - Google Patents

Document retrieval method Download PDF

Info

Publication number
JP2010282403A
JP2010282403A JP2009134934A JP2009134934A JP2010282403A JP 2010282403 A JP2010282403 A JP 2010282403A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2009134934 A JP2009134934 A JP 2009134934A JP 2010282403 A JP2010282403 A JP 2010282403A
Authority
JP
Japan
Prior art keywords
document
search
question
index
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009134934A
Other languages
Japanese (ja)
Inventor
Toshio Ikeda
利夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kansai Electric Power Co Inc
Original Assignee
Kansai Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kansai Electric Power Co Inc filed Critical Kansai Electric Power Co Inc
Priority to JP2009134934A priority Critical patent/JP2010282403A/en
Publication of JP2010282403A publication Critical patent/JP2010282403A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a document retrieval method capable of extracting exactly an important document desired by a user. <P>SOLUTION: A document is analyzed in a query document Qn generated in a Q&A system 2 and an a reply document An for replying a query, as objects, to prepare a retrieval index SI. The retrieval index SI is weighted to be weighted with an increased weight or the like, as a contrivance, as to not only a word appearance frequency but also a noun word contained in a sentence with an end auxiliary word indicating a question or the query. A document index DI is also prepared in a document file in a database 3 as an object. The document index DI is weighted to be weighted with an increased weight or the like, as a contrivance, not only depending on a word appearance frequency but also as to a word used in the plurality of documents, in a document group concerned in the preparation of the same person. The retrieval index SI and the document index DI are applied to a retrieval algorithm M to calculate a degree of conformity, and the best document for the query document is extracted out of the database 3. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、検索元の検索インデックスと検索先の文書インデックスとを適正に設定することで、ユーザが望む文書ファイルを的確に抽出することができるようにする文書検索方法に関する。   The present invention relates to a document search method capable of appropriately extracting a document file desired by a user by appropriately setting a search source search index and a search destination document index.

インターネット上や社内ネットワークのようなローカルネット上において、Q&Aシステムと呼ばれる通信ネットワークシステムが普及している。一般にQ&Aシステムは、あるユーザが質問文書を当該システム上に入力すると、前記質問をシステム上で閲覧した他のユーザが、自身の知識に基づき自発的に、前記質問に対する回答文書を当該システム上に入力するという運用がなされる。システムのユーザは、解決したい問題や知見したい情報についての質問を投稿すれば、それらに対する何らかのソリューションを当該システムから得ることができるという利点がある。   Communication network systems called Q & A systems are widespread on local networks such as the Internet and company networks. Generally, in a Q & A system, when a user inputs a question document on the system, other users who browse the question on the system voluntarily put an answer document on the question on the system based on their own knowledge. The operation of inputting is performed. If the user of a system posts a question about a problem to be solved or information to be discovered, there is an advantage that a certain solution for them can be obtained from the system.

しかし、上記のQ&Aシステムでは、特定の質問文書に対するレスポンスという形で投稿される特定の回答文書という、非常に限られた範囲からしか回答を得ることができない。すなわち、求める問いに対するベストの回答文書が投稿されるとは限らず、さらには質問文書に対してレスポンスが付かない場合すらあり、ユーザは所望の情報を得ることができないことが多々ある。   However, in the above Q & A system, answers can be obtained only from a very limited range of specific answer documents posted in the form of responses to specific question documents. That is, the best answer document for the requested question is not always posted, and there is even a case where no response is given to the question document, and the user often cannot obtain desired information.

ユーザが所望の情報を得る他の手法として、質問事象に関し自身が想起できるキーワードを設定して、所定のデータベースに検索をかける方法も存在する。この方法は、キーワードの入力という簡易な操作で情報を取得可能ではあるが、質問者の主観に依存して検索キーワードが設定されることから、ベストの回答を取得するための適切なキーワードが設定されないことが多く、なかなか所望の情報が得られないという不具合がある。そもそも質問者は、何が問題解決のキーワードであるかを認識していない場合が多く、適切なキーワード設定はもともと期待できない。   As another method for the user to obtain desired information, there is also a method for setting a keyword that can be recalled with respect to a question event and performing a search on a predetermined database. Although this method can acquire information by a simple operation of inputting a keyword, the search keyword is set depending on the subjectivity of the questioner, so the appropriate keyword for acquiring the best answer is set. In many cases, the desired information cannot be obtained. In the first place, the questioner often does not recognize what is a problem-solving keyword, and appropriate keyword setting cannot be expected from the beginning.

特許文献1には、新規の質問が発生したときに、当該質問文書に用いられているキーワードを用いてデータベースを検索し、過去の同様な質問及び回答のペアを抽出する検索方法が開示されている。この検索方法によれば、同種の質問に対する過去のQ&A事例が提示されることから、ベストの回答が得られやすくなることは確かである。   Patent Document 1 discloses a search method for searching a database using a keyword used in a question document when a new question occurs and extracting a pair of similar questions and answers in the past. Yes. According to this search method, since past Q & A cases for the same type of question are presented, it is certain that the best answer can be easily obtained.

このような検索方法においては、検索元の質問文書に基づき作成される検索インデックス(キーワード)と、検索先のデータベースに蓄積されている多数の文書ファイルに基づき予め作成されている文書インデックスとを、所定の検索アルゴリズムを用いて照合させ、類似度の高い文書ファイルをヒット文書として抽出する手法が取られている。   In such a search method, a search index (keyword) created based on the query document of the search source, and a document index created in advance based on a large number of document files accumulated in the search destination database, A technique is adopted in which a document file having a high similarity is extracted as a hit document by collating using a predetermined search algorithm.

特開2006−92473号公報JP 2006-92473 A

上記の検索方法によれば、ある程度の精度で質問文書に類似した文書を抽出することは可能である。しかし、ユーザが真に欲する回答文書を抽出することができる確率は、それほど高いものではなかった。すなわち、ユーザが抱える問題の解決に繋がる重要文書の抽出が、従来の検索方法では充分に行えないという問題があった。   According to the above search method, it is possible to extract a document similar to a question document with a certain degree of accuracy. However, the probability that the answer document that the user really wants can be extracted has not been so high. That is, there is a problem that extraction of an important document that leads to solution of a problem that the user has cannot be performed sufficiently by a conventional search method.

本発明の目的は、上記の問題に鑑み、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することにある。   In view of the above problems, an object of the present invention is to provide a document search method capable of accurately extracting an important document desired by a user.

上記目的を達成する本発明の一の局面に係る文書検索方法は、検索先の第1データベースに蓄積されている多数の文書ファイルに基づき、文書インデックスを作成するステップと、検索元のクエリに基づき検索インデックスを設定するステップと、前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、前記文書インデックスを作成するステップは、前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、を含むことを特徴とする(請求項1)。   A document search method according to one aspect of the present invention that achieves the above object is based on a step of creating a document index based on a large number of document files stored in a first database of a search destination, and on a query of a search source Setting a search index; and collating the search index with the document index to extract a document file corresponding to the query, and creating the document index includes: A step of extracting a document group created by the same person, a step of analyzing each document of the document group, specifying a word used in the document, and one of the document groups Obtaining a degree of appearance of a word specified in a document appearing in another document; Raise the weights for higher word than value, characterized in that it comprises the steps of: setting a weighting of the document index (claim 1).

この方法によれば、第1データベースの中から、同一人が作成した文書群が抽出され、前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いが求められる。一般に、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であると推定することができる。そのような文書は、信憑性が高く、充実した文書であると期待できる。従って、同一人の作成に係る文書において出現の頻度が高い単語について重み付けを上げて文書インデックスを作成することで、その単語を含むクエリが与えられたときに、その者の作成に係る文書ファイル、つまり専門家の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。これにより、ユーザが望む重要文書の抽出確率を向上させることができる。   According to this method, a document group created by the same person is extracted from the first database, and a degree of appearance in which a word specified in one document of the document group appears in another document. Is required. Generally, a person who describes many documents related to a certain matter (word) can be estimated to be an expert on that matter. Such a document is highly reliable and can be expected to be a complete document. Therefore, when a query including the word is given by increasing the weight for a word that frequently appears in a document related to the creation of the same person and creating a document index, the document file related to the creation of the person, That is, it is possible to increase the similarity of document files related to the creation of experts and to facilitate extraction. Thereby, the extraction probability of the important document desired by the user can be improved.

上記方法において、前記単語を特定するステップにおいて、特定される単語が、名詞単語であることが望ましい(請求項2)。名詞単語は、他の品詞の単語に比較して、その事柄に端的に繋がることを表現している場合が多い。従って、この方法によれば、的確な文書インデックスの作成に寄与する。   In the above method, in the step of specifying the word, it is preferable that the specified word is a noun word. A noun word often expresses that it is directly connected to the matter as compared to other parts of speech. Therefore, this method contributes to the creation of an accurate document index.

この場合、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞を備える文に含まれる前記名詞単語について重み付けを上げることが望ましい(請求項3)。例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げることで、かかる文を含む文書ファイルが抽出され易いようにすることができる。   In this case, in the step of setting the weighting, it is desirable to further increase the weighting for the noun word included in the sentence including the connection particle indicating the cause or the reason (Claim 3). For example, a sentence including a connection particle indicating a cause or reason such as “... so” and “... so” is highly likely to contain a main description of a certain matter. Therefore, by increasing the weight of noun words included in such a sentence, it is possible to easily extract a document file including such a sentence.

或いは、前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞の直前に存在する前記名詞単語について重み付けを上げることが望ましい(請求項4)。一般に、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。   Alternatively, in the step of setting the weighting, it is desirable to further increase the weighting for the noun word existing immediately before the connection particle indicating the cause or reason. In general, there are many cases in which a noun word that is a key of a matter is arranged immediately before a connection particle indicating a cause or reason. Therefore, by increasing the weight for such noun words, it is possible to easily extract a document file including such noun words.

上記いずれかの方法において、前記検索元のクエリが、前記第1データベースとは異なる第2データベースに投稿された1の質問文書であって、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項5)。この方法によれば、ユーザが第2データベースに質問文書を投稿したことを端緒として、第1データベース中に潜在している有益な回答文書を抽出することが可能となる。   In any one of the above methods, the query of the search source is one question document posted to a second database different from the first database, and in the step of setting the search index, the search index includes: The question document can be created based on a word identified by document analysis. According to this method, it is possible to extract useful answer documents that are latent in the first database, starting with the user posting a question document in the second database.

或いは、前記検索元のクエリが、さらに、前記質問文書に対して前記第2データベースに投稿された1又は複数の回答文書を含み、前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されるようにすることができる(請求項6)。   Alternatively, the search source query further includes one or a plurality of answer documents posted to the second database with respect to the question document, and in the step of setting the search index, the search index includes the question document The document and the answer document can be created based on the word identified by document analysis (claim 6).

一般に質問者は、質問事象に関しあまり知識を持たず適切なキーワードを想起することが困難で、自ずと質問文書に用いられる単語も適切でない場合が往々として生じる。これに対し、回答者は、質問事象に関して比較的詳しい知識を有し(それゆえ回答文書を自発的に投稿する)、回答文書において質問事象に対する適切なキーワードが使用される可能性が高い。従って、回答文書に基づき検索インデックスを作成することで、質問事象に対して的確性を高めることができる。   In general, the questioner often has little knowledge about the question event, is difficult to recall an appropriate keyword, and the words used in the question document are often not appropriate. On the other hand, the respondent has relatively detailed knowledge about the question event (and therefore submits the answer document voluntarily), and an appropriate keyword for the question event is likely to be used in the answer document. Therefore, by creating a search index based on the answer document, it is possible to improve the accuracy with respect to the question event.

この場合、前記質問文書において、疑問乃至は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項7)。例えば、「・・・でしょうか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高い。従って、このような文に含まれる名詞単語について重み付けを上げ検索インデックスを作成することで、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。   In this case, in the question document, it is preferable that the search index is created by increasing the weights of noun words included in a sentence including a question or a final particle indicating a question (claim 7). For example, a sentence such as “Is it?” Or a sentence with a final particle indicating the question is likely to contain an essential description of the question that the user wants to know. Therefore, by increasing the weight of noun words included in such a sentence and creating a search index, it is possible to easily extract a document file that includes the content in line with the question.

或いは、前記質問文書において、疑問乃至は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項8)。一般に、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多い。従って、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることができる。   Alternatively, in the question document, it is preferable that the search index is created by increasing the weight for a noun word existing immediately before a question or a final particle indicating a question (claim 8). In general, a noun word that is a key to a question event is often placed immediately before a question or a final particle indicating a question. Therefore, by increasing the weight for such noun words, it is possible to easily extract a document file including such noun words.

上記方法において、前記質問文書及び回答文書の全てにおいて前記単語の出現度合いを求め、前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることが望ましい(請求項9)。この方法によれば、質問文書及び回答文書の全てを通して単語の出現頻度が評価されるので、客観性に優れた検索インデックスを作成することができる。   In the above method, it is preferable that the appearance degree of the word is obtained in all of the question document and the answer document, the weight of the word is set according to the appearance degree, and the search index is created. . According to this method, since the appearance frequency of words is evaluated through all of the question document and the answer document, a search index having excellent objectivity can be created.

又は、前記回答文書が複数存在する場合において全ての回答文書に前記単語の出現度合いを求め、複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることが望ましい(請求項10)。複数の回答文書に同様に出現する単語は、その事柄において要点を為すと推定される。従って、そのような単語の重み付けを上げることで、的確な検索インデックスを作成することができる。   Alternatively, when there are a plurality of the answer documents, the appearance degree of the word is obtained for all the answer documents, the weights of the words appearing in the answer documents are increased, and the weight of the search index is set. Desirable (claim 10). Words that appear similarly in multiple answer documents are presumed to make a point in that matter. Therefore, an accurate search index can be created by increasing the weighting of such words.

さらに、前記質問文書がタイトルを含む場合において、該タイトルに含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることが望ましい(請求項11)。多くの場合、タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する。   Furthermore, when the question document includes a title, it is desirable that the search index is created by increasing the weights of noun words included in the title. In many cases, noun words that are the main points of questions are included in the title, so increasing the weight of such noun words contributes to improving the accuracy of the search.

本発明によれば、ユーザが望む重要文書を的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイトの利用価値を高め、該サイトを活性化させることが可能となる。   ADVANTAGE OF THE INVENTION According to this invention, the document search method which can extract exactly the important document which a user desires can be provided. Therefore, it is possible to increase the utility value of the Q & A site existing on the Internet and activate the site.

図1は、本発明の文書検索方法が適用されるネットワークシステムのハードウェア構成を概略的に示す構成図である。FIG. 1 is a block diagram schematically showing a hardware configuration of a network system to which a document search method of the present invention is applied. 本発明の文書検索方法の概要を示す模式的なフローチャートである。It is a typical flowchart which shows the outline | summary of the document search method of this invention. 従来の検索インデックスの作成手法を説明するための模式図である。It is a schematic diagram for demonstrating the creation method of the conventional search index. 従来の文書インデックスの作成手法を説明するための模式図である。It is a schematic diagram for demonstrating the creation method of the conventional document index. 本発明の文書検索方法を概略的に示す模式図である。It is a schematic diagram which shows roughly the document search method of this invention. 検索インデックスの作成手法の実施形態を説明するための模式図である。It is a schematic diagram for demonstrating embodiment of the production method of a search index. 文書インデックスの作成手法の実施形態を説明するための模式図である。It is a schematic diagram for demonstrating embodiment of the production method of a document index. 検索モデルの例を示す表形式の図である。It is a figure of the table format which shows the example of a search model. ネットワークシステムの機能構成を示す機能ブロック図である。It is a functional block diagram which shows the function structure of a network system. ネットワークシステムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of a network system. 検索インデックス作成動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of search index preparation operation | movement. 文書インデックス作成動作の詳細を示すフローチャートである。It is a flowchart which shows the detail of document index preparation operation | movement. 文書検索の具体例を示す模式図である。It is a schematic diagram which shows the specific example of a document search.

以下、図面に基づいて本発明の実施形態につき詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の文書検索方法が適用されるネットワークシステムSのハードウェア構成を概略的に示す構成図である。このネットワークシステムSは、検索エンジン1と、インターネット(又はローカルな通信ネットワーク)上においてユーザ同士の質問文書及び回答文書の投稿を受け付けるQ&Aシステム2と、インターネット上において利用可能なデータベース3と、ユーザが利用する端末装置4とが、インターネットINを介してデータ通信可能に接続されてなる。   FIG. 1 is a block diagram schematically showing the hardware configuration of a network system S to which the document search method of the present invention is applied. This network system S includes a search engine 1, a Q & A system 2 that accepts posting of question documents and answer documents between users on the Internet (or a local communication network), a database 3 that can be used on the Internet, and a user The terminal device 4 to be used is connected to be able to perform data communication via the Internet IN.

Q&Aシステム2は、インターネット上に展開された特定のウエブサイトであって、1人のユーザの質問文書の投稿(文書データ等の入力)を受け付けてこれを掲載すると共に、当該質問文書に対する他のユーザの回答文書、前記1人のユーザの再質問文書やお礼文書等も掲載するコミュニティサイトである。現行で運用されている同種のシステムとしては、例えば「Yahoo!知恵袋(登録商標)」、「教えて!Goo」、「OKwave」などを例示することができる。   The Q & A system 2 is a specific web site developed on the Internet, accepts posting of a question document (input of document data, etc.) of one user and posts it, and other This is a community site where a user's answer document, the one user's re-question document, a thank-you document, etc. are posted. Examples of the same type of system currently in operation include “Yahoo! Wisdom Bag (registered trademark)”, “Teach me! Good”, “OKwave”, and the like.

データベース3は、インターネットに接続され、各種のHTMLファイルや画像ファイルなどが大量に記憶されているデータベースである。ここでは簡略的に図示しているが、データベース3は各々ドメイン名を持つ多数のウエブサイトの集合を示している。このようなデータベース3としては、例えばYahoo(登録商標)やGoogle(登録商標)などのポータルサイトを通してアクセス可能なデータベースを例示することができる。   The database 3 is a database that is connected to the Internet and stores a large amount of various HTML files and image files. Although shown here in a simplified manner, the database 3 shows a set of a large number of websites each having a domain name. As such a database 3, for example, a database accessible through a portal site such as Yahoo (registered trademark) or Google (registered trademark) can be exemplified.

端末装置4は、Q&Aシステム2に会員登録されている多数のユーザに保有されるパーソナルコンピュータや携帯電話機、携帯情報端末機等の通信端末機41、42、43、44、45、・・・4nである。端末装置4は、インターネットINを介してデータベース3の各種ウエブサイトにもアクセス可能とされている。Q&Aシステム2のユーザは、各自の通信端末機41〜4nを介して、Q&Aシステム2に質問文書を投稿したり、その質問文書に対して回答文書を投稿したり、この回答文書に対して適宜なコメント文書を投稿したり、或いはこれら文書を単に閲覧したりすることが可能とされている。   The terminal device 4 is a communication terminal 41, 42, 43, 44, 45,... 4n such as a personal computer, a mobile phone, or a portable information terminal held by a large number of users registered as members in the Q & A system 2. It is. The terminal device 4 can access various websites of the database 3 via the Internet IN. A user of the Q & A system 2 posts a question document to the Q & A system 2 via his / her communication terminals 41 to 4n, posts an answer document to the question document, or appropriately responds to the answer document. It is possible to post various comment documents or simply browse these documents.

検索エンジン1は、Q&Aシステム2及びデータベース3の双方にデータ通信可能に接続され、文書検索処理、インデックス作成処理及び文書解析処理等が実行可能なサーバ装置である。検索エンジン1は、あるユーザがQ&Aシステム2に投稿した1の質問文書に対する最適な回答内容を含む文書等(以下「BEST文書」と言うことがある)を、データベース3の中から、或いはQ&Aシステム2及びデータベース3の双方から検索する処理を行う。   The search engine 1 is a server device that is connected to both the Q & A system 2 and the database 3 so as to be capable of data communication, and can execute document search processing, index creation processing, document analysis processing, and the like. The search engine 1 uses a database 3 or a Q & A system including a document or the like (hereinafter sometimes referred to as a “BEST document”) including an optimal answer content for one question document posted by a user to the Q & A system 2. 2 and the database 3 are searched.

図2は、検索エンジン1が実行する文書検索方法の概要を示す模式的なフローチャートである。検索エンジン1は、Q&Aシステム2に備えられているデータベースから、1の質問文書と、これに応答して投稿された1又は複数の回答文書とを抽出し、これら文書に対して先ず形態素解析等を含む文書解析処理を行う(ステップS1)。文書解析の対象とする文書は、回答文書のみでも良いが、検索に有益な単語を広くピックアップするという観点からは、質問文書及び回答文書の双方を対象とすることがより望ましい。   FIG. 2 is a schematic flowchart showing an outline of a document search method executed by the search engine 1. The search engine 1 extracts one question document and one or a plurality of answer documents posted in response to it from the database provided in the Q & A system 2, and first morphologically analyzes these documents. Is performed (step S1). The document to be analyzed may be only the answer document, but it is more desirable to target both the question document and the answer document from the viewpoint of widely picking up words useful for the search.

次いで検索エンジン1は、上記の文書解析処理で得られた単語をベースにして検索インデックスを作成する(ステップS2)。この検索インデックスは、主に質問事象に関連深い単語群からなり、各単語に所定の重み付けが付与されたものである。そして、当該検索インデックスを用いて、大量のデータを含むデータベース3に対して文書の検索処理を行う(ステップS3)。この検索処理の対象に、Q&Aシステム2に備えられているデータベースを含めるようにしても良い。   Next, the search engine 1 creates a search index based on the words obtained by the document analysis process (step S2). This search index is mainly composed of a group of words closely related to the question event, and each word is given a predetermined weight. Then, using the search index, a document search process is performed on the database 3 including a large amount of data (step S3). A database provided in the Q & A system 2 may be included in the search processing target.

なお、データベース3の側においても、検索エンジン1による定期的な処理で、メタデータの抽出のための文書解析(ステップS01)、及び文書インデックスの作成(ステップS02)が行われている。この文書インデックスは、文書ファイルから抽出された単語群からなり、各単語に所定の重み付けが付与されたものである。検索元のステップS3における検索処理では、前記検索インデックスと検索先の文書インデックスとを使用し、所定の検索アルゴリズムを適用してクエリに対して類似度が高い文書ファイルをデータベース3から抽出する。ステップS3の検索処理で得られた結果は、前記1の質問文書を投稿したユーザの端末装置4に出力される(ステップS4)。   On the database 3 side as well, document analysis (step S01) and document index creation (step S02) for metadata extraction are performed by periodic processing by the search engine 1. This document index consists of a group of words extracted from a document file, and each word is given a predetermined weight. In the search process in step S3 of the search source, the search index and the document index of the search destination are used, and a document file having a high similarity to the query is extracted from the database 3 by applying a predetermined search algorithm. The result obtained by the search process in step S3 is output to the terminal device 4 of the user who posted the first question document (step S4).

以上が、本実施形態に係る文書検索方法の概要であるが、ここで本実施形態との比較のために、検索インデックス及び文書インデックスの作成の従来手法について説明する。図3は、従来の検索インデックスの作成手法を、図4は、従来の文書インデックスの作成手法を説明するための模式図である。   The above is the outline of the document search method according to the present embodiment. Here, for comparison with the present embodiment, a conventional method for creating a search index and a document index will be described. FIG. 3 is a schematic diagram for explaining a conventional search index creation method, and FIG. 4 is a schematic diagram for explaining a conventional document index creation method.

図3には、Q&Aシステム2に投稿される質問文書及び回答文書の具体例を示している。ここでは、質問タイトルが「パソコンにモデムを接続するとモデムのランプが消える」という質問事象についての一つの質問文書と、これに対する3つの回答文書を例示している。ここでは、質問文書に対する回答を、Q&Aシステム2に投稿される本来の回答文書からだけではなく、汎用のデータベース3内の文書ファイル群(回答文書候補)からも抽出する例を示している。   FIG. 3 shows a specific example of a question document and an answer document posted to the Q & A system 2. Here, one question document about a question event that the question title is “the modem lamp goes off when a modem is connected to a personal computer” and three answer documents are illustrated. Here, an example is shown in which the answer to the question document is extracted not only from the original answer document posted to the Q & A system 2 but also from a document file group (answer document candidate) in the general-purpose database 3.

検索インデックス作成の従来手法は、質問文書から例えば名詞単語を抽出し、その単語の質問文書中における出現頻度を重みとして作成する方法である。例えば、質問文書中の「モデム」という単語に着目すると、この単語は質問文書中に4回登場するので、その頻度(重み)=4として検索インデックスが作成される。例えば「USB」という単語ならば、質問文書中に1回しか登場しないので、重み=1となる。   A conventional technique for creating a search index is a method in which, for example, a noun word is extracted from a question document, and the appearance frequency of the word in the question document is created as a weight. For example, paying attention to the word “modem” in the question document, this word appears four times in the question document, so a search index is created with its frequency (weight) = 4. For example, the word “USB” appears only once in the question document, so weight = 1.

図4に示すように、文書インデックスも同様にして作成される。すなわち、データベース3に含まれる回答文書候補の各文書ファイルから、例えば名詞単語を抽出し、その単語の当該文書ファイル中における出現頻度を重みとして文書インデックスが作成される。図4では、回答文書候補である「Aさんの文書」に、例えば「モデム」という単語が3回登場し、「ドライバ」という単語が1回登場している。従って、「モデム」の頻度(重み)=3、「ドライバ」の重み=1として文書インデックスが作成される。   As shown in FIG. 4, the document index is created in the same manner. That is, for example, a noun word is extracted from each document file of answer document candidates included in the database 3, and a document index is created with the appearance frequency of the word in the document file as a weight. In FIG. 4, for example, the word “modem” appears three times and the word “driver” appears once in “A's document”, which is the answer document candidate. Accordingly, the document index is created with the frequency (weight) of “modem” = 3 and the weight of “driver” = 1.

このようにして作成された検索インデックスと文書インデックスとを、検索モデルと呼ばれる文書合致度算出式(検索アルゴリズム)に当て嵌めて、質問文書と回答文書候補との合致度が算出される。そして、この合致度が高い順に、ヒット文書のリストが作成されるものである。   The matching index between the question document and the answer document candidate is calculated by fitting the search index and the document index thus created to a document matching score calculation formula (search algorithm) called a search model. Then, a list of hit documents is created in descending order of the degree of match.

このような単語出現頻度のみに依存した重み付けを採用した文書検索方法でも、ある程度の文書抽出精度は担保することはできる。しかし、質問者が真に望む、問題解決に繋がるBEST文書の抽出精度を高くするには限界がある。要因の一つは、質問に関わる事象に関して、その事象についての専門家が作成した文書も、素人が作成した文書も、単語の出現頻度が同じであれば同列に扱われてしまう点にある。当然、専門家の作成に係る文書の方が、質問者にとってのBEST文書である確率がはるかに高いのであるが、従来の検索方法では両者を実質的に区別することはできない。   Even with such a document search method that employs weighting that depends only on the word appearance frequency, a certain degree of document extraction accuracy can be ensured. However, there is a limit to increasing the extraction accuracy of the BEST document that the questioner really wants and leads to problem solving. One of the factors is that regarding an event related to a question, a document created by an expert about the event and a document created by an amateur are treated in the same line if the appearance frequency of words is the same. Naturally, a document related to the creation of an expert has a much higher probability of being a BEST document for a questioner, but the conventional search method cannot substantially distinguish the two.

本発明の実施形態に係る検索インデックス及び文書インデックスの作成方法は、このような問題を解消し、ユーザが真に欲する回答文書を抽出できる確率を向上させる重み付けを行う点に特徴を有する。図5は、本発明の実施形態に係る文書検索方法を概略的に示す図である。   The search index and document index creation method according to the embodiment of the present invention is characterized in that such a problem is solved and weighting is performed to improve the probability that the user can extract the answer document that the user really wants. FIG. 5 is a diagram schematically illustrating a document search method according to an embodiment of the present invention.

本実施形態の文書検索方法では、Q&Aシステム2で生じた質問文書Qnとこれに応答する回答文書Anとを対象として文書解析を行い、検索インデックスSIを作成する。この検索インデックスSIは、従来方法のように単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された検索インデックスである。また、データベース3中の文書ファイルを対象として文書インデックスDIが作成される。この文書インデックスもまた、単に単語出現頻度のみに依存した重み付けではなく、それ以外の要素を考慮して作成される特殊重み付けが付加された文書インデックスである。このような検索インデックスSIと文書インデックスDIとを、検索アルゴリズムMに当て嵌めて合致度が算出され、データベース3中から質問文書に対するBEST文書が抽出される。   In the document search method of this embodiment, the document analysis is performed on the question document Qn generated in the Q & A system 2 and the answer document An that responds thereto, and the search index SI is created. This search index SI is a search index to which a special weight created in consideration of other elements is added instead of weighting depending only on the word appearance frequency as in the conventional method. Further, a document index DI is created for the document file in the database 3. This document index is also a document index to which special weighting is added in consideration of other factors, not weighting depending solely on the word appearance frequency. The search index SI and the document index DI are applied to the search algorithm M to calculate the degree of match, and the BEST document for the question document is extracted from the database 3.

本実施形態では、上記インデックスの特殊重み付けの要素として次の(1)〜(8)の項目が考慮される。
[検索インデックスSIについて]
(1)質問文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
(2)質問文書だけではなく回答文書も全て含めて、単語の出現頻度を算出する。
(3)質問文書において、疑問又は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げる。
(4)質問文書において、疑問又は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げる。
(5)複数の回答文書に出現する単語について、重み付けを上げる。
[文書インデックスDIについて]
(6)原因乃至は理由を示す接続助詞を備える文に含まれる名詞単語について重み付けを上げる。
(7)原因乃至は理由を示す接続助詞の直前に存在する名詞単語について重み付けを上げる。
(8)同一人物の作成に係る文書群において、複数の文書において使用されている単語について重み付けを上げる。
(9)文書のタイトルに含まれる名詞単語につき、重み付けを上げる。
In the present embodiment, the following items (1) to (8) are considered as elements of the special weighting of the index.
[Search index SI]
(1) Increase the weighting of noun words included in the title of the question document.
(2) The word appearance frequency is calculated including not only the question document but also all the answer documents.
(3) In a question document, weighting is increased for noun words included in a sentence having a question or a final particle indicating a question.
(4) In a question document, weighting is increased for a noun word existing immediately before a question or a final particle indicating a question.
(5) Increase the weight for words appearing in a plurality of answer documents.
[About Document Index DI]
(6) Weighting is increased for noun words included in sentences having a connection particle indicating the cause or reason.
(7) Increase the weight of a noun word that exists immediately before the connection particle indicating the cause or reason.
(8) In a document group related to creation of the same person, weighting is increased for words used in a plurality of documents.
(9) Increase the weighting of noun words included in the document title.

図6は、検索インデックスSIの作成手法の実施形態を説明するための模式図である。ここで例示している質問タイトル、質問文書及び回答文書は、図3のものと同じである。上記の項目(1)の設定理由は、一般に質問タイトルには質問の要点となる名詞単語が含まれるので、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与すると考えられるからである。図6の例では、質問タイトルには、例えば符号51で示す「モデム」という名詞単語が出現する。この「モデム」について、1回出現すると単に頻度=1とカウントするのではなく、重みを少し上げてカウントすることで、当該名詞単語の重要性を検索インデックスSIに反映させるようにする。   FIG. 6 is a schematic diagram for explaining an embodiment of a method for creating a search index SI. The question title, question document, and answer document illustrated here are the same as those in FIG. The reason for setting item (1) above is that the noun word that is the main point of the question is generally included in the question title, so increasing the weighting of such noun word is considered to contribute to improving the accuracy of the search. is there. In the example of FIG. 6, for example, a noun word “modem” indicated by reference numeral 51 appears in the question title. When this “modem” appears once, it is not simply counted as frequency = 1, but the weight of the noun word is counted slightly higher to reflect the importance of the noun word in the search index SI.

上記の項目(2)は、質問文書及び回答文書の全てを通して単語の出現頻度を評価することで、客観性に優れた検索インデックスを作成することを企図した項目である。一般に、Q&Aシステム2において、質問事象について詳しい知識を持たない質問者は、適切なキーワードを設定できないことが多い。一方、回答者は、相応の知識を有することが想定されるので、その事象について適切なキーワードを用いて回答文書を作成している可能性が高い。一方、質問文書及び回答文書の双方において頻出している如き単語は、その事象において重要性が極めて高いと評価できる。図6の例では、例えば「モデム」という単語は、質問タイトル及び質問文書に出現しているだけでなく、回答文書1〜3の全てに登場している。従って、この「モデム」には、高い重み付けが与えられる。   The item (2) is an item intended to create a search index having excellent objectivity by evaluating the appearance frequency of words through all of the question document and the answer document. Generally, in the Q & A system 2, a questioner who does not have detailed knowledge about a question event often cannot set an appropriate keyword. On the other hand, since the respondent is assumed to have appropriate knowledge, there is a high possibility that an answer document is created using an appropriate keyword for the event. On the other hand, a word that appears frequently in both the question document and the answer document can be evaluated as having extremely high importance in the event. In the example of FIG. 6, for example, the word “modem” appears not only in the question title and the question document but also in all of the answer documents 1 to 3. Therefore, this “modem” is given high weight.

上記の項目(3)は、例えば、「・・・でしょうか」、「・・・ですか」、「・・・ますか」というような疑問乃至は質問を示す終助詞を備える文には、ユーザが知見したい質問の本質的な記述が含まれている可能性が高いという推定に基づく項目である。図6の例では、符号54で示す「でしょうか」という語を含む文55は、「B社製モデムはサポートしていないのでしょうか」というものであるが、この文55に含まれる符号51、52、53でそれぞれ示す「モデム」、「B社」、「サポート」という名詞単語の重み付けが上げられる。これにより、質問の本旨に沿った内容を含む文書ファイルが抽出され易いようにすることができる。なお、この例では名詞単語「モデム」の重み付けが、上記項目(1)、(2)による上昇に加えて重畳的に上昇されることになる。   The above item (3) includes, for example, a sentence with a final particle indicating a question or a question such as “Is it?”, “Is it?”, “Is it?” This is an item based on the assumption that there is a high possibility that an essential description of the question that the user wants to know is included. In the example of FIG. 6, a sentence 55 including the word “Is it?” Indicated by reference numeral 54 is “Is a modem manufactured by B company not supported?” , 52 and 53, the weights of the noun words “modem”, “Company B”, and “support” are increased. As a result, it is possible to easily extract a document file that includes the content of the question. In this example, the weight of the noun word “modem” is increased in a superimposed manner in addition to the increase due to the items (1) and (2).

上記の項目(4)は、疑問乃至は質問を示す終助詞の直前に、質問事象のキーとなる名詞単語が配置されるケースが多く、このような名詞単語について重み付けを上げることで、かかる名詞単語を含む文書ファイルが抽出され易いようにすることを企図した項目である。図6の例では、文55において、符号54で示す「でしょうか」という語の直前に位置する符号53の名詞単語「サポート」が該当する。従って「サポート」については、項目(3)による重み付けに加えて、より高い重み付けが付与される。   In the above item (4), there are many cases where a noun word as a key of a question event is arranged immediately before a question or a final particle indicating a question. This is an item intended to facilitate extraction of a document file containing words. In the example of FIG. 6, in the sentence 55, the noun word “support” of reference numeral 53 positioned immediately before the word “Is it?” Indicated by reference numeral 54 corresponds. Therefore, “support” is given a higher weight in addition to the weight by the item (3).

上記の項目(5)は、複数の回答文書に同様に出現する単語は、その事柄において要点を為すとの推定に基づいた項目である。上述の通り、回答文書は、質問事象について相応の知識を有する者が作成することが想定されるので、このような回答文書に頻出する単語は、質問事象の要点を表現している可能性が高いと言える。図6で示す例では、符号56で示す名詞単語「ドライバ」が、回答文書1及び回答文書2で出現しており、この「ドライバ」については重み付けが上げられる。   The above item (5) is an item based on the presumption that a word that appears in the same manner in a plurality of answer documents makes a point in the matter. As described above, it is assumed that the answer document is created by a person who has appropriate knowledge about the question event. Therefore, the words that frequently appear in such an answer document may represent the main point of the question event. It can be said that it is expensive. In the example shown in FIG. 6, the noun word “driver” indicated by reference numeral 56 appears in the answer document 1 and the answer document 2, and the weight is increased for this “driver”.

図7は、文書インデックスDIの作成手法の実施形態を説明するための模式図である。上記の項目(6)は、例えば、「・・・ので、」、「・・・ため、」といった原因乃至は理由を示す接続助詞を含む文には、ある事柄についての主要な記述が含まれている可能性が高いとの推定に基づく項目である。図7では、一人のユーザである「Aさん」の作成に係る1つの文書60と、同じ「Aさん」の作成に係るその他の文書群60Aとを例示している。これら文書の文書ファイルは、データベース3に蓄積されている。ここで文書60に着目すると、符号61で示す「ため」という接続助詞を含む文62は、「A社製パソコンはB社製モデムを標準サポートしていないため、」というものであるが、この文62に含まれる符号63、64でそれぞれ示す「モデム」、「サポート」という名詞単語、さらには「A社」、「B社」、「パソコン」といった名詞単語の重み付けを上げて文書インデックスDIが作成される。これにより、検索インデックスSIが、例えば高い重みで「モデム」という単語を含むとき、文書60が抽出され易いようにすることができる。   FIG. 7 is a schematic diagram for explaining an embodiment of a document index DI creation method. In the above item (6), for example, a sentence including a connection particle indicating the cause or reason such as “... so”, “... so,” includes a main description of a certain matter. It is an item based on the estimation that there is a high possibility that FIG. 7 illustrates one document 60 related to the creation of “Mr. A” as one user and another document group 60 </ b> A related to the creation of the same “Mr. A”. Document files of these documents are stored in the database 3. Focusing on the document 60, the sentence 62 including the connection particle “for” indicated by reference numeral 61 is “because the personal computer manufactured by company A does not support the modem manufactured by company B as a standard”. The document index DI is increased by increasing the weights of the noun words “modem” and “support” indicated by the reference numerals 63 and 64 included in the sentence 62, and the noun words such as “Company A”, “Company B”, and “PC”. Created. Thereby, when the search index SI includes the word “modem” with high weight, for example, the document 60 can be easily extracted.

上記の項目(7)は、上掲の「・・・ため」のような、原因乃至は理由を示す接続助詞の直前に、事柄のキーとなる名詞単語が配置されるケースが多いことに着目した項目である。図7の文書60では、文62において、符号61で示す「ため」という接続助詞の直前に位置する符号64の名詞単語「サポート」が該当する。従って「サポート」については、項目(6)による重み付けに加えて、より高い重み付けが付与される。このようにして文書インデックスDIを作成しておけば、上記の項目(4)のルールに従って作成された検索インデックスSIとの合致率が高くなる。   In item (7) above, there are many cases where a noun word that is the key to a matter is placed immediately before the connection particle indicating the cause or reason, such as “...” above. Item. In the document 60 of FIG. 7, in the sentence 62, the noun word “support” of reference numeral 64 positioned immediately before the connection particle “for” indicated by reference numeral 61 corresponds. Therefore, “support” is given a higher weight in addition to the weight by the item (6). If the document index DI is created in this way, the matching rate with the search index SI created according to the rule of item (4) above becomes high.

上記の項目(8)は、ある事柄(単語)に関連する文書を多数記述している人物は、その事柄についての専門家であるとの推定に基づく項目である。図7に示すように、「Aさん」は、データベース3に蓄積された一つの文書60において、符号63、65でそれぞれ示すように「モデム」、「ドライバ」という名詞単語を使用している。また、データベース3に蓄積された「Aさん」の作成に係るその他の文書群60Aにおいても、符号63で示す名詞単語「モデム」は文書601〜603の全てで、符号65で示す名詞単語「ドライバ」は文書602、603でも使用されている。   The item (8) is an item based on the assumption that a person who describes many documents related to a certain matter (word) is an expert on the matter. As shown in FIG. 7, “Mr. A” uses the noun words “modem” and “driver” in one document 60 stored in the database 3 as indicated by reference numerals 63 and 65, respectively. Also, in the other document group 60A related to the creation of “Mr. A” stored in the database 3, the noun word “modem” indicated by reference numeral 63 is all of the documents 601 to 603 and the noun word “driver” indicated by reference numeral 65. "Is also used in documents 602 and 603.

これらの文書群から、「Aさん」という人物は、「モデム」、「ドライバ」という用語が汎用される事柄についての専門家と推定することができ、「Aさん」の作成に係る文書は、信憑性が高く、充実した文書であると期待できる。かかる文書は、質問事象の解決に繋がる重要文書である可能性が高い。そこで、ここでは「モデム」、「ドライバ」という名詞単語の重み付けを上げて文書インデックスを作成する。これにより、名詞単語「モデム」、「ドライバ」を含むクエリ(検索インデックスSI)が与えられたときに、その者の作成に係る文書ファイル、つまり専門家であると推定される「Aさん」の作成に係る文書ファイルの類似度を高くし、抽出され易くすることができる。   From these documents, a person named “Mr. A” can be estimated as an expert on matters in which the terms “modem” and “driver” are widely used. Highly credible and can be expected to be a complete document. Such a document is likely to be an important document that leads to the resolution of a question event. Therefore, the document index is created by increasing the weights of the noun words “modem” and “driver”. Thus, when a query (search index SI) including the noun words “modem” and “driver” is given, the document file related to the creation of the person, that is, “Mr. A” who is estimated to be an expert It is possible to increase the degree of similarity of document files related to creation and to facilitate extraction.

上記の項目(9)は、項目(1)と実質的に同じ観点に立脚したもので、一般に文書タイトルにはその文書の内容の要点となる名詞単語が含まれ、かかる名詞単語について重み付けを上げることは、検索の的確性向上に寄与する可能性が高いからである。   The item (9) is based on substantially the same viewpoint as the item (1). In general, a document title includes a noun word that is a gist of the content of the document, and the noun word is increased in weight. This is because there is a high possibility that it contributes to improving the accuracy of search.

次に、図8は、検索モデルの例を示す表形式の図である。ここでは、図7に示す検索アルゴリズムMとして適用可能な検索モデルを例示している。この種の検索モデルとして最も普及しているベクトル空間モデルは、コサイン尺度である。本発明者の研究によれば、コサイン尺度は、複数の単語を含むクエリを与えたときに、より多くの種類の単語が合致する文書である程、合致度合いが高くなる傾向がある。すなわち、まんべんなく単語が合致している文書が、クエリを満たす度合いが高いと評価する傾向がある。   Next, FIG. 8 is a table format diagram showing an example of a search model. Here, a search model applicable as the search algorithm M shown in FIG. 7 is illustrated. The most popular vector space model of this kind is a cosine measure. According to the research of the present inventor, when a query including a plurality of words is given to a cosine measure, the degree of matching tends to increase as the document matches more types of words. That is, there is a tendency to evaluate that a document in which words are evenly matched satisfies the query.

しかし、ある種の問題に対する回答文書を得ようとするQ&Aシステム等においては、まんべんなく単語が合致している文書よりも、キーとなる特定の単語について合致している文書の方が、有益な場合が多い。この点に鑑み、既存の検索モデルを試行したところ、Dice係数は、ある文書に対して、合致する単語の種類は少なくても、特定の単語の合致度が高ければ、クエリを満たす度合いが高いと評価する傾向があること、つまり、まんべんなく単語が合致しているというよりも、重みの高い単語同士の合致率が高い程、順位の高い文書と扱うことができる検索モデルであることを本発明者は見出した。従って、本実施形態では、Dice係数モデルを、検索アルゴリズムとして用いることが検索精度を上げる点で好ましい。勿論、重みの高い単語同士の合致率が高い文書を順位の高い文書と評価できる限りにおいて、他の検索アルゴリズムも好ましく用いることができる。   However, in a Q & A system that tries to obtain a response document for a certain type of problem, a document that matches a specific key word is more useful than a document that evenly matches the word. There are many. In consideration of this point, when an existing search model is tried, the Dice coefficient is high in the degree of satisfying a query if the matching degree of a specific word is high even if there are few types of matching words for a certain document. In other words, the present invention is a search model that can be treated as a higher-ranked document as the match rate between words with higher weights is higher than when the words are evenly matched. Found. Therefore, in the present embodiment, it is preferable to use the Dice coefficient model as a search algorithm from the viewpoint of improving the search accuracy. Of course, other search algorithms can be preferably used as long as a document having a high match rate between words having high weights can be evaluated as a document having a high rank.

続いて、本実施形態に係るネットワークシステムSの詳細構成を説明する。図9は、ネットワークシステムSの機能構成を示す機能ブロック図である。検索エンジン1は、例えば上記の文書解析処理及び検索処理等を行うCPU(中央演算処理装置)を備えた大型のコンピュータ装置である。前記CPUは、上記の処理を行うべくプログラミングされたソフトウェアが実行されることで、図9に示す機能部を具備するように動作する。検索エンジン1は、機能的に第1処理部11、第2処理部12、検索処理部13及び出力処理部15を備えている。   Subsequently, a detailed configuration of the network system S according to the present embodiment will be described. FIG. 9 is a functional block diagram showing a functional configuration of the network system S. As shown in FIG. The search engine 1 is a large computer device including a CPU (Central Processing Unit) that performs the document analysis process and the search process, for example. The CPU operates to include the functional unit shown in FIG. 9 by executing software programmed to perform the above processing. The search engine 1 functionally includes a first processing unit 11, a second processing unit 12, a search processing unit 13, and an output processing unit 15.

先に図1に基づき説明した通り、ネットワークシステムSには、上記の検索エンジン1以外に、Q&Aシステム2、データベース3(第1データベース)及び端末装置4が含まれている。Q&Aシステム2は、ユーザが質問文書や回答文書等を入力するQ&Aサイト21と、これら質問文書及び回答文書等を記憶するQ&A文書データベース22(第2データベース)とを備える。データベース3は、各種の文書データが記憶された複数のウエブサイト(ウエブサーバ)31、32、・・・3nを含む。また、端末装置4は、キーボードやマウス等からなる操作部41と、液晶ディスプレイパネル等からなる表示部42と、プリンタ等からなる出力部43とを備えている。   As described above with reference to FIG. 1, the network system S includes the Q & A system 2, the database 3 (first database), and the terminal device 4 in addition to the search engine 1 described above. The Q & A system 2 includes a Q & A site 21 where a user inputs a question document, an answer document, and the like, and a Q & A document database 22 (second database) that stores the question document, the answer document, and the like. The database 3 includes a plurality of websites (web servers) 31, 32,... 3n in which various document data are stored. The terminal device 4 includes an operation unit 41 including a keyboard and a mouse, a display unit 42 including a liquid crystal display panel, and an output unit 43 including a printer.

検索エンジン1の第1処理部11は、検索元となる質問文書(クエリ)や回答文書等に基づいて、検索インデックスを作成する処理を行う。第1処理部11は、文書抽出部111、文書解析部112及び検索インデックス作成部113を備えている。   The first processing unit 11 of the search engine 1 performs a process of creating a search index based on a question document (query), an answer document, or the like as a search source. The first processing unit 11 includes a document extraction unit 111, a document analysis unit 112, and a search index creation unit 113.

文書抽出部111は、Q&Aシステム2のQ&A文書データベース22に記憶されている1の質問文書と、この質問文書に対応付けてQ&Aサイト21に投稿された1又は複数の回答文書とのペアを抽出する。文書抽出部111は、質問文書を起点としてQ&Aサイト21上に形成されたスレッド全体の文書を取り込むようにしても良いし、質問文書に対して直接回答している文書を取り込むようにしても良い。   The document extraction unit 111 extracts a pair of one question document stored in the Q & A document database 22 of the Q & A system 2 and one or more answer documents posted to the Q & A site 21 in association with the question document. To do. The document extraction unit 111 may capture a document of the entire thread formed on the Q & A site 21 starting from the question document, or may capture a document that is directly answered to the question document. .

文書解析部112は、文書抽出部111が抽出した質問文書及び回答文書に対して少なくとも形態素解析を含む文書解析して、自立する単語を抽出する処理を行う。具体的には文書解析部112は、各解析対象文書の正規化処理、文書構造解析処理などを行う。正規化処理は、文書構造解析を正常に行い得るようにするために、解析対象文書から解析に不要な文字、記号等を削除すると共に、全角・半角文字の統一等を行う処理である。文書構造解析処理は、正規化処理後の分類対象文書に対しそれぞれ、形態素解析を実施して文書を単語単位に分割する処理、構文解析処理を実施して単語間の係り受け(名詞と動詞との関係付け等)を特定する処理などである。このような文書構造解析処理のため、文書解析部12は、同義語及び表記の揺れを吸収するシソーラス(同義語辞書)を活用する。   The document analysis unit 112 performs a document analysis including at least a morphological analysis on the question document and the answer document extracted by the document extraction unit 111 and performs a process of extracting independent words. Specifically, the document analysis unit 112 performs normalization processing, document structure analysis processing, and the like for each analysis target document. The normalization process is a process for deleting characters and symbols unnecessary for analysis from the analysis target document and unifying full-width and half-width characters so that the document structure analysis can be performed normally. In the document structure analysis process, the classification target documents after the normalization process are each subjected to a morphological analysis to divide the document into words, and a parsing process to perform dependency between words (nouns and verbs). And the like. For such document structure analysis processing, the document analysis unit 12 utilizes a thesaurus (synonym dictionary) that absorbs synonyms and notation fluctuations.

検索インデックス作成部113は、文書解析部112により抽出された単語から検索インデックスを作成する処理を行う。例えば、文書解析部112が「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、検索インデックス作成部113は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(1)〜(5)に従って付加される重み付けとを加算して、検索インデックスを作成する。この検索インデックスは、図略のメモリ部で保管される。   The search index creation unit 113 performs processing for creating a search index from the words extracted by the document analysis unit 112. For example, when the document analysis unit 112 extracts “modem”, “driver”, “support”, and the like as independent words, the search index creation unit 113 sets the weighting based on the appearance frequency of these words and the items described above. A search index is created by adding the weights added according to (1) to (5). This search index is stored in a memory unit (not shown).

第2処理部12は、検索先となる文書ファイル、つまりデータベース3に蓄積されている文書ファイルを文書解析して、文書インデックスを作成する処理を行う。第2処理部12は、DB文書抽出部121、DB文書解析部122及び文書インデックス作成部123を備えている。   The second processing unit 12 analyzes a document file serving as a search destination, that is, a document file stored in the database 3, and performs processing for creating a document index. The second processing unit 12 includes a DB document extraction unit 121, a DB document analysis unit 122, and a document index creation unit 123.

DB文書抽出部121は、データベース3(ウエブサイト31、32、・・・3n)に格納されている文書ファイルを、ユーザID等に関連付けて、同一人の作成に係る文書群の単位で抽出する。この抽出は、所定の周期で定期的に実行される。   The DB document extraction unit 121 extracts document files stored in the database 3 (websites 31, 32,... 3n) in association with user IDs and the like in units of document groups related to creation of the same person. . This extraction is periodically performed at a predetermined cycle.

DB文書解析部122は、複数のウエブサイト31、32、・・・3nに各々存在する文書を統合・編集してデータを共通化し、これらの文書に対して、正規化処理、形態素解析及び同義語処理などの文書解析処理を行う。この処理は、上述の文書解析部112のものと同様である。かかる文書解析処理により、文書タイトルや著者、自立する単語(キーワード)が導出される。   The DB document analysis unit 122 integrates and edits documents existing in a plurality of websites 31, 32,... 3n to share data, and normalizes processing, morphological analysis, and synonyms for these documents. Performs document analysis processing such as word processing. This process is the same as that of the document analysis unit 112 described above. Through such document analysis processing, the document title, author, and independent words (keywords) are derived.

文書インデックス作成部123は、DB文書解析部122により抽出された単語から、文書インデックスを作成する処理を行う。例えばDB文書解析部122が、「モデム」、「ドライバ」、「サポート」などを自立する単語として抽出した場合、文書インデックス作成部123は、これら単語の出現頻度に基づく重み付けと、上記で説明した項目(6)〜(9)に従って付加される重み付けとを加算して、文書インデックスを作成する。この文書インデックスは、図略のメモリ部で保管される。   The document index creation unit 123 performs processing for creating a document index from the words extracted by the DB document analysis unit 122. For example, when the DB document analysis unit 122 extracts “modem”, “driver”, “support”, and the like as independent words, the document index creation unit 123 describes the weighting based on the appearance frequency of these words and the above description. The document index is created by adding the weights added according to the items (6) to (9). This document index is stored in a memory unit (not shown).

上記の項目(8)の重み付けを設定する場合、文書インデックス作成部123は、同一人の作成に係る文書群の各文書で使用されている単語を特定し、一の文書で特定された単語が他の文書において出現している出現度合いを求める。図7の例では、文書60において出現する「モデム」という単語が、他の文書601〜603においても出現しているか否かを判定し、その出現度合いを求める。そして、前記出現度合いが所定値よりも高い単語について重み付けを上げて、文書インデックスの重み付けを設定する。図7では、「モデム」という単語は、他の文書601〜603の全てに登場するので、「モデム」の重み付けは相応の高い値に設定される。   When setting the weighting of the item (8), the document index creation unit 123 identifies the word used in each document of the document group related to creation of the same person, and the word identified in one document The degree of appearance appearing in another document is obtained. In the example of FIG. 7, it is determined whether the word “modem” that appears in the document 60 also appears in the other documents 601 to 603, and the degree of appearance is determined. Then, the weight of the document index is set by increasing the weight for the word whose appearance degree is higher than a predetermined value. In FIG. 7, since the word “modem” appears in all of the other documents 601 to 603, the weight of “modem” is set to a correspondingly high value.

検索処理部13は、データベース3を検索対象として、検索インデックス作成部113が作成した検索インデックスと、文書インデックス作成部123が作成した文書インデックスとを、検索アルゴリズムに当て嵌めて合致度を算出する検索処理を行う。検索アルゴリズムとしては、コサイン尺度、Dice係数、Jaccard係数、Tスコア、相互情報量、Simpson係数などを例示できるが、上述の通り好ましい検索アルゴリズムはDice係数である。検索処理部13は、前記検索処理によって合致度が所定値よりも高いと判定された文書ファイルのタイトル等を抽出する。   The search processing unit 13 searches the database 3 as a search target and applies the search index created by the search index creation unit 113 and the document index created by the document index creation unit 123 to the search algorithm to calculate the degree of match. Process. Examples of the search algorithm include a cosine scale, a Dice coefficient, a Jaccard coefficient, a T score, a mutual information amount, and a Simpson coefficient. As described above, a preferable search algorithm is a Dice coefficient. The search processing unit 13 extracts a document file title or the like that is determined by the search process to have a matching degree higher than a predetermined value.

出力処理部14は、検索処理部13によるデータベース3の検索によりヒットした文書(推奨文書)のリストを作成する。このリストは、クエリに対する合致が高い順に並べられたリストであって、当該質問文書を投稿したユーザの端末装置4へ送信される。   The output processing unit 14 creates a list of documents (recommended documents) hit by the search of the database 3 by the search processing unit 13. This list is a list arranged in descending order of matches to the query, and is transmitted to the terminal device 4 of the user who posted the question document.

端末装置4の表示部42には、出力処理部14から送信される検索ヒット文書(推奨文書)のリストが表示される。ユーザは、操作部41により、前記リスト中から所望の文書に選択指示を与える操作を行うことができる。選択指示が与えられると、端末装置4はデータベース3に直接アクセスし、選択に係る文書に対してブラウジング(出力要求)し、その内容を表示部42に表示させる。さらに、操作部41からプリント要求が与えられた場合は、出力部43から当該文書のプリント処理を行う。   A list of search hit documents (recommended documents) transmitted from the output processing unit 14 is displayed on the display unit 42 of the terminal device 4. The user can perform an operation of giving a selection instruction to a desired document from the list by using the operation unit 41. When a selection instruction is given, the terminal device 4 directly accesses the database 3 to browse (output request) the selected document and display the content on the display unit 42. Further, when a print request is given from the operation unit 41, the document is printed from the output unit 43.

上記で説明した検索エンジン1の処理動作を、図10に示すフローチャートに基づいて説明する。第1処理部11の文書抽出部111により、Q&A文書データベース22から質問文書が抽出され、該質問文書に対して文書解析部112により文書解析処理として順次、正規化処理(ステップS11)、形態素解析処理(ステップS12)、及び同義語処理(ステップS13)が実行される。   The processing operation of the search engine 1 described above will be described based on the flowchart shown in FIG. A question document is extracted from the Q & A document database 22 by the document extraction unit 111 of the first processing unit 11, and the document analysis unit 112 sequentially performs normalization processing (step S 11) and morphological analysis on the question document. Processing (step S12) and synonym processing (step S13) are executed.

また、前記質問文書に関連付けられて、Q&A文書データベース22に回答文書が記録されていれば、この回答文書に対しても、正規化処理(ステップS14)、形態素解析処理(ステップS15)、及び同義語処理(ステップS16)が実行される。これにより、質問文書及び回答文書について検索キーワードとなり得る単語が抽出される。なお、文書抽出部11による質問文書及び回答文書の抽出は、Q&Aサイト21へ入力される毎でも良いし、定時的(例えば毎日24:00時など)であっても良い。   If an answer document is recorded in the Q & A document database 22 in association with the question document, the answer document is also normalized (step S14), morphological analysis process (step S15), and synonymous. Word processing (step S16) is executed. As a result, words that can be search keywords for the question document and the answer document are extracted. The extraction of the question document and the answer document by the document extraction unit 11 may be performed every time the document is input to the Q & A site 21 or may be scheduled (for example, every day at 24:00).

次いで、検索インデックス作成部113により、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(1)〜(5)に基づいた重み付けを付加して、検索インデックスが作成される(ステップS18)。この検索インデックスは、図略のメモリ部で一時的に保管される。   Next, the search index creation unit 113 adds a weight based on the appearance frequency of the word and the above items (1) to (5) based on the word extracted by the previous document analysis process, and performs a search. An index is created (step S18). This search index is temporarily stored in a memory unit (not shown).

一方、第2処理部12の側では、定時的な処理により、データベース3に含まれる文書のインデックスが並行して作成される。すなわちDB文書抽出部121がデータベース3から文書ファイルをユーザID毎に文書群を抽出し、DB文書解析部122がデータベース3内の文書データを共通化するため、統合・編集処理を行う(ステップS21)。そして、これらの文書に対して、DB文書解析部122が、正規化処理(ステップS22)、形態素解析処理(ステップS23)、及び同義語処理(ステップS24)を含む文書解析処理を行う。   On the other hand, on the second processing unit 12 side, an index of a document included in the database 3 is created in parallel by a regular process. That is, the DB document extraction unit 121 extracts document files from the database 3 for each user ID, and the DB document analysis unit 122 performs integration / editing processing in order to share the document data in the database 3 (step S21). ). Then, the DB document analysis unit 122 performs document analysis processing including normalization processing (step S22), morpheme analysis processing (step S23), and synonym processing (step S24) on these documents.

そして、文書インデックス作成部123により、文書解析処理により抽出された単語等に基づいて、文書インデックスが作成される(ステップS25)。この文書インデックスは、先の文書解析処理により抽出された単語をベースとして、該単語の出現頻度、及び上記の項目(6)〜(9)に基づいた重み付けを付加して作成される。作成された文書インデックスは、図略のメモリ部に記憶される(ステップS26)。   Then, the document index creation unit 123 creates a document index based on the words extracted by the document analysis process (step S25). This document index is created based on the word extracted by the previous document analysis process, with the appearance frequency of the word and weighting based on the items (6) to (9). The created document index is stored in a memory unit (not shown) (step S26).

続いて、検索処理部13が、ステップS18で作成された検索インデックスを用いて、ステップS25で作成された文書インデックスに対する文書検索を行う(ステップS31)。この文書検索によりヒットした文書(推奨文書)のリストが、出力処理部14により作成される(ステップS32)。そして、該リストは、質問文書を投稿したユーザの端末装置4へ送信される(ステップS33)。   Subsequently, the search processing unit 13 performs a document search for the document index created in step S25 using the search index created in step S18 (step S31). A list of documents (recommended documents) hit by the document search is created by the output processing unit 14 (step S32). Then, the list is transmitted to the terminal device 4 of the user who posted the question document (step S33).

端末装置4の操作部41により、前記リスト中から所望の文書に選択指示を与えられた場合(ステップS34)、端末装置4はデータベース3に当該選択文書の出力要求を行う。この出力要求に呼応して、選択文書の内容が表示部42に表示されたり、或いは出力部43により当該文書のプリント処理が行われたりする(ステップS35)。   When a selection instruction is given to a desired document from the list by the operation unit 41 of the terminal device 4 (step S34), the terminal device 4 requests the database 3 to output the selected document. In response to the output request, the contents of the selected document are displayed on the display unit 42, or the document is printed by the output unit 43 (step S35).

図11は、図10のステップS17の検索インデックス作成処理(検索インデックス作成部113の動作)の一例を示すフローチャートである。先ず、各質問文書の投稿毎に与えられる質問要求番号に対応したカウンタqが、q=0と設定される(ステップS41)。その後、カウンタq=q+1とインクリメントされ(ステップS42)、q番目の質問文書及び回答文書の文書解析データが取得される(ステップS43)。   FIG. 11 is a flowchart showing an example of the search index creation process (operation of the search index creation unit 113) in step S17 of FIG. First, the counter q corresponding to the question request number given for each posting of each question document is set to q = 0 (step S41). Thereafter, the counter q is incremented to q + 1 (step S42), and the document analysis data of the qth question document and answer document are acquired (step S43).

続いて、質問文書及び回答文書毎に名詞単語、終助詞が特定され(ステップS44)、名詞単語の出現度合いが導出される(ステップS45)。この処理で得られる出現度合いの値は、上記の項目(2)に基づく重み付けに使用される。さらに、「・・・でしょうか」というような終助詞を含む文の特定、及び終助詞と名詞単語との位置関係が特定される(ステップS46)。この処理で得られるデータは、上記の項目(3)、(4)に基づく重み付けに使用される。   Subsequently, the noun word and final particle are specified for each question document and answer document (step S44), and the appearance degree of the noun word is derived (step S45). The value of the degree of appearance obtained by this processing is used for weighting based on the item (2). Further, a sentence including a final particle such as “...?” And a positional relationship between the final particle and the noun word are specified (step S46). Data obtained by this processing is used for weighting based on the above items (3) and (4).

次に、回答文書の数が1を超過しているか否かが判定される(ステップS47)。2以上存在する場合(ステップS47でYES)、複数の回答文書間における名詞単語の出現度合いが導出される(ステップS48)。この処理で得られる出現度合いの値は、上記の項目(5)に基づく重み付けに使用される。なお、回答文書の数が1以下である場合は(ステップS47でNO)、ステップS48はスキップされる。   Next, it is determined whether or not the number of answer documents exceeds 1 (step S47). When there are two or more (YES in step S47), the appearance degree of noun words among a plurality of answer documents is derived (step S48). The value of the degree of appearance obtained by this processing is used for weighting based on the item (5). If the number of answer documents is 1 or less (NO in step S47), step S48 is skipped.

その後、質問文書にタイトルが存在するか否かが確認される(ステップS49)。図6に例示するような「質問タイトル」が存在する場合は、そのタイトルに使用されている名詞単語が特定される(ステップS50)。この処理で得られるデータは、上記の項目(1)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS49でNO)、ステップS50はスキップされる。   Thereafter, it is confirmed whether or not a title exists in the question document (step S49). If there is a “question title” as illustrated in FIG. 6, the noun word used in the title is specified (step S50). Data obtained by this processing is used for weighting based on the item (1). If the title does not exist (NO in step S49), step S50 is skipped.

しかる後、各々の名詞単語に重み付けが設定される(ステップS51)。勿論、名詞単語以外の単語も検索インデックスに加えると共に、これらにも重み付けを付与するようにしても良い。この重み付けの詳細は、上記の項目(1)〜(5)でそれぞれ説明した通りである。そして、この重み付けを含む検索インデックスの関連データがメモリに記録される(ステップS52)。以下、カウンタqが最終であるか否かが判定され(ステップS53)、最終である場合は(ステップS53でYES)、処理を終了する。一方、最終でない場合は(ステップS53でNO)、ステップS42に戻って、q+1番目の質問要求に対して同様の処理が繰り返される。   Thereafter, weighting is set for each noun word (step S51). Of course, words other than noun words may be added to the search index, and weights may be given to them. The details of the weighting are as described in the items (1) to (5). Then, the related data of the search index including this weighting is recorded in the memory (step S52). Thereafter, it is determined whether or not the counter q is final (step S53). If it is final (YES in step S53), the process is terminated. On the other hand, if it is not final (NO in step S53), the process returns to step S42, and the same processing is repeated for the q + 1th question request.

図12は、図10のステップS25の文書インデックス作成処理(文書インデックス作成部123の動作)の一例を示すフローチャートである。先ず、データベース3への文書の投稿者毎に付与される作成者IDに対応したカウンタpが、p=0と設定される(ステップS61)。その後、カウンタp=p+1とインクリメントされ(ステップS62)、p番目の作成者を対象とした処理が以下で実施される。   FIG. 12 is a flowchart showing an example of the document index creation process (operation of the document index creation unit 123) in step S25 of FIG. First, the counter p corresponding to the creator ID assigned to each contributor of the document to the database 3 is set as p = 0 (step S61). Thereafter, the counter p = p + 1 is incremented (step S62), and the process for the p-th creator is performed as follows.

当該作成者がデータベース3へ投稿した文書毎に付与される文書IDに対応したカウンタdが、d=0と設定される(ステップS64)。その後、カウンタd=d+1とインクリメントされ(ステップS64)、当該作成者についてのd番目の文書ファイルデータが取得される(ステップS65)。   A counter d corresponding to the document ID assigned to each document posted by the creator to the database 3 is set as d = 0 (step S64). Thereafter, the counter d = d + 1 is incremented (step S64), and the d-th document file data for the creator is acquired (step S65).

続いて、d番目の文書ファイルについて名詞単語、接続助詞が特定され(ステップS66)、名詞単語の出現度合いが導出される(ステップS67)。この処理で得られる出現度合いの値は、上記の項目(8)に基づく重み付けに使用される。さらに、「・・・ため」というような接続助詞を含む文の特定、及び接続助詞と名詞単語との位置関係が特定される(ステップS68)。この処理で得られるデータは、上記の項目(6)、(7)に基づく重み付けに使用される。   Subsequently, a noun word and a connection particle are specified for the d-th document file (step S66), and the appearance degree of the noun word is derived (step S67). The value of the degree of appearance obtained by this processing is used for weighting based on the item (8). Further, a sentence including a connection particle such as “... For” is specified, and the positional relationship between the connection particle and the noun word is specified (step S68). Data obtained by this processing is used for weighting based on the above items (6) and (7).

その後、d番目の文書ファイルにタイトルが存在するか否かが確認される(ステップS69)。当該文書ファイルにタイトルが存在する場合(ステップS69でYES)は、そのタイトルに使用されている名詞単語が特定される(ステップS70)。この処理で得られるデータは、上記の項目(9)に基づく重み付けに使用される。タイトルが存在しない場合は(ステップS69でNO)、ステップS70はスキップされる。   Thereafter, it is confirmed whether or not a title exists in the d-th document file (step S69). If a title exists in the document file (YES in step S69), the noun word used in the title is specified (step S70). Data obtained by this processing is used for weighting based on the item (9). If the title does not exist (NO in step S69), step S70 is skipped.

その後、各々の名詞単語に一次的な重み付けが設定される(ステップS71)。この重み付けの詳細は、上記の項目(6)、(7)、(9)でそれぞれ説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS72)。続いて、カウンタdが最終であるか否かが判定され(ステップS73)、最終でない場合は(ステップS73でNO)、ステップS64に戻って、d+1番目の文書ファイルに対して同様の処理が繰り返される。   Thereafter, primary weighting is set for each noun word (step S71). Details of the weighting are as described in the items (6), (7), and (9). Then, the related data of the document index including this weight is recorded in the memory (step S72). Subsequently, it is determined whether or not the counter d is final (step S73). If it is not final (NO in step S73), the process returns to step S64 and the same processing is repeated for the d + 1-th document file. It is.

一方、カウンタdが最終である場合は(ステップS73でYES)、続いてp番目の作成者が投稿した全ての文書ファイル間において共通して使用されている単語が存在するか否かが確認される(ステップS74)。これは、上記の項目(8)に対応した処理である。共通単語が存在する場合(ステップS74でYES)、その単語に二次的な重み付けが設定される(ステップS75)。この重み付けの詳細は、上記の項目(8)及び図7で説明した通りである。そして、この重み付けを含む文書インデックスの関連データがメモリに記録される(ステップS76)。   On the other hand, if the counter d is final (YES in step S73), it is confirmed whether or not there is a word that is used in common among all the document files posted by the p-th creator. (Step S74). This is processing corresponding to the item (8). If there is a common word (YES in step S74), secondary weighting is set for the word (step S75). Details of this weighting are as described in the above item (8) and FIG. Then, the related data of the document index including this weight is recorded in the memory (step S76).

以下、カウンタpが最終であるか否かが判定され(ステップS77)、最終である場合は(ステップS77でYES)、処理を終了する。一方、最終でない場合は(ステップS77でNO)、ステップS62に戻って、p+1番目の作成者の作成に係る文書ファイルに対して同様の処理が繰り返される。   Thereafter, it is determined whether or not the counter p is final (step S77). If it is final (YES in step S77), the process is terminated. On the other hand, if it is not final (NO in step S77), the process returns to step S62, and the same processing is repeated for the document file related to the creation of the (p + 1) th creator.

図13は、本実施形態に基づく文書検索の具体例を示す模式的に示す図である。Q&Aシステム2に存在する検索元文書(質問文書及び回答文書)に基づいて作成される検索インデックスSIは、単語a、単語b、単語cについて、各々1.023、0.221、6.809という重み付けが付与されている。また、データベース3に存在する検索先文書(文書ファイル)に基づいて作成される文書インデックスDIも、文書1、文書2、文書3・・・について、図表に示すように単語a、単語b、単語cについて重み付けが付与されている。   FIG. 13 is a diagram schematically illustrating a specific example of document search based on the present embodiment. The search index SI created based on the search source document (question document and answer document) existing in the Q & A system 2 is 1.023, 0.221, and 6.809 for word a, word b, and word c, respectively. Weighting is given. Further, the document index DI created based on the search destination document (document file) existing in the database 3 is also the word a, the word b, the word for the document 1, the document 2, the document 3,. A weight is assigned to c.

このような検索インデックスSIと、各文書の文書インデックスDIとが、Dice係数の検索モデルに従った文書合致度算出式に入力される。そして、文書1、文書2、文書3・・・毎に、合致度が算出される。そして、合致度が高い順にソートされ、ヒット文書のランキング表示データが作成される。図13の例では、重みの高い単語の合致率が高い場合に高合致度となるDice係数が採用されていることもあり、単語cの重みが高い検索インデックスSIであることから、同じく単語cの重みが突出している文書2について合致度が最も高い結果となっている。   Such a search index SI and a document index DI of each document are input to a document matching degree calculation formula according to a Dice coefficient search model. Then, the degree of coincidence is calculated for each of document 1, document 2, document 3,. Then, the documents are sorted in descending order of the degree of match, and ranking display data of hit documents is created. In the example of FIG. 13, a Dice coefficient that has a high degree of match when the match rate of a word with a high weight is high may be employed, and since the search index SI has a high weight for the word c, the word c As a result, the document 2 in which the weight of “1” protrudes has the highest degree of match.

以上説明した本実施形態に係るネットワークシステムSによれば、ユーザが望む重要文書を、Q&Aシステム2からだけではなく、大規模なデータベース3から的確に抽出することができる文書検索方法を提供することができる。従って、インターネット上に存在するQ&Aサイト21の利用価値を高め、該サイトを活性化させることが可能となる。   According to the network system S according to the present embodiment described above, it is possible to provide a document search method capable of accurately extracting an important document desired by a user not only from the Q & A system 2 but also from a large-scale database 3. Can do. Therefore, the utility value of the Q & A site 21 existing on the Internet can be increased and the site can be activated.

S ネットワークシステム
1 検索エンジン
11 第1処理部
111 文書抽出部
112 文書解析部
113 検索インデックス作成部
12 第2処理部
121 DB文書抽出部
122 DB文書解析部
123 文書インデックス作成部
13 検索処理部
14 出力処理部
2 Q&Aシステム
21 Q&Aサイト
22 Q&A文書データベース22(第2データベース)
3 データベース(第1データベース)
4 端末装置
41 操作部
42 表示部
43 出力部
S network system 1 search engine 11 first processing unit 111 document extraction unit 112 document analysis unit 113 search index creation unit 12 second processing unit 121 DB document extraction unit 122 DB document analysis unit 123 document index creation unit 13 search processing unit 14 output Processing unit 2 Q & A system 21 Q & A site 22 Q & A document database 22 (second database)
3 Database (first database)
4 Terminal device 41 Operation unit 42 Display unit 43 Output unit

Claims (11)

検索先の第1データベースに蓄積されている多数の文書ファイルに基づき、文書インデックスを作成するステップと、
検索元のクエリに基づき検索インデックスを設定するステップと、
前記検索インデックスと前記文書インデックスとを照合させて、前記クエリに応じた文書ファイルを抽出するステップとを含み、
前記文書インデックスを作成するステップは、
前記第1データベースの中から、同一人が作成した文書群を抽出するステップと、
前記文書群の各文書を文書解析し、これら文書中で使用されている単語を特定するステップと、
前記文書群のうちの一の文書において特定された単語が、他の文書において出現している出現度合いを求めるステップと、
前記出現度合いが所定値よりも高い単語について重み付けを上げて、前記文書インデックスの重み付けを設定するステップと、
を含むことを特徴とする文書検索方法。
Creating a document index based on a number of document files stored in a first database of search destinations;
Setting a search index based on the query from the search source;
Collating the search index with the document index to extract a document file according to the query,
The step of creating the document index includes:
Extracting a document group created by the same person from the first database;
Analyzing each document of the document group and identifying words used in the documents;
Obtaining a degree of appearance of a word specified in one document of the document group appearing in another document;
Increasing the weight for words whose appearance degree is higher than a predetermined value, and setting the weight of the document index;
A document retrieval method comprising:
前記単語を特定するステップにおいて、特定される単語が、名詞単語であることを特徴とする請求項1に記載の文書検索方法。   The document search method according to claim 1, wherein in the step of specifying the word, the specified word is a noun word. 前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞を備える文に含まれる前記名詞単語について重み付けを上げることを特徴とする請求項2に記載の文書検索方法。   3. The document search method according to claim 2, wherein in the step of setting the weighting, the weighting is further increased for the noun word included in the sentence including the connection particle indicating the cause or the reason. 前記重み付けを設定するステップにおいて、さらに、原因乃至は理由を示す接続助詞の直前に存在する前記名詞単語について重み付けを上げることを特徴とする請求項2に記載の文書検索方法。   3. The document search method according to claim 2, wherein, in the step of setting the weight, the weight is further increased for the noun word existing immediately before the connection particle indicating the cause or the reason. 前記検索元のクエリが、前記第1データベースとは異なる第2データベースに投稿された1の質問文書であって、
前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。
The query of the search source is one question document posted to a second database different from the first database,
5. The document search method according to claim 1, wherein in the step of setting the search index, the search index is created based on a word specified by document analysis of the question document. .
前記検索元のクエリが、さらに、前記質問文書に対して前記第2データベースに投稿された1又は複数の回答文書を含み、
前記検索インデックスを設定するステップにおいて、前記検索インデックスが、該質問文書及び回答文書を文書解析して特定された単語に基づき作成されることを特徴とする請求項1〜4のいずれかに記載の文書検索方法。
The query of the search source further includes one or more answer documents posted to the second database for the question document;
5. The search index according to claim 1, wherein in the step of setting the search index, the search index is created based on a word specified by document analysis of the question document and the answer document. Document search method.
前記質問文書において、疑問乃至は質問を示す終助詞を備える文に含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。   The document search method according to claim 5 or 6, wherein in the question document, the search index is created by increasing the weight of noun words included in a sentence having a question or a final particle indicating a question. . 前記質問文書において、疑問乃至は質問を示す終助詞の直前に存在する名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。   The document search method according to claim 5 or 6, wherein in the question document, the search index is created by increasing the weight of a noun word existing immediately before a question or a final particle indicating a question. 前記質問文書及び回答文書の全てにおいて前記単語の出現度合いを求め、
前記出現度合いに応じて当該単語の重み付けを設定し、前記検索インデックスが作成されることを特徴とする請求項6に記載の文書検索方法。
Obtaining the appearance degree of the word in all of the question document and the answer document;
The document search method according to claim 6, wherein weighting of the word is set according to the appearance degree, and the search index is created.
前記回答文書が複数存在する場合において全ての回答文書に前記単語の出現度合いを求め、
複数の前記回答文書に出現する単語について重み付けを上げて、前記検索インデックスの重み付けが設定されることを特徴とする請求項6に記載の文書検索方法。
In a case where there are a plurality of the answer documents, obtain the degree of appearance of the word in all the answer documents,
The document search method according to claim 6, wherein the weight of the search index is set by increasing the weight of words appearing in the plurality of answer documents.
前記質問文書がタイトルを含む場合において、該タイトルに含まれる名詞単語について重み付けを上げて、前記検索インデックスが作成されることを特徴とする請求項5又は6に記載の文書検索方法。   7. The document search method according to claim 5, wherein, when the question document includes a title, the search index is created by increasing a weight for a noun word included in the title. 8.
JP2009134934A 2009-06-04 2009-06-04 Document retrieval method Pending JP2010282403A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009134934A JP2010282403A (en) 2009-06-04 2009-06-04 Document retrieval method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009134934A JP2010282403A (en) 2009-06-04 2009-06-04 Document retrieval method

Publications (1)

Publication Number Publication Date
JP2010282403A true JP2010282403A (en) 2010-12-16

Family

ID=43539078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009134934A Pending JP2010282403A (en) 2009-06-04 2009-06-04 Document retrieval method

Country Status (1)

Country Link
JP (1) JP2010282403A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013136634A1 (en) * 2012-03-13 2013-09-19 三菱電機株式会社 Document search device and document search method
JP2014512600A (en) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Method and apparatus for acquiring / searching related knowledge information
JP2019139746A (en) * 2018-02-09 2019-08-22 株式会社日立製作所 Information search system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014512600A (en) * 2011-03-31 2014-05-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド Method and apparatus for acquiring / searching related knowledge information
WO2013136634A1 (en) * 2012-03-13 2013-09-19 三菱電機株式会社 Document search device and document search method
JPWO2013136634A1 (en) * 2012-03-13 2015-08-03 三菱電機株式会社 Document search apparatus and document search method
JP2019139746A (en) * 2018-02-09 2019-08-22 株式会社日立製作所 Information search system and method

Similar Documents

Publication Publication Date Title
US12001490B2 (en) Systems for and methods of finding relevant documents by analyzing tags
Balog et al. Formal models for expert finding in enterprise corpora
Bhagavatula et al. Methods for exploring and mining tables on wikipedia
Markov et al. Data mining the Web: uncovering patterns in Web content, structure, and usage
US8051080B2 (en) Contextual ranking of keywords using click data
US7617176B2 (en) Query-based snippet clustering for search result grouping
US9576029B2 (en) Trust propagation through both explicit and implicit social networks
AU2010343183B2 (en) Search suggestion clustering and presentation
CN108763321B (en) Related entity recommendation method based on large-scale related entity network
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
US20090254540A1 (en) Method and apparatus for automated tag generation for digital content
US7996379B1 (en) Document ranking using word relationships
US20110307432A1 (en) Relevance for name segment searches
KR102256007B1 (en) System and method for searching documents and providing an answer to a natural language question
Li et al. Getting work done on the web: supporting transactional queries
JP2013168177A (en) Information provision program, information provision apparatus, and provision method of retrieval service
JP5315726B2 (en) Information providing method, information providing apparatus, and information providing program
JP2010282403A (en) Document retrieval method
JP2012104051A (en) Document index creating device
Secker et al. AISIID: An artificial immune system for interesting information discovery on the web
Agosti Information access through search engines and digital libraries
Weiss et al. Information retrieval and text mining
Alashti et al. Parsisanj: an automatic component-based approach toward search engine evaluation
CN118132818B (en) Tourist area resource assessment method based on image difference
Varnaseri et al. The assessment of the effect of query expansion on improving the performance of scientific texts retrieval in Persian