JP2008112310A - Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium - Google Patents

Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium Download PDF

Info

Publication number
JP2008112310A
JP2008112310A JP2006294754A JP2006294754A JP2008112310A JP 2008112310 A JP2008112310 A JP 2008112310A JP 2006294754 A JP2006294754 A JP 2006294754A JP 2006294754 A JP2006294754 A JP 2006294754A JP 2008112310 A JP2008112310 A JP 2008112310A
Authority
JP
Japan
Prior art keywords
search
document
calculation
score
fitness
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006294754A
Other languages
Japanese (ja)
Inventor
Hiroko Ida
裕子 井田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006294754A priority Critical patent/JP2008112310A/en
Publication of JP2008112310A publication Critical patent/JP2008112310A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a retrieval device, an information retrieval system, a retrieval method, a retrieval program and a recording medium, suitable to retrieve a document group wherein documents especially mutually have reference relation when automatically detecting a candidate of a document desired by a user from a lot of documents present in a document management system or the Internet. <P>SOLUTION: The document fit for a given retrieval condition is retrieved, adaptability of the retrieved document and the retrieval condition is calculated, calculation condition information showing a characteristic of the document included in the retrieved documents is extracted, the adaptability calculated about each document is weighted based on the calculation condition information to calculate a score, and the document group retrieved based on the calculated score is aligned and is provided to the user. Thereby, the high-reliability document fit for the input retrieval condition can be provided to the user. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体に関し、特に、インターネットや文書管理システムに存在する多数の文書の中からユーザが所望する文書の候補を自動的に検出する際に特に文書同士が参照関係をもつような文書群を検索するのに好適な検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体に関する。   The present invention relates to a search device, an information search system, a search method, a search program, and a recording medium, and in particular, automatically detects candidate documents desired by a user from a large number of documents existing on the Internet or a document management system. In particular, the present invention relates to a search apparatus, an information search system, a search method, a search program, and a recording medium suitable for searching a document group in which documents have a reference relationship.

ユーザが指定したURL若しくはクエリーに対して合致するようなコンテンツを探索する際、いくつかの参照元文書を検出し、これにリンクされる文書を検索することにより、適合文書を検出する方法がある。   When searching for content that matches a URL or query specified by the user, there is a method of detecting a conforming document by detecting several reference source documents and searching for documents linked to them. .

特許文献1では、与えられた時間や記憶領域の中でより必要なWWWページを収集するために、検索部は、入力部から検索の指示を受けると、検索起点のURLを検索情報記憶部から取得し、対応するHTMLテキストを通信部を介して取得して解析し、リンク先URLやアンカー文字列等をハイパーリンク記憶部に記憶させ、検索情報記憶部に記憶されているキーワードと文字列等とを比較し、リンク先URLで指定されるデータの検索目的合致度の評価値を計算し、文字列等に「リンク」等を含むリンク先URLを優先して、最高の評価値のリンク先URLを抽出し、抽出したURLのHTMLテキストを取得し、所定の終了条件まで検索を繰り返し、表示情報作成部は、検索履歴を参照して、ハイパーリンク記憶部に記憶されている文字列を所定の選択基準で並べ換え、表示部に一覧表示させる情報検索エージェント装置が提案されている。   In Patent Document 1, in order to collect more necessary WWW pages in a given time or storage area, when the search unit receives a search instruction from the input unit, the search starting URL is retrieved from the search information storage unit. Acquire, analyze the corresponding HTML text via the communication unit, store the link destination URL, anchor character string, etc. in the hyperlink storage unit, and store the keyword and character string, etc. stored in the search information storage unit And the evaluation value of the degree of search purpose match of the data specified by the link destination URL is calculated, and the link destination URL including “link” or the like in the character string or the like is given priority, and the link destination of the highest evaluation value is calculated. The URL is extracted, the HTML text of the extracted URL is acquired, the search is repeated until a predetermined end condition, and the display information creation unit refers to the search history and stores the text stored in the hyperlink storage unit Reordering columns in predetermined selection criteria, the information retrieval agent device that displays a list has been proposed on the display unit.

特許文献2では、たとえば、「一枚以上の画像を含み、キーワード『京都』、『観光』が使用され、「日本語」で記述されているホームページを取得して欲しい」というようなQueryを、探索ロボットに与えることによって、所定のスタートページからつながるコンテンツの中で、必要なコンテンツのみを取得することができる情報探索装置、情報探索方法、及び記録媒体が提案されている。   In Patent Document 2, for example, a query such as “I want to acquire a homepage that includes one or more images, uses the keywords“ Kyoto ”and“ sightseeing ”and is described in“ Japanese ”,” There has been proposed an information search apparatus, an information search method, and a recording medium that can acquire only necessary content among content connected from a predetermined start page by giving it to a search robot.

特許文献3では、検索装置の入力受付部により検索タームの入力を受け付け、記憶部は、文書とこれに含まれるタームと、文書同士の参照関係とを記憶し、検索部は記憶部を参照して、入力を受け付けた検索タームを含む文書を検索し、さらに、参照関係にある複数の文書からなる文書群であって、これに含まれる文書のそれぞれが当該検索タームを含むものを検索し、計算部は、検索された文書に当該検索タームが出現する頻度と、検索された文書群に含まれる文書のそれぞれに当該検索タームが出現する頻度から当該文書および文書群に対するスコアを計算し、整列部は検索された文書および文書群を、計算されたスコアにより整列して、検索結果として出力し、また、スコア計算では、参照関係の種類(「引用」、「説明」など)を用いることにより、文書同士が参照関係を有しうるような文書群を適切に検索できる検索装置、検索方法、ならびに、プログラムが提案されている。   In Patent Document 3, the input of a search term is received by an input receiving unit of a search device, a storage unit stores a document, terms included therein, and a reference relationship between documents, and the search unit refers to the storage unit. Search for a document including a search term that has received an input, and further search for a document group including a plurality of documents in a reference relationship, each of which includes the search term, The calculation unit calculates a score for the document and the document group from the frequency at which the search term appears in the searched document and the frequency at which the search term appears in each of the documents included in the searched document group The department arranges the searched documents and document groups according to the calculated scores and outputs them as search results. In the score calculation, the type of reference relationship (“citation”, “description”, etc.) is used. The Rukoto, search apparatus can properly search for documents, such as documents with each other can have a reference relationship, the search method, and program are proposed.

特許文献4では、更新される可能性のある複数の文書の情報を収集し、収集された文書群の中から特定の文書を抽出するために利用される得点を文書毎に割り当てるためのドキュメントスコア計算方法において、各文書からその特性を表す属性情報を抽出し、文書毎に2つ以上の時点で抽出された属性情報を同時に保持し、文書毎に保持されている複数の属性情報に基づいて属性情報の経時変化を計算し、求められた属性情報の経時変化を得点の計算に反映し、また、属性情報として目的文書に含まれる一次属性と目的文書と他文書との関連性を示す二次属性情報とを抽出することにより、大量の文書を検索する場合にユーザが必要とする文書により近い結果を得ることが可能なドキュメントスコア計算方法及び装置並びにプログラムが提案されている。
特開2000−90111号公報 特開2002−07431号公報 特開2004−272626号公報 特開2004−227165号公報
In Patent Document 4, information on a plurality of documents that may be updated is collected, and a document score for assigning a score for each document to be used for extracting a specific document from the collected document group In the calculation method, attribute information representing the characteristics is extracted from each document, attribute information extracted at two or more time points is simultaneously held for each document, and based on a plurality of attribute information held for each document. Calculates the time-dependent change of attribute information, reflects the obtained time-dependent change of attribute information in the calculation of points, and also shows the relationship between the primary attribute included in the target document as the attribute information, the target document, and other documents. Document score calculation method, apparatus, and program capable of obtaining a result closer to a document required by a user when searching a large amount of documents by extracting next attribute information It has been.
JP 2000-90111 A JP 2002-07431 A JP 2004-272626 A JP 2004-227165 A

しかし、上記の発明は以下の問題を有している。   However, the above invention has the following problems.

インターネットや文書管理データベースに蓄積されている文書から、指定された検索条件に適合する文書を抽出し、適宜スコアを計算し、スコア順に文書を提示する検索技術が使われている。   A search technique is used that extracts documents that meet specified search conditions from documents stored in the Internet or a document management database, calculates a score as appropriate, and presents the documents in the order of the scores.

スコア計算では、各文書の特性を示す属性(キーワード、文書更新日、リンク数など)が利用される。特に、文書間の参照関係を示すリンクは、文書の信頼性を示す指標であると考えられ、リンク数、被リンク数を利用したスコア計算方法が考案されている。   In the score calculation, attributes (keywords, document update date, number of links, etc.) indicating the characteristics of each document are used. In particular, a link indicating a reference relationship between documents is considered to be an index indicating the reliability of the document, and a score calculation method using the number of links and the number of linked links has been devised.

これらの属性値は、文書作成者によって付与される情報である。一方で、文書作成者ではない第三者によって付与される情報がある。   These attribute values are information given by the document creator. On the other hand, there is information given by a third party who is not the document creator.

例えば、近年流行しているblog(ウェブログ、Weblog、略して以下、「blog」という)の機能であるコメントやトラックバックがその1つである。blogとは、一般的に、日々更新されるタイプのWebサイトを意味するものであり、近年、インターネット上の情報提供サービスとして知られている。   For example, comments and trackbacks, which are functions of blogs that have been popular in recent years (web logs, Web logs, abbreviated as “blogs” hereinafter), are one of them. A blog generally means a type of Web site that is updated daily, and has recently been known as an information providing service on the Internet.

例えば、当該blogの開設者(以下、「blog開設者」という)により保存され、インターネット上で公開されたニュース等の記事やWebページに対して、その記事等の閲覧者(以下、「blog閲覧者」という)がリンクを張ると共に、当該blog閲覧者の個人的な意見、批評、解説等のコメントを書き加え、その書き加えられたコメントが時系列に保存されるWebサイトのことである。   For example, an article such as news or a web page saved by the founder of the blog (hereinafter referred to as “blog founder”) and published on the Internet may be a viewer of the article (hereinafter referred to as “blog viewing”). A web site in which comments such as personal opinions, criticisms and explanations of the blog viewer are added, and the added comments are stored in time series.

このblogは、情報発信者が意見表明することを主たる目的とする点が、複数者間の意見交換を目的とする掲示板とは異なる。blogでは、blog開設者により保存(書き溜め)された記事毎に、blog閲覧者によりコメントの入力が可能となっており、そのコメントを当該記事に付加する機能を有している。blog開設者及び閲覧者は、ある記事に付加されたコメントを見ることができる。また、blogシステムは、blog開設者が、別のblog開設者の記事を引用して、自己の記事を入力、保存、公開する機能を提供する。   This blog is different from a bulletin board for the purpose of exchanging opinions among a plurality of persons in that the main purpose is for an information sender to express an opinion. In the blog, for each article saved (written) by the blog establishment person, a blog viewer can input a comment, and has a function of adding the comment to the article. Blog creators and viewers can see comments added to an article. In addition, the blog system provides a function for a blog creator to input, save, and publish his / her article by quoting an article of another blog creator.

一方、相手方のblog開設者の記事には、当該記事を引用したblog開設者の記事へのリンクが付加される。従来は、ウェブサイトで文書の公開に用いられるHTML(Hyper Text Markup Language)形式の文書等で、他のHTML形式の文書を参照するリンクを設定するという方法であったが、トラックバックでは、引用元の記事と引用先の記事の間に相互にリンクが張られることになる。この技術を以下「トラックバック(Track Back)」と呼ぶ。トラックバックを利用することで、blog開設者及び閲覧者は、ある記事を他のblog開設者が引用しているかどうか、引用しているならばその引用先の記事のリンクを調べることができる。   On the other hand, a link to the article of the blog creator who cited the article is added to the article of the other person who established the blog. In the past, the HTML (Hyper Text Markup Language) format document used for publishing a document on a website was used to set a link referring to another HTML format document. Will be linked to each other's article and the cited article. This technique is hereinafter referred to as “Track Back”. By using the trackback, a blog creator and a viewer can check whether or not a certain article is quoted by another blog creator, and if so, the link of the article to which it is cited.

blogシステムの例としては、Movable Type(URL:http://www.movabletype.org/)や、ココログ(URL:http://www.cocolog-nifty.com/)などがある。また、Movable Typeのトラックバックの技術仕様は、Movable Type Users Manual: TRACKBACK(URL:http://www.movabletype.org/docs/mttrackback.html)、TRACKBACK Modules for RSS 1.0/2.0(URL:http://madskills.com/public/xml/rss/module/trackback/)がある。   Examples of the blog system include Movable Type (URL: http://www.movabletype.org/) and Coco Log (URL: http://www.cocolog-nifty.com/). The technical specifications of Movable Type trackbacks are: Movable Type Users Manual: TRACKBACK (URL: http://www.movabletype.org/docs/mttrackback.html), TRACKBACK Modules for RSS 1.0 / 2.0 (URL: http: / /madskills.com/public/xml/rss/module/trackback/).

そこで、本発明は、与えられた検索条件に適合する文書を検索し、検索された文書と検索条件との適合度を算出し、検索された文書に含まれる文書の特性を示す計算条件情報を抽出し、計算条件情報に基づいて各文書について算出された適合度を重み付けしてスコアを算出し、算出されたスコアに基づいて検索された文書群を整列してユーザに提供する検索装置、情報検索システム、検索方法、検索プログラム、及び記録媒体を提案することを目的としている。   Therefore, the present invention searches for a document that matches a given search condition, calculates the degree of matching between the searched document and the search condition, and calculates calculation condition information indicating the characteristics of the document included in the searched document. Retrieval apparatus and information for extracting and weighting the fitness calculated for each document based on calculation condition information to calculate a score, and arranging a group of documents searched based on the calculated score and providing them to the user The object is to propose a search system, a search method, a search program, and a recording medium.

請求項1記載の発明は、入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置において、前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算手段と、前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出手段と、前記抽出手段によって抽出された前記計算条件情報に基づいて、前記適合度計算手段によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出手段と、前記スコア算出手段によって算出されたスコアに基づいて前記文書群を整列させる整列手段とを有し、前記提示手段は、前記整列手段によって整列された前記文書群をユーザに提示することを特徴とする。   According to the first aspect of the present invention, there is provided a presentation unit that searches and presents a document group that matches an input search condition, an input unit that receives the search condition, and a document that includes the search condition received by the input unit. In a search device having a search means for searching, the degree of match calculation means for calculating the degree of match between the document searched by the search means and the search condition, and the characteristics of the document searched by the search means Extraction means for extracting calculation condition information, and a score for calculating a score by weighting the fitness of each document calculated by the fitness calculation means based on the calculation condition information extracted by the extraction means A calculation unit; an alignment unit that aligns the document group based on the score calculated by the score calculation unit; Characterized by presenting the documents that have been aligned by serial alignment means to the user.

請求項2記載の発明は、請求項1記載の検索装置において、前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算手段は、参照元の文書と参照先の文書との適合度を算出することを特徴とする。   According to a second aspect of the present invention, in the search device according to the first aspect, when the search condition received by the input unit is a reference relationship, the matching degree calculation unit is configured to display the reference source document and the reference destination document. The degree of fit with is calculated.

請求項3記載の発明は、請求項2記載の検索装置において、前記適合度計算手段によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出手段は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする。   According to a third aspect of the present invention, in the search device according to the second aspect, when the fitness calculated by the fitness calculation means is lower than a preset threshold, the score calculation means excludes the reference relationship. A score is calculated based on the calculation condition information.

請求項4記載の発明は、請求項2又は3記載の検索装置において、前記スコア算出手段は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする。   According to a fourth aspect of the present invention, in the search device according to the second or third aspect, the score calculation means includes the number of the search conditions included in each of the reference source document and the reference destination document, and the document The score is weighted based on the average of the numbers including the search condition.

請求項5記載の情報検索システムは、請求項1から6のいずれか1項記載の検索装置と、文書データベースと、文書の検索を依頼する少なくとも1つのクライアント端末とがネットワークを介して接続されることを特徴とする。   According to a fifth aspect of the present invention, there is provided an information retrieval system in which the retrieval device according to any one of the first to sixth aspects, a document database, and at least one client terminal requesting retrieval of a document are connected via a network. It is characterized by that.

請求項6記載の発明は、入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置の検索方法において、前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算工程と、前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出工程と、前記抽出工程によって抽出された前記計算条件情報に基づいて、前記適合度計算工程によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出工程と、前記スコア算出工程によって算出されたスコアに基づいて前記文書群を整列させる整列工程と、前記提示手段は、前記整列工程によって整列された前記文書群をユーザに提示する工程とを有することを特徴とする。   According to the sixth aspect of the present invention, there is provided a presentation unit that searches and presents a document group that matches an input search condition, an input unit that receives the search condition, and a document that includes the search condition received by the input unit. In a search method of a search device having a search means for searching, a fitness calculation step for calculating a fitness between the document searched by the search means and the search condition, and a search for the document searched by the search means An extraction step of extracting calculation condition information indicating characteristics, and a score by weighting the fitness of each document calculated by the fitness calculation step based on the calculation condition information extracted by the extraction step A score calculating step for calculating, an aligning step for aligning the document group based on the score calculated by the score calculating step, and the presenting means Characterized by a step of presenting the documents that have been aligned by the alignment process to the user.

請求項7記載の発明は、請求項6記載の検索方法において、前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算工程は、参照元の文書と参照先の文書との適合度を算出することを特徴とする。   According to a seventh aspect of the present invention, in the search method according to the sixth aspect, when the search condition received by the input means is a reference relationship, the fitness calculation step includes a reference source document and a reference destination document. The degree of fit with is calculated.

請求項8記載の発明は、請求項7記載の検索方法において、前記適合度計算工程によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出工程は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする。   According to an eighth aspect of the present invention, in the search method according to the seventh aspect, if the fitness calculated by the fitness calculation step is lower than a preset threshold value, the score calculation step excludes the reference relationship. A score is calculated based on the calculation condition information.

請求項9記載の発明は、請求項7又は8記載の検索方法において、前記スコア算出工程は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする。   The invention according to claim 9 is the search method according to claim 7 or 8, wherein the score calculation step includes the number of the search conditions included in each of the reference source document and the reference destination document, and The score is weighted based on the average of the numbers including the search condition.

請求項10記載の発明は、入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置の検索プログラムにおいて、前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算処理と、前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出処理と、前記抽出処理によって抽出された前記計算条件情報に基づいて、前記適合度計算処理によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出処理と、前記スコア算出処理によって算出されたスコアに基づいて前記文書群を整列させる整列処理と、前記提示手段は、前記整列処理によって整列された前記文書群をユーザに提示する処理とを有することを特徴とする。   The invention according to claim 10 is a presentation unit that searches and presents a document group that matches the input search condition, an input unit that receives the search condition, and a document that includes the search condition received by the input unit. In a search program of a search device having a search means for searching, a fitness calculation process for calculating a fitness between the document searched by the search means and the search condition, and a search for the document searched by the search means Based on the extraction process for extracting calculation condition information indicating characteristics, and the calculation condition information extracted by the extraction process, a score is obtained by weighting the fitness of each document calculated by the fitness calculation process A score calculation process to calculate; an alignment process to align the document group based on the score calculated by the score calculation process; Display means, characterized by having a process of presenting the documents that have been aligned by the alignment process to the user.

請求項11記載の発明は、請求項10記載の検索プログラムにおいて、前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算処理は、参照元の文書と参照先の文書との適合度を算出することを特徴とする。   According to an eleventh aspect of the present invention, in the search program according to the tenth aspect, when the search condition received by the input means is a reference relationship, the fitness calculation processing is performed by referring to a reference source document and a reference destination document. The degree of fit with is calculated.

請求項12記載の発明は、請求項11記載の検索プログラムにおいて、前記適合度計算処理によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出処理は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする。   According to a twelfth aspect of the invention, in the search program according to the eleventh aspect, when the fitness calculated by the fitness calculation processing is lower than a preset threshold, the score calculation processing excludes the reference relationship A score is calculated based on the calculation condition information.

請求項13記載の発明は、請求項11又は12記載の検索プログラムにおいて、前記スコア算出処理は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする。   According to a thirteenth aspect of the present invention, in the search program according to the eleventh or twelfth aspect, the score calculation processing includes the number of the search conditions included in each of the reference source document and the reference destination document, and The score is weighted based on the average of the numbers including the search condition.

請求項14記載の記録媒体は、請求項10から13のいずれか1項記載の検索プログラムを記録したことを特徴とする。   A recording medium according to a fourteenth aspect is characterized in that the search program according to any one of the tenth to thirteenth aspects is recorded.

本発明は、与えられた検索条件に適合する文書を検索し、検索された文書と検索条件との適合度を算出し、検索された文書に含まれる文書の特性を示す計算条件情報を抽出し、計算条件情報に基づいて各文書について算出された適合度を重み付けしてスコアを算出し、算出されたスコアに基づいて検索された文書群を整列してユーザに提供することにより、入力された検索条件に合った信頼性の高い文書をユーザに提供することができる。   The present invention searches for documents that match a given search condition, calculates the degree of matching between the searched document and the search condition, and extracts calculation condition information indicating the characteristics of the document included in the searched document. The score is calculated by weighting the fitness calculated for each document based on the calculation condition information, and the group of documents retrieved based on the calculated score is arranged and provided to the user. A highly reliable document that meets the search conditions can be provided to the user.

以下、本発明の一実施形態に係る検索装置の構成及び動作について説明する。   Hereinafter, the configuration and operation of a search device according to an embodiment of the present invention will be described.

まず、本実施形態に係る検索装置を有する情報検索システムのネットワークの概略について図1を用いて説明する。   First, an outline of a network of an information search system having a search device according to the present embodiment will be described with reference to FIG.

情報検索システムは、情報の検索を要求するクライアント端末110,120、検索サーバである検索装置130、検索対象の文書を管理するデータベース140、及びそれらを接続するネットワーク100を有して構成される。   The information retrieval system includes client terminals 110 and 120 that request information retrieval, a retrieval device 130 that is a retrieval server, a database 140 that manages documents to be retrieved, and a network 100 that connects them.

次に、本実施形態に係る検索装置130として機能しうる典型的な情報処理装置の概要構成について図2を用いて説明する。   Next, a schematic configuration of a typical information processing apparatus that can function as the search apparatus 130 according to the present embodiment will be described with reference to FIG.

情報処理装置101は、CPU(Central Processing Unit;中央処理ユニット)によって制御される。情報処理装置101に電源が投入されると、CPU102はROM103に記憶されたIPL(Initial Program Loader;初期プログラムローダ)を実行する。   The information processing apparatus 101 is controlled by a CPU (Central Processing Unit). When the information processing apparatus 101 is turned on, the CPU 102 executes an IPL (Initial Program Loader) stored in the ROM 103.

IPLは、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブ111に装着されたCD−ROMなどの記録媒体に記憶されたOS(Operating System;オペレーティング・システム)プログラムを読み出して実行するプログラムである。   The IPL reads and executes an OS (Operating System) program stored in a recording medium such as the hard disk 104, the FD attached to the FD drive 110, and the CD-ROM attached to the CD-ROM drive 111. It is a program.

OSを起動した後、CPU102は、キーボード105やマウス106などにより入力されたユーザの指示にしたがって、あるいは、ハードディスク104などにあらかじめ記述された設定ファイルの内容にしたがって、ハードディスク104などに記憶されたアプリケーションプログラムを実行する。   After the OS is started, the CPU 102 executes an application stored in the hard disk 104 or the like in accordance with a user instruction input from the keyboard 105 or the mouse 106 or in accordance with the contents of a setting file previously described in the hard disk 104 or the like. Run the program.

当該アプリケーションプログラムを実行することにより、情報処理装置101は、検索装置130として機能することとなる。アプリケーションプログラムは、ハードディスク104、FDドライブ110に装着されたFD、CD−ROMドライブ111に装着されたCD−ROMなどの記憶媒体に記録される。CPU102は、これらプログラムの実行の際に、RAM107を一時的な作業用記憶領域として用いる。このほか、一時的な作業用記憶領域として、CPU102内に設けられたレジスタやキャッシュが使われる。   By executing the application program, the information processing apparatus 101 functions as the search apparatus 130. The application program is recorded on a storage medium such as the hard disk 104, an FD mounted on the FD drive 110, and a CD-ROM mounted on the CD-ROM drive 111. The CPU 102 uses the RAM 107 as a temporary work storage area when executing these programs. In addition, a register or cache provided in the CPU 102 is used as a temporary work storage area.

プログラムの実行に伴い、ユーザに結果を報告して途中経過を表示するため、CPU102は、液晶ディスプレイやCRT(Cathode Ray Tube)などの表示装置108に当該情報を表示することができる。マウス106による指示操作では、マウス106を移動することにより、画面に表示されたカーソルが移動し、マウス106をクリックすることにより、カーソルが指すメニュー項目を選択することができる。   As the program is executed, the result is reported to the user and the progress is displayed, so that the CPU 102 can display the information on the display device 108 such as a liquid crystal display or a CRT (Cathode Ray Tube). In the instruction operation using the mouse 106, the cursor displayed on the screen is moved by moving the mouse 106, and the menu item pointed to by the cursor can be selected by clicking the mouse 106.

検索装置130は、NIC(Network Interface Card)やモデムなどのインターフェース109を介してインターネットなどのコンピュータ通信網と通信を行うことができる。インターフェース109を介して受信した文書データを処理の対象としたり、処理した結果をインターフェース109を介して送信したり、インターフェース109を介して受信したプログラムを実行したり、などができる。   The search device 130 can communicate with a computer communication network such as the Internet via an interface 109 such as a NIC (Network Interface Card) or a modem. The document data received via the interface 109 can be processed, the processing result can be transmitted via the interface 109, the program received via the interface 109 can be executed, and the like.

図3は、本実施形態に係る検索装置の基本構成を示す模式図である。図4は、本実施形態に係る検索装置にて実行される処理の流れを示すフローチャートである。なお、本実施形態に係る検索装置は、入力部210、検索部220、計算部230、記憶部240、及び整列部250を有して構成される。   FIG. 3 is a schematic diagram showing a basic configuration of the search device according to the present embodiment. FIG. 4 is a flowchart showing a flow of processing executed by the search device according to the present embodiment. Note that the search device according to the present embodiment includes an input unit 210, a search unit 220, a calculation unit 230, a storage unit 240, and an alignment unit 250.

まず、入力部210は、検索条件の入力を受け付ける(ステップS401)。検索条件は、キーワード、各文書のファイルサイズや文字数、名詞の数、言語、参照関係(リンク、被リンク、トラックバック)や表、各文書に対するコメント、広告、画像、音楽の有無/数、作成日時や期間、URL、著者、blog事業所より付与された情報など、第三者により付与された文書特性を示す情報である。検索条件の入力の手法については、以下のような種々の技術を適用することができる。   First, the input unit 210 receives an input of search conditions (step S401). Search conditions include keywords, file size and number of characters for each document, number of nouns, language, reference relationship (link, linked, trackback) and table, comments, advertisements, images, presence / number of music, creation date and time for each document This is information indicating document characteristics given by a third party, such as information given by the period, URL, author, and blog establishment. Various techniques such as the following can be applied to the method of inputting search conditions.

(a)検索条件として文字列や記号などを入力するもの。
例えば、文字列として単語を入力させ、入力された単語を検索条件とする。あるいは、自然文を入力させ、これを形態素解析して単語を得て、これを検索条件とする。さらに単語の正規化や異表記、類義語の展開を行い、検索条件とする場合が考えられる。
(b)検索I/Fに提示されるリストなどから検索条件を選択するもの。
(A) Inputting a character string or a symbol as a search condition.
For example, a word is input as a character string, and the input word is set as a search condition. Alternatively, a natural sentence is input, a morphological analysis is performed to obtain a word, and this is used as a search condition. Furthermore, normalization of words, different notation, and development of synonyms may be used as search conditions.
(B) Selection of search conditions from a list or the like presented in the search I / F.

したがって、キーボード105やマウス106がCPU102や表示装置108と共同して、入力部210として機能する。   Therefore, the keyboard 105 and the mouse 106 function as the input unit 210 in cooperation with the CPU 102 and the display device 108.

検索部220は、記憶部240を参照して、入力を受け付けた検索条件に適合する文書を検索する(ステップS402)。さらに、文書作成者により各文書において採用されたコメントや参照関係(リンク、被リンク、トラックバック)等の情報(以下、計算条件情報とする)を抽出された適合文書の中から抽出する(ステップS403)。したがって、CPU102がハードディスク104と共同して、検索部220として機能する。   The search unit 220 refers to the storage unit 240 and searches for a document that meets the search condition for which the input has been accepted (step S402). Further, information (hereinafter referred to as calculation condition information) such as comments and reference relationships (link, linked, trackback) adopted in each document by the document creator is extracted from the extracted conforming documents (step S403). ). Therefore, the CPU 102 functions as the search unit 220 in cooperation with the hard disk 104.

そして、計算部230は、検索された文書が含む検索条件の数、頻度などから各文書と検索条件との適合度を算出し、さらに、検索された文書が含む計算条件情報の数、頻度などから各文書について算出された適合度への重み付けを実行して、各文書のスコアを算出する。なお、検索された文書及び検索条件に基づく適合度の算出には、ベクトル内積法などを用いる。また、検索された文書及び計算条件情報に基づく重み付けは、例えば、ある文書のトラックバック数が他の文書よりも多い場合は、当該文書の重みを他の文書の重みよりも重くする等の方法を採用する。   Then, the calculation unit 230 calculates the degree of matching between each document and the search condition from the number and frequency of search conditions included in the searched document, and further calculates the number and frequency of calculation condition information included in the searched document. Are used to calculate the score of each document. Note that a vector dot product method or the like is used to calculate the fitness based on the retrieved document and the retrieval condition. The weighting based on the retrieved document and the calculation condition information is performed by, for example, a method of making the weight of the document heavier than the weight of the other document when the trackback number of the certain document is larger than that of the other document. adopt.

そして、重み付けられた各文書のスコアの総和を算出して当該文書群に対するスコアを算出する(ステップS404)。なお、本実施形態では、各文書に含まれる検索条件と各文書の参照関係と、各文書に含まれる検索条件の頻度は記憶部240に記憶される。   Then, the total score of each weighted document is calculated to calculate a score for the document group (step S404). In the present embodiment, the search condition included in each document, the reference relationship between each document, and the frequency of the search condition included in each document are stored in the storage unit 240.

ここで、各文書のスコアを算出する方法の一例について説明する。一般的に、文書検索では、ユーザが検索条件として入力したキーワードと検索対象文書群に含まれる各文書とがどれくらい適当しているかを、その検索に対する各文書のスコアという数値として算出する。本実施例においては、TF(Term Frequency)及びIDF(Inverse Document Frequency)を用いて適合度を算出する方法について説明する。TFは、該当文書中にキーワードが出現した回数である。IDFは、log(全体文書数/該当語を含む文書数)+1で算出する。適合度は、TFとIDFの積(TF*IDF)により算出し、この値が大きい該当語ほど文書群から特定の文書を選別する可能性が高いことを意味する。ここでは、TF*IDFを文書ベクトル成分の重みとして採用する。各文書diのスコアSoは、式1に基づいて算出する。式1中、kjは検索条件に含まれるキーワードであり、j=1,2,3・・・である。
So(di)=ΣTF(kj,di)*IDF(kj) ・・・(式1)
各文書のスコアSoが算出されると、次に文書の適合度に重み付けして算出したスコアSuを式2に基づいて算出する。式2中、rlは計算条件情報から算出した重みであり、l=1,2,3・・・である。
Su(di)=So(di)*rl(di)*・・・ ・・・(式2)
Here, an example of a method for calculating the score of each document will be described. In general, in document search, the appropriateness of a keyword input as a search condition by a user and each document included in a search target document group is calculated as a numerical value called a score of each document for the search. In the present embodiment, a method for calculating the fitness using TF (Term Frequency) and IDF (Inverse Document Frequency) will be described. TF is the number of times a keyword appears in the document. The IDF is calculated by log (total number of documents / number of documents including the corresponding word) +1. The goodness of fit is calculated by the product of TF and IDF (TF * IDF), and the higher the value, the higher the possibility of selecting a specific document from the document group. Here, TF * IDF is adopted as the weight of the document vector component. The score So of each document di is calculated based on Equation 1. In Equation 1, kj is a keyword included in the search condition, and j = 1, 2, 3,.
So (di) = ΣTF (kj, di) * IDF (kj) (Equation 1)
When the score So of each document is calculated, the score Su calculated by weighting the fitness of the document is calculated based on the formula 2. In Equation 2, rl is a weight calculated from the calculation condition information, and l = 1, 2, 3,.
Su (di) = So (di) * rl (di) * (Equation 2)

また、計算部230が重み付けに用いる計算情報情報は、参照関係がある。参照関係には、文書作成者自身が当該文書に付与するリンク、第三者が当該文書に対して付与するトラックバック、第三者が第三者の文書に当該文書のリンクを付与する被リンクなどの情報(これに限らず他の参照関係を利用してもよい)が考えられる。計算部230は、計算情報情報として参照関係を用いた場合、参照関係による相互引用、参照関係数、参照頻度、付与情報間隔を利用して適合度に対する重みを決定する。   Further, the calculation information used by the calculation unit 230 for weighting has a reference relationship. The reference relationship includes the link that the document creator gives to the document, the trackback that the third party gives to the document, the linked link that gives the third party the link to the document, etc. Information (not limited to this, other reference relationships may be used). When the reference relationship is used as the calculation information information, the calculation unit 230 determines the weight for the fitness using the cross-citation by the reference relationship, the number of reference relationships, the reference frequency, and the assigned information interval.

具体的には、計算条件情報として参照関係(トラックバック数など)を利用した場合の重みrl(di)は、式3に基づいて算出する。式3中、dtは文書diのトラックバック数であり、Ntは検索対象文書群におけるトラックバック数の平均である。
rl(di)=dt/Nt ・・・(式3)
そして、この場合の文書群に対するスコアSuは式4に基づいて算出される。
Su(di)=So(di)*dt/Nt ・・・(式4)
Specifically, the weight rl (di) when the reference relationship (trackback number or the like) is used as the calculation condition information is calculated based on Equation 3. In Expression 3, dt is the number of trackbacks of the document di, and Nt is the average of the number of trackbacks in the search target document group.
rl (di) = dt / Nt (Formula 3)
In this case, the score Su for the document group is calculated based on Equation 4.
Su (di) = So (di) * dt / Nt (Formula 4)

最後に、整列部250は、検索された文書および文書群を、計算されたスコアにより整列して、検索結果として出力する(ステップS405)。したがって、CPU102が表示装置(検索結果を表示する場合)108やハードディスク(検索結果を保存する場合)104と共同して、整列部250として機能する。   Finally, the aligning unit 250 arranges the retrieved documents and document groups according to the calculated score, and outputs them as a retrieval result (step S405). Accordingly, the CPU 102 functions as the alignment unit 250 in cooperation with the display device (when displaying the search result) 108 and the hard disk (when storing the search result) 104.

上記のように、検索条件の入力を1つだけ受け付ける場合は、検索された文書群に含まれる文書は、いずれも当該検索条件を含むものとなる。一方、検索条件の入力を複数受け付ける場合、ステップS402において検索される文書や、該文書と参照関係にある文書は、複数の検索条件のうち少なくともいずれか1つを含むものとして、適合度及びスコアの算出を行ってもよい。   As described above, when only one input of the search condition is accepted, all the documents included in the searched document group include the search condition. On the other hand, when receiving a plurality of input search conditions, the document searched in step S402 and the document having a reference relationship with the document include at least one of the plurality of search conditions. May be calculated.

また、検索条件としてキーワードを入力した場合、複数の文書の中から指定された検索条件が含まれるもののみならず、文書検索の手法としてVector Space Modelなどを用い、検索条件と文書との類似度を内積等により計算することによって、適合性の高い文書を検出する。文書の検索の手法としてVector Space Modelを用いた場合には、検索条件と文書との類似度を内積等により計算する。この場合、類似度が高い文書であっても、検索条件を一切含まないことがありえ、「検索条件との類似度が高い」ものを適合文書として検出する。   In addition, when a keyword is entered as a search condition, the similarity between the search condition and the document is determined by using Vector Space Model as a document search method as well as those that include the search condition specified from multiple documents. Is calculated by the inner product or the like, thereby detecting a highly compatible document. When the Vector Space Model is used as a document search method, the similarity between the search condition and the document is calculated by an inner product or the like. In this case, even a document with a high degree of similarity may not include any search condition, and a document with “high similarity to the search condition” is detected as a matching document.

また、計算条件情報は、第三者から付与される情報であるため、情報が付与された元の文書とは全く関係のない情報が記載されている可能性がある。このような情報がユーザにより指定された検索条件との適合性算出に利用されると弊害が生じる。そこで、元の文書と全く関係のない情報が計算条件情報として利用されない様、必要な情報だけを用いて適合性を算出する。   Further, since the calculation condition information is information given from a third party, there is a possibility that information that has nothing to do with the original document to which the information is given is described. If such information is used for calculation of compatibility with a search condition designated by the user, an adverse effect occurs. Therefore, the relevance is calculated using only necessary information so that information unrelated to the original document is not used as calculation condition information.

例えば、blogでは「トラックバックスパム」という商品説明や広告などをみせるためにトラックバックされることがある。ここで、トラックバックスパムとは、元の文書とは全く関係ない情報の一例である。このため、検索条件としてトラックバック先のURL、タイトルなどの書誌情報もしくは文書を用いた場合、計算部230は、まずトラックバック元文書との適合度を算出する。その結果、参照元の内容とは全く関連性のない文書である場合(適合度がある閾値より低い場合)は、適合度に対して重み付けする際の計算条件情報から該トラックバック情報を除外することにより、適切な重み付けを実行する。2文書の適合度の算出方法についてはベクトル空間法(Salton,G.: The Vector Space Model, Automatic Text Processing, Addison-Wesley Publishing, pp.312-325 (1989).各文書に現れる代表的な語句を統計的に切り出し、それらの語句が張るベクトル空間を定義する。そして、各文書につき各々がもつ代表的な語句のベクトルを形成しておく。すると、文書同士の類似性を、ベクトルの内積を計算することで、算出できる。)など既存の方法で構わない。つまり、まずトラックバック元文書を形態素解析してキーワードを抽出し、抽出したキーワードを上述したスコアの算出(TF*IDF)における検索条件のキーワードとみなし、さらにトラックバックスパム先の文書をdiとみなして適合度の算出を実行する。そして、算出された適合度が低い場合は、該適合度に対する重み付けを行わない。あるいは、予め重み付けに用いる計算条件情報に加えない情報のリストを作成しておき、リストを参照し、各文書の適合度に対する重み付けを実行してもよい。例えば、トラックバックを対象とした場合、予め計算条件情報に加えないURLのリストを作成しておき、リストに記載されているURLがトラックバックされている場合は、トラックバック数を考慮して重み付けする際に該URLをトラックバック数にカウントせずに算出する。   For example, a blog may be tracked back to show a product description or advertisement such as “trackback spam”. Here, trackback spam is an example of information that has nothing to do with the original document. Therefore, when bibliographic information or a document such as a trackback destination URL or title is used as a search condition, the calculation unit 230 first calculates the degree of conformity with the trackback source document. As a result, when the document is completely unrelated to the content of the reference source (when the fitness level is lower than a certain threshold value), the trackback information should be excluded from the calculation condition information when weighting the fitness level. Thus, appropriate weighting is executed. For the calculation method of conformity of two documents, vector space method (Salton, G .: The Vector Space Model, Automatic Text Processing, Addison-Wesley Publishing, pp.312-325 (1989). Are defined, a vector space spanned by those phrases is defined, and a vector of representative phrases for each document is formed, and the similarity between the documents is calculated by calculating the inner product of the vectors. It can be calculated by calculating). In other words, morphological analysis is first performed on the trackback source document, keywords are extracted, the extracted keywords are regarded as search condition keywords in the above-described score calculation (TF * IDF), and the trackback spam destination document is further regarded as di. Perform the degree calculation. When the calculated fitness is low, no weighting is performed on the fitness. Alternatively, a list of information that is not added to the calculation condition information used for weighting may be created in advance, and the weighting for the degree of matching of each document may be executed by referring to the list. For example, when a trackback is targeted, a list of URLs not to be added to the calculation condition information is created in advance, and when a URL described in the list is trackbacked, when weighting is performed in consideration of the number of trackbacks. The URL is calculated without counting the trackback number.

ここで、トラックバック先文書とトラックバック元文書との適合度を算出する方法について説明する。まず、文書の検索において検索条件として用いる付与情報について、各文書における情報付与数、情報付与頻度、情報付与間隔を抽出する。例えば、付与情報としてコメントを用いた場合、各文書からコメントが記載されているフィールドを抽出し、コメントの数、及びコメントの更新日時に基づく付与間隔を算出して適合度とする。また、情報付与頻度については、例えば、予めblogのポータルサイトに登録される全blogに付与されているコメント数を抽出し、コメント付与数の平均と比べた場合の付与の度合いを算出して適合度とする。これら各適合度が閾値と比べて高い場合は、計算条件情報に基づく重みを高くして、トラックバック元文書と適合する文書として検出する。   Here, a method for calculating the degree of matching between the trackback destination document and the trackback source document will be described. First, the number of information additions, the information addition frequency, and the information addition interval in each document are extracted from the addition information used as a search condition in document search. For example, when a comment is used as the grant information, a field in which a comment is described is extracted from each document, and the grant interval based on the number of comments and the comment update date and time is calculated as the fitness. In addition, for the information grant frequency, for example, the number of comments assigned to all blogs registered in advance in the blog portal site is extracted, and the degree of grant is calculated by comparing with the average of the number of comments given. Degree. If each of these matching levels is higher than the threshold value, the weight based on the calculation condition information is increased, and the document is detected as a document that matches the trackback source document.

例えば、情報付与頻度とは、あるトラックバック(計算条件情報)が一定期間に付与された回数(頻度)である。この場合、重みは、rl(di)=dc/Ncで算出される。なお、dcは、ユーザが検索した日前後1ヶ月間のトラックバック数である。Ncは、検索対象文書群における1ヶ月の平均トラックバック数である。この場合、文書diのスコアは、Su(di)=So(di)*dc/Ncで算出される。   For example, the information application frequency is the number of times (frequency) that a certain trackback (calculation condition information) is applied in a certain period. In this case, the weight is calculated by rl (di) = dc / Nc. Note that dc is the number of trackbacks for one month before and after the date searched by the user. Nc is the average number of trackbacks per month in the search target document group. In this case, the score of the document di is calculated by Su (di) = So (di) * dc / Nc.

計算条件情報に情報付与頻度を利用することにより、1年間と長期でみたときのトラックバック数が他の文書より少なくても、ある一定の短期間では他の文書より多いような文書はある時点では注目されていた話題と考えられ、このような観点を考慮した検索結果を提示することができる。   By using the information assignment frequency for the calculation condition information, even if the number of trackbacks in the long term of one year is less than that of other documents, there are documents that are larger than other documents in a certain short period of time. It is considered a topic that has been attracting attention, and it is possible to present search results that take this viewpoint into consideration.

また、情報付与間隔とは、ある一定期間、文書が登録されてから検索時点までや検索時から前後1ヶ月の間などにトラックバックされた平均間隔(一定期間に最初にトラックバックされた日から最後にトラックバックされた期間(日数、時間など)/一定期間でのトラックバック数)である。計算部230は、情報付与間隔を算出し、検索対象文書群における平均トラックバック間隔との商を重み付けしてスコアを算出する。   The information grant interval is the average interval tracked back from the time the document was registered to the point of search or between the search time and the month before and after the search for a certain period (from the date of the first trackback in the fixed period to the end) Trackback period (number of days, time, etc./number of trackbacks in a certain period). The calculation unit 230 calculates an information addition interval, and calculates a score by weighting the quotient with the average trackback interval in the search target document group.

なお、重みを算出するために利用する計算条件情報をユーザが任意に選択し、選択された計算情報を用いて重みを計算し、適合度への重み付けを行ってスコアを算出する構成とすることも可能である。   The calculation condition information used for calculating the weight is arbitrarily selected by the user, the weight is calculated using the selected calculation information, and the score is calculated by weighting the fitness. Is also possible.

また、キーワード、トラックバック、コメントなど種々の情報が検索条件及び計算条件情報として利用されているが、指定した種類もしくは種類毎に各文書の適合度を算出し、検索結果として表示することも可能である。具体的には、検索装置側で予めスコア計算時に利用される計算条件情報毎と、その組み合わせによりスコアを算出し、これらの各結果を検索結果として表示する。計算条件情報毎の検索結果とは、単に計算条件情報としてトラックバック数のみを利用してスコアを算出した検索結果や被リンク数のみを利用してスコアを算出した検索結果のことである。また、組み合わせによるスコアの算出とは、計算条件情報としてトラックバック数と被リンク数2つの情報を利用してコスト算出した検索結果のことである。   Various information such as keywords, trackbacks, comments, etc. are used as search condition and calculation condition information, but it is also possible to calculate the suitability of each document for each specified type or type and display it as search results is there. Specifically, the score is calculated by calculation condition information used at the time of score calculation on the search device side in advance and a combination thereof, and each result is displayed as a search result. The search result for each calculation condition information is a search result in which a score is calculated using only the trackback number as calculation condition information or a score is calculated using only the number of linked links. The score calculation based on the combination is a search result obtained by calculating the cost using two pieces of information of the track back number and the number of linked links as calculation condition information.

本実施形態に係る検索装置を含む情報検索システムの構成を示す概略図である。It is the schematic which shows the structure of the information search system containing the search device which concerns on this embodiment. 本実施形態に係る検索装置が実現される典型的な情報処理装置の構成を示す概略図である。It is the schematic which shows the structure of the typical information processing apparatus with which the search device which concerns on this embodiment is implement | achieved. 本実施形態に係る検索装置の概略を示すブロック図である。It is a block diagram which shows the outline of the search device which concerns on this embodiment. 本実施形態に係る検索装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the search device which concerns on this embodiment.

符号の説明Explanation of symbols

101 情報処理装置
102 CPU
103 ROM
104 ハードディスク
105 キーボード
106 マウス
107 RAM
108 表示装置
109 インターフェース
110 FDD
111 CDD
210 入力部
220 検索部
230 計算部
240 記憶部
250 整列部
101 Information processing apparatus 102 CPU
103 ROM
104 Hard disk 105 Keyboard 106 Mouse 107 RAM
108 display device 109 interface 110 FDD
111 CDD
210 Input unit 220 Search unit 230 Calculation unit 240 Storage unit 250 Alignment unit

Claims (14)

入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置において、
前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算手段と、
前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出手段と、
前記抽出手段によって抽出された前記計算条件情報に基づいて、前記適合度計算手段によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出手段と、
前記スコア算出手段によって算出されたスコアに基づいて前記文書群を整列させる整列手段とを有し、
前記提示手段は、前記整列手段によって整列された前記文書群をユーザに提示することを特徴とする検索装置。
A search unit including a search unit that searches and presents a document group that matches an input search condition, an input unit that receives the search condition, and a search unit that searches for a document including the search condition received by the input unit. In the device
Goodness-of-fit calculation means for calculating goodness-of-fit between the document searched by the search means and the search condition;
Extraction means for extracting calculation condition information indicating characteristics of the document searched by the search means;
Score calculating means for calculating a score by weighting the fitness of each document calculated by the fitness calculation means based on the calculation condition information extracted by the extraction means;
Alignment means for aligning the document group based on the score calculated by the score calculation means,
The presenting means presents the document group aligned by the aligning means to a user.
前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算手段は、参照元の文書と参照先の文書との適合度を算出することを特徴とする請求項1記載の検索装置。   2. The matching level calculation unit calculates a matching level between a reference source document and a reference destination document when the search condition received by the input unit is a reference relationship. Search device. 前記適合度計算手段によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出手段は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする請求項2記載の検索装置。   The score calculation means calculates a score based on the calculation condition information excluding the reference relationship when the fitness calculated by the fitness calculation means is lower than a preset threshold value. Item 3. The search device according to Item 2. 前記スコア算出手段は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする請求項2又は3記載の検索装置。   The score calculation means weights the score based on the number of the search conditions included in each of the reference source document and the reference destination document and an average of the number of the document including the search conditions. The search device according to claim 2 or 3. 請求項1から6のいずれか1項記載の検索装置と、文書データベースと、文書の検索を依頼する少なくとも1つのクライアント端末とがネットワークを介して接続されることを特徴とする情報検索システム。   7. An information search system comprising: the search device according to claim 1; a document database; and at least one client terminal that requests a document search via a network. 入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置の検索方法において、
前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算工程と、
前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出工程と、
前記抽出工程によって抽出された前記計算条件情報に基づいて、前記適合度計算工程によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出工程と、
前記スコア算出工程によって算出されたスコアに基づいて前記文書群を整列させる整列工程と、
前記提示手段は、前記整列工程によって整列された前記文書群をユーザに提示する工程とを有することを特徴とする検索方法。
A search unit including a search unit that searches and presents a document group that matches an input search condition, an input unit that receives the search condition, and a search unit that searches for a document including the search condition received by the input unit. In the device search method,
A fitness calculation step of calculating a fitness between the document searched by the search means and the search condition;
An extraction step of extracting calculation condition information indicating characteristics of the document searched by the search means;
Based on the calculation condition information extracted by the extraction step, a score calculation step of calculating a score by weighting the fitness of each document calculated by the fitness calculation step;
An alignment step of aligning the document group based on the score calculated by the score calculation step;
The presenting means includes a step of presenting to the user the group of documents arranged in the alignment step.
前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算工程は、参照元の文書と参照先の文書との適合度を算出することを特徴とする請求項6記載の検索方法。   7. The matching level calculation step calculates a matching level between a reference source document and a reference destination document when the search condition received by the input unit is a reference relationship. retrieval method. 前記適合度計算工程によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出工程は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする請求項7記載の検索方法。   The score calculation step calculates a score based on the calculation condition information excluding the reference relationship when the fitness calculated by the fitness calculation step is lower than a preset threshold value. Item 8. The search method according to Item 7. 前記スコア算出工程は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする請求項7又は8記載の検索方法。   The score calculating step weights the score based on the number of the search conditions included in each of the reference source document and the reference destination document and an average of the number of the documents including the search condition. The search method according to claim 7 or 8. 入力された検索条件に適合する文書群を検索して提示する提示手段と、前記検索条件を受け付ける入力手段と、前記入力手段によって受け付けた前記検索条件を含む文書を検索する検索手段とを有する検索装置の検索プログラムにおいて、
前記検索手段によって検索された前記文書と前記検索条件との適合度を算出する適合度計算処理と、
前記検索手段によって検索された前記文書の特性を示す計算条件情報を抽出する抽出処理と、
前記抽出処理によって抽出された前記計算条件情報に基づいて、前記適合度計算処理によって算出された前記各文書の前記適合度を重み付けしてスコアを算出するスコア算出処理と、
前記スコア算出処理によって算出されたスコアに基づいて前記文書群を整列させる整列処理と、
前記提示手段は、前記整列処理によって整列された前記文書群をユーザに提示する処理とを有することを特徴とする検索プログラム。
A search unit including a search unit that searches and presents a document group that matches an input search condition, an input unit that receives the search condition, and a search unit that searches for a document including the search condition received by the input unit. In the device search program,
A fitness calculation process for calculating a fitness between the document searched by the search means and the search condition;
An extraction process for extracting calculation condition information indicating characteristics of the document searched by the search means;
Based on the calculation condition information extracted by the extraction process, a score calculation process for calculating a score by weighting the fitness of each document calculated by the fitness calculation process;
An alignment process for aligning the document group based on the score calculated by the score calculation process;
The presenting means includes a process of presenting the document group aligned by the alignment process to a user.
前記入力手段によって受け付けた前記検索条件が参照関係であったとき、前記適合度計算処理は、参照元の文書と参照先の文書との適合度を算出することを特徴とする請求項10記載の検索プログラム。   11. The matching level calculation process calculates a matching level between a reference source document and a reference destination document when the search condition received by the input unit is a reference relationship. Search program. 前記適合度計算処理によって算出された前記適合度が予め設定された閾値より低い場合、前記スコア算出処理は、該参照関係を除く前記計算条件情報に基づいてスコアを算出することを特徴とする請求項11記載の検索プログラム。   The score calculation process calculates a score based on the calculation condition information excluding the reference relationship when the fitness calculated by the fitness calculation process is lower than a preset threshold value. Item 12. The search program according to Item 11. 前記スコア算出処理は、参照元の文書及び参照先の文書のそれぞれに含まれる前記検索条件の数と、前記文書が該検索条件を含む数の平均とに基づいてスコアに重み付けすることを特徴とする請求項11又は12記載の検索プログラム。   The score calculation process is characterized in that the score is weighted based on the number of the search conditions included in each of the reference source document and the reference destination document and an average of the number of the document including the search conditions. The search program according to claim 11 or 12. 請求項10から13のいずれか1項記載の検索プログラムを記録したコンピュータ読み取り可能な記録媒体。   The computer-readable recording medium which recorded the search program of any one of Claim 10 to 13.
JP2006294754A 2006-10-30 2006-10-30 Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium Withdrawn JP2008112310A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006294754A JP2008112310A (en) 2006-10-30 2006-10-30 Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006294754A JP2008112310A (en) 2006-10-30 2006-10-30 Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium

Publications (1)

Publication Number Publication Date
JP2008112310A true JP2008112310A (en) 2008-05-15

Family

ID=39444787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006294754A Withdrawn JP2008112310A (en) 2006-10-30 2006-10-30 Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium

Country Status (1)

Country Link
JP (1) JP2008112310A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072909A (en) * 2008-09-18 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> Document search device, document search method, and document search program
JP2010157243A (en) * 2008-12-31 2010-07-15 Nhn Corp System and method for posting up argument for or against issue on online
JP2015201184A (en) * 2014-04-04 2015-11-12 富士通株式会社 Method for collecting teaching materials for informal learning and non-temporary computer readable medium
KR20220083469A (en) * 2020-12-11 2022-06-20 오두환 System for checking violation of medical law in advertisement, method for checking violation of medical law in advertisement and program of performing the same method on computer readable media

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010072909A (en) * 2008-09-18 2010-04-02 Nippon Telegr & Teleph Corp <Ntt> Document search device, document search method, and document search program
JP2010157243A (en) * 2008-12-31 2010-07-15 Nhn Corp System and method for posting up argument for or against issue on online
JP2015201184A (en) * 2014-04-04 2015-11-12 富士通株式会社 Method for collecting teaching materials for informal learning and non-temporary computer readable medium
KR20220083469A (en) * 2020-12-11 2022-06-20 오두환 System for checking violation of medical law in advertisement, method for checking violation of medical law in advertisement and program of performing the same method on computer readable media
KR102548362B1 (en) * 2020-12-11 2023-06-26 오두환 System for checking violation of medical law in advertisement, method for checking violation of medical law in advertisement and program of performing the same method on computer readable media

Similar Documents

Publication Publication Date Title
US9589071B2 (en) Query suggestions from documents
US8370334B2 (en) Dynamic updating of display and ranking for search results
US7475074B2 (en) Web search system and method thereof
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US8458207B2 (en) Using anchor text to provide context
CN100481077C (en) Visual method and device for strengthening search result guide
US9311421B2 (en) User readability improvement for dynamic updating of search results
JP5168961B2 (en) Latest reputation information notification program, recording medium, apparatus and method
EP2397955A1 (en) Methods and systems for improving a search ranking using article information
JP2007122513A (en) Content retrieval method, and content retrieval server
WO2011071990A2 (en) Resource search operations
JP5026192B2 (en) Document creation system, user terminal, server device, and program
CN109952571B (en) Context-based image search results
JP5151368B2 (en) Information processing apparatus and information processing program
JP2008112310A (en) Retrieval device, information retrieval system, retrieval method, retrieval program and recording medium
JP2017117021A (en) Keyword extraction device, content generation system, keyword extraction method, and program
JP4621680B2 (en) Definition system and method
JP2008117134A (en) Period extraction device, period extraction method, period extraction program implementing the method, and recording medium storing its program
JP2012243130A (en) Information retrieval device, method and program
JP4859891B2 (en) Server, system and method for providing information related to contents
JP2008009623A (en) Method, device and program for calculating intensity of experience, and computer readable recording medium
JP4920661B2 (en) Index generation method, program, and server
JP2010086422A (en) Retrieval server, method and program
WO2008033482A2 (en) User readability improvement for dynamic updating of search results
Upate et al. Review on Efficient Approach for Web Search Engine Using Page Level Keyword

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100105