JP2005141449A - Profile generation device for information filtering, profile generation method for information filtering, and recording medium - Google Patents
Profile generation device for information filtering, profile generation method for information filtering, and recording medium Download PDFInfo
- Publication number
- JP2005141449A JP2005141449A JP2003376554A JP2003376554A JP2005141449A JP 2005141449 A JP2005141449 A JP 2005141449A JP 2003376554 A JP2003376554 A JP 2003376554A JP 2003376554 A JP2003376554 A JP 2003376554A JP 2005141449 A JP2005141449 A JP 2005141449A
- Authority
- JP
- Japan
- Prior art keywords
- search
- profile
- information
- primary key
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、検索エンジン等の検索ログを用いて、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体に関する。
The present invention relates to an information filtering profile creation apparatus, an information filtering profile creation method, and a recording medium that create an information filtering profile using a search log such as a search engine.
従来の情報フィルタリングシステムでは、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する。 In a conventional information filtering system, specific documents are extracted from a document set stored in a database or a document set collected from a network or the like according to a profile in which keywords and the like are described.
また、従来の情報フィルタリングシステムにおいて、プロファイルを、人手で作成している。たとえば、@niftyクリッピングサービス(http://www.nifty.com/iguide/clip/)では、ユーザが、検索キーワード等を自分で設定し、プロファイルを作成している。 Moreover, in the conventional information filtering system, the profile is created manually. For example, in @nifty clipping service (http://www.nifty.com/iguide/clip/), a user sets a search keyword or the like and creates a profile.
しかし、検索対象である文書が、大規模で様々な表現を使っている場合、適切なキーワード群を、ユーザが設定することは、極めて困難であり、したがって、フィルタリングした結果に、不適切な文書が含まれることがあり、この場合には、必要な文書を得ることができないことがある。 However, when a document to be searched uses a large scale and various expressions, it is extremely difficult for the user to set an appropriate keyword group. Therefore, an inappropriate document is not included in the filtered result. In this case, a necessary document may not be obtained.
このために、一度、設定したプロファイルに基づいて、フィルタリングし、このフィルタリングの結果の文書について、適切か不適切かを人が判断し、この判断した情報に基づいて、プロファイルを修正する方法が知られている(たとえば、特許文献1参照)。 For this purpose, it is known how to perform filtering based on a set profile once, determine whether the document resulting from the filtering is appropriate or inappropriate, and modify the profile based on the determined information. (For example, refer to Patent Document 1).
しかし、上記従来のプロファイル修正方法は、結果の適不適を判定する手間が膨大であり、しかも、初期プロファイルがある程度適切なものでなければ、最初のフィルタリング結果中に不適切な文書が多過ぎ、適切に修正できない可能性が高い。 However, in the conventional profile correction method, it takes a lot of time to determine whether the result is appropriate, and if the initial profile is not appropriate to some extent, there are too many inappropriate documents in the initial filtering result, There is a high possibility that it cannot be properly corrected.
そこで、適切な初期プロファイルを容易に作成できるようにするには、ユーザが入力したキーワードに基づいて、ユーザが入力したキーワードの関連語集合を自動的に作成し、上記関連語を含めて初期プロファイルとすればよく、この場合、ユーザが入力した初期検索条件に基づいて検索し、この検索結果における上位から一定数のドキュメントの中から、特徴語を抽出するqucry expansionという方法が知られている(たとえば、非特許文献1参照)。
しかし、上記従来例では、検索結果の上位の文書が、必ずしも目的の文書であるとは限ず、また、文書中に様々な話題が書かれていることがあるので、直接関係ない語も関連語になる可能性がある。 However, in the above conventional example, the high-order document in the search result is not necessarily the target document, and various topics may be written in the document. May become a word.
つまり、上記従来例では、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する情報フィルタリングシステムにおいて、情報フィルタリングシステム用のプロファイルを作成する場合、プロファイル作成の手間がかかるという問題があり、また、適切に検索することができないという問題がある。 That is, in the above-described conventional example, in an information filtering system that extracts specific documents from a document set stored in a database or a document set collected from a network or the like according to a profile in which keywords are described. When creating a profile for an information filtering system, there is a problem that it takes time and effort to create a profile, and there is a problem that an appropriate search cannot be performed.
本発明は、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する情報フィルタリングシステムにおいて、情報フィルタリングシステム用のプロファイルを作成する場合、プロファイルを容易に作成することができ、また、適切に検索するためにプロファイルを作ることができる情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体を提供することを目的とするものである。
The present invention relates to an information filtering system for extracting specific documents from a document set stored in a database or a document set collected from a network according to a profile in which a keyword or the like is described. When creating a profile for a system, a profile creation device for information filtering, a profile creation method for information filtering, and a recording medium that can easily create a profile and can create a profile for appropriate search are provided. It is intended to provide.
本発明は、所定の検索ログの中から、主キーに基づいて、検索ログを抽出し、この抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、この算出された関連度に基づいて、上記主キーと関連する関連語を選出し、上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、上記分類したURLと、そのURLをクリックするに先立って入力された検索語とに基づいて、各検索語間の親密度を算出し、上記主キーとの関連度と、絞り込みキーとの親密度とに基づいて、プロファイルを作成する。
The present invention extracts a search log based on a primary key from a predetermined search log, calculates a degree of association between a plurality of search terms that appear in the extracted plurality of search logs, Based on the calculated relevance, related words related to the primary key are selected, URLs that appear in the extracted search log and clicked are classified according to a predetermined criterion, the classified URLs, Based on the search terms input prior to clicking the URL, the intimacy between the search terms is calculated, and the profile based on the relevance with the primary key and the intimacy with the refinement key Create
本発明によれば、ユーザが、主キーと絞り込みキーとを入力するだけで、検索ログの情報に基づいて、関連語を選出し、情報フィルタリングシステムのためのプロファイルを自動作成するので、プロファイル作成の手間を軽減することができ、また、適切に検索するためのプロファイルを作ることができるという効果を奏する。
According to the present invention, a user selects a related word based on information in a search log and automatically creates a profile for an information filtering system simply by inputting a primary key and a narrow-down key. It is possible to reduce the time and effort required to create a profile for searching appropriately.
発明を実施するための最良の形態は、以下の実施例である。 The best mode for carrying out the invention is the following examples.
インターネットの検索エンジンの検索ログは、多数のユーザによる検索の記録を保持している。本発明の実施例において、ユーザが入力した検索語と、この検索語によって検索した結果中のURLであって、ユーザがクリックしたURLと、ユーザがクリックした時期情報と、同一ユーザであるかどうかを推定できるユーザIDまたはcookieとが記録されている検索ログを考える。このような検索ログを使用すると、各ユーザの一連の検索動作を追うことができる。 A search log of an Internet search engine holds records of searches by a large number of users. In the embodiment of the present invention, whether or not the search term input by the user, the URL in the search result by the search term, the URL clicked by the user, and the time information clicked by the user are the same user Consider a search log in which a user ID or cookie that can be estimated is recorded. By using such a search log, a series of search operations of each user can be followed.
つまり、一般的に、検索ユーザは、所定の特定の情報を得るために、いろいろなキーワードを入力する傾向がある。そして、極めて近い時間間隔で入力されたキーワードは、互いに関連が深いキーワードであると予想される。また、同一のURLをクリックする際に多数のユーザが使用した複数のキーワードも、相互に関連しているキーワードであると予想される。 That is, in general, a search user tends to input various keywords in order to obtain predetermined specific information. Then, keywords input at extremely close time intervals are expected to be keywords closely related to each other. A plurality of keywords used by a large number of users when clicking on the same URL are also expected to be keywords related to each other.
本発明の実施例は、上記検索行動における上記特徴を利用するものであり、ユーザが入力した主キーに基づいて、検索ログからログを抽出する。つまり、主キーの語を検索語として利用したユーザの検索履歴に基づいて、その語が入力された前後一定期間のログを抽出する。 The embodiment of the present invention uses the above feature in the above search behavior, and extracts the log from the search log based on the primary key input by the user. That is, based on the search history of the user who uses the word of the primary key as a search word, a log for a certain period before and after the word is input is extracted.
次に、抽出したログ中に出現する検索語同士の間における関連度を算出する。この関連度に基づいて、主キーで特定された分野に含まれている関連語を特定する。 Next, the degree of association between the search terms appearing in the extracted log is calculated. Based on the degree of relevance, related words included in the field specified by the primary key are specified.
また、主キーの分野の中で、特定の情報に絞り込むために、抽出したログ中でクリックされたURLを分類し、そのURLをクリックするに先立って入力した検索語間の親密度を算出する。この関連語間で親密度を算出することによって、特定の情報に関する文書中で同時に使われる2つの語が、同時に使用される可能性が高い組み合わせであるか、低い組み合わせであるかを決定する。上記算出された親密度を用いて、ユーザが入力した絞り込みキーとの間で親密度が高いキーワードを選出し、プロファイルを生成する。 In addition, in order to narrow down to specific information in the field of the primary key, the clicked URL is classified in the extracted log, and the closeness between the input search terms is calculated before the URL is clicked. . By calculating the familiarity between the related words, it is determined whether two words used at the same time in a document related to specific information are a combination having a high possibility of being used simultaneously or a combination having a low possibility. Using the calculated familiarity, a keyword having a high familiarity with the narrow-down key input by the user is selected to generate a profile.
図1は、本発明の一実施例である情報フィルタリング用プロファイル作成装置10を示すブロック図である。 FIG. 1 is a block diagram showing an information filtering profile creation apparatus 10 according to an embodiment of the present invention.
フィルタリング用プロファイル作成装置10は、入力部1と、ログ抽出部2と、関連語選出部3と、分類部4と、親密度算出部5と、プロファイル作成部6とを有する。なお、入力部1、ログ抽出部2、関連語選出部3、分類部4、親密度算出部5と、プロファイル作成部6が、それぞれ、メモリ1M、2M、3M、4M、5M、6Mを具備している。
The filtering profile creation apparatus 10 includes an
入力部1は、ユーザが欲しい情報を特定するために、分野を特性するためのキーワードである主キーと、主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞り込みキーとを入力する。
The
ログ抽出部2は、主キーを検索語として使用したユーザのログのうちで、主キーを使用した時刻の前後一定期間のログを、検索ログから抽出する。
The
関連語選出部3は、抽出されたログに含まれているキーワードに基づいて、主キーが使用された時間間隔、主キーの使用人数等に基づいて、関連語を選出する。
The related
分類部4は、抽出されたログ中のクリック先URLを、所定の基準で分類する。
The
親密度算出部5は、同一分類内のURLをクリックするに先立って使用された検索語は、互いに関係が深いと判断し、各検索語同士の間における親密度を、所定の方法によって算出する。
The
プロファイル作成部6は、絞り込みキーと、各関連語との間における親密度に基づいて、関連キーワードを決定し、プロファイルを生成する。
The
図2は、ログ抽出部2が処理する検索ログの一例を示す図である。
FIG. 2 is a diagram illustrating an example of a search log processed by the
図2に示す検索ログの形式は、一例であり、検索時刻と、検索語と、使用ユーザを識別するIDやcookie等の情報と、検索語を使用して検索した結果、クリックされたURLの情報とを含んでいれば、その形式を問わない。また、必ずしも実際のログである必要はなく、実際のログから上記各情報を抽出したリスト等を、検索ログとして使用してもよい。検索語が入力されても、入力された検索語に基づいて検索された結果がクリックされるとは限らず、したがって、検索語が入力された後に、検索結果がクリックされなければ、URL欄は空白である。 The format of the search log shown in FIG. 2 is an example, and a search time, a search word, information such as an ID and cookie for identifying a user, and a URL clicked as a result of searching using the search word are shown. Any format is acceptable as long as it contains information. In addition, it is not necessarily an actual log, and a list obtained by extracting each piece of information from the actual log may be used as a search log. Even if a search term is entered, the search result based on the entered search term is not always clicked. Therefore, if the search result is not clicked after the search term is entered, the URL field is not displayed. It is blank.
次に、情報フィルタリング用プロファイル作成装置10の動作について、説明する。 Next, the operation of the information filtering profile creation device 10 will be described.
図3は、情報フィルタリング用プロファイル作成装置10の動作を示すフローチャートである。 FIG. 3 is a flowchart showing the operation of the information filtering profile creation apparatus 10.
まず、入力部1は、ユーザによる主キーと絞り込みキーとの入力を受け付ける(S1)。この場合、主キー、絞り込みキーが、2つ以上入力されてもよい。この入力された主キー、絞込みキーを、メモリ1Mに格納する。
First, the
ログ抽出部2は、検索ログ中の検索語を調べ、上記入力された主キーと一致する検索語を見つけ、この見つけられた検索語を入力したユーザIDを調べることによって、主キーのキーワードを使用した人を特定する(S2)。この特定されたユーザを、メモリ2Mに格納する。
The
主キーが複数ある場合、複数の主キーのそれぞれについて、上記主キーを使用したユーザを調べ、その和集合をとり、または、積集合をとる等し、次ステップS3においてログ抽出する場合に、その対象であるユーザを決定する。 When there are a plurality of primary keys, for each of the primary keys, the user who uses the primary key is examined, and the log is extracted in the next step S3 by taking the union or intersection of the sets. The user who is the object is determined.
ログ抽出部2は、ステップS2で決定されたユーザのログのうちで、上記主キーが入力された時刻の前後一定時間内に入力されたログを抽出し、この抽出されたログを、メモリ2Mに格納する(S3)。上記一定時間を予め決める場合、上記主キーが入力された時刻の前の一定時間と、上記主キーが入力された時刻の後の一定時間とが同じである必要はない。また、上記主キーが入力された時刻の前後一定時間内に入力されたログを抽出する際に、URL欄が空白であっても、空白でなくてもよい。
The
関連語抽出部3は、ステップS3で抽出されたログ中の検索語について、関連度を算出し、所定の閾値以上の関連度を持つ語を関連語として選出し、この選出された関連語を、メモリ3Mに格納する(S4)。
The related
関連度を算出する場合、各検索語の出現回数、各検索語の使用人数(ユーザIDで特定されるユーザの人数)を用いて、関連度を算出するようにしてもよい。つまり、各ユーザが、主キーを入力した時刻と各検索語を入力した時刻との最小時間間隔tの関数f(t)に基づいて、求められた値を、全てのユーザに関して和をとった値である次の式(1) When calculating the degree of association, the degree of association may be calculated using the number of appearances of each search term and the number of users of each search term (the number of users specified by the user ID). That is, based on the function f (t) of the minimum time interval t between the time when each user inputs the primary key and the time when each search word is input, the obtained values are summed for all users. The following expression (1) that is a value
なお、uは、ユーザの数であり、mは、関連度を計算している対象の検索語を利用したユーザの数である。また、所定の2つの語に付与される関連度が、1つであっても、複数であってもよい。上記式(1)以外の式によって、関連度を計算するようにしてもよく、関連度を計算する式が複数であれば、所定の2つの語に付与される関連度が複数になり、これら複数の関連度毎に閾値を設定し、全ての関連度が閾値以上であるものを、関連語とする。または、閾値以上の関連度を持つ検索語を、関連語とするようにしてもよい。 Note that u is the number of users, and m is the number of users using the target search term for which the relevance is being calculated. Further, the degree of association given to two predetermined words may be one or plural. The degree of association may be calculated by an expression other than the above expression (1). If there are a plurality of expressions for calculating the degree of association, the degree of association given to two predetermined words becomes plural, A threshold value is set for each of a plurality of relevance levels, and all relevance levels are equal to or higher than the threshold value. Alternatively, a search term having a relevance degree equal to or higher than a threshold may be used as a related term.
分類部4は、ステップS3で抽出されたログ中のURLを分類し、この分類されたURLを、メモリ4Mに格納する(S5)。URLを分類する際、URL欄が空であるログを対象とはしない。
The
URLを分類する場合、同一URLをまとめることによってURLを分類するようにしてもよく、また、同一ドメインをまとめることによって、URLを分類するようにしてもよい。さらに、URLを分類する場合、URLのドキュメントに関する情報を、ネットワークから収集し、または、検索エンジンのインデックス等から抽出し、単語の出現頻度ベクトルを作り、その余弦等の値を用い、URLを分類するようにしてもよい。 When classifying URLs, URLs may be classified by grouping the same URLs, or URLs may be grouped by grouping the same domains. Further, when classifying URLs, information on URL documents is collected from a network or extracted from a search engine index or the like, a word appearance frequency vector is created, and values such as cosines are used to classify URLs. You may make it do.
次に、親密度算出部5は、ステップS5で分類されたURLをクリックするに先立って入力された検索語のうちで、ステップS4で選出された関連語と、絞り込みキーとの和集合に対して、各語の間の親密度を算出し、関連語間の親密度を、メモリ5Mに格納する(S6)。つまり、絞込みキーが関連語に含まれていない場合があるので、上記和集合に対して、各語の間の親密度を算出する。
Next, the
たとえば、次のようにして、親密度を計算する。 For example, the intimacy is calculated as follows.
まず、たとえば図2に示す検索ログのURL欄に記載されている複数のURLのうちで、上記分類されたURLを見つけ、この見つけたURLが記載されている行における検索語を見つける。各URLの集合において、上記分類されたURLの全てについて、検索語の使用回数または使用人数を集計する。この使用回数、または使用人数の値を用いて、たとえば、語Aと語Bとの間における親密度RABを、次の式(2)によって算出する。 First, for example, among the plurality of URLs described in the URL column of the search log shown in FIG. 2, the classified URL is found, and the search word in the line in which the found URL is described is found. In each set of URLs, the number of times the search word is used or the number of users is totaled for all the classified URLs. For example, the familiarity R AB between the word A and the word B is calculated by the following equation (2) using the number of times of use or the number of users.
ただし、絞り込みキーの語が、ステップS3で抽出したログのうちで、URL欄が記録されているが、検索語が1つも記載されていない場合は、絞り込みキーと関連語との親密度が0であるとする。 However, in the case where the URL column is recorded in the log extracted in step S3 as the word of the refinement key, but no search term is described, the closeness between the refinement key and the related word is 0. Suppose that
プロファイル作成部6は、ステップS6で算出した親密度を用い、絞り込みキーと各語との親密度に基づいて、プロファイルを生成し、この生成されたプロファイルを、メモリ6Mに格納する(S7)。プロファイルを生成する場合、たとえば、絞り込みキーの語と、予め設定した閾値よりも大きな関連度を具備する語のリスト、または、関連度の大きいものから予め設定した個数の語のリストを、プロファイルとしてもよい。
The
また、プロファイルを生成する場合、上記予め設定した閾値よりも大きな関連度を具備する語のリスト中の語との間で親密度が高い語によって、プロファイルを生成するようにしてもよい。さらに、「語とともに、主キーとの関連度の数値、絞り込みキーとの親密度の数値をも、プロファイルに含めるようにしてもよい。また、語と主キーとの関連度の数値や、絞り込みキーとの親密度の数値によって算出される所定の関数値を、プロファイルに含めるようにしてもよい。 Further, when generating a profile, the profile may be generated using a word having a high familiarity with a word in the word list having a degree of association greater than the preset threshold value. In addition, the profile may include the numerical value of the degree of relevance with the primary key and the degree of closeness with the refinement key. Also, the numeric value of the degree of association between the word and the primary key, A predetermined function value calculated by a numerical value of the familiarity with the key may be included in the profile.
上記実施例によれば、ユーザは、分野を特定する主キーと、その分野の特定の情報に限定するための絞り込みキーとを入力するだけで、プロファイルを生成することができ、しかも、プロファイルを構成しているキーワード集合が適切である。 According to the above-described embodiment, the user can generate a profile only by inputting a primary key for specifying a field and a narrow-down key for limiting to specific information of the field. The configured keyword set is appropriate.
なお、上記処理を、情報フィルタリング用プロファイル作成方法プログラムとして把握することができる。 The above processing can be grasped as an information filtering profile creation method program.
つまり、上記実施例は、所定の検索ログを使用して、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイルを作成する場合において、情報分野を特定するためのキーワードである主キーに基づいて、上記所定の検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出手順と、上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、主キーに関連する語を選出し、メモリに格納する関連語選出手順と、上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類手順と、上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出手順と、上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成手順とをコンピュータに実行させるプログラムの例である。 That is, in the above embodiment, when creating an information filtering profile for creating an information filtering profile using a predetermined search log, the above-described embodiment is based on a primary key that is a keyword for specifying an information field. From the predetermined search log, extract the search log and calculate the degree of association between the search log extraction procedure for storing in the memory and a plurality of search terms that appear in the plurality of extracted search logs, A related word selection procedure for selecting a word related to the primary key and storing it in a memory; a classification procedure for classifying URLs that appear and clicked in the extracted search log according to a predetermined criterion and store them in a memory; Based on the classified URLs and the search word information input prior to clicking the URL, the familiarity between the search words is calculated, and the memory Create a profile based on the familiarity calculation procedure to be stored, the familiarity with the refinement key, which is a keyword for further narrowing down the information in the information field specified by the primary key, and the degree of association with the primary key And an example of a program for causing a computer to execute a profile creation procedure stored in a memory.
そして、上記プログラムを、フロッピー(登録商標)ディスク、CD−ROM、光磁気ディスク等の記録媒体に記録し、パソコン等のコンピュータ上で実行するようにしてもよい。
The program may be recorded on a recording medium such as a floppy (registered trademark) disk, CD-ROM, or magneto-optical disk and executed on a computer such as a personal computer.
10…情報ファイリング用プロファイル作成装置、
1…入力部、
2…ログ抽出部、
3…関連語選出部、
4…分類部、
5…親密度算出部、
6…プロファイル作成部。
10. Information filing profile creation device,
1 ... input part,
2 ... Log extraction part,
3 ... related word selection department,
4 ... Classification part,
5 ... Intimacy calculation unit,
6: Profile creation unit.
Claims (3)
情報分野を特定するためのキーワードである主キーと、上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞り込みキーとを入力する入力部と;
上記所定の検索ログの中から、上記主キーに基づいて、検索ログを抽出する検索ログ抽出部と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、この算出された関連度に基づいて、上記主キーと関連する関連語を選出する関連語選出部と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類する分類部と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語とに基づいて、各検索語間の親密度を算出する親密度算出部と;
上記主キーとの関連度と、絞り込みキーとの親密度とに基づいて、プロファイルを作成するプロファイル作成部と;
を有することを特徴とする情報フィルタリング用プロファイル作成装置。 In an information filtering profile creation device for creating an information filtering profile using a predetermined search log,
An input unit for inputting a primary key that is a keyword for specifying an information field and a narrowing key that is a keyword for further narrowing down information in the information field specified by the primary key;
A search log extractor for extracting a search log from the predetermined search log based on the primary key;
The related word selection which calculates the related degree between the several search terms which appeared in the said several extracted search log, and selects the related word relevant to the said primary key based on this calculated related degree Part;
A classification unit that classifies URLs that appear and clicked in the extracted search log according to a predetermined criterion;
A closeness calculation unit for calculating closeness between search terms based on the classified URLs and search terms input prior to clicking the URL;
A profile creation unit that creates a profile based on the degree of association with the primary key and the familiarity with the narrow-down key;
An information filtering profile creation device characterized by comprising:
情報分野を特定するためのキーワードである主キーに基づいて、上記検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出段階と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、メモリに格納する関連語選出段階と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類段階と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出段階と;
上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成段階と;
を有することを特徴とする情報フィルタリング用プロファイル作成方法。 In an information filtering profile creation method for creating an information filtering profile using a predetermined search log,
A search log extraction stage for extracting a search log from the search log based on a primary key which is a keyword for specifying an information field and storing it in a memory;
A related word selection step of calculating a degree of association between a plurality of search terms appearing in the plurality of extracted search logs, and storing the calculation result in a memory;
A classification step of classifying URLs that appear and clicked in the extracted search log according to predetermined criteria and store them in a memory;
A closeness calculating step of calculating the closeness between the search terms based on the classified URLs and the search term information input prior to clicking the URL, and storing the closeness in the memory;
Create a profile based on the familiarity with the key to narrow down the information in the information field specified by the primary key and the degree of association with the primary key, and create a profile to be stored in the memory Stages;
An information filtering profile creation method characterized by comprising:
情報分野を特定するためのキーワードである主キーに基づいて、上記検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出手順と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、主キーに関連する語を選出し、メモリに格納する関連語選出手順と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類手順と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出手順と;
上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成手順と;
をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。 When creating a profile for information filtering that uses a predetermined search log to create a profile for information filtering,
A search log extraction procedure for extracting a search log from the search log based on a primary key which is a keyword for specifying an information field and storing it in a memory;
A related word selection procedure for calculating a degree of association between a plurality of search words appearing in the plurality of extracted search logs, selecting a word related to the primary key, and storing the word in a memory;
A classification procedure for classifying URLs that appear and clicked in the extracted search log according to predetermined criteria and store them in a memory;
A closeness calculation procedure for calculating the closeness between the search terms based on the classified URL and the search term information input prior to clicking the URL, and storing the closeness in the memory;
Create a profile based on the familiarity with the key to narrow down the information in the information field specified by the primary key and the degree of association with the primary key, and create a profile to be stored in the memory Procedures and;
The computer-readable recording medium which recorded the program which makes a computer perform.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003376554A JP2005141449A (en) | 2003-11-06 | 2003-11-06 | Profile generation device for information filtering, profile generation method for information filtering, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003376554A JP2005141449A (en) | 2003-11-06 | 2003-11-06 | Profile generation device for information filtering, profile generation method for information filtering, and recording medium |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005141449A true JP2005141449A (en) | 2005-06-02 |
Family
ID=34687553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003376554A Pending JP2005141449A (en) | 2003-11-06 | 2003-11-06 | Profile generation device for information filtering, profile generation method for information filtering, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005141449A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093403A1 (en) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | Word database creation system |
JP2010067037A (en) * | 2008-09-11 | 2010-03-25 | Kddi R & D Laboratories Inc | Web access control device, web access control system and computer program |
JP2010244341A (en) * | 2009-04-07 | 2010-10-28 | Nippon Telegr & Teleph Corp <Ntt> | Attribute expression acquisition method, device, and program |
WO2013077039A1 (en) * | 2011-11-24 | 2013-05-30 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
CN116069595A (en) * | 2023-04-06 | 2023-05-05 | 华能信息技术有限公司 | Operation and maintenance monitoring method based on log |
-
2003
- 2003-11-06 JP JP2003376554A patent/JP2005141449A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008093403A1 (en) * | 2007-01-30 | 2008-08-07 | Cirius Technologies, Inc. | Word database creation system |
JP2010067037A (en) * | 2008-09-11 | 2010-03-25 | Kddi R & D Laboratories Inc | Web access control device, web access control system and computer program |
JP2010244341A (en) * | 2009-04-07 | 2010-10-28 | Nippon Telegr & Teleph Corp <Ntt> | Attribute expression acquisition method, device, and program |
WO2013077039A1 (en) * | 2011-11-24 | 2013-05-30 | 楽天株式会社 | Information processing device, information processing method, program for information processing device, and recording medium |
JP2013109701A (en) * | 2011-11-24 | 2013-06-06 | Rakuten Inc | Information processing apparatus, information processing method, program for information processing apparatus, and recording medium |
EP2618277A1 (en) * | 2011-11-24 | 2013-07-24 | Rakuten, Inc. | Information processing device, information processing method, program for information processing device, and recording medium |
EP2618277A4 (en) * | 2011-11-24 | 2014-02-12 | Rakuten Inc | Information processing device, information processing method, program for information processing device, and recording medium |
US9418102B2 (en) | 2011-11-24 | 2016-08-16 | Rakuten, Inc. | Information processing device, information processing method, information processing device program, and recording medium |
CN116069595A (en) * | 2023-04-06 | 2023-05-05 | 华能信息技术有限公司 | Operation and maintenance monitoring method based on log |
CN116069595B (en) * | 2023-04-06 | 2023-06-09 | 华能信息技术有限公司 | Operation and maintenance monitoring method based on log |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101118454B1 (en) | Method for domain identification of documents in a document database | |
KR101078864B1 (en) | The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method | |
KR20080031262A (en) | Relationship networks | |
US8019758B2 (en) | Generation of a blended classification model | |
CN106383836B (en) | Attributing actionable attributes to data describing an identity of an individual | |
CA2540034A1 (en) | Information retrieval | |
JP2008234550A (en) | Expert information retrieval device, expert information retrieval method and program | |
JP4636473B2 (en) | LINK INFORMATION EXTRACTION DEVICE, LINK INFORMATION EXTRACTION METHOD, AND PROGRAM | |
KR20080037413A (en) | On line context aware advertising apparatus and method | |
JP2016018286A (en) | Action type discrimination system, action type discrimination method, and action type discrimination program | |
JP2004192398A (en) | Information processor and information processing method, and information processing program | |
JP2003150624A (en) | Information extraction device and information extraction method | |
JP2005141449A (en) | Profile generation device for information filtering, profile generation method for information filtering, and recording medium | |
JP6639040B2 (en) | Information retrieval device and program | |
JP2011100208A (en) | Action estimation device, action estimation method, and action estimation program | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JPH11272709A (en) | File retrieval system | |
JP4813312B2 (en) | Electronic document search method, electronic document search apparatus and program | |
JP2012104051A (en) | Document index creating device | |
JP4705430B2 (en) | Language processing device based on the concept of distance | |
JPH09245046A (en) | Information retrieval device | |
JP5792871B1 (en) | Representative spot output method, representative spot output device, and representative spot output program | |
JP2002117043A (en) | Device and method for document retrieval, and recording medium with recorded program for implementing the same method | |
CN116738065B (en) | Enterprise searching method, device, equipment and storage medium | |
JP3444223B2 (en) | Database registration device |