JP2005141449A - Profile generation device for information filtering, profile generation method for information filtering, and recording medium - Google Patents

Profile generation device for information filtering, profile generation method for information filtering, and recording medium Download PDF

Info

Publication number
JP2005141449A
JP2005141449A JP2003376554A JP2003376554A JP2005141449A JP 2005141449 A JP2005141449 A JP 2005141449A JP 2003376554 A JP2003376554 A JP 2003376554A JP 2003376554 A JP2003376554 A JP 2003376554A JP 2005141449 A JP2005141449 A JP 2005141449A
Authority
JP
Japan
Prior art keywords
search
profile
information
primary key
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003376554A
Other languages
Japanese (ja)
Inventor
Toshiaki Makino
俊朗 牧野
Masayuki Sugizaki
正之 杉崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003376554A priority Critical patent/JP2005141449A/en
Publication of JP2005141449A publication Critical patent/JP2005141449A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a profile generation device or the like for information filtering which can easily generate a profile, when a profile for information filtering system is generated, and also generate a profile for adequate searching. <P>SOLUTION: The profile generating device extracts search logs based on a main key from prescribed search logs, computes the correlations among a plurality of search terms appeared in a plurality of the search logs thus extracted, selects the related terms relating to the main key based on the correlations thus computed, classifies URLs, which appear in the search logs extracted and are clicked, with a prescribed reference, computes the closeness among search terms based on the classified URLs and search terms inputted prior to the click of the URL, and generates the profiles based on the correlations to the main key and the closeness to a narrowing key. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、検索エンジン等の検索ログを用いて、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体に関する。
The present invention relates to an information filtering profile creation apparatus, an information filtering profile creation method, and a recording medium that create an information filtering profile using a search log such as a search engine.

従来の情報フィルタリングシステムでは、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する。   In a conventional information filtering system, specific documents are extracted from a document set stored in a database or a document set collected from a network or the like according to a profile in which keywords and the like are described.

また、従来の情報フィルタリングシステムにおいて、プロファイルを、人手で作成している。たとえば、@niftyクリッピングサービス(http://www.nifty.com/iguide/clip/)では、ユーザが、検索キーワード等を自分で設定し、プロファイルを作成している。   Moreover, in the conventional information filtering system, the profile is created manually. For example, in @nifty clipping service (http://www.nifty.com/iguide/clip/), a user sets a search keyword or the like and creates a profile.

しかし、検索対象である文書が、大規模で様々な表現を使っている場合、適切なキーワード群を、ユーザが設定することは、極めて困難であり、したがって、フィルタリングした結果に、不適切な文書が含まれることがあり、この場合には、必要な文書を得ることができないことがある。   However, when a document to be searched uses a large scale and various expressions, it is extremely difficult for the user to set an appropriate keyword group. Therefore, an inappropriate document is not included in the filtered result. In this case, a necessary document may not be obtained.

このために、一度、設定したプロファイルに基づいて、フィルタリングし、このフィルタリングの結果の文書について、適切か不適切かを人が判断し、この判断した情報に基づいて、プロファイルを修正する方法が知られている(たとえば、特許文献1参照)。   For this purpose, it is known how to perform filtering based on a set profile once, determine whether the document resulting from the filtering is appropriate or inappropriate, and modify the profile based on the determined information. (For example, refer to Patent Document 1).

しかし、上記従来のプロファイル修正方法は、結果の適不適を判定する手間が膨大であり、しかも、初期プロファイルがある程度適切なものでなければ、最初のフィルタリング結果中に不適切な文書が多過ぎ、適切に修正できない可能性が高い。   However, in the conventional profile correction method, it takes a lot of time to determine whether the result is appropriate, and if the initial profile is not appropriate to some extent, there are too many inappropriate documents in the initial filtering result, There is a high possibility that it cannot be properly corrected.

そこで、適切な初期プロファイルを容易に作成できるようにするには、ユーザが入力したキーワードに基づいて、ユーザが入力したキーワードの関連語集合を自動的に作成し、上記関連語を含めて初期プロファイルとすればよく、この場合、ユーザが入力した初期検索条件に基づいて検索し、この検索結果における上位から一定数のドキュメントの中から、特徴語を抽出するqucry expansionという方法が知られている(たとえば、非特許文献1参照)。
特開2003−157273号公報 Chris Buckley他著“Using Query Zoning and Correlation Within SMART:TREC 5”1996年
Therefore, in order to make it possible to easily create an appropriate initial profile, a related word set of keywords input by the user is automatically created based on the keywords input by the user, and the initial profile including the related words is included. In this case, a method called query expansion is known in which a search is performed based on an initial search condition input by a user, and feature words are extracted from a certain number of documents from the top in the search result ( For example, refer nonpatent literature 1).
JP 2003-157273 A Chris Buckley et al., “Using Query Zoning and Correlation Within SMART: TREC 5” 1996

しかし、上記従来例では、検索結果の上位の文書が、必ずしも目的の文書であるとは限ず、また、文書中に様々な話題が書かれていることがあるので、直接関係ない語も関連語になる可能性がある。   However, in the above conventional example, the high-order document in the search result is not necessarily the target document, and various topics may be written in the document. May become a word.

つまり、上記従来例では、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する情報フィルタリングシステムにおいて、情報フィルタリングシステム用のプロファイルを作成する場合、プロファイル作成の手間がかかるという問題があり、また、適切に検索することができないという問題がある。   That is, in the above-described conventional example, in an information filtering system that extracts specific documents from a document set stored in a database or a document set collected from a network or the like according to a profile in which keywords are described. When creating a profile for an information filtering system, there is a problem that it takes time and effort to create a profile, and there is a problem that an appropriate search cannot be performed.

本発明は、データベースに蓄積されている文書集合、または、ネットワーク等から収集した文書集合の中から、キーワード等が記述されているプロファイルに従って、特定の文書類を抽出する情報フィルタリングシステムにおいて、情報フィルタリングシステム用のプロファイルを作成する場合、プロファイルを容易に作成することができ、また、適切に検索するためにプロファイルを作ることができる情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体を提供することを目的とするものである。
The present invention relates to an information filtering system for extracting specific documents from a document set stored in a database or a document set collected from a network according to a profile in which a keyword or the like is described. When creating a profile for a system, a profile creation device for information filtering, a profile creation method for information filtering, and a recording medium that can easily create a profile and can create a profile for appropriate search are provided. It is intended to provide.

本発明は、所定の検索ログの中から、主キーに基づいて、検索ログを抽出し、この抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、この算出された関連度に基づいて、上記主キーと関連する関連語を選出し、上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、上記分類したURLと、そのURLをクリックするに先立って入力された検索語とに基づいて、各検索語間の親密度を算出し、上記主キーとの関連度と、絞り込みキーとの親密度とに基づいて、プロファイルを作成する。
The present invention extracts a search log based on a primary key from a predetermined search log, calculates a degree of association between a plurality of search terms that appear in the extracted plurality of search logs, Based on the calculated relevance, related words related to the primary key are selected, URLs that appear in the extracted search log and clicked are classified according to a predetermined criterion, the classified URLs, Based on the search terms input prior to clicking the URL, the intimacy between the search terms is calculated, and the profile based on the relevance with the primary key and the intimacy with the refinement key Create

本発明によれば、ユーザが、主キーと絞り込みキーとを入力するだけで、検索ログの情報に基づいて、関連語を選出し、情報フィルタリングシステムのためのプロファイルを自動作成するので、プロファイル作成の手間を軽減することができ、また、適切に検索するためのプロファイルを作ることができるという効果を奏する。
According to the present invention, a user selects a related word based on information in a search log and automatically creates a profile for an information filtering system simply by inputting a primary key and a narrow-down key. It is possible to reduce the time and effort required to create a profile for searching appropriately.

発明を実施するための最良の形態は、以下の実施例である。   The best mode for carrying out the invention is the following examples.

インターネットの検索エンジンの検索ログは、多数のユーザによる検索の記録を保持している。本発明の実施例において、ユーザが入力した検索語と、この検索語によって検索した結果中のURLであって、ユーザがクリックしたURLと、ユーザがクリックした時期情報と、同一ユーザであるかどうかを推定できるユーザIDまたはcookieとが記録されている検索ログを考える。このような検索ログを使用すると、各ユーザの一連の検索動作を追うことができる。   A search log of an Internet search engine holds records of searches by a large number of users. In the embodiment of the present invention, whether or not the search term input by the user, the URL in the search result by the search term, the URL clicked by the user, and the time information clicked by the user are the same user Consider a search log in which a user ID or cookie that can be estimated is recorded. By using such a search log, a series of search operations of each user can be followed.

つまり、一般的に、検索ユーザは、所定の特定の情報を得るために、いろいろなキーワードを入力する傾向がある。そして、極めて近い時間間隔で入力されたキーワードは、互いに関連が深いキーワードであると予想される。また、同一のURLをクリックする際に多数のユーザが使用した複数のキーワードも、相互に関連しているキーワードであると予想される。   That is, in general, a search user tends to input various keywords in order to obtain predetermined specific information. Then, keywords input at extremely close time intervals are expected to be keywords closely related to each other. A plurality of keywords used by a large number of users when clicking on the same URL are also expected to be keywords related to each other.

本発明の実施例は、上記検索行動における上記特徴を利用するものであり、ユーザが入力した主キーに基づいて、検索ログからログを抽出する。つまり、主キーの語を検索語として利用したユーザの検索履歴に基づいて、その語が入力された前後一定期間のログを抽出する。   The embodiment of the present invention uses the above feature in the above search behavior, and extracts the log from the search log based on the primary key input by the user. That is, based on the search history of the user who uses the word of the primary key as a search word, a log for a certain period before and after the word is input is extracted.

次に、抽出したログ中に出現する検索語同士の間における関連度を算出する。この関連度に基づいて、主キーで特定された分野に含まれている関連語を特定する。   Next, the degree of association between the search terms appearing in the extracted log is calculated. Based on the degree of relevance, related words included in the field specified by the primary key are specified.

また、主キーの分野の中で、特定の情報に絞り込むために、抽出したログ中でクリックされたURLを分類し、そのURLをクリックするに先立って入力した検索語間の親密度を算出する。この関連語間で親密度を算出することによって、特定の情報に関する文書中で同時に使われる2つの語が、同時に使用される可能性が高い組み合わせであるか、低い組み合わせであるかを決定する。上記算出された親密度を用いて、ユーザが入力した絞り込みキーとの間で親密度が高いキーワードを選出し、プロファイルを生成する。   In addition, in order to narrow down to specific information in the field of the primary key, the clicked URL is classified in the extracted log, and the closeness between the input search terms is calculated before the URL is clicked. . By calculating the familiarity between the related words, it is determined whether two words used at the same time in a document related to specific information are a combination having a high possibility of being used simultaneously or a combination having a low possibility. Using the calculated familiarity, a keyword having a high familiarity with the narrow-down key input by the user is selected to generate a profile.

図1は、本発明の一実施例である情報フィルタリング用プロファイル作成装置10を示すブロック図である。   FIG. 1 is a block diagram showing an information filtering profile creation apparatus 10 according to an embodiment of the present invention.

フィルタリング用プロファイル作成装置10は、入力部1と、ログ抽出部2と、関連語選出部3と、分類部4と、親密度算出部5と、プロファイル作成部6とを有する。なお、入力部1、ログ抽出部2、関連語選出部3、分類部4、親密度算出部5と、プロファイル作成部6が、それぞれ、メモリ1M、2M、3M、4M、5M、6Mを具備している。   The filtering profile creation apparatus 10 includes an input unit 1, a log extraction unit 2, a related word selection unit 3, a classification unit 4, a closeness calculation unit 5, and a profile creation unit 6. The input unit 1, the log extraction unit 2, the related word selection unit 3, the classification unit 4, the familiarity calculation unit 5, and the profile creation unit 6 include memories 1M, 2M, 3M, 4M, 5M, and 6M, respectively. doing.

入力部1は、ユーザが欲しい情報を特定するために、分野を特性するためのキーワードである主キーと、主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞り込みキーとを入力する。   The input unit 1 includes a primary key that is a keyword for characterizing a field and a narrow-down key that is a keyword for further narrowing down information in the information field specified by the primary key in order to specify information desired by the user. input.

ログ抽出部2は、主キーを検索語として使用したユーザのログのうちで、主キーを使用した時刻の前後一定期間のログを、検索ログから抽出する。   The log extraction unit 2 extracts, from the search log, logs for a certain period before and after the time at which the primary key is used, from among the user logs that use the primary key as a search term.

関連語選出部3は、抽出されたログに含まれているキーワードに基づいて、主キーが使用された時間間隔、主キーの使用人数等に基づいて、関連語を選出する。   The related term selection unit 3 selects related terms based on the time interval in which the primary key is used, the number of people using the primary key, etc., based on the keywords included in the extracted log.

分類部4は、抽出されたログ中のクリック先URLを、所定の基準で分類する。   The classification unit 4 classifies the click destination URL in the extracted log according to a predetermined criterion.

親密度算出部5は、同一分類内のURLをクリックするに先立って使用された検索語は、互いに関係が深いと判断し、各検索語同士の間における親密度を、所定の方法によって算出する。   The familiarity calculation unit 5 determines that the search terms used prior to clicking the URL in the same category are closely related to each other, and calculates the familiarity between the search terms by a predetermined method. .

プロファイル作成部6は、絞り込みキーと、各関連語との間における親密度に基づいて、関連キーワードを決定し、プロファイルを生成する。   The profile creation unit 6 determines a related keyword based on the closeness key and the closeness between each related word, and generates a profile.

図2は、ログ抽出部2が処理する検索ログの一例を示す図である。   FIG. 2 is a diagram illustrating an example of a search log processed by the log extraction unit 2.

図2に示す検索ログの形式は、一例であり、検索時刻と、検索語と、使用ユーザを識別するIDやcookie等の情報と、検索語を使用して検索した結果、クリックされたURLの情報とを含んでいれば、その形式を問わない。また、必ずしも実際のログである必要はなく、実際のログから上記各情報を抽出したリスト等を、検索ログとして使用してもよい。検索語が入力されても、入力された検索語に基づいて検索された結果がクリックされるとは限らず、したがって、検索語が入力された後に、検索結果がクリックされなければ、URL欄は空白である。   The format of the search log shown in FIG. 2 is an example, and a search time, a search word, information such as an ID and cookie for identifying a user, and a URL clicked as a result of searching using the search word are shown. Any format is acceptable as long as it contains information. In addition, it is not necessarily an actual log, and a list obtained by extracting each piece of information from the actual log may be used as a search log. Even if a search term is entered, the search result based on the entered search term is not always clicked. Therefore, if the search result is not clicked after the search term is entered, the URL field is not displayed. It is blank.

次に、情報フィルタリング用プロファイル作成装置10の動作について、説明する。   Next, the operation of the information filtering profile creation device 10 will be described.

図3は、情報フィルタリング用プロファイル作成装置10の動作を示すフローチャートである。   FIG. 3 is a flowchart showing the operation of the information filtering profile creation apparatus 10.

まず、入力部1は、ユーザによる主キーと絞り込みキーとの入力を受け付ける(S1)。この場合、主キー、絞り込みキーが、2つ以上入力されてもよい。この入力された主キー、絞込みキーを、メモリ1Mに格納する。   First, the input unit 1 accepts input of a primary key and a narrow-down key by a user (S1). In this case, two or more primary keys and narrowing keys may be input. The inputted primary key and narrowing key are stored in the memory 1M.

ログ抽出部2は、検索ログ中の検索語を調べ、上記入力された主キーと一致する検索語を見つけ、この見つけられた検索語を入力したユーザIDを調べることによって、主キーのキーワードを使用した人を特定する(S2)。この特定されたユーザを、メモリ2Mに格納する。   The log extraction unit 2 examines a search term in the search log, finds a search term that matches the input primary key, and searches the user ID that entered the found search term, thereby determining the keyword of the primary key. The person who used it is specified (S2). This identified user is stored in the memory 2M.

主キーが複数ある場合、複数の主キーのそれぞれについて、上記主キーを使用したユーザを調べ、その和集合をとり、または、積集合をとる等し、次ステップS3においてログ抽出する場合に、その対象であるユーザを決定する。   When there are a plurality of primary keys, for each of the primary keys, the user who uses the primary key is examined, and the log is extracted in the next step S3 by taking the union or intersection of the sets. The user who is the object is determined.

ログ抽出部2は、ステップS2で決定されたユーザのログのうちで、上記主キーが入力された時刻の前後一定時間内に入力されたログを抽出し、この抽出されたログを、メモリ2Mに格納する(S3)。上記一定時間を予め決める場合、上記主キーが入力された時刻の前の一定時間と、上記主キーが入力された時刻の後の一定時間とが同じである必要はない。また、上記主キーが入力された時刻の前後一定時間内に入力されたログを抽出する際に、URL欄が空白であっても、空白でなくてもよい。   The log extraction unit 2 extracts a log that is input within a certain period of time before and after the time when the primary key is input, from among the user logs determined in step S2, and stores the extracted log in the memory 2M. (S3). When the predetermined time is determined in advance, the predetermined time before the time when the primary key is input and the predetermined time after the time when the primary key is input need not be the same. Further, when extracting a log input within a certain time before and after the time when the primary key is input, the URL field may or may not be blank.

関連語抽出部3は、ステップS3で抽出されたログ中の検索語について、関連度を算出し、所定の閾値以上の関連度を持つ語を関連語として選出し、この選出された関連語を、メモリ3Mに格納する(S4)。   The related word extraction unit 3 calculates a relevance level for the search words in the log extracted in step S3, selects words having a relevance level equal to or higher than a predetermined threshold as related words, and selects the selected related words. And stored in the memory 3M (S4).

関連度を算出する場合、各検索語の出現回数、各検索語の使用人数(ユーザIDで特定されるユーザの人数)を用いて、関連度を算出するようにしてもよい。つまり、各ユーザが、主キーを入力した時刻と各検索語を入力した時刻との最小時間間隔tの関数f(t)に基づいて、求められた値を、全てのユーザに関して和をとった値である次の式(1)   When calculating the degree of association, the degree of association may be calculated using the number of appearances of each search term and the number of users of each search term (the number of users specified by the user ID). That is, based on the function f (t) of the minimum time interval t between the time when each user inputs the primary key and the time when each search word is input, the obtained values are summed for all users. The following expression (1) that is a value

Figure 2005141449
によって、関連度を算出するようにしてもよい。
Figure 2005141449
Thus, the degree of association may be calculated.

なお、uは、ユーザの数であり、mは、関連度を計算している対象の検索語を利用したユーザの数である。また、所定の2つの語に付与される関連度が、1つであっても、複数であってもよい。上記式(1)以外の式によって、関連度を計算するようにしてもよく、関連度を計算する式が複数であれば、所定の2つの語に付与される関連度が複数になり、これら複数の関連度毎に閾値を設定し、全ての関連度が閾値以上であるものを、関連語とする。または、閾値以上の関連度を持つ検索語を、関連語とするようにしてもよい。   Note that u is the number of users, and m is the number of users using the target search term for which the relevance is being calculated. Further, the degree of association given to two predetermined words may be one or plural. The degree of association may be calculated by an expression other than the above expression (1). If there are a plurality of expressions for calculating the degree of association, the degree of association given to two predetermined words becomes plural, A threshold value is set for each of a plurality of relevance levels, and all relevance levels are equal to or higher than the threshold value. Alternatively, a search term having a relevance degree equal to or higher than a threshold may be used as a related term.

分類部4は、ステップS3で抽出されたログ中のURLを分類し、この分類されたURLを、メモリ4Mに格納する(S5)。URLを分類する際、URL欄が空であるログを対象とはしない。   The classification unit 4 classifies the URL in the log extracted in step S3 and stores the classified URL in the memory 4M (S5). When classifying URLs, logs whose URL field is empty are not targeted.

URLを分類する場合、同一URLをまとめることによってURLを分類するようにしてもよく、また、同一ドメインをまとめることによって、URLを分類するようにしてもよい。さらに、URLを分類する場合、URLのドキュメントに関する情報を、ネットワークから収集し、または、検索エンジンのインデックス等から抽出し、単語の出現頻度ベクトルを作り、その余弦等の値を用い、URLを分類するようにしてもよい。   When classifying URLs, URLs may be classified by grouping the same URLs, or URLs may be grouped by grouping the same domains. Further, when classifying URLs, information on URL documents is collected from a network or extracted from a search engine index or the like, a word appearance frequency vector is created, and values such as cosines are used to classify URLs. You may make it do.

次に、親密度算出部5は、ステップS5で分類されたURLをクリックするに先立って入力された検索語のうちで、ステップS4で選出された関連語と、絞り込みキーとの和集合に対して、各語の間の親密度を算出し、関連語間の親密度を、メモリ5Mに格納する(S6)。つまり、絞込みキーが関連語に含まれていない場合があるので、上記和集合に対して、各語の間の親密度を算出する。   Next, the familiarity calculation unit 5 calculates the union of the related words selected in step S4 and the refinement key among the search words input prior to clicking the URL classified in step S5. Then, the familiarity between each word is calculated, and the familiarity between related words is stored in the memory 5M (S6). In other words, since the narrow-down key may not be included in the related word, the closeness between the words is calculated for the union.

たとえば、次のようにして、親密度を計算する。   For example, the intimacy is calculated as follows.

まず、たとえば図2に示す検索ログのURL欄に記載されている複数のURLのうちで、上記分類されたURLを見つけ、この見つけたURLが記載されている行における検索語を見つける。各URLの集合において、上記分類されたURLの全てについて、検索語の使用回数または使用人数を集計する。この使用回数、または使用人数の値を用いて、たとえば、語Aと語Bとの間における親密度RABを、次の式(2)によって算出する。 First, for example, among the plurality of URLs described in the URL column of the search log shown in FIG. 2, the classified URL is found, and the search word in the line in which the found URL is described is found. In each set of URLs, the number of times the search word is used or the number of users is totaled for all the classified URLs. For example, the familiarity R AB between the word A and the word B is calculated by the following equation (2) using the number of times of use or the number of users.

Figure 2005141449
なお、iは、分類されたURLの集合を表し、mは、集合の数である。また、N、Nは、それぞれステップS3で抽出されたログ内で、語A、語Bを、検索語として使用した検索結果を、クリックした人数または回数(URL欄にURLが記載されている人数または回数)である。nAi、nBiは、URLの集合iに属するURLをクリックするに先立って入力された検索語として、語A、語Bを使用した使用人数(または、使用回数)である。
Figure 2005141449
Note that i represents a set of classified URLs, and m is the number of sets. In addition, N A and N B are the number of people who clicked the search results using the words A and B as search words in the log extracted in step S3, respectively, or the number of clicks (URL is described in the URL column). Number or number of people). n Ai and n Bi are the number of people using the word A and the word B (or the number of times of use) as search terms input prior to clicking the URL belonging to the URL set i.

ただし、絞り込みキーの語が、ステップS3で抽出したログのうちで、URL欄が記録されているが、検索語が1つも記載されていない場合は、絞り込みキーと関連語との親密度が0であるとする。   However, in the case where the URL column is recorded in the log extracted in step S3 as the word of the refinement key, but no search term is described, the closeness between the refinement key and the related word is 0. Suppose that

プロファイル作成部6は、ステップS6で算出した親密度を用い、絞り込みキーと各語との親密度に基づいて、プロファイルを生成し、この生成されたプロファイルを、メモリ6Mに格納する(S7)。プロファイルを生成する場合、たとえば、絞り込みキーの語と、予め設定した閾値よりも大きな関連度を具備する語のリスト、または、関連度の大きいものから予め設定した個数の語のリストを、プロファイルとしてもよい。   The profile creation unit 6 uses the familiarity calculated in step S6 to generate a profile based on the familiarity between the narrow-down key and each word, and stores the generated profile in the memory 6M (S7). When generating a profile, for example, a word of a refinement key and a list of words having a degree of association greater than a preset threshold, or a list of words of a preset number from those having a high degree of association are used as a profile. Also good.

また、プロファイルを生成する場合、上記予め設定した閾値よりも大きな関連度を具備する語のリスト中の語との間で親密度が高い語によって、プロファイルを生成するようにしてもよい。さらに、「語とともに、主キーとの関連度の数値、絞り込みキーとの親密度の数値をも、プロファイルに含めるようにしてもよい。また、語と主キーとの関連度の数値や、絞り込みキーとの親密度の数値によって算出される所定の関数値を、プロファイルに含めるようにしてもよい。   Further, when generating a profile, the profile may be generated using a word having a high familiarity with a word in the word list having a degree of association greater than the preset threshold value. In addition, the profile may include the numerical value of the degree of relevance with the primary key and the degree of closeness with the refinement key. Also, the numeric value of the degree of association between the word and the primary key, A predetermined function value calculated by a numerical value of the familiarity with the key may be included in the profile.

上記実施例によれば、ユーザは、分野を特定する主キーと、その分野の特定の情報に限定するための絞り込みキーとを入力するだけで、プロファイルを生成することができ、しかも、プロファイルを構成しているキーワード集合が適切である。   According to the above-described embodiment, the user can generate a profile only by inputting a primary key for specifying a field and a narrow-down key for limiting to specific information of the field. The configured keyword set is appropriate.

なお、上記処理を、情報フィルタリング用プロファイル作成方法プログラムとして把握することができる。   The above processing can be grasped as an information filtering profile creation method program.

つまり、上記実施例は、所定の検索ログを使用して、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイルを作成する場合において、情報分野を特定するためのキーワードである主キーに基づいて、上記所定の検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出手順と、上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、主キーに関連する語を選出し、メモリに格納する関連語選出手順と、上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類手順と、上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出手順と、上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成手順とをコンピュータに実行させるプログラムの例である。   That is, in the above embodiment, when creating an information filtering profile for creating an information filtering profile using a predetermined search log, the above-described embodiment is based on a primary key that is a keyword for specifying an information field. From the predetermined search log, extract the search log and calculate the degree of association between the search log extraction procedure for storing in the memory and a plurality of search terms that appear in the plurality of extracted search logs, A related word selection procedure for selecting a word related to the primary key and storing it in a memory; a classification procedure for classifying URLs that appear and clicked in the extracted search log according to a predetermined criterion and store them in a memory; Based on the classified URLs and the search word information input prior to clicking the URL, the familiarity between the search words is calculated, and the memory Create a profile based on the familiarity calculation procedure to be stored, the familiarity with the refinement key, which is a keyword for further narrowing down the information in the information field specified by the primary key, and the degree of association with the primary key And an example of a program for causing a computer to execute a profile creation procedure stored in a memory.

そして、上記プログラムを、フロッピー(登録商標)ディスク、CD−ROM、光磁気ディスク等の記録媒体に記録し、パソコン等のコンピュータ上で実行するようにしてもよい。
The program may be recorded on a recording medium such as a floppy (registered trademark) disk, CD-ROM, or magneto-optical disk and executed on a computer such as a personal computer.

本発明の一実施例である情報フィルタリング用プロファイル作成装置10を示すブロック図である。1 is a block diagram showing an information filtering profile creation device 10 according to an embodiment of the present invention. ログ抽出部2が処理する検索ログの一例の一部である。It is a part of an example of the search log which the log extraction part 2 processes. 情報フィルタリング用プロファイル作成装置10の動作を示すフローチャートである。4 is a flowchart showing the operation of the information filtering profile creation device 10.

符号の説明Explanation of symbols

10…情報ファイリング用プロファイル作成装置、
1…入力部、
2…ログ抽出部、
3…関連語選出部、
4…分類部、
5…親密度算出部、
6…プロファイル作成部。
10. Information filing profile creation device,
1 ... input part,
2 ... Log extraction part,
3 ... related word selection department,
4 ... Classification part,
5 ... Intimacy calculation unit,
6: Profile creation unit.

Claims (3)

所定の検索ログを使用して、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイル作成装置において、
情報分野を特定するためのキーワードである主キーと、上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞り込みキーとを入力する入力部と;
上記所定の検索ログの中から、上記主キーに基づいて、検索ログを抽出する検索ログ抽出部と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、この算出された関連度に基づいて、上記主キーと関連する関連語を選出する関連語選出部と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類する分類部と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語とに基づいて、各検索語間の親密度を算出する親密度算出部と;
上記主キーとの関連度と、絞り込みキーとの親密度とに基づいて、プロファイルを作成するプロファイル作成部と;
を有することを特徴とする情報フィルタリング用プロファイル作成装置。
In an information filtering profile creation device for creating an information filtering profile using a predetermined search log,
An input unit for inputting a primary key that is a keyword for specifying an information field and a narrowing key that is a keyword for further narrowing down information in the information field specified by the primary key;
A search log extractor for extracting a search log from the predetermined search log based on the primary key;
The related word selection which calculates the related degree between the several search terms which appeared in the said several extracted search log, and selects the related word relevant to the said primary key based on this calculated related degree Part;
A classification unit that classifies URLs that appear and clicked in the extracted search log according to a predetermined criterion;
A closeness calculation unit for calculating closeness between search terms based on the classified URLs and search terms input prior to clicking the URL;
A profile creation unit that creates a profile based on the degree of association with the primary key and the familiarity with the narrow-down key;
An information filtering profile creation device characterized by comprising:
所定の検索ログを使用して、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイル作成方法において、
情報分野を特定するためのキーワードである主キーに基づいて、上記検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出段階と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、メモリに格納する関連語選出段階と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類段階と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出段階と;
上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成段階と;
を有することを特徴とする情報フィルタリング用プロファイル作成方法。
In an information filtering profile creation method for creating an information filtering profile using a predetermined search log,
A search log extraction stage for extracting a search log from the search log based on a primary key which is a keyword for specifying an information field and storing it in a memory;
A related word selection step of calculating a degree of association between a plurality of search terms appearing in the plurality of extracted search logs, and storing the calculation result in a memory;
A classification step of classifying URLs that appear and clicked in the extracted search log according to predetermined criteria and store them in a memory;
A closeness calculating step of calculating the closeness between the search terms based on the classified URLs and the search term information input prior to clicking the URL, and storing the closeness in the memory;
Create a profile based on the familiarity with the key to narrow down the information in the information field specified by the primary key and the degree of association with the primary key, and create a profile to be stored in the memory Stages;
An information filtering profile creation method characterized by comprising:
所定の検索ログを使用して、情報フィルタリング用プロファイルを作成する情報フィルタリング用プロファイルを作成する場合において、
情報分野を特定するためのキーワードである主キーに基づいて、上記検索ログの中から、検索ログを抽出し、メモリに格納する検索ログ抽出手順と;
上記抽出した複数の検索ログの中に出現した複数の検索語同士の間における関連度を算出し、主キーに関連する語を選出し、メモリに格納する関連語選出手順と;
上記抽出した検索ログ中に出現し、クリックしたURLを、所定の基準によって分類し、メモリに格納する分類手順と;
上記分類したURLと、そのURLをクリックするに先立って入力された検索語の情報とに基づいて、各検索語間の親密度を算出し、メモリに格納する親密度算出手順と;
上記主キーによって特定された情報分野における情報をさらに絞り込むためのキーワードである絞込みキーとの親密度と、上記主キーとの関連度とに基づいて、プロファイルを作成し、メモリに格納するプロファイル作成手順と;
をコンピュータに実行させるプログラムを記録したコンピュータ読取可能な記録媒体。
When creating a profile for information filtering that uses a predetermined search log to create a profile for information filtering,
A search log extraction procedure for extracting a search log from the search log based on a primary key which is a keyword for specifying an information field and storing it in a memory;
A related word selection procedure for calculating a degree of association between a plurality of search words appearing in the plurality of extracted search logs, selecting a word related to the primary key, and storing the word in a memory;
A classification procedure for classifying URLs that appear and clicked in the extracted search log according to predetermined criteria and store them in a memory;
A closeness calculation procedure for calculating the closeness between the search terms based on the classified URL and the search term information input prior to clicking the URL, and storing the closeness in the memory;
Create a profile based on the familiarity with the key to narrow down the information in the information field specified by the primary key and the degree of association with the primary key, and create a profile to be stored in the memory Procedures and;
The computer-readable recording medium which recorded the program which makes a computer perform.
JP2003376554A 2003-11-06 2003-11-06 Profile generation device for information filtering, profile generation method for information filtering, and recording medium Pending JP2005141449A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003376554A JP2005141449A (en) 2003-11-06 2003-11-06 Profile generation device for information filtering, profile generation method for information filtering, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003376554A JP2005141449A (en) 2003-11-06 2003-11-06 Profile generation device for information filtering, profile generation method for information filtering, and recording medium

Publications (1)

Publication Number Publication Date
JP2005141449A true JP2005141449A (en) 2005-06-02

Family

ID=34687553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003376554A Pending JP2005141449A (en) 2003-11-06 2003-11-06 Profile generation device for information filtering, profile generation method for information filtering, and recording medium

Country Status (1)

Country Link
JP (1) JP2005141449A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093403A1 (en) * 2007-01-30 2008-08-07 Cirius Technologies, Inc. Word database creation system
JP2010067037A (en) * 2008-09-11 2010-03-25 Kddi R & D Laboratories Inc Web access control device, web access control system and computer program
JP2010244341A (en) * 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> Attribute expression acquisition method, device, and program
WO2013077039A1 (en) * 2011-11-24 2013-05-30 楽天株式会社 Information processing device, information processing method, program for information processing device, and recording medium
CN116069595A (en) * 2023-04-06 2023-05-05 华能信息技术有限公司 Operation and maintenance monitoring method based on log

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008093403A1 (en) * 2007-01-30 2008-08-07 Cirius Technologies, Inc. Word database creation system
JP2010067037A (en) * 2008-09-11 2010-03-25 Kddi R & D Laboratories Inc Web access control device, web access control system and computer program
JP2010244341A (en) * 2009-04-07 2010-10-28 Nippon Telegr & Teleph Corp <Ntt> Attribute expression acquisition method, device, and program
WO2013077039A1 (en) * 2011-11-24 2013-05-30 楽天株式会社 Information processing device, information processing method, program for information processing device, and recording medium
JP2013109701A (en) * 2011-11-24 2013-06-06 Rakuten Inc Information processing apparatus, information processing method, program for information processing apparatus, and recording medium
EP2618277A1 (en) * 2011-11-24 2013-07-24 Rakuten, Inc. Information processing device, information processing method, program for information processing device, and recording medium
EP2618277A4 (en) * 2011-11-24 2014-02-12 Rakuten Inc Information processing device, information processing method, program for information processing device, and recording medium
US9418102B2 (en) 2011-11-24 2016-08-16 Rakuten, Inc. Information processing device, information processing method, information processing device program, and recording medium
CN116069595A (en) * 2023-04-06 2023-05-05 华能信息技术有限公司 Operation and maintenance monitoring method based on log
CN116069595B (en) * 2023-04-06 2023-06-09 华能信息技术有限公司 Operation and maintenance monitoring method based on log

Similar Documents

Publication Publication Date Title
KR101118454B1 (en) Method for domain identification of documents in a document database
KR101078864B1 (en) The query/document topic category transition analysis system and method and the query expansion based information retrieval system and method
KR20080031262A (en) Relationship networks
US8019758B2 (en) Generation of a blended classification model
CN106383836B (en) Attributing actionable attributes to data describing an identity of an individual
CA2540034A1 (en) Information retrieval
JP2008234550A (en) Expert information retrieval device, expert information retrieval method and program
JP4636473B2 (en) LINK INFORMATION EXTRACTION DEVICE, LINK INFORMATION EXTRACTION METHOD, AND PROGRAM
KR20080037413A (en) On line context aware advertising apparatus and method
JP2016018286A (en) Action type discrimination system, action type discrimination method, and action type discrimination program
JP2004192398A (en) Information processor and information processing method, and information processing program
JP2003150624A (en) Information extraction device and information extraction method
JP2005141449A (en) Profile generation device for information filtering, profile generation method for information filtering, and recording medium
JP6639040B2 (en) Information retrieval device and program
JP2011100208A (en) Action estimation device, action estimation method, and action estimation program
JP5127553B2 (en) Information processing apparatus, information processing method, program, and recording medium
JPH11272709A (en) File retrieval system
JP4813312B2 (en) Electronic document search method, electronic document search apparatus and program
JP2012104051A (en) Document index creating device
JP4705430B2 (en) Language processing device based on the concept of distance
JPH09245046A (en) Information retrieval device
JP5792871B1 (en) Representative spot output method, representative spot output device, and representative spot output program
JP2002117043A (en) Device and method for document retrieval, and recording medium with recorded program for implementing the same method
CN116738065B (en) Enterprise searching method, device, equipment and storage medium
JP3444223B2 (en) Database registration device