JP4535765B2 - Content navigation program, content navigation method, and content navigation apparatus - Google Patents
Content navigation program, content navigation method, and content navigation apparatus Download PDFInfo
- Publication number
- JP4535765B2 JP4535765B2 JP2004128925A JP2004128925A JP4535765B2 JP 4535765 B2 JP4535765 B2 JP 4535765B2 JP 2004128925 A JP2004128925 A JP 2004128925A JP 2004128925 A JP2004128925 A JP 2004128925A JP 4535765 B2 JP4535765 B2 JP 4535765B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- content
- search
- word
- identification information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は情報探索を支援するためのコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関し、特にユーザが選択したキーワードに関連するキーワードを提示することができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置に関する。 The present invention relates to a content navigation program, a content navigation method, and a content navigation device for supporting information search, and in particular, a content navigation program, a content navigation method, and a content navigation device that can present a keyword related to a keyword selected by a user. About.
FTTH(Fiber To The Home)、ADSL(Asymmetric Digital Subscriber Line)などの高帯域ネットワーク環境の整備によって、インターネットが人々の生活に欠かせないインフラとなっている。そんな中、インターネット上の大量のコンテンツの中から情報を探し出す技術は必須となっており、そのような機能をユーザに提供するサービスプロバイダも数多く存在する。 With the development of high-bandwidth network environments such as FTTH (Fiber To The Home) and ADSL (Asymmetric Digital Subscriber Line), the Internet has become an indispensable infrastructure for people's lives. Under such circumstances, a technique for finding information from a large amount of contents on the Internet is essential, and there are many service providers that provide such functions to users.
情報の検索機能は、多くのポータルサイトで提供されている。たとえば、情報を階層構造に分類してユーザによる情報探索を支援するサービス(ディレクトリ検索)や、入力されたキーワードに応じた情報をリストアップするサービス(キーワード検索)がある。これらのサービスは、多くのユーザに利用されている。 Information search functions are provided on many portal sites. For example, there is a service (directory search) that supports information search by a user by classifying information into a hierarchical structure, and a service (keyword search) that lists information according to an input keyword. These services are used by many users.
なお、インターネット上の情報量は膨大である。そのため、キーワード検索では、入力されたキーワードに合致する情報の数も大量となってしまう場合がある。そこで、情報間の引用関係に基づいて各情報のランキングを行い、ランクの上位の情報から優先的にリストアップする技術が提案されている(たとえば、特許文献1参照)。 The amount of information on the Internet is enormous. Therefore, in the keyword search, the number of pieces of information that match the input keyword may be large. In view of this, a technique has been proposed in which each information is ranked based on the citation relationship between the information, and the information is preferentially listed from the information of higher rank (for example, see Patent Document 1).
また、キーワード検索を行う際には、適当なキーワードを入力することが重要となる。そこで、同様の意味を有する複数のキーワードで予め同義語辞書を作成しておけば、ユーザが入力したキーワードを同義語で補完して、漏れのない検索を行うことができる。そこで、単語同士の関連度を定義した同義語辞書を自動作成する技術も考えられている(たとえば、特許文献2参照)。
現在、テレビや新聞にならぶ情報発信メディアとしてのインターネットの価値が高まる中、個人のWebページ、BLOG(ウェブログ)や掲示板を経て話題やトレンドが形成される例も少なくない。電子商取引を行うWebサイトの運用者などはネット上のユーザの注目や興味をいち早く捕らえマーケティングに活かすことが重要である。 Currently, as the value of the Internet as an information transmission medium that follows TV and newspapers is increasing, there are not a few examples in which topics and trends are formed via personal Web pages, BLOGs (Web logs), and bulletin boards. It is important for operators of websites that conduct electronic commerce to quickly capture the attention and interest of users on the Internet and apply them to marketing.
しかし、日々公開される新たなコンテンツの内容を検索結果に反映させるための効率的な方法がないという問題がある。たとえば、ディレクトリ検索では人手によって情報の分類を行うため、膨大なコンテンツに対するディレクトリのメンテナンスが追いつかない。 However, there is a problem that there is no efficient method for reflecting the contents of new contents that are released every day in search results. For example, since directory search manually classifies information, directory maintenance for enormous contents cannot keep up.
また、キーワード検索では、求める情報に対する適当な検索キーワードを入力しないと最適な結果が得られない。たとえば、最新技術が開発されたとき、その技術に対して新たな名称が付けられる。その最新技術に関するコンテンツをインターネットから検索するとき、その最新技術に付けられた名称をユーザがキーワードとして入力しないと、目的の情報が膨大な量の無関係の情報に埋もれてしまう可能性がある。 Also, in keyword search, an optimum result cannot be obtained unless an appropriate search keyword is input for the information to be sought. For example, when the latest technology is developed, a new name is given to the technology. When searching for contents related to the latest technology from the Internet, if the user does not input the name assigned to the latest technology as a keyword, the target information may be buried in a huge amount of irrelevant information.
なお、上記特許文献1では、情報間の引用関係で各情報のランキングを行い、有用な情報が優先的に提示されるようにしている。しかしながら、公開されて間もないコンテンツは、そのコンテンツが重要なものであっても、他のコンテンツからの引用が少ないことが予想される。この場合、そのコンテンツがキーワード検索に合致しても、優先順位が低くなり、ユーザが見落とす可能性が高くなる。
In the above-mentioned
また、上記特許文献2では、ユーザが入力した単語のみを用いて単語同士の関連度を定義しているため、検索結果として得られる情報が有効に利用されていない。
本発明はこのような点に鑑みてなされたものであり、現在多くのユーザが関心を寄せている情報の検索を容易に行うことができるコンテンツナビゲーションプログラム、コンテンツナビゲーション方法及びコンテンツナビゲーション装置を提供することを目的とする。
Moreover, in the said
The present invention has been made in view of these points, and provides a content navigation program, a content navigation method, and a content navigation apparatus that can easily search for information that is currently of interest to many users. For the purpose.
本発明では上記課題を解決するために、図1に示すようなコンテンツの検索を支援するためのコンテンツナビゲーションプログラムが提供される。本発明に係るコンテンツナビゲーションプログラムをコンピュータに実行させると、コンピュータが以下の機能を実現する。 In order to solve the above-described problems, the present invention provides a content navigation program for supporting content search as shown in FIG. When the computer executes the content navigation program according to the present invention, the computer realizes the following functions.
格納手段1aは、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、検索用のキーワード6aと選択されたコンテンツ7bの識別情報とを関連付けて記憶手段1bに格納する。グループ化手段1cは、キーワード6aと選択されたコンテンツ7bとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。関連キーワード出力手段1dは、任意の代表キーワード8aが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを出力する。
Each time the user performs a search based on the
このようなコンテンツナビゲーションプログラムを実行するコンピュータによれば、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、格納手段1aにより、検索用のキーワード6aと選択されたコンテンツ7bとが、関連付けて記憶手段1bに格納される。その後、グループ化手段1cにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード8aが選択されると、関連キーワード出力手段1dにより、選択された代表キーワードと同じグループに属する他のキーワードが出力される。
According to the computer that executes such a content navigation program, whenever the user performs a search based on the
また、上記課題を解決するために、コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、ことを特徴とするコンテンツナビゲーション方法が提供される。 In addition, in order to solve the above-mentioned problem, in a content navigation method for assisting a search for content by a computer, a storage unit performs a search based on a keyword and selects arbitrary content from search results. The search keyword and the identification information of the selected content are associated with each other and stored in the storage means, and the grouping means is configured to store the storage means based on the correspondence between the keyword and the selected content. A plurality of related keywords are grouped, and when the related keyword output means selects an arbitrary representative keyword, the same group as the selected representative keyword The other content keyword belonging to is output. Geshon method is provided.
このようなコンテンツナビゲーション方法によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。 According to such a content navigation method, every time a user performs a search based on a keyword and selects any content from the search results, the storage keyword associates the search keyword with the selected content. Stored in the storage means. Thereafter, the grouping means determines the relevance between the keywords stored in the storage means based on the correspondence between the keyword and the selected content, and a plurality of related keywords are grouped. When an arbitrary representative keyword is selected, the related keyword output unit outputs another keyword belonging to the same group as the selected representative keyword.
また、上記課題を解決するために、コンテンツの検索を支援するためのコンテンツナビゲーション装置において、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、を有することを特徴とするコンテンツナビゲーション装置が提供される。 Further, in order to solve the above problem, in the content navigation device for supporting content search, whenever a user performs a search based on a keyword and selects any content from the search results, the search Based on the correspondence between the keyword and the selected content, the storage means for associating the keyword with the identification information of the selected content and storing it in the storage means, between the keywords stored in the storage means Grouping means for determining relevance and grouping a plurality of related keywords, and when an arbitrary representative keyword is selected, another keyword belonging to the same group as the selected representative keyword is output And a related keyword output means. There is provided.
このようなコンテンツナビゲーション装置によれば、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、格納手段により、検索用のキーワードと選択されたコンテンツとが、関連付けて記憶手段に格納される。その後、グループ化手段により、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段に格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワードが選択されると、関連キーワード出力手段により、選択された代表キーワードと同じグループに属する他のキーワードが出力される。 According to such a content navigation apparatus, every time a user performs a search based on a keyword and selects any content from the search results, the storage keyword associates the search keyword with the selected content. Stored in the storage means. Thereafter, the grouping means determines the relevance between the keywords stored in the storage means based on the correspondence between the keyword and the selected content, and a plurality of related keywords are grouped. When an arbitrary representative keyword is selected, the related keyword output unit outputs another keyword belonging to the same group as the selected representative keyword.
以上説明したように本発明では、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにした。これにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士がグループ化される。そして、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。 As described above, in the present invention, keywords are grouped based on the relationship between the keywords and the content selected by the user from the search result based on the keywords. As a result, keywords related to content that many users are currently interested in are grouped together. Then, by outputting other keywords in the same group as the selected representative keyword, the keywords input by other users with similar interest targets can be presented to the user.
以下、本発明の実施の形態を図面を参照して説明する。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
First, the outline of the invention applied to the embodiment will be described, and then the specific contents of the embodiment will be described.
図1は、実施の形態に適用される発明の概念図である。本発明に係るコンテンツナビゲーション装置1は、キーワード検索を行うユーザが使用するクライアント2、検索サーバ3、コンテンツサーバ4、およびコンテンツナビゲーションのサービスを利用するユーザが使用するクライアント5に接続されている。コンテンツナビゲーション装置1は、格納手段1a、記憶手段1b、グループ化手段1c、及び関連キーワード出力手段1dを有している。
FIG. 1 is a conceptual diagram of the invention applied to the embodiment. The
格納手段1aは、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、検索用のキーワード6aと選択されたコンテンツ7bとを関連付けて記憶手段1bに格納する。具体的には、クライアント2からキーワード6aが出力されると、検索サーバ3によりキーワード6aに基づく検索が行われる。そして、検索結果6bがクライアント2に返される。クライアント2を使用するユーザが、検索結果6bの中から任意のコンテンツを選択すると、コンテンツ取得要求7aがコンテンツサーバ4に対して出力される。コンテンツサーバ4は、コンテンツ取得要求7aに応じたコンテンツ7bをクライアント2に返す。このとき、格納手段1aは、キーワード6aとコンテンツ取得要求7aで示されるコンテンツ7bの識別情報を採取し、それらを関連付けて記憶手段1bに格納する。
Each time the user performs a search based on the
グループ化手段1cは、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。たとえば、グループ化手段1cは、関連付けられたコンテンツが共通するキーワード同士をグループ化する。具体的には、グループ化手段1cは、2つのキーワードを比較したとき、共通して関連付けられているコンテンツの数が所定値以上の場合、2つのキーワードをグループ化することができる。さらに、グループ化手段1cは、2つのキーワードを比較したとき、2つのキーワードの少なくとも一方に関連付けられているコンテンツの中で、共通して関連付けられているコンテンツの占める割合が所定値以上の場合に、2つのキーワードをグループ化するようにすることもできる。
The
関連キーワード出力手段1dは、クライアント5からの代表キーワードの入力を受け付ける。そして、関連キーワード出力手段1dは、任意の代表キーワードが選択された際に、選択された代表キーワードと同じグループに属する他のキーワードを、クライアント5に対して出力する。
The related
このようなコンテンツナビゲーション装置によれば、ユーザがキーワード6aに基づいた検索を行い検索結果6bの中から任意のコンテンツ7bを選択する度に、格納手段1aにより、検索用のキーワード6aと選択されたコンテンツ7bとが、関連付けて記憶手段1bに格納される。その後、グループ化手段1cにより、キーワードと選択されたコンテンツとの対応関係に基づいて、記憶手段1bに格納されたキーワード間の関連性が判定され、関連する複数のキーワードがグループ化される。そして、任意の代表キーワード8aが選択されると、関連キーワード出力手段1dにより、選択された代表キーワード8aと同じグループに属する他の関連キーワード8bが出力される。
According to such a content navigation apparatus, whenever the user performs a search based on the
このように、キーワードと、そのキーワードによる検索結果からユーザが選択したコンテンツとの関係に基づいてキーワードのグループ化を行うようにしたことにより、現在多くのユーザが関心を寄せているコンテンツに関連するキーワード同士をグループ化することができる。その結果、選択された代表キーワードと同じグループの他のキーワードを出力することで、ユーザに対して、関心の対象が類似する他のユーザが入力したキーワードを提示することができる。 As described above, the keywords are grouped on the basis of the relationship between the keyword and the content selected by the user from the search result by the keyword, so that it is related to the content that many users are currently interested in. Keywords can be grouped together. As a result, by outputting other keywords in the same group as the selected representative keyword, it is possible to present the keywords input by other users with similar interest targets to the user.
図1に示すような本発明の技術は、インターネットやイントラネットなど、様々なネットワークのコンテンツナビゲーションに利用することができる。特に、膨大なコンテンツが公開されているインターネットに適用することで、インターネットの利便性を向上させることができる。 The technique of the present invention as shown in FIG. 1 can be used for content navigation in various networks such as the Internet and an intranet. In particular, the convenience of the Internet can be improved by applying it to the Internet where a large amount of content is disclosed.
なお、グループ化の判断要素として、ユーザの識別情報を利用することもできる。その場合、格納手段1aは、コンテンツの識別情報に加え、キーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段1bに格納する。そしてグループ化手段1cは、関連付けられたユーザ識別情報が共通するキーワード同士をグループ化する。具体的には、グループ化手段1cは、2つのキーワードを比較したとき、共通して関連付けられているユーザ識別情報の数が所定値以上の場合に、2つのキーワードをグループ化する。また、グループ化手段1cは、2つのキーワードを比較したとき、2つのキーワードの少なくとも一方に関連付けられているユーザ識別情報の中で、共通して関連付けられているユーザ識別情報の占める割合が所定値以上の場合に、2つのキーワードをグループ化することもできる。このようにユーザの識別情報を用いてグループ化することで、興味の対象が同じユーザによって入力されるキーワードをグループ化することができる。
Note that user identification information can also be used as a grouping determination factor. In that case, in addition to the content identification information, the
さらに、グループ化を繰り返すことで、グループ化の範囲を拡大することができる。具体的には、グループ化手段1cは、記憶手段1bに含まれる1つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とし、対象語と対応語とをグループ化する。さらに、グループ化手段1cは、対応語に対して関連する他のキーワードを同一グループに含める。
Furthermore, the grouping range can be expanded by repeating the grouping. Specifically, the
また、コンテンツナビゲーション装置1に対して、ユーザから不要として選択されたキーワードを不要語として不要語記憶手段に格納する不要語格納手段を追加し、関連キーワード出力手段1dが、不要語記憶手段に記憶された不要語を除くキーワードを出力するようにしてもよい。具体的には、不要語格納手段は、キーワードと選択されたコンテンツとの対応関係に基づいて、ユーザに選択された不要語と他のキーワードとの間の関連性を判定し、不要語に関連する他のキーワード(同じコンテンツに関連付けられている)を新たな不要語として不要語記憶手段に格納する。このように不要語を登録しておくことにより、不必要な関連キーワード(他の関連キーワードとほぼ同じコンテンツにしか関連付けられていない関連キーワード)の出力を防止できる。
Further, an unnecessary word storage unit is added to the
また、グループ化した複数のキーワードそれぞれに関連付けられたコンテンツを、1つのキーワードへの関連づけとして纏めることもできる(縮退処理)。具体的には、グループ化手段1cは、記憶手段1bに含まれる1つのキーワードを対象語とし、対象語に対して関連する他のキーワードを対応語とする。そして、グループ化手段1cは、対応語それぞれに関連付けられたコンテンツを対象語に関連付けて記憶手段1bに登録すると共に記憶手段1bから対応語を削除する。このように縮退処理を行った後、グループ化手段1cは、記憶手段1bに格納されたキーワード間の関連性を判定し、関連する複数のキーワードをグループ化する。すなわち、縮退処理とグループ化を交互に行う。これにより、グループ化を繰り返して行い、グループ化される範囲を拡張した場合であっても、関連キーワードとして大量のキーワードが一度に出力されるのを防止できる。
In addition, content associated with each of a plurality of grouped keywords can be collected as association with one keyword (degeneration process). Specifically, the
また、既に生成された複数のグループを木構造に纏めることもできる。具体的には、グループ化手段1cは、グループ化により生成された2つのグループが共通のキーワードを含む場合に、共通のキーワードを介して、一方のグループの配下に他方のグループを木構造に接続した新たなグループを生成する。
It is also possible to combine a plurality of already generated groups into a tree structure. Specifically, when the two groups generated by grouping include a common keyword, the
さらに、キーワードによる検索時のヒット件数や、そのキーワードを入力したユーザ数の推移の同一性によってキーワードをグループ化することもできる。具体的には、格納手段1aは、キーワードによる検索のヒット件数やキーワードを入力したユーザのユーザ識別情報を、キーワードに関連付けて記憶手段1bに格納するようにする。そして、グループ化手段1cは、ヒット件数の時間的な推移が類似する複数のキーワードをグループ化する。または、グループ化手段1cは、入力したユーザ数の時間的な推移が類似する複数のキーワードをグループ化する。このように、時間的な推移を勘案してグループ化することにより、注目度が上がっている情報を、ユーザに提供することができる。
Furthermore, keywords can be grouped according to the number of hits when searching by keyword and the same transition of the number of users who input the keyword. Specifically, the
ところで、本発明によるコンテンツナビゲーションをインターネット上で利用すれば、インターネット上の日々更新される膨大な量の情報を有効に利用することができる。本発明をインターネットに適用する場合、たとえば、ユーザがインターネットにアクセスするときの最初の入り口(ポータルサイトサーバ)に上記機能を構築する。このポータルサイトサーバが、ユーザの検索行動パターンをマイニングする。そして、ポータルサイトサーバにおいて、検索キーワードをベースにしたコンテンツナビゲーションを行う。 By the way, if the content navigation according to the present invention is used on the Internet, a huge amount of information updated every day on the Internet can be used effectively. When the present invention is applied to the Internet, for example, the above function is constructed at the first entrance (portal site server) when the user accesses the Internet. This portal site server mines the user's search behavior pattern. In the portal site server, content navigation based on the search keyword is performed.
以下、本発明をインターネット上のポータルサイトに適用した場合を例に採り、本発明の実施の形態を具体的に説明する。なお、以下の実施の形態では、キーワードをグループ化することをクラスタ化、生成される各グループをクラスタと呼ぶこととする。 In the following, embodiments of the present invention will be specifically described by taking the case where the present invention is applied to a portal site on the Internet as an example. In the following embodiment, grouping keywords is referred to as clustering, and each generated group is referred to as a cluster.
図2は、本発明の実施の形態を実現するためのシステム構成例を示す図である。図2に示すように、インターネット10を介して、ポータルサイトサーバ100、複数のクライアント211,212,・・・、検索サーバ220、複数のWebサーバ231,232,・・・が接続されている。
FIG. 2 is a diagram showing an example of a system configuration for realizing the embodiment of the present invention. As shown in FIG. 2, a
ポータルサイトサーバ100には、Web検索の履歴を保持し、その検索履歴に基づいて、クライアント211,212,・・・に対してコンテンツナビゲーションサービスを提供する。
The
検索サーバ220は、クライアント211,212,・・・からの検索要求をポータルサイトサーバ100経由で受け取り、Webページの検索結果を返す。Webサーバ231,232,・・・は、インターネット10を介してWebページ等の様々なコンテンツを提供する。
The
図3は、本発明の実施の形態に用いるポータルサイトサーバのハードウェア構成例を示す図である。ポータルサイトサーバ100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
FIG. 3 is a diagram illustrating a hardware configuration example of the portal site server used in the embodiment of the present invention. The entire
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
The
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
A
通信インタフェース106は、インターネット10に接続されている。通信インタフェース106は、インターネット10を介して、他のコンピュータとの間でデータの送受信を行う。
The
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。なお、図3には、ポータルサイトサーバ100のハードウェア構成例を示したが、クライアント211,212,・・・、検索サーバ220、Webサーバ231,232,・・・も同様のハードウェア構成で実現することができる。
With the hardware configuration as described above, the processing functions of the present embodiment can be realized. 3 shows an example of the hardware configuration of the
本発明に係る機能は、ポータルサイトサーバ100によって提供される。すなわち、ポータルサイトサーバ100は、検索サイトで記録している検索履歴(検索キーワード、ユーザ識別ID、検索結果の飛び先のURL)を利用して、キーワードベースの2種類のクラスタを作成する。そして、ポータルサイトサーバ100は、作成したクラスタからユーザの興味に従ってナビゲートを行うネットワークを構築する。以下に、ポータルサイトサーバ100の処理機能について詳細に説明する。
The function according to the present invention is provided by the
図4は、ポータルサイトサーバの処理機能を示すブロック図である。ポータルサイトサーバ100には、データベースとして、WebページDB111、検索履歴DB112、基本DB113、不要語DB114、クラスタDB115が設けられている。WebページDB111には、ポータルサイトとして提供するWebページデータが格納されている。検索履歴DB112には、ポータルサイトサーバ100を介して実行されたWeb検索に関する検索履歴が格納される。基本DB113には、検索履歴の内容を解析した結果得られる情報間の関連づけを示す情報が格納される。不要語DB114には、コンテンツナビゲーションにおいて、ユーザに対して提示する必要のない用語(不要語)に関する情報が格納される。クラスタDB115には、検索履歴に基づいてキーワード間の関連性の度合い等を示す情報が格納される。
FIG. 4 is a block diagram showing processing functions of the portal site server. The
ポータルサイトサーバ100には、処理機能として、ポータルサイトコンテンツ提供部120、検索履歴記録部130、キーワードクラスタ作成部140、不要語DB作成部150、及びナビゲーション部160が設けられている。ポータルサイトコンテンツ提供部120は、クライアント211,212,・・・に対してWebページDB111に格納されたWebページデータを提供する。検索履歴記録部130は、クライアント211,212,・・・が検索サーバ220を利用して行うWeb検索の履歴を、検索履歴DB112に記録する。キーワードクラスタ作成部140は、検索履歴DB112に基づいて、基本DB113及びクラスタDB115を構築する。不要語DB作成部150は、管理者に不要語として指定された用語を、不要語DB114に登録する。ナビゲーション部160は、クライアント211,212,・・・からの要求に応じて、指定されたキーワードに関連するキーワードをクラスタDB115から抽出し、クライアント211,212,・・・に対して送信する。
The
まず、ポータルサイトサーバ100における検索履歴の蓄積処理について説明する。
図5は、検索履歴蓄積処理を示す図である。図5の例では、クライアント211を使用するユーザがコンテンツの検索を行い、検索結果からWebサーバ231のコンテンツを選択して閲覧するまでの流れを示している。
First, search history accumulation processing in the
FIG. 5 is a diagram showing search history accumulation processing. In the example of FIG. 5, a flow from when the user using the
クライアント211は、ユーザからの操作入力に応答して、検索ページ取得要求21をポータルサイトサーバ100に対して送信する。ポータルサイトサーバ100のポータルサイトコンテンツ提供部120は、検索ページ取得要求21に応答して検索ページデータ22をクライアント211に対して送信する。検索ページデータ22は、たとえば、HTML(HyperText Markup Language)で記述された構造化文書である。
The
クライアント211では、検索ページ23がモニタに表示される。検索ページ23には、検索キーワード入力部23aと検索ボタン23bとが表示されている。なお、図では省略しているが、検索ページ23にはその他の各種情報(ニュース等)も表示されている。
In the
ユーザは、検索キーワード入力部23aに対して1以上のキーワードを入力し、検索ボタン23bを押下する。すると、クライアント211は、検索キーワードを含む検索要求をポータルサイトサーバ100に対して送信する。
The user inputs one or more keywords to the search
ポータルサイトサーバ100の検索履歴記録部130は、検索要求24を検索サーバ220に転送する。検索サーバ220は、受け取った検索要求24に従ってインターネット10上のコンテンツを検索する。そして、検索サーバ220は、検索結果25をポータルサイトサーバ100に対して送信する。
The search
ポータルサイトサーバ100の検索履歴記録部130は、検索結果25をクライアント211に転送する。この際、検索履歴記録部130は、検索結果25をWebページデータに加工する。生成されるWebページデータには、検索結果中のURLをユーザが選択したとき、そのURLへのアクセスがポータルサイトサーバ100を経由して実行されるように、制御情報が埋め込まれている。また、検索履歴記録部130は、検索結果25内の所定の情報(検索キーワードやヒット件数等)を、クライアント211を一意に識別するための情報(たとえばクッキー)に関連付けて検索履歴DB112に格納する。
The search
クライアント211は検索結果25を受け取ると、検索結果リスト26をモニタに表示する。検索結果リスト26には、検索キーワードに合致するコンテンツの識別情報28a,28b,・・・(たとえば、タイトルやURL(Uniform Resource Locator))等が含まれる。ここで、ユーザが、Webサーバ231で公開されているコンテンツの識別情報を選択すると、クライアント211から対応するURLを指定したWebページ取得要求27が出力される。
Upon receiving the
ポータルサイトサーバ100の検索履歴記録部130は、Webページ取得要求27をWebサーバ231に転送すると共に、アクセスされたWebページのURLの情報を検索履歴DB112に格納する。
The search
Webページ取得要求27を受け取ったWebサーバ231は、該当するWebページデータ28をクライアント211に対して送信する。クライアント211では、Webページ29が表示される。
The
図6は、検索履歴DBのデータ構造例を示す図である。検索履歴DB112には、ポータルサイトサーバ100を介したWeb検索が行われた際の検索履歴112a,112b,112c,・・・が格納されている。
FIG. 6 is a diagram illustrating an exemplary data structure of the search history DB. The
各検索履歴112a,112b,112c,・・・には、検索日時、検索を行ったセッションのID、検索キーワード、ヒット件数、検索結果の取得範囲(何番目から何個のページ情報を取得したか)、ユーザID(ユーザの識別情報)、検索結果のトップに現れるURL、検索結果の中でユーザに選択されたURL(飛び先)、検索種別、検索されたページのタイトルなどの情報が含まれる。
In each
たとえば、検索履歴112aでは、検索日時“2003/12/12:00:00:34”、セッションID“1111111111111111111111111111”、検索キーワード“ロシア民謡 トロイカ”、ヒット件数“hn=478”、検索結果の取得範囲“ri=10:21”(21番目のコンテンツから10件分)、トップのURL“GU=""”、クッキー“ck=xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx”、選択されたURL“http://www.xxx.ne.jp/”、検索種別“b=NORMAL”選択されたページのタイトル“t="トロイカ"”が設定されている。
For example, in the
なお、検索履歴112aでは、検索結果の内トップのページ情報を取得していないため、トップのURLは空欄となっている。検索履歴112では、トップのページ情報を取得しているため、トップのURL“GU="http://www.yyy.co.jp/”が登録されている。
In the
このような履歴が日々大量(100万件/日以上)に蓄積される環境(ISPなど)において、意味のあるキーワードクラスタを作成(所謂キーワードマイニング)が、本件のポイントである。キーワードクラスタ作成処理は、定期的(たとえば、1日1回所定の時刻)に実行される。 In an environment (ISP or the like) in which such a history is accumulated in a large amount every day (1 million cases / day or more), creating a meaningful keyword cluster (so-called keyword mining) is the point of this case. The keyword cluster creation process is executed periodically (for example, once a day at a predetermined time).
以下、検索履歴からのキーワードクラスタの作成処理について詳細に説明する。キーワードクラスタは、キーワードを所定の観点によってグループ分けしたものである。本実施の形態では、以下の2種類のオペレーションによって異なるレベル(観点)のクラスタが作成される。 Hereinafter, a process for creating a keyword cluster from the search history will be described in detail. The keyword cluster is a grouping of keywords according to a predetermined viewpoint. In the present embodiment, clusters of different levels (viewpoints) are created by the following two types of operations.
レベル1は、検索結果から選択されたコンテンツが共通するキーワード同士をクラスタ化するものである。このレベル1のクラスタに含まれるキーワード同士は概して、表記のゆれや異表記の関係のものが多い。たとえば、「パーソナルコンピュータ」、「パーソナル・コンピュータ」、「パソコン」、「PC」などがレベル1のクラスタを構成する。レベル1のクラスタは、ユーザが検索結果で選択したURLの一致度を利用して作成することができる。
図7は、レベル1のクラスタ化を示す図である。図7には、検索キーワードとそのキーワードで検索した結果ユーザが選択したURLの関係を表している。たとえば、「Kwd1」で検索したユーザが、検索結果の中から「URL1」、「URL2」、「URL3」を選択したことを表している。このとき、選択されるURLの共通性(重なり度合)が高いキーワード同士は、そのキーワードの内容が同一または類似しているものと想定できる。そこで、選択されるURLの共通性が高いキーワードをクラスタ化し、レベル1のクラスタとする。
FIG. 7 illustrates
具体的には、検索キーワードとURLとのペアを考えたとき、選択URLの重なり度合をdupとして以下のように定義する。
dup(Kwd1,Kwd2)=(Kwd1とKwd2の重なりURL数)/(Kwd1とKwd2とのURLの合計)
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりURL数を算出して、それらの値がある閾値以上のキーワード群をレベル1のクラスタとする。
Specifically, when a pair of search keyword and URL is considered, the overlapping degree of the selected URL is defined as dup as follows.
dup (Kwd1, Kwd2) = (number of overlapping URLs of Kwd1 and Kwd2) / (total of URLs of Kwd1 and Kwd2)
With respect to all keywords included in the search log, the above-described overlap degree (dup) and the number of simple overlap URLs are calculated, and a keyword group having a certain value or more as a threshold value is defined as a
図7の例では、「Kwd1」と「Kwd2」とが共通のURLに関連付けられている。そのため、「Kwd1」と「Kwd2」とでクラスタ31を構成する。同様に、「Kwd3」と「Kwd4」とが共通のURLに関連付けられている。そのため、「Kwd3」と「Kwd4」とでクラスタ32を構成する。
In the example of FIG. 7, “Kwd1” and “Kwd2” are associated with a common URL. Therefore, “Kwd1” and “Kwd2” constitute a
図8は、2つのキーワードの間のレベル1の重なり度数を示す図である。図8の例では、「キーワードA」の検索結果から選択されたURLが「URL1」、「URL2」、「URL3」、「URL4」、「URL5」である。また、「キーワードB」の検索結果から選択されたURLが「URL4」、「URL5」、「URL6」、「URL7」である。従って、重複するURLは「URL4」、「URL5」であり、重なり数は2となる。
FIG. 8 is a diagram illustrating the
レベル2は、入力したユーザが重複するキーワード同士をクラスタ化するものである。レベル2のクラスタで得られるキーワードは、概して兄弟語、関連語レベルのものが多い。たとえば、「○○カメラ」、「△△や」、「□□電気」、「××カメラ」、「凸凸電気」などのキーワードがレベル2のクラスタとしてグループ化される。レベル2のクラスタは、複数のユーザによって検索されたキーワードを利用して作成することができる。
図9は、レベル2のクラスタ化を示す図である。図9には、ユーザIDとそのユーザIDのユーザが入力したキーワードとの関係を表している。たとえば、「USR1」のユーザが「Kwd1」、「Kwd2」を検索キーワードとして入力したことを表している。このとき、入力するユーザの共通性(dup値)が高いキーワード同士は、同じカテゴリに属しているものと想定できる。
FIG. 9 is a
すなわち、ユーザが検索によって情報を探す場合、対象に対して様々なキーワードを入力しながら試行錯誤的に検索するのが一般的である。複数のユーザによって同じように検索されたキーワード群には、何らかの共通性があると考えられる。そこで、入力するユーザの共通性が高いキーワードをグループ化し、レベル2のクラスタとする。
That is, when a user searches for information by searching, it is common to search by trial and error while inputting various keywords to the target. A group of keywords searched in the same manner by a plurality of users is considered to have some commonality. Therefore, keywords having high commonality among the input users are grouped into a
具体的には、レベル1と同様に重なり度合dupを以下のように定義できる。
Dup(Kwd1,Kwd2)=(Kwd1とKwd2の共通ユーザ数)/(Kwd1とKwd2それぞれ検索したユーザの合計)
検索ログに含まれる全てのキーワードについて、上記の重なり度合(dup)や単純な重なりユーザ数を算出して、それらの値がある閾値以上のキーワード群をクラスタとする。
Specifically, the overlapping degree dup can be defined as follows in the same manner as in
Dup (Kwd1, Kwd2) = (number of common users for Kwd1 and Kwd2) / (total number of users searched for Kwd1 and Kwd2 respectively)
For all the keywords included in the search log, the above-mentioned overlap degree (dup) and the number of simple overlap users are calculated, and a group of keywords whose values are equal to or greater than a certain threshold is defined as a cluster.
図9の例では、「Kwd1」と「Kwd2」とは「USR1」と「USR2」とによって共通に検索されたキーワードである。そこで、「Kwd1」と「Kwd2」とをレベル2のクラスタ33としてグループ化する。同様に、「Kwd3」と「Kwd4」とは「USR3」と「USR4」とによって共通に検索されたキーワードである。そこで、「Kwd3」と「Kwd4」とをレベル2のクラスタ34としてグループ化する。
In the example of FIG. 9, “Kwd1” and “Kwd2” are keywords that are commonly searched for by “USR1” and “USR2”. Therefore, “Kwd1” and “Kwd2” are grouped as a
図10は、2つのキーワードの間のレベル2の重なり度数を示す図である。図10の例では、「キーワードA」の検索結果から選択されたユーザが「USR1」、「USR2」、「USR3」、「USR4」、「USR5」である。また、「キーワードB」の検索結果から選択されたユーザが「USR4」、「USR5」、「USR6」、「USR7」である。従って、重複するユーザは「USR4」、「USR5」であり、重なり数は2となる。
FIG. 10 is a diagram showing the
このように、本発明の実施の形態では、レベル1とレベル2との2種類のクラスタが生成される。
図11は、コンピュータというキーワードが属するクラスタの例を示す図である。図11には「コンピュータ」というキーワードが属するレベル1のクラスタ41とレベル2のクラスタ42とに、他のどのようなキーワードが含まれるかを示している。この例では、「コンピュータ」に対するレベル1のクラスタ41として「パソコン」や「パーソナルコンピュータ」等のキーワードが設定されている。また、「コンピュータ」に対するレベル2のクラスタ42として、「コンピュータウィルス」や「セキュリティーホール」などのキーワードが設定されている。
Thus, in the embodiment of the present invention, two types of clusters of
FIG. 11 is a diagram illustrating an example of a cluster to which the keyword “computer” belongs. FIG. 11 shows what other keywords are included in the
このように、各クラスタ間に共通して出現するキーワードをリンクに見立てることで、検索履歴からキーワードのネットワークを構築することができる。これを一般的なディレクトリとコンテンツナビゲーションとをユーザナビゲーションの観点から比較すると以下のようになる。 Thus, a keyword network can be constructed from a search history by regarding a keyword that appears in common between the clusters as a link. A comparison between a general directory and content navigation from the viewpoint of user navigation is as follows.
図12は、ディレクトリ方式とコンテンツナビゲーション方式とのデータ構造を示す図である。図12(A)がディレクトリ方式のデータ構造を示しており、図12(B)がコンテンツナビゲーション方式のデータ構造を示している。 FIG. 12 is a diagram illustrating a data structure of the directory method and the content navigation method. 12A shows the data structure of the directory system, and FIG. 12B shows the data structure of the content navigation system.
ディレクトリ方式では、キーワード間の関係がツリー構造51であるのに対し、本実施の形態に係る方式ではキーワード間の関係がネットワーク構造53である。また、ディレクトリ方式では、概念を絞り込む方向のナビゲーションであるのに対し、コンテンツナビゲーション方式では、概念を広げる方向のナビゲーションである。すなわち、ディレクトリ方式では、元のキーワード52からツリー構造51上の下位の構造へ、順次キーワードを探すことで概念が絞り込まれる。一方、コンテンツナビゲーション方式では、元のキーワード54からクラスタ上の関連性を有する他のキーワードを順次辿り、キーワードを探すことで概念を広げることができる。
In the directory method, the relationship between keywords is a
このようなそれぞれの方式の違いにより、ディレクトリ方式の利用シーンは、対象のイメージがはっきりしている場合であるのに対し、コンテンツナビゲーション方式の利用シーンは、対象のイメージがはっきりしていない場合である。 Due to these differences, directory usage scenes are when the target image is clear, whereas content navigation usage scenes are when the target image is not clear. is there.
このようなキーワードのクラスタ化を効率的に行うため、検索履歴に基づいて、予め基本DB113、不要語DB114、及びクラスタDB115を作成しておく。これらのDBの作成は、定期的(たとえば、毎日深夜の時間帯)に行われる。
In order to efficiently perform such clustering of keywords, a
図13は、基本DBのデータ構造例を示す図である。基本DB113は、キーワード別URL管理テーブル113a、URL別キーワード管理テーブル113b、キーワード別選択ユーザ管理テーブル113c、ユーザ別入力キーワード管理テーブル113d、URL別選択ユーザ管理テーブル113e、及びユーザ別選択URL管理テーブル113fで構成される。
FIG. 13 is a diagram illustrating a data structure example of the basic DB. The
キーワード別URL管理テーブル113aには、キーワード、URL、ヒット件数、及びトップURLの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。キーワードの欄には、検索の際に入力されたキーワードが設定される。URLの欄には、対応するキーワードによる検索結果から選択されたWebページのURLが設定される。ヒット件数の欄には、対応するキーワードに合致したWebページの件数が設定される。トップURLの欄には、対応するキーワードによる検索結果の中で最も優先的に表示されたWebページのURLが設定される。 The keyword-specific URL management table 113a includes columns for keywords, URLs, hit counts, and top URLs, and information arranged in the horizontal direction in each column is associated with each other to form one record. The keyword input at the time of search is set in the keyword column. In the URL column, the URL of the Web page selected from the search result by the corresponding keyword is set. The number of Web pages that match the corresponding keyword is set in the hit count column. In the top URL column, the URL of the Web page displayed most preferentially in the search result by the corresponding keyword is set.
URL別キーワード管理テーブル113bには、URL、URLタイトル、キーワード、及び検索タイプの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。URLの欄には、検索結果の中から選択されたWebページのURLが設定される。URLタイトルの欄には、対応するURLで示されるWebページのタイトルが設定される。キーワードの欄には、対応するURLを選択したときの、元となった検索キーワードが設定される。検索タイプの欄には、検索結果として表示されたWebページのタイプ(広告やコマース(電子商取引)等の種別)が設定される。 The URL-specific keyword management table 113b includes columns for URL, URL title, keyword, and search type, and information arranged in the horizontal direction of each column is associated with each other to form one record. In the URL column, the URL of the Web page selected from the search results is set. In the URL title column, the title of the Web page indicated by the corresponding URL is set. In the keyword column, the original search keyword when the corresponding URL is selected is set. In the search type column, the type of web page (a type such as advertisement or commerce (electronic commerce)) displayed as a search result is set.
キーワード別選択ユーザ管理テーブル113cには、キーワードとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。キーワードの欄には、ユーザにより入力された検索キーワードが設定される。ユーザの欄には、対応するキーワードを入力したユーザの識別情報が設定される。 The keyword-specific selection user management table 113c includes columns for keywords and users, and information arranged in the horizontal direction of each column is associated with each other to form one record. A search keyword input by the user is set in the keyword column. In the user column, identification information of the user who has input the corresponding keyword is set.
ユーザ別入力キーワード管理テーブル113dには、ユーザとキーワードとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。キーワードの欄には、対応するユーザが入力した検索キーワードが設定される。 The user input keyword management table 113d is provided with columns of users and keywords, and information arranged in the horizontal direction of each column is associated with each other to form one record. In the user column, identification information of the user who performed the search is set. In the keyword column, a search keyword input by the corresponding user is set.
URL別選択ユーザ管理テーブル113eには、URLとユーザとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。URLの欄には、検索結果から選択されたURLが設定される。ユーザの欄には、対応するURLを選択したユーザの識別情報が設定される。 The URL-selected user management table 113e has columns of URL and user, and information arranged in the horizontal direction of each column is associated with each other to form one record. In the URL column, the URL selected from the search result is set. In the user column, the identification information of the user who selected the corresponding URL is set.
ユーザ別選択URL管理テーブル113fには、ユーザとURLとの欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。ユーザの欄には、検索を行ったユーザの識別情報が設定される。URLの欄には、対応するユーザが検索結果から選択したURLが設定される。 The user-selected URL management table 113f is provided with columns of users and URLs, and information arranged in the horizontal direction of each column is associated with each other to form one record. In the user column, identification information of the user who performed the search is set. In the URL column, a URL selected by the corresponding user from the search result is set.
図14は、不要語DBのデータ構造例を示す図である。不要語DB114には、不要語、導出元の語、繰り返し回数、レベル1の重なり数、レベル1のdupの値、レベル2の重なり数、及びレベル2のdupの値の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。
FIG. 14 is a diagram illustrating a data structure example of the unnecessary word DB. The
不要語の欄には、不要語として選択されたキーワードが設定される。導出元の語の欄には、不要語の判断基準として対比されたキーワードが設定される。繰り返し回数の欄には、不要語として検出された際に、不要語検出処理が何段行われたのかを示す数値が設定される。 In the unnecessary word column, a keyword selected as an unnecessary word is set. In the derivation source word column, keywords that are compared as criteria for determining unnecessary words are set. In the number of repetitions column, a numerical value indicating how many unnecessary word detection processes have been performed when an unnecessary word is detected is set.
レベル1の重なり数の欄には、レベル1のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル1のdup値の欄には、レベル1のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。
In the
レベル2の重なり数の欄には、レベル2のクラスタを構成する際の不要語と導出元の語との間の重なり数が設定される。レベル2のdup値の欄には、レベル2のクラスタを構成する際の不要語と導出元の語との間のdup値が設定される。
In the
図15は、クラスタDBのデータ構造例を示す図である。クラスタDB115には、対象語、ユーザ数、ヒット件数、及び対応語の欄が設けられ、各欄の横方向に並べられた情報同士が互いに関連づけられて1つのレコードを構成している。
FIG. 15 is a diagram illustrating an example of a data structure of the cluster DB. The
対象語の欄には、クラスタを検索する際の基準となるキーワードが設定される。ユーザ数の欄には、対象語を検索キーワードとして入力したユーザの総数が設定される。ヒット件数の欄には、対象語を検索キーワードとして検索したときのヒット件数が設定される。 In the target word column, a keyword serving as a reference when searching for clusters is set. The total number of users who input the target word as a search keyword is set in the number of users column. In the hit count column, the hit count when the target word is searched as a search keyword is set.
対応語の欄には、対象語と比較する他のキーワード(対応語)に関する情報が設定される。対応語の欄は、更に表記、重なり数、dupの値、ユーザ数、及びヒット件数の欄に細分化されている。 Information on other keywords (corresponding words) to be compared with the target word is set in the corresponding word column. The corresponding word column is further subdivided into notation, overlap number, dup value, user number, and hit number columns.
表記の欄は、対応語を表記する際の文字列が設定されている。重なり数の欄は、上下2段に分かれており、上段には対象語と対応語との間のレベル1の重なり数が設定されており、下段には対象語と対応語との間のレベル2の重なり数が設定されている。dupの値の欄は上下2段に分かれており、上段には対象語と対応語との間のレベル1のdup値が設定されており、下段には対象語と対応語との間のレベル2のdup値が設定されている。ユーザ数の欄には、対応語を検索キーワードとして入力したユーザの数が設定されている。ヒット件数には、対応語を検索キーワードとして入力した際の検索によってヒットする情報の件数が設定される。
In the column of notation, a character string for notation of the corresponding word is set. The overlap number column is divided into two upper and lower levels, the upper level is set to the
次に、各データベースの作成方法について説明する。まず、基本DB113の作成手順を説明する。
図16は、基本DBの作成手順を示すフローチャートである。以下、図16に示す処理をステップ番号に沿って説明する。
Next, a method for creating each database will be described. First, a procedure for creating the
FIG. 16 is a flowchart showing a basic DB creation procedure. In the following, the process illustrated in FIG. 16 will be described in order of step number.
[ステップS1]キーワードクラスタ作成部140は、検索履歴DB112を参照し、検索キーワードや飛び先URLなどの異なる複数の検索履歴を、セッションIDなどのユニークなキーで1つの検索履歴としてまとめ、時間順にソートする。
[Step S1] The keyword
[ステップS2]キーワードクラスタ作成部140は、検索履歴を1レコード毎に読み込み、キーワードの正規化を行う。正規化では、全角の英数字記号を半角の大文字に、半角のカタカナを全角の大文字に、行頭や末尾に含まれる全角や半角のスペースを削除、キーワード中に含まれる連続する複数のスペースを1つの半角のスペースに置き換える等の処理が行われる。
[Step S2] The keyword
[ステップS3]キーワードクラスタ作成部140は、データの組み合わせ毎にハッシュ配列を作成し、値を基本DB113に格納する。具体的には、キーワードに対応するURLを示すハッシュ配列、キーワードに対応するユーザを示すハッシュ配列、ユーザに対応するキーワードを示すハッシュ配列、ユーザに対応するURLを示すハッシュ配列、URLに対応するキーワードを示すハッシュ配列、URLに対応するユーザを示すハッシュ配列が作成される。
[Step S3] The keyword
[ステップS4]キーワードクラスタ作成部140は、全てのレコードについて処理したか否かを判断する。全てのレコードについて処理した場合には処理を終了し、未処理のレコードがある場合には、処理がステップS2に進められる。
[Step S4] The keyword
図17は、キーワードに対応するURLが定義されたハッシュ配列の例を示す図である。図17に示すように、ハッシュ配列61によって、各キーワードに対して、そのキーワードの検索結果から選択されたURLのリストや、ヒット件数(Hit#)やトップURL(TopURL)が関連付けられている。
FIG. 17 is a diagram illustrating an example of a hash array in which URLs corresponding to keywords are defined. As shown in FIG. 17, the
図18は、URLに対応するユーザが定義されたハッシュ配列の例を示す図である。図18に示すように、ハッシュ配列62によって、各URLに対して、そのURLを選択したユーザのリストが関連付けられている。
FIG. 18 is a diagram illustrating an example of a hash array in which users corresponding to URLs are defined. As shown in FIG. 18, the
このように生成されたハッシュ配列が、図13に示した基本DB113を示している。すなわち、図13には、分かり易くテーブル形式で基本DB113を示しているが、実際のポータルサイトサーバ100内では、ハッシュ配列によって基本DB113が管理されている。
The hash array generated in this way indicates the
次に、不要語DB114の作成手順について説明する。ポータルサイトサーバ100の検索履歴の中には、一般のユーザへのサービスとして公開する必要のないキーワードも多く含まれている。一般的に、検索履歴中に含まれる不要語を全て削除することは不可能であるが、上記のキーワードクラスタ作成方法を利用して、不要語DB114を作成することによって効率的に削除することができる。不要語DB114の作成は以下のステップによる。
Next, a procedure for creating the
図19は、不要語DBの作成手順を示すフローチャートの前半である。以下、図19に示す処理をステップ番号に沿って説明する。
[ステップS11]不要語DB作成部150は、検索履歴DB112から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタDB作成処理が実行されてから現在までの期間の検索履歴を取り出す。
FIG. 19 is the first half of a flowchart showing a procedure for creating an unnecessary word DB. In the following, the process illustrated in FIG. 19 will be described in order of step number.
[Step S11] The unnecessary word
[ステップS12]不要語DB作成部150は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、URLに関連付けられているセッションIDやユーザIDを削除する。
[Step S12] The unnecessary word
[ステップS13]不要語DB作成部150は、抽出した各検索履歴から所定の情報を抽出し、結果を基本DB113に格納する。具体的には、不要語DB作成部150は、各検索履歴からキーワード、ユーザ、飛び先URL単位で集計(それぞれをキーにして集計)する。そして、不要語DB作成部150は、集計結果を、基本DB113に登録に登録する。
[Step S13] The unnecessary word
[ステップS14]不要語DB作成部150は、ユニークユーザ数が多い順にキーワードをソートする。ここで、ユニークユーザ数とは、各キーワードを入力したユーザの数を示している。なお、ユニークユーザ数を求める際、同一ユーザが同一のキーワードを複数回入力したときには、まとめて1ユーザと換算する。
[Step S14] The unnecessary word
具体的には、キーワード別選択ユーザ管理テーブル113cの各キーワードに関連付けて登録されているユーザの数(ユーザIDの重複を排除後)がカウントされ、その数の大きい順にキーワードが並べ替えられる。また、各キーワードのユニークユーザ数は、時間、日、週、月単位でまとめ、その単位内でソートしてもよい。この際、ユニークユーザ数が少ないもの(1や2など、所定の閾値を超えないもの)はリストから削除してもよい。 Specifically, the number of users registered in association with each keyword in the keyword-specific selected user management table 113c (after eliminating duplicate user IDs) is counted, and the keywords are rearranged in descending order. In addition, the number of unique users of each keyword may be grouped in units of time, day, week, and month, and sorted within the unit. At this time, those with a small number of unique users (such as 1 and 2 that do not exceed a predetermined threshold) may be deleted from the list.
[ステップS15]不要語DB作成部150は、ユニークユーザ数の多い順にキーワードを画面に表示させ、ユーザによって不要語にすべきか否かの検討対象とする1以上のキーワードを選択させる。不要語DB作成部150は、ユーザによって選択された1以上のキーワードを含む不要語の種リストを作成する。たとえば、ユーザは、時間、日、週、月単位でまとめられたときに、常に上位に現れるキーワードを選択する。種リストは、たとえば、RAM102に格納される。
[Step S15] The unnecessary word
[ステップS16]不要語DB作成部150は、種リストから未処理のキーワードを取り出し、そのキーワードに対応するユーザとURLとを、基本DB113を参照して求める。具体的には、不要語DB作成部150は、キーワード別選択ユーザ管理テーブル113cを参照して、取り出したキーワードに対応するユーザIDを取得する。また、不要語DB作成部150は、キーワード別URL管理テーブル113aを参照して、取り出したキーワードに対応するURLを求める。
[Step S16] The unnecessary word
[ステップS17]不要語DB作成部150は、ステップS16で求めたユーザとURLとに対応するキーワードを求め、そのキーワードのURLやユーザを更に求める。具体的には、不要語DB作成部150は、ユーザ別入力キーワード管理テーブル113dを参照し、ステップS16で求めた各ユーザに対応するキーワードを求める。そして、不要語DB作成部150は、キーワード別選択ユーザ管理テーブル113cやキーワード別URL管理テーブル113aを参照して、求めたキーワードに対応するURLやユーザを求める。
[Step S17] The unnecessary word
図20は、不要語DBの作成手順を示すフローチャートの後半である。以下、図20に示す処理をステップ番号に沿って説明する。
[ステップS18]不要語DB作成部150は、ステップS17で求めたキーワードと、種リストから取り出したキーワードとのURLの重なり数やdup関数とを計算する。これは、レベル1のクラスタの関係の有無を求める処理である。
FIG. 20 is the second half of the flowchart showing the procedure for creating the unnecessary word DB. In the following, the process illustrated in FIG. 20 will be described in order of step number.
[Step S18] The unnecessary word
[ステップS19]不要語DB作成部150は、ステップS17で求めたキーワードと、種リストから取り出したキーワードとのユーザの重なり数やdup関数とを計算する。これは、レベル2のクラスタの関係の有無を求める処理である。
[Step S19] The unnecessary word
[ステップS20]不要語DB作成部150は、重なり数またはdup関数の値が所定の閾値以上となるキーワードを、不要語DB114に追加する。
[ステップS21]不要語DB作成部150は、ステップS20で追加したキーワードを画面に表示し、ユーザから不要語として不適切なキーワードの選択入力を受け付ける。ユーザからキーワードが選択されると、そのキーワードを不要語DB114から削除する。
[Step S20] The unnecessary word
[Step S21] The unnecessary word
[ステップS22]不要語DB作成部150は、不要語の登録処理を所定回数繰り返したか否かを判断する。所定回数繰り返した場合、処理を終了させる。まだ所定回数繰り返していない場合、ステップS20で新たに不要語として追加したキーワード(ステップS21で削除したものを除く)を種リストとして、処理をステップS16に進める。
[Step S22] The unnecessary word
このようにして、不要語DB114を作成することができる。この際、新たに不要語としたキーワードを種リストとして不要語の判定を繰り返すことにより、不要語の抽出漏れを減らすことができる。
In this way, the
次に、クラスタDB115の作成手順について説明する。
図21は、クラスタDB作成処理の手順を示すフローチャートの前半である。以下、図21に示す処理をステップ番号に沿って説明する。
Next, a procedure for creating the
FIG. 21 is the first half of a flowchart showing the procedure of the cluster DB creation process. In the following, the process illustrated in FIG. 21 will be described in order of step number.
[ステップS31]キーワードクラスタ作成部140は、検索履歴DB112から所定の期間内の検索履歴を取り出す。たとえば、前回のクラスタDB作成処理が実行されてから現在までの期間の検索履歴を取り出す。
[Step S31] The keyword
[ステップS32]キーワードクラスタ作成部140は、抽出した検索履歴中のキーワード、リンクに対してクリーニングを行う。クリーニングでは、たとえば、キーワードの全角英数記号を半角英数記号に変換、英数小文字を大文字に変換する。また、URLに関連付けられているセッションIDやユーザIDを削除する。
[Step S32] The keyword
[ステップS33]キーワードクラスタ作成部140は、抽出した各検索履歴から所定の情報を抽出し、結果を基本DB113に格納する。具体的には、キーワードクラスタ作成部140は、各検索履歴からキーワード、ユーザ、飛び先URL単位で集計(それぞれをキーにして集計)する。そして、キーワードクラスタ作成部140は、集計結果を、基本DB113に登録する。
[Step S33] The keyword
[ステップS34]キーワードクラスタ作成部140は、ユニークユーザ数が所定の閾値以下のキーワードや、不要語DB114に含まれるキーワードを基本DB113から削除する。
[Step S34] The keyword
[ステップS35]キーワードクラスタ作成部140は、ユニークユーザが多い順にキーワードをソートする。具体的には、キーワードクラスタ作成部140は、キーワード別選択ユーザ管理テーブル113cの各キーワードに関連付けて登録されているユーザの数(ユーザIDの重複を排除後)をカウントし、その数の大きい順にキーワードを並べ替える。
[Step S35] The keyword
[ステップS36]キーワードクラスタ作成部140は、ソートしたリストの上位からキーワードを取り出し、取り出されたキーワードを対象語とする。そして、キーワードクラスタ作成部140は、対象語に対応するユーザとURLを求める。具体的には、キーワードクラスタ作成部140は、キーワード別選択ユーザ管理テーブル113cを参照して、取り出したキーワードに対応するユーザIDを取得する。また、キーワードクラスタ作成部140は、キーワード別URL管理テーブル113aを参照して、取り出したキーワードに対応するURLを求める。
[Step S36] The keyword
[ステップS37]キーワードクラスタ作成部140は、ステップS36で求めたユーザとURLとに対応するキーワード(対応語)を求め、そのキーワードのURLやユーザを更に求める。具体的には、キーワードクラスタ作成部140は、ユーザ別入力キーワード管理テーブル113dを参照し、ステップS36で求めた各ユーザに対応するキーワードを求める。そして、キーワードクラスタ作成部140は、キーワード別選択ユーザ管理テーブル113cやキーワード別URL管理テーブル113aを参照して、求めたキーワードに対応するURLやユーザを求める。
[Step S37] The keyword
図22は、クラスタDB作成処理の手順を示すフローチャートの後半である。以下、図22に示す処理をステップ番号に沿って説明する。
[ステップS38]キーワードクラスタ作成部140は、ステップS37で求めた対応語と、対象語とのURLの重なり数やdup関数を計算する。これは、レベル1のクラスタの関係の有無を求める処理である。また、キーワードクラスタ作成部140は、ステップS37で求めた対応語と、対象語とのユーザの重なり数やdup関数を計算する。これは、レベル2のクラスタの関係の有無を求める処理である。
FIG. 22 is the second half of the flowchart showing the procedure of the cluster DB creation process. In the following, the process illustrated in FIG. 22 will be described in order of step number.
[Step S38] The keyword
[ステップS39]キーワードクラスタ作成部140は、ステップS38で求めた重なり数またはdup関数の値の何れかが所定の閾値以上の対応語を、対象語に関連付けてクラスタDB115に登録する。この際、対応語のレベル1及びレベル2の重なり数やdup関数の値も合わせて登録される。
[Step S39] The keyword
[ステップS40]キーワードクラスタ作成部140は、登録した対応語のURLやユーザ情報を、対象語の情報として基本DB113に登録する。その後、キーワードクラスタ作成部140は、登録した対応語の情報を基本DB113から削除する。この処理をネットワークの縮退と呼ぶ。
[Step S40] The keyword
[ステップS41]キーワードクラスタ作成部140は、更新された基本DB113を対象に不要語DB作成処理(図19、図20参照)を行い、不要語DB114を更新する。
[Step S41] The keyword
[ステップS42]キーワードクラスタ作成部140は、クラスタDB115の更新処理を所定回数実行したか否かを判断する。所定回数実行して入れば所定が終了する。所定回数実行していない場合、処理をステップS31に進める。これにより、同様の処理が所定回数繰り返される。
[Step S42] The keyword
なお、クラスタDB115に対応語を追加する場合、それが何回目の処理による処置であるのかを示す情報を追記することもできる。また、対応語の追加日付をクラスタDB115に登録することもできる。日付情報を登録することで、時間の経過によるクラスタキーワードの変化を把握することができる。
In addition, when a corresponding word is added to the
このようにして、クラスタDB115を作成することができる。この際、ステップS40に示すように、ネットワークの縮退が同時に行われる。ネットワークの縮退では、表記のゆれや概念が特に近いキーワード群をまとめる操作が行われる。特に近い関係を有するキーワード群を纏め1つの代表的なキーワードで表すことによって、キーワード数を減らし、ナビゲーションネットワークの規模を縮退することができる。その結果、ユーザに対してクラスタに含まれるキーワードを提示する際にも、必要最低限のキーワードを効率的に提示することができる。
In this way, the
このようにクラスタ化されるべきキーワードの組の抽出、およびそれらのキーワードの縮退処理を交互に繰り返すことで、概念的に関連するキーワードがクラスタから漏れてしまう事態を減らすことができる。 Thus, by alternately extracting the set of keywords to be clustered and the reduction processing of those keywords, it is possible to reduce the situation where conceptually related keywords are leaked from the cluster.
図23は、クラスタ化とキーワードの縮退とを繰り返した際のクラスタの変化を示す図である。たとえば、「A社」を対象語としたときの最初のレベル1のクラスタ63に3つの対応語が含まれているものとする。このとき、基本DB113における対象語に対応するユーザの項目に、対応語に登録されているユーザを加える。同様に、対象語に対応するURLの項目に、対応語に登録されているURLを加える。
FIG. 23 is a diagram illustrating changes in clusters when clustering and keyword degeneration are repeated. For example, it is assumed that three corresponding words are included in the
その後、再度レベル1のクラスタ作成処理を実行すると、概念的に拡張された他のキーワードを含むクラスタ64が生成される。このような処理を、任意の回数繰り返すことで、概念的に近いキーワードを集めたクラスタを形成することができる。
Thereafter, when the
以上のように、クラスタDB115を作成しておくことにより、ポータルサイトサーバ100にアクセスしてインターネット上のコンテンツを検索するユーザに対して、コンテンツナビゲーション機能を提供することができる。コンテンツナビゲーションは、ナビゲーション部160によって行われる。
As described above, by creating the
本実施の形態では、コンテンツナビゲーションのトップページのURLが予め用意されているものとする。ユーザがクライアント211を操作して、そのURLにアクセスすると、ナビゲーション部160によってナビゲーショントップ画面データが作成される。本実施の形態では、ナビゲーション部160が基本DB113のキーワード別選択ユーザ管理テーブル113cを参照し、検索キーワードとして入力したユーザ数の多いキーワードのリストを作成する。そして、そのキーワードのリストを含むナビゲーショントップ画面データが作成される。ナビゲーショントップ画面データはクライアント211に転送され、クライアントでナビゲーショントップ画面が表示される。
In the present embodiment, it is assumed that the URL of the top page of content navigation is prepared in advance. When the user operates the
図24は、ナビゲーショントップ画面の例を示す図である。ナビゲーショントップ画面71には、キーワード入力部71a、ジャンプボタン71b、複数のキーワード候補71c、キーワード候補71c毎のユニークユーザ数71d、および定番ディレクトリリンクオブジェクト71eが表示されている。
FIG. 24 is a diagram illustrating an example of the navigation top screen. The
キーワード入力部71aは、任意のキーワードを代表キーワードとして入力するためのテキストボックスである。ジャンプボタン71bは、コンテンツナビゲーションの実行指示を出すためのボタンである。ジャンプボタン71bが押下されると、キーワード入力部71aに入力されたキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ100に対して送信される。
The
キーワード候補71cは、代表キーワードとして選択するキーワードの候補である。この例では、過去の所定期間内にユーザによって検索キーワードとして入力された回数の多いキーワードがキーワード候補71cとして表示されている。何れかのキーワード候補71cがユーザによって選択されると、そのキーワードを代表キーワードとしたコンテンツナビゲーション要求がポータルサイトサーバ100に対して送信される。各キーワード候補71cのユニークユーザ数は、そのキーワードを検索キーワードとして入力したユーザの数である。
The
また、定番ディレクトリリンクオブジェクト71eは、定番ディレクトリ画面に遷移させるためのリンクが定義されたオブジェクトである。定番ディレクトリリンクオブジェクト71eが選択されると、ポータルサイトサーバ100に対して、定番ディレクトリ画面の表示要求がだされる。
The standard
ここで、キーワード候補71cの1つがユーザによって選択されたものとする。すると、コンテンツナビゲーション要求を受け取ったポータルサイトサーバ100において、ナビゲーション部160がコンテンツナビゲーションの処理を行い、処理結果をクライアント211に対して送信する。具体的には、ナビゲーション部160は、代表キーワードとして指定されたキーワードが対象語として登録されているレコードをクラスタDB115から検索する。そして、ナビゲーション部160は、検出されたレコードの対応語から、レベル1のdupの値(あるいは重なり数)が大きい順に所定数のキーワードを抽出し、同様にレベル2のdupの値(あるいは重なり数)が大きい順に所定数のキーワードを抽出する。ナビゲーション部160は、これらのキーワードを含むナビゲーション画面データを作成する。
Here, it is assumed that one of the
また、ナビゲーション部160は、基本DB113のキーワード別URL管理テーブル113aを参照し、代表キーワードとして指定されたキーワードによる検索結果から選択されたことのあるURLを抽出する。さらに、ナビゲーション部160は、URL別選択ユーザ管理テーブル113eを参照し、抽出した各URLを選択したユーザの数をカウントし、URLをそのユーザ数によってソートする。そして、ナビゲーション部160は、ソートされたURL、およびそのURLの関連情報をナビゲーション画面データに追加する。
Further, the
生成されたナビゲーション画面はクライアント211に対して送信され、クライアント211に表示される。
図25は、ナビゲーション画面の例を示す図である。ナビゲーション画面72には、代表キーワード72a、レベル1クラスタ内キーワード72b、レベル2クラスタ内キーワード72c、及びコンテンツ情報72dが表示されている。
The generated navigation screen is transmitted to the
FIG. 25 is a diagram illustrating an example of a navigation screen. On the
代表キーワード72aの横には、その代表キーワードを検索キーワードとして入力したユニークユーザ数が表示されている。レベル1クラスタ内キーワード72bには、代表キーワードとの間でレベル1のクラスタの関係を有するキーワードが表示されている。レベル2クラスタ内キーワード72cには、代表キーワードとの間でレベル2のクラスタの関係を有するキーワードが表示されている。
Next to the
コンテンツ情報72dには、代表キーワードを検索キーワードとしたときの検索結果から選択された回数の多いコンテンツに関する情報が表示される。コンテンツ情報72dには、コンテンツアクセス件数72e、コンテンツタイトル72f、対応語72gが含まれる。コンテンツアクセス件数72eは、表示されているコンテンツが検索結果として表示されたときにアクセス対象として選択された回数である。コンテンツタイトル72fは、コンテンツのタイトルである。対応語72gは、そのコンテンツを検索結果として検出することができるキーワードである。
The
なお、ナビゲーション画面において、コンテンツのタイプを識別できるように表示することもできる。その場合、ナビゲーション部160は、ナビゲーション画面データの作成時に、URL別キーワード管理テーブル113bの検索タイプの欄を参照し、検索タイプ毎に異なる表示属性とする。たとえば、検索タイプ毎に異なる表示色とすることができる。
Note that the navigation screen can be displayed so that the type of content can be identified. In this case, the
図26は、タイプ識別可能なナビゲーション画面の例を示す図である。このナビゲーション画面73では、サービスコンテンツのコンテンツタイトル73aや、広告コンテンツのアクセス件数73bが、他のコンテンツと異なる色で表示されている(図26中では、破線によってハイライト表示部を示している)。サービスコンテンツとは、電子商取引などのサービス提供を行うWebサイトに設けられたコンテンツである。広告コンテンツとは、企業の商品宣伝等の広告のコンテンツである。コンテンツのタイプを異なる色で表示することにより、ユーザは目的のコンテンツを容易に識別できる。
FIG. 26 is a diagram illustrating an example of a navigation screen in which type identification is possible. In the
以上のように、検索履歴に基づいて、ユーザが検索結果からどのコンテンツを選択したのかをデータベースで管理し、そのデータベースに基づいてキーワードのクラスタ化を行った。そして、コンテンツナビゲーションにおいて指定された代表キーワードとクラスタ化された他のキーワードをユーザに提示するようにした。その結果、実際のユーザの嗜好等を適宜反映させて、ユーザが指定したキーワードに関連するキーワードを提示することができる。 As described above, based on the search history, which content the user has selected from the search results is managed in the database, and keywords are clustered based on the database. Then, the representative keyword designated in the content navigation and other keywords clustered are presented to the user. As a result, the keyword related to the keyword designated by the user can be presented by appropriately reflecting the actual user's preference and the like.
また、ユーザが任意に指定したコンテンツを強調(たとえば、ハイライト)表示することもできる。
図27は、任意のコンテンツを強調表示したナビゲーション画面の例を示す図である。図27に示すナビゲーション画面74には、ハイライト指定部74a,74bが設けられている。ハイライト指定部74a,74bでは、強調表示すべきコンテンツを示す文字列の入力部がある。この入力部に入力された文字列をURLやタイトルに含むコンテンツがハイライトによって強調表示される。
Further, content arbitrarily designated by the user can be highlighted (for example, highlighted).
FIG. 27 is a diagram illustrating an example of a navigation screen in which arbitrary content is highlighted. The
また、ナビゲーショントップ画面71の定番ディレクトリリンクオブジェクト71eが選択されると、ナビゲーション部160によって定番ディレクトリ画面データが作成され、クライアント211に送信される。定番ディレクトリ画面データには、定常的に頻繁にアクセスされるコンテンツが含まれる。
When the standard
図28は、定番ディレクトリ画面の例を示す図である。定番ディレクトリ画面75には、常時アクセス数の多いコンテンツが表示されている。各コンテンツのタイトルの横には、アクセスしたユニークユーザ数が示されている。
FIG. 28 is a diagram illustrating an example of a standard directory screen. The
このように、本発明の実施の形態に示すコンテンツナビゲーションを行えば、ユーザは代表キーワードを選択することで、その時点での流行のキーワードを取得することができる。そして、ユーザは、流行のコンテンツを広くブラウジングすることができる。また、キーワードの表記などを気にせず、関連する全てのコンテンツにアクセスすることができる。 As described above, if the content navigation shown in the embodiment of the present invention is performed, the user can acquire the trendy keyword at that time by selecting the representative keyword. Then, the user can browse popular content widely. Also, it is possible to access all related contents without worrying about keyword notation.
たとえば、ある期間(時間、日、週、月など)で集計したキーワードを、キーワードの選択したユニークユーザ数、注目度(平均のユーザ数からの伸び)、キーワードのヒット件数、クラスタの大きさなどの指標を用いてソートし、上位のキーワードをディレクトリ検索のトップのように表示する。ユーザはこれを見ることで現在どのようなことが流行っているのか概観することができる。 For example, the keywords collected for a certain period (hours, days, weeks, months, etc.), the number of unique users selected by the keyword, the degree of attention (increase from the average number of users), the number of keyword hits, the size of the cluster, etc. Sort by using the index and display the top keywords as the top of the directory search. The user can see what is happening now by seeing this.
なお、このようなコンテンツナビゲーションは、ディレクトリ検索とは違ったユーザナビゲーションである。すなわち、コンテンツナビゲーションでは、ネットワークを利用するユーザの嗜好の変化やコンテンツの変化が監視され、ユーザの興味の推移に沿った適当なナビゲーションを行うことができる。 Note that such content navigation is user navigation different from directory search. That is, in content navigation, changes in preferences of users who use the network and changes in contents can be monitored, and appropriate navigation can be performed in accordance with changes in user interests.
また、電子商取引を行う事業者はその結果を自社サイトのSEO(SearchEngineOptimization:自社サイトがユーザによって的確に検索されるようにサイトのキーワードや構成を最適化する手法)やSEM(SearchEngineMarketing:検索キーワード広告などを利用して自社サイトの利益を最大化する手法)に利用することもできる。 In addition, companies that conduct electronic commerce use the results of their site's SEO (SearchEngineOptimization: a technique for optimizing site keywords and composition so that users can search their site accurately) and SEM (SearchEngineMarketing: search keyword advertising). Can also be used to maximize the profits of their own site.
ところで、本実施の形態は、以下のような応用が可能である。
[コンテンツクラスタの作成]
上記の例では、キーワード間のクラスタを作成したが、クラスタ化されたキーワードに関連するコンテンツ同士をクラスタ化することもできる。具体的には、クラスタDB115と基本DB113を利用してコンテンツクラスタを作成することができる。クラスタを構成するキーワードのコンテンツ群はクラスタと考えられる。
By the way, this embodiment can be applied as follows.
[Create content cluster]
In the above example, a cluster between keywords is created. However, contents related to a clustered keyword can be clustered. Specifically, a content cluster can be created using the
図29は、コンテンツクラスタの例を示す図である。図に示すように、キーワード間のクラスタ81(レベル1、レベル2の何れか一方または両方)に含まれる各キーワードに対して、基本DB113上で関連付けられたURL(対応するキーワードによる検索結果からユーザによって選択されたURL)を抽出する。そして、抽出されたURLによりコンテンツクラスタ82を構成する。
FIG. 29 is a diagram illustrating an example of a content cluster. As shown in the figure, for each keyword included in the
このように、コンテンツクラスタ82を構成することにより、ユーザによってコンテンツが選択された際に、同じクラスタに属する他のコンテンツのリストを画面に表示することができる。これにより、ユーザは、選択したコンテンツと類似する内容の他のコンテンツに容易にアクセスすることができる。
In this way, by configuring the
[クラスタの組み合わせによるクラスタの拡張]
代表キーワードに対するクラスタを、そのクラスタに含まれる他のキーワードを元に段階的に拡張することができる。たとえば、代表キーワードAのクラスタとしてB,C,Dが抽出されているものとする。この関係を(A:B,C,D)と表す。このとき、代表キーワードBに対して(B:C,E)となっている場合、Aのクラスタを(A:(B:C,E),D)と拡張できる。
[Expand cluster by combining clusters]
The cluster for the representative keyword can be expanded step by step based on other keywords included in the cluster. For example, it is assumed that B, C, and D are extracted as clusters of the representative keyword A. This relationship is expressed as (A: B, C, D). At this time, if (B: C, E) is given to the representative keyword B, the cluster of A can be expanded to (A: (B: C, E), D).
図30は、クラスタの拡張処理を示す図である。図30に示すように、クラスタ91、クラスタ92を合わせて、クラスタ93を作成する。この例では、クラスタ92の対象語「C自動車」がクラスタ91の対応語の1つである。そこで、クラスタ92の対応語を、クラスタ91の対応語「C自動車」の下位構造として関連付ける。その際、元からクラスタ91の対応語として設定されているキーワードに関しては、対応語「C自動車」の下位構造への関連づけの対象から除外する。
FIG. 30 is a diagram illustrating cluster expansion processing. As shown in FIG. 30, a
なお、どちらのクラスタが下位となるのかは、たとえば、検索ユーザ数や検索結果のヒット件数で判断することができる。図30の例では、クラスタ91の方がクラスタ92よりも検索件数が多いため、クラスタ91の配下にクラスタ92を配置することでクラスタ93が生成されている。
Note that which cluster is lower can be determined by, for example, the number of search users or the number of hits in the search results. In the example of FIG. 30, the
このようにクラスタを拡張することで、ユーザが選択した代表キーワードのコンテンツナビゲーションを行う際に、より広い範囲で関連するキーワードを提示することができる。 By expanding the cluster in this way, it is possible to present related keywords in a wider range when performing content navigation of the representative keyword selected by the user.
[注目クラスタの抽出]
基本DB113に含まれる検索キーワードのヒット件数やユニークユーザ数の時間的な変化とその時のユーザによる注目度を考える。たとえば、ユーザ数が増加していれば注目度が高いと考える。また、ヒット件数が増加していれば、注目度が高いと考える。
[Retrieve cluster of interest]
Consider the temporal change in the number of search keyword hits and the number of unique users included in the
図31は、ユーザ数とヒット件数との変化に応じた注目度を示す図である。この図では、注目度を5段階で評価している。数値が大きいほど注目度は高いことを示す。
このように、キーワード毎の注目度を予め設定しておく。そして、代表キーワードと同じクラスタに属するキーワードを表示する際には、注目度の高いキーワードを優先的に表示する。これにより、代表キーワードに関連するキーワードのうち、多くのユーザによって最近注目されている物事を示すキーワードを容易に知ることができる。
FIG. 31 is a diagram illustrating the degree of attention according to changes in the number of users and the number of hits. In this figure, the degree of attention is evaluated in five stages. The larger the value, the higher the degree of attention.
Thus, the attention level for each keyword is set in advance. When displaying a keyword belonging to the same cluster as the representative keyword, a keyword with a high degree of attention is preferentially displayed. Thereby, the keyword which shows the thing which attracts attention recently by many users among the keywords relevant to a representative keyword can be known easily.
[同じような検索パターンを持つ検索語同士を同一のクラスタと見做すクラスタ作成方法]
ある検索キーワードの1時間単位の検索数を縦軸、時刻を横軸に取っての検索数の増減をプロットしたときに、同じ時刻に極端に増加したり減少したりするキーワードは同じクラスタに入れる。また、検索数の代わりに、キーワードの注目度などの変化を見ても良い。キーワードの注目度とはたとえば以下のような式で定義される。
[Cluster creation method that considers search terms with similar search patterns as the same cluster]
When plotting the increase / decrease in the number of searches for a search keyword with the vertical axis representing the number of searches per hour and the horizontal axis representing time, the keywords that increase or decrease at the same time are included in the same cluster. . Further, instead of the number of searches, a change in the attention level of the keyword may be seen. The keyword attention level is defined by the following expression, for example.
これは、検索語wiの時刻tでの利用者数をUUt(wi)、その補正値をCtで表すとき、それらの注目度ATt(wi)を求める評価式である。
図32は、検索数と注目度との一日の遷移状況を比較した図である。この例では「郵便局」のグラフ94と「年賀状」のグラフ95とが示されている。グラフ94,95は、縦軸は数値(ユーザ数または注目度)、横軸が時刻である。そしてグラフ94,95には、それぞれ「年賀状」と「郵便局」の検索ユーザ数の変化と注目度の値の変化が1時間単位にプロットされている。そして、検索ユーザ数の値の変化が折れ線94a,95aで示されており、注目度の値の変化が折れ線94b,95bで示されている。
This is an evaluation formula for obtaining the attention degree AT t (w i ) when the number of users of the search word w i at time t is represented by UU t (w i ) and the correction value thereof is represented by C t .
FIG. 32 is a diagram comparing a daily transition state between the number of searches and the degree of attention. In this example, a “post office”
この例は、お年玉付き年賀はがきの当選番号の抽選日の記録である。図32から分かるように、2つのキーワードは、検索ユーザ数および注目度の立ち上がりの時期やピークの時期がほぼ同期している。このように、検索ユーザ数と注目度と何れか一方、若しくは両方の変化が同じキーワードは、クラスタに入れるようにする。これにより、入力された検索キーワードの情報のみからでも、有効なクラスタを作成することができる。 This example is a record of the lottery date of the winning number of a New Year postcard with New Year's cards. As can be seen from FIG. 32, the number of search users, the rising time of the attention level, and the peak time are almost synchronized in the two keywords. In this way, keywords having the same change in either or both of the number of search users and the degree of attention are entered in the cluster. As a result, an effective cluster can be created only from the input search keyword information.
[コンテンツナビゲーションのプログラムによる実現]
なお、上記の処理機能は、クライアントサーバシステムのサーバコンピュータによって実現することができる。その場合、ポータルサイトサーバ100が有すべき機能の処理内容を記述したサーバプログラムが提供される。サーバコンピュータは、クライアントコンピュータからの要求に応答して、サーバプログラムを実行する。これにより、上記処理機能がサーバコンピュータ上で実現され、処理結果がクライアントコンピュータに提供される。
[Realization by content navigation program]
The above processing functions can be realized by a server computer of a client server system. In that case, a server program describing the processing contents of the functions that the
処理内容を記述したサーバプログラムは、サーバコンピュータで読み取り可能な記録媒体に記録しておくことができる。サーバコンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスクドライブ(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。 The server program describing the processing contents can be recorded on a recording medium readable by the server computer. Examples of the recording medium readable by the server computer include a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory. Examples of the magnetic recording device include a hard disk drive (HDD), a flexible disk (FD), and a magnetic tape. Examples of the optical disc include a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only Memory), and a CD-R (Recordable) / RW (ReWritable). Magneto-optical recording media include MO (Magneto-Optical disk).
サーバプログラムを流通させる場合には、たとえば、そのサーバプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。
サーバプログラムを実行するサーバコンピュータは、たとえば、可搬型記録媒体に記録されたサーバプログラムを、自己の記憶装置に格納する。そして、サーバコンピュータは、自己の記憶装置からサーバプログラムを読み取り、サーバプログラムに従った処理を実行する。なお、サーバコンピュータは、可搬型記録媒体から直接サーバプログラムを読み取り、そのサーバプログラムに従った処理を実行することもできる。
When distributing the server program, for example, portable recording media such as a DVD and a CD-ROM in which the server program is recorded are sold.
The server computer that executes the server program stores, for example, the server program recorded on the portable recording medium in its own storage device. Then, the server computer reads the server program from its own storage device and executes processing according to the server program. The server computer can also read the server program directly from the portable recording medium and execute processing according to the server program.
(付記1) コンテンツの検索を支援するためのコンテンツナビゲーションプログラムにおいて、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラム。
(Supplementary note 1) In a content navigation program for supporting content search,
Computer
A storage unit that associates the keyword for search with the identification information of the selected content and stores it in a storage unit each time a user performs a search based on the keyword and selects any content from the search results;
A grouping unit that determines a relevance between the keywords stored in the storage unit based on a correspondence relationship between the keyword and the selected content, and groups the plurality of related keywords;
When an arbitrary representative keyword is selected, related keyword output means for outputting the other keyword belonging to the same group as the selected representative keyword,
A content navigation program characterized by functioning as
(付記2) 前記グループ化手段は、関連付けられた前記コンテンツが共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。
(付記3) 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記コンテンツの数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記2記載のコンテンツナビゲーションプログラム。
(Additional remark 2) The said grouping means groups the said keywords with which the said related content is common, The content navigation program characterized by the above-mentioned.
(Supplementary Note 3) When the two keywords are compared, the grouping unit groups the two keywords when the number of the commonly associated contents is equal to or greater than a predetermined value. The content navigation program according to
(付記4) 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記コンテンツの中で、共通して関連付けられている前記コンテンツの占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記2記載のコンテンツナビゲーションプログラム。
(Additional remark 4) When the said grouping means compares two said keywords, in the said content linked | related with at least one of the said two keywords, the ratio for which the said content linked | related is shared The content navigation program according to
(付記5) 前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、関連付けられた前記ユーザ識別情報が共通する前記キーワード同士をグループ化することを特徴とするコンテンツナビゲーションプログラム。
(Supplementary Note 5) The storage means further stores user identification information of a user who has input the keyword in the storage means in association with the keyword,
The content navigation program characterized in that the grouping means groups the keywords with which the associated user identification information is common.
(付記6) 前記グループ化手段は、2つの前記キーワードを比較したとき、共通して関連付けられている前記ユーザ識別情報の数が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記5記載のコンテンツナビゲーションプログラム。
(Appendix 6) The grouping means groups two keywords when the two keywords are compared, and the number of commonly associated user identification information is a predetermined value or more. The content navigation program according to
(付記7) 前記グループ化手段は、2つの前記キーワードを比較したとき、2つの前記キーワードの少なくとも一方に関連付けられている前記ユーザ識別情報の中で、共通して関連付けられている前記ユーザ識別情報の占める割合が所定値以上の場合、2つの前記キーワードをグループ化することを特徴とする付記5記載のコンテンツナビゲーションプログラム。
(Additional remark 7) When the said grouping means compares two said keywords, the said user identification information linked | related commonly among the said user identification information linked | related with at least one of the said two
(付記8) 前記グループ化手段は、前記記憶手段に含まれる1つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対象語と前記対応語とをグループ化し、更に前記対応語に対して関連する他の前記キーワードを同一グループに含めることを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(Additional remark 8) The said grouping means makes one said keyword contained in the said memory | storage means a target word, makes the said other keyword relevant to the said target word a corresponding word, the said target word, the said corresponding word, The content navigation program according to
(付記9) 前記コンピュータを、さらに、ユーザから不要として選択された前記キーワードを不要語として不要語記憶手段に格納する不要語格納手段として機能させ、
前記関連キーワード出力手段は、前記不要語記憶手段に記憶された前記不要語を除く前記キーワードを出力することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(Additional remark 9) The said computer is further functioned as an unnecessary word storage means to store the said keyword selected as unnecessary from a user as an unnecessary word in an unnecessary word storage means,
The content navigation program according to
(付記10) 前記不要語格納手段は、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、ユーザに選択された前記不要語と他の前記キーワードとの間の関連性を判定し、前記不要語に関連する他の前記キーワードを新たな不要語として前記不要語記憶手段に格納することを特徴とする付記9記載のコンテンツナビゲーションプログラム。
(Additional remark 10) The said unnecessary word storage means determines the relationship between the said unnecessary word selected by the user, and the said other keyword based on the correspondence of the said keyword and the said selected content, The content navigation program according to
(付記11) 前記グループ化手段は、前記記憶手段に含まれる1つの前記キーワードを対象語とし、前記対象語に対して関連する他の前記キーワードを対応語とし、前記対応語それぞれに関連付けられた前記コンテンツを前記対象語に関連付けて前記記憶手段に登録すると共に前記記憶手段から前記対応語を削除し、その後、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化することを特徴する付記1記載のコンテンツナビゲーションプログラム。
(Additional remark 11) The said grouping means made the said one keyword contained in the said memory | storage means into an object word, made the said other keyword relevant to the said object word into a corresponding word, and was linked | related with each said corresponding word The content is registered in the storage unit in association with the target word and the corresponding word is deleted from the storage unit, and then the relevance between the keywords stored in the storage unit is determined, The content navigation program according to
(付記12) 前記グループ化手段では、グループ化により生成された2つグループが共通の前記キーワードを有する場合、前記共通のキーワードを介して、一方の前記グループの配下に他方の前記グループを木構造に接続した新たなグループを生成することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(Additional remark 12) In the said grouping means, when two groups produced | generated by grouping have the said common keyword, the said other group under the said one group is tree-structured via the said common keyword. 2. A content navigation program according to
(付記13) 前記格納手段は、さらに、前記キーワードによる検索のヒット件数を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、ヒット件数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(Supplementary Note 13) The storage means further stores the number of search hits by the keyword in the storage means in association with the keyword,
The content navigation program according to
(付記14) 前記格納手段は、さらに、前記キーワードを入力したユーザのユーザ識別情報を、前記キーワードに関連付けて前記記憶手段に格納し、
前記グループ化手段は、入力したユーザ数の時間的な推移が類似する複数の前記キーワードをグループ化することを特徴とする付記1記載のコンテンツナビゲーションプログラム。
(Supplementary Note 14) The storage means further stores user identification information of a user who has input the keyword in the storage means in association with the keyword,
The content navigation program according to
(付記15) コンテンツの検索をコンピュータによって支援するためのコンテンツナビゲーション方法において、
格納手段が、ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納し、
グループ化手段が、前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化し、
関連キーワード出力手段が、任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する、
ことを特徴とするコンテンツナビゲーション方法。
(Supplementary Note 15) In a content navigation method for supporting a search for content by a computer,
Whenever the user performs a search based on the keyword and selects any content from the search results, the storage means associates the keyword for search with the identification information of the selected content and stores it in the storage means. ,
A grouping unit determines a relationship between the keywords stored in the storage unit based on a correspondence relationship between the keyword and the selected content, and groups the plurality of related keywords;
The related keyword output means outputs another keyword belonging to the same group as the selected representative keyword when an arbitrary representative keyword is selected.
A content navigation method characterized by the above.
(付記16) コンテンツの検索を支援するためのコンテンツナビゲーション装置において、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段と、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段と、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段と、
を有することを特徴とするコンテンツナビゲーション装置。
(Supplementary Note 16) In a content navigation apparatus for supporting content search,
A storage unit that associates and stores in the storage unit the keyword for search and the identification information of the selected content each time the user performs a search based on the keyword and selects any content from the search results;
Grouping means for determining a relevance between the keywords stored in the storage means based on a correspondence relationship between the keyword and the selected content, and grouping a plurality of related keywords;
When an arbitrary representative keyword is selected, related keyword output means for outputting the other keyword belonging to the same group as the selected representative keyword;
A content navigation apparatus comprising:
(付記17) コンテンツの検索を支援するためのコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の前記キーワードと選択された前記コンテンツの識別情報とを関連付けて記憶手段に格納する格納手段、
前記キーワードと選択された前記コンテンツとの対応関係に基づいて、前記記憶手段に格納された前記キーワード間の関連性を判定し、関連する複数の前記キーワードをグループ化するグループ化手段、
任意の代表キーワードが選択された際に、選択された前記代表キーワードと同じグループに属する他の前記キーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラムを記録したコンピュータ読み取り可能な記録媒体。
(Supplementary Note 17) In a computer-readable recording medium on which a content navigation program for supporting content search is recorded,
Computer
A storage unit that associates the keyword for search with the identification information of the selected content and stores it in a storage unit each time a user performs a search based on the keyword and selects any content from the search results;
A grouping unit that determines a relevance between the keywords stored in the storage unit based on a correspondence relationship between the keyword and the selected content, and groups the plurality of related keywords;
When an arbitrary representative keyword is selected, related keyword output means for outputting the other keyword belonging to the same group as the selected representative keyword,
A computer-readable recording medium on which a content navigation program is recorded.
1 コンテンツナビゲーション装置
1a 格納手段
1b 記憶手段
1c グループ化手段
1d 関連キーワード出力手段
2,5 クライアント
3 検索サーバ
4 コンテンツサーバ
6a キーワード
6b 検索結果
7a コンテンツ取得要求
7b コンテンツ
8a 代表キーワード
8b 関連キーワード
DESCRIPTION OF
Claims (5)
コンピュータを、
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の該キーワードに対し、選択された該コンテンツの識別情報と該キーワードを入力した該ユーザの識別情報とを関連付けて記憶手段に格納する格納手段、
前記記憶手段を参照し、関連付けられたユーザの識別情報の重複排除後の数が多いキーワードを対象語として選択し、前記記憶手段に格納された該対象語以外の非選択キーワードそれぞれに関して、該対象語と非選択キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と非選択キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の非選択キーワードを対応語とし、該対象語と該対応語とを一グループにグループ化し、該対応語に関連付けられたコンテンツの識別情報を該対象語に関連付け、前記記憶手段に格納された該対象語および該対応語以外の未グループ化キーワードそれぞれに関して、該対象語と未グループ化キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と未グループ化キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の未グループ化キーワードを該一グループに含めるグループ化手段、
ユーザの操作入力により任意の代表キーワードが入力された際に、入力された該代表キーワードと同じグループに属する該代表キーワード以外のキーワードを出力する関連キーワード出力手段、
として機能させることを特徴とするコンテンツナビゲーションプログラム。 In a content navigation program for supporting content search,
Computer
Each time a user performs a search based on a keyword and selects any content from the search results, the identification information of the selected content and the identification information of the user who has input the keyword are input for the keyword for search. Storage means for associating and storing in the storage means,
With reference to the storage means, a keyword having a large number after deduplication of identification information of the associated user is selected as a target word, and for each non-selected keyword other than the target word stored in the storage means, the target words and the number of identification information of content associated with common between the non-selected keyword, divided by the sum of the identification information of the content associated with each of the said subject word and the non-selected keyword, the division result numerical A non-selected keyword having a predetermined value equal to or greater than a predetermined value as a corresponding word, the target word and the corresponding word are grouped into one group, content identification information associated with the corresponding word is associated with the target word, and stored in the storage unit regard the subject word stored and each non-grouped keyword other than the corresponding word, associate in common between the subject word and the non-grouped keywords The number of identification information obtained content, divided by the sum of the identification information of the content associated with each of the said subject word and non grouping keyword, division result of numerical said non grouping keywords than a predetermined value Grouping means included in one group,
Related keyword output means for outputting a keyword other than the representative keyword belonging to the same group as the input representative keyword when an arbitrary representative keyword is input by a user's operation input;
A content navigation program characterized by functioning as
前記コンピュータが、 The computer is
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の該キーワードに対し、選択された該コンテンツの識別情報と該キーワードを入力した該ユーザの識別情報とを関連付けて記憶手段に格納し、 Each time a user performs a search based on a keyword and selects any content from the search results, the identification information of the selected content and the identification information of the user who has input the keyword are input for the keyword for search. Is stored in the storage means in association with
前記記憶手段を参照し、関連付けられたユーザの識別情報の重複排除後の数が多いキーワードを対象語として選択し、前記記憶手段に格納された該対象語以外の非選択キーワードそれぞれに関して、該対象語と非選択キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と非選択キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の非選択キーワードを対応語とし、該対象語と該対応語とを一グループにグループ化し、該対応語に関連付けられたコンテンツの識別情報を該対象語に関連付け、前記記憶手段に格納された該対象語および該対応語以外の未グループ化キーワードそれぞれに関して、該対象語と未グループ化キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と未グループ化キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の未グループ化キーワードを該一グループに含め、 With reference to the storage means, a keyword having a large number after deduplication of identification information of the associated user is selected as a target word, and for each non-selected keyword other than the target word stored in the storage means, the target The number of content identification information commonly associated with a word and a non-selected keyword is divided by the sum of the content identification information associated with each of the target word and the non-selected keyword, and the numerical value of the division result A non-selected keyword having a predetermined value equal to or greater than a predetermined value as a corresponding word, grouping the target word and the corresponding word into a group, associating content identification information associated with the corresponding word with the target word, For each ungrouped keyword other than the stored target word and the corresponding word, the target word and the ungrouped keyword are associated in common. The number of pieces of identification information of the obtained content is divided by the sum of the pieces of content identification information associated with the target word and the ungrouped keyword, and an ungrouped keyword whose division result is a predetermined value or more In one group,
ユーザの操作入力により任意の代表キーワードが入力された際に、入力された該代表キーワードと同じグループに属する該代表キーワード以外のキーワードを出力する、 When an arbitrary representative keyword is input by a user operation input, a keyword other than the representative keyword belonging to the same group as the input representative keyword is output.
ことを特徴とするコンテンツナビゲーション方法。 A content navigation method characterized by the above.
ユーザがキーワードに基づいた検索を行い検索結果の中から任意のコンテンツを選択する度に、検索用の該キーワードに対し、選択された該コンテンツの識別情報と該キーワードを入力した該ユーザの識別情報とを関連付けて記憶手段に格納する格納手段と、 Each time a user performs a search based on a keyword and selects any content from the search results, the identification information of the selected content and the identification information of the user who has input the keyword are input for the keyword for search. Storage means for associating and storing in the storage means,
前記記憶手段を参照し、関連付けられたユーザの識別情報の重複排除後の数が多いキーワードを対象語として選択し、前記記憶手段に格納された該対象語以外の非選択キーワードそれぞれに関して、該対象語と非選択キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と非選択キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の非選択キーワードを対応語とし、該対象語と該対応語とを一グループにグループ化し、該対応語に関連付けられたコンテンツの識別情報を該対象語に関連付け、前記記憶手段に格納された該対象語および該対応語以外の未グループ化キーワードそれぞれに関して、該対象語と未グループ化キーワードとの間で共通に関連付けられたコンテンツの識別情報の数を、該対象語と未グループ化キーワードとのそれぞれに関連付けられたコンテンツの識別情報の合計で除算し、除算結果の数値が所定値以上の未グループ化キーワードを該一グループに含めるグループ化手段と、 With reference to the storage means, a keyword having a large number after deduplication of identification information of the associated user is selected as a target word, and for each non-selected keyword other than the target word stored in the storage means, the target Divide the number of content identification information commonly associated between the word and the non-selected keyword by the sum of the content identification information associated with the target word and the non-selected keyword, A non-selected keyword having a predetermined value equal to or greater than a predetermined value as a corresponding word, the target word and the corresponding word are grouped into one group, content identification information associated with the corresponding word is associated with the target word, and stored in the storage unit For each ungrouped keyword other than the stored target word and the corresponding word, the target word and the ungrouped keyword are associated in common. The number of pieces of content identification information obtained is divided by the sum of the content identification information associated with each of the target word and the ungrouped keyword, and an ungrouped keyword whose division result is equal to or greater than a predetermined value is obtained. Grouping means to be included in one group;
ユーザの操作入力により任意の代表キーワードが入力された際に、入力された該代表キーワードと同じグループに属する該代表キーワード以外のキーワードを出力する関連キーワード出力手段と、 Related keyword output means for outputting a keyword other than the representative keyword belonging to the same group as the input representative keyword when an arbitrary representative keyword is input by a user's operation input;
を有することを特徴とするコンテンツナビゲーション装置。 A content navigation apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004128925A JP4535765B2 (en) | 2004-04-23 | 2004-04-23 | Content navigation program, content navigation method, and content navigation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004128925A JP4535765B2 (en) | 2004-04-23 | 2004-04-23 | Content navigation program, content navigation method, and content navigation apparatus |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010122744A Division JP5079845B2 (en) | 2010-05-28 | 2010-05-28 | Content navigation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005309998A JP2005309998A (en) | 2005-11-04 |
JP4535765B2 true JP4535765B2 (en) | 2010-09-01 |
Family
ID=35438670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004128925A Expired - Fee Related JP4535765B2 (en) | 2004-04-23 | 2004-04-23 | Content navigation program, content navigation method, and content navigation apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4535765B2 (en) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007148948A (en) * | 2005-11-30 | 2007-06-14 | Hitachi Ltd | Document search program |
JP4853047B2 (en) * | 2006-03-01 | 2012-01-11 | 株式会社ニコン | Image photographing system, imaging device, and information providing device |
JP4875911B2 (en) * | 2006-03-20 | 2012-02-15 | ニフティ株式会社 | Content identification method and apparatus |
JP4953428B2 (en) * | 2006-09-05 | 2012-06-13 | ヤフー株式会社 | Related information provision system to the community |
JP4910817B2 (en) * | 2007-03-26 | 2012-04-04 | 富士通株式会社 | Search candidate phrase presenting apparatus, search candidate phrase presenting program, and search candidate phrase presenting method |
JP4998038B2 (en) * | 2007-03-26 | 2012-08-15 | 富士通株式会社 | Search candidate phrase presenting apparatus, search candidate phrase presenting program, and search candidate phrase presenting method |
WO2008129606A1 (en) * | 2007-04-06 | 2008-10-30 | Fujitsu Limited | Communication system, communication device and computer program |
JP5089245B2 (en) * | 2007-05-22 | 2012-12-05 | 富士通株式会社 | Directory hierarchy generation program, directory hierarchy generation apparatus, and directory hierarchy generation method |
US7970721B2 (en) | 2007-06-15 | 2011-06-28 | Microsoft Corporation | Learning and reasoning from web projections |
JP4966162B2 (en) * | 2007-10-31 | 2012-07-04 | 株式会社東芝 | Data processing device |
JP4839295B2 (en) * | 2007-11-02 | 2011-12-21 | ヤフー株式会社 | Query extraction method, query extraction device, and query extraction program |
JP4962967B2 (en) * | 2008-01-11 | 2012-06-27 | ヤフー株式会社 | Web page search server and query recommendation method |
JP4848388B2 (en) * | 2008-04-09 | 2011-12-28 | ヤフー株式会社 | How to calculate a score for a search query |
JP5347334B2 (en) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | Summary work support processing method, apparatus and program |
JP5178347B2 (en) * | 2008-06-25 | 2013-04-10 | ヤフー株式会社 | System, method, and program comprising feature word sorting device and classification device |
US8429106B2 (en) * | 2008-12-12 | 2013-04-23 | Atigeo Llc | Providing recommendations using information determined for domains of interest |
JP5493515B2 (en) * | 2009-07-03 | 2014-05-14 | 富士通株式会社 | Portable terminal device, information search method, and information search program |
JP5493845B2 (en) * | 2009-12-28 | 2014-05-14 | 富士通株式会社 | Search support program, search support device, and search support method |
JP5636700B2 (en) * | 2010-03-11 | 2014-12-10 | 日本電気株式会社 | Related word dictionary creation device, related word dictionary creation method, program, and document search system |
JP5590610B2 (en) * | 2010-11-18 | 2014-09-17 | 株式会社Nttドコモ | Synonym determining device, synonym determining method and program |
WO2016088212A1 (en) * | 2014-12-03 | 2016-06-09 | 株式会社日立製作所 | Data collection device and data collection method |
JP6703801B2 (en) * | 2015-11-20 | 2020-06-03 | 株式会社オウケイウェイヴ | server |
JP7088795B2 (en) * | 2018-09-19 | 2022-06-21 | ヤフー株式会社 | Information processing equipment, information processing methods, and programs |
JP6945680B1 (en) * | 2020-05-20 | 2021-10-06 | ヤフー株式会社 | Information processing equipment, information processing methods, and information processing programs |
JP7008102B2 (en) * | 2020-05-20 | 2022-01-25 | ヤフー株式会社 | Information processing equipment, information processing methods, and information processing programs |
JP7492488B2 (en) * | 2021-05-19 | 2024-05-29 | Lineヤフー株式会社 | Providing device, providing method, and providing program |
WO2023106607A1 (en) * | 2021-12-07 | 2023-06-15 | 삼성전자 주식회사 | Electronic device for searching for content and method thereof |
US12118051B2 (en) | 2021-12-07 | 2024-10-15 | Samsung Electronics Co., Ltd. | Electronic device for searching for content and method thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092032A (en) * | 1999-09-21 | 2001-04-06 | Noritsu Koki Co Ltd | Photographic processor |
JP2002092032A (en) * | 2000-09-12 | 2002-03-29 | Nippon Telegr & Teleph Corp <Ntt> | Method for presenting next retrieval candidate word and device for the same and recording medium with next retrieval candidate word presenting program recorded thereon |
-
2004
- 2004-04-23 JP JP2004128925A patent/JP4535765B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001092032A (en) * | 1999-09-21 | 2001-04-06 | Noritsu Koki Co Ltd | Photographic processor |
JP2002092032A (en) * | 2000-09-12 | 2002-03-29 | Nippon Telegr & Teleph Corp <Ntt> | Method for presenting next retrieval candidate word and device for the same and recording medium with next retrieval candidate word presenting program recorded thereon |
Also Published As
Publication number | Publication date |
---|---|
JP2005309998A (en) | 2005-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4535765B2 (en) | Content navigation program, content navigation method, and content navigation apparatus | |
JP5079845B2 (en) | Content navigation program | |
US11188604B2 (en) | Auto-refinement of search results based on monitored search activities of users | |
US6983320B1 (en) | System, method and computer program product for analyzing e-commerce competition of an entity by utilizing predetermined entity-specific metrics and analyzed statistics from web pages | |
Koshman et al. | Web searching on the Vivisimo search engine | |
Dmitriev et al. | Using annotations in enterprise search | |
US7013323B1 (en) | System and method for developing and interpreting e-commerce metrics by utilizing a list of rules wherein each rule contain at least one of entity-specific criteria | |
US8250474B2 (en) | Chronology display and feature for online presentations and web pages | |
US20070067304A1 (en) | Search using changes in prevalence of content items on the web | |
US20100131455A1 (en) | Cross-website management information system | |
KR20070038146A (en) | Personalization of placed content ordering in search results | |
US20080222097A1 (en) | Apparatus, system, and method for an inline display of related blog postings | |
EP1938214A1 (en) | Search using changes in prevalence of content items on the web | |
US20160103913A1 (en) | Method and system for calculating a degree of linkage for webpages | |
EP2933734A1 (en) | Method and system for the structural analysis of websites | |
WO2001055909A1 (en) | System and method for bookmark management and analysis | |
US8131752B2 (en) | Breaking documents | |
JP6275685B2 (en) | Web page creation processing program and electronic device | |
Shrivastava et al. | A survey of web usage mining: concepts with applications and its future scope | |
Wetzker | Graph-based recommendation in broad folksonomies | |
Bouras et al. | Α Web Clipping Service’s Information Extraction Mechanism | |
Pitale et al. | Survey Paper based on Search Engine Optimization, Web Crawler and Web Mining | |
Fancy et al. | A Review on Basics in Web Mining | |
JP2008165313A (en) | Homepage preparation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100330 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100615 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100615 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130625 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313115 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |