JP4878591B2 - Content search device, content search method, program, and recording medium - Google Patents

Content search device, content search method, program, and recording medium Download PDF

Info

Publication number
JP4878591B2
JP4878591B2 JP2007253752A JP2007253752A JP4878591B2 JP 4878591 B2 JP4878591 B2 JP 4878591B2 JP 2007253752 A JP2007253752 A JP 2007253752A JP 2007253752 A JP2007253752 A JP 2007253752A JP 4878591 B2 JP4878591 B2 JP 4878591B2
Authority
JP
Japan
Prior art keywords
tag
content
similarity
tags
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007253752A
Other languages
Japanese (ja)
Other versions
JP2009086858A (en
Inventor
考 藤村
滋 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007253752A priority Critical patent/JP4878591B2/en
Publication of JP2009086858A publication Critical patent/JP2009086858A/en
Application granted granted Critical
Publication of JP4878591B2 publication Critical patent/JP4878591B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツの内容を表したキーワードがタグとして付与されているコンテンツデータベースから、タグを指定し、コンテンツを検索するコンテンツ検索装置および方法に係る。   The present invention relates to a content search apparatus and method for searching for content by designating a tag from a content database to which a keyword representing the content content is assigned as a tag.

特に、互いに概念的に関連するタグが、二次元空間上の近くに配置されているタグクラウドを表示するとともに、背景画像を工夫することによって、タグ同士の様々な構造的な関係を類推可能にすることによって、利用者が関心のあるタグを、容易に選択することができるタグクラウドを提示するコンテンツ検索装置および方法に関する。
In particular, tags that are conceptually related to each other display a tag cloud that is placed close to the two-dimensional space, and by devising a background image, various structural relationships between tags can be inferred It is related with the content search apparatus and method which show the tag cloud which can select easily the tag which a user is interested by doing.

インターネット上の情報量の増加と、検索エンジンの技術の進歩とに伴い、インターネットから様々な情報を取得することができる。しかし、膨大な情報の中から、利用者が求める情報を取捨選択するためには、利用者が、検索のためのキーワードを適切に与える必要があり、利用者がキーワードを考えるための負担は少なくない。また、そもそもキーワードの入力に際しては、キーボードから文字を入力することが避けられない。   With the increase in the amount of information on the Internet and the advancement of search engine technology, various information can be acquired from the Internet. However, in order to select the information required by the user from the vast amount of information, it is necessary for the user to appropriately provide a keyword for search, and the burden on the user to think about the keyword is small. Absent. In the first place, it is inevitable to input characters from the keyboard when inputting keywords.

近年、これらの利用者側の負担を少しでも軽減させるために、検索される側のコンテンツに対して、そのコンテンツの内容を表した短い語句からなるメタデータを、タグとして設定することによって、利用者が求める情報に容易に辿り着けるようにする試みが行われている。   In recent years, in order to reduce the burden on these users as much as possible, it has been used by setting metadata consisting of short words and phrases representing the content of the searched content as tags. Attempts have been made to make it easier to get to the information that people want.

たとえば、写真共有サイトのFlickr(登録商標)や動画共有サイトのYouTube(登録商標)では、写真や動画に対して、その主題を表現するキーワード、カテゴリ、ジャンルをタグとして設定することができる。また、多くのブログにおいても、ブログの著者によって、タグを設定できる。Technorati(登録商標)社のブログ検索では、タグを指定してブログ記事を検索できるシステムを提供している。   For example, in Flickr (registered trademark) of a photo sharing site and Youtube (registered trademark) of a moving image sharing site, keywords, categories, and genres that express the subject can be set as tags for photos and moving images. Also, in many blogs, tags can be set by the blog author. Technorati (registered trademark) blog search provides a system that can search for blog articles by specifying tags.

利用者がタグ付コンテンツをアクセスするためのインタフェースとして、タグクラウドと呼ぶものがある。この「タグクラウド」は、タグを検索条件とするタグ検索へのハイパーリンクを持つタグの集合を、矩形上のエリアに詰めて表示するものである。   There is what is called a tag cloud as an interface for a user to access tagged content. This “tag cloud” displays a set of tags having hyperlinks to tag search using tags as search conditions in a rectangular area.

タグクラウドによって、利用者は、マウスや、任天堂(登録商標)株式会社のWii(登録商標)リモコン等を介して、タグクラウド上に表示されているタグをクリックするだけで、タグが付与されているコンテンツを検索することができ、検索のために利用者がキーワード入力する作業を軽減することができる。   A tag cloud allows a user to click a tag displayed on the tag cloud via a mouse or a Wii (registered trademark) remote control of Nintendo (registered trademark) Co., Ltd. Content can be searched, and the work of inputting keywords by the user for the search can be reduced.

また、コンテンツにタグを付与する場合、コンテンツの作者または読み手が明示的に与える方法がある。また、コンテンツ中のテキストに含まれている人物名、組織名、場所名の固有表現等を抽出し、これらの中から特徴的に出現するものを、タグとして自動的に抽出する方法(たとえば、特許文献1参照)が知られている。さらに、タグが明示的に与えられているテキスト集合を学習データとして、タグが付与されていないテキストに対して、学習データ中の類似したテキストに付与されているタグに基づいて、タグを自動的に付与する方法が提案されている(たとえば、非特許文献1参照)。
特開2005−339139号公報 藤村滋 他,ブログ記事への自動マルチタグ付与,人工知能学会全国大会論文集,3G8-3, 2007
In addition, when a tag is added to content, there is a method in which the author or reader of the content explicitly gives it. In addition, a method for extracting a person name, an organization name, a unique expression of a place name, and the like included in the text in the content, and automatically extracting those that appear characteristically from these as tags (for example, Patent Document 1) is known. In addition, a set of texts to which a tag is explicitly given is used as learning data, and a tag is automatically assigned to text that is not assigned a tag based on tags assigned to similar texts in the learning data. Has been proposed (for example, see Non-Patent Document 1).
JP 2005-339139 A Shigeru Fujimura et al., Automatic multi-tagging for blog articles, Proceedings of the Japan Society for Artificial Intelligence, 3G8-3, 2007

上記従来技術は、何れもタグを付与する技術であり、タグが付与されたコンテンツを、利用者が選択することを支援する技術ではない。したがって、多数のコンテンツに様々なタグが付与されると、タグクラウドの面積が大きくなり、たとえば、一般的な解像度のディスプレイでは、500程度のタグが含まれているタグクラウドを表示することが限界である。しかし、様々なコンテンツを分類するためには、5,000〜10,000種類の分類が必要であると考えられ、もし、5,000〜10,000の分類を、単純なタグクラウドとして表示した場合、この表示されたタグクラウドの中から適切なタグを見つけることが困難であるという問題がある。つまり、現在のタグクラウドの多くは、アルファベット順または文字コード順に並べられ、近くに配置されているタグ同士が互いに関連していないので、その中から適切なタグを見つけることが困難であるという問題がある。   Any of the above prior arts is a technique for assigning a tag, and is not a technique for assisting a user in selecting content to which a tag is attached. Therefore, when various tags are added to a large number of contents, the area of the tag cloud increases. For example, in a general resolution display, it is limited to display a tag cloud containing about 500 tags. It is. However, in order to classify various contents, it is thought that 5,000 to 10,000 types of classification are necessary, and if 5,000 to 10,000 classifications are displayed as a simple tag cloud In this case, there is a problem that it is difficult to find an appropriate tag from the displayed tag cloud. In other words, many of today's tag clouds are arranged in alphabetical order or character code order, and tags placed nearby are not related to each other, so it is difficult to find an appropriate tag from among them. There is.

このために、上記従来例では、5,000程度のタグを列挙する場合、利用者が、関心のあるタグを人手で見つけ出すことがもはや不可能であり、タグ検索を利用しなければならない。これでは、本来、キーボード入力せずにクリックだけで検索できるタグクラウドのメリットはなくなり、本末転倒である。   For this reason, in the above conventional example, when about 5,000 tags are enumerated, it is no longer possible for a user to manually find a tag of interest, and tag search must be used. In this case, the advantage of tag cloud that can be searched by just clicking without keyboard input is lost, and it falls to the end.

本発明は、多数のタグによって構成されているタグクラウドを表示する場合、利用者が適切なタグを容易に選択することができるコンテンツ検索装置および方法を提供することを目的とする。
An object of the present invention is to provide a content search apparatus and method that allow a user to easily select an appropriate tag when displaying a tag cloud composed of a large number of tags.

本発明は、分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件としてコンテンツを検索するコンテンツ検索装置において、上記コンテンツデータベースに、タグ付コンテンツを登録するコンテンツ登録手段と、上記タグの統計情報に基づいて、タグ同士の類似度であるタグ間類似度を測定し、記憶装置に記憶するタグ間類似度算出手段と、上記タグ間類似度に基づいて、互いにタグ間類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出し、記憶装置に記憶するタグ座標算出手段と、上記タグ座標に、それぞれのタグが配置されているタグマップを生成し、記憶装置に記憶するタグマップ生成手段と、上記タグマップを利用者端末に表示するタグマップ表示手段と、上記タグマップ上に表示されているタグの中から、利用者が選択したタグを取得し、記憶装置に記憶するタグ選択手段と、上記タグ選択手段を介して選択されたタグを検索条件として、このタグが付与されているコンテンツを、上記コンテンツデータベースから検索し、記憶装置に記憶するコンテンツ検索手段と、上記コンテンツ検索手段が検索した検索結果を利用者端末に表示する検索結果表示手段とを有し、上記タグ座標算出手段は、上記タグ間類似度算出手段によって算出されたタグ間類似度を利用し、各タグiからみてタグ間類似度が高いタグを降順に並べ、上位のタグ集合N(i)を選択し、iからj(∈N(i))へのリンクを抽出し、上記タグ間類似度をリンクとするネットワークの中心性スコアを、上記タグであるノードの高度座標として算出する高度座標算出手段を有し、上記タグマップ生成手段は、上記高度座標を利用した三次元立体モデルを作成することによって、立体感のあるタグクラウド画像を生成する三次元モデル生成手段を有することを特徴とするコンテンツ検索装置である。The present invention registers content with a tag in the content database in a content search device that searches content from a content database configured by a content set to which a tag that is a classification keyword is assigned, using the tag as a search condition. Based on the tag registration information, based on the tag statistical information, the inter-tag similarity calculation means for measuring the similarity between the tags, which is the similarity between the tags, and the inter-tag similarity Tag coordinate calculation means for calculating tag coordinates, which are coordinates on a two-dimensional plane of the tags, and storing them in a storage device so that the tags having high similarity between the tags are close to each other, and the tag Tag map generating means for generating a tag map in which each tag is arranged at the coordinates and storing it in a storage device; Tag map display means for displaying a map on a user terminal, tag selection means for acquiring a tag selected by a user from tags displayed on the tag map, and storing the tag in a storage device, and the tag Using the tag selected through the selection means as a search condition, the content to which the tag is attached is searched from the content database and stored in the storage device, and the search result searched by the content search means And a search result display means for displaying on the user terminal, the tag coordinate calculation means using the inter-tag similarity calculated by the inter-tag similarity calculation means, and the inter-tag similarity seen from each tag i Tags with a high degree are arranged in descending order, a high-order tag set N (i) is selected, a link from i to j (εN (i)) is extracted, and the similarity between the tags is defined as a link. Altitude coordinate calculating means for calculating the centrality score of the network as the altitude coordinates of the node as the tag, and the tag map generating means creates a three-dimensional solid model using the altitude coordinates, The content search apparatus includes a three-dimensional model generation unit that generates a tag cloud image with a feeling.

本発明によれば、タグクラウドにおいて、タグが付与されているテキスト中に含まれている単語の統計的な頻度に基づいて、タグ同士の概念的な意味の近さを、タグ間類似度算出手段が算出し、また、類似度が高いタグ同士を、二次元平面上の互いに近い位置に、タグ座標算出手段が配置するので、利用者は、関心の高い1つのタグが見つかると、他の関連したタグの存在に容易に気付くことができ、関連のあるコンテンツを容易に見つけることができるという効果を奏する。
According to the present invention, in the tag cloud, the similarity between tags is calculated based on the statistical frequency of words included in the text to which the tag is attached. The tag coordinate calculation means arranges tags calculated by the means and having high similarity at positions close to each other on the two-dimensional plane, so that when the user finds one tag with high interest, The presence of the related tag can be easily noticed, and the related content can be easily found.

発明を実施するための最良の形態は、以下の実施例である。   The best mode for carrying out the invention is the following examples.

図1は、本発明の実施例1であるコンテンツ検索装置100の全体構成を示すブロック図である。   FIG. 1 is a block diagram showing the overall configuration of a content search apparatus 100 that is Embodiment 1 of the present invention.

コンテンツ検索装置100は、分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件として、コンテンツを検索する装置である。   The content search device 100 is a device that searches for content from a content database configured by a content set to which a tag that is a classification keyword is assigned using a tag as a search condition.

また、コンテンツ検索装置100は、コンテンツ登録手段10と、コンテンツデータベース11と、タグ統計情報12と、タグ間類似度算出手段20と、タグ座標算出手段30と、タグマップ生成手段40と、ユーザインタフェース部50と、コンテンツ検索手段60とを有する。   Further, the content search apparatus 100 includes a content registration unit 10, a content database 11, tag statistical information 12, an inter-tag similarity calculation unit 20, a tag coordinate calculation unit 30, a tag map generation unit 40, a user interface. Unit 50 and content search means 60.

コンテンツ登録手段10は、コンテンツデータベース11に、タグ付コンテンツを登録する。   The content registration unit 10 registers tagged content in the content database 11.

タグ間類似度算出手段20は、タグの統計情報12に基づいて、タグ同士の類似度を測定する。つまり、タグ間類似度算出手段20は、タグが付与されているコンテンツに含まれている単語の頻度情報に基づいて、タグの特徴ベクトルを生成し、タグの特徴ベクトルの類似度に応じて、タグ間類似度を算出する。   The tag similarity calculation means 20 measures the similarity between tags based on the tag statistical information 12. That is, the inter-tag similarity calculation unit 20 generates a tag feature vector based on the frequency information of the words included in the content to which the tag is attached, and according to the similarity of the tag feature vector, The similarity between tags is calculated.

タグ座標算出手段30は、上記タグ間類似度に基づいて、互いに類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出する。つまり、タグ座標算出手段30は、タグをノードとし、タグ間類似度をリンクとするネットワーク情報が与えられると、強いリンクを持つノード同士を、二次元平面上に、互いに近い位置(所定距離以下の位置)に配置し、タグの属性を高度座標として算出する。   The tag coordinate calculation means 30 calculates the tag coordinates, which are the coordinates on the two-dimensional plane of the tag, so that the tags having high similarity are close to each other based on the similarity between the tags. That is, the tag coordinate calculation means 30 is provided with network information that uses a tag as a node and a similarity between tags as a link, and places nodes having strong links on the two-dimensional plane at positions close to each other (below a predetermined distance). And the tag attribute is calculated as altitude coordinates.

タグマップ生成手段40は、上記タグ座標に、それぞれのタグを配置したタグマップ41を生成する。つまり、タグマップ生成手段40は、任意の位置に設定された(x,y,z)のデータ集合から、三次元の地表モデルを作成し、斜めから光を当て、上部から撮影した立体感のある二次元画像を、タグマップ41として生成する。   The tag map generation means 40 generates a tag map 41 in which the respective tags are arranged at the tag coordinates. That is, the tag map generation means 40 creates a three-dimensional surface model from a data set (x, y, z) set at an arbitrary position, applies light from an oblique direction, and captures a stereoscopic effect photographed from above. A certain two-dimensional image is generated as the tag map 41.

ユーザインタフェース部50は、タグマップ表示手段51と、タグ選択手段52と、検索結果表示手段53とを有する。   The user interface unit 50 includes tag map display means 51, tag selection means 52, and search result display means 53.

タグマップ表示手段51は、タグマップ41を利用者端末に表示する。つまり、タグマップ表示手段51は、タグマップ生成手段40が生成したタグマップ41を、スクロール可能であり、タグマップ41上のタグをクリックできるタグマップ41を、利用者端末装置に表示する。   The tag map display means 51 displays the tag map 41 on the user terminal. That is, the tag map display means 51 displays on the user terminal device the tag map 41 that can scroll the tag map 41 generated by the tag map generation means 40 and click a tag on the tag map 41.

タグ選択手段52は、タグマップ41上に表示されているタグの中から、利用者が選択したタグを取得する。つまり、タグ選択手段52は、マーカ座標取得手段を具備する。このマーカ座標取得手段は、利用者がマウスドラッグ等、移動させたタグマップ41の位置の変化を取得し、タグマップ41の中心付近の座標を取得する手段である。また、タグ選択手段52は、上記マーカ座標取得手段が取得したタグマップ41の中心付近のタグのリストを取得し、コンテンツデータベース11からタグを検索する。   The tag selection means 52 acquires the tag selected by the user from the tags displayed on the tag map 41. That is, the tag selection unit 52 includes a marker coordinate acquisition unit. This marker coordinate acquisition means is means for acquiring a change in the position of the tag map 41 moved by the user, such as mouse dragging, and acquiring coordinates near the center of the tag map 41. Further, the tag selection unit 52 acquires a list of tags near the center of the tag map 41 acquired by the marker coordinate acquisition unit, and searches the content database 11 for tags.

コンテンツ検索手段60は、タグ選択手段52が選択したタグを検索条件として、そのタグが付与されたコンテンツを、コンテンツデータベース11から検索する。   The content search unit 60 searches the content database 11 for the content to which the tag is assigned using the tag selected by the tag selection unit 52 as a search condition.

検索結果表示手段53は、検索結果を利用者端末に表示する。つまり、検索結果表示手段53は、コンテンツ検索手段60がタグ検索した検索結果を、利用者端末装置に表示する。   The search result display means 53 displays the search result on the user terminal. That is, the search result display unit 53 displays the search result searched by the content search unit 60 on the user terminal device.

なお、上記実施例におけるコンテンツは、インターネット上のWebページ、画像、音声、動画のディジタルコンテンツ、商品、サービス等、タグを付与することができる現実空間のオブジェクトをも含むものである。   Note that the content in the above embodiment includes objects in real space that can be tagged, such as Web pages on the Internet, digital content of images, sounds, and moving images, products, services, and the like.

また、上記実施例において、タグは、コンテンツを分類するためのラベルとして利用するキーワードの集合であり、通常、コンテンツに対して人手で付与するが、上記特許文献1、または、上記非特許文献1に記載されているオートタギング技術を利用して自動的に付与するようにしてもよい。   Moreover, in the said Example, although a tag is a collection of the keywords used as a label for classifying content, and is normally given to content manually, the said patent document 1 or the said nonpatent literature 1 Alternatively, the automatic tagging technique described in the above may be used to automatically apply the information.

次に、各手段の詳細な動作について説明する。   Next, detailed operation of each means will be described.

図2は、実施例1において、コンテンツを登録する処理を示すフローチャートである。   FIG. 2 is a flowchart illustrating processing for registering content in the first embodiment.

図2に示すコンテンツを登録する処理は、一度起動されると、システムを運用するオペレータによって明示的に停止されるまで、常時繰り返し実行する。   The process for registering the content shown in FIG. 2 is repeatedly executed once started until it is explicitly stopped by an operator operating the system.

図3は、コンテンツデータベース11に登録されているコンテンツの例を示す図である。   FIG. 3 is a diagram illustrating an example of content registered in the content database 11.

S1で、利用者が、コンテンツ登録手段10を介してコンテンツデータベース11に、図3に示すように、コンテンツを明示的に登録する。また、コンテンツ登録手段10は、一般的な検索エンジンであり、従来から用いられているクローラによって、インターネット上のリソースを自動的に収集し、登録するものであってもよい。ただし、いずれの方法においても、登録するコンテンツは、タグ付コンテンツである。   In S <b> 1, the user explicitly registers content in the content database 11 via the content registration unit 10 as shown in FIG. 3. The content registration means 10 is a general search engine, and may automatically collect and register resources on the Internet by a crawler conventionally used. However, in any method, the content to be registered is tagged content.

タグが付与されたコンテンツは、たとえば、del.icio.us等のソーシャルブックマークサービスのように、利用者がWebページをブックマーク登録する際に、タグを付与したブックマーク情報がある。また、ブログ記事では、RSSの<dc:subject>フィールドにおいて、キーワードを指定するので、このようなRSSが与えられているプログ記事は、タグが付与されているコンテンツの例である。   The content to which the tag is attached is, for example, del. icio. Like a social bookmark service such as us, there is bookmark information to which a tag is attached when a user bookmarks a Web page. In the blog article, since a keyword is specified in the <dc: subject> field of RSS, the program article to which such RSS is given is an example of content to which a tag is assigned.

コンテンツデータベース11は、図3に示すように、コンテンツID、タグ、コンテンツ等を、コンテンツ単位に関連付けしたデータとして保持している。ここで、コンテンツIDは、コンテンツ毎に、ユニークに与えられる識別子である。タグは、文書作成者によって設定された本文の内容を端的に表している語句である。コンテンツは、コンテンツそのものである。また、図3に示すように、URLや登録日時、タイトル等の付加的な情報を加えてデータを保持するようにしてもよい。   As shown in FIG. 3, the content database 11 stores content IDs, tags, contents, and the like as data associated with content units. Here, the content ID is an identifier uniquely given to each content. The tag is a word or phrase that directly represents the content of the text set by the document creator. The content is the content itself. As shown in FIG. 3, additional information such as a URL, registration date and time, and a title may be added to hold the data.

また、このように、利用者がタグを明示的に付与する代わりに、コンテンツ中のテキストに含まれている人物名、組織名、場所名の固有表現等を抽出し、これらの中から特徴的に出現するものを、タグとして自動的に抽出する方法(特許文献1参照)や、タグが明示的に与えられているテキスト集合を学習データとして、タグが付与されていないテキストに、テキストの類似度に応じて、タグを自動的に付与する方法(非特許文献1参照)等によって、自動的にタグを付与してもよい。   In addition, in this way, instead of explicitly assigning a tag, the user's name, organization name, place name specific expression, etc. included in the text in the content are extracted and characteristic from these That is automatically extracted as a tag (see Patent Document 1), or a text set to which a tag is explicitly given as learning data, and the similarity of text to text that has not been tagged Depending on the degree, the tag may be automatically assigned by a method of automatically assigning the tag (see Non-Patent Document 1) or the like.

図4は、タグ統計情報12の例を示す図である。   FIG. 4 is a diagram illustrating an example of the tag statistical information 12.

また、コンテンツ登録手段10は、タグ付コンテンツからタグ統計情報12を抽出し、図4に示すようなタグ統計情報12のテーブルを作成する。ただし、必ずしもコンテンツ登録手段10に登録するコンテンツデータベース11から、タグ統計情報12を取得する必要はなく、別の情報源から、タグ統計情報12を取得するようにしてもよい。たとえば、コンテンツデータベース11に登録するコンテンツが、写真や動画等のようにテキスト情報を含まないコンテンツである場合、後で述べるタグ間類似度の算出に必要なタグの特徴ベクトルを生成することができない。   Further, the content registration means 10 extracts the tag statistical information 12 from the tagged content, and creates a table of the tag statistical information 12 as shown in FIG. However, it is not always necessary to acquire the tag statistical information 12 from the content database 11 registered in the content registration means 10, and the tag statistical information 12 may be acquired from another information source. For example, if the content to be registered in the content database 11 is content that does not include text information such as a photo or video, a tag feature vector necessary for calculating the similarity between tags described later cannot be generated. .

このような場合、コンテンツデータベース11とは別の情報(ブログ記事等)からタグ統計情報12を取得するようにしてもよい。ただし、以下では、コンテンツデータベース11に格納されているコンテンツとして、ブログ記事を想定し、ブログ記事からタグ統計情報12を取得することを前提に説明する。   In such a case, the tag statistical information 12 may be acquired from information (such as a blog article) different from the content database 11. However, the following description is based on the assumption that the content stored in the content database 11 is a blog article and the tag statistical information 12 is acquired from the blog article.

タグ統計情報12は、コンテンツデータベース11に格納されているタグの設定情報に基づいて作成される。図4に示すように、タグID、タグ、文書数、タグ特徴ベクトル、類似タグをタグ毎に関連付けを行った形式で、データとして保持している。タグIDは、タグ毎にユニークに与えられている識別子である。文書数は、コンテンツデータベース11中で、そのタグが設定されているコンテンツの数である。   The tag statistical information 12 is created based on tag setting information stored in the content database 11. As shown in FIG. 4, the tag ID, the tag, the number of documents, the tag feature vector, and the similar tag are stored as data in a format in which each tag is associated. The tag ID is an identifier uniquely given to each tag. The number of documents is the number of contents for which the tag is set in the content database 11.

タグ特徴ベクトルは、タグが付与されているコンテンツに特徴的に出現する単語のスコアのベクトルであり、ある実数値の集合によるリスト型のデータである。タグ特徴ベクトルを生成する方法は、単純にタグが付与された文書に多く出現する単語の頻度を用いてもよく、より内容を反映した特徴的なベクトルを得る方法もある。これについては以下で述べる。   The tag feature vector is a score vector of words that appear characteristically in the content to which the tag is attached, and is list-type data by a set of certain real values. As a method for generating a tag feature vector, the frequency of words that frequently appear in a document to which a tag is attached may be used, and there is also a method for obtaining a characteristic vector reflecting the contents. This is described below.

類似タグは、上記タグ特徴ベクトルを利用して、タグ間の類似度を、ベクトル間のコサイン類似度を算出することによって計算し、類似度の高いものを、特定の閾値に至るまで降順に並べたものであり、数値が対になっている集合によって記述されているリスト型のデータである。たとえば、C、Cを、タグの特徴ベクトルとすると、類似度Similarityは、以下の式(1)で表現される。 Similar tags are calculated by calculating the cosine similarity between vectors by using the tag feature vector and arranging the high similarity items in descending order until reaching a specific threshold. It is a list type data described by a set of pairs of numerical values. For example, when C i and C j are feature vectors of a tag, the similarity similarity is expressed by the following equation (1).

Similarity=C・C/|C||C| … 式(1)
タグの特徴がより表現されたタグ特徴ベクトルを生成する方法としては、そのタグが設定されている文書集合中の語句と、その残差DF値との対を要素とする語句ベクトルを用いる方法がある(「藤村滋,藤村考,片岡良治,奥雅博,Blogのタグ間類似度のスコアリング,日本データベース学会Letterrs,Vol.15, No.4, pp.33-36, 2006」参照)。
Similarity = C i · C j / | C i || C j | Expression (1)
As a method of generating a tag feature vector in which tag features are more expressed, there is a method of using a phrase vector having a pair of a word / phrase in a document set in which the tag is set and a residual DF value as an element. Yes (see Shigeru Fujimura, Ko Fujimura, Ryoji Kataoka, Masahiro Oku, Scoring of similarities between tags of Blog, Japan Database Society Letters, Vol.15, No.4, pp.33-36, 2006).

上記「残差DF値」は、語句の文書集合中での文書頻度とポアソン分布とによって推定されたその文書集合中での文書頻度の差によって表される。たとえば、検索結果の文書集合の総数を、nとし、文書集合中の語句iの文書頻度を、dfとし、全文書数を、Nとし、全文書中での語句iの大域的頻度を、Fとすると、残差DF値は、以下の式(2)によって求められる。 The “residual DF value” is represented by a difference in document frequency in the document set estimated by the document frequency and Poisson distribution in the document set of the phrase. For example, the total number of search result document sets is n, the document frequency of phrase i in the document set is df i , the total number of documents is N, and the global frequency of phrase i in all documents is Assuming F i , the residual DF value is obtained by the following equation (2).

Figure 0004878591
Figure 0004878591

一例として、「サッカー」というタグが付与されているブログ記事集合中の「Jリーグ」という語句の残差DF値は、収集したブログエントリ数を、400000、「サッカー」というタグが付与されたブログエントリ数を、1000、この記事集合中での「Jリーグ」の文書頻度を、300、収集したブログ記事全体での「Jリーグ」の大域的頻度を700とすると、残差DFは、300−1000(1−exp(−700/400000))=298.25…のようになる。   As an example, the residual DF value of the phrase “J-League” in the set of blog articles tagged with “soccer” is the number of collected blog entries, 400000, and the blog tagged with “soccer” If the number of entries is 1000, the document frequency of “J-League” in this article set is 300, and the global frequency of “J-League” in the entire collected blog articles is 700, the residual DF is 300− 1000 (1-exp (−700/400000)) = 298.25.

上記「残差DF値」は、次の仮定に基づいた指標である。同一のタグが付与されている文書集合は、内容的にも、用いられている語句的にも、似ている可能性が高いので、文書の内容を代表する特徴語の文書頻度が大きい。一方で、文意に関係がなく、どの文書にも現れる一般的な語句の文書中での出現回数の確率分布は、ポアソン分布によって、よく近似されることが知られている。したがって、両者(実際の文書頻度と、ポアソン分布によって近似される頻度)の差分を取ることによって、一般語の影響を打ち消し、特徴語の値をより際立たせることができる。   The “residual DF value” is an index based on the following assumptions. Since document sets to which the same tag is assigned are highly likely to be similar in terms of both contents and phrases used, the document frequency of feature words representing the contents of the document is high. On the other hand, it is known that the probability distribution of the number of appearances in a document of a general phrase that appears in any document regardless of the meaning of the sentence is well approximated by the Poisson distribution. Therefore, by taking the difference between the two (the actual document frequency and the frequency approximated by the Poisson distribution), the influence of the general word can be canceled and the feature word value can be made more prominent.

次に、タグマップ41を生成する処理について説明する。   Next, a process for generating the tag map 41 will be described.

図5は、タグマップ41を生成する処理を示すフローチャートである。   FIG. 5 is a flowchart showing a process for generating the tag map 41.

図5に示すタグマップ41を生成する処理は、毎日1回または週1回等の頻度で、一定間隔で繰り返し実行する。   The process for generating the tag map 41 shown in FIG. 5 is repeatedly executed at regular intervals with a frequency of once a day or once a week.

S11で、タグ間類似度算出手段20がタグ毎の類似タグリストを作成し、S12で、タグ座標算出手段30は、互いに類似度の高いタグ同士が、二次元平面上に近く(所定以下の距離)になるような各タグの座標(x,y)を算出する。この場合、タグをノードとし、各タグiから類似タグjへのリンクをエッジとするネットワークとみなしたときに、これは、一般的なネットワークとなるので、従来、提案されているネットワークの可視化技術を利用することができる。   In S11, the inter-tag similarity calculation unit 20 creates a similar tag list for each tag, and in S12, the tag coordinate calculation unit 30 determines that tags having high similarities are close to each other on a two-dimensional plane (a predetermined value or less). The coordinates (x, y) of each tag such that the distance) is obtained are calculated. In this case, when it is regarded as a network having a tag as a node and a link from each tag i to a similar tag j as an edge, this is a general network. Therefore, conventionally proposed network visualization techniques Can be used.

互いに類似度の高いタグ同士が、二次元平面上に近くになるような各タグの座標(x,y)を算出する場合、「特開2004−318739号公報」、「Kamada,T. and Kawai,S., An algorithm for drawing general undirected graphs, Information Processing Letters, Vol.12, No.31, pp.7-15, 1989」で記載されているアルゴリズムを利用するようにしてもよい。   When calculating the coordinates (x, y) of each tag such that tags having a high degree of similarity are close to each other on a two-dimensional plane, "JP 2004-318739 A", "Kamada, T. and Kawai , S., An algorithm for drawing general undirected graphs, Information Processing Letters, Vol. 12, No. 31, pp. 7-15, 1989 ”may be used.

ただし、各タグiと類似する全てのタグjを使用し、これらのアルゴリズムを利用すると、リンクの数が多すぎ、計算時間が膨大になる場合がある。この場合、類似するタグjを選択する閾値を高めること等によって、リンクを減らし、計算するようにしてもよい。たとえば、タグiとの間で閾値q以上の類似度を有するタグの集合を、N(i)とすると、類似度が高いリンクから降順で並べ、次の式(3)のように、k(i)本のリンクのみを考慮するようにしてもよい。 However, if all the tags j similar to each tag i are used and these algorithms are used, the number of links may be too large and the calculation time may be enormous. In this case, the number of links may be reduced and calculated by increasing a threshold for selecting a similar tag j. For example, if a set of tags having a degree of similarity equal to or greater than the threshold q with the tag i is N q (i), the tags are arranged in descending order from the link with the high degree of similarity, and q (i) Only the book links may be considered.

(i)=αlog(1+|N(i)|)+1 … 式(3)
これによって、強いリンクが多数存在する場合でも、類似タグ数を、ある程度に、絞ることができる。また、強いリンクが少ない場合でも、最低1つ、どれかに隣接させることができる。この結果、多数の弱いリンクによって、中途半端な位置に配置されることを防ぐことができる。
k q (i) = αlog (1+ | N q (i) |) +1 Equation (3)
Thereby, even when there are many strong links, the number of similar tags can be narrowed down to some extent. Even if there are few strong links, at least one of them can be adjacent to one another. As a result, it is possible to prevent a halfway position from being placed by a large number of weak links.

また、ネットワーク可視化アルゴリズムが、リンクの重みを考慮できない場合、即ちリンクの重みが、1か0しか許されない場合、上記閾値よりも大きい類似度を有するリンクを、1(リンクあり)とし、それ以外(上記閾値以下の類似度を有するリンク)を、0(リンクなし)とするリンク情報を、アルゴリズムに与えることによって、タグ座標を算出することができる。   Also, when the network visualization algorithm cannot consider the link weight, that is, when the link weight is only allowed to be 1 or 0, the link having a similarity higher than the above threshold is set to 1 (with link), and otherwise The tag coordinates can be calculated by giving the algorithm link information in which 0 (no link) is set to (link having a similarity equal to or less than the threshold value).

タグ座標算出手段30は、上記(x,y)座標に加えて、高度座標であるz座標を計算する。なお、S13で、タグマップ生成手段40が、2次元のタグマップ41に、濃淡を付け、または着色することによって、タグ間の関係を分かり易く表示するために、z座標が必要である。ただ、この着色は、必須ではなく、着色しない場合、z座標を算出する必要はない。   The tag coordinate calculation means 30 calculates a z coordinate which is an altitude coordinate in addition to the (x, y) coordinate. Note that the z-coordinate is necessary for the tag map generating means 40 to display the relationship between the tags in an easy-to-understand manner by adding a shading or coloring to the two-dimensional tag map 41 in S13. However, this coloring is not essential, and it is not necessary to calculate the z-coordinate when not coloring.

z座標を算出する場合、単純にタグが付与されているコンテンツの数の対数値を、[0,1]の間に正規化し、利用するようにしてもよい。多くの人が付与するタグは、一般的なタグであるので、一般的なタグが標高の高い目立つ位置にあれば、タグマップ41の話題構造を理解し易い。   When calculating the z-coordinate, the logarithm of the number of contents to which a tag is simply attached may be normalized between [0, 1] and used. Since tags given by many people are general tags, the topic structure of the tag map 41 can be easily understood if the general tags are in a prominent position at a high altitude.

また、コンテンツに複数のタグがオートタギングされた場合、たとえば、「阪神」の話題の記事には、「野球」、「スポーツ」等、上位概念のタグを同時に付与することが想定される。この結果として、概念的に上位のタグの頻度が高くなり、スポーツ>野球>阪神のような関係で、z座標が求められる。   Further, when a plurality of tags are auto-tagged in the content, for example, it is assumed that a high-level concept tag such as “baseball” or “sports” is simultaneously given to an article on the topic of “Hanshin”. As a result, the frequency of the upper tag conceptually increases, and the z coordinate is obtained in the relationship of sports> baseball> Hanshin.

また、「スポーツ」等の上位の概念のタグは、類似するタグの件数が多いので、x−y平面上でも、中心に配置される可能性が高い。   In addition, since tags of higher concepts such as “sports” have a large number of similar tags, there is a high possibility that they will be arranged at the center even on the xy plane.

図6は、タグマップ41の表示例を示す図である。   FIG. 6 is a diagram illustrating a display example of the tag map 41.

この結果として、図6に示すように、タグの高低と位置関係とから、各タグの概念的な関係を容易に把握することができる。   As a result, as shown in FIG. 6, the conceptual relationship between the tags can be easily grasped from the height of the tags and the positional relationship.

z座標の別の算出方法としては、ネットワークの中心性スコアを算出する方法がある。たとえば、上記式(3)で抽出されたリンクを、iからjへの有向グラフとみなし、そのリンクから「S.Brin and L.Page, The Anatomy of a Large-scale Hypertextual Web Search Engine, In Proceedings of 7th International World Wide Web Conference, 1998.」に記載されているPageRank(登録商標)式(4)を利用して算出するようにしてもよい。   Another method for calculating the z coordinate is a method for calculating the centrality score of the network. For example, the link extracted by the above equation (3) is regarded as a directed graph from i to j, and from that link, “S. Brin and L. Page, The Anatomy of a Large-scale Hypertextual Web Search Engine, In Proceedings of It may be calculated using the PageRank (registered trademark) equation (4) described in “7th International World Wide Web Conference, 1998.”.

Figure 0004878591
Figure 0004878591

ここで、dは、ランダムジャンプの確率であり、[0,1]の間の実数、たとえば0.15を用いる。IN(i)は、タグiへのリンクを持つタグの集合である。Out(j)は。タグjから出ているリンクの重みの和である。この方法は、多くのタグに類似するタグが、多くの被リンクを持つが、多くの類似するタグを持つことは、より一般的な槻念を表す可能性が高い。したがって、タグの頻度と同様に、スポーツ>野球>阪神のような関係でz座標が求められる。   Here, d is the probability of random jump, and a real number between [0, 1], for example, 0.15 is used. IN (i) is a set of tags having a link to the tag i. Out (j). It is the sum of the weights of the links coming out from the tag j. In this method, tags similar to many tags have many backlinks, but having many similar tags is likely to represent a more general idea. Therefore, similarly to the tag frequency, the z-coordinate is obtained in the relationship of sports> baseball> Hanshin.

z座標のさらに別の算出方法として、単純に各タグの類似度リンクの総和を利用する方法や、タグが(x,y)座標に配置されている空間において、各タグが持つ類似度リンクの長さの総和を、z座標の計算に利用する方法も考えられる。   As another method of calculating the z-coordinate, a method of simply using the sum of similarity links of each tag, or a similarity link of each tag in a space where the tags are arranged at (x, y) coordinates. A method of using the total length for calculating the z coordinate is also conceivable.

各タグの類似度のリンクの長さの総和を、z座標とする方法では、リンクの長さの総和が大きければ、類似したタグがx−y平面上に幅広く分散していることを意味する。したがって、多くの概念に関係する概念的に広いタグであることを意味する。これによって、タグの頻度やPageRank(登録商標)を用いたときと同等の効果を得ることができる。   In the method in which the sum of the link lengths of the similarities of each tag is used as the z coordinate, if the sum of the link lengths is large, it means that similar tags are widely dispersed on the xy plane. . Therefore, it means that the tag is conceptually wide related to many concepts. As a result, it is possible to obtain the same effect as when using the tag frequency or PageRank (registered trademark).

タグマップ生成手段40は、既に述べた座標軸算出によって取得した各タグの(x,y,z)座標の集合から、S13で、三次元立体モデルを生成し、斜めから光源を当てることによって、立体感のあるタグマップ41を作成する。   The tag map generation means 40 generates a three-dimensional solid model in S13 from the set of (x, y, z) coordinates of each tag acquired by the coordinate axis calculation described above, and applies a light source from an oblique direction. A tag map 41 with a feeling is created.

タグマップ生成手段40は、以下の手順によって、画像を生成する。
(1)タグ座標算出手段30が生成した(x,y,z)座標の集合から、等間隔のグリッドデータを生成する。
(2)グリッドデータから三次元モデルを生成し、斜めから光を当て、陰影を付ける。
(3)標高(高度)に応じて、色分けし、真上からの三次元モデルを撮影し、二次元画像を出力する。
The tag map generation means 40 generates an image according to the following procedure.
(1) Generate equidistant grid data from a set of (x, y, z) coordinates generated by the tag coordinate calculation means 30.
(2) A three-dimensional model is generated from grid data, light is applied obliquely, and shading is applied.
(3) Color-coded according to altitude (altitude), photograph a three-dimensional model from directly above, and output a two-dimensional image.

これらの処理は、「Wessel,P., and Smith,W.H.F.., The Generic Mapping Tools, Version 4.2.0, Manual, http://www.soest.hawaii.edu/gmt/, 2007」に記載されているようなツールを利用することによって、容易に実現することができる。このツールには上記(1)〜(3)の処理に対応するコマンドとして、(1)surface、(2)grdgradient、(3)grdimage等を備えている。   These processes are described in `` Wessel, P., and Smith, WHF., The Generic Mapping Tools, Version 4.2.0, Manual, http://www.soest.hawaii.edu/gmt/, 2007 ''. It can be easily realized by using such a tool. This tool includes (1) surface, (2) grdgradient, (3) grdimage, and the like as commands corresponding to the processes (1) to (3).

次に、ユーザインタフェース部50について説明する。   Next, the user interface unit 50 will be described.

まず、準備として、タグマップ生成手段40が生成した10000×10000ピクセル程度の巨大な背景画像を、250×250ピクセル程度のタイル上に分割(この場合1600枚に分割)し、サーバ上の記憶装置に保管する。   First, as a preparation, a huge background image of about 10000 × 10000 pixels generated by the tag map generation means 40 is divided into tiles of about 250 × 250 pixels (in this case, divided into 1600 sheets), and a storage device on the server Keep in.

図7は、タグマップ41を、利用者端末に表示するためのHTML文書を作成するユーザインタフェース部50の処理の流れを示すフローチャートである。   FIG. 7 is a flowchart showing a processing flow of the user interface unit 50 for creating an HTML document for displaying the tag map 41 on the user terminal.

図7に示すユーザインタフェース部50の処理は、一度起動されると、オペレータによって明示的に停止されるまで、常時繰り返し実行する。   The process of the user interface unit 50 shown in FIG. 7 is repeatedly executed once activated until it is explicitly stopped by the operator.

ユーザインタフェース部50は、次の5つのステップ(1)〜(5)を繰り返すことによって、スクロール可能な地図を実現する。   The user interface unit 50 realizes a scrollable map by repeating the following five steps (1) to (5).

(1)[タグマップ41の表示](S21)
タイル上に分割されたタグマップ41のうちで、デフォールト位置、または利用者によって指定された中心座標(以下「マーカ座標」という)を含むタイルを中心とし、近傍の上下左右(斜めも含む)の8つのタイルとともに、計9つのタイル画像を端末に送付する。
(1) [Display of tag map 41] (S21)
Of the tag map 41 divided on the tile, a tile including a default position or a center coordinate (hereinafter referred to as “marker coordinate”) designated by the user is used as a center, and the vicinity of the top, bottom, left, right (including diagonal) is also included. A total of nine tile images are sent to the terminal together with the eight tiles.

具体的には、マーカ座標を中心とする9つのタイルの内側の領域を表示するHTML文書を生成し、端末装置のWebブラウザに送付し、Webブラウザは、そのHTML文書に記載されている9つのタイルの画像を、サーバから取得し、表示する。   Specifically, an HTML document that displays an area inside nine tiles centered on the marker coordinates is generated and sent to the Web browser of the terminal device, and the Web browser displays the nine documents described in the HTML document. The tile image is acquired from the server and displayed.

なお、「スポーツ」等のタグのテキストを、タグマップ生成手段40が、タグマップ41の画像に予め埋め込むようにしてもよく、また、HTML文書に、タグマップ41を背景画像とし、マーカ座標近傍のタグの名称を、座標とともにサーバから取得するJava(登録商標)Scriptコードを埋め込み、タグのテキストを、タグマップ41の上位レイヤに配置することによって、タグのテキストを表示するようにしてもよい。   Note that the tag map generation means 40 may embed the text of the tag such as “sports” in the image of the tag map 41 in advance, or the tag map 41 is used as the background image in the HTML document and the vicinity of the marker coordinates The tag text may be displayed by embedding a Java (registered trademark) Script code acquired from the server together with the coordinates, and placing the tag text in an upper layer of the tag map 41. .

(2)[マーカ座標の取得](S22)
ブラウザに送られたHTML文書には、Java(登録商標)Scriptを埋め込むことによって、利用者のドラッグ等の操作イベントを取得し、タグマップ41をドラッグするという直感的な操作によって、タグマップ41をスクロールし、また、マーカ位置を移動できるようにしてもよい。
(2) [Obtain marker coordinates] (S22)
The HTML map sent to the browser is embedded with Java (registered trademark) Script to acquire an operation event such as a drag of the user, and the tag map 41 is displayed by an intuitive operation of dragging the tag map 41. You may enable it to scroll and to move a marker position.

これは、「Fuchs,t., et.al., script.aculo.us, http://script.aculo.us/」に記載されているJava(登録商標)Scriptライブラリを利用することによって、容易に実現することができる。また、マーカ位置の移動に伴い、マーカの位置を随時サーバに送信し、上下左右の9つのタイルも、サーバから随時取得し、常にマーカの位置を中心とするタグマップ41を表示し、また、マーカの付近にあるタグが付与されている関連コンテンツをリクエストする。   This is facilitated by using the Java (registered trademark) Script library described in “Fuchs, t., Et.al., script.aculo.us, http://script.aculo.us/”. Can be realized. Also, along with the movement of the marker position, the marker position is transmitted to the server at any time, nine tiles on the top, bottom, left, and right are also acquired from the server at any time, and the tag map 41 centered on the marker position is always displayed. Request related content with a tag near the marker.

(3)[タグの選択](S23)
サーバ側では、取得したマーカ座標と、タグ座標算出手段30が生成したタグ座標の集合の各要素との間のユークリッド距離を計算することによって、マーカ座標の近傍のタグを、近い順に、K個取得する。Kは、任意の数である。
(3) [Tag selection] (S23)
On the server side, by calculating the Euclidean distance between the acquired marker coordinates and each element of the set of tag coordinates generated by the tag coordinate calculation means 30, the number of tags in the vicinity of the marker coordinates is reduced to K. get. K is an arbitrary number.

(4)[コンテンツの検索](S24)
取得したK個のタグをOR条件とするクエリを生成し、コンテンツ検索手段60が、コンテンツデータベース11から、該当するタグが付与されているコンテンツのタイトル、URL、本文のサマリ等の検索結果を表示するに必要な情報を取得する。これらは、上記ステップ(2)の関連コンテンツのリクエストの回答として、端末に送信する。
(4) [Content Search] (S24)
A query using the acquired K tags as an OR condition is generated, and the content search means 60 displays a search result such as the title, URL, and summary of the content to which the corresponding tag is attached from the content database 11. Get the information you need. These are transmitted to the terminal as a response to the related content request in step (2).

(5)[検索結果の表示](S25)
図8は、実施例1におけるタグマップ41の表示例を示す図である。
(5) [Display of search results] (S25)
FIG. 8 is a diagram illustrating a display example of the tag map 41 in the first embodiment.

端末側では、サーバから送信された関連コンテンツを、図8に示すように、タグマップ41の周辺、またはタグマップ41上の噴き出しとして表示する。また、実施例によっては、単純にK個のタグのOR条件検索の結果を表示するのではなく、K個のタグのうちで、マーカ座標によって、近いコンテンツが上位に来るように、優先度をつけて表示するようにしてもよい。   On the terminal side, the related content transmitted from the server is displayed as a periphery of the tag map 41 or a squirt on the tag map 41 as shown in FIG. Further, in some embodiments, instead of simply displaying the result of the OR condition search of K tags, the priority is set so that the closest content comes to the top by the marker coordinates among the K tags. You may make it display.

なお、上記ステップ(2)(3)のように、タグマップ41を、マウスのドラッグ等の操作によって動かすスクローラブルマップとして実現せずに、ステップ(3)において、単に利用者のクリックによって、タグマップ41上のタグを選択するようにしてもよい。この場合、マーカ座標取得手段は、不要である。   Note that the tag map 41 is not realized as a scrollable map that is moved by dragging the mouse or the like as in steps (2) and (3) above, but the tag is simply clicked by the user in step (3). A tag on the map 41 may be selected. In this case, the marker coordinate acquisition means is unnecessary.

なお、タグマップ表示手段51は、様々な付加的な機能を実現することができる。たとえば、最初に、利用者が関心のあるタグマップ41上の位置を検索するために、図8に示すように、左上に表示されているタグ検索の検索窓を用意し、左中に表示されている多くコンテンツがある人気のタグのランキングを表示し、左下に表示されているように、利用者毎に頻繁に訪れる位置を、ブックマークし、2度目にタグマップ41を表示したときに、ワンクリックでその位置にジャンプできるようにしてもよい。また、利用者の過去の履歴から、デフォールトの位置を表示するようにしてもよい。   Note that the tag map display means 51 can realize various additional functions. For example, in order to search for a position on the tag map 41 that the user is interested in, first, as shown in FIG. 8, a search window for tag search displayed in the upper left is prepared and displayed in the middle left. The ranking of popular tags with a lot of content is displayed, and the frequently visited position for each user is bookmarked as shown in the lower left, and the tag map 41 is displayed for the second time. You may be able to jump to that position by clicking. Further, the default position may be displayed from the past history of the user.

また、利用者がブックマークをしたタグには、タグマップ41上にも、たとえば家の形をしたアイコンを配置し、現在利用者が閲覧中のタグマップ41上の位置に人のデザインをしたアイコン(アバター)を配置することによって、タグマップ41上での賑わいの状況を表現することができる。さらに、アバター同士で、チャット等のコミュニケーションを行う機能を実現するようにしてもよい。   In addition, for a tag bookmarked by the user, an icon in the shape of a house, for example, is placed on the tag map 41, and an icon designed by a person at a position on the tag map 41 currently being viewed by the user. By arranging (Avatar), a lively situation on the tag map 41 can be expressed. Furthermore, you may make it implement | achieve the function which communicates, such as chat, between avatars.

上記実施例によれば、タグが付与されたコンテンツを、キーボートからクエリを入力せずに、タグマップ41のスクロールとクリック操作とによって、コンテンツを容易に検索することができる。しかし、このようなタグマップ41を利用したインタフェースは、単にタグ付コンテンツデータベース11から、タグが付与されたコンテンツを検索することに留まらず、外部の検索エンジンに対する検索クエリを生成するためにも利用することができる。   According to the above-described embodiment, it is possible to easily search for content to which a tag is attached by scrolling and clicking the tag map 41 without inputting a query from the keyboard. However, such an interface using the tag map 41 is not only used for searching the content with a tag from the tagged content database 11 but also used for generating a search query for an external search engine. can do.

図9は、タグマップ41のマーカ座標の位置に関連するトピック語のリスト(トピックリスト)を、タグマップ41の右側に表示し、トピック語をクリックするだけで、外部の検索エンジンに対する検索を行う画面を示す図である。
FIG. 9 shows a list of topic words (topic list) related to the position of the marker coordinates of the tag map 41 on the right side of the tag map 41, and performs a search for an external search engine simply by clicking the topic word. It is a figure which shows a screen.

図10は、本発明の実施例2であるコンテンツ検索装置200を示すブロック図である。   FIG. 10 is a block diagram showing a content search apparatus 200 that is Embodiment 2 of the present invention.

コンテンツ検索装置200は、コンテンツ検索装置100において、タグ統計情報12の代わりに、タグ統計情報13を有し、また、ユーザインタフェーズ部50の代わりに、ユーザインタフェース部50aを有する。   In the content search device 100, the content search device 200 has tag statistical information 13 instead of the tag statistical information 12, and has a user interface unit 50 a instead of the user interphase unit 50.

ユーザインタフェース部50aは、ユーザインタフェース部50において、検索結果表示手段53の代わりに、トピックリスト表示手段54と、外部検索エンジン呼出手段55とを有する。   The user interface unit 50 a includes a topic list display unit 54 and an external search engine call unit 55 instead of the search result display unit 53 in the user interface unit 50.

トピックリスト表示手段54は、トピックリストを表示する。外部検索エンジン呼出手段55は、利用者によって選択されたトピックを、外部検索エンジンに検索クエリとして検索要求を送る。   The topic list display means 54 displays a topic list. The external search engine calling means 55 sends a search request as a search query to the external search engine for the topic selected by the user.

コンテンツ検索装置200において、既に述べたように、マーカ座標に基づいて、コンテンツデータベース11からタグ検索し、タグ検索の検索結果集合を取得する。そして、トピックリスト抽出表示手段54によって、上記特許文献1に記載されている技術を利用し、タグ検索の検索結果集合の中から、特徴的に多く含まれる固有表現(トピック語)を抽出する。   In the content search device 200, as described above, a tag search is performed from the content database 11 based on the marker coordinates, and a search result set of the tag search is acquired. Then, the topic list extracting / displaying means 54 uses the technique described in the above-mentioned Patent Document 1 to extract characteristic expressions (topic words) that are characteristically included from the search result set of the tag search.

そして、それらのトピック語を、トピックリストとして表示する。外部検索エンジン呼出手段55は、外部検索エンジンのクエリ付のURLを、トピックリストのハイパーリンクとして埋め込んでおけば、通常のブラウザによって実現できる。   These topic words are displayed as a topic list. The external search engine calling means 55 can be realized by a normal browser by embedding a URL with a query of the external search engine as a hyperlink of a topic list.

上記実施例によれば、タグクラウドは、タグが付与されているテキスト中に含まれている単語の統計的な頻度に基づいて、タグ同士の概念的な意味の近さがタグ間類似度算出手段20によって算出され、さらに、タグ座標算出手段30によって、類似度が高いタグ同士が、二次元平面上の互いに近い位置に配置されるので、利用者は、関心の高い1つのタグを見つけることができれば、他の関連したタグの存在に容易に気付くことができ、関連のあるコンテンツを容易に見つけることができる。   According to the above embodiment, the tag cloud calculates the similarity between tags based on the conceptual frequency of the tags based on the statistical frequency of words included in the text to which the tags are attached. The tags are calculated by the means 20, and the tags having high similarity are arranged at positions close to each other on the two-dimensional plane by the tag coordinate calculating means 30, so that the user finds one tag with high interest. If it is possible, the presence of other related tags can be easily recognized, and related content can be easily found.

また、上記実施例によれば、タグクラウドを、上下左右にスクロールできるスクローラブルマップとして表示すれば、画面のサイズに依存せずに、携帯電話や解像度の低いTV等でも、広い面積を持つタグクラウドの一部を表示することができる。   In addition, according to the above embodiment, if the tag cloud is displayed as a scrollable map that can be scrolled up and down, left and right, a tag having a large area can be used on a mobile phone or a TV with a low resolution without depending on the screen size. A part of the cloud can be displayed.

そして、利用者がマウス等の操作によって、タグクラウドをスクロールすれば、タグクラウドの表示位置に連動して、関連したコンテンツを、次々と自動的に表示することができる。   If the user scrolls the tag cloud by operating the mouse or the like, related contents can be automatically displayed one after another in conjunction with the display position of the tag cloud.

また、上記実施例によれば、コンテンツの検索は、タグマップ41の中心座標から近いタグをOR条件で検索するので、たとえば「野球」と「阪神」等のように、意味的に近いタグを、利用者が明示的に複数個指定して検索する必要がない。しかも、どちらを優先的に表示するかを、座標位置に基づいて、簡単に指定することができる。   Further, according to the above-described embodiment, the search for content searches for tags close to the center coordinates of the tag map 41 under the OR condition. For example, tags that are semantically close such as “baseball” and “Hanshin” , There is no need for the user to explicitly specify and search. In addition, it is possible to easily specify which is preferentially displayed based on the coordinate position.

さらに、上記実施例によれば、タグ座標算出手段30は、タグの一般性をタグクラウドの高度座標として与え、それをタグマップ生成手段40が、三次元モデルを形成し、斜めから光源を当てることによって、立体感のあるタグマップ41を作成するので、周辺の地形構造から、各タグがどの概念に属しているかを容易に把握することができる。たとえば、あるタグが、スポーツと政治との2つのタグのいずれにも同じ距離に位置する場合であっても、スポーツ、政治のどちらのタグの山の裾野に含まれるかによって、タグ同士の概念的な関連性を瞬時に把握することができる。   Furthermore, according to the above embodiment, the tag coordinate calculation means 30 gives the generality of the tag as the altitude coordinates of the tag cloud, and the tag map generation means 40 forms a three-dimensional model and applies the light source from an oblique direction. Thus, since the tag map 41 having a three-dimensional feeling is created, it is possible to easily grasp which concept each tag belongs to from the surrounding terrain structure. For example, even if a certain tag is located at the same distance in both sports and politics tags, the concept of tags depends on whether they are included in the foot of the mountain of sports or politics tags. Can quickly grasp the relevant relationship.

さらに、上記実施例によれば、タグマップ41上の座標位置を利用して、コンテンツデータベース11から特徴語を抽出し、利用者に検索語の候補を提示することができる。利用者は、提示された検索語の候補を、マウスクリック等によって、選択するだけで、外部の他の検索エンジンに検索要求を送信することができる。   Furthermore, according to the above embodiment, feature words can be extracted from the content database 11 using coordinate positions on the tag map 41, and search word candidates can be presented to the user. The user can transmit a search request to another external search engine simply by selecting the presented search word candidate by clicking the mouse or the like.

つまり、上記実施例は、分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件としてコンテンツを検索するコンテンツ検索装置において、上記コンテンツデータベースに、タグ付コンテンツを登録するコンテンツ登録手段と、上記タグの統計情報に基づいて、タグ同士の類似度を測定し、記憶装置に記憶するタグ間類似度算出手段と、上記タグ間類似度に基づいて、互いに類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出し、記憶装置に記憶するタグ座標算出手段と、上記タグ座標に、それぞれのタグが配置されているタグマップを生成し、記憶装置に記憶するタグマップ生成手段と、上記タグマップを利用者端末に表示するタグマップ表示手段と、上記タグマップ上に表示されているタグの中から、利用者が選択したタグを取得し、記憶装置に記憶するタグ選択手段と、上記タグ選択手段を介して選択されたタグを検索条件として、このタグが付与されているコンテンツを、上記コンテンツデータベースから検索し、記憶装置に記憶するコンテンツ検索手段と、上記コンテンツ検索手段が検索した検索結果を利用者端末に表示する検索結果表示手段とを有するコンテンツ検索装置の例である。   In other words, in the above-described embodiment, in a content search apparatus that searches for content using a tag as a search condition from a content database configured by a content set to which a tag that is a classification keyword is assigned, the content database is tagged. Content registration means for registering content, similarity between tags based on the tag statistical information, and inter-tag similarity calculation means for storing in a storage device, Tag coordinates that are coordinates on the two-dimensional plane of the tag are calculated so that tags with high similarity exist close to each other, and the tag coordinate calculation means for storing in the storage device, and the tag coordinates, Tag map generating means for generating a tag map in which tags are arranged and storing the tag map in a storage device, and the tag map Tag map display means for displaying on a user terminal, tag selection means for acquiring a tag selected by a user from tags displayed on the tag map, and storing the tag in a storage device, and the tag selection means Using the tag selected via the search condition, the content to which the tag is attached is searched from the content database and stored in the storage device, and the search result searched by the content search unit is used. It is an example of the content search apparatus which has a search result display means displayed on a user terminal.

この場合、上記タグ選択手段は、マウス操作によって上記タグマップを上下左右にスクロールするスクローラブルな画像を表示し、上記タグマップの中心の位置を、マーカ座標として取得するマーカ座標取得手段を有する手段であり、上記コンテンツ検索手段は、上記タグマップ上に配置されているタグであって、上記マーカ座標の近傍に存在するタグを、タグマップ座標データから取得し、上記タグを検索条件として、上記タグが付与されているコンテンツを、上記コンテンツデータベースから検索する手段である。   In this case, the tag selection means displays a scrollable image in which the tag map is scrolled up and down and left and right by a mouse operation, and has marker coordinate acquisition means for acquiring the center position of the tag map as marker coordinates. The content search means is a tag arranged on the tag map, the tag existing in the vicinity of the marker coordinates is acquired from the tag map coordinate data, and the tag is used as a search condition. This is means for searching the content database for content to which a tag is attached.

また、上記タグ座標算出手段は、上記タグの統計情報によって算出したタグ属性スコアを、上記タグであるノードの高度座標として算出する高度座標算出手段を有する手段であり、上記タプマップ生成手段は、上記高度座標を利用した三次元立体モデルを作成することによって、立体感のあるタグクラウド画像を生成する三次元モデル生成手段を有する手段である。   Further, the tag coordinate calculation means is means having an altitude coordinate calculation means for calculating a tag attribute score calculated based on the statistical information of the tag as an altitude coordinate of the node as the tag, and the tap map generation means This is a means having a three-dimensional model generation means for generating a tag cloud image with a three-dimensional effect by creating a three-dimensional solid model using altitude coordinates.

さらに、上記タグ属性スコアは、上記タグが付与されているコンテンツの頻度情報に基づいて算出するスコアである。   Further, the tag attribute score is a score calculated based on the frequency information of the content to which the tag is attached.

しかも、上記タグ属性スコアは、上記タグ間類似度算出手段によって算出されたタグ間類似度情報を利用し、各タグiからみて類似度が高いタグを降順に並べ、上位のタグ集合N(i)を選択し、iからj(∈N(i))へのリンクを抽出し、上記タグの間の類似度をリンクとするネットワークの中心性スコアが、上記ノードの高度座標である。   In addition, the tag attribute score uses the inter-tag similarity information calculated by the inter-tag similarity calculating means, and arranges tags having a high similarity in descending order as seen from each tag i, and sets the upper tag set N (i ), A link from i to j (εN (i)) is extracted, and the centrality score of the network having the similarity between the tags as a link is the altitude coordinate of the node.

そして、上記タグ属性スコアは、上記タグ間類似度算出手段が算出したタグ間類似度情報を利用し、各タグにおける類似するタグヘの二次元平面上距離の総和に応じて、高度座標を算出したスコアである。   And the said tag attribute score calculated the altitude coordinate according to the sum total of the distance on the two-dimensional plane to the similar tag in each tag using the inter-tag similarity information calculated by the said inter-tag similarity calculating means It is a score.

また、上記実施例を、方法の発明として把握することができる。つまり、上記実施例は、分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件としてコンテンツを検索するコンテンツ検索方法において、上記コンテンツデータベースに、タグ付コンテンツを登録するコンテンツ登録工程と、上記タグの統計情報に基づいて、タグ同士の類似度を測定し、記憶装置に記憶するタグ間類似度算出工程と、上記タグ間類似度に基づいて、互いに類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出し、記憶装置に記憶するタグ座標算出工程と、上記タグ座標に、それぞれのタグが配置されているタグマップを生成し、記憶装置に記憶するタグマップ生成工程と、上記タグマップを利用者端末に表示するタグマップ表示工程と、上記タグマップ上に表示されているタグの中から、利用者が選択したタグを取得し、記憶装置に記憶するタグ選択工程と、上記タグ選択工程を介して選択されたタグを検索条件として、このタグが付与されているコンテンツを、上記コンテンツデータベースから検索し、記憶装置に記憶するコンテンツ検索工程と、上記コンテンツ検索工程が検索した検索結果を利用者端末に表示する検索結果表示工程とを有するコンテンツ検索方法の例である。   Moreover, the said Example can be grasped | ascertained as invention of a method. In other words, in the above-described embodiment, in the content search method for searching for content using a tag as a search condition from a content database configured by a content set to which a tag that is a classification keyword is assigned, the content database is tagged. Based on the content registration step for registering the content, the tag statistical information, the similarity between the tags is measured and stored in the storage device, the tag similarity calculation step, and the tag similarity between each other, Tag coordinates that are coordinates on the two-dimensional plane of the tag are calculated so that tags with high similarity are close to each other, and stored in a storage device, and the tag coordinates A tag map generation step of generating a tag map in which tags are arranged and storing the tag map in a storage device, and the tag map A tag map display step for displaying on the user terminal, a tag selection step for acquiring the tag selected by the user from the tags displayed on the tag map, and storing the tag in the storage device, and the tag selection step Using the tag selected via the search condition, the content to which the tag is attached is searched from the content database and stored in the storage device, and the search result searched by the content search step is used. It is an example of the content search method which has a search result display process displayed on a person's terminal.

さらに、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、上記コンテンツ検索装置をコンピュータに実現させるプログラムの例である。すなわち、上記実施例は、上記コンテンツ検索方法をコンピュータに実現させるプログラムの例である。   Further, the above embodiment can be grasped as a program invention. That is, the said Example is an example of the program which makes a computer implement | achieve the said content search apparatus. That is, the said Example is an example of the program which makes a computer implement | achieve the said content search method.

しかも、上記実施例を記録媒体の発明として把握することができる。つまり、上記実施例は、上記プログラムを記録したコンピュータ読み取り可能な記録媒体の例である。記録媒体として、CD、DVD、FD、HD、光ディスク、光磁気ディスク、半導体メモリなどが考えられる。
Moreover, the above embodiment can be grasped as an invention of a recording medium. That is, the above-described embodiment is an example of a computer-readable recording medium that records the above program. As a recording medium, a CD, a DVD, an FD, an HD, an optical disk, a magneto-optical disk, a semiconductor memory, and the like are conceivable.

本発明の実施例1であるコンテンツ検索装置100の全体構成を示すブロック図である。1 is a block diagram illustrating an overall configuration of a content search apparatus 100 that is Embodiment 1 of the present invention. 実施例1において、コンテンツを登録する処理を示すフローチャートである。6 is a flowchart illustrating processing for registering content in the first embodiment. コンテンツデータベース11に登録されているコンテンツの例を示す図である。It is a figure which shows the example of the content registered into the content database. タグ統計情報12の例を示す図である。It is a figure which shows the example of the tag statistical information. タグマップ41を生成する処理を示すフローチャートである。It is a flowchart which shows the process which produces | generates the tag map. タグマップ41の表示例を示す図である。It is a figure which shows the example of a display of the tag map. タグマップ41を、利用者端末に表示するためのHTML文書を作成するユーザインタフェース部50の処理の流れを示すフローチャートである。It is a flowchart which shows the flow of a process of the user interface part 50 which produces the HTML document for displaying the tag map 41 on a user terminal. 実施例1におけるタグマップ41の表示例を示す図である。It is a figure which shows the example of a display of the tag map 41 in Example 1. FIG. タグマップ41のマーカ座標の位置に関連するトピック語のリスト(トピックリスト)をタグマップ41の右側に表示し、トピック語をクリックするだけで、外部の検索エンジンに対する検索を行う画面を示す図である。The figure which displays the list | wrist of the topic word (topic list) relevant to the position of the marker coordinate of the tag map 41 on the right side of the tag map 41, and performs the search with respect to an external search engine only by clicking a topic word. is there. 本発明の実施例2であるコンテンツ検索装置200を示すブロック図である。It is a block diagram which shows the content search apparatus 200 which is Example 2 of this invention.

符号の説明Explanation of symbols

100…コンテンツ検索装置、
10…コンテンツ登録手段、
11…コンテンツDB、
12…タグ統計情報、
20…タグ間類似度算出手段、
30…タグ座標算出手段、
40…タグマップ生成手段、
41…タグマップ、
50…ユーザインタフェース部、
51…タグマップ表示手段、
52…タグ選択手段、
53…検索結果表示手段、
200…コンテンツ検索装置、
12…コンテンツDB、
13…タグ統計情報、
50a…ユーザインタフェース部、
54…トピックリスト抽出表示手段、
55…外部検索エンジン呼出手段。
100: Content search device,
10: Content registration means,
11 ... Content DB,
12 ... Tag statistics information,
20 ... means for calculating similarity between tags,
30: Tag coordinate calculation means,
40. Tag map generation means,
41 ... Tag map,
50 ... User interface part,
51. Tag map display means,
52. Tag selection means,
53. Search result display means,
200 ... content search device,
12 ... Content DB,
13 ... Tag statistics information,
50a ... User interface part,
54 ... Topic list extraction display means,
55: External search engine calling means.

Claims (5)

分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件としてコンテンツを検索するコンテンツ検索装置において、
上記コンテンツデータベースに、タグ付コンテンツを登録するコンテンツ登録手段と;
上記タグの統計情報に基づいて、タグ同士の類似度であるタグ間類似度を測定し、記憶装置に記憶するタグ間類似度算出手段と;
上記タグ間類似度に基づいて、互いにタグ間類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出し、記憶装置に記憶するタグ座標算出手段と;
上記タグ座標に、それぞれのタグが配置されているタグマップを生成し、記憶装置に記憶するタグマップ生成手段と;
上記タグマップを利用者端末に表示するタグマップ表示手段と;
上記タグマップ上に表示されているタグの中から、利用者が選択したタグを取得し、記憶装置に記憶するタグ選択手段と;
上記タグ選択手段を介して選択されたタグを検索条件として、このタグが付与されているコンテンツを、上記コンテンツデータベースから検索し、記憶装置に記憶するコンテンツ検索手段と;
上記コンテンツ検索手段が検索した検索結果を利用者端末に表示する検索結果表示手段と;
を有し、
上記タグ座標算出手段は、上記タグ間類似度算出手段によって算出されたタグ間類似度を利用し、各タグiからみてタグ間類似度が高いタグを降順に並べ、上位のタグ集合N(i)を選択し、iからj(∈N(i))へのリンクを抽出し、上記タグ間類似度をリンクとするネットワークの中心性スコアを、上記タグであるノードの高度座標として算出する高度座標算出手段を有し、
上記タグマップ生成手段は、上記高度座標を利用した三次元立体モデルを作成することによって、立体感のあるタグクラウド画像を生成する三次元モデル生成手段を有することを特徴とするコンテンツ検索装置。
In a content search apparatus that searches for content using a tag as a search condition from a content database configured by a content set to which a tag that is a classification keyword is assigned.
Content registration means for registering tagged content in the content database;
An inter- tag similarity calculating means for measuring the inter-tag similarity, which is the similarity between the tags, based on the tag statistical information and storing it in the storage device;
A tag that calculates tag coordinates, which are coordinates on a two-dimensional plane of a tag, based on the above-described similarity between tags so that tags having high similarity between the tags are close to each other, and stores them in the storage device Coordinate calculation means;
Tag map generating means for generating a tag map in which each tag is arranged at the tag coordinates and storing the tag map in a storage device;
Tag map display means for displaying the tag map on the user terminal;
Tag selecting means for acquiring a tag selected by the user from the tags displayed on the tag map and storing it in a storage device;
Content search means for searching for a content to which the tag is attached from the content database using the tag selected via the tag selection means as a search condition;
Search result display means for displaying the search result searched by the content search means on the user terminal;
Have
The tag coordinate calculation means uses the inter-tag similarity calculated by the inter-tag similarity calculation means, arranges tags having a high inter-tag similarity as seen from each tag i in descending order, and sets the upper tag set N (i ), A link from i to j (∈N (i)) is extracted, and the centrality score of the network having the inter-tag similarity as the link is calculated as the altitude coordinate of the node that is the tag Having coordinate calculation means,
The content search apparatus, wherein the tag map generation unit includes a three-dimensional model generation unit that generates a three-dimensional tag cloud image by creating a three-dimensional solid model using the altitude coordinates .
請求項1において、
上記タグ選択手段は、マウス操作によって上記タグマップを上下左右にスクロールするスクローラブルな画像を表示し、上記タグマップの中心の位置を、マーカ座標として取得するマーカ座標取得手段を有する手段であり、
上記コンテンツ検索手段は、上記取得したマーカ座標と上記タグ座標算出手段が算出したタグ座標との間の距離を計算することによって、上記タグマップ上に配置されているタグであって、上記マーカ座標の近傍に存在するタグを、タグマップ座標データから取得し、上記タグを検索条件として、上記タグが付与されているコンテンツを、上記コンテンツデータベースから検索する手段であることを特徴とするコンテンツ検索装置。
In claim 1,
The tag selection means is a means having marker coordinate acquisition means for displaying a scrollable image in which the tag map is scrolled up and down and left and right by a mouse operation, and acquiring the center position of the tag map as marker coordinates.
The content search means is a tag arranged on the tag map by calculating a distance between the acquired marker coordinates and the tag coordinates calculated by the tag coordinate calculation means , wherein the marker coordinates The content search apparatus is a means for acquiring a tag present in the vicinity of the tag from the tag map coordinate data, and searching the content database for the content to which the tag is attached using the tag as a search condition. .
分類のキーワードであるタグが付与されているコンテンツ集合によって構成されているコンテンツデータベースから、タグを検索条件としてコンテンツを検索するコンテンツ検索方法において、
上記コンテンツデータベースに、タグ付コンテンツを登録するコンテンツ登録工程と;
上記タグの統計情報に基づいて、タグ同士の類似度であるタグ間類似度を測定し、記憶装置に記憶するタグ間類似度算出工程と;
上記タグ間類似度に基づいて、互いにタグ間類似度の高いタグ同士が、互いに近くに存在するように、タグの二次元平面上の座標であるタグ座標を算出し、記憶装置に記憶するタグ座標算出工程と;
上記タグ座標に、それぞれのタグが配置されているタグマップを生成し、記憶装置に記憶するタグマップ生成工程と;
上記タグマップを利用者端末に表示するタグマップ表示工程と;
上記タグマップ上に表示されているタグの中から、利用者が選択したタグを取得し、記憶装置に記憶するタグ選択工程と;
上記タグ選択工程を介して選択されたタグを検索条件として、このタグが付与されているコンテンツを、上記コンテンツデータベースから検索し、記憶装置に記憶するコンテンツ検索工程と;
上記コンテンツ検索工程で検索された検索結果を利用者端末に表示する検索結果表示工程と;
を有し、
上記タグ座標算出工程は、上記タグ間類似度算出工程で算出されたタグ間類似度を利用し、各タグiからみてタグ間類似度が高いタグを降順に並べ、上位のタグ集合N(i)を選択し、iからj(∈N(i))へのリンクを抽出し、上記タグ間類似度をリンクとするネットワークの中心性スコアを、上記タグであるノードの高度座標として算出する高度座標算出工程を有し、
上記タグマップ生成工程は、上記高度座標を利用した三次元立体モデルを作成することによって、立体感のあるタグクラウド画像を生成する三次元モデル生成工程を有することを特徴とするコンテンツ検索方法
In a content search method for searching for content using a tag as a search condition from a content database configured by a content set to which a tag that is a classification keyword is assigned,
A content registration step of registering tagged content in the content database;
An inter-tag similarity calculation step of measuring an inter-tag similarity, which is a similarity between tags, based on the tag statistical information, and storing it in a storage device;
A tag that calculates tag coordinates, which are coordinates on a two-dimensional plane of a tag, based on the above-described similarity between tags so that tags having high similarity between the tags are close to each other, and stores them in the storage device A coordinate calculation step;
A tag map generating step of generating a tag map in which each tag is arranged at the tag coordinates and storing the tag map in a storage device;
A tag map display step of displaying the tag map on the user terminal;
A tag selection step of acquiring a tag selected by the user from the tags displayed on the tag map and storing the tag in a storage device;
A content search step of searching the content database for the content to which the tag is assigned using the tag selected through the tag selection step as a search condition;
A search result display step of displaying the search result searched in the content search step on the user terminal;
Have
The tag coordinate calculation step uses the inter-tag similarity calculated in the inter-tag similarity calculation step, arranges tags having a high inter-tag similarity as seen from each tag i in descending order, and sets the upper tag set N (i ), A link from i to j (∈N (i)) is extracted, and the centrality score of the network having the inter-tag similarity as the link is calculated as the altitude coordinate of the node that is the tag A coordinate calculation step,
The tag map generation step includes a three-dimensional model generation step of generating a three-dimensional tag cloud image by creating a three-dimensional solid model using the altitude coordinates .
請求項1または請求項2に記載のコンテンツ検索装置をコンピュータに実現させるプログラム The program which makes a computer implement | achieve the content search apparatus of Claim 1 or Claim 2 . 請求項4に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。The computer-readable recording medium which recorded the program of Claim 4.
JP2007253752A 2007-09-28 2007-09-28 Content search device, content search method, program, and recording medium Active JP4878591B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007253752A JP4878591B2 (en) 2007-09-28 2007-09-28 Content search device, content search method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007253752A JP4878591B2 (en) 2007-09-28 2007-09-28 Content search device, content search method, program, and recording medium

Publications (2)

Publication Number Publication Date
JP2009086858A JP2009086858A (en) 2009-04-23
JP4878591B2 true JP4878591B2 (en) 2012-02-15

Family

ID=40660229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007253752A Active JP4878591B2 (en) 2007-09-28 2007-09-28 Content search device, content search method, program, and recording medium

Country Status (1)

Country Link
JP (1) JP4878591B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100132375A (en) * 2009-06-09 2010-12-17 삼성전자주식회사 Apparatus and method for displaying electronic program guide content
KR101055306B1 (en) * 2009-06-11 2011-08-09 건국대학교 산학협력단 Web service based content management system
US8281238B2 (en) * 2009-11-10 2012-10-02 Primal Fusion Inc. System, method and computer program for creating and manipulating data structures using an interactive graphical interface
US20110276921A1 (en) * 2010-05-05 2011-11-10 Yahoo! Inc. Selecting content based on interest tags that are included in an interest cloud
JP5696106B2 (en) * 2012-09-05 2015-04-08 日本電信電話株式会社 Synonymous tag extraction apparatus, method, and program
KR101494215B1 (en) * 2012-09-28 2015-03-04 (주)오픈놀 Similarity Caculating Method, Contents Providing Method based on the Similarity and the Method for Extracting Users who Have Similar Interests
US9542473B2 (en) * 2013-04-30 2017-01-10 Microsoft Technology Licensing, Llc Tagged search result maintainance
CN109726383B (en) * 2017-10-27 2023-06-23 普天信息技术有限公司 Article semantic vector representation method and system
JP7410613B2 (en) * 2019-08-27 2024-01-10 キヤノン株式会社 Information processing device and its control method and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076718A (en) * 2001-06-22 2003-03-14 Nippon Telegr & Teleph Corp <Ntt> System and method for reading contents of document, program and recording medium
JP2003167914A (en) * 2001-11-30 2003-06-13 Fujitsu Ltd Multimedia information retrieving method, program, recording medium and system therefor
JP3864235B2 (en) * 2002-05-24 2006-12-27 株式会社 日立東日本ソリューションズ Information retrieval system and information retrieval program
JP2004240887A (en) * 2003-02-07 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> Retrieval information display system, retrieval keyword information display method and retrieval keyword information display program
JP2005056081A (en) * 2003-08-01 2005-03-03 Ricoh Co Ltd Documentation management system and recording medium
JP4818681B2 (en) * 2005-10-17 2011-11-16 株式会社野村総合研究所 Document information analysis apparatus and document information analysis method

Also Published As

Publication number Publication date
JP2009086858A (en) 2009-04-23

Similar Documents

Publication Publication Date Title
JP4878591B2 (en) Content search device, content search method, program, and recording medium
US9411827B1 (en) Providing images of named resources in response to a search query
CN104685501B (en) Text vocabulary is identified in response to visual query
JP4893243B2 (en) Image summarization method, image display device, k-tree display system, k-tree display program, and k-tree display method
US8745039B2 (en) Method and system for user guided search navigation
US10534808B2 (en) Architecture for responding to visual query
KR102281186B1 (en) Animated snippets for search results
US20170308552A1 (en) Relevancy evaluation for image search results
Fujimura et al. Topigraphy: visualization for large-scale tag clouds
US20100082653A1 (en) Event media search
US20070074108A1 (en) Categorizing page block functionality to improve document layout for browsing
Xie et al. Efficient browsing of web search results on mobile devices based on block importance model
JP5469046B2 (en) Information search apparatus, information search method, and information search program
CN108959595B (en) Website construction and experience method and device based on virtual and reality
KR20110094179A (en) Digital image retrieval by aggregating search results based on visual annotations
KR20100046586A (en) Map-based web search method and apparatus
CN103631794A (en) Method, device and equipment for sorting search results
CN103838862B (en) Video searching method, device and terminal
US20110131536A1 (en) Generating and ranking information units including documents associated with document environments
WO2011027950A1 (en) Method and apparatus for calculating evaluation score on contents by using user feedback
KR101508583B1 (en) Semantic searching system and method for smart device
Kitamura et al. Tourist spot recommendation applying generic object recognition with travel photos
JP4979528B2 (en) Content display device, content display method, program, and recording medium
CN111460259B (en) Method and device for determining similar elements, computer equipment and storage medium
Fruin et al. Tweetphoto: photos from news tweets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111128

R150 Certificate of patent or registration of utility model

Ref document number: 4878591

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350