JP2009217436A - Collaborative sorting apparatus and program - Google Patents
Collaborative sorting apparatus and program Download PDFInfo
- Publication number
- JP2009217436A JP2009217436A JP2008059190A JP2008059190A JP2009217436A JP 2009217436 A JP2009217436 A JP 2009217436A JP 2008059190 A JP2008059190 A JP 2008059190A JP 2008059190 A JP2008059190 A JP 2008059190A JP 2009217436 A JP2009217436 A JP 2009217436A
- Authority
- JP
- Japan
- Prior art keywords
- user
- index
- search
- indexing
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、協調的分類装置及びプログラムに係り、特に、ブックマークや写真、動画、本、論文といった情報を、複数のユーザが分類し共有する協調的分類装置及びプログラムに関する。 The present invention relates to a collaborative classification apparatus and program, and more particularly to a collaborative classification apparatus and program in which a plurality of users classify and share information such as bookmarks, photos, videos, books, and papers.
昨今、URL(ブックマーク)写真、動画、論文といった情報を、各ユーザがそれぞれ整理分類した結果を共有することにより、鮮度の高い整理された情報収集を可能にする協調的分類システム(Collaborative Tagging Systems)が隆盛である。こうしたシステムでは、ユーザによる自由なタグ(分類軸)の付与を可能としているため、通常のインターネットを利用する行為から自然に情報共有システムへと誘導することが可能となっており、サービスへの参加敷居が低いため、多数のユーザを集めている。 Recently, collaborative tagging systems (Collaborative Tagging Systems) that enable collection of highly organized information by sharing the results of each user organizing and classifying information such as URL (bookmark) photos, videos, and papers. Is prosperous. In such a system, users can freely assign tags (classification axes), so it is possible to naturally guide users to the information sharing system from the act of using the Internet, and participate in the service. Because the threshold is low, it attracts many users.
タグによる分類は、Folksonomyと呼ばれ、様々にその位置づけが議論されており、研究においても多数の成果が発表されている。 Tag classification is called Folksonomy, and its positioning has been discussed in various ways, and numerous results have been published in research.
既存の協調的分類システムでは、ユーザが使っているタグ一覧をタググランド形式で表示することが多い。ユーザが入力するタグは、自由である反面、種類が爆発する傾向にあり、五十音順あるいは頻度順で並べただけのタグでは、情報を探す際の分類軸として有効に機能しない。頻度の高いもののみを一覧表示すると、詳細なタグを見つけ出すことが困難になる。 In an existing cooperative classification system, a tag list used by a user is often displayed in a tag ground format. Tags input by the user are free, but tend to explode in kind, and tags that are simply arranged in the order of Japanese syllabary or frequency do not function effectively as a classification axis when searching for information. If only frequent items are listed, it will be difficult to find detailed tags.
これらの問題を解決する手法として、ソーシャルブックマークサービスの『del.icio.us』や『goo bookmark』ではタグのグループ化機能を提供している。それらのサービスでは、タグをグループ分けするインタフェースを提供しており、ユーザ自らが望むようにタグをグループ化することができる(例えば、非特許文献1、非特許文献2参照)。
しかしながら、このような従来の技術では、タグの種類が非常に多いため、タグ一覧をグループ化/階層化する作業は決して容易なものではない。どのタグ同士が近いかをユーザが一つ一つ突き合せて判断しなければならない。 However, in such a conventional technique, since there are so many types of tags, the task of grouping / hierarchizing the tag list is not easy. The user must determine which tags are close to each other by matching each other.
また、ユーザがタグを検索クエリとして、協調的分類システムに対して検索することができるが、ユーザが選んだタグの利用頻度が低い場合に、得られる情報が減少してしまい、検索の再現率が下がってしまうという問題がある。 In addition, the user can search the collaborative classification system using the tag as a search query. However, when the frequency of use of the tag selected by the user is low, the obtained information decreases, and the search reproduction rate. There is a problem that goes down.
本発明は、上記の点に鑑みなされたもので、発散したタグを集約整理する技術グループ化(bundiling)機能において、どのようなグループ化をすればよいか、タグによる検索を行う際に、利用頻度の低いタグを利用して検索を行ったために結果が少なすぎるという問題を解決し、協調的分類システムにおいて、発散しがちな分類軸の整理を容易にし、分類軸を指定した検索処理の再現率を上げることが可能な協調的分類装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and is used when performing a search by tag to determine what kind of grouping should be performed in a technology bundiling function for collecting and organizing divergent tags. Resolved the problem that search was performed using infrequent tags, resulting in too few results, facilitated the organization of classification axes that tend to diverge in a collaborative classification system, and reproduction of search processing with a specified classification axis An object of the present invention is to provide a collaborative classification apparatus and program capable of increasing the rate.
図1は、本発明の原理構成図である。 FIG. 1 is a principle configuration diagram of the present invention.
本発明(請求項1)は、複数の利用者がブックマークや写真、動画、本、論文といった情報を、各ユーザが分類し提供するための協調的分類情報処理装置であって、
データ入出力部としてのユーザインタフェース手段10と、
データ通信を実行する通信手段80と、
複数のユーザによって分類された、タグ、画像、音声を含む分類軸、分類対象、ユーザ情報を格納したデータベース65と、
ユーザのクライアント装置からテキストデータが入力されると、データベース65の内容を参照して、該テキストデータに対して概念的に関連付けを行い、索引データベース15に格納する関連付け処理手段20と、
索引データベース15の関連付けされたデータに対して、索引付け及びグループ化を行い、索引データベース15に格納する索引付け処理手段30と、を有する。
The present invention (Claim 1) is a collaborative classification information processing apparatus for a plurality of users to classify and provide information such as bookmarks, photographs, videos, books, papers, etc.
User interface means 10 as a data input / output unit;
Communication means 80 for performing data communication;
A
When text data is input from the user's client device, the contents of the
Indexing processing means 30 for indexing and grouping the associated data in the
また、本発明(請求項2)は、関連付け処理手段20において、
データベース65を参照して、テキストデータから特徴となる性質の共起データを抽出する要素抽出処理手段と、
共起データ内での要素の所定の最低頻度条件を用いてノイズの除去を行うフィルタリング手段と、
ノイズが除去された共起データの各要素の確率ベクトルを求めるベクトル算出手段と、を含む。
Further, the present invention (Claim 2) is provided in the association processing means 20,
An element extraction processing means for extracting co-occurrence data having a characteristic property from text data with reference to the
Filtering means for removing noise using a predetermined minimum frequency condition of elements in the co-occurrence data;
Vector calculating means for obtaining a probability vector of each element of the co-occurrence data from which noise has been removed.
また、本発明(請求項3)は、索引付け処理手段30において、
ユーザから指定された要素に近い要素を近傍インデックスとして索引付ける近傍インデックス付与手段と、
ユーザから指定された要素と同一のグループに属する要素をグループインデックスとして索引付けるグループインデックス付与手段と、
ユーザから指定された要素の下位要素群と上位要素を階層インデックスとして索引付ける階層インデックス付与手段と、を含む。
Further, the present invention (Claim 3) is provided in the indexing processing means 30.
Neighborhood index assigning means for indexing an element close to an element designated by the user as a neighborhood index;
Group index assigning means for indexing elements belonging to the same group as the element designated by the user as a group index;
And a hierarchical index assigning means for indexing a lower element group and an upper element of the element designated by the user as a hierarchical index.
また、本発明(請求項4)は、ユーザから入力されたバンドル名に基づいて、索引データベース15のグループインデックスまたは階層インデックスを該ユーザのクライアント装置に送信し、提示する処理を、該ユーザから階層化を継続しないとする指示が入力するまで繰り返すバンドル化・階層化レコメンド手段を更に有する。
Further, according to the present invention (Claim 4), the group index or the hierarchical index of the
また、本発明(請求項5)は、ユーザから検索クエリが入力されると、該検索クエリに基づいて通常の検索を行い、また、該検索クエリに基づいて索引データベース15を参照して、該検索クエリを拡張して検索する検索クエリ拡張手段50と、
通常の検索結果と拡張された検索クエリを用いて検索された結果を、ユーザの指示に基づいて切替表示する結果切替表示手段90と、を更に有する。
Further, according to the present invention (Claim 5), when a search query is input from a user, a normal search is performed based on the search query, and the
It further has a result switching display means 90 for switching and displaying the search result using the normal search result and the extended search query based on a user instruction.
本発明(請求項6)は、請求項1乃至4のいずれか1項に記載の協調的分類情報処理装置を構成する各手段としてコンピュータを機能させるための協調的分類情報処理択プログラムである。
The present invention (Claim 6) is a cooperative classification information processing selection program for causing a computer to function as each means constituting the cooperative classification information processing apparatus according to any one of
本発明は、協調的分類システムにおいて、発散しがちな分類軸の整理を容易にし、分類軸を指定した検索処理の再現率を上げることが可能となる。 The present invention facilitates the organization of classification axes that tend to diverge in a cooperative classification system, and can increase the recall of a search process that designates a classification axis.
まず、本明細書中で使用される用語について説明する。 First, terms used in this specification will be described.
・協調的分類システム:情報をエンドユーザが各自自由に分類し、分類結果を共有できるシステム。例:ソーシャルブックマークサービス(del.icio.us、はてな、etc.,)、写真(flickr)、動画、論文(citeulike)、etc.,
・SBM:ソーシャルブックマークサービスの略。分類対象がURL。各ユーザのブックマークをネットワークを通して共有するシステム。協調的分類システムの典型例。
-Collaborative classification system: A system that allows end users to freely classify information and share classification results. Example: Social bookmarking service (del.icio.us, Hatena, etc.,), photo (flickr), video, paper (citeulike), etc.,
SBM: Abbreviation for social bookmark service. The classification target is a URL. A system for sharing bookmarks of each user over a network. A typical example of a collaborative classification system.
・SBMのデータモデル:本実施の形態では、誰が(USER)、どのURLを(RESOURCE)、どういったカテゴリに(TAG)分類したという3組モデル。U×R×Tを想定。 Data model of SBM: In this embodiment, a three-set model in which (USER), which URL (RESOURCE), and what category (TAG) are classified. Assume UxRxT.
・分類軸:協調的分類システムにおいて分類に用いられる情報。分類軸としてはタグ(キーワード)や画像、音声が用いられる。 Classification axis: Information used for classification in a cooperative classification system. Tags (keywords), images, and sounds are used as the classification axis.
・分類対象の識別子:分類をするには分類対象が区別できる必要がある。分類対象が区別できるということは一意に決定できる識別子集合と1対I対応がとれるため、分類対象を識別子で区別することと同義である。ブックマークの場合には、URLを識別子として利用できる。すなわち、本実施の形態では、分類対象を識別子で表現しても、特に問題は発生しない。 -Classification target identifier: The classification target needs to be distinguishable for classification. Being able to distinguish between classification targets is synonymous with distinguishing classification targets by identifiers because they can have a one-to-one correspondence with identifier sets that can be uniquely determined. In the case of a bookmark, the URL can be used as an identifier. That is, in the present embodiment, no particular problem occurs even if the classification target is represented by an identifier.
・タグ:SBMにおける分類軸。任意のワードを各ユーザが決定することができる。 Tag: Classification axis in SBM. An arbitrary word can be determined by each user.
・タグのバンドル化:タグをあるキーワード(バンドル名)でひも付けること(del.icio.us(http://del.icio.us)参照)。バンドル名とタグの間には必ず下上位/下位の関係性を要求しない。多重帰属も許可する場合が多い。タグを整理する方法の1つ。 -Tag bundling: Link a tag with a certain keyword (bundle name) (see del.icio.us (http://del.icio.us)). A lower / upper / lower relationship is not always required between a bundle name and a tag. In many cases, multiple attribution is also permitted. One way to organize tags.
・タグの階層化:タグを階層的に配置あるいは、バンドル化を再帰的に繰り返して階層的に配置すること(youtube(http://youtube.com)参照)。 -Tag hierarchization: Hierarchical arrangement of tags or recursive bundling (see youtube (http://youtube.com)).
・クエリ:本実施の形態では、付与されたタグに対する検索タグとする。 Query: In this embodiment, a search tag for a given tag is used.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本発明の基本操作について説明する。 The basic operation of the present invention will be described.
本発明の協調的分類システムは、図2に示すように、利用者がある分類軸(タグ)で分類対象(URL)を分類するものである。 As shown in FIG. 2, the cooperative classification system of the present invention classifies a classification target (URL) by a user with a certain classification axis (tag).
本発明は、協調的分類システムにおいて、ユーザが分類した結果であり、ユーザ/分類軸/分類対象の関連情報を予め概念的に索引付けすることにより、分類軸を整理する際は適切であると予想されるグルーピング及び階層を推薦し、検索時には概念に基づいて検索クエリ拡張を行う。このレコメンドは、予め索引付けを行っておき、高速に情報を取得可能にしておく。これにより、上記課題を解決することができる。 The present invention is a result of classification by a user in a cooperative classification system, and is appropriate when organizing the classification axis by conceptually indexing related information of the user / classification axis / classification target in advance. Expected groupings and hierarchies are recommended, and search queries are expanded based on concepts during search. This recommendation is indexed in advance and information can be acquired at high speed. Thereby, the said subject can be solved.
本発明の基本動作は以下の通りである。 The basic operation of the present invention is as follows.
(1)予め付与された分類軸間の関連付け(グルーピング階層化)を利用して、ユーザが分類軸を整理する際に、グループや階層構造をレコメンドする。 (1) Using the association (grouping hierarchization) between the classification axes given in advance, when the user organizes the classification axes, the group and the hierarchical structure are recommended.
(2)分類軸に対する検索クエリに対して、予め付与された分類軸への分類対象の関連性を利用して、検索結果を拡張する。 (2) For the search query for the classification axis, the search result is expanded using the relevance of the classification target to the classification axis given in advance.
図3は、本発明の一実施の形態におけるシステム概略のブロック図である。 FIG. 3 is a schematic block diagram of a system according to an embodiment of the present invention.
協調的分類システムは、ネットワークサービスとしてクライアント装置2に提供され、ユーザはWebブラウザやクライアントアプリケーションを通してサービスを利用することができる。協調的分類システム(情報共有サーバ)では、実際に処理を行うアプリケーションサーバ10、データを格納するデータベースサーバ15、60、分類軸や分類対象、ユーザ情報の関連付けを行う関連付けエンジン30、関連付け情報をアプリケーション内のロジックに合わせて予め索引付けするインデクシングエンジン30、クエリ拡張エンジン50からなる。
The cooperative classification system is provided to the
これらの処理部は、単一のサーバ内で実現されるだけでなく、複数台で分散構成になることもある。 These processing units are not only realized in a single server, but may be distributed in a plurality of units.
以下では、図3に示す情報共有サーバ1を協調的分類装置として説明する。
Hereinafter, the
図4は、本発明の一実施の形態における協調的分類装置の構成を示す。 FIG. 4 shows the configuration of the cooperative classification apparatus according to an embodiment of the present invention.
同図に示す協調的分類装置は、通信インタフェース(I/F)10、関連付け処理部20、索引付け処理部30、バンドル化・階層化レコメンド処理部40、クエリ拡張部50、分類軸DB60、分類対象DB70、ユーザDB75、通信部80、検索結果表示制御部90、索引DB15から構成される。
The cooperative classification apparatus shown in the figure includes a communication interface (I / F) 10, an
関連付け処理部20は、分類軸タグ60、分類対象DB70、ユーザDB75の分類対象・タグ(分類軸)・ユーザ情報の全てあるいはいずれかの情報を用いて、それらから特徴となる性質を抜き出し、例えば、タグ⇔タグ、分類対象⇔タグ、といった距離を計測可能にすることである。そのための処理としては、文献1「"Probabilistic Latent Semantic Analysis", Thomas Hofmann, 1999, In Proc. of Uncertainty in Artificial Intelligence, UAI'99」、文献2「"Exploring Social Annotations for the Semantic Web", Xian Wu et. al, 2006, In WWW2006」、文献3「PLSIを用いたSBMユーザとタグの関連の可視化、毛受崇、江田毅晴、吉川正俊、山室雅司、DBWS, 2007」等の既存技術を利用することができる。典型的には、各アイテムを特徴ベクトルとして表現し、それらのベクトル間での類似度を用いて要素間の距離を測るものである。
The
関連付け処理部20は、図5に示すように、要素抽出部21、前フィルタ処理部22、PLSI(Probabilistic Latent Semantic Indexing)処理部23を有し、各処理部の結果は索引DB15に格納するものとする。
As shown in FIG. 5, the
図6は、本発明の一実施の形態における関連付け処理のフローチャートである。 FIG. 6 is a flowchart of the associating process according to the embodiment of the present invention.
まず、通信インタフェース10を介して、ローテキストデータが入力されると、関連付け処理部30は、要素抽出処理部21において当該ローデータから必要な共起データを抽出し(ステップ101)、前フィルタ処理部22において、抽出された共起データからノイズとなるデータを除去する(ステップ102)。PLSI処理部23は、ノイズが除去された共起データについてインデクシングを行い(ステップ103)、その結果として各要素の特徴ベクトルを索引DB15に出力する(ステップ104)。
First, when raw text data is input via the
以下に、関連付け処理部20の詳細な処理について説明する。
Hereinafter, detailed processing of the
要素抽出部21には、ローテキストデータが入力される。ソーシャルブックマークにおけるローデータ構造は、各サービス内でどのようにデータベーススキーマを定義するかに依存する。具体例としては、ブックマークするという行為を『誰が(U)、どのURLを(R)、いつ(t)、何と分類した(T)。感想を書いた(C)』とモデル化することができ、このときローデータはそれぞれの直積からなる5組共起データ(U×R×t×T×Cの部分集合)と捉えることができる。上記の文献1の方法では、2組から構成される確率的インデクシング手法を採用しており、そのインデクシング手法を実行できるよう、5組共起データを選択する(U×RやR×Tなど)。また、上記の文献2、文献3、及び文献4「"Folksonomy のタグを用いた自動分類体系構築へ向けて"、江田毅晴、吉川正俊、山室雅司、DBWS,2007」では、3組共起データに対するインデクシングを実行できるため、(U×R×T:ユーザ・分類軸・分類対象)といった3組共起データを選択する。これらの処理が当該要素抽出処理部21で行われる処理であり、選択されない情報は単に無視される。要素抽出処理部21は、選択された共起データを索引DB15の共起データ領域に格納する。
Raw text data is input to the
上記の文献1のインデクシング手法であるPLSIを2組共起データから3組に拡張したものが、上記の文献2の方法であり、議論は同様に成り立つため、以降、3組共起データを用いて説明する。
The PLSI, which is the indexing technique of the above-mentioned
次に、前フィルタ処理部22について説明する。
Next, the
PLSIにおいて、共起データ内で登場頻度の低いアイテムはノイズになることが知られている(文献2参照)。そこで、前フィルタ処理部32では、索引DB15から要素抽出部21で選択された共起データを読み出して、当該共起データ内での要素の最低頻度条件を用いて共起データからノイズ除去を行い、索引DB15に格納する。ここで、上記の各アイテム頻度について説明する。
In PLSI, it is known that items with low appearance frequency in co-occurrence data become noise (see Document 2). Therefore, the
今、3組のデータの具体例を
{(u1,r1,t1),(u1,r1,t2),(u1,r2,t1),(u2,r2,t2),(u3,r2,t3)}
とする。この場合、それぞれのアイテム頻度は、アイテムが3組としてデータセットに登場した回数を表す。つまり、
│u1│=3,│u2│=1,│u3│=1
│r1│=2,│r2│=3
│t1│=2,│t2│=2,│t3│=1
となる。但し、│x│は、アイテムxの濃度(個数)を表す。この場合、最低頻度として"2"を指定すると、u2,u3,t3はノイズとして除去され、3組データは
{(u1,r1,t1),(u1,r1,t2)}
が残る。
Now, specific examples of three sets of data {(u1, r1, t1), (u1, r1, t2), (u1, r2, t1), (u2, r2, t2), (u3, r2, t3) }
And In this case, each item frequency represents the number of times an item appears in the data set as three sets. That means
│u1│ = 3, │u2│ = 1, │u3│ = 1
│r1│ = 2, │r2│ = 3
│t1│ = 2, │t2│ = 2, │t3│ = 1
It becomes. However, | x | represents the density (number) of the item x. In this case, if “2” is specified as the minimum frequency, u2, u3, t3 are removed as noise, and the three sets of data are {(u1, r1, t1), (u1, r1, t2)}.
Remains.
次に、PLSI処理部23について説明する。 Next, the PLSI processing unit 23 will be described.
PLSI処理部33は、索引DB15から前フィルタ処理部22でノイズ除去された共起データを読み込んで、前述の文献1、文献2にて提案されているPLSIを用いて、N組共起データの共起性を学習し、それぞれの要素のアイテムを確率ベクトルとして求め、索引DB15に格納する。処理の詳細については、文献1,2を参照されたい。ここで、確率ベクトルとは、あるベクトルのそれぞれの値を合計すると1になるような正規化されたベクトルである。こうしたベクトル間の距離としては、KLダイバージェンスや、JSダイバージェンスを用いることにより、精度よくアイテム間の距離を測定することが可能となる。
The PLSI processing unit 33 reads the co-occurrence data from which noise has been removed by the
次に、索引付け処理部30について図5を用いて説明する。
Next, the
索引付け処理部30は、図5に示すように、近傍インデクシング部31とグルーピング階層化部32から構成され、それぞれの結果は索引DB15に格納される。
As shown in FIG. 5, the
索引付け処理部30では、次の3通りのパターンを行う。
The
1.近傍インデクシング部31は、索引DB15から関連付け処理部20で求められた特徴ベクトル(PLSIベクトル)を読み込んで、ユーザから指定された要素に距離の近い要素を索引付け、これを近傍情報インデックスとして索引DB15の近傍インデックス領域に格納する。
1. The
2.グルーピング・階層化部32は、索引DB15から特徴ベクトル(PLSIベクトル)を読み込んで、ユーザから指定された要素と同一のグループに属する要素を索引付け、グループインデックスとして索引DB15のグループインデックス領域に格納する。
2. The grouping /
3.グルーピング・階層化部32において、索引DB15から特徴ベクトル(PLSIベクトル)を読み込んで、ユーザから指定された要素の下位要素群を索引付け、階層インデックスとして索引DB15の階層インデックス領域に格納する。
3. The grouping /
詳細は、前述の文献3,4に示すような手法を用いて行う。
The details are performed using the methods shown in the above-mentioned
結果として取得できる索引の例を示す。 An example of an index that can be obtained as a result is shown below.
(1)"web2.0"---"web","インターネット","internet","www","html","blog","SBM"
(2)"web2.0"---5
・上記の「5」は、グループIDを示す。グループIDはタグを特徴量に基づいてクラスタリングし、それぞれのクラスタに割り振った番号である。この番号「5」に属するタグとして{"web","インターネット","internet","www"}等が想定できる。
(1) "web2.0" --- "web", "Internet", "internet", "www", "html", "blog", "SBM"
(2) "web2.0" --- 5
“5” above indicates a group ID. The group ID is a number assigned to each cluster by clustering tags based on the feature amount. As tags belonging to the number “5”, {“web”, “Internet”, “internet”, “www”} and the like can be assumed.
(3)"web2.0"---親->,子供->(blog, thml, SBM,,,)
・ルートに対しては、トップタグ候補を子供として返す。(トップタグ候補の構成方法は、文献4に記載されている)
*""---親->"",子供->(web, あとで読む,tools, reference,,,)
こうした索引を索引付け処理部30にて予め計算しておくことで問い合わせ処理を高速化する。
(3) "web2.0" --- Parent->, Children-> (blog, thml, SBM ,,,)
-For the route, the top tag candidate is returned as a child. (The method for configuring the top tag candidate is described in Document 4)
* "" --- parent->"",child-> (web, read later, tools, reference ,,,)
Inquiry processing is speeded up by calculating such an index in advance in the
次に、バンドル化・階層化レコメンド処理部40について説明する。
Next, the bundling / hierarchical
まず、バンドル化レコメンド処理について説明する。バンドル化・階層化レコメンド処理部40は、典型的にはバンドル化時には、グループインデックスを、階層化時には階層インデックスを利用する。
First, the bundle recommendation process will be described. The bundling / hierarchical
図7は、本発明の一実施の形態におけるバンドル化レコメンド処理のフローチャートである。 FIG. 7 is a flowchart of the bundling recommendation process according to the embodiment of the present invention.
まず、ユーザのクライアント装置2からユーザインタフェース10を介してバンドル名nameと、全体のタグ集合Tが入力される(ステップ201)。バンドル化レコメンド処理においては、バンドル名nameは、既に利用されているタグの場合もあるし、任意のキーワードの場合もある。タグの場合には(ステップ202、Y)、索引DB15に格納されているグループインデックスを利用して同一グループに含まれるタグ一覧をバンドル対象候補としてユーザに提示する(ステップ205)。任意のキーワードの場合には(ステップ202、N)、タグを一つユーザに選択させることにより(ステップ203,204)、選択済みのタグのグループインデックスを利用してバンドル候補タグの集合Rtを取得し(ステップ205)、ユーザに提示する(ステップ206)。上記のグループインデックスを利用したところは、近傍情報インデックスや階層インデックスに置き換えても同様のレコメンドが可能である。階層インデックスの場合は、バンドル名を親タグとして情報を取得することにより、より直感的なバンドルの推薦が可能になる。
First, the bundle name name and the entire tag set T are input from the
図8は、本発明の一実施の形態におけるバンドル化時のユーザインタフェースの流れを示す。同図に示すユーザインタフェースの流れは、グループインデックスを使った場合のバンドル化の手順である。 FIG. 8 shows the flow of the user interface at the time of bundling in an embodiment of the present invention. The flow of the user interface shown in the figure is a bundling procedure when a group index is used.
(1)ユーザは、クライアント装置2において、バンドル作成メニューを表示し、新しいバンドル名を入力する。
(1) The user displays a bundle creation menu on the
(2)次に、入力されたバンドル名に基づいてメモリ33を参照し、バンドルに含むタグを入力するためのバンドル推薦タグを表示する。 (2) Next, referring to the memory 33 based on the input bundle name, a bundle recommendation tag for inputting a tag included in the bundle is displayed.
(3)ユーザは、表示されたバンドル推薦タグを選択する、または、手入力により任意のタグを入力する。 (3) The user selects the bundle recommendation tag displayed or inputs an arbitrary tag by manual input.
(4)手入力により、タグを入力する。 (4) A tag is input manually.
次に、バンドル化・階層化レコメント処理部40の階層化レコメンド処理について説明する。図9は、本発明の一実施の形態における階層化レコメンド処理のフローチャートである。
Next, the hierarchical recommendation process of the bundled / hierarchical
階層化操作は、通常再帰的な操作の繰り返しになるため、図9の階層化レコメンド処理においては、階層化処理を継続するかしないか選択することにより再帰的に階層化を行えるようになっている。 Since the hierarchization operation is usually a recursive repetitive operation, the hierarchization recommendation process in FIG. 9 can be recursively hierarchized by selecting whether or not to continue the hierarchization process. Yes.
まず、親候補(トップタグ選択時は空)pが入力される(ステップ301)。 First, a parent candidate (empty when a top tag is selected) p is input (step 301).
pをキーとして索引DB15から下位タグ集合Rtを取得し(ステップ302)、当該集合Rtをユーザに提示する。このとき、任意タグの選択が可能な選択フォームを提示する(ステップ303)。ユーザによる階層化処理を継続する場合は(ステップ304、Y)、親候補選択フォームをユーザに提示し(ステップ305)、ユーザが選択した親候補pを入力し(ステップ306)、上記の処理を繰り返す。また、ユーザによる階層化処理を継続しない場合は(ステップ304、N)、階層化結果を出力する(ステップ307)。
The lower tag set Rt is acquired from the
図10は、本発明の一実施の形態における階層化を行う際のユーザインタフェースの流れを示す図である。 FIG. 10 is a diagram showing a flow of a user interface when performing hierarchization in an embodiment of the present invention.
(1)ユーザのクライアント装置2に対してタグ階層化メニューを表示し、トップタグの1つ下位の階層のタグ候補を推薦タグとして表示する。
(1) A tag hierarchization menu is displayed on the
(2)ユーザにより選択されたタグに基づいて索引DB15を参照してその1つ下位の階層のタグ候補を更に表示し、ユーザからの選択入力を受け付ける。
(2) Based on the tag selected by the user, the
なお、(1)、(2)において、ユーザの手入力を受け付けることも可能である。 In (1) and (2), it is also possible to accept user manual input.
次に、検索時におけるクエリ拡張処理部50と検索結果表示制御部90について説明する。
Next, the query
図11は、本発明の一実施の形態におけるクエリ拡張処理部のフローチャートである。 FIG. 11 is a flowchart of the query expansion processing unit according to the embodiment of the present invention.
クエリ拡張処理部50は、入力として、クライアント装置2から検索クエリqと検索オプションoが与えられると(ステップ401)、検索オプションoが概念検索である場合は(ステップ402、Y)、索引DB15に格納されている特徴ベクトル距離によるランキング結果を出力する(ステップ403)。oが検索概念ではなく(ステップ402、N)、検索オプションoが類似タグ検索である場合は(ステップ404、Y)、索引DB15に格納されている近傍インデックスqTから取得した近傍タグとqの集合を取得し(ステップ405)、qTのタグをORで結合して、検索エンジンによって通常の検索処理を行い(ステップ406)、検索結果表示制御部90は、そのqTによる検索結果を出力し(ステップ406)、一方、oが概念検索ではなく、類似タグ検索でもない場合は(ステップ402、N,ステップ404、N)、qによる通常の検索結果を出力する(ステップ408)。
When the search query q and the search option o are given from the
クエリ拡張処理部50は、上記のように、内部処理としてのクエリ処理として、通常の検索処理以外に、概念検索、類似タグ拡張検索がある。
As described above, the query
概念検索は、タグと検索対象の特徴ベクトルの距離に基づいてランキングする検索である。一般に、通常の検索結果が少ないときには、結果数を増やし、多すぎるときには結果数を減らす効果がある。 Concept search is a search that ranks based on the distance between a tag and a feature vector to be searched. In general, the number of results is increased when there are few normal search results, and the number of results is decreased when there are too many results.
また、類似タグ拡張検索とは、近傍インデックスを利用して検索タグの近傍タグを利用して近傍タグ集合と検索タグの結果の和集合をとってランキングする検索手法である。 Further, the similar tag extended search is a search method that uses a neighborhood index and uses a neighborhood tag of a search tag and ranks the union of a neighborhood tag set and a search tag result.
以下に、従来の技術と本発明を比較した例を示す。 The following is an example comparing the prior art with the present invention.
図12は、従来技術と本発明にて作成したタグのバンドル化を行う操作メニューの例である。同図(A)は従来技術により作成したものであり、バンドル名を選択あるいは作成する時に見えるタグの一覧は五十音順あるいは頻度順に並んでおり、バンドル名をどのように選択すればよいか直感的に把握することが困難である。同図(B)は本発明を用いて作成したものであり、タグはその意味を解析した関連性に基づいてグルーピングされて一覧表示されており、バンドル名として相応しいタグを直感的に選び出すことが可能となる。 FIG. 12 is an example of an operation menu for bundling tags created in the prior art and the present invention. Fig. (A) is created by the prior art. The list of tags that can be seen when selecting or creating a bundle name is arranged in alphabetical order or frequency order, and how to select the bundle name. It is difficult to grasp intuitively. FIG. 6B is created using the present invention, and tags are grouped and displayed in a list based on relevance whose meaning has been analyzed, and it is possible to intuitively select tags that are appropriate as bundle names. It becomes possible.
図13は、従来技術と本発明にて作成したタグの階層化を行う操作メニューの例であり、図14は、従来技術と本発明にて作成したタグの階層化を行う操作メニューにおいて下位タグを選択した場合の例である。図13は、階層化のスタートとなる最上位タグの選択操作を示しており、図14は、最上位タグの1つとして指定した「programming」というタグの下位タグの選択操作を示している。 FIG. 13 shows an example of an operation menu for hierarchizing tags created in the prior art and the present invention, and FIG. 14 shows a lower tag in the operation menu for hierarchizing tags created in the prior art and the present invention. This is an example of selecting. FIG. 13 shows the selection operation of the highest tag that is the start of hierarchization, and FIG. 14 shows the selection operation of the lower tag of the tag “programming” designated as one of the highest tags.
図13(A)、図14(A)に示す従来技術では、ある階層のタグを選択する際に、既存のタグの一覧から選択するか、ユーザが任意にキーワードを指定する必要がある。図13(B),図14(B)に示す本発明では、最上位タグの選択時には、ユーザが利用しているタグ全体の中から抽象度と頻度が高いと判定できるタグを一覧表示する。あるタグの下位タグを選択する際には、そのタグより抽象度が低く意味的に距離の近いタグを推薦する。これにより、ユーザは容易にタグの階層的な配置を行うことができる。推薦タグ以外のタグを配置したい場合や任意のキーワードを利用する場合は、従来の手法を使う。 In the prior art shown in FIGS. 13A and 14A, when a tag in a certain hierarchy is selected, it is necessary to select from a list of existing tags or to specify a keyword arbitrarily by the user. In the present invention shown in FIGS. 13 (B) and 14 (B), when the highest tag is selected, a list of tags that can be determined as having a high abstraction level and frequency among all tags used by the user is displayed. When selecting a lower tag of a tag, a tag having a lower abstraction level and a semantically closer distance than the tag is recommended. As a result, the user can easily arrange tags hierarchically. If you want to place tags other than recommended tags or use arbitrary keywords, use the conventional method.
図15は、通常の検索結果とクエリ拡張した結果の例を示す。 FIG. 15 shows an example of a normal search result and a result of query expansion.
クエリは、'xquery'であるが、それほど頻繁に使われるタグでない場合、従来技術では、結果数が少なくなってしまうという問題がある。これに対して本発明では、'xquery'に意味の近いタグを表示し、結果も意味的な関連を元に追加して表示することが可能になり、検索結果の再現率向上に寄与する。ノイズも増えるため、もちろん安易に再現率向上と言えない部分もあるが、通常の結果とクエリ拡張を行った結果の両方をインタラクティブに見せるようなユーザインタフェースを提供することにより、ユーザに情報を取得するための選択肢を与えることにつなげることが可能である。 The query is 'xquery', but if it is not a tag that is used so frequently, there is a problem that the number of results is reduced in the prior art. On the other hand, in the present invention, it is possible to display a tag having a meaning similar to 'xquery', and to display a result by adding a semantic relation, which contributes to an improvement in the recall rate of the search result. Of course, there is a part that cannot easily be said to improve the recall rate due to increased noise, but by providing a user interface that interactively shows both the normal result and the result of query expansion, information is acquired for the user It can be linked to giving options to do.
上記の実施の形態では、協調的分類システムのうち、特にソーシャルブックマークシステムを例として説明しているが、ブックマークに限定されることなく、いずれの協調的分類システムを用いてもよい。 In the above-described embodiment, the social bookmark system is described as an example among the cooperative classification systems, but any cooperative classification system may be used without being limited to the bookmark.
なお、図4に示す協調的分類装置の各構成要素の動作をプログラムとして構築し、協調的分類装置として利用されるコンピュータ(サーバ)にインストールして実行させる、または、ネットワークを介して流通させることが可能である。 In addition, the operation | movement of each component of the cooperative classification apparatus shown in FIG. 4 is built as a program, installed in a computer (server) used as the cooperative classification apparatus, executed, or distributed via a network. Is possible.
また、構築したプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、ブックマーク、写真、動画、本、論文等の情報を複数のユーザが分類し供給するシステムに適用可能である。 The present invention can be applied to a system in which a plurality of users classify and supply information such as bookmarks, photographs, videos, books, and papers.
1 情報共有サーバ、協調的分類装置
2 クライアント装置
10 ユーザインタフェース手段、ユーザインタフェース
15 索引DB(データベース)
20 関連付け処理手段、関連付け処理部、関連付けエンジン
21 要素抽出部
22 前フィルタ処理部
23 PLSI処理部
30 索引付処理手段、索引付け処理部、インデクシングエンジン
31 近傍インデクシング部
32 グルーピング階層化部
40 バンドル化・階層化レコメンド手段、バンドル化・階層化レコメンド処理部
50 検索クエリ拡張手段、クエリ拡張部、クエリ拡張エンジン
60 分類軸データベース(DB)、データベースサーバ
65 データベース
70 分類対象データベース(DB)、データベースサーバ
75 ユーザデータベース(DB)
80 通信手段、通信部
90 結果切替表示手段、検索結果表示制御部
DESCRIPTION OF
20 Association Processing Unit, Association Processing Unit,
80 communication means,
Claims (6)
データ入出力部としてのユーザインタフェース手段と、
データ通信を実行する通信手段と、
複数のユーザによって分類された、タグ、画像、音声を含む分類軸、分類対象、ユーザ情報を格納したデータベースと、
ユーザのクライアント装置からテキストデータが入力されると、前記データベースの内容を参照して、該テキストデータに対して概念的に関連付けを行い、索引データベースに格納する関連付け処理手段と、
前記索引データベースの関連付けされたデータに対して、索引付け及びグループ化を行い、該索引データベースに格納する索引付け処理手段と、
を有することを特徴とする協調的分類情報処理装置。 A collaborative classification information processing device for each user to classify and provide information such as bookmarks, photos, videos, books, papers, etc.
User interface means as a data input / output unit;
A communication means for performing data communication;
A database that stores tags, images, classification axes including audio, classification targets, and user information classified by a plurality of users;
When text data is input from the user's client device, referring to the contents of the database, conceptually associating the text data, and storing in an index database; and
Indexing processing means for indexing and grouping the associated data of the index database and storing in the index database;
A collaborative classification information processing apparatus characterized by comprising:
前記データベースを参照して、前記テキストデータから特徴となる性質の共起データを抽出する要素抽出処理手段と、
前記共起データ内での要素の所定の最低頻度条件を用いてノイズの除去を行うフィルタリング手段と、
ノイズが除去された共起データの各要素の確率ベクトルを求めるベクトル算出手段と、
を含む請求項1記載の協調的分類情報処理装置。 The association processing means includes
Element extraction processing means for extracting co-occurrence data having a characteristic property from the text data with reference to the database;
Filtering means for removing noise using a predetermined minimum frequency condition of elements in the co-occurrence data;
Vector calculation means for obtaining a probability vector of each element of the co-occurrence data from which noise has been removed;
The cooperative classification information processing apparatus according to claim 1, including:
前記ユーザから指定された要素に近い要素を近傍インデックスとして索引付ける近傍インデックス付与手段と、
前記ユーザから指定された要素と同一のグループに属する要素をグループインデックスとして索引付けるグループインデックス付与手段と、
前記ユーザから指定された要素の下位要素群と上位要素を階層インデックスとして索引付ける階層インデックス付与手段と、
を含む請求項1記載の協調的分類情報処理装置。 The indexing processing means includes
Neighborhood index assigning means for indexing an element close to the element designated by the user as a neighborhood index;
Group index assigning means for indexing an element belonging to the same group as the element designated by the user as a group index;
Hierarchical index assigning means for indexing a lower element group and an upper element of an element designated by the user as a hierarchical index;
The cooperative classification information processing apparatus according to claim 1, including:
通常の検索結果と前記拡張された検索クエリを用いて検索された結果を、前記ユーザの指示に基づいて切替表示する手段と、
を更に有する請求項1乃至4記載の協調的分類情報処理装置。 When a search query is input from the user, a normal search is performed based on the search query, and the search query is expanded and searched by referring to the index database based on the search query. Expansion means;
Means for switching and displaying a normal search result and a result searched using the extended search query based on an instruction of the user;
The cooperative classification information processing apparatus according to claim 1, further comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008059190A JP5112117B2 (en) | 2008-03-10 | 2008-03-10 | Cooperative classification apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008059190A JP5112117B2 (en) | 2008-03-10 | 2008-03-10 | Cooperative classification apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009217436A true JP2009217436A (en) | 2009-09-24 |
JP5112117B2 JP5112117B2 (en) | 2013-01-09 |
Family
ID=41189233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008059190A Expired - Fee Related JP5112117B2 (en) | 2008-03-10 | 2008-03-10 | Cooperative classification apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5112117B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003740A (en) * | 2010-06-16 | 2012-01-05 | Fuji Xerox Co Ltd | Retrieval result generation method, retrieval result generation program and retrieval system |
JP2013232108A (en) * | 2012-04-27 | 2013-11-14 | Rakuten Inc | Tag management device, tag management method, tag management program, and computer-readable recording medium for storing the program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233856A (en) * | 2006-03-02 | 2007-09-13 | Sony Corp | Information processor, information processing system and method, and computer program |
JP2007272390A (en) * | 2006-03-30 | 2007-10-18 | Sony Corp | Resource management device, tag candidate selection method and tag candidate selection program |
-
2008
- 2008-03-10 JP JP2008059190A patent/JP5112117B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233856A (en) * | 2006-03-02 | 2007-09-13 | Sony Corp | Information processor, information processing system and method, and computer program |
JP2007272390A (en) * | 2006-03-30 | 2007-10-18 | Sony Corp | Resource management device, tag candidate selection method and tag candidate selection program |
Non-Patent Citations (2)
Title |
---|
CSNG200701088067; 江田 毅晴 他: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 電子情報通信学会技術研究報告 Vol.107,No.131(DE2007-89), 20070625, PP.405-410., 電子情報通信学会 * |
JPN6012013643; 江田 毅晴 他: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 電子情報通信学会技術研究報告 Vol.107,No.131(DE2007-89), 20070625, PP.405-410., 電子情報通信学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012003740A (en) * | 2010-06-16 | 2012-01-05 | Fuji Xerox Co Ltd | Retrieval result generation method, retrieval result generation program and retrieval system |
JP2013232108A (en) * | 2012-04-27 | 2013-11-14 | Rakuten Inc | Tag management device, tag management method, tag management program, and computer-readable recording medium for storing the program |
Also Published As
Publication number | Publication date |
---|---|
JP5112117B2 (en) | 2013-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4569955B2 (en) | Information storage and retrieval method | |
TWI482037B (en) | Search suggestion clustering and presentation | |
Di Giacomo et al. | Graph visualization techniques for web clustering engines | |
US20090063568A1 (en) | Method and apparatus for constructing user profile using content tag, and method for content recommendation using the constructed user profile | |
JP7252914B2 (en) | Method, apparatus, apparatus and medium for providing search suggestions | |
JP2008042895A (en) | Method for clustering plurality of videos, apparatus, system, and program related thereto | |
Pol et al. | A survey on web content mining and extraction of structured and semistructured data | |
US20070271228A1 (en) | Documentary search procedure in a distributed system | |
US10650191B1 (en) | Document term extraction based on multiple metrics | |
Liu et al. | Event analysis in social multimedia: a survey | |
KR20110133909A (en) | Semantic dictionary manager, semantic text editor, semantic term annotator, semantic search engine and semantic information system builder based on the method defining semantic term instantly to identify the exact meanings of each word | |
Vandic et al. | A semantic clustering-based approach for searching and browsing tag spaces | |
Labsky et al. | Information extraction from HTML product catalogues: from source code and images to RDF | |
JP5112117B2 (en) | Cooperative classification apparatus and program | |
Djuana Tjhwa et al. | Learning personalized tag ontology from user tagging information | |
An et al. | Learning to discover complex mappings from web forms to ontologies | |
Sang et al. | Faceted subtopic retrieval: Exploiting the topic hierarchy via a multi-modal framework | |
US8645381B2 (en) | Document taxonomy generation from tag data using user groupings of tags | |
Djuana et al. | Personalization in tag ontology learning for recommendation making | |
Wu et al. | Collaborative classification of growing collections with evolving facets | |
Wang et al. | An efficient refinement algorithm for multi-label image annotation with correlation model | |
Zha et al. | Fts: Faceted taxonomy construction and search for scientific publications | |
Vlahovic | Web 2.0 and its Impact on Information Extraction Practices | |
Habi et al. | Search and aggregation in xml documents | |
Liu et al. | Extracting multiple news attributes based on visual features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120321 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121010 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |