JP2010182267A - コンテンツ分類装置、方法及びプログラム - Google Patents

コンテンツ分類装置、方法及びプログラム Download PDF

Info

Publication number
JP2010182267A
JP2010182267A JP2009027746A JP2009027746A JP2010182267A JP 2010182267 A JP2010182267 A JP 2010182267A JP 2009027746 A JP2009027746 A JP 2009027746A JP 2009027746 A JP2009027746 A JP 2009027746A JP 2010182267 A JP2010182267 A JP 2010182267A
Authority
JP
Japan
Prior art keywords
tag
content
user
classification
tags
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009027746A
Other languages
English (en)
Other versions
JP5430960B2 (ja
Inventor
Masumi Inaba
真純 稲葉
Shinichi Nagano
伸一 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009027746A priority Critical patent/JP5430960B2/ja
Publication of JP2010182267A publication Critical patent/JP2010182267A/ja
Application granted granted Critical
Publication of JP5430960B2 publication Critical patent/JP5430960B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】タグを用いてコンテンツを正確に分類可能なコンテンツ分類技術を提供する。
【解決手段】多義語判定処理部53は、入力受付部51が入力を受け付けたタグの多義性を判定する。同義語判定処理部54は、多義語判定処理部53が多義性を判定したタグの同義性を判定する。階層判定処理部55は、同義語判定処理部54が同義性を判定したタグについて、タグ間の上位下位関係を示す階層関係を判定する。コンテンツ分類部56は、タグについて判定された同義性、多義性及び階層関係に基づいて、入力受付部51が入力を受け付けたコンテンツを分類する。
【選択図】 図1

Description

本発明は、コンテンツ分類装置、方法及びプログラムに関する。
ソーシャルブックマークなどのコンテンツ共有システムでは、ユーザが所望のWebページなどのコンテンツに、短い言葉のラベリングであるタグを付与することができ、それを他のユーザに公開して共有することができる。このタグを分類することで、コンテンツを正確に分類することが期待できる。しかし、タグに用いる言葉は個々のユーザが任意に定義できるため、表記揺れや、タグに対する感性の相違が発生する。よって、タグをそのまま分類することによって、コンテンツを正確に分類することは困難であった。近年では、同義性を有するタグについては、同一の分類として取り扱う技術が開発されている(例えば特許文献1参照)。同義性とは、言葉が異なっていても同じ意味を有するという性質である。
特開2003−281184号公報
しかし、特許文献1の技術では、多義性を有するタグについては、異なる分類として取り扱うことは困難であった。多義性とは、同じ言葉であっても異なる意味を有するという性質である。このため、同じ言葉であるもののユーザによって意味が異なるタグであっても、当該タグを用いてコンテンツを正確に分類することが望まれていた。
本発明は、上記に鑑みてなされたものであって、タグを用いてコンテンツを正確に分類可能なコンテンツ分類装置、方法及びプログラムを提供することを目的とする。
上述した課題を解決し、本発明は、言葉を表すタグがユーザにより付与されたコンテンツを分類するコンテンツ分類装置であって、複数のユーザと、各ユーザが各々付与したタグと、各タグが付与されたコンテンツとの対応関係に基づいて、前記言葉に対するユーザの概念を解析して、当該概念毎にタグを分類するタグ分類手段と、分類されたタグに基づいて、コンテンツを分類するコンテンツ分類手段とを備えることを特徴とする。
また、本発明は、タグ分類手段と、コンテンツ分類手段とを備えるコンテンツ分類装置で実行されるコンテンツ分類方法であって、前記タグ分類手段が、複数のユーザと、各ユーザが各々付与したタグと、各タグが付与されたコンテンツとの対応関係に基づいて、前記言葉に対するユーザの概念を解析して、当該概念毎にタグを分類するタグ分類ステップと、前記コンテンツ分類手段が、分類されたタグに基づいて、コンテンツを分類するコンテンツ分類ステップとを含むことを特徴とする。
また、本発明は、上記の方法をコンピュータに実行させるためのプログラムである。
本発明によれば、タグを用いてコンテンツを正確に分類可能になる。
図1は、一実施の形態にかかるコンテンツ分類装置50の機能的構成を例示する図である。 図2は、同実施の形態にかかるコンテンツ分類装置50の行うコンテンツ分類処理の手順を示すフローチャートである。 図3は、同実施の形態にかかる多義語判定処理の手順を示すフローチャートである。 図4は、同実施の形態にかかるタグの多義性に関し、特徴量を用いてユーザをクラスタリングする処理を概念的に示す図である。 図5は、同実施の形態にかかる同義語判定処理の手順を示すフローチャートである。 図6は、同実施の形態にかかるタグの同義性に関し、特徴量を用いてユーザをクラスタリングする処理を概念的に示す図である。 図7は、同実施の形態にかかる階層判定処理の手順を示すフローチャートである。 図8は、同実施の形態にかかるコンテンツ集合間の包含関係を概念的に示す図である。 図9は、同実施の形態にかかるタグ間の階層関係と対応付けたコンテンツの分類を概念的に示す図である。 図10は、従来のコンテンツの分類を概念的に示す図である。 図11は、図9に示されるタグ間の階層関係と対応付けたコンテンツの分類に加え、新たなコンテンツの分類を概念的に示す図である。
以下に添付図面を参照して、この発明にかかるコンテンツ分類装置、方法及びプログラムの最良な実施の形態を詳細に説明する。
[第1の実施の形態]
(1)構成
以下に添付図面を参照して、この発明にかかるコンテンツ分類装置の最良な実施の形態を詳細に説明する。ここで、コンテンツ分類装置のハードウェア構成について説明する。本実施の形態のコンテンツ分類装置は、装置全体を制御するCPU(Central Processing Unit)等の制御部と、各種データや各種プログラムを記憶するROM(Read Only Memory)やRAM(Random Access Memory)等の記憶部と、各種データや各種プログラムを記憶するHDD(Hard Disk Drive)やCD(Compact Disk)ドライブ装置等の外部記憶部と、これらを接続するバスとを備えており、通常のコンピュータを利用したハードウェア構成となっている。また、コンテンツ分類装置には、情報を表示する表示部と、ユーザの指示入力を受け付けるキーボードやマウス等の操作入力部と、外部装置の通信を制御する通信I/F(interface)とが有線又は無線により各々接続される。
次に、このようなハードウェア構成において、コンテンツ分類装置のCPUが記憶装置や外部記憶部に記憶された各種プログラムを実行することにより実現される各種機能について説明する。図1は、コンテンツ分類装置50の機能的構成を例示する図である。コンテンツ分類装置50は、入力受付部51と、タグ分類部52と、コンテンツ分類部56と、タグ分類DB57とを有する。入力受付部51と、タグ分類部52と、コンテンツ分類部56とは、CPUのプログラム実行時にRAMなどの記憶部上に生成されるものである。タグ分類DB57は、HDDなどの記憶部に記憶されるものである。
入力受付部51は、コンテンツを特定するコンテンツ特定情報と当該コンテンツに付与されたタグと当該タグを付与したユーザを識別可能なユーザ識別子であるユーザIDとの入力を受け付ける。コンテンツ特定情報、タグ及びユーザIDは、例えば外部装置の有するタグDBに各々対応付けられて記憶されており、コンテンツ特定情報、タグ及びユーザIDの組が複数外部装置からネットワークを介して送信される。コンテンツは、例えばWebページであり、テキストを主体とするものであっても良いし、画像や動画を主体とするものであっても良いし、音声を主体とするものであっても良い。尚、コンテンツ特定情報は、ここではコンテンツ自体であるとするが、これに限らず、コンテンツの格納されているURL(Uniform Resource Locator)や、コンテンツに対して割り当てられているコンテンツIDなどであっても良い。ネットワークとは、例えば、LAN(Local Area Network)、イントラネット、イーサネット(登録商標)又はインターネットなどである。
タグ分類部52は、入力受付部51が入力を受け付けたタグを分類するものであり、多義語判定処理部53と、同義語判定処理部54と、階層判定処理部55とを有する。多義語判定処理部53は、ユーザID毎及び同一の言葉を表すタグ毎のコンテンツの集合(コンテンツ集合という)を解析して特徴量を算出し、特徴量の類似性を判定してユーザをクラスタリングすることによって、タグの多義性を判定する。即ち、同一の言葉を表すタグが、クラスタの数だけ異なる意味を持つということであり、複数のクラスタに属する1つのタグは多義性を有すると判定される。尚、特徴量とは、例えば単語ベクトルや、語彙の共起やtf-idfなどを用いて計算されるものである。特徴量の類似性とは、特徴量の値が近似している程度である。そして、多義語判定処理部53は、クラスタ毎にタグにタグ識別子であるタグIDを割り当てて、タグ及びタグIDをタグ情報としてタグ分類DB57に記憶させると共に、ユーザID、タグID及びコンテンツをタギング情報としてタグ分類DB57に記憶させる。
同義語判定処理部54は、多義語判定処理部53が割り当てたタグID毎のコンテンツ集合を解析して特徴量を算出し、特徴量の類似性を判定してタグをクラスタリングすることによって、タグの同義性を判定する。即ち、異なる言葉を表す複数のタグは、同じクラスタに分類され、同じクラスタに分類される複数のタグは同義性を有すると判定される。尚、同義語判定処理部54は、多義語判定処理部53が多義性を有すると判定したタグと多義性を有さないタグとを区別して扱う。そして、同義語判定処理部54は、クラスタ毎にタグIDを対応付けて同義語情報としてタグ分類DB57に記憶させる。
階層判定処理部55は、同義語判定処理部54がクラスタリングした、タグのクラスタ毎のコンテンツ集合について、コンテンツ集合の包含関係を近似的に判定することによって、タグ間の上位下位関係を示す階層関係を判定する。コンテンツ集合の包含関係を近似的に判定する方法としては、包含率や含有率、Dice係数、Jaccard係数などの類似度判定手法を用いることができる。尚、同義性を有する複数のタグに各々対応するコンテンツは、同一のコンテンツ集合に属することになる。そして、階層判定処理部55は、上位下位のタグ間の関係毎にタグIDの組を上位下位情報としてタグ分類DB57に記憶させる。
コンテンツ分類部56は、タグ分類DB57に記憶されたタグID情報、タギング情報、同義語情報及び上位下位情報を用いて、入力受付部51が入力を受け付けたコンテンツを分類する。
(2)動作
次に、本実施の形態にかかるコンテンツ分類装置50の行うコンテンツ分類処理の手順について図2を用いて説明する。コンテンツ分類装置50は、コンテンツ、タグ及びユーザIDの複数の組の入力を受け付けると(ステップS1)、まず、多義語判定処理を行う(ステップS2)。図3は、多義語判定処理の手順を示すフローチャートである。コンテンツ分類装置50は、まず、判定対象のタグを1つ決定し(ステップS20)、次いで、判定対象のタグについてユーザID毎のコンテンツ集合を作成する(ステップS21)。そして、コンテンツ分類装置50は、各コンテンツ集合を解析して特徴量を算出し(ステップS22)、特徴量の類似性を判定してユーザをクラスタリングする(ステップS23)。
図4は、タグの多義性に関し、特徴量を用いてユーザをクラスタリングする処理を概念的に示す図である。例えば,t1というタグをコンテンツに付与したユーザがいるとする。このユーザのユーザIDを各々UA,UB,UCとする。そして、ユーザUAがt1というタグを付与したコンテンツはd1,d2,d3であるとし、ユーザUCがt1というタグを付与したコンテンツはd4であるとし、ユーザUBがt1というタグを付与したコンテンツはd5,d6,d7であるとする。コンテンツの特徴量は、例えば、各キーワードW1,W2,W3,…,WNが存在するか否かに応じて’1’か’0’かの値を示すベクトル(W1,W2,W3,…,WN)で表されるものとする。そして、コンテンツd1,d2,d3を1つの集合とするコンテンツ集合の特徴量と、コンテンツd5,d6,d7を1つの集合とするコンテンツ集合の特徴量とは類似し、コンテンツd4を1つの集合とするコンテンツ集合の特徴量はこれらとは類似しないものとする。この場合、ユーザUA, UCは同一のクラスタに分類され、ユーザUBはユーザUA,UCとは別のクラスタに分類される。この結果、ユーザUA,UCのクラスタとユーザUBのクラスタとでは、同じ言葉を表すタグを異なる概念で用いていることが分かる。つまり、t1というタグは複数のクラスタに属することになるため、多義性を有すると判定される。このt1というタグが例えば「SoftbaXX」という言葉の場合、「野球」という概念と「携帯電話」という概念との2つの概念があることが推測され、その多義性が正しく判定され得る。
図3の説明に戻る。コンテンツ分類装置50は、このようにしてユーザをクラスタリングした後、クラスタ毎にタグにタグIDを割り当てる(ステップS24)。例えば、上述のユーザUA,UCのクラスタとユーザUBのクラスタとではタグには各々異なるタグIDが割り当てられる。ここでは、説明の便宜上、ユーザUA,UCのクラスタに対してタグID’t1’が割り当てられ、ユーザUBのクラスタに対してタグID’t1´’が割り当てられるものとする。以上のようにしてコンテンツ分類装置50はユーザ及びタグの対応関係に基づいてタグの多義性を判定する。
図2の説明に戻る。ステップS2の後、コンテンツ分類装置50は、同義語判定処理を行う(ステップS3)。図5は、同義語判定処理の手順を示すフローチャートである。コンテンツ分類装置50は、まず、ステップS2で割り当てたタグID毎のコンテンツ集合を作成し(ステップS40)、各コンテンツ集合を解析して特徴量を算出し(ステップS41)、特徴量の類似性を判定してタグをクラスタリングする(ステップS42)。尚、コンテンツ分類装置50は、ステップS2で多義性が判定されて異なる複数のタグIDが割り当てられているタグについては、1つのタグIDしか割り当てられていないタグと区別して取り扱う。
図6は、タグの同義性に関し、特徴量を用いてユーザをクラスタリングする処理を概念的に示す図である。例えば、タグID’t1’が割り当てられたコンテンツはd1,d2,d3,d4,d5であり、タグID’t1´’が割り当てられたコンテンツはd5,d6,d7であり、タグID’t2’が割り当てられたコンテンツはd2,d4であり、タグID’t3’が割り当てられたコンテンツはd8,d9であるとする。そして、コンテンツd1,d2,d3,d4,d5を1つの集合とするコンテンツ集合の特徴量と、コンテンツd2,d4を1つの集合とするコンテンツ集合の特徴量とは類似し、コンテンツd8,d9を1つの集合とするコンテンツ集合の特徴量はこれらと類似しないものとする。また、多義語判定処理でタグID’t1’と同一のタグに異なるタグIDとしてタグID’t1´’が割り当てられたコンテンツd5,d6,d7については、これらを1つの集合とするコンテンツ集合の特徴量は類似するものがないものとする。この場合、タグID’t1’, ’t2’の各タグは同一のクラスタに分類され、タグID’t3’, タグID’t1´’の各タグは各々異なるクラスタに分類される。また、例えば、タグID’t3’のタグと同一のクラスタに分類されるタグは、その他タグID’t4’,’t5’であるとする。この結果、タグID’t1’, ’t2’の各タグは、各々異なる言葉を表すものであっても同一の概念で用いられていることが分かる。同様に、タグID’t3’,’t4’,’t5’の各タグは、各々異なる言葉を表すものであっても同一の概念で用いられていることが分かる。即ち、タグID’t1’, ’t2’の各タグは同義性を有し、タグID’t3’,’t4’,’t5’の各タグは同義性を有すると判定される。例えば、上述したようにタグID’t1’のタグが「SoftbaXX」であり、タグID’t2’のタグが「ソフトバXX」である場合、これらが同義語として判定されることになる。またタグID’t3’のタグが「ケータイ」であり、タグID’t4’のタグが「携帯」であり、タグID’t5’のタグが「携帯電話」である場合、これらが同義語として判定されることになる。尚、タグID’t1´’とタグID’t1’とは同じタグに割り当てられているが、このタグはステップS2で多義語として判定されており、タグID’t1’に対しては同義語が存在し、タグID’t1’に対しては存在しないことが分かる。
図5の説明に戻る。コンテンツ分類装置50は、このようにしてタグをクラスタリングした後、クラスタ毎にタグIDの組を作成する(ステップS43)。例えば、上述の例では、{ t1 t2},{t3t4 t5},{t1´}の組が作成される。以上のようにしてコンテンツ分類装置50はタグ及びコンテンツの対応関係に基づいてタグの同義性を判定する。
図2の説明に戻る。ステップS3の後、コンテンツ分類装置50は、各タグが付与されたコンテンツ集合の包含関係を近似的に判定することによって、タグ間の上位下位を示す階層関係を判定する階層判定処理を行う(ステップS4)。図7は、階層判定処理の手順を示すフローチャートである。コンテンツ分類装置50は、ステップS3で作成したタグIDの組毎のコンテンツ集合を作成し(ステップS60)、各コンテンツ集合の包含関係を算出する(ステップS61)。即ち、コンテンツ分類装置50は、ステップS3で同義語と判定したタグが付与されたコンテンツを集めたコンテンツ集合について、例えば、各コンテンツ集合に含まれるコンテンツの数に応じてコンテンツ集合間の包含関係を求める。そして、コンテンツ分類装置50は、求めた包含関係から、タグ間の上位下位の関係を判定する(ステップS62)。
図8は、コンテンツ集合間の包含関係を概念的に示す図である。例えば、上述のタグID’t3’,’t4’,’t5’のいずれかのタグIDのタグが付与されたコンテンツはd8〜d21であり、上述のタグID’t1’,’t2’のいずれかのタグIDのタグが付与されたコンテンツはd1〜d4,d16〜d21であるとする。この場合、上述のタグID’t1’,’t2’,’t3’,’t4’,’t5’のいずれかのタグが付与されたコンテンツはd16〜d21である。例えば、タグID’t3’,’t4’,’t5’のいずれかのタグが付与されたコンテンツの数と、タグID’t1’,’t2’のいずれかのタグが付与されたコンテンツの数と、タグID’t1’,’t2’,’t3’,’t4’,’t5’のいずれかのタグが付与されたコンテンツの数との関係から、タグID’t3’,’t4’,’t5’のいずれかのタグIDのタグは、タグID’t1’,’t2’のいずれかのタグIDのタグより上位であると判定される。即ち、タグID’t3’,’t4’,’t5’の各タグ「ケータイ」「携帯」「携帯電話」は、タグID’t1’,’t2’のいずれかのタグIDのタグ「SoftbaXX」「ソフトバXX」の上位概念であることが正しく判定され得る。
図7の説明に戻る。コンテンツ分類装置50は、このようにしてタグ間の上位下位を示す階層関係を求め、その上位下位のタグのタグIDの組を作成する(ステップS63)。例えば、上述の例では、{(t3 t4 t5)⊃(t1 t2)}の組が作成される。以上のようにしてコンテンツ分類装置50はタグの階層関係を判定する。この結果、表記揺れを吸収したタグ間の階層関係が把握可能になる。即ち、タグの抽象度の違いを階層関係によって明確にすることにより、タグの表記揺れを吸収することができる。
図2の説明に戻る。コンテンツ分類装置50は、ステップS4で判定したタグ間の階層関係に従って、各タグが付与されたコンテンツを分類し(ステップS5)、タグ間の階層関係と対応付けたコンテンツの分類を示すコンテンツ分類情報を出力する。図9は、タグ間の階層関係と対応付けたコンテンツの分類を概念的に示す図である。例えば、同図に示されるように、ユーザUAが野球に関連してタグ「SoftbanXX」を付与したコンテンツd1,d2と、ユーザUBが携帯電話に関連してタグ「SoftbanXX」を付与したコンテンツd5とが各々異なる概念を有するコンテンツとして分類される。また、ユーザUBが携帯電話に関連して付与したタグ「ケータイ」と、同様に携帯電話に関連して付与したタグ「SoftbanXX」とが上位下位として関係付けられている。
例えば、従来であれば、図10に示されるように、ユーザUAがコンテンツd1,d2に対してタグ「SoftbanXX」を付与した意図が「野球」という概念による及びユーザUBがコンテンツd5に対してタグ「SoftbanXX」を付与した意図が「携帯電話」という概念によることを判定することは困難であった。従って、同じ言葉を示すものの異なる概念のタグが付与されたコンテンツを、その概念に応じて分類することは困難であった。
これに対し、本実施の形態では、ユーザが付与したタグとコンテンツとの関係と、ユーザとコンテンツとの関係とを用いて、コンテンツを分類し、分類した各コンテンツの集合(コンテンツ集合)の特徴量を用いて、タグ間の関係性として、タグの示す言葉の多義性及び同義性とタグ間の階層関係とを判定する。この結果、異なる言葉であっても同じ意味の複数のタグを同一の分類として取り扱うことができることによってタグの同義性を判定することができると共に、同じ言葉であってもユーザによって意味が異なるタグについては、意味毎に異なる分類として取り扱うことができることによって、タグの多義性を判定することができる。このため、タグを用いてコンテンツを正確に分類することができる。更に、同一の概念であっても抽象度が異なる言葉について、抽象度の違いに応じてタグを階層付けることによって、タグを用いてコンテンツをより正確に分類することができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。また、以下に例示するような種々の変形が可能である。
<変形例1>
上述した実施の形態において、コンテンツ分類装置50で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また当該各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
<変形例2>
上述した実施の形態における処理の順序は、多義語判定処理、同義語判定処理及び階層判定処理であるとしたが、これに限らない。
<変形例3>
上述した実施の形態においては、多義語判定処理部53は、ユーザID毎に、同一の言葉を表すタグに対応するコンテンツのうち全てではなく少なくとも1つを含むコンテンツ集合の特徴量を算出するようにしても良い。
同様に、同義語判定処理部54は、多義語判定処理部53が割り当てたタグID毎に、当該タグIDが割り当てられたタグに対応するコンテンツのうち全てではなく少なくとも1つを含むコンテンツ集合の特徴量を算出するようにしても良い。
<変形例4>
上述した実施の形態において、コンテンツ分類装置50は、新たなユーザがタグを付与した新たなコンテンツが入力された場合、コンテンツ分類情報を更新すると共に、新たなコンテンツを他のユーザに推薦するようにしても良い。具体的には例えば、コンテンツ分類装置50は、新たなユーザのユーザID、新たなコンテンツ及びタグの組の入力を受け付けると、図2のステップS2〜S5の処理を行って新たなコンテンツ分類情報を出力する。そして、コンテンツ分類装置50は、例えば、当該コンテンツ分類情報における新たなユーザが付与したタグについて判定した階層関係と同一の階層関係がタグについて判定されているユーザに対して、当該新たなコンテンツを推薦する。
図11は、図9に示されるタグ間の階層関係と対応付けたコンテンツの分類に加え、新たなコンテンツの分類を概念的に示す図である。例えば、同図に示されるように、コンテンツ分類装置50は、新たなユーザUFが携帯電話に関連してタグ「SoftbanXX」を付与したコンテンツd30については、同様に携帯電話に関連してタグ「SoftbanXX」をコンテンツに付与したユーザUBに対して推薦し、ユーザUAに対しては推薦しない。コンテンツを推薦する方法は、例えば、推薦相手のユーザに当該コンテンツ自体を送信したり、当該コンテンツの格納場所を示すURLを送信したりする。この場合、例えば各ユーザのIPアドレスやメールアドレスなどの電子的な宛先を示す宛先情報をコンテンツ分類装置50は予め取得しているものとする。尚、上述のユーザIDとしてこの宛先情報を用いても良い。
また、新たなユーザがタグを付与した新たなコンテンツを、当該タグと同一のタグIDが付与されたタグを使用しているユーザに推薦するようにしても良い。この場合、全てのコンテンツを推薦するのではなく、以下のタグが付与されたコンテンツのみ推薦するようにしても良い。
・最近付与したタグのみ(興味の移り変わり)
・付与した回数が多いタグのみ(興味の強度)
・最後に(新しく)付与したタグと一致する場合のみ(トピック連続の可能性)
また、当該新たなコンテンツに複数のタグが付与されたとき、全てのタグについてそれぞれ、当該タグと同一のタグIDが付与されたタグを使用しているユーザに、当該新たなコンテンツを推薦するようにしても良い。
また、当該新たなコンテンツに複数のタグが付与されたとき、その組み合わせでタグを付与したことがあるユーザに当該新たなコンテンツを推薦するようにしても良い。
また、当該新たなコンテンツに複数のタグが付与されたとき、全てのタグについてそれぞれ、当該タグについて判定した階層関係と同一の階層関係がタグについて判定されているユーザに、当該新たなコンテンツを推薦するようにしても良い。
以上のような構成によれば、新たなユーザや新たなコンテンツの追加に応じて、当該コンテンツに興味があると考えられるユーザに対して当該コンテンツを効果的に推薦することができる。
50 コンテンツ分類装置
51 入力受付部
52 タグ分類部
53 多義語判定処理部
54 同義語判定処理部
55 階層判定処理部
56 コンテンツ分類部
57 タグ分類DB

Claims (10)

  1. 言葉を表すタグがユーザにより付与されたコンテンツを分類するコンテンツ分類装置であって、
    複数のユーザと、各ユーザが各々付与したタグと、各タグが付与されたコンテンツとの対応関係に基づいて、前記言葉に対するユーザの概念を解析して、当該概念毎にタグを分類するタグ分類手段と、
    分類されたタグに基づいて、コンテンツを分類するコンテンツ分類手段とを備える
    ことを特徴とするコンテンツ分類装置。
  2. 前記タグ分類手段は、
    同一の言葉を表すタグであって複数のコンテンツに付与された第1タグについて、当該第1タグを付与したユーザ毎に、当該第1タグが付与された少なくとも1つのコンテンツの特徴量を算出する第1算出手段と、
    ユーザ毎に算出された特徴量間の類似性を用いて、ユーザを複数のクラスタに分類する第1分類手段と、
    クラスタ毎に異なる概念となる各タグ識別子を前記第1タグに割り当てることにより、タグの多義性を判定する第1判定手段とを有する
    ことを特徴とする請求項1に記載のコンテンツ分類装置。
  3. 前記タグ分類手段は、
    同一の前記タグ識別子が割り当てられている少なくとも1つのタグが各々付与された少なくとも1つのコンテンツの特徴量を前記タグ識別子毎に算出する第2算出手段と、
    前記タグ識別子毎に算出された前記特徴量間の類似性を用いて、異なるタグ識別子が割り当てられ且つ各々異なる言葉を表すタグを複数のクラスタに分類することにより、タグの同義性を判定する第2判定手段とを更に有する
    ことを特徴とする請求項2に記載のコンテンツ分類装置。
  4. 前記タグ分類手段は、
    同一のクラスタに属する各タグが付与された各コンテンツを含むコンテンツ集合をクラスタ毎に作成する作成手段と、
    前記コンテンツ集合の包含関係を判定することにより、タグの上位下位を示す階層関係を判定する第3判定手段とを更に有する
    ことを特徴とする請求項3に記載のコンテンツ分類装置。
  5. 前記コンテンツ分類手段は、前記階層関係に従って、各タグが付与された各コンテンツを分類する
    ことを特徴とする請求項4に記載のコンテンツ分類装置。
  6. 前記ユーザを識別可能なユーザ識別子と、当該ユーザが付与した前記タグと、当該タグが付与された前記コンテンツを特定するコンテンツ特定情報との入力を受け付ける入力受付手段を更に備え、
    前記タグ分類手段は、前記ユーザ識別子、前記タグ及び前記コンテンツ特定情報の対応関係に基づいて、前記タグを分類する
    ことを特徴とする請求項4又は5に記載のコンテンツ分類装置。
  7. 前記タグ分類手段は、新たな前記ユーザ識別子、前記タグ及び新たな前記コンテンツ特定情報の入力を前記入力受付手段が受け付けた場合、新たな前記ユーザ識別子、前記タグ及び新たな前記コンテンツ特定情報の対応関係に基づいて、前記タグを分類し、
    前記コンテンツ分類手段は、分類されたタグに基づいて、新たなコンテンツを分類し、
    分類された新たなコンテンツに付与されたタグと同一のクラスタに属するタグを任意のコンテンツに付与した第1ユーザに対して、当該新たなコンテンツを推薦する推薦手段を更に備える
    ことを特徴とする請求項6に記載のコンテンツ分類装置。
  8. 前記ユーザ識別子は、前記ユーザの電子的な宛先を示す宛先情報であり又は前記ユーザ識別子に対して前記宛先情報が対応付けられており、
    前記推薦手段は、前記第1ユーザの前記宛先情報が示す宛先に、前記新たなコンテンツを特定するコンテンツ特定情報を送信することにより、前記第1ユーザに対して、前記新たなコンテンツを推薦する
    ことを特徴とする請求項7に記載のコンテンツ分類装置。
  9. タグ分類手段と、コンテンツ分類手段とを備えるコンテンツ分類装置で実行されるコンテンツ分類方法であって、
    前記タグ分類手段が、複数のユーザと、各ユーザが各々付与したタグと、各タグが付与されたコンテンツとの対応関係に基づいて、前記言葉に対するユーザの概念を解析して、当該概念毎にタグを分類するタグ分類ステップと、
    前記コンテンツ分類手段が、分類されたタグに基づいて、コンテンツを分類するコンテンツ分類ステップとを含むことを特徴とするコンテンツ分類方法。
  10. 請求項9に記載の方法をコンピュータに実行させるためのプログラム。
JP2009027746A 2009-02-09 2009-02-09 コンテンツ分類装置、方法及びプログラム Active JP5430960B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009027746A JP5430960B2 (ja) 2009-02-09 2009-02-09 コンテンツ分類装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009027746A JP5430960B2 (ja) 2009-02-09 2009-02-09 コンテンツ分類装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010182267A true JP2010182267A (ja) 2010-08-19
JP5430960B2 JP5430960B2 (ja) 2014-03-05

Family

ID=42763806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009027746A Active JP5430960B2 (ja) 2009-02-09 2009-02-09 コンテンツ分類装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5430960B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
KR101236262B1 (ko) * 2011-04-07 2013-02-26 (주) 프람트 모바일 콘텐츠 태그 생성 시스템 및 그 방법
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
CN109255128A (zh) * 2018-10-11 2019-01-22 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008203933A (ja) * 2007-02-16 2008-09-04 Dainippon Printing Co Ltd カテゴリ作成方法および装置、文書分類方法および装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200701088067; 江田毅晴 外2名: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 電子情報通信学会技術研究報告 DE2007-22〜114 データ工学 第107巻 第131号, 20070625, 第405〜410頁, 社団法人電子情報通信学会 *
JPN6013011849; 江田毅晴 外2名: 'Folksonomyのタグを用いた自動分類体系構築へ向けて' 電子情報通信学会技術研究報告 DE2007-22〜114 データ工学 第107巻 第131号, 20070625, 第405〜410頁, 社団法人電子情報通信学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101236262B1 (ko) * 2011-04-07 2013-02-26 (주) 프람트 모바일 콘텐츠 태그 생성 시스템 및 그 방법
JP2013020431A (ja) * 2011-07-11 2013-01-31 Nec Corp 多義語抽出システム、多義語抽出方法、およびプログラム
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
JP2019159918A (ja) * 2018-03-14 2019-09-19 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP7006402B2 (ja) 2018-03-14 2022-01-24 富士通株式会社 クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
CN109255128A (zh) * 2018-10-11 2019-01-22 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN109255128B (zh) * 2018-10-11 2023-11-28 北京小米移动软件有限公司 多层级标签的生成方法、装置和存储介质
CN110457576A (zh) * 2019-07-08 2019-11-15 深圳壹账通智能科技有限公司 账户分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP5430960B2 (ja) 2014-03-05

Similar Documents

Publication Publication Date Title
US9594826B2 (en) Co-selected image classification
US20190278821A1 (en) Presenting supplemental content in context
CN103339623B (zh) 涉及因特网搜索的方法和设备
US10114898B2 (en) Providing additional functionality with search results
US20080228749A1 (en) Automatic tagging of content based on a corpus of previously tagged and untagged content
US20110302152A1 (en) Presenting supplemental content in context
CN109804364A (zh) 知识图谱构建系统及方法
US20160092576A1 (en) Association- and perspective-based content item recommendations
US20070233715A1 (en) Resource management system, method and program for selecting candidate tag
JP2010009251A (ja) 文書データの検索を支援する装置及び方法
JP5430960B2 (ja) コンテンツ分類装置、方法及びプログラム
WO2013078307A1 (en) Image searching
TW201214173A (en) Methods and apparatus for displaying content
KR20080028574A (ko) 통합 검색 서비스 시스템 및 방법
TW201120665A (en) Systems and methods for providing advanced search result page content
US10097664B2 (en) Recommending media items based on purchase history
KR20190086741A (ko) 검색 결과에 대한 애니메이션 스니핏
WO2017136295A1 (en) Adaptive seeded user labeling for identifying targeted content
WO2020151548A1 (zh) 关注页面的排序方法及装置
CN109952571A (zh) 基于上下文的图像搜索结果
JP4375626B2 (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
CN109977318B (zh) 书籍搜索方法、电子设备及计算机存储介质
US9256671B2 (en) Establishing of a semantic multilayer network
JP2008217157A (ja) 操作履歴を利用した自動情報整理装置、方法、およびプログラム
US20110072045A1 (en) Creating Vertical Search Engines for Individual Search Queries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110916

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130319

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130516

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131008

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131016

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131204

R151 Written notification of patent or utility model registration

Ref document number: 5430960

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313114

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350