JP4714710B2 - 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 - Google Patents

自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP4714710B2
JP4714710B2 JP2007158422A JP2007158422A JP4714710B2 JP 4714710 B2 JP4714710 B2 JP 4714710B2 JP 2007158422 A JP2007158422 A JP 2007158422A JP 2007158422 A JP2007158422 A JP 2007158422A JP 4714710 B2 JP4714710 B2 JP 4714710B2
Authority
JP
Japan
Prior art keywords
tag
document
tags
database
automatic tagging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007158422A
Other languages
English (en)
Other versions
JP2008310626A (ja
Inventor
滋 藤村
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007158422A priority Critical patent/JP4714710B2/ja
Publication of JP2008310626A publication Critical patent/JP2008310626A/ja
Application granted granted Critical
Publication of JP4714710B2 publication Critical patent/JP4714710B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書の内容を表したメタデータをタグとして設定することによる文書分類方法に係り、特に、既にタグが設定されている大量の文書からタグとして適切なものを選別し、入力文書に対してその内容に沿った適切なタグを自動的に付与する自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体に関する。
近年、ブログ等の情報発信ツールの普及とともに、非常に多くの個人が情報発信を行うようになった結果、インターネット上の情報量の爆発的な増加にいっそう拍車がかかり、結果としてユーザーが情報を選別および整理するための負担は大きなものとなった。
そこで、現状のインターネット上の情報の多くを占める、テキスト情報に対しては、文書の内容を表した短い語句からなるメタデータをタグとして設定することによって、ユーザーにとっての利便性を向上させる試みが行われてきた。
すなわち、例えば以下の第1〜第3の技術等が公知である。第1の技術として、多くのブログでは、記事の話題をタグもしくはカテゴリ、ジャンル等として、記事の投稿者が短い語句で設定することができるようになっている。
また第2の技術では、主として文書中の特徴的な短い語句からなる属性値を前記タグと同様の文書のラベルとして、統計的な処理を行い、文書検索における検索結果と同時に提示することによって、ユーザーの利便性向上を測る方法(特許文献1参照)もある。
また第3の技術では、タグの設定されているブログ記事を訓練データとして、機械学習手法であるSVM(Support Vector Machine)を利用することで、複数の2値分類器を1つの自動マルチタグ付与器とする手法も、Ohkuraら(非特許文献1参照)によって提案されている。
尚、本発明に関連する残差DF(Document Frequency)値については、例えば非特許文献2に記載されている。
特開2005−339139号公報 Tsutomu Ohkura,Youji Kiyota,Hiroshi Nakagawa.Browsing System for Weblog Articles based on Automated Folksonomy.Workshop on the Weblogging Ecosystem(WWW2006).2006.5. 藤村滋,藤村考,片岡良治,奥雅博.Blogのタグ間類似度のスコアリング.日本データベース学会Letters,Vo15,No.4.pp.33−36.
上記第1の技術においては、タグを設定することがユーザーに委ねられるため、タグが設定されない文書も多いという問題があった。さらに、ユーザーがタグとして設定する語句を自由に選択できるため、タグの種類は膨大なものとなり、表記ゆれや類義語によって、同一の意味を表すと考えられるタグが乱立するといった問題があった。
また、上記第2の技術をはじめとする、文書中の語句または属性値をタグまたはラベルとして利用する方法においては、タグとなりうる語句は文書中に含まれている必要があり、例えば、サッカーの話題であるのに「サッカー」という語が含まれていない文書には、「サッカー」というタグを設定することが原理的に不可能であるといった問題があった。
また、上記第3の技術においては、多数の一般ユーザーが作成したブログ記事のタグを利用するため、タグに関して類義語や表記ゆれによって多くの似たようなタグが乱立するために、結果としてひとつの記事に似たような意味を持つタグが複数個設定されてしまうという問題があった。さらに、幅広い話題に対応させようとした場合、必要となる2値分類器の数が非常に多くなるので、タグの時間的な意味の変化に対応するため分類器の再学習を行う際にその計算量が膨大になってしまうという問題があった。
本発明は上記課題を解決するものであり、その目的は、文書に適切なタグを付与して文書の整理を行い、閲覧者を支援することができ、また、タグを精度良く付与することができる自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体を提供することにある。
上記課題を解決するための請求項1に記載の自動タグ付与装置は、タグ付き文書集合を基に文書に適切なタグを自動付与する装置において、既にタグづけがされている文書を捕捉収集し、タグ付き文書データベースに格納する文書収集手段と、前記データベース中の各タグに対して、そのタグが設定された文書集合中の特徴的な語句を基に、各タグ間の意味的な類似度を測定し、同一の意味を示すタグが存在する場合には、そのタグ同士を統合するタグ統合手段と、前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与するタグ付与手段と、を有することを特徴としている。
また請求項2に記載の自動タグ付与装置は、請求項1において、前記データベース中の各文書を自動タグ付与装置の入力文書とし、付与されたタグと当該文書に設定されているタグとの類似度を算出し、該類似度が所定の値より低い前記入力文書を前記データベースから除くデータ精選手段をさらに有する、ことを特徴としている。
また請求項3に記載の自動タグ付与装置は、請求項1または2において、前記データベース中の各タグに対して、前記特徴的な語句を基に、そのタグが特定の話題を示すかどうかを判定するタグ重要性判定手段をさらに具備し、前記タグ付与手段は、前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、前記重要性判定手段で特定の話題を示すと判定されたタグについて、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与する、ことを特徴としている。
また請求項4に記載の自動タグ付与装置は、請求項3において、前記タグ重要性判定手段は、特徴的な語句とその特徴性を表したスコアの対を要素としたタグ特徴ベクトルのベクトル長に基づいて重要性を判定することを特徴としている。
また請求項5に記載の自動タグ付与方法は、タグ付き文書集合を基に文書に適切なタグを自動付与する方法において、文書収集手段が、既にタグづけがされている文書を捕捉収集し、タグ付き文書データベースに格納する文書収集ステップと、タグ統合手段が、前記データベース中の各タグに対して、そのタグが設定された文書集合中の特徴的な語句を基に、各タグ間の意味的な類似度を測定し、同一の意味を示すタグが存在する場合には、そのタグ同士を統合するタグ統合ステップと、タグ付与手段が、前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与するタグ付与ステップと、を有することを特徴としている。
また請求項6に記載の自動タグ付与プログラムは、コンピュータを、請求項1ないし4のいずれか1項に記載の各手段として機能させるための自動タグ付与プログラムとしたことを特徴としている。
また請求項7に記載の記録媒体は、請求項6に記載の自動タグ付与プログラムを記録したコンピュータ読み取り可能な記録媒体としたことを特徴としている。
上記構成によれば、タグが付与されていない文書に適切なタグを付与することで文書の整理を行い、閲覧者を支援することができる。また、付与されるタグの精度が向上する。
(1)請求項1〜7に記載の発明によれば、タグが付与されていない文書に適切なタグを付与することで文書の整理を行い、閲覧者を支援することができる。また、本発明ではひとつのタグだけでなく複数の適切なマルチタグを付与することもできる。マルチタグが付与可能であるため、意味的には複数の内容を含むがタグがひとつしか付与されていない文書に対しても、マルチタグを付与することで、閲覧者の利便性をさらに向上させることが可能となる。従来の方法では、大量の文書を扱う際に分類先であるタグの種類を大規模化することが困難であったが、本発明では、関連文書検索機能を持った全文検索エンジンとの親和性が高いため、大規模な文書を高速に扱うことのできる全文検索エンジンのデータベース部分を利用することで、幅広い話題に対応したタグを高速にかつ精度良く付与することが可能となる。
(2)また請求項2に記載の発明によれば、文書に関係のないタグが付与されていた文書を前記データベースから除くことができ、付与されるタグの精度を向上させることが可能となる。
以下、図面を参照しながら本発明の実施の形態を説明するが、本発明は下記の実施形態例に限定されるものではない。
まず、自動タグ付与装置について説明する。
図1は本発明の実施形態の一例である自動タグ付与装置の構成を示す図である。本実施形態の自動タグ付与装置は、所定のプログラムに基づいて動作する一般的なコンピュータ装置からなり、1は、インターネット2等のネットワークからタグが付与された文書を捕捉収集し、タグ付文書データベース(以下、タグ付文書DBと称する)3に文書を格納する文書収集手段である。
4は、タグ付文書DB3から各タグのタグ特徴ベクトルを作成し、この特徴ベクトルを比較することで類似したタグを統合した上で、その結果をタグ情報データベース(以下、タグ情報DBと称する)5に格納するタグ統合手段である。
6は、前記タグ特徴ベクトルを用いてタグの重要性を判定し、その結果をタグ情報DB5に格納するタグ重要性判定手段である。
7は、タグ付文書DB3およびタグ情報DB5を用いて、入力された文書に対してタグを付与するタグ付与手段である。
8は、タグ付文書DB3内の各文書に対して、タグ付与手段7を適用し、各文書に元からつけられていたタグとタグ付与手段7によって付与されたタグが類似していない文書をタグ付文書DB3内から除外することによって、タグ付与手段7の精度向上を図るデータ精選手段である。
図1の装置の全体としての処理の流れは、図2に示されるように、まずステップS11において、文書収集手段1は、インターネット2等のネットワークからタグが付与された文書を収集しタグ付文書DB3に格納する。
次にステップS12において、タグ統合手段4はタグ付文書DB3中に存在するタグをタグ情報DB5に格納し、その各タグについてタグの特徴量を算出した上で、タグ間の類似度を求め、類似度の高いタグ同士を統合するための情報をタグ情報DB5に格納する。
またステップS13において、タグ重要性判定手段6は、前記ステップS12で求めたタグの特徴量を利用し、タグが、例えば「野球」のように内容を表すタグが、特定の話題を示さないタグ、すなわち例えば「日記」や「その他」といったような直接的な内容を表さないタグかを判定し、その情報をタグの重要性の情報として、タグ情報DB5に格納する。
続いてステップS14において、データ精選手段8は、タグ付与手段7を利用して、タグ付文書DB3内の各文書を後述のタグ付与ステップの入力文書とすることで、タグ付けを行い、自身につけられたタグと類似度の低いタグが付与される文書は、付与されているタグが誤っている文書としてタグ付文書DB3から除くことで、タグ付与の精度の向上を図る。
最後にステップS15において、タグ付与手段7は、タグを付与すべき文書を入力文書として受け取り、類似した文書のタグを基にタグを付与し、入力文書がなくなるまでその処理を繰り返す(ステップS15およびステップS16)。
以下、前記図2に示された処理の手順を基に、前記各手段の詳細を説明する。
文書収集手段1は、従来から用いられている一般的な検索システムにおけるクローラ(Crawler:検索エンジンのロボット;コンピュータがサーバを自動巡回して情報を収集し索引付けするシステム)の機能に加え、タグが付与されているかどうかを判定し、タグが付与されている文書をタグ付文書DB3に格納する。
一例として、ブログ記事におけるRSSの<dc:subject>をタグとして、タグが設定されているブログ記事をタグ付文書DB3に格納することが考えられる。
文書に付与されるタグは時間的にその傾向が変化することが考えられる。そこで、タグ付文書DB3内に格納される文書に対して時間的な制約をかけることで、その時々に適切なタグをタグ付与手段7によって付与することができるようになる。具体的には、タグ付文書DB3内に格納される文書は直近1週間や1ヶ月間と限定することができる。
タグ付文書DB3は例えば図3に示すように、文書ID、タグ、本文等を文書ごとに関連付けを行った形でデータとして保持している。ここで、図3の文書IDは文書ごとにユニークに与えられる識別子である。タグは文書作成者によって設定された本文の内容を端的に表している語句である。本文は、文書のテキストそのものである。また、図3におけるURLや文書作成時刻であるTime、本文のタイトルのように、付加的な情報を加えて関連付けを行った上で、データを保持することもできる。
タグ統合手段4は、後述のタグ情報DB5中の各タグに対して、タグ付文書DB3よりそのタグが設定された文書集合を取得し、この文書集合中の各語句の統計量を利用して各タグの特徴量を抽出し、この特徴量を利用してタグ間の類似度を算出し、類似度の特に大きいタグ同士を同一の意味を持つタグとして一つのタグに統合し、その結果をタグ情報DB5に格納する。
前記タグ情報DB5は、タグ付文書DB3中の各文書に設定されたタグを基に作成され、例えば図4に示すように、タグID、タグ、文書数、タグ特徴量、類似度、統合先、重要性をタグごとに関連付けを行った形でデータとして保持している。
ここで、図4のタグIDはタグごとにユニークに与えられる識別子である。文書数はタグ付文書DB3中でそのタグが設定された文書数である。タグ特徴量は前述のタグ統合手段4の処理過程で抽出された語句とスコアである実数値の対の集合によるリスト型のデータである。同様に、類似度は前述のタグ統合手段4の処理過程で算出された比較対象のタグと実数値の対の集合によるリスト型のデータである。統合先には、もしそのタグが他のタグに統合される場合にはその統合先のタグIDが格納され、統合先がない場合にはNULL値が設定される。重要性には、後述のタグ重要性判定手段6によってタグの重要性を判定した結果が格納される。タグ付けの結果としてそのタグを出力する場合にはTRUE、出力しない場合にはFALSEが設定される。
タグ統合手段4における特徴量としては、そのタグが設定された文書集合中の語句とその残差DF(Document Frequency)値(非特許文献2参照)の対を要素とした語句ベクトルを用いる。
残差DF値は、語句の文書集合中での文書頻度とポアソン分布によって推定されたその文書集合中での文書頻度の差によって表される。例えば、処理対象のタグが設定された文書集合の総数をn、文書集合中の語句iの文書頻度をdfi、全文書数をN、全文書中での語句iの大域的頻度をFiとすると、残差DF値は以下の式によって求められる。
Figure 0004714710
一例として、「サッカー」というタグが付与されたブログ記事集合中の「Jリーグ」という語句の残差DF値は、収集したブログ記事数を400000、「サッカー」というタグが付与されたブログ記事数を1000、この記事集合中での「Jリーグ」の文書頻度を300、収集したブログ記事全体での「Jリーグ」の大域的頻度を700とすると、残差DFは300−1000(1−exp(−700/400000))=298.25...のようになる。
残差DF値は、次の仮定に基づいた指標である。同一のタグが付与された文書集合は内容的にも、用いられている語句的にも似ている可能性が高いため、文書の内容を代表するような特徴語の文書頻度は大きくなる。一方で、文意に関係がなくどのような文書にも現れる一般的な語句の文書中での出現回数の確率分布はポアソン分布によってよく近似される事が知られている。したがって、両者の差分を取ることによって、一般語の影響を打ち消し、特徴語の値をより際立たせることができる。
また、残差DF値は同一のタグが付与された文書数が大きくなるにつれて、値の格差も大きくなるという特徴を持つ。したがって、その格差を小さくするため残差DF値を対数化するなどの方法もある。また、残差DF値は次元的には文書の頻度となるので対象のタグが付与された文書数によって正規化を行った値を特徴量として採用するといった方法も考えられる。
タグ統合手段4における類似度は、上記の特徴量を利用して算出することができる。ここで、タグとの特徴量は語句と残差DF値をはじめとしたスコアの対を要素としたベクトルであるので、タグ間の類似度はベクトル同士のコサインによって求めることができる。例えば、Ci、Cjをタグの特徴ベクトルとすると、類似度は以下の式となる。
Figure 0004714710
上述のタグ間の類似度を用いてタグの統合を行う。
具体的な方法としては、一例として、階層的クラスタリングを用いる方法がある。例えば、最短距離法を利用し、類似度の閾値を0.6としたときに生成されたクラスタの一例を図5に示す。図5は、タグをノードとし、閾値以上の類似度を持つタグ間にエッジを引いたグラフとして表されている。
ここで、階層的クラスタリングの手法としては最短距離法の他にも、最長距離法や群平均法等の手法を用いることもできる。
また、閾値の設定方法としては、特定の類似度の値を閾値とする他にも、クラスタ数に閾値を設け、クラスタ数がある一定の閾値に達したときクラスタリングを終了するといった方法もある。
クラスタ中のどのタグに他のタグを統合するかについては、例えば、設定ブログの数が最も多いタグをそのクラスタの代表タグとする方法やクラスタをグラフ構造としてみた場合の中心性を利用し、最も中心性が大きなタグに統合するといった方法などがある。
このタグ統合手段4においては、計算量の問題からタグ特徴ベクトルを算出する際に設定ブログ数や設定記事数に閾値を設け、その値以上のタグ数百〜数千程度のみを考慮しても良い。また、残差DF値を求める際に考慮する記事集合中の記事数を数百〜数千程度に限定しても良い。
タグ重要性判定手段6は、タグ統合手段4の過程で得られたタグ特徴ベクトルを利用し、タグの重要性を判定し、その結果をタグ情報DB5に格納する。ここで、タグの重要性とは、タグ「野球」、「サッカー」などのように文書の内容を端的に指し示すか、それともタグ「日記」「その他」のようにそのタグを見ただけでは文書の内容を推測することができないかの度合いである。
重要性の判定においては次の仮定を用いる。特徴的な話題を持つ重要なタグはタグ特徴ベクトルの要素として残差DF値の大きな語句を多く持つと考えられる。したがって、重要なタグほど特徴ベクトル長が大きいと考えられる。したがって、特徴ベクトルのユークリッド距離を利用してタグの重要性判定が可能となる。
ここで、特徴ベクトル長を求める際には残差DF値は文書数に影響を受ける指標であるため、対象のタグが設定されている文書数で正規化を行う必要がある。また、実際の判定には、一例として、ベクトル長にある閾値を定めその値以上のものは重要なタグ、未満のものは重要でないタグとする方法などがある。図6は上述の方法で算出した際のベクトル長の大きいタグ、小さいタグの例である。
データ精選手段8は、タグ付与手段7の機能を利用するため、先にタグ付与手段7について詳細に説明する。
タグ付与手段7は、受け取った入力文書を基にしてタグ付文書DB3に関連文書検索を行い、類似した文書をn個取得する。n個の文書につけられたタグを基に入力文書に適切なタグを付与し、その結果をタグ付文書としてシステムの出力とする。
ここでタグを付与する際には、最も適切なタグを一つだけ出力することも可能であるし、また複数のタグを出力することもできる。
n個の類似文書につけられたタグを基にタグを付与する方法として、まず類似文書集合中の各タグについて出現頻度の集計を行う。ここで、タグの集計に関しては図4で述べたタグ情報DB5を利用し、統合先が指定されている場合にはその統合先タグでカウントする。また、重要性においてFALSEが指定されている場合には以降の処理は行わずにそのタグは出力しない。集計された各タグについて、入力文書にそのタグが付与されるべきか否かは、次のように有意差検定によって決定される。
n個の類似記事の各記事において、タグAが設定されているかどうかはタグ付文書DB3の文書数が十分に多ければ、近似的に独立であると考えられ、2項分布で表すことが可能である。中心極限定理によって、前記DB3中でタグAが設定された記事数をNA、DB中の全文書数をNとすると、記事にタグAが付与されている確率はPA(=NA/N)であり、以下の不等式が成立する場合、n記事中でのタグAの出現頻度は偶然と考えにくく、入力記事にタグAを付与する。ここで、各記号についてZはt分布に基づく検定統計量、Snはn文書中でタグAが設定された記事の実測値である。
Figure 0004714710
類似文書数nは計算量の問題から数十〜数千程度で設定することが考えられる。また、関連文書検索において関連度または類似度を文書のスコアとして利用可能な場合には、そのスコアが一定以上の文書を類似文書として利用するなどの方法を用いても良い。
データ精選手段8は、タグ付与手段7を利用し、タグ付文書DB3内の各文書に対しタグを付与した上で、その文書につけられているタグと付与されたタグを比較し、その文書につけられたタグの信頼性を判定する。さらに、信頼性の低いタグが付与された文書をタグ付文書DB3から取り除くことによってタグ付与手段7の精度を向上させることができる。
タグの信頼性の判定方法としては、一例として、付与されたタグが複数であった場合には、各タグとの類似度の和が一定の閾値を超えない場合は、そのタグの信頼性が低いとして文書を取り除く。もしくは、類似度が一定の閾値より低いタグがn個以上付与された場合にはその文書を取り除くなどの方法が考えられる。ここで、nはあらかじめ定められた閾値である。また、付与されたタグが一つであった場合には、そのタグとの類似度が閾値を超えるかどうかによって判定することができる。
尚本発明の自動タグ付与方法は、図2の各ステップS11〜S16を実行するものである。
また、本実施形態の自動タグ付与装置における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の自動タグ付与方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもなく、コンピュータでその機能を実現するためのプログラムを、そのコンピュータが読み取り可能な記録媒体、例えばFD(Floppy(登録商標) Disk)や、MO(Magneto−Optical disk)、ROM(Read Only Memory)、メモリカード、CD(Compact Disk)−ROM、DVD(Digital Versatile Disk)−ROM、CD−R、CD−RW、HDD、リムーバブルディスクなどに記録して、保存したり、配布したりすることが可能である。また、上記のプログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
以上、本発明を実施形態例に基づき具体的に説明したが、本発明は上述の実施例に限定されるものではなく、幅広く応用することができる。
本発明の一実施形態例の自動タグ付与装置の構成を示すブロック図。 図1の装置の処理の流れを示すフローチャート。 本発明の自動タグ付与装置で用いるタグ付与文書データベースの一例を示す説明図。 本発明の自動タグ付与装置で用いるタグ情報データベースの一例を示す説明図。 本発明の自動タグ付与装置で用いるタグ統合手段におけるクラスタの例を示す説明図。 本発明の自動タグ付与装置におけるタグ重要性判定手段で用いるタグ特徴ベクトル長とタグの例を示す説明図。
符号の説明
1…文書収集手段
2…インターネット
3…タグ付文書データベース
4…タグ統合手段
5…タグ情報データベース
6…タグ重要性判定手段
7…タグ付与手段
8…データ精選手段

Claims (7)

  1. タグ付き文書集合を基に文書に適切なタグを自動付与する装置において、
    既にタグづけがされている文書を捕捉収集し、タグ付き文書データベースに格納する文書収集手段と、
    前記データベース中の各タグに対して、そのタグが設定された文書集合中の特徴的な語句を基に、各タグ間の意味的な類似度を測定し、同一の意味を示すタグが存在する場合には、そのタグ同士を統合するタグ統合手段と、
    前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与するタグ付与手段と、
    を有することを特徴とする自動タグ付与装置。
  2. 前記データベース中の各文書を自動タグ付与装置の入力文書とし、付与されたタグと当該文書に設定されているタグとの類似度を算出し、該類似度が所定の値より低い前記入力文書を前記データベースから除くデータ精選手段をさらに有する、
    ことを特徴とする請求項1に記載の自動タグ付与装置。
  3. 前記データベース中の各タグに対して、前記特徴的な語句を基に、そのタグが特定の話題を示すかどうかを判定するタグ重要性判定手段をさらに具備し、
    前記タグ付与手段は、前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、前記重要性判定手段で特定の話題を示すと判定されたタグについて、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与する、
    ことを特徴とする請求項1または2に記載の自動タグ付与装置。
  4. 前記タグ重要性判定手段は、特徴的な語句とその特徴性を表したスコアの対を要素としたタグ特徴ベクトルのベクトル長に基づいて重要性を判定することを特徴とする請求項3に記載の自動タグ付与装置。
  5. タグ付き文書集合を基に文書に適切なタグを自動付与する方法において、
    文書収集手段が、既にタグづけがされている文書を捕捉収集し、タグ付き文書データベースに格納する文書収集ステップと、
    タグ統合手段が、前記データベース中の各タグに対して、そのタグが設定された文書集合中の特徴的な語句を基に、各タグ間の意味的な類似度を測定し、同一の意味を示すタグが存在する場合には、そのタグ同士を統合するタグ統合ステップと、
    タグ付与手段が、前記データベースに対して、入力文書と関連する文書を検索する関連文書検索を行い、得られた関連文書群中の各文書のタグを、前記タグ統合手段による統合後のタグで集計し、各タグが設定されている前記データベース内の文書数と確率的に関連文書群中に当該タグが含まれうる確率を基にした有意差検定を行い、有意に多いと判定された当該タグを入力文書に付与するタグ付与ステップと、
    を有することを特徴とする自動タグ付与方法。
  6. コンピュータを、請求項1ないし4のいずれか1項に記載の各手段として機能させるための自動タグ付与プログラム。
  7. 請求項6に記載の自動タグ付与プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007158422A 2007-06-15 2007-06-15 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 Active JP4714710B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007158422A JP4714710B2 (ja) 2007-06-15 2007-06-15 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007158422A JP4714710B2 (ja) 2007-06-15 2007-06-15 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2008310626A JP2008310626A (ja) 2008-12-25
JP4714710B2 true JP4714710B2 (ja) 2011-06-29

Family

ID=40238163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007158422A Active JP4714710B2 (ja) 2007-06-15 2007-06-15 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4714710B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8176072B2 (en) * 2009-07-28 2012-05-08 Vulcan Technologies Llc Method and system for tag suggestion in a tag-associated data-object storage system
JP4637969B1 (ja) 2009-12-31 2011-02-23 株式会社Taggy ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
JP5477635B2 (ja) * 2010-02-15 2014-04-23 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5252593B2 (ja) * 2010-08-12 2013-07-31 Necビッグローブ株式会社 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP5696106B2 (ja) * 2012-09-05 2015-04-08 日本電信電話株式会社 同義タグ抽出装置及び方法及びプログラム
US20140201208A1 (en) * 2013-01-15 2014-07-17 Corporation Symantec Classifying Samples Using Clustering
JP6100741B2 (ja) * 2014-08-28 2017-03-22 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム
JP6788637B2 (ja) * 2018-02-27 2020-11-25 株式会社 ミックウェア 情報検索装置及び情報検索システム

Also Published As

Publication number Publication date
JP2008310626A (ja) 2008-12-25

Similar Documents

Publication Publication Date Title
JP4714710B2 (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
US9589208B2 (en) Retrieval of similar images to a query image
US10515133B1 (en) Systems and methods for automatically suggesting metadata for media content
CN110874530B (zh) 关键词提取方法、装置、终端设备及存储介质
US8504550B2 (en) Social network message categorization systems and methods
KR100544514B1 (ko) 검색 쿼리 연관성 판단 방법 및 시스템
US8380697B2 (en) Search and retrieval methods and systems of short messages utilizing messaging context and keyword frequency
US20140214835A1 (en) System and method for automatically classifying documents
US20090307213A1 (en) Suffix Tree Similarity Measure for Document Clustering
JP4922692B2 (ja) 検索クエリー作成装置
EP3276509B1 (en) Automatic detection and transfer of relevant image data to content collections
CN105183897A (zh) 一种视频搜索排序的方法和系统
KR20150036117A (ko) 쿼리 확장
TWI571756B (zh) 用以分析瀏覽記錄及其文件之方法及其系統
Liu et al. Event analysis in social multimedia: a survey
US20130346385A1 (en) System and method for a purposeful sharing environment
Amato et al. Searching and annotating 100M Images with YFCC100M-HNfc6 and MI-File
Domeniconi et al. A novel method for unsupervised and supervised conversational message thread detection
CN104899215A (zh) 数据处理方法、推荐源信息组织和信息推荐方法及装置
CN114661902A (zh) 基于多特征融合的文献库冷启动作者同名消歧方法及设备
KR20150008342A (ko) 멀티미디어 컨텐츠를 인리칭하기 위한 방법 및 대응하는 디바이스
WO2013072258A1 (en) Unsupervised detection and categorization of word clusters in text data
Vandic et al. A semantic clustering-based approach for searching and browsing tag spaces
Tsikrika et al. Reliability and effectiveness of clickthrough data for automatic image annotation
JP2010026996A (ja) タグ付け支援方法とその装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090616

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

R150 Certificate of patent or registration of utility model

Ref document number: 4714710

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350