JP5199768B2 - タグ付け支援方法とその装置、プログラム及び記録媒体 - Google Patents

タグ付け支援方法とその装置、プログラム及び記録媒体 Download PDF

Info

Publication number
JP5199768B2
JP5199768B2 JP2008191228A JP2008191228A JP5199768B2 JP 5199768 B2 JP5199768 B2 JP 5199768B2 JP 2008191228 A JP2008191228 A JP 2008191228A JP 2008191228 A JP2008191228 A JP 2008191228A JP 5199768 B2 JP5199768 B2 JP 5199768B2
Authority
JP
Japan
Prior art keywords
tag
topic
document
phrase
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008191228A
Other languages
English (en)
Other versions
JP2010026996A (ja
Inventor
滋 藤村
考 藤村
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008191228A priority Critical patent/JP5199768B2/ja
Publication of JP2010026996A publication Critical patent/JP2010026996A/ja
Application granted granted Critical
Publication of JP5199768B2 publication Critical patent/JP5199768B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は文書の内容を表したメタデータをタグとして設定することを支援する技術に関する。特に、既にタグが設定されている大量の文書を訓練データとして、タグ付け対象文書の大まかな話題のジャンルを決定、ならびにタグの候補とし、さらに当該文書に含まれるその話題に関する特徴的な語句を、過去の提示結果も加味した上で、タグ付けの候補として提示する技術に関する。
近年、インターネット上の情報量の爆発的な増加により、ユーザーが情報を選別および整理するための負担は大きなものとなった。
そこで、コンテンツに対して、その内容を表した短い語句からなるメタデータをタグとして設定することによって、ユーザーにとっての利便性を向上させる試みが行われてきた。
例えば、ほぼ全てのソーシャルブックマークサービスではタグ付けの機能を有し、さらに、過去に当該コンテンツに付けられたタグを基にユーザーにタグの候補を提示し、タグ付けの支援が行われている(背景技術1)。
また、文書中に含まれる、地名や組織名、個人名等の固有表現を高精度に抽出(特許文献1)し、固有表現は文書の内容に関連するケースが多いという仮定を基に、当該固有表現を文書のタグの候補として提示する方法も考えられる(背景技術2)。
また、タグの設定されているブログ記事を訓練データとして、機械学習手法であるサポートベクターマシン(SVM)を利用することで、複数の2値分類器を1つの自動マルチタグ付与器とする手法も、Ohkuraらによって提案されており(非特許文献1)、このマルチタグ付与器によって出力されたタグを候補として提示する方法も考えられる(背景技術3)。
特許4050768号公報 Tsutomu Ohkura,Youji Kiyota,Hiroshi Nakagawa.:"Browsing System for Weblog Articles based on Automated Folksonomy":WWW2006 Workshop on the Weblogging Ecosystem,2006年5月
背景技術1においては、コンテンツに対して既にタグが付与されている事が基となっているため、まだ誰もタグ付けしていないコンテンツに対して、タグ付けを支援する事ができない。
例えば、現在一般的に普及したといっても過言ではないブログに関しては、記事の書き込み時においては当然未公開であるから、当該記事の著者に対してタグ付けを支援することが不可能である。
さらに、ブログ記事に付与されているタグにおいては、ブログ著者がタグとして設定する語句を自由に選択できるため、タグの種類は膨大なものとなり、表記ゆれや類義語によって、同一の意味を表すと考えらえるタグが乱立するといった問題もある。
背景技術2のような、文書中の固有表現や語句をタグの候補として提示する方法においては、タグとなりうる語句は文書中に含まれている必要がある。例えば、サッカーの話題であるのに「サッカー」という語が含まれていない文書には、「サッカー」というタグを提示することが原理的に不可能であるといった問題があった。
また、文書の話題を考慮していないために、文書の話題と関係がないのに、偶然出現した特徴的な語句をタグとして提示してしまうという問題もある。
背景技術3においては、多数の一般ユーザーが作成したブログ記事のタグを利用するため、タグに関して類義語や表記ゆれによって多くの似たようなタグが乱立するために、結果として似たような意味を持つタグが複数個提示されてしまいユーザーの利便性を損ねてしまうという問題があった。
また、幅広い話題に対応させようとした場合、必要となる2値分類器の数が非常に多くなるので、タグの時間的な意味の変化に対応するために分類器の再学習を行う場合には、訓練時の計算量が膨大になってしまうという問題があった。
前記課題を解決するためのタグ付け支援方法とその装置、プログラム及び記録媒体は、大まかな話題の種類は明示的に与えることで、分類器が膨大にならないように配慮し、特徴語句抽出という比較的軽量な処理を加えることでより詳細なタグの付与を考慮している。
すなわち、請求項1のタグ付け支援方法は、タグ付き文書集合を基に入力文書にタグを付与することを支援する方法であって、話題決定手段が、タグが付与された文書を登録するタグ付き文書データベースを利用して、入力文書の話題を決定する手順と、タグ特徴語句データベース生成手段が、前記タグ付き文書データベースに属する各話題に対応するタグが付けられている文書群を基に、前記各話題に特徴的な語句を、前記タグの特徴語句を登録するタグ特徴語句データベースに登録する手順と、特徴語句抽出手段が、前記決定する手順によって決定された話題を基に、前記登録する手順に供されたタグ特徴語句データベースを用いて、当該話題に関連する特徴的な語句を前記入力文書中から抽出する手順と、タグ候補提示手段が、前記入力文書に対してタグ付けを行おうとしているユーザーに対して前記決定する手順で決定された話題に対応するタグ及び前記抽出する手順で抽出された特徴的な語句をタグ候補として提示する手順とを有する。
請求項2のタグ付け支援方法は、請求項1のタグ付け支援方法において、前記提示する手順では、前記タグ候補の選択及び非選択の頻度を記録したタグ選択結果データベースに基づきタグ候補が提示される。
請求項3のタグ付け支援方法は、請求項2のタグ付け支援方法において、選択結果取得手段が前記提示されたタグ候補のユーザーによる選択結果を前記タグ選択結果データベースに登録する手順をさらに有する。
請求項4のタグ付け支援装置は、タグ付き文書集合を基に入力文書にタグを付与することを支援する装置であって、タグが付与された文書を登録するタグ付き文書データベースと、前記タグの特徴語句を登録するタグ特徴語句データベースと、前記タグ付き文書データベースを利用して入力文書の話題を決定する話題決定手段と、前記タグ付き文書データベースに属する各話題に対応するタグが付けられている文書群を基に前記各話題に特徴的な語句を前記タグ特徴語句データベースに登録するタグ特徴語句データベース生成手段と、前記決定された話題を基に、前記タグ特徴語句データベースを用いて、当該話題に関連する特徴的な語句を前記入力文書中から抽出する特徴語句抽出手段と、前記入力文書に対してタグ付けを行おうとしているユーザーに対して前記決定された話題に対応するタグ及び前記抽出された特徴的な語句をタグ候補として提示するタグ候補提示手段とを有する。
請求項5のタグ付け支援装置は、請求項4のタグ付け支援装置において、前記タグ候補提示手段は、前記タグ候補の選択及び非選択の頻度を記録したタグ選択結果データベースに基づきタグ候補を提示すること
を特徴とする。
請求項6のタグ付け支援装置は、請求項5のタグ付け支援装置において、前記提示されたタグ候補のユーザーによる選択結果を前記タグ選択結果データベースに登録する選択結果取得手段を有する。
請求項7のプログラムは、請求項4から6のいずれかのタグ付け支援装置を構成する各手段としてコンピュータを機能させるプログラムである。
請求項8の記録媒体は、請求項7のプログラムを記録したコンピュータ読み取り可能な記録媒体である。
以上の発明によれば、タグの候補が提示されるので、タグ付けの労力を減らし、特定ユーザーの独自タグに基づくタグの乱立を防止できる。また、特徴的な語句のみでなく大まかな話題もタグとして提示可能であり、話題に関係のない固有表現等の表現を提示することを防止できる。
以下、本発明の実施の形態について図面を参照して詳細に説明する。
図1は発明の実施形態に係る文書へのタグ付け支援装置1を示した概略構成図である。
タグ付け支援装置1は話題決定手段2とタグ特徴語句DB生成手段3と特徴語句抽出手段4とタグ候補提示手段5と選択結果取得手段6とタグ付き文書データベース(以下、タグ付き文書DB)7、タグ特徴語句データベース(以下、タグ特徴語句DB)8とタグ選択結果データベース(以下、タグ選択結果DB)9とを備える。
話題決定手段2は、既にタグが付与された文書を格納したタグ付き文書DB7中の文書を訓練データとして利用して、入力された文書(以下、入力文書)の話題を決定する。前記決定の方法には指定された話題に対応するタグを分類先のクラスとした既知の任意の機械学習手法が用いられる。
タグ特徴語句DB生成手段3は、タグ付き文書DB7から各話題に対応する当該タグの特徴語句を算出しタグ特徴語句DB8に登録する。
特徴語句抽出手段4は、話題決定手段2によって決定された話題とタグ特徴語句DB生成手段3で作成されたタグ特徴語句DB8とを基に前記入力文書に含まれる特徴語句を抽出する。
タグ候補提示手段5は、前記決定された話題に対応するタグと特徴語句をタグ選択結果DB9に登録された過去に提示した際のユーザーの選択の結果を考慮した上でタグの候補としてユーザーに提示する。
選択結果取得手段6は、提示されたタグをユーザーが選択したかどうか(選択結果)をタグ選択結果DB9に登録する。
話題決定手段2、タグ特徴語句DB生成手段3、特徴語句抽出手段4、タグ候補提示手段5、選択結果取得手段6は、所定のプログラムに基づいて動作する一般的なコンピュータ装置によって構成できる。タグ付き文書DB7、タグ特徴語句DB8、タグ選択結果DB9は前記コンピュータの内部または外部(ネットワークを介してもよい)に具備される既知の記憶手段に記憶される。
また、タグ付け支援装置1には、話題決定手段2に入力文書を供するための入力手段としてキーボードやポインティングディバイス等が付帯される。さらに、タグ候補提示手段5で提示された情報をユーザーに対して出力表示するための表示手段としてディスプレイ等が付帯される。
図2はタグ付け支援装置1の動作例を説明したフローチャートである。
S1では、タグ特徴語句DB生成手段3が、先ず、タグ付き文書DB7を基に、予め指定されている話題に対応するタグが付与された文書群から、話題にとって特徴的な語句を抽出しタグ特徴語句DB8に登録しておく。
S2では、話題決定手段2が、タグ付き文書DB7中の話題に対応したタグが付与された文書群を正例として機械学習により訓練された分類器を基に、入力文書に適切な話題を決定する。
S3では、特徴語句抽出手段4が、S2で決定された話題を基に、S1で作成されたタグ特徴語句DB8を参照し当該話題に特徴的な語句が入力文書中に含まれている場合にはその語句を抽出する。
S4では、S3で抽出された特徴的な語句について、タグ候補提示手段5は、ユーザーが過去にそのタグを提示された場合に選択したかどうかについてタグ選択結果DB9を用いて考慮した上で、また決定された話題に対応するタグについてはそのままタグの候補として提示する。そして、この提示されたタグ候補は前記入力文書と共に図示省略の表示手段によって出力表示される。
S5では、選択結果取得手段6は、S4で提示されたタグがユーザーに選択されたかどうかの結果を取得してタグ選択結果DB9に登録する。
S6では、処理の終了が判断される。すなわち、まだ入力文書がある場合(NO)には再び話題を決定するステップ(S2)に移行して処理が繰り返される。一方で、入力文書がない場合(YES)には処理を終了する。
さらに具体的な事例を挙げて図1及び図3〜図5を参照しながらタグ付け支援装置1を構成する各手段の機能について詳細に説明する。
タグ特徴語DB生成手段3は、タグ付け支援を行うための事前準備として、予め指定された話題に対応するタグに特徴的な語句をタグ特徴語句DB8に登録する。
ここで、予め指定された話題とは、例えば、「サッカー」や「野球」、「グルメ」、「旅行」といった、意味的な粒度が比較的大きな概念とし、「サッカー」に対しては「サッカー」のタグが対応するといったように、本発明のシステムにおいてはあらかじめ人手によって設定されているものとする。ただし、例えば、「グルメ」に対して、対応するタグを「グルメ」、「グルメ・クッキング」、「美食」等、複数指定しておいてもかまわない。
また、タグ付き文書DB7は、図3に例示するように、文書ID、タグ、本文等を文書ごとに関連付けを行った形でデータとして保持している。ここで、文書IDは文書ごとにユニークに与えられる識別子である。タグは本文の内容を端的に表している語句である。本文は、文書のテキストそのものである。また、図3に示されたURLや文書作成時刻であるTime、本文のタイトルのように、付加的な情報を加えて関連付けを行った上で、データを保持することもできる。
タグ付き文書としては、一例として、ブログ記事におけるRSSの<dc:subject>をタグとして、タグが設定されているブログ記事をタグ付き文書DB7に格納することが考えられる。
タグ特徴語句DB生成手段3における特徴語句としては、例えば「猫」、「茄子」といった具体名詞や「山田太郎」、「清水寺」といった固有名詞に加え、任意の固有表現抽出手法によって抽出された固有表現や形態素解析を行った結果得られた形態素列のn−連結形態素(以降、形態素n−gramと呼ぶ)等の素性を選択的に採用できるものとする。
対応するタグが付与された文書群中に含まれる上記の特徴語句の候補について、どの程度特徴的かをスコアリングすることで、特にスコアの大きい語句のみをタグ特徴語句DB8に登録する。
ここで、特徴的な語句かを判定するためのスコアとしては、一例として、当該語句の残差DF(Document Frequency:文書頻度)値が利用できる(参考文献)。参考文献:藤村滋,藤村考,片岡良治,奥雅博,「Blogのタグ間類似度のスコアリング」,日本データベース学会Letters,2007年3月発行,Vol5,No.4,pp.33−36。
残差DF値は、語句の文書集合中での文書頻度とポアソン分布によって推定されたその文書集合中での文書頻度の差によって表される。例えば、対応するタグの付与された文書の総数をn、文書集合中の語句iの文書頻度をdfi、全文書数をN、全文書中での語句iの大域的頻度をFiとすると、残差DF値は以下の式によって算出される。
Figure 0005199768
一例として、「サッカー」というタグが付与されたブログ記事集合中の「Jリーグ」という語句の残差DF値は、収集したブログエントリ数を400000、「サッカー」というタグが付与されたブログエントリ数を1000、この記事集合中での「Jリーグ」の文書頻度を300、収集したブログ記事全体での「Jリーグ」の大域的頻度を700とすると、残差DF値は300−1000(1−exp(−700/400000))=298.25...となる。
残差DF値は、次の仮定に基づいた指標である。同一のタグが付与された文書集合は内容的にも、用いられている語句的にも似ている可能性が高いため、文書の内容を代表するような特徴語の文書頻度は大きくなる。一方で、文意に関係がなくどのような文書にも現れる一般的な語句の文書中での出現回数の確率分布はポアソン分布によってよく近似されることが知られている。したがって、両者の差分を取ることによって、一般語の影響を打ち消し、特徴語句の値をより際立たせることができる。
また、残差DF値は同一のタグが付与された文書数が大きくなるにつれて、値の格差も大きくなるという特徴を持つ。したがって、その格差を小さくするため残差DF値を対数化するなどの方法もある。また、残差DF値は次元的には文書の頻度となるので対象のタグが付与された文書数によって正規化を行った値をスコアとして採用するといった方法も考えられる。
上述の残差DF値をスコアとして用いた場合、タグ特徴語句DB8に登録するかどうかを決定する閾値Tの設定法としては、ひとつは、残差DF値を当該タグが付与された文書数で正規化した値が一定以上(例としては、T=0.3)の場合に登録を行うといった方法がある。
また、他の閾値設定法としては、当該語句が文書中に出現するかどうかは文書毎に独立であると仮定し2項分布に従うとすれば、nが十分大であるときには中心極限定理によって、2項分布の標準化変数は正規分布に従うとして、正規分布のパーセント点を統計検定量Zとすることで有意性検定を行うことによって、語句を特徴語句DBに登録するかどうかを決定するといった方法も考えられる。
この場合、検定統計量Zとしては、5%有意水準の場合Z=1.645、同様に1%の場合Z=2.326、0.1%の場合Z=3.090となり、以下に示された式を満たす場合に特徴語句としてタグ特徴語句DB8に登録される。
Figure 0005199768
ここで、タグ特徴語句DB8は、図4に例示したように、話題ID、話題、タグ、文書数、タグ特徴語句をタグごとに関連付けを行った形でデータとして保持している。ここで、話題IDは話題ごとにユニークに与えられる識別子である。話題はタグ付け支援装置1においては予め設定されている意味的に比較的大きな粒度をもった概念である。文書数はタグ付文書DB7中で当該タグが設定された文書数である。タグ特徴語句は前述のタグ特徴語句DB生成手段3の過程で登録された語句とスコアである実数値の対の集合によるリスト型のデータである。
また、当該手段における計算量削減法としては、対応するタグが付与された文書群中で、上記の素性のうち一定の頻度以上出現するもののみをタグの特徴語句の候補とするといった方法があげられる。
特定の話題における特徴的な語句は、時間的に変化していくことが考えられる。そこで、タグ付き文書DB7内に格納される文書に対して時間的な制約をかけることで、その時々に適切な語句をタグ特徴語句DB8に登録することで、タグ候補提示手段5によってより効果的なタグ付けを支援できるようになる。具体的には、タグ付き文書DB7内に格納される文書は直近1週間や1ヶ月間と限定することができる。
話題決定手段2は、入力文書に対して、タグ付き文書DB7の当該話題に対応するタグが付けられた文書群を基に、機械学習により入力文書の話題を決定する。
タグ付け支援装置1においては、複数ある話題の中から適切な話題を入力文書に設定する必要があり、入力文書が複数の話題を持つことを許容するかどうかを考慮した上で、種々の機械学習手法を適用することができる。
本実施例では、入力文書が複数の話題を持つことを許容した上で、複数のSVM(Support Vector Machine)を用いて、話題毎に入力文書が該当するかどうかを判定する。
ここで、SVMの訓練データとしては、指定された話題に対応するタグが付与された文書群を正例とし、タグ付文書DB7から上記の文書群を除いた上で、正例と同数の文書をランダムサンプリングしたものを負例とする。
また、SVMの素性については、形態素解析を行ったうえで各文書中に含まれる名詞、動詞、形容詞、未知語等、および形態素n−gramから選択的に採用する。
特徴語句抽出手段4は、タグ特徴語句DB生成手段3によって得られたタグ特徴語句DB8に基づき、前記決定された話題における特徴語句と入力文書の文字列マッチングを行い、入力文書中に特徴語句が含まれていた場合に、タグの候補とする。
タグ候補提示手段5は、決定された話題に対応するタグ及び前記得られた特徴語句をタグの候補として表示手段を介してユーザーに対して提示する。
前記提示の方法については、例えば、ブログ記事を書き込んでいる最中のユーザーに対して、記事を書き終えた瞬間に、当該記事を本発明の入力文書とした上で得られたタグの候補を羅列し、ユーザーがクリックするだけで所望のタグを設定できるようにするといった方法や、WebAPIサービスとしてユーザーが送信したテキストを入力文書とし、タグの候補を出力としてユーザーに送信するといった手法が考えられる。
本発明における提示の方法については、上記以外にも様々考えられ、上記の2例のみに縛られるものではない。
また、タグを提示した際にユーザーがどのタグを選択したかといった情報がタグ選択結果DB9に蓄積されている場合、当該DBを用いて提示するタグを精選することができる。
ここで、タグ選択結果DB9は、図5に例示されたように、話題ID、話題、タグ候補、タグ候補が選択された頻度、タグ候補が選択されなかった頻度を話題ごとに関連付けを行った形でデータとして保持している。話題IDは話題ごとにユニークに与えられる識別子であり、タグ候補は特徴語句抽出手段4によって得られた特徴語句をタグの候補としている。タグ候補が選択された頻度は、過去に該当タグ候補がユーザーに提示されたとき、ユーザーが選択した場合の総数であり、逆に、選択されなかった頻度は、ユーザーが選択しなかった場合の総数である。
タグ選択結果DB9を用いて、タグ候補を精選する手法としては、過去にどの程度の割合でタグの候補が選択されたかを考慮する方法がある。ただし、選択結果のデータが少ないうちは、当該タグが適切かどうかを判定するには不十分であるため、選択結果のデータ数に閾値を設け、例えば選択及び非選択をあわせた頻度が20を超えたタグの候補にのみ、当該DBを利用したタグ候補の精選を行うものとする。
また、タグの候補が選択された割合に基づき、精選を行う場合には、一端不適切なタグの候補として判定されてしまうと、以降タグの候補として永遠に提示されないこととなってしまう。ユーザーのタグ選択によるタグ付け行動を予測するに、内容的には正確なタグであっても、たまたまそのタグよりもユーザーにとって所望のタグが提示されていた場合、そのタグを選択することで内容的に正確なタグでも選択されないといった問題がある。したがって、非選択の場合には内容がふさわしくない場合と単にユーザーの好みにそぐわなかった場合が考えられる。そこで、過去に選択された割合に補正値を加えたタグ提示のためのスコアリングを以下の式とする。
Figure 0005199768
ここで、cは該当タグ候補が選択された頻度であり、オーバーラインが付されたcはタグ候補が選択されなかった頻度である。Rand(n)は1〜nまでの整数をランダムに返す関数であり、本発明ではおよそn=100程度とする。また、sはランダムに加えられるスコアの重みを決定するパラメータである。例えばs=0.5とすることが考えられる。
タグ候補提示手段5では、当該スコア降順に、閾値(例えば、提示するタグの総数が10個になるまで、またはスコアが正の候補のみ)までタグの候補を提示していく。
選択結果取得手段6は、タグ候補提示手段5の提示例におけるはじめの例のように、ユーザーがどのタグの候補を選択したか追跡できる場合には、提示したタグの候補のなかで選択されたものおよび選択されなかったものを、タグ選択結果DB9中の選択および非選択のカラムをカウントアップする形で、当該DBへの登録を行う。
以上のように発明の実施形態に係るタグ付け方法支援装置1によれば、タグが付与されていない文書に対してもユーザーがタグ付けを行う際に支援することが可能となる。例えば、インターネット上の文書に対して、その概要を表すキーワードをタグとして付与するために、適切なタグの候補をユーザーに提示できる。また、タグの候補を提示することで、表記ゆれや類義語によりタグの種類が膨大となってしまうことをある程度抑え、閲覧時の利便性を向上させることができる。さらに、話題を決定した後に特徴語句を抽出することで、文書中にその話題の表記が直接含まれていない場合でもタグとして提示可能であり、その話題に関する詳細な特徴語句もタグとして提示可能となる。また、ユーザーが提示したタグを選択したかどうかの結果をデータベースとして蓄えることで、ユーザーに提示するタグの質を向上させていくことが可能となる。
尚、本発明は、上述の実施形態に限定されるものでなく、タグ付け支援装置1を構成する各機能ブロック2〜6に係る処理としてコンピュータを機能させるプログラムの態様としてもよい。前記プログラムはコンピュータ読み取り可能な既知の記録媒体に格納して提供またはネットワークを通じて提供することもできる。
発明の実施形態に係るタグ付け支援装置のブロック構成図。 発明の実施形態に係るタグ付け支援装置の動作例を説明したフローチャート。 タグ付き文書データベースの一例。 タグ特徴語句データベースの一例。 タグ選択結果データベースの一例。
符号の説明
1…タグ付け支援装置
2…話題決定手段
3…タグ特徴語句DB(データベース)生成手段
4…特徴語句抽出手段
5…タグ候補提示手段
6…選択結果取得手段
7…タグ付き文書DB
8…タグ特徴語句DB
9…タグ選択結果DB

Claims (8)

  1. タグ付き文書集合を基に入力文書にタグを付与することを支援する方法であって、
    話題決定手段が、タグが付与された文書を登録するタグ付き文書データベースを利用して、入力文書の話題を決定する手順と、
    タグ特徴語句データベース生成手段が、前記タグ付き文書データベースに属する各話題に対応するタグが付けられている文書群を基に、前記各話題に特徴的な語句を、前記タグの特徴語句を登録するタグ特徴語句データベースに登録する手順と、
    特徴語句抽出手段が、前記決定する手順によって決定された話題を基に、前記登録する手順に供されたタグ特徴語句データベースを用いて、当該話題に関連する特徴的な語句を前記入力文書中から抽出する手順と、
    タグ候補提示手段が、前記入力文書に対してタグ付けを行おうとしているユーザーに対して前記決定する手順で決定された話題に対応するタグ及び前記抽出する手順で抽出された特徴的な語句をタグ候補として提示する手順と
    を有すること
    を特徴とするタグ付け支援方法。
  2. 前記提示する手順では、前記タグ候補の選択及び非選択の頻度を記録したタグ選択結果データベースに基づきタグ候補が提示されること
    を特徴とする請求項1に記載のタグ付け支援方法。
  3. 選択結果取得手段が前記提示されたタグ候補のユーザーによる選択結果を前記タグ選択結果データベースに登録する手順を
    さらに有すること
    を特徴とする請求項2に記載のタグ付け支援方法。
  4. タグ付き文書集合を基に入力文書にタグを付与することを支援する装置であって、
    タグが付与された文書を登録するタグ付き文書データベースと、
    前記タグの特徴語句を登録するタグ特徴語句データベースと、
    前記タグ付き文書データベースを利用して入力文書の話題を決定する話題決定手段と、
    前記タグ付き文書データベースに属する各話題に対応するタグが付けられている文書群を基に前記各話題に特徴的な語句を前記タグ特徴語句データベースに登録するタグ特徴語句データベース生成手段と、
    前記決定された話題を基に、前記タグ特徴語句データベースを用いて、当該話題に関連する特徴的な語句を前記入力文書中から抽出する特徴語句抽出手段と、
    前記入力文書に対してタグ付けを行おうとしているユーザーに対して前記決定された話題に対応するタグ及び前記抽出された特徴的な語句をタグ候補として提示するタグ候補提示手段と
    を有すること
    を特徴とするタグ付け支援装置。
  5. 前記タグ候補提示手段は、前記タグ候補の選択及び非選択の頻度を記録したタグ選択結果データベースに基づきタグ候補を提示すること
    を特徴とする請求項4に記載のタグ付け支援装置。
  6. 前記提示されたタグ候補のユーザーによる選択結果を前記タグ選択結果データベースに登録する選択結果取得手段を有すること
    を特徴とする請求項5に記載のタグ付け支援装置。
  7. 請求項4から6のいずれか1項に記載のタグ付け支援装置を構成する各手段としてコンピュータを機能させることを特徴とするプログラム。
  8. 請求項7に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2008191228A 2008-07-24 2008-07-24 タグ付け支援方法とその装置、プログラム及び記録媒体 Expired - Fee Related JP5199768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008191228A JP5199768B2 (ja) 2008-07-24 2008-07-24 タグ付け支援方法とその装置、プログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008191228A JP5199768B2 (ja) 2008-07-24 2008-07-24 タグ付け支援方法とその装置、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2010026996A JP2010026996A (ja) 2010-02-04
JP5199768B2 true JP5199768B2 (ja) 2013-05-15

Family

ID=41732735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008191228A Expired - Fee Related JP5199768B2 (ja) 2008-07-24 2008-07-24 タグ付け支援方法とその装置、プログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5199768B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5252593B2 (ja) * 2010-08-12 2013-07-31 Necビッグローブ株式会社 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
US9069798B2 (en) * 2012-05-24 2015-06-30 Mitsubishi Electric Research Laboratories, Inc. Method of text classification using discriminative topic transformation
JP2016014978A (ja) * 2014-07-01 2016-01-28 コニカミノルタ株式会社 エアタグ登録管理システム、エアタグ登録管理方法、エアタグ登録プログラム、エアタグ管理プログラム、エアタグ提供装置、エアタグ提供方法及びエアタグ提供プログラム
JP6759872B2 (ja) 2016-09-01 2020-09-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
WO2021038690A1 (ja) * 2019-08-26 2021-03-04 日本電信電話株式会社 ドキュメントタグ付与装置、類似ドキュメント検索システム、ドキュメントタグ付与方法およびドキュメントタグ付与プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477949B2 (ja) * 1995-10-19 2003-12-10 富士ゼロックス株式会社 キーワード管理装置
JP2007179179A (ja) * 2005-12-27 2007-07-12 Hino Motors Ltd 文書情報管理装置
JP2007193697A (ja) * 2006-01-20 2007-08-02 Oki Electric Ind Co Ltd 情報収集装置,情報収集方法およびプログラム
JP2007272390A (ja) * 2006-03-30 2007-10-18 Sony Corp リソース管理装置、タグ候補選定方法及びタグ候補選定プログラム
JP2008139942A (ja) * 2006-11-30 2008-06-19 Seiko Epson Corp 情報処理装置、情報処理方法、および、プログラム

Also Published As

Publication number Publication date
JP2010026996A (ja) 2010-02-04

Similar Documents

Publication Publication Date Title
US11294970B1 (en) Associating an entity with a search query
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
RU2595594C2 (ru) Способ и устройство для автоматического аннотирования содержимого электронных документов
US8001135B2 (en) Search support apparatus, computer program product, and search support system
KR101122869B1 (ko) 펜-기반 컴퓨팅 시스템에서의 주석 관리
JP5241828B2 (ja) 辞書の単語及び熟語の判定
JP5281405B2 (ja) 表示のための高品質レビューの選択
JP5984917B2 (ja) 提案される語を提供するための方法および装置
EP3529714B1 (en) Animated snippets for search results
CN105874427B (zh) 基于应用上下文识别帮助信息
US8326836B1 (en) Providing time series information with search results
US10061767B1 (en) Analyzing user reviews to determine entity attributes
US10025783B2 (en) Identifying similar documents using graphs
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
US20160171106A1 (en) Webpage content storage and review
KR101607468B1 (ko) 콘텐츠에 대한 키워드 태깅 방법 및 시스템
JP5199768B2 (ja) タグ付け支援方法とその装置、プログラム及び記録媒体
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
KR20160002199A (ko) 연관 키워드를 이용한 이슈 데이터 추출방법 및 시스템
US20120158773A1 (en) Method, system and computer program product for activating information of object computer system
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
US8195458B2 (en) Open class noun classification
WO2010103916A1 (ja) 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP6267252B2 (ja) 検索装置、検索方法及び検索プログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120619

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5199768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees