JP2010224622A - タグ付与方法およびタグ付与プログラム - Google Patents

タグ付与方法およびタグ付与プログラム Download PDF

Info

Publication number
JP2010224622A
JP2010224622A JP2009068145A JP2009068145A JP2010224622A JP 2010224622 A JP2010224622 A JP 2010224622A JP 2009068145 A JP2009068145 A JP 2009068145A JP 2009068145 A JP2009068145 A JP 2009068145A JP 2010224622 A JP2010224622 A JP 2010224622A
Authority
JP
Japan
Prior art keywords
tag
article
feature word
existing
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009068145A
Other languages
English (en)
Inventor
Tomoyasu Okada
智靖 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009068145A priority Critical patent/JP2010224622A/ja
Publication of JP2010224622A publication Critical patent/JP2010224622A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキストデータからなる記事に対して、ユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することができるタグ付与方法およびタグ付与プログラムを提供する。
【解決手段】新着記事101から1つ以上の特徴語を抽出し、抽出した前記各特徴語に対して重要度を示す重み付け値を算出して新着記事101の特徴語データとする第1ステップと、タグ204毎に、各既存記事202から1つ以上の特徴語を抽出し、抽出した前記各特徴語に対して前記既存記事における前記重み付け値を算出し、その平均値を算出してタグ204毎の特徴語データとする第2ステップと、第1ステップで算出した新着記事101の特徴語データと、第2ステップで算出したタグ204毎の特徴語データとの類似度を算出する第3ステップと、前記類似度が上位の前記タグを新着記事101についてのタグ候補として選定する第4ステップとを実行する。
【選択図】図1

Description

本発明は、テキスト情報のフィルタリング技術に関し、特に、テキスト文書にタグを自動で付与して分類するタグ付与方法およびタグ付与プログラムに適用して有効な技術に関するものである。
近年、インターネット等の普及により、コンピュータを利用して非常に多くの種類の情報を入手することが可能である。例えば、各種ニュースサイトや検索エンジンを用いて多くの情報を収集することができる。また、電子メール等によっても多くの情報を得ることができる。また、インターネット上に限らず、例えば、社内のサーバに電子化されて保管されている各種の社内資料などからも多くの情報を入手することができる。しかし、これらの多くの情報を実際に読む際に、情報が多すぎてどれを読めばいいか分からなくなるという場合がある。新たに大量の情報が提供された場合に、ユーザは自分の興味や目的に一致した情報だけ読みたいと考えるのが通常である。
このような要望に対して、例えば、インターネット上ではソーシャルブックマークサービスを提供するWebサイトが多数存在する。ソーシャルブックマークサービスとは、インターネット上で自分のブックマークを管理するとともに、不特定多数のユーザに自分のブックマークを公開して情報を共有することができるサービスである。また、ブックマークに分類用のタグを付与することができ、タグを参照することで同じような情報を提供しているWebサイトを見つけやすくすることができる。Webサイトにタグを付与する際にはユーザがタグを直接指定するのが一般的である。このとき、他のユーザが対象のWebサイトにどのようなタグを付与しているかを参考にしながら付与することができる場合もある。
ここで、新たに取得した情報に対してタグを自動的に付与する、もしくはタグ候補を自動的に選定してユーザに提示するということを考えた場合、例えば、対象のWebサイト等の文書の内容を表す特徴的な単語を、対象のテキスト情報もしくは外部の辞書等のデータから抽出し、これをタグもしくは候補とすることが考えられる。これに関連する技術として、例えば、特開平5−120345号公報(特許文献1)には、新聞記事のデータから所定の条件に基づいて記事主題を表す重要語、重要文を抽出し、その中から不要な単語を削除して当該記事の確定キーワードとし、また、確定キーワード中の重要語を用いて過去の記事データベースを検索して、記事全文に含まれる単語からでは抽出できなかったキーワードを想像キーワードとして付与する技術が開示されている。
特開平5−120345号公報
ソーシャルブックマークサービスでは、Webサイトによって提供される情報にブックマークを設定し、さらにタグを付与するなどして分類することが可能である。また、テキスト情報を記録して同様に管理することも可能である。しかし、一般的にタグの付与はユーザが直接指定する必要があり、また、タグ候補としても他のユーザがどのようなタグを付与しているかを参考にすることができるに過ぎない。
一方、タグ候補を自動的に選定してユーザに提示することを考えた際に、従来技術によるキーワード抽出方法を適用した場合は、ユーザ毎の嗜好に合致したタグ候補を推奨するといったようなことはできない。また、過去の関連記事に付与したキーワードからの抽出においては単純なキーワード検索となり、タグを付与する対象の記事と既に当該タグが付与されている記事群との実際の内容が類似せず、タグ候補の精度が低くなる場合がある。
そこで本発明の目的は、テキストデータからなる記事に対して、ユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することができるタグ付与方法およびタグ付与プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。
本発明の代表的な実施の形態によるタグ付与方法は、コンピュータシステムによって、テキストデータからなる記事に対してタグを付与して分類するものであって、前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持し、新着記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第1ステップと、前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて1つ以上の単語を抽出し、抽出した前記各単語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第2ステップと、所定の条件に基づいて、前記第1ステップで算出した前記新着記事の特徴語データと、前記第2ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第3ステップと、前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第4ステップとを実行することを特徴とするものである。
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。
本発明の代表的な実施の形態によれば、新着記事に対してユーザ毎の嗜好に合致したタグ候補を自動的に付与もしくは推奨することが可能となり、ユーザが自分の興味のある新着記事を容易に参照し整理することが可能となる。また、継続した使用によってタグが付与され分類された記事群が多くなればなるほど、新着記事に対するタグ候補の選定の精度が向上し、より適切なタグ候補を選定することが可能となる。
本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムの構成例の概要を示した図である。 本発明の一実施の形態におけるデータベースのテーブル構成例の概要を示した図である。 本発明の一実施の形態における新着記事に対するタグ付与部の処理例の概要を示したフローチャートである。 本発明の一実施の形態における新着記事毎の特徴語データを算出する処理の例を説明する図である。 本発明の一実施の形態におけるタグ毎の既存記事群の特徴語データを算出する処理の例を説明する図である。 本発明の一実施の形態における新着記事の特徴語データとタグ毎の既存記事群の特徴語データとの類似度を算出する処理の例を説明する図である。 本発明の一実施の形態における新着記事についてのタグ候補をユーザに提示する処理の例を説明する図である。
以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。
本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムは、各種Webサイトや電子メール、電子文書などのテキスト情報(以下ではこれらを総称して「記事」という場合がある)を一ヶ所に収集して各ユーザから参照可能とし、各ユーザが情報を利用・参照した行動履歴を蓄積して、蓄積された行動履歴を再利用することによって各ユーザにとって価値ある情報を推奨することを可能とし、蓄積した情報を生産的に活用することができる仕組みを提供するシステムである。
本実施の形態では、過去に収集した既存記事に対して各ユーザが既に付与したタグの情報から、新たに収集した新着記事に対して自動的にユーザの嗜好に合ったタグ候補を選定して提示することにより、新着記事の中からユーザが興味のある記事を容易に参照することを可能にするとともに、新着記事の分類を容易にすることを可能にするものである。
[システム構成]
図1は、本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムの構成例の概要を示した図である。情報収集管理システムは、情報収集管理サーバ100およびデータベース200から構成される。データベース200は、情報収集管理サーバ100上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。
情報収集管理サーバ100は、新着記事収集部110により、例えば、Webサーバ310上のWebサイトや、社内の文書サーバ320などから新着記事101としてテキストデータを収集する。新着記事の収集方法としては、例えば、RSS(RDF Site Summary)のフィードを利用することができる。新着記事収集部110がRSSリーダーとして動作することにより、Webサイト上のニュース等の記事に限らず、文書サーバ320上に格納される社内資料等の電子データや電子メール等もRSS化することで収集対象とすることができる。なお、収集した新着記事101は、新着記事収集部110により既存記事202として既存記事群201に格納される。
データベース200には、詳細は後述するが、過去に収集した複数の既存記事202を既存記事群201として蓄積している。また、これらの記事を分類・整理しながら利用する各ユーザが、それぞれ、各既存記事202に対してどのようなタグ204を付与して分類・整理しているかの紐付け情報を示すタグ情報203を保持している。
ニュース等の新着記事101を取得した情報収集管理サーバ100は、タグ付与部120によって、新着記事101の内容(特徴語)と、対象のユーザが過去に付与したタグ204によって分類されている既存記事202群の内容(特徴語)との類似度に基づいて、新着記事101に対するタグ候補を選定する。選定したタグ候補は、図示しないWebサーバプログラム等を介してクライアント端末400に提示する。クライアント端末400では、ユーザが、Webブラウザ等を介して提示されたタグ候補から対象の新着記事101に付与するタグを選択する。新着記事101についての選択されたタグの情報は、データベース200のタグ情報203に格納される。
なお、新着記事収集部110およびタグ付与部120は、情報収集管理サーバ100上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないWebサーバ上で稼働するアプリケーションとして実装することができる。また、タグ付与部120は、詳細は後述するが、例えば、特徴語データ算出部121、タグ毎特徴語データ算出部122、類似度算出部123からなり、タグ付与部120における上述したような機能を実現する。
[テーブル構成]
図2は、データベース200のテーブル構成例の概要を示した図である。データベース200に格納されるテーブルは、例えば、ユーザ情報210、購読情報220、フィード一覧230、リアクション情報240、記事データ250からなる。図中のテーブル間の矢印は、例えば、A→Bである場合に、A:B=1:nの関係(A has many Bs)にあることを示している。
ユーザ情報210は、各ユーザに関する情報を保持するテーブルであり、例えば、ユーザID、パスワード、ユーザ名などの項目を有する。ユーザ情報210は、ユーザが情報収集管理システムへログインする際の認証時などに利用される。フィード一覧230は、各種情報(記事)を自動収集するためのRSSフィードの基本的な情報を保持するテーブルであり、例えば、フィードID、サイト名、URL(Uniform Resource Locator)などの項目を有する。上述したように、Webサーバ310上のニュースサイト等から提供されるRSSフィードだけでなく、文書サーバ320等に格納されている各種電子文書や電子メールなどもRSS化することで、これらの情報を新着記事収集部110により自動的に巡回して収集することができる。
購読情報220は、各ユーザがどのRSSフィードを購読しているかの情報を保持するテーブルであり、例えば、ユーザID、フィードID、購読開始日、未読数などの項目を有する。各ユーザは複数のRSSフィードを購読することができ、また、各RSSフィードは、複数のユーザから購読されることができる。記事データ250は、各RSSフィードに含まれる記事やユーザがWebサイトからクリップした記事、電子文書など、収集した記事の内容を保持するテーブルであり、例えば、記事ID、フィードID、記事内容などの項目を有する。記事データ250は図1における既存記事群201に相当し、記事データ250の各エントリは既存記事202に相当する。
リアクション情報240は、各ユーザが各記事に対してどのようなリアクションを行ったかの情報(行動履歴)を保持するテーブルであり、例えば、ユーザID、記事ID、参照日、タグ、メモ、ハイライト範囲などの項目を有する。タグの項目には、ユーザIDで示されるユーザが記事IDで示される記事に付与したタグの情報が格納される。すなわち、リアクション情報240のユーザID、記事IDおよびタグの項目は図1におけるタグ情報203に相当し、タグの項目はタグ204に相当する。
なお、記事に対するリアクションとしては、記事の参照やタグの付与の他に、例えば、記事に対してテキストのメモを付加したり、任意の範囲をハイライトしたりすることなどが可能であり、これらの内容をメモやハイライト範囲の項目に保持することができる。なお、上述した各テーブルの項目は一例であり、これら以外の項目を有していてもよい。
[処理フロー]
図3は、新着記事101に対するタグ付与部120の処理例の概要を示したフローチャートである。新着記事収集部110により新着記事101が収集されると、タグ付与部120はタグ付与処理を開始する。
まず、特徴語データ算出部121により、新たにタグ204を付与する対象である新着記事101内のテキストデータから1つ以上の単語を特徴語として抽出し、各特徴語について後述するTF−IDF値(Term Frequency-Inverse Document Frequency)を算出して新着記事101の特徴語データとする(S101)。次に、タグ毎特徴語データ算出部122により、既存記事群201内の各既存記事202にユーザが付与しているタグ204の種別毎に、対象のタグ204が付与されている各既存記事202内のテキストデータから1つ以上の単語を特徴語として抽出し、各特徴語に対してTF−IDF値を算出し、対象のタグ204が付与されている既存記事202全体におけるその平均値を算出して、これをタグ204毎の既存記事202群の特徴語のデータとする(S102)。
次に、類似度算出部123により、ステップS101で算出した新着記事101の特徴語データ(TF−IDF値)と、ステップS102で算出したタグ204の種別毎の特徴語データ(TF−IDF値の平均値)とをそれぞれベクトル空間化する。さらに、新着記事101の特徴語データのベクトルと、タグ204の種別毎の特徴語データのベクトルとの内積を求めることによって、新着記事101の特徴語データと、タグ204の種別毎の特徴語データとの類似度を算出する(S103)。新着記事101が複数ある場合は、ステップS101〜S103までの処理を全ての新着記事101に対して行う。
次に、ステップS103で算出した類似度が上位の所定の数に含まれるタグ204を、対象の新着記事101についてのタグ候補として選定してクライアント端末400のユーザインタフェースを介してユーザに提示する(S104)。ユーザは、提示されたタグ候補の中からタグを選択したり、もしくは新たなタグを直接付与したりして、対象の新着記事101に付与するタグを選択する。タグ付与部120は、選択されたタグを対象の新着記事101についてのタグ204として付与し、当該情報をタグ情報203としてデータベース200に格納して(S105)、タグ付与処理を終了する。以下、上述した各ステップの具体的な処理内容について説明する。
[新着記事毎の特徴語抽出]
図4は、新着記事101毎の特徴語データを算出する処理(ステップS101)の例を説明する図である。まず、対象の新着記事101のテキストデータから、形態素解析により複合名詞を抽出し、これを特徴語とする。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。
次に、抽出した各複合名詞について、単語の重要度についての重み付け値であるTF−IDF値を算出する。TF−IDF値によって文章中の特徴的な単語(重要とみなされる単語)を抽出することは一般的に行われている。本実施の形態のタグ付与方法でもこの手法を用いて特徴語を抽出するが、特徴語の抽出手法はこれに限るものではなく、単語毎に数値(重み付け値)として評価が可能な手法であれば利用することができる。
ここで、TF(Term Frequency)は、記事中の単語(複合名詞)の出現頻度であり、この値が大きいほどこの単語はこの記事の特徴をよく表しているものと考えられる。ある記事Dにおけるある単語tのTF値は、例えば、記事D中の単語tの出現頻度をfとすると、記事Dにおける単語の種類数mおよび対数で正規化して以下の式で表される。
Figure 2010224622
TFの値が大きい単語であっても、多くの記事に頻繁に出現する単語は、特定の記事の特徴を表す単語ではない一般的な単語である場合が多い。ここで、IDF(Inverse Document Frequency)は、対象の単語が出現する記事数の逆数であり、この値が大きいほどこの単語が出現する記事数が少なく、この単語は特定の記事の特徴をよく表しているものと考えられる。ある単語tのIDF値は、例えば、全記事の中で単語tが出現する文書数をDfとすると、全記事数Nで正規化して以下の式で表される。
Figure 2010224622
上記のTFとIDFの両者の値が大きい単語tが、文書Dの特徴を真によく表していると考えられるため、単語tのTF−IDF値は、TFとIDFの積を整数化した以下の式で表される。
Figure 2010224622
このTF−IDF値を新着記事101から抽出した全ての複合名詞について算出し、対象の新着記事101の特徴語データとする。このとき、数2式において、全記事数Nはデータベース200における既存記事202の総数であり、単語tが出現する文書数Dfはデータベース200の既存記事群201を単語tをキーとして全文検索する等によって求めることができる。
なお、本実施の形態では、短い文章の新着記事101であってもタグ204毎の既存記事202群との類似度を適切に比較することができるように、特徴語に漏れがないよう新着記事101から抽出された複合名詞全てを特徴語の対象としているが、所定の条件に基づいてTF−IDF値が小さいものを特徴語から除外するようにしてもよい。また、TF値、IDF値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。
[タグ毎の既存記事群の特徴語算出]
図5は、タグ204毎の既存記事202群の特徴語データを算出する処理(ステップS102)の例を説明する図である。図5の例は「セキュリティ」タグについての特徴語データを算出する場合の処理について示しているが、他の全てのタグ204についても同様の処理を行う。
まず、ユーザによって「セキュリティ」タグが付与された既存記事202毎に、それぞれ、上述のステップS101(図4)で示した処理と同様に特徴語を抽出し、数1〜数3の各式に基づいてTF−IDF値を算出して特徴語データとする。対象の既存記事202が異なれば、それに含まれる特徴語は異なり、また同じ特徴語であってもその出現頻度が異なるため、TF−IDF値は異なる値となる。
次に、「セキュリティ」タグが付与された既存記事202群での、各特徴語のTF−IDF値の平均値を算出する。本実施の形態では、単純に「セキュリティ」タグが付与された既存記事202群での各特徴語のTF−IDF値の合計値を、「セキュリティ」タグが付与された既存記事202の数で除算して求めているが、これに限らず、例えば所定の条件により加重平均を算出するようにしてもよい。ここで算出されたTF−IDF値の平均値を、「セキュリティ」タグの特徴語データとする。なお、この特徴語データに含まれる特徴語は各既存記事202で抽出された特徴語を全てマージしたものとなる。
[類似度算出]
図6は、新着記事101の特徴語データと、タグ204毎の既存記事202群の特徴語とデータの類似度を算出する処理(ステップS103)の例を説明する図である。類似度の算出に際しては、例えば、上述のステップS101(図3)で抽出した新着記事101の特徴語データ(TF−IDF値)と、ステップS102(図4)で算出したタグ204毎の既存記事202群の特徴語データ(TF−IDF値の平均値)とをそれぞれベクトル空間化する。さらに、新着記事101についてのベクトルと、タグ204の種別毎の各既存記事202についてのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。
新着記事101の特徴語データおよびタグ毎の特徴語データに含まれる特徴語を全てマージした数がn個であった場合、新着記事101の特徴語データdnwのベクトルV(dnw)および、タグ204毎の特徴語データd、d、…のベクトルV(d)、V(d)、…は、それぞれ、n個の特徴語のTF−IDF値(もしくは平均値)を要素とするn次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は0とする。
ここで、ベクトルの方向は対象の記事(群)の特徴を表していると考えられる。従って、新着記事101の特徴語データとタグ204毎の各既存記事202の特徴語データとの類似度は、ベクトルV(dnw)とベクトルV(d)、V(d)、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、cosθが1に近いほど類似度が高いと言うことができる。cosθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、特徴語データd、dの類似度sim(d,d)は、二つのベクトルV(d)、V(d)により以下の式で表される。
Figure 2010224622
数4式を用いて、新着記事101の特徴語データとタグ204毎の各既存記事202の特徴語データとの類似度をそれぞれ算出する。すなわち、sim(dnw,d)、sim(dnw,d)、…をそれぞれ算出する。全てのタグ204の種別について各既存記事202の特徴語データと新着記事101の特徴語データとの類似度を算出すると、その中から類似度が上位のタグ204を所定の数だけ選定する。選定されたタグ204が対象の新着記事101についてのタグ候補となる。図6の例では、「セキュリティ」、「ブラウザ」、「認証技術」の各タグがタグ候補として選定されたことを示している。
なお、図6の例では、3つのタグ候補を選定しているが、タグ候補として選定するタグの数はこれに限らず、任意の数のタグをタグ候補として選定することができる。また、本実施の形態では、新着記事101とタグ204毎の既存記事202との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。
[タグ候補提示]
図7は、新着記事101についてのタグ候補をユーザに提示する処理(ステップS104)の例を説明する図である。上述のステップS103(図6)で選定されたタグ候補をクライアント端末400上に提示する際には、例えば、図7の上段に示すように、新着記事101毎にそのタグ候補の一覧を表示したり、タグ毎に対象のタグが付与される候補となる新着記事101をまとめて表示したりすることができる。これにより、ユーザは新着記事101群の中から自分の興味のある記事がどれであるかを容易に把握することができる。なお、タグ候補の提示に際しては、例えば、情報収集管理サーバ100上の図示しないWebサーバに対してクライアント端末400からWebブラウザを介してアクセスすることで実現可能である。
図7の下段は、新着記事101毎にそのタグ候補の一覧を表示し、付与するタグをユーザに選択させる場合の画面の一例を示した図である。新着記事101の内容と、当該新着記事101に対して上述のタグ付与処理によって選定されたタグ候補、すなわち当該ユーザが過去に付与したタグから関連するタグとして推奨するタグ候補を「おすすめタグ」欄に列挙して提示している。
また、上記タグ候補だけでなく、ステップS101にて新着記事101のテキストデータから抽出した特徴語(一般的な単語は除外する)も合わせて列挙して提示している。このとき、上述のタグ付与処理によって選定されたタグ候補(図7の例では「XXX社」、「スマートフォン」)を優先的に表示することによってこれらを推奨することができる。優先的な表示としては、例えば、リストの先頭に表示したり、文字の色やフォントを変更して強調したりすることなどが考えられる。
このように、「おすすめタグ」欄に推奨するタグが列挙して提示されるため、ユーザは、例えば所望のタグをクリックするだけで容易に新着記事101にタグ204を付与することができ、新着記事101を容易に分類・整理することができる。なお、本実施の形態ではタグ候補を提示し、付与するタグ204をユーザが選択する構成としているが、タグ候補として選定されたものをタグ204として自動的に付与する構成とすることも当然可能である。
以上に説明したように、本実施の形態のタグ付与方法によれば、新着記事101に対してユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することが可能となり、新着記事101群の中からユーザが自分の興味のある新着記事101を容易に参照し整理することが可能となる。また、継続した使用によってタグ204が付与され分類された既存記事202が多くなればなるほど、新着記事101に対するタグ候補の選定の精度が向上し、より適切なタグ候補を選定することが可能となる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
本発明は、テキスト文書にタグを自動で付与して分類するタグ付与方法およびタグ付与プログラムに利用可能である。
100…情報収集管理サーバ、101…新着記事、110…新着記事収集部、120…タグ付与部、121…特徴語データ算出部、122…タグ毎特徴語データ算出部、123…類似度算出部、200…データベース、201…既存記事群、202…既存記事、203…タグ情報、204…タグ、210…ユーザ情報、220…購読情報、230…フィード一覧、240…リアクション情報、250…記事データ、310…Webサーバ、320…文書サーバ、400…クライアント端末。

Claims (10)

  1. コンピュータシステムによって、テキストデータからなる記事に対して前記記事を特徴付ける単語であるタグを付与して分類するタグ付与方法であって、
    前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持し、
    前記タグを新たに付与する対象である新着記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第1ステップと、
    前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第2ステップと、
    所定の条件に基づいて、前記第1ステップで算出した前記新着記事の特徴語データと、前記第2ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第3ステップと、
    前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第4ステップとを実行することを特徴とするタグ付与方法。
  2. 請求項1に記載のタグ付与方法において、
    前記第4ステップでは、選定された前記タグ候補をユーザに提示し、
    さらに、提示した前記タグ候補の中から前記ユーザによって選択された前記タグを前記新着記事についての前記タグとして付与する第5ステップを実行することを特徴とするタグ付与方法。
  3. 請求項1または2に記載のタグ付与方法において、
    前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したTF値と、全ての前記既存記事を対象として算出したIDF値とから算出したTF−IDF値であることを特徴とするタグ付与方法。
  4. 請求項1〜3のいずれか1項に記載のタグ付与方法において、
    前記第3ステップでは、前記第1ステップで算出した前記新着記事の特徴語データと、前記第2ステップで算出した前記タグの種別毎の特徴語データとをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出することを特徴とするタグ付与方法。
  5. 請求項2〜4のいずれか1項に記載のタグ付与方法において、
    前記第4ステップでは、前記新着記事に対して、前記タグ候補と、前記第1ステップで前記新着記事から抽出された前記特徴語とを合わせてクライアント端末のユーザインタフェース上に表示して選択可能とし、その際に前記タグ候補を優先的に表示して提示することを特徴とするタグ付与方法。
  6. コンピュータシステムを、テキストデータからなる記事に対して前記記事を特徴付ける単語であるタグを付与して分類するよう機能させるタグ付与プログラムであって、
    前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持しており、
    前記タグ付与プログラムは、前記タグを新たに付与する対象である新着記事から所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第6ステップと、
    前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて1つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第7ステップと、
    所定の条件に基づいて、前記第6ステップで算出した前記新着記事の特徴語データと、前記第7ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第8ステップと、
    前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第9ステップとを実行することを特徴とするタグ付与プログラム。
  7. 請求項6に記載のタグ付与プログラムにおいて、
    前記第9ステップでは、選定された前記タグ候補をユーザに提示し、
    さらに、提示した前記タグ候補の中から前記ユーザによって選択された前記タグを前記新着記事についての前記タグとして付与する第10ステップを実行することを特徴とするタグ付与プログラム。
  8. 請求項6または7に記載のタグ付与プログラムにおいて、
    前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したTF値と、全ての前記既存記事を対象として算出したIDF値とから算出したTF−IDF値であることを特徴とするタグ付与プログラム。
  9. 請求項6〜8のいずれか1項に記載のタグ付与プログラムにおいて、
    前記第8ステップでは、前記第6ステップで算出した前記新着記事の特徴語データと、前記第7ステップで算出した前記タグの種別毎の特徴語データとをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出することを特徴とするタグ付与プログラム。
  10. 請求項7〜9のいずれか1項に記載のタグ付与プログラムにおいて、
    前記第9ステップでは、前記新着記事に対して、前記タグ候補と、前記第6ステップで前記新着記事から抽出された前記特徴語とを合わせてクライアント端末のユーザインタフェース上に表示して選択可能とし、その際に前記タグ候補を優先的に表示して提示することを特徴とするタグ付与プログラム。
JP2009068145A 2009-03-19 2009-03-19 タグ付与方法およびタグ付与プログラム Pending JP2010224622A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009068145A JP2010224622A (ja) 2009-03-19 2009-03-19 タグ付与方法およびタグ付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009068145A JP2010224622A (ja) 2009-03-19 2009-03-19 タグ付与方法およびタグ付与プログラム

Publications (1)

Publication Number Publication Date
JP2010224622A true JP2010224622A (ja) 2010-10-07

Family

ID=43041779

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009068145A Pending JP2010224622A (ja) 2009-03-19 2009-03-19 タグ付与方法およびタグ付与プログラム

Country Status (1)

Country Link
JP (1) JP2010224622A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042998A (ja) * 2010-08-12 2012-03-01 Nec Biglobe Ltd 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质
WO2014021229A1 (ja) * 2012-08-03 2014-02-06 株式会社エヌ・ティ・ティ・ドコモ 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
JP2014071589A (ja) * 2012-09-28 2014-04-21 Brother Ind Ltd 情報処理装置、情報処理装置のプログラム、および情報処理装置の制御方法
JP2014130408A (ja) * 2012-12-28 2014-07-10 Fujitsu Ltd グラフ作成プログラム、情報処理装置、およびグラフ作成方法
JP2015518982A (ja) * 2012-05-14 2015-07-06 ザ・ボーイング・カンパニーTheBoeing Company 意味タグの生成のための仲介コンピュータデバイスおよび関連の方法
JP2016510453A (ja) * 2013-01-11 2016-04-07 ノキア テクノロジーズ オサケユイチア 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
KR101698280B1 (ko) * 2015-12-07 2017-01-19 숭실대학교산학협력단 태그에 대한 웹 페이지 검색 장치 및 방법
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统
JP7565926B2 (ja) 2019-01-14 2024-10-11 パンチ インコーポレイテッド 個人向けの在庫管理のためのテキストデータの符号化

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012042998A (ja) * 2010-08-12 2012-03-01 Nec Biglobe Ltd 最適タグ提案装置、最適タグ提案システム、最適タグ提案方法、およびプログラム
JP2012164018A (ja) * 2011-02-03 2012-08-30 Nifty Corp タグ推薦装置
JP2015506515A (ja) * 2012-01-05 2015-03-02 テンセント テクノロジー (シェンジェン) カンパニー リミテッド タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
WO2013102396A1 (zh) * 2012-01-05 2013-07-11 腾讯科技(深圳)有限公司 一种自动给文档添加标签的方法、装置以及计算机存储介质
US9146915B2 (en) 2012-01-05 2015-09-29 Tencent Technology (Shenzhen) Company Limited Method, apparatus, and computer storage medium for automatically adding tags to document
JP2015518982A (ja) * 2012-05-14 2015-07-06 ザ・ボーイング・カンパニーTheBoeing Company 意味タグの生成のための仲介コンピュータデバイスおよび関連の方法
WO2014021229A1 (ja) * 2012-08-03 2014-02-06 株式会社エヌ・ティ・ティ・ドコモ 関連文書抽出装置、関連文書抽出方法及び関連文書抽出プログラム
JP2014071589A (ja) * 2012-09-28 2014-04-21 Brother Ind Ltd 情報処理装置、情報処理装置のプログラム、および情報処理装置の制御方法
JP2014130408A (ja) * 2012-12-28 2014-07-10 Fujitsu Ltd グラフ作成プログラム、情報処理装置、およびグラフ作成方法
JP2016510453A (ja) * 2013-01-11 2016-04-07 ノキア テクノロジーズ オサケユイチア 個人的ユーザ経験を改善するためにソーシャル・メディアを豊富にする方法および装置
JP2016062338A (ja) * 2014-09-18 2016-04-25 株式会社東芝 タグ付与装置、方法、及びプログラム
KR101698280B1 (ko) * 2015-12-07 2017-01-19 숭실대학교산학협력단 태그에 대한 웹 페이지 검색 장치 및 방법
JP7565926B2 (ja) 2019-01-14 2024-10-11 パンチ インコーポレイテッド 個人向けの在庫管理のためのテキストデータの符号化
CN111104526A (zh) * 2019-11-21 2020-05-05 新华智云科技有限公司 一种基于关键词语义的金融标签提取方法及系统

Similar Documents

Publication Publication Date Title
JP2010224622A (ja) タグ付与方法およびタグ付与プログラム
JP4637969B1 (ja) ウェブページの主意,およびユーザの嗜好を適切に把握して,最善の情報をリアルタイムに推奨する方法
US7660783B2 (en) System and method of ad-hoc analysis of data
US8195634B2 (en) Domain-aware snippets for search results
US8161059B2 (en) Method and apparatus for collecting entity aliases
CN107562939B (zh) 垂直领域新闻推荐方法、装置及可读储存介质
Beel et al. The architecture and datasets of Docear's Research paper recommender system
Jomsri et al. A framework for tag-based research paper recommender system: an IR approach
US20090235150A1 (en) Systems and methods for dynamically creating hyperlinks associated with relevant multimedia content
CN112486917A (zh) 从多个微博自动生成信息丰富的内容的方法以及系统
JP2010224623A (ja) 関連記事推奨方法および関連記事推奨プログラム
CN104866554B (zh) 一种基于社会化标注的个性化搜索方法及系统
CN103577534B (zh) 搜索方法和搜索引擎
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
US8266140B2 (en) Tagging system using internet search engine
JP5952756B2 (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US20080294626A1 (en) Method and apparatus for leveraged search and discovery - leveraging properties of trails and resources within
JP2009015589A (ja) 関連文書提示システム及びプログラム
KR101850853B1 (ko) 빅데이터를 이용한 검색 방법 및 장치
JP2012038333A (ja) 情報処理装置
JP2009205588A (ja) ページ検索システム及びプログラム
JP2010224625A (ja) キーワード二次元可視化方法およびキーワード二次元可視化プログラム
KR100900467B1 (ko) 개인 미디어 검색 서비스 시스템 및 방법
Wanjari et al. Automatic news extraction system for Indian online news papers