JP2010224622A

JP2010224622A - タグ付与方法およびタグ付与プログラム

Info

Publication number: JP2010224622A
Application number: JP2009068145A
Authority: JP
Inventors: Tomoyasu Okada; 智靖岡田
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2010-10-07

Abstract

【課題】テキストデータからなる記事に対して、ユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することができるタグ付与方法およびタグ付与プログラムを提供する。
【解決手段】新着記事１０１から１つ以上の特徴語を抽出し、抽出した前記各特徴語に対して重要度を示す重み付け値を算出して新着記事１０１の特徴語データとする第１ステップと、タグ２０４毎に、各既存記事２０２から１つ以上の特徴語を抽出し、抽出した前記各特徴語に対して前記既存記事における前記重み付け値を算出し、その平均値を算出してタグ２０４毎の特徴語データとする第２ステップと、第１ステップで算出した新着記事１０１の特徴語データと、第２ステップで算出したタグ２０４毎の特徴語データとの類似度を算出する第３ステップと、前記類似度が上位の前記タグを新着記事１０１についてのタグ候補として選定する第４ステップとを実行する。
【選択図】図１

Description

本発明は、テキスト情報のフィルタリング技術に関し、特に、テキスト文書にタグを自動で付与して分類するタグ付与方法およびタグ付与プログラムに適用して有効な技術に関するものである。

近年、インターネット等の普及により、コンピュータを利用して非常に多くの種類の情報を入手することが可能である。例えば、各種ニュースサイトや検索エンジンを用いて多くの情報を収集することができる。また、電子メール等によっても多くの情報を得ることができる。また、インターネット上に限らず、例えば、社内のサーバに電子化されて保管されている各種の社内資料などからも多くの情報を入手することができる。しかし、これらの多くの情報を実際に読む際に、情報が多すぎてどれを読めばいいか分からなくなるという場合がある。新たに大量の情報が提供された場合に、ユーザは自分の興味や目的に一致した情報だけ読みたいと考えるのが通常である。

このような要望に対して、例えば、インターネット上ではソーシャルブックマークサービスを提供するＷｅｂサイトが多数存在する。ソーシャルブックマークサービスとは、インターネット上で自分のブックマークを管理するとともに、不特定多数のユーザに自分のブックマークを公開して情報を共有することができるサービスである。また、ブックマークに分類用のタグを付与することができ、タグを参照することで同じような情報を提供しているＷｅｂサイトを見つけやすくすることができる。Ｗｅｂサイトにタグを付与する際にはユーザがタグを直接指定するのが一般的である。このとき、他のユーザが対象のＷｅｂサイトにどのようなタグを付与しているかを参考にしながら付与することができる場合もある。

ここで、新たに取得した情報に対してタグを自動的に付与する、もしくはタグ候補を自動的に選定してユーザに提示するということを考えた場合、例えば、対象のＷｅｂサイト等の文書の内容を表す特徴的な単語を、対象のテキスト情報もしくは外部の辞書等のデータから抽出し、これをタグもしくは候補とすることが考えられる。これに関連する技術として、例えば、特開平５−１２０３４５号公報（特許文献１）には、新聞記事のデータから所定の条件に基づいて記事主題を表す重要語、重要文を抽出し、その中から不要な単語を削除して当該記事の確定キーワードとし、また、確定キーワード中の重要語を用いて過去の記事データベースを検索して、記事全文に含まれる単語からでは抽出できなかったキーワードを想像キーワードとして付与する技術が開示されている。

特開平５−１２０３４５号公報

ソーシャルブックマークサービスでは、Ｗｅｂサイトによって提供される情報にブックマークを設定し、さらにタグを付与するなどして分類することが可能である。また、テキスト情報を記録して同様に管理することも可能である。しかし、一般的にタグの付与はユーザが直接指定する必要があり、また、タグ候補としても他のユーザがどのようなタグを付与しているかを参考にすることができるに過ぎない。

一方、タグ候補を自動的に選定してユーザに提示することを考えた際に、従来技術によるキーワード抽出方法を適用した場合は、ユーザ毎の嗜好に合致したタグ候補を推奨するといったようなことはできない。また、過去の関連記事に付与したキーワードからの抽出においては単純なキーワード検索となり、タグを付与する対象の記事と既に当該タグが付与されている記事群との実際の内容が類似せず、タグ候補の精度が低くなる場合がある。

そこで本発明の目的は、テキストデータからなる記事に対して、ユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することができるタグ付与方法およびタグ付与プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。

本発明の代表的な実施の形態によるタグ付与方法は、コンピュータシステムによって、テキストデータからなる記事に対してタグを付与して分類するものであって、前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持し、新着記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第１ステップと、前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて１つ以上の単語を抽出し、抽出した前記各単語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第２ステップと、所定の条件に基づいて、前記第１ステップで算出した前記新着記事の特徴語データと、前記第２ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第３ステップと、前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第４ステップとを実行することを特徴とするものである。

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。

本発明の代表的な実施の形態によれば、新着記事に対してユーザ毎の嗜好に合致したタグ候補を自動的に付与もしくは推奨することが可能となり、ユーザが自分の興味のある新着記事を容易に参照し整理することが可能となる。また、継続した使用によってタグが付与され分類された記事群が多くなればなるほど、新着記事に対するタグ候補の選定の精度が向上し、より適切なタグ候補を選定することが可能となる。

本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムの構成例の概要を示した図である。本発明の一実施の形態におけるデータベースのテーブル構成例の概要を示した図である。本発明の一実施の形態における新着記事に対するタグ付与部の処理例の概要を示したフローチャートである。本発明の一実施の形態における新着記事毎の特徴語データを算出する処理の例を説明する図である。本発明の一実施の形態におけるタグ毎の既存記事群の特徴語データを算出する処理の例を説明する図である。本発明の一実施の形態における新着記事の特徴語データとタグ毎の既存記事群の特徴語データとの類似度を算出する処理の例を説明する図である。本発明の一実施の形態における新着記事についてのタグ候補をユーザに提示する処理の例を説明する図である。

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。

本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムは、各種Ｗｅｂサイトや電子メール、電子文書などのテキスト情報（以下ではこれらを総称して「記事」という場合がある）を一ヶ所に収集して各ユーザから参照可能とし、各ユーザが情報を利用・参照した行動履歴を蓄積して、蓄積された行動履歴を再利用することによって各ユーザにとって価値ある情報を推奨することを可能とし、蓄積した情報を生産的に活用することができる仕組みを提供するシステムである。

本実施の形態では、過去に収集した既存記事に対して各ユーザが既に付与したタグの情報から、新たに収集した新着記事に対して自動的にユーザの嗜好に合ったタグ候補を選定して提示することにより、新着記事の中からユーザが興味のある記事を容易に参照することを可能にするとともに、新着記事の分類を容易にすることを可能にするものである。

［システム構成］
図１は、本発明の一実施の形態であるタグ付与方法を適用した情報収集管理システムの構成例の概要を示した図である。情報収集管理システムは、情報収集管理サーバ１００およびデータベース２００から構成される。データベース２００は、情報収集管理サーバ１００上に実装されてもよいし、別のデータベースサーバ等の機器上に実装されてもよい。

情報収集管理サーバ１００は、新着記事収集部１１０により、例えば、Ｗｅｂサーバ３１０上のＷｅｂサイトや、社内の文書サーバ３２０などから新着記事１０１としてテキストデータを収集する。新着記事の収集方法としては、例えば、ＲＳＳ（RDF Site Summary）のフィードを利用することができる。新着記事収集部１１０がＲＳＳリーダーとして動作することにより、Ｗｅｂサイト上のニュース等の記事に限らず、文書サーバ３２０上に格納される社内資料等の電子データや電子メール等もＲＳＳ化することで収集対象とすることができる。なお、収集した新着記事１０１は、新着記事収集部１１０により既存記事２０２として既存記事群２０１に格納される。

データベース２００には、詳細は後述するが、過去に収集した複数の既存記事２０２を既存記事群２０１として蓄積している。また、これらの記事を分類・整理しながら利用する各ユーザが、それぞれ、各既存記事２０２に対してどのようなタグ２０４を付与して分類・整理しているかの紐付け情報を示すタグ情報２０３を保持している。

ニュース等の新着記事１０１を取得した情報収集管理サーバ１００は、タグ付与部１２０によって、新着記事１０１の内容（特徴語）と、対象のユーザが過去に付与したタグ２０４によって分類されている既存記事２０２群の内容（特徴語）との類似度に基づいて、新着記事１０１に対するタグ候補を選定する。選定したタグ候補は、図示しないＷｅｂサーバプログラム等を介してクライアント端末４００に提示する。クライアント端末４００では、ユーザが、Ｗｅｂブラウザ等を介して提示されたタグ候補から対象の新着記事１０１に付与するタグを選択する。新着記事１０１についての選択されたタグの情報は、データベース２００のタグ情報２０３に格納される。

なお、新着記事収集部１１０およびタグ付与部１２０は、情報収集管理サーバ１００上で稼働するソフトウェアプログラムとして実装され、例えば、図示しないＷｅｂサーバ上で稼働するアプリケーションとして実装することができる。また、タグ付与部１２０は、詳細は後述するが、例えば、特徴語データ算出部１２１、タグ毎特徴語データ算出部１２２、類似度算出部１２３からなり、タグ付与部１２０における上述したような機能を実現する。

［テーブル構成］
図２は、データベース２００のテーブル構成例の概要を示した図である。データベース２００に格納されるテーブルは、例えば、ユーザ情報２１０、購読情報２２０、フィード一覧２３０、リアクション情報２４０、記事データ２５０からなる。図中のテーブル間の矢印は、例えば、Ａ→Ｂである場合に、Ａ：Ｂ＝１：ｎの関係（A has many Bs）にあることを示している。

ユーザ情報２１０は、各ユーザに関する情報を保持するテーブルであり、例えば、ユーザＩＤ、パスワード、ユーザ名などの項目を有する。ユーザ情報２１０は、ユーザが情報収集管理システムへログインする際の認証時などに利用される。フィード一覧２３０は、各種情報（記事）を自動収集するためのＲＳＳフィードの基本的な情報を保持するテーブルであり、例えば、フィードＩＤ、サイト名、ＵＲＬ（Uniform Resource Locator）などの項目を有する。上述したように、Ｗｅｂサーバ３１０上のニュースサイト等から提供されるＲＳＳフィードだけでなく、文書サーバ３２０等に格納されている各種電子文書や電子メールなどもＲＳＳ化することで、これらの情報を新着記事収集部１１０により自動的に巡回して収集することができる。

購読情報２２０は、各ユーザがどのＲＳＳフィードを購読しているかの情報を保持するテーブルであり、例えば、ユーザＩＤ、フィードＩＤ、購読開始日、未読数などの項目を有する。各ユーザは複数のＲＳＳフィードを購読することができ、また、各ＲＳＳフィードは、複数のユーザから購読されることができる。記事データ２５０は、各ＲＳＳフィードに含まれる記事やユーザがＷｅｂサイトからクリップした記事、電子文書など、収集した記事の内容を保持するテーブルであり、例えば、記事ＩＤ、フィードＩＤ、記事内容などの項目を有する。記事データ２５０は図１における既存記事群２０１に相当し、記事データ２５０の各エントリは既存記事２０２に相当する。

リアクション情報２４０は、各ユーザが各記事に対してどのようなリアクションを行ったかの情報（行動履歴）を保持するテーブルであり、例えば、ユーザＩＤ、記事ＩＤ、参照日、タグ、メモ、ハイライト範囲などの項目を有する。タグの項目には、ユーザＩＤで示されるユーザが記事ＩＤで示される記事に付与したタグの情報が格納される。すなわち、リアクション情報２４０のユーザＩＤ、記事ＩＤおよびタグの項目は図１におけるタグ情報２０３に相当し、タグの項目はタグ２０４に相当する。

なお、記事に対するリアクションとしては、記事の参照やタグの付与の他に、例えば、記事に対してテキストのメモを付加したり、任意の範囲をハイライトしたりすることなどが可能であり、これらの内容をメモやハイライト範囲の項目に保持することができる。なお、上述した各テーブルの項目は一例であり、これら以外の項目を有していてもよい。

［処理フロー］
図３は、新着記事１０１に対するタグ付与部１２０の処理例の概要を示したフローチャートである。新着記事収集部１１０により新着記事１０１が収集されると、タグ付与部１２０はタグ付与処理を開始する。

まず、特徴語データ算出部１２１により、新たにタグ２０４を付与する対象である新着記事１０１内のテキストデータから１つ以上の単語を特徴語として抽出し、各特徴語について後述するＴＦ−ＩＤＦ値（Term Frequency-Inverse Document Frequency）を算出して新着記事１０１の特徴語データとする（Ｓ１０１）。次に、タグ毎特徴語データ算出部１２２により、既存記事群２０１内の各既存記事２０２にユーザが付与しているタグ２０４の種別毎に、対象のタグ２０４が付与されている各既存記事２０２内のテキストデータから１つ以上の単語を特徴語として抽出し、各特徴語に対してＴＦ−ＩＤＦ値を算出し、対象のタグ２０４が付与されている既存記事２０２全体におけるその平均値を算出して、これをタグ２０４毎の既存記事２０２群の特徴語のデータとする（Ｓ１０２）。

次に、類似度算出部１２３により、ステップＳ１０１で算出した新着記事１０１の特徴語データ（ＴＦ−ＩＤＦ値）と、ステップＳ１０２で算出したタグ２０４の種別毎の特徴語データ（ＴＦ−ＩＤＦ値の平均値）とをそれぞれベクトル空間化する。さらに、新着記事１０１の特徴語データのベクトルと、タグ２０４の種別毎の特徴語データのベクトルとの内積を求めることによって、新着記事１０１の特徴語データと、タグ２０４の種別毎の特徴語データとの類似度を算出する（Ｓ１０３）。新着記事１０１が複数ある場合は、ステップＳ１０１〜Ｓ１０３までの処理を全ての新着記事１０１に対して行う。

次に、ステップＳ１０３で算出した類似度が上位の所定の数に含まれるタグ２０４を、対象の新着記事１０１についてのタグ候補として選定してクライアント端末４００のユーザインタフェースを介してユーザに提示する（Ｓ１０４）。ユーザは、提示されたタグ候補の中からタグを選択したり、もしくは新たなタグを直接付与したりして、対象の新着記事１０１に付与するタグを選択する。タグ付与部１２０は、選択されたタグを対象の新着記事１０１についてのタグ２０４として付与し、当該情報をタグ情報２０３としてデータベース２００に格納して（Ｓ１０５）、タグ付与処理を終了する。以下、上述した各ステップの具体的な処理内容について説明する。

［新着記事毎の特徴語抽出］
図４は、新着記事１０１毎の特徴語データを算出する処理（ステップＳ１０１）の例を説明する図である。まず、対象の新着記事１０１のテキストデータから、形態素解析により複合名詞を抽出し、これを特徴語とする。形態素解析は自然言語処理において一般的に行われており、また、形態素解析エンジンやソフトウェアも種々のものが提供されているため、これらを利用してもよい。

次に、抽出した各複合名詞について、単語の重要度についての重み付け値であるＴＦ−ＩＤＦ値を算出する。ＴＦ−ＩＤＦ値によって文章中の特徴的な単語（重要とみなされる単語）を抽出することは一般的に行われている。本実施の形態のタグ付与方法でもこの手法を用いて特徴語を抽出するが、特徴語の抽出手法はこれに限るものではなく、単語毎に数値（重み付け値）として評価が可能な手法であれば利用することができる。

ここで、ＴＦ（Term Frequency）は、記事中の単語（複合名詞）の出現頻度であり、この値が大きいほどこの単語はこの記事の特徴をよく表しているものと考えられる。ある記事Ｄにおけるある単語ｔのＴＦ値は、例えば、記事Ｄ中の単語ｔの出現頻度をｆとすると、記事Ｄにおける単語の種類数ｍおよび対数で正規化して以下の式で表される。

ＴＦの値が大きい単語であっても、多くの記事に頻繁に出現する単語は、特定の記事の特徴を表す単語ではない一般的な単語である場合が多い。ここで、ＩＤＦ（Inverse Document Frequency）は、対象の単語が出現する記事数の逆数であり、この値が大きいほどこの単語が出現する記事数が少なく、この単語は特定の記事の特徴をよく表しているものと考えられる。ある単語ｔのＩＤＦ値は、例えば、全記事の中で単語ｔが出現する文書数をＤｆとすると、全記事数Ｎで正規化して以下の式で表される。

上記のＴＦとＩＤＦの両者の値が大きい単語ｔが、文書Ｄの特徴を真によく表していると考えられるため、単語ｔのＴＦ−ＩＤＦ値は、ＴＦとＩＤＦの積を整数化した以下の式で表される。

このＴＦ−ＩＤＦ値を新着記事１０１から抽出した全ての複合名詞について算出し、対象の新着記事１０１の特徴語データとする。このとき、数２式において、全記事数Ｎはデータベース２００における既存記事２０２の総数であり、単語ｔが出現する文書数Ｄｆはデータベース２００の既存記事群２０１を単語ｔをキーとして全文検索する等によって求めることができる。

なお、本実施の形態では、短い文章の新着記事１０１であってもタグ２０４毎の既存記事２０２群との類似度を適切に比較することができるように、特徴語に漏れがないよう新着記事１０１から抽出された複合名詞全てを特徴語の対象としているが、所定の条件に基づいてＴＦ−ＩＤＦ値が小さいものを特徴語から除外するようにしてもよい。また、ＴＦ値、ＩＤＦ値の算出式については種々のものが提案されており、上記の算出式に限らず精度や処理時間などに応じて適当なものを用いることができる。

［タグ毎の既存記事群の特徴語算出］
図５は、タグ２０４毎の既存記事２０２群の特徴語データを算出する処理（ステップＳ１０２）の例を説明する図である。図５の例は「セキュリティ」タグについての特徴語データを算出する場合の処理について示しているが、他の全てのタグ２０４についても同様の処理を行う。

まず、ユーザによって「セキュリティ」タグが付与された既存記事２０２毎に、それぞれ、上述のステップＳ１０１（図４）で示した処理と同様に特徴語を抽出し、数１〜数３の各式に基づいてＴＦ−ＩＤＦ値を算出して特徴語データとする。対象の既存記事２０２が異なれば、それに含まれる特徴語は異なり、また同じ特徴語であってもその出現頻度が異なるため、ＴＦ−ＩＤＦ値は異なる値となる。

次に、「セキュリティ」タグが付与された既存記事２０２群での、各特徴語のＴＦ−ＩＤＦ値の平均値を算出する。本実施の形態では、単純に「セキュリティ」タグが付与された既存記事２０２群での各特徴語のＴＦ−ＩＤＦ値の合計値を、「セキュリティ」タグが付与された既存記事２０２の数で除算して求めているが、これに限らず、例えば所定の条件により加重平均を算出するようにしてもよい。ここで算出されたＴＦ−ＩＤＦ値の平均値を、「セキュリティ」タグの特徴語データとする。なお、この特徴語データに含まれる特徴語は各既存記事２０２で抽出された特徴語を全てマージしたものとなる。

［類似度算出］
図６は、新着記事１０１の特徴語データと、タグ２０４毎の既存記事２０２群の特徴語とデータの類似度を算出する処理（ステップＳ１０３）の例を説明する図である。類似度の算出に際しては、例えば、上述のステップＳ１０１（図３）で抽出した新着記事１０１の特徴語データ（ＴＦ−ＩＤＦ値）と、ステップＳ１０２（図４）で算出したタグ２０４毎の既存記事２０２群の特徴語データ（ＴＦ−ＩＤＦ値の平均値）とをそれぞれベクトル空間化する。さらに、新着記事１０１についてのベクトルと、タグ２０４の種別毎の各既存記事２０２についてのベクトルとの内積を用いることによって類似度を算出するベクトル空間法を利用する。

新着記事１０１の特徴語データおよびタグ毎の特徴語データに含まれる特徴語を全てマージした数がｎ個であった場合、新着記事１０１の特徴語データｄ_ｎｗのベクトルＶ（ｄ_ｎｗ）および、タグ２０４毎の特徴語データｄ_１、ｄ_２、…のベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…は、それぞれ、ｎ個の特徴語のＴＦ−ＩＤＦ値（もしくは平均値）を要素とするｎ次元のベクトルとして表される。このとき、対象の特徴語を含まない特徴語データについては、当該特徴語に対応するベクトルの要素の値は０とする。

ここで、ベクトルの方向は対象の記事（群）の特徴を表していると考えられる。従って、新着記事１０１の特徴語データとタグ２０４毎の各既存記事２０２の特徴語データとの類似度は、ベクトルＶ（ｄ_ｎｗ）とベクトルＶ（ｄ_１）、Ｖ（ｄ_２）、…とのなす角の小ささで表すことができる。すなわち、二つのベクトルのなす角をθとした場合に、ｃｏｓθが１に近いほど類似度が高いと言うことができる。ｃｏｓθは二つのベクトルの内積を各ベクトルの絶対値で除算することにより求められる。従って、特徴語データｄ_ａ、ｄ_ｂの類似度ｓｉｍ（ｄ_ａ，ｄ_ｂ）は、二つのベクトルＶ（ｄ_ａ）、Ｖ（ｄ_ｂ）により以下の式で表される。

数４式を用いて、新着記事１０１の特徴語データとタグ２０４毎の各既存記事２０２の特徴語データとの類似度をそれぞれ算出する。すなわち、ｓｉｍ（ｄ_ｎｗ，ｄ_１）、ｓｉｍ（ｄ_ｎｗ，ｄ_２）、…をそれぞれ算出する。全てのタグ２０４の種別について各既存記事２０２の特徴語データと新着記事１０１の特徴語データとの類似度を算出すると、その中から類似度が上位のタグ２０４を所定の数だけ選定する。選定されたタグ２０４が対象の新着記事１０１についてのタグ候補となる。図６の例では、「セキュリティ」、「ブラウザ」、「認証技術」の各タグがタグ候補として選定されたことを示している。

なお、図６の例では、３つのタグ候補を選定しているが、タグ候補として選定するタグの数はこれに限らず、任意の数のタグをタグ候補として選定することができる。また、本実施の形態では、新着記事１０１とタグ２０４毎の既存記事２０２との類似度をベクトル空間法を用いて算出しているが、これに限らず他の算出方法によって類似度を算出してもよい。

［タグ候補提示］
図７は、新着記事１０１についてのタグ候補をユーザに提示する処理（ステップＳ１０４）の例を説明する図である。上述のステップＳ１０３（図６）で選定されたタグ候補をクライアント端末４００上に提示する際には、例えば、図７の上段に示すように、新着記事１０１毎にそのタグ候補の一覧を表示したり、タグ毎に対象のタグが付与される候補となる新着記事１０１をまとめて表示したりすることができる。これにより、ユーザは新着記事１０１群の中から自分の興味のある記事がどれであるかを容易に把握することができる。なお、タグ候補の提示に際しては、例えば、情報収集管理サーバ１００上の図示しないＷｅｂサーバに対してクライアント端末４００からＷｅｂブラウザを介してアクセスすることで実現可能である。

図７の下段は、新着記事１０１毎にそのタグ候補の一覧を表示し、付与するタグをユーザに選択させる場合の画面の一例を示した図である。新着記事１０１の内容と、当該新着記事１０１に対して上述のタグ付与処理によって選定されたタグ候補、すなわち当該ユーザが過去に付与したタグから関連するタグとして推奨するタグ候補を「おすすめタグ」欄に列挙して提示している。

また、上記タグ候補だけでなく、ステップＳ１０１にて新着記事１０１のテキストデータから抽出した特徴語（一般的な単語は除外する）も合わせて列挙して提示している。このとき、上述のタグ付与処理によって選定されたタグ候補（図７の例では「ＸＸＸ社」、「スマートフォン」）を優先的に表示することによってこれらを推奨することができる。優先的な表示としては、例えば、リストの先頭に表示したり、文字の色やフォントを変更して強調したりすることなどが考えられる。

このように、「おすすめタグ」欄に推奨するタグが列挙して提示されるため、ユーザは、例えば所望のタグをクリックするだけで容易に新着記事１０１にタグ２０４を付与することができ、新着記事１０１を容易に分類・整理することができる。なお、本実施の形態ではタグ候補を提示し、付与するタグ２０４をユーザが選択する構成としているが、タグ候補として選定されたものをタグ２０４として自動的に付与する構成とすることも当然可能である。

以上に説明したように、本実施の形態のタグ付与方法によれば、新着記事１０１に対してユーザ毎の嗜好に合致したタグ候補を精度良く選定して自動的に付与もしくは推奨することが可能となり、新着記事１０１群の中からユーザが自分の興味のある新着記事１０１を容易に参照し整理することが可能となる。また、継続した使用によってタグ２０４が付与され分類された既存記事２０２が多くなればなるほど、新着記事１０１に対するタグ候補の選定の精度が向上し、より適切なタグ候補を選定することが可能となる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。

本発明は、テキスト文書にタグを自動で付与して分類するタグ付与方法およびタグ付与プログラムに利用可能である。

１００…情報収集管理サーバ、１０１…新着記事、１１０…新着記事収集部、１２０…タグ付与部、１２１…特徴語データ算出部、１２２…タグ毎特徴語データ算出部、１２３…類似度算出部、２００…データベース、２０１…既存記事群、２０２…既存記事、２０３…タグ情報、２０４…タグ、２１０…ユーザ情報、２２０…購読情報、２３０…フィード一覧、２４０…リアクション情報、２５０…記事データ、３１０…Ｗｅｂサーバ、３２０…文書サーバ、４００…クライアント端末。

Claims

コンピュータシステムによって、テキストデータからなる記事に対して前記記事を特徴付ける単語であるタグを付与して分類するタグ付与方法であって、
前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持し、
前記タグを新たに付与する対象である新着記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第１ステップと、
前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第２ステップと、
所定の条件に基づいて、前記第１ステップで算出した前記新着記事の特徴語データと、前記第２ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第３ステップと、
前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第４ステップとを実行することを特徴とするタグ付与方法。
請求項１に記載のタグ付与方法において、
前記第４ステップでは、選定された前記タグ候補をユーザに提示し、
さらに、提示した前記タグ候補の中から前記ユーザによって選択された前記タグを前記新着記事についての前記タグとして付与する第５ステップを実行することを特徴とするタグ付与方法。
請求項１または２に記載のタグ付与方法において、
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したＴＦ値と、全ての前記既存記事を対象として算出したＩＤＦ値とから算出したＴＦ−ＩＤＦ値であることを特徴とするタグ付与方法。
請求項１〜３のいずれか１項に記載のタグ付与方法において、
前記第３ステップでは、前記第１ステップで算出した前記新着記事の特徴語データと、前記第２ステップで算出した前記タグの種別毎の特徴語データとをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出することを特徴とするタグ付与方法。
請求項２〜４のいずれか１項に記載のタグ付与方法において、
前記第４ステップでは、前記新着記事に対して、前記タグ候補と、前記第１ステップで前記新着記事から抽出された前記特徴語とを合わせてクライアント端末のユーザインタフェース上に表示して選択可能とし、その際に前記タグ候補を優先的に表示して提示することを特徴とするタグ付与方法。
コンピュータシステムを、テキストデータからなる記事に対して前記記事を特徴付ける単語であるタグを付与して分類するよう機能させるタグ付与プログラムであって、
前記コンピュータシステムは、複数の既存記事からなる既存記事群と、前記各既存記事に各ユーザが付与した前記タグの情報とを保持しており、
前記タグ付与プログラムは、前記タグを新たに付与する対象である新着記事から所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、所定の算出条件に基づいて前記新着記事における前記特徴語の重要度を示す重み付け値を算出して前記新着記事の特徴語データとする第６ステップと、
前記既存記事群内の前記各既存記事に前記ユーザが付与している前記タグの種別毎に、前記タグが付与されている前記各既存記事から前記所定の抽出条件に基づいて１つ以上の単語を特徴語として抽出し、抽出した前記各特徴語に対して、前記所定の算出条件に基づいて前記既存記事における前記重み付け値を算出し、前記タグが付与されている前記既存記事全体におけるその平均値を算出して前記タグの種別毎の特徴語データとする第７ステップと、
所定の条件に基づいて、前記第６ステップで算出した前記新着記事の特徴語データと、前記第７ステップで算出した前記タグの種別毎の特徴語データとの類似度を算出する第８ステップと、
前記類似度が上位の所定の数に含まれる前記タグの種別を前記新着記事についてのタグ候補として選定する第９ステップとを実行することを特徴とするタグ付与プログラム。
請求項６に記載のタグ付与プログラムにおいて、
前記第９ステップでは、選定された前記タグ候補をユーザに提示し、
さらに、提示した前記タグ候補の中から前記ユーザによって選択された前記タグを前記新着記事についての前記タグとして付与する第１０ステップを実行することを特徴とするタグ付与プログラム。
請求項６または７に記載のタグ付与プログラムにおいて、
前記重み付け値は、前記特徴語について前記特徴語が含まれる前記記事を対象として算出したＴＦ値と、全ての前記既存記事を対象として算出したＩＤＦ値とから算出したＴＦ−ＩＤＦ値であることを特徴とするタグ付与プログラム。
請求項６〜８のいずれか１項に記載のタグ付与プログラムにおいて、
前記第８ステップでは、前記第６ステップで算出した前記新着記事の特徴語データと、前記第７ステップで算出した前記タグの種別毎の特徴語データとをそれぞれベクトル空間化し、両ベクトルのなす角に基づいて前記類似度を算出することを特徴とするタグ付与プログラム。
請求項７〜９のいずれか１項に記載のタグ付与プログラムにおいて、
前記第９ステップでは、前記新着記事に対して、前記タグ候補と、前記第６ステップで前記新着記事から抽出された前記特徴語とを合わせてクライアント端末のユーザインタフェース上に表示して選択可能とし、その際に前記タグ候補を優先的に表示して提示することを特徴とするタグ付与プログラム。