JP5639490B2 - タグ推薦装置 - Google Patents

タグ推薦装置 Download PDF

Info

Publication number
JP5639490B2
JP5639490B2 JP2011021881A JP2011021881A JP5639490B2 JP 5639490 B2 JP5639490 B2 JP 5639490B2 JP 2011021881 A JP2011021881 A JP 2011021881A JP 2011021881 A JP2011021881 A JP 2011021881A JP 5639490 B2 JP5639490 B2 JP 5639490B2
Authority
JP
Japan
Prior art keywords
tag
document
word
scale
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011021881A
Other languages
English (en)
Other versions
JP2012164018A (ja
Inventor
雄也 野田
雄也 野田
森 健治
健治 森
Original Assignee
ニフティ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ニフティ株式会社 filed Critical ニフティ株式会社
Priority to JP2011021881A priority Critical patent/JP5639490B2/ja
Publication of JP2012164018A publication Critical patent/JP2012164018A/ja
Application granted granted Critical
Publication of JP5639490B2 publication Critical patent/JP5639490B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、タグを提示するタグ推薦装置に関する。
近年、ブログ、マイクロブログ等のサービスが普及している。マイクロブログは、不特定の者に対して例えば100文字程度の文章を書いて発信したり、不特定の者が発信された文章を読んだりすることができるサービスである。これらのサービスには、個人が書いた文書を気軽に発信できるという特徴がある。そのため、ネットワーク上を流通する情報の量が急増している。
これらのサービスでは、投稿者(文書の発信者)が、投稿の際、投稿する文書に、特定の記号(例えば、#記号)と文字列とによるタグを付加すると文書のグループ化ができる機能がある。例えば、「#abcde」で検索すると、「#abcde」が付加された文書群が抽出される。この機能には、読者が所望の文書を探しやすいようにとの配慮や、同一タグを使用する著者同士の緩いコミュニケーションを形成するという側面がある。
図1は、タグ付き文書の例を示す図である。図1の例では、「今日は天気がいいです。」との文書に対し、「#weather」というタグが付加されている。投稿者は、このタグを含む文書を投稿する。マイクロブログ等のサービスの利用者は、「#weather」とのタグにより、この文書に関連する文書を抽出することができる。
特開2010−282613号公報
ブログ、マイクロブログ等のサービスにおいて、文書に付加するタグは、投稿者が自由に記述できる。そのため、投稿者が既存の適切なタグを知らなければ、新たなタグを作成してしまう可能性があり、内容が類似した異なるタグが複数発生することがある。また、タグの種類は非常に多く、投稿者がすべてを把握することは困難である。従って、本来はタグに依って関連を持つべき情報が分散してしまい、読者の情報を探す負担が増加するという問題がある。
本発明は、文書にタグを推薦する技術を提供することを課題とする。
上述の課題を解決するために、本発明の態様では、以下の構成を採用する。
本発明の一態様は、
特定の記号と文字列とによるタグを含む文書を収集する収集手段と、
前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関する
タグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、
を備えるタグ推薦装置である。
なお、本発明の他の態様として、以上のいずれかの構成を実現する方法、プログラム、当該プログラムを記録したコンピュータ読み取り可能記録媒体であってもよい。
本発明の態様によれば、文書にタグを推薦する技術を提供することができる。
図1は、タグ付き文書の例を示す図である。 図2は、情報処理システムの例を示す図である。 図3は、単語出現頻度テーブルの例を示す図である。 図4は、タグ出現頻度テーブルの例を示す図である。 図5は、タグ単語共起頻度テーブルの例を示す図である。 図6は、タグ利用履歴テーブルの例を示す図である。 図7は、タグ利用尺度テーブルの例を示す図である。 図8は、タグ単語共起尺度テーブルの例を示す図である。 図9は、情報処理装置のハードウェア構成例を示す図である。 図10は、情報処理システムの動作シーケンスの例(1)を示す図である。 図11は、情報処理システムの動作シーケンスの例(2)を示す図である。 図12は、収集部の動作フローの例を示す図である。 図13は、算出部によるタグ利用尺度の算出の動作フローの例を示す図である。 図14は、算出部によるタグ単語共起尺度の算出の動作フローの例を示す図である。 図15は、推薦部の動作フローの例(1)を示す図である。 図16は、推薦部の動作フローの例(2)を示す図である。
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、本発明は開示の実施形態の構成に限定されない。
〔実施形態〕
(構成例)
図2は、本実施形態の情報処理システムの例を示す図である。図2の情報処理システム10は、サーバ装置100、記憶装置200、ユーザ端末300を含む。サーバ装置100は、記憶装置200及びユーザ端末300と、それぞれ、ネットワーク等を介して、接続される。サーバ装置100には、複数のユーザ端末300が接続されうる。サーバ装置100は、記憶装置200を含んでもよい。ネットワーク等は、インターネット等の公衆ネットワーク、LAN(Local Area Network)、WAN(Wide Area Network)等の内部
ネットワークであってもよい。
サーバ装置100は、サービス部110、収集部120、算出部130、推薦部140を含む。サービス部110、収集部120、算出部130、推薦部140のうち、いずれかが、別のサーバ装置に含まれてもよい。例えば、サービス部110を含むサーバ装置と、収集部120を含むサーバ装置と、算出部130を含むサーバ装置と、推薦部140を
含むサーバ装置とが、ネットワーク等を介して接続されて、サーバ装置100として、動作してもよい。複数のサーバ装置によって、サービス部110、収集部120、算出部130、推薦部140が実現されることによって、各処理部による負荷が分散される。
サービス部110は、ユーザ端末300等に対し、マイクロブログ等のサービスを提供する。サービス部110は、マイクロブログ等のサービスにおいて、ユーザ端末300等から投稿された文書、当該文書が投稿された日時等を保存する。サービス部110は、収集部120からの要求に応じて、当該文書等を提供する。提供する文書には、当該文書が投稿された日時の情報が含まれる。
収集部120は、サービス部110に投稿された文書を要求し、サービス部110から文書(文書群)を受信する。収集部120は、サービス部110から提供された文書群から、タグ付きの文書を抽出する。タグ付き文書は、特定の記号(例えば、#記号)と文字列とによるタグを含む文書である。収集部120は、所定時間毎に、サービス部110に投稿された文書を要求する。
収集部120は、抽出された全文書に対して形態素解析を実行する。収集部120は、形態素解析の実行結果として、各文書に含まれる単語情報を取得する。収集部120は、単語情報から、各単語の出現回数(単語出現頻度)をカウントする。また、収集部120は、各文書に含まれるタグ情報を取得する。収集部120は、タグ情報から、各タグの出現回数(タグ出現頻度)をカウントする。さらに、収集部120は、同一文書内で任意のタグと任意の単語との組み合わせが出現する文書の数(タグ単語共起頻度)を、タグと単語の組み合わせごとにカウントする。収集部120は、これらの、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを、それぞれ、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213として、頻度DB210に格納する。
収集部120は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを、タグ利用履歴テーブル214として、頻度DB210に格納する。
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、タグ利用履歴データを取得し、タグ毎にタグ利用尺度を算出する。タグ利用尺度は、タグの利用頻度の変化を表す尺度である。タグ利用尺度の算出については後述する。算出部130は、タグと算出したタグ利用尺度とを対応づけたタグ利用尺度データを、タグ利用尺度DB220に、タグ利用尺度テーブル221として、格納する。算出部130は、タグ利用履歴データを、収集部120から取得してもよい。
また、算出部130は、頻度DB210に格納される単語出現頻度テーブル211から、単語出現頻度データを取得する。算出部130は、頻度DB210に格納されるタグ出現頻度テーブル212から、タグ出現頻度データを取得する。算出部130は、頻度DB210に格納されるタグ単語共起頻度テーブル213から、タグ単語共起頻度データを取得する。算出部130は、取得したこれらのデータに基づいて、タグ−単語の組み合わせ毎にタグ単語共起尺度を算出する。タグ単語共起尺度は、タグ−単語の共起の程度を表す尺度である。タグ単語共起尺度の算出については、後述する。算出部130は、タグ−単語の組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する。
推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信する。推薦部140は、受信した文書に対して形態素解析を実行し、当該文書に
含まれる単語情報を取得する。推薦部140は、タグ単語共起尺度DB230に格納されるタグ単語共起尺度テーブル231から、取得した単語情報に基づいて、各単語を含むタグ単語共起尺度データを抽出する。推薦部140は、タグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データを抽出する。推薦部140は、タグ毎に、タグ単語共起尺度及びタグ利用尺度から、タグの推薦スコアを算出する。タグの推薦スコアは、タグの、投稿予定の文書に付加することを推薦する度合いを示すものである。推薦部140は、算出したタグの推薦スコア上位N件(Nは所定の値)のタグとその推薦スコアとを、ユーザ端末300に送信する。
記憶装置200は、頻度DB210(Data Base: データベース)、タグ利用尺度DB
220、タグ用語共起尺度DB230を含む。頻度DB210、タグ利用尺度DB220、タグ単語共起尺度DB230は、それぞれ、別々の記憶装置に含まれてもよい。
頻度DB210は、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213、タグ利用履歴テーブル214を含む。
図3は、単語出現頻度テーブルの例を示す図である。単語出現頻度テーブル211は、文書に出現した単語とその単語の出現回数とを対応付けた単語出現頻度データを格納する。テーブルにおける、1つの情報と1つの情報(例えば、単語等とこの単語の出現回数等)との組み合わせを1つのレコードともいう。
図4は、タグ出現頻度テーブルの例を示す図である。タグ出現頻度テーブル212は、文書に出現したタグとそのタグの出現回数とを対応付けたタグ出現頻度データを格納する。
図5は、タグ単語共起頻度テーブルの例を示す図である。タグ単語共起頻度テーブル213は、同一文書に出現したタグと単語の組み合わせと、この組み合わせの出現回数とを対応付けたタグ単語共起頻度データを格納する。
図6は、タグ利用履歴テーブルの例を示す図である。タグ利用履歴テーブル214は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを格納する。
タグ利用尺度DB220は、タグ利用尺度テーブル221を含む。
図7は、タグ利用尺度テーブルの例を示す図である。タグ利用尺度テーブル221は、タグと算出部130が算出したタグ利用尺度とを対応づけたタグ利用尺度データを格納する。
タグ単語共起尺度DB230は、タグ単語共起尺度テーブル231を含む。
図8は、タグ単語共起尺度テーブルの例を示す図である。タグ単語共起尺度テーブル231は、タグと単語との組み合わせと算出部130が算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを格納する。
ユーザ端末300は、利用者によって入力されたマイクロブログ等に投稿する予定の文書を、推薦部140に送信する。ユーザ端末300は、推薦部140に送信した文書に対して推薦されるタグとその推薦スコアとを、推薦部140から受信する。ユーザ端末300は、利用者に、推薦部140から受信したタグとその推薦スコアとを提示し、投稿する
文書に付加するタグを選択させる。ユーザ端末300は、利用者から文書に付加するタグが選択されると、当該タグが付加された文書を、サービス部110に送信(投稿)する。
サーバ装置100は、パーソナルコンピュータ(PC、Personal Computer)のような
汎用のコンピュータまたはサーバマシンのような専用のコンピュータを使用して実現可能である。
ユーザ端末300は、PC、PDA(Personal Digital Assistant)のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。また、ユーザ端末300は、スマートフォン、携帯電話、カーナビゲーション装置のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。
図9は、情報処理装置のハードウェア構成例を示す図である。サーバ装置100及びユーザ端末300は、例えば、図9に示すような情報処理装置1000によって、実現される。
コンピュータ、即ち、情報処理装置1000は、CPU(Central Processing Unit)
1002、メモリ1004、記憶部1006、入力部1008、出力部1010、通信部1012を含む。
情報処理装置1000は、CPU1002が記録部1006に記憶されたプログラムをメモリ1004の作業領域にロードして実行し、プログラムの実行を通じて周辺機器が制御されることによって、所定の目的に合致した機能を実現することができる。
CPU1002は、記憶部1006に格納されるプログラムに従って処理を行う。
メモリ1004は、CPU1002がプログラムやデータをキャッシュしたり作業領域を展開したりする。メモリ1004は、例えば、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。
記憶部1006は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。記憶部1006は、例えば、EPROM(Erasable Programmable ROM)、ソリ
ッドステートドライブ装置、ハードディスクドライブ(HDD、Hard Disk Drive)装置
である。記憶部1006としては、例えば、CD(Compact Disc)ドライブ装置、DVD(Digital Versatile Disk)ドライブ装置、+R/+RWドライブ装置、HD DVD(High-Definition Digital Versatile Disk)ドライブ装置、または、BD(Blu-ray Disk)ドライブ装置がある。また、記録媒体としては、例えば、不揮発性半導体メモリ(フラッシュメモリ)を含むシリコンディスク、ハードディスク、CD、DVD、+R/+RW、HD DVD、または、BDがある。CDとしては、CD−R(Recordable)、CD−RW(Rewritable)、CD−ROMがある。DVDとしては、DVD−R、DVD−RAM(Random Access Memory)がある。BDとしては、BD−R、BD−RE(Rewritable)、BD−ROMがある。また、記憶部1006は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CDやDVDのようなディスク記録媒体である。
メモリ1004及び記憶部1006は、コンピュータ読み取り可能な記録媒体である。
入力部1008は、ユーザ等からの操作指示等を受け付ける。入力部1008は、キーボード、ポインティングデバイス、ワイヤレスリモコン、マイクロフォン、カメラ等の入
力デバイスである。入力部1008から入力された情報は、CPU1002に通知される。
出力部1010は、CPU1002で処理されるデータやメモリ1004に記憶されるデータを出力する。出力部1010は、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、EL(Electroluminescence)パネル、プリンタ、スピーカ等の出力デバイスである。
通信部1012は、外部装置とデータの送受信を行う。通信部1012は、例えば、信号線を介して、外部装置と接続される。外部装置は、例えば、他の情報処理装置、記憶装置である。通信部1012は、例えば、LAN(Local Area Network)インタフェースボードや、無線通信のための無線通信回路である。
情報処理装置1000は、記憶部1006に、オペレーティングシステム、各種プログラム、各種テーブル等を記憶している。
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信部1012を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。
サーバ装置100を実現できる情報処理装置1000は、CPU1002が記憶部1006に記憶されているプログラムをメモリ1004にロードして実行することによって、サービス部110、収集部120、算出部130、推薦部140としての機能を実現する。
記憶装置200としては、例えば、ソリッドステートドライブ装置、ハードディスクドライブ装置、CDドライブ装置、DVDドライブ装置、+R/+RWドライブ装置、HD
DVDドライブ装置、または、BDドライブ装置がある。また、記憶装置200は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。
(動作例)
〈全体〉
本実施形態の情報処理システム10の動作例について説明する。
図10及び図11は、情報処理システムの動作シーケンスの例を示す図である。図10の「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」は、それぞれ、図11の「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」と接続する。
収集部120は、所定の周期で、サービス部110に投稿された文書を要求し、サービス部110から、サービス部110に蓄積される文書(文書群)を収集する(SQ1002)。収集部120は、他のサーバ装置から、蓄積される文書を収集してもよい。
収集部120は、サービス部110から提供された文書群から、タグ付きの文書を抽出する。収集部120は、各文書に含まれる単語及びタグを抽出する。収集部120は、抽出した単語、タグ等から、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データ、タグ利用履歴データを生成する(SQ1004)。
収集部120は、生成した、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データ、タグ利用履歴データを、頻度DB210に、それぞれ、単語出現頻度テーブ
ル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213、タグ利用履歴テーブル214として格納する(SQ1006)。
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、タグ利用履歴データを取得する(SQ1008)。算出部130は、収集部120から、タグ利用履歴データを取得してもよい。算出部130は、タグ利用履歴データから、タグ毎にタグ利用尺度を算出する(SQ1010)。算出部130は、タグと算出したタグ利用尺度とを対応づけたタグ利用尺度データを、タグ利用尺度DB220に、タグ利用尺度テーブル221として、格納する(SQ1012)。
算出部130は、頻度DB210から、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを取得する(SQ1014)。算出部130は、取得したこれらのデータから、タグと単語との組み合わせ毎にタグ単語共起尺度を算出する(SQ1016)。算出部130は、タグ−単語の組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する(SQ1018)。
ここまでの動作により、ユーザ端末300に対してタグを推薦するためのデータが生成される。
ユーザ端末300は、利用者によって入力されたマイクロブログ等に投稿する予定の文書を、推薦部140に送信する(SQ1020)。推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信すると、受信した文書に対して形態素解析を実行し、当該文書に含まれる単語情報を取得する。推薦部140は、タグ単語共起尺度DB230に格納されるタグ単語共起尺度テーブル231から、取得した単語情報に基づいて、各単語を含むタグ単語共起尺度データを抽出する(SQ1022)。推薦部140は、抽出したタグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データを抽出する(SQ1024)。推薦部140は、タグ毎に、タグ単語共起尺度及びタグ利用尺度から、タグの推薦スコアを算出する(SQ1026)。推薦部140は、算出したタグの推薦スコア上位N件(Nは所定の数)のタグとその推薦スコアとを、ユーザ端末300に送信する(SQ1028)。
ユーザ端末300は、推薦部140に送信した文書に対して推薦されるタグとその推薦スコアとを、推薦部140から受信する。ユーザ端末300は、利用者に、推薦部140から受信したタグとその推薦スコアとを提示し、投稿する文書に付加するタグを選択させる(SQ1030)。ユーザ端末300は、利用者から文書に付加するタグが選択されると、当該タグが付加された文書を、サービス部110に送信(投稿)する(SQ1032)。これにより、利用者は、投稿する文書に適切なタグを付加することができる。投稿された文書は、サービス部110で蓄積され、収集部120によって収集される。
〈収集部〉
図12は、収集部の動作フローの例を示す図である。図12の動作フローは、例えば、所定時間毎に動作する。
収集部120は、サービス部110に投稿された文書を要求し、サービス部110から文書(文書群)を受信する(S101)。収集部120は、他のサーバ装置に対し、投稿された文書を要求し、文書(文書群)を収集してもよい。収集される文書は、例えば、ブログサービス、マイクロブログサービスで投稿された文書である。収集される文書には、当該文書が投稿された日時の情報を含む。
収集部120は、収集された文書群から、タグ付きの文書を抽出する(S102)。タグ付き文書は、特定の記号(例えば、#記号)と文字列とによるタグを含む文書である。収集部120は、サービス部110からタグ付きの文書のみを収集してもよい。
収集部120は、抽出された全文書に対して形態素解析を実行する。収集部120は、形態素解析の実行結果として、各文書に含まれる単語情報、各文書に含まれるタグ情報を取得する。収集部120は、単語情報から、各単語の出現回数(単語出現頻度)をカウントする。出現回数は、文書単位の出現回数としてもよい。文書単位の出現回数とは、1文書に同一単語が複数含まれている場合でも、その単語の出現回数を1回とカウントすることを意味する。収集部120は、タグ情報から、各タグの出現回数(タグ出現頻度)をカウントする。さらに、収集部120は、同一文書内で任意のタグと任意の単語との組み合わせが出現する文書の数(タグ単語共起頻度)を、タグと単語の組み合わせごとにカウントする。収集部120は、これらの、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを、それぞれ、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213として、頻度DB210に格納する。収集部120は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを、タグ利用履歴テーブル214として、頻度DB210に格納する(S103)。
〈算出部〉
〔タグ利用尺度〕
図13は、算出部によるタグ利用尺度の算出の動作フローの例を示す図である。図13の動作フローは、例えば、所定時間毎に動作する。
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、直近(例えば、A日前から現在まで(Aは所定の値))のタグ利用履歴データを取得する(S201)。算出部130は、タグ毎に、所定時間間隔毎のタグの出現回数を算出する(S202)。算出部130は、タグ毎の、所定時間間隔毎のタグの出現回数から、タグ毎に、タグ利用尺度を算出する(S203)。
次に、タグ利用尺度の算出の具体例を示す。
《タグ利用尺度の算出の例(1)》
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度(回数)をYiとする。このとき、Yiは、Xiの1次式で近似できると仮定すると、当該1次式の傾きaは、最小二乗法により次のように求められる。
Figure 0005639490
ここで、nは、所定時間間隔の数である。即ち、A日前から現在までのデータを取得しているとすると、nは、A日を所定時間間隔で割った値である。
この傾きaを用いて、タグ利用尺度kを次のように求めることができる。
Figure 0005639490
即ち、傾きaが正である場合、タグ利用尺度kが1、傾きaが負である場合、タグ利用尺度kは傾きaに応じた値とする。よって、タグの利用が時間を追うごとに増加しているときは、タグ利用尺度kは最大値の1となる。タグの利用が時間を追うごとに減少しているときは、タグ利用尺度kはcos(tan-1(a))となる。
《タグ利用尺度の算出の例(2)》
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度をYiとする。また、現時刻を時刻pとする。このとき、タグ利用尺度kを次のように求めることができる。
Figure 0005639490
時刻Xiにおける出現頻度Yiを、現在日時と時刻Xiの差で割ったものの総和を取る。現在日時と時刻Xiとの差が小さいほど、値が大きくなる。また、利用頻度が多いほど値が大きくなることから、多く利用されているタグのほうが、タグ利用尺度kが大きくなる。
《タグ利用尺度の算出の例(3)》
ここでは、所定時間間隔毎のタグの出現回数を使用せずに、タグ利用尺度kを求める。タグの利用尺度は、次のように求められる。
Figure 0005639490
ここで、f(tag)は、タグ「tag」の、直近(例えば、A日前から現在まで)の出現回数である。また、値Nは、収集部120が収集した直近のタグ付きの文書数である。このタグ利用尺度kは、直近におけるタグ「tag」の出現割合に相当する。
〔タグ単語共起尺度〕
図14は、算出部によるタグ単語共起尺度の算出の動作フローの例を示す図である。図14の動作フローは、例えば、所定時間毎に動作する。タグ単語共起尺度は、タグと単語との共起の程度を表す尺度である。
算出部130は、頻度DB210に格納されるタグ単語共起頻度テーブル213から、タグ単語共起頻度データを1つずつ取得する(S301)。算出部130は、頻度DB210に格納されるタグ出現頻度テーブル212から、ステップS301で取得したタグについての、タグ出現頻度データを取得する。また、算出部130は、頻度DB210に格納される単語出現頻度テーブル211から、ステップS301で取得した単語についての、単語出現頻度データを取得する。算出部130は、取得したこれらのデータに基づいて、タグと単語との組み合わせの、タグ単語共起尺度を算出する。算出部130は、タグと単語との組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する(S303)。算出部130は、頻度DB210に格納されるタグ単語共起頻度データをすべて取得したか否かを確認する(S304)。算出部130は、まだ取得していないタグ単語共起頻度データがある場合(S304;NO)、処理をステップS301に戻す。また、算出部130は、すべてのタグ単語共起頻度データを取得した場合(S304;YES)、処理を終了する。
ここで、タグ単語共起尺度の算出の具体例について説明する。タグ単語共起尺度は、0以上1以下となるように正規化されてもよい。
《タグ単語共起尺度の算出の例(1)》
共起頻度f(term,tag)をタグ単語共起尺度mとすることができる。ここで、共起頻度f(term,tag)は、同一文書内に単語「term」とタグ「tag」とが出現する文書の数を示す。f(term,tag)は、共起の観測値である。
《タグ単語共起尺度の算出の例(2)》
観測値と期待値との比を、タグ単語共起尺度mとすることができる。即ち、次のように表すことができる。観測値と期待値との比は、値が大きいほど共起しやすいことを意味する。
Figure 0005639490
ここで、f(term)は、単語「term」が出現する回数(文書の数)を示す。f(tag)は、タ
グ「tag」が出現する回数(文書の数)を示す。また、値Nは、収集部120が収集した
直近のタグ付きの文書数である。
《タグ単語共起尺度の算出の例(3)》
t検定の独立性の検定を応用して、次のようにタグ単語共起尺度mを求めることができる。
Figure 0005639490
《タグ単語共起尺度の算出の例(4)》
単語とタグとの共起がランダムに発生する場合を期待値として、次のようにタグ単語共起尺度mを求めることができる。
Figure 0005639490
《タグ単語共起尺度の算出の例(5)》
対数尤度比(LLR: Log-Likelihood Ratio)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
Figure 0005639490
ここで、
Figure 0005639490
である。なお、対数の底は、原則としてeとする。
《タグ単語共起尺度の算出の例(6)》
PMI(Point-wise Mutual Information)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
Figure 0005639490
このタグ単語共起尺度mは、単語Aが出現する文書にタグTが付く確率が高く、タグTが付く文書に単語Aが出現する確率が高い場合に、極めて大きな値となる。
〈推薦部〉
図15及び図16は、推薦部の動作フローの例を示す図である。図15の「A」及び「B」は、それぞれ、図16の「A」及び「B」と接続する。図15及び図16の動作フローは、例えば、ユーザ端末300から文書を受信することによって開始される。
推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信する(S401)。推薦部140は、受信した文書に対して形態素解析を実行し、文書を単語毎に分割し、文書に含まれる単語情報を取得する(S402)。推薦部140は、形態素解析以外の方法により、文書に含まれる単語情報を取得してもよい。推薦部140は、受信した文書に含まれる単語の数が、閾値Wth以上であるか否かを判定する(S403)。
受信した文書に含まれる単語の数が閾値Wth以上である場合(S403;YES)、推薦部140は、タグ単語共起尺度DB230から、文書に含まれる各単語に関するタグ単語共起尺度データを抽出する(S404)。単語に関するタグ単語共起尺度データとは、当該単語が含まれるタグ単語共起尺度データ(レコード)である。1つの単語に対して、複数のタグ単語共起尺度データが抽出されることもある。推薦部140は、抽出したタグ単語共起尺度データをタグ毎にまとめる。1つのタグにつき複数のタグ単語共起尺度データが抽出されている場合、推薦部140は、同一のタグのタグ単語共起尺度データのタグ単語共起尺度を統合し、このタグの基本推薦尺度とする。ここで、統合とは、例えば、各タグ単語共起尺度を乗算することをいう。乗算の代わりに、各タグ単語共起尺度の和をとってもよい。統合は、乗算や和に限定されるものではない。また、1つのタグにつき1つのタグ単語共起尺度データが抽出されている場合、推薦部140は、このタグ単語共起尺度データのタグ単語共起尺度を、このタグの基本推薦尺度とする。このようにして、推薦部140は、タグ毎に基本推薦尺度を算出する(S405)。
推薦部140は、抽出したタグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データ
を抽出する。推薦部140は、各タグの基本推薦尺度に、当該タグのタグ利用尺度を統合し、推薦スコアとする(S406)。推薦スコアがより高いタグは、受信した文書に付加するのによりふさわしいタグであることを意味する。ここで、統合とは、例えば、基本推薦尺度とタグ利用尺度とを乗算することである。また、乗算の代わりに、基本推薦尺度とタグ利用尺度とを足しあわせてもよい。また、乗算の代わりに、基本推薦尺度に所定の係数をかけてタグ利用尺度と足しあわせてもよい。推薦部140は、ステップS406で得られた推薦スコアの降順にタグをソートする。推薦部140は、ソートしたタグの上位N件を抽出し、当該タグと、当該タグの推薦スコアとを、ユーザ端末300に送信し、処理を終了する(S407)。タグ利用尺度を使用せずに、基本推薦尺度をそのまま推薦スコアとしてもよい。
受信した文書に含まれる単語の数が閾値Wth未満である場合(S403;NO)、推薦部140は、ユーザ端末300に対し、適切なタグを推薦するのに十分な情報を得られないとして、エラーを送信し(S408)、処理を終了する。
(実施形態の作用効果)
サーバ装置100の収集部120は、サービス部110から、マイクロブログ等のサービスに対して投稿された文書、当該文書が投稿された日時等を収集する。収集部120は、収集した文書等から、単語情報、タグ情報を抽出する。収集部120は、単語情報に基づいて、各単語の出現回数、各タグの出現回数、タグ単語共起頻度を求める。また、収集部120は、タグ情報及び文書が投稿された日時から、タグ利用履歴を生成する。算出部130は、各単語の出現回数、各タグの出現回数、タグ単語共起頻度から、タグ単語共起尺度を求める。また、算出部130は、タグ利用履歴からタグ利用尺度を求める。推薦部140は、ユーザ端末300から投稿予定の文書を受信し、当該文書に含まれる単語を抽出する。推薦部140は、マイクロブログ等のサービスに対して投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、投稿予定の文書に付加するタグとして推薦するタグを抽出する。推薦部140は、投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、タグの推薦スコアを算出することにより、推薦するタグを抽出する。推薦部140は、投稿予定の文書に付加するタグとして、推薦するタグを、ユーザ端末300に送信する。サーバ装置100は、過去に投稿された文書に基づいて、投稿予定の文書に付加するタグとして適切と判断するタグを、抽出することができる。ユーザ端末300の利用者は、付加すべきタグが提示されるため、タグを網羅的に知らなくても、適切なタグを選択することができる。
また、サーバ装置100は、タグの利用尺度を使用することで、活発に利用されているタグを、推薦するタグとして抽出しやすくなる。また、過去に多く利用されたが、最近利用されなくなったタグが、推薦するタグとして、抽出されにくくなる。タグサーバ装置100に推奨されて利用されたタグは、マイクロブログサービス等において投稿される文書に付加されることで、サーバ装置100は、当該タグが付加された文書を、利用尺度、共起尺度にフィードバックすることで、より品質の高いタグの推薦を実現できる。複数の類似タグが利用されている場合でも、このフィードバック構造により、タグが一本化されやすくなる。
サーバ装置100によれば、ユーザ端末300に投稿予定の文書に付加するタグとして推薦するタグを送信することで、利用者が投稿する文書に付加するのに適切なタグを容易に選択することができる。
(変形例)
上述の例では、タグと単語との間の共起頻度から、タグ単語共起尺度を求め、タグの推薦スコアを算出している。これに加えて、投稿される文書に付加される付加情報(文脈、
contents)とタグとの共起尺度(タグ付加情報共起尺度)を求めて、これを用いてタグの推薦スコアを算出してもよい。付加情報(文脈、context)として、例えば、天気(気温
、気圧、湿度、風速、降水量、天候等)、時間帯(朝、昼、夜、1時間毎など)、場所(緯度、経度、施設、道路、路線等)、ユーザ端末の種類等が、挙げられる。
ユーザ端末300は、マイクロブログ等のサービスにタグを含む文書を投稿する際、文書を付加情報と共に送信する。ユーザ端末300は、ユーザ端末の固有の機能等によって付加情報を取得する。また、ユーザ端末300は、付加情報をユーザに入力させることにより取得してもよい。サービス部110は、ユーザ端末300から文書と共に付加情報を受信すると、投稿された文書、文書が投稿された日時等と共に、付加情報を蓄積する。収集部120は、サービス部110から、投稿された文書、文書が投稿された日時等と共に、付加情報を収集する。収集部120は、単語頻度データ、タグ頻度データと同様に、付加情報頻度データを生成する。また、収集部120は、同一文書に関する付加情報(文脈、contents)とタグとの共起頻度を求める。算出部130は、タグ単語共起尺度を求めるのと同様にして、タグ付加情報共起尺度を求める。
ユーザ端末300は、投稿予定の文書と共に付加情報を推薦部140に送信する。推薦部140は、文書に含まれる各単語に関するタグ単語共起尺度データを抽出するのと同様に、付加情報に関するタグ付加情報尺度データを抽出する。推薦部140は、抽出したタグ単語共起尺度データ及びタグ付加情報尺度データをタグ毎にまとめる。推薦部140は、これらのタグ単語共起尺度データのタグ単語共起尺度及びタグ付加情報尺度データのタグ付加情報尺度を統合し、このタグの基本推薦尺度とする。ここで、統合とは、例えば、各タグ単語共起尺度及び各タグ付加情報尺度を乗算することをいう。乗算の代わりに、各タグ単語共起尺度及び各タグ付加情報尺度の和をとってもよい。和を取る際に、各タグ単語共起尺度、各タグ付加情報尺度に所定の重み付けをしてもよい。統合は、これらに限定されるものではない。
サーバ装置100によれば、付加情報を加味して、文書に付加するタグを推薦することができる。推薦スコアの算出の際に、単語情報に加えて、付加情報を利用することで、サーバ装置100は、より適切なタグを推薦することができる。
〔コンピュータ読み取り可能な記録媒体〕
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。
また、コンピュータ等に固定された記録媒体としてハードディスクドライブやROM等がある。
10 情報処理システム
100 サーバ装置
110 サービス部
120 収集部
130 算出部
140 推薦部
200 記憶装置
210 頻度DB
211 単語出現頻度テーブル
212 タグ出現頻度テーブル
213 タグ単語共起頻度テーブル
214 タグ利用履歴テーブル
220 タグ利用尺度DB
221 タグ利用尺度テーブル
230 タグ用語共起尺度DB
231 タグ単語共起尺度テーブル
300 ユーザ端末
1000 情報処理装置
1002 CPU
1004 メモリ
1006 記憶部
1008 入力部
1010 出力部
1012 通信部

Claims (2)

  1. 特定の記号と文字列とによるタグを含む文書を収集する収集手段と、
    前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
    前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
    文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関するタグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、を備え、
    前記収集手段は、特定の記号と文字列とによるタグを含む文書及び当該文書が投稿された日時を収集し、
    前記算出手段は、前記タグ及び前記タグを含む文書が投稿された日時に基づいて、前記タグ毎に、前記タグの利用度合いを示すタグ利用尺度を算出し、
    前記推薦手段は、前記タグ単語共起尺度、前記タグ利用尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
    タグ推薦装置。
  2. 前記収集手段は、特定の記号と文字列とによるタグを含む文書及び当該文書に関する付加情報を収集し、
    前記抽出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせを、前記収集された各文書及び付加情報から抽出し、
    前記算出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせ及び文書数に基づいて、同一文書に関する各タグと各付加情報との共起の度合いを示すタグ付加情報共起尺度を、単語と付加情報の組み合わせごとに算出し、
    前記推薦手段は、文書及び付加情報を受信し、受信した付加情報に関するタグ付加情報共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
    請求項に記載のタグ推薦装置。
JP2011021881A 2011-02-03 2011-02-03 タグ推薦装置 Expired - Fee Related JP5639490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011021881A JP5639490B2 (ja) 2011-02-03 2011-02-03 タグ推薦装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011021881A JP5639490B2 (ja) 2011-02-03 2011-02-03 タグ推薦装置

Publications (2)

Publication Number Publication Date
JP2012164018A JP2012164018A (ja) 2012-08-30
JP5639490B2 true JP5639490B2 (ja) 2014-12-10

Family

ID=46843369

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011021881A Expired - Fee Related JP5639490B2 (ja) 2011-02-03 2011-02-03 タグ推薦装置

Country Status (1)

Country Link
JP (1) JP5639490B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202129A (zh) * 2015-05-08 2016-12-07 富士通株式会社 为未发表的微博推荐话题词的方法和设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015016133A1 (ja) * 2013-07-30 2017-03-02 日本電信電話株式会社 情報管理装置及び情報管理方法
JP6642858B2 (ja) * 2017-12-15 2020-02-12 株式会社ローソン 分類装置、分類方法及びコンピュータプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102501A (ja) * 2005-10-04 2007-04-19 Nippon Telegr & Teleph Corp <Ntt> 単語間関連度算出方法及び装置
US7685198B2 (en) * 2006-01-25 2010-03-23 Yahoo! Inc. Systems and methods for collaborative tag suggestions
JP2010224622A (ja) * 2009-03-19 2010-10-07 Nomura Research Institute Ltd タグ付与方法およびタグ付与プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202129A (zh) * 2015-05-08 2016-12-07 富士通株式会社 为未发表的微博推荐话题词的方法和设备

Also Published As

Publication number Publication date
JP2012164018A (ja) 2012-08-30

Similar Documents

Publication Publication Date Title
CN110008300B (zh) Poi别名的确定方法、装置、计算机设备和存储介质
Bazemore et al. “Community vital signs”: incorporating geocoded social determinants into electronic records to promote patient and population health
US9652473B2 (en) Correlating social media data with location information
JP5957048B2 (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
US10356186B2 (en) Method, computer program and computer for estimating location based on social media
US20150149539A1 (en) Trending Data Demographics
JP2012216072A (ja) 情報処理装置、プログラム及び情報提示システム
JP2017146961A (ja) 非定型テキストの抽出性能の向上のためのシステム及び方法
CN102930048A (zh) 使用参考和视觉数据的语义自动发现的数据丰富
CN110674404A (zh) 链接信息生成方法、装置、系统、存储介质及电子设备
JP5639490B2 (ja) タグ推薦装置
JP2016045620A (ja) 専門家検索装置、専門家検索方法および専門家検索プログラム
US10339559B2 (en) Associating social comments with individual assets used in a campaign
CN113515703A (zh) 信息推荐方法、装置、电子设备及可读存储介质
US10956452B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20240078610A1 (en) Focusing unstructured data and generating focused data determinations from an unstructured data set
JP6710907B2 (ja) 嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置
JP6697500B2 (ja) 予測装置、予測方法、及び予測プログラム
JP2014048916A (ja) 周辺情報検索装置、周辺情報検索方法、及び周辺情報検索プログラム
JP2016021131A (ja) 情報処理装置及び情報処理プログラム
JP7191620B2 (ja) 災害情報管理装置、災害情報管理システム及び災害情報管理方法
US20210295211A1 (en) Information processing apparatus and non-transitory computer readable medium
JP2019053697A (ja) 意見情報処理プログラム、意見情報処理方法および情報処理装置
JP5841108B2 (ja) 情報処理装置、記事情報生成方法およびプログラム
JP2012208893A (ja) 予測入力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141024

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees