JP5639490B2 - タグ推薦装置 - Google Patents
タグ推薦装置 Download PDFInfo
- Publication number
- JP5639490B2 JP5639490B2 JP2011021881A JP2011021881A JP5639490B2 JP 5639490 B2 JP5639490 B2 JP 5639490B2 JP 2011021881 A JP2011021881 A JP 2011021881A JP 2011021881 A JP2011021881 A JP 2011021881A JP 5639490 B2 JP5639490 B2 JP 5639490B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- document
- word
- scale
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004364 calculation method Methods 0.000 claims description 54
- 239000000284 extract Substances 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 30
- 230000010365 information processing Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000000034 method Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
特定の記号と文字列とによるタグを含む文書を収集する収集手段と、
前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関する
タグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、
を備えるタグ推薦装置である。
(構成例)
図2は、本実施形態の情報処理システムの例を示す図である。図2の情報処理システム10は、サーバ装置100、記憶装置200、ユーザ端末300を含む。サーバ装置100は、記憶装置200及びユーザ端末300と、それぞれ、ネットワーク等を介して、接続される。サーバ装置100には、複数のユーザ端末300が接続されうる。サーバ装置100は、記憶装置200を含んでもよい。ネットワーク等は、インターネット等の公衆ネットワーク、LAN(Local Area Network)、WAN(Wide Area Network)等の内部
ネットワークであってもよい。
含むサーバ装置とが、ネットワーク等を介して接続されて、サーバ装置100として、動作してもよい。複数のサーバ装置によって、サービス部110、収集部120、算出部130、推薦部140が実現されることによって、各処理部による負荷が分散される。
含まれる単語情報を取得する。推薦部140は、タグ単語共起尺度DB230に格納されるタグ単語共起尺度テーブル231から、取得した単語情報に基づいて、各単語を含むタグ単語共起尺度データを抽出する。推薦部140は、タグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データを抽出する。推薦部140は、タグ毎に、タグ単語共起尺度及びタグ利用尺度から、タグの推薦スコアを算出する。タグの推薦スコアは、タグの、投稿予定の文書に付加することを推薦する度合いを示すものである。推薦部140は、算出したタグの推薦スコア上位N件(Nは所定の値)のタグとその推薦スコアとを、ユーザ端末300に送信する。
220、タグ用語共起尺度DB230を含む。頻度DB210、タグ利用尺度DB220、タグ単語共起尺度DB230は、それぞれ、別々の記憶装置に含まれてもよい。
文書に付加するタグを選択させる。ユーザ端末300は、利用者から文書に付加するタグが選択されると、当該タグが付加された文書を、サービス部110に送信(投稿)する。
汎用のコンピュータまたはサーバマシンのような専用のコンピュータを使用して実現可能である。
1002、メモリ1004、記憶部1006、入力部1008、出力部1010、通信部1012を含む。
ッドステートドライブ装置、ハードディスクドライブ(HDD、Hard Disk Drive)装置
である。記憶部1006としては、例えば、CD(Compact Disc)ドライブ装置、DVD(Digital Versatile Disk)ドライブ装置、+R/+RWドライブ装置、HD DVD(High-Definition Digital Versatile Disk)ドライブ装置、または、BD(Blu-ray Disk)ドライブ装置がある。また、記録媒体としては、例えば、不揮発性半導体メモリ(フラッシュメモリ)を含むシリコンディスク、ハードディスク、CD、DVD、+R/+RW、HD DVD、または、BDがある。CDとしては、CD−R(Recordable)、CD−RW(Rewritable)、CD−ROMがある。DVDとしては、DVD−R、DVD−RAM(Random Access Memory)がある。BDとしては、BD−R、BD−RE(Rewritable)、BD−ROMがある。また、記憶部1006は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CDやDVDのようなディスク記録媒体である。
力デバイスである。入力部1008から入力された情報は、CPU1002に通知される。
DVDドライブ装置、または、BDドライブ装置がある。また、記憶装置200は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。
〈全体〉
本実施形態の情報処理システム10の動作例について説明する。
ル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213、タグ利用履歴テーブル214として格納する(SQ1006)。
図12は、収集部の動作フローの例を示す図である。図12の動作フローは、例えば、所定時間毎に動作する。
〔タグ利用尺度〕
図13は、算出部によるタグ利用尺度の算出の動作フローの例を示す図である。図13の動作フローは、例えば、所定時間毎に動作する。
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度(回数)をYiとする。このとき、Yiは、Xiの1次式で近似できると仮定すると、当該1次式の傾きaは、最小二乗法により次のように求められる。
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度をYiとする。また、現時刻を時刻pとする。このとき、タグ利用尺度kを次のように求めることができる。
ここでは、所定時間間隔毎のタグの出現回数を使用せずに、タグ利用尺度kを求める。タグの利用尺度は、次のように求められる。
図14は、算出部によるタグ単語共起尺度の算出の動作フローの例を示す図である。図14の動作フローは、例えば、所定時間毎に動作する。タグ単語共起尺度は、タグと単語との共起の程度を表す尺度である。
共起頻度f(term,tag)をタグ単語共起尺度mとすることができる。ここで、共起頻度f(term,tag)は、同一文書内に単語「term」とタグ「tag」とが出現する文書の数を示す。f(term,tag)は、共起の観測値である。
観測値と期待値との比を、タグ単語共起尺度mとすることができる。即ち、次のように表すことができる。観測値と期待値との比は、値が大きいほど共起しやすいことを意味する。
グ「tag」が出現する回数(文書の数)を示す。また、値Nは、収集部120が収集した
直近のタグ付きの文書数である。
t検定の独立性の検定を応用して、次のようにタグ単語共起尺度mを求めることができる。
単語とタグとの共起がランダムに発生する場合を期待値として、次のようにタグ単語共起尺度mを求めることができる。
対数尤度比(LLR: Log-Likelihood Ratio)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
PMI(Point-wise Mutual Information)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
図15及び図16は、推薦部の動作フローの例を示す図である。図15の「A」及び「B」は、それぞれ、図16の「A」及び「B」と接続する。図15及び図16の動作フローは、例えば、ユーザ端末300から文書を受信することによって開始される。
を抽出する。推薦部140は、各タグの基本推薦尺度に、当該タグのタグ利用尺度を統合し、推薦スコアとする(S406)。推薦スコアがより高いタグは、受信した文書に付加するのによりふさわしいタグであることを意味する。ここで、統合とは、例えば、基本推薦尺度とタグ利用尺度とを乗算することである。また、乗算の代わりに、基本推薦尺度とタグ利用尺度とを足しあわせてもよい。また、乗算の代わりに、基本推薦尺度に所定の係数をかけてタグ利用尺度と足しあわせてもよい。推薦部140は、ステップS406で得られた推薦スコアの降順にタグをソートする。推薦部140は、ソートしたタグの上位N件を抽出し、当該タグと、当該タグの推薦スコアとを、ユーザ端末300に送信し、処理を終了する(S407)。タグ利用尺度を使用せずに、基本推薦尺度をそのまま推薦スコアとしてもよい。
サーバ装置100の収集部120は、サービス部110から、マイクロブログ等のサービスに対して投稿された文書、当該文書が投稿された日時等を収集する。収集部120は、収集した文書等から、単語情報、タグ情報を抽出する。収集部120は、単語情報に基づいて、各単語の出現回数、各タグの出現回数、タグ単語共起頻度を求める。また、収集部120は、タグ情報及び文書が投稿された日時から、タグ利用履歴を生成する。算出部130は、各単語の出現回数、各タグの出現回数、タグ単語共起頻度から、タグ単語共起尺度を求める。また、算出部130は、タグ利用履歴からタグ利用尺度を求める。推薦部140は、ユーザ端末300から投稿予定の文書を受信し、当該文書に含まれる単語を抽出する。推薦部140は、マイクロブログ等のサービスに対して投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、投稿予定の文書に付加するタグとして推薦するタグを抽出する。推薦部140は、投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、タグの推薦スコアを算出することにより、推薦するタグを抽出する。推薦部140は、投稿予定の文書に付加するタグとして、推薦するタグを、ユーザ端末300に送信する。サーバ装置100は、過去に投稿された文書に基づいて、投稿予定の文書に付加するタグとして適切と判断するタグを、抽出することができる。ユーザ端末300の利用者は、付加すべきタグが提示されるため、タグを網羅的に知らなくても、適切なタグを選択することができる。
上述の例では、タグと単語との間の共起頻度から、タグ単語共起尺度を求め、タグの推薦スコアを算出している。これに加えて、投稿される文書に付加される付加情報(文脈、
contents)とタグとの共起尺度(タグ付加情報共起尺度)を求めて、これを用いてタグの推薦スコアを算出してもよい。付加情報(文脈、context)として、例えば、天気(気温
、気圧、湿度、風速、降水量、天候等)、時間帯(朝、昼、夜、1時間毎など)、場所(緯度、経度、施設、道路、路線等)、ユーザ端末の種類等が、挙げられる。
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
100 サーバ装置
110 サービス部
120 収集部
130 算出部
140 推薦部
200 記憶装置
210 頻度DB
211 単語出現頻度テーブル
212 タグ出現頻度テーブル
213 タグ単語共起頻度テーブル
214 タグ利用履歴テーブル
220 タグ利用尺度DB
221 タグ利用尺度テーブル
230 タグ用語共起尺度DB
231 タグ単語共起尺度テーブル
300 ユーザ端末
1000 情報処理装置
1002 CPU
1004 メモリ
1006 記憶部
1008 入力部
1010 出力部
1012 通信部
Claims (2)
- 特定の記号と文字列とによるタグを含む文書を収集する収集手段と、
前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関するタグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、を備え、
前記収集手段は、特定の記号と文字列とによるタグを含む文書及び当該文書が投稿された日時を収集し、
前記算出手段は、前記タグ及び前記タグを含む文書が投稿された日時に基づいて、前記タグ毎に、前記タグの利用度合いを示すタグ利用尺度を算出し、
前記推薦手段は、前記タグ単語共起尺度、前記タグ利用尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
タグ推薦装置。 - 前記収集手段は、特定の記号と文字列とによるタグを含む文書及び当該文書に関する付加情報を収集し、
前記抽出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせを、前記収集された各文書及び付加情報から抽出し、
前記算出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせ及び文書数に基づいて、同一文書に関する各タグと各付加情報との共起の度合いを示すタグ付加情報共起尺度を、単語と付加情報の組み合わせごとに算出し、
前記推薦手段は、文書及び付加情報を受信し、受信した付加情報に関するタグ付加情報共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
請求項1に記載のタグ推薦装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021881A JP5639490B2 (ja) | 2011-02-03 | 2011-02-03 | タグ推薦装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021881A JP5639490B2 (ja) | 2011-02-03 | 2011-02-03 | タグ推薦装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164018A JP2012164018A (ja) | 2012-08-30 |
JP5639490B2 true JP5639490B2 (ja) | 2014-12-10 |
Family
ID=46843369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011021881A Expired - Fee Related JP5639490B2 (ja) | 2011-02-03 | 2011-02-03 | タグ推薦装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5639490B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202129A (zh) * | 2015-05-08 | 2016-12-07 | 富士通株式会社 | 为未发表的微博推荐话题词的方法和设备 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015016133A1 (ja) * | 2013-07-30 | 2017-03-02 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
JP6642858B2 (ja) * | 2017-12-15 | 2020-02-12 | 株式会社ローソン | 分類装置、分類方法及びコンピュータプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102501A (ja) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語間関連度算出方法及び装置 |
US7685198B2 (en) * | 2006-01-25 | 2010-03-23 | Yahoo! Inc. | Systems and methods for collaborative tag suggestions |
JP2010224622A (ja) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | タグ付与方法およびタグ付与プログラム |
-
2011
- 2011-02-03 JP JP2011021881A patent/JP5639490B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202129A (zh) * | 2015-05-08 | 2016-12-07 | 富士通株式会社 | 为未发表的微博推荐话题词的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
JP2012164018A (ja) | 2012-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008300B (zh) | Poi别名的确定方法、装置、计算机设备和存储介质 | |
Bazemore et al. | “Community vital signs”: incorporating geocoded social determinants into electronic records to promote patient and population health | |
US9652473B2 (en) | Correlating social media data with location information | |
JP5957048B2 (ja) | 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム | |
US10356186B2 (en) | Method, computer program and computer for estimating location based on social media | |
US20150149539A1 (en) | Trending Data Demographics | |
JP2012216072A (ja) | 情報処理装置、プログラム及び情報提示システム | |
JP2017146961A (ja) | 非定型テキストの抽出性能の向上のためのシステム及び方法 | |
CN102930048A (zh) | 使用参考和视觉数据的语义自动发现的数据丰富 | |
CN110674404A (zh) | 链接信息生成方法、装置、系统、存储介质及电子设备 | |
JP5639490B2 (ja) | タグ推薦装置 | |
JP2016045620A (ja) | 専門家検索装置、専門家検索方法および専門家検索プログラム | |
US10339559B2 (en) | Associating social comments with individual assets used in a campaign | |
CN113515703A (zh) | 信息推荐方法、装置、电子设备及可读存储介质 | |
US10956452B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
US20240078610A1 (en) | Focusing unstructured data and generating focused data determinations from an unstructured data set | |
JP6710907B2 (ja) | 嗜好学習方法、嗜好学習プログラム、及び嗜好学習装置 | |
JP6697500B2 (ja) | 予測装置、予測方法、及び予測プログラム | |
JP2014048916A (ja) | 周辺情報検索装置、周辺情報検索方法、及び周辺情報検索プログラム | |
JP2016021131A (ja) | 情報処理装置及び情報処理プログラム | |
JP7191620B2 (ja) | 災害情報管理装置、災害情報管理システム及び災害情報管理方法 | |
US20210295211A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2019053697A (ja) | 意見情報処理プログラム、意見情報処理方法および情報処理装置 | |
JP5841108B2 (ja) | 情報処理装置、記事情報生成方法およびプログラム | |
JP2012208893A (ja) | 予測入力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141024 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |