JP2012164018A - Tag recommendation device - Google Patents
Tag recommendation device Download PDFInfo
- Publication number
- JP2012164018A JP2012164018A JP2011021881A JP2011021881A JP2012164018A JP 2012164018 A JP2012164018 A JP 2012164018A JP 2011021881 A JP2011021881 A JP 2011021881A JP 2011021881 A JP2011021881 A JP 2011021881A JP 2012164018 A JP2012164018 A JP 2012164018A
- Authority
- JP
- Japan
- Prior art keywords
- tag
- word
- document
- scale
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims description 20
- 238000000034 method Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 30
- 230000010365 information processing Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000010354 integration Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、タグを提示するタグ推薦装置に関する。 The present invention relates to a tag recommendation device that presents tags.
近年、ブログ、マイクロブログ等のサービスが普及している。マイクロブログは、不特定の者に対して例えば100文字程度の文章を書いて発信したり、不特定の者が発信された文章を読んだりすることができるサービスである。これらのサービスには、個人が書いた文書を気軽に発信できるという特徴がある。そのため、ネットワーク上を流通する情報の量が急増している。 In recent years, services such as blogs and microblogs have become widespread. Microblogging is a service that allows an unspecified person to write and send a sentence of, for example, about 100 characters, or read a sentence sent by an unspecified person. These services are characterized by the ability to easily send documents written by individuals. Therefore, the amount of information distributed on the network is increasing rapidly.
これらのサービスでは、投稿者(文書の発信者)が、投稿の際、投稿する文書に、特定の記号(例えば、#記号)と文字列とによるタグを付加すると文書のグループ化ができる機能がある。例えば、「#abcde」で検索すると、「#abcde」が付加された文書群が抽出される。この機能には、読者が所望の文書を探しやすいようにとの配慮や、同一タグを使用する著者同士の緩いコミュニケーションを形成するという側面がある。 These services have a function that allows a poster (sender of a document) to group documents by adding a tag with a specific symbol (for example, # symbol) and a character string to a document to be posted. is there. For example, when searching for “#abcde”, a document group to which “#abcde” is added is extracted. This function has considerations such as making it easier for readers to find a desired document, and forming a loose communication between authors who use the same tag.
図1は、タグ付き文書の例を示す図である。図1の例では、「今日は天気がいいです。」との文書に対し、「#weather」というタグが付加されている。投稿者は、このタグを含む文書を投稿する。マイクロブログ等のサービスの利用者は、「#weather」とのタグにより、この文書に関連する文書を抽出することができる。 FIG. 1 is a diagram illustrating an example of a tagged document. In the example of FIG. 1, a tag “#weather” is added to a document “The weather is fine today”. The contributor posts a document including this tag. A user of a service such as a microblog can extract a document related to this document by using a tag “#weather”.
ブログ、マイクロブログ等のサービスにおいて、文書に付加するタグは、投稿者が自由に記述できる。そのため、投稿者が既存の適切なタグを知らなければ、新たなタグを作成してしまう可能性があり、内容が類似した異なるタグが複数発生することがある。また、タグの種類は非常に多く、投稿者がすべてを把握することは困難である。従って、本来はタグに依って関連を持つべき情報が分散してしまい、読者の情報を探す負担が増加するという問題がある。 In a service such as a blog or a microblog, a tag added to a document can be freely described by a contributor. Therefore, if the contributor does not know an existing appropriate tag, a new tag may be created, and a plurality of different tags having similar contents may occur. Also, there are so many kinds of tags that it is difficult for the poster to grasp all of them. Therefore, there is a problem that information that should be related originally is dispersed depending on tags, and the burden of searching for information of the reader increases.
本発明は、文書にタグを推薦する技術を提供することを課題とする。 An object of the present invention is to provide a technique for recommending a tag to a document.
上述の課題を解決するために、本発明の態様では、以下の構成を採用する。 In order to solve the above-mentioned problems, the following configuration is adopted in the aspect of the present invention.
本発明の一態様は、
特定の記号と文字列とによるタグを含む文書を収集する収集手段と、
前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関する
タグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、
を備えるタグ推薦装置である。
One embodiment of the present invention provides:
A collection means for collecting documents including tags with specific symbols and character strings;
Extraction means for extracting the words included in each collected document, the tags, and combinations of tags and words included in the same document from the collected documents;
Tag word co-occurrence scale indicating the degree of co-occurrence between each tag and each word in the same document based on the word extracted by the extraction means, the tag, the combination of the tag and word contained in the same document, and the number of documents Calculating means for each word and tag combination;
A recommendation means for receiving a document, extracting words included in the received document, and calculating a recommendation score for each tag for the received document based on a tag word co-occurrence scale for all the extracted words;
Is a tag recommendation device.
なお、本発明の他の態様として、以上のいずれかの構成を実現する方法、プログラム、当該プログラムを記録したコンピュータ読み取り可能記録媒体であってもよい。 Note that, as another aspect of the present invention, a method, a program, and a computer-readable recording medium recording the program may be used to realize any one of the above configurations.
本発明の態様によれば、文書にタグを推薦する技術を提供することができる。 According to the aspect of the present invention, it is possible to provide a technique for recommending a tag to a document.
以下、図面を参照して実施形態について説明する。実施形態の構成は例示であり、本発明は開示の実施形態の構成に限定されない。 Hereinafter, embodiments will be described with reference to the drawings. The configuration of the embodiment is an exemplification, and the present invention is not limited to the configuration of the disclosed embodiment.
〔実施形態〕
(構成例)
図2は、本実施形態の情報処理システムの例を示す図である。図2の情報処理システム10は、サーバ装置100、記憶装置200、ユーザ端末300を含む。サーバ装置100は、記憶装置200及びユーザ端末300と、それぞれ、ネットワーク等を介して、接続される。サーバ装置100には、複数のユーザ端末300が接続されうる。サーバ装置100は、記憶装置200を含んでもよい。ネットワーク等は、インターネット等の公衆ネットワーク、LAN(Local Area Network)、WAN(Wide Area Network)等の内部
ネットワークであってもよい。
Embodiment
(Configuration example)
FIG. 2 is a diagram illustrating an example of an information processing system according to the present embodiment. The
サーバ装置100は、サービス部110、収集部120、算出部130、推薦部140を含む。サービス部110、収集部120、算出部130、推薦部140のうち、いずれかが、別のサーバ装置に含まれてもよい。例えば、サービス部110を含むサーバ装置と、収集部120を含むサーバ装置と、算出部130を含むサーバ装置と、推薦部140を
含むサーバ装置とが、ネットワーク等を介して接続されて、サーバ装置100として、動作してもよい。複数のサーバ装置によって、サービス部110、収集部120、算出部130、推薦部140が実現されることによって、各処理部による負荷が分散される。
The
サービス部110は、ユーザ端末300等に対し、マイクロブログ等のサービスを提供する。サービス部110は、マイクロブログ等のサービスにおいて、ユーザ端末300等から投稿された文書、当該文書が投稿された日時等を保存する。サービス部110は、収集部120からの要求に応じて、当該文書等を提供する。提供する文書には、当該文書が投稿された日時の情報が含まれる。
The
収集部120は、サービス部110に投稿された文書を要求し、サービス部110から文書(文書群)を受信する。収集部120は、サービス部110から提供された文書群から、タグ付きの文書を抽出する。タグ付き文書は、特定の記号(例えば、#記号)と文字列とによるタグを含む文書である。収集部120は、所定時間毎に、サービス部110に投稿された文書を要求する。
The collection unit 120 requests a document posted to the
収集部120は、抽出された全文書に対して形態素解析を実行する。収集部120は、形態素解析の実行結果として、各文書に含まれる単語情報を取得する。収集部120は、単語情報から、各単語の出現回数(単語出現頻度)をカウントする。また、収集部120は、各文書に含まれるタグ情報を取得する。収集部120は、タグ情報から、各タグの出現回数(タグ出現頻度)をカウントする。さらに、収集部120は、同一文書内で任意のタグと任意の単語との組み合わせが出現する文書の数(タグ単語共起頻度)を、タグと単語の組み合わせごとにカウントする。収集部120は、これらの、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを、それぞれ、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213として、頻度DB210に格納する。 The collection unit 120 performs morphological analysis on all the extracted documents. The collection unit 120 acquires word information included in each document as a morphological analysis execution result. The collection unit 120 counts the number of appearances of each word (word appearance frequency) from the word information. In addition, the collection unit 120 acquires tag information included in each document. The collection unit 120 counts the number of appearances of each tag (tag appearance frequency) from the tag information. Furthermore, the collection unit 120 counts the number of documents in which a combination of an arbitrary tag and an arbitrary word appears in the same document (tag word co-occurrence frequency) for each combination of the tag and the word. The collection unit 120 uses the word appearance frequency data, the tag appearance frequency data, and the tag word co-occurrence frequency data as a word appearance frequency table 211, a tag appearance frequency table 212, and a tag word co-occurrence frequency table 213, respectively. Store in DB210.
収集部120は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを、タグ利用履歴テーブル214として、頻度DB210に格納する。
The collection unit 120 stores tag usage history data, which is a combination of a tag and information on the date and time when a document including the tag is posted, in the
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、タグ利用履歴データを取得し、タグ毎にタグ利用尺度を算出する。タグ利用尺度は、タグの利用頻度の変化を表す尺度である。タグ利用尺度の算出については後述する。算出部130は、タグと算出したタグ利用尺度とを対応づけたタグ利用尺度データを、タグ利用尺度DB220に、タグ利用尺度テーブル221として、格納する。算出部130は、タグ利用履歴データを、収集部120から取得してもよい。
The
また、算出部130は、頻度DB210に格納される単語出現頻度テーブル211から、単語出現頻度データを取得する。算出部130は、頻度DB210に格納されるタグ出現頻度テーブル212から、タグ出現頻度データを取得する。算出部130は、頻度DB210に格納されるタグ単語共起頻度テーブル213から、タグ単語共起頻度データを取得する。算出部130は、取得したこれらのデータに基づいて、タグ−単語の組み合わせ毎にタグ単語共起尺度を算出する。タグ単語共起尺度は、タグ−単語の共起の程度を表す尺度である。タグ単語共起尺度の算出については、後述する。算出部130は、タグ−単語の組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する。
Further, the
推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信する。推薦部140は、受信した文書に対して形態素解析を実行し、当該文書に
含まれる単語情報を取得する。推薦部140は、タグ単語共起尺度DB230に格納されるタグ単語共起尺度テーブル231から、取得した単語情報に基づいて、各単語を含むタグ単語共起尺度データを抽出する。推薦部140は、タグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データを抽出する。推薦部140は、タグ毎に、タグ単語共起尺度及びタグ利用尺度から、タグの推薦スコアを算出する。タグの推薦スコアは、タグの、投稿予定の文書に付加することを推薦する度合いを示すものである。推薦部140は、算出したタグの推薦スコア上位N件(Nは所定の値)のタグとその推薦スコアとを、ユーザ端末300に送信する。
The
記憶装置200は、頻度DB210(Data Base: データベース)、タグ利用尺度DB
220、タグ用語共起尺度DB230を含む。頻度DB210、タグ利用尺度DB220、タグ単語共起尺度DB230は、それぞれ、別々の記憶装置に含まれてもよい。
The
220, tag term co-occurrence scale DB230 is included. The
頻度DB210は、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213、タグ利用履歴テーブル214を含む。
The
図3は、単語出現頻度テーブルの例を示す図である。単語出現頻度テーブル211は、文書に出現した単語とその単語の出現回数とを対応付けた単語出現頻度データを格納する。テーブルにおける、1つの情報と1つの情報(例えば、単語等とこの単語の出現回数等)との組み合わせを1つのレコードともいう。 FIG. 3 is a diagram illustrating an example of a word appearance frequency table. The word appearance frequency table 211 stores word appearance frequency data in which a word that appears in a document is associated with the number of appearances of the word. A combination of one piece of information and one piece of information (for example, a word and the number of appearances of this word) in the table is also referred to as one record.
図4は、タグ出現頻度テーブルの例を示す図である。タグ出現頻度テーブル212は、文書に出現したタグとそのタグの出現回数とを対応付けたタグ出現頻度データを格納する。 FIG. 4 is a diagram illustrating an example of a tag appearance frequency table. The tag appearance frequency table 212 stores tag appearance frequency data in which tags appearing in a document are associated with the number of appearances of the tags.
図5は、タグ単語共起頻度テーブルの例を示す図である。タグ単語共起頻度テーブル213は、同一文書に出現したタグと単語の組み合わせと、この組み合わせの出現回数とを対応付けたタグ単語共起頻度データを格納する。 FIG. 5 is a diagram illustrating an example of a tag word co-occurrence frequency table. The tag word co-occurrence frequency table 213 stores tag word co-occurrence frequency data in which combinations of tags and words that appear in the same document are associated with the number of appearances of this combination.
図6は、タグ利用履歴テーブルの例を示す図である。タグ利用履歴テーブル214は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを格納する。 FIG. 6 is a diagram illustrating an example of a tag usage history table. The tag usage history table 214 stores tag usage history data that is a combination of a tag and information on the date and time when a document including the tag is posted.
タグ利用尺度DB220は、タグ利用尺度テーブル221を含む。 The tag usage scale DB 220 includes a tag usage scale table 221.
図7は、タグ利用尺度テーブルの例を示す図である。タグ利用尺度テーブル221は、タグと算出部130が算出したタグ利用尺度とを対応づけたタグ利用尺度データを格納する。
FIG. 7 is a diagram illustrating an example of a tag usage scale table. The tag usage scale table 221 stores tag usage scale data in which tags are associated with tag usage scales calculated by the
タグ単語共起尺度DB230は、タグ単語共起尺度テーブル231を含む。
The tag word
図8は、タグ単語共起尺度テーブルの例を示す図である。タグ単語共起尺度テーブル231は、タグと単語との組み合わせと算出部130が算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを格納する。
FIG. 8 is a diagram illustrating an example of a tag word co-occurrence scale table. The tag word co-occurrence scale table 231 stores tag word co-occurrence scale data in which a combination of a tag and a word is associated with a tag word co-occurrence scale calculated by the
ユーザ端末300は、利用者によって入力されたマイクロブログ等に投稿する予定の文書を、推薦部140に送信する。ユーザ端末300は、推薦部140に送信した文書に対して推薦されるタグとその推薦スコアとを、推薦部140から受信する。ユーザ端末300は、利用者に、推薦部140から受信したタグとその推薦スコアとを提示し、投稿する
文書に付加するタグを選択させる。ユーザ端末300は、利用者から文書に付加するタグが選択されると、当該タグが付加された文書を、サービス部110に送信(投稿)する。
The
サーバ装置100は、パーソナルコンピュータ(PC、Personal Computer)のような
汎用のコンピュータまたはサーバマシンのような専用のコンピュータを使用して実現可能である。
The
ユーザ端末300は、PC、PDA(Personal Digital Assistant)のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。また、ユーザ端末300は、スマートフォン、携帯電話、カーナビゲーション装置のような専用または汎用のコンピュータ、あるいは、コンピュータを搭載した電子機器を使用して実現可能である。
The
図9は、情報処理装置のハードウェア構成例を示す図である。サーバ装置100及びユーザ端末300は、例えば、図9に示すような情報処理装置1000によって、実現される。
FIG. 9 is a diagram illustrating a hardware configuration example of the information processing apparatus. The
コンピュータ、即ち、情報処理装置1000は、CPU(Central Processing Unit)
1002、メモリ1004、記憶部1006、入力部1008、出力部1010、通信部1012を含む。
The computer, that is, the
1002, a memory 1004, a
情報処理装置1000は、CPU1002が記録部1006に記憶されたプログラムをメモリ1004の作業領域にロードして実行し、プログラムの実行を通じて周辺機器が制御されることによって、所定の目的に合致した機能を実現することができる。
In the
CPU1002は、記憶部1006に格納されるプログラムに従って処理を行う。
The
メモリ1004は、CPU1002がプログラムやデータをキャッシュしたり作業領域を展開したりする。メモリ1004は、例えば、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。
The memory 1004 is used by the
記憶部1006は、各種のプログラム及び各種のデータを読み書き自在に記録媒体に格納する。記憶部1006は、例えば、EPROM(Erasable Programmable ROM)、ソリ
ッドステートドライブ装置、ハードディスクドライブ(HDD、Hard Disk Drive)装置
である。記憶部1006としては、例えば、CD(Compact Disc)ドライブ装置、DVD(Digital Versatile Disk)ドライブ装置、+R/+RWドライブ装置、HD DVD(High-Definition Digital Versatile Disk)ドライブ装置、または、BD(Blu-ray Disk)ドライブ装置がある。また、記録媒体としては、例えば、不揮発性半導体メモリ(フラッシュメモリ)を含むシリコンディスク、ハードディスク、CD、DVD、+R/+RW、HD DVD、または、BDがある。CDとしては、CD−R(Recordable)、CD−RW(Rewritable)、CD−ROMがある。DVDとしては、DVD−R、DVD−RAM(Random Access Memory)がある。BDとしては、BD−R、BD−RE(Rewritable)、BD−ROMがある。また、記憶部1006は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CDやDVDのようなディスク記録媒体である。
The
メモリ1004及び記憶部1006は、コンピュータ読み取り可能な記録媒体である。
The memory 1004 and the
入力部1008は、ユーザ等からの操作指示等を受け付ける。入力部1008は、キーボード、ポインティングデバイス、ワイヤレスリモコン、マイクロフォン、カメラ等の入
力デバイスである。入力部1008から入力された情報は、CPU1002に通知される。
The
出力部1010は、CPU1002で処理されるデータやメモリ1004に記憶されるデータを出力する。出力部1010は、CRT(Cathode Ray Tube)ディスプレイ、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、EL(Electroluminescence)パネル、プリンタ、スピーカ等の出力デバイスである。
The
通信部1012は、外部装置とデータの送受信を行う。通信部1012は、例えば、信号線を介して、外部装置と接続される。外部装置は、例えば、他の情報処理装置、記憶装置である。通信部1012は、例えば、LAN(Local Area Network)インタフェースボードや、無線通信のための無線通信回路である。
The
情報処理装置1000は、記憶部1006に、オペレーティングシステム、各種プログラム、各種テーブル等を記憶している。
The
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信部1012を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。
The operating system is software that mediates software and hardware, manages memory space, manages files, manages processes and tasks, and the like. The operating system includes a communication interface. The communication interface is a program for exchanging data with other external devices connected via the
サーバ装置100を実現できる情報処理装置1000は、CPU1002が記憶部1006に記憶されているプログラムをメモリ1004にロードして実行することによって、サービス部110、収集部120、算出部130、推薦部140としての機能を実現する。
In the
記憶装置200としては、例えば、ソリッドステートドライブ装置、ハードディスクドライブ装置、CDドライブ装置、DVDドライブ装置、+R/+RWドライブ装置、HD
DVDドライブ装置、または、BDドライブ装置がある。また、記憶装置200は、リムーバブルメディア、即ち可搬記録媒体を含むことができる。
Examples of the
There is a DVD drive device or a BD drive device. The
(動作例)
〈全体〉
本実施形態の情報処理システム10の動作例について説明する。
(Operation example)
<The entire>
An operation example of the
図10及び図11は、情報処理システムの動作シーケンスの例を示す図である。図10の「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」は、それぞれ、図11の「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」と接続する。 10 and 11 are diagrams illustrating an example of an operation sequence of the information processing system. “A”, “B”, “C”, “D”, “E”, “F”, “G”, and “H” in FIG. 10 respectively represent “A”, “B”, “ Connect with “C”, “D”, “E”, “F”, “G”, “H”.
収集部120は、所定の周期で、サービス部110に投稿された文書を要求し、サービス部110から、サービス部110に蓄積される文書(文書群)を収集する(SQ1002)。収集部120は、他のサーバ装置から、蓄積される文書を収集してもよい。
The collection unit 120 requests a document posted to the
収集部120は、サービス部110から提供された文書群から、タグ付きの文書を抽出する。収集部120は、各文書に含まれる単語及びタグを抽出する。収集部120は、抽出した単語、タグ等から、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データ、タグ利用履歴データを生成する(SQ1004)。
The collection unit 120 extracts a tagged document from the document group provided from the
収集部120は、生成した、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データ、タグ利用履歴データを、頻度DB210に、それぞれ、単語出現頻度テーブ
ル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213、タグ利用履歴テーブル214として格納する(SQ1006)。
The collection unit 120 generates the generated word appearance frequency data, tag appearance frequency data, tag word co-occurrence frequency data, and tag usage history data in the
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、タグ利用履歴データを取得する(SQ1008)。算出部130は、収集部120から、タグ利用履歴データを取得してもよい。算出部130は、タグ利用履歴データから、タグ毎にタグ利用尺度を算出する(SQ1010)。算出部130は、タグと算出したタグ利用尺度とを対応づけたタグ利用尺度データを、タグ利用尺度DB220に、タグ利用尺度テーブル221として、格納する(SQ1012)。
The
算出部130は、頻度DB210から、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを取得する(SQ1014)。算出部130は、取得したこれらのデータから、タグと単語との組み合わせ毎にタグ単語共起尺度を算出する(SQ1016)。算出部130は、タグ−単語の組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する(SQ1018)。
The
ここまでの動作により、ユーザ端末300に対してタグを推薦するためのデータが生成される。
Through the operations so far, data for recommending a tag to the
ユーザ端末300は、利用者によって入力されたマイクロブログ等に投稿する予定の文書を、推薦部140に送信する(SQ1020)。推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信すると、受信した文書に対して形態素解析を実行し、当該文書に含まれる単語情報を取得する。推薦部140は、タグ単語共起尺度DB230に格納されるタグ単語共起尺度テーブル231から、取得した単語情報に基づいて、各単語を含むタグ単語共起尺度データを抽出する(SQ1022)。推薦部140は、抽出したタグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データを抽出する(SQ1024)。推薦部140は、タグ毎に、タグ単語共起尺度及びタグ利用尺度から、タグの推薦スコアを算出する(SQ1026)。推薦部140は、算出したタグの推薦スコア上位N件(Nは所定の数)のタグとその推薦スコアとを、ユーザ端末300に送信する(SQ1028)。
The
ユーザ端末300は、推薦部140に送信した文書に対して推薦されるタグとその推薦スコアとを、推薦部140から受信する。ユーザ端末300は、利用者に、推薦部140から受信したタグとその推薦スコアとを提示し、投稿する文書に付加するタグを選択させる(SQ1030)。ユーザ端末300は、利用者から文書に付加するタグが選択されると、当該タグが付加された文書を、サービス部110に送信(投稿)する(SQ1032)。これにより、利用者は、投稿する文書に適切なタグを付加することができる。投稿された文書は、サービス部110で蓄積され、収集部120によって収集される。
The
〈収集部〉
図12は、収集部の動作フローの例を示す図である。図12の動作フローは、例えば、所定時間毎に動作する。
<Collection Department>
FIG. 12 is a diagram illustrating an example of an operation flow of the collection unit. The operation flow in FIG. 12 operates, for example, every predetermined time.
収集部120は、サービス部110に投稿された文書を要求し、サービス部110から文書(文書群)を受信する(S101)。収集部120は、他のサーバ装置に対し、投稿された文書を要求し、文書(文書群)を収集してもよい。収集される文書は、例えば、ブログサービス、マイクロブログサービスで投稿された文書である。収集される文書には、当該文書が投稿された日時の情報を含む。
The collection unit 120 requests a document posted to the
収集部120は、収集された文書群から、タグ付きの文書を抽出する(S102)。タグ付き文書は、特定の記号(例えば、#記号)と文字列とによるタグを含む文書である。収集部120は、サービス部110からタグ付きの文書のみを収集してもよい。
The collection unit 120 extracts a tagged document from the collected document group (S102). A tagged document is a document including a tag with a specific symbol (for example, # symbol) and a character string. The collection unit 120 may collect only tagged documents from the
収集部120は、抽出された全文書に対して形態素解析を実行する。収集部120は、形態素解析の実行結果として、各文書に含まれる単語情報、各文書に含まれるタグ情報を取得する。収集部120は、単語情報から、各単語の出現回数(単語出現頻度)をカウントする。出現回数は、文書単位の出現回数としてもよい。文書単位の出現回数とは、1文書に同一単語が複数含まれている場合でも、その単語の出現回数を1回とカウントすることを意味する。収集部120は、タグ情報から、各タグの出現回数(タグ出現頻度)をカウントする。さらに、収集部120は、同一文書内で任意のタグと任意の単語との組み合わせが出現する文書の数(タグ単語共起頻度)を、タグと単語の組み合わせごとにカウントする。収集部120は、これらの、単語出現頻度データ、タグ出現頻度データ、タグ単語共起頻度データを、それぞれ、単語出現頻度テーブル211、タグ出現頻度テーブル212、タグ単語共起頻度テーブル213として、頻度DB210に格納する。収集部120は、タグと当該タグを含む文書が投稿された日時の情報との組み合わせであるタグ利用履歴データを、タグ利用履歴テーブル214として、頻度DB210に格納する(S103)。
The collection unit 120 performs morphological analysis on all the extracted documents. The collection unit 120 acquires word information included in each document and tag information included in each document as an execution result of the morphological analysis. The collection unit 120 counts the number of appearances of each word (word appearance frequency) from the word information. The number of appearances may be the number of appearances in document units. The number of appearances in units of documents means that the number of appearances of a word is counted as one even if the same word is included in one document. The collection unit 120 counts the number of appearances of each tag (tag appearance frequency) from the tag information. Furthermore, the collection unit 120 counts the number of documents in which a combination of an arbitrary tag and an arbitrary word appears in the same document (tag word co-occurrence frequency) for each combination of the tag and the word. The collection unit 120 uses the word appearance frequency data, the tag appearance frequency data, and the tag word co-occurrence frequency data as a word appearance frequency table 211, a tag appearance frequency table 212, and a tag word co-occurrence frequency table 213, respectively. Store in DB210. The collection unit 120 stores, in the
〈算出部〉
〔タグ利用尺度〕
図13は、算出部によるタグ利用尺度の算出の動作フローの例を示す図である。図13の動作フローは、例えば、所定時間毎に動作する。
<Calculation unit>
[Tag Usage Scale]
FIG. 13 is a diagram illustrating an example of an operation flow for calculating a tag usage scale by the calculation unit. The operation flow of FIG. 13 operates, for example, every predetermined time.
算出部130は、頻度DB210に格納されるタグ利用履歴テーブル214から、直近(例えば、A日前から現在まで(Aは所定の値))のタグ利用履歴データを取得する(S201)。算出部130は、タグ毎に、所定時間間隔毎のタグの出現回数を算出する(S202)。算出部130は、タグ毎の、所定時間間隔毎のタグの出現回数から、タグ毎に、タグ利用尺度を算出する(S203)。
The
次に、タグ利用尺度の算出の具体例を示す。 Next, a specific example of calculating the tag usage scale will be shown.
《タグ利用尺度の算出の例(1)》
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度(回数)をYiとする。このとき、Yiは、Xiの1次式で近似できると仮定すると、当該1次式の傾きaは、最小二乗法により次のように求められる。
<< Example of tag usage scale calculation (1) >>
The representative time of the predetermined time interval is time Xi, and the appearance frequency (number of times) of the tag in the predetermined time interval including time Xi is Yi. At this time, assuming that Yi can be approximated by a linear expression of Xi, the slope a of the linear expression is obtained as follows by the least square method.
ここで、nは、所定時間間隔の数である。即ち、A日前から現在までのデータを取得しているとすると、nは、A日を所定時間間隔で割った値である。 Here, n is the number of predetermined time intervals. That is, assuming that data from A day before to the present is acquired, n is a value obtained by dividing A day by a predetermined time interval.
この傾きaを用いて、タグ利用尺度kを次のように求めることができる。 Using this inclination a, the tag utilization scale k can be obtained as follows.
即ち、傾きaが正である場合、タグ利用尺度kが1、傾きaが負である場合、タグ利用尺度kは傾きaに応じた値とする。よって、タグの利用が時間を追うごとに増加しているときは、タグ利用尺度kは最大値の1となる。タグの利用が時間を追うごとに減少しているときは、タグ利用尺度kはcos(tan-1(a))となる。 That is, when the slope a is positive, the tag usage scale k is 1, and when the slope a is negative, the tag usage scale k is a value corresponding to the slope a. Therefore, when the tag usage increases with time, the tag usage scale k is 1 which is the maximum value. When the tag usage decreases with time, the tag usage scale k is cos (tan −1 (a)).
《タグ利用尺度の算出の例(2)》
所定時間間隔の代表時刻を時刻Xi、時刻Xiを含む所定時間間隔におけるタグの出現頻度をYiとする。また、現時刻を時刻pとする。このとき、タグ利用尺度kを次のように求めることができる。
<< Example of tag usage scale calculation (2) >>
The representative time of the predetermined time interval is time Xi, and the appearance frequency of the tag in the predetermined time interval including time Xi is Yi. The current time is set as time p. At this time, the tag utilization scale k can be obtained as follows.
時刻Xiにおける出現頻度Yiを、現在日時と時刻Xiの差で割ったものの総和を取る。現在日時と時刻Xiとの差が小さいほど、値が大きくなる。また、利用頻度が多いほど値が大きくなることから、多く利用されているタグのほうが、タグ利用尺度kが大きくなる。 The sum of the appearance frequency Yi at time Xi divided by the difference between the current date and time and time Xi is taken. The smaller the difference between the current date and time and the time Xi, the larger the value. In addition, since the value increases as the usage frequency increases, the tag usage scale k increases for tags that are frequently used.
《タグ利用尺度の算出の例(3)》
ここでは、所定時間間隔毎のタグの出現回数を使用せずに、タグ利用尺度kを求める。タグの利用尺度は、次のように求められる。
<< Example of tag usage scale calculation (3) >>
Here, the tag usage scale k is obtained without using the number of appearances of the tag for each predetermined time interval. The tag usage scale is determined as follows.
ここで、f(tag)は、タグ「tag」の、直近(例えば、A日前から現在まで)の出現回数である。また、値Nは、収集部120が収集した直近のタグ付きの文書数である。このタグ利用尺度kは、直近におけるタグ「tag」の出現割合に相当する。 Here, f (tag) is the number of appearances of the tag “tag” in the latest (for example, from day A to the present). The value N is the number of documents with the latest tag collected by the collection unit 120. This tag usage scale k corresponds to the most recent appearance ratio of the tag “tag”.
〔タグ単語共起尺度〕
図14は、算出部によるタグ単語共起尺度の算出の動作フローの例を示す図である。図14の動作フローは、例えば、所定時間毎に動作する。タグ単語共起尺度は、タグと単語との共起の程度を表す尺度である。
[Tag word co-occurrence scale]
FIG. 14 is a diagram illustrating an example of an operation flow for calculating a tag word co-occurrence scale by the calculation unit. The operation flow in FIG. 14 operates, for example, every predetermined time. The tag word co-occurrence scale is a scale representing the degree of co-occurrence between a tag and a word.
算出部130は、頻度DB210に格納されるタグ単語共起頻度テーブル213から、タグ単語共起頻度データを1つずつ取得する(S301)。算出部130は、頻度DB210に格納されるタグ出現頻度テーブル212から、ステップS301で取得したタグについての、タグ出現頻度データを取得する。また、算出部130は、頻度DB210に格納される単語出現頻度テーブル211から、ステップS301で取得した単語についての、単語出現頻度データを取得する。算出部130は、取得したこれらのデータに基づいて、タグと単語との組み合わせの、タグ単語共起尺度を算出する。算出部130は、タグと単語との組み合わせと算出したタグ単語共起尺度とを対応付けたタグ単語共起尺度データを、タグ単語共起尺度DB230に、タグ単語共起尺度テーブル231として、格納する(S303)。算出部130は、頻度DB210に格納されるタグ単語共起頻度データをすべて取得したか否かを確認する(S304)。算出部130は、まだ取得していないタグ単語共起頻度データがある場合(S304;NO)、処理をステップS301に戻す。また、算出部130は、すべてのタグ単語共起頻度データを取得した場合(S304;YES)、処理を終了する。
The
ここで、タグ単語共起尺度の算出の具体例について説明する。タグ単語共起尺度は、0以上1以下となるように正規化されてもよい。 Here, a specific example of calculating the tag word co-occurrence scale will be described. The tag word co-occurrence scale may be normalized to be 0 or more and 1 or less.
《タグ単語共起尺度の算出の例(1)》
共起頻度f(term,tag)をタグ単語共起尺度mとすることができる。ここで、共起頻度f(term,tag)は、同一文書内に単語「term」とタグ「tag」とが出現する文書の数を示す。f(term,tag)は、共起の観測値である。
<< Example of tag word co-occurrence scale calculation (1) >>
The co-occurrence frequency f (term, tag) can be used as the tag word co-occurrence scale m. Here, the co-occurrence frequency f (term, tag) indicates the number of documents in which the word “term” and the tag “tag” appear in the same document. f (term, tag) is the co-occurrence observation.
《タグ単語共起尺度の算出の例(2)》
観測値と期待値との比を、タグ単語共起尺度mとすることができる。即ち、次のように表すことができる。観測値と期待値との比は、値が大きいほど共起しやすいことを意味する。
<< Example of tag word co-occurrence scale calculation (2) >>
The ratio between the observed value and the expected value can be the tag word co-occurrence scale m. That is, it can be expressed as follows. The ratio between the observed value and the expected value means that the larger the value, the easier it is to co-occur.
ここで、f(term)は、単語「term」が出現する回数(文書の数)を示す。f(tag)は、タ
グ「tag」が出現する回数(文書の数)を示す。また、値Nは、収集部120が収集した
直近のタグ付きの文書数である。
Here, f (term) indicates the number of times that the word “term” appears (the number of documents). f (tag) indicates the number of times the tag “tag” appears (number of documents). The value N is the number of documents with the latest tag collected by the collection unit 120.
《タグ単語共起尺度の算出の例(3)》
t検定の独立性の検定を応用して、次のようにタグ単語共起尺度mを求めることができる。
<< Example of tag word co-occurrence scale calculation (3) >>
By applying the t-test independence test, the tag word co-occurrence scale m can be obtained as follows.
《タグ単語共起尺度の算出の例(4)》
単語とタグとの共起がランダムに発生する場合を期待値として、次のようにタグ単語共起尺度mを求めることができる。
<< Example of tag word co-occurrence scale calculation (4) >>
The tag word co-occurrence scale m can be obtained as follows, assuming that the co-occurrence of words and tags occurs randomly.
《タグ単語共起尺度の算出の例(5)》
対数尤度比(LLR: Log-Likelihood Ratio)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
<< Example of calculating tag word co-occurrence scale (5) >>
Using log-likelihood ratio (LLR), tag word co-occurrence scale m
Can be requested.
ここで、 here,
である。なお、対数の底は、原則としてeとする。 It is. In principle, the base of the logarithm is e.
《タグ単語共起尺度の算出の例(6)》
PMI(Point-wise Mutual Information)を用いて、次のようにタグ単語共起尺度m
を求めることができる。
<< Example of tag word co-occurrence scale calculation (6) >>
Tag word co-occurrence scale m using PMI (Point-wise Mutual Information)
Can be requested.
このタグ単語共起尺度mは、単語Aが出現する文書にタグTが付く確率が高く、タグTが付く文書に単語Aが出現する確率が高い場合に、極めて大きな値となる。 The tag word co-occurrence scale m has a very large value when the probability that the tag T is attached to the document in which the word A appears is high and the probability that the word A appears in the document to which the tag T is attached is high.
〈推薦部〉
図15及び図16は、推薦部の動作フローの例を示す図である。図15の「A」及び「B」は、それぞれ、図16の「A」及び「B」と接続する。図15及び図16の動作フローは、例えば、ユーザ端末300から文書を受信することによって開始される。
<Recommendation Department>
15 and 16 are diagrams illustrating an example of an operation flow of the recommendation unit. “A” and “B” in FIG. 15 are connected to “A” and “B” in FIG. 16, respectively. The operation flows of FIGS. 15 and 16 are started by receiving a document from the
推薦部140は、ユーザ端末300から、マイクロブログ等のサービスに投稿予定の文書を受信する(S401)。推薦部140は、受信した文書に対して形態素解析を実行し、文書を単語毎に分割し、文書に含まれる単語情報を取得する(S402)。推薦部140は、形態素解析以外の方法により、文書に含まれる単語情報を取得してもよい。推薦部140は、受信した文書に含まれる単語の数が、閾値Wth以上であるか否かを判定する(S403)。
The
受信した文書に含まれる単語の数が閾値Wth以上である場合(S403;YES)、推薦部140は、タグ単語共起尺度DB230から、文書に含まれる各単語に関するタグ単語共起尺度データを抽出する(S404)。単語に関するタグ単語共起尺度データとは、当該単語が含まれるタグ単語共起尺度データ(レコード)である。1つの単語に対して、複数のタグ単語共起尺度データが抽出されることもある。推薦部140は、抽出したタグ単語共起尺度データをタグ毎にまとめる。1つのタグにつき複数のタグ単語共起尺度データが抽出されている場合、推薦部140は、同一のタグのタグ単語共起尺度データのタグ単語共起尺度を統合し、このタグの基本推薦尺度とする。ここで、統合とは、例えば、各タグ単語共起尺度を乗算することをいう。乗算の代わりに、各タグ単語共起尺度の和をとってもよい。統合は、乗算や和に限定されるものではない。また、1つのタグにつき1つのタグ単語共起尺度データが抽出されている場合、推薦部140は、このタグ単語共起尺度データのタグ単語共起尺度を、このタグの基本推薦尺度とする。このようにして、推薦部140は、タグ毎に基本推薦尺度を算出する(S405)。
When the number of words included in the received document is equal to or greater than the threshold value Wth (S403; YES), the
推薦部140は、抽出したタグ単語共起尺度データに含まれるタグについて、タグ利用尺度DB220のタグ利用尺度テーブル231から、当該タグを含むタグ利用尺度データ
を抽出する。推薦部140は、各タグの基本推薦尺度に、当該タグのタグ利用尺度を統合し、推薦スコアとする(S406)。推薦スコアがより高いタグは、受信した文書に付加するのによりふさわしいタグであることを意味する。ここで、統合とは、例えば、基本推薦尺度とタグ利用尺度とを乗算することである。また、乗算の代わりに、基本推薦尺度とタグ利用尺度とを足しあわせてもよい。また、乗算の代わりに、基本推薦尺度に所定の係数をかけてタグ利用尺度と足しあわせてもよい。推薦部140は、ステップS406で得られた推薦スコアの降順にタグをソートする。推薦部140は、ソートしたタグの上位N件を抽出し、当該タグと、当該タグの推薦スコアとを、ユーザ端末300に送信し、処理を終了する(S407)。タグ利用尺度を使用せずに、基本推薦尺度をそのまま推薦スコアとしてもよい。
For the tags included in the extracted tag word co-occurrence scale data, the
受信した文書に含まれる単語の数が閾値Wth未満である場合(S403;NO)、推薦部140は、ユーザ端末300に対し、適切なタグを推薦するのに十分な情報を得られないとして、エラーを送信し(S408)、処理を終了する。
When the number of words included in the received document is less than the threshold Wth (S403; NO), the
(実施形態の作用効果)
サーバ装置100の収集部120は、サービス部110から、マイクロブログ等のサービスに対して投稿された文書、当該文書が投稿された日時等を収集する。収集部120は、収集した文書等から、単語情報、タグ情報を抽出する。収集部120は、単語情報に基づいて、各単語の出現回数、各タグの出現回数、タグ単語共起頻度を求める。また、収集部120は、タグ情報及び文書が投稿された日時から、タグ利用履歴を生成する。算出部130は、各単語の出現回数、各タグの出現回数、タグ単語共起頻度から、タグ単語共起尺度を求める。また、算出部130は、タグ利用履歴からタグ利用尺度を求める。推薦部140は、ユーザ端末300から投稿予定の文書を受信し、当該文書に含まれる単語を抽出する。推薦部140は、マイクロブログ等のサービスに対して投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、投稿予定の文書に付加するタグとして推薦するタグを抽出する。推薦部140は、投稿予定の文書に含まれる単語、タグ単語共起尺度、タグ利用尺度に基づいて、タグの推薦スコアを算出することにより、推薦するタグを抽出する。推薦部140は、投稿予定の文書に付加するタグとして、推薦するタグを、ユーザ端末300に送信する。サーバ装置100は、過去に投稿された文書に基づいて、投稿予定の文書に付加するタグとして適切と判断するタグを、抽出することができる。ユーザ端末300の利用者は、付加すべきタグが提示されるため、タグを網羅的に知らなくても、適切なタグを選択することができる。
(Effect of embodiment)
The collection unit 120 of the
また、サーバ装置100は、タグの利用尺度を使用することで、活発に利用されているタグを、推薦するタグとして抽出しやすくなる。また、過去に多く利用されたが、最近利用されなくなったタグが、推薦するタグとして、抽出されにくくなる。タグサーバ装置100に推奨されて利用されたタグは、マイクロブログサービス等において投稿される文書に付加されることで、サーバ装置100は、当該タグが付加された文書を、利用尺度、共起尺度にフィードバックすることで、より品質の高いタグの推薦を実現できる。複数の類似タグが利用されている場合でも、このフィードバック構造により、タグが一本化されやすくなる。
Further, the
サーバ装置100によれば、ユーザ端末300に投稿予定の文書に付加するタグとして推薦するタグを送信することで、利用者が投稿する文書に付加するのに適切なタグを容易に選択することができる。
According to the
(変形例)
上述の例では、タグと単語との間の共起頻度から、タグ単語共起尺度を求め、タグの推薦スコアを算出している。これに加えて、投稿される文書に付加される付加情報(文脈、
contents)とタグとの共起尺度(タグ付加情報共起尺度)を求めて、これを用いてタグの推薦スコアを算出してもよい。付加情報(文脈、context)として、例えば、天気(気温
、気圧、湿度、風速、降水量、天候等)、時間帯(朝、昼、夜、1時間毎など)、場所(緯度、経度、施設、道路、路線等)、ユーザ端末の種類等が、挙げられる。
(Modification)
In the above-described example, the tag word co-occurrence scale is obtained from the co-occurrence frequency between the tag and the word, and the tag recommendation score is calculated. In addition to this, additional information (context,
A co-occurrence scale (contents) and a tag (tag additional information co-occurrence scale) may be obtained and used to calculate a tag recommendation score. As additional information (context, context), for example, weather (temperature, atmospheric pressure, humidity, wind speed, precipitation, weather, etc.), time zone (morning, noon, night, every hour, etc.), location (latitude, longitude, facility) , Roads, routes, etc.), types of user terminals, and the like.
ユーザ端末300は、マイクロブログ等のサービスにタグを含む文書を投稿する際、文書を付加情報と共に送信する。ユーザ端末300は、ユーザ端末の固有の機能等によって付加情報を取得する。また、ユーザ端末300は、付加情報をユーザに入力させることにより取得してもよい。サービス部110は、ユーザ端末300から文書と共に付加情報を受信すると、投稿された文書、文書が投稿された日時等と共に、付加情報を蓄積する。収集部120は、サービス部110から、投稿された文書、文書が投稿された日時等と共に、付加情報を収集する。収集部120は、単語頻度データ、タグ頻度データと同様に、付加情報頻度データを生成する。また、収集部120は、同一文書に関する付加情報(文脈、contents)とタグとの共起頻度を求める。算出部130は、タグ単語共起尺度を求めるのと同様にして、タグ付加情報共起尺度を求める。
When the
ユーザ端末300は、投稿予定の文書と共に付加情報を推薦部140に送信する。推薦部140は、文書に含まれる各単語に関するタグ単語共起尺度データを抽出するのと同様に、付加情報に関するタグ付加情報尺度データを抽出する。推薦部140は、抽出したタグ単語共起尺度データ及びタグ付加情報尺度データをタグ毎にまとめる。推薦部140は、これらのタグ単語共起尺度データのタグ単語共起尺度及びタグ付加情報尺度データのタグ付加情報尺度を統合し、このタグの基本推薦尺度とする。ここで、統合とは、例えば、各タグ単語共起尺度及び各タグ付加情報尺度を乗算することをいう。乗算の代わりに、各タグ単語共起尺度及び各タグ付加情報尺度の和をとってもよい。和を取る際に、各タグ単語共起尺度、各タグ付加情報尺度に所定の重み付けをしてもよい。統合は、これらに限定されるものではない。
The
サーバ装置100によれば、付加情報を加味して、文書に付加するタグを推薦することができる。推薦スコアの算出の際に、単語情報に加えて、付加情報を利用することで、サーバ装置100は、より適切なタグを推薦することができる。
According to the
〔コンピュータ読み取り可能な記録媒体〕
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
[Computer-readable recording medium]
A program for causing a computer or other machine or device (hereinafter, a computer or the like) to realize any of the above functions can be recorded on a recording medium that can be read by the computer or the like. The function can be provided by causing a computer or the like to read and execute the program of the recording medium.
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。 Here, a computer-readable recording medium is a recording medium that stores information such as data and programs by electrical, magnetic, optical, mechanical, or chemical action and can be read from a computer or the like. Say. In such a medium, elements constituting a computer such as a CPU and a memory may be provided to cause the CPU to execute a program.
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。 Examples of such a recording medium that can be removed from a computer or the like include a flexible disk, a magneto-optical disk, a CD-ROM, a CD-R / W, a DVD, a DAT, an 8 mm tape, and a memory card. .
また、コンピュータ等に固定された記録媒体としてハードディスクドライブやROM等がある。 Moreover, there are a hard disk drive, a ROM, and the like as a recording medium fixed to a computer or the like.
10 情報処理システム
100 サーバ装置
110 サービス部
120 収集部
130 算出部
140 推薦部
200 記憶装置
210 頻度DB
211 単語出現頻度テーブル
212 タグ出現頻度テーブル
213 タグ単語共起頻度テーブル
214 タグ利用履歴テーブル
220 タグ利用尺度DB
221 タグ利用尺度テーブル
230 タグ用語共起尺度DB
231 タグ単語共起尺度テーブル
300 ユーザ端末
1000 情報処理装置
1002 CPU
1004 メモリ
1006 記憶部
1008 入力部
1010 出力部
1012 通信部
10 Information processing system
100 server device
110 Service Department
120 Collection Department
130 Calculation unit
140 recommendation section
200 storage device
210 Frequency DB
211 Word appearance frequency table
212 Tag appearance frequency table
213 Tag word co-occurrence frequency table
214 Tag Usage History Table
220 Tag Usage Scale DB
221 Tag usage scale table
230 Tag Term Co-occurrence Scale DB
231 Tag word co-occurrence scale table
300 User terminal
1000 Information processing device
1002 CPU
1004 memory
1006 Storage unit
1008 Input section
1010 Output unit
1012 Communication Department
Claims (3)
前記収集された各文書に含まれる単語、前記タグ、及び、同一文書に含まれるタグと単語との組み合わせを、前記収集された各文書から抽出する抽出手段と、
前記抽出手段により抽出された単語、タグ、同一文書に含まれるタグと単語との組み合わせ及び文書数に基づいて、同一文書における各タグと各単語との共起の度合いを示すタグ単語共起尺度を、単語とタグの組み合わせごとに算出する算出手段と、
文書を受信し、受信した文書に含まれる単語を抽出し、抽出したすべての単語に関するタグ単語共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する推薦手段と、
を備えるタグ推薦装置。 A collection means for collecting documents including tags with specific symbols and character strings;
Extraction means for extracting the words included in each collected document, the tags, and combinations of tags and words included in the same document from the collected documents;
Tag word co-occurrence scale indicating the degree of co-occurrence between each tag and each word in the same document based on the word extracted by the extraction means, the tag, the combination of the tag and word contained in the same document, and the number of documents Calculating means for each word and tag combination;
A recommendation means for receiving a document, extracting words included in the received document, and calculating a recommendation score for each tag for the received document based on a tag word co-occurrence scale for all the extracted words;
A tag recommendation device comprising:
前記算出手段は、前記タグ及び前記タグを含む文書が投稿された日時に基づいて、前記タグ毎に、前記タグの利用度合いを示すタグ利用尺度を算出し、
前記推薦手段は、前記タグ単語共起尺度、前記タグ利用尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
請求項1に記載のタグ推薦装置。 The collecting means collects a document including a tag with a specific symbol and a character string and a date and time when the document is posted,
The calculation means calculates a tag usage scale indicating a usage level of the tag for each tag based on the date and time when the document including the tag and the tag is posted;
The recommendation means calculates a recommendation score for each tag for the received document based on the tag word co-occurrence scale and the tag usage scale.
The tag recommendation device according to claim 1.
前記抽出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせを、前記収集された各文書及び付加情報から抽出し、
前記算出手段は、前記収集された各文書に含まれるタグ、前記付加情報、及び、同一文書に関するタグと付加情報との組み合わせ及び文書数に基づいて、同一文書に関する各タグと各付加情報との共起の度合いを示すタグ付加情報共起尺度を、単語と付加情報の組み合わせごとに算出し、
前記推薦手段は、文書及び付加情報を受信し、受信した付加情報に関するタグ付加情報共起尺度に基づいて、受信した文書についてのタグ毎の推薦スコアを算出する、
請求項1または2に記載のタグ推薦装置。 The collecting means collects a document including a tag with a specific symbol and a character string and additional information related to the document,
The extraction means extracts a tag included in each collected document, the additional information, and a combination of a tag and additional information related to the same document from each collected document and additional information,
The calculation means calculates the tag included in each collected document, the additional information, the combination of the tag and additional information regarding the same document, and the number of documents, and the tag and each additional information regarding the same document. A tag additional information co-occurrence scale indicating the degree of co-occurrence is calculated for each combination of word and additional information,
The recommendation means receives a document and additional information, and calculates a recommendation score for each tag for the received document based on a tag additional information co-occurrence scale related to the received additional information.
The tag recommendation device according to claim 1 or 2.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021881A JP5639490B2 (en) | 2011-02-03 | 2011-02-03 | Tag recommendation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011021881A JP5639490B2 (en) | 2011-02-03 | 2011-02-03 | Tag recommendation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012164018A true JP2012164018A (en) | 2012-08-30 |
JP5639490B2 JP5639490B2 (en) | 2014-12-10 |
Family
ID=46843369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011021881A Expired - Fee Related JP5639490B2 (en) | 2011-02-03 | 2011-02-03 | Tag recommendation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5639490B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015016133A1 (en) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | Information management device, and information management method |
JP2019109615A (en) * | 2017-12-15 | 2019-07-04 | 株式会社ローソン | Classification device, learning device, classification method, learning method, and computer program |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202129A (en) * | 2015-05-08 | 2016-12-07 | 富士通株式会社 | The method and apparatus recommending topic word for the microblogging do not delivered |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102501A (en) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for calculating relevancy between words |
US20070174247A1 (en) * | 2006-01-25 | 2007-07-26 | Zhichen Xu | Systems and methods for collaborative tag suggestions |
JP2010224622A (en) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | Method and program for applying tag |
-
2011
- 2011-02-03 JP JP2011021881A patent/JP5639490B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102501A (en) * | 2005-10-04 | 2007-04-19 | Nippon Telegr & Teleph Corp <Ntt> | Method and apparatus for calculating relevancy between words |
US20070174247A1 (en) * | 2006-01-25 | 2007-07-26 | Zhichen Xu | Systems and methods for collaborative tag suggestions |
JP2010224622A (en) * | 2009-03-19 | 2010-10-07 | Nomura Research Institute Ltd | Method and program for applying tag |
Non-Patent Citations (2)
Title |
---|
CSNG200800614009; 馬場 雪乃 他: 'タグに関連づけられた時間・場所の概念抽出' 電子情報通信学会技術研究報告 Vol.108 No.119 , 20080623, pp.51-56, 社団法人電子情報通信学会 * |
JPN6014018994; 馬場 雪乃 他: 'タグに関連づけられた時間・場所の概念抽出' 電子情報通信学会技術研究報告 Vol.108 No.119 , 20080623, pp.51-56, 社団法人電子情報通信学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015016133A1 (en) * | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | Information management device, and information management method |
JPWO2015016133A1 (en) * | 2013-07-30 | 2017-03-02 | 日本電信電話株式会社 | Information management apparatus and information management method |
JP2019109615A (en) * | 2017-12-15 | 2019-07-04 | 株式会社ローソン | Classification device, learning device, classification method, learning method, and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP5639490B2 (en) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008300B (en) | Method and device for determining alias of POI (Point of interest), computer equipment and storage medium | |
US10356186B2 (en) | Method, computer program and computer for estimating location based on social media | |
JP5957048B2 (en) | Teacher data generation method, generation system, and generation program for eliminating ambiguity | |
JP2019519042A (en) | Method and device for pushing information | |
US20150149539A1 (en) | Trending Data Demographics | |
Chun et al. | Uncertainty and context in GIScience and geography: challenges in the era of geospatial big data | |
US20190213612A1 (en) | Map based visualization of user interaction data | |
CN102930048A (en) | Data abundance automatically found by semanteme and using reference and visual data | |
JP6092360B1 (en) | Generating device, generating method, and generating program | |
JP5639490B2 (en) | Tag recommendation device | |
US20160350425A1 (en) | Methods and systems for selecting resumes for job opening | |
WO2014099384A1 (en) | Determining contact opportunities | |
CN110674404A (en) | Link information generation method, device, system, storage medium and electronic equipment | |
JP2016045620A (en) | Expert search apparatus, expert search method, and expert search program | |
JP2015005060A (en) | Evaluation device, information presentation system, evaluation method, and evaluation program | |
US10956452B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2014048916A (en) | Peripheral information search device, peripheral information search method, and peripheral information search program | |
JP6697500B2 (en) | Prediction device, prediction method, and prediction program | |
JP2016021131A (en) | Information processing apparatus and information processing program | |
JP2012118705A (en) | Display device and display method | |
JP2010181975A (en) | Information provision device, information provision method, information provision program and recording medium | |
US20140188846A1 (en) | Data list customization based on social relationship | |
JP7191620B2 (en) | DISASTER INFORMATION MANAGEMENT DEVICE, DISASTER INFORMATION MANAGEMENT SYSTEM AND DISASTER INFORMATION MANAGEMENT METHOD | |
JP5841108B2 (en) | Information processing apparatus, article information generation method and program | |
CN111126120B (en) | Urban area classification method, device, equipment and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140513 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140924 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141024 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |