JP5013821B2 - コンテンツを分類する装置、方法、プログラム - Google Patents

コンテンツを分類する装置、方法、プログラム Download PDF

Info

Publication number
JP5013821B2
JP5013821B2 JP2006303397A JP2006303397A JP5013821B2 JP 5013821 B2 JP5013821 B2 JP 5013821B2 JP 2006303397 A JP2006303397 A JP 2006303397A JP 2006303397 A JP2006303397 A JP 2006303397A JP 5013821 B2 JP5013821 B2 JP 5013821B2
Authority
JP
Japan
Prior art keywords
morpheme
category
residence
mutual information
information amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006303397A
Other languages
English (en)
Other versions
JP2008123062A (ja
Inventor
香里 谷尾
毅司 増山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2006303397A priority Critical patent/JP5013821B2/ja
Publication of JP2008123062A publication Critical patent/JP2008123062A/ja
Application granted granted Critical
Publication of JP5013821B2 publication Critical patent/JP5013821B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツを分類する装置、方法、プログラムに関する。
例えば、ブログと呼ばれる、日々更新する日記的なWebページが知られている。このブログは、他者のブログに対するコメントを、自サイトの日記のネタとして利用する際に、先方に記事の引用を知らせるとともに、自分の記載したコメントを先方に自動送信する「トラックバック機能」等を備えることで、幅広い意見交換が期待できるWebページとして知られている。
近年、このブログを提供するWebページが増加し、趣向の異なるたくさんのブログが存在している。このため、ブログのサービスを提供する事業者等にとっては、ブログを所定の基準で分類できることが望ましい。例えば、ブログは、分類するカテゴリとして地域別に分けることが可能である。
一方、Webページを特徴別に分類する方法が知られている(例えば、特許文献1)。特許文献1によれば、Webページに対して行われる作成者及び閲覧者の行動の統計値に基づいて、そのWebページのネットワーク上における役割や性格の特徴を推定し、分類することが可能となる。
特開2006−163997号公報
しかしながら、特許文献1を用いても、統計情報として用いられる情報が、アクセス数やコメント数等のWebページの閲覧における基本的な統計情報に限られるため、例えば、Webページのコンテンツに適した分類ができるとは限らない。すなわち、上述のように、ブログをそのコンテンツの内容から地域別に分類することは困難である。
本発明は、ブログのようなWebページを、そのWebページのコンテンツの内容から、地域別に分類し、コンテンツの作成者の居住エリアを類推する方法、装置、プログラムを提供することを目的とする。
(1)コンテンツの作成者の居住エリアを類推する装置であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。
(1)の装置は、コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析し、形態素解析の結果から所定の形態素を抽出し、抽出した形態素と居住カテゴリとの間の平均相互情報量を算出し、居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶し、記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する。
よって、入力された所定のコンテンツを、トレーニングデータにより関係づけられて記憶された平均相互情報量に基づいて、居住カテゴリごとに分類することが可能である。したがって、例えば、ブログのようなWebページを、そのブログのコンテンツの内容から、地域別に分類することで、コンテンツの作成者の居住エリアを類推することが可能である。
(2) (1)に記載のコンテンツを分類する装置であって、
前記平均相互情報量を算出する手段は、Pを確率として、
Figure 0005013821
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
により、平均相互情報量を算出することを特徴とする装置。
(3) (1)又は(2)に記載のコンテンツを分類する装置であって、
前記平均相互情報量を算出する手段は、
Figure 0005013821
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
N=e+f+g+h
により、平均相互情報量を算出することを特徴とする装置。
(4) 装置が、コンテンツを分類する方法であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を備えることを特徴とする方法。
(4)の方法は、コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析し、形態素解析の結果から所定の形態素を抽出し、抽出した形態素と居住カテゴリとの間の平均相互情報量を算出し、居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶し、記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する。
よって、入力された所定のコンテンツを、トレーニングデータにより関係づけられて記憶された平均相互情報量に基づいて、居住カテゴリごとに分類することが可能である。したがって、例えば、ブログのようなWebページを、そのブログのコンテンツの内容から、地域別に分類することが可能である。
(5) (4)に記載のコンテンツを分類する方法であって、
前記平均相互情報量を算出するステップでは、Pを確率として、
Figure 0005013821
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
により、平均相互情報量を算出することを特徴とする方法。
(6) (4)又は(5)に記載のコンテンツを分類する方法であって、
前記平均相互情報量を算出するステップでは、
Figure 0005013821
MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
N=e+f+g+h
により、平均相互情報量を算出することを特徴とする方法。
(7) コンテンツを分類する装置に対して、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を実行させるためのプログラム。
(7)のプログラムは、コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析し、形態素解析の結果から所定の形態素を抽出し、抽出した形態素と居住カテゴリとの間の平均相互情報量を算出し、居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶し、記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する。
よって、入力された所定のコンテンツを、トレーニングデータにより関係づけられて記憶された平均相互情報量に基づいて、居住カテゴリごとに分類することが可能である。したがって、例えば、ブログのようなWebページを、そのブログのコンテンツの内容から、地域別に分類することでコンテンツの作成者の居住エリアを類推することが可能である。
(8) ブログに関するWebページを分類する装置であって、
前記Webページのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のWebページを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。
(8)の装置は、Webページのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析し、形態素解析の結果から所定の形態素を抽出し、抽出した形態素と居住カテゴリとの間の平均相互情報量を算出し、居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶し、記憶する手段に記憶されたデータに基づいて、入力された所定のWebページを当該居住カテゴリに分類する。
よって、入力された所定のWebページを、トレーニングデータにより関係づけられて記憶された平均相互情報量に基づいて、居住カテゴリごとに分類することが可能である。したがって、例えば、ブログのようなWebページを、そのブログのコンテンツの内容から、地域別に分類することで、コンテンツの作成者の居住エリアを類推することが可能である。
本発明によれば、入力された所定のコンテンツを、トレーニングデータにより関係づけられて記憶された平均相互情報量に基づいて、居住カテゴリごとに分類することが可能である。したがって、例えば、ブログのようなWebページを、そのブログのコンテンツの内容から、地域別に分類することが可能である。
以下、本発明の実施形態について図面に基づいて説明する。
図1は、本発明の好適な実施形態に係る装置10の機能ブロック及び処理のフローを示す図である。装置10は、データを制御する制御部101と、データが記憶されるデータ記憶部107とを少なくとも備える。装置10は、後述する通信部や入力部を備え、Webページ40やトレーニングデータ30等のコンテンツに関するデータが入力される。
制御部101は、学習部105として、入力されたトレーニングデータ30の形態素解析を行う形態素解析部110と、形態素解析の結果から形態素を抽出する形態素抽出部120と、抽出した形態素と居住カテゴリとの間の平均相互情報量を算出する平均相互情報量算出部130と、を備え、さらに、記憶されたデータに基づいて、入力されたWebページ40を居住カテゴリに分類する分類部140とを備える。
トレーニングデータ30やWebページ40は、ブログに関するコンテンツ、データであってよく、地域等の居住エリアに関する情報が少なくとも一つは含まれているページやデータである。特に、トレーニングデータは、Webページのうち、居住エリアを分類するためのデータを装置10に記憶させるためのトレーニングデータであってよい。
次に、これらの構成により実行される処理について説明する。入力されたトレーニングデータ30には、上述のように地域等の居住エリアに関する文字データを含んだ文章が含まれる。この文章に対して、形態素解析部110は、形態素解析を行い、文章(複数の単語から構成される文字データ)を単語ごとに分けて、分けた単語を品詞ごとに分類する(ステップS01)。
なお、形態素解析部110が、形態素解析を行う前処理として、ストップワード処理(観光、旅、滞在等の単語を含むWebページを除去する処理)を行い、厳選されたWebページのみをトレーニングデータとして処理してもよい。
次に、形態素抽出部120は、形態素解析部110が解析した単語を、品詞によりフィルタリングする(ステップS02)。具体的には、形態素抽出部120は、名詞のみを抽出する。
次に、平均相互情報量算出部130は、形態素抽出部120が抽出した形態素と居住カテゴリとの間の、平均相互情報量を算出する(ステップS03)。
居住カテゴリとは、居住エリアを示すために典型的に使用される単語であって、例えば、都道府県等の名前(例えば、富山、神奈川等)であってよい。
平均情報量の算出は、例えば、以下の式が使用される。
Figure 0005013821
MI(w,c):形態素となる単語wと居住カテゴリcの間の平均相互情報量
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。
平均相互情報量MIの特徴として、特定の居住カテゴリ(c)に偏って高頻度で、Webページに出現する単語(w)ほど、値が大きくなる。
この式は、例えば、
Figure 0005013821
MI(w,c):形態素となる単語wと居住カテゴリcの間の平均相互情報量
e:居住カテゴリcの語を有し、かつ、形態素の単語を有するWebページの数
f:居住カテゴリcの語を有し、かつ、形態素の単語を有しないWebページの数
g:居住カテゴリcの語を有さず、かつ、形態素の単語を有するWebページの数
h:居住カテゴリcの語を有さず、かつ、形態素の単語を有しないWebページの数
これらの関係を表にしたものが、表1である。
Figure 0005013821
N=e+f+g+hと表すことが可能である。
表2を用いて、例えば、居住カテゴリを「富山」として、「八尾」という単語が、Webページに100回出現する場合に、MIを算出する。ここで、eは、「富山」の居住カテゴリのWebページで、「八尾」が出現するWebページの数であり、fは、「富山」の居住カテゴリのWebページで、「八尾」が出現しないWebページの数であり、gは、「富山」の居住カテゴリでないWebページで、「八尾」が出現するWebページの数であり、hは、「富山」の居住カテゴリでないWebページで「八尾」が出現しないWebページの数である。
Figure 0005013821
これらの値を式2に代入すると、
Figure 0005013821
と、算出される。
他の例として、表3を用いて、居住カテゴリを「富山」として、「婦中町」という単語が、Webページに20回出現する場合に、MIを算出する。
Figure 0005013821
これらの値を式2に代入すると、
Figure 0005013821
と、算出される。
このように、「富山」の居住カテゴリが、所定の単語と関係があるかは、MIの値を比較することで判断することが可能である。
Figure 0005013821
制御部101は、平均相互情報量算出部130が算出する平均相互情報量を、一つの居住カテゴリに対して、複数の単語で算出することで、式5に示すように、居住カテゴリ(富山)に対して、各々の単語(八尾、婦中町、富山市等)の平均相互情報量をテーブル等で関係づけて、データ記憶部107に記憶する。
次に、所定のWebページ40が、いずれかの居住カテゴリに分類する分類部140について説明する。分類部140は、ブログ等のWebページ40の入力を受付け(ステップS04)、データ記憶部107を参照して(ステップS05、S06)、Webページ40の居住カテゴリを出力する。
例えば、分類部140は、Webページ40に記載された文字データについて、形態素解析を行い、文章(複数の単語から構成される文字データ)を単語ごとに分けて、分けた単語を品詞ごとに分類して、名詞のみ(例えば、おわら)を抽出する。そして、分類部140は、データ記憶部107に記憶された単語の中に抽出した名詞(おわら)と一致するものがあるかを判断し、一致するものがある場合には、一致した単語に関係づけられた居住カテゴリ(富山)との平均相互情報量(0.04)により、平均相互情報量が所定値以上(例えば、0.035以上)である場合には、当該居住カテゴリを、このWebページ40の居住カテゴリ(富山)とする。
また、他の態様として、分類部140は、一つのWebページから複数の名詞(婦中町、おわら)を抽出し、データ記憶部107に記憶された単語と一以上一致するものがあるかを判断し、一以上一致するものがある場合には、一致した単語に関係づけられた居住カテゴリ(富山)と当該単語との平均相互情報量とを、それぞれの単語ごとに比較する。そして、分類部140は、全ての一致した単語の平均相互情報量を総合的に比較して、Webページ40の居住カテゴリを決定してよい。図4に基づいて、後述する。
[装置10のハードウェア構成]
図2は、図1で説明した本発明の好適な実施形態に係る装置10のハードウェア構成の一例を示す図である。装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備えるコンピュータであってよい。
I/Oコントローラ1070には、テープドライブ1072、ハードディスク1074、光ディスクドライブ1076、半導体メモリ1078、等の記憶手段を接続することができる。
BIOS1060は、装置10の起動時にCPU1010が実行するブートプログラムや、装置10のハードウェアに依存するプログラム等を格納する。
記憶部107を構成するハードディスク1074は、装置10がサーバとして機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。
光ディスクドライブ1076としては、例えば、DVD−ROMドライブ、CD−ROMドライブ、DVD−RAMドライブ、CD−RAMドライブを使用することができる。この場合は各ドライブに対応した光ディスク1077を使用する。光ディスク1077から光ディスクドライブ1076によりプログラム又はデータを読み取り、I/Oコントローラ1070を介してメインメモリ1050又はハードディスク1074に提供することもできる。また、同様にテープドライブ1072に対応したテープメディア1071を主としてバックアップのために使用することもできる。
装置10に提供されるプログラムは、ハードディスク1074、光ディスク1077、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、I/Oコントローラ1070を介して、記録媒体から読み出され、又は通信I/F1040を介してダウンロードされることによって、装置10にインストールされ実行されてもよい。
前述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、データ記憶部107を構成する記憶媒体としては、ハードディスク1074、光ディスク1077、又はメモリーカードの他に、MD等の光磁気記録媒体、テープ媒体を用いることができる。また、専用通信回線やインターネットに接続されたサーバシステムに設けたハードディスク1074又は光ディスクライブラリー等の記憶装置を記録媒体として使用し、通信回線を介してプログラムを装置10に提供してもよい。
ここで、表示装置1022は、ユーザにデータの入力を受付ける画面を表示したり、装置10による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。
ここで、入力手段は、ユーザによる入力の受付を行うものであり、キーボード及びマウス1100等により構成してよい。
また、通信I/F1040は、装置10を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信I/F1040は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。
以上の例は、装置10について主に説明したが、装置に、プログラムをインストールして、その装置をサーバ装置として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明したサーバにより実現される機能は、上述の方法を当該装置により実行することにより、或いは、上述のプログラムを当該装置に導入して実行することによっても実現可能である。
図3は、装置10が、トレーニングデータ30の入力を受けて、データ記憶部107に、居住カテゴリと、抽出した形態素と、平均相互情報量とが関係づけられたデータを記憶する好適な他の実施態様を示す概念図である。
最初に、定期的にWebサーバを巡回するクローラ220に対して、所定の居住カテゴリ(例えば、「富山」)に関連したWebページのURL(Uniform Resource Locator)リスト210が、所定の装置から入力される(ステップS10)。ここで、居住カテゴリとそれに関連したWebページを抽出する処理は、ユーザが行ってもよい。
この居住カテゴリ(「富山」)に関連したWebページのURLリストに基づいて、クローラ220は、インターネット上のWebサーバ230に対して、URLへのリクエストを行い(ステップS11)、Webサーバ230のコンテンツ240aを取得する(ステップS12)。コンテンツ240aを取得したクローラ220は、コンテンツ240aを、居住カテゴリ付き事例データベース250に記憶する(ステップS13)。この際に、コンテンツ240aをコンテンツ240bに加工(データ変換)してもよい。すなわち、当該コンテンツ240aであるWebページから、頻繁に使用される所定の単語のみを抽出して、コンテンツ240bとしてもよい。
例えば、居住カテゴリ「富山」にて、収集した一つのWebページに、「婦中町」という単語が5つ、「富山市」という単語が3つ、「八尾」という単語が3つあった場合に、これらを図3に示すように、居住カテゴリと関係づけたデータとして、居住カテゴリ付き事例データベース250に記憶させる。
このようなデータを、多数記憶することで、逆に、居住カテゴリ付きデータベース250には、「富山」の居住カテゴリで、「婦中町」を含まないWebページの数や、「富山」のカテゴリに属さずに、「婦中町」を含むWebページの数がともに記憶される。このため、例えば、居住カテゴリ「富山」において、単語「婦中町」等、の平均相互情報量を算出するためのデータを全て準備することが可能となる。
居住カテゴリ付き事例データベース250から、居住カテゴリ付きのデータが装置10に入力された場合(ステップS14)には、装置10の学習部105が、処理を行い、データ記憶部107に、居住カテゴリと、抽出した形態素と、平均相互情報量とが関係づけられたデータを記憶する(ステップS15)。
ここで、装置10は、居住カテゴリ付き事例データベース250のように、既にWebページから所定の単語が抽出され、平均相互情報量が算出可能なデータが記憶されている場合には、形態素解析部110や形態素抽出部120の処理を行わなくてよい。
最終的に、データ記憶部107には、図3に示すように、単語が平均相互情報量とともに、関係づけられて記憶される。
次に、図4に基づいて、装置10の分類部140の処理を説明する。Webページのうち、居住カテゴリが決定していない事例が装置10に入力されるとする(ステップS20)。例えば、「映画」が3回、「シネマ」が1回、「川崎」が2回、記載されたWebページの場合に、このWebページを、どの居住カテゴリに分類するかを決定したい。この場合には、装置10の分類部140が、データ記憶部107に記憶されたデータに基づいて(ステップS21、S22)、それぞれの単語の平均相互情報量を算出して、比較して、居住カテゴリを決定する。
例えば、分類部140は、当該Webページから複数の名詞(映画、川崎)を抽出し、データ記憶部107に記憶された単語と一以上一致するものがあるかを判断し、一以上一致するものがある場合には、一致した単語に関係づけられた居住カテゴリ(神奈川、横浜等)と当該単語との平均相互情報量とを、それぞれの単語ごとに比較する。例えば、居住カテゴリ「神奈川」と単語「映画」の平均相互情報量は、0.01、居住カテゴリ「神奈川」と単語「川崎」との平均相互情報量は、0.05であるとして、居住カテゴリ「横浜」と単語「映画」との平均相互情報量は、0.001、居住カテゴリ「横浜」と単語「川崎」との平均相互情報量は、0.01である場合には、結果的に、分類部140は、平均相互情報量の和が大きい、居住カテゴリ「神奈川」と決定してもよい。
以上、本発明の実施形態を説明したが、具体例を例示したに過ぎず、特に本発明を限定しない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載された効果に限定されない。
本発明の好適な実施形態に係る装置10の機能ブロック及び処理のフローを示す図である。 本発明の好適な実施形態に係る装置10のハードウェア構成の一例を示す図である。 本発明の好適な他の実施形態の一例に係る装置10の処理を説明する図である。 本発明の好適な他の実施形態の一例に係る装置10の処理を説明する図である。
符号の説明
10 装置
30 トレーニングデータ
40 Webページ
101 制御部
105 学習部
107 データ記憶部
110 形態素解析部
120 形態素抽出部
130 平均相互情報量算出部
140 分類部
210 URLリスト
220 クローラ
240a、b コンテンツ
250 居住カテゴリ付き事例データベース
1005 バスライン
1010、1012 CPU
1022 表示装置
1050 メインメモリ
1070 コントローラ
1071 テープメディア
1072 テープドライブ
1074 ハードディスク
1076 光ディスクドライブ
1077 光ディスク
1078 半導体メモリ
1090 USBポート
1100 キーボード及びマウス

Claims (8)

  1. コンテンツの作成者の居住エリアを類推する装置であって、
    前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
    前記形態素解析の結果から所定の形態素を抽出する手段と、
    前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出する手段と、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
    前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
    を備えることを特徴とする装置。
  2. 請求項1に記載のコンテンツを分類する装置であって、
    前記平均相互情報量を算出する手段は、Pを確率として、
    Figure 0005013821
    MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
    により、平均相互情報量を算出することを特徴とする装置。
  3. 請求項1又は請求項2に記載のコンテンツを分類する装置であって、
    前記平均相互情報量を算出する手段は、
    Figure 0005013821
    MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
    e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
    f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
    g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
    h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
    N=e+f+g+h
    により、平均相互情報量を算出することを特徴とする装置。
  4. コンテンツの作成者の居住エリアを類推する装置であって、
    前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
    前記形態素解析の結果から所定の形態素を抽出する手段と、
    前記抽出した形態素と居住カテゴリとの間の平均相互情報量を、Pを確率として、
    Figure 0005013821
    MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
    により、算出する手段と、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
    前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
    を備えることを特徴とする装置。
  5. コンテンツの作成者の居住エリアを類推する装置であって、
    前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
    前記形態素解析の結果から所定の形態素を抽出する手段と、
    前記抽出した形態素と居住カテゴリとの間の平均相互情報量を、
    Figure 0005013821
    MI(w,c):形態素となる単語wとカテゴリcの間の平均相互情報量
    e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
    f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
    g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
    h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
    N=e+f+g+h
    により、算出する手段と、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
    前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
    を備えることを特徴とする装置。
  6. 装置が、コンテンツを分類する方法であって、
    前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
    前記形態素解析の結果から所定の形態素を抽出するステップと、
    前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出するステップと、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
    前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
    含むことを特徴とする方法。
  7. コンテンツを分類する装置に対して、
    前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
    前記形態素解析の結果から所定の形態素を抽出するステップと、
    前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出するステップと、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
    前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
    を実行させるためのプログラム。
  8. ブログに関するWebページを分類する装置であって、
    前記Webページのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
    前記形態素解析の結果から所定の形態素を抽出する手段と、
    前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出する手段と、
    前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
    前記記憶する手段に記憶されたデータに基づいて、入力された所定のWebページを当該居住カテゴリに分類する手段と、
    を備えることを特徴とする装置。
JP2006303397A 2006-11-08 2006-11-08 コンテンツを分類する装置、方法、プログラム Active JP5013821B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006303397A JP5013821B2 (ja) 2006-11-08 2006-11-08 コンテンツを分類する装置、方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006303397A JP5013821B2 (ja) 2006-11-08 2006-11-08 コンテンツを分類する装置、方法、プログラム

Publications (2)

Publication Number Publication Date
JP2008123062A JP2008123062A (ja) 2008-05-29
JP5013821B2 true JP5013821B2 (ja) 2012-08-29

Family

ID=39507783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006303397A Active JP5013821B2 (ja) 2006-11-08 2006-11-08 コンテンツを分類する装置、方法、プログラム

Country Status (1)

Country Link
JP (1) JP5013821B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439621A (zh) * 2009-08-03 2012-05-02 优诺莫比公司 用于将广告添加到基于位置的广告系统的系统和方法
EP2369504A1 (en) 2010-03-26 2011-09-28 British Telecommunications public limited company System
JP5901502B2 (ja) * 2012-11-27 2016-04-13 日本電信電話株式会社 居住地推定用データ生成装置、居住地推定用データ生成方法、及びプログラム
JP7249222B2 (ja) * 2019-07-09 2023-03-30 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004084096A1 (ja) * 2003-03-19 2004-09-30 Fujitsu Limited 事例分類装置および方法
JP2006279145A (ja) * 2005-03-28 2006-10-12 Nomura Research Institute Ltd 番組登録装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2008123062A (ja) 2008-05-29

Similar Documents

Publication Publication Date Title
JP5382651B2 (ja) 単語対取得装置、単語対取得方法、およびプログラム
US8458198B1 (en) Document analysis and multi-word term detector
US9864741B2 (en) Automated collective term and phrase index
US8224641B2 (en) Language identification for documents containing multiple languages
US20140379743A1 (en) Finding and disambiguating references to entities on web pages
US7299228B2 (en) Learning and using generalized string patterns for information extraction
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
US20090313536A1 (en) Dynamically Providing Relevant Browser Content
US9336186B1 (en) Methods and apparatus related to sentence compression
JP5452563B2 (ja) 評価情報抽出のための方法および装置
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
JP5522389B2 (ja) 類似度算出装置、類似度算出方法、及びプログラム
JP5013821B2 (ja) コンテンツを分類する装置、方法、プログラム
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5228451B2 (ja) 文書検索装置
JP2020140468A (ja) 情報処理装置及びプログラム
JP2010257406A (ja) 適正単語取得装置、機械学習装置及び方法
CN111967235B (zh) 表单处理方法、装置、计算机设备及存储介质
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
Robertson et al. Sustaining adults with dementia or mild cognitive impairment in employment: a systematic review protocol of qualitative evidence
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2008233963A (ja) 単語間相関度計算装置および方法、プログラム並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120605

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150615

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5013821

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350