JP5013821B2 - コンテンツを分類する装置、方法、プログラム - Google Patents
コンテンツを分類する装置、方法、プログラム Download PDFInfo
- Publication number
- JP5013821B2 JP5013821B2 JP2006303397A JP2006303397A JP5013821B2 JP 5013821 B2 JP5013821 B2 JP 5013821B2 JP 2006303397 A JP2006303397 A JP 2006303397A JP 2006303397 A JP2006303397 A JP 2006303397A JP 5013821 B2 JP5013821 B2 JP 5013821B2
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- category
- residence
- mutual information
- information amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000000877 morphologic effect Effects 0.000 claims description 23
- 238000013500 data storage Methods 0.000 description 12
- 230000003287 optical effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000019640 taste Nutrition 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。
前記平均相互情報量を算出する手段は、Pを確率として、
により、平均相互情報量を算出することを特徴とする装置。
前記平均相互情報量を算出する手段は、
e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
N=e+f+g+h
により、平均相互情報量を算出することを特徴とする装置。
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を備えることを特徴とする方法。
前記平均相互情報量を算出するステップでは、Pを確率として、
により、平均相互情報量を算出することを特徴とする方法。
前記平均相互情報量を算出するステップでは、
e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
N=e+f+g+h
により、平均相互情報量を算出することを特徴とする方法。
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を実行させるためのプログラム。
前記Webページのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のWebページを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。
Pを確率として、P(X,Y)は、「X」と「Y」とが共起する確率であり、P(X)、P(Y)は、それぞれ個別に生起する確率である。
e:居住カテゴリcの語を有し、かつ、形態素の単語を有するWebページの数
f:居住カテゴリcの語を有し、かつ、形態素の単語を有しないWebページの数
g:居住カテゴリcの語を有さず、かつ、形態素の単語を有するWebページの数
h:居住カテゴリcの語を有さず、かつ、形態素の単語を有しないWebページの数
これらの関係を表にしたものが、表1である。
図2は、図1で説明した本発明の好適な実施形態に係る装置10のハードウェア構成の一例を示す図である。装置10は、制御部101を構成するCPU(Central Processing Unit)1010(マルチプロセッサ構成ではCPU1012等複数のCPUが追加されてもよい)、バスライン1005、通信I/F1040、メインメモリ1050、BIOS(Basic Input Output System)1060、USBポート1090、I/Oコントローラ1070、並びにキーボード及びマウス1100等の入力手段や表示装置1022を備えるコンピュータであってよい。
30 トレーニングデータ
40 Webページ
101 制御部
105 学習部
107 データ記憶部
110 形態素解析部
120 形態素抽出部
130 平均相互情報量算出部
140 分類部
210 URLリスト
220 クローラ
240a、b コンテンツ
250 居住カテゴリ付き事例データベース
1005 バスライン
1010、1012 CPU
1022 表示装置
1050 メインメモリ
1070 コントローラ
1071 テープメディア
1072 テープドライブ
1074 ハードディスク
1076 光ディスクドライブ
1077 光ディスク
1078 半導体メモリ
1090 USBポート
1100 キーボード及びマウス
Claims (8)
- コンテンツの作成者の居住エリアを類推する装置であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。 - コンテンツの作成者の居住エリアを類推する装置であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を、Pを確率として、
により、算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。 - コンテンツの作成者の居住エリアを類推する装置であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の平均相互情報量を、
e:カテゴリcの語を有し、かつ、形態素の単語を有するものの集合の数
f:カテゴリcの語を有し、かつ、形態素の単語を有しないものの集合の数
g:カテゴリcの語を有さず、かつ、形態素の単語を有するものの集合の数
h:カテゴリcの語を有さず、かつ、形態素の単語を有しないものの集合の数
N=e+f+g+h
により、算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。 - 装置が、コンテンツを分類する方法であって、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を含むことを特徴とする方法。 - コンテンツを分類する装置に対して、
前記コンテンツのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析するステップと、
前記形態素解析の結果から所定の形態素を抽出するステップと、
前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出するステップと、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶するステップと、
前記記憶するステップにて記憶されたデータに基づいて、入力された所定のコンテンツを当該居住カテゴリに分類するステップと、
を実行させるためのプログラム。 - ブログに関するWebページを分類する装置であって、
前記Webページのうち、居住エリアに関係する記載を含むトレーニングデータを形態素解析する手段と、
前記形態素解析の結果から所定の形態素を抽出する手段と、
前記抽出した形態素と居住カテゴリとの間の関係を数値化したものであって、特定の居住カテゴリに偏って当該形態素が高頻度で出現するほど高い値を示す平均相互情報量を算出する手段と、
前記居住カテゴリと、抽出した形態素と、当該居住カテゴリと形態素との平均相互情報量とが関係づけられたデータを記憶する手段と、
前記記憶する手段に記憶されたデータに基づいて、入力された所定のWebページを当該居住カテゴリに分類する手段と、
を備えることを特徴とする装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006303397A JP5013821B2 (ja) | 2006-11-08 | 2006-11-08 | コンテンツを分類する装置、方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006303397A JP5013821B2 (ja) | 2006-11-08 | 2006-11-08 | コンテンツを分類する装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008123062A JP2008123062A (ja) | 2008-05-29 |
JP5013821B2 true JP5013821B2 (ja) | 2012-08-29 |
Family
ID=39507783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006303397A Active JP5013821B2 (ja) | 2006-11-08 | 2006-11-08 | コンテンツを分類する装置、方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5013821B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102439621A (zh) * | 2009-08-03 | 2012-05-02 | 优诺莫比公司 | 用于将广告添加到基于位置的广告系统的系统和方法 |
EP2369504A1 (en) | 2010-03-26 | 2011-09-28 | British Telecommunications public limited company | System |
JP5901502B2 (ja) * | 2012-11-27 | 2016-04-13 | 日本電信電話株式会社 | 居住地推定用データ生成装置、居住地推定用データ生成方法、及びプログラム |
JP7249222B2 (ja) * | 2019-07-09 | 2023-03-30 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004084096A1 (ja) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | 事例分類装置および方法 |
JP2006279145A (ja) * | 2005-03-28 | 2006-10-12 | Nomura Research Institute Ltd | 番組登録装置、及びコンピュータプログラム |
-
2006
- 2006-11-08 JP JP2006303397A patent/JP5013821B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2008123062A (ja) | 2008-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5382651B2 (ja) | 単語対取得装置、単語対取得方法、およびプログラム | |
US8458198B1 (en) | Document analysis and multi-word term detector | |
US9864741B2 (en) | Automated collective term and phrase index | |
US8224641B2 (en) | Language identification for documents containing multiple languages | |
US20140379743A1 (en) | Finding and disambiguating references to entities on web pages | |
US7299228B2 (en) | Learning and using generalized string patterns for information extraction | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
US20090313536A1 (en) | Dynamically Providing Relevant Browser Content | |
US9336186B1 (en) | Methods and apparatus related to sentence compression | |
JP5452563B2 (ja) | 評価情報抽出のための方法および装置 | |
JP4859779B2 (ja) | 有害コンテンツの評価付与装置、プログラム及び方法 | |
WO2022134779A1 (zh) | 人物动作相关数据的提取方法、装置、设备及存储介质 | |
JP5522389B2 (ja) | 類似度算出装置、類似度算出方法、及びプログラム | |
JP5013821B2 (ja) | コンテンツを分類する装置、方法、プログラム | |
US20220222442A1 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
US11803796B2 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP5228451B2 (ja) | 文書検索装置 | |
JP2020140468A (ja) | 情報処理装置及びプログラム | |
JP2010257406A (ja) | 適正単語取得装置、機械学習装置及び方法 | |
CN111967235B (zh) | 表单处理方法、装置、计算机设备及存储介质 | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
Robertson et al. | Sustaining adults with dementia or mild cognitive impairment in employment: a systematic review protocol of qualitative evidence | |
JP2009104296A (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP2008233963A (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110811 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111005 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120605 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150615 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5013821 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |