JP2008152634A - 潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体 - Google Patents
潜在話題抽出装置、潜在話題抽出方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP2008152634A JP2008152634A JP2006341501A JP2006341501A JP2008152634A JP 2008152634 A JP2008152634 A JP 2008152634A JP 2006341501 A JP2006341501 A JP 2006341501A JP 2006341501 A JP2006341501 A JP 2006341501A JP 2008152634 A JP2008152634 A JP 2008152634A
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- time
- document
- latent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、上記生成された単語の時系列頻度ベクトルを分析し、頻度が一時的に急増する単語を、潜在的話題の候補である候補語として抽出し、上記文書集合中に含まれている話題のうちで、文書数が、所定の閾値よりも多い話題について、時間毎に取得した文書数を数値化することによって主話題時系列頻度ベクトルを生成し、各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、該距離が大きい単語を潜在話題語として抽出する潜在話題抽出装置である。
【選択図】図1
Description
11…文書記録部、
12…文書解析部、
13…文書情報管理部、
14…候補語抽出部、
15…候補語記録部、
16…潜在話題語抽出部、
17…主話題抽出部、
18…主話題記録部、
19…潜在話題語集約部、
20…潜在話題語集合記録部、
21…潜在話題語記録部。
Claims (10)
- 複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成する時系列頻度ベクトル生成手段と;
上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出する候補語抽出手段と;
上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成する主話題時系列頻度ベクトル生成手段と;
各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出する潜在話題語抽出手段と;
を有することを特徴とする潜在話題抽出装置。 - 請求項1において、
上記候補語抽出手段は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する手段であることを特徴とする潜在話題抽出装置。 - 請求項1において、
上記主話題時系列頻度ベクトル生成手段は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する手段であることを特徴とする潜在話題抽出装置。 - 請求項1において、
複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約手段を有することを特徴とする潜在話題抽出装置。 - 複数の文書集合に出現する単語の時間的な出現頻度変化を集計することによって、各単語の時系列頻度ベクトルを生成し、記憶装置に記憶する時系列頻度ベクトル生成工程と;
上記生成された単語の時系列頻度ベクトルを分析し、頻度の増加率が一定値以上である単語を、潜在的話題の候補である候補語として抽出し、記憶装置に記憶する候補語抽出工程と;
上記文書集合中の各文書に付随する時間情報に基づいて一定時間毎の文書数を集計することによって、主話題時系列頻度ベクトルを生成し、記憶装置に記憶する主話題時系列頻度ベクトル生成工程と;
各候補語の時系列頻度ベクトルと上記主話題時系列頻度ベクトルとのベクトル間距離を算出し、この算出されたベクトル間距離が大きい単語を潜在話題語として抽出し、記憶装置に記憶する潜在話題語抽出工程と;
を有することを特徴とする潜在話題抽出方法。 - 請求項5において、
上記候補語抽出工程は、定常状態よりも、短い時間間隔で、出現した単語を、上記候補語として抽出する工程であることを特徴とする潜在話題抽出方法。 - 請求項5において、
上記主話題時系列頻度ベクトル生成工程は、文書集合をクラスタリングし、得られたクラスタのうちで、文書数最大のクラスタに含まれている各文書に付随する時間情報に基づいて、一定時間毎の文書数を集計することによって、上記主話題時系列頻度ベクトルを生成する工程であることを特徴とする潜在話題抽出方法。 - 請求項5において、
複数の単語が同一文書中に出現する確率である共起確率が高い潜在話題語同士を集約する潜在話題語集約工程を有することを特徴とする潜在話題抽出方法。 - 上記請求項5〜請求項8のいずれか1項に記載の方法をコンピュータに実行させるプログラム。
- 上記請求項5〜請求項8のいずれか1項に記載の方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341501A JP4807881B2 (ja) | 2006-12-19 | 2006-12-19 | 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006341501A JP4807881B2 (ja) | 2006-12-19 | 2006-12-19 | 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152634A true JP2008152634A (ja) | 2008-07-03 |
JP4807881B2 JP4807881B2 (ja) | 2011-11-02 |
Family
ID=39654724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006341501A Expired - Fee Related JP4807881B2 (ja) | 2006-12-19 | 2006-12-19 | 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4807881B2 (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010035412A1 (ja) * | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP2012150539A (ja) * | 2011-01-17 | 2012-08-09 | Nippon Telegr & Teleph Corp <Ntt> | クエリ提供装置、クエリ提供方法及びクエリ提供プログラム |
WO2013047512A1 (ja) * | 2011-09-26 | 2013-04-04 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
US8452760B2 (en) | 2009-07-27 | 2013-05-28 | Kabushiki Kaisha Toshiba | Relevancy presentation apparatus, method, and program |
KR101318843B1 (ko) | 2011-08-30 | 2013-10-17 | 성균관대학교산학협력단 | 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치 |
JP2014096105A (ja) * | 2012-11-12 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | バーストワード抽出装置、方法、及びプログラム |
JP2015064650A (ja) * | 2013-09-24 | 2015-04-09 | ビッグローブ株式会社 | 情報処理装置、記事情報生成方法およびプログラム |
US20150193425A1 (en) * | 2012-07-31 | 2015-07-09 | Nec Corporation | Word latent topic estimation device and word latent topic estimation method |
JP2020098454A (ja) * | 2018-12-18 | 2020-06-25 | 日本放送協会 | テキスト情報判定装置及びそのプログラム |
JP2021034048A (ja) * | 2019-08-21 | 2021-03-01 | ネイバー コーポレーションNAVER Corporation | 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2005092491A (ja) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | サーバ、及び関連語提案方法 |
-
2006
- 2006-12-19 JP JP2006341501A patent/JP4807881B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07325832A (ja) * | 1994-05-31 | 1995-12-12 | Fujitsu Ltd | 単語使用パターンの時間的変化を利用した検索方法および情報検索装置 |
JP2000172701A (ja) * | 1998-12-04 | 2000-06-23 | Fujitsu Ltd | 文書データ提供装置、文書データ提供システム、文書データ提供方法及び文書データを提供するプログラムを記録した記録媒体 |
JP2005092491A (ja) * | 2003-09-17 | 2005-04-07 | Fujitsu Ltd | サーバ、及び関連語提案方法 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010035412A1 (ja) * | 2008-09-25 | 2010-04-01 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
JP5387577B2 (ja) * | 2008-09-25 | 2014-01-15 | 日本電気株式会社 | 情報分析装置、情報分析方法、及びプログラム |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
US8452760B2 (en) | 2009-07-27 | 2013-05-28 | Kabushiki Kaisha Toshiba | Relevancy presentation apparatus, method, and program |
JP2012150539A (ja) * | 2011-01-17 | 2012-08-09 | Nippon Telegr & Teleph Corp <Ntt> | クエリ提供装置、クエリ提供方法及びクエリ提供プログラム |
KR101318843B1 (ko) | 2011-08-30 | 2013-10-17 | 성균관대학교산학협력단 | 시간 정보를 활용한 블로그 카테고리 분류 방법 및 장치 |
WO2013047512A1 (ja) * | 2011-09-26 | 2013-04-04 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
US20150193425A1 (en) * | 2012-07-31 | 2015-07-09 | Nec Corporation | Word latent topic estimation device and word latent topic estimation method |
US9519633B2 (en) * | 2012-07-31 | 2016-12-13 | Nec Corporation | Word latent topic estimation device and word latent topic estimation method |
JP2014096105A (ja) * | 2012-11-12 | 2014-05-22 | Nippon Telegr & Teleph Corp <Ntt> | バーストワード抽出装置、方法、及びプログラム |
JP2015064650A (ja) * | 2013-09-24 | 2015-04-09 | ビッグローブ株式会社 | 情報処理装置、記事情報生成方法およびプログラム |
JP2020098454A (ja) * | 2018-12-18 | 2020-06-25 | 日本放送協会 | テキスト情報判定装置及びそのプログラム |
JP7186080B2 (ja) | 2018-12-18 | 2022-12-08 | 日本放送協会 | テキスト情報判定装置及びそのプログラム |
JP2021034048A (ja) * | 2019-08-21 | 2021-03-01 | ネイバー コーポレーションNAVER Corporation | 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム |
JP7068404B2 (ja) | 2019-08-21 | 2022-05-16 | ネイバー コーポレーション | 長期間に関連のあるイシュー単位のクラスタを利用した文書タイムラインを提供する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP4807881B2 (ja) | 2011-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4807881B2 (ja) | 潜在話題語抽出装置、潜在話題語抽出方法、プログラムおよび記録媒体 | |
Li et al. | Filtering out the noise in short text topic modeling | |
Qian et al. | Social event classification via boosted multimodal supervised latent dirichlet allocation | |
Lin et al. | Generating event storylines from microblogs | |
Cai et al. | What are popular: exploring twitter features for event detection, tracking and visualization | |
Tsai et al. | Concept-based analysis of scientific literature | |
Liu et al. | Story forest: Extracting events and telling stories from breaking news | |
Huang et al. | Topic detection from large scale of microblog stream with high utility pattern clustering | |
US8412650B2 (en) | Device and method and program of text analysis based on change points of time-series signals | |
Pervin et al. | Fast, scalable, and context-sensitive detection of trending topics in microblog post streams | |
JP2012027845A (ja) | 情報処理装置、関連文提供方法、及びプログラム | |
Liu et al. | Heterogeneous features and model selection for event-based media classification | |
Lee | Unsupervised and supervised learning to evaluate event relatedness based on content mining from social-media streams | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
Schulz et al. | Small-scale incident detection based on microposts | |
Liu et al. | Topical word trigger model for keyphrase extraction | |
JP4714710B2 (ja) | 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体 | |
Mazarura et al. | A Gamma-Poisson mixture topic model for short text | |
Sabbah et al. | Hybrid support vector machine based feature selection method for text classification. | |
JP4807880B2 (ja) | 蓄積文書分類装置、蓄積文書分類方法、プログラムおよび記録媒体 | |
JP2005122510A (ja) | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
JP4795856B2 (ja) | クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP6042790B2 (ja) | トレンド分析装置、トレンド分析方法およびトレンド分析プログラム | |
Khan et al. | Stress detection from Twitter posts using LDA | |
Bai et al. | Text-based Person Search without Parallel Image-Text Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110812 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110815 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |