JP4501569B2 - 話題度算出装置及びプログラム - Google Patents
話題度算出装置及びプログラム Download PDFInfo
- Publication number
- JP4501569B2 JP4501569B2 JP2004207592A JP2004207592A JP4501569B2 JP 4501569 B2 JP4501569 B2 JP 4501569B2 JP 2004207592 A JP2004207592 A JP 2004207592A JP 2004207592 A JP2004207592 A JP 2004207592A JP 4501569 B2 JP4501569 B2 JP 4501569B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- category
- document
- search
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
砂山渡、谷内田正彦(大阪大学)"時間情報を考慮したWebからの注目キーワードの抽出による創造活動支援"
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定ステップ(ステップ1)と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集ステップ(ステップ2)と、
形態素解析し得られた語句それぞれについて、該語句のカテゴリ分類情報が示す適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出ステップ(ステップ3)と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較し、検索カテゴリ情報と関連性を持つ語句データを語句データベースから抽出する検索分野語句抽出ステップ(ステップ5)と、
検索分野語句抽出ステップで抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出ステップ(ステップ7)と、
話題度算出ステップ(ステップ7)で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計ステップ(ステップ8)と、を行う。
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定ステップ(ステップ4)を更に行う。
外部から時刻情報の入力を受け付け、該時刻から一定時間遡った時刻までを集計時刻の範囲とし、該時刻範囲における時間重み付けを行う関数を設定する時間重み関数決定ステップ(ステップ6)を更に行う。
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段110と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段120と、
形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベース190に蓄積する語句特徴度算出手段130と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを語句データベース190から抽出する検索分野語句抽出手段150と、
検索分野語句抽出手段150で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段170と、
話題度算出手段170で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段180と、を有する。
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段140を更に有する。
図3は、本発明の第1の実施の形態における話題算出装置の構成を示す。
『グルメ60%政治10%スポーツ10%芸能20%』
といったカテゴリ分類情報を算出し、得られたカテゴリ分類情報を文書に付与し、すでに文書に付与されている文書作成時刻と共に文書内語句収集部120の解析済文書データバッファに記録する。ここでいう、多重カテゴリ抽出技術は、入力された文書データについて、予め設定された複数のカテゴリ一つ一つに対して、それぞれのカテゴリに何%の適合度を示すかを返すものであり、全てのカテゴリの適合度を合計すると100%になるようになっている。
『ドーナツ 2004 4/25 13:55 グルメ60%政治10%スポーツ10%芸能20%』
といった形式の語句データとし、語句特徴度算出部130の語句データバッファに蓄積する。語句データバッファへの出力データを図5に示す。図5に示すように、語句データバッファには、語句、作成時刻、カテゴリが蓄積される。
『ドーナツ 2004 4/25 13:55 グルメ60%政治10%スポーツ10%芸能20%』
『ドーナツ 2004 4/25 13:58 グルメ80%政治0%スポーツ10%芸能10%』
といったように、同じ語句だが時刻情報もしくはカテゴリ情報が異なる語句データが複数ある場合に、それらを一まとめにし、
『ドーナツ グルメ70%政治5%スポーツ10%芸能15%』
といった語句毎にカテゴリ情報の平均化した値を抽出する。
特徴度(ドーナツ)=(70−25)2+(5−25)2+(10−25)2+(15−25)2=2750
となる。
『グルメ67%政治7%スポーツ11%芸能15%』
という形になる。
t=−twからt=0の範囲において、図9に示すようなt=0に近い最近のデータほど重みが大きくなる基本時間重み関数tw_base(t)を、t=−twの点がtin−twに、t=0の点がtinに対応するよう線形変換して得られた時間重み関数Tw(t)を話題度算出部170に出力する。線形変換して得られた時間重み関数Tw(t)の例を図10に示す。
本実施の形態では、前述の第1の実施の形態における検索分野決定部140における外部入力を、検索語句ではなく、検索文書として実施する例を説明する。
本実施の形態では、前述の第1の実施の形態における検索分野決定部140を省略し、検索カテゴリ情報を外部から検索分野語句抽出部150に入力する例を説明する。
本実施の形態では、前述の第1の実施の形態の時間重み関数決定部160の処理に代えて、時間重み関数決定部において、集計時刻tinと集計時刻の幅tw_inとを外部の入力装置から直接取得する例を説明する。
20 話題出力記録装置
100 話題度算出装置
110 文書カテゴリ決定手段、文書カテゴリ決定部
120 文書内語句収集手段、文書内語句収集部
130 語句特徴度算出手段、語句特徴度算出部
140 検索分野決定手段、検索分野決定部
150 検索分野語句抽出手段、検索分野語句抽出部
160 時間重み関数決定手段、時間重み関数決定部
170 話題度算出手段、話題度算出部
180 話題度集計手段、話題度集計部
190 語句データベース
Claims (3)
- 多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出装置であって、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段と、
前記文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段と、
前記形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、前記語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出手段と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを前記語句データベースから抽出する検索分野語句抽出手段と、
前記検索分野語句抽出手段で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段と、
前記話題度算出手段で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段と、
を有することを特徴とする話題度算出装置。 - 前記検索分野語句抽出手段の前に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段を更に有する
請求項1記載の話題度算出装置。 - 請求項1または2に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004207592A JP4501569B2 (ja) | 2004-07-14 | 2004-07-14 | 話題度算出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004207592A JP4501569B2 (ja) | 2004-07-14 | 2004-07-14 | 話題度算出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006031272A JP2006031272A (ja) | 2006-02-02 |
JP4501569B2 true JP4501569B2 (ja) | 2010-07-14 |
Family
ID=35897560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004207592A Expired - Fee Related JP4501569B2 (ja) | 2004-07-14 | 2004-07-14 | 話題度算出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4501569B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5583164B2 (ja) * | 2012-03-29 | 2014-09-03 | 日本電信電話株式会社 | 専門度推定装置及び方法及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002099572A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体 |
-
2004
- 2004-07-14 JP JP2004207592A patent/JP4501569B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002099572A (ja) * | 2000-09-25 | 2002-04-05 | Toshiba Corp | 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2006031272A (ja) | 2006-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Collins‐Thompson et al. | Predicting reading difficulty with statistical language models | |
KR101120760B1 (ko) | 구조화 문서 검색 | |
JP4622589B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US8849787B2 (en) | Two stage search | |
CN110543564B (zh) | 基于主题模型的领域标签获取方法 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
US20080301121A1 (en) | Acquiring ontological knowledge from query logs | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2006331245A (ja) | 情報検索装置、情報検索方法およびプログラム | |
JP4165426B2 (ja) | 話題抽出方法及び装置及びプログラム | |
EP1973045A1 (en) | Organising and storing documents | |
JP4501569B2 (ja) | 話題度算出装置及びプログラム | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
US9165063B2 (en) | Organising and storing documents | |
Bashir | Estimating retrievability ranks of documents using document features | |
Waegel | The Development of Text-Mining Tools and Algorithms | |
JP2007183927A (ja) | 情報処理装置および方法、並びにプログラム | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
JP2000148770A (ja) | 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体 | |
Toews et al. | Determining Domain-Specific Differences of Polysemous Words Using Context Information. | |
JP2009104296A (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
JP4592566B2 (ja) | 話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2002269120A (ja) | 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体 | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090519 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100330 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100412 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130430 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140430 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |