JP4192760B2 - カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 - Google Patents
カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP4192760B2 JP4192760B2 JP2003372996A JP2003372996A JP4192760B2 JP 4192760 B2 JP4192760 B2 JP 4192760B2 JP 2003372996 A JP2003372996 A JP 2003372996A JP 2003372996 A JP2003372996 A JP 2003372996A JP 4192760 B2 JP4192760 B2 JP 4192760B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- appearance
- document
- phrase
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップ(ステップ1)と、
カテゴリ関連度評価手段が、語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップ(ステップ2)と、からなる。
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段13と、
語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段14と、を有する。
12 収集文書データベース
13 語句集計手段、語句集計部
14 カテゴリ関連度評価手段、カテゴリ関連度評価部
15 関連度ランキングデータベース
131 形態素解析部
132 出現カテゴリ数集計部
133 カテゴリ別時間傾斜出現量集計部
134 出現期間集計部
135 カテゴリ別出現文書数集計部
141 出現カテゴリ数要素算出部
142 出現量要素算出部
143 寿命要素算出部
144 出現文書数要素算出部
145 カテゴリ関連度算出部
Claims (4)
- カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップと、
カテゴリ関連度評価手段が、語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップと、からなるカテゴリ別新出特徴語ランキング方法。 - カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段と、
語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段と、
を有するカテゴリ別新出特徴語ランキング装置。 - 請求項2記載のカテゴリ別新出特徴語ランキング装置を構成する各手段としてコンピュータを機能させるためのカテゴリ別新出特徴語ランキングプログラム。
- 請求項3記載のカテゴリ別新出特徴語ランキングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003372996A JP4192760B2 (ja) | 2003-10-31 | 2003-10-31 | カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003372996A JP4192760B2 (ja) | 2003-10-31 | 2003-10-31 | カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005135311A JP2005135311A (ja) | 2005-05-26 |
JP4192760B2 true JP4192760B2 (ja) | 2008-12-10 |
Family
ID=34649216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003372996A Expired - Fee Related JP4192760B2 (ja) | 2003-10-31 | 2003-10-31 | カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4192760B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845645B (zh) | 2008-05-01 | 2020-08-04 | 启创互联公司 | 用于产生语义网络和用于媒体合成的方法及系统 |
WO2011042946A1 (ja) | 2009-10-05 | 2011-04-14 | 株式会社 東芝 | 類似コンテンツ検索装置及びプログラム |
CN105956158B (zh) * | 2016-05-17 | 2019-08-09 | 清华大学 | 基于海量微博文本和用户信息的网络新词自动提取的方法 |
-
2003
- 2003-10-31 JP JP2003372996A patent/JP4192760B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005135311A (ja) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lovaglio et al. | Skills in demand for ICT and statistical occupations: Evidence from web‐based job vacancies | |
Wiedemann | Text mining for qualitative data analysis in the social sciences | |
Althaus et al. | Using substitutes for full-text news stories in content analysis: Which text is best? | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
JP5729308B2 (ja) | 評判分析装置、評判分析方法、および評判分析用プログラム | |
JP5895052B2 (ja) | 情報分析システム及び情報分析方法 | |
US8126790B2 (en) | System for cost-sensitive autonomous information retrieval and extraction | |
JP4569380B2 (ja) | ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体 | |
CN118378053B (zh) | 基于数据挖掘的用户数据分析方法 | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN109815328B (zh) | 一种摘要生成方法及装置 | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
CN114222000A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
JP2011253256A (ja) | 関連コンテンツ提示装置及びプログラム | |
US20080103882A1 (en) | Method for cost-sensitive autonomous information retrieval and extraction | |
JP4192760B2 (ja) | カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 | |
CN110428102B (zh) | 基于hc-tc-lda的重大事件趋势预测方法 | |
Fritsche et al. | Deciphering professional forecasters' stories: Analyzing a corpus of textual predictions for the German economy | |
JP4539616B2 (ja) | 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム | |
Maynard et al. | Automatic creation and monitoring of semantic metadata in a dynamic knowledge portal | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP2010218216A (ja) | 類似文書検索システム、方法及びプログラム | |
JP4977004B2 (ja) | 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
Swisher et al. | A data science and machine learning approach to continuous analysis of Shakespeare's plays | |
CN118520174B (zh) | 基于数据分析的客户行为特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080826 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080908 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |