JP2005258678A - 単語抽出方法、装置、およびプログラム - Google Patents
単語抽出方法、装置、およびプログラム Download PDFInfo
- Publication number
- JP2005258678A JP2005258678A JP2004067681A JP2004067681A JP2005258678A JP 2005258678 A JP2005258678 A JP 2005258678A JP 2004067681 A JP2004067681 A JP 2004067681A JP 2004067681 A JP2004067681 A JP 2004067681A JP 2005258678 A JP2005258678 A JP 2005258678A
- Authority
- JP
- Japan
- Prior art keywords
- word
- topic
- document set
- words
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 8
- 230000007704 transition Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 5
- 230000000699 topical effect Effects 0.000 abstract 6
- 230000000712 assembly Effects 0.000 abstract 1
- 238000000429 assembly Methods 0.000 abstract 1
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 241000282461 Canis lupus Species 0.000 description 18
- 238000004458 analytical method Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003203 everyday effect Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 クローラー11は指定された周期で、インターネット2から前回の収集以降に更新された文書を収集し、加工して文書DB16へ出力する。対象文書集合データ作成部12は、前記周期とは独立に指定された期間中に更新日時が含まれる収集文書をまとめて、話題語抽出の対象文書集合を作成し、統計量を計算して対象文書集合DB17へ出力する。単語抽出部13は対象文書集合から単語を抽出する。話題度計算部14は前回と今回の対象文書集合に関する統計量を基に、指定された方法で単語の話題度を計算し、話題度順に並べた話題語リストを話題語DB18へ出力する。表示部15は話題語リストと話題語の関連情報を表示する。
【選択図】 図1
Description
足立貴行、山田節夫、永田昌明、「小規模な文書集合からの語彙獲得法」、言語処理学会第9回年次大会発表論文集、pp.274−277、2003年3月.
逐次更新される文書集合から指定した期間における話題語を抽出する、単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を前記周期とは独立に作成する対象文書集合作成ステップと、
単語抽出手段が対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出ステップと、
話題度計算手段が抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題語リスト作成手段が話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップを
有する。
逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手段と、
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手段を
有する。
2)ある期間およびそれ以前の期間の文書における単語の重要度と、ある期間とそれ以前の期間の出現状況から計算される単語の最新度によって、話題度を計算することで、利用者にとって有用な話題語を得ることができる。
参考文献1: Mikio Yamamoto, Kenneth W. Church, 「Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in Corpus」, Computational Linguistics, Vol27, No.1, 2001, pp.1-30.
参考文献2: 北研二、津田和彦、獅々堀政幹、「情報探検アルゴリズム」、共立出版、2002年1月1日初版第1刷発行、pp.43−45.
参考文献3 石畑清、「アルゴリズムとデータ構造」、岩波書店、1989年3月30日第1刷発行、pp.399−401.
2 インターネット
11 クローラー
12 対象文書集合データ作成部
13 単語抽出部
13A 単語候補抽出部
13B 単語分割部
13C 単語選別部
14 話題度計算部
15 表示部
16 文書DB
17 対象文書集合DB
18 話題語DB
101〜105 ステップ
Claims (12)
- 逐次更新される文書集合から指定した期間における話題語を抽出する、単語抽出装置において行なわれる単語抽出方法であって、
文書収集手段が文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集ステップと、
対象文書集合作成手段が収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成ステップと、
単語抽出手段が対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出ステップと、
話題度計算手段が抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算ステップと、
話題語リスト作成手段が話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成ステップを
有する単語抽出方法。 - 前記対象文書集合作成ステップにおいて、特定の指定条件に合致する文書をまとめて単語抽出の対象となる文書集合を作成する、請求項1記載の単語抽出方法。
- 前記単語抽出ステップにおいて、対象文書集合をある単位に分割し、その単位における任意の文字列の単語スコアを計算し、その単位における単語スコアの総和が最大となる文字列の並びを単語列とする単語分割を行い、単語スコアが閾値以上の単語を抽出する、請求項1記載の単語抽出方法。
- 前記単語スコアは、統計量によって計算され、その統計量として、tf*idfを用いるものまたは残差IDFを用いるものであり、さらに文字種や文字列長も考慮して統計量が計算される、請求項3記載の単語抽出方法。
- 前記統計量は、対象文書集合の文字列統計量に加えて、事前準備した別の文書集合の文字列統計量を用いて計算される、請求項4記載の単語抽出方法。
- 前記話題度計算ステップにおいて、単語の重要度を求めるための文書集合中の統計量として、単語の出現頻度、単語を含む文書数を用いて総文書数を計算する、請求項1記載の単語抽出方法。
- 前記話題度計算ステップは、複数の話題度計算手段から、指定した手段で単語の話題度を計算するステップを有する、請求項1記載の単語抽出方法。
- 前記話題語リスト作成するステップにおいて、話題語リストと各単語の関連情報として、対象文書集合における話題語の出現頻度、話題語を含む文書数といった統計量、前記話題度計算ステップで計算された話題度、対象文書集合における話題語の統計量に関する時間推移のグラフ、話題語を含む文書へのハイパーリンク、話題語が出現する文書のタイトル、話題語が出現する文書における話題語の前後の文脈、ある話題語が出現する文書に含まれている別の話題語のいずれかを表示する、請求項1記載の単語抽出方法。
- 前記表示ステップにおいて、話題語リストのある話題語が出現した文書集合と別の話題語が出現した文書が包含関係にあるときは、これらをまとめて表示させ、あるいはより低い方の話題語を話題語リストから除外して表示させる、請求項8記載の単語抽出方法。
- 前記統計量において、文書集合中の文字列や単語の出現頻度やそれを含む文書数を計算する際に、接尾辞配列を用いる、請求項4、5、6、8のいずれかに記載の単語抽出方法。
- 逐次更新される文書集合から指定した期間における話題語を抽出する単語抽出装置であって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手段と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手段と、
対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手段と、
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手段と、
話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手段を
有する単語抽出装置。 - 逐次更新される文書集合から指定した期間における話題語を抽出する処理をコンピュータで実行するための単語抽出プログラムであって、
文書格納元から前回収集以降に更新された文書を指定された周期で収集する文書収集手順と、
収集文書から、前記周期とは独立に指定された期間内に更新された文書をまとめて単語抽出の対象となる文書集合を作成する対象文書集合作成手順と、
対象文書集合から文字列統計量と文字列長と文字種に基く単語分割を行って単語を抽出する単語抽出手順と、
抽出単語に対し、対象文書集合中の重要度と、対象文書集合より以前のある期間の文書集合中の重要度を計算し、以前と比べて重要度の上昇した度合いを単語の話題度として計算する話題度計算手順と、
話題度の高い順に単語を並べた話題語リストを作成する話題語リスト作成手順を
有する単語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067681A JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004067681A JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005258678A true JP2005258678A (ja) | 2005-09-22 |
JP4298550B2 JP4298550B2 (ja) | 2009-07-22 |
Family
ID=35084346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004067681A Expired - Lifetime JP4298550B2 (ja) | 2004-03-10 | 2004-03-10 | 単語抽出方法、装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4298550B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009211287A (ja) * | 2008-03-03 | 2009-09-17 | Fuji Xerox Co Ltd | 文字処理装置 |
WO2012124608A1 (ja) * | 2011-03-11 | 2012-09-20 | 株式会社 東芝 | 話題抽出装置及びプログラム |
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
JP2012243033A (ja) * | 2011-05-18 | 2012-12-10 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
KR101358084B1 (ko) | 2009-06-29 | 2014-02-11 | 마사아키 토쿠야마 | 정보처리장치 및 워크플로우 처리방법 |
US9806981B2 (en) | 2002-03-28 | 2017-10-31 | Kabushiki Kaisha Toshiba | Method of notifying function identification information and communication system |
-
2004
- 2004-03-10 JP JP2004067681A patent/JP4298550B2/ja not_active Expired - Lifetime
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10491506B2 (en) | 2002-03-28 | 2019-11-26 | Kabushiki Kaisha Toshiba | Method of notifying function identification information and communication system |
US10193787B2 (en) | 2002-03-28 | 2019-01-29 | Kabushiki Kaisha Toshiba | Method of notifying function identification information and communication system |
US9806981B2 (en) | 2002-03-28 | 2017-10-31 | Kabushiki Kaisha Toshiba | Method of notifying function identification information and communication system |
JP2009211287A (ja) * | 2008-03-03 | 2009-09-17 | Fuji Xerox Co Ltd | 文字処理装置 |
KR101358084B1 (ko) | 2009-06-29 | 2014-02-11 | 마사아키 토쿠야마 | 정보처리장치 및 워크플로우 처리방법 |
WO2012124608A1 (ja) * | 2011-03-11 | 2012-09-20 | 株式会社 東芝 | 話題抽出装置及びプログラム |
JP2012190340A (ja) * | 2011-03-11 | 2012-10-04 | Toshiba Corp | 話題抽出装置及びプログラム |
CN103282903A (zh) * | 2011-03-11 | 2013-09-04 | 株式会社东芝 | 话题提取装置和程序 |
US9449051B2 (en) | 2011-03-11 | 2016-09-20 | Kabushiki Kaisha Toshiba | Topic extraction apparatus and program |
US9529847B2 (en) | 2011-05-18 | 2016-12-27 | Sony Corporation | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings |
US8983997B2 (en) | 2011-05-18 | 2015-03-17 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP2012243033A (ja) * | 2011-05-18 | 2012-12-10 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4298550B2 (ja) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hill et al. | Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study | |
US8204891B2 (en) | Method and subsystem for searching media content within a content-search-service system | |
US9760570B2 (en) | Finding and disambiguating references to entities on web pages | |
US7469251B2 (en) | Extraction of information from documents | |
US20110029513A1 (en) | Method for Determining Document Relevance | |
US20110119262A1 (en) | Method and System for Grouping Chunks Extracted from A Document, Highlighting the Location of A Document Chunk Within A Document, and Ranking Hyperlinks Within A Document | |
US20090319449A1 (en) | Providing context for web articles | |
EP2019361A1 (en) | A method and apparatus for extraction of textual content from hypertext web documents | |
JP5010885B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
US9529847B2 (en) | Information processing apparatus, information processing method, and program for extracting co-occurrence character strings | |
US9015172B2 (en) | Method and subsystem for searching media content within a content-search service system | |
US20070061322A1 (en) | Apparatus, method, and program product for searching expressions | |
JP2003288362A (ja) | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
US20120330986A1 (en) | Information processing apparatus, information processing method, and program | |
US9183297B1 (en) | Method and apparatus for generating lexical synonyms for query terms | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP4298550B2 (ja) | 単語抽出方法、装置、およびプログラム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2009015796A (ja) | テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体 | |
JP3937741B2 (ja) | 文書の標準化 | |
Aslam et al. | Web-AM: An efficient boilerplate removal algorithm for Web articles | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP2009265770A (ja) | 重要文提示システム | |
JP2007172179A (ja) | 意見抽出装置、意見抽出方法、および意見抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050628 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050628 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090313 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090408 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4298550 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130424 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140424 Year of fee payment: 5 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |