JP2007140603A - Early adapter extraction method and device and program and topic word prediction method and device and program - Google Patents
Early adapter extraction method and device and program and topic word prediction method and device and program Download PDFInfo
- Publication number
- JP2007140603A JP2007140603A JP2005329269A JP2005329269A JP2007140603A JP 2007140603 A JP2007140603 A JP 2007140603A JP 2005329269 A JP2005329269 A JP 2005329269A JP 2005329269 A JP2005329269 A JP 2005329269A JP 2007140603 A JP2007140603 A JP 2007140603A
- Authority
- JP
- Japan
- Prior art keywords
- document
- topic word
- information description
- early adapter
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラムに係り、特に、情報記述文書から最新の話題語を提示する作者を抽出ためのアーリーアダプタ抽出方法及び装置及びプログラム、及び話題語を抽出するための話題語予測方法及び装置及びプログラムに関する。 BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an early adapter extraction method and apparatus and program, and a topic word prediction method and apparatus and program, and more particularly to an early adapter extraction method and apparatus and program for extracting an author who presents the latest topic word from an information description document. , And a topic word prediction method, apparatus, and program for extracting topic words.
収集した多種多様な文書から話題語を抽出する技術として、複数のカテゴリ分類された作成時刻情報付きの文書が入力されると、当該文書を解析し、文書内に出現する語句と語句の語句付随情報を集計し、語句の語句付随情報を利用して語句が出現するカテゴリへの関連度を各語句について算出する技術がある(例えば、特許文献1参照)。
従来の話題語抽出のための技術では、収集した多くの文書全体に対して出現頻度の高い語を抽出することを基礎とした手法で分析を行い、話題語抽出を行ってきた。さらに、この出現頻度の高い語を抽出することを基礎として分析手法自体を工夫することにより話題語抽出の精度を向上してきた。 In the conventional technique for extracting topic words, analysis is performed by a technique based on extracting words having a high frequency of appearance in the entire collected documents, and topic words are extracted. Furthermore, the accuracy of topic word extraction has been improved by devising the analysis method itself on the basis of extracting words with high appearance frequency.
しかしながら、従来の話題語抽出の技術は、現在の話題になっている話題語を抽出することはできるが、これらの話題となる話題語を予測して抽出することはできないという問題がある。 However, the conventional topic word extraction technique can extract the topic word that is the current topic, but cannot predict and extract the topic word that becomes the topic.
本発明は、上記の点に鑑みなされたもので、話題語に敏感な作者(アーリーアダプタ)を抽出すると共に、当該アーリーアダプタが記述した情報記述文書を抽出可能とし、最近の情報記述文書に含まれるこれから話題となる話題語を分析して抽出することにより話題語の予測が可能なアーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and extracts an author (early adapter) sensitive to a topic word and enables extraction of an information description document described by the early adapter, which is included in recent information description documents. It is an object of the present invention to provide an early adapter extraction method and apparatus and program, and a topic word prediction method and apparatus and program capable of predicting a topic word by analyzing and extracting a topic word to be discussed.
本発明(請求項1)は、作者と作成日付を特定できる複数の情報記述文書から話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出方法であって、
話題語フィルタリング手段が、入力された前記複数の情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリングステップと、
作成日付フィルタリング手段が、前記情報記述文書から作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリングステップと、
アーリーアダプタ抽出手段が、前記作成日付フィルタリングステップで得られた作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出ステップと、を行う。
The present invention (Claim 1) is an early adapter extraction method for extracting an author who is an early adapter related to a topic word from a plurality of information description documents that can specify an author and a creation date.
Topic word filtering means for extracting an information description document including a topic word from the plurality of input information description documents,
A creation date filtering step in which a creation date filtering means extracts a predetermined number of information description documents written earlier in the creation date from the information description document;
The early adapter extracting means performs an early adapter extracting step of extracting an author who is an early adapter related to a topic word describing an information description document having an older creation date obtained in the creation date filtering step.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項2)は、作者と作成日付を特定できる複数の情報記述文書から最新の話題語を予測する話題語予測方法であって、
文書収集手段が、作者と作成日時を特定できる情報記述文書を収集し、文書格納手段に格納する文書収集ステップ(ステップ1)と、
アーリーアダプタ文書抽出手段が、文書格納手段に格納されている情報記述文書からある話題語に関するアーリーアダプタである文書作者の文書のうち、指定した期間に作成された文書を抽出し、アーリーアダプタ文書格納手段に格納するアーリーアダプタ文書抽出ステップ(ステップ2)と、
話題語抽出手段が、アーリーアダプタ文書格納手段に格納されている文書から話題語を抽出する話題語抽出ステップ(ステップ3)と、を行う。
The present invention (Claim 2) is a topic word prediction method for predicting the latest topic word from a plurality of information description documents that can specify the author and the creation date,
A document collection step (step 1) in which the document collection unit collects an information description document capable of specifying the author and the creation date and stores the information description document in the document storage unit;
The early adapter document extraction means extracts documents created during a specified period from the document author's documents that are early adapters related to a topic word from the information description document stored in the document storage means, and stores the early adapter document. An early adapter document extraction step (step 2) to be stored in the means;
The topic word extraction means performs a topic word extraction step (step 3) for extracting a topic word from the document stored in the early adapter document storage means.
また、本発明(請求項3)は、アーリーアダプタ文書抽出ステップ(ステップ2)において、
アーリーアダプタ文書抽出手段の話題語フィルタリング手段が、文書格納手段に格納されている情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリングステップと、
アーリーアダプタ文書抽出手段の作成日付フィルタリング手段が、話題語フィルタリングステップで抽出された情報記述文書から、作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリングステップと、
アーリーアダプタ文書抽出手段のアーリーアダプタ記述文書抽出手段が、作成日付フィルタリングステップで抽出された情報記述文書から、作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者の情報記述文書を抽出するアーリーアダプタ記述文書抽出ステップと、
アーリーアダプタ文書抽出手段の期間フィルタリング手段が、アーリーアダプタ記述文書抽出ステップで得られた話題語に関するアーリーアダプタである作者の情報記述文書のうち、一定期間内に作成された文書を抽出する期間フィルタリングステップと、を行う。
Further, according to the present invention (Claim 3), in the early adapter document extraction step (Step 2),
A topic word filtering step in which the topic word filtering means of the early adapter document extracting means extracts an information description document including a topic word from the information description document stored in the document storage means;
A creation date filtering step in which the creation date filtering means of the early adapter document extraction means extracts a predetermined number of information description documents written earlier in the creation date from the information description documents extracted in the topic word filtering step;
The early adapter description document extracting means of the early adapter document extracting means obtains the author's information description document which is an early adapter related to the topic word describing the information description document with the old creation date from the information description document extracted in the creation date filtering step. An early adapter description document extraction step to be extracted;
Period filtering step in which the period filtering means of the early adapter document extracting means extracts a document created within a certain period from the author's information description document which is an early adapter related to the topic word obtained in the early adapter description document extracting step. And do.
本発明(請求項4)は、作者と作成日付を特定できる複数の情報記述文書から話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出装置であって、
入力された複数の情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリング手段と、
情報記述文書から作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリング手段と、
作成日付フィルタリング手段で得られた作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出手段と、を有する。
The present invention (Claim 4) is an early adapter extraction device for extracting an author who is an early adapter related to a topic word from a plurality of information description documents that can specify an author and a creation date.
A topic word filtering means for extracting an information description document including a topic word from a plurality of input information description documents;
A creation date filtering means for extracting a fixed number of information description documents written earlier from an information description document,
An early adapter extracting means for extracting an author who is an early adapter related to a topic word describing an information description document having an old creation date obtained by the creation date filtering means.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項5)は、作者と作成日付を特定できる複数の情報記述文書から最新の話題語を予測する話題語予測装置であって、
収集された文書を格納する文書格納手段102と、
アーリーアダプタである文書作者の文書を格納するアーリーアダプタ文書格納手段104と、
作者と作成日時を特定できる情報記述文書を収集し、文書格納手段102に格納する文書収集手段101と、
文書格納手段102に格納されている情報記述文書からある話題語に関するアーリーアダプタである文書作者の文書のうち、指定した期間に作成された文書を抽出し、アーリーアダプタ文書格納手段104に格納するアーリーアダプタ文書抽出手段103と、
アーリーアダプタ文書格納手段104に格納されている文書から話題語を抽出する話題語抽出手段105と、を有する。
The present invention (Claim 5) is a topic word prediction device that predicts the latest topic word from a plurality of information description documents that can specify the author and the creation date,
Document storage means 102 for storing the collected documents;
Early adapter document storage means 104 for storing a document author's document as an early adapter;
A
The document created during the specified period is extracted from the document author's document, which is an early adapter related to a topic word, from the information description document stored in the
A topic
また、本発明(請求項6)は、アーリーアダプタ文書抽出手段103において、
文書格納手段102に格納されている情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリング手段と、
話題語フィルタリング手段で抽出された情報記述文書から、作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリング手段と、
作成日付フィルタリング手段で抽出された情報記述文書から、作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者の情報記述文書を抽出するアーリーアダプタ記述文書抽出手段と、
アーリーアダプタ記述文書抽出手段で得られた話題語に関するアーリーアダプタである作者の情報記述文書のうち、一定期間内に作成された文書を抽出する期間フィルタリング手段と、を含む。
Further, according to the present invention (claim 6), the early adapter document extracting means 103
Topic word filtering means for extracting an information description document including a topic word from the information description document stored in the document storage means 102;
A creation date filtering means for extracting a certain number of information description documents written earlier in the creation date from the information description documents extracted by the topic word filtering means;
An early adapter description document extracting means for extracting an author's information description document that is an early adapter related to a topic word describing an information description document having an older creation date from the information description document extracted by the creation date filtering means;
Period filtering means for extracting a document created within a certain period from the author's information description document which is an early adapter related to the topic word obtained by the early adapter description document extracting means.
本発明(請求項7)は、コンピュータに、請求項1記載のステップを実行させるアーリーアダプタ抽出プログラムである。 The present invention (Claim 7) is an early adapter extraction program that causes a computer to execute the steps of Claim 1.
本発明(請求項8)は、コンピュータに、請求項2または、3記載のステップを実行させる話題予測プログラムである。 The present invention (Claim 8) is a topic prediction program that causes a computer to execute the steps of Claim 2 or Claim 3.
上記のように本発明によれば、アーリーアダプタ抽出装置により、話題語に敏感な作者及び当該作者の情報記述文書を抽出できる。さらに、話題語に敏感な作者の最近の情報記述文書にはこれらか話題となる話題語が含まれており、これを分析して抽出することにより話題語の予測ができるようになる。 As described above, according to the present invention, the early adapter extraction device can extract the author who is sensitive to the topic word and the information description document of the author. Furthermore, recent information description documents of authors who are sensitive to topic words include these or topic words that become topics. By analyzing and extracting them, topic words can be predicted.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
本発明では、多種多様な文書全体を分析の対象とするのではなく、作者と作成日付が特定できる情報記述文書を対象とし、更に、新聞や各種メディアで既に公開されている話題語、流行語、注目語(以下話題語)の中の一つの話題語に関連する記事を記述している情報記述文書であって、時期的に早い段階でその話題語を取り上げた情報記述文書の作者である、話題語に敏感な文書作者(アーリーアダプタ)を抽出し、この話題語に敏感な複数のWebページ作者の作成した情報記述文書を抽出し、当該情報記述文書を分析の対象として話題語を抽出する。このように予め話題語に早期に気付き、話題語に関連した記事を記述した複数の文書作成者の作成した情報記述文書を抽出し、それらの情報記述文書から話題語を抽出することにより、これから話題となる話題語を予測することができる。 In the present invention, not all of a wide variety of documents are analyzed, but an information description document in which an author and a creation date can be specified is targeted, and a topic word or buzzword already published in newspapers or various media. An information description document that describes an article related to one topic word in the attention word (topic word) and is the author of the information description document that picks up the topic word at an early stage , Extract the author (early adapter) sensitive to the topic word, extract the information description document created by multiple Web page authors sensitive to the topic word, and extract the topic word using the information description document as the object of analysis To do. In this way, by extracting information description documents created by a plurality of document creators who have previously noticed topic words in advance and described articles related to the topic words, and extracting topic words from these information description documents, A topic word to be a topic can be predicted.
本実施の形態では、説明の簡単化のために、ここでは、作者と作成日付を特定できる情報記述文書としてブログを用いて説明する。 In this embodiment, for simplification of description, a blog is used as an information description document that can specify an author and a creation date.
図3は、本発明の一実施の形態における最新話題語予測装置の構成図である。 FIG. 3 is a configuration diagram of the latest topic word prediction device according to the embodiment of the present invention.
同図に示す最新話題語予測装置300は、インターネット上のブログサイトからブログを収集するブログ収集部301(請求項の文書収集手段に対応)、収集したエントリを格納するブログエントリ格納部302(請求項の文書格納手段に対応)、収集したブログエントリの中から話題語に敏感なブロガー(請求項のアーリーアダプタである作者に対応)が記述したブログエントリを抽出するためのアーリーアダプタ文書抽出装置303(請求項のアーリーアダプタ抽出手段に対応)、これらのブログエントリを検索する、アーリーアダプタエントリ格納部304(請求項のアーリーアダプタ文書格納手段に対応)、及び、話題語を抽出する話題語抽出部305から構成される。このうち、ブログエントリ格納部302、アーリーアダプタブログエントリ格納部304は、ディスク装置などの記憶媒体である。
The latest topic
本発明の最新話題語予測装置300では、まず、インターネットの上のブログサイトからブログ収集部301によって、ブログエントリを収集し、ブログエントリ格納部302に格納する。
In the latest topic
次に、アーリーアダプタ文書抽出装置303において、ブログエントリ格納部302に格納されたブログエントリから話題語を扱ったブログエントリのうち早期に作成された複数のブロガーのブログから期間を設定することにより、最新のブログエントリを抽出する。例えば、「最近3日間に作成されたブログエントリ」と指定することにより、アーリーアダプタ文書抽出装置303では、話題語の情報に早期に気づいたアーリーアダプタのブログエントリのうち、最近作成されたエントリが収集できることになる。
Next, in the early adapter
最後に、話題語抽出部305により話題語を抽出する。上記のアーリーアダプタのブログエントリの中にはまだ一般的には気付かれていない話題語を含んだエントリが含まれていることから、最新話題語予測が可能である。
Finally, a topic word is extracted by the topic
次に、上記のアーリーアダプタ文書抽出装置303について詳細に説明する。
Next, the early adapter
図4は、本発明の一実施の形態におけるアーリーアダプタ抽出装置の構成を示す。 FIG. 4 shows the configuration of the early adapter extracting apparatus in one embodiment of the present invention.
アーリーアダプタ文書抽出装置303は、ブログエントリ格納部302に格納されたブログエントリに関して既に世間で公開されている話題語をクエリとしてキーワード検索を行うことにより、話題語に関連したブログエントリを抽出する話題語フィルタ部401、検索結果のブログエントリのうち作成日付の早いものから指定した数のブログエントリを抽出する作成日付フィルタリング部402、作成日付が古く、早期に話題語について取り上げたブロガーのブログ全体を抽出するアーリーアダプタブログ抽出部403、アーリーアダプタのブログの中から指定した日付より以前で指定した期間のブログを抽出する期間フィルタリング部404から構成される。
The early adapter
以上の構成を有するアーリーアダプタ文書抽出装置303によって、話題語に対して早期に着目したブロガーのブログのうち、例えば、最新のブログエントリを抽出し、アーリーアダプタブログエントリ格納部304に格納する。
The early adapter blog
次に、最新話題語予測装置300の各要素の動作について図3、図4、図5を用いて説明する。図5は、本発明の一実施の形態における最新話題語予測装置の動作のフローチャートである。
Next, the operation of each element of the latest topic
ブログ収集部301では、インターネット上のブログサイトからブログエントリを収集し(ステップ101)、ブログエントリ格納部302に保存する。この際、ブログ本文から日付データを抽出し格納する。日付の特定には、ブログ本文のタグを利用するなどが考えられる。さらに、ブログエントリについてはインデクシングを行い、キーワードによる全文検索を行うことができるようにブログエントリ格納部302に保存する(ステップ102)。
The
話題語フィルタリング部401は、ブログエントリ格納部302に保存されたブログエントリに対して、既に世の中に新聞やテレビ、インターネット上のWebサイトで公開されている、話題語、流行語、注目後(以下、話題語と記す)の一つXをクエリとして検索する(ステップ103)。
The topic
その結果得られたエントリの集合をGxとする。Gxは、複数のブログエントリの文書集合である。作成日付フィルタリング部402は、文書集合Gxに関して作成日時の古いブログエントリから順番にK個のエントリDk(k=1,2,…,K)を抽出する(ステップ104)。
Let Gx be the set of entries obtained as a result. Gx is a document set of a plurality of blog entries. The creation
ブログエントリであるDkには各々話題語Xが含まれており、話題語Xに関する記述の存在するブログエントリであるからDkは話題語に敏感なブロガーが記述したブログエントリである。アーリーアダプタブログ抽出部403は、K個のエントリそれぞれを記述したN人の作者であるブロガーPn(n=1,2,…,N)を抽出する(ステップ105)。
Each Dk, which is a blog entry, includes a topic word X, and since it is a blog entry in which a description relating to the topic word X exists, Dk is a blog entry described by a blogger sensitive to the topic word. The early adapter
N人のブロガーPnに対して、それぞれが記述したブログエントリの全文書EPnを収集し(ステップ106)、期間フィルタリング部404において当該EPnから更新日時の最新のエントリR日分の集合をOpn(OPn⊇EPn)として抽出する(ステップ107)。
All documents EPn of blog entries described by N bloggers Pn are collected (step 106), and a
期間フィルタリング部404は、抽出されたブログエントリの集合OPnをデータベースであるアーリーアダプタブログエントリ格納部304に保存する(ステップ108)。
The
なお、ステップ103〜ステップ108までの動作は、アーリーアダプタブログ抽出部303において行う。また、ステップ107とステップ108は順序を入れ替えて、アーリーアダプタのブログをアーリーアダプタブログエントリ格納部304に格納した後に、エントリの更新日付の新しい物をR日分を抽出し、話題語抽出部305に送ってもよい。
The operations from
話題語抽出部305では、文書集合Opnを分析することにより話題語を抽出する分析手法としては、OPnにおける頻出ワード抽出が考えられる。OPnのテキストに関して形態素解析を行い、テキストからワードを抜き出し、得られたワードの集合から形態素の属性により名詞を抜き出す処理を行い(ステップ109)、出現頻度の最も高いワードを話題語として表示する(ステップ110)。
The topic
ステップ109においては、形態素の代わりに固有表現抽出技術を使ってワードを抽出するなどが考えられる。また、ステップ110においては、TF・IDF(Term Frequency Inverse Document Frequency)を利用するなど既存の話題語抽出方法を用いて話題語として相応しいワードを抽出することとしてもよく、この方法については特に限定しない。
In step 109, it is conceivable to extract a word using a specific expression extraction technique instead of a morpheme. In
また、ブログエントリ収集部301から収集したブログエントリはブログエントリ格納部302に格納することなく、直接アーリーアダプタ文書抽出装置303で処理する構成も容易に考えられる。
In addition, a configuration in which the blog entry collected from the blog
なお、本発明を、アーリーアダプタである作者を抽出する目的で使用することも可能であり、この場合は、アーリーアダプタブログ抽出部403において、上記のステップ105までの処理を行うことで実現できる。この場合は、ステップ106以降のアーリーアダプタのブログエントリの出力処理、最近作成されたブログエントリを抽出する処理は不要となる。
Note that the present invention can also be used for the purpose of extracting an author who is an early adapter. In this case, the early adapter
また、本発明では、上記のステップ101〜ステップ105までの処理、及び、ステップ101〜ステップ110までの処理をプログラムとして構築し、アーリーアダプタ抽出装置及び、話題語予測装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
Further, in the present invention, the processing from
また、構築されたプログラムを、ハードディスク装置や、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールして実行させることが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk device or a flexible disk / CD-ROM, and installed in a computer to be executed.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、検索ポータルサイトの中には話題語をアンカーテキストとしてインターネット上の文書を対象としたキーワード検索結果へのリンクを提示するサービスを提供しているサイトがある。一般にこのようなサービスで提示される話題語は専門家が新聞やテレビをはじめとした各種メディアに目を通して注目した語を人手で提供しており、このようなサービスを自動化して提供できる。 According to the present invention, some search portal sites provide a service that presents a link to a keyword search result for a document on the Internet using a topic word as an anchor text. In general, the topic words presented by such services are manually provided by experts who have paid attention to various media such as newspapers and television, and such services can be provided automatically.
100 最新話題語予測装置
101 文書収集手段
102 文書格納手段
103 アーリーアダプタ抽出手段
104 アーリーアダプタ文書格納手段
105 話題語抽出手段
300 最新話題語予測装置
301 ブログ収集部
302 ブログエントリ格納部
303 アーリーアダプタ文書抽出装置
304 アーリーアダプタブログエントリ格納部
305 話題抽出部
401 話題語フィルタリング部
402 作成日時フィルタリング部
403 アーリーアダプタブログ抽出部
404 期間フィルタリング部
DESCRIPTION OF
Claims (8)
話題語フィルタリング手段が、入力された前記複数の情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリングステップと、
作成日付フィルタリング手段が、前記情報記述文書から作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリングステップと、
アーリーアダプタ抽出手段が、前記作成日付フィルタリングステップで得られた作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出ステップと、
を行うことを特徴とするアーリーアダプタ抽出方法。 An early adapter extraction method for extracting an author who is an early adapter related to a topic word from a plurality of information description documents that can specify an author and a creation date,
Topic word filtering means for extracting an information description document including a topic word from the plurality of input information description documents,
A creation date filtering step in which a creation date filtering means extracts a predetermined number of information description documents written earlier in the creation date from the information description document;
An early adapter extracting step in which an early adapter extracting means extracts an author who is an early adapter related to a topic word describing an information description document having an old creation date obtained in the creation date filtering step;
The early adapter extraction method characterized by performing.
文書収集手段が、作者と作成日時を特定できる情報記述文書を収集し、文書格納手段に格納する文書収集ステップと、
アーリーアダプタ文書抽出手段が、前記文書格納手段に格納されている前記情報記述文書からある話題語に関するアーリーアダプタである文書作者の文書のうち、指定した期間に作成された文書を抽出し、アーリーアダプタ文書格納手段に格納するアーリーアダプタ文書抽出ステップと、
話題語抽出手段が、前記アーリーアダプタ文書格納手段に格納されている前記文書から話題語を抽出する話題語抽出ステップと、
を有することを特徴とする話題語予測方法。 A topic word prediction method for predicting the latest topic word from a plurality of information description documents that can specify an author and a creation date,
A document collection step in which the document collection means collects an information description document that can specify the author and creation date and stores the information description document in the document storage means;
An early adapter document extraction unit extracts a document created during a specified period from documents of a document author who is an early adapter related to a topic word from the information description document stored in the document storage unit, and the early adapter An early adapter document extraction step for storing in the document storage means;
A topic word extracting unit that extracts a topic word from the document stored in the early adapter document storage unit;
The topic word prediction method characterized by having.
前記アーリーアダプタ文書抽出手段の話題語フィルタリング手段が、前記文書格納手段に格納されている前記情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリングステップと、
前記アーリーアダプタ文書抽出手段の作成日付フィルタリング手段が、前記話題語フィルタリングステップで抽出された前記情報記述文書から、作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリングステップと、
前記アーリーアダプタ文書抽出手段のアーリーアダプタ記述文書抽出手段が、前記作成日付フィルタリングステップで抽出された前記情報記述文書から、作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者の情報記述文書を抽出するアーリーアダプタ記述文書抽出ステップと、
前記アーリーアダプタ文書抽出手段の期間フィルタリング手段が、前記アーリーアダプタ文書抽出ステップで得られた話題語に関するアーリーアダプタである作者の情報記述文書のうち、一定期間内に作成された文書を抽出する期間フィルタリングステップと、
を行う請求項2記載の話題語予測方法。 In the early adapter document extraction step,
A topic word filtering step in which the topic word filtering means of the early adapter document extraction means extracts an information description document including a topic word from the information description document stored in the document storage means;
Creation date filtering means for extracting creation date filtering means of the early adapter document extracting means for extracting a predetermined number of information description documents written earlier and earlier from the information description document extracted in the topic word filtering step. Steps,
The information of the author who is the early adapter related to the topic word describing the information description document with the old creation date from the information description document extracted in the creation date filtering step by the early adapter description document extraction means of the early adapter document extraction means An early adapter description document extraction step for extracting a description document;
Period filtering in which the period filtering means of the early adapter document extracting means extracts a document created within a certain period from the author's information description document which is an early adapter related to the topic word obtained in the early adapter document extracting step. Steps,
The topic word prediction method according to claim 2, wherein:
入力された前記複数の情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリング手段と、
前記情報記述文書から作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリング手段と、
前記作成日付フィルタリング手段で得られた作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者を抽出するアーリーアダプタ抽出手段と、
を有することを特徴とするアーリーアダプタ抽出装置。 An early adapter extraction device for extracting an author who is an early adapter related to a topic word from a plurality of information description documents that can specify an author and a creation date,
A topic word filtering means for extracting an information description document including a topic word from the plurality of input information description documents;
Creation date filtering means for extracting a predetermined number of information description documents written earlier in the creation date from the information description document;
Early adapter extraction means for extracting an author who is an early adapter related to a topic word describing an information description document with an old creation date obtained by the creation date filtering means;
An early adapter extraction device comprising:
収集された文書を格納する文書格納手段と、
アーリーアダプタである文書作者の文書を格納するアーリーアダプタ文書格納手段と、
作者と作成日時を特定できる情報記述文書を収集し、前記文書格納手段に格納する文書収集手段と、
前記文書格納手段に格納されている前記情報記述文書からある話題語に関するアーリーアダプタである文書作者の文書のうち、指定した期間に作成された文書を抽出し、前記アーリーアダプタ文書格納手段に格納するアーリーアダプタ文書抽出手段と、
前記アーリーアダプタ文書格納手段に格納されている前記文書から話題語を抽出する話題語抽出手段と、
を有することを特徴とする話題語予測装置。 A topic word prediction device that predicts the latest topic word from a plurality of information description documents that can specify an author and a creation date,
Document storage means for storing the collected documents;
Early adapter document storage means for storing the document author's document as an early adapter;
A document collection unit that collects an information description document that can specify an author and a creation date, and stores the document in the document storage unit;
A document created during a specified period is extracted from documents of a document author who is an early adapter related to a topic word from the information description document stored in the document storage unit, and is stored in the early adapter document storage unit. Early adapter document extraction means;
Topic word extraction means for extracting a topic word from the document stored in the early adapter document storage means;
A topic word prediction device characterized by comprising:
前記文書格納手段に格納されている前記情報記述文書から話題語が含まれる情報記述文書を抽出する話題語フィルタリング手段と、
前記話題語フィルタリング手段で抽出された前記情報記述文書から、作成日付の古い、早期に書かれた一定個数の情報記述文書を抽出する作成日付フィルタリング手段と、
前記作成日付フィルタリング手段で抽出された前記情報記述文書から、作成日付の古い情報記述文書を記述した話題語に関するアーリーアダプタである作者の情報記述文書を抽出するアーリーアダプタ記述文書抽出手段と、
前記アーリーアダプタ記述文書抽出手段で得られた話題語に関するアーリーアダプタである作者の情報記述文書のうち、一定期間内に作成された文書を抽出する期間フィルタリング手段と、
を含む請求項5記載の話題語予測装置。 The early adapter document extraction means includes:
Topic word filtering means for extracting an information description document including a topic word from the information description document stored in the document storage means;
A creation date filtering means for extracting a fixed number of information description documents written earlier in the creation date from the information description document extracted by the topic word filtering means;
Early adapter description document extraction means for extracting an author's information description document that is an early adapter related to a topic word describing an information description document with an old creation date from the information description document extracted by the creation date filtering means;
Period filtering means for extracting a document created within a certain period from the author's information description document which is an early adapter related to the topic word obtained by the early adapter description document extracting means;
The topic word prediction device according to claim 5, comprising:
請求項1記載のステップを実行させることを特徴とするアーリーアダプタ抽出プログラム。 On the computer,
An early adapter extraction program for executing the steps according to claim 1.
請求項2または、3記載のステップを実行させることを特徴とする話題予測プログラム。 On the computer,
A topic prediction program for executing the steps according to claim 2 or 3.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005329269A JP2007140603A (en) | 2005-11-14 | 2005-11-14 | Early adapter extraction method and device and program and topic word prediction method and device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005329269A JP2007140603A (en) | 2005-11-14 | 2005-11-14 | Early adapter extraction method and device and program and topic word prediction method and device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007140603A true JP2007140603A (en) | 2007-06-07 |
Family
ID=38203424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005329269A Pending JP2007140603A (en) | 2005-11-14 | 2005-11-14 | Early adapter extraction method and device and program and topic word prediction method and device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007140603A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116469A (en) * | 2007-11-02 | 2009-05-28 | Fujitsu Ltd | Information extraction program and information extraction device |
JP2009163399A (en) * | 2007-12-28 | 2009-07-23 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, program for extracting relevant keyword and computer-readable recording medium |
JP2009288964A (en) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Relevant keyword extraction method and device and program and computer-readable recording medium |
JP2010092217A (en) * | 2008-10-07 | 2010-04-22 | Kansai Electric Power Co Inc:The | Document processing method |
JP2010134882A (en) * | 2008-12-08 | 2010-06-17 | Yahoo Japan Corp | Device, method and system for detection of vogue word |
JP2017208044A (en) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | Observer detection device, method, program, and computer-readable storage medium |
WO2023202322A1 (en) * | 2022-04-19 | 2023-10-26 | 北京字节跳动网络技术有限公司 | Theme aggregation method and apparatus, and electronic device |
JP7459026B2 (en) | 2021-08-18 | 2024-04-01 | Lineヤフー株式会社 | Information processing device, information processing method, and information processing program |
-
2005
- 2005-11-14 JP JP2005329269A patent/JP2007140603A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116469A (en) * | 2007-11-02 | 2009-05-28 | Fujitsu Ltd | Information extraction program and information extraction device |
JP2009163399A (en) * | 2007-12-28 | 2009-07-23 | Nippon Telegr & Teleph Corp <Ntt> | Method, device, program for extracting relevant keyword and computer-readable recording medium |
JP2009288964A (en) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Relevant keyword extraction method and device and program and computer-readable recording medium |
JP2010092217A (en) * | 2008-10-07 | 2010-04-22 | Kansai Electric Power Co Inc:The | Document processing method |
JP2010134882A (en) * | 2008-12-08 | 2010-06-17 | Yahoo Japan Corp | Device, method and system for detection of vogue word |
JP2017208044A (en) * | 2016-05-20 | 2017-11-24 | 日本電信電話株式会社 | Observer detection device, method, program, and computer-readable storage medium |
JP7459026B2 (en) | 2021-08-18 | 2024-04-01 | Lineヤフー株式会社 | Information processing device, information processing method, and information processing program |
WO2023202322A1 (en) * | 2022-04-19 | 2023-10-26 | 北京字节跳动网络技术有限公司 | Theme aggregation method and apparatus, and electronic device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8341175B2 (en) | Automatically finding contextually related items of a task | |
JP4241934B2 (en) | Text processing and retrieval system and method | |
JP2007140603A (en) | Early adapter extraction method and device and program and topic word prediction method and device and program | |
JP2010003015A (en) | Document search system | |
JP2009093646A (en) | Method, software and apparatus for intelligently sorting search results | |
JP5185402B2 (en) | Document search apparatus, document search method, and document search program | |
JP4542993B2 (en) | Structured document extraction apparatus, structured document extraction method, and structured document extraction program | |
JP2010128917A (en) | Method, device and program for extracting information propagation network | |
JP2007193697A (en) | Information collection apparatus, information collection method and program | |
JP2006302024A (en) | Relevant document display method and program | |
JP2010224984A (en) | Device, method, and program for supporting patent specification evaluation-creation work | |
WO2014078449A2 (en) | Intelligent information summarization and display | |
JP2009080559A (en) | Retrieval system, method, and program | |
JP2008299842A (en) | Reaction information providing method by advertisement execution, computer readable recording medium, and reaction information providing system by advertisement execution | |
JP2008226110A (en) | Information processor, information processing method and control program | |
JP5321258B2 (en) | Information collecting system, information collecting method and program thereof | |
JP5639549B2 (en) | Information retrieval apparatus, method, and program | |
JP5287099B2 (en) | SEARCH DEVICE, INFORMATION PROCESSING DEVICE, SEARCH METHOD, PROGRAM, AND RECORDING MEDIUM | |
JP2008117134A (en) | Period extraction device, period extraction method, period extraction program implementing the method, and recording medium storing its program | |
JP2008234559A (en) | Document narrowing down retrieval device, method, and program | |
JP5228529B2 (en) | Data search program, data search device, and data search method | |
JP2011086156A (en) | System and program for tracking of leaked information | |
CN107818091B (en) | Document processing method and device | |
JP2007011892A (en) | Vocabulary acquisition method and device, program, and storage medium storing program | |
JP2009289094A (en) | Keyword comparison system, keyword comparison method and keyword comparison program |