JP4192760B2 - カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 - Google Patents

カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP4192760B2
JP4192760B2 JP2003372996A JP2003372996A JP4192760B2 JP 4192760 B2 JP4192760 B2 JP 4192760B2 JP 2003372996 A JP2003372996 A JP 2003372996A JP 2003372996 A JP2003372996 A JP 2003372996A JP 4192760 B2 JP4192760 B2 JP 4192760B2
Authority
JP
Japan
Prior art keywords
category
appearance
document
phrase
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003372996A
Other languages
English (en)
Other versions
JP2005135311A (ja
Inventor
吉秀 佐藤
晴美 川島
二大 大橋
伸治 安部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003372996A priority Critical patent/JP4192760B2/ja
Publication of JP2005135311A publication Critical patent/JP2005135311A/ja
Application granted granted Critical
Publication of JP4192760B2 publication Critical patent/JP4192760B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に係り、特に、新たに作成された文書を対象として、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体に関する。
現在から数時間〜数日前以降に作成された文書は、現在の世間の流行や関心事、新着情報など、タイムリーな情報を含んでいる可能性が高い。従って、作成時刻の新しい文書を数多く収集して解析すれば、最近のトレンドやタイムリーな出来事を把握することができる。情報の更新が早いインターネット上の文書では、時々刻々と新しい情報が追加されるため、この傾向はなおさらである。
新着情報を入手するため、続々と送られる文字情報から、更新部分のみを選択して提示することでタイムリーな情報の継続的な入手を支援する技術がある(例えば、特許文献1参照)。しかしながら、以前に受信した文書と新しく受信した文書の一部が重複しているような情報ソースを対象とする技術であり、数時間〜数日程度前までの期間に作成された文書を対象としてトレンドやタイムリーな出来事を抽出するのは不可能である。
また、単語の出現頻度を集計し、出現頻度の高い単語はトレンドを表す語であるとしてリストアップする技術がある(例えば、特許文献2参照)。現在から数時間〜数日前以降に作成された文書をこの技術の入力とすれば最近のトレンドを表す語をリストアップすることは可能になるが、文章の中で出現頻度の高い単語は一般性の高い単語である場合が多く、必ずしもトレンドを表す語ばかりがリストアップされるわけではない。
一方、自然言語処理の分野では、語句の出現頻度の文書間での相関関係を解析し、各文書内で特徴的な語句を抽出する技術がある。これは、ある文書での出現頻度が高くて他の文書での出現頻度が少ない語句に大きな重みを与え、多くの文書に出現する一般性の高い語句の重みを小さくすることで、語句の評価を行うものである。この技術を、予め内容に応じて複数のカテゴリに分類した文書に対して適用すれば、「各カテゴリ内で特徴的な語」を抽出することが可能である。さらに、最近作成された文書に対して処理を行えば、最近のトレンドを表す語句の抽出は可能である。しかし、最近作成された文書に出現し、あるカテゴリに特徴的であり、かつごく最近登場するようになったタイムリーな話題を選択して抽出するのは非常に難しい。
特開平8−161299号公報 特開平10−69496号公報
上記のように、従来の技術では、最近になって作成された文書から新しい概念やタイムリーな事件、出来事を表す語句を抽出するのは困難であった。
本発明は、上記の点に鑑みなされたもので、複数のカテゴリ別に収集された多数の文書からカテゴリ毎の新着特徴語を容易に抽出し、現在のトレンドを支援することが可能なカテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
上記の目的を達成するために、本発明(請求項1)は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップ(ステップ1)と、
カテゴリ関連度評価手段が、語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップ(ステップ2)と、からなる。
図2は、本発明の原理構成図である。
本発明(請求項)は、カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段13と、
語句の語句付随情報を利用し、出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段14と、を有する。
本発明(請求項)は、上記の請求項記載のカテゴリ別新出特徴語ランキング装置を構成する各手段としてコンピュータを機能させるためのカテゴリ別新出特徴語ランキングプログラムである。
本発明(請求項)は、上記の請求項記載のカテゴリ別新出特徴語ランキングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体である。
本発明によれば、多数の文書から、最近になって登場したタイムリーな話題を表す語句であって、かつ、各カテゴリに特徴的な語句を自動的に抽出することにより、各々の文章に目を通さなくても抽出語句を概観するだけでトレンドを把握することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング装置の構成を示す。
カテゴリ別新出特徴語ランキング装置11には、収集文書データベース12と関連度ランキングデータベース15が接続されている。
カテゴリ別新出特徴語ランキング装置11は、語句集計部とカテゴリ関連度評価部14から構成され、複数のカテゴリに分類された作成時刻情報付きの収集文書群を収集文書データベースから12から入力し、カテゴリ別の語句関連度ランキングを関連度ランキングデータベース15に出力する。
語句集計部13は、形態素解析部131、出現カテゴリ数集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135から構成される。
カテゴリ関連評価部14は、出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144及びカテゴリ関連度算出部145から構成される。
語句集計部13は、収集文書データベース12に蓄積されている収集文書を形態素解析部131で形態素に分解し、名詞のみを切り出す。
出現カテゴリ数集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135は、カテゴリ分類された各文書から抽出された名詞のそれぞれについて、関連度評価に用いる付随情報を集計し、メモリ等の記憶手段に一時的に記録する。
カテゴリ関連度評価部14の出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144及びカテゴリ関連度算出部145は、メモリ等の記憶手段に記録されている各語句付随情報を用いてカテゴリ関連度を算出し、カテゴリ別に語句の関連度ランキング15として出力する。
以下、具体例を用いて説明する。
本発明のカテゴリ別新出特徴語ランキング装置11の入力となる収集文書データベース12の収集文書データの例を図4に示す。収集文書データベース12には、カテゴリ1〜カテゴリNの全Nカテゴリのいずれかに分類された収集文書データが、作成時刻情報付きで保存されている。
図5は、本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング方法の全体の流れを表すフローチャートである。
ステップ301)図4の収集文書データベース12から収集文書が語句集計部13の形態素解析部131に入力される。形態素解析部131は、入力された文書データを品詞情報を付けて品詞毎に分解し、ランキング作成の対象となる品詞のみを出力する。本実施の形態では、名詞のみを対象品詞としてランキングを作成するものとして説明する。
ステップ302)上記の処理を、収集文書全てについて終了するまで繰り返す。
ステップ303)次に、出現カテゴリ集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135のそれぞれが、語句の付随情報を集計する。以下の各々集計部132〜135の動作を示す。
出現カテゴリ集計部132は、ある語句wがカテゴリ内の文書中に1度でも登場すればそれをカテゴリ内での出現とみなし、語句wが出現するカテゴリ数CF(w)を集計する。
カテゴリ別時間傾斜出現量集計部133は、カテゴリ内の全文書について、各文書内の語句の出現回数に、文書作成時刻に関連する重みを付けて加算する。
新出語を選出する本発明のカテゴリ別新出特徴語ランキング装置においては、文書の作成時刻が新しいほどその文書内での語句出現回数の影響が大きく、古いほど影響が小さくなるように重みを設定する必要があり、例えば、図6のように、作成時刻が最も新しい文書で重みが1、最も古い文書で0になるように直線的に設定する方法がある。カテゴリC内の文書dにおける語句wの出現回数がTF(d、w)で、文書dの作成時刻がt(d)であったとすると、出現回数TF(d、w)に図6から決定される重みW(t(d))を掛けた値をカテゴリC内の全文書について加算し、カテゴリCにおける語句wのカテゴリ別時間傾斜出現量TA(C,w)とする(式(1))。
Figure 0004192760
カテゴリ別時間傾斜出現量は、どの期間の新出特徴語ランキングを作成するか、即ち、最近2日間や、最近2時間といった注目時間帯に応じて重みの付け方を変えればよく、図6のように直線的に変換する重みに限定するものではない。
出現期間集計部134は、ある語句wが1カテゴリ内の文書にどの程度の期間出現するか、すなわち語句の寿命とも言える期間を集計する。カテゴリ内の文書をその作成時刻によって、例えば、図7のように15分間隔で分類し、各期間に作成された文書群中に一度でも語句wが存在すれば、その期間に出現したとみなす。図7の例では、15分間隔の全7区間のうち、4区間について語句が出現しているため、カテゴリCにおける語句wの出現期間L(C,w)は4となる。
カテゴリ別出現文書集計部135は、カテゴリC内の全文書のうち、語句wが一度でも出現する文書数DF(C,w)を集計する。
ステップ304)以上で集計した語句の付随情報を用いて、カテゴリ関連度評価部14の出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144が必要な各要素を算出し、カテゴリ関連度算出部145に送出し、カテゴリ関連度算出部145がこれらの要素に基づいて語句のカテゴリ関連度を算出する。
出現カテゴリ数要素算出部141は、出現カテゴリ数集計部132が集計した語句wの出現カテゴリ数CF(w)を用いて、特徴語の評価に必要な出現カテゴリ数要素を決定する。一般的な語句は多くのカテゴリに出現する可能性が高く、カテゴリに特徴的な語句は出現カテゴリ数が少ないと考えれば、出現カテゴリ数が少ないほど値が大きくなるように出現カテゴリ数要素を与えるのが望ましい。
例えば、Nをカテゴリ総数とした時、Nを語句wの出現カテゴリ数CF(w)で割った値の対数値(式(2))を出現カテゴリ数要素Category(w)とすれば、全カテゴリに出現する語句(出現カテゴリ数がNである語句)では出現カテゴリ数要素が最小値0となり、図8に示すように、出現カテゴリが少なくなるほど大きな値をとる評価式が実現できる。
Figure 0004192760
出現量要素算出部142は、作成時刻が新しい文書での語句の出現回数ほどカテゴリ関連度への影響を大きく、古い文書での出現回数ほど影響を小さく抑えることで、よりタイムリーな性格を持つ語句を高く評価する。
本実施の形態では、カテゴリ別時間傾斜出現量集計部133が集計するカテゴリ別時間傾斜出現量TA(C,w)をそのまま出現量要素Appearance(C,w)として扱うものとして説明する(式(3))。
Figure 0004192760
寿命要素算出部143は、語句が出現している期間に基づき、長期間に渡って出現し続ける語句は新出語ではない、すなわち、タイムリー性が低いとみなし、短期間に出現する語句の影響を重視するような要素を出力する。しかしながら、極端に短い期間にのみ出現する語句は、偶然に出現したあまり重要ではない(カテゴリへの関連が薄い)語句である可能性も高いため、例えば(式(4))のLife(C,w)のように、全期間PをカテゴリCでの語句wの出現期間L(C,w)で割った値の対数値に出現期間L(C,w)の対数値を掛けた値を寿命要素として用いるとよい。
Figure 0004192760
出現文書数要素算出部144は、カテゴリ別出現文書数集計部135の出力を利用して、カテゴリ内における語句の出現文書数に基づく要素を出力する。出現文書数が多い語句ほどそのカテゴリに特徴的であり、例えば、カテゴリ別出現文書数DF(C,w)をそのまま出現文書数要素Documents(C,w)として用いる(式(5))。
Figure 0004192760
ところで、例えば「経済」というカテゴリに分類できる文書の多くに出現する語句として「終値」「株価」「前日比」などがあり、これらは「経済」カテゴリに特徴的な語である。しかし、これらの語句は本発明のランキング装置が対象とするタイムリーな語句(新出特徴語)ではなく、「経済」カテゴリ内では常に出現しやすい一般的な語である。そこで、出現文書数要素Documents(C,w)として、出現文書数があまりにも多い語句の評価を下げるように要因を含めてよい。この1例としては、カテゴリ内の全収集文書数D(C)を語句wの出現文書数DF(C,w)で割った値の対数値に出現文書数のDF(C,w)の対数値を掛けた値(式(6))があげられる。この場合、図10のように出現文書数DF(C,w)が1の場合に出現文書数要素が0になり、出現文書数が大きな値をとった場合に出現文書数要素が小さくなる。
Figure 0004192760
ステップ305)これを、全カテゴリの全語句について終了するまで繰り返す。
ステップ306)カテゴリ関連度算出部145は、出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144の各産出要素算出部の出力結果に乗じてカテゴリ関連度を算出し(式(7))、カテゴリ関連度によって語句をカテゴリ別にソートしたリストを関連度ランキングデータとして図11のように出力する。「カテゴリ1」は、『政治』のカテゴリのランキング例であり、ランクの最上位には「小泉総裁」という語句とカテゴリ関連度Relation(“政治”、“小泉総裁”)=17.368が出力されている。
Figure 0004192760
なお、上記の出現カテゴリ数集計部132、カテゴリ別時間傾斜出現量集計部133、出現期間集計部134、カテゴリ別出現文書数集計部135、ならびに、出現カテゴリ数要素算出部141、出現量要素算出部142、寿命要素算出部143、出現文書数要素算出部144は、本実施の形態で説明した以外にも、対象とするカテゴリの特性や収集文書の量などに応じて集計方法、ならびに算出方法を変えるのがよい。
なお、上記のカテゴリ別新出特徴語ランキング装置の各構成要素をプログラムとして構築し、ネットワークを介して流通させる、または、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行するようにしてもよい。
また、構築されたプログラムを、カテゴリ別新出特徴語ランキング装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスク、CD−ROM等のコンピュータ読み取り可能な記憶媒体に格納することも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
本発明は、新着情報等の文書からタイムリー性があり、出来事を表す語句を抽出する技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング装置の構成図である。 本発明の一実施の形態における収集文書データベースのデータ例である。 本発明の一実施の形態におけるカテゴリ別新出特徴語ランキング方法の流れを表すフローチャートである。 本発明の一実施の形態における文書作成時刻に基づく重みの例である。 本発明の一実施の形態における語句出現期間の例である。 本発明の一実施の形態における出現カテゴリ数要素の例である。 本発明の一実施の形態における寿命要素を示す図である。 本発明の一実施の形態における出現文書数要素を示す図である。 本発明の一実施の形態におけるカテゴリ関連度ランキングデータベースの例である。
符号の説明
11 カテゴリ別新出特徴語ランキング装置
12 収集文書データベース
13 語句集計手段、語句集計部
14 カテゴリ関連度評価手段、カテゴリ関連度評価部
15 関連度ランキングデータベース
131 形態素解析部
132 出現カテゴリ数集計部
133 カテゴリ別時間傾斜出現量集計部
134 出現期間集計部
135 カテゴリ別出現文書数集計部
141 出現カテゴリ数要素算出部
142 出現量要素算出部
143 寿命要素算出部
144 出現文書数要素算出部
145 カテゴリ関連度算出部

Claims (4)

  1. カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング方法において、
    語句集計手段が、複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計ステップと、
    カテゴリ関連度評価手段が、語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と、前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価ステップと、からなるカテゴリ別新出特徴語ランキング方法。
  2. カテゴリ別に新出の特徴語をランキングするためのカテゴリ別新出特徴語ランキング装置であって、
    複数のカテゴリに分類された作成時刻情報付きの文書がデータベースより入力されると、該文書を解析し、該文書内に出現する語句と、該語句がカテゴリ内の文書中に少なくとも1つ含まれているカテゴリの数である出現カテゴリ数と、文書中の該語句の出現回数に該文書の作成時刻が新しいほど大きな重みを掛けた数をカテゴリ内の全文書について加算した数であるカテゴリ別時間傾斜出現量と、カテゴリ内の各文書を作成時刻により一定期間毎に分類した各期間に属する文書のうち該語句が少なくとも1つ含まれている文書を含む期間の長さの和である出現期間と、各カテゴリ内で該語句が出現する文書数を表すカテゴリ別語句出現文書数と、を語句付随情報として集計する語句集計手段と、
    語句の前記語句付随情報を利用し、前記出現カテゴリ数に基づいて決定される出現カテゴリ数要素と、前記カテゴリ別時間傾斜出現量に基づいて決定される出現量要素と、カテゴリ内の全文書の作成された期間の長さを前記出現期間で割った値の対数値に該出現期間の対数値をかけた値である寿命要素と前記カテゴリ別語句出現文書数に基づいて決定される出現文書数要素と、を乗じて該語句が出現するカテゴリへの関連度を各語句について算出し、該関連度によって語句をカテゴリ別にソートしたリストを作成するカテゴリ関連度評価手段と、
    を有するカテゴリ別新出特徴語ランキング装置。
  3. 請求項記載のカテゴリ別新出特徴語ランキング装置を構成する各手段としてコンピュータを機能させるためのカテゴリ別新出特徴語ランキングプログラム。
  4. 請求項記載のカテゴリ別新出特徴語ランキングプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2003372996A 2003-10-31 2003-10-31 カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP4192760B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003372996A JP4192760B2 (ja) 2003-10-31 2003-10-31 カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003372996A JP4192760B2 (ja) 2003-10-31 2003-10-31 カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2005135311A JP2005135311A (ja) 2005-05-26
JP4192760B2 true JP4192760B2 (ja) 2008-12-10

Family

ID=34649216

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003372996A Expired - Fee Related JP4192760B2 (ja) 2003-10-31 2003-10-31 カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体

Country Status (1)

Country Link
JP (1) JP4192760B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845645B (zh) 2008-05-01 2020-08-04 启创互联公司 用于产生语义网络和用于媒体合成的方法及系统
WO2011042946A1 (ja) 2009-10-05 2011-04-14 株式会社 東芝 類似コンテンツ検索装置及びプログラム
CN105956158B (zh) * 2016-05-17 2019-08-09 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法

Also Published As

Publication number Publication date
JP2005135311A (ja) 2005-05-26

Similar Documents

Publication Publication Date Title
Lovaglio et al. Skills in demand for ICT and statistical occupations: Evidence from web‐based job vacancies
Wiedemann Text mining for qualitative data analysis in the social sciences
Althaus et al. Using substitutes for full-text news stories in content analysis: Which text is best?
KR101806452B1 (ko) 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치
JP5729308B2 (ja) 評判分析装置、評判分析方法、および評判分析用プログラム
JP5895052B2 (ja) 情報分析システム及び情報分析方法
US8126790B2 (en) System for cost-sensitive autonomous information retrieval and extraction
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
CN118378053B (zh) 基于数据挖掘的用户数据分析方法
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN109815328B (zh) 一种摘要生成方法及装置
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
CN114222000A (zh) 信息推送方法、装置、计算机设备和存储介质
JP2011253256A (ja) 関連コンテンツ提示装置及びプログラム
US20080103882A1 (en) Method for cost-sensitive autonomous information retrieval and extraction
JP4192760B2 (ja) カテゴリ別新出特徴語ランキング方法及び装置及びプログラム及びカテゴリ別新出特徴語ランキングプログラムを記録したコンピュータ読み取り可能な記憶媒体
CN110428102B (zh) 基于hc-tc-lda的重大事件趋势预测方法
Fritsche et al. Deciphering professional forecasters' stories: Analyzing a corpus of textual predictions for the German economy
JP4539616B2 (ja) 意見収集分析装置及びそれに用いる意見収集分析方法並びにそのプログラム
Maynard et al. Automatic creation and monitoring of semantic metadata in a dynamic knowledge portal
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム
JP2010218216A (ja) 類似文書検索システム、方法及びプログラム
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
Swisher et al. A data science and machine learning approach to continuous analysis of Shakespeare's plays
CN118520174B (zh) 基于数据分析的客户行为特征提取方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080718

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080826

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111003

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121003

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131003

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees