JP4501569B2 - 話題度算出装置及びプログラム - Google Patents

話題度算出装置及びプログラム Download PDF

Info

Publication number
JP4501569B2
JP4501569B2 JP2004207592A JP2004207592A JP4501569B2 JP 4501569 B2 JP4501569 B2 JP 4501569B2 JP 2004207592 A JP2004207592 A JP 2004207592A JP 2004207592 A JP2004207592 A JP 2004207592A JP 4501569 B2 JP4501569 B2 JP 4501569B2
Authority
JP
Japan
Prior art keywords
phrase
category
document
search
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004207592A
Other languages
English (en)
Other versions
JP2006031272A (ja
Inventor
裕一郎 関口
晴美 川島
吉秀 佐藤
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004207592A priority Critical patent/JP4501569B2/ja
Publication of JP2006031272A publication Critical patent/JP2006031272A/ja
Application granted granted Critical
Publication of JP4501569B2 publication Critical patent/JP4501569B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、話題度算出装置及びプログラムに係り、特に、分野別に分類されたニュース記事などの新しい情報を含む文書を次々と入手し得る状況において、使用者が入力した分野と関連性の近い分野における最近の話題となっている語句を自動的に抽出するための話題度を求めるための話題度算出装置及びプログラムに関する。
インターネットを始めとした情報メディアの発達により、メディアから入手できる情報は数量の面でも内容の面でも日々拡大している。このような状況の中、最近になって更新、追加された情報は現在の流行や関心事といった人々の話題となる情報を含んでいる可能性が高い。従って、作成時刻の新しい文書を数多く集めて解析することにより、最近のトレンドやタイムリーな出来事を把握することができる。
一方、大量の文書を解析して得られた情報は、幅広い分野における情報を含んでいるため、使用者がある分野においてのみ注目されている話題語を、その他膨大な関心のない分野の話題の中から見つけ出すことは難しくなっている。
複数の文書情報の中から、検索語と関連のある語句を時間的な出現頻度を考慮して抽出する技術は複数提案されている。
従来の第1の技術として、検索語と関連性の強い語句を、検索時間範囲内での出現頻度を考慮して抽出する技術がある。これは、ユーザから検索語と検索時間範囲との入力を受け付け、その検索語に基づいてWeb文書を検索して得られた文書群を蓄積し、当該文書群に出現する全ての単語について該検索語と同時に出現する確率に基づいて評価値を付け、各単語について時間範囲内での評価値と範囲外での評価値との差を単語の話題度とし、その値が高いものから注目話題度として抽出するものである(例えば、非特許文献1参照)。
また、従来の第2の技術として、検索語句もしくは文書を入力として受け付け、該検索語句もしくは、文書の所属する検索分野を算出し、予め時間的な変化に注目して解析された文書群から、検索分野と関連性の高い文書を複数集め、それぞれの文書の特徴となる話題語を抽出するものである(例えば、特許文献1参照)。
砂山渡、谷内田正彦(大阪大学)"時間情報を考慮したWebからの注目キーワードの抽出による創造活動支援" 特開2000−242652「情報潮流検索方法、装置、及び情報潮流検索プログラムを記録した記録媒体」
しかしながら、上記従来の第1の技術では、使用者が入力した語句と同じ文書内に現れる語句を関連性の高い語句として蓄積文書データから抽出する。その為、あらゆる文章で用いられる語句も関連性の高い語句として含まれる。このような一般的に用いられる語句は特定の分野における話題に相応しくなく、使用者の関心のある分野においてのみ注目されている語句の抽出には適していない。
また、従来の第2の技術では、使用者が入力した語句と類似した分野の文書を取得し、その文書の特徴となる話題語を抽出するため、上記の従来の第1の技術と同様に、一般的に用いられる語句の重要度を下げる処理は行なわれていない。使用者の関心のある分野においてのみ注目されている語句の抽出には適していない。
本発明は、上記の点に鑑みなされたもので、次々と入力される文書データから、入力された検索語句と関連する分野でのみ頻繁に出現する語句を、検索語句に関連する話題語として高い評価をつけるための話題度を算出する話題度算出装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出方法において、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定ステップ(ステップ1)と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集ステップ(ステップ2)と、
形態素解析し得られた語句それぞれについて、該語句のカテゴリ分類情報が示す適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出ステップ(ステップ3)と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較し、検索カテゴリ情報と関連性を持つ語句データを語句データベースから抽出する検索分野語句抽出ステップ(ステップ5)と、
検索分野語句抽出ステップで抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出ステップ(ステップ7)と、
話題度算出ステップ(ステップ7)で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計ステップ(ステップ8)と、を行う。
また、本発明は、検索分野語句抽出ステップ(ステップ5)の前に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定ステップ(ステップ4)を更に行う。
また、本発明は、話題度算出ステップ(ステップ7)の前に、
外部から時刻情報の入力を受け付け、該時刻から一定時間遡った時刻までを集計時刻の範囲とし、該時刻範囲における時間重み付けを行う関数を設定する時間重み関数決定ステップ(ステップ6)を更に行う。
図2は、本発明の原理構成図である。
本発明(請求項1)は、多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出装置であって、
作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段110と、
文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段120と、
形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、語句データに求めた該特徴度を付与し、語句データベース190に蓄積する語句特徴度算出手段130と、
外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを語句データベース190から抽出する検索分野語句抽出手段150と、
検索分野語句抽出手段150で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段170と、
話題度算出手段170で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段180と、を有する。

また、本発明(請求項2)は、検索分野語句抽出手段の前段に、
外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段140を更に有する。
本発明(請求項3)は、請求項1または2に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラムである。

上記のように、本発明より得られた話題度を用いることにより、ニュース記事や日記など時事性の高い文書を解析して得られた話題を表す語句から、利用者の入力により指定されたカテゴリ及び時刻について、指定カテゴリに関連する語句で、指定時刻において頻繁に使われるようになった語句を自動的に抽出することが可能となる。特に、抽出する語句が指定のカテゴリにおいてのみ出現しているのか、あらゆるカテゴリにおいて出現しているのかを評価し、指定のカテゴリにおいてのみ頻繁に用いられる語句を抽出するため、関心のないカテゴリの話題やあらゆるカテゴリで扱われる話題に目を通すことなく、関心を持っているカテゴリでの最近の注目点や話題を知ることが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における話題算出装置の構成を示す。
同図に示す話題度算出装置100は、入力となる文書データを蓄積している文書データベース10と、本装置100の出力となる語句とその話題度を記録する話題出力記録装置20、キーボード等の検索語句や時刻を入力する手段(図示せず)に接続されている。
話題度算出装置100は、文書カテゴリ決定部110、文書内語句収集部120、語句特徴度算出部130、検索文書決定部140、検索分野語句抽出部150、時間重み関数決定部160、話題度算出部170、話題度集計部180、及び語句データベース190から構成される。
文書データベース10には、作成時刻情報が付加された文書情報が蓄積されている。例えば、Web上に公開されている文書に“2004 4/25 13:55”といったような作成時刻を付加し、次々と入力して記録することにより当該データベースを構築することができる。また、インターネット上のニュースサイトや、日記サイトなど、新しい情報を含む文書が逐次更新される情報源から文書を入力するのが望ましい。この場合には、サイト内の文書の作成時刻だけでなく、更新情報を監視し、更新された時刻を文書作成時刻と見做し、新しく作成された文書と同様に収集してもよい。
文書カテゴリ決定部110は、文書データベース10に蓄積されている文書を1文書ずつ読み出し、一般的な多重カテゴリ抽出技術(例えば、「多重トピックテキストの確立モデル・パラメトリック混合モデル」上田、斉藤(NTT))による解析を行い、
『グルメ60%政治10%スポーツ10%芸能20%』
といったカテゴリ分類情報を算出し、得られたカテゴリ分類情報を文書に付与し、すでに文書に付与されている文書作成時刻と共に文書内語句収集部120の解析済文書データバッファに記録する。ここでいう、多重カテゴリ抽出技術は、入力された文書データについて、予め設定された複数のカテゴリ一つ一つに対して、それぞれのカテゴリに何%の適合度を示すかを返すものであり、全てのカテゴリの適合度を合計すると100%になるようになっている。
例えば、設計時にグルメ・政治・スポーツ・芸能といったカテゴリ分類を設定していた場合の解析済文書データバッファへの出力データ例を図4に示す。図4に示すように、解析済文書データバッファには、文書名、作成時刻、カテゴリ分類情報が格納される。
文書内語句収集部120は、解析済文書データバッファに蓄積されている文書を1文書ずつ読み出し、形態素解析により品詞毎に分割する。例えば、「おいしいチョコドーナツ」という文書を、「おいしい」「チョコ」「ドーナツ」と分解する。分解された品詞群から名詞のみを選んで選出する。このとき、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞を総称して『語句』と呼ぶ。このようにして得られた語句それぞれについて、解析前に該語句が含まれていた文書の時刻とカテゴリの情報を付加し、
『ドーナツ 2004 4/25 13:55 グルメ60%政治10%スポーツ10%芸能20%』
といった形式の語句データとし、語句特徴度算出部130の語句データバッファに蓄積する。語句データバッファへの出力データを図5に示す。図5に示すように、語句データバッファには、語句、作成時刻、カテゴリが蓄積される。
語句特徴算出部130は、一定の処理時間毎に、文書内語句収集部120の語句データバッファに蓄積されている語句データから同一の語句を持つ語句データ群を抽出し話題度を算出する。求められた話題度情報は、各語句データに付加され、語句情報と作成時刻と共に、語句データベース190に蓄積される。語句データベース190のデータ例を図6に示す。
語句特徴度算出部130の動作を具体的に説明する。
図7は、本発明の第1の実施の形態における語句特徴度算出部の処理のフローチャートである。
語句特徴度算出部130は、処理が開始されると、文書内語句収集部120の語句データバッファに蓄積されたデータから、ある同一の語句wを持つ語句データ群のカテゴリ情報を抽出する(ステップ301)。
次に、得られた語句データ群のカテゴリ情報を平均し、wのカテゴリの平均値を算出する(ステップ302)。つまり、
『ドーナツ 2004 4/25 13:55 グルメ60%政治10%スポーツ10%芸能20%』
『ドーナツ 2004 4/25 13:58 グルメ80%政治0%スポーツ10%芸能10%』
といったように、同じ語句だが時刻情報もしくはカテゴリ情報が異なる語句データが複数ある場合に、それらを一まとめにし、
『ドーナツ グルメ70%政治5%スポーツ10%芸能15%』
といった語句毎にカテゴリ情報の平均化した値を抽出する。
得られた語句wのn個のカテゴリ情報の平均値C1_ave(w)〜Cn_ave(w)を用いて、各語句wの特徴度Feat(w)を、
Figure 0004501569
の式で求める(ステップ303)。 『ドーナツ グルメ70%政治5%スポーツ10%芸能15%』の場合においては、
特徴度(ドーナツ)=(70−25)2+(5−25)2+(10−25)2+(15−25)2=2750
となる。
このようにして得られた語句wの特徴度を、先に抽出したwを含む各語句データに付与し、語句データベース190に蓄積する(ステップ304)。
文書内語句収集部120の語句データバッファに語句データが残っている場合には、ステップ301に戻る(ステップ305)。
語句データバッファに語句データが残っていない場合には、予め定められた時間待機してから、ステップ301に戻る(ステップ307)。
検索分野決定部140は、外部から検索語句sを受け付け、文書データベース10から該検索語句を含む文書を作成時刻が新しい順に一定数m個取得し、検索文書群d〜dmとする。この取得する文書の数mは外部から入力として受け付けてもよいし、予めシステムの定数として設定しておいてもよい。
得られた検索文書群の各文書について、文書カテゴリ決定部110と同様に、多重カテゴリ抽出技術による解析を行い、得られたカテゴリ情報を検索文書群全てについて平均化して検索カテゴリ情報C(s)〜C(s)とし、検索分野語句抽出部150に出力する。例えば、検索語句に「ドーナツ」と入力した際の検索カテゴリ情報は、
『グルメ67%政治7%スポーツ11%芸能15%』
という形になる。
検索分野語句抽出部150は、検索分野決定部140から受け取る検索カテゴリ情報を取得し、当該検索カテゴリ情報と類似するカテゴリ情報を持つ語句データを、語句データベース190を検索することにより抽出し、抽出した語句データを話題度算出部170の分野語句データバッファ(図示せず)に蓄積する。
以下に、検索分野語句抽出部150の具体的な処理を説明する。
図8は、本発明の第1の実施の形態における検索分野語句抽出部の処理のフローチャートである。
検索分野語句抽出部150は、まず、検索分野決定部140から検索カテゴリ情報を受け取る(ステップ501)。また、予め設定されているカテゴリ距離比較の閾値を取得する(ステップ502)。
次に、語句データベース190に未取得データがあるかを確認し(ステップ503)、未取得データがあった場合には、語句データを語句データベース190から1つ読み込む(ステップ504)。
ステップ501で取得した検索カテゴリ情報C(s)〜C(s)をベクトルの各要素としたカテゴリベクトル値(C(s),C(s),…,C(s))とし扱い、ステップ504で取得した語句データのカテゴリ情報も同様にカテゴリベクトル値(C(w),C(w),…,C(w))として扱い、
Figure 0004501569
の式で検索カテゴリ情報のベクトル値と語句データのベクトル値との距離を算出する(ステップ505)。
ステップ505で得られた距離の値がステップ502で取得した閾値よりも小さいかを比較する(ステップ506)。小さかった場合は、語句情報と作成時刻情報と特徴度情報とによる検索分野に関連する語句データとして、話題度算出部170の分野語句データバッファ(図示せず)に記録する(ステップ507)。
ステップ504からステップ507の処理を、語句データベース190から未取得データがなくなるまで繰り返し、語句データベース190の全てのデータに対する処理を終了する。
時間重み関数決定部160は、外部の入力手段(図示せず)から入力された検索語句を受け付けた時刻を時刻入力の値tinとして扱い、予め設定されている時刻幅tを用い、tin−tからtinまでの期間を集計に用いる時刻範囲として内部のメモリに設定する。
t=−tからt=0の範囲において、図9に示すようなt=0に近い最近のデータほど重みが大きくなる基本時間重み関数tw_base(t)を、t=−tの点がtin−tに、t=0の点がtinに対応するよう線形変換して得られた時間重み関数T(t)を話題度算出部170に出力する。線形変換して得られた時間重み関数T(t)の例を図10に示す。
話題度算出部170は、分野語句データバッファに含まれる語句データのそれぞれについて、時間重み関数決定部160で得られた時間重み関数T(t)に語句データの持つ作成時刻データtwordを代入することにより算出される語句データの時間重みT(word)と、語句データの特徴度とを掛け合わせて得られる値を語句データの話題度とし、話題度を付与した語句データを話題度集計部180の話題語句データバッファに出力する。当該話題語句データバッファのデータの例を図11に示す。
話題度集計部180は、話題語句データバッファに記録されている全語句について、同一の語句毎に話題度を集計し、集計の結果得られた値を各語句の話題度として、話題出力記録装置20に記録する。話題出力記録装置20に記録されたデータの例を図12に示す。
[第2の実施の形態]
本実施の形態では、前述の第1の実施の形態における検索分野決定部140における外部入力を、検索語句ではなく、検索文書として実施する例を説明する。
その場合、検索分野決定部140は、外部から検索文書dを受け付け、受け付けた文書dについて、文書カテゴリ決定部110と同様に、多重カテゴリ抽出技術による解析を行い、得られたカテゴリ情報を検索カテゴリ情報C(d)〜C(d)とし、検索分野語句抽出部150へ出力する。他の処理について第1の実施の形態と同様である。
[第3の実施の形態]
本実施の形態では、前述の第1の実施の形態における検索分野決定部140を省略し、検索カテゴリ情報を外部から検索分野語句抽出部150に入力する例を説明する。
図13は、本発明の第3の実施の形態における話題度算出装置の構成を示す。同図のように、本実施の形態の話題度算出装置200では、検索分野語句抽出部150は、外部の入力手段から検索カテゴリ情報を直接受け取り、前述の第1の実施の形態と同様の処理を行う。
[第4の実施の形態]
本実施の形態では、前述の第1の実施の形態の時間重み関数決定部160の処理に代えて、時間重み関数決定部において、集計時刻tinと集計時刻の幅tw_inとを外部の入力装置から直接取得する例を説明する。
その場合の基本時間重み関数Tw_base(t)のt=0の点をt=tinへ、t=−tの点をt=tin−tw_inへと移す線形変換を行うことにより、時間重み関数T(t)を算出する。このようにして求めた時間重み関数T(t)の例を図14に示す。
なお、本発明は、上記の一連の動作をプログラムとして構築し、話題度算出装置として利用されるコンピュータにインストールし、CPU等の制御手段に実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを話題度算出装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスクやCD−ROM等の可搬記憶媒体に格納しておき、コンピュータにインストールすることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
最近の話題となっている語句を抽出する話題抽出技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における話題度算出装置の構成図である。 本発明の第1の実施の形態における解析済文書データバッファに蓄積されたデータの例である。 本発明の第1の実施の形態における語句データバッファに蓄積されたデータの例である。 本発明の第1の実施の形態における語句データベースに蓄積されたデータの例である。 本発明の第1の実施の形態における語句特徴度算出部の処理のフローチャートである。 本発明の第1の実施の形態における検索分野語句抽出部の処理のフローチャートである。 本発明の第1の実施の形態における正規化されている時間重み関数の例である。 本発明の第1の実施の形態における時間重み関数の例である。 本発明の第1の実施の形態における話題語句データバッファに蓄積されたデータの例である。 本発明の第1の実施の形態における話題出力記録装置に蓄積されたデータの例である。 本発明の第3の実施の形態における話題度算出装置の構成図である。 本発明の第4の実施の形態における時間重み関数の例である。
符号の説明
10 文書データベース
20 話題出力記録装置
100 話題度算出装置
110 文書カテゴリ決定手段、文書カテゴリ決定部
120 文書内語句収集手段、文書内語句収集部
130 語句特徴度算出手段、語句特徴度算出部
140 検索分野決定手段、検索分野決定部
150 検索分野語句抽出手段、検索分野語句抽出部
160 時間重み関数決定手段、時間重み関数決定部
170 話題度算出手段、話題度算出部
180 話題度集計手段、話題度集計部
190 語句データベース

Claims (3)

  1. 多数の文書を解析して、文書中に含まれる語句に対して所望の時刻とカテゴリにおける話題性の強度を判定するための話題度を算出するための話題度算出装置であって、
    作成時刻が付与された文書に対して予め設定されたカテゴリとの適合度を算出し、各文書に対して、各カテゴリとの適合度を示すカテゴリ分類情報を付与する文書カテゴリ決定手段と、
    前記文書を形態素解析し得られた語句それぞれについて、該語句を含んでいた文書の作成時刻、およびカテゴリ分類情報を付与し、語句データとして語句データバッファに蓄積する文書内語句収集手段と、
    前記形態素解析し得られた語句それぞれについて、同一語句毎に語句のカテゴリ分類情報を平均してカテゴリ毎の平均適合度を求め、該平均適合度の偏りの程度を表す特徴度を求め、前記語句データに求めた該特徴度を付与し、語句データベースに蓄積する語句特徴度算出手段と、
    外部から入力されたカテゴリ分類情報である検索カテゴリ情報と各語句データのカテゴリ分類情報を比較して距離を求め、該距離が閾値よりも小さい語句データを前記語句データベースから抽出する検索分野語句抽出手段と、
    前記検索分野語句抽出手段で抽出された語句データそれぞれについて、該語句の時間重みを与えられた時間重み関数を用いて算出し、求められた時間重みと該語句の特徴度を掛け合わせて求められる値を該語句の話題度として算出する話題度算出手段と、
    前記話題度算出手段で求められた各語句データの話題度を、同一語句毎に集計して話題出力記憶装置に出力する話題度集計手段と、
    を有することを特徴とする話題度算出装置。
  2. 前記検索分野語句抽出手段の前に、
    外部から入力された検索語句または検索文書から、該検索語句または該検索文書が分類されるカテゴリを算出し、得られたカテゴリ分類情報を検索カテゴリ情報とする検索分野決定手段を更に有する
    請求項1記載の話題度算出装置。
  3. 請求項1または2に記載の話題度算出装置を構成する各手段としてコンピュータを機能させるための話題度算出プログラム。
JP2004207592A 2004-07-14 2004-07-14 話題度算出装置及びプログラム Expired - Fee Related JP4501569B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004207592A JP4501569B2 (ja) 2004-07-14 2004-07-14 話題度算出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004207592A JP4501569B2 (ja) 2004-07-14 2004-07-14 話題度算出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006031272A JP2006031272A (ja) 2006-02-02
JP4501569B2 true JP4501569B2 (ja) 2010-07-14

Family

ID=35897560

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004207592A Expired - Fee Related JP4501569B2 (ja) 2004-07-14 2004-07-14 話題度算出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4501569B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5583164B2 (ja) * 2012-03-29 2014-09-03 日本電信電話株式会社 専門度推定装置及び方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099572A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099572A (ja) * 2000-09-25 2002-04-05 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムが記録された記録媒体

Also Published As

Publication number Publication date
JP2006031272A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
Collins‐Thompson et al. Predicting reading difficulty with statistical language models
KR101120760B1 (ko) 구조화 문서 검색
JP4622589B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US8849787B2 (en) Two stage search
CN110543564B (zh) 基于主题模型的领域标签获取方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
US20080301121A1 (en) Acquiring ontological knowledge from query logs
JP4569380B2 (ja) ベクトル生成方法及び装置及びカテゴリ分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記録媒体
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006331245A (ja) 情報検索装置、情報検索方法およびプログラム
JP4165426B2 (ja) 話題抽出方法及び装置及びプログラム
EP1973045A1 (en) Organising and storing documents
JP4501569B2 (ja) 話題度算出装置及びプログラム
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
US9165063B2 (en) Organising and storing documents
Bashir Estimating retrievability ranks of documents using document features
Waegel The Development of Text-Mining Tools and Algorithms
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
Toews et al. Determining Domain-Specific Differences of Polysemous Words Using Context Information.
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4592566B2 (ja) 話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2002269120A (ja) 文書分類装置、文書分類方法及び該文書分類方法を実行するプログラム記録媒体
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090519

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100412

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140430

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees