JP2009003888A - キーワード提示のための装置、方法、及びプログラム - Google Patents

キーワード提示のための装置、方法、及びプログラム Download PDF

Info

Publication number
JP2009003888A
JP2009003888A JP2007166714A JP2007166714A JP2009003888A JP 2009003888 A JP2009003888 A JP 2009003888A JP 2007166714 A JP2007166714 A JP 2007166714A JP 2007166714 A JP2007166714 A JP 2007166714A JP 2009003888 A JP2009003888 A JP 2009003888A
Authority
JP
Japan
Prior art keywords
keyword
topic
cluster
document
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007166714A
Other languages
English (en)
Other versions
JP4342575B2 (ja
Inventor
Masayuki Okamoto
昌之 岡本
Masaaki Kikuchi
匡晃 菊池
Kazuyuki Goto
和之 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007166714A priority Critical patent/JP4342575B2/ja
Priority to US12/055,030 priority patent/US8065145B2/en
Publication of JP2009003888A publication Critical patent/JP2009003888A/ja
Application granted granted Critical
Publication of JP4342575B2 publication Critical patent/JP4342575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Abstract

【課題】話題をサブ話題に細分化し、サブ話題を代表するキーワードを抽出して提示する。
【解決手段】指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段と、前記複数の文書における文書の組において同じ話題に属する話題クラスタを抽出する話題クラスタ抽出手段と、前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段と、文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC−valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段と、前記サブ話題クラスタにおいて前記特徴的なキーワード群を日時情報に基づいて並べて提示するキーワード提示手段と、を備える。
【選択図】 図3

Description

本発明は、日時情報を属性としてもつ複数の文書から、ある期間における話題や時事情報を示すキーワードを検出し、効果的に提示するキーワード提示のための装置、方法、及びプログラムに関する。
現在話題になっていること、流行している話題や時事情報を知りたいというニーズは強く、様々な技術が開発されている。なかでも、話題や時事情報を知るために、文書情報を活用した時事キーワードの抽出技術が注目されている。例えば、Web上の技術であるWeb検索エンジンでは、世の中の様々な情報に対するニーズを検索キーワードという形でリアルタイムに知ることができ、日々の話題を知る手段として注目されている。
ある期間に話題となるニュースを抽出する技術としては、Web上で検索されたキーワードのランキング情報を表示する技術がある。これは、一定期間の頻度を元に検索ランキングを作成し、ブログ検索エンジンなどで最近追加されたエントリに共通して含まれるキーワードを話題の兆しとして表示する技術である。
非特許文献1では、個人が日記や記事を投稿するインターネット上のWebサイト(ブログ(blog)として知られている)に書き込まれたキーワードの頻度から、現在「旬」であるキーワードを表示する技術について記載されている。このような手法を用いて提示されたキーワードは、時事情報を示すキーワードの一種と言えるものである。非特許文献1に記載の技術では、24時間、1週間、1ヶ月といった単位で時事情報を示すキーワードをランキング形式で提示することが可能になっている。
また、特許文献1に開示されているキーワード抽出方法では、新規な単語のクラスタリングにより話題を提示することを試みている。
特開2001−325272号公報 kizasi.jp(ブログに記された無数のコトバから変化のkizasiを発見するサイト)、「平成18年7月26日検索」、インターネット<URL:http://kizasi.jp/>
非特許文献1には、一定期間で頻度が高いキーワード(時事情報を示すキーワード)を提示することに加え、当該時事情報を示すキーワードに関連性を有するキーワードを提示することについても記載されている。
しかしながら、非特許文献1に記載の技術は、ある話題が提示されたときに、その話題がどのように進展しているかが分かるような提示を行うものではない。すなわち、1つの大きな話題に対して複数のサブ話題があるような場合、その大きな話題にはどのようなサブ話題が含まれ、それらが何時どのような順序で出現しているかを知ることができないという問題がある。
例えば、時事情報を示すキーワードとして「○○傷害事件」が抽出され、該キーワードに関連性を有するキーワードとして「事件発生」「指名手配」「犯人逮捕」が抽出されたとする。非特許文献1に記載の技術において、これらキーワードの新鮮さや出現期間に応じて表示順序を制御したり、話題の推移を可視化して制御することは行われない。例えば「○○傷害事件」という一つの大きな話題のサブ話題は、「事件発生」「指名手配」「犯人逮捕」と見ることができるが、これらサブ話題は、「事件発生→指名手配→犯人逮捕」という順序で表示されることが好ましい。しかしながら、非特許文献1に記載の技術ではこのような表示制御は行われない。そもそも、一つの大きな話題「○○傷害事件」を構成しているサブ話題を表すキーワードが、それぞれ「事件発生」「指名手配」「犯人逮捕」であることもユーザは把握することができない。したがって、Webから適切なニュース記事を検索するための検索クエリをどのように決めればよいかの指針も得られない。
特許文献1では、キーワードを抽出してからクラスタリング処理を行うため、キーワードの出現した文脈は考慮されない場合がある。その結果、同じキーワードが全く別の話題に含まれる可能性がある。
本発明は、かかる事情を考慮してなされたものであって、話題をサブ話題に細分化し、サブ話題を代表するキーワードを抽出して提示することにより、ある話題の推移や関連する話題、あるいはその話題が現在どのような状況であるかをユーザに提示することができるキーワード提示のための装置、方法、及びプログラムを提供することを目的とする。
本発明の一観点に係るキーワード提示装置は、日時情報を属性として持つ文書を入力する文書入力手段と、前記文書入力手段により指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段と、前記複数の文書における文書の組において、前記単語ベクトルの内積が最大となる文書の組を同じ話題に属する話題クラスタとして抽出する話題クラスタ抽出手段と、前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段と、文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC−valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段と、前記話題が構造化可能であると判定されたならば、前記話題クラスタについて前記話題が構造化可能であると判定されなくなるまで繰り返し話題クラスタの抽出を行うよう前記話題クラスタ抽出手段を制御するとともに、これにより抽出されるサブ話題の話題クラスタであるサブ話題クラスタにおいて前記特徴的なキーワード群を抽出するよう前記キーワード抽出手段を制御する手段と、前記サブ話題クラスタにおいて前記特徴的なキーワード群を前記日時情報に基づいて並べて提示するキーワード提示手段と、を備える。
本発明によれば、話題をサブ話題に細分化し、サブ話題を代表するキーワードを抽出して提示することにより、ある話題の推移や関連する話題、あるいはその話題が現在どのような状況であるかをユーザに提示することができるキーワード提示のための装置、方法、及びプログラムを提供できる。
以下、図面を参照しながら本発明の実施形態を説明する。
図1は、本発明の実施の一形態に係るキーワード提示装置を含むシステム構築例を示す模式図である。
本システムは、図1に示すように、キーワード提示装置であるサーバコンピュータ(以下、「サーバ」という)1にLAN(Local Area Network)等のネットワーク2を介してクライアントコンピュータ(以下、「クライアント」という)3が複数台接続されたサーバクライアントシステムを想定する。サーバ1およびクライアント3は、例えば、一般的なパーソナルコンピュータである。
図2は、サーバ1のハードウェア構成図である。サーバ1は、情報処理を行うCPU(Central Processing Unit)101、BIOSなどを記憶した読出し専用メモリであるROM(Read Only Memory)102、各種データを書換え可能に記憶するRAM(Random Access Memory)103、各種データベースとして機能するとともに各種のプログラムを格納するHDD(Hard Disk Drive)104、記憶媒体110を用いて情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等の媒体駆動装置105、ネットワーク2を介して外部の他のコンピュータと通信により情報を伝達するための通信制御装置106、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示部107、並びに操作者がCPU101に命令や情報等を入力するためのキーボードやマウス等の入力部108等から構成されており、これらの各部間で送受信されるデータをバスコントローラ109が調停して動作する。
このようなサーバ1およびクライアント3では、ユーザが電源を投入するとCPU101がROM102内のローダーというプログラムを起動させ、HDD104よりOS(Operating System)というコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM103に読み込み、このOSを起動させる。このようなOSは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。OSのうち代表的なものとしては、Windows(登録商標)等が知られている。これらのOS上で走る動作プログラムをアプリケーションプログラムと呼んでいる。なお、アプリケーションプログラムは、所定のOS上で動作するものに限らず、後述の各種処理の一部の実行をOSに肩代わりさせるものであってもよいし、所定のアプリケーションソフトやOSなどを構成する一群のプログラムファイルの一部として含まれているものであってもよい。
ここで、サーバ1は、アプリケーションプログラムとして、キーワード提示プログラムをHDD104に記憶している。この意味でHDD104は、キーワード提示プログラムを記憶する記憶媒体として機能する。
また、一般的には、サーバ1のHDD104にインストールされるアプリケーションプログラムは、CD−ROMやDVDなどの各種の光ディスク、各種光磁気ディスク、フレキシブルディスクなどの各種磁気ディスク、半導体メモリ等の各種方式のメディア等の記憶媒体110に記録され、この記憶媒体110に記録された動作プログラムがHDD104にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体110も、アプリケーションプログラムを記憶する記憶媒体となり得る。さらには、アプリケーションプログラムは、例えば通信制御装置106を介して外部から取り込まれ、HDD104にインストールされても良い。
サーバ1は、OS上で動作するキーワード提示プログラムが起動すると、このキーワード提示プログラムに従い、CPU101が各種の演算処理を実行して各部を集中的に制御する。サーバ1のCPU101が実行する各種の演算処理のうち、本実施の形態の特徴的な処理について以下に説明する。
図3は、サーバ1の機能ブロック図である。サーバ1は、キーワードを提示するためのプログラムとして実現することができ、図3に示すように、文書入力部11、話題クラスタ抽出部12、キーワード解析部13、話題キーワード抽出部14、話題キーワード構造生成部15、話題構造化判定部16、話題キーワード構造格納部17、ジャンル学習部18、ジャンル学習データ格納部19、ジャンル推定部20、検索クエリ生成部21、および話題キーワード提示部22を有する。
話題キーワード構造格納部17は、HDD104、記憶媒体110、RAM103などの一般的に利用されているあらゆる記憶手段により構成することができる。
以下、各機能ブロックについて説明する。なお、それぞれの機能ブロックを構成するデータ構造や処理の流れは、必要に応じて後述する。
文書入力部11は、属性として日時情報を持つ複数の文書の入力し、予め指定された日数の期間に該当する文書集合を得る。属性として日時情報を持つ文書とは、例えば、インターネット上のWebページのニュース記事(図4(a)参照)やRSS(Rich Site Summary)、あるいはEPG(Electronic Program Guide:電子番組ガイド)上の情報(図4(b)参照)などである。いずれの文書も、本文あるいは更新時刻などの属性として日時情報を含むことが必要である。これらの文書の配信元としては、指定された特定のWebサイトやデータベースに存在するデータが用いられる。また、Webページのニュース記事(図4(a)参照)やEPG上の情報(図4(b)参照)には、それぞれを一意に識別可能な文書IDが付されている。
話題クラスタ抽出部12は、文書入力部11に入力された指定期間に該当する文書について、キーワード解析部13により解析されたキーワード群から、同じ話題に属する文書のクラスタを抽出する。すなわち、話題クラスタ抽出部12は、文書入力部11から文書を受け取ると、キーワード解析部13に一旦渡す。話題クラスタの生成方法の例としては、キーワード解析部13によって解析されたキーワードを用いて各文書を表す単語ベクトルを求め、単語ベクトルの内積が最大となる文書の組を同じ話題とみなす、という作業を内積値が閾値になるまで繰り返す方法が考えられる。この結果、話題クラスタの集合が得られる。
キーワード解析部13は、文書入力部11により指定期間に入力された複数の文書を話題クラスタ抽出部12から受け取り、既存の自然言語処理技術(例えば、形態素解析やn−gram抽出など)を用い、Web上のテキストやEPGのテキストに含まれる代表的なキーワードを解析する。例えば、文字列「自然言語処理」を形態素解析すると、例えば「自然」「言語」「処理」という単語などをキーワードとして切り出すことができる。また、文書数とキーワードの出現頻度から計算されるTF(Term Frequency)やIDF(Inversed Document Frequency)などを用いて各キーワードに対する重み付けが行われる。これは上述の単語ベクトルの各要素に利用される。各要素が示す値を用いて、上記単語ベクトルの内積の値が計算される。なお、本実施形態ではTFやIDFを用いた処理について記載しているが、例えばキーワード間の単語数や文字数に基づく距離や、各単語の出現日時の差など、その他のパラメタに基づく重み付け手段を用いてもよい。
話題キーワード抽出部14は、話題クラスタ抽出部12により抽出されたそれぞれの話題クラスタに対し、よく含まれるキーワード(特徴的な見出しキーワード)を話題キーワードとして抽出する。キーワードとしてはどの長さまで抽出すべきかを示す基準が必要であるが、例えばC−value(K. Frantsi and S. Ananiadou, Extracting Nested Collocations, in Proceedings of COLING-96, pp.41-46, 1996.)などの手法を利用することが可能である。
話題キーワード構造生成部15は、話題キーワード抽出部14により抽出された複数の話題キーワードについて、後述する話題キーワード構造格納部17の結果に応じて関連付けを行い、話題キーワードを構造化する。
話題構造化判定部16は、それぞれの話題クラスタが示す話題をさらに細分化できるかどうかを判定する。判定基準としては、例えばクラスタを構成する文書情報の数、文書情報に含まれる日付の分散、文書情報に含まれるキーワードのC−valueの値、などを利用することができる。この値が閾値を超える場合には、そのクラスタは細分化可能であると判断される。この場合、そのクラスタを文書集合として、話題クラスタ抽出部12以降の処理が再帰的に実行される。つまり、話題が構造化可能であると判定されたならば、話題クラスタについて、話題が構造化可能であると判定されなくなるまで繰り返し話題クラスタの抽出を行うよう話題クラスタ抽出部12を制御するとともに、これにより抽出されるサブ話題の話題クラスタであるサブ話題クラスタにおいて特徴的なキーワード群を抽出するよう話題キーワード抽出部14を制御する。再帰的な実行においては、話題の分割を適切に行うための手段として、話題キーワードを計算に用いずにそれ以外のキーワードに基づいてクラスタを分割する方法、あるいは各クラスタを構成する記事を全体の集合とみなして再度、TFやIDF、C−valueを計算する方法が利用される。これらの分割判定は一度に全てのクラスタに対して適用しても良いし、各クラスタ毎に判定してもよい。また、図3では話題構造化判定を行って再帰的な処理が可能であると判定された場合のみ再度クラスタリングが行われるが、先にクラスタリング処理を行った後に各クラスタが話題を構成する単位として適当か判断するようにしても良い。図14に、先にクラスタリング処理を行う場合の構成について示す。この場合は、クラスタリングされた結果に対して判定を行い、その細分化が適当であると判断された場合のみ、後述する話題キーワード構造格納部17への格納が行われ、適当でない場合はクラスタリング結果は破棄される。
話題キーワード構造格納部17は、話題キーワード構造生成部15によって生成された時事キーワードおよびその構造を格納する。話題キーワード構造格納部17に格納された時事キーワードおよびその構造は、次回以降の実行時あるいは話題クラスタの細分化時に参照される。
ジャンル推定部20は、話題構造化判定部16により全ての話題構造化が終了した後、話題キーワード構造格納部17に格納された全ての話題キーワードあるいは話題クラスタに対しジャンル情報を付加する。ジャンル推定は、予め与えられたn個のジャンル(「判定不能」または「その他」も含む)のいずれに属するか分類する問題であり、k−NN(k-nearest neighbor)法、SVM(Support Vector Machine)といった手法により適切であると判定されたジャンルに分類される。ジャンル推定に必要なデータは後述するようにジャンル学習部18により学習され、ジャンル学習データ格納部19に格納されたものを用いる。ジャンルの推定結果は話題キーワード構造格納部17に格納される。
ジャンル学習部18はジャンル情報と文書が対になったEPGまたはRSSなどの文書情報を入力とし、それぞれの文書に含まれるキーワードが「どのジャンルにより含まれやすいか」あるいは「どのジャンルに含まれにくいか」を重みとして算出する。その結果がジャンル学習データ格納部19に格納される。
検索クエリ生成部21は、話題キーワード構造生成部15によって生成された話題キーワードとその構造、およびジャンル情報を元に、インターネット上の検索エンジンで検索するための検索クエリを埋め込んだWebページを生成する。
話題キーワード提示部22は、検索クエリ生成部21により生成されたWebページを、各ユーザが使用するクライアント3からのネットワーク2を介した表示要求に応じて提示する。
次に、キーワード提示プログラムに従ってサーバ1のCPU101が実行する処理のうち、話題クラスタ抽出部12およびキーワード解析部13における話題クラスタ抽出処理について図5のフローチャートを参照して説明する。
図5に示すように、まず、キーワード解析部13は指定期間内に文書入力部11を介して入力された複数の文書の各々について形態素解析を行って、一つの文書を複数の単語に分割する(ステップS1)。
次に、キーワード解析部13は、分割された形態素のTF−IDF値を計算することにより、単語毎の重みを考慮した文書毎の単語ベクトルを生成する(ステップS2)。
そして、キーワード解析部13は、ステップS2で生成した単語ベクトルから、助詞や記号のようにキーワードとして用いられない不要な表現を除外する(ステップS3)。
ここまでの処理はキーワード解析部13において行われ、解析された結果の単語一覧が話題クラスタ抽出部12に戻される。
話題クラスタ抽出部12に戻された単語一覧は、話題クラスタ抽出部12によってそれぞれ単語ベクトルの内積が計算され、話題クラスタ抽出部12は計算された内積の最大値を計算し(ステップS4)、その値が閾値を超えるかどうかが判定される(ステップS5)。
なお、本実施の形態においては、話題クラスタ抽出部12は、文書集合やキーワード自身の属性である出現頻度を用いてスコアを算出するようにしたが、これに限るものではなく、キーワードの長さ、形態素情報などの文書集合におけるキーワード自身の属性を用いてスコアを算出するようにしても良い。
単語ベクトルの内積の最大値が閾値より大きい場合(ステップS5のYes)、最大値を与える2つの文書は同じクラスタに属するとみなされる(ステップS6)。そして、ステップ4の処理が繰り返し実行される。
単語ベクトルの内積の最大値が閾値以下の場合(ステップS5のNo)、クラスタリング処理は終了し、クラスタの個数が閾値より大きいかどうかを判定する(ステップS7)。閾値より大きい場合は頻度の高い順に閾値までの個数だけクラスタを残し、残りは除去する(ステップ8)。ここまでの処理により話題クラスタが与えられる。
次に、各話題クラスタについて、話題キーワード抽出部14において話題を表すキーワードを抽出する処理の流れを図6のフローチャートを参照して説明する。
図6に示すように、まず、複数の形態素を連結することにより、2単語以上からなるキーワードの候補を生成する(ステップS11)。
そして、ステップS11で生成したキーワードの候補から助詞や記号のようにキーワードとして用いられない不要な表現を除去する(ステップS12)。
話題キーワード抽出部14は、出現頻度の高い順に時事キーワードの候補とし(ステップS13)、候補として抽出されたキーワードに文字列の包含関係があるか否かを判定する(ステップS14)。
話題キーワード抽出部14は、過去に算出したキーワードの出現頻度の履歴も併せて用いることによりキーワードの出現頻度を算出する。過去に算出したキーワードの出現頻度の履歴は、話題キーワード構造格納部17に格納されているキーワードに対応付けられているものとする。
本実施の形態において、話題キーワード抽出部14は、文書集合におけるキーワード自身の属性である出現頻度を用いてスコアを算出することとしたが、これに限るものではなく、キーワードの長さ、形態素情報などの文書集合におけるキーワード自身の属性を用いてスコアを算出するようにしても良い。
キーワードに文字列の包含関係がある場合は(ステップS14のYes)、包含されるキーワードが除去される(ステップS15)。キーワードに文字列の包含関係がある場合とは、例えば、「XX問題」「XX」「問題」というキーワードについて考えると、「XX問題」と「XX」および「問題」とは包含関係があるので、包含されるキーワード「XX」および「問題」はステップS15で除去される。
一方、キーワードに文字列の包含関係がない場合は(ステップS14のNo)、そのままステップS16に進む。
すなわち、話題キーワード抽出部14は、キーワード解析部13により解析された各キーワードの包含関係を利用してキーワードを抽出する。
このようにして得られたキーワード一覧が話題キーワードの集合となるが、抽出されたキーワードの個数が予め設定された閾値よりも多い場合は(ステップS16のYes)、頻度の高い順に閾値の個数までを採用し、残りを除去する(ステップS17)。以上により、話題クラスタから所定個数の特徴的な話題キーワード群が得られる。
図7は、抽出された話題キーワード一覧の構造を示す模式図である。図7に示すように、得られた時事キーワードは、キーワード自身の文字列の他に、指定期間、出現頻度、出現元文書のIDを属性として有している。
次に、話題構造化判定部16により話題が細分化可能であると分かった場合に、話題クラスタ抽出部12によって細分化された話題クラスタの各々が示す話題を「サブ話題」と呼ぶ。また、サブ話題の見出しとなるキーワードを「サブ話題キーワード」と呼ぶことにする。話題キーワード構造生成部15における話題キーワードおよびサブ話題キーワードの構造化処理について図8のフローチャートを参照して説明する。
図8に示すように、まず、細分化可能な話題クラスタを構成する文書を入力として話題クラスタ抽出部12によるクラスタリングを行う。(ステップS21)。この時、話題クラスタそのものを構成する話題キーワードは計算に含めない。また、サブ話題は近い日に出現したものが同じクラスタに属しやすいよう日付の近さも計算に用いる。
次に、結果として得られたサブ話題のクラスタからサブ話題キーワードを話題キーワード抽出部14により抽出する(ステップS22)。
次に、得られたそれぞれのサブ話題キーワード群を小見出しとし、細分化前の話題クラスタを示す話題キーワード(大見出しとする)に関連付ける(ステップS23)。大見出し、小見出しの区別は、後述するキーワード提示における表示に反映される。
このように話題キーワード構造生成部15は、キーワードの出現元の文書の共通性による共起情報を活用することにより、キーワードの分類および階層化を行っている。
続いて、それぞれのキーワードについて、話題キーワード構造格納部17にキーワードが格納されているか否かを判定する(ステップS24)。そして、話題キーワード構造格納部17に格納されていないキーワードに対しては(ステップS24のNo)、新着フラグを付与し(ステップS25)、話題キーワード構造格納部17に既に格納されているキーワードに対しては(ステップS24のYes)、前回の出現頻度との差分を計算する(ステップS26)。すなわち、話題キーワード構造生成部15は、過去にキーワードが抽出されたか否かを話題キーワード構造格納部17に格納されているキーワードと比較することにより新着のキーワードであることを判定し、キーワードに新着であることを示す属性(新着フラグ)を付与する。
以上説明したステップS24〜S26の処理は、未処理のキーワードが存在しなくなるまで(ステップS27のNo)、繰り返される。
上記のような処理の結果、得られたキーワード構造の例を図9に示す。それぞれの話題キーワードに対して話題ID、サブ話題ID、話題キーワード抽出時に付加された属性(指定期間、出現頻度、出現元文書のID)に加え、大見出し/小見出しの別、大見出し/小見出しの順位、新着フラグの有無、前日との順位差、およびジャンルが付与されている。「前日との順位差」は、「新着」が“0”の大見出し(つまり、前日との順位の比較ができるもの)に対してのみ付与される。また、例えば、前日は小見出しとして表示されていたものが翌日は大見出しに昇格したような場合については、大見出しとしては「新着」扱いとなる。なお、図9に示す属性に限るものではなく、小見出しから大見出しに昇格したような場合を明示する「昇格」などの属性を追加することが考えられる。ジャンルに関してはこの時点では与えられず、後からジャンル推定部20によって算出される。
すなわち、話題キーワード構造生成部15は、過去に算出したキーワードのスコア(例えば、出現頻度など)との比較により、キーワードに属性を付与する。
次に、ジャンル推定部20におけるジャンル推定処理について述べる。この手順を図10を参照しながら説明する。まず、ジャンル学習部18において、ジャンル情報と対になった文書について単語ベクトルを計算する(ステップ31)。次に、それぞれのキーワードがどのジャンルで出現しやすいかを計算する。これは、各キーワードのジャンル毎の出現割合を計算することにより得られる(ステップ32)。この結果はジャンル学習データ格納部19に格納される。
そして、それぞれの話題キーワードがどのジャンルに含まれるか計算する段階で、ジャンル推定部20はそれぞれの話題キーワードが含まれるクラスタの単語ベクトルについて、ジャンル学習データ格納部19に格納されたキーワード毎の対象ジャンルにおける出現割合を重みとした単語ベクトルとの内積を計算することによりジャンル毎のスコアが計算される(ステップ33)。そのスコアの最大値が閾値以上であるかどうかを判定し(ステップ34)、閾値を超えていれば当該ジャンルが話題キーワードの属するジャンルであるとみなされる。また、閾値を超えていない場合はジャンルに分類できないことを表すので、「ジャンル不明」または「その他ジャンル」であるとみなされる。いずれにしても、結果は話題キーワード構造格納部17に反映される。
このようにして構造化(分類および階層化)されたそれぞれの話題キーワードに対して、ユーザに提示される前に検索クエリ生成部21において検索クエリが付加される。話各題に対しては、それぞれの話題キーワード、あるいは話題キーワードを全て「AND」または「OR」で連結したものが検索クエリとして付加され、サブ話題に対しては、従属する話題の話題キーワードと、サブ話題の話題キーワードまたはサブ話題の話題キーワードを全て「AND」または「OR」で連結したものとの「AND」が検索クエリとして構成される。これにより、例えば元の話題である「XX問題」のような広いキーワードに対し、「疑惑」「謝罪」などのキーワードにより限定された文脈での検索結果を得ることが期待できる。すなわち、検索クエリ生成部21は、話題キーワード構造生成部15によって構成されたキーワード構造に従い、検索キーワードを複数組み合わせた検索クエリを生成する。なお、クエリ生成に関しては、「AND」はなるべく的確な結果を得るために、「OR」はなるべく多くの結果を得るために利用される。あるいは、ニュース記事を検索結果として得るために「ニュース」などの定型的なクエリを付与してもよい。すなわち、検索クエリ生成部21は、予め指定された特定のキーワード列を付与することも可能である。また、それぞれの話題キーワードが属するジャンルに応じて、クエリを変更してもよい。例えば、ジャンルが「スポーツ」である場合は、検索対象としてスポーツ新聞のサイトに限定する、などの処理を行うことが考えられる。
そして、話題キーワード構造生成部15によって生成された話題キーワードおよびその構造を元に検索クエリ生成部21において生成された検索クエリを含むWebページは、各ユーザが使用するクライアント3においてWebブラウザで閲覧可能になっている。
図11に示す話題キーワードの表示例から分かるように、大見出しの話題キーワードが、図9に示すスコアの順位に従った順序で表示される。また、小見出しは、大見出しと関連付けられた階層構造で表示される。さらに、小見出しは、図9に示すスコアの順位に従った順序で並べて表示される。このようなスコアの順位に従った順序は、指定期間における時間的な変化として現れることが多い。指定期間における時間的な変化は、例えば大見出しの話題情報が現在どのような状況であるかということである。また、新着の見出しに対しては、文字やアイコンなどを用いることにより(図11では「New!」)、表示効果に違いを持たせることが可能になっている。すなわち、話題キーワード提示部22は、属性の有無または種類に従い、その属性の存在を確認することのできるアイコン・記号・表示効果などのマークを表示する。
また、図11に示すように、それぞれの話題キーワードはアンカーテキストとなっており、ハイパーリンクによってWeb上の検索サイトに関連付けられている。そして、話題キーワードをクリックすると、話題キーワードに付加されている検索クエリによるWeb上の検索サイトにおける検索結果一覧ページに移動して閲覧することができるようになっている。すなわち、各話題キーワードはWeb上の検索エンジンへのクエリとなっていることにより、ユーザはキーボードによりキーワードを入力しなくとも、ニュースをはじめとする話題情報を容易に取得することが可能になっている。これにより、キーワードの組み合わせを入力・検索する手間を減らすことが可能となる。
また、図12は話題キーワードの別の表示例を示す図である。図12に示す表示例は、文書入力時に、短期間の集合と長期間の集合の2種類から話題キーワードを抽出し、短期間の集合から生成された話題を「今日ホットな話題」の欄Aに表示し、長期間の集合から短期間の集合を除いたものを「最近ウォッチ中の話題」の欄Bに表示することで、期間の違いに応じたキーワード提示を行うことができるようにしたものである。
なお、表示された話題キーワードに関しては、順位の変動に応じて順位の変化を示すアイコンや矢印を示すことで、そのキーワードの示す話題の注目度合いの変化を知ることが可能になっている。図12においては、新着の話題キーワードには「星印」を付して、新着であることが分かるようにしている。
また、図12においては、順位によらず、頻度が急上昇したキーワードに関しては、「赤丸急上昇の話題」の欄Cに表示することで、急に話題となったキーワードを知ることができるようにしている。
さらに、小見出しの表示順序に関しても、頻度の高いものを順に並べるだけでなく、新着フラグの付いたものを優先的に並べることでより話題性の高い表示をユーザに提示することが可能である。すなわち、話題キーワード提示部22は、属性の有無または種類に従い、その表示順序を変更する。
さらに、キーワードだけを見てもそれが何を意味するか分からない場合があるが、図12に示す表示例では、検索サイトを開かなくとも、キーワードが出現した元の文書データを表示することにより文脈を知ることができるようになっている。すなわち、話題キーワード提示部22は、所定の操作があった場合に、話題キーワードを含む元文書を表示する。図12では、マウスポインタPをキーワードの上に置くことにより、キーワードが出現した元の文書データDを表示しているので、「決戦」というキーワードがどのように使われたかを即座に知ることができる。
また、図13は話題キーワードのさらに別の表示例を示す図である。図13に示す表示例は、話題キーワードが含まれるクラスタのサイズをグラフとして表示するとともに、サブ話題キーワードが出現した日に表示することで、話題キーワードの動向がサブ話題のつながりにより表現される。あるサブ話題がどれだけの期間続いているかを示す場合は、図13のように、期間を示す図形が重畳される。この図形は常に表示しても良いし、ユーザがグラフ、話題、あるいはサブ話題を選択した時のみ表示してもよい。表示グラフで表示する数値は、クラスタのサイズに限らず、話題キーワードの出現頻度など、関連する属性を数値化されたものであれば何でも良い。図13では棒グラフが用いられているが、折れ線グラフなど、他の形式のグラフを用いてもよい。また、話題キーワードに対してジャンル情報を表示することで、それぞれの話題がどのジャンルに属するかを知ることができる。ジャンルに関しては、図13のように話題毎にジャンルを付加しても良いし、各サブ話題毎にジャンルを付加してもよい。実際には、ある話題が複数のジャンルにまたがる場合もあり、そのような場合にサブ話題毎にジャンルが分かれていると違いを表現しやすいと考えられる。それぞれのキーワードに対しては、図12と同様に、マウスポインタをキーワードの上に置くことにより、キーワードが出現した元の文書データを表示してもよい。同様に、表示された話題キーワードに関しては、順位の変動に応じて順位の変化を示すアイコンや矢印を示すことで、そのキーワードの示す話題の注目度合いの変化が分かるようにしても良いし、新着の話題キーワードには「星印」を付して、新着であることが分かるようにしてもよい。
以上説明した実施の形態によれば、指定期間に入力された複数の文書に含まれるキーワードを解析し、各キーワードのスコア順に抽出された各キーワードを分類および階層化したキーワード構造を生成する。そして、キーワード構造に従って各キーワードを分類および階層化するとともに、分類および階層化された各キーワードをスコア順に並べて提示する。これにより、日時情報を属性としてもつ文書から、ある日時における話題情報を示すキーワードである話題キーワードを効果的に検出・提示することができる。また、分類および階層化された各キーワードをスコア順に並べて提示することで、ある話題キーワードに対して階層化されていて関連性を有するキーワードの並び順から指定期間における時間的な変化、例えば当該話題情報が現在どのような状況であるかをユーザに提示することができる。より具体的には、単に「最近の話題」を見せるだけでなく、「最近話題になっている○○事件がどうなったのか」という進展や状態をユーザに効果的に見せることができる。
すなわち、本実施の形態は、日々配信されるテレビ番組の番組表情報やWebなどから入手可能な文書情報を記録し、それぞれのキーワードがどのように出現したか、その頻度や新しさを算出し、話題キーワードを知るための見出し情報を生成することで、現在話題となっているキーワードは何か、またそのキーワードはどの程度長く続いている話題を示すものか容易に理解し、検索できるようにしたものである。
また、過去の処理結果であるキーワード構造を再利用することで、新着キーワードやキーワードの出現頻度や順位の変化を知ることができ、その結果を表示内容に反映させることにより、大見出しで示される話題の状況や、最新のキーワードの組を容易に知ることが可能になる。
なお、本実施の形態においては、検索クエリ生成部21は、話題キーワード提示部22により各キーワードを提示する前に、各キーワードに対して検索クエリを付加するようにしたが、これに限るものではない。例えば、検索クエリ生成部21は、話題キーワード提示部22により提示された各キーワードが選択された際に、選択されたキーワードに対して検索クエリを付加するようにしても良い。
また、本実施の形態において、話題キーワード提示部22は、検索クエリ生成部21により生成されたWebページを、各ユーザが使用するクライアント3からのネットワーク2を介した表示要求に応じて提示するようにしたが、これに限るものではない。例えば、Webページを予め各ユーザが使用するクライアント3上にダウンロードし、ローカルファイルを表示するようにしても良い。
また、本実施の形態においては、キーワード提示装置であるサーバ1にネットワーク2を介してクライアント3が複数台接続されたサーバクライアントシステムを想定したが、これに限るものではなく、キーワード提示装置をスタンドアロンで使用するものであっても良い。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
一実施形態に係るキーワード提示装置を含むシステム構築例を示す模式図 サーバのハードウェア構成図 サーバの機能ブロック図 (a)はインターネット上のWebページのニュース記事を例示的に示す模式図、(b)はEPG上の情報を例示的に示す模式図 話題クラスタ抽出処理の手順を示すフローチャート キーワード抽出処理の手順を示すフローチャート 話題キーワード一覧の構造を示す模式図 話題キーワードの構造化処理の手順を示すフローチャート 話題キーワード構造の一例を示す模式図 ジャンル推定処理の手順を示すフローチャート 話題キーワードの表示例を示す図 話題キーワードの別の表示例を示す図 話題キーワードの別の表示例を示す図 別の実施形態に係るサーバの機能ブロック図
符号の説明
11…文書入力部、12…話題クラスタ抽出部、13…キーワード解析部、14…話題キーワード抽出部、15…話題キーワード構造生成部、16…話題構造化判定部、17…話題キーワード構造格納部、18…ジャンル学習部、19…ジャンル学習データ格納部、20…ジャンル推定部、21…検索クエリ生成部、22…話題キーワード提示部

Claims (24)

  1. 日時情報を属性として持つ文書を入力する文書入力手段と、
    前記文書入力手段により指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段と、
    前記複数の文書における文書の組において、前記単語ベクトルの内積が最大となる文書の組を同じ話題に属する話題クラスタとして抽出する話題クラスタ抽出手段と、
    前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段と、
    文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC−valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段と、
    前記話題が構造化可能であると判定されたならば、前記話題クラスタについて前記話題が構造化可能であると判定されなくなるまで繰り返し話題クラスタの抽出を行うよう前記話題クラスタ抽出手段を制御するとともに、これにより抽出されるサブ話題の話題クラスタであるサブ話題クラスタにおいて前記特徴的なキーワード群を抽出するよう前記キーワード抽出手段を制御する手段と、
    前記サブ話題クラスタにおいて前記特徴的なキーワード群を前記日時情報に基づいて並べて提示するキーワード提示手段と、を備えるキーワード提示装置。
  2. 前記話題クラスタと前記サブ話題クラスタのそれぞれのキーワード群の分類または階層化を行うことによりキーワードを構造化するキーワード構造化手段をさらに備えることを特徴とする請求項1に記載のキーワード提示装置。
  3. 前記話題クラスタまたは前記サブ話題クラスタのジャンルを推定してジャンル名を付与するジャンル推定手段をさらに備えることを特徴とする請求項1記載のキーワード提示装置。
  4. 前記話題クラスタまたは前記サブ話題クラスタのキーワード群に基づいて検索クエリを生成する検索クエリ生成手段をさらに備えることを特徴とする請求項1記載のキーワード提示装置。
  5. 前記キーワード提示手段により提示されたキーワード群においていずれかのキーワードが選択された際に、該キーワードに対して前記検索クエリを付加する請求項4記載のキーワード提示装置。
  6. 前記話題クラスタと前記サブ話題クラスタのそれぞれのキーワード群の分類または階層化を行うことによりキーワードを構造化する手段をさらに具備し、
    前記検索クエリ生成手段は、前記キーワードの構造結果を利用してキーワードを複数組み合わせた検索クエリを生成することを特徴とする請求項4記載のキーワード提示装置。
  7. 前記検索クエリ生成手段は、予め指定された特定のキーワード列を付与することを特徴とする請求項4記載のキーワード提示装置。
  8. 前記話題クラスタまたは前記サブ話題クラスタのジャンルを推定し、ジャンル名を付与するジャンル推定手段をさらに備え、
    前記検索クエリ生成手段は、前記ジャンル推定手段により推定されたジャンル名に応じて検索クエリ生成方法を切り替えることを特徴とする請求項4記載のキーワード提示装置。
  9. 前記キーワード抽出手段により抽出されたキーワード群を、各キーワードのスコアとともに格納するキーワード格納手段をさらに備えることを特徴とする請求項1記載のキーワード提示装置。
  10. 前記話題クラスタ抽出手段は、前記キーワード格納手段に格納されているスコアの履歴も併せて用いることにより、前記話題クラスタを抽出する際のスコアを算出することを特徴とする請求項9記載のキーワード提示装置。
  11. 前記キーワード格納手段に格納されている各キーワードのスコアを互いに比較することにより、前記各キーワードに属性を付与することを特徴とする請求項9記載のキーワード提示装置。
  12. 前記キーワード格納手段に格納されているキーワードとの比較により判定される新着のキーワードに、新着であることを示す属性を付与することを特徴とする請求項9記載のキーワード提示装置。
  13. 前記文書入力手段に入力される文書は、インターネット上のWebページのニュース記事であることを特徴とする請求項1記載のキーワード提示装置。
  14. 前記文書入力手段に入力される文書は、電子番組ガイド(EPG:Electronic Program Guide)に含まれる情報であることを特徴とする請求項1記載のキーワード提示装置。
  15. 前記文書入力手段に、指定された少なくとも1つ以上の期間に含まれる文書集合が入力されることを特徴とする請求項1記載のキーワード提示装置。
  16. 前記キーワード抽出手段は、キーワード自身の属性に基づくスコアを算出することを特徴とする請求項1記載のキーワード提示装置。
  17. 前記スコアをキーワードの出現頻度とすることを特徴とする請求項16記載のキーワード提示装置。
  18. 前記キーワード構造生成手段は、キーワードの出現元の文書の共通性による共起情報を活用することにより、前記キーワード群の分類および階層化を行うことを特徴とする請求項2記載のキーワード提示装置。
  19. 前記キーワード抽出手段は、キーワードの包含関係を利用して前記キーワード群を抽出することを特徴とする請求項1記載のキーワード提示装置。
  20. 前記キーワード提示手段は、キーワードに対する所定の操作に応答して該キーワードを含む文書を表示する表示手段を具備することを特徴とする請求項1記載のキーワード提示装置。
  21. 前記キーワード提示手段は、前記属性の有無または種類に従い、その属性を識別可能なマークを表示することを特徴とする請求項11記載のキーワード提示装置。
  22. 前記キーワード提示手段は、前記属性の有無または種類に従い、前記キーワード群の表示順序を変更することを特徴とする請求項11記載のキーワード提示装置。
  23. コンピュータを、
    日時情報を属性として持つ文書を入力する文書入力手段、
    前記文書入力手段により指定期間に入力された複数の文書の各々に含まれるキーワードを解析することにより、各文書が表す単語ベクトルを求めるキーワード解析手段、
    前記複数の文書における文書の組において、前記単語ベクトルの内積が最大となる文書の組を同じ話題に属する話題クラスタとして抽出する話題クラスタ抽出手段、
    前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群として抽出するキーワード抽出手段、
    文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC−valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを判定する話題構造化判定手段、
    前記話題が構造化可能であると判定されたならば、前記話題クラスタについて前記話題が構造化可能であると判定されなくなるまで繰り返し話題クラスタの抽出を行うよう前記話題クラスタ抽出手段を制御するとともに、これにより抽出されるサブ話題の話題クラスタであるサブ話題クラスタにおいて前記特徴的なキーワード群を抽出するよう前記キーワード抽出手段を制御する手段、
    前記サブ話題クラスタにおいて前記特徴的なキーワード群を前記日時情報に基づいて並べて提示するキーワード提示手段、として機能させるためのキーワード提示プログラム。
  24. 日時情報を属性として持つ文書を文書入力手段が入力するステップと、
    前記文書入力手段により指定期間に入力された複数の文書の各々に含まれるキーワードをキーワード解析手段が解析することにより、各文書が表す単語ベクトルを求めるステップと、
    前記複数の文書における文書の組において、前記単語ベクトルの内積が最大となる文書の組を同じ話題に属する話題クラスタとして話題クラスタ抽出手段が抽出するステップと、
    前記話題クラスタから出現頻度の高い順に所定個数のキーワードを特徴的なキーワード群としてキーワード抽出手段が抽出するステップと、
    文書の数、文書に含まれる日付の分散、文書に含まれるキーワードのC−valueの値のいずれかの判定基準によって前記話題クラスタをサブ話題の話題クラスタに分割することにより、話題を構造化可能であるかを話題構造化判定手段が判定するステップと、
    前記話題が構造化可能であると判定されたならば、前記話題クラスタについて前記話題が構造化可能であると判定されなくなるまで繰り返し話題クラスタの抽出を行うよう前記話題クラスタ抽出手段を制御するとともに、これにより抽出されるサブ話題の話題クラスタであるサブ話題クラスタにおいて前記特徴的なキーワード群を抽出するよう前記キーワード抽出手段を制御するステップと、
    キーワード提示手段が、前記サブ話題クラスタにおいて前記特徴的なキーワード群を前記日時情報に基づいて並べて提示するステップとを有するキーワード提示方法。
JP2007166714A 2007-06-25 2007-06-25 キーワード提示のための装置、方法、及びプログラム Active JP4342575B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007166714A JP4342575B2 (ja) 2007-06-25 2007-06-25 キーワード提示のための装置、方法、及びプログラム
US12/055,030 US8065145B2 (en) 2007-06-25 2008-03-25 Keyword outputting apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166714A JP4342575B2 (ja) 2007-06-25 2007-06-25 キーワード提示のための装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2009003888A true JP2009003888A (ja) 2009-01-08
JP4342575B2 JP4342575B2 (ja) 2009-10-14

Family

ID=40137426

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166714A Active JP4342575B2 (ja) 2007-06-25 2007-06-25 キーワード提示のための装置、方法、及びプログラム

Country Status (2)

Country Link
US (1) US8065145B2 (ja)
JP (1) JP4342575B2 (ja)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
JP2012014696A (ja) * 2010-07-05 2012-01-19 Nhn Corp リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
JP2012018671A (ja) * 2010-07-06 2012-01-26 Nhn Corp リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
JP2012529717A (ja) * 2009-06-09 2012-11-22 イービーエイチ エンタープライズィーズ インコーポレイテッド マイクロブログメッセージの内容を分析する方法
JP2013228887A (ja) * 2012-04-25 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP2015035225A (ja) * 2014-10-29 2015-02-19 シャープ株式会社 情報処理システムおよび電子機器
EP2858031A1 (en) 2013-10-04 2015-04-08 Fujitsu Limited Program, apparatus, and method for data management
JP2015064623A (ja) * 2013-09-24 2015-04-09 Kddi株式会社 ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
JP2015095181A (ja) * 2013-11-13 2015-05-18 Kddi株式会社 メディアコンテンツに対応する要約語を明示する装置、サーバ、プログラム及び方法
JP2015097026A (ja) * 2013-11-15 2015-05-21 日本電信電話株式会社 トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
JP2015125650A (ja) * 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム
JP2015135637A (ja) * 2014-01-17 2015-07-27 Kddi株式会社 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
JP2016099875A (ja) * 2014-11-25 2016-05-30 エコノミックインデックス株式会社 情報処理装置及び方法、並びにプログラム
JP2016177842A (ja) * 2016-06-09 2016-10-06 ヤフー株式会社 検索装置、検索方法及び検索プログラム
JP2016212799A (ja) * 2015-05-13 2016-12-15 日本電信電話株式会社 表示制御装置、表示制御装置の制御方法およびプログラム
JP2017134787A (ja) * 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
JP2018036698A (ja) * 2016-08-29 2018-03-08 株式会社インテロール 情報処理装置および方法、プログラム、並びに情報処理システム
JP2019164592A (ja) * 2018-03-20 2019-09-26 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP2020008987A (ja) * 2018-07-04 2020-01-16 株式会社エクサ アイデア支援システム
JP2020513128A (ja) * 2017-04-06 2020-04-30 ネイバー コーポレーションNAVER Corporation トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
US11176327B2 (en) 2016-10-04 2021-11-16 Fujitsu Limited Information processing device, learning method, and storage medium

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5224868B2 (ja) 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US8495490B2 (en) 2009-06-08 2013-07-23 Xerox Corporation Systems and methods of summarizing documents for archival, retrival and analysis
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8239405B1 (en) * 2010-11-30 2012-08-07 Conductor, Inc. Keywords filtering based on combined scores
US9449308B2 (en) * 2010-12-14 2016-09-20 Microsoft Technology Licensing, Llc Defining actions for data streams via icons
JP5232260B2 (ja) 2011-03-11 2013-07-10 株式会社東芝 話題抽出装置及びプログラム
FR2972822A1 (fr) * 2011-03-18 2012-09-21 Semiocast Procede et dispositif permettant de reperer et d'etiqueter des pics, des augmentations ou des variations anormales ou execptionnelles du debit d'un flux de documents numeriques
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
US8880390B2 (en) * 2011-12-20 2014-11-04 Yahoo! Inc. Linking newsworthy events to published content
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9910921B2 (en) 2013-02-28 2018-03-06 International Business Machines Corporation Keyword refinement in temporally evolving online media
US9098543B2 (en) 2013-03-14 2015-08-04 Wal-Mart Stores, Inc. Attribute detection
US10204026B2 (en) 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10430111B2 (en) 2013-03-15 2019-10-01 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US9600550B2 (en) 2013-03-15 2017-03-21 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US10698935B2 (en) 2013-03-15 2020-06-30 Uda, Llc Optimization for real-time, parallel execution of models for extracting high-value information from data streams
US10599697B2 (en) * 2013-03-15 2020-03-24 Uda, Llc Automatic topic discovery in streams of unstructured data
EP2782028A1 (en) * 2013-03-22 2014-09-24 Canon Kabushiki Kaisha Information processing apparatus for adding keywords to files
US10042936B1 (en) * 2014-07-11 2018-08-07 Google Llc Frequency-based content analysis
US10049148B1 (en) * 2014-08-14 2018-08-14 Medallia, Inc. Enhanced text clustering based on topic clusters
US10049208B2 (en) 2015-12-03 2018-08-14 Bank Of America Corporation Intrusion assessment system
US10803245B2 (en) * 2016-09-06 2020-10-13 Microsoft Technology Licensing, Llc Compiling documents into a timeline per event
TWI615725B (zh) * 2016-11-30 2018-02-21 優像數位媒體科技股份有限公司 詞組向量產生裝置及其操作方法
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
JP6646184B2 (ja) * 2017-06-01 2020-02-14 株式会社インタラクティブソリューションズ 検索用資料情報記憶装置
EP3788512A4 (en) 2017-12-30 2022-03-09 Target Brands, Inc. HIERARCHICAL, PARALLEL MODELS FOR REAL-TIME EXTRACTING HIGH VALUE INFORMATION FROM DATA STREAMS AND THE ASSOCIATED CREATION SYSTEM AND METHOD
US11244013B2 (en) * 2018-06-01 2022-02-08 International Business Machines Corporation Tracking the evolution of topic rankings from contextual data
US10970632B2 (en) * 2018-06-25 2021-04-06 Hcl Technologies Ltd Generating a score for a runbook or a script
US10769043B2 (en) * 2018-06-25 2020-09-08 Hcl Technologies Ltd. System and method for assisting user to resolve a hardware issue and a software issue
CN109857761B (zh) * 2018-12-28 2022-11-11 珍岛信息技术(上海)股份有限公司 一种数据库优化方法及其系统
CN111611341B (zh) * 2020-04-09 2023-04-25 中南大学 一种词项文档结构位置权重的获取方法及装置
CN112328795A (zh) * 2020-11-13 2021-02-05 首都师范大学 一种基于关键词元的话题检测方法、系统及计算机存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
JP3606556B2 (ja) 2000-05-16 2005-01-05 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報整理方法、情報処理装置、記憶媒体、およびプログラム伝送装置
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
JP4234740B2 (ja) 2006-08-03 2009-03-04 株式会社東芝 キーワード提示装置、プログラムおよびキーワード提示方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053814A (ja) * 2007-08-24 2009-03-12 Toshiba Corp キーワード抽出装置及び方法、並びに、文書検索装置及び方法
US9323826B2 (en) 2009-06-09 2016-04-26 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
JP2012529717A (ja) * 2009-06-09 2012-11-22 イービーエイチ エンタープライズィーズ インコーポレイテッド マイクロブログメッセージの内容を分析する方法
US9122747B2 (en) 2009-12-09 2015-09-01 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
JP2012014696A (ja) * 2010-07-05 2012-01-19 Nhn Corp リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
US9262401B2 (en) 2010-07-05 2016-02-16 Nhn Corporation Method and system for providing representative phrase
US9479839B2 (en) 2010-07-06 2016-10-25 Nhn Corporation Method and system for providing a representative phrase based on keyword searches
JP2012018671A (ja) * 2010-07-06 2012-01-26 Nhn Corp リアルタイム人気キーワードに対する代表フレーズを提供する方法およびシステム
US8812504B2 (en) 2010-09-28 2014-08-19 Kabushiki Kaisha Toshiba Keyword presentation apparatus and method
JP2012073804A (ja) * 2010-09-28 2012-04-12 Toshiba Corp キーワード提示装置、方法及びプログラム
JP2013228887A (ja) * 2012-04-25 2013-11-07 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置及び方法及びプログラム
JP2015064623A (ja) * 2013-09-24 2015-04-09 Kddi株式会社 ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
EP2858031A1 (en) 2013-10-04 2015-04-08 Fujitsu Limited Program, apparatus, and method for data management
JP2015095181A (ja) * 2013-11-13 2015-05-18 Kddi株式会社 メディアコンテンツに対応する要約語を明示する装置、サーバ、プログラム及び方法
JP2015097026A (ja) * 2013-11-15 2015-05-21 日本電信電話株式会社 トレンド分析装置、トレンド分析方法およびトレンド分析プログラム
JP2015125650A (ja) * 2013-12-26 2015-07-06 日本放送協会 トピック抽出装置、及びプログラム
JP2015135637A (ja) * 2014-01-17 2015-07-27 Kddi株式会社 ストーリーを持つ文章間の類似度を導出する類似検索プログラム、装置及び方法
JP2015035225A (ja) * 2014-10-29 2015-02-19 シャープ株式会社 情報処理システムおよび電子機器
JP2016099875A (ja) * 2014-11-25 2016-05-30 エコノミックインデックス株式会社 情報処理装置及び方法、並びにプログラム
JP2016212799A (ja) * 2015-05-13 2016-12-15 日本電信電話株式会社 表示制御装置、表示制御装置の制御方法およびプログラム
JP2017134787A (ja) * 2016-01-29 2017-08-03 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
JP2016177842A (ja) * 2016-06-09 2016-10-06 ヤフー株式会社 検索装置、検索方法及び検索プログラム
JP2018036698A (ja) * 2016-08-29 2018-03-08 株式会社インテロール 情報処理装置および方法、プログラム、並びに情報処理システム
US11176327B2 (en) 2016-10-04 2021-11-16 Fujitsu Limited Information processing device, learning method, and storage medium
JP2020513128A (ja) * 2017-04-06 2020-04-30 ネイバー コーポレーションNAVER Corporation トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
JP2019164592A (ja) * 2018-03-20 2019-09-26 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP7078429B2 (ja) 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP2020008987A (ja) * 2018-07-04 2020-01-16 株式会社エクサ アイデア支援システム
JP6999514B2 (ja) 2018-07-04 2022-02-10 株式会社エクサ アイデア支援システム

Also Published As

Publication number Publication date
US8065145B2 (en) 2011-11-22
JP4342575B2 (ja) 2009-10-14
US20080319746A1 (en) 2008-12-25

Similar Documents

Publication Publication Date Title
JP4342575B2 (ja) キーワード提示のための装置、方法、及びプログラム
JP4234740B2 (ja) キーワード提示装置、プログラムおよびキーワード提示方法
JP5224868B2 (ja) 情報推薦装置および情報推薦方法
JP4638439B2 (ja) ウェブ検索の個人化
US9367588B2 (en) Method and system for assessing relevant properties of work contexts for use by information services
US20170116200A1 (en) Trust propagation through both explicit and implicit social networks
US8051080B2 (en) Contextual ranking of keywords using click data
US7353246B1 (en) System and method for enabling information associations
JP5603337B2 (ja) バーティカル提案により検索要求を支援するためのシステム及び方法
JP5546731B2 (ja) 検索方法及び検索システム
KR101191531B1 (ko) 인라인 문맥 질의들을 사용하는 검색 시스템들 및 방법들
US20150178350A1 (en) Automatic method and system for formulating and transforming representations of context used by information services
JP2010009577A (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
KR20070038146A (ko) 검색 결과에서 배치 내용 정렬의 개인화
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
EP1766507A2 (en) Results based personalization of advertisements in a search engine
US10282358B2 (en) Methods of furnishing search results to a plurality of client devices via a search engine system
EP2483816A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
KR20100112512A (ko) 검색 장치 및 검색 방법
US10891340B2 (en) Method of and system for updating search index database
US20120166415A1 (en) Supplementing search results with keywords derived therefrom
JP2014164576A (ja) 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法
US20050144179A1 (en) Method and apparatus for document-analysis, and computer product
JP5014252B2 (ja) コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム
JP2016062445A (ja) ラベル抽出装置、ラベル抽出方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090609

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090707

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4342575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120717

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130717

Year of fee payment: 4