JP4453513B2 - 情報表示装置及びプログラム - Google Patents

情報表示装置及びプログラム Download PDF

Info

Publication number
JP4453513B2
JP4453513B2 JP2004306949A JP2004306949A JP4453513B2 JP 4453513 B2 JP4453513 B2 JP 4453513B2 JP 2004306949 A JP2004306949 A JP 2004306949A JP 2004306949 A JP2004306949 A JP 2004306949A JP 4453513 B2 JP4453513 B2 JP 4453513B2
Authority
JP
Japan
Prior art keywords
information
topic
word
genre
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004306949A
Other languages
English (en)
Other versions
JP2006119895A (ja
Inventor
裕一郎 関口
晴美 川島
吉秀 佐藤
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004306949A priority Critical patent/JP4453513B2/ja
Publication of JP2006119895A publication Critical patent/JP2006119895A/ja
Application granted granted Critical
Publication of JP4453513B2 publication Critical patent/JP4453513B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大量の文書を一覧表示するための情報表示装置及びプログラムに係り、特に、多様なジャンルに属する文書情報を一度に表示する際に、大量の文書においてある時刻に話題になっている複数の語句を自動で抽出し、それらの語句群とその中で主要となるジャンルを示す画像情報を同時に表示することにより、主要ジャンル情報を把握しながら個々の話題を閲覧するための情報表示装置及びプログラムに関する。
インターネットをはじめとした情報メディアの発達により、ニュース情報やblogによる個人発信情報など、様々な電子化された文書情報が大量に発信され、蓄積されるようになった。これらの新しく発信されている情報を読むことにより、現在の世間の動向や流行といった話題を知ることができる。しかし、発信されている情報が大量になると、人間が情報全体に目を通すことにより話題を知ることは不可能であり、装置が大量の文書情報から重要な語句のみを抜き出すことにより、簡単に話題を閲覧する技術が複数提案されている。
従来の第1の技術として、時々刻々と提供される文字情報から、更新され異なっている部位のみを切り出して速報情報を継続的に提供する技術がある(例えば、特許文献1参照)。
従来の第2の技術として、時間情報を有する文書を解析することにより、時系列に沿って変遷していく話題語句を抽出し、その変遷を視覚化する技術がある(例えば、特許文献2参照)。
特開平8−161299号公報 特開平10−154150号公報
しかしながら、大量の文書群が入力されると、上記の従来技術により抽出される話題語の量も入力文書量に比例して大量になっていく。このようにして抽出される話題語が大量になると、人間が抽出された話題語全体に目を通すのが難しくなり、世間では多く扱われている話題はどのような分野のものが多いのかという全体の傾向を掴み辛いという問題がある。
上記のように、従来の技術では、文書群が大量になると抽出される話題語も大量になるため、話題語を読んで全体の傾向を掴むということが難しくなるという問題がある。
これを解決するために、文書群でどのようなジャンルが多く扱われているかといった全体傾向の情報を、抽出された話題語と同時に示す方法を考える。これにより、多く扱われるジャンルは何かという全体の傾向を把握した上で、利用者は必要に応じた量の話題語を閲覧し、世間の話題の流れを得ることができる。
しかし、全体傾向の情報を文字形式で示すと、同じく文字で表示されている話題語の情報と混同してしまいやすく、閲覧の利便さを損なってしまう。従って、全体傾向の情報は文字以外の形式で表示する必要がある。
本発明は、上記の点に鑑みなされたもので、文書群でどのようなジャンルが多く扱われているかという文書群全体の傾向に関する情報を画像の形式で表示し、画像情報の上に抽出される話題語を重ね合わせて表示することにより、全体傾向の情報と話題語の情報を区別のしやすい形で同時に表示することが可能な情報表示装置及びプログラムを提供することを目的とする。
は、本発明の原理構成図である。
本発明(請求項)は、作成時刻情報の付与された多量の文書群を入力とし、個々の文書を解析することによりジャンル情報と時刻情報とが付与された話題語情報を抽出し、外部から入力として受け付けた時刻情報に対応する話題語を、主要ジャンル情報を表す画像の上に話題度情報とジャンル情報と共起度情報に基づいて話題語句を配置した形で表示手段に表示する情報表示装置100であって、
ジャンル情報及び作成時刻情報が付与された文書群が蓄積された文書蓄積手段201と、
ジャンル情報が付与されている画像が蓄積された画像蓄積データベース202と、
文書蓄積手段201に蓄積された文書群のうち所定の集計期間に更新された文書を対象に、各文書を解析しジャンル毎に語句の出現回数を集計し、文書蓄積手段201へのアクセス時刻を付与した形で集計語句バッファ1021に格納する語句抽出集計手段101と、
最近になるほど重みが大きく設定された重み関数を用い、アクセス時刻が重み関数での定義範囲のものを対象に、ジャンル毎の各語句についてその出現回数にアクセス時刻で定まる重みを乗じた総和を話題の大きさを表す話題度として求め、ジャンル、話題語である語句、話題度、該話題度を求めた時刻を話題語情報として話題語蓄積手段103に格納する話題語抽出手段102と、
話題語蓄積手段201から、外部から入力された時刻情報に対応する話題語情報を選択し、記憶手段に格納する表示話題語抽出手段104と、
表示話題語抽出手段104で選択された記憶手段1051題語情報について、ジャンル毎に各話題語の話題度を集計し、集計値が最大なジャンルを主要ジャンルとして求める表示画像決定手段106と、
表示話題語抽出手段104で得られた題語情報について、話題語を2つ選んでできる全ての組み合わせについて、文書群のうち話題度を算出するのに使用した時間範囲に作成された文書を対象として共起度情報を求める語句共起度算出手段107と、
画像蓄積データベース202に蓄積された前記主要ジャンルの画像を表示し、画像の中心を極とする極座標で表現された位置に当該主要ジャンルに所属する話題語を表示する表示内容決定手段108とを有し、
極座標の半径は話題度が大きいほどに小さな値とし、2つの話題語の共起度が高いほどに2つの話題語の位置が近くなるように偏角を設定する。
また、本発明(請求項)は、極座標の偏角を、偏角で隣り合う2つの話題語の共起度が高いほど2つの話題語の偏角の差が小さくなるように設定する。
また、本発明(請求項)は、極座標の偏角を決めるにあたり、
主要ジャンルに属する話題語の中で共起度が最大となる2つの話題語を偏角でみて隣り合わせとし、前記共起度が最大となる2つの話題語のそれぞれについて、共起度が最大値の次に大きい話題語を偏角でみて反対側に隣り合わせとさせる。
本発明(請求項)は、請求項1乃至3のいずれか1項に記載の情報表示装置の各手段としてコンピュータを機能させるための情報表示プログラムである。
上記のように、本発明によれば、Web上で常時更新されていく大量の文書情報から話題語を抽出し、得られた大量の話題語情報を表示する際に、多くの文書が含まれる主要ジャンルの情報を画像として表示し、個々の話題語の情報は文字による語句として、主要ジャンルを示す画像に重ね合わせて表示することにより、大量の項目の全体傾向と個々の話題を混同せずに閲覧することが可能となる。
また、本発明によれば、話題語の表示位置を、各話題語のジャンル情報や話題度情報及び話題語相互の共起情報を反映して、主要なジャンルで話題度の高い語句ほど中心に配置し、関連性の高い語句を近くに配置することにより、平面状の配置からも語句の情報を得ることが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
は、本発明の第1の形態における情報表示装置の構成を示す。
同図に示す情報表示装置100には、当該装置100の入力となる文書情報を蓄積している文書情報データベース201と、本装置100の入力となるジャンル情報付き画像データを蓄積している画像蓄積データベース202と、当該装置100の出力となる画像と語句の重ね合わせた表示内容情報を描画して表示する出力装置203が接続されている。
情報表示装置100は、語句抽出集計部101、話題語抽出部102、話題語データベース103、表示話題語抽出部104、主要ジャンル算出部105、表示画像決定部106、語句共起度算出部107、及び表示内容決定部108から構成される。
当該装置の処理の実施においては、予め使用するジャンル一覧情報が与えられているとする。当該ジャンル一覧情報は、本装置100が文書情報をジャンル毎に分類する際に用いるジャンルの一覧が表記されている。例えば、スポーツに関連する文書情報群を扱う際のジャンル一覧情報は、「野球・サッカー・格闘技・テニス・ゴルフ・バレーボール・バスケットボール・オリンピック・その他」といった一覧になる。
文書蓄積データベース201には、インターネット上で取得することができる文書ページによる多量のテキスト文書情報が作成時刻情報とジャンル情報が付与された形で蓄積されている。蓄積されている文書情報は、インターネットのクローリングによって新たな情報が追加される。また、すでに蓄積されている文書情報の内容が、更新されていた場合には新たな文書情報として蓄積することとする。文書情報に付与される作成時刻情報は、収集された際の時刻とする。また、ジャンル情報は、文書情報が収集された際に、一般のジャンル抽出技術("多重トピックテキストの確立モデル・パラメトリック混合モデル"上田、斉藤(NTT))による処理を行い、それにより得られたジャンル情報が付与されることとする。
ジャンル画像蓄積データベース202には、所属するジャンル情報の付与された画像データが蓄積されている。
上に挙げたスポーツ関連文書群を入力として扱う際のジャンル一覧情報を用いている場合の例を挙げると、サッカーボールの画像情報には『サッカー』のジャンル情報が付与されており、ゴルフコースの画像には『ゴルフ』のジャンル情報が付与されている。
ジャンル画像蓄積部202に蓄積されている画像情報の例を図に示す。
語句抽出集計部101では、一定時間おきに文書情報データベース201中の更新された文書情報群を形態素解析することにより、文書を品詞毎に分解する。得られた品詞のうちから、名詞及び複合名詞を、話題を表すのに有効な語句として選択し、各ジャンル毎に出現した語句とその回数を集計する。得られた時刻・ジャンル語句集計結果は、話題語抽出部102の集計語句バッファ1021に蓄積される。
話題語抽出部102では、語句抽出集計部101によりバッファ1021にデータが書き込まれた際に連動して動作をし、処理時点での語句Waの話題度Saを算出する。算出された情報はジャンル毎にまとめられて話題語データベース103に時刻情報とともに書き出される。
表示話題語抽出部104は、外部からの時刻情報の入力を受け、最も近い時刻の話題語を話題語データベース103から取得する。得られた表示語句情報は、話題度の高いものから予め設定されている表示語句数だけ選ばれ、主要ジャンル算出部105と語句共起度算出部107の表示語句バッファ1051,1071に渡される。
主要ジャンル算出部105では、表示語句バッファ1051にある話題語情報に付与されているジャンル情報を集計することにより最も多く扱われているジャンル情報を得る。そのジャンル情報を入力された時刻における主要ジャンル情報として、表示画像決定部106の主要ジャンルバッファ1061に蓄積する。
表示画像決定部106は、主要ジャンルバッファ1061に入っている主要ジャンル情報を読み出し、そのジャンルと同じジャンル情報が付与されている画像データを画像蓄積データベース202より選び出す。選ばれた画像データは、表示画像情報として、表示内容決定部108の共起度付き表示画像バッファ1081に書き込まれる。
語句共起度算出部107は、表示語句バッファ1071に入っている話題語から2語の組を作り出し、算出時間範囲内でその2語の両方入っている文章を文書蓄積データベース201から検索して取得し、それらの数をその組み合わせの共起度として、表示内容決定部108の共起度付き表示語句バッファ1082に書き込む。
表示内容決定部108は、共起度付き表示画像バッファ1081にある表示画像データを背景とし、共起度付表示語句バッファ1082にある話題語を語句のジャンル情報と話題度情報と共起度情報とを元に画像上に配置し、出力装置203に表示する出力画面情報を作成し、出力装置203に出力する。
次に、図を用いて語句抽出集計部101の動作を説明する。
語句抽出集計部101は、動作が始まると、文書蓄積データベース201に接続する。語句抽出集計部101には前回文書蓄積データベース201に接続した時間が記録されており、前回接続時刻と現在時刻の間に更新された文書情報を文書蓄積データベース201から選択し、更新文書バッファ1011に複製する。前回接続時刻が記録されていなかった場合は、文書蓄積データベース201内の全ての情報を更新データと判断し、更新文書バッファ1011に複製する(ステップ101)。
語句抽出集計部101は、更新文書バッファ1011から1つ文書情報を取得し、形態素解析によるテキスト処理を行う。形態素解析により文書情報は品詞毎に分解される(ステップ102)。
ステップ102で得られた品詞の中から、名詞及び複合名詞を話題に相応しい品詞として抽出し、話題語句情報として話題語句バッファ1012に蓄積する。この際、話題語句を抽出した元の文書情報のジャンル情報を当該語句のジャンル情報として付与した形で蓄積する(ステップ103)。
更新文書バッファ1011に未処理の文書があるかどうかを判断し、未処理文書がある場合はステップ102に戻って処理を続ける(ステップ104)。
予め設定されているジャンル一覧からジャンルを1つ選び、話題語句バッファ1012に入っている語句情報から、当該ジャンルと同じジャンル情報を持つものを抽出する。抽出された語句群から、同じ表記を持つものがいつ含まれているかを集計する。例えば「野球」のジャンルを含む語句を抽出した際に、「日本人野手、補強選手、元オーナー、強力打線、補強選手、日本人野手、球団合併問題、補強選手」という語句が得られる場合、「補強選手」が3つあるため、「補強選手 3、強力打線 1、日本人野手 2、…」というように集計する(ステップ105)。
得られたジャンルにおける集計語句情報は、所属するジャンル情報と文書蓄積データベース201にアクセスした取得時間が付与された形で、話題語抽出部102の集計語句バッファ1021に記録される(ステップ106)。集計語句バッファ1021に記録される情報の例を図に示す。
次に、話題語句バッファ1012の集計を行っていないジャンルがないかを判定する。まだ集計していないジャンルがある場合には、ステップ105に戻って処理を続ける(ステップ107)。未集計ジャンルがない場合には、処理完了シグナルを話題語抽出部102に送信する。
次に、終了命令が外部から与えられているかを判定する。終了命令が与えられていた場合には処理を終了する(ステップ109)。与えられていない場合には、予め定められた一定時間待機した後に、再度ステップ101から処理を再開することとする。
次に、図を用いて話題語抽出部102の処理の流れを説明する。
話題語抽出部102は、語句抽出集計部101から処理完了シグナルを受けると処理を開始し、集計語句バッファ1021を参照し、当該バッファ中のデータの中で最も新しい時刻情報t_nowを取得する。集計語句バッファ1021の状態が図のようであった場合、t_nowの値は「2004/08/31 19:45」となる(ステップ201)。
話題抽出部102には予め図のような基本時刻重み関数Forg(t)が設定されている。Forg(t)は、最新の話題を取得できるよう最近になるほど重みが大きくなるように設定されており、蓄積されてから一定時間以上たった語句は話題として価値が低いと考えられるため、−twよりも前の時刻については重みが0に設定されている。処理時点の時刻に対応させるため、Forg(t)のt=0の時点がt_nowになるようにForg(t)を変更した現在の時刻重みFnow(t)を求める(ステップ202)。twが24時間に設定されていた場合のFnow(t)の例を図に示す。
集計語句バッファ1021中のt_nowからt_now−twの範囲の時刻情報を持っている語句について、同一表記の語句毎に情報をまとめ直して再集計バッファ1022に蓄積する(ステップ203)。再集計バッファ1022に蓄積されるデータの例を図に示す。
時間重み関数Fnow(t)を用いて語句の話題度を求める。ある語句Wの話題度Sは、Wの各時刻情報tkと件数Xkの組に対して、Fnow(tk)×Xa(tk)の計算を行い、t_nowからt_nmow−t_oldまでの時刻情報を持っているデータについて集計して求める。例えば、図の『日本人野手』についての話題度Sは、Fnow(19:45)×7+Fnow(17:45)×1+Fnow(17:15)×4+…という形で求められる(ステップ204)。
得られた語句Wの話題度Sを時刻情報t_nowとジャンル情報を付与して話題語データベース103に蓄積する(ステップ205)。話題語データベース103に蓄積される情報の例を図10に示す。
再集計バッファ1022にある全語句について集計したかを確認する。まだ処理していない語句がある場合にはステップ204に戻って処理を続ける。全語句について処理を行った場合には処理を終了する(ステップ206)。
表示話題語抽出部104は、利用者からの表示時刻情報が入力されることにより処理を開始する。処理が開始されると、受け取った表示時刻情報に最も近い時刻情報を持つ話題語情報の一群を話題語データベース103から取得する。例えば、入力された時刻情報が「2004/8/28 18:52」であり、話題語データベース103が図10のように15分毎に整理されている状態だった場合、「2004/8/28 18:45」の情報を持つ話題語情報を全て取得する。得られた表示語句情報から、話題度の高い順に予め与えられている最大表示可能語句数までが選択され、主要ジャンル算出部105と語句共起度算出部107との表示語句バッファ1051,1071にそれぞれ渡される。図11に表示語句バッファ1051,1071に格納されるデータの例を示す。
次に、図12を用いて主要ジャンル算出部105の処理を説明する。
主要ジャンル算出部105は処理が開始されると、表示語句バッファ1051にある話題語情報を付随するジャンル情報毎に分類する(ステップ501)。
各ジャンル毎に、所属する話題語情報の話題度を集計する。例えば、『オリンピック』というジャンル情報を持つ話題語情報として、
『16.89 オリンピック 競泳』
『15.27 オリンピック 東大阪市役所』
『10.28 オリンピック 文科相』
といった3つがある場合、『オリンピック』ジャンルの話題度の集計値は、
16.89+15.27+10.28=42.44
となる(ステップ502)。
求められたジャンル情報毎の話題度集計度の中で、最も集計値が大きかったジャンル情報を主要ジャンル情報として、表示画像決定部106の主要ジャンルバッファ1061に書き込む(ステップ503)。
13を用いて、表示画像決定部106の処理を説明する。
表示画像決定部106は、処理が開始されると、主要ジャンルバッファ1061から主要ジャンル情報を取得する(ステップ601)。
取得したジャンル情報と対応するジャンル情報を持つ画像データを、画像蓄積データベース202から検索し、取得する。例えば、主要ジャンルバッファ1061に入っているジャンルデータの値が『野球』の場合には、『野球』のジャンル情報を付与されている画像データであるドーム球場の画像、『ドーム球場、jpg』が表示画像情報として選択される(ステップ602)。
得られた表示画像情報を、表示内容決定部108の表示画像バッファ1081に蓄積する(ステップ603)。
次に、図14を用いて語句共起度算出部107の処理の流れを説明する。
語句共起度算出部107は、処理が開始されると、表示語句バッファ1071から語句データを2つ取得する。この際取得する2つの語句データは、話題度の高い方からまだ処理していない組み合わせを選ぶこととする(ステップ701)。
選ばれた2つの語句両方を含む文書の数を文書蓄積データベース201から検索して求める。この際、検索対象とする文書は、表示する話題情報の話題度を算出するのに使用した時間範囲に作成されたものとする。つまり表示語句バッファ1071に含まれる話題語情報を持つ時刻情報が「2004/08/28 18:45」だったならば、検索対象となる時刻の範囲はその時刻からtw遡った時刻までとなり、「2004/8/28 18:45」から「2004/8/27 18:45」までの範囲となる(ステップ702)。
得られた集計値を、この2つの語の組の共起度として両方の語句情報に付与する(ステップ703)。
未処理の語の組があるかどうかを確認し、ある場合にはステップ701に戻って処理を続ける(ステップ704)。
共起度の付加された話題語情報を表示内容決定部108の共起度付き表示語句バッファ1082に蓄積する(ステップ705)。共起度付き表示語句バッファ1082に蓄積されるデータの例を図15に示す。
次に、図16を用いて表示内容決定部108の処理の流れを説明する。
表示内容決定部108は、処理が開始されると、表示画像バッファ1081にある画像データを取り出し、中心部から半径rで切り抜いた円形画像情報を取得する。切り抜くサイズの半径rは、予めシステムに与えられているものとする(ステップ801)。
共起度付き表示語句バッファ1082から話題語情報を取得し、主要ジャンルバッファ1061にある主要ジャンル情報と同じジャンル情報を持つ語句だけを選び出す。
語句Wiの表示位置は中心から距離Riと偏角θiによって定義することとし、中心からの距離Riを話題度情報Siを元に求める。当該ジャンルの語句情報のうち、最も話題度が大きい語句が中心に、最も話題度が低い語句が円からはみ出さない程度の外側として中心からの距離0.8Riの位置にくるようにし、それ以外の語句は話題度に応じて比例する距離に設置する。即ち、話題語Wiの中心から距離Riは
Ri=0.8×r×(Si−Smin/Smax−Smin)
を用いることにより求まる(ステップ803)。
語句を表示する位置の偏角θiを、共起度を利用して求める。まず、当該ジャンルの話題語の数がkであった場合、円の真上から右回りにP1〜kの置き場所を用意し、それぞれに語句を割り当てていく。まず、話題度が一番大きい語句をP1におく。次のその両端のP2とPkに、P1に置かれた語句との共起度が高い語句が順に選ばれる。共起度の値が同じ語句が複数ある場合には、話題度の高い語句を優先することとする。次に、P2にとってP1の反対側の隣となるP3と、PkにとってP1の反対側の隣になるPk−1とおく語句を、それぞれの位置の語句との共起度の高い順に選ぶ。この際も前述と同様に共起度が同じ語句が複数ある場合には、話題度の高いものを優先的に選ぶものとする。このようにしてP1〜Pk全てに対応する語句が決まるまで、上の作業を繰り返し続ける(ステップ804)。
次に、P1〜Pkに対応する偏角θ1〜kを、隣り合った語句同士の共起度を用いて決定する。今回θiは、PiとPi+1との間の角度を表すこととし、KiはPiの語句とPi+1の語句との共起度を表すこととする。また、θkとKkとはそれぞれPkとP1の角度と共起度とする。Kiの値が大きいほどθiが小さく、Kiが小さければθiが小さくなるように、θiの値はKiの逆数に反比例するように計算する。逆数が存在するように、Ki=0の際は1として計算することとする。従って、
θi=(1/Ki)/(Σ(1/K1))
で求めることができる(ステップ805)。
次に、主要ジャンル以外のジャンル情報を持った語句の表示位置を決定する。まず、主要ジャンル以外の話題語の数を求める。該当する語句の数がmの場合、半径が1.2Rの円周上に語句の配置場所Q1〜Qmを円周をm等分する形で時計周りに設定する。Q1に該当する語句の中で最も話題度が高い語句を当てはめ、そこから右回りにQ1にある語句と同じジャンルの語句を順に当てはめていく。Q1と同じジャンルの語句がなくなったら、残りの語句の中で最も話題度の高い語句を次の配置場所に当てはめ、その語句と同じジャンルの語句を右回りに順に当てはめていく。この作業を順に繰り返し、Q1〜Qm全てに語句を配置する(ステップ806)。
最終的に得られた配置情報を元に、画像の上に語句を配置した画像情報を表示画面情報として求め、外部の出力装置203に出力する(ステップ807)。求められた表示画面情報の例を図17に示す。
なお、上記の図、図、図12、図13、図14、図16に示す動作をプログラムとして構築し、情報表示装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
Web上の大量の文書情報から話題語を抽出するための技術に適用可能である。
本発明の原理構成図である。 本発明の一実施の形態における装置構成図である。 本発明の一実施の形態におけるジャンル画像蓄積データベースに蓄積されているデータの例である。 本発明の一実施の形態における語句抽出集計部の処理の流れを表す図である。 本発明の一実施の形態における話題語抽出部内の集計語句バッファに蓄積されたデータの例である。 本発明の一実施の形態における話題語抽出部の処理の流れを示す図である。 本発明の一実施の形態における基本時刻重み関数の例である。 本発明の一実施の形態における時刻重み関数の例である。 本発明の一実施の形態における話題語抽出部の再集計バッファに蓄積されるデータの例である。 本発明の一実施の形態における話題語データベースに蓄積されるデータの例である。 本発明の一実施の形態における表示語句バッファに蓄積されるデータの例である。 本発明の一実施の形態における主要ジャンル算出部の処理の流れを表す図である。 本発明の一実施の形態における表示画像決定部の処理の流れを表す図である。 本発明の一実施の形態における語句共起度算出部の処理の流れを表す図である。 本発明の一実施の形態における表示内容決定部の共起度付表示語句バッファに蓄積されるデータの例である。 本発明の一実施の形態における表示内容決定分の処理の流れを示す図である。 本発明の一実施の形態における表示画面情報の例である。
符号の説明
100 情報表示装置
101 語句抽出集計手段、語句抽出集計部
102 話題語抽出手段、話題語抽出部
103 話題語蓄積手段、話題語データベース
104 表示話題語抽出手段、表示話題語抽出部
105 主要ジャンル算出部
106 表示画像決定手段、表示画像決定部
107 語句共起度算出手段、語句共起度算出部
108 表示内容決定手段、表示内容決定部
201 文書蓄積手段、文書蓄積データベース
202 像蓄積データベース
203 出力装置
1011 更新文書バッファ
1012 話題語句バッファ
1021 集計語句バッファ
1022 再集計バッファ
1051 記憶手段、表示語句バッファ
1071 表示語句バッファ
1061 主要ジャンルバッファ
1081 表示画像バッファ
1082 共起度付表示語句バッファ

Claims (4)

  1. 作成時刻情報の付与された多量の文書群を入力とし、個々の文書を解析することによりジャンル情報と時刻情報とが付与された話題語情報を抽出し、外部から入力として受け付けた時刻情報に対応する話題語を、主要ジャンル情報を表す画像の上に話題度情報とジャンル情報と共起度情報に基づいて話題語句を配置した形で表示手段に表示する情報表示装置であって、
    ジャンル情報及び作成時刻情報が付与された文書群が蓄積された文書蓄積手段と、
    ジャンル情報が付与されている画像が蓄積された画像蓄積データベースと、
    前記文書蓄積手段に蓄積された文書群のうち所定の集計期間に更新された文書を対象に、各文書を解析しジャンル毎に語句の出現回数を集計し、前記文書蓄積手段へのアクセス時刻を付与した形で集計語句バッファに格納する語句抽出集計手段と、
    最近になるほど重みが大きく設定された重み関数を用い、アクセス時刻が重み関数での定義範囲のものを対象に、ジャンル毎の各語句についてその出現回数にアクセス時刻で定まる重みを乗じた総和を話題の大きさを表す話題度として求め、ジャンル、話題語である語句、話題度、該話題度を求めた時刻を話題語情報として話題語蓄積手段に格納する話題語抽出手段と、
    前記話題語蓄積手段から、外部から入力された時刻情報に対応する話題語情報を選択し、記憶手段に格納する表示話題語抽出手段と、
    前記表示話題語抽出手段で選択された前記記憶手段の前記話題語情報について、ジャンル毎に各話題語の話題度を集計し、集計値が最大なジャンルを主要ジャンルとして求める表示画像決定手段と、
    前記表示話題語抽出手段で得られた前記話題語情報について、話題語を2つ選んでできる全ての組み合わせについて、前記文書群のうち話題度を算出するのに使用した時間範囲に作成された文書を対象として共起度情報を求める語句共起度算出手段と、
    前記画像蓄積データベースに蓄積された前記主要ジャンルの画像を表示し、前記画像の中心を極とする極座標で表現された位置に当該主要ジャンルに所属する話題語を表示する表示内容決定手段とを有し、
    前記極座標の半径は話題度が大きいほどに小さな値とし、2つの話題語の共起度が高いほどに2つの話題語の位置が近くなるように偏角を設定する
    ことを特徴とする情報表示装置。
  2. 前記極座標の偏角は、偏角で隣り合う2つの話題語の共起度が高いほど2つの話題語の偏角の差が小さくなるように設定する
    ことを特徴とする請求項1に記載の情報表示装置。
  3. 前記極座標の偏角を決めるにあたり、
    主要ジャンルに属する話題語の中で共起度が最大となる2つの話題語を偏角でみて隣り合わせとし、前記共起度が最大となる2つの話題語のそれぞれについて、共起度が最大値の次に大きい話題語を偏角でみて反対側に隣り合わせとさせる
    ことを特徴とする請求項1に記載の情報表示装置。
  4. 請求項1乃至3のいずれか1項に記載の情報表示装置の各手段としてコンピュータを機能させるための情報表示プログラム
JP2004306949A 2004-10-21 2004-10-21 情報表示装置及びプログラム Expired - Fee Related JP4453513B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004306949A JP4453513B2 (ja) 2004-10-21 2004-10-21 情報表示装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004306949A JP4453513B2 (ja) 2004-10-21 2004-10-21 情報表示装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006119895A JP2006119895A (ja) 2006-05-11
JP4453513B2 true JP4453513B2 (ja) 2010-04-21

Family

ID=36537724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004306949A Expired - Fee Related JP4453513B2 (ja) 2004-10-21 2004-10-21 情報表示装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4453513B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008083928A (ja) * 2006-09-27 2008-04-10 Gifu Univ 医療情報抽出装置、及び医療情報抽出プログラム
JP2008083927A (ja) * 2006-09-27 2008-04-10 Gifu Univ 医療情報抽出装置、及び医療情報抽出プログラム
JP5171087B2 (ja) * 2007-03-29 2013-03-27 株式会社中電シーティーアイ 入力情報分析装置
JP5330046B2 (ja) * 2009-03-23 2013-10-30 株式会社東芝 共起表現抽出装置及び共起表現抽出方法
JP5545319B2 (ja) * 2012-05-01 2014-07-09 富士通株式会社 プログラム及び制御方法
US10733221B2 (en) * 2016-03-30 2020-08-04 Microsoft Technology Licensing, Llc Scalable mining of trending insights from text

Also Published As

Publication number Publication date
JP2006119895A (ja) 2006-05-11

Similar Documents

Publication Publication Date Title
US7861149B2 (en) Key phrase navigation map for document navigation
Jing et al. Visualrank: Applying pagerank to large-scale image search
CN109033385B (zh) 图片检索方法、装置、服务器及存储介质
US8135739B2 (en) Online relevance engine
WO2019136841A1 (zh) 直播间内容标签提取方法、存储介质、电子设备及系统
US20040186831A1 (en) Search method and apparatus
US20080215548A1 (en) Information search method and system
JP4737435B2 (ja) ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
CN111723260B (zh) 推荐内容的获取方法、装置、电子设备及可读存储介质
JP2011154467A (ja) 検索結果順位付け方法および検索結果順位付けシステム
JP2004178123A (ja) 情報処理装置、該情報処理装置を実現するためのプログラム
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP4453513B2 (ja) 情報表示装置及びプログラム
JP5226241B2 (ja) タグを付与する方法
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
JP4973503B2 (ja) ファイル検索プログラム、方法及び装置
JP2007528531A (ja) カテゴリ別のキーワードの入力順位を提供するための検索サービスシステムおよびその方法
JP3431836B2 (ja) ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP4774087B2 (ja) 動画評価方法、装置及びプログラム
JP3547074B2 (ja) データ検索方法、その装置および記録媒体
JP5321258B2 (ja) 情報収集システムおよび情報収集方法ならびにそのプログラム
JP3715413B2 (ja) 類似文書検索装置および類似文書検索方法
KR101618314B1 (ko) 랜덤 검색 엔진을 포함한 검색 서버
WO2015043389A1 (zh) 一种基于视频搜索的分词信息推送方法和装置
JP2006120069A (ja) 話題文書提示方法及び装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070124

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090804

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100112

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100125

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130212

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees