JP4907927B2 - データ表示装置、データ表示方法およびデータ表示プログラム - Google Patents

データ表示装置、データ表示方法およびデータ表示プログラム Download PDF

Info

Publication number
JP4907927B2
JP4907927B2 JP2005266409A JP2005266409A JP4907927B2 JP 4907927 B2 JP4907927 B2 JP 4907927B2 JP 2005266409 A JP2005266409 A JP 2005266409A JP 2005266409 A JP2005266409 A JP 2005266409A JP 4907927 B2 JP4907927 B2 JP 4907927B2
Authority
JP
Japan
Prior art keywords
keyword
keywords
data
input
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005266409A
Other languages
English (en)
Other versions
JP2007079898A (ja
Inventor
真樹 村田
康二 一井
青 馬
保 白土
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2005266409A priority Critical patent/JP4907927B2/ja
Publication of JP2007079898A publication Critical patent/JP2007079898A/ja
Application granted granted Critical
Publication of JP4907927B2 publication Critical patent/JP4907927B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、データ表示技術に関し、特に、入力されたキーワードをキーワード抽出技術を用いて増加させた上で、増加したキーワードに関する数値データを表示するデータ表示装置、データ表示方法およびデータ表示プログラムに関する。より具体的には、本発明は、入力されたキーワードをキーワード抽出技術を用いて増加させた上で、増加後のキーワードを含む文書データの各年次の発表件数のデータ(年次発表データ)を画面表示する。
大学、企業等の各研究機関は、有用な研究について、年次大会や論文誌において毎年文書の発表を行っている。
ここで、下記の非特許文献1に記載されている、入力されたデータを表形式で表示する技術を用いれば、各キーワード(例えば、各研究機関や各研究分野)を含む文書の各年次の発表件数のデータ(年次発表データ)を表形式で表示することができる(非特許文献1参照)。
入力されたあるキーワードを含む文書の発表件数のデータを表形式で表示することは、従来から可能であった。
知りたい操作がすぐわかる 標準 Excel全機能Bible 2003,村田吉徳著,技術評論社,2004.2.1発行
しかし、従来技術では、入力されたキーワード以外のキーワードを含む文書についての年次発表データを表示することができないという問題があった。
例えば、従来技術では、キーワードを入力するユーザが思い付く数のキーワードについてしか、年次発表データを表示することができなかった。
本発明は、上記従来技術の問題点を解決し、入力されたキーワードに関するデータ(例えば数値データ)と、入力されたキーワード以外のキーワードに関するデータ(例えば、数値データ)とを表示するデータ表示装置、データ表示方法およびデータ表示プログラムの提供を目的とする。より具体的には、本発明は、例えば、入力されたキーワードを含む文書の年次発表データと入力されたキーワード以外のキーワードを含む文書の年次発表データとを表示することを目的とする。
前記課題を解決するため、本発明は、次のように構成した。
(1) :キーワードに関するデータを表示するデータ表示装置であって、複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、前記作成された表示データを画面表示するデータ表示手段とを備えると共に、前記キーワード増加手段は、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(p i )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備えることを特徴とする。
(2) :キーワードに関するデータを表示するデータ表示方法であって、複数のキーワードが入力キーワードとして入力するステップと、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるステップと、前記出力された各キーワードに関するデータを表示データとして作成するステップと、前記作成された表示データを画面表示するステップとを有すると共に、前記キーワードを増加させるステップは、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するステップと、前記パターン抽出ステップで抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するステップとを有することを特徴とする。
(3) :キーワードに関するデータを表示するデータ表示装置が備えるコンピュータに実行させるためのプログラムであって、前記コンピュータを、複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、前記作成された表示データを画面表示するデータ表示手段と、前記キーワード増加手段が備える、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段として機能させるためのデータ表示プログラムであることを特徴とする。
本発明のデータ表示装置は、入力されたキーワードに基づいて、キーワードの総数を増加させた上で、増加後のキーワードに関するデータを画面表示する。より具体的には、本発明のデータ表示装置は、増加後の各キーワードを含む文書についての年次発表データを画面表示する。
従って、本発明によれば、例えば、ユーザは、思い付く少数のキーワードを入力するだけで、自分が入力したキーワード以外のキーワードを含む文書の発表件数の推移を知ることができる。
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明の実施の形態におけるシステム構成の一例を示す図である。データ表示装置1は、キーワードに関するデータを表示する処理装置である。データ表示装置1は、キーワード入力部11、キーワード増加部12、表示データ作成部13、データ表示部14、キーワード抽出用データベース(DB)15を備える。また、図中、16は大量の文書データ(書誌データ)が蓄積されている書誌データDBである。書誌データDB16に格納されている書誌データとしては、例えば、図2に示すような、文書のタイトル、文書のテキスト内容、発表年次について記述されたデータが挙げられる。
キーワード入力部11には、複数の少数のキーワードが入力される。キーワードとしては、例えば、研究機関名や研究分野等、文書中に一般に含まれる任意の用語が挙げられる。キーワード増加部12は、後述するキーワード抽出技術を用いて、入力されたキーワードと同じ分野のキーワードをキーワード抽出用DB15から抽出する。キーワードの抽出の結果、キーワードの総数が増加する。
表示データ作成部13は、増加した各キーワードに関するデータを表示データとして作成する。例えば、増加した各キーワードに関する数値データを表示データとして作成する。より具体的には、表示データ作成部13は、増加した各キーワードと、書誌データDB16中の書誌データとに基づいて、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、年次発表データを作成し、作成した年次発表データを表示対象のデータ(表示データ)とする。
なお、表示データ作成部13は、例えば、上記年次発表データを処理して等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。また、例えば、表示データ作成部13は、例えば、上記年次発表データに基づいて、後述するバブルチャート上に画面表示されるデータを表示データとして作成する構成を採ることもできる。
また、本発明においては、表示データ作成部13が作成する表示データは、数値データに限られない。例えば、表示データ作成部13は、書誌データDB16中の書誌データ中において、増加した各キーワードと共起して出現する回数が高い言語表現を表示データとして作成する構成を採ることもできる。また、例えば、増加した各キーワードによって構成される質問に対する解答を表示データとして作成する構成を採ることもできる。
データ表示部14は、表示データ作成部13によって作成された表示データを画面表示する。キーワード抽出用DB15は、一定量の文書データを格納したデータベースである。キーワード抽出用DB15は、例えば、新聞、雑誌、Webデータ(ネットワーク上のデータ)等から抽出したデータ(一定量の文書データ)を格納している。
キーワード増加部12は、パターン抽出部121とキーワード抽出部122とを備える。パターン抽出部121は、キーワード入力部11に入力されたキーワードをキーワード抽出用DB15で全文検索し、複数の入力キーワードの周辺に出現したパターンを抽出する。
キーワード抽出部122は、パターン抽出部121で抽出したパターンをキーワード抽出用DB15で全文検索し、該パターンによって抽出される表現をキーワードとして出力する。
以下に、キーワード増加部12によるキーワード抽出処理を説明する。パターン抽出部121は、入力された少数のキーワードをキーワード抽出用DB15で全文検索し、該少数のキーワードの周辺に出現したパターンci を抽出する。キーワード抽出部122は、抽出したパターンci をキーワード抽出用DB15で全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScore(スコア;評価値)の値の大きい順にソートしてキーワードとして出力する。
(パターンの例の説明)
以下に、パターン抽出部121が抽出するパターンについて、該パターンが国名Aである場合を例にとって説明する。
・入力キーワード:
日本
中国
朝鮮
タイ
韓国
・抽出パターンの例(1) :(両端とも利用、スピードは遅いが性能は良い)
日、A軍
人のA人女性
日本はAと
〔A通信・
省。駐A大使な
・抽出パターンの例(2) :(片方のみ利用、片方は平仮名文字、スピードは早い)
[..A国]。
語。A
[..A国]側
[..A国]伝来
A語入力
ただし、[..A..]は、それ自体が国名Aにマッチすることを意味する。例えば[A国]だとそのマッチした用語の最後が国であることを意味する。
(キーワード抽出の具体的な説明)
入力する少数のキーワードとして、例えば、評価データの代表形で毎日新聞での頻度の多い方から有名そうな用語を五つ選択するものとする。また、例えば、CD毎日新聞(コンパクトディスクに記録された毎日新聞)1991−2000年度版をキーワード抽出用DB15とする。抽出の手順は以下のとおりである。
(1) 少数の複数のキーワードをキーワード抽出用DB15で全文検索し、複数のキーワードの周辺に出現したパターンをci として抽出する(キーワードの周辺に出現するパターンがそのキーワードだけ(一個)の場合は抽出しない)。(周辺に出現するパターンの定義は適宜行なう)。周辺に出現するパターンとして例えば、キーワードの前後(左右)3文字列を用いる場合は、前後それぞれ文字が1個、2個、3個の場合があるので、1個のキーワードで9通りのパターンができることになる。また、キーワード(自分自身)を含めたパターンとすることもできる。
(2) 次に抽出したパターンci をキーワード抽出用DB15で全文検索し、パターンci によって抽出される表現expを抽出する。
(3) 抽出した表現expをScoreの値の大きい順にソートして、キーワードとして出力する。
Scoreとして、以下のものがある。
・手法1(決定リスト法)
手法1は、抽出した表現expのScoreとして、パターンci の中でpi が最も大きかったパターンのpi を使用する手法である。ここで、pi はパターンci で抽出される表現expでの入力キーワードの割合(確からしさ、すなわち確信度となる)である。
例えば、パターンc1 についてキーワード抽出用DB15で全文検索した結果、exp1、exp2、exp3、exp4、exp5までの5個のexpが抽出され、この5個のexpのうち、exp1〜exp3までの3個が入力キーワードであった場合、p1 は3/5である。
Figure 0004907927
・手法2(ベイズ法)
手法2は、抽出した表現expのScoreとして、全てのパターンci のpi を掛け合わせたものを使用する。
Figure 0004907927
なお、実際にはpi =0の可能性が大きいため、本発明の実施の形態では、上記式(2)に代えて、以下の式(3)
Π((1−Δ)/Δ*pi +1) 式(3)
を利用する構成をとることもできる。ここで、Δは微小値の定数であり、例えば、0.0001を用いる。
例えば、Scoreを計算しているexpがパターンci から取れなかった場合は、pi =0として、上記の式(3)を用いて計算する。
・手法3(類似度に基づく方法)
手法3は、抽出した表現expのScoreとして、抽出されたパターンの個数(総数)を用いる。つまり、多くのパターンで抽出されたものほどScoreを大きくする。
Figure 0004907927
・手法4(下記研究(3) 参照)
手法4は、抽出した表現expのScoreとして、pi の重みを加えた抽出されたパターンの個数を用いるものである。
Figure 0004907927
ただし、fi はパターンci が出現した入力キーワードの個数である。
研究(3):Ellen Riloff and Rosie Jones "Learning dictionaries for information extraction by multi-level bootstrapping" Proceedings of AAAI-99,(1999)。
・手法5(下記文献(4) 参照)
手法5は、抽出した表現expのScoreとして、少なくとも一つは確からしくなる値を用いるものである。
Figure 0004907927
上記式(6)は、確からしくない(1−pi )を掛け合わせることで一つも確からしくないことになり、そして、これを1から引くと少なくとも一つは確からしくなる。
文献(4):村田真樹, 井佐原均 "同義テキストの照合に基づくパラフレーズに関する知識の自動獲得" 情報処理学会自然言語処理研究会 2001-NL-142,(2001) 。
上記手法1、2、4、5では、Scoreが同じときは、手法3のScoreでソートし、手法3では手法5のScoreでソートする。
図3は、パターンとしてキーワードの左と先頭のいずれかを含む1〜3文字と右側のそれの組み合わせを用いて行ったキーワードの抽出結果に対して、予め用意した所定の種類数の正解データを使って、適合率・再現率を求めた結果の一例を示す図である。ここで、正解データとしては、例えば、図4に示すようなデータ例を用意する(図4は、国名データの例を示しており、国名を国ごとに行に分けて格納し、行頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している)。図4に示すデータ形式と同様のデータ形式を持つ正解データを、例えば、国名データの他に、衛星、祝日、太陽系惑星、世界遺産等に関するデータのように、多種類用意する。
図3において、APは、情報検索(下記文献(5) 参照)で用いるaverage precision の平均であり、正解記事を上位から取ったたびに求めた適合率の平均である。本願の内容の場合は、正解キーワード分を上位から取ったたびに求めた適合率の平均(ただし、入力キーワードは正解キーワードから除く)である。
文献(5):村田真樹, 馬青, 内元清貴, 小作浩美, 内山将夫, 井佐原均 "位置情報と分野情報を用いた情報検索" 言語処理学会誌, Vol.7,No.2,(2000) 。
RPは、r-precision の平均であり、正解記事数分だけを検索した時に正解の記事が含まれている割合である。本願の内容の場合は、正解キーワード分だけを抽出した時に正解キーワードが含まれている割合である。なお、適合率は正解率と同じであり、正解キーワードが含まれる割合のことである。TPは、上位5個での精度の平均である。
(制約に基づく抽出方法の説明)
(a)字種とKRを利用する方法
図3に示す例で、抽出方法には、さらに字種とKRを利用する方法を用いた。ここで、字種とは、漢字、カタカナ、ひらがな、記号、数字などであり、例えば英語だと、アルファベット、数字、記号、単語の先頭が大文字かどうかなどである。
字種を利用する方法では、入力した少数(例えば、5個)のキーワードになかった字種を含む表現を抽出しない方法である。例えば、入力した5個のキーワードにひらがなが無かった場合は、ひらがなを含む表現を抽出しないようにするものである。
KRを利用する方法では、pi をpi * fi / ni に置き換えた方法である。この方法の利点は、pi が同じでもfi / ni の値により確信度を変えることができるものである。ただし、ni は入力キーワードの個数で、手法3のときはKRの場合は1をfi に置き換えた。なお、評価では抽出した結果でキーワードの異表記は除いた。また、字種による方法以外にも次のような方法もある。
(b)品詞に基づく方法
品詞に基づく方法では、例えば、入力表現に名詞しかない場合は出力時に名詞以外の表現を省く、また、入力表現に形容詞しかない場合は出力時に形容詞以外の表現を省くというものである。さらに、表現が複数の単語で構成されている場合は、末尾の単語(形態素)の品詞の情報を使うようにすることができる。
(例による説明1)
入力キーワードとして次のものであった場合、
「楽しい」「哀しい」「嬉しい」「とても嬉しい」「とても哀しい」
抽出物として次のものが得られる場合、
「とても」「新しい」「美しい」「とても美しい」「とても難しい」
上記抽出物の表現中の末尾の単語の品詞を推定し、上記入力キーワードでは、末尾の単語の品詞は「形容詞」しかないので、抽出物の中で、末尾の単語の品詞が「形容詞」でない、副詞(「とても」)を除いて出力するようにする。
(例による説明2)
入力キーワードとして次のものであった場合、
「楽しい」「歓喜」「悲痛」「悲しい」
上記入力キーワードでは、「形容詞」と「名詞」のように複数種類があった場合は、それらの品詞は出力し、それらの品詞以外の表現は出力しないようにする。
なお、前述のような末尾の単語(形態素)の品詞の推定等の品詞情報を得るためには、次のような形態素解析システム(形態素解析手段)が必要になる。
・形態素解析システムの説明
日本語を単語に分割するために、キーワード抽出部122で形態素解析システムを利用することが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌。http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
(c)共通部分文字列に基づく方法
例えば、入力表現がすべて同じ「しい」という共通末尾表現を持っている場合、出力時に「しい」を持たない表現を省くものである。なお、これは末尾だけでなく、先頭の文字列でも同様にできる。
(例による説明)
入力キーワードとして次のものであった場合、
「悲しい」「楽しい」「嬉しい」
抽出されるものが次の場合、
「歓喜」「悲痛」「美しい」「新しい」
上記入力キーワードの共通部分文字列が「しい」なので、「しい」を持たない「歓喜」と「悲痛」を削除して出力するものである。
(d)ユーザによる制約の指定
上記では、入力表現から自動で制約を得る方法を説明したが、この制約はユーザにさせることもできる。例えば、ユーザが「漢字のみ」というオプションを選択すると出力では漢字以外の字種を用いた表現を出力しないことができる。また、ユーザが末尾は「しい」というオプションを選択すると出力では「しい」を末尾に持たない表現を出力しないようにすることができる。さらに、ユーザが品詞は名詞というオプションを選択すると出力では名詞以外の表現を出力しないようにする。
(フローチャートによる説明)
図5は、本発明の実施の形態におけるデータ表示処理フローの一例を示す図である。以下図5の処理S1〜S5に従って説明する。図5に示すデータ表示処理フローは、表示データ作成部13が、キーワード抽出部122によって出力されたキーワードに関する数値データを表示データとして作成する場合の例である。
S1:キーワード入力部11に、少数のキーワードを入力する。例えば、キーワードとして、京都大、東工大、NEC、通信総研、ニューヨーク大という5つのキーワードを入力する。
S2:キーワード増加部12のパターン抽出部121で、入力キーワードをキーワード抽出用DB15で全文検索し、複数の入力キーワードの周辺に出現したパターンをci として抽出する。(周辺に出現するパターンの定義は適宜行なう。)
S3:キーワード増加部12のキーワード抽出部122で、パターン抽出部121で抽出したパターンci をキーワード抽出用DB15で全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートし、キーワードとして出力する。
キーワード抽出部122は、例えば、京都大、東工大、NEC、通信総研、ニューヨーク大という入力キーワードの他、横浜国大、NTT、徳島大、日立、奈良先端大、電通大、鳥取大学、東京大学・・・といった多くの研究機関名をキーワードとして出力する。
S4:表示データ作成部13で、キーワード抽出部122によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部13は、例えば、キーワード抽出部122によって出力されたキーワードと書誌データDB16中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部13は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、年次発表データを作成する。例えば、図6(A)に示すような年次発表データが作成される。
図6(A)に示す年次発表データは、例えば、キーワードの一つであるA大学については、第3年次に1件、第4年次に5件、第6年次に10件、第7年次に1件の文書発表があり、B大学については、第1年次に5件、第2年次に3件、第3年次に10件、第8年次に1件の文書発表があり、Cシステムズについては、第4年次に2件、第7年次に4件、第8年次に12件、第9年次に5件、第10年次に13件の文書発表があることを示している。
表示データ作成部13は、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。
S5:データ表示部14で、表示データ作成部13によって作成された表示データを画面表示する。データ表示部14は、例えば図7に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。発表件数の度合いによって等高線の表示色が異なっている。例えば、8〜10件の発表件数に対応する等高線の表示色は一番濃い色で表示される。
なお、データ表示部14は、例えば、図8に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。なお、バブルチャートとは、一般に、ある事象を示す(円)を2つの軸を持つ図上に配置した図のことを言う。図8に示すバブルチャートでは、円の大きさが発表件数の度合いを示している。
本発明の実施の形態においては、表示データ作成部13は、キーワード増加部12による処理によって数が増加したキーワードの第1の組と前記数が増加したキーワードの第2の組の双方に関する数値データを表示データとして作成し、データ表示部14が、作成された表示データを2次元画面上に画面表示する構成を採ることもできる。
例えば、キーワード入力部11に入力された、京都大、東工大という2つのキーワード(研究機関名)からなるキーワードの組(第1のキーワード群)と、意味、知識という2つのキーワード(研究分野)からなるキーワードの組(第2のキーワード群)のそれぞれを入力キーワードとして、上記ステップS1〜ステップS3の処理を行う。
そして、表示データ作成部13が、例えば、図6(B)に示すような表示データを作成する。図6(B)に示す表示データでは、第1のキーワード群のキーワード入力部11への入力に基づいてキーワード増加部12から出力された、京都大、東工大、NEC、通信総研、ニューヨーク大という5つの第1のキーワード(研究機関名)が縦軸に、第2のキーワード群のキーワード入力部11への入力に基づいてキーワード増加部12から出力された、意味、知識、辞書、支援、用例という5つの第2のキーワード(研究分野)が横軸に並べられている。
そして、図6(B)に示す表示データにおいて、第1のキーワード群中のあるキーワード(例えば、「NEC」)に対応する行と、第2のキーワード群中のあるキーワード(例えば、「意味」)に対応する列とが交差する枡目には、例えば、表示データ作成部13によって書誌データDB16中の書誌データから抽出された、双方のキーワード(例えば、「NEC」と「意味」)を含む文書の発表件数のデータ(例えば、「7」件)が格納される。
図9は、本発明の別の実施の形態におけるシステム構成の一例を示す図である。データ表示装置2は、キーワードに関するデータを表示する処理装置である。図9中に示すデータ表示装置2が備える構成要素のうち、図1に示すデータ表示装置1が備える構成要素と同一の符号が付けられたものは、当該データ表示装置1が備える構成要素と同様の機能を有する。
データ表示装置2のキーワード増加部21は、キーワード入力部11に入力されたキーワードを増加させる。単語データデータベース(DB)22には、単語と単語の分野との対応情報が格納されている。例えば、図10に示すような、単語と単語の分野との対応情報が格納されている。例えば、「研究分野」という分野に対応する単語として、意味、知識、辞書、支援、用例といった単語が格納されている。
また、シソーラスデータベース(DB)23には、意味的類似による単語の分類情報であるシソーラスデータが格納されている。例えば、シソーラスDB23には、図11に示すような、単語と単語に振られた10桁の数字(分類番号)との対応情報がシソーラスデータとして格納されている。図11に示す例では、シソーラスデータが分類語彙表の形式で示されている。
なお、分類語彙表とは、一般に、単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与されている。この10桁の分類番号は、7レベルの階層構造を示しており、上位5レベルは分類番号の最初の5桁で表現され、6レベル目は次の2桁、最下層のレベルは最後の3桁で表現されている。
類似度算出部211は、シソーラスDB23中のシソーラスデータに基づいて、キーワード入力部11に入力されたキーワードとシソーラスデータ中の単語との類似度を算出する。キーワード抽出部212は、算出された類似度が予め定めた閾値以上の単語をキーワードとして抽出し、出力する。
本発明の実施の形態においては、キーワード抽出部212は、単語データDB22中に格納された、単語と単語の分野との対応情報に基づいて、キーワード入力部11に入力されたキーワードと同じ分野の単語をキーワードとして抽出し、出力する構成を採ることもできる。
図12は、本発明の別の実施の形態におけるデータ表示処理フローの一例を示す図である。図12に示すデータ表示処理フローは、表示データ作成部13が、キーワード抽出部212によって出力されたキーワードに関する数値データを表示データとして作成する場合の例である。
S11:キーワード入力部11に、少数のキーワードを入力する。
S12:キーワード増加部21のキーワード抽出部212で、キーワード入力部11に入力されたキーワードと同じ分野の単語を単語データDB22中から抽出し、キーワードとして出力する。例えば、キーワード入力部11にキーワード「知識」が入力されたとすると、図10に示す単語データDB22から、単語「知識」が対応する「研究分野」という分野に属する(対応する)単語である「意味」、「知識」、「辞書」、「支援」、「用例」を抽出し、キーワードとして出力する。
S13:表示データ作成部13で、キーワード抽出部212によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部13は、例えば、キーワード抽出部212によって出力されたキーワードと書誌データDB16中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部13は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、上述した図6(A)に示すような年次発表データを作成する。表示データ作成部13は、上述したように、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。
S14:データ表示部14で、表示データ作成部13によって作成された表示データを画面表示する。データ表示部14は、例えば上述した図7に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。
なお、データ表示部14は、例えば、上述した図8に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。
また、上記S13、S14において、表示データ作成部13が、キーワード増加部21による処理によって数が増加したキーワードの第1の組と前記数が増加したキーワードの第2の組の双方に関する数値データを表示データとして作成し、データ表示部14が、作成された表示データを2次元画面上に画面表示する構成を採ることもできる。
図13は、本発明の更に別の実施の形態におけるデータ表示処理フローの一例を示す図である。
S21:キーワード入力部11に、少数のキーワードを入力する。
S22:キーワード増加部21の類似度算出部211が、キーワード入力部11に入力されたキーワードとシソーラスDB23中の単語との類似度を算出する。類似度算出部211は、例えば、類似度を以下のようにして算出する。
図11に示すシソーラスDB23内に格納されたシソーラスデータ(分類語彙表)中の各単語に振られた、10桁の分類番号における各桁の数字の一致の割合を用いて、類似度を求める。すなわち、例えば、分類語彙表中の各単語に振られた分類番号について、キーワード入力部11に入力されたキーワードと同一の単語に振られた分類番号との間での、各桁の数字の一致の割合を算出し、算出された値を類似度とする。なお、例えば、分類番号の6桁目と7桁目、および、8桁目と9桁目と10桁目は、それぞれ連続した1つの数字として考える。
例えば、キーワード入力部11に入力されたキーワードが「日本」である場合、図11に示す分類語彙表中の単語「日本」と「ソ連」には、それぞれ以下のような分類番号が振られている。以下では、分類番号の上位5レベルと、6レベル目と、最下層のレベルとの間を空白で区切って示す。
日本:12590 01 012
ソ連:12590 04 192
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致するので、算出されるキーワード「日本」と分類語彙表中の単語「ソ連」との類似度は、類似度5である。
また、例えば、キーワード入力部11に入力されたキーワードが「母校」である場合、分類語彙表中の単語「母校」と「学校」には、それぞれ以下のような分類番号が振られている。
母校:12630 13 015
学校:12630 10 012
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致するので、算出されるキーワード「母校」と分類語彙表中の単語「学校」との類似度は、類似度5である。
また、例えば、キーワード入力部11に入力されたキーワードが「学校」である場合、分類語彙表中の単語「学校」と「学園」には、それぞれ以下のような分類番号が振られている。
学校:12630 10 012
学園:12630 10 015
例えば、両単語の分類番号の上位5レベルにおいて、最初の5桁が一致し、また、6レベル目の2桁の数字「10」が一致するので、算出されるキーワード「学校」と分類語彙表中の単語「学園」との類似度は、類似度7である。
また、例えば、キーワード入力部11に入力されたキーワードが「学校」である場合、分類語彙表中の単語「学校」と「ソ連」には、それぞれ以下のような分類番号が振られている。
学校:12630 10 012
ソ連:12590 04 192
例えば、両単語の分類番号の上位5レベルにおいて、最初の2桁が一致するため、算出されるキーワード「学校」と分類語彙表中の単語「ソ連」との類似度は、類似度2である。
S23:キーワード増加部21のキーワード抽出部212が、算出された類似度が予め定めた閾値以上の単語をキーワードとして出力する。
S24:表示データ作成部13で、キーワード抽出部212によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部13は、例えば、キーワード抽出部212によって出力されたキーワードと書誌データDB16中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部13は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、前述した図6(A)に示すような年次発表データを作成する。表示データ作成部13は、前述したように、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。
S25:データ表示部14で、表示データ作成部13によって作成された表示データを画面表示する。データ表示部14は、例えば前述した図7に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。
なお、データ表示部14は、例えば、前述した図8に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。
また、上記S24、S25において、表示データ作成部13が、キーワード増加部21による処理によって数が増加したキーワードの第1の組と前記数が増加したキーワードの第2の組の双方に関する数値データを表示データとして作成し、データ表示部14が、作成された表示データを2次元画面上に画面表示する構成を採ることもできる。
なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。
システム構成の一例を示す図である。 書誌データの一例を示す図である。 キーワードの抽出結果に対する適合率・再現率の一例を示す図である。 正解データの一例を示す図である。 データ表示処理フローの一例を示す図である。 表示データの一例を示す図である。 表示データの画面表示例を示す図である。 表示データの画面表示例を示す図である。 システム構成の一例を示す図である。 単語データDBの一例を示す図である。 シソーラスDBの一例を示す図である。 データ表示処理フローの一例を示す図である。 データ表示処理フローの一例を示す図である。
符号の説明
1、2 データ表示装置
11 キーワード入力部
12、21 キーワード増加部
13 表示データ作成部
14 データ表示部
15 キーワード抽出用DB
16 書誌データDB
22 単語データDB
23 シソーラスDB
121 パターン抽出部
122、212 キーワード抽出部
211 類似度算出部

Claims (3)

  1. キーワードに関するデータを表示するデータ表示装置であって、
    複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
    前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
    前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
    前記作成された表示データを画面表示するデータ表示手段とを備えると共に、
    前記キーワード増加手段は、
    前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
    前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備える
    ことを特徴とするデータ表示装置。
  2. キーワードに関するデータを表示するデータ表示方法であって、
    複数のキーワードが入力キーワードとして入力するステップと、
    前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるステップと、
    前記出力された各キーワードに関するデータを表示データとして作成するステップと、
    前記作成された表示データを画面表示するステップとを有すると共に、
    前記キーワードを増加させるステップは、
    前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するステップと、
    前記パターン抽出ステップで抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するステップとを有することを特徴とするデータ表示方法。
  3. キーワードに関するデータを表示するデータ表示装置が備えるコンピュータに実行させるためのプログラムであって、
    前記コンピュータを、
    複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
    前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
    前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
    前記作成された表示データを画面表示するデータ表示手段と、
    前記キーワード増加手段が備える、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
    前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合(pi )によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段として機能させるためのデータ表示プログラム。
JP2005266409A 2005-09-14 2005-09-14 データ表示装置、データ表示方法およびデータ表示プログラム Expired - Fee Related JP4907927B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005266409A JP4907927B2 (ja) 2005-09-14 2005-09-14 データ表示装置、データ表示方法およびデータ表示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005266409A JP4907927B2 (ja) 2005-09-14 2005-09-14 データ表示装置、データ表示方法およびデータ表示プログラム

Publications (2)

Publication Number Publication Date
JP2007079898A JP2007079898A (ja) 2007-03-29
JP4907927B2 true JP4907927B2 (ja) 2012-04-04

Family

ID=37940144

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005266409A Expired - Fee Related JP4907927B2 (ja) 2005-09-14 2005-09-14 データ表示装置、データ表示方法およびデータ表示プログラム

Country Status (1)

Country Link
JP (1) JP4907927B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315206A (ja) * 1999-04-30 2000-11-14 Fujitsu Ltd 検索条件の組み合わせに基づく検索システムおよび方法
JP2000331012A (ja) * 1999-05-19 2000-11-30 Oki Electric Ind Co Ltd 電子化文書検索方法
JP4649036B2 (ja) * 2000-10-25 2011-03-09 ヤフー株式会社 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置
JP2006113733A (ja) * 2004-10-13 2006-04-27 Matsushita Electric Ind Co Ltd 検索方法、検索プログラムおよび検索装置

Also Published As

Publication number Publication date
JP2007079898A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
Weiss et al. Text mining: predictive methods for analyzing unstructured information
CN101887414B (zh) 对包含图像符号的文本消息传达的评价自动打分的服务器
US20040236566A1 (en) System and method for identifying special word usage in a document
US20100228711A1 (en) Enterprise Search Method and System
CN105005556A (zh) 一种基于地质大数据的标引关键词提取方法和系统
CN105426360A (zh) 一种关键词抽取方法及装置
JP2008287517A (ja) 強調表示装置及びプログラム
Pouliquen et al. Multilingual person name recognition and transliteration
Scharkow Content analysis, automatic
JP4849596B2 (ja) 質問応答装置、質問応答方法および質問応答プログラム
CN110008312A (zh) 一种文档写作助手实现方法、系统及电子设备
Stanković et al. Distant reading in digital humanities: Case study on the serbian part of the eltec collection
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
Yohannes et al. Amharic document clustering using semantic information from neural word embedding and encyclopedic knowledge
Helmy et al. Towards building a standard dataset for arabic keyphrase extraction evaluation
Schneider Text analytics for corpus linguistics and digital humanities: Simple R scripts and tools
JPH09319767A (ja) 類義語辞書登録方法
JP4907927B2 (ja) データ表示装置、データ表示方法およびデータ表示プログラム
Georgantopoulos MSc in Speech and Language Processing Dissertation: Automatic summarising based on sentence extraction: A statistical approach
JP2000194721A (ja) 文書群分類装置および文書群分類方法
JP4719921B2 (ja) データ表示装置およびデータ表示プログラム
KR101247346B1 (ko) 사전 검색 서비스 시스템 및 방법
Eiken et al. Ord i dag: Mining Norwegian daily newswire
Riaz Improving Search via Named Entity Recognition in Morphologically Rich Languages–A Case Study in Urdu

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080801

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110823

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120110

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150120

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees