JP4907927B2

JP4907927B2 - データ表示装置、データ表示方法およびデータ表示プログラム

Info

Publication number: JP4907927B2
Application number: JP2005266409A
Authority: JP
Inventors: 真樹村田; 康二一井; 青馬; 保白土; 均井佐原
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-09-14
Filing date: 2005-09-14
Publication date: 2012-04-04
Anticipated expiration: 2025-09-14
Also published as: JP2007079898A

Description

本発明は、データ表示技術に関し、特に、入力されたキーワードをキーワード抽出技術を用いて増加させた上で、増加したキーワードに関する数値データを表示するデータ表示装置、データ表示方法およびデータ表示プログラムに関する。より具体的には、本発明は、入力されたキーワードをキーワード抽出技術を用いて増加させた上で、増加後のキーワードを含む文書データの各年次の発表件数のデータ（年次発表データ）を画面表示する。

大学、企業等の各研究機関は、有用な研究について、年次大会や論文誌において毎年文書の発表を行っている。

ここで、下記の非特許文献１に記載されている、入力されたデータを表形式で表示する技術を用いれば、各キーワード（例えば、各研究機関や各研究分野）を含む文書の各年次の発表件数のデータ（年次発表データ）を表形式で表示することができる（非特許文献１参照）。

入力されたあるキーワードを含む文書の発表件数のデータを表形式で表示することは、従来から可能であった。
知りたい操作がすぐわかる標準 Excel全機能Bible 2003，村田吉徳著，技術評論社，2004.2.1発行

しかし、従来技術では、入力されたキーワード以外のキーワードを含む文書についての年次発表データを表示することができないという問題があった。

例えば、従来技術では、キーワードを入力するユーザが思い付く数のキーワードについてしか、年次発表データを表示することができなかった。

本発明は、上記従来技術の問題点を解決し、入力されたキーワードに関するデータ（例えば数値データ）と、入力されたキーワード以外のキーワードに関するデータ（例えば、数値データ）とを表示するデータ表示装置、データ表示方法およびデータ表示プログラムの提供を目的とする。より具体的には、本発明は、例えば、入力されたキーワードを含む文書の年次発表データと入力されたキーワード以外のキーワードを含む文書の年次発表データとを表示することを目的とする。

前記課題を解決するため、本発明は、次のように構成した。
(1) ：キーワードに関するデータを表示するデータ表示装置であって、複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、前記作成された表示データを画面表示するデータ表示手段とを備えると共に、前記キーワード増加手段は、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ _i ）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備えることを特徴とする。

(2) ：キーワードに関するデータを表示するデータ表示方法であって、複数のキーワードが入力キーワードとして入力するステップと、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるステップと、前記出力された各キーワードに関するデータを表示データとして作成するステップと、前記作成された表示データを画面表示するステップとを有すると共に、前記キーワードを増加させるステップは、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するステップと、前記パターン抽出ステップで抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ_i）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するステップとを有することを特徴とする。

(3) ：キーワードに関するデータを表示するデータ表示装置が備えるコンピュータに実行させるためのプログラムであって、前記コンピュータを、複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、前記作成された表示データを画面表示するデータ表示手段と、前記キーワード増加手段が備える、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ_i）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段として機能させるためのデータ表示プログラムであることを特徴とする。

本発明のデータ表示装置は、入力されたキーワードに基づいて、キーワードの総数を増加させた上で、増加後のキーワードに関するデータを画面表示する。より具体的には、本発明のデータ表示装置は、増加後の各キーワードを含む文書についての年次発表データを画面表示する。

従って、本発明によれば、例えば、ユーザは、思い付く少数のキーワードを入力するだけで、自分が入力したキーワード以外のキーワードを含む文書の発表件数の推移を知ることができる。

以下に、図を用いて、本発明の実施の形態について説明する。図１は、本発明の実施の形態におけるシステム構成の一例を示す図である。データ表示装置１は、キーワードに関するデータを表示する処理装置である。データ表示装置１は、キーワード入力部１１、キーワード増加部１２、表示データ作成部１３、データ表示部１４、キーワード抽出用データベース（ＤＢ）１５を備える。また、図中、１６は大量の文書データ（書誌データ）が蓄積されている書誌データＤＢである。書誌データＤＢ１６に格納されている書誌データとしては、例えば、図２に示すような、文書のタイトル、文書のテキスト内容、発表年次について記述されたデータが挙げられる。

キーワード入力部１１には、複数の少数のキーワードが入力される。キーワードとしては、例えば、研究機関名や研究分野等、文書中に一般に含まれる任意の用語が挙げられる。キーワード増加部１２は、後述するキーワード抽出技術を用いて、入力されたキーワードと同じ分野のキーワードをキーワード抽出用ＤＢ１５から抽出する。キーワードの抽出の結果、キーワードの総数が増加する。

表示データ作成部１３は、増加した各キーワードに関するデータを表示データとして作成する。例えば、増加した各キーワードに関する数値データを表示データとして作成する。より具体的には、表示データ作成部１３は、増加した各キーワードと、書誌データＤＢ１６中の書誌データとに基づいて、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、年次発表データを作成し、作成した年次発表データを表示対象のデータ（表示データ）とする。

なお、表示データ作成部１３は、例えば、上記年次発表データを処理して等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。また、例えば、表示データ作成部１３は、例えば、上記年次発表データに基づいて、後述するバブルチャート上に画面表示されるデータを表示データとして作成する構成を採ることもできる。

また、本発明においては、表示データ作成部１３が作成する表示データは、数値データに限られない。例えば、表示データ作成部１３は、書誌データＤＢ１６中の書誌データ中において、増加した各キーワードと共起して出現する回数が高い言語表現を表示データとして作成する構成を採ることもできる。また、例えば、増加した各キーワードによって構成される質問に対する解答を表示データとして作成する構成を採ることもできる。

データ表示部１４は、表示データ作成部１３によって作成された表示データを画面表示する。キーワード抽出用ＤＢ１５は、一定量の文書データを格納したデータベースである。キーワード抽出用ＤＢ１５は、例えば、新聞、雑誌、Ｗｅｂデータ（ネットワーク上のデータ）等から抽出したデータ（一定量の文書データ）を格納している。

キーワード増加部１２は、パターン抽出部１２１とキーワード抽出部１２２とを備える。パターン抽出部１２１は、キーワード入力部１１に入力されたキーワードをキーワード抽出用ＤＢ１５で全文検索し、複数の入力キーワードの周辺に出現したパターンを抽出する。

キーワード抽出部１２２は、パターン抽出部１２１で抽出したパターンをキーワード抽出用ＤＢ１５で全文検索し、該パターンによって抽出される表現をキーワードとして出力する。

以下に、キーワード増加部１２によるキーワード抽出処理を説明する。パターン抽出部１２１は、入力された少数のキーワードをキーワード抽出用ＤＢ１５で全文検索し、該少数のキーワードの周辺に出現したパターンｃ_iを抽出する。キーワード抽出部１２２は、抽出したパターンｃ_iをキーワード抽出用ＤＢ１５で全文検索し、パターンｃ_iによって抽出される表現ｅｘｐを抽出すると同時に、抽出した表現ｅｘｐをＳｃｏｒｅ（スコア；評価値）の値の大きい順にソートしてキーワードとして出力する。

（パターンの例の説明）
以下に、パターン抽出部１２１が抽出するパターンについて、該パターンが国名Ａである場合を例にとって説明する。

・入力キーワード：
日本
中国
朝鮮
タイ
韓国
・抽出パターンの例(1) ：（両端とも利用、スピードは遅いが性能は良い）
日、Ａ軍
人のＡ人女性
日本はＡと
〔Ａ通信・
省。駐Ａ大使な
・抽出パターンの例(2) ：（片方のみ利用、片方は平仮名文字、スピードは早い）
［..Ａ国］。

語。Ａ
［..Ａ国］側
［..Ａ国］伝来
Ａ語入力
ただし、［..Ａ..］は、それ自体が国名Ａにマッチすることを意味する。例えば［Ａ国］だとそのマッチした用語の最後が国であることを意味する。

（キーワード抽出の具体的な説明）
入力する少数のキーワードとして、例えば、評価データの代表形で毎日新聞での頻度の多い方から有名そうな用語を五つ選択するものとする。また、例えば、ＣＤ毎日新聞（コンパクトディスクに記録された毎日新聞）１９９１−２０００年度版をキーワード抽出用ＤＢ１５とする。抽出の手順は以下のとおりである。

(1) 少数の複数のキーワードをキーワード抽出用ＤＢ１５で全文検索し、複数のキーワードの周辺に出現したパターンをｃ_iとして抽出する（キーワードの周辺に出現するパターンがそのキーワードだけ（一個）の場合は抽出しない）。（周辺に出現するパターンの定義は適宜行なう）。周辺に出現するパターンとして例えば、キーワードの前後（左右）３文字列を用いる場合は、前後それぞれ文字が１個、２個、３個の場合があるので、１個のキーワードで９通りのパターンができることになる。また、キーワード（自分自身）を含めたパターンとすることもできる。

(2) 次に抽出したパターンｃ_iをキーワード抽出用ＤＢ１５で全文検索し、パターンｃ_iによって抽出される表現ｅｘｐを抽出する。

(3) 抽出した表現ｅｘｐをＳｃｏｒｅの値の大きい順にソートして、キーワードとして出力する。

Ｓｃｏｒｅとして、以下のものがある。

・手法１（決定リスト法）
手法１は、抽出した表現ｅｘｐのＳｃｏｒｅとして、パターンｃ_iの中でｐ_iが最も大きかったパターンのｐ_iを使用する手法である。ここで、ｐ_iはパターンｃ_iで抽出される表現ｅｘｐでの入力キーワードの割合（確からしさ、すなわち確信度となる）である。

例えば、パターンｃ₁についてキーワード抽出用ＤＢ１５で全文検索した結果、ｅｘｐ１、ｅｘｐ２、ｅｘｐ３、ｅｘｐ４、ｅｘｐ５までの５個のｅｘｐが抽出され、この５個のｅｘｐのうち、ｅｘｐ１〜ｅｘｐ３までの３個が入力キーワードであった場合、ｐ₁は３／５である。

・手法２（ベイズ法）
手法２は、抽出した表現ｅｘｐのＳｃｏｒｅとして、全てのパターンｃ_iのｐ_iを掛け合わせたものを使用する。

なお、実際にはｐ_i＝０の可能性が大きいため、本発明の実施の形態では、上記式（２）に代えて、以下の式（３）
Π（（１−Δ）／Δ＊ｐ_i＋１）式（３）
を利用する構成をとることもできる。ここで、Δは微小値の定数であり、例えば、０．０００１を用いる。

例えば、Ｓｃｏｒｅを計算しているｅｘｐがパターンｃ_iから取れなかった場合は、ｐ_i＝０として、上記の式（３）を用いて計算する。

・手法３（類似度に基づく方法）
手法３は、抽出した表現ｅｘｐのＳｃｏｒｅとして、抽出されたパターンの個数（総数）を用いる。つまり、多くのパターンで抽出されたものほどＳｃｏｒｅを大きくする。

・手法４（下記研究(3) 参照）
手法４は、抽出した表現ｅｘｐのＳｃｏｒｅとして、ｐ_iの重みを加えた抽出されたパターンの個数を用いるものである。

ただし、ｆ_iはパターンｃ_iが出現した入力キーワードの個数である。

研究(3):Ellen Riloff and Rosie Jones "Learning dictionaries for information extraction by multi-level bootstrapping" Proceedings of AAAI-99,(1999)。

・手法５（下記文献(4) 参照）
手法５は、抽出した表現ｅｘｐのＳｃｏｒｅとして、少なくとも一つは確からしくなる値を用いるものである。

上記式（６）は、確からしくない（１−ｐ_i）を掛け合わせることで一つも確からしくないことになり、そして、これを１から引くと少なくとも一つは確からしくなる。

文献(4):村田真樹, 井佐原均 "同義テキストの照合に基づくパラフレーズに関する知識の自動獲得" 情報処理学会自然言語処理研究会 2001-NL-142,(2001) 。

上記手法１、２、４、５では、Ｓｃｏｒｅが同じときは、手法３のＳｃｏｒｅでソートし、手法３では手法５のＳｃｏｒｅでソートする。

図３は、パターンとしてキーワードの左と先頭のいずれかを含む１〜３文字と右側のそれの組み合わせを用いて行ったキーワードの抽出結果に対して、予め用意した所定の種類数の正解データを使って、適合率・再現率を求めた結果の一例を示す図である。ここで、正解データとしては、例えば、図４に示すようなデータ例を用意する（図４は、国名データの例を示しており、国名を国ごとに行に分けて格納し、行頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している）。図４に示すデータ形式と同様のデータ形式を持つ正解データを、例えば、国名データの他に、衛星、祝日、太陽系惑星、世界遺産等に関するデータのように、多種類用意する。

図３において、ＡＰは、情報検索（下記文献(5) 参照）で用いるaverage precision の平均であり、正解記事を上位から取ったたびに求めた適合率の平均である。本願の内容の場合は、正解キーワード分を上位から取ったたびに求めた適合率の平均（ただし、入力キーワードは正解キーワードから除く）である。

文献(5):村田真樹, 馬青, 内元清貴, 小作浩美, 内山将夫, 井佐原均 "位置情報と分野情報を用いた情報検索" 言語処理学会誌, Vol.7,No.2,(2000) 。

ＲＰは、r-precision の平均であり、正解記事数分だけを検索した時に正解の記事が含まれている割合である。本願の内容の場合は、正解キーワード分だけを抽出した時に正解キーワードが含まれている割合である。なお、適合率は正解率と同じであり、正解キーワードが含まれる割合のことである。ＴＰは、上位５個での精度の平均である。

（制約に基づく抽出方法の説明）
（ａ）字種とＫＲを利用する方法
図３に示す例で、抽出方法には、さらに字種とＫＲを利用する方法を用いた。ここで、字種とは、漢字、カタカナ、ひらがな、記号、数字などであり、例えば英語だと、アルファベット、数字、記号、単語の先頭が大文字かどうかなどである。

字種を利用する方法では、入力した少数（例えば、５個）のキーワードになかった字種を含む表現を抽出しない方法である。例えば、入力した５個のキーワードにひらがなが無かった場合は、ひらがなを含む表現を抽出しないようにするものである。

ＫＲを利用する方法では、ｐ_iをｐ_i* ｆ_i/ ｎ_iに置き換えた方法である。この方法の利点は、ｐ_iが同じでもｆ_i/ ｎ_iの値により確信度を変えることができるものである。ただし、ｎ_iは入力キーワードの個数で、手法３のときはＫＲの場合は１をｆ_iに置き換えた。なお、評価では抽出した結果でキーワードの異表記は除いた。また、字種による方法以外にも次のような方法もある。

（ｂ）品詞に基づく方法
品詞に基づく方法では、例えば、入力表現に名詞しかない場合は出力時に名詞以外の表現を省く、また、入力表現に形容詞しかない場合は出力時に形容詞以外の表現を省くというものである。さらに、表現が複数の単語で構成されている場合は、末尾の単語（形態素）の品詞の情報を使うようにすることができる。

（例による説明１）
入力キーワードとして次のものであった場合、
「楽しい」「哀しい」「嬉しい」「とても嬉しい」「とても哀しい」
抽出物として次のものが得られる場合、
「とても」「新しい」「美しい」「とても美しい」「とても難しい」
上記抽出物の表現中の末尾の単語の品詞を推定し、上記入力キーワードでは、末尾の単語の品詞は「形容詞」しかないので、抽出物の中で、末尾の単語の品詞が「形容詞」でない、副詞（「とても」）を除いて出力するようにする。

（例による説明２）
入力キーワードとして次のものであった場合、
「楽しい」「歓喜」「悲痛」「悲しい」
上記入力キーワードでは、「形容詞」と「名詞」のように複数種類があった場合は、それらの品詞は出力し、それらの品詞以外の表現は出力しないようにする。

なお、前述のような末尾の単語（形態素）の品詞の推定等の品詞情報を得るためには、次のような形態素解析システム（形態素解析手段）が必要になる。

・形態素解析システムの説明
日本語を単語に分割するために、キーワード抽出部１２２で形態素解析システムを利用することが必要になる。ここではChaSenについて説明する（奈良先端大で開発されている形態素解析システム茶筌。http://chasen.aist-nara.ac.jp/index.html.jp で公開されている）。

これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。

学校ガッコウ学校名詞−一般
へヘへ助詞−格助詞−一般
行くイク行く動詞−自立五段・カ行促音便基本形
ＥＯＳ
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。

（ｃ）共通部分文字列に基づく方法
例えば、入力表現がすべて同じ「しい」という共通末尾表現を持っている場合、出力時に「しい」を持たない表現を省くものである。なお、これは末尾だけでなく、先頭の文字列でも同様にできる。

（例による説明）
入力キーワードとして次のものであった場合、
「悲しい」「楽しい」「嬉しい」
抽出されるものが次の場合、
「歓喜」「悲痛」「美しい」「新しい」
上記入力キーワードの共通部分文字列が「しい」なので、「しい」を持たない「歓喜」と「悲痛」を削除して出力するものである。

（ｄ）ユーザによる制約の指定
上記では、入力表現から自動で制約を得る方法を説明したが、この制約はユーザにさせることもできる。例えば、ユーザが「漢字のみ」というオプションを選択すると出力では漢字以外の字種を用いた表現を出力しないことができる。また、ユーザが末尾は「しい」というオプションを選択すると出力では「しい」を末尾に持たない表現を出力しないようにすることができる。さらに、ユーザが品詞は名詞というオプションを選択すると出力では名詞以外の表現を出力しないようにする。

（フローチャートによる説明）
図５は、本発明の実施の形態におけるデータ表示処理フローの一例を示す図である。以下図５の処理Ｓ１〜Ｓ５に従って説明する。図５に示すデータ表示処理フローは、表示データ作成部１３が、キーワード抽出部１２２によって出力されたキーワードに関する数値データを表示データとして作成する場合の例である。

Ｓ１：キーワード入力部１１に、少数のキーワードを入力する。例えば、キーワードとして、京都大、東工大、ＮＥＣ、通信総研、ニューヨーク大という５つのキーワードを入力する。

Ｓ２：キーワード増加部１２のパターン抽出部１２１で、入力キーワードをキーワード抽出用ＤＢ１５で全文検索し、複数の入力キーワードの周辺に出現したパターンをｃ_iとして抽出する。（周辺に出現するパターンの定義は適宜行なう。）
Ｓ３：キーワード増加部１２のキーワード抽出部１２２で、パターン抽出部１２１で抽出したパターンｃ_iをキーワード抽出用ＤＢ１５で全文検索し、パターンｃ_iによって抽出される表現ｅｘｐを抽出すると同時に、抽出した表現ｅｘｐをＳｃｏｒｅの値の大きい順にソートし、キーワードとして出力する。

キーワード抽出部１２２は、例えば、京都大、東工大、ＮＥＣ、通信総研、ニューヨーク大という入力キーワードの他、横浜国大、ＮＴＴ、徳島大、日立、奈良先端大、電通大、鳥取大学、東京大学・・・といった多くの研究機関名をキーワードとして出力する。

Ｓ４：表示データ作成部１３で、キーワード抽出部１２２によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部１３は、例えば、キーワード抽出部１２２によって出力されたキーワードと書誌データＤＢ１６中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部１３は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、年次発表データを作成する。例えば、図６（Ａ）に示すような年次発表データが作成される。

図６（Ａ）に示す年次発表データは、例えば、キーワードの一つであるＡ大学については、第３年次に１件、第４年次に５件、第６年次に１０件、第７年次に１件の文書発表があり、Ｂ大学については、第１年次に５件、第２年次に３件、第３年次に１０件、第８年次に１件の文書発表があり、Ｃシステムズについては、第４年次に２件、第７年次に４件、第８年次に１２件、第９年次に５件、第１０年次に１３件の文書発表があることを示している。

表示データ作成部１３は、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。

Ｓ５：データ表示部１４で、表示データ作成部１３によって作成された表示データを画面表示する。データ表示部１４は、例えば図７に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。発表件数の度合いによって等高線の表示色が異なっている。例えば、８〜１０件の発表件数に対応する等高線の表示色は一番濃い色で表示される。

なお、データ表示部１４は、例えば、図８に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。なお、バブルチャートとは、一般に、ある事象を示す（円）を２つの軸を持つ図上に配置した図のことを言う。図８に示すバブルチャートでは、円の大きさが発表件数の度合いを示している。

本発明の実施の形態においては、表示データ作成部１３は、キーワード増加部１２による処理によって数が増加したキーワードの第１の組と前記数が増加したキーワードの第２の組の双方に関する数値データを表示データとして作成し、データ表示部１４が、作成された表示データを２次元画面上に画面表示する構成を採ることもできる。

例えば、キーワード入力部１１に入力された、京都大、東工大という２つのキーワード（研究機関名）からなるキーワードの組（第１のキーワード群）と、意味、知識という２つのキーワード（研究分野）からなるキーワードの組（第２のキーワード群）のそれぞれを入力キーワードとして、上記ステップＳ１〜ステップＳ３の処理を行う。

そして、表示データ作成部１３が、例えば、図６（Ｂ）に示すような表示データを作成する。図６（Ｂ）に示す表示データでは、第１のキーワード群のキーワード入力部１１への入力に基づいてキーワード増加部１２から出力された、京都大、東工大、ＮＥＣ、通信総研、ニューヨーク大という５つの第１のキーワード（研究機関名）が縦軸に、第２のキーワード群のキーワード入力部１１への入力に基づいてキーワード増加部１２から出力された、意味、知識、辞書、支援、用例という５つの第２のキーワード（研究分野）が横軸に並べられている。

そして、図６（Ｂ）に示す表示データにおいて、第１のキーワード群中のあるキーワード（例えば、「ＮＥＣ」）に対応する行と、第２のキーワード群中のあるキーワード（例えば、「意味」）に対応する列とが交差する枡目には、例えば、表示データ作成部１３によって書誌データＤＢ１６中の書誌データから抽出された、双方のキーワード（例えば、「ＮＥＣ」と「意味」）を含む文書の発表件数のデータ（例えば、「７」件）が格納される。

図９は、本発明の別の実施の形態におけるシステム構成の一例を示す図である。データ表示装置２は、キーワードに関するデータを表示する処理装置である。図９中に示すデータ表示装置２が備える構成要素のうち、図１に示すデータ表示装置１が備える構成要素と同一の符号が付けられたものは、当該データ表示装置１が備える構成要素と同様の機能を有する。

データ表示装置２のキーワード増加部２１は、キーワード入力部１１に入力されたキーワードを増加させる。単語データデータベース（ＤＢ）２２には、単語と単語の分野との対応情報が格納されている。例えば、図１０に示すような、単語と単語の分野との対応情報が格納されている。例えば、「研究分野」という分野に対応する単語として、意味、知識、辞書、支援、用例といった単語が格納されている。

また、シソーラスデータベース（ＤＢ）２３には、意味的類似による単語の分類情報であるシソーラスデータが格納されている。例えば、シソーラスＤＢ２３には、図１１に示すような、単語と単語に振られた１０桁の数字（分類番号）との対応情報がシソーラスデータとして格納されている。図１１に示す例では、シソーラスデータが分類語彙表の形式で示されている。

なお、分類語彙表とは、一般に、単語を意味に基づいて整理した表であり、各単語に対して分類番号という数字が付与されている。この１０桁の分類番号は、７レベルの階層構造を示しており、上位５レベルは分類番号の最初の５桁で表現され、６レベル目は次の２桁、最下層のレベルは最後の３桁で表現されている。

類似度算出部２１１は、シソーラスＤＢ２３中のシソーラスデータに基づいて、キーワード入力部１１に入力されたキーワードとシソーラスデータ中の単語との類似度を算出する。キーワード抽出部２１２は、算出された類似度が予め定めた閾値以上の単語をキーワードとして抽出し、出力する。

本発明の実施の形態においては、キーワード抽出部２１２は、単語データＤＢ２２中に格納された、単語と単語の分野との対応情報に基づいて、キーワード入力部１１に入力されたキーワードと同じ分野の単語をキーワードとして抽出し、出力する構成を採ることもできる。

図１２は、本発明の別の実施の形態におけるデータ表示処理フローの一例を示す図である。図１２に示すデータ表示処理フローは、表示データ作成部１３が、キーワード抽出部２１２によって出力されたキーワードに関する数値データを表示データとして作成する場合の例である。

Ｓ１１：キーワード入力部１１に、少数のキーワードを入力する。

Ｓ１２：キーワード増加部２１のキーワード抽出部２１２で、キーワード入力部１１に入力されたキーワードと同じ分野の単語を単語データＤＢ２２中から抽出し、キーワードとして出力する。例えば、キーワード入力部１１にキーワード「知識」が入力されたとすると、図１０に示す単語データＤＢ２２から、単語「知識」が対応する「研究分野」という分野に属する（対応する）単語である「意味」、「知識」、「辞書」、「支援」、「用例」を抽出し、キーワードとして出力する。

Ｓ１３：表示データ作成部１３で、キーワード抽出部２１２によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部１３は、例えば、キーワード抽出部２１２によって出力されたキーワードと書誌データＤＢ１６中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部１３は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、上述した図６（Ａ）に示すような年次発表データを作成する。表示データ作成部１３は、上述したように、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。

Ｓ１４：データ表示部１４で、表示データ作成部１３によって作成された表示データを画面表示する。データ表示部１４は、例えば上述した図７に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。

なお、データ表示部１４は、例えば、上述した図８に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。

また、上記Ｓ１３、Ｓ１４において、表示データ作成部１３が、キーワード増加部２１による処理によって数が増加したキーワードの第１の組と前記数が増加したキーワードの第２の組の双方に関する数値データを表示データとして作成し、データ表示部１４が、作成された表示データを２次元画面上に画面表示する構成を採ることもできる。

図１３は、本発明の更に別の実施の形態におけるデータ表示処理フローの一例を示す図である。

Ｓ２１：キーワード入力部１１に、少数のキーワードを入力する。

Ｓ２２：キーワード増加部２１の類似度算出部２１１が、キーワード入力部１１に入力されたキーワードとシソーラスＤＢ２３中の単語との類似度を算出する。類似度算出部２１１は、例えば、類似度を以下のようにして算出する。

図１１に示すシソーラスＤＢ２３内に格納されたシソーラスデータ（分類語彙表）中の各単語に振られた、１０桁の分類番号における各桁の数字の一致の割合を用いて、類似度を求める。すなわち、例えば、分類語彙表中の各単語に振られた分類番号について、キーワード入力部１１に入力されたキーワードと同一の単語に振られた分類番号との間での、各桁の数字の一致の割合を算出し、算出された値を類似度とする。なお、例えば、分類番号の６桁目と７桁目、および、８桁目と９桁目と１０桁目は、それぞれ連続した１つの数字として考える。

例えば、キーワード入力部１１に入力されたキーワードが「日本」である場合、図１１に示す分類語彙表中の単語「日本」と「ソ連」には、それぞれ以下のような分類番号が振られている。以下では、分類番号の上位５レベルと、６レベル目と、最下層のレベルとの間を空白で区切って示す。

日本：１２５９００１０１２
ソ連：１２５９００４１９２
例えば、両単語の分類番号の上位５レベルにおいて、最初の５桁が一致するので、算出されるキーワード「日本」と分類語彙表中の単語「ソ連」との類似度は、類似度５である。

また、例えば、キーワード入力部１１に入力されたキーワードが「母校」である場合、分類語彙表中の単語「母校」と「学校」には、それぞれ以下のような分類番号が振られている。

母校：１２６３０１３０１５
学校：１２６３０１００１２
例えば、両単語の分類番号の上位５レベルにおいて、最初の５桁が一致するので、算出されるキーワード「母校」と分類語彙表中の単語「学校」との類似度は、類似度５である。

また、例えば、キーワード入力部１１に入力されたキーワードが「学校」である場合、分類語彙表中の単語「学校」と「学園」には、それぞれ以下のような分類番号が振られている。

学校：１２６３０１００１２
学園：１２６３０１００１５
例えば、両単語の分類番号の上位５レベルにおいて、最初の５桁が一致し、また、６レベル目の２桁の数字「１０」が一致するので、算出されるキーワード「学校」と分類語彙表中の単語「学園」との類似度は、類似度７である。

また、例えば、キーワード入力部１１に入力されたキーワードが「学校」である場合、分類語彙表中の単語「学校」と「ソ連」には、それぞれ以下のような分類番号が振られている。

学校：１２６３０１００１２
ソ連：１２５９００４１９２
例えば、両単語の分類番号の上位５レベルにおいて、最初の２桁が一致するため、算出されるキーワード「学校」と分類語彙表中の単語「ソ連」との類似度は、類似度２である。

Ｓ２３：キーワード増加部２１のキーワード抽出部２１２が、算出された類似度が予め定めた閾値以上の単語をキーワードとして出力する。

Ｓ２４：表示データ作成部１３で、キーワード抽出部２１２によって出力されたキーワードに関する数値データを表示データとして作成する。表示データ作成部１３は、例えば、キーワード抽出部２１２によって出力されたキーワードと書誌データＤＢ１６中の書誌データとに基づいて、各キーワードをタイトルに含む文書の年次発表データを表示データとして作成する。すなわち、表示データ作成部１３は、例えば、各キーワードをタイトルに含む文書の、各年次の発表件数をカウントして、前述した図６（Ａ）に示すような年次発表データを作成する。表示データ作成部１３は、前述したように、上記定期発表データを等高線データに変換し、変換後の等高線データを表示データとする構成をとることもできる。

Ｓ２５：データ表示部１４で、表示データ作成部１３によって作成された表示データを画面表示する。データ表示部１４は、例えば前述した図７に示すように、各研究機関の各年次における文書の発表件数のデータが等高線表示される画面を表示する。

なお、データ表示部１４は、例えば、前述した図８に示すように、各研究機関の各年次における文書の発表件数のデータをバブルチャートとして画面表示する構成を採ることもできる。

また、上記Ｓ２４、Ｓ２５において、表示データ作成部１３が、キーワード増加部２１による処理によって数が増加したキーワードの第１の組と前記数が増加したキーワードの第２の組の双方に関する数値データを表示データとして作成し、データ表示部１４が、作成された表示データを２次元画面上に画面表示する構成を採ることもできる。

なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。

システム構成の一例を示す図である。書誌データの一例を示す図である。キーワードの抽出結果に対する適合率・再現率の一例を示す図である。正解データの一例を示す図である。データ表示処理フローの一例を示す図である。表示データの一例を示す図である。表示データの画面表示例を示す図である。表示データの画面表示例を示す図である。システム構成の一例を示す図である。単語データＤＢの一例を示す図である。シソーラスＤＢの一例を示す図である。データ表示処理フローの一例を示す図である。データ表示処理フローの一例を示す図である。

符号の説明

１、２データ表示装置
１１キーワード入力部
１２、２１キーワード増加部
１３表示データ作成部
１４データ表示部
１５キーワード抽出用ＤＢ
１６書誌データＤＢ
２２単語データＤＢ
２３シソーラスＤＢ
１２１パターン抽出部
１２２、２１２キーワード抽出部
２１１類似度算出部

Claims

キーワードに関するデータを表示するデータ表示装置であって、
複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
前記作成された表示データを画面表示するデータ表示手段とを備えると共に、
前記キーワード増加手段は、
前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ_i）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段とを備える
ことを特徴とするデータ表示装置。
キーワードに関するデータを表示するデータ表示方法であって、
複数のキーワードが入力キーワードとして入力するステップと、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるステップと、
前記出力された各キーワードに関するデータを表示データとして作成するステップと、
前記作成された表示データを画面表示するステップとを有すると共に、
前記キーワードを増加させるステップは、
前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するステップと、
前記パターン抽出ステップで抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ_i）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するステップとを有することを特徴とするデータ表示方法。
キーワードに関するデータを表示するデータ表示装置が備えるコンピュータに実行させるためのプログラムであって、
前記コンピュータを、
複数のキーワードが入力キーワードとして入力されるキーワード入力手段と、
前記入力キーワードに基づいて、前記入力キーワードと同じ分野のキーワードを含む一定量のキーワード抽出用の文書データを格納したデータベースから抽出することで、前記入力キーワードの数より多いキーワードを抽出し、キーワードの総数を増加させるキーワード増加手段と、
前記出力された各キーワードに関するデータを表示データとして作成する表示データ作成手段と、
前記作成された表示データを画面表示するデータ表示手段と、
前記キーワード増加手段が備える、前記入力キーワードを前記データベースで全文検索し、検索結果において前記入力キーワードの直前及び直後の文字列をパターンとして抽出するパターン抽出手段と、
前記パターン抽出手段で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時に、前記パターンで抽出される表現での前記入力キーワードの割合（ｐ_i）によりスコアを算出し、前記抽出した表現を該スコアの大きい順にソートして、キーワードとして出力するキーワード抽出手段として機能させるためのデータ表示プログラム。