JP2007199906A

JP2007199906A - キーワード対応関係分析装置及び分析方法

Info

Publication number: JP2007199906A
Application number: JP2006016136A
Authority: JP
Inventors: Seiji Takano; 誠司高野; Takashi Nakai; 隆中居; Katsuya Mimuro; 克哉三室; Eisuke Sudo; 英介須藤
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2006-01-25
Filing date: 2006-01-25
Publication date: 2007-08-09
Anticipated expiration: 2026-01-25
Also published as: JP4699909B2

Abstract

【課題】本発明は、表現の異なるキーワード間の対応関係を分析する。
【解決手段】対象文献抽出部２は、分析対象の文献情報を情報蓄積部３から抽出し、キーワードランキング生成部４は、各文献情報に含まれるキーワード及び出現頻度を順位付けして示すテーブル５を生成する。基準キーワード検出部６は、多くの文献情報で使用されているが、一部の文献情報では使用されていない基準キーワードを検出する。対応キーワード候補検出部７は、基準キーワードを含まない文献情報において、基準キーワードに対応する可能性のあるキーワードを検出する。基準キーワードの平均順位と対応キーワード候補の順位とを比較することにより、対応キーワード検出部１１は、基準キーワードに対応するキーワードを検出する。キーワード対応関係出力部１２は、基準キーワードと対応キーワードとを関連づけて、出力する。
【選択図】図１

Description

本発明は、例えば、特許文献や学術文献等の文献情報に含まれるキーワードの対応関係を分析するキーワード対応関係分析装置及び分析方法に関する。

例えば、文献情報としての特許文献を調査することにより、研究開発の方向性を探ったり、あるいは事業計画の立案等を行うことができる。このために、膨大な特許文献群から所定の目的に合致する特許文献を抽出し、抽出された特許文献群を分析する。この分析結果を二次元平面に表現したものは、いわゆる特許マップとして知られており、特許文献群から特許マップを自動的に作成する技術は知られている（特許文献１）。

また、形態素解析を行って、対象の文書内で所定数以上出現した用語を抽出することにより、辞書に未登録の専門用語や特定の組織でのみ使用される略称であっても、用語として検出できるようにした技術も知られている（特許文献２）。
特開２００５−１４９３４６号公報特開２００２−３４２３２１号公報

特許文献等では、できるだけ正確な用語を用いるのが好ましい。しかし、特許文献は、最新の技術を対象とするため、正確な用語が制定される前に作成されやすいという性質を有する。出願の際に業界で使用されている用語を用いて、特許文献は作成されるため、同一の技術要素を示す用語でも、出願人によってばらつきを生じる場合がある。

また、最新の用語ではない場合でも、各出願人（企業等）で慣用されている用語がそれぞれ異なる場合もある。例えば、ある出願人は、日本工業規格等で制定された正式な名称を使用し、他の出願人は、正式名称の略称を使用し、さらに別の出願人は、その組織内でのみ使用されている特殊な用語を使用する場合がある。

さらに、用語は時代と共に変遷していく性質を備える。従って、ある時代で標準的な用語であっても、別の時代には別の用語で表現されている場合もある。

同一の技術要素を示す用語が、種々の異なる用語で表現されている場合、機械検索による検索精度は、一般的に低下する。その技術分野の知識及び検索技術の両方に精通した検索者であれば、検索漏れ及びノイズの少ない検索結果を得られるであろうが、技術知識または検索技術のいずれかが不足している検索者の場合、精度の高い検索結果を得るのは難しい。

また、熟練した検索者であっても、同一の技術用語が異なる用語で表現されている場合は、検索に要する時間も手間も増大する。検索者は、例えば、多数の特許文献を事前に読み込んで、用語の異称を研究してから、検索式を組み立てる必要があるためである。

さらに、普段使用している用語とは別の用語が使用されている特許文献を読む場合、正しい内容を短時間で把握するのは難しく、混乱や誤解を招く可能性がある。

本発明は、上述の問題点に鑑みてなされたもので、その目的は、特定の文献情報でのみ使用されているキーワードを自動的に検出することができるキーワード対応関係分析装置及び分析方法を提供することにある。本発明の他の目的は、多くの文献情報で使用されている標準的なキーワードと特定の文献情報でのみ使用されているキーワードとの対応関係を自動的に検出し、キーワード検索を支援できるキーワード対応関係分析装置及び分析方法を提供することにある。本発明のさらに別の目的は、標準的ではないキーワードが使用されている文献情報の内容把握を支援できるようにしたキーワード対応関係分析装置及び分析方法を提供することにある。本発明の更なる目的は、後述する実施形態の記載から明らかになるであろう。

上記課題を解決すべく、本発明の一つの観点に従うキーワード対応関係分析装置は、電子化された複数の文献情報を記憶する文献情報記憶部と、与えられた分析条件に基づいて文献情報記憶部を検索することにより、分析対象の文献情報を抽出する対象文献抽出部と、抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成する出現頻度解析部と、キーワード出現頻度解析情報に基づいて、抽出された文献情報に含まれるキーワードのうち、所定の文献情報で使用されている第１キーワードを検出する第１キーワード検出部と、キーワード出現頻度解析情報に基づいて、第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、抽出された文献情報のうち所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出する第２キーワード候補検出部と、検出された第２キーワード候補の中から第１キーワードに対応する第２キーワードを検出する第２キーワード検出部と、を備える。

文献情報としては、例えば、特許文献（公開公報、登録公報等を含む）や学術論文等を挙げることができる。文献情報は、電子化されて文献情報記憶部に記憶されている。文献情報記憶部に記憶された複数の文献情報のうち、与えられた分析条件に基づいて、分析対象の文献情報が抽出される。より詳しくは、分析対象として抽出される文献情報は、特定の技術分野に関する文献情報である。

出現頻度解析部は、抽出された各文献情報に含まれるキーワード毎に、それぞれの出現頻度を算出し、例えば、出現頻度の高いものから順番に順位を付与して、キーワード出現頻度解析情報を生成する。第１キーワード検出部は、所定の文献情報で使用されている第１キーワードを検出する。この第１キーワードは、例えば、所定数以上の所定の文献情報で使用されている標準的なキーワードである。第２キーワード候補検出部は、第１キーワードに対応する第２キーワードの候補となるキーワードを検出する。第２キーワードとは、所定の文献情報以外の他の文献情報でのみ使用されている特殊なキーワードであり、いわゆる方言的なキーワードと呼ぶこともできる。そして、第２キーワード検出部は、第２キーワード候補の中から、第１キーワードに対応する第２キーワードを検出する。これにより、表現の異なるキーワード同士の対応関係を自動的に検出することができる。

本発明の一態様では、第２キーワード検出部は、第２キーワード候補のうちユーザにより選択された第２キーワード候補を第２キーワードとして検出する。例えば、第２キーワード候補の候補リストをユーザに提示し、ユーザによって第２キーワードを選択させることができる。例えば、候補リストには、第１キーワードに対応する可能性の高いものから順番に、第２キーワード候補が記載される。

本発明の一態様では、検出された第１キーワードの特徴情報を検出する第１特徴情報検出部と、検出された第２キーワード候補の特徴情報を検出する第２特徴情報検出部と、をさらに備え、第２キーワード検出部は、検出された第１キーワードの特徴情報と検出された第２キーワード候補の特徴情報とを比較することにより、第２キーワード候補の中から第２キーワードを検出する。特徴情報としては、例えば、抽出された文献情報に基づいて生成された座標系における各キーワードの座標や、各キーワードの出現頻度の順位等を用いることができる。第２キーワード検出部は、第１キーワードとの間で特徴情報の差異が最も少ない第２キーワード候補を第２キーワードとして検出可能である。

本発明の一態様では、検出された第１キーワードの特徴情報を検出する第１特徴情報検出部と、検出された第２キーワード候補の特徴情報を検出する第２特徴情報検出部と、第１キーワードの特徴情報と第２キーワードの特徴情報とを比較する特徴情報比較部と、特徴情報比較部による比較結果を出力する比較結果出力部と、をさらに備え、第２キーワード検出部は、比較結果に基づいて、第２キーワード候補のうちユーザにより選択された第２キーワード候補を第２キーワードとして検出するユーザ指定モードと、比較結果に基づいて、第１キーワードの特徴情報との差異が最も少ない特徴情報を有する第２キーワード候補を第２キーワードとして検出する自動検出モードと、を備える。

本発明の一態様では、第１キーワード検出部は、キーワード出現頻度解析情報に基づいて、第１の所定値までの出現頻度順位を有するキーワードのうち、第２の所定値以上かつ抽出された文献情報の総数未満の所定の文献情報で使用されているキーワードを、第１キーワードとして検出する。

本発明の一態様では、第２キーワード候補検出部は、キーワード出現頻度解析情報に基づいて、所定の文献情報以外の他の文献情報に含まれるキーワードのうち、所定の文献情報で第３の所定値以上使用されているキーワードを除去して残ったキーワードを、第２キーワード候補として検出する。

本発明の一態様では、第１特徴情報検出部は、第１キーワードの所定の文献情報における平均出現頻度順位を第１キーワードの特徴情報として検出し、第２特徴情報検出部は、所定の文献情報以外の他の文献情報における第２キーワード候補の出現頻度順位を第２キーワードの特徴情報として検出する。

本発明の一態様では、抽出された文献情報の総数及び抽出された文献情報から抽出される所定の複数のキーワードの出現数に基づいて主成分分析を行うことにより、抽出された文献情報に含まれるキーワードの座標を算出するキーワード座標算出部をさらに備え、第１特徴情報検出部は、キーワード座標算出部により算出される第１キーワードの座標を第１キーワードの特徴情報として検出し、第２特徴情報検出部は、キーワード座標算出部により算出される第２キーワード候補の座標を第２キーワード候補の特徴情報として検出する。

本発明の一態様では、前記第１特徴情報検出部は、前記所定の文献情報において前記第１キーワードと係り受けをなす単語のランキングを前記第１特徴情報として検出し、
前記第２特徴情報検出部は、前記所定の文献情報以外の他の文献情報において前記第２キーワード候補と係り受けをなす単語のランキングを前記第２特徴情報として検出するようになっている。

本発明の一態様では、抽出された文献情報から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、抽出された文献情報群の各文献情報の座標をそれぞれ算出する文献座標算出部と、所定の各キーワードを含む文献情報の総数及び所定の各キーワードの出現数に基づいて主成分分析を行うことにより、所定の各キーワードの座標をそれぞれ算出するキーワード座標算出部と、文献座標算出部により算出された各文献情報の座標に基づいて各文献情報の分布密度を算出し、この算出された分布密度に基づく輪郭を有するマップ図形及び所定のキーワードをそれぞれ可視化してマップ情報を生成するマップ生成部をさらに備えており、第１キーワード及び第２キーワードは、マップ情報に可視化されている。

ここで、文献座標算出部は、所定の複数のキーワードの組合せ及び所定の複数のキーワードの出現数に基づいて、主成分分析を行い、抽出された文献情報の座標をそれぞれ算出する。主成分分析とは、多変量解析の一手法であり、簡単に言えば、それぞれ多くの変量を含む各サンプル情報について、その相違を最も端的に表す幾つかの総合的指標（主成分）で代表させ、次元数を縮減させる分析方法である。

同様にして、キーワード座標算出部は、主成分分析により、所定の各キーワードの座標をそれぞれ算出する。マップ生成部は、各文献情報の座標に基づいて、文献情報の分布密度を算出する。例えば、マップ生成部は、マップの全領域を複数のブロックに区切り、各ブロックに位置する文献情報の数を算出することによって、各ブロック毎の文献情報の粗密を検出可能である。マップ生成部は、例えば、文献情報の分布密度に表示要素（例えば等高線等）を対応付けることにより、輪郭を有するマップ図形を作成する。また、マップ生成部は、このマップ図形とキーワードの存在を示す表示要素（例えば、キーワードの文字そのもの、あるいはシンボル）とをマップ領域上に配置することにより、マップ情報を生成する。このマップ情報は、例えば、２次元平面に表現されるが、これに限らず、３次元空間に表現することもできる。

第２キーワード検出部は、キーワード座標算出部によりそれぞれ算出される第１キーワードの座標及び第２キーワード候補の座標を比較することにより、第２キーワード候補の中から第２キーワードを検出することができる。

第１キーワードと第２キーワードとは、それぞれ異なる表示形態でマップ情報に可視化されており、マップ情報には、第１キーワードと第２キーワードとの対応関係を示す表示要素を含めることができる。

本発明の一態様では、第２キーワードを第１キーワードに置換するキーワード置換部を備える。例えば、キーワード置換部は、前記他の文献情報に含まれる第２キーワードを第１キーワードに置換した状態で、当該他の文献情報を出力させることができる。

本発明の一態様では、第２キーワードを第１キーワードに関連づけて記憶させる関連性登録部を備える。

本発明の他の観点に従うプログラムは、コンピュータを、電子化された複数の文献情報を記憶する文献情報記憶手段と、与えられた分析条件に基づいて分析対象の文献情報を抽出する対象文献抽出手段と、抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成する出現頻度解析手段と、キーワード出現頻度解析情報に基づいて、抽出された文献情報に含まれるキーワードのうち、所定の文献情報で使用されている第１キーワードを検出する第１キーワード検出手段と、キーワード出現頻度解析情報に基づいて、第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、抽出された文献情報のうち所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出する第２キーワード候補検出手段と、検出された第２キーワード候補の中から第１キーワードに対応する第２キーワードを検出する第２キーワード検出手段と、して機能させる。

本発明のさらに別の観点に従うキーワード対応関係分析方法は、分析条件を取得するステップと、取得された分析条件に基づいて文献情報記憶部を検索することにより、分析対象の文献情報を抽出するステップと、抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成するステップと、キーワード出現頻度解析情報に基づいて、抽出された文献情報に含まれるキーワードのうち所定の文献情報で使用されている第１キーワードを検出するステップと、キーワード出現頻度解析情報に基づいて、第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、抽出された文献情報のうち所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出するステップと、検出された第２キーワード候補の中から第１キーワードに対応する第２キーワードを検出するステップと、を含んでいる。

以下、図面に基づき、本発明の実施の形態を説明する。まず最初に、キーワード対応関係分析装置を単独で構成する場合を説明し、次に、文献情報分析装置の中にキーワード対応関係分析装置を組み込む場合を説明する。

図１は、キーワード対応関係分析装置（以下、「対応関係分析装置」と略す場合がある）の全体構成を示す説明図である。この対応関係分析装置は、それぞれ後述するように、例えば、分析条件設定部１と、対象文献抽出部２と、情報蓄積部３と、キーワードランキング生成部４と、基準キーワード検出部６と、対応キーワード候補検出部７と、基準キーワード特徴情報検出部８と、対応キーワード候補特徴情報検出部９と、特徴情報比較部１０と、対応キーワード検出部１１と、キーワード対応関係出力部１２と、シソーラス登録部１４及びキーワード置換部１５を備えて構成することができる。対応関係分析装置は、コンピュータ装置またはコンピュータに所定の機能を実現させるプログラムとして、構成される。

分析条件設定部１は、ユーザにより指定される分析条件を設定するものである。ユーザは、種々の分析条件を指定可能である。例えば、ユーザは、特定の企業、特定の技術分野、特定の文献作成期間または公開期間、特定の発明者、特定の技術用語等のように、種々の条件を単独で、または組み合わせて、分析条件を指定することができる。例えば、ユーザは、「特定の企業により特定の技術分野について、特定期間内に出願された特許文献」等のような分析条件を指定することができる。分析条件を設定することにより、分析対象となる母集団が特定される。

対象文献抽出部２は、分析条件に合致する文献情報を、情報蓄積部３から抽出するものである。情報蓄積部３には、文献情報記憶部３Ａやキーワード等を記憶する記憶部３Ｂ等が設けられている。文献情報記憶部３Ａには、例えば、特許文献、科学技術文献、学術論文等の各種文献が電子化された状態で記憶されている。キーワード等を記憶する記憶部３Ｂには、例えば、各文献情報で使用されている主要なキーワードや、辞書等の情報が記憶されている。

キーワードランキング生成部４は、抽出された文献情報を分析することにより、キーワードランキングテーブル５を生成するものである。キーワードランキング生成部４は「出現頻度解析部」に、キーワードランキングテーブル５は「キーワード出現頻度解析情報」に、それぞれ対応する。キーワードランキング生成部（以下、ランキング生成部と略す場合もある）４は、抽出された各文献情報で使用されているキーワードを抽出し、各キーワード毎に、その出現頻度をカウントする。そして、出現頻度の高い順番に順位を付けて、キーワードランキングテーブル５を生成する。

ここで、キーワードの抽出方法としては、公知の種々の方法を採用できる。また、例えば、「ガラス」と「カ”ラス」のように、濁点等をあえて別の記号や文字に置き換えて表現しているキーワードであっても、ひとかたまりのキーワードとして検出可能である。この場合は、例えば、文章中に含まれるカタカナの文字ブロック集合を形態素分析で抽出すればよい。

また、キーワード中に不要なスペースコードや改行コードが含まれている場合、これらのスペースコードや改行コードを削除することにより、キーワードとして抽出することができる。従って、濁点や余分なコードの追加等によって、標準的な表現とは異なる表現で記述されたキーワードであっても、キーワードとして検出することができ、標準的なキーワードとの対応関係を検出することができる。

図１に示すキーワードランキングテーブル５では、３人の出願人Ａ社、Ｂ社、Ｃ社によりそれぞれ作成された特定の技術分野に関する文献情報群において使用されているキーワードが第１位から第３位まで示されている。

基準キーワード検出部６は、基準となるキーワードを検出するものであり、「第１キーワード検出部」に対応する。ここで、基準キーワードとは、多くの文献情報で使用されているが、一部の文献情報では使用されていないものを意味する。即ち、基準キーワードは、分析母集団を構成する文献情報群において標準的に使用されているキーワード、多数派の使用する主流キーワードと表現することもできる。分析母集団を構成する文献情報群のうち、基準キーワードを含む文献情報は「所定の文献情報」に該当し、基準キーワードを含まない文献情報は「所定の文献情報以外の他の文献情報」に該当する。
なお、厳密には、多数の文献情報で使用されているキーワードであっても、それが正式名称であるとは限らない。略称の方が正式名称よりも頻繁に使用される場合もある。また、登録商標の普通名称化または慣用商標化として知られているように、特定企業の登録商標が有名になった結果、正式名称よりも登録商標の方が使用される場合もある。

図１中のキーワードランキングテーブル５内に示す例では、キーワードＷ２が基準キーワードに該当する。キーワードＷ２は、Ａ社での出現頻度は第２位であり、Ｂ社での出現頻度は第１位であるのに対し、Ｃ社では出現していない。分析母集団内の多くの文献情報に出現しているにもかかわらず、一部の文献情報では出現していないため、キーワードＷ２は基準キーワードとして検出される。

対応キーワード候補検出部７は、対応キーワードの候補となりうるキーワードを検出するものであり、「第２キーワード候補検出部」に該当する。対応キーワードとは、基準キーワードを含まない文献情報において、基準キーワードに対応していると考えられるキーワードである。対応キーワードは、標準的な表現から外れた、いわゆる方言的キーワードと考えることができる。本実施例における対応キーワード、即ち、方言的キーワードには、特定の組織内で慣用されているマイナーな表現の他に、略称や異表記も含まれる。

ある特定の文献情報から構成される分析母集団は、その分析条件に適合する共通のキーワードを一つまたは複数含んでいると考えられる。特に、出現頻度の順位が所定範囲内のキーワードは、各出願人間で共通しやすい。しかし、一部の出願人（Ｃ社）では、キーワードＷ２が使用されていない。このことは、一部の出願人において、標準的な表現とは異なる別の表現を用いて、特定の技術要素を記述している可能性を意味する。そこで、対応キーワード候補検出部７は、基準キーワードに対応するキーワードを、一部の出願人の文献情報群から検出する。図１に示す例では、Ｃ社の文献情報に登場するキーワードのうち、第２位のＷ４及び第３位のＷ５が、対応キーワード候補に該当する。キーワードＷ１は、全ての出願人において使用されているため、対応キーワードの候補から除外される。

基準キーワード特徴情報検出部８は、基準キーワードの有する属性情報のうち、対応キーワードとの関連性を調べるために有用と考えられる特徴情報を検出するものであり、「第１特徴情報検出部」に該当する。

対応キーワード候補特徴情報検出部９は、同様に、対応キーワード候補の特徴情報を検出するものであり、「第２特徴情報検出部」に該当する。

ここで、属性情報としては、例えば、キーワードの文字種（平仮名、カタカナ、英数字、記号、漢字の別）、文字列の長さ等が知られているが、本実施例では、出現頻度の順位及び特許マップ上での位置（座標）に着目する。特徴情報は、例えば、キーワード同士の関連性を判断するための関連性判断情報、キーワード間の近似性を判断するための近似性判断情報等のように表現することもできる。

詳細は後述するが、図１の例では、基準キーワードＷ１の出現頻度の順位は、Ａ社で第２位、Ｂ社で第１位であるから、その平均順位は、１．５位となる。対応キーワード候補Ｗ４の順位は第２位、別の対応キーワード候補Ｗ５の順位は第３位である。

特徴情報比較部１０は、基準キーワード特徴情報検出部８により検出された特徴情報と、対応キーワード候補特徴情報検出部９により検出された特徴情報とを比較する。対応キーワード検出部１１は、特徴情報の比較結果に基づいて、対応キーワード候補の中から、基準キーワードに対応するキーワードを検出する。対応キーワード検出部１１は、「第２キーワード検出部」に該当する。上記の例では、基準キーワードＷ１の平均登場順位「１．５」であるから、これに最も近い順位（第２位）を有するキーワードＷ４が対応キーワードとして検出される。

キーワード対応関係出力部１２は、基準キーワードと対応キーワードとを関連づけて、出力させるものである。例えば、キーワードの対応関係は、ディスプレイ等の表示部１３を介して、ユーザに提示される。なお、後述の実施例からも明らかなように、対応キーワードの検出に際して、ユーザの判断を仰ぐことも可能である。
また、キーワードランキングテーブル５それ自体を、表示部１３に出力させることもできる。そして、キーワードランキングテーブル５を画面出力する場合、基準キーワードと対応キーワード（または対応キーワード候補）との対応関係が明確に区別できるように、例えば、フォントの種類、フォントサイズ、文字色等を適宜設定することもできる。

シソーラス登録部１４は、検出された対応キーワードを基準キーワードに対応付けて、例えば、辞書に登録する。これにより、次の検索では、より改善された辞書を用いることができ、検索精度が向上する。

キーワード置換部１５は、対応キーワードを基準キーワードに置換するものである。逆に、基準キーワードを対応キーワードに置換することも可能である。これにより、標準的な表現で文献情報を精読することができ、ユーザの利便性が向上する。

図２は、データ処理の流れを模式的に示す説明図である。ユーザは、ユーザインターフェースを介して、分析条件１Ａを指定する。この例では、特定の出願人（作成者）Ａ〜Ｅ社によって、特定の技術分野に関して作成された文献情報を指定している。技術分野は、例えば、特許分類コードや技術用語等により特定することができる。また、例えば、所定の限られた研究者の関与する研究内容を分析する場合、研究者の氏名によって技術分野を特定することもできる。

この分析条件１Ａに合致する文献情報群は、情報蓄積部３から抽出される。この抽出された文献情報群は、分析対象の母集団を構成する。この分析母集団について、キーワードの出現頻度が解析され、キーワードランキングテーブル５が生成される。

キーワードランキングテーブル５を解析することにより、基準キーワードテーブル６Ａが生成される。図２に示す例では、太字で示すキーワード「パソコン」が基準キーワードとして検出され、基準キーワードテーブル６Ａに記憶される。

キーワード「パソコン」の出現頻度は、Ａ社では第３位、Ｂ社では第４位、Ｃ社では第２位、Ｄ社では第３位である。Ｃ社では、正式名称である「パーソナルコンピュータ」が使用されているが、この実施例では、正式名称「パーソナルコンピュータ」と略称「パソコン」とは、同義語であることが既に判明しており、情報蓄積部３に登録済みであるものとする。

キーワード「パソコン（パーソナルコンピュータを含む）」は、Ａ社〜Ｄ社において高い順位で登場するのに対し、Ｅ社では、判断対象の順位内（図示の例では、第１位〜第６位）で使用されていない。従って、キーワード「パソコン」は基準キーワードとして検出される。

そして、キーワードランキングテーブル５に記録されているＥ社のキーワード群の中から、基準キーワードに対応しうるキーワードの候補が検出される。検出されたキーワードは、対応キーワード候補テーブル７Ａに記憶される。

図２に示す例では、「ソフトウェア」、「ハードウェア」及び「システム」は、全ての出願人Ａ社〜Ｅ社で使用されている共通のキーワードである。従って、これら「ソフトウェア」、「ハードウェア」及び「システム」は、基準キーワードまたは対応キーワードのいずれにも該当しない。

また、「プログラム」というキーワードは、Ｄ社を除くＡ社，Ｂ社，Ｃ社及びＥ社で使用されており、共通キーワードではないが、多くの出願人で使用されているため（即ち、多くの文献情報で使用されているため）、基準キーワード「パソコン」に対応するキーワードとはならない。Ａ社，Ｂ社，Ｃ社及びＥ社において、「プログラム」は、その通りの意味で使用されていると考えられる。そこで、所定数以上の出願人で使用されているキーワード「プログラム」は、対応キーワードの候補とならず、除外される。

もっとも、Ｄ社に関して「プログラム」というキーワードに着目すると、この「プログラム」は、別の基準キーワードに相当する。説明の便宜上、以下では、一つの基準キーワード「パソコン」に着目して説明するが、本実施例のキーワード対応関係分析装置は、キーワードランキングテーブル５から複数の基準キーワードを検出することができ、各基準キーワードに対応するキーワードをそれぞれ検出することができる。
即ち、特定の技術分野に関する文献情報群において、複数の出願人がそれぞれ別々の方言的表現（基準キーワードと異なるキーワード）を使用している場合でも、それぞれの方言的表現を別々に検出し、対応する標準的表現（基準キーワード）との関係を検出することができる。

さて、Ｅ社で使用されているキーワード「情報処理装置」及び「音声認識」は、他の出願人Ａ社〜Ｄ社において所定数以上使用されていない。従って、これらの「情報処理装置」及び「音声認識」は、基準キーワード「パソコン」に対応しうるキーワードであるとして検出され、対応キーワード候補テーブル７Ａに記憶される。即ち、Ｅ社では、「パソコン」という技術要素を「情報処理装置」または「音声認識」という別のキーワードで表現している可能性がある。

次に、基準キーワードと対応キーワード候補の特徴情報に着目する。ここでは、特徴情報として、キーワードの出現頻度順位を採用する。基準キーワード「パソコン」の順位は、Ａ社では第３位、Ｂ社では第４位、Ｃ社では第２位、Ｄ社では第３位であるから、その平均値は「３」となる。これに対し、対応キーワード候補「情報処理装置」の順位は第３位であり、別の対応キーワード候補「音声認識」の順位は第６位である。そこで、より順位の近い「情報処理装置」が、基準キーワード「パソコン」に対応するキーワードとして検出される。

なお、基準キーワードに最も順位の近い対応キーワード候補のみを選択するのではなく、基準キーワードの平均順位から所定範囲内の順位を有する対応キーワード候補を全て選択して、キーワード対応関係テーブル１２Ａを生成することができる。

キーワード対応関係テーブル１２Ａには、基準キーワード「パソコン」と対応キーワード「情報処理装置」とが関連づけられて記憶される。この対応関係は、表示部１３を介してユーザに提示される。また、この対応関係は、情報蓄積部３に反映され、そこに含まれる辞書を改善する。

図３は、キーワード対応関係分析処理を示すフローチャートである。以下に述べる各フローチャートは、発明の理解及び実施に必要な程度で、処理の概要をそれぞれ示しており、実際のコンピュータプログラムとは相違する。なお、以下の説明ではステップを「Ｓ」と略記する。

対応関係分析装置は、ユーザにより指定された分析条件１Ａを取得し（Ｓ１１）、この分析条件１Ａに合致する文献情報群を情報蓄積部３から抽出する（Ｓ１２）。そして、対応関係分析装置は、抽出された文献情報群に基づいて、キーワードランキングテーブル５を生成する（Ｓ１３）。キーワードランキングテーブル５を生成するステップについては、図４と共に詳述する。

次に、対応関係分析装置は、キーワードランキングテーブル５に基づいて、基準キーワードテーブル６Ａを生成し（Ｓ１４）、さらに、基準キーワードの平均順位を算出する（Ｓ１５）。基準キーワードテーブル６Ａを生成するステップについては、図５と共に詳述する。

対応関係分析装置は、キーワードランキングテーブル５に基づいて、対応キーワード候補テーブル７Ａを生成し（Ｓ１６）、検出された対応キーワード候補の順位をそれぞれ取得する（Ｓ１７）。対応キーワード候補テーブル７Ａを生成するステップについては、図６と共に詳述する。

そして、対応関係分析装置は、基準キーワードの平均順位と、各対応キーワード候補の順位とを比較し（Ｓ１８）、順位の近い対応キーワード候補と基準キーワードとを関連づけて、キーワード対応関係テーブル１２Ａを生成する（Ｓ１９）。

上述のように、キーワード対応関係テーブル１２Ａには、対応キーワード候補を一つだけ登録することもできるし、複数の対応キーワード候補を登録することもできる。第１に、基準キーワードの平均順位に最も近い順位を有するキーワードのみをテーブル１２Ａに登録する方法が考えられる。第２に、基準キーワードの平均順位から所定範囲内の順位を有する複数のキーワードをテーブル１２Ａに登録する方法が考えられる。第３に、ユーザによる事前の、または事後の選択により、第１の方法と第２の方法とを切り替える方法も考えられる。

ここでは、第２または第３の方法により、複数の対応キーワード（候補）がユーザに提示される場合を説明する。ユーザは、提示された複数のキーワードの中から、いずれか一つのキーワードを選択することができる（Ｓ２１）。

図２の例では、ユーザは、「情報処理装置」と「音声認識」のいずれが、「パソコン」に対応するキーワードであるかを手動で選択することができる。ユーザによって選択された場合（S21:YES）、対応関係分析装置は、その選択されたキーワードを基準キーワードに対応するキーワードとして対応付ける（Ｓ２２）。ユーザによる手動選択が行われない場合（S21:NO）、対応関係分析装置は、最も順位の近いキーワードを自動的に選択し、基準キーワードに対応付ける（Ｓ２３）。この対応付け（Ｓ２２，Ｓ２３）により、対応キーワードが確定する。

対応関係分析装置は、キーワード間の対応関係を種々の方法で利用できる。例えば、ユーザがシソーラスの登録を希望する場合（S24:YES）、対応関係分析装置は、対応キーワードを基準キーワードのシソーラスとして登録する（Ｓ２５）。また、例えば、ユーザが、対応キーワードの置換を希望する場合（S26:YES）、対応関係分析装置は、分析母集団に含まれるＥ社によって作成された全ての文献情報、または、ユーザにより選択された一部の文献情報について、対応キーワードを基準キーワードに変換する（Ｓ２７）。なお、これとは逆に、基準キーワードを対応キーワードに変換することもできる。

次に、図４は、図３中のＳ１３で示されたキーワードランキングテーブル生成処理の詳細を示すフローチャートである。まず、対応関係分析装置は、分析条件１Ａ中の出願人の中から一人の出願人を選択し（Ｓ１３０）、選択された出願人により作成された文献情報を取得する（Ｓ１３１）。

そして、対応関係分析装置は、文献情報の中から助詞や定型句、見出し等の不要な語句を除去し（Ｓ１３２）、キーワードのみを抽出する（Ｓ１３３）。そして、対応関係分析装置は、抽出された各キーワード毎に、それぞれの出現回数を算出し（Ｓ１３４）、各キーワードを出現頻度の高い順に並び替え（Ｓ１３５）、キーワードランキングテーブル５に登録する（Ｓ１３６）。

対応関係分析装置は、分析条件１Ａ中の全ての出願人についてキーワードの出現頻度を解析したか否かを判定し（Ｓ１３７）、未解析の出願人が残っている場合（S137:NO）、次の出願人を選択して（Ｓ１３８）、Ｓ１３１に戻る。このように、各出願人のそれぞれについて、文献情報中に使用されているキーワード及びその出現頻度を検出する。

図５は、図３中のＳ１４で示された基準キーワードテーブル生成処理を示すフローチャートである。対応関係分析装置は、キーワードランキングテーブル５を参照し（Ｓ１４０）、判断対象の順位Ｎ１までのキーワードを取得する（Ｓ１４１）。この判断対象の順位Ｎ１は、ユーザが指定可能である。図２に示す例では、「６」がＮ１に該当する。

次に、対応関係分析装置は、順位Ｎ１までのキーワードについて、各出願人による使用状況をそれぞれ検出し（Ｓ１４２）、全出願人で使用されている共通のキーワードを基準キーワードから除外する（Ｓ１４３）。

次に、対応関係分析装置は、所定数Ｎ２以上の出願人で使用されているキーワードを検出し（Ｓ１４４）、この検出されたキーワードを基準キーワードとして、基準キーワードテーブル６Ａに登録する（Ｓ１４５）。Ｎ２の値は、ユーザが指定可能である。Ｎ２は、２以上、かつ、分析母集団の文献情報の総数未満の値に設定される。

そして、対応関係分析装置は、基準キーワードを使用している出願人の名称または識別コードを記憶する（Ｓ１４６）。基準キーワードを使用する出願人を基準出願人と呼ぶことができる。同様に、対応関係分析装置は、基準キーワードを使用していない出願人の名称または識別コードを記憶する（Ｓ１４７）。基準キーワードを使用していない出願人を対象出願人と呼ぶことができる。基準出願人の名称または識別コード（装置内で、出願人を特定可能な情報であればよい）は、基準キーワードテーブル６Ａに登録される。対象出願人の名称等は、対応キーワード候補テーブル７Ａの生成に使用される。

図６は、図３中のＳ１６で示された対応キーワード候補テーブル生成処理を示すフローチャートである。対応関係分析装置は、キーワードランキングテーブル５を参照し（Ｓ１６０）、対象出願人の作成した文献情報群で使用されている順位Ｎ１までのキーワードを取得する（Ｓ１６１）。

対応関係分析装置は、取得されたキーワード毎に、基準出願人による使用状況を検出し（Ｓ１６２）、所定数Ｎ３以上の基準出願人により使用されているキーワードを、対応キーワード候補から除外する（Ｓ１６３）。このようにして、対象出願人により使用されている順位Ｎ１までのキーワードから、不要なキーワードが取り除かれる。そして、対応関係分析装置は、残されたキーワードを対応キーワード候補として、対応キーワード候補テーブル７Ａに登録する（Ｓ１６４）。

本実施例は、上述のように構成されるので、以下の効果を奏する。本実施例では、同一の技術要素が、出願人間で異なる用語で表現されている場合でも、キーワード間の対応関係を分析し、基準キーワードに対応するキーワードを検出することができる。従って、用語が統一されていない技術分野の文献を、より効率的に、より高い精度で調査することができ、ユーザの使い勝手が向上する。
即ち、本実施例によれば、基準キーワード（標準的表現）を使用する文献情報群と、標準的表現から外れた対応キーワード（方言的表現）を使用する文献情報群との対応関係を把握することができる。つまり、標準的な表現とは異なる表現が使用されている文献情報群の中から、方言的な表現を抽出し、抽出された方言的な表現と標準的な表現との対応関係を可視化して示すことができる。

本実施例では、キーワードランキングテーブル５に基づいて、基準キーワードに対応するキーワードを自動的に、または半自動的に検出可能な構成とした。従って、比較的簡易な構成でありながら、キーワード間の対応関係を解析することができる。

本実施例では、キーワード同士の出現頻度順位を比較することにより、対応するキーワードの組合せを検出する構成とした。従って、キーワードランキングテーブル５を用いた比較的簡易な制御構成で、キーワード間の対応関係を解析することができる。

本実施例では、キーワードの対応関係をシソーラスとして登録可能な構成とした。従って、情報蓄積部３内の辞書を改善することができ、次の検索に役立たせることができ、ユーザの利便性が向上する。

本実施例では、対応キーワードを基準キーワードに置換可能な構成とした。従って、一部の出願人によって使用されている独特の表現を標準的な表現に翻訳することにより、内容把握に役立たせることができ、ユーザの使い勝手が向上する。即ち、元の「なまった」明細書の全体について、検出された方言キーワードを標準キーワードに置き換えることにより、その「なまった」明細書の理解に役立たせることができる。

図７〜図１３に基づいて、第２実施例を説明する。第２実施例では、第１実施例で述べたキーワード対応関係分析装置を、マップを自動作成するための文献情報分析装置１００内に組み込んでいる。

文献情報分析装置１００は、マップ制御部１１０と、キーワード対応関係分析部１２０及び情報蓄積部３００を備えたコンピュータ装置として構成可能である。そして、文献情報分析装置１００は、例えば、インターネットやLAN（Local Area Network）等の通信ネットワークを介して、クライアント端末２００と双方向通信可能に接続されている。クライアント端末２００は、例えば、パーソナルコンピュータや携帯情報端末（携帯電話を含む）等として構成可能である。

マップ制御部１１０は、情報蓄積部３００に記憶されている多数の文献情報に基づいて、技術マップ１５０を生成し、出力する。生成されたマップ１５０は、通信ネットワークを介して、クライアント端末２００に送信される。マップ１５０は、クライアント端末２００内に保存可能としてもよいし、クライアント端末２００内に保存不能としてもよい。マップ制御部１１０の詳細はさらに後述する。

キーワード対応関係分析部１２０は、ユーザから指定された分析条件に基づいて、マップ１５０上にマッピングされキーワード間の対応関係を分析する。キーワード対応関係分析部１２０は、上述したキーワード対応関係分析装置と同様の機能を備える。

情報蓄積部３００は、例えば、特許公開公報や登録公報、あるいは、科学技術論文等のような文献情報を多数記憶している。

マップ１５０の構成を説明する。マップ１５０は、ユーザから指示された目的に添って生成されるものである。ユーザは、例えば、調査を希望する技術分野や特定のサーチワード等を指定することにより、情報蓄積部３００に記憶されている多数の文献情報群の中から所定の文献情報群のみを選ぶことができる。ユーザによって選ばれた文献情報群の内容は、マップ制御部１１０によって解析され、マップ１５０が生成される。

等高線１５１Ａ，１５１Ｂ，１５１Ｃ及び１５１Ｄは、マップ１５０に含まれる文献情報の分布密度を示す表示要素である。例えば、等高線１５１Ａは、そこに存在する文献情報の数が１以上Ｂ１未満であることを示し、等高線１５１Ｂは、そこに存在する文献情報の数がＢ１以上Ｂ２未満であることを示す（Ｂ１，Ｂ２は自然数）。このように、１５１Ａから１５１Ｂ、１５１Ｃ、１５１Ｄへと向かうにつれて、そこに含まれる文献情報の数は段階的に増大する。

マップ１５０には、複数のキーワード１５２も表示されている。これらのキーワード１５２は、マップ１５０を構成する文献情報群の各文献情報を特徴づける主要なキーワードであり、以下の説明では、主要キーワード１５２と呼ぶ場合がある。

また、主要キーワード１５２のうち、一つまたは複数のキーワードは、基準キーワード１５２Ａとなり、一つまたは複数のキーワードは、対応キーワード１５２Ｂとなる。基準キーワード１５２Ａと対応キーワード１５２Ｂとは、両者の対応関係を示すための接続線１５３によって接続されている。基準キーワード１５２Ａと対応キーワード１５２Ｂとは、例えば、色彩や線種、線の太さ等を他のキーワード１５２と変えることにより、マップ１５０上で目立たせることができる。あるいは、対応するキーワード１５２Ａ，１５２Ｂを明滅等させて、他のキーワード１５２と区別することもできる。
なお、本発明の実施に必要な範囲内で、特開２００５−１４９３４６号公報の開示内容を利用可能である。

図８は、文献情報分析装置１００の機能構成を示すブロック図である。マップ制御部１１０は、例えば、マップ生成条件入力受付部１１１と、文献抽出部１１２と、文献座標算出部１１３と、キーワード抽出部１１４と、キーワード座標算出部１１５と、マップ生成部１１６及びマップ表示部１１７とを含んで構成することができる。

また、情報蓄積部３００の一例として、文献データベース（図中、データベースを「DB」と略記）３１と、単語データベース３２と、インデックスデータベース３３とを設けることができる。

文献データベース３１は、複数の文献情報を記憶するものである。単語データベース３２は、辞書として使用されるものである。インデックスデータベース３３は、各文献にどのようなキーワードが含まれているかを管理するためのものである。

マップ生成条件入力受付部１１１は、ユーザから指定されるマップ生成条件の入力を受け付けるためのものである。受け付けるとは、例えば、ユーザの指定するマップ生成条件を示す情報を通信インターフェースを介して電子情報として受信し、メモリ等に記憶させることを意味する。

文献抽出部１１２は、ユーザから指定された条件に基づいて、文献データベース３１及びインデックスデータベース３３を検索することにより、所定範囲内の文献情報を抽出するものである。文献座標算出部１１３は、抽出された文献情報を解析することにより、マップ１５０上における座標を算出するものである。例えば、文献座標算出部１１３は、抽出された各文献情報に含まれるキーワードの組合せ及び出現数に対して主成分分析を施すことにより、二次元平面上における各文献の座標をそれぞれ算出する。

キーワード抽出部１１４は、抽出された文献情報を解析することにより、そこに含まれている複数のキーワードを抽出する。キーワード座標算出部１１５は、抽出されたキーワードの座標をそれぞれ算出するものである。例えば、キーワード座標算出部１１５は、キーワードを含む各文献情報の総数及び出現総数に対して主成分分析を施すことにより、二次元平面上における各キーワードの座標をそれぞれ算出するものである。なお、主成分分析は、多変量解析のための一手法であり、公知の技術であるため詳細を割愛する。算出されたキーワード座標は、キーワード対応関係分析部１２０にも使用される。

マップ生成部１１６は、算出された各文献情報の座標及び各キーワードの座標に基づいて、マップ１５０を生成する。例えば、マップ生成部１１６は、有限の二次元平面を縦横に細かく区切って多数のブロック領域を設定し、各ブロック領域に存在する文献情報の数を算出する。これにより、マップ生成部１１６は、文献情報の分布密度を求め、この分布密度に対応する等高線１５１Ａ等を設定し、マップ図形を作成する。

マップ表示部１１７は、生成されたマップ１５０の構成に応じて所定の表示要素をそれぞれ割り当てることにより、ユーザが視認可能なマップ１５０を生成し、クライアント端末２００に提供する。所定の表示要素としては、例えば、各等高線１５１Ａ等を示すための輪郭線や各キーワードを示すための文字等を挙げることができる。このほかに、マップ１５０に対する操作を行うためのメニュー表示部等も追加される。

キーワード対応関係分析部１２０は、例えば、対象文献抽出部１２１と、キーワードランキング生成部１２２と、基準キーワード検出部１２３と、対応キーワード候補検出部１２４と、キーワード座標比較部１２５と、対応キーワード検出部１２６及びキーワード対応関係出力部１２７を備えて構成される。

対象文献抽出部１２１は、ユーザの指定する分析条件に合致する文献情報を抽出するもので、図１中の対象文献抽出部２に対応する。対象文献抽出部１２１は、マップ１５０を構成する全ての文献情報、または、一部の文献情報を抽出する。

キーワードランキング生成部１２２は、キーワードランキングテーブル５を生成するもので、図１中のキーワードランキング生成部４に対応する。基準キーワード検出部１２３は、基準キーワードを検出するもので、図１中の基準キーワード検出部６に対応する。対応キーワード候補検出部１２４は、基準キーワードに対応しうるキーワードの候補を検出するもので、図１中の対応キーワード候補検出部７に対応する。キーワード座標比較部１２５は、基準キーワードのマップ１５０における座標と対応キーワード候補のマップ１５０における座標とを比較するもので、図１中の特徴情報比較部１０に対応する。なお、キーワード座標算出部１１５は、図１中の各特徴情報検出部８，９に対応する。

対応キーワード検出部１２６は、基準キーワードに対応するキーワードを検出するもので、図１中の対応キーワード検出部１１に対応する。キーワード対応結果出力部１２７は、基準キーワードと対応キーワードの関係を出力するもので、図１中のキーワード対応関係出力部１２に対応する。

図９は、文献情報分析装置１００及びクライアント端末２００のハードウェア構成の概略を示す構成説明図である。文献情報分析装置１００は、上述のように、サーバコンピュータ等のように構成可能である。

文献情報分析装置１００は、例えば、通信インターフェース（図中、インターフェースを「I/F」と略記）１００１と、CPU（Central Processing Unit）１００２と、ROM（Read Only Memory）１００３と、RAM（Random Access Memory）１００４と、補助記憶装置１００５を備えて構成することができる。

補助記憶装置１００５には、例えば、OS（Operating System）の他に、文献データベース３１と、単語データベース３２と、インデックスデータベース３３と、キーワード対応関係分析プログラム１１００と、表示制御プログラム１１１０と、主成分分析プログラム１１２０と、構造解析プログラム１１３０と、検索プログラム１１４０及びウェブサーバプログラム１１５０を、それぞれ記憶させることができる。

文献データベース３１には、上述のように、特許公開公報等の文献情報が予め記憶されている。単語データベース３２には、例えば、助詞や接続詞等のようなキーワードに不適切な単語、同義語、類義語等が予め記憶されている。各文献情報に含まれているキーワードは、文献データベース３１と単語データベース３２とを用いることにより、それぞれ抽出することができる。インデックスデータベース３３は、このようにして抽出された各文献情報毎のキーワードの所在をそれぞれ管理する。従って、インデックスデータベース３３を用いることにより、多数の文献情報を記憶する文献データベース３１の中から、必要な文献情報を速やかに検索することができる。

キーワード対応関係分析プログラム１１００は、マップ１５０に含まれるキーワード間の対応関係を分析し、その分析結果をマップ１５０上に表示させるものである。表示制御プログラム１１１０は、マップ１５０の描画処理等を行うプログラムである。主成分分析プログラム１１２０は、主成分分析を行うプログラムである。構造解析プログラム１１３０は、例えば、テキストマイニング等の手法に基づいて、テキストデータの構造を解析するプログラムである。検索プログラム１１４０は、入力された検索条件に基づいて、文献データベース３１等を検索するプログラムである。ウェブサーバプログラム１１５０は、ウェブサーバ機能を実現するプログラムである。

クライアント端末２００の構成を説明する。クライアント端末２００は、インターネット等の通信ネットワークCNを介して文献情報分析装置１００に接続されており、例えば、通信インターフェース２００１と、CPU２００２と、ROM２００３と、RAM２００４及び補助記憶装置２００５を備えて構成可能である。

なお、以上の構成は例示であって、本発明はこれに限定されない。例えば、プログラムに代えて、プログラマブル・ロジック・デバイス等のようなハードウェア回路を用いて、各機能の少なくとも一部を実現可能な場合もある。

文献情報分析装置１００（以下、分析装置１００とも呼ぶ）を用いた文献情報分析方法について説明する。図１０は、マップ１５０を生成して出力するためのマップ制御処理の概要を示すフローチャートである。

まず、ユーザは、クライアント端末２００のユーザインターフェースを介して、検索条件を入力する（Ｓ３０）。検索条件は、例えば、「光触媒」等のようなキーワードを指定することにより、あるいは特許分類コードや文献の公開日等を指定することにより、行うことができる。

分析装置１００は、クライアント端末２００から検索条件を取得すると（Ｓ３１）、この検索条件に基づいてインデックスデータベース３３及び文献データベース３１を検索し、検索条件に合致する文献情報を全て抽出する（Ｓ３２）。より具体的には、ユーザから指定されたキーワードを有する文献情報を抽出するために、インデックスデータベース３３が使用される。そして、指定されたキーワードを有する文献情報が特定されると、その文献情報が文献データベース３１から読み出される。そして、抽出された結果は、分析装置１００からクライアント端末２００に送信され（Ｓ３３）、クライアント端末２００の画面に表示される（Ｓ３４）。

ユーザは、クライアント端末２００の画面を介して、抽出された文献の総数や文献名称等を確認し、抽出結果に承認を与える（Ｓ３５）。なお、ユーザが抽出結果に満足しない場合、検索条件を変えて、再度検索を指示することができる。

分析装置１００は、ユーザの承認を確認すると、抽出された各文献情報からキーワードをそれぞれ抽出する（Ｓ３６）。このキーワード抽出結果は、分析装置１００からクライアント端末２００に送信され（Ｓ３７）、クライアント端末２００の画面に表示される（Ｓ３８）。ユーザは、キーワード抽出結果に所望するキーワードが含まれているか等を確認して、承認を与える（Ｓ３９）。なお、ユーザがキーワード抽出結果に満足しない場合、再度のキーワード抽出を要求することもできる。

分析装置１００は、ユーザの承認を確認すると、主成分分析を行うことにより、抽出された各文献情報の座標をそれぞれ算出する（Ｓ４０）。続いて、分析装置１００は、各文献情報の座標に基づいて、文献情報の分布密度を算出する（Ｓ４１）。

分析装置１００は、主成分分析を行うことにより、抽出された各キーワードの座標をそれぞれ算出する（Ｓ４２）。そして、分析装置１００は、マップ１５０を生成してクライアント端末２００に送信する（Ｓ４３）。ユーザは、クライアント端末２００の画面に表示されたマップ１５０を確認する（Ｓ４４）。

図１１は、マップ１５０を生成する様子を模式的に示す説明図である。分析装置１００は、各文献情報の座標を算出し、文献座標管理テーブルＴ１に記憶させる。文献座標管理テーブルＴ１には、例えば、文献情報を特定するための文献番号に、その文献情報のＸ軸座標及びＹ軸座標とが対応付けられている。

また、分析装置１００は、抽出された各キーワード（主要キーワード）の座標を算出し、キーワード座標管理テーブルＴ２に記憶させる。キーワード座標管理テーブルＴ２は、例えば、キーワードと、そのキーワードが含まれている文献番号と、そのキーワードのＸ軸座標及びＹ軸座標がそれぞれ記憶されている。なお、図中では、キーワードが含まれている文献番号を一つのみ示しているが、そのキーワードが含まれる全ての文献番号のリストを含めることができる。

図１１の下側に示すように、例えば、マップ１５０のＸ軸方法及びＹ軸方向をそれぞれ複数ずつ分割することにより、多数のブロック領域１３０をマップ１５０上に設定することができる。分析装置１００は、各ブロック領域１３０に位置する文献情報の数をそれぞれ算出することにより、文献情報の分布密度を求める。この算出された分布密度に応じて、等高線１５１が設定される。

図１２は、キーワード対応関係分析処理を示すフローチャートである。このフローチャートは、図３に示すフローチャートと共通するステップを含んでいる。そこで、重複した説明を割愛し、本実施例に特徴的なステップを中心に説明する。

本実施例では、マップ１５０を生成する文献情報分析装置１００内に、キーワード対応関係を分析する機能を組み込んでいるため、キーワードの特徴情報としてキーワードの座標を使用する（Ｓ１５Ａ，Ｓ１７Ａ）。なぜなら、同一の技術要素を意味するが、その表現形態のそれぞれ異なるキーワード同士は、マップ１５０上で比較的近い位置に配置されると考えられるためである。

分析装置１００は、基準キーワードの座標と対応キーワード候補の座標を比較し（Ｓ１８Ａ）、座標の近い対応キーワード候補を選択して、キーワード対応関係テーブル１２Ａを生成する（Ｓ１９Ａ）。分析装置１００は、キーワード対応関係の分析結果を、マップ１５０上に表示させる。そして、分析装置１００は、ユーザが対応キーワード候補を選択しなかった場合（S21:NO）、基準キーワードの座標に最も近い座標を有するキーワードを、基準キーワードに対応付ける（Ｓ２３Ａ）。

本実施例によれば、上述した第１実施例と同様の作用効果を奏する。そして、本実施例では、図１３に示すように、マップ１５０上に、複数のキーワード１５２が表示されると共に、基準キーワード１５２Ａと対応キーワード１５２Ｂとが接続線１５３で接続されて表示される。従って、ユーザは、マップ１５０を構成する文献情報群の全部または一部において、一部の用語が不統一であることと、その用語の標準的な表現とをマップ１５０上で容易に把握することができる。

図１４に基づいて第３実施例を説明する。本実施例では、ユーザが、対応キーワード候補の中から基準キーワードに対応するキーワードを選択しない場合に、特徴情報としての出現頻度順位（座標でもよい）を算出し、キーワード間の順位を比較する。

まず、分析装置１００は、ユーザにより指定された分析条件１Ａを取得し（Ｓ５１）、マップ１５０を構成する文献情報群のうち、分析条件１Ａに合致する文献情報群を抽出する（Ｓ１２）。そして、分析装置１００は、抽出された文献情報群に基づいて、キーワードランキングテーブル５を生成し（Ｓ５３）、キーワードランキングテーブル５に基づいて、基準キーワードテーブル６Ａ及び対応キーワード候補テーブル７Ａをそれぞれ生成する（Ｓ５４，Ｓ５５）。

そして、分析装置１００は、キーワード対応関係テーブル１２Ａを生成して出力し（Ｓ５６，Ｓ５７）、ユーザからの選択を待つ（Ｓ５８）。ユーザが、対応キーワード候補の中からいずれか一つのキーワードを手動操作で選択すると（S58:YES）、その選択されたキーワードが基準キーワードに対応付けられる（Ｓ６２）。

これに対し、ユーザが、対応キーワード候補の中からいずれか一つのキーワードを選択しない場合（S58:NO）、分析装置１００は、基準キーワードの平均順位を算出し（Ｓ５９）、対応キーワード候補の順位を取得する（Ｓ６０）。そして、分析装置１００は、基準キーワードの平均順位と最も近い順位を有する対応キーワード候補を選択し、この選択された対応キーワードを基準キーワードに対応付ける（Ｓ６１）。

以下、図３で述べたと同様に、ユーザがシソーラスの登録を希望する場合（S63:YES）、分析装置１００は、対応キーワードを基準キーワードのシソーラスとして登録し（Ｓ６４）、ユーザが対応キーワードの置換を希望する場合（S65:YES）、対応キーワードを基準キーワードに変換する（Ｓ６６）。

次に、図１５，図１６に基づいて、第４実施例を説明する。本実施例では、基準キーワードと係り受けをなす単語群と、各対応キーワード候補とそれぞれ係り受けをなす単語群とをそれぞれ求め、これら各係り受け単語群の最も一致する対応キーワード候補を対応キーワードとして検出する。

図１５は、本実施例によるキーワード対応関係分析装置によるデータの流れを模式的に示す説明図である。紙面の都合上、図１５では、図２中に示す分析条件１Ａ及び情報蓄積部３の図示を省略している。

本実施例では、基準キーワード特徴情報検出部８は、基準キーワードと係り受けをなす単語のランキングテーブル８Ａを生成する。例えば、形態素解析や係り受け解析を行うことにより、基準キーワードと係り受けをなす単語を抽出し、この抽出された単語を出現頻度順に並べ替えることにより、係り受け単語ランキングテーブル８Ａを生成することができる。例えば、基準キーワードが「パソコン」の場合、係り受けをなす単語としては、「インストールする」、「フリーズする」、「購入する」等が挙げられる。

上記同様に、対応キーワード候補特徴情報検出部９は、各対応キーワード候補毎に、それぞれの対応キーワード候補と係り受けをなす単語のランキングテーブル９Ａをそれぞれ生成する。例えば、対応キーワード候補が「情報処理装置」の場合、係り受けをなす単語としては、「フリーズする」、「インストールする」、「制御する」等が挙げられる。対応キーワード候補が「マウス」の場合、係り受けをなす単語としては、「ドラッグする」、「クリックする」、「購入する」等が挙げられる。

そして、対応キーワード検出部１１は、基準キーワードの係り受け単語ランキングテーブル８Ａと、各対応キーワード候補の係り受け単語ランキングテーブル９Ａとをそれぞれ比較する。これにより、対応キーワード検出部１１は、所定順位内の係り受け単語の一致する数が所定値以上である対応キーワード候補を複数検出する。あるいは、対応キーワード検出部１１は、所定順位内の係り受け単語が最も一致する対応キーワード候補を１つだけ検出することもできる。

図１６は、キーワード対応関係分析処理を示すフローチャートである。このフローチャートは、図１２と同様に、図３に示すフローチャートと共通するステップを含む。そこで、重複した説明を割愛し、本実施例に特徴的なステップを中心に説明する。

本実施例では、上述のように、基準キーワード及び対応キーワード候補の属性を直接的に比較するのではなく、これら各キーワードと係り受けをなす単語のランキングに基づいて、基準キーワードと対応キーワード候補との関係を推測する。

そこで、Ｓ１５Ｂでは、基準キーワードと係り受けをなす単語のランキングテーブル８Ａを生成し、Ｓ１７Ｂでは、対応キーワード候補毎に、各対応キーワード候補と係り受けをなす単語のランキングテーブル９Ａを生成する。そして、Ｓ１８Ｂでは、各係り受け単語ランキングテーブル８Ａ，９Ａを比較し、続くＳ１９Ｂでは、係り受け単語が所定値以上一致する対応キーワード候補を抽出する。ユーザによる手動操作の選択が行われない場合（S21:NO）、係り受け単語の一致する数（即ち、一致率）の最も大きい対応キーワード候補が一つ選択される（Ｓ２３Ｂ）。

なお、本発明は、上述した実施の形態に限定されない。当業者であれば、本発明の範囲内で、種々の追加や変更等を行うことができる。例えば、当業者であれば、前記各実施例を適宜組み合わせることができる。

例えば、上記実施例では、出願人単位で基準キーワードと対応キーワードとの関係を解析したが、これに限らず、文献単位でキーワード間の関係を分析することもできる。また、期間単位で、キーワード間の分析を行うこともできる。例えば、PHS（Personal Handyphone System）は、以前PHP（Personal Handy Phone）と呼ばれていたが、このように時代によって用語が変化した場合にも、本発明によって検出できる。さらに、発明者の氏名や出願人の名称に基づいてキーワードランキングを算出することにより、結婚等で発明者の氏名が変化した場合でも、旧姓との関係を把握し、現在の氏名に統合して管理することができる。同様に、企業の合併や分割等により、出願人の名称が変化した場合でも、旧名称と最新の名称との対応関係を容易に把握することができる。

また、キーワード間の対応関係を検出するためのアルゴリズムを複数種類組合せて用いることもできる。例えば、キーワード出現順位に基づく方法と、キーワード座標に基づく方法と、キーワードと係り受けをなす単語の一致率に基づく方法の中から、いずれか複数の方法を組み合わせることにより、対応関係の検出精度を高めることもできる。

本発明の実施形態に係るキーワード対応関係分析装置の全体を示す説明図である。キーワード対応関係分析処理におけるデータの流れを模式的に示す説明図である。キーワード対応関係分析処理を示すフローチャートである。図３中のキーワードランキングテーブル生成処理を示すフローチャートである。図３中の基準キーワードテーブル生成処理を示すフローチャートである。図３中の対応キーワード候補テーブル生成処理を示すフローチャートである。本発明の第２実施例に係り、キーワード対応関係分析機能を備えた文献情報分析装置の全体を示す説明図である。文献情報分析装置の機能ブロック図である。文献情報分析装置のハードウェア及びソフトウェアの構成概要を示す説明図である。マップを生成し表示させる処理を示すフローチャートである。文献座標管理テーブル及びキーワード座標管理テーブルとマップとの関係を示す説明図である。キーワード対応関係分析処理を示すフローチャートである。キーワードの対応関係がマップ上に表示されている様子を示す説明図である。本発明の第３実施例に係るキーワード対応関係分析処理のフローチャートである。本発明の第４実施例に係るキーワード対応関係分析処理におけるデータの流れを模式的に示す説明図である。キーワード対応関係分析処理を示すフローチャートである。

符号の説明

１…分析条件設定部、１Ａ…分析条件、２…対象文献抽出部、３…情報蓄積部、３Ａ…文献情報記憶部、３Ｂ…キーワード等記憶部、４…キーワードランキング生成部、５…キーワードランキングテーブル、６…基準キーワード検出部、６Ａ…基準キーワードテーブル、７…対応キーワード候補検出部、７Ａ…対応キーワード候補テーブル、８…基準キーワード特徴情報検出部、８Ａ…基準キーワードと係り受けをなす単語のランキングテーブル、９…対応キーワード候補特徴情報検出部、９Ａ…対応キーワード候補と係り受けをなす単語のランキングテーブル、１０…特徴情報比較部、１１…対応キーワード検出部、１２…キーワード対応関係出力部、１２Ａ…キーワード対応関係テーブル、１３…表示部、１４…シソーラス登録部、１５…キーワード置換部、３１…文献データベース、３２…単語データベース、３３…インデックスデータベース、１００…文献情報分析装置、１１０…マップ制御部、１１１…マップ生成条件入力受付部、１１２…文献抽出部、１１３…文献座標算出部、１１４…キーワード抽出部、１１５…キーワード座標算出部、１１６…マップ生成部、１１７…マップ表示部、１２０…キーワード対応関係分析部、１２１…対象文献抽出部、１２２…キーワードランキング生成部、１２３…基準キーワード検出部、１２４…対応キーワード候補検出部、１２５…キーワード座標比較部、１２６…対応キーワード検出部、１２７…キーワード対応結果出力部、１２７…キーワード対応関係出力部、１５０…マップ、１５１Ａ，１５１Ｂ，１５１Ｃ…等高線、１５２…キーワード、１５２Ａ…基準キーワード、１５２Ｂ…対応キーワード、１５３…接続線、２００…クライアント端末

Claims

電子化された複数の文献情報を記憶する文献情報記憶部と、
与えられた分析条件に基づいて文献情報記憶部を検索することにより、分析対象の文献情報を抽出する対象文献抽出部と、
前記抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成する出現頻度解析部と、
前記キーワード出現頻度解析情報に基づいて、前記抽出された文献情報に含まれるキーワードのうち、所定の文献情報で使用されている第１キーワードを検出する第１キーワード検出部と、
前記キーワード出現頻度解析情報に基づいて、前記第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、前記抽出された文献情報のうち前記所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出する第２キーワード候補検出部と、
前記検出された第２キーワード候補の中から前記第１キーワードに対応する前記第２キーワードを検出する第２キーワード検出部と、
を備えたキーワード対応関係分析装置。
前記第２キーワード検出部は、前記第２キーワード候補のうちユーザにより選択された第２キーワード候補を前記第２キーワードとして検出する請求項１に記載のキーワード対応関係分析装置。
前記検出された第１キーワードの特徴情報を検出する第１特徴情報検出部と、
前記検出された第２キーワード候補の特徴情報を検出する第２特徴情報検出部と、をさらに備え、
前記第２キーワード検出部は、前記検出された第１キーワードの特徴情報と前記検出された第２キーワード候補の特徴情報とを比較することにより、前記第２キーワード候補の中から前記第２キーワードを検出する請求項１に記載のキーワード対応関係分析装置。
前記検出された第１キーワードの特徴情報を検出する第１特徴情報検出部と、
前記検出された第２キーワード候補の特徴情報を検出する第２特徴情報検出部と、
前記第１キーワードの特徴情報と前記第２キーワードの特徴情報とを比較する特徴情報比較部と、
前記特徴情報比較部による比較結果を出力する比較結果出力部と、をさらに備え、
前記第２キーワード検出部は、
前記比較結果に基づいて、前記第２キーワード候補のうちユーザにより選択された第２キーワード候補を前記第２キーワードとして検出するユーザ指定モードと、
前記比較結果に基づいて、前記第１キーワードの特徴情報との差異が最も少ない特徴情報を有する第２キーワード候補を前記第２キーワードとして検出する自動検出モードと、を備えている請求項１に記載のキーワード対応関係分析装置。
前記第１キーワード検出部は、前記キーワード出現頻度解析情報に基づいて、第１の所定値までの出現頻度順位を有するキーワードのうち、第２の所定値以上かつ前記抽出された文献情報の総数未満の前記所定の文献情報で使用されているキーワードを、前記第１キーワードとして検出する請求項１に記載のキーワード対応関係分析装置。
前記第２キーワード候補検出部は、前記キーワード出現頻度解析情報に基づいて、前記所定の文献情報以外の前記他の文献情報に含まれるキーワードのうち、前記所定の文献情報で第３の所定値以上使用されているキーワードを除去して残ったキーワードを、前記第２キーワード候補として検出する請求項１に記載のキーワード対応関係分析装置。
前記第１特徴情報検出部は、前記第１キーワードの前記所定の文献情報における平均出現頻度順位を前記第１キーワードの特徴情報として検出し、
前記第２特徴情報検出部は、前記所定の文献情報以外の前記他の文献情報における前記第２キーワード候補の出現頻度順位を前記第２キーワードの特徴情報として検出する請求項３または請求項４のいずれかに記載のキーワード対応関係分析装置。
前記抽出された文献情報の総数及び前記抽出された文献情報から抽出される所定の複数のキーワードの出現数に基づいて主成分分析を行うことにより、前記抽出された文献情報に含まれるキーワードの座標を算出するキーワード座標算出部をさらに備え、
前記第１特徴情報検出部は、前記キーワード座標算出部により算出される前記第１キーワードの座標を前記第１キーワードの特徴情報として検出し、
前記第２特徴情報検出部は、前記キーワード座標算出部により算出される前記第２キーワード候補の座標を前記第２キーワード候補の特徴情報として検出する請求項３または請求項４のいずれかに記載のキーワード対応関係分析装置。
前記第１特徴情報検出部は、前記所定の文献情報において前記第１キーワードと係り受けをなす単語のランキングを前記第１特徴情報として検出し、
前記第２特徴情報検出部は、前記所定の文献情報以外の他の文献情報において前記第２キーワード候補と係り受けをなす単語のランキングを前記第２特徴情報として検出する請求項３または請求項４のいずれかに記載のキーワード対応関係分析装置。
前記抽出された文献情報から抽出される所定の複数のキーワードの組合せ及び出現数に基づいて主成分分析を行うことにより、前記抽出された文献情報群の各文献情報の座標をそれぞれ算出する文献座標算出部と、
前記所定の各キーワードを含む文献情報の総数及び前記所定の各キーワードの出現数に基づいて主成分分析を行うことにより、前記所定の各キーワードの座標をそれぞれ算出するキーワード座標算出部と、
前記文献座標算出部により算出された前記各文献情報の座標に基づいて前記各文献情報の分布密度を算出し、この算出された分布密度に基づく輪郭を有するマップ図形及び前記所定のキーワードをそれぞれ可視化してマップ情報を生成するマップ生成部をさらに備えており、
前記第１キーワード及び前記第２キーワードは、前記マップ情報に可視化されている請求項１に記載のキーワード対応関係分析装置。
前記第２キーワード検出部は、前記キーワード座標算出部によりそれぞれ算出される前記第１キーワードの座標及び前記第２キーワード候補の座標を比較することにより、前記第２キーワード候補の中から前記第２キーワードを検出する請求項１０に記載のキーワード対応関係分析装置。
前記第１キーワードと前記第２キーワードとは、それぞれ異なる表示形態で前記マップ情報に可視化されており、前記マップ情報には、前記第１キーワードと前記第２キーワードとの対応関係を示す表示要素が含まれている請求項１０に記載のキーワード対応関係分析装置。
前記第２キーワードを前記第１キーワードに置換するキーワード置換部を備えた請求項１または請求項１０のいずれかに記載のキーワード対応関係分析装置。
前記第２キーワードを前記第１キーワードに関連づけて記憶させる関連性登録部を備えた請求項１または請求項１０のいずれかに記載のキーワード対応関係分析装置。
コンピュータを、
電子化された複数の文献情報を記憶する文献情報記憶手段と、
与えられた分析条件に基づいて分析対象の文献情報を抽出する対象文献抽出手段と、
前記抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成する出現頻度解析手段と、
前記キーワード出現頻度解析情報に基づいて、前記抽出された文献情報に含まれるキーワードのうち、所定の文献情報で使用されている第１キーワードを検出する第１キーワード検出手段と、
前記キーワード出現頻度解析情報に基づいて、前記第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、前記抽出された文献情報のうち前記所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出する第２キーワード候補検出手段と、
前記検出された第２キーワード候補の中から前記第１キーワードに対応する前記第２キーワードを検出する第２キーワード検出手段と、して機能させるプログラム。
分析条件を取得するステップと、
取得された前記分析条件に基づいて文献情報記憶部を検索することにより、分析対象の文献情報を抽出するステップと、
前記抽出された文献情報に基づいて、当該文献情報に出現するキーワード毎に、その出願頻度を解析してなるキーワード出現頻度解析情報を生成するステップと、
前記キーワード出現頻度解析情報に基づいて、前記抽出された文献情報に含まれるキーワードのうち所定の文献情報で使用されている第１キーワードを検出するステップと、
前記キーワード出現頻度解析情報に基づいて、前記第１キーワードに対応する第２キーワードの候補となる第２キーワード候補を、前記抽出された文献情報のうち前記所定の文献情報以外の他の文献情報に含まれるキーワードの中から検出するステップと、
前記検出された第２キーワード候補の中から前記第１キーワードに対応する前記第２キーワードを検出するステップと、
を含むキーワード対応関係分析方法。