JP5292427B2

JP5292427B2 - 特徴量算出装置、特徴量算出方法およびプログラム

Info

Publication number: JP5292427B2
Application number: JP2011057025A
Authority: JP
Inventors: 誠角田; 修平渡部
Original assignee: エヌ・ティ・ティ・コムウェア株式会社
Priority date: 2011-03-15
Filing date: 2011-03-15
Publication date: 2013-09-18
Anticipated expiration: 2031-03-15
Also published as: JP2012194690A

Description

本発明は、特徴量算出装置、特徴量算出方法およびプログラムに関する。

従来、文書の類似度を算出する方法として、ｔｆ−ｉｄｆを要素に持つベクトル（ｔｆ−ｉｄｆベクトル）がなす角若しくは内積を計算する方法が知られている。即ち、ｔｆ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ：単語の出現頻度）と、ｉｄｆ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ：逆出現頻度）の２つの指標を用いて文書の類似度を算出する方法である。

文書ｄ_ｘに含まれる単語ｉのｔｆ−ｉｄｆ（ｔ_ｘｉ）は下記式（１）により求める。

また、文書ｄ_ｘの特徴量Ｔ_ｘは、上記ｔ_ｘｉを用いて、下記式（２）により表される。

Ｔ_ｘ＝［ｔ_ｘ０，ｔ_ｘ１，…，ｔ_ｘｎ］…（２）

従って、文書ｄ_ｘと文書ｄ_ｙの類似度ｓ（ｘ，ｙ）は、
文書ｄ_ｘのＴ_ｘ、文書ｄ_ｙのＴ_ｙを用いて、下記式（３）により求めることができる。

上記式（３）において、│Ｔ│はベクトルＴのノルムである。つまり、文書ｄ_ｘと文書ｄ_ｙの類似度ｓ（ｘ，ｙ）は、文書ｄ_ｘ、文書ｄ_ｙの特徴量ベクトルＴ_ｘ、Ｔ_ｙを正規化したものの内積であり、両ベクトルのなす角をθとしたときのｃｏｓθである。即ち、０≦ｓ（ｘ，ｙ）≦１であって、１に近い程、文書ｄ_ｘと文書ｄ_ｙとが類似していると判断できる。なお、ｓ（ｘ，ｘ）＝１であり、ｓ（ｘ，ｙ）＝ｓ（ｙ，ｘ）である。

上述の方法では、表記が同じ単語が含まれない文書同士は、いくら似た意味の単語が含まれていたとしても、類似性無と計算される。そこで、類義語を一単語と見做す方法（特許文献１参照）が考案されている（特許文献１参照）。また、類義語を認識する方法として、国語辞典から類義語辞書を生成する方法も考案されている（特許文献２参照）。また、単語の共起をもとにベクトルを作ることにより単語の類似性を反映させて文書間の類似度の算出する方法も考案されている（非特許文献１参照）。

特開平１１−１１０３９５号公報特開平７−３０２２６５号公報

"Ｈ．Ｓｃｈｕｔｚｅ"ｄｉｍｅｎｓｉｏｎｓｏｆｍｅａｎｉｎｇ"，Ｐｒｏｃｅｅｄｉｎｇｓｏｆｓｕｐｅｒｃｏｍｐｕｔｉｎｇ’９２，ｐｐ．７８７−７９６，１９９２"

しかしながら、上述の各方法では、文書間の類似度を適切に算出することができないという問題がある。例えば、類義語を一単語と見做す方法では、文書間の類似度に、単語間の類似度が反映されないという問題がある。また、国語辞典から類義語を生成する方法では、新しい単語に対応できないという問題がある。また、単語の共起をもとにベクトルを作ることにより単語の類似性を反映させて文書間の類似度の算出する方法では、文書間の類似度が、種々の観点から算出されないため、観点に応じた適切な文書間の類似度が算出されないという問題がある。なお、上述の観点は、例えば、ビジネス的な観点、技術的な観点などという場合の観点に相当し、観点の他の表現は、例えば、領域（ドメイン）、分野である。

本発明は、上述した課題に鑑みてなされたものであって、文書間の類似度を適切に算出するための技術を提供することを目的とする。具体的には、文書間の類似度を算出するために用いられる文書の特徴量を適切に算出する技術を提供することを目的とする。

上記問題を解決するために、本発明の一態様である特徴量算出装置は、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置であって、外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と、文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出部と、前記ｔｆ−ｉｄｆ算出部によって算出された前記文書を構成する各単語のｔｆ−ｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出部と、所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスと、前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出部とを備え、前記単語間類似度算出部は、単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とする。

前記単語間類似度算出部は、見出語とカテゴリの関係を上位と下位の関係で表し、上位と下位の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の見出語の上位のカテゴリのカテゴリ数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃをカテゴリ数Ｎで除した除算値を前記一の下位の見出語と前記Ｎ個の中の一の上位のカテゴリの類似度として算出するようにしてもよい。

前記単語間類似度算出部は、上位の単語と下位の単語とが複数のルートによって接続されている関係である場合には、夫々のルートによる類似度を算出し、夫々のルートによる類似度を合計した合計値を、当該上位の単語と下位の単語の類似度として算出するようにしてもよい。

前記単語間類似度算出部は、一の下位の単語と前記一の下位の単語に直接接続する上位の単語との類似度を用いて、前記一の下位の単語と前記一の上位の単語の更に上位の単語との類似度を繰り返し算出する算出処理を実行し、かつ、前記算出処理の繰り返し可能回数を制限するようにしてもよい。

上記問題を解決するために、本発明の他の態様である特徴量算出方法は、外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置における、特徴量算出方法であって、文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出手段と、前記ｔｆ−ｉｄｆ算出手段によって算出された前記文書を構成する各単語のｔｆ−ｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出手段と、前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出手段とを有し、前記単語間類似度算出手段は、単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とする。

上記問題を解決するために、本発明の他の態様であるプログラムは、外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置のコンピュータに、文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出ステップと、前記ｔｆ−ｉｄｆ算出ステップによって算出された前記文書を構成する各単語のｔｆｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出ステップと、前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出ステップとを実行させるプログラムにおいて、前記単語間類似度算出ステップは、単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とするプログラム。

本発明によれば、特徴量ベクトル算出部は、外部の文書の単語又はユーザによって設定された単語が反映された単語間類似度情報を参照して、文書の特徴量ベクトルを算出する。従って、文書間の類似度を算出するために用いられる文書の特徴量を適切に算出することができる。
即ち、外部の文書に基づいて単語間の類似度を観点に応じて設定したものや、外部の文書において新たに出現した単語を含めた単語間の類似度を計算し直したものを、外部の文書の単語が反映された単語間類似度情報とすることができるため、特徴量ベクトル算出部が、外部の文書の単語が反映された単語間類似度情報を参照して文書の特徴量ベクトルを算出した場合には、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映され、適切な文書の特徴量を算出することができる。
また、ユーザが恣意的に単語間の類似度を観点に応じて設定したものや、ユーザが恣意的に新たな単語とした単語を含めた単語間の類似度を計算し直したものを、ユーザによって設定された単語が反映された単語間類似度情報とすることができるため、特徴量ベクトル算出部が、ユーザによって設定された単語が反映された単語間類似度情報を参照して文書の特徴量ベクトルを算出した場合には、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映され、適切な文書の特徴量を算出することができる。
そして、上述の如く、文書の特徴量を適切に算出することができるため、当該文書の特徴量を用いて、文書間の類似度を適切に算出することができるようになる。

本発明の一の実施形態による文書類似度算出装置１０の機能ブロック図である。文書類似度算出装置１０の処理フロー図である。単語間類似度算出部１２０の処理の一例を説明するための説明図である。単語間類似度算出部１２０の処理の他の例を説明するための説明図である。文書類似度算出装置１０を適用した類似文書検索システム１の構成図である。

以下、本発明の一実施形態について図面を参照して説明する。図１は、本発明の一の実施形態による文書類似度算出装置１０の機能ブロック図である。文書類似度算出装置１０は、図１に示すように、特徴量算出部（装置）１００、文書間類似度算出部（装置）２００及び制御部（非図示）を備える。特徴量算出部１００は、ｔｆ−ｉｄｆ算出部１１０、単語間類似度算出部１２０、特徴量ベクトル算出部１３０、単語頻度情報記憶部１９０、シソーラス１９２及び単語間類似度情報記憶部１９４を備える。

制御部は、特徴量算出部１００及び文書間類似度算出部２００の動作を制御する。

単語頻度情報記憶部１９０は、単語、及び、各単語が含まれる文書の数を集めたデータベースである。つまり、単語頻度情報記憶部１９０は、ｔｆ−ｉｄｆの算出に利用する単語頻度情報（各単語が、予め用意した文書群のうち幾つに含まれているかを示す情報）を記録する。

ｔｆ−ｉｄｆ算出部１１０は、制御部の制御に従って、単語頻度情報記憶部１９０に記憶されている単語頻度情報を用いて、上記式（１）の如く、文書を構成する各単語のｔｆ−ｉｄｆ（文書のｔｆ−ｉｄｆベクトル）を算出する。

シソーラス１９２は、所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶する。

単語間類似度算出部１２０は、制御部の制御に従って、シソーラス１９２の情報に基づいて単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を単語間類似度情報記憶部１９４に記憶する。具体的には、単語間類似度算出部１２０は、シソーラス１９２に記憶されている単語間類似度情報に基づいて、上述の所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報をシソーラス１９２に記憶されている単語間類似度情報とともに単語間類似度情報記憶部１９４に記憶する。なお、単語間類似度算出部１２０の処理の詳細は後述する。

単語間類似度情報記憶部１９４は、単語間類似度情報を記憶する。本実施形態においては、単語間類似度情報記憶部１９４は、上述の如く、シソーラス１９２が記憶していた単語間類似度情報、及び、単語間類似度算出部１２０が算出した類似度を示す単語間類似度情報を記憶する。なお、単語間類似度情報記憶部１９４に記憶される単語間類似度情報は、外部の文書の単語又はユーザによって設定された単語が反映されたものである。換言すれば、単語間類似度情報記憶部１９４に記憶される単語間類似度情報は、新たな単語を含めた単語間の類似度、及び、観点（例えば、ビジネス的な観点、技術的な観点）に応じて単語間の類似度が反映されている（詳細は後述）。

特徴量ベクトル算出部１３０は、制御部の制御に従って、文書のｔｆ−ｉｄｆベクトルと単語間類似度情報とから、文書の特徴量ベクトルを算出する。即ち、特徴量ベクトル算出部１３０は、ｔｆ−ｉｄｆ算出部１１０によって算出された文書を構成する各単語のｔｆ−ｉｄｆと、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報とに基づいて（参照して）、当該文書の特徴量ベクトルを算出する。なお、特徴量ベクトル算出部１３０が参照する上述の単語間類似度情報は、少なくとも一方の単語が当該文書内に存在している単語間の類似度を示す単語間類似度情報（即ち、当該文書を構成する一の単語と当該文書を構成する他の単語における単語間の類似度を単語間類似度情報、及び、当該文書を構成する一の単語と当該文書を構成しない他の単語における単語間の類似度を単語間類似度情報）である。
なお、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報は、上述の如く、観点に応じて単語間の類似度、及び、新たな単語を含めた単語間の類似度が反映されているため、特徴量ベクトル算出部１３０が算出する特徴量ベクトルには、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が勘案されている。

文書間類似度算出部２００は、制御部の制御に従って、特徴量ベクトル算出部１３０によって算出された特徴量ベクトルを用いて文書間の類似度を算出する。具体的には、文書間類似度算出部２００は、文書の特徴量ベクトル同士の内積をとることにより、文書間の類似度を算出する。

続いて、文書類似度算出装置１０の処理フローについて説明する。図２は、文書類似度算出装置１０の処理フロー図である。

予め、若しくは、適宜、単語間類似度算出部１２０は、制御部の制御に従って、シソーラス１９２に記憶されている所定の単語の組に係る単語間類似度情報に基づいて、上述の所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報をシソーラス１９２に記憶されている単語間類似度情報とともに単語間類似度情報記憶部１９４に記憶する。なお、当該処理は、後述の処理と非同期に行われてもよい。例えば、シソーラス１９２を更新したユーザが単語間類似度情報記憶部１９４に記憶している単語間類似度情報の更新を指示した場合（即ち、文書類似度算出装置１０の操作受付部（非図示）が更新指示に係る操作を受け付けた場合）、制御部が単語間類似度算出部１２０を制御して単語間類似度情報を更新する。

ここで、シソーラス１９２について説明する。シソーラス１９２は、単語ｗ_ｉ、単語ｗ_ｊの２個の単語間の類似度（ユーザが定義）を２次元配列によりｗ（ｉ，ｊ）と表現する。即ち、ｗ（ｉ，ｊ）は、上述した、所定の単語の組（単語ｗ_ｉ、単語ｗ_ｊ）における予め定められた単語間の類似度を示す単語間類似度情報であって、以下の性質（ア）（イ）がある。
（ア）０≦ｗ（ｉ，ｊ）≦１
（イ）ｗ（ｉ，ｉ）＝１
なお、ｗ（ｉ，ｊ）＝０のときは、単語ｗ_ｉと単語ｗ_ｊとが全く異なることを意味し、ｗ（ｉ，ｊ）＝１のときは、単語ｗ_ｉと単語ｗ_ｊが同義であることを意味する。また、ｗ（ｉ，ｊ）＝ｗ（ｊ，ｉ）である必要はない。

ｔｆ−ｉｄｆ算出部１１０は、文書が与えられた場合、制御部の制御に従って、単語頻度情報記憶部１９０に記憶されている単語頻度情報、具体的には、与えられた文書に含まれる単語に係る単語頻度情報を用いて、上記式（１）により、当該文書のｔｆ−ｉｄｆベクトルを算出する。

次いで、特徴量ベクトル算出部１３０は、制御部の制御に従って、ｔｆ−ｉｄｆ算出部１１０によって算出された上記文書のｔｆ−ｉｄｆベクトルと、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報とから、文書の特徴量ベクトルを算出する。即ち、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報を参照しない場合の文書の特徴量ベクトルＴが、上記式（２）に示すように、Ｔ＝［ｔ_０，ｔ_１，…，ｔ_ｎ］であるとき、特徴量ベクトル算出部１３０が算出する、単語間類似度情報を参照した場合の文書の特徴量ベクトルＴ’は、下記式（４）により表される。

Ｔ’＝［ｔ’_０，ｔ’_１，…，ｔ’_ｎ］…（４）

上記式（４）において、ｔ’_ｉは、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報ｗを用いて、下記式（５）により表される。

次いで、文書間類似度算出部２００は、制御部の制御に従って、特徴量ベクトル算出部１３０によって算出された特徴量ベクトルＴ’を用いて文書間の類似度を算出する。即ち、文書間類似度算出部２００は、上記式（３）のＴの代わりにＴ’を使って類似度を計算する。但し、｜Ｔ｜＝｜Ｔ’｜である。

以下、単語間類似度算出部１２０の処理の詳細を説明する。具体的には、第１の手法と第２の手法の夫々異なる２種類の手法を説明する。図３は、単語間類似度算出部１２０の処理の一例（第１の手法による例）を説明するための説明図である。図４は、単語間類似度算出部１２０の処理の他の例（第２の手法による例）を説明するための説明図である。

（第１の手法）
第１の手法として、第１の単語と第２の単語の組（即ち、所定の単語の組）における予め定められた単語間の類似度が類似度ａ、第２の単語と第３の単語の組（即ち、所定の単語の組）における予め定められた単語間の類似度が類似度ｂであるときに、単語間類似度算出部１２０は、類似度ａと類似度ｂとを乗算した乗算値を第１の単語と第３の単語の組（即ち、所定の単語の組以外の組）における単語間の類似度として算出する。第１の手法は、開発ドキュメントなど特定のドメインの類似度を算出したいときに有用である。

第１の手法においては、準備段階として、下記（ａ）（ｂ）のように、ユーザによって設定された単語間の類似度を反映させたシソーラス１９２を生成する。
（ａ）単語をノードとし、類義語を選択し、類似語間をエッジで結んだグラフを作成する。
（ｂ）エッジに重み（即ち、単語間の類似度）を定義（設定）する。

なお、上記（ａ）では、外部（例えば、ネットワーク上）の集合知などを参考にして、適宜、新しい単語をノードとして設定してもよい。また、上記（ａ）（ｂ）では、観点（例えば、ビジネス的な観点、技術的な観点）に応じた単語間の類似度も反映させるため、観点に応じて、類義語を選択し、重みを選択する。なお、上述のシソーラス１９２を自動的に生成（非図示のシソーラス生成部によって生成）する場合には、ユーザからの指定に応じて、類義語を選択し、エッジに重みを設定する。なお、ユーザは、例えば、技術的な観点で類似度を算出したいときは、技術的な観点で類義を指定し、エッジの重みを指定する。
図３（ａ）は、上述のようにして生成されたシソーラス１９２の概念図である。

単語間類似度算出部１２０は、シソーラス１９２（所定の単語の組における予め定められた単語間の類似度）に基づいて、エッジが直接接続されていない単語間の類似度（即ち、所定の単語の組以外の単語の組における単語間の類似度）をＤｉｊｋｓｔｒａのアルゴリズムを応用して算出する。具体的には、上述の如く、単語間類似度算出部１２０は、第１の単語と第２の単語の組（即ち、所定の単語の組）の単語間の類似度が類似度ａ、第２の単語と第３の単語の組（即ち、所定の単語の組）の単語間の類似度が類似度ｂであるときに、類似度ａと類似度ｂとを乗算した乗算値を第１の単語と第３の単語の組（即ち、所定の単語の組以外の組）の単語間の類似度として算出する（図３（ｂ）参照）。例えば、図３（ａ）に示す例において、単語Ａと単語Ｂの類似語は０．８、単語Ｂと単語Ｃの類似語は０．８であるため、単語間類似度算出部１２０は、単語Ａと単語Ｃの類似度を０．８×０．８＝０．６４と算出する。

また、単語間類似度算出部１２０は、エッジが直接接続されていない単語同士が、複数のルートによって接続されている場合には、夫々のルートによる類似度を算出し、その最大値を採用する（図３（ｂ）参照）。例えば、図３（ａ）に示す例において、エッジが直接接続されていない単語Ａから単語Ｍに至るルートは、単語Ａ−単語Ｂ−単語Ｆ−単語Ｊ−単語Ｍという第１のルートと、単語Ａ−単語Ｂ−単語Ｃ−単語Ｇ−単語Ｋ−単語Ｊ−単語Ｍという第２のルートとが存在しているため、単語間類似度算出部１２０は、第１のルートによる類似度（０．８×０．８×０．８×０．８≒０．４１）と、第２のルートによる類似度（０．８×０．８×０．８×０．８×０．８×０．８≒０．２６）とを算出し、最大値である第１のルートによる類似度（≒０．４１）を単語Ａと単語Ｍの類似度として採用する。

なお、図３（ｂ）に示す各単語間の類似度は、単語間類似度情報記憶部１９４に記憶される単語間類似度情報に相当し、シソーラス１９２に記憶されている単語間類似度情報による類似度（図３（ａ））と、単語間類似度算出部１２０によって上述の如く算出された類似度とを含むものである。例えば、単語Ａと単語Ｂの類似度はシソーラス１９２に記憶されている単語間類似度情報による類似度であり、単語Ａと単語Ｃの類似度は単語間類似度算出部１２０によって算出された類似度である。換言すれば、単語間類似度算出部１２０は、シソーラス１９２に記憶されている単語間類似度情報（所定の単語の組における単語間の類似度）に基づいて、所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報をシソーラス１９２に記憶されている単語間類似度情報とともに単語間類似度情報記憶部１９４に記憶する。

なお、図３（ｂ）に示す各単語間の類似度（即ち、単語間類似度情報記憶部１９４に記憶される単語間類似度情報）は、ユーザによって設定された単語から作成されたシソーラス１９２に基づいて生成されたものであるため、当然に、ユーザによって設定された単語を含む単語間の類似度を示している。
また、図３（ｂ）に示す各単語間の類似度（即ち、単語間類似度情報記憶部１９４に記憶される単語間類似度情報）は、単語間の類似度を利用者が恣意的に設定できるシソーラス１９２（図３（ａ））に基づいて、単語間類似度算出部１２０が算出するものであるため、シソーラス１９２（図３（ａ））に新たな単語を反映さるとともに、観点（例えば、ビジネス的な観点、技術的な観点）を反映させれば、当然に、図３（ｂ）に示す各単語間の類似度（即ち、単語間類似度情報記憶部１９４に記憶される単語間類似度情報）に、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が反映させることができる。

（第２の手法）
第２の手法として、単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、単語間類似度算出部１２０は、類似度係数ｃを単語数Ｎで除した除算値を上記一の下位の単語と、上記Ｎ個の中の一の上位の単語の類似度として算出する。

第２の手法においては、準備段階として、単語間の類似度に新たな単語、及び、観点（例えば、ビジネス的な観点、技術的な観点）を反映させるため、外部（例えば、ネットワーク上）の集合知などを活用にしてシソーラス１９２を生成（構築）する。具体的には、Ｗｉｋｉｐｅｄｉａ（登録商標。以下、同様）を利用して、下記（ａ）（ｂ）のように、シソーラス１９２を生成する。
（ａ）単語とその上位語の組を有向グラフとして作る。なお、１単語につき上位語は複数あってもよい。また、上位語は単語ではなく概念であってもよい。
（ｂ）上位語と下位語の間に重み（即ち、単語間の類似度）を定義（設定）する。

以下の（ア）〜（キ）は、Ｗｉｋｉｐｅｄｉａからシソーラス１９２を自動的に生成（非図示のシソーラス生成部によって生成）する方法の一例である。
（ア）最上位のカテゴリを幾つか選択し（例えば、科学、学問、技術、自然）、処理すべきカテゴリリストに追加する。当該カテゴリの選択は、ユーザからの指定に応じて、実行する。なお、ユーザは、例えば、技術的な観点で類似度を算出したいときは、カテゴリ「技術」を指定する。
（イ）処理すべきカテゴリリストから１つ取り出し上位カテゴリとする。上位カテゴリに含まれる見出語、及び、カテゴリ（下位カテゴリ）を上位カテゴリと結びつける。
（ウ）上位カテゴリを処理済みリストに入れる。
（エ）下位カテゴリのうち処理済みリストに入っていないものは処理すべきカテゴリリストに追加する。
（オ）処理すべきカテゴリリストがなくなるまで（イ）〜（エ）を繰り返す。
（カ）他の見出語にリダイレクトされる見出語は、リダイレクト先の見出語が属するカテゴリと結びつける。
（キ）ユーザからの指示に応じて、見出語とカテゴリの結びつき、又は、下位カテゴリと上位カテゴリの結びつきを追加又は削除してもよい。また、ユーザからの指示に応じて、Ｗｉｋｉｐｅｄｉａの見出語、カテゴリにない単語を追加し、また、不要な見出語、カテゴリを削除してもよい。
図４（ａ）は、上述のようにして自動的に生成されたシソーラス１９２の概念図である。

単語間類似度算出部１２０は、シソーラス１９２（単語同士の関係を上位と下位の関係）に基づいて、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を上記一の下位の単語と、上記Ｎ個の中の一の上位の単語の類似度として算出する。

例えば、図４（ａ）に示すように、類似度係数ｃ（０．８）と設定したときは、以下のように算出する。
（ア）一の見出語と、当該見出語に結び付けられたカテゴリとの類似度ｗは、上記設定した類似度係数ｃを、カテゴリ数Ｎで除した値とする。但し、（ア）におけるカテゴリ数Ｎは、当該見出語に結びついているカテゴリの数である。例えば、図４（ａ）に示す例において、見出語Ａと、見出語Ａに結びつけられたカテゴリＢとの類似度ｗ（即ち、見出語ＡとカテゴリＢとの類似度ｗ（Ａ，Ｂ））は、類似度係数ｃ（０．８）を、カテゴリ数１で除した除算値（０．８）とする。
（イ）一の見出語と、当該見出語に結びつけられたカテゴリに更に結びつけられた上位のカテゴリとの類似度ｗ’は、（ア）の如く算出した類似度ｗに類似度係数ｃを乗算し、カテゴリ数Ｎで除した値とする。但し、（イ）におけるカテゴリ数Ｎは、当該見出語に結びついているカテゴリに結びついている上位カテゴリの数である。例えば、図４（ａ）に示す例において、見出語Ａと、見出語Ａに結びつけられたカテゴリＢに更に結びつけられた上位のカテゴリＦとの類似度ｗ’（即ち、見出語ＡとカテゴリＦとの類似度ｗ（Ａ，Ｆ））は、類似度ｗ（０．８）と類似度係数ｃ（０．８）の乗算値（０．６４）を、カテゴリ数２で除した除算値（０．３２）とする。

（ウ）以下、類似度ｗ’を類似度ｗとし、上位カテゴリを下位カテゴリとして、（ア）（イ）を繰り返す。

なお、上記（イ）の処理は、一のカテゴリと当該カテゴリの上位カテゴリとの類似度を、当該一のカテゴリに結びついている上位カテゴリ数Ｎで除した除算値としていることに等しい。例えば、図４（ａ）に示す例において、カテゴリＢとカテゴリＦの類似度は、類似度係数ｃ（０．８）をカテゴリＢの上位カテゴリ数２で除した除算値０．４としていることに等しい。

また、ルートが複数ある場合には、夫々のルートによる類似度を算出し、合計値を採用する。例えば、図４（ａ）に示す例において、見出語ＡからカテゴリＫに至るルートは、見出語Ａ−カテゴリＢ−カテゴリＦ−カテゴリＪ−カテゴリＫという第１のルートと、見出語Ａ−カテゴリＢ−カテゴリＣ−カテゴリＧ−カテゴリＫという第２のルートとが存在しているため、単語間類似度算出部１２０は、第１のルートによる類似度（０．８×０．８÷２×０．８×０．８≒０．２０５）と、第２のルートによる類似度（０．８×０．８÷２×０．８×０．８≒０．２０５）とを算出し、合計値（≒０．４１）を単語ＡとカテゴリＫの類似度として採用する。

また、上記（ウ）の処理において、繰り返し処理は制限してもよい。例えば、繰り返し可能回数を制限してもよいし、類似度ｗが所定の閾値以下になった場合に繰り返しを止めてもよい。

なお、図４（ｂ）に示す各単語間（見出語とカテゴリの類似度）の類似度は、単語間類似度情報記憶部１９４に記憶される単語間類似度情報に相当し、シソーラス１９２に記憶されている単語間類似度情報による類似度（図４（ａ））と、単語間類似度算出部１２０によって上述の如く算出された類似度とを含むものである。例えば、見出語ＡとカテゴリＢの類似度はシソーラス１９２に記憶されている単語間類似度情報による類似度であり、見出語ＡとカテゴリＦの類似度は単語間類似度算出部１２０によって算出された類似度である。換言すれば、単語間類似度算出部１２０は、シソーラス１９２に記憶されている単語間類似度情報（所定の単語の組における単語間の類似度）に基づいて、所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報をシソーラス１９２に記憶されている単語間類似度情報とともに単語間類似度情報記憶部１９４に記憶する。

なお、図４（ｂ）に示す各単語間の類似度は、Ｗｉｋｉｐｅｄｉａからシソーラス１９２を生成する例であるため、Ｗｉｋｉｐｅｄｉａの階層の特性から、グラフにおける末節（見出語）と末節以外の節（カテゴリ）の類似度を算出し、末節以外の節同士の類似度（例えば、カテゴリＢとカテゴリＦの類似度）を算出していないが、単語間類似度算出部１２０は、シソーラス１９２に応じて、末節以外の節同士の類似度を算出してもよい。
なお、末節以外の節同士の類似度を算出する場合（例えばＡ〜Ｆが単に単語の場合）、単語間類似度算出部１２０は、例えば、図４（ａ）に示す例において、一の下位の単語Ｂの上位の単語の単語数が２個（単語Ｃ、単語Ｆ）であるため、単語間類似度算出部１２０は、類似度係数ｃ（０．８）を単語数２で除した除算値（０．４）を、単語Ｂと単語Ｃの類似度、及び、単語Ｂと単語Ｆの類似度とする。

なお、ｉ≠ｊで類似度ｗ（ｉ，ｊ）＞０のときは、ｗ（ｊ，ｉ）＝０である。また、単語の概念の関係を恣意的に操作する場合は、算出した類似度とともに、単語と単語の上下関係の組を編集してもよい。

上述の如く、図４（ｂ）に示す各単語間の類似度（即ち、単語間類似度情報記憶部１９４に記憶される単語間類似度情報）は、外部の文書（Ｗｉｋｉｐｅｄｉａなどのネットワーク上の集合知）から作成されたシソーラス１９２に基づいて生成されたものであるため、当然に、外部の文書の単語を含む単語間の類似度を示している。
また、図４（ｂ）に示す各単語間の類似度（即ち、単語間類似度情報記憶部１９４に記憶される単語間類似度情報）は、ネットワーク上の集合知（Ｗｉｋｉｐｅｄｉａ）から新しい単語語を迅速に取り込むことによって新たな単語を含めた単語間の類似度を反映させ、また、ネットワーク上の集合知（Ｗｉｋｉｐｅｄｉａ）への記述者（投稿者）による分類を活用することによって観点（例えば、ビジネス的な観点、技術的な観点）に応じた単語間の類似度を反映させたシソーラス１９２（図４（ａ））に基づいて、単語間類似度算出部１２０が算出するものであるため、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度が反映されている。

つまり、文書類似度算出装置１０においては、単語間類似度情報記憶部１９４が、ネットワーク上の集合知をベースに生成され、単語間の類似度を利用者が恣意的に設定できるシソーラス１９２に基づいて算出された単語間類似度情報を記憶し、特徴量ベクトル算出部１３０が、単語間類似度情報記憶部１９４に記憶されている上述の単語間類似情報を参照して、文書の特徴量ベクトルを算出している。従って、文書間の類似度を算出するために用いられる文書の特徴量を、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度に基づいて算出することができるようになる。

また、本発明の一の実施形態による文書類似度算出装置１０によれば、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度に基づいて文書の特徴量が算出されるため、新たな単語を含めた単語間の類似度と、観点に応じた単語間の類似度とを考慮して、文書間の類似度を算出することができるようになる。

また、単語間類似度情報記憶部１９４に記憶されている単語間類似度情報は、所定の単語の組以外の単語の組における単語間の類似度（例えば、図３（ａ）における単語Ａと単語Ｍとの間の類似度、図４（ａ）における見出語ＡとカテゴリＦなどのように、直接、類似度が設定されておらず、単語間類似度算出部１２０が算出した類似度）、更には、所定の類似度を複数の類義語との類似度に分配（例えば、図４（ａ）において、上位と下位の類似度０．８を、カテゴリＢとカテゴリＣとの類似度０．４と、カテゴリＢとカテゴリＦとの類似度０．４に分配）し計算した類似度を含む。従って、より精度よく、文書同士の類似度を算出することができる。

例えば、単語Ｓ、単語Ｔ、単語Ｕが相互に類似し、文書ａ内には単語Ｓ、単語Ｔ、単語Ｕのうち単語Ｓのみが存在し、文書ｂ内には単語Ｓ、単語Ｔ、単語Ｕのうち単語Ｔのみが存在するとき、文書ａ内には単語Ｓに加えて単語Ｔ及び単語Ｕが存在し、文書ｂ内には単語Ｔに加えて単語Ｓ及び単語Ｕが存在しているかのように、文書ａと文書ｂの類似度を算出するため、文書ａと文書ｂの類似度をより精度よく算出することができる。
つまり、従来における文書の特徴量ベクトルは、当該文書内に存在する単語のｔｆ−ｉｄｆを要素にしているため（即ち、従来における文書の特徴量ベクトルの次元は、文書内の単語の種類に対応するものであるため）、文書内に存在しない単語のｔｆ−ｉｄｆは当該文書の特徴量ベクトルに反映しない。換言すれば、文書の特徴量ベクトルのある次元の値（ある単語のｔｆ−ｉｄｆの値）は当該単語の当該文書中における重要度と言えるが、従来は、文書に出現しない単語の重要度は０としている。従って、例えば、文書ａに存在していない単語Ｔは、単語Ｔに類似する単語Ｓが文書ａに存在していても、類似度の算出の過程（ベクトルの内積の計算）に何ら考慮されない。

一方、文書類似度算出装置１０では、文書内に存在しない単語のｔｆ−ｉｄｆが当該単語に類似する文書内の単語のｔｆ−ｉｄｆに分配されたかようになるので、文書に存在しない単語であっても、類似度の算出の過程に反映される（つまり、文書ａ内には単語Ｓに加えて単語Ｔ及び単語Ｕが存在し、文書ｂ内には単語Ｔに加えて単語Ｓ及び単語Ｕが存在しているかのように扱われる）。

また、本発明の一の実施形態による文書類似度算出装置１０を応用すれば、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した類似文書検索が可能になる。

図５は、文書類似度算出装置１０を適用（応用）した類似文書検索システム１の構成図である。類似文書検索システム１は、図５に示すように、特徴量算出装置（サーバ）１００、文書間類似度算出装置（サーバ）２００、文書検索サーバ３００、文書管理サーバ４００及び特徴量ベクトルデータベース９００を備える。なお、図５に示す特徴量算出装置１００は、図１に示す特徴量算出部１００に相当し、図５に示す文書間類似度算出装置２００は、図１に示す文書間類似度算出部２００に相当する。即ち、類似文書検索システム１には、図１に示す文書類似度算出装置１０が適用されている（破線参照）。但し、各サーバ（特徴量算出装置１００及び文書間類似度算出装置２００を含む）は、夫々、制御部（非図示）を備え、例えば、外部（例えば、他のサーバ、クライアント２）からの情報（制御）によって動作する。

類似文書検索システム１の処理フローは以下の通りである。なお、（１）〜（３）は都度の検索時の動作と非同期に適宜行う管理時の処理、（４）〜（１０）は都度の検索時の処理である。

（１）特徴量算出装置１００は、文書管理サーバ４００に、文書管理サーバ４００が管理（記憶）している文書（管理文書）の送信を要求する。即ち、文書管理サーバ４００は、特徴量算出装置１００から、管理文書の送信要求を取得する。なお、特徴量算出装置１００は、例えば、管理文書の送信を文書管理サーバ４００に定期的に要求してもよい。
（２）文書管理サーバ４００は、特徴量算出装置１００からの要求に応じて、管理文書を特徴量算出装置１００に送信する。即ち、特徴量算出装置１００は、文書管理サーバ４００から、管理文書を取得する。なお、文書管理サーバ４００は、例えば、前回の送信要求から今回の送信要求迄の間に、新規に管理した管理文書、又は、内容が更新された管理文書を特徴量算出装置１００に送信してもよい。
（３）特徴量算出装置１００は、文書管理サーバ４００から取得した管理文書の特徴量ベクトル（新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した文書の特徴量ベクトル、以下、同じ）を算出し、算出した管理文書の特徴量ベクトルの情報を特徴量ベクトルデータベース９００に記憶する。即ち、特徴量ベクトルデータベース９００には、管理文書の特徴量ベクトルが蓄積される。

（４）クライアント２は、類似文書の検索キーである文書（キー文書）とともに、キー文書と類似する類似文書の検索を文書検索サーバ３００に要求する。即ち、文書検索サーバ３００は、クライアント２から、キー文書とともに、類似文書の検索要求を取得する。
（５）文書検索サーバ３００は、クライアント２から取得したキー文書とともに、キー文書の特徴量ベクトル（新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した文書の特徴量ベクトル、以下、同じ）の算出を特徴量算出装置１００に要求する。即ち、特徴量算出装置１００は、文書検索サーバ３００から、キー文書とともに、キー文書の特徴量ベクトルの算出要求を取得する。
（６）特徴量算出装置１００は、文書検索サーバ３００から取得したキー文書の特徴量ベクトルを算出し、算出したキー文書の特徴量ベクトルの情報を文書検索サーバ３００に応答する。即ち、文書検索サーバ３００は、特徴量算出装置１００から、キー文書の特徴量ベクトルの情報を取得する。
（７）文書検索サーバ３００は、特徴量算出装置１００から取得したキー文書の特徴量ベクトルの情報とともに、管理文書との類似度の算出を文書間類似度算出装置２００に要求する。即ち、文書間類似度算出装置２００は、文書検索サーバ３００から、キー文書の特徴量ベクトルの情報とともに、管理文書との類似度の算出要求を取得する。
（８）文書間類似度算出装置２００は、特徴量ベクトルデータベース９００から管理文書の特徴量ベクトルの情報を取得する。

（９）文書間類似度算出装置２００は、文書検索サーバ３００から取得したキー文書の特徴量ベクトルの情報と、特徴量ベクトルデータベース９００から管理文書の特徴量ベクトルの情報とに基づいて、キー文書と、管理文書との類似度を算出し、算出した管理文書との類似度を示す類似度情報を文書検索サーバ３００に送信する。即ち、文書検索サーバ３００は、文書間類似度算出装置２００から、キー文書と管理文書との類似度の算出結果を取得する。

なお、文書間類似度算出装置２００は、文書の特徴量ベクトルの各次元の値（即ち、ｔｆ−ｉｄｆ）に閾値を設け閾値未満の値は０と見做し、また、文書の特徴量ベクトルの各次元の値が上位から一定数以外の次元の値は０と見做し、類似度を算出してもよい。

（１０）文書検索サーバ３００は、文書間類似度算出装置２００から取得したキー文書と管理文書との類似度の算出結果に基づいて、キー文書と類似する管理文書を決定する。例えば、文書検索サーバ３００は、キー文書の特徴量ベクトルと管理文書の特徴量ベクトルの内積を取った結果、１に最も近い管理文書をキー文書に類似する管理文書として決定する。なお、文書検索サーバ３００は、上記内積の結果が１に最も近い管理文書をキー文書に類似する管理文書として決定することに代えて、内積の結果が所定の閾値以上である管理文書をキー文書に類似する管理文書として決定してもよい。

文書検索サーバ３００は、決定した管理文書を示す情報（例えば、文書名）、又は、管理文書自体をクライアント２００に送信する。即ち、クライアント２は、文書検索サーバ３００から、キー文書と類似する管理文書を示す情報又は管理文書自体を類似文書の検索結果として取得する。例えば、文書検索サーバ３００は、文書管理サーバ４００から、特徴量算出装置１００を経由（又は、特徴量算出装置１００、特徴量ベクトルデータベース９００及び文書間類似度算出装置２００を経由）して、決定した管理文書を示す情報又は決定した管理文書自体を取得し、クライアント２に送信する。

なお、図１に示す文書類似度算出装置１０における類似度の算出と、図５に示す類似文書検索システム１における類似度の算出とは、比較対象、特徴量ベクトルの算出タイミングなどが異なる。即ち、図１に示す文書類似度算出装置１０の場合、比較対象の一方の文書である文書ａと他方の文書である文書ｂとが入力されたときに、単語間類似度情報記憶部１９４を参照し、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した文書ａ、ｂの特徴量ベクトルを夫々算出し、両特徴量ベクトルを比較して、文書ａ、ｂの類似度を算出する。一方、図５に示す類似文書検索システム１の場合、予め、複数の管理文書（比較対象の一方に相当する複数の文書）について、単語間類似度情報記憶部１９４（図５において非図示）を参照し、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案した管理文書の特徴量ベクトルを算出し、特徴量ベクトルデータベース９００に蓄積しておき、１つのキー文書（比較対象の他方に相当する１つの文書）が入力されたときに、単語間類似度情報記憶部１９４（図５において非図示）を参照し、新たな単語を含めた単語間の類似度、及び、観点に応じた単語間の類似度を勘案したキー文書の特徴量ベクトルを算出し、蓄積されている複数の管理文書の特徴量ベクトルと比較して、キー文書と夫々の管理文書との類似度を算出する。

なお、本発明の一実施形態による特徴量算出装置１００又は文書類似度算出装置２００の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、特徴量算出装置１００又は文書類似度算出装置２００の各処理に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…類似文書検索システム
２…クライアント（端末）
１０…文書類似度算出装置
１００…特徴量算出部／特徴量算出装置／特徴量算出サーバ
１１０…ｔｆ−ｉｄｆ算出部
１２０…単語間類似度算出部
１３０…特徴量ベクトル算出部
１９０…単語頻度情報記憶部
１９２…シソーラス
１９４…単語間類似度情報記憶部
２００…文書間類似度算出部（装置）／類似度算出サーバ
３００…文書検索サーバ
４００…文書管理サーバ
９００…特徴量ベクトルデータベース

Claims

文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置であって、
外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と、
文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出部と、
前記ｔｆ−ｉｄｆ算出部によって算出された前記文書を構成する各単語のｔｆ−ｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出部と、
所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスと、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出部と
を備え、
前記単語間類似度算出部は、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とする特徴量算出装置。
前記単語間類似度算出部は、
見出語とカテゴリの関係を上位と下位の関係で表し、上位と下位の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の見出語の上位のカテゴリのカテゴリ数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃをカテゴリ数Ｎで除した除算値を前記一の下位の見出語と前記Ｎ個の中の一の上位のカテゴリの類似度として算出することを特徴とする請求項１に記載の特徴量算出装置。
前記単語間類似度算出部は、
上位の単語と下位の単語とが複数のルートによって接続されている関係である場合には、夫々のルートによる類似度を算出し、夫々のルートによる類似度を合計した合計値を、当該上位の単語と下位の単語の類似度として算出することを特徴とする請求項１又は請求項２に記載の特徴量算出装置。
前記単語間類似度算出部は、
一の下位の単語と前記一の下位の単語に直接接続する上位の単語との類似度を用いて、前記一の下位の単語と前記一の上位の単語の更に上位の単語との類似度を繰り返し算出する算出処理を実行し、かつ、前記算出処理の繰り返し可能回数を制限することを特徴とする請求項１乃至請求項３に記載の特徴量算出装置。
外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置における、特徴量算出方法であって、
文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出手段と、
前記ｔｆ−ｉｄｆ算出手段によって算出された前記文書を構成する各単語のｔｆ−ｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出手段と、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出手段と
を有し、
前記単語間類似度算出手段は、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とする特徴量算出方法。
外部の文書の単語又はユーザによって設定された単語を含む単語間の類似度を示す単語間類似度情報を記憶する単語間類似度情報記憶部と所定の単語の組における予め定められた単語間の類似度を示す単語間類似度情報を記憶するシソーラスとを備え、文書間の類似度の算出に用いる文書の特徴量を算出する特徴量算出装置のコンピュータに、
文書を構成する各単語のｔｆ−ｉｄｆを算出するｔｆ−ｉｄｆ算出ステップと、
前記ｔｆ−ｉｄｆ算出ステップによって算出された前記文書を構成する各単語のｔｆｉｄｆと、前記単語間類似度情報記憶部に記憶されている前記単語間類似度情報とに基づいて、前記文書の特徴量ベクトルを算出する特徴量ベクトル算出ステップと、
前記シソーラスに記憶されている前記単語間類似度情報に基づいて、前記所定の単語の組以外の単語の組における単語間の類似度を算出し、算出した類似度を示す単語間類似度情報を前記シソーラスに記憶されている前記単語間類似度情報とともに前記単語間類似度情報記憶部に記憶する単語間類似度算出ステップと
を実行させるプログラムにおいて、
前記単語間類似度算出ステップは、
単語同士の関係を上位と下位の関係で表し、上位と下位の各単語間の類似度係数を類似度係数ｃ（０＜ｃ＜１）と設定したときに、一の下位の単語の上位の単語の単語数がＮ個（Ｎは１以上の整数）であった場合、類似度係数ｃを単語数Ｎで除した除算値を前記一の下位の単語と前記Ｎ個の中の一の上位の単語の類似度として算出することを特徴とするプログラム。