JP2010256960A

JP2010256960A - 類似度判定システム、類似度判定方法および類似度判定用プログラム

Info

Publication number: JP2010256960A
Application number: JP2009102889A
Authority: JP
Inventors: Yoshiko Matsukawa; 淑子松川; Hiroshi Yamada; 洋志山田; Takeshi Nishimura; 健士西村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2009-04-21
Filing date: 2009-04-21
Publication date: 2010-11-11

Abstract

【課題】ペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システムを提供する。
【解決手段】単語抽出手段は、「似ている」と判定された文書のペアに共通に出現する単語を抽出して「似ている辞書」に保存し、「似ていない」と判定された文書のペアに共通に出現する単語を抽出して「似ていない辞書」に保存する。辞書作成手段は、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除して判定辞書を作成する。辞書選択手段は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書を選択する。計算手段は、判定辞書と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する。
【選択図】図１

Description

本発明は、類似度判定システム、類似度判定方法および類似度判定用プログラムに関し、特にテキストのペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システム、類似度判定方法および類似度判定用プログラムに関する。

類似度を求める一手法として多変量解析がある。多変量解析で文書のペアの因子を求める場合、閾値以上に出現する特徴を因子とする。つまり、ペアに共通に出現する特徴でも、出現するペアの数が閾値以下なら因子とならないし、ペアの片方にしか出現しない特徴でも、出現するペアの数が閾値以上なら因子となる。また、「似ている因子」にも「似ていない因子」にもなる因子を利用する。以下、この関連技術について、図１５〜図１７を参照して説明する。

まず、図１５を参考に、人間が「似ている」と判定したペアから、多変量解析で因子を求める場合の具体例を述べる。この例では、ペアに共通に出現する単語を「０」、ペアの片方に出現する単語を「１」、ペアの両方に出現しない単語を「−」とし、閾値を「５０％」とし、それ以上を因子としている。同図に示すように、人間が「似ている」と判定したペアが１〜５のように存在する場合、多変量解析を行うと、ペアに共通に「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」という単語が出現することと、ペアの片方に「料理」、「専門」、「ゴシック」という単語が出現することとが、「似ている因子」となる。

次に、図１６を参考に、人間が「似ていない」と判定したペアから、多変量解析で因子を求める場合の具体例を述べる。この例でも、ペアに共通に出現する単語を「０」、ペアの片方に出現する単語を「１」、ペアの両方に出現しない単語を「−」とし、閾値を「５０％」とし、それ以上を因子としている。同図に示すように、人間が「似ていない」と判定したペアがＡ〜Ｅのように存在する場合、多変量解析を行うと、ペアの片方に「カレー」、「ラーメン」、「レストラン」という単語が出現することと、ペアに共通に「中華」、「料理」、「専門」という単語が出現することとが、「似ていない因子」となる。

図１５および図１６に示す多変量解析の結果、図１７に示すように、「カレー」、「ラーメン」、「レストラン」、「中華」、「料理」、「専門」は、「似ている因子」にも「似ていない因子」にもなり、特に「中華」は、ペアに共通に出現することが「似ている因子」にも「似ていない因子」にもなる。また、「ゴシック」は、常にペアの片方に出現することが「似ている因子」となる。

さらに、関連技術の情報検索装置の一例が、特許文献１に記載されている。この関連技術の情報検索装置は、文書データベースと、ベクトル生成手段と、分類手段と、出力手段とから構成されている。このような構成を有する関連技術の情報検索装置は、つぎのように動作する。

すなわち、文書データベースに格納する各文書データに対して、ベクトル生成手段が、形態素解析などを行い、必要に応じて不要語処理等を行ってキーワードを抽出すると共に、キーワード間の関係（係り受けの関係やキーワード間の距離の近いもの等）を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成する。分類手段が、特徴ベクトル間の類似度を計算（特徴ベクトル間の角度のコサイン値で計算する等）して、各文書データを分類する。出力手段が、文書データの分類結果を出力する。

一方、人間がペアを比べて「似ている」と判定する場合は、ペアに共通の特徴が出現する場合である。例えば、ピンク色のマグカップとピンク色のスカーフとを比べた場合、マグカップとスカーフという観点で比べると似ていないが、色の観点で比べると「ピンク色同士なので似ている」と判定する。それに対し、ペアに共通に出現する特徴をもって「似ていない」と判定することはない。つまり、上記例において、「ピンク色同士なので似ていない」と判定することはない。

また、ある特徴が常にペアの片方に出現するからといって、「似ている」と判定することもない。例えば、ピンク色のマグカップと黄色のスカーフのペアと、ピンク色のバッグと紺色の傘のペアとが存在する場合に、「常にペアの片方がピンク色だから、この２つのペアはそれぞれ似ている」と判定することはない。

特開２００２−２４５０６７号公報

上述した関連技術では、次のような問題点がある。

第１の問題点は、多変量解析では、ペアに共通に出現する因子だけで類似度を判定できないということである。その理由は、ペアの片方にしか出現しない特徴でも、出現するペアの数が閾値以上なら因子となり、かつ「似ている因子」にも「似ていない因子」にもなる因子を利用するためである。

第２の問題点は、多変量解析では、ペアに共通に出現する因子だけを求めるには手間がかかるということである。その理由は、閾値を設けて全ての因子を求めた後で、ペアの片方にしか出現しない因子および、「似ている因子」にも「似ていない因子」にもなる因子を排除して、ペアに共通に出現する因子を求めなくてならないためである。

第３の問題点は、関連技術の情報検索装置では、特定の観点からみた類似度を求めることができないということである。その理由は、文書データの特徴ベクトルを生成して類似度を計算する際に、観点を定めずに、文書全体を形態素解析してキーワードおよびキーワード間の関係を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成するためである。

本発明の目的は、上記課題を解決し、ペアに共通に出現する因子だけで類似度を判定することができると共に、ペアに共通に出現する因子だけを簡単に求めることができ、さらに特定の観点からみた類似度を求めることができる類似度判定システム、類似度判定方法および類似度判定用プログラムを提供することにある。

上記目的を達成するため、本発明に係る類似度判定システムは、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける学習データ入力手段と、前記学習データ入力手段が受け付けた文書を形態素に解析する第１の解析手段と、前記第１の解析手段による文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存する単語抽出手段と、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する辞書作成手段と、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける新ペア入力手段と、前記新ペア入力手段が受け付けた類似度を判定していない文書を形態素に解析する第２の解析手段と、前記新ペア入力手段が受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する辞書選択手段と、前記第２の解析手段による文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する計算手段とを備えたことを特徴とする。

本発明に係る類似度判定方法は、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付け、受け付けた文書を形態素に解析し、前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存し、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成し、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付け、受け付けた類似度を判定していない文書を形態素に解析し、受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択し、前記文書の形態素解析結果から、選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算することを特徴とする。

本発明に係る類似度判定用プログラムは、コンピュータに、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける処理と、受け付けた文書を形態素に解析する処理と、前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存する処理と、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する処理と、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける処理と、受け付けた類似度を判定していない文書を形態素に解析する処理と、受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する処理と、前記文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する処理とを実行させることを特徴とする。

本発明によれば、次のような効果がある。

第１の効果は、ペアに共通に出現する因子だけで類似度を判定することができることにある。その理由は、ペアに共通に出現する単語を抽出するよう動作するためである。

第２の効果は、ペアに共通に出現する因子だけを簡単に求めることができることにある。その理由は、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除するよう動作するためである。

第３の効果は、特定の観点からみた類似度を求めることができることにある。その理由は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書を選択し、判定辞書と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するよう動作するためである。

本発明の第１の実施の形態に係る類似度判定システムの構成を示すブロック図である。図１に示す類似度判定システムの動作を示す流れ図の一部である。図１に示す類似度判定システムの動作を示す流れ図の一部である。図１に示す類似度判定システムの動作の具体例を示す図である。図１に示す類似度判定システムの動作の具体例を示す図である。図１に示す類似度判定システムの動作の具体例を示す図である。図１に示す類似度判定システムの動作の具体例を示す図である。本発明の第２の実施の形態に係る類似度判定システムの構成を示すブロック図である。図８に示す類似度判定システムの動作を示す流れ図である。図８に示す類似度判定システムの動作を示す流れ図である。図８に示す類似度判定システムの動作の具体例を示す図である。本発明の第３の実施の形態に係る類似度判定システムの構成を示すブロック図である。図１２に示す類似度判定システムの動作を示す流れ図である。（ａ）および（ｂ）は、図１２に示す類似度判定システムの動作の具体例を示す図である。関連技術の「似ている」と判定されたペアから多変量解析で因子を求める場合の動作の具体例を示す図である。関連技術の「似ていない」と判定されたペアから多変量解析で因子を求める場合の動作の具体例を示す図である。図１５および図１６に示す多変量解析で求めた「似ている因子」および「似ていない因子」を示す図である。

次に、本発明の実施の形態に係る類似度判定システム、類似度判定方法および類似度判定用プログラムについて、図面を参照して詳細に説明する。

（第１の実施の形態）
図１は、本発明の第１の実施の形態に係る類似度判定システムの構成を示すブロック図である。

図１を参照すると、本実施の形態は、学習データ入力手段１０１と、新ペア入力手段１０２と、プログラム制御により動作するデータ処理部２と、情報を記憶する記憶部３と、出力手段４とから構成されている。具体的には、学習データ入力手段１０１として、例えばキーボードを、データ処理部２として、例えばパーソナル・コンピュータ（ＰＣ）を、記憶部３として、例えば磁気ディスクを、出力手段４として、例えばディスプレイを備えている。この場合、パーソナル・コンピュータは中央演算装置（ＣＰＵ）を有しており、磁気ディスクには後述する各種辞書が記憶されている。

データ処理部２は、第１の解析手段２０１と、単語抽出手段２０２と、辞書作成手段２０３と、類似度判定部２０５とを含む。類似度判定部２０５は、辞書選択手段２０５１と、第２の解析手段２０５２と、計算手段２０５３とを含む。記憶部３は、基本辞書３０１と、判定辞書３０２とを含む。

これらの手段は、それぞれ概略つぎのように動作する。

学習データ入力手段１０１は、人間が特定の観点（例えば、対象物、色等）で「似ている」または「似ていない」を判定済みの文書のペアを受け付ける。

第１の解析手段２０１は、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書を形態素に解析する。基本辞書３０１は、基本的な単語の見出しおよび、見出しに対応する品詞、意味情報などの属性を保存する。

単語抽出手段２０２は、第１の解析手段２０１による文書の形態素解析結果から、「似ている」と判定された文書のペア（以下、「似ているペア」と呼ぶ）に共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、「似ていない」と判定された文書のペア（以下、「似ていないペア」と呼ぶ）に共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存する。

辞書作成手段２０３は、「似ている辞書」に含まれる単語から「似ていない辞書」にも含まれる単語を削除し、上記観点で類似度を判定する判定辞書３０２を作成する。判定辞書３０２は、「似ているペア」に出現し、「似ていないペア」には出現しない単語に絞り込んだ単語を保存する。

新ペア入力手段１０２は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける。

辞書選択手段２０５１は、新ペア入力手段１０２が受け付けた類似度を判定するために用いる観点に対応する判定辞書３０２を選択する。

第２の解析手段２０５２は、基本辞書３０１を参照して、新ペア入力手段１０２が受け付けた文書を形態素に解析する。

計算手段２０５３は、第２の解析手段２０５２による文書の形態素解析結果解析から、辞書選択手段２０５１により選択された判定辞書３０２と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する。

出力手段４は、計算手段２０５３により計算されたペアの類似度を出力する。

次に、図２と図３のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。

まず、学習データ入力手段１０１が、人間が特定の観点で「似ている」または「似ていない」を判定済みの文書のペアを受け付ける（図２のステップＳ１０１）。

第１の解析手段２０１が、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書を形態素に解析する（ステップＳ１０２）。

単語抽出手段２０２が、第１の解析手段２０１による文書の形態素解析結果解析から、「似ているペア」に共通に出現する単語を抽出して「似ている辞書」に保存し（ステップＳ１０３）、「似ていないペア」に共通に出現する単語を抽出して「似ていない辞書」に保存する（ステップＳ１０４）。

辞書作成手段２０３が、「似ている辞書」に含まれる単語から「似ていない辞書」にも含まれる単語を削除し（ステップＳ１０５）、上記観点で類似度を判定する判定辞書３０２を作成する。

さらに、新ペア入力手段１０２が、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける（ステップＳ１０６）。

辞書選択手段２０５１が、新ペア入力手段１０２が受け付けた類似度を判定するために用いる観点に対応する判定辞書３０２を選択する（図３のステップＳ２０１）。

第２の解析手段２０５２が、基本辞書３０１を参照して、新ペア入力手段１０２が受け付けた文書を形態素に解析する（ステップＳ２０２）。

計算手段２０５３が、第２の解析手段２０５２による文書の形態素解析結果から、辞書選択手段２０５１により選択された判定辞書３０２と一致する単語を文書ごとに求め（ステップＳ２０３）、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する（ステップＳ２０４）。

最後に、出力手段４が、計算手段２０５３により計算されたペアの類似度を出力する（図２のステップＳ１０８）。

次に、図４〜図７を参照して、上記動作の具体例を説明する。なお、図４、図５の例では、ペアに共通に出現する単語を「０」、ペアの片方に出現する単語を「１」、ペアの両方に出現しない単語を「−」とし、閾値を「５０％」とし、それ以上を因子としている。

今、グルメ店舗の紹介テキストをペアで作業者に提示し、グルメの観点で「似ている」か「似ていない」かを判定してもらった結果が存在するとする。

そして、学習データ入力手段１０１が、人間がグルメの観点で「似ている」と判定した文書のペア１〜５を受け付けたとする（図４）。

第１の解析手段２０１で、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書のペア１〜５の各テキストを形態素に解析する。

単語抽出手段２０２は、第１の解析手段２０１による各テキストの形態素解析結果から、まず、ペア１に共通に出現する単語を抽出する。すると、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」、「専門」の７語が抽出でき、これらを「似ている辞書」に保存する。次に、単語抽出手段２０２は、ペア２に共通に出現する単語を抽出する。すると、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」の６語が抽出でき、これらを「似ている辞書」に保存する。「似ている辞書」に保存する際、既に保存されている単語は、追加されても追加されなくてもよい。単語抽出手段２０２は、ペア３〜ペア５についても同様に処理をする。

さらに、学習データ入力手段１０１が、人間がグルメの観点で「似ていない」と判定した文書のペアＡ〜Ｅを受け付けたとする（図５）。

第１の解析手段２０１で、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書のペアＡ〜Ｅの各テキストを形態素に解析する。

単語抽出手段２０２は、第１の解析手段２０１による各テキストの形態素解析結果から、まずペアＡに共通に出現する単語を抽出する。すると「中華」が抽出でき、これを「似ていない辞書」に保存する。次に、単語抽出手段２０２は、ペアＢに共通に出現する単語を抽出する。すると、「中華」、「料理」の２語が抽出でき、これらを「似ていない辞書」に保存する。「似ていない辞書」に保存する際、既に保存されている単語は、追加されても追加されなくてもよい。単語抽出手段２０２は、ペアＣ〜ペアＥについても同様に処理をする。

このようにして、「似ている辞書」には、「カレー」、「ラーメン」、「レストラン」「もつ鍋」、「中華」、「料理」、「専門」の７語が、「似ていない辞書」には、「中華」、「料理」、「専門」、「和食」、「イタリアン」の５語が保存される（図６）。

そして、辞書作成手段２０３で、「似ている辞書」にも「似ていない辞書」にも保存されている単語を洗い出す。すると、「中華」、「料理」、「専門」の３語が両方の辞書に保存されているので、辞書作成手段２０３は、「中華」、「料理」、「専門」を「似ている辞書」から削除する。この結果、辞書作成手段２０３は、「似ている辞書」に残った「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の４語を、グルメの観点で類似度を判定するための判定辞書３０２（以下、「グルメ辞書」と呼ぶ）として保存する。

次に、新ペア入力手段１０２が、類似度を判定していないテキストＬとテキストＭのペアと、類似度を判定するために用いる観点は「グルメ」であるという指示を受け付けたとする（図７）。テキストＬは、「井の頭公園でお花見したあと、近くのレストランでカレーを食べました。そのあとキッチン雑貨のお店でかわいいお皿を買いました。」であり、テキストＭは、「立川駅から徒歩５分のアジアンレストランです。お昼はカレーとラーメンがおすすめ。大きな窓の明るいお店です。」であったとする。

次いで、辞書選択手段２０５１で、新ペア入力手段が受け付けた類似度を判定するために用いる「グルメ」の観点に対応する判定辞書３０２として「グルメ辞書」を選択する。

次いで、第２の解析手段２０５２で、基本辞書３０１を参照して、新ペア入力手段１０２が受け付けた各テキストＬ、Ｍを形態素に解析する。

次いで、計算手段２０５３は、まず第２の解析手段２０５２によるテキストＬの形態素解析結果と辞書選択手段２０５１により選択されたグルメ辞書とをつきあわせ、グルメ辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」の２語が抽出できる。

次に、計算手段２０５３は、第２の解析手段２０５２によるテキストＭの形態素解析結果と辞書選択手段２０５１により選択されたグルメ辞書とをつきあわせ、グルメ辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」、「ラーメン」の３語が抽出できる。各テキストＬ、Ｍからグルメ辞書と一致する単語を抽出する理由は、グルメ辞書に保存された単語だけが、グルメの観点で類似度を判定する際に有効な単語だからである。

そして、計算手段２０５３は、テキストＬから抽出した「レストラン」、「カレー」の２語と、テキストＭから抽出した「レストラン」、「カレー」、「ラーメン」の３語とに共通に出現する単語を求める。すると、「レストラン」、「カレー」の２語であるので、計算手段２０５３は、延べ単語における共通単語の割合から、テキストＬとテキストＭの類似度は「２／３」であると計算する。

最後に、出力手段４は、テキストＬとテキストＭの類似度を「２／３」と表示する。

以上のように、本実施の形態に係る類似度判定システムは、単語抽出手段２０２と、辞書作成手段２０３と、辞書選択手段２０５１と、計算手段２０５３とを備え、「似ているペア」に共通に出現する単語を抽出して「似ている辞書」に保存し、「似ていないペア」に共通に出現する単語を抽出して「似ていない辞書」に保存し、次に、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除して判定辞書３０２を作成する。さらに、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書３０２を選択し、判定辞書３０２と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するよう動作する。

このような構成を採用し、「似ているペア」に出現し、「似ていないペア」には出現しない単語に絞り込んだ上で、特定の観点で共通に出現する単語の数をペアの近さの尺度とすることにより、本実施の形態では、次のような効果を得ることができる。

すなわち、本実施の形態では、ペアに共通に出現する単語を抽出するというように構成されているため、ペアに共通に出現する因子だけで類似度を判定することができる。

また、本実施の形態では、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除するというように構成されているため、ペアに共通に出現する因子だけを簡単に求めることができる。

さらに、本実施の形態では、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書３０２を選択し、判定辞書３０２と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するというように構成されているため、特定の観点からみた類似度を求めることができる。

（第２の実施の形態）
次に、本発明の第２の実施の形態に係る類似度判定システムについて、図面を参照して詳細に説明する。

図８は、本実施の形態の構成を示すブロック図である。図８を参照すると、本実施の形態では、図１で示された第１の実施の形態に加えて、辞書強化手段２０４と、判定強化辞書３０３とを備えている。辞書強化手段２０４は、基本辞書３０１を参照して、判定辞書３０２に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書３０３を作成する。判定強化辞書３０３は、判定辞書３０２を強化した単語を保存する。

次に、図９と図１０のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。

ステップＳ１１１からステップＳ１１５までで示される本実施の形態における学習データ入力手段１０１、第１の解析手段２０１、単語抽出手段２０２、辞書作成手段２０３、基本辞書３０１、判定辞書３０２の動作は、第１の実施の形態における各手段１０１、２０１、２０２、２０３、３０１、３０２の動作と同一のため、説明を省略する。

上記ステップＳ１１１〜Ｓ１１５の処理後、辞書強化手段２０４が、基本辞書３０１を参照して、判定辞書３０２に含まれる単語の属性と同じ属性の単語を強化し（ステップＳ１１６）、判定強化辞書３０３を作成する。

さらに、新ペア入力手段１０２が、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける（ステップＳ１１７）。

次いで、辞書選択手段２０５１が、新ペア入力手段１０２が受け付けた類似度を判定するために用いる観点に対応する判定強化辞書３０３を選択する（図１０のステップＳ２１１）。

次いで、第２の解析手段２０５２が、基本辞書３０１を参照して、新ペア入力手段１０２が受け付けた文書を形態素に解析する（ステップＳ２１２）。

次いで、計算手段２０５３が、第２の解析手段２０５２による文書の形態素解析結果解析から、辞書選択手段２０５１により選択された判定強化辞書３０３と一致する単語を文書ごとに求め（ステップＳ２１３）、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する（ステップＳ２１４）。

最後に、出力手段４が、計算手段２０５３により計算されたペアの類似度を出力する（図９のステップＳ１１９）。

次に、図１１を参照して、上記動作の具体例を説明する。

学習データ入力手段１０１が、人間がグルメの観点から「似ている」と判定した文書のペア１〜５と、「似ていない」と判定した文書のペアＡ〜Ｅとを受け付けてから、辞書作成手段２０３が、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の４語を判定辞書３０２である「グルメ辞書」として保存するまでは、第１の実施の形態と同様であるので、説明を省略する。

辞書強化手段２０４は、基本辞書３０１を参照して、グルメ辞書に含まれる「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の属性を調べる。すると、「カレー」、「ラーメン」、「もつ鍋」の属性は「食べ物」であり、「レストラン」の属性は「施設」であることがわかる。

基本辞書３０１には、「食べ物」の属性をもつ単語として、他に「ちゃんこ鍋」、「焼肉」の２語が保存されており、「施設」の属性をもつ単語として、他に「ビストロ」、「居酒屋」が保存されているとする。

辞書強化手段２０４は、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の４語に「ちゃんこ鍋」、「焼肉」、「ビストロ」、「居酒屋」の４語を追加し、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「ちゃんこ鍋」、「焼肉」、「ビストロ」、「居酒屋」の８語を判定強化辞書３０３である「グルメ強化辞書」として保存する。

次に、新ペア入力手段１０２が、類似度を判定していないテキストＬとテキストＮのペアと、類似度を判定するために用いる観点は「グルメ」であるという指示を受け付けたとする（図１１）。テキストＬは、「井の頭公園でお花見したあと、近くのレストランでカレーを食べました。そのあとキッチン雑貨のお店でかわいいお皿を買いました。」であり、テキストＮは、「閑静な住宅街にあるビストロです。本格的な料理が、手ごろな値段で食べられます。何種類ものスパイスを使ったカレーが自慢です。」であったとする。

すると、辞書選択手段２０５１で、新ペア入力手段１０２が受け付けた類似度を判定するために用いる「グルメ」の観点に対応する判定強化辞書３０３として「グルメ強化辞書」を選択する。

次いで、第２の解析手段２０５２で、基本辞書３０１を参照して、新ペア入力手段１０２が受け付けた各テキストを形態素に解析する。

次いで、計算手段２０５３は、まず第２の解析手段２０５２によるテキストＬの形態素解析結果と辞書選択手段２０５１により選択されたグルメ強化辞書とをつきあわせ、グルメ強化辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」の２語が抽出できる。

次に、計算手段２０５３は、第２の解析手段２０５２によるテキストＮの形態素解析結果と辞書選択手段２０５１により選択されたグルメ強化辞書とをつきあわせ、グルメ強化辞書と一致する単語を抽出する。すると、「ビストロ」、「カレー」の２語が抽出できる。

そして、計算手段２０５３は、テキストＬから抽出した「レストラン」、「カレー」の２語と、テキストＮから抽出した「ビストロ」、「カレー」の２語とに共通に出現する単語を求める。すると、「カレー」の１語であるので、計算手段２０５３は、延べ単語における共通単語の割合から、テキストＬとテキストＮの類似度は「１／３」であると計算する。

最後に、出力手段４は、テキストＬとテキストＮの類似度を「１／３」と表示する。

次に、本実施の形態の効果について説明する。

本実施の形態では、第１の実施の形態の効果に加え、判定辞書３０２に含まれる単語の属性と同じ属性の単語を強化するというように構成されているため、学習データ（人間が「似ている」または「似ていない」を判定済みの文書のペア）からは得られなかった単語が新ペア（類似度を判定していない文書のペア）に共通に出現する場合でも、適切な類似度を判定することができる。

（第３の実施の形態）
次に、本発明の第３の実施の形態に係る類似度判定システムについて図面を参照して詳細に説明する。

図１２は、本実施の形態の構成を示すブロック図である。図１２を参照すると、本実施の形態では、図１で示された第１の実施の形態に加えて、同義語辞書３０４を備えている。同義語辞書３０４は、単語間の同義語関係（異表記関係も含む）を定義して保存する。

次に、図１２および図１３のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。

ステップＳ１２１からステップＳ１２２までで示される第３の実施の形態における学習データ入力手段１０１、第１の解析手段２０１の動作は、第１の実施の形態における各手段１０１、２０１の動作と同一のため、説明を省略する。

上記ステップＳ１２１、Ｓ１２２の処理後、単語抽出手段２０２は、同義語辞書３０４を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する（ステップＳ１２３）。そして、同義語関係にある単語がペアに出現する場合は、共通に出現する単語とみなして抽出し、「似ているペア」に共通に出現する単語は「似ている辞書」に保存し（ステップＳ１２４）、「似ていないペア」に共通に出現する単語は「似ていない辞書」に保存する（ステップＳ１２５）。

以降のステップＳ１２６からステップＳ１２９までで示される第３の実施の形態における辞書作成手段２０３、新ペア入力手段１０２、辞書選択手段２０５１、第２の解析手段２０５２、計算手段２０５３、出力手段４、基本辞書３０１、判定辞書３０２の動作は、第１の実施の形態における各手段２０３、１０２、２０５１、２０５２、２０５３、４、３０１、３０２の動作と同一のため、説明を省略する。

次に、図１４を参照して、上記動作の具体例を説明する。

今、学習データ入力手段１０１が、人間が所定の観点で「似ている」と判定した文書のペアＹを受け付けたとする（図１４（ａ））。

第１の解析手段２０１で、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書のペアＹの各テキストを形態素に解析する。

単語抽出手段２０２は、同義語辞書３０４を参照して、第１の解析手段２０１によるペアＹの各テキストの形態素解析結果から、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する。同義語辞書３０４には、「もつ鍋」と「モツ鍋」、「中国」と「チャイナ」が同義語関係であると定義されて保存されているとする。すると、ペアＹにおいては、「もつ鍋」と「モツ鍋」がペアに共通に出現する単語とみなされる。

そして、単語抽出手段２０２は、ペアＹに共通に出現する単語として、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」、「専門」の７語を抽出し、これらを「似ている辞書」に保存する。

さらに、学習データ入力手段１０１が、人間が所定の観点で「似ていない」と判定した文書のペアＺを受け付けたとする（図１４（ｂ））。

第１の解析手段２０１で、基本辞書３０１を参照して、学習データ入力手段１０１が受け付けた文書のペアＺの各テキストを形態素に解析する。

単語抽出手段２０２は、同義語辞書３０４を参照して、第１の解析手段２０１によるペアＺの形態素解析結果から、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する。同義語辞書３０４には、「もつ鍋」と「モツ鍋」、「中国」と「チャイナ」が同義語関係であると定義されて保存されているとする。すると、ペアＺにおいては、「中国」と「チャイナ」がペアに共通に出現する単語とみなされる。

そして、単語抽出手段２０２は、ペアＺに共通に出現する単語として「中華」を抽出し、これを「似ていない辞書」に保存する。

以降の、辞書作成手段２０３から出力手段４までの動作は、第１の実施の形態と同様であるので、説明を省略する。

次に、本実施の形態の効果について説明する。

本実施の形態では、第１の実施の形態の効果に加え、同義語関係にある単語がペアに出現する場合は、共通に出現する単語とみなして抽出するというように構成されているため、文書による表記のゆれがある場合でも、適切な類似度を判定することができる。

（第４の実施の形態）
本発明の第４の実施の形態に係る類似度判定システムとして、第２の実施の形態と第３の実施の形態とを組み合わせた形態がある。本実施の形態の詳細については、第２の実施の形態と第３の実施の形態との組み合わせであるため、説明を省略する。

なお、上記各実施形態に係る類似度判定システムは、上述した各部、各手段（構成要素）の各処理（機能）を実現可能なものであれば、その物理的構成、その内部のハードウェア（回路等）及びソフトウェア（プログラム）構成については、特に限定されるものではない。例えば、独立して個別の回路やユニット或いはプログラム部品（プログラムモジュール等）を構成したり、１つの回路やユニット内に一体的に構成したりする等、いずれの形態のものでも適用可能である。これらの形態は、実際に使用するシステムの機能や用途等の事情に応じて適宜選択、変更、変形等して実施してもよい。

また、上述した各部、各手段に対応して、これらと同様の処理を行う類似度判定方法も、本発明の範疇に含まれる。

さらに、上述した各部、各手段による処理は、ＣＰＵを有するマイクロプロセッサ等の処理装置で構成されるコンピュータによるソフトウェア処理で実現してもよい。この場合、コンピュータを機能させるためのプログラム（類似度判定用プログラム）は、本発明の範疇に含まれる。

このプログラムは、ＣＰＵにより直接実行可能な形式のプログラムに限らず、ソース形式のプログラムや、圧縮処理されたプログラム、暗号化されたプログラム等、種々形態のプログラムを含む。また、このプログラムは、システム全体の制御を行うＯＳ（Operating System）やファームウェア等の制御プログラムと連携して動作し、或いはその一部に組み込まれて一体的に動作するアプリケーションプログラムやそれを構成するソフトウェア部品（ソフトウェアモジュール）等、いずれの形態でも提供可能である。

さらに、このプログラムは、無線又は有線回線を介して外部装置と通信する通信機能を有する装置に実装して使用する場合、例えば回線上に接続されたサーバ等の外部ノードからダウンロードして自装置内の記録媒体にインストールして使用することもできる。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択、変更、変形等して実施してもよい。

また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。この場合、記録媒体は、ＨＤＤ（ハードディスクドライブ）等の装置内に固定して使用される記憶装置や、持ち運びが可能なリムーバブルディスクやメモリカードなどの可搬型記憶媒体（リムーバブルメディア）等、いずれの形態のものでも適用可能である。

以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明は、テキストのペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システム、類似度判定方法および類似度判定用プログラムに利用できる。その他、本発明は、一つのコンテンツに類似したコンテンツを検索する検索システムや、一つのコンテンツに類似したコンテンツを推薦する推薦システム、類似度に応じてコンテンツを分類する分類システムといった用途に適用できる。

２データ処理部
３記憶部
４出力手段
１０１学習データ入力手段
１０２新ペア入力手段
２０１第１の解析手段
２０２単語抽出手段
２０３辞書作成手段
２０４辞書強化手段
２０５類似度判定部
３０１基本辞書
３０２判定辞書
３０３判定強化辞書
３０４同義語辞書
２０５１辞書選択手段
２０５２第２の解析手段
２０５３計算手段

Claims

特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける学習データ入力手段と、
前記学習データ入力手段が受け付けた文書を形態素に解析する第１の解析手段と、
前記第１の解析手段による文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存する単語抽出手段と、
前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する辞書作成手段と、
類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける新ペア入力手段と、
前記新ペア入力手段が受け付けた類似度を判定していない文書を形態素に解析する第２の解析手段と、
前記新ペア入力手段が受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する辞書選択手段と、
前記第２の解析手段による文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する計算手段とを備えたことを特徴とする類似度判定システム。
前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成する辞書強化手段をさらに備えたことを特徴とする請求項１記載の類似度判定システム。
単語間の異表記関係を含む同義語関係を定義して保存する同義語辞書と、
前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存する単語抽出手段とをさらに備えたことを特徴とする請求項１または２記載の類似度判定システム。
特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付け、
受け付けた文書を形態素に解析し、
前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存し、
前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成し、
類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付け、
受け付けた類似度を判定していない文書を形態素に解析し、
受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択し、
前記文書の形態素解析結果から、選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算することを特徴とする類似度判定方法。
さらに、前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成することを特徴とする請求項４記載の類似度判定方法。
さらに、単語間の異表記関係を含む同義語関係を定義して同義語辞書に保存し、
前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存することを特徴とする請求項４または５記載の類似度判定方法。
コンピュータに、
特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける処理と、
受け付けた文書を形態素に解析する処理と、
前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ている辞書」と呼ぶ）に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書（以下、「似ていない辞書」と呼ぶ）に保存する処理と、
前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する処理と、
類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける処理と、
受け付けた類似度を判定していない文書を形態素に解析する処理と、
受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する処理と、
前記文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する処理とを実行させることを特徴とする類似度判定用プログラム。
さらに、コンピュータに、
前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成する処理を実行させることを特徴とする請求項７記載の類似度判定用プログラム。
さらに、コンピュータに、
単語間の異表記関係を含む同義語関係を定義して同義語辞書に保存する処理と、
前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存する処理とを実行させることを特徴とする請求項７または８記載の類似度判定用プログラム。