JP2010256960A - 類似度判定システム、類似度判定方法および類似度判定用プログラム - Google Patents

類似度判定システム、類似度判定方法および類似度判定用プログラム Download PDF

Info

Publication number
JP2010256960A
JP2010256960A JP2009102889A JP2009102889A JP2010256960A JP 2010256960 A JP2010256960 A JP 2010256960A JP 2009102889 A JP2009102889 A JP 2009102889A JP 2009102889 A JP2009102889 A JP 2009102889A JP 2010256960 A JP2010256960 A JP 2010256960A
Authority
JP
Japan
Prior art keywords
dictionary
similar
similarity
word
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009102889A
Other languages
English (en)
Inventor
Yoshiko Matsukawa
淑子 松川
Hiroshi Yamada
洋志 山田
Takeshi Nishimura
健士 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009102889A priority Critical patent/JP2010256960A/ja
Publication of JP2010256960A publication Critical patent/JP2010256960A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システムを提供する。
【解決手段】単語抽出手段は、「似ている」と判定された文書のペアに共通に出現する単語を抽出して「似ている辞書」に保存し、「似ていない」と判定された文書のペアに共通に出現する単語を抽出して「似ていない辞書」に保存する。辞書作成手段は、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除して判定辞書を作成する。辞書選択手段は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書を選択する。計算手段は、判定辞書と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する。
【選択図】図1

Description

本発明は、類似度判定システム、類似度判定方法および類似度判定用プログラムに関し、特にテキストのペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システム、類似度判定方法および類似度判定用プログラムに関する。
類似度を求める一手法として多変量解析がある。多変量解析で文書のペアの因子を求める場合、閾値以上に出現する特徴を因子とする。つまり、ペアに共通に出現する特徴でも、出現するペアの数が閾値以下なら因子とならないし、ペアの片方にしか出現しない特徴でも、出現するペアの数が閾値以上なら因子となる。また、「似ている因子」にも「似ていない因子」にもなる因子を利用する。以下、この関連技術について、図15〜図17を参照して説明する。
まず、図15を参考に、人間が「似ている」と判定したペアから、多変量解析で因子を求める場合の具体例を述べる。この例では、ペアに共通に出現する単語を「0」、ペアの片方に出現する単語を「1」、ペアの両方に出現しない単語を「−」とし、閾値を「50%」とし、それ以上を因子としている。同図に示すように、人間が「似ている」と判定したペアが1〜5のように存在する場合、多変量解析を行うと、ペアに共通に「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」という単語が出現することと、ペアの片方に「料理」、「専門」、「ゴシック」という単語が出現することとが、「似ている因子」となる。
次に、図16を参考に、人間が「似ていない」と判定したペアから、多変量解析で因子を求める場合の具体例を述べる。この例でも、ペアに共通に出現する単語を「0」、ペアの片方に出現する単語を「1」、ペアの両方に出現しない単語を「−」とし、閾値を「50%」とし、それ以上を因子としている。同図に示すように、人間が「似ていない」と判定したペアがA〜Eのように存在する場合、多変量解析を行うと、ペアの片方に「カレー」、「ラーメン」、「レストラン」という単語が出現することと、ペアに共通に「中華」、「料理」、「専門」という単語が出現することとが、「似ていない因子」となる。
図15および図16に示す多変量解析の結果、図17に示すように、「カレー」、「ラーメン」、「レストラン」、「中華」、「料理」、「専門」は、「似ている因子」にも「似ていない因子」にもなり、特に「中華」は、ペアに共通に出現することが「似ている因子」にも「似ていない因子」にもなる。また、「ゴシック」は、常にペアの片方に出現することが「似ている因子」となる。
さらに、関連技術の情報検索装置の一例が、特許文献1に記載されている。この関連技術の情報検索装置は、文書データベースと、ベクトル生成手段と、分類手段と、出力手段とから構成されている。このような構成を有する関連技術の情報検索装置は、つぎのように動作する。
すなわち、文書データベースに格納する各文書データに対して、ベクトル生成手段が、形態素解析などを行い、必要に応じて不要語処理等を行ってキーワードを抽出すると共に、キーワード間の関係(係り受けの関係やキーワード間の距離の近いもの等)を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成する。分類手段が、特徴ベクトル間の類似度を計算(特徴ベクトル間の角度のコサイン値で計算する等)して、各文書データを分類する。出力手段が、文書データの分類結果を出力する。
一方、人間がペアを比べて「似ている」と判定する場合は、ペアに共通の特徴が出現する場合である。例えば、ピンク色のマグカップとピンク色のスカーフとを比べた場合、マグカップとスカーフという観点で比べると似ていないが、色の観点で比べると「ピンク色同士なので似ている」と判定する。それに対し、ペアに共通に出現する特徴をもって「似ていない」と判定することはない。つまり、上記例において、「ピンク色同士なので似ていない」と判定することはない。
また、ある特徴が常にペアの片方に出現するからといって、「似ている」と判定することもない。例えば、ピンク色のマグカップと黄色のスカーフのペアと、ピンク色のバッグと紺色の傘のペアとが存在する場合に、「常にペアの片方がピンク色だから、この2つのペアはそれぞれ似ている」と判定することはない。
特開2002−245067号公報
上述した関連技術では、次のような問題点がある。
第1の問題点は、多変量解析では、ペアに共通に出現する因子だけで類似度を判定できないということである。その理由は、ペアの片方にしか出現しない特徴でも、出現するペアの数が閾値以上なら因子となり、かつ「似ている因子」にも「似ていない因子」にもなる因子を利用するためである。
第2の問題点は、多変量解析では、ペアに共通に出現する因子だけを求めるには手間がかかるということである。その理由は、閾値を設けて全ての因子を求めた後で、ペアの片方にしか出現しない因子および、「似ている因子」にも「似ていない因子」にもなる因子を排除して、ペアに共通に出現する因子を求めなくてならないためである。
第3の問題点は、関連技術の情報検索装置では、特定の観点からみた類似度を求めることができないということである。その理由は、文書データの特徴ベクトルを生成して類似度を計算する際に、観点を定めずに、文書全体を形態素解析してキーワードおよびキーワード間の関係を抽出し、これら両方の出現頻度に基づいて特徴ベクトルを生成するためである。
本発明の目的は、上記課題を解決し、ペアに共通に出現する因子だけで類似度を判定することができると共に、ペアに共通に出現する因子だけを簡単に求めることができ、さらに特定の観点からみた類似度を求めることができる類似度判定システム、類似度判定方法および類似度判定用プログラムを提供することにある。
上記目的を達成するため、本発明に係る類似度判定システムは、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける学習データ入力手段と、前記学習データ入力手段が受け付けた文書を形態素に解析する第1の解析手段と、前記第1の解析手段による文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存する単語抽出手段と、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する辞書作成手段と、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける新ペア入力手段と、前記新ペア入力手段が受け付けた類似度を判定していない文書を形態素に解析する第2の解析手段と、前記新ペア入力手段が受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する辞書選択手段と、前記第2の解析手段による文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する計算手段とを備えたことを特徴とする。
本発明に係る類似度判定方法は、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付け、受け付けた文書を形態素に解析し、前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存し、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成し、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付け、受け付けた類似度を判定していない文書を形態素に解析し、受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択し、前記文書の形態素解析結果から、選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算することを特徴とする。
本発明に係る類似度判定用プログラムは、コンピュータに、特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける処理と、受け付けた文書を形態素に解析する処理と、前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存する処理と、前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する処理と、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける処理と、受け付けた類似度を判定していない文書を形態素に解析する処理と、受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する処理と、前記文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する処理とを実行させることを特徴とする。
本発明によれば、次のような効果がある。
第1の効果は、ペアに共通に出現する因子だけで類似度を判定することができることにある。その理由は、ペアに共通に出現する単語を抽出するよう動作するためである。
第2の効果は、ペアに共通に出現する因子だけを簡単に求めることができることにある。その理由は、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除するよう動作するためである。
第3の効果は、特定の観点からみた類似度を求めることができることにある。その理由は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書を選択し、判定辞書と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するよう動作するためである。
本発明の第1の実施の形態に係る類似度判定システムの構成を示すブロック図である。 図1に示す類似度判定システムの動作を示す流れ図の一部である。 図1に示す類似度判定システムの動作を示す流れ図の一部である。 図1に示す類似度判定システムの動作の具体例を示す図である。 図1に示す類似度判定システムの動作の具体例を示す図である。 図1に示す類似度判定システムの動作の具体例を示す図である。 図1に示す類似度判定システムの動作の具体例を示す図である。 本発明の第2の実施の形態に係る類似度判定システムの構成を示すブロック図である。 図8に示す類似度判定システムの動作を示す流れ図である。 図8に示す類似度判定システムの動作を示す流れ図である。 図8に示す類似度判定システムの動作の具体例を示す図である。 本発明の第3の実施の形態に係る類似度判定システムの構成を示すブロック図である。 図12に示す類似度判定システムの動作を示す流れ図である。 (a)および(b)は、図12に示す類似度判定システムの動作の具体例を示す図である。 関連技術の「似ている」と判定されたペアから多変量解析で因子を求める場合の動作の具体例を示す図である。 関連技術の「似ていない」と判定されたペアから多変量解析で因子を求める場合の動作の具体例を示す図である。 図15および図16に示す多変量解析で求めた「似ている因子」および「似ていない因子」を示す図である。
次に、本発明の実施の形態に係る類似度判定システム、類似度判定方法および類似度判定用プログラムについて、図面を参照して詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る類似度判定システムの構成を示すブロック図である。
図1を参照すると、本実施の形態は、学習データ入力手段101と、新ペア入力手段102と、プログラム制御により動作するデータ処理部2と、情報を記憶する記憶部3と、出力手段4とから構成されている。具体的には、学習データ入力手段101として、例えばキーボードを、データ処理部2として、例えばパーソナル・コンピュータ(PC)を、記憶部3として、例えば磁気ディスクを、出力手段4として、例えばディスプレイを備えている。この場合、パーソナル・コンピュータは中央演算装置(CPU)を有しており、磁気ディスクには後述する各種辞書が記憶されている。
データ処理部2は、第1の解析手段201と、単語抽出手段202と、辞書作成手段203と、類似度判定部205とを含む。類似度判定部205は、辞書選択手段2051と、第2の解析手段2052と、計算手段2053とを含む。記憶部3は、基本辞書301と、判定辞書302とを含む。
これらの手段は、それぞれ概略つぎのように動作する。
学習データ入力手段101は、人間が特定の観点(例えば、対象物、色等)で「似ている」または「似ていない」を判定済みの文書のペアを受け付ける。
第1の解析手段201は、基本辞書301を参照して、学習データ入力手段101が受け付けた文書を形態素に解析する。基本辞書301は、基本的な単語の見出しおよび、見出しに対応する品詞、意味情報などの属性を保存する。
単語抽出手段202は、第1の解析手段201による文書の形態素解析結果から、「似ている」と判定された文書のペア(以下、「似ているペア」と呼ぶ)に共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、「似ていない」と判定された文書のペア(以下、「似ていないペア」と呼ぶ)に共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存する。
辞書作成手段203は、「似ている辞書」に含まれる単語から「似ていない辞書」にも含まれる単語を削除し、上記観点で類似度を判定する判定辞書302を作成する。判定辞書302は、「似ているペア」に出現し、「似ていないペア」には出現しない単語に絞り込んだ単語を保存する。
新ペア入力手段102は、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける。
辞書選択手段2051は、新ペア入力手段102が受け付けた類似度を判定するために用いる観点に対応する判定辞書302を選択する。
第2の解析手段2052は、基本辞書301を参照して、新ペア入力手段102が受け付けた文書を形態素に解析する。
計算手段2053は、第2の解析手段2052による文書の形態素解析結果解析から、辞書選択手段2051により選択された判定辞書302と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する。
出力手段4は、計算手段2053により計算されたペアの類似度を出力する。
次に、図2と図3のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
まず、学習データ入力手段101が、人間が特定の観点で「似ている」または「似ていない」を判定済みの文書のペアを受け付ける(図2のステップS101)。
第1の解析手段201が、基本辞書301を参照して、学習データ入力手段101が受け付けた文書を形態素に解析する(ステップS102)。
単語抽出手段202が、第1の解析手段201による文書の形態素解析結果解析から、「似ているペア」に共通に出現する単語を抽出して「似ている辞書」に保存し(ステップS103)、「似ていないペア」に共通に出現する単語を抽出して「似ていない辞書」に保存する(ステップS104)。
辞書作成手段203が、「似ている辞書」に含まれる単語から「似ていない辞書」にも含まれる単語を削除し(ステップS105)、上記観点で類似度を判定する判定辞書302を作成する。
さらに、新ペア入力手段102が、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける(ステップS106)。
辞書選択手段2051が、新ペア入力手段102が受け付けた類似度を判定するために用いる観点に対応する判定辞書302を選択する(図3のステップS201)。
第2の解析手段2052が、基本辞書301を参照して、新ペア入力手段102が受け付けた文書を形態素に解析する(ステップS202)。
計算手段2053が、第2の解析手段2052による文書の形態素解析結果から、辞書選択手段2051により選択された判定辞書302と一致する単語を文書ごとに求め(ステップS203)、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する(ステップS204)。
最後に、出力手段4が、計算手段2053により計算されたペアの類似度を出力する(図2のステップS108)。
次に、図4〜図7を参照して、上記動作の具体例を説明する。なお、図4、図5の例では、ペアに共通に出現する単語を「0」、ペアの片方に出現する単語を「1」、ペアの両方に出現しない単語を「−」とし、閾値を「50%」とし、それ以上を因子としている。
今、グルメ店舗の紹介テキストをペアで作業者に提示し、グルメの観点で「似ている」か「似ていない」かを判定してもらった結果が存在するとする。
そして、学習データ入力手段101が、人間がグルメの観点で「似ている」と判定した文書のペア1〜5を受け付けたとする(図4)。
第1の解析手段201で、基本辞書301を参照して、学習データ入力手段101が受け付けた文書のペア1〜5の各テキストを形態素に解析する。
単語抽出手段202は、第1の解析手段201による各テキストの形態素解析結果から、まず、ペア1に共通に出現する単語を抽出する。すると、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」、「専門」の7語が抽出でき、これらを「似ている辞書」に保存する。次に、単語抽出手段202は、ペア2に共通に出現する単語を抽出する。すると、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」の6語が抽出でき、これらを「似ている辞書」に保存する。「似ている辞書」に保存する際、既に保存されている単語は、追加されても追加されなくてもよい。単語抽出手段202は、ペア3〜ペア5についても同様に処理をする。
さらに、学習データ入力手段101が、人間がグルメの観点で「似ていない」と判定した文書のペアA〜Eを受け付けたとする(図5)。
第1の解析手段201で、基本辞書301を参照して、学習データ入力手段101が受け付けた文書のペアA〜Eの各テキストを形態素に解析する。
単語抽出手段202は、第1の解析手段201による各テキストの形態素解析結果から、まずペアAに共通に出現する単語を抽出する。すると「中華」が抽出でき、これを「似ていない辞書」に保存する。次に、単語抽出手段202は、ペアBに共通に出現する単語を抽出する。すると、「中華」、「料理」の2語が抽出でき、これらを「似ていない辞書」に保存する。「似ていない辞書」に保存する際、既に保存されている単語は、追加されても追加されなくてもよい。単語抽出手段202は、ペアC〜ペアEについても同様に処理をする。
このようにして、「似ている辞書」には、「カレー」、「ラーメン」、「レストラン」「もつ鍋」、「中華」、「料理」、「専門」の7語が、「似ていない辞書」には、「中華」、「料理」、「専門」、「和食」、「イタリアン」の5語が保存される(図6)。
そして、辞書作成手段203で、「似ている辞書」にも「似ていない辞書」にも保存されている単語を洗い出す。すると、「中華」、「料理」、「専門」の3語が両方の辞書に保存されているので、辞書作成手段203は、「中華」、「料理」、「専門」を「似ている辞書」から削除する。この結果、辞書作成手段203は、「似ている辞書」に残った「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の4語を、グルメの観点で類似度を判定するための判定辞書302(以下、「グルメ辞書」と呼ぶ)として保存する。
次に、新ペア入力手段102が、類似度を判定していないテキストLとテキストMのペアと、類似度を判定するために用いる観点は「グルメ」であるという指示を受け付けたとする(図7)。テキストLは、「井の頭公園でお花見したあと、近くのレストランでカレーを食べました。そのあとキッチン雑貨のお店でかわいいお皿を買いました。」であり、テキストMは、「立川駅から徒歩5分のアジアンレストランです。お昼はカレーとラーメンがおすすめ。大きな窓の明るいお店です。」であったとする。
次いで、辞書選択手段2051で、新ペア入力手段が受け付けた類似度を判定するために用いる「グルメ」の観点に対応する判定辞書302として「グルメ辞書」を選択する。
次いで、第2の解析手段2052で、基本辞書301を参照して、新ペア入力手段102が受け付けた各テキストL、Mを形態素に解析する。
次いで、計算手段2053は、まず第2の解析手段2052によるテキストLの形態素解析結果と辞書選択手段2051により選択されたグルメ辞書とをつきあわせ、グルメ辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」の2語が抽出できる。
次に、計算手段2053は、第2の解析手段2052によるテキストMの形態素解析結果と辞書選択手段2051により選択されたグルメ辞書とをつきあわせ、グルメ辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」、「ラーメン」の3語が抽出できる。各テキストL、Mからグルメ辞書と一致する単語を抽出する理由は、グルメ辞書に保存された単語だけが、グルメの観点で類似度を判定する際に有効な単語だからである。
そして、計算手段2053は、テキストLから抽出した「レストラン」、「カレー」の2語と、テキストMから抽出した「レストラン」、「カレー」、「ラーメン」の3語とに共通に出現する単語を求める。すると、「レストラン」、「カレー」の2語であるので、計算手段2053は、延べ単語における共通単語の割合から、テキストLとテキストMの類似度は「2/3」であると計算する。
最後に、出力手段4は、テキストLとテキストMの類似度を「2/3」と表示する。
以上のように、本実施の形態に係る類似度判定システムは、単語抽出手段202と、辞書作成手段203と、辞書選択手段2051と、計算手段2053とを備え、「似ているペア」に共通に出現する単語を抽出して「似ている辞書」に保存し、「似ていないペア」に共通に出現する単語を抽出して「似ていない辞書」に保存し、次に、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除して判定辞書302を作成する。さらに、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書302を選択し、判定辞書302と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するよう動作する。
このような構成を採用し、「似ているペア」に出現し、「似ていないペア」には出現しない単語に絞り込んだ上で、特定の観点で共通に出現する単語の数をペアの近さの尺度とすることにより、本実施の形態では、次のような効果を得ることができる。
すなわち、本実施の形態では、ペアに共通に出現する単語を抽出するというように構成されているため、ペアに共通に出現する因子だけで類似度を判定することができる。
また、本実施の形態では、「似ている辞書」から「似ていない辞書」にも含まれる単語を削除するというように構成されているため、ペアに共通に出現する因子だけを簡単に求めることができる。
さらに、本実施の形態では、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付けると、類似度を判定するために用いる観点に対応する判定辞書302を選択し、判定辞書302と一致する単語を文書ごとに求め、そのうちペアに共通に出現する単語の割合からペアの類似度を計算するというように構成されているため、特定の観点からみた類似度を求めることができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態に係る類似度判定システムについて、図面を参照して詳細に説明する。
図8は、本実施の形態の構成を示すブロック図である。図8を参照すると、本実施の形態では、図1で示された第1の実施の形態に加えて、辞書強化手段204と、判定強化辞書303とを備えている。辞書強化手段204は、基本辞書301を参照して、判定辞書302に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書303を作成する。判定強化辞書303は、判定辞書302を強化した単語を保存する。
次に、図9と図10のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
ステップS111からステップS115までで示される本実施の形態における学習データ入力手段101、第1の解析手段201、単語抽出手段202、辞書作成手段203、基本辞書301、判定辞書302の動作は、第1の実施の形態における各手段101、201、202、203、301、302の動作と同一のため、説明を省略する。
上記ステップS111〜S115の処理後、辞書強化手段204が、基本辞書301を参照して、判定辞書302に含まれる単語の属性と同じ属性の単語を強化し(ステップS116)、判定強化辞書303を作成する。
さらに、新ペア入力手段102が、類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける(ステップS117)。
次いで、辞書選択手段2051が、新ペア入力手段102が受け付けた類似度を判定するために用いる観点に対応する判定強化辞書303を選択する(図10のステップS211)。
次いで、第2の解析手段2052が、基本辞書301を参照して、新ペア入力手段102が受け付けた文書を形態素に解析する(ステップS212)。
次いで、計算手段2053が、第2の解析手段2052による文書の形態素解析結果解析から、辞書選択手段2051により選択された判定強化辞書303と一致する単語を文書ごとに求め(ステップS213)、そのうちペアに共通に出現する単語の割合からペアの類似度を計算する(ステップS214)。
最後に、出力手段4が、計算手段2053により計算されたペアの類似度を出力する(図9のステップS119)。
次に、図11を参照して、上記動作の具体例を説明する。
学習データ入力手段101が、人間がグルメの観点から「似ている」と判定した文書のペア1〜5と、「似ていない」と判定した文書のペアA〜Eとを受け付けてから、辞書作成手段203が、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の4語を判定辞書302である「グルメ辞書」として保存するまでは、第1の実施の形態と同様であるので、説明を省略する。
辞書強化手段204は、基本辞書301を参照して、グルメ辞書に含まれる「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の属性を調べる。すると、「カレー」、「ラーメン」、「もつ鍋」の属性は「食べ物」であり、「レストラン」の属性は「施設」であることがわかる。
基本辞書301には、「食べ物」の属性をもつ単語として、他に「ちゃんこ鍋」、「焼肉」の2語が保存されており、「施設」の属性をもつ単語として、他に「ビストロ」、「居酒屋」が保存されているとする。
辞書強化手段204は、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」の4語に「ちゃんこ鍋」、「焼肉」、「ビストロ」、「居酒屋」の4語を追加し、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「ちゃんこ鍋」、「焼肉」、「ビストロ」、「居酒屋」の8語を判定強化辞書303である「グルメ強化辞書」として保存する。
次に、新ペア入力手段102が、類似度を判定していないテキストLとテキストNのペアと、類似度を判定するために用いる観点は「グルメ」であるという指示を受け付けたとする(図11)。テキストLは、「井の頭公園でお花見したあと、近くのレストランでカレーを食べました。そのあとキッチン雑貨のお店でかわいいお皿を買いました。」であり、テキストNは、「閑静な住宅街にあるビストロです。本格的な料理が、手ごろな値段で食べられます。何種類ものスパイスを使ったカレーが自慢です。」であったとする。
すると、辞書選択手段2051で、新ペア入力手段102が受け付けた類似度を判定するために用いる「グルメ」の観点に対応する判定強化辞書303として「グルメ強化辞書」を選択する。
次いで、第2の解析手段2052で、基本辞書301を参照して、新ペア入力手段102が受け付けた各テキストを形態素に解析する。
次いで、計算手段2053は、まず第2の解析手段2052によるテキストLの形態素解析結果と辞書選択手段2051により選択されたグルメ強化辞書とをつきあわせ、グルメ強化辞書と一致する単語を抽出する。すると、「レストラン」、「カレー」の2語が抽出できる。
次に、計算手段2053は、第2の解析手段2052によるテキストNの形態素解析結果と辞書選択手段2051により選択されたグルメ強化辞書とをつきあわせ、グルメ強化辞書と一致する単語を抽出する。すると、「ビストロ」、「カレー」の2語が抽出できる。
そして、計算手段2053は、テキストLから抽出した「レストラン」、「カレー」の2語と、テキストNから抽出した「ビストロ」、「カレー」の2語とに共通に出現する単語を求める。すると、「カレー」の1語であるので、計算手段2053は、延べ単語における共通単語の割合から、テキストLとテキストNの類似度は「1/3」であると計算する。
最後に、出力手段4は、テキストLとテキストNの類似度を「1/3」と表示する。
次に、本実施の形態の効果について説明する。
本実施の形態では、第1の実施の形態の効果に加え、判定辞書302に含まれる単語の属性と同じ属性の単語を強化するというように構成されているため、学習データ(人間が「似ている」または「似ていない」を判定済みの文書のペア)からは得られなかった単語が新ペア(類似度を判定していない文書のペア)に共通に出現する場合でも、適切な類似度を判定することができる。
(第3の実施の形態)
次に、本発明の第3の実施の形態に係る類似度判定システムについて図面を参照して詳細に説明する。
図12は、本実施の形態の構成を示すブロック図である。図12を参照すると、本実施の形態では、図1で示された第1の実施の形態に加えて、同義語辞書304を備えている。同義語辞書304は、単語間の同義語関係(異表記関係も含む)を定義して保存する。
次に、図12および図13のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
ステップS121からステップS122までで示される第3の実施の形態における学習データ入力手段101、第1の解析手段201の動作は、第1の実施の形態における各手段101、201の動作と同一のため、説明を省略する。
上記ステップS121、S122の処理後、単語抽出手段202は、同義語辞書304を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する(ステップS123)。そして、同義語関係にある単語がペアに出現する場合は、共通に出現する単語とみなして抽出し、「似ているペア」に共通に出現する単語は「似ている辞書」に保存し(ステップS124)、「似ていないペア」に共通に出現する単語は「似ていない辞書」に保存する(ステップS125)。
以降のステップS126からステップS129までで示される第3の実施の形態における辞書作成手段203、新ペア入力手段102、辞書選択手段2051、第2の解析手段2052、計算手段2053、出力手段4、基本辞書301、判定辞書302の動作は、第1の実施の形態における各手段203、102、2051、2052、2053、4、301、302の動作と同一のため、説明を省略する。
次に、図14を参照して、上記動作の具体例を説明する。
今、学習データ入力手段101が、人間が所定の観点で「似ている」と判定した文書のペアYを受け付けたとする(図14(a))。
第1の解析手段201で、基本辞書301を参照して、学習データ入力手段101が受け付けた文書のペアYの各テキストを形態素に解析する。
単語抽出手段202は、同義語辞書304を参照して、第1の解析手段201によるペアYの各テキストの形態素解析結果から、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する。同義語辞書304には、「もつ鍋」と「モツ鍋」、「中国」と「チャイナ」が同義語関係であると定義されて保存されているとする。すると、ペアYにおいては、「もつ鍋」と「モツ鍋」がペアに共通に出現する単語とみなされる。
そして、単語抽出手段202は、ペアYに共通に出現する単語として、「カレー」、「ラーメン」、「レストラン」、「もつ鍋」、「中華」、「料理」、「専門」の7語を抽出し、これらを「似ている辞書」に保存する。
さらに、学習データ入力手段101が、人間が所定の観点で「似ていない」と判定した文書のペアZを受け付けたとする(図14(b))。
第1の解析手段201で、基本辞書301を参照して、学習データ入力手段101が受け付けた文書のペアZの各テキストを形態素に解析する。
単語抽出手段202は、同義語辞書304を参照して、第1の解析手段201によるペアZの形態素解析結果から、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認する。同義語辞書304には、「もつ鍋」と「モツ鍋」、「中国」と「チャイナ」が同義語関係であると定義されて保存されているとする。すると、ペアZにおいては、「中国」と「チャイナ」がペアに共通に出現する単語とみなされる。
そして、単語抽出手段202は、ペアZに共通に出現する単語として「中華」を抽出し、これを「似ていない辞書」に保存する。
以降の、辞書作成手段203から出力手段4までの動作は、第1の実施の形態と同様であるので、説明を省略する。
次に、本実施の形態の効果について説明する。
本実施の形態では、第1の実施の形態の効果に加え、同義語関係にある単語がペアに出現する場合は、共通に出現する単語とみなして抽出するというように構成されているため、文書による表記のゆれがある場合でも、適切な類似度を判定することができる。
(第4の実施の形態)
本発明の第4の実施の形態に係る類似度判定システムとして、第2の実施の形態と第3の実施の形態とを組み合わせた形態がある。本実施の形態の詳細については、第2の実施の形態と第3の実施の形態との組み合わせであるため、説明を省略する。
なお、上記各実施形態に係る類似度判定システムは、上述した各部、各手段(構成要素)の各処理(機能)を実現可能なものであれば、その物理的構成、その内部のハードウェア(回路等)及びソフトウェア(プログラム)構成については、特に限定されるものではない。例えば、独立して個別の回路やユニット或いはプログラム部品(プログラムモジュール等)を構成したり、1つの回路やユニット内に一体的に構成したりする等、いずれの形態のものでも適用可能である。これらの形態は、実際に使用するシステムの機能や用途等の事情に応じて適宜選択、変更、変形等して実施してもよい。
また、上述した各部、各手段に対応して、これらと同様の処理を行う類似度判定方法も、本発明の範疇に含まれる。
さらに、上述した各部、各手段による処理は、CPUを有するマイクロプロセッサ等の処理装置で構成されるコンピュータによるソフトウェア処理で実現してもよい。この場合、コンピュータを機能させるためのプログラム(類似度判定用プログラム)は、本発明の範疇に含まれる。
このプログラムは、CPUにより直接実行可能な形式のプログラムに限らず、ソース形式のプログラムや、圧縮処理されたプログラム、暗号化されたプログラム等、種々形態のプログラムを含む。また、このプログラムは、システム全体の制御を行うOS(Operating System)やファームウェア等の制御プログラムと連携して動作し、或いはその一部に組み込まれて一体的に動作するアプリケーションプログラムやそれを構成するソフトウェア部品(ソフトウェアモジュール)等、いずれの形態でも提供可能である。
さらに、このプログラムは、無線又は有線回線を介して外部装置と通信する通信機能を有する装置に実装して使用する場合、例えば回線上に接続されたサーバ等の外部ノードからダウンロードして自装置内の記録媒体にインストールして使用することもできる。これらの形態は、実際に使用する装置の機能や用途等の事情に応じて適宜選択、変更、変形等して実施してもよい。
また、上記のプログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に含まれる。この場合、記録媒体は、HDD(ハードディスクドライブ)等の装置内に固定して使用される記憶装置や、持ち運びが可能なリムーバブルディスクやメモリカードなどの可搬型記憶媒体(リムーバブルメディア)等、いずれの形態のものでも適用可能である。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、テキストのペアに共通に出現する因子だけで類似度を判定することのできる類似度判定システム、類似度判定方法および類似度判定用プログラムに利用できる。その他、本発明は、一つのコンテンツに類似したコンテンツを検索する検索システムや、一つのコンテンツに類似したコンテンツを推薦する推薦システム、類似度に応じてコンテンツを分類する分類システムといった用途に適用できる。
2 データ処理部
3 記憶部
4 出力手段
101 学習データ入力手段
102 新ペア入力手段
201 第1の解析手段
202 単語抽出手段
203 辞書作成手段
204 辞書強化手段
205 類似度判定部
301 基本辞書
302 判定辞書
303 判定強化辞書
304 同義語辞書
2051 辞書選択手段
2052 第2の解析手段
2053 計算手段

Claims (9)

  1. 特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける学習データ入力手段と、
    前記学習データ入力手段が受け付けた文書を形態素に解析する第1の解析手段と、
    前記第1の解析手段による文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存する単語抽出手段と、
    前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する辞書作成手段と、
    類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける新ペア入力手段と、
    前記新ペア入力手段が受け付けた類似度を判定していない文書を形態素に解析する第2の解析手段と、
    前記新ペア入力手段が受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する辞書選択手段と、
    前記第2の解析手段による文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する計算手段とを備えたことを特徴とする類似度判定システム。
  2. 前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成する辞書強化手段をさらに備えたことを特徴とする請求項1記載の類似度判定システム。
  3. 単語間の異表記関係を含む同義語関係を定義して保存する同義語辞書と、
    前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存する単語抽出手段とをさらに備えたことを特徴とする請求項1または2記載の類似度判定システム。
  4. 特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付け、
    受け付けた文書を形態素に解析し、
    前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存し、
    前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成し、
    類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付け、
    受け付けた類似度を判定していない文書を形態素に解析し、
    受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択し、
    前記文書の形態素解析結果から、選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算することを特徴とする類似度判定方法。
  5. さらに、前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成することを特徴とする請求項4記載の類似度判定方法。
  6. さらに、単語間の異表記関係を含む同義語関係を定義して同義語辞書に保存し、
    前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存することを特徴とする請求項4または5記載の類似度判定方法。
  7. コンピュータに、
    特定の観点で「似ている」または「似ていない」と判定された文書のペアを受け付ける処理と、
    受け付けた文書を形態素に解析する処理と、
    前記文書の形態素解析結果から、前記「似ている」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ている辞書」と呼ぶ)に保存し、前記「似ていない」と判定された文書のペアに共通に出現する単語を抽出して辞書(以下、「似ていない辞書」と呼ぶ)に保存する処理と、
    前記「似ている辞書」に含まれる単語から前記「似ていない辞書」にも含まれる単語を削除して、前記観点で類似度を判定する判定辞書を作成する処理と、
    類似度を判定していない文書のペアと、類似度を判定するために用いる観点を受け付ける処理と、
    受け付けた類似度を判定していない文書を形態素に解析する処理と、
    受け付けた類似度を判定するために用いる観点に対応する前記判定辞書を選択する処理と、
    前記文書の形態素解析結果から、前記辞書選択手段により選択された前記判定辞書と一致する単語を文書ごとに求め、前記一致する単語のうち文書のペアに共通に出現する単語の割合から文書のペアの類似度を計算する処理とを実行させることを特徴とする類似度判定用プログラム。
  8. さらに、コンピュータに、
    前記判定辞書に含まれる単語の属性と同じ属性の単語を強化し、判定強化辞書を作成する処理を実行させることを特徴とする請求項7記載の類似度判定用プログラム。
  9. さらに、コンピュータに、
    単語間の異表記関係を含む同義語関係を定義して同義語辞書に保存する処理と、
    前記同義語辞書を参照して、一方の文書に出現する単語と同義語関係にある単語が他方の文書に出現するか否かを確認し、同義語関係にある単語が文書のペアに出現する場合は、共通に出現する単語とみなして抽出し、前記「似ている」と判定されたペアに共通に出現する単語は前記「似ている辞書」に保存し、前記「似ていない」と判定されたペアに共通に出現する単語は前記「似ていない辞書」に保存する処理とを実行させることを特徴とする請求項7または8記載の類似度判定用プログラム。
JP2009102889A 2009-04-21 2009-04-21 類似度判定システム、類似度判定方法および類似度判定用プログラム Withdrawn JP2010256960A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009102889A JP2010256960A (ja) 2009-04-21 2009-04-21 類似度判定システム、類似度判定方法および類似度判定用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009102889A JP2010256960A (ja) 2009-04-21 2009-04-21 類似度判定システム、類似度判定方法および類似度判定用プログラム

Publications (1)

Publication Number Publication Date
JP2010256960A true JP2010256960A (ja) 2010-11-11

Family

ID=43317840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009102889A Withdrawn JP2010256960A (ja) 2009-04-21 2009-04-21 類似度判定システム、類似度判定方法および類似度判定用プログラム

Country Status (1)

Country Link
JP (1) JP2010256960A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021093163A (ja) * 2019-12-11 2021-06-17 ネイバー コーポレーションNAVER Corporation ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021093163A (ja) * 2019-12-11 2021-06-17 ネイバー コーポレーションNAVER Corporation ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
KR20230166332A (ko) * 2022-05-30 2023-12-07 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법
KR102656015B1 (ko) 2022-05-30 2024-04-09 국민대학교산학협력단 딥러닝 기반 고객 관점 중요 키워드 도출 장치 및 방법

Similar Documents

Publication Publication Date Title
JP5824532B2 (ja) サーフショッピングのための関連抽出のシステム及び方法
US9417760B2 (en) Auto-completion for user interface design
US7769771B2 (en) Searching a document using relevance feedback
US20180150557A1 (en) Systems and methods for computation of a semantic representation
US8386238B2 (en) Systems and methods for evaluating a sequence of characters
CA2801298C (en) Device and method for selecting instances in expanded set containing given seed string
US10037379B2 (en) Voice input and output database search method and device
US11468346B2 (en) Identifying sequence headings in a document
CN110826321A (zh) 合同文件风险校验方法、装置、计算机设备以及存储介质
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US10929446B2 (en) Document search apparatus and method
JP2010256960A (ja) 類似度判定システム、類似度判定方法および類似度判定用プログラム
JP2002149675A (ja) テキストデータ分析装置とその方法、およびそのためのプログラムとそれを記録した記録媒体
JP6549173B2 (ja) 計算機システム及び文章データの検索方法
JP6623840B2 (ja) 同義語検出装置、同義語検出方法及び同義語検出用コンピュータプログラム
JP2009140048A (ja) 評判関係抽出装置、その方法およびプログラム
JP2006072787A (ja) 自動質問解答方法、そのためのモデル作成方法、およびコンピュータプログラム
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP7047825B2 (ja) 検索装置、検索方法、検索プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2004220226A (ja) 検索文書のための文書分類方法及び装置
JP2002259426A (ja) 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
Jiawei et al. Review Data Analysis and Processing
JP2022064212A (ja) 検索システム、検索方法及びコンピュータープログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120703