JP4896268B2

JP4896268B2 - 情報価値を反映した情報検索方法及びその装置

Info

Publication number: JP4896268B2
Application number: JP2011205200A
Authority: JP
Inventors: イ、スン‐ジュン; キム、ヒョン‐ゴン; キム、ビョン‐ハク; ナム、ソ‐ドン; シン、ジュン‐ホ
Original assignee: チョンヌンインコーポレイテッド
Priority date: 2005-07-15
Filing date: 2011-09-20
Publication date: 2012-03-14
Anticipated expiration: 2026-07-13
Also published as: KR100645614B1; JP2009500764A; JP4896132B2; JP2011253572A; WO2007011129A1

Description

本発明は、情報検索に係り、より詳細には、情報の価値に基づいてユーザに情報を提供したり、推薦する情報検索方法及びその装置に関する。

インターネットを介した情報提供者及びその利用者の爆発的な増加に伴い、現在、数えられぬほど多い情報が溢れている。このため、これらの情報の中からユーザの所望する情報のみを選別して提供する検索エンジンの役割は、ますます重要になってきている。すなわち、従来の検索エンジンは、所望の情報をより多く探すことに重点を置いていたのに対し、現在は、所望の情報のみを正確に選別して提供することに重点が置かれている。このように所望の情報を探し、これを選別して提供するためには、検索された情報に対して重要度を付け、その重要度順にユーザに提供する必要がある。

従来の検索方法では、入力された検索語と検索対象文書間の類似度を計算していた。すなわち、検索語が検索対象文書内で出現する頻度数によって類似度を計算する。例えば、"ネオウィズ"という検索語に対し、文書１ではそれが１０回出現し、文書２では５回出現するとしたら、文書１の類似度は１００％となり、文書２の類似度は５０％となる。

このような類似度計算方法には、ブーリアン検索モデル、拡張ブーリアン検索モデル、ベクトル空間モデル、確率分布、ポアソンモデル、ラグランジモデルなどが用いられる。しかしながら、これらの方法は、単に検索語が重複的に出現する頻度によって類似度を計算するだけであって、検索された情報の価値自体は反映されない。

一方、情報の重要度をハイパーリンクで連結されているウェブの構造的な特性を用いて測定する方法がある。すなわち、情報の価値を、その情報を参照しているインターネットリンクの数を用いて測定する。例えば、検索された文書を他のサイトで参照している回数を計算し、多く参照されている情報を重要な情報として判断する。しかしながら、このような方法も、あらゆる種類の情報には適用し難い。例えば、ハングル文書をリンクしているサイトが、英語文書をリンクしているサイトよりも相対的に少ない場合、上記方法を適用し難い。

したがって、本発明は、同じ内容を含む情報を一つ以上のグループにグルーピングし、各グループから代表情報を抽出し、各グループ別情報の価値に基づいて当該情報をユーザに提供する情報検索方法及びその装置を提供することを目的とする。

本発明の一側面による情報検索方法は、（ａ）複数個の情報間の類似度を計算する段階と、（ｂ）前記類似度によって同じ情報をグルーピングし、実質的に同じ情報と判定された情報の個数によってそれぞれの情報の価値を計算する段階と、（ｃ）前記計算された価値が反映された情報検索結果を表示する段階と、を含むことを特徴とする。

また、前記（ａ）段階は、（ａ１）前記テキスト情報に含まれた単語の数及び助詞の数によって前記テキスト情報を一つ以上のグループに分割する段階と、（ａ２）前記グループ内における単語のそれぞれに対する逆ファイルを生成する段階と、（ａ３）前記逆ファイルを分析して所定の閾値以下の頻度を持つテキスト情報を除去し、類似度を計算すべきテキスト情報を選定する段階と、（ａ４）前記選定されたテキスト情報間の類似度を計算し、実質的に同じテキスト情報と判定された情報を一つのグループにまとめる段階と、を含むことができる。

上記（ａ４）段階における類似度計算は、本文内容よりも題名により高い（大きい）重みをつけて類似度を計算することができる。

また、本発明の他の側面における情報検索装置は、インターネット上で収集された情報のうちテキスト情報を保存するテキスト文書保存部と、前記テキスト文書間の類似度を計算する類似度分析部と、前記類似度によって同じ文書と判定された文書を一つのグループにまとめ、各グループ内から代表文書を抽出する代表文書抽出部と、前記類似度によって類似の文書と判定された文書を抽出する類似文書抽出部と、入力された検索語に対応する代表文書と類似文書を、代表文書の出現頻度順にしたがって出力位置を調整してディスプレイし、前記類似文書はリンク形態に提供する検索部と、を備えることを特徴とする。

本発明によれば、同一情報の個数によって情報の価値を判断し、情報の価値順に該当情報をユーザに表示するため、ユーザの所望する情報をより正確に提供することが可能になる。

また、本発明によれば、類似の文書は別のリンクを介して提供するため、検索結果をひと目で確認可能になる。

また、本発明によれば、重複する情報は検索結果から削除されるので、ユーザの検索結果を確認するのにかかる余分の時間と労力を削減することが可能になる。

以下、添付の図面を参照しつつ、本発明の好適な実施例について詳細に説明する。

図１は、同じ内容の情報をまとめてグルーピングし、各グループから代表情報を抽出し、各グループ別情報の価値によって該当の情報をユーザに提供する方法を説明するための参照図である。

図１に示すように、インターネットなどを介して収集した情報を、同じ内容を持つグループにまとめる。ここで、"同じ内容"とは、"完全に一致する内容"ではなく、"所定の閾値以上の類似性を持つ内容"、つまり、"実質的に同じ内容"のことを意味する。すなわち、一つの検索語に対し、同じ内容を持つ情報が多くのサイトに共通して含まれており、このような情報を一つのグループにまとめる。例えば、"ネオウィズ"という検索語に関する情報として、"...インターネットに存在するあらゆる情報を検索できる検索エンジンが出現した。ネオウィズ（取締役代表：ナ・セォンギュン）の第２大株主のジャン・ビョンギュ（３３歳）が設立した検索サービス企業'チョッヌン（ｈｔｔｐ：／／ｗｗｗ．１ｎｏｏｎ．ｃｏｍ）'は、最近、ユーザがあらゆるインターネット情報を便利に検索できるようにした検索エンジンを開発した。"という内容を含む様々なインターネットサイトがある場合、グループＡ（１１０）は、上述の情報を含むことができ、グループＢ（１２０）は、"...［ネオウィズ／セイクラブ］ネオウィズ会社紹介及びＥ−Ｃｏｍｍｕｎｉｔｙ紹介..."という内容を扱う情報の集合を含むことができ、グループＣ（１３０）は、"...ネオウィズ運営、カード、カジュアル、モバイル、マッゴー、ゴーストップなどオンラインゲーム提供..."という内容を扱う情報の集合を含むことができる。

すなわち、同じ内容を含む情報を一つのグループにまとめる。なお、一つのグループに含まれた内容は互いに同じ内容であるから、重複したディスプレイを防止するために各グループから代表情報を抽出する。代表情報は、それぞれのグループを代表する情報で、グループ内の情報のうち、最も最近に生成された情報又はイメージを含んでいる情報を代表情報とすることができる。

その後、検索語を含む情報の出現頻度に基づいてユーザに検索結果を表示する。言い換えると、同じ検索語を含む情報の出現頻度が高いほど重要な情報と判断し、該当する情報の表示の際にその順位を高くし、価値ある情報がよくユーザの目につくようにする。

図２は、本発明の一実施例に係る情報の価値を反映したテキスト検索方法を示すフローチャートである。

まず、検索対象となる情報を収集し（Ｓ２１０）、収集した情報間の類似度を計算する（Ｓ２２０）。従来方法では、例えば、収集した情報が１００個である場合、全ての情報に対して類似度を計算するためには１００×１００回の計算が必要とされていた。類似度計算過程の詳細は、図３、図４乃至図８を参照して後述する。類似度計算の後に、同じ内容を持つ複数個の情報を一つのグループにまとめ、重複情報を除去し、且つ、代表情報を抽出する（Ｓ２３０）、次に、実質的に同じ情報の個数を用いて情報の価値を計算する（Ｓ２４０）。その後、抽出した代表情報を、各グループの重要度によって出力する（Ｓ２５０）。このとき、該当内容を含む情報の出現頻度が高いグループの代表情報を重要度の高い情報と判断し、これを、結果出力画面の最初に位置させる、又はハイライトなどの手段を用いてよく目に付くようにして出力する。

図３は、図２におけるテキスト検索方法を詳細に示すフローチャートである。

図３を参照して、情報がテキスト文書である場合に類似度を計算し、その検索結果を提供する過程について詳述する。文書間の類似度を計算するために、その文書を構成するテキストの中から索引キーワードを抽出する（Ｓ３１０）。抽出されたキーワードを比較して文書間の類似度を計算する（Ｓ３２０）。両文書間に同じ索引キーワードが多いほど互いにより類似な文書となる。類似度の計算では、題名と本文内容に相互に異なる重みをつけて計算することができる。例えば、両文書の題名に類似のキーワードが多く存在するほどより類似の文書である確率が高いから、類似度計算の際に題名に重み値を与えることができる。計算された類似度を参照して、各文書に対して同じ文書及び類似の文書を決定する（Ｓ３３０）。各グループ別に代表文書を抽出し（Ｓ３４０）、代表文書を、その重要度によって出力位置を調整してユーザに提供する（Ｓ３５０）。

図４乃至図６は、テキスト文書から索引キーワードセットを抽出する過程の一例を示す図である。

図４に示すように、文書４１０は、題名に相当する単語列４０１と、本文内容に相当する単語列４０２とで構成されている。図５に示すように、例えば、題名は"ネオウィズ関連検索事業分社"４２１とし、本文内容は"ネオウィズから分社した新しいサービスメーカである'チョッヌン'が、本格的なサービスに取り組む。チョッヌン（１ｎｏｏｎ．ｃｏｍ）は、早ければ来月にベータテストを開始し、今年１０月からは正式サービスを開始する予定である。今年はじめから..."とする。図６に示すように、索引キーワードセット４３０は、題名に対するキーワードとしてネオウィズ、検索、分社が抽出され、内容に対するキーワードとしてはネオウィズ、分社、検索、チョッヌン、テスト、サービス開始などが抽出される。

図７及び図８は、抽出された索引キーワードセットを用いて文書間の類似度を計算し、同一文書と類似文書を探す方法の一例を示す図である。

図７は、図４乃至図６を参照して類似性を比較する方法を示す図である。文書Ａと文書Ｂとの類似度は７５％で、文書Ａと文書Ｃとの類似度は４％で、文書Ａと文書Ｄとの類似度は９６％である。類似度の計算は、前述したように、様々な方法によって行われることができる。例えば、題名に対するキーワードと文書内容に対するキーワードをいずれも同じ条件によって比較してもよく、題名に対するキーワードに重みをつけて類似度を計算してもよい。

図８は、図７のように計算された類似度情報に基づいて各文書と同じ文書及び類似の文書を探す方法の一例を示す図である。同一文書と類似文書を決定する類似度値の基準値は状況により可変可能である。図８から、文書Ａと同じ文書は２５個で、同じ文書は文書Ｂ、Ｄ等で、類似の文書は文書Ｘ、Ｔなどであることがわかる。

図９は、類似度を計算すべき対象文書の数を減らす方法を示すフローチャートである。

全ての文書に対して索引キーワードリストを作り、全文書に対してそれぞれの類似度を計算すると、計算量が多いことはもとより、時間が非常にかかってしまう。この点から、類似度を計算すべき対象文書の数を減らす工夫が必要である。このため、まず、文書をグルーピングする（Ｓ６１０）。文書のグルーピング基準は、文書を構成する単語の数と助詞の数によって定められる。文書を構成する単語の数と助詞の数が類似していると、互いに類似の文書である可能性が多いので、これらを同じグループにまとめる。なお、クルーピングの基準は場合によって可変することが可能である。例えば、単語の数及び助詞の数をいずれも５個単位にして、又は単語の数及び助詞の数をそれぞれ異なる単位数にして同じグループにまとめることができる。

続いて、各グループに対して逆ファイルを生成する（Ｓ６２０）。逆ファイルは、文書を構成する単語を全て抽出し、該当する単語を含む文書のＩＤを集めて作ったファイルである。例えば、ＤｏｃＩＤ１，ＤｏｃＩＤ２，...，ＤｏｃＩＤ１００の文書があり、ＤｏｃＩＤ１は単語Ａ，Ｂ，Ｃ，...，Jを含んでいる場合、ＤｏｃＩＤ１と類似する文書を探そうとする場合に生成される逆ファイルの例は、次のようである。

単語Ａの逆ファイル：ＤｏｃＩＤ２，ＤｏｃＩＤ３
単語Ｂの逆ファイル：ＤｏｃＩＤ２，ＤｏｃＩＤ３，ＤｏｃＩＤ４，ＤｏｃＩＤ５
単語Ｃの逆ファイル：ＤｏｃＩＤ２，ＤｏｃＩＤ３，ＤｏｃＩＤ５，ＤｏｃＩＤ６，ＤｏｃＩＤ７
...
単語Ｊの逆ファイル：ＤｏｃＩＤ２，ＤｏｃＩＤ３，ＤｏｃＩＤ５，ＤｏｃＩＤ７，ＤｏｃＩＤ１０，...，ＤｏｃＩＤ８５

このようにして逆ファイルを生成した後に、逆ファイルを分析して閾値以下の頻度を持つ文書を除去する（Ｓ６３０）。上記実施例において、順に小さい逆ファイルの大きさを持つ単語Ａと単語Ｂの逆ファイルを比較してから単語Ｃの逆ファイルを比較すると、出現頻度の低いＤｏｃＩＤ４は比較対象から削除される。このような方式で単語Ｊの逆ファイルまで比較し、出現頻度の低い全てのＤｏｃＩＤを削除すると、ＤｏｃＩＤ１の文書と類似度を判断しなければならない対象文書が大幅に減る。

図１０は、本発明の一実施例に係る情報の価値を反映したテキスト検索装置の構成図である。

同図で、テキスト検索装置は、ウェブデータ保存部７１０、テキスト文書保存部７２０、類似度分析部７３０、代表文書抽出部７４０、類似文書抽出部７５０、検索部７６０及び情報推薦部７７０を備える。

ウェブデータ保存部７１０は、インターネット上に存在する情報を収集して保存する。テキスト文書保存部７２０は、これらの情報のうち、テキスト文書を保存する。類似度分析部７３０は、前述のようにテキスト文書に含まれた単語の数及び助詞の数によって当該テキスト文書をグルーピングし、これら単語のそれぞれに対する逆ファイルを生成し、これを分析して所定の閾値以下の頻度を持つテキスト文書を除去することによって類似度を計算すべきテキスト文書を選定し、これらの文書間の類似度を計算する。代表文書抽出部７４０は、同じテキスト文書と判定された文書を一つのグループにまとめ、それぞれのグループから代表文書を抽出する。代表文書抽出の一例には、前述のように、最も最近の文書又はイメージを含む文書を代表文書として抽出する方法かある。類似文書抽出部７５０は、類似度分析部７３０で計算された類似度に基づき、予め定められた値以上の類似度を持つ文書を類似のテキスト文書として抽出する。

一方、ユーザが検索部７６０に検索語を入力すると、検索部７６０は、それに対する結果を代表文書保存部７４０及び類似文書保存部７５０を検索して出力する。この時、代表文書の中でも価値ある代表文書を検索結果ページの上位に位置させる。なお、類似文書情報は、その詳細な内容を確認できるようなリンクの形態に提供される。情報推薦部７７０は、価値ある情報を予め設定された条件によって出力する。例えば、インターネット上で多く出現する情報は、価値ある情報と判断し、ユーザが検索語を入力しない場合にも自動的に代表文書から出力されるようにする。例えば、一日に１０００回以上出現する文書は、人々にビックイシューとなっている重要な内容であるから自動的に出力されるようにする。

図１１は、本発明によるテキスト検索方法を適用した結果の一例を示す図である。

本発明のテキスト検索方法によれば、類似度の高い文を出力画面上の上位に位置させる。類似度の判断は、上述の方法によってなされ、類似な文が多いほど相対的に重要な文書と判断する。例えば、検索ウィンドウで"バク・ジソン"を入力すると、検索結果は、重要な文書の順に出力される。上述のように、最も重要な文書はその文書の出現頻度が最も高い文書、例えば"ジソンパルコ（バク・ジソン）の家で撮った写真"８１０となり、これをクリックするとより詳細な内容が出力される。そして、これと類似の内容を含んでいる類似文８２０の項目をクリックすると、その詳細な内容８２０−１が新しい窓又は現在窓内で出力される。

なお、上述のテキスト検索方法は、コンピュータプログラムで作成可能である。該プログラムを構成するコード及びコードセグメントは、当該技術分野におけるコンピュータプログラマーによって容易に推論可能である。なお、これらのプログラムはコンピュータ読取可能な記憶媒体に保存され、コンピュータによって読み取られて実行されることによってテキスト検索方法を具現する。当該記憶媒体は、磁気記録媒体、光記録媒体、及びキャリアウェーブ媒体を含む。

以上では本発明を具体的な実施例に則して説明したが、本発明は、これらの具体例に限定されず、本発明の本質的な特性を逸脱しない範囲で様々な変更が可能であるということは、当該技術分野における通常の知識を持つ当業者にとっては明らかである。したがって、本発明の技術範囲は、上記説明に限定されることなく特許請求の範囲によって定められるべきであり、これと均等な範囲内にある相違点はいずれも本発明に含まれるものとして解釈しなければならない。

同じ内容の情報をまとめてグルーピングし、各グループから代表情報を抽出し、各グループ別情報の価値によって該当する情報をユーザに提供する方法を説明するための図である。本発明の一実施例に係る情報の価値を反映したテキスト検索方法を示すフローチャートである。図２のテキスト検索方法の詳細フローチャートである。テキスト文書から索引キーワードセットを抽出する過程の一例を示す図である。テキスト文書から索引キーワードセットを抽出する過程の一例を示す図である。テキスト文書から索引キーワードセットを抽出する過程の一例を示す図である。抽出された索引キーワードセットを用いて文書間類似度を計算し、同一文書と類似文書を探す方法の一例を示す図である。抽出された索引キーワードセットを用いて文書間類似度を計算し、同一文書と類似文書を探す方法の一例を示す図である。類似度を計算すべき対象文書の数を減らす方法を示すフローチャートである。本発明の一実施例に係る情報の価値を反映したテキスト検索装置の構成図である。本発明のテキスト検索方法を適用した結果の一例を示す図である。

Claims

情報検索方法であって、コンピュータにより実行されるステップが、
（ａ）テキスト情報を含む複数個の情報毎の各テキスト情報を構成する単語の数及び助詞の数に基づいて、前記複数個の情報を一つ以上のグループにグルーピングする第１グルーピング処理を遂行する段階と、
（ｂ）前記グループ内に属する一つ以上の情報それぞれに含まれるテキスト情報を構成する単語ごとにその単語を含むテキスト情報の出現頻度を求め、前記テキスト情報の出現頻度が所定の閾値以下である情報を、前記グループから除いて得られる情報を、類似度を計算すべき対象情報として選定して前記選定された対象情報間の類似度を計算する段階と、
（ｃ）前記類似度に基づいて前記情報をグルーピングする第２グルーピング処理を遂行するとともに、前記類似度に基づいて所定の閾値以上の類似性を有する同じ情報と判定された情報の個数に応じて、それぞれの情報の価値を計算する段階と、
（ｄ）前記計算された価値が反映された情報検索結果を表示する段階と、
を含むことを特徴とする情報検索方法。
前記（ｂ）段階は、
前記テキスト情報に含まれる題名及び本文内容を用いて前記情報間の類似度を計算することを特徴とする請求項１に記載の情報検索方法。
前記（ａ４）段階は、
前記本文内容によりも前記題名に対してより高い重み値を付与して前記類似度を計算することを特徴とする請求項２に記載の情報検索方法。
前記（ｃ）段階は、
前記類似度に基づいて前記情報をグルーピングする前記第２グルーピング処理を遂行し、前記第２グルーピング処理によってグルーピングされたそれぞれのグループ内における前記類似度に基づいて所定の閾値以上の類似性を有する情報と判定された情報の個数に基づいてそれぞれの情報の価値を算出することを特徴とする請求項１から３のいずれか１項に記載の情報検索方法。
前記（ｃ）段階は、
前記類似度に基づいて前記情報をグルーピングする前記第２グルーピング処理を遂行し、前記第２グルーピング処理によってグルーピングされたそれぞれのグループ内における情報の中から、最も最近の情報又はイメージを含んでいる情報を当該グループの代表文書として抽出することを特徴とする請求項１から４のいずれか１項に記載の情報検索方法。
前記（ｄ）段階は、
ユーザからの検索語入力に応答して情報検索を遂行し、該情報検索の結果を、情報の価値の高い順に表示することを特徴とする請求項１から５のいずれか１つに記載の情報検索方法。
前記（ｄ）段階は、
ユーザからの検索語入力がない場合には、予め定められた条件に基づいて最も価値の高い情報を含むグループの代表文書をユーザに表示することを特徴とする請求項１から５のいずれか１つに記載の情報検索方法。
コンピュータに請求項１から７のいずれか１つに記載の情報検索方法を実行させるためのプログラムを記録したコンピュータ読取可能な記録媒体。