JP5903372B2 - キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム - Google Patents

キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム Download PDF

Info

Publication number
JP5903372B2
JP5903372B2 JP2012253295A JP2012253295A JP5903372B2 JP 5903372 B2 JP5903372 B2 JP 5903372B2 JP 2012253295 A JP2012253295 A JP 2012253295A JP 2012253295 A JP2012253295 A JP 2012253295A JP 5903372 B2 JP5903372 B2 JP 5903372B2
Authority
JP
Japan
Prior art keywords
keyword
combination
score
keywords
relevance score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012253295A
Other languages
English (en)
Other versions
JP2014102624A (ja
Inventor
麻衣子 井元
麻衣子 井元
良彦 数原
良彦 数原
鷲崎 誠司
誠司 鷲崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012253295A priority Critical patent/JP5903372B2/ja
Publication of JP2014102624A publication Critical patent/JP2014102624A/ja
Application granted granted Critical
Publication of JP5903372B2 publication Critical patent/JP5903372B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報検索の分野に関し、特に、ユーザがシステムから提示されたキーワードを選択して、検索対象を絞り込みながら検索を行うことができる検索サービスにおいて、提示するキーワードを予めシステムが整理しておくことで、ユーザの検索を支援する機能を備えた検索サービスに関するものである。
ユーザによる検索を支援する機能の一つとして、システムが検索キーワード候補をユーザに提示するキーワードサジェストがある(Google(登録商標)Suggest: http://www.google.com/webhp?complete=1&hl=ja/)。キーワードサジェスト機能を用いることで、ユーザがキーワードとして表現しにくい、または具体的なキーワードとして思い出せない曖昧な検索要求を持つ場合でも、システムから提示されたキーワードを選択することで検索対象を絞り込むことができ、効率よく検索を実行することができる。
しかしながら、システムが提示するキーワードの数が多い場合、キーワード集合を整理せずにリスト形式でユーザに提示するのでは、キーワード集合の関連性が明示的になっておらず、キーワード集合の関連性を把握しにくい。ユーザはキーワード集合の関連性を把握することで、例えば、類似するキーワードの中でどれが最も自分の検索要求に近いキーワードかを決定しやすかったり、どのような順番でキーワードを選択して検索を実行するかといった検索方針を立て易くなると考えられる。また、システムが関連性があるキーワードを近くに配置して提示することで、ユーザがキーワード集合の関連性を把握するのを支援できると考えられる。
したがって、システムがキーワード集合を整理せずにリスト形式でユーザに提示すると、ユーザ自身が提示されたキーワード集合の関連性を把握して選択するキーワードを決定しなければならず、検索コストがかかってしまう。これを解決するための手段の一つとして、システムがキーワード集合を整理してユーザに提示することが考えられ、キーワード集合の整理の手法としてキーワードのクラスタリングを用いることができる(非特許文献1)。この手法では、検索対象全体、例えばキーワード集合を文書内に含む文書集合の中に含まれるキーワードの出現回数や、他のキーワードとの共起回数などを考慮してキーワード間の関連性を定義する。そして、定義したキーワード間の関連性に基づいて、キーワード集合をクラスタリングすることにより、少数のキーワード集合をひとつのクラスタとしてまとめることができる。非特許文献1に開示された技術では、キーワード集合から複数のクラスタを生成して高さ1の階層構造を構築しているが、この操作をくり返すことにより、キーワード集合を階層構造で表現することができる。
小西、上原子、小柳、"単語クラスタリングを用いた検索キーワードの提示"、第7回情報科学技術フォーラム(FIT2008)、2008
前述した従来技術におけるキーワードの出現回数や共起回数に基づくキーワードの階層的クラスタリング手法では、本来ならばキーワード間に関連性があるにも関わらず、検索対象全体の中での出現回数や共起回数が少ないために関連性が低いと判定されてしまうキーワードの組み合わせが出てくるという課題がある。これにより、本来はシステムが近くに配置してユーザに提示すべきクラスタやキーワードが遠くに配置されてしまう。そのため、ユーザはクラスタ間やキーワード間の関連性を把握しにくくなり、検索効率が低下してしまう。
本発明は上記の課題に鑑みてなされたものであり、キーワード間の関連性を、検索対象全体から直接的に測ることなく高精度に求めることを可能とする技術を提供することを目的とする。
上記の課題を解決するため、本発明は、ユーザにより指定される条件に対応するキーワード集合におけるキーワード間の関連度スコアを算出するキーワード関連度スコア算出装置であって、
前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得手段と、
文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出手段とを備えることを特徴とするキーワード関連度スコア算出装置として構成される。
前記スコア算出手段は、前記キーワードの組み合わせに対応する2つのノード間の関係が親子関係である可能性を示す第1の推定値と、前記キーワードの組み合わせに対応する2つのノード間の関係が兄弟関係である可能性を示す第2の推定値とを2つの関連度スコアとして算出するように構成することができる。
また、前記スコア算出手段は、前記キーワードの組み合わせのそれぞれについて、前記2つの関連度スコアをキーワード組み合わせスコア格納手段に格納し、前記キーワード組み合わせスコア格納手段に格納された情報に基づいて、キーワードの組み合わせにおける第1のキーワードと第2のキーワード以外の他キーワードと前記第1のキーワードの組み合わせの関連度スコア、及び当該他キーワードと前記第2のキーワードの組み合わせの関連度スコアに基づいて、前記第1のキーワードと前記第2のキーワードの組み合わせに対応する関連度スコアを更新するようにしてもよい。
また、本発明は、前記キーワード関連度スコア算出装置が実行するキーワード関連度スコア算出方法、及び、コンピュータを、前記キーワード関連度スコア算出装置における組み合わせ取得手段、及びスコア算出手段として機能させるためのプログラムとして構成することもできる。
本発明によれば、既存の階層構造におけるキーワードの組み合わせに対応する2つのノード間の関係に基づいてキーワード間の関連性を算出することとしたので、検索対象全体から直接的に測ることなくキーワード間の関連性を高精度に求めることが可能となる。
本発明の実施の形態に係るキーワード関連度スコア算出装置100の構成図である。 キーワード関連度スコア算出装置100における処理の全体の流れを示すフローチャートである。 検索対象DB20のデータ例を示す図である。 キーワード組み合わせDB40のデータ例を示す図である。 参照DB60のデータ例を示す図である。 階層構造の例(leafは省略)を示す図である。 スコア算出処理(S130)の詳細フローチャートである。 キーワード組み合わせスコアDB70のデータ例を示す図である。 間接スコア算出処理(S140)の詳細フローチャートである。 更新後のキーワード組み合わせスコアDB70のデータ例を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
本実施の形態では、従来技術における課題を解決するために、複数の既存の階層構造を用いることにより、キーワードの組み合わせとして最も小さい単位である2つのキーワード間の関連性を2つのスコアを用いて表現する。以下、本実施の形態に係る具体的なシステム、及び処理動作について説明する。
<システム構成>
図1は、本発明の実施の形態に係るキーワード関連度スコア算出装置100の構成図である。なお、図1には、キーワード関連度スコア算出装置100と通信を行うユーザ端末200(例:PC、スマートフォン等)も示されている。
図1に示すように、本実施の形態に係るキーワード関連度スコア算出装置100は、情報取得部10、検索対象DB(データベース)20、情報格納部30、キーワード組み合わせDB40、スコア算出部50、参照DB60、キーワード組み合わせスコアDB70、及び間接スコア算出部80を有する。ここでの各DBは、複数のテーブルからなるデータを格納する格納手段である。
キーワード関連度スコア算出装置100は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、キーワード関連度スコア算出装置100の各部が有する機能は、当該キーワード関連度スコア算出装置100を構成するコンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、各部で実施される処理に対応するプログラムを実行することによって実現することが可能である。より具体的には、プログラムに従って、計算対象の文字列等のデータをメモリから読み出し、CPUにより演算を行って、メモリに格納する動作を繰り返しながら処理が実行される。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
なお、キーワード関連度スコア算出装置100を複数のコンピュータで構成する場合、例えば、図1に示す複数のDB(格納手段)のうちの一部又は全部をキーワード関連度スコア算出装置100の外部にネットワーク接続されたデータベース装置に備えることができる。
また、図1に示す機能区分は一例に過ぎず、本実施の形態で説明する処理を実行できる構成であれば、機能区分は図1に示すものに限られない。例えば、スコア算出部50が、スコア算出処理機能に加えて、間接スコア算出部80の機能を備えることとしてもよい。
図2は、本実施の形態に係る処理全体のフローチャートである。以下、図2のフローチャートの手順に沿って、各機能部の処理や各DBの内容について詳細に説明する。
<情報取得部10>
情報取得部10は、ユーザが指定する条件と検索対象DB20のデータを入力として、ユーザが指定する条件と関連があるキーワード集合を出力する(ステップS110)。すなわち、情報取得部10は、ユーザ端末200から受信するユーザが指定した条件に対応して検索対象DB20に格納されているキーワード集合を検索対象DB20から取得し、出力する。
検索対象DB20のデータ例を図3に示す。図3に示すとおり、検索対象DB20はユーザが指定する条件とその条件と関連があるキーワード集合をカラムとする。例えば、検索対象DB20は、ユーザが指定する条件を既存の検索エンジン(例、goo(登録商標): http://www.goo.ne.jp/)に問い合わせたときに得られる検索結果の中に含まれる複数の文書の中で出現回数が多い単語の集合をキーワード集合として格納することで構築できる。このとき、各レコード内のキーワード集合は重複を許さずに格納するものとする。ただし、異なるレコードに同じキーワードが出現することは許容する。
検索対象DB20は予め生成しておくものであり、検索対象DB20の生成には、例えば非特許文献1に記載された技術を用いることができる。また、ユーザが指定する条件とは、例えば「三浦半島」のような限定された地域や、「神奈川県旅行」のような特定の目的に基づいてユーザが入力した1つ以上のキーワードのことを表す。
<情報格納部30>
情報格納部30は、情報取得部10が出力するキーワード集合を入力として、N(Nは自然数)個のキーワードの全ての組み合わせ(kw1, kw2)を生成し、当該組み合わせをキーワード組み合わせDB40に格納する(図2のステップS120)。すなわち、情報格納部30は、N(N−1)/2個の組み合わせを生成し、キーワード組み合わせDB40に格納する。
キーワード組み合わせDB40のデータ例を図4に示す。キーワード組み合わせDB40はキーワードの組に対応するkw1とkw2をカラムとし、一つのレコードが一つのキーワード組み合わせを表す。
<スコア算出部50>
スコア算出部50は、情報格納部30により出力したキーワード組み合わせDB40のデータと参照DB60のデータとをそれぞれ読み出して入力とし、score1(kw1, kw2)とscore2(kw1, kw2)を算出し、算出した値をキーワード組み合わせスコアDB70に出力する(ステップS130)。図2に示すとおり、ステップS130のスコア算出処理は、ステップS120で取得したキーワード組み合わせのそれぞれに対して行われる。
ここで、score1(kw1, kw2)とscore2(kw1, kw2)はそれぞれのキーワードをラベルとする2つの中間ノードが既存の階層構造でどのような位置関係であるかの推定値であり、キーワード間の関連性を表す指標として用いるものである。
図5に、参照DB60のデータ例を示す。図5に示すように、参照DB60は、親ノードと子ノード集合をカラムとし、既存の階層構造を子ノードに葉ノード(leafとする)を含まない高さ1の部分木に分割し、それぞれの部分木の親ノードと子ノード集合をひとつのレコードとして格納している。例えば、既存の階層構造が深さ4の完全2分木である場合には、その階層構造は7つの高さ1の部分木に分割される。
ここで、既存の階層構造は各ノードがプロパティとしてラベルを持ち、そのラベルはキーワード組み合わせDB40に格納されているような文字列からなるとする。また、参照DB60には高さ1の部分木がM個の既存の階層構造のうちどの階層構造の中に含まれているかを区別する番号(図5における識別番号)が格納されており、番号が一致するレコードをすべて取り出して1つの階層構造を完全に再現することは容易であるものとする。参照DB60は、例えばgooカテゴリ(http://oshiete.goo.ne.jp/category/list/)のカテゴリを用いて構築可能な階層構造を用いて人手によって予め生成しておく。なお、本実施の形態において使用する既存の階層構造は、特定の手法によって生成されるものに限定されるわけではなく、種々の既存の階層構造を用いることができる。
ここで、階層構造における用語を定義する。階層構造の例を図6に示す。図6は高さ4の完全2分木のうち、根ノード(図6におけるroot)と1から14までの番号が書かれた○で表現された中間ノードを表現したものであり、16個のleafは省略している。ここで、番号Nは中間ノードのラベルを表すものとし、Nは1以上14以下の自然数である。ここで、図6の階層構造の例は完全2分木であるが、本発明で2つのスコアの算出に用いる階層構造はこれに限るものではない。
「上位語・下位語」:キーワードの上位語とは、キーワードからrootまで階層構造を下位階層に戻ることなくたどるときに通過する中間ノードのラベルとrootである。また、キーワードの下位語とは、キーワードからleafまで階層構造を上位階層に戻ることなくたどるときに通過する中間ノードのラベルである。例えば、図6において、番号5の上位語は番号2とrootであり、下位語は番号11と番号12である。また、番号12の上位語は番号5と番号2とrootであり、下位語は存在しない。
「2つのキーワードの間に含まれる中間ノード」:kw1とkw2においてkw1がkw2の上位語(または下位語)であるとき、kw1の下位語(または上位語)であり、かつ、kw2の上位語(または下位語)である中間ノードをそれら2つのキーワードの間に含まれる中間ノードと表す。このとき、2つのキーワードの間に含まれる中間ノードの個数はラベルがkw1である中間ノードの高さをd1、ラベルがkw2である中間ノードの高さをd2とすると|d1 −d2|−1である。例えば図6において、番号1と番号7の間に含まれる中間ノードはラベルが番号3である中間ノードである。
「直系の関係」:kw1がkw2の上位語または下位語であるとき、kw1とkw2は直系の関係であると表現する。例えば図6において、番号1は、番号3、番号4、番号7、番号8、番号9、番号10とそれぞれ直系の関係である。一方、ラベルが番号5である中間ノードからラベルが番号9である中間ノードまで階層構造をたどるためには、ラベルが番号5である中間ノードよりも上位階層にある、それぞれラベルが番号2、番号1、番号4である3つの中間ノードを順にたどらなければならないため、この2つのキーワードは直系の関係ではない。
「ancestor・共通の最若祖先」:kw1とkw2のそれぞれの上位語の集合をとり、2つの集合において共通の要素のうち最も高さが低い中間ノードのラベルと一致する上位語をancestorとする。そして、kw1とancestorの間に含まれる中間ノードの個数とkw2とancestorの間に含まれる中間ノードの個数が一致する場合、ancestorを共通の最若祖先と表現する。例えば図6において、番号7と番号9についてそれぞれの上位語の集合は{番号3,番号1,root}と{番号4,番号1,root}であるから共通の要素は番号1とrootであり、番号1がancestorである。そして、番号7とancestorの間に含まれる中間ノードの個数と番号9とancestorの間に含まれる中間ノードの個数はともに1であるから、番号1は共通の最若祖先である。一方、番号4と番号7について、それぞれの上位語の集合は{番号1,root}と{番号3,番号1,root}であるから共通の要素は番号1とrootであり、番号1がancestorであるが、番号4とancestorの間に含まれる中間ノードの個数は0個、番号7とancestorの間に含まれる中間ノードの個数は1個で一致しないので、番号1は共通の最若祖先ではない。同様に、番号3と番号6については、ancestorと共通の最若祖先はともにrootであり、番号2と番号3については、ancestorはrootであるが、rootは共通の最若祖先ではない。
次に、2つのスコアscore1(kw1, kw2)、score2(kw1, kw2)について説明する。
score1(kw1, kw2)は、既存の階層構造においてkw1とkw2をラベルとする2つの中間ノードが親子関係である可能性を示す推定値であり、kw1とkw2が既存の階層構造において直系の関係であり、かつ、それらの間に含まれる中間ノードの個数が少ないほど高スコアとなる。例えば図6において、score1(番号1,番号4) > score1(番号1、番号10)となる。
score2(kw1, kw2)は、既存の階層構造においてkw1とkw2をラベルとする2つの中間ノードが兄弟関係である可能性を示す推定値であり、kw1とkw2が既存の階層構造において共通の最若祖先を持ち、かつ、kw1あるいはkw2と2つのキーワードの共通の最若祖先の間に含まれる中間ノードの個数が少ないほど高スコアとなる。例えば図6において、score2(番号3,番号4) > score2(番号7,番号10)となる。
以下では、図2のステップS130のスコア算出処理について、図7のフローチャートに従って詳細に説明する。
キーワード組み合わせDB40の各レコード(kw1, kw2)において、以下の処理を行う。
kw1、kw2、score1(kw1, kw2)=0、score2(kw1, kw2)=0をキーワード組み合わせスコアDB70に格納する(ステップS210)。キーワード組み合わせスコアDB70はkw1、kw2、score1、score2をカラムとするDBである。
参照DB60のM個の階層構造それぞれについて、識別番号の昇順に、kw1、kw2と一致する中間ノードを探索する(ステップS220)。
kw1とkw2をラベルとする中間ノードが存在する場合、例えば以下のようにして、2つのスコアを算出する(ステップS230、S250)。ただし、スコアの算出方法は以下の方法に限るものではない。
[kw1とkw2が直系の関係である場合(ステップS230、S240)]
kw1とkw2が直系の関係であるかどうかを調べ、直系の関係である場合、score1(kw1, kw2)を以下の式により算出する(ステップS230)。
Figure 0005903372
ここで、nはkw1とkw2の間に含まれる中間ノードの個数を表す。
次に、ステップS230で算出したscore1(kw1, kw2)をキーワード組み合わせスコアDB70に格納する処理を行う(ステップS240)。ここでは、キーワード組み合わせスコアDB70に格納されているscore1(kw1, kw2)=AとステップS230で算出したスコアを比較して、A < score1(kw1, kw2)である場合のみ、キーワード組み合わせスコアDB70にscore1(kw1, kw2)を格納し、スコアを更新する。スコアを更新した場合、kw1がkw2の上位語である場合はそのまま、kw2がkw1の上位語である場合はkw1とkw2を入れ替えてキーワード組み合わせスコアDB70にkw1とkw2を格納する。ここで、k番目の階層構造について処理をしているとき、Aは1番目から(k−1)番目の階層構造について処理したときにステップS230で算出され、ステップS240でキーワード組み合わせスコアDB70に格納されたscore1(kw1, kw2)であるとする。ただし、kは1以上M以下の自然数である。
[kw1とkw2に共通の最若祖先がいる場合(ステップS250、S260)]
kw1とkw2が直系の関係になく、kw1とkw2に共通の最若祖先がいる場合、score2(kw1, kw2)を以下の式により算出する(ステップS250)。
Figure 0005903372
ここで、mはkw1またはkw2と共通の祖先の間に含まれる中間ノードの個数を表す。また、tは0以上の整数で、例えば人手によって設定された閾値であり、例えばt=4やt=5である。
次に、ステップS250で算出したscore2(kw1, kw2)をキーワード組み合わせスコアDB70に格納する処理を行う(ステップS260)。
ここでは、キーワード組み合わせスコアDB70に格納されているscore2(kw1, kw2)=BとステップS250で算出したスコアを比較して、B < score2(kw1, kw2)である場合のみ、キーワード組み合わせスコアDB70にscore2(kw1, kw2)を格納し、スコアを更新する。ここで、l番目の階層構造について処理をしているとき、Bは1番目から(l−1)番目の階層構造について処理したときにステップS250で算出され、ステップS260でキーワード組み合わせスコアDB70に格納されたscore2(kw1, kw2)である。ただし、lは1以上M以下の自然数である。
図8に、キーワード組み合わせスコアDB70のデータ例を示す。
<間接スコア算出部80>
間接スコア算出部80は、キーワード組み合わせスコアDB70のデータを入力として、score1(kw1, kw2)とscore2(kw1, kw2)を更新する(図2のステップS140)。以下では、ステップS140の間接スコア算出処理について、図9のフローチャートに従って詳細に説明する。ただし、スコアの算出方法については以下の方法に限るものではない。
図9に示すように、score1(kw1, kw2)=0かつscore2(kw1, kw2)=0であるキーワード組み合わせ(kw1, kw2)に対して、間接スコア算出部80は以下の処理を行う。
score1(kw1, α)=a、かつ、score2(α, kw2)=aとなるα、aがあるかどうかを調べ、ある場合に、ステップS310として以下の処理を行う。
ステップS310)kw1をαとkw2の共通の最若祖先とみなすことができるため、キーワード組み合わせスコアDB70にscore1(kw1, kw2)=aを格納する。ここで、αはキーワード組み合わせスコアDB70に格納されているキーワード、aはキーワード組み合わせスコアDB70に格納されているscore1である。
score1(kw1, α)=a、かつ、score2(α, kw2)=aとなるα、aがない場合、score1(β, kw1)=b、かつ、score1(β, kw2)=bとなるβ、bがあるかどうかを調べ、ある場合に、ステップS320として以下の処理を行う。
ステップS320)βをkw1とkw2の共通の最若祖先とみなすことができるため、キーワード組み合わせスコアDB70にscore2(kw1, kw2)=bを格納する。ここで、βはキーワード組み合わせスコアDB70に格納されているキーワード、bはキーワード組み合わせスコアDB70に格納されているscore1である。
間接スコア算出部80によって更新されたキーワード組み合わせスコアDB70のデータ例を図10に示す。
なお、上記の例は2つの関連度スコアがともに0であるキーワードの組み合わせに対して関連度スコアの更新をしているが、これは一例に過ぎず、2つの関連度スコアがともに0でないキーワードの組み合わせに対しても関連度スコアを更新することができる。この場合、例えば、2つの関連度スコアがそれぞれどのような範囲のスコアであるキーワードの組み合わせについて関連度スコアの更新をするかを、間接スコア算出部80に予め設定しておき、間接スコア算出部80は、この設定に基づいて、関連度スコアの更新処理を行う。
上記のように、間接スコア算出部80は、組み合わせに係る2つのキーワードと異なるキーワードと、組み合わせに係るキーワードとの組み合わせに対応する関連度スコアに基づいて、間接的に組み合わせに係る2つのキーワード間の関係を推定し、関連度スコアを更新する。
(実施の形態の効果)
本実施の形態に係る技術によれば、キーワード間の関連性を検索対象全体からは直接的には測ることができない場合でも高精度に求めることが可能となる。これにより、キーワードのクラスタリングの精度を向上させることが可能となり、関連性が高いクラスタやキーワードを近くに配置することが可能となる。また、これにより、ユーザはクラスタ間やキーワード間の関連性を把握することが容易になり、システムから提示された選択肢を効率よく選択することが可能となり、ユーザの検索効率が向上する。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 情報取得部
20 検索対象DB
30 情報格納部
40 キーワード組み合わせDB
50 スコア算出部
60 参照DB
70 キーワード組み合わせスコアDB
80 間接スコア算出部
100 キーワード関連度スコア算出装置
200 ユーザ端末

Claims (3)

  1. ユーザにより指定される条件に対応するキーワード集合におけるキーワード間の関連度スコアを算出するキーワード関連度スコア算出装置であって、
    前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得手段と、
    文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出手段とを備え
    前記スコア算出手段は、
    前記キーワードの組み合わせに対応する2つのノード間の関係が親子関係である可能性を示す第1の推定値と、前記キーワードの組み合わせに対応する2つのノード間の関係が兄弟関係である可能性を示す第2の推定値とを2つの関連度スコアとして算出し、
    前記キーワードの組み合わせのそれぞれについて、前記2つの関連度スコアをキーワード組み合わせスコア格納手段に格納し、
    前記キーワード組み合わせスコア格納手段に格納された情報に基づいて、キーワードの組み合わせにおける第1のキーワードと第2のキーワード以外の他キーワードと前記第1のキーワードの組み合わせの関連度スコア、及び当該他キーワードと前記第2のキーワードの組み合わせの関連度スコアに基づいて、前記第1のキーワードと前記第2のキーワードの組み合わせに対応する関連度スコアを更新する
    ことを特徴とするキーワード関連度スコア算出装置。
  2. ユーザにより指定される条件に対応するキーワード集合におけるキーワード間の関連度スコアを算出するキーワード関連度スコア算出装置が実行するキーワード関連度スコア算出方法であって、
    前記キーワード集合から、2つのキーワードの組み合わせの集合を取得し、キーワード組み合わせ格納手段に格納する組み合わせ取得ステップと、
    文字列をノードのラベルとする既存の階層構造を表すデータを格納する階層構造格納手段を参照することにより、前記キーワード組み合わせ格納手段に格納された前記キーワードの組み合わせのそれぞれについて、前記既存の階層構造における前記キーワードの組み合わせに対応する2つのノード間の関係に基づいて、当該組み合わせに係るキーワード間の関連度スコアを算出するスコア算出ステップとを備え
    前記スコア算出ステップにおいて、前記キーワード関連度スコア算出装置は、
    前記キーワードの組み合わせに対応する2つのノード間の関係が親子関係である可能性を示す第1の推定値と、前記キーワードの組み合わせに対応する2つのノード間の関係が兄弟関係である可能性を示す第2の推定値とを2つの関連度スコアとして算出し、
    前記キーワードの組み合わせのそれぞれについて、前記2つの関連度スコアをキーワード組み合わせスコア格納手段に格納し、
    前記キーワード組み合わせスコア格納手段に格納された情報に基づいて、キーワードの組み合わせにおける第1のキーワードと第2のキーワード以外の他キーワードと前記第1のキーワードの組み合わせの関連度スコア、及び当該他キーワードと前記第2のキーワードの組み合わせの関連度スコアに基づいて、前記第1のキーワードと前記第2のキーワードの組み合わせに対応する関連度スコアを更新する
    ことを特徴とするキーワード関連度スコア算出方法。
  3. コンピュータを、請求項1に記載のキーワード関連度スコア算出装置における組み合わせ取得手段、及びスコア算出手段として機能させるためのプログラム。
JP2012253295A 2012-11-19 2012-11-19 キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム Expired - Fee Related JP5903372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012253295A JP5903372B2 (ja) 2012-11-19 2012-11-19 キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012253295A JP5903372B2 (ja) 2012-11-19 2012-11-19 キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014102624A JP2014102624A (ja) 2014-06-05
JP5903372B2 true JP5903372B2 (ja) 2016-04-13

Family

ID=51025091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012253295A Expired - Fee Related JP5903372B2 (ja) 2012-11-19 2012-11-19 キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5903372B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115599890B (zh) * 2022-11-29 2023-03-21 深圳市人马互动科技有限公司 产品推荐方法及相关装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001265802A (ja) * 2000-03-17 2001-09-28 Nippon Telegr & Teleph Corp <Ntt> シソーラスにおける単語の類似度計算装置と方法および記録媒体
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP2008165303A (ja) * 2006-12-27 2008-07-17 Fujifilm Corp コンテンツ登録装置、及びコンテンツ登録方法、及びコンテンツ登録プログラム

Also Published As

Publication number Publication date
JP2014102624A (ja) 2014-06-05

Similar Documents

Publication Publication Date Title
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US20220327137A1 (en) Modifying field definitions to include post-processing instructions
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
US7941420B2 (en) Method for organizing structurally similar web pages from a web site
US10579661B2 (en) System and method for machine learning and classifying data
JP6434542B2 (ja) 検索のためのテーブルの理解
US8171029B2 (en) Automatic generation of ontologies using word affinities
US8630972B2 (en) Providing context for web articles
CN109886294A (zh) 知识融合方法、装置、计算机设备和存储介质
JP4878624B2 (ja) 文書処理装置および文書処理方法
Song et al. Exploring author name disambiguation on PubMed-scale
US8954438B1 (en) Structured metadata extraction
CN109062876A (zh) 一种基于dom网页剪枝的相似网页查找方法及系统
US8862586B2 (en) Document analysis system
JP2008198237A (ja) 構造化文書管理システム
CN106777140B (zh) 用于非结构化文档搜索的方法及装置
JP5903372B2 (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
CN115982390A (zh) 一种产业链构建和迭代扩充开发方法
CN115796146A (zh) 一种文件对比方法及装置
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
CN110543467B (zh) 时间序列数据库的模式转换方法及装置
JP6557959B2 (ja) 情報提示プログラム、情報提示方法及び情報提示装置
CN103995849B (zh) 一种事件跟踪方法及系统
JP5399988B2 (ja) 重要日時表現判定方法、重要日時表現判定装置、重要日時表現判定プログラム
JP5701830B2 (ja) 文書構造解析装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160314

R150 Certificate of patent or registration of utility model

Ref document number: 5903372

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees