JP5171686B2 - 高速化検索モデリングシステムおよび方法 - Google Patents

高速化検索モデリングシステムおよび方法 Download PDF

Info

Publication number
JP5171686B2
JP5171686B2 JP2009039398A JP2009039398A JP5171686B2 JP 5171686 B2 JP5171686 B2 JP 5171686B2 JP 2009039398 A JP2009039398 A JP 2009039398A JP 2009039398 A JP2009039398 A JP 2009039398A JP 5171686 B2 JP5171686 B2 JP 5171686B2
Authority
JP
Japan
Prior art keywords
search
model
test collection
search model
accelerated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009039398A
Other languages
English (en)
Other versions
JP2009205678A (ja
Inventor
知 勳 崔
光 鉉 金
相 浩 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2009205678A publication Critical patent/JP2009205678A/ja
Application granted granted Critical
Publication of JP5171686B2 publication Critical patent/JP5171686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Description

本発明は、高速化検索モデリングシステムおよび方法に関し、より詳細には、質問語に対する検索結果を用いてテストコレクションを生成し、テストコレクションから検索モデルを生成および評価することによって高速化された検索モデリングを構築するシステムおよび方法に関する。
最近、多様な趣味を持つ人々によって専門的な知識を検索しようとする需要が増加している。人々は特定分野に関する情報が格納されたデータベースを検索エンジンを介して検索することにより、映画、自動車、証券、スポーツなどの特定分野の専門的な知識データを習得することができる。例えば、「ワイン」に関する情報を収集しようとする人は、ワインという質問語を用いて検索結果を収集することができる。
ただし、従来に特定分野に関する情報が格納されたデータベースを検索するための検索モデルを生成する過程には多くの困難があった。具体的には、従来の検索モデルを生成する過程は、開発者が直観的に検索モデルを生成してチューニングし、検索サービス企画者がそれを検討する過程を繰り返す。すなわち、検索モデルは、開発者が中心となってモデリングされてデモが生成された後に計画者の検討によって修正され、完成した形態を有するようになる。
このとき、専門的なデータに関する開発者の知識や経験の不足により、誤った検索モデルが生成される場合が多く発生し得る。そうすれば、ユーザが入力した質問語とは全く異なる検索結果が露出されるという問題点が生じる恐れがある。このような問題点を防ぐために、検索計画者の意見を反映して検索モデルを生成することもできるが、開発者と検索計画者との間のコミュニケーション上の問題により、依然として効率性の面で問題となることがある。
したがって、専門的なデータの特性を知っていれば、検索モデルの開発者水準ではないにしても検索モデルを生成することができる発明が求められている。
本発明は、上述した問題点を解決するために案出されたものであって、質問語に対する検索結果を用いてテストコレクションを生成することによって、専門的な知識に対する正解ランキングを提供することができる高速化検索モデリングシステムおよび方法を提供することを目的とする。
また、本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することを他の目的とする。
また、本発明は、生成した検索モデルをリアルタイムで性能評価することによって、迅速に検索モデルを修正することができる高速化検索モデリングシステムおよび方法を提供することを他の目的とする。
さらに、本発明は、生成した検索モデルに対して性能評価し、性能が基準に達しない場合、検索結果のランキングを再整列してテストコレクションを再生成することによって、より安定的かつ効率的な性能の検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することをさらに他の目的とする。
上述した目的を達成するために、本発明の一実施形態に係る高速化検索モデリングシステムは、質問語に対する検索結果を用いてテストコレクション(test collection)を生成するテストコレクション生成部と、前記テストコレクションから前記質問語に係る正解ランキングを判断することができる検索モデルを生成する検索モデル生成部と、前記生成された検索モデルに対して評価データを分析して前記検索モデルの性能を評価する検索モデル評価部とを備えることができる。
このとき、前記検索モデル生成部は、機械学習方法を用いて検索モデルを生成することができる。
また、前記検索モデル評価部は、前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。
また、前記検索モデル評価部は、前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。
本発明の一実施形態に係る高速化検索モデリング方法は、質問語に対する検索結果を用いてテストコレクションを生成するステップと、前記テストコレクションから前記質問語に係る正解ランキングを判断することができる検索モデルを生成するステップと、前記生成された検索モデルに対して評価データを分析して前記検索モデルの性能を評価するステップとを含むことができる。
このとき、テストコレクションを生成する前記ステップは、前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することができる。
本発明によれば、質問語に対する検索結果を用いてテストコレクションを生成することによって、専門的な知識に対する正解ランキングを提供することができる高速化検索モデリングシステムおよび方法を提供することができる。
また、本発明によれば、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。
また、本発明によれば、生成した検索モデルをリアルタイムで性能評価することによって、迅速に検索モデルを修正することができる高速化検索モデリングシステムおよび方法を提供することができる。
さらに、本発明によれば、生成した検索モデルに対して性能評価し、性能が基準に達しない場合、検索結果のランキングを再整列してテストコレクションを再生成することによって、より安定的かつ効率的な性能の検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。
本発明の一実施形態に係る高速化検索モデリングシステムの構成を示すブロック図である。 本発明の一実施形態に係るテストコレクションを生成する過程の一例を示す図である。 本発明の一実施形態に係るテストコレクションを生成する過程の他の例を示す図である。 本発明の一実施形態に係る検索モデル生成のためにフィーチャを選択する一例を示す図である。 本発明の一実施形態によって検索モデルの性能に対する評価結果の一例を示す図である。 本発明の一実施形態に係る高速化検索モデリング方法を示すフローチャートである。
以下、添付の図面に記載された内容を参照しながら、本発明に係る実施形態について詳細に説明する。ただし、本発明が実施形態によって制限または限定されることはない。図中、同じ参照符号は同じ部材を示す。本発明の一実施形態に係る高速化検索モデリング方法は、高速化検索モデリングシステムによって実行することができる。
図1は、本発明の一実施形態に係る高速化検索モデリングシステムの構成を示すブロック図である。
本発明の一実施形態に係る高速化検索モデリングシステム100は、テストコレクション生成部101と、検索モデル生成部102と、検索モデル評価部103とを備えることができる。
テストコレクション生成部101は、質問語に対する検索結果を用いてテストコレクションを生成することができる。一例として、テストコレクション生成部101は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。例えば、「ワイン」という質問語に10個の検索結果が導き出されたとすれば、テストコレクション生成部101は、「ワイン」に対する10個の検索結果をランキングに応じて整列して1つのテストコレクションを生成することができる。
このとき、テストコレクションは、特定の質問語とこの質問語に対する検索結果が整列されたランキングの集合であると言える。言い換えれば、テストコレクションは、質問語とこの質問語に対する検索結果の正解的なランキングを含む集合(質問正解ランキング)を意味することができる。ここで、質問語に対する検索結果の正解的なランキングは最初の整列過程で生成されるようになるが、繰り返される再整列過程を介して生成されるようにもなる。
このとき、テストコレクション生成部101は、データベース104から質問語に対する検索結果が提供されるようになる。一例として、データベース104は、「花」、「ワイン」、「音楽」、「スポーツ」、「財テク」などの特定分野に関する専門的な情報を格納することができる。
一例として、テストコレクション生成部101は、ユーザ端末機を介して質問語が属する該当分野の知識および経験を持つ専門家または検索計画者の意見または命令の入力を受けて検索結果のランキングを整列することができる。本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。
テストコレクション生成部101は、特定分野の多数の質問語それぞれに対してテストコレクションを生成することができる。したがって、生成されるテストコレクションの数は1つ以上とすることができる。
結局、本発明の一実施形態によれば、検索者が専門分野に対する質問語を入力して検索をする場合、専門家または検索計画者の意図に応じてランキングが整列された検索結果を検索者に露出することができる。すなわち、本発明の一実施形態によれば、専門分野に属する質問語に関する正確な検索結果を検索者に提供することができる。
テストコレクションを生成する過程については、図2および図3で具体的に説明する。
検索モデル生成部102は、生成されたテストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる。検索モデルは、ユーザの質問に対して最適な情報を探す過程を抽象化した模型を意味することができる。また、検索モデリングは、検索エンジンがユーザの質問に適合した文章を順序とおりに検索結果を示すために、数学的あるいは経験的な公式を用いることを意味することができる。
このとき、検索モデル生成部102は、機械学習方法を用いてテストコレクションから検索モデルを生成することができる。例えば、検索モデル生成部102は、Linear Regression、classification and regression tree、logistic regression、ListRank、Bradley−Terry Model、Multi−Class Bradley−Terry Modelなどの機械学習方法を用いて検索モデルを生成することができる。
また、検索モデル生成部102は、検索結果に対して少なくとも1つのフィーチャ(feature)およびこのフィーチャに対する正規化方法を選択して検索モデルを生成することができる。このとき、フィーチャは、検索結果のランキングを整列するときに基準となるデータを意味することができる。すなわち、検索モデル生成部102は、テストコレクションを生成するとき、主にどのようなフィーチャを用いて検索結果のランキングを整列したのかを学習して検索モデルを生成することができる。
検索モデル生成部102が検索モデルを生成するためにフィーチャを選択する過程については、図4を参照しながら具体的に説明する。
検索モデル評価部103は、生成された検索モデルに対して性能を評価することができる。検索モデルの性能評価によって、生成したモデルが要求される検索結果を提供することができるか否かを判別することができる
このとき、検索モデル評価部103は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。すなわち、分析された加重値は、検索結果のランキングを整列するとき、どのようなフィーチャが重要な基準となったかを知らせることができる。
また、検索モデル評価部103は、生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。すなわち、本発明の一実施形態によれば、検索モデル評価部103を介して検索モデルの性能をリアルタイムで評価することによって、検索モデルの問題点を短時間で把握することができる効果がある。
このとき、検索モデルの性能が予め設定した基準を満たすことができない場合、テストコレクション生成部101は、検索結果のランキングを再整列し、生成されたテストコレクションを再生成することができる。図1に示すように、繰り返されるテストコレクション生成、検索モデル生成、および検索モデル評価によって、一定基準以上の性能を発揮することができる最終的な検索モデル105が生成されるようになる。すなわち、本発明の一実施形態によれば、評価データの分析を介して検索モデルの性能を評価することによって、安定した性能を保障することができる検索モデル105が生成されるようになる。検索モデル評価部103については、図5を参照しながら具体的に説明する。
図2は、本発明の一実施形態に係るテストコレクションを生成する過程の一例を示す図である。
具体的に、図2は、質問語201に対する検索結果を整列する過程を示している。図2を参照すれば、「映画」分野において「戦争」という質問語に対する検索結果を整列してテストコレクションを生成する過程を示している。図2において、テストコレクションは、質問語201と質問語201に対して整列された検索結果202、203のランキング(正解ランキング)との集合を意味することができる。
上述して説明したように、検索結果は、データベース104から質問語に対する検索結果が提供されるようになる。図2に示すように、質問語201は、「戦争」の他にも「美女」、「カリビアンの海賊」、「ハリーポッター」、「スーパーマン」など映画分野において少なくとも1つとすることができる。
テストコレクション生成部101は、質問語に対する検索結果を用いてテストコレクションを生成することができる。このとき、テストコレクション生成部101は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。上述したように、テストコレクションは、整列基準(少なくとも1つのフィーチャ)によって質問語に対する検索結果を整列して導き出された質問および正解ランキングの対の組み合わせを意味することができる。このとき、テストコレクションの個数は、質問語の個数によって決定されるようになる。
図2に示すように、「宇宙戦争」に対する検索結果203が1位であるが、検索結果のランキングを整列し、4位の「エックスマン−最後の戦争」に対する検索結果202を1位にすることができる。検索結果のランキングを整列する基準は、検索結果のフィーチャに応じて変えることができる。例えば、「映画」に対する検索結果である場合、検索結果のフィーチャは、「最新性、イメージ数、評点、参加者数、名セリフ数、文書長さ」などを含むことができる。このような検索結果のフィーチャに対しては、映画専門家または検索計画者が検索モデルの開発者よりも理解度が高いことがある。
したがって、一例として、テストコレクション生成部101は、ユーザ端末機を介して質問語が属した該当分野の知識および経験を持つ専門家または検索計画者の意見または命令の入力を受けて検索結果をランキングに応じて整列することができる。
図3は、本発明の一実施形態に係るテストコレクションを生成する過程の他の例を示す図である。
具体的に、図3は、質問語301に対する検索結果を整列する過程を示している。図3を参照すれば、「映画」分野において「ハリー・ポッター」という質問語に対する検索結果を整列してテストコレクションを生成する過程を示している。
図3に示すように、ランキング1位に整列された検索結果が3つであることを確認することができる。一例として、テストコレクション生成部101は、質問語301に対する検索結果302、303、304をランキングで区分し難い場合またはフィーチャの差がほぼない場合、同じランキングで整列することができる。例えば、ランキングで区分し難い場合は、検索結果間の類似した検索頻度を示したりシリーズ形態である場合を含むことができる。同じランキングで整列するための基準は、システムの構成に応じて変更することができる。
図4は、本発明の一実施形態に係る検索モデル生成のためにフィーチャを選択する一例を示す図である。
このとき、検索モデルは、特定の質問語に対して最も適合性が高い情報を検索する過程を抽象化する模型を意味することができる。検索モデル生成部102は、テストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる。すなわち、検索モデル生成部102は、整列された検索結果のランキングが正解ランキングであるか否かを判断するために検索モデルを生成することができる。このとき、検索モデル生成部102は、少なくとも1つのフィーチャを選択し、機械学習方法を用いて検索モデルを生成することができる。
図4に示されたフィーチャ選択テーブル400は、フィーチャそれぞれに対してフィーチャ名401、フィーチャに対する説明402、および正規化方法403で構成することができる。フィーチャ選択テーブル400は、システムに応じて構成される目録が変わることがある。図4に示すように、フィーチャは「最新性、イメージ数、評点、評点参加者/レビュー数、名セリフ数」が選択された。一例として、検索モデル生成部102は、各フィーチャに対して正規化方法を付加的に選択して検索モデルを生成することができる。
正規化方法は、「初期値」または「ログ正規化」を含むことができる。すなわち、フィーチャの値が桁数が小さい場合、該当フィーチャ値は初期値をそのまま用いるようになる。反対に、フィーチャの値が桁数が大きい場合、該当フィーチャ値はログ正規化によって用いられるようになる。正規化方法を選択する基準は、システムの構成に応じて変わることがある。
図5は、本発明の一実施形態によって検索モデルの性能に対する評価結果の一例を示す図である。
具体的に、図5は、学習結果テーブル500、評価データ505、および分析グラフ508を示している。学習結果テーブル500は、フィーチャ名501、フィーチャそれぞれに対する説明502、正規化方法503、および重要度504を含むことができる。検索モデル評価部103は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。一例として、検索モデル評価部103は、機械学習を用いてテストコレクションから予測した検索モデルのフィーチャそれぞれに対して加重値を分析することができる。このとき、加重値は、正解ランキングを含むテストコレクション生成時の基準となるフィーチャそれぞれの重要度を意味することができる。例えば、質問語が「映画」である場合には、映画に対する検索結果の正解ランキングを用いて、機械学習によって正解ランキングが決定される基準であるフィーチャそれぞれの重要度(加重値)が決定されるようになる。具体的に、映画に対する検索結果の正解ランキングは、評点、最新性、類似度、観客数などのフィーチャそれぞれの重要度によって決定されるようになる。
図5を参照すれば、学習結果テーブル500において、重要度504の項目が分析された加重値と対応していると言える。
すなわち、検索モデル評価部103は、どのようなフィーチャを中心として検索結果のランキングを整列してテストコレクションを生成したのかを重要度項目によって評価することができる。図5を参照すれば、検索モデル評価部103は、類似度、最新性、信頼度のある評点を中心として検索結果のランキングを整列してテストコレクションを生成したと評価することができる。
また、検索モデル評価部103は、評価データ505によって、生成された検索モデルに対する正確度(precision)および相関度(correlation)をリアルタイムで確認することができる。ここで、正確度は、質問語と生成された検索モデルとの正確度を意味することができる。また、相関度は、質問語と検索モデルとの相関度を意味することができる。
また、分析グラフ508は、質問語に対するテストコレクションの数と相関度の関係を示す。図5を参照すれば、質問語に対するテストコレクションの数が増加するほど、相関度が増加することが分かる。すなわち、テストコレクションを多く生成するほど、質問語と検索モデルとの間の相関関係が高くなるようになる。
図6は、本発明の一実施形態に係る高速化検索モデリング方法を示すフローチャートである。
本発明の一実施形態に係る高速化検索モデリング方法は、質問語に対する検索結果を用いてテストコレクションを生成することができる(S601)。テストコレクションを生成するステップS601は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。上述して説明したように、テストコレクションは、特定の質問語とこの質問語に対する検索結果が整列されたランキングの集合であると言える。
言い換えれば、テストコレクションは、質問語とこの質問語に対する検索結果の正解的なランキングを含む集合を意味することができる。ここで、質問語に対する検索結果の正解的なランキングは最初の整列過程で生成されるようになるが、繰り返される再整列過程を介して生成されることもできる。
このとき、テストコレクションを生成するステップS601は、検索結果のランキングを区分することができない場合、同じ順位で整列することができる。すなわち、テストコレクションを生成するステップS601は、検索結果間における順位の算定が曖昧であってランキングを区分することができない場合、同じ順位で整列することができる。また、テストコレクションは、特定分野の多数の質問語それぞれに対して生成することができ、生成されるテストコレクションの数は1つ以上とすることができる。
一例として、テストコレクションを生成するステップS601は、ユーザ端末機を介して質問語が属した該当分野の知識および経験を持つ専門家または検索企画者の意見または命令の入力を受けて検索結果のランキングを整列することができる。本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリング方法を提供することができる。
本発明の一実施形態に係る高速化検索モデリング方法は、テストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる(S602)。
このとき、検索モデルを生成するステップS602は、機械学習方法を用いて検索モデルを生成することができる。一例として、検索モデルを生成するステップS602は、Linear Regression、classification and regression tree、logistic regression、ListRank、Bradley−Terry Model、Multi−Class Bradley−Terry Modelなどの機械学習方法を用いて検索モデルを生成することができる。
このとき、検索モデルを生成するステップS602は、検索結果に対して少なくとも1つのフィーチャおよびこのフィーチャに対する正規化方法を選択して検索モデルを生成することができる。このとき、フィーチャは、検索結果のランキングを整列するときに基準となるデータを意味することができる。すなわち、検索モデルを生成するステップS602は、専門家または検索計画者が検索結果のランキングを整列するときに基準となるフィーチャを参考し、機械学習方法を用いて検索モデルを生成することができる。
本発明の一実施形態に係る高速化検索モデリング方法は、生成された検索モデルに対して検索モデルの性能を評価することができる(S603)。
このとき、検索モデルの性能を評価するステップS603は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。すなわち、検索モデルの性能を評価するステップS603は、加重値を分析することによって、検索結果の整列を介してテストコレクションを生成するとき、専門家または検索計画者が重点的に参考したフィーチャを判断することができる。
このとき、検索モデルの性能を評価するステップS603は、生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。すなわち、検索モデルの性能を評価するステップS603は、検索モデルの性能をリアルタイムで評価することによって、検索モデルの問題点を短時間で把握することができる。
このとき、テストコレクションを生成するステップS601は、検索モデルの性能が予め設定した基準を満たすことができない場合、検索結果のランキングを再整列し、生成されたテストコレクションを再生成することができる。すなわち、本発明の一実施形態によれば、テストコレクションを生成するステップS601を介して検索モデルの性能を評価し、評価データに基づいて再びテストコレクションを生成することによって、安定した性能を保障することができる検索モデルが生成されるようになる。
図6で説明しなかった部分は、図1〜図5を参考することができる。
なお、本発明に係る高速化検索モデリング方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。
上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。
100:高速化検索モデリングシステム
101:テストコレクション生成部
102:検索モデル生成部
103:検索モデル評価部
104:データベース
105:検索モデル

Claims (19)

  1. 質問語に対する検索結果を用いて正解ランキングを含むテストコレクションを生成するテストコレクション生成部と、
    前記テストコレクションから前記質問語に係るンキングを判断することができる検索モデルを生成する検索モデル生成部と、
    前記生成された検索モデルに対して性能を評価する検索モデル評価部と、
    を備えることを特徴とする高速化検索モデリングシステム。
  2. 前記テストコレクション生成部は、
    前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することを特徴とする請求項1に記載の高速化検索モデリングシステム。
  3. 前記テストコレクション生成部は、
    前記検索結果のランキングを区分することができない場合、同じ順位で整列することができることを特徴とする請求項1に記載の高速化検索モデリングシステム。
  4. 前記テストコレクションは、
    前記質問語と前記質問語に対する検索結果の正解ランキング間の集合であることを特徴とする請求項1に記載の高速化検索モデリングシステム。
  5. 前記検索モデル生成部は、
    機械学習方法を用いて検索モデルを生成することを特徴とする請求項1に記載の高速化検索モデリングシステム。
  6. 前記検索モデル生成部は、
    前記検索結果に対して少なくとも1つのフィーチャおよび前記フィーチャに対する正規化方法を選択して検索モデルを生成することを特徴とする請求項1に記載の高速化検索モデリングシステム。
  7. 前記検索モデル評価部は、
    前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することを特徴とする請求項6に記載の高速化検索モデリングシステム。
  8. 前記検索モデル評価部は、
    前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することを特徴とする請求項1に記載の高速化検索モデリングシステム。
  9. 前記テストコレクション生成部は、
    前記検索モデルの性能が予め設定した基準を満たすことができない場合、前記検索結果のランキングを再整列し、前記生成されたテストコレクションを再生成することを特徴とする請求項1に記載の高速化検索モデリングシステム。
  10. 高速化検索モデリングシステムが実行する高速化検索モデリング方法であって、
    質問語に対する検索結果を用いて正解ランキングを含むテストコレクションをテストコレクション生成部で生成するステップと、
    前記テストコレクションから前記質問語に係るンキングを判断することができる検索モデルを検索モデル生成部で生成するステップと、
    前記生成された検索モデルに対して前記検索モデルの性能を検索モデル評価部で評価するステップと、
    を含むことを特徴とする高速化検索モデリング方法。
  11. テストコレクションを生成する前記ステップは、
    前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することを特徴とする請求項10に記載の高速化検索モデリング方法。
  12. テストコレクションを生成する前記ステップは、
    前記検索結果のランキングを区分することができない場合、同じ順位で整列することができることを特徴とする請求項10に記載の高速化検索モデリング方法。
  13. 前記テストコレクションは、
    前記質問語と前記質問語に対する検索結果の正解ランキング間の集合であることを特徴とする請求項10に記載の高速化検索モデリング方法。
  14. 検索モデルを生成する前記ステップは、
    機械学習方法を用いて検索モデルを生成することを特徴とする請求項10に記載の高速化検索モデリング方法。
  15. 検索モデルを生成する前記ステップは、
    前記検索結果に対して少なくとも1つのフィーチャおよび前記フィーチャに対する正規化方法を選択して検索モデルを生成することを特徴とする請求項10に記載の高速化検索モデリング方法。
  16. 検索モデルの性能を評価する前記ステップは、
    前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することを特徴とする請求項15に記載の高速化検索モデリング方法。
  17. 検索モデルの性能を評価する前記ステップは、
    前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することを特徴とする請求項10に記載の高速化検索モデリング方法。
  18. テストコレクションを生成する前記ステップは、
    前記検索モデルの性能が予め設定した基準を満たすことができない場合、前記検索結果のランキングを再整列し、前記生成されたテストコレクションを再生成することを特徴とする請求項10に記載の高速化検索モデリング方法。
  19. コンピュータに請求項10〜18のうちのいずれか一項記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

JP2009039398A 2008-02-26 2009-02-23 高速化検索モデリングシステムおよび方法 Active JP5171686B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2008-0017243 2008-02-26
KR1020080017243A KR100918361B1 (ko) 2008-02-26 2008-02-26 고속화 검색 모델링 시스템 및 방법

Publications (2)

Publication Number Publication Date
JP2009205678A JP2009205678A (ja) 2009-09-10
JP5171686B2 true JP5171686B2 (ja) 2013-03-27

Family

ID=41147815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009039398A Active JP5171686B2 (ja) 2008-02-26 2009-02-23 高速化検索モデリングシステムおよび方法

Country Status (2)

Country Link
JP (1) JP5171686B2 (ja)
KR (1) KR100918361B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101104113B1 (ko) * 2009-11-11 2012-01-13 한국과학기술정보연구원 기술용어 간 관계 추출용 테스트 컬렉션 반자동 구축을 위한 시스템
KR101864380B1 (ko) * 2017-12-28 2018-06-04 (주)휴톰 수술영상데이터 학습시스템

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990047854A (ko) * 1997-12-05 1999-07-05 정선종 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
KR100407696B1 (ko) * 1999-06-10 2003-12-01 한국전자통신연구원 키팩트기반 텍스트검색모델의 검색성능측정방법
KR20010100702A (ko) * 2000-05-06 2001-11-14 최준호 상품구매 정보 서비스 방법
KR20010108877A (ko) * 2000-06-01 2001-12-08 이민행 웹사이트 평가 방법
US7689520B2 (en) * 2005-02-25 2010-03-30 Microsoft Corporation Machine learning system and method for ranking sets of data using a pairing cost function
KR101532715B1 (ko) * 2005-03-18 2015-07-02 써치 엔진 테크놀로지스, 엘엘씨 서치 결과를 향상시키기 위해 사용자로부터의 피드백을 적용하는 서치 엔진

Also Published As

Publication number Publication date
JP2009205678A (ja) 2009-09-10
KR100918361B1 (ko) 2009-09-22
KR20090091990A (ko) 2009-08-31

Similar Documents

Publication Publication Date Title
US8346701B2 (en) Answer ranking in community question-answering sites
US9449271B2 (en) Classifying resources using a deep network
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
US9589277B2 (en) Search service advertisement selection
US7480667B2 (en) System and method for using anchor text as training data for classifier-based search systems
CN103365997B (zh) 一种基于集成学习的观点挖掘方法
US20140101119A1 (en) Meta classifier for query intent classification
US20090083248A1 (en) Multi-Ranker For Search
US8473486B2 (en) Training parsers to approximately optimize NDCG
JP6123143B1 (ja) 特許要件適否予測装置および特許要件適否予測プログラム
US8825641B2 (en) Measuring duplication in search results
CN102023986A (zh) 参考外部知识构建文本分类器的方法和设备
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
Xie et al. A probabilistic recommendation method inspired by latent Dirichlet allocation model
Wei et al. Online education recommendation model based on user behavior data analysis
Lin Association rule mining for collaborative recommender systems.
JP5171686B2 (ja) 高速化検索モデリングシステムおよび方法
KR100727819B1 (ko) 두 집단간에 차이를 보이는 검색어를 선별하는 방법 및상기 방법을 수행하는 시스템
Adewole et al. Frequent pattern and association rule mining from inventory database using apriori algorithm
US20230273964A1 (en) Apparatus and method for evaluating search engine performance, and dashboard
Gupta et al. Feature selection: an overview
Hopfgartner et al. Simulated evaluation of faceted browsing based on feature selection
JP2009211429A (ja) 情報提供方法、情報提供装置、情報提供プログラム、および該プログラムをコンピュータに記録した記録媒体
Liu et al. Temporal knowledge completion with context-aware embeddings
Huang et al. Rough-set-based approach to manufacturing process document retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121225

R150 Certificate of patent or registration of utility model

Ref document number: 5171686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250