JP5171686B2

JP5171686B2 - 高速化検索モデリングシステムおよび方法

Info

Publication number: JP5171686B2
Application number: JP2009039398A
Authority: JP
Inventors: 知勳崔; 光鉉金; 相浩李
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2008-02-26
Filing date: 2009-02-23
Publication date: 2013-03-27
Anticipated expiration: 2029-02-23
Also published as: KR100918361B1; JP2009205678A; KR20090091990A

Description

本発明は、高速化検索モデリングシステムおよび方法に関し、より詳細には、質問語に対する検索結果を用いてテストコレクションを生成し、テストコレクションから検索モデルを生成および評価することによって高速化された検索モデリングを構築するシステムおよび方法に関する。

最近、多様な趣味を持つ人々によって専門的な知識を検索しようとする需要が増加している。人々は特定分野に関する情報が格納されたデータベースを検索エンジンを介して検索することにより、映画、自動車、証券、スポーツなどの特定分野の専門的な知識データを習得することができる。例えば、「ワイン」に関する情報を収集しようとする人は、ワインという質問語を用いて検索結果を収集することができる。

ただし、従来に特定分野に関する情報が格納されたデータベースを検索するための検索モデルを生成する過程には多くの困難があった。具体的には、従来の検索モデルを生成する過程は、開発者が直観的に検索モデルを生成してチューニングし、検索サービス企画者がそれを検討する過程を繰り返す。すなわち、検索モデルは、開発者が中心となってモデリングされてデモが生成された後に計画者の検討によって修正され、完成した形態を有するようになる。

このとき、専門的なデータに関する開発者の知識や経験の不足により、誤った検索モデルが生成される場合が多く発生し得る。そうすれば、ユーザが入力した質問語とは全く異なる検索結果が露出されるという問題点が生じる恐れがある。このような問題点を防ぐために、検索計画者の意見を反映して検索モデルを生成することもできるが、開発者と検索計画者との間のコミュニケーション上の問題により、依然として効率性の面で問題となることがある。

したがって、専門的なデータの特性を知っていれば、検索モデルの開発者水準ではないにしても検索モデルを生成することができる発明が求められている。

本発明は、上述した問題点を解決するために案出されたものであって、質問語に対する検索結果を用いてテストコレクションを生成することによって、専門的な知識に対する正解ランキングを提供することができる高速化検索モデリングシステムおよび方法を提供することを目的とする。

また、本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することを他の目的とする。

また、本発明は、生成した検索モデルをリアルタイムで性能評価することによって、迅速に検索モデルを修正することができる高速化検索モデリングシステムおよび方法を提供することを他の目的とする。

さらに、本発明は、生成した検索モデルに対して性能評価し、性能が基準に達しない場合、検索結果のランキングを再整列してテストコレクションを再生成することによって、より安定的かつ効率的な性能の検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することをさらに他の目的とする。

上述した目的を達成するために、本発明の一実施形態に係る高速化検索モデリングシステムは、質問語に対する検索結果を用いてテストコレクション（ｔｅｓｔｃｏｌｌｅｃｔｉｏｎ）を生成するテストコレクション生成部と、前記テストコレクションから前記質問語に係る正解ランキングを判断することができる検索モデルを生成する検索モデル生成部と、前記生成された検索モデルに対して評価データを分析して前記検索モデルの性能を評価する検索モデル評価部とを備えることができる。

このとき、前記検索モデル生成部は、機械学習方法を用いて検索モデルを生成することができる。

また、前記検索モデル評価部は、前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。

また、前記検索モデル評価部は、前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。

本発明の一実施形態に係る高速化検索モデリング方法は、質問語に対する検索結果を用いてテストコレクションを生成するステップと、前記テストコレクションから前記質問語に係る正解ランキングを判断することができる検索モデルを生成するステップと、前記生成された検索モデルに対して評価データを分析して前記検索モデルの性能を評価するステップとを含むことができる。

このとき、テストコレクションを生成する前記ステップは、前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することができる。

本発明によれば、質問語に対する検索結果を用いてテストコレクションを生成することによって、専門的な知識に対する正解ランキングを提供することができる高速化検索モデリングシステムおよび方法を提供することができる。

また、本発明によれば、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。

また、本発明によれば、生成した検索モデルをリアルタイムで性能評価することによって、迅速に検索モデルを修正することができる高速化検索モデリングシステムおよび方法を提供することができる。

さらに、本発明によれば、生成した検索モデルに対して性能評価し、性能が基準に達しない場合、検索結果のランキングを再整列してテストコレクションを再生成することによって、より安定的かつ効率的な性能の検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。

本発明の一実施形態に係る高速化検索モデリングシステムの構成を示すブロック図である。本発明の一実施形態に係るテストコレクションを生成する過程の一例を示す図である。本発明の一実施形態に係るテストコレクションを生成する過程の他の例を示す図である。本発明の一実施形態に係る検索モデル生成のためにフィーチャを選択する一例を示す図である。本発明の一実施形態によって検索モデルの性能に対する評価結果の一例を示す図である。本発明の一実施形態に係る高速化検索モデリング方法を示すフローチャートである。

以下、添付の図面に記載された内容を参照しながら、本発明に係る実施形態について詳細に説明する。ただし、本発明が実施形態によって制限または限定されることはない。図中、同じ参照符号は同じ部材を示す。本発明の一実施形態に係る高速化検索モデリング方法は、高速化検索モデリングシステムによって実行することができる。

図１は、本発明の一実施形態に係る高速化検索モデリングシステムの構成を示すブロック図である。

本発明の一実施形態に係る高速化検索モデリングシステム１００は、テストコレクション生成部１０１と、検索モデル生成部１０２と、検索モデル評価部１０３とを備えることができる。

テストコレクション生成部１０１は、質問語に対する検索結果を用いてテストコレクションを生成することができる。一例として、テストコレクション生成部１０１は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。例えば、「ワイン」という質問語に１０個の検索結果が導き出されたとすれば、テストコレクション生成部１０１は、「ワイン」に対する１０個の検索結果をランキングに応じて整列して１つのテストコレクションを生成することができる。

このとき、テストコレクションは、特定の質問語とこの質問語に対する検索結果が整列されたランキングの集合であると言える。言い換えれば、テストコレクションは、質問語とこの質問語に対する検索結果の正解的なランキングを含む集合（質問正解ランキング）を意味することができる。ここで、質問語に対する検索結果の正解的なランキングは最初の整列過程で生成されるようになるが、繰り返される再整列過程を介して生成されるようにもなる。

このとき、テストコレクション生成部１０１は、データベース１０４から質問語に対する検索結果が提供されるようになる。一例として、データベース１０４は、「花」、「ワイン」、「音楽」、「スポーツ」、「財テク」などの特定分野に関する専門的な情報を格納することができる。

一例として、テストコレクション生成部１０１は、ユーザ端末機を介して質問語が属する該当分野の知識および経験を持つ専門家または検索計画者の意見または命令の入力を受けて検索結果のランキングを整列することができる。本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリングシステムおよび方法を提供することができる。

テストコレクション生成部１０１は、特定分野の多数の質問語それぞれに対してテストコレクションを生成することができる。したがって、生成されるテストコレクションの数は１つ以上とすることができる。

結局、本発明の一実施形態によれば、検索者が専門分野に対する質問語を入力して検索をする場合、専門家または検索計画者の意図に応じてランキングが整列された検索結果を検索者に露出することができる。すなわち、本発明の一実施形態によれば、専門分野に属する質問語に関する正確な検索結果を検索者に提供することができる。

テストコレクションを生成する過程については、図２および図３で具体的に説明する。

検索モデル生成部１０２は、生成されたテストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる。検索モデルは、ユーザの質問に対して最適な情報を探す過程を抽象化した模型を意味することができる。また、検索モデリングは、検索エンジンがユーザの質問に適合した文章を順序とおりに検索結果を示すために、数学的あるいは経験的な公式を用いることを意味することができる。

このとき、検索モデル生成部１０２は、機械学習方法を用いてテストコレクションから検索モデルを生成することができる。例えば、検索モデル生成部１０２は、ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ、ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅ、ｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ、ＬｉｓｔＲａｎｋ、Ｂｒａｄｌｅｙ−ＴｅｒｒｙＭｏｄｅｌ、Ｍｕｌｔｉ−ＣｌａｓｓＢｒａｄｌｅｙ−ＴｅｒｒｙＭｏｄｅｌなどの機械学習方法を用いて検索モデルを生成することができる。

また、検索モデル生成部１０２は、検索結果に対して少なくとも１つのフィーチャ（ｆｅａｔｕｒｅ）およびこのフィーチャに対する正規化方法を選択して検索モデルを生成することができる。このとき、フィーチャは、検索結果のランキングを整列するときに基準となるデータを意味することができる。すなわち、検索モデル生成部１０２は、テストコレクションを生成するとき、主にどのようなフィーチャを用いて検索結果のランキングを整列したのかを学習して検索モデルを生成することができる。

検索モデル生成部１０２が検索モデルを生成するためにフィーチャを選択する過程については、図４を参照しながら具体的に説明する。

検索モデル評価部１０３は、生成された検索モデルに対して性能を評価することができる。検索モデルの性能評価によって、生成したモデルが要求される検索結果を提供することができるか否かを判別することができる

このとき、検索モデル評価部１０３は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。すなわち、分析された加重値は、検索結果のランキングを整列するとき、どのようなフィーチャが重要な基準となったかを知らせることができる。

また、検索モデル評価部１０３は、生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。すなわち、本発明の一実施形態によれば、検索モデル評価部１０３を介して検索モデルの性能をリアルタイムで評価することによって、検索モデルの問題点を短時間で把握することができる効果がある。

このとき、検索モデルの性能が予め設定した基準を満たすことができない場合、テストコレクション生成部１０１は、検索結果のランキングを再整列し、生成されたテストコレクションを再生成することができる。図１に示すように、繰り返されるテストコレクション生成、検索モデル生成、および検索モデル評価によって、一定基準以上の性能を発揮することができる最終的な検索モデル１０５が生成されるようになる。すなわち、本発明の一実施形態によれば、評価データの分析を介して検索モデルの性能を評価することによって、安定した性能を保障することができる検索モデル１０５が生成されるようになる。検索モデル評価部１０３については、図５を参照しながら具体的に説明する。

図２は、本発明の一実施形態に係るテストコレクションを生成する過程の一例を示す図である。

具体的に、図２は、質問語２０１に対する検索結果を整列する過程を示している。図２を参照すれば、「映画」分野において「戦争」という質問語に対する検索結果を整列してテストコレクションを生成する過程を示している。図２において、テストコレクションは、質問語２０１と質問語２０１に対して整列された検索結果２０２、２０３のランキング（正解ランキング）との集合を意味することができる。

上述して説明したように、検索結果は、データベース１０４から質問語に対する検索結果が提供されるようになる。図２に示すように、質問語２０１は、「戦争」の他にも「美女」、「カリビアンの海賊」、「ハリーポッター」、「スーパーマン」など映画分野において少なくとも１つとすることができる。

テストコレクション生成部１０１は、質問語に対する検索結果を用いてテストコレクションを生成することができる。このとき、テストコレクション生成部１０１は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。上述したように、テストコレクションは、整列基準（少なくとも１つのフィーチャ）によって質問語に対する検索結果を整列して導き出された質問および正解ランキングの対の組み合わせを意味することができる。このとき、テストコレクションの個数は、質問語の個数によって決定されるようになる。

図２に示すように、「宇宙戦争」に対する検索結果２０３が１位であるが、検索結果のランキングを整列し、４位の「エックスマン−最後の戦争」に対する検索結果２０２を１位にすることができる。検索結果のランキングを整列する基準は、検索結果のフィーチャに応じて変えることができる。例えば、「映画」に対する検索結果である場合、検索結果のフィーチャは、「最新性、イメージ数、評点、参加者数、名セリフ数、文書長さ」などを含むことができる。このような検索結果のフィーチャに対しては、映画専門家または検索計画者が検索モデルの開発者よりも理解度が高いことがある。

したがって、一例として、テストコレクション生成部１０１は、ユーザ端末機を介して質問語が属した該当分野の知識および経験を持つ専門家または検索計画者の意見または命令の入力を受けて検索結果をランキングに応じて整列することができる。

図３は、本発明の一実施形態に係るテストコレクションを生成する過程の他の例を示す図である。

具体的に、図３は、質問語３０１に対する検索結果を整列する過程を示している。図３を参照すれば、「映画」分野において「ハリー・ポッター」という質問語に対する検索結果を整列してテストコレクションを生成する過程を示している。

図３に示すように、ランキング１位に整列された検索結果が３つであることを確認することができる。一例として、テストコレクション生成部１０１は、質問語３０１に対する検索結果３０２、３０３、３０４をランキングで区分し難い場合またはフィーチャの差がほぼない場合、同じランキングで整列することができる。例えば、ランキングで区分し難い場合は、検索結果間の類似した検索頻度を示したりシリーズ形態である場合を含むことができる。同じランキングで整列するための基準は、システムの構成に応じて変更することができる。

図４は、本発明の一実施形態に係る検索モデル生成のためにフィーチャを選択する一例を示す図である。

このとき、検索モデルは、特定の質問語に対して最も適合性が高い情報を検索する過程を抽象化する模型を意味することができる。検索モデル生成部１０２は、テストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる。すなわち、検索モデル生成部１０２は、整列された検索結果のランキングが正解ランキングであるか否かを判断するために検索モデルを生成することができる。このとき、検索モデル生成部１０２は、少なくとも１つのフィーチャを選択し、機械学習方法を用いて検索モデルを生成することができる。

図４に示されたフィーチャ選択テーブル４００は、フィーチャそれぞれに対してフィーチャ名４０１、フィーチャに対する説明４０２、および正規化方法４０３で構成することができる。フィーチャ選択テーブル４００は、システムに応じて構成される目録が変わることがある。図４に示すように、フィーチャは「最新性、イメージ数、評点、評点参加者／レビュー数、名セリフ数」が選択された。一例として、検索モデル生成部１０２は、各フィーチャに対して正規化方法を付加的に選択して検索モデルを生成することができる。

正規化方法は、「初期値」または「ログ正規化」を含むことができる。すなわち、フィーチャの値が桁数が小さい場合、該当フィーチャ値は初期値をそのまま用いるようになる。反対に、フィーチャの値が桁数が大きい場合、該当フィーチャ値はログ正規化によって用いられるようになる。正規化方法を選択する基準は、システムの構成に応じて変わることがある。

図５は、本発明の一実施形態によって検索モデルの性能に対する評価結果の一例を示す図である。

具体的に、図５は、学習結果テーブル５００、評価データ５０５、および分析グラフ５０８を示している。学習結果テーブル５００は、フィーチャ名５０１、フィーチャそれぞれに対する説明５０２、正規化方法５０３、および重要度５０４を含むことができる。検索モデル評価部１０３は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。一例として、検索モデル評価部１０３は、機械学習を用いてテストコレクションから予測した検索モデルのフィーチャそれぞれに対して加重値を分析することができる。このとき、加重値は、正解ランキングを含むテストコレクション生成時の基準となるフィーチャそれぞれの重要度を意味することができる。例えば、質問語が「映画」である場合には、映画に対する検索結果の正解ランキングを用いて、機械学習によって正解ランキングが決定される基準であるフィーチャそれぞれの重要度（加重値）が決定されるようになる。具体的に、映画に対する検索結果の正解ランキングは、評点、最新性、類似度、観客数などのフィーチャそれぞれの重要度によって決定されるようになる。

図５を参照すれば、学習結果テーブル５００において、重要度５０４の項目が分析された加重値と対応していると言える。

すなわち、検索モデル評価部１０３は、どのようなフィーチャを中心として検索結果のランキングを整列してテストコレクションを生成したのかを重要度項目によって評価することができる。図５を参照すれば、検索モデル評価部１０３は、類似度、最新性、信頼度のある評点を中心として検索結果のランキングを整列してテストコレクションを生成したと評価することができる。

また、検索モデル評価部１０３は、評価データ５０５によって、生成された検索モデルに対する正確度（ｐｒｅｃｉｓｉｏｎ）および相関度（ｃｏｒｒｅｌａｔｉｏｎ）をリアルタイムで確認することができる。ここで、正確度は、質問語と生成された検索モデルとの正確度を意味することができる。また、相関度は、質問語と検索モデルとの相関度を意味することができる。

また、分析グラフ５０８は、質問語に対するテストコレクションの数と相関度の関係を示す。図５を参照すれば、質問語に対するテストコレクションの数が増加するほど、相関度が増加することが分かる。すなわち、テストコレクションを多く生成するほど、質問語と検索モデルとの間の相関関係が高くなるようになる。

図６は、本発明の一実施形態に係る高速化検索モデリング方法を示すフローチャートである。

本発明の一実施形態に係る高速化検索モデリング方法は、質問語に対する検索結果を用いてテストコレクションを生成することができる（Ｓ６０１）。テストコレクションを生成するステップＳ６０１は、検索結果のランキングを整列して質問語に対するテストコレクションを生成することができる。上述して説明したように、テストコレクションは、特定の質問語とこの質問語に対する検索結果が整列されたランキングの集合であると言える。

言い換えれば、テストコレクションは、質問語とこの質問語に対する検索結果の正解的なランキングを含む集合を意味することができる。ここで、質問語に対する検索結果の正解的なランキングは最初の整列過程で生成されるようになるが、繰り返される再整列過程を介して生成されることもできる。

このとき、テストコレクションを生成するステップＳ６０１は、検索結果のランキングを区分することができない場合、同じ順位で整列することができる。すなわち、テストコレクションを生成するステップＳ６０１は、検索結果間における順位の算定が曖昧であってランキングを区分することができない場合、同じ順位で整列することができる。また、テストコレクションは、特定分野の多数の質問語それぞれに対して生成することができ、生成されるテストコレクションの数は１つ以上とすることができる。

一例として、テストコレクションを生成するステップＳ６０１は、ユーザ端末機を介して質問語が属した該当分野の知識および経験を持つ専門家または検索企画者の意見または命令の入力を受けて検索結果のランキングを整列することができる。本発明は、質問語に対する検索結果のランキングをこの質問語に対する専門家または検索計画者が中心となって整列することによって、より正確な検索モデルを生成することができる高速化検索モデリング方法を提供することができる。

本発明の一実施形態に係る高速化検索モデリング方法は、テストコレクションから質問語に係る正解ランキングを判断することができる検索モデルを生成することができる（Ｓ６０２）。

このとき、検索モデルを生成するステップＳ６０２は、機械学習方法を用いて検索モデルを生成することができる。一例として、検索モデルを生成するステップＳ６０２は、ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎ、ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｒｅｇｒｅｓｓｉｏｎｔｒｅｅ、ｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎ、ＬｉｓｔＲａｎｋ、Ｂｒａｄｌｅｙ−ＴｅｒｒｙＭｏｄｅｌ、Ｍｕｌｔｉ−ＣｌａｓｓＢｒａｄｌｅｙ−ＴｅｒｒｙＭｏｄｅｌなどの機械学習方法を用いて検索モデルを生成することができる。

このとき、検索モデルを生成するステップＳ６０２は、検索結果に対して少なくとも１つのフィーチャおよびこのフィーチャに対する正規化方法を選択して検索モデルを生成することができる。このとき、フィーチャは、検索結果のランキングを整列するときに基準となるデータを意味することができる。すなわち、検索モデルを生成するステップＳ６０２は、専門家または検索計画者が検索結果のランキングを整列するときに基準となるフィーチャを参考し、機械学習方法を用いて検索モデルを生成することができる。

本発明の一実施形態に係る高速化検索モデリング方法は、生成された検索モデルに対して検索モデルの性能を評価することができる（Ｓ６０３）。

このとき、検索モデルの性能を評価するステップＳ６０３は、検索結果に対して選択されたフィーチャそれぞれの加重値を分析することができる。すなわち、検索モデルの性能を評価するステップＳ６０３は、加重値を分析することによって、検索結果の整列を介してテストコレクションを生成するとき、専門家または検索計画者が重点的に参考したフィーチャを判断することができる。

このとき、検索モデルの性能を評価するステップＳ６０３は、生成された検索モデルに対して正確度および相関度をリアルタイムで確認することができる。すなわち、検索モデルの性能を評価するステップＳ６０３は、検索モデルの性能をリアルタイムで評価することによって、検索モデルの問題点を短時間で把握することができる。

このとき、テストコレクションを生成するステップＳ６０１は、検索モデルの性能が予め設定した基準を満たすことができない場合、検索結果のランキングを再整列し、生成されたテストコレクションを再生成することができる。すなわち、本発明の一実施形態によれば、テストコレクションを生成するステップＳ６０１を介して検索モデルの性能を評価し、評価データに基づいて再びテストコレクションを生成することによって、安定した性能を保障することができる検索モデルが生成されるようになる。

図６で説明しなかった部分は、図１〜図５を参考することができる。

なお、本発明に係る高速化検索モデリング方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、記録媒体は、プログラム命令、データ構造などを保存する信号を送信する搬送波を含む光または金属線、導波管などの送信媒体でもある。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。

上述したように、本発明の好ましい実施形態を参照して説明したが、該当の技術分野において熟練した当業者にとっては、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更させることができることを理解することができるであろう。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。

１００：高速化検索モデリングシステム
１０１：テストコレクション生成部
１０２：検索モデル生成部
１０３：検索モデル評価部
１０４：データベース
１０５：検索モデル

Claims

質問語に対する検索結果を用いて正解ランキングを含むテストコレクションを生成するテストコレクション生成部と、
前記テストコレクションから前記質問語に係るランキングを判断することができる検索モデルを生成する検索モデル生成部と、
前記生成された検索モデルに対して性能を評価する検索モデル評価部と、
を備えることを特徴とする高速化検索モデリングシステム。
前記テストコレクション生成部は、
前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記テストコレクション生成部は、
前記検索結果のランキングを区分することができない場合、同じ順位で整列することができることを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記テストコレクションは、
前記質問語と前記質問語に対する検索結果の正解ランキング間の集合であることを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記検索モデル生成部は、
機械学習方法を用いて検索モデルを生成することを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記検索モデル生成部は、
前記検索結果に対して少なくとも１つのフィーチャおよび前記フィーチャに対する正規化方法を選択して検索モデルを生成することを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記検索モデル評価部は、
前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することを特徴とする請求項６に記載の高速化検索モデリングシステム。
前記検索モデル評価部は、
前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することを特徴とする請求項１に記載の高速化検索モデリングシステム。
前記テストコレクション生成部は、
前記検索モデルの性能が予め設定した基準を満たすことができない場合、前記検索結果のランキングを再整列し、前記生成されたテストコレクションを再生成することを特徴とする請求項１に記載の高速化検索モデリングシステム。
高速化検索モデリングシステムが実行する高速化検索モデリング方法であって、
質問語に対する検索結果を用いて正解ランキングを含むテストコレクションをテストコレクション生成部で生成するステップと、
前記テストコレクションから前記質問語に係るランキングを判断することができる検索モデルを検索モデル生成部で生成するステップと、
前記生成された検索モデルに対して前記検索モデルの性能を検索モデル評価部で評価するステップと、
を含むことを特徴とする高速化検索モデリング方法。
テストコレクションを生成する前記ステップは、
前記検索結果のランキングを整列して前記質問語に対するテストコレクションを生成することを特徴とする請求項１０に記載の高速化検索モデリング方法。
テストコレクションを生成する前記ステップは、
前記検索結果のランキングを区分することができない場合、同じ順位で整列することができることを特徴とする請求項１０に記載の高速化検索モデリング方法。
前記テストコレクションは、
前記質問語と前記質問語に対する検索結果の正解ランキング間の集合であることを特徴とする請求項１０に記載の高速化検索モデリング方法。
検索モデルを生成する前記ステップは、
機械学習方法を用いて検索モデルを生成することを特徴とする請求項１０に記載の高速化検索モデリング方法。
検索モデルを生成する前記ステップは、
前記検索結果に対して少なくとも１つのフィーチャおよび前記フィーチャに対する正規化方法を選択して検索モデルを生成することを特徴とする請求項１０に記載の高速化検索モデリング方法。
検索モデルの性能を評価する前記ステップは、
前記検索結果に対して選択されたフィーチャそれぞれの加重値を分析することを特徴とする請求項１５に記載の高速化検索モデリング方法。
検索モデルの性能を評価する前記ステップは、
前記生成された検索モデルに対して正確度および相関度をリアルタイムで確認することを特徴とする請求項１０に記載の高速化検索モデリング方法。
テストコレクションを生成する前記ステップは、
前記検索モデルの性能が予め設定した基準を満たすことができない場合、前記検索結果のランキングを再整列し、前記生成されたテストコレクションを再生成することを特徴とする請求項１０に記載の高速化検索モデリング方法。
コンピュータに請求項１０〜１８のうちのいずれか一項記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。