JP2020512651A - 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 - Google Patents
検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 Download PDFInfo
- Publication number
- JP2020512651A JP2020512651A JP2020502745A JP2020502745A JP2020512651A JP 2020512651 A JP2020512651 A JP 2020512651A JP 2020502745 A JP2020502745 A JP 2020502745A JP 2020502745 A JP2020502745 A JP 2020502745A JP 2020512651 A JP2020512651 A JP 2020512651A
- Authority
- JP
- Japan
- Prior art keywords
- search
- text
- text index
- strategy
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24532—Query optimisation of parallel queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90324—Query formulation using system suggestions
- G06F16/90328—Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本特許出願は、2017年03月31日に提交されており、出願番号が201710209677.Xであり、発明の名称が「検索方法、装置及び非一時的コンピュータ読取可能記憶媒体」であり、引用として全文で本文に組み込まれた中国特許出願の優先権を主張している。
[技術分野]
本願は、コンピュータ技術、詳しくて検索方法、装置及び非一時的コンピュータ読取可能記憶媒体に関する。
第1の態様では、本願実施例は、
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応するものであること、
各前記第1検索策略に対応する各前記第1テキストインデックスドメインに基づいて、それぞれ前記クエリテキストに対する検索操作を実行すること、
上述全ての検索操作による検索結果をマージして出力すること、
を含む検索方法を提供する。
本願の検索方法は、二種類の検索策略、即ち第1検索策略、第2検索策略を含むことができる。そのうち、第1検索策略は、単に検索データの一部のテキストインデックスドメインのみについて検索操作を実行することができるが、第2検索策略は、検索データの全部テキストインデックスドメインについて検索操作を実行することができる。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン、及び前記テキストインデックスドメインに一致する検索重みに対応することができる。
一つのクエリテキストは複数の第1検索策略に対応することも可能であるし、各第1検索策略には複数のテキストインデックスドメインを含むことも可能である。クエリテキストに一致する第1検索策略を決定した後で、各第1検索策略におけるテキストインデックスドメインに基づいて前記クエリテキストに対して検索操作をそれぞれ実行することができる。例えば、クエリテキストの「金百万」に応じて決定できる第1検索策略は、商店策略、ランドマーク策略を含む。商店策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、商店名称、ブランド名称を含む。ランドマーク策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、建筑物を含むことができる。それぞれ商店の名称、ブランド名称、及び建筑物との三つのテキストインデックスドメインに基づいて、検索データにおいてクエリテキストの「金百万」に対して検索操作を実行し、且つそれぞれ三つの検索結果リストを得ることができる。異なるテキストインデックスドメインに基づいて、検索データにおいてクエリテキストについて検索操作を実行する時に、各テキストインデックスドメインの検索重みと組み合わせてクエリテキストと検索データとの関連性を計算することができる。
全ての前記検索操作による検索結果をマージして出力する時に、先ず検索結果を並び替えて、次に重複した検索結果を除外して、残された検索結果を出力する。検索結果を並び替える時に、検索結果を、検索策略の優先順位に従いブロックランキングを行うことができ、或いは、検索結果を、各検索策略による判別得点に従いブロックランキングをすることもでき、更に或いは、検索結果の評価スコアに従い全ての検索結果を混合して並び替えることができる。若し実行された検索操作は、第2検索策略に基づいて実行された前記クエリテキストに対する検索操作を含んだら、第2検索策略に基づいて検索操作を実行することにより得られた第2検索結果を最後に配置することもできる。
ステップ200では、検索ログに基づいて第1検索策略を認識するための分類器を訓練する。
len(matchi)は、前記クエリテキストの、第iのテキストインデックスドメインに一致するテキストの長さを表す。fieldiは、第iのテキストインデックスドメインのコンテンツを表し、len(fieldi)は、第i個テキストインデックスドメインのテキストの長さを表す。一般的に、
一つの実施例において、第1検索策略を認識するための分類器を訓練するために、各類別のクエリテキストを陽性サンプルとして使用でき、且つ一定数量の陰性サンプルを収集し、陽性サンプルと陰性サンプルとを訓練サンプルデータにして学ぶことを監督する。各クエリテキスト類別は、第1検索策略に対応できる。一つの実施例において、マルチ分類器は、その一つは一つのマルチ分類器であって、そのもう一つは、複数のジ分類器フィッティング、との二種類の方式で実現できる。例えば、本実施例において複数のジ分類器フィッティングを使用できる。分類モデルには、複数選定があってもよく、本実施例にて、SVM(Support Vector Machine)分類器で訓練のサンプルデータについて監督あり学習を行うことを例として、分類器の訓練過程を説明する。先ず、訓練のサンプルデータからサンプル特徴を抽出する。前記抽出されたサンプル特徴は、少なくともクエリテキストのテキスト特徴、例えばクエリテキスト、クエリテキストに対して単語分割した後で得られた単語分割組合せを含むことができる。訓練のサンプルデータから抽出されたサンプル特徴は、query length、Prefix、suffix、POS+bigram、POS+unigram、POS、及び他の組合せ特徴を更に含むことができる。そのうち、query lengthは、クエリテキストの長さであって、Prefixとsuffixとはそれぞれクエリテキストのプレフィックスとサフィックスであって、unigramとbigramとはそれぞれクエリテキストのテキスト特徴であって、POS+unigramはクエリテキストのテキスト特徴の位置である。
各前記第1検索策略に対応するテキストインデックスドメイン、及び各テキストインデックスドメインに一致する検索重みを決定する方式は、二種類がある。その一つでは、若し第1検索策略は人工で予め設定されたら、第1検索策略におけるテキストインデックスドメインとクエリテキストとの対応関係でも、人工で予め設定され、すると、各第1検索策略に対応するテキストインデックスドメインに一致する検索重みも人工で予め設定されてもよい。各第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みは、経験に基づいて予め人工でプログラムコード中に設置されてもよいし、ユーザーインターフェースを提供することにより、ユーザーが必要に応じて設置でき、ここで繰り返して記載しない。
第i個のテキストインデックスドメインのコンテンツの長さを表す。matchiは第j条の検索ログのクエリテキストの、第i個のテキストインデックスドメインでの一致コンテンツを表し、検索過程において得られる。更に、他の一般式を採用して各テキストインデックスドメインの、毎条の検索ログにおけるシングルログ重みを計算することもできる、本実例施において、シングルログ重みの上限を制御することにより円滑な上限を得るために、指数の比例を採用する。
前文の二つのステップの計算により、各第1検索策略に対応するM個のテキストインデックスドメインの平均重みを得ることができ、そのうち一部が零ではないが、他は零である。下記一般式で非零の平均重みを正規化し、平均重みの正規化重み値を得ることができる。一般式4は下記のようである。
検索しようとするクエリテキストは、ユーザーがクライアントの検索欄に入力されたクエリテキストでもよいが、クライアントがユーザーの履歴動作ログに応じて自動に生成したクエリテキストでもよい。例えば、クライアントが、ある女性ユーザー化粧品発売ページにアクセスすることを測定した後、ユーザーの年齢情報に応じてユーザーに関係する検索結果をプッシュすることができる。この場合、クライアントは、先ずユーザーの情報に応じてクエリテキスト(例えば、中年女性)を生成し、次に、検索エンジンをコールして、自動に生成したクエリテキストについて検索操作を実行する。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応する。
一つのクエリテキストは、一つの又は複数の第1検索策略に一致すると認識されてもよく、各第1検索策略は更に各々のテキストインデックスドメイン及び検索重みに対応し、検索サーバーは、各第1検索策略に対応するリコール結果セットを得るように複数の第1検索策略に基づいて検索操作をそれぞれ実行することができる。
関連性スコア=Σ(テキストインデックスドメインの一致長さ/テキストインデックスドメインの長さ)×検索重み (一般式5)。
上述した全ての検索操作による検索結果をマージして出力するのは、プリセット策略に従い上述少なくとも一つの第1検索策略に基づいた検索結果を並び替えること、後ろに置かれた重複した検索結果を除外すること、残された検索結果を出力すること、を含むことができる。全ての前記検索操作による検索結果をマージして出力する時に、先ずプリセット策略に従い検索結果について並び替えを行うことができる。検索結果を並び替える時に、複数の第1検索策略に基づいて検索操作を実行することにより得られた検索結果を、人工で設定された優先順位に従いブロックランキングすることができ、或いは、各第1検索策略に基づいて検索操作を実行する時に得られた検索結果の関連性スコアに基づいてブロックランキングを行うことができ、更に或いは、検索結果の関連性スコアに従い全ての第1検索策略で得られた検索結果を混合して並び替える。次に、後ろに置かれた重複した検索結果を除外し、残された検索結果を出力する。
ステップ300では、検索ログに基づいて第1検索策略を認識するための分類器を訓練する。
ステップ310では、各前記第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメイン一致の検索重みを決定する。
検索しようとするクエリテキストを得る具体的な実施の様態は上文にも参照でき、ここで繰り返して記載しない。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応できる。
ステップ340では、前記少なくとも一つの第1検索策略に対応する各前記テキストインデックスドメインで、それぞれ前記クエリテキストの検索操作を実行する。
そのうち、前記第2検索策略は検索データの全のテキストインデックスドメインに対応し、且各前記テキストインデックスドメインの検索重みは同じである。
上述した全ての検索操作による検索結果をマージして出力するのは、プリセット策略に従い第1検索策略に基づいて実行された全ての検索操作による検索結果を並び替えること、第2検索策略に基づいて実行された検索操作による検索結果を、第1検索策略に基づいて実行された検索操作による検索結果の後ろに置くこと、後ろに置かれた重複の検索結果を除外すること、残された検索結果を出力すること、を含むことができる。第1検索策略に基づいて実行された検索操作による検索結果を並び替える具体的な方法は、上述実施例を参照することができ、ここで繰り返して記載しない。次に、後ろに置かれた重複の検索結果を除外して、残された検索結果を出力する。
ユーザーの使用習慣の変更又は検索データのますまる増加することと伴い、第1検索策略でもユーザー検索の需要に適応できないという問題が起こる恐れがある。この場合、ユーザーは、第2検索策略に基づいて検索操作を実行して検索結果を戻すことを頻繁に選定することもある。この場合、ユーザーによる、展示された検索結果に対する選定行動ログに基づいて、第1検索策略を更新する必要がある。前記プリセット条件は、プリセット更新周期に達すること、第1クリック率と第2クリック率との比は、プリセット閾値よりも低いこと、の少なくとも一項を含むことができる。そのうち、前記第1クリック率は、前記第1検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率であって、前記第2クリック率は、第2検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率である。
本願実施例に公開された検索装置は、クエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応し、次に、各前記第1検索策略に対応する各前記テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。そうすると、複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を得ることができる。単にクエリテキストに関連するテキストインデックスドメインで実行検索操作をすることにより、全てのテキストインデックスドメインで検索をする必要がなくなるので、関係していないテキストインデックスドメインでのリテラルヒットによるリコールエラーを避けて、検索結果の関連性を効果に向上させることができる。しかも、異なるテキストドメインインデックスに一致するように検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。
予め設置された第1検索策略とクエリテキストとの対応関係に基づいて、クエリテキストに一致する少なくとも一つの第1検索策略を決定することに用いられる第1決定ユニット511、を含む。
各第1検索策略を認識するため予め訓練された分類器でクエリテキストをそれぞれ認識することにより、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する第2決定ユニット512、を含む。
検索ログに基づいて分類器を訓練するのに用いられる検索策略分類器訓練モジュール540を更に含む。
各第1検索策略に対応する第1テキストインデックスドメイン、及び各第1テキストインデックスドメインに一致する検索重みを決定するのに用いられるテキストドメイン及び重み決定モジュール550を更に含む。
検索ログをグループ化して、各第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を表すための検索策略空間定義を生成する検索策略空間定義決定ユニット541、
前記検索策略空間定義に基づいて、各前記第1検索策略に対応する検索ログを得て、且つ各前記第1検索策略に対応する検索ログに基づいて、それぞれ相応の第1検索戦を認識するための分類器を訓練するのに用いられる訓練ユニット542、
を含む。
第1検索策略に対応する検索ログを得るのに用いられるログ獲得ユニット551、
前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各第2テキストインデックスドメインでのヒットスコアに応じて、各前記第2テキストインデックスドメインに対応する前記第1検索策略の平均重みを繰り返し計算するのに用いられる重み計算ユニット552、
前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに応じて、この第1検索策略に対応する第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定することに適用できるテキストドメイン及び重み決定ユニット553、
を含む。
検索データにおける各前記第1テキストインデックスドメインのコンテンツと前記クエリテキストとの関連性に基づいてデータリコールを実行すること、そのうち、前記関連性は、前記第1テキストインデックスドメインの検索重みに決定されたものであること、に用いられる。
第2検索策略に基づいて前記クエリテキストに対する検索操作をそれぞれ実行する補足検索モジュール560を更に含み、そのうち、前記第2検索策略が検索データの全の第2テキストインデックスドメインに対応して、且つ各前記第2テキストインデックスドメインの検索重みは互いに同じである。
プリセット条件を満たす時に、基于前記第2検索策略に対応する検索ログに基づいて前記第1検索策略を認識するための分類器を訓練して更新することに用いられる検索策略更新モジュール570を更に含む。
本特許出願は、2017年03月31日に提交されており、出願番号が201710209677.Xであり、発明の名称が「検索方法、装置及び非一時的コンピュータ読取可能記憶媒体」であり、引用として全文で本文に組み込まれた中国特許出願の優先権を主張している。
[技術分野]
本願は、コンピュータに係わる技術分野、詳しくて検索方法、装置及び非一時的コンピュータ読取可能記憶媒体に関する。
第1の態様では、本願実施例は、
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応するものであること、
各前記第1検索策略に対応する各前記第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに基づいて、それぞれ前記クエリテキストに対する検索操作を実行すること、
上述全ての検索操作による検索結果をマージして出力すること、
を含む検索方法を提供する。
本願の検索方法は、二種類の検索策略、即ち第1検索策略、第2検索策略を含むことができる。そのうち、第1検索策略は、単に検索データの一部のテキストインデックスドメインのみについて検索操作を実行することができるが、第2検索策略は、検索データの全部テキストインデックスドメインについて検索操作を実行することができる。
一つのクエリテキストは複数の第1検索策略に対応することも可能であるし、各第1検索策略には複数のテキストインデックスドメインを含むことも可能である。クエリテキストに一致する第1検索策略を決定した後で、各第1検索策略におけるテキストインデックスドメインに基づいて前記クエリテキストに対して検索操作をそれぞれ実行することができる。例えば、クエリテキストの「金百万」に応じて決定できる第1検索策略は、商店策略、ランドマーク策略を含む。商店策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、商店名称、ブランド名称を含む。ランドマーク策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、建筑物を含むことができる。それぞれ商店の名称、ブランド名称、及び建筑物との三つのテキストインデックスドメインに基づいて、検索データにおいてクエリテキストの「金百万」に対して検索操作を実行し、且つそれぞれ三つの検索結果リストを得ることができる。異なるテキストインデックスドメインに基づいて、検索データにおいてクエリテキストについて検索操作を実行する時に、各テキストインデックスドメインの検索重みと組み合わせてクエリテキストと検索データとの関連性を計算することができる。
一つの実施例において、第1検索策略を認識するための分類器を訓練するために、各類別のクエリテキストを陽性サンプルとして使用でき、且つ一定数量の陰性サンプルを収集し、陽性サンプルと陰性サンプルとを訓練サンプルデータにして学ぶことを監督する。各クエリテキスト類別は、第1検索策略に対応できる。一つの実施例において、マルチ分類器は、その一つは一つのマルチ分類器であって、そのもう一つは、複数のジ分類器フィッティング、との二種類の方式で実現できる。例えば、本実施例において複数のジ分類器フィッティングを使用できる。分類モデルには、複数選定があってもよく、本実施例にて、SVM(Support Vector Machine、サポートベクターマシン)分類器で訓練のサンプルデータについて監督あり学習を行うことを例として、分類器の訓練過程を説明する。先ず、訓練のサンプルデータからサンプル特徴を抽出する。前記抽出されたサンプル特徴は、少なくともクエリテキストのテキスト特徴、例えばクエリテキスト、クエリテキストに対して単語分割した後で得られた単語分割組合せを含むことができる。訓練のサンプルデータから抽出されたサンプル特徴は、query length、Prefix、suffix、POS+bigram、POS+unigram、POS、及び他の組合せ特徴を更に含むことができる。そのうち、query lengthは、クエリテキストの長さであって、Prefixとsuffixとはそれぞれクエリテキストのプレフィックスとサフィックスであって、unigramとbigramとはそれぞれクエリテキストのテキスト特徴であって、POS+unigramはクエリテキストのテキスト特徴の位置である。
一つのクエリテキストは、一つの又は複数の第1検索策略に一致すると認識されてもよく、各第1検索策略は更に各々のテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応し、検索サーバーは、各第1検索策略に対応するリコール結果セットを得るように複数の第1検索策略に基づいて検索操作を実行することができる。
関連性スコア=Σ(テキストインデックスドメインの一致長さ/テキストインデックスドメインの長さ)×検索重み (一般式5)。
ステップ340では、各第1検索戦略に対応する前記テキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストに対する検索操作を実行する。
本願実施例に公開された検索装置は、クエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応し、次に、各前記第1検索策略に対応する各前記テキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。そうすると、複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を得ることができる。単にクエリテキストに関連するテキストインデックスドメインで実行検索操作をすることにより、全てのテキストインデックスドメインで検索をする必要がなくなるので、関係していないテキストインデックスドメインでのリテラルヒットによるリコールエラーを避けて、検索結果の関連性を効果に向上させることができる。しかも、異なるテキストドメインインデックスに一致するように検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。
Claims (15)
- 検索方法であって、
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第一検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第一テキストインデックスドメインに一致する検索重みに対応するものであること、
各前記第1検索策略に対応する各前記第一テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作を実行すること、
上述全ての検索操作による検索結果をマージして出力すること
を含む検索方法。 - 前記検索しようとするクエリテキストに一致する前記少なくとも一つの第1検索策略を決定するのは、
予め設置された第1検索策略とクエリテキストとの対応関係に基づいて、前記クエリテキストに一致する前記少なくとも一つの第1検索策略を決定すること、を含むことを特徴とする請求項1に記載の方法。 - 前記検索しようとするクエリテキストに一致する前記少なくとも一つの第1検索策略を決定するのは、
各前記第1検索策略を認識するため予め訓練された分類器により前記クエリテキストをそれぞれ認識し、前記クエリテキストに一致する前記少なくとも一つの第1検索策略を決定する、ことを含む
ことを特徴とする請求項1に記載の方法。 - 検索ログに基づいて前記分類器を訓練することを更に含む請求項3に記載の方法。
- 前記検索ログに基づいて前記分類器を訓練するのは、
前記検索ログをグループ化させて、検索策略空間定義を生成し、そのうち前記検索策略空間定義は、各前記第1検索策略と前記検索ログにおけるクエリテキストとのマッピング関係を表すことに用いられること、
前記検索策略空間定義に基づいて、各前記第1検索策略に対応する検索ログを得ること、
各前記第1検索策略に対応する検索ログに基づいて、相応の前記第1検索策略を認識するための分類器をそれぞれ訓練すること
を含む
ことを特徴とする請求項4に記載の方法。 - 各前記第1検索策略に対応する前記第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定することを更に含むことを特徴とする請求項1に記載の方法。
- 前記第1検索策略に対応する前記第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定するのは、
前記第1検索策略に対応する検索ログを得ること、
前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各第2テキストインデックスドメインでのヒットスコアに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを繰り返し計算すること、
前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、この第1検索策略に対応する第1テキストインデックスドメインに及び各前記第1テキストインデックスドメインに一致する検索重みを決定すること
を含む
ことを特徴とする請求項6に記載の方法。 - 前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各前記第2テキストインデックスドメインでのヒットスコアに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを繰り返し計算するのは、
各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログにおけるシングルログ重みを得ること、
各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログにおけるシングルログ重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを計算すること
を含むことを特徴とする請求項7に記載の方法。 - 前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、この第1検索策略に対応する第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定するのは、
前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの正規化重み値を計算すること、
プリセット閾値よりも大きな前記正規化重み値に対応する前記第2テキストインデックスドメインを前記第1検索策略に対応する前記第1テキストインデックスドメインと決定すること、及び
前記第1テキストインデックスドメインに対応する前記正規化重み値を前記第1テキストインデックスドメインに一致する検索重みと決定すること
を含むことを特徴とする請求項7に記載の方法。 - 各前記第1検索策略に対応する各前記第1テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作をそれぞれ実行するのは、
検索データにおける各前記第1テキストインデックスドメインのコンテンツと前記クエリテキストとの関連性に基づいて、データリコールを実行し、そのうち、前記関連性は、前記第1テキストインデックスドメインの検索重みに基づいて決定されること
を含むことを特徴とする請求項1に記載の方法。 - 第2検索策略に基づいて前記クエリテキストに対する検索操作を実行し、そのうち、前記第2検索策略検索データの全部第2テキストインデックスドメインに対応して、且各前記第2テキストインデックスドメインの検索重み同じであることを特徴とする請求項1に記載の方法。
- プリセット条件を満たす時に、前記第2検索策略に対応する検索ログに基づいて前記第1検索策略を認識するための分類器を訓練し且つ更新することを更に含む請求項11に記載の方法。
- 前記プリセット条件は、
プリセット更新周期に達すること、及び
第1クリック率と第2クリック率との比値は、プリセット閾値よりも小さく、そのうち、前記第1クリック率は、前記第1検索策略に基づいて検索操を実行することによる検索結果に対するクリック率であって、前記第2クリック率は、前記第2検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率であること、
の少なくとも一項を含む請求項12に記載の方法。 - 検索装置であって、
プロセッサー、及び
非一時的コンピュータ読取可能記憶媒体
を含み、
前記非一時的コンピュータ読取可能記憶媒体には前記プロセッサーにより実行され得るマシン実行可能コマンドが記憶されており、前記マシン実行可能コマンドは、前記プロセッサーが請求項1−13のいずれか一項に記載の検索方法を実行するように促す検索装置。 - 非一時的コンピュータ読取可能記憶媒体であって、マシン実行可能コマンドが前記記憶媒体には記憶されており、プロセッサーによりコールされて実行される時に、前記マシン実行可能コマンドは、前記プロセッサーが請求項1〜13のいずれか一項に記載の検索方法を実行するように促す非一時的コンピュータ読取可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710209677.X | 2017-03-31 | ||
CN201710209677.XA CN108664515B (zh) | 2017-03-31 | 2017-03-31 | 一种搜索方法及装置,电子设备 |
PCT/CN2017/115680 WO2018176913A1 (zh) | 2017-03-31 | 2017-12-12 | 搜索方法、装置及非临时性计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020512651A true JP2020512651A (ja) | 2020-04-23 |
Family
ID=63674133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020502745A Pending JP2020512651A (ja) | 2017-03-31 | 2017-12-12 | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11144594B2 (ja) |
EP (1) | EP3608799A4 (ja) |
JP (1) | JP2020512651A (ja) |
KR (1) | KR20190128246A (ja) |
CN (1) | CN108664515B (ja) |
CA (1) | CA3059929C (ja) |
SG (1) | SG11201909119YA (ja) |
WO (1) | WO2018176913A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256070B (zh) * | 2018-01-17 | 2022-07-15 | 北京百度网讯科技有限公司 | 用于生成信息的方法和装置 |
CN111581337A (zh) * | 2020-03-19 | 2020-08-25 | 平安科技(深圳)有限公司 | 医疗文本搜索方法、装置、计算机设备及存储介质 |
CN111897807A (zh) * | 2020-07-01 | 2020-11-06 | 拉扎斯网络科技(上海)有限公司 | 一种数据处理方法以及策略引擎系统 |
CN111984689B (zh) * | 2020-08-21 | 2023-07-25 | 北京百度网讯科技有限公司 | 信息检索的方法、装置、设备以及存储介质 |
CN112989164B (zh) * | 2021-03-26 | 2023-11-03 | 北京金堤征信服务有限公司 | 搜索结果处理方法、装置及电子设备 |
CN113032549B (zh) * | 2021-05-31 | 2021-09-10 | 北京明略昭辉科技有限公司 | 一种文档排序方法、装置、电子设备及存储介质 |
CN116776869A (zh) * | 2023-06-30 | 2023-09-19 | 荣耀终端有限公司 | 文档评分方法和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043264A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 情報検索方法およびそのシステム |
JP2013525921A (ja) * | 2010-04-30 | 2013-06-20 | アリババ グループ ホールディング リミテッド | 垂直検索に基づいたクエリの方法、システム、および装置 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6480843B2 (en) | 1998-11-03 | 2002-11-12 | Nec Usa, Inc. | Supporting web-query expansion efficiently using multi-granularity indexing and query processing |
US6438539B1 (en) * | 2000-02-25 | 2002-08-20 | Agents-4All.Com, Inc. | Method for retrieving data from an information network through linking search criteria to search strategy |
GB2449501A (en) * | 2007-05-25 | 2008-11-26 | Univ Sheffield | Searching method and system |
JP2010237721A (ja) | 2007-07-02 | 2010-10-21 | Nec Corp | 検索システム、検索方法および検索用プログラム |
US7945571B2 (en) * | 2007-11-26 | 2011-05-17 | Legit Services Corporation | Application of weights to online search request |
WO2009107628A1 (ja) | 2008-02-27 | 2009-09-03 | 日本電気株式会社 | 検索システム、検索方法およびプログラム |
US20110302170A1 (en) * | 2010-06-03 | 2011-12-08 | Microsoft Corporation | Utilizing search policies to determine search results |
US9152674B2 (en) * | 2012-04-27 | 2015-10-06 | Quixey, Inc. | Performing application searches |
US8983991B2 (en) | 2012-07-27 | 2015-03-17 | Facebook, Inc. | Generating logical expressions for search queries |
US9384244B1 (en) * | 2012-11-28 | 2016-07-05 | BloomReach Inc. | Search with autosuggest and refinements |
US9727595B2 (en) * | 2013-09-20 | 2017-08-08 | Uber Technologies, Inc. | Location searching with category indices |
CN104462143B (zh) * | 2013-09-24 | 2018-01-30 | 高德软件有限公司 | 连锁品牌词词库、类别词词库建立方法和装置 |
JP6167029B2 (ja) | 2013-12-02 | 2017-07-19 | 株式会社Nttドコモ | レコメンド情報生成装置およびレコメンド情報生成方法 |
CN104063497B (zh) | 2014-07-04 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 观点处理方法和装置以及搜索方法和装置 |
CN105335391B (zh) * | 2014-07-09 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 基于搜索引擎的搜索请求的处理方法和装置 |
US20170068712A1 (en) * | 2015-09-04 | 2017-03-09 | Palantir Technologies Inc. | Systems and methods for database investigation tool |
CN105488113B (zh) * | 2015-11-23 | 2018-12-21 | 百度在线网络技术(北京)有限公司 | 论文的搜索方法、装置及搜索引擎 |
US10049208B2 (en) * | 2015-12-03 | 2018-08-14 | Bank Of America Corporation | Intrusion assessment system |
US10146815B2 (en) * | 2015-12-30 | 2018-12-04 | Oath Inc. | Query-goal-mission structures |
CN105955991A (zh) * | 2016-04-19 | 2016-09-21 | 乐视控股(北京)有限公司 | 一种搜索结果聚合及定位的方法和装置 |
-
2017
- 2017-03-31 CN CN201710209677.XA patent/CN108664515B/zh active Active
- 2017-12-12 EP EP17903012.7A patent/EP3608799A4/en not_active Withdrawn
- 2017-12-12 SG SG11201909119Y patent/SG11201909119YA/en unknown
- 2017-12-12 JP JP2020502745A patent/JP2020512651A/ja active Pending
- 2017-12-12 WO PCT/CN2017/115680 patent/WO2018176913A1/zh active Application Filing
- 2017-12-12 US US16/499,858 patent/US11144594B2/en active Active
- 2017-12-12 CA CA3059929A patent/CA3059929C/en active Active
- 2017-12-12 KR KR1020197032313A patent/KR20190128246A/ko not_active Application Discontinuation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043264A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 情報検索方法およびそのシステム |
JP2013525921A (ja) * | 2010-04-30 | 2013-06-20 | アリババ グループ ホールディング リミテッド | 垂直検索に基づいたクエリの方法、システム、および装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20190128246A (ko) | 2019-11-15 |
WO2018176913A1 (zh) | 2018-10-04 |
CN108664515A (zh) | 2018-10-16 |
EP3608799A1 (en) | 2020-02-12 |
CA3059929C (en) | 2023-08-29 |
US11144594B2 (en) | 2021-10-12 |
US20200110778A1 (en) | 2020-04-09 |
SG11201909119YA (en) | 2019-10-30 |
CA3059929A1 (en) | 2018-10-04 |
CN108664515B (zh) | 2019-09-17 |
EP3608799A4 (en) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11275895B1 (en) | Generating author vectors | |
US11604822B2 (en) | Multi-modal differential search with real-time focus adaptation | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN106815252B (zh) | 一种搜索方法和设备 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
WO2018157805A1 (zh) | 一种自动问答处理方法及自动问答系统 | |
US9305083B2 (en) | Author disambiguation | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN109299245B (zh) | 知识点召回的方法和装置 | |
US20090281975A1 (en) | Recommending similar content identified with a neural network | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN110955766A (zh) | 一种自动扩充智能客服标准问题对的方法和系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
US20230045330A1 (en) | Multi-term query subsumption for document classification | |
CN105164672A (zh) | 内容分类 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN116049376B (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
US11580499B2 (en) | Method, system and computer-readable medium for information retrieval | |
US20230267277A1 (en) | Systems and methods for using document activity logs to train machine-learned models for determining document relevance | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN116414940A (zh) | 标准问题的确定方法、装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201001 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221018 |