JP2020512651A - 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 - Google Patents

検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 Download PDF

Info

Publication number
JP2020512651A
JP2020512651A JP2020502745A JP2020502745A JP2020512651A JP 2020512651 A JP2020512651 A JP 2020512651A JP 2020502745 A JP2020502745 A JP 2020502745A JP 2020502745 A JP2020502745 A JP 2020502745A JP 2020512651 A JP2020512651 A JP 2020512651A
Authority
JP
Japan
Prior art keywords
search
text
text index
strategy
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020502745A
Other languages
English (en)
Inventor
ミン リウ
ミン リウ
ダヤオ チェン
ダヤオ チェン
モンモン パン
モンモン パン
タオ フェン
タオ フェン
ジューチャオ ツェン
ジューチャオ ツェン
ヨンチャオ ウェイ
ヨンチャオ ウェイ
ウェンビン パン
ウェンビン パン
Original Assignee
ベイジン サンクアイ オンライン テクノロジー カンパニー リミテッド
ベイジン サンクアイ オンライン テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン サンクアイ オンライン テクノロジー カンパニー リミテッド, ベイジン サンクアイ オンライン テクノロジー カンパニー リミテッド filed Critical ベイジン サンクアイ オンライン テクノロジー カンパニー リミテッド
Publication of JP2020512651A publication Critical patent/JP2020512651A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24532Query optimisation of parallel queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90324Query formulation using system suggestions
    • G06F16/90328Query formulation using system suggestions using search space presentation or visualization, e.g. category or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願検索方法、装置及び非一時的コンピュータ読取可能記憶媒体を提供した。一つの実施例によれば、前記方法は、検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重み対応すること、各前記第1検索策略に対応する各前記第1テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作を実行すること、上述した全ての検索操作による検索結果をマージして出力すること、を含む。

Description

発明の詳細な説明
[関連出願の相互参照]
本特許出願は、2017年03月31日に提交されており、出願番号が201710209677.Xであり、発明の名称が「検索方法、装置及び非一時的コンピュータ読取可能記憶媒体」であり、引用として全文で本文に組み込まれた中国特許出願の優先権を主張している。
[技術分野]
本願は、コンピュータ技術、詳しくて検索方法、装置及び非一時的コンピュータ読取可能記憶媒体に関する。
インターネット技術の発達と伴い、インターネットでの情報は爆発するように増加しつつあり、インターネットでの情報を通じて自分の関心しているコンテンツを検索して得るユーザーは、日々多くなっている。例えば、検索エンジンは、ユーザーの入力したテキストに基づいて情報を検索して、且つテキスト関連性に基づいて検索サービスを実行することができる。検索エンジンの始まりでは、ウェブページでもインターネットの主な情報キャリアーなので、ウェブページに対して検索さえを行われば、ユーザーの関心したコンテンツを概ね得ることができる。しかし、モバイルネットワークの発達と伴い、O2O(Online−to−Offline)プラットフォームの提供した地元の生活サービスなので人間の生活も便利になって、O2Oプラットフォームでの検索需要も段々多くなっている。O2Oプラットフォームにおける情報説明キャリアーは、異なる角度でプラットフォームサービスを説明するための複数のテキストインデックスドメインを有する点で、ウェブページと相違している。例えば、飲食サービスを提供するある商店POI(Point of Interest)を紹介する際に、商店の名称、商店の登録会社名称、ブランド名称、商店の位置するビジネス地区、商店アドレス、商店のメインディッシュ、商店の営業時間等の角度で説明を行うことができる。この場合、O2Oプラットフォームでの説明性テキストインデックスドメインは、五十個以上に達することもある。しかも、これらのテキストインデックスドメインの明記した情報は、互いに関係していない可能性もあるので、ウェブページ検索方法を利用して全てのテキストインデックスドメインにおいて情報検索をするのは、ユーザーの関心したコンテンツを全面で正確に得るのは、極めて困難であるかもしれない。
本願は、複数のテキストインデックスドメインを有する情報について、相対的で正確な検索結果を獲得し得る検索方法を提供する。
第1の態様では、本願実施例は、
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応するものであること、
各前記第1検索策略に対応する各前記第1テキストインデックスドメインに基づいて、それぞれ前記クエリテキストに対する検索操作を実行すること、
上述全ての検索操作による検索結果をマージして出力すること、
を含む検索方法を提供する。
第2の態様では、本願実施例は、プロセッサー及び非一時的コンピュータ読取可能記憶媒体を含む検索装置を提供する。前記非一時的コンピュータ読取可能記憶媒体には、前記プロセッサーにより実行され得るマシン実行可能コマンドが記憶されており、前記マシン実行可能コマンドは、前記プロセッサーが本願第1の態様に公開された検索方法を実行するように促す。
第3の態様では、本願実施例は、マシン実行可能コマンドが記憶された非一時的コンピュータ読取可能記憶媒体を提供しており、前記マシン実行可能コマンドがプロセッサーにコールされて実行されている場合、前記マシン実行可能コマンドは、前記プロセッサーが本願第1の態様に公開された検索方法を実行するように促す。
本願実施例に公開された検索方法は、クエリテキストに一致する少なくとも一つの第1検索策略を決定することにより、そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応するものであって、次に、各前記第1検索策略に対応する各前記テキストインデックスドメインに基づいて、それぞれ前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を獲得し得る。クエリテキストのみに関連するテキストインデックスドメインで検索操作を実行することにより、全てのテキストインデックスドメインで検索を行う必要がなくなって、故に関係しないテキストインデックスドメインでリテラルヒットに起因するリコールエラーを避けることができ、検索結果の関連性を効果に向上させることとなる。しかも、異なるテキストドメインインデックスドメインに対して異なる検索重みを設置することにより、検索結果の正確率を効果に向上させ得ることとなる。
本願実施例における技術案を一層明瞭に釈明するために、以下、実施例における技術の釈明にとって必要である図面を簡単に釈明する。以下、説明における図面は、単に本願の一部の実施例であると留まり、当業者にとって、進歩性が要る努力を行わずにこれらの図面に応じて更に他の図面を得ることでも可能となる。
図1は、本願一つの実施例における検索方法のフローチャートである。 図2は、本願もう一つの実施例における検索方法のフローチャートである。 図3は、本願もう一つの実施例の検索方法におけるフローチャートである。 図4は、本願一つの実施例における検索装置のハードウェア構成の概略図である。 図5は、本願一つの実施例の提供した検索ロジックの機能ブロック図である。 図6は、本願もう一つの実施例の提供した検索ロジックの機能ブロック図である。 図7は、本願もう一つの実施例の提供した検索ロジックの機能ブロック図である。 図8は、本願更にもう一つの実施例の提供した検索ロジックの機能ブロック図である。
以下、図面と組み合わせて、本願実施例における技術案を明瞭で完璧に説明する。明らかに、説明される実施例は、全ての実施例ではなく、本願一部の実施例のみである。本願における実施例に基づいて、当業者が進歩性を要する努力をしないで得られる全ての他の実施例は、全部本願が保護している範囲に属する。
本願の公開した検索方法は、図1に示すように、ステップ100ないしステップ120を含む。
本願の検索方法は、二種類の検索策略、即ち第1検索策略、第2検索策略を含むことができる。そのうち、第1検索策略は、単に検索データの一部のテキストインデックスドメインのみについて検索操作を実行することができるが、第2検索策略は、検索データの全部テキストインデックスドメインについて検索操作を実行することができる。
ステップ100では、クエリテキストに一致する少なくとも一つの第1検索策略を決定する。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン、及び前記テキストインデックスドメインに一致する検索重みに対応することができる。
第1検索策略は、クエリしたい検索データのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みを限定することに適用できる。各前記第1検索策略は、少なくとも一つのテキストインデックスドメインに対応でき、各前記テキストインデックスドメインは、同じ或異なる検索重みを具有することができる。各前記第1検索策略に対応するテキストインデックスドメインは、各々、同じ或異なるクエリテキストに対応できる。テキストインデックスドメインでは、インデックス、例えば反転インデックスを確立することができる。テキストインデックスドメインのコンテンツは、一般的には意味あるテキストであって、検索データのある方面を釈明するのに適用できる。飲食サービスを提供した商店を例として、検索データの興味ポイントPOI(Point of Interest)は、商店の名称、登録会社の名称、ブランド名称、所属ビジネス地区、アドレス、メインディッシュ、及び営業時間等のフィールドの少なくとも一つを含むかもしれなく、これらのテキストフィールドは、つまりテキストインデックスドメインである。例えば検索データである「望京花園に位置する金百万の支店」のPoi_nameは、金百万ダック店(望京花園店)でもよい。そのうち、poi_nameは、システムに記録されたテキストインデックスドメインの名称、例えば商店の名称「金百万ダック店」を意味したが、poi_nameの後ろのテキストは、このテキストインデックスドメインの具体的なコンテンツであって、反転インデックスを確立するのに適用できる。テキストインデックスドメインは、検索データのフィールドを表すのに適用できる。すると、検索しようとするクエリテキストを得た後で、先ず、前記クエリテキストに一致する第1検索策略を決定することができる。例えば、複数の第1検索策略のテキストインデックスドメインを予め設置し、且つ各第1検索策略に対応するクエリテキストを設置することができる。例えば、第1検索策略は、商店策略、ランドマーク策略、料理名策略等を含むことができる。次に、それぞれ、各第1検索策略に対応するクエリテキストを設置することができ、例えば商店策略に対応するクエリテキストは、金百万、KFC、全聚徳等を含むことができる。
検索しようとするクエリテキストは、ユーザーがクライアントにおける検索欄に入力したものでもよいし、クライアントがユーザーの履歴動作ログに応じて自動に生成したものでもよい。例えば、クライアントがある女性ユーザーが化粧品の発売ページにアクセスすることを測定する時に、ユーザーの年齢情報に応じてユーザーに関係する検索結果をプッシュする。この場合、クライアントは、先ずユーザーの情報に応じてクエリテキスト(例えば、中年女性)を生成し、次に検索エンジンをコールして自動に生成したクエリテキストに対して検索操作を実行する。
クエリテキストと第1検索策略との対応関係に基づいて前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する時に、先ず人工でクエリテキストと第1検索策略との対応関係を予め確立することができる。例えば、クエリテキストの「KFC」、「金百万」に対応する検索策略を商店策略にするように設置してもよい。クエリテキストと第1検索策略との対応関係を設置する時に、各第1検索策略の包含したテキストインデックスドメイン及び各テキストインデックスドメインの検索重みを同時に設置してもよい。例えば、商店策略の包含したテキストインデックスドメインは、商店の名称、ブランド名称、登録会社の名称等を有するように設置してもよい。しかも、商店策略に対応する各テキストインデックスドメインの検索重みは、商店の名称の検索重みが50%で、ブランド名称の検索重みが30%で、登録会社の名称の検索重みが20%になるように設置してもよい。第1検索策略に対応するテキストインデックスドメイン及びそれに対応する各テキストインデックスドメインの検索重みは、予備知識に応じて設置できる。
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定するのは、予め設置された第1検索策略とクエリテキストとの対応関係に応じて、クエリテキストに一致する少なくとも一つの第1検索策略を決定できること、或いは、予め訓練された分類器によりクエリテキストを認識することにより、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定できること、を含むことができる。そのうち、前記第1検索策略は、人工で予め確立されるものでもよいし、ユーザーの履歴動作に応じて訓練して得られた認識モデル認識に応じて決定されるものでもよい。
予め訓練された分類器でクエリテキストに一致する少なくとも一つの第1検索策略を決定する時に、先ず検索ログに応じて分類器を訓練することができる。例えば、第1検索策略を認識するための分類器を訓練するように、一定期間内の検索ログを獲得した後で、検索ログにおけるクエリテキスト、テキストインデックスドメイン、一致するテキスト等の情報に応じて、得られた検索ログをグループ化することができる。検索ログに基づいて訓練されて得られた分類器は、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定するのに適用できる。
ステップ110では、各前記第1検索策略に対応するテキストインデックスドメインに基づいて、それぞれ前記クエリテキストに対する検索操作を実行する。
一つのクエリテキストは複数の第1検索策略に対応することも可能であるし、各第1検索策略には複数のテキストインデックスドメインを含むことも可能である。クエリテキストに一致する第1検索策略を決定した後で、各第1検索策略におけるテキストインデックスドメインに基づいて前記クエリテキストに対して検索操作をそれぞれ実行することができる。例えば、クエリテキストの「金百万」に応じて決定できる第1検索策略は、商店策略、ランドマーク策略を含む。商店策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、商店名称、ブランド名称を含む。ランドマーク策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、建筑物を含むことができる。それぞれ商店の名称、ブランド名称、及び建筑物との三つのテキストインデックスドメインに基づいて、検索データにおいてクエリテキストの「金百万」に対して検索操作を実行し、且つそれぞれ三つの検索結果リストを得ることができる。異なるテキストインデックスドメインに基づいて、検索データにおいてクエリテキストについて検索操作を実行する時に、各テキストインデックスドメインの検索重みと組み合わせてクエリテキストと検索データとの関連性を計算することができる。
検索結果が抜けることを避けるために、第2検索策略に基づいて検索操作を実行することもできる。そのうち、前記第2検索策略は、全てのテキストインデックスドメインに対応する。すると、第2検索策略に基づいて全てのテキストインデックスドメイン内で前記クエリテキストに対する検索操作を実行することにより得られた第2検索結果は、第1検索策略に基づいて、対応のテキストインデックスドメインで前記クエリテキストの検索操作を実行することにより得られた第1検索結果への補足とされてもよい。
ステップ120では、上述全ての検索操作による検索結果をマージして出力する。
全ての前記検索操作による検索結果をマージして出力する時に、先ず検索結果を並び替えて、次に重複した検索結果を除外して、残された検索結果を出力する。検索結果を並び替える時に、検索結果を、検索策略の優先順位に従いブロックランキングを行うことができ、或いは、検索結果を、各検索策略による判別得点に従いブロックランキングをすることもでき、更に或いは、検索結果の評価スコアに従い全ての検索結果を混合して並び替えることができる。若し実行された検索操作は、第2検索策略に基づいて実行された前記クエリテキストに対する検索操作を含んだら、第2検索策略に基づいて検索操作を実行することにより得られた第2検索結果を最後に配置することもできる。
本願実施例に公開された検索方法に従い、先ず、検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定することができる。そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメインに対応し、しかも各前記テキストインデックスドメインは、プリセット検索重みを有する。次に、各前記第1検索策略に対応するテキストインデックスドメインに基づいて、前記クエリテキストの検索操作をそれぞれ実行する。最後、上述した全ての検索操作による検索結果をマージして出力する。すると、たとえ検索データが複数のテキストインデックスドメインの情報を有するとしても、相対的な正確な検索結果を得ることができる。全てのテキストインデックスドメインで検索を行うことはなくて、クエリテキストのみに関連しているテキストインデックスドメインで検索操作を実行するのは、関係していないテキストインデックスドメインでリテラルヒットによるリコールエラーを避けることができ、検索結果の関連性を効果に向上させる。しかも、異なるテキストインデックスドメインに対して検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。
本実施例に公開された一つの検索方法、図2に示すように、この方法は、ステップ200ないしステップ250を含む。
ステップ200では、検索ログに基づいて第1検索策略を認識するための分類器を訓練する。
分類器によりクエリテキストに一致する少なくとも一つの第1検索策略を決定したい時に、先ず検索ログに基づいて分類器を訓練することもできる。検索ログに基づいて第1検索策略を認識ための分類器を訓練するのは、検索ログをグループ化し、各第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を表すのに適用できる検索策略空間定義を生成すること、前記検索策略空間定義に基づいて、それぞれ各前記第1検索策略に対応する検索ログを得ること、各前記第1検索策略に対応する検索ログに基づいて、それぞれ相応の第1検索策略を認識ための分類器を訓練すること、を含むことができる。
そのうち、検索ログをグループ化し、検索策略空間定義を生成するのは、毎条の検索ログに応じて抽出されたクエリテキストの、テキストインデックスドメインでのヒットスコアを特徴とし、検索ログをグループ化し、クエリテキスト類別を得る、ことを含むことができる。一つのクエリテキスト類別は、一或複数の検索策略に対応することもできる。
分類器を訓練して得る前に、先ず第2検索策略に基づいて検索操作を実行する検索ログを獲得できる。訓練することにより得られた分類器を一層正確にするために、しかもできるだけ訓練の計算量を減らすために、注文行動の検索ログを選定して分類器訓練を行うことができる。検索サーバーに記録された検索ログは、異なるシステムにて少し相違する。例えば、検索ログは、検索時点、クエリテキスト、一致テキスト、テキストインデックスドメイン、展示結果リスト、クリック或いは注文等の行動識別等を含むことができる。若し全ての検索ログに対する注文行動の検索ログの比例は低過ぎたら、クリックログ和注文ログを一緒に選定して分類器を協力して訓練することもできる。クリックログ和注文ログを一緒に選定して分類器を協力して訓練する時に、クリックログの行動類別の重みは、注文ログの行動類別の重みよりも小さくてもよい。
得られた検索ログに基づいてそれぞれ各テキストインデックスドメインでのヒットスコアを計算することができる。例えば、下記一般式1を採用して各テキストインデックスドメインの、この検索ログにおけるヒットスコアSCOREiを計算することもできる。
Figure 2020512651
そのうち、matchiは、クエリテキストに対して検索操作を実行する時に、前記クエリテキストの、第iのテキストインデックスドメインに一致するテキストを表して、
len(matchi)は、前記クエリテキストの、第iのテキストインデックスドメインに一致するテキストの長さを表す。fieldiは、第iのテキストインデックスドメインのコンテンツを表し、len(fieldi)は、第i個テキストインデックスドメインのテキストの長さを表す。一般的に、
Figure 2020512651
Nは平滑化係数で、一般式1における分母は、テキストインデックスドメインのテキスト長さと長さ上限Nにおけるより小さなものを採用することを表す。長さ上限Nは、該分母の上限として、全体のscoreが低すぎることとないように適用される。
typejは表示目下第jの検索ログに対応するユーザー行動類別の重み、例えばクリックログの行動類別の重みtype=0.8で、注文ログの行動類別の重みはtype=1である。従って、クリックが起こること或いは注文行動の各条のログにおける各テキストインデックスドメインに基づいて、少なくとも一つの零以外の値を得てこのテキストインデックスドメインの、このログにおけるヒットスコアとすることができる。Nは、検索サービスの機能に応じて、一つの自然数、例えば30と設置されてもよい。
テキストインデックスドメインベクトルを初期化させ、このベクトルの次元は検索ログにおけるテキストインデックスドメインの数量に等しい。M個のテキストインデックスドメインが含まれた検索ログを例とすると、テキストインデックスドメインベクトルは一つのM次元のベクトルであってもよい。各テキストインデックスドメインについて、それぞれ一般式1でこのテキストインデックスドメインの、各条の検索ログでのヒットスコアscoreiを計算することもできる。すると、各検索ログについていずれも一つのM次元ベクトルを得ることができる。複数の検索ログについて、 [0,0,1.0,0.8,0...0]、[0,0,0.9,0.9,0...0]等に類似の複数のM次元ベクトルを得ることができる。そのうち、Mは検索ログにおけるテキストインデックスドメインの数であるが、各M次元ベクトルの第i次元の数値は、第iのテキストインデックスドメインの、各検索ログにおけるヒットスコアに対応している。
複数の注文行動ログ及び/又はクリック行動ログに応じて複数のM次元の非零ベクトルを得た後で、得られた複数のM次元のベクトルをグループ化すること、即ちテキストインデックスドメインでの一致情况に類似する一種類の検索を同一の類別に集中することにより、各第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を確立することもできる。一つの実施例において、多次元空間の数値クラスタリング方法、例えばDbscanクラスタリングアルゴリズム、k−Meansクラスタリングアルゴリズムを採用して、得られたM次元のベクトルをグループ化し、本願では、採用されるクラスタリングアルゴリズムについて限定しない。
クラスタリング計算を通じて、クラスタリングの中心点は、第1検索策略空間定義であると考えれても良い。前記第1検索策略空間定義は、ある類別のクエリテキストが特定の第1検索策略に対応できるように、第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を表すことができる。例えば、ユーザーは 「金百万」、「海底撈」、「九頭鷹酒家」等のクエリテキストを入力するのは、一般的には対応する商店を検索したいことである。前述クラスタリング方法に応じて、クエリテキストの「金百万」や「海底撈」や「九頭鷹酒家」は、 一つの類別とグループ化する。従って、検索ログに応じてクラスタリングをする過程は、実際に対して混乱と見える検索結果を監督して学ぶことにより、ある類のクエリテキストの、あるテキストインデックスドメインでの検索が全てのテキストインデックスドメインでの検索よりも効果であることを学ぶ過程である。一般的にはクラスタリング結果は、細すぎるとしたら行けず、百の以内に制御するほうがよい。自動クラスタリングという方法によれば、第1検索策略の表しようとする具体的な意義に関心する必要もないし、第1検索策略を予め定義する必要もなくてクエリテキストに対応する第1検索策略を決定し、且つ更にこの第1検索策略に対応するテキストインデックスドメインを決定することもできる。この方法は、人工で策略を作成することによるエラーの発生可能性を効果に減らすことだけでなく、且つ、存在可能な、見つけにくいデータ規律を認識することもできる。
次に、それぞれ各類別のクエリテキストに基づいて第1検索策略を認識するための分類器を訓練することができる。
一つの実施例において、第1検索策略を認識するための分類器を訓練するために、各類別のクエリテキストを陽性サンプルとして使用でき、且つ一定数量の陰性サンプルを収集し、陽性サンプルと陰性サンプルとを訓練サンプルデータにして学ぶことを監督する。各クエリテキスト類別は、第1検索策略に対応できる。一つの実施例において、マルチ分類器は、その一つは一つのマルチ分類器であって、そのもう一つは、複数のジ分類器フィッティング、との二種類の方式で実現できる。例えば、本実施例において複数のジ分類器フィッティングを使用できる。分類モデルには、複数選定があってもよく、本実施例にて、SVM(Support Vector Machine)分類器で訓練のサンプルデータについて監督あり学習を行うことを例として、分類器の訓練過程を説明する。先ず、訓練のサンプルデータからサンプル特徴を抽出する。前記抽出されたサンプル特徴は、少なくともクエリテキストのテキスト特徴、例えばクエリテキスト、クエリテキストに対して単語分割した後で得られた単語分割組合せを含むことができる。訓練のサンプルデータから抽出されたサンプル特徴は、query length、Prefix、suffix、POS+bigram、POS+unigram、POS、及び他の組合せ特徴を更に含むことができる。そのうち、query lengthは、クエリテキストの長さであって、Prefixとsuffixとはそれぞれクエリテキストのプレフィックスとサフィックスであって、unigramとbigramとはそれぞれクエリテキストのテキスト特徴であって、POS+unigramはクエリテキストのテキスト特徴の位置である。
上述抽出されたサンプル特徴利をSVM分類器で訓練して第1検索策略を認識するための分類器を得る。当業者の周知の如何なる技術を利用してサンプル特徴に基づいて分類器を訓練することもでき、ここで繰り返して記載しない。
サンプル訓練を通じて、各クエリテキスト類別に対して、第1検索策略を認識するための相応の分類器を得て、これからも得られたクエリテキストを認識することに用いられる。
ステップ210では、各前記第1検索策略に対応するテキストインデックスドメイン、及び各テキストインデックスドメインに一致する検索重みを決定する。
各前記第1検索策略に対応するテキストインデックスドメイン、及び各テキストインデックスドメインに一致する検索重みを決定する方式は、二種類がある。その一つでは、若し第1検索策略は人工で予め設定されたら、第1検索策略におけるテキストインデックスドメインとクエリテキストとの対応関係でも、人工で予め設定され、すると、各第1検索策略に対応するテキストインデックスドメインに一致する検索重みも人工で予め設定されてもよい。各第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みは、経験に基づいて予め人工でプログラムコード中に設置されてもよいし、ユーザーインターフェースを提供することにより、ユーザーが必要に応じて設置でき、ここで繰り返して記載しない。
第2種類では、検索ログに基づいて各第1検索策略のテキストインデックスドメイン、及び各テキストインデックスドメインに一致する検索重みを設置することもできる。例えば、各第1検索策略について、該第1検索策略に基づいて対応する全ての検索ログを得ることができ、次に、この第1検索策略に対応する前記検索ログにおけるクエリテキストの、各テキストインデックスドメインでのヒットスコア、この第1検索策略に対応する各テキストインデックスドメインの平均重みを繰り返し計算し、この第1検索策略に対応する各テキストインデックスドメインの平均重みに応じて、この第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みを決定する。そのうち、前記検索ログは、第2検索策略を採用して全てのテキストインデックスドメインについて検索操作を実行する時に得られた検索ログでもよい。例えば、クラスタリングで第1検索策略を得るスペースについて定義をする場合に採用される検索ログを索引付けることより、各前記第1検索策略に対応する検索ログを決定する。
前記検索ログは、それぞれ、各第1検索策略に応じて、テキストインデックスドメインの初期化検索重みを採用して、全てのテキストインデックスドメインで検索操作を実行する時に得られた検索ログでもよい。検索データがM個のテキストインデックスドメインを含むことを例として、仮に各第1検索策略はいずれも前記M個のテキストインデックスドメインに対応するとしたら、しかも各前記テキストインデックスドメインに一致する検索重みはいずれも1/Mであるとする。次に、前記仮想の第1検索策略をランニングし、クエリテキストについて仮想の第1検索策略に従い検索操作を実行し、且つ一定の期間内の前記検索操作の検索ログを得る。
サーバーを検索することにより、毎条の検索ログのクエリテキスト、ヒットテキスト、テキストインデックスドメイン及び行動類別等を含んで、各第1検索策略に対応する検索ログを得ることができる。そのうち、ヒットテキストは、クエリテキストの、テキストインデックスドメインでの一致テキストである。本願の一つの実施例において、各第1検索策略について、この第1検索策略に対応する各検索ログにおけるクエリテキストの、各テキストインデックスドメインでのヒットスコアに応じて、この第1検索策略に対応する各テキストインデックスドメインの検索重みを繰り返し計算するのは、以下四つのステップを含むことができる。
第1ステップでは、全てのテキストインデックスドメイン各々の、毎条の検索ログでのシングルログ重みを獲得する。検索データがM個のテキストインデックスドメインを含むことを例として、毎条の検索ログに一致するテキストインデックスドメインは少なくとも1つである。ヒットスコアを計算する前に、M個のテキストインデックスドメインの検索重をみそれぞれ1/Mにするように初期化する。次に、下記一般式2で計算全てのテキストインデックスドメイン各々の、毎条の検索ログでのシングルログ重みを計算する。
Figure 2020512651
そのうち、typejは、第j条の検索ログの行動類別の重みである。例えば、若し第j条の検索ログはクリックログであれば、typej=0.8となり、若し第j条の検索ログは注文ログであれば、typej=1となる。クリックログの行動類別の重みは、注文ログの類別の重みよりも小さいことを満たすこと限りに、typejは、更に他の値でもよい。fieldiは第i個のテキストインデックスドメインのコンテンツを表し、len(fieldi)は、
第i個のテキストインデックスドメインのコンテンツの長さを表す。matchiは第j条の検索ログのクエリテキストの、第i個のテキストインデックスドメインでの一致コンテンツを表し、検索過程において得られる。更に、他の一般式を採用して各テキストインデックスドメインの、毎条の検索ログにおけるシングルログ重みを計算することもできる、本実例施において、シングルログ重みの上限を制御することにより円滑な上限を得るために、指数の比例を採用する。
上述した一般式2で、全てのテキストインデックスドメインの、毎条の検索ログにおけるシングルログ重みを獲得し得る。例えば、仮に、計Y条の注文ログがあって、毎条の注文ログはM個のテキストインデックスドメインを有するとすると、一般式2でそれぞれ全てのM個のテキストインデックスドメイン各々の、Y条の注文ログでのシングルログ重みを獲得した後で、各テキストインデックスドメインは、Y個のシングルログ重みに対応することとなる。
各第1検索策略は少なくとも一つのテキストインデックスドメインに対応できるので、各テキストインデックスドメインは複数の第1検索策略に対応する可能である。例えば、商店策略は商店の名称、アドレス、商店のブランドこの三つのテキストインデックスドメインに対応できる上に、ランドマーク策略も商店の名称、アドレスこの二つのテキストインデックスドメインに対応できる。上述一般式2を採用することにより、それぞれ各第1検索策略に対応する全ての検索ログを計算して、全てのテキストインデックスドメインの、各第1検索策略に対応する毎条の検索ログにおけるシングルログ重みを得ることができる。
第2ステップでは、全てのテキストインデックスドメインの、各第1検索策略に対応する毎条の検索ログにおけるシングルログ重みに基づいて、各第1検索策略に対応する各テキストインデックスドメインの平均重みをそれぞれ計算する。例えば、各テキストインデックスドメインの、各第1検索策略に対応する毎条の検索ログにおけるシングルログ重みについて平均値を計算し、この第1検索策略に対応する各テキストインデックスドメインの平均重みを得て、一般式3は以下のようである。
Figure 2020512651
そのうち、weightiは、第i個のテキストインデックスドメインの、一つの第1検索策略に対応するある検索ログにおけるシングルログ重みであって、countiは、第i個のテキストインデックスドメインの、この第1検索策略に対応する全ての検索ログにおける非零シングルログ重みの数量で、weight_avgは、この第1検索策略に対応する第i個のテキストインデックスドメインの平均重みを表す。
クラスタリングでP個の第1検索策略を得ることを(例えば、P個の第1検索策略は、それぞれG1、G2、…、GPと記される)例として、仮に第1検索策略G1は、3個のテキストインデックスドメインに対応するとしたら、それぞれT1、T2、及びT3と記されてもよい。第1検索策略G1に対応するテキストインデックスドメインT1の平均重みweight_aveg1、第1検索策略G1に対応するテキストインデックスドメインT2の平均重みweight_avg2、且つ第1検索策略G1に対応するテキストインデックスドメインT3の平均重みweight_avg3を計算する。
第3ステップでは、各第1検索策略に対応する各テキストインデックスドメインの平均重みの正規化重み値を得る。
前文の二つのステップの計算により、各第1検索策略に対応するM個のテキストインデックスドメインの平均重みを得ることができ、そのうち一部が零ではないが、他は零である。下記一般式で非零の平均重みを正規化し、平均重みの正規化重み値を得ることができる。一般式4は下記のようである。
Figure 2020512651
そのうち、weight_avgjは、ある第1検索策略の、第j個のテキストインデックスドメインに対応する非0平均重みであって、wheight‘iは、この第1検索策略の、第i個のテキストインデックスドメインに対応する正規化重み値であって、Nは、非0平均重みの数量である。例えば、第1検索策略G1をテキストインデックスドメインT1の平均重みweight_avg1に対応付けて、第1検索策略G1をテキストインデックスドメインT2の平均重みweight_avg2と対応付けて、且つ第1検索策略G1をテキストインデックスドメインT3の平均重みweight_avg3と対応付けて正規化処理を行って、この第1検索策略G1に対応する全てのテキストインデックスドメインT1、T2、T3の正規化重み値weight’1weight‘2及びweight’3を得ることとなる。正規化が経った後、各第1検索策略に対応する全てのテキストインデックスドメインの重みの和は、1となる。
第4ステップでは、非零正規化重み値を有するテキストインデックスドメインを、各第1検索策略に対応するテキストインデックスドメインと決定する。前記非零正規化重み値は、このテキストインデックスドメインの、この第1検索策略での検索重みである。
上記反復計算が経った後、各第1検索策略について非零正規化重み値を有する複数のテキストインデックスドメインを決定することとなり、故に検索データからユーザーの関心したテキストインデックスドメインを選定することもできることとなり、しかもテキストインデックスドメインの正規化重み値は、検索データの関連性を計算する時にも使用できる検索重みとされてもよい。
得られた各第1検索策略に対応するテキストインデックスドメインの非零正規化重み値が小さすぎることも可能であって、騒音を避けるために、閾値を設置して小さすぎる非零正規化重み値を除外することもできる。第1検索策略に対応する検索ログにおけるクエリテキストの、各テキストインデックスドメインのヒットスコアに応じて、第1検索策略に対応する各テキストインデックスドメインの検索重みを繰り返し計算するのは、正規化重み値がプリセット閾値よりも大きなテキストインデックスドメインを各第1検索策略に対応するテキストインデックスドメインと決定すること、を更に含むこともできる。そのうち、前記プリセット閾値は、1/非零正規化重み値の個数でもよい。
第1検索策略認識を行う時に、丸クエリテキストをそれぞれ訓練済の分類器に入力して、前記クエリテキストが目下第1検索策略に適用できるかどうかとの結果を得ることとなる。
ステップ220では、検索しようとするクエリテキストを獲得する。
検索しようとするクエリテキストは、ユーザーがクライアントの検索欄に入力されたクエリテキストでもよいが、クライアントがユーザーの履歴動作ログに応じて自動に生成したクエリテキストでもよい。例えば、クライアントが、ある女性ユーザー化粧品発売ページにアクセスすることを測定した後、ユーザーの年齢情報に応じてユーザーに関係する検索結果をプッシュすることができる。この場合、クライアントは、先ずユーザーの情報に応じてクエリテキスト(例えば、中年女性)を生成し、次に、検索エンジンをコールして、自動に生成したクエリテキストについて検索操作を実行する。
ステップ230では、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応する。
前記クエリテキストに一致する少なくとも一つの第1検索策略を決定するのは、予め設置された第1検索策略とクエリテキストとの対応関係に基づいて、クエリテキストに一致する少なくとも一つの第1検索策略を決定すること、或いは、予め訓練された分類器でクエリテキストをそれぞれ認識し、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定すること、を含む。予め訓練された分類器でクエリテキストを認識し、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する時に、前記クエリテキストそれぞれを予め訓練済みの複数の分類器に入力することにより、各前記分類器の認識結果を得ることができ、ある又は複数のある分類器は、前記クエリテキストに適応すると認識されると、ある又は複数のある分類器に対応する第1検索策略を前記クエリテキストに一致する第1検索策略とすることとなる。
ステップ240では、各第1検索策略に対応する各前記テキストインデックスドメインに基づいて、前記クエリテキストの検索操作をそれぞれ実行する。
一つのクエリテキストは、一つの又は複数の第1検索策略に一致すると認識されてもよく、各第1検索策略は更に各々のテキストインデックスドメイン及び検索重みに対応し、検索サーバーは、各第1検索策略に対応するリコール結果セットを得るように複数の第1検索策略に基づいて検索操作をそれぞれ実行することができる。
各前記第1検索策略に対応する各前記テキストインデックスドメインに基づいて前記クエリテキストの検索操作をそれぞれ実行するのは、検索データにおけるテキストインデックスドメインと前記クエリテキストとの関連性に基づいてデータリコールを実行すること、を含む。そのうち、前記関連性は、テキストインデックスドメインの検索重みに基づいて決定できる。マルチスレッド技術を利用して、各第1検索策略に対応するリコール結果セットを得ることができるために、検索サーバーで複数の第1検索策略に基づいて検索操作を並行に実行する。各第1検索策略は、いずれも各々のテキストインデックスドメイン及びその検索重みに対応するので、一層重要なテキストインデックスドメインが一層高い関連性スコアを得るように、検索データと前記クエリテキストとの関連性のスコアを計算することができ、故に丸検索サーバーのリコール結果並べ替えの效果を効果に向上させることができる。
以下の例のように、仮に検索サーバーは、関連性スコアとして線形相関の重み付けスコアを使用するとしたら、一般式5は下記のようである。
関連性スコア=Σ(テキストインデックスドメインの一致長さ/テキストインデックスドメインの長さ)×検索重み (一般式5)。
商店「KFC」に対応する二つのテキストインデックスドメインを例として、第1のテキストインデックスドメインは「商店名」であって、対応のクエリテキストは「KFC」であって、第2のテキストインデックスドメインは「アドレス」、対応するクエリテキストは「五道口地下鉄駅の西側」。商店「ピザハット」も、二つの同じテキストインデックスドメインに対応でき、第1のテキストインデックスドメインは「商店名」であって、対応のクエリテキストは「ピザハット」であって、第2のテキストインデックスドメインは「アドレス」であって、対応のクエリテキストは「KFCの五道口支店の東側」。クエリテキストは「KFC」である場合、若し「商店名」に対応するテキストインデックスドメインの検索重みはより大きいとすると、商店「KFC」の関連性スコアは商店「ピザハット」よりも高いこととなる。
ステップ250では、上述した全ての検索操作による検索結果をマージして出力する。
上述した全ての検索操作による検索結果をマージして出力するのは、プリセット策略に従い上述少なくとも一つの第1検索策略に基づいた検索結果を並び替えること、後ろに置かれた重複した検索結果を除外すること、残された検索結果を出力すること、を含むことができる。全ての前記検索操作による検索結果をマージして出力する時に、先ずプリセット策略に従い検索結果について並び替えを行うことができる。検索結果を並び替える時に、複数の第1検索策略に基づいて検索操作を実行することにより得られた検索結果を、人工で設定された優先順位に従いブロックランキングすることができ、或いは、各第1検索策略に基づいて検索操作を実行する時に得られた検索結果の関連性スコアに基づいてブロックランキングを行うことができ、更に或いは、検索結果の関連性スコアに従い全ての第1検索策略で得られた検索結果を混合して並び替える。次に、後ろに置かれた重複した検索結果を除外し、残された検索結果を出力する。
本願実施例に公開された検索方法は、検索ログに基づいて第1検索策略を認識するための分類器を訓練することにより、各前記第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みを決定することができる。すると、検索過程において、得られた検索しようとするクエリテキストに応じて、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定することができ、各前記第1検索策略に対応するテキストインデックスドメインに基づいてそれぞれ前記クエリテキストの検索操作を実行した後、上述した全ての検索操作による検索結果をマージして出力する。クエリテキストに関連するテキストインデックスドメインで検索操作を実行することにより、同一のクエリテキストが全てのテキストインデックスドメインで検索を行う必要がなくなって、単に対応のテキストインデックスドメインで検索を行うことを達成することとなるので、関係しないテキストインデックスドメインのリテラルヒットによるリコールエラーを減らして、複数のテキストインデックスドメインを有する情報に対する検索結果の関連性を有效に向上させた。しかも、異なるテキストドメインインデックスに一致する検索重みに基づいて検索結果の排位を最適化することにより、検索結果の正確率を効果に向上させることができる。
検索ログに基づいて第1検索策略を認識するための分類器を訓練し、しかも第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みを決定するために、検索ログに基づいて繰り返し計算を行うのは、ユーザーの検索要望を充分に反映して、検索結果の正確度を更に効果に向上させることができる。
本実施例に公開された検索方法は、図3に示すように、ステップ300ないしステップ370を含むことができる。
ステップ300では、検索ログに基づいて第1検索策略を認識するための分類器を訓練する。
検索ログに基づいて第1検索策略を認識するための分類器を訓練する具体的な実施の様態は、上述実施例を参照し、ここで繰り返して記載しない。
ステップ310では、各前記第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメイン一致の検索重みを決定する。
各前記第1検索策略に対応するテキストインデックスドメイン、及び各テキストインデックスドメインに一致する検索重みを決定する具体的な実施の様態は、上述実施例にも参照でき、ここで繰り返して記載しない。
ステップ320でも、検索しようとするクエリテキストを得る。
検索しようとするクエリテキストを得る具体的な実施の様態は上文にも参照でき、ここで繰り返して記載しない。
ステップ330では、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する。
そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応できる。
前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する具体的な実施の様態も、上述実施例を参照でき、ここで繰り返して記載しない。
ステップ340では、前記少なくとも一つの第1検索策略に対応する各前記テキストインデックスドメインで、それぞれ前記クエリテキストの検索操作を実行する。
前記少なくとも一つの第1検索策略に対応する各前記テキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに基づいて、それぞれ前記クエリテキストの検索操作を実行する具体的な実施の様態も上述実施例を参照できて、ここで繰り返して記載しない。
ステップ350では、第2検索策略に基づいて前記クエリテキストの検索操作を実行する。
そのうち、前記第2検索策略は検索データの全のテキストインデックスドメインに対応し、且各前記テキストインデックスドメインの検索重みは同じである。
システムの堅牢性を増加するために、第2検索策略に基づいて全のテキストインデックスドメインについてクエリテキストの検索操作を行うことができる。並び替えをする時に無結果なのでリコールされることを避けるために第2検索策略の検索結果を第1検索策略の検索結果の後に置く。
ステップ360では、上述した全ての検索操作の検索結果をマージして出力する。
上述した全ての検索操作による検索結果をマージして出力するのは、プリセット策略に従い第1検索策略に基づいて実行された全ての検索操作による検索結果を並び替えること、第2検索策略に基づいて実行された検索操作による検索結果を、第1検索策略に基づいて実行された検索操作による検索結果の後ろに置くこと、後ろに置かれた重複の検索結果を除外すること、残された検索結果を出力すること、を含むことができる。第1検索策略に基づいて実行された検索操作による検索結果を並び替える具体的な方法は、上述実施例を参照することができ、ここで繰り返して記載しない。次に、後ろに置かれた重複の検索結果を除外して、残された検索結果を出力する。
ステップ370では、プリセット条件を満たす場合、前記第2検索策略に対応する検索ログに基づいて、第1検索策略を認識するための前記分類器を訓練して更新する。
ユーザーの使用習慣の変更又は検索データのますまる増加することと伴い、第1検索策略でもユーザー検索の需要に適応できないという問題が起こる恐れがある。この場合、ユーザーは、第2検索策略に基づいて検索操作を実行して検索結果を戻すことを頻繁に選定することもある。この場合、ユーザーによる、展示された検索結果に対する選定行動ログに基づいて、第1検索策略を更新する必要がある。前記プリセット条件は、プリセット更新周期に達すること、第1クリック率と第2クリック率との比は、プリセット閾値よりも低いこと、の少なくとも一項を含むことができる。そのうち、前記第1クリック率は、前記第1検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率であって、前記第2クリック率は、第2検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率である。
前記プリセット更新周期は、検索データの更新速度に基づいて決定できるし、人行で設定できることもでき、例えば、1ヶ月とすることができる。検索サーバーでの検索ログを統計して分析することにより、ユーザーの、前記第1検索策略に基づいて検索操作を実行することによる検索結果に対する第1クリック率、及び、ユーザーの、前記第2検索策略に基づいて検索操作を実行することによる検索結果に対する第2クリック率を獲得することができる。
プリセット更新周期に達すると、或いは第1クリック率と第2クリック率との比値はプリセット閾値よりも小さいと、第2検索策略に基づいて検索操作を実行することによる検索ログに基づいて、ステップ300とステップ310を実行し、検索ログに基づいて、第1検索策略を認識ための分類器を訓練する操作、及び第1検索策略に対応するテキストインデックスドメイン及びテキストインデックスドメインに一致する検索重みを決定する操作を繰り返して実行し、且つ訓練で得られた分類器及び第1検索策略を元の第1検索策略に補足する。
第2検索策略と組み合わせて検索操作を実行することにより、検査漏れによる無結果なのでリコールされるとの問題を避けることができる。同時に、第2検索策略による検索結果と組み合わせて、第1検索策略を認識するための分類器を訓練することを繰り返して実行することにより、ユーザーの使用習慣の変更による第1検索策略が適用できないとの問題を見つけることができ、且つ新たな第1検索策略をタイムリーに見つけることができる。
上述した検索方法に対応して、本願実施例は、更に検索装置を提供した。図4は、検索装置のハードウェア構成の概略図である。この検索装置は、プロセッサー401、マシン実行可能コマンドを記憶した非一時的コンピュータ読取可能記憶媒体402を含むことができる。プロセッサー401と非一時的コンピュータ読取可能記憶媒体402とは、システムバス403を通じて通信することができる。しかも、非一時的コンピュータ読取可能記憶媒体402における、検索ロジックに対応するマシン実行可能コマンドを読み取って且つ実行することにより、プロセッサー401は上文に記載の検索方法を実行することができる。前記検索装置は、PC、モバイル端末、携帯情報端末、タブレット等でもよい。
本文に言及した非一時的コンピュータ読取可能記憶媒体402は、如何なる電子、磁気性、光学或いは他の物理ストレージデバイスでもよく、情報、例えば実行可能命令、データ、等を含むことができるし、それらを記憶することもできる。例えば、非一時的コンピュータ読取可能記憶媒体は、RAM(Radom Access Memory、ランダムアクセスメモリ)、揮発性メモリ、不揮発性メモリ、フラッシュメモリ、ストレージドライブ(例えばハードドライブ)、ソリッドステートドライブ、如何なる類別のストレージディスク(例えばCD、DVD等)、或いは類似の記憶媒体、又はこれらの組合せでもよい。
図5は、本願一つの実施例の提供した検索ロジックの機能ブロック図である。図5に示すように、機能上で分割すれば、上述した検索ロジックは、第1検索策略決定モジュール510、検索モジュール520及び検索結果出力モジュール530を含むことができる。
第1検索策略決定モジュール510は、検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定することに用いられており、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及前記第1テキストインデックスドメインに一致する検索重みに対応する。
検索モジュール520は、前記第1検索策略に基づいて、モジュール510の決定した、各前記第1検索策略に対応する各前記第1テキストインデックスドメインを決定し、前記クエリテキストの検索操作を実行することに用いられる。
検索結果出力モジュール530は、上述した全ての検索操作による検索結果をマージして出力することに用いられる。
本願実施例に公開された検索装置は、クエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応し、次に、各前記第1検索策略に対応する各前記テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。そうすると、複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を得ることができる。単にクエリテキストに関連するテキストインデックスドメインで実行検索操作をすることにより、全てのテキストインデックスドメインで検索をする必要がなくなるので、関係していないテキストインデックスドメインでのリテラルヒットによるリコールエラーを避けて、検索結果の関連性を効果に向上させることができる。しかも、異なるテキストドメインインデックスに一致するように検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。
一つの実施例において、図6に示すように、前記第1検索策略決定モジュール510は、
予め設置された第1検索策略とクエリテキストとの対応関係に基づいて、クエリテキストに一致する少なくとも一つの第1検索策略を決定することに用いられる第1決定ユニット511、を含む。
もう一つの実施例において、図7に示すように、前記第1検索策略決定モジュール510は、
各第1検索策略を認識するため予め訓練された分類器でクエリテキストをそれぞれ認識することにより、前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する第2決定ユニット512、を含む。
一つの実施例において、第2決定ユニット512でクエリテキストに一致する少なくとも一つの第1検索策略を決定するとしたら、図7に示すように、前記検索ロジックは、
検索ログに基づいて分類器を訓練するのに用いられる検索策略分類器訓練モジュール540を更に含む。
一つの実施例において、若し第2決定ユニット512でクエリテキストに一致する少なくとも一つの第1検索策略を決定するとしたら、図7に示すように、前記検索ロジックは、
各第1検索策略に対応する第1テキストインデックスドメイン、及び各第1テキストインデックスドメインに一致する検索重みを決定するのに用いられるテキストドメイン及び重み決定モジュール550を更に含む。
一つの実施例において、図7に示すように、前記検索策略分類器訓練モジュール540は、
検索ログをグループ化して、各第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を表すための検索策略空間定義を生成する検索策略空間定義決定ユニット541、
前記検索策略空間定義に基づいて、各前記第1検索策略に対応する検索ログを得て、且つ各前記第1検索策略に対応する検索ログに基づいて、それぞれ相応の第1検索戦を認識するための分類器を訓練するのに用いられる訓練ユニット542、
を含む。
一つの実施例において、図7に示すように、前記テキストドメイン及び重み決定モジュール550は、
第1検索策略に対応する検索ログを得るのに用いられるログ獲得ユニット551、
前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各第2テキストインデックスドメインでのヒットスコアに応じて、各前記第2テキストインデックスドメインに対応する前記第1検索策略の平均重みを繰り返し計算するのに用いられる重み計算ユニット552、
前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに応じて、この第1検索策略に対応する第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定することに適用できるテキストドメイン及び重み決定ユニット553、
を含む。
一つの実施例において、重み計算ユニット552は、更に、各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログでのシングルログ重みを得ることと、各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログでのシングルログ重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを計算すること、に適用できる。
一つの実施例において、テキストドメイン及び重み決定ユニット553は、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの正規化重み値を計算することと、プリセット閾値よりも大きい前記正規化重み値に対応する前記第2テキストインデックスドメインを、前記第1検索策略に対応する前記第1テキストインデックスドメインと決定することと、及び、前記第1テキストインデックスドメインに対応する前記正規化重み値を、前記第1テキストインデックスドメインに一致する検索重みと決定すること、に更に適用できる。
検索ログに基づいて第1検索策略及びその分類器を訓練し、しかも検索ログに基づいて繰り返し計算をすることにより第1検索策略に対応するテキストインデックスドメイン及び各テキストインデックスドメインに一致する検索重みを得て、そうするとユーザーの検索要望を充分に楽しみ、検索結果の正確度を効果的に高めた。
一つの実施例において、前記検索モジュール510は、具体的に、
検索データにおける各前記第1テキストインデックスドメインのコンテンツと前記クエリテキストとの関連性に基づいてデータリコールを実行すること、そのうち、前記関連性は、前記第1テキストインデックスドメインの検索重みに決定されたものであること、に用いられる。
一つの実施例において、図8に示すように、前記検索ロジックは、
第2検索策略に基づいて前記クエリテキストに対する検索操作をそれぞれ実行する補足検索モジュール560を更に含み、そのうち、前記第2検索策略が検索データの全の第2テキストインデックスドメインに対応して、且つ各前記第2テキストインデックスドメインの検索重みは互いに同じである。
一つの実施例において、図8に示すように、前記検索ロジックは、
プリセット条件を満たす時に、基于前記第2検索策略に対応する検索ログに基づいて前記第1検索策略を認識するための分類器を訓練して更新することに用いられる検索策略更新モジュール570を更に含む。
一つの実施例において、前記プリセット条件は、プリセット更新周期に達すること、第1クリック率と第2クリック率との比値はプリセット閾値よりも小さいこと、の少なくとも一項を含み、そのうち、前記第1クリック率は、前記第1検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率であって、前記第2クリック率は、第2検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率である。
第2検索策略と組み合わせて検索操作を実行することにより、検査漏れによる無結果なのでリコールされるとの問題を避け得る。同時に、第2検索策略による検索結果と組み合わせることにより、第1検索策略を認識するための分類器の訓練を繰り返して実行することにより、ユーザーの使用習慣の変更による第1検索策略不適用との問題を見つけることができ、且つ新な第1検索策略をタイムリーに見つけることができる。
本願は、更にコンピュータープログラムが記憶された非一時的コンピュータ読取可能記憶媒体を公開しおり、このプログラムは、プロセッサーにより実行される場合に上述した実施例に記載の検索方法におけるステップを実現する。
本明細書における各実施例は、いずれもプログレッシブの方式で説明されており、各実施例の重要点として説明されたのは、いずれも他の実施例との相違点であって、各実施例間に同じ又は類似の部分は互に参照さえすれば十分に理解できる。装置に係わる実施例について、方法に係わる実施例と本質的に類別するので、単に簡単に説明しており、関係するところは、方法に係わる実施例の部分における説明を参照する。
以上は、本願の提供した検索方法、装置を詳細に釈明しており、本文では具体的な事例を通じて本願の原理及び実施の様態を解釈し、以上の実施例に対する説明は、単に本願の方法及びその中心である技術的思想に対する理解を優しくするためのものと留まり、しかも、当業者にとって、本願の技術的思想を基にして、具体的な実施の様態及び適用範囲では変更するところもあり、以上をまとめ、本明細書のコンテンツは、本願への限制であると理解されるべきではない。
[関連出願の相互参照]
本特許出願は、2017年03月31日に提交されており、出願番号が201710209677.Xであり、発明の名称が「検索方法、装置及び非一時的コンピュータ読取可能記憶媒体」であり、引用として全文で本文に組み込まれた中国特許出願の優先権を主張している。
[技術分野]
本願は、コンピュータに係わる技術分野、詳しくて検索方法、装置及び非一時的コンピュータ読取可能記憶媒体に関する。
インターネット技術の発達と伴い、インターネットでの情報は爆発するように増加しつつあり、インターネットでの情報を通じて自分の関心しているコンテンツを検索して得るユーザーは、日々多くなっている。例えば、検索エンジンは、ユーザーの入力したテキストに基づいて情報を検索して、且つテキスト関連性に基づいて検索サービスを実行することができる。検索エンジンの始まりでは、ウェブページでもインターネットの主な情報キャリアーなので、ウェブページに対して検索さえを行われば、ユーザーの関心したコンテンツを概ね得ることができる。しかし、モバイルネットワークの発達と伴い、O2O(Online−to−Offline、オンラインからオフライン)プラットフォームの提供した地元の生活サービスなので人間の生活も便利になって、O2Oプラットフォームでの検索需要も段々多くなっている。O2Oプラットフォームにおける情報説明キャリアーは、異なる角度でプラットフォームサービスを説明するための複数のテキストインデックスドメインを有する点で、ウェブページと相違している。例えば、飲食サービスを提供するある商店POI(Point of Interest、興味のあるポイント)を紹介する際に、商店の名称、商店の登録会社名称、ブランド名称、商店の位置するビジネス地区、商店アドレス、商店のメインディッシュ、商店の営業時間等の角度で説明を行うことができる。この場合、O2Oプラットフォームでの説明性テキストインデックスドメインは、五十個以上に達することもある。しかも、これらのテキストインデックスドメインの明記した情報は、互いに関係していない可能性もあるので、ウェブページ検索方法を利用して全てのテキストインデックスドメインにおいて情報検索をするのは、ユーザーの関心したコンテンツを全面で正確に得るのは、極めて困難であるかもしれない。
本願は、複数のテキストインデックスドメインを有する情報について、相対的で正確な検索結果を獲得し得る検索方法、装置及び非一時的コンピュータ読取可能記憶媒体を提供する。
第1の態様では、本願実施例は、
検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応するものであること、
各前記第1検索策略に対応する各前記第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに基づいて、それぞれ前記クエリテキストに対する検索操作を実行すること、
上述全ての検索操作による検索結果をマージして出力すること、
を含む検索方法を提供する。
本願実施例に公開された検索方法は、クエリテキストに一致する少なくとも一つの第1検索策略を決定することにより、そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応するものであって、次に、各前記第1検索策略に対応する各前記テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに基づいて、それぞれ前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を獲得し得る。クエリテキストのみに関連するテキストインデックスドメインで検索操作を実行することにより、全てのテキストインデックスドメインで検索を行う必要がなくなって、故に関係しないテキストインデックスドメインでリテラルヒットに起因するリコールエラーを避けることができ、検索結果の関連性を効果に向上させることとなる。しかも、異なるテキストドメインインデックスドメインに対して異なる検索重みを設置することにより、検索結果の正確率を効果に向上させ得ることとなる。
本願実施例の公開した検索方法は、図1に示すように、ステップ100ないしステップ120を含む。
本願の検索方法は、二種類の検索策略、即ち第1検索策略、第2検索策略を含むことができる。そのうち、第1検索策略は、単に検索データの一部のテキストインデックスドメインのみについて検索操作を実行することができるが、第2検索策略は、検索データの全部テキストインデックスドメインについて検索操作を実行することができる。
ステップ110では、各前記第1検索策略に対応するテキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストに対する検索操作を実行する。
一つのクエリテキストは複数の第1検索策略に対応することも可能であるし、各第1検索策略には複数のテキストインデックスドメインを含むことも可能である。クエリテキストに一致する第1検索策略を決定した後で、各第1検索策略におけるテキストインデックスドメインに基づいて前記クエリテキストに対して検索操作をそれぞれ実行することができる。例えば、クエリテキストの「金百万」に応じて決定できる第1検索策略は、商店策略、ランドマーク策略を含む。商店策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、商店名称、ブランド名称を含む。ランドマーク策略では、クエリテキストの「金百万」に一致するテキストインデックスドメインは、建筑物を含むことができる。それぞれ商店の名称、ブランド名称、及び建筑物との三つのテキストインデックスドメインに基づいて、検索データにおいてクエリテキストの「金百万」に対して検索操作を実行し、且つそれぞれ三つの検索結果リストを得ることができる。異なるテキストインデックスドメインに基づいて、検索データにおいてクエリテキストについて検索操作を実行する時に、各テキストインデックスドメインの検索重みと組み合わせてクエリテキストと検索データとの関連性を計算することができる。
本願実施例に公開された検索方法に従い、先ず、検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定することができる。そのうち、各前記第1検索策略は、少なくとも一つのテキストインデックスドメインに対応し、しかも各前記テキストインデックスドメインは、プリセット検索重みを有する。次に、各前記第1検索策略に対応するテキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストの検索操作を実行する。最後、上述した全ての検索操作による検索結果をマージして出力する。すると、たとえ検索データが複数のテキストインデックスドメインの情報を有するとしても、相対的な正確な検索結果を得ることができる。全てのテキストインデックスドメインで検索を行うことはなくて、クエリテキストのみに関連しているテキストインデックスドメインで検索操作を実行するのは、関係していないテキストインデックスドメインでリテラルヒットによるリコールエラーを避けることができ、検索結果の関連性を効果に向上させる。しかも、異なるテキストインデックスドメインに対して検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。
複数の注文行動ログ及び/又はクリック行動ログに応じて複数のM次元の非零ベクトルを得た後で、得られた複数のM次元のベクトルをグループ化すること、即ちテキストインデックスドメインでの一致情况に類似する一種類の検索を同一の類別に集中することにより、各第1検索策略と検索ログにおけるクエリテキストとのマッピング関係を確立することもできる。一つの実施例において、多次元空間の数値クラスタリング方法、例えばDbscan(Density−based spatial clustering of application noise、密度クラスタリングアルゴリズム)クラスタリングアルゴリズム、k−Means(K−means clustering algorithm、K−meansクラスタリングアルゴリズム)クラスタリングアルゴリズムを採用して、得られたM次元のベクトルをグループ化し、本願では、採用されるクラスタリングアルゴリズムについて限定しない。
次に、それぞれ各類別のクエリテキストに基づいて第1検索策略を認識するための分類器を訓練することができる。
一つの実施例において、第1検索策略を認識するための分類器を訓練するために、各類別のクエリテキストを陽性サンプルとして使用でき、且つ一定数量の陰性サンプルを収集し、陽性サンプルと陰性サンプルとを訓練サンプルデータにして学ぶことを監督する。各クエリテキスト類別は、第1検索策略に対応できる。一つの実施例において、マルチ分類器は、その一つは一つのマルチ分類器であって、そのもう一つは、複数のジ分類器フィッティング、との二種類の方式で実現できる。例えば、本実施例において複数のジ分類器フィッティングを使用できる。分類モデルには、複数選定があってもよく、本実施例にて、SVM(Support Vector Machine、サポートベクターマシン)分類器で訓練のサンプルデータについて監督あり学習を行うことを例として、分類器の訓練過程を説明する。先ず、訓練のサンプルデータからサンプル特徴を抽出する。前記抽出されたサンプル特徴は、少なくともクエリテキストのテキスト特徴、例えばクエリテキスト、クエリテキストに対して単語分割した後で得られた単語分割組合せを含むことができる。訓練のサンプルデータから抽出されたサンプル特徴は、query length、Prefix、suffix、POS+bigram、POS+unigram、POS、及び他の組合せ特徴を更に含むことができる。そのうち、query lengthは、クエリテキストの長さであって、Prefixとsuffixとはそれぞれクエリテキストのプレフィックスとサフィックスであって、unigramとbigramとはそれぞれクエリテキストのテキスト特徴であって、POS+unigramはクエリテキストのテキスト特徴の位置である。
第2ステップでは、全てのテキストインデックスドメインの、各第1検索策略に対応する毎条の検索ログにおけるシングルログ重みに基づいて、各第1検索策略に対応する各テキストインデックスドメインの平均重みをそれぞれ計算する。例えば、下記の一般式3を通じて各テキストインデックスドメインの、各第1検索策略に対応する毎条の検索ログにおけるシングルログ重みについて平均値を計算し、この第1検索策略に対応する各テキストインデックスドメインの平均重みを得て、一般式3は以下のようである。
ステップ240では、各第1検索策略に対応する各前記テキストインデックスドメインに基づいて、前記クエリテキストの検索操作をそれぞれ実行する。
一つのクエリテキストは、一つの又は複数の第1検索策略に一致すると認識されてもよく、各第1検索策略は更に各々のテキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに対応し、検索サーバーは、各第1検索策略に対応するリコール結果セットを得るように複数の第1検索策略に基づいて検索操作を実行することができる。
以下の例のように、仮に検索サーバーは、下記の一般式5を通じて関連性スコアとして線形相関の重み付けスコアを使用するとしたら、一般式5は下記のようである。
関連性スコア=Σ(テキストインデックスドメインの一致長さ/テキストインデックスドメインの長さ)×検索重み (一般式5)。
前記クエリテキストに一致する少なくとも一つの第1検索策略を決定する具体的な実施の様態も、上述実施例を参照でき、ここで繰り返して記載しない。
ステップ340では、各第1検索戦略に対応する前記テキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストに対する検索操作を実行する。
上述した検索方法に対応して、本願実施例は、更に検索装置を提供した。図4は、検索装置のハードウェア構成の概略図である。この検索装置は、プロセッサー401、マシン実行可能コマンドを記憶した非一時的コンピュータ読取可能記憶媒体402を含むことができる。プロセッサー401と非一時的コンピュータ読取可能記憶媒体402とは、システムバス403を通じて通信することができる。しかも、非一時的コンピュータ読取可能記憶媒体402における、検索ロジックに対応するマシン実行可能コマンドを読み取って且つ実行することにより、プロセッサー401は上文に記載の検索方法を実行することができる。前記検索装置は、PC(personal computer、パソコン)、モバイル端末、携帯情報端末、タブレット等でもよい。
検索モジュール520は、前記第1検索策略に基づいて、モジュール510の決定した、各前記第1検索策略に対応する各前記第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みを決定し、前記クエリテキストの検索操作を実行することに用いられる。
検索結果出力モジュール530は、上述した全ての検索操作による検索結果をマージして出力することに用いられる。
本願実施例に公開された検索装置は、クエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第1検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第1テキストインデックスドメインに一致する検索重みに対応し、次に、各前記第1検索策略に対応する各前記テキストインデックスドメイン及び前記テキストインデックスドメインに一致する検索重みに基づいて、前記クエリテキストに対する検索操作を実行し、最後、上述した全ての検索操作による検索結果をマージして出力する。そうすると、複数のテキストインデックスドメインを有する情報について、相対的な正確な検索結果を得ることができる。単にクエリテキストに関連するテキストインデックスドメインで実行検索操作をすることにより、全てのテキストインデックスドメインで検索をする必要がなくなるので、関係していないテキストインデックスドメインでのリテラルヒットによるリコールエラーを避けて、検索結果の関連性を効果に向上させることができる。しかも、異なるテキストドメインインデックスに一致するように検索重みを設置することにより、検索結果の正確率を効果に向上させることができる。

Claims (15)

  1. 検索方法であって、
    検索しようとするクエリテキストに一致する少なくとも一つの第1検索策略を決定し、そのうち、各前記第一検索策略は、少なくとも一つの第1テキストインデックスドメイン及び前記第一テキストインデックスドメインに一致する検索重みに対応するものであること、
    各前記第1検索策略に対応する各前記第一テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作を実行すること、
    上述全ての検索操作による検索結果をマージして出力すること
    を含む検索方法。
  2. 前記検索しようとするクエリテキストに一致する前記少なくとも一つの第1検索策略を決定するのは、
    予め設置された第1検索策略とクエリテキストとの対応関係に基づいて、前記クエリテキストに一致する前記少なくとも一つの第1検索策略を決定すること、を含むことを特徴とする請求項1に記載の方法。
  3. 前記検索しようとするクエリテキストに一致する前記少なくとも一つの第1検索策略を決定するのは、
    各前記第1検索策略を認識するため予め訓練された分類器により前記クエリテキストをそれぞれ認識し、前記クエリテキストに一致する前記少なくとも一つの第1検索策略を決定する、ことを含む
    ことを特徴とする請求項1に記載の方法。
  4. 検索ログに基づいて前記分類器を訓練することを更に含む請求項3に記載の方法。
  5. 前記検索ログに基づいて前記分類器を訓練するのは、
    前記検索ログをグループ化させて、検索策略空間定義を生成し、そのうち前記検索策略空間定義は、各前記第1検索策略と前記検索ログにおけるクエリテキストとのマッピング関係を表すことに用いられること、
    前記検索策略空間定義に基づいて、各前記第1検索策略に対応する検索ログを得ること、
    各前記第1検索策略に対応する検索ログに基づいて、相応の前記第1検索策略を認識するための分類器をそれぞれ訓練すること
    を含む
    ことを特徴とする請求項4に記載の方法。
  6. 各前記第1検索策略に対応する前記第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定することを更に含むことを特徴とする請求項1に記載の方法。
  7. 前記第1検索策略に対応する前記第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定するのは、
    前記第1検索策略に対応する検索ログを得ること、
    前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各第2テキストインデックスドメインでのヒットスコアに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを繰り返し計算すること、
    前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、この第1検索策略に対応する第1テキストインデックスドメインに及び各前記第1テキストインデックスドメインに一致する検索重みを決定すること
    を含む
    ことを特徴とする請求項6に記載の方法。
  8. 前記第1検索策略に対応する検索ログにおけるクエリテキストの、検索データにおける各前記第2テキストインデックスドメインでのヒットスコアに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを繰り返し計算するのは、
    各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログにおけるシングルログ重みを得ること、
    各前記第2テキストインデックスドメインの、前記第1検索策略に対応する毎条の検索ログにおけるシングルログ重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みを計算すること
    を含むことを特徴とする請求項7に記載の方法。
  9. 前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、この第1検索策略に対応する第1テキストインデックスドメイン及び各前記第1テキストインデックスドメインに一致する検索重みを決定するのは、
    前記第1検索策略に対応する各前記第2テキストインデックスドメインの平均重みに基づいて、前記第1検索策略に対応する各前記第2テキストインデックスドメインの正規化重み値を計算すること、
    プリセット閾値よりも大きな前記正規化重み値に対応する前記第2テキストインデックスドメインを前記第1検索策略に対応する前記第1テキストインデックスドメインと決定すること、及び
    前記第1テキストインデックスドメインに対応する前記正規化重み値を前記第1テキストインデックスドメインに一致する検索重みと決定すること
    を含むことを特徴とする請求項7に記載の方法。
  10. 各前記第1検索策略に対応する各前記第1テキストインデックスドメインに基づいて、前記クエリテキストに対する検索操作をそれぞれ実行するのは、
    検索データにおける各前記第1テキストインデックスドメインのコンテンツと前記クエリテキストとの関連性に基づいて、データリコールを実行し、そのうち、前記関連性は、前記第1テキストインデックスドメインの検索重みに基づいて決定されること
    を含むことを特徴とする請求項1に記載の方法。
  11. 第2検索策略に基づいて前記クエリテキストに対する検索操作を実行し、そのうち、前記第2検索策略検索データの全部第2テキストインデックスドメインに対応して、且各前記第2テキストインデックスドメインの検索重み同じであることを特徴とする請求項1に記載の方法。
  12. プリセット条件を満たす時に、前記第2検索策略に対応する検索ログに基づいて前記第1検索策略を認識するための分類器を訓練し且つ更新することを更に含む請求項11に記載の方法。
  13. 前記プリセット条件は、
    プリセット更新周期に達すること、及び
    第1クリック率と第2クリック率との比値は、プリセット閾値よりも小さく、そのうち、前記第1クリック率は、前記第1検索策略に基づいて検索操を実行することによる検索結果に対するクリック率であって、前記第2クリック率は、前記第2検索策略に基づいて検索操作を実行することによる検索結果に対するクリック率であること、
    の少なくとも一項を含む請求項12に記載の方法。
  14. 検索装置であって、
    プロセッサー、及び
    非一時的コンピュータ読取可能記憶媒体
    を含み、
    前記非一時的コンピュータ読取可能記憶媒体には前記プロセッサーにより実行され得るマシン実行可能コマンドが記憶されており、前記マシン実行可能コマンドは、前記プロセッサーが請求項1−13のいずれか一項に記載の検索方法を実行するように促す検索装置。
  15. 非一時的コンピュータ読取可能記憶媒体であって、マシン実行可能コマンドが前記記憶媒体には記憶されており、プロセッサーによりコールされて実行される時に、前記マシン実行可能コマンドは、前記プロセッサーが請求項1〜13のいずれか一項に記載の検索方法を実行するように促す非一時的コンピュータ読取可能記憶媒体。
JP2020502745A 2017-03-31 2017-12-12 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 Pending JP2020512651A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710209677.X 2017-03-31
CN201710209677.XA CN108664515B (zh) 2017-03-31 2017-03-31 一种搜索方法及装置,电子设备
PCT/CN2017/115680 WO2018176913A1 (zh) 2017-03-31 2017-12-12 搜索方法、装置及非临时性计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2020512651A true JP2020512651A (ja) 2020-04-23

Family

ID=63674133

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020502745A Pending JP2020512651A (ja) 2017-03-31 2017-12-12 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体

Country Status (8)

Country Link
US (1) US11144594B2 (ja)
EP (1) EP3608799A4 (ja)
JP (1) JP2020512651A (ja)
KR (1) KR20190128246A (ja)
CN (1) CN108664515B (ja)
CA (1) CA3059929C (ja)
SG (1) SG11201909119YA (ja)
WO (1) WO2018176913A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN111581337A (zh) * 2020-03-19 2020-08-25 平安科技(深圳)有限公司 医疗文本搜索方法、装置、计算机设备及存储介质
CN111897807A (zh) * 2020-07-01 2020-11-06 拉扎斯网络科技(上海)有限公司 一种数据处理方法以及策略引擎系统
CN111984689B (zh) * 2020-08-21 2023-07-25 北京百度网讯科技有限公司 信息检索的方法、装置、设备以及存储介质
CN112989164B (zh) * 2021-03-26 2023-11-03 北京金堤征信服务有限公司 搜索结果处理方法、装置及电子设备
CN113032549B (zh) * 2021-05-31 2021-09-10 北京明略昭辉科技有限公司 一种文档排序方法、装置、电子设备及存储介质
CN116776869A (zh) * 2023-06-30 2023-09-19 荣耀终端有限公司 文档评分方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043264A (ja) * 2007-08-10 2009-02-26 Nhn Corp 情報検索方法およびそのシステム
JP2013525921A (ja) * 2010-04-30 2013-06-20 アリババ グループ ホールディング リミテッド 垂直検索に基づいたクエリの方法、システム、および装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480843B2 (en) 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6438539B1 (en) * 2000-02-25 2002-08-20 Agents-4All.Com, Inc. Method for retrieving data from an information network through linking search criteria to search strategy
GB2449501A (en) * 2007-05-25 2008-11-26 Univ Sheffield Searching method and system
JP2010237721A (ja) 2007-07-02 2010-10-21 Nec Corp 検索システム、検索方法および検索用プログラム
US7945571B2 (en) * 2007-11-26 2011-05-17 Legit Services Corporation Application of weights to online search request
WO2009107628A1 (ja) 2008-02-27 2009-09-03 日本電気株式会社 検索システム、検索方法およびプログラム
US20110302170A1 (en) * 2010-06-03 2011-12-08 Microsoft Corporation Utilizing search policies to determine search results
US9152674B2 (en) * 2012-04-27 2015-10-06 Quixey, Inc. Performing application searches
US8983991B2 (en) 2012-07-27 2015-03-17 Facebook, Inc. Generating logical expressions for search queries
US9384244B1 (en) * 2012-11-28 2016-07-05 BloomReach Inc. Search with autosuggest and refinements
US9727595B2 (en) * 2013-09-20 2017-08-08 Uber Technologies, Inc. Location searching with category indices
CN104462143B (zh) * 2013-09-24 2018-01-30 高德软件有限公司 连锁品牌词词库、类别词词库建立方法和装置
JP6167029B2 (ja) 2013-12-02 2017-07-19 株式会社Nttドコモ レコメンド情報生成装置およびレコメンド情報生成方法
CN104063497B (zh) 2014-07-04 2018-03-06 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
CN105335391B (zh) * 2014-07-09 2019-02-15 阿里巴巴集团控股有限公司 基于搜索引擎的搜索请求的处理方法和装置
US20170068712A1 (en) * 2015-09-04 2017-03-09 Palantir Technologies Inc. Systems and methods for database investigation tool
CN105488113B (zh) * 2015-11-23 2018-12-21 百度在线网络技术(北京)有限公司 论文的搜索方法、装置及搜索引擎
US10049208B2 (en) * 2015-12-03 2018-08-14 Bank Of America Corporation Intrusion assessment system
US10146815B2 (en) * 2015-12-30 2018-12-04 Oath Inc. Query-goal-mission structures
CN105955991A (zh) * 2016-04-19 2016-09-21 乐视控股(北京)有限公司 一种搜索结果聚合及定位的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009043264A (ja) * 2007-08-10 2009-02-26 Nhn Corp 情報検索方法およびそのシステム
JP2013525921A (ja) * 2010-04-30 2013-06-20 アリババ グループ ホールディング リミテッド 垂直検索に基づいたクエリの方法、システム、および装置

Also Published As

Publication number Publication date
KR20190128246A (ko) 2019-11-15
WO2018176913A1 (zh) 2018-10-04
CN108664515A (zh) 2018-10-16
EP3608799A1 (en) 2020-02-12
CA3059929C (en) 2023-08-29
US11144594B2 (en) 2021-10-12
US20200110778A1 (en) 2020-04-09
SG11201909119YA (en) 2019-10-30
CA3059929A1 (en) 2018-10-04
CN108664515B (zh) 2019-09-17
EP3608799A4 (en) 2020-11-04

Similar Documents

Publication Publication Date Title
US11275895B1 (en) Generating author vectors
US11604822B2 (en) Multi-modal differential search with real-time focus adaptation
JP2020512651A (ja) 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体
CN106815252B (zh) 一种搜索方法和设备
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2018157805A1 (zh) 一种自动问答处理方法及自动问答系统
US9305083B2 (en) Author disambiguation
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN109299245B (zh) 知识点召回的方法和装置
US20090281975A1 (en) Recommending similar content identified with a neural network
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
US20230045330A1 (en) Multi-term query subsumption for document classification
CN105164672A (zh) 内容分类
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN117077679A (zh) 命名实体识别方法和装置
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
US20230267277A1 (en) Systems and methods for using document activity logs to train machine-learned models for determining document relevance
CN107729509A (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN116414940A (zh) 标准问题的确定方法、装置及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191210

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201001

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221018