JP6526329B2 - ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 - Google Patents

ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 Download PDF

Info

Publication number
JP6526329B2
JP6526329B2 JP2018516619A JP2018516619A JP6526329B2 JP 6526329 B2 JP6526329 B2 JP 6526329B2 JP 2018516619 A JP2018516619 A JP 2018516619A JP 2018516619 A JP2018516619 A JP 2018516619A JP 6526329 B2 JP6526329 B2 JP 6526329B2
Authority
JP
Japan
Prior art keywords
web page
training
query string
category
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018516619A
Other languages
English (en)
Other versions
JP2018518788A (ja
Inventor
ワン,ジョンチュン
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2018518788A publication Critical patent/JP2018518788A/ja
Application granted granted Critical
Publication of JP6526329B2 publication Critical patent/JP6526329B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

技術分野]
本開示は、インターネット技術の分野に関し、特に索意図識別方法及び装置に関する。
インターネット技術の発展に伴い、人々は、彼らが必要なものを検索エンジンを用いてネットワークを通じて検索することができる。例えば、ユーザが「Legend of Sword and Fairy」と検索エンジンに入力すると、かなり可能性のあるユーザの意図は、テレビドラマを検索すること又はゲームを検索することであり得る。検索エンジンが先ずユーザの検索意図を決定するならば、返される検索結果は、ユーザにより必要とされる内容にもっと近くなり得る。意図識別は、任意の所与のクエリ文字列について、クエリ文字列が属するカテゴリを決定することである。
従来の検索意図識別方法では、ウェブページに対するカテゴリ注釈を実行するために手動注釈方法が一般的に用いられる。意図識別が実行されるとき、手動で注釈を付けられたウェブページカテゴリは、識別を実行するために使用される必要があり、各カテゴリのウェブページセットは手動で注釈を付けられる必要がある。その結果、コストが過度に高くなる。さらに、手動注釈の結果の数は、通常限られており、クリックスルーレートが小さいウェブページのウェブページカテゴリは、全く知られない可能性がある。したがって、意図識別正解率は高くない。
したがって、前述の技術的問題に鑑み、検索意図識別正解率を向上するために、ウェブページトレーニング方法及び装置、検索意図識別方法及び装置が提供される。
検索意図識別方法は、1又は複数のプロセッサ及びメモリを有する装置において、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得するステップであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされたウェブページを有する、ステップと、定のウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのカテゴリを取得するステップと、前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得するステップと、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップと、を有する。
検索意図識別装置が提供され、当該装置は、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得する取得モジュールであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされた各ウェブページを有する、取得モジュールと、前述のウェブページトレーニング装置を用いることにより生成されたウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのクラスを取得するウェブページクラス取得モジュールと、前記履歴ウェブページセットの中の各クラスの中のウェブページ数について統計を収集し、各クラスの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得し、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するよう構成される意図識別モジュールと、を有する。
非一時的コンピュータ可読記憶媒体は、1又は複数のプロセッサにより実行されると、上述の方法を実行するコンピュータ実行可能命令を含む。
検索意図識別装置は、プログラム命令を格納するメモリと、前記メモリに結合されたプロセッサと、を有し、前記プロセッサは、前記プログラム命令を実行して、識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得し、前記履歴ウェブページセットは過去に前記クエリ文字列を使用することによりクリックされたウェブページを含み、所定のウェブページ分類モデルを取得し、前記ウェブページ分類モデルに従い、前記履歴ウェブページセットの中の各ウェブページのカテゴリを取得し、前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、前記クエリ文字列の意図分布を取得し、前記意図分布に従い、前記クエリ文字列の意図識別結果を取得する。
本開示の他の態様は、本開示の説明、請求項及び図面に照らして当業者により理解され得る。
一実施形態によるウェブページトレーニング方法及び検索意図識別方法の適用環境の図である。 一実施形態による図1中のサーバの内部構造の図である。 一実施形態によるウェブページトレーニング方法のフローチャートである。 一実施形態による検索意図識別方法のフローチャートである。 一実施形態による文字列分類モデルを生成するフローチャートである。 一実施形態によるウェブページトレーニング装置の構造ブロック図である。 別の実施形態によるウェブページトレーニング装置の構造ブロック図である。 一実施形態による検索意図識別装置の構造ブロック図である。 別の実施形態による検索意図識別装置の構造ブロック図である。 更に別の実施形態による検索意図識別装置の構造ブロック図である。
図1は、一実施形態によるウェブページトレーニング方法及び検索意図識別方法を走らせる適用環境の図である。図1に示すように、適用環境は、端末110及びサーバ120を含み、端末110はネットワークを用いてサーバ120と通信する。
端末110は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、等であって良いが、これらに限定されない。端末110は、検索を実行するために、ネットワークを用いてクエリ文字列をサーバ120へ送信する。サーバ120は、端末110により送信される要求に応答して良い。
一実施形態では、図1中のサーバ120の内部構造は図2に示され、サーバ120は、システムバスを用いて接続される、プロセッサ、記憶媒体、メモリ、及びネットワークインタフェースを含む。サーバ120の記憶媒体は、オペレーティングシステム、データベース、及び検索意図識別装置を格納する。ここで、検索意図識別装置はウェブページトレーニング装置を含み、データベースはデータを格納するよう構成され、検索意図識別装置は、サーバ120に適用可能な検索意図識別方法を実施するよう構成され、ウェブページトレーニング装置は、サーバ120に適用可能なウェブページトレーニング方法を実施するよう構成される。サーバ120のプロセッサは、計算及び制御能力を提供し、サーバ120全体の運転をサポートする。サーバ120のメモリは、記憶媒体の中の検索意図識別装置を走らせる環境を提供する。サーバ120のネットワークインタフェースは、ネットワーク接続により外部端末110と通信し、例えば端末110により送信される検索要求を受信し、端末110にデータを返すよう構成される。
図3に示すように、一実施形態では、ウェブページトレーニング方法が提供される。方法は、前述の適用環境の中のサーバに適用されて良い。例えば、方法は以下を含む。
ステップS210:手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成する。
具体的に、トレーニングウェブページセットの中のウェブページの数は、実際の必要に従い自己定義されて良い。トレーニングされたウェブページ分類モデルをより正確にするために、トレーニングウェブページセットの中のウェブページの数は、十分に大きい必要がある。また、異なるカテゴリに属するウェブページ及びカテゴリ数も十分に大きい必要がある。トレーニングウェブページセット内のウェブページのカテゴリは、全て手動で注釈を付けられる。
例えば、mp3.baidu.comは、音楽カテゴリとして手動で注釈を付けられタグ付けされ、youku.comは、ビデオカテゴリとして手動でタグ付けされる。トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するとき、トレーニングウェブページセット内の全てのウェブページのウェブページベクトルが生成されて良く、或いは、対応するウェブページベクトルを生成するために幾つかのウェブページが所定条件に従い選択されて良い。例えば、異なる手動で注釈付けされたカテゴリが選択され、対応するウェブページベクトルを生成するために所定数のウェブページが各カテゴリから選択される。
具体的に、トレーニングウェブページセット内のウェブページのウェブページベクトルを生成するステップは、以下を含んで良い。
ステップS211:トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行する。
具体的に、第1トレーニングウェブページが第1クエリ文字列の検索結果として使用され、ユーザによりクリックされ及び入力される場合、第1クエリ文字列は、第1トレーニングウェブページの有効履歴クエリ文字列である。あるいは、第1トレーニングウェブページが第2クエリ文字列の検索結果として使用されるが、ユーザによりクリックされ又は入力されない場合、第2クエリ文字列は、第1トレーニングウェブページの有効履歴クエリ文字列ではない。第1トレーニングウェブページの中の有効履歴クエリ文字列の数は、実際の必要に従い自己定義されて良い。しかしながら、トレーニング結果を有効にするために、有効履歴クエリ文字列の数は、十分に大きい必要がある。例えば、所定時間期間の中で第1トレーニングウェブページの全ての有効履歴クエリ文字列が取得され、所定時間期間は現在時刻に比較的近い時間期間であって良い。さらに、ワードセグメント化が、有効履歴クエリ文字列に対して実行され、このクエリ文字列は、各セグメント化ワードを用いることにより示される。例えば、ワードセグメント化が「songs from Jay Chou」に対して実行された後、「Jay Chou」及び「songs」が取得され、ワードセグメント化の目的はウェブページをより良好に示すことである。ウェブページがクエリ文字列クエリを用いて直接示される場合、データは過度にまばらになる。例えば、クエリ文字列「songs of Jay Chou」及び「songsand tunes of Jay Chou」は、2つの異なるクエリ文字列である。しかしながら、ワードセグメント化がクエリ文字列に対して実行された後、「Jay Chou」及び「songs」並びに「Jay Chou」及び「songs and tunes」が取得され、両方ともセグメント化ワード「Jay Chou」を含み、クエリ文字列間の類似性が増大する。
ステップS212:各セグメント化ワードの有効回数を取得する。有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である。
具体的に、ワードセグメント化が有効履歴クエリ文字列に対して実行された後に、30個のセグメント化ワード「Jay Chou」が存在する場合、このセグメント化ワード「Jay Chou」の有効回数は30である。セグメント化ワードの有効回数が大きいほど、このセグメント化ワードを含むクエリ文字列を使用することにより現在トレーニングウェブページに入る回数が大きいことを示す。
ステップS213:各セグメント化ワードの有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算する。
具体的に、セグメント化ワード重みの値は、有効回数に正比例し、セグメント化ワード重みを計算する特定の方法は、実際の必要に従い自己定義されて良い。
一実施形態では、セグメント化ワードqのセグメント化ワード重みW(q)は、式W(q)=log(c+1)に従い計算される。ここで、iはセグメント化ワードのシーケンス番号であり、cはセグメント化ワードqの有効回数である。
具体的に、log関数は比較的滑らかあり、セグメント化ワード重みW(q)と有効回数cとの間の正比例関係を満たし、各セグメント化ワードのセグメント化ワード重みは、簡単に且つ都合良く取得され得る。
ステップS214:各セグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成する。
具体的に、第1トレーニングウェブページについて、第1トレーニングウェブページの有効履歴クエリ文字列により生成されたセグメント化ワードの数がmである場合、各セグメント化ワードは、qを用いて示される。ここで、1≦i≦mであり、W(q)はセグメント化ワードqに対応するセグメント化ワード重みであり、第1トレーニングウェブページのウェブページベクトルは、{q:W(q),q:W(q),...,q:W(q)}として示され、生成されたウェブページベクトルは、第1トレーニングウェブページのBow(bag of words)を示す。例えば、トレーニングウェブページmp3.baidu.comについて、トレーニングウェブページのウェブページベクトルは、{Jay Chou:5.4,songs:3.6,Jolin Tsai:3.0,tfboys:10}である。異なるウェブページ間の類似性は、ウェブページベクトルに従い計算できる。第1ウェブページと第2ウェブページとの間の類似性が所定条件を満たし、第1ウェブページのウェブページカテゴリが第1カテゴリである場合、第2ウェブページのウェブページカテゴリも第1カテゴリであると推定できる。mp3.baidu.comのウェブページベクトルのコサイン関数とy.qq.comのウェブページベクトルとの間の類似性が所定閾より大きい場合、mp3.baidu.comが音楽カテゴリであることに従い、y.qq.comも音楽カテゴリであると推定される。
ステップS215:トレーニングウェブページセットの中の他のトレーニングウェブページを取得し、目標トレーニングウェブページのウェブページベクトルの生成が完了するまで、ステップS211〜ステップS214を繰り返す。
具体的に、目標トレーニングウェブページの数は、必要に応じて自己定義されて良く、目標トレーニングウェブページは、所定ルールを用いてスクリーニングされるトレーニングウェブページセットの中のトレーニングウェブページであって良い。代替で、ウェブページセットの中の全てのトレーニングウェブページが、目標トレーニングウェブページとして直接使用されて良い。
ステップS220:トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成する。
具体的に、ウェブページ分類モデルを取得するために、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルは、トレーニングを実行するためにロジスティック回帰(LR)モデルに代入される。本発明の一実施形態では、ウェブページ分類モデルは、LR法を用いてトレーニングされる。直線回帰に基づき、論理関数がLRモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は比較的高くなり得る。
具体的に、ウェブページ分類モデルは、数学的モデルであり、ウェブページを分類するために使用され、分類モデルは、異なるウェブページ分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択され得る。
ウェブページ分類モデルを取得するために、オフライントレーニングが教師あり学習方法を用いて実行された後、ウェブページに対してオンラインカテゴリ予測が実行されるとき、トレーニングされたウェブページ分類モデルを用いてカテゴリ予測が実行される。一実施形態では、ウェブページ分類モデルは、限られた数の手動で注釈を付けられたカテゴリのウェブページ及び生成されたウェブページベクトルを用いて生成され、自動ウェブページカテゴリ注釈が、ウェブページ分類モデルを用いて実施されて良い。さらに、ウェブページベクトルがトレーニングデータとして使用されるとき、ウェブページ上の全てのコンテンツがクローリングされる又はBOW(bagging of words)が実行される必要がなく、トレーニングを実行するデータコストは低く、トレーニング効率は高い。
手動で注釈を付けられたクラスのトレーニングウェブページセットを取得し、トレーニングウェブページセットの中のウェブページのウェブページベクトルを生成するステップは、具体的に、トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、各々のセグメント化ワードの有効回数を取得するステップであって、有効回数は、セグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数である、ステップと、各々のセグメント化ワードの有効回数に従い、各々のセグメント化ワードのセグメント化ワード重みを計算するステップと、各々のセグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成するステップと、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、を有する、ステップ、を有する。ワードセグメント化が有効履歴クエリ文字列に対して実行された後に生成されたウェブページベクトルを用いて、トレーニングが実行される。トレーニングコストは低く、効率は高い。ウェブページ分類モデルが生成された後に、カテゴリ注釈がウェブページに対して自動的に実行されて良い。したがって、即時(immediate)テール型又はロングテール型のウェブページは、自動的にカテゴリを取得できる。したがって、意図識別におけるウェブページカテゴリのカバレッジレートは高く、識別された意図の正解率は一層高い。
一実施形態では、ステップS220の前に、方法は、トレーニングウェブページセットの中のウェブページのLDA(Latent Dirichlet Allocation)特徴を取得するステップを更に含む。
具体的に、LDA(文書トピック生成モデル)は、テキストに対してトピッククラスタリングを実行するために使用され、ウェブページのLDA特徴は、ウェブページのテキストのLDAモデルを入力することにより取得されて良い。
ステップS220は、ウェブページのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップである。
具体的に、ウェブページ分類モデルを取得するために、ウェブページのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルがLRモデルに代入され、トレーニングが実行される。本発明の一実施形態では、ウェブページ分類モデルは、LR法を用いてトレーニングされる。直線回帰に基づき、論理関数がLRモデルに用いられ、トレーニングされたウェブページ分類モデルの正解率は高い。
具体的に、ウェブページのLDA特徴は、ウェブページ分類モデルをトレーニングするためのトレーニングデータに追加され、LDA特徴は、ウェブページのトピックを反映する。したがって、トレーニングされたウェブページ分類モデルは、ウェブページに対してカテゴリ注釈を一層正確に実行できる。
表1は、異なるモデル及び方法を用いてトレーニングを実行することにより取得されたウェブページ分類モデルを用いてウェブページを分類することの正解率及び再現率を示し、新規カテゴリについて及び他のカテゴリについて分類を実行したときの正解率及び再現率、正解率及び再現率を結合することにより取得される値F1のみを示す。ここで、F1=2×正解率/(正解率+再現率)である。表1では、LDAは文書トピック生成モデルを示し、LR+LDAは、LRモデル及びLDA特徴の両方が使用されることを示し、LR+BOW+LDAは、トレーニングを実行するためにLRモデル、LDA特徴、及びウェブページベクトルBOWが全て使用されることを示す。ここで、正解率は、(文書及びウェブページのような)検索されたエントリのうちどれだけ多くのエントリが正確かであり、再現率は、全ての正確なエントリのうちどれだけ多くのエントリが検索されたかである。正解率=抽出された正しい情報ピース数/抽出された情報ピース数、再現率=抽出された正しい情報ピース数/サンプル内の情報ピース数であり、F1は正解率及び再現率の調和平均値である。
[表1]
Figure 0006526329
表1から分かることは、ウェブページが、LR方法を用いてトレーニングを実行することにより生成されたウェブページ分類モデルを使用してウェブページベクトルに基づき分類されるとき、大部分の正解率及び再現率は向上し、正解率及び再現率の結合について取得されるF1は、別の方法におけるよりも遙かに高く、効果は望ましい。
一実施形態では、図4に示すように、以下を含む検索意図識別方法が提供される。
ステップS310:識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、それぞれクエリ文字列を使用してクリックされた過去のウェブページを含む。
具体的に、識別されるべきクエリ文字列は、端末により検索エンジンに入力されたクエリ文字列であり、過去の検索の中でこのクエリ文字列を使用してクリックされた各々のウェブページにより形成された履歴ウェブページセットが取得される。
ステップS320:前述の実施形態のうちのいずれか1つのウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得する。
具体的に、履歴ウェブページセットの中のウェブページは、前述の実施形態のウェブページトレーニング方法を用いて生成されたウェブページ分類モデルを用いて自動的に分類される。例えば、履歴ウェブページセットが{url,url,...,url}であり、url(1≦i≦n)は各ウェブページを表し、各ウェブページのカテゴリが取得され、url∈d,url∈d,...,url∈d,d,d,...,dはカテゴリを表し、sは合計カテゴリ数を表し、カテゴリセットは{d,d,...,d}である。
ステップS330:履歴ウェブページの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、クエリ文字列の意図分布を計算する。
具体的に、統計は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について収集される。カテゴリdがt個のウェブページを含む場合、numd1=tである。履歴ウェブページセットの中の合計ウェブページを取得するために、履歴ウェブページセットの中の合計ウェブページ数について統計が収集される。例えば、履歴ウェブページセット{url,url,...,url}について、合計ウェブページ数がtotalurl=nである場合、識別されるべきクエリ文字列p−queryがカテゴリdに属する確率は、p(d/p−query)=numd1/toralurlである。p−queryが各カテゴリに属する確率p(d/p−query)を取得するために同じ方法を用いて計算が実行され、クエリ文字列の意図分布を取得する。ここで、1≦i≦sであり、確率p(d/p−query)の大きさは、クエリ文字列がカテゴリdに属する確率を示す。
ステップS340:意図分布に従いクエリ文字列の意図識別結果を取得する。
具体的に、意図分布の中で大きな確率を有するカテゴリは、クエリ文字列の意図識別結果として使用されて良い。または、所定数のカテゴリが、確率の降順で取り入れられ、クエリ文字列の意図識別結果として使用される。または、確率が所定閾より大きい任意のカテゴリが、クエリ文字列の意図識別結果として使用される。さらに、クエリ文字列を送信している現在アプリケーションに対応するサービスも取得されて良く、クエリ文字列の意図識別結果が、サービスのサービス情報及び意図分布に従い取得される。クエリ文字列を送信している現在アプリケーションのサービス情報が音楽サービスである場合、意図分布の中で最大確率を有するカテゴリが音楽でなかったとしても、音楽カテゴリが、依然として意図分布結果として使用されて良い。
したがって、識別されるべきクエリ文字列を取得することにより、クエリ文字列に対応する履歴ウェブページセットが取得される。履歴ウェブページセットは、過去にクエリ文字列を用いてクリックされたウェブページを有する。開示のウェブページトレーニング方法を用いることにより生成されたウェブページ分類モデルが取得される。ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリが取得される。履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計が収集される。各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い、計算が実行され、クエリ文字列の意図分布が取得される。意図分布に従い、クエリ文字列の意図識別結果が取得される。後の意図識別の間に、履歴ウェブページセットの中のウェブページのカテゴリは、ウェブページ分類モデルに従い自動的に識別される。したがって、カバレッジレートは、ウェブページのカテゴリに手動で注釈を付けるより大きい。即時テール又はロングテール型のウェブページは、自動的にカテゴリを取得でき、意図識別の正解率を向上する。
さらに、一実施形態では、ステップS340の前に、方法は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するステップを更に含む。
具体的に、文字列分類モデルは、数学的モデルであり、クエリ文字列を分類するために使用され、分類モデルは、異なる文字列分類モデルを取得するために、異なる方法を用いてトレーニングされて良い。トレーニング方法は、必要に応じて選択される。文字列分類モデルを取得するために教師あり学習方法を用いてオフライントレ―ニングが実行された後に、続いてクエリ文字列に対して意図識別が実行されると、トレーニングされた文字列分類モデルを用いてクエリ文字列に対してカテゴリ予測が実行されて良い。クエリ文字列の意図分布が明らかでないとき、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果を変更するために使用されて良い。例えば、クエリ文字列の意図分布の中に多くのカテゴリが存在し、カテゴリの確率が全て近く、比較的小さい。この場合、クエリ文字列の意図分布にだけ従い識別が実行されたならば、結果は正確でない可能性がある。
ステップS340は、したがって、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するステップを含んで良い。
具体的に、クエリ文字列の意図識別結果は、意図分布の中のカテゴリ数及び各カテゴリに対応する確率に従い決定されて良い。意図分布の中に多くのカテゴリが存在し、各カテゴリに対応する確率が比較的小さい場合、予測カテゴリはクエリ文字列の意図識別結果として直接に使用されて良く、あるいは、意図分布の中で最大確率を有するカテゴリ及び予測カテゴリは、クエリ文字列の意図識別結果を形成するために結合される。意図識別結果を取得する特定のアルゴリズムは、必要に応じて自己定義されて良い。意図分布が取得されないとき(例えば、クエリ文字列が希な文字列である、クエリ文字列に対応する履歴ウェブページセットの中のウェブページ数が0である又は非常に小さい、したがって、意図分布が計算できない又は取得された意図分布が1つのカテゴリの確率だけしか有しない、確率が100%であり、不正確な確率が非常に高い場合)、クエリ文字列の予測カテゴリは、クエリ文字列の意図識別結果として直接使用されて良い。
一実施形態では、図5に示すように、文字列分類モデルを取得するステップの前に、方法は、以下を更に含む。
ステップS410:履歴クエリ文字列の意図分布の中で最大確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用する。ここで、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含み得る。
具体的に、履歴クエリ文字列の最大数は、意図分布を取得するために計算され、異なるクエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリは、異なって良い。意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列は、カテゴリトレーニングクエリ文字列として使用され、トレーニングデータの有効性を保証するために、最大意図確率を有するカテゴリは、複数の異なるカテゴリを含む。
ステップS420:異なるカテゴリに対応するカテゴリトレーニングクエリ文字列の各々について、ワードに基づく及び/又は文字に基づくnグラム特徴を抽出する。ここで、nは、1より大きくMより小さい整数であり、Mは現在抽出されるカテゴリトレーニングクエリ文字列のワード長又は文字長である。
具体的に、カテゴリトレーニングクエリ文字列を直接用いてモデルがトレーニングされる場合、長さが約4ワードであるクエリ文字列のような比較的短いクエリ文字列では、特徴はまばら過ぎであり、トレーニングされたモデルは非常に良好なトレーニング結果を取得できない。このような場合には、特徴長が拡張されるように、ワードに基づく及び/又は文字に基づくnグラム特徴が抽出される。同じクエリ文字列について、抽出は複数回実行されて良く、各抽出の文字数は異なる。ここで、文字量は、ワード数を表し、全ての抽出の結果は特徴の組合せを形成する。例えば、このカテゴリトレーニングクエリ文字列「song of Jay Chou」について、ワードに基づく1グラム〜3グラム特徴が抽出され、それぞれ以下を取得する。
1グラム特徴:Jay Chou,of,song
2グラム特徴:of Jay Chou,song of
3グラム特徴:song of Jay Chou
文字に基づく1グラム〜3グラム特徴が抽出され、それぞれ以下を取得する。
1グラム特徴:Chou,Jie,Lun,of,singing,song
2グラム特徴:Jie Chou,Jay,of Lun,singing of,song
3グラム特徴:Jay Chou,of Jay,singing of Lun,song of
長さが3ワードであるクエリ文字列について、文字に基づく1グラム〜3グラム特徴が抽出された後に、特徴のまばらな問題を効果的に解決するために、クエリ文字列の特徴長は15次元より多くまで拡張される。さらに、トレーニングデータセットが十分に大きいので、所望の拡張性が達成される。
ステップS430:nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、文字列分類モデルを生成するために分類モデルを用いてトレーニングを実行する。
具体的に、nグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、文字列分類モデルを取得する目的でトレーニングを実行するために分類モデルに代入される。
具体的に、nグラム特徴及び対応するカテゴリは、トレーニングデータとして使用され、トレーニングデータは、カテゴリトレーニングクエリ文字列から拡張され、カテゴリ正解率及び取得された文字列分類モデルのカバレッジ率は両方とも向上され得る。一実施形態では、トレーニング特徴は、固定数の次元(例えば、100万次元)のベクトルにマッピングされて良く、トレーニング効率を向上し、及び非効率なトレーニングデータを削減してトレーニングの正解率を向上する。あるいは、クエリ文字列を用いてクリックされたウェブページのカテゴリ比率特徴などは、全てのウェブページに対する各カテゴリのクリックされたウェブページの間の比であり、例えば、全てのウェブページに対するクリックされたビデオカテゴリのウェブページの比である。
表2は、異なるモデル及び方法により取得された文字列分類モデルを用いてクエリ文字列を分類し、正解率及び再現率の組合せについてF1が取得されるとき、正解率及び再現率を示す。ここで、F1=2×正解率/(正解率+再現率)である。表中、NB(Naive Bayesian)はNBモデルを示し、ワードセグメント化はワードに基づくnグラム特徴を抽出することを示し、文字特徴は文字に基づくnグラム特徴を抽出することを示し、SVM(support vector machine)はSVMモデルを示す。
[表2]
Figure 0006526329
抽出された文字に基づくnグラム特徴によりトレーニングすることにより生成された文字列分類モデルを使用してクエリ文字列が分類されるとき、正解率及び再現率が両方とも高いこと、及び文字に基づくnグラム特徴及びワードに基づくnグラム特徴が両方とも抽出されるとき、正解率及び再現率が更に高いことが、表から分かる。本方法が使用されない意図識別の全体の正解率と比べると、本方法が使用される意図識別の全体の正解率は、54.6%から85%まで向上し、及び60%だけ向上し得る。
図6に示すように、一実施形態では、ウェブページトレーニング装置が提供される。ウェブページトレーニング装置は、ウェブページベクトル生成モジュール510と、ウェブページ分類モデル生成モジュール520と、を含む。
ウェブページベクトル生成モジュール510は、手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得し、トレーニングウェブページセットの中の各ウェブページのウェブページベクトルを生成するよう構成されて良い。さらに、ウェブページベクトル生成モジュール510は、ワードセグメント化ユニット511、セグメント化ワード重み計算ユニット512、及びウェブページベクトル生成ユニット513を含んで良い。
ワードセグメント化ユニット511は、トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、有効履歴クエリ文字列に対してワードセグメント化を実行するよう構成されて良い。
セグメント化ワード重み計算ユニット512は、各セグメント化ワードの有効回数を取得し、有効回数はセグメント化ワードが有効履歴クエリ文字列の中で生じる合計回数であり、並びに、各セグメント化ワードの有効回数に従い各セグメント化ワードのセグメント化ワード重みを計算するよう構成されて良い。
ウェブページベクトル生成ユニット513は、各セグメント化ワード及び対応するセグメント化ワード重みに従い、第1トレーニングウェブページのウェブページベクトルを生成するよう構成されて良い。
ウェブページ分類モデル生成モジュール520は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう構成されて良い。
一実施形態では、図7に示すように、装置は、トレーニングウェブページセットの中のウェブページのLDA特徴を取得するよう構成されて良いLDA特徴取得モジュール530を更に含む。ウェブページ分類モデル生成モジュール520は、ウェブページセットのLDA特徴、手動で注釈を付けられたカテゴリ、及び対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するよう更に構成される。
一実施形態では、ウェブページ分類モデル生成モジュール520は、トレーニングウェブページセットの中のウェブページの手動で注釈を付けられたカテゴリ及び対応するウェブページベクトルを、LRモデルに代入し、トレーニングを実行して、ウェブページ分類モデルを取得するよう更に構成される。
一実施形態では、セグメント化ワード重み計算ユニット511は、式W(q)=log(c+1)に従いセグメント化ワードqのセグメント化ワード重みW(q)を計算するよう更に構成される。ここで、iはセグメント化ワードのシーケンス番号であり、cはセグメント化ワードqの有効回数である。
一実施形態では、図8に示すように、検索意図識別装置が提供される。検索意図識別装置は、取得モジュール610、ウェブページカテゴリ取得モジュール620、及び意図識別モジュール630を含んで良い。
取得モジュール610は、識別されるべきクエリ文字列を取得し、クエリ文字列に対応する履歴ウェブページセットを取得する。履歴ウェブページセットは、過去のクエリ文字列を使用してクリックされた各ウェブページを含む。
ウェブページカテゴリ取得モジュール620は、上述のウェブページトレーニング装置を用いて生成されたウェブページ分類モデルを取得し、ウェブページ分類モデルに従い履歴ウェブページセットの中のウェブページのカテゴリを取得するよう構成されて良い。
意図識別モジュール630は、履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中のウェブページ数及び履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、クエリ文字列の意図分布を取得し、意図分布に従いクエリ文字列の意図識別結果を取得するよう構成されて良い。
一実施形態では、図9に示すように、装置は、予測カテゴリモジュール640を更に含む。予測カテゴリモジュール640は、文字列分類モデルを取得し、文字列分類モデルに従いクエリ文字列の予測カテゴリを取得するよう構成されて良い。意図識別モジュール630は、意図分布及び予測カテゴリに従い、クエリ文字列の意図識別結果を取得するよう更に構成される。
一実施形態では、図10に示すように、装置は、文字列分類モデル生成モジュール650を更に含む。文字列分類モデル生成モジュール650は、履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、該クエリ文字列をカテゴリトレーニングクエリ文字列として使用し、最大意図確率を有するカテゴリは、複数の異なるカテゴリを有し、異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づく及び/又は文字に基づくnグラム特徴を抽出し、nは1より大きく且つ現在抽出されるクエリ文字列のワード長又は文字長より小さい整数であり、nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用することによりトレーニングを実行して、文字列分類モデルを生成する、よう構成されて良い。
当業者は、前述の実施形態の方法の処理のうちの全部又は一部が関連するハードウェアに指示するコンピュータプログラムにより実装されて良いことを理解できる。プログラムは、コンピュータ可読記憶媒体に格納されて良い。例えば、本発明の実施形態では、プログラムは、コンピュータシステムの記憶媒体に格納され、前述の方法の実施形態を含む処理を実施するためにコンピュータシステム内の少なくとも1つのプロセッサにより実行されて良い。記憶媒体は、磁気ディスク、光ディスク、読み出し専用メモリ(ROM)又はランダムアクセスメモリ(RAM)、等であって良い。
したがって、本発明の実施形態は、コンピュータプログラムの格納されたコンピュータ記憶媒体を更に提供する。コンピュータプログラムは、本発明の実施形態のウェブページトレーニング方法又は検索意図識別方法を実行するために使用される。
前述の実施形態の技術的特徴は、ランダムに結合されて良い。説明を簡潔にするために、前述の実施形態の中の技術的特徴の可能な組合せの全部が記載されない。しかしながら、これらの技術的特徴の組合せが互いに矛盾しない限り、これらの組合せは全て本願明細書により記録される範囲内に包含されるべきである。
上述の実施形態は、具体的且つ詳細に記載された本開示の幾つかの実装方法のみを示すものであり、したがって本開示の特許範囲に対する限定として考えられない。留意すべきことに、当業者は、本開示の思想から逸脱することなく、幾つかの変形及び改良を行うことができる。このような変形及び改良の全部は、本開示の保護範囲に包含される。したがって、本開示の保護範囲は、添付の特許請求の範囲に従うべきである。

Claims (10)

  1. 検索意図識別方法であって、1又は複数のプロセッサ及びメモリを有する装置において、前記プロセッサは、前記メモリに格納されたプログラム命令を実行して処理を実行し、前記処理は、
    識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得するステップであって、前記履歴ウェブページセットは、過去に前記クエリ文字列を用いてクリックされたウェブページを有する、ステップと、
    所定のウェブページ分類モデルを取得するステップと、
    前記ウェブページ分類モデルに従い前記履歴ウェブページセットの中の各々のウェブページのカテゴリを取得するステップと、
    前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い、計算を実行して、前記クエリ文字列の意図分布を取得するステップと、
    前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップと、
    を有し、
    前記方法は、さらに、
    履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、前記クエリ文字列をカテゴリトレーニングクエリ文字列として使用するステップであって、最大意図確率を有するカテゴリは、複数の異なるカテゴリを有する、ステップと、
    前記異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づくnグラム特徴及び文字に基づくnグラム特徴のうちの少なくとも1つを抽出するステップであって、nは1より大きく且つ現在抽出されるクエリ文字列のワード長又は文字長より小さい整数である、ステップと、
    前記nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用することによりトレーニングを実行して、文字列分類モデルを生成する、ステップと、
    前記文字列分類モデルに従い前記クエリ文字列の予測カテゴリを取得するステップ、
    を更に有し、
    前記意図分布に従い、前記クエリ文字列の意図識別結果を取得するステップは、
    前記意図分布及び前記クエリ文字列の前記予測カテゴリに従い、前記クエリ文字列の意図識別結果を取得するステップ、を更に含む、
    方法。
  2. 前記ウェブページ分類モデルはウェブページトレーニング方法により決定され、前記ウェブページトレーニング方法は、
    複数のウェブページを有し手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得するステップと、
    前記トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、前記有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、
    各セグメント化ワードの有効回数を取得するステップであって、前記有効回数は前記セグメント化ワードが前記有効履歴クエリ文字列の中で生じる合計回数である、ステップと、
    各セグメント化ワードの前記有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算するステップと、
    各セグメント化ワード及び前記対応するセグメント化ワード重みに従い、前記第1トレーニングウェブページのウェブページベクトルを生成するステップと、
    前記トレーニングウェブページセットの中の残りのトレーニングウェブページのウェブページベクトルを生成するステップと、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、
    を有する、請求項1に記載の方法。
  3. 前記ウェブページトレーニング方法は、
    前記トレーニングウェブページセットの中の各ウェブページのLDA(Latent Dirichlet Allocation)特徴を取得するステップ、
    を更に有し、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従いウェブページ分類モデルを生成するステップは、
    前記ウェブページの前記LDA特徴、前記手動で注釈を付けられたカテゴリ、及び前記対応するウェブページベクトルに従い、前記ウェブページ分類モデルを生成するステップ、
    を更に有する、請求項に記載の方法。
  4. 前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従いウェブページ分類モデルを生成するステップは、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰(LR)モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
    を更に有する、請求項に記載の方法。
  5. 各セグメント化ワードの前記有効回数に従い各セグメント化ワードのセグメント化ワード重みを計算するステップは、
    次式に従いセグメント化ワードqのセグメント化ワード重みW(q)を計算するステップであって、
    W(q)=log(c+1)、ここで、iは前記セグメント化ワードのシーケンス番号であり、cは前記セグメント化ワードqの有効回数である、ステップ、
    を有する、請求項に記載の方法。
  6. 1又は複数のプロセッサにより実行されると、請求項1乃至のいずれか一項に記載の方法を実行するコンピュータ実行可能命令を含む非一時的コンピュータ可読記憶媒体。
  7. 検索意図識別装置であって、
    プログラム命令を格納するメモリと、
    前記メモリに結合されたプロセッサと、
    を有し、前記プロセッサは、前記プログラム命令を実行して、
    識別されるべきクエリ文字列を取得し、前記クエリ文字列に対応する履歴ウェブページセットを取得し、前記履歴ウェブページセットは過去に前記クエリ文字列を使用することによりクリックされたウェブページを含み、
    所定のウェブページ分類モデルを取得し、
    前記ウェブページ分類モデルに従い、前記履歴ウェブページセットの中の各ウェブページのカテゴリを取得し、
    前記履歴ウェブページセットの中の各カテゴリの中のウェブページ数について統計を収集し、各カテゴリの中の前記ウェブページ数及び前記履歴ウェブページセットの中の合計ウェブページ数に従い計算を実行して、前記クエリ文字列の意図分布を取得し、
    前記意図分布に従い、前記クエリ文字列の意図識別結果を取得する、
    よう構成され、
    前記プロセッサは、前記プログラム命令を実行して、
    履歴クエリ文字列に対応する意図分布の中で最大意図確率を有するカテゴリに対応するクエリ文字列を取得し、前記クエリ文字列をカテゴリトレーニングクエリ文字列として使用し、最大意図確率を有するカテゴリは複数の異なるカテゴリを有し、
    前記異なるカテゴリに対応するカテゴリトレーニングクエリ文字列について、ワードに基づくnグラム特徴及び文字に基づくnグラム特徴のうちの少なくとも1つを抽出し、nは1より大きく現在抽出されるクエリ文字列のワード長又は文字長より小さい整数であり、
    前記nグラム特徴及び対応するカテゴリをトレーニングデータとして使用し、分類モデルを使用してトレーニングを実行して、文字列分類モデルを生成し、
    前記文字列分類モデルに従い前記クエリ文字列の予測カテゴリを取得する、
    よう構成され、
    前記意図分布に従い前記クエリ文字列の意図識別結果を取得することは、
    前記意図分布及び前記クエリ文字列の前記予測カテゴリに従い、前記クエリ文字列の前記意図識別結果を取得すること、を更に有する、
    装置。
  8. 前記プロセッサは、ウェブページトレーニング方法により前記ウェブページ分類モデルを決定するよう構成され、前記ウェブページトレーニング方法は、
    複数のウェブページを有し及び手動で注釈を付けられたカテゴリを有するトレーニングウェブページセットを取得するステップと、
    前記トレーニングウェブページセットの中の第1トレーニングウェブページの有効履歴クエリ文字列を取得し、前記有効履歴クエリ文字列に対してワードセグメント化を実行するステップと、
    各セグメント化ワードの有効回数を取得するステップであって、前記有効回数は、前記セグメント化ワードが前記有効履歴クエリ文字列の中で生じる合計回数である、ステップと、
    各セグメント化ワードの前記有効回数に従い、各セグメント化ワードのセグメント化ワード重みを計算するステップと、
    各セグメント化ワード及び前記対応するセグメント化ワード重みに従い、前記第1トレーニングウェブページのウェブページベクトルを生成するステップと、
    前記トレーニングウェブページセットの中の残りのトレーニングウェブページのウェブページベクトルを生成するステップと、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップと、
    を有する、請求項に記載の装置。
  9. 前記ウェブページトレーニング方法は、
    前記トレーニングウェブページセットの中の各ウェブページのLDA(Latent Dirichlet Allocation)特徴を取得するステップ、
    を更に有し、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップは、
    前記ウェブページの前記LDA特徴、前記手動で注釈を付けられたカテゴリ、及び前記対応するウェブページベクトルに従い、前記ウェブページ分類モデルを生成するステップ、
    を更に有する、請求項に記載の装置。
  10. 前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルに従い、ウェブページ分類モデルを生成するステップは、
    前記トレーニングウェブページセットの中の前記ウェブページの前記手動で注釈を付けられたカテゴリ及び前記対応するウェブページベクトルをロジスティック回帰(LR)モデルに代入し、前記ウェブページ分類モデルを取得するためにトレーニングを実行するステップ、
    を更に有する、請求項に記載の装置。
JP2018516619A 2016-01-07 2017-01-06 ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 Active JP6526329B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610008131.3 2016-01-07
CN201610008131.3A CN106951422B (zh) 2016-01-07 2016-01-07 网页训练的方法和装置、搜索意图识别的方法和装置
PCT/CN2017/070504 WO2017118427A1 (zh) 2016-01-07 2017-01-06 网页训练的方法和装置、搜索意图识别的方法和装置

Publications (2)

Publication Number Publication Date
JP2018518788A JP2018518788A (ja) 2018-07-12
JP6526329B2 true JP6526329B2 (ja) 2019-06-05

Family

ID=59273509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018516619A Active JP6526329B2 (ja) 2016-01-07 2017-01-06 ウェブページトレーニング方法及び装置、検索意図識別方法及び装置

Country Status (7)

Country Link
US (1) US20180107933A1 (ja)
EP (1) EP3401802A4 (ja)
JP (1) JP6526329B2 (ja)
KR (1) KR102092691B1 (ja)
CN (1) CN106951422B (ja)
MY (1) MY188760A (ja)
WO (1) WO2017118427A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170300533A1 (en) * 2016-04-14 2017-10-19 Baidu Usa Llc Method and system for classification of user query intent for medical information retrieval system
CN107506472B (zh) * 2017-09-05 2020-09-08 淮阴工学院 一种学生浏览网页分类方法
CN110019784B (zh) * 2017-09-29 2021-10-15 北京国双科技有限公司 一种文本分类方法及装置
CN109815308B (zh) * 2017-10-31 2021-01-01 北京小度信息科技有限公司 意图识别模型的确定及检索意图识别方法、装置
CN107807987B (zh) * 2017-10-31 2021-07-02 广东工业大学 一种字符串分类方法、系统及一种字符串分类设备
CN107967256B (zh) * 2017-11-14 2021-12-21 北京拉勾科技有限公司 词语权重预测模型生成方法、职位推荐方法及计算设备
CN109948036B (zh) * 2017-11-15 2022-10-04 腾讯科技(深圳)有限公司 一种分词词项权重的计算方法和装置
CN108052613B (zh) * 2017-12-14 2021-12-31 北京百度网讯科技有限公司 用于生成页面的方法和装置
KR101881744B1 (ko) * 2017-12-18 2018-07-25 주식회사 머니브레인 대화형 ai 에이전트 시스템을 위한 계층적 대화 흐름 관리 모델을 자동으로 구축 또는 갱신하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
RU2711104C2 (ru) * 2017-12-27 2020-01-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для определения намерения, связанного с запросом для создания зависящего от намерения ответа
RU2693332C1 (ru) 2017-12-29 2019-07-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и компьютерное устройство для выбора текущего зависящего от контекста ответа для текущего пользовательского запроса
CN108710613B (zh) * 2018-05-22 2022-04-08 平安科技(深圳)有限公司 文本相似度的获取方法、终端设备及介质
CN111046662B (zh) * 2018-09-26 2023-07-18 阿里巴巴集团控股有限公司 分词模型的训练方法、装置、系统和存储介质
CN109635157B (zh) * 2018-10-30 2021-05-25 北京奇艺世纪科技有限公司 模型生成方法、视频搜索方法、装置、终端及存储介质
TWI701565B (zh) * 2018-12-19 2020-08-11 財團法人工業技術研究院 資料標記系統及資料標記方法
CN109408731B (zh) * 2018-12-27 2021-03-16 网易(杭州)网络有限公司 一种多目标推荐方法、多目标推荐模型生成方法以及装置
CN110162535B (zh) * 2019-03-26 2023-11-07 腾讯科技(深圳)有限公司 用于执行个性化的搜索方法、装置、设备以及存储介质
CN110503143B (zh) * 2019-08-14 2024-03-19 平安科技(深圳)有限公司 基于意图识别的阈值选取方法、设备、存储介质及装置
CN110598067B (zh) * 2019-09-12 2022-10-21 腾讯音乐娱乐科技(深圳)有限公司 词语权重获取方法、装置及存储介质
US11860903B1 (en) * 2019-12-03 2024-01-02 Ciitizen, Llc Clustering data base on visual model
CN111061835B (zh) * 2019-12-17 2023-09-22 医渡云(北京)技术有限公司 查询方法及装置、电子设备和计算机可读存储介质
CN111161890B (zh) * 2019-12-31 2021-02-12 上海亿锎智能科技有限公司 不良事件和合并用药的关联性判断方法及系统
CN111695337A (zh) * 2020-04-29 2020-09-22 平安科技(深圳)有限公司 智能面试中专业术语的提取方法、装置、设备及介质
CN111581388B (zh) * 2020-05-11 2023-09-19 北京金山安全软件有限公司 一种用户意图识别方法、装置及电子设备
CN112200546A (zh) * 2020-11-06 2021-01-08 南威软件股份有限公司 基于bayes交叉模型的政务审批智能筛查方法
JP7372278B2 (ja) * 2021-04-20 2023-10-31 ヤフー株式会社 算出装置、算出方法及び算出プログラム
CN113343028B (zh) * 2021-05-31 2022-09-02 北京达佳互联信息技术有限公司 意图确定模型的训练方法和装置
CN113312523B (zh) * 2021-07-30 2021-12-14 北京达佳互联信息技术有限公司 字典生成、搜索关键字推荐方法、装置和服务器
CN116248375B (zh) * 2023-02-01 2023-12-15 北京市燃气集团有限责任公司 一种网页登录实体识别方法、装置、设备和存储介质
CN115827953B (zh) * 2023-02-20 2023-05-12 中航信移动科技有限公司 用于网页数据抽取的数据处理方法、存储介质及电子设备

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698626B2 (en) * 2004-06-30 2010-04-13 Google Inc. Enhanced document browsing with automatically generated links to relevant information
JP4757016B2 (ja) * 2005-12-21 2011-08-24 富士通株式会社 文書分類プログラム、文書分類装置、および文書分類方法
KR100898458B1 (ko) * 2007-08-10 2009-05-21 엔에이치엔(주) 정보 검색 방법 및 그 시스템
US8103676B2 (en) * 2007-10-11 2012-01-24 Google Inc. Classifying search results to determine page elements
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
CN101609450A (zh) * 2009-04-10 2009-12-23 南京邮电大学 基于训练集的网页分类方法
JP5133946B2 (ja) * 2009-06-18 2013-01-30 ヤフー株式会社 情報検索装置及び情報検索方法
CN101673306B (zh) * 2009-10-19 2011-08-24 中国科学院计算技术研究所 网页信息查询方法及其系统
US20110208715A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Automatically mining intents of a group of queries
US8682881B1 (en) * 2011-09-07 2014-03-25 Google Inc. System and method for extracting structured data from classified websites
CN102999520B (zh) * 2011-09-15 2016-04-27 北京百度网讯科技有限公司 一种搜索需求识别的方法和装置
JP5648008B2 (ja) * 2012-03-19 2015-01-07 日本電信電話株式会社 文書分類方法、装置、及びプログラム
CN103838744B (zh) * 2012-11-22 2019-01-15 百度在线网络技术(北京)有限公司 一种查询词需求分析的方法及装置
CN103020164B (zh) * 2012-11-26 2015-06-10 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103049542A (zh) * 2012-12-27 2013-04-17 北京信息科技大学 一种面向领域的网络信息搜索方法
CN103914478B (zh) * 2013-01-06 2018-05-08 阿里巴巴集团控股有限公司 网页训练方法及系统、网页预测方法及系统
CN103106287B (zh) * 2013-03-06 2017-10-17 深圳市宜搜科技发展有限公司 一种用户检索语句的处理方法及系统
US9875237B2 (en) * 2013-03-14 2018-01-23 Microsfot Technology Licensing, Llc Using human perception in building language understanding models
CN104424279B (zh) * 2013-08-30 2018-11-20 腾讯科技(深圳)有限公司 一种文本的相关性计算方法和装置
CN103744981B (zh) * 2014-01-14 2017-02-15 南京汇吉递特网络科技有限公司 一种基于网站内容用于网站自动分类分析的系统
CN103870538B (zh) * 2014-01-28 2017-02-15 百度在线网络技术(北京)有限公司 针对用户进行个性化推荐的方法、用户建模设备及系统
CN104834640A (zh) * 2014-02-10 2015-08-12 腾讯科技(深圳)有限公司 网页的识别方法及装置
US9870356B2 (en) * 2014-02-13 2018-01-16 Microsoft Technology Licensing, Llc Techniques for inferring the unknown intents of linguistic items
US10643260B2 (en) * 2014-02-28 2020-05-05 Ebay Inc. Suspicion classifier for website activity
CN104268546A (zh) * 2014-05-28 2015-01-07 苏州大学 一种基于主题模型的动态场景分类方法
CN105159898B (zh) * 2014-06-12 2019-11-26 北京搜狗科技发展有限公司 一种搜索的方法和装置
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN104820703A (zh) * 2015-05-12 2015-08-05 武汉数为科技有限公司 一种文本精细分类方法
CN104866554B (zh) * 2015-05-15 2018-04-27 大连理工大学 一种基于社会化标注的个性化搜索方法及系统
CN104951433B (zh) * 2015-06-24 2018-01-23 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统

Also Published As

Publication number Publication date
EP3401802A1 (en) 2018-11-14
CN106951422B (zh) 2021-05-28
JP2018518788A (ja) 2018-07-12
CN106951422A (zh) 2017-07-14
EP3401802A4 (en) 2019-01-02
MY188760A (en) 2021-12-29
KR20180011254A (ko) 2018-01-31
WO2017118427A1 (zh) 2017-07-13
US20180107933A1 (en) 2018-04-19
KR102092691B1 (ko) 2020-03-24

Similar Documents

Publication Publication Date Title
JP6526329B2 (ja) ウェブページトレーニング方法及び装置、検索意図識別方法及び装置
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
US8782037B1 (en) System and method for mark-up language document rank analysis
Moxley et al. Video annotation through search and graph reinforcement mining
CN104199965B (zh) 一种语义信息检索方法
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN110390044B (zh) 一种相似网络页面的搜索方法及设备
WO2017000610A1 (zh) 一种网页分类的方法和装置
WO2017013667A1 (en) Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN111160019B (zh) 一种舆情监测的方法、装置及系统
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Chen et al. Doctag2vec: An embedding based multi-label learning approach for document tagging
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
JP6172332B2 (ja) 情報処理方法及び情報処理装置
JP2013003663A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2014021757A (ja) コンテンツ評価値予測装置、方法、及びプログラム
CN111966869A (zh) 短语提取方法、装置、电子设备及存储介质
CN111382385A (zh) 网页所属行业分类方法及装置
Han et al. The application of support vector machine (SVM) on the sentiment analysis of internet posts
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190507

R150 Certificate of patent or registration of utility model

Ref document number: 6526329

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250