JP7289330B2

JP7289330B2 - 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品

Info

Publication number: JP7289330B2
Application number: JP2021024436A
Authority: JP
Inventors: チエン・リー; ヤビン・シー; イエ・ジャン; チュングアン・チャイ; ヨン・ジュー
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-20
Filing date: 2021-02-18
Publication date: 2023-06-09
Anticipated expiration: 2041-02-18
Also published as: US20210263974A1; EP3869360A9; KR20210106372A; US11755654B2; EP3869360A1; CN111339250B; JP2021131862A; KR102508769B1; CN111339250A

Description

本開示の実施形態は知識グラフ技術分野に関し、特に、新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品に関する。

インターネットの幅広い使用に伴い、検索分野および場面での検索テキスト( Query )には、ますます多くの新しいカテゴリワードが登場している。カテゴリワードとは、例えば、博物館、図書館、ケーキ、花、草、木などのような人、こと、ものなどの実体を表す語を指す。新しいカテゴリワードとは、既存のカテゴリシソーラスに収録されていないカテゴリワードを指す。

よって、検索場面でユーザが入力した検索テキスト( Query )から新しいカテゴリワードを認識および発掘することは、検索エンジンがユーザの検索に対する実際の意図と動作を理解するのに効果的であり、検索結果の精度を向上させるために非常に重要である。

本開示の実施形態は、新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品を提供する。

第一方面において、本開示の実施形態は、
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップと、を含む新規カテゴリタグの発掘方法を提供する。

いくつかの実施形態において、前記発掘方法は、
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む。

いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む。

いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。

いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。

いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。

いくつかの実施形態において、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む。

第二方面において、本開示の実施形態は、
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む新規カテゴリタグの発掘装置を提供する。

いくつかの実施形態において、前記発掘装置は、モデル訓練ユニットをさらに含み、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される。

いくつかの実施形態において、前記発掘装置は、単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含み、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出された場合、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される。

いくつかの実施形態において、前記発掘装置は、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む。

いくつかの実施形態において、前記発掘装置は、流暢度検出ユニットと、選別ユニットと、をさらに含み、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される。

いくつかの実施形態において、前記発掘装置は、頻度検出ユニットと、選別ユニットと、をさらに含み、
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される。

いくつかの実施形態において、前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置される。

第三方面において、本開示の実施形態は、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、前記いずれか1つの実施形態に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、
前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む電子デバイスを提供する。

第四方面において、本開示の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、前記コンピュータプログラムが実行されると、前記いずれか1つの実施形態に記載の発掘方法が実施されるコンピュータ可読媒体を提供する。

第五方面において、本開示の実施形態は、プロセッサによって実行されると、前記いずれか1つの実施形態に記載の発掘方法が実施されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本開示の実施形態で提供する新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品は、予め訓練されたシーケンスラベリングモデルを用いて、現在の所定期間内の検索テキスト（Query）に対しカテゴリタグのラベリングを行い、現在のカテゴリタグライブラリを用いてラベリングされたカテゴリタグを繰り返し調査して、ラベリングされたカテゴリタグにおける新規カテゴリタグを発掘することにより、高い時効性の新規カテゴリタグの発掘を実現する。

図面は、本開示の実施形態のさらなる理解を提供するために使用され、本明細書の一部を構成し、本開示の実施形態とともに本開示を説明するために使用され、本開示を限定するものではない。図面を参照しながら詳しい例示的な実施形態を説明することにより、上記および他の特徴と利点は当業者にとってより自明なものになる。

本開示の実施形態によって提供される新規カテゴリタグの発掘方法のフローチャートである。本開示の実施形態における所定神経ネットワークモデルの構造ブロック図である。本開示の実施形態によって提供される別の新規カテゴリタグの発掘方法のフローチャートである。図3のステップ101の具体的な実施態様のフローチャートである。本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘方法のフローチャートである。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。本開示の実施形態によって提供される新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供される別の新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。本開示の実施形態によって提供される電子デバイスの構造ブロック図である。

当業者に本開示の技術案をより良く理解させるために、以下では図面と組合せて、本開示によって提供される新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品を詳細に説明する。

以下では、図面を参照して例示的な実施形態についてより詳細に説明するが、前記例示的な実施形態は種々の形態で体現されることができ、且つ本明細書で説明される実施形態に限定されるものではない。むしろ、これらの実施形態が提供される目的は、本開示を徹底して完全なものにし、当業者に本開示の範囲を十分に理解させることを目的とする。

矛盾しない限り、本開示の各実施形態および実施形態における各特徴は、互いに組み合わせることが可能である。

本明細書において「および/または」という用語は、1つまたは複数の関連事項の任意および全ての組み合わせを含む。

本明細書で使用される用語は、特定の実施形態を説明するためのものに過ぎず、本開示を限定することを意図していない。本明細書で使用されるような、単数形の「1つ」および「当該」には、文脈が別途明確に指摘しない限り、複数形式も含むことが意図される。さらに、本明細書で「含む」および/または「……により作製される」という用語が使用される場合、前記特徴、全体、ステップ、操作、素子および/またはコンポーネントが存在することを示すが、1つまたは複数の他の特徴、全体、ステップ、操作、素子、コンポーネントおよび/またはそのグループが存在あるいは追加されることを排除するものではないことも理解されたい。

特に限定しない限り、本明細書で使用されるすべての用語（技術および科学用語を含む）の意味は、当業者が一般的に理解する意味と同じである。また、一般的に使用される辞書で限定されているような用語は、関連技術および本開示の背景における意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に限定しない限り、理想化または過度的な形式の意味を有すると解釈されるべきではないことを更に理解されたい。

図1は、本開示の実施形態によって提供される新規カテゴリタグの発掘方法のフローチャートであり、図1に示すように、当該方法は、新規カテゴリタグの発掘装置により実行でき、当該装置は、ソフトウェアおよび/またはハードウェアによって実現でき、当該装置は、サーバなどの電子デバイスに組み込まれてもよい。当該新規カテゴリタグの発掘方法は、以下のステップを含む。

ステップ11、現在の所定期間内の複数の検索テキストを取得する。

ステップ11において、対話システムが現在の所定期間内に受信した複数の検索テキスト( Query )を取得する。そのうち、対話システムは、例えば、スマートオーディオ、スマートビデオキャビネット、スマートストーマ、スマートインタラクションプラットフォーム、スマートインタラクションアプリケーション、サーチエンジン等の、ユーザにスマートインタラクションサービスを提供することができるスマート端末、プラットフォーム、またはアプリケーションであってもよい。本開示の実施形態では、当該対話システムがユーザと対話できる限り、対話システムの実現方法に対して特に制限しない。

本開示の実施形態において、前記「対話」は、音声対話(Speech Interaction)とテキスト対話を含むことができ、そのうち、音声対話は、音声認識、音声合成、自然言語理解などの技術に基づいて実現され、多様な実際の応用場面において、対話システムに「聞ける、話せる、わかる」式のスマートな人間とコンピュータの対話体験を提供し、音声対話は、スマートクイズ、スマートプレイ、スマート検索などの場面を含む複数の応用場面に適用される。テキスト対話は、テキスト認識、抽出、自然言語理解などの技術に基づいて実現され、複数の前記の応用場面にも同様に適用できる。

本開示の実施形態において、検索テキストはテキスト情報である。前記のいずれか1つの応用場面において、ユーザが対話システムと対話する時、対話システムへ音声情報またはテキスト情報を入力することができ、そのうち、テキスト情報とは、自然言語系のテキストを指す。

いくつかの実施形態において、検索テキストの取得方法は、対話システムが受信したのが音声情報である時、当該音声情報を取得するとともに、当該音声情報に対し、音声認識、音声のテキスト変換などの操作を行った後、検索テキストを生成し、対話システムが受信したのがテキスト情報である時、直接当該テキスト情報を取得することができ、当該テキスト情報は、即ち、検索テキストである。

本開示の実施形態において、所定期間は、時間レベルの期間、日レベルの期間、週レベルの期間、または月レベルの期間などであってもよく、具体的には実際状況に応じて決められてよく、本開示の実施形態ではこれに対し制限しない。例えば、所定期間は、1時間、1日、1週間、または1ヶ月等であってもよい。現在の所定期間とは、最新の所定期間を指しており、例えば、所定期間が1日である場合、現在の所定期間は、最新の1日の期間を指すことを理解されたい。

ステップ12、各検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出する。

本開示の実施形態において、カテゴリタグとは、検索テキストに含まれるカテゴリワードを指し、カテゴリワードとは、人、こと、ものなどの実体を表す語を指しており、例えば、博物館、図書館、ケーキ、花、草、木、車、携帯電話などである。

本開示の実施形態においては、シーケンスラベリングモデルを予め訓練し、当該シーケンスラベリングモデルの入力は検索テキストであり、出力は検索テキストに対応するカテゴリタグである。

ステップ12において、各検索テキストに対して、当該検索テキストを予め訓練されたシーケンスラベリングモデルに入力する時、シーケンスラベリングモデルが出力する当該検索テキストに現在対応するカテゴリタグの数は少なくとも1つであり、即ち、各検索テキストに存在するカテゴリタグの数は1つであってもよく、複数であってもよい。

本開示の実施形態において、シーケンスラベリングモデルにより、全ての検索テキストに現在対応する全てのカテゴリタグをラベリングできる。そのうち、シーケンスラベリングモデルは、ディープラーニングに基づく端から端までの（End to end）シーケンスラベリングモデルであり、シーケンスラベリングモデルは、カテゴリタグが予めラベリングされた検索テキストサンプルを使用して、所定神経ネットワークモデルに基づくモデル訓練を行うことにより確定される。図2は、本開示の実施形態における所定神経ネットワークモデルの構造ブロック図であり、図2に示すように、所定神経ネットワークモデルは、2つの予め訓練された意味表現モデル（第1の意味表現モデル、第2の意味表現モデル）、2つの双方向GRU（Bi-GRU）層（第1の双方向GRU層、第2の双方向GRU層）、条件付きランダムフィールド、条件付きランダムフィールド（CRF）解析層を含む。そのうち、第1の意味表現モデルが第2の意味表現モデルに接続され、第1の双方向GRU層が第2の意味表現モデルに接続され、第2の双方向GRU層が第1の双方向GRU層に接続され、条件付きランダムフィールドが第2の双方向GRU層に接続され、条件付きランダムフィールド解析層が条件付きランダムフィールドに接続される。いくつかの実施形態において、意味表現モデルは、知識強化意味表現モデル（Enhanced Representation from kNowledge IntEgration、略称：ERNIE）を用いることができる。

ステップ13、検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとする。

本開示の実施形態において、所定の現在のカテゴリタグライブラリには、既存の既に発掘されたカテゴリタグが記憶されている。上記ステップ12において、シーケンスラベリングモデルにより現在の所定期間内における全ての検索テキストに現在対応するカテゴリタグをラベリングでき、その後、ステップ13において、現在のカテゴリタグライブラリを用いて、現在の所定期間内における全ての検索テキストに現在対応するカテゴリタグを繰り返し調査する。つまり、ステップ13において、シーケンスラベリングモデルが出力する各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが既存のカテゴリタグであるか否かを判断し、既存のカテゴリタグであると判断された時、削除処理を行うことで、全ての検索テキストの現在対応するカテゴリタグの中で既に現在のカテゴリタグライブラリに存在するカテゴリタグを除去して、現在のカテゴリタグライブラリに存在しないカテゴリタグ、即ち、新規カテゴリタグを発掘する。

本開示の実施形態において、新規カテゴリタグを発掘した後、新規カテゴリタグを現在のカテゴリタグライブラリに記憶して、現在のカテゴリタグライブラリを更新し、次の所定期間内の検索テキストを取得し、引き続き新規カテゴリタグを発掘する。

本開示の実施形態によって提供される新規カテゴリタグの発掘方法は、予め訓練されたディープラーニングに基づくシーケンスラベリングモデルを使用して、現在の所定期間内における検索テキスト( Query )に対しカテゴリタグのラベリングを行い、現在のカテゴリタグライブラリを用いてラベリングのカテゴリタグを繰り返し調査して、ラベリングされたカテゴリタグにおける新規カテゴリタグを発掘することで、高い時効性の新規カテゴリタグの発掘を実現する。

図3は、本開示の実施形態によって提供される別の新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図3に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ11の前に、当該発掘方法は、以下のステップ101とステップ102をさらに含むことであり、以下では、ステップ101とステップ102のみに対して説明し、他の説明の具体的に前記のいずれか1つの実施形態に対する説明を参照すること。

ステップ101、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する。

図4は、図3のステップ101の具体的な実施態様のフローチャートであり、図4に示すように、いくつかの実施形態において、ステップ101は以下のステップを含む。

ステップ1011、複数の履歴検索テキストと複数の所定のカテゴリタグを取得する。

そのうち、履歴検索テキストは前記対話システムの履歴検索ログから取得でき、所定のカテゴリタグは既存の既に発掘されたカテゴリタグであってもよい。

ステップ1012、遠隔監視方法を用いて、履歴検索テキストの全てから、所定のカテゴリタグが含まれる履歴検索テキストを全て選別する。

ステップ1012において、各履歴検索テキストに対して、遠隔監視（Distant Supervision）方法を用いて、当該履歴検索テキストの中で、複数の所定のカテゴリタグのいずれか1つと完全に一致する単語をラベリングし、即ち、当該履歴検索テキストの中に複数の所定のカテゴリタグのいずれか1つが含まれるか否かを検出する。当該履歴検索テキストの中に複数の所定のカテゴリタグのいずれか1つが含まれる時、当該履歴検索テキストを保留し、そうでなければ当該履歴検索テキストを削除して、全ての履歴検索テキストの中から、複数の所定のカテゴリタグのいずれか1つが含まれる履歴検索テキストを全て選別する。例えば、複数の履歴検索テキストがそれぞれテキストA、テキストB、テキストCであり、複数の所定のカテゴリタグがそれぞれa、b、cであると仮定した場合、ステップ1012において、テキストAに対して、テキストAに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、当該テキストAを保留し、そうでなければ当該テキストAを削除し、同様に、テキストBに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、保留し、テキストCに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、保留し、以下同様である。

ステップ1013、所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定する。

具体的に、ステップ1013において、所定のカテゴリタグを含む全ての履歴検索テキストに対して構文と品詞の分析を行い、低精度の構文、単語の境界が一致しないなどの欠陥が存在する履歴検索テキストをフィルタリングし、残りの履歴検索テキストを検索テキストサンプルとする。つまり、所定のカテゴリタグを含む履歴検索テキスト毎に、当該履歴検索テキストに対して構文および品詞（Case）の分析を行い、当該履歴検索テキストの構文の精度が低いか、または単語の境界が一致しない時、当該履歴検索テキストを削除し、そうでなければ保留し、所定のカテゴリタグを含む全ての履歴検索テキストから複数の検索テキストサンプルを確定する。

いくつかの実施形態において、依存構文解析（Dependency Parser、略称：depParser）ツールを用いて履歴検索テキストに対して構文分析を行い、構文分析により、履歴検索テキストにおける各単語間の依存関係を分析することができ、これにより、履歴検索テキストの構文精度が確定され、履歴検索テキストの構文精度が所定精度閾値未満である時、当該履歴検索テキストを削除し、そうでなければ当該履歴検索テキストを保留する。

いくつかの実施形態において、所定の分詞ツールを用いて履歴検索テキストに対して品詞分析を行い、履歴検索テキストにおける各単語の品詞を識別し、履歴検索テキストに単語の境界が一致しない欠陥が存在するか否かを分析し、存在する場合、当該履歴検索テキストを削除し、そうでなければ当該履歴検索テキストを保留する。

いくつかの実施形態において、履歴検索テキストに基づいて、上記方法によって、シーケンスラベリングモデルを訓練するための検索テキストサンプルが取得され、これらの検索テキストサンプルで訓練されたシーケンスラベリングモデルを用いて予測されるカテゴリタグの精確率はより高いものとなる。

ステップ102、検索テキストサンプルを所定神経ネットワークモデルの入力とし、検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得る。

そのうち、図2に示すように、所定神経ネットワークモデルは、2つの予め訓練された意味表現モデル（第1の意味表現モデル、第2の意味表現モデル）、2つの双方向GRU（Gated Recurrent Unit 、ゲート回帰ユニット）層（第1の双方向GRU層、第2の双方向GRU層）、条件付きランダムフィールド、条件付きランダムフィールド解析層を含む。そのうち、第1の意味表現モデルが第2の意味表現モデルに接続され、第1の双方向GRU層が第2の意味表現モデルに接続され、第2の双方向GRU層が第1の双方向GRU層に接続され、条件付きランダムフィールドが第2の双方向GRU層に接続され、条件付きランダムフィールド解析層が条件付きランダムフィールドに接続される。

そのうち、意味表現モデルは予め訓練されたモデルであり、例えば、意味表現モデルはERNIEモデルを採用し、検索テキストサンプルとして入力され、検索テキストサンプルにおける各文字のワードコードとして出力され、そのうち、意味表現モデルが出力する各文字のワードコードは768次元のワードベクトルのシーケンスである。

双方向GRU（Bi-GRU）層の入力は意味表現モデルから出力される文字のワードコードであり、その出力は各文字のワードコードと各文字のコンテキスト情報であり、そのうち、各文字のコンテキスト情報には、当該文字に隣接する文字のワードコードが含まれ、双方向GRU（Bi-GRU）層で出力される各文字のワードコードは512次元である。

条件付きランダムフィールド（CRF）の入力は、双方向GRU（Bi-GRU）層で出力される各文字のワードコードおよびそのコンテキスト情報であり、その出力は各文字が所属するカテゴリであり、文字が所属するカテゴリは「B」、「O」、「I」の3種類を含み、Bは、ラベリングのカテゴリワードの先頭を表し、Iは、ラベリングのカテゴリワードの後続を表し、Oは、非対象カテゴリワードである非関連カテゴリを表し、各文字が所属するカテゴリは1次元である。

条件付きランダムフィールド（CRF）解析層は、条件付きランダムフィールド（CRF）で出力される各文字が所属するカテゴリを復号するために使用され、各文字の最終カテゴリ( O/B/I )に最終的にマッピングされる。

例えば、1つの検索テキストサンプルが「チーズケーキ」であると仮定し、予めラベリングされた当該検索テキストサンプルのカテゴリタグが「ケーキ」であり、当該検索テキストサンプルを上記所定神経ネットワークモデルに入力すると、所定神経ネットワークモデルは「OOBI」を出力することにより、当該所定神経ネットワークモデルが出力する当該検索テキストサンプルのカテゴリタグが「ケーキ」であることが得られる。

ステップ102において、各検索テキストサンプルを所定神経ネットワークモデルの入力とし、各検索テキストサンプルに対応するカテゴリタグを所定神経ネットワークモデルの出力とし、所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得る。そのうち、所定神経ネットワークモデルにおいて、意味表現モデルは予備訓練モデルであり、そのモデルパラメータは固定されているのに対し、Bi-GRU層、CRF、CRF解析層のモデルパラメータは初期にランダムに初期化され、モデル訓練過程において、主にBi-GRU層、CRF、CRF解析層のモデルパラメータを微調整(Finetune)し、最終的にシーケンスラベリングモデルを得る。

本開示の実施形態において、シーケンスラベリングモデルは、大量の検索テキストサンプルとディープラーニングに基づく神経ネットワークモデルに基づいて訓練して得られ、従来のラベリングモデルと比較して、煩雑な構文と品詞の解析を行う必要がなく、検索テキストQueryにおける構文の制限も受けないため、シーケンスラベリングモデルのラベリング効果が効果的に向上され、時効性の高いカテゴリタグのラベリングと発掘が実現される。

図5は、本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図5に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1211～ステップ1215をさらに含むことであり、以下ではステップ1211～ステップ1215のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。

ステップ1211、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定された時、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とする。

前述したように、ステップ12において、シーケンスラベリングモデルにより各検索テキストに現在対応するカテゴリタグをラベリングでき、ステップ1211において、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在するか否かを判断し、即ち、当該カテゴリタグが既存のカテゴリタグであるか否かを判断し、現在のカテゴリタグライブラリに存在しないと判断された場合、当該カテゴリタグに対してさらなる処理を行わず、現在のカテゴリタグライブラリに存在すると判断された場合、当該カテゴリタグに対してさらに拡張を行って、当該検索テキストのより精確なカテゴリタグを発掘し、具体的に、当該カテゴリタグが所定のカテゴリタグライブラリに既に存在する時、当該検索テキストから当該カテゴリタグの前に位置し且つ隣接する単語を抽出して、現在の検出対象語とする。

例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされている場合、ステップ1211において、現在のカテゴリタグライブラリの中に「博物館」のカテゴリタグが既に存在するときには、当該検索テキストから、当該カテゴリタグ、即ち、「博物館」の前に位置し、且つ当該カテゴリタグに隣接する単語、即ち、「航空」を抽出し、「航空」を現在の検出対象語とする。

いくつかの実施形態において、ステップ1211では、当該検索テキストから、当該カテゴリタグの前に位置し、且つ隣接する単語を、分詞ツール、例えば、品詞ラベリング（Lextag）ツールを用いて抽出することができる。

ステップ1212、現在の検出対象語の品詞が所定の品詞であるか否かを検出し、そうであれば、ステップ1213を実行し、そうでなければ、ステップ1215を実行する。

そのうち、所定の品詞は、名詞（n）、形容詞（a）、名形詞（an）のいずれか1つである。

例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされ、上記ステップ1211において抽出された現在の検出対象語が「航空」である場合、ステップ1212において、「航空」の品詞が所定の品詞であるか否かを検出する、即ち、「航空」の品詞が名詞（n）、形容詞（a）、名形詞（an）のいずれか1つであるか否かを検出し、明らかに「航空」の品詞が名詞（n）であるため、ステップ1213にジャンプして、さらに拡張する。

いくつかの実施形態において、ステップ1212において、現在の検出対象語の品詞が所定の品詞であるか否かを、品詞検出ツール、例えば、Lextagツールを用いて検出することができる。

ステップ1213、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とする。

例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされ、上記ステップ1211において抽出された現在の検出対象語が「航空」である場合、ステップ1212において、「航空」の品詞が所定の品詞であることを検出し、即ち、「航空」の品詞が名詞（n）であることを検出し、ステップ1213において、当該検索テキストから、現在の検出対象語に位置する、「航空」の前に位置し且つ隣接する単語である「北京」を抽出して、現在の検出対象語とし、現在の検出対象語は「北京」である。

いくつかの実施形態において、ステップ1213では、当該検索テキストから、現在の検出対象語の前に位置し、且つ隣接する単語を、分詞ツール、例えば、Lextagを用いて抽出して、現在の検出対象語としてよい。

ステップ1214、品詞が所定の品詞でない現在の検出対象語が検出されるまでステップ1212を繰り返し実行する。

例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ1213から抽出される現在の検出対象語が「北京」である場合、ステップ1214では、ステップ1212を繰り返し実行して、当該現在の検出対象語、即ち、「北京」の品詞が所定の品詞であるか否かを検出し、明らかに、「北京」の品詞は地名（ns）であり、所定の品詞に属さないため、検出を停止し、ステップ1215にジャンプする。

ステップ1215、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとする。

例えば、前述したように、当該検索テキストが「北京航空博物館」であり、上記ステップ1211～ステップ1214により、「航空」という単語が所定の品詞であることのみ検出されたため、ステップ1215において、当該カテゴリタグ、即ち、「博物館」および検出された品詞が所定の品詞である「航空」という単語を、「博物館」および「航空」の当該検索テキストにおける順番で組合せ、組合せ結果、即ち、「航空博物館」を当該検索テキストに現在対応するカテゴリタグとする。即ち、当該検索テキストのカテゴリタグを「博物館」から「航空博物館」に拡張する。

なお、現在の検出対象語が当該カテゴリタグの前に位置し且つ隣接する単語であり、且つステップ1212において、現在の検出対象語が所定の品詞でないことが検出された場合、ステップ1215において、検出された全ての品詞が所定の品詞である検出対象語は空集合であるため、組合せ結果は依然として当該カテゴリタグであり、即ち、当該検索テキストに現在対応するカテゴリタグのままである。

いくつかの実施形態において、ステップ13の前に、ステップ12によってラベリングされた各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在する場合、上記ステップ1211～ステップ1215によって、当該カテゴリタグを拡張して、より精確なカテゴリタグを拡張し出す。一方、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在しない場合、あるいは上記ステップ1211～ステップ1215によって当該カテゴリタグが拡張不可能であると確定された場合、当該カテゴリタグはそのまま維持される。

本開示の実施形態において、上記ステップ1211～ステップ1215によって、シーケンスラベリングモデルで出力されるカテゴリタグに対して品質の監視を行い、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。

図6は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図6に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1221をさらに含むことであり、以下ではステップ1221のみに対して説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。

ステップ1221、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、そうであれば当該カテゴリタグ保留し、そうでなければ当該カテゴリタグを削除する。

ステップ1221では、先ず、当該カテゴリタグに対して単語を切る必要があり、具体的には分詞ツールを用いて単語を切ることができ、単語を切った後、当該カテゴリタグの終端に位置する単語が現在のカテゴリタグライブラリに既に存在するカテゴリタグと一致するか否かを判断し、即ち、当該カテゴリタグの終端に位置する単語が現在のカテゴリタグライブラリに既に存在するか否かを判断し、当該カテゴリタグの終端に存在する単語が現在のカテゴリタグライブラリに既に存在すると判断された場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、そうでなければ当該カテゴリタグを削除する。

いくつかの実施形態において、上記ステップ1221は、上記ステップ1215の後、且つ上記ステップ13の前に実行できる。いくつかの実施形態において、上記ステップ1221はさらに上記ステップ12の後、且つ上記ステップ1211の前に実行できる。

なお、いくつかの実施形態において、ステップ13において、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1221、ステップ1211～ステップ1215という2つの方法のいずれか1つまたは2つの方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。

本開示の実施形態において、上記ステップ1221では、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。

図7は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図7に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、ステップ1231をさらに含むことであり、以下ではステップ1231のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。

ステップ1231、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出し、そうであれば、当該カテゴリタグを保留し、そうでなければ当該カテゴリタグを削除する。

ステップ1231において、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章流暢度を検出し、当該カテゴリタグの文章流暢度が所定流暢度閾値以上である時、当該カテゴリタグの文章が流暢であることが検出されるため、当該カテゴリタグを保留する。当該カテゴリタグの文章流暢度が所定流暢度閾値未満である時、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないと検出されるため、当該カテゴリタグを削除する。

いくつかの実施形態において、上記ステップ1231により、上記ステップ12でラベリングされる全てのカテゴリタグから文章が流暢でないカテゴリタグをフィルタリングして、文章が流暢なカテゴリタグを選別できる。

いくつかの実施形態において、上記ステップ1231は上記ステップ12の後、且つ上記ステップ1211の前に実行されてもよい。いくつかの実施形態において、上記ステップ1231はさらに、上記ステップ1215の後、且つ上記ステップ13の前に実行されてもよい。いくつかの実施形態において、上記ステップはさらに、上記ステップ1221の後、または上記ステップ1221の前に実行されてもよい、
なお、いくつかの実施形態において、ステップ13において、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1211～ステップ1215、ステップ1221、ステップ1231という3つの方法のいずれか1つまたは複数の方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。

本開示の実施形態において、上記ステップ1231により、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。

図8は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図8に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1241とステップ1242をさらに含むことであり、以下ではステップ1241とステップ1242のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。

ステップ1241、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出する。

ステップ1242、当該カテゴリタグに対応する頻度が所定頻度閾値未満であるか否かを判断し、そうであれば、当該カテゴリタグを削除し、そうでなければ当該カテゴリタグを保留する。

例えば、所定頻度閾値は5回であり、現在の所定期間は1日である場合、ステップ1242において、当該カテゴリタグの現在1日の期間内での全ての検索テキストのカテゴリタグに出現する頻度が5回未満であるか否かを検出し、5回未満の場合、当該カテゴリタグを削除し、そうでなければ当該カテゴリタグを保留する。

いくつかの実施形態において、上記ステップ1241とステップ1242によって、出現頻度が低いカテゴリタグをフィルタリングして、より高い頻度のカテゴリタグを選別してよい。

いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ12の後、且つ上記ステップ1211の前に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1215の後、且つ上記ステップ13の前に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1221の前または後に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1231の前または後に実行されてもよい。

なお、いくつかの実施形態において、ステップ13では、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1211～ステップ1215、ステップ1221、ステップ1231、ステップ1241～ステップ1242という4つの方法のいずれか1つまたは複数の方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。

本開示の実施形態において、上記ステップ1241～ステップ1242によって、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグの発掘の正確性とリコール率を効果的に向上させることができる。

図9は、本開示の実施形態によって提供される新規カテゴリタグの発掘装置の構造ブロック図であり、図9に示すように、本開示の実施形態において、当該発掘装置は、取得ユニット201、ラベリングユニット202、発掘ユニット203を含む。

そのうち、取得ユニット201は、現在の所定期間内の複数の検索テキストを取得するように配置される。

ラベリングユニット202は、各検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置される。

発掘ユニット203は、検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするように配置される。

図10は、本開示の実施形態によって提供される別の新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図10に示すように、当該発掘装置は、モデル訓練ユニット204をさらに含む。そのうち、取得ユニット201は、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するようにさらに配置される。モデル訓練ユニット204は、検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される。

図11は、本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図11に示すように、当該発掘装置は、単語抽出ユニット205、品詞検出ユニット206、単語拡張ユニット207をさらに含む。

そのうち、単語抽出ユニット205は、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在している場合、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置される。

品詞検出ユニット206は、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置される。

単語抽出ユニット205は、現在の検出対象語の品詞が所定の品詞であることが品詞検出ユニット206で検出された場合、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、品詞検出ユニット206をトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが品詞検出ユニット206で検出されるまで繰り返し実行するようにさらに配置される。

単語拡張ユニット207は、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される。

図12は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図12に示すように、当該発掘装置は、選別ユニット208をさらに含み、選別ユニット208は、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とする場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが判断された場合、当該カテゴリタグを削除するように配置される。

図13は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図13に示すように、当該発掘装置は、流暢度検出ユニット209をさらに含み、流暢度検出ユニット209は、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置される。選別ユニット208は、当該カテゴリタグの文章が流暢であることを流暢度検出ユニット209で検出された場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことを流暢度検出ユニット209で検出された場合、当該カテゴリタグを削除するように配置される。

図14は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図14に示すように、当該発掘装置は、頻度検出ユニット210をさらに含み、頻度検出ユニット210は、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置される。選別ユニット208は、当該頻度が所定頻度閾値以上である場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満である場合、当該カテゴリタグを削除するようにさらに配置される。

いくつかの実施形態において、取得ユニット201は具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置される。

また、本開示の実施形態によって提供される新規カテゴリタグの発掘装置は、具体的に前記発掘方法を実現するために用いられ、具体的に前記発掘方法に対する説明を参照することができ、ここでは省略する。

図15は、本開示の実施形態によって提供される電子デバイスの構造ブロック図であり、図15に示すように、当該電子デバイスは、
1つまたは複数のプロセッサ501と、
1つまたは複数のプロセッサによって実行されることにより、上記のいずれか1つの実施形態によって提供される新規カテゴリタグの発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリ502と、
プロセッサとメモリの間に接続され、プロセッサとメモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェース503と、を含む。

そのうち、プロセッサ501は、データ処理能力を有するデバイスであり、中央処理装置（CPU）等が含まれるが、これに限定されない。メモリ502は、データ記憶能力を有するデバイスであり、ランダムアクセスメモリ（RAM、より具体的には、例えば、SDRAM、DDR等）、読み取り専用メモリ（ROM）、電気的消去可能プログラマブル読み取り専用メモリ（EEPROM（登録商標））、フラッシュメモリ（FLASH（登録商標））等が含まれるが、これらに限定されない。I/Oインターフェース（読み書きインターフェース）503は、プロセッサ501とメモリ502との間に接続され、プロセッサ501とメモリ502との情報交換を実現し、データバス（Bus）等が含まれるが、これに限定されない。

いくつかの実施形態において、プロセッサ501、メモリ502およびI/Oインターフェース503は、バス504により互いに接続され、電子デバイスの他のコンポーネントに接続される。

本開示の実施形態では、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムが実行されると、前記の新規カテゴリタグの発掘方法が実施されるコンピュータ可読記憶媒体をさらに提供する。

本開示の実施形態では、プロセッサによって実行されると、前記の新規カテゴリタグの発掘方法が実施されるコンピュータプログラムを含むコンピュータプログラム製品をさらに提供する。

本開示の方法を実施するためのコンピュータプログラムは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータプログラムは、コンピュータプログラムがプロセッサまたはコントローラによって実行される場合に、フローチャートおよび/またはブロック図で指定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されてもよい。コンピュータプログラムは、完全にマシン上で実行され、部分的にマシン上で実行され、独立したソフトウェアパッケージとして部分的にマシン上で実行され、且つ部分的にリモートマシン上で実行され、または完全にリモートマシンあるいはサーバ上で実行されてもよい。

上文で公開された方法における全部または幾つかのステップ、システム、装置における機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェアおよびそれらの適切な組み合わせとして実施されることが可能なことを当業者は理解されたい。ハードウェアの実施方法において、上記の説明で言及された機能モジュール/ユニットとの間の区別は、必ずしも物理コンポーネントの区別に対応するとは限らない。例えば、1つの物理コンポーネントは、複数の機能を有してもよく、または1つの機能またはステップは、幾つかの物理コンポーネントによって協働して実行されてもよい。幾つかの物理コンポーネントあるいは全ての物理コンポーネントは、中央処理装置、デジタル信号プロセッサ、マイクロプロセッサなどのプロセッサによって実行されるソフトウェアによって実施されるか、あるいはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてもよい。このようなソフトウェアはコンピュータ可読媒体上に分散され、コンピュータ可読媒体は、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含むことが可能である。当業者に公知されているように、コンピュータ記憶媒体という用語は、情報（例えば、コンピュータ可読指令、データ構造、プログラムモジュール、または他のデータ）を記憶するための任意の方法または技術で実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリあるいは他のメモリ技術、CD-ROM、デジタル多用途ディスク( DVD ) あるいは他のCDストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置を含むが、これらに限定されず、あるいは所望の情報を記憶するために使用され、コンピュータによってアクセス可能な任意の他の媒体によって用いられることができる。また、当業者に公知されているように、通信媒体は一般的に、コンピュータ可読指令、データ構造、プログラムモジュール、あるいはキャリアもしくは他の伝送機構などの変調データ信号における他のデータを含み、任意の情報配信媒体を含むことができる。

本明細書では例示的な実施形態が既に公開され、特定の用語が使用されているが、それらは、一般的な例示的な意味でのみ使用されており、そのように解釈されるべきであり、限定を目的としたものではない。幾つかの実例では、特に限定しない限り、特定の実施形態と組合せて説明される特徴、特性および/または素子は、単独で使用されてもよく、または他の実施形態と組合せて説明される特徴、特性および/または要素と組み合わせて使用されてもよいことは、当業者にとって自明なことである。よって、添付の特許請求の範囲によって説明される本開示の範囲から逸脱することなく、様々な形態および詳細における変更が可能であることを当業者は理解されたい。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、を含む
新規カテゴリタグの発掘方法。
［Ｃ２］
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
Ｃ1に記載の発掘方法。
［Ｃ３］
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
Ｃ1に記載の発掘方法。
［Ｃ４］
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
Ｃ1に記載の発掘方法。
［Ｃ５］
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
Ｃ1～4のいずれか1項に記載の発掘方法。
［Ｃ６］
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
Ｃ1～5のいずれか1項に記載の発掘方法。
［Ｃ７］
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
Ｃ2に記載の発掘方法。
［Ｃ８］
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む
新規カテゴリタグの発掘装置。
［Ｃ９］
モデル訓練ユニットをさらに含む発掘装置であって、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
Ｃ8に記載の発掘装置。
［Ｃ１０］
単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
Ｃ8に記載の発掘装置。
［Ｃ１１］
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
Ｃ8に記載の発掘装置。
［Ｃ１２］
流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される
Ｃ8～11のいずれか1項に記載の発掘装置。
［Ｃ１３］
頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
Ｃ8～12のいずれか1項に記載の発掘装置。
［Ｃ１４］
前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置されたＣ9に記載の発掘装置。
［Ｃ１５］
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、Ｃ1～7のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
電子デバイス。
［Ｃ１６］
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムが実行されると、Ｃ1～7のいずれか1項に記載の発掘方法が実施される
コンピュータ可読媒体。
［Ｃ１７］
プロセッサによって実行されると、Ｃ1～7のいずれか1項に記載の発掘方法が実施されるコンピュータプログラムを含む
コンピュータプログラム製品。

Claims

新規カテゴリタグの発掘装置によって、現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するステップと、
前記新規カテゴリタグの発掘装置によって、各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記新規カテゴリタグの発掘装置によって、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、ここにおいて、前記新規カテゴリタグは、前記ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
ここにおいて、前記カテゴリタグを前記終端とする当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在するか否かを判断することは、
当該カテゴリタグを切ることと、
切った後に、当該カテゴリタグの前記終端に位置する単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断するステップと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する前記カテゴリタグを終端とすると判断するステップと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断するステップと、を備える
を含む
新規カテゴリタグの発掘方法。
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
請求項1に記載の発掘方法。
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
請求項1に記載の発掘方法。
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
ここにおいて、前記所定の文章流暢度モデルを用いて当該カテゴリタグの前記文章が流暢であるか否かを検出するステップは、
前記所定の文章流暢度モデルを用いて当該カテゴリタグの文章流暢度を検出することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断するステップと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断するステップと、を備える
請求項１～３のいずれか1項に記載の発掘方法。
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
請求項１～４のいずれか1項に記載の発掘方法。
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
請求項２に記載の発掘方法。
現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するように配置された取得ユニットと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするように配置された発掘ユニットと、ここにおいて、前記新規カテゴリタグは、ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
ここにおいて、前記選別ユニットは、当該カテゴリタグを切り、切った後、前記カテゴリタグの前記終端における単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断することと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端とすると判断することと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断することと、を行うように配置される
を含む
新規カテゴリタグの発掘装置。
モデル訓練ユニットをさらに含む発掘装置であって、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
請求項７に記載の発掘装置。
単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
請求項７に記載の発掘装置。
流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される、
ここにおいて、前記流暢度検出ユニットは、前記文章流暢度モデルを用いて前記カテゴリタグの文章流暢度を検出することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断することと、を行うように配置される
請求項７～９のいずれか1項に記載の発掘装置。
頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記頻度検出ユニットは、各前記検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
請求項７～９のいずれか1項に記載の発掘装置。
前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置された請求項８に記載の発掘装置。
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、請求項１～６のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
電子デバイス。
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムが実行されると、請求項１～６のいずれか1項に記載の発掘方法が実施される
コンピュータ可読媒体。
プロセッサによって実行されると、請求項１～６のいずれか1項に記載の発掘方法が実施されるコンピュータプログラム。