JP7289330B2 - 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 - Google Patents

新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 Download PDF

Info

Publication number
JP7289330B2
JP7289330B2 JP2021024436A JP2021024436A JP7289330B2 JP 7289330 B2 JP7289330 B2 JP 7289330B2 JP 2021024436 A JP2021024436 A JP 2021024436A JP 2021024436 A JP2021024436 A JP 2021024436A JP 7289330 B2 JP7289330 B2 JP 7289330B2
Authority
JP
Japan
Prior art keywords
category
category tag
tag
predetermined
search text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021024436A
Other languages
English (en)
Other versions
JP2021131862A (ja
Inventor
チエン・リー
ヤビン・シー
イエ・ジャン
チュングアン・チャイ
ヨン・ジュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021131862A publication Critical patent/JP2021131862A/ja
Application granted granted Critical
Publication of JP7289330B2 publication Critical patent/JP7289330B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示の実施形態は知識グラフ技術分野に関し、特に、新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品に関する。
インターネットの幅広い使用に伴い、検索分野および場面での検索テキスト( Query )には、ますます多くの新しいカテゴリワードが登場している。カテゴリワードとは、例えば、博物館、図書館、ケーキ、花、草、木などのような人、こと、ものなどの実体を表す語を指す。新しいカテゴリワードとは、既存のカテゴリシソーラスに収録されていないカテゴリワードを指す。
よって、検索場面でユーザが入力した検索テキスト( Query )から新しいカテゴリワードを認識および発掘することは、検索エンジンがユーザの検索に対する実際の意図と動作を理解するのに効果的であり、検索結果の精度を向上させるために非常に重要である。
本開示の実施形態は、新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品を提供する。
第一方面において、本開示の実施形態は、
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップと、を含む新規カテゴリタグの発掘方法を提供する。
いくつかの実施形態において、前記発掘方法は、
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む。
いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む。
いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
いくつかの実施形態において、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、前記発掘方法は、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
いくつかの実施形態において、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む。
第二方面において、本開示の実施形態は、
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む新規カテゴリタグの発掘装置を提供する。
いくつかの実施形態において、前記発掘装置は、モデル訓練ユニットをさらに含み、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される。
いくつかの実施形態において、前記発掘装置は、単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含み、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出された場合、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される。
いくつかの実施形態において、前記発掘装置は、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む。
いくつかの実施形態において、前記発掘装置は、流暢度検出ユニットと、選別ユニットと、をさらに含み、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される。
いくつかの実施形態において、前記発掘装置は、頻度検出ユニットと、選別ユニットと、をさらに含み、
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される。
いくつかの実施形態において、前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置される。
第三方面において、本開示の実施形態は、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、前記いずれか1つの実施形態に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、
前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む電子デバイスを提供する。
第四方面において、本開示の実施形態は、コンピュータプログラムが記憶されたコンピュータ可読媒体であって、前記コンピュータプログラムが実行されると、前記いずれか1つの実施形態に記載の発掘方法が実施されるコンピュータ可読媒体を提供する。
第五方面において、本開示の実施形態は、プロセッサによって実行されると、前記いずれか1つの実施形態に記載の発掘方法が実施されるコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本開示の実施形態で提供する新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品は、予め訓練されたシーケンスラベリングモデルを用いて、現在の所定期間内の検索テキスト(Query)に対しカテゴリタグのラベリングを行い、現在のカテゴリタグライブラリを用いてラベリングされたカテゴリタグを繰り返し調査して、ラベリングされたカテゴリタグにおける新規カテゴリタグを発掘することにより、高い時効性の新規カテゴリタグの発掘を実現する。
図面は、本開示の実施形態のさらなる理解を提供するために使用され、本明細書の一部を構成し、本開示の実施形態とともに本開示を説明するために使用され、本開示を限定するものではない。図面を参照しながら詳しい例示的な実施形態を説明することにより、上記および他の特徴と利点は当業者にとってより自明なものになる。
本開示の実施形態によって提供される新規カテゴリタグの発掘方法のフローチャートである。 本開示の実施形態における所定神経ネットワークモデルの構造ブロック図である。 本開示の実施形態によって提供される別の新規カテゴリタグの発掘方法のフローチャートである。 図3のステップ101の具体的な実施態様のフローチャートである。 本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘方法のフローチャートである。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートである。 本開示の実施形態によって提供される新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供される別の新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図である。 本開示の実施形態によって提供される電子デバイスの構造ブロック図である。
当業者に本開示の技術案をより良く理解させるために、以下では図面と組合せて、本開示によって提供される新規カテゴリタグの発掘方法および装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品を詳細に説明する。
以下では、図面を参照して例示的な実施形態についてより詳細に説明するが、前記例示的な実施形態は種々の形態で体現されることができ、且つ本明細書で説明される実施形態に限定されるものではない。むしろ、これらの実施形態が提供される目的は、本開示を徹底して完全なものにし、当業者に本開示の範囲を十分に理解させることを目的とする。
矛盾しない限り、本開示の各実施形態および実施形態における各特徴は、互いに組み合わせることが可能である。
本明細書において「および/または」という用語は、1つまたは複数の関連事項の任意および全ての組み合わせを含む。
本明細書で使用される用語は、特定の実施形態を説明するためのものに過ぎず、本開示を限定することを意図していない。本明細書で使用されるような、単数形の「1つ」および「当該」には、文脈が別途明確に指摘しない限り、複数形式も含むことが意図される。さらに、本明細書で「含む」および/または「……により作製される」という用語が使用される場合、前記特徴、全体、ステップ、操作、素子および/またはコンポーネントが存在することを示すが、1つまたは複数の他の特徴、全体、ステップ、操作、素子、コンポーネントおよび/またはそのグループが存在あるいは追加されることを排除するものではないことも理解されたい。
特に限定しない限り、本明細書で使用されるすべての用語(技術および科学用語を含む)の意味は、当業者が一般的に理解する意味と同じである。また、一般的に使用される辞書で限定されているような用語は、関連技術および本開示の背景における意味と一致する意味を有すると解釈されるべきであり、本明細書で明確に限定しない限り、理想化または過度的な形式の意味を有すると解釈されるべきではないことを更に理解されたい。
図1は、本開示の実施形態によって提供される新規カテゴリタグの発掘方法のフローチャートであり、図1に示すように、当該方法は、新規カテゴリタグの発掘装置により実行でき、当該装置は、ソフトウェアおよび/またはハードウェアによって実現でき、当該装置は、サーバなどの電子デバイスに組み込まれてもよい。当該新規カテゴリタグの発掘方法は、以下のステップを含む。
ステップ11、現在の所定期間内の複数の検索テキストを取得する。
ステップ11において、対話システムが現在の所定期間内に受信した複数の検索テキスト( Query )を取得する。そのうち、対話システムは、例えば、スマートオーディオ、スマートビデオキャビネット、スマートストーマ、スマートインタラクションプラットフォーム、スマートインタラクションアプリケーション、サーチエンジン等の、ユーザにスマートインタラクションサービスを提供することができるスマート端末、プラットフォーム、またはアプリケーションであってもよい。本開示の実施形態では、当該対話システムがユーザと対話できる限り、対話システムの実現方法に対して特に制限しない。
本開示の実施形態において、前記「対話」は、音声対話(Speech Interaction)とテキスト対話を含むことができ、そのうち、音声対話は、音声認識、音声合成、自然言語理解などの技術に基づいて実現され、多様な実際の応用場面において、対話システムに「聞ける、話せる、わかる」式のスマートな人間とコンピュータの対話体験を提供し、音声対話は、スマートクイズ、スマートプレイ、スマート検索などの場面を含む複数の応用場面に適用される。テキスト対話は、テキスト認識、抽出、自然言語理解などの技術に基づいて実現され、複数の前記の応用場面にも同様に適用できる。
本開示の実施形態において、検索テキストはテキスト情報である。前記のいずれか1つの応用場面において、ユーザが対話システムと対話する時、対話システムへ音声情報またはテキスト情報を入力することができ、そのうち、テキスト情報とは、自然言語系のテキストを指す。
いくつかの実施形態において、検索テキストの取得方法は、対話システムが受信したのが音声情報である時、当該音声情報を取得するとともに、当該音声情報に対し、音声認識、音声のテキスト変換などの操作を行った後、検索テキストを生成し、対話システムが受信したのがテキスト情報である時、直接当該テキスト情報を取得することができ、当該テキスト情報は、即ち、検索テキストである。
本開示の実施形態において、所定期間は、時間レベルの期間、日レベルの期間、週レベルの期間、または月レベルの期間などであってもよく、具体的には実際状況に応じて決められてよく、本開示の実施形態ではこれに対し制限しない。例えば、所定期間は、1時間、1日、1週間、または1ヶ月等であってもよい。現在の所定期間とは、最新の所定期間を指しており、例えば、所定期間が1日である場合、現在の所定期間は、最新の1日の期間を指すことを理解されたい。
ステップ12、各検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出する。
本開示の実施形態において、カテゴリタグとは、検索テキストに含まれるカテゴリワードを指し、カテゴリワードとは、人、こと、ものなどの実体を表す語を指しており、例えば、博物館、図書館、ケーキ、花、草、木、車、携帯電話などである。
本開示の実施形態においては、シーケンスラベリングモデルを予め訓練し、当該シーケンスラベリングモデルの入力は検索テキストであり、出力は検索テキストに対応するカテゴリタグである。
ステップ12において、各検索テキストに対して、当該検索テキストを予め訓練されたシーケンスラベリングモデルに入力する時、シーケンスラベリングモデルが出力する当該検索テキストに現在対応するカテゴリタグの数は少なくとも1つであり、即ち、各検索テキストに存在するカテゴリタグの数は1つであってもよく、複数であってもよい。
本開示の実施形態において、シーケンスラベリングモデルにより、全ての検索テキストに現在対応する全てのカテゴリタグをラベリングできる。そのうち、シーケンスラベリングモデルは、ディープラーニングに基づく端から端までの(End to end)シーケンスラベリングモデルであり、シーケンスラベリングモデルは、カテゴリタグが予めラベリングされた検索テキストサンプルを使用して、所定神経ネットワークモデルに基づくモデル訓練を行うことにより確定される。図2は、本開示の実施形態における所定神経ネットワークモデルの構造ブロック図であり、図2に示すように、所定神経ネットワークモデルは、2つの予め訓練された意味表現モデル(第1の意味表現モデル、第2の意味表現モデル)、2つの双方向GRU(Bi-GRU)層(第1の双方向GRU層、第2の双方向GRU層)、条件付きランダムフィールド、条件付きランダムフィールド(CRF)解析層を含む。そのうち、第1の意味表現モデルが第2の意味表現モデルに接続され、第1の双方向GRU層が第2の意味表現モデルに接続され、第2の双方向GRU層が第1の双方向GRU層に接続され、条件付きランダムフィールドが第2の双方向GRU層に接続され、条件付きランダムフィールド解析層が条件付きランダムフィールドに接続される。いくつかの実施形態において、意味表現モデルは、知識強化意味表現モデル(Enhanced Representation from kNowledge IntEgration、略称:ERNIE)を用いることができる。
ステップ13、検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとする。
本開示の実施形態において、所定の現在のカテゴリタグライブラリには、既存の既に発掘されたカテゴリタグが記憶されている。上記ステップ12において、シーケンスラベリングモデルにより現在の所定期間内における全ての検索テキストに現在対応するカテゴリタグをラベリングでき、その後、ステップ13において、現在のカテゴリタグライブラリを用いて、現在の所定期間内における全ての検索テキストに現在対応するカテゴリタグを繰り返し調査する。つまり、ステップ13において、シーケンスラベリングモデルが出力する各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが既存のカテゴリタグであるか否かを判断し、既存のカテゴリタグであると判断された時、削除処理を行うことで、全ての検索テキストの現在対応するカテゴリタグの中で既に現在のカテゴリタグライブラリに存在するカテゴリタグを除去して、現在のカテゴリタグライブラリに存在しないカテゴリタグ、即ち、新規カテゴリタグを発掘する。
本開示の実施形態において、新規カテゴリタグを発掘した後、新規カテゴリタグを現在のカテゴリタグライブラリに記憶して、現在のカテゴリタグライブラリを更新し、次の所定期間内の検索テキストを取得し、引き続き新規カテゴリタグを発掘する。
本開示の実施形態によって提供される新規カテゴリタグの発掘方法は、予め訓練されたディープラーニングに基づくシーケンスラベリングモデルを使用して、現在の所定期間内における検索テキスト( Query )に対しカテゴリタグのラベリングを行い、現在のカテゴリタグライブラリを用いてラベリングのカテゴリタグを繰り返し調査して、ラベリングされたカテゴリタグにおける新規カテゴリタグを発掘することで、高い時効性の新規カテゴリタグの発掘を実現する。
図3は、本開示の実施形態によって提供される別の新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図3に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ11の前に、当該発掘方法は、以下のステップ101とステップ102をさらに含むことであり、以下では、ステップ101とステップ102のみに対して説明し、他の説明の具体的に前記のいずれか1つの実施形態に対する説明を参照すること。
ステップ101、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する。
図4は、図3のステップ101の具体的な実施態様のフローチャートであり、図4に示すように、いくつかの実施形態において、ステップ101は以下のステップを含む。
ステップ1011、複数の履歴検索テキストと複数の所定のカテゴリタグを取得する。
そのうち、履歴検索テキストは前記対話システムの履歴検索ログから取得でき、所定のカテゴリタグは既存の既に発掘されたカテゴリタグであってもよい。
ステップ1012、遠隔監視方法を用いて、履歴検索テキストの全てから、所定のカテゴリタグが含まれる履歴検索テキストを全て選別する。
ステップ1012において、各履歴検索テキストに対して、遠隔監視(Distant Supervision)方法を用いて、当該履歴検索テキストの中で、複数の所定のカテゴリタグのいずれか1つと完全に一致する単語をラベリングし、即ち、当該履歴検索テキストの中に複数の所定のカテゴリタグのいずれか1つが含まれるか否かを検出する。当該履歴検索テキストの中に複数の所定のカテゴリタグのいずれか1つが含まれる時、当該履歴検索テキストを保留し、そうでなければ当該履歴検索テキストを削除して、全ての履歴検索テキストの中から、複数の所定のカテゴリタグのいずれか1つが含まれる履歴検索テキストを全て選別する。例えば、複数の履歴検索テキストがそれぞれテキストA、テキストB、テキストCであり、複数の所定のカテゴリタグがそれぞれa、b、cであると仮定した場合、ステップ1012において、テキストAに対して、テキストAに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、当該テキストAを保留し、そうでなければ当該テキストAを削除し、同様に、テキストBに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、保留し、テキストCに所定のカテゴリタグa、b、cのいずれか1つが含まれる時、保留し、以下同様である。
ステップ1013、所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定する。
具体的に、ステップ1013において、所定のカテゴリタグを含む全ての履歴検索テキストに対して構文と品詞の分析を行い、低精度の構文、単語の境界が一致しないなどの欠陥が存在する履歴検索テキストをフィルタリングし、残りの履歴検索テキストを検索テキストサンプルとする。つまり、所定のカテゴリタグを含む履歴検索テキスト毎に、当該履歴検索テキストに対して構文および品詞(Case)の分析を行い、当該履歴検索テキストの構文の精度が低いか、または単語の境界が一致しない時、当該履歴検索テキストを削除し、そうでなければ保留し、所定のカテゴリタグを含む全ての履歴検索テキストから複数の検索テキストサンプルを確定する。
いくつかの実施形態において、依存構文解析(Dependency Parser、略称:depParser)ツールを用いて履歴検索テキストに対して構文分析を行い、構文分析により、履歴検索テキストにおける各単語間の依存関係を分析することができ、これにより、履歴検索テキストの構文精度が確定され、履歴検索テキストの構文精度が所定精度閾値未満である時、当該履歴検索テキストを削除し、そうでなければ当該履歴検索テキストを保留する。
いくつかの実施形態において、所定の分詞ツールを用いて履歴検索テキストに対して品詞分析を行い、履歴検索テキストにおける各単語の品詞を識別し、履歴検索テキストに単語の境界が一致しない欠陥が存在するか否かを分析し、存在する場合、当該履歴検索テキストを削除し、そうでなければ当該履歴検索テキストを保留する。
いくつかの実施形態において、履歴検索テキストに基づいて、上記方法によって、シーケンスラベリングモデルを訓練するための検索テキストサンプルが取得され、これらの検索テキストサンプルで訓練されたシーケンスラベリングモデルを用いて予測されるカテゴリタグの精確率はより高いものとなる。
ステップ102、検索テキストサンプルを所定神経ネットワークモデルの入力とし、検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得る。
そのうち、図2に示すように、所定神経ネットワークモデルは、2つの予め訓練された意味表現モデル(第1の意味表現モデル、第2の意味表現モデル)、2つの双方向GRU(Gated Recurrent Unit 、ゲート回帰ユニット)層(第1の双方向GRU層、第2の双方向GRU層)、条件付きランダムフィールド、条件付きランダムフィールド解析層を含む。そのうち、第1の意味表現モデルが第2の意味表現モデルに接続され、第1の双方向GRU層が第2の意味表現モデルに接続され、第2の双方向GRU層が第1の双方向GRU層に接続され、条件付きランダムフィールドが第2の双方向GRU層に接続され、条件付きランダムフィールド解析層が条件付きランダムフィールドに接続される。
そのうち、意味表現モデルは予め訓練されたモデルであり、例えば、意味表現モデルはERNIEモデルを採用し、検索テキストサンプルとして入力され、検索テキストサンプルにおける各文字のワードコードとして出力され、そのうち、意味表現モデルが出力する各文字のワードコードは768次元のワードベクトルのシーケンスである。
双方向GRU(Bi-GRU)層の入力は意味表現モデルから出力される文字のワードコードであり、その出力は各文字のワードコードと各文字のコンテキスト情報であり、そのうち、各文字のコンテキスト情報には、当該文字に隣接する文字のワードコードが含まれ、双方向GRU(Bi-GRU)層で出力される各文字のワードコードは512次元である。
条件付きランダムフィールド(CRF)の入力は、双方向GRU(Bi-GRU)層で出力される各文字のワードコードおよびそのコンテキスト情報であり、その出力は各文字が所属するカテゴリであり、文字が所属するカテゴリは「B」、「O」、「I」の3種類を含み、Bは、ラベリングのカテゴリワードの先頭を表し、Iは、ラベリングのカテゴリワードの後続を表し、Oは、非対象カテゴリワードである非関連カテゴリを表し、各文字が所属するカテゴリは1次元である。
条件付きランダムフィールド(CRF)解析層は、条件付きランダムフィールド(CRF)で出力される各文字が所属するカテゴリを復号するために使用され、各文字の最終カテゴリ( O/B/I )に最終的にマッピングされる。
例えば、1つの検索テキストサンプルが「チーズケーキ」であると仮定し、予めラベリングされた当該検索テキストサンプルのカテゴリタグが「ケーキ」であり、当該検索テキストサンプルを上記所定神経ネットワークモデルに入力すると、所定神経ネットワークモデルは「OOBI」を出力することにより、当該所定神経ネットワークモデルが出力する当該検索テキストサンプルのカテゴリタグが「ケーキ」であることが得られる。
ステップ102において、各検索テキストサンプルを所定神経ネットワークモデルの入力とし、各検索テキストサンプルに対応するカテゴリタグを所定神経ネットワークモデルの出力とし、所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得る。そのうち、所定神経ネットワークモデルにおいて、意味表現モデルは予備訓練モデルであり、そのモデルパラメータは固定されているのに対し、Bi-GRU層、CRF、CRF解析層のモデルパラメータは初期にランダムに初期化され、モデル訓練過程において、主にBi-GRU層、CRF、CRF解析層のモデルパラメータを微調整(Finetune)し、最終的にシーケンスラベリングモデルを得る。
本開示の実施形態において、シーケンスラベリングモデルは、大量の検索テキストサンプルとディープラーニングに基づく神経ネットワークモデルに基づいて訓練して得られ、従来のラベリングモデルと比較して、煩雑な構文と品詞の解析を行う必要がなく、検索テキストQueryにおける構文の制限も受けないため、シーケンスラベリングモデルのラベリング効果が効果的に向上され、時効性の高いカテゴリタグのラベリングと発掘が実現される。
図5は、本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図5に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1211~ステップ1215をさらに含むことであり、以下ではステップ1211~ステップ1215のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。
ステップ1211、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定された時、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とする。
前述したように、ステップ12において、シーケンスラベリングモデルにより各検索テキストに現在対応するカテゴリタグをラベリングでき、ステップ1211において、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在するか否かを判断し、即ち、当該カテゴリタグが既存のカテゴリタグであるか否かを判断し、現在のカテゴリタグライブラリに存在しないと判断された場合、当該カテゴリタグに対してさらなる処理を行わず、現在のカテゴリタグライブラリに存在すると判断された場合、当該カテゴリタグに対してさらに拡張を行って、当該検索テキストのより精確なカテゴリタグを発掘し、具体的に、当該カテゴリタグが所定のカテゴリタグライブラリに既に存在する時、当該検索テキストから当該カテゴリタグの前に位置し且つ隣接する単語を抽出して、現在の検出対象語とする。
例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされている場合、ステップ1211において、現在のカテゴリタグライブラリの中に「博物館」のカテゴリタグが既に存在するときには、当該検索テキストから、当該カテゴリタグ、即ち、「博物館」の前に位置し、且つ当該カテゴリタグに隣接する単語、即ち、「航空」を抽出し、「航空」を現在の検出対象語とする。
いくつかの実施形態において、ステップ1211では、当該検索テキストから、当該カテゴリタグの前に位置し、且つ隣接する単語を、分詞ツール、例えば、品詞ラベリング(Lextag)ツールを用いて抽出することができる。
ステップ1212、現在の検出対象語の品詞が所定の品詞であるか否かを検出し、そうであれば、ステップ1213を実行し、そうでなければ、ステップ1215を実行する。
そのうち、所定の品詞は、名詞(n)、形容詞(a)、名形詞(an)のいずれか1つである。
例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされ、上記ステップ1211において抽出された現在の検出対象語が「航空」である場合、ステップ1212において、「航空」の品詞が所定の品詞であるか否かを検出する、即ち、「航空」の品詞が名詞(n)、形容詞(a)、名形詞(an)のいずれか1つであるか否かを検出し、明らかに「航空」の品詞が名詞(n)であるため、ステップ1213にジャンプして、さらに拡張する。
いくつかの実施形態において、ステップ1212において、現在の検出対象語の品詞が所定の品詞であるか否かを、品詞検出ツール、例えば、Lextagツールを用いて検出することができる。
ステップ1213、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とする。
例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ12において、当該検索テキストのカテゴリタグが「博物館」とラベリングされ、上記ステップ1211において抽出された現在の検出対象語が「航空」である場合、ステップ1212において、「航空」の品詞が所定の品詞であることを検出し、即ち、「航空」の品詞が名詞(n)であることを検出し、ステップ1213において、当該検索テキストから、現在の検出対象語に位置する、「航空」の前に位置し且つ隣接する単語である「北京」を抽出して、現在の検出対象語とし、現在の検出対象語は「北京」である。
いくつかの実施形態において、ステップ1213では、当該検索テキストから、現在の検出対象語の前に位置し、且つ隣接する単語を、分詞ツール、例えば、Lextagを用いて抽出して、現在の検出対象語としてよい。
ステップ1214、品詞が所定の品詞でない現在の検出対象語が検出されるまでステップ1212を繰り返し実行する。
例えば、当該検索テキストが「北京航空博物館」であり、上記ステップ1213から抽出される現在の検出対象語が「北京」である場合、ステップ1214では、ステップ1212を繰り返し実行して、当該現在の検出対象語、即ち、「北京」の品詞が所定の品詞であるか否かを検出し、明らかに、「北京」の品詞は地名(ns)であり、所定の品詞に属さないため、検出を停止し、ステップ1215にジャンプする。
ステップ1215、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとする。
例えば、前述したように、当該検索テキストが「北京航空博物館」であり、上記ステップ1211~ステップ1214により、「航空」という単語が所定の品詞であることのみ検出されたため、ステップ1215において、当該カテゴリタグ、即ち、「博物館」および検出された品詞が所定の品詞である「航空」という単語を、「博物館」および「航空」の当該検索テキストにおける順番で組合せ、組合せ結果、即ち、「航空博物館」を当該検索テキストに現在対応するカテゴリタグとする。即ち、当該検索テキストのカテゴリタグを「博物館」から「航空博物館」に拡張する。
なお、現在の検出対象語が当該カテゴリタグの前に位置し且つ隣接する単語であり、且つステップ1212において、現在の検出対象語が所定の品詞でないことが検出された場合、ステップ1215において、検出された全ての品詞が所定の品詞である検出対象語は空集合であるため、組合せ結果は依然として当該カテゴリタグであり、即ち、当該検索テキストに現在対応するカテゴリタグのままである。
いくつかの実施形態において、ステップ13の前に、ステップ12によってラベリングされた各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在する場合、上記ステップ1211~ステップ1215によって、当該カテゴリタグを拡張して、より精確なカテゴリタグを拡張し出す。一方、当該カテゴリタグが現在のカテゴリタグライブラリに既に存在しない場合、あるいは上記ステップ1211~ステップ1215によって当該カテゴリタグが拡張不可能であると確定された場合、当該カテゴリタグはそのまま維持される。
本開示の実施形態において、上記ステップ1211~ステップ1215によって、シーケンスラベリングモデルで出力されるカテゴリタグに対して品質の監視を行い、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。
図6は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図6に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1221をさらに含むことであり、以下ではステップ1221のみに対して説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。
ステップ1221、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、そうであれば当該カテゴリタグ保留し、そうでなければ当該カテゴリタグを削除する。
ステップ1221では、先ず、当該カテゴリタグに対して単語を切る必要があり、具体的には分詞ツールを用いて単語を切ることができ、単語を切った後、当該カテゴリタグの終端に位置する単語が現在のカテゴリタグライブラリに既に存在するカテゴリタグと一致するか否かを判断し、即ち、当該カテゴリタグの終端に位置する単語が現在のカテゴリタグライブラリに既に存在するか否かを判断し、当該カテゴリタグの終端に存在する単語が現在のカテゴリタグライブラリに既に存在すると判断された場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、そうでなければ当該カテゴリタグを削除する。
いくつかの実施形態において、上記ステップ1221は、上記ステップ1215の後、且つ上記ステップ13の前に実行できる。いくつかの実施形態において、上記ステップ1221はさらに上記ステップ12の後、且つ上記ステップ1211の前に実行できる。
なお、いくつかの実施形態において、ステップ13において、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1221、ステップ1211~ステップ1215という2つの方法のいずれか1つまたは2つの方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。
本開示の実施形態において、上記ステップ1221では、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。
図7は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図7に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、ステップ1231をさらに含むことであり、以下ではステップ1231のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。
ステップ1231、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出し、そうであれば、当該カテゴリタグを保留し、そうでなければ当該カテゴリタグを削除する。
ステップ1231において、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章流暢度を検出し、当該カテゴリタグの文章流暢度が所定流暢度閾値以上である時、当該カテゴリタグの文章が流暢であることが検出されるため、当該カテゴリタグを保留する。当該カテゴリタグの文章流暢度が所定流暢度閾値未満である時、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないと検出されるため、当該カテゴリタグを削除する。
いくつかの実施形態において、上記ステップ1231により、上記ステップ12でラベリングされる全てのカテゴリタグから文章が流暢でないカテゴリタグをフィルタリングして、文章が流暢なカテゴリタグを選別できる。
いくつかの実施形態において、上記ステップ1231は上記ステップ12の後、且つ上記ステップ1211の前に実行されてもよい。いくつかの実施形態において、上記ステップ1231はさらに、上記ステップ1215の後、且つ上記ステップ13の前に実行されてもよい。いくつかの実施形態において、上記ステップはさらに、上記ステップ1221の後、または上記ステップ1221の前に実行されてもよい、
なお、いくつかの実施形態において、ステップ13において、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1211~ステップ1215、ステップ1221、ステップ1231という3つの方法のいずれか1つまたは複数の方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。
本開示の実施形態において、上記ステップ1231により、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグ発掘の正確性とリコール率を効果的に向上させることができる。
図8は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘方法のフローチャートであり、いくつかの実施形態において、図8に示すように、当該発掘方法と前記のいずれか1つの実施形態によって提供される発掘方法との相違点は、ステップ13の前に、当該発掘方法は、以下のステップ1241とステップ1242をさらに含むことであり、以下ではステップ1241とステップ1242のみを説明し、他の説明は、具体的に前記実施形態のいずれか1つの説明を参照することができる。
ステップ1241、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出する。
ステップ1242、当該カテゴリタグに対応する頻度が所定頻度閾値未満であるか否かを判断し、そうであれば、当該カテゴリタグを削除し、そうでなければ当該カテゴリタグを保留する。
例えば、所定頻度閾値は5回であり、現在の所定期間は1日である場合、ステップ1242において、当該カテゴリタグの現在1日の期間内での全ての検索テキストのカテゴリタグに出現する頻度が5回未満であるか否かを検出し、5回未満の場合、当該カテゴリタグを削除し、そうでなければ当該カテゴリタグを保留する。
いくつかの実施形態において、上記ステップ1241とステップ1242によって、出現頻度が低いカテゴリタグをフィルタリングして、より高い頻度のカテゴリタグを選別してよい。
いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ12の後、且つ上記ステップ1211の前に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1215の後、且つ上記ステップ13の前に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1221の前または後に実行されてもよい。いくつかの実施形態において、ステップ1241とステップ1242は、上記ステップ1231の前または後に実行されてもよい。
なお、いくつかの実施形態において、ステップ13では、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1211~ステップ1215、ステップ1221、ステップ1231、ステップ1241~ステップ1242という4つの方法のいずれか1つまたは複数の方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。
本開示の実施形態において、上記ステップ1241~ステップ1242によって、シーケンスラベリングモデルが出力するカテゴリタグの品質を監視し、高時効性のラベリングと発掘を保証しながら、カテゴリタグの発掘の正確性とリコール率を効果的に向上させることができる。
図9は、本開示の実施形態によって提供される新規カテゴリタグの発掘装置の構造ブロック図であり、図9に示すように、本開示の実施形態において、当該発掘装置は、取得ユニット201、ラベリングユニット202、発掘ユニット203を含む。
そのうち、取得ユニット201は、現在の所定期間内の複数の検索テキストを取得するように配置される。
ラベリングユニット202は、各検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置される。
発掘ユニット203は、検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするように配置される。
図10は、本開示の実施形態によって提供される別の新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図10に示すように、当該発掘装置は、モデル訓練ユニット204をさらに含む。そのうち、取得ユニット201は、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するようにさらに配置される。モデル訓練ユニット204は、検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される。
図11は、本開示の実施形態によって提供されるもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図11に示すように、当該発掘装置は、単語抽出ユニット205、品詞検出ユニット206、単語拡張ユニット207をさらに含む。
そのうち、単語抽出ユニット205は、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在している場合、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置される。
品詞検出ユニット206は、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置される。
単語抽出ユニット205は、現在の検出対象語の品詞が所定の品詞であることが品詞検出ユニット206で検出された場合、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、品詞検出ユニット206をトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが品詞検出ユニット206で検出されるまで繰り返し実行するようにさらに配置される。
単語拡張ユニット207は、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される。
図12は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図12に示すように、当該発掘装置は、選別ユニット208をさらに含み、選別ユニット208は、現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とする場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが判断された場合、当該カテゴリタグを削除するように配置される。
図13は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図13に示すように、当該発掘装置は、流暢度検出ユニット209をさらに含み、流暢度検出ユニット209は、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置される。選別ユニット208は、当該カテゴリタグの文章が流暢であることを流暢度検出ユニット209で検出された場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことを流暢度検出ユニット209で検出された場合、当該カテゴリタグを削除するように配置される。
図14は、本開示の実施形態によって提供されるさらにもう1つの新規カテゴリタグの発掘装置の構造ブロック図であり、いくつかの実施形態において、図14に示すように、当該発掘装置は、頻度検出ユニット210をさらに含み、頻度検出ユニット210は、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置される。選別ユニット208は、当該頻度が所定頻度閾値以上である場合、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満である場合、当該カテゴリタグを削除するようにさらに配置される。
いくつかの実施形態において、取得ユニット201は具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置される。
また、本開示の実施形態によって提供される新規カテゴリタグの発掘装置は、具体的に前記発掘方法を実現するために用いられ、具体的に前記発掘方法に対する説明を参照することができ、ここでは省略する。
図15は、本開示の実施形態によって提供される電子デバイスの構造ブロック図であり、図15に示すように、当該電子デバイスは、
1つまたは複数のプロセッサ501と、
1つまたは複数のプロセッサによって実行されることにより、上記のいずれか1つの実施形態によって提供される新規カテゴリタグの発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリ502と、
プロセッサとメモリの間に接続され、プロセッサとメモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェース503と、を含む。
そのうち、プロセッサ501は、データ処理能力を有するデバイスであり、中央処理装置(CPU)等が含まれるが、これに限定されない。メモリ502は、データ記憶能力を有するデバイスであり、ランダムアクセスメモリ(RAM、より具体的には、例えば、SDRAM、DDR等)、読み取り専用メモリ(ROM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM(登録商標))、フラッシュメモリ(FLASH(登録商標))等が含まれるが、これらに限定されない。I/Oインターフェース(読み書きインターフェース)503は、プロセッサ501とメモリ502との間に接続され、プロセッサ501とメモリ502との情報交換を実現し、データバス(Bus)等が含まれるが、これに限定されない。
いくつかの実施形態において、プロセッサ501、メモリ502およびI/Oインターフェース503は、バス504により互いに接続され、電子デバイスの他のコンポーネントに接続される。
本開示の実施形態では、コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、当該コンピュータプログラムが実行されると、前記の新規カテゴリタグの発掘方法が実施されるコンピュータ可読記憶媒体をさらに提供する。
本開示の実施形態では、プロセッサによって実行されると、前記の新規カテゴリタグの発掘方法が実施されるコンピュータプログラムを含むコンピュータプログラム製品をさらに提供する。
本開示の方法を実施するためのコンピュータプログラムは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれてもよい。これらのコンピュータプログラムは、コンピュータプログラムがプロセッサまたはコントローラによって実行される場合に、フローチャートおよび/またはブロック図で指定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供されてもよい。コンピュータプログラムは、完全にマシン上で実行され、部分的にマシン上で実行され、独立したソフトウェアパッケージとして部分的にマシン上で実行され、且つ部分的にリモートマシン上で実行され、または完全にリモートマシンあるいはサーバ上で実行されてもよい。
上文で公開された方法における全部または幾つかのステップ、システム、装置における機能モジュール/ユニットは、ソフトウェア、ファームウェア、ハードウェアおよびそれらの適切な組み合わせとして実施されることが可能なことを当業者は理解されたい。ハードウェアの実施方法において、上記の説明で言及された機能モジュール/ユニットとの間の区別は、必ずしも物理コンポーネントの区別に対応するとは限らない。例えば、1つの物理コンポーネントは、複数の機能を有してもよく、または1つの機能またはステップは、幾つかの物理コンポーネントによって協働して実行されてもよい。幾つかの物理コンポーネントあるいは全ての物理コンポーネントは、中央処理装置、デジタル信号プロセッサ、マイクロプロセッサなどのプロセッサによって実行されるソフトウェアによって実施されるか、あるいはハードウェアとして実施されるか、あるいは専用集積回路のような集積回路として実施されてもよい。このようなソフトウェアはコンピュータ可読媒体上に分散され、コンピュータ可読媒体は、コンピュータ記憶媒体(または非一時的媒体)および通信媒体(または一時的媒体)を含むことが可能である。当業者に公知されているように、コンピュータ記憶媒体という用語は、情報(例えば、コンピュータ可読指令、データ構造、プログラムモジュール、または他のデータ)を記憶するための任意の方法または技術で実施される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリあるいは他のメモリ技術、CD-ROM、デジタル多用途ディスク( DVD ) あるいは他のCDストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気記憶装置を含むが、これらに限定されず、あるいは所望の情報を記憶するために使用され、コンピュータによってアクセス可能な任意の他の媒体によって用いられることができる。また、当業者に公知されているように、通信媒体は一般的に、コンピュータ可読指令、データ構造、プログラムモジュール、あるいはキャリアもしくは他の伝送機構などの変調データ信号における他のデータを含み、任意の情報配信媒体を含むことができる。
本明細書では例示的な実施形態が既に公開され、特定の用語が使用されているが、それらは、一般的な例示的な意味でのみ使用されており、そのように解釈されるべきであり、限定を目的としたものではない。幾つかの実例では、特に限定しない限り、特定の実施形態と組合せて説明される特徴、特性および/または素子は、単独で使用されてもよく、または他の実施形態と組合せて説明される特徴、特性および/または要素と組み合わせて使用されてもよいことは、当業者にとって自明なことである。よって、添付の特許請求の範囲によって説明される本開示の範囲から逸脱することなく、様々な形態および詳細における変更が可能であることを当業者は理解されたい。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、を含む
新規カテゴリタグの発掘方法。
[C2]
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
C1に記載の発掘方法。
[C3]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
C1に記載の発掘方法。
[C4]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1に記載の発掘方法。
[C5]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1~4のいずれか1項に記載の発掘方法。
[C6]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1~5のいずれか1項に記載の発掘方法。
[C7]
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
C2に記載の発掘方法。
[C8]
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、 各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む
新規カテゴリタグの発掘装置。
[C9]
モデル訓練ユニットをさらに含む発掘装置であって、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
C8に記載の発掘装置。
[C10]
単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
C8に記載の発掘装置。
[C11]
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
C8に記載の発掘装置。
[C12]
流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される
C8~11のいずれか1項に記載の発掘装置。
[C13]
頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
C8~12のいずれか1項に記載の発掘装置。
[C14]
前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置された C9に記載の発掘装置。
[C15]
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、C1~7のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、 前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
電子デバイス。
[C16]
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムが実行されると、C1~7のいずれか1項に記載の発掘方法が実施される
コンピュータ可読媒体。
[C17]
プロセッサによって実行されると、C1~7のいずれか1項に記載の発掘方法が実施されるコンピュータプログラムを含む
コンピュータプログラム製品。

Claims (15)

  1. 新規カテゴリタグの発掘装置によって、現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するステップと、
    前記新規カテゴリタグの発掘装置によって、各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
    前記新規カテゴリタグの発掘装置によって、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、ここにおいて、前記新規カテゴリタグは、前記ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
    前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
    現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
    当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
    当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
    ここにおいて、前記カテゴリタグを前記終端とする当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在するか否かを判断することは、
    当該カテゴリタグを切ることと、
    切った後に、当該カテゴリタグの前記終端に位置する単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断するステップと、
    当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する前記カテゴリタグを終端とすると判断するステップと、
    当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断するステップと、を備える
    を含む
    新規カテゴリタグの発掘方法。
  2. カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
    前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
    請求項1に記載の発掘方法。
  3. 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
    各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
    現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
    現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
    現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
    当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
    請求項1に記載の発掘方法。
  4. 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
    各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
    当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
    当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
    ここにおいて、前記所定の文章流暢度モデルを用いて当該カテゴリタグの前記文章が流暢であるか否かを検出するステップは、
    前記所定の文章流暢度モデルを用いて当該カテゴリタグの文章流暢度を検出することと、
    当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断するステップと、
    当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断するステップと、を備える
    請求項1~3のいずれか1項に記載の発掘方法。
  5. 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
    各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
    当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
    当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
    請求項1~4のいずれか1項に記載の発掘方法。
  6. カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
    複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
    遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
    前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
    請求項2に記載の発掘方法。
  7. 現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するように配置された取得ユニットと、
    各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
    前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするように配置された発掘ユニットと、ここにおいて、前記新規カテゴリタグは、ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
    現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
    ここにおいて、前記選別ユニットは、当該カテゴリタグを切り、切った後、前記カテゴリタグの前記終端における単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断することと、
    当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端とすると判断することと、
    当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断することと、を行うように配置される
    を含む
    新規カテゴリタグの発掘装置。
  8. モデル訓練ユニットをさらに含む発掘装置であって、
    前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
    前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
    請求項7に記載の発掘装置。
  9. 単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
    前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
    前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
    前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
    前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
    請求項7に記載の発掘装置。
  10. 流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
    前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
    前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される、
    ここにおいて、前記流暢度検出ユニットは、前記文章流暢度モデルを用いて前記カテゴリタグの文章流暢度を検出することと、
    当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断することと、
    当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断することと、を行うように配置される
    請求項7~9のいずれか1項に記載の発掘装置。
  11. 頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
    前記頻度検出ユニットは、各前記検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
    前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
    請求項7~9のいずれか1項に記載の発掘装置。
  12. 前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置された 請求項8に記載の発掘装置。
  13. 1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサによって実行されることにより、請求項1~6のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、 前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
    電子デバイス。
  14. コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
    前記コンピュータプログラムが実行されると、請求項1~6のいずれか1項に記載の発掘方法が実施される
    コンピュータ可読媒体。
  15. プロセッサによって実行されると、請求項1~6のいずれか1項に記載の発掘方法が実施されるコンピュータプログラム。
JP2021024436A 2020-02-20 2021-02-18 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 Active JP7289330B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010104207.9 2020-02-20
CN202010104207.9A CN111339250B (zh) 2020-02-20 2020-02-20 新类别标签的挖掘方法及电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
JP2021131862A JP2021131862A (ja) 2021-09-09
JP7289330B2 true JP7289330B2 (ja) 2023-06-09

Family

ID=71181730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021024436A Active JP7289330B2 (ja) 2020-02-20 2021-02-18 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品

Country Status (5)

Country Link
US (1) US11755654B2 (ja)
EP (1) EP3869360A1 (ja)
JP (1) JP7289330B2 (ja)
KR (1) KR102508769B1 (ja)
CN (1) CN111339250B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984883B (zh) * 2020-08-11 2024-05-14 北京百度网讯科技有限公司 标签挖掘方法、装置、设备以及存储介质
JP2022057202A (ja) * 2020-09-30 2022-04-11 富士通株式会社 プログラム,情報処理装置及び情報処理方法
CN113297379A (zh) * 2021-05-25 2021-08-24 善诊(上海)信息技术有限公司 一种文本数据多标签分类方法及装置
CN113656603B (zh) * 2021-09-03 2024-06-04 北京爱奇艺科技有限公司 一种字段描述信息获得方法及装置
CN113869054A (zh) * 2021-10-13 2021-12-31 天津大学 一种基于深度学习的电力领域项目特征识别方法
CN115033774A (zh) * 2022-06-16 2022-09-09 北京百度网讯科技有限公司 待推荐的搜索文本的生成方法、装置、设备和介质
CN115510330B (zh) * 2022-11-01 2023-02-10 潍坊医学院附属医院 基于数据挖掘的信息智能处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176285A (ja) 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2016164724A (ja) 2015-03-06 2016-09-08 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
CN109543153A (zh) 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注系统及方法
CN109684645A (zh) 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062262A (ja) * 2002-07-25 2004-02-26 Hitachi Ltd 未知語を自動的に辞書へ登録する方法
JP2005284776A (ja) 2004-03-30 2005-10-13 Honda Motor Co Ltd テキストマイニング装置及びテキスト分析方法
US9324082B2 (en) * 2007-07-06 2016-04-26 Ebay Inc. System and method for providing information tagging in a networked system
EP2107475A1 (en) * 2008-03-31 2009-10-07 British Telecommunications Public Limited Company Electronic resource anotation
EP2300946A1 (en) * 2008-06-16 2011-03-30 Jime Sa A method for classifying information elements
CN101784022A (zh) * 2009-01-16 2010-07-21 北京炎黄新星网络科技有限公司 短信过滤、分类方法及系统
CN103810168A (zh) * 2012-11-06 2014-05-21 深圳市世纪光速信息技术有限公司 检索应用的方法、装置及终端
CN103412910A (zh) * 2013-08-02 2013-11-27 北京小米科技有限责任公司 一种建立标签库及搜索用户的方法和装置
CN105528403B (zh) * 2015-12-02 2020-01-03 小米科技有限责任公司 目标数据识别方法及装置
WO2017139575A1 (en) 2016-02-11 2017-08-17 Ebay Inc. Semantic category classification
CN107515849A (zh) * 2016-06-15 2017-12-26 阿里巴巴集团控股有限公司 一种成词判定模型生成方法、新词发现方法及装置
CN106327266B (zh) * 2016-08-30 2021-05-25 北京京东尚科信息技术有限公司 数据挖掘方法及装置
CN106372060B (zh) * 2016-08-31 2019-05-03 北京百度网讯科技有限公司 搜索文本的标注方法和装置
US11269939B1 (en) * 2016-09-26 2022-03-08 Splunk Inc. Iterative message-based data processing including streaming analytics
US11294941B1 (en) * 2016-09-26 2022-04-05 Splunk Inc. Message-based data ingestion to a data intake and query system
US11250056B1 (en) * 2016-09-26 2022-02-15 Splunk Inc. Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN107291828B (zh) * 2017-05-27 2021-06-11 北京百度网讯科技有限公司 基于人工智能的口语查询解析方法、装置及存储介质
CN107273500A (zh) * 2017-06-16 2017-10-20 中国电子技术标准化研究院 文本分类器生成方法、文本分类方法、装置及计算机设备
CN107256267B (zh) * 2017-06-19 2020-07-24 北京百度网讯科技有限公司 查询方法和装置
CN107291695B (zh) * 2017-06-28 2019-01-11 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107679908B (zh) * 2017-09-28 2021-04-09 平安科技(深圳)有限公司 销售人员话题辅助查询方法、电子装置及存储介质
CN107992585B (zh) * 2017-12-08 2020-09-18 北京百度网讯科技有限公司 通用标签挖掘方法、装置、服务器及介质
EP3495968A1 (en) * 2017-12-11 2019-06-12 Tata Consultancy Services Limited Method and system for extraction of relevant sections from plurality of documents
CN108038103B (zh) * 2017-12-18 2021-08-10 沈阳智能大数据科技有限公司 一种对文本序列进行分词的方法、装置和电子设备
CN108009293B (zh) * 2017-12-26 2022-08-23 北京百度网讯科技有限公司 视频标签生成方法、装置、计算机设备和存储介质
US11354349B1 (en) * 2018-02-09 2022-06-07 Pinterest, Inc. Identifying content related to a visual search query
CN108492118B (zh) * 2018-04-03 2020-09-29 电子科技大学 汽车售后服务质量评价回访文本数据的两阶段抽取方法
CN108875781B (zh) * 2018-05-07 2022-08-19 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN109408802A (zh) * 2018-08-28 2019-03-01 厦门快商通信息技术有限公司 一种提升句向量语义的方法、系统及存储介质
CN109522424B (zh) * 2018-10-16 2020-04-24 北京达佳互联信息技术有限公司 数据的处理方法、装置、电子设备及存储介质
CN109857854A (zh) * 2019-01-02 2019-06-07 新浪网技术(中国)有限公司 一种用户商业标签挖掘方法及装置、服务器
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
CN110705293A (zh) * 2019-08-23 2020-01-17 中国科学院苏州生物医学工程技术研究所 基于预训练语言模型的电子病历文本命名实体识别方法
CN110532390B (zh) * 2019-08-26 2022-07-29 南京邮电大学 一种基于ner与复杂网络特征的新闻关键词提取方法
CN110717339B (zh) 2019-12-12 2020-06-30 北京百度网讯科技有限公司 语义表示模型的处理方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176285A (ja) 2009-01-28 2010-08-12 Nippon Telegr & Teleph Corp <Ntt> 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2016164724A (ja) 2015-03-06 2016-09-08 株式会社東芝 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム
CN109543153A (zh) 2018-11-13 2019-03-29 成都数联铭品科技有限公司 一种序列标注系统及方法
CN109684645A (zh) 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
三宅 純平,クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] ,言語処理学会,2011年03月07日,pp.1075~1078

Also Published As

Publication number Publication date
US20210263974A1 (en) 2021-08-26
EP3869360A9 (en) 2022-03-30
KR20210106372A (ko) 2021-08-30
US11755654B2 (en) 2023-09-12
EP3869360A1 (en) 2021-08-25
CN111339250B (zh) 2023-08-18
JP2021131862A (ja) 2021-09-09
KR102508769B1 (ko) 2023-03-10
CN111339250A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
JP7289330B2 (ja) 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品
US20190228073A1 (en) Method and system for identifying places of interest in a natural language input
CN111831804B (zh) 一种关键短语的提取方法、装置、终端设备及存储介质
EP3869511A1 (en) Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence
CN111797272A (zh) 视频内容分割和搜索
CN112347767B (zh) 一种文本处理方法、装置及设备
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
CN110825840B (zh) 词库扩充方法、装置、设备及存储介质
CN110990563A (zh) 一种基于人工智能的传统文化素材库构建方法及系统
CN110489032B (zh) 用于电子书的词典查询方法及电子设备
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN109033082B (zh) 语义模型的学习训练方法、装置及计算机可读存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN106959945B (zh) 基于人工智能的为新闻生成短标题的方法和装置
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
EP3905060A1 (en) Artificial intelligence for content discovery
CN115017339A (zh) 一种基于ai算法的媒体文件多模检索方法和系统
CN110069665B (zh) 一种筛选项的提供方法、客户端及服务器
CN108182191A (zh) 一种热点数据处理方法及其设备
CN111401057B (zh) 一种语义解析方法、存储介质及终端设备
CN114692614A (zh) 标题生成方法、装置、电子设备及可读存储介质
Pajić et al. WebMonitoring software system: Finite state machines for monitoring the web
JP2023072885A (ja) 文書構造化装置、文書構造化方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220420

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20221223

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230110

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230530

R150 Certificate of patent or registration of utility model

Ref document number: 7289330

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150