JP7289330B2 - 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 - Google Patents
新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 Download PDFInfo
- Publication number
- JP7289330B2 JP7289330B2 JP2021024436A JP2021024436A JP7289330B2 JP 7289330 B2 JP7289330 B2 JP 7289330B2 JP 2021024436 A JP2021024436 A JP 2021024436A JP 2021024436 A JP2021024436 A JP 2021024436A JP 7289330 B2 JP7289330 B2 JP 7289330B2
- Authority
- JP
- Japan
- Prior art keywords
- category
- category tag
- tag
- predetermined
- search text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3349—Reuse of stored results of previous queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップと、を含む新規カテゴリタグの発掘方法を提供する。
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む。
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む。
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む。
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む。
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む新規カテゴリタグの発掘装置を提供する。
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される。
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出された場合、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される。
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される。
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される。
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、前記いずれか1つの実施形態に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、
前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む電子デバイスを提供する。
なお、いくつかの実施形態において、ステップ13において、前記検索テキストに現在対応する全てのカテゴリタグは、即ち、ステップ1211~ステップ1215、ステップ1221、ステップ1231という3つの方法のいずれか1つまたは複数の方法を介して処理された後、最終的に保留される全てのカテゴリタグであることを理解されたい。
1つまたは複数のプロセッサ501と、
1つまたは複数のプロセッサによって実行されることにより、上記のいずれか1つの実施形態によって提供される新規カテゴリタグの発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリ502と、
プロセッサとメモリの間に接続され、プロセッサとメモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェース503と、を含む。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
現在の所定期間内の複数の検索テキストを取得するステップと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、を含む
新規カテゴリタグの発掘方法。
[C2]
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
C1に記載の発掘方法。
[C3]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
C1に記載の発掘方法。
[C4]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1に記載の発掘方法。
[C5]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1~4のいずれか1項に記載の発掘方法。
[C6]
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
C1~5のいずれか1項に記載の発掘方法。
[C7]
カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
C2に記載の発掘方法。
[C8]
現在の所定期間内の複数の検索テキストを取得するように配置された取得ユニットと、 各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするように配置された発掘ユニットと、を含む
新規カテゴリタグの発掘装置。
[C9]
モデル訓練ユニットをさらに含む発掘装置であって、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
C8に記載の発掘装置。
[C10]
単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名形詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
C8に記載の発掘装置。
[C11]
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
C8に記載の発掘装置。
[C12]
流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される
C8~11のいずれか1項に記載の発掘装置。
[C13]
頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記頻度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
C8~12のいずれか1項に記載の発掘装置。
[C14]
前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置された C9に記載の発掘装置。
[C15]
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、C1~7のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、 前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
電子デバイス。
[C16]
コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムが実行されると、C1~7のいずれか1項に記載の発掘方法が実施される
コンピュータ可読媒体。
[C17]
プロセッサによって実行されると、C1~7のいずれか1項に記載の発掘方法が実施されるコンピュータプログラムを含む
コンピュータプログラム製品。
Claims (15)
- 新規カテゴリタグの発掘装置によって、現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するステップと、
前記新規カテゴリタグの発掘装置によって、各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するステップと、
前記新規カテゴリタグの発掘装置によって、前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするステップと、ここにおいて、前記新規カテゴリタグは、前記ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
ここにおいて、前記カテゴリタグを前記終端とする当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在するか否かを判断することは、
当該カテゴリタグを切ることと、
切った後に、当該カテゴリタグの前記終端に位置する単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断するステップと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する前記カテゴリタグを終端とすると判断するステップと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断するステップと、を備える
を含む
新規カテゴリタグの発掘方法。 - カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するステップと、
前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るステップと、をさらに含む
請求項1に記載の発掘方法。 - 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するステップと、
現在の検出対象語の品詞が所定の品詞であると検出されたことが確定されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするステップと、
現在の検出対象語の品詞が所定の品詞であるか否かを検出する前記ステップを、品詞が所定の品詞でない現在の検出対象語が検出されるまで繰り返し実行するステップと、
当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするステップと、をさらに含む
請求項1に記載の発掘方法。 - 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するステップと、
当該カテゴリタグの文章が流暢であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む、
ここにおいて、前記所定の文章流暢度モデルを用いて当該カテゴリタグの前記文章が流暢であるか否かを検出するステップは、
前記所定の文章流暢度モデルを用いて当該カテゴリタグの文章流暢度を検出することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断するステップと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断するステップと、を備える
請求項1~3のいずれか1項に記載の発掘方法。 - 前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを前記新規カテゴリタグとするステップの前に、
各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するステップと、
当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留するステップと、
当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するステップと、をさらに含む
請求項1~4のいずれか1項に記載の発掘方法。 - カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得する前記ステップは、
複数の履歴検索テキストと複数の所定のカテゴリタグを取得するステップと、
遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別するステップと、
前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するステップと、を含む
請求項2に記載の発掘方法。 - 現在の所定期間内の、検索場面でユーザが入力した複数の検索テキストを取得するように配置された取得ユニットと、
各前記検索テキストに対して、予め訓練されたシーケンスラベリングモデルを用いて、当該検索テキストに対してカテゴリタグのラベリングを行って、当該検索テキストに現在対応するカテゴリタグを当該検索テキストから抽出するように配置されたラベリングユニットと、
前記検索テキストに現在対応するカテゴリタグのうち、所定の現在のカテゴリタグライブラリに既に存在するカテゴリタグを全て削除し、残ったカテゴリタグを新規カテゴリタグとするように配置された発掘ユニットと、ここにおいて、前記新規カテゴリタグは、ユーザの検索に対する実際の意図と動作を理解するために検索エンジンによって使用される、
現在の所定期間内の各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とするか否かを判断し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端とすることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該カテゴリタグが現在のカテゴリタグライブラリの中に既に存在するカテゴリタグを終端としないことが確定されたことに応じて、当該カテゴリタグを削除するように配置された選別ユニットをさらに含む
ここにおいて、前記選別ユニットは、当該カテゴリタグを切り、切った後、前記カテゴリタグの前記終端における単語が前記現在のカテゴリタグライブラリの中に存在するか否かを判断することと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在すると判断することに応じて、前記カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端とすると判断することと、
当該カテゴリタグの前記終端に位置する前記単語が前記現在のカテゴリタグライブラリの中に存在しないと判断することに応じて、前記当該カテゴリタグが前記現在のカテゴリタグライブラリの中に存在する当該カテゴリタグを終端としないと判断することと、を行うように配置される
を含む
新規カテゴリタグの発掘装置。 - モデル訓練ユニットをさらに含む発掘装置であって、
前記取得ユニットは、カテゴリタグが予めラベリングされた複数の検索テキストサンプルを取得するように配置され、
前記モデル訓練ユニットは、前記検索テキストサンプルを所定神経ネットワークモデルの入力とし、前記検索テキストサンプルのカテゴリタグを所定神経ネットワークモデルの出力とし、第1の意味表現モデルと、第1の意味表現モデルに接続された第2の意味表現モデルと、第2の意味表現モデルに接続された第1の双方向GRU層と、第1の双方向GRU層に接続された第2の双方向GRU層と、第2の双方向GRU層に接続された条件付きランダムフィールドと、条件付きランダムフィールドに接続された条件付きランダムフィールド解析層と、を有する前記所定神経ネットワークモデルに対しモデル訓練を行い、シーケンスラベリングモデルを得るように配置される
請求項7に記載の発掘装置。 - 単語抽出ユニットと、品詞検出ユニットと、単語拡張ユニットと、をさらに含む発掘装置であって、
前記単語抽出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが所定の現在のカテゴリタグライブラリに既に存在していることが確定されたことに応じて、当該カテゴリタグの前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするように配置され、
前記品詞検出ユニットは、現在の検出対象語の品詞が、名詞、形容詞、名詞的用法の形容詞のいずれか1つの所定の品詞であるか否かを検出するように配置され、
前記単語抽出ユニットは、現在の検出対象語の品詞が所定の品詞であることが前記品詞検出ユニットで検出されたことに応じて、現在の検出対象語の前に位置し且つ隣接する単語を当該検索テキストから抽出して、現在の検出対象語とするとともに、前記品詞検出ユニットをトリガして、現在の検出対象語の品詞が所定の品詞であるか否かを検出するステップを、現在の検出対象語の品詞が所定の品詞でないことが前記品詞検出ユニットで検出されるまで繰り返し実行するようにさらに配置され、
前記単語拡張ユニットは、当該カテゴリタグと、検出された全ての品詞が所定の品詞である検出対象語とを、当該検索テキストにおける順序に従い組合せ、組合せ結果を当該検索テキストに現在対応するカテゴリタグとするように配置される
請求項7に記載の発掘装置。 - 流暢度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記流暢度検出ユニットは、各検索テキストに現在対応する各カテゴリタグに対して、所定の文章流暢度モデルを用いて当該カテゴリタグの文章が流暢であるか否かを検出するように配置され、
前記選別ユニットは、当該カテゴリタグの文章が流暢であることが前記流暢度検出ユニットで検出されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該検索テキストに現在対応するカテゴリタグの文章が流暢でないことが前記流暢度検出ユニットで検出されたことに応じて、当該カテゴリタグを削除するように配置される、
ここにおいて、前記流暢度検出ユニットは、前記文章流暢度モデルを用いて前記カテゴリタグの文章流暢度を検出することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値以上であることに応じて、当該カテゴリタグの前記文章が流暢であると判断することと、
当該カテゴリタグの前記文章流暢度が所定流暢度閾値未満であることに応じて、当該カテゴリタグの前記文章が流暢でないと判断することと、を行うように配置される
請求項7~9のいずれか1項に記載の発掘装置。 - 頻度検出ユニットと、選別ユニットと、をさらに含む発掘装置であって、
前記頻度検出ユニットは、各前記検索テキストに現在対応する各カテゴリタグに対して、当該カテゴリタグが全ての検索テキストに対応するカテゴリタグで出現する頻度を検出するように配置され、
前記選別ユニットは、当該頻度が所定頻度閾値以上であることが確定されたことに応じて、当該検索テキストに現在対応する当該カテゴリタグを保留し、当該頻度が所定頻度閾値未満であることが確定されたことに応じて、当該カテゴリタグを削除するように配置される
請求項7~9のいずれか1項に記載の発掘装置。 - 前記取得ユニットは具体的に、複数の履歴検索テキストと複数の所定のカテゴリタグを取得し、遠隔監視方法を用いて、前記履歴検索テキストの全てから、前記所定のカテゴリタグが含まれる履歴検索テキストを全て選別し、前記所定のカテゴリタグが含まれる履歴検索テキストの全てから、複数の前記検索テキストサンプルを確定するように配置された 請求項8に記載の発掘装置。
- 1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されることにより、請求項1~6のいずれか1項に記載の発掘方法が実施される1つまたは複数のプログラムが記憶されるメモリと、 前記プロセッサとメモリの間に接続され、前記プロセッサと前記メモリとの情報交換を実施するように配置される1つまたは複数のI/Oインターフェースと、を含む
電子デバイス。 - コンピュータプログラムが記憶されたコンピュータ可読媒体であって、
前記コンピュータプログラムが実行されると、請求項1~6のいずれか1項に記載の発掘方法が実施される
コンピュータ可読媒体。 - プロセッサによって実行されると、請求項1~6のいずれか1項に記載の発掘方法が実施されるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010104207.9 | 2020-02-20 | ||
CN202010104207.9A CN111339250B (zh) | 2020-02-20 | 2020-02-20 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021131862A JP2021131862A (ja) | 2021-09-09 |
JP7289330B2 true JP7289330B2 (ja) | 2023-06-09 |
Family
ID=71181730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021024436A Active JP7289330B2 (ja) | 2020-02-20 | 2021-02-18 | 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11755654B2 (ja) |
EP (1) | EP3869360A1 (ja) |
JP (1) | JP7289330B2 (ja) |
KR (1) | KR102508769B1 (ja) |
CN (1) | CN111339250B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984883B (zh) * | 2020-08-11 | 2024-05-14 | 北京百度网讯科技有限公司 | 标签挖掘方法、装置、设备以及存储介质 |
JP2022057202A (ja) * | 2020-09-30 | 2022-04-11 | 富士通株式会社 | プログラム,情報処理装置及び情報処理方法 |
CN113297379A (zh) * | 2021-05-25 | 2021-08-24 | 善诊(上海)信息技术有限公司 | 一种文本数据多标签分类方法及装置 |
CN113656603B (zh) * | 2021-09-03 | 2024-06-04 | 北京爱奇艺科技有限公司 | 一种字段描述信息获得方法及装置 |
CN113869054A (zh) * | 2021-10-13 | 2021-12-31 | 天津大学 | 一种基于深度学习的电力领域项目特征识别方法 |
CN115033774A (zh) * | 2022-06-16 | 2022-09-09 | 北京百度网讯科技有限公司 | 待推荐的搜索文本的生成方法、装置、设备和介质 |
CN115510330B (zh) * | 2022-11-01 | 2023-02-10 | 潍坊医学院附属医院 | 基于数据挖掘的信息智能处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176285A (ja) | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2016164724A (ja) | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
CN109543153A (zh) | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109684645A (zh) | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004062262A (ja) * | 2002-07-25 | 2004-02-26 | Hitachi Ltd | 未知語を自動的に辞書へ登録する方法 |
JP2005284776A (ja) | 2004-03-30 | 2005-10-13 | Honda Motor Co Ltd | テキストマイニング装置及びテキスト分析方法 |
US9324082B2 (en) * | 2007-07-06 | 2016-04-26 | Ebay Inc. | System and method for providing information tagging in a networked system |
EP2107475A1 (en) * | 2008-03-31 | 2009-10-07 | British Telecommunications Public Limited Company | Electronic resource anotation |
EP2300946A1 (en) * | 2008-06-16 | 2011-03-30 | Jime Sa | A method for classifying information elements |
CN101784022A (zh) * | 2009-01-16 | 2010-07-21 | 北京炎黄新星网络科技有限公司 | 短信过滤、分类方法及系统 |
CN103810168A (zh) * | 2012-11-06 | 2014-05-21 | 深圳市世纪光速信息技术有限公司 | 检索应用的方法、装置及终端 |
CN103412910A (zh) * | 2013-08-02 | 2013-11-27 | 北京小米科技有限责任公司 | 一种建立标签库及搜索用户的方法和装置 |
CN105528403B (zh) * | 2015-12-02 | 2020-01-03 | 小米科技有限责任公司 | 目标数据识别方法及装置 |
WO2017139575A1 (en) | 2016-02-11 | 2017-08-17 | Ebay Inc. | Semantic category classification |
CN107515849A (zh) * | 2016-06-15 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种成词判定模型生成方法、新词发现方法及装置 |
CN106327266B (zh) * | 2016-08-30 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 数据挖掘方法及装置 |
CN106372060B (zh) * | 2016-08-31 | 2019-05-03 | 北京百度网讯科技有限公司 | 搜索文本的标注方法和装置 |
US11269939B1 (en) * | 2016-09-26 | 2022-03-08 | Splunk Inc. | Iterative message-based data processing including streaming analytics |
US11294941B1 (en) * | 2016-09-26 | 2022-04-05 | Splunk Inc. | Message-based data ingestion to a data intake and query system |
US11250056B1 (en) * | 2016-09-26 | 2022-02-15 | Splunk Inc. | Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
CN107291828B (zh) * | 2017-05-27 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107273500A (zh) * | 2017-06-16 | 2017-10-20 | 中国电子技术标准化研究院 | 文本分类器生成方法、文本分类方法、装置及计算机设备 |
CN107256267B (zh) * | 2017-06-19 | 2020-07-24 | 北京百度网讯科技有限公司 | 查询方法和装置 |
CN107291695B (zh) * | 2017-06-28 | 2019-01-11 | 三角兽(北京)科技有限公司 | 信息处理装置及其分词处理方法 |
CN107679908B (zh) * | 2017-09-28 | 2021-04-09 | 平安科技(深圳)有限公司 | 销售人员话题辅助查询方法、电子装置及存储介质 |
CN107992585B (zh) * | 2017-12-08 | 2020-09-18 | 北京百度网讯科技有限公司 | 通用标签挖掘方法、装置、服务器及介质 |
EP3495968A1 (en) * | 2017-12-11 | 2019-06-12 | Tata Consultancy Services Limited | Method and system for extraction of relevant sections from plurality of documents |
CN108038103B (zh) * | 2017-12-18 | 2021-08-10 | 沈阳智能大数据科技有限公司 | 一种对文本序列进行分词的方法、装置和电子设备 |
CN108009293B (zh) * | 2017-12-26 | 2022-08-23 | 北京百度网讯科技有限公司 | 视频标签生成方法、装置、计算机设备和存储介质 |
US11354349B1 (en) * | 2018-02-09 | 2022-06-07 | Pinterest, Inc. | Identifying content related to a visual search query |
CN108492118B (zh) * | 2018-04-03 | 2020-09-29 | 电子科技大学 | 汽车售后服务质量评价回访文本数据的两阶段抽取方法 |
CN108875781B (zh) * | 2018-05-07 | 2022-08-19 | 腾讯科技(深圳)有限公司 | 一种标签分类方法、装置、电子设备及存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、系统及存储介质 |
CN109522424B (zh) * | 2018-10-16 | 2020-04-24 | 北京达佳互联信息技术有限公司 | 数据的处理方法、装置、电子设备及存储介质 |
CN109857854A (zh) * | 2019-01-02 | 2019-06-07 | 新浪网技术(中国)有限公司 | 一种用户商业标签挖掘方法及装置、服务器 |
CN110222171A (zh) * | 2019-05-08 | 2019-09-10 | 新华三大数据技术有限公司 | 一种分类模型应用、分类模型训练方法及装置 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110532390B (zh) * | 2019-08-26 | 2022-07-29 | 南京邮电大学 | 一种基于ner与复杂网络特征的新闻关键词提取方法 |
CN110717339B (zh) | 2019-12-12 | 2020-06-30 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-02-20 CN CN202010104207.9A patent/CN111339250B/zh active Active
-
2021
- 2021-02-10 EP EP21156285.5A patent/EP3869360A1/en not_active Ceased
- 2021-02-11 US US17/173,318 patent/US11755654B2/en active Active
- 2021-02-17 KR KR1020210021383A patent/KR102508769B1/ko active IP Right Grant
- 2021-02-18 JP JP2021024436A patent/JP7289330B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176285A (ja) | 2009-01-28 | 2010-08-12 | Nippon Telegr & Teleph Corp <Ntt> | 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2016164724A (ja) | 2015-03-06 | 2016-09-08 | 株式会社東芝 | 語彙知識獲得装置、語彙知識獲得方法、及び語彙知識獲得プログラム |
CN109543153A (zh) | 2018-11-13 | 2019-03-29 | 成都数联铭品科技有限公司 | 一种序列标注系统及方法 |
CN109684645A (zh) | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
Non-Patent Citations (1)
Title |
---|
三宅 純平,クエリログとスニペットの単語連接頻度に基づくWeb検索クエリのセグメンテーション,言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] ,言語処理学会,2011年03月07日,pp.1075~1078 |
Also Published As
Publication number | Publication date |
---|---|
US20210263974A1 (en) | 2021-08-26 |
EP3869360A9 (en) | 2022-03-30 |
KR20210106372A (ko) | 2021-08-30 |
US11755654B2 (en) | 2023-09-12 |
EP3869360A1 (en) | 2021-08-25 |
CN111339250B (zh) | 2023-08-18 |
JP2021131862A (ja) | 2021-09-09 |
KR102508769B1 (ko) | 2023-03-10 |
CN111339250A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7289330B2 (ja) | 新規カテゴリタグの発掘方法及び装置、電子デバイス、コンピュータ可読媒体、ならびにコンピュータプログラム製品 | |
US20190228073A1 (en) | Method and system for identifying places of interest in a natural language input | |
CN111831804B (zh) | 一种关键短语的提取方法、装置、终端设备及存储介质 | |
EP3869511A1 (en) | Method and system for annotating scope of claims of gene sequence, method and system for searching gene sequence, and method and system for annotating information of gene sequence | |
CN111797272A (zh) | 视频内容分割和搜索 | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
JP7395377B2 (ja) | コンテンツ検索方法、装置、機器、および記憶媒体 | |
CN110825840B (zh) | 词库扩充方法、装置、设备及存储介质 | |
CN110990563A (zh) | 一种基于人工智能的传统文化素材库构建方法及系统 | |
CN110489032B (zh) | 用于电子书的词典查询方法及电子设备 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
CN110489740B (zh) | 语义解析方法及相关产品 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN106959945B (zh) | 基于人工智能的为新闻生成短标题的方法和装置 | |
CN114302227A (zh) | 基于容器采集的网络视频采集与解析的方法和系统 | |
EP3905060A1 (en) | Artificial intelligence for content discovery | |
CN115017339A (zh) | 一种基于ai算法的媒体文件多模检索方法和系统 | |
CN110069665B (zh) | 一种筛选项的提供方法、客户端及服务器 | |
CN108182191A (zh) | 一种热点数据处理方法及其设备 | |
CN111401057B (zh) | 一种语义解析方法、存储介质及终端设备 | |
CN114692614A (zh) | 标题生成方法、装置、电子设备及可读存储介质 | |
Pajić et al. | WebMonitoring software system: Finite state machines for monitoring the web | |
JP2023072885A (ja) | 文書構造化装置、文書構造化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220906 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221223 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221223 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230110 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7289330 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |