JP2023539532A - テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム - Google Patents
テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023539532A JP2023539532A JP2023514478A JP2023514478A JP2023539532A JP 2023539532 A JP2023539532 A JP 2023539532A JP 2023514478 A JP2023514478 A JP 2023514478A JP 2023514478 A JP2023514478 A JP 2023514478A JP 2023539532 A JP2023539532 A JP 2023539532A
- Authority
- JP
- Japan
- Prior art keywords
- text
- classification model
- training
- text classification
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 322
- 238000000034 method Methods 0.000 title claims abstract description 236
- 238000012549 training Methods 0.000 title claims abstract description 227
- 238000004590 computer program Methods 0.000 title claims description 9
- 230000008569 process Effects 0.000 claims abstract description 148
- 238000012216 screening Methods 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 60
- 238000013519 translation Methods 0.000 claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 86
- 238000013507 mapping Methods 0.000 claims description 55
- 230000004913 activation Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 31
- 230000015654 memory Effects 0.000 claims description 24
- 230000004927 fusion Effects 0.000 claims description 13
- 238000007499 fusion processing Methods 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000002372 labelling Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願は、2020年11月04日に中国特許局に提出された、出願番号が202011217057.9である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するステップであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、ステップと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含み、
前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい。
分類対象テキストを取得するステップであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、ステップと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得するステップと、
前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するステップと、を含み、
前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するように構成される翻訳モジュールと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするように構成される第1トレーニングモジュールと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うように構成される選別モジュールと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される第2トレーニングモジュールと、を備え、前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい。
分類対象テキストを取得するように構成される取得モジュールであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、取得モジュールと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得し、前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するように構成される処理モジュールと、を備え、前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
実行可能命令を記憶するメモリと、
前記メモリに記憶された実行可能命令を実行するときに、本願実施例によって提供されるテキスト分類モデルのトレーニング方法、又はテキスト分類方法を実行する、プロセッサと、を備える。
本願実施例は、大量のサンプルがない(ラベルがない)状況を対象としているため、大規模な事前トレーニングモデルをトレーニングして、テキストコンテンツを抽出することができない。図9に示すように、本願実施例では、部分テキストセットA(Text A:言語Aのテキストセット)(第1テキストサンプルを含む)と、少量のテキストセットB(Text B:言語Bのテキストセット)(第3テキストサンプルを含む)とが存在し、ここで、Text AとText Bは、カテゴリラベル付きのサンプルであり、Text Bは、Text Aに比べてラベルの数が少ないため、その割合が非常に小さい。
ここで、本願実施例におけるアルゴリズムフレームワークは、1)サンプル強化、2)能動学習、及び3)強化トレーニングを含む。以下では、サンプル強化、能動学習、及び強化トレーニングについて具体的に説明する。
まず、図10に示すように、機械翻訳モデル(言語Aを言語Bに翻訳するために使用)によって、Text A内の言語Aの各テキストX_Aを、言語Bのテキストに変換して、対応するテキストセットB1(Text B1:翻訳によって形成された言語Bのテキストセット)を形成する。
Text B1内の高品質のサンプルを選別するために、能動学習の方法を採用し、そのプロセス全体を図11に示す。
図12に示すように、上記のステップで取得したText B'とText Bを混合し、次に、強分類器(第2テキスト分類モデル)(深層ニューラルネットワーク(BERT:Bidirectional Encoder Representations from Transformers)など)をトレーニングする。
トレーニングによって得られた強分類器を、最終的なテキスト分類モデルとして、言語Bのテキスト分類に使用する。例えば、ニュース閲読製品を中国語市場から英語(B言語)市場に売り込む場合、トレーニングによって得られた強分類器によって、英語ニュースに対して対応するラベルを迅速に付けることができ、ユーザがニュースを読むとき、英語ニュースのラベルに基づいてニュース推薦を行い、それにより、ユーザの興味に合った英語ニュースを推薦することができ、中国語ユーザのコメントの肯定的感情と否定的感情を分析する場合、製品を海外市場(言語B)に売り込むとき、中国語ではないコメント、即ち、英語コメントが多くなるため、トレーニングによって得られた強分類器によって、英語ニュースに対して対応する感情ラベルを迅速に付けることができ、ユーザがコメントをするとき、英語コメントのラベルに基づいて、ユーザの感情を適切に誘導することができ、ユーザが継続的に否定的な感情を生成することを回避することができる。
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ソフトウェアC/C++、Javaなどのプログラミング言語で設計され、Android又はiOSなどのシステムに基づく様々なモバイルアプリに組み込まれたソフトウェアモジュールとして提供することができ(実行可能命令の形式でモバイル側の記憶媒体に記憶され、モバイル側のプロセッサによって実行される)、モバイル側自体の計算リソースを直接使用して、関連する情報推薦タスクを完了し、各種ネットワーク通信方式により処理結果を定期的又は不定期的にリモートサーバに送信したり、モバイル側のローカルに保存したりすることができる。
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ソフトウェアC/C++、Javaなどのプログラミング言語で設計され、サーバ側で実行されるソフトウェアモジュールとして提供することができ(実行可能命令の形式でサーバ側の記憶媒体に記憶され、サーバ側のプロセッサによって実行される)、サーバは、それ自体の計算リソースを使用して、関連する情報推薦タスクを完了することができる。
本願実施例におけるテキスト分類モデルのトレーニング装置555は、サーバ側のAPI又はプラグインとして提供することができ、様々なアプリケーションに組み込まれることができ、ユーザは、当該サーバ側のAPI又はプラグインを呼び出して、本願実施例によるテキスト分類モデルのトレーニング方法を実行することができる。
本願実施例におけるテキスト分類モデルのトレーニング装置555は、モバイル機器側のAPI及びプラグインとして提供することができ、ユーザは、当該モバイル機器側のAPI及びプラグインを呼び出して、本願実施例によるテキスト分類モデルのトレーニング方法を実行することができる。
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ユーザのために開発された情報推薦クラウドサービスとして提供することができ、個人、グループ、又は組織が推薦リストを取得するために使用される。
Claims (20)
- テキスト分類モデルのトレーニング方法であって、
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するステップであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、ステップと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含み、
前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい、テキスト分類モデルのトレーニング方法。 - 前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップは、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt回目のトレーニングを行うステップと、
t回目のトレーニング後の前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づくt回目の選別処理を行うステップと、
直前t回の選別結果と、前記複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt+1回目のトレーニングを行うステップと、
T回目のトレーニング後の前記第1テキスト分類モデルを、前記トレーニング後の前記第1テキスト分類モデルとするステップと、を含み、
tは、順次増加する正の整数であり、且つ値の範囲は、1≦t≦T-1を満たし、Tは、2より大きい整数であり、且つ反復トレーニングの総回数を表すために使用される、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布を決定するステップと、
前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たし、且つ各カテゴリの数が対応するカテゴリ数閾値を超える場合、前記選別処理によって得られた第2テキストサンプル内の各カテゴリのテキストサンプルからランダムに抽出した、前記カテゴリ数閾値に対応するテキストサンプルに基づいてトレーニングセットを構築するステップと、
前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たさない場合、分布の少ないカテゴリの第2テキストサンプルに対して、類義語に基づく拡張処理を行うステップであって、前記拡張処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布は、前記分布均衡条件を満たす、ステップと、
前記拡張処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップと、
前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
前記複数の第3テキストサンプル及び前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築し、前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップを含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記複数の第3テキストサンプル及び前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップは、
前記選別処理によって得られた第2テキストサンプルの各カテゴリをトラバースし、
前記カテゴリ内の第2テキストサンプルの数が、前記カテゴリのカテゴリ数閾値より小さい場合、前記複数の第3テキストサンプルからランダムに抽出した前記カテゴリの第3テキストサンプルを前記カテゴリの第2テキストサンプルに補充することにより、前記選別処理によって得られた第2テキストサンプルを更新し、
更新された、前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築する処理を実行することを含む、
請求項5に記載のテキスト分類モデルのトレーニング方法。 - 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングする前に、前記テキスト分類モデルのトレーニング方法は、
テキスト分類モデルの演算能力と単位時間あたりに演算可能なテキストサンプルの数との対応関係に基づいて、前記第2テキスト分類モデルのトレーニングに使用できる演算能力とマッチングする目標サンプルの数を決定するステップと、
前記選別処理によって得られた第2テキストサンプルに基づいて構築されたトレーニングセットから、前記目標サンプルの数に対応するテキストサンプルを選別して、前記第2言語向けの第2テキスト分類モデルをトレーニングするためのサンプルとして使用するステップと、をさらに含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップは、
前記第1テキスト分類モデルを介して、前記第2言語の複数の第3テキストサンプルに対して予測処理を行い、前記複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得するステップと、
前記予測カテゴリの信頼度及び前記第3テキストサンプルのカテゴリラベルに基づいて、前記第1テキスト分類モデルの損失関数を構築するステップと、
前記損失関数が収束するまで前記第1テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第1テキスト分類モデルの更新されたパラメータを、前記トレーニングされた前記第1テキスト分類モデルのパラメータとするステップと、を含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記第1テキスト分類モデルを介して、前記第2言語の複数の第3テキストサンプルに対して予測処理を行い、前記複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得するステップは、
前記複数の第3テキストサンプルの任意の第3テキストサンプルに対して、
前記第1テキスト分類モデルを介して、
前記第3テキストサンプルに対して符号化処理を行い、前記第3テキストサンプルの符号化ベクトルを取得し、
前記第3テキストサンプルの符号化ベクトルに対して融合処理を行い、融合ベクトルを取得し、
前記融合ベクトルに対して非線形マッピング処理を行い、前記第3テキストサンプルに対応する予測カテゴリの信頼度を取得する処理を実行することを含む、
請求項8に記載のテキスト分類モデルのトレーニング方法。 - 前記第1テキスト分類モデルは、複数のカスケードされた活性化層を含み、
前記融合ベクトルに対して非線形マッピング処理を行い、前記第3テキストサンプルに対応する予測カテゴリの信頼度を取得するステップは、
前記複数のカスケードされた活性化層のうちの最初の活性化層を介して、前記融合ベクトルに対して前記最初の活性化層のマッピング処理を行うステップと、
前記最初の活性化層のマッピング結果を後続のカスケードされた活性化層に出力し、前記後続のカスケードされた前記活性化層を介して、マッピング処理とマッピング結果の出力を継続し、マッピング結果が最後の活性化層に出力されるまで続行するステップと、
前記最後の活性化層によって出力された活性化結果を、前記第3テキストサンプルに対応するカテゴリの信頼度とするステップと、を含む、
請求項9に記載のテキスト分類モデルのトレーニング方法。 - 前記トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップは、
前記複数の第2テキストサンプルの任意の第2テキストサンプルに対して、
前記トレーニングされた前記第1テキスト分類モデルを介して、前記第2テキストサンプルに対して予測処理を行い、前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度を取得し、
前記第2テキストサンプルに対応する第1テキストサンプルのカテゴリラベルを、前記第2テキストサンプルのカテゴリラベルとして決定し、
前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度及び前記第2テキストサンプルのカテゴリラベルに基づいて、信頼度閾値を超える第2テキストサンプルを、前記選別処理によって得られた第2テキストサンプルとする処理を実行することを含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
前記第2テキスト分類モデルを介して、前記選別処理によって得られた第2テキストサンプルに対して予測処理を行い、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップと、
前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリ及び対応するカテゴリラベルに基づいて、前記第2テキスト分類モデルの損失関数を構築するステップと、
前記損失関数が収束するまで前記第2テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第2テキスト分類モデルの更新されたパラメータを、トレーニングされた前記第2テキスト分類モデルのパラメータとするステップと、を含む、
請求項1に記載のテキスト分類モデルのトレーニング方法。 - 前記第2テキスト分類モデルは、カスケードされた複数のエンコーダを含み、
前記第2テキスト分類モデルを介して、前記選別処理によって得られた第2テキストサンプルに対して予測処理を行い、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップは、
前記選別処理によって得られた第2テキストサンプルのうちのいずれかのテキストサンプルに対して、
前記カスケードされた複数のエンコーダのうちの最初のエンコーダを介して、前記テキストサンプルに対して前記最初のエンコーダの符号化処理を行い、
前記最初のエンコーダの符号化結果を後続のカスケードのエンコーダに出力し、前記後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続し、符号化結果が最後のエンコーダに出力されるまで続行し、
前記最後のエンコーダによって出力された符号化結果を、前記テキストサンプルに対応する符号化ベクトルとし、
前記テキストサンプルの符号化ベクトルに対して非線形マッピングを行い、前記テキストサンプルに対応する予測カテゴリを取得する処理を実行することを含む、
請求項12に記載のテキスト分類モデルのトレーニング方法。 - 前記後続のカスケードされたエンコーダによって、符号化処理と符号化結果の出力を継続するステップは、
前記カスケードされた複数のエンコーダのうちのy番目のエンコーダを介して、
y-1番目のエンコーダの符号化結果に対して自己注意力処理を行い、y番目の自己注意力ベクトルを取得し、
前記y番目の自己注意力ベクトル及び前記y-1番目のエンコーダの符号化結果に対して残差接続処理を行い、y番目の残差ベクトルを取得し、
前記y番目の残差ベクトルに対して非線形マッピング処理を行い、y番目のマッピングベクトルを取得し、
前記y番目のマッピングベクトル及び前記y番目の残差ベクトルに対して残差接続処理を行い、残差接続の結果を前記y番目のエンコーダの符号化結果とし、前記y番目のエンコーダの符号化結果をy+1番目のエンコーダに出力する処理を実行することを含み、
yは、順次増加する正の整数であり、且つ値の範囲は、2≦y≦H-1を満たし、Hは、2より大きい整数であり、且つ前記カスケードされた複数のエンコーダの数を表すために使用される、
請求項13に記載のテキスト分類モデルのトレーニング方法。 - テキスト分類方法であって、
分類対象テキストを取得するステップであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、ステップと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得するステップと、
前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するステップと、を含み、
前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである、テキスト分類方法。 - テキスト分類モデルのトレーニング装置であって、
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するように構成される翻訳モジュールであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、翻訳モジュールと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするように構成される第1トレーニングモジュールと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うように構成される選別モジュールと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される第2トレーニングモジュールと、を備え、前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい、テキスト分類モデルのトレーニング装置。 - テキスト分類装置であって、
分類対象テキストを取得するように構成される取得モジュールであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、取得モジュールと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得し、前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するように構成される処理モジュールと、を備え、前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである、テキスト分類装置。 - 実行可能命令を記憶するメモリと、
前記メモリに記憶された実行可能命令を実行するときに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行する、プロセッサと、を備える、電子機器。 - プロセッサに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行させるための実行可能命令が記憶された、コンピュータ可読記憶媒体。
- プロセッサに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行させるためのコンピュータプログラム又は命令を含む、コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011217057.9A CN112214604A (zh) | 2020-11-04 | 2020-11-04 | 文本分类模型的训练方法、文本分类方法、装置及设备 |
CN202011217057.9 | 2020-11-04 | ||
PCT/CN2021/124335 WO2022095682A1 (zh) | 2020-11-04 | 2021-10-18 | 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023539532A true JP2023539532A (ja) | 2023-09-14 |
Family
ID=74058181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023514478A Pending JP2023539532A (ja) | 2020-11-04 | 2021-10-18 | テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230025317A1 (ja) |
JP (1) | JP2023539532A (ja) |
CN (1) | CN112214604A (ja) |
WO (1) | WO2022095682A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214604A (zh) * | 2020-11-04 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法、装置及设备 |
US11934795B2 (en) * | 2021-01-29 | 2024-03-19 | Oracle International Corporation | Augmented training set or test set for improved classification model robustness |
CN113010674B (zh) * | 2021-03-11 | 2023-12-22 | 平安创科科技(北京)有限公司 | 文本分类模型封装方法、文本分类方法及相关设备 |
CN112765359B (zh) * | 2021-04-07 | 2021-06-18 | 成都数联铭品科技有限公司 | 一种基于少样本的文本分类方法 |
CN114266239A (zh) * | 2021-12-31 | 2022-04-01 | 胜斗士(上海)科技技术发展有限公司 | 数据集的生成方法及装置 |
CN114462387B (zh) * | 2022-02-10 | 2022-09-02 | 北京易聊科技有限公司 | 无标注语料下的句型自动判别方法 |
CN114328936B (zh) * | 2022-03-01 | 2022-08-30 | 支付宝(杭州)信息技术有限公司 | 建立分类模型的方法和装置 |
CN114911821B (zh) * | 2022-04-20 | 2024-05-24 | 平安国际智慧城市科技股份有限公司 | 一种结构化查询语句的生成方法、装置、设备及存储介质 |
CN115033701B (zh) * | 2022-08-12 | 2022-10-28 | 北京百度网讯科技有限公司 | 文本向量生成模型训练方法、文本分类方法及相关装置 |
CN115346084B (zh) * | 2022-08-15 | 2024-07-12 | 腾讯科技(深圳)有限公司 | 样本处理方法、装置、电子设备、存储介质及程序产品 |
CN115186670B (zh) * | 2022-09-08 | 2023-01-03 | 北京航空航天大学 | 一种基于主动学习的领域命名实体识别方法及系统 |
CN115329723A (zh) * | 2022-10-17 | 2022-11-11 | 广州数说故事信息科技有限公司 | 基于小样本学习的用户圈层挖掘方法、装置、介质及设备 |
CN116737935B (zh) * | 2023-06-20 | 2024-05-03 | 青海师范大学 | 基于提示学习的藏文文本分类方法、装置及存储介质 |
CN116720005B (zh) * | 2023-08-10 | 2023-10-20 | 四川大学 | 一种基于自适应噪声的数据协同对比推荐模型的系统 |
CN117455421B (zh) * | 2023-12-25 | 2024-04-16 | 杭州青塔科技有限公司 | 科研项目的学科分类方法、装置、计算机设备及存储介质 |
CN117851601B (zh) * | 2024-02-26 | 2024-07-16 | 海纳云物联科技有限公司 | 事件分类模型的训练方法、使用方法、装置及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103488623A (zh) * | 2013-09-04 | 2014-01-01 | 中国科学院计算技术研究所 | 多种语言文本数据分类处理方法 |
US10095770B2 (en) * | 2015-09-22 | 2018-10-09 | Ebay Inc. | Miscategorized outlier detection using unsupervised SLM-GBM approach and structured data |
CN111831821B (zh) * | 2020-06-03 | 2024-01-09 | 北京百度网讯科技有限公司 | 文本分类模型的训练样本生成方法、装置和电子设备 |
CN111813942B (zh) * | 2020-07-23 | 2022-07-12 | 思必驰科技股份有限公司 | 实体分类方法和装置 |
CN112214604A (zh) * | 2020-11-04 | 2021-01-12 | 腾讯科技(深圳)有限公司 | 文本分类模型的训练方法、文本分类方法、装置及设备 |
-
2020
- 2020-11-04 CN CN202011217057.9A patent/CN112214604A/zh active Pending
-
2021
- 2021-10-18 WO PCT/CN2021/124335 patent/WO2022095682A1/zh active Application Filing
- 2021-10-18 JP JP2023514478A patent/JP2023539532A/ja active Pending
-
2022
- 2022-10-04 US US17/959,402 patent/US20230025317A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20230025317A1 (en) | 2023-01-26 |
CN112214604A (zh) | 2021-01-12 |
WO2022095682A1 (zh) | 2022-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023539532A (ja) | テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム | |
US11816439B2 (en) | Multi-turn dialogue response generation with template generation | |
US11775761B2 (en) | Method and apparatus for mining entity focus in text | |
US11886480B2 (en) | Detecting affective characteristics of text with gated convolutional encoder-decoder framework | |
CN111897934B (zh) | 问答对生成方法及装置 | |
CN116820429B (zh) | 代码处理模型的训练方法、装置、电子设备及存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US20230281400A1 (en) | Systems and Methods for Pretraining Image Processing Models | |
CN114186978A (zh) | 简历与岗位匹配度预测方法及相关设备 | |
CN113420212A (zh) | 基于深度特征学习的推荐方法、装置、设备及存储介质 | |
CN108475346A (zh) | 神经随机访问机器 | |
CN112232052A (zh) | 文本拼接方法、装置、计算机设备及存储介质 | |
CN117743551A (zh) | 问答信息的处理方法、装置、计算机可读介质及电子设备 | |
CN111723186A (zh) | 用于对话系统的基于人工智能的知识图谱生成方法、电子设备 | |
CN115438164A (zh) | 问答方法、系统、设备及存储介质 | |
CN116956102A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN113420869A (zh) | 基于全方向注意力的翻译方法及其相关设备 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
CN115935195B (zh) | 文本匹配方法及装置、计算机可读存储介质、终端 | |
US20240256964A1 (en) | Pretraining Already-Pretrained Models for Diverse Downstream Tasks | |
US20240005082A1 (en) | Embedding Texts into High Dimensional Vectors in Natural Language Processing | |
US20240143941A1 (en) | Generating subject lines from keywords utilizing a machine-learning model | |
CN114298004A (zh) | 复述文本生成方法、装置、设备、介质和程序产品 | |
CN117034875A (zh) | 一种文本数据生成方法、装置、设备及其存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230301 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240610 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240905 |