JP2023539532A - テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム - Google Patents

テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2023539532A
JP2023539532A JP2023514478A JP2023514478A JP2023539532A JP 2023539532 A JP2023539532 A JP 2023539532A JP 2023514478 A JP2023514478 A JP 2023514478A JP 2023514478 A JP2023514478 A JP 2023514478A JP 2023539532 A JP2023539532 A JP 2023539532A
Authority
JP
Japan
Prior art keywords
text
classification model
training
text classification
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023514478A
Other languages
English (en)
Inventor
▲暢▼宇 ▲繆▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2023539532A publication Critical patent/JP2023539532A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

人工知能技術に関するテキスト分類モデルのトレーニング方法、テキスト分類方法、装置、電子機器及びコンピュータ可読記憶媒体であって、前記テキスト分類モデルのトレーニング方法は、機械翻訳モデルを介して、第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するステップ(101)であって、複数の第2テキストサンプルは、第1言語とは異なる第2言語を採用する、ステップと、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第2言語向けの第1テキスト分類モデルをトレーニングするステップ(102)と、トレーニングされた第1テキスト分類モデルを介して、複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップ(103)と、選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングするステップ(104)と、を含む。

Description

(関連出願への相互参照)
本願は、2020年11月04日に中国特許局に提出された、出願番号が202011217057.9である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれる。
本願は、人工知能技術に関し、特に、テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品に関するものである。
人工知能(AI:Artificial Intelligence)は、コンピュータ科学の総合的な技術であり、様々な知能機械の設計原理及び実現方法を研究することにより、機械に知覚、推論、意思決定の機能を持たせることができる。人工知能技術は、自然言語処理技術及び機械学習/深層学習など、幅広い分野に関わる総合的な学科であり、技術の発展に伴い、人工知能技術は、より多くの分野で応用され、ますます重要な価値を発揮すると考えられる。
テキスト分類モデルは、人工知能の分野における重要な応用の一つであり、テキスト分類モデルは、テキストが属するカテゴリを識別することができる。テキスト分類モデルは、ニュース推薦システムや意図認識システムなどで広く使用されており、即ち、テキスト分類モデルは、これらの複雑なシステムの基本的な構成要素である。
しかしながら、関連技術におけるテキスト分類モデルは、特定の言語を対象としており、テキスト分類モデルを他の言語のテキスト分類に拡張すると、当該テキスト分類モデルは、他の言語のラベリングサンプルが不足しているという問題に直面し、他の言語のテキスト分類タスクを円滑に実行できなくなる。
本願実施例は、クロスリンガルのテキストサンプルを自動的に取得し、テキスト分類の精度を向上させることができる、テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本願実施例による技術的解決策は、次のように実現できる。
本願実施例は、テキスト分類モデルのトレーニング方法を提供し、前記方法は、
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するステップであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、ステップと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含み、
前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい。
本願実施例は、テキスト分類方法を提供し、前記方法は、
分類対象テキストを取得するステップであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、ステップと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得するステップと、
前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するステップと、を含み、
前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
本願実施例は、テキスト分類モデルのトレーニング装置を提供し、前記装置は、
第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するように構成される翻訳モジュールと、
前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするように構成される第1トレーニングモジュールと、
トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うように構成される選別モジュールと、
前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される第2トレーニングモジュールと、を備え、前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい。
本願実施例は、テキスト分類装置を提供し、前記装置は、
分類対象テキストを取得するように構成される取得モジュールであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、取得モジュールと、
ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得し、前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するように構成される処理モジュールと、を備え、前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
本願実施例は、テキスト分類モデルのトレーニングのための電子機器を提供し、前記電子機器は、
実行可能命令を記憶するメモリと、
前記メモリに記憶された実行可能命令を実行するときに、本願実施例によって提供されるテキスト分類モデルのトレーニング方法、又はテキスト分類方法を実行する、プロセッサと、を備える。
本願実施例は、実行可能命令が記憶されたコンピュータ可読記憶媒体を提供し、前記実行可能命令は、プロセッサに、本願実施例によって提供されるテキスト分類モデルのトレーニング方法、又はテキスト分類方法を実行させる。
本願実施例は、コンピュータプログラム又は命令を含む、コンピュータプログラム製品を提供し、前記コンピュータプログラム又は命令は、プロセッサによって実行されるときに、本願実施例によって提供されるテキスト分類モデルのトレーニング方法、又はテキスト分類方法を実現する。
本願実施例は、次の有益な効果を有する。
機械翻訳により、第1言語とは異なる第2言語を採用する第2テキストサンプルを取得し、第1テキスト分類モデルを介して、第2テキストサンプルを選別することにより、クロスリンガルのテキストサンプルの自動取得を実現し、テキストサンプル不足の問題を軽減し、また、選別によって得られた高品質のテキストサンプルを使用して第2テキスト分類モデルをトレーニングすることにより、第2テキスト分類モデルが正確なテキスト分類を実行できるようにし、テキスト分類精度を向上させることができる。
本願実施例によるテキスト分類システムの適用シーンの概略図である。 本願実施例によるテキスト分類モデルのトレーニングのための電子機器の概略構造図である。 本願実施例によるテキスト分類モデルに基づくトレーニング方法のフローチャートである。 本願実施例によるテキスト分類モデルに基づくトレーニング方法のフローチャートである。 本願実施例によるテキスト分類モデルに基づくトレーニング方法のフローチャートである。 本願実施例による反復トレーニングのフローチャートである。 本願実施例による階層softmaxの概略図である。 本願実施例によるカスケードされたエンコーダの概略図である。 本願実施例によるテキストセットA及びテキストセットBの概略図である。 本願実施例によるテキストセットB1の概略図である。 本願実施例による能動学習のフローチャートである。 本願実施例による強化学習のフローチャートである。
本願の目的、技術的解決策及び利点をより明確にするために、下記において、図面を参照しながら本願をさらに詳しく説明する。下記で説明される実施例は、本願を限定するものではなく、当業者が創造的な労力を払わずに得られる他のすべての実施例は、本願の保護範囲に含まれる。
本願実施例における「第1/第2」などの用語は、特定の順番を限定するものではなく、類似する対象を区別するものであり、「第1/第2」は、適切な場合において特定の順番又は前後順番を変換できるので、本明細書に記載の本願実施例は、本明細書に図示又は記載されたもの以外の順番で実行できることが理解できる。
特に明記されていない限り、本願で使用されるすべての技術用語及び科学用語は、本願の当業者によって通常理解されるものと同じ意味を有する。本願で使用される用語は、本願実施例を説明するためにのみ採用され、本願を限定することを意図するものではない。
本願実施例をさらに詳細に説明する前に、本願実施例に係る名詞及び用語を説明する。本願実施例に係る名詞及び用語の説明は、次の通りである。
1)畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks):畳み込み計算を含み、深層構造を有するフィードフォワードニューラルネットワーク(FNN:Feedforward Neural Networks)の一種であり、深層学習(deep learning)の代表的なアルゴリズムの1つである。畳み込みニューラルネットワークは、表現学習(representation learning)機能を有し、その階層構造に従って入力画像に対してシフト不変分類(shift-invariant classification)を実行することができる。
2)クロスリンガルfew shotテキスト分類:言語Aのシーンから言語Bのシーンに移行し、言語Bのサンプルをラベリングする予算が少ない場合、少量の言語Bのラベリングテキストと、大量の言語Aのラベリングテキストだけで、言語Bのテキストの大規模ラベリングを実現し、言語Bのテキストの大規模ラベリングによってテキスト分類モデルをトレーニングして、言語Bのテキスト分類を実現することができる。
3)クロスリンガルzero shotテキスト分類:言語Aのシーンから言語Bのシーンに移行し、且つ予算が不足している(人手や製品プロモーション時間がない)場合、言語Bのサンプルに対してラベリングを行うことができず、即ち、大量の言語Aのラベリングテキストのみで、言語Bの大規模ラベリングを実現し、言語Bのテキストの大規模ラベリングによってテキスト分類モデルをトレーニングして、言語Bのテキスト分類を実現することができる。
テキスト分類は、ニュース分類、文章分類、意図分類、インフォマーシャル製品、フォーラム、コミュニティ、eコマースなど、コンテンツ関連製品に広く利用されている。一般に、テキスト分類は、中国語や英語などの特定の言語を対象としているが、製品の他の言語サービスを拡張する必要がある場合、製品の初期段階では、ラベリングテキスト不足の問題が発生し、例えば、ニュース閲読製品を中国語市場から英語市場に売り込む場合、英語分野のニュースに対して対応するラベルを迅速に付ける必要があり、中国語ユーザのコメントの肯定的感情と否定的感情を分析する場合、ユーザ数が増加するにつれて、又は製品を海外市場に売り込む場合、中国語以外のコメントが多くなるため、これらのコメントに対しても、対応する感情極性をラベリングする必要である。
このような他の言語テキストは、長い目で見れば、手作業などの方式で一定量のラベリングデータをゆっくりと蓄積してから、モデルのトレーニングと予測を行うことができる。しかしながら、初期段階では、手動でのみテキストをラベリングするのは非常に時間と労力がかかり、製品の迅速な反復には役立たない。そのため、初期段階では、アルゴリズムと既存言語のラベリングテキストの蓄積により、大量のテキストの自動ラベリングを実現できることが期待されている。
関連技術はすべて、同一言語のfew shotテキスト分類又はzero shotテキスト分類に集中しており、つまり、同一言語のラベリングサンプルが不十分であるという問題のみを解決し、クロスリンガルのテキスト分類が欠如している。
上記の課題を解決するために、本願実施例は、クロスリンガルのテキストサンプルを自動的に取得し、テキスト分類の精度を向上させることができる、テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム製品を提供する。
本願実施例によって提供されるテキスト分類モデルのトレーニング方法及びテキスト分類方法は、端末/サーバが独自に実装してもよいし、端末とサーバが協力して実装してもよく、例えば、端末が後述するテキスト分類モデルのトレーニング方法を独自に実行してもよく、又は、端末が特定言語に対するテキスト分類要求をサーバに送信し、サーバが、受信した当該言語のテキスト分類に基づいて、テキスト分類モデルのトレーニング方法を実行し、トレーニングされたテキスト分類モデルに基づいて、当該言語のテキスト分類タスクを行ってもよい。
本願実施例によって提供されるテキスト分類モデルのトレーニングのための電子機器は、様々なタイプの端末機器又はサーバであり得、ここで、サーバは、独立した物理サーバであってもよいし、複数の物理サーバで構成されたサーバクラスタ又は分散システムであってもよいし、クラウドコンピューティングサービスを提供するクラウドサーバであってもよい。端末は、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、スマートスピーカ、スマートウォッチなどであり得るが、これらに限定されない。端末及びサーバは、有線又は無線通信を介して直接又は間接的に接続することができ、本願はこれらに限定されない。
サーバを例にとると、例えば、クラウドに展開されたサーバクラスタであり得、人工知能クラウドサービス(AiaaS:AI as a Service)をユーザに開放することができ、AIaaSプラットフォームは、いくつかの一般的なAIサービスを分割して、クラウド上でそれらをスタンドアロン又はパッケージ化されたサービスとして提供し、このサービスモデルは、AIテーマモールに類似しており、すべてのユーザは、アプリケーション・プログラミング・インターフェースを介して、AIaaSプラットフォームによって提供される1つ又は複数のAIサービスにアクセスすることができる。
例えば、人工知能クラウドサービスの1つは、テキスト分類モデルトレーニングサービスであり得、即ち、クラウドのサーバには、本願実施例によって提供されるテキスト分類モデルをトレーニングするためのプログラムがカプセル化されている。ユーザは、端末(ニュースクライアント、閲読クライアントなどのクライアントが実行されている)を介してクラウドサービス内のテキスト分類モデルトレーニングサービスを呼び出すことにより、クラウドに展開されたサーバは、カプセル化されたテキスト分類モデルトレーニングのプログラムを呼び出して、第1言語の第1テキストサンプルに基づいて、機械翻訳モデルを介して、第1言語とは異なる第2言語を採用する第2テキストサンプルを取得し、第1テキスト分類モデルを介して、第2テキストサンプルを選別し、選別によって得られた第2テキストサンプルを使用して第2テキスト分類モデルをトレーニングし、トレーニングされた第2テキストサンプルでテキスト分類を行うことにより、その後のニュースアプリや閲読アプリなどを実行する。例えば、ニュースアプリの場合、テキストが英語ニュースであり、トレーニングされた第2テキスト分類モデル(英語ニュース分類用)を介して、娯楽ニュースやスポーツニュースなど、推薦される各ニュースのカテゴリを決定し、それにより、ニュースのカテゴリに基づいて各推薦対象のニュースを選別して、推薦するニュースを取得し、推薦するニュースをユーザに展示することにより、適合したニュース推薦を実現し、閲読アプリの場合、テキストが中国語の文章であり、トレーニングされた第2テキスト分類モデル(中国語の文章分類用)を介して、各推薦される文章のカテゴリ(例えば、激励文章、法律文章、教育文章など)を決定し、それにより、文章のカテゴリに基づいて各推薦される文章を選別して、推薦する文章を取得し、推薦する文章をユーザに展示することにより、適合した文章推薦を実現する。
図1を参照すると、図1は、本願実施例によって提供されるテキスト分類システム10の適用シーンの概略図であり、端末200は、ネットワーク300を介してサーバ100に接続され、ネットワーク300は、広域ネットワークであってもよいし、LANであってもよいし、両者の組み合わせであってもよい。
端末200(ニュースクライアントなどのクライアントが実行されている)は、特定言語の分類対象テキストを取得するために使用され得、例えば、開発者が端末を介して特定言語の分類対象テキストを入力すると、端末は、特定言語のテキスト分類要求を自動的に取得する。
いくつかの実施例では、端末で実行されるクライアントには、テキスト分類モデルのトレーニング方法をクライアントローカルで実装するために、テキスト分類モデルトレーニングプラグインを組み込むことができる。例えば、端末200は、第1言語とは異なる第2言語の分類対象テキストを取得した後、テキスト分類モデルトレーニングプラグインを呼び出して、テキスト分類モデルのトレーニング方法を実現し、機械翻訳モデルを介して、第1テキストサンプル(第1言語を採用)に対応する第2テキストサンプル(第2言語を採用)を取得し、第1テキスト分類モデルを介して、第2テキストサンプルを選別し、選別によって得られたテキストサンプルを使用して第2テキスト分類モデルをトレーニングし、トレーニングされた第2テキストサンプルに基づいてテキスト分類を行い、その後のニュースアプリや閲読アプリなどを実行する。
いくつかの実施例では、端末200は、特定言語のテキスト分類が要求された後、サーバ100のテキスト分類モデルトレーニングインターフェース(クラウドサービスとして提供できる形式、即ち、テキスト分類モデルトレーニングサービス)を呼び出し、サーバ100は、機械翻訳モデルを介して、第1テキストサンプル(第1言語を採用)に対応する第2テキストサンプル(第2言語を採用)を取得し、第1テキスト分類モデルを介して、第2テキストサンプルを選別し、選別によって得られたテキストサンプルを使用して第2テキスト分類モデルをトレーニングし、トレーニングされた第2テキストサンプルに基づいてテキスト分類を行い、その後のニュースアプリや閲読アプリなどを実行する。
下記において、本願実施例によって提供されるテキスト分類モデルのトレーニングのための電子機器の構造について説明する。図2を参照すると、図2は、本願実施例によって提供されるテキスト分類モデルのトレーニングのための電子機器500の概略構造図であり、電子機器500がサーバである場合を例にとると、図2に示すテキスト分類モデルのトレーニングのための電子機器500は、少なくとも1つのプロセッサ510、メモリ550、少なくとも1つのネットワークインターフェース520、及びユーザインターフェース530を備える。電子機器500における各構成要素は、バスシステム540を介して結合される。バスシステム540は、これらの構成要素間の接続通信を実現するために使用されることが理解できる。バスシステム540は、データバスに加えて、電力バス、制御バス及びステータス信号バスを含む。しかしながら、説明を明確にするために、図2では様々なバスをバスシステム540として表記されている。
プロセッサ510は、例えば、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、プログラマブルロジックデバイス、ディスクリートゲート又はトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなど、信号処理機能を備えた集積回路チップであってもよいし、ここで、汎用プロセッサは、マイクロプロセッサ又は任意の従来のプロセッサ等であってもよい。
メモリ550は、揮発性メモリ又は不揮発性メモリを含んでもよいし、又は揮発性メモリ及び不揮発性メモリの両方を含んでもよい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read Only Memory)であり得、揮発性メモリは、ランダムアクセスメモリ(RAM:Random Access Memory)であり得る。本願実施例で説明されるメモリ550は、任意の適切なタイプのメモリを含む。メモリ550は、プロセッサ510から物理的に離れた位置にある1つ又は複数の記憶装置を含む。
いくつかの実施例では、メモリ550は、様々な動作をサポートするためのデータを記憶することができ、これらのデータの例は、プログラム、モジュール及びデータ構造、又はそのサブセット又はスーパーセットを含み、以下に例示的に説明する。
オペレーティングシステム551は、例えば、フレームワークレイヤ、コアライブラリレイヤ、ドライブレイヤなど、様々な基本的なシステムサービスを処理し、ハードウェア関連のタスクを実行するためのシステムプログラムを含み、様々な基本業務を実現し、ハードウェアベースのタスクを処理するように構成される。
ネットワーク通信モジュール553は、1つ又は複数の(有線又は無線)ネットワークインターフェース520を介して他のコンピューティングデバイスに達するように構成され、例示的なネットワークインターフェース520は、Bluetooth、無線互換性認証(WiFi)、及びユニバーサルシリアルバス(USB:Universal Serial Bus)などを含む。
いくつかの実施例では、本願実施例によって提供されるテキスト分類モデルのトレーニング装置は、ソフトウェアで実装されてもよいし、例えば、上記の端末におけるテキスト分類モデルトレーニングプラグインであり得、又は、上記のサーバにおけるテキスト分類モデルトレーニングサービスであり得るが、もちろん、これらに限定されず、本願実施例によって提供されるテキスト分類モデルのトレーニング装置は、アプリ、ソフトウェア、ソフトウェアモジュール、スクリプト又はコードを含む様々な形態のソフトウェア実施形態として提供することができる。
図2は、メモリ550に記憶されたテキスト分類モデルのトレーニング装置555を示しており、テキスト分類モデルトレーニングプラグインなどのプログラムやプラグインの形のソフトウェアであり得、翻訳モジュール5551、第1トレーニングモジュール5552、選別モジュール5553、及び第2トレーニングモジュール5554を含む一連のモジュールを含み、ここで、翻訳モジュール5551、第1トレーニングモジュール5552、選別モジュール5553、第2トレーニングモジュール5554は、本願実施例によって提供されるテキスト分類モデルのトレーニング機能を実現するように構成される。
前述のように、本願実施例によって提供されるテキスト分類モデルのトレーニング方法は、様々なタイプの電子機器によって実施することができる。図3を参照すると、図3は、本願実施例によって提供される基于テキスト分類モデルのトレーニング方法のフローチャートであり、図3に示すステップを参照して説明する。
下記のステップでは、第2テキスト分類モデルのネットワーク深さは、第1テキスト分類モデルのネットワーク深さより大きく、即ち、第2テキスト分類モデルのテキスト分類能力は、第1テキスト分類モデルの分類能力より強いため、第2テキスト分類モデルのトレーニングに必要なテキストサンプルの数は、第1テキスト分類モデルのトレーニングに必要なテキストサンプルの数より多い。
下記のステップでは、第1テキストサンプルは、第1言語を採用し、第2テキストサンプル及び第3テキストサンプルは、第1言語とは異なる第2言語を採用し、例えば、第1テキストサンプルは、中国語サンプルであり、第2テキストサンプル及び第3テキストサンプルは、英語サンプルである。
ステップ101において、第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得する。
例えば、開発者が端末を介して第2言語のテキスト分類命令を入力すると、端末は、第2言語に対するテキスト分類要求を自動的に取得し、第2言語のテキスト分類要求をサーバに送信し、サーバは、第2言語のテキスト分類要求を受信した後、サンプルライブラリから、大量のラベル付きの第1テキストサンプルを取得するが、第1テキストサンプルが採用したのは第2言語とは異なる第1言語であり、機械翻訳モデルを呼び出して複数の第1テキストサンプルに対して機械翻訳を行うことにより、複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得し、ここで、第2テキストサンプルのカテゴリラベリングは、第1テキストサンプルに対応するカテゴリラベリングを継承し、即ち、手動でラベリングする必要がなく、手動ラベリングが多いことによるラベリング負荷を大幅に軽減することができる。
ステップ102において、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第2言語向けの第1テキスト分類モデルをトレーニングする。
ここで、ステップ101とステップ102には明確な優先順位がない。サーバは、第2言語のテキスト分類要求を受信した後、サンプルライブラリから少量のラベル付きの第3テキストサンプルを取得し、複数の第3テキストサンプル及び対応するカテゴリラベルを使用して、第1テキスト分類モデルをトレーニングすることにより、トレーニングされた第1テキスト分類モデルが、第2言語に基づいてテキスト分類を実行できるようにする。
いくつかの実施例では、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第2言語向けの第1テキスト分類モデルをトレーニングするステップは、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対してt回目のトレーニングを行うステップと、t回目のトレーニング後の前記第1テキスト分類モデルを介して、複数の第2テキストサンプルに対して、信頼度に基づくt回目の選別処理を行うステップと、直前t回の選別結果、複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対してt+1回目のトレーニングを行うステップと、T回目のトレーニング後の前記第1テキスト分類モデルを、トレーニングされた前記第1テキスト分類モデルとするステップと、を含み、ここで、tは、順次増加する正の整数であり、且つ値の範囲は、1≦t≦T-1を満たし、Tは、2より大きい整数であり、且つ反復トレーニングの総回数を表すために使用される。
例えば、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対して反復トレーニングを行うことにより、漸次最適化された第1テキスト分類モデルによって、より多くの良質な第3テキストサンプルを選別して、後続の強化トレーニングを行い、第2テキスト分類モデルをトレーニングする。
図6に示すように、第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対して最初のトレーニングを行い、最初のトレーニング後の第1テキスト分類モデルの複数の第2テキストサンプルに対して、信頼度に基づく最初の選別処理を行い、最初の選別結果、複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対して2回目のトレーニングを行い、2回目のトレーニング後の第1テキスト分類モデルにより、複数の第2テキストサンプルのうち最初の選別結果を除いた第2テキストサンプルに対して、信頼度に基づく2回目の選別処理を行い、直前2回の選別結果、複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、第1テキスト分類モデルに対して3回目のトレーニングを行い、第1テキスト分類モデルに対してT回目のトレーニングを行うまで、上記のトレーニング過程を反復し、T回目のトレーニング後の第1テキスト分類モデルを、トレーニングされた第1テキスト分類モデルとする。
図4を参照すると、図4は、本願実施例によって提供されるテキスト分類モデルのトレーニング方法の1つの例示的なフローチャートであり、図4には、図3におけるステップ102が、図4に示すステップ1021~ステップ1023によって実現できることを示しており、ステップ1021では、第1テキスト分類モデルを介して、第2言語の複数の第3テキストサンプルに対して予測処理を行い、複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得し、ステップ1022では、予測カテゴリの信頼度及び第3テキストサンプルのカテゴリラベルに基づいて、第1テキスト分類モデルの損失関数を構築し、ステップ1023では、損失関数が収束するまで第1テキスト分類モデルのパラメータを更新し、損失関数が収束したときの第1テキスト分類モデルの更新されたパラメータを、トレーニングされた第1テキスト分類モデルのパラメータとする。
例えば、予測カテゴリの信頼度及び第3テキストサンプルのカテゴリラベルに基づいて、第1テキスト分類モデルの損失関数の値を決定した後、第1テキスト分類モデルの損失関数の値が所定閾値を越えるか否かを判断することができ、第1テキスト分類モデルの損失関数の値が所定閾値を超える場合、第1テキスト分類モデルの損失関数に基づいて、第1テキスト分類モデルの誤差信号を決定し、第1テキスト分類モデル内で誤差情報を逆伝播し、伝播プロセス中に各層のモデルパラメータを更新する。
ここで、逆伝播について説明すると、トレーニングサンプルデータをニューラルネットワークモデルの入力層に入力し、隠れ層を経由して、最後に、出力層に到達して結果を出力し、これは、ニューラルネットワークモデルの順伝播過程であり、ニューラルネットワークモデルの出力結果と実際の結果との間には誤差があるため、出力結果と実際の値との誤差を計算し、当該誤差を、出力層から隠れ層へ、入力層に伝播するまで逆伝播し、逆伝播プロセスでは、誤差に基づいて、モデルパラメータの値を調整し、収束するまで上記の過程を継続的に反復する。ここで、第1テキスト分類モデルは、ニューラルネットワークモデルに属する。
いくつかの実施例では、第1テキスト分類モデルを介して、第2言語の複数の第3テキストサンプルに対して予測処理を行い、複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得するステップは、複数の第3テキストサンプルの任意の第3テキストサンプルに対して、第1テキスト分類モデルを介して、第3テキストサンプルに対して符号化処理を行い、第3テキストサンプルの符号化ベクトルを取得し、第3テキストサンプルの符号化ベクトルに対して融合処理を行い、融合ベクトルを取得し、融合ベクトルに対して非線形マッピング処理を行い、第3テキストサンプルに対応する予測カテゴリの信頼度を取得する処理を実行することを含む。
例えば、第1テキスト分類モデルは、高速テキスト分類モデル(fasttext)であり、本願実施例における第1テキスト分類モデルは、fasttextに限定されず、fasttextは、入力層、隠れ層、及び出力層を含み、少量の第3テキストサンプルでfasttextを迅速にトレーニングできるため、fasttextは、第2言語のテキスト分類タスクを迅速に実行できる。例えば、入力層を介して第3テキストサンプルを符号化して、第3テキストサンプルの符号化ベクトルを取得し、次に、隠れ層を介して第3テキストサンプルの符号化ベクトルを融合して、融合ベクトルを取得し、最後に、出力層を介して融合ベクトルに対して非線形マッピングを行い(即ち、活性化関数(softmaxなど)によってマッピング処理を行う)、第3テキストサンプルに対応する予測カテゴリの信頼度を取得する。
いくつかの実施例では、第1テキスト分類モデルは、複数のカスケードされた活性化層を含み、融合ベクトルに対して非線形マッピング処理を行い、第3テキストサンプルに対応する予測カテゴリの信頼度を取得するステップは、複数のカスケードされた活性化層のうちの最初の活性化層を介して、融合ベクトルに対して最初の活性化層のマッピング処理を行うステップと、最初の活性化層のマッピング結果を後続のカスケードされた活性化層に出力し、後続のカスケードされた前記活性化層を介して、マッピング処理とマッピング結果の出力を継続し、マッピング結果が最後の活性化層に出力されるまで続行するステップと、最後の活性化層によって出力された活性化結果を、第3テキストサンプルに対応するカテゴリの信頼度とするステップと、を含む。
図7に示すように、階層softmaxによって活性化演算を行うことにより、1回限りの活性化演算で予測カテゴリの信頼度を取得することを回避でき、多層の活性化演算によって、計算複雑度を低減することができる。例えば、階層softmaxは、T層の活性層を含み、各層の活性化層毎に1回の階層softmax演算を行い、最初の活性化層を介して融合ベクトルに対して最初の活性化層のマッピングを行い、最初のマッピング結果を取得し、最初のマッピング結果を2番目の活性化層に出力し、2番目の活性化層を介して最初のマッピング結果に対して2番目の活性化層のマッピングを行い、2番目のマッピング結果を取得し、T番目の活性化層に出力するまで続行し、T番目の活性化層によって出力された活性化結果を、第3テキストサンプルに対応するカテゴリの信頼度とする。ここで、Tは、活性化層の総数である。
いくつかの実施例では、第3テキストサンプルに対して符号化処理を行い、第3テキストサンプルの符号化ベクトルを取得するステップは、第3テキストサンプルに対してウィンドウスライディング処理を行い、複数のセグメントシーケンスを取得するステップであって、ここで、ウィンドウのサイズは、Nであり、Nは、自然数である、ステップと、シソーラスに基づいて複数のセグメントシーケンスに対してマッピング処理を行い、複数のセグメントシーケンスのそれぞれに対応するシーケンスベクトルを取得するステップと、複数のセグメントシーケンスのそれぞれに対応するシーケンスベクトルに対して結合処理を行い、第3テキストサンプルの符号化ベクトルを取得するステップと、を含む。
上記の例に引き続いて、セグメントシーケンスがN個の文字を含む場合、第3テキストサンプルに対してウィンドウスライディング処理を行い、複数のセグメントシーケンスを取得するステップは、第3テキストサンプル内のi番目の文字に対して、次の処理を実行することを含む:第3テキストサンプル内のi番目の文字からi+N-1番目の文字までを取得し、i番目の文字からi+N-1番目の文字までを結合して、結合結果をセグメントシーケンスとし、ここで、0<i≦M-N+1であり、Mは、第3テキストサンプルの文字の数であり、Mは自然数である。それにより、まれな文字のためにより良い符号化ベクトルを生成し、シソーラスにおいて、文字がトレーニングコーパスに出現しなくても、文字の粒度のウィンドウから、文字の粒度に対応する符号化ベクトルを構築することができ、また、第1テキスト分類モデルに局所文字順の部分情報を学習させることもでき、これにより、第1テキスト分類モデルは、トレーニング中に文字順情報を維持することができる。
上記の例に引き続いて、セグメントシーケンスがN個の単語を含む場合、第3テキストサンプルに対してウィンドウスライディング処理を行い、複数のセグメントシーケンスを取得するステップは、第3テキストサンプル内のj番目の単語に対して、次の処理を実行することを含む:第3テキストサンプル内のj番目の単語からj+N-1番目の単語を取得し、j番目の単語からj+N-1番目の単語を結合して、結合結果をセグメントシーケンスとし、ここで、0<j≦K-N+1であり、Kは、第3テキストサンプル内の単語の数であり、Kは、自然数である。それにより、まれな単語(語句)のためにより良い符号化ベクトルを生成し、シソーラスにおいて、語句がトレーニングコーパスに出現しなくても、単語の粒度のウィンドウから、単語の粒度に対応する符号化ベクトルを構築することができ、また、第1テキスト分類モデルに局所語順の部分情報を学習させることもでき、これにより、第1テキスト分類モデルは、トレーニング中に語順情報を維持することができる。
ステップ103において、トレーニングされた第1テキスト分類モデルを介して、複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行う。
例えば、サーバが第3テキストサンプルで、トレーニングされた第1テキスト分類モデルを取得した後、トレーニングされた第1テキスト分類モデルを介して、複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うことにより、高品質の第2テキストサンプルを選別して、高品質の第2テキストサンプルで、第2テキスト分類モデルをトレーニングすることができる。
いくつかの実施例では、トレーニングされた第1テキスト分類モデルを介して、複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップは、複数の第2テキストサンプルの任意の第2テキストサンプルに対して、次の処理を実行することを含む:トレーニングされた第1テキスト分類モデルを介して、第2テキストサンプルに対して予測処理を行い、第2テキストサンプルに対応する複数の予測カテゴリの信頼度を取得し、第2テキストサンプルに対応する第1テキストサンプルのカテゴリラベルを、第2テキストサンプルのカテゴリラベルとして決定し、第2テキストサンプルに対応する複数の予測カテゴリの信頼度及び第2テキストサンプルのカテゴリラベルに基づいて、信頼度閾値を超える第2テキストサンプルを、選別処理によって得られた第2テキストサンプルとする。
例えば、トレーニングされた第1テキスト分類モデルを介して、第2テキストサンプルに対して符号化処理を行い、第2テキストサンプルの符号化ベクトルを取得し、第2テキストサンプルの符号化ベクトルに対して融合処理を行い、融合ベクトルを取得し、融合ベクトルに対して非線形マッピング処理を行い、第2テキストサンプルに対応する複数の予測カテゴリの信頼度を取得し、第2テキストサンプルに対応する複数の予測カテゴリから、第2テキストサンプルのカテゴリラベルとマッチングする予測カテゴリを決定し、マッチングした予測カテゴリの信頼度が信頼度閾値を超える場合、第2テキストサンプルを、選別処理によって得られた第2テキストサンプルとする。
ステップ104において、選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングする。
例えば、サーバが、トレーニングされた第1テキスト分類モデルを介して、大量の高品質の第2テキストサンプルを選別した後、クロスリンガルのテキストサンプルの自動構築を実現し(即ち、第2言語の第2テキストサンプルであって、対応する第1テキストサンプルのカテゴリラベルを有し、即ち、手動ラベリングは必要ない)、大量の高品質の第2テキストサンプルで第2テキスト分類モデルをトレーニングすることにより、トレーニングされた第2テキスト分類モデルは、第2言語に基づくテキスト分類を正確に行うことができ、第2言語のテキスト分類の精度を向上させることができる。
本願実施例のトレーニング方法により、第2テキスト分類モデルをトレーニングするための十分な第2テキストサンプルを取得することができ、そのため、本願実施例は、選別処理によって得られた第2テキストサンプルのみで、第2テキスト分類モデルをトレーニングすればよい。
ここで、サーバがトレーニングされた第2テキスト分類モデルを取得した後、第2言語に対するテキスト分類要求に応答して、分類対象テキストに対してテキスト分類を行い、即ち、トレーニングされた第2テキスト分類モデルを介して当該分類対象テキストに対して符号化処理を行い、分類対象テキストの符号化ベクトルを取得し、分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、分類対象テキストに対応するカテゴリを取得し、また、分類対象テキストに対応するカテゴリを用いて後続のニュースアプリ、閲読アプリなどを行うことができる。
図5を参照すると、図5は、本願実施例によって提供されるテキスト分類モデルのトレーニング方法の1つの例示的なフローチャートであり、図5には、図3におけるステップ104が、図5に示すステップ1041~ステップ1043によって実現できることを示しており、ステップ1041において、選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布を決定し、ステップ1042において、選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たし、且つ各カテゴリの数が対応するカテゴリ数閾値を超える場合、選別処理によって得られた第2テキストサンプル内の各カテゴリのテキストサンプルから、カテゴリ数閾値に対応するテキストサンプルをランダムに抽出してトレーニングセットを構築し、ステップ1043において、トレーニングセットに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングする。
例えば、サーバが第2テキスト分類モデルをトレーニングするための大量の第2テキストサンプルを取得した後、選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布を分析して、分布均衡条件、即ち、異なるカテゴリの数のジッタを満たすか否かを確認し、例えば、標準偏差を使用して、異なるカテゴリの数のジッタを測定する場合、ジッタが大きいほど、テキストサンプルの複数のカテゴリにおける分布が不均一になることを説明する。選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たし、且つ各カテゴリの数がカテゴリ数閾値を超える場合、選別処理によって得られた第2テキストサンプル内の各カテゴリのテキストサンプルから、カテゴリ数閾値に対応するテキストサンプルを抽出して、トレーニングセットを構築し、それにより、テキスト分類の精度を向上させる。
いくつかの実施例では、選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングするステップは、選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たさない場合、分布の少ないカテゴリの第2テキストサンプルに対して、類義語に基づく拡張処理を行い、拡張処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たすようにするステップと、拡張処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップと、トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含む。
各カテゴリにおける、選別処理によって得られた第2テキストサンプルの数が対応するカテゴリ数閾値より小さい場合、対応するカテゴリの第2テキストサンプルに対して、類義語に基づく拡張処理を行い、各カテゴリにおける、拡張処理によって得られた第2テキストサンプルの数が、対応するカテゴリ数閾値を超えるようにし、拡張処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築する。
ここで、具体的な拡張過程は、以下に示す通りである。複数の第3テキストサンプル及び選別処理によって得られた第2テキストサンプルのうちのいずれかのテキストサンプルに対して、次の処理を実行する:類義語辞書(様々な類義語間の対応関係を含む)とテキストサンプル内の単語とに対してマッチング処理を行い、テキストサンプル内の単語に対応するマッチング単語を取得し、マッチング単語に基づいて、テキストサンプル内の単語に対して置換処理を行い、新しいテキストサンプルを取得し、テキストサンプル対応するカテゴリラベルを新しいテキストサンプルのカテゴリラベルとする。類義語置換の方式により、第2言語のテキストサンプルを大幅に拡張して、第2テキスト分類モデルのトレーニングを実現することができる。
いくつかの実施例では、選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングするステップは、複数の第3テキストサンプル及び選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築し、トレーニングセットに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングするステップを含む。
例えば、複数の第3テキストサンプル及び選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップは、選別処理によって得られた第2テキストサンプルの各カテゴリをトラバースし、次の処理を実行することを含む:カテゴリ内の第2テキストサンプルの数が、カテゴリのカテゴリ数閾値より低い場合、複数の第3テキストサンプルからランダムに抽出したカテゴリの第3テキストサンプルをカテゴリの第2テキストサンプルに補充することにより、選別処理によって得られた第2テキストサンプルを更新し、更新された、選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築する処理を実行する。
上記の例に引き続いて、特定のカテゴリのテキストサンプルが比較的少ない場合、又は特定のカテゴリの分布が不均衡な場合、第3テキストサンプルで補充することができる。例えば、カテゴリ内の第2テキストサンプルの数が、カテゴリのカテゴリ数閾値より小さい場合、当該カテゴリのテキストサンプルが比較的少ないことを示し、複数の第3テキストサンプルから、当該カテゴリの第3テキストサンプルをランダムに抽出して当該カテゴリの第2テキストサンプルに補充することにより、選別処理によって得られた第2テキストサンプルを更新することで、第2テキストサンプル内の当該カテゴリのテキストサンプルがより十分になるようにすることができる。
いくつかの実施例では、大量のサンプルで第2分類モデルをトレーニングすることによる過剰適合の問題を回避するために、第2テキスト分類モデルの演算能力に基づいて、演算能力とマッチングする対応するテキストサンプルの数によって適切なトレーニングを行うことができる。選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングする前に、テキスト分類モデルの演算能力(コンピューティング機能)と単位時間あたりに演算可能なテキストサンプルの数との対応関係に基づいて、第2テキスト分類モデルのトレーニングに使用できる演算能力とマッチングする目標サンプルの数を決定し、選別処理によって得られた第2テキストサンプルに基づいて構築されたトレーニングセットから、目標サンプルの数に対応するテキストサンプルを選別して、第2言語向けの第2テキスト分類モデルをトレーニングするためのサンプルとして使用する。
いくつかの実施例では、選別処理によって得られた第2テキストサンプルに基づいて、第2言語向けの第2テキスト分類モデルをトレーニングするステップは、第2テキスト分類モデルを介して、選別処理によって得られた第2テキストサンプルに対して予測処理を行い、選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップと、選別処理によって得られた第2テキストサンプルに対応する予測カテゴリ及び対応するカテゴリラベルに基づいて、第2テキスト分類モデルの損失関数を構築するステップと、損失関数が収束するまで第2テキスト分類モデルのパラメータを更新し、損失関数が収束したときの第2テキスト分類モデルの更新されたパラメータを、トレーニングされた第2テキスト分類モデルのパラメータとするステップと、を含む。
例えば、選別処理によって得られた第2テキストサンプルに対応する予測カテゴリ及び対応するカテゴリラベルに基づいて、第2テキスト分類モデルの損失関数の値を決定した後、第2テキスト分類モデルの損失関数の値が所定閾値を超えるか否かを判断し、第2テキスト分類モデルの損失関数の値が所定閾値を超える場合、第2テキスト分類モデルの損失関数に基づいて、第2テキスト分類モデルの誤差信号を決定し、第2テキスト分類モデル内で誤差情報を逆伝播し、伝播プロセス中に各層のモデルパラメータを更新することができる。
いくつかの実施例では、第2テキスト分類モデルは、カスケードされた複数のエンコーダを含み、第2テキスト分類モデルを介して、選別処理によって得られた第2テキストサンプルに対して予測処理を行い、選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップは、選別処理によって得られた第2テキストサンプルの任意のテキストサンプルに対して、次の処理を実行することを含む:カスケードされた複数のエンコーダの最初のエンコーダを介して、テキストサンプルに対して最初のエンコーダの符号化処理を行い、最初のエンコーダの符号化結果を後続のカスケードされたエンコーダに出力し、後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続し、符号化結果が最後のエンコーダに出力されるまで続行し、最後のエンコーダによって出力された符号化結果を、テキストサンプルに対応する符号化ベクトルとし、テキストサンプルの符号化ベクトルに対して非線形マッピングを行い、テキストサンプルに対応する予測カテゴリを取得する。
図8に示すように、カスケードされたエンコーダによって符号化演算を行うことにより、テキストサンプルの豊富な特徴情報を抽出することができる。例えば、最初のエンコーダによって、テキストサンプルに対して最初のエンコーダの符号化処理を行い、最初の符号化結果を取得し、最初の符号化結果を2番目のエンコーダに出力し、2番目のエンコーダによって、最初の符号化結果に対して2番目のエンコーダの符号化を行い、2番目の符号化結果を取得し、符号化結果がS番目のエンコーダに出力されるまで続行し、最後に、テキストサンプルの符号化ベクトルに対して非線形マッピングを行い、テキストサンプルに対応する予測カテゴリを取得することができる。ここで、Sは、エンコーダの総数である。
上記の例に引き続いて、後続のカスケードされたエンコーダで符号化処理と符号化結果の出力を継続するステップは、カスケードされた複数のエンコーダのうちのy番目のエンコーダを介して次の処理を実行することを含む:y-1番目のエンコーダの符号化結果に対して自己注意力処理を行い、y番目の自己注意力ベクトルを取得し、y番目の自己注意力ベクトル及びy-1番目のエンコーダの符号化結果に対して残差接続処理を行い、y番目の残差ベクトルを取得し、y番目の残差ベクトルに対して非線形マッピング処理を行い、y番目のマッピングベクトルを取得し、y番目のマッピングベクトル及びy番目の残差ベクトルに対して残差接続処理を行い、残差接続の結果をy番目のエンコーダの符号化結果とし、y番目のエンコーダの符号化結果をy+1番目のエンコーダに出力し、ここで、yは、順次増加する正の整数であり、且つ値の範囲は、2≦y≦H-1を満たし、Hは、2より大きい整数であり、且つ前記カスケードされた複数のエンコーダの数を表すために使用される。
なお、トレーニングされた第2テキスト分類モデルを取得した後、トレーニングされた第2テキスト分類モデルを介して、第2言語のテキスト分類を行う方法は、分類対象テキストを取得するステップであって、分類対象テキストは、第1言語とは異なる第2言語を採用する、ステップと、ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、分類対象テキストに対して符号化処理を行い、分類対象テキストの符号化ベクトルを取得するステップと、分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、分類対象テキストに対応するカテゴリを取得するステップと、を含み、第2テキスト分類モデルは、第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、第2言語のテキストサンプルは、第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
上記の例に引き続いて、第2テキスト分類モデルは、カスケードされた複数のエンコーダを含む。分類対象テキストに対して、次の処理を実行する:カスケードされた複数のエンコーダの最初のエンコーダを介して、分類対象テキストに対して最初のエンコーダの符号化処理を行い、最初のエンコーダの符号化結果を後続のカスケードされたエンコーダに出力し、後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続し、符号化結果が最後のエンコーダに出力されるまで続行し、最後のエンコーダが出力した符号化結果を、対応する分類対象テキストの符号化ベクトルとし、分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、分類対象テキストに対応するカテゴリを取得する。
例えば、カスケードされたエンコーダによって符号化演算を行うことにより、分類対象テキストの豊富な特徴情報を抽出することができる。例えば、最初のエンコーダによって、分類対象テキストに対して最初のエンコーダの符号化処理を行い、最初の符号化結果を取得し、最初の符号化結果を2番目のエンコーダに出力し、2番目のエンコーダによって、最初の符号化結果に対して2番目のエンコーダの符号化処理を行い、2番目の符号化結果を取得し、符号化結果がS番目のエンコーダに出力されるまで続行し、最後に、分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、分類対象テキストに対応するカテゴリを取得することができる。ここで、Sは、エンコーダの総数である。
上記の例に引き続いて、後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続するステップは、カスケードされた複数のエンコーダのうちのy番目のエンコーダを介して、次の処理を実行することを含む:y-1番目のエンコーダの符号化結果に対して自己注意力処理を行い、y番目の自己注意力ベクトルを取得し、y番目の自己注意力ベクトル及びy-1番目のエンコーダの符号化結果に対して残差接続処理を行い、y番目の残差ベクトルを取得し、y番目の残差ベクトルに対して非線形マッピング処理を行い、y番目のマッピングベクトルを取得し、y番目のマッピングベクトル及びy番目の残差ベクトルに対して残差接続処理を行い、残差接続の結果をy番目のエンコーダの符号化結果とし、y番目のエンコーダの符号化結果をy+1番目のエンコーダに出力し、ここで、yは、順次増加する正の整数であり、且つ値の範囲は、2≦y≦H-1を満たし、Hは、2より大きい整数であり、且つ前記カスケードされた複数のエンコーダの数を表すために使用される。
次に、1つの実際の適用シーンにおける本願実施例の応用例について説明する。
テキスト分類は、ニュース分類、文章分類、意図分類、インフォマーシャル製品、フォーラム、コミュニティ、eコマースなど、コンテンツ関連製品に広く利用されており、それにより、テキスト分類のカテゴリに基づいて、テキストの推薦、感情誘導などが行う。一般に、テキスト分類は、中国語や英語などの特定の言語を対象としており、製品の他の言語サービスを拡張する必要があり(例えば、ニュース閲読製品を中国語市場から英語市場に売り込むなど)、ユーザがニュースを読む場合、英語ニュースのラベルに基づいて推薦を行い、それにより、ユーザの興味に合った英語ニュースを推薦することができ、中国語ユーザのコメントを肯定的感情と否定的感情を分析する場合、製品を海外市場に売り込むとき、ユーザがコメントするときに、英語コメントのラベルに基づいて、ユーザの感情を適切に誘導することができ、ユーザが継続的に否定的な感情を生成することを回避することができる。
下記において、上記の適用シーンを参照して、既存の機械翻訳モデルによるA言語のサンプルでB言語のサンプル量を増加させるための、本願実施例によっ提案されるテキスト分類モデルのトレーニング方法、テキスト分類方法について具体的に説明する。しかしながら、アルゴリズムによって翻訳されたテキストには多少の偏差やエラーがあるため、能動学習方法を採用して、翻訳されたテキストから高品質のサンプルを選び出し、後続のトレーニングを行う。
以下では、本願実施例によっ提案されるテキスト分類モデルのトレーニング方法、テキスト分類方法について具体的に説明する。当該方法は、A)データ準備、B)アルゴリズムフレームワーク、及びC)予測の2つの部分を含む。
A)データの準備
本願実施例は、大量のサンプルがない(ラベルがない)状況を対象としているため、大規模な事前トレーニングモデルをトレーニングして、テキストコンテンツを抽出することができない。図9に示すように、本願実施例では、部分テキストセットA(Text A:言語Aのテキストセット)(第1テキストサンプルを含む)と、少量のテキストセットB(Text B:言語Bのテキストセット)(第3テキストサンプルを含む)とが存在し、ここで、Text AとText Bは、カテゴリラベル付きのサンプルであり、Text Bは、Text Aに比べてラベルの数が少ないため、その割合が非常に小さい。
ここで、Text Aのラベリングサンプルを<X_A,Y>、Text Bを<X_B,Y>と表記し、ここで、X_Aは、Text A内のテキストを表し、X_Bは、Text B内のテキストを表し、Text AとText Bのラベルは共通であり、いずれもYで表し、例えば、カテゴリ0(Y=0)は、娯楽タイプのニュースを表し、カテゴリ1(Y=1)は、スポーツタイプのニュースを表し、ここで、0と1は共通で、言語とは関係ない。
B)アルゴリズムフレームワーク
ここで、本願実施例におけるアルゴリズムフレームワークは、1)サンプル強化、2)能動学習、及び3)強化トレーニングを含む。以下では、サンプル強化、能動学習、及び強化トレーニングについて具体的に説明する。
1)サンプル強化
まず、図10に示すように、機械翻訳モデル(言語Aを言語Bに翻訳するために使用)によって、Text A内の言語Aの各テキストX_Aを、言語Bのテキストに変換して、対応するテキストセットB1(Text B1:翻訳によって形成された言語Bのテキストセット)を形成する。
このようなサンプル強化の方法により、2種類のラベリングテキストを取得し、その1つは、少量の手動ラベリングされた、オリジナルのサンプルセットであり、その手動ラベリングは非常に正確であり、もう1つは、機械翻訳モデルによって変換された後に得られた、大量のラベリング(そのラベリングはText A内のラベリングに対応する)サンプルText B1(第2テキストサンプルを含む)であり、Text B1には、ノイズ、エラーなどが含まれている可能性があり、Text Bの内容ほど正確ではない。
2)能動学習
Text B1内の高品質のサンプルを選別するために、能動学習の方法を採用し、そのプロセス全体を図11に示す。
ステップ1において、まず、手動でラベリングしたText Bを使用して、弱分類器(第1テキスト分類モデル)(例えば、fasttextのような浅層分類器)をトレーニングし、次に、弱分類器をText B1に適用して予測を行い、Text B1から信頼度の高いサンプルを選別し、例えば、信頼度閾値が0.8であると仮定すると、Text B1内のあるサンプルX_B1の予測されたラベルY=2の信頼度が0.87(0.8より大きい)である場合、サンプルX_B1のカテゴリは2であると見なされ、それにより、ラベル付きのトレーニングサンプル<X_B1,Y=2>を取得する。
ステップ2において、これらの信頼度の高い、ラベル付きのサンプルで、新しいトレーニングサンプルセット(テキストセットB1',Text B1')を構成し、Text B1'とText Bに基づいて、弱分類器のトレーニングを続行し、トレーニングが完了したら、ステップ1を繰り返し、弱分類器を、Text B1の選別後の残りのサンプル(残りサンプルは、Text B1から信頼度の高いサンプルを選び出した後の残りのテキストを指す)に適用する。
ステップ3において、Text B1内のサンプルを予測することによって得られた信頼度が、指定された信頼度閾値を超えなくなると、選別後に残ったText B1のサンプルは、品質の低いサンプルであると見なされ、このとき反復トレーニングを停止する。
3)強化トレーニング
図12に示すように、上記のステップで取得したText B'とText Bを混合し、次に、強分類器(第2テキスト分類モデル)(深層ニューラルネットワーク(BERT:Bidirectional Encoder Representations from Transformers)など)をトレーニングする。
C)予測
トレーニングによって得られた強分類器を、最終的なテキスト分類モデルとして、言語Bのテキスト分類に使用する。例えば、ニュース閲読製品を中国語市場から英語(B言語)市場に売り込む場合、トレーニングによって得られた強分類器によって、英語ニュースに対して対応するラベルを迅速に付けることができ、ユーザがニュースを読むとき、英語ニュースのラベルに基づいてニュース推薦を行い、それにより、ユーザの興味に合った英語ニュースを推薦することができ、中国語ユーザのコメントの肯定的感情と否定的感情を分析する場合、製品を海外市場(言語B)に売り込むとき、中国語ではないコメント、即ち、英語コメントが多くなるため、トレーニングによって得られた強分類器によって、英語ニュースに対して対応する感情ラベルを迅速に付けることができ、ユーザがコメントをするとき、英語コメントのラベルに基づいて、ユーザの感情を適切に誘導することができ、ユーザが継続的に否定的な感情を生成することを回避することができる。
まとめると、本願実施例のテキスト分類モデルのトレーニング方法、テキスト分類方法は、機械翻訳モデルを介して、言語Aとは異なる言語Bを採用して第2テキストサンプルを取得し、弱分類器を介して第2テキストサンプルを選別し、それにより、クロスリンガルのテキストサンプルの自動取得を実現し、テキストサンプル不足の問題を軽減し、また、選別によって得られた高品質のテキストサンプルを使用して強分類器をトレーニングすることにより、強分類器が正確なテキスト分類を実行できるようにし、テキスト分類精度を向上させることができる。
以上、本願実施例によって提供されるサーバの例示的な適用及び実施に関連して、本願実施例によって提供されるテキスト分類モデルのトレーニング方法を説明してきた。本願実施例は、テキスト分類モデルのトレーニング装置をさらに提供し、実際の適用では、テキスト分類モデルのトレーニング装置における各機能モジュールは、プロセッサなどの計算リソース、通信リソース(例えば、光ケーブル、セルラーなどの様々なタイプの通信の実現をサポートするために使用される)、メモリなど、電子機器(端末機器、サーバ又はサーバクラスタなど)のハードウェアリソースによって協調して実装され得る。図2は、メモリ550に記憶されたテキスト分類モデルのトレーニング装置555を示しており、テキスト分類モデルのトレーニング装置555は、プログラムやプラグインなどの形態のソフトウェア、例えば、ソフトウェアC/C++、Javaなどのプログラミング言語で設計されたアプリケーション、又は大規模ソフトウェアシステムにおける専用ソフトウェアモジュール、アプリケーションインターフェース、プラグイン、クラウドサービスなどの実現方式であり得、以下では、異なる実現方式の例を説明する。
例1:テキスト分類モデルのトレーニング装置は、モバイル側アプリ及びモジュールである場合
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ソフトウェアC/C++、Javaなどのプログラミング言語で設計され、Android又はiOSなどのシステムに基づく様々なモバイルアプリに組み込まれたソフトウェアモジュールとして提供することができ(実行可能命令の形式でモバイル側の記憶媒体に記憶され、モバイル側のプロセッサによって実行される)、モバイル側自体の計算リソースを直接使用して、関連する情報推薦タスクを完了し、各種ネットワーク通信方式により処理結果を定期的又は不定期的にリモートサーバに送信したり、モバイル側のローカルに保存したりすることができる。
例2:テキスト分類モデルのトレーニング装置がサーバアプリ及びプラットフォームである場合
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ソフトウェアC/C++、Javaなどのプログラミング言語で設計され、サーバ側で実行されるソフトウェアモジュールとして提供することができ(実行可能命令の形式でサーバ側の記憶媒体に記憶され、サーバ側のプロセッサによって実行される)、サーバは、それ自体の計算リソースを使用して、関連する情報推薦タスクを完了することができる。
本願実施例はまた、複数台のサーバからなる分散並列コンピューティングプラットフォームに搭載された、カスタマイズされた、インタラクションしやすいネットワーク(Web)インターフェース又は他の各ユーザインターフェース(UI:User Interface)として提供することができ、個人、グループ、又は組織向けの情報推薦プラットフォーム(推薦リスト用)などを形成する。
例3:テキスト分類モデルのトレーニング装置が、サーバ側アプリケーションインターフェース(API:Application Program Interface)及びプラグインである場合
本願実施例におけるテキスト分類モデルのトレーニング装置555は、サーバ側のAPI又はプラグインとして提供することができ、様々なアプリケーションに組み込まれることができ、ユーザは、当該サーバ側のAPI又はプラグインを呼び出して、本願実施例によるテキスト分類モデルのトレーニング方法を実行することができる。
例4:テキスト分類モデルのトレーニング装置が、モバイル機器のクライアントAPI及びプラグインである場合
本願実施例におけるテキスト分類モデルのトレーニング装置555は、モバイル機器側のAPI及びプラグインとして提供することができ、ユーザは、当該モバイル機器側のAPI及びプラグインを呼び出して、本願実施例によるテキスト分類モデルのトレーニング方法を実行することができる。
例5、テキスト分類モデルのトレーニング装置が、クラウド・オープン・サービスである場合
本願実施例におけるテキスト分類モデルのトレーニング装置555は、ユーザのために開発された情報推薦クラウドサービスとして提供することができ、個人、グループ、又は組織が推薦リストを取得するために使用される。
ここで、テキスト分類モデルのトレーニング装置555は、翻訳モジュール5551、第1トレーニングモジュール5552、選別モジュール5553、第2トレーニングモジュール5554を含む一連のモジュールを備える。続いて、本願実施例によって提供されるテキスト分類モデルのトレーニング装置555における各モジュールの協働によりテキスト分類モデルのトレーニングを実現するための方案について説明する。
翻訳モジュール5551は、機械翻訳モデルを介して、第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するように構成され、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用し、第1トレーニングモジュール5552は、前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするように構成され、選別モジュール5553は、トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うように構成され、第2トレーニングモジュール5554は、前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成され、前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい。
いくつかの実施例では、前記第1トレーニングモジュール5552はさらに、前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt回目のトレーニングを行い、t回目のトレーニング後の前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づくt回目の選別処理行い、直前t回の選別結果と、前記複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt+1回目のトレーニングを行い、T回目のトレーニング後の前記第1テキスト分類モデルを、前記トレーニング後の前記第1テキスト分類モデルとするように構成され、ここで、tは、順次増加する正の整数であり、且つ値の範囲は、1≦t≦T-1を満たし、Tは、2より大きい整数であり、且つ反復トレーニングの総回数を表すために使用される。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布を決定し、前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たし、且つ各カテゴリの数が対応するカテゴリ数閾値を超える場合、前記選別処理によって得られた第2テキストサンプル内の各カテゴリのテキストサンプルからランダムに抽出した、前記カテゴリ数閾値に対応するテキストサンプルに基づいてトレーニングセットを構築し、前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たさない場合、分布の少ないカテゴリの第2テキストサンプルに対して、類義語に基づく拡張処理を行い、前記拡張処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布は、前記分布均衡条件を満たし、前記拡張処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築し、前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記複数の第3テキストサンプル及び前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築し、前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記選別処理によって得られた第2テキストサンプルの各カテゴリをトラバースし、以下の処理を実行するように構成される:前記カテゴリ内の第2テキストサンプルの数が、前記カテゴリのカテゴリ数閾値より低い場合、前記複数の第3テキストサンプルからランダムに抽出した前記カテゴリの第3テキストサンプルを前記カテゴリの第2テキストサンプルに補充することにより、前記選別処理によって得られた第2テキストサンプルを更新し、更新された、前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築する。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、テキスト分類モデルの演算能力と単位時間あたりに演算可能なテキストサンプルの数との対応関係に基づいて、前記第2テキスト分類モデルのトレーニングに使用できる演算能力とマッチングする目標サンプルの数を決定し、前記選別処理によって得られた第2テキストサンプルに基づいて構築されたトレーニングセットから、前記目標サンプルの数に対応するテキストサンプルを選別して、前記第2言語向けの第2テキスト分類モデルをトレーニングするためのサンプルとして使用するように構成される。
いくつかの実施例では、前記第1トレーニングモジュール5552はさらに、前記第1テキスト分類モデルを介して、前記第2言語の複数の第3テキストサンプルに対して予測処理を行い、前記複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得し、前記予測カテゴリの信頼度及び前記第3テキストサンプルのカテゴリラベルに基づいて、前記第1テキスト分類モデルの損失関数を構築し、前記損失関数が収束するまで前記第1テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第1テキスト分類モデルの更新されたパラメータを、前記トレーニングされた前記第1テキスト分類モデルのパラメータとするように構成される。
いくつかの実施例では、前記第1トレーニングモジュール5552はさらに、前記複数の第3テキストサンプルの任意の第3テキストサンプルに対して、次の処理を実行するように構成される:前記第1テキスト分類モデルを介して、前記第3テキストサンプルに対して符号化処理を行い、前記第3テキストサンプルの符号化ベクトルを取得し、前記第3テキストサンプルの符号化ベクトルに対して融合処理を行い、融合ベクトルを取得し、前記融合ベクトルに対して非線形マッピング処理を行い、前記第3テキストサンプルに対応する予測カテゴリの信頼度を取得する。
いくつかの実施例では、前記第1テキスト分類モデルは、複数のカスケードされた活性化層を含み、第1トレーニングモジュール5552はさらに、前記複数のカスケードされた活性化層のうちの最初の活性化層を介して、前記融合ベクトルに対して前記最初の活性化層のマッピング処理を行い、前記最初の活性化層のマッピング結果を後続のカスケードされた活性化層に出力し、前記後続のカスケードされた前記活性化層を介して、マッピング処理とマッピング結果の出力を継続し、マッピング結果が最後の活性化層に出力されるまで続行し、前記最後の活性化層によって出力された活性化結果を、前記第3テキストサンプルに対応するカテゴリの信頼度とするように構成される。
いくつかの実施例では、前記選別モジュール5553はさらに、前記複数の第2テキストサンプルの任意の第2テキストサンプルに対して、次の処理を実行するように構成される:前記トレーニングされた前記第1テキスト分類モデルを介して、前記第2テキストサンプルに対して予測処理を行い、前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度を取得し、前記第2テキストサンプルに対応する第1テキストサンプルのカテゴリラベルを、前記第2テキストサンプルのカテゴリラベルとして決定し、前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度及び前記第2テキストサンプルのカテゴリラベルに基づいて、信頼度閾値を超える第2テキストサンプルを、前記選別処理によって得られた第2テキストサンプルとする。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記第2テキスト分類モデルを介して、前記選別処理によって得られた第2テキストサンプルに対して予測処理を行い、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得し、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリ及び対応するカテゴリラベルに基づいて、前記第2テキスト分類モデルの損失関数を構築し、前記損失関数が収束するまで前記第2テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第2テキスト分類モデルの更新されたパラメータを、トレーニングされた前記第2テキスト分類モデルのパラメータとするように構成される。
いくつかの実施例では、前記第2テキスト分類モデルは、カスケードされた複数のエンコーダを含み、第2トレーニングモジュール5554はさらに、前記選別処理によって得られた第2テキストサンプルの任意のテキストサンプルに対して、次の処理を実行するように構成される:前記カスケードされた複数のエンコーダのうちの最初のエンコーダを介して、前記テキストサンプルに対して前記最初のエンコーダの符号化処理を行い、前記最初のエンコーダの符号化結果を後続のカスケードされたエンコーダに出力し、前記後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続し、符号化結果が最後のエンコーダに出力されるまで続行し、前記最後のエンコーダが出力した符号化結果を、前記テキストサンプルに対応する符号化ベクトルとし、前記テキストサンプルの符号化ベクトルに対して非線形マッピングを行い、前記テキストサンプルに対応する予測カテゴリを取得する。
いくつかの実施例では、前記第2トレーニングモジュール5554はさらに、前記カスケードされた複数のエンコーダのうちのy番目のエンコーダを介して次の処理を実行するように構成される:y-1番目のエンコーダの符号化結果に対して自己注意力処理を行い、y番目の自己注意力ベクトルを取得し、前記y番目の自己注意力ベクトル及び前記y-1番目のエンコーダの符号化結果に対して残差接続処理を行い、y番目の残差ベクトルを取得し、前記y番目の残差ベクトルに対して非線形マッピング処理を行い、y番目のマッピングベクトルを取得し、前記y番目のマッピングベクトル及び前記y番目の残差ベクトルに対して残差接続処理を行い、残差接続の結果を前記y番目のエンコーダの符号化結果とし、前記y番目のエンコーダの符号化結果をy+1番目のエンコーダに出力し、ここで、yは、順次増加する正の整数であり、且つ値の範囲は、2≦y≦H-1を満たし、Hは、2より大きい整数であり、且つ前記カスケードされた複数のエンコーダの数を表すために使用される。
ここで、本願実施例は、テキスト分類装置をさらに提供し、テキスト分類装置は、取得モジュール及び処理モジュールを含む一連のモジュールを備える。ここで、取得モジュールは、分類対象テキストを取得するように構成され、前記分類対象テキストは、第1言語とは異なる第2言語を採用し、処理モジュールは、ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得し、前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するように構成され、前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである。
本願実施例は、コンピュータプログラム製品又はコンピュータプログラムを提供し、当該コンピュータプログラム製品又はコンピュータプログラムにはコンピュータ命令が含まれ、当該コンピュータ命令は、コンピュータ可読記憶媒体に記憶される。電子機器のプロセッサは、コンピュータ可読記憶媒体からコンピュータ命令を読み取り、プロセッサは、当該コンピュータ命令を実行することによって、当該電子機器に本願実施例における上記のテキスト分類モデルのトレーニング方法、又はテキスト分類方法を実行させる。
本願実施例は、実行可能命令が記憶されたコンピュータ可読記憶媒体をさらに提供し、実行可能命令がプロセッサによって実行されるときに、プロセッサに、本願実施例によって提供される人工知能ベースの情報推薦方法、又はテキスト分類方法、例えば、図3~5に示すテキスト分類モデルのトレーニング方法を実行させる。
いくつかの実施例では、コンピュータ可読記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、フラッシュメモリ、磁気メモリ、光ディスク、又はCD-ROMなどのメモリであってもよいし、上記のメモリの1つ又は任意の組み合わせを含む様々な機器であってもよい。
いくつかの実施例では、実行可能命令は、プログラム、ソフトウェア、ソフトウェアモジュール、スクリプト、又はコードの形式を採用してもよく、任意の形式のプログラミング言語(コンパイル言語又はインタプリタ型言語、宣言型言語又はプロシージャ言語を含む)で記述することができ、独立したプログラムとして、又はモジュール、コンポーネント、サブルーチン、又はコンピューティング環境での使用に適した他のユニットとしてなど、任意の形式で配置することができる。
一例として、実行可能命令は、必ずしもファイルシステム内のファイルに対応するわけではなく、他のプログラム又はデータを保存するファイルの一部として記憶されることができ、例えば、ハイパーテキストマークアップ言語(HTML:Hyper Text Markup Language)ドキュメント内の1つ又は複数のスクリプト、議論されるプログラム専用の単一ファイル、又は複数の共同ファイル(1つ又は複数のモジュール、サブルーチン、又はコードを格納するファイルなど)内に記憶されてもよい。
一例として、実行可能命令は、1つのコンピューティング装置上で実行されるように配置されてもよいし、1つの場所に位置する複数のコンピューティング装置上で実行されるように配置されてもよいし、又は、複数の地点に分散して通信ネットワークを介して相互接続されている複数のコンピューティング装置上で実行されるように配置されてもよい。
上記したのは、本願の実施例に過ぎず、本願の保護範囲を限定するものではない。本願の精神的及び範囲内で行われるあらゆる修正、同等の置換及び改善などは、本願の保護範囲内に含まれるものとする。

Claims (20)

  1. テキスト分類モデルのトレーニング方法であって、
    第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するステップであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、ステップと、
    前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップと、
    トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップと、
    前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含み、
    前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい、テキスト分類モデルのトレーニング方法。
  2. 前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップは、
    前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt回目のトレーニングを行うステップと、
    t回目のトレーニング後の前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づくt回目の選別処理を行うステップと、
    直前t回の選別結果と、前記複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第1テキスト分類モデルに対してt+1回目のトレーニングを行うステップと、
    T回目のトレーニング後の前記第1テキスト分類モデルを、前記トレーニング後の前記第1テキスト分類モデルとするステップと、を含み、
    tは、順次増加する正の整数であり、且つ値の範囲は、1≦t≦T-1を満たし、Tは、2より大きい整数であり、且つ反復トレーニングの総回数を表すために使用される、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  3. 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
    前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布を決定するステップと、
    前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たし、且つ各カテゴリの数が対応するカテゴリ数閾値を超える場合、前記選別処理によって得られた第2テキストサンプル内の各カテゴリのテキストサンプルからランダムに抽出した、前記カテゴリ数閾値に対応するテキストサンプルに基づいてトレーニングセットを構築するステップと、
    前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  4. 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
    前記選別処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布が分布均衡条件を満たさない場合、分布の少ないカテゴリの第2テキストサンプルに対して、類義語に基づく拡張処理を行うステップであって、前記拡張処理によって得られた第2テキストサンプルの複数のカテゴリにおける分布は、前記分布均衡条件を満たす、ステップと、
    前記拡張処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップと、
    前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップと、を含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  5. 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
    前記複数の第3テキストサンプル及び前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築し、前記トレーニングセットに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップを含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  6. 前記複数の第3テキストサンプル及び前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築するステップは、
    前記選別処理によって得られた第2テキストサンプルの各カテゴリをトラバースし、
    前記カテゴリ内の第2テキストサンプルの数が、前記カテゴリのカテゴリ数閾値より小さい場合、前記複数の第3テキストサンプルからランダムに抽出した前記カテゴリの第3テキストサンプルを前記カテゴリの第2テキストサンプルに補充することにより、前記選別処理によって得られた第2テキストサンプルを更新し、
    更新された、前記選別処理によって得られた第2テキストサンプルに基づいて、トレーニングセットを構築する処理を実行することを含む、
    請求項5に記載のテキスト分類モデルのトレーニング方法。
  7. 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングする前に、前記テキスト分類モデルのトレーニング方法は、
    テキスト分類モデルの演算能力と単位時間あたりに演算可能なテキストサンプルの数との対応関係に基づいて、前記第2テキスト分類モデルのトレーニングに使用できる演算能力とマッチングする目標サンプルの数を決定するステップと、
    前記選別処理によって得られた第2テキストサンプルに基づいて構築されたトレーニングセットから、前記目標サンプルの数に対応するテキストサンプルを選別して、前記第2言語向けの第2テキスト分類モデルをトレーニングするためのサンプルとして使用するステップと、をさらに含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  8. 前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするステップは、
    前記第1テキスト分類モデルを介して、前記第2言語の複数の第3テキストサンプルに対して予測処理を行い、前記複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得するステップと、
    前記予測カテゴリの信頼度及び前記第3テキストサンプルのカテゴリラベルに基づいて、前記第1テキスト分類モデルの損失関数を構築するステップと、
    前記損失関数が収束するまで前記第1テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第1テキスト分類モデルの更新されたパラメータを、前記トレーニングされた前記第1テキスト分類モデルのパラメータとするステップと、を含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  9. 前記第1テキスト分類モデルを介して、前記第2言語の複数の第3テキストサンプルに対して予測処理を行い、前記複数の第3テキストサンプルのそれぞれに対応する予測カテゴリの信頼度を取得するステップは、
    前記複数の第3テキストサンプルの任意の第3テキストサンプルに対して、
    前記第1テキスト分類モデルを介して、
    前記第3テキストサンプルに対して符号化処理を行い、前記第3テキストサンプルの符号化ベクトルを取得し、
    前記第3テキストサンプルの符号化ベクトルに対して融合処理を行い、融合ベクトルを取得し、
    前記融合ベクトルに対して非線形マッピング処理を行い、前記第3テキストサンプルに対応する予測カテゴリの信頼度を取得する処理を実行することを含む、
    請求項8に記載のテキスト分類モデルのトレーニング方法。
  10. 前記第1テキスト分類モデルは、複数のカスケードされた活性化層を含み、
    前記融合ベクトルに対して非線形マッピング処理を行い、前記第3テキストサンプルに対応する予測カテゴリの信頼度を取得するステップは、
    前記複数のカスケードされた活性化層のうちの最初の活性化層を介して、前記融合ベクトルに対して前記最初の活性化層のマッピング処理を行うステップと、
    前記最初の活性化層のマッピング結果を後続のカスケードされた活性化層に出力し、前記後続のカスケードされた前記活性化層を介して、マッピング処理とマッピング結果の出力を継続し、マッピング結果が最後の活性化層に出力されるまで続行するステップと、
    前記最後の活性化層によって出力された活性化結果を、前記第3テキストサンプルに対応するカテゴリの信頼度とするステップと、を含む、
    請求項9に記載のテキスト分類モデルのトレーニング方法。
  11. 前記トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うステップは、
    前記複数の第2テキストサンプルの任意の第2テキストサンプルに対して、
    前記トレーニングされた前記第1テキスト分類モデルを介して、前記第2テキストサンプルに対して予測処理を行い、前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度を取得し、
    前記第2テキストサンプルに対応する第1テキストサンプルのカテゴリラベルを、前記第2テキストサンプルのカテゴリラベルとして決定し、
    前記第2テキストサンプルに対応する複数の予測カテゴリの信頼度及び前記第2テキストサンプルのカテゴリラベルに基づいて、信頼度閾値を超える第2テキストサンプルを、前記選別処理によって得られた第2テキストサンプルとする処理を実行することを含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  12. 前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするステップは、
    前記第2テキスト分類モデルを介して、前記選別処理によって得られた第2テキストサンプルに対して予測処理を行い、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップと、
    前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリ及び対応するカテゴリラベルに基づいて、前記第2テキスト分類モデルの損失関数を構築するステップと、
    前記損失関数が収束するまで前記第2テキスト分類モデルのパラメータを更新し、前記損失関数が収束したときの前記第2テキスト分類モデルの更新されたパラメータを、トレーニングされた前記第2テキスト分類モデルのパラメータとするステップと、を含む、
    請求項1に記載のテキスト分類モデルのトレーニング方法。
  13. 前記第2テキスト分類モデルは、カスケードされた複数のエンコーダを含み、
    前記第2テキスト分類モデルを介して、前記選別処理によって得られた第2テキストサンプルに対して予測処理を行い、前記選別処理によって得られた第2テキストサンプルに対応する予測カテゴリを取得するステップは、
    前記選別処理によって得られた第2テキストサンプルのうちのいずれかのテキストサンプルに対して、
    前記カスケードされた複数のエンコーダのうちの最初のエンコーダを介して、前記テキストサンプルに対して前記最初のエンコーダの符号化処理を行い、
    前記最初のエンコーダの符号化結果を後続のカスケードのエンコーダに出力し、前記後続のカスケードされたエンコーダを介して、符号化処理と符号化結果の出力を継続し、符号化結果が最後のエンコーダに出力されるまで続行し、
    前記最後のエンコーダによって出力された符号化結果を、前記テキストサンプルに対応する符号化ベクトルとし、
    前記テキストサンプルの符号化ベクトルに対して非線形マッピングを行い、前記テキストサンプルに対応する予測カテゴリを取得する処理を実行することを含む、
    請求項12に記載のテキスト分類モデルのトレーニング方法。
  14. 前記後続のカスケードされたエンコーダによって、符号化処理と符号化結果の出力を継続するステップは、
    前記カスケードされた複数のエンコーダのうちのy番目のエンコーダを介して、
    y-1番目のエンコーダの符号化結果に対して自己注意力処理を行い、y番目の自己注意力ベクトルを取得し、
    前記y番目の自己注意力ベクトル及び前記y-1番目のエンコーダの符号化結果に対して残差接続処理を行い、y番目の残差ベクトルを取得し、
    前記y番目の残差ベクトルに対して非線形マッピング処理を行い、y番目のマッピングベクトルを取得し、
    前記y番目のマッピングベクトル及び前記y番目の残差ベクトルに対して残差接続処理を行い、残差接続の結果を前記y番目のエンコーダの符号化結果とし、前記y番目のエンコーダの符号化結果をy+1番目のエンコーダに出力する処理を実行することを含み、
    yは、順次増加する正の整数であり、且つ値の範囲は、2≦y≦H-1を満たし、Hは、2より大きい整数であり、且つ前記カスケードされた複数のエンコーダの数を表すために使用される、
    請求項13に記載のテキスト分類モデルのトレーニング方法。
  15. テキスト分類方法であって、
    分類対象テキストを取得するステップであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、ステップと、
    ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得するステップと、
    前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するステップと、を含み、
    前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである、テキスト分類方法。
  16. テキスト分類モデルのトレーニング装置であって、
    第1言語の複数の第1テキストサンプルに対して機械翻訳処理を行い、前記複数の第1テキストサンプルに1対1に対応する複数の第2テキストサンプルを取得するように構成される翻訳モジュールであって、前記複数の第2テキストサンプルは、前記第1言語とは異なる第2言語を採用する、翻訳モジュールと、
    前記第2言語の複数の第3テキストサンプル及びそれぞれに対応するカテゴリラベルに基づいて、前記第2言語向けの第1テキスト分類モデルをトレーニングするように構成される第1トレーニングモジュールと、
    トレーニングされた前記第1テキスト分類モデルを介して、前記複数の第2テキストサンプルに対して、信頼度に基づく選別処理を行うように構成される選別モジュールと、
    前記選別処理によって得られた第2テキストサンプルに基づいて、前記第2言語向けの第2テキスト分類モデルをトレーニングするように構成される第2トレーニングモジュールと、を備え、前記第2テキスト分類モデルのネットワーク深さは、前記第1テキスト分類モデルのネットワーク深さより大きい、テキスト分類モデルのトレーニング装置。
  17. テキスト分類装置であって、
    分類対象テキストを取得するように構成される取得モジュールであって、前記分類対象テキストは、第1言語とは異なる第2言語を採用する、取得モジュールと、
    ネットワーク深さが第1テキスト分類モデルより大きい第2テキスト分類モデルを介して、前記分類対象テキストに対して符号化処理を行い、前記分類対象テキストの符号化ベクトルを取得し、前記分類対象テキストの符号化ベクトルに対して非線形マッピングを行い、前記分類対象テキストに対応するカテゴリを取得するように構成される処理モジュールと、を備え、前記第2テキスト分類モデルは、前記第1テキスト分類モデルによる選別によって得られた第2言語のテキストサンプルをトレーニングすることによって取得されるものであり、前記第2言語のテキストサンプルは、前記第1言語のテキストサンプルを機械翻訳することによって取得されるものである、テキスト分類装置。
  18. 実行可能命令を記憶するメモリと、
    前記メモリに記憶された実行可能命令を実行するときに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行する、プロセッサと、を備える、電子機器。
  19. プロセッサに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行させるための実行可能命令が記憶された、コンピュータ可読記憶媒体。
  20. プロセッサに、請求項1~14のいずれか一項に記載のテキスト分類モデルのトレーニング方法、又は請求項15に記載のテキスト分類方法を実行させるためのコンピュータプログラム又は命令を含む、コンピュータプログラム製品。
JP2023514478A 2020-11-04 2021-10-18 テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム Pending JP2023539532A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011217057.9A CN112214604A (zh) 2020-11-04 2020-11-04 文本分类模型的训练方法、文本分类方法、装置及设备
CN202011217057.9 2020-11-04
PCT/CN2021/124335 WO2022095682A1 (zh) 2020-11-04 2021-10-18 文本分类模型的训练方法、文本分类方法、装置、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
JP2023539532A true JP2023539532A (ja) 2023-09-14

Family

ID=74058181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023514478A Pending JP2023539532A (ja) 2020-11-04 2021-10-18 テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム

Country Status (4)

Country Link
US (1) US20230025317A1 (ja)
JP (1) JP2023539532A (ja)
CN (1) CN112214604A (ja)
WO (1) WO2022095682A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备
US11934795B2 (en) * 2021-01-29 2024-03-19 Oracle International Corporation Augmented training set or test set for improved classification model robustness
CN113010674B (zh) * 2021-03-11 2023-12-22 平安创科科技(北京)有限公司 文本分类模型封装方法、文本分类方法及相关设备
CN112765359B (zh) * 2021-04-07 2021-06-18 成都数联铭品科技有限公司 一种基于少样本的文本分类方法
CN114266239A (zh) * 2021-12-31 2022-04-01 胜斗士(上海)科技技术发展有限公司 数据集的生成方法及装置
CN114462387B (zh) * 2022-02-10 2022-09-02 北京易聊科技有限公司 无标注语料下的句型自动判别方法
CN114328936B (zh) * 2022-03-01 2022-08-30 支付宝(杭州)信息技术有限公司 建立分类模型的方法和装置
CN114911821B (zh) * 2022-04-20 2024-05-24 平安国际智慧城市科技股份有限公司 一种结构化查询语句的生成方法、装置、设备及存储介质
CN115033701B (zh) * 2022-08-12 2022-10-28 北京百度网讯科技有限公司 文本向量生成模型训练方法、文本分类方法及相关装置
CN115346084B (zh) * 2022-08-15 2024-07-12 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN115186670B (zh) * 2022-09-08 2023-01-03 北京航空航天大学 一种基于主动学习的领域命名实体识别方法及系统
CN115329723A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN116737935B (zh) * 2023-06-20 2024-05-03 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质
CN116720005B (zh) * 2023-08-10 2023-10-20 四川大学 一种基于自适应噪声的数据协同对比推荐模型的系统
CN117455421B (zh) * 2023-12-25 2024-04-16 杭州青塔科技有限公司 科研项目的学科分类方法、装置、计算机设备及存储介质
CN117851601B (zh) * 2024-02-26 2024-07-16 海纳云物联科技有限公司 事件分类模型的训练方法、使用方法、装置及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488623A (zh) * 2013-09-04 2014-01-01 中国科学院计算技术研究所 多种语言文本数据分类处理方法
US10095770B2 (en) * 2015-09-22 2018-10-09 Ebay Inc. Miscategorized outlier detection using unsupervised SLM-GBM approach and structured data
CN111831821B (zh) * 2020-06-03 2024-01-09 北京百度网讯科技有限公司 文本分类模型的训练样本生成方法、装置和电子设备
CN111813942B (zh) * 2020-07-23 2022-07-12 思必驰科技股份有限公司 实体分类方法和装置
CN112214604A (zh) * 2020-11-04 2021-01-12 腾讯科技(深圳)有限公司 文本分类模型的训练方法、文本分类方法、装置及设备

Also Published As

Publication number Publication date
US20230025317A1 (en) 2023-01-26
CN112214604A (zh) 2021-01-12
WO2022095682A1 (zh) 2022-05-12

Similar Documents

Publication Publication Date Title
JP2023539532A (ja) テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム
US11816439B2 (en) Multi-turn dialogue response generation with template generation
US11775761B2 (en) Method and apparatus for mining entity focus in text
US11886480B2 (en) Detecting affective characteristics of text with gated convolutional encoder-decoder framework
CN111897934B (zh) 问答对生成方法及装置
CN116820429B (zh) 代码处理模型的训练方法、装置、电子设备及存储介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
US20230281400A1 (en) Systems and Methods for Pretraining Image Processing Models
CN114186978A (zh) 简历与岗位匹配度预测方法及相关设备
CN113420212A (zh) 基于深度特征学习的推荐方法、装置、设备及存储介质
CN108475346A (zh) 神经随机访问机器
CN112232052A (zh) 文本拼接方法、装置、计算机设备及存储介质
CN117743551A (zh) 问答信息的处理方法、装置、计算机可读介质及电子设备
CN111723186A (zh) 用于对话系统的基于人工智能的知识图谱生成方法、电子设备
CN115438164A (zh) 问答方法、系统、设备及存储介质
CN116956102A (zh) 分类模型的训练方法、装置、设备、存储介质及程序产品
CN117235271A (zh) 信息抽取方法、装置、计算机存储介质及电子设备
CN113420869A (zh) 基于全方向注意力的翻译方法及其相关设备
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN115935195B (zh) 文本匹配方法及装置、计算机可读存储介质、终端
US20240256964A1 (en) Pretraining Already-Pretrained Models for Diverse Downstream Tasks
US20240005082A1 (en) Embedding Texts into High Dimensional Vectors in Natural Language Processing
US20240143941A1 (en) Generating subject lines from keywords utilizing a machine-learning model
CN114298004A (zh) 复述文本生成方法、装置、设备、介质和程序产品
CN117034875A (zh) 一种文本数据生成方法、装置、设备及其存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230301

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240905