JP2022068264A - モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 - Google Patents

モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022068264A
JP2022068264A JP2022020564A JP2022020564A JP2022068264A JP 2022068264 A JP2022068264 A JP 2022068264A JP 2022020564 A JP2022020564 A JP 2022020564A JP 2022020564 A JP2022020564 A JP 2022020564A JP 2022068264 A JP2022068264 A JP 2022068264A
Authority
JP
Japan
Prior art keywords
model
training
model training
module
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022020564A
Other languages
English (en)
Other versions
JP7331175B2 (ja
Inventor
ゴーン ジエン
Jian Gong
スゥン ユイ
Yu Sun
ティエン ハオ
Hao Tian
ウー ホワ
Hua Wu
ワーン ハイフオン
Haifeng Wang
ショーァ チヤオチヤオ
Qiaoqiao She
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022068264A publication Critical patent/JP2022068264A/ja
Application granted granted Critical
Publication of JP7331175B2 publication Critical patent/JP7331175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Stored Programmes (AREA)

Abstract

【課題】ユーザーエクスペリエンスを向上させる効率的なモデル訓練、特に深層学習モデル訓練の能力を提供する。【解決手段】モデル訓練方法は、入力を受信すること402と、入力に基づいてユーザー指向のプレハブ機能を確定すること404と、入力に基づいてモデル訓練機能を確定すること406と、入力に基づいて事前訓練モデルを確定すること408と、事前訓練モデルの使用をサポートするように、入力に基づいて事前訓練モデルに関連するネットワーク構造を確定すること410と、入力に基づいて、プレハブ機能、モデル訓練機能及び事前訓練モデルを使用してモデルを訓練すること412と、訓練されたモデルに関連する出力を提供することと414を含む。【選択図】図4

Description

本開示は、コンピュータ技術、より具体的には、モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体に関し、人工知能の分野、特に自然言語処理の分野と深層学習の分野で使用できる。
近年、人工知能の分野での、事前訓練に代表される自然言語処理技術が爆発的な発展を遂げ、新しい技術や新しいモデルが次々と出現している。新時代では、どのように、自然言語処理の分野における多様で高度な科学的研究結果を産業実践に効率的に適用し、実際的な問題を解決するかは、自然言語処理の分野における中心的な問題である。さらに、深層学習は人工知能の分野における重要な技術であり、研究者は通常、深層学習のフレームワークに基づいて関連する作業を実行する。
しかしながら、モデル訓練のための従来の方法およびプラットフォームは、複雑な深層学習開発要件を満たすことができず、したがって、効率的なモデル訓練方法およびモデル訓練プラットフォームに対するユーザのニーズを満たすことができない。
本開示の実施例によれば、モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体を提供する。
本開示の第1の態様では、モデル訓練方法を提供する。当該方法は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって入力を受信することであって、インタラクションモードはインタラクションインターフェイスに関連することと、入力に基づいてユーザー指向のプレハブ機能を確定することであって、プレハブ機能は訓練すべきモデルに関連することと、入力に基づいて、モデルト訓練を行うことをサポートするために必要なモデル訓練機能を確定することであって、モデル訓練機能はモデルの訓練過程に関連することと、入力に基づいて、深層学習に基づいて事前訓練された事前訓練モデルを確定することと、事前訓練モデルの使用をサポートするように、入力に基づいて事前訓練モデルに関連するネットワーク構造を確定することと、入力に基づいて、プレハブ機能、モデル訓練機能及び事前訓練モデルを使用してモデルを訓練することと、少なくとも1つのインタラクションモードを利用して行うインタラクションによって、訓練されたモデルに関連する出力を提供することとを含む。
本開示の第2の態様では、モデル訓練プラットフォームを提供する。当該モデル訓練プラットフォームは、モデル訓練プラットフォームの外部から入力を受信すること及びモデル訓練プラットフォームの外部に出力を提供することをサポートするように、少なくとも1つのインタラクションモードを提供するように配置されるデータインタラクションモジュールであって、インタラクションモードはインタラクションインターフェイスに関連するデータインタラクションモジュールと、データインタラクションモジュールとモデル訓練プラットフォームにおけるほかのモジュールとの間のインタラクションのサポートを提供するように配置されるインタラクションサポートモジュールであって、インタラクションはモデル訓練に関連するインタラクションサポートモジュールと、ユーザー指向のプレハブ機能を提供するように配置される機能提供モジュールであって、プレハブ機能はモデル訓練プラットフォームによって訓練されたモデルに関連する機能提供モジュールと、モデル訓練プラットフォームを使用してモデル訓練を行うことをサポートすることに必要なモデル訓練機能を提供するように配置されるモデル訓練サポートモジュールであって、モデル訓練機能はモデルの訓練過程に関連するモデル訓練サポートモジュールと、深層学習に基づいて事前訓練された事前訓練モデルを提供するように配置される事前訓練モデルモジュールと、事前訓練モデルの使用をサポートするように、事前訓練モデルに関連するネットワーク構造を提供するように配置される事前訓練モデルサポートモジュールとを含む。
本開示の第3の態様では、電子機器を提供する。当該電子機器は、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶しており、当該命令は、少なくとも1つのプロセッサによって実行されて、本開示の第1の態様の方法を少なくとも1つのプロセッサに実行させる。
本開示の第4の態様では、本開示の第1の態様の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供する。
本開示の実施形態の技術案により、事前訓練意味理解技術に基づく汎用自然言語処理カスタム化訓練および開発プラットフォームを構築することにより、データ注釈および基礎となるコード開発のための人的資源および物的資源を大幅に削減することができる。これにより、産業上の利用のニーズを満たすことができる。具体的には、本開示の実施形態の技術案により、モデル訓練プラットフォームが提供される。当該モデル訓練プラットフォームは、包括的な自然言語処理のカスタム化開発シナリオをカバーすることができ、カスタム化事前訓練技術を通じてより効率的なモデル訓練能力を提供でき、シンプルで容易なインタラクション方法を提供でき、モジュール間の独立性を通じてプラットフォームのスケーラビリティを向上させることができるため、効率的なモデル訓練、特に深層学習モデル訓練の能力を提供することにより、ユーザーエクスペリエンスを向上させることができる。
なお、発明の概要では説明される内容は、本開示の実施例のキーとなる特徴又は重要な特徴を限定することを意図しておらず、本開示の範囲を制限することも意図していない。本開示の他の特徴は、以下の説明によって容易に理解される。
本開示の上記及び他の目的、特徴、及び利点は、図面をもって、本開示の例示的な実施例をより詳細に説明することにより、より明らかになる。本開示の例示的な実施例では、同じ参照符号は、通常、同じ部材を表す。図面は、この技術案をよりよく理解するために使用されており、本開示を制限するものではないことを理解されたい。
本開示の実施例に係るモデル訓練プラットフォーム100を示す模式ブロック図である。 本開示の実施例に係るモデル訓練プラットフォーム200を示す模式ブロック図である。 本開示のいくつかの実施例におけるモデル訓練方法を実現することができるモデル訓練環境300を示す模式ブロック図である。 本開示の実施例に係るモデル訓練方法400を示すフローチャートである。 本開示の実施例に係るモデル訓練方法500を示すフローチャートである。 本開示の実施例を実施することができる例示的な電子機器600を示す模式ブロック図である。 各図では、同じまたは対応する符号は、同じまたは対応する部分を示す。
以下、図面を参照して本開示の好ましい実施例をより詳細に説明する。図面には本開示の好ましい実施例が示されているが、本開示は、様々な形態で実施することができ、ここで説明する実施例によって制限されるべきではない。それどころか、これらの実施例は、本開示をより徹底的かつ完全にし、本開示の範囲を当業者に完全に伝えるために提供されている。
本明細書に使用される「含む」という用語およびその変形は、オープンな包含を意味し、すなわち「含むが、これらに限定されない」ことを意味する。特に明記しない限り、「または」という用語は「および/または」を意味する。「に基づく」という用語は、「少なくとも部分的に基づく」ことを意味する。「1つの例示的な実施例」と「1つの実施例」という用語は、「少なくとも1つの例示的な実施例」を意味する。「別の実施例」という用語は、「少なくとも1つの別の実施例」を意味する。「第1の」、「第2の」等の用語は、異なる又は同じ対象を指すことができる。以下には、他の明示的及び暗黙的な定義を含む場合もある。
上記の背景技術で説明したように、モデル訓練のための従来の方法とプラットフォームは、複雑な深層学習開発の要件を満たすことができないため、効率的なモデル訓練方法とモデル訓練プラットフォームに対するユーザーのニーズを満たすことができない。
たとえば、従来の技術では、通常、モデル訓練プラットフォームを実現する方法は2つある。第1の実現方法は、基本的なタスクに焦点を当てた産業グレードの自然言語処理ツールキットを使用する。当該実現方法は、基本的な自然言語処理訓練タスクを達成するように、TensorFlow、Pytorchなどの、国際にオープンソースされた深層学習開発フレームワークに基づいて特定のコードパッケージ化を行い、テキスト分類、テキストマッチング、シーケンスラベリングなどの基本的なタスクの開発サンプルコードをプレハブするとともに、国際にオープンソースされた事前訓練モデルをプレハブする。第2の実現方法は、従来の機械学習技術に基づくデータ分析プラットフォームを使用し、このような実現方法は、主に、内蔵されるアルゴリズムモデルを提供し、非深層学習の、事前訓練モデルに基づかない分類、回帰、およびクラスタリングなどのアルゴリズムを含む。結合されたモデルを合成し、繰り返し分析する。単一のインターフェースモジュールを介してパラメータ設定及び結果表示などを行う。ただし、従来技術の実現方法には明らかな欠点がある。
第1の実現方法については、アプリケーションの観点から見ると、そのプレハブタスクが少なすぎて、工業化シナリオでの複雑で多様な自然言語処理訓練のニーズを満たすことができず、国際にオープンソースされた深層学習フレームワーク及び事前訓練モデルを採用するが、これらの技術のコア制御権を持っておらず、技術的に制限されるリスクがある。当該方法は、汎用事前訓練モデルを提供するだけであり、特定のシナリオのタスクでは、さらに事前訓練が必要であり、従って、コストが高くなる。且つ、わずかな調整のみを実行した場合、その効果は理想的ではない。通常、特定のタスクのデータ前処理用にのみカスタマイズされており、より柔軟で複雑なデータ前処理シナリオには柔軟で便利ではない。その蒸留ツールは単一すぎ、蒸留方法さえ提供していないため、モデルの展開に影響を与える。一般に、展開シナリオの加速ソリューションを提供していないため、複雑な産業化シナリオのニーズを満たすことが困難である。システムの観点から見ると、そのネットワークコードパッケージは、十分な柔軟性がなく、ネットワーク構造を柔軟に変更することができず、マルチラベルおよびマルチタスク学習をサポートすることはできない。通常、Webインタラクティブ開発プラットフォームとの互換性がなく、さまざまな技術レベルのユーザーに対して十分にサポートされない。
第2の実現方法については、深層学習アルゴリズムの複雑さは従来の機械学習アルゴリズムよりもはるかに高いため、関連するアルゴリズムと機能統合機能には、開発者にとってより高い要件がある。その結果、元の機械学習フレームワークは複雑な深層学習開発要件を満たすことができず、深層学習で一般的なモデルに対してホットスタート機能が保存され、従来の機械学習プラットフォームには対応するサポートがない。
上記の問題および他の潜在的な問題の1つまたは複数を少なくとも部分的に解決するために、本開示の実施例は、モデル訓練プラットフォームを提案し、当該モデル訓練プラットフォームは、包括的な自然言語処理カスタム化開発シナリオをカバーすることができ、カスタム化事前訓練技術によりより効率的なモデル訓練能力を提供でき、シンプルで容易なインタラクション方式を提供でき、モジュールの独立性によってプラットフォームのスケーラビリティを向上できるため、効率的なモデル訓練、特に深層学習モデル訓練の能力を提供することにより、ユーザーエクスペリエンスを向上させることができる。
図1は本開示の実施例に係るモデル訓練プラットフォーム100の模式ブロック図である。図1に示すように、モデル訓練プラットフォーム100は、データインタラクションモジュール101、インタラクションサポートモジュール102、機能提供モジュール103、モデル訓練サポートモジュール104、事前訓練モデルモジュール105及び事前訓練モデルサポートモジュール106を備える。
データインタラクションモジュール101は、モデル訓練プラットフォーム100の外部から入力を受信すること及びモデル訓練プラットフォーム100の外部に出力を提供することをサポートするように、少なくとも1つのインタラクションモードを提供するように配置され、インタラクションモードはインタラクションインターフェイスに関連する。本開示の1つまたは複数の実施例によれば、異なるユーザーに対して、異なるインタラクションインターフェイスを提供して、異なるインターフェイスを公開することができる。例えば、Easydlフリーダムプラットフォームでは、ユーザはデータ入力アドレスと出力アドレスを設定するだけで済む。BMLフル機能プラットフォームでは、ユーザはタスクパラメータ、ワークフロー、さらにはニューラルネットワーク構造等をさらに設定することができる。
インタラクションサポートモジュール102は、データインタラクションモジュールとモデル訓練プラットフォーム100における他のモジュールとの間のインタラクションのサポートを提供するように配置され、インタラクションはモデル訓練に関連する。本開示の1つまたは複数の実施例によれば、インタラクションサポートモジュール102は、ネットワーク選択に関連するインタラクションモードと、ネットワーク組立に関連するインタラクションモードと、ネットワーク記憶に関連するインタラクションモードと、訓練パッケージの組立に関連するインタラクションモードと、訓練タスクの開始に関連するインタラクションモードと、認証に関連するインタラクションモードと、統計に関連するインタラクションモードと、のうちの1つまたは複数のインタラクションのサポートを提供するように配置されてもよい。なお、インタラクションサポートモジュール102はデータインタラクションモジュール101から切り離されているので、同じインタラクションサポートモジュール102は、製品のポジショニングが異なるデータインタラクションモジュール101に使用することができ、技術上、異なるインターフェースを公開することによってのみ実現でき、これにより、良好な利便性を提供することができる。
機能提供モジュール103は、ユーザー指向のプレハブ機能を提供するように配置され、プレハブ機能はモデル訓練プラットフォームによって訓練されたモデルに関連する。本開示の1つまたは複数の実施例によれば、機能提供モジュール103は、ユーザー向けにプレハブされた、さまざまな業界で必要とされる特定の機能を提供するように配置され、これらの機能は、例えば、テキストマルチラベル分類機能、テキスト階層分類機能、小さなサンプルテキスト分類機能、ノイズの多いテキスト分類機能、エンティティ認識機能、エンティティ関係抽出機能、エンティティ属性抽出機能、用語重要度分析機能、感情分析機能、テキストレビュー機能、検索-リコール機能、検索-ソート機能、テキスト要約生成機能、テキストエラー訂正機能、データ蒸留機能、モデル蒸留機能、マルチラベル学習機能、マルチタスク学習機能、自己管理型事前訓練学習機能、特徴重要度分析機能、医療機関認識機能、医療質疑応答マッチング機能、法律条文推薦機能、および罪名予測機能のうちの1つ又は複数の機能を含んでもよい。
モデル訓練サポートモジュール104は、モデル訓練プラットフォーム100を使用してモデル訓練を行うことをサポートすることに必要なモデル訓練機能を提供するように配置され、モデル訓練機能はモデルの訓練過程に関連する。本開示の1つまたは複数の実施例によれば、モデル訓練サポートモジュール104は、アクチュエータ初期化機能、オペレーティングプログラム初期化機能、シングルマシンマルチカード環境設定機能、マルチマシンマルチカード環境設定機能、マルチマシン中央処理装置環境設定機能、モデルロード機能、およびモデル保存機能のうちの1つ又は複数の機能を提供するように配置される。ユーザーは基礎となるコードを記述する必要はなく、関連する設定を介して上記機能を直接適用できる。
事前訓練モデルモジュール105は、深層学習に基づいて事前訓練された事前訓練モデルを提供するように配置される。本開示の1つまたは複数の実施例によれば、事前訓練モデルは、深層学習に基づいて事前に訓練されたモデルであり、これらのモデル及びそのネットワークは、他のタスクのニューラルネットワークに組み込むことができ、次に、訓練済みのモデルのホットスタートに基づいて訓練をさらに微調整できるため、事前訓練モデルを使用しない場合よりも大幅に優れた結果を得ることができ。例えば、事前訓練モデルモジュール105は、汎用事前訓練モデル、医療健康に関連する事前訓練モデル、法規制に関連する事前訓練モデル、感情コンピューティングに関連する事前訓練モデル、テキストレビューに関連する事前訓練モデル及び金融分野に関連する事前訓練モデル、のうちの1つ又は複数の事前訓練モデルを提供するように配置されてもよい。
事前訓練モデルサポートモジュール106は、事前訓練モデルの使用をサポートするように、事前訓練モデルに関連するネットワーク構造を提供するように配置される。本開示の1つまたは複数の実施例によれば、異なる事前訓練モデルのネットワーク構造は異なるので、事前訓練モデルサポートモジュール106は、異なる事前訓練モデルが共有するネットワーク構造を統合するように配置することができ、配置を柔軟に変更することで異なるネットワーク構造を切り替えることができるため、事前訓練モデルをワンクリックで置き換える機能をユーザーに提供することができる。
図2は、本開示の実施例に係るモデル訓練プラットフォーム200を示す模式ブロック図である。図2に示すように、モデル訓練プラットフォーム200は、データインタラクションモジュール201、インタラクションサポートモジュール202、機能提供モジュール203、モデル訓練サポートモジュール204、事前訓練モデルモジュール205、事前訓練モデルサポートモジュール206、設定情報受信モジュール207、データ前処理モジュール208、複雑学習タスクサポートモジュール209、訓練カスタムモジュール210及びモデル適用モジュール211を含む。
データインタラクションモジュール201、インタラクションサポートモジュール202、機能提供モジュール203、モデル訓練サポートモジュール204、事前訓練モデルモジュール205及び事前訓練モデルサポートモジュール206の機能は、データインタラクションモジュール101、インタラクションサポートモジュール102、機能提供モジュール103、モデル訓練サポートモジュール104、事前訓練モデルモジュール105及び事前訓練モデルサポートモジュール106の機能と基本的に同じなので、ここでは繰り返しない。
設定情報受信モジュール207は、モデル訓練プラットフォーム200におけるモジュールによって提供される機能の適用請求に関連する設定情報を受信するように配置される。本開示の1つまたは複数の実施例によれば、設定情報受信モジュール207は、定情報を導入するように配置される設定情報導入モジュール(未図示)と、設定情報を登録するように配置されるレジストラモジュール(未図示)と、設定情報に基づいてjson解析を行うように配置されるjson解析モジュール(未図示)と、設定情報に基づいてクラス名マッチングを行うように配置されるクラス名マッチングモジュール(未図示)と、のうちの1つまたは複数を含む。上記モジュールにより、ユーザーは、規定されるプロファイルフォーマットに従って設定情報を入力するだけで、所望の機能を適用できる。
データ前処理モジュール208は、受信されたモデル訓練プラットフォーム200の入力を前処理するように配置される。本開示の1つまたは複数の実施例によれば、データ前処理モジュール208は、前処理のために、入力からデータセットを読み取るように配置されるデータセット読み取りモジュールと、前処理のために、入力からドメインを読み取るように配置されるドメイン読み取りモジュールと、前処理のために、前記入力をトークン化するように配置されるトークナイザーモジュールと、前処理のために、入力からボキャブラリーを取得するように配置されるボキャブラリーモジュールと、のうちの1つまたは複数を含む。特徴ドメインの概念を抽象化することにより、同じサンプルに異なるドメインがある場合、異なるドメインは別々のデータ型(テキスト、数値、整数、浮動小数点)を持ち、オープンソースは別々のボキャブラリー(vocabulary)などを持つ。例えば、テキストからidへの変換などの操作というセマンティック表現は、異なるドメインに応じて実行できるため、さまざまな複雑なタスクに必要なデータ構造を柔軟に拡張でき、テキスト以外の数値類特徴の入力をサポートできる。
複雑学習タスクサポートモジュール209は、複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを提供するように配置される。本開示の1つまたは複数の実施例によれば、複雑学習タスクサポートモジュール209は、複雑学習タスクに用いられる順方向伝播ネットワークを提供するように配置される順方向伝播ネットワークモジュールと、ネットワーク構造の設計及び開発に用いられる最適化戦略を提供するように配置される最適化戦略モジュールと、ネットワーク構造の設計及び開発に用いられる評価指標を提供するように配置される評価指標モジュールと、のうちの1つまたは複数を含む。上記モジュールにより、マルチラベル学習やマルチタスク学習などの複雑なタスクのネットワーク構造の設計及び開発を実現できる。
訓練カスタムモジュール210は、入力に基づいてモデル訓練に関連する操作を調整するように配置される。本開示の1つまたは複数の実施例によれば、訓練カスタムモジュール210は、入力に基づいてモデル訓練に関連する訓練フローを調整するように配置されるカスタム訓練フローモジュールと、入力に基づいてモデル訓練に関連する評価フローを調整するように配置されるカスタム評価フローモジュールと、入力に基づいてモデル訓練に関連する可視化評価を調整するように配置される可視化評価モジュールと、のうちの1つまたは複数を含む。上記モジュールにより、モデル訓練プラットフォーム200のユーザは、訓練、評価フローを柔軟に変更することができ、それにより、より複雑な訓練タスクの設計及び開発を完了することができる。
モデル適用モジュール211は、訓練されたモデルの適用に関連するための機能を提供するように配置される。本開示の1つまたは複数の実施例によれば、モデル適用モジュール211は、専用処理部配置機能、中央処理部配置機能、単一予測機能、バッチ予測機能、C++アプリケーションプログラミングインターフェース機能、及びPythonアプリケーションプログラミングインターフェース機能のうちの1つ又は複数の機能を提供するように配置される。上記機能により、訓練されたモデルに関連する機能の産業上の利用を完了することができる。
図3は、本開示のいくつかの実施例におけるモデル訓練方法を実現することができるモデル訓練環境300を示す模式ブロック図である。本開示の1つまたは複数の実施例によれば、モデル訓練環境300はクラウド環境であってもよい。図3に示すように、モデル訓練環境300は、コンピューティング機器310を含む。モデル訓練環境300では、入力データ320は、コンピューティング機器310の入力としてコンピューティング機器310に提供される。入力データ320は、例えば、以上に、モデル訓練プラットフォーム100及びモデル訓練プラットフォーム200を参照しながら説明された、モデル訓練プラットフォーム100及びモデル訓練プラットフォーム200の入力とすることができる入力データを含んでもよい。例えば、入力データ320は、モデル訓練に関連するデータ入力出力アドレス、タスクパラメータ、ワークフロー、ニューラルネットワーク構造、インタラクションモードの選択、ユーザー指向のプレハブ機能の選択、モデル訓練機能の選択、事前訓練モデルの選択、事前訓練モデルに関連するネットワーク構造の選択、設定情報及び設定情報に対して希望する操作、前処理の選択、複雑学習タスクのネットワーク構造の設計及び開発に関連する入力、モデル訓練に関連する操作を調整するための入力、及び訓練されたモデルの適用に関連する機能の選択等を含んでもよい。本開示の1つまたは複数の実施例によれば、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって入力データ320を受信することができる。
入力データ320を受信した後、コンピューティング機器310は、入力データ320に基づいてモデル訓練操作を実行し、訓練されたモデルに関連する出力を出力データ330として提供することができる。本開示の1つまたは複数の実施例によれば、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって、訓練されたモデルに関連する出力を出力データ330として提供することができ、出力データ330は、例えば訓練されたモデルに関連するパラメータ、評価結果、更には訓練されたモデルそのものなどを含んでもよい。
ただし、モデル訓練環境300は単なる例示であり、制限的ではなく、拡張可能であり、より多くのコンピューティング機器310を含んでもよく、且つコンピューティング機器310により多くの入力データ320を提供することができ、コンピューティング機器310からより多くの出力データ330を提供することができ、これにより、より多くのユーザがより多くのコンピューティング機器310を同時に使用できるようになり、さらにはより多くの入力データ320を使用してモデル訓練操作を同時にまたは非同時に実行して、より多くの出力データ330の要件を取得することができる。
図3に示すモデル訓練環境300では、入力データ320のコンピューティング機器310への入力及び出力データ330のコンピューティング機器310からの出力はネットワークを介して実行することができる。
図4は本開示の実施例に係るモデル訓練方法400を示すフローチャートである。具体的にはモデル訓練方法400は図1に示すモデル訓練プラットフォーム100を使用して実現することができ、且つ図3に示すモデル訓練環境300におけるコンピューティング機器310によって実行することができる。ただし、モデル訓練方法400は図示されていない追加の操作をさらに含んでもよく、および/または示される操作を省略してもよく、本開示の範囲は、この点に関して限定されない。
ブロック402では、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって入力を受信し、インタラクションモードはインタラクションインターフェイスに関連する。本開示の1つまたは複数の実施例によれば、異なるユーザーに対して、異なるインタラクションインターフェイスを提供して、異なるインターフェイスを公開することができる。例えば、Easydlフリーダムプラットフォームでは、ユーザはデータ入力アドレスと出力アドレスを設定するだけで済む。BMLフル機能プラットフォームでは、ユーザはタスクパラメータ、ワークフロー、さらにはニューラルネットワーク構造等をさらに設定することができる。
本開示の1つまたは複数の実施例によれば、少なくとも1つのインタラクションモードを利用して行うインタラクションは、ネットワーク選択に関連するインタラクションと、ネットワーク組立に関連するインタラクションと、ネットワーク記憶に関連するインタラクションと、訓練パッケージの組立に関連するインタラクションと、訓練タスクの開始に関連するインタラクションと、認証に関連するインタラクションと、及び統計に関連するインタラクションと、のうちの1つ又は複数のインタラクションを含む。
ブロック404では、コンピューティング機器310は、入力に基づいてユーザー指向のプレハブ機能を確定し、プレハブ機能は訓練すべきモデルに関連する。本開示の1つまたは複数の実施例によれば、ユーザー指向のプレハブ機能を確定することは、テキストマルチラベル分類機能、テキスト階層分類機能、小さなサンプルテキスト分類機能、ノイズの多いテキスト分類機能、エンティティ認識機能、エンティティ関係抽出機能、エンティティ属性抽出機能、用語重要度分析機能、感情分析機能、テキストレビュー機能、検索-リコール機能、検索-ソート機能、テキスト要約生成機能、テキストエラー訂正機能、データ蒸留機能、モデル蒸留機能、マルチラベル学習機能、マルチタスク学習機能、自己管理型事前訓練学習機能能、特徴重要度分析機能、医療機関認識機能、医療質疑応答マッチング機能、法律条文推薦機能、および罪名予測機能のうちの1つ又は複数の機能を確定することを含む。上記のさまざまな機能はユーザー向けにプレハブされた、さまざまな業界で必要とされる特定の機能である。
ブロック406では、コンピューティング機器310は、入力に基づいて、モデルト訓練を行うことをサポートするために必要なモデル訓練機能を確定し、モデル訓練機能はモデルの訓練過程に関連する。本開示の1つまたは複数の実施例によれば、モデル訓練を行うことをサポートするために必要なモデル訓練機能を確定することは、アクチュエータ初期化機能、オペレーティングプログラム初期化機能、シングルマシンマルチカード環境設定機能、マルチマシンマルチカード環境設定機能、マルチマシン中央処理装置環境設定機能、モデルロード機能、およびモデル保存機能のうちの1つ又は複数の機能を確定することを含む。ユーザーは基礎となるコードを記述する必要はなく、関連する設定を介して上記機能を直接適用できる。
ブロック408では、コンピューティング機器310は、入力に基づいて、深層学習に基づいて事前訓練された事前訓練モデルを確定する。本開示の1つまたは複数の実施例によれば、事前訓練モデルは、深層学習に基づいて事前に訓練されたモデルであり、これらのモデル及びそのネットワークは、他のタスクのニューラルネットワークに組み込むことができ、次に、訓練済みのモデルのホットスタートに基づいて訓練をさらに微調整できるため、事前訓練モデルを使用しない場合よりも大幅に優れた効果を得ることができる。
ブロック410では、コンピューティング機器310は、事前訓練モデルの使用をサポートするように、入力に基づいて事前訓練モデルに関連するネットワーク構造を確定する。本開示の1つまたは複数の実施例によれば、異なる事前訓練モデルのネットワーク構造は異なるので、異なる事前訓練モデルが共有するネットワーク構造を統合することができ、設定を柔軟に変更することで異なるネットワーク構造を切り替えることができるため、事前訓練モデルをワンクリックで置き換える機能をユーザーに提供することができる。
ブロック412では、コンピューティング機器310は、入力に基づいて、プレハブ機能、モデル訓練機能及び事前訓練モデルを使用してモデルを訓練する。本開示の1つまたは複数の実施例によれば、使用されるプレハブ機能、モデル訓練機能、及び事前訓練モデルを確定した後、コンピューティング機器310は、訓練されたモデルを取得するように、これらのコンテンツおよび入力される可能性のある任意の他のコンテンツに基づいてモデルを訓練する。
ブロック414では、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって、訓練されたモデルに関連する出力を提供する。本開示の1つまたは複数の実施例によれば、訓練されたモデルに関連する出力は、例えば訓練されたモデルに関連するパラメータ、評価結果、更には訓練されたモデルそのものなどを含んでもよい。
図5は、本開示の実施例に係るモデル訓練方法500を示すフローチャートである。具体的にはモデル訓練方法500は、図2に示すモデル訓練プラットフォーム200を使用して実現することができ、且つ図3に示すモデル訓練環境300におけるコンピューティング機器310によって実行することができる。ただし、モデル訓練方法500は図示されていない追加の操作をさらに含んでもよく、および/または示される操作を省略してもよく、本開示の範囲は、この点に関して限定されない。
ブロック502では、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって入力を受信し、インタラクションモードはインタラクションインターフェイスに関連する。ブロック502に係るステップの具体的な内容はブロック402に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック504では、コンピューティング機器310は、受信された入力を前処理する。本開示の1つまたは複数の実施例によれば、受信された入力を前処理することは、前処理のために、入力からデータセットを読み取ることと、前処理のために、入力からドメインを読み取ることと、前処理のために、入力をトークン化することと、前処理のために、入力からボキャブラリーを取得することと、のうちの1つまたは複数を含む。特徴ドメインの概念を抽象化することにより、同じサンプルに異なるドメインがある場合、異なるドメインは別々のデータ型(テキスト、数値、整数、浮動小数点)を持ち、オープンソースは別々のボキャブラリー(vocabulary)などを持つ。例えば、テキストからidへの変換などの操作というセマンティック表現は、異なるドメインに応じて実行できるため、さまざまな複雑なタスクに必要なデータ構造を柔軟に拡張でき、テキスト以外の数値類特徴の入力をサポートできる。
ブロック506では、コンピューティング機器310は、モデル訓練に関連付けられている機能の適用請求に関連する設定情報を受信する。本開示の1つまたは複数の実施例によれば、設定情報を受信することは、設定情報を導入することと、設定情報を登録することと、設定情報に基づいてjson解析を行うことと、設定情報に基づいてクラス名マッチングを行うことと、のうちの1つまたは複数を含む。設定情報を使用すると、ユーザーは、規定される設定ファイルフォーマットに従って設定情報を入力するだけで、目的の機能を適用できる。
ブロック508では、コンピューティング機器310は、入力に基づいてユーザー指向のプレハブ機能を確定し、プレハブ機能は訓練すべきモデルに関連する。ブロック508に係るステップの具体的な内容はブロック404に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック510では、コンピューティング機器310は、入力に基づいて、モデルト訓練を行うことをサポートするために必要なモデル訓練機能を確定し、モデル訓練機能はモデルの訓練過程に関連する。ブロック510に係るステップの具体的な内容はブロック406に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック512では、コンピューティング機器310は、入力に基づいて、深層学習に基づいて事前訓練された事前訓練モデルを確定する。ブロック512に係るステップの具体的な内容はブロック408に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック514では、コンピューティング機器310は、事前訓練モデルの使用をサポートするように、入力に基づいて事前訓練モデルに関連するネットワーク構造を確定する。ブロック514に係るステップの具体的な内容はブロック410に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック516では、コンピューティング機器310は、複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを使用する。本開示の1つまたは複数の実施例によれば、複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを使用することは、複雑学習タスクに用いられる順方向伝播ネットワークを使用することと、ネットワーク構造の設計及び開発に用いられる最適化戦略を使用することと、ネットワーク構造の設計及び開発に用いられる評価指標を使用することと、のうちの1つまたは複数を含む。複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを使用すると、マルチラベル学習やマルチタスク学習などの複雑なタスクのネットワーク構造の設計及び開発を実現できる。
ブロック518では、コンピューティング機器310は、入力に基づいて、プレハブ機能、モデル訓練機能及び事前訓練モデルを使用してモデルを訓練する。ブロック518に係るステップの具体的な内容はブロック412に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック520では、コンピューティング機器310は、少なくとも1つのインタラクションモードを利用して行うインタラクションによって、訓練されたモデルに関連する出力を提供する。ブロック520に係るステップの具体的な内容はブロック414に係るステップの具体的な内容と同じなので、ここでは繰り返しない。
ブロック522では、コンピューティング機器310は、入力に基づいてモデル訓練に関連する操作を調整する。本開示の1つまたは複数の実施例によれば、入力に基づいてモデル訓練に関連する操作を調整することは、入力に基づいてモデル訓練に関連する訓練フローを調整することと、入力に基づいてモデル訓練に関連する評価フローを調整することと、入力に基づいてモデル訓練に関連する可視化評価を調整することと、のうちの1つまたは複数を含む。モデル訓練に関連する操作を調整することにより、ユーザは、訓練、評価フローを柔軟に変更することができ、それにより、より複雑な訓練タスクの設計及び開発を完了することができる。
ブロック524では、コンピューティング機器310は、訓練されたモデルの適用に関連する機能を使用することで、訓練されたモデルを適用する。本開示の1つまたは複数の実施例によれば、訓練されたモデルの適用に関連する機能を使用することは、専用処理部配置機能、中央処理部配置機能、単一予測機能、バッチ予測機能、C++アプリケーションプログラミングインターフェース機能、及びPythonアプリケーションプログラミングインターフェース機能のうちの1つ又は複数の機能を使用することを含む。訓練されたモデルの適用に関連する機能を使用することで、訓練されたモデルを適用することにより、訓練されたモデルに関連する機能の産業上の利用を完了することができる。
以上、図1~図5を参照しながら、本開示の実施例に係るモデル訓練プラットフォーム100、本開示の実施例に係るモデル訓練プラットフォーム200、本開示のいくつかの実施例におけるモデル訓練方法を実現することができるモデル訓練環境300、本開示の実施例に係るモデル訓練方法400及び本開示の実施例に係るモデル訓練方法500の関連内容を説明した。ただし、上記説明は、本開示に記載された内容をよりよく表示するためのものであり、何らかの方法でそれを制限するものではない。
ただし、本開示の上記の各図面で使用される様々な要素の数および物理量の大きさは単なる例であり、本開示の保護範囲を制限するものではない。上記の数および大きさは、本開示の実施形態の通常の実施に影響を与えることなく、必要に応じて任意に設定することができる。
図1~図5を参照する上記の説明を通じて、本開示の実施形態による技術的解決策は、従来の解決策に対して多くの利点を有する。例えば、本開示の実施形態の技術的解決策を使用すると、事前訓練意味理解技術に基づく汎用自然言語処理カスタム化訓練および開発プラットフォームを構築すること、及びモデル訓練方法を使用することにより、データ注釈および基礎となるコード開発のための人的資源および物的資源を大幅に削減することができる。これにより、産業上の利用のニーズを満たすことができる。
具体的には、本開示の実施形態の技術案により、モデル訓練プラットフォームが提供される。当該モデル訓練プラットフォームは、包括的な自然言語処理のカスタム化開発シナリオをカバーすることができ、カスタム化事前訓練技術を通じてより効率的なモデル訓練能力を提供でき、シンプルで容易なインタラクション方法を提供でき、モジュール間の独立性を通じてプラットフォームのスケーラビリティを向上させることができるため、効率的なモデル訓練、特に深層学習モデル訓練の能力を提供することにより、ユーザーエクスペリエンスを向上させることができる。
さらに、本開示の実施形態に係るモデル訓練プラットフォームおよびモデル訓練方法を使用すると、可能な限り包括的かつ典型的な自然言語処理のカスタム化開発シナリオをカバーし、豊富な産業レベルのアプリケーションサポートシステムを形成することができる。これらのプレハブタスクのほとんどは、json設定ファイルを介して直接設定でき、すばやく開始して実行できる。医療健康、法規制、感情コンピューティング、テキストレビュー、金融分野などの特定のシナリオに対して、カスタム化事前訓練技術の研究開発を行うことができ、これにより、特定のシナリオの適用では高価なモデルの事前訓練なしで非常に良い効果を得ることができ、最終的に豊富な事前訓練モデルシステムを形成する。各モジュール間の独立性を通じて新しい機能を柔軟に拡張できるので、複雑な開発タスクに適応することができる。また、シンプルで使いやすいwebインタラクション式開発方法を提供できるため、異なる技術的バックグラウンドを持つユーザー、ひいては深層学習の開発経験がないユーザーでも、カスタム化開発を実行することができる。
本開示の実施例によれば、本開示は、電子機器及びコンピュータ読み取り可能な記憶媒体を更に提供する。
図6は、本開示の実施例を実施するために使用することができる例示的な電子機器600を示す模式ブロック図である。例えば、図1に示すモデル訓練プラットフォーム100、図2に示すモデル訓練プラットフォーム200及び図3に示すコンピューティング機器310は電子機器600によって実施することができる。電子機器600は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及びその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブル機器、及びその他の類似の計算装置など、様々な形態の移動装置を示してもよい。本明細書に示されている部材、それらの接続と関係、及びそれらの機能は単なる例であるが、本明細書の説明及び/又は要求される本開示の実現を制限することを意図するものではない。
図6に示すように、機器600は、読み取り専用(ROM)602に記憶されたコンピュータプログラム又は記憶ユニット608からランダムアクセスメモリ(RAM)603にロードされたコンピュータプログラムに従って、様々な適切な動作及び処理を実行することができる計算ユニット601を含む。RAM603には、機器600の動作に必要な様々なプログラム及びデータが記憶されてもよい。計算ユニット601、ROM602及びRAM603は、バス604を介して互いに接続されている。入力/出力(I/O)インターフェース605もバス604に接続されている。
機器600の複数の部材はI/Oインターフェース605に接続され、キーボード、マウスなどの入力ユニット606と、さまざまなタイプのディスプレイ、スピーカーなどの出力ユニット607と、磁気ディスク、光ディスクなどの記憶ユニット608と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット609とを含む。通信ユニット609は、機器600が例えばインターネットのコンピュータネットワーク及び/又は各種の電信ネットワークを介して他の機器と情報/データを交換することを可能とする。
計算ユニット601は、処理能力及び計算能力を有する様々な汎用及び/又は専用の処理コンポーネントであってもよい。計算ユニット601のいくつかの例には、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどが含まれるが、これらに限定されるものではない。計算ユニット601は、上述した様々な方法及び処理、例えば、方法400、500を実行する。例えば、いくつかの実施例では、方法400、500は、記憶ユニット608などの機械読み取り可能な媒体に物理的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部を、ROM602及び/又は通信ユニット609を介して機器600にロード及び/又はインストールすることができる。コンピュータプログラムがRAM603にロードされ、計算ユニット601によって実行されると、上述した方法400、500の1つ又は複数のステップを実行することができる。オプションとして、別の実施例では、計算ユニット601は、他の任意の適切な方式で(例えば、ファームウェアによって)方法400、500を実行するように構成されてもよい。
本明細書に記載のシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップシステム(SOC)、ロードプログラマブルロジック機器(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、以下を含むことができる。1つ又は複数のコンピュータプログラムにおいて実施され、この1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行及び/又は解釈され得、このプログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令をこのストレージシステム、この少なくとも1つの入力装置、及びこの少なくとも1つの出力装置に送信することができる。
本開示の方法を実施するためのプログラムコードは1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。これらのプログラムコードは汎用コンピュータ、専用コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供することができ、それによりプログラムコードはプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施される。プログラムコードは完全に機械で実行されてもよく、部分的に機械で実行されてもよく、独立したソフトウェアパッケージとして一部が機械で実行されかつ一部が遠隔機械で実行されるか、又は完全に遠隔機械又はサーバで実行されてもよい。
本開示の文脈では、コンピュータ読み取り可能な媒体は、命令実行システム、装置、又は機器によって使用されるための、又は命令実行システム、装置、又は機器とともに使用されるためのプログラムを含むか格納することができる有形媒体とすることができる。コンピュータ読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体的なシステム、装置又は機器、あるいはこれらの任意の適切な組み合わせを含むことができるが、これらに限定されるものではない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリ)、光ファイバ、便利コンパクトディスク読み取り専用メモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで記載されたシステム及び技術はコンピュータ上で実施してもよく、このコンピュータは、ユーザに情報を表示するためのディスプレイ装置(たとえば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を提供するキーボード及びポインティング装置(たとえば、マウス又はトラックボール)とを含む。他の種類の装置は、ユーザとのインタラクションを提供するためにも使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形態の感知フィードバック(たとえば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は、任意の形式(音声入力、音声入力、又は触覚入力を含む)で受信することができる。
ここで記載されたシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(たとえば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(たとえば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(たとえば、ユーザがここで記載されたシステム及び技術の実施形態とインタラクションできるグラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)、又はそのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムにおいて実現され得る。システムのコンポーネントは、任意の形態又は媒体のデジタルデータ通信(たとえば、通信ネットワーク)を介して相互に接続することができる。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、及びインターネットが含まれる。
コンピュータシステムは、クライアント及びサーバを含むことができる。クライアント及びサーバは、一般的に互いに離れており、通常、通信ネットワークを介してインタラクションする。クライアントとサーバの関係は、対応するコンピュータ上で実行され互いにクライアント-サーバ関係を有するコンピュータプログラムによって生成される。
なお、上記の様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、削除したりすることができる。たとえば、本開示に記載された各ステップは、本開示で開示された技術案の所望の結果を達成できる限り、並行して実行されてもよいし、連続的に実行されてもよいし、異なる順序で実行されてもよく、本明細書において限定しない。
上記の具体的な実施形態は、本開示の保護範囲に対する制限を構成しない。当業者が理解できるように、設計要件及びその他の要素に応じて、様々な修正、組み合わせ、サブ組み合わせ及び代替が可能である。本開示の精神及び原則の範囲内で行われたいかなる修正、同等の置換や改良も、本開示の保護範囲に含まれるものとする。

Claims (26)

  1. 少なくとも1つのインタラクションモードを利用して行うインタラクションによって入力を受信することであって、前記インタラクションモードはインタラクションインターフェイスに関連することと、
    前記入力に基づいてユーザー指向のプレハブ機能を確定することであって、前記プレハブ機能は訓練すべきモデルに関連することと、
    前記入力に基づいて、モデルト訓練を行うことをサポートするために必要なモデル訓練機能を確定することであって、前記モデル訓練機能は前記モデルの訓練過程に関連することと、
    前記入力に基づいて、深層学習に基づいて事前訓練された事前訓練モデルを確定することと、
    前記事前訓練モデルの使用をサポートするように、前記入力に基づいて前記事前訓練モデルに関連するネットワーク構造を確定することと、
    前記入力に基づいて、前記プレハブ機能、前記モデル訓練機能及び前記事前訓練モデルを使用してモデルを訓練することと、
    前記少なくとも1つのインタラクションモードを利用して行うインタラクションによって、訓練された前記モデルに関連する出力を提供することとを含む、モデル訓練方法。
  2. 前記インタラクションは、
    ネットワーク選択に関連するインタラクションと、
    ネットワーク組立に関連するインタラクションと、
    ネットワーク記憶に関連するインタラクションと、
    訓練パッケージの組立に関連するインタラクションと、
    訓練タスクの開始に関連するインタラクションと、
    認証に関連するインタラクションと、
    統計に関連するインタラクションと、のうちの1つまたは複数のインタラクションを含む、請求項1に記載の方法。
  3. モデル訓練に関連付けられている機能の適用請求に関連する設定情報を受信することを更に含む、請求項1に記載の方法。
  4. 前記の設定情報を受信することは、
    前記設定情報を導入することと、
    前記設定情報を登録することと、
    前記設定情報に基づいてjson解析を行うことと、
    前記設定情報に基づいてクラス名マッチングを行うことと、のうちの1つまたは複数を含む、請求項3に記載の方法。
  5. 受信された前記入力を前処理することを更に含む、請求項1に記載の方法。
  6. 受信された前記入力を前処理することは、
    前処理のために前記入力からデータセットを読み取ることと、
    前処理のために前記入力からドメインを読み取ることと、
    前処理のために、前記入力をトークン化することと、
    前処理のために、前記入力からボキャブラリーを取得することと、のうちの1つまたは複数を含む、請求項5に記載の方法。
  7. 複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを使用することを更に含む、請求項1に記載の方法。
  8. 複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを使用することは、
    前記複雑学習タスクに用いられる順方向伝播ネットワークを使用することと、
    前記ネットワーク構造の設計及び開発に用いられる最適化戦略を使用することと、
    前記ネットワーク構造の設計及び開発に用いられる評価指標を使用することと、のうちの1つまたは複数を含む、請求項7に記載の方法。
  9. 前記入力に基づいてモデル訓練に関連する操作を調整することを更に含む、請求項1に記載の方法。
  10. 前記入力に基づいてモデル訓練に関連する操作を調整することは、
    前記入力に基づいて前記モデル訓練に関連する訓練フローを調整することと、
    前記入力に基づいて前記モデル訓練に関連する評価フローを調整することと、
    前記入力に基づいて前記モデル訓練に関連する可視化評価を調整することと、のうちの1つまたは複数を含む、請求項9に記載の方法。
  11. 訓練された前記モデルの適用に関連する機能を使用することで、訓練された前記モデルを適用することを更に含む、請求項1に記載の方法。
  12. 訓練された前記モデルの適用に関連する機能を使用することは、
    専用処理部配置機能、中央処理部配置機能、単一予測機能、バッチ予測機能、C++アプリケーションプログラミングインターフェース機能、及びPythonアプリケーションプログラミングインターフェース機能のうちの1つまたは複数の機能を使用することを含む、請求項11に記載の方法。
  13. モデル訓練プラットフォームであって、
    前記モデル訓練プラットフォームの外部から入力を受信すること及び前記モデル訓練プラットフォームの前記外部に出力を提供することをサポートするように、少なくとも1つのインタラクションモードを提供するように配置されるデータインタラクションモジュールであって、前記インタラクションモードはインタラクションインターフェイスに関連するデータインタラクションモジュールと、
    前記データインタラクションモジュールと前記モデル訓練プラットフォームにおけるほかのモジュールとの間のインタラクションのサポートを提供するように配置されるインタラクションサポートモジュールであって、前記インタラクションはモデル訓練に関連するインタラクションサポートモジュールと、
    ユーザー指向のプレハブ機能を提供するように配置される機能提供モジュールであって、前記プレハブ機能は前記モデル訓練プラットフォームによって訓練されたモデルに関連する機能提供モジュールと、
    前記モデル訓練プラットフォームを使用してモデル訓練を行うことをサポートすることに必要なモデル訓練機能を提供するように配置されるモデル訓練サポートモジュールであって、前記モデル訓練機能は前記モデルの訓練過程に関連するモデル訓練サポートモジュールと、
    深層学習に基づいて事前訓練された事前訓練モデルを提供するように配置される事前訓練モデルモジュールと、
    前記事前訓練モデルの使用をサポートするように、前記事前訓練モデルに関連するネットワーク構造を提供するように配置される事前訓練モデルサポートモジュールとを含む、モデル訓練プラットフォーム。
  14. 前記インタラクションサポートモジュールは、
    ネットワーク選択に関連するインタラクションと、
    ネットワーク組立に関連するインタラクションと、
    ネットワーク記憶に関連するインタラクションと、
    訓練パッケージの組立に関連するインタラクションと、
    訓練タスクの開始に関連するインタラクションと、
    認証に関連するインタラクションと、
    統計に関連するインタラクションと、のうちの1つまたは複数のインタラクションのサポートを提供するように配置される、請求項13に記載のモデル訓練プラットフォーム。
  15. 前記モデル訓練プラットフォームにおけるモジュールによって提供される機能の適用請求に関連する設定情報を受信するように配置される設定情報受信モジュールを更に含む、請求項13に記載のモデル訓練プラットフォーム。
  16. 前記設定情報受信モジュールは、
    前記設定情報を導入するように配置される設定情報導入モジュールと、
    前記設定情報を登録するように配置されるレジストラモジュールと、
    前記設定情報に基づいてjson解析を行うように配置されるjson解析モジュールと、
    前記設定情報に基づいてクラス名マッチングを行うように配置されるクラス名マッチングモジュールと、のうちの1つまたは複数を含む、請求項15に記載のモデル訓練プラットフォーム。
  17. 受信された前記入力を前処理するように配置されるデータ前処理モジュールを更に含む、請求項13に記載のモデル訓練プラットフォーム。
  18. 前記データ前処理モジュールは、
    前処理のために、前記入力からデータセットを読み取るように配置されるデータセット読み取りモジュールと、
    前処理のために、前記入力からドメインを読み取るように配置されるドメイン読み取りモジュールと、
    前処理のために、前記入力をトークン化するように配置されるトークナイザーモジュールと、
    前処理のために、前記入力からボキャブラリーを取得するように配置されるボキャブラリーモジュールと、のうちの1つまたは複数を含む、請求項17に記載のモデル訓練プラットフォーム。
  19. 複雑学習タスクのネットワーク構造の設計及び開発に対するサポートを提供するように配置される複雑学習タスクサポートモジュールを更に含む、請求項13に記載のモデル訓練プラットフォーム。
  20. 前記複雑学習タスクサポートモジュールは、
    前記複雑学習タスクに用いられる順方向伝播ネットワークを提供するように配置される順方向伝播ネットワークモジュールと、
    前記ネットワーク構造の設計及び開発に用いられる最適化戦略を提供するように配置される最適化戦略モジュールと、
    前記ネットワーク構造の設計及び開発に用いられる評価指標を提供するように配置される評価指標モジュールと、のうちの1つまたは複数を含む、請求項19に記載のモデル訓練プラットフォーム。
  21. 前記入力に基づいてモデル訓練に関連する操作を調整するように配置される訓練カスタムモジュールを更に含む、請求項13に記載のモデル訓練プラットフォーム。
  22. 前記訓練カスタムモジュールは、
    前記入力に基づいて前記モデル訓練に関連する訓練フローを調整するように配置されるカスタム訓練フローモジュールと、
    前記入力に基づいて前記モデル訓練に関連する評価フローを調整するように配置されるカスタム評価フローモジュールと、
    前記入力に基づいて前記モデル訓練に関連する可視化評価を調整するように配置される可視化評価モジュールと、のうちの1つまたは複数を含む請求項21に記載のモデル訓練プラットフォーム。
  23. 訓練された前記モデルの適用に関連する機能を提供するように配置されるモデル適用モジュールを更に含む、請求項13に記載のモデル訓練プラットフォーム。
  24. 前記モデル適用モジュールは、
    専用処理部配置機能、中央処理部配置機能、単一予測機能、バッチ予測機能、C++アプリケーションプログラミングインターフェース機能、及びPythonアプリケーションプログラミングインターフェース機能のうちの1つ又は複数の機能を提供するように配置される、請求項23に記載のモデル訓練プラットフォーム。
  25. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリとを含み、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶しており、前記命令は、前記少なくとも1つのプロセッサによって実行されて、請求項1~12のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させることを特徴とする電子機器。
  26. 請求項1~12のいずれか1項に記載の方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
JP2022020564A 2021-04-12 2022-02-14 モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体 Active JP7331175B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110386608.2A CN112799658B (zh) 2021-04-12 2021-04-12 模型训练方法、模型训练平台、电子设备和存储介质
CN202110386608.2 2021-04-12

Publications (2)

Publication Number Publication Date
JP2022068264A true JP2022068264A (ja) 2022-05-09
JP7331175B2 JP7331175B2 (ja) 2023-08-22

Family

ID=75816755

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022020564A Active JP7331175B2 (ja) 2021-04-12 2022-02-14 モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20220198153A1 (ja)
JP (1) JP7331175B2 (ja)
CN (1) CN112799658B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994542A (zh) * 2023-03-23 2023-04-21 南京邮电大学 基于特征融合与注意力机制的医疗问答文本情感分析方法
CN117875319A (zh) * 2023-12-29 2024-04-12 汉王科技股份有限公司 医疗领域标注数据的获取方法、装置、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194691A (ja) * 2011-03-15 2012-10-11 Olympus Corp 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
JP2017130196A (ja) * 2016-01-14 2017-07-27 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
JP2019185127A (ja) * 2018-04-02 2019-10-24 キヤノン株式会社 多層ニューラルネットワークの学習装置およびその制御方法
US20200401930A1 (en) * 2019-06-19 2020-12-24 Sap Se Design of customizable machine learning services

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229686B (zh) * 2016-12-14 2022-07-05 阿里巴巴集团控股有限公司 模型训练、预测方法、装置、电子设备及机器学习平台
CN108563204B (zh) * 2018-04-11 2021-01-01 北京木业邦科技有限公司 控制方法、装置、电子设备及计算机可读存储介质
CN109409528A (zh) * 2018-09-10 2019-03-01 平安科技(深圳)有限公司 模型生成方法、装置、计算机设备及存储介质
CN109656529B (zh) * 2018-10-31 2021-05-25 北京大学 一种针对客户端深度学习的在线定制化方法及系统
US20200202170A1 (en) * 2018-12-21 2020-06-25 Microsoft Technology Licensing, Llc Modular autotune for automated feed model training
CN110008319B (zh) * 2019-02-27 2021-06-29 百度在线网络技术(北京)有限公司 基于对话模板的模型训练方法和装置
CN110059237A (zh) * 2019-04-18 2019-07-26 合肥天毅网络传媒有限公司 一种基于搜索引擎的爱好信息采集系统及其推荐方法
US20210019665A1 (en) * 2019-07-18 2021-01-21 International Business Machines Corporation Machine Learning Model Repository Management and Search Engine
CN111259988A (zh) * 2020-02-24 2020-06-09 深圳前海微众银行股份有限公司 交互式随机森林集成方法、设备及可读存储介质
CN111399958B (zh) * 2020-03-17 2023-04-28 青岛创新奇智科技集团股份有限公司 具有用户交互界面的模型训练系统、方法
CN111860870A (zh) * 2020-07-29 2020-10-30 北京达佳互联信息技术有限公司 交互行为确定模型的训练方法、装置、设备及介质
CN112416333A (zh) * 2020-10-20 2021-02-26 北京迈格威科技有限公司 软件模型训练方法、装置、系统、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012194691A (ja) * 2011-03-15 2012-10-11 Olympus Corp 識別器の再学習方法、再学習のためのプログラム、及び画像認識装置
JP2017130196A (ja) * 2016-01-14 2017-07-27 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
JP2019185127A (ja) * 2018-04-02 2019-10-24 キヤノン株式会社 多層ニューラルネットワークの学習装置およびその制御方法
US20200401930A1 (en) * 2019-06-19 2020-12-24 Sap Se Design of customizable machine learning services

Also Published As

Publication number Publication date
JP7331175B2 (ja) 2023-08-22
CN112799658A (zh) 2021-05-14
CN112799658B (zh) 2022-03-01
US20220198153A1 (en) 2022-06-23

Similar Documents

Publication Publication Date Title
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
JP2022068264A (ja) モデル訓練方法、モデル訓練プラットフォーム、電子機器及び記憶媒体
JP2022529178A (ja) 人工知能推奨モデルの特徴処理方法、装置、電子機器、及びコンピュータプログラム
CN114911465B (zh) 算子的生成方法、装置、设备以及存储介质
JP2022019524A (ja) モデリングパラメータの設定方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
CN113626468B (zh) 基于人工智能的sql语句生成方法、装置、设备及存储介质
CN111651989A (zh) 命名实体识别方法和装置、存储介质及电子装置
Cao et al. Design and implementation of C-MEX S-functions in an Android-based networked control system laboratory
CN111158648B (zh) 一种基于实景语义理解的互动帮助系统开发方法及其平台
CN117009113A (zh) 人工智能模型的调用方法、装置、计算机设备及存储介质
CN116910201A (zh) 一种对话数据生成方法及其相关设备
Ulusoy et al. Omni-script: Device independent user interface development for omni-channel fintech applications
CN117273074A (zh) 一种数据处理方法及其装置
JP2020077054A (ja) 選定装置および選定方法
El Khatib et al. Prototyping Across the Disciplines
KR20230138714A (ko) 번역문 검수 에디터 제공 방법
Chadha et al. Html voice
CN114897146A (zh) 模型生成方法、装置和电子设备
US10996827B2 (en) System for rendering applications based on real time accessibility assessment
CN114047900A (zh) 业务处理方法、装置、电子设备及计算机可读存储介质
KR20220101787A (ko) Etl 장치 및 그것의 제어방법
Joshi et al. Audible code, a voice-enabled programming extension of visual studio code
Sarkar Other Useful Skills to Master
JP7269244B2 (ja) サービス管理アプリケーションインターフェースにおいてグローバリゼーション機能を提供するためのシステムおよび方法
Amelin et al. Introduction to the development of applications on the Intel Atom platform for netbooks and tablets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7331175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150