JP2021096813A - データ処理方法及び装置 - Google Patents

データ処理方法及び装置 Download PDF

Info

Publication number
JP2021096813A
JP2021096813A JP2020097658A JP2020097658A JP2021096813A JP 2021096813 A JP2021096813 A JP 2021096813A JP 2020097658 A JP2020097658 A JP 2020097658A JP 2020097658 A JP2020097658 A JP 2020097658A JP 2021096813 A JP2021096813 A JP 2021096813A
Authority
JP
Japan
Prior art keywords
sample
target
natural language
language processing
processing model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020097658A
Other languages
English (en)
Inventor
ツァオ・ユーホイ
Yuhui Cao
フェン・シークン
Shikun Feng
チェン・シュイー
Xuyi Chen
ホー・ジンヂョウ
Jingzhou He
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021096813A publication Critical patent/JP2021096813A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

【課題】高精度で、動作速度も速いミニモデルをトレーニングすることが可能なデータ処理方法及び装置を提供する。【解決手段】データ処理方法は、サンプルセットを取得し、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得し、取得した予測結果をそれぞれ複数のターゲットサンプルの中の各ターゲットサンプルのラベルとして確定し、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、訓練済み第2自然言語処理モデルを取得する。【選択図】図2

Description

本出願の実施例はコンピュータ技術分野に関し、具体的にインターネット技術分野に関し、特にデータ処理方法及び装置に関する。
言語処理技術の発展に伴い、自然言語処理(natural language processing、NLP)モデルが徐々に広く使用されるようになっている。様々な自然言語処理モデルも登場し、それらの中に、高処理精度を有し、規模も大きなモデルがある。
しかし、演算能力の制限で、処理精度の高い自然言語処理モデルが全ての計算プラットフォームの最適な選択ではない。一般的には、処理精度の高いモデルは予測速度が遅い。
本出願の実施例によりデータ処理方法及び装置が提出された。
第1態様において、本出願の実施例は、データ処理方法であって、ラベル無しの語句であるサンプルからなるサンプルセットを取得することと、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得することと、取得した予測結果をそれぞれ複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定することと、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得することであって、第1自然言語処理モデルのパラメータが第2自然言語処理モデルのパラメータよりも多い、ことと、を備えるデータ処理方法を提供する。
いくつかの実施例において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。
いくつかの実施例において、方法は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。
いくつかの実施例において、方法は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、更新済みサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。
いくつかの実施例において、方法は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。
第2態様において、本出願の実施例は、データ処理装置であって、ラベル無しの語句であるサンプルからなるサンプルセットを取得するように構成される取得手段と、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得するように構成される入力手段と、取得した予測結果をそれぞれ複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定するように構成される確定手段と、複数のターゲットサンプルと各ターゲットサンプルのラベルに基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得するように構成されるトレーニング手段であって、第1自然言語処理モデルのパラメータが第2自然言語処理モデルのパラメータよりも多いトレーニング手段と、を備えるデータ処理装置を提供する。
いくつかの実施例において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、更新済みサンプルをサンプルセットにサンプルとして追加することと、をさらに備える。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。
第3態様において、本出願の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサによって実行される場合、1つまたは複数のプロセッサにデータ処理方法のいずれかの実施例に記載の方法を実現させる電子機器を提供する。
第4態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行される時、データ処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
本出願の実施例により提供されたデータ処理方法は、まず、サンプルセットを取得し、ここで、サンプルセットにおけるサンプルはラベル無しの語句である。次に、サンプルセットにおけるターゲットサンプルを事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得する。次に、予測結果をターゲットサンプルのラベルとして確定する。最后に、ターゲットサンプルとターゲットサンプルのラベルに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得し、ここで、第1自然言語処理モデルのパラメータが第2自然言語処理モデルのパラメータよりも多い。本出願の上記実施例により提供された解決策は第1自然言語処理モデルの予測結果をサンプルのラベルとして利用することができ、大量の、ラベルが存在するサンプルを取得してミニモデルをトレーニングすることができ、それによって、高精度を有し、動作速度も速いミニモデルがトレーニングにより得られることができる。
以下の図面を参照してなされる非限定的な実施例に対する詳細な説明により、本出願の他の特徴、目的及び利点がより明らかになる。
本出願のいくつかの実施例を適用可能な例示的なシステムアーキテクチャである。 本出願に係るデータ処理方法の一実施例のフローチャートである。 本出願に係るデータ処理方法の一応用シナリオの概略図である。 本出願に係るデータ処理装置の一実施例の構成概略図である。 本出願のいくつかの実施例を実施するための電子機器に適するコンピュータシステムの構成概略図である。
以下は、図面及び実施例を参照して本出願をさらに詳細に説明する。ここで開示された実施例は、本出願を解釈するためのものであって制限的なものではないことを理解されたい。なお、説明の便宜上、図面は開示の関連する部分のみを示している。
なお、矛盾が生じない状況で本出願の実施例及び実施例の特徴は、互いに組み合わせることができる。以下は図面を参照しながら実施例を踏まえて本出願をさらに詳細に説明する。
図1は本出願のデータ処理方法またはデータ処理装置の実施例を適用可能なシステムアーキテクチャ100の例を示す。
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105を備えることができる。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクの媒体を提供するためのものである。ネットワーク104は、有線、無線通信リンク又は光ファイバケーブル等の様々な接続タイプを含むことができる。
ユーザは、端末装置101、102、103を用いて、ネットワーク104を介してサーバ105と情報のやり取りを行うことにより、メッセージ等を送受信することができる。端末装置101、102、103には様々な通信クライアントアプリケーション、例えばデータ処理アプリケーション、ビデオアプリケーション、生放送アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされることができる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103はハードウェアである場合、ディスプレイを備える各種の電子機器であってもよく、それは、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップコンピュータ及びデスクトップコンピュータ等に限定されるものではない。端末装置101、102、103がソフトウェアである場合、上記した電子機器にインストールされることができる。それは複数のソフトウェア又はソフトウェアモジュール(例えば分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュール)として実装されることができるし、単一のソフトウェア又はソフトウェアモジュールとして実装されることもできる。ここでは特に限定しない。
サーバ105は各種のサービスを提供するサーバであってもよく、例えば端末装置101、102、103にサポートを提供するバックグラウンドサーバである。バックグラウンドサーバは、サンプルセット等のデータに対して解析等の処理を行い、処理結果(例えば、トレーニング済み第2自然言語処理モデル)を端末装置にフィードバックする。
なお、本出願の実施例により提供されたデータ処理方法は、サーバ105または端末装置101、102、103で実行することができ、従って、データ処理装置はサーバ105または端末装置101、102、103に設置されることができる。
図1の端末装置、ネットワーク及びサーバの数は例示のみであることを理解されたい。実施の需要に応じ、任意の数の端末装置、ネットワーク及びサーバを備えることができる。
続いて、本出願に係るデータ処理方法の一実施例の流れ200を示す図2を参照する。該データの処理方法は以下のステップを含む。
ステップ201では、サンプルセットを取得し、ここで、サンプルセットにおけるサンプルはラベル無しの語句である。
本実施例において、データ処理方法の実行主体(例えば、図1に示すサーバまたは端末装置)はサンプルセットを取得することができる。サンプルセットはサンプルにより構成される。サンプルセットのサンプルにラベル(label)が存在しない場合、ラベル無しのサンプルである。ここでのサンプルは語句そのものであってもよく、語句を単語に分割した結果であってもよい。
ステップ202では、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得する。
本実施例において、上記の実行主体はサンプルセットにおける複数のターゲットサンプルのそれぞれに対し、該ターゲットサンプルを事前トレーニングされた第1自然言語処理モデルに入力し、該モデルから出力された、該ターゲットサンプルに対応する予測結果を取得する。ここでの複数のターゲットサンプルはサンプルセットの全てのサンプルであってもよく、サンプルセットの部分のサンプルであってもよい。
具体的には、上記実行主体または他の電子機器は、手動でラベル付けられたサンプルを利用して第1自然言語処理モデルを事前トレーニングすることにより、事前トレーニングされた第1自然言語処理モデルを取得する。
ステップ203では、取得した予測結果それぞれを複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定する。
本実施例において、上記実行主体は、事前トレーニングされた第1自然言語処理モデルによるターゲットサンプルの予測結果を該ターゲットサンプルのラベルとして確定することができる。具体的には、事前トレーニングされた第1自然言語処理モデルは教師モデル(Teacher Model)として、知識の蒸留、すなわちターゲットサンプルに対する予測により、該ターゲットサンプルにラベル付けることを実現することができる。
ステップ204では、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得し、ここで、第1自然言語処理モデルのパラメータは第2自然言語処理モデルのパラメータよりも多い。
本実施例において、上記実行主体はターゲットサンプル及びそのラベルに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得することができる。第1自然言語処理モデルに比して、第2自然言語処理モデルはパラメータが少なく処理速度が速いモデルである。第2自然言語処理モデルを上記教師モデルの学生モデル(Student Model)とすることができ、それによって、教師モデルにより生成されたラベルを利用してトレーニングを行う。上記実行主体は、トレーニング済み第2自然言語処理モデルを利用して予測を行うことができ、該予測の予測速度はトレーニング対象である第2自然言語処理モデルの予測速度よりも速く、取得した予測結果がトレーニング対象である第2自然言語処理モデルによる予測結果よりも正確率が高い。
ここでの、トレーニング対象である第2自然言語処理モデルは、トレーニングされていない初期の第2自然言語処理モデルであってもよく、事前トレーニング(Pre−train)が実行された第2自然言語処理モデルであってもよい。
実際に、第1自然言語処理モデルは、例えば、知識統合による強化表現(Enhanced Representation from Knowledge Integration、ERNIE)モデル、またはBERT(Bidirectional Encoder Representations from Transformers)モデルなど、各種のモデルであってもよい。第2自然言語処理モデルは、各種のモデルであってもよく、例えば単語の袋(Bag of words,BoW)モデル、双方向長・短期記憶(Bi−directional Long Short−Term Memory、Bi−LSTM)モデル。
本出願の上記実施例により提供された方法は、第1自然言語処理モデルの予測結果をサンプルのラベルとして利用することができ、大量の、ラベルが存在するサンプルを取得してミニモデルをトレーニングすることができ、それによって、高精度を有し、動作速度も速い、ミニモデルがトレーニングにより得られることができる。
本実施例のいくつかの選択可能な実施形態において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。
これらの選択可能な実施形態において、ターゲットサンプルのラベルは、サンプルが少なくとも2つのタイプのうちの一つのタイプの予測結果に属する確率をサンプルセットにおけるサンプルのラベルとして採用することができ、すなわち、少なくとも二次元の確率分布(soft−label)をラベルとして採用することができる。
これらの実施形態のラベルは、サンプルがどのタイプの分類結果に属するのみについてラベル付けることに比して、正確率が高く、それによって、トレーニングにより得られたモデルの正確度及び適合度をいっそう向上することができる。
本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子を含むサンプルにおいて、ターゲット単語の数が、該サンプルの単語の数に対して目標比率または目標数量を占めることと、指定された識別子が含まれるサンプルを、サンプルセットにサンプルとして追加することと、を備えることができる。
これらの選択可能な実施形態において、上記実行主体は、サンプルの単語のうちのターゲット単語を指定された識別子に置き換えることができる。ここでの指定された識別子は置き換えられた単語を隠すことができ、それによって、自然言語処理モデルが、置き換えた後のサンプルを利用して、どのように他の単語を利用して隠された単語を取得できるかを学習し、他の単語は例えばコンテキストの単語であってもよい。例えば、指定された識別子は「UNK」であってもよい。
ここでのターゲット単語はサンプルにおいてランダムに選択されたものであってもよく、所定の規則に基づいて選択されたものであってもよい。上記実行主体はいくつかまたは全てのサンプルのうちの各サンプルに対して、該サンプルにおける所定の比率の単語をターゲット単語とすることができる。
これらの実施形態において、該サンプルセットにおいて、オリジナルサンプル、例えば上記単語の置き換えのためのサンプルが存在できるが、置き換え済みの追加サンプルも存在できる。それによって、サンプルセットに対する拡張を実現する。また、目標比率と目標数量により、サンプルを拡張するとともに、追加サンプルの数を制御することを実現することができる。また、指定された識別子により、モデルの、隠れた単語に対する予測能力を強めることができる。
本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルのターゲット単語を、同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、更新済みサンプルをサンプルセットにサンプルとして追加することと、を備えてもよい。
これらの選択可能な実施形態において、上記実行主体は、サンプルにおけるターゲット単語を更新することにより、新しいサンプルを取得することができる。ここでのターゲット単語は、サンプルにおいてランダムに選択されたものであってもよいし、所定の規則により選択されたものであってもよい。上記実行主体は、ターゲット単語の品詞と同じである各単語から、1つの単語をランダムに選択するか、または、事前設定された規則に従って選択して、該ターゲット単語を置き換えることができる。
これらの実施形態において、同じ品詞の単語を採用してターゲット単語を置き換えることで、新しいサンプルを生成し、サンプルセットに対して差別化の高品質な拡張を行うことができる。
本実施例のいくつかの選択可能な実施形態において、上記方法はさらに、サンプルセットにおけるサンプルに対して目標長さのセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、を備えてもよい。
これらの選択可能な実施形態において上記実行主体は、サンプルセットに存在するサンプルから、一部を抽出して新しいサンプルとすることができる。目標長さは複数の異なる数値であってもよい。具体的には、目標長さはランダムな数値であってもよく、事前設定された数値であってもよい。抽出位置はランダムに選択されてもよく、例えば、サンプルの先頭の3つの単語を選択するなど、所定の規則に従って選択されてもよい。一般的には、抽出位置は語句において単語を分割する分割位置であってもよく、また、単語を分割する分割位置以外の位置を抽出位置としてもよい。
これらの実施形態は、サンプルの有効拡張を実現するために、セグメントを抽出することによりサンプルの多様性を向上することができる。
サンプルセットにおいて、追加されたサンプルと追加前のオリジナルサンプルは所定の比率で混合されることができるので、いっそう優れたトレーニング效果を達成することができる。
続いて、本実施例に係るデータ処理方法の応用シナリオの概略図である図3を参照する。図3の応用シナリオにおいて、実行主体301は、サンプルセットを取得でき、ここで、サンプルセットにおけるサンプルはラベル無しの語句に対して行われた単語分割の結果である。実行主体301は、サンプルセットにおけるターゲットサンプル302を事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果303を取得し、実行主体301は、予測結果をターゲットサンプルのラベル304として確定する。実行主体301は、ターゲットサンプル302とターゲットサンプルのラベル304に基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデル305を取得し、ここで、第1自然言語処理モデルのパラメータは第2自然言語処理モデルのパラメータよりも多い。
さらに図4を参考し、上記各図に示す方法の実現として、本出願はデータ処理装置の一実施例を提供し、該装置の実施例は図2に示す方法の実施例に対応し、以下に記載された特徴以外、該装置の実施例はさらに、図2に示す方法の実施例と同じまたは相応の特徴や效果を備えてもよい。該装置は具体的に各種の電子機器に適用できる。
図4に示すように、本実施例のデータ処理装置400は、取得手段401、入力手段402、確定手段403及びトレーニング手段404を備える。ここで、取得手段401はサンプルセットを取得するように構成され、ここで、サンプルセットにおけるサンプルがラベル無しの語句であり、入力手段402は、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得するように構成され、確定手段403は、取得した予測結果をそれぞれ複数のターゲットサンプルのそれぞれのラベルとして確定するように構成され、トレーニング手段404は、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得するように構成され、ここで、第1自然言語処理モデルのパラメータは第2自然言語処理モデルのパラメータよりも多い。
いくつかの実施例において、データ処理装置400の取得手段401はサンプルセットを取得する。サンプルセットはサンプルにより構成される。サンプルセットのサンプルにラベルが存在しなく、すなわちラベル無しのサンプルである。ここでのサンプルは語句そのものであってもよく、語句に対して単語を分割した結果であってもよい。
いくつかの実施例において、入力手段402は、サンプルセットの複数のターゲットサンプルのそれぞれに対して、該ターゲットサンプルを事前トレーニングされた第1自然言語処理モデルに入力し、該モデルから出力された、該ターゲットサンプルに対応する予測結果を取得することができる。ここでの複数のターゲットサンプルはサンプルセットにおける全てのサンプルであってもよく、サンプルセットにおける一部のサンプルであってもよい。
いくつかの実施例において、確定手段403は、事前トレーニングされた第1自然言語処理モデルによるターゲットサンプルへの予測結果を、該ターゲットサンプルのラベルとして確定することができる。具体的には、事前トレーニングされた第1自然言語処理モデルは教師モデルとして、知識の蒸留、すなわちターゲットサンプルに対する予測により、該ターゲットサンプルに対してラベル付けることを達成することができる。
いくつかの実施例において、トレーニング手段404はターゲットサンプル及びそのラベルに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得することができる。第1自然言語処理モデルに比して、第2自然言語処理モデルはパラメータがより少なく、処理速度がより速いモデルである。
本実施例のいくつかの選択可能な実施形態において、ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである。
本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加することと、を備える。
本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいてターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占めることと、更新済みサンプルをサンプルセットにサンプルとして追加することと、を備える。
本実施例のいくつかの選択可能な実施形態において、装置はさらに、サンプルセットにおけるサンプルから、目標長さのセグメントを抽出することと、抽出されたセグメントをサンプルセットにサンプルとして追加することと、をさらに備える。
図5に示すように、電子機器500は、ROM(Read Only Memory)502に格納されたプログラムや、記憶装置508からRAM(Random Access Memory)503にロードされたプログラムに基づき、各種の適当な動作や処理を実行することができる処理装置(例えば、中央処理装置、グラフィックプロセッサ等)501を備えることができる。RAM503には、電子機器500の操作に必要な各種プログラムやデータが記憶される。処理装置501、ROM502及びRAM503は、バス504を介して相互に接続されている。バス504には、入出力(I/O)インタフェース505も接続されている。
I/Oインタフェース505には、一般的には、入力装置506、出力装置507、記憶装置608、通信装置509が接続されることができ、入力装置506は例えばタッチパネル、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどを含み、出力装置507は、例えば、LCD(Liquid Crystal Display)、スピーカ、バイブレータなどを含み、記憶装置508は例えば、磁気テープ、ハードディスクなどを含む。通信装置509は、データを交換するために、電子機器500が他の装置と無線又は有線通信を行うことを可能にすることができる。なお、図5は、各種の装置を備えた電子機器500を示したが、図示した全ての装置を実施又は備えることが要求されていないことを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えることができる。図5に示す各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を代表してもよい。
特に、本出願の実施例に基づき、上述のフローチャートを参照して説明したプロセスは、コンピュータソフトウェアプログラムとして実現されることが可能である。例えば、本出願の実施例は、フローチャートに示された方法を実行するためのプログラムコードを含む、コンピュータ可読媒体上に担持されたコンピュータプログラム製品を含む。このような実施例では、コンピュータプログラムは、通信装置509を介してネットワークからダウンロードされインストールされたり、記憶装置508からインストールされたり、RОM502からインストールされたりすることができる。このコンピュータプログラムが処理装置501によって実行されると、本出願の実施形態の方法に限定された上記機能が実行される。なお、本出願の実施形態で説明したコンピュータ可読媒体は、コンピュータ可読信号媒体若しくはコンピュータ可読記憶媒体、又は上記両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例は、1本又は複数本のリード線を有する電気的に接続された携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(RОM)、消去可能プログラマブル読取り専用メモリ(EPRОM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読取り専用メモリ(CD−RОM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限られない。本出願の実施形態では、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを含む又は記憶する任意の有形の媒体であり得る。本出願の実施形態では、コンピュータ可読信号媒体は、ベースバンド内において又はキャリアの一部として伝播された、コンピュータ可読プログラムコードを搬送しているデータ信号を含んでもよい。このような伝播されたデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含むが、これらに限られない様々な形態を採用することができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、電線、光ケーブル、RF(無線周波数)など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送することができる。
添付図面におけるフローチャート及びブロック図は、本出願の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の実施可能なアーキテクチャ、機能、及び動作を示している。ここで、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができる。該モジュール、プログラムセグメント、又はコードの一部は、指定されたロジック関数を実施するための1つ又は複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行する専用のハードウェアベースのシステムで実施することも、又は専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
本出願の実施例において説明された手段は、ソフトウェア又はハードウェアによって実施され得る。説明された手段はプロセッサに内蔵されてもよい。例えば、「取得手段、入力手段、確定手段及びトレーニング手段を備えるプロセッサ」と記載されてもよい。これらの手段の名称は、手段そのものに対する限定ではなく、例えば、取得手段は、「サンプルセットを取得する手段」と記載されてもよい。
一方、本出願はさらにコンピュータ可読媒体を提供し、該コンピュータ可読媒体は上記実施例で説明した装置に含まれるものであってよいし、独立で存在して該装置に取り付けられていないものであってもよい。上記コンピュータ可読媒体には1つ又は複数のプログラムが記憶され、上記1つ又は複数のプログラムが該電子機器に実行される時に、該装置は、サンプルセットを取得することであって、サンプルセットにおけるサンプルはラベル無しの語句であることと、サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得することと、取得した予測結果をそれぞれ複数のターゲットサンプルのそれぞれのラベルとして確定することと、複数のターゲットサンプルと各ターゲットサンプルのラベルとに基づいてトレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得することであって、第1自然言語処理モデルのパラメータは第2自然言語処理モデルのパラメータよりも多いことと、を行う。
上記の説明は、あくまでも本出願の好ましい実施形態及び応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴又はその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換える置き換え手段であって、指定された識別子が含まれるサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、置き換え手段と、指定された識別子が含まれるサンプルをサンプルセットにサンプルとして追加する識別子付きサンプル追加手段と、をさらに備える。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新する更新手段であって、更新済みサンプルにおいて、ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、更新手段と、更新済みサンプルをサンプルセットにサンプルとして追加する更新済みサンプル追加手段と、をさらに備える。
いくつかの実施例において、装置は、サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出する抽出手段と、抽出されたセグメントをサンプルセットにサンプルとして追加するセグメント追加手段と、をさらに備える。
第4態様において、本出願の実施例は、コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、該プログラムがプロセッサによって実行される時、データ処理方法のいずれかの実施例に記載の方法を実現するコンピュータ可読記憶媒体を提供する。
第5態様において、本出願の実施例は、コンピュータプログラムであって、前記コンピュータプログラムがプロセッサにより実行されると、データ処理方法のいずれかの実施例に記載の方法を実現する、コンピュータプログラムを提供する。

Claims (12)

  1. ラベル無しの語句であるサンプルからなるサンプルセットを取得することと、
    前記サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、前記事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得することと、
    取得した予測結果それぞれを前記複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定することと、
    前記複数のターゲットサンプルと前記各ターゲットサンプルのラベルとに基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得することであって、前記第1自然言語処理モデルのパラメータが前記第2自然言語処理モデルのパラメータよりも多い、ことと、を備えるデータ処理方法。
  2. 前記ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである請求項1に記載の方法。
  3. 前記方法は、
    前記サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
    前記指定された識別子が含まれるサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項1に記載の方法。
  4. 前記方法は、
    前記サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
    更新済みサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項1に記載の方法。
  5. 前記方法は、
    前記サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、
    抽出されたセグメントを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項1に記載の方法。
  6. ラベル無しの語句であるサンプルからなるサンプルセットを取得するように構成される取得手段と、
    前記サンプルセットにおける複数のターゲットサンプルをそれぞれ事前トレーニングされた第1自然言語処理モデルに入力し、前記事前トレーニングされた第1自然言語処理モデルから出力された予測結果を取得するように構成される入力手段と、
    取得した予測結果それぞれを前記複数のターゲットサンプルのうちの各ターゲットサンプルのラベルとして確定するように構成される確定手段と、
    前記複数のターゲットサンプルと前記各ターゲットサンプルのラベルに基づいて、トレーニング対象である第2自然言語処理モデルをトレーニングし、トレーニング済み第2自然言語処理モデルを取得するように構成されるトレーニング手段であって、前記第1自然言語処理モデルのパラメータが前記第2自然言語処理モデルのパラメータよりも多いトレーニング手段と、を備えるデータ処理装置。
  7. 前記ターゲットサンプルのラベルは、ターゲットサンプルが少なくとも2つのタイプのうちのいずれかのタイプに属する確率を示すためのものである請求項6に記載の装置。
  8. 前記装置は、
    前記サンプルセットにおけるサンプルのターゲット単語を指定された識別子に置き換えることであって、指定された識別子が含まれるサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
    前記指定された識別子が含まれるサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項6に記載の装置。
  9. 前記装置は、
    前記サンプルセットにおけるサンプルのターゲット単語を同じ品詞の他の単語に更新することであって、更新済みサンプルにおいて、前記ターゲット単語の数が該サンプルの単語の数に対して目標比率または目標数量を占める、ことと、
    更新済みサンプルを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項6に記載の装置。
  10. 前記装置は、
    前記サンプルセットにおけるサンプルに対して、目標長さを有するセグメントを抽出することと、
    抽出されたセグメントを前記サンプルセットにサンプルとして追加することと、をさらに備える請求項6に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサに請求項1〜5のいずれか1項に記載の方法を実現させる電子機器。
  12. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    該プログラムがプロセッサによって実行される時、請求項1〜5のいずれか1項に記載の方法を実現するコンピュータ可読記憶媒体。
JP2020097658A 2019-12-18 2020-06-04 データ処理方法及び装置 Pending JP2021096813A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911307167.1 2019-12-18
CN201911307167.1A CN111104482A (zh) 2019-12-18 2019-12-18 数据处理方法和装置

Publications (1)

Publication Number Publication Date
JP2021096813A true JP2021096813A (ja) 2021-06-24

Family

ID=70422138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020097658A Pending JP2021096813A (ja) 2019-12-18 2020-06-04 データ処理方法及び装置

Country Status (3)

Country Link
US (1) US20210192288A1 (ja)
JP (1) JP2021096813A (ja)
CN (1) CN111104482A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259796A1 (ja) 2021-06-09 2022-12-15 株式会社神戸製鋼所 吸引装置、吸引方法、溶接システム、溶接方法、及び付加製造方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020220369A1 (en) 2019-05-01 2020-11-05 Microsoft Technology Licensing, Llc Method and system of utilizing unsupervised learning to improve text to content suggestions
US11727270B2 (en) * 2020-02-24 2023-08-15 Microsoft Technology Licensing, Llc Cross data set knowledge distillation for training machine learning models
CN111709252B (zh) * 2020-06-17 2023-03-28 北京百度网讯科技有限公司 基于预训练的语义模型的模型改进方法及装置
CN111768001B (zh) * 2020-06-30 2024-01-23 平安国际智慧城市科技股份有限公司 语言模型的训练方法、装置和计算机设备
CN112307053B (zh) * 2020-10-28 2023-10-17 北京百分点科技集团股份有限公司 基于强化学习的语言处理方法及装置
CN112966712B (zh) * 2021-02-01 2023-01-20 北京三快在线科技有限公司 语言模型训练方法、装置、电子设备和计算机可读介质
CN112905789B (zh) * 2021-02-02 2023-02-28 中国建设银行股份有限公司 一种基于自然语言处理的非结构化数据处理方法及系统
CN113488023B (zh) * 2021-07-07 2022-06-14 合肥讯飞数码科技有限公司 一种语种识别模型构建方法、语种识别方法
CN113553097B (zh) * 2021-07-30 2022-11-18 上海玳鸽信息技术有限公司 模型版本管理方法及装置
CN114970540A (zh) * 2022-05-11 2022-08-30 北京百度网讯科技有限公司 训练文本审核模型的方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570197A (zh) * 2016-11-15 2017-04-19 北京百度网讯科技有限公司 基于迁移学习的搜索排序方法和装置
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
JP2018055671A (ja) * 2016-09-21 2018-04-05 パナソニックIpマネジメント株式会社 換言文識別方法、換言文識別装置及び換言文識別プログラム
WO2019022136A1 (ja) * 2017-07-25 2019-01-31 国立大学法人東京大学 学習方法、学習プログラム、学習装置及び学習システム
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110232411A (zh) * 2019-05-30 2019-09-13 北京百度网讯科技有限公司 模型蒸馏实现方法、装置、系统、计算机设备及存储介质
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP2019197336A (ja) * 2018-05-08 2019-11-14 株式会社日本経済新聞社 学習データ生成装置、方法、およびプログラム
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9875736B2 (en) * 2015-02-19 2018-01-23 Microsoft Technology Licensing, Llc Pre-training and/or transfer learning for sequence taggers
US11062228B2 (en) * 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
KR102570278B1 (ko) * 2017-07-31 2023-08-24 삼성전자주식회사 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
CN107608970B (zh) * 2017-09-29 2024-04-26 百度在线网络技术(北京)有限公司 词性标注模型生成方法和装置
CN110008335A (zh) * 2018-12-12 2019-07-12 阿里巴巴集团控股有限公司 自然语言处理的方法及装置
US11003867B2 (en) * 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
CN110070183B (zh) * 2019-03-11 2021-08-20 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
CN110175628A (zh) * 2019-04-25 2019-08-27 北京大学 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN110175329B (zh) * 2019-05-28 2023-07-18 度小满科技(北京)有限公司 一种样本扩充的方法、装置、电子设备与存储介质
CN110348572B (zh) * 2019-07-09 2022-09-30 上海商汤智能科技有限公司 神经网络模型的处理方法及装置、电子设备、存储介质
CN110442874B (zh) * 2019-08-09 2023-06-13 南京邮电大学 一种基于词向量的中文词义预测方法
CN112487182B (zh) * 2019-09-12 2024-04-12 华为技术有限公司 文本处理模型的训练方法、文本处理方法及装置
US10963636B1 (en) * 2019-10-17 2021-03-30 Sap Se Sourcing object creation from natural language inputs
US11620515B2 (en) * 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11651211B2 (en) * 2019-12-17 2023-05-16 Adobe Inc. Training of neural network based natural language processing models using dense knowledge distillation
US11704602B2 (en) * 2020-01-02 2023-07-18 Intuit Inc. Method for serving parameter efficient NLP models through adaptive architectures

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018051841A1 (ja) * 2016-09-16 2018-03-22 日本電信電話株式会社 モデル学習装置、その方法、及びプログラム
JP2018055671A (ja) * 2016-09-21 2018-04-05 パナソニックIpマネジメント株式会社 換言文識別方法、換言文識別装置及び換言文識別プログラム
CN106570197A (zh) * 2016-11-15 2017-04-19 北京百度网讯科技有限公司 基于迁移学习的搜索排序方法和装置
WO2019022136A1 (ja) * 2017-07-25 2019-01-31 国立大学法人東京大学 学習方法、学習プログラム、学習装置及び学習システム
JP2019159654A (ja) * 2018-03-12 2019-09-19 国立研究開発法人情報通信研究機構 時系列情報の学習システム、方法およびニューラルネットワークモデル
JP2019197336A (ja) * 2018-05-08 2019-11-14 株式会社日本経済新聞社 学習データ生成装置、方法、およびプログラム
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110232411A (zh) * 2019-05-30 2019-09-13 北京百度网讯科技有限公司 模型蒸馏实现方法、装置、系统、计算机设备及存储介质
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIU, LINQING 外4名: "Attentive Student Meets Multi-Task Teacher: Improved Knowledge Distillation for Pretrained Models", [オンライン], vol. [2022/5/18検索], JPN6022020562, 9 November 2019 (2019-11-09), pages 1 - 11, ISSN: 0004959122 *
SHI, YANGYANG 外3名: "KNOWLEDGE DISTILLATION FOR RECURRENT NEURAL NETWORK LANGUAGE MODELING WITH TRUST REGULARIZATION", ICASSP 2019, vol. [2022/5/18検索], JPN6022020563, 12 May 2019 (2019-05-12), pages 7230 - 7234, XP033566083, ISSN: 0004959121, DOI: 10.1109/ICASSP.2019.8683533 *
政瀧 浩和 外2名: "Knowledge Distillationを用いたRNN言語モデルのドメイン適応", 日本音響学会 2017年 秋季研究発表会講演論文集CD−ROM [CD−ROM], JPN6022020564, 11 September 2017 (2017-09-11), JP, pages 135 - 136, ISSN: 0004786843 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022259796A1 (ja) 2021-06-09 2022-12-15 株式会社神戸製鋼所 吸引装置、吸引方法、溶接システム、溶接方法、及び付加製造方法

Also Published As

Publication number Publication date
US20210192288A1 (en) 2021-06-24
CN111104482A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
JP2021096813A (ja) データ処理方法及び装置
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
CN109460513B (zh) 用于生成点击率预测模型的方法和装置
CN109902186B (zh) 用于生成神经网络的方法和装置
US10861456B2 (en) Generating dialogue responses in end-to-end dialogue systems utilizing a context-dependent additive recurrent neural network
US20190325308A1 (en) Multi-task learning using knowledge distillation
CN108877782B (zh) 语音识别方法和装置
CN109981787B (zh) 用于展示信息的方法和装置
CN110140133A (zh) 机器学习任务的隐式桥接
CN111523640B (zh) 神经网络模型的训练方法和装置
CN109858045B (zh) 机器翻译方法和装置
CN111340220B (zh) 用于训练预测模型的方法和装置
CN109933217B (zh) 用于推送语句的方法和装置
CN112650841A (zh) 信息处理方法、装置和电子设备
WO2023185391A1 (zh) 交互式分割模型训练方法、标注数据生成方法及设备
CN111738010A (zh) 用于生成语义匹配模型的方法和装置
CN112306447A (zh) 一种界面导航方法、装置、终端和存储介质
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN111026849B (zh) 数据处理方法和装置
CN111090740B (zh) 一种用于对话系统的知识图谱生成方法
CN110991661A (zh) 用于生成模型的方法和装置
CN115801980A (zh) 视频生成方法和装置
CN110633476B (zh) 用于获取知识标注信息的方法及装置
CN114511152A (zh) 预测模型的训练方法和装置
CN111767290B (zh) 用于更新用户画像的方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230110