JP7283836B2 - マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム - Google Patents
マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム Download PDFInfo
- Publication number
- JP7283836B2 JP7283836B2 JP2022567027A JP2022567027A JP7283836B2 JP 7283836 B2 JP7283836 B2 JP 7283836B2 JP 2022567027 A JP2022567027 A JP 2022567027A JP 2022567027 A JP2022567027 A JP 2022567027A JP 7283836 B2 JP7283836 B2 JP 7283836B2
- Authority
- JP
- Japan
- Prior art keywords
- class
- meta
- model
- domain
- multitasking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
- Medical Informatics (AREA)
Description
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
インスタンスの典型的なスコアを計算する第2の段階であって、dselfで各インスタンスの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数はテキスト分類器が誤って予測したすべてのドメインにおけるインスタンスのラベルに対して罰則を与える第3の段階と、を含む。
マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデル、すなわちログインユーザが要求する下流タスクを含む事前訓練言語モデルの圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推論コンポーネントと、を含む。
Claims (2)
- マルチタスク言語モデル向けのメタ知識微調整方法であって、
同一クラスのタスクのクロスドメインデータセットのクラスプロトタイプを計算する第1の段階であって、同一クラスのタスクの異なるドメインにおけるデータセットから、当該クラスのタスクに対応するドメインのプロトタイプの入力テキストの埋め込み特徴を集中学習し、同一クラスのタスクの異なるドメインにおけるすべての入力テキストの平均埋め込み特徴を、対応する同一クラスのタスクのマルチドメインにおけるクラスプロトタイプとする第1の段階と、
インスタンスの典型的なスコアを計算する第2の段階であって、インスタンスは入力テキストとクラスラベルで構成され、マルチクラスのタスクに対応するすべてのドメインに対して、dselfで各インスタンスの入力テキストの埋め込み特徴と自己ドメインプロトタイプとの距離を表し、dothersで各インスタンスの入力テキストの埋め込み特徴と他のドメインプロトタイプとの距離を表し、各インスタンスの典型的なスコアはdselfとdothersとの線形結合と定義される第2の段階と、
典型的なスコアに基づくメタ知識微調整ネットワークである第3の段階であって、第2の段階で得られた典型的なスコアをメタ知識微調整ネットワークの重み係数とし、マルチタスクの典型的な機密ラベル分類損失関数を設計してメタ知識微調整の学習目的関数とし、当該損失関数を用いて訓練し、マルチタスク言語モデルを取得する第3の段階と、を含み、
前記第1の段階において、
ここで、m∈Mとし、Mはデータセットにおけるすべてのクラスラベルの集合であり、
クラスプロトタイプ
ここで、
前記第2の段階において、インスタンス
ここで、αは所定のバランスファクターであり、0<α<1とし、
前記第3の段階において、マルチタスクの典型的な機密ラベル分類損失関数LTは
ここで、Dはすべてのドメインの集合を表し、
ことを特徴とするマルチタスク言語モデル向けのメタ知識微調整方法。 - マルチタスク向けの事前訓練言語モデルの訓練サンプルを取得するためのデータ読み込みコンポーネントであって、前記訓練サンプルは教師あり学習タスクを満たすラベル付きのテキストサンプルであるデータ読み込みコンポーネントと、
マルチタスク向けの事前訓練言語モデルを自動的に圧縮するための自動圧縮コンポーネントであって、事前訓練言語モデルと、自動圧縮コンポーネントにより生成された事前訓練言語モデルにおいて下流タスクネットワークを構築し、典型的なスコアのメタ知識を用いて下流タスクシーンを微調整し、最終的に微調整された圧縮モデルを出力し、圧縮モデルを、ログインユーザがダウンロードできるように指定された容器に出力し、圧縮前後のモデルの大きさの比較情報を表示するためのメタ知識微調整モジュールと、を含む自動圧縮コンポーネントと、
ログインユーザがプラットフォームから取得可能な事前訓練言語モデルの圧縮モデルを提供し、前記自動圧縮コンポーネントから出力された圧縮モデルを用いて実際のシーンのデータセットにおいてログインユーザがアップロードした自然言語処理の下流タスクの新しいデータを推論し、圧縮前後の推論速度の比較情報を表示するための推理コンポーネントと、を含む、
ことを特徴とする請求項1に記載のマルチタスク言語モデル向けのメタ知識微調整方法に基づくプラットフォーム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011202867.7A CN112100383B (zh) | 2020-11-02 | 2020-11-02 | 一种面向多任务语言模型的元-知识微调方法及平台 |
CN202011202867.7 | 2020-11-02 | ||
PCT/CN2020/138014 WO2022088444A1 (zh) | 2020-11-02 | 2020-12-21 | 一种面向多任务语言模型的元-知识微调方法及平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023515902A JP2023515902A (ja) | 2023-04-14 |
JP7283836B2 true JP7283836B2 (ja) | 2023-05-30 |
Family
ID=81380128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022567027A Active JP7283836B2 (ja) | 2020-11-02 | 2020-12-21 | マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11354499B2 (ja) |
JP (1) | JP7283836B2 (ja) |
GB (1) | GB2609768A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114925814B (zh) * | 2022-05-26 | 2024-08-02 | 山东大学 | 基于注意力引导机制的预训练语言模型的微调方法及系统 |
CN115409124B (zh) * | 2022-09-19 | 2023-05-23 | 小语智能信息科技(云南)有限公司 | 基于微调原型网络的小样本敏感信息识别方法 |
CN117113198B (zh) * | 2023-09-24 | 2024-06-28 | 元始智能科技(南通)有限公司 | 一种基于半监督对比学习的旋转设备小样本故障诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767954A (zh) | 2017-10-16 | 2018-03-06 | 中国科学院地理科学与资源研究所 | 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法 |
US20200320982A1 (en) | 2019-04-05 | 2020-10-08 | Capital One Services, Llc | Determining Input Data for Speech Processing |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
CN111832282A (zh) | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8719701B2 (en) * | 2009-01-02 | 2014-05-06 | Apple Inc. | Identification of guides and gutters of a document |
WO2011058554A1 (en) * | 2009-11-10 | 2011-05-19 | Au10Tix Limited | Computerized integrated authentication/ document bearer verification system and methods useful in conjunction therewith |
US9367526B1 (en) * | 2011-07-26 | 2016-06-14 | Nuance Communications, Inc. | Word classing for language modeling |
US9218339B2 (en) * | 2011-11-29 | 2015-12-22 | Educational Testing Service | Computer-implemented systems and methods for content scoring of spoken responses |
US9564122B2 (en) * | 2014-03-25 | 2017-02-07 | Nice Ltd. | Language model adaptation based on filtered data |
US9529898B2 (en) * | 2014-08-26 | 2016-12-27 | Google Inc. | Clustering classes in language modeling |
RU2603495C1 (ru) * | 2015-06-16 | 2016-11-27 | Общество с ограниченной ответственностью "Аби Девелопмент" | Классификация изображений документов на основе параметров цветовых слоев |
GB201713728D0 (en) * | 2017-08-25 | 2017-10-11 | Just Eat Holding Ltd | System and method of language processing |
CN108830287A (zh) | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
US11790264B2 (en) * | 2019-06-19 | 2023-10-17 | Google Llc | Systems and methods for performing knowledge distillation |
US11620515B2 (en) * | 2019-11-07 | 2023-04-04 | Salesforce.Com, Inc. | Multi-task knowledge distillation for language model |
US20210142181A1 (en) * | 2019-11-07 | 2021-05-13 | Microsoft Technology Licensing, Llc | Adversarial training of machine learning models |
CN110909145B (zh) | 2019-11-29 | 2022-08-09 | 支付宝(杭州)信息技术有限公司 | 针对多任务模型的训练方法及装置 |
US11120839B1 (en) * | 2019-12-12 | 2021-09-14 | Amazon Technologies, Inc. | Segmenting and classifying video content using conversation |
CN111310848B (zh) | 2020-02-28 | 2022-06-28 | 支付宝(杭州)信息技术有限公司 | 多任务模型的训练方法及装置 |
CN111291166B (zh) | 2020-05-09 | 2020-11-03 | 支付宝(杭州)信息技术有限公司 | 基于Bert的语言模型的训练方法及装置 |
CN111814448B (zh) * | 2020-07-03 | 2024-01-16 | 思必驰科技股份有限公司 | 预训练语言模型量化方法和装置 |
CN112100383B (zh) * | 2020-11-02 | 2021-02-19 | 之江实验室 | 一种面向多任务语言模型的元-知识微调方法及平台 |
-
2020
- 2020-12-21 GB GB2214177.4A patent/GB2609768A/en active Pending
- 2020-12-21 JP JP2022567027A patent/JP7283836B2/ja active Active
-
2021
- 2021-11-22 US US17/531,813 patent/US11354499B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767954A (zh) | 2017-10-16 | 2018-03-06 | 中国科学院地理科学与资源研究所 | 一种基于空间贝叶斯网络的环境健康风险监测预警系统及方法 |
US20200320982A1 (en) | 2019-04-05 | 2020-10-08 | Capital One Services, Llc | Determining Input Data for Speech Processing |
CN111832282A (zh) | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 融合外部知识的bert模型的微调方法、装置及计算机设备 |
CN111767711A (zh) | 2020-09-02 | 2020-10-13 | 之江实验室 | 基于知识蒸馏的预训练语言模型的压缩方法及平台 |
Also Published As
Publication number | Publication date |
---|---|
US20220138414A1 (en) | 2022-05-05 |
GB2609768A9 (en) | 2023-03-08 |
GB2609768A (en) | 2023-02-15 |
JP2023515902A (ja) | 2023-04-14 |
US11354499B2 (en) | 2022-06-07 |
GB202214177D0 (en) | 2022-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100383B (zh) | 一种面向多任务语言模型的元-知识微调方法及平台 | |
JP7283836B2 (ja) | マルチタスク言語モデル向けのメタ知識微調整方法及びプラットフォーム | |
CN110427463B (zh) | 搜索语句响应方法、装置及服务器和存储介质 | |
CN108536681B (zh) | 基于情感分析的智能问答方法、装置、设备及存储介质 | |
CN110442718B (zh) | 语句处理方法、装置及服务器和存储介质 | |
CN109492229B (zh) | 一种跨领域情感分类方法和相关装置 | |
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110728298A (zh) | 多任务分类模型训练方法、多任务分类方法及装置 | |
CN112085120B (zh) | 多媒体数据的处理方法、装置、电子设备及存储介质 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN112148994B (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN113392640B (zh) | 一种标题确定方法、装置、设备及存储介质 | |
Zhang | Voice keyword retrieval method using attention mechanism and multimodal information fusion | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN114492661B (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN114416962B (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN109408619A (zh) | 一种面向问答领域动态计算问句与答案相似性的方法 | |
CN113590803A (zh) | 一种数据处理方法、装置、存储介质和计算机设备 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
Wu | English Vocabulary Learning Aid System Using Digital Twin Wasserstein Generative Adversarial Network Optimized With Jelly Fish Optimization Algorithm | |
CN113569091A (zh) | 视频数据的处理方法、装置 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
Zhang et al. | Scene categorization based on object bank |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221101 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221101 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7283836 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |