CN117171554A - 一种模型训练方法及相关设备 - Google Patents

一种模型训练方法及相关设备 Download PDF

Info

Publication number
CN117171554A
CN117171554A CN202210571345.7A CN202210571345A CN117171554A CN 117171554 A CN117171554 A CN 117171554A CN 202210571345 A CN202210571345 A CN 202210571345A CN 117171554 A CN117171554 A CN 117171554A
Authority
CN
China
Prior art keywords
semantic unit
feature vector
alignment
semantic
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210571345.7A
Other languages
English (en)
Inventor
史佳欣
尹伊淳
田奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202210571345.7A priority Critical patent/CN117171554A/zh
Priority to PCT/CN2022/130455 priority patent/WO2023226309A1/zh
Publication of CN117171554A publication Critical patent/CN117171554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种模型训练方法,包括:获取第一基础模型的特征向量层参数,以及获取对齐矩阵,该第一基础模型为利用第一训练集预训练好的基础模型,然后根据第一基础模型的特征向量层参数和对齐矩阵,对第二基础模型的特征向量层参数进行初始化,接着利用第二训练集训练初始化后的第二基础模型。该方法通过对齐矩阵将第一基础模型的特征向量层参数迁移学习至第二基础模型的特征向量层进行初始化,由此可以加快训练进度,提高训练效率,提升训练效果。

Description

一种模型训练方法及相关设备
技术领域
本申请涉及人工智能(artificial intelligence,AI)领域,尤其涉及一种模型训练方法、 系统、计算机集群以及计算机可读存储介质、计算机程序产品。
背景技术
随着AI技术的不断发展,产生了各种各样的AI模型。AI模型是通过AI算法在数据上进行训练后的产物。AI模型可以根据输入的数据进行推断,从而为人类提供决策的建议或依据。具体地,AI模型可以用于完成特定的任务。例如,一个情感分类模型可以用于对 输入的句子进行情感分类,一个翻译模型可以用于对输入的句子进行翻译。
为了提高AI模型的训练效率,可以先预训练出基础模型(Foundation Models)。基础 模型(Foundation Models)指的是一类通用的、能够完成一系列下游任务的模型。由于这 种模型是多种下游任务模型的“基础”,因此被称为基础模型。此外,基础模型的参数规模 通常较大,有些情况下也可以称之为大模型。
基础模型在各种自然语言处理任务中取得较大的进展,尤其是在文本理解和文本生成 等自然语言处理任务上的效果大幅超过小模型。其中,基础模型往往是针对特定语言构建 的,例如针对中文构建的“盘古”模型,针对英文构建的T5模型。
然而,从头开始训练一个基础模型的成本非常高昂,如何提高基础模型的训练效率, 降低训练成本成为亟待解决的问题。
发明内容
本申请提供了一种模型训练方法,针对与语言或模态相关的特征向量层,利用已预训 练的第一基础模型的特征向量层参数和对齐矩阵对第二基础模型的特征向量层参数进行 初始化,然后对初始化后的第二基础模型进行训练。相对于随机初始化的方式,该方法通 过对齐矩阵将第一基础模型的特征向量层参数迁移学习至第二基础模型的特征向量层,由 此可以加快训练进度,提高训练效率,提升训练效果。本申请还提供了一种模型训练系统、 计算机集群、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种模型训练方法。该方法可以由模型训练系统执行。模型 训练系统可以为软件系统,该软件系统可以部署在计算机集群中,计算机集群通过执行该 软件系统的程序代码,从而执行本申请的模型训练方法。在一些实施例中,模型训练系统 可以是硬件系统。例如,模型训练系统可以是具有模型训练功能的计算机集群,该模型训 练系统可以为一台或多台计算机。
具体地,模型训练系统获取第一基础模型的特征向量层参数,以及获取对齐矩阵,该 第一基础模型为利用第一训练集预训练好的基础模型,然后根据第一基础模型的特征向量 层参数和对齐矩阵,对第二基础模型的特征向量层参数进行初始化,接着利用第二训练集 训练初始化后的第二基础模型。
在该方法中,针对与语言或模态相关的特征向量层,如与语言相关的词向量层,模型 训练系统可以获取对齐矩阵,然后利用已预训练的第一基础模型的特征向量层参数和对齐 矩阵对第二基础模型的特征向量层参数进行初始化。相对于随机初始化的方式,该方法通 过对齐矩阵将第一基础模型的特征向量层参数迁移学习至第二基础模型的特征向量层,由 此可以加快训练进度,提高训练效率,提升训练效果。
在一些可能的实现方式中,模型训练系统在获取对齐矩阵时,可以获取跨语言的对齐 矩阵,或者是获取跨模态的对齐矩阵。其中,跨语言的对齐矩阵用于根据第一语言的特征 向量获得第二语言的特征向量,跨模态的对齐矩阵用于根据第一模态的特征向量获得第二 模态的特征向量。第一模态和第二模态为文本模态、图像模态、音频模态或视频模态中的 不同模态。
如此,可以实现基于一种语言的基础模型快速地训练另一种语言的基础模型,或者是 基于一种模态的基础模型快速地训练另一种模态的基础模型,提高模型训练效率,降低模 型训练成本。
在一些可能的实现方式中,特征向量通常是以语义单元为单位提取的。语义单元是指 输入数据中能够表达语义的单元。例如,输入数据为文本时,语义单元可以是单词或多个 单词形成的词组,又例如输入数据为图像时,语义单元可以说图像中的子图。基于此,模 型训练系统可以获取语义单元的映射关系,该映射关系包括第一语义单元与对应的第二语 义单元的记录,然后模型训练系统可以根据所述映射关系,获得所述第二语义单元对应的 对齐向量,接着模型训练系统可以根据所述对齐向量,获得所述对齐矩阵。
该方法中,模型训练系统通过利用不同语义单元之间的映射关系构建对齐矩阵,以用 于对待训练的第二基础模型的特征向量层参数进行初始化,为加快第二基础模型的训练奠 定了基础。
在一些可能的实现方式中,当所述第二语义单元出现在所述映射关系的一条记录中时, 模型训练系统可以确定所述第二语义单元对应的各第一语义单元的权重,例如模型训练系 统可以将在记录中命中的第一语义单元的权重置1,未命中的第一语义单元的权重置0,并 对权重进行归一化处理。然后模型训练系统可以根据所述第二语义单元对应的各第一语义 单元的权重,获得所述第二语义单元对应的对齐向量。
针对出现在映射关系的记录中的第二语义单元,模型训练系统可以确定第二语义单元 对应的各个第一语义单元的权重,根据该权重可以获得由第一语义单元表示第二语义单元 的对齐向量,基于该对齐向量获得的对齐矩阵可以为参数初始化、加快模型训练效率提供 帮助。
在一些可能的实现方式中,当所述第二语义单元的多个子单元分别出现在所述映射关 系的不同记录中时,模型训练系统可以确定所述子单元对应的对齐向量,然后根据所述子 单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
针对第二语义单元的多个子单元分别出现在映射关系的不同记录中时,模型训练系统 可以参照上述确定第二语义单元的对齐向量的实现方式,确定各子单元对应的对齐向量, 基于各对齐向量可以获得第二语义单元对应的对齐向量。该方法通过根据第二语义单元在 映射关系中的出现情况,采用相应的方式确定对齐向量,如此可以获得较为精准的对齐矩 阵,为参数初始化、加快模型训练效率提供帮助。
在一些可能的实现方式中,当所述第二语义单元的多个母单元分别出现在所述映射关 系的不同记录中时,模型训练系统可以确定所述母单元对应的对齐向量,然后根据所述母 单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
针对第二语义单元的多个母单元分别出现在映射关系的不同记录中时,模型训练系统 可以参照上述确定第二语义单元的对齐向量的实现方式,确定各母单元对应的对齐向量, 基于各对齐向量可以获得第二语义单元对应的对齐向量。该方法通过根据第二语义单元在 映射关系中的出现情况,采用相应的方式确定对齐向量,如此可以获得较为精准的对齐矩 阵,为参数初始化、加快模型训练效率提供帮助。
在一些可能的实现方式中,模型训练系统可以获取所述母单元的出现频率,例如第二 语义单元为第二语言的语义单元时,模型训练系统可以对第二语言的语料进行统计,获得 母单元的出现频率。然后模型训练系统可以根据所述母单元对应的对齐向量以及所述母单 元的出现频率,获得所述第二语义单元对应的对齐向量。
该方法以母单元的出现频率为权重,对各母单元对应的对齐向量进行加权运算,从而 获得第二语义单元对应的对齐向量,如此获得的对齐向量较为精准,基于对齐向量获得的 对齐矩阵可以为参数初始化、加快模型训练效率提供帮助。
在一些可能的实现方式中,模型训练系统可以获取第三训练集,该第三训练集包括多 种语言的训练数据或多种模态的训练数据,从所述第三训练集中获取所述第一语义单元对 应的特征向量和所述第二语义单元对应的特征向量,根据所述第一语义单元对应的特征向 量和所述第二语义单元对应的特征向量,获得对齐矩阵。
该方法中,模型训练系统直接从第三训练集中提取第一语义单元对应的特征向量和所 述第二语义单元对应的特征向量,上述特征向量属于同一向量空间,模型训练系统可以采 用特征向量获得对齐矩阵,从而为参数初始化、加快模型训练效率提供帮助。
在一些可能的实现方式中,模型训练系统可以确定述第一语义单元对应的特征向量和 所述第二语义单元对应的特征向量的相似度,例如模型训练系统可以确定第一语义单元对 应的特征向量和第二语义单元对应的特征向量的距离,如欧式距离或余弦距离,从而获得 特征向量的相似度,然后模型训练系统可以根据所述相似度,获得对齐矩阵。
相较于基于语义单元在映射关系的出现情况确定对齐矩阵的方式,基于特征向量的相 似度获得对齐矩阵更加便捷,且效率更高。
在一些可能的实现方式中,模型训练系统还可以获取第一基础模型的位置向量层参数 和变换层参数,接着利用所述第一基础模型的位置向量层参数和变换层参数,对所述第二 基础模型的位置向量层参数和变换层参数进行初始化。
由于位置向量层参数和变换层参数通常与语言或模态无关,模型训练系统可以直接复 用第一基础模型的位置向量层参数和变换层参数,对第二基础模型的位置向量层参数和变 换层参数进行初始化,如此可以利用第一基础模型的训练结果,加快第二基础模型的训练 进度。
第二方面,本申请提供了一种模型训练系统。所述系统包括:
通信模块,用于获取第一基础模型的特征向量层参数,以及获取对齐矩阵,所述第一 基础模型为利用第一训练集预训练好的基础模型;
初始化模块,用于根据所述第一基础模型的特征向量层参数和所述对齐矩阵,对第二 基础模型的特征向量层参数进行初始化;
训练模块,用于利用第二训练集训练初始化后的所述第二基础模型。
在一些可能的实现方式中,所述通信模块具体用于:
获取跨语言的对齐矩阵,所述跨语言的对齐矩阵用于根据第一语言的特征向量获得第 二语言的特征向量;或者,
获取跨模态的对齐矩阵,所述跨模态的对齐矩阵用于根据第一模态的特征向量获得第 二模态的特征向量,所述第一模态和所述第二模态为文本模态、图像模态、音频模态或视 频模态中的不同模态。
在一些可能的实现方式中,所述通信模块具体用于:
获取语义单元的映射关系,所述映射关系包括第一语义单元与对应的第二语义单元的 记录;
根据所述映射关系,获得所述第二语义单元对应的对齐向量;
根据所述对齐向量,获得所述对齐矩阵。
在一些可能的实现方式中,所述通信模块具体用于:
当所述第二语义单元出现在所述映射关系的一条记录中时,确定所述第二语义单元对 应的各第一语义单元的权重;
根据所述第二语义单元对应的各第一语义单元的权重,获得所述第二语义单元对应的 对齐向量。
在一些可能的实现方式中,所述通信模块具体用于:
当所述第二语义单元的多个子单元分别出现在所述映射关系的不同记录中时,确定所 述子单元对应的对齐向量;
根据所述子单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
在一些可能的实现方式中,所述通信模块具体用于:
当所述第二语义单元的多个母单元分别出现在所述映射关系的不同记录中时,确定所 述母单元对应的对齐向量;
根据所述母单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
在一些可能的实现方式中,所述通信模块具体用于:
获取所述母单元的出现频率;
根据所述母单元对应的对齐向量以及所述母单元的出现频率,获得所述第二语义单元 对应的对齐向量。
在一些可能的实现方式中,所述通信模块具体用于:
获取第三训练集,所述第三训练集包括多种语言的训练数据或多种模态的训练数据;
从所述第三训练集中获取所述第一语义单元对应的特征向量和所述第二语义单元对 应的特征向量;
根据所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量,获得对 齐矩阵。
在一些可能的实现方式中,所述通信模块具体用于:
确定述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量的相似度;
根据所述相似度,获得对齐矩阵。
在一些可能的实现方式中,所述通信模块还用于:
获取第一基础模型的位置向量层参数和变换层参数;
所述初始化模块还用于:
利用所述第一基础模型的位置向量层参数和变换层参数,对所述第二基础模型的位置 向量层参数和变换层参数进行初始化。
第三方面,本申请提供一种计算机集群。所述计算机集群包括至少一台计算机,所述 至少一台计算机包括至少一个处理器和至少一个存储器。所述至少一个处理器、所述至少 一个存储器进行相互的通信。所述至少一个处理器用于执行所述至少一个存储器中存储的 指令,以使得计算机或计算机集群执行如第一方面或第一方面的任一种实现方式中的模型 训练方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有 指令,所述指令指示计算机或计算机集群执行上述第一方面或第一方面的任一种实现方式 所述的模型训练方法。
第五方面,本申请提供了一种包含指令的计算机程序产品,当其在计算机或计算机集 群上运行时,使得计算机或计算机集群执行上述第一方面或第一方面的任一种实现方式所 述的模型训练方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实 现方式。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以 简单地介绍。
图1为本申请实施例提供的一种基础模型的结构示意图;
图2为本申请实施例提供的一种模型训练系统的架构示意图;
图3为本申请实施例提供的一种跨语言迁移学习基础模型的流程示意图;
图4为本申请实施例提供的一种跨语言迁移学习基础模型的流程示意图;
图5为本申请实施例提供的一种模型训练方法的流程图;
图6为本申请实施例提供的一种对齐矩阵和词向量矩阵的关系示意图;
图7为本申请实施例提供的跨语言词典、词表以及词频统计的示意图;
图8为本申请实施例提供的一种确定对齐向量的流程示意图;
图9为本申请实施例提供的一种构建对齐矩阵的示意图;
图10为本申请实施例提供的一种计算机集群的结构示意图。
具体实施方式
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相 对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可 以明示或者隐含地包括一个或者更多个该特征。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
人工智能(artificial intelligence,AI)具体是指通过计算机模拟人类的思维过程和行为 (如学习、推理、思考、规划),从而可以实现以计算机等机器代替或辅助人类执行相关任 务。基于此,AI在有些情况下也可以称作机器智能、计算机智能。其中,计算机可以通过 运行利用AI算法训练得到的AI模型,以执行相应的任务。
AI算法包括以数据驱动的算法,例如为深度学习(Deep Learning,DL)算法。DL算法具体为基于多层人工神经网络(Artificial Neural Networks,ANN)对样本数据的特征进 行由浅层到深层的组合提取与分析,从而得到AI模型的算法。其中,ANN是对人脑神经元进行抽象而建立的计算模型,该计算模型是由大量处理单元互联组成的非线性系统,可以模拟大脑神经网络对信息进行处理或记忆。
ANN从样本数据提取特征,并基于特征进行分析,从而更新ANN中处理单元(如卷积、池化)的参数的过程成为模型训练。为了提高训练效率,还可以进行预训练(Pre-training)。 预训练是一种使用海量无标注数据进行训练的方法。通过该方法训练得到的模型成为预训 练模型。预训练模型可以从海量数据中获得较强的语义表示能力和迁移泛化能力,从而能 够快速适配各种下游任务,因此,预训练模型也可以称作基础模型(Foundation Models)。 基础模型的参数量通常比较庞大,因此,该基础模型也可以称作大模型。
基础模型在各种自然语言处理任务中取得较大的进展,尤其是在文本理解和文本生成 等自然语言处理任务上的效果大幅超过小模型。此外,基础模型也可以用于图像处理任务、 视频处理任务或音频处理任务。例如,基础模型可以用于图像分类。
基础模型的参数量较为庞大,从头开始训练基础模型的成本非常高昂。考虑到不同语 言或不同模态之间的可迁移性,模型训练系统可以采用迁移学习(transferlearning)训练基 础模型。具体地,模型训练系统可以利用已有的基础模型(如中文的基础模型)来帮助其 他基础模型(如英文的基础模型)的训练,以节约训练时间,降低生产成本。
参见图1所示的基础模型的结构示意图,该示例中的基础模型为文本处理模型,文本 处理模型可以包括词向量(token embedding)层、位置向量(position embedding)层和至 少一层变换(transformer)层。图1以文本处理模型包括L层transformer层进行示例说明。 L为正整数。词向量层用于将词表中的每个单词映射为向量。位置向量层用于将位置映射 为向量。transformer层用于根据词向量和位置向量对各个词的信息进行整合,提取对应的 语义信息。需要说明的是,词向量层为文本处理模型的特征向量层,当基础模型为其他模 态的模型时,特征向量层也可以是其他用于提取特征向量的层,例如特征向量层还可以是 特征图层,用于提取特征图。
基础模型中,词向量层等特征向量层与语言或模态相关,而位置向量层和transformer 层与语言或模态无关。基于此,模型训练系统可以在不同语言的基础模型之间复用与语言 无关的层,或者在不同模态的基础模型之间复用与模态无关的层。
以在不同语言的基础模型之间复用与语言无关的层进行示例说明,模型训练系统将利 用第一训练集(如第一语言的语料形成的训练集)预训练好的基础模型中的位置向量层和transformer层复用到第二语言的基础模型,并将第二语言的基础模型中位置向量层和 transformer层的参数冻结,然后在语言2上对词向量层随机初始化,使用第二训练集(如 第二语言的语料形成的训练集)进行训练,更新词向量层的参数。此外,模型训练系统可 以将利用第一训练集预训练好的基础模型中词向量层的参数冻结,在第一语言的下游任务 上对位置向量层和transformer层的参数进行微调。推理设备可以将更新后的第二语言的词 向量层与微调的语言1的位置向量层和transformer层拼接,以在第二语言的下游任务上进 行推理。然而,上述方法中第二语言的词向量层的参数并未进行合适的初始化,导致训练 效率低下,也影响了训练效果。
有鉴于此,本申请实施例提供了一种模型训练方法。该方法可以由模型训练系统执行。 模型训练系统可以为软件系统,该软件系统可以部署在计算机集群中,计算机集群通过执 行该软件系统的程序代码,从而执行本申请实施例的模型训练方法。在一些实施例中,模 型训练系统可以是硬件系统。例如,模型训练系统可以是具有模型训练功能的计算机集群, 该模型训练系统可以为一台或多台计算机。为了便于描述,下文以模型训练系统为软件系 统进行示例说明。
具体地,模型训练系统可以获取第一基础模型的特征向量层参数,以及获取对齐矩阵, 其中,第一基础模型为利用第一训练集预训练的基础模型,然后模型训练系统可以根据第 一基础模型的特征向量层参数和对齐矩阵,对第二基础模型的特征向量层参数进行初始化, 接着利用第二训练集训练初始化后的第二基础模型。
在该方法中,针对与语言或模态相关的特征向量层,如与语言相关的词向量层,模型 训练系统可以获取对齐矩阵,然后利用已预训练的第一基础模型的特征向量层参数和对齐 矩阵对第二基础模型的特征向量层参数进行初始化。相对于随机初始化的方式,该方法通 过对齐矩阵将第一基础模型的特征向量层参数迁移学习至第二基础模型的特征向量层,由 此可以加快训练进度,提高训练效率,提升训练效果。
为了使得本申请的技术方案更加清楚、易于理解,下面结合附图对本申请实施例的系 统架构进行介绍。
参见图2所示的模型训练系统的架构示意图,该模型训练系统200包括通信模块202、 初始化模块204和训练模块206。其中,通信模块202用于获取第一基础模型的特征向量 层参数,以及获取对齐矩阵,初始化模块204用于根据第一基础模型的特征向量层参数和 对齐矩阵,对第二基础模型的特征向量层参数进行初始化,训练模型206用于利用第二训 练集训练初始化后的第二基础模型。
上述特征向量层通常是与语言或模态相关的层。进一步地,针对与语言或模态无关的 层,模型训练系统200还可以直接复用上述与语言或模态无关的层。以跨语言迁移学习基 础模型为例,如图3所示,模型训练系统200可以直接复用第一基础模型中的位置向量层 参数和transformer层参数,对第二基础模型的位置向量层参数和transformer层参数进行初 始化。具体地,通信模块204用于获取第一基础模型的位置向量层参数和transformer层参 数,初始化模块204还用于根据第一基础模型的位置向量层参数和transformer层参数对第 二基础模型的位置向量层参数和transformer层参数进行初始化。
在通过第一基础模型的参数以及对齐矩阵对第二基础模型进行初始化后,利用第二训 练集训练初始化后的第二基础模型,可以提高训练效率,降低训练成本。如图4所示,第 一语言可以为中文,第二语言可以为英文、阿拉伯语(简称为阿语)或俄语中的一种或多种。模型训练系统200通过中文和英文的对齐矩阵对英文的基础模型进行初始化,通过中文和阿语的对齐矩阵对阿语的基础模型进行初始化,通过中文和俄语的对齐矩阵对俄语的基础模型进行初始化。然后模型训练系统200通过各语言的语料形成的训练集训练相应的初始化模型,从而得到对应语言的基础模型。由此实现了将一种语言的基础模型快速迁移至另一种语言的基础模型,模型训练系统200无需从头开始训练基础模型,大幅缩短了训练时间,降低了训练成本。
需要说明的是,图2是本申请实施例中模型训练系统200的一种示意性划分方式,在 本申请实施例其他可能的实现方式中,模型训练系统200也可以从不同维度划分为不同模 块,本实施例对此不作限制。进一步地,模型训练系统200的上述模块可以集中部署在计算机中,也可以分布式地部署在计算机集群中。图2以模型训练系统200部署在云平台的 计算机集群中进行示例说明。在本申请实施例其他可能的实现方式中,模型训练系统200 也可以部署在边缘环境或者部署在终端设备。其中,边缘环境是指边缘计算集群,边缘计 算集群包括一台或多台边缘服务器。
接下来,将从模型训练系统200的角度,对本申请实施例的模型训练方法进行介绍。
参见图5所示的模型训练方法的流程图,该方法包括:
S502:模型训练系统200获取第一基础模型的特征向量层参数。
第一基础模型为利用第一训练集预训练好的基础模型。第一训练集可以是一种语言的 语料形成的训练集,如中文的训练集、英文的训练集、法语的训练集。第一训练集也可以 是一种模态的训练数据形成的训练集,如图像训练集、视频训练集、音频训练集。
第一基础模型包括特征向量层。特征向量层用于提取从输入数据中提取特征向量。根 据输入数据的类型不同,特征向量的类型也可以是不同的。例如,输入数据的类型为文本 时,特征向量可以是词向量,输入数据的类型为图像时,特征向量可以是特征图向量,该 特征图向量也可以简称为特征图,输入数据的类型为音频时,特征向量可以声学特征向量, 该声学特征向量也可以简称为声学特征,输入数据的类型为视频时,特征向量可以是特征 图和声学特征。基于此,特征向量层可以是词向量层、特征图层、或者声学特征层中的一 种或多种。
在本实施例中,模型训练系统200可以获取第一基础模型的特征向量层参数,以用于 辅助训练第二基础模型。当特征向量为词向量时,特征向量层参数可以包括编码参数。当 特征向量为特征图时,特征向量层参数可以包括用于对图像进行卷积处理以提取特征图的 卷积核。
S504:模型训练系统200获取对齐矩阵。
对齐矩阵可以是跨语言的对齐矩阵,或者是跨模态的对齐矩阵。其中,跨语言的对齐 矩阵用于根据第一语言的特征向量获得第二语言的特征向量。例如中文和英文的对齐矩阵 可以用于根据中文的特征向量获得英文的特征向量。跨模态的对齐矩阵用于根据第一模态 的特征向量获得第二模态的特征向量。第一模态和第二模态可以为文本模态、图像模态、 音频模态或视频模态中的不同模态。例如文本和图像的对齐矩阵可以用于根据词向量获得 特征图。
跨语言的对齐矩阵可以表示为第一语言的特征向量的权重矩阵,跨模态的对齐矩阵可 以表示为第一模态的特征向量的权重矩阵。例如,第一语言的特征向量或第一模态的特征 向量包括n个,n为正整数,第二语言的特征向量或第二模态的特征向量包括m个,m、 n为正整数,则权重矩阵可以为m*n矩阵。
特征向量通常是以语义单元为单位提取的。语义单元是指输入数据中能够表达语义的 单元。例如,输入数据为文本时,语义单元可以是单词或多个单词形成的词组。以中文的 语料“我中午吃了一个苹果”为例,该语料中包括如下语义单元:“我”、“中午”、“吃”、“一个”和“苹果”。类似地,英文语料“I ate an apple for lunch”包括如下语义单元“I”、“ate”(eat的过去时态)、“an”、“apple”、“lunch”。又例如,输入数据为图像时,语义单元 可以是图像中的子图。子图的尺寸可以根据经验值设置。例如,子图的尺寸可以设置为 16*16。一张256*256的图像可以包括256个16*16的子图。
基于此,模型训练系统200可以基于语义单元之间的映射关系,获得对齐矩阵。具体 地,模型训练系统200可以获取语义单元的映射关系,该映射关系包括第一语义单元与对 应的第二语义单元的记录,其中,第一语义单元为第一语言的语义单元或第一模态的语义 单元,第二语义单元为第二语言的语义单元或第二模态的语义单元。然后模型训练系统200 可以根据映射关系,获得第二语义单元对应的对齐向量,接着模型训练系统200根据所述 对齐向量,获得所述对齐矩阵。
模型训练系统200在根据映射关系获得第二语义单元对应的对齐向量时,可以根据第 二语义单元在映射关系的出现情况,采用不同方式确定上述对齐向量。下面分别进行说明。
第一种情况为,第二语义单元出现在映射关系的一条记录中。模型训练系统200可以 确定第二语义单元对应的各第一语义单元的权重。例如,模型训练系统200可以将在记录 中命中的第一语义单元的权重置1,未命中的第一语义单元的权重置0,并对权重进行归一 化处理。然后模型训练系统200可以根据所述第二语义单元对应的各第一语义单元的权重, 例如是归一化后的权重,获得所述第二语义单元对应的对齐向量。
第二种情况为,第二语义单元的多个子单元分别出现在所述映射关系的不同记录中。 例如,第二语义单元可以是词组,子单元可以是词组中的单词。模型训练系统200可以确 定各子单元对应的对齐向量,根据子单元对应的对齐向量,获得第二语义单元对应的对齐 向量。其中,确定子单元对应的对齐向量的方式可以参见第一种情况中确定第二语义单元 对应的对齐向量的相关内容描述,在此不再赘述。在确定各子单元对应的对齐向量后,模 型训练系统200可以通过向量加法获得该第二语义单元对应的对齐向量。
第三种情况为,第二语义单元的多个母单元分别出现在所述映射关系的不同记录中。 一个语义单元被另一个语义单元所包括,则可以将另一个语义单元称之为该语义单元的母 单元。模型训练系统200可以确定母单元对应的对齐向量,根据母单元对应的对齐向量, 获得第二语义单元对应的对齐向量。其中,确定母单元对应的对齐向量的方式可以参见第 一种情况中确定第二语义单元对应的对齐向量的相关内容描述,在此不再赘述。
在第三种情况下,模型训练系统200还可以获取母单元的出现频率,例如第二语义单 元为第二语言的语义单元时,模型训练系统200可以对第二语言的语料进行统计,获得母 单元的出现频率。相应地,模型训练系统200可以根据母单元对应的对齐向量以及母单元 的出现频率,获得第二语义单元对应的对齐向量。例如,模型训练系统200可以将母单元的出现频率作为各母单元对应的对齐向量的权重,通过加权运算,获得第二语义单元对应的对齐向量。
在一些可能的实现方式中,模型训练系统200也可以根据不同语言的特征向量或者不 同模态的特征向量获得对齐矩阵。具体地,模型训练系统200也可以获取多种语言的训练 数据或者多种模态的训练数据形成的训练集,为了区别于其他训练集,本申请实施例将用 于训练第一基础模型的训练集称作第一训练集,用于训练第二基础模型的训练集称作第二 训练集,用于获得对齐矩阵的多语言训练集或多模态训练集称作第三训练集。模型训练系 统200可以从第三训练集中获取第一语义单元对应的特征向量和第二语义单元对应的特征 向量,然后根据第一语义单元对应的特征向量和第二语义单元对应的特征向量,获得对齐 矩阵。
其中,模型训练系统200可以确定第一语义单元对应的特征向量和所述第二语义单元 对应的特征向量的相似度,例如模型训练系统200可以计算第一语义单元对应的特征向量 和第二语义单元对应的特征向量的距离,该距离可以是欧式距离,或者是余弦距离等等, 根据该距离确定特征向量的相似度。接着模型训练系统200可以根据该相似度,获得对齐 矩阵。具体地,针对任一个第二语义单元的特征向量,模型训练系统200可以根据该第二语义特征单元的特征向量于每个第一语义单元的特征向量的相似度,确定每个第一语义的单元的权重,根据该权重可以获得对齐向量。
S506:模型训练系统200根据所述第一基础模型的特征向量层参数和所述对齐矩阵, 对第二基础模型的特征向量层参数进行初始化。
具体地,模型训练系统200可以根据第一基础模型的特征向量层参数和所述对齐矩阵, 进行矩阵乘法运算,然后根据运算结果对第二基础模型的特征向量层参数进行赋值,从而 实现对第二基础模型的特征向量层参数进行初始化,以获得初始化后的第二基础模型。
考虑到第一基础模型还可以包括与语言或模态无关的层,例如位置向量层、transformer 层,模型训练系统200还可以在第二基础模型上复用第一基础模型中与语言或模态无关的 层。具体地,模型训练系统200还可以获取第一基础模型的位置向量层参数和transformer 层参数,利用第一基础模型的位置向量层参数和变换层参数,对所述第二基础模型的位置 向量层参数和变换层参数进行初始化。
S508:模型训练系统200利用第二训练集训练初始化后的第二基础模型。
第二基础模型为第二语言的基础模型时,第二训练集可以为第二语言的训练集。例如, 第一训练集为中文的训练集,第二训练集可以为英文的训练集。第二基础模型为第二模态 的基础模型时,第二训练集可以为第二模态的训练集。例如,第一训练集可以为文本训练 集,第二训练集可以为图像训练集。
模型训练系统200可以将第二训练集输入初始化后的第二基础模型,通过机器学习算 法,例如是无监督学习算法,更新第二基础模型的参数,由此实现训练初始化后的第二基 础模型。
基于上述内容描述,本申请实施例提供了一种模型训练方法。在该方法中,针对与语 言或模态相关的特征向量层,如与语言相关的词向量层等特征向量层,模型训练系统可以 获取对齐矩阵,然后利用已预训练的第一基础模型的特征向量层参数和对齐矩阵对第二基 础模型的特征向量层参数进行初始化。相对于随机初始化的方式,该方法通过对齐矩阵将 第一基础模型的特征向量层参数迁移学习至第二基础模型的特征向量层,由此可以加快训 练进度,提高训练效率,提升训练效果。
图5所示实施例中实现迁移学习的关键在于获取对齐矩阵,下面以获取跨语言的对齐 矩阵和跨模态的对齐矩阵分别进行示例说明。
跨语言的对齐矩阵用于根据第一语言的词向量获得第二语言的词向量。第一语言的多 个词向量可以形成第一语言的词向量矩阵,令表示第一语言的词向量矩阵,表 示实数空间,n表示第一语言的词表中包括的单词或词组的数量,d表示词向量的维数。第 二语言的多个词向量可以形成第二语言的词向量矩阵,令/>表示第二语言的词向量 矩阵,m表示第一语言的词表中包括的单词或词组的数量。相应地,对齐矩阵W∈[0,1]m×n, 该矩阵有m行n列,每个元素都是0到1之间的实数,并且满足任意一行的和为1,具体如下 所示:
其中,Wi,j表示第二语言的词表中第i个单词或词组与第一语言的词表中第j个单词或词 组的相关程度。
如图6所示,模型训练系统200可以基于对齐矩阵和第一语言的词向量矩阵,获得第 二语言的词向量矩阵,具体如下所示:
Y=WX (2)
基于公式(2)可知,第二语言中某个单词或词组的词向量可以通过对与该单词或词组 相关的第一语言中单词或词组的词向量加权平均得到。基于此,模型训练系统200可以根 据对齐矩阵以及第一基础模型中用于提取第一词向量的词向量层参数进行矩阵乘法运算, 获得用于提取第二词向量的词向量层参数,模型训练系统200可以采用上述用于提取第二 词向量的词向量层参数对第二基础模型中词向量层参数进行初始化。
词向量通常是对单词或词组等语义单元编码得到,基于此,模型训练系统200可以根 据不同语言的单词或词组之间的映射关系,获得跨语言的对齐矩阵。为了便于理解,下面 以第一语言为中文,第二语言为英文进行示例说明。其中,不同语言的单词或词组之间的 映射关系可以通过跨语言词典表示。
参见图7所示的跨语言词典、词表以及词频统计的示意图,模型训练系统200可以收 集跨语言词典、英文词表、中文词表和英文的词频统计,其中,英文词表可以包括多个英文语义单元,每个英文语义单元可以是一个英文单词、英文词组或者其他的英文字母组合。
针对每个英文语义单元,可以执行如图8所示的操作,以构造对齐矩阵。具体地,模型训练系统200可以先执行词干化(lemmatize)操作,以消除时态、语态、单复数等影响, 然后判断该英文语义单元所属情况,并执行相应的操作。
情况一:该英文语义单元直接出现在跨语言词典中。例如,该英文语义单元为英文单 词“abandon”,模型训练系统200可以根据跨语言词典,获取该单词对应的中文释义。例如,“abandon”的释义可以为“抛弃,放弃”。模型训练系统200根据释义进行序列化(tokenize)。具体地,模型训练系统200可以根据中文词表对释义进行拆分操作,获得该 英文单词对应的中文单词序列。在该示例中,中文单词序列可以为“抛弃”、“放弃”。模型 训练系统200可以将被命中的中文单词的权重置为1,其他未被命中的中文单词的权重置 为0,以实现向量化,然后模型训练系统200可以对向量进行归一化,从而得到对齐向量。
情况二:该英文语义单元未直接出现在跨语言词典,而且横跨上述跨语言词典的多个 单词。也即该英文语义单元实质是一个常用词组,如“athletic games”。模型训练系统200 可以获取词组中每个子词,对于每个子词执行获取释义、序列化、向量化操作,然后将各 子词的对齐向量相加,并进行归一化,从而得到该英文语义单元对应的对齐向量。
情况三:该英文语义单元未出现在跨语言词典,而且不横跨上述跨语言词典的多个单 词。也即该英文语义单元实质是其他的英文字母组合,如“ella”。模型训练系统200可以 从英文词表中获得包括该字母组合的母词,例如“cancellation”、“umbrella”、“cellar”, 然后对于每个母词执行获取释义、序列化、向量化操作,接着以母词的出现频率为权重, 对各个母词对应的对齐进行加权求和,然后进行归一化,从而得到该英文语义单元对应的 对齐向量。
在一些可能的实现方式中,模型训练系统200也可以收集包括中文和英文的多语言语 料,从而获得第三训练集。参见图9所示的构建对齐矩阵的示意图,模型训练系统200可 以利用第三训练集中的多语言语料训练词向量模型如word2vec模型。此外,模型训练系统 200将中文词表和英文词表合并为多语言词表,模型训练系统200可以通过词向量模型提 取多语言词表中英文语义单元和中文语义单元的词向量,中文的词向量和英文的词向量处 于同一向量空间。对于英文的第j个英文语义单元和中文的第i个中文语义单元,模型训 练系统200可以确定上述英文语义单元的词向量和中文语义单元的词向量的余弦相似度, 从而得到对齐矩阵中的权重Wi,j,接着模型训练系统200对对齐矩阵中的每一行进行归一 化,从而得到对齐矩阵。
图6至图9对跨语言的对齐矩阵进行了详细说明,接下来,对跨模态的对齐矩阵进行 示例说明。
跨模态的对齐矩阵用于根据第一模态的特征向量获得第二模态的特征向量。为了便于 理解,以第一模态为文本模态,第二模态为图像模态示例说明。其中,文本模态的特征向 量为词向量,图像模态的特征向量为特征图。
为了构造图像的特征图和文本的词向量之间的对齐矩阵,模型训练系统200可以将图 像划分为多个子图,其中,子图的尺寸可以是固定的,例如为16*16像素。每个子图可以 映射为一个或多个标签,该标签可以用于标识子图的内容的属性,例如,标签可以为“草地”、“公园”等,模型训练系统200可以通过自动编码器学习子图和标签的映射关系,该 自动编码器经过训练,可以自动地识别出表达相似语义的子图,并将表达相似语义的子图,映射到相同标签。如此,模型训练系统200可以建立图像的语义单元和文本的语义单元之间的映射关系。
然后,模型训练系统200可以参照图7、图8所示实施例中,根据不同语言的语义单元之间的映射关系(跨语言词典)建立对齐矩阵的方式,采用图像的语义单元和文本的语义单元之间的映射关系,构建跨模态的对齐矩阵。在此不再赘述。
基于本申请实施例提供的模型训练方法,本申请实施例还提供了一种如前述的模型训 练系统200。下面将结合附图对本申请实施例提供的模型训练系统200进行介绍。
参见图2所示的模型训练系统200的结构示意图,该系统200包括:
通信模块202,用于获取第一基础模型的特征向量层参数,以及获取对齐矩阵,所述 第一基础模型为利用第一训练集预训练好的基础模型;
初始化模块204,用于根据所述第一基础模型的特征向量层参数和所述对齐矩阵,对 第二基础模型的特征向量层参数进行初始化;
训练模块206,用于利用第二训练集训练初始化后的所述第二基础模型。
在一些可能的实现方式中,所述通信模块202具体用于:
获取跨语言的对齐矩阵,所述跨语言的对齐矩阵用于根据第一语言的特征向量获得第 二语言的特征向量;或者,
获取跨模态的对齐矩阵,所述跨模态的对齐矩阵用于根据第一模态的特征向量获得第 二模态的特征向量,所述第一模态和所述第二模态为文本模态、图像模态、音频模态或视 频模态中的不同模态。
在一些可能的实现方式中,所述通信模块202具体用于:
获取语义单元的映射关系,所述映射关系包括第一语义单元与对应的第二语义单元的 记录;
根据所述映射关系,获得所述第二语义单元对应的对齐向量;
根据所述对齐向量,获得所述对齐矩阵。
在一些可能的实现方式中,所述通信模块202具体用于:
当所述第二语义单元出现在所述映射关系的一条记录中时,确定所述第二语义单元对 应的各第一语义单元的权重;
根据所述第二语义单元对应的各第一语义单元的权重,获得所述第二语义单元对应的 对齐向量。
在一些可能的实现方式中,所述通信模块202具体用于:
当所述第二语义单元的多个子单元分别出现在所述映射关系的不同记录中时,确定所 述子单元对应的对齐向量;
根据所述子单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
在一些可能的实现方式中,所述通信模块202具体用于:
当所述第二语义单元的多个母单元分别出现在所述映射关系的不同记录中时,确定所 述母单元对应的对齐向量;
根据所述母单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
在一些可能的实现方式中,所述通信模块202具体用于:
获取所述母单元的出现频率;
根据所述母单元对应的对齐向量以及所述母单元的出现频率,获得所述第二语义单元 对应的对齐向量。
在一些可能的实现方式中,所述通信模块202具体用于:
获取第三训练集,所述第三训练集包括多种语言的训练数据或多种模态的训练数据;
从所述第三训练集中获取所述第一语义单元对应的特征向量和所述第二语义单元对 应的特征向量;
根据所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量,获得对 齐矩阵。
在一些可能的实现方式中,所述通信模块202具体用于:
确定述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量的相似度;
根据所述相似度,获得对齐矩阵。
在一些可能的实现方式中,所述通信模块202还用于:
获取第一基础模型的位置向量层参数和变换层参数;
所述初始化模块204还用于:
利用所述第一基础模型的位置向量层参数和变换层参数,对所述第二基础模型的位置 向量层参数和变换层参数进行初始化。
根据本申请实施例的模型训练系统200可对应于执行本申请实施例中描述的方法,并 且模型训练系统200的各个模块/单元的上述和其它操作和/或功能分别为了实现图5所示 实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供一种计算机集群。该计算机集群包括至少一台计算机,该至少一 台计算机中的任一台计算机可以来自云环境或者边缘环境,也可以是终端设备。该计算机 集群具体用于实现如图2所示实施例中模型训练系统200的功能。
图10提供了一种计算机集群的结构示意图,如图10所示,计算机集群10包括多台计算机100,计算机100包括总线1001、处理器1002、通信接口1003和存储器1004。处 理器1002、存储器1004和通信接口1003之间通过总线1001通信。
总线1001可以是外设部件互连标准(peripheral component interconnect,PCI)总线或 扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为 地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示 仅有一根总线或一种类型的总线。
处理器1002可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
通信接口1003用于与外部通信。例如,通信接口1003用于获取第一基础模型的特征 向量层参数,以及获取对齐矩阵等等。
存储器1004可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器1004还可以包括非易失性存储器(non-volatilememory),例 如只读存储器(read-only memory,ROM),快闪存储器,硬盘驱动器(hard diskdrive,HDD) 或固态驱动器(solid state drive,SSD)。
存储器1004中存储有计算机可读指令,处理器1002执行该计算机可读指令,以使得 计算机集群10执行前述模型训练方法(或实现前述模型训练系统200的功能)。
具体地,在实现图2所示系统的实施例的情况下,且图2中所描述的模型训练系统200 的各模块如通信模块202、初始化模块204、训练模块206的功能为通过软件实现的情况下,执行图2中各模块的功能所需的软件或程序代码可以存储在计算机集群10中的至少 一个存储器1004中。至少一个处理器1002执行存储器1004中存储的程序代码,以使得 计算机集群10执行前述模型训练方法。
本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计 算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储 设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,所述指令指示计 算机或计算机集群10执行上述模型训练方法。
本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计 算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施 例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计 算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网 站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。所述 计算机程序产品可以为一个软件安装包,在需要使用前述模型训练方法的任一方法的情况 下,可以下载该计算机程序产品并在计算机或计算机集群上执行该计算机程序产品。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分, 可以参见其他流程或结构的相关描述。

Claims (23)

1.一种模型训练方法,其特征在于,所述方法包括:
获取第一基础模型的特征向量层参数,以及获取对齐矩阵,所述第一基础模型为利用第一训练集预训练好的基础模型;
根据所述第一基础模型的特征向量层参数和所述对齐矩阵,对第二基础模型的特征向量层参数进行初始化;
利用第二训练集训练初始化后的所述第二基础模型。
2.根据权利要求1所述的方法,其特征在于,所述获取对齐矩阵,包括:
获取跨语言的对齐矩阵,所述跨语言的对齐矩阵用于根据第一语言的特征向量获得第二语言的特征向量;或者,
获取跨模态的对齐矩阵,所述跨模态的对齐矩阵用于根据第一模态的特征向量获得第二模态的特征向量,所述第一模态和所述第二模态为文本模态、图像模态、音频模态或视频模态中的不同模态。
3.根据权利要求1或2所述的方法,其特征在于,所述获取对齐矩阵,包括:
获取语义单元的映射关系,所述映射关系包括第一语义单元与对应的第二语义单元的记录;
根据所述映射关系,获得所述第二语义单元对应的对齐向量;
根据所述对齐向量,获得所述对齐矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据所述映射关系,获得所述第二语义单元对应的对齐向量,包括:
当所述第二语义单元出现在所述映射关系的一条记录中时,确定所述第二语义单元对应的各第一语义单元的权重;
根据所述第二语义单元对应的各第一语义单元的权重,获得所述第二语义单元对应的对齐向量。
5.根据权利要求3所述的方法,其特征在于,所述根据所述映射关系,获得所述第二语义单元对应的对齐向量,包括:
当所述第二语义单元的多个子单元分别出现在所述映射关系的不同记录中时,确定所述子单元对应的对齐向量;
根据所述子单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
6.根据权利要求3所述的方法,其特征在于,所述根据所述映射关系,获得所述第二语义单元对应的对齐向量,包括:
当所述第二语义单元的多个母单元分别出现在所述映射关系的不同记录中时,确定所述母单元对应的对齐向量;
根据所述母单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
7.根据权利要求6所述的方法,其特征在于,所述根据所述母单元对应的对齐向量,获得所述第二语义单元对应的对齐向量,包括:
获取所述母单元的出现频率;
根据所述母单元对应的对齐向量以及所述母单元的出现频率,获得所述第二语义单元对应的对齐向量。
8.根据权利要求1或2所述的方法,其特征在于,所述获取对齐矩阵,包括:
获取第三训练集,所述第三训练集包括多种语言的训练数据或多种模态的训练数据;
从所述第三训练集中获取所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量;
根据所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量,获得对齐矩阵。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量,获得对齐矩阵,包括:
确定述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量的相似度;
根据所述相似度,获得对齐矩阵。
10.根据权利要求1至9任一项所述的方法,其特征在于,所述方法还包括:
获取第一基础模型的位置向量层参数和变换层参数;
利用所述第一基础模型的位置向量层参数和变换层参数,对所述第二基础模型的位置向量层参数和变换层参数进行初始化。
11.一种模型训练系统,其特征在于,所述系统包括:
通信模块,用于获取第一基础模型的特征向量层参数,以及获取对齐矩阵,所述第一基础模型为利用第一训练集预训练好的基础模型;
初始化模块,用于根据所述第一基础模型的特征向量层参数和所述对齐矩阵,对第二基础模型的特征向量层参数进行初始化;
训练模块,用于利用第二训练集训练初始化后的所述第二基础模型。
12.根据权利要求11所述的系统,其特征在于,所述通信模块具体用于:
获取跨语言的对齐矩阵,所述跨语言的对齐矩阵用于根据第一语言的特征向量获得第二语言的特征向量;或者,
获取跨模态的对齐矩阵,所述跨模态的对齐矩阵用于根据第一模态的特征向量获得第二模态的特征向量,所述第一模态和所述第二模态为文本模态、图像模态、音频模态或视频模态中的不同模态。
13.根据权利要求11或12所述的系统,其特征在于,所述通信模块具体用于:
获取语义单元的映射关系,所述映射关系包括第一语义单元与对应的第二语义单元的记录;
根据所述映射关系,获得所述第二语义单元对应的对齐向量;
根据所述对齐向量,获得所述对齐矩阵。
14.根据权利要求13所述的系统,其特征在于,所述通信模块具体用于:
当所述第二语义单元出现在所述映射关系的一条记录中时,确定所述第二语义单元对应的各第一语义单元的权重;
根据所述第二语义单元对应的各第一语义单元的权重,获得所述第二语义单元对应的对齐向量。
15.根据权利要求13所述的系统,其特征在于,所述通信模块具体用于:
当所述第二语义单元的多个子单元分别出现在所述映射关系的不同记录中时,确定所述子单元对应的对齐向量;
根据所述子单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
16.根据权利要求13所述的系统,其特征在于,所述通信模块具体用于:
当所述第二语义单元的多个母单元分别出现在所述映射关系的不同记录中时,确定所述母单元对应的对齐向量;
根据所述母单元对应的对齐向量,获得所述第二语义单元对应的对齐向量。
17.根据权利要求16所述的系统,其特征在于,所述通信模块具体用于:
获取所述母单元的出现频率;
根据所述母单元对应的对齐向量以及所述母单元的出现频率,获得所述第二语义单元对应的对齐向量。
18.根据权利要求11或12所述的系统,其特征在于,所述通信模块具体用于:
获取第三训练集,所述第三训练集包括多种语言的训练数据或多种模态的训练数据;
从所述第三训练集中获取所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量;
根据所述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量,获得对齐矩阵。
19.根据权利要求18所述的系统,其特征在于,所述通信模块具体用于:
确定述第一语义单元对应的特征向量和所述第二语义单元对应的特征向量的相似度;
根据所述相似度,获得对齐矩阵。
20.根据权利要求11至19任一项所述的系统,其特征在于,所述通信模块还用于:
获取第一基础模型的位置向量层参数和变换层参数;
所述初始化模块还用于:
利用所述第一基础模型的位置向量层参数和变换层参数,对所述第二基础模型的位置向量层参数和变换层参数进行初始化。
21.一种计算机集群,其特征在于,所述计算机集群包括至少一台计算机,所述至少一台计算机包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令;所述至少一个处理器执行所述计算机可读指令,以使得所述计算机集群执行如权利要求1至10中任一项所述的方法。
22.一种计算机可读存储介质,其特征在于,包括计算机可读指令;所述计算机可读指令用于实现权利要求1至10任一项所述的方法。
23.一种计算机程序产品,其特征在于,包括计算机可读指令;所述计算机可读指令用于实现权利要求1至10任一项所述的方法。
CN202210571345.7A 2022-05-24 2022-05-24 一种模型训练方法及相关设备 Pending CN117171554A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210571345.7A CN117171554A (zh) 2022-05-24 2022-05-24 一种模型训练方法及相关设备
PCT/CN2022/130455 WO2023226309A1 (zh) 2022-05-24 2022-11-08 一种模型训练方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210571345.7A CN117171554A (zh) 2022-05-24 2022-05-24 一种模型训练方法及相关设备

Publications (1)

Publication Number Publication Date
CN117171554A true CN117171554A (zh) 2023-12-05

Family

ID=88918302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210571345.7A Pending CN117171554A (zh) 2022-05-24 2022-05-24 一种模型训练方法及相关设备

Country Status (2)

Country Link
CN (1) CN117171554A (zh)
WO (1) WO2023226309A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633707B (zh) * 2023-12-01 2024-08-23 深圳若愚科技有限公司 一种细粒度多模态中文大语言模型构建方法及计算机存储介质
CN117763174B (zh) * 2024-01-18 2024-07-12 泰德网聚(北京)科技股份有限公司 多模态检索方法、装置以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114077650A (zh) * 2020-08-19 2022-02-22 华为技术有限公司 口语理解模型的训练方法和装置
CN113688244B (zh) * 2021-08-31 2024-09-17 中国平安人寿保险股份有限公司 基于神经网络的文本分类方法、系统、设备及存储介质
CN114330474B (zh) * 2021-10-20 2024-04-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114464163A (zh) * 2022-02-17 2022-05-10 上海鱼尔网络科技有限公司 语音合成模型的训练方法、装置、设备、存储介质和产品

Also Published As

Publication number Publication date
WO2023226309A1 (zh) 2023-11-30

Similar Documents

Publication Publication Date Title
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN111967266B (zh) 中文命名实体识别系统、模型构建方法和应用及相关设备
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN109344404B (zh) 情境感知的双重注意力自然语言推理方法
Liu et al. Oracle bone inscriptions recognition based on deep convolutional neural network
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN117171554A (zh) 一种模型训练方法及相关设备
CN111898636B (zh) 一种数据处理方法及装置
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN111382231B (zh) 意图识别系统及方法
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
WO2023284716A1 (zh) 一种神经网络搜索方法及相关设备
Jin et al. Combining cnns and pattern matching for question interpretation in a virtual patient dialogue system
CN114925320B (zh) 一种数据处理方法及相关装置
CN112307048B (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN116719945B (zh) 一种医学短文本的分类方法、装置、电子设备及存储介质
US20230065965A1 (en) Text processing method and apparatus
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN113569018A (zh) 问答对挖掘方法及装置
CN117079310A (zh) 一种图文多模态融合的行人重识别方法
CN112132269A (zh) 模型处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication