CN114036306B - 模型训练方法、装置、计算机设备及计算机可读存储介质 - Google Patents

模型训练方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114036306B
CN114036306B CN202210011963.6A CN202210011963A CN114036306B CN 114036306 B CN114036306 B CN 114036306B CN 202210011963 A CN202210011963 A CN 202210011963A CN 114036306 B CN114036306 B CN 114036306B
Authority
CN
China
Prior art keywords
domain
training
representing
sample
average difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210011963.6A
Other languages
English (en)
Other versions
CN114036306A (zh
Inventor
周刚
刘高硕
琚生根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210011963.6A priority Critical patent/CN114036306B/zh
Publication of CN114036306A publication Critical patent/CN114036306A/zh
Application granted granted Critical
Publication of CN114036306B publication Critical patent/CN114036306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请实施例公开了一种模型训练方法、装置、计算机设备及计算机可读存储介质。所述方法应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息;基于第一预设公式,计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值;将各个真实BIO标签对应的最大平均差异值相加,得到最大平均差异总值;以最小化最大平均差异总值为目标,训练跨领域槽填充模型,直到满足预设条件后终止训练。本申请提供的模型训练方法,利用目标域数据提高跨域槽填充模型的泛化能力。

Description

模型训练方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及智能语音技术领域,尤其涉及一种模型训练方法、装置、计算机设备及计算机可读存储介质。
背景技术
口语理解是自然语言理解的重要组成部分,包括领域分类、意图检测和槽填充。其中,槽填充任务是从大规模的语料库中抽取给定实体的被明确定义的属性的值,即槽填充任务用于识别特定领域的用户话语中与任务相关的槽位类型。
目前的跨域槽填充模型都是通过足够的源域数据实现跨领域槽填充,并没有很好地利用少了标记的目标域数据,跨域槽填充模型的泛化能力弱。因此,如何利用目标域数据提高跨域槽填充模型的泛化能力是现在亟需解决的技术问题。
发明内容
本申请的目的之一在于提供一种模型训练方法、装置、计算机设备及计算机可读存储介质,以解决如何利用目标域数据提高跨域槽填充模型的泛化能力的问题。
第一方面,本申请实施例提供一种模型训练方法,应用于融入标签感知迁移学习的跨领域槽填充模型,包括:
将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;
基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
在一种可选的实施方式中,用于融入标签感知迁移学习的跨领域槽填充模型,包括:
将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;
基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
在一种可选的实施方式中,所述第一预设公式为:
Figure P_220303094535832_832655001
Figure P_220303094535895_895115001
其中,
Figure P_220303094535926_926387001
表示所述最大平均差异值,
Figure P_220303094535942_942015002
表示再生核函数;
Figure P_220303094535973_973264001
表示第i个所述第一域样本的隐藏信息,
Figure P_220303094535989_989812002
表示第j个所述第一域样本的隐藏信息;
Figure P_220303094536021_021592001
表示第i个所述第二域样本的隐藏信息,
Figure P_220303094536037_037221002
表示第j个所述第二域样本的隐藏信息;
Figure P_220303094536068_068470001
表示所述第一域样本的隐藏信息的集合,
Figure P_220303094536084_084104002
表示所述第二域样本的隐藏信息的集合;
Figure P_220303094536115_115356001
表示所述第一域样本的数量,
Figure P_220303094536146_146597002
表示所述第二域样本的数量。
在一种可选的实施方式中,所述得到最大平均差异总值后,还包括:
基于第二预设公式,计算分类损失函数值;
所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
在一种可选的实施方式中,所述第二预设公式为:
Figure P_220303094536162_162231001
其中,
Figure P_220303094536194_194898001
表示所述分类损失函数值;
Figure P_220303094536226_226699002
表示所述训练样本的总数;
Figure P_220303094536257_257912003
表示所述训练样本的真实BIO标签的数量;
Figure P_220303094536273_273564004
表示所述训练样本的真实BIO标签类别;
Figure P_220303094536304_304876005
表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,
Figure P_220303094536320_320470006
取1,否则
Figure P_220303094536351_351660007
取0;
Figure P_220303094536367_367325008
表示训练样本i属于真实BIO标签c的预测概率。
在一种可选的实施方式中,所述计算分类损失函数值后,还包括:
基于第三预设公式,计算正则化损失函数值;
所述以所述最大平均差异总值和所述分类损失函数值同时最小化为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
在一种可选的实施方式中,所述第三预设公式为:
Figure P_220303094536400_400006001
其中,
Figure P_220303094536415_415646001
表示所述正则化损失值;
Figure P_220303094536431_431267002
表示Bi-LSTM的参数。
第二方面,本申请实施例提供一种模型训练装置,应用于融入标签感知迁移学习的跨领域槽填充模型,包括:
得到模块,用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;
计算模块,用于基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
所述计算模块,还用于将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
训练模块,用于以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
第三方面,提供一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现第一方面所述的模型训练方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面所述的模型训练方法。
本申请实施例提供了一种模型训练方法、装置、计算机设备及计算机可读存储介质。所述方法应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;基于第一预设公式,计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值;将各个真实BIO标签对应的最大平均差异值相加,得到最大平均差异总值;以最小化最大平均差异总值为目标,训练跨领域槽填充模型。如此,实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种模型训练方法的步骤流程示意框图;
图2示出了本申请实施例提供的一种模型训练装置的结构示意框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。
实施例1
请参照图1,图1示出了本申请实施例提供的一种模型训练方法的步骤流程示意框图。
如图1所示,本申请实施例提供的第一种模型训练方法,可以应用于融入标签感知迁移学习的跨领域槽填充模型(Label-aware Transfer learning for Cross-domainSlot Filling,LTCS),包括S110至S140。
S110:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签。
在本实施例中,BIO标签为将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。示例性地,以训练样本为Can you put this tune onto latin dance cardio为例,训练样本的真实BIO标签为:【O】Can【O】【O】you【O】put【O】this【B】tune【O】onto【B】latin【I】dance【I】cardio。
进一步地,第一域样本为源域样本,第二域样本为目标域样本。源域样本和目标域样本均为包括真实BIO标签且由一系列字符组成的样本。隐藏信息为隐藏状态。预设数量可以根据实际需求设定,在此不做限定。
具体地,将预设数量的训练样本输入所述跨领域槽填充模型的嵌入层,得到训练样本对应的词嵌入w=[w1,w2,...,wn]。然后,将所述词嵌入w=[w1,w2,...,wn]输入跨领域槽填充模型的编码层,在所述编码层中,通过Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆)神经网络,得到每个分词的隐藏状态[h1,h2,...,hn],其中,
Figure P_220303094536462_462528001
Figure P_220303094536493_493749002
表示句子中每个分词的嵌入(embedding),Bi-LSTM神经网络可以将输入序列从前向和后向分开处理,能够更好地考虑上下文信息。
可以理解的是,在本实施例中,所述跨领域槽填充模型包括两阶段,第一阶段为:首先,将包括真实BIO标签的训练样本输入嵌入层,得到所述训练样本对应的词嵌入;其次,将所述词嵌入输入第一Bi-LSTM神经网络,得到所述词嵌入对应的第一隐藏状态;第三,将所述第一隐藏状态输入条件随机层(ConditionalRandom Field algorithm,CRF),生成预测BIO标签序列。第二阶段为:首先,将第一阶段得到的词嵌入输入第二Bi-LSTM神经网络,得到所述词嵌入对应的第二隐藏状态;其次,将所述第二隐藏状态输入平均池化层(AvgPooling),生成表示信息;最后,将所述表示信息与槽描述向量进行相似度对比,确定相似度最高的槽描述向量对应的槽位为目标槽位。其中,所述槽描述向量是描述某一槽位的向量,通过n个某一槽位的自然语言单词的词嵌入相加得到,n为正整数。
S120:基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值。
在本实施例中,将包括真实BIO标签的源域样本和目标域样本输入所述跨领域槽填充模型的嵌入编码层后,得到的源域样本的隐藏状态和目标域样本的隐藏状态也具有相应的真实BIO标签。例如,输入包括B标签的源域样本至所述跨领域槽填充模型的嵌入编码层后,得到的源域样本的隐藏状态也具有B标签;输入包括O标签的目标域样本至所述跨领域槽填充模型的嵌入编码层后,得到的目标域样本的隐藏状态也具有O标签。
在一种可选的实施方式中,所述第一预设公式为:
Figure P_220303094536509_509396001
Figure P_220303094536540_540188001
其中,
Figure P_220303094536571_571884001
表示所述最大平均差异值,
Figure P_220303094536588_588458002
表示再生核函数;
Figure P_220303094536604_604611001
表示第i个所述第一域样本的隐藏信息,
Figure P_220303094536620_620225002
表示第j个所述第一域样本的隐藏信息;
Figure P_220303094536635_635850001
表示第i个所述第二域样本的隐藏信息,
Figure P_220303094536667_667101002
表示第j个所述第二域样本的隐藏信息;
Figure P_220303094536682_682727001
表示所述第一域样本的隐藏信息的集合,
Figure P_220303094536698_698339002
表示所述第二域样本的隐藏信息的集合;
Figure P_220303094536713_713978001
表示所述第一域样本的数量,
Figure P_220303094536729_729608002
表示所述第二域样本的数量,
Figure P_220303094536760_760859003
表示真实BIO标签的类别。
S130:将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值。
在本实施例中,可以使用最大平均差异总值计算公式计算最大平均差异总值,所述最大平均差异总值计算公式为:
Figure P_220303094536776_776477001
其中,
Figure P_220303094536793_793020001
表示最大平均差异总值,
Figure P_220303094536824_824351002
表示源域和目标域中匹配真实BIO标签的集合。
可以理解的是,将最大平均差异总值应用于Bi-LSTM学习时,具有相同真实BIO标签的实例在源域和目标域中的分布会更加紧密,从而使跨领域槽填充模型能够更好地从源域迁移到目标域。最小化所述最大平均差异总值,实现减小源域与目标域之间的分布差异,提升跨领域槽填充模型的泛化能力。
S140:以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
在本实施例中,预设条件包括最大预设次数、训练时长等。
可以理解的是,当所述最大平均差异总值应用于所述跨领域槽填充模型训练时,让源域与目标域的带有相同真实BIO标签的隐藏状态最大平均差异变小,从而实现减小源域与目标域之间的分布差异,提升跨领域槽填充模型的泛化能力。
可选地,所述得到最大平均差异总值后,还包括:
基于第二预设公式,计算分类损失函数值;
所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
在一种可选的实施方式中,所述第二预设公式为:
Figure P_220303094536839_839968001
其中,
Figure P_220303094536871_871690001
表示所述分类损失函数值;
Figure P_220303094536887_887321002
表示所述训练样本的总数;
Figure P_220303094536902_902940003
表示所述训练样本的真实BIO标签的数量;
Figure P_220303094536918_918565004
表示所述训练样本的真实BIO标签类别;
Figure P_220303094536949_949818005
表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,
Figure P_220303094536964_964960006
取1,否则
Figure P_220303094536981_981073007
取0;
Figure P_220303094536997_997146008
表示训练样本i属于真实BIO标签c的预测概率。
可以理解的是,最小化分类损失函数值,能够提高条件随机层输出的预测BIO标签序列与真实BIO标签序列的一致性,从而提高跨领域槽填充模型对槽位信息识别的准确性。
进一步地,所述计算分类损失函数值后,还包括:
基于第三预设公式,计算正则化损失函数值;
所述以所述最大平均差异总值和所述分类损失函数值同时最小化为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
在一种可选的实施方式中,所述第三预设公式为:
Figure P_220303094537013_013289001
其中,
Figure P_220303094537044_044552001
表示所述正则化损失值;
Figure P_220303094537060_060191002
表示Bi-LSTM的参数。
可以理解的是,最小化正则化损失函数值,跨领域槽填充模型会降低Bi-LSTM的参数中较大的权重参数,从而使跨领域槽填充模型对源域数据的拟合不那么剧烈,可有效降低跨领域槽填充中,对源域数据的过拟合问题。
本申请实施例提供了一种模型训练方法,所述方法应用于融入标签感知迁移学习的跨领域槽填充模型,包括:将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;基于第一预设公式,计算具有相同所述真实BIO标签的第一域样本和第二域样本的隐藏信息之间的最大平均差异值;将各个真实BIO标签对应的最大平均差异值相加,得到最大平均差异总值;以最小化最大平均差异总值为目标,训练跨领域槽填充模型。如此,实现利用目标域数据提高跨域槽填充模型的泛化能力的功能。
实施例2
请参照图2,图2示出了本申请实施例提供的一种模型训练装置的结构示意框图。所述模型训练装置500包括得到模块510、计算模块520、训练模块530。
其中,所述得到模块510,用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签;
所述计算模块520,用于基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
所述计算模块520,还用于将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
所述训练模块530,用于以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练。
可选地,所述第一预设公式为:
Figure P_220303094537075_075802001
Figure P_220303094537107_107044001
其中,
Figure P_220303094537138_138294001
表示所述最大平均差异值,
Figure P_220303094537169_169560002
表示再生核函数;
Figure P_220303094537186_186587001
表示第i个所述第一域样本的隐藏信息,
Figure P_220303094537202_202740002
表示第j个所述第一域样本的隐藏信息;
Figure P_220303094537218_218368001
表示第i个所述第二域样本的隐藏信息,
Figure P_220303094537249_249650002
表示第j个所述第二域样本的隐藏信息;
Figure P_220303094537264_264796001
表示所述第一域样本的隐藏信息的集合,
Figure P_220303094537280_280410002
表示所述第二域样本的隐藏信息的集合;
Figure P_220303094537312_312128001
表示所述第一域样本的数量,
Figure P_220303094537327_327754002
表示所述第二域样本的数量。
可选地,所述计算模块520,还用于基于第二预设公式,计算分类损失函数值;
所述训练模块530,还用于以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型。
可选地,所述第二预设公式为:
Figure P_220303094537343_343382001
其中,
Figure P_220303094537374_374610001
表示所述分类损失函数值;
Figure P_220303094537392_392655002
表示所述训练样本的总数;
Figure P_220303094537424_424436003
表示所述训练样本的真实BIO标签的数量;
Figure P_220303094537440_440053004
表示所述训练样本的真实BIO标签类别;
Figure P_220303094537455_455663005
表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,
Figure P_220303094537502_502577006
取1,否则
Figure P_220303094537519_519101007
取0;
Figure P_220303094537550_550896008
表示训练样本i属于真实BIO标签c的预测概率。
可选地,所述计算模块520,还用于基于第三预设公式,计算正则化损失函数值;
所述训练模块530,还用于以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
可选地,所述第三预设公式为:
Figure P_220303094537581_581668001
其中,
Figure P_220303094537599_599207001
表示所述正则化损失值;
Figure P_220303094537631_631009002
表示Bi-LSTM的参数。
上述装置用于执行实施例1提供的方法,其实现原理和技术效果类似,在此不再赘述。
本申请实施例还公开了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如实施例1所述的模型训练方法。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如实施例1所述的模型训练方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (7)

1.一种模型训练方法,其特征在于,应用于融入标签感知迁移学习的跨领域槽填充模型,所述跨领域槽填充模型用于将包括真实BIO标签的训练样本输入嵌入层得到所述训练样本对应的词嵌入,将所述词嵌入输入第一双向长短期记忆神经网络,得到所述词嵌入对应的第一隐藏状态,将所述第一隐藏状态输入条件随机层,生成预测BIO标签序列,将所述词嵌入输入第二双向长短期记忆神经网络,得到所述词嵌入对应的第二隐藏状态,将所述第二隐藏状态输入平均池化层,生成表示信息,将所述表示信息与槽描述向量进行相似度对比,确定相似度最高的槽描述向量对应的槽位为目标槽位,所述真实BIO标签用于表示所述训练样本的每个元素的类型与位置,所述槽描述向量是描述槽位的向量,由n个所述槽位的自然语言单词的词嵌入相加得到,所述方法包括:
将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签且均由字符构成;
基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
基于第二预设公式,计算分类损失函数值;
以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练;
所述以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型;
所述第二预设公式为:
Figure P_220303094531880_880505001
其中,
Figure P_220303094531911_911757001
表示所述分类损失函数值;
Figure P_220303094531943_943021002
表示所述训练样本的总数;
Figure P_220303094531974_974223003
表示所述训练样本的真实BIO标签的数量;
Figure P_220303094531990_990816004
表示所述训练样本的真实BIO标签类别;
Figure P_220303094532022_022684005
表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,
Figure P_220303094532038_038219006
取1,否则
Figure P_220303094532069_069464007
取0;
Figure P_220303094532085_085079008
表示训练样本i属于真实BIO标签c的预测概率。
2.根据权利要求1所述的模型训练方法,其特征在于,所述第一预设公式为:
Figure P_220303094532116_116317001
Figure P_220303094532163_163188001
其中,
Figure P_220303094532291_291628001
表示所述最大平均差异值,
Figure P_220303094532394_394116002
表示再生核函数;
Figure P_220303094532444_444919001
表示第i个所述第一域样本的隐藏信息,
Figure P_220303094532476_476172002
表示第j个所述第一域样本的隐藏信息;
Figure P_220303094532509_509353001
表示第i个所述第二域样本的隐藏信息,
Figure P_220303094532525_525509002
表示第j个所述第二域样本的隐藏信息;
Figure P_220303094532556_556756001
表示所述第一域样本的隐藏信息的集合,
Figure P_220303094532572_572377002
表示所述第二域样本的隐藏信息的集合;
Figure P_220303094532590_590434001
表示所述第一域样本的数量,
Figure P_220303094532626_626549002
表示所述第二域样本的数量。
3.根据权利要求1所述的模型训练方法,其特征在于,所述计算分类损失函数值后,还包括:
基于第三预设公式,计算正则化损失函数值;
所述以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型,包括:
以同时最小化所述最大平均差异总值、所述分类损失函数值和所述正则化损失函数值为目标,训练所述跨领域槽填充模型。
4.根据权利要求3所述的模型训练方法,其特征在于,所述第三预设公式为:
Figure P_220303094532646_646464001
其中,
Figure P_220303094532667_667112001
表示所述正则化损失值;
Figure P_220303094532682_682751002
表示Bi-LSTM的参数。
5.一种模型训练装置,其特征在于,应用于融入标签感知迁移学习的跨领域槽填充模型,所述跨领域槽填充模型用于将包括真实BIO标签的训练样本输入嵌入层得到所述训练样本对应的词嵌入,将所述词嵌入输入第一双向长短期记忆神经网络,得到所述词嵌入对应的第一隐藏状态,将所述第一隐藏状态输入条件随机层,生成预测BIO标签序列,将所述词嵌入输入第二双向长短期记忆神经网络,得到所述词嵌入对应的第二隐藏状态,将所述第二隐藏状态输入平均池化层,生成表示信息,将所述表示信息与槽描述向量进行相似度对比,确定相似度最高的槽描述向量对应的槽位为目标槽位,所述真实BIO标签用于表示所述训练样本的每个元素的类型与位置,所述槽描述向量是描述槽位的向量,由n个所述槽位的自然语言单词的词嵌入相加得到,所述装置包括:
得到模块,用于将预设数量的训练样本输入所述跨领域槽填充模型的嵌入编码层,得到每个分词的隐藏信息,其中,所述训练样本包括第一域样本和第二域样本,每个训练样本均包括真实BIO标签且均由字符构成;
计算模块,用于基于第一预设公式,计算具有相同所述真实BIO标签的所述第一域样本和所述第二域样本的隐藏信息之间的最大平均差异值;
所述计算模块,还用于将各个所述真实BIO标签对应的所述最大平均差异值相加,得到最大平均差异总值;
所述计算模块,还用于基于第二预设公式,计算分类损失函数值;
训练模块,用于以最小化所述最大平均差异总值为目标,训练所述跨领域槽填充模型,直到满足预设条件后终止训练;
所述训练模块,还用于以同时最小化所述最大平均差异总值和所述分类损失函数值为目标,训练所述跨领域槽填充模型;
所述第二预设公式为:
Figure P_220303094532713_713979001
其中,
Figure P_220303094532754_754962001
表示所述分类损失函数值;
Figure P_220303094532774_774523002
表示所述训练样本的总数;
Figure P_220303094532792_792086003
表示所述训练样本的真实BIO标签的数量;
Figure P_220303094532823_823854004
表示所述训练样本的真实BIO标签类别;
Figure P_220303094532839_839477005
表示符号函数,如果训练样本i的预测BIO标签与所述训练样本的真实BIO标签类别c一致,
Figure P_220303094532855_855104006
取1,否则
Figure P_220303094532886_886349007
取0;
Figure P_220303094532907_907303008
表示训练样本i属于真实BIO标签c的预测概率。
6.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器执行时,实现如权利要求1-4中任一项所述的模型训练方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-4中任一项所述的模型训练方法。
CN202210011963.6A 2022-01-07 2022-01-07 模型训练方法、装置、计算机设备及计算机可读存储介质 Active CN114036306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210011963.6A CN114036306B (zh) 2022-01-07 2022-01-07 模型训练方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210011963.6A CN114036306B (zh) 2022-01-07 2022-01-07 模型训练方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114036306A CN114036306A (zh) 2022-02-11
CN114036306B true CN114036306B (zh) 2022-03-29

Family

ID=80147323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210011963.6A Active CN114036306B (zh) 2022-01-07 2022-01-07 模型训练方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114036306B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028821B (zh) * 2023-03-29 2023-06-13 中电科大数据研究院有限公司 融合领域知识的预训练模型训练方法、数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898379A (zh) * 2020-08-14 2020-11-06 苏州思必驰信息科技有限公司 槽填充模型训练方法和自然语言理解模型
CN112800190A (zh) * 2020-11-11 2021-05-14 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法
CN113658176A (zh) * 2021-09-07 2021-11-16 重庆科技学院 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292492B2 (en) * 2013-02-04 2016-03-22 Microsoft Technology Licensing, Llc Scaling statistical language understanding systems across domains and intents
US11475220B2 (en) * 2020-02-21 2022-10-18 Adobe Inc. Predicting joint intent-slot structure
CN113821616B (zh) * 2021-08-09 2023-11-14 北京交通大学 领域自适应的槽位填充方法、装置、设备及存储介质
CN113705222B (zh) * 2021-09-01 2024-03-08 北京邮电大学 槽识别模型训练方法及装置和槽填充方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898379A (zh) * 2020-08-14 2020-11-06 苏州思必驰信息科技有限公司 槽填充模型训练方法和自然语言理解模型
CN112800190A (zh) * 2020-11-11 2021-05-14 重庆邮电大学 基于Bert模型的意图识别与槽值填充联合预测方法
CN113658176A (zh) * 2021-09-07 2021-11-16 重庆科技学院 基于交互注意力与卷积神经网络的瓷砖表面缺陷检测方法

Also Published As

Publication number Publication date
CN114036306A (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
CN112925516B (zh) 用上下文信息进行槽填充
CN110147551A (zh) 多类别实体识别模型训练、实体识别方法、服务器及终端
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN112417153A (zh) 文本分类方法、装置、终端设备和可读存储介质
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN114898156B (zh) 基于跨模态语义表征学习和融合的图像分类方法及系统
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN112507912A (zh) 一种识别违规图片的方法及装置
CN115700515A (zh) 文本多标签分类方法及装置
CN114036306B (zh) 模型训练方法、装置、计算机设备及计算机可读存储介质
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN117558270B (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN114511023A (zh) 分类模型训练方法以及分类方法
CN112132269B (zh) 模型处理方法、装置、设备及存储介质
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN116431813A (zh) 智能客服问题分类方法、装置、电子设备及存储介质
CN114648005B (zh) 一种多任务联合学习的多片段机器阅读理解方法及装置
CN114707518B (zh) 面向语义片段的目标情感分析方法、装置、设备及介质
CN113792132B (zh) 一种目标答案确定方法、装置、设备及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN116702048B (zh) 一种新增意图识别方法、模型训练方法、装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant