CN115168565B - 一种垂直领域语言模型冷启动方法、装置、设备及存储介质 - Google Patents

一种垂直领域语言模型冷启动方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115168565B
CN115168565B CN202210802473.8A CN202210802473A CN115168565B CN 115168565 B CN115168565 B CN 115168565B CN 202210802473 A CN202210802473 A CN 202210802473A CN 115168565 B CN115168565 B CN 115168565B
Authority
CN
China
Prior art keywords
model
task
corpus
vertical domain
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210802473.8A
Other languages
English (en)
Other versions
CN115168565A (zh
Inventor
刘苏楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202210802473.8A priority Critical patent/CN115168565B/zh
Publication of CN115168565A publication Critical patent/CN115168565A/zh
Application granted granted Critical
Publication of CN115168565B publication Critical patent/CN115168565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种垂直领域语言模型冷启动方法、装置、设备及存储介质,该方法包括,获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;根据所述初始垂直领域语言模型和待处理任务,得到至少两个任务模型;从所述一般领域语料中筛选出垂直领域语料集合,进一步得到垂直领域语言模型集合;对所述垂直领域语言模型集合中的每一垂直领域语言模型进行微调,得到迭代模型集合;根据所述至少两个任务模型和所述迭代模型集合,确定目标召回方法;根据所述待处理任务,确定初始下游模型;根据所述目标召回方法和所述初始下游模型,得到目标垂直领域语料;根据所述目标垂直领域语料和所述初始垂直领域语言模型,得到目标垂直领域语言模型。

Description

一种垂直领域语言模型冷启动方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,具体的,涉及一种垂直领域语言模型冷启动方法、装置、设备及存储介质。
背景技术
语言模型预训练非常重要,其能有效提高多种自然语言处理任务的效果。然而预训练代价高昂,因此工业界普遍的做法是直接使用开源的语言模型。
开源语言模型通常基于一般领域语料,对于垂直领域的自然语言任务,使用对应领域的语料能带来额外的增益,甚至当垂直领域语料足够时,完全使用垂直领域语料训练的语言模型在下游任务的效果上能超过开源语言模型。面对一个特定的垂直领域下游任务,如何选择语料,是上游语言模型预训练不可避免的问题,只有获取足够多的垂直领域语料,才能得到垂直领域语言模型。
现有技术中,针对垂直领域语料的选择,由于缺少方法论的指导,往往依赖于既有的垂直领域语料数据集,然而目前大部分领域都没有公开的垂直领域语料数据集,也就没有垂直领域语言模型。
发明内容
本发明提供一种垂直领域语言模型冷启动方法、装置、设备及存储介质,用以解决现有技术中如何实现垂直领域语言模型冷启动的问题。
本发明解决上述技术问题的技术方案如下:一种垂直领域语言模型冷启动方法,包括:
步骤101,获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选;
步骤102,根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合;其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法;
步骤103,根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合;
步骤104,根据所述待处理任务,对所述垂直领域语言模型集合中的每一垂直领域语言模型进行微调,得到迭代模型集合;其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法;
步骤105,根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法;
步骤106,根据待处理任务,确定初始下游模型;
步骤107,根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料;
步骤108,根据所述目标垂直领域语料和所述初始垂直领域语言模型,进行语言模型自训练,得到目标垂直领域语言模型。
本申请实施例的有益效果在于:面对待处理任务,往往缺少对应的垂直领域语言模型;因此,提出步骤101-步骤108,能够从任意多个召回方法中选取最佳召回方法,即目标召回方法,进而根据目标召回方法和初始下游模型,获取目标垂直领域语料,进一步根据目标垂直领域语料能够得到目标垂直领域语言模型,最终实现垂直领域语言模型冷启动。相较于现有技术:针对每一召回方法,从一般领域语料模型中选取多个垂直领域语料,再根据多个垂直领域语料训练多个垂直领域语言模型,进一步确定目标垂直领域语言模型。本申请实施例能够通过步骤101-步骤105,先确定目标召回方法,再执行步骤106-108,最终得到目标垂直领域语言模型,由此可知,本申请不仅能够确定最佳召回方法,还能够根据最佳召回方法从一般领域语料中筛选出目标垂直领域语料,进一步,能够根据目标垂直领域语料训练一个垂直领域语言模型,即目标垂直领域语言模型。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,根据待处理任务和所述目标垂直领域语言模型,确定目标下游模型。
采用上述进一步方案的有益效果是:能够针对特定的下游任务,即待处理任务,得到目标下游模型,进而相比初始下游模型,目标下游模型能够更好地处理下游任务。
进一步,将所述步骤109中目标下游模型设定为所述步骤106中初始下游模型,再将所述步骤108中目标垂直领域语言模型设定为所述步骤108中初始垂直领域语言模型,重复执行步骤106-步骤109。
采用上述进一步方案的有益效果是:上述步骤中,将步骤109中的目标下游模型设定为步骤106中的初始下游模型,再将步骤108中所述目标垂直领域语言模型设定为所述步骤108中所述初始垂直领域语言模型后,重复步骤106-109,能够得到优化后的目标下游模型,优化后的目标下游模型能够更好地处理下游任务。
进一步,重复执行至少一次步骤106-步骤109后,将所述步骤108中目标垂直领域语言模型设定为所述步骤101中初始垂直领域语言模型,再执行步骤101-步骤109。
采用上述进一步方案的有益效果是:若重复执行步骤106-步骤109后得到优化后的目标下游模型的效果不再提升,可以将步骤108中所述目标垂直领域语言模型设定为步骤101中所述初始垂直领域语言模型,再执行步骤101-步骤109,重新确定目标召回方法,进一步获取性能更优越的目标下游模型。
进一步,所述根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出对应的垂直领域语料集合,包括:
对于每一所述任务模型,根据所述任务模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第一相关性;
根据所述第一相关性和每个所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,一个所述召回方法和一个所述任务模型对应所述垂直领域语料集合中的一个垂直领域语料。
采用上述进一步方案的有益效果是:能够根据不同的召回方法和第一相关性从一般领域语料中获取垂直领域语料集合,实现从大量的数据中筛选有效数据,为后续步骤中训练垂直领域语言模型提供数据基础。
进一步,所述根据所述任务模型和所述迭代模型集合,确定目标召回方法,包括:
根据各个所述任务模型,计算每两个所述任务模型之间的模型距离,得到至少一个初始距离;
根据所述召回方法和所述迭代模型集合,计算同一所述召回方法对应的每两个不同所述迭代模型的模型距离,得到至少两个迭代距离;
根据所述初始距离和所述迭代距离,计算所述初始距离对应的迭代距离与所述初始距离的比值,得到至少两个模型映射系数,其中,一个所述模型映射系数对应一个所述召回方法;
将各个所述模型映射系数中最小的模型映射系数对应的所述召回方法确定为所述目标召回方法。
采用上述进一步方案的有益效果是:根据上述步骤能够从多个召回方法中确定最佳召回方法,即目标召回方法,以便根据目标召回方法从一般领域语料中获取最合适的有效语料。
进一步,所述根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料,包括:
根据所述初始下游模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第二相关性;
根据各个所述第二相关性和所述目标召回方法,从所述一般领域语料筛选出所述目标垂直领域语料。
采用上述进一步方案的有益效果是:根据上述步骤,能够根据目标和第二相关性从一般领域语料中获取目标垂直领域语料,实现从大量的数据中提取最合适的有效数据,为后续步骤中训练目标垂直领域语言模型提供数据基础。
为解决上述问题,本申请实施例中还提供一种垂直领域语言模型冷启动装置,所述装置包括:
获取模块,用于获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选;
第一处理模块,用于根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法;
第二处理模块,用于根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合;
第三处理模块,用于根据所述待处理任务,对所述垂直领域语言模型集合中的每一垂直领域语言模型进行微调,得到迭代模型集合;其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法;
第四处理模块,用于根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法;
第五处理模块,用于根据所述待处理任务,确定初始下游模型;
第六处理模块,用于根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料;
第七处理模块,根据所述目标垂直领域语料和所述初始垂直领域语言模型,进行语言模型自训练,得到目标垂直领域语言模型。
为解决上述问题,本申请实施例还提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读指令,当所述计算机可读指令由所述处理器执行时,运行如上述方法中的步骤。
为解决上述问题,本申请实施例还一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述方法中的步骤。
附图说明
图1为本申请实施例中一种垂直领域语言模型冷启动方法的流程图;
图2为本申请实施例中一种垂直领域语言模型冷启动装置的结构示意图;
图3为本申请实施例中一种电子设备的结构示意图。
具体实施方式
以下对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种垂直领域语言模型冷启动方法,包括:
步骤101,获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定所述待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选。
在本申请实施例中,待处理任务表示具体的下游任务,比如,待处理任务为文学语料的二分类任务。一般领域语料中通常包括多个领域对应的语料,比如,一般领域语料中可能包括体育、文学、游戏、数学等领域的语料数据。初始垂直领域语言模型可为随机初始化的任意语言模型,比如,初始垂直语言模型为随机初始化的bert模型。
需要说明的是,所述初始语言模型用于确定至少两个任务模型,具体为,根据所述初始垂直领域语言模型和所述待处理任务,通过不同的训练方式,比如,设定不同的学习率和不同的优化器,得到不同的任务模型。
在本申请实施例中,相关性可通过概率表征,则任务模型可用来计算一般领域语料中各个语料为文学语料的概率,比如,有一个语料,利用任务模型计算该语料为文学领域语料的概率,得到的值为0.8;召回方法为从一般领域语料中筛选语料的规则,例如,召回方法A表示,从一般领域语料中选出P1大于0.6的语料,P1表示一般领域语料中任一语料为文学领域语料的概率。
需要说明的是,所述任务模型计算得到的概率表示所述待处理任务与所述一般领域语料中各个语料之间的相关性;概率值越大,待处理任务与所述一般领域语料中各个语料之间的相关性越大;概率值越小,待处理任务与所述一般领域语料中各个语料之间的相关性越小。
步骤102,根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法。
在本申请实施例中,所述步骤102,具体包括:
步骤1021,对于每一所述任务模型,根据所述任务模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第一相关性。
在本实施例中,第一相关性表示,分别根据任务模型1和任务模型2,计算待处理任务与所述一般领域语料中各个语料之间的相关性值;例如,待处理任务表示文学语料二分类任务,则第一相关性表示,将一般领域语料中的各个语料分别输入任务模型1和任务模型2中,通过任务模型1计算得到的一般领域语料中各个语料为文学语料的概率值,概率值表征相关性值,通过任务模型2计算得到的一般领域语料中各个语料为文学语料的概率值。
步骤1022,根据所述第一相关性和每个所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,一个所述召回方法和一个所述任务模型对应所述垂直领域语料集合中的一个垂直领域语料。
在本申请实施例中,比如,根据任务模型1、任务模型2、召回方式A和召回方式B,从所述一般领域语料中筛选出所述任务模型对应的4个垂直领域语料,分别为,第一垂直领域语料、第二垂直领域语料、第三垂直领域语料和第四领域语料,其中,第一垂直领域语料表示,从一般领域语料中筛选的经任务模型1计算后,概率值大于0.6的语料;第二垂直领域语料表示,从一般领域语料中筛选的经任务模型1计算后,概率值大于0.8的语料;第三垂直领域语料表示从一般领域语料中筛选的经任务模型2计算后,概率值大于0.6的语料;第四垂直领域语料表示从一般领域语料中筛选的经任务模型2计算后,概率值大于0.8的语料。
步骤103,根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合。
在本申请实施例中,可采用Masked LM的方式进行语言模型自训练,Masked LM的训练过程其实就是在模仿我们学语言的过程,思想来源于完形填空的任务,即根据上下文去预测每一个被抹去的词汇。具体来说,在一句话中随机选择15%的词汇用于预测。对于在原句中被抹去的词汇,80%情况下采用一个特殊符号[MASK]替换,10%情况下采用一个任意词替换,剩余10%情况下保持原词汇不变。具体的训练过程可参照论文《Bert:Pre-training of deep bidirectional transformers for language understanding》中的相关内容。
本申请实施例中,垂直领域语言语料集合作为训练样本,通过Masked LM等方式训练语言模型,得到垂直领域语言模型集合,其中,语言模型为任意语言模型,比如,语言模型可为bert模型。
作为一个示例,比如,在前述步骤102中得到4个垂直领域语料,根据这4个垂直领域语料,进行语言模型自训练,得到4个垂直领域语言模型。
需要说明的是,一个垂直领域语料对应一个垂直领域语言模型,比如,第一垂直领域语料对应第一垂直领域语言模型,第二垂直领域语料对应第二垂直领域语言模型,第三垂直领域语料对应第三垂直领域语言模型,第四垂直领域语料对应第四垂直领域语言模型。
步骤104,根据待处理任务,对所述垂直领域语言模型中的每一垂直领域语言模型进行微调,得到迭代模型集合,其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法。
需要说明的是,微调是根据实际任务需要对已经训练好的模型进行参数调整,使调整后的模型适应实际任务的需要。具体的微调过程可参照论文《Bert:Pre-training ofdeep bidirectional transformers for language understanding》中的相关内容。
需要说明的是,一个迭代模型对应一个任务模型和一个召回方法,此处以一个简单的示例对其进行说明,比如,现在有一个任务模型1和一个召回方法A,先通过任务模型1和召回方法A,从一般领域语料中筛选出垂直领域语料1;再根据垂直领域语料1,进行语言模型自训练,得到垂直领域语言模型1;再根据待处理任务,即下游任务,对所述垂直领域语言模型1进行微调,得到迭代模型1,此时可知,迭代模型1对应任务模型1和召回方法A。同理,根据前述步骤,能够确定各个迭代模型对应的任务模型和召回方法。
步骤105,根据至少两个所述任务模型和所述迭代模型,确定目标召回方法。
在本申请实施例中,所述步骤105,包括:
步骤1051,根据各个所述任务模型,计算每两个所述任务模型之间的模型距离,得到至少一个初始距离。
在本申请实施例中,假设有任务模型1和任务模型2,计算任务模型1和任务模型2的模型距离,得到初始距离1,d=distance(a,b)=||w_a-w_b||,其中,w_a为任务模型1的词向量,w_b为任务模型2的词向量,d为模型距离,distance为任意距离公式。同理,能够根据上述步骤求解不同任务模型之间的模型距离,也能求解不同迭代模型之间的模型距离。
需要说明的是,词向量是模型的一部分参数,它用高维向量表示了每个字的特征。
步骤1052,根据所述召回方法和所述迭代模型集合,计算同一所述召回方法对应的每两个不同所述迭代模型的模型距离,得到至少两个迭代距离。
在本申请实施例中,假设召回方法包括召回方法A、召回方法B和召回方法C,迭代模型集合中包括迭代模型1、迭代模型2、迭代模型3、迭代模型4、迭代模型5和迭代模型6,其中,迭代模型1和迭代模型2对应召回方法A,迭代模型3和迭代模型4对应召回方法B,迭代模型5和迭代模型6对应召回方法C。计算迭代模型1与迭代模型2的模型距离,得到迭代距离1;计算迭代模型3与迭代模型4的模型距离,得到迭代距离2;计算迭代模型5与迭代模型6的模型距离,得到迭代距离3。
需要说明的是,迭代模型1、迭代模型3和迭代模型5对应任务模型1,迭代模型2、迭代模型4和迭代模型6对应任务模型2,则可知,迭代模型1对应召回方法A和任务模型1,迭代模型2对应召回方法A和任务模型2,迭代模型3对应召回方法B和任务模型1,迭代模型4对应召回方法B和任务模型2;迭代模型5对应召回方法C和任务模型1;迭代模型6对应召回方法C和任务模型2。同理,按照上述对照关系能够得出迭代模型与召回方法和任务模型的对应关系。
步骤1053,根据所述初始距离和所述迭代距离,计算所述初始距离对应的迭代距离与所述初始距离的比值,得到至少两个模型映射系数,其中,一个所述模型映射系数对应一个所述召回方法。
在本申请实施例中,根据前述步骤1052确定的迭代距离1、迭代距离2和迭代距离3,以及初始距离1,计算模型映射系数,比如,Ka=d1’/d1,Ka表示模型映射系数,d1’示迭代距离1,d1表示初始距离1,此时,模型映射系数Ka,为召回方法A的模型映射系数。同理,能够根据前述内容求解模型映射系数Kb和模型映射系数Kc,其中,模型映射系数Kb为召回方法B的模型映射系数,模型映射系数Kc为召回方法C的模型映射系数。
需要说明的是,针对同一召回方法,可以通过采样得到模型映射系数集合,再根据模型映射系数集合确定该召回方法的模型映射系数,比如,还有任务模型3、任务模型4、任务模型5和任务模型6,然后参照上述步骤1051-1053,针对同一召回方法A,根据任务模型1和任务模型3,任务模型1和任务模型4,任务模型1和任务模型5,任务模型1和任务模型6,任务模型2和任务模型3,任务模型2和任务模型4,任务模型2和任务模型5,任务模型2和任务模型6,任务模型3和任务模型4,任务模型3和任务模型5,任务模型3和任务模型6,任务模型4和任务模型5,任务模型4和任务模型6,任务模型5和任务模型6,得到模型映射系数Ka的集合,根据模型映射系数Ka的集合,确定召回方法A对应的模型映射系数Ka。
步骤1054,将各个所述模型映射系数中最小的模型映射系数对应的所述召回方法确定为所述目标召回方法。
在本申请实施例中,比较前述步骤1053得到的模型映射系数Ka、Kb、和Kc,若模型映射系数Kc为最小的模型映射系数,根据前述步骤可知,模型映射系数Kc对应的是召回方法C,则将召回方法C确定为目标召回方法。此时的召回方法C相较于召回方法A和召回方法B而言,性能更优越。
步骤106,根据待处理任务,确定初始下游模型。
在本申请实施例中,由于待处理任务表示的是具体的下游任务,此时根据待处理任务确定的初始下游模型,便于后续进行目标垂直语料的筛选。
步骤107,根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料。
在本申请实施例中,所述步骤107包括:
步骤1071,根据所述初始下游模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第二相关性。
在本实施例中,第二相关性表示,根据初始下游模型,计算待处理任务与所述一般领域语料中各个语料之间的相关性值;例如,待处理任务表示文学语料二分类任务,则第二相关性表示,将一般领域语料中的各个语料输入初始下游模型中,初始下游模型计算得到的一般领域语料中各个语料为文学语料的概率值,概率值表征相关性值。
步骤1072,根据各个所述第二相关性和所述目标召回方法,从所述一般领域语料中筛选出所述目标垂直领域语料。
在本申请实施例中,根据第二相关性和前述步骤中确定的召回方法C,从一般领域语料中筛选出目标垂直领域语料。
步骤108,根据所述目标垂直领域语料和初始垂直领域语言模型,进行语言模型自训练,得到目标垂直领域语言模型。
在本申请实施例中,根据目标垂直领域语料,采用Masked LM的方式进行语言模型自训练,进而能够得到目标垂直领域语言模型。
在一个实施例中,还包括:
步骤109,根据待处理任务和所述目标垂直领域语言模型,确定目标下游模型。
在本申请实施例中,根据待处理任务和所述目标垂直领域语言模型,能够得到目标下游模型,进而根据目标下游模型能够更好地处理下游任务。
在一个实施例中,还包括:
将步骤109中所述目标下游模型设定为所述步骤106中初始下游模型后,重复执行步骤106-步骤109。
在本申请实施例中,将步骤109中的目标下游模型设定为步骤106中的初始下游模型后,重复步骤106-步骤109,能够得到优化后的目标下游模型,优化后的目标下游模型能够进一步提升下游任务的性能。
在一个实施例中,还包括:
重复执行至少一次步骤106-步骤109后,将步骤108中所述目标垂直领域语言模型设定为步骤101中所述初始垂直领域语言模型,再执行步骤101-步骤109。
需要说明的是,重复执行步骤106-步骤109的目的在于,获取优化后的目标下游模型,当目标下游模型性能不再提升时,就停止重复执行步骤106-步骤109。理想状态下,需要重复执行多次步骤106-步骤109,以获取最优的目标下游模型;不理想状态下,重复执行一次步骤106-步骤109后,目标下游模型性能便不再提升。此时,需要重新执行步骤101-步骤109,以获取新的目标下游模型,并且需要再重复执行至少一次步骤106-步骤109,以提高新的目标下游模型的性能。
如图2所示,在一个实施例中,还提供一种垂直领域语言模型冷启动装置,所述装置包括:
获取模块,用于获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选。
第一处理模块,用于根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法;
第二处理模块,用于根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合;
第三处理模块,用于根据所述待处理任务,对所述垂直领域语言模型中的每一垂直领域语言模型进行微调,得到迭代模型集合,其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法;
第四处理模块,用于根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法;
第五处理模块,用于根据待处理任务,确定初始下游模型;
第六处理模块,用于根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料;
第七处理模块,根据所述目标垂直领域语料和所述初始垂直领域语言模型,进行语言模型自训练,得到目标垂直领域语言模型。
在本申请实施例中,还包括第八处理模块:用于根据待处理任务和所述目标垂直领域语言模型,确定目标下游模型。
在本申请实施例中,还包括第九处理模块:用于将所述目标下游模型设定为所述第五处理模块中初始下游模型,再将目标垂直领域语言模型设定为所述第七处理模块中初始垂直领域语言模型后,重复执行第五处理模块至第八处理模块的处理过程。
在本申请实施例中,还包括第十处理模型,在第九处理模型执行完至少一次处理过程以后,用于将目标垂直领域语言模型设定为所述第一处理模型中初始垂直领域语言模型后,重复执行第一处理模型至第八处理模块的处理过程。
在本申请实施例中,所述第一处理模块,在根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出对应的垂直领域语料集合时,具体用于:
对于每一所述任务模型,根据所述任务模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第一相关性;
根据所述第一相关性和每个所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,一个所述召回方法和一个所述任务模型对应所述垂直领域语料集合中的一个垂直领域语料。
在本申请文件中,所述第四处理模块,在根据所述任务模型和所述迭代模型集合,确定目标召回方法时,具体用于:
根据各个所述任务模型,计算每两个所述任务模型之间的模型距离,得到至少一个初始距离;
根据所述召回方法和所述迭代模型,计算同一所述召回方法对应的每两个不同所述迭代模型的模型距离,得到至少两个迭代距离;
根据所述初始距离和所述迭代距离,计算所述初始距离对应的迭代距离与所述初始距离的比值,得到至少两个模型映射系数,其中,一个所述模型映射系数对应一个所述召回方法;
将各个所述模型映射系数中最小的模型映射系数对应的所述召回方法确定为所述目标召回方法。
在本申请实施例中,所述第六处理模块,在根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料时,具体用于:
根据所述初始下游模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第二相关性;
根据各个所述第二相关性和所述目标召回方法,从所述一般领域语料中筛选出所述目标垂直领域语料。
如图3所示,在一个实施例中,还提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读指令,当所述计算机可读指令由所述处理器执行时,运行如上述实施例中的步骤。
在一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述实施例中的步骤。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种垂直领域语言模型冷启动方法,其特征在于,包括:
步骤101,获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选;
步骤102,根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合;其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法;
步骤103,根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合;
步骤104,根据所述待处理任务,对所述垂直领域语言模型集合中的每一垂直领域语言模型进行微调,得到迭代模型集合;其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法;
步骤105,根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法;
步骤106,根据所述待处理任务,确定初始下游模型;
步骤107,根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料;
步骤108,根据所述目标垂直领域语料和所述初始垂直领域语言模型,通过语言模型自训练,得到目标垂直领域语言模型;
其中,所述根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法,包括:
根据各个所述任务模型,计算每两个所述任务模型之间的模型距离,得到至少一个初始距离;
根据所述召回方法和所述迭代模型集合,计算同一所述召回方法对应的每两个不同所述迭代模型的模型距离,得到至少两个迭代距离;
根据所述初始距离和所述迭代距离,计算所述初始距离对应的迭代距离与所述初始距离的比值,得到至少两个模型映射系数,其中,一个所述模型映射系数对应一个所述召回方法;
将各个所述模型映射系数中最小的模型映射系数对应的所述召回方法确定为所述目标召回方法。
2.根据权利要求1所述的方法,其特征在于,还包括:
步骤109,根据待处理任务和所述目标垂直领域语言模型,确定目标下游模型。
3.根据权利要求2所述的方法,其特征在于,还包括:
将所述步骤109中目标下游模型设定为所述步骤106中初始下游模型,再将所述步骤108中目标垂直领域语言模型设定为所述步骤108中初始垂直领域语言模型,重复执行步骤106-步骤109。
4.根据权利要求3所述的方法,其特征在于,还包括:
重复执行至少一次步骤106-步骤109后,将所述步骤108中目标垂直领域语言模型设定为所述步骤101中初始垂直领域语言模型,再执行步骤101-步骤109。
5.根据权利要求1所述一种的方法,其特征在于,所述根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出对应的垂直领域语料集合,包括:
对于每一所述任务模型,根据所述任务模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第一相关性;
根据所述第一相关性和每个所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,一个所述召回方法和一个所述任务模型对应所述垂直领域语料集合中的一个垂直领域语料。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料,包括:
根据所述初始下游模型,确定所述待处理任务与所述一般领域语料中各个语料之间的第二相关性;
根据各个所述第二相关性和所述目标召回方法,从所述一般领域语料中筛选出所述目标垂直领域语料。
7.一种垂直领域语言模型冷启动装置,其特征在于,所述装置包括:
获取模块,用于获取一般领域语料、初始垂直领域语言模型和至少两个召回方法;所述初始垂直领域语言模型用于确定至少两个任务模型;对于每个所述任务模型,所述任务模型用于确定待处理任务与所述一般领域语料中各个语料之间的相关性;对于每个所述召回方法,所述召回方法用于根据相关性从所述一般领域语料中进行语料筛选;
第一处理模块,用于根据每一所述任务模型和每一所述召回方法,从所述一般领域语料中筛选出垂直领域语料集合,其中,所述垂直领域语料集合中一个垂直领域语料对应一个所述任务模型和一个所述召回方法;
第二处理模块,用于根据所述垂直领域语料集合,进行语言模型自训练,得到所述垂直领域语料集合对应的垂直领域语言模型集合;
第三处理模块,用于根据所述待处理任务,对所述垂直领域语言模型集合中的每一垂直领域语言模型进行微调,得到迭代模型集合,其中,所述迭代模型集合中一个迭代模型对应一个所述任务模型和一个所述召回方法;
第四处理模块,用于根据至少两个所述任务模型和所述迭代模型集合,确定目标召回方法;
第五处理模块,用于根据待处理任务,确定初始下游模型;
第六处理模块,用于根据所述目标召回方法和所述初始下游模型,从所述一般领域语料中筛选出目标垂直领域语料;
第七处理模块,根据所述目标垂直领域语料和所述初始垂直领域语言模型,进行语言模型自训练,得到目标垂直领域语言模型;
其中,所述第四处理模块,具体用于:
根据各个所述任务模型,计算每两个所述任务模型之间的模型距离,得到至少一个初始距离;
根据所述召回方法和所述迭代模型集合,计算同一所述召回方法对应的每两个不同所述迭代模型的模型距离,得到至少两个迭代距离;
根据所述初始距离和所述迭代距离,计算所述初始距离对应的迭代距离与所述初始距离的比值,得到至少两个模型映射系数,其中,一个所述模型映射系数对应一个所述召回方法;
将各个所述模型映射系数中最小的模型映射系数对应的所述召回方法确定为所述目标召回方法。
8.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读指令,当所述计算机可读指令由所述处理器执行时,运行如权利要求1-6任一项方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-6任一所述方法中的步骤。
CN202210802473.8A 2022-07-07 2022-07-07 一种垂直领域语言模型冷启动方法、装置、设备及存储介质 Active CN115168565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210802473.8A CN115168565B (zh) 2022-07-07 2022-07-07 一种垂直领域语言模型冷启动方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210802473.8A CN115168565B (zh) 2022-07-07 2022-07-07 一种垂直领域语言模型冷启动方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115168565A CN115168565A (zh) 2022-10-11
CN115168565B true CN115168565B (zh) 2023-01-24

Family

ID=83492441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210802473.8A Active CN115168565B (zh) 2022-07-07 2022-07-07 一种垂直领域语言模型冷启动方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115168565B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011075729A2 (en) * 2009-12-18 2011-06-23 Morningside Analytics, Llc System and method for attentive clustering and related analytics and visualizations
CN104408639A (zh) * 2014-10-22 2015-03-11 百度在线网络技术(北京)有限公司 多轮会话交互方法和系统
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112765325A (zh) * 2021-01-27 2021-05-07 语联网(武汉)信息技术有限公司 垂直领域语料数据筛选方法及系统
CN113449514B (zh) * 2021-06-21 2023-10-31 浙江康旭科技有限公司 一种适用于垂直领域的文本纠错方法及其纠错装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159416A (zh) * 2020-04-02 2020-05-15 腾讯科技(深圳)有限公司 语言任务模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115168565A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
US20230206914A1 (en) Efficient empirical determination, computation, and use of acoustic confusability measures
US11928601B2 (en) Neural network compression
EP3398117B1 (en) Augmenting neural networks with external memory
EP3971786A1 (en) Feedforward generative neural networks
US8433556B2 (en) Semi-supervised training for statistical word alignment
CN109697289B (zh) 一种改进的用于命名实体识别的主动学习方法
JP4852448B2 (ja) 誤り傾向学習音声認識装置及びコンピュータプログラム
US9747893B2 (en) Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
US11803731B2 (en) Neural architecture search with weight sharing
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN112016303B (zh) 基于图神经网络的文本纠错方法、装置、设备及存储介质
CN114067786A (zh) 语音识别方法、装置、电子设备及存储介质
CN110991193B (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN110223674B (zh) 语音语料训练方法、装置、计算机设备和存储介质
CN114861637A (zh) 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
Duh et al. Beyond log-linear models: Boosted minimum error rate training for n-best re-ranking
CN115168565B (zh) 一种垂直领域语言模型冷启动方法、装置、设备及存储介质
US11232786B2 (en) System and method to improve performance of a speech recognition system by measuring amount of confusion between words
JP6586026B2 (ja) 単語ベクトル学習装置、自然言語処理装置、方法、及びプログラム
CN117271792A (zh) 一种基于大模型构建企业领域知识库的方法
CN113468357B (zh) 一种图像描述文本生成方法及装置
EP1837807A1 (en) Pattern recognition method
CN111666770B (zh) 一种语义匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant