CN114995903A - 一种基于预训练语言模型的类别标签识别方法及装置 - Google Patents

一种基于预训练语言模型的类别标签识别方法及装置 Download PDF

Info

Publication number
CN114995903A
CN114995903A CN202210605561.9A CN202210605561A CN114995903A CN 114995903 A CN114995903 A CN 114995903A CN 202210605561 A CN202210605561 A CN 202210605561A CN 114995903 A CN114995903 A CN 114995903A
Authority
CN
China
Prior art keywords
data
plug
label
language model
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210605561.9A
Other languages
English (en)
Other versions
CN114995903B (zh
Inventor
覃祥坤
单海军
周鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202210605561.9A priority Critical patent/CN114995903B/zh
Publication of CN114995903A publication Critical patent/CN114995903A/zh
Application granted granted Critical
Publication of CN114995903B publication Critical patent/CN114995903B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于预训练语言模型的类别标签识别方法及装置,其中,该基于预训练语言模型的类别标签识别方法包括:确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。可以提高类别标签识别效率。

Description

一种基于预训练语言模型的类别标签识别方法及装置
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种基于预训练语言模型的类别标签识别方法及装置。
背景技术
类别标签标注(序列标注)是自然语言处理的基础任务之一,旨在解决在字符级别的分类问题,如词性标注、分词、命名实体识别等,为关系抽取等下游任务提供必要的信息。
随着深度学习技术的快速发展,利用预训练语言模型(PLM,Permuted LanguageModel),可以极大提升序列标注任务的性能,在将预训练语言模型应用到具体的下游任务时,通过对预训练语言模型的微调,可以进一步提升对该下游任务的类别标签标注精度。但目前对预训练语言模型进行微调时,需要基于数据集对预训练模型的所有参数进行更新,使得微调需要更新和存储预训练语言模型的所有参数。例如,在构建和部署依赖于大型预训练语言模型时,需要为每个下游任务存储一预训练语言模型的修改副本,预训练语言模型巨大的参数量使得存储成本变得非常高昂,并且大量参数微调也极大的提升了部署PLM的时间成本,使得实现类别标签识别所需的时间长,类别标签识别效率较低。
发明内容
有鉴于此,本发明的目的在于提供基于预训练语言模型的类别标签识别方法及装置,以提高类别标签识别效率。
第一方面,本发明实施例提供了基于预训练语言模型的类别标签识别方法,包括:
确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在所述确定待识别数据所属的目标下游任务之前,所述方法还包括:
基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,其中,下游任务样本数据与插件向量数据的维度相同;
依据预测类别标签和类别标签,在预训练语言模型的参数不变的情形下,对插件向量数据进行训练,得到该下游任务的插件向量训练数据。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
拼接插件向量数据和下游任务样本数据,得到拼接数据;
将拼接数据输入预训练语言模型,获取所述样本数据的预测类别标签。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
将插件向量数据分别输入预训练语言模型中的每一隐藏层;
将下游任务样本数据输入预训练语言模型,获取所述样本数据的预测类别标签。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述将插件向量数据分别输入预训练语言模型中的每一隐藏层,包括:
将插件向量数据拆分为键插件向量数据和值插件向量数据;
将键插件向量数据与上一隐藏层输出的键向量数据进行拼接,得到键拼接数据;
将值插件向量数据与上一隐藏层输出的值向量数据进行拼接,得到值拼接数据;
拼接键拼接数据、值拼接数据以及上一隐藏层输出的查询向量数据,输入当前隐藏层。
结合第一方面、第一方面的第一种可能的实施方式至第四种可能的实施方式中的任一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在所述确定待识别数据所属的目标下游任务之前,所述方法还包括:
针对预先获取的数据集中的每一类别标签数据子集,将该类别标签的数据子集中的数据,分别输入预训练语言模型,得到表征数据的关键词,其中,数据集中包含有各类别标签的数据;
针对每一类别标签,统计该类别标签的各数据对应的关键词的频率,依据频率最高的关键词生成该类别标签对应的类别标签词。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述依据频率最高的关键词生成该类别标签对应的类别标签词,包括:
查询类别标签与类别标签词的第二映射关系库;
若未查询到该频率最高的关键词,构建该频率最高的关键词与类别标签的映射关系,存储至第二映射关系库中;
若查询到该频率最高的关键词,且该频率最高的关键词映射的类别标签与所述该类别标签不相同,选取频率次高的关键词,执行所述查询类别标签与类别标签词的第二映射关系库的步骤,以使每一类别标签对应一类别标签词。
第二方面,本发明实施例还提供了一种基于预训练语言模型的类别标签识别装置,包括:
插件向量训练数据获取模块,用于确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
标签词获取模块,用于基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
类别标签识别模块,用于查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述的方法的步骤。
本发明实施例提供的基于预训练语言模型的类别标签识别方法及装置,通过确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。这样,通过将待识别数据与插件向量训练数据结合,可以在不修改预训练语言模型结构和参数的情形下,利用较少量参数的插件向量训练数据以及类别标签与类别标签词的第二映射关系库,实现类别标签的识别,能够提升类别标签的识别效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例所提供的基于预训练语言模型的类别标签识别方法流程示意图;
图2示出了本发明实施例所提供的基于预训练语言模型的类别标签识别装置结构示意图;
图3为本申请实施例提供的一种计算机设备300的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种基于预训练语言模型的类别标签识别方法及装置,下面通过实施例进行描述。
图1示出了本发明实施例所提供的基于预训练语言模型的类别标签识别方法流程示意图。如图1所示,该方法包括:
步骤101,确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
本发明实施例中,作为一可选实施例,可以通过对待识别数据进行关键词提取,依据预先存储的下游任务与关键词集的映射关系,计算提取的关键词与各关键词集的相似度,以相似度最高对应的下游任务作为该待识别数据所属的目标下游任务。作为另一可选实施例,也可以是将待识别数据上传至预训练语言模型时,由上传待识别数据的上传者确定其所属的目标下游任务,将该信息一同上传至预训练语言模型。其中,下游任务相对于上游任务,一上游任务包括多个下游任务,例如,以上游任务为语言处理任务为例,下游任务包括但不限于:单句分类任务、句段分类任务、问答任务等。
本发明实施例中,作为一可选实施例,在确定待识别数据所属的目标下游任务之前,该方法还包括:
A11,基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,其中,下游任务样本数据与插件向量数据的维度相同;
本发明实施例中,类别标签词用于表征类别标签,是类别标签中最具代表性的词,例如,对于“人名”这个类别标签,“张三”通常用来泛指某一个人,因此,可以将“张三”作为类别标签“人名”对应的类别标签词。
本发明实施例中,关于预训练语言模型的具体结构,具体可参见相关技术文献,在此略去详述。不包含分类器的预训练语言模型,是指从训练好的预训练语言模型中,去除最后一层的分类器,以倒数第二层作为输出。
本发明实施例中,作为一可选实施例,基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
A21,拼接插件向量数据和下游任务样本数据,得到拼接数据;
A22,将拼接数据输入预训练语言模型,获取所述样本数据的预测类别标签。
本发明实施例中,插件向量数据可以是随机生成的与下游任务样本数据的维度相同的数据。作为一可选实施例,插件向量数据为词性数据。
本发明实施例中,插件向量数据为轻量级插件向量数据。作为一可选实施例,设插件向量数据为:
Figure BDA0003670460080000081
式中,
lp为插件向量数据的长度;
h为插件向量数据包含的词向量维度。
本发明实施例中,随机初始化预设长度的向量数据作为插件向量数据。例如,可以利用任意初始化方法,创建lp个维度为h的词向量数据。
本发明实施例中,设下游任务样本数据为:X=[x1,…,xn],将插件向量数据添加到下游任务样本数据前,得到的拼接数据如下:
X’=[θ,x1,…,xn]
本发明实施例中,将拼接数据作为预训练语言模型的输入。
本发明实施例中,作为另一可选实施例,基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
A31,将插件向量数据分别输入预训练语言模型中的每一隐藏层;
A32,将下游任务样本数据输入预训练语言模型,获取所述样本数据的预测类别标签。
本发明实施例中,将插件向量数据输入到预训练语言模型的每层,针对预训练语言模型的每一层,将上一层的输出以及插件向量数据作为该层的输入。
本发明实施例中,由于预训练语言模型大多以变换器(Transformer)结构为基础,因而,隐藏层对应Transformer的自注意力模块。这样,可以将插件向量数据输入预训练语言模型的自注意力模块,其中,自注意力模块计算自注意力的公式为:
Figure BDA0003670460080000091
式中,
dk是多头自注意力模块的头数。
本发明实施例中,对于自注意力模块,包括K、V、Q三个参数,因而,作为一可选实施例,将插件向量数据分别输入预训练语言模型中的每一隐藏层,包括:
A311,将插件向量数据拆分为键插件向量数据和值插件向量数据;
A312,将键插件向量数据与上一隐藏层输出的键向量数据进行拼接,得到键拼接数据;
A313,将值插件向量数据与上一隐藏层输出的值向量数据进行拼接,得到值拼接数据;
A314,拼接键拼接数据、值拼接数据以及上一隐藏层输出的查询向量数据,输入当前隐藏层。
本发明实施例中,在K和V上添加键插件向量数据θk和值插件向量数据θv,依据下式,计算预训练语言模型的自注意力模块的第j层的QKV:
Figure BDA0003670460080000092
Figure BDA0003670460080000093
Figure BDA0003670460080000094
式中,
H(j)为预训练语言模型的自注意力模块的第j层的输入,即上一层的输出;
Figure BDA0003670460080000101
为预训练语言模型的自注意力模块的第j层的键插件向量数据;
Figure BDA0003670460080000102
为预训练语言模型的自注意力模块的第j层的值插件向量数据;
Figure BDA0003670460080000103
分别为查询向量数据、键插件向量数据、值插件向量数据的权重系数。
本发明实施例中,预训练语言模型第j-1层输出,叠加插件向量数据后,输入到第j层。这样,通过在K和V上分别添加的插件向量数据,能在不改变预训练语言模型的模型参数和结构的情况下,更深入的影响预训练语言模型。
本发明实施例中,作为再一可选实施例,还可以在预训练语言模型的每层上,添加预先生成的插件向量数据。
本发明实施例中,通过拼接插件向量数据和下游任务样本数据,或者,将插件向量数据插入到预训练语言模型的每一层,或者,将插件向量数据插入到预训练语言模型的隐藏层,在预训练语言模型的参数不变的情形下,从而影响预训练语言模型的输出结果。
A12,依据预测类别标签和类别标签,在预训练语言模型的参数不变的情形下,对插件向量数据进行训练,得到该下游任务的插件向量训练数据。
本发明实施例中,对插件向量数据进行训练时,以大小为N的任务数据集,任务数据集中的数据为句子为例,其中句子表示为Xi,该句子中每个位置对应的类别标签表示为Yi,M为类别标签和类别标签词的映射关系,对于预训练语言模型,输入一个句子,能够得到该句子中每个位置对应的类别标签,该句子的类别标签包括该句子每个位置对应的类别标签。训练时插件向量数据的优化目标表示为:
Figure BDA0003670460080000111
式中,
P(M(Yi)|Xi)为预测的类别标签与实际的类别标签相同的概率。
本发明实施例中,依据优化目标(模型的输出精度)对插件向量数据进行反向传播,在反向传播时,不改变预训练语言模型的参数,只更新插件向量数据的梯度,从而依据预训练语言模型的输出结果以及下游任务样本数据对应的实际结果,对插件向量参数进行更新,直至预训练语言模型的优化目标,例如,输出精度(样本数据的实际类别标签与预测的类别标签)满足预先设置的精度阈值,将满足该精度阈值对应的插件向量参数作为插件向量训练数据。
本发明实施例中,对于不同的下游任务,需要分别获取该下游任务对应的插件向量训练数据,从而生成下游任务与插件向量训练数据的第一映射关系库。
本发明实施例中,通过训练生成插件向量训练数据的方式,能够在不改变预训练语言模型参数和结构的情况下,通过少量的插件向量数据(参数),引导预训练语言模型完成对目标任务的再训练,从而得到插件向量训练数据,减少了预训练语言模型针对不同任务的存储成本以及运算量,也有效提升了对预训练语言模型进行微调的效率。
步骤102,基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
本发明实施例中,可以将待识别数据以及任务插件向量训练数据进行拼接后,作为不包含分类器的预训练语言模型的输入,也可以是将待识别数据作为不包含分类器的预训练语言模型的输入,同时,将任务插件向量训练数据作为不包含分类器的预训练语言模型中每一隐藏层的输入。
本发明实施例中,在对句子进行类别识别时,对句子的每个位置进行预测,得到预测的该位置的标签词,再依据类别标签和类别标签词的映射关系,获取标签词映射的类别标签,得到该句子每个位置的真实类别标签。其中,标签词为该位置概率最高的词。
步骤103,查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
本发明实施例中,作为一可选实施例,在确定待识别数据所属的目标下游任务之前,该方法还包括:
B11,针对预先获取的数据集中的每一类别标签数据子集,将该类别标签的数据子集中的数据,分别输入预训练语言模型,得到表征数据的关键词,其中,数据集中包含有各类别标签的数据;
B12,针对每一类别标签,统计该类别标签的各数据对应的关键词的频率,依据频率最高的关键词生成该类别标签对应的类别标签词。
本发明实施例中,在利用不包含分类器的预训练语言模型,对各类别标签的类别标签数据子集中的数据进行预测时,针对每一类别标签数据子集,将预训练语言模型对该类别标签的数据进行预测得到的关键词进行词频统计,以出现频率最高的关键词作为该类别标签的标签词。在具体实现时,对于l个类别标签,设l个类别标签组成的类别标签集为:L=[label1,...,labell],不包含分类器的预训练语言模型针对各类别标签的类别标签数据子集,共输出v个关键词组成词表,表示为大小为v的关键词表V=[word1,...,wordv]。其中,关键词表的维度大于或等于类别标签集的维度。对于每一类别标签,基于词表构建基于该类别标签的词频表:freqlabel={word1:freq1,word2:freq2,...,wordv:freqv},再依据预训练语言模型对该类别标签的数据进行预测输出的关键词,对词频表进行更新,最后,从词频表中获取频次最高的关键词作为该类别标签的类别标签词。
本发明实施例中,数据可以是单词或句子,对于数据为句子的情形,在将该数据输入输入预训练语言模型后,该数据的每个位置对应输出有k个概率最高的关键词(候选词),对于某一类别标签,统计该类别标签中各数据的每个位置上出现次数最多的候选词,作为该类别标签的标签词。例如,对于数据为句子的情形:我爱西湖,该句子的每个位置指每个单词所处的位置,其中,字符“我”的位置为1,“爱”的位置为2,以此类推。具体实现时,将句子X输入预训练语言模型,可以得到该句子X的每个位置在关键词表V上的预测分布Y’=[y1’,...,yn’],其中,yi’为预训练语言模型对句子X的第i个位置进行预测得到的所有候选词,对于句子X的第i个位置,取yi’中概率最高的k个候选词,在词频表中,找出k个候选词所在的位置,并对该位置处的词频进行更新,在遍历完该类别标签的类别标签数据子集后,提取词频表中最高频的词作为该类别标签的类别标签词。
本发明实施例中,在得到类别标签词后,依据类别标签,生成映射关系(第二映射关系库)M:L→V,其中,M为映射关系,L为类别标签,V为该类别标签对应的类别标签词,这样,通过构建映射关系,可以将每个类别标签映射到词表中的关键词上,从而可以无需依赖目前预训练语言模型对任务设置的各分类器,实现对数据的类别标签识别。
本发明实施例中,不同类别标签的类别标签词不相同,作为一可选实施例,依据频率最高的关键词生成该类别标签对应的类别标签词,包括:
查询类别标签与类别标签词的第二映射关系库;
若未查询到该频率最高的关键词,构建该频率最高的关键词与类别标签的映射关系,存储至第二映射关系库中;
若查询到该频率最高的关键词,且该频率最高的关键词映射的类别标签与所述该类别标签不相同,选取频率次高的关键词,执行所述查询类别标签与类别标签词的第二映射关系库的步骤,以使每一类别标签对应一类别标签词。
本发明实施例中,若统计的最高频的关键词已被其他类别标签使用,则选取次高频词或次次高频词作为该类别标签的类别标签词,使得每一类别标签对应一类别标签词。
本发明实施例中,通过将待识别数据与插件向量训练数据结合,输入不包含分类器的预训练语言模型,利用该不包含分类器的预训练语言模型预测待识别数据每个位置对应的标签词,依据预测的标签词以及各类别标签对应的类别标签词,获取标签词对应的类别标签,其中,由于类别标签的分类空间为类别标签词表,因而,可以在不修改预训练语言模型结构和参数的情形下,无需重新部署,利用较少量参数的插件向量训练数据,控制不包含分类器的预训练语言模型执行不同下游任务,从而使得该不包含分类器的预训练语言模型能够自适应不同的下游任务,有效减少使用预训练模型的时间和空间成本,提升类别标签的识别效率。相对于利用包含分类器的预训练语言模型,由于分类器的维度固定,只能对已训练的下游任务对应的类别标签进行识别,而在有新的类别标签需要识别时,需要重新训练分类器才能适应到不同下游任务(类别),因而,本发明实施例的方法,能够有效降低预训练语言模型的运算量,提高类别标签识别效率。进一步地,本发明实施例的方法,能够自适应的迁移到任意类别标签识别上,而不依赖目前预训练语言模型针对各任务训练得到的分类层,能够实现可插拔,减少预训练语言模型部署时的时间成本,能够运用到多种类别标签识别任务中,可扩展到情感分类等句子级别任务中,还可适用基于知识图谱的企业风险预警的应用中。
本发明实施例中,在多种类别标签标注数据集上,本发明实施例的方法以0.1%的任务特有参数量,取得了和100%任务特有参数量相似的性能,并在计算资源有限的场景下,相较于其他有代表性的adapter和prefix-tuning方法,能取得2倍到50倍的部署提速。
图2示出了本发明实施例所提供的基于预训练语言模型的类别标签识别装置结构示意图。如图2所示,该装置包括:
插件向量训练数据获取模块201,用于确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
标签词获取模块202,用于基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
类别标签识别模块203,用于查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
本发明实施例中,作为一可选实施例,该装置还包括:
插件向量训练数据生成模块(图中未示出),用于基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,其中,下游任务样本数据与插件向量数据的维度相同;
依据预测类别标签和类别标签,在预训练语言模型的参数不变的情形下,对插件向量数据进行训练,得到该下游任务的插件向量训练数据。
本发明实施例中,插件向量数据可以是随机生成的与下游任务样本数据的维度相同的数据。作为一可选实施例,插件向量数据为词性数据。
本发明实施例中,作为一可选实施例,基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
拼接插件向量数据和下游任务样本数据,得到拼接数据;
将拼接数据输入预训练语言模型,获取所述样本数据的预测类别标签。
本发明实施例中,作为另一可选实施例,基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
将插件向量数据分别输入预训练语言模型中的每一隐藏层;
将下游任务样本数据输入预训练语言模型,获取所述样本数据的预测类别标签。
本发明实施例中,作为一可选实施例,将插件向量数据分别输入预训练语言模型中的每一隐藏层,包括:
将插件向量数据拆分为键插件向量数据和值插件向量数据;
将键插件向量数据与上一隐藏层输出的键向量数据进行拼接,得到键拼接数据;
将值插件向量数据与上一隐藏层输出的值向量数据进行拼接,得到值拼接数据;
拼接键拼接数据、值拼接数据以及上一隐藏层输出的查询向量数据,输入当前隐藏层。
本发明实施例中,作为另一可选实施例,该装置还包括:
类别标签词生成模块,用于针对预先获取的数据集中的每一类别标签数据子集,将该类别标签的数据子集中的数据,分别输入预训练语言模型,得到表征数据的关键词,其中,数据集中包含有各类别标签的数据;
针对每一类别标签,统计该类别标签的各数据对应的关键词的频率,依据频率最高的关键词生成该类别标签对应的类别标签词。
本发明实施例中,对于不同的下游任务,需要分别获取该下游任务对应的插件向量训练数据,从而生成下游任务与插件向量训练数据的第一映射关系库。
本发明实施例中,作为一可选实施例,依据频率最高的关键词生成该类别标签对应的类别标签词,包括:
查询类别标签与类别标签词的第二映射关系库;
若未查询到该频率最高的关键词,构建该频率最高的关键词与类别标签的映射关系,存储至第二映射关系库中;
若查询到该频率最高的关键词,选取频率次高的关键词,执行所述查询类别标签与类别标签词的第二映射关系库的步骤。
如图3所示,本申请一实施例提供了一种计算机设备300,用于执行图1中的基于预训练语言模型的类别标签识别方法,该设备包括存储器301、与存储器301通过总线相连的处理器302及存储在该存储器301上并可在该处理器302上运行的计算机程序,其中,上述处理器302执行上述计算机程序时实现上述基于预训练语言模型的类别标签识别方法的步骤。
具体地,上述存储器301和处理器302能够为通用的存储器和处理器,这里不做具体限定,当处理器302运行存储器301存储的计算机程序时,能够执行上述基于预训练语言模型的类别标签识别方法。
对应于图1中的基于预训练语言模型的类别标签识别方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述基于预训练语言模型的类别标签识别方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述基于预训练语言模型的类别标签识别方法。
在本申请所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于预训练语言模型的类别标签识别方法,其特征在于,包括:
确定待识别数据所属的目标下游任务;
查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
2.根据权利要求1所述的方法,其特征在于,在所述确定待识别数据所属的目标下游任务之前,所述方法还包括:
基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,其中,下游任务样本数据与插件向量数据的维度相同;
依据预测类别标签和类别标签,在预训练语言模型的参数不变的情形下,对插件向量数据进行训练,得到该下游任务的插件向量训练数据。
3.根据权利要求2所述的方法,其特征在于,所述基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
拼接插件向量数据和下游任务样本数据,得到拼接数据;
将拼接数据输入预训练语言模型,获取所述样本数据的预测类别标签。
4.根据权利要求2所述的方法,其特征在于,所述基于标注有类别标签的下游任务样本数据和预先生成的插件向量数据,利用预训练语言模型,获取所述下游任务样本数据的预测类别标签,包括:
将插件向量数据分别输入预训练语言模型中的每一隐藏层;
将下游任务样本数据输入预训练语言模型,获取所述样本数据的预测类别标签。
5.根据权利要求4所述的方法,其特征在于,所述将插件向量数据分别输入预训练语言模型中的每一隐藏层,包括:
将插件向量数据拆分为键插件向量数据和值插件向量数据;
将键插件向量数据与上一隐藏层输出的键向量数据进行拼接,得到键拼接数据;
将值插件向量数据与上一隐藏层输出的值向量数据进行拼接,得到值拼接数据;
拼接键拼接数据、值拼接数据以及上一隐藏层输出的查询向量数据,输入当前隐藏层。
6.根据权利要求1至5任一项所述的方法,其特征在于,在所述确定待识别数据所属的目标下游任务之前,所述方法还包括:
针对预先获取的数据集中的每一类别标签数据子集,将该类别标签的数据子集中的数据,分别输入预训练语言模型,得到表征数据的关键词,其中,数据集中包含有各类别标签的数据;
针对每一类别标签,统计该类别标签的各数据对应的关键词的频率,依据频率最高的关键词生成该类别标签对应的类别标签词。
7.根据权利要求6所述的方法,其特征在于,所述依据频率最高的关键词生成该类别标签对应的类别标签词,包括:
查询类别标签与类别标签词的第二映射关系库;
若未查询到该频率最高的关键词,构建该频率最高的关键词与类别标签的映射关系,存储至第二映射关系库中;
若查询到该频率最高的关键词,且该频率最高的关键词映射的类别标签与所述该类别标签不相同,选取频率次高的关键词,执行所述查询类别标签与类别标签词的第二映射关系库的步骤,以使每一类别标签对应一类别标签词。
8.一种基于预训练语言模型的类别标签识别装置,其特征在于,包括:
插件向量训练数据获取模块,用于确定待识别数据所属的目标下游任务,查询下游任务与插件向量训练数据的第一映射关系库,获取所述目标下游任务对应的任务插件向量训练数据;
标签词获取模块,用于基于所述待识别数据以及所述任务插件向量训练数据,利用不包含分类器的预训练语言模型,获取所述待识别数据在每个位置上的标签词;
类别标签识别模块,用于查询类别标签与类别标签词的第二映射关系库,识别所述标签词映射的类别标签。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的基于预训练语言模型的类别标签识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的基于预训练语言模型的类别标签识别方法的步骤。
CN202210605561.9A 2022-05-30 2022-05-30 一种基于预训练语言模型的类别标签识别方法及装置 Active CN114995903B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210605561.9A CN114995903B (zh) 2022-05-30 2022-05-30 一种基于预训练语言模型的类别标签识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210605561.9A CN114995903B (zh) 2022-05-30 2022-05-30 一种基于预训练语言模型的类别标签识别方法及装置

Publications (2)

Publication Number Publication Date
CN114995903A true CN114995903A (zh) 2022-09-02
CN114995903B CN114995903B (zh) 2023-06-27

Family

ID=83031005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210605561.9A Active CN114995903B (zh) 2022-05-30 2022-05-30 一种基于预训练语言模型的类别标签识别方法及装置

Country Status (1)

Country Link
CN (1) CN114995903B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115438176A (zh) * 2022-11-08 2022-12-06 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备
CN115510324A (zh) * 2022-09-29 2022-12-23 中电金信软件有限公司 一种标签体系的确定方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679552A (zh) * 2017-09-11 2018-02-09 北京飞搜科技有限公司 一种基于多分支训练的场景分类方法以及系统
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN112860871A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 自然语言理解模型训练方法、自然语言理解方法及装置
CN112905793A (zh) * 2021-02-23 2021-06-04 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114547329A (zh) * 2022-01-25 2022-05-27 阿里巴巴(中国)有限公司 建立预训练语言模型的方法、语义解析方法和装置
CN114780691A (zh) * 2022-06-21 2022-07-22 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质
CN114880466A (zh) * 2022-04-16 2022-08-09 迈容智能科技(上海)有限公司 一种融入全文信息的嵌套实体识别方法、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679552A (zh) * 2017-09-11 2018-02-09 北京飞搜科技有限公司 一种基于多分支训练的场景分类方法以及系统
CN111507104A (zh) * 2020-03-19 2020-08-07 北京百度网讯科技有限公司 建立标签标注模型的方法、装置、电子设备和可读存储介质
CN112905793A (zh) * 2021-02-23 2021-06-04 山西同方知网数字出版技术有限公司 一种基于Bilstm+Attention文本分类的案例推荐方法及系统
CN112860871A (zh) * 2021-03-17 2021-05-28 网易(杭州)网络有限公司 自然语言理解模型训练方法、自然语言理解方法及装置
CN114330474A (zh) * 2021-10-20 2022-04-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备以及存储介质
CN114547329A (zh) * 2022-01-25 2022-05-27 阿里巴巴(中国)有限公司 建立预训练语言模型的方法、语义解析方法和装置
CN114880466A (zh) * 2022-04-16 2022-08-09 迈容智能科技(上海)有限公司 一种融入全文信息的嵌套实体识别方法、设备及存储介质
CN114780691A (zh) * 2022-06-21 2022-07-22 安徽讯飞医疗股份有限公司 模型预训练及自然语言处理方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510324A (zh) * 2022-09-29 2022-12-23 中电金信软件有限公司 一种标签体系的确定方法、装置、电子设备及存储介质
CN115438176A (zh) * 2022-11-08 2022-12-06 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备
CN115438176B (zh) * 2022-11-08 2023-04-07 阿里巴巴达摩院(杭州)科技有限公司 下游任务模型生成及任务执行的方法和设备

Also Published As

Publication number Publication date
CN114995903B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Luan et al. Scientific information extraction with semi-supervised neural tagging
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN112711660B (zh) 文本分类样本的构建方法和文本分类模型的训练方法
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
CN114995903B (zh) 一种基于预训练语言模型的类别标签识别方法及装置
KR20170004154A (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US11625537B2 (en) Analysis of theme coverage of documents
CN110032650B (zh) 一种训练样本数据的生成方法、装置及电子设备
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
Patel et al. Dynamic lexicon generation for natural scene images
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN113934848A (zh) 一种数据分类方法、装置和电子设备
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN112925912B (zh) 文本处理方法、同义文本召回方法及装置
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant