CN117574159B - 一种预训练模型的训练方法及系统 - Google Patents
一种预训练模型的训练方法及系统 Download PDFInfo
- Publication number
- CN117574159B CN117574159B CN202410048860.6A CN202410048860A CN117574159B CN 117574159 B CN117574159 B CN 117574159B CN 202410048860 A CN202410048860 A CN 202410048860A CN 117574159 B CN117574159 B CN 117574159B
- Authority
- CN
- China
- Prior art keywords
- entity
- sentence
- recruitment
- data set
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007115 recruitment Effects 0.000 claims abstract description 118
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000002372 labelling Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 238000000586 desensitisation Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 abstract description 9
- 230000006872 improvement Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种预训练模型的训练方法,将招聘语料进行结构化处理获取招聘各环节任务的数据集;以处理后的语料作为Bert模型的输入,执行预训练任务得到第一模型;将招聘各环节任务的数据集和训练数据集分别作为文本句和实体句;以提示模板、文本句以及实体句作为第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,计算文本句实体相关提示语与实体句实体相关提示语相关的相似损失、对比损失,得到预训练模型。本发明实施例还公开了一种预训练模型的训练系统。本发明能支持在线招聘市场中的表征嵌入需要,满足岗位分类、人岗匹配、薪资预测等招聘各环节智能评估需求,提供了人才服务行业人员招聘全环节的智能化工具。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种预训练模型的训练方法及系统。
背景技术
现有的招聘算法针对特定任务或领域,数据形式限制较强,模型可迁移性较差,形成较高的针对招聘的人工智能算法设计专家成本。
发明内容
本发明的目的在于提供一种预训练模型的训练方法及系统,能够支持在线招聘市场中的表征嵌入需要,满足岗位分类、人岗匹配、薪资预测等招聘各环节智能评估需求,提供了人才服务行业人员招聘全环节的智能化工具,降低智能化算法设计的成本和提高算法的有效性。
本发明提供了一种预训练模型的训练方法,所述方法包括:
对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
作为本发明进一步的改进,
通过标注数据过滤算法对所述处理后的招聘语料进行过滤得到过滤数据集;
将所述过滤数据集执行自去偏策略得到所述训练数据集。
作为本发明进一步的改进,所述标注数据过滤算法包括:
通过远程监督方法标记出所述处理后的招聘语料中每一条数据包含的知识实体,得到标记数据集,所述知识实体为各行业相关的高频知识实体集中的元素;
对比所述标记数据集中每一条数据包含的知识实体,保留所述标记数据集中不重复的知识实体所对应的数据,得到所述过滤数据集。
作为本发明进一步的改进,所述将所述过滤数据集执行自去偏策略得到所述训练数据集,包括:
使用远程监督方法对所述过滤数据集中的数据进行标注得到带有远程标注标签的数据集;
以所述过滤数据集中的数据作为所述第一模型的输入,得到带有第一模型预测标签的数据集,将所述带有远程标注标签的数据集以及所述带有第一模型预测标签的数据集进行对比,将所述远程标注标签与所述第一模型预测标签均是实体的数据融合形成带有伪标签的数据集,将所述远程标注标签和所述第一模型预测标签不同的标签转化为未知标签,得到第二模型;
对以所述过滤数据集中的数据作为所述第二模型的输入,得到带有第二模型预测标签的数据集,计算所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失以及比率损失,得到实体抽取模型;
以所述招聘各环节任务的数据集作为所述实体抽取模型的输入,输出所述训练数据集。
作为本发明进一步的改进,所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失表示为:
其中表示句子中字的集合,/>表示句子中是实体的字集合,/>表示句子的长度,分别代表第/>条输入,/>分别代表第/>条输出,/>表示字的嵌入表征,/>表示计算/>的余弦相似度;
所述比率损失函数表示为:,其中/>表示第k个训练数据中实体字所占比例,/>表示对应批次训练数据集平均的实体字所占比例。
作为本发明进一步的改进,所述以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,包括:
以所述提示模板与所述文本句作为所述第一模型的输入,生成所述文本句实体相关提示语;
以所述提示模板与所述实体句作为所述第一模型的输入,生成所述实体句实体相关提示语。
作为本发明进一步的改进,所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失函数表示为:
,其中,csim表示计算余弦相似度,/>表示第/>个文本句实体相关提示语嵌入表示,/>表示第/>个实体句实体相关提示语嵌入表示,/>表示所有训练数据的集合。
作为本发明进一步的改进,所述不同的所述实体句实体相关提示语之间的对比损失函数表示为:
其中,表示与第/>个训练数据所在批次的训练数据集,/>表示与/>中第个数据具有相同标签的数据集,/>是温度系数,/>是以自然对数为底数的指数函数。
作为本发明进一步的改进,所述方法包括:计算所述文本句实体相关提示语、所述实体句实体相关提示语以及下游任务目标之间的任务目标损失,其中,所述下游任务目标包括岗位分类、岗位评估、简历分类、简历解析。
本发明提供了一种预训练模型的训练系统,所述系统包括:
数据处理模块,用于对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
预训练模块,用于对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
知识挖掘模块,用于从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
提示学习模块,用于以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
本发明的有益效果为:能够支持在线招聘市场中的表征嵌入需要,满足岗位分类、人岗匹配、薪资预测等招聘各环节智能评估需求,提供了人才服务行业人员招聘全环节的智能化工具,降低智能化算法设计的成本和提高算法的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一示例性实施例所述的一种预训练模型的训练方法的框架概述图;
图2为本发明一示例性实施例所述的一种预训练模型的训练方法中标注数据过滤算法的流程图;
图3为本发明一示例性实施例所述的一种预训练模型的训练方法中执行S4的模型图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明的描述中,所用术语仅用于说明目的,并非旨在限制本发明的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在,但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件,不代表顺序,且不对这些元件起限定作用。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图,这些和/或其他方面变得显而易见,并且,本领域普通技术人员更容易理解关于本发明所述实施例的说明。附图仅出于说明的目的用来描绘本发明所述实施例。本领域技术人员将很容易地从以下说明中认识到,在不背离本发明所述原理的情况下,可以采用本发明所示结构和方法的替代实施例。
如图1所示,本发明实施例所述的一种预训练模型的训练方法,所述方法包括:
S1,对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
在上述过程中,将所述招聘领域的多源数据分类,分为显性隐私信息以及隐性隐私信息,针对显性隐私信息采用直接移除的脱敏方式,针对隐形隐私信息,如实习公司、项目名称等,采用对应信息数据嵌入扰动的脱敏方式,在模型的嵌入层对隐性隐私信息加入扰动噪声,同时调整模型的注意力矩阵,降低模型对该部分的信息理解能力,能够在一定程度上缓解模型的隐私泄露问题;结构化处理例如基于历史投递记录实现简历文本和岗位描述匹配,基于岗位描述发布类别实现岗位的层次分类,基于简历投递岗位类别实现简历分类结果获取。其中,得到的多源数据中的简历文本为简历中项目、工作经历等描述脱敏后得到的文本。
S2,对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
可以理解,所述对所述招聘语料进行处理得到处理后的招聘语料包括:对所述招聘语料进行词表重构得到词表集,根据所述词表集对所述招聘语料进行切分得到处理后的招聘语料。
可选的,所述对所述招聘语料进行处理得到处理后的招聘语料包括:对所述招聘语料使用字节对编码(BPE)算法进行词表重构得到词表集,根据所述词表集对所述招聘语料进行切分得到处理后的招聘语料,以使得词表更加契合招聘领域的文本特点;可选的,在执行预训练任务过程中还可以设置warmup(学习率预热)策略。
S3,从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
S4,以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
其中,所述第一模型仅表示中间过程中的模型,没有限定模型顺序的含义。所述第一模型表示以Bert模型为基础模型,执行预训练任务后得到的一个中间模型,该中间模型作为招聘文本表征模型,用于文本句实体相关提示语和实体句实体相关提示语的生成。
为了更好的评估模型在招聘领域上的模型效果,从招聘过程中抽象出13个具有代表性的招聘任务,构建一个基准数据集对所述训练好的预训练模型进行评估,通过所述基准数据集来系统的评估智能招聘识别、吸引、筛选以及雇佣四个主要环节的有效性,任务涵盖分类、回归、匹配、排序和实体抽取五大类型任务,覆盖范围广泛,测评能力全面。
在应用时,提供所述训练好的预训练模型调用接口,以实现招聘文本表征嵌入应用。在实际应用场景中:
招聘识别:调用所述训练好的预训练模型接口,输入用户的简历相关数据,输出用户主要从事的方向内容,实现招聘者对大量候选人员的快速定位。
吸引:调用所述训练好的预训练模型接口,输入岗位描述相关数据输出岗位所属类别、活跃度、薪酬水平、职位等级等条件,实现快速吸引求职者对适合岗位的关注。
筛选:调用所述训练好的预训练模型接口,输入岗位描述相关数据和个人简历数据,输出求职者和岗位的匹配程度,实现端到端的精细匹配,提升招聘人员的工作效率。
雇佣:调用所述训练好的预训练模型接口,输入面试评论等数据,输出面试结果,实现面试情况的自动矫正,避免面试结果误判错判现象。
本发明所述的方法中,能够支持在线招聘市场中的表征嵌入需要,满足岗位分类、人岗匹配、薪资预测等招聘各环节智能评估需求,提供了人才服务行业人员招聘全环节的智能化工具,降低智能化算法设计的成本和提高算法的有效性。
一种可选的实施方式,从所述招聘各环节任务的数据集抽取出训练数据集,包括:
通过标注数据过滤算法对所述处理后的招聘语料进行过滤得到过滤数据集;可选的,所述标注数据过滤算法包括:
通过远程监督方法标记出所述处理后的招聘语料中每一条数据包含的知识实体,得到标记数据集,所述知识实体为各行业相关的高频知识实体集中的元素;其中,所述各行业相关的高频知识实体集为针对各行业相关的高频知识实体统计的集合,所述各行业包括需要招聘的各个相关行业。
对比所述标记数据集中每一条数据包含的知识实体,保留所述标记数据集中不重复的知识实体所对应的数据,得到所述过滤数据集。
如图2所示,具体流程为:
S11:输入所述处理后的招聘语料的所有数据,统计各行业高频知识实体集为H,初始化知识实体集E和过滤数据集D为空,所述各行业高频知识实体集H中包含各种高频知识实体元素;
S12:通过远程监督方法标记出所述处理后的招聘语料中数据d中包含的所述高频知识实体集H中的元素;
S13:判断所述数据d中包含的知识实体(也就是所述高频知识实体集H中的元素)是否包含于所述高频知识实体集H:
如全部包含于H,且数量不多于5,记作p=0.1;
如全部包含于H,且数量多于5,记作p=0.2;
如不全部包含H,记作p=1;
可以理解的是,不论是否包含于H,或者包含的数量多少,在步骤S13后都需要进行步骤S14。
S14:继续判断所述数据d中包含的知识实体(也就是所述高频知识实体集H中的元素)是否包含于所述知识实体集E:
如不全部包含于E,记作q=1;
如全部包含于E,记作q=0.2;
可以理解的是,不论是否全部包含于E,在步骤S14之后都需要进行步骤S15。
S15:随机采样一个小数r,r∈[0,1];
S16:判断是否p*q>r:
如p*q>r,则数据d保留到D中,所述数据d中的实体存入所述知识实体集E;
如p*q>r,则数据d过滤掉。
所述处理后的招聘语料的每一条数据均重复上述流程,最终得到保留有尽可能不重复的所述带有标记的每一条数据的所述过滤数据集D,解决了远程监督中出现的数据标注不完全的问题。
将所述过滤数据集执行自去偏策略得到所述训练数据集,可选的,所述自去偏策略包括:
S21,使用远程监督方法对所述过滤数据集中的数据进行标注得到带有远程标注标签的数据集;
S22,以所述过滤数据集中的数据作为所述第一模型的输入,得到带有第一模型预测标签的数据集,将所述带有远程标注标签的数据集以及所述带有第一模型预测标签的数据集进行对比,将所述远程标注标签与所述第一模型预测标签均是实体的数据融合形成带有伪标签的数据集,将所述远程标注标签和所述第一模型预测标签不同的标签转化为未知标签,得到第二模型;
S23,对以所述过滤数据集中的数据作为所述第二模型的输入,得到带有第二模型预测标签的数据集,计算所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失以及比率损失,得到实体抽取模型;
可选的,利用部分注释学习算法(Partial CRF)训练去除所述未知标签部分的损失计算。
其中,所述第二模型仅表示中间过程中的模型,没有限定模型顺序的含义;所述第二模型是以所述第一模型作为基础模型,第二模型执行上述步骤S22后得到的中间模型,该中间模型还用于作为基础模型继续执行上述步骤S23后得到实体抽取模型。
可选的,所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失以及比率损失为字级别的对比损失和比率损失;
可选的,所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失函数表示为:
其中表示句子中字的集合,/>表示句子中是实体的字集合,/>分别代表第条输入,/>分别代表第/>条输出,/>表示句子的长度,/>表示字的嵌入表征,/>表示计算/>的余弦相似度。
所述比率损失函数表示为:,其中/>表示第k个训练数据中实体字所占比例,/>表示当前批次训练数据集平均的实体字所占比例,其中所述当前批次训练数据集表示所述招聘各环节任务的数据集中的部分数据,所选择的数据可以根据需求选择,所述第k个训练数据为所述招聘各环节任务的数据集中的部分数据中的一个数据;
,/> 。
其中,表示部分注释学习算法的损失,/>表示知识实体对比损失,/>表示知识实体比例损失,/>表示最终损失,/>、/>为超参数。
在知识挖掘过程中采用的自去偏策略,最大化抽取领域文本中的知识信息,解决了不同行业知识实体覆盖不平衡的问题。
所述实体抽取模型用于挖掘出所述高质量的知识实体语句,以实现更好的知识增强提示学习。
如图3所示,以所述招聘各环节任务的数据集也就是文本句(图3中示为Text)作为所述实体抽取模型的输入,经过实体抽取模型的处理,所述实体抽取模型的处理包括自去偏策略(Self-debiased Entity Extraction),输出所述训练数据集也就是实体句(图3中示为Entity),所述训练数据集包含实体拼接组成的实体句。
可选的,所述以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成所述文本句实体相关提示语与所述实体句实体相关提示语,包括:
以所述提示模板与所述文本句作为所述第一模型的输入,生成所述文本句实体相关提示语;
以所述提示模板与所述实体句作为所述第一模型的输入,生成所述实体句实体相关提示语。
具体的,针对招聘领域特有的实体知识相关提示和任务相关提示/>,以及对于给定的文本Text,额外增加的特殊字段[MASK],[CLS],[SEP]组成知识实体感知提示模板,对应的嵌入形式如下:
,其中e表示嵌入的表征,本申请对提示部分的所有token单独增加一个两层的MLP(多层感知机)和BiLSTM(双向长短时记忆网络)来保证提示之间更好的语义连贯性。
具体如下:
=MLP/>
记所述文本句为t-sen,所述实体句为s-sen,通过所述第一模型生成文本句和实体句的表征为:
以所述提示模板与所述文本句作为所述第一模型的输入,经过所述第一模型的处理得到文本句表征,所述文本句表征再经过所述第一模型中Transformer的处理得到文本句实体相关提示语,具体如下:
=Transformer/>
以所述提示模板与所述实体句作为所述第一模型的输入,经过所述第一模型的处理得到实体句表征,所述实体句表征再经过所述第一模型中Transformer的处理得到实体句实体相关提示语,具体如下:
=Transformer/>
计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失、对比损失,得到训练好的预训练模型。
计算相似损失可以使得实体相关提示可以更好的感知实体信息,计算对比损失可以使得实体与实体之间的表征具有区分性。
可选的,所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失函数表示为:,其中,csim表示计算余弦相似度,表示第/>个文本句实体相关提示语嵌入表示,/>表示第/>个实体句实体相关提示语嵌入表示,/>表示所有训练数据的集合。
本申请知识实体相关的提示通过在不同实体句之间使用设计基于余弦相似度的损失来优化,通过学习针对特定任务不同标签的实体句之间的差异性,以确保提示更加强调对知识实体的区分和感知。
可选的,所述不同的所述实体句实体相关提示语之间的对比损失函数表示为:
其中,表示与第/>个训练数据所在批次的训练数据集,/>表示与/>中第个训练数据具有相同标签的数据集,/>是温度系数,/>是以自然对数为底数的指数函数,l和o分别表示第l个和第o个数据;其中所述不同的所述实体句实体相关提示语是指通过具有不同标签的数据集训练生成的实体句实体相关提示语。
可选的,所述方法包括:计算所述文本句实体相关提示语、所述实体句实体相关提示语以及下游任务目标之间的任务目标损失,其中,所述下游任务目标包括岗位分类、岗位评估、简历分类、简历解析、薪酬预测、岗位推荐以及人岗匹配等。
本申请通过下游任务目标损失来优化文本句实体相关提示语以及实体句实体相关提示语,可以使得模型对各个下游任务学习到更适应的提示词语,减少预训练任务与下游任务的差距,使得提示词能捕获招聘领域的知识实体语义,实现了招聘预训练模型对各个子任务的高效应用。
如图3所示,将提示模板与文本句组合(图3中示为
),输入到所述第一模型(Recruitment Pretrained Language Model),通过第一模型的部分处理生成文本句表征/>;将提示模板与实体句组合(图3中示为/>),输入到所述第一模型(Recruitment Pretrained Language Model),通过第一模型的部分处理生成实体句表征/>,所述第一模型中的Transformer对文本句表征和实体句表征继续进行处理,输出文本句实体相关提示语/>和实体句实体相关提示语/>,计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失(Entity-basedSimilarity Objective)以及不同的所述实体句实体相关提示语之间的对比损失(Entity-based Contrastive Objective),在计算任务目标损失(Downstream Task Objcetive)时则采用/>计算。
本发明实施例所示的一种预训练模型的训练系统,所述系统包括:
数据处理模块,用于对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
预训练模块,用于对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
知识挖掘模块,用于从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
提示学习模块,用于以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
此外,本领域普通技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本领域技术人员应理解,尽管已经参考示例性实施例描述了本发明,但是在不脱离本发明的范围的情况下,可进行各种改变并可用等同物替换其元件。另外,在不脱离本发明的实质范围的情况下,可进行许多修改以使特定情况或材料适应本发明的教导。因此,本发明不限于所公开的特定实施例,而是本发明将包括落入所附权利要求范围内的所有实施例。
Claims (8)
1.一种预训练模型的训练方法,其特征在于,所述方法包括:
对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
2.如权利要求1所述的方法,其特征在于,从所述招聘各环节任务的数据集抽取出训练数据集,包括:
通过标注数据过滤算法对所述处理后的招聘语料进行过滤得到过滤数据集;
使用远程监督方法对所述过滤数据集中的数据进行标注得到带有远程标注标签的数据集;
以所述过滤数据集中的数据作为所述第一模型的输入,得到带有第一模型预测标签的数据集,将所述带有远程标注标签的数据集以及所述带有第一模型预测标签的数据集进行对比,将所述远程标注标签与所述第一模型预测标签均是实体的数据融合形成带有伪标签的数据集,将所述远程标注标签和所述第一模型预测标签不同的标签转化为未知标签,得到第二模型;
对以所述过滤数据集中的数据作为所述第二模型的输入,得到带有第二模型预测标签的数据集,计算所述带有伪标签的数据集以及所述带有第二模型预测标签的数据集的对比损失以及比率损失,得到实体抽取模型;
以所述招聘各环节任务的数据集作为所述实体抽取模型的输入,输出所述训练数据集。
3.如权利要求2所述的方法,其特征在于,所述标注数据过滤算法包括:
通过远程监督方法标记出所述处理后的招聘语料中每一条数据包含的知识实体,得到标记数据集,所述知识实体为各行业相关的高频知识实体集中的元素;
对比所述标记数据集中每一条数据包含的知识实体,保留所述标记数据集中不重复的知识实体所对应的数据,得到所述过滤数据集。
4.如权利要求1所述的方法,其特征在于,所述以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,包括:
以所述提示模板与所述文本句作为所述第一模型的输入,生成所述文本句实体相关提示语;
以所述提示模板与所述实体句作为所述第一模型的输入,生成所述实体句实体相关提示语。
5.如权利要求1所述的方法,其特征在于,所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失函数表示为:
,其中,csim表示计算余弦相似度,/>表示第/>个文本句实体相关提示语嵌入表示,/>表示第/>个实体句实体相关提示语嵌入表示,/>表示所有训练数据的集合。
6.如权利要求1所述的方法,其特征在于,所述不同的所述实体句实体相关提示语之间的对比损失函数表示为:
其中,表示与第/>个训练数据所在批次的训练数据集,/>表示与/>中第/>个训练数据具有相同标签的数据集,/>是温度系数,/>是以自然对数为底数的指数函数,csim表示计算余弦相似度,I表示所有训练数据的集合,/>表示第/>个实体句实体相关提示语嵌入表示,l和o分别表示第l个和第o个数据。
7.如权利要求1所述的方法,其特征在于,所述方法包括:计算所述文本句实体相关提示语、所述实体句实体相关提示语以及下游任务目标之间的任务目标损失,其中,所述下游任务目标包括岗位分类、岗位评估、简历分类、简历解析。
8.一种预训练模型的训练系统,其特征在于,所述系统包括:
数据处理模块,用于对招聘领域的多源数据进行数据脱敏和数据清洗形成招聘语料,将所述招聘语料进行结构化处理获取招聘各环节任务的数据集,其中,所述招聘领域的多源数据包括简历文本、岗位描述以及面试评论;
预训练模块,用于对所述招聘语料进行处理得到处理后的招聘语料,以所述处理后的招聘语料作为Bert模型的输入,执行预训练任务得到第一模型,其中,所述预训练任务包括下一句预测任务以及遮掩词建模任务;
知识挖掘模块,用于从所述招聘各环节任务的数据集抽取出训练数据集,将所述招聘各环节任务的数据集和所述训练数据集分别作为文本句和实体句;
提示学习模块,用于以提示模板、所述文本句以及所述实体句作为所述第一模型的输入生成文本句实体相关提示语与实体句实体相关提示语,并计算所述文本句实体相关提示语与所述实体句实体相关提示语的相似损失以及不同的所述实体句实体相关提示语之间的对比损失,得到训练好的预训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410048860.6A CN117574159B (zh) | 2024-01-12 | 2024-01-12 | 一种预训练模型的训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410048860.6A CN117574159B (zh) | 2024-01-12 | 2024-01-12 | 一种预训练模型的训练方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574159A CN117574159A (zh) | 2024-02-20 |
CN117574159B true CN117574159B (zh) | 2024-05-10 |
Family
ID=89892041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410048860.6A Active CN117574159B (zh) | 2024-01-12 | 2024-01-12 | 一种预训练模型的训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574159B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563133A (zh) * | 2020-05-06 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种基于实体关系进行数据融合的方法及系统 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN115510218A (zh) * | 2022-09-27 | 2022-12-23 | 长三角信息智能创新研究院 | 一种基于对称对比学习的人岗匹配方法 |
CN115798661A (zh) * | 2022-10-21 | 2023-03-14 | 国科宁波生命与健康产业研究院 | 临床医学领域的知识挖掘方法和装置 |
CN116776879A (zh) * | 2023-03-27 | 2023-09-19 | 北京贪心科技有限公司 | 一种挖掘招聘领域技能实体的方法、系统及设备 |
CN116911300A (zh) * | 2023-06-09 | 2023-10-20 | 魔方医药科技(苏州)有限公司 | 语言模型预训练方法、实体识别方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220391690A1 (en) * | 2021-06-07 | 2022-12-08 | Microsoft Technology Licensing, Llc | Techniques for improving standardized data accuracy |
US20230088128A1 (en) * | 2021-09-22 | 2023-03-23 | Hiredscore Inc. | System and method for determining an experience match between job candidates and open positions or projects |
-
2024
- 2024-01-12 CN CN202410048860.6A patent/CN117574159B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563133A (zh) * | 2020-05-06 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种基于实体关系进行数据融合的方法及系统 |
CN112199503A (zh) * | 2020-10-28 | 2021-01-08 | 南京信息工程大学 | 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法 |
CN113987183A (zh) * | 2021-10-29 | 2022-01-28 | 广西电网有限责任公司南宁供电局 | 一种基于数据驱动的电网故障处置预案辅助决策方法 |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN115510218A (zh) * | 2022-09-27 | 2022-12-23 | 长三角信息智能创新研究院 | 一种基于对称对比学习的人岗匹配方法 |
CN115798661A (zh) * | 2022-10-21 | 2023-03-14 | 国科宁波生命与健康产业研究院 | 临床医学领域的知识挖掘方法和装置 |
CN116776879A (zh) * | 2023-03-27 | 2023-09-19 | 北京贪心科技有限公司 | 一种挖掘招聘领域技能实体的方法、系统及设备 |
CN116911300A (zh) * | 2023-06-09 | 2023-10-20 | 魔方医药科技(苏州)有限公司 | 语言模型预训练方法、实体识别方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于多元语言特征与深度特征融合的中文文本阅读难度自动分级研究;程勇 等;中文信息学报;20200415(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574159A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697285B (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN108536754A (zh) | 基于blstm和注意力机制的电子病历实体关系抽取方法 | |
CN109933664A (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN111382565A (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN114926150B (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
CN116662552A (zh) | 金融文本数据分类方法、装置、终端设备及介质 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN117151222B (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN113836306B (zh) | 基于篇章成分识别的作文自动测评方法、设备和存储介质 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
CN113553831A (zh) | 基于bagcnn模型的方面级别情感分析方法和系统 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112699218A (zh) | 模型建立方法及系统及段落标签获得方法及介质 | |
CN117333146A (zh) | 基于人工智能的人力资源管理系统及方法 | |
CN112668838A (zh) | 一种基于自然语言解析的评分标准词库建立方法及装置 | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN111339440A (zh) | 面向新闻文本基于层级状态神经网络的社会情绪排序方法 | |
CN114691848A (zh) | 关系三元组联合提取方法及自动问答系统构建方法 | |
CN116779177A (zh) | 一种基于去偏见混合标签学习的内分泌疾病分类方法 | |
CN117574159B (zh) | 一种预训练模型的训练方法及系统 | |
CN116821351A (zh) | 一种基于跨度信息的端到端电力知识图谱关系抽取方法 | |
CN116362247A (zh) | 一种基于mrc框架的实体抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |