CN116341646A - Bert模型的预训练方法、装置、电子设备及存储介质 - Google Patents
Bert模型的预训练方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116341646A CN116341646A CN202310304871.1A CN202310304871A CN116341646A CN 116341646 A CN116341646 A CN 116341646A CN 202310304871 A CN202310304871 A CN 202310304871A CN 116341646 A CN116341646 A CN 116341646A
- Authority
- CN
- China
- Prior art keywords
- text
- text set
- bert model
- loss value
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 228
- 230000000873 masking effect Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 25
- 230000004913 activation Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008451 emotion Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000007726 management method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及人工智能技术,揭露了一种Bert模型的预训练方法,包括:对获取的打标签后的训练文本集中文本进行掩码,得到标准训练文本集;提取打标签后的训练文本集的标签特征,并对标准训练文本集进行掩码预测,得到预测后的文本集;计算提取的标签特征与预测后的文本集对应的真实标签特征的第一损失值;计算预测后的文本集与打标签后的训练文本集对应的真实文本的第二损失值;根据第一损失值及第二损失值,计算综合损失值;当综合损失值不满足训练结束条件时,调整Bert模型参数;当综合损失值满足训练结束条件时,退出训练得到目标Bert模型。本发明还提出一种Bert模型的预训练装置、电子设备以及存储介质。本发明可以提升Bert模型预训练的准确性以及效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种Bert模型的预训练方法、装置、电子设备及存储介质。
背景技术
随着深度学习模型的发展,Bert模型作为深度学习模型中典型的代表,因其可利用大规模数据集进行预训练,使其在自然语言处理领域中得到广泛的应用。
当前主要利用通用训练语料对Bert模型进行无监督的预训练,通过此种方法训练后的Bert模型虽然在通用领域中都有着较为广泛的处理性能,但存在如下问题:
1.训练语料为通用语料,导致训练后的Bert模型不能直接应用于垂直领域的机器学习中,还需要利用垂直领域的语料对Bert模型进行再次的训练,模型训练的效率低;
2.无监督的预训练方式,导致Bert模型在训练的过程中,仅能学习到语料本身的内容,无法学习到与语料相关的其他辅助信息,模型训练的准确性有待提升。
发明内容
本发明提供一种Bert模型的预训练方法、装置、电子设备及存储介质,其主要目的在于提升Bert模型的预训练的准确性以及效率。
为实现上述目的,本发明提供的一种Bert模型的预训练方法,包括:
获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;
计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;
根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;
当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
可选地,所述对所述打标签后的训练文本集中的每个文本进行掩码操作,标准训练文本集,包括:
对所述打标签后的训练文本集进行分词,得到训练文本词集;
对所述训练文本词集中打标签的分词利用预定义的掩码字符进行遮蔽,得到所述标准训练文本集。
可选地,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,包括:
将所述打标签后的训练文本集拆分成句子集,并对所述句子集中每个句子之间标注句子分隔符;
对所述句子集中每个句子的标签进行向量编码,得到标签向量集,并根据每个所述句子分隔符的位置对对应句子的标签进行位置向量编码,得到位置向量集;
将所述标签向量集以及所述位置向量集进行拼接,得到所述打标签后的训练文本集的标签特征。
可选地,所述对所述标准训练文本集进行掩码预测,包括:
利用所述预先构建的Bert模型中的编码层对所述标准训练文本集进行向量编码,得到标准训练文本编码集;
将所述标准训练文本编码集中掩码字符对应的文本利用所述预先构建的Bert模型中的线性层进行掩码预测,得到预测掩码文本集;
利用预设的激活函数计算所述预测掩码文本集中每个预测掩码文本的概率,并提取所述概率最大的预测掩码文本,得到预测后的文本集。
可选地,所述计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值,包括:
采用下述损失函数计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值:
其中,B表示所述打标签后的训练文本集中某一真实标签特征的文本总数,T表示所述预测后的文本集中与该真实标签特征具有相同标签特征的文本数量,yi表示所述打标签后的训练文本集中该真实标签特征对应的第i个文本,yc表示所述预测后的文本集中与该真实标签特征具有相同标签特征的第c个文本,P(i,c)为所述第i个文本与所述第c个文本之间的文本相似度。
可选地,所述P(i,c)为所述第i个文本与所述第c个文本之间的文本相似度,包括:
其中,其中,si为所述打标签后的训练文本集中某一真实标签特征对应的第i个文本,sc表示所述预测后的训练文本集中与该真实标签特征具有标签特征的第c个文本,so表示所述预测后的的训练文本集中真实标签特征与所述预测的标签特征不同的第o个文本,τ为温度系数。
为了解决上述问题,本发明还提供一种Bert模型的预训练装置,所述装置包括:
标签文本掩码模块,用于获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
标签及掩码预测模块,用于利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
损失值计算模块,用于计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
迭代训练模块,用于当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的Bert模型的预训练方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的Bert模型的预训练方法。
本发明实施例利用标准训练文本集对预先构建的Bert模型进行训练,所述标准训练文本集包含标签信息及掩码信息,相较于常规的Bert模型训练,通过提取所述标准训练文本集中的标签特征,可以使Bert模型学习到除训练文本信息之外的辅助特征,提升了模型学习的准确性,同时,通过对所述标准训练文本集进行掩码预测,可以提升模型学习文本上下文的能力,有利于提升模型的学习深度,最后,利用第一损失值、第二损失值及综合损失值控制模型训练的结束,可以推动模型训练的进程,提升模型训练的效率。
附图说明
图1为本发明一实施例提供的Bert模型的预训练方法的流程示意图;
图2为本发明一实施例提供的Bert模型的预训练方法中一个步骤的详细流程示意图;
图3为本发明一实施例提供的Bert模型的预训练装置的功能模块图;
图4为本发明一实施例提供的实现所述Bert模型的预训练方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种Bert模型的预训练方法。所述Bert模型的预训练方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述Bert模型的预训练方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的Bert模型的预训练方法的流程示意图。在本实施例中,所述Bert模型的预训练方法包括以下步骤S1-S7:
S1、获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
本发明实施例中,所述打标签后的训练文本集是指将各领域中的文本信息利用各领域通用的标签进行标注后的文本集,例如,新闻领域中可采用娱乐新闻、人文新闻以及自然新闻等新闻标签对新闻文本进行标注,得到新闻领域打标签文本,情感领域中可采用积极、中性以及消极类别下的情感标签对文本中表示情感的文字或文本进行标注,得到情感领域打标签文本。
本发明实施例通过对所述打标签后的训练文本集中的每个文本进行掩码操作,模型可以通过大规模的掩码文本数据,学习到各领域内信息的隐式表达以及与各领域内标签的关联关系,提高模型对个领域内信息的隐式表达的识别能力,并可以提升模型学习上下文的能力,并拓展模型对各领域信息的学习深度。
作为本发明一实施例,所述对所述打标签后的训练文本集中的每个文本进行掩码操作,标准训练文本集,包括:
对所述打标签后的训练文本集进行分词,得到训练文本词集;
对所述训练文本词集中打标签的分词利用预定义的掩码字符进行遮蔽,得到所述标准训练文本集。
本发明实施例中,所述预定义掩码字符是指对文本中的词语以及句子进行掩码的符号,例如,在货币领域中,常用Currency的首字符‘c’或者‘C’作为预定义的掩码字符。
S2、利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
本发明实施例中,所述预先构建的Bert模型是指利用大规模语料训练并可以处理文本信息的Bert学习模型。
本发明实施例中,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,可以将所述打标签后的训练文本集的深层次含义利用标注标签的标签特征进行表征,并可以使Bert模型学习到除打标签后的训练文本集中自身文本信息之外的辅助特征,提升了模型学习的准确性。
详细地,参照图2所示,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,包括以下步骤S200-S202:
S200、将所述打标签后的训练文本集拆分成句子集,并对所述句子集中每个句子之间标注句子分隔符;
S201、对所述句子集中每个句子的标签进行向量编码,得到标签向量集,并根据每个所述句子分隔符的位置对对应句子的标签进行位置向量编码,得到位置向量集;
S202、将所述标签向量集以及所述位置向量集进行拼接,得到所述打标签后的训练文本集的标签特征。
本发明实施例利用所述预先构建的Bert模型中的编码层对所述标准训练文本集进行向量编码,得到标准训练文本编码集;将所述标准训练文本编码集中掩码字符对应的文本利用所述预先构建的Bert模型中的线性层进行掩码预测,得到预测掩码文本集;利用预设的激活函数计算所述预测掩码文本集中每个预测掩码文本的概率,并提取所述概率最大的预测掩码文本,得到预测后的文本集。
所述预先构建的Bert模型是由编码层、线性层以及激活层构成,所述编码层用于对文本进行编码,将文本转化成向量,所述线性层用于对编码后的文本进行预测,并将预测到的文本编码解码为文字输出,所述激活层用于利用激活函数计算预测到的文字输出的概率值。
本发明实施例中,所述预设的激活函数是指softmax函数,通过所述softmax函数可将概率收敛在(0,1)区间,便于概率的大小比较。
本发明实施例中,通过所述先构建的Bert模型对所述标准训练文本集进行掩码预测,可以更好的将掩码文本的上下文进行关联,提升掩码文本预测准确率。
S3、计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;
详细地,所述计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值,包括:
采用下述损失函数计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值:
其中,B表示所述打标签后的训练文本集中某一真实标签对应的文本总数,T表示所述预测后的文本集中与该真实标签具有相同标签特征的文本数量,yi表示所述打标签后的训练文本集中该真实标签对应的第i个文本,yc表示所述预测后的文本集中与该真实标签具有相同标签特征的第c个文本,P(i,c)为所述第i个文本与所述第c个文本之间的文本相似度。
进一步地,采用下述公式计算所述第i个文本与所述第c个文本之间的文本相似度:
其中,si为所述打标签后的训练文本集中某一真实标签对应的第i个文本,sc表示所述预测后的训练文本集中与该真实标签具有标签特征的第c个文本,so表示所述预测后的的训练文本集中真实标签与所述预测的标签特征不同的第o个文本,τ为温度系数,默认值为1.0。
S4、计算所述预测后的文本集与所述标准训练文本集对应的真实文本之间的第二损失值;
本发明实施例中,可通过计算所述预测后的文本集与所述标准训练文本集对应的真实文本之间的第二损失值说明预测后的文本集中的掩码文本的预测准确性。
本发明实施例采用下述公式计算所述预测后的文本集与所述标准训练文本集对应的真实文本之间的第二损失值:
其中,xk表示被掩码的真实文本,Pmask(k)表示所述预测后的文本集中第k个文本为所述被掩码的真实文本的概率。
S5、根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
其中,α为平衡参数。
本发明实施例通过计算所述预先构建的Bert模型的综合损失值,可以控制模型训练的结束,推动模型训练的进程,提升模型训练的效率。
S6、当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述标准训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;
本发明实施例中,所述预设的训练结束条件是指综合损失值达到预设的损失阈值或者所述综合损失值达到收敛。
S7、当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
本发明实施例中,所述目标Bert模型是指训练完成的模型不仅可以对某些特定领域的信息文本进行处理,并可以对所述特定领域的信息文本执行标记后的文本隐藏信息有更好的处理能力。例如,情感分析领域中,可以通过情感分析领域内打标签的信息文本执行训练后,可提升对信息文本中的情感信息分析的准确性以及效率。
本发明实施例利用标准训练文本集对预先构建的Bert模型进行训练,所述标准训练文本集包含标签信息及掩码信息,相较于常规的Bert模型训练,通过提取所述标准训练文本集中的标签特征,可以使Bert模型学习到除训练文本信息之外的辅助特征,提升了模型学习的准确性,同时,通过对所述标准训练文本集进行掩码预测,可以提升模型学习文本上下文的能力,有利于提升模型的学习深度,最后,利用第一损失值、第二损失值及综合损失值控制模型训练的结束,可以推动模型训练的进程,提升模型训练的效率。
如图3所示,是本发明一实施例提供的Bert模型的预训练装置的功能模块图。
本发明所述Bert模型的预训练装置100可以安装于电子设备中。根据实现的功能,所述Bert模型的预训练装置100可以包括文本掩码模块101、文本预测模块102、损失值计算模块103及训练结束模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述标签文本掩码模块101,用于获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
本发明实施例中,所述打标签后的训练文本集是指将各领域中的文本信息利用各领域通用的标签进行标注后的文本集,例如,新闻领域中可采用娱乐新闻、人文新闻以及自然新闻等新闻标签对新闻文本进行标注,得到新闻领域打标签文本,情感领域中可采用积极、中性以及消极类别下的情感标签对文本中表示情感的文字或文本进行标注,得到情感领域打标签文本。
本发明实施例通过对所述打标签后的训练文本集中的每个文本进行掩码操作,模型可以通过大规模的掩码文本数据,学习到各领域内信息的隐式表达以及与各领域内标签的关联关系,提高模型对个领域内信息的隐式表达的识别能力,并可以提升模型学习上下文的能力,并拓展模型对各领域信息的学习深度。
作为本发明一实施例,所述对所述打标签后的训练文本集中的每个文本进行掩码操作,标准训练文本集,包括:
对所述打标签后的训练文本集进行分词,得到训练文本词集;
对所述训练文本词集中打标签的分词利用预定义的掩码字符进行遮蔽,得到所述标准训练文本集。
本发明实施例中,所述预定义掩码字符是指对文本中的词语以及句子进行掩码的符号,例如,在货币领域中,常用Currency的首字符‘c’或者‘C’作为预定义的掩码字符。
所述标签及掩码预测模块102,用于利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
本发明实施例中,所述预先构建的Bert模型是指利用大规模语料训练并可以处理文本信息的Bert学习模型。
本发明实施例中,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,可以将所述打标签后的训练文本集的深层次含义利用标注标签的标签特征进行表征,并可以使Bert模型学习到除打标签后的训练文本集中自身文本信息之外的辅助特征,提升了模型学习的准确性。
详细地,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,包括:
将所述打标签后的训练文本集拆分成句子集,并对所述句子集中每个句子之间标注句子分隔符;
对所述句子集中每个句子的标签进行向量编码,得到标签向量集,并根据每个所述句子分隔符的位置对对应句子的标签进行位置向量编码,得到位置向量集;
将所述标签向量集以及所述位置向量集进行拼接,得到所述打标签后的训练文本集的标签特征。
本发明实施例利用所述预先构建的Bert模型中的编码层对所述标准训练文本集进行向量编码,得到标准训练文本编码集;将所述标准训练文本编码集中掩码字符对应的文本利用所述预先构建的Bert模型中的线性层进行掩码预测,得到预测掩码文本集;利用预设的激活函数计算所述预测掩码文本集中每个预测掩码文本的概率,并提取所述概率最大的预测掩码文本,得到预测后的文本集。
所述预先构建的Bert模型是由编码层、线性层以及激活层构成,所述编码层用于对文本进行编码,将文本转化成向量,所述线性层用于对编码后的文本进行预测,并将预测到的文本编码解码为文字输出,所述激活层用于利用激活函数计算预测到的文字输出的概率值。
本发明实施例中,所述预设的激活函数是指softmax函数,通过所述softmax函数可将概率收敛在(0,1)区间,便于概率的大小比较。
本发明实施例中,通过所述先构建的Bert模型对所述标准训练文本集进行掩码预测,可以更好的将掩码文本的上下文进行关联,提升掩码文本预测准确率。
所述损失值计算模块103,用于计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
详细地,所述计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值,包括:
采用下述损失函数计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值:
其中,B表示所述打标签后的训练文本集中某一真实标签特征的文本总数,T表示所述预测后的文本集中与该真实标签特征具有相同标签特征的文本数量,yi表示所述打标签后的训练文本集中该真实标签特征对应的第i个文本,yc表示所述预测后的文本集中与该真实标签特征具有相同标签特征的第c个文本,P(i,c)为所述第i个文本与所述第c个文本之间的文本相似度。
进一步地,采用下述公式计算所述第i个训练文本与所述第c个文本之间的文本相似度:
其中,si为所述打标签后的训练文本集中某一真实标签特征对应的第i个文本,sc表示所述预测后的训练文本集中与该真实标签特征具有标签特征的第c个文本,so表示所述预测后的的训练文本集中真实标签特征与所述预测的标签特征不同的第o个文本,τ为温度系数,默认值为1.0。
本发明实施例中,可通过计算所述预测后的文本集与所述标准训练文本集对应的真实文本之间的第二损失值说明预测后的文本集中的掩码文本的预测准确性。
本发明实施例采用下述公式计算所述预测后的文本集与所述标准训练文本集对应的真实文本之间的第二损失值:
其中,xk表示被掩码的真实文本,Pmask(k)表示所述预测后的文本集中第k个文本为所述被掩码的真实文本的概率。
其中,α为平衡参数。
本发明实施例通过计算所述预先构建的Bert模型的综合损失值,可以控制模型训练的结束,推动模型训练的进程,提升模型训练的效率。
所述迭代训练模块104,用于当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
本发明实施例中,所述预设的训练结束条件是指综合损失值达到预设的损失阈值或者所述综合损失值达到收敛。
本发明实施例中,所述目标Bert模型是指训练完成的模型不仅可以对某些特定领域的信息文本进行处理,并可以对所述特定领域的信息文本执行标记后的文本隐藏信息有更好的处理能力。例如,情感分析领域中,可以通过情感分析领域内打标签的信息文本执行训练后,可提升对信息文本中的情感信息分析的准确性以及效率。
如图4所示,是本发明一实施例提供的实现Bert模型的预训练方法的电子设备的结构示意图。
所述电子设备可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如Bert模型的预训练程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行Bert模型的预训练程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如Bert模型的预训练程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备中的所述存储器11存储的Bert模型的预训练程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;
计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;
根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;
当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;
计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;
根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;
当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种Bert模型的预训练方法,其特征在于,所述方法包括:
获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;
计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;
根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;
当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
2.如权利要求1所述的Bert模型的预训练方法,其特征在于,所述对所述打标签后的训练文本集中的每个文本进行掩码操作,标准训练文本集,包括:
对所述打标签后的训练文本集进行分词,得到训练文本词集;
对所述训练文本词集中打标签的分词利用预定义的掩码字符进行遮蔽,得到所述标准训练文本集。
3.如权利要求1所述的Bert模型的预训练方法,其特征在于,所述利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,包括:
将所述打标签后的训练文本集拆分成句子集,并对所述句子集中每个句子之间标注句子分隔符;
对所述句子集中每个句子的标签进行向量编码,得到标签向量集,并根据每个所述句子分隔符的位置对对应句子的标签进行位置向量编码,得到位置向量集;
将所述标签向量集以及所述位置向量集进行拼接,得到所述打标签后的训练文本集的标签特征。
4.如权利要求1所述的Bert模型的预训练方法,其特征在于,所述对所述标准训练文本集进行掩码预测,包括:
利用所述预先构建的Bert模型中的编码层对所述标准训练文本集进行向量编码,得到标准训练文本编码集;
将所述标准训练文本编码集中掩码字符对应的文本利用所述预先构建的Bert模型中的线性层进行掩码预测,得到预测掩码文本集;
利用预设的激活函数计算所述预测掩码文本集中每个预测掩码文本的概率,并提取所述概率最大的预测掩码文本,得到预测后的文本集。
7.一种Bert模型的预训练装置,其特征在于,所述装置包括:
标签文本掩码模块,用于获取打标签后的训练文本集,并对所述打标签后的训练文本集中的每个文本进行掩码操作,得到标准训练文本集;
标签及掩码预测模块,用于利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测,得到预测后的文本集;
损失值计算模块,用于计算提取的标签特征与所述预测后的文本集对应的真实标签特征之间的第一损失值;计算所述预测后的文本集与所述打标签后的训练文本集对应的真实文本之间的第二损失值;根据所述第一损失值及所述第二损失值,计算所述预先构建的Bert模型的综合损失值;
迭代训练模块,用于当所述综合损失值不满足预设的训练结束条件时,调整所述预先构建的Bert模型的参数,并返回上述的利用预先构建的Bert模型提取所述打标签后的训练文本集的标签特征,并对所述标准训练文本集进行掩码预测的步骤;当所述综合损失值满足所述预设的训练结束条件时,退出对所述预先构建的Bert模型的训练,得到目标Bert模型。
8.如权利要求7所述的Bert模型的训练装置,其特征在于,所述标签及掩码预测模块通过下述操作提取所述打标签后的训练文本集的标签特征:
将所述打标签后的训练文本集拆分成句子集,并对所述句子集中每个句子之间标注句子分隔符;
对所述句子集中每个句子的标签进行向量编码,得到标签向量集,并根据每个所述句子分隔符的位置对对应句子的标签进行位置向量编码,得到位置向量集;
将所述标签向量集以及所述位置向量集进行拼接,得到所述打标签后的训练文本集的标签特征。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任意一项所述的Bert模型的预训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任意一项所述的Bert模型的预训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304871.1A CN116341646A (zh) | 2023-03-14 | 2023-03-14 | Bert模型的预训练方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310304871.1A CN116341646A (zh) | 2023-03-14 | 2023-03-14 | Bert模型的预训练方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116341646A true CN116341646A (zh) | 2023-06-27 |
Family
ID=86880190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310304871.1A Pending CN116341646A (zh) | 2023-03-14 | 2023-03-14 | Bert模型的预训练方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116341646A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668563A (zh) * | 2024-01-31 | 2024-03-08 | 苏州元脑智能科技有限公司 | 文本识别方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-03-14 CN CN202310304871.1A patent/CN116341646A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117668563A (zh) * | 2024-01-31 | 2024-03-08 | 苏州元脑智能科技有限公司 | 文本识别方法、装置、电子设备及可读存储介质 |
CN117668563B (zh) * | 2024-01-31 | 2024-04-30 | 苏州元脑智能科技有限公司 | 文本识别方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
CN113051356B (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN113722483B (zh) | 话题分类方法、装置、设备及存储介质 | |
CN112988963B (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN107680689A (zh) | 医疗文本的潜在疾病推断方法、系统及可读存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN114822812A (zh) | 角色对话模拟方法、装置、设备及存储介质 | |
CN113807973B (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN113344125B (zh) | 长文本匹配识别方法、装置、电子设备及存储介质 | |
CN115238115A (zh) | 基于中文数据的图像检索方法、装置、设备及存储介质 | |
CN116821373A (zh) | 基于图谱的prompt推荐方法、装置、设备及介质 | |
CN116341646A (zh) | Bert模型的预训练方法、装置、电子设备及存储介质 | |
CN113918704A (zh) | 基于机器学习的问答方法、装置、电子设备及介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN116701574A (zh) | 文本语义相似度计算方法、装置、设备及存储介质 | |
CN114548114B (zh) | 文本情绪识别方法、装置、设备及存储介质 | |
CN116468025A (zh) | 电子病历结构化方法、装置、电子设备及存储介质 | |
CN116340516A (zh) | 实体关系的聚类提取方法、装置、设备及存储介质 | |
CN114462411B (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN111680513B (zh) | 特征信息的识别方法、装置及计算机可读存储介质 | |
CN115169330B (zh) | 中文文本纠错及验证方法、装置、设备及存储介质 | |
CN116578690B (zh) | 一种基于人工智能的保险客服服务方法与系统 | |
CN113656703B (zh) | 基于新上线课程的智能推荐方法、装置、设备及存储介质 | |
CN113157865B (zh) | 跨语言词向量生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |