CN117763093A - 一种基于预训练语言模型的信息记录数据分块方法 - Google Patents

一种基于预训练语言模型的信息记录数据分块方法 Download PDF

Info

Publication number
CN117763093A
CN117763093A CN202410194579.3A CN202410194579A CN117763093A CN 117763093 A CN117763093 A CN 117763093A CN 202410194579 A CN202410194579 A CN 202410194579A CN 117763093 A CN117763093 A CN 117763093A
Authority
CN
China
Prior art keywords
training
language model
model
word
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410194579.3A
Other languages
English (en)
Other versions
CN117763093B (zh
Inventor
程梦丽
徐玉莲
于鹏飞
陆静波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Suzhou Construction Co ltd
Original Assignee
Digital Suzhou Construction Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Suzhou Construction Co ltd filed Critical Digital Suzhou Construction Co ltd
Priority to CN202410194579.3A priority Critical patent/CN117763093B/zh
Publication of CN117763093A publication Critical patent/CN117763093A/zh
Application granted granted Critical
Publication of CN117763093B publication Critical patent/CN117763093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种基于预训练语言模型的信息记录数据分块方法,属于电数字数据处理技术领域,包括获取预训练数据集,并进行划分;基于XLnet模型,构建初始预训练语言模型;将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;获取信息记录数据集,并对其进行预处理,得到标注数据集;将标注数据集输入到第一次训练得到的模型中,并利用优化器和损失函数对模型的参数进行更新,得到完备的预训练语言模型;将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。本方法能够实现将长文本或者超长文本划分为若干个不同语义文本块的功能。

Description

一种基于预训练语言模型的信息记录数据分块方法
技术领域
本发明属于电数字数据处理技术领域,尤其涉及一种基于预训练语言模型的信息记录数据分块方法。
背景技术
在如今现有的工作模式下,企业人员之间通常利用电子文件或会议记录的方式进行信息交流和分享。
常用的电子文件格式为pdf,但是pdf格式不便于我们对文本内容进行编辑,当我们把pdf格式转为可编辑格式后,文本内容是连在一起的,没有段落结构,降低了文本的可读性,影响用户信息获取效率。
而会议记录通常是在线会议的音频数据通过语音转文字后得到的文本数据,它是缺乏段落结构化信息的文字记录,降低了文本的可读性,影响用户信息获取效率。
电子文件和会议记录的文本通常较长,靠人工进行分割,难度很大,所以需要利用文本分割技术来处理这些文本,将它们分割为若干有意义的文本块,形成段落式结构。文本分割的研究大部分属于线性分割的范畴,即试图识别片段边界,并不关心其内在结构。但对于篇章的分析与理解来说,无疑层次结构更为合适,这就需要对文本实施层次分割。
近年来,一些研究者提出了许多基于神经网络的文本分割算法。比如,国外学者提出了基于语言表示模型(Bidirectional Encoder Representations from Transformers,BERT)的文本分割方法,然而文档分割是一个强依赖长文本篇章信息的任务,但是语言表示模型中预先训练的最大位置嵌入通常为512,算上开头和结尾的[CLS]、[SEP]标记,实际的长度要小于512个字符,因此对于长度超过512个字符的文本来说语言表示模型容易面临模型性能的阻碍。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种基于预训练语言模型的信息记录数据分块方法,本发明要解决的技术问题是提供一种能够将长文本或超长文本划分为若干个不同语义的文本块的信息记录数据分块方法。
为解决上述技术问题,本发明提供了一种基于预训练语言模型的信息记录数据分块方法,包括以下步骤:
步骤S1:获取预训练数据集,并进行划分;
步骤S2:基于XLnet模型构建初始预训练语言模型,XLnet模型包括排列语言模型、双流注意力机制以及Transformer-XL模型,作为初始预训练语言模型;
步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;
步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;
步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;
步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。
进一步的,所述步骤S4中,预处理包括以下步骤:
步骤H1:先对信息记录数据集进行数据标注;
步骤H2:对步骤H1标注后的数据进行数据增广,然后对增广后的数据进行切分,得到第二次模型训练需要的标注数据集。
进一步的,所述步骤H1中,数据标注的具体做法为:以句子为单位,为每个句子打标签,如果前后两句隶属于不同的语义块将其标记为“1”,如果前后两句隶属于同一个语义块标签为“0”。
进一步的,所述步骤H2中,数据增广采用同义词替换、随机插入、随机交换和随机删除的方法对步骤H1标注后的数据进行增广,然后对增广后的数据按设定比例切分成训练集、验证集和测试集,实现对标注数据集的补充;同义词替换是随机选择句子中的非停用词,并随机选择该非停用词的一个同义词将其替换;随机插入是在句子中随机选择一个非停用词,然后随机插入一个词或短语,重复此过程能够增广数据;随机交换是随机选择句子中的两个词或短语并交换它们的位置,重复此过程能够增广数据;随机删除方法是以设定的概率随机删除句子中的每个词,重复此过程能够增广数据。
进一步的,所述步骤S2中,排列语言模型能够在只考虑上文的情况下实现双向编码,捕捉上下文依赖关系,实现在上文中出现下文单词;引入双流注意力机制,在预测时能够实现文本块的位置信息的获取;融合Transformer-XL模型,能够实现长文本和超长文本的处理。
进一步的,所述步骤S5中,掩码语言模型损失项的计算公式如下:
其中,为Xlnet模型中Encoder部分的参数;/>为Mask-LM任务中在 Encoder 上所接的输出层中的参数;M为掩码的词集合;m为掩码的词集合的子集;mi为每个预测位置的索引的符号;i为预测位置的编号; |V|为词汇表的大小,表示模型的输出空间;/>为给定Xlnet模型参数/>和/>的条件下,Xlnet模型对第 i个位置上词的预测的概率;掩码语言模型损失项/>用于衡量Xlnet模型的预测与真实值之间的差异,表示Xlnet模型在给定输入序列的条件下,对被掩码位置的词进行预测,并通过计算交叉熵损失来衡量模型预测的准确性;
进一步的,预测单词匹配损失项用于判断下一个单词是否与目标序列中的单词匹配,预测单词匹配损失项的计算公式如下:
其中,为句子预测任务中在 Encoder 接上的分类器参数;N为句子对的总数;n为每个句子对预测位置的索引的符号;/>为第j个句子对预测的标签; IsNext表示两个句子是相邻的;Notnext表示两个句子不相邻;
进一步的,分布概率损失项的计算公式如下:
在上式中,是预测值;/>是真实值;k是样本的编号, H为样本数量;分布概率损失项计算的是预训练语言模型生成分布与真实分布之间的差距。
进一步的,所述步骤S3中,将划分好的预训练数据集输入初始预训练语言模型,并结合优化器对初始预训练语言模型进行第一次训练;然后结合损失函数执行前向计算,获取初始预训练语言模型总损失;利用总损失和优化器执行反向传播,求取模型参数的梯度值,再利用梯度值对初始预训练语言模型的权重参数进行更新;
所述步骤S5中,第二次训练是对标注数据集中的一部分采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广,剩余部分则不进行处理,然后结合损失函数执行前向计算,获取更新后的模型的总损失;利用总损失和优化器执行反向传播,求取更新后的模型参数的梯度值,再利用梯度值对第一次训练得到的模型的权重参数进行更新,以减小损失函数的值,最终得到完备的预训练语言模型;
所述步骤S3和S5中,前向计算包括掩码语言模型损失项、预测单词匹配损失项和分布概率损失项的计算,联合三个损失项,获得总损失计算公式:
其中,为总损失项。
进一步的,所述步骤S3中,优化器采用Adam优化器,其中,第一次训练轮次设置为5轮,第一次训练的初始学习率设置为1e-3,学习率下降策略采用学习率预热调度策略,设置学习率预热步数为1000,最小学习率为1e-5,在抑制过拟合方面,权重衰减系数设置为1e-5;
所述步骤S5中,优化器采用Adam优化器,其中,第二次训练轮次设置为8轮,第二次训练的初始学习率设置为1e-4,学习率下降策略采用学习率预热调度策略,设置学习率预热步数为1000,最小学习率为5e-5,在抑制过拟合方面,权重衰减系数设置为1e-8;
所述步骤S6中,将待分块的信息记录数据划分为80%训练集、10%验证集和10%测试集,设置批处理样本数量为32,然后再输入到完备的预训练语言模型中进行分块。
进一步的,所述步骤S1中,获取中文公开数据集作为预训练数据集,将其划分为80%训练集、10%验证集以及10%测试集。
进一步的,所述步骤S4中,信息记录数据集的来源包括企业日常会议文件以及在线会议音频数据通过语音转文字后得到的文本数据。
本发明一种基于预训练语言模型的信息记录数据分块方法,基于XLnet模型,其包括排列语言模型、双流注意力机制以及Transformer-XL模型,作为初始预训练语言模型;基于XLnet模型;排列语言模型能够在只考虑上文的情况下实现双向编码,捕捉上下文依赖关系,实现在上文中出现下文单词;引入双流注意力机制,在预测时能够实现文本块(target)的位置信息的获取;采取随机采样语言排列和只预测一个句子后面的1/K的词的方式,同时融合Transformer-XL模型,能够实现长文本和超长文本的处理;构建的预训练语言模型克服了自回归语言模型只考虑单项传递,没有充分利用上下文来提取更深层的信息的问题,能够训练出更加完整的融合上下文信息的词向量,再结合softmax函数检测文本块边界,从而实现将长文本或者超长文本划分为若干个不同语义文本块的功能;本方法对预训练语言模型进行了两次训练,第一次训练采用了公开数据集进行训练,第二次采用了经过预处理后的标注数据集进行训练,增广了数据的多样性,丰富了数据量,提高了模型的精度。
本发明的损失函数在训练过程中的作用是衡量模型预测结果与真实标签之间的差异,通过最小化损失函数来优化模型的参数,使模型能够更好地拟合训练数据。总损失是通过执行前向计算(forward pass)并结合损失函数计算得到的。然后,通过执行反向传播(backward pass)计算损失函数对模型参数的梯度。最后,利用梯度值和优化器对模型的权重参数进行更新,以减小损失函数的值。损失函数的效果可以通过观察总损失的变化来评估。在训练过程中,优化器会调整模型的参数以降低总损失。在损失函数无法降低或者降低得非常缓慢的情况下,通过调整模型的学习率等参数使损失函数逐渐减小,最终模型对训练数据的拟合效果不断提高。
附图说明
图1是本发明一种基于预训练语言模型的信息记录数据分块方法的流程图。
图2是本发明一种基于预训练语言模型的信息记录数据分块方法的数据标注样例的示意图。
图3是本发明一种基于预训练语言模型的信息记录数据分块方法的初始预训练语言模型的结构图。
具体实施方式
为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
因此,以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于预训练语言模型的信息记录数据分块方法进一步详细描述。
实施例1:
如图1和图3所示,本发明一种基于预训练语言模型的信息记录数据分块方法,包括以下步骤:
步骤S1:获取预训练数据集,并进行划分;
步骤S2:基于XLnet(Generalized Auto regressive Pretraining for LanguageUnderstanding)模型构建初始预训练语言模型,其包括排列语言模型(Permutation LM,PLM)、双流注意力机制(Two-Stream Self-Attention)以及Transformer-XL模型,作为初始预训练语言模型;
步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;
步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;
步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;
步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。
实施例2:
如图1和图3所示,本发明一种基于预训练语言模型的信息记录数据分块方法,包括以下步骤:
步骤S1:获取预训练数据集,并进行划分;
步骤S2:基于XLnet模型构建初始预训练语言模型,XLnet模型包括排列语言模型、双流注意力机制以及Transformer-XL模型,作为初始预训练语言模型;
步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;
步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;
步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;
步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。
本实施例与以上实施例不同之处在于:
所述步骤S1中,获取中文公开数据集作为预训练数据集,将其划分为80%训练集、10%验证集以及10%测试集;
所述步骤S2中,信息记录数据集的来源包括在线会议通过语音转文字后得到的文本数据,还包括日常PDF文本转换成的可编辑文本;
具体的,一般PDF文本转换成word或者txt格式文本后,文本内容没有分段,阅读困难,将其输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义段落的划分,即不同语义文本块的划分。
所述步骤S4中,预处理包括以下步骤:
步骤H1:先对信息记录数据集进行数据标注;如图2所示为数据标注的示例。
步骤H2:对步骤H1标注后的数据进行数据增广,然后对增广后的数据进行切分,得到第二次模型训练需要的标注数据集。
所述步骤H1中,数据标注的具体做法为:以句子为单位,为每个句子打标签,如果前后两句隶属于不同的语义块将其标记为“1”,如果前后两句隶属于同一个语义块标签为“0”。
所述步骤H2中,数据增广是对标注后数据的补充,数据增广采用同义词替换、随机插入、随机交换、随机删除的方法来补充训练数据,使训练样本更加丰富。
同义词替换是随机选择句子中的非停用词,并随机选择该词的一个同义词将其替换。
随机插入是在句子中随机选择一个非停用词,然后随机插入一个词或短语,重复此过程能够增广数据。
随机交换会随机选择句子中的两个词或短语并交换它们的位置,重复此过程能够增广数据。
随机删除方法会以一定的概率随机删除句子中的一个词,重复此过程能够增广数据。
然后将增广后的数据按照80%:10%:10%的比例将数据分为训练集、验证集和测试集。
所述步骤S2中,针对文本输入文本结构输出生成式的需求,采用XLnet模型;排列语言模型能够在只考虑上文的情况下实现双向编码,捕捉上下文依赖关系,实现在上文中出现下文单词;引入双流注意力机制,在预测时能够实现文本块(target)的位置信息的获取;
所述步骤S2中,采取随机采样语言排列和只预测一个句子后面的1/K的词的方式,K为超参数,同时融合Transformer-XL模型,能够实现长文本和超长文本的处理。
其中排列语言模型对应生成式的需求且吸收了自编码语言模型的优势:第一,排列语言模型能够进行双向语言建模,弥补了自回归语言模型无法捕捉上下文依赖关系这一短板;第二,排列语言模型取消了BERT语言模型中的掩码机制,使得因掩码(MASK)引发的问题都得到较为有效的解决;
双流注意力机制对应模型能够更加有效的挖掘词汇的上下文信息,更深刻的理解语义;
Transformer-XL模型对应借助Transform-XL分段递归和相对编码机制,使得模型能够接受不限长度的序列作为输入,大幅提升模型处理长文本的能力。
具体如下:
本发明以排列语言模型(Permutation LM)作为语言模型,该模型基于自回归语言模型,针对自回归语言模型从左向右的输入,只能看到预测单词的上文,而需求是希望在看到的上文中能够出现下文单词,这样就能在只考虑上文的情况下实现双向编码,由于现有技术中Bert模型采用的的双向编码方法是在上游预训练中采用掩码的方式引入噪声而下游的任务并没有噪声,这就导致微调(finetune)与最终输出顺序不一致,所以我们引入了一种新的排列方式,即排列语言模型。具体的说,就是将句子中的单词随机打乱顺序,这样的话对于单词本身,它原先的上下文单词就都有可能出现在当前的上文中了,用以下例子进行说明:
设文本的输入序列长度为3,记作W=W1,W2,W3,假设希望为其中的W2构造排列语言模型对应的概率模型。经过观察可以看出,排列语言模型包含的条件概率有4个,即p(w2)、p(w2| w1)、p(w2| w3)和p(w2| w1, w3)。我们将原始下标序列词汇的下标记作{1,2,3},则其所有可能的排列有3!=6种,有{{2,1,3},{2,3,1},{1,2,3},{3,2,1},{1,3,2},{3,1,2}}。为W2的依赖关系,从上述排列集合中取出每一种排列,将位于下标“2”左边的所有下标作为其所依赖的词汇下标。构建在排列{2,1,3}和{2,3,1}“2”左边没其他下标,即表示W2不依赖任何词汇,对应的条件概率为p(w2),以此类推则:{1,2,3}对应p(w2| w1)、{3,2,1}对应p(w2| w3)、{1,3,2}和{3,1,2}对应p(w2| w1, w3)。虽然XLnet模型只考虑上文,但是却包含了原先上下文的信息。因此在形式上相当于在排列的基础上构造了自回归语言模型。但是变换回原始排列顺序,则又会呈现出已处于不同位置的若干词汇预测另一位置词汇的形式,而后者和语言表示模型的遮掩机制非常类似。由此可以看出,排列语言模型利用排列机制,兼顾自回归与自编码的优势,在实现双向语言建模的同时又规避了“[MASK]噪声”。
依照上文所采用的语言排列方式,该方式将句子中的单词改变了原先的顺序,从而导致模型不知道要预测句子中的哪一个单词,具体的说就是对于序列W1,W2,W3;将其序列打乱为W3,W2,W1,得到的上文信息为W1,则根据W1的依赖关系可能得到W3,W2,W1与W2,W3,W1两种序列,所以只根据上文信息W1无法准确预测出某一单词。之前预测具体的单词信息采用的是[MASK]token的方式,例如需要预测W3,W2,W1序列列中的W2,只需要使用掩码标注将其表示为W2 token。[MASK]只是一个占位符。W1和W3的嵌入包含位置信息,帮助模型“知道”[MASK]的是W2。但是[MASK]的存在影响预训练与下游任务的一致性。为了解决这个问题,本算法中引入了双流注意力机制。
双流注意力机制包含两种自注意力,一个是文本内容注意流(content streamattention),它是深度模型学习架构(Transformer)中的标准自注意力;另一个是查询注意流(query stream attention),XLNet模型引入查询注意流来代替现有方法中的 [MASK]token。具体的操作方法是将W2作为一个token标记,当它需要被用来预测文本内容时,则使用文本内容注意流来保存W2的内容信息;但是如果需要预测W2时,则使用查询注意流,则根据W2的位置信息与W2的上下文信息来预测W2的内容。通过使用这个双流自注意力机制代替了[MASK]的使用。
输入的句子只有一个顺序。但是我们可以使用不同的注意力掩码来实现不同的分解顺序,从而在不使用[MASK]的情况下达到它的效果。
因为深度模型学习架构要求输入序列长度固定,这就使得长度小于所要求的固定长度时,需要对其进行填补,但长度大于固定长度则需要对序列进行分割处理,导致训练时失去部分信息。为了解决这样的问题,使用了Transformer-XL中循环机制和相对位置编码机制。循环机制会在当前文本块的计算中引入上一段文本块输出的信息,使模型能够看到更多的上下文信息。由于引入了上一段文本的输出信息,可能使得位置编码相同但片段不同从而对当前片段的影响程度不同,所以引入了相对位置编码机制,该机制是将词语之间的相对位置应用于编码中。
综上所述,XLNet模型克服了自回归语言模型只考虑单项传递,没有充分利用上下文来提取更深层的信息,因此 XLNet 模型能够训练出更加完整的融合上下文信息的词向量。
总损失的计算公式如下:
其中,为掩码语言模型损失项;/>为预测单词匹配损失项;/>为分布概率损失项;α、β和γ为用于平衡这三部分损失项的因子,本发明中这三个因子均为1。
掩码语言模型损失项的计算公式如下:
其中,掩码语言模型损失项为;/>为Xlnet模型中Encoder部分的参数;/>为Mask-LM任务中在 Encoder 上所接的输出层中的参数;M为掩码的词集合;m为掩码的词集合的子集;/>为每个预测位置的索引的符号;i为预测位置的编号; |V|为词汇表的大小,表示模型的输出空间;/>为给定Xlnet模型参数θ和θ1的条件下,Xlnet模型对第 i个位置上词的预测的概率;掩码语言模型损失项/>用于衡量Xlnet模型的预测与真实值之间的差异,表示Xlnet模型在给定输入序列的条件下,对被掩码位置的词进行预测,并通过计算交叉熵损失来衡量模型预测的准确性。
判断下一个单词是否与目标序列中的单词匹配的预测单词匹配损失项的计算公式如下:
其中,为预测单词匹配损失项;/>为句子预测任务中在 Encoder 接上的分类器参数;N为句子对的总数;n为每个句子对预测位置的索引的符号;/>为第j个句子对预测的标签; IsNext表示两个句子是相邻的;Notnext表示两个句子不相邻;
在上式中对于生成文本,模型会根据当前的状态和输入上下文生成下一个单词,然后判断即这个单词/>是否与目标序列中的单词是否匹配。
分布概率损失项的计算公式如下:
在上式中,为分布概率损失项;/>是预测值;/>是真实值;k是样本的编号, H为样本数量;分布概率损失项计算的是预训练语言模型生成分布与真实分布之间的差距。
这部分损失关注的是模型生成分布与真实分布之间的差距。具体来说,模型会根据当前的状态和输入上下文生成下一个单词,并计算该单词在目标序列中出现的概率分布。然后,将这个分布与真实分布进行比较,计算两者之间的差距。
实施例3:
如图1所示,本发明一种基于预训练语言模型的信息记录数据分块方法,包括以下步骤:
步骤S1:获取预训练数据集,并进行划分;
步骤S2:基于XLnet模型构建初始预训练语言模型,XLnet模型包括排列语言模型、双流注意力机制以及Transformer-XL模型,作为初始预训练语言模型;
步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;
步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;
步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;
步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。
本实施例与以上实施例不同之处在于:
所述步骤S3中,将划分好的预训练数据集输入初始预训练语言模型,并结合优化器对初始预训练语言模型进行第一次训练;然后结合损失函数执行前向计算,获取初始预训练语言模型总损失;利用总损失和优化器执行反向传播,求取模型参数的梯度值,再利用梯度值对初始预训练语言模型的权重参数进行更新;
所述步骤S3中,优化器采用Adam优化器,其中,第一次训练轮次设置为5轮,第一次训练的初始学习率设置为1e-3,学习率下降策略采用学习率预热调度策略,设置学习率预热步数为1000,最小学习率为1e-5,在抑制过拟合方面,权重衰减系数(weight decay)设置为1e-5。
所述步骤S5中,第二次训练是对标注数据集中的一部分采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广,剩余部分则不进行处理,然后结合损失函数执行前向计算,获取更新后的模型的总损失;利用总损失和优化器执行反向传播,求取更新后的模型参数的梯度值,再利用梯度值对第一次训练得到的模型的权重参数进行更新,最终得到完备的预训练语言模型。
所述步骤S5中,第二次训练是对标注数据集中80%的句子采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广,剩余20%的句子则不进行处理。
所述步骤S5中,优化器采用Adam优化器,其中,第二次训练轮次设置为8轮,第二次训练的初始学习率设置为1e-4,学习率下降策略采用学习率预热调度策略,设置学习率预热步数为1000,最小学习率为5e-5,在抑制过拟合方面,权重衰减系数(weight decay)设置为1e-8。
所述步骤S3和S5中,前向计算包括掩码语言模型损失项、预测单词匹配损失项/>和分布概率损失项/>的计算,联合三个损失项,获得总损失计算公式:
其中,为掩码语言模型损失项;/>为预测单词匹配损失项;/>为分布概率损失项。
所述步骤S6中,设置批处理文本数量为32,然后再输入到完备的预训练语言模型中进行分块。对于每个输入文本,使用完备的预训练语言模型生成每个文本块所对应的输出序列。这个输出序列可以被视为对输入文本的每个文本块的语义信息的编码。然后取出每个文本块中每个句子的“。”的编码信息。
将生成的“。”对应的输出序列经过softmax函数后,将序列向量值映射到0和1之间,并且归一化到和为1,取最大值对应的类别标签作为句子的类别。当句子类别为“1”时,认为该句子是一个段落(即文本块)的结尾,在此句子后面添加一行空行。当句子类别为“0”时,则认为该句子不是一个段落(即文本块)的结尾,不需要添加空行。
最终,分块模型自动预测文本块的边界,将一篇会议记录的文本以空行隔开的形式完成不同语义文本块间的划分。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (10)

1.一种基于预训练语言模型的信息记录数据分块方法,其特征在于,包括以下步骤:
步骤S1:获取预训练数据集,并进行划分;
步骤S2:基于XLnet模型构建初始预训练语言模型,XLnet模型包括排列语言模型、双流注意力机制以及Transformer-XL模型;
步骤S3:将划分好的预训练数据集输入到初始预训练语言模型,进行第一次训练;
步骤S4:获取信息记录数据集,并对其进行预处理,得到标注数据集;
步骤S5:将标注数据集输入到第一次训练得到的模型中,进行第二次训练;第二次训练利用掩码语言模型损失项、预测单词匹配损失项和分布概率损失项,构建损失函数,用来计算预测结果与真实标签之间的差距,并利用优化器和损失函数对第一次训练得到的模型的参数进行更新,得到完备的预训练语言模型;
步骤S6:将分块的信息记录数据输入到完备的预训练语言模型中进行分块,完备的预训练语言模型自动预测文本块的边界,最终实现不同语义文本块的划分。
2.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S4中,预处理包括以下步骤:
步骤H1:先对信息记录数据集进行数据标注;
步骤H2:对步骤H1标注后的数据进行数据增广,然后对增广后的数据进行切分,得到第二次模型训练需要的标注数据集。
3.根据权利要求2所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤H1中,数据标注的具体做法为:以句子为单位,为每个句子打标签,如果前后两句隶属于不同的语义块将其标记为“1”,如果前后两句隶属于同一个语义块标签为“0”。
4.根据权利要求3所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤H2中,数据增广采用同义词替换、随机插入、随机交换和随机删除的方法对步骤H1标注后的数据进行增广;然后对增广后的数据按设定比例切分成训练集、验证集和测试集;同义词替换是随机选择句子中的非停用词,并随机选择该非停用词的一个同义词将其替换;随机插入是在句子中随机选择一个非停用词,然后随机插入一个词或短语,重复此过程进行数据增广;随机交换是随机选择句子中的两个词或短语并交换它们的位置,重复此过程进行数据增广;随机删除方法是以设定的概率随机删除句子中的一个词,重复此过程进行数据增广。
5.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S2中,排列语言模型在只考虑上文的情况下实现双向编码,捕捉上下文依赖关系,实现在上文中出现下文单词;引入双流注意力机制,在预测时进行文本块的位置信息的获取;融合Transformer-XL模型,能够实现长文本和超长文本的处理。
6.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S5中,掩码语言模型损失项的计算公式如下:
其中,掩码语言模型损失项为;/>为Xlnet模型中Encoder部分的参数;/>为Mask-LM任务中在 Encoder 上所接的输出层中的参数;M为掩码的词集合;m为掩码的词集合的子集;mi为每个预测位置的索引的符号;i为预测位置的编号; |V|为词汇表的大小,表示模型的输出空间;/>为给定Xlnet模型参数/>和/>的条件下,Xlnet模型对第 i个位置上词的预测的概率;掩码语言模型损失项 />用于衡量Xlnet模型的预测与真实值之间的差异,表示Xlnet模型在给定输入序列的条件下,对被掩码位置的词进行预测,并通过计算交叉熵损失来衡量模型预测的准确性。
7.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S5中,预测单词匹配损失项用于判断下一个单词是否与目标序列中的单词匹配,预测单词匹配损失项的计算公式如下:
其中,为预测单词匹配损失项;/>为句子预测任务中在 Encoder 接上的分类器参数;N为句子对的总数;n为每个句子对预测位置的索引的符号;/>为第j个句子对预测的标签; IsNext表示两个句子是相邻的;Notnext表示两个句子不相邻。
8.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S5中,分布概率损失项的计算公式如下:
在上式中,为分布概率损失项;/>是预测值;/>是真实值;k是样本的编号, H为样本数量;分布概率损失项计算的是预训练语言模型生成分布与真实分布之间的差距。
9.根据权利要求1所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S3中,将划分好的预训练数据集输入初始预训练语言模型,并结合优化器对初始预训练语言模型进行第一次训练;然后结合损失函数执行前向计算,获取初始预训练语言模型总损失;利用总损失和优化器执行反向传播,求取模型参数的梯度值,再利用梯度值对初始预训练语言模型的权重参数进行更新。
10.根据权利要求9所述的基于预训练语言模型的信息记录数据分块方法,其特征在于,所述步骤S5中,第二次训练是对标注数据集中的一部分采用同义词替换、随机插入、随机交换、随机删除的方法进行数据增广,剩余部分则不进行处理,然后结合损失函数执行前向计算,获取更新后的模型的总损失;利用总损失和优化器执行反向传播,求取更新后的模型参数的梯度值,再利用梯度值对第一次训练得到的模型的权重参数进行更新,以减小损失函数的值,最终得到完备的预训练语言模型;
所述步骤S3和S5中,前向计算包括掩码语言模型损失项、预测单词匹配损失项和分布概率损失项的计算,联合三个损失项,获得总损失计算公式:
其中,为掩码语言模型损失项;/>为预测单词匹配损失项;/>为分布概率损失项;/>为总损失项。
CN202410194579.3A 2024-02-22 2024-02-22 一种基于预训练语言模型的信息记录数据分块方法 Active CN117763093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410194579.3A CN117763093B (zh) 2024-02-22 2024-02-22 一种基于预训练语言模型的信息记录数据分块方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410194579.3A CN117763093B (zh) 2024-02-22 2024-02-22 一种基于预训练语言模型的信息记录数据分块方法

Publications (2)

Publication Number Publication Date
CN117763093A true CN117763093A (zh) 2024-03-26
CN117763093B CN117763093B (zh) 2024-05-03

Family

ID=90324226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410194579.3A Active CN117763093B (zh) 2024-02-22 2024-02-22 一种基于预训练语言模型的信息记录数据分块方法

Country Status (1)

Country Link
CN (1) CN117763093B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
US20220139384A1 (en) * 2020-11-03 2022-05-05 Salesforce.Com, Inc. System and methods for training task-oriented dialogue (tod) language models
CN116738994A (zh) * 2023-04-24 2023-09-12 广西师范大学 基于上下文增强的提示微调的关系抽取方法
CN116756690A (zh) * 2023-06-24 2023-09-15 复旦大学 一种跨语言多模态信息融合方法及装置
CN117453915A (zh) * 2023-10-17 2024-01-26 上海触脉数字医疗科技有限公司 一种基于可规划工作流的大语言模型的复杂任务处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837733A (zh) * 2019-10-31 2020-02-25 创新工场(广州)人工智能研究有限公司 自重建方式的语言模型训练方法、系统及计算机可读介质
US20220139384A1 (en) * 2020-11-03 2022-05-05 Salesforce.Com, Inc. System and methods for training task-oriented dialogue (tod) language models
CN116738994A (zh) * 2023-04-24 2023-09-12 广西师范大学 基于上下文增强的提示微调的关系抽取方法
CN116756690A (zh) * 2023-06-24 2023-09-15 复旦大学 一种跨语言多模态信息融合方法及装置
CN117453915A (zh) * 2023-10-17 2024-01-26 上海触脉数字医疗科技有限公司 一种基于可规划工作流的大语言模型的复杂任务处理方法

Also Published As

Publication number Publication date
CN117763093B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109815476B (zh) 一种基于中文语素和拼音联合统计的词向量表示方法
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN110362797B (zh) 一种研究报告生成方法及相关设备
CN111626041B (zh) 一种基于深度学习的音乐评论生成方法
CN113204627B (zh) 利用DialoGPT作为特征标注器的对话摘要生成系统
CN115422939B (zh) 一种基于大数据的细粒度商品命名实体识别方法
CN114064117A (zh) 一种基于字节码和神经网络的代码克隆检测方法及系统
CN116628186B (zh) 文本摘要生成方法及系统
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN113515619A (zh) 一种基于显著性信息门控机制的关键词生成方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113673241B (zh) 一种基于范例学习的文本摘要生成框架系统及方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111309896B (zh) 基于二级注意力的深度学习文本摘要生成方法
CN117763093B (zh) 一种基于预训练语言模型的信息记录数据分块方法
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN116775855A (zh) 基于Bi-LSTM的TextRank中文摘要自动生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant