CN117574981B - 一种信息分析模型的训练方法及信息分析方法 - Google Patents
一种信息分析模型的训练方法及信息分析方法 Download PDFInfo
- Publication number
- CN117574981B CN117574981B CN202410057458.4A CN202410057458A CN117574981B CN 117574981 B CN117574981 B CN 117574981B CN 202410057458 A CN202410057458 A CN 202410057458A CN 117574981 B CN117574981 B CN 117574981B
- Authority
- CN
- China
- Prior art keywords
- model
- information analysis
- training
- data
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 147
- 238000012549 training Methods 0.000 title claims abstract description 104
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012937 correction Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000008451 emotion Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008014 freezing Effects 0.000 claims description 9
- 238000007710 freezing Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 9
- 238000005070 sampling Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请提出了一种信息分析模型的训练方法及信息分析方法,包括以下步骤:获取信息分析数据并输入到预训练好的T5模型中得到第一信息分析结果;构建自建模型,在所述训练样本中获取至少一信息分析数据组成信息分析集合,以第一信息分析结果为训练目标,以信息分析集合为训练数据对所述自建模型进行训练得到普适模型;构建数据校正模型并获取微调数据集,使用微调数据集对自建模型进行迭代训练得到信息分析模型,所述数据校正模型在迭代训练过程中对微调数据集进行更新。本方案以T5模型的输出为训练目标来构建自建模型,并对其进行迭代训练得到信息分析模型,从而使用信息分析模型以更小的计算资源来进行信息分析。
Description
技术领域
本申请涉及数据分析领域,特别是涉及一种信息分析模型的训练方法及信息分析方法。
背景技术
Transformer是一种基于注意力机制的神经网络架构,它在自然语言处理和其他序列数据处理任务中取得了巨大成功,并成为了许多最先进的NLP模型的基础。Transformer已经成为自然语言处理和其他序列任务的重要基础架构,如BERT、GPT等模型都是基于Transformer进一步发展和优化的,信息分析旨在了解和分析公众对特定话题、品牌、产品或事件的情感和态度,通过对社交媒体、新闻文章、论坛帖子等大量文本数据进行分析,可以帮助企业了解公众对他们的看法,及时掌握和应对可能出现的声誉危机或问题,T5模型是以Transformer为基础的模型,T5模型作为一种强大的文本到文本转换模型,具有统一的框架、自注意力机制、强大的语言表示能力和处理大规模数据的能力等优势,使得它在信息分析领域具有广泛的应用前景,并能够帮助提高信息分析的准确性和效率,但T5模型具有大量的隐藏层及亿级参数,所以无法在小成本、轻资源的基础上进行训练和应用。
传统的信息分析方法在处理大规模、多样化的文本数据时存在一些缺陷,主要问题包括:
1.特征工程复杂:传统的信息分析方法通常需要手动进行特征工程,提取适合于情感分析或主题分类的特征,这些特征可能涉及词袋模型、TF-IDE、词性标注等,但对于大规模文本数据来说,特征工程非常复杂和耗时。
2.无法捕捉长距离依赖:传统的信息分析方法通常是基于传统的序列模型(如RNN和LSTM)或基于n-gram的方法,这些方法在处理长文本时很难捕捉长距离的依赖关系,导致模型性能受限。
3.对文本顺序敏感:传统的序列模型对于输入文本的顺序敏感,这意味着输入文本的排列顺序可能影响最终的分析结果,然而,信息分析中的文本通常是无序的,因此这样的敏感性会导致结果不稳定。
4.处理大规模数据效率低:传统的信息分析方法通常需要处理大规模的文本数据,但由于特征工程复杂和序列模型的限制,处理大规模数据的效率较低,导致处理时间长。
5.无法应对多样化任务:传统的信息分析方法通常是针对特定任务(如情感分析或主题分类)设计的,不具备通用性和灵活性,难以应对多样化的信息分析需求。
6.针对特定领域的模型人工微调数据集存在很大的局限性,如:人工微调过程通常是时间密集型和资源密集型的,需要大量的人工劳动和专业知识。不同标注者之间可能存在主观性差异,导致数据标注的一致性问题。
7.过拟合风险:过度依赖特定的微调数据集可能导致模型过拟合,影响其在新数据上的泛化能力。
8.人工微调数据集可能缺乏足够的多样性,特别是在处理广泛或多样化的应用场景时。
所以,亟需一种可以解决上述缺陷并能以较小的资源成本对多样化文本数据进行信息分析的方法。
发明内容
本申请实施例提供了一种信息分析模型的训练方法及信息分析方法,通过T5模型的预测结果构建一个自建模型,通过对自建模型的迭代训练得到信息分析模型,从而使用所述信息分析模型可以使用更小的计算资源来进行信息分析。
第一方面,本申请实施例提供了一种信息分析模型的训练方法,所述方法包括:
获取至少一与信息分析相关的信息分析数据并标记对应的情感标签作为训练样本,将训练样本输入到预训练好的T5模型中得到第一信息分析结果;
构建以transfomer架构为基础的自建模型,在所述训练样本中获取至少一信息分析数据组成信息分析集合,以信息分析集合为输入数据,以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型;
构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集,冻结预训练好的普适模型的部分层级并新增分类头,将标记有情感标签的微调数据集输入到普适模型中进行迭代训练得到信息分析模型,其中在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集,并将更新的微调数据集再输入到普适模型进行迭代。
第二方面,本申请实施例提供了一种信息分析方法,包括:
获取信息分析数据,将信息分析数据输入到信息分析模型中得到由事件关键字、事件内容概括以及事件情感分析字段构成的输出结果;
其中信息分析模型采用特定领域的微调数据集根据第一方面所述的信息分析模型的训练方法训练得到。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行一种信息分析模型的训练方法以及一种信息分析方法。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据一种信息分析模型的训练方法以及一种信息分析方法。
本发明的主要贡献和创新点如下:
本申请实施例基于T5模型的输出来对构建的自建模型进行训练,并再次对预训练好的自建模型进行迭代训练从而可以使用更小的计算资源来进行信息的分析;本方案在进行迭代训练时冻结自建模型中的部分层级,使自建模型可以保留大部分在T5模型中学习的参数,并减少迭代训练时出现的过拟合情况;本方案中的自建模型以T5模型的输出作为训练目标进行训练,使自建模型在参数量小于T5模型的前提下也尽可能达到与T5模型一样的效果;本方案构建一个数据校正模型来根据每次迭代训练的结果对微调数据集合进行更新,使每次迭代训练所使用的微调数据集合更加准确;本方案在迭代训练时在自建模型中额外添加了一个分类头,从而可以使模型更好的适应特定任务。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种信息分析模型的训练方法的流程图;
图2是根据本申请实施例的一种信息分析模型的训练方法的逻辑示意图;
图3是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本申请实施例提供了一种信息分析模型的训练方法,可以使用较小的资源成本来进行信息分析,具体地,参考图1和图2,所述方法包括:
获取至少一与信息分析相关的信息分析数据并标记对应的情感标签作为训练样本,将训练样本输入到预训练好的T5模型中得到第一信息分析结果;
构建以transfomer架构为基础的自建模型,在所述训练样本中获取至少一信息分析数据组成信息分析集合,以信息分析集合为输入数据,以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型;
构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集,冻结预训练好的普适模型的部分层级并新增分类头,将标记有情感标签的微调数据集输入到普适模型中进行迭代训练得到信息分析模型,其中在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集,并将更新的微调数据集再输入到普适模型进行迭代。
本方案从社交媒体、新闻网站以及论坛等渠道收集与信息分析相关的信息分析数据。
在本方案中,对所述信息分析数据进行清洗、去除HTML标签、去除特殊字符后进行分词和标记情感标签。
在本方案中,对所述信息分析数据的不同特征维度进行标注作为训练数据,标注数据的特征维度主要有以下方面:
1.上下文特征
句子和段落结构:特征可以包括句子长度、段落结构等,以捕捉文本的结构信息。
位置编码:利用Transformer模型的集团编码功能来保留单词在文本中的相对位置信息。
2.语言特征
句法特征:包括词性标注、句法依存关系等,这些可以帮助模型理解语言的结构。
实体和关系:实体识别和实体间关系的信息,特别是在处理特定领域(如医疗、法律等)的文本时。
3.领域特定特征
专业术语:如果是针对特定领域的数据,包括行业特有的术语或概念。
领域相关的指标:如在医疗领域,可以包括疾病名称、药物名称等。
4.情感和语义标注
情感倾向:情感分析的结果,如正面、中立或负面。
语义角色标注:理解句子中各成分的语义角色。
5.自定义特征
特定任务特征:根据校正模型的目标,以最终模型的结果准确率残差等指标作为数据集的评分特征。
示例性的,有一原始文本“这款手机的电池寿命很长,但摄像效果不太理想”,则对原始文本的特征维度进行标注如下:
原始文本包含16个字,则标注后得到length_feature = 16;
原始文本的情感词汇包括正面情感词“长”,负面情感词“不理想”,则标注后得到positive_word_count = 1, negative_word_count = 1;
原始文本包含否定词“不”,则标注后得到negation_word_count = 1;
原始文本包含名词“手机”,“电池”,动词“寿命”,形容词“长”,“理想”,则标注后得到noun_count = 2, verb_count = 1, adjective_count = 2;
使用模型最终的情感分析评估指标作为原始文本的情感评分特征,则原始文本的情感评分特征为cp_score = 0.8,且在最终向量中*10;
将原始文本转换为嵌入向量得到contextual_embedding = [0.32, -0.24, ...,0.45](向量)。
在本方案中,将所述信息分析数据划分为训练集、验证集和测试集用于模型的训练、调优和评估。
本方案中所使用的是Transformer的架构的T5模型,T5模型通过查询(Q),键(K)和值(V)来一次性处理所有单词,并且每个单词与其他单词之间的量化关联强度来表示单词,这可以捕获长距离依赖,缓解了RNN结构因为梯度消失和捕获长距离上下文信息不足的问题,其中,查询(Query)为当前焦点单词对其他单词(包括自身)的依赖程度,键(Key)将所有单词用来和“查询”向量进行匹配,值(Value)和键关联,如果键匹配上了查询,那么其相应的值就会被提取出来,用以表示当前的焦点单词,公式表示为:
具体的,本方案预训练的T5模型在任何给定的上下文中更愿意关注内容,本方案中的T5模型在预训练过程中执行任务重述和掩码语言建模,任务重述通过将不同NLP任务转化为输入文本-输出文本的形式,使得模型学习到通用的文本转换能力。掩码语言建模通过随机掩盖输入文本中的一些标记,并让模型预测这些被掩盖的标记,从而使模型学习到更好的语言理解和表示。
具体的,在本方案中预训练的T5模型的目标函数是由任务重述和掩码语言建模两部分组成,T5模型任务重述的目标函数是最大化所有任务的预测概率,掩码语言建模的目标函数是最大化被掩盖标记的预测概率。
具体的,T5模型能够学习到强大的语言表示能力,并通过多任务训练和预训练得到通用的文本转换模型。因此,在信息分析任务中,本方案借助T5模型能够提供高准确性的预测结果,对文本的情感、主题等进行准确的分类和分析,但是由于T5在大规模的多样化文本数据上进行预训练,故后续还需要对通过T5模型搭建的自建模型通过微调进行特定任务的优化,这使得本方案训练得到的信息分析模型能够处理来自不同领域和不同语境的文本数据,从而更好地适应实际信息分析应用的需求。
具体的,T5采用自注意力机制,能够捕捉文本中的上下文信息和长距离依赖关系,从而更好地理解文本的语义和语境,T5基于Transformer架构,具有良好的并行计算性质,使得它能够高效地处理大规模的文本数据,这使得T5在处理大量信息数据时表现出色,并且能够快速地对文本进行分析和预测。
具体的,T5作为一个通用的文本转换模型,具有统一的文本到文本转换框架。这使得T5能够适应不同类型的信息分析任务,例如情感分析、主题提取、文本分类等,从而提高了模型的灵活性和可扩展性。
在本方案中,在“构建以transfomer架构为基础的自建模型”步骤中,所述自建模型包括两个编码器层和两个解码器层,所述自建模型的参数量小于T5模型。
具体的,所述自建模型的隐藏层维度为128,中间层维度为隐藏层乘4,即512,所述自建模型每层的注意力头数为4。
进一步的,当在实际应用中发现资源匮乏,则通过稀疏注意力或局部注意力的方式来提高所述自建模型的计算性能。
具体的,由于自建模型只包括了两个编码器层和两个解码器层,所以所述自建模型的参数量大约为80万,与T5模型的百亿级别参数相比计算负担大大降低。
在“以信息分析集合为输入数据,以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型”步骤中,当所述自建模型的输出结果与对应第一信息分析结果的相似度大于设定阈值时,完成自建模型的训练得到所述普适模型。
具体的,由于所述普适模型是以第一信息分析结果为训练目标进行训练的,所以所述自建模型模仿了T5模型的行为和输出,可以在资源受限的情况下提供与T5模型相似的性能。
在本方案中,在“构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集”步骤中,所述数据校正模型以transformer架构为基础进行构建,并在所述数据校正模型中配置多头注意力、前馈网络和归一化层。
具体的,所述数据校正模型以带有情感标签的数据作为训练样本进行训练得到,训练好的数据校正模型用于预测标记有情感标签的微调数据集中的数据不一致性或标注错误的情况,且所述数据校正模型以交叉熵损失和预测不准确样本数量的加权和作为目标函数进行训练。
在本方案中,在所述普适模型的迭代训练开始时,微调训练样本与T5模型的训练样本数据量差距极大,为了保留普适模型中学习到的T5模型的特征,冻结普适模型的前50%层开始训练。具体的,本方案在冻结普适模型的部分层级时优先冻结低层级的参数权重。
可选的,所述迭代训练中冻结的层级根据微调样本的复杂度进行调整,所述微调样本的复杂度越高则冻结的层级越少。
具体的,所述普适模型冻结的层数越多相应的响应速度越快,计算所需的资源也越低。在本方案中,原始的t5模型响应速度为1条/s,普适模型的响应速度为10+条/s左右。
具体的,在本方案中只针对信息倾向及分类作为输出结果,因此复杂度不高,可以相应的提高冻结层比例以提升性能。
示例性的,所述信息分析模型使用的数据集越小则过拟合的风险越高,这时冻结更多层可能有助于防止这种情况。在本方案中训练数据集大小为万量级,在对每轮迭代训练的观察反馈后可以逐步提高到50%的比例。
具体的,为了保留学习到的t5模型的特征,冻结浅层有助于保留更多的学习到的特征。
在一些实施例中,所述迭代训练的目的是为了对普适模型进行微调,微调主要包括全部微调和部分微调,所述全部微调指整个模型的权重都将被更新,全部微调通常使用交叉熵损失,所述交叉熵损失如下:
L = -1/N * ∑(y_real * log(y_pred))
其中,y_real为真实标签,y_pred是预测值,N是样本量。
本方案采用的微调方式为部分微调,也就是说,只有信息分析模型中的部分层(比如最顶层或者新加入的分类头)会被更新,底层权重固定不变从而防止微调时过度拟合。
微调中的“冻结”也被称为“fine-tuning with frozen weight layers”,指在微调过程中仅仅对部分层级进行参数更新,而其他层的权重保持不变,因此,被冻结的层级在反向传播的过程中不会进行梯度更新。这样做的优点是可以保留预训练模型学习到的底层特征表示,防止在微调过程中出现灾难性遗忘现象。此外,微调时间和计算资源也会显著受益于减少的权重更新范围。
在本方案的信息分析任务上,对所述普适模型进行部分微调,冻结前50%层级使模型参数更适应具体的信息分析任务。
具体的,微调的优势在于能够利用大规模数据预训练模型的通用语言表示能力,并且通过在特定任务上的微调,使模型能够适应于各种NLP任务,从而在较少的标注数据下也可以获取较好的模型表现。
具体的,本方案在进行迭代训练时使用交叉熵损失来最小化预测输出与标签之间的差异。在迭代训练过程中,根据每轮迭代训练的输出结果对所述普适模型的参数进行调优。
具体的,根据每轮迭代训练的输出来普适模型的性能进行度量,以评估其在实际任务上的效果,传统的评估指标有准确率、精确率、召回率和F1-score等,其中:
准确率(Accuracy)为预测正确(正例预测为正,负例预测为负)的例子占总数的比例。
精确率(Precision)为预测为正例并且实际也为正例的例子,占所有被预测为正例的例子的比例。
召回率(Recall)为预测为正例并且实际也为正例的例子,占所有实际为正例的例子的比例。
F1-score:为精确率和召回率的调和平均数,用以解决精确率和召回率两者的平衡问题。
而上述的评估指标适用于二元或多类别分类问题。但在数据不平衡,特别是正样本较少的情况下,会导致评估结果偏向于多数类,所以本方案用到的评估指标为AUC-ROC,G-mean。
对模型参数进行调优的方法有包括:网格搜索(Grid Search)、随机搜索(RandomSearch)、贝叶斯优化(Bayesian Optimization),其中,网格搜索是先给出各个参数可能的取值范围,然后穷举各种参数组合情况,一一比较,选出效果最好的。这是最直观的一种方法,但也是计算量最大的一种,适合于同时要调整的超参较少的情形;随机搜索相比于网格穷举所有的可能,随机搜索在超参数空间中进行随机采样,平均会得到更好的结果,并且需要更少的时间;贝叶斯优化在探索和利用之间找到一个平衡,有效地多次提供可以改善目标的参数。贝叶斯优化建立了超参数函数的概率模型,可以理解为“对函数形状的学习尝试”。这种方法的效率高,调优速度相比前两种方法更快,但相应的实现复杂度也比较高。
具体的,本方案采用贝叶斯优化来对所述信息分析模型进行调优,具体步骤如下:
1.为信息分析模型的训练目标建立一个先验假设,也就是说建立一个关于训练目标的高斯过程模型;
2.通过随机采样或者其他的启发式策略对训练目标进行一些探索性的采样以收集初始数据;
3.根据信息分析模型每轮迭代微调的输出结果更新高斯过程模型,得到关于训练目标的后验分布;
4.使用一个获取函数(例如期望改进(EI),概率改进(PI)或者置信区间上界(GP-UCB)等)来在当前后验分布中找到一个最有希望提高目标函数值的采样位置;
5.在这个新的采样点处评估目标函数,并更新后验分布。然后再次利用获取函数选择新的采样点。这个过程循环进行,直到满足一定的迭代停止条件,比如达到预设的迭代步数、时间限制或者改进量小于某个阈值;
6.在满足停止条件后,我们通常会返回具有最优目标函数值的参数设置,或者返回整个后验分布以供进一步分析。
具体的,通过为所述普适模型添加一个分类头用来在特定任务上进行微调,使信息分析模型能够更好的适应特定任务的特点。
具体的,新增的分类层为一个全连接层,其输出层单元数与任务的类别数相匹配。
具体的,分类层的原理为:
1.预训练模型的最后一层会输出每个输入样本的向量表示。这些具有丰富语义信息的特征向量作为输入传递给分类层;
2.分类层则会将这些特征向量映射到目标类别空间中。假设有C个类别,则全连接层就会输出长度为C的向量;
3.输出矢量的每个元素都经过一个激活函数处理,常用的有Softmax和Sigmoid,使每个元素值都在0到1之间,可以解读为发生某个类别的概率;
4.在训练过程中,通过最小化损失函数(如交叉熵损失),模型将学习如何基于预训练模型的特征表示来正确分类各个样本。
在本方案中,在所述普适模型中设置输出条件来控制答案的生成格式。
具体的,所述普适模型输出预测的情感类别、主题标签等结果,并且可以通过设置输出条件来对输出的答案风格进行控制,例如希望抽取的观点为整句话or缩减为几个词,也可以对指定的方面做情感分析,例如以商品、物流、商家、平台为对象进行情感分析,情感对象可能为空,表示文本中未明确给出,也可以允许模型自动猜测为空的对象。
具体的,所述普适模型的输出由事件关键字、事件内容概括以及事件情感分析等主要字段构成。
在“在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集”步骤中,基于所述数据校正模型的输出对所述微调数据集的数据分布进行调整或微调数据集的标签进行重新标注完成更新。
具体的,所述校正模型用于提供关于为何对某些预测进行调整的额外信息,从而提高模型的可解释性,增强用户对模型输出的信任,校正模型的输出可以用于重新标注数据集,创建一个自动化的反馈循环,进一步提升模型的准确性和适应性。
进一步的,本方案根据每轮迭代训练的收敛方向来对微调数据集中的数据量进行调整,使所述微调数据集中的数据量保持在一个合理的数量范围内。
具体的,本方案通过多次迭代训练来逐步提高普适模型的预测准确性和鲁棒性。
在“将更新的微调数据集再输入到普适模型进行迭代”步骤中,当达到最大迭代次数或所述普适模型的预测输出与真实标签的残差小于设定阈值时停止迭代得到信息分析模型。
实施例二
基于相同的构思,本申请还提出了一种信息分析模型,包括:
采用针对特定领域的微调数据集按照上述实施例一所示的信息分析模型的训练方法训练得到。
关于实施例二中同于实施例一的内容在此不做累赘说明。
实施例三
基于相同的构思,本申请还提出了一种信息分析方法,包括:
获取信息分析数据,将信息分析数据输入到信息分析模型中得到由事件关键字、事件内容概括以及事件情感分析字段构成的输出结果;
其中信息分析模型采用特定领域的微调数据集根据实施例一所述的信息分析模型的训练方法训练得到。
关于实施例三中同于实施例一相同的内容在此不做介绍。
实施例四
本实施例还提供了一种电子装置,参考图3,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意一种信息分析模型的训练方法及信息分析方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是信息分析数据等,输出的信息可以是信息分析结果等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执行以下步骤:
S101、获取至少一与信息分析相关的信息分析数据并标记对应的情感标签作为训练样本,将训练样本输入到预训练好的T5模型中得到第一信息分析结果;
S102、构建以transfomer架构为基础的自建模型,在所述训练样本中获取至少一信息分析数据组成信息分析集合,以信息分析集合为输入数据,以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型;
S103、构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集,冻结预训练好的普适模型的部分层级并新增分类头,将标记有情感标签的微调数据集输入到普适模型中进行迭代训练得到信息分析模型,其中在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集,并将更新的微调数据集再输入到普适模型进行迭代。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图3中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (7)
1.一种信息分析模型的训练方法,其特征在于,包括以下步骤:
获取至少一与信息分析相关的信息分析数据并标记对应的情感标签作为训练样本,将训练样本输入到预训练好的T5模型中得到第一信息分析结果;
构建以transfomer架构为基础的自建模型,所述自建模型包括两个编码器层和两个解码器层,所述自建模型的参数量小于T5模型,在所述训练样本中获取至少一信息分析数据组成信息分析集合,以信息分析集合为输入数据,以信息分析集合对应的第一信息分析结果为训练目标对所述自建模型进行训练得到普适模型,其中,当所述自建模型的输出结果与对应第一信息分析结果的相似度大于设定阈值时,完成自建模型的训练得到所述普适模型;
构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集,其中,数据校正模型用于预测标记有情感标签的微调数据集中的数据不一致性或标注错误的情况,冻结预训练好的普适模型的部分层级并新增分类头,其中,冻结的层级根据微调数据集的复杂度进行调整,所述微调数据集的复杂度越高则冻结的层级越少且优先冻结低层级的参数权重,将标记有情感标签的微调数据集输入到普适模型中进行迭代训练得到信息分析模型,其中在迭代训练过程中将普适模型输出的结果输入到数据校正模型中更新微调数据集,其中,基于所述数据校正模型的输出对所述微调数据集的数据分布进行调整或对微调数据集的标签进行重新标注完成更新,并将更新的微调数据集再输入到普适模型进行迭代。
2.根据权利要求1所述的一种信息分析模型的训练方法,其特征在于,在“构建识别数据集错误的数据校正模型并获取标记有情感标签的微调数据集”步骤中,所述数据校正模型以transformer架构为基础进行构建,并在所述数据校正模型中配置多头注意力、前馈网络和归一化层。
3.根据权利要求1所述的一种信息分析模型的训练方法,其特征在于,所述数据校正模型以带有情感标签的数据作为训练样本进行训练得到,且所述数据校正模型以交叉熵损失和预测不准确样本数量的加权和作为目标函数进行训练。
4.根据权利要求1所述的一种信息分析模型的训练方法,其特征在于,在“将更新的微调数据集再输入到普适模型进行迭代”步骤中,当达到最大迭代次数或所述普适模型的预测输出与真实标签的残差小于设定阈值时停止迭代得到信息分析模型。
5.一种信息分析方法,其特征在于,包括:
获取信息分析数据,将信息分析数据输入到信息分析模型中得到由事件关键字、事件内容概括以及事件情感分析字段构成的输出结果;
其中信息分析模型采用特定领域的微调数据集根据权利要求1到4任一项所述的信息分析模型的训练方法训练得到。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-4任一项所述的一种信息分析模型的训练方法以及权利要求5所述的一种信息分析方法。
7.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1-5任一项所述的一种信息分析模型的训练方法以及权利要求5所述的一种信息分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057458.4A CN117574981B (zh) | 2024-01-16 | 2024-01-16 | 一种信息分析模型的训练方法及信息分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410057458.4A CN117574981B (zh) | 2024-01-16 | 2024-01-16 | 一种信息分析模型的训练方法及信息分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117574981A CN117574981A (zh) | 2024-02-20 |
CN117574981B true CN117574981B (zh) | 2024-04-26 |
Family
ID=89886606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410057458.4A Active CN117574981B (zh) | 2024-01-16 | 2024-01-16 | 一种信息分析模型的训练方法及信息分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117574981B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN114781392A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 一种基于bert改进模型的文本情感分析方法 |
CN114912423A (zh) * | 2022-03-24 | 2022-08-16 | 燕山大学 | 一种基于迁移学习的方面级别情感分析方法及装置 |
WO2023108980A1 (zh) * | 2021-12-15 | 2023-06-22 | 平安科技(深圳)有限公司 | 基于文本对抗样例的信息推送方法及装置 |
CN116415170A (zh) * | 2023-03-20 | 2023-07-11 | 华南理工大学 | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 |
WO2023137889A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
CN116542290A (zh) * | 2023-06-25 | 2023-08-04 | 城云科技(中国)有限公司 | 基于多源多维数据的信息预测模型构建方法、装置及应用 |
CN117370736A (zh) * | 2023-12-08 | 2024-01-09 | 暨南大学 | 一种细粒度情感识别方法、电子设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113704388A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 多任务预训练模型的训练方法、装置、电子设备和介质 |
US20230325725A1 (en) * | 2022-04-12 | 2023-10-12 | Google Llc | Parameter Efficient Prompt Tuning for Efficient Models at Scale |
-
2024
- 2024-01-16 CN CN202410057458.4A patent/CN117574981B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100388A (zh) * | 2020-11-18 | 2020-12-18 | 南京华苏科技有限公司 | 一种长文本新闻舆情的情感极性的分析方法 |
WO2023108980A1 (zh) * | 2021-12-15 | 2023-06-22 | 平安科技(深圳)有限公司 | 基于文本对抗样例的信息推送方法及装置 |
WO2023137889A1 (zh) * | 2022-01-20 | 2023-07-27 | 北京邮电大学 | 基于嵌入增强和自适应的小样本图像增量分类方法及装置 |
CN114912423A (zh) * | 2022-03-24 | 2022-08-16 | 燕山大学 | 一种基于迁移学习的方面级别情感分析方法及装置 |
CN114757182A (zh) * | 2022-04-06 | 2022-07-15 | 西安电子科技大学 | 一种改进训练方式的bert短文本情感分析方法 |
CN114781392A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 一种基于bert改进模型的文本情感分析方法 |
CN116415170A (zh) * | 2023-03-20 | 2023-07-11 | 华南理工大学 | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 |
CN116542290A (zh) * | 2023-06-25 | 2023-08-04 | 城云科技(中国)有限公司 | 基于多源多维数据的信息预测模型构建方法、装置及应用 |
CN117370736A (zh) * | 2023-12-08 | 2024-01-09 | 暨南大学 | 一种细粒度情感识别方法、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
mT5: a massively multilingual pre-trained text-to-text transformer;Linting Xue等;arXiv;20210208;全文 * |
基于多通道卷积神经网络的中文微博情感分析;陈珂等;计算机研究与发展;20180515(第05期);全文 * |
基于预训练模型和联合调参的改进训练算法;苏海波等;中国信息化;20200220(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117574981A (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
US20140156571A1 (en) | Topic models | |
US11651014B2 (en) | Source code retrieval | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN114647741A (zh) | 工艺自动决策和推理方法、装置、计算机设备及存储介质 | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
US11874798B2 (en) | Smart dataset collection system | |
CN112966068A (zh) | 基于网页信息的简历识别方法和装置 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN117251777A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN117009518A (zh) | 融合基本属性和文本内容的相似事件判断方法及其应用 | |
CN117574981B (zh) | 一种信息分析模型的训练方法及信息分析方法 | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 | |
Wild et al. | Naïve bayes and named entity recognition for requirements mining in job postings | |
CN116991877B (zh) | 一种结构化查询语句的生成方法、装置及应用 | |
CN118132738B (zh) | 针对桥梁检评文本的抽取式问答方法 | |
CN118152591B (zh) | 一种知识图谱的构建方法、装置、设备及可读存储介质 | |
Guan et al. | Automatic Requirement Dependency Extraction Based on Integrated Active Learning Strategies | |
CN117493550A (zh) | 文本分类模型的训练方法、文本分类方法及装置 | |
Manchanda et al. | Predicting stack overflow question quality through the use of deep learning techniques | |
CN116775954A (zh) | 一种功能点提取处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |