CN116737938A - 基于微调大模型在线数据网络细粒度情感检测方法及装置 - Google Patents
基于微调大模型在线数据网络细粒度情感检测方法及装置 Download PDFInfo
- Publication number
- CN116737938A CN116737938A CN202310891342.6A CN202310891342A CN116737938A CN 116737938 A CN116737938 A CN 116737938A CN 202310891342 A CN202310891342 A CN 202310891342A CN 116737938 A CN116737938 A CN 116737938A
- Authority
- CN
- China
- Prior art keywords
- preset
- data
- large model
- input
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 76
- 238000001514 detection method Methods 0.000 title claims abstract description 51
- 239000011159 matrix material Substances 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 10
- 230000008014 freezing Effects 0.000 claims abstract description 7
- 238000007710 freezing Methods 0.000 claims abstract description 7
- 238000004891 communication Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000278713 Theora Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于微调大模型在线数据网络细粒度情感检测方法及装置,方法包括:根据待检测文本以及预设情绪提示词构建句子结构,并根据句子结构生成待输入数据;待输入数据基于标注器对句子结构转化的令牌列表得到;将待输入数据输入至训练得到的预设大模型中,经预设大模型中各神经网络层对待输入数据进行处理,得到细粒度的情感检测结果;其中,预设大模型包括预训练语言模型;预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对预设大模型进行微调。本发明充分利用预设大模型在海量数据上预训练的语境理解能力,避免短文本评论中只提供有限的语境信息,通过微调极少量参数即可精准检测文本所表述的情感。
Description
技术领域
本发明实施例涉及人工智能技术领域,具体涉及一种基于微调大模型在线数据网络细粒度情感检测方法及装置。
背景技术
互联网的高速发展加快了信息在虚拟世界的流动,社交网络成为当前网络中人与人交流、分享的一大重要媒介。尽管图片和音频也逐渐成为呈现信息内容的主要方式,但文字仍然是最能直接或间接反应用户情绪和意见的传播形式,如用户评论、留言、转发等。通过对文字内容分析,可以快速分析社交媒体中热点新闻事件的舆情发展趋势,从而及时采取适当的应对措施。
现有大多情感分析只是简单对目标文本进行积极或消极的划分,属于粗粒度分析,但是人类的情感具有丰富的维度层次性,比如愉快、愤怒、害怕、厌恶等,因此进行细粒度的情感检测能够更加准确的在社交网站中感知用户的情感倾向和情感变化。目前的细粒度情感检测主要是基于情感词典或者深度学习方法,但这些检测方法受限于训练数据且模式单一,模型只能在目前已有的少量数据上进行训练,无法较好地利用句子级甚至文档级的高阶交互信息进行训练。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于微调大模型在线数据网络细粒度情感检测方法及装置。
根据本发明实施例的一个方面,提供了一种基于微调大模型在线数据网络细粒度情感检测方法,其包括:
根据待检测文本以及预设情绪提示词构建句子结构,并根据句子结构生成待输入数据;待输入数据基于标注器对句子结构转化的令牌列表得到;
将待输入数据输入至训练得到的预设大模型中,经预设大模型中各神经网络层对待输入数据进行处理,得到细粒度的情感检测结果;其中,预设大模型包括预训练语言模型;预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对预设大模型进行微调。
根据本发明实施例的另一方面,提供了一种基于微调大模型在线数据网络细粒度情感检测装置,装置包括:
构建模块,适于根据待检测文本以及预设情绪提示词构建句子结构,并根据句子结构生成待输入数据;待输入数据基于标注器对句子结构转化的令牌列表得到;
检测模块,适于将待输入数据输入至训练得到的预设大模型中,经预设大模型中各神经网络层对待输入数据进行检测,得到细粒度的情感检测结果;其中,预设大模型包括预训练语言模型;预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对预设大模型进行微调。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于微调大模型在线数据网络细粒度情感检测方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于微调大模型在线数据网络细粒度情感检测方法对应的操作。
根据本发明实施例的提供的基于微调大模型在线数据网络细粒度情感检测方法及装置,充分利用预设大模型在海量数据上预训练的语境理解能力,避免短文本评论中只提供有限的语境信息,通过微调极少量参数即可精准检测文本所表述的情感。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于微调大模型在线数据网络细粒度情感检测方法的流程图;
图2示出了GLM模型示意图;
图3示出了根据本发明一个实施例的基于微调大模型在线数据网络细粒度情感检测装置的结构示意图;
图4示出了根据本发明一个实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于微调大模型在线数据网络细粒度情感检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,根据待检测文本以及预设情绪提示词构建句子结构,并根据句子结构生成待输入数据;待输入数据基于标注器对句子结构转化的令牌列表得到。
现有的检测方法无法应对瞬息万变的互联网环境,缺乏较强的泛化性。本实施例利用大语言模型在线对社交网络进行细粒度情感检测,可以对有限的短文本进行精准检测。在线社交网络中大量的评论内容一般多为短文本,本实施例将短文本(即待检测文本)与预设情绪提示词一起组成句子结构,根据句子结构来预测对应的细粒度情感。具体的,如待检测文本为“我爱你,祖国!”,在其后拼接预设情绪提示词,如“从厌恶、害怕、惊讶、愉快、愤怒、难过、无情绪这七种情绪中给出这句话的情绪是什么?”构建得到句子结构。由于深度神经网络对输入数据的长度有限制,为方便输入预设大模型进行检测,可以利用标注器Tokenizer将句子结构转化为令牌token列表,根据令牌列表生成对应的待输入数据。令牌token是一种数字化的表示形式,每个token都与一个唯一的数字ID相关联,根据ID可以区分不同的token,如"我"、"爱"、"你"等词,每个词对应一个唯一的数字ID,即每个词对应一个token。预设大模型会查找每个token对应ID,利用ID来表示对应的待输入数据。句子结构和token之间的映射可以通过预设的词汇表进行映射,标注器Tokenizer将句子结构转换为离散的词汇或者字词对应的token列表,可以方便预设大模型更好地处理不同长度和复杂性的文本,使得待输入数据更加具有规范性,进而提高检测效率。
步骤S102,将待输入数据输入至训练得到的预设大模型中,经预设大模型中各神经网络层对待输入数据进行处理,得到细粒度的情感检测结果。
预设大模型包括预训练语言模型,预训练语言模型包括如GLM-6B模型(以下简称GLM模型)。GLM采用单个Transformer块堆叠而成,原始的Transformer进行修改,调整层归一化和残差连接的顺序,以避免数值误差,使用单一的线性层对输出token令牌进行预测,将传统的激活函数ReLU替换为GeLUs。对于预设大模型GLM模型,先获取样本数据,输入至预设大模型进行训练,基于训练得到的GLM模型对在线社交网络的文本进行细粒度情感检测。
训练过程包括:获取样本数据,将待检测样本文本后添加预设情绪提示词构建样本句子结构,可以将样本标签(即情绪标签)作为句子答语,组成样本数据,如“待检测样本文本”+“预设情绪提示词”->“样本标签”,每一条数据表示为{“context”:输入文本,“target”:样本标签}的形式。为方便预设大模型更好处理样本数据,可以利用标注器Tokenizer将样本句子结构转化为样本令牌token列表,将样本令牌列表与对应的样本标签组成样本数据。待检测样本文本被转换为“prompt_ids”,样本标签被转换为“target_ids”,在每条数据最后添加“eos_token_id”结尾标识,即样本数据转换为“input_ids=prompt_ids+target_ids+eos_token_id”。为每条样本数据返回一个形如{“input_ids”:input_ids,“seq_len”:len(prompt_ids)}的字典,方便后续供预设大模型处理。
对于自回归语言模型,细粒度情感检测时,为每个token都对应的预测出一个标签label,但并非所有位置都需要被预测,最后一个词汇具有更大的情感或者语义重要性,因此,本实施例根据句子结构,将最后一个词汇所在位置设置为真实词汇的token_id,便于对其进行预测,也确保预设大模型在分类时更关注句子结尾词汇,更好地捕捉句子的情感或者意义,对于其他位置,非句子结尾的样本令牌设置为预设填充值,如“-100”。除此之外,获取样本数据的各个样本令牌token列表的长度,确定最长令牌列表长度,当样本数据中token列表的长度低于该批次样本数据的最长令牌列表长度时,将低于最长令牌列表长度的各样本令牌更新为预设填充值;如“-100”。预设填充值对应的预测结果可以被忽视,不贡献损失,使预设大模型专注于理解并关注句子结尾词汇的重要信息,加快训练速度。样本数据处理为形如{“input_ids”:input_ids,“labels”:labels}的字典形式输入至预设大模型中进行训练,得到训练后的预设大模型,如GLM模型。
进一步,对于样本数据不平衡等问题,可以采取如过采样、欠采样、数据清洗等方式进行预处理,此处不做展开说明。
GLM模型在对输入数据处理时,将非线性规划分类任务重新表述为空白填充的生成任务,遵循PET(Pattern-Exploiting Training)。如对于一个有样本标签的样本数据(x,y),通过添加单个掩码标记的模式将输入数据x转换为完形填空问题c(x)。细粒度情感检测任务可以表述为“{句子}[掩码标记]”的形式。对于输入数据x,预测得到标签y的条件概率为:
其中,候选标记y’∈Y,即映射到完形填空问题的答案,为语言表达v(y),Y为输出的细粒度情感标签集。在得到条件概率后,基于交叉熵损失可以微调GLM,使模型更加适配细粒度情感检测。
将待输入数据输入至训练得到的GLM模型后,在Word Embedding层可以为待输入数据,如“我爱你,祖国”添加多维位置编码,如图2所示,添加2DPositional Encoding,即添加2维位置编码,在相加后将其嵌入为4096维的向量,送入多个堆叠的GLMBlock层,在层间添加Add残差连接提升模型的泛化能力,由GLMBlock层以及层间添加的残差连接进行处理,最后一层的GLMBlock输出中间结果,将得到的中间结果由Linear层进行线性变换后,再输入给归一化函数softmax,softmax函数处理如下:
是对输入的/>的归一化处理结果,m∈d,/>为第m个输入。
GLM模型的激活函数为GeLUs,根据该激活函数的结果获得每个位置的标签概率,将这些结果进行后处理,返回GLM模型预测输出的细粒度情绪检测结果,如图2所示的加粗字体的喜欢为细粒度情绪检测结果。
进一步,GLMBlock层如图2所示,由Layer Normalization(对应输入层归一化)、Self-Attention(自注意力层)、Layer Normalization(对应注意力层归一化)和Feed-Forward(前馈层)构成,前馈层将注意力层归一化的输出特征放大到原来的四倍,然后再缩小回4096维,最终输出给Linear层。其中,每个自注意力层由Rotary Embedding(压缩旋转嵌入)、Query-Key-Value(QKV映射)和Dense Layer(密集层)组成。GLM模型中存在大量的高阶矩阵运算(如QKV映射、密集层、前馈层等各层),这些层中的权重矩阵通常具有满秩特征,采用低秩分解为GLM大模型的部分参数学习新的低秩矩阵,从而显著降低微调代价。具体的,可以将预设大模型GLM模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对预设大模型进行微调。针对预设大模型中各神经网络层包含的高阶权重矩阵W,以图2中QKV映射层进行微调为例,将高阶权重矩阵W进行冻结。其中,W∈Rd×k;初始化预设低秩矩阵,得到随机高斯分布初始化的第一低秩矩阵A及0初始化的第二低秩矩阵B。B=0其中,B∈Rd×r,A∈Rr×k,r<<min(d,k);将高阶权重矩阵与预设低秩矩阵相加,更新预设大模型中的参数,以便对预设大模型进行微调。如高阶权重矩阵W∈Rd×k,在微调阶段其更新可以被表示为W+△W,将矩阵的更新部分△W低秩分解为△W=BA,其中B∈Rd×r,A∈Rr×k,且秩r<<min(d,k)。计算量由d×r降低为r×(d+r)。微调可以采用LoRA模型,将LoRA模型的参数注入到GLM的对应层中,将学习到的低秩矩阵A和B与被冻结的高阶权重矩阵W相加,从而更新模型参数,以改变大模型的生成风格适应情绪检测。
根据本发明实施例提供的基于微调大模型在线数据网络细粒度情感检测方法,充分利用预设大模型在海量数据上预训练的语境理解能力,避免短文本评论中只提供有限的语境信息,通过微调、低秩分解可以大幅减少训练参数,使预设大模型在具备短文本语境理解能力的同时,利用少量训练即可精准检测文本所表述的情感。
图3示出了本发明实施例提供的基于微调大模型在线数据网络细粒度情感检测装置的结构示意图。如图3所示,该装置包括:
构建模块310,适于根据待检测文本以及预设情绪提示词构建句子结构,并根据句子结构生成待输入数据;待输入数据基于标注器对句子结构转化的令牌列表得到;
检测模块320,适于将待输入数据输入至训练得到的预设大模型中,经预设大模型中各神经网络层对待输入数据进行检测,得到细粒度的情感检测结果;其中,预设大模型包括预训练语言模型;预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对预设大模型进行微调。
可选地,装置还包括:训练模块330,适于获取样本数据,输入至预设大模型进行训练,得到训练后的预设大模型。
可选地,训练模块330进一步适于:
在待检测样本文本后添加预设情绪提示词构建样本句子结构,并利用标注器将样本句子结构转化为样本令牌列表;
将样本令牌列表与对应的样本标签组成样本数据。
可选地,训练模块330进一步适于:
获取各个样本令牌列表的长度,确定最长令牌列表长度,将低于最长令牌列表长度的各样本令牌更新为预设填充值;或者,根据句子结构,确定非句子结尾的样本令牌更新为预设填充值;
将样本令牌列表与样本标签组成样本数据。
可选地,构建模块310进一步适于:
在待检测文本后添加预设情绪提示词构建句子结构,并利用标注器将句子结构转化为令牌列表,以根据令牌列表生成待输入数据。
可选地,预训练语言模型包括GLM-6B模型;
检测模块320进一步适于:
将待输入数据输入至训练得到的GLM-6B模型中,为待输入数据添加多维位置编码,由多个GLMBlock层以及层间添加的残差连接进行处理,将中间结果由Linear层进行线性变换后,输入给归一化函数,输出对应的细粒度的情感检测结果。
可选地,装置还包括:微调模块340,适于针对预设大模型中各神经网络层包含的高阶权重矩阵W,将高阶权重矩阵W进行冻结;其中,W∈Rd×k;初始化预设低秩矩阵,得到随机高斯分布初始化的第一低秩矩阵A及0初始化的第二低秩矩阵B;其中,B∈Rd×r,A∈Rr×k,r<<min(d,k);将高阶权重矩阵与预设低秩矩阵相加,更新预设大模型中的参数,以便对预设大模型进行微调。
以上各模块的描述参照方法实施例中对应的描述,在此不再赘述。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,可执行指令可执行上述任意方法实施例中的基于微调大模型在线数据网络细粒度情感检测方法。
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明实施例的具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述基于微调大模型在线数据网络细粒度情感检测方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行上述任意方法实施例中的基于微调大模型在线数据网络细粒度情感检测方法。程序410中各步骤的具体实现可以参见上述基于微调大模型在线数据网络细粒度情感检测实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的较佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (10)
1.一种基于微调大模型在线数据网络细粒度情感检测方法,其特征在于,方法包括:
根据待检测文本以及预设情绪提示词构建句子结构,并根据所述句子结构生成待输入数据;所述待输入数据基于标注器对所述句子结构转化的令牌列表得到;
将所述待输入数据输入至训练得到的预设大模型中,经所述预设大模型中各神经网络层对所述待输入数据进行处理,得到细粒度的情感检测结果;其中,所述预设大模型包括预训练语言模型;所述预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对所述预设大模型进行微调。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本数据,输入至所述预设大模型进行训练,得到训练后的预设大模型。
3.根据权利要求2所述的方法,其特征在于,所述获取样本数据进一步包括:
在待检测样本文本后添加预设情绪提示词构建样本句子结构,并利用标注器将所述样本句子结构转化为样本令牌列表;
将所述样本令牌列表与对应的样本标签组成样本数据。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本令牌列表与对应的样本标签组成样本数据进一步包括:
获取各个样本令牌列表的长度,确定最长令牌列表长度,将低于最长令牌列表长度的各样本令牌更新为预设填充值;或者,根据句子结构,确定非句子结尾的样本令牌更新为预设填充值;
将所述样本令牌列表与样本标签组成样本数据。
5.根据权利要求1所述的方法,其中,所述根据待检测文本以及预设情绪提示词构建句子结构,并根据所述句子结构生成待输入数据进一步包括:
在待检测文本后添加预设情绪提示词构建句子结构,并利用标注器将所述句子结构转化为令牌列表,以根据所述令牌列表生成待输入数据。
6.根据权利要求1所述的方法,其特征在于,所述预训练语言模型包括GLM-6B模型;
所述将所述待输入数据输入至训练得到的预设大模型中,经所述预设大模型中各神经网络层对所述待输入数据进行检测,得到细粒度的情感检测结果进一步包括:
将所述待输入数据输入至训练得到的GLM-6B模型中,为所述待输入数据添加多维位置编码,由多个GLMBlock层以及层间添加的残差连接进行处理,将中间结果由Linear层进行线性变换后,输入给归一化函数,输出对应的细粒度的情感检测结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述预设大模型中各神经网络层包含的高阶权重矩阵W,将所述高阶权重矩阵W进行冻结;其中,W∈Rd×k;
初始化预设低秩矩阵,得到随机高斯分布初始化的第一低秩矩阵A及0初始化的第二低秩矩阵B;其中,B∈Rd×r,A∈Rr×k,r<<min(d,k);
将所述高阶权重矩阵与预设低秩矩阵相加,更新所述预设大模型中的参数,以便对所述预设大模型进行微调。
8.一种基于微调大模型在线数据网络细粒度情感检测装置,其特征在于,装置包括:
构建模块,适于根据待检测文本以及预设情绪提示词构建句子结构,并根据所述句子结构生成待输入数据;所述待输入数据基于标注器对所述句子结构转化的令牌列表得到;
检测模块,适于将所述待输入数据输入至训练得到的预设大模型中,经所述预设大模型中各神经网络层对所述待输入数据进行检测,得到细粒度的情感检测结果;其中,所述预设大模型包括预训练语言模型;所述预设大模型中各神经网络层包含的高阶权重矩阵在冻结后与预设低秩矩阵相加,以便对所述预设大模型进行微调。
9.一种计算设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于微调大模型在线数据网络细粒度情感检测方法对应的操作。
10.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于微调大模型在线数据网络细粒度情感检测方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891342.6A CN116737938A (zh) | 2023-07-19 | 2023-07-19 | 基于微调大模型在线数据网络细粒度情感检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310891342.6A CN116737938A (zh) | 2023-07-19 | 2023-07-19 | 基于微调大模型在线数据网络细粒度情感检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116737938A true CN116737938A (zh) | 2023-09-12 |
Family
ID=87913553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310891342.6A Pending CN116737938A (zh) | 2023-07-19 | 2023-07-19 | 基于微调大模型在线数据网络细粒度情感检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116737938A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216193A (zh) * | 2023-09-26 | 2023-12-12 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
CN117436457A (zh) * | 2023-11-01 | 2024-01-23 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
CN117497140A (zh) * | 2023-10-09 | 2024-02-02 | 合肥工业大学 | 一种基于细粒度提示学习的多层次抑郁状态检测方法 |
CN117523177A (zh) * | 2023-11-09 | 2024-02-06 | 北京航天拓扑高科技有限责任公司 | 一种基于人工智能混合大模型的燃气管道监测系统和方法 |
CN117609470A (zh) * | 2023-12-08 | 2024-02-27 | 中科南京信息高铁研究院 | 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 |
CN117497140B (zh) * | 2023-10-09 | 2024-05-31 | 合肥工业大学 | 一种基于细粒度提示学习的多层次抑郁状态检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347787A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
KR20220155889A (ko) * | 2021-05-17 | 2022-11-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN116127060A (zh) * | 2022-10-19 | 2023-05-16 | 上海金仕达软件科技有限公司 | 一种基于提示词的文本分类方法及系统 |
-
2023
- 2023-07-19 CN CN202310891342.6A patent/CN116737938A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347787A (zh) * | 2020-11-06 | 2021-02-09 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
WO2022095376A1 (zh) * | 2020-11-06 | 2022-05-12 | 平安科技(深圳)有限公司 | 方面级别情感分类方法、装置、设备及可读存储介质 |
KR20220155889A (ko) * | 2021-05-17 | 2022-11-24 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN113468877A (zh) * | 2021-07-09 | 2021-10-01 | 浙江大学 | 语言模型的微调方法、装置、计算设备和存储介质 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN116127060A (zh) * | 2022-10-19 | 2023-05-16 | 上海金仕达软件科技有限公司 | 一种基于提示词的文本分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
乌达巴拉;汪增福;: "一种基于组合语义的文本情绪分析模型", 自动化学报, no. 12, pages 2130 - 2131 * |
小虎AI珏爷: "论文阅读:LORA-大型语言模型的低秩适应", pages 2 - 7, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/611557340> * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117216193A (zh) * | 2023-09-26 | 2023-12-12 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
CN117216193B (zh) * | 2023-09-26 | 2024-02-27 | 人民网股份有限公司 | 基于大语言模型的可控文本生成方法及装置 |
CN117497140A (zh) * | 2023-10-09 | 2024-02-02 | 合肥工业大学 | 一种基于细粒度提示学习的多层次抑郁状态检测方法 |
CN117497140B (zh) * | 2023-10-09 | 2024-05-31 | 合肥工业大学 | 一种基于细粒度提示学习的多层次抑郁状态检测方法 |
CN117436457A (zh) * | 2023-11-01 | 2024-01-23 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
CN117436457B (zh) * | 2023-11-01 | 2024-05-03 | 人民网股份有限公司 | 反讽识别方法、装置、计算设备及存储介质 |
CN117523177A (zh) * | 2023-11-09 | 2024-02-06 | 北京航天拓扑高科技有限责任公司 | 一种基于人工智能混合大模型的燃气管道监测系统和方法 |
CN117609470A (zh) * | 2023-12-08 | 2024-02-27 | 中科南京信息高铁研究院 | 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10380236B1 (en) | Machine learning system for annotating unstructured text | |
CN116737938A (zh) | 基于微调大模型在线数据网络细粒度情感检测方法及装置 | |
EP3707622A1 (en) | Generation of text from structured data | |
US11010664B2 (en) | Augmenting neural networks with hierarchical external memory | |
CN111061862A (zh) | 一种基于注意力机制生成摘要的方法 | |
CN112800757B (zh) | 关键词生成方法、装置、设备及介质 | |
CN110069611B (zh) | 一种主题增强的聊天机器人回复生成方法及装置 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
Cao et al. | Vision-enhanced and consensus-aware transformer for image captioning | |
Mohamad Nezami et al. | Face-cap: Image captioning using facial expression analysis | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
CN116956835B (zh) | 一种基于预训练语言模型的文书生成方法 | |
CN112347787A (zh) | 方面级别情感分类方法、装置、设备及可读存储介质 | |
CN112667780A (zh) | 一种评论信息的生成方法、装置、电子设备及存储介质 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115994224A (zh) | 基于预训练语言模型的钓鱼url检测方法及系统 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
Zhuang et al. | An ensemble approach to conversation generation | |
Tibebu et al. | Text to image synthesis using stacked conditional variational autoencoders and conditional generative adversarial networks | |
CN117370736A (zh) | 一种细粒度情感识别方法、电子设备及存储介质 | |
CN117349402A (zh) | 一种基于机器阅读理解的情绪原因对识别方法及系统 | |
CN116680387A (zh) | 基于检索增强的对话答复方法、装置、设备及存储介质 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |