CN116956116A - 文本的处理方法和装置、存储介质及电子设备 - Google Patents
文本的处理方法和装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116956116A CN116956116A CN202310668974.6A CN202310668974A CN116956116A CN 116956116 A CN116956116 A CN 116956116A CN 202310668974 A CN202310668974 A CN 202310668974A CN 116956116 A CN116956116 A CN 116956116A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- sample
- prediction
- confidence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000003672 processing method Methods 0.000 title abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims description 42
- 230000008451 emotion Effects 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 29
- 238000012512 characterization method Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 abstract description 16
- 238000010586 diagram Methods 0.000 description 18
- 238000009826 distribution Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 14
- 238000012360 testing method Methods 0.000 description 13
- 238000010276 construction Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 7
- 230000010354 integration Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000003064 k means clustering Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012353 t test Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:获取待确定分类结果的初始文本和预先确定的样本文本集合,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度的不一致参数,利用目标展示文本和目标置信度模型生成目标提示模板,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度。本申请解决了相关技术中文本分类准确率较低的技术问题。
Description
技术领域
本申请涉及计算机领域,具体而言,涉及一种文本的处理方法和装置、存储介质及电子设备。
背景技术
近年来,伴随工业界积累的高质量数据增长,算力资源的增长以及大型模型架构和训练技术的发展,大语言模型例如GPT3等被广泛应用。相比于传统的“小模型”,大模型具有显著高的模型参数量,计算量和存储量,也因此具备更强的表达能力和数据拟合能力,从而大大提高了神经网络模型在各种业务中的性能天花板,甚至在很多任务上大大超过了人类专家水平。以GPT3为代表的大模型最强大的能力便是能够在无需调整原始模型参数条件下,通过情景学习(In-context Learning)进行小样本学习,因此情景学习使得大模型能够快速地迁移到各种下游任务,下游的开发者能够借助大模型的这种能力快速地构建新的应用。
因为大模型的推理过程需要占用大量的计算和存储资源,对于大部分个人或者企业用户来说,运行这样的模型可能是非常昂贵的,其次由于大模型训练本身的困难,训练出来的大模型参数属于宝贵财富因此不能对外公开。基于这些原因,现有的大模型通常通过云计算API接口的形式向用户提供相应的服务。这种黑盒的设定为用户提供便利的同时,也存在一些局限。假设开发者A基于大语言模型构建下游应用,开发者将原始输入样本输入大语言模型的API接口,大语言模型返回对应的分类结果。在上述流程中,大语言模型虽然返回了分类结果,但是缺乏该模型关于预测结果的置信度,导致下游任务无法判断决策结果的可靠性,进而导致文本的分类准确率难以保证。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本的处理方法和装置、存储介质及电子设备,以至少解决相关技术中文本分类准确率较低的技术问题。
根据本申请实施例的一个方面,提供了一种文本的处理方法,包括:获取待确定分类结果的初始文本和预先确定的样本文本集合;通过目标置信度模型从所述样本文本集合中确定出目标展示文本,其中,所述样本文本集合中的样本文本用于通过所述目标置信度模型生成样本预测结果,所述样本预测结果用于确定相对应的所述样本文本关联的不一致参数,所述不一致参数用于表示通过所述目标置信度模型对同一所述样本文本进行多轮预测产生的多个所述样本预测结果的不一致程度,所述不一致参数满足预设条件的所述样本文本被确定为所述目标展示文本;利用所述目标展示文本和所述目标置信度模型生成目标提示模板,其中,所述目标提示模板包括所述目标展示文本、所述目标展示文本对应的展示文本分类结果以及与所述展示文本分类结果对应的展示文本分类置信度;将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度。
根据本申请实施例的另一方面,还提供了一种文本的处理装置,包括:获取模块,用于获取待确定分类结果的初始文本和预先确定的样本文本集合;确定模块,用于通过目标置信度模型从所述样本文本集合中确定出目标展示文本,其中,所述样本文本集合中的样本文本用于通过所述目标置信度模型生成样本预测结果,所述样本预测结果用于确定相对应的所述样本文本关联的不一致参数,所述不一致参数用于表示通过所述目标置信度模型对同一所述样本文本进行多轮预测产生的多个所述样本预测结果的不一致程度,所述不一致参数满足预设条件的所述样本文本被确定为所述目标展示文本;生成模块,用于利用所述目标展示文本和所述目标置信度模型生成目标提示模板,其中,所述目标提示模板包括所述目标展示文本、所述目标展示文本对应的展示文本分类结果以及与所述展示文本分类结果对应的展示文本分类置信度;处理模块,用于将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度。
可选地,所述装置用于通过如下方式通过目标置信度模型从所述样本文本集合中确定出目标展示文本:通过如下方式将所述样本文本集合中的样本文本输入所述目标置信度模型,确定所述样本预测结果,其中,每次输入所述目标置信度模型的样本文本视为目标样本文本:将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果,其中,所述L个样本预测结果包括L个预测标签,所述目标置信度模型在每轮预测过程中,通过调整所述目标置信度模型的参数完成所述L轮预测,L为大于1的正整数;对所述L个样本预测结果进行去重操作,得到K个样本预测结果,其中,所述去重操作用于删除所述L个预测标签中重复的预测标签,K为大于1且小于或等于L的正整数;根据所述L个预测结果和所述K个预测结果确定目标不一致参数;在所述目标不一致参数满足所述预设条件的情况下,将所述目标样本文本确定为所述目标展示文本。
可选地,所述装置用于通过如下至少之一方式通过调整所述目标置信度模型的参数完成所述L轮预测:通过调整所述目标置信度模型的温度参数,完成所述L轮预测,其中,所述温度参数用于控制所述样本预测结果的多样性和随机性;通过调整所述目标置信度模型的候选列表参数,完成所述L轮预测,其中,所述候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入所述候选列表,并从所述候选列表中确定所述预测标签;通过调整所述目标置信度模型的排序选择参数,完成所述L轮预测,其中,所述排序参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入所述候选列表,并从所述候选列表中确定所述预测标签。
可选地,所述装置用于通过如下方式将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果:将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到所述L个预测标签以及与所述L个预测标签对应的L个样本置信度;分别对所述L个预测标签和所述L个样本置信度分别进行集成运算,得到目标预测标签和目标样本置信度,其中,所述展示文本分类结果包括所述目标预测标签,所述展示文本分类置信度包括所述目标样本置信度。
可选地,所述装置用于通过如下方式利用所述目标展示文本和所述目标置信度模型生成目标提示模板:在所述目标展示文本包括多个的情况下,获取多个所述目标展示文本对应的所述目标预测标签和所述目标样本置信度;根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板。
可选地,所述装置用于通过如下方式根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板:将多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度分别基于对应关系配置为多个展示样本;对所述多个展示样本进行拼接操作,得到第一模板结构,并将所述目标置信度模型确定为第二模板结构;根据所述第一模板结构和所述第二模板结构生成所述目标提示模板。
可选地,所述装置用于通过如下方式通过目标置信度模型从所述样本文本集合中确定出目标展示文本:对所述样本文本集合中的样本文本分别进行解码操作,得到表征向量集合,其中,所述表征向量集合中的一个表征向量与一个所述样本文本对应,所述表征向量包括相对应的所述样本文本的语义信息;对所述表征向量集合执行聚类操作,确定多组样本文本,其中,每组样本文本用于表示所述表征向量之间的相似度满足预设相似条件的多个样本文本;将所述每组样本文本中所述不一致参数满足所述预设条件的所述样本文本确定为所述目标展示文本。
可选地,所述装置用于通过如下方式获取待确定分类结果的初始文本和预先确定的样本文本集合:获取待确定情绪分类结果的所述初始文本和预先确定的所述样本文本集合;所述装置用于通过如下方式将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度:将所述初始文本与所述目标提示模板共同输入所述目标语言模型,得到所述初始文本的多个情绪分类结果以及分别与各个所述情绪分类结果对应的预测置信度;将所述多个预测置信度中取值最大的所述预测置信度确定为所述目标置信度,并将所述目标置信度对应的情绪分类结果确定为所述目标分类结果。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本的处理方法。
根据本申请实施例的又一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上文本的处理方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的文本的处理方法。
在本申请实施例中,采用获取待确定分类结果的初始文本和预先确定的样本文本集合,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本,利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度的方式,通过利用置信度模型进行多轮预测,以得到不一致程度满足预设条件的展示文本,并基于该展示文本生成提示模板,最后将该提示模板和初始文本输入大语言模型,得到最终的分类结果和置信度,达到了优化展示文本的不一致性的目的,从而实现了提高展示文本的随机性和多样性,提升置信度估计的准确性以及文本分类准确率的技术效果,进而解决了相关技术中文本分类准确率较低的技术问题。
此外,由于本申请针对不同的真实应用场景分别设计了相应的带不确定性信息的提示模板构造方案,能够实现更加稳定以及准确的置信度估计,提升了基于黑盒大模型推理系统的可靠性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的文本的处理方法的应用环境的示意图;
图2是根据本申请实施例的一种可选的文本的处理方法的流程示意图;
图3是根据本申请实施例的一种可选的文本的处理方法的示意图;
图4是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图5是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图6是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图7是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图8是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图9是根据本申请实施例的又一种可选的文本的处理方法的示意图;
图10是根据本申请实施例的一种可选的文本的处理装置的结构示意图;
图11是根据本申请实施例的一种可选的文本的分类产品的结构示意图;
图12是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或者术语适用于如下解释:
大语言模型,是指包含数千亿(或更多)参数的语言模型。
下面结合实施例对本申请进行说明:
根据本申请实施例的一个方面,提供了一种文本的处理方法,可选地,在本实施例中,上述文本的处理方法可以应用于如图1所示的由服务器101和终端设备103所构成的硬件环境中。如图1所示,服务器101通过网络与终端103进行连接,可用于为终端设备或终端设备上安装的应用程序提供服务,应用程序可以是视频应用程序、即时通信应用程序、浏览器应用程序、教育应用程序、游戏应用程序等。可在服务器上或独立于服务器设置数据库105,用于为服务器101提供数据存储服务,例如,游戏数据存储服务器,上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络,终端设备103可以是配置有应用程序的终端,可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices,移动互联网设备)、PAD、台式电脑、智能电视、智能语音交互设备、智能家电、车载终端、飞行器、虚拟现实(Virtual Reality,简称VR)终端、增强现实(Augmented Reality,简称AR)终端、混合现实(Mixed Reality,简称MR)终端等计算机设备,上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。
结合图1所示,上述文本的处理方法可以在终端设备103通过如下步骤实现:
S1,在终端设备103上获取待确定分类结果的初始文本和预先确定的样本文本集合;
S2,在终端设备103上通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本;
S3,在终端设备103上利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度;
S4,在终端设备103上将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度。
可选地,在本实施例中,上述文本的处理方法还可以通过服务器实现,例如,图1所示的服务器101中实现;或由终端设备和服务器共同实现。
上述仅是一种示例,本实施例不做具体的限定。
可选地,作为一种可选的实施方式,如图2所示,上述文本的处理方法包括:
S202,获取待确定分类结果的初始文本和预先确定的样本文本集合;
可选地,在本实施例中,上述文本的处理方法可以应用于包括但不限于涉及使用大语言模型的场景,例如,对话机器人、简历评估系统、情感分析以及文本有毒性评估等等需要利用语言模型进行推理的应用场景。
需要说明的是,上述初始文本可以理解为需要进行分类的文本,该初始文本可以是视频中识别到的文本,也可以是文本文件中提取到的文本,还可以是由文本输入工具直接输入的文本。
可选地,在本实施例中,上述样本文本集合可以包括但不限于预先标注了样本标签的样本文本所组成的文本集合,或者,未标注样本标签的样本文本所组成的文本集合。
需要说明的是,如果是预先标注了样本标签的样本文本,则样本标签包括样本文本的分类结果和置信度,如果是未标注样本标签的样本文本,则可以通过输入目标置信度模型确定样本文本的分类结果和置信度。
在一个示例性的实施例中,上述样本标签可以包括但不限于为多个,每个样本标签对应一种分类结果,每个样本标签分别存在对应的置信度。
S204,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本;
可选地,在本实施例中,上述目标置信度模型可以包括但不限于网上开源的任意分类模型。其中,可以根据不同的任务需求,选择最贴近应用场景的分类模型。
示例性地,以上述分类任务包括情感分类为例,则上述目标置信度模型即可以是任意开源的情感分类模型,以上述分类任务包括物体类别分类为例,则上述目标置信度模型即可以是任意开源的物体类别分类模型。
在一个示例性的实施例中,以上述分类任务包括情感分类为例,则上述目标置信度模型可以包括但不限于CNN(文本卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆网络)等结构设计的开源神经网络模型,以根据输入的文本信息,输出该文本信息的情感分类结果以及与分类结果对应的置信度。
可选地,在本实施例中,上述不一致参数可以理解为用于指示预测结果的不确定性的参数,该不确定性可以理解为通过上述目标置信度模型对同一个样本文本进行多轮预测产生了不同的预测结果,而不同的预测结果可以计算出不一致参数,以表示出上述不一致程度。
示例性地,包括但不限于如下步骤确定上述不一致参数:
S1,通过模型S(对应于前述的目标置信度模型)的解码层获得给定样本xi的嵌入表达hi,该表达包含样本的语义信息;
S2,通过调整参数(例如温度参数),对给定样本xi进行L次预测,预测其标签以及概率分布/>在情感分类中,每一个c均为2维向量;
S3,通过预测结果的不一致性计算该样本的不确定性,具体做法如下:
S3-1,构造集合
S3-2,通过对集合A进行去重,并统计去重过后的答案数目L′;
S3-3,计算该问题的回答不一致程度(对应于前述的不一致参数);
S3-4,基于该指标即可反应问题难度:指标越大,大模型在面对该问题产生的分歧越大,从而问题越难。
需要说明的是,对多个给定样本xi分别执行上述L次预测,最终,将上述U(xi)取值最大的给定样本xi可以确定为上述目标展示文本,以输入提示模板,用于和初始文本共同输入大语言模型,最终确定初始文本的分类结果和置信度。
在一个示例性的实施例中,图3是根据本申请实施例的一种可选的文本的处理方法的示意图,如图3所示,包括但不限于如下步骤:
S1,获取样本文本集合,包括样本文本x1(great piece of)以及样本文本x2(thequirky),分别将上述样本文本1、2输入目标置信度模型,得到表征向量h1以及表征向量h2,如图3所示步骤S302;
S2,对表征向量h1先进行第一轮预测,得到预测结果以及对应的预测概率分布并对表征向量h2先进行第一轮预测,得到预测结果/>以及对应的预测概率分布/>如图3所示步骤S304;
S3,调整上述目标置信度模型的参数,再对表征向量h1进行第二轮预测,得到预测结果以及对应的预测概率分布/>并再对表征向量h2进行第二轮预测,得到预测结果/>以及对应的预测概率分布/>如图3所示步骤S306;
S4,再次调整上述目标置信度模型的参数,不断进行L轮预测,直到得到预测结果以及/>如图3所示步骤S306;
S5,构造集合A1和A2,其中,A1包括:A2包括:/>如图3所示步骤S308;
S6,分别对集合A1和A2进行去重,并统计去重过后确定的答案数目L1′和L2′,如图3所示步骤S310;
S7,计算样本文本x1对应的不一致参数以及样本文本x2对应的不一致参数/>如图3所示步骤S312;
S8,通过比较不一致参数,将取值较大的不一致参数对应的样本文本确定为目标展示文本,如图3所示步骤S312。
需要说明的是,上述不一致参数用于确定提示模板中展示文本的多样性,当该不一致参数取值越大,则证明展示文本的选择越不确定,也越多样化。
S206,利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度;
可选地,在本实施例中,上述目标展示文本的数量可以包括但不限于一个或多个,其中,上述利用目标展示文本和目标置信度模型生成目标提示模板可以理解为将上述目标展示文本以及目标置信度模型提供的置信度输入提示模板中,得到上述目标提示模板。
在一个示例性的实施例中,图4是根据本申请实施例的另一种可选的文本的处理方法的示意图,如图4所示,包括但不限于如下步骤:
S1,获取展示文本1、展示文本2以及展示文本3,并获取上述展示文本1、展示文本2以及展示文本3分别对应的分类结果和置信度,包括展示文本1对应的预测结果展示文本2对应的预测结果/>以及展示文本3对应的预测结果/>每个预测结果均包括对应的置信度;
S2,将展示文本,预测标签,以及置信度按如下形式插入提示模板:
xi→positive=ci[0],negative=ci[1];
S3,将上述多个提示模板进行拼接,得到最终的目标提示模板。
S208,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度。
可选地,在本实施例中,上述目标语言模型可以包括但不限于大语言模型,大语言模型(LLM)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等。
在一个示例性的实施例中,图5是根据本申请实施例的又一种可选的文本的处理方法的示意图,如图5所示,通过将目标提示模板和初始文本共同输入大语言模型,得到上述初始文本的目标分类结果和目标置信度。
通过本实施例,采用获取待确定分类结果的初始文本和预先确定的样本文本集合,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本,利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度的方式,通过利用置信度模型进行多轮预测,以得到不一致程度满足预设条件的展示文本,并基于该展示文本生成提示模板,最后将该提示模板和初始文本输入大语言模型,得到最终的分类结果和置信度,达到了优化展示文本的不一致性的目的,从而实现了提高展示文本的随机性和多样性,提升置信度估计的准确性以及文本分类准确率的技术效果,进而解决了相关技术中文本分类准确率较低的技术问题。
作为一种可选的方案,通过目标置信度模型从样本文本集合中确定出目标展示文本,包括:通过如下方式将样本文本集合中的样本文本输入目标置信度模型,确定样本预测结果,其中,每次输入目标置信度模型的样本文本视为目标样本文本:将目标样本文本输入目标置信度模型,进行L轮预测,得到L个样本预测结果,其中,L个样本预测结果包括L个预测标签,目标置信度模型在每轮预测过程中,通过调整目标置信度模型的参数完成L轮预测,L为大于1的正整数;对L个样本预测结果进行去重操作,得到K个样本预测结果,其中,去重操作用于删除L个预测标签中重复的预测标签,K为大于1且小于或等于L的正整数;根据L个预测结果和K个预测结果确定目标不一致参数;在目标不一致参数满足预设条件的情况下,将目标样本文本确定为目标展示文本。
可选地,在本实施例中,上述目标样本文本可以是样本文本集合中任一个样本文本,通过依次对样本文本集合中每个样本文本进行上述处理,最终得到每个样本文本的不一致参数,再根据不一致参数选择出目标展示文本。
需要说明的是,上述L可以由工作人员预先根据实际需要设置,可以设置为6次、8次等。
可选地,在本实施例中,上述L个样本预测结果包括L个预测标签以及与L个预测标签中每个预测标签对应的置信度,并根据预测标签和置信度进行集成操作,确定出该样本文本对应的最终预测结果与分布,以便于后续分类处理。
需要说明的是,上述调整目标置信度模型的参数完成L轮预测可以理解为每轮调整相同的模型参数或者每轮调整不同的模型参数,其中,还可以每轮调整多个模型参数,多个模型参数可以包括前次调整过的参数或未调整过的参数,具体实现方式本申请不做具体限定。
可选地,在本实施例中,上述对L个样本预测结果进行去重操作可以理解为将L个样本预测结果中重复的预测结果删除,每个预测结果仅保留一个,以确定出K个不重复的预测结果,便于后续确定该样本文本的不一致程度。
示例性地,上述目标不一致参数满足预设条件可以包括但不限于目标不一致参数的取值在全部或部分样本文本集合中最大,或者,目标不一致参数的取值大于或等于预设参数阈值。
在一个示例性的实施例中,以上述预设条件包括目标不一致参数在预设不一致参数集合中的取值最大为例,可以先将各个样本文本进行预分类,确定多个簇,再将每个簇中不一致参数取值最大的样本文本确定为上述目标展示文本,也即,目标展示文本的目标不一致参数的取值是所在簇中取值最大的不一致参数,图6是根据本申请实施例的又一种可选的文本的处理方法的示意图,如图6所示,将样本文本集合预分类为簇A、簇B以及簇C,并将簇A、簇B以及簇C中不一致参数取值最大的样本文本确定为目标展示文本,簇A包括样本文本xA1、xA2,簇B包括样本文本xB1、xB2以及簇C包括样本文本xC1、xC2,其中,簇A中不一致参数取值最大的样本文本为xA,簇B中不一致参数取值最大的样本文本为xB,簇C中不一致参数取值最大的样本文本为xC,则最终将样本文本xA、xB以及xC作为上述目标展示文本。
通过本实施例,利用将目标样本文本输入目标置信度模型,进行L轮预测,得到包括L个预测标签的L个样本预测结果,在每轮预测过程中,通过调整目标置信度模型的参数完成L轮预测,再对L个样本预测结果进行去重操作,得到K个样本预测结果,最终确定目标不一致参数,并在目标不一致参数满足预设条件的情况下,将目标样本文本确定为目标展示文本,可以提高展示文本选取的不确定性,进而完成基于模型集成的语义多样性构建。
作为一种可选的方案,通过调整目标置信度模型的参数完成L轮预测,包括以下至少之一:
通过调整目标置信度模型的温度参数,完成L轮预测,其中,温度参数用于控制样本预测结果的多样性和随机性;
通过调整目标置信度模型的候选列表参数,完成L轮预测,其中,候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入候选列表,并从候选列表中确定预测标签;
通过调整目标置信度模型的排序选择参数,完成L轮预测,其中,排序参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入候选列表,并从候选列表中确定预测标签。
可选地,在本实施例中,在人工智能领域中,温度参数(temperature parameter)是指在生成式模型中使用的一种技术,可以用于控制生成结果的多样性和随机性。温度参数通常用于一种叫做“softmax”概率分布的算法中,该算法被广泛应用于生成式模型中,包括机器翻译、自然语言处理和图像生成等领域。
在softmax算法中,温度参数用于调整生成结果的熵值。熵是信息论中用于表示信息不确定性的一种量度,如果熵值越高,表示结果的不确定性也就越大。温度参数通过控制生成结果的熵值,可以使结果更加多样化或更加确定性。
在生成式模型中,温度参数通常通过改变softmax函数的输出结果来实现。softmax函数通常用于将一个向量映射到一个概率分布,从而用于生成结果。如果将温度参数设置为较高的值,那么softmax函数的输出结果将更加平滑,这将使生成结果更加多样化。相反,如果将温度参数设置为较低的值,softmax函数的输出结果将更加尖锐,这将使生成结果更加确定性。
以自然语言生成为例,假设语言模型可以生成各种句子,如果使用温度参数,可以控制生成结果的多样性和准确性。例如,如果想要生成一些具有创意和想象力的句子,可以将温度参数设置为较高的值,这将使生成的句子更加多样化和有趣。相反,如果想要生成一些更加准确和可靠的句子,可以将温度参数设置为较低的值,这将使生成的句子更加清晰和精准。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在人工智能(AI)领域,尤其是自然语言处理(NLP)和生成式预训练模型(如GPT-3)中,temperature参数是一个重要概念。它是用于调整模型输出结果多样性的一个超参数,对于生成文本的质量和多样性具有重要影响。了解temperature参数的含义以及如何在实际应用中进行调整,有助于利用AI模型生成更符合需求的文本。
示例性地,当Temperature较低时(如0.1或0.2),模型倾向于选择具有较高概率的单词,生成的文本较为连贯和准确,但可能显得过于保守,缺乏创造性和多样性;当Temperature较高时(如0.8或1.0),模型会更倾向于选择概率较低的单词,生成的文本具有较高的多样性和创造性,但可能牺牲了一定的连贯性和准确性;当Temperature接近0时,模型几乎总是选择概率最高的单词,生成的文本非常保守,可能导致重复和循环。
总之,温度参数是一种用于调整生成式模型输出结果的技术,可以在控制多样性和准确性之间进行权衡。在实际应用中,温度参数可以根据具体场景和应用需求进行调整,以满足不同的生成需求。
可选地,在本实施例中,上述候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入候选列表,也即,上述候选列表参数用于确定出候选列表,并从候选列表中选择预测标签,其中,上述候选列表参数可以是一种概率阈值,将大于或等于该概率阈值的预测标签放入候选列表,以便后续处理,或者,将小于或等于该概率阈值的预测标签放入候选列表,以便后续处理。
可选地,在本实施例中,上述排序选择参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入候选列表,并从候选列表中确定预测标签,也即,上述候选列表参数可以是一种数量阈值,将不少于上述数量阈值对应个数的预测标签放入候选列表,以便后续处理,或者,将不多于上述数量阈值对应个数的预测标签放入候选列表,以便后续处理。
通过本实施例,利用在L次预测中不断调整模型参数,可以得到多样性和不确定性更高的预测结果,以最终完成基于模型集成的语义多样性构建,提高了模型分类的准确率。
作为一种可选的方案,将目标样本文本输入目标置信度模型,进行L轮预测,得到L个样本预测结果,包括:将目标样本文本输入目标置信度模型,进行L轮预测,得到L个预测标签以及与L个预测标签对应的L个样本置信度;分别对L个预测标签和L个样本置信度分别进行集成运算,得到目标预测标签和目标样本置信度,其中,展示文本分类结果包括目标预测标签,展示文本分类置信度包括目标样本置信度。
可选地,在本实施例中,上述L个样本置信度分别与L个预测标签一一对应,上述集成运算的一种示例性实现方式可以包括但不限于求取平均值,也即,将上述L个预测标签对应的向量计算平均值,以确定表征该样本文本的最终预测结果的表征向量。
需要说明的是,对于L个样本置信度,其与前述预测标签的处理方式可以相同或不同,目的在于计算得到最终表征该样本的置信度的表征向量。
在一个示例性的实施例中,以进行L轮预测为例,则对目标样本文本进行L轮预测,对不同预测结果与概率分布做集成获得最终预测结果与分布:
其中,yi表示目标预测标签,ci表示目标样本置信度,i是目标样本文本的序号,j用于标识预测的轮次。
需要说明的是,上述目标预测标签和目标样本置信度可以用于与目标展示文本共同构成目标提示模板中的元素,以最终输入目标语言模型,作为提示模板确定初始文本的目标分类结果和目标置信度。
作为一种可选的方案,利用目标展示文本和目标置信度模型生成目标提示模板,包括:在目标展示文本包括多个的情况下,获取多个目标展示文本对应的目标预测标签和目标样本置信度;根据多个目标展示文本、多个目标预测标签和多个目标样本置信度和目标置信度模型生成目标提示模板。
可选地,在本实施例中,上述目标展示文本包括多个时,可以通过上述计算目标预测标签和目标样本置信度的方式计算出每个目标展示文本对应的目标预测标签和目标样本置信度。
在一个示例性的实施例中,以上述目标展示文本是“the quirky”和“itsentertaining”为例,对“the quirky”进行L轮预测,得到L个预测结果和L个置信度,并对L个预测结果和L个置信度分别计算平均值,确定出“the quirky”对应的目标预测标签和目标样本置信度,对“its entertaining”进行L轮预测,得到L个预测结果和L个置信度,并对L个预测结果和L个置信度分别计算平均值,确定出“its entertaining”对应的目标预测标签和目标样本置信度。最终,将上述“the quirky”和“its entertaining”分别对应的目标预测标签和目标样本置信度输入上述目标提示模板,以执行后续操作。
作为一种可选的方案,根据多个目标展示文本、多个目标预测标签和多个目标样本置信度和目标置信度模型生成目标提示模板,包括:
将多个目标展示文本、多个目标预测标签和多个目标样本置信度分别基于对应关系配置为多个展示样本;
对多个展示样本进行拼接操作,得到第一模板结构,并将目标置信度模型确定为第二模板结构;
根据第一模板结构和第二模板结构生成目标提示模板。
可选地,在本实施例中,上述第一模板结构可以理解为对多个展示样本进行拼接得到的模板结构。
在一个示例性的实施例中,以情感分析为例,图7是根据本申请实施例的又一种可选的文本的处理方法的示意图,上下文感知学习的流程如图7所示,假设开发者已经提前拥有标注样本(下文叫做展示样本,demonstration example),该样本将被应用于展示给大语言模型进行情景学习。具体的输入提示语构造如下:
1)插入任务描述(情感分类,Sentiment Analysis);
2)插入展示样本及其对应的情感标签(Positive):great piece of=>positive;
3)插入测试样本。
其中,构造完成的输入提示模板(对应于前述的第一模板结构)如图7所示,上述过程也能拓展到具有m个展示样本的设定。具体来说,将第i个展示样本记为xi,对应的情感类别记作标注yi,上述过程可以形式化地被表示为:ti=T(xiyi),T表示将原始文本对应到图7所示的提示模板的文本变换。将测试文本信息记为xtest,对应变换过后的数据记为ttest=T(xtest)。将上述变换过后的样本拼接在一起,便得到如图7所示的测试提示输入:tp=concat(t1,…tm,ttest),其中,concat表示拼接操作。
作为一种可选的方案,通过目标置信度模型从样本文本集合中确定出目标展示文本,包括:
对样本文本集合中的样本文本分别进行解码操作,得到表征向量集合,其中,表征向量集合中的一个表征向量与一个样本文本对应,表征向量包括相对应的样本文本的语义信息;
对表征向量集合执行聚类操作,确定多组样本文本,其中,每组样本文本用于表示表征向量之间的相似度满足预设相似条件的多个样本文本;
将每组样本文本中不一致参数满足预设条件的样本文本确定为目标展示文本。
可选地,在本实施例中,上述解码操作可以包括但不限于通过上述目标置信度模型的解码层实现,将上述样本文本输入目标置信度模型的解码层,实现对样本文本的转换,得到样本文本对应的表征向量。
需要说明的是,上述表征向量包括有上述样本文本的语义信息。
可选地,在本实施例中,上述聚类操作可以是计算表征向量之间的相似度,将相似度满足预设相似条件的多个样本文本划分为一组样本文本,总共包括多组样本文本,再将每组样本文本中不一致参数满足预设条件的样本文本确定为目标展示文本。
示例性地,上述预设相似条件可以基于K-means聚类方式确定,还可以基于其它能够完成样本文本聚类的方式确定。
在一个示例性的实施例中,以K-means聚类方式为例,按照样本文本的嵌入表达(对应于前述的表征向量)进行k-means聚类,k为预先定义的数字(例如8),聚类完成后,将各个样本文本划分至多个簇中,一个簇表示上述一组样本文本,从每一个簇(cluster)选择使得不一致参数取值最大的样本文本作为上述展示文本。
作为一种可选的方案,获取待确定分类结果的初始文本和预先确定的样本文本集合,包括:获取待确定情绪分类结果的初始文本和预先确定的样本文本集合;将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度,包括:将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的多个情绪分类结果以及分别与各个情绪分类结果对应的预测置信度;将多个预测置信度中取值最大的预测置信度确定为目标置信度,并将目标置信度对应的情绪分类结果确定为目标分类结果。
可选地,在本实施例中,上述情绪分类结果可以包括但不限于积极的、消极的、中性的、非常积极的、非常消极的、有点积极的、有点消极的等等,可以包括但不限于上述一种或多种的组合。
需要说明的是,上述将目标提示模板输入目标语言模型,可以将目标展示文本以及对应的预测结果和置信度作为目标语言模型的提示输入,以便于目标语言模型根据该提示输入,确定初始文本的目标置信度和目标分类结果。
在一个示例性的实施例中,图8是根据本申请实施例的又一种可选的文本的处理方法的示意图,如图8所示,通过输入目标提示模板和初始文本“its entertaining”,确定初始文本“its entertaining”的两个预测标签以及两个预测标签分别对应的概率,并将概率取值较大的positive标签作为上述目标分类结果,将positive标签的预测概率作为上述目标置信度。
下面结合具体的示例,对本申请进行进一步的解释说明:
近年来,伴随工业界积累的高质量数据增长,算力资源的增长以及大型模型架构和训练技术的发展,大语言模型例如GPT3等被广泛地应用于翻译,对话系统,广告推荐等场景。相比于传统的“小模型”,大模型具有显著高的模型参数量,计算量和存储量,也因此具备更强的表达能力和数据拟合能力,从而大大提高了神经网络模型在各种业务中的性能天花板,甚至在很多任务上大大超过了人类专家水平。以GPT3为代表的大模型最强大的能力便是能够在无需调整原始模型参数条件下,通过情景学习(In-context Learning)进行小样本学习,因此情景学习使得大模型能够快速地迁移到各种下游任务,下游的开发者能够借助大模型的这种能力快速地构建新的应用。这些大模型也逐渐被人们用于一些决策领域,例如大模型可以直接用于情感分析,文本有毒性评估等等。
本申请针对不同的真实应用场景(带标注数据与不带标注数据)分别设计了相应的带不确定性信息的提示模板构造方案。基于本申请的构造方案能够实现更加稳定以及准确的的置信度估计。本申请可以用于涉及使用大语言模型的场景例如对话机器人,简历评估系统等等场景,提升基于黑盒大模型推理系统的可靠性。除此之外,本申请也能应用于评估大模型自身的决策不确定性估计能力。
随着大模型相关的现象级产品chatgpt的出现,各个领域的从业人员也认识到了大语言模型应用于传统垂直行业例如金融,法律的巨大潜力。公司内部的相关团队也开始利用大模型赋能业务数字化升级。典型的例子包括基于大模型生成产品描述用于搜索引擎优化,智能客服,翻译等等。大模型在为业务带来便利的同时,基于黑盒大语言模型的服务也存在一些局限并增加了下游使用者的不可靠性。本申请提出一种获取黑盒大语言模型推理置信度的装置,该装置通过对原有prompt注入额外的辅助信息,使得大语言模型在输出决策结果的同时也能提供对应的置信度。
首先,大语言模型的推理实际上是一种基于上下文感知学习的推理过程,通过不确定性感知的情景学习方案,将额外的已有样本的辅助信息注入提示模板,通过将融合生成的提示模板与测试样本本身输入大模型,以获取预测结果与置信度。
其中,基于上下文感知学习的大语言模型推理过程包括如下内容:
语言模型尝试建模自然语句的单词序列的联合概率分布。给定任何长度为m的单词序列,训练好的语言模型将为其分配一个概率P(w1,w2,…wm)到整个序列。语言模型通过对一种或多种语言的文本语料进行训练来产生概率。鉴于语言可以用来表达无限多的有效句子(数字无限的特性),语言模型面临着为语言上有效的序列分配非零概率的问题,而这些序列在训练数据中可能永远不会遇到。有几种建模方法被设计来克服这个问题,如应用马尔科夫假设或使用神经架构,如递归神经网络或者Transformer。本申请以大语言模型为例进行说明,其模型架构通常是基于Transformer构建。语言模型通常被应用于补全一个不完整句子的剩余单词(Next-word prediction)。具体来说,给定前面的单词序列对应的嵌入表达(w1,w2,…wt),大语言模型可以预测下一个单词在词表中的概率(属于某一个单词的概率)分布:p(wt+1|w1,…wt);完成预测后,可以选择概率最大的单词作为原有句子的下一个单词候选。运用大规模的语料库训练大语言模型过后,大模型将拥有上下文感知学习的能力。而该能力使得禁止在下游数据训练的情况下,大模型能够直接用于解决下游任务例如简历评估,情感分析,翻译等等。这里以前文涉及的情感分析作为例子,展示上下文感知学习的流程。在这个例子中,假设开发者已经提前拥有标注样本(下文叫做展示文本,demonstration example),该样本文本将被应用于展示给大语言模型进行情景学习。
以图7为例,上述过程可以拓展到具有m个展示样本的设定。具体来说,将第i个展示样本记为xi,对应的情感类别记作标注yi,上述过程可以形式化地被表示为:ti=T(xiyi),T表示将原始文本对应到图7的提示模板的文本变换。将测试文本信息记为xtest,对应变换过后的数据记为ttest=T(xtest).将上述变换过后的样本拼接在一起,便得到如图7所示的测试提示输入:tp=concat(t1,…tm,ttest),其中,concat表示拼接操作。将其输入到大语言模型M,最终输出对应样本的分类结果(以情感分类为例,语言模型最终输出相应的正向/负向情感概率):L=pM(l|tp).在情感分类下,L为2维向量。通过研究发现,通过给大模型提前展示以前标注过的数据,使得其能够具备情景感知学习的能力,从而准确地预测出测试样本的标签。当大语言模型以黑盒形式部署时,通常只会返回对应分类的结果(Positive或者Negative)而无法获取上述的概率分布L=pM(l|tp)。但是在实际部署应用时,除开要获取分类结果,还需要额外的预测概率作为决策置信度避免一些错误的决策(当预测置信度过低时,模型决策往往容易出错)。本申请通过对上述提示构造的过程进行改进,在其中注入展示样本的置信度信息,使得黑盒大语言模型也能够输出决策置信度。
其中,不确定性感知的提示构造包括如下内容:
在上述流程中,大语言模型虽然返回了分类结果,但是缺乏该模型关于预测结果的置信度,导致下游任务无法判断决策结果的可靠性。本申请提出一种获取黑盒大语言模型推理置信度的装置,该装置通过对原有prompt注入额外的辅助信息,使得大语言模型在输出决策结果的同时也能提供对应的置信度。
具体来说,给定展示样本,x1,…xm,以及一个额外的置信度打分模型,该模型可以是网上开源的任意情感分类模型S。
S1,通过模型S计算每一样本xi的预测标签yi以及预测概率分布ci,在情感分类中,其为2维向量;
S2,随机选择给定数目的样本(例如8)将样本自身,预测标签,以及置信度按如下形式插入提示模板:
xi→positive=ci[0],negative=ci[1];
S3,得到最终的提示模板:tp;
S4,将模板输入大语言模型得到输出,大预言模型将返回如下格式的输出:
[test example]→positive=c[0],negative=c[1];
S5,解析上述结果,将概率最大的类别作为预测类别,并将对应的预测概率作为决策置信度,完成推理。
在一个示例性的实施例中,图9是根据本申请实施例的又一种可选的文本的处理方法的示意图,上述过程构造的模板可以形式化地展示为如图9所示。
其中,上述基于多样性指标的提示模型构建包括:
上述方案通过将小模型生成的置信度信息插入到提示模板中,从而使大模型能够学习到数据分布和其模型预测置信度的联合概率分布。而如果通过随机选择展示样本进行插入,不能保证选择样本的语义多样性,此外这种方法构建模板时使用的置信度通常来自于单一模型输出,从而存在一定的不稳定性。因此本申请进一步提出基于模型集成的语义多样性构建指标,步骤如下:
S1,通过模型S的解码层获得给定样本xi的嵌入表达hi,该表达包含样本的语义信息;
S2,通过每轮调整模型参数(例如,温度参数),对给定样本xi进行L次预测,预测其标签以及概率分布/>在情感分类中,/>为2维向量;
S3,通过预测结果的不一致性计算该样本的不确定性,具体做法如下:
S3-1,构造集合
S3-2,通过对集合A进行去重,并统计去重过后的答案数目L′;
S3-3,计算该问题的回答不一致程度
S3-4,基于该指标即可反应问题难度:指标越大,大模型在面对该问题产生的分歧越大,从而问题越难;
S4,对不同预测结果与概率分布做集成获得最终预测结果与分布:
S5,基于样本的不确定性选择指标:s=U(xi);
S6,按照样本的嵌入表达进行k-means聚类,k为预先定义的数字(例如8);
S7,聚类完成后,从每一个簇(cluster)选择使得s最大的展示样本,将其变化至如下形式:
xi→positive=ci[0],negative=ci[1];
S8,得到最终的提示模板:tp;
S9,将模板输入大语言模型得到输出,大预言模型将返回如下格式的输出:
[test example]→positive=c[0],negative=c[1];
S10,解析上述结果,将概率最大的类别作为预测类别,并将对应的预测概率作为决策置信度。完成推理。
上述方案通过对语义信息聚类保证了插入信息的多样性,又通过构造基于不确定性的额指标,尽可能选择信息量大的样本。从而能实现更优的估计效果。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述文本的处理方法的文本的处理装置。如图10所示,该装置包括:
获取模块1002,用于获取待确定分类结果的初始文本和预先确定的样本文本集合;
确定模块1004,用于通过目标置信度模型从所述样本文本集合中确定出目标展示文本,其中,所述样本文本集合中的样本文本用于通过所述目标置信度模型生成样本预测结果,所述样本预测结果用于确定相对应的所述样本文本关联的不一致参数,所述不一致参数用于表示通过所述目标置信度模型对同一所述样本文本进行多轮预测产生的多个所述样本预测结果的不一致程度,所述不一致参数满足预设条件的所述样本文本被确定为所述目标展示文本;
生成模块1006,用于利用所述目标展示文本和所述目标置信度模型生成目标提示模板,其中,所述目标提示模板包括所述目标展示文本、所述目标展示文本对应的展示文本分类结果以及与所述展示文本分类结果对应的展示文本分类置信度;
处理模块1008,用于将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度。
作为一种可选的方案,所述装置用于通过如下方式通过目标置信度模型从所述样本文本集合中确定出目标展示文本:通过如下方式将所述样本文本集合中的样本文本输入所述目标置信度模型,确定所述样本预测结果,其中,每次输入所述目标置信度模型的样本文本视为目标样本文本:将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果,其中,所述L个样本预测结果包括L个预测标签,所述目标置信度模型在每轮预测过程中,通过调整所述目标置信度模型的参数完成所述L轮预测,L为大于1的正整数;对所述L个样本预测结果进行去重操作,得到K个样本预测结果,其中,所述去重操作用于删除所述L个预测标签中重复的预测标签,K为大于1且小于或等于L的正整数;根据所述L个预测结果和所述K个预测结果确定目标不一致参数;在所述目标不一致参数满足所述预设条件的情况下,将所述目标样本文本确定为所述目标展示文本。
作为一种可选的方案,所述装置用于通过如下至少之一方式通过调整所述目标置信度模型的参数完成所述L轮预测:通过调整所述目标置信度模型的温度参数,完成所述L轮预测,其中,所述温度参数用于控制所述样本预测结果的多样性和随机性;通过调整所述目标置信度模型的候选列表参数,完成所述L轮预测,其中,所述候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入所述候选列表,并从所述候选列表中确定所述预测标签;通过调整所述目标置信度模型的排序选择参数,完成所述L轮预测,其中,所述排序参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入所述候选列表,并从所述候选列表中确定所述预测标签。
作为一种可选的方案,所述装置用于通过如下方式将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果:将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到所述L个预测标签以及与所述L个预测标签对应的L个样本置信度;分别对所述L个预测标签和所述L个样本置信度分别进行集成运算,得到目标预测标签和目标样本置信度,其中,所述展示文本分类结果包括所述目标预测标签,所述展示文本分类置信度包括所述目标样本置信度。
作为一种可选的方案,所述装置用于通过如下方式利用所述目标展示文本和所述目标置信度模型生成目标提示模板:在所述目标展示文本包括多个的情况下,获取多个所述目标展示文本对应的所述目标预测标签和所述目标样本置信度;根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板。
作为一种可选的方案,所述装置用于通过如下方式根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板:将多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度分别基于对应关系配置为多个展示样本;对所述多个展示样本进行拼接操作,得到第一模板结构,并将所述目标置信度模型确定为第二模板结构;根据所述第一模板结构和所述第二模板结构生成所述目标提示模板。
作为一种可选的方案,所述装置用于通过如下方式通过目标置信度模型从所述样本文本集合中确定出目标展示文本:对所述样本文本集合中的样本文本分别进行解码操作,得到表征向量集合,其中,所述表征向量集合中的一个表征向量与一个所述样本文本对应,所述表征向量包括相对应的所述样本文本的语义信息;对所述表征向量集合执行聚类操作,确定多组样本文本,其中,每组样本文本用于表示所述表征向量之间的相似度满足预设相似条件的多个样本文本;将所述每组样本文本中所述不一致参数满足所述预设条件的所述样本文本确定为所述目标展示文本。
作为一种可选的方案,所述装置用于通过如下方式获取待确定分类结果的初始文本和预先确定的样本文本集合:获取待确定情绪分类结果的所述初始文本和预先确定的所述样本文本集合;所述装置用于通过如下方式将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度:将所述初始文本与所述目标提示模板共同输入所述目标语言模型,得到所述初始文本的多个情绪分类结果以及分别与各个所述情绪分类结果对应的预测置信度;将所述多个预测置信度中取值最大的所述预测置信度确定为所述目标置信度,并将所述目标置信度对应的情绪分类结果确定为所述目标分类结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序/指令,该计算机程序/指令包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时,执行本申请实施例提供的各种功能。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
图11示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图11示出的电子设备的计算机系统1100仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1100包括中央处理器1101(Central Processing Unit,CPU),其可以根据存储在只读存储器1102(Read-Only Memory,ROM)中的程序或者从存储部分1108加载到随机访问存储器1103(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1103中,还存储有系统操作所需的各种程序和数据。中央处理器1101、在只读存储器1102以及随机访问存储器1103通过总线1104彼此相连。输入/输出接口1105(Input/Output接口,即I/O接口)也连接至总线1104。
以下部件连接至输入/输出接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理器1101执行时,执行本申请的系统中限定的各种功能。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本的处理方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为终端设备为例来说明。如图12所示,该电子设备包括存储器1202和处理器1204,该存储器1202中存储有计算机程序,该处理器1204被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待确定分类结果的初始文本和预先确定的样本文本集合;
S2,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本;
S3,利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度;
S4,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度。
可选地,本领域普通技术人员可以理解,图12所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图12中所示更多或者更少的组件(如网络接口等),或者具有与图12所示不同的配置。
其中,存储器1202可用于存储软件程序以及模块,如本申请实施例中的文本的处理方法和装置对应的程序指令/模块,处理器1204通过运行存储在存储器1202内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的处理方法。存储器1202可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1202可进一步包括相对于处理器1204远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1202具体可以但不限于用于存储上述样本文本等信息。作为一种示例,如图12所示,上述存储器1202中可以但不限于包括上述文本的处理装置中的获取模块1002、确定模块1004、生成模块1006以及处理模块1008。此外,还可以包括但不限于上述文本的处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置1206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1206包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1206为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器1208,用于显示上述分类结果和置信度;和连接总线1210,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
根据本申请的一个方面,提供了一种计算机可读存储介质,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本的分类方面的各种可选实现方式中提供的文本的处理方法。
可选地,在本实施例中,上述计算机可读存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待确定分类结果的初始文本和预先确定的样本文本集合;
S2,通过目标置信度模型从样本文本集合中确定出目标展示文本,其中,样本文本集合中的样本文本用于通过目标置信度模型生成样本预测结果,样本预测结果用于确定相对应的样本文本关联的不一致参数,不一致参数用于表示通过目标置信度模型对同一样本文本进行多轮预测产生的多个样本预测结果的不一致程度,不一致参数满足预设条件的样本文本被确定为目标展示文本;
S3,利用目标展示文本和目标置信度模型生成目标提示模板,其中,目标提示模板包括目标展示文本、目标展示文本对应的展示文本分类结果以及与展示文本分类结果对应的展示文本分类置信度;
S4,将初始文本与目标提示模板共同输入目标语言模型,得到初始文本的目标分类结果以及目标置信度。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (15)
1.一种文本的处理方法,其特征在于,包括:
获取待确定分类结果的初始文本和预先确定的样本文本集合;
通过目标置信度模型从所述样本文本集合中确定出目标展示文本,其中,所述样本文本集合中的样本文本用于通过所述目标置信度模型生成样本预测结果,所述样本预测结果用于确定相对应的所述样本文本关联的不一致参数,所述不一致参数用于表示通过所述目标置信度模型对同一所述样本文本进行多轮预测产生的多个所述样本预测结果的不一致程度,所述不一致参数满足预设条件的所述样本文本被确定为所述目标展示文本;
利用所述目标展示文本和所述目标置信度模型生成目标提示模板,其中,所述目标提示模板包括所述目标展示文本、所述目标展示文本对应的展示文本分类结果以及与所述展示文本分类结果对应的展示文本分类置信度;
将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度。
2.根据权利要求1所述的方法,其特征在于,所述通过目标置信度模型从所述样本文本集合中确定出目标展示文本,包括:
通过如下方式将所述样本文本集合中的样本文本输入所述目标置信度模型,确定所述样本预测结果,其中,每次输入所述目标置信度模型的样本文本视为目标样本文本:
将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果,其中,所述L个样本预测结果包括L个预测标签,所述目标置信度模型在每轮预测过程中,通过调整所述目标置信度模型的参数完成所述L轮预测,L为大于1的正整数;
对所述L个样本预测结果进行去重操作,得到K个样本预测结果,其中,所述去重操作用于删除所述L个预测标签中重复的预测标签,
K为大于1且小于或等于L的正整数;
根据所述L个预测结果和所述K个预测结果确定目标不一致参数;
在所述目标不一致参数满足所述预设条件的情况下,将所述目标样本文本确定为所述目标展示文本。
3.根据权利要求2所述的方法,其特征在于,所述通过调整所述目标置信度模型的参数完成所述L轮预测,包括以下至少之一:
通过调整所述目标置信度模型的温度参数,完成所述L轮预测,其中,所述温度参数用于控制所述样本预测结果的多样性和随机性;
通过调整所述目标置信度模型的候选列表参数,完成所述L轮预测,其中,所述候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入所述候选列表,并从所述候选列表中确定所述预测标签;
通过调整所述目标置信度模型的排序选择参数,完成所述L轮预测,其中,所述排序参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入所述候选列表,并从所述候选列表中确定所述预测标签。
4.根据权利要求2所述的方法,其特征在于,所述将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果,包括:
将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到所述L个预测标签以及与所述L个预测标签对应的L个样本置信度;
分别对所述L个预测标签和所述L个样本置信度分别进行集成运算,得到目标预测标签和目标样本置信度,其中,所述展示文本分类结果包括所述目标预测标签,所述展示文本分类置信度包括所述目标样本置信度。
5.根据权利要求4所述的方法,其特征在于,所述利用所述目标展示文本和所述目标置信度模型生成目标提示模板,包括:
在所述目标展示文本包括多个的情况下,获取多个所述目标展示文本对应的所述目标预测标签和所述目标样本置信度;
根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板。
6.根据权利要求5所述的方法,其特征在于,所述根据多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度和所述目标置信度模型生成所述目标提示模板,包括:
将多个所述目标展示文本、多个所述目标预测标签和多个所述目标样本置信度分别基于对应关系配置为多个展示样本;
对所述多个展示样本进行拼接操作,得到第一模板结构,并将所述目标置信度模型确定为第二模板结构;
根据所述第一模板结构和所述第二模板结构生成所述目标提示模板。
7.根据权利要求1所述的方法,其特征在于,所述通过目标置信度模型从所述样本文本集合中确定出目标展示文本,包括:
对所述样本文本集合中的样本文本分别进行解码操作,得到表征向量集合,其中,所述表征向量集合中的一个表征向量与一个所述样本文本对应,所述表征向量包括相对应的所述样本文本的语义信息;
对所述表征向量集合执行聚类操作,确定多组样本文本,其中,每组样本文本用于表示所述表征向量之间的相似度满足预设相似条件的多个样本文本;
将所述每组样本文本中所述不一致参数满足所述预设条件的所述样本文本确定为所述目标展示文本。
8.根据权利要求1至7中任一项所述的方法,其特征在于,
获取待确定分类结果的初始文本和预先确定的样本文本集合,包括:获取待确定情绪分类结果的所述初始文本和预先确定的所述样本文本集合;
将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度,包括:将所述初始文本与所述目标提示模板共同输入所述目标语言模型,得到所述初始文本的多个情绪分类结果以及分别与各个所述情绪分类结果对应的预测置信度;将所述多个预测置信度中取值最大的所述预测置信度确定为所述目标置信度,并将所述目标置信度对应的情绪分类结果确定为所述目标分类结果。
9.一种文本的处理装置,其特征在于,包括:
获取模块,用于获取待确定分类结果的初始文本和预先确定的样本文本集合;
确定模块,用于通过目标置信度模型从所述样本文本集合中确定出目标展示文本,其中,所述样本文本集合中的样本文本用于通过所述目标置信度模型生成样本预测结果,所述样本预测结果用于确定相对应的所述样本文本关联的不一致参数,所述不一致参数用于表示通过所述目标置信度模型对同一所述样本文本进行多轮预测产生的多个所述样本预测结果的不一致程度,所述不一致参数满足预设条件的所述样本文本被确定为所述目标展示文本;
生成模块,用于利用所述目标展示文本和所述目标置信度模型生成目标提示模板,其中,所述目标提示模板包括所述目标展示文本、所述目标展示文本对应的展示文本分类结果以及与所述展示文本分类结果对应的展示文本分类置信度;
处理模块,用于将所述初始文本与所述目标提示模板共同输入目标语言模型,得到所述初始文本的目标分类结果以及目标置信度。
10.根据权利要求9所述的装置,其特征在于,所述装置用于通过如下方式通过目标置信度模型从所述样本文本集合中确定出目标展示文本:
通过如下方式将所述样本文本集合中的样本文本输入所述目标置信度模型,确定所述样本预测结果,其中,每次输入所述目标置信度模型的样本文本视为目标样本文本:
将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果,其中,所述L个样本预测结果包括L个预测标签,所述目标置信度模型在每轮预测过程中,通过调整所述目标置信度模型的参数完成所述L轮预测,L为大于1的正整数;
对所述L个样本预测结果进行去重操作,得到K个样本预测结果,其中,所述去重操作用于删除所述L个预测标签中重复的预测标签,
K为大于1且小于或等于L的正整数;
根据所述L个预测结果和所述K个预测结果确定目标不一致参数;
在所述目标不一致参数满足所述预设条件的情况下,将所述目标样本文本确定为所述目标展示文本。
11.根据权利要求10所述的装置,其特征在于,所述装置用于通过如下至少之一方式通过调整所述目标置信度模型的参数完成所述L轮预测:
通过调整所述目标置信度模型的温度参数,完成所述L轮预测,其中,所述温度参数用于控制所述样本预测结果的多样性和随机性;
通过调整所述目标置信度模型的候选列表参数,完成所述L轮预测,其中,所述候选列表参数用于动态设置候选列表的大小,以将预测概率之和不超过预设值的标签列入所述候选列表,并从所述候选列表中确定所述预测标签;
通过调整所述目标置信度模型的排序选择参数,完成所述L轮预测,其中,所述排序参数用于动态设置候选列表的大小,以将概率取值最大的多个标签列入所述候选列表,并从所述候选列表中确定所述预测标签。
12.根据权利要求11所述的装置,其特征在于,所述装置用于通过如下方式将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到L个样本预测结果:
将所述目标样本文本输入所述目标置信度模型,进行L轮预测,得到所述L个预测标签以及与所述L个预测标签对应的L个样本置信度;
分别对所述L个预测标签和所述L个样本置信度分别进行集成运算,得到目标预测标签和目标样本置信度,其中,所述展示文本分类结果包括所述目标预测标签,所述展示文本分类置信度包括所述目标样本置信度。
13.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序可被终端设备或计算机运行时执行所述权利要求1至8任一项中所述的方法。
14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至8任一项中所述方法的步骤。
15.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至8任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668974.6A CN116956116A (zh) | 2023-06-06 | 2023-06-06 | 文本的处理方法和装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310668974.6A CN116956116A (zh) | 2023-06-06 | 2023-06-06 | 文本的处理方法和装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116956116A true CN116956116A (zh) | 2023-10-27 |
Family
ID=88460936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310668974.6A Pending CN116956116A (zh) | 2023-06-06 | 2023-06-06 | 文本的处理方法和装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956116A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273868A (zh) * | 2023-11-20 | 2023-12-22 | 浙江口碑网络技术有限公司 | 店铺推荐方法、装置、电子设备与存储介质 |
CN117473047A (zh) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
-
2023
- 2023-06-06 CN CN202310668974.6A patent/CN116956116A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273868A (zh) * | 2023-11-20 | 2023-12-22 | 浙江口碑网络技术有限公司 | 店铺推荐方法、装置、电子设备与存储介质 |
CN117473047A (zh) * | 2023-12-26 | 2024-01-30 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
CN117473047B (zh) * | 2023-12-26 | 2024-04-12 | 深圳市明源云客电子商务有限公司 | 业务文本生成方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN116956116A (zh) | 文本的处理方法和装置、存储介质及电子设备 | |
CN107544960B (zh) | 一种基于变量绑定和关系激活的自动问答方法 | |
CN110807566A (zh) | 人工智能模型评测方法、装置、设备及存储介质 | |
CN111897934B (zh) | 问答对生成方法及装置 | |
CN111046275A (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN108304376B (zh) | 文本向量的确定方法、装置、存储介质及电子装置 | |
CN111666416A (zh) | 用于生成语义匹配模型的方法和装置 | |
CN111046158A (zh) | 问答匹配方法及模型训练方法、装置、设备、存储介质 | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
CN115114421A (zh) | 一种问答模型训练方法 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN117540221B (zh) | 图像处理方法和装置、存储介质及电子设备 | |
CN116882450B (zh) | 问答模型的编辑方法、装置、电子设备和存储介质 | |
CN112394982B (zh) | 生成语音识别系统的方法、装置、介质及电子设备 | |
CN114330483A (zh) | 数据处理方法及模型训练方法、装置、设备、存储介质 | |
CN117540703A (zh) | 文本生成方法、模型训练方法、装置及电子设备 | |
CN111143454B (zh) | 一种文本输出方法、装置及可读存储介质 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN114492465B (zh) | 对话生成模型训练方法和装置、对话生成方法、电子设备 | |
CN111414609B (zh) | 一种对象验证方法和装置 | |
CN112818084A (zh) | 信息交互方法、相关装置、设备及计算机可读介质 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
CN117151247B (zh) | 机器学习任务建模的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |