CN117093696A - 一种大语言模型的提问文本生成方法、装置、设备及介质 - Google Patents
一种大语言模型的提问文本生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117093696A CN117093696A CN202311330003.7A CN202311330003A CN117093696A CN 117093696 A CN117093696 A CN 117093696A CN 202311330003 A CN202311330003 A CN 202311330003A CN 117093696 A CN117093696 A CN 117093696A
- Authority
- CN
- China
- Prior art keywords
- question text
- text
- language model
- training
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 66
- 230000009471 action Effects 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000010845 search algorithm Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 18
- 230000035945 sensitivity Effects 0.000 abstract description 9
- 239000000523 sample Substances 0.000 description 24
- 230000000694 effects Effects 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种大语言模型的提问文本生成方法、装置、设备及介质,涉及计算机技术领域,包括:利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;利用预设策略梯度算法对策略网络进行训练;利用训练好的策略网络从相似文本集合中确定与初始提问文本对应的语义最相关的目标提问文本;将目标提问文本输入至大语言模型得到大语言模型根据目标提问文本对应的语义生成的符合用户意图的答复信息。本发明通过优化prompt的选择过程及其生成质量,从而能够有效缓解大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,使得大语言模型能够更准确地生成符合用户意图的答复信息。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种大语言模型的提问文本生成方法、装置、设备及介质。
背景技术
随着语言模型技术的发展,语言模型的应用已经非常广泛,例如,OpenAI推出的GPT-2(Generative Pre-trained Transformer-2,第二代生成式预训练Transformer)等模型已经广泛实现语言生成、文本摘要、对话系统等多种任务中,其中,Transformer,即一个基于自注意力机制的一个深度学习模型,已经得到了广泛的应用。目前语言模型参数量已经增至千亿级别乃至万亿级别,如OpenAI推出的GPT-3(Generative Pre-trainedTransformer-3,第三代生成式预训练Transformer)等大语言模型的出现,极大地促进了NLP(Natural Language Processing,自然语言处理)领域的技术进步。GPT-3等千亿级大语言模型只需进行小样本或者零样本学习,而无需利用标注数据进行精调,即可达到非常好的效果,其主要通过prompt的提示方式,引导提示大模型,从而输出想要的结果,但是,由于其参数量较大,训练、部署及推理成本较高等原因,目前尚未在机器人投顾对话场景下得到广泛应用,其中,投顾表示投资顾问,而且对于大语言模型,不同的prompt对其输出结果有显著的影响,导致大语言模型在其他一些应用场景下,可能对prompt的选择非常敏感,这种敏感性可能导致模型的输出不稳定,尤其是在使用不精确或不适合的prompt的情况下。因此,这种不稳定性可能会导致预测的结果出现较大的偏差,从而影响其在实际应用中的性能。
综上可知,如何提供一种解决大语言模型对于不同prompt的输出敏感性和性能不稳定的问题的方案,已经是本领域技术人员所亟需关注和解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种大语言模型的提问文本生成方法、装置、设备及介质,能够提高prompt的选择和生成质量。其具体方案如下:
第一方面,本发明公开了一种大语言模型的提问文本生成方法,包括:
利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;
利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;
利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;
将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
可选的,所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合,包括:
利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本,得到相应的相似文本集合。
可选的,所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,包括:
利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。
可选的,所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,包括:
利用随机选取到的样本提问文本构建相应的相似文本训练集;
利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量,并将所述语义向量作为当前待训练状态;
通过策略网络产生与所述当前待训练状态对应的动作;
将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励;
利用预设策略梯度算法,并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络;
将所述当前输出的状态确定为新的所述当前待训练状态,重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤,直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。
可选的,所述利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本,包括:
根据用户输入的所述初始提问文本确定当前目标状态,并基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。
可选的,所述大语言模型的提问文本生成方法,还包括:
在每一次训练前,随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
或,记录训练次数得到当前训练次数,并判断当前训练次数是否达到预设训练次数;
如果当前训练次数达到所述预设训练次数,则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
如果当前训练次数未达到所述预设训练次数,则继续利用当前相似文本训练集训练所述策略网络。
可选的,所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后,还包括:
接收用户针对所述答复信息输入的新的初始提问文本,并重新跳转至所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合的步骤。
第二方面,本发明公开了一种大语言模型的提问文本生成装置,包括:
相似文本检索模块,用于利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;
网络训练模块,用于利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;
目标提问文本确定模块,用于利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;
答复信息生成模块,用于将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
第三方面,本发明公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的大语言模型的提问文本生成方法的步骤。
第四方面,本发明公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的大语言模型的提问文本生成方法的步骤。
可见,本发明提供了一种大语言模型的提问文本生成方法,包括:利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。由此可知,本发明通过利用预设语义相似性检索算法进行相似文本的检索,以及通过利用预设策略梯度算法训练策略网络,使其在不同的对话场景下,能够根据用户输入的初始提问文本,从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好地服务用户。也即本发明的技术方案优化了prompt的选择过程及其生成质量,能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,从而通过大语言模型生成最符合用户意图的回答,提升了用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明公开的一种大语言模型的提问文本生成方法流程图;
图2为本发明公开的一种具体的大语言模型的提问文本生成方法流程图;
图3为本发明公开的一种机器人对话系统框架示意图;
图4为本发明公开的一种大语言模型的提问文本生成装置结构示意图;
图5为本发明公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,在一些应用场景中,如机器人投顾对话场景,大语言模型对不同的prompt的输出敏感性可能无法生成准确或有用的回复。特别地,给定不同的prompt,模型的输出质量可能会有显著的波动,导致其性能不稳定和预测结果偏差较大。为此,本发明提供了一种大语言模型的提问文本生成方案,能够有效解决大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,并优化了prompt的选择过程及生成质量。
本发明实施例公开了一种大语言模型的提问文本生成方法,参见图1所示,该方法包括:
步骤S11:利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合。
本实施例中,利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索,以检索出与用户输入的初始提问文本相似的其他文本,得到相似文本集合。例如,用户对机器人对话系统发出一个初始提问,进而该机器人对话系统利用预设语义相似度检索算法对用户输入的问句进行相似句检索,以便后续根据检索结果,并基于策略梯度算法选择出最合适的prompt,以提高大语言模型的性能表现及其稳定性,提升用户体验。其中,在语言模型中prompt指的是一个起始文本,用于生成后续的文本,也即用于指导大语言模型生成自然语言文本的文本片段,策略梯度(Policy Gradient)算法指的是强化学习中一种基于概率策略的优化方法,它直接对策略进行学习和优化,而不需要显式地计算值函数。策略梯度算法通过优化策略的参数来提高策略的表现,更新策略的参数需要计算损失函数的梯度,通过梯度上升的方式更新策略参数,使得策略在期望奖励最大化的条件下得到不断优化。例如,用户输入的初始提问文本为“请问你有什么投资需求吗?”,然后利用预设语义相似检索算法对该初始prompt进行相似句检索以检索出与该初始prompt相似的一批句子,作为初始prompt集合,即相似文本集合,如检索出“您希望以什么方式进行投资?”、“请问您对投资收益率有什么期望?”等句子。
步骤S12:利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。
可以理解的是,利用预设策略梯度算法对策略网络进行训练,使其在不同的对话场景下,能够根据用户输入的初始提问文本,从相似文本集合中选择出最优的prompt,以便后续将该最优的prompt输入到大语言模型中生成符合用户意图的回答,从而提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好的服务用户。
本实施例中,所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,具体可以包括:利用随机选取到的样本提问文本构建相应的相似文本训练集;利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量,并将所述语义向量作为当前待训练状态;通过策略网络产生与所述当前待训练状态对应的动作;将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励;利用预设策略梯度算法,并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络;将所述当前输出的状态确定为新的所述当前待训练状态,重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤,直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。
需要指出的是,在每一次训练前,随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;或,记录训练次数得到当前训练次数,并判断当前训练次数是否达到预设训练次数;如果当前训练次数达到所述预设训练次数,则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;如果当前训练次数未达到所述预设训练次数,则继续利用当前相似文本训练集训练所述策略网络。也就是说,预设语义相似度检索算法的检索过程和强化学习模型的训练过程可以交替进行,即每次训练前都重新选取一组候选prompt集合,或者每隔一定的训练次数重新选择一次候选prompt集合,以确保模型的泛化能力和效果,并且对策略网络进行训练所采用的预设策略梯度算法可以为基于蒙特卡罗的策略梯度算法,即利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,其中,在训练过程中,每次更新的梯度是采样的多条对话中的平均梯度,因此可以降低梯度估计的方差。
例如,在策略梯度算法中,目的是要最大化一个目标函数,其中/>为参数向量,参数向量θ代表策略函数的参数,决定了在给定状态下采取特定行动的概率。在策略梯度算法中,通过不断调整θ来优化策略,使得该策略下的期望奖励最大化。若策略函数由神经网络表示,则θ就包括神经网络的所有权重和偏置。本实施例中,目的是要找到最佳的prompt来最大化机器人对话系统的回报,因此可以将目标函数定义为系统回报的期望值,即:
;
其中,表示在参数向量/>下的策略,R表示一个对话的回报。由于R是一个随机变量,导致无法直接求解/>的梯度。因此,采用策略梯度方法,通过采样对话来估计/>的梯度。具体的,采样N个对话,每个对话的回报为Ri,对应的prompt为pi,则目标函数/>的梯度可以估计为:
;
其中,可以通过策略的梯度公式来计算,具体公式如下:
;
其中,为在状态/>下采取的动作,将pi作为状态,将选取的prompt作为动作,通过策略梯度方法,不断调整参数向量/>,直到找到最佳的prompt,即与所述初始提问文本对应的语义最相关的目标提问文本。
又例如,基于投顾对话的应用场景,结合预设策略梯度算法,具体阐述强化学习模型的训练过程,并且为了完整地呈现该过程,将预设语义相似度检索算法检索相似prompt的过程其整合到强化学习模型的训练中,即首先初始化大语言模型,以及策略网络/>的参数/>,并设置超参数/>(学习率)、/>(折扣因子)和/>(探索率),然后随机选取一个投顾对话的提问样本/>,并用预设语义相似度检索算法从历史对话中选取/>个与/>语义相似的相似prompt,构成候选prompt集合/>,对于候选prompt集合中的每个候选prompt,即,使用大语言模型/>计算/>对应的embedding向量,并将其作为状态表示,并且对于每个状态表示/>,通过策略网络/>生成一个动作/>,即根据当前状态从候选prompt集合选择下一步要执行的一个目标prompt,使用选中的目标prompt和当前状态作为输入,利用大语言模型/>执行该选中的prompt,并得到相应的回复,并将该回复作为当前对话的新状态的一部分。从而得到下一个状态/>和对应的即时奖励reward />,利用策略梯度算法优化策略网络/>的参数,使得期望的奖励最大化,也即通过最大化回报函数/>的方式来优化策略网络的参数:
;
其中,表示一条采样轨迹,T为对话的长度,/>表示策略网络在参数/>下生成该轨迹的概率,/>表示策略网络的目标函数,也即系统回报的期望值,/>表示在状态/>下,采取行动/>的概率,/>表示在状态/>下,采取行动/>所获得的回报。
需要指出的是,上述embedding向量通常指的是将离散型数据,如单词、句子或段落等转化为连续型的低维度向量,这些向量捕捉了数据的语义信息,且相似的数据项在向量空间中彼此接近。例如,在投顾对话场景中,上述提及的“使用大语言模型计算/>对应的embedding向量”,表示将用户的提问或某个prompt转化为一个连续的向量表示,该向量不仅仅是简单的数字组合,它在多维空间中的位置代表了原始文本的语义含义。
并且,计算回报,一般使用折扣累计回报的方式,即
;
其中为折扣因子,用于降低未来回报的重要性,T为对话的结束时刻,/>为时刻时的即时奖励。在投顾对话场景中,回报可以定义为当前选择的prompt是否能够有效地推进对话,以及对话的质量是否得到提高。因此,可以将回报定义为当前选择的prompt在GPT-3,及Meta推出的OPT(Open Pre-trained Transformer,开放式预训练Transformer)等大语言模型中输出的期望奖励,即:
;
其中,为GPT-3模型给出的在执行目标prompt />后生成的回复的概率分布,/>为生成的回复,/>为对话样本/>中的真实回复,/>为对生成回复和真实回复/>的相似度评估。
根据策略梯度更新策略网络的参数,能够提高算法的收敛速度和稳定性。并根据目标网络的更新策略进行调整,可以使用如下公式进行更新:
;
其中,是学习率。
重复上述过程,学习最佳的prompt选择策略,直到优化后的策略网络收敛或达到预设的最大训练次数,得到训练好的策略网络,以便后续使用训练好的策略网络进行实际对话,也即对于每一个新的对话状态,训练好的策略网络选择出与该新的对话状态对应的一个prompt,即产生与状态/>对应的动作/>,然后计算机器人对话系统的回复/>,将/>、/>、/>分别存储到经验池中。
在测试及部署阶段,利用训练好的策略网络和预设语义相似性检索算法,可以根据当前对话的状态选择最佳的prompt作为输入,然后在GPT-3中执行最佳的prompt并得到对应的回复。具体流程:给定当前对话样本,预设语义相似性检索算法从历史对话中检索出中/>个与/>语义相似的prompt,得到候选prompt集合,对于候选prompt集合中的每个候选prompt,即/>,使用大语言模型/>计算/>对应的embedding向量/>,并将其作为状态/>的一部分,并且如果当前对话存在上下文内容,状态/>还可以包括当前对话的上下文,然后输入状态/>到训练好的策略网络中,生成下一个要执行的prompt的概率分布,使用该概率分布采样选择出一个目标prompt,然后在GPT-3等大模型中执行该目标prompt,并得到相应的回复,可以将该回复作为当前对话的新状态,重复上述步骤直到对话结束,并且在测试阶段,可以采用不同的评价指标评估生成的回复质量。
需要指出的是,在训练过程中,需要使用经验回放机制来缓解样本的相关性和稳定训练过程,使用经验回放(experience replay)技术,将强化学习模型在历史对话中的交互数据存储在回放缓冲区中,并从中随机采样一部分数据进行训练,也就是说,从回放缓冲区中采样一个batch的数据,使用这些数据来优化策略网络的参数,从而减少训练过程中的方差,提高模型的稳定性和效率。
步骤S13:利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。
本实施例中,利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合,并利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络之后,利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。具体的,根据用户输入的所述初始提问文本确定当前目标状态,并基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。可以理解的是,根据用户输入的问题及上下文信息定义当前目标状态,基于当前状态,利用训练好的策略网络从相似文本集合中选择最佳的prompt作为回答用户问题的基础,并且训练好的策略网络输出的最佳的prompt可以最大化reward(回报),其中,reward可以根据机器人对话系统的目标而定,例如用户满意度、完成交易量等。
步骤S14:将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
本实施例中,利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本之后,将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。可以理解的是,根据训练好的策略网络选择到的最佳prompt,机器人对话系统生成一个回答。例如,当用户提问“近期有哪些值得关注的科技股?”,训练好的策略网络可能选择最佳的prompt,即“你对科技股的投资趋势有何看法?”,然后,机器人对话系统可能回答:“近期,苹果和特斯拉都表现出色,您或许可以关注下这两家公司的股票”。
本实施中,所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后,还可以包括:接收用户针对所述答复信息输入的新的初始提问文本,并重新跳转至所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合的步骤。也就是说,系统的回答用户的提问后,会等待用户的进一步问题或反馈,然后再次进入交互循环。
需要指出的是,所述大语言模型,如GPT-3或者OPT等语言模型可以作为投顾对话场景应用的基座模型,若对这几个千亿级模型尚未有条件使用的话,还可以使用相关开源的百亿参数级的大语言模型,如清华大学推出的GLM(General Language Model,通用语言模型)系列开源模型等。例如,在实际应用中,机器人对话系统能够根据用户的提问,通过预设语义相似检索算法构建出候选prompts,并利用训练好的强化学习模型从候选prompts中选择最佳的prompt,进一步将最佳的prompt输入到投顾场景下的大型语言基座模型中,该大型语言基座模型根据最佳的prompt生成符合用户意图的回答。
可见,本发明实施例中,通过利用预设语义相似性检索算法进行相似文本的检索,以及通过利用预设策略梯度算法训练策略网络,使其在不同的对话场景下,能够根据用户输入的初始提问文本,从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好的服务用户。也即本发明的技术方案优化了prompt的选择过程及其生成质量,能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,从而通过大语言模型生成最符合用户意图的回答。
参见图2所示,本发明实施例公开了一种具体的大语言模型的提问文本生成方法,相较于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S21:利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本,得到相应的相似文本集合。
本实施例中,使用SimCSE(Simple Contrastive Learning of SentenceEmbeddings,句子嵌入的简单对比学习)算法进行相似句检索,对语料库中的句子进行相似句检索,以基于相似度找到与用户输入的初始提问文本对应语义最相似的语句,得到相应的相似文本集合,然后利用训练好的策略网络选择出最合适的prompt语句作为输入,输入到大语言模型中进行答复信息的生成。可以理解的是,通过这种方式,找到与用户输入的问题最相关的prompt,以提高大语言模型的提示质量。
例如,在用户与机器人对话系统对话的应用场景中,用户发起一个提问,即初始prompt为“我有一些闲置资金,怎样投资比较合适?”,然后利用SimCSE算法对该初始prompt进行相似句检索,目的是从语料库中检索出与该初始prompt语义相似的其他句子作为初始prompt集合。假如利用SimCSE算法从语料库中检索到了与初始prompt相似的其他句子,如“我手头有10万,想要投资,有什么建议?”、“考虑到当前的市场情况,我应该怎么配置我的投资组合?”、“我是投资新手,不知道应该从哪里开始,能给点建议吗?”等句子,检索这些句子,与初始prompt都关注于如何进行投资或寻求投资建议,因此可以作为初始prompt集合,也就是说,为机器人对话系统构建了一个与“如何投资”相关的初始prompt集合,为后续的用户交互提供了一个起始点。
步骤S22:利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。
步骤S23:利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。
步骤S24:将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
关于上述步骤S22至步骤S24的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本发明实施例中,通过利用预设SimCSE算法进行相似文本的检索,以及通过利用预设策略梯度算法训练策略网络,使其在不同的对话场景下,能够根据用户输入的初始提问文本,从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好的服务用户,然后通过大语言模型生成最符合用户意图的回答,也即本发明的技术方案优化了prompt的选择过程及其生成质量,能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,从而通过大语言模型生成最符合用户意图的回答。
例如,参见图3所示,针对用户输入的提问,使用SimCSE算法进行相似句检索,对语料库中的句子进行相似句检索,以基于相似度找到与提问对应语义最相似的top k个相似问句,然后利用基于策略梯度算法训练好的策略网络从k个相似问句中选择最佳的prompt,用于更好的给大语言模型进行引导提示,将该最佳的prompt输入到大语言模型中生成符合用户意图的回答,从而提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好的服务用户。也就是说,构建的机器人对话系统引入强化学习技术,使用策略梯度算法来训练模型,使其在不同的对话场景下,能够根据用户的提问,选择出最佳的prompt,并生成符合用户意图的回答。由此可知,本发明的技术方案通过将强化学习算法和语义相似检索算法相结合,找到最优的prompt,提高了机器人对话系统的准确性和可靠性,从而实现了在投顾对话场景下更加高效的机器人投顾服务,其中,本发明的技术方案除了应用于投顾对话场景中,还能够广泛应用于各种搜索引擎、聊天机器人等人工智能场景中。例如,在搜索引擎中,用户的查询可能与已有的索引内容存在语义相似性而不是完全的文本匹配,如用户搜索“如何高效学习”和“最佳的学习方法”在语义上是相似的,但文本不完全匹配,通过使用SimCSE算法可以帮助搜索引擎找到与用户查询语义相似的内容,从而提供更加相关的搜索结果,搜索引擎进一步可以利用策略网络预测哪些搜索结果更可能满足用户的需求,从而对搜索结果进行排序。又例如,聊天机器人需要理解用户的意图并作出响应,当用户提问时,机器人可以使用SimCSE算法检索出与用户问题语义相似的已知问题,并基于此提供答案,并且在多个可能的回答中,策略网络可以帮助机器人选择最合适的回复,从而更好地满足用户的期望。
相应的,本发明实施例还公开了一种大语言模型的提问文本生成装置,参见图4所示,该装置包括:
相似文本检索模块11,用于利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;
网络训练模块12,用于利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;
目标提问文本确定模块13,用于利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;
答复信息生成模块14,用于将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
由上可见,本发明实施例中,通过利用预设语义相似性检索算法进行相似文本的检索,以及通过利用预设策略梯度算法训练策略网络,使其在不同的对话场景下,能够根据用户输入的初始提问文本,从相似文本集合中选择出与所述初始提问文本对应的语义最相关的目标提问文本以提高大语言模型的提示质量,进而提高大模型的输出效果,从而更好的服务用户,然后通过大语言模型生成最符合用户意图的回答,也即本发明的技术方案优化了prompt的选择过程及其生成质量,能够有效地解决了大语言模型对于不同prompt的输出敏感性和性能不稳定的问题,从而通过大语言模型生成最符合用户意图的回答。
在一些具体的实施例中,所述相似文本检索模块11,具体可以包括:
相似文本检索单元,用于利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本,得到相应的相似文本集合。
在一些具体的实施例中,所述网络训练模块12,具体可以包括:
网络训练单元,用于利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。
在一些具体的实施例中,所述网络训练模块12,具体可以包括:
训练集构建单元,用于利用随机选取到的样本提问文本构建相应的相似文本训练集;
语义向量计算单元,用于利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量,并将所述语义向量作为当前待训练状态;
动作产生单元,用于通过策略网络产生与所述当前待训练状态对应的动作;
第一处理单元,用于将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励;
参数优化单元,用于利用预设策略梯度算法,并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络;
第二处理单元,用于将所述当前输出的状态确定为新的所述当前待训练状态,重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤,直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。
在一些具体的实施例中,所述目标提问文本确定模块13,具体可以包括:
目标状态确定单元,用于根据用户输入的所述初始提问文本确定当前目标状态;
目标提问文本确定单元,用于基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。
在一些具体的实施例中,所述大语言模型的提问文本生成装置,具体还可以包括:
第一训练集构建模块,用于在每一次训练前,随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
或,记录模块,用于记录训练次数得到当前训练次数;
判断模块,用于判断当前训练次数是否达到预设训练次数;
第二训练集构建模块,用于在当前训练次数达到所述预设训练次数时,则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
处理模块,用于在当前训练次数未达到所述预设训练次数时,则继续利用当前相似文本训练集训练所述策略网络。
进一步的,本发明实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本发明的使用范围的任何限制。
图5为本发明实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的大语言模型的提问文本生成方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的大语言模型的提问文本生成方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的大语言模型的提问文本生成方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种大语言模型的提问文本生成方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种大语言模型的提问文本生成方法,其特征在于,包括:
利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;
利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;
利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;
将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
2.根据权利要求1所述的大语言模型的提问文本生成方法,其特征在于,所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合,包括:
利用预设SimCSE算法对用户输入的初始提问文本进行相似文本检索以基于相似度从语料库中检索出与所述初始提问文本对应语义相似的相似文本,得到相应的相似文本集合。
3.根据权利要求1所述的大语言模型的提问文本生成方法,其特征在于,所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,包括:
利用基于蒙特卡罗的策略梯度算法对策略网络进行训练得到相应的训练好的策略网络。
4.根据权利要求1所述的大语言模型的提问文本生成方法,其特征在于,所述利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络,包括:
利用随机选取到的样本提问文本构建相应的相似文本训练集;
利用所述大语言模型计算所述相似文本训练集中相似文本对应的语义向量,并将所述语义向量作为当前待训练状态;
通过策略网络产生与所述当前待训练状态对应的动作;
将所述当前待训练状态和与所述当前待训练状态对应的动作输入至所述大语言模型中得到所述大语言模型的当前输出的状态以及与所述动作对应的即时奖励;
利用预设策略梯度算法,并基于与所述动作对应的所述即时奖励对所述策略网络的参数进行优化得到优化后策略网络;
将所述当前输出的状态确定为新的所述当前待训练状态,重新跳转至所述通过策略网络产生与所述当前待训练状态对应的动作的步骤,直至所述优化后策略网络满足预设训练条件得到训练好的策略网络。
5.根据权利要求4所述的大语言模型的提问文本生成方法,其特征在于,所述利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本,包括:
根据用户输入的所述初始提问文本确定当前目标状态,并基于所述当前目标状态利用所述训练好的策略网络从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本。
6.根据权利要求1所述的大语言模型的提问文本生成方法,其特征在于,还包括:
在每一次训练前,随机选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
或,记录训练次数得到当前训练次数,并判断当前训练次数是否达到预设训练次数;
如果当前训练次数达到所述预设训练次数,则重新选取新的样本提问文本以构建用于训练所述策略网络的新的相似文本训练集;
如果当前训练次数未达到所述预设训练次数,则继续利用当前相似文本训练集训练所述策略网络。
7.根据权利要求1至6任一项所述的大语言模型的提问文本生成方法,其特征在于,所述将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息之后,还包括:
接收用户针对所述答复信息输入的新的初始提问文本,并重新跳转至所述利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合的步骤。
8.一种大语言模型的提问文本生成装置,其特征在于,包括:
相似文本检索模块,用于利用预设语义相似度检索算法对用户输入的初始提问文本进行相似文本检索得到相应的相似文本集合;
网络训练模块,用于利用预设策略梯度算法对策略网络进行训练得到相应的训练好的策略网络;
目标提问文本确定模块,用于利用所述训练好的策略网络,从所述相似文本集合中确定与所述初始提问文本对应的语义最相关的目标提问文本;
答复信息生成模块,用于将所述目标提问文本输入至大语言模型得到所述大语言模型根据所述目标提问文本对应的语义生成的符合用户意图的答复信息。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的大语言模型的提问文本生成方法的步骤。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的大语言模型的提问文本生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330003.7A CN117093696B (zh) | 2023-10-16 | 2023-10-16 | 一种大语言模型的提问文本生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311330003.7A CN117093696B (zh) | 2023-10-16 | 2023-10-16 | 一种大语言模型的提问文本生成方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117093696A true CN117093696A (zh) | 2023-11-21 |
CN117093696B CN117093696B (zh) | 2024-02-02 |
Family
ID=88783581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311330003.7A Active CN117093696B (zh) | 2023-10-16 | 2023-10-16 | 一种大语言模型的提问文本生成方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093696B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
CN117744754A (zh) * | 2024-02-19 | 2024-03-22 | 浙江同花顺智能科技有限公司 | 大语言模型任务处理方法、装置、设备及介质 |
CN117744753A (zh) * | 2024-02-19 | 2024-03-22 | 浙江同花顺智能科技有限公司 | 大语言模型的提示词确定方法、装置、设备及介质 |
CN117828063A (zh) * | 2024-01-10 | 2024-04-05 | 广东数业智能科技有限公司 | 一种心理领域数据生成、模型训练方法、装置及存储介质 |
CN117932041A (zh) * | 2024-03-21 | 2024-04-26 | 南京信息工程大学 | 基于思维链推理的情绪支持对话生成方法、系统及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201419051D0 (en) * | 2014-10-27 | 2014-12-10 | Ibm | Automatic question generation from natural text |
US20180365225A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for acquiring semantic fragment of query based on artificial intelligence |
US20210191962A1 (en) * | 2020-05-27 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Question answering method and language model training method, apparatus, device, and storage medium |
US20210209112A1 (en) * | 2020-04-27 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text query method and apparatus, device and storage medium |
CN113312609A (zh) * | 2021-05-14 | 2021-08-27 | 华南理工大学 | 基于策略梯度的生成式对抗网络的口令破解方法及系统 |
CN113971212A (zh) * | 2020-07-23 | 2022-01-25 | 北京彩云环太平洋科技有限公司 | 多语种问答方法、装置、电子设备及存储介质 |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN115392263A (zh) * | 2021-12-13 | 2022-11-25 | 中国科学院计算技术研究所 | 一种基于知识选择的对话模型及其训练方法 |
US20230153337A1 (en) * | 2022-01-20 | 2023-05-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Question answering method, method of training a question answering model, electronic device, and medium |
CN116150335A (zh) * | 2022-12-19 | 2023-05-23 | 中国电子科技集团公司第二十八研究所 | 一种军事场景下文本语义检索方法 |
CN116341562A (zh) * | 2023-03-28 | 2023-06-27 | 桂林电子科技大学 | 一种基于Unilm语言模型的相似问题生成方法 |
CN116450780A (zh) * | 2021-12-28 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 一种检索式多轮对话模型的对抗训练方法及相关装置 |
CN116501831A (zh) * | 2022-01-18 | 2023-07-28 | 北京奇虎科技有限公司 | 问题召回方法、装置、设备及存储介质 |
CN116521850A (zh) * | 2023-07-04 | 2023-08-01 | 北京红棉小冰科技有限公司 | 一种基于强化学习的交互方法及装置 |
-
2023
- 2023-10-16 CN CN202311330003.7A patent/CN117093696B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201419051D0 (en) * | 2014-10-27 | 2014-12-10 | Ibm | Automatic question generation from natural text |
US20180365225A1 (en) * | 2017-06-19 | 2018-12-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for acquiring semantic fragment of query based on artificial intelligence |
US20210209112A1 (en) * | 2020-04-27 | 2021-07-08 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Text query method and apparatus, device and storage medium |
US20210191962A1 (en) * | 2020-05-27 | 2021-06-24 | Beijing Baidu Netcom Science Technology Co., Ltd. | Question answering method and language model training method, apparatus, device, and storage medium |
CN113971212A (zh) * | 2020-07-23 | 2022-01-25 | 北京彩云环太平洋科技有限公司 | 多语种问答方法、装置、电子设备及存储介质 |
CN113312609A (zh) * | 2021-05-14 | 2021-08-27 | 华南理工大学 | 基于策略梯度的生成式对抗网络的口令破解方法及系统 |
CN115392263A (zh) * | 2021-12-13 | 2022-11-25 | 中国科学院计算技术研究所 | 一种基于知识选择的对话模型及其训练方法 |
CN116450780A (zh) * | 2021-12-28 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 一种检索式多轮对话模型的对抗训练方法及相关装置 |
CN116501831A (zh) * | 2022-01-18 | 2023-07-28 | 北京奇虎科技有限公司 | 问题召回方法、装置、设备及存储介质 |
US20230153337A1 (en) * | 2022-01-20 | 2023-05-18 | Beijing Baidu Netcom Science Technology Co., Ltd. | Question answering method, method of training a question answering model, electronic device, and medium |
CN114416927A (zh) * | 2022-01-24 | 2022-04-29 | 招商银行股份有限公司 | 智能问答方法、装置、设备及存储介质 |
CN116150335A (zh) * | 2022-12-19 | 2023-05-23 | 中国电子科技集团公司第二十八研究所 | 一种军事场景下文本语义检索方法 |
CN116341562A (zh) * | 2023-03-28 | 2023-06-27 | 桂林电子科技大学 | 一种基于Unilm语言模型的相似问题生成方法 |
CN116521850A (zh) * | 2023-07-04 | 2023-08-01 | 北京红棉小冰科技有限公司 | 一种基于强化学习的交互方法及装置 |
Non-Patent Citations (2)
Title |
---|
刘畅;周向东;施伯乐;: "图像语义相似性网络的文本描述方法", 计算机应用与软件, no. 01, pages 217 - 222 * |
吴炎;王儒敬;: "基于BERT的语义匹配算法在问答系统中的应用", 仪表技术, no. 06, pages 23 - 26 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117407514A (zh) * | 2023-11-28 | 2024-01-16 | 星环信息科技(上海)股份有限公司 | 一种解决计划生成方法、装置、设备及存储介质 |
CN117828063A (zh) * | 2024-01-10 | 2024-04-05 | 广东数业智能科技有限公司 | 一种心理领域数据生成、模型训练方法、装置及存储介质 |
CN117828063B (zh) * | 2024-01-10 | 2024-05-17 | 广东数业智能科技有限公司 | 一种心理领域数据生成、模型训练方法、装置及存储介质 |
CN117744754A (zh) * | 2024-02-19 | 2024-03-22 | 浙江同花顺智能科技有限公司 | 大语言模型任务处理方法、装置、设备及介质 |
CN117744753A (zh) * | 2024-02-19 | 2024-03-22 | 浙江同花顺智能科技有限公司 | 大语言模型的提示词确定方法、装置、设备及介质 |
CN117744753B (zh) * | 2024-02-19 | 2024-05-03 | 浙江同花顺智能科技有限公司 | 大语言模型的提示词确定方法、装置、设备及介质 |
CN117744754B (zh) * | 2024-02-19 | 2024-05-10 | 浙江同花顺智能科技有限公司 | 大语言模型任务处理方法、装置、设备及介质 |
CN117932041A (zh) * | 2024-03-21 | 2024-04-26 | 南京信息工程大学 | 基于思维链推理的情绪支持对话生成方法、系统及装置 |
CN117932041B (zh) * | 2024-03-21 | 2024-06-11 | 南京信息工程大学 | 基于思维链推理的情绪支持对话生成方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117093696B (zh) | 2024-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117093696B (zh) | 一种大语言模型的提问文本生成方法、装置、设备及介质 | |
CN110413729B (zh) | 基于尾句-上下文双重注意力模型的多轮对话生成方法 | |
CN108763495B (zh) | 人机对话方法、系统、电子设备及存储介质 | |
CN111382573A (zh) | 用于答案质量评估的方法、装置、设备和存储介质 | |
Wu et al. | A probabilistic framework for representing dialog systems and entropy-based dialog management through dynamic stochastic state evolution | |
CN112506945B (zh) | 基于知识图谱的自适应导学方法及系统 | |
CN111813909A (zh) | 一种智能问答方法和装置 | |
CN112668338A (zh) | 澄清问题生成方法、装置和电子设备 | |
CN112905772B (zh) | 语义相关性分析方法、装置及相关产品 | |
JP2019192246A (ja) | 自然言語質問回答システム用のトレーニングデータを提供する方法および装置 | |
WO2022160969A1 (zh) | 基于多轮对话改进的智能客服辅助系统系统和方法 | |
WO2024051115A1 (zh) | 一种文本生成方法、装置、设备及非易失性可读存储介质 | |
Al-Besher et al. | BERT for Conversational Question Answering Systems Using Semantic Similarity Estimation. | |
Lin et al. | Target-guided knowledge-aware recommendation dialogue system: an empirical investigation | |
Aggarwal et al. | Improving search through A3C reinforcement learning based conversational agent | |
US20230029590A1 (en) | Evaluating output sequences using an auto-regressive language model neural network | |
CN116028615A (zh) | 基于知识引导的回复生成方法、装置和电子设备 | |
KR20210089626A (ko) | 확장성 및 강인성을 갖는 대화 시스템 및 방법 | |
CN112328774A (zh) | 基于多文档的任务型人机对话任务的实现方法 | |
CN111460106A (zh) | 一种信息交互方法、装置及设备 | |
CN115269844B (zh) | 模型的处理方法、装置、电子设备和存储介质 | |
CN116991982B (zh) | 基于人工智能的交互式对话方法、装置、设备及存储介质 | |
CN116737888B (zh) | 对话生成模型的训练方法和答复文本的确定方法、装置 | |
Madan et al. | Unsupervised learning of interpretable dialog models | |
CN118014039A (zh) | 模型训练方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |