CN117453885A - 提问信息处理方法、装置、设备、存储介质及产品 - Google Patents
提问信息处理方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN117453885A CN117453885A CN202311470635.3A CN202311470635A CN117453885A CN 117453885 A CN117453885 A CN 117453885A CN 202311470635 A CN202311470635 A CN 202311470635A CN 117453885 A CN117453885 A CN 117453885A
- Authority
- CN
- China
- Prior art keywords
- language model
- target
- information
- questioning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 34
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims description 94
- 238000012545 processing Methods 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 abstract description 30
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000003058 natural language processing Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 238000009966 trimming Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种提问信息处理方法、装置、设备、存储介质及产品,属于人工智能技术领域。该提问信息处理方法可以对提问信息进行专业领域方向的类别划分,从而判断出该提问信息所属的专业领域。本申请实施例的核心发明构思是提供了提问信息路由方案,该路由方案提供这样的能力:能够判断提问信息属于专业领域问题还是非专业领域问题,并通过判断结果将提问信息分发给相关的大型生成式语言模型,提高大型生成式语言模型回答问题的准确性,从而能够为通用问题和专业领域的问题都提供同样优质的回答服务,通过兼容通用问题和专业领域的问题的回答服务,从而解决相关技术中难以兼顾对通用问题和专业领域的问题的有效回答的技术问题。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种提问信息处理方法、装置、设备、存储介质及产品。
背景技术
随着大型生成式语言模型的迅速发展,越来越多的大型生成式语言模型涌现出来。由于大型生成式语言模型的训练是基于通用数据进行的,在许多专业领域,大型生成式语言模型的回答效果不够专业。对大型生成式语言模型进行参数微调,以便大型生成式语言模型能够掌握专业知识是发展趋势。
但是,融入专业知识的过程可能会变更或增加大型生成式语言模型的参数,由于基于特定数据进行了参数修改或者是增加了参数,导致这一类大型生成式语言模型对通用问题的回答效果下降,即出现知识遗忘现象,也就是说经过这类调整的大型生成式语言模型在回答通用问题时很可能出现答非所问的情况。
发明内容
本申请实施例提供了一种提问信息处理方法、装置、设备、存储介质及产品,能够为通用问题和专业领域的问题都提供同样优质的回答服务,也就是说,通过根据提问信息的专业领域类别将提问信息路由到适配的大型生成式语言模型的方式,可以提供兼容通用问题和专业领域的问题的回答服务,从而解决相关技术中难以兼顾对通用问题和专业领域的问题的有效回答的技术问题。
根据本申请实施例的一个方面,提供了一种提问信息处理方法,所述方法包括:
获取提问信息;
对所述提问信息进行专业领域划分处理,得到所述提问信息对应的目标类别,所述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型;
将所述提问信息发送至所述目标大型生成式语言模型,得到所述目标大型生成式语言模型反馈的针对所述提问信息的回答信息;
其中,所述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
所述第二类模型簇中的大型生成式语言模型为以所述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
根据本申请实施例的一个方面,提供了一种提问信息处理装置,所述装置包括:
提问信息获取模块,用于获取提问信息;
提问信息处理模块,用于执行下述操作:
对所述提问信息进行专业领域划分处理,得到所述提问信息对应的目标类别,所述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型;
将所述提问信息发送至所述目标大型生成式语言模型,得到所述目标大型生成式语言模型反馈的针对所述提问信息的回答信息;
其中,所述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
所述第二类模型簇中的大型生成式语言模型为以所述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述提问信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述提问信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述提问信息处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
本申请实施例提供一种提问信息处理方法,该提问信息处理方法可以对提问信息进行专业领域方向的类别划分,从而判断出该提问信息所属的专业领域。如果该提问信息属于某个专业领域,则将其分发至对应的专业领域下的大型生成式语言模型。如果该提问信息属于某个通用领域,则将其分发至通用领域下的大型生成式语言模型。事实上,本申请实施例的核心发明构思是提供了提问信息路由方案,该路由方案提供这样的能力:能够判断提问信息属于专业领域问题还是非专业领域问题,并通过判断结果将提问信息分发给相关的大型生成式语言模型,提高大型生成式语言模型回答问题的准确性,从而能够为通用问题和专业领域的问题都提供同样优质的回答服务,通过兼容通用问题和专业领域的问题的回答服务,从而解决相关技术中难以兼顾对通用问题和专业领域的问题的有效回答的技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的提问信息处理方法的流程图;
图3是本申请一个实施例提供的大型生成式语言模型集群示意图;
图4是本申请一个实施例提供的目标大型生成式语言模型确定方法流程示意图;
图5是本申请一个实施例提供的提问信息处理方法框架示意图;
图6是本申请一个实施例提供的二次匹配方法流程示意图;
图7是本申请一个实施例提供的二次匹配框架示意图;
图8是本申请一个实施例提供的完整提问信息处理框架示意图;
图9是本申请一个实施例提供的提问信息处理装置的框图;
图10是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
自然语言处理(NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
LLM:大型生成式语言模型(英文Large Language Model,简称LLM)是指能够处理和生成自然语言的计算机模型。它代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。LLM可以通过学习语言数据的统计规律和语义信息来预测下一个单词或句子,随着输入数据集与参数空间的不断扩大,LLM的能力也会相应提高。它用于多种应用领域,如机器人学、机器学习、机器翻译、语音识别、图像处理等。LLM模型的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型的应用非常广泛,可以用于生成文本、自动翻译、情感分析等任务。它们也被认为是通用的,因为它们可以执行多种类型的自然语言处理任务。此外,LLM模型也被认为是有趣的,因为它们可以展示出人类语言的不同方面,包括语法、语义和语用等。总的来说,LLM模型是一种强大的人工智能模型,可以用于各种自然语言处理任务。
Instruction Tuning:指令微调,是指针对每个任务,单独生成指令(instruction),通过在若干个任务上进行微调,然后在具体的任务上进行评估泛化能力。通常是在公开的大量的NLP任务数据集合上进行的,用于激发语言模型的理解能力,通过给出更明显的指令,让模型去理解并做出正确的反馈。指令微调是一种以人类提供的指令为基础的技术,允许模型根据具体任务需求进行微调。在微调过程中,模型与人的任务指导或示例进行交互,根据输入和任务要求进行相应调整,从而生成更准确、更合理的回答或输出。这使模型更好地适应特定应用场景或任务,提高输出的质量和准确度。
Prompt tuning:提示学习,机器学习当中的一类学习方法:在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、作为一种信息增强来大幅改善模型的效果,他可以看作是一种对任务的指令,同时也是一种对预训练目标的复用,其本质是参数有效性训练的增强,通过单独生成prompt模板,然后在每个任务上进行微调与评估。指令微调和提示学习是增强大型生成式语言模型适应能力的关键技术,它们之间的关系密切。对于提示学习,它是构建众多基于大语言模型的应用程序的重要来源。在指令微调过程中,提示也发挥着至关重要的作用。提示是一种向模型提供的特定信息或上下文线索,可以包括任务的概括、问题的描述,或是输入和期望输出之间的映射关系。通过清晰的提示,可以激发模型在解决特定任务时更加专注和准确。提示与模型的互动有助于模型进行针对性的调整,生成满足要求的输出。在LLM模型的应用过程中,提示学习可以作为一种微调技术,帮助LLM模型更好地适应特定的任务或领域。例如,对于一个机器翻译任务,可以先使用LLM模型进行初步翻译,然后使用提示学习来微调模型的翻译结果,使其更符合目标语言的文化背景和习惯表达。
Transformer:是一种神经网络,它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。LLM模型和Transformer有着密切的关系。实际上,LLM模型通常采用的是Transformer架构,这种架构可以并行处理输入序列中的每个元素,使得LLM模型在处理大量文本数据时更加高效。在LLM模型中,Transformer也被用于各种自然语言处理任务,如文本摘要、机器翻译和情感分析等。通过训练大量的文本数据,LLM模型可以学习语言数据中的复杂模式,并生成具有意义的文本。另外,LLM模型和Transformer也与NLP领域中的其他技术密切相关。例如,它们可以与词嵌入(word embeddings)技术结合使用,以更好地表示和理解文本中的词和短语。此外,LLM模型也可以与其他模型集成,以创建更强大的自然语言处理系统。
在具体阐述本申请实施例之前,对与本申请实施例有关的相关技术背景进行介绍,以便于本申请领域技术人员理解。
随着大型生成式语言模型的迅速发展,越来越多的大型生成式语言模型涌现出来。由于大型生成式语言模型的训练是基于通用数据进行的,在许多专业领域,大型生成式语言模型的回答效果不够专业。对大型生成式语言模型进行参数微调,以便大型生成式语言模型能够掌握专业知识是发展趋势。在这一过程中,提示学习和指令微调发挥了重要作用,可以在通用的大型生成式语言模型基础上快速融入专业知识,得到适配专业领域的回答效果。
但是,融入专业知识的过程可能会变更或增加大型生成式语言模型的参数,经过基于专业领域的数据微调后的大型生成式语言模型,由于基于特定数据(专业知识信息)进行了参数修改或者是增加了参数,导致这一类大型生成式语言模型对通用问题的回答效果下降,即出现知识遗忘现象,也就是说经过这类调整的大型生成式语言模型在回答通用问题时很可能出现答非所问的情况。
有鉴于此,本申请实施例指出相关技术难以得到一个既可以为通用问题提供较好的回答服务,也同样可以为专业领域问题提供较好的回答服务的单一大型生成式语言模型。本申请实施例提出通过构建大型生成式语言模型集群的方式解决上述问题,即根据具体的问题在大型生成式语言模型集群中智能确定出最为适配于为该具体的问题提供回答服务的目标大型生成式语言模型,从而将该具体的问题分发至该目标大型生成式语言模型,得到该目标大型生成式语言模型输出的最为适配该具体的问题的最佳答案。事实上,本申请实施例提出的在大型生成式语言模型集群中,智能确定出最为适配于为该具体的问题提供回答服务的目标大型生成式语言模型的过程,可以被理解为基于该具体的问题的路径路由过程,通过对该具体的提问进行路由判断,来决定将该具体的提问分发给哪一种大型生成式语言模型。
具体来说,本申请实施例提供一种提问信息处理方法,该提问信息处理方法可以对提问信息进行专业领域方向的类别划分,从而判断出该提问信息所属的专业领域。如果该提问信息属于某个专业领域,则将其分发至对应的专业领域下的大型生成式语言模型。如果该提问信息属于某个通用领域,则将其分发至通用领域下的大型生成式语言模型。事实上,本申请实施例的核心发明构思是提供了提问信息路由方案,该路由方案提供这样的能力:能够判断提问信息属于专业领域问题还是非专业领域问题,并通过判断结果将提问信息分发给相关的大型生成式语言模型,提高大型生成式语言模型回答问题的准确性,从而能够为通用问题和专业领域的问题都提供同样优质的回答服务,通过兼容通用问题和专业领域的问题的回答服务,从而解决相关技术中难以兼顾对通用问题和专业领域的问题的有效回答的技术问题。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供提问信息处理服务的应用程序。典型地,该应用程序可以为问答服务类或者智能助手类应用程序。当然,除了问答服务类或者智能助手类应用程序之外,其它类型的应用程序中也可以提供依赖提问信息处理的服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个实施例提供的提问信息处理方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
S201.获取提问信息;
本申请实施例并不对提问信息的内容和语态进行限定,其可以是任何文本类型的内容,也不一定是疑问语态,可以将其理解为在希望与机器形成对话的场景下,用于引导机器进行文本输出所需要的文本信息。其可以是疑问语态的句子,比如“今天天气好么”,也可以是陈述语态的句子,比如,“今天天气真好啊”,甚至表达情绪的句子“今天真高兴啊!”。本申请实施例的提问信息可以是某个专业领域的内容也可以是不属于任何专业领域的内容。
S202.对上述提问信息进行专业领域划分处理,得到上述提问信息对应的目标类别,上述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;上述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;上述第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型;
本申请实施例提出单一的大型生成式语言模型难以满足兼容对通用领域的提问和专业领域的提问都提供优质服务的要求,因此,本申请实施例提出构建大型生成式语言模型集群的概念。上述大型生成式语言模型集群包括通用领域对应的第一类模型簇,本申请实施例中,第一类模型簇中大型生成式语言模型的数量可以为1个,当然,为了负载均衡的考量,第一类模型簇中大型生成式语言模型的数量也可以有多个。通用领域的大型生成式语言模型是专业领域的大型生成式语言模型的基础,确切的说,专业领域的大型生成式语言模型是在通用领域的大型生成式语言模型的基础上,通过提示学习、指令微调等方式对通用领域的大型生成式语言模型的参数进行调整或者增加,从而融合专业领域的知识所得到的专业领域的大型生成式语言模型,其具备对该专业领域的提问信息进行准确回答的能力,而这一能力是通用领域的大型生成式语言模型所不具备的,但是这一对该专业领域的提问信息进行准确回答的能力的代价是,该专业领域的大型生成式语言模型降低了自身对通用领域的提问信息进行回答的能力。
本申请实施例中每一个业务领域分别配置对应的第二类模型簇,该业务领域下的专业知识可以被用于训练该第二类模型簇的大型生成式语言模型,上述第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。本申请实施例并不限定该第二类模型簇的大型生成式语言模型的数量,可以为1个,也可以出于负载均衡的原因设置多个。每个业务领域都有一个对应的第二类模型簇,每个业务领域都是专业领域。
本申请实施例并不限定大型生成式语言模型(LLM)具体是哪个模型,其可以代指各类通用或专用大型生成式语言模型,如chatgpt-3.5,chatgpt-4,chatglm2,chatglm2-6b,sensechat,MOSS等。chatgpt是一款聊天机器人模型,它能够模拟人类的语言行为,与用户进行自然的交互。它使用大量的训练数据来模拟人类的语言行为,并通过语法和语义分析,生成人类可以理解的文本。它可以根据上下文和语境,提供准确和恰当的回答,并模拟多种情绪和语气。chatglm模型是一种基于Transformer结构的语言模型,它学习了大量的对话语料库,因此,在对话生成和理解任务上表现出优秀的性能。sensechat是在千亿级参数的基础上进行升级优化的结果。该模型在多个领域具备广泛的应用能力,为用户提供更加全面和准确的语言处理服务。能够高效处理大规模文本数据,实现对长文本的深度理解和分析。这一功能的升级为用户提供了更加全面的信息处理能力,满足了用户在处理大量文本信息时的需求。通过对对话过程的全面理解和分析,能够在对话过程中提供更加准确和有价值的回应。无论是在聊天机器人的开发中,还是在智能客服和智能助手等领域中都具备出色的应用潜力。此外,还在表格化信息理解和文案生成方面有着显著的升级。总的来说,该模型是一种先进的大型语言模型,具有多种应用能力,包括超长文本理解、多轮对话、表格化信息理解和文案生成等,为各种领域提供了更全面的语言处理服务。MOSS模型是一种基于语言模型的自然语言生成模型,该模型的全称为“Mapping and OvercomingSparsity for Text Generation through Conditional VariationalAutoencoder withCross-Domain Latent Space Exploration”,是一种基于变分自编码器(VariationalAutoencoder,VAE)的文本生成模型,使用了一种名为“cross-domain latentspace exploration”的方法来提高文本的多样性和生成能力。MOSS模型针对传统的语言模型在生成长篇文本时存在的问题,如单调、重复、缺乏连贯性和多样性等,通过引入条件变分自编码器和跨领域潜空间探索来解决这些问题。MOSS模型在多项任务中取得了非常好的效果,如文本生成、文本修复、文本重构等。它不仅可以生成高质量、多样性的文本,还可以用于文本数据增强、样式迁移等应用。
请参考图3,其示出本申请实施例提供的大型生成式语言模型集群示意图。其中LLM0表示通用领域的大型生成式语言模型,LLM1、LLM2、LLM3、LLM4分别为对应数学计算、文本写作、绘画创作、代码编程四个专业领域的大型生成式语言模型。当然,通用领域或者专业领域下均可以有不止一个大型生成式语言模型,图3内容仅做示例,不构成对本申请实施例的限定。LLM1、LLM2、LLM3、LLM4都是在LLM0的基础上进行参数微调后得到的大型生成式语言模型。
本申请实施例并不限定对上述提问信息进行专业领域划分处理的具体方法,在一个示例性的实施方式中,上述对上述提问信息进行专业领域划分处理,得到上述提问信息对应的目标类别,包括:根据上述提问信息生成分类问题,上述分类问题用于请求大型生成式语言模型输出针对上述提问信息的专业领域划分结果;将上述分类信息发送至上述第一类模型簇中的大型生成式语言模型,得到上述目标类别。
本申请实施例并不限定发送至上述第一类模型簇中的哪一个大型生成式语言模型,可以随机发送,也可以基于负载均衡策略择优发送,或者如果该大型生成式语言模型集群为分布式集群,则也可以选择网络地址距离提出该提问信息的客户端网络地址最近的大型生成式语言模型发送。
本申请实施例并不限定分类问题的具体内容和具体格式,只需要该分类问题可以触发大型生成式语言模型输出针对上述提问信息的专业领域划分结果即可。比如,如果该提问信息为“LLM模型是什么”,则分类问题可以为“‘LLM模型是什么’属于什么专业领域”,也可以为“请对‘LLM模型是什么’进行专业领域划分”,当然,为了提高专业领域划分准确度,也可以将专业领域罗列出来与提问信息一并组成分类问题,分类问题可以为“‘LLM模型是什么’属于下列哪个专业领域,数学计算、文本写作、绘画创作、代码编程”,也可以为“请对‘LLM模型是什么’进行专业领域划分,专业领域可选择项为数学计算、文本写作、绘画创作、代码编程”。
S203.根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型;
为提问信息划分类别的目的在于使得提问信息对应的问题能够和微调后的大型生成式语言模型或者未进行过微调的大型生成式语言模型匹配,前者是专业领域的大型生成式语言模型,后者是通用领域的大型生成式语言模型。
在一个实施方式中,请参考图4,其示出本申请实施例中的目标大型生成式语言模型确定方法流程示意图。上述根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
S401.在上述目标类别指示上述提问信息不属于任一目标专业领域的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
本申请实施例指出由于经过针对专业领域训练所得到的专业领域对应的大型生成式语言模型会存在知识遗忘现象,从而导致其对不属于其所对应的专业领域的提问信息的应答效果下降,因此,如果上述目标类别指示上述提问信息不属于任一目标专业领域,这就说明该目标类别更倾向于通用领域,这种情况下,使用通用领域的大型生成式语言模型进行针对该提问信息的应答可以取得更好的效果,因此,本申请实施例限定在这种情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型。在一些情况下第一类模型簇中可能有多个通用领域的大型生成式语言模型,本申请并不限定在其中确定大型生成式语言模型的方法,比如,可以随机确定,也可以基于负载均衡策略确定。
S402.在上述目标类别指示上述提问信息属于目标专业领域的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
本申请实施例指出由于经过针对专业领域训练所得到的专业领域对应的大型生成式语言模型在回答其所对应的专业领域的相关问题时具备更好的效果,因此,在涉及其所对应的专业领域时,建议优选对应的专业领域下的大型生成式语言模型,而非通用领域的大型生成式语言模型。即,在上述目标类别指示上述提问信息属于目标专业领域的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。在一些情况下第二类模型簇中可能有多个专业领域的大型生成式语言模型,本申请并不限定在其中确定大型生成式语言模型的方法,比如,可以随机确定,也可以基于负载均衡策略确定。
请参考图5,其示出本申请实施例中提问信息处理方法框架示意图。图5与图3沿用同一示例。此处,原始LLM0指没有微调过的大型生成式语言模型,即第一类模型簇中通用领域的大型生成式语言模型,LLMn(n=1、2、3……)代表在不同训练样本情况下微调后的LLM,即第二类模型簇中专业领域的大型生成式语言模型,如支持数学计算的微调,支持文本写作的微调等。提问信息首先进入原始LLM0进行基于专业领域的问题划分,划分的范围和后续微调后LLM的能力相匹配。如果在划分时,选择的范围中没有合适的分类,则归入其他,这种情况下上述目标类别指示上述提问信息不属于目标专业领域,则由第一类模型簇中通用领域的大型生成式语言模型进行应答,即将第一类模型簇中通用领域的大型生成式语言模型作为目标大型生成式语言模型,本次提问路由结束。
在一个实施例中,为了进一步提升对提问信息的应答效果,也可以通过二次匹配法替代步骤S402。简单来说,在上述目标类别指示上述提问信息属于目标专业领域的情况下,开始二次匹配的过程。二次匹配的目的是由于各个专业领域对应的训练样本有限,如果提问信息不在训练样本中,可能目标专业领域的大型生成式语言模型的回答效果甚至不如通用领域的大型生成式语言模型,为了解决该问题,可以在这种情况发生时,依然采用通用领域的大型生成式语言模型进行应答。依然沿用前文示例,也就是依然沿用原始LLM0进行应答。二次匹配法的作用是将与训练样本较为匹配的提问信息交给对应的微调后LLMn进行应答,而将不能匹配训练样本的提问信息交给原始LLM0进行应答。
请参考图6,其示出本申请实施例中二次匹配方法流程示意图。上述根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
S601.在上述目标类别指示上述提问信息属于目标专业领域的情况下,提取上述提问信息对应的第一文本特征,上述目标专业领域为任一上述专业领域;
本申请实施例并不限定第一文本特征提取方法,可以使用Embedding模型完成提取操作,Embedding模型执行的提取操作也被称为“向量化”或者“向量映射”,是深度学习框架中十分重要的基本操作,在NLP(自然语言处理)、搜索排序、推荐系统、CTR(点击率)模型等领域都有着广泛的应用。Embedding模型可以执行词嵌入操作来进行文本特征的提取,也就是Word Embedding,是将词汇表的单词或者短语从高维度映射到低维度的计算过程,有着重要的应用价值。本申请实施例对使用的Embedding模型不做限定,比如,可以使用m3e-base,text2vec-large-chinese等。m3e-base模型是一种文本嵌入模型。这个模型在大量无监督数据上进行训练,以学习文本中的深层语义结构。具体来说,m3e-base模型采用了Transformer架构,使用大规模的无监督文本数据训练模型。在训练过程中,模型学习将输入的文本序列转换为高维度的向量表示,这些向量可以捕捉文本中的语义和语法信息。这些向量被广泛应用于各种NLP任务中,如文本分类、情感分析、问答、文本生成等。text2vec-large-chinese模型是一种基于预训练的大规模中文自然语言处理模型,它从大量无标签的文本中学习语言表示,并生成高质量的文本表示向量。这些向量可以用于各种自然语言处理任务,如文本分类、情感分析、问答、文本生成等。
S602.确定上述目标专业领域对应的训练信息集,上述训练信息集指向上述目标专业领域对应的第二类模型簇所关联的业务领域中的知识,上述目标专业领域对应的第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,基于上述训练信息集训练得到的模型;
上述训练信息集包括多个训练样本,每一上述训练样本包括样本问题以及上述样本问题对应样本回答,即样本信息集中的训练样本的格式可以为{“question”:问题1,“answer”:回答1}。针对每个专业领域,都通过其对应的训练信息集在第一类模型簇中大型生成式语言模型基础上进行参数微调,得到使得其学习到对应的业务领域中的知识,从而最终得到该专业领域对应的第二类模型簇中的各大型生成式语言模型。
S603.基于上述第一文本特征查询上述训练信息集,得到查询结果;
为了便于基于上述第一文本特征查询上述训练信息集,可以将训练信息集中的数据进行文本信息提取,或者说向量映射,得到每个训练样本相关的文本特征。本申请实施例并不限定训练样本相关的文本特征的具体提取方法,与第一文本特征提取方式可以基于相同发明构思。
在一个实施例中,可以对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;计算上述第一文本特征与各上述第二文本特征之间的相似度;在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。本申请实施例并不限定预设要求的内容,比如,可以设置相似度阈值,如果存在高于该相似度阈值的相似度的计算结果,则说明存在符合预设要求的相似度。
在另一个实施例中,对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;对各上述训练样本中的样本回答进行文本信息提取,得到每一上述样本回答对应的第三文本特征;计算上述第一文本特征与各上述第二文本特征之间的相似度,以及计算上述第一文本特征与各上述第三文本特征之间的相似度;在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。本申请实施例并不限定预设要求的内容,比如,可以设置相似度阈值,如果存在高于该相似度阈值的相似度的计算结果,则说明存在符合预设要求的相似度。本申请实施例指出提问信息可能与样本问题相似,也可能与样本回答相似,因此,通过计算上述第一文本特征与各上述第二文本特征之间的相似度,以及计算上述第一文本特征与各上述第三文本特征之间的相似度,可以更全面地完成提心信息对应的知识的检索,使得用于表征上述训练信息集是否存在上述提问信息对应的知识的查询结果更为准确。
S604.在上述查询结果指示上述训练信息集存在上述提问信息对应的知识的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型。在上述查询结果指示上述训练信息集不存在上述提问信息对应的知识的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型。
请参考图7,其示出本申请实施例提供的二次匹配框架示意图。该框架沿用前文示例。以LLM1所在的专业领域为例,将训练样本中样本问题(提问数据)和样本回答(回答数据)分离;分别将提问数据和回答数据进行embeding模型向量化,存储在向量数据库中;将提问信息也向量化并在向量数据库中查询,查询是否存在匹配向量;如果存在匹配向量,说明该提问信息和专业领域数据相关,将提问信息分发给微调后大型生成式语言模型LLM1;如果不存在匹配向量,说明该提问信息和专业领域数据不相关,将提问信息分发给LLM0。
S204.将上述提问信息发送至上述目标大型生成式语言模型,得到上述目标大型生成式语言模型反馈的针对上述提问信息的回答信息。
本申请实施例并不限定发送的具体方法,比如,可以通过页面跳转,接口调用等方式进行发送。本申请实施例也并不限定大型生成式语言模型集群的加载策略,可以是在目标大型生成式语言模型被确定之后,临时加载目标大型生成式语言模型,也可以是同时加载大型生成式语言模型集群的多个大型生成式语言模型,分发给其中一个大型生成式语言模型作为目标大型生成式语言模型。
请参考图8,其示出本申请实施例的完整提问信息处理框架示意图。依然沿用前文示例,以微调后的LLM1为例,提问信息首先进入原始LLM0进行基于专业领域的提问分类,分类选择的范围和后续微调后LLM的能力相匹配。如果分类结果不能匹配到任何专业领域的LLMn,则由LLM0响应,否则,进入二次匹配阶段。二次匹配如果成功,就将与训练样本较为匹配的提问信息交给对应的微调后LLMN(比如LLM1)进行应答,否则,将不能匹配训练样本的提问信息交给原始LLM0进行应答。
本申请实施例提出的一种提问信息处理方法,实现了根据提问信息的内容分发任务给不同大型生成式语言模型(LLM)的技术方案,基于路由思想解决了使用微调后大型生成式语言模型回答通用问题能力下降的问题,提高了用户对大型生成式语言模型的使用体验。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的提问信息处理装置的框图。该装置具有实现上述提问信息处理方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
提问信息获取模块901,用于获取提问信息;
提问信息处理模块902,用于执行下述操作:
对上述提问信息进行专业领域划分处理,得到上述提问信息对应的目标类别,上述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型;
将上述提问信息发送至上述目标大型生成式语言模型,得到上述目标大型生成式语言模型反馈的针对上述提问信息的回答信息;
其中,上述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
上述第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
在一个实施例中,上述提问信息处理模块902,用于执行下述操作:
在上述目标类别指示上述提问信息属于目标专业领域的情况下,提取上述提问信息对应的第一文本特征,上述目标专业领域为任一上述专业领域;
确定上述目标专业领域对应的训练信息集,上述训练信息集指向上述目标专业领域对应的第二类模型簇所关联的业务领域中的知识,上述目标专业领域对应的第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,基于上述训练信息集训练得到的模型;
基于上述第一文本特征查询上述训练信息集,得到查询结果;
在上述查询结果指示上述训练信息集存在上述提问信息对应的知识的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型。
在一个实施例中,上述训练信息集包括多个训练样本,每一上述训练样本包括样本问题以及上述样本问题对应样本回答,上述提问信息处理模块902,用于执行下述操作:
对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;
计算上述第一文本特征与各上述第二文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。
在一个实施例中,上述训练信息集包括多个训练样本,每一上述训练样本包括样本问题以及上述样本问题对应样本回答,上述提问信息处理模块902,用于执行下述操作:
对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;
对各上述训练样本中的样本回答进行文本信息提取,得到每一上述样本回答对应的第三文本特征;
计算上述第一文本特征与各上述第二文本特征之间的相似度,以及计算上述第一文本特征与各上述第三文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。
在一个实施例中,上述提问信息处理模块902,用于执行下述操作:
在上述查询结果指示上述训练信息集不存在上述提问信息对应的知识的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型。
在一个实施例中,上述提问信息处理模块902,用于执行下述操作:
在上述目标类别指示上述提问信息属于目标专业领域的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
在一个实施例中,上述提问信息处理模块902,用于执行下述操作:
在上述目标类别指示上述提问信息不属于任一目标专业领域的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
在一个实施例中,上述提问信息处理模块902,用于执行下述操作:
根据上述提问信息生成分类问题,上述分类问题用于请求大型生成式语言模型输出针对上述提问信息的专业领域划分结果;
将上述分类信息发送至上述第一类模型簇中的大型生成式语言模型,得到上述目标类别。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述提问信息处理方法。具体来讲:
计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述提问信息处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述提问信息处理方法。
具体地,该提问信息处理方法包括:
获取提问信息;
对上述提问信息进行专业领域划分处理,得到上述提问信息对应的目标类别,上述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型;
将上述提问信息发送至上述目标大型生成式语言模型,得到上述目标大型生成式语言模型反馈的针对上述提问信息的回答信息;
其中,上述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
上述第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
在一个实施例中,上述根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在上述目标类别指示上述提问信息属于目标专业领域的情况下,提取上述提问信息对应的第一文本特征,上述目标专业领域为任一上述专业领域;
确定上述目标专业领域对应的训练信息集,上述训练信息集指向上述目标专业领域对应的第二类模型簇所关联的业务领域中的知识,上述目标专业领域对应的第二类模型簇中的大型生成式语言模型为以上述第一类模型簇中大型生成式语言模型为基础,基于上述训练信息集训练得到的模型;
基于上述第一文本特征查询上述训练信息集,得到查询结果;
在上述查询结果指示上述训练信息集存在上述提问信息对应的知识的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型。
在一个实施例中,上述训练信息集包括多个训练样本,每一上述训练样本包括样本问题以及上述样本问题对应样本回答,上述基于上述第一文本特征查询上述训练信息集,得到查询结果,包括:
对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;
计算上述第一文本特征与各上述第二文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。
在一个实施例中,上述训练信息集包括多个训练样本,每一上述训练样本包括样本问题以及上述样本问题对应样本回答,上述基于上述第一文本特征查询上述训练信息集,得到查询结果,包括:
对各上述训练样本中的样本问题进行文本信息提取,得到每一上述样本问题对应的第二文本特征;
对各上述训练样本中的样本回答进行文本信息提取,得到每一上述样本回答对应的第三文本特征;
计算上述第一文本特征与各上述第二文本特征之间的相似度,以及计算上述第一文本特征与各上述第三文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示上述训练信息集存在上述提问信息对应的知识的查询结果。
在一个实施例中,上述方法还包括:
在上述查询结果指示上述训练信息集不存在上述提问信息对应的知识的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型。
6.根据权利要求1上述的方法,其特征在于,上述根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在上述目标类别指示上述提问信息属于目标专业领域的情况下,在上述目标专业领域对应的第二类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
在一个实施例中,上述根据上述目标类别,在上述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在上述目标类别指示上述提问信息不属于任一目标专业领域的情况下,在上述第一类模型簇中确定上述目标大型生成式语言模型,上述目标专业领域为任一上述专业领域。
在一个实施例中,上述对上述提问信息进行专业领域划分处理,得到上述提问信息对应的目标类别,包括:
根据上述提问信息生成分类问题,上述分类问题用于请求大型生成式语言模型输出针对上述提问信息的专业领域划分结果;
将上述分类信息发送至上述第一类模型簇中的大型生成式语言模型,得到上述目标类别。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述提问信息处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (12)
1.一种提问信息处理方法,其特征在于,所述方法包括:
获取提问信息;
对所述提问信息进行专业领域划分处理,得到所述提问信息对应的目标类别,所述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型;
将所述提问信息发送至所述目标大型生成式语言模型,得到所述目标大型生成式语言模型反馈的针对所述提问信息的回答信息;
其中,所述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
所述第二类模型簇中的大型生成式语言模型为以所述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在所述目标类别指示所述提问信息属于目标专业领域的情况下,提取所述提问信息对应的第一文本特征,所述目标专业领域为任一所述专业领域;
确定所述目标专业领域对应的训练信息集,所述训练信息集指向所述目标专业领域对应的第二类模型簇所关联的业务领域中的知识,所述目标专业领域对应的第二类模型簇中的大型生成式语言模型为以所述第一类模型簇中大型生成式语言模型为基础,基于所述训练信息集训练得到的模型;
基于所述第一文本特征查询所述训练信息集,得到查询结果;
在所述查询结果指示所述训练信息集存在所述提问信息对应的知识的情况下,在所述目标专业领域对应的第二类模型簇中确定所述目标大型生成式语言模型。
3.根据权利要求2所述的方法,其特征在于,所述训练信息集包括多个训练样本,每一所述训练样本包括样本问题以及所述样本问题对应样本回答,所述基于所述第一文本特征查询所述训练信息集,得到查询结果,包括:
对各所述训练样本中的样本问题进行文本信息提取,得到每一所述样本问题对应的第二文本特征;
计算所述第一文本特征与各所述第二文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示所述训练信息集存在所述提问信息对应的知识的查询结果。
4.根据权利要求2所述的方法,其特征在于,所述训练信息集包括多个训练样本,每一所述训练样本包括样本问题以及所述样本问题对应样本回答,所述基于所述第一文本特征查询所述训练信息集,得到查询结果,包括:
对各所述训练样本中的样本问题进行文本信息提取,得到每一所述样本问题对应的第二文本特征;
对各所述训练样本中的样本回答进行文本信息提取,得到每一所述样本回答对应的第三文本特征;
计算所述第一文本特征与各所述第二文本特征之间的相似度,以及计算所述第一文本特征与各所述第三文本特征之间的相似度;
在存在符合预设要求的相似度的情况下,得到指示所述训练信息集存在所述提问信息对应的知识的查询结果。
5.根据权利要求2至4中任意一项所述的方法,其特征在于,所述方法还包括:
在所述查询结果指示所述训练信息集不存在所述提问信息对应的知识的情况下,在所述第一类模型簇中确定所述目标大型生成式语言模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在所述目标类别指示所述提问信息属于目标专业领域的情况下,在所述目标专业领域对应的第二类模型簇中确定所述目标大型生成式语言模型,所述目标专业领域为任一所述专业领域。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型,包括:
在所述目标类别指示所述提问信息不属于任一目标专业领域的情况下,在所述第一类模型簇中确定所述目标大型生成式语言模型,所述目标专业领域为任一所述专业领域。
8.根据权利要求1所述的方法,其特征在于,所述对所述提问信息进行专业领域划分处理,得到所述提问信息对应的目标类别,包括:
根据所述提问信息生成分类问题,所述分类问题用于请求大型生成式语言模型输出针对所述提问信息的专业领域划分结果;
将所述分类信息发送至所述第一类模型簇中的大型生成式语言模型,得到所述目标类别。
9.一种提问信息处理装置,其特征在于,所述装置包括:
提问信息获取模块,用于获取提问信息;
提问信息处理模块,用于执行下述操作:
对所述提问信息进行专业领域划分处理,得到所述提问信息对应的目标类别,所述专业领域由大型生成式语言模型集群所覆盖的业务领域划分得到;
根据所述目标类别,在所述大型生成式语言模型集群中确定目标大型生成式语言模型;
将所述提问信息发送至所述目标大型生成式语言模型,得到所述目标大型生成式语言模型反馈的针对所述提问信息的回答信息;
其中,所述大型生成式语言模型集群包括通用领域对应的第一类模型簇,和多个业务领域分别对应的第二类模型簇,每一类模型簇包括至少一个大型生成式语言模型;
所述第二类模型簇中的大型生成式语言模型为以所述第一类模型簇中大型生成式语言模型为基础,通过融合对应的业务领域中的知识所得到的大型生成式语言模型。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的提问信息处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的提问信息处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现如权利要求1至8任一项所述的提问信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470635.3A CN117453885A (zh) | 2023-11-07 | 2023-11-07 | 提问信息处理方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311470635.3A CN117453885A (zh) | 2023-11-07 | 2023-11-07 | 提问信息处理方法、装置、设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117453885A true CN117453885A (zh) | 2024-01-26 |
Family
ID=89579708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311470635.3A Pending CN117453885A (zh) | 2023-11-07 | 2023-11-07 | 提问信息处理方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117453885A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035751A (zh) * | 2024-04-12 | 2024-05-14 | 清华大学 | 用于大语言模型微调训练的数据构建方法及装置 |
-
2023
- 2023-11-07 CN CN202311470635.3A patent/CN117453885A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035751A (zh) * | 2024-04-12 | 2024-05-14 | 清华大学 | 用于大语言模型微调训练的数据构建方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN116935169B (zh) | 文生图模型训练方法以及文生图方法 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN111739520B (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN111026840B (zh) | 文本处理方法、装置、服务器和存储介质 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN117453885A (zh) | 提问信息处理方法、装置、设备、存储介质及产品 | |
CN111144093A (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
CN113849623A (zh) | 文本视觉问答方法和装置 | |
CN113392640A (zh) | 一种标题确定方法、装置、设备及存储介质 | |
CN113821527A (zh) | 哈希码的生成方法、装置、计算机设备及存储介质 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN116541517A (zh) | 文本信息处理方法、装置、设备、软件程序以及存储介质 | |
CN116882450B (zh) | 问答模型的编辑方法、装置、电子设备和存储介质 | |
CN112464655A (zh) | 中文字符和拼音相结合的词向量表示方法、装置、介质 | |
CN115617974A (zh) | 一种对话处理方法、装置、设备及存储介质 | |
CN115269961A (zh) | 内容搜索方法以及相关设备 | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114547435A (zh) | 内容质量的识别方法、装置、设备及可读存储介质 | |
CN118014086B (zh) | 数据处理方法、装置、设备、存储介质及产品 | |
CN117235237B (zh) | 一种文本生成方法及相关装置 | |
US20240212705A1 (en) | Data processing method and apparatus, electronic device, computer-readable storage medium, and computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |