CN117609479A - 一种模型处理方法、装置、设备、介质及产品 - Google Patents
一种模型处理方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN117609479A CN117609479A CN202410097648.9A CN202410097648A CN117609479A CN 117609479 A CN117609479 A CN 117609479A CN 202410097648 A CN202410097648 A CN 202410097648A CN 117609479 A CN117609479 A CN 117609479A
- Authority
- CN
- China
- Prior art keywords
- text
- knowledge
- model
- query
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000012512 characterization method Methods 0.000 claims abstract description 312
- 239000013598 vector Substances 0.000 claims abstract description 248
- 238000012545 processing Methods 0.000 claims abstract description 192
- 238000012549 training Methods 0.000 claims abstract description 179
- 230000011218 segmentation Effects 0.000 claims abstract description 116
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000008569 process Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000010845 search algorithm Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 238000012552 review Methods 0.000 claims description 12
- 230000001965 increasing effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000008520 organization Effects 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000012546 transfer Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 15
- 238000013473 artificial intelligence Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000033228 biological regulation Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 208000017667 Chronic Disease Diseases 0.000 description 2
- 208000026350 Inborn Genetic disease Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 208000016361 genetic disease Diseases 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种模型处理方法、装置、设备、介质及产品;该方法包括:获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。本申请能应用目标表征模型为查询业务场景生成准确表征文本的表征向量,有利于提升查询准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体涉及一种模型处理方法、装置、设备、介质及产品。
背景技术
随着人工智能技术的发展,通过终端输入查询文本,或与计算机设备(如智能机器人)进行对话,能够得到反馈的查询结果。在查询处理的过程中,需将文本映射到高维向量空间,得到用于表征该文本的表征向量,通过向量匹配,查找出表征向量与查询文本的表征向量相匹配的文本,将查找出的文本作为该查询文本的查询结果。但目前传统表征模型难以为查询业务场景生成准确表征文本的表征向量,降低了查询准确率。
发明内容
本申请实施例提供一种模型处理方法、装置、设备、介质及产品,能应用目标表征模型为查询业务场景生成准确表征文本的表征向量,提升查询准确率。
一方面,本申请实施例提供了一种模型处理方法,该方法包括:
获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;
采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。
另一方面,本申请实施例提供了一种模型处理装置,该装置包括:
获取单元,用于获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
处理单元,用于调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
处理单元,还用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;
处理单元,还用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。
在一实现方式中,处理单元用于对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
分析业务知识库的属性;属性包含以下至少一种:结构、内容组织方式;
基于业务知识库的属性确定文本分割策略;文本分割策略包括以下至少一种:标题分割策略、段落分割策略、列表分割策略、篇幅分割策略、聚类分割策略;
基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块;
其中,任一个知识文本块对应一个知识领域,N个知识文本块各自对应的知识领域之间相互独立。
在一实现方式中,处理单元用于基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
获取业务知识库包括的内容;
对业务知识库包括的内容进行预处理,得到预处理后的内容;预处理包括以下至少一种:数据清洗、分词、去除停用词;
按照确定的文本分割策略,对预处理后的内容进行文本分割处理,得到N个知识文本块。
在一实现方式中,知识文本块i为N个知识文本块中的任一个,i为小于或等于N的正整数;处理单元用于调用文本生成模型为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
调用文本生成模型对知识文本块i进行提问生成处理,得到多个候选问题;
调用文本生成模型对多个候选问题进行提问复核处理,得到多个候选问题分别对应的复核结果;复核结果用于指示对应候选问题是否能够利用知识文本块i中的内容进行解答;
基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇。
在一实现方式中,处理单元用于基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
基于每个候选问题分别对应的复核结果,从多个候选问题中选择P个候选问题;P为正整数;
调用文本生成模型对P个候选问题进行数据增强处理,得到P个候选问题分别对应的增强问题;
基于P个候选问题和P个候选问题分别对应的增强问题,构建知识文本块i对应的问题簇。
在一实现方式中,处理单元用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从N个知识文本块及N个问题簇中获取参考文本;其中,参考文本为任一知识文本块中的内容,或者为任一问题簇中的任一问题;
为参考文本生成正文本和负文本;参考文本的正文本是对参考文本进行数据增强处理得到的;若参考文本为第一知识文本块中的内容,则参考文本的负文本为第二知识文本块中的内容,第一知识文本块和第二知识文本块为N个知识文本块中的任意两个知识文本块;若参考文本为第一问题簇中的问题,则参考文本的负文本为第二问题簇中的问题,第一问题簇和第二问题簇为N个问题簇中的任意两个问题簇;
将参考文本,以及参考文本的正文本和负文本作为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理单元用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考文本以及参考文本的正文本和负文本;
调用预训练表征模型分别提取每个训练样本中的各文本的表征向量;
按照减小参考文本的表征向量与其正文本的表征向量之间的差异,并增大参考文本的表征向量与其负文本的表征向量之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理单元用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从第三问题簇中获取参考问题;第三问题簇是N个问题簇中的任一个,参考问题为第三问题簇中的任一问题;
根据第三问题簇对应的知识文本块,得到参考问题的答案标签;
将参考问题和参考问题的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理单元用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考问题和参考问题的答案标签;
调用预训练表征模型对每个训练样本中的参考问题进行标签预测处理,得到每个训练样本中的参考问题的预测标签;
按照减小参考问题的预测标签和答案标签之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理单元还用于执行如下步骤:
获取查询业务场景中的异常数据,异常数据包括查询结果错误的第一查询文本;
基于异常数据更新微调数据集;
其中,基于异常数据更新微调数据集包括以下至少一种:将第一查询文本,以及第一查询文本的正文本和负文本确定为微调数据集中的一个训练样本并添加至微调数据集中;将第一查询文本和第一查询文本的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,业务知识库包含N个知识文本块分别对应的索引;处理单元还用于执行如下步骤:
调用目标表征模型对每个知识文本块进行处理,得到每个知识文本块的表征向量;
将每个知识文本块的表征向量及每个知识文本块对应的索引关联存储至知识向量库。
在一实现方式中,处理单元还用于执行如下步骤:
在查询业务场景中,获取待处理的第二查询文本;
调用目标表征模型对第二查询文本进行处理,得到第二查询文本的表征向量;
基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引;匹配知识文本块的表征向量与第二查询文本的表征向量相匹配;
基于匹配知识文本块对应的索引,从业务知识库中获取匹配知识文本块,并基于获取的匹配知识文本块,确定第二查询文本的查询结果。
在一实现方式中,处理单元用于基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引时,具体用于执行如下步骤:
按照预设搜索算法,在知识向量库中搜索与第二查询文本的表征向量相匹配的表征向量;预设搜索算法包括以下至少一种:基于图结构的人工神经网络搜索算法、基于树结构的人工神经网络搜索算法、向量相似搜索算法、向量距离搜索算法;
将相匹配的表征向量关联的索引确定为匹配知识文本块对应的索引。
在一实现方式中,获取的匹配知识文本块包括Q个,Q为大于1的整数;处理单元用于基于获取的匹配知识文本块,确定第二查询文本的查询结果时,具体用于执行如下步骤:
调用文本生成模型对Q个匹配知识文本块进行文本总结处理,得到第二查询文本的查询结果。
另一方面,本申请实施例提供了一种计算机设备,该计算机设备包括:
处理器,用于加载并执行计算机程序;
计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,实现上述模型处理方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行上述模型处理方法。
另一方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序被处理器执行时,实现上述模型处理方法。
本申请实施例,可获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N(为正整数)个知识文本块;调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得。通过这样的方式,构建的每一个问题簇所涉及的知识领域与其对应的知识文本块所对应的知识领域相同。基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型,目标表征模型被应用在查询业务场景中为文本生成表征向量。由此可见,本申请实施例,以查询业务场景的业务知识库中的内容为基础,构建了微调数据集,利用微调数据集微调预训练表征模型在该查询业务场景下的针对性,使得到的目标表征模型所具有的表征能力更加适配该查询业务场景的业务知识,继而使得通过目标表征模型生成的表征向量更加符合该查询业务场景的业务逻辑,这样,便能实现应用目标表征模型为该查询业务场景生成准确表征文本的表征向量,进而提升查询准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种场景交互示意图;
图2是本申请实施例提供的一种模型处理方法的流程示意图一;
图3是本申请实施例提供的一种生成问题簇的流程示意图;
图4是本申请实施例提供的一种模型处理方法的流程示意图二;
图5是本申请实施例提供的一种模型处理方案的架构图一;
图6是本申请实施例提供的一种模型处理方案的架构图二;
图7是本申请实施例提供的一种模型处理装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及查询业务场景(即执行查询业务的场景),查询业务场景的处理逻辑为:将查询业务场景的业务知识库分割成若干个知识文本块,并生成该若干个知识文本块的表征向量,当接收到待处理的查询文本时,从该若干个知识文本块的表征向量中选择表征向量与该查询文本的表征向量相匹配的知识文本块,并基于选择出的知识文本块确定该查询文本的查询结果。
其中,查询业务场景的业务知识库是用于存储与该查询业务场景相关的业务知识的知识库;例如,针对在医疗服务应用程序中执行查询业务的场景,业务知识库可用于存储与疾病相关的知识内容;又例如,针对在企业查询网页中执行查询业务的场景,业务知识库可用于存储相应企业所涉及的业务的知识内容;再例如,针对与讲解机器人进行对话的查询业务场景,业务知识库可用于存储该讲解机器人所需讲解的知识内容。
在本申请实施例中,查询业务场景可以包括但是不限于:智能对话场景以及搜索场景等等。其中:①智能对话场景可以是指利用语音或文字等方式实现人与计算机设备进行对话的场景;包括但是不限于:在智能交通、智能车载(如车载智能助手)和智能机器人(如实体的机器人,或者社交会话应用中的机器人等)等领域下的对话场景。例如,酒店(或商场等其他场景)的智能机器人和人类进行对话的对话场景;再如,在车载应用程序和人类进行对话的对话场景;等等。值得注意的是,智能对话场景中,人与计算机设备(如具有对话功能的智能机器人)之间的对话可以是一次对话或多次对话,本申请实施例对此不作限定。②搜索场景可以是指用户输入查询文本,由计算机设备反馈该查询文本的查询结果的过程;包括但是不限于:商品交易领域、广告搜索领域和视频搜索等各类搜索领域。
在本申请实施例中,预训练表征模型可以理解成是一种用于生成文本的表征向量的预训练模型。所谓的预训练模型也称为基石模型或者大模型,其是从自然语言处理领域的大语言模型(Large Language Model)发展而言的,具体可以是指具有大参量的深度神经网络(Deepneuralnetwork,DNN)。在海量未标记的数据上对其进行训练,可以实现利用大参量DNN的函数近似能力使预训练模型在数据上提取共性特征。
本申请实施例基于AI(Artificial Intelligence,人工智能)技术提出了一种模型处理方案,该模型处理方案的处理逻辑为:以查询业务场景的业务知识库为基础,去改进预训练表征模型,使得到的目标表征模型(即改进后的预训练表征模型)相比于预训练表征模型而言,更加适用于该查询业务场景,应用该目标表征模型为文本生成的表征向量更加符合该查询业务场景的业务逻辑,从而达到为查询业务场景生成准确表征文本的表征向量的目的,进而,利用该目标表征模型为文本生成的表征向量执行该查询业务场景中的向量匹配,可以有利于提升查询准确率。
此处提及的人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。而深度学习则是一种利用深层神经网络系统,进行机器学习的技术。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习(Reinforcement Learning,RL)、迁移学习、归纳学习、式教学习等技术;预训练模型是深度学习的最新发展成果,融合了以上技术。
具体的,本申请实施例提供的模型处理方案,大致包括以下几个部分:
(1)模型微调:
在本申请实施例中,需获取预训练表征模型,该预训练表征模型是由大规模、多样、且无标签的文本数据训练得到,该预训练表征模型可以根据具体需求进行选择;例如,该预训练表征模型可以为BERT模型(Bidirectional Encoder Representations fromTransformers,一种基于Transformer的预训练语言模型,用于学习丰富的语言表示)、GPT模型(Generative Pre-trained Transformer,一种基于Transformer的生成式预训练语言模型,用于学习语言的生成规律),等等。其中,Transformer模型(一种基于自注意力机制的深度学习模型)摒弃了传统的递归和卷积结构,通过多头自注意力层和位置编码来捕获序列中的长距离依赖关系。
针对查询业务场景,将查询业务场景的业务知识库中的内容分割成N个知识文本块。调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得。文本生成模型可以是诸如ChatGPT(Chat Generative Pre-trainedTransformer,生成型预训练变换模型)、ChatGLM(Chat Generative Language Model,经过学习训练可生成对话的语言模型)等形式所得到的智能问答模型(一种具备自然语言理解能力的模型)。示例性的,每一个知识文本块对应一个知识领域,该N个知识文本块各自对应的知识领域相互独立,这样,构建得到的N个问题簇所涉及的知识领域也相互独立,且每一个问题簇所涉及的知识领域与对应知识文本块所对应的知识领域相同。例如,知识文本块1对应的知识领域为:遗传疾病,知识文本块2对应的知识领域为:慢性病,那么知识文本块1对应的问题簇就包括关于遗传疾病的问题,知识文本块2对应的问题簇就包括关于慢性病的问题。可基于N个知识文本块及构建得到的N个问题簇,构建微调数据集。采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型。示例性的,微调处理的原则包括以下至少一种:增大不同问题簇中的问题的表征向量之间的差异,增大不同知识文本块的表征向量之间的差异。需要说明的是,两个表征向量之间的差异越大,这两个表征向量的相似概率越小,这两个表征向量越不可能相匹配;两个表征向量之间的差异越小,这两个表征向量的相似概率越大,这两个表征向量越可能相匹配。
(2)模型应用:
在本申请实施例中,可调用目标表征模型为上述N个知识文本块分别生成表征向量。当获取到待处理的查询文本时,可调用目标表征模型生成该查询文本的表征向量,将该查询文本的表征向量与该N个知识文本块中每个知识文本块的表征向量进行向量匹配,根据向量匹配的结果(包括与该查询文本的表征向量相匹配的表征向量)从该N个知识文本块中确定匹配知识文本块,基于该匹配知识文本块确定该查询文本的查询结果。
在具体实现中,上述提及的模型处理方案可以由计算机设备执行,该计算机设备可以是终端或服务器,即上述提及的模型处理方案可由终端或服务器执行。或者,上述提及的模型处理方案也可由终端和服务器共同执行。例如:如图1(是本申请实施例提供的一种场景交互示意图)所示,可由服务器执行模型微调的相关过程(即利用查询业务场景的业务知识库,改进预训练表征模型),得到目标表征模型,并将目标表征模型部署到服务器。在模型应用过程中,可由终端获取待处理的查询文本,并将该查询文本发送至服务器;服务器可调用目标表征模型为该查询文本确定查询结果。为了便于阐述,本申请实施例后续以由计算机设备来执行本申请提出的模型处理方案为例进行描述。
上述提及的终端可以包括但不限于:智能手机(如部署安卓(Android)系统的智能手机,或部署互联网操作系统(Internetworking Operating System,IOS)的智能手机)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Internet Devices,MID)、车载设备、头戴设备、智能家居和智能机器人等终端。当然,根据查询业务场景的不同,实现本申请实施例提供的模型处理方案的终端有所不同。例如:在智能机器人场景下,终端可以为智能机器人;也就是说,此实现方式下,可以将本申请实施例训练得到的目标表征模型部署于该智能机器人,该智能机器人通过调用目标表征模型为文本生成的表征向量,向用户提供查询业务(如酒店中的智能机器人提供引路或取餐等服务)。再如:在智能车载场景下,部署有本申请实施例训练得到的目标表征模型的应用程序为车载应用程序;该车载应用程序的类型可以包括但是不限于:音乐、视频或游戏等。其中,应用程序可是指为完成某项或多项特定工作的计算机程序;按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类,可得到同一应用程序在不同维度下的类型。例如:按照应用程序的运行方式分类,应用程序可包括但不限于:安装在终端中的客户端、无需下载安装即可使用的小程序(作为客户端的子程序)、通过浏览器打开的全球广域网(World Wide Web,Web)应用程序等等。再如:按照应用程序的功能类型分类,应用程序可包括但不限于:即时通信(Instant Messaging,IM)应用程序、内容交互应用程序、音频应用程序或者视频应用程序等等。其中,即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序,即时通信应用程序可以包括但不限于:包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序,例如可以是分享平台、个人空间和新闻等应用程序。音频应用程序是指基于互联网实现音频功能的应用程序,音频应用程序可以包括但是不限于:具备音乐播放和编辑能力的音乐类应用程序,具备电台播放能力的电台类应用程序或者具备直播能力的直播类应用程序等等。视频应用程序是指能够播放画面的应用程序,视频应用程序可以包括但是不限于:具备短视频(视频长度往往较短,如几秒或几分钟等)的应用程序,具备长视频(如类似电影或电视剧这种播放时常较长的视频)的应用程序等等。
上述提及的服务器可以是终端对应的服务器,用于与终端进行数据交互以实现为终端提供计算和应用服务支持。具体地,该服务器是与终端中部署的应用程序所对应的后台服务器,用于与终端交互以为应用程序提供计算和应用服务器。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,终端和服务器之间可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。此外,本申请实施例对终端和服务器的数量不作限定;在图1中以终端和服务器的数量均为单个仅为示例,在实际应用中可以包括分布式分布的多个服务器,特在此说明。
本申请实施例中相关数据收集处理应该严格根据相关法律法规的要求,获取个人信息需得到个人主体的知情或同意(或具备信息获取的合法性基础),并在法律法规及个人信息主体的授权范围内,开展后续数据使用及处理行为。例如,本申请实施例运用到具体产品或技术中时,如获取用户的查询文本时,需要获得用户的许可或者同意,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。
基于上述描述的模型处理方案,本申请实施例提出更为详细的模型处理方法,下面将结合附图对本申请实施例提出的模型处理方法进行详细介绍。
图2是本申请实施例提供的一种模型处理方法的流程示意图一,该模型处理方法涉及模型微调过程;该模型处理方法可以由计算机设备来执行,如计算机设备为终端和/或服务器;该模型处理方法可包括但不限于步骤S201-S203:
S201、获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;N为正整数。
在本申请实施例中,将查询业务场景的业务知识库分割成较小的若干个知识文本块(如N个知识文本块),且任一个知识文本块对应一个知识领域,N个知识文本块各自对应的知识领域之间相互独立,也就是说,每个知识文本块都会包含一定的关于查询业务场景的业务知识,且任一个知识文本块包含的业务知识与其他知识文本块(该N个知识文本块中除该任一个知识文本块以外的知识文本块)包含的业务知识不存在关联或关联性较弱。例如,针对在医疗服务应用程序中执行查询业务的场景,其业务知识库存储了与疾病相关的知识内容,则分割得到的各个知识文本块可以包含关于不同疾病的知识内容,即一个知识文本块可包含关于一种疾病的知识内容。
具体的,对查询业务场景的业务知识库进行文本分割处理,得到N个知识文本块,包括:分析业务知识库的属性;属性包含以下至少一种:结构、内容组织方式。基于业务知识库的属性确定文本分割策略;文本分割策略包括以下至少一种:标题分割策略、段落分割策略、列表分割策略、篇幅分割策略、聚类分割策略。基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块。
在一个实施例中,基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块,包括:获取业务知识库包括的内容,对业务知识库包括的内容进行预处理,得到预处理后的内容。其中,预处理包括以下至少一种:数据清洗、分词、去除停用词;预处理的目的是将业务知识库包括的内容转换为适合计算机设备处理的格式。数据清洗是数据处理和加工的过程,包括精简过度冗余的数据、补全缺失的语料数据、错别字修改、过滤敏感信息、纠正同音字等。通过对业务知识库包括的内容进行数据清洗,有助于提升业务知识库包括的内容的质量。分词是指将文本切分为单词或符号序列,用于将文本转换为计算机能够理解的形式,以便进行后续的分析和处理。按照确定的文本分割策略,对预处理后的内容进行文本分割处理,得到N个知识文本块。
在一实现方式中,业务知识库的结构可以包括业务知识库的目录,业务知识库的目录可包含同级别的多个标题(如多个一级标题、多个二级标题、多个三级标题),确定的文本分割策略可包含标题分割策略,则按照标题分割策略,对预处理后的内容进行文本分割处理,包括:按照业务知识库的目录包含的多个标题,从预处理后的内容中确定每个标题的正文内容,将每个标题的正文内容分割成一个知识文本块。
在一实现方式中,业务知识库的结构可以包括业务知识库的段落信息,确定的文本分割策略可包含段落分割策略,则按照段落分割策略,对预处理后的内容进行文本分割处理,包括:按照业务知识库的段落信息,将预处理后的内容中的每个段落对应的内容确定为一个知识文本块。
在一实现方式中,业务知识库的内容组织方式指示业务知识库中包含有列表,则确定的文本分割策略可包含列表分割策略,则按照列表分割策略,对预处理后的内容进行文本分割处理,包括:将预处理后的内容所包含的列表中的每个列表元素对应的内容确定为一个知识文本块。
在一实现方式中,业务知识库的内容组织方式指示业务知识库是非结构化的知识库,则确定的文本分割策略可包含聚类分割策略,则按照聚类分割策略,对预处理后的内容进行文本分割处理,包括:将预处理后的内容划分为多个文本,基于文本相似度的聚类方法对该多个文本进行聚类处理,例如,分别计算该多个文本的表征向量,将表征向量相匹配的文本划分到一个聚类簇中,这样,便可得到多个聚类簇,将每个聚类簇所包含的所有文本确定为一个知识文本块。
在一实现方式中,若某个标题的正文内容过多(如超过预设字数),或某个段落对应的内容过多(如超过预设字数),或某个列表元素对应的内容过多(如超过预设字数),或某个聚类簇所包含的文本数据过多(如超过预设字数),则确定的文本分割策略还可包含篇幅分割策略,该篇幅分割策略用于对包含字数超过预设字数的文本进行划分处理。
由此可见,在本申请实施例中,文本分割策略的选择取决于业务知识库的特点和需求,且选择文本分割策略时,需要衡量知识文本块的大小、数量以及各个知识文本块之间的关联性;另外,将业务知识库分割为较小的知识文本块,可以便于计算机设备理解和处理,降低了后续处理和分析的复杂性。
S202、调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得。
文本生成模型是一种智能问答模型,智能问答模型是采用深度学习技术,对基于人工神经网络构建的神经网络模型进行模型优化后得到的。示例性地,智能问答模型可以是具有大量模型参数和/或复杂网络结构的自然语言处理模型,此类模型可以被称为大语言模型(Large Language Model,LLM)。经本申请相关技术人员做出的实验证明,大语言模型在用于处理大规模的文本数据和/或复杂的语义问题时通常具有较好的准确度和处理效率。在本申请实施例中,大语言模型可以包括自然语言处理领域内的各类通用或专用大模型,具体如chatgpt-3.5、chatgpt-4、chatglm2、chatglm2-6b等。
在本申请实施例中,知识文本块i为N个知识文本块中的任一个,i为小于或等于N的正整数;如图3(是本申请实施例提供的一种生成问题簇的流程示意图)所示,调用文本生成模型为知识文本块i构建问题簇,包括以下步骤S11-S13:
S11、调用文本生成模型对知识文本块i进行提问生成处理,得到多个候选问题。其中,提问生成处理可用于生成知识文本块i中的内容所能解答的多个候选问题。
S12、调用文本生成模型对多个候选问题进行提问复核处理,得到多个候选问题分别对应的复核结果;复核结果用于指示对应候选问题是否能够利用知识文本块i中的内容进行解答。其中,提问复核处理可用于检验知识文本块i中的内容是否能解答生成的多个候选问题。
举例说明,知识文本块i为:若你注册资源转移账户后,出现姓名异常(如乱码、姓名中间空格)或修改过姓名,建议你可以转出账户剩余资源,点击这里注销账户后,重新绑卡实名,即可更新账户信息。温馨提示:1、若你无法操作,或需要人工协助,可点击下方【联系客服】与我们反馈并说明您的情况;2、注销后交易记录及剩余资源明细都会被清空无法恢复,请谨慎操作。
此时,可根据知识文本块i给文本生成模型这样的指令:
请根据下面的知识提出10个问题,要求这10个问题能通过下面的知识解答。
若你注册资源转移账户后,出现姓名异常(如乱码、姓名中间空格)或修改过姓名,建议你可以转出账户剩余资源,点击这里注销账户后,重新绑卡实名,即可更新账户信息。温馨提示:1、若你无法操作,或需要人工协助,可点击下方【联系客服】与我们反馈并说明您的情况;2、注销后交易记录及剩余资源明细都会被清空无法恢复,请谨慎操作。
由此,可得到文本生成模型输出的多个候选问题:
1.如果我在注册资源转移账户后出现姓名异常,如乱码或空格,我应该如何解决这个问题;
2.在重新绑卡实名后,我的账户信息会自动更新吗;
3.注销资源转移账户后,我的交易记录和剩余资源明细是否还能找回;
4.如果我在操作过程中遇到困难或需要人工协作,我应该如何联系客服;
5.在注销账户前,我需要将账户内的剩余资源转出吗;
6.如果我修改过姓名,是否也需要按照上述步骤来解决问题;
7.在注销账户时,我需要注意哪些风险;
8.注销资源转移账户后,我还需要重新注册一个新的账户吗;
9.重新绑卡实名后,我需要重新设置支付密码吗;
10.如果我无法完成上述操作,是否有其他方法可以解决姓名异常问题。
为了对文本生成模型输出的多个候选问题进行提问复核处理,可以给到文本生成模型这样的指令:
下面有10个问题:
1.如果我在注册资源转移账户后出现姓名异常,如乱码或空格,我应该如何解决这个问题;
2.在重新绑卡实名后,我的账户信息会自动更新吗;
3.注销资源转移账户后,我的交易记录和剩余资源明细是否还能找回;
4.如果我在操作过程中遇到困难或需要人工协作,我应该如何联系客服;
5.在注销账户前,我需要将账户内的剩余资源转出吗;
6.如果我修改过姓名,是否也需要按照上述步骤来解决问题;
7.在注销账户时,我需要注意哪些风险;
8.注销资源转移账户后,我还需要重新注册一个新的账户吗;
9.重新绑卡实名后,我需要重新设置支付密码吗;
10.如果我无法完成上述操作,是否有其他方法可以解决姓名异常问题。
和一个知识文本块:
若你注册资源转移账户后,出现姓名异常(如乱码、姓名中间空格)或修改过姓名,建议你可以转出账户剩余资源,点击这里注销账户后,重新绑卡实名,即可更新账户信息。温馨提示:1、若你无法操作,或需要人工协助,可点击下方【联系客服】与我们反馈并说明您的情况;2、注销后交易记录及剩余资源明细都会被清空无法恢复,请谨慎操作。
请你分别分析上述10个问题能否从上述知识文本块中找到答案。
这样,便可得到文本生成模型输出的复核结果:
1.能找到答案,知识文本块中提到,可以转出账户剩余资源,注销账户后重新绑卡实名,即可更新账户信息;
2.能找到答案,知识文本块中提到重新绑卡实名后,即可更新账户信息,所以账户信息会自动更新;
3.能找到答案,知识文本块中提到,注销后交易记录及剩余资源明细都会被清空无法恢复;
4.能找到答案,知识文本块中提到,若无法操作或需要人工协助,可点击【联系客服】与他们反馈并说明情况;
5.能找到答案,知识文本块中建议在注销账户前,将账户内的账户剩余资源转出;
6.能找到答案,知识文本块中提到,如果修改过姓名,也可以按照上述步骤(转出零钱、注销账户、重新绑卡实名)来解决问题;
7.能找到答案,知识文本块中提到,注销后交易记录及剩余资源明细都会被清空无法恢复,这是需要注意的风险;
8.不能直接找到答案,知识文本块没有明确提到注销资源转移账户后是否还需要重新注册一个新的账户;
9.不能直接找到答案,知识文本块没有明确提到重新绑卡实名后是否需要重新设置支付密码;
10.找到答案,知识文本块中提到,如果无法完成上述操作,可以点击【联系客服】与他们反馈并说明情况。
在本申请实施例中,可以通过提问复核处理,进一步确认候选问题与知识文本块之间的问答关系是否存在,确保为每个知识文本块生成的问题簇中的问题能够被相应知识文本块中的内容所解答。
S13、基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇。
在一个实施例中,可以从多个候选问题中获取对应复核结果为第一复核结果的P(正整数)个候选问题,将获取到的P个候选问题确定为知识文本块i对应的问题簇中的问题。其中,第一复核结果用于指示对应候选问题能够利用知识文本块i中的内容进行解答。其中,数据增强处理可用于生成与任一文本语义相同但表现形式不同的文本。
在另一个实施例中,还可调用文本生成模型对上述P个候选问题进行数据增强处理,得到P个候选问题分别对应的增强问题,且该P个候选问题分别对应的增强问题能够利用知识文本块i中的内容进行解答。
举例说明,可以给到文本生成模型这样的指令:
1.如果我在注册资源转移账户后出现姓名异常,如乱码或空格,我应该如何解决这个问题;
2.在重新绑卡实名后,我的账户信息会自动更新吗;
3.注销资源转移账户后,我的交易记录和剩余资源明细是否还能找回;
4.如果我在操作过程中遇到困难或需要人工协作,我应该如何联系客服;
5.在注销账户前,我需要将账户内的剩余资源转出吗。
请为上述句子分别生成5个意思一模一样的句子,用“/”隔开。
这样,便可得到文本生成模型输出的增强问题:
1.如果在注册资源转移账户后,我发现出现了姓名异常,如乱码或空格,我应该如何解决这个问题;/在注册资源转移账户后,如果我发现出现了姓名异常,如乱码或空格,我该怎么解决;/当我在注册资源转移账户后发现姓名有异常,如乱码或空格,我该如何应对;/注册资源转移账户后,如果我发现姓名出现了乱码或空格等异常情况,我该怎么解决;/如果我在注册资源转移账户后发现姓名出现了问题,如乱码或空格,我应该如何解决这个问题;
2.重新绑卡实名之后,我的账户信息会自动更新吗;/在我重新绑卡实名之后,我的账户信息是否会自动更新;/当我重新绑卡实名之后,我的账户信息会自动更新吗;/我重新绑卡实名之后,账户信息是否会自动更新;/重新绑卡实名之后,我的账户信息会自动更新吗;
3.在注销资源转移账户后,我还能找回我的交易记录和剩余资源明细吗;/在注销资源转移账户后,我的交易记录和剩余资源明细是否仍然能被找回;/当我注销资源转移账户后,是否还能恢复我的交易记录和剩余资源明细;/在我注销资源转移账户后,是否还能找回交易记录和剩余资源明细;/一旦注销资源转移账户,我还能找回交易记录和剩余资源明细吗;
4.如果我在操作过程中遇到困难或需要人工帮助,我应该如何联系客服;/在操作过程中如果遇到困难或需要人工协作,我应该如何联系客服;/当我在操作过程中遇到困难或需要人工帮助时,我该如何联系客服;/如果我在操作过程中遇到困难或需要人工帮助,怎样联系客服;/在操作过程中如果遇到困难或需要人工支持时,我应该如何联系客服;
5.在注销账户之前,我需要将账户里的剩余资源转出吗;/在我注销账户前,是否需要将账户内的剩余资源转出;/在取消账户前,我需要将账户内的剩余资源转出吗;/在进行注销账户之前,我是否需要将账户内的剩余资源转出;/在注销账户前,我是否需要将账户内的剩余资源提取出来。
于是,便可基于P个候选问题和P个候选问题分别对应的增强问题,构建知识文本块i对应的问题簇;即将P个候选问题和P个候选问题分别对应的增强问题确定为知识文本块i对应的问题簇中的问题。
由此可见,本申请实施例,可以采用数据增强处理来扩充问题,使得利用这些问题构建的微调数据集更加丰富,有利于增加数据多样性,使得预训练表征模型可以在微调过程中学习到更加丰富多变的数据,从而提升得到的目标表征模型的泛化能力。
S203、基于N个知识文本块及构建得到的N个问题簇,构建微调数据集,采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。
预训练表征模型可以是根据大规模未标记的文本数据训练得到的用于提取文本的表征向量的模型,如BERT模型(一种基于Transformer的预训练语言模型)、GPT模型(一种基于Transformer的生成式预训练语言模型)等,本申请对此不作限定。
需要说明的是,在本申请实施例中,微调处理的原则包括以下至少一种:增大不同问题簇中的问题的表征向量之间的差异,增大不同知识文本块的表征向量之间的差异。
在一个实施例中,可采用对比学习方法实现预训练表征模型的微调处理。对比学习是一种利用无标签数据学习有意义的表示函数的技术;在对比学习中,可将数据样本分成锚定点、正样本和负样本,并通过将锚定点和正样本拉近,将锚定点和负样本拉远的方式,使得学习到的表示函数能够捕获数据的相关性和差异性,从而在后续的任务中发挥作用。对比学习的目标是最小化锚定点的表征向量和其正样本的表征向量之间的差异,同时最大化锚定点的表征向量和其负样本的表征向量之间的差异。具体的,可从N个知识文本块及N个问题簇中获取参考文本(相当于锚定点);其中,参考文本为该N个知识文本块中任一知识文本块中的内容,或者为该N个问题簇中任一问题簇中的任一问题。需为参考文本生成正文本(相当于正样本)和负文本(相当于负样本)。其中,参考文本的正文本是对参考文本进行数据增强处理得到的;例如,可调用文本生成模型对参考文本进行数据增强处理,或者对参考文本进行同义词替换、随机插入、随机删除等数据增强处理,得到参考文本的正文本。另外,若参考文本为第一知识文本块中的内容,则参考文本的负文本为第二知识文本块中的内容,第一知识文本块和第二知识文本块为N个知识文本块中的任意两个知识文本块;若参考文本为第一问题簇中的问题,则参考文本的负文本为第二问题簇中的问题,第一问题簇和第二问题簇为N个问题簇中的任意两个问题簇。也就是说,参考文本和负文本要么是属于不同的问题簇中的问题,要么是不同的知识文本块。
进一步地,可将参考文本,以及参考文本的正文本和负文本作为微调数据集中的一个训练样本并添加至微调数据集中。这样,在采用微调数据集对预训练表征模型进行微调处理时,可获取微调数据集,该微调数据集包括多个训练样本,每个训练样本包括参考文本以及参考文本的正文本和负文本。调用预训练表征模型分别提取每个训练样本中的各文本的表征向量(即参考文本的表征向量,以及参考文本的正文本的表征向量和其负文本的表征向量)。按照减小参考文本的表征向量与其正文本的表征向量之间的差异,并增大参考文本的表征向量与其负文本的表征向量之间的差异的原则,构建预训练表征模型的损失信息。可理解的,参考文本的表征向量和其正文本的表征向量之间的差异越小,参考文本的表征向量和其负文本的表征向量之间的差异越大,说明越能准确地区分文本在业务知识上的差异性。基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。具体可以获取对比学习方法所使用的对比损失函数(如InfoNCE函数),将参考文本以及参考文本的正文本和负文本各自的表征向量输入至对比损失函数,得到预训练表征模型的损失信息(即损失函数值)。再采用随机梯度下降(stochastic gradient descent,SGD)或其他优化算法,按照减小预训练表征模型的损失信息的方向,优化预训练表征模型的模型参数,以实现预训练表征模型的微调处理。此处提及的“按照减小预训练表征模型的损失信息的方向”是指:以最小化预训练表征模型的损失信息为目标的模型优化方向;通过此方向进行模型优化,使得预训练表征模型在每次优化后所再次产生的损失信息,需小于预训练表征模型在优化前所产生的损失信息。例如,本次计算得到的预训练表征模型的损失信息为0.85,那么通过按照减小预训练表征模型的损失信息的方向优化预训练表征模型后,通过优化预训练表征模型所产生的损失信息应小于0.85。
在另一个实施例中,还可采用分类学习方法实现预训练表征模型的微调处理。具体的,可以为同一个问题簇中的各个问题设置同一个类别标签(可以用于指示同一个问题簇中的各个问题涉及同一个知识领域),再基于预训练编码模型确定问题的分类预测标签(例如调用预训练编码模型确定问题的表征向量,再通过分类层对问题的表征向量进行分类预测处理,得到问题的分类预测标签),该分类预测标签包含相应问题属于不同类别标签的概率(可以用于指示相应问题涉及各个知识领域的概率)。基于减小问题的分类预测标签和类别标签之间的差异的原则,构建预训练表征模型的损失信息;例如,将问题的分类预测标签和类别标签代入交叉熵损失函数,得到预训练表征模型的损失信息。可理解的,问题的分类预测标签和其类别标签之间的差异越小,说明问题的表征向量越能表示其所涉及的知识领域。基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型;同样地,可采用随机梯度下降(stochastic gradient descent,SGD)或其他优化算法,按照减小预训练表征模型的损失信息的方向,优化预训练表征模型的模型参数,以实现预训练表征模型的微调处理。
在另一个实施例中,还可构建qa对(包含问题及问题的答案),利用qa对实现预训练表征模型的微调处理。具体的,可从第三问题簇中获取参考问题;第三问题簇是N个问题簇中的任一个,参考问题为第三问题簇中的任一问题。根据第三问题簇对应的知识文本块,得到参考问题的答案标签,该参考问题的答案标签可用于表示该第三问题簇对应的知识文本块。再将参考问题和参考问题的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。这样,在采用微调数据集对预训练表征模型进行微调处理时,可获取微调数据集,该微调数据集包括多个训练样本,每个训练样本包括参考问题和参考问题的答案标签。调用预训练表征模型对每个训练样本中的参考问题进行标签预测处理,得到每个训练样本中的参考问题的预测标签,该预测标签包含相应参考问题能够被各个知识文本块中的内容所解答的概率。再按照减小参考问题的预测标签和答案标签之间的差异的原则,构建预训练表征模型的损失信息;例如,将参考问题的预测标签和答案标签代入交叉熵损失函数,得到预训练表征模型的损失信息。可理解的,参考问题的预测标签和参考问题的答案标签之间的差异越小,说明参考问题的表征向量越能反映其所涉及的知识领域。基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型;同样地,可采用随机梯度下降(stochastic gradient descent,SGD)或其他优化算法,按照减小预训练表征模型的损失信息的方向,优化预训练表征模型的模型参数,以实现预训练表征模型的微调处理。
需要说明的是,在预训练表征模型的实际微调过程中,需要不断地从微调数据集中获取训练样本对预训练表征模型进行微调处理,每微调一次,对预训练表征模型的模型参数更新一次,若经多次更新后预训练表征模型的损失信息满足模型训练停止条件,则可以确定预训练表征模型的微调过程结束,可以将最后一次更新得到的预训练表征模型确定为目标表征模型。其中,预训练表征模型的损失信息满足模型训练停止条件包括:预训练表征模型的损失信息小于设定损失阈值、微调次数达到预设次数中的一个或多个。
在一个实施例中,还可获取查询业务场景中的异常数据,异常数据包括查询结果错误的第一查询文本,可基于异常数据更新微调数据集。其中,基于异常数据更新微调数据集包括以下至少一种:将第一查询文本,以及第一查询文本的正文本和负文本确定为微调数据集中的一个训练样本并添加至微调数据集中;将第一查询文本和第一查询文本的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,第一查询文本的正文本可以是对第一查询文本进行数据增强处理得到的,第一查询文本的负文本可以是第一查询文本的查询结果。也就是说,本申请实施例可以利用查询业务场景中的bad case(坏例)生成负样本对(包括第一查询文本和第一查询文本的负文本),对预训练表征模型进行微调处理,这样可以改善针对bad case生成的表征向量。
在一实现方式中,第一查询文本的答案标签用于表示该N个知识文本块中包含的内容能够解答该第一查询文本的知识文本块。也就是说,本申请实施例可以利用查询业务场景中的bad case(坏例)生成训练样本,对预训练表征模型进行微调处理,这样可以改善针对bad case生成的表征向量。
可选地,在利用N个问题簇构建微调数据集之前,还可以对该N个问题簇中的各个问题进行预处理,该预处理可包括分词、去除停用词等操作。
可选地,在微调完成后,还可使用验证集或测试集来评估目标表征模型在文本分类任务上的性能。若性能达到预期,就可以直接使用目标表征模型为查询业务场景生成文本的表征向量。
需要说明的是,若目标表征模型针对文本生成的不是向量化的文本表征(即不是表征向量),则调用目标表征模型为文本生成表征向量,包括:调用目标表征模型为文本生成该文本的文本表征(通常是一个向量序列),将该文本表征转化为固定长度的向量,得到表征向量。在这个过程中,需要考虑如何将目标表征模型的输出(通常是一个向量序列)压缩为一个固定长度的向量。常用的方法包括平均池化(average pooling)、最大池化(maxpooling)和注意力机制(attention mechanism)等。平均池化是将向量序列中的所有向量求平均值得到一个固定长度的向量;最大池化是在每个维度上取向量序列中的最大值;注意力机制是根据输入文本的重要性分配权重,然后加权求和得到一个固定长度的向量。这些方法可以有效地将目标表征模型的输出压缩为一个简洁的向量表示。
在本申请实施例中,由于预训练表征模型所具有的表征能力不一定适配查询业务场景所涉及的业务知识(例如文本1和文本2在向量表示很接近,但是在业务上,二者却截然不同,这个时候一个用户的查询文本是指向文本1的,但是很可能检索出来的查询结果是文本2),因此通过查询业务场景的业务知识库生成微调数据库,并基于该微调数据库微调预训练表征模型,可以使得到的目标表征模型所具有的表征能力针对性适配该查询业务场景下的业务数据,继而使得通过目标表征模型生成的表征向量更加符合该查询业务场景的业务逻辑,这样,便能实现应用目标表征模型为该查询业务场景生成准确表征文本的表征向量;同时直接使用预训练表征模型有一个弊端,即产生了bad case也很难去调整,而本申请实施例可基于bad case对预训练表征模型进行微调,使得到的目标表征模型能够与人类意志对齐。
图4是本申请实施例提供的一种模型处理方法的流程示意图二,该模型处理方法涉及模型应用过程;该模型处理方法可以由计算机设备来执行,如计算机设备为终端和/或服务器;该模型处理方法可包括但不限于步骤S401-S403:
S401、在查询业务场景中,获取待处理的第二查询文本。
在具体实施例中,可获取查询请求,基于查询请求所携带的提问信息确定为待处理的第二查询文本。其中,查询请求可以是提问对象在提问客户端内输入提问信息之后,触发该提问客户端生成并发送至计算机设备处的。可选地,查询请求也可以是计算机设备在检测到提问对象在相关页面上执行提问操作后,实时获取提问对象输入的提问信息,进而自动生成的。其中,查询请求中至少包含提问对象输入的提问信息,而提问信息的输入方式可以包括但不限于语音输入、键盘输入及手势输入等中的一种或多种。此外,提问信息至少包括一个或多个文本字符。也就是说,在实际应用中,提问信息可以是纯文本内容,还可以是包含文本内容的图片内容。
S402、调用目标表征模型对第二查询文本进行处理,得到第二查询文本的表征向量;目标表征模型被应用在查询业务场景中为文本生成表征向量。
其中,目标表征模型可以是执行上述步骤S201-S203得到的,此处不再赘述。目标表征模型可被应用于在查询业务场景中为文本生成表征向量。在一实现方式中,可调用目标表征模型对第二查询文本进行处理,得到第二查询文本的表征向量。
S403、基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引;匹配知识文本块的表征向量与第二查询文本的表征向量相匹配。
在一个实施例中,可以为业务知识库中的N个知识文本块分别添加对应的索引,以便于后续执行查询业务。该索引可以包括知识文本块的位置、关键词、主题等信息;此外还可以将知识文本块的元数据(如标题、作者、发布日期等)纳入索引,以提高查询业务的准确性和效率。
在一个实施例中,可调用目标表征模型对每个知识文本块进行处理,得到每个知识文本块的表征向量。将每个知识文本块的表征向量及每个知识文本块对应的索引关联存储至知识向量库。可选地,该知识向量库可以是Faiss库(一款高效的ANN搜索库),Faiss库提供了多种搜索算法,如高效相似性搜索和密集向量聚类。
在一个实施例中,基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引,包括:按照预设搜索算法,在知识向量库中搜索与第二查询文本的表征向量相匹配的表征向量。该预设搜索算法包括以下至少一种:基于图结构的人工神经网络搜索算法、基于树结构的人工神经网络搜索算法、向量相似搜索算法、向量距离搜索算法。其中,基于图结构的人工神经网络搜索算法(如Hierarchical Navigable Small World,HNSW)通过构建一个层次化的小世界网络来实现高效的近似最近邻搜索。基于树结构的人工神经网络搜索算法(Approximate Nearest Neighbors Oh Yeah,Annoy)使用多棵树来索引数据点,从而在查询时实现高效的近似最近邻搜索。向量相似搜索算法可以是余弦相似度,余弦相似度是一种常用的相似度度量方法,它衡量两个表征向量之间的夹角余弦值。余弦相似度的取值范围为-1到1,值越接近1,表示两个表征向量越相似。余弦相似度计算公式为:cosine_similarity(A, B) = dot(A, B) / (×/>),其中,dot(A, B)表示表征向量A和表征向量B的点积,/>和/>分别表示表征向量A和表征向量B的模,×表示乘法运算,cosine_similarity(A, B)表示表征向量A和表征向量B的余弦相似度。两个表征向量的相似度越大,这两个表征向量匹配概率越大;两个表征向量的相似度越小,这两个表征向量匹配概率越小。向量距离搜索算法可以是欧几里得距离、曼哈顿距离等。欧几里得距离是衡量两个表征向量之间距离的一种方法。欧几里得距离越小,表示表征向量越相似。计算公式为:euclidean_distance(A, B) = sqrt(sum((A_j - B_j)^2)),其中,A_j和B_j分别表示表征向量A和表征向量B的第j个元素,sqrt表示平方,sum表示求和,euclidean_distance(A, B)表示表征向量A和表征向量B之间的欧几里得距离。曼哈顿距离是另一种衡量向量之间距离的方法,它计算两个表征向量在各个维度上的差值的绝对值之和。曼哈顿距离越小,表示表征向量越相似。计算公式为:manhattan_distance(A, B) = sum(|A_j - B_j|),其中,manhattan_distance(A, B)表示表征向量A和表征向量B之间的曼哈顿距离。可选地,与第二查询文本的表征向量相匹配的表征向量可以是与第二查询文本的表征向量的相似度大于预设相似度的表征向量,或者是与第二查询文本的表征向量的相似度按照从大到小的关系排列后排在前面Q个的表征向量。可以将相匹配的表征向量关联的索引确定为匹配知识文本块对应的索引。再基于匹配知识文本块对应的索引,从业务知识库中获取匹配知识文本块,并基于获取的匹配知识文本块,确定第二查询文本的查询结果。/>
可选地,若获取的匹配知识文本块包括Q个,Q为大于1的整数,则基于获取的匹配知识文本块,确定第二查询文本的查询结果,包括:调用文本生成模型对Q个匹配知识文本块进行文本总结处理,得到第二查询文本的查询结果。这样,文本生成模型可以基于该Q个匹配知识文本块总结出最合理的答案作为第二查询文本的查询结果。
在本申请实施例中,可利于目标表征模型为查询业务场景生成文本的表征向量,利用表征向量之间的匹配关系,搜索出与第二查询文本的表征向量相匹配的表征向量,进而基于该搜索出的表征向量所对应的知识文本块,得到第二查询文本的查询结果;由于目标表征模型所具有的表征能力更加适配该查询业务场景的业务知识,因此基于目标表征模型生成的表征向量能够更加准确地进行向量匹配,这样便能提升查询准确率。
综上所述,请参见图5,图5是本申请实施例提供的一种模型处理方案的架构图一。如图5所示,该模型处理方案包括:将业务查询场景的业务知识库分割成若干个知识文本块(如图5中的知识文本块1、知识文本块2、...知识文本块N),利用分割得到的知识文本块生成微调数据集,具体的,调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块对应一个问题簇,基于分割得到的知识文本块及为每个知识文本块构建的问题簇,构建微调数据集。利用微调数据集对预训练表征模型进行微调处理,得到目标表征模型。详细实现过程可以参见前述步骤S201-S203,此处不再赘述。进而可调用目标表征模型对分割得到的知识文本块进行处理,得到知识文本块的表征向量,从而利用知识文本块的表征向量构建知识向量库;例如,将每个知识文本块的表征向量及每个知识文本块对应的索引关联存储至知识向量库。当获取到待处理的查询文本时,可调用目标表征模型对查询文本进行处理,得到查询文本的表征向量。利用查询文本的表征向量和知识向量库检索出Q个匹配知识文本块的索引;可选地,Q个匹配知识文本块的表征向量可以是与第二查询文本的表征向量的相似度大于预设相似度的表征向量,或者是与第二查询文本的表征向量的相似度按照从大到小的关系排列后排在前面Q个的表征向量。调用文本生成模型对Q个匹配知识文本块进行文本总结处理,得到查询文本的查询结果。
如图6(是本申请实施例提供的一种模型处理方案的架构图二)所示,微调数据集可以包括正样本对(由参考文本和正文本组成)和负样本对(由参考文本和负文本组成)。若反馈的查询结果错误时,可以利用查询文本和查询文本的查询结果去微调预训练表征模型,例如,利用查询文本和查询文本的查询结果生成负样本对,利用查询文本的增强文本(对查询文本进行数据增强处理得到的)生成正样本对,基于该正样本对和该负样本对去微调预训练表征模型。
由此可见,本申请实施例提出对查询业务场景的业务知识库进行文本分割处理,得到若干个知识文本块,基于得到的知识文本块构建问题簇,并利用知识文本块和问题簇生成微调数据集,从而利用微调数据集有监督地去微调预训练表征模型,使得预训练表征模型可以针对性地学习业务知识库中的业务知识,使得到的目标表征模型所具有的表征能力更加适配该查询业务场景的业务知识,继而使得通过目标表征模型生成的表征向量更加符合该查询业务场景的业务逻辑,这样,便能实现应用目标表征模型为该查询业务场景生成准确表征文本的表征向量,进而提升查询准确率。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
图7是本申请实施例提供的一种模型处理装置的结构示意图;该模型处理装置可以用于执行图2或图4所示的方法实施例中的部分或全部步骤。请参见图7,该模型处理装置包括如下单元:
获取单元701,用于获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
处理单元702,用于调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
处理单元702,还用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;
处理单元702,还用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。
在一实现方式中,处理单元702用于对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
分析业务知识库的属性;属性包含以下至少一种:结构、内容组织方式;
基于业务知识库的属性确定文本分割策略;文本分割策略包括以下至少一种:标题分割策略、段落分割策略、列表分割策略、篇幅分割策略、聚类分割策略;
基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块;
其中,任一个知识文本块对应一个知识领域,N个知识文本块各自对应的知识领域之间相互独立。
在一实现方式中,处理单元702用于基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
获取业务知识库包括的内容;
对业务知识库包括的内容进行预处理,得到预处理后的内容;预处理包括以下至少一种:数据清洗、分词、去除停用词;
按照确定的文本分割策略,对预处理后的内容进行文本分割处理,得到N个知识文本块。
在一实现方式中,知识文本块i为N个知识文本块中的任一个,i为小于或等于N的正整数;处理单元702用于调用文本生成模型为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
调用文本生成模型对知识文本块i进行提问生成处理,得到多个候选问题;
调用文本生成模型对多个候选问题进行提问复核处理,得到多个候选问题分别对应的复核结果;复核结果用于指示对应候选问题是否能够利用知识文本块i中的内容进行解答;
基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇。
在一实现方式中,处理单元702用于基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
基于每个候选问题分别对应的复核结果,从多个候选问题中选择P个候选问题;P为正整数;
调用文本生成模型对P个候选问题进行数据增强处理,得到P个候选问题分别对应的增强问题;
基于P个候选问题和P个候选问题分别对应的增强问题,构建知识文本块i对应的问题簇。
在一实现方式中,处理单元702用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从N个知识文本块及N个问题簇中获取参考文本;其中,参考文本为任一知识文本块中的内容,或者为任一问题簇中的任一问题;
为参考文本生成正文本和负文本;参考文本的正文本是对参考文本进行数据增强处理得到的;若参考文本为第一知识文本块中的内容,则参考文本的负文本为第二知识文本块中的内容,第一知识文本块和第二知识文本块为N个知识文本块中的任意两个知识文本块;若参考文本为第一问题簇中的问题,则参考文本的负文本为第二问题簇中的问题,第一问题簇和第二问题簇为N个问题簇中的任意两个问题簇;
将参考文本,以及参考文本的正文本和负文本作为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理单元702用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考文本以及参考文本的正文本和负文本;
调用预训练表征模型分别提取每个训练样本中的各文本的表征向量;
按照减小参考文本的表征向量与其正文本的表征向量之间的差异,并增大参考文本的表征向量与其负文本的表征向量之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理单元702用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从第三问题簇中获取参考问题;第三问题簇是N个问题簇中的任一个,参考问题为第三问题簇中的任一问题;
根据第三问题簇对应的知识文本块,得到参考问题的答案标签;
将参考问题和参考问题的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理单元702用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考问题和参考问题的答案标签;
调用预训练表征模型对每个训练样本中的参考问题进行标签预测处理,得到每个训练样本中的参考问题的预测标签;
按照减小参考问题的预测标签和答案标签之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理单元702还用于执行如下步骤:
获取查询业务场景中的异常数据,异常数据包括查询结果错误的第一查询文本;
基于异常数据更新微调数据集;
其中,基于异常数据更新微调数据集包括以下至少一种:将第一查询文本,以及第一查询文本的正文本和负文本确定为微调数据集中的一个训练样本并添加至微调数据集中;将第一查询文本和第一查询文本的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,业务知识库包含N个知识文本块分别对应的索引;处理单元702还用于执行如下步骤:
调用目标表征模型对每个知识文本块进行处理,得到每个知识文本块的表征向量;
将每个知识文本块的表征向量及每个知识文本块对应的索引关联存储至知识向量库。
在一实现方式中,处理单元702还用于执行如下步骤:
在查询业务场景中,获取待处理的第二查询文本;
调用目标表征模型对第二查询文本进行处理,得到第二查询文本的表征向量;
基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引;匹配知识文本块的表征向量与第二查询文本的表征向量相匹配;
基于匹配知识文本块对应的索引,从业务知识库中获取匹配知识文本块,并基于获取的匹配知识文本块,确定第二查询文本的查询结果。
在一实现方式中,处理单元702用于基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引时,具体用于执行如下步骤:
按照预设搜索算法,在知识向量库中搜索与第二查询文本的表征向量相匹配的表征向量;预设搜索算法包括以下至少一种:基于图结构的人工神经网络搜索算法、基于树结构的人工神经网络搜索算法、向量相似搜索算法、向量距离搜索算法;
将相匹配的表征向量关联的索引确定为匹配知识文本块对应的索引。
在一实现方式中,获取的匹配知识文本块包括Q个,Q为大于1的整数;处理单元702用于基于获取的匹配知识文本块,确定第二查询文本的查询结果时,具体用于执行如下步骤:
调用文本生成模型对Q个匹配知识文本块进行文本总结处理,得到第二查询文本的查询结果。
根据本申请的一个实施例,图7所示的模型处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该模型处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2及图4所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的模型处理装置,以及来实现本申请实施例的模型处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例,可获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N(为正整数)个知识文本块;调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型,目标表征模型被应用在查询业务场景中为文本生成表征向量。由此可见,本申请实施例,以查询业务场景的业务知识库中的内容为基础,构建了微调数据集,利用微调数据集微调预训练表征模型在该查询业务场景下的针对性,使得到的目标表征模型所具有的表征能力更加适配该查询业务场景的业务知识,继而使得通过目标表征模型生成的表征向量更加符合该查询业务场景的业务逻辑,这样,便能实现应用目标表征模型为该查询业务场景生成准确表征文本的表征向量,进而提升查询准确率。
图8是本申请实施例提供的一种计算机设备的结构示意图。请参见图8,该计算机设备包括处理器801、通信接口802以及计算机可读存储介质803。其中,处理器801、通信接口802以及计算机可读存储介质803可通过总线或者其它方式连接。其中,通信接口802用于接收和发送数据。计算机可读存储介质803可以存储在计算机设备的存储器中,计算机可读存储介质803用于存储计算机程序,计算机程序包括程序指令,处理器801用于执行计算机可读存储介质803存储的程序指令。处理器801(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的处理系统。并且,在该存储空间中还存放了适于被处理器801加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该计算机可读存储介质中存储有一条或多条指令;由处理器801加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述模型处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器801加载并执行如下步骤:
获取查询业务场景的业务知识库,并对业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
调用文本生成模型分别为每个知识文本块构建问题簇;每个知识文本块分别对应一个问题簇,每个问题簇包含多个问题,每个问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
基于N个知识文本块及构建得到的N个问题簇,构建微调数据集;
采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型;目标表征模型被应用在查询业务场景中为文本生成表征向量。
在一实现方式中,处理器801用于对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
分析业务知识库的属性;属性包含以下至少一种:结构、内容组织方式;
基于业务知识库的属性确定文本分割策略;文本分割策略包括以下至少一种:标题分割策略、段落分割策略、列表分割策略、篇幅分割策略、聚类分割策略;
基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块;
其中,任一个知识文本块对应一个知识领域,N个知识文本块各自对应的知识领域之间相互独立。
在一实现方式中,处理器801用于基于确定的文本分割策略对业务知识库进行文本分割处理,得到N个知识文本块时,具体用于执行如下步骤:
获取业务知识库包括的内容;
对业务知识库包括的内容进行预处理,得到预处理后的内容;预处理包括以下至少一种:数据清洗、分词、去除停用词;
按照确定的文本分割策略,对预处理后的内容进行文本分割处理,得到N个知识文本块。
在一实现方式中,知识文本块i为N个知识文本块中的任一个,i为小于或等于N的正整数;处理器801用于调用文本生成模型为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
调用文本生成模型对知识文本块i进行提问生成处理,得到多个候选问题;
调用文本生成模型对多个候选问题进行提问复核处理,得到多个候选问题分别对应的复核结果;复核结果用于指示对应候选问题是否能够利用知识文本块i中的内容进行解答;
基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇。
在一实现方式中,处理器801用于基于多个候选问题和各个候选问题分别对应的复核结果,为知识文本块i构建对应的问题簇时,具体用于执行如下步骤:
基于每个候选问题分别对应的复核结果,从多个候选问题中选择P个候选问题;P为正整数;
调用文本生成模型对P个候选问题进行数据增强处理,得到P个候选问题分别对应的增强问题;
基于P个候选问题和P个候选问题分别对应的增强问题,构建知识文本块i对应的问题簇。
在一实现方式中,处理器801用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从N个知识文本块及N个问题簇中获取参考文本;其中,参考文本为任一知识文本块中的内容,或者为任一问题簇中的任一问题;
为参考文本生成正文本和负文本;参考文本的正文本是对参考文本进行数据增强处理得到的;若参考文本为第一知识文本块中的内容,则参考文本的负文本为第二知识文本块中的内容,第一知识文本块和第二知识文本块为N个知识文本块中的任意两个知识文本块;若参考文本为第一问题簇中的问题,则参考文本的负文本为第二问题簇中的问题,第一问题簇和第二问题簇为N个问题簇中的任意两个问题簇;
将参考文本,以及参考文本的正文本和负文本作为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理器801用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考文本以及参考文本的正文本和负文本;
调用预训练表征模型分别提取每个训练样本中的各文本的表征向量;
按照减小参考文本的表征向量与其正文本的表征向量之间的差异,并增大参考文本的表征向量与其负文本的表征向量之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理器801用于基于N个知识文本块及构建得到的N个问题簇,构建微调数据集时,具体用于执行如下步骤:
从第三问题簇中获取参考问题;第三问题簇是N个问题簇中的任一个,参考问题为第三问题簇中的任一问题;
根据第三问题簇对应的知识文本块,得到参考问题的答案标签;
将参考问题和参考问题的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,处理器801用于采用微调数据集对预训练表征模型进行微调处理,得到目标表征模型时,具体用于执行如下步骤:
获取微调数据集,微调数据集包括多个训练样本,每个训练样本包括参考问题和参考问题的答案标签;
调用预训练表征模型对每个训练样本中的参考问题进行标签预测处理,得到每个训练样本中的参考问题的预测标签;
按照减小参考问题的预测标签和答案标签之间的差异的原则,构建预训练表征模型的损失信息;
基于预训练表征模型的损失信息,对预训练表征模型进行微调处理,得到目标表征模型。
在一实现方式中,处理器801还用于执行如下步骤:
获取查询业务场景中的异常数据,异常数据包括查询结果错误的第一查询文本;
基于异常数据更新微调数据集;
其中,基于异常数据更新微调数据集包括以下至少一种:将第一查询文本,以及第一查询文本的正文本和负文本确定为微调数据集中的一个训练样本并添加至微调数据集中;将第一查询文本和第一查询文本的答案标签确定为微调数据集中的一个训练样本并添加至微调数据集中。
在一实现方式中,业务知识库包含N个知识文本块分别对应的索引;处理器801还用于执行如下步骤:
调用目标表征模型对每个知识文本块进行处理,得到每个知识文本块的表征向量;
将每个知识文本块的表征向量及每个知识文本块对应的索引关联存储至知识向量库。
在一实现方式中,处理器801还用于执行如下步骤:
在查询业务场景中,获取待处理的第二查询文本;
调用目标表征模型对第二查询文本进行处理,得到第二查询文本的表征向量;
基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引;匹配知识文本块的表征向量与第二查询文本的表征向量相匹配;
基于匹配知识文本块对应的索引,从业务知识库中获取匹配知识文本块,并基于获取的匹配知识文本块,确定第二查询文本的查询结果。
在一实现方式中,处理器801用于基于第二查询文本的表征向量在知识向量库中确定匹配知识文本块对应的索引时,具体用于执行如下步骤:
按照预设搜索算法,在知识向量库中搜索与第二查询文本的表征向量相匹配的表征向量;预设搜索算法包括以下至少一种:基于图结构的人工神经网络搜索算法、基于树结构的人工神经网络搜索算法、向量相似搜索算法、向量距离搜索算法;
将相匹配的表征向量关联的索引确定为匹配知识文本块对应的索引。
在一实现方式中,获取的匹配知识文本块包括Q个,Q为大于1的整数;处理器801用于基于获取的匹配知识文本块,确定第二查询文本的查询结果时,具体用于执行如下步骤:
调用文本生成模型对Q个匹配知识文本块进行文本总结处理,得到第二查询文本的查询结果。
基于同一发明构思,本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中模型处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述模型处理方法。
本领域普通技术对象可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上描述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术对象在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (18)
1.一种模型处理方法,其特征在于,包括:
获取查询业务场景的业务知识库,并对所述业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
调用文本生成模型分别为每个所述知识文本块构建问题簇;每个所述知识文本块分别对应一个问题簇,每个所述问题簇包含多个问题,每个所述问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
基于所述N个知识文本块及构建得到的N个问题簇,构建微调数据集;
采用所述微调数据集对预训练表征模型进行微调处理,得到目标表征模型;所述目标表征模型被应用在所述查询业务场景中为文本生成表征向量。
2.如权利要求1所述的方法,其特征在于,所述对所述业务知识库进行文本分割处理,得到N个知识文本块,包括:
分析所述业务知识库的属性;所述属性包含以下至少一种:结构、内容组织方式;
基于所述业务知识库的属性确定文本分割策略;所述文本分割策略包括以下至少一种:标题分割策略、段落分割策略、列表分割策略、篇幅分割策略、聚类分割策略;
基于确定的文本分割策略对所述业务知识库进行文本分割处理,得到N个知识文本块;
其中,任一个所述知识文本块对应一个知识领域,所述N个知识文本块各自对应的知识领域之间相互独立。
3.如权利要求2所述的方法,其特征在于,所述基于确定的文本分割策略对所述业务知识库进行文本分割处理,得到N个知识文本块,包括:
获取所述业务知识库包括的内容;
对所述业务知识库包括的内容进行预处理,得到预处理后的内容;所述预处理包括以下至少一种:数据清洗、分词、去除停用词;
按照确定的文本分割策略,对所述预处理后的内容进行文本分割处理,得到N个知识文本块。
4.如权利要求1-3任一项所述的方法,其特征在于,知识文本块i为所述N个知识文本块中的任一个,i为小于或等于N的正整数;调用文本生成模型为所述知识文本块i构建问题簇,包括:
调用文本生成模型对所述知识文本块i进行提问生成处理,得到多个候选问题;
调用所述文本生成模型对所述多个候选问题进行提问复核处理,得到所述多个候选问题分别对应的复核结果;所述复核结果用于指示对应候选问题是否能够利用所述知识文本块i中的内容进行解答;
基于所述多个候选问题和各个所述候选问题分别对应的复核结果,为所述知识文本块i构建对应的问题簇。
5.如权利要求4所述的方法,其特征在于,所述基于所述多个候选问题和各个所述候选问题分别对应的复核结果,为所述知识文本块i构建对应的问题簇,包括:
基于每个所述候选问题分别对应的复核结果,从所述多个候选问题中选择P个候选问题;P为正整数;
调用所述文本生成模型对所述P个候选问题进行数据增强处理,得到所述P个候选问题分别对应的增强问题;
基于所述P个候选问题和所述P个候选问题分别对应的增强问题,构建所述知识文本块i对应的问题簇。
6.如权利要求1所述的方法,其特征在于,所述基于所述N个知识文本块及构建得到的N个问题簇,构建微调数据集,包括:
从所述N个知识文本块及所述N个问题簇中获取参考文本;其中,所述参考文本为任一知识文本块中的内容,或者为任一问题簇中的任一问题;
为所述参考文本生成正文本和负文本;所述参考文本的正文本是对所述参考文本进行数据增强处理得到的;若所述参考文本为第一知识文本块中的内容,则所述参考文本的负文本为第二知识文本块中的内容,所述第一知识文本块和所述第二知识文本块为所述N个知识文本块中的任意两个知识文本块;若所述参考文本为第一问题簇中的问题,则所述参考文本的负文本为第二问题簇中的问题,所述第一问题簇和所述第二问题簇为所述N个问题簇中的任意两个问题簇;
将所述参考文本、所述参考文本的正文本和所述参考文本的负文本共同作为微调数据集中的一个训练样本并添加至所述微调数据集中。
7.如权利要求6所述的方法,其特征在于,所述采用所述微调数据集对预训练表征模型进行微调处理,得到目标表征模型,包括:
获取所述微调数据集,所述微调数据集包括多个训练样本,每个所述训练样本包括参考文本以及所述参考文本的正文本和负文本;
调用预训练表征模型分别提取每个所述训练样本中的各文本的表征向量;
按照减小参考文本的表征向量与其正文本的表征向量之间的差异,并增大参考文本的表征向量与其负文本的表征向量之间的差异的原则,构建所述预训练表征模型的损失信息;
基于所述预训练表征模型的损失信息,对所述预训练表征模型进行微调处理,得到目标表征模型。
8.如权利要求1所述的方法,其特征在于,所述基于所述N个知识文本块及构建得到的N个问题簇,构建微调数据集,包括:
从第三问题簇中获取参考问题;所述第三问题簇是所述N个问题簇中的任一个,所述参考问题为所述第三问题簇中的任一问题;
根据所述第三问题簇对应的知识文本块,得到所述参考问题的答案标签;
将所述参考问题和所述参考问题的答案标签共同作为微调数据集中的一个训练样本并添加至所述微调数据集中。
9.如权利要求8所述的方法,其特征在于,所述采用所述微调数据集对预训练表征模型进行微调处理,得到目标表征模型,包括:
获取所述微调数据集,所述微调数据集包括多个训练样本,每个所述训练样本包括参考问题和所述参考问题的答案标签;
调用预训练表征模型对每个所述训练样本中的参考问题进行标签预测处理,得到每个所述训练样本中的参考问题的预测标签;
按照减小所述参考问题的预测标签和所述参考问题的答案标签之间的差异的原则,构建所述预训练表征模型的损失信息;
基于所述预训练表征模型的损失信息,对所述预训练表征模型进行微调处理,得到目标表征模型。
10.如权利要求6-9任一项所述的方法,其特征在于,所述方法还包括:
获取所述查询业务场景中的异常数据,所述异常数据包括查询结果错误的第一查询文本;
基于所述异常数据更新所述微调数据集;
其中,所述基于所述异常数据更新所述微调数据集包括以下至少一种:将所述第一查询文本、所述第一查询文本的正文本和所述第一查询文本的负文本共同作为所述微调数据集中的一个训练样本并添加至所述微调数据集中;将所述第一查询文本和所述第一查询文本的答案标签共同作为所述微调数据集中的一个训练样本并添加至所述微调数据集中。
11.如权利要求1所述的方法,其特征在于,所述业务知识库包含所述N个知识文本块分别对应的索引;所述方法还包括:
调用所述目标表征模型对每个所述知识文本块进行处理,得到每个所述知识文本块的表征向量;
将每个所述知识文本块的表征向量及每个所述知识文本块对应的索引关联存储至知识向量库。
12.如权利要求11所述的方法,其特征在于,所述方法还包括:
在所述查询业务场景中,获取待处理的第二查询文本;
调用所述目标表征模型对所述第二查询文本进行处理,得到所述第二查询文本的表征向量;
基于所述第二查询文本的表征向量在所述知识向量库中确定匹配知识文本块对应的索引;所述匹配知识文本块的表征向量与所述第二查询文本的表征向量相匹配;
基于所述匹配知识文本块对应的索引,从所述业务知识库中获取所述匹配知识文本块,并基于获取的匹配知识文本块,确定所述第二查询文本的查询结果。
13.如权利要求12所述的方法,其特征在于,所述基于所述第二查询文本的表征向量在所述知识向量库中确定匹配知识文本块对应的索引,包括:
按照预设搜索算法,在所述知识向量库中搜索与所述第二查询文本的表征向量相匹配的表征向量;所述预设搜索算法包括以下至少一种:基于图结构的人工神经网络搜索算法、基于树结构的人工神经网络搜索算法、向量相似搜索算法、向量距离搜索算法;
将所述相匹配的表征向量关联的索引确定为匹配知识文本块对应的索引。
14.如权利要求12或13所述的方法,其特征在于,所述获取的匹配知识文本块包括Q个,Q为大于1的整数;所述基于获取的匹配知识文本块,确定所述第二查询文本的查询结果,包括:
调用所述文本生成模型对Q个匹配知识文本块进行文本总结处理,得到所述第二查询文本的查询结果。
15.一种模型处理装置,其特征在于,包括:
获取单元,用于获取查询业务场景的业务知识库,并对所述业务知识库进行文本分割处理,得到N个知识文本块;N为正整数;
处理单元,用于调用文本生成模型分别为每个所述知识文本块构建问题簇;每个所述知识文本块分别对应一个问题簇,每个所述问题簇包含多个问题,每个所述问题簇包含的各个问题的答案均能够从对应的知识文本块中获得;
所述处理单元,还用于基于所述N个知识文本块及构建得到的N个问题簇,构建微调数据集;
所述处理单元,还用于采用所述微调数据集对预训练表征模型进行微调处理,得到目标表征模型;所述目标表征模型被应用于在所述查询业务场景中为文本生成表征向量。
16.一种计算机设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-14任一项所述的模型处理方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-14任一项所述的模型处理方法。
18.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-14任一项所述的模型处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097648.9A CN117609479B (zh) | 2024-01-24 | 2024-01-24 | 一种模型处理方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097648.9A CN117609479B (zh) | 2024-01-24 | 2024-01-24 | 一种模型处理方法、装置、设备、介质及产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117609479A true CN117609479A (zh) | 2024-02-27 |
CN117609479B CN117609479B (zh) | 2024-05-03 |
Family
ID=89956557
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410097648.9A Active CN117609479B (zh) | 2024-01-24 | 2024-01-24 | 一种模型处理方法、装置、设备、介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609479B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118153566A (zh) * | 2024-05-09 | 2024-06-07 | 华东交通大学 | 一种段落大意引导的汉语篇章结构分析方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364150A (zh) * | 2021-01-12 | 2021-02-12 | 南京云创大数据科技股份有限公司 | 一种结合检索与生成的智能问答方法和系统 |
CN114817570A (zh) * | 2022-05-11 | 2022-07-29 | 四川封面传媒科技有限责任公司 | 基于知识图谱的新闻领域多场景文本纠错方法 |
US20220318230A1 (en) * | 2021-04-05 | 2022-10-06 | Vianai Systems, Inc. | Text to question-answer model system |
CN115374259A (zh) * | 2022-06-24 | 2022-11-22 | 北京有竹居网络技术有限公司 | 一种问答数据挖掘方法、装置及电子设备 |
WO2023279692A1 (zh) * | 2021-07-09 | 2023-01-12 | 平安科技(深圳)有限公司 | 基于问答平台的数据处理方法、装置及相关设备 |
WO2023125335A1 (zh) * | 2021-12-28 | 2023-07-06 | 华为技术有限公司 | 问答对生成的方法和电子设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN117056471A (zh) * | 2023-07-11 | 2023-11-14 | 数字郑州科技有限公司 | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 |
-
2024
- 2024-01-24 CN CN202410097648.9A patent/CN117609479B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364150A (zh) * | 2021-01-12 | 2021-02-12 | 南京云创大数据科技股份有限公司 | 一种结合检索与生成的智能问答方法和系统 |
US20220318230A1 (en) * | 2021-04-05 | 2022-10-06 | Vianai Systems, Inc. | Text to question-answer model system |
WO2023279692A1 (zh) * | 2021-07-09 | 2023-01-12 | 平安科技(深圳)有限公司 | 基于问答平台的数据处理方法、装置及相关设备 |
WO2023125335A1 (zh) * | 2021-12-28 | 2023-07-06 | 华为技术有限公司 | 问答对生成的方法和电子设备 |
CN114817570A (zh) * | 2022-05-11 | 2022-07-29 | 四川封面传媒科技有限责任公司 | 基于知识图谱的新闻领域多场景文本纠错方法 |
CN115374259A (zh) * | 2022-06-24 | 2022-11-22 | 北京有竹居网络技术有限公司 | 一种问答数据挖掘方法、装置及电子设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN117056471A (zh) * | 2023-07-11 | 2023-11-14 | 数字郑州科技有限公司 | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118153566A (zh) * | 2024-05-09 | 2024-06-07 | 华东交通大学 | 一种段落大意引导的汉语篇章结构分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117609479B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aslam et al. | Fake detect: A deep learning ensemble model for fake news detection | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
CN113392651B (zh) | 训练词权重模型及提取核心词的方法、装置、设备和介质 | |
CN117609479B (zh) | 一种模型处理方法、装置、设备、介质及产品 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
US10915756B2 (en) | Method and apparatus for determining (raw) video materials for news | |
US11874798B2 (en) | Smart dataset collection system | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN115827819A (zh) | 一种智能问答处理方法、装置、电子设备及存储介质 | |
CN114003682A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN113821612A (zh) | 信息查找方法以及装置 | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN113010771A (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
CN117764373A (zh) | 风险预测的方法、装置、设备及存储介质 | |
Kumaravel et al. | PQPS: Prior‐Art Query‐Based Patent Summarizer Using RBM and Bi‐LSTM | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN111199170B (zh) | 配方文件识别方法及装置、电子设备、存储介质 | |
Ava et al. | Intelligent Identification of Hate Speeches to address the increased rate of Individual Mental Degeneration | |
CN117931858B (zh) | 数据查询方法、装置、计算机设备和存储介质 | |
CN112308453B (zh) | 风险识别模型训练方法、用户风险识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |