CN117743530A - 基于单意图的实时类问题的回复方法及装置 - Google Patents
基于单意图的实时类问题的回复方法及装置 Download PDFInfo
- Publication number
- CN117743530A CN117743530A CN202311667262.9A CN202311667262A CN117743530A CN 117743530 A CN117743530 A CN 117743530A CN 202311667262 A CN202311667262 A CN 202311667262A CN 117743530 A CN117743530 A CN 117743530A
- Authority
- CN
- China
- Prior art keywords
- question
- model
- intent
- real
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000004044 response Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 26
- 230000011218 segmentation Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012795 verification Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000011084 recovery Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供了一种基于单意图的实时类问题的回复方法及装置,该方法包括:响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。本申请解决了现有的问答模型为离线模型无法回答实时问题的技术问题。
Description
技术领域
本申请涉及AI技术领域,具体而言,涉及一种基于单意图的实时类问题的回复方法及装置。
背景技术
目前的问答模型主要集中在离线模型上,这些模型在回答用户提出的问题时通常依赖于事先训练好的知识库和静态数据。然而,这些模型在应对实时性问题时存在一些挑战,例如回答今天的日期、天气情况、最新电影信息等。
些传统问答模型的局限性在于其无法主动地获取和更新实时信息。由于其依赖于预先构建的知识库,无法实时更新的数据将导致模型无法提供有关当前时刻的准确信息。这种限制对于用户提出的关于当前时间、天气等实时性问题的回答产生了明显的不足。
因此,目前的技术面临的主要问题是无法灵活应对用户关于实时信息的查询。这包括对当天日期、即时天气状况、最新电影上映等问题的回答。由于这些模型受限于离线数据,无法主动获取并整合最新的实时信息,使得其在实时性问题上表现不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于单意图的实时类问题的回复方法及装置,以至少解决现有的问答模型为离线模型无法回答实时问题的技术问题。
根据本发明实施例的一个方面,提供了一种基于单意图的实时类问题的回复方法,包括:响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。
根据本发明实施例的另一方面,还提供了一种基于单意图的实时类问题的回复装置,包括:问题分类模块,被配置为响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;生成模块,被配置为基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。
在本发明实施例中,响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。通过上述方案,解决了现有的问答模型为离线模型无法回答实时问题的技术问题。
附图说明
附图说明构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种多意图识别支持大模型QA问答方法的流程图;
图2是根据本申请实施例的另一种多意图识别支持大模型QA问答方法的流程图;
图3是根据本申请实施例的一种模型训练方法的流程图;
图4是根据本申请实施例的一种实时类问题的回复方法的流程图;
图5是根据本申请实施例的一种多意图识别支持大模型QA问答装置的结构示意图;
图6是根据本申请实施例的一种实时类问题的回复装置的结构示意图;
图7示出了适于用来实现本公开实施例的电子设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例1
本申请实施例提供了一种多意图识别支持大模型QA问答方法,如图1所示,该方法包括以下步骤:
步骤S102,响应于接收到用户输入的问题,对所述问题进行多意图识别,并将所述多意图识别出的意图添加到所述问题中。
获取样本数据,所述样本数据包括多意图数据和单意图数据;对所述样本数据对应的语句数据进行分词切分,得到切分后的词语组;在所述切分后的词语组中添加预设的标记,所述标记用于标识切分的方式。在所述切分后的词语组中添加预设的标签,其中,所述标签包括单意图和多意图;基于所述标签,训练所述模型,其中,所述模型对所述标签进行分类以确定最终问题意图。其中,所述样本数据包括已上线的QA问答对和对上线的QA问答对进行的意图标注。
在一些实施例中,还可以对单意图进行抽象化定义从而来确定多意图,多意图个数可动态调整,样例中给出的只是最小单元双意图,可在训练是修改lable来调整多意图个数。
具体地,利用二进制交叉熵来确定所述模型的损失函数,并利用所述损失函数来训练所述模型;对所述模型进行批量运行,并通过F1分数来验证最终的所述模型的性能结果。本实施例采用binary_crossentropy损失来衡量模型的可行性,最终损失在0.141。在最终对该模型也进行批量运行通过f1_score来验证最终模型的结果分数,最终f1_score在0.913。
本实施例对用户输入的问题进行了多意图识别,并将识别出的意图添加到问题中。这样,通过在问题中添加多意图的方式,更好地定义了问题的本意,使得大模型在进行问答之前能够更精准地理解问题的意思。通过这种方式,有助于提高问答模型的准确性和实时性,从而改善了传统问答模型在理解问题语境方面的缺陷。整个方法的流程,包括对样本数据的处理、模型训练、损失函数的采用以及性能验证,都围绕多意图识别展开,从而有效地解决了传统问答模型断章取义的问题,提高了问答系统的质量。总之,本申请在大模型做问答之前添加多意图识别来定义问题本身的意思,让模型能更好的命中问题想要表达的意思,从而提高模型问答的准确性与实时性。
步骤S104,针所述多意图识别出的意图缩小关于所述问题的回答范围,并基于缩小后的所述回答范围确定最终问题意图。
将所述切分后的词语组的文本转换为向量表示;利用余弦相似度来比较所述向量表示和预定义的意图类别库中的意图类别进行比较;基于所述比较的结果,对所述切分后的词语组的标签进行分类以确定最终问题意图。
本实施例通过有针对性地缩小回答范围,根据识别出的多意图,精炼了问题的语境,从而更准确地确定了最终问题的意图。通过这个过程,该方法有效地提高了问题解析的精度,使得问答模型更专注于特定的问题背景,为生成最终问题响应提供了更可靠的基础。这种缩小回答范围的策略有助于减少模型在复杂语境中的歧义性,进一步提升了问答系统的准确性和实用性。
步骤S106,基于所述最终问题意图,生成所述问题的问题响应。
现有传统问答模型无法精准的实现问题本身想要模型回复的内容,模型往往会断章取义。本实施例提供了一种面向传统问答业务的多意图识别组件,配合传统大模型从而提高了问答质量。
实施例2
本申请实施例提供了另一种多意图识别支持大模型QA问答方法,如图2所示,该方法包括以下步骤:
步骤S202,收集多意图/单意图数据。
数据来源包括已上线的QA问答对,对上线的QA问答对进行意图标注。通过对已存在的问答对进行审查和选择,以确保数据集的多样性和代表性。然后,对这些QA问答对进行意图标注,即为每个问题标明相应的意图。意图的标注可以是单一的,表示单一意图,也可以是多重的,表示多个意图。
步骤S204,获取问答信息,对问题语句数据进行分词切分。
从收集到的QA问答对中提取问题语句数据。对这些问题语句进行分词切分,将每个问题划分成一个词语组,为后续的处理和分析做准备。
步骤S206,在切分后的词语组中添加预设好的token。
将在问题语句分词切分后得到的词语组中添加预设好的token。这些token可能是为了标识句子的开始和结束,也可能是为了标识问题的特定部分或结构。这有助于模型更好地理解问题的语境和结构。
步骤S208,对lable进行特殊定义。
例如,单意图【询问天气[1,0]、询问日期[0,1]】多意图【询问天气及日期[1,1]】。
步骤S210,模型训练。
利用二进制交叉熵确定模型的损失函数,通过该损失函数训练模型。模型进行批量运行,验证最终模型的性能结果,其中使用F1分数来评估模型的性能。
本实施例采用Tensorflow框架、使用BERT来实现Embedding的转换、使用LSTM进行训练评估结果、使用optimizer为adam。
具体地,模型训练的方法如图3所示包括以下步骤:
步骤S2102,构建模型。
本实施例使用Tensorflow框架来建立深度学习模型。该模型的架构包括了嵌入层(Embedding Layer),LSTM层,输出层等。Embedding Layer用于将文本数据转换为向量,LSTM层用于处理序列信息。Tensorflow是一个广泛应用于机器学习和深度学习的框架,其提供了高度灵活的工具和接口,有助于构建、训练和评估复杂的神经网络模型。BERT是预训练的自然语言处理模型,通过将文本映射到高维向量空间,保留了语境信息。这有助于提高模型对问题的理解。长短时记忆网络LSTM是一种适用于序列数据的深度学习模型。LSTM能够有效地捕获文本中的序列信息,对问题语句的语义有更好的理解。
具体地,构建模型包括以下方法:
1)Embedding过程(BERT Embedding):
输入序列:X=(x1,x2,...,xT)
Embedding层的输出:E=(e1,e2,...,eT)
其中,E表示Embedding后的向量序列,每个xi是对应ei的嵌入向量。
2)LSTM层运算。
对于LSTM的一个单元(cell):
it=σ(Wiixt+bii+Uiiht-1+cii)
ft=σ(Wifxt+bif+Uifht-1+cif)
gt=tanh(Wigxt+big+Uight-1+cig)
ot=σ(Wioxt+bio+Uioht-1+cio)
其中,it,ft,gt,ot分别表示输入门、遗忘门、细胞状态更新和输出门的激活值,xt是当前时间步的输入,ht-1是上一时间步的隐藏状态,W和U是嵌入层和LSTM层的权重,b和c是相应的偏置。
3)LSTM层的输出:
ht=ot·tanh(Ct)
其中,Ct是当前时间步的细胞状态。
4)模型输出层(多标签分类):
输出层采用Sigmoid激活函数,对每个标签的输出进行二分类:
yi=σ(Vix+di)
这里,yi表示第i个标签的输出,Vi和di是相应的权重和偏置,σ(sigma)表示sigmoid函数。
本实施例新引入了表示Embedding后的向量序列E以及Embedding层和LSTM层的权重W、E和偏置b、c。V,d是输出层的权重和偏置。
本实施例通过引入BERT进行Embedding的转换,能够更好地捕捉问题语句的语义信息。BERT是预训练的自然语言处理模型,通过上下文关系学习,能够生成更丰富的语义表示。LSTM层的引入使模型能够更好地处理问题语句的序列信息。LSTM通过记忆细胞状态,有助于捕捉语句中的长期依赖关系,提高了对问题语境的理解。
步骤S2104,模型配置。
配置模型的优化器(optimizer)。本实施例选择了Adam优化器以及损失函数(binary_crossentropy)。Adam优化器有助于提高模型在训练过程中的收敛速度,而binary_crossentropy损失函数适用于二分类问题。
在配置Adam优化器时,可以基于一阶和二阶矩的估计、动量项、学习率衰减参数、控制随时间学习率的变化的参数、迭代次数、一阶和二阶矩的偏差修正来更新Adam优化器。例如,Adam优化器的更新规则可以如下:
其中,mt和vt分别为t时刻的一阶和二阶矩的估计。β1和β2为动量项,通常分别取0.9和0.999。θt是模型的参数集,包括神经网络中的权重和偏差等。a为学习率衰减参数,Δθt-1=θt-θt-1表示参数的变化。ρ是新引入的控制随时间学习率的变化的参数。t是当前的迭代次数。和/>分别为对一阶和二阶矩的偏差修正。η为学习率。ε是为了数值稳定性而添加的小常数。
本实施例中,Adam优化器的更新规则结合了动量(momentum)和自适应学习率的概念,有益于提高模型在训练过程中的收敛速度和稳定性。通过计算梯度的一阶和二阶矩估计,Adam可以动态地调整学习率,对于不同参数有不同的学习率,从而更灵活地适应不同方向和幅度的梯度变化。这有助于避免学习率设置过大或过小的问题,提高了优化的效果。此外,Adam还利用动量的概念,使更新方向更加平滑,有助于克服优化过程中的震荡现象,进而提高了模型的收敛速度和泛化能力。
Adam优化器根据梯度的一阶和二阶矩估计动态调整学习率,有助于模型更快地收敛。采用binary_crossentropy损失函数,适用于二分类问题。这个损失函数用于衡量模型输出与实际标签之间的差异,最小化该差异是训练过程的目标。
在一些实施例中,可以基于不同类型的正则化项、正则化项权重参数、实际标签和预测标签来确定损失函数。例如,可以采用以下的方式来确定二进制交叉熵损失函数:
其中,R1(θ)和R2(θ)分别是两种不同类型的正则化项,β是正则化项权重参数,控制两种正则化项在总损失中的权重。N是样本数。yi是实际标签。是模型输出的预测标签。
引入正则化项的损失函数有益于控制模型的复杂度,防止过拟合,提高模型在未见过数据上的泛化能力。正则化项通过对模型参数的大小进行惩罚,使得模型更倾向于学习简单且更具一般性的模式,而不是过度拟合训练数据中的噪声。这有助于防止模型在面对新数据时出现过度拟合的情况,从而提高了模型的鲁棒性和实用性。通过合适的正则化,可以有效平衡模型在训练数据上的拟合程度和在未知数据上的泛化性能,使得模型更具有通用性和可靠性。
本实施例还引入了如学习率和正则化项,使得模型的配置更加灵活。不同层面的学习率和正则化项可以帮助优化器更好地调整模型参数,提高模型训练的稳定性和收敛速度。此外,引入正则化项可以有效地控制模型的复杂度,防止过拟合,提高模型在未见过数据上的泛化能力。最后,通过多个epoch的训练和性能验证,模型在训练数据上逐渐适应,最终得到的F1分数表明模型在多意图分类任务上表现出色,具有更高的准确性和性能。
步骤S2106,模型训练。
使用配置好的优化器和损失函数,在训练数据上进行多个epochs的训练。这一过程通过反向传播不断更新模型的参数,使其逐渐适应训练数据,提高对意图的识别能力。
步骤S2108,性能验证。
在训练完成后,利用验证集或测试集进行性能验证。采用F1分数作为评估指标,通过批量运行模型,并计算F1分数来评估模型的准确性和泛化能力。
最终损失在0.141表明模型在训练过程中逐渐收敛。而通过批量运行验证和得到的F1分数为0.913,说明该模型在多意图分类任务上表现出色,具有很高的准确性和泛化能力。
实施例3
现有的问答模型为离线模型无法回答如:今天周几,今天几号,今天天气,最近有什么电影等实时性问题。
本申请实施例提供了一种实时类问题的回复方法。该方法提供了问题分流能力,由传统知识型问答模型回答传统问题,实时型问题交由其他API进行实时操作。如图4所示,该方法包括以下步骤:
步骤S402,收集单意图数据。
数据来源包括已上线的QA问答对,重点收集偏向实时型问题,对上线的QA问答对进行意图标注。
具体地,收集单一意图的数据。这些数据来源于已上线的问答对(QA问答对),并着重收集偏向实时型问题。实时性问题可能包括类似于“今天周几”、“今天几号”、“今天天气”、“最近有什么电影”等需要及时回复的问题。然后,进行数据标注。收集到的QA问答对需要经过意图标注的过程。每个问题都会被标注上相应的意图,这有助于后续的模型训练和分类。
步骤S404,获取问答信息,对问题语句数据进行分词切分。
从收集到的QA问答对中提取问题语句数据。这些问答对可能涵盖各种主题,但在这一步骤中,特别关注实时型问题,以满足对实时性问题的回复需求。
对获取到的问题语句进行分词切分。将每个问题划分成一个词语组,使得问题的表达形式更容易被模型处理。分词的过程可以采用常见的自然语言处理工具或库,确保切分后的词语能够保留原问题的语义信息。
分词切分的目的是为后续处理(如Embedding转换、模型训练)提供准备。分词后的问题数据更容易被嵌入模型,有助于提高模型对问题语境的理解和捕捉语义信息。
在分词切分时,需要注意处理一些特殊情况,如多义词、停用词、标点符号等。确保切分后的词语组能够准确反映问题的含义,减少噪声的影响。
此步骤中重点处理实时型问题,因此需要确保分词后的数据能够有效地用于后续实时操作,提高对这类问题的回复效率。
通过步骤S404,将问题语句数据进行了分词切分,为后续的处理步骤提供了清晰、可操作的数据形式,为模型的训练和评估做好了准备。
步骤S406,在切分后的词语组中添加预设好的标记。
针对已经分词切分的问题语句数据,引入预先定义好的标记(token)。这些token可能具有特殊的含义,例如标识句子的开始和结束,或者用于突出问题的某些特定部分。
添加token的目的在于为模型提供更多关于问题结构和语境的信息。这有助于提高模型对问题的理解能力,使其能够更好地捕捉问题中的重要特征。例如,可以在问题的开头添加一个"<start>"token,表示句子的起始,而在结尾添加一个"<end>"token,表示句子的结束。这些token的具体选择可能根据具体的问题和模型设计进行调整。
在添加token的过程中,需要注意不破坏原问题语句的语义信息。确保token的引入不会使得问题的含义发生改变,而是为了更好地供模型理解和处理。
由于本实施例重点处理实时型问题,在添加token时,可以考虑是否有特殊的token用于标识实时性问题,以便后续处理可以针对这类问题进行更灵活的操作。
通过步骤S406,在问题语句的词语组中引入了预设好的token,为模型提供了更丰富的语境信息,有助于提高模型对实时类问题的处理效果。
步骤S408,对label进行特殊定义。
对label进行特殊定义,如:单意图。
具体地,针对收集到的问答数据,特别是实时类问题,为每个问题定义相应的意图标签。这些标签可以是单一的,表示单一的问题意图,也可以是多重的,表示多个可能的意图。
按照实际需求,可以采用二进制表示方式,其中每个标签用一个二进制位表示,或者使用其他编码方式。例如,单意图可能对应[1,0,0,...],而多意图可能对应[1,1,0,...]。例如,对于查询天气的问题,可能定义单一意图标签为[1,0],其中第一个位置表示是否是查询天气的意图,第二个位置表示其他意图。对于查询天气及日期的问题,可能定义多意图标签为[1,1],其中两个位置都表示存在对应的意图。如果存在多个类别,需要根据实际情况进行合理的标签定义,确保每个问题都能得到正确的标签。标签的定义需要与模型输出层的设置相一致,以确保训练和预测时标签的匹配。
通过步骤S408,对label进行了特殊定义,为训练模型提供了准确的问题意图标签,使得模型能够学习并预测不同问题对应的意图类别。这有助于提高模型在多意图分类任务上的性能。
步骤S410,模型输出。
定义为单标签输出及softmax([y1,y2,y3,y4...ym]),判断意图分类。在本实施例中,模型的构建和训练和实施例3中的模型的构建和训练的方法相同,此处不再赘述。
本实施例主要为了提高整个系统的问答能力,重点在于标注数据中的实时类问题的标注,在问答前意图分流中呈现更好的效果。与现有技术相比,本实施例提高整个系统的问答范围,让问答不单单局限于传统知识点,更多的能帮助用户在问答的过程中解决实际问题。
本申请将文本映射为向量后,再根据定义好的意图类库,进行cos计算来达到相同的效果,在结果上无法保证结果的准确性、泛化性。
本实施例采用sparse_categorical_crossentropy损失来衡量模型的可行性,最终损失在0.085。在最终对该模型也进行批量运行通过f1_score来验证最终模型的结果分数,最终f1_score在0.942。
本实施例采用TensorFlow框架,实验中使用BERT来实现Embedding的转换,实验中使用LSTM进行训练评估结果,实验中使用optimizer为Adam。
实施例4
本申请实施例提供了一种多意图识别支持大模型QA问答装置,如图5所示,包括:识别模块52、确定模块54和生成模块56。
识别模块52被配置为响应于接收到用户输入的问题,对所述问题进行多意图识别,并将所述多意图识别出的意图添加到所述问题中;确定模块54被配置为针所述多意图识别出的意图缩小关于所述问题的回答范围,并基于缩小后的所述回答范围确定最终问题意图;生成模块56被配置为基于所述最终问题意图,生成所述问题的问题响应。
需要说明的是:上述实施例提供的多意图识别支持大模型QA问答装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的多意图识别支持大模型QA问答装置与多意图识别支持大模型QA问答方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
实施例5
本申请实施例提供了一种实时类问题的回复装置,如图6所示,包括:问题分类模块62、生成模块64。
问题分类模块62被配置为响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;生成模块64被配置为基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。
需要说明的是:上述实施例提供的实时类问题的回复装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的实时类问题的回复装置与实时类问题的回复方法实施例属于同一构思,其具体实现过程详见方法实施例,此处不再赘述。
实施例6
图7示出了适于用来实现本公开实施例的电子设备的结构示意图。需要说明的是,图7示出的电子设备仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,该电子设备包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有系统操作所需的各种程序和数据。CPU1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,电子设备还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现上述方法实施例的各个步骤等。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于单意图的实时类问题的回复方法,其特征在于,包括:
响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;
基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。
2.根据权利要求1所述的方法,其特征在于,基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应,包括:
在所述问题被分类为实时型问题的情况下,由人工智能模型来生成所述问题的问题响应;
在所述问题被分类为非实时型问题的情况下,由传统知识型模型来生成所述问题的问题响应。
3.根据权利要求1所述的方法,其特征在于,对所述问题进行多意图识别,包括:利用预先训练好的模型来对所述问题进行多意图识别,其中,所述模型是通过以下得到的:
获取单意图数据;
对所述单意图数据对应的语句数据进行分词切分,得到切分后的词语组;
在所述切分后的词语组中添加预设的标签,其中,所述标签包括单意图;
基于所述标签,训练所述模型,其中,所述模型对所述标签进行意图分类。
4.根据权利要求3所述的方法,其特征在于,所述单意图数据包括:已上线的QA问答对、和对上线的QA问答对进行的意图标注,其中,所述已上线的QA问答对包括偏向实时型问题的QA问答对。
5.根据权利要求3所述的方法,其特征在于,训练所述模型包括:
选择适用于多类别分类任务的损失函数作为所述模型的损失函数,并利用所述损失函数来训练所述模型;
对所述模型进行批量运行,并通过F1分数来验证最终的所述模型的性能结果。
6.根据权利要求3所述的方法,其特征在于,所述模型对所述标签进行意图分类,包括:
将所述切分后的词语组的文本转换为向量表示;
利用余弦相似度来比较所述向量表示和预定义的意图类别库中的意图类别进行比较;
基于所述比较的结果,对所述切分后的词语组的标签进行意图分类。
7.根据权利要求2所述的方法,其特征在于,在得到切分后的词语组之后,所述方法还包括:在所述切分后的词语组中添加预设的令牌,所述令牌用于标识切分的方式。
8.一种基于单意图的实时类问题的回复装置,其特征在于,包括:
问题分类模块,被配置为响应于接收到用户输入的问题,对所述问题进行意图识别,并基于所述意图识别出的意图对所述问题进行分类;
生成模块,被配置为基于所述分类的结果,采用不同的问题模型来生成所述问题的问题响应。
9.一种电子设备,其特征在于,包括:
存储器,被配置为存储计算机程序;
处理器,被配置为在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667262.9A CN117743530A (zh) | 2023-12-06 | 2023-12-06 | 基于单意图的实时类问题的回复方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667262.9A CN117743530A (zh) | 2023-12-06 | 2023-12-06 | 基于单意图的实时类问题的回复方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117743530A true CN117743530A (zh) | 2024-03-22 |
Family
ID=90278741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311667262.9A Pending CN117743530A (zh) | 2023-12-06 | 2023-12-06 | 基于单意图的实时类问题的回复方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743530A (zh) |
-
2023
- 2023-12-06 CN CN202311667262.9A patent/CN117743530A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116992005B (zh) | 基于大模型及本地知识库的智能对话方法、系统及设备 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
CN109933792A (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
WO2021001517A1 (en) | Question answering systems | |
CN114510570A (zh) | 基于小样本语料的意图分类方法、装置及计算机设备 | |
EP3832485A1 (en) | Question answering systems | |
CN114880991B (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
Al-Besher et al. | BERT for Conversational Question Answering Systems Using Semantic Similarity Estimation. | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN110489730A (zh) | 文本处理方法、装置、终端及存储介质 | |
CN118013978A (zh) | 基于自然语言处理的调查问卷反馈数据挖掘方法及系统 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN114925681B (zh) | 知识图谱问答问句实体链接方法、装置、设备及介质 | |
CN113627197B (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
US11755570B2 (en) | Memory-based neural network for question answering | |
CN115062769A (zh) | 基于知识蒸馏的模型训练方法、装置、设备及存储介质 | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN117743530A (zh) | 基于单意图的实时类问题的回复方法及装置 | |
CN117725172A (zh) | 多意图识别支持大模型qa问答方法及装置 | |
Gong | Analysis of internet public opinion popularity trend based on a deep neural network | |
CN117591666B (zh) | 针对桥梁管养文档的摘要抽取方法 | |
CN115114910B (zh) | 文本处理方法、装置、设备、存储介质及产品 | |
CN118132738B (zh) | 针对桥梁检评文本的抽取式问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Building 60, 1st Floor, No.7 Jiuxianqiao North Road, Chaoyang District, Beijing 021 Applicant after: Shiyou (Beijing) Technology Co.,Ltd. Address before: 4017, 4th Floor, Building 2, No.17 Ritan North Road, Chaoyang District, Beijing Applicant before: 4U (BEIJING) TECHNOLOGY CO.,LTD. Country or region before: China |
|
CB02 | Change of applicant information |