CN117743555A - 答复决策信息发送方法、装置、设备和计算机可读介质 - Google Patents
答复决策信息发送方法、装置、设备和计算机可读介质 Download PDFInfo
- Publication number
- CN117743555A CN117743555A CN202410171778.2A CN202410171778A CN117743555A CN 117743555 A CN117743555 A CN 117743555A CN 202410171778 A CN202410171778 A CN 202410171778A CN 117743555 A CN117743555 A CN 117743555A
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- image
- semantic vector
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000005540 biological transmission Effects 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 257
- 230000000903 blocking effect Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims description 45
- 238000003062 neural network model Methods 0.000 claims description 32
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本公开的实施例公开了答复决策信息发送方法、装置、设备和计算机可读介质。该方法的一具体实施方式包括:对提问信息进行信息分块处理,以生成分块信息集;生成每个分块信息对应的语义向量,得到语义向量集;对于每个语义向量,执行以下处理步骤:利用多模态语义向量存储库,确定与语义向量之间的语义相似程度大于目标数值的模态语义向量组;生成全量语义向量;生成上下文信息;生成针对上下文信息的提示词组;对提示词集中的各个提示词进行内容调整,以生成调整后提示词集;获取模态输出形式;生成答复决策信息;通过目标传输协议,将答复决策信息发送至业务显示终端。该实施方式可以精准地生成针对提问信息的答复决策信息。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及答复决策信息发送方法、装置、设备和计算机可读介质。
背景技术
目前,城市大脑是新型智慧城市建设的核心要素之一,依托物联网、区块链、云计算、数字孪生、大数据、人工智能等技术,通过实时汇聚、监测和分析城市的全域运行数据,从而实现城市运行态势感知、监测预警、辅助决策等功能,进而提升城市现代化治理能力,促进城市治理体系和治理能力现代化。对于答复决策信息的生成,通常采用的方式为:基于大模型的辅助信息生成方法,来实现答复决策信息的生成。
然而,发明人发现,当采用上述方式,经常会存在如下技术问题一:
大模型的辅助信息生成方法存在一定的精准度问题,且由于训练的成本比较高,周期也比较长,数据的时效性也大大降低。
在采用技术方案来解决上述技术问题一的过程中,往往又会伴随着如下技术问题二:如何精准地根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息。针对上述技术问题二,常规的解决方案一般是:将调整后提示词组集和全量语义向量集输入至多层串联的循环神经网络模型,以生成答复决策信息。然而,上述常规解决方案依然存在如下问题:多层串联的循环神经网络模型的模型精准度有限,导致所得到的答复决策信息不够精准。
该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了答复决策信息发送方法、装置、设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种答复决策信息发送方法,包括:对所获取的提问信息进行信息分块处理,以生成分块信息集;生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;对于上述语义向量集中的每个语义向量,执行以下处理步骤:利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息;根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量;生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息;生成针对上述上下文信息的提示词组;根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;获取针对上述提问信息的、所输入的模态输出形式;根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息;通过目标传输协议,将上述答复决策信息发送至业务显示终端。
第二方面,本公开的一些实施例提供了一种答复决策信息发送装置,包括:信息分块单元,被配置成对所获取的提问信息进行信息分块处理,以生成分块信息集;第一生成单元,被配置成生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;执行单元,被配置成对于上述语义向量集中的每个语义向量,执行以下处理步骤:利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息;根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量;生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息;生成针对上述上下文信息的提示词组;内容调整单元,被配置成根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;获取单元,被配置成获取针对上述提问信息的、所输入的模态输出形式;第二生成单元,被配置成根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息;发送单元,被配置成通过目标传输协议,将上述答复决策信息发送至业务显示终端。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的答复决策信息发送方法,可以精准地生成针对提问信息的答复决策信息。具体来说,造成相关的答复决策信息不够精确的原因在于:大模型的辅助信息生成方法存在一定的精准度问题,且由于训练的成本比较高,周期也比较长,数据的时效性也大大降低。基于此,本公开的一些实施例的答复决策信息发送方法,首先,对所获取的提问信息进行信息分块处理,以生成分块信息集,以实现对提问信息的语义划分,以便于后续针对性的生成更为精准地提示词集。然后,生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集,以转换成向量形式,便于提示词的生成。接着,对于上述语义向量集中的每个语义向量,执行以下处理步骤:第一步,利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组。其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息。在这里,通过多模态语义向量存储库,可以实现获取针对语义向量的多模态形式的语义向量,即模态语义向量组,以便于后续针对多模态的特征信息的提取。第二步,根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量,以得到特征更为丰富的全量语义向量。第三步,可以精准地生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息,以用于后续提示词组的生成。进而,根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成更为精准的调整后提示词集。进一步的,获取针对上述提问信息的、所输入的模态输出形式,以便于后续生成想要输出的模型输出形式的决策信息。进一步,根据上述调整后提示词组集和上述全量语义向量集,可以精准地生成上述模态输出形式下的答复决策信息。最后,通过目标传输协议,将上述答复决策信息发送至业务显示终端。综上,通过针对每个分块信息的多模态特征的获取与融合,来后续精准地生成每个分块信息对应的提示词集,便于后续基于调整后的提示词集生成更为精准地答复决策信息。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的答复决策信息发送方法的一些实施例的流程图;
图2是根据本公开的答复决策信息发送装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
参考图1,示出了根据本公开的答复决策信息发送方法的一些实施例的流程100。该答复决策信息发送方法,包括以下步骤:
步骤101,对所获取的提问信息进行信息分块处理,以生成分块信息集。
在一些实施例中,上述答复决策信息发送方法的执行主体可以对所获取的提问信息进行信息分块处理,以生成分块信息集。其中,提问信息可以是待进行回复的问题信息。例如,提问信息可以是“当前位置是哪里,距离A地点还有多远?”。分块信息集中的分块信息可以是提问信息中一部分信息。例如,分块信息集可以包括:“当前位置是哪里”、“距离A地点还有多远?”。
作为示例,上述执行主体可以依据目标标点符号,对所获取的提问信息进行信息分块处理,以生成分块信息集。
步骤102,生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集。
在一些实施例中,上述执行主体可以生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集。其中,语义向量可以表征分块信息对应的语义特征信息。
作为示例,上述执行主体可以利用词嵌入模型,来生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集。
步骤103,对于上述语义向量集中的每个语义向量,执行以下处理步骤:
步骤1031,利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组。
在一些实施例中,上述执行主体可以利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组。其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同。上述目标分块信息是与上述语义向量相对应的分块信息。其中,多模态语义向量存储库可以是存储各种模态形式下、向量形式的各种内容的存储库。实践中,多个模态可以包括但不限于以下至少一项:图像模态,文本模态,音频模态。多模态语义向量存储库中的各个向量可以是预先生成的。多模态语义向量存储库中的各个向量可以是图谱形式的。语义相似程度可以表征两个向量之间的语义内容的相似度。语义相似度可以是0-1之间的数值。数值越大,表征语义内容越相似度。目标数值可以是预先设置的数值。例如,目标数值可以是0.6。模态语义向量组可以包括:针对图像模态的至少一个语义向量、针对音频模态的至少一个语义向量。
作为示例,上述执行主体可以通过确定与语义向量之间的余弦距离大于目标数值的图像模态和音频模态下的向量,得到模态语义向量组。
步骤1032,根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量。
在一些实施例中,上述执行主体可以根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量。其中,全量语义向量可以表征目标分块信息对应的全面的、多模态综合特征信息。
作为示例,上述执行主体可以将上述模态语义向量组和上述语义向量进行向量拼接,以生成全量语义向量。
步骤1033,生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息。
在一些实施例中,上述执行主体可以生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息。其中,上下文信息可以是分块信息对应的上下文相关语义内容信息。即,上下文信息可以是与分块信息存在语义内容联系的信息。
在一些实施例的一些可选的实现方式中,上述生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息,可以包括以下步骤:
第一步,将上述全量语义向量输入至基于图像模态元素区域的特征信息注意力加权融合模型,以生成图像模态注意力加权融合信息。其中,基于图像模态元素区域的特征信息注意力加权融合模型可以是针对图像模态的元素进行注意力加权关注的特征信息融合模型。即,基于图像模态元素区域的特征信息注意力加权融合模型可以针对全量语义向量进行图像模态元素的注意力特征提取,以通过较大权重将全量语义向量中的图像模态元素的特征信息和较小权重将全量语义向量中的其他模态元素的特征信息进行融合在一起。实践中,基于图像模态元素区域的特征信息注意力加权融合模型可以是图像特征信息提取模型+多头注意力机制模型。图像特征信息提取模型可以是对全量语义向量中的图像特征进行特征信息提取的神经网络模型。实践中,图像特征提取模型可以是多层串联连接的卷积神经网络模型。
第二步,将上述全量语义向量输入至基于文本模态元素区域的特征信息注意力加权融合模型,以生成文本模态注意力加权融合信息。其中,基于文本模态元素区域的特征信息注意力加权融合模型可以是针对文本模态的元素进行注意力加权关注的特征信息融合模型。即,基于文本模态元素区域的特征信息注意力加权融合模型可以针对全量语义向量进行文本模态元素的注意力特征提取,以通过较大权重将全量语义向量中的文本模态元素的特征信息和较小权重将全量语义向量中的其他模态元素的特征信息进行融合在一起。实践中,基于文本模态元素区域的特征信息注意力加权融合模型可以是文本特征信息提取模型+多头注意力机制模型。文本特征信息提取模型可以是对全量语义向量中的文本特征进行特征信息提取的神经网络模型。实践中,文本特征提取模型可以是多层串联连接的循环神经网络模型。
第三步,将上述全量语义向量输入至基于音频模态元素区域的特征信息注意力加权融合模型,以生成音频模态注意力加权融合信息。其中,基于音频模态元素区域的特征信息注意力加权融合模型可以是针对音频模态的元素进行注意力加权关注的特征信息融合模型。即,基于音频模态元素区域的特征信息注意力加权融合模型可以针对全量语义向量进行音频模态元素的注意力特征提取,以通过较大权重将全量语义向量中的音频模态元素的特征信息和较小权重将全量语义向量中的其他模态元素的特征信息进行融合在一起。实践中,基于音频模态元素区域的特征信息注意力加权融合模型可以是音频特征信息提取模型+多头注意力机制模型。音频特征信息提取模型可以是对全量语义向量中的音频特征进行特征信息提取的神经网络模型。实践中,音频特征提取模型可以包括:音频与文本转换模型+多层串联连接的循环神经网络模型。其中,音频与文本转换模型可以是将音频领域下的音频特征信息转换为文本领域下的文本特征信息的神经网络模型。实践中,音频与文本转换模型可以是多层卷积神经网络模型。
第四步,将上述图像模态注意力加权融合信息输入至图像特征卷积神经网络模型,以生成图像特征信息。其中,图像特征卷积神经网络模型可以是多次图像特征变换的神经网络模型。实践中,图像特征卷积神经网络模型可以是多层串联连接的卷积神经网络模型。
第五步,将上述文本模态注意力加权融合信息输入至文本特征卷积神经网络模型,以生成文本特征信息。其中,文本特征卷积神经网络模型可以是多次文本特征变换的神经网络模型。实践中,文本特征卷积神经网络模型可以是多层串联连接的卷积神经网络模型。
第六步,将上述音频模态注意力加权融合信息输入至音频特征卷积神经网络模型,以生成音频特征信息。其中,音频特征卷积神经网络模型可以是多次音频特征变换的神经网络模型。实践中,音频特征卷积神经网络模型可以是多层串联连接的卷积神经网络模型。
第七步,设置针对上述图像特征信息和上述文本特征信息对应的第一特征权重比、针对上述图像特征信息和上述音频特征信息对应的第二特征权重比、针对上述文本特征信息和上述音频特征信息对应的第三特征权重比。其中,上述第一特征权重比表征上述图像特征信息对应特征重要程度高于上述文本特征信息对应重要程度,上述第二特征权重比表征上述图像特征信息对应特征重要程度高于上述音频特征信息对应重要程度,上述第三特征权重比表征上述文本特征信息对应特征重要程度高于上述音频特征信息对应重要程度。
第八步,将上述第一特征权重比、上述图像特征信息和上述文本特征信息输入至第一关联图像生成模型,以生成第一关联图像序列。第一关联图生成模型可以是针对图像特征和文本特征来生成关联图序列的神经网络模型。实践中,第一关联图生成模型可以是端到端神经网络模型。第一关联图像序列中的关联图像是依据关联程度依次由大到小进行排序的。即,第一关联图像序列中的第一个关联图像是特征关联程度最高的关联图像。第一关联图像序列中的最后一个关联图像是特征关联程度最低的关联图像。
第九步,将上述第二特征权重比、上述图像特征信息和上述音频特征信息输入至第二关联图像生成模型,以生成第二关联图像序列。其中,第二关联图生成模型可以是针对图像特征和音频特征来生成关联图序列的神经网络模型。实践中,第二关联图生成模型可以是端到端神经网络模型。第二关联图像序列中的关联图像是依据关联程度依次由大到小进行排序的。即,第二关联图像序列中的第一个关联图像是特征关联程度最高的关联图像。第二关联图像序列中的最后一个关联图像是特征关联程度最低的关联图像。
第十步,将上述第三特征权重比、上述文本特征信息和上述音频特征信息输入至第一关联文本生成模型,以生成第一关联文本序列。其中,第一关联文本生成模型可以是针对文本特征和音频特征来生成关联文本序列的神经网络模型。实践中,第一关联文本生成模型可以是端到端神经网络模型。第一关联文本序列中的关联文本是依据关联程度依次由大到小进行排序的。即,第一关联文本序列中的第一个关联文本是特征关联程度最高的关联文本。第二关联文本序列中的最后一个关联文本是特征关联程度最低的关联文本。
第十一步,根据上述第一关联图像序列、上述第二关联图像序列和上述第一关联文本序列,生成上述上下文信息。
可选地,上述根据上述第一关联图像序列、上述第二关联图像序列和上述第一关联文本序列,生成上述上下文信息,可以包括以下步骤:
第一步,设置针对上述图像特征信息和上述文本特征信息对应的第四特征权重比、针对上述图像特征信息和上述音频特征信息对应的第五特征权重比、针对上述文本特征信息和上述音频特征信息对应的第六特征权重比,其中,上述第四特征权重比表征上述文本特征信息对应特征重要程度高于上述图像特征信息对应重要程度,上述第五特征权重比表征上述音频特征信息对应特征重要程度高于上述图像特征信息对应重要程度,上述第六特征权重比表征上述音频特征信息对应特征重要程度高于上述文本特征信息对应重要程度。
第二步,将上述第四特征权重比、上述图像特征信息和上述文本特征信息输入至第二关联文本生成模型,以生成第二关联文本序列。具体的,第二关联文本生成模型的相关解释可以参见第一关联文本生成模型的相关解释。
第三步,将上述第五特征权重比、上述图像特征信息和上述音频特征信息输入至第一关联音频生成模型,以生成第一关联音频序列。其中,第一关联音频生成模型可以是针对图像特征和音频特征来生成关联音频序列的神经网络模型。实践中,第一关联音频生成模型可以是端到端神经网络模型。第一关联音频序列中的关联音频是依据关联程度依次由大到小进行排序的。即,第一关联音频序列中的第一个关联音频是特征关联程度最高的关联音频。第二关联音频序列中的最后一个关联音频是特征关联程度最低的关联音频。
第四步,将上述第六特征权重比、上述文本特征信息和上述音频特征信息输入至第二关联音频生成模型,以生成第二关联音频序列。其中,第二关联音频生成模型的相关解释可以参见第一关联音频生成模型的相关解释。
第五步,对上述第一关联图像序列和上述第二关联图像序列进行图像排序融合,以生成图像序列,以及对上述第一关联文本序列和上述第二关联文本序列进行图像排序融合,以生成文本序列,以及对上述第一关联音频序列和上述第二关联音频序列进行图像排序融合,以生成音频序列。
第六步,将上述图像序列、上述文本序列和上述音频序列确定为上述上下文信息。
步骤1034,生成针对上述上下文信息的提示词组。
在一些实施例中,上述执行主体可以生成针对上述上下文信息的提示词组。其中,提示词可以是与上下文信息对应语义内容存在关联关系的提示词。实践中,提示词组可以包括:上下文信息中的关键词和上下文信息中的关键词的相似关键词。
在一些实施例的一些可选的实现方式中,上述生成针对上述上下文信息的提示词组,可以包括以下步骤:
第一步,从上述图像序列中去除对应图像关联程度小于第一数值的图像,得到去除后图像序列。图像关联程度可以是图像的特征关联程度。第一数值可以是预设数值。
第二步,从上述文本序列中去除对应文本关联程度小于第二数值的文本,得到去除后文本序列。文本关联程度可以是文本的特征关联程度。第二数值可以是预设数值。
第三步,从上述音频序列中去除对应音频关联程度小于第三数值的音频,得到去除后音频序列。音频关联程度可以是音频的特征关联程度。第三数值可以是预设数值。
第四步,提取上述去除后图像序列中的各个图像对应的共同图像特征信息。其中,共同图像特征信息可以是各个图像中的具有相同图像特征的特征信息。
作为示例,首先,上述执行主体可以将上述去除后图像序列中的各个图像输入至对应的卷积神经网络模型,得到图像特征信息序列。然后,将图像特征信息序列中的各个图像特征信息进行特征信息拼接,以生成拼接特征信息。最后,将拼接特征信息输入至多层串联的卷积神经网络模型,以输出共同图像特征信息。
第五步,提取上述去除后文本序列中的各个文本对应的共同文本特征信息。其中,共同文本特征信息可以是各个文本中的具有相同文本特征的特征信息。
作为示例,首先,上述执行主体可以将上述去除后文本序列中的各个文本输入至对应的循环神经网络模型,得到第一文本特征信息序列。然后,将第一文本特征信息序列中的各个第一文本特征信息进行特征信息拼接,以生成第一文本拼接特征信息。最后,将第一文本拼接特征信息输入至多层串联的循环神经网络模型,以输出共同文本特征信息。
第六步,提取上述去除后音频序列中的各个音频对应的共同音频特征信息。其中,共同音频特征信息可以是各个音频中的具有相同音频特征的特征信息。
作为示例,首先,上述执行主体可以将上述去除后音频序列中的各个音频输入至音频与文本转换模型,以生成转换文本序列。然后,将转换文本序列中的各个转换文本输入至对应的循环神经网络模型,得到第二文本特征信息序列。然后,将第二文本特征信息序列中的各个第二文本特征信息进行特征信息拼接,以生成第二拼接特征信息。最后,将第二拼接特征信息输入至多层串联的循环神经网络模型,以输出共同音频特征信息。
第七步,将上述共同图像特征信息、上述共同文本特征信息和共同音频特征信息输入至端到端神经网络模型,以输出提示词序列,作为上述提示词组。其中,端到端神经网络模型可以是seq2seq神经网络模型。
可选地,上述提取上述去除后图像序列中的各个图像对应的共同图像特征信息,可以包括以下步骤:
第一步,对于去除后图像序列中的图像,执行以下确定步骤:
第一子步骤,响应于确定上述图像为去除后图像序列中的、目标位置的图像,确定上述图像对应的候选特征信息集。其中,上述特征信息集中的特征信息存在对应的特征类型。其中,目标位置可以是去除后图像序列中的第一个图像所处的图像位置。特征信息集中的每个特征信息都存在对应的特征类型。特征类型可以是图像领域下的特征的类型。例如,特征类型可以包括但不限于以下至少一项:图像风格特征类型,图像纹理特征类型。
实践中,针对图像为还未取出特征信息的去除后图像序列中的第一个图像,候选特征信息集可以是针对各种特征类型而预先设置的特征信息集。针对图像不为还未取出特征信息的去除后图像序列中的第一个图像,候选特征信息集可以是图像之前的至少一个图像上述图像在各个特征类型下的特征融合的特征信息集。
第二子步骤,确定上述去除后图像序列中的、上述目标位置对应的下一位置图像对应的整体图像特征信息。
第三子步骤,将上述整体图像特征信息和候选特征信息集输入至特征相似信息生成模型,以生成针对上述候选特征信息集的特征相似信息集。其中,特征相似信息生成模型可以是生成特征相似信息的神经网络模型。实践中,特征相似信息生成模型可以是多层串联连接的卷积神经网络模型。实践中,整体图像特征信息和候选特征信息均可以是向量形式的信息。
第四子步骤,确定上述特征相似信息集中对应数值最小的特征相似信息,作为目标特征相似信息。
第五子步骤,从上述候选特征信息集中去除上述目标特征相似信息对应的特征信息,作为去除后特征信息集。
第六子步骤,确定上述图像对应的当前图像特征信息集。其中,上述当前图像特征信息集中的特征信息存在对应的特征类型。
第七子步骤,从上述当前图像特征信息集中去除对应上述目标特征相似信息的图像特征信息,作为去除后当前图像特征信息集。
第八子步骤,将上述去除后特征信息集和上述去除后当前图像特征信息集进行特征信息对应加权融合,以生成加权融合特征信息集。
作为示例,上述执行主体可以根据预先设置的权重比,对去除后特征信息集和上述去除后当前图像特征信息集进行特征信息加权,得到加权融合特征信息集。
第九子步骤,从上述去除后图像序列中去除上述图像,得到去除图像序列。
第十子步骤,响应于确定上述去除图像序列为空,将上述加权融合特征信息集确定为共同图像特征信息。
第二步,响应于确定上述去除图像序列不为空,将去除图像序列确定为去除后图像序列,将加权融合特征信息集确定为去除后图像序列中的目标位置对应图像的候选特征信息集,以及继续执行上述确定步骤。
步骤104,根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集。
在一些实施例中,上述执行主体可以根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集。
在一些实施例的一些可选的实现方式中,上述执行主体可以利用多模态大语言模型,根据上述全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集。实践中,多模态大语言模型可以包括:提示词生成模型和提示词替换模型。提示词生成模型可以是基于全量语义向量集来生成对应候选提示词集的语言模型。提示词替换模型可以是根据候选提示词集来对提示词集进行提示词替换的模型。
步骤105,获取针对上述提问信息的、所输入的模态输出形式。
在一些实施例中,上述执行主体可以获取针对上述提问信息的、所输入的模态输出形式。其中,模态输出形式可以是针对提问信息的、希望答复的答复信息的输出模态形式。实践中,模态输出形式可以包括但不限于以下至少一项:图像模态输出形式,文本模态输出形式,图像与文本模态输出形式,音频输出形式,音频与文本模态输出形式。
步骤106,根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息。
在一些实施例中,上述执行主体可以根据上述调整后提示词组集和上述全量语义向量集,通过各种实现方式来生成上述模态输出形式下的答复决策信息。其中,答复决策信息可以是针对提问信息的答复内容的相关决策信息。
考虑到上述常规解决方案的问题,面对上述技术问题二:如何精准地根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息。结合所拥有的优势/技术现状,可以决定采用如下解决方案。
在一些实施例的一些可选的实现方式中,上述根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息,可以包括以下步骤:
第一步,对上述调整后提示词组集中的每个提示词进行词嵌入处理,以生成词嵌入向量,得到词嵌入向量组集。
第二步,响应于确定上述模态输出形式为多模态输出形式,执行以下第一生成步骤:
第一子步骤,将上述全量语义向量集和上述词嵌入向量组集进行对应组合,以生成组合向量集。
第二子步骤,根据组合向量集,执行以下第二生成步骤:
子步骤1,将上述组合向量集输入至答复决策信息生成模型,以生成候选答复决策信息。其中,答复决策信息生成模型可以是生成答复决策信息的神经网络模型。答复决策信息生成模型可以是seq2seq模型。
子步骤2,将上述候选答复决策信息输入至问题生成模型,以生成询问问题。其中,询问问题可以是针对候选答复决策信息所生成的可能询问的问题。问题生成模型可以是seq2seq模型。
子步骤3,响应于确定询问问题与上述提问信息之间的语义差别程度小于或等于预定程度,将上述候选答复决策信息确定为上述答复决策信息。
第三子步骤,响应于确定询问问题与上述提问信息之间的语义差别程度大于上述预定程度,反向更新针对组合向量集中的每个向量元素对应的参数,得到参数值集。其中,组合向量集中的每个组合向量都存在对应的参数,以进行组合向量数值的调整。
第四子步骤,将上述参数值集和上述组合向量集进行对应元素相乘,以生成相乘向量集;
第三步,将上述相乘向量集作为上述组合向量集,继续执行上述第二生成步骤。
上述“在一些实施例的一些可选的实现方式”中内容,作为本公开的一个发明点,解决了背景技术提及的技术问题“如何精准地根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息”。基于此,本公开通过答复决策信息生成模型和问题生成模型之间的输出差异比较,以保障答复决策信息的生成精准性。
步骤107,通过目标传输协议,将上述答复决策信息发送至业务显示终端。
在一些实施例中,上述执行主体可以通过目标传输协议,将上述答复决策信息发送至业务显示终端。其中,业务显示终端可以是显示答复决策信息的终端。目标传输协议可以是预先确定的传输协议。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的答复决策信息发送方法,可以精准地生成针对提问信息的答复决策信息。具体来说,造成相关的答复决策信息不够精确的原因在于:大模型的辅助信息生成方法存在一定的精准度问题,且由于训练的成本比较高,周期也比较长,数据的时效性也大大降低。基于此,本公开的一些实施例的答复决策信息发送方法,首先,对所获取的提问信息进行信息分块处理,以生成分块信息集,以实现对提问信息的语义划分,以便于后续针对性的生成更为精准地提示词集。然后,生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集,以转换成向量形式,便于提示词的生成。接着,对于上述语义向量集中的每个语义向量,执行以下处理步骤:第一步,利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组。其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息。在这里,通过多模态语义向量存储库,可以实现获取针对语义向量的多模态形式的语义向量,即模态语义向量组,以便于后续针对多模态的特征信息的提取。第二步,根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量,以得到特征更为丰富的全量语义向量。第三步,可以精准地生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息,以用于后续提示词组的生成。进而,根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成更为精准的调整后提示词集。进一步的,获取针对上述提问信息的、所输入的模态输出形式,以便于后续生成想要输出的模型输出形式的决策信息。进一步,根据上述调整后提示词组集和上述全量语义向量集,可以精准地生成上述模态输出形式下的答复决策信息。最后,通过目标传输协议,将上述答复决策信息发送至业务显示终端。综上,通过针对每个分块信息的多模态特征的获取与融合,来后续精准地生成每个分块信息对应的提示词集,便于后续基于调整后的提示词集生成更为精准地答复决策信息。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种答复决策信息发送装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该答复决策信息发送装置具体可以应用于各种电子设备中。
如图2所示,一种答复决策信息发送装置200包括:信息分块单元201、第一生成单元202、执行单元203、内容调整单元204、获取单元205、第二生成单元206和发送单元207。其中,信息分块单元201,被配置成对所获取的提问信息进行信息分块处理,以生成分块信息集;第一生成单元202,被配置成生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;执行单元203,被配置成对于上述语义向量集中的每个语义向量,执行以下处理步骤:利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息;根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量;生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息;生成针对上述上下文信息的提示词组;内容调整单元204,被配置成根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;获取单元205,被配置成获取针对上述提问信息的、所输入的模态输出形式;第二生成单元206,被配置成根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息;发送单元207,被配置成通过目标传输协议,将上述答复决策信息发送至业务显示终端。
可以理解的是,该答复决策信息发送装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于答复决策信息发送装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备(例如,电子设备)300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对所获取的提问信息进行信息分块处理,以生成分块信息集;生成上述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;对于上述语义向量集中的每个语义向量,执行以下处理步骤:利用预先设置的多模态语义向量存储库,确定与上述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,上述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,上述目标分块信息是与上述语义向量相对应的分块信息;根据上述模态语义向量组和上述语义向量,生成针对上述目标分块信息的全量语义向量;生成针对上述全量语义向量的、与上述分块信息相对应的上下文信息;生成针对上述上下文信息的提示词组;根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;获取针对上述提问信息的、所输入的模态输出形式;根据上述调整后提示词组集和上述全量语义向量集,生成上述模态输出形式下的答复决策信息;通过目标传输协议,将上述答复决策信息发送至业务显示终端。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括信息分块单元、第一生成单元、执行单元、内容调整单元、获取单元、第二生成单元和发送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,发送单元还可以被描述为“通过目标传输协议,将上述答复决策信息发送至业务显示终端的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种答复决策信息发送方法,包括:
对所获取的提问信息进行信息分块处理,以生成分块信息集;
生成所述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;
对于所述语义向量集中的每个语义向量,执行以下处理步骤:
利用预先设置的多模态语义向量存储库,确定与所述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,所述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,所述目标分块信息是与所述语义向量相对应的分块信息;
根据所述模态语义向量组和所述语义向量,生成针对所述目标分块信息的全量语义向量;
生成针对所述全量语义向量的、与所述分块信息相对应的上下文信息;
生成针对所述上下文信息的提示词组;
根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;
获取针对所述提问信息的、所输入的模态输出形式;
根据调整后提示词组集和所述全量语义向量集,生成所述模态输出形式下的答复决策信息;
通过目标传输协议,将所述答复决策信息发送至业务显示终端。
2.根据权利要求1所述的方法,其中,所述根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集,包括:
利用多模态大语言模型,根据所述全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集。
3.根据权利要求1所述的方法,其中,所述生成针对所述全量语义向量的、与所述分块信息相对应的上下文信息,包括:
将所述全量语义向量输入至基于图像模态元素区域的特征信息注意力加权融合模型,以生成图像模态注意力加权融合信息;
将所述全量语义向量输入至基于文本模态元素区域的特征信息注意力加权融合模型,以生成文本模态注意力加权融合信息;
将所述全量语义向量输入至基于音频模态元素区域的特征信息注意力加权融合模型,以生成音频模态注意力加权融合信息;
将所述图像模态注意力加权融合信息输入至图像特征卷积神经网络模型,以生成图像特征信息;
将所述文本模态注意力加权融合信息输入至文本特征卷积神经网络模型,以生成文本特征信息;
将所述音频模态注意力加权融合信息输入至音频特征卷积神经网络模型,以生成音频特征信息;
设置针对所述图像特征信息和所述文本特征信息对应的第一特征权重比、针对所述图像特征信息和所述音频特征信息对应的第二特征权重比、针对所述文本特征信息和所述音频特征信息对应的第三特征权重比,其中,所述第一特征权重比表征所述图像特征信息对应特征重要程度高于所述文本特征信息对应重要程度,所述第二特征权重比表征所述图像特征信息对应特征重要程度高于所述音频特征信息对应重要程度,所述第三特征权重比表征所述文本特征信息对应特征重要程度高于所述音频特征信息对应重要程度;
将所述第一特征权重比、所述图像特征信息和所述文本特征信息输入至第一关联图像生成模型,以生成第一关联图像序列;
将所述第二特征权重比、所述图像特征信息和所述音频特征信息输入至第二关联图像生成模型,以生成第二关联图像序列;
将所述第三特征权重比、所述文本特征信息和所述音频特征信息输入至第一关联文本生成模型,以生成第一关联文本序列;
根据所述第一关联图像序列、所述第二关联图像序列和所述第一关联文本序列,生成所述上下文信息。
4.根据权利要求3所述的方法,其中,所述根据所述第一关联图像序列、所述第二关联图像序列和所述第一关联文本序列,生成所述上下文信息,包括:
设置针对所述图像特征信息和所述文本特征信息对应的第四特征权重比、针对所述图像特征信息和所述音频特征信息对应的第五特征权重比、针对所述文本特征信息和所述音频特征信息对应的第六特征权重比,其中,所述第四特征权重比表征所述文本特征信息对应特征重要程度高于所述图像特征信息对应重要程度,所述第五特征权重比表征所述音频特征信息对应特征重要程度高于所述图像特征信息对应重要程度,所述第六特征权重比表征所述音频特征信息对应特征重要程度高于所述文本特征信息对应重要程度;
将所述第四特征权重比、所述图像特征信息和所述文本特征信息输入至第二关联文本生成模型,以生成第二关联文本序列;
将所述第五特征权重比、所述图像特征信息和所述音频特征信息输入至第一关联音频生成模型,以生成第一关联音频序列;
将所述第六特征权重比、所述文本特征信息和所述音频特征信息输入至第二关联音频生成模型,以生成第二关联音频序列;
对所述第一关联图像序列和所述第二关联图像序列进行图像排序融合,以生成图像序列,以及对所述第一关联文本序列和所述第二关联文本序列进行图像排序融合,以生成文本序列,以及对所述第一关联音频序列和所述第二关联音频序列进行图像排序融合,以生成音频序列;
将所述图像序列、所述文本序列和所述音频序列确定为所述上下文信息。
5.根据权利要求4所述的方法,其中,所述生成针对所述上下文信息的提示词组,包括:
从所述图像序列中去除对应图像关联程度小于第一数值的图像,得到去除后图像序列;
从所述文本序列中去除对应文本关联程度小于第二数值的文本,得到去除后文本序列;
从所述音频序列中去除对应音频关联程度小于第三数值的音频,得到去除后音频序列;
提取所述去除后图像序列中的各个图像对应的共同图像特征信息;
提取所述去除后文本序列中的各个文本对应的共同文本特征信息;
提取所述去除后音频序列中的各个音频对应的共同音频特征信息;
将所述共同图像特征信息、所述共同文本特征信息和共同音频特征信息输入至端到端神经网络模型,以输出提示词序列,作为所述提示词组。
6.根据权利要求5所述的方法,其中,所述提取所述去除后图像序列中的各个图像对应的共同图像特征信息,包括:
对于去除后图像序列中的图像,执行以下确定步骤:
响应于确定所述图像为去除后图像序列中的、目标位置的图像,确定所述图像对应的候选特征信息集,其中,所述特征信息集中的特征信息存在对应的特征类型;
确定所述去除后图像序列中的、所述目标位置对应的下一位置图像对应的整体图像特征信息;
将所述整体图像特征信息和候选特征信息集输入至特征相似信息生成模型,以生成针对所述候选特征信息集的特征相似信息集;
确定所述特征相似信息集中对应数值最小的特征相似信息,作为目标特征相似信息;
从所述候选特征信息集中去除所述目标特征相似信息对应的特征信息,作为去除后特征信息集;
确定所述图像对应的当前图像特征信息集,其中,所述当前图像特征信息集中的特征信息存在对应的特征类型;
从所述当前图像特征信息集中去除对应所述目标特征相似信息的图像特征信息,作为去除后当前图像特征信息集;
将所述去除后特征信息集和所述去除后当前图像特征信息集进行特征信息对应加权融合,以生成加权融合特征信息集;
从所述去除后图像序列中去除所述图像,得到去除图像序列;
响应于确定所述去除图像序列为空,将所述加权融合特征信息集确定为共同图像特征信息;
响应于确定所述去除图像序列不为空,将去除图像序列确定为去除后图像序列,将加权融合特征信息集确定为去除后图像序列中的目标位置对应图像的候选特征信息集,以及继续执行所述确定步骤。
7.根据权利要求6所述的方法,其中,所述根据调整后提示词组集和所述全量语义向量集,生成所述模态输出形式下的答复决策信息,包括:
对所述调整后提示词组集中的每个提示词进行词嵌入处理,以生成词嵌入向量,得到词嵌入向量组集;
响应于确定所述模态输出形式为多模态输出形式,执行以下第一生成步骤:
将所述全量语义向量集和所述词嵌入向量组集进行对应组合,以生成组合向量集;
根据组合向量集,执行以下第二生成步骤:
将所述组合向量集输入至答复决策信息生成模型,以生成候选答复决策信息;
将所述候选答复决策信息输入至问题生成模型,以生成询问问题;
响应于确定询问问题与所述提问信息之间的语义差别程度小于或等于预定程度,将所述候选答复决策信息确定为所述答复决策信息;
响应于确定询问问题与所述提问信息之间的语义差别程度大于所述预定程度,反向更新针对组合向量集中的每个向量元素对应的参数,得到参数值集;
将所述参数值集和所述组合向量集进行对应元素相乘,以生成相乘向量集;
将所述相乘向量集作为所述组合向量集,继续执行所述第二生成步骤。
8.一种答复决策信息发送装置,包括:
信息分块单元,被配置成对所获取的提问信息进行信息分块处理,以生成分块信息集;
第一生成单元,被配置成生成所述分块信息集中的每个分块信息对应的语义向量,得到语义向量集;
执行单元,被配置成对于所述语义向量集中的每个语义向量,执行以下处理步骤:利用预先设置的多模态语义向量存储库,确定与所述语义向量之间的语义相似程度大于目标数值的模态语义向量组,其中,所述模态语义向量组中的模态语义向量对应的信息模态与目标分块信息对应的信息模态不同,所述目标分块信息是与所述语义向量相对应的分块信息;根据所述模态语义向量组和所述语义向量,生成针对所述目标分块信息的全量语义向量;生成针对所述全量语义向量的、与所述分块信息相对应的上下文信息;生成针对所述上下文信息的提示词组;
内容调整单元,被配置成根据所得到的全量语义向量集,对所得到的提示词集中的各个提示词进行内容调整,以生成调整后提示词集;
获取单元,被配置成获取针对所述提问信息的、所输入的模态输出形式;
第二生成单元,被配置成根据调整后提示词组集和所述全量语义向量集,生成所述模态输出形式下的答复决策信息;
发送单元,被配置成通过目标传输协议,将所述答复决策信息发送至业务显示终端。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410171778.2A CN117743555B (zh) | 2024-02-07 | 2024-02-07 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410171778.2A CN117743555B (zh) | 2024-02-07 | 2024-02-07 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117743555A true CN117743555A (zh) | 2024-03-22 |
CN117743555B CN117743555B (zh) | 2024-04-30 |
Family
ID=90253041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410171778.2A Active CN117743555B (zh) | 2024-02-07 | 2024-02-07 | 答复决策信息发送方法、装置、设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117743555B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180133900A1 (en) * | 2016-11-15 | 2018-05-17 | JIBO, Inc. | Embodied dialog and embodied speech authoring tools for use with an expressive social robot |
CN109278051A (zh) * | 2018-08-09 | 2019-01-29 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及系统 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
CN114548092A (zh) * | 2022-02-24 | 2022-05-27 | 广州华多网络科技有限公司 | 客服会话调度方法及其装置、设备、介质、产品 |
CN115496895A (zh) * | 2022-08-19 | 2022-12-20 | 清华大学深圳国际研究生院 | 目标识别方法及其模型、电子设备、存储介质 |
CN117251557A (zh) * | 2023-11-20 | 2023-12-19 | 中信证券股份有限公司 | 法规咨询语句答复方法、装置、设备和计算机可读介质 |
-
2024
- 2024-02-07 CN CN202410171778.2A patent/CN117743555B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180133900A1 (en) * | 2016-11-15 | 2018-05-17 | JIBO, Inc. | Embodied dialog and embodied speech authoring tools for use with an expressive social robot |
CN109278051A (zh) * | 2018-08-09 | 2019-01-29 | 北京光年无限科技有限公司 | 基于智能机器人的交互方法及系统 |
CN112201228A (zh) * | 2020-09-28 | 2021-01-08 | 苏州贝果智能科技有限公司 | 一种基于人工智能的多模态语义识别服务接入方法 |
CN114548092A (zh) * | 2022-02-24 | 2022-05-27 | 广州华多网络科技有限公司 | 客服会话调度方法及其装置、设备、介质、产品 |
CN115496895A (zh) * | 2022-08-19 | 2022-12-20 | 清华大学深圳国际研究生院 | 目标识别方法及其模型、电子设备、存储介质 |
CN117251557A (zh) * | 2023-11-20 | 2023-12-19 | 中信证券股份有限公司 | 法规咨询语句答复方法、装置、设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117743555B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110288049B (zh) | 用于生成图像识别模型的方法和装置 | |
CN113470619B (zh) | 语音识别方法、装置、介质及设备 | |
CN112712795B (zh) | 标注数据确定方法、装置、介质及电子设备 | |
CN116128055A (zh) | 图谱构建方法、装置、电子设备和计算机可读介质 | |
CN113449070A (zh) | 多模态数据检索方法、装置、介质及电子设备 | |
CN113407767A (zh) | 确定文本相关性的方法、装置、可读介质及电子设备 | |
CN115578570A (zh) | 图像处理方法、装置、可读介质及电子设备 | |
CN112182255A (zh) | 用于存储媒体文件和用于检索媒体文件的方法和装置 | |
CN116882591A (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
CN113610034B (zh) | 识别视频中人物实体的方法、装置、存储介质及电子设备 | |
CN114564606A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN113033707B (zh) | 视频分类方法、装置、可读介质及电子设备 | |
CN117034923A (zh) | 一种训练方法、文本评估方法、装置、介质及设备 | |
CN111797263A (zh) | 图像标签生成方法、装置、设备和计算机可读介质 | |
CN114625876B (zh) | 作者特征模型的生成方法、作者信息处理方法和装置 | |
CN117743555B (zh) | 答复决策信息发送方法、装置、设备和计算机可读介质 | |
CN115049730B (zh) | 零件装配方法、装置、电子设备及存储介质 | |
CN118262188A (zh) | 目标检测模型训练方法、物体检测信息生成方法和装置 | |
CN112651231B (zh) | 口语信息处理方法、装置和电子设备 | |
CN111754984B (zh) | 文本选取的方法、装置、设备和计算机可读介质 | |
CN111626044B (zh) | 文本生成方法、装置、电子设备及计算机可读存储介质 | |
CN111582456B (zh) | 用于生成网络模型信息的方法、装置、设备和介质 | |
CN114792086A (zh) | 一种支持文本交叉覆盖的信息抽取方法、装置、设备和介质 | |
CN116503849B (zh) | 异常地址识别方法、装置、电子设备与计算机可读介质 | |
CN115393652B (zh) | 基于对抗网络的人工智能模型更新方法、识别方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |