CN117216219A

CN117216219A - 一种思维链推理方法、装置、设备及存储介质

Info

Publication number: CN117216219A
Application number: CN202311238998.4A
Authority: CN
Inventors: 王强; 陈康明
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-12

Abstract

本发明公开了一种思维链推理方法、装置、设备及存储介质，涉及计算机技术领域，应用于机器人对话系统，包括：对获取到的用户输入的原始语言文本、画面信息和目标常识知识进行特征提取得到第一文本特征、视觉特征以及常识知识特征；将基于第一文本特征、视觉特征以及常识知识特征确定的第一输入内容输入至大语言模型中得到思维链原理；对根据思维链原理和原始语言文本确定的目标语言文本进行特征提取得到第二文本特征；将基于第二文本特征、视觉特征以及常识知识特征确定的第二输入内容输入至大语言模型中得到大语言模型推理输出的推理回答内容。本发明通过引入视觉特征和常识知识特征进行思维链的推理，能够提升大语言模型的推理能力。

Description

一种思维链推理方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种思维链推理方法、装置、设备及存储介质。

背景技术

当前，在机器人对话场景下，现有的机器人对话系统主要应用自然语言处理(NLP，Natural Language Processing)技术及对话技术，通过预训练及精调的模式，来实现对用户输入的文本的理解和回答问题的能力，这些机器人对话系统通常采用机器学习技术，如神经网络、决策树等，来对语言模型进行训练和优化，通过这些机器学习技术的应用，现有的机器人对话系统可以对用户提出的问题进行理解、分析和回答，以便更好地为用户提供投资建议，同时，随着大语言模型，如GPT-3系列的出现，机器人对话系统在对话场景下的展现出了前所未有的潜力，该类大语言模型可以通过对海量语料进行训练，从而能够生成高质量的文本内容，相较于传统的自然语言处理技术，GPT-3等模型所生成的文本质量已经实现显著的提升。

为了改善大语言模型的推理性能，有人提出了CoT(Chain of Thought，思维链)方法，表示一种思维模式，它可以帮助大规模语言模型解决复杂的算术、常识及字符推理等任务，并且目前主要包括两种CoT方法，一种是manual-CoT，即通过在prompt(起始文本)添加一系列的思维链的说明文本作为提示范式，从而能显著的增强与激发大语言模型的推理能力；另一种是zero-shot-CoT，这种方法中只需要简单地在prompt中添加，如“让我们一步步思考”等诱导性语句，即可在显著的激发大语言模型的推理能力，而无需构造具体的思维链提示范例。

然而，在现有的机器人对话场景中，往往只考虑用户的输入文本，对其他维度的信息，如图片、视频、语音等，考虑较少，导致这种单一维度的信息输入限制了机器人对话系统对用户需求的全面理解和处理能力，无法完全满足用户的需求，以及在现有的机器人对话场景下，往往也缺乏常识知识的注入，无法进行逻辑推理和思维链的连续性推理，这使得机器人对话系统在处理复杂问题和回答多个相关问题时出现困难，无法提供准确和有用的回答。并且，现有的CoT方法中，仅仅考虑自然语言文本模态的思维链，而鲜有考虑引入视觉特征及常识知识至思维链推理方法中，这在较大程度上限制了大语言模型在推理性能上的改善，虽然当前存在有结合图片特征的思维链推理方法，但是在推理过程中，仍会遇到较多的常识性错误，导致最终推理结果的错误。

综上可知，现有机器人对话系统在回答用户问题时，往往只依赖于文本输入的信息，无法从图像和常识知识等多个角度进行推理，这使得机器人对话系统在某些复杂问题上的回答效果有限，难以满足用户的需求。因此，如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种思维链推理方法、装置、设备及存储介质，能够提升大语言模型的推理能力，解决了机器人对话系统在某些复杂问题上的回答效果有限的问题。其具体方案如下：

第一方面，本发明公开了一种思维链推理方法，应用于机器人对话系统，包括：

获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识；所述画面信息包括图片或视频；

对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征；

基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，并将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理；

根据所述思维链原理和所述原始语言文本确定目标语言文本，并对所述目标语言文本进行特征提取得到相应的第二文本特征；

基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，并将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。

可选的，所述基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，包括：

将所述第一文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第一输入内容；

或，基于注意力机制确定所述第一文本特征与所述视觉特征之间的第一注意力权重、所述视觉特征与所述常识知识特征之间的第二注意力权重以及所述常识知识特征与所述第一文本特征之间的第三注意力权重；

基于所述第一注意力权重、所述第二注意力权重和所述第三注意力权重确定所述第一文本特征与所述视觉特征之间的第一关联特征、所述视觉特征与所述常识知识特征之间的第二关联特征以及所述常识知识特征与所述第一文本特征之间的第三关联特征；

基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，并将所述第一融合后总特征确定为大语言模型的第一输入内容。

可选的，所述基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，包括：

利用预设非线性激活函数对所述第一关联特征、所述第二关联特征和所述第三关联特征进行计算得到相应的第一门控参数；

基于所述第一门控参数、所述第一关联特征、所述第二关联特征和所述第三关联特征确定相应的第一融合后总特征。

可选的，所述根据所述思维链原理和所述原始语言文本确定目标语言文本，包括：

对所述思维链原理和所述原始语言文本执行连接操作得到相应的目标语言文本。

可选的，所述基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，包括：

将所述第二文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第二输入内容；

或，基于注意力机制确定所述第二文本特征与所述视觉特征之间的新的第一注意力权重、所述视觉特征与所述常识知识特征之间的新的第二注意力权重以及所述常识知识特征与所述第二文本特征之间的新的第三注意力权重；

基于所述新的第一注意力权重、所述新的第二注意力权重和所述新的第三注意力权重确定所述第二文本特征与所述视觉特征之间的新的第一关联特征、所述视觉特征与所述常识知识特征之间的新的第二关联特征以及所述常识知识特征与所述第二文本特征之间的新的第三关联特征；

基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，并将所述第二融合后总特征确定为大语言模型的第二输入内容。

可选的，所述基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，包括：

利用预设非线性激活函数对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行计算得到相应的第二门控参数；

基于所述第二门控参数、所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征确定相应的第二融合后总特征。

可选的，所述对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征，包括：

利用第一预设特征抽取器对所述原始语言文本进行特征提取得到相应的第一文本特征；

利用第二预设特征抽取器对所述画面信息进行特征提取得到相应的视觉特征；

利用第三预设特征抽取器对所述目标常识知识进行特征提取得到相应的常识知识特征；

相应的，所述对所述目标语言文本进行特征提取得到相应的第二文本特征，包括：

利用所述第一预设特征抽取器对所述目标语言文本进行特征提取得到相应的第二文本特征。

第二方面，本发明公开了一种思维链推理装置，应用于机器人对话系统，包括：

获取模块，用于获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识；所述画面信息包括图片或视频；

第一特征提取模块，用于对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征；

第一输入内容确定模块，用于基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容；

思维链原理生成模块，用于将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理；

目标语言文本确定模块，用于根据所述思维链原理和所述原始语言文本确定目标语言文本；

第二特征提取模块，用于对所述目标语言文本进行特征提取得到相应的第二文本特征；

第二输入内容确定模块，用于基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容；

思维链推理模块，用于将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。

第三方面，本发明公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的思维链推理方法的步骤。

第四方面，本发明公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的思维链推理方法的步骤。

可见，本发明提供了一种思维链推理方法，应用于机器人对话系统，包括：获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识；所述画面信息包括图片或视频；对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征；基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，并将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理；根据所述思维链原理和所述原始语言文本确定目标语言文本，并对所述目标语言文本进行特征提取得到相应的第二文本特征；基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，并将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。由此可知，本发明通过考虑引入视觉特征并注入常识知识特征进行思维链的推理，也就是说，机器人对话系统在回答用户问题时，不仅仅依赖于语言文本，还依赖于画面信息和常识知识，即从语言文本、画面信息和常识知识多个角度进行推理能够提升大语言模型的推理能力，解决了机器人对话系统在某些复杂问题上的回答效果有限的问题，从而更好地服务用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种思维链推理方法流程图；

图2为本发明公开的一种结合画面信息及常识知识的思维链推理框架示意图；

图3为本发明公开的一种具体的思维链推理方法流程图；

图4为本发明公开的一种思维链推理装置结构示意图；

图5为本发明公开的一种电子设备结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

当前，现有的机器人对话场景下，由于单一维度的信息输入限制了机器人对话系统对用户需求的全面理解和处理能力，并缺乏常识知识的输入使得机器人对话系统在处理复杂问题和回答多个相关问题时，无法从图像和常识知识等多个角度进行推理，导致机器人对话系统无法提供准确和有用的回答，无法完全满足用户的需求。为此，本发明提供了一种思维链推理方案，能够提升大语言模型的推理能力，解决了机器人对话系统在某些复杂问题上的回答效果有限的问题，从而更好地服务用户。

本发明实施例公开了一种思维链推理方法，参见图1所示，应用于机器人对话系统，该方法包括：

步骤S11：获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识；所述画面信息包括图片或视频。

本实施例中，通过用户输入的方式，获取用户对某一领域的提问，例如，获取用户输入的对投资领域的提问，也就是说，在对话场景中，用户可以通过输入文字的方式向机器人对话系统提出问题，例如，用户可以通过输入文字的方式向机器人对话系统提出与投资领域有关的问题，比如“最近股市走势如何？”、“怎样投资股票？”等，这些问题将被用作后续步骤的输入。

本实施例中，通过画面信息获取的方式获取与所述原始语言文本相关的画面信息，也即获取相关的图片或视频。例如，在对话场景中，可以让用户上传或提供相关的图片或视频，或者是当用户在问题中提到某些股票或企业时，机器人对话系统可以自动识别并搜索相关图片以将其作为大语言模型输入的一部分。

本实施例中，常识知识可以从不同的来源中获取，所述常识知识表示人们在日常生活中所掌握的有关世界和事物的知识，包括事实、规律、原则、道理等，并且常识知识为进行推理、判断和决策的重要基础。需要指出的是，常识知识的获取来源可以包括但不限于百度百科、维基百科、互联网搜索引擎、知识图谱等，并且获取到的常识知识可以转化成一些有结构的数据形式，如知识图谱或常识知识库等，也即在对话场景中，可以使用类似于知识图谱或知识库的结构来存储和表示常识知识，当用户提出问题时，机器人对话系统可以查询知识图谱或者其他常识知识库，来提取相关的常识知识，从而更好地理解用户的问题和需求。

例如，常识知识可以通过知识图谱等结构化形式进行存储和表达，KG(KnowledgeGraph，知识图谱)可以表示(E，R)，即KG＝(E，R)，其中E表示实体集合，R表示关系集合；

其中，G＝{(h，r，t)|h，t∈E，r∈R}，关系由头实体h和尾实体t组成，即r＝(h，t)，并且知识图谱中的实体和关系可以用向量表示，其中实体向量v_e表示实体e的特征，关系向量v_r表示关系r的特征，知识图谱表示将各种信息和知识以图谱的形式进行表示和组织的一种方式，以便计算机系统能够更加方便、高效地进行处理和分析，进而在对话场景中，可以通过查询操作对相关的实体和关系进行检索。

步骤S12：对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征。

本实施例中，获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识之后，对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征。可以理解的是，将所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识转换为机器人对话系统所需要的数据格式进行后续处理。具体的，利用第一预设特征抽取器对所述原始语言文本进行特征提取得到相应的第一文本特征；利用第二预设特征抽取器对所述画面信息进行特征提取得到相应的视觉特征；利用第三预设特征抽取器对所述目标常识知识进行特征提取得到相应的常识知识特征。

例如，通过语言编码器，如transformer等，对原始语言文本进行文本的向量化编码得到第一文本特征即：

也就是说，利用transformer的encoder最后一层的hidden states来表示其中n表示原始语言文本的长度，d表示hidden层的维度，/>表示获取到的用户输入的原始语言文本。

同样，可以通过视觉特征提取器从图像中提取深度特征，将该深度特征确定为视觉特征，或通过视觉编码器对画面信息，如图片等画面信息进行向量化编码得到视觉特征H_vision，即：

H_vision＝VisionEncoder(X_vision)；

其中，VisionEncoder()表示通过将图片进行向量化编码得到的视觉特征，然后通过一个可学习的投影矩阵W_h，将VisionEncoder(X_vision)的形状转换为的形状，X_vision表示画面信息。

可以理解的是，对用户输入的原始语言文本进行预处理及编码等自然语言处理技术的应用，以及对画面信息进行特征提取和识别等视觉处理技术的应用，机器人对话系统可以使用计算机视觉技术来提取出视觉特征，视觉特征可以是图片或视频中的对象、场景、情感等方面的信息，如颜色、形状、纹理、语义等。

并且，利用第三预设特征抽取器对获取到的相关的常识知识转换为与文本特征和视觉特征相对应的常识知识特征H_comsense，即：

H_comsense＝ComSenseEncoder(X_comsense)；

其中，X_comsense表示原始语言文本相应语义下的相关常识知识。

步骤S13：基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，并将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理。

本实施例中，对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征之后，基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，并将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理。可以理解的是，利用大语言模型技术对用户输入的语言文本进行分析和处理，将常识知识特征和视觉特征融合进来，形成完整的思维链。

一种具体的实施方式中，将所述第一文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第一输入内容。可以理解的是，将所述第一文本特征、所述视觉特征以及所述常识知识特征作为输入特征一起传递给大语言模型，以提高对话质量和准确性。

另一种具体的实施方式中，基于注意力机制确定所述第一文本特征与所述视觉特征之间的第一注意力权重、所述视觉特征与所述常识知识特征之间的第二注意力权重以及所述常识知识特征与所述第一文本特征之间的第三注意力权重；基于所述第一注意力权重、所述第二注意力权重和所述第三注意力权重确定所述第一文本特征与所述视觉特征之间的第一关联特征、所述视觉特征与所述常识知识特征之间的第二关联特征以及所述常识知识特征与所述第一文本特征之间的第三关联特征；基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，并将所述第一融合后总特征确定为大语言模型的第一输入内容。可以理解的是，注意力机制通过特征间的直接交互来计算出相应的注意力权重，考虑了两两特征之间所有可能的交互，而不仅仅是特征的独立表现，进而基于特征之间的注意力权重确定特征间的关联特征，再基于融合门控机制融合特征间的关联特征，得到融合后的总体特征，将融合后的总体特征作为输入特征传递给大语言模型，进一步提高对话质量和准确性。

例如，利用Softmax函数计算计算第一文本特征、视觉特征和常识知识特征之间的注意力权重的注意力权重，即：

其中，α、β、γ分别表示所述第一文本特征与所述视觉特征之间的第一注意力权重、所述视觉特征与所述常识知识特征之间的第二注意力权重以及所述常识知识特征与所述第一文本特征之间的第三注意力权重，W_α、W_β、W_γ分别表示与文本特征、视觉特征和常识知识特征对应的双线性变换的权重矩阵，表示第一文本特征的转置，/>表示视觉特征的转置，/>表示常识知识特征的转置。

然后，再基于特征间的注意力权重通过特征关联交互确定特征间的关联特征，即：

其中，M_lang-vision、M_{vision-comsense}、M_{comsense-lang}分别表示所述第一文本特征与所述视觉特征之间的第一关联特征、所述视觉特征与所述常识知识特征之间的第二关联特征以及所述常识知识特征与所述第一文本特征之间的第三关联特征，°表示元素间乘法，⊙表示矩阵乘法，W_m1、W_m2、W_m3分别表示与文本特征、视觉特征和常识知识特征对应的交互权重矩阵。

本实施例中，所述基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，具体可以包括：利用预设非线性激活函数对所述第一关联特征、所述第二关联特征和所述第三关联特征进行计算得到相应的第一门控参数；基于所述第一门控参数、所述第一关联特征、所述第二关联特征和所述第三关联特征确定相应的第一融合后总特征。可以理解的是，使用非线性激活函数进行特征融合，能够增强大语言模型的表达能力。例如，利用双曲正切激活函数对所述第一关联特征、所述第二关联特征和所述第三关联特征进行计算得到第一门控参数，即：

G＝tanh(W_g[M_lang-vision，M_lang-vision，M_{comsense-lang}]+b_g)；

其中，G表示第一门控参数，G能够决定哪些特征应该更多的被融合，W_g表示权重矩阵，b_g表示偏差项，tanh表示双曲正切激活函数。

其中，F_fusion表示第一融合后总特征，°表示元素间乘法。

由此可知，本实施例中，通过注意力机制和门控融合能够确定不同的特征之间进行有效的交互和融合。

步骤S14：根据所述思维链原理和所述原始语言文本确定目标语言文本，并对所述目标语言文本进行特征提取得到相应的第二文本特征。

本实施例中，将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理之后，根据所述思维链原理和所述原始语言文本确定目标语言文本。具体的，对所述思维链原理和所述原始语言文本执行连接操作得到相应的目标语言文本，例如，将原始语言文本与R进行concat，得到/>即目标语言文本为：/>其中，/>表示concat操作。

本实施例中，根据所述思维链原理和所述原始语言文本确定目标语言文本之后，再对所述目标语言文本进行特征提取得到相应的第二文本特征，利用所述第一预设特征抽取器对所述目标语言文本进行特征提取得到相应的第二文本特征。例如，通过语言编码器，如transformer等，对目标语言文本进行文本的编码得到第二文本特征即：

步骤S15：基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，并将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。

本实施例中，根据所述思维链原理和所述原始语言文本确定目标语言文本，并对所述目标语言文本进行特征提取得到相应的第二文本特征之后，基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，并将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。可以理解的是，大语言模型最终的输出则是通过注入视觉特征和常识知识特征进行逻辑推理后，对用户问题的回答以及相关解释和图片的展示，也就是说，利用生成的相关文字描述，并结合提取到的视觉特征和实体信息对用户的提问进行逻辑推理和回答，并展示相关的解释和图片，也即机器人对话系统可以在回答问题时，可以自动添加相关图片以更好地解释和展示。

一种具体的实施方式中，将所述第二文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第二输入内容。可以理解的是，将所述第二文本特征、所述视觉特征以及所述常识知识特征作为输入特征一起传递给大语言模型进行逻辑推理，以提高对话质量和准确性。

另一种具体的实施方式中，基于注意力机制确定所述第二文本特征与所述视觉特征之间的新的第一注意力权重、所述视觉特征与所述常识知识特征之间的新的第二注意力权重以及所述常识知识特征与所述第二文本特征之间的新的第三注意力权重；基于所述新的第一注意力权重、所述新的第二注意力权重和所述新的第三注意力权重确定所述第二文本特征与所述视觉特征之间的新的第一关联特征、所述视觉特征与所述常识知识特征之间的新的第二关联特征以及所述常识知识特征与所述第二文本特征之间的新的第三关联特征；基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，并将所述第二融合后总特征确定为大语言模型的第二输入内容。可以理解的是，利用注意力网将所述第二文本特征、所述视觉特征以及所述常识知识特征进行关联，然后将关联特征与第二文本特征进行融合得到相应的第二融合特征，将所述第二融合特征作为输入特征传递给大语言模型，进一步提高对话质量和准确性。

例如，得到第二文本特征之后，继续利用Softmax函数计算第二文本特征、视觉特征和常识知识特征之间的注意力权重，即：

其中，α′、β′、γ′分别表示所述第二文本特征与所述视觉特征之间的第一注意力权重、所述视觉特征与所述常识知识特征之间的第二注意力权重以及所述常识知识特征与所述第二文本特征之间的第三注意力权重，W_α、W_β、W_γ分别表示与文本特征、视觉特征和常识知识特征对应的双线性变换的权重矩阵，表示第二文本特征的转置，/>表示视觉特征的转置，/>表示常识知识特征的转置。

然后，再基于特征间的注意力权重通过特征关联交互确定特征间的关联特征以确定特征之间的关联信息，即：

其中，M′_lang-vision、M′_{vision-comsense}、M′_{comsense-lang}分别表示所述第二文本特征与所述视觉特征之间新的的第一关联特征、所述视觉特征与所述常识知识特征之间的第二关联特征以及所述常识知识特征与所述第二文本特征之间的第三关联特征，表示元素间乘法，⊙表示矩阵乘法，W_m1、W_m2、W_m3分别表示与文本特征、视觉特征和常识知识特征对应的交互权重矩阵。

本实施例中，所述基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，具体可以包括：利用预设非线性激活函数对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行计算得到相应的第二门控参数；基于所述第二门控参数、所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征确定相应的第二融合后总特征。例如，利用双曲正切激活函数对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行计算得到第二门控参数，即：

G′＝tanh(W_g[M′_lang-vision，M′_lang-vision，M′_{comsense-lang}]+b_g)；

其中，G′表示第二门控参数，G′能够决定哪些特征应该更多的被融合，W_g表示权重矩阵，b_g表示偏差项，tanh是双曲正切激活函数。

其中，F′_fusion是第二融合后总特征，表示元素间乘法。

可见，本发明实施例中，通过考虑引入视觉特征并注入常识知识特征进行思维链的推理，也就是说，机器人对话系统在回答用户问题时，不仅仅依赖于语言文本，还依赖于画面信息和常识知识，即从语言文本、画面信息和常识知识多个角度进行推理能够提升大语言模型的推理能力，解决了机器人对话系统在某些复杂问题上的回答效果有限的问题，从而更好地服务用户。

例如，参见图2所示，结合视觉特征及常识知识的思维链推理可以分为两阶段，即第一阶段为思维链生成阶段，在第一阶段中，通过利用语言文本、画面信息以及常识知识，输入至大规模语言模型中，生成相应的思维链原理(CoT rationals)；第二阶段，将生成的思维链原理，结合原始语言文本，以及画面信息及常识知识，再次输入至大规模语言模型，推理得到相应的答案。需要指出的是，两阶段的模型架构一致，输入和输出不同。

例如，在第一阶段，即推理链生成阶段，输入模型的数据为

其中，表示第一阶段获取到的用户输入的原始语言文本，比如用户对某领域的提问等，X_vision表示画面信息，如图片等，X_comsense表示原始语言文本相应语义下的相关常识知识，那么第一阶段的主要目标是生成思维链原理R＝F(X)，其中，R表示生成的思维链原理。

在第二阶段，将原始语言文本与R进行concat，得到/>即目标语言文本为：

其中，表示concat操作。/>

然后，将输入至大语言模型中，得到最终的答案A。

需要指出的是，给定语言输入视觉特征X_vision，以及常识知识X_comsense，可以计算出生成的长度为N的目标思维链文本的概率：

本发明还公开一种应用于具体投顾场景的实施例，参见图3所示，用户可以通过输入文字的方式向机器人对话系统提出问题，即prompt为：A企业今日走势如何？机器人对话系统获取与该prompt相关的图片和常识知识，如：股市常见技术指标、宏观经济数据以及行业动态等，大语言模型基于这些信息，生成相应的思维链原理，即：根据今日股票走势图，可以看到其他股价整体呈现上涨趋势，首先，从宏观经济角度来看，最近的宏观经济数据显示，国内经济总体保持平稳增长态势，且就业形式稳中有进，这些因素为市场注入了一定的信息。此外，在证券信息服务行业中，A企业一直处于领先地位，A企业不断引人新技术、新模式，丰富了其产品线，提高了用户黏性，然后大语言模型再基于该思维链原理、相关的图片和常识知识经过逻辑推理后最终的输出相应的回答，即：A企业今日表现不错，涨幅约为13％，也就是说，通过结合用户输入文本、图像等多维信息，以及常识知识对用户的投资需求进行推理，建立一条与用户投资需求相关的思维链，通过不断迭代推理，得到用户的精准投资需求，即通过对用户多维信息的推理和分析，可以为用户提供更加个性化和精准的投资建议和决策支持，帮助用户更好地进行投资决策，实现了对用户投资需求的精准推理，从而更好地满足用户的投资需求。

相应的，本发明实施例还公开了一种思维链推理装置，应用于机器人对话系统，参见图4所示，该装置包括：

获取模块11，用于获取用户输入的原始语言文本，并获取与所述原始语言文本相关的画面信息和目标常识知识；所述画面信息包括图片或视频；

第一特征提取模块12，用于对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征；

第一输入内容确定模块13，用于基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容；

思维链原理生成模块14，用于将所述第一输入内容输入至所述大语言模型中得到所述大语言模型生成的思维链原理；

目标语言文本确定模块15，用于根据所述思维链原理和所述原始语言文本确定目标语言文本；

第二特征提取模块16，用于对所述目标语言文本进行特征提取得到相应的第二文本特征；

第二输入内容确定模块17，用于基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容；

思维链推理模块18，用于将所述第二输入内容输入至所述大语言模型中进行逻辑推理得到所述大语言模型推理输出的与所述原始语言文本相关的推理回答内容。

由上可见，本发明实施例中，通过考虑引入视觉特征并注入常识知识特征进行思维链的推理，也就是说，机器人对话系统在回答用户问题时，不仅仅依赖于语言文本，还依赖于画面信息和常识知识，即从语言文本、画面信息和常识知识多个角度进行推理能够提升大语言模型的推理能力，解决了机器人对话系统在某些复杂问题上的回答效果有限的问题，从而更好地服务用户。

在一些具体的实施例中，所述第一输入内容确定模块13，具体可以包括：

第一确定单元，用于将所述第一文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第一输入内容；

或，第一注意力权重计算单元，用于基于注意力机制确定所述第一文本特征与所述视觉特征之间的第一注意力权重、所述视觉特征与所述常识知识特征之间的第二注意力权重以及所述常识知识特征与所述第一文本特征之间的第三注意力权重；

第一特征关联单元，用于基于所述第一注意力权重、所述第二注意力权重和所述第三注意力权重确定所述第一文本特征与所述视觉特征之间的第一关联特征、所述视觉特征与所述常识知识特征之间的第二关联特征以及所述常识知识特征与所述第一文本特征之间的第三关联特征；

第一特征融合单元，用于基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，并将所述第一融合后总特征确定为大语言模型的第一输入内容。

在一些具体的实施例中，所述第一特征融合单元，具体可以包括：

第一计算子单元，用于利用预设非线性激活函数对所述第一关联特征、所述第二关联特征和所述第三关联特征进行计算得到相应的第一门控参数；

第一特征融合子单元，用于基于所述第一门控参数、所述第一关联特征、所述第二关联特征和所述第三关联特征确定相应的第一融合后总特征。

在一些具体的实施例中，所述目标语言文本确定模块15，具体可以包括：

连接单元，用于对所述思维链原理和所述原始语言文本执行连接操作得到相应的目标语言文本。

在一些具体的实施例中，所述第二输入内容确定模块17，具体可以包括：

第二确定单元，用于将所述第二文本特征、所述视觉特征以及所述常识知识特征确定为大语言模型的第二输入内容；

或，第二注意力权重计算单元，用于基于注意力机制确定所述第二文本特征与所述视觉特征之间的新的第一注意力权重、所述视觉特征与所述常识知识特征之间的新的第二注意力权重以及所述常识知识特征与所述第二文本特征之间的新的第三注意力权重；

第二特征关联单元，用于基于所述新的第一注意力权重、所述新的第二注意力权重和所述新的第三注意力权重确定所述第二文本特征与所述视觉特征之间的新的第一关联特征、所述视觉特征与所述常识知识特征之间的新的第二关联特征以及所述常识知识特征与所述第二文本特征之间的新的第三关联特征；

第二特征融合单元，用于基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，并将所述第二融合后总特征确定为大语言模型的第二输入内容。

在一些具体的实施例中，所述第二特征融合单元，具体可以包括：

第二计算子单元，用于利用预设非线性激活函数对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行计算得到相应的第二门控参数；

第二特征融合子单元，用于基于所述第二门控参数、所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征确定相应的第二融合后总特征。

在一些具体的实施例中，所述第一特征提取模块12，具体可以包括：

第一文本特征提取单元，用于利用第一预设特征抽取器对所述原始语言文本进行特征提取得到相应的第一文本特征；

视觉特征提取单元，用于利用第二预设特征抽取器对所述画面信息进行特征提取得到相应的视觉特征；

常识特征提取单元，用于利用第三预设特征抽取器对所述目标常识知识进行特征提取得到相应的常识知识特征；

在一些具体的实施例中，所述第二特征提取模块16，具体可以包括：

第二文本特征提取单元，用于利用所述第一预设特征抽取器对所述目标语言文本进行特征提取得到相应的第二文本特征。

进一步的，本发明实施例还提供了一种电子设备。图5是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本发明的使用范围的任何限制。

图5为本发明实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的思维链推理方法中的相关步骤。另外，本实施例中的电子设备20具体可以为电子计算机。

本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的思维链推理方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。

进一步的，本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的思维链推理方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种思维链推理方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种思维链推理方法，其特征在于，应用于机器人对话系统，包括：

2.根据权利要求1所述的思维链推理方法，其特征在于，所述基于所述第一文本特征、所述视觉特征以及所述常识知识特征确定大语言模型的第一输入内容，包括：

3.根据权利要求2所述的思维链推理方法，其特征在于，所述基于预设融合门控机制对所述第一关联特征、所述第二关联特征和所述第三关联特征进行特征融合得到相应的第一融合后总特征，包括：

4.根据权利要求1所述的思维链推理方法，其特征在于，所述根据所述思维链原理和所述原始语言文本确定目标语言文本，包括：

5.根据权利要求1所述的思维链推理方法，其特征在于，所述基于所述第二文本特征、所述视觉特征以及所述常识知识特征确定所述大语言模型的第二输入内容，包括：

6.根据权利要求5所述的思维链推理方法，其特征在于，所述基于预设融合门控机制对所述新的第一关联特征、所述新的第二关联特征和所述新的第三关联特征进行特征融合得到相应的第二融合后总特征，包括：

7.根据权利要求1至6任一项所述的思维链推理方法，其特征在于，所述对所述原始语言文本、目标语言文本、所述画面信息和所述目标常识知识进行特征提取得到相应的第一文本特征、视觉特征以及常识知识特征，包括：

8.一种思维链推理装置，其特征在于，应用于机器人对话系统，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的思维链推理方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的思维链推理方法的步骤。