CN117453898A

CN117453898A - 基于思维链的跨模态问答的处理方法和装置

Info

Publication number: CN117453898A
Application number: CN202311795864.2A
Authority: CN
Inventors: 易江燕; 顾浩; 陶建华
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-01-26
Anticipated expiration: 2043-12-25
Also published as: CN117453898B

Abstract

本公开涉及一种基于思维链的跨模态问答的处理方法和装置，上述处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链；将上述上下文文本和上述思维链进行拼接，得到目标上下文文本；基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。支持跨模态问答并能先学习生成思维链，学习对问题进行思考的过程，之后基于思维链学习到答案，不仅有助于提升答案的正确率，也能有效提升答案的可解释性。

Description

基于思维链的跨模态问答的处理方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及一种基于思维链的跨模态问答的处理方法和装置。

背景技术

随着智能问答系统在各行各业中应用越来越广泛，诸如个性化移动助手、客服机器人、聊天机器人等，对于智能问答系统的回答准确度、逻辑推理能力等的要求也越来越高。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下技术问题：相关技术中，智能问答系统大多是以文本的方式提问，同时上下文也是文本的形式，即大多数是基于单一文本模态实现的问题；少数的智能音箱是基于语音提问输出语音回复，大多数用到的是知识库，局限于已有的知识库存储的条目，例如天气状态、日期、查找网络歌曲等功能，针对在线教育或在线逻辑推理问答等场景的需求而言，需要支持较为复杂的文本（例如一些题库、推理问题、算术问题等）采用语音提问的方式，给出正确的答案；然而相关技术中尚未存在支持上述跨模态的问答功能的系统，也难以保证给出复杂答案的正确性。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开的实施例提供了一种基于思维链的跨模态问答的处理方法和装置。

第一方面，本公开的实施例提供一种基于思维链的跨模态问答的处理方法。上述处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链；将上述上下文文本和上述思维链进行拼接，得到目标上下文文本；基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。

根据本公开的实施例，上述思维链生成模型包括：第一文本编码模块、第一语音编码模块、第一跨模态学习模块和思维链学习模块。上述第一文本编码模块用于对输入的上下文文本进行编码，得到上下文文本表示向量。上述第一语音编码模块用于对输入的语音问题进行编码，得到语音问题表示向量。上述第一跨模态学习模块用于基于注意力机制，对上述上下文文本表示向量和上述语音问题表示向量进行跨模态特征学习，得到文本跨模态向量和语音跨模态向量。上述思维链学习模块用于基于上述文本跨模态向量和上述语音跨模态向量进行思维链自回归学习，得到用于表示输入的语音问题的解决思路的思维链。

根据本公开的实施例，上述答案生成模型包括：第二文本编码模块、第二语音编码模块、第二跨模态学习模块和答案学习模块。上述第二文本编码模块用于对输入的目标上下文文本进行编码，得到目标上下文文本表示向量。上述第二语音编码模块用于对输入的语音问题进行编码，得到语音问题表示向量。上述第二跨模态学习模块用于基于注意力机制，对上述目标上下文文本表示向量和上述语音问题表示向量进行跨模态特征学习，得到目标文本跨模态向量和语音跨模态向量。上述答案学习模块用于基于上述目标文本跨模态向量和语音跨模态向量进行答案学习，得到输入的语音问题对应的答案。

根据本公开的实施例，在上述思维链生成模型的训练阶段，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整；在上述答案生成模型的训练阶段，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整。

根据本公开的实施例，上述跨模态问答的处理方法还包括：基于文本-语音转换模型，对文本形式的答案进行语音转换处理，得到上述答案对应的语音回复结果。

第二方面，本公开的实施例提供一种构建跨模态问答模型的方法。上述构建跨模态问答模型的方法包括：获取目标问答场景下训练集内的上下文文本和对应的语音问题；将上述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整；将上述上下文文本和上述目标思维链进行拼接，得到目标上下文文本；将上述语音问题和上述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整；根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

根据本公开的实施例，根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型，包括：将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，上述答案生成模型的另一个输入为语音问题，将上述答案生成模型输出的答案作为上述跨模态问答模型的输出；或者，将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，上述答案生成模型的另一个输入为语音问题，将上述答案生成模型的输出作为文本-语音转换模型的输入，将文本-语音转换模型输出的语音回复结果作为上述跨模态问答模型的输出。

第三方面，本公开的实施例提供一种基于思维链的跨模态问答的处理方法。上述处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；将上述语音问题和上述上下文文本输入至预先构建好的跨模态问答模型中，输出上述语音问题对应的答案；上述答案为文本形式或语音形式；上述跨模态问答模型采用上述构建跨模态问答模型的方法构建得到。

第四方面，本公开的实施例提供一种基于思维链的跨模态问答的处理装置。上述跨模态问答的处理装置包括：信息获取模块、第一处理模块、第一拼接模块和第二处理模块。上述信息获取模块用于获取目标问答场景下的语音问题和对应的上下文文本。上述第一处理模块用于基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链。上述第一拼接模块用于将上述上下文文本和上述思维链进行拼接，得到目标上下文文本。上述第二处理模块用于基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。

第五方面，本公开的实施例提供一种构建跨模态问答模型的装置。上述构建跨模态问答模型的装置包括：信息获取模块、第一训练模块、第二拼接模块、第二训练模块和模型生成模块。上述信息获取模块用于获取目标问答场景下训练集内的上下文文本和对应的语音问题。上述第一训练模块用于将上述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整。上述第二拼接模块用于将上述上下文文本和上述目标思维链进行拼接，得到目标上下文文本。上述第二训练模块用于将上述语音问题和上述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整。上述模型生成模块用于根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

第六方面，本公开的实施例提供了一种电子设备。上述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现如上所述的跨模态问答的处理方法或构建跨模态问答模型的方法。

第七方面，本公开的实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的跨模态问答的处理方法或构建跨模态问答模型的方法。

本公开实施例提供的上述技术方案至少具有如下优点的部分或全部：

通过获取目标问答场景下的语音问题和对应的上下文文本；基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链；将上述上下文文本和上述思维链进行拼接，得到目标上下文文本；基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案；由于基于思维链生成模型对跨语音和文本模态的问题进行学习处理得到语音问题对应的思维链，之后基于思维链构建得到的目标上下文文本和语音问题进行跨模态学习，得到对应的答案；支持跨模态问答并能先学习生成思维链，学习对问题进行思考的过程，之后基于思维链学习到答案，不仅有助于提升答案的正确率，也能有效提升答案的可解释性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示意性地示出了根据本公开一实施例的基于思维链的跨模态问答的处理方法的流程图；

图2示意性地示出了根据本公开一实施例的思维链生成模型的结构框图；

图3示意性地示出了根据本公开一实施例的答案生成模型的结构框图；

图4示意性地示出了根据本公开另一实施例的基于思维链的跨模态问答的处理方法的流程图；

图5示意性地示出了根据本公开一实施例的构建跨模态问答模型的方法的流程图；

图6示意性地示出了根据本公开另一实施例的构建跨模态问答模型的方法的流程图；

图7示意性地示出了本公开实施例提供的电子设备的结构框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开的第一个示例性实施例提供一种跨模态问答的处理方法。

图1示意性地示出了根据本公开一实施例的基于思维链的跨模态问答的处理方法的流程图。

参照图1所示，本公开实施例提供的基于思维链的跨模态问答的处理方法，包括以下步骤：S110、S120、S130和S140。

在步骤S110，获取目标问答场景下的语音问题和对应的上下文文本。

目标问答场景可以涵盖各种类型的场景，相同或相近的目标问答场景对应的思维链是共同的，不同的问答场景对应的思维链可能存在差异。目标问答场景可以是但不限于：逻辑推理问答、运算类问答、阅读理解问答、脑筋急转弯问答、猜谜语问答等。语音问题和上下文文本可以是各种语言，诸如中文、英文等语言。

例如，在场景A中，上下文文本为：On average Joe throws 25 punches perminute. A fight lasts 5 rounds of 3 minutes；对应的语音问题是：How many punchesdid he throw。

在另一些实施例中，在场景B中，上下文文本为：一只鸡具有两条腿，一只兔子具有四条腿，一个笼子里面一共有50条腿，鸡和兔子的总数为15只；对应的语音问题是：一共有多少只鸡和多少只兔子。

在步骤S120，基于预训练好的思维链生成模型200，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链。

图2示意性地示出了根据本公开一实施例的思维链生成模型的结构框图。

参照图2所示，上述思维链生成模型200包括：第一文本编码模块201、第一语音编码模块202、第一跨模态学习模块203和思维链学习模块204。

上述第一文本编码模块201用于对输入的上下文文本进行编码，得到上下文文本表示向量。

上述第一语音编码模块202用于对输入的语音问题进行编码，得到语音问题表示向量。

上述第一跨模态学习模块203用于基于注意力机制，对上述上下文文本表示向量和上述语音问题表示向量进行跨模态特征学习，得到文本跨模态向量和语音跨模态向量。

上述思维链学习模块204用于基于上述文本跨模态向量和上述语音跨模态向量进行思维链自回归学习，得到用于表示输入的语音问题的解决思路的思维链。

例如，基于第一文本编码模块201，对输入的上下文文本进行编码，得到上下文文本表示向量/>；

具体过程可以表示为：

，（1）

，（2）

其中，languageEncoder表示第一文本编码模块对应的编码操作。例如，第一文本编码模块201采用基于Transformer的Encoder（编码器）结构，取Transformer Encoder的最后一层表征作为上下文文本表示向量。对应的维度R为n*dl维，n表示输入的上下文文本的长度，dl表示第一文本编码模块中隐藏层的大小。

基于第一语音编码模块202，对输入的语音问题进行编码，得到语音问题表示向量/>；

具体过程可以表示为：

，（3）

，（4）

其中，SpeechEncoder表示第一语音编码模块对应的编码操作，对应的维度R为m*ds维，m表示输入的语音问题的长度，ds表示第一语音编码模块中隐藏层的大小。

上述第一跨模态学习模块203基于注意力机制，对上述上下文文本表示向量和上述语音问题表示向量/>进行跨模态特征学习。例如，将上下文文本表示向量作为查询向量query（简称为Q），将语音问题表示向量/>作为对应的键-值对：key（简称为K）和value（简称为V），最终得到学习了语音问题特征之后的文本跨模态向量。

类似的，将语音问题表示向量作为查询向量query（简称为Q），将上下文文本表示向量/>作为对应的键-值对：key（简称为K）和value（简称为V），最终得到学习了上下文文本特征之后的语音跨模态向量/>。

跨模态学习的具体过程表示为：

，（5）

其中，m为language1或speech1。

以m为language1作为示例，生成Q，/>生成对应的K和V；/>表示上下文文本表示向量从语音问题表示向量进行跨模态交互学习的得分矩阵；/>为缩放因子，用于让分数的值更平滑，让梯度更稳定；右上角的T表示转置。可以理解的是，在m为speech的情况下，对应调整Q、K和V即可，得分矩阵的含义也对应调整，具体为语音问题表示向量从上下文文本表示向量进行跨模态交互学习的得分矩阵。

思维链学习模块204基于上述文本跨模态向量和语音跨模态向量/>进行思维链自回归学习，得到用于表示输入的语音问题的解决思路的思维链Thought。

例如，思维链学习模块表示为：

，（6）

，（7）

其中F表示可学习的模型，对应的输入表示为X，T为思维链学习模块。

Thought的产生过程是自回归式的，具体过程可以表示如下：

，（8）

其中，p( | )表示条件概率，表示序号为i的思维链词素（token）/>是通过序号小于i的思维链词素（token）/>进行预测得到的，具体是通过思维链学习模块T进行预测得到。在一些实施例中，采用贪心搜索算法便能够根据输入的/>得到对应的思维链Thought。

上述思维链Thought为文本形式，表示输入的语音问题的解决思路。

作为示例，在场景A中，上下文文本为：On average Joe throws 25 punches perminute. A fight lasts 5 rounds of 3 minutes；对应的语音问题是：How many punchesdid he throw。经过思维链生成模型进行跨模态学习后得到的思维链Thought为：In oneminute, Joe throws 25 punches. In three minutes, Joe throws 3×25 = 75punches. In five rounds, Joe throws 5×75 = 375 punches。

在另一些实施例中，在场景B中，上下文文本为：一只鸡具有两条腿，一只兔子具有四条腿，一个笼子里面一共有50条腿，鸡和兔子的总数为15只；对应的语音问题是：一共有多少只鸡和多少只兔子。作为示例，经过思维链生成模型进行跨模态学习后得到的一种可能的思维链Thought为：一只鸡具有两条腿，一只兔子具有四条腿，鸡和兔子的总数为15只，如果全部是兔子，则15只兔子一共有15×4=60条腿，比真实的动物组合对应的腿总数多60-50=10条腿；由于每只兔子比每只鸡多2条腿，那么全部是兔子的情况下多出的10条腿实际上是将10÷2=5只鸡看做兔子产生的，则一共有5只鸡，有15-5=10只兔子；相应的，5只鸡与10只兔子的腿总数为5×2+10×4=50条。

在步骤S130，将上述上下文文本和上述思维链进行拼接，得到目标上下文文本。

例如，将上下文文本与思维链Thought进行拼接（concat），得到目标上下文文本/>，目标上下文文本的具体表达式如下：

。（9）

在步骤S140，基于预训练好的答案生成模型300，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。

图3示意性地示出了根据本公开一实施例的答案生成模型的结构框图。

参照图3所示，在一些实施例中，答案生成模型300包括：第二文本编码模块301、第二语音编码模块302、第二跨模态学习模块303和答案学习模块304。

上述第二文本编码模块301用于对输入的目标上下文文本进行编码，得到目标上下文文本表示向量。

上述第二语音编码模块302用于对输入的语音问题进行编码，得到语音问题表示向量。

上述第二跨模态学习模块303用于基于注意力机制，对上述目标上下文文本表示向量和上述语音问题表示向量进行跨模态特征学习，得到目标文本跨模态向量和语音跨模态向量。

上述答案学习模块304用于基于上述目标文本跨模态向量和语音跨模态向量进行答案学习，得到输入的语音问题对应的答案。

例如，基于第二文本编码模块301，对输入的目标上下文文本进行编码，得到目标上下文文本表示向量/>。第二文本编码模块301的模型结构与第一文本编码模块201相同，参照第一文本编码模块201的相关描述即可。

基于第二语音编码模块302，对输入的语音问题进行编码，得到语音问题表示向量/>。第二语音编码模块302的编码操作过程与上述第一语音编码模块202的编码操作过程类似，具体可以类比参照前述关于公式（3）和（4）。

上述第二跨模态学习模块303基于注意力机制，对上述目标上下文文本表示向量和上述语音问题表示向量/>进行跨模态特征学习。

例如，将目标上下文文本表示向量作为查询向量query（简称为Q），将语音问题表示向量/>作为对应的键-值对：key（简称为K）和value（简称为V），最终得到学习了语音问题特征之后的目标文本跨模态向量/>。

类似的，将语音问题表示向量作为查询向量query（简称为Q），将目标上下文文本表示向量/>作为对应的键-值对：key（简称为K）和value（简称为V），最终得到学习了目标上下文文本特征之后的语音跨模态向量/>。

答案学习模块304用于基于上述目标文本跨模态向量和语音跨模态向量进行答案学习，得到输入的语音问题对应的答案Y。例如，针对场景A，得到的答案为：The anwser is 375 punches；针对场景B，得到的答案为：有5只鸡和10只兔子。

例如，答案学习模块表示为：

，（10）

，（11）

其中表示可学习的模型，对应的输入表示为/>，A为答案学习模块。

根据本公开的实施例，在上述思维链生成模型的训练阶段，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整。在上述答案生成模型的训练阶段，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整。

图4示意性地示出了根据本公开另一实施例的跨模态问答的处理方法的流程图。

在一些实施例中，参照图4所示，上述跨模态问答的处理方法除了包括上述步骤S110~S140之外，还包括以下步骤S150：基于文本-语音转换模型400，对文本形式的答案进行语音转换处理，得到上述答案对应的语音回复结果。

在一具体示例中，语音编码模块（例如第一语音编码模块或第二语音编码模块）可以采用SSAST：Self-Supervised Audio Spectrogram Transformer（一种自监督的端到端语音分类模型）；文本编码模块（例如第一文本编码模块和第二文本编码模块）可以选择RoBERTa（A Robustly Optimized BERT Pretraining Approach，是BERT的改进版本）的最后的一层的表示。将语音表征和文本表征实现交互的跨模态学习模块（例如第一跨模态学习模块和第二跨模态学习模块）的特征维度设置为1024维，训练的语音数据、文本数据先后分别经过各自对应的编码模块encoder，然后经过思维链学习模块（Thought generationmodule）生成思维链，接着将生成的思维链加入到文本中，经过答案学习模块（answerinference module），可以得到答案（answer），最终得到的文本形式的answer经过文本-语音转换模型（例如为语音合成模型），即可输出答案语音。训练阶段中，采用Adam优化器，初始学习率采用1e-4，最长的上下文文本输入长度限制设置为512，最后的文本-语音转换模型可以选用Fastspeechv2版本。

本公开的第二个示例性实施例提供一种构建跨模态问答模型的方法。

图5示意性地示出了根据本公开一实施例的构建跨模态问答模型的方法的流程图。

参照图5所示，本公开实施例提供的构建跨模态问答模型的方法，包括以下步骤：S510、S520、S530、S540和S550。

在步骤S510，获取目标问答场景下训练集内的上下文文本和对应的语音问题。

训练集内具有多个由上下文文本和对应语音问题构成的训练数据对，每个训练数据对作为待训练的思维链生成模型的输入。

在步骤S520，将上述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整。

在步骤S530，将上述上下文文本和上述目标思维链进行拼接，得到目标上下文文本。

在步骤S540，将上述语音问题和上述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整。

在步骤S550，根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

根据本公开的一种实施例，参照图5中虚线框所示，根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型，包括：将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，上述答案生成模型的另一个输入为语音问题，将上述答案生成模型输出的答案作为上述跨模态问答模型的输出。

图6示意性地示出了根据本公开另一实施例的构建跨模态问答模型的方法的流程图。

根据本公开的一种实施例，参照图6中虚线框所示，根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型，包括：将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，上述答案生成模型的另一个输入为语音问题，将上述答案生成模型的输出作为文本-语音转换模型的输入，将文本-语音转换模型输出的语音回复结果作为上述跨模态问答模型的输出。

本公开的第三个示例性实施例提供一种基于思维链的跨模态问答的处理方法。

本实施例基于思维链的跨模态问答的处理方法包括：获取目标问答场景下的语音问题和对应的上下文文本；将上述语音问题和上述上下文文本输入至预先构建好的跨模态问答模型中，输出上述语音问题对应的答案；上述答案为文本形式或语音形式；上述跨模态问答模型采用上述构建跨模态问答模型的方法构建得到。

本实施例的更多细节可以参照第二个实施例的相关描述，这里不再赘述。

本公开的第四个示例性实施例提供一种跨模态问答的处理装置。

本实施例的跨模态问答的处理装置包括：信息获取模块、第一处理模块、第一拼接模块和第二处理模块。

上述信息获取模块用于获取目标问答场景下的语音问题和对应的上下文文本。

上述第一处理模块用于基于预训练好的思维链生成模型，对上述语音问题和上述上下文文本进行跨模态学习，得到用于表示上述语音问题的解决思路的思维链。

上述第一拼接模块用于将上述上下文文本和上述思维链进行拼接，得到目标上下文文本。上述第二处理模块用于基于预训练好的答案生成模型，对上述语音问题和上述目标上下文文本进行跨模态学习，得到上述语音问题对应的答案。

本实施例的更多细节可以参照第一个实施例的相关描述，这里不再赘述。

本公开的第五个示例性实施例提供一种构建跨模态问答模型的装置。

上述构建跨模态问答模型的装置包括：信息获取模块、第一训练模块、第二拼接模块、第二训练模块和模型生成模块。

上述信息获取模块用于获取目标问答场景下训练集内的上下文文本和对应的语音问题。

上述第一训练模块用于将上述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对上述思维链生成模型的参数进行调整。

上述第二拼接模块用于将上述上下文文本和上述目标思维链进行拼接，得到目标上下文文本。

上述第二训练模块用于将上述语音问题和上述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对上述答案生成模型的参数进行调整。

上述模型生成模块用于根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

上述跨模态问答的处理装置或构建跨模态问答模型的装置的功能模块中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。上述跨模态问答的处理装置或构建跨模态问答模型的装置的功能模块中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，上述跨模态问答的处理装置或构建跨模态问答模型的装置的功能模块中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第六个示例性实施例提供了一种电子设备。

参照图7所示，本公开实施例提供的电子设备700包括处理器701、通信接口702、存储器703和通信总线704，其中，处理器701、通信接口702和存储器703通过通信总线704完成相互间的通信；存储器703，用于存放计算机程序；处理器701，用于执行存储器上所存放的程序时，实现如上所述的跨模态问答的处理方法或构建跨模态问答模型的方法。

本公开的第七个示例性实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序，上述计算机程序被处理器执行时实现如上所述的跨模态问答的处理方法或构建跨模态问答模型的方法。

该计算机可读存储介质可以是上述实施例中描述的设备或装置中所包含的；也可以是单独存在，而未装配入该设备或装置中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

需要说明的是，本公开实施例提供的技术方案中，所涉及的用户个人信息的采集、收集、更新、分析、处理、使用、传输、存储等方面，均符合相关法律法规的规定，被用于合法的用途，且不违背公序良俗。对用户个人信息采取必要措施，防止对用户个人信息数据的非法访问，维护用户个人信息安全、网络安全和国家安全。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于思维链的跨模态问答的处理方法，其特征在于，包括：

获取目标问答场景下的语音问题和对应的上下文文本；

基于预训练好的思维链生成模型，对所述语音问题和所述上下文文本进行跨模态学习，得到用于表示所述语音问题的解决思路的思维链；

将所述上下文文本和所述思维链进行拼接，得到目标上下文文本；

基于预训练好的答案生成模型，对所述语音问题和所述目标上下文文本进行跨模态学习，得到所述语音问题对应的答案。

2.根据权利要求1所述的处理方法，其特征在于，所述思维链生成模型包括：

第一文本编码模块，用于对输入的上下文文本进行编码，得到上下文文本表示向量；

第一语音编码模块，用于对输入的语音问题进行编码，得到语音问题表示向量；

第一跨模态学习模块，用于基于注意力机制，对所述上下文文本表示向量和所述语音问题表示向量进行跨模态特征学习，得到文本跨模态向量和语音跨模态向量；

思维链学习模块，用于基于所述文本跨模态向量和所述语音跨模态向量进行思维链自回归学习，得到用于表示输入的语音问题的解决思路的思维链。

3.根据权利要求1所述的处理方法，其特征在于，所述答案生成模型包括：

第二文本编码模块，用于对输入的目标上下文文本进行编码，得到目标上下文文本表示向量；

第二语音编码模块，用于对输入的语音问题进行编码，得到语音问题表示向量；

第二跨模态学习模块，用于基于注意力机制，对所述目标上下文文本表示向量和所述语音问题表示向量进行跨模态特征学习，得到目标文本跨模态向量和语音跨模态向量；

答案学习模块，用于基于所述目标文本跨模态向量和语音跨模态向量进行答案学习，得到输入的语音问题对应的答案。

4.根据权利要求1所述的处理方法，其特征在于，

在所述思维链生成模型的训练阶段，基于人工标注思维链作为训练标签，对所述思维链生成模型的参数进行调整；

在所述答案生成模型的训练阶段，基于真实答案作为训练标签，对所述答案生成模型的参数进行调整。

5.根据权利要求1-4中任一项所述的处理方法，其特征在于，还包括：

基于文本-语音转换模型，对文本形式的答案进行语音转换处理，得到所述答案对应的语音回复结果。

6.一种构建跨模态问答模型的方法，其特征在于，包括：

获取目标问答场景下训练集内的上下文文本和对应的语音问题；

将所述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对所述思维链生成模型的参数进行调整；

将所述上下文文本和所述目标思维链进行拼接，得到目标上下文文本；

将所述语音问题和所述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对所述答案生成模型的参数进行调整；

根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

7.根据权利要求6所述的方法，其特征在于，根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型，包括：

将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，所述答案生成模型的另一个输入为语音问题，将所述答案生成模型输出的答案作为所述跨模态问答模型的输出；或者，

将训练完成的思维链生成模型的输出与输入的上下文文本进行拼接后作为训练完成的答案生成模型的一个输入，所述答案生成模型的另一个输入为语音问题，将所述答案生成模型的输出作为文本-语音转换模型的输入，将文本-语音转换模型输出的语音回复结果作为所述跨模态问答模型的输出。

8.一种基于思维链的跨模态问答的处理方法，其特征在于，包括：

获取目标问答场景下的语音问题和对应的上下文文本；

将所述语音问题和所述上下文文本输入至预先构建好的跨模态问答模型中，输出所述语音问题对应的答案；所述答案为文本形式或语音形式；所述跨模态问答模型采用权利要求6或7所述的方法构建得到。

9.一种基于思维链的跨模态问答的处理装置，其特征在于，包括：

信息获取模块，用于获取目标问答场景下的语音问题和对应的上下文文本；

第一处理模块，用于基于预训练好的思维链生成模型，对所述语音问题和所述上下文文本进行跨模态学习，得到用于表示所述语音问题的解决思路的思维链；

第一拼接模块，用于将所述上下文文本和所述思维链进行拼接，得到目标上下文文本；

第二处理模块，用于基于预训练好的答案生成模型，对所述语音问题和所述目标上下文文本进行跨模态学习，得到所述语音问题对应的答案。

10.一种构建跨模态问答模型的装置，其特征在于，包括：

信息获取模块，用于获取目标问答场景下训练集内的上下文文本和对应的语音问题；

第一训练模块，用于将所述上下文文本和对应的语音问题输入至待训练的思维链生成模型进行跨模态学习训练，输出用于表示对应语音问题的解决思路的目标思维链；训练过程中，基于人工标注思维链作为训练标签，对所述思维链生成模型的参数进行调整；

第二拼接模块，用于将所述上下文文本和所述目标思维链进行拼接，得到目标上下文文本；

第二训练模块，用于将所述语音问题和所述目标上下文文本输入至待训练的答案生成模型进行跨模态学习训练，输出对应语音问题的答案；训练过程中，基于真实答案作为训练标签，对所述答案生成模型的参数进行调整；

模型生成模块，用于根据训练完成的思维链生成模型和答案生成模型，生成跨模态问答模型。

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。